скачать книгу бесплатно
Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…
Никита Сергеев
Когда люди не инженерных специальностей слышат «аналитика и Data Science», то представляют разное. Кто-то видит таблицы и графики. Кто-то неподъемно сложные математические формулы. Кто-то программирование и искусственный интеллект…Но истоки этих понятий из области статистики, которая делится на описательную и аналитическую.И эта кажущаяся непостижимой аналитика – на самом деле нескучная, интересная и простая вещь. Чтобы ею пользоваться, не нужно ни изучение сложных формул, ни программирования…
Аналитика и Data Science
Для не-аналитиков и даже 100% гуманитариев…
Никита Сергеев
© Никита Сергеев, 2022
ISBN 978-5-0050-0734-6
Создано в интеллектуальной издательской системе Ridero
_____________________
Большинство людей услышав о статистическом анализе представляют или технарей, или ученых, изучающих закономерности. Но статистика применяется далеко за пределами научных лабораторий: в рекламе, маркетинге, бизнесе, менеджменте, политике, образовании и т. д. А базовые знания анализа данных крайне полезны и в повседневной жизни.
И неважно какую должность Вы занимаете и какой род Вашей деятельности: в современном мире в любой профессии вероятность столкнуться с цифрами, большими объемами данных и поиском в них закономерностей с каждым днем стремительно мчится к 1 (или к 100%).
Эта книга – это Ваша возможность попробовать «на вкус и ощупь» кажущийся таким невообразимо сложным и непонятным мир цифр и статистического анализа.
Книга вводит профессионалов из не-технических наук (менеджеры, гуманитарии, психологи, социологи, культурологи, экономисты, политтехнологи и т.д.) в захватывающий цифровой мир статистики и вероятностей – и поможет легко в нем ориентироваться, пользоваться и не бояться.
Она написана от простого к сложному так, что способствует погружению в аналитику и Data Science (наука о данных) совсем не «техническо-инженерных» людей. Людей, казалось бы, совершенно далеких от этой очень прикладной дисциплины: менеджеров, гуманитариев и профессионалов социально-экономических дисциплин.
Невзирая на то, что сама книга о прикладной дисциплине и написана экспертом по анализу данных, владеющим всеми статистическими программами (от обычного Excel до SPSS) и языком программирования R, – она совершенно не техническая.
Книга НЕ содержит языка программирования R или Python.
НЕ пестрит запросами к базам данных.
В ней НЕТ теории вероятностей, невообразимых математических формул и матстатистики…
Книга о прикладных практических инструментах, которые любой человек сможет сразу же использовать на рабочем месте, в жизни, в своих собственных исследованиях…
После ее изучения Вы сможете применять современные методы статистического анализа на практике, а также будете легко находить и видеть скрытые закономерности среди любых объемов данных, строить предсказывающие (прогностические) модели, добывать из цифр знания и информацию для принятия решений.
Автор книги – управленческий консультант с 20-летним опытом ведения консалтинговых проектов для крупнейших компаний по всему миру. Ведущий русскоязычный инструктор по инструментам ведения бизнеса и менеджменту на международной платформе UDEMY
https://www.udemy.com/user/nikita-sergeev-2/ (https://www.udemy.com/user/nikita-sergeev-2/)
В основу книги положены самые современные материалы, которые использовались в разных проектах (трансформация бизнес- и операционных моделей, M&A, реинжиниринг процессов, оптимизация численности, маркетинговые и социологические исследования, исследования персонала, разработка психодиагностического инструментария и тестов, анализ и прогнозирование и т.д.) и читались на специализированных МВА программах. В том числе, и в специализированных русскоязычных курсах по аналитике на международной платформе он-лайн образования UDEMY.
Книга будет полезна любому, кто хочет научиться работать с данными – будь Вы жаждущий освоить статистику новичок или профессионал, желающий систематизировать знания или «освежить память».
Информация в книге в основном ориентирована на социально-экономические дисциплины, но рассматриваемые в ней методы анализа являются универсальными и подходят для компьютерных наук, промышленности, оценки качества, прогнозирования рисков, медицины, физики, химии, фармакологии, биомедицины, биотехнологий, генетики и т. д.
От автора
Почему я решил написать эту книгу? Наверное, по той же причине, по которой помимо основного рода деятельности и образования веду, казалось бы, довольно далекие от них курсы и мастер-классы по анализу данных как для сотрудников и менеджмента корпораций, так и в открытом доступе на международной образовательной платформе UDEMY для всех желающих.
Современный мир, общество и компании – это данные, данные и данные. И их объемы на сегодня настолько обширны, что понять в них закономерности и строить прогнозы невооруженным глазом совершенно невозможно.
Я уже более 20 лет работаю с широким кругом менеджеров и профессионалов из разных стран, отраслей и организаций. И почему-то подавляющим большинством принято считать, что анализ данных – это нечто сакрально сложное и доступное только математикам, ИТшникам и инженерам. А менеджерам, гуманитариям и профессионалам социально-экономических наук это знание непостижимо.
Но это миф. Свой профессиональный путь я начинал именно с анализа данных будучи еще студентом-психологом – анализировал результаты социологических и маркетинговых исследований для международных компаний, а также помогал академикам, кандидатам и докторам различных наук готовить практические части их диссертаций.
Я отчетливо помню, как в 90-х молодыми студентами мы все со страхом шли на первую лекцию страшнейшего для психологов предмета – «Математические методы в психологии». Но по факту предмет оказался совершенно несложным, а также поистине захватывающим и увлекательным.
С того времени уже много воды утекло… Я прослужил в вооруженных силах (помотался по ПВО, ВВС и ядерным войскам). Отработал в бизнесе на должностях старшего и высшего менеджмента от менеджера по маркетингу и оргразвитию до управляющего партнера по стратегии, слияниям и поглощениям. Сопровождал десятки одних из самых крупных в СНГ трансформационных проектов и реорганизаций. Обзавелся женой и 4 детьми. Набрал лишние 30 кило…. А также нашел то, что меня увлекает помимо научных исследований и инвестиций в области биотехнологий и медицины – я стал управленческим консультантом и занимаюсь трансформационными проектами для крупных корпораций.
Надеюсь, эта книга увлечет Вас анализом цифр и данных, выглядящих для многих не-технических профессионалов такими скучными, пресными, сложными и непонятными…
Я хочу, чтобы каждый читатель уловил: статистика и аналитика пронизывают как компании любого размера (будь то крупная транснациональная корпорация, небольшая фирма или стартап), так и практически любую современную область знаний. С каждым днем все сложнее становится провести границу между любой современной профобластью (от биологии и медицины до управления организациями и персоналом) и аналитикой. А все социально-экономические исследования практически неотделимы от сравнений выборок, корреляционного, факторного и регрессионного анализа.
Поэтому чем бы Вы ни планировали заниматься – вероятность необходимости использования статистики и анализа данных в современном мире с каждым днем становится все ближе и ближе к 1 или 100%.
Анализ данных у всех на слуху и на сегодня это один из самых востребованных навыков в любых сферах. Однако, как я наблюдаю, зачастую работа с данными не вызывает восторга ни у студентов, ни у сотрудников нетехнических специальностей, ни у менеджмента. Но в этой книге Вы увидите, что на самом деле аналитика и поиск закономерностей в данных – очень занимательная штука (да и не такая уж и сложная).
Начнется книга с довольно широкого и немного философского контекста – вначале я вкратце расскажу важность моделей исследуемых объектов для правильного построения гипотез, анализа и объяснения результатов. Также остановлюсь на разграничении того, что является, а что не является аналитикой. И пройдусь по основным понятиям статистики.
Далее мы с Вами сфокусируемся на анализе данных и поиске в них скрытых закономерностей. Мы рассмотрим те методы, которые Вы после каждой главы сможете сразу же применять в работе. Этому, по сути, и будет посвящена основная часть книги.
А поскольку сейчас понятие Data Science (наука о данных) и анализ данных плавно вплетены в такую область как машинное обучение (Machine Learning – ML) и искусственный интеллект (Artificial Intelligence – AI) – то напоследок я расскажу и обо всем этом новоязе.
В основной части книге я отобрал современные наиболее ходовые в социально-экономических направлениях методы анализа данных. К ним привел конкретные примеры использования в моей практике. Но, помимо этого, написал немного о подготовке массивов к анализу, а также об основных функциях Excel, которыми покрываются 90% бизнес-задач.
Оговорюсь, что написать об Excel – это скорее вынужденная мера. Просто часто после курсов и тренингов менеджеры и специалисты не-технических дисциплин задают мне вопросы как решить ту или иную «аналитическую» задачу – а большинство этих «аналитических» задач решается условно 5 основными функциональностями Excel.
Книгу я старался написать так, чтобы любой читатель, независимо от уровня подготовки в части аналитики, и уловил основные концепции, и освоил прикладные методы.
Каждый раздел книги структурирован таким образом, чтобы Вы не только ориентировались в методах, а и легко соотносили их с решаемыми аналитическими задачами. В книге в практическом русле рассматриваются те методы и инструментарий, которые покрывают львиную долю аналитических бизнес-задач и которыми Вы самостоятельно сможете пользоваться в работе.
Но тем, кто хочет всерьез освоить тему, а не просто прочесть «еще одну умную книгу», настоятельно рекомендую сразу же после каждого разделаотрабатывать все методы на практике. Для этого у Вас под рукой будет Excel и программа PSPP (распространяется в открытом доступе официальная статистическая программа). А также массивы данных (считай таблички и выгрузки с данными в Excel) из Вашей профессиональной деятельности – отрабатывайте методы сразу прямо на них. Ну и эта книга сожержит инструкции по работе как с Excel, так и с PSPP для каждого метода – так что по сути является одновременно и самоучителем.
О, подумал кто-то, обещали простоту – а только начали читать, и уже появилась какая-то страшная аббревиатура …PSPP… Многие пугаются, что надо будет изучать дополнительное программное обеспечение – «Давай Excel, он есть у всех!».
Да, можно реализовывать всю аналитику и в офисном приложении Excel. Но, боюсь, после этого Вы возненавидите аналитику (а аналитика – это не таблички-диаграммы или дашборды со средними и %: мы об этом еще отдельно поговорим). Особенно после того, как будете 99% времени тратить на написание скриптов и формул в Excel, которые никто кроме Вас неспособен будет прочесть. Или от безысходности найдете выход в покупке недешевых специальных надстроек к Excel.
PSPP не страшнее Excel (даже на порядок проще). А кроме того, эта программа аналогична такому коммерческому IBM’овскому программному продукту как SPSS, который широко используется аналитиками крупных корпораций и международных исследовательских агентств. Научившись работать в PSPP – Вы считай умеете работать и в SPSS. А это очень ценный прикладной навык для не-технических профессий.
Возможно, после прочтения книги кто-то захочет послушать лекции и посмотреть как аналитика работает «вживую» для решения разных задач (от маркетинга и сегментации клиентов до вопросов управления персоналом), а также выполнить практические упражнения на «живых» примерах. Приходите на он-лайн курс «Аналитика и Data Science для менеджеров и гуманитариев» на крупнейшей образовательной платформе UDEMY:
https://www.udemy.com/analytics-and-data-science/?couponCode=BOOK_READER (https://ridero.ru/link/w2Ndey8ll1O8PL)
Даже если Вы просто взяли полистать эту книгу любопытства ради, но аналитика, невзирая на все доводы, пока совершенно не из области Вашего интереса – то книга все-равно попала в Ваши руки не зря. Наверняка у Вас есть знакомые, которым книга станет полезной – поделитесь с ними информацией о ней.
ОКОЛО-АНАЛИТИЧЕСКИЕ РАЗГОВОРЫ
Бизнес-жаргон: статистика, метрики, Dashbord
, KPI
… и аналитика
Для не-технических специалистов аналитика – понятие обычно обширное и часто включающее то, что является «совсем не очень аналитикой». Дам небольшое разъяснение понятий (по крайней мере, как их следует трактовать исходя из предмета данной книги).
Хочу внести ясность, поскольку время от времени наблюдаю как нахватавшиеся фраз сотрудники компаний путают одно с другим и часто, имея ввиду одно, говорят совершенно о другом. Хотелось бы дополнительно расставить точки над «Ё» в части одинакового понимания и ожиданий читателей того, что они найдут (или не найдут) в этой книге.
Сначала пройдемся по четырем моментам, которые в бизнесе порою жестко ассоциированы с аналитикой. Но таковой они не являются. Они все отражены на рис. 1.
Рис. 1. Важные вещи: но это – не аналитика…
В бизнесе слово статистика используется повсеместно. Часто можно услышать при постановке задачи сотруднику от руководителя – «Приготовь статистику». Речь в таком случае идет не о науке, а о том, чтобы приготовить какие-то отчеты с определённым набором количественных данных за период.
Объем продаж, количество клиентов, численность предприятия, число визитов на сайт, количество лайков в соцсети…. Т.е., это любые данные, накопленные за период времени.
Еще одно избитое в менеджменте слово метрики. Это определенные показатели, которые являются производными от данных. Обычно их получают простыми формулами путем вывода %, суммирования, отнимания, деления или умножения одного статистического показателя на другой. Но иногда бывают более сложные формулы. Метрики уже могут отражать эффективность процессов, активностей, управления, предприятия и т. д.
Например, «3 основные бизнес-метрики нашего стартапа», или «наши HR-метрики показывают неэффективное использование бюджета на персонал». Примерами метрик могут служить такие показатели как конверсия, HR ROI, отток / текучесть клиентов или персонала, % лайков от просмотров, количество ошибок на 1000 транзакций и т. д.
Метрика позволяет отвечать на вопросы «хорошо или плохо», «эффективно или неэффективно».
Дашборд (Dashboard) – это дословно панель приборов, т.е. интерфейсное представление или форма, в которую выводится набор метрик или данных, важных для отслеживания хода операционной деятельности или эффективности бизнеса.
Сюда отбираются те метрики и данные главного процесса (value chain), изменение которых требует вмешательства и принятия управленческих решений.
KPIs (Key Performance Indicators) – они же ключевые показатели эффективности. Все хотят, чтобы они были количественными в виде метрик или «статистик». Но на практике часто используют и качественные. Каждый количественный KPIs – по сути метрика. Но не каждая метрика является KPI. Т.е., в KPIs попадают только именно ключевые для определённого периода (обычно года) метрики или данные.
Аналитика – это слово во многих организациях используют, зачастую подразумевая данные за период или метрики.
Но аналитика – это совсем другого рода вещь. Это поиск скрытых закономерностей и построения прогностических (предсказывающих, предиктивных) алгоритмов посредством конкретного набора аналитических инструментов. Аналитика проверяет модели на прочность или позволяет находить новые модели исследуемых объектов или процессов.
В книге мы не будем говорить о метриках. Кто решил ее прочесть с ожиданием разобраться как правильно подобрать метрики под компанию, процесс, продукт, систему… – Вам не сюда.
И в книге мы вообще никаким образом не будем касатьсяни KPIs, ни построения Dashboard-ов. Потому что эти вопросы вообще к анализу данных и аналитике не имеют отношения. Это чистой воды вопросы систем управления.
В общем, если даже прочитав аннотацию и предыдущие разделы Вы все еще надеетесь узнать в книге как подбирать эффективные метрики, формировать KPIs и дашборды для компании, функции, процесса или продукта – оставьте Вашу надежду, ибо в этих вопросах данная книга никак не поможет.
В части данных – мы обзорно коснемся формирования правильных массивов данных, с которыми можно «по-человечески» работать. Но перечислять какие данные обычно собираются для тех или иных направлений (продажи, маркетинг, производство, HR, социология и т.д.), для чего их использовать и в каких расчетах применять, как организовать хранилища данных – эти вопросы также не из тематики книги.
Книга также почти не касается вопросоввизуализации данных (хотя даже эту тему многие считают аналитикой) – это вопросы обработки и представления данных / информации, но не аналитики.
А вот, собственно говоря, аналитике, набору современных инструментов для поиска скрытых закономерностей и прогностического анализа и будет посвящена книга.
Книга поможет тем, кто хочет, к примеру, научиться с определенной долей вероятности отвечать на такие вопросы:
· Будет ли соискатель эффективен на должности продавца?
· Как долго будет клиент пользоваться услугами компании?
· Кто из клиентов в ближайшее время перестанет пользоваться услугами?
· Насколько понизится мотивация персонала при снижении удовлетворенности возможностями карьерного роста?
· Что повлияло на выбор того или иного кандидата в президенты?
· Вернет ли потенциальный заемщик кредит?
· И т. д.
Глава с двумя оговорками для высшего менеджмента
В этом разделе речь все о том же, что не входит в предмет данной книги, но сквозь «другие очки» – «вид сверху» глазами высшего руководства компании.
Этот раздел в дополнение к предыдущему написан специально для представителей высшего менеджмента («злые языки» говорят, что для отпугивания нежелающих делать своими руками).
Книга не покрывает такие вопросы менеджмента как:
· устройство и построение корпоративных систем аналитики (построение аналитических функций в компаниях)
· оценка уровня зрелости аналитической функции компании
УСТРОЙСТВО И ПОСТРОЕНИЕ КОРПОРАТИВНЫХ СИСТЕМ АНАЛИТИКИ (ПОСТРОЕНИЕ АНАЛИТИЧЕСКИХ ФУНКЦИЙ В КОМПАНИЯХ).
Многие компании путают аналитику с тем, как внедрить и управлять аналитической функцией по всему предприятию. Путать корпоративную систему аналитики с непосредственно аналитикой – то же самое, что путать корпоративную систему управления проектами с непосредственным управлением проектом.
Корпоративная аналитическая система – это и корпоративная методология, и аналитические спецподразделения (офисы), и процессы, и оборудование с программным обеспечением и т. д. И тема эта вообще из области проектирования организаций, а не аналитических методов и инструментария.
Но в рамках данной книги будут наборы методов прогностической аналитики и поиск инсайтов с применением простых описательных статистик. Это то, что отдельно взятый человек может своими руками использовать на своем рабочем месте или в жизни. Эти методы могут внедряться в корпоративных системах аналитики как отдельные компоненты, но они никак не заменитель всей системы или ее элементов.
В общем, книга не о корпоративных системах аналитики.
УРОВЕНЬ ЗРЕЛОСТИ АНАЛИТИЧЕСКОЙ ФУНКЦИИ КОМПАНИИ.
В бизнес-структурах аналитикой, как я упоминал в предыдущей главе, называют все что угодно: от просто данных и до KPIs с Dashboard’ами. И «ноги растут» от того же понимания уровня развития/зрелости аналитических функций в организациях, который не предмет данной книги.
Об уровнях зрелости упомяну только здесь и один раз. Когда я анализирую уровень зрелости аналитической функции в компании, то базируюсь на используемых уровных PWC (Price Waterhouse Coopers):
Уровни зрелости аналитической функции
Это на самом деле достаточно общий подход, но PWC активно с ним работают, потому приписываю его им.
Здесь первый уровень – уровень данных – обозначает способность предприятия извлекать данные и иметь отчеты с констатацией и описанием того «что есть на сегодня и уже случилось». Здесь вовсю фигурируют всем известные отчеты с накопленными данными за периоды (в них не особо заморачиваясь могут также накладывать линейные линии трендов).
Два следующих – метрики с отчетами и диагностика (сюда же относятся дашборды и бенчмарки) – обозначают, что компания может осуществить диагностику и понять «почему случилось и насколько все плохо\хорошо». Эти два уровня, кстати, в более ранних версиях были объединены в один уровень. Вот здесь уже вовсю работают описательные статистики, в том числе процентили, квартили, моды, медианы, средние и т. д. В книге мы рассмотрим методы описательной статистики, которые читатель сможет использовать, но не будем рассматривать как их визуализировать, строить дашборды или «нарезать» KPIs.