
Полная версия:
Аналитическая культура. От сбора данных до бизнес-результатов
Данные отчетов информируют, что произошло в прошлом. Кроме того, они могут быть тем фундаментом, с которого можно наблюдать за изменениями и тенденциями. Они могут представлять интерес для инвесторов и акционеров, но в целом это ретроспективный взгляд на ситуацию. Для управления на основе данных нужно двигаться дальше. Необходимо прогнозировать развитие ситуации, на основе анализа стараться понять, почему меняются показатели, и, где возможно, проводить эксперименты для сбора данных, которые могут помочь понять причины.
Давайте сравним два этих понятия. Вот варианты их возможных определений.
Отчетность – процесс организации данных в информационные сводки для отслеживания того, как функционируют разные сферы бизнеса[10].
Анализ — преобразование данных в выводы, на основе которых будут приниматься решения и осуществляться действия с помощью людей, процессов и технологий[11].
Отчет показывает, что произошло: в четверг в 10:03 на сайте наблюдалось максимальное число посетителей – 63 000 человек. Он дает конкретные цифры.
Анализ показывает, почему это произошло: в 10:01 о компании упомянули в ТВ-шоу 60 Minutes, – и рекомендует, что компании следует делать, чтобы оставаться примерно на этом же уровне.
Отчеты ретроспективны, анализ дает рекомендации.
В табл. 1.1 суммированы отличия между этими понятиями. Теперь должно быть очевидно, почему анализ и управление на основе данных – настолько важный компонент ведения бизнеса. Это факторы, способные дать компании новые направления развития или вывести ее на новый уровень эффективности.
Таблица 1.1. Основные характеристики отчета и анализа

Источник: взято преимущественно у Б. Дайкса
Полезно для понимания аналитики ознакомиться с работой Т. Дэвенпорта и др. (см. табл. 1.2)[12].
Таблица 1.2. Гипотетические основные вопросы, на которые отвечает аналитика, по Дэвенпорту (на основе работы Дэвенпорта и др., 2010). Пункт D представляет собой ценную аналитику, пункты E и F обеспечивают управление на основе данных, если эта информация стимулирует конкретные действия (подробнее об этом ниже).

В нижнем ряду таблицы отражены действия, приводящие к выводам. Как уже отмечалось ранее, составление отчетов (А) и оповещение (В) – не управление на основе данных: они отмечают, что уже произошло или что необычное или нежелательное происходит сейчас, но при этом не дают объяснений, почему это произошло или происходит, и не дают рекомендаций по улучшению ситуации. Предвестником управления на основе данных служит дальнейшее изучение причинно-следственных связей с помощью моделей или экспериментов (D). Только понимая причины произошедшего, можно сформулировать план действий или рекомендации (Е). Пункты E и F обеспечивают управление на основе данных, но только если полученная информация стимулирует конкретные действия.
(Пункт С представляет собой опасную зону, поскольку слишком велик соблазн распространить существующий тренд на будущее: в Excel выберите «Диаграмма» (Chart), нажмите «Добавить линию тренда» (Add trendline) – и вот вы уже экстраполировали текущие данные на другие ячейки и делаете необоснованные прогнозы. Даже при обдуманном выборе функциональной формы модели может быть множество причин, почему этот прогноз ошибочен. Для уверенности в прогнозах следует использовать модель учета причинно-следственных связей. Подробнее об этом типе анализа – в главе 5.)
Итак, в нижнем ряду таблицы отражены перспективные виды деятельности, включающие элементы причинно-следственного объяснения. Теперь мы переходим к тому, что означает управление на основе данных.
Критерии управления на основе данных
Для компаний с управлением на основе данных характерны виды деятельности, перечисленные ниже.
• Эти компании постоянно проводят различные тестирования, например A/B-тестирование на сайте или тестирование заголовков в электронной рассылке маркетинговой кампании. Социальная сеть LinkedIn, например, проводит до 200 тестирований в день, сайт электронной коммерции Etsy одновременно может проводить до десяти тестирований. Тестирование иногда проводится непосредственно с участием конечных пользователей, чтобы компания могла получить прямую обратную связь относительно потенциальных новых характеристик или новых продуктов.
• Тестирования направлены на постоянное совершенствование деятельности компании и ее сотрудников. Это может быть постоянная оптимизация основных процессов, например сокращение производственного процесса на несколько минут или снижение цены за конверсию, что становится возможным благодаря тщательному анализу, специально разработанным математическим или статистическим моделям и симуляции.
• Компании могут заниматься прогнозным моделированием, прогнозированием объема продаж, курса акций или выручки, но, что самое важное, они используют собственные прогнозные ошибки для улучшения своих моделей (см. главу 10).
• Практически всегда они выбирают среди будущих вариантов или действий на основе набора взвешенных показателей.
Ресурсы всегда конечны, и всегда есть аргументы за и против разных рациональных способов действий. Для принятия окончательного решения необходимо собрать данные для каждого набора показателей, которые тревожат или интересуют компанию, и определить их значимость. Например, когда компания Warby Parker собиралась открывать первый офис за пределами Нью-Йорка, то комплексно рассматривала и оценивала целый ряд переменных в отношении нового места: индекс благополучия Gallup (Well-being index), кадровый потенциал, прожиточный уровень, стоимость билетов до Нью-Йорка и так далее. Марисса Майер (CEO компании Yahoo!) делилась похожей историей: как она выбирала между разными предложениями о работе и приняла решение работать в компании Google[13].
Компания с управлением на основе данных будет делать хотя бы что-то из перечисленного, что направлено на будущее и имеет акцент на данных.
Итак, у нас в компании есть качественные данные и квалифицированные специалисты по работе с этими данными, которые занимаются деятельностью, направленной на перспективу. Теперь-то нас можно назвать компанией с управлением на основе данных?
К сожалению, не совсем. Это все равно что в лесу падает дерево, но никто этого не слышит. Если специалисты по работе с данными проводят анализ, но никто не обращает на него внимания, и если результаты этого анализа никак не отражаются на процессе принятия решений в компании, то это нельзя считать управлением на основе данных. Специалисты по работе с данными должны информировать тех, кто принимает решения, и последние должны делать это, учитывая результаты работы аналитиков.
Дайкс предлагает термин «аналитическая цепочка ценности» (см. рис. 1.3). Данные ложатся в основу отчетов, которые будут способствовать проведению более глубокого анализа. Результаты анализа предоставляются лицам, принимающим решения, и процесс принятия решений строится на их основе. Это ключевой шаг. Данные и результаты анализа, о которых идет речь, требуются для принятия решения, способного повлиять на стратегию или тактику компании или ее развитие.

Рис. 1.3. Аналитическая цепочка ценности (по Дайксу, 2010). В компании с управлением на основе данных данные ложатся в основу отчетов, способствующих проведению более глубокого анализа. Результаты анализа влияют на процесс принятия решений, определяющий направление, в котором движется компания, и обеспечивающий ценность
Источник: https://blogs.adobe.com/digitalmarketing/analytics/reporting-vs-analysis-whats-the-difference/
Технологии и обучение могут обеспечить первую часть плана: помочь специалистам по работе с данными с проведением анализа и представить результаты этого анализа. Однако именно от корпоративной культуры компании зависит, обратят ли на данные и результаты анализа внимание, будут ли им доверять и предпринимать на их основе конкретные действия.
Наконец мы добрались до самого важного аспекта, определяющего управление на основе данных. Для компании с управлением на основе данных именно данные – основной фактор, обусловливающий стратегию и влияющий на нее. В такой компании формируется конструктивная корпоративная культура, при которой данным доверяют, а результаты анализа бывают высокозначимыми, информативными и используются для определения следующих шагов.
В этом-то и заключается сложность. Если решения в компании принимаются на основе интуиции, как вывести ее на уровень управления на основе данных? Это процесс нелегкий и небыстрый, поэтому не стоит ожидать мгновенных изменений, однако все сотрудники компании могут внести свой вклад в этот процесс. Мы рассмотрим несколько способов, как стимулировать развитие в компании управления на основе данных.
Зрелость аналитических данных
В 2009 году Джим Дэвис, старший вице-президент и директор по маркетингу SAS Institute, выделил восемь уровней аналитических данных[14].
Стандартные отчеты
Что произошло? Когда произошло? Например, ежемесячные финансовые отчеты.
Ad hoc[15] отчеты
Как много? Как часто? Например, специальные отчеты.
Детализация по запросу (или интерактивная аналитическая обработка, OLAP)
В чем конкретно проблема? Как найти ответы? Например, исследование данных о типах сотовых телефонов и поведении их пользователей.
Оповещения
Когда нужно действовать? Какие действия нужно предпринять немедленно? Например, загрузка ЦП, о которой говорилось ранее.
Статистический анализ
Почему это происходит? Какие возможности я упускаю? Например, почему все больше клиентов банков перекредитовываются для выплаты ипотеки.
Прогнозирование
Что, если этот тренд продолжится? Какой объем потребуется? Когда он потребуется? Например, компании, работающие в розничной торговле, могут прогнозировать спрос на продукты в зависимости от магазина.
Прогнозное моделирование
Что произойдет дальше? Как это повлияет на бизнес? Например, казино прогнозируют, кто из VIP-посетителей будет больше заинтересован в конкретных пакетных предложениях по отдыху.
Оптимизация
Как улучшить наши процессы? Какое решение сложной проблемы будет самым эффективным? Например, каков лучший способ оптимизировать ИТ-инфраструктуру с учетом многочисленных конфликтующих ограничений с точки зрения бизнеса и ресурсов?
Представленные идеи формируют график из книги Дэвенпорта и Харриса Competing on Analytics (2006)[16],[17], как показано на рис. 1.4.

Рис. 1.4. «Бизнес-информация и аналитика» из книги Дэвенпорта и Харриса Competing on Analytics
Источник: HBR Press, ранее взято из уровней аналитических данных Джима Дэвиса
(Как видите, табл. 1.2 основана на этом графике. Можно соотнести первые четыре уровня графика с верхним рядом таблицы, а вторые четыре – с нижним рядом.)
Мне нравится общая концепция и названия. Однако, исходя из того, как Дэвис (2009) и Дэвенпорт и Харрис (2007) представили свои идеи, особенно с большой восходящей стрелой, можно интерпретировать эти уровни как последовательность, своего рода иерархию, где подняться на следующий уровень можно только при условии прохождения предыдущего.
Эту псевдопрогрессию часто называют зрелостью аналитических данных. Если забьете в поисковую строку Google ключевые слова «analytics maturity», то поймете, что я имею в виду. Многочисленные специалисты представляют этот график как набор последовательных шагов для достижения цели, где односторонние стрелки указывают переход на новый уровень.
Аналитическая работа отличается от этого представления: в одно и то же время разные подразделения компании могут проводить анализ разной степени сложности.
Рон Шевлин рационально отмечает[18]:
С точки зрения возможностей нет причин, почему компания не может прогнозировать, например, объем продаж («уровень» 6), не зная, в чем конкретно «проблема» с продажами («уровень» 3)… Но как я, будучи руководителем, должен отвечать на вопрос «Какие действия нужно предпринять немедленно?» без понимания «Что будет, если этот тренд продолжится?» и «Что произойдет дальше?» («уровни» 6 и 7)?
Мне кажется, верный способ интерпретации – подумать о том, что максимальный уровень развития аналитики в компании положительно коррелирует с уровнем инвестиций в аналитику, использованием данных и прочими составляющими аналитической конкурентоспособности, о которой говорят Дэвенпорт и Харрис. Например, если аналитическая команда состоит из кандидатов и докторов наук, перед которыми поставлена задача оптимизировать глобальную цепочку сбыта, очевидно, что компания серьезно инвестирует в направление работы с данными. Если в компании принято работать только с оповещениями и специальными отчетами, значит, она в меньшей степени инвестирует в аналитическое направление и для нее в меньшей степени характерно управление на основе данных.
Можно предположить, что более сложная аналитика по умолчанию лучше и что она способна сделать компанию более конкурентоспособной. Так ли это на самом деле? В интереснейшем исследовании[19], проведенном MIT Sloan Management Review совместно с IBM Institute for Business Value, были опрошены 3 тыс. руководителей и специалистов по работе с данными в 30 отраслях: как они используют аналитическую работу и что думают о ее ценности?
Один из вопросов касался конкурентного положения компании на рынке, и для него были предложены четыре ответа:
1) значительно лучше, чем у других компаний отрасли;
2) несколько лучше, чем у других компаний отрасли;
3) наравне с другими компаниями;
4) несколько или значительно хуже, чем у других компаний отрасли.
Компании, выбравшие первый и четвертый варианты ответов, считались лидерами и аутсайдерами отрасли соответственно. Что интересно, от аутсайдеров компании-лидеры отличались следующим:
• в пять раз чаще использовали аналитику;
• в три раза чаще использовали продвинутую аналитику;
• в два раза чаще использовали аналитику для управления своей операционной деятельностью;
• в два раза чаще использовали аналитику для составления стратегий будущего развития.
Несомненно, есть факторы, осложняющие эту методологию. Во-первых, так называемая ошибка выжившего[20]. Во-вторых, корреляция между успешностью компании и ее размером (насколько известно, выручка компаний, участвовавших в опросе, была в диапазоне от менее 500 млн до более чем 10 млрд долл.). Возможно, только у более крупных и более успешных организаций имелось достаточно ресурсов на создание и обеспечение функций аналитических отделов, способных на разработку моделей для имитационного моделирования цепочки поставок. Тем не менее все пришли к единому мнению, что более качественная и глубокая аналитика повышает ценность бизнеса.
Авторы исследования выделили три уровня аналитических возможностей: желательный, опытный, преобразованный. Их краткие характеристики приведены в табл. 1.3.
Таблица 1.3. Уровни аналитических возможностей: желательный, опытный, преобразованный

Источник: взято и изменено: http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/
От организаций, находящихся на желательном уровне, организации, находящиеся на преобразованном уровне, отличаются тем, что в них:
• в четыре раза выше вероятность качественного отбора информации;
• в девять раз выше вероятность качественной обработки информации;
• в восемь раз выше вероятность качественного анализа;
• в десять раз выше вероятность качественного распространения информации;
• на 63 % чаще используют централизованные аналитические отделы в качестве основного источника аналитических данных (об аналитических организационных структурах речь пойдет в главе 4).
Конечно, в этом случае также наблюдается сложное взаимодействие между причинами и следствием, но взаимосвязь между конкурентным положением компании на рынке относительно других игроков и уровнем аналитической работы, проводящейся в ней, очевидна.
Так что же тогда мешает компаниям активно применять аналитические инструменты? Два из трех наиболее распространенных ответов на этот вопрос – недостаток понимания, как использовать аналитические данные, и недостаток навыков аналитической работы внутри компании (см. рис. 1.5).

Рис. 1.5. Ответы на вопрос «Что становится основным препятствием для активного использования информации и аналитических данных в вашей компании?»
В этих ответах перечислены причины, с которыми может справиться любой специалист-аналитик. Например, аналитики могут помочь сотрудникам «прокачать» необходимые навыки, и они сами могут более активно доносить ценность аналитической работы до руководителей. Они могут проводить больше исследований и приводить практические примеры, как другим компаниям удалось справиться с похожими трудностями в бизнесе при помощи аналитики. Руководители специалистов по сбору и обработке данных могут выделить ресурсы на улучшение качества данных, чтобы они ни у кого не вызывали сомнения. Руководители высшего звена могут стимулировать увеличение обмена данными внутри компании, а также отдельно назначить человека, отвечающего за это направление, например CAO или CDO (подробнее об этом в главе 11). В этом процессе каждый играет свою роль.
Краткий обзор
На всех этих аспектах мы остановимся подробнее в следующих главах. Во-первых, мы изучим сырые и агрегированные данные и их качество (глава 2 и глава 3). Затем перейдем к аналитическим структурам: какими могут быть специалисты по аналитической работе, какими навыками они должны обладать, как должен быть организован аналитический отдел (глава 4). Мы остановимся на аспектах анализа данных (глава 5), разработки показателей (глава 6) и рассказывании историй с помощью данных (глава 7). В главе 8 речь пойдет о A/B-тестировании. Мы поговорим о корпоративной культуре и процессе принятия решений, которые представляют собой важные признаки компании с управлением на основе данных (глава 9 и глава 10). Мы покажем, что изменения в корпоративной культуре и оперативном управлении возможны только благодаря руководителям, которые используют в своей работе принципы управления на основе данных. В частности, мы поговорим о трех новых управленческих позициях: CDO, Chief Digital Officer[21] (директор по цифровым технологиям) и CAO (глава 11). Глава 12 будет посвящена вопросам этики и тому, как компания, уважающая персональные данные, может ограничить их использование. В конце мы дадим общее заключение.
Глава 2. Качество данных
80 % времени я трачу на очистку данных. Качественные данные всегда выигрывают у качественных моделей.
Томсон Нгуен[22]Данные – это фундамент, на котором держится компания с управлением на основе данных.
Если люди, принимающие решения, не располагают своевременной, релевантной и достоверной информацией, у них не остается другого выхода, как только положиться на собственную интуицию. Качество данных – ключевой аспект.

В этой главе понятие «качество» употребляется в самом широком смысле и рассматривается преимущественно с точки зрения аналитической работы.
Специалистам-аналитикам нужны правильные данные, собранные правильным образом и в правильной форме, в правильном месте, в правильное время. (Они просят совсем не много.) Если какое-то из этих требований не выполнено или выполнено недостаточно хорошо, у аналитиков сужается круг вопросов, на которые они способны дать ответ, а также снижается качество выводов, которые они могут сделать на основании данных.
Эта и следующая главы посвящены обширной теме качества данных. Во-первых, мы обсудим, как обеспечить правильность процесса сбора данных. С этой точки зрения качество данных выражается в их точности, своевременности, взаимосвязанности и так далее. Затем, в следующей главе, мы поговорим о том, как убедиться, что мы собираем правильные данные. С этой точки зрения качество выражается в выборе оптимальных источников данных, чтобы обеспечить максимально эффективные выводы. Иными словами, мы начнем с того, как правильно собирать данные, и перейдем к тому, как собирать правильные данные.
В этой главе мы сосредоточимся на способах определения достоверности данных и рассмотрим случаи, когда данные могут оказаться ненадежными. Для начала разберем критерии качества – все характеристики чистых данных. Затем рассмотрим самые разные факторы, влияющие на ухудшение качества. Этой теме мы уделим особое внимание по ряду причин. Во-первых, подобных факторов может быть великое множество, и они носят практический, а не теоретический характер. Если вам доводилось работать с данными, то, скорее всего, вы сталкивались с большинством из них. Они неотъемлемая часть нашей реальности и возникают гораздо чаще, чем нам бы того хотелось. Именно поэтому у большинства специалистов по работе с данными подавляющая часть рабочего времени уходит на очистку. Более того, вероятность возникновения этих факторов повышается с увеличением объема данных. Мой бывший коллега Самер Масри однажды заметил: «При работе с большими масштабами данных всегда помните, что вещи, которые случаются “один раз на миллион”, могут произойти в каждую секунду!» Во-вторых (и, возможно, это даже важнее), активная проверка и сохранение качества данных – совместная обязанность всех сотрудников. Каждый участник аналитической цепочки ценности должен следить за качеством данных. Таким образом, каждому участнику будет полезно на более глубоком уровне разбираться в этом вопросе.
Итак, учитывая все сказанное, давайте рассмотрим, что означает качество данных.
Аспекты качества данных
Качество данных невозможно свести к одной цифре. Качество – это не 5 или 32. Причина в том, что это понятие охватывает целый ряд аспектов, или направлений. Соответственно, начинают выделять уровни качества, при которых одни аспекты оказываются более серьезными, чем другие. Важность этих аспектов зависит от контекста анализа, который должен быть выполнен с этими данными. Например, если в базе данных с адресами клиентов везде указаны коды штатов, но иногда пропущены почтовые индексы, то отсутствие данных по почтовым индексам может стать серьезной проблемой, если вы планировали построить анализ на основе показателя почтового индекса, но никак не повлияет на анализ, если вы решили проводить его на уровне показателя по штатам.
Итак, качество данных определяется несколькими аспектами. Данные должны отвечать ряду требований.
Доступность
У аналитика должен быть доступ к данным. Это предполагает не только разрешение на их получение, но также наличие соответствующих инструментов, обеспечивающих возможность их использовать и анализировать. Например, в файле дампа памяти SQL (Structured Query Language – языка структурированных запросов при работе с базой данных) содержится информация, которая может потребоваться аналитику, но не в той форме, в которой он сможет ее использовать. Для работы с этими данными они должны быть представлены в работающей базе данных или в инструментах бизнес-аналитики (подключенных к этой базе данных).
Точность
Данные должны отражать истинные значения или положение дел. Например, показания неправильно настроенного термометра, ошибка в дате рождения или устаревший адрес – это все примеры неточных данных.
Взаимосвязанность
Должна быть возможность точно связать одни данные с другими. Например, заказ клиента должен быть связан с информацией о нем самом, с товаром или товарами из заказа, с платежной информацией и информацией об адресе доставки. Этот набор данных обеспечивает полную картину заказа клиента. Взаимосвязь обеспечивается набором идентификационных кодов или ключей, связывающих воедино информацию из разных частей базы данных.
Полнота
Под неполными данными может подразумеваться как отсутствие части информации (например, в сведениях о клиенте не указано его имя), так и полное отсутствие единицы информации (например, в результате ошибки при сохранении в базу данных потерялась вся информация о клиенте).