Андреас Вайгенд.

BIG DATA. Вся технология в одной книге



скачать книгу бесплатно

Работа Inrix с данными о дорожном движении – наглядный пример того, насколько агрегированные показатели множества устройств могут быть полезнее для принятия решений, чем первичные данные одного-единственного человека[50]50
  Мой друг Джон Сквайр, генеральный директор DynamicAction, а в прошлом – главный стратег IBM Smarter Commerce, подчеркивает важность комбинирования данных из разных источников фразой «Ценность – в объединении».


[Закрыть]
. Упреждающие системы, действующие на основе анализа социальных данных, будут консультировать нас по вопросам персональных проблем, финансов, рабочих ситуаций, медицинского обслуживания и во многих других областях, а возможно, и стимулировать к принятию определенных решений.

Кроме того, на этом примере особенно хорошо заметна ключевая роль интерпретации в процессе обработки данных. Обработанные данные могут представляться в трех видах: как описание, прогноз или инструкция. Описание характеризует нечто уже состоявшееся. Прогноз экстраполирует прошлое и настоящее на будущее в предположении, что система не будет подвергаться воздействиям или манипуляциям, способным повлиять на результат. Инструкция рекомендует, как действовать для получения желаемого результата исходя из анализа прошлых событий.


ИНФОРМАЦИЯ
НЕ ДОЛЖНА
РУКОВОДИТЬ НАМИ.
ОНА ДОЛЖНА
РАСШИРЯТЬ СПЕКТР
НАШИХ ВОЗМОЖНОСТЕЙ

В описательной статистике данные обобщаются, например, в виде кластеров однородных элементов информации. Такие данные могут формировать условия для принятия решений в виде набора критериев для сравнительной оценки конкретной ситуации. Если вам нужно узнать, как в данный момент обстоят дела с пробками на Манхэттене, вы можете посмотреть по данным геолокации с мобильных телефонов, насколько быстро движутся и где встают потоки автомобилей. Но даже в таком относительно простом вопросе присутствует элемент интерпретации. Скорее всего, вы увидите данные о большом скоплении автомобилей в районе небоскреба MetLife. Но, может быть, это следствие того, что MetLife находится рядом с вокзалом Гранд Сентрал, где всегда полно такси, ожидающих пассажиров, и самих пассажиров, садящихся в такси, и поэтому мобильные телефоны показывают как бы «остановившееся» движение? Если вам нужно узнать, насколько хорошо идет предрождественская торговля в вашем магазине в этом году, вам нужно не только подытожить продажи, но и найти подходящую базу для сравнения.

Сопоставление с вашими же данными за аналогичный период прошлого года не будет полностью корректным, поскольку в таком случае не будут учтены изменения, случившиеся в местной экономике. Вместо этого вы можете сравнить результаты своего магазина с результатами похожих магазинов по соседству.

Когда я работал в Amazon, мы исследовали динамику промежутков времени между просмотром товара и его покупкой. Некоторые статистические значения были явно ошибочными – они были отрицательными, а человек физически не может купить товар прежде, чем просмотрит его. Мы не знали, почему происходит такая ошибка, и просто не стали учитывать такие данные. При этом у нас накопилась масса данных, указывающих на то, что многие пользователи выжидают по восемь часов, прежде чем совершить покупку. Очень странно. И только потом мы сообразили, что, поскольку часть компьютеров Amazon настроена в тихоокеанском часовом поясе США, а часть – по Гринвичу, эта разница отражает различие во временных поясах применительно к кликам. Как часто случается, то, что сначала казалось шагом к интересным новым представлениям, в итоге объяснилось обычной ошибкой.

Интерпретация данных – итеративный процесс. Вот один из примеров этого. Одна авиакомпания решила провести целевую рекламную кампанию для потенциальных пассажиров бизнес-класса и поручила группе специалистов по работе с данными выявить владельцев смартфонов, регулярно прибывающих и убывающих через нью-йоркский аэропорт имени Дж. Ф. Кеннеди. Проблема состояла в том, что людьми, регулярно посещающими любой аэропорт, являются вовсе не бизнесмены, а сотрудники авиакомпаний и самого аэропорта. Аналитики убедились в этом по данным с телефонов, показывающим закономерности перемещений их владельцев. Часть постоянных посетителей ежедневно приезжала и уезжала по четкому сменному графику – это были работники аэропорта. Труднее оказалось выделить экипажи самолетов, базирующихся в Нью-Йорке, но и их удалось более или менее точно вычислить по сайтам и приложениям, которыми они пользовались через wi-fi аэропорта: поиск отеля или авторизация в Uber для заказа машины для них были редкостью, а вот в приложения для знакомств они заходили очень часто[51]51
  Из беседы автора с Клаудией Перлич, главным научным сотрудником Dstillery, 25 января 2015 года. Клаудиа – моя хорошая знакомая, она была моей студенткой в Колорадском университете в Боулдере и Нью-Йоркском университете.


[Закрыть]
.

Второй путь осмысления обработанной информации – прогнозный анализ, в котором данные используются для общих выводов относительно будущего, в том числе возможных вариантов поведения и развития событий. Например, градостроители использовали архивные данные о поминутном состоянии дорожного движения, которые собирала компания Inrix, для оценки возможного влияния различных событий (дорожной аварии, нового строительства или массового мероприятия) и подготовки более точных планов действий в особых ситуациях. Хедж-фонды пользовались данными Inrix о транспортных потоках к торговым центрам и пригородным гипермаркетам при принятии решений о покупке или продаже акций задолго до публикации квартальной отчетности этих предприятий. Анализ данных геолокации, собранных в «черную пятницу» 2012 года, позволил точно предсказать резкий скачок продаж на весь предрождественский период.

Amazon также использует прогнозные модели для принятия деловых решений: например, сколько дополнительного персонала нужно будет нанять на склады и в доставку, чтобы справиться с возрастающим объемом заказов в период рождественских праздников. Это типичная задача из теории принятия решений: как сравнить потери от несвоевременности доставки заказов покупателям с потерями от избыточности мощностей службы доставки? В Amazon нагрузку на транспортные мощности анализируют с очень высокой степенью детализации, ежедневно и в разрезе каждого города. В 2013 году прогнозы компании не оправдались, так же как и прогнозы многих розничных сетей и компаний дистанционной торговли. Многие посылки пришли уже после Рождества, и покупатели были в ярости[52]52
  Finley, Klint, “Christmas Delivery Fiasco Shows Why Amazon Wants Its Own UPS”, Wired, December 30, 2013, http://www.wired.com/2013/12/amazon_ups.


[Закрыть]
. После анализа причин Amazon пересмотрела свою модель с целью обеспечения более высокой точности прогнозирования и гибкости в распределении ресурсов. В результате компания смогла предложить своим клиентам гарантированную бесплатную доставку к 24 декабря 2014 года для покупок, совершенных на два дня позже, чем в предыдущие годы[53]53
  Kastrenakes, Jacob, “Amazon Guarantees Packages Ordered Through Friday Will Arrive Before Christmas”, The Verge, December 16, 2014, http://www.theverge.com/2014/12/16/7401299/amazon-sets-dec-19th-cutoff-for-christmas-free-shipping.


[Закрыть]
.

Поскольку многие из инфопереработчиков занимаются составлением списков рекомендованных покупок, следует помнить о том, что представленные рейтинги могут быть подготовлены без учета ваших интересов. Одной из первых инициатив в области больших данных была система бронирования авиабилетов Sabre Global Distribution System. Введенная в эксплуатацию в 1960 году изначально Sabre представляла собой систему для обслуживания авиакомпании American Airlines, которая вложила в ее разработку огромные деньги. В 1976 году систему Sabre начали устанавливать в офисах турагентов, а потому в нее встроили возможность приобретения билетов на рейсы других авиакомпаний[54]54
  Snyder, Brett, “Sabre Makes the Wrong Choice by Removing American Airlines”, CBS News Moneywatch, January 7, 2011, http://www.cbsnews.com/news/sabre-makes-the-wrong-choice-by-removing-american-airlines.


[Закрыть]
. Проанализировав закономерности процесса бронирования, в American Airlines обнаружили, что турагенты обычно выбирают рейсы, которые сразу появляются на экране системы, и в очень редких случаях обращают внимание на то, что находится за пределами первой страницы выдачи результатов поиска[55]55
  American Airlines, “November Line of Sale Analysis”, memo to R. E. Murray from S. D. Nason, December 3, 1981.


[Закрыть]
. Авиакомпания немного повозилась с настройкой алгоритма таким образом, чтобы ее рейсы всегда оказывались первыми в списке. Потребители не знали, что представленные им «лучшие» варианты подобраны с таким искажением. А с учетом того, что турагенты работают на комиссии, им было не слишком интересно искать для своих клиентов варианты дешевле. Тем не менее две из конкурирующих с American Airlines авиакомпаний, New York Air и Continental, обнаружили, что их рейсы оказываются в самом низу списка, даже несмотря на открытие новых направлений и предложение скидок на билеты – что, по идее, должно было ставить их варианты на самый верх в выдаче результатов[56]56
  Tefft, Sheila, “Reservation Systems’ Bias a Sore Spot for Smaller Airlines”, Chicago Tribune, February 11, 1983, http://archives.chicagotribune.com/1983/02/11/page/87/article/new-technology.


[Закрыть]
. Потребовалось расследование конгресса[57]57
  Whiteley, David, An Introduction to Information Systems (New York: Palgrave Macmillan, 2013), p. 109.


[Закрыть]
. В 1984 году такого рода искажения настроек были официально запрещены[58]58
  С вступлением в силу Закона о либерализации авиаперевозок в 1978 году Совет по гражданской авиации ввел регламент антидискриминационных мер. See Pearlstein, Debra J., and Robert E. Iloch et al., eds., Antitrust Law Developments, vol. 1 (Chicago: American Bar Association, 2002), p. 1428.


[Закрыть]
.

Совершать подобные манипуляции становится намного труднее, когда пользователем обработанной информации является конечный потребитель, который с большей вероятностью обратит внимание на то, насколько предложения соответствуют его пожеланиям. Я участвовал в разработке системы рекомендаций для бангкокского сайта бронирования отелей Agoda. На первый взгляд могло показаться, что компании выгоднее ранжировать отели исходя из величины получаемой от рейтинга прибыли. Если отель готов платить Agoda более высокие комиссионные, то почему бы не поместить его на самый верх списка? Или все-таки рейтинг должен составляться на основе предпочтений туристов? Кто-то из клиентов, ориентируясь на рейтинг, составленный с учетом интересов Agoda, бронировал номер, но впоследствии сожалел об этом. Другие смотрели на начало списка, приходили к выводу о том, что у Agoda нет вариантов, соответствующих их вкусам, и уходили к конкурентам. В долгосрочной перспективе более оптимальным для Agoda решением было увязывать свои интересы с интересами клиентов[59]59
  Я консультировал Agoda в 2004–2007 гг. В ноябре 2007 года компания была поглощена Priceline.


[Закрыть]
.

Последний уровень работы с данными – предписывающая или инструктивная аналитика, которая на основе вашей информации подсказывает, каким образом следует изменить условия для достижения желаемого результата. Классический пример – анализ данных, примененный в ходе лунной экспедиции НАСА[60]60
  В технике предписывающая аналитика называется «теорией управления».


[Закрыть]
. Для того чтобы доставить на поверхность Луны Нила Армстронга и американский флаг, НАСА приходилось непрерывно анализировать поток данных о положении лунного модуля в пространстве. Инженерам в центре управления нужно было не только обобщить данные (описание) и не только спрогнозировать, где и когда лунный модуль коснется поверхности (прогноз). Чтобы человек действительно попал на Луну, им нужно было определять предпочтительные действия в связи с постоянно изменяющимся положением модуля. Они оценивали, какое влияние оказывает каждое включение любого из реактивных двигателей модуля на траекторию его движения. После этого они прогнозировали, когда и как надолго следует включить его опять для успешного выполнения задачи.

Информационная грамотность подразумевает понимание того, что допущения – свойственная описаниям неопределенность – это неотъемлемый элемент прогноза, а для инструкций обязательно нужна обратная связь. Стоит ли инфообработчикам помещать вас в какой-либо маркетинговый сегмент на основе истории ваших поисковых запросов в Google? Можно ли объективно судить о кандидате на должность исключительно на основе анализа данных о его контактах в LinkedIn? Насколько обоснованными будут индивидуальные рекомендации по физическим нагрузкам, в основу которых положен анализ информации из Facebook о посещении этим человеком ресторанов?

Эксперименты, эксперименты, эксперименты

Инфопереработчики не только описывают, прогнозируют и инструктируют – они еще и экспериментируют. Вполне возможно, что над вами экспериментируют каждый раз, когда вы покупаете бестселлеры в Amazon, подбираете себе мокасины в Zappos или ищете пару на Match.com. Эксперименты нужны, чтобы совершенствовать продукты и услуги инфопереработки при помощи так называемого А/В-тестирования.

В науке причинно-следственная связь устанавливается экспериментальным путем: реакция на изменение одной независимой переменной в экспериментальной группе сравнивается с реакцией контрольной группы, для которой эта переменная остается неизменной. А/В-эксперименты, как правило, начинаются с вопроса. Например: «Какими зонтиками, красными или синими, мне нужно торговать, чтобы максимизировать их продажи?» Этот вопрос кажется очень простым, но из него вытекает масса сложностей в проведении удачного А/В-эксперимента. Продавец зонтиков может попытаться найти правильное решение, поставив свой прилавок на некой точке и продавая только синие зонтики в первый день и только красные – на второй. Он может даже проводить этот эксперимент два понедельника подряд, когда работающие в этом районе вроде бы должны быть более склонны забывать зонтики в суматохе перед выходом из дому. Но, определяя место для торговой точки и день недели для эксперимента, он не принимает в расчет одну из самых важных переменных, определяющих потребность в любом зонтике, красном или синем, а именно – идет ли дождь.

Инфопереработчикам приходится учитывать намного больше переменных, чем нашему торговцу зонтиками. В Amazon все, что касается внешнего вида страниц, от размера строки поиска до места размещения диалогового окна, от опций оформления и оплаты до части описания товара, доступной без второго клика, решается после проведения А/В-экспериментов. Широко известна история про то, как Google проводила А/В-эксперименты для определения оттенка синего цвета для рекламных ссылок. Источники в Google утверждают, что в результате выбора одного из пятидесяти возможных вариантов ежегодная выручка от рекламы возросла на 200 миллионов долларов[61]61
  Hern, Alex, “Why Google Has 200M Reasons to Put Engineers over Designers”, Guardian, February 5, 2014, http://www.theguardian.com/technology/2014/feb/05/why-google-engineers-designers.


[Закрыть]
.

Описательный анализ дает возможность выявлять «естественные эксперименты» – ситуации, когда можно проследить последствия изменения некоего условия, произошедшего случайно или по ошибке (например, когда при внедрении программного обеспечения обнаруживается баг). Веб-разработчики французского сайта Amazon каким-то образом умудрились забыть добавить услугу доставки в стоимость оформления заказа. Резкий рост заказов, последовавший в результате этой ошибки, дал Amazon представление о том, насколько бесплатная доставка способствует увеличению продаж.

В основе научного метода лежит прогноз: ученый создает предполагающую нечто модель, проводит эксперименты и выясняет, насколько их результаты соответствуют предположению. Если они не соответствуют, ученый вносит изменения в модель и повторяет процесс тестирования.

В области социальных данных меня больше всего интересуют эксперименты с элементами прескрипции, в которых пользователь получает возможность изменить некий параметр и увидеть, как это повлияет на результаты. Обработка данных о пробке на дороге позволяет предупредить водителей, сообщить им о том, насколько увеличится время в пути, и предложить альтернативные варианты маршрута. Если большинство водителей изберет какой-то один альтернативный маршрут, то на нем может возникнуть еще одна дорожная пробка. Для подобных ситуаций может быть предложен набор различных вариантов объезда и информация о том, какая часть водителей уже выбрала определенный маршрут, чтобы позволить принять решение поехать другой дорогой. Эти же данные можно использовать и для того, чтобы в целях оптимизации транспортного потока изменить частоту смены сигналов светофоров.

Один из лучших умов в области А/В-экспериментов – мой бывший коллега Рон Кохави, покинувший Amazon в 2005 году, чтобы возглавить работу по созданию экспериментально-аналитической группы в Microsoft. Чтобы создать базовые практики удачного онлайн-экспериментирования, Ронни и его команда провели сотни экспериментов примерно на двадцати интернет-сайтах (в том числе на MSN.com и Bing). Исходя из своего опыта Ронни утверждает: «Получить цифры легко; получить цифры, заслуживающие доверия, – трудно»[62]62
  Kohavi, Ron, Roger Longbotham, and Toby Walker, “Online Experiments: Practical Lessons”, IEEE Computer 43, no. 9 (September 2010), pp. 82–85, http://www.computer.org/csdl/mags/co/2010/09/mco2010090082-abs.html.


[Закрыть]
. Я полностью с этим согласен. Более того, то же самое можно сказать и о наиболее фундаментальных аспектах обработки данных: создавать рекомендации просто, оценивать рекомендации – трудно.

При проведении А/В-экспериментов на интернет-сайтах очень многое может пойти не так. Для начала: от 15 до 30 процентов просмотров страниц некоторых сайтов приходится на долю поисковых роботов, и эти визиты надо идентифицировать и отделить от посещений людей (если, конечно, обработку данных не проводят с целью оптимизации роботов).

Существует также искушение разделять пользователей на экспериментальные и контрольные группы по каким-то признакам, а не произвольно. Однако, каким бы разумным это ни выглядело на первый взгляд, большинство неслучайных способов выборки искажают результаты экспериментов и загрязняют аналитику. Например, если пользователь часто удаляет со своего компьютера cookie-файлы, его могут отнести к одной группе во время первого визита на сайт и к другой во время следующего. В некоторых экспериментах отнесение к той или иной группе коррелирует с сайтом, на котором был пользователь, прежде чем попасть на экспериментальную или контрольную страницу. Действительно ли люди более склонны кликать рекламу зонтиков на сайте WeatherChannel, где постоянно предупреждают о грядущих ураганах? Если выборки делались не по принципу случайности, результаты окажутся искаженными.

Кроме того, ученые стараются учитывать переменные, которые могут влиять на поведение пользователя, но не включены в эксперимент. Результаты эксперимента могут быть искажены багом, который появился в версии программного обеспечения, предложенной одной группе, но отсутствует во всех остальных. Проблемой могут быть и особенности работы программного обеспечения на различных платформах. Люди, использующие для доступа в сеть айфоны, и люди, использующие для этого телефоны на Андроиде, не являются равномерно распределенными и не зависимыми друг от друга группами населения. По результатам эксперимента может казаться, что на сайт чаще заходят пользователи с айфонами, но на самом деле различались не клиентские базы, а программное обеспечение – частота обновления страниц по умолчанию в айфонах выше. Придумывать такого рода версии и расследовать их – ежедневная работа детективов мира данных.

Компании экспериментировали на потребителе, предлагая новые товары или упаковки, задолго до появления интернета. Новизна состоит в возможности экспериментировать в режиме реального времени и моментально получать обратную связь, которая может быть использована для совершенствования продуктов и услуг, в том числе информационных. В прошлом цикл «идея – результат» измерялся месяцами. Теперь же, в мире с выходом в интернет, его продолжительность сократилась до минут. Это в корне отличается от временных параметров медицинских исследований, где эффекты от изменения рецептуры лекарства могут проявляться через недели, месяцы, годы, а то и десятилетия.

По мере дальнейшей интеграции социальных данных в процессы решения проблем и принятия решений обычными людьми инфопереработка будет создавать продукты и услуги в таких важнейших областях человеческой жизни, как здравоохранение и образование. Нам как обществу нужно будет решать, какие эксперименты с социальными данными желательны и каким результатам мы можем доверять. Когда достаточно данных, собранных за час или за день, а когда лучше проводить эксперимент в течение более длительного периода? Например, в области образования очевидных ответов на этот вопрос нет. Для того чтобы результаты А/В-эксперимента способствовали совершенствованию процесса преподавания, необходимо прежде всего сформулировать задачи, ради которых проводится сбор и анализ данных. Как я уже говорил, давать рекомендации просто, а оценивать их – трудно.

Этот процесс не должен отпугивать. Эксперименты с социальными данными пошли на пользу всем: нам стали доступны услуги и продукты, которые еще два десятка лет назад было трудно себе представить. Сегодня они уже считаются едва ли не такими же предметами первой необходимости, как водопровод и электричество[63]63
  D?pfner, Mathias, “An Open Letter to Eric Schmidt: Why We Fear Google”, Frankfurter Allgemeine Zeitung, April 17, 2014, http://www.faz.net/aktuell/feuilleton/debatten/mathias-doepfner-s-open-letter-to-eric-schmidt-12900860.html


[Закрыть]
. Инноваций в использовании социальных данных будет еще больше, их сдерживают лишь рамки бюджетов, социальных шаблонов и творческих способностей. Чтобы обратить результаты деятельности по обработке больших социальных данных на пользу себе, следует принять факт того, что над нами экспериментируют, и доходчиво убедить аналитиков в том, что эти эксперименты должны помогать нашим решениям. Мы не должны оставаться в неведении.

Поэтому, прежде чем перейти к вопросу о новых правилах работы с данными, которые я считаю необходимыми для регулирования деятельности инфопереработчиков, нам следует поближе познакомиться с тремя категориями социальных данных – нашими кликами, нашими контактами и нашим контекстом. Нам предстоит убедиться в том, что использование этих источников первичной информации противоречит многим существующим социальным нормам, в том числе и глубоко личного и эмоционального характера. Как идентифицируется личность? До какой степени иллюзорны представления о приватности? Что означает понятие «друг»? Как наше окружение влияет на нас, а мы на него? Возможно, для вас станет сюрпризом, что ответы на эти вопросы содержатся в истории ваших поисков в Google, вашем взаимодействии в Facebook и в сенсорных датчиках вашего мобильного телефона.



скачать книгу бесплатно

страницы: 1 2 3 4 5 6 7 8 9