Андреас Вайгенд.

BIG DATA. Вся технология в одной книге



скачать книгу бесплатно

Помощники Ланье получают компенсацию за свою работу. Весьма вероятно также и то, что они извлекают выгоду и от использования «Google-переводчик». Но в последнем случае это не деньги, а доступ к постоянно совершенствующимся информационным продуктам и сервисам.

Теперь давайте посмотрим, какая информация создается в Facebook. Автором информации, которую представляет собой фото вашей собаки, совершенно точно являетесь вы. А как быть в случае группового фото с вечеринки по случаю дня рождения? Вы сделали и разместили эту фотографию, но коммерческая ценность этого поста в Facebook определяется трафиком, который он создает, и уточнением данных о связях и интересах людей. Должны ли вы получить все средства, которые можно отнести на счет этого поста? Или вы должны разделить их со всеми, кто отмечен на этом фото? А как быть с комментариями, лайками и тэгами? Ведь они означают, что фото пробудило активность многих других людей, которая в свою очередь транслируется уже их друзьям. И эта информация о «цепочке» может быть намного более полезна с точки зрения возможностей обработки данных и извлечения из этого доходов. Ланье не обсуждает подобного рода связи, возможно, считая их недостаточно «креативным» контентом, за который стоит платить. Но такого рода цифровые следы составляют основную часть сырья инфопереработчиков, на результаты работы которых мы полагаемся в своей повседневной жизни.

Если заставить инфопереработчиков материально оценить вашу активность – все ваши поиски, просмотры, лайки и тэги во взаимосвязях со всеми, кто использует эти данные и дополняет их, можно с уверенностью предположить, что это они потребуют с вас плату за доступ к результатам поиска, рекомендациям и рейтингам. Разработка алгоритмов стоит денег, и подобный аналитический срез потребует создания специального инструментария для атрибуции и оценки каждого элемента данных, причем с учетом изменения его стоимости во времени.

Предложенная Ланье «микроплата» за предоставление данных – безнадежное мероприятие не только в силу сложности и затратности решения проблемы атрибуции. Для начала давайте просто посмотрим на порядок цифр. Если бы Facebook решила поделиться всей своей прибылью за 2015 год, составившей 3,5 миллиарда долларов[41]41
  Facebook Annual Report 2015, January 28, 2016, https://investor.fb.com/financials /default.aspx.


[Закрыть]
, со своими пользователями (не выплачивая дивиденды акционерам), каждый из них получил бы примерно по 3 доллара 50 центов. Что для вас более важно – постоянно иметь в своем распоряжении платформу с неограниченными коммуникационными возможностями или одна лишняя чашка капучино в год? Если первое, то за ваши данные вам уже «заплатили».

Разбираемся дальше.

Во многих случаях вам надо предоставить данные, чтобы получить услугу, например информацию о своем местоположении для приложения Uber. Решив, что впредь вы отказываетесь делиться своей информацией бесплатно, вы тем самым лишите себя возможности пользоваться бесплатными продуктами и услугами многих информационно-технологических компаний. Наконец, многие из продуктов этих компаний – от товарных рекомендаций до прогноза спроса на услуги такси – основаны исключительно на обработке первичных данных пользователей. И хотя конкретно ваши данные могут не иметь какого-то особого значения для конечного результата, сама просьба к потребителям продуктов и услуг предоставлять свою информацию является вполне уместной.

По этим причинам я полагаю, что, вместо того, чтобы настаивать на плате за свои первичные данные, следует потребовать предоставления более жесткого контроля над тем, как, когда и почему распространяется ваша информация, для чего она используется и что вы получаете в результате. Наиболее успешные инфопереработчики разъясняют, каким образом предоставляемые вами данные способствуют совершенствованию предлагаемых ими информационных продуктов. В обществе слишком много обсуждают ограничения, которые следует наложить на использование первичных данных организациями, но практически игнорируют вопрос о том, что инфопереработчики должны предлагать в качестве инструментов повышения прозрачности и расширения свободы выбора.

Переработка данных не превращает человека в товар в виде набора цифр, во всяком случае, это далеко не обязательно. Главное, что может почерпнуть из этой книги читатель, – это вывод о пользе обработки социальных данных для его собственных решений, а не только для рекламной кампании какой-нибудь мегакорпорации. Я считаю, что человека в равной степени определяют и создаваемая им информация, и принимаемые им решения. И ценность ваших данных для вас состоит именно в этом.

Исследование и использование

Процесс переработки данных подразумевает также компромисс между исследованием и использованием. Хочу перенести вас к рядам игральных автоматов в залитом неоновыми огнями Лас-Вегасе. В области искусственного интеллекта (то есть компьютерных программ, способных самообучаться на основе входящей информации) задача об «одноруком бандите» является в каком-то смысле коронной, примером дилеммы между поиском новых вариантов или использованием лучшего из известных[42]42
  Gittins, J. C., “Bandit Processes and Dynamic Allocation Indices”, Journal of the Royal Statistical Society B (Methodological) 41, no. 2 (1979), pp. 148–177, http://www.jstor.org /stable/2985029.


[Закрыть]
. Предположим, вы зашли в казино и узнали, что кто-то вроде бы выиграл целое состояние на одном из автоматов. Как вы поступите? Проведете остаток вечера у этого прославившегося автомата или же будете исследовать остальные в поисках еще более высоких шансов на джекпот? Разумеется, сбор данных о результативности всех автоматов потребует времени. Поскольку казино создаются ради прибыли, игры настроены так, чтобы клиенты в целом оставались в проигрыше. И в идеале, как учат теоретики вычислительных систем, вам придется в течение какого-то времени понаблюдать за работой автоматов, чтобы постараться обнаружить закономерность. И хотя статистик сможет порекомендовать, сколько времени нужно потратить на наблюдение за каждым из этих шумных устройств, у вас все равно останется выбор – или исследовать новые варианты, или использовать тот, который уже доказал свою результативность. Может показаться, что пример об «одноруком бандите» имеет мало общего с конечной продукцией инфопереработки, однако в списке рекомендаций для пользователей в качестве ключевой задачи значится как раз поддержание баланса между исследованием и использованием. Из этих соображений пользователь выбирает наиболее подходящую ему рекомендацию. И здесь аналогия с нефтью снова придется кстати. Геологи-нефтяники и инженеры оценивают альтернативу: стоит ли и дальше вкладывать значительные средства до полной выработки существующего месторождения или же переключиться на поиски новых, где добыча может обходиться не так дорого. Инфопереработчикам также приходится решать проблемы лучшего применения ресурсов для максимизации эффективности входящих и исходящих потоков данных. В том, что касается информации, главным параметром, который надлежит контролировать, является время пользователей.

Когда поисковик вроде Google выдает ответ на ваш запрос, перечень сайтов представляет не десятки одинаковых позиций, а предлагает различные варианты в рамках определенной степени релевантности предмету поиска. Иногда бывает понятно, что вам нужна информация о чем-то совершенно конкретном, например в случае, когда вы вводите в строку поиска словосочетание «Panthera onca». Но если вы введете в качестве предмета поиска просто «ягуар», то компьютер покажет вам не только то, что относится к представителю кошачьих, автомобилю или старой операционной системе компьютеров Mac[43]43
  Спасибо одному из заслуженных разработчиков Microsoft Яну О. Педерсену за его рассказ о том, как решалась проблема исследования/использования в Yahoo! (где он прежде работал главным научным сотрудником поисковой системы) на примере поискового запроса «ягуар».


[Закрыть]
. Алгоритмы поисковой системы создают кластеры значений слова «ягуар» на основе количества слов на странице, связей между страницами и перемещениями пользователей между страницами и предлагают для изучения выборки из каждого такого кластера, чтобы обеспечить большую вероятность успеха вашего поиска.

Разновидностью задачи об «одноруком бандите» является задача «оптимального момента остановки», или «взыскательного ухажера». Впервые ее описал Мартин Гарднер в своей колонке «Математические игры» в журнале Scientific American. В его варианте на листках бумаги пишутся любые числа, «от мельчайших долей единицы до астрономически больших, вроде единицы со ста нулями»[44]44
  Гарднер рассмотрел так называемую «задачу секретаря» в журнале Scientific American за февраль/март 1960 года. См. Gardner, Martin, Martin Gardner’s New Mathematical Diversions (New York: Simon & Schuster, 1966), p. 35.


[Закрыть]
. Листочки перетасовываются, а затем перебираются один за другим до тех пор, пока вы не останавливаетесь на том, где, как вы считаете, значится самое большое число. Со временем листочки бумаги в мысленном эксперименте превратились в ухажеров, идущих на свидание. Вы приходите на свидание, и вам надо решить: будете ли вы встречаться с остальными девушками или прекратите поиск, потому что это та самая? В реальной жизни выбор между исследованием и использованием может иметь критически важное значение.

Понятно, что пользователи приложений или сайтов знакомств решают задачу «взыскательного ухажера» в постоянном режиме. Самые первые сайты знакомств позволяли пользователям уточнять свои предпочтения по весу, росту или географическому положению потенциального партнера и соответственно этому ранжировали результаты поиска. Некий пользователь решил кликнуть фото потенциальной партнерши, которую мы назовем Сэм. Сайт не знал, что именно заставило его кликнуть фото Сэм. Может быть, то, что она была первой в списке? А может быть, то, что она брюнетка и носит очки? А может быть, это произошло потому, что она сфотографирована на фоне океана, а этого пользователя интересуют жительницы побережья или те, кто приезжает туда отдыхать? Пользователя могло заинтересовать все, что угодно, но ему все равно нужно было решать – послать Сэм сообщение или продолжать разглядывать фото. В отличие от традиционной свахи, которая всеми силами стремится найти идеальную пару для каждого клиента, сайт знакомств предоставляет пользователю самому решать, хочет ли он увеличить число рекомендаций от сайта, видеть в подборке вариантов нечто схожее с предыдущими или нечто совершенно другое.

В основном инфопереработчики решают вопрос баланса между исследованием и использованием исходя из того, насколько подробно пользователь изучает рекомендации и возвращается ли он к ним, если возвращается вообще. Однако оптимальная настройка часто зависит от предпочтений пользователя в данный конкретный момент. Взыскательный ухажер может искать как вечный идеал, так и партнера на ближайший вечер, и инфопереработчику трудно определить характер конкретного поиска.

Принцип прозрачности подразумевает, что пользователи понимают, как обрабатываются их данные; свобода выбора диктует право пользователей на определенное влияние на этот процесс.

Стартап музыкальных рекомендаций MoodLogic, сооснователем которого я являлся[45]45
  Founded in 1998 by myself, Christian Pirkner, Elion Chin, and Tom Sulzer, MoodLogic, которую в 1998 году создали Кристиан Пиркнео, Элион Чин, Том Сулцер и я, была одной из первых систем музыкальных рекомендаций. На пике популярности на сайте присутствовали оценки более миллиона треков от примерно 50 000 пользователей. В 2006 году программное обеспечение и информационный массив компании были куплены All Media Guide – компанией группы.


[Закрыть]
, предлагал своему пользователю определенную степень контроля над сочетанием использования и исследований, то есть между музыкой, которую он обычно слушает, и знакомством с чем-то новым. Мы анализировали коллекцию музыки в компьютере пользователя и создавали некую модель, позволяющую определить произведения, исполнителей, авторов, инструментальные составы, темпы и жанры, которые ему подойдут. Модель прогнозировала, насколько новое произведение может понравиться пользователю. Затем мы предлагали ему выбор из двух настроек. При выборе «безрискового» варианта система выдавала музыку примерно одного стиля, которая должна была, по нашему прогнозу, понравиться пользователю. «Зондирующая» настройка предлагала послушать музыку, которую, как мы считали, пользователь мог бы или полюбить, или возненавидеть. Выбор оставался за ним, но при этом аккумулировалась информация, которую мы могли использовать для совершенствования алгоритмов MoodLogic.

Хотя количество информации безгранично, этого нельзя сказать о времени. Решения приходится принимать. Феномен социальных данных в том, что результаты процесса их переработки могут становиться новым входящим потоком.

Работа над ошибками

Людям нравится считать свои решения обоснованными. Возможность перечислить все «за» и «против» («Стоит ли принять предложение работы в другом городе или согласиться с конкурентным предложением моего нынешнего работодателя?»), сравнить варианты и выбрать то, что лучше соответствует ситуации, текущим целям и кажется наименее рискованным, придает уверенности. В прошлом люди собирали информацию, разговаривая с родными, друзьями, коллегами и наставниками. Они принимали решения в мире «небольших данных».

Сегодня можно обратиться к рейтингам удовлетворенности работой портала Glassdoor, где на условиях анонимности оценивают условия и оплату труда[46]46
  Glassdoor создали в 2008 году Рич Бартон, Тим Бессе и Роберт Хоман, до этого работавшие в Expedia – портале бронирования туристических и гостиничных услуг. Бартон был также в числе создателей Zillow – инфопереработчика в сфере недвижимости.


[Закрыть]
. Там собраны отзывы сотрудников о более чем 400 000 компаний и ежегодно поступает более полумиллиона новых комментариев. Например, по компании Amazon собрано 8000 отзывов о работе, 8000 – о собеседованиях при приеме на работу и 14 000 – о зарплате. Человек, рассматривающий возможность работы в компании, получает доступ к значительно большему количеству информации о ней, чем когда-либо прежде, однако времени на то, чтобы ознакомиться со всеми 8000 отзывов и сравнить их с условиями своего нынешнего места работы, у него нет. Какие из этих отзывов достоверны, какие соответствуют рассматриваемой позиции? А если кто-то неверно понял вопрос или случайно кликнул более низкую оценку, чем хотел?

Ошибки свойственны любой информации. Во времена небольших данных люди, собиравшие информацию, считали своим долгом досконально разобраться в ней и лично вычистить и исправить ошибки. И это было очень хорошо, поскольку от информации, полученной от небольшого количества людей, иногда зависели решения, затрагивающие всю общину или даже целый штат. Ошибка в количестве заявок на пособие по безработице, полученных за неделю в каком-то штате (например, опечатка вроде «254» вместо «2541»), могла привести к искажению данных по безработице, которые в свою очередь влияют на государственную экономическую политику. Долгосрочное исследование тенденций занятости, которое проводит Статистическое управление министерства труда США, охватывает выборку примерно в 10 000 человек, то есть основывается на порядке цифр, сопоставимых с количеством отзывов сотрудников Amazon на Glassdoor[47]47
  Общенациональный лонгитюдный опрос молодежи 1979 года, охватывающий американцев 1957–1964 года рождения, начинался с выборки в 11 000 гражданских лиц; общенациональный лонгитюдный опрос молодежи 1997 года, охватывающий американцев 1980–1984 года рождения, начинался с выборки в 8000 гражданских лиц. Более подробно – на https://www.nlsinfo.org.


[Закрыть]
.

Разумно предположить, что доля ошибочной информации не снижается пропорционально росту количества собранных данных. Если в наши дни мы имеем доступ к объему информации, в сто раз превышающему прежний, можно ожидать, что и количество ошибок в этом потоке увеличится в сто раз. Но теперь у нас нет возможности отслеживать и вычищать каждую ошибку в массиве информации.

Однако решение проблемы экспоненциального роста количества ошибочной информации содержится в самом факте экспоненциального роста объемов данных. Поскольку люди постоянно реагируют на продукцию инфопереработки созданием новых данных, алгоритмы могут учиться выявлять то, что может являться ошибкой ввода. Если в строке поиска ввести «Андреас Вайганд», Google поинтересуется, не имелся ли в виду «Андреас Вайгенд».

Объединяя данные из многих источников, инфопереработка может выявлять наши ошибки во входящей информации. В июле 2012 года в моем смартфоне появился сервис под названием Google Now. Он сканировал мою электронную почту в поисках информации из моих электронных авиабилетов и сообщал о статусе рейсов, делая это даже раньше авиакомпаний. Казалось бы, все просто. Но этому сервису все же удалось удивить меня степенью продвинутости анализа данных. Как-то утром, когда я только собирался паковать свои чемоданы перед отъездом из Фрайбурга, приложение сообщило, что я должен выезжать в аэропорт немедленно. По моему графику до рейса оставалось еще несколько часов, а авиакомпании обычно не сдвигают регулярные перелеты вперед больше чем на пару минут. Тем не менее я доверял Google Now больше, чем своему календарю, и решил пошевеливаться – возможно, сервис узнал об огромной пробке на дороге. Приехав в аэропорт, я понял, что неправильно ввел время рейса в календарь. Google Now проигнорировал данные, введенные вручную, и послал мне напоминание исходя из информации в моем электронном билете в Gmail. (А спустя три года Google Now автоматически вносит расписание рейсов в мой календарь сразу же после того, как электронные билеты попадают в мою почту.)

Мы уже свыклись с тем, что инфопереработчики указывают нам на подобные ошибки и исправляют их. Это полезные услуги. Вопрос в том, будем ли мы готовы принимать схожие корректировки в других областях своей жизни по мере того, как создаем и распространяем все больше личной информации.

Инфопереработке приходится также разбираться и в том, что является сигналом, а что шумом. На статистическом жаргоне сигналом называется значимая информация, а шумом – случайная и потому не имеющая значения. Сложность социальных данных в том, что различия между сигналом и шумом варьируются в зависимости от конкретного пользователя и конкретной ситуации. Когда ваш френд из Facebook ставит тэг на фото, где вы отсутствуете, что это – сигнал или шум? Когда как. Если он поставил тэг по ошибке, перепутав вас с Эндрю, который идет следующим в списке его друзей, то это шум, то есть статистический эквивалент статическим помехам в вашем радиоприемнике. А если он поставил тэг сознательно, желая ввести в курс запечатленных событий вас и ваших френдов, то это сигнал, хотя, возможно, и раздражающий. То есть, на языке статистиков, это не шум.

Обратная связь от пользователей играет важнейшую роль в совершенствовании алгоритмов обработки информации. Я не имею в виду необходимость заполнения опросников для потребителей или участия в фокус-группах. Поддержание и развитие постоянного диалога с пользователями позволяет инфообработчикам совершенствовать свои продукты и услуги и делать их более персонифицированными. Каждый сделанный вами выбор позволяет скорректировать иерархию вариантов. Но и вы сами тоже учитесь изменять формулировки своих поисковых запросов так, чтобы результаты в большей степени соответствовали ожиданиям. Не просто избегать опечаток, а правильно акцентировать свой интерес к различным аспектам темы или товарным категориям.

Тем не менее ваше взаимодействие с сайтом или приложением ограничивается предлагаемым набором опций. Я полагаю, что уточнение поисковых запросов стало бы намного более динамичным процессом, если бы пользователи имели возможность поиграть с вариантами инфопереработки примерно так же, как мы с коллегами делали это в музыкальных рекомендациях MoodLogic. По мере возрастания количества отзывов работников на Glassdoor порталу стоило бы придумать способы уточнения этой информации, чтобы сделать ее еще более полезной. Это может быть некая модель, позволяющая выделить наиболее интересные данному пользователю оценки не только по признакам названия позиции или ее географического положения, но и по другим характеристикам, которые предоставляют сайту (например, карьерные цели или предпочтения по условиям труда). Но вне зависимости от количества входящей информации оценки все равно будут содержать элемент неопределенности.

Информационная грамотность означает понимание того, что любая рекомендация представляет собой величину вероятности и что любое решение есть компромисс между уровнем риска и размером извлекаемой выгоды, причем даже в тех случаях, когда на фоне больших объемов данных неопределенность кажется весьма незначительной. Инфопереработка не должна принимать решения за вас. Она должна предоставить вам возможность использовать намного большее количество информации, что позволит частично устранить риск ошибки.

С помощью инфопереработки мы получаем возможность использовать и анализировать обширные исторические данные, выявлять закономерности и делать прогнозы трендов, не все из которых оказываются правильными. Подобный подход к осмыслению информации и самих себя сильно отличается от привычного для подавляющего большинства людей.

Превращение информации в решения

Факты! Факты! Факты! – нетерпеливо восклицал Холмс. – Я не могу лепить кирпичи без глины[48]48
  Одна из наиболее часто цитируемых фраз Шерлока Холмса. This is one of Sherlock Holmes’s most frequently quoted lines of dialogue. См. Артур Конан Дойл, «Приключение в ‘Лесных Буках’» – Doyle, Sir Arthur Conan, “The Adventure of the Copper Beeches”, Strand Magazine (June 1892).


[Закрыть]
.

Артур Конан Дойль

Когда в начале 1990-х годов я окончил докторантуру и стажировался в научно-исследовательском центре Xerox PARC в Пало Альто, мы с помощью суперкомпьютера анализировали закономерности дорожного движения. Одной из наших задач было прогнозирование времени в пути. Будучи физиками, мы рассматривали дорожное движение как поток и пытались определить условия его перехода из ламинарного состояния в турбулентное, то есть когда плавное движение превращается в прерывистое. По современным меркам, исходных данных было немного, и для создания моделей дорожного движения нам приходилось делать множество допущений.

Сейчас проблема расчетного времени прибытия в пункт назначения решается просто: практически в каждой машине есть кто-то с мобильным телефоном, оценивающим движение в режиме реального времени. В этой области работает, в частности, выделившаяся из Microsoft компания Inrix. В ней анализируют данные геолокации более чем 100 миллионов личных телефонов, чтобы определить направления движения автомобилей (и, что еще более важно, места, куда они не едут) и вывести тренды перемещения людей и товаров[49]49
  Inrix – одна из многих коммерческих организаций, анализирующих данные о местоположении мобильных телефонов с целью изучения траспортных потоков. В анализе используются также данные Garmin и других специализированных GPS– устройств навигации и информирования о состоянии дорожного движения.


[Закрыть]
. Данные для своего анализа Inrix получает от операторов мобильной связи, с базовыми станциями которых связываются эти 100 миллионов мобильников. Обработанную информацию у Inrix покупают Garmin, MapQuest, Ford, BMW и другие компании, которые хотят предоставлять водителям услуги картографического отображения местности и планирования маршрута. Кроме того, Inrix консультирует местные власти по вопросам городского планирования, в том числе строительству новых мостов, установке светофоров и местоположению новых государственных больниц и других учреждений.



скачать книгу бесплатно

страницы: 1 2 3 4 5 6 7 8 9