Андреас Вайгенд.

BIG DATA. Вся технология в одной книге



скачать книгу бесплатно

Andreas Weigend

Data for the People

© Andreas Weigend, 2017

This edition published by arrangement with Levine Greenberg Rostan Literary Agency and Synopsis Literary Agency


Серия «Top Business Awards»


© Богданов С., перевод на русский язык, 2018

© Оформление. ООО «Издательство «Эксмо», 2018

* * *

Посвящается п., ф. и с.



Пролог
Когда зафиксировано все

Информация как таковая становится самой значительной отраслью экономики, и базы данных знают о каждом конкретном человеке больше, чем известно ему самому. Чем больше информации о каждом из нас попадает в базы данных, тем в меньшей степени мы существуем[1]1
  McLuhan, Marshall, with Wilfred Watson, From Clich? to Archetype (Berkeley: Gingko Press, 2011), p. 13. Первое издание этой книги увидело свет в 1970 году.


[Закрыть]
.

Маршалл Маклюэн

В 1949 году мой отец, в ту пору двадцатитрехлетний молодой человек, получил место учителя в Восточной Германии. Приехав в город, где ему предстояло работать, папа решил, что ему очень повезло: прямо на вокзале он встретил человека, который тоже искал себе жилье и соседа по комнате. Они нашли себе квартиру, но буквально через пару дней сосед исчез. Папа был озадачен. Спустя несколько дней он был уже не на шутку обеспокоен.

Как-то утром, когда он готовил себе завтрак, в дверь постучали. Папа обрадовался – он решил, что сосед вернулся! Но, открыв дверь, увидел каких-то незнакомых людей. Они сообщили, что ему присуждена премия за успехи в деле народного образования. Премию будут вручать в торжественной обстановке, а их прислали, чтобы сопроводить его на церемонию. Папа не слишком поверил сказанному – уж больно угрюмо выглядели эти мужчины в одинаковых плащах. Но выбора у него не было. Когда его затолкали в ожидавшую на улице машину, он с ужасом обнаружил, что ее дверцы не открываются изнутри. Его арестовали советские власти.

Отца обвинили в шпионаже в пользу американцев. Основанием для обвинения послужило его знание английского языка. Ни семья, ни знакомые не знали, где он. Для них он исчез с лица земли. Его бросили в камеру-одиночку тюрьмы, где он протомился следующие шесть лет. Он так никогда и не узнал ни причины своего ареста, ни причины своего освобождения.

Доступ к личной информации человека – реальная угроза его безопасности, поскольку эти данные могут быть использованы ему во вред. В моих глазах этот риск выглядит особенно очевидным и пугающим, в частности, потому, что я знаю, как собирали и использовали личную информацию против моего отца.

Лет через десять после распада ГДР я попросил дать мне возможность ознакомиться с информацией, которую Министерство госбезопасности, Штази, собирало о моем отце до и после его тюремного заключения.

Я был далеко не единственным – с момента падения Берлинской стены с просьбами предоставить доступ к досье Штази на себя или на своих близких обратились почти три миллиона человек[2]2
  Pidd, Helen, “Germans Piece Together Millions of Lives Spied on by Stasi”, Guardian, March 13, 2011, http://www.theguardian.com/world/2011/mar/13/east-germany-stasi-files-zirndorf.


[Закрыть]
. К сожалению, в письме от комиссии по архивам Штази сообщалось, что все материалы, касающиеся моего отца, утрачены.

Но в конверте с письмом обнаружилось кое-что еще – фотокопия обложки досье Штази на меня самого. Я был поражен. Штази вела досье на меня? Я же был просто студентом-физиком. Тем не менее агенты госбезопасности начали собирать информацию обо мне еще в 1979 году, когда я был подростком, а датой последнего обновления значился 1987 год, когда я уже переехал в Штаты. От досье осталась только обложка, и я вряд ли когда-нибудь узнаю, что именно собрала на меня Штази, зачем это было нужно и как использовалось, если использовалось вообще.

Во времена Штази получение информации о «гражданине, представляющем оперативный интерес», было непростым делом. Сначала нужно было собрать данные – организовать слежку, фотографирование, перлюстрацию почты, опрос знакомых и прослушку в доме. Затем все полученные данные скрупулезно анализировались. Работы было столько, что к моменту краха ГДР один процент всех граждан, занятых в народном хозяйстве, являлись штатными сотрудниками госбезопасности. Но для сбора информации Штази требовались еще большие ресурсы[3]3
  Koehler, John O., Stasi: The Untold Story of the East German Secret Police (Boulder, CO: Westview Press, 1999), p. 8.


[Закрыть]
. По данным германского федерального правительства, негласными осведомителями властей являлись примерно 200 000 жителей ГДР[4]4
  Федеральный уполномоченный по архивам Государственной службы безопасности б. Германской Демократической Республики, “What Was the Stasi?”, Bundesregierung, http://www.bstu.bund.de/EN/PublicEducation/SchoolEducation/WhatWasTheStasi/_node.html.


[Закрыть]
.

Сегодня собирать данные стало намного проще. Вспомним лишь несколько из наиболее известных примеров. После многомесячных протестов и судебных разбирательств борцам за тайну личной жизни удалось одержать небольшую и неполную победу в деле об упрощенном порядке предоставления Агентству национальной безопасности (АНБ) информации о частных телефонных разговорах[5]5
  Crocker, Andrew, “EFF Case Analysis: Appeals Court Rules NSA Phone Records Dragnet Is Illegal”, Electronic Frontier Foundation, May 9, 2015, https://www.eff.org/deeplinks/2015/05/eff-case-analysis-appeals-court-rules-nsa-phone-records-dragnet-illegal.


[Закрыть]
. Тем не менее лишь очень немногие решили отказаться от услуг мобильной связи, хотя совершенно очевидно, что метаданные телефонных звонков могут быть доступны АНБ – и не только ему. Так, женщину – торгового агента из Калифорнии уволили с работы за то, что она удалила со своего смартфона приложение, позволявшее менеджеру отслеживать ее местонахождение как в рабочее, так и в нерабочее время[6]6
  Kravets, David, “Worker Fired for Disabling GPS App That Tracked Her 24 Hours a Day”, ArsTechnica, May 11, 2015, http://arstechnica.com/tech-policy/2015/05/worker-fired-for-disabling-gps-app-that-tracked-her-24-hours-a-day.


[Закрыть]
. Когда стало известно, что Facebook тщательно исследует распространение настроений пользователей, поднялся шум по поводу «манипулирования» чувствами[7]7
  В главе 3 я остановлюсь на экспериментах в социальных сетях более подробно. См. McNeal, Gregory S., “Facebook Manipulated User News Feeds to Create Emotional Responses”, Forbes, June 28, 2014, http://www.forbes.com/sites/gregorymcneal/2014/06/28/facebook-manipulated-user-news-feeds-to-create-emotional-contagion; и Booth, Robert, “Facebook Reveals News Feed Experiment to Control Emotions”, Guardian, June 29, 2014, https://www.theguardian.com/technology/2014/jun/29/facebook-users-emotions-news-feeds.


[Закрыть]
. Однако на популярности сети это практически не сказалось, и она продолжила эксперименты с данными пользователей без их предварительного согласия по той простой причине, что это крайне необходимо для дизайна платформы. А в 2015 году аффилированная с торговым гигантом Alibaba компания Ant Financial запустила в Китае пилотную версию сервиса Sesame Credit, рассчитывающего рейтинг кредитоспособности частного лица на основе анализа его покупок – как если бы выдачу кредитов американцам одобряли на основе истории их покупок в Amazon[8]8
  Sesame Credit – один из восьми пилотных проектов, призванных расширить сферу кредитования в стране к 2020 году. См. Shu, Catherine, “Data from Alibaba’s E-Commerce Sites Is Now Powering a Credit-Scoring Service”, TechCrunch, January 27, 2015, http://techcrunch.com/2015/01/27/data-from-alibabas-e-commerce-sites-is-now-powering-a-credit-scoring-service.


[Закрыть]
. Этот рейтинг моментально стали использовать и в других сферах, в том числе в качестве опции профайла на самом популярном китайском сайте знакомств[9]9
  Hatton, Celia, “China ‘Social Credit’: Beijing Sets Up Huge System”, BBC News, October 26, 2015, http://www.bbc.com/news/world-asia-china-34592186.


[Закрыть]
. Признаков массового отказа от мобильных телефонов, электронных адресов, навигаторов, аккаунтов в социальных сетях, покупок в интернет-магазинах и прочих цифровых услуг не наблюдается. Ведь все эти технологии сильно упрощают жизнь.


Обложка досье Штази


Шок, испытанный при виде досье Штази на себя, мог бы превратить меня в фанатичного ревнителя тайны личной информации. Отнюдь. На самом деле записи Штази – пустяк по сравнению с тем количеством информации о себе, которую я добровольно предоставляю всем желающим изо дня в день.

С 2006 года я публикую на своем личном сайте план всех своих выступлений и лекций, а также всех авиаперелетов, вплоть до номера забронированного в салоне места[10]10
  Увидеть, чем я занимаюсь, можно на http://weigend.com/past (прошедшие мероприятия) and http://weigend.com/plans (текущие и будущие мероприятия).


[Закрыть]
. Я делаю это, поскольку считаю, что реальная польза от предоставленной о себе информации выше, чем связанные с этим риски. Эта информация создает возможности для получения и оптимизации знаний. Главное – обеспечить, чтобы интересы тех, кто использует эту информацию, не противоречили нашим собственным.

Как можно этого достичь? Через понимание того, какая информация доступна (и наверняка будет доступна в будущем) и как эта информация анализируется и используется компаниями. При всем уважении к Маршаллу Маклюэну я считаю, что чем больше личной информации о нас накапливается в базах данных компаний, тем в большей степени мы существуем и тем больше узнаем о самих себе. Реальная проблема в том, чтобы сделать компании, собирающие личные данные, прозрачными для нас в той же степени, в какой мы прозрачны для них, и обеспечить себе право голоса в вопросах использования этих данных. В этой книге рассказывается о том, как достичь этих целей.

Введение
Революция социальных данных
Как можно заставить информацию приносить пользу людям?

Всякая революция начиналась с мысли одного человека; а когда та же мысль овладевала другими людьми, она становилась главенствующей для своего времени[11]11
  Emerson, Ralph Waldo, The Prose Works of Ralph Waldo Emerson, vol. 1, rev. ed. (Boston: James R. Osgood, 1875), p. 220.


[Закрыть]
.

Ральф Уолдо Эмерсон

В 6.45 утра меня будит сигнал будильника в моем мобильном телефоне. Я бодро перемещаюсь вместе с телефоном на кухню, чтобы начать день с просмотра электронной почты и ленты уведомлений в Facebook. GPS-приемник реагирует на мои перемещения на несколько метров на север и на восток, которые записываются в память телефона. Я наливаю себе кофе и начинаю вести себя более активно. При этом акселерометр телефона отслеживает, насколько быстро я двигаюсь, а барометр фиксирует мой подъем вверх по лестнице. Поскольку на моем телефоне установлены приложения Google, все эти данные попадают в базы этой поисковой системы.

Позавтракав, я отправляюсь на работу в Стэнфордский университет. Энергосбытовая компания установила в моем доме «умный» счетчик, который фиксирует снижение потребления электричества по мере того, как я выключаю свет и отключаю зарядные устройства моих гаджетов. Когда я открываю двери гаража, счетчик отмечает расход электричества, характерный именно для этого события. Поэтому к моменту, когда я выезжаю на улицу, у моей энергосбытовой компании достаточно информации для того, чтобы понять, что я не дома. А когда сигнал телефона переходит к другой вышке сотовой радиосвязи, это понимает и мой мобильный оператор.

Камера, установленная на углу, сфотографирует номерной знак моего автомобиля в случае, если я проеду на красный. Но сегодня я веду себя паинькой, поэтому появления в почте квитанции со штрафом не предвидится. Тем не менее по пути мой номерной знак попадет под камеры наблюдения еще не раз. Некоторые из этих камер принадлежат районным властям, другие – частным компаниям, анализирующим данные для выявления закономерностей в перемещениях. Результаты их анализа – продукт, который покупают полицейские управления, девелоперы и прочие заинтересованные лица.

Приехав в Стэнфорд, я оплачиваю парковку с помощью приложения EasyPark в моем телефоне. Деньги автоматически списываются с моего счета, а факультет и банк теперь знают, что я приехал в университет ровно в 9.03 утра. Когда телефон перестает перемещаться вместе с машиной, Google решает, что это место парковки, и записывает координаты, на случай, если я вдруг забуду, где оставил машину. А еще пора свериться с приложением страховой компании Metromile, которое считывает данные о моей поездке с бортового компьютера автомобиля. Оно мгновенно сообщает, что расход бензина сегодня был ниже (один галлон на девятнадцать миль) и поездка обошлась мне в 2 доллара 5 центов.

После занятий я планирую повстречаться с одним новым знакомым из Сан-Франциско. Виртуально мы уже встречались, комментируя в Facebook пост одного общего приятеля, и у нас обнаружилась общность точек зрения на затронутую тему. Оказалось, что у нас больше тридцати общих знакомых в Facebook – более чем достаточная причина для личного знакомства.

Google Maps прогнозирует, что я окажусь на месте к 19.12, и, как обычно, этот прогноз оказывается точным плюс-минус пара минут. Оказывается, что квартира моего нового знакомого расположена прямо над магазинчиком, который торгует табачными изделиями и разнообразными принадлежностями для употребления марихуаны. GPS-приемнику моего телефона разница между магазином и квартирой, расположенной выше, непонятна, и с точки зрения Google и моего провайдера мой день увенчался посещением хэдшопа. Я понимаю это по рекламе, которую показывает мне Google, когда просматриваю прогноз погоды на завтра перед отходом ко сну.

Революция в использовании социальных данных идет полным ходом.

Дашь на дашь

Схожие социальные данные ежедневно создают более чем миллиард людей. Социальные данные – это информация о вас, например о ваших перемещениях, поведении и интересах, а также об отношениях, связывающих вас с другими людьми, местами, товарами и даже идеологиями[12]12
  Я преподавал курс под названием «Революция социальных данных» в Стэнфордском университете (с 2008 года) и в Калифорнийском университете в Беркли (с 2011 года), но концептуальным представлением «социальные данные» стал заниматься еще задолго до этого. На самых ранних порах к социальным данным относили всего лишь обнародованную человеком информацию, вроде отзывов в Amazon и постов в социальных сетях.


[Закрыть]
. Некоторые из этих данных предаются огласке сознательно и добровольно, например, когда вы авторизовались в Google Maps и вводите свой маршрут; другие – не столь осознанно, а в качестве неотъемлемой составляющей пользования интернетом и мобильными устройствами. Понятно, что в некоторых случаях предоставление информации является необходимым условием получения услуги: Google не сможет проложить лучший маршрут, если вы не сообщите системе, где находитесь и куда хотите попасть. В других случаях вы сами рады поделиться информацией – например, когда лайкаете пост знакомого в Facebook или даете одобрительный отзыв о работе коллеги в LinkedIn просто потому, что хотите оказать им поддержку.

Социальные данные могут отличаться исключительной точностью, например указывать ваше местонахождение с точностью до метра, но часто бывают отрывочными и недостаточно полными. Например, пока я не зарегистрируюсь в приложении, которое считывает показания моего «умного» электросчетчика (допустим, по дороге в аэропорт, чтобы убедиться, что я действительно выключил весь свет в доме), энергосбытовая компания знает, что меня нет дома, но не более того. Этот касающийся меня показатель с равным успехом может оказаться и полезным, и бесполезным. Так, во время моего визита к знакомому в Сан-Франциско широта и долгота моего местонахождения были отражены точно, а предположения о том, что я делал тем вечером, оказались совершенно неверными. При всем своем правдоподобии вывод Google оказался всего лишь поверхностной интерпретацией. Отрывочные данные обычно оказываются недостаточными, сопряженными с риском ошибки, а иногда и умышленно сфальсифицированными[13]13
  Тем, кого интересуют подробности об отрывочных данных, рекомендую посмотреть видеозапись панельной дискуссии с моим участием на конференции DataEdge, которую проводил факультет информации Калифорнийского университета в Беркли в 2013 году. Она доступна на http://www.catchtalk.tv/events/dataedge/videos/sketchy-data-panel-discussion-dataedge-2013.


[Закрыть]
.

В целом же объем социальных данных (пассивных и активных, обязательных и произвольных, точных и приблизительных) растет в геометрической прогрессии: он удваивается каждые восемнадцать месяцев. Через пять лет объем социальных данных возрастет примерно десятикратно, или на порядок, а через десять лет он увеличится примерно в 100 раз. Другими словами, сейчас за один день фиксируется столько же данных, сколько в течение всего 2000 года. А при сохранении существующих темпов роста в 2020 году мы будем создавать такой же объем данных менее чем за час.

Очень важно понимать, что «социальные данные» – отнюдь не просто очередное модное наукообразное словосочетание применительно к социальным медиа. Многие платформы социальных сетей создавались в целях широкого охвата массовой аудитории. Социальные данные становятся все более демократичными и доступными: информацией о себе, своей компании, своих успехах и своей точке зрения можно добровольно делиться в Twitter или в Facebook. Но люди оставляют намного большее количество глубоких цифровых следов на куда более обширной территории. Ваши поиски в Google, ваши покупки в Amazon, ваши звонки по скайпу, каждомоментное местонахождение вашего телефона – все эти и многие другие источники позволяют создать уникальный портрет вашей личности.

Далее, социальные данные – это не только вы сами. Характер ваших коммуникаций с родными, знакомыми и коллегами представляет собой информацию о прочности ваших связей с ними. Вы пополняете картину социальных данных и в ходе разовых контактов с совершенно незнакомыми людьми – так происходит, например, когда вы вводите тэги в Инстаграме или оставляете отзыв на какой-то товар. Создавая аккаунт на сайте аренды жилья Airbnb, вы подтверждаете свою личность не только официальными паспортными данными, но и профайлом в Facebook. Фиксация социальных данных предусмотрена и в домах с «умными» кондиционерами, и в автомобилях с навигационными системами, а также на рабочих местах с программными средствами коллективного пользования. Эти данные начинают аккумулироваться в учебных аудиториях и кабинетах врачей. По мере того как мобильные телефоны обрастают все большим количеством датчиков и приложений, отслеживающих ваше поведение дома, в магазине и на работе, становится все менее возможным контролировать распространение информации не только о своем обычном образе жизни, но и о своих сокровенных желаниях. Специалисты по обработке и анализу данных превращаются в детективов и художников, способных создавать все более и более точные образы личности на основе оставленных цифровых следов.

Эти цифровые следы исследуются и обрабатываются для того, чтобы получать представление о наших предпочтениях, выявлять тренды и делать прогнозы, в том числе и о возможных покупках. В качестве главного научного консультанта Amazon я вместе с Джеффом Безосом разрабатывал информационную стратегию компании, основанную на анализе интересов потребителя. Наши эксперименты были призваны установить, что в большей степени влияет на удовлетворенность покупателя продуктом – отзывы других потребителей или отзывы в прессе. Мы также хотели выяснить, что работает эффективнее – рекомендации на основе традиционных демографических характеристик или на основе истории просмотров каждого потенциального покупателя. В результате мы убедились, что эффективнее всего стимулирует продажи метод непосредственной коммуникации. Созданные нами для Amazon инструменты персонализации радикально изменили подходы людей к решению о покупке товара и стали стандартом электронной коммерции.


ДОСТУП К ЛИЧНОЙ
ИНФОРМАЦИИ ЧЕЛОВЕКА —
РЕАЛЬНАЯ УГРОЗА
ЕГО БЕЗОПАСНОСТИ

После ухода из Amazon я вел учебный курс «Революция в использовании социальных данных», который прослушали тысячи студентов – от старшекурсников и аспирантов Стэнфорда и Калифорнийского университета в Беркли до слушателей китайских бизнес-школ Фуданьского университета в Шанхае и Университета Синьхуа в Пекине.

Кроме этого я продолжаю руководить созданной мной в 2011 году Лабораторией социальных данных (Social Data Lab) – коллективом авторитетных специалистов в области обработки и анализа информации. На протяжении десятилетия работы с заказчиками, в числе которых крупнейшие корпорации (Alibaba, AT&T, Walmart и United Healthcare), авиакомпании, представители финансового сектора и сайты знакомств, я неизменно выступаю за предоставление права участия потребителей и пользователей, то есть обычных людей, в решении вопросов использования данных.

Проработать весь доступный в наши дни объем данных по какому-то вопросу, для того чтобы принять, как говорили раньше, «решение на основе полной информации», не под силу ни одному человеку. Но кто будет иметь возможность пользоваться инструментарием для обработки информации, пусть и в целях решения наших проблем? Будут ли сделанные на основе анализа данных выводы и прогнозы доступны любому желающему или они останутся в распоряжении немногочисленных могущественных организаций? Какую цену придется заплатить каждому из нас за бонусы от доступности своих социальных данных?

Я считаю, что значение социальных данных следует рассматривать не только в разрезе их доступности, но и в контексте результативности их использования, улучшения качества принимаемых нами решений. Некоторые решения принимаются нами ежедневно и неоднократно, а некоторые – один раз в жизни. Однако это не значит, что у созданных нами сегодня социальных данных короткий срок годности. Наши сегодняшние действия могут обусловить решение, которое нам предстоит сделать через несколько десятилетий. Лишь очень немногие умеют тщательно фиксировать все свои действия и анализировать их влияние на свою жизнь в краткосрочной или долгосрочной перспективе. Анализ социальных данных может позволить лучше оценить возможности и вероятности, притом что окончательное решение должно оставаться за вами.

Единственное, на что совершенно точно не способны эти технологии, – решить, какое будущее мы хотим для себя и как отдельно взятые личности, и как общество в целом. Законы, защищающие человека от дискриминации на работе или в сфере здравоохранения, могут прекратить действовать уже завтра, а в некоторых странах они отсутствуют и сейчас. Представьте себе, что вы решили поделиться своим беспокойством по поводу высокого уровня холестерина с каким-нибудь медицинским приложением или сайтом, чтобы получить консультацию о режиме питания и физических нагрузках. Могут ли ваши опасения по поводу своего здоровья быть каким-то образом использованы против вас? Что, если законодательство позволит установить для вас лично максимально высокие цены на медицинское обслуживание, поскольку вы не перестали питаться полуфабрикатами и продолжаете валяться на диване и после того, как получили четкие рекомендации относительно образа жизни, который следует соблюдать при вашем состоянии здоровья? А если некий менеджер кадровой службы получит информацию о вас из интернета и решит, что ваш стиль жизни не подходит компании, и поэтому он не будет рассматривать вашу кандидатуру на имеющуюся вакансию? Это вполне реальные риски.

Если бы вы являлись единственным источником формирования и распространения данных о себе, то имели бы возможность пресечь появление информации, которую считаете нежелательной. Это было бы возможно, хотя и крайне хлопотно. Однако мир, в котором мы живем, устроен иначе. У вас нет возможности контролировать большую часть информации о себе. Это становится все более очевидным по мере того, как бизнес и власти все чаще прибегают к использованию социальных данных под предлогом повышения своей эффективности и действенности.

В связи с такой доступностью социальных данных вопрос о том, как обращаться с ними наилучшим образом, касается каждого. Технологии быстро развиваются, а компании, которые собирают и анализируют наши данные, занимаются аккумулированием и кодированием информации, а не разработкой правил ее использования. Многие принципиальные вопросы рассматриваются применительно к какой-то конкретной ситуации, если рассматриваются вообще. Нельзя оставлять на усмотрение информационно-технологических компаний решения относительно принципов, глубоко затрагивающих наше будущее.



скачать книгу бесплатно

страницы: 1 2 3 4 5 6 7 8 9