Cет Cтивенс-Давидовиц.

Все лгут. Поисковики, Big Data и Интернет знают о вас всё



скачать книгу бесплатно

Seth Stephens-Davidowitz

EVERYBODY LIES


Copyright © 2017 by Seth Stephens-Davidowitz


© Степанова Л.И., перевод на русский язык, 2018

© Оформление. ООО «Издательство «Эксмо», 2018

* * *

Вступление

Некогда философы мечтали о «микроскопе для мозга» – мифическом устройстве, отображающем на экране мысли человека. Социологи же активно искали инструменты, позволяющие понять действия человека. За время моей работы в качестве экспериментального психолога в моду входили различные инструменты, которые быстро разочаровывали ученых. Я перепробовал их все – рейтинговые шкалы, время реакции, расширение зрачка, функциональную нейровизуализацию, даже изучение пациентов, страдающих эпилепсией (они были рады скоротать время за экспериментами в ожидании приступа).

Но ни один из этих методов не позволил беспрепятственно заглянуть в разум. Проблема заключалась в необходимости грубого компромисса. Человеческие мысли – сложносоставное явление. В отличие от Вуди Аллена, который сводит «Войну и мир» к паре предложений, мы не просто думаем: «Это история о нескольких русских». Ученому трудно проанализировать предложения во всей их многомерной запутанности. Конечно, когда люди изливают свои души, мы можем наконец постичь все богатство их потока сознания. Но монологи все равно не являются идеальным набором данных для тестирования гипотез. С другой стороны, если мы сосредоточимся на измерениях, легко поддающихся количественной оценке – таких как время реакции человека на слова или фотографии, – то сможем сформировать статистику. Но тем самым мы сведем сложную текстуру сознания к одному числу. Даже самые изощренные методики нейровизуализации могут рассказать нам, как мысль распределяется в 3D-пространстве, но не расскажет, о чем эта мысль.

Помимо этого, ученые-социологи учитывали действие закона малых чисел – Амос Тверски и Даниэль Канеман дали это название заблуждению, заключающемуся в том, что общие черты будут отражены в любой выборке населения, какой бы малой она ни была. Даже самые большие специалисты в области математики порой весьма печально ошибаются относительно того, сколько объектов нужно взять для исследования, прежде чем можно будет абстрагироваться от случайных отклонений данных и обобщить результат для всех американцев, не говоря уже обо всех Homo sapiens. Это тем более трудно, когда образец собирается по принципу удобства, например предлагая деньги на пиво второкурсникам.

Эта книга – о совершенно новом способе изучения сознания. Конечно, большие данные, полученные в результате интернет-поиска и других онлайн-исследований, – не энцефалоскоп. Но Сет Стивенс-Давидович показывает, что они дают удивительную возможность по-новому взглянуть на психику человека. Уединившись со своей клавиатурой, люди делают довольно странные признания. Иногда потому (как на сайтах знакомств или при поиске профессиональных советов), что это имеет реальные последствия.

А в других случаях потому, что эти действия, наоборот, не приводят ни к каким последствиям и люди могут раскрыться, признаться в наличии того или иного желания или страха без опасения, что кто-то отреагирует на это с ужасом.

В любом случае, люди не просто нажимают на кнопку или поворачивают ручку, но и набирают триллионы последовательностей символов, чтобы изложить свои мысли во всех их взрывоопасных комбинациях. Эти данные поступают из всех слоев общества. При этом люди оставляют цифровые следы, которые легко агрегировать и анализировать, принимая участие в незаметных экспериментах, меняющих стимулы и суммирующих ответы в реальном времени. И они с радостью предоставляют эти данные в огромных количествах. «Все лгут» – это больше, чем доказательство подобной концепции. Раз за разом открытия Стивенса-Давидовица переворачивали с ног на голову мои представления о согражданах и собственной стране. Откуда у Дональда Трампа столь неожиданная поддержка? В 1976 году Энн Лэндерс спросила своих читателей, сожалеют ли они о том, что у них есть дети – и была шокирована: большинство ответов оказались положительными. Не была ли она введена в заблуждение нерепрезентативной выборкой? Действительно ли интернет виноват в кризисе конца 2010-х годов – «информационном пузыре»? Что приводит к преступлениям на почве ненависти? Правда ли, что люди ищут шутки, чтобы посмеяться? Хотя мне нравится думать, что ничто не может меня шокировать, я все же был в шоке от того, как в интернете раскрывается человеческая сексуальность – в том числе меня поразило открытие, что каждый месяц определенное количество женщин ищет «трахание плюшевых игрушек». Никакой эксперимент с использованием времени реакции, расширения зрачка или функциональной нейромедицины не смог бы никогда вскрыть этот факт.

Книга «Все лгут» обязательно понравится всем. Стивенс-Давидовиц с его неутомимым любопытством и терпением указывает новый путь для общественных наук XXI века. При наличии такого бесконечно увлекательного окна в мир человеческих страстей кому будет нужен энцефалоскоп?

Стивен Пинкер
Доктор наук, преподаватель MIT, автор книги «Чистый лист. Природа человека. Кто и почему отказывается признавать ее сегодня», 2017 г.

Предисловие
Контуры революции

«Разумеется, он проиграет», – сказали они.

По результатам республиканских предварительных выборов 2016 года эксперты пришли к выводу, что у Дональда Трампа нет никаких шансов, поскольку он оскорбил все возможные меньшинства. Опросы показали, сколь малое число американцев одобряет такое посягательство на их права.

Большинство опрошенных экспертов в то время также считали, что Трамп проиграет на всеобщих выборах. Слишком многие потенциальные избиратели говорили, что его манеры и взгляды вызывают у них отвращение.

Однако были факты, указывавшие на то, что на самом деле Трамп может выиграть как предварительные партийные, так и всеобщие выборы. И эти подсказки можно было найти в интернете.


Я эксперт в области интернет-данных. Ежедневно я отслеживаю цифровые следы людей, перемещающихся по ссылкам во всемирной паутине. По тому, на какие ссылки или клавиши они нажимают, я пытаюсь понять, чего они действительно хотят, что делают и кто они (да и мы все) есть на самом деле. Хочу рассказать, как я встал на этот необычный путь.

История началась – теперь кажется, что давным-давно, – с президентских выборов 2008 года. Социологи тогда вели долгие дискуссии: насколько сильны расовые предрассудки в Америке?

Барак Обама был выдвинут как первый афроамериканский кандидат в президенты США от лидирующей партии. Он победил, и довольно легко. Опросы показали, что раса не была тем фактором, который влиял на выбор американцев. Институт Гэллапа, например, проводил многочисленные опросы до и после первого избрания Обамы. Их вывод: американских избирателей не особо волновало, что Барак Обама черный{1}1
  Katie Fretland, «Gallup: Race Not Important to Voters» («Гэллап: Раса не важна для избирателей»), The Swamp, Chicago Tribune, June 2008.


[Закрыть]
. Вскоре после выборов двое известных профессоров из университета Беркли{2}2
  Alexandre Mas and Enrico Moretti, «Racial Bias in the 2008 Presidential Election» («Расовые предрассудки на президентских выборах 2008 года»), American Economic Review 99, no. 2 (2009).


[Закрыть]
в Калифорнии внимательно изучили собранные в ходе исследований материалы, применяя сложнейшие методики обработки данных. В результате они пришли к аналогичному выводу.

Таким образом, во время президентства Обамы это стало общепринятым мнением, которое распространилось во многих СМИ и академических кругах. Источники, на которые восемьдесят с лишним лет опирались СМИ и ученые-социологи для понимания устройства нашего мира, утверждают, что подавляющее большинство американцев не волновало, что Обама – чернокожий, когда они решали, может ли он стать их президентом.

Эта страна, издавна запятнанная рабством и законами Джима Кроу[1]1
  Неофициальное название законов о расовой сегрегации в США в период с 1890 по 1964 год. – Прим. ред.


[Закрыть]
, казалось, наконец перестала судить о людях по цвету их кожи. Это вроде бы должно было указывать на то, что расизм в Америке на последнем издыхании. Некоторые эксперты даже заявили, что мы живем в пострасовом обществе{3}3
  12 ноября 2009 года в эпизоде своего шоу Лу Доббс сказал, что мы живем в «пост-расовом обществе». 27 января 2010 года на его шоу Крис Мэттьюс сказал, что президент Обама был «по всем признакам, пост-расовым». Другие примеры см. Michael C. Dawson and Lawrence D. Bobo, «One Year Later and the Myth of a Post-Racial Society» («Год спустя или миф об обществе»), Du Bois Review: Social Science Research on Race 6, no. 2 (2009).


[Закрыть]
.

В 2012 году я был аспирантом в области экономики и разочаровался в выбранном мной направлении, будучи уверенным в том, что я уже довольно хорошо понимаю, как устроен мир, о чем люди думают и что их заботит в двадцать первом веке. А когда дело дошло до вопроса о предрассудках, я позволил себе поверить, исходя из того, что я читал в трудах по психологии и политологии, что явный расизм присущ весьма ограниченному проценту американцев и большинство из них – консервативные республиканцы, в основном живущие в глубинке на Юге.

Затем я обнаружил Google Trends.

Появление этого приложения в 2009 году прошло практически незамеченным. Оно позволяет пользователям определить, насколько часто то или иное слово или фраза появлялись в разных местах и в разное время, и преподносилось оно как инструмент для развлечения, например для обсуждения с друзьями, какие знаменитости сейчас популярны или какая одежда вошла в моду. Ранние версии программы даже включали шутливое предостережение о том, что «не стоит писать докторскую диссертацию», опираясь на такие данные, что сразу же побудило меня написать диссертацию на их основе[2]2
  Приложение Google Trends – источник большей части данных, содержащихся в моей работе. Однако, поскольку оно позволяет лишь сравнивать относительную частоту разных запросов, но не сообщает точное их число по какому-либо конкретному виду поиска, я обычно дополнял его результаты данными, полученными из Google Adwords – сервиса, который показывает, как часто осуществлялся каждый поиск. В большинстве случаев мне также удалось улучшить четкость изображения с помощью моего собственного алгоритма, написанного на базе Google Trends, который я описал в своей диссертации «Опыт использования данных Google», и в моей статье для Journal of Public Economics – «Уровень расовой неприязни к чернокожему кандидату: на основе данных, полученных с помощью Google». Диссертация, статья, полное объяснение данных и код, использовавшийся во всех оригинальных исследованиях, представленных в этой книге, доступны на моем сайте: sethsd.com. – Прим. авт.


[Закрыть]
.

В то время данные поисковика Google, похоже, не считались достойным источником информации для серьезных научных исследований, ведь они не создавались как инструмент для изучения человеческой психологии. Google придумали для того, чтобы люди могли познавать мир, а не для того, чтобы исследователи изучали людей. Но оказалось, что следы, которые мы оставляем, выискивая крупицы знаний в интернете, чрезвычайно показательны.

Другими словами, люди, ищущие информацию, сами являются источником информации. То, когда и где они ищут факты, цитаты, шутки, места, людей, вещи или помощь, оказывается, может рассказать нам гораздо больше об их реальных мыслях, желаниях, опасениях и делах, чем можно себе представить. И особенно наглядно это проявляется тогда, когда люди не столько задают поисковику вопросы, сколько доверяются ему: «я ненавижу своего босса», «я пьян», «мой папа ударил меня».

Печатание слова или фразы в аккуратном белом окошке оставляет маленький реальный след. Помноженный на миллионы, в итоге он выявляет глубинные реалии. Первое слово, которое я набрал в Google Trends, было «Бог». Я узнал, что штатами, в которых чаще всего в поисковых запросах в Google упоминается Бог, были Алабама, Миссисипи и Арканзас – так называемый Библейский пояс. И эти поиски чаще всего происходят по воскресеньям. В этом нет ничего удивительного, но любопытно, что поиск данных позволяет выявить настолько ясную картину. Я набрал Knicks[3]3
  Сокр. от Knickerbockers – нью-йоркская баскетбольная команда (НБА). – Прим. ред.


[Закрыть]
и увидел, что большинство запросов относится к городу Нью-Йорк. Ежу понятно. Тогда я набрал свое имя. «Мы сожалеем, – ответил мне Google Trends. – Не хватает поискового объема, чтобы показать результаты». Так я узнал, что Google Trends предоставляет данные только тогда, когда достаточно много людей выполняет один и тот же поиск.

Но сила поисковой системы Google не в том, чтобы выяснить, что наибольшей популярностью Бог пользуется на Юге, Knicks – в Нью-Йорке или что я не популярен нигде. Любой опрос может выявить это. Могущество и власть Google заключается в том, что люди рассказывают гигантской поисковой системе то, что они не могли бы сказать никому другому.

Возьмем, к примеру, секс (к этой теме я вернусь позднее и рассмотрю ее более подробно). Результатам опросов нельзя доверять, поскольку люди редко говорят правду о своей сексуальной жизни. Я проанализировал данные Всеобщего социального исследования{4}4
  Подробную информацию обо всех этих расчетах можно найти на моем сайте sethsd.com в формате CSV под заголовком «секс-данные». Данные общего социального обследования могут быть найдены по адресу http://gss.norc.org/.


[Закрыть]
, которое считается наиболее достоверным и авторитетным источником информации о поведении американцев. По данным этого опроса, когда речь идет о гетеросексуальном контакте, женщины говорят, что они занимаются сексом в среднем пятьдесят пять раз в год, в шестнадцати процентах случаев используя презерватив. Это дает около 1,1 миллиарда презервативов в год. Но, по утверждению гетеросексуальных мужчин, ежегодно используется 1,6 миллиарда презервативов. По определению эти цифры должны совпадать. Так кто же говорит правду – мужчины или женщины?

Как оказалось – ни те, ни другие. По данным компании Nielsen, которая отслеживает поведение потребителей, ежегодно продается менее 600 миллионов презервативов{5}5
  Данные, предоставленные автором.


[Закрыть]
. Так что лгут и те и другие; единственное различие в том, насколько сильно.

Ложь на самом деле очень широко распространена. Мужчины, которые никогда не были в браке, заявляют об использовании в среднем двадцати девяти презервативов в год. Это число следует добавить к числу презервативов, продаваемых в Соединенных Штатах людям, состоящим в браке и одиноким, вместе взятым. Люди, состоящие в браке, наверное, тоже преувеличивают свою сексуальную активность. В среднем женатые мужчины в возрасте под шестьдесят пять говорят, что они занимаются сексом раз в неделю. Только один процент признается, что у них не было секса целый год. Замужние женщины сообщают о немного меньшем количестве секса, но совсем немного.

По результатам поиска в Google мы обнаружим менее яркую, но, как мне кажется, гораздо более правдоподобную картину. Больше всего жалоб на отсутствие секса в браке. Поисковый запрос «брак без секса» делается в три с половиной раза чаще, чем запрос «несчастливый брак», и в восемь раз чаще, чем «брак без любви». Даже неженатые пары довольно часто жалуются на то, что они не занимаются сексом. Поисковый запрос «отношения без секса» уступает только запросам тех, кто ищет «жесткий секс». (Хочу подчеркнуть, что все эти данные предоставлены анонимно. Google, разумеется, не сообщает данные поиска конкретной личности.)

Поисковик Google позволил нам увидеть картину Америки, которая разительно отличается от той пострасовой утопии, которую показали результаты опросов. Помню, как я впервые набрал слово «ниггер» в Google Trends. Можете считать меня наивным, но, учитывая, насколько «токсично» это слово, я ожидал, что поисковый объем будет очень небольшим. Ребята, я был неправ. В Соединенных Штатах слово «ниггер» – или во множественном числе «ниггеры» – входило в поисковые запросы примерно столько же раз, сколько слова «мигрень», «экономист(ы)» и «Лейкерс». Я подумал, что, если связать это слово со словом «рэп», возможно, результат будет другим. Но нет. Слово, используемое в рэпе, почти всегда – «нигга». Какая же мотивация была у американцев, осуществлявших поиск со словом «ниггер»? Зачастую они ищут анекдоты, высмеивающие афроамериканцев. Но на самом деле только двадцать процентов поисковых запросов со словом «ниггер» включают и слово «анекдот», тогда как большинство подобных поисков включают фразы «тупые ниггеры» и «я ненавижу ниггеров».

И ежегодно – миллионы таких поисков. Множество американцев в уединении, находясь дома, делают шокирующе расистские запросы. Чем больше я занимался этим исследованием, тем больше получал тревожной информации.

В первую ночь после выборов Обамы, когда большинство комментариев были хвалебными и признающими историческое значение его избрания, примерно один из каждых ста поисковых запросов Google, содержащих слово «Обама», также включал слова «ККК»[4]4
  Ku Klux Klan (англ.) – Ку-клукс-клан. – Прим. ред.


[Закрыть]
или «ниггер(ы)». Возможно, это не так уж много, учитывая тысячи нерасистских запросов в Google об этом молодом незнакомце с очаровательным семейством, который собирался взять на себя выполнение самой значимой в мире работы. В ночь выборов поисковых запросов и регистраций на Stormfront{6}6
  Авторский анализ с помощью Google Trends. Я тоже собрал данные на всех членов Stormfront, как описано в Seth Stephens-Davidowitz, «The Data of Hate» («Данные о ненависти»), New York Times, 13 июля 2014 года, sr4. Соответствующие данные могут быть обнаружены в sethsd.com в разделе под заголовком «Stormfront».


[Закрыть]
 – сайте белых националистов с неожиданно высокой популярностью в США – было более чем в десять раз больше, чем обычно. В некоторых штатах поисков по запросам «ниггер-президент»{7}7
  Анализ автором трендов с помощью данных Google. Штаты, для которых это справедливо – Кентукки, Луизиана, Аризона и Северная Каролина.


[Закрыть]
было намного больше, чем по запросам «первый черный президент».

Темная сторона и неприязнь, которые не были выявлены традиционными методами, стали вполне очевидны после анализа поисковых запросов, которые делали люди.

Все эти запросы плохо согласуются с обществом, в котором расизм – незначительный фактор. В 2012 году я знал Дональда Дж. Трампа в основном как бизнесмена и ведущего реалити-шоу. Я, как и большинство людей, представить не мог, что спустя четыре года он станет серьезным кандидатом в президенты. Тем не менее, все эти неприглядные поисковые запросы нетрудно связать с успехом кандидата, который, используя злобные нападки на иммигрантов, разжигая неприязнь и нетерпимость, часто играл на худших человеческих проявлениях.


Анализ поиска в Google также показал, что мы во многом имели неверное представление о локализации расистских настроений в стране. По опросам и традиционным представлениям, современный расизм базируется преимущественно на Юге и в основном среди республиканцев. Однако места с наивысшим уровнем расистских запросов были обнаружены – помимо Западной Виргинии, Южной Луизианы и Миссисипи – также в штатах Нью-Йорк, Пенсильвания, Западный и Восточный Огайо, Мичиган, промышленный и сельский Иллинойс. По данным Google, правильнее было бы противопоставить не Юг и Север, а Восток и Запад. Вы не получите подобного уровня запросов сильно к западу от Миссисипи. И распространение расизма не ограничивается средой республиканцев. Фактически расистские запросы в местах с высоким процентом республиканцев были не выше, чем в местах с высоким процентом демократов. Иными словами, анализ поиска в Google помог составить новую карту локализации расизма в США, и эта карта выглядела совершенно иначе, чем мы себе представляли. Дело в том, что республиканцы на Юге с большей вероятностью признаются в своем расизме, хотя и множество демократов на Севере имеют аналогичные взгляды.

Четыре года спустя эта карта окажется довольно значимой при объяснении политического успеха Трампа.

В 2012 году я использовал эту карту локализации расизма, разработанную по частоте запросов в Google, чтобы полностью пересмотреть ту роль, которую сыграла расовая принадлежность Обамы, и увидел четкую картину. В районах страны с наибольшим количеством расистских поисковых запросов рейтинг Обамы был существенно ниже рейтинга Джона Керри, белого кандидата в президенты от Демократической партии. Такой результат в этих районах невозможно было объяснить никаким иным фактором, в том числе уровнем образования, возрастом, религиозностью или владением оружием. Расистские запросы не позволяли прогнозировать низкий уровень популярности ни для какого другого демократического кандидата. Только для Обамы.

В результате Обама потерял примерно четыре процента голосов по стране вследствие откровенного расизма. Это было намного больше, чем ожидалось, исходя из данных опросов. Барак Обама, конечно, был избран и переизбран президентом, в чем не последнюю роль сыграли очень благоприятные условия для демократов, но ему пришлось преодолеть намного больше трудностей, чем кому-либо, кто полагался на традиционные источники данных, которые в большинстве случаев были ошибочны. В стране было достаточно расистов, способных одержать победу на предварительных или всеобщих выборах не в столь благоприятный для демократов период.

Поначалу мое исследование было отклонено пятью научными журналами{8}8
  Этот документ был опубликован как Seth Stephens-Davidowitz, «The Cost of Racial Animus on a Black Candidate: Evidence Using Google Search Data» («Уровень расовой враждебности для чернокожего кандидата: опыт использования данных поисковых запросов в Google»), Journal of Public Economics 118 (2014). Более подробную информацию об исследовании можно найти здесь. Кроме того, данные можно найти на моем сайте, sethsd.com в разделе под заголовком «расизм».


[Закрыть]
. Многие из рецензентов – извините за брюзжание – заявили, что не могут поверить, будто так много американцев скрывают свой расизм. Это противоречило тому, что люди говорили при опросах. Кроме того, исследование поисковых запросов в Google казалось им очень странным способом получения данных.

Теперь, когда мы стали свидетелями инаугурации президента Дональда Дж. Трампа, мои результаты кажутся вполне убедительными.


Чем больше я изучал этот вопрос, тем больше понимал, что в Google есть много информации, которую не принимали во внимание при опросах и которая, помимо всего прочего, может быть полезна для понимания результатов выборов.

Например, информация о том, кто на самом деле будет принимать участие в выборах. Больше половины граждан, которые не голосуют, говорят исследователям, проводящим опросы непосредственно перед выборами, что они намерены пойти голосовать, что искажает оценку явки, в то время как данные о поиске в Google по фразам «как голосовать» или «где голосовать» за неделю перед выборами помогут более точно предсказать, где предполагается большая активность на избирательных участках.

Можно даже найти информацию о том, за кого они пойдут голосовать. Мы со Стюартом Гэбриэлом, профессором университета штата Калифорния, Лос-Анджелес, нашли удивительную подсказку для определения того, как именно люди планируют голосовать. Большой процент поисков, связанных с выборами, содержит запросы с именами обоих кандидатов. Во время выборов 2016 года, когда соперничали Трамп и Хиллари Клинтон, некоторые люди делали запрос: «выборы: Трамп – Клинтон». Другие искали: «Клинтон – Трамп, дебаты». По сути, двенадцать процентов поисковых запросов со словом «Трамп» включали и слово «Клинтон». Более четверти поисковых запросов с фамилией Клинтон также содержали и фамилию Трампа.

Мы обнаружили, что эти, казалось бы, нейтральные поиски на самом деле могут дать нам некоторые подсказки о том, какого кандидата человек поддерживает.

Как? Все зависит от порядка, в котором кандидаты появляются в запросе. Наши исследования показывают, что человек со значительно большей вероятностью поставит имя кандидата, которого он поддерживает, первым в поисковом запросе, содержащем имена обоих кандидатов.

В ходе предыдущих трех выборов кандидат, фамилию которого ставили первым в поисковых запросах, набирал наибольшее число голосов. Что еще интереснее, порядок, в котором искали в сети кандидатов, позволял предсказать, чью сторону примет тот или иной штат.



скачать книгу бесплатно

страницы: 1 2 3 4 5 6

Поделиться ссылкой на выделенное