Кэти О'Нил.

Убийственные большие данные. Как математика превратилась в оружие массового поражения



скачать книгу бесплатно

Cathy O’Neil

Weapons of Math Destruction: How Big Data Increases Inequality and Th reatens Democracy


© Cathy O’Neal, 2016, 2017

© Перевод. В. Дегтярева, 2017

© Издание на русском языке AST Publishers, 2018

* * *

Посвящается всем аутсайдерам



Благодарности

Спасибо моим мужу и детям за их невероятную поддержку. Также спасибо Джону Джонсону, Стиву Уолдману, Маки Инаде, Беки Джефф, Аарону Абрамсу, Джули Стил, Карен Бернс, Мэтту ЛаМаните, Марте Пун, Лизе Рэдклифф, Льюсу Дэниелу и Мелиссе Билски. И, наконец, спасибо людям, без которых эта книга не могла бы родиться: Лоре Стросфелд, Аманде Кук, Эмме Берри, Джордану Элленбергу, Стивену Бейкеру, Джею Мэнделу, Сэму Кансон-Бенанаву и Эрни Дэвису.

Вступление

В детстве я любила высматривать из окна машины номерные знаки других автомобилей. Я делила их на базовые элементы – числа, из которых они состояли. 45=3?3?5. Этот процесс, который называется разложением на множители, был моим любимым познавательным времяпрепровождением. Математика уже тогда очень меня интересовала, и особенно я была заинтригована простыми числами.

Моя любовь к математике постепенно переросла в страсть. В четырнадцать лет я отправилась в математический лагерь и вернулась домой, прижимая к груди кубик Рубика. Математика дала мне аккуратное, уютное убежище, где можно было укрыться от хаотичности реального мира. Математика двигалась вперед, ее поле знаний постоянно расширялось, от доказательства к доказательству. Я чувствовала, что могу сделать и свой вклад. Я изучала математику в колледже, и степень доктора философии получила тоже в области математики. Темой моей диссертации была алгебраическая теория чисел – область, основанная на разложении на множители, которое так интересовало меня в детстве. В конце концов я стала профессором в Барнард-колледже, математический факультет которого объединен с Колумбийским университетом.

А затем я резко изменила свою жизнь: ушла из колледжа и устроилась на работу специалистом по количественному анализу в один из крупнейших хедж-фондов – фонд David E. Shaw. Уйдя из академического заведения в мир финансов, я перенесла математику из абстрактной теории в практику. Операции, которые мы производили с цифрами, воплощались в триллионы долларов, перетекающих с одного счета на другой. Сначала я была ошеломлена и взбудоражена работой в этой новой лаборатории глобальной экономики. Но осенью 2008 года, не успела я проработать в этой области год с небольшим, экономика начала рушиться.

Это крушение продемонстрировало, что математика, когда-то бывшая моим убежищем, не только оказалась глубоко вовлечена в мировые проблемы, но и послужила причиной многих из них. Жилищный кризис, коллапс основных финансовых институтов, рост безработицы – все это произошло благодаря содействию и подстрекательству со стороны математиков, выдававших волшебные формулы.

Более того – благодаря невероятной мощи, которую я так любила, математика смогла объединиться с технологиями, что привело к умножению хаоса и несчастий, а также к росту эффективности и масштабности систем, которые я теперь считаю ущербными.

Если бы мы проявили больше здравомыслия, мы отступили бы в тот момент на шаг назад, выяснили, как именно математика была использована во вред и что нужно сделать, чтобы предотвратить подобную катастрофу в будущем. Но вместо этого сразу после кризиса появились еще более крутые математические технологии, распространившиеся на новые области. С помощью этих технологий мы круглосуточно перерабатывали петабайты информации, большая часть которой была взята из социальных сетей или с сайтов интернет-магазинов. И анализ этих данных все больше сосредоточивался не на движениях глобальных финансовых рынков, а на людях – то есть на нас с вами. Математики и статистики изучали наши желания, перемещения и финансовые возможности. Они прогнозировали нашу кредитоспособность и оценивали наш потенциал в качестве студентов, работников, любовников, преступников-рецидивистов.

Это была экономика Больших данных, и она сулила потрясающие возможности. Компьютерная программа могла просмотреть тысячи резюме или кредитных заявок и за одну-две секунды разложить их по аккуратным спискам, поместив наверх самых многообещающих кандидатов. Это не только экономило время, но и считалось справедливым и объективным. Ведь в основе этой системы – не полные предубеждений человеческие существа, копающиеся в бумажных кипах, а машины, обрабатывающие бесстрастные цифры. Примерно к 2010 году математика утвердила себя в человеческих делах с небывалым ранее запасом прочности – и люди в большинстве своем это приветствовали.

Однако я увидела здесь проблему. Усиленные математикой приложения, на которых работала экономика данных, были основаны на выборе, сделанном несовершенными человеческими существами. Иногда выбор, без сомнения, делался из лучших побуждений. Но многие из этих моделей вставляли предубеждения, непонимание и предвзятость, свойственные каждому живому человеку, в программное обеспечение, которое во все большей степени управляло нашими жизнями. Подобно богам, эти математические модели были загадочными, а принцип их работы – непонятным ни для кого, кроме высшей касты – математиков и специалистов в области компьютерных наук. Их вердикты, даже неправильные и наносящие вред, оказывались вне рамок обсуждения и за пределами обжалования. И в их работе проявлялась тенденция к наказанию бедных и угнетенных слоев населения в нашем обществе, в то время как богатые становились еще богаче.

Я подобрала название для таких вредоносных моделей: оружие математического поражения, или сокращенно ОМП. Сейчас мы с вами разберем один пример, и я продемонстрирую разрушительные возможности этого оружия.

Как часто бывает, все началось с благой цели. В 2007 году Адриан Фенти, новый мэр Вашингтона, решительно взялся за улучшение недостаточно успешных школ. Перед ним стояла непростая задача: в то время половина старшеклассников едва дотягивала до конца девятого класса и лишь 8 % восьмиклассников осваивали соответствующую их возрасту программу по математике. Фенти нанял реформатора в области образования Мишель Ри и назначил ее на высокую должность председателя городского школьного совета Вашингтона.

Основной причиной, по которой ученики не получали знаний в достаточном количестве, считалось низкое качество преподавания. Поэтому в 2009 году Ри привела в действие план по «выкорчевыванию» плохих учителей. Этот процесс вскоре распространился на всю страну, затронув районы с наиболее проблемным образованием. И с точки зрения системного проектирования план был идеальным: давайте оценим учителей, избавимся от самых плохих и поместим самых лучших туда, где они смогут принести больше всего пользы. Говоря языком специалистов по анализу данных, это «оптимизирует» школьную систему, предположительно обеспечив лучшие результаты для детей.

Кто стал бы с этим спорить, кроме самих «плохих» учителей? Ри разработала инструмент оценки учителей под названием IMPACT, и к концу 2009–2010 учебного года федеральный округ уволил всех преподавателей, чьи результаты оказались в нижних 2 %. К концу следующего учебного года еще 5 %, то есть 205 учителей, были уволены из школ.

У Сары Высоцки, учительницы пятого класса, казалось бы, не было повода для беспокойства. Она преподавала в средней школе Макфарланда всего два года, но уже удостоилась высоких оценок своей работы и от директора школы, и от родителей своих учеников. В одном отзыве подчеркивалось ее внимание к детям, в другом было отмечено, что «она – одна из лучших учительниц, с которыми мне когда-либо доводилось сталкиваться».

Однако в конце 2010–2011 учебного года Высоцки получила крайне низкий результат в тесте IMPACT. Проблема заключалась в новой системе подсчета, известной как моделирование коэффициента улучшения знаний учеников, которая оценивала эффективность преподавания математики и языковых навыков. Этот результат, выданный алгоритмом, составлял половину общей оценки Сары Высоцки – и он перевесил положительные оценки со стороны школьной администрации и местного сообщества. У округа не осталось выбора, кроме как уволить ее вместе с другими 205 учителями, результат теста у которых оказался ниже минимального порога.

Это не выглядело ни охотой на ведьм, ни сведением счетов. В таком подходе городского школьного совета есть логика. В конце концов, администраторы могут просто дружить с очень плохими учителями. Они могут восхищаться их стилем или лояльностью. Плохие учителя вполне могут производить впечатление хороших. И в Вашингтоне, как и во многих других школьных округах, минимизировали фактор человеческой предвзятости и сосредоточились на результатах, основанных на объективных данных: достижения детей в математике и чтении. Официальные лица пообещали, что цифры будут говорить сами за себя, что цифры более справедливы.

Разумеется, Высоцки посчитала цифры ужасно несправедливыми и захотела узнать, откуда они взялись. «Я не думаю, что кто-либо понимал это», – позже сказала она мне. Как хороший учитель может получить такой ужасный результат? В чем заключалась система подсчета увеличения коэффициента знаний учеников?

Дело оказалось весьма запутанным. Школьный округ пригласил консалтинговую компанию Mathematica Policy Research (MPR) из Принстонского университета, чтобы она помогла разработать критерии оценки. Задачей MPR было оценить прогресс в образовании учеников округа, а затем подсчитать, в какой степени улучшение или ухудшение их результатов зависело от учителей. Задача, конечно, была непростой. Исследователи знали, что на результаты может повлиять множество факторов, от социально-экономической ситуации до специфических индивидуальных нарушений способности к обучению. Алгоритмы MPR должны были учитывать эти факторы, и это было одной из причин, по которой они оказались такими сложными.

И в самом деле, попытки вместить человеческое поведение, деятельность и потенциал в алгоритмы – это непростая работа. Чтобы понять, с чем пришлось столкнуться MPR, представьте себе десятилетнюю девочку, которая живет в бедном квартале на юго-востоке города Вашингтон. В конце учебного года она сдает стандартизированный тест для пятого класса. После этого ее жизнь продолжается. У нее могут появиться семейные или финансовые проблемы. Она может переехать в другой дом или переживать за брата, у которого возникли проблемы с законом. Она может страдать из-за собственного лишнего веса или бояться какого-нибудь школьного хулигана. В любом случае в следующем году она сдает еще один стандартизированный тест, теперь уже предназначенный для шестиклассников.

Если вы сравните результаты двух тестов девочки, количество набранных баллов должно остаться стабильным или, в лучшем случае, увеличиться. Но если она наберет меньше баллов, чем в прошлом году, будет очень просто увидеть разницу между ее результатами и результатами более успешных учеников.

Но насколько эта разница возникла по вине учителя? Сложно сказать, и модели MPR располагают лишь несколькими числами для сравнения. В компаниях Больших данных, таких как Google, напротив, исследователи проводят постоянные тесты и отслеживают тысячи переменных. Они могут изменить шрифт рекламного объявления с синего на красный, испытать каждую версию на десяти миллионах пользователей и отследить, на какую из версий пришлось больше кликов. Они используют этот отклик, чтобы оттачивать свои алгоритмы и их действия. И хотя у меня есть много претензий к Google (до этого мы еще доберемся), нельзя не признать, что такой тип тестирования – это эффективное использование статистики.

Попытка подсчитать, какое воздействие один человек может иметь на другого в течение учебного года, – гораздо более сложная задача. «Есть столько факторов, которые вмешиваются в процесс обучения, что проанализировать их крайне сложно», – говорит Высоцки. Более того, попытка оценить эффективность учителя, проанализировав результаты тестов всего лишь 25 или 30 учеников, статистически несостоятельна и просто смехотворна. Эти числа слишком малы, учитывая потенциальное количество вариантов, в которых «что-то пошло не так». В самом деле, если бы мы анализировали учителей со статистической тщательностью интернет-поисковика, нам пришлось бы привлечь для теста тысячи или даже миллионы случайно выбранных учеников. Специалисты по статистике оперируют большими числами, чтобы сбалансировать исключения и аномалии. (И ОМП, как мы увидим, зачастую наказывает тех, кто оказывается исключением.)

Что не менее важно, статистические системы требуют ответной реакции – чтобы вовремя увидеть, что алгоритмы сбились с курса. Специалисты по статистике используют ошибки, чтобы «натренировать» свои модели и сделать их более интеллектуальными. Если Amazon.com в результате ошибочной корреляции начнет предлагать девочкам-подросткам книги по уходу за лужайками, количество кликов резко снизится – и алгоритм будет оттачиваться, пока заново не настроится. Без обратной связи, однако, статистический механизм может и дальше работать с ошибками и искажать анализ, при этом не обучаясь на этих ошибках.

Многие компоненты ОМП, которые я буду обсуждать в этой книге, включая систему оценки прогресса учеников, введенную школьным округом Вашингтона, ведут себя именно так. Они предлагают собственное определение реальности и исходят из него, чтобы оправдать свои результаты. Это самовозобновляющийся, крайне деструктивный – и весьма распространенный тип модели.

Когда система оценивания MPR объявляет Сару Высоцки и 205 других учителей бездарностями, город их увольняет. Но откуда система узнает, что она выдала правильный результат? Ниоткуда. Сама система определила их как бездарностей – и именно в таком качестве они и рассматриваются. Двести шесть «плохих» учителей уходят. Один этот факт призван продемонстрировать эффективность оценивающей модели – ведь она избавляет школьный округ от недостаточно хорошо работающих учителей. Вместо того чтобы искать правду, система оценки становится ее воплощением.

Это один из примеров петли обратной связи ОМП. В этой книге мы увидим и множество других примеров подобных петель. Работодатели, например, все более широко используют кредитную историю соискателей для оценки потенциальных новых работников. Считается, что люди, которые вовремя платят по кредитам, с большей вероятностью будут следовать правилам и не опаздывать на работу. На самом деле есть множество ответственных людей и хороших работников, которым случалось пережить неудачное стечение обстоятельств, от которых пострадала их кредитная история. Но убеждение в том, что плохая кредитная история коррелирует с плохим исполнением рабочих обязанностей, оставляет людям, имевшим проблемы с выплатами кредитов, гораздо меньше шансов найти работу. Безработица подталкивает их к бедности, что еще сильнее ухудшает их кредитную историю – и еще сильнее понижает шансы на получение работы. Это спираль, ведущая вниз. Работодатели никогда не узнают о том, какое количество хороших работников они потеряли из-за того, что сосредоточились на кредитной истории кандидатов. В ОМП многие вредные установки прикрываются математикой – и с этого момента практически не проверяются и не подвергаются критическому анализу.

Это подчеркивает еще одну распространенную особенность ОМП: это оружие имеет свойство наказывать бедных. Отчасти это происходит из-за того, что ОМП разработано для того, чтобы оценивать большие массы людей. Оно специализируется на больших числах, и оно дешево. Это часть его привлекательности. К богатым же людям, с другой стороны, зачастую используется индивидуальный подход. В привилегированной юридической фирме или в частном детском саду личные рекомендации и личные встречи будут значить больше и случаться гораздо чаще, чем в сети ресторанов быстрого питания или в испытывающем финансовые трудности городском школьном округе. Мы постоянно видим, что привилегированные слои обслуживаются и анализируются людьми, а массы – машинами.

Неспособность Высоцки найти хоть кого-то, кто мог бы объяснить, почему она получила столь ужасный результат, тоже говорит о многом. Вердикты от ОМП подобны велениям неких алгоритмических богов. Сама модель представляет собой черный ящик, а его содержимое – яростно оберегаемая корпоративная тайна. Это позволяет таким консультантам, как MPR, брать больше денег за свою работу, но также служит и другой цели: считается, что, если людям, которых оценивают, ничего не объяснять, они с меньшей вероятностью будут пытаться обыграть систему. Вместо этого они просто будут усердно работать, следовать правилам и молиться, чтобы модель признала и оценила их усилия. А если детали скрыты, то становится сложнее поставить под сомнение результат или опротестовать его.

Не один год учителя Вашингтона жаловались на произвольные результаты и требовали разглашения принципов подсчета. Им отвечали, что это очень сложный алгоритм, – и такой ответ сам по себе уже отпугивал многих от дальнейших попыток разобраться. К сожалению, математика пугает многих. Но учитель математики Сара Бакс продолжила добиваться правды от администратора округа Джейсона Камраса. После переписки, длившейся несколько месяцев, Камрас предложил Бакс подождать технического доклада, который должен был вот-вот поступить. Бакс ответила: «Как вы можете оценивать людей с помощью процедуры, которую вы сами не в состоянии объяснить?» Но именно такова природа ОМП. Анализ перенаправлен программистам и специалистам по статистике. А они, как правило, предоставляют слово машинам.

При всем при этом Сара Высоцки была хорошо осведомлена о том, что в формуле имели большое значение результаты стандартизированного теста ее учеников. Именно здесь она подозревала наличие ошибки. Прежде чем начать свой последний учебный год в средней школе Макфарланда, она с радостью обнаружила, что ее будущие пятиклассники на удивление хорошо справились с итоговыми тестами четвертого класса. В начальной школе Барнарда, откуда пришли многие ученики Сары, уровень чтения 29 % учащихся был определен как «продвинутый», что в пять раз превышало средний показатель по городскому школьному округу.

Однако, когда начались занятия, выяснилось, что многие из ее учеников с трудом способны прочесть простое предложение. Много позднее журналистские расследования, проведенные газетами The Washington Post и USA Today, выявили высокий уровень исправлений в ответах стандартизированных тестов в 41 школе округа, включая школу Барнарда. Высокий уровень исправленных ответов указывает на большую вероятность подделки результатов. В некоторых школах под подозрение попало до 70 % классов.

Какое отношение это имеет к ОМП? Тут важны два фактора. Во-первых, алгоритмы оценки учителя – мощный инструмент для корректировки поведения. Это, собственно, и есть цель этих алгоритмов, и в школах Вашингтона они олицетворяли собой как кнут, так и пряник. Учителя знали, что, если их ученики плохо напишут тесты, их собственные рабочие места окажутся под угрозой. Это давало учителям сильную мотивацию добиться того, чтобы их ученики нормально справились с тестами, – особенно после того, как на рынок труда обрушилась Великая рецессия. В то же время, если их студенты превзошли бы сверстников, учителя и администрация могли получить бонусы суммой до восьми тысяч долларов. Добавьте эти мощные мотивационные элементы к уликам в деле – большому количеству исправлений и аномально высоким результатам, – и вы получите основания подозревать, что учителя четвероклассников либо из страха, либо из жадности подделали результаты экзаменов своих учеников.

Таким образом, вполне вероятно, что ученики Сары Высоцки начали учебный год с искусственно завышенными результатами. В таком случае результаты их тестов в конце года вполне могли показать, что у них существенно снизился уровень результатов – то есть что учителя пятого класса недостаточно хорошо их обучали. Высоцки убеждена, что именно это с ней и случилось. Это объяснение хорошо укладывалось в наблюдения родителей, коллег и директора, которые в один голос утверждали, что она очень хорошая учительница. Если бы учительницу уволили люди, это можно было бы оспорить. У Сары Высоцки были очень веские основания для апелляции.

Но апеллировать к оружию математического поражения невозможно. Это – часть его пугающей силы. Оно ни к кому не прислушивается и ни перед кем не отступает. Оно глухо не только к лести, угрозам и уговорам, но и к логике, даже когда есть хорошие основания усомниться в информации, которая послужила основной их выводов. Да, если становится очевидно, что автоматическая система выдает настолько неверные результаты, что это бросается в глаза, программисты все-таки доработают алгоритмы. Но по большей части программы изрекают вердикты, не подлежащие обжалованию, а обслуживающие их люди могут только пожимать плечами, словно хотят сказать: «Ну что же тут поделаешь?»

Именно этот ответ Сара Высоцки и получила от школьного округа. Джейсон Камрас позже сообщил Washington Post, что исправления были «подозрительными» и что цифры у ее пятого класса могли быть неверными. Но эти свидетельства не были достаточно убедительными. По его мнению, с Сарой поступили справедливо.



скачать книгу бесплатно

страницы: 1 2 3 4 5 6 7