
Полная версия:
Машинное обучение без иллюзий. Понимание возможностей и границ ML
Второе критическое решение касается выбора данных для обучения. История медицинских исследований предоставляет яркий пример того, как этот выбор влияет на результаты. До 1993 года женщины систематически исключались из клинических испытаний лекарственных препаратов в США. Национальные институты здравоохранения объясняли это «защитой» женщин репродуктивного возраста от потенциальных рисков. В результате десятилетия медицинских данных отражали преимущественно мужскую физиологию.
Когда современные системы машинного обучения (автоматическое выявление закономерностей в данных) обучаются на этих исторических данных для предсказания эффективности лечения или дозировок препаратов, они воспроизводят это смещение (систематическое искажение результатов в определённую сторону). Исследования показывают, что модели прогнозирования (алгоритмы предсказания будущих значений на основе исторических данных) побочных эффектов лекарств демонстрируют систематически более низкую точность (долю правильных прогнозов) для женщин – разница может достигать значительных величин для некоторых препаратов.
Это не техническая проблема алгоритмов. Это следствие человеческого решения о том, какие данные считать релевантными и достаточными. Инженеры, создающие модель (систему машинного обучения), часто даже не знают об исторических особенностях сбора данных в своей предметной области. Они видят набор данных с миллионами записей и считают его репрезентативным, не задаваясь вопросом о том, кто и почему не попал в эти данные.
Третье решение – выбор метрики качества – хорошо иллюстрирует случай из медицинской диагностики. Рассмотрим систему для выявления диабетической ретинопатии (поражения сетчатки при диабете), которая разрабатывалась для использования в условиях ограниченных ресурсов. Модель (система автоматического анализа изображений) была обучена на высококачественных снимках, сделанных в идеальных условиях, и демонстрировала высокую точность (долю правильных прогнозов) на тестовых данных (данных для проверки качества модели).
При развёртывании в районах с ограниченным доступом к современному оборудованию система столкнулась с реальностью: снимки делались на устаревшем оборудовании, часто при плохом освещении, с различными артефактами. Модель (алгоритм анализа изображений) отвергала значительную часть снимков как недостаточно качественные для анализа. Пациенты были вынуждены обращаться в более оснащённые центры для повторной диагностики, что для многих было затруднительно из-за расстояния и стоимости.
Здесь проявляется фундаментальный компромисс между чувствительностью (способностью выявить всех больных) и специфичностью (способностью не диагностировать болезнь у здоровых). Математически нельзя максимизировать обе одновременно – это классический компромисс в теории принятия решений. Если система оптимизирована на специфичность, чтобы избежать ложноположительных диагнозов, она может пропускать реальные случаи заболевания. Но в условиях ограниченного доступа к медицинской помощи пропущенный диагноз может быть фатальнее ложной тревоги. Выбор баланса между этими метриками – это не техническое, а этическое и социальное решение.
Четвёртое решение о пороговых значениях может показаться техническим, но его последствия глубоко социальны. Система оценки риска рецидива COMPAS, используемая в судебной системе США, присваивает подсудимым баллы от 1 до 10. Но при каком балле человека следует считать «высокорискованным»?
ProPublica в своём расследовании 2016 года показала, что при пороге 5 баллов система в два раза чаще ошибочно классифицирует чернокожих подсудимых как высокорискованных по сравнению с белыми (45% против 23%). Если поднять порог до 7 баллов, общее количество людей, классифицированных как опасные, снижается, но расовая диспропорция сохраняется. Если опустить до 3 – система становится слишком «параноидальной», классифицируя большинство как потенциальных рецидивистов.
Northpointe (создатель COMPAS) не устанавливает официального порога – это решение остаётся за каждым судом. Некоторые юрисдикции используют 5, другие – 7, третьи вообще интерпретируют баллы по-своему. Одна и та же модель машинного обучения порождает радикально разные результаты в зависимости от человеческого решения о пороге.
Пятое решение касается выбора архитектуры модели (структуры алгоритма и способа обработки данных). Разные алгоритмы делают разные предположения о структуре данных. Линейная регрессия (метод поиска линейной зависимости между переменными) предполагает, что эффекты факторов складываются: влияние возраста плюс влияние дохода равно общему эффекту. Дерево решений (алгоритм последовательного разбиения данных по условиям) предполагает иерархичность: сначала самый важный фактор, потом следующий в зависимости от первого.
Обобщая опыт российских финансовых институтов последних лет, можно выделить типичную ситуацию при разработке систем кредитного скоринга (оценки кредитоспособности заёмщика). Простые линейные модели (системы на основе линейной регрессии) дают стабильные, интерпретируемые результаты, но упускают важные взаимодействия между факторами. Например, высокий доход в сочетании с молодым возрастом может указывать как на успешного предпринимателя, так и на участника финансовой пирамиды – линейная модель не улавливает эту нелинейность.
Переход на более сложные методы, такие как градиентный бустинг (ансамблевый метод, объединяющий множество слабых моделей для повышения точности), может повысить точность прогнозов (долю правильных предсказаний), но создаёт новые проблемы. Модель (система машинного обучения) становится непрозрачной – сложно объяснить клиенту причину отказа. Более того, такие модели выявляют сложные закономерности, которые работают на исторических данных, но могут ломаться при изменении экономической ситуации. Пандемия COVID-19 продемонстрировала эту уязвимость: многие финансовые институты были вынуждены экстренно корректировать свои системы оценки рисков, когда привычные закономерности перестали работать.
Каждое из этих решений – что оптимизировать, какие данные использовать, какие метрики выбрать, где поставить порог, какую архитектуру применить – принимается людьми. Эти люди имеют свои представления о мире, свои приоритеты, свои ограничения. Они работают в определённых организациях с определённой культурой и целями. Они подвержены давлению сроков, бюджетов, начальства.
Результирующая система машинного обучения – это кристаллизация всех этих человеческих решений в математической форме. Она кажется объективной, потому что выражена в числах и формулах. Но эта объективность – иллюзия, тщательно сконструированная последовательностью субъективных выборов.
2.2. Воспроизведение исторических закономерностей
Машинное обучение по своей природе смотрит в прошлое, чтобы предсказывать будущее. Эта фундаментальная характеристика создаёт механизм консервации и усиления существующих социальных закономерностей, превращая исторические предубеждения в алгоритмические решения.
Как мы видели в случае Amazon (Глава 1), модель машинного обучения выявила статистическую корреляцию между полом и успешностью найма в исторических данных компании. Даже после попыток удалить явные гендерные индикаторы, алгоритм находил косвенные признаки – прокси-переменные (замещающие характеристики, коррелирующие с целевым признаком), продолжая воспроизводить дискриминацию в завуалированной форме.
Этот механизм не уникален для Amazon. Исследования показывают, что рекламные системы, обученные на исторических данных о кликах и конверсиях (переходах от просмотра к действию), могут воспроизводить существующее неравенство в доступе к информации о вакансиях и образовательных возможностях.
Ещё более тревожный пример представляет исследование системы здравоохранения, опубликованное в журнале Science в 2019 году. Алгоритм (система автоматического распределения медицинских ресурсов), используемый для управления медицинской помощью более чем 200 миллионам американцев, систематически направлял чернокожих пациентов в менее интенсивные программы лечения. При одинаковом уровне заболеваемости чернокожие пациенты должны были быть значительно больнее белых, чтобы получить направление на комплексное лечение.
Причина крылась в выборе прокси-переменной (замещающей характеристики). Разработчики использовали исторические расходы на здравоохранение как индикатор потребности в медицинской помощи. Логика казалась разумной: если на лечение пациента тратили больше денег, значит, он был серьёзно болен. Но эта логика игнорировала системное неравенство: при одинаковой тяжести заболевания на лечение белых пациентов исторически тратилось больше денег из-за лучшего доступа к медицине, более высоких доходов и других социально-экономических факторов.
Модель (система статистического анализа) воспроизвела этот образец: раз на чернокожих пациентов тратили меньше, значит, они меньше нуждаются в помощи. Математически всё было корректно. Социально – это усугубляло существующее неравенство.
Особенно опасным становится воспроизведение закономерностей, когда оно создаёт петли обратной связи (ситуации, когда выход системы влияет на её будущий вход). Классический пример – системы предиктивного полицейского патрулирования, используемые полицейскими департаментами в разных странах.
Алгоритм (программа предсказания преступлений) анализирует исторические данные о преступлениях и предсказывает, где и когда наиболее вероятны новые инциденты. Полиция направляет больше патрулей в «горячие точки». Больше патрулей означает больше выявленных нарушений – от мелких правонарушений до более серьёзных преступлений. Эти новые данные подтверждают и усиливают первоначальный прогноз алгоритма.
Исследования показывают, что такие системы могут непропорционально направлять патрули в районы проживания меньшинств, не из-за реального уровня преступности, а из-за исторически сложившихся практик полицейской деятельности – эти районы традиционно патрулировались интенсивнее, там фиксировалось больше мелких нарушений.
Математика становится маскировкой для воспроизведения социальных предубеждений. Раньше начальник полиции мог сказать: «Я считаю, что в этом районе больше преступности». Это звучало субъективно и могло быть оспорено. Теперь он говорит: «Алгоритм показывает повышенную вероятность преступлений в этом районе». Это звучит объективно и научно.
Российский контекст также демонстрирует схожие закономерности. Типичная ситуация, с которой сталкиваются сервисы совместных поездок: алгоритмы динамического ценообразования (автоматическая корректировка цен в зависимости от спроса) могут воспроизводить исторически сложившиеся практики дискриминации. Если в прошлом водители неохотно ехали в определённые районы и требовали повышенную оплату, модель (система ценообразования) интерпретирует это как «нормальную» рыночную динамику и продолжает применять повышенные тарифы, даже если причины такого поведения были связаны с предубеждениями, а не с объективными рисками.
Попытки исправить такие системы постфактум часто приводят к игре в «ударь крота». Уберёшь один дискриминирующий признак – модель выявит другой. Запретишь использовать почтовый индекс – модель будет использовать комбинацию расстояния до центра города и плотности населения, что даст тот же эффект. Это происходит потому, что социальное неравенство пронизывает данные на всех уровнях. В обществе с систематическим неравенством любые данные о людях будут содержать следы этого неравенства.
Более того, сама попытка «исправить» алгоритм поднимает сложные этические вопросы. Что значит «справедливый» алгоритм? Одинаковое отношение ко всем группам? Но если группы находятся в неравных условиях, одинаковое отношение закрепит неравенство. Компенсация исторической несправедливости? Но кто определяет размер компенсации?
Технологические компании сталкиваются с этой дилеммой при разработке алгоритмов подбора персонала и карьерных рекомендаций. Первые версии часто воспроизводят существующий дисбаланс в различных профессиях. Попытки скорректировать систему для обеспечения равного представления вызывают обвинения в «обратной дискриминации». Поиск баланса между этими подходами остаётся вопросом политическим и этическим, а не чисто техническим.
Важно понимать: машинное обучение не создаёт предубеждения из ничего. Оно выявляет, кристаллизует и масштабирует те закономерности, которые уже существуют в данных. Если в обществе есть дискриминация, она неизбежно отразится в данных. Если данные собраны в несправедливой системе, модель (система машинного обучения) воспроизведёт эту несправедливость.
Проблема усугубляется тем, что алгоритмические решения воспринимаются как более объективные и справедливые, чем человеческие. Психологические исследования показывают, что люди склонны меньше оспаривать решения, когда им говорят, что их принял алгоритм, а не человек. Этот «ореол объективности» делает алгоритмическое воспроизведение предубеждений особенно опасным – оно легитимизирует и укрепляет существующее неравенство под видом научной нейтральности.
2.3. Неявные допущения в моделях
Каждая модель машинного обучения несёт в себе набор предположений о мире – некоторые явные, но большинство скрытые, встроенные в саму архитектуру (структуру) алгоритма или структуру данных. Эти допущения часто остаются невидимыми даже для создателей системы, проявляясь только когда модель сталкивается с реальностью, не соответствующей заложенным предпосылкам.
Начнём с архитектурных допущений. Свёрточные нейронные сети (тип архитектуры для обработки изображений, основанный на выявлении локальных закономерностей) революционизировали компьютерное зрение (область машинного обучения для анализа изображений). Их успех основан на двух ключевых предположениях: важные признаки (характеристики) в изображениях расположены локально (глаз состоит из зрачка, века, ресниц, находящихся рядом), и эти признаки образуют иерархию (линии формируют формы, формы – объекты).
Эти допущения прекрасно работают для фотографий объектов. Но исследования показывают, что попытки применить архитектуры, оптимизированные для изображений, к данным другой природы – например, финансовым временным рядам (последовательностям данных во времени) – часто дают разочаровывающие результаты. В финансовых данных важны глобальные зависимости – событие в начале дня может повлиять на цены в конце дня. Локальность, заложенная в архитектуру свёрточных сетей, мешает модели уловить эти дальние связи.
Ещё более фундаментальное допущение касается самой природы задачи классификации (разделения объектов на категории). Алгоритмы классификации предполагают, что мир состоит из дискретных, чётко разделённых категорий. Но реальность часто представляет собой континуум.
Рассмотрим систему оценки кредитоспособности. Традиционный подход делит заёмщиков на «надёжных» и «ненадёжных». Но надёжность – это спектр, зависящий от множества факторов. Человек может быть надёжным плательщиком по ипотеке, но рискованным для потребительского кредита. Надёжным в стабильные времена, но уязвимым в кризис.
Пандемия COVID-19 продемонстрировала ограничения бинарной классификации (разделения на два класса) в финансовой сфере. Модели кредитного скоринга (оценки кредитоспособности заёмщика), обученные на данных стабильных лет, классифицировали заёмщиков на основе исторических закономерностей. Но пандемия создала новую категорию: временно неплатёжеспособные из-за локдаунов, но потенциально надёжные в долгосрочной перспективе. Жёсткая бинарная классификация не могла адекватно отразить эту новую реальность, что вынудило многие финансовые институты пересматривать свои подходы к оценке рисков.
Проблема выжившего – ещё одно критическое допущение, часто остающееся незамеченным. Мы анализируем только те данные, которые «выжили» до момента анализа, игнорируя то, что исчезло по пути.
Классический пример из авиации времён Второй мировой войны остаётся актуальным для понимания современного машинного обучения. Военные анализировали повреждения вернувшихся бомбардировщиков, чтобы определить, где усилить броню. Большинство пробоин было в фюзеляже и крыльях, почти никаких – в двигателях. Первый импульс – укрепить фюзеляж. Но статистик Абрахам Вальд указал на ошибку: самолёты с пробоинами в двигателях не возвращались. Нужно было укреплять именно двигатели.
Современный пример: анализ факторов успеха стартапов. Инвесторы часто анализируют характеристики успешных основателей – технический опыт, образование в топовых университетах, работа в крупных технологических компаниях. Такой анализ основан на данных о компаниях, достигших значительной оценки.
Но это анализ выживших. Тысячи стартапов с основателями с теми же характеристиками провалились и не попали в данные. Возможно, ключевым фактором была удача, время выхода на рынок или другие трудно измеримые параметры, но эти факторы невидимы при анализе только успешных историй. Модель машинного обучения (система статистического анализа), обученная на таких данных, будет систематически переоценивать роль измеримых факторов и недооценивать роль случайности.
Допущения о репрезентативности выборки создают особенно коварные проблемы. Модель (система машинного обучения) предполагает, что обучающие данные (данные для настройки модели) представляют всю популяцию, на которой она будет применяться. Но это редко соответствует реальности.
Исследования систем распознавания лиц, проведённые Национальным институтом стандартов и технологий США (NIST), выявили систематические различия в точности для разных этнических групп. Алгоритмы (программы распознавания), обученные на наборах данных с преобладанием одних этнических групп, демонстрируют существенно более низкую точность (долю правильных идентификаций) для недопредставленных групп. Разница может быть весьма значительной – от нескольких процентных пунктов до кратного снижения качества работы.
Это не технический дефект алгоритмов – это следствие неявного допущения, что обучающая выборка репрезентативна для всех групп населения. Когда такие системы развёртываются в условиях, отличающихся от тех, на которых они обучались, проявляются фундаментальные ограничения их применимости.
Временные допущения – предположение, что будущее будет похоже на прошлое – лежат в основе всего машинного обучения. Но мир меняется, иногда резко и непредсказуемо.
Компания Zillow потеряла 381 миллион долларов в 2021 году из-за этого допущения. Их алгоритм Zillow Offers использовал машинное обучение для предсказания цен на недвижимость и автоматической покупки домов для перепродажи. Модель (система прогнозирования цен) была обучена на данных растущего рынка 2010-х годов. Она экстраполировала (распространяла выявленные закономерности на новые данные) тренды роста цен в будущее.
Но пандемия COVID-19 фундаментально изменила рынок недвижимости. Массовый переход на удалённую работу сделал популярными пригороды и непрестижные ранее районы. Городские квартиры, наоборот, потеряли в цене. Модель Zillow продолжала покупать городскую недвижимость по завышенным ценам, ожидая роста, который не наступил. Компания была вынуждена закрыть программу и уволить 25% сотрудников.
Допущения о независимости признаков (характеристик объектов) часто нарушаются в реальном мире. Наивный байесовский классификатор (алгоритм, предполагающий независимость признаков друг от друга) популярен для некоторых задач именно из-за своей простоты. Он предполагает, что вероятность появления каждого признака независима от других.
Это допущение часто неверно – признаки в реальных данных взаимосвязаны. Для простых задач, где взаимосвязи слабые, это работает достаточно хорошо. Однако для сложных задач, где признаки сильно коррелируют – например, в медицинской диагностике, где симптомы взаимосвязаны – игнорирование этих связей может привести к неверным выводам. Головная боль часто сопровождается тошнотой при мигрени, но редко при гипертонии. Модель, предполагающая независимость симптомов, упустит эти важные взаимосвязи.
Культурные допущения встраиваются в модели через выбор признаков и их интерпретацию. Системы оценки эмоций по выражению лица основываются на предположении об универсальности эмоциональных выражений. Улыбка означает радость, нахмуренные брови – гнев.
Но антропологические исследования показывают культурную специфичность выражения эмоций. В разных культурах существуют различные нормы выражения чувств. В некоторых культурах открытая улыбка незнакомцу может считаться неприличной. В других сдержанность в выражении эмоций является культурной нормой. Системы, обученные на данных из одной культурной среды, могут неверно интерпретировать эмоциональные проявления представителей других культур.
Математические допущения о распределении данных (статистических характеристиках данных) могут казаться чисто техническими, но имеют реальные последствия. Многие алгоритмы предполагают нормальное распределение (колоколообразную кривую частот) признаков. Это работает для роста или веса людей, но не для дохода или размера компаний, где распределение имеет «тяжёлый хвост» (много экстремальных значений).
Инвестиционная компания LTCM (Long-Term Capital Management) потеряла 4.6 миллиарда долларов в 1998 году именно из-за этого допущения. Их модели (системы финансового прогнозирования) предполагали нормальное распределение рыночных движений. Азиатский финансовый кризис создал «хвостовое событие» – экстремальное отклонение, вероятность которого в нормальном распределении практически нулевая. Модели не были готовы к такому сценарию.
Каждое из этих допущений – о локальности признаков, дискретности категорий, репрезентативности выборки, стабильности во времени, независимости факторов, универсальности закономерностей, характере распределений – встроено в алгоритмы машинного обучения либо явно через выбор архитектуры, либо неявно через структуру данных и процесс обучения (настройки модели на данных).
Проблема не в том, что эти допущения неверны – без упрощающих предположений невозможно построить никакую модель. Проблема в том, что эти допущения остаются скрытыми, неосознанными, непроверенными. Они проявляются только когда модель сталкивается с ситуацией, не соответствующей заложенным предпосылкам, и тогда последствия могут быть драматическими – от финансовых потерь до человеческих трагедий.
Понимание и явная артикуляция этих допущений – необходимое условие ответственного применения машинного обучения. Но даже когда мы осознаём все предположения, заложенные в модель, остаётся фундаментальный вопрос: можем ли мы создать систему без допущений? И если нет, то кто решает, какие допущения приемлемы?
Мы рассмотрели три уровня, на которых человеческая субъективность проникает в якобы объективные алгоритмы машинного обучения. На уровне проектных решений – через выбор целей, данных, метрик и порогов. На уровне исторических данных – через воспроизведение и усиление существующих социальных закономерностей. На уровне архитектуры – через неявные допущения о структуре мира.
Каждый из этих уровней добавляет свой слой субъективности, и эти слои накладываются друг на друга, создавая сложную систему, которая выглядит объективной благодаря математическому языку, но остаётся глубоко человеческой в своих основаниях и ограничениях.
Это не означает, что машинное обучение бесполезно или что мы должны отказаться от его использования. Напротив, понимание границ объективности делает применение этой технологии более осознанным и ответственным. Когда мы признаём, что алгоритм – это кристаллизация человеческих решений, а не независимый арбитр истины, мы можем более критически подходить к его разработке и применению.
В следующей главе мы рассмотрим, как терминология, которую мы используем для описания машинного обучения, формирует наше понимание и ожидания от этой технологии, часто вводя нас в заблуждение относительно её реальных возможностей.
Глава 3. Язык и терминология
В 2019 году крупная российская страховая компания (обобщая типичный опыт внедрений в отрасли) внедрила систему «искусственного интеллекта» для обработки страховых случаев. На презентации для совета директоров консультанты из одной из большой четвёрки говорили о том, что система «понимает» обращения клиентов, «анализирует» документы и «принимает решения» о выплатах. Через полгода эксплуатации выяснилось, что система отклоняла 40% законных требований о выплатах, не могла обработать нестандартные случаи и требовала ручной проверки практически каждого решения. Проблема была не столько в технологии, сколько в завышенных ожиданиях, созданных неточной терминологией. Руководство ожидало «интеллект», а получило статистический классификатор (алгоритм распределения объектов по категориям на основе их признаков).



