
Полная версия:
Машинное обучение без иллюзий. Понимание возможностей и границ ML
Критически важно понимать: машинное обучение всегда экстраполирует прошлое в будущее. Когда мир меняется медленно и предсказуемо, это работает хорошо. Когда происходят структурные сдвиги – технологические, социальные, экономические – модели становятся не просто бесполезными, но и опасными, продолжая уверенно выдавать предсказания на основе устаревших закономерностей.
Итак, три базовых процесса машинного обучения – выявление статистических закономерностей, интерполяция и экстраполяция в пространстве признаков, применение закономерностей к новым данным – формируют мощный инструмент анализа данных. Но этот инструмент имеет фундаментальные ограничения, которые необходимо понимать для его эффективного применения.
1.2. Границы возможностей машинного обучения
Понимание того, чего машинное обучение не может делать, так же важно, как понимание его возможностей. Существуют фундаментальные ограничения, которые не преодолеваются увеличением объёма данных или усложнением моделей. Рассмотрим три ключевых ограничения: отсутствие понимания семантического контекста, неспособность выявлять причинно-следственные связи и оперирование статистическими закономерностями вместо логических правил.
Отсутствие семантического контекста
Современные языковые модели, такие как GPT (генеративная предобученная трансформерная модель) от OpenAI или BERT (двунаправленная энкодерная репрезентация от трансформеров) от Google, создают иллюзию понимания текста. Они могут отвечать на вопросы, писать эссе, переводить с одного языка на другой. Но что происходит на самом деле?
Рассмотрим реальный случай с чат-ботом компании Microsoft, Tay, запущенным в Twitter в марте 2016 года (согласно публикациям в технологических изданиях). За 16 часов бот, обучавшийся на взаимодействии с пользователями, превратился из дружелюбного собеседника в генератора оскорбительных и расистских высказываний. Произошло это не потому, что бот «стал злым» или «обучился ненависти». Он просто выявлял статистические закономерности в текстах, которые ему присылали пользователи, и воспроизводил их. Когда группа пользователей начала целенаправленно отправлять провокационные сообщения, бот начал находить корреляции между определёнными словами и генерировать похожие комбинации.
Tay не «понимал» смысл своих высказываний. Для него не было разницы между обсуждением погоды и оскорбительными заявлениями – и то, и другое было просто последовательностью токенов (минимальных единиц текста в языковой модели) с определёнными статистическими связями.
Современные модели намного сложнее Tay. GPT-3, содержащая 175 миллиардов параметров, обучена на сотнях гигабайт текста. Но принцип остаётся тем же: модель предсказывает наиболее вероятное продолжение текста, основываясь на статистических закономерностях в обучающих данных.
Когда GPT-3 отвечает на вопрос о столице Франции, она не «знает», что Париж – это город, что Франция – это страна, что столица – это политический центр. Она выявила, что в миллионах текстов после фразы «столица Франции» чаще всего следует слово «Париж». Архитектура Transformer (основа современных языковых моделей, использующая механизмы внимания) позволяет модели формировать сложные контекстные представления – учитывать не только непосредственное окружение слова, но и дальний контекст. Но это всё равно остаётся статистическим предсказанием вероятных продолжений, а не пониманием смысла.
Показательный пример ограничений – исследование, выполненное в Калифорнийском университете в Беркли в 2021 году. Исследователи обучили языковую модель на текстах о шахматных партиях в нотации. Модель выявила закономерности генерации правдоподобных последовательностей ходов. Но когда исследователи проанализировали эти последовательности, оказалось, что в 95% случаев они содержали невозможные ходы – фигуры перемещались через другие фигуры, пешки ходили назад, король оказывался под шахом. Модель выявила статистические закономерности в записи ходов (после e2-e4 часто следует e7-e5), но не «понимала» правил шахмат.
Даже когда современные модели дают правильные ответы на сложные вопросы, это результат статистического обобщения огромного количества примеров, а не понимания. OpenAI провела эксперимент: обучила GPT-3 решению простых арифметических задач. Модель показала хорошие результаты на числах до 100. Но на больших числах, которые редко встречались в обучающих данных, точность резко падала. Модель не «понимала» принцип сложения – она запомнила статистические закономерности для часто встречающихся примеров.
Корреляция, а не причинность
Машинное обучение выявляет корреляции, но не может определить причинно-следственные связи без дополнительных предположений. Это фундаментальное ограничение приводит к серьёзным ошибкам при попытке использовать модели для принятия решений.
Классический пример, который любят приводить на конференциях по науке о данных: корреляция между продажами мороженого и количеством утоплений. Данные реальные – статистика по США показывает устойчивую положительную корреляцию. Наивная модель машинного обучения могла бы «заключить», что мороженое вызывает утопления или наоборот. В действительности обе переменные зависят от третьей – температуры воздуха. В жаркую погоду люди чаще покупают мороженое и чаще купаются, что приводит к росту несчастных случаев.
Но в реальной практике такие ошибки не всегда очевидны. Google Flu Trends – проект Google по предсказанию эпидемий гриппа на основе поисковых запросов – яркий пример. Запущенная в 2008 году, система показывала впечатляющие результаты, предсказывая вспышки гриппа на две недели раньше официальной статистики CDC (Центров по контролю заболеваний США). Модель выявила корреляцию между определёнными поисковыми запросами («симптомы гриппа», «температура и кашель») и реальными вспышками заболевания.
Но в 2013 году система дала сбой, переоценив масштабы эпидемии гриппа в два раза (согласно публикации в Nature). Анализ показал: модель уловила корреляцию, но не причинность. Медийное освещение гриппа заставляло здоровых людей искать информацию о симптомах. Модель интерпретировала рост запросов как признак эпидемии, хотя причиной была паника в СМИ, а не реальный рост заболеваемости.
Ещё более серьёзные последствия имела попытка использовать машинное обучение для предсказания рецидивов преступлений в США. Система COMPAS (Correctional Offender Management Profiling for Alternative Sanctions – профилирование правонарушителей для альтернативных санкций), используемая судами для оценки риска повторных преступлений, выявила корреляцию между почтовым индексом проживания и вероятностью рецидива. Люди из бедных районов получали более высокие оценки риска.
Журналистское расследование ProPublica в 2016 году показало: система путает корреляцию с причинностью. Бедность коррелирует с преступностью, но не является её причиной. Человек из бедного района с теми же личностными характеристиками, что и человек из богатого района, получал более высокую оценку риска просто из-за места проживания. Система воспроизводила социальное неравенство, принимая его за причинный фактор.
В медицине эта проблема может быть вопросом жизни и смерти. Исследование 2019 года, опубликованное в Science, проанализировало алгоритм, используемый для определения потребности в дополнительной медицинской помощи. Алгоритм обслуживал 200 миллионов пациентов в США. Исследователи обнаружили: модель использовала исторические расходы на лечение как прокси (замещающий показатель) для тяжести заболевания. Но корреляция была ложной: афроамериканцы исторически тратили меньше на медицину не потому, что были здоровее, а из-за неравного доступа к медицинским услугам. Модель интерпретировала это как меньшую потребность в помощи.
Существуют специальные методы выявления причинных связей – каузальный вывод (causal inference – методы определения причинно-следственных связей), разработанные Джудеей Перлом и другими исследователями. Но они требуют явных предположений о структуре причинных связей, которые нельзя вывести из самих данных. Модель может выявить, что курение коррелирует с раком лёгких, но определить направление причинности (курение вызывает рак, а не наоборот) требует дополнительного знания или экспериментальных данных. Методы каузального вывода (causal inference) не устраняют необходимость в предположениях – лишь делают их явными.
Статистические закономерности вместо логических правил
Третье фундаментальное ограничение – машинное обучение оперирует статистическими закономерностями, а не логическими правилами. Это означает, что модель может пропустить редкие, но критически важные случаи, и не способна к дедуктивному выводу (логический вывод от общего к частному).
Рассмотрим реальный пример из практики использования компьютерного зрения (computer vision – область ML для анализа изображений) для медицинской диагностики. В 2020 году группа исследователей из Google Health опубликовала результаты применения глубокого обучения (deep learning – машинное обучение с многослойными нейронными сетями) для выявления диабетической ретинопатии (поражения сетчатки при диабете) по фотографиям глазного дна. Модель показала точность (accuracy – доля правильных прогнозов) 90%, сопоставимую с опытными офтальмологами.
Но при внедрении в клиниках Таиланда обнаружилась проблема. Модель обучалась на высококачественных снимках из американских клиник. В Таиланде оборудование было хуже, снимки – менее чёткими. Модель, которая выявляла статистические закономерности, а не применяла логические правила диагностики, отвергала 20% снимков как «неподходящие для анализа». Врачи могли бы поставить диагноз по этим снимкам, применяя логический вывод и медицинские знания, но модель, не найдя знакомых статистических закономерностей, отказывалась работать.
Ещё более показателен случай с автопилотом Tesla. В марте 2018 года Model X с включённым автопилотом врезалась в бетонное ограждение на шоссе в Калифорнии, водитель погиб (согласно отчёту NTSB – National Transportation Safety Board). Расследование показало: система не распознала повреждённое ограждение, которое отличалось от типичных примеров в обучающих данных. Человек-водитель применил бы простое логическое правило: «любое препятствие на пути требует реакции». Но модель, обученная на статистических закономерностях, не распознала нетипичное препятствие.
Разница между индуктивным выводом (от частного к общему, что делает машинное обучение) и дедуктивным (от общего к частному) особенно ярко проявляется в задачах, требующих логического мышления. Компания DeepMind обучила модель решению школьных задач по математике. На типичных задачах модель показывала хорошие результаты. Но стоило немного изменить формулировку, сохранив математическую суть, как точность падала с 90% до 10%. Модель выявила статистические закономерности в формулировках задач, а не обучилась математической логике.
Статистическая природа машинного обучения означает, что редкие события систематически игнорируются. Если в обучающих данных событие встречается в 0,01% случаев, модель обучится его игнорировать, даже если последствия могут быть катастрофическими. Это особенно опасно в критических системах.
Airbus в 2019 году приостановил разработку полностью автономной системы посадки на основе машинного обучения, столкнувшись именно с этой проблемой. Редкие, но критические ситуации – птица в двигателе, внезапный порыв ветра, отказ шасси – не могут быть надёжно обработаны системой, основанной на статистических закономерностях. Нужны чёткие логические правила и способность к логическому выводу, которых у современного машинного обучения нет.
Важное замечание: это не означает, что машинное обучение бесполезно в критических областях. Но оно должно использоваться как вспомогательный инструмент, а не как замена логическому мышлению и экспертному знанию.
1.3. Метафора информационного сжатия
Чтобы глубже понять природу машинного обучения и источники его ограничений, полезно рассмотреть эту технологию через призму метафоры информационного сжатия. Представьте машинное обучение как интеллектуальный архиватор: он берёт терабайты исходных данных и сжимает их в мегабайты параметров модели. При «распаковке» – применении модели к новым данным – неизбежно происходит потеря информации, как при сжатии фотографии в JPEG.
Процесс сжатия: от терабайтов к мегабайтам
Рассмотрим конкретные цифры на примере GPT-3, одной из крупнейших языковых моделей. Для обучения использовалось около 570 гигабайт текстовых данных – это примерно 300 миллиардов токенов (минимальных единиц текста) (слов и частей слов). Вся Википедия составляет лишь 3% от этого объёма. Модель «прочитала» тексты, эквивалентные библиотеке из 3 миллионов книг.
Все эти терабайты информации сжались в 175 миллиардов параметров модели, что в сыром виде занимает около 700 гигабайт памяти. Но если использовать квантизацию (снижение точности числовых представлений параметров), модель можно сжать до 350 или даже 175 гигабайт. Это всё равно большой объём, но он в тысячи раз меньше исходных данных.
Что происходит при таком сжатии? Модель сохраняет наиболее часто встречающиеся закономерности и отбрасывает редкие детали. Это похоже на то, как алгоритм JPEG сохраняет общие контуры и цвета изображения, но теряет мелкие детали. Если фотография содержит тысячу оттенков синего в небе, JPEG может сохранить только десять наиболее важных.
ResNet-50 (популярная архитектура с 50 слоями), ещё более компактна: всего 25 миллионов параметров, около 100 мегабайт. Она обучается на ImageNet (крупная база данных с миллионами размеченных изображений) – базе из 14 миллионов изображений общим объёмом около 150 гигабайт. Коэффициент сжатия – 1500:1.
При таком экстремальном сжатии модель вынуждена обобщать. Она не может запомнить каждую конкретную кошку из обучающей выборки (набор данных для настройки модели). Вместо этого она выявляет статистически значимые признаки: треугольные уши определённой формы, усы, характерные пропорции морды. Всё, что не укладывается в эти обобщённые образцы, теряется.
Яндекс, по открытым данным компании, в своей поисковой системе использует модель MatrixNet (алгоритм машинного обучения для ранжирования результатов), которая обрабатывает петабайты данных о поведении пользователей, но сама модель занимает всего несколько гигабайт. Каждый клик, каждый запрос, каждая сессия пользователя – это информация, которая должна быть «сжата» в параметры модели. Неудивительно, что индивидуальные особенности теряются, остаются только массовые закономерности.
Что теряется при сжатии
Потеря информации при обучении модели неизбежна и проявляется в трёх основных формах: игнорирование редких событий, утрата контекстуальных нюансов и стирание индивидуальных особенностей.
Начнём с редких событий. Netflix использует машинное обучение для рекомендаций фильмов. Их модель обучена на миллиардах оценок пользователей. Но что происходит с фильмами, которые посмотрели всего несколько сотен человек? Или с пользователями с уникальными вкусами? Они статистически незначимы и при «сжатии» в параметры модели их особенности теряются.
Реальный пример: документальный фильм о квантовой физике может быть шедевром, обожаемым небольшой группой энтузиастов. Но если таких фильмов в базе мало, а любителей – ещё меньше, модель не сможет выявить закономерность «любитель научпопа → квантовая физика». Фильм будет рекомендоваться редко, даже тем, кому он идеально подошёл бы. Это проблема холодного старта (cold start – проблема рекомендаций для новых объектов) – новые или редкие элементы игнорируются системой.
Amazon столкнулась с похожей проблемой в своей системе рекомендаций товаров. Товары, которые покупают реже раза в месяц, практически исчезают из рекомендаций, даже если они идеально подходят конкретному покупателю. Компания частично решила проблему, создав отдельные модели для разных категорий товаров, но полностью преодолеть ограничение статистического подхода невозможно.
Второй тип потерь – контекстуальные нюансы. Когда модель кредитного скоринга (система оценки кредитоспособности) Сбербанка обрабатывает заявку (по публичным данным банка), она видит: возраст 35 лет, доход 80000 рублей, стаж 3 года. Но она не видит, что человек только что вернулся из декретного отпуска, или что снижение дохода связано с переходом из корпорации в стартап с большим потенциалом роста. Эти нюансы критически важны для оценки реального риска, но они теряются при преобразовании человека в вектор признаков (числовое представление объекта).
Исследование практик американского банка Wells Fargo (по публичным данным) показало: их модель систематически недооценивала кредитоспособность иммигрантов. Причина – потеря контекста. Короткая кредитная история в США не означает ненадёжность для человека, который 20 лет успешно вёл бизнес в другой стране. Но эта информация терялась при «сжатии» в стандартный набор признаков.
Третий тип потерь – индивидуальные особенности. Spotify обрабатывает прослушивания 400 миллионов пользователей. При обучении рекомендательной модели неизбежно происходит усреднение. Если вы любите и классическую музыку, и хеви-метал (статистически редкое сочетание), модель будет путаться, пытаясь отнести вас к одному из стандартных кластеров (групп похожих объектов в данных).
Реальная история от пользователя Reddit: его аккаунт Spotify использовала вся семья. Модель получала сигналы о детских песнях, классическом роке и K-pop. Результат – рекомендации стали бесполезными для всех. Модель пыталась найти «среднее» между несовместимыми предпочтениями. Это не баг, а фундаментальное свойство статистического подхода – он работает с типичными случаями, не с исключениями.
Проблема длинного хвоста
В статистике «длинный хвост» – это редкие события, которые в совокупности могут быть очень важны. Машинное обучение систематически плохо работает с длинным хвостом, и это имеет серьёзные практические последствия.
Google Photos в 2015 году запустил функцию автоматического распознавания объектов на фотографиях (согласно публикациям компании). Система отлично распознавала кошек, собак, автомобили, деревья – объекты, представленные миллионами примеров в обучающих данных. Но произошёл скандал: система ошибочно классифицировала фотографии темнокожих людей. Причина – в обучающих данных было недостаточно разнообразия. Темнокожие лица оказались в «длинном хвосте» распределения, где модель работает плохо.
Медицинский пример ещё более критичен. Модель диагностики рака кожи, разработанная в Стэнфорде, показывала точность (accuracy – доля правильных прогнозов) 91% – на уровне дерматологов. Но исследование 2019 года (опубликованное в JAMA Dermatology) показало: на пациентах с тёмной кожей точность падала до 61%. Причина та же – обучающие данные содержали в основном фотографии светлокожих пациентов. Редкие типы рака, встречающиеся у 1 из 10000 пациентов, модель пропускала в 95% случаев.
Проблема длинного хвоста проявляется не только в пропуске редких случаев, но и в систематической дискриминации меньшинств. Если вы принадлежите к любому статистическому меньшинству – этническому, социальному, поведенческому – модели машинного обучения будут работать для вас хуже.
Microsoft опубликовала исследование своей системы распознавания речи в 2020 году. Общая точность (accuracy – доля правильных прогнозов) – 94%. Но для носителей английского с индийским акцентом – 87%, с китайским – 85%, с африканским – 83%. Модель «сжала» разнообразие произношений до нескольких основных шаблонов произношения, соответствующих американскому и британскому английскому.
Автомобильные системы безопасности демонстрируют похожую проблему. Исследование систем автоматического торможения показало: они хуже распознают пешеходов в нетипичной одежде – традиционные африканские наряды, индийские сари, арабские джеллабы. Это не злой умысел разработчиков, а неизбежное следствие статистического подхода: модель оптимизируется для большинства, игнорируя длинный хвост.
Парадокс в том, что часто именно редкие случаи наиболее важны. В медицине – это редкие болезни, которые требуют срочного лечения. В безопасности – это нетипичные угрозы, которые могут быть наиболее опасными. В бизнесе – это инновационные клиенты с нестандартными потребностями, которые могут стать источником роста.
Компания Palantir, специализирующаяся на анализе данных для правительственных структур, столкнулась с этой проблемой при разработке системы выявления финансового мошенничества. Стандартные схемы мошенничества модель выявляла хорошо. Но новые, изощрённые схемы, которые встречались редко, но наносили наибольший ущерб, система пропускала. Пришлось дополнять машинное обучение экспертными правилами и человеческим анализом.
Заключительные размышления о природе машинного обучения
Метафора информационного сжатия помогает понять фундаментальную природу машинного обучения. Это не искусственный интеллект в научно-фантастическом понимании, не электронный мозг, способный к пониманию и логическому выводу. Это статистический механизм выявления и применения закономерностей, который неизбежно теряет информацию при обобщении.
Сила машинного обучения – в способности обрабатывать объёмы данных, недоступные человеку, и находить неочевидные корреляции. Слабость – в отсутствии понимания, неспособности работать с редкими событиями и потере контекста. Это не недостаток конкретных алгоритмов, который можно исправить. Это фундаментальное свойство статистического подхода к обработке информации.
Понимание этих ограничений критически важно для правильного применения технологии. Машинное обучение прекрасно работает там, где нужно обработать большие объёмы типичных случаев: сортировка почты, рекомендация контента, оптимизация маршрутов. Оно опасно там, где важен каждый случай, где цена ошибки высока, где контекст критичен: медицинская диагностика редких болезней, оценка уникальных рисков, принятие судьбоносных решений о людях.
В следующей главе мы рассмотрим, как эти фундаментальные особенности машинного обучения проявляются в конкретных применениях и какие иллюзии они создают об объективности алгоритмических решений. Но уже сейчас важно запомнить: машинное обучение – это мощный инструмент статистического анализа, но не более того. Ожидать от него понимания, мудрости или справедливости – значит проецировать человеческие качества на математический аппарат, что неизбежно приводит к разочарованию и ошибкам.
Глава 2. Границы объективности
Случай с системой найма Amazon, детально рассмотренный в предыдущей главе, прекрасно иллюстрирует центральную проблему: компания потратила четыре года на разработку «объективной» системы отбора, чтобы обнаружить, что она воспроизводит и усиливает исторические предубеждения. Этот и подобные ему случаи демонстрируют, что объективность машинного обучения – это иллюзия, тщательно сконструированная последовательностью субъективных решений.
2.1. Последовательность проектных решений
Создание любой системы машинного обучения начинается не с данных и не с алгоритмов. Оно начинается с человеческого решения о том, что именно мы хотим оптимизировать. Это фундаментальный выбор, который определяет всё последующее поведение системы, но часто остаётся неосознанным или недостаточно проработанным.
Рассмотрим реальный случай из практики YouTube. В 2012 году компания поставила перед своей рекомендательной системой (алгоритм предложения релевантного контента) задачу максимизировать время просмотра видео. Логика казалась безупречной: если люди дольше смотрят, значит, контент им интересен. Алгоритм (система автоматических рекомендаций) начал продвигать длинные, захватывающие видео, которые удерживали внимание зрителей. Вскоре исследователи обнаружили побочный эффект: система активно продвигала конспирологические теории и радикальный контент. Видео о плоской Земле, антивакцинаторские ролики, политически экстремистские материалы – всё это прекрасно удерживало внимание и соответствовало заданной метрике (количественный показатель для оценки качества).
YouTube не программировал свой алгоритм на продвижение дезинформации. Компания просто выбрала метрику – время просмотра – которая оказалась несовершенным приближением к реальной цели: предоставлению качественного и полезного контента. Это первое и самое важное проектное решение: выбор того, что оптимизировать. И это решение принимают люди, со всеми их ограничениями и предубеждениями.
После изменения алгоритма в 2019 году, когда YouTube начал учитывать не только время просмотра, но и удовлетворённость пользователей (измеряемую через опросы и другие сигналы), распространение экстремистского контента существенно сократилось. Но и новая метрика – это человеческий выбор, отражающий определённое понимание того, что считать «удовлетворённостью».



