Читать книгу Машинное обучение без иллюзий. Понимание возможностей и границ ML (Сергей Кирницкий) онлайн бесплатно на Bookz
bannerbanner
Машинное обучение без иллюзий. Понимание возможностей и границ ML
Машинное обучение без иллюзий. Понимание возможностей и границ ML
Оценить:

4

Полная версия:

Машинное обучение без иллюзий. Понимание возможностей и границ ML

Машинное обучение без иллюзий

Понимание возможностей и границ ML


Сергей Кирницкий

© Сергей Кирницкий, 2025


ISBN 978-5-0068-5223-5

Создано в интеллектуальной издательской системе Ridero

ВВЕДЕНИЕ: Момент прозрения

История переоценки возможностей

Каждая технологическая революция проходит через предсказуемый цикл: восторженные обещания, массовое внедрение, столкновение с реальностью, переосмысление. Паровые машины должны были освободить человека от физического труда – породили фабричную систему с её жёсткой дисциплиной. Электричество обещало демократизацию комфорта – создало новые формы неравенства между электрифицированными городами и отстающей периферией. Интернет должен был стать пространством свободного обмена знаниями – превратился в поле битвы за внимание и данные.

Машинное обучение проходит через тот же цикл прямо на наших глазах. Но есть особенность: скорость прохождения этапов беспрецедентна. От первых громких успехов AlphaGo до массового разочарования в чат-ботах прошло меньше десятилетия. От обещаний полностью автономных автомобилей до признания, что даже частичная автоматизация требует постоянного человеческого контроля – ещё меньше.

Момент прозрения наступает, когда организации осознают фундаментальное противоречие. С одной стороны, технология демонстрирует впечатляющие результаты: системы распознавания изображений превосходят человека в специализированных задачах, языковые модели генерируют связные тексты, рекомендательные алгоритмы удерживают внимание миллиардов пользователей. С другой – те же системы проваливаются на элементарных с человеческой точки зрения задачах, воспроизводят и усиливают социальные предрассудки, принимают решения, логику которых невозможно объяснить.

Amazon столкнулась с этим в 2014 году. Компания, построившая империю на алгоритмах, решила автоматизировать отбор персонала. Лучшие инженеры создали систему, обученную на десятилетней истории найма. Результат оказался парадоксальным: модель систематически занижала оценки резюме, содержащих слово «женский» – будь то «капитан женской шахматной команды» или «женский колледж». Система не была запрограммирована на дискриминацию. Она просто выявила закономерность в исторических данных: в технологических ролях Amazon преобладали мужчины. Проект закрыли.

Американская система уголовного правосудия пережила похожее откровение с алгоритмом COMPAS, предсказывающим вероятность рецидива. Исследование ProPublica показало: система в два раза чаще ошибочно классифицировала чёрных подсудимых как высокорисковых по сравнению с белыми. При этом создатели алгоритма не использовали расу как переменную. Но почтовый индекс, уровень образования, история арестов родственников – все эти «нейтральные» факторы коррелировали с расовой принадлежностью в американском контексте. Алгоритм выучил расизм, не зная о существовании рас.

Медицинские алгоритмы демонстрируют схожие проблемы: система распределения медицинской помощи, используя исторические расходы на лечение как индикатор потребности, систематически недооценивала нужды пациентов из малообеспеченных групп, интерпретируя следствие неравенства как отсутствие потребности в помощи.

Финансовый сектор накопил целую коллекцию подобных откровений. Кредитные алгоритмы Apple Card выдавали мужчинам кредитные лимиты в 10—20 раз выше, чем их жёнам при одинаковых доходах и кредитной истории. Системы оценки кредитоспособности в развивающихся странах отказывали целым районам, воспроизводя практику «красных линий» – географической дискриминации, формально запрещённой десятилетия назад. Алгоритмы ценообразования страховых компаний назначали более высокие ставки водителям из бедных районов независимо от их личной истории вождения.

Каждый из этих случаев следует похожему сценарию. Организация внедряет машинное обучение для повышения объективности и эффективности. Модель демонстрирует отличные метрики на тестовых данных. Затем обнаруживается, что система воспроизводит или усиливает именно те предвзятости, которые хотели устранить. Попытки исправить приводят к новым проблемам – модель начинает дискриминировать по другим признакам или теряет предсказательную силу.

Кульминация наступает с осознанием: проблема не в конкретной модели или наборе данных. Проблема в фундаментальной природе технологии. Машинное обучение не создаёт объективность из ничего. Оно кристаллизует закономерности прошлого, превращая вчерашние решения в завтрашние правила. Обобщая опыт десятков компаний, столкнувшихся с подобными откровениями, можно сформулировать суть момента прозрения так: организации планировали автоматизировать принятие решений, а в итоге автоматизировали свои исторические предрассудки.

Почему технология, созданная для улучшения качества решений через объективный анализ данных, на практике часто воспроизводит и даже усиливает существующие проблемы? Ответ кроется в фундаментальном непонимании природы машинного обучения. Мы приписываем алгоритмам качества, которыми они не обладают – объективность, понимание, мудрость. И упускаем из виду их реальную сущность – статистические механизмы выявления корреляций в данных, созданных людьми со всеми их предубеждениями и ограничениями.

Кому нужна эта книга

Эта книга написана для тех, кто принимает решения о будущем организаций в эпоху алгоритмов, но не обязательно разбирается в технических деталях машинного обучения. И для тех, кто создаёт эти алгоритмы, но не всегда видит широкий контекст их применения.

Первая и, возможно, самая важная аудитория – руководители высшего звена. Те, кто подписывает многомиллионные контракты на внедрение систем искусственного интеллекта, одобряет стратегии цифровой трансформации, несёт ответственность за последствия автоматизированных решений. Вы не обязаны знать разницу между градиентным бустингом и нейронными сетями. Но вам критически важно понимать, что может и чего не может машинное обучение, какие вопросы задавать консультантам и вендорам, как отличить реалистичные обещания от маркетингового тумана.

Книга поможет вам избежать дорогостоящих ошибок. Не технических – для этого есть специалисты. А стратегических: попыток решить машинным обучением задачи, для которых оно не предназначено, создания систем без понимания их ограничений, делегирования машинам решений, которые должны оставаться человеческими.

Вторая группа читателей – менеджеры проектов, бизнес-аналитики, консультанты. Те, кто находится на границе между техническим и бизнесовым мирами. Ваша задача – переводить с языка алгоритмов на язык бизнеса и обратно. Но часто этот перевод искажает смысл. Технические специалисты говорят о точности модели, бизнес слышит гарантию результата. Бизнес просит найти лучших клиентов, технические специалисты оптимизируют метрику, которая может не иметь отношения к реальной ценности клиента.

Книга даст вам концептуальный каркас для такого перевода. Вы научитесь распознавать ситуации, когда технические и бизнесовые представления расходятся, понимать источники этих расхождений и находить общий язык между мирами.

Третья аудитория – сами технические специалисты. Разработчики алгоритмов, исследователи данных, инженеры машинного обучения. Вы прекрасно знаете, как работают алгоритмы. Но знание механики не всегда означает понимание последствий. Модель кредитного скоринга для вас – задача классификации с определённой метрикой качества. Но за каждым отказом стоит человек с его планами и надеждами. Рекомендательная система – проблема совместной фильтрации. Но она формирует информационные пузыри, влияющие на мировоззрение миллионов.

Эта книга не научит вас программировать или настраивать гиперпараметры. Она покажет более широкую картину: как ваши технические решения трансформируются в социальные последствия, почему важно думать не только о точности и полноте модели, но и о справедливости и ответственности, как сделать вашу работу не только технически корректной, но и этически обоснованной.

Что вы узнаете

Главное, что даст эта книга – ясное понимание реальной природы машинного обучения. Не маркетинговые обещания об искусственном интеллекте, который вот-вот превзойдёт человека. Не технические детали про обратное распространение ошибки и стохастический градиентный спуск. А понимание сути: чем машинное обучение является в своей основе и какие фундаментальные ограничения из этого следуют.

Машинное обучение – это развитие статистического моделирования, где процесс выявления закономерностей автоматизирован. Представьте статистика прошлого века, который месяцами строил регрессионную модель, подбирая переменные и коэффициенты. Современные алгоритмы делают это за минуты, обрабатывая миллионы переменных в сложных нелинейных комбинациях. Но суть осталась той же – выявление статистических закономерностей в данных. Модель не понимает, почему возраст коррелирует с кредитным риском. Она просто фиксирует эту корреляцию и использует для предсказаний.

Вы узнаете о переносе сложности – ключевой концепции книги. Машинное обучение не устраняет сложность принятия решений. Оно переносит её в новые измерения. Раньше кредитный инспектор решал, дать кредит или отказать. Теперь мы решаем: какие данные собирать, какую архитектуру модели выбрать, какую метрику оптимизировать, где поставить пороговое значение. Каждое из этих решений влияет на судьбы тысяч людей, но принимается на уровне метарешений, часто без полного понимания последствий.

Книга развеет иллюзию объективности алгоритмов. Да, машина не подвержена сиюминутным эмоциям и личным предпочтениям. Но она обучается на данных, которые создали люди со всеми их предубеждениями. Она оптимизирует метрики, которые выбрали люди исходя из своих приоритетов. Она использует архитектуру, которая воплощает человеческие допущения о структуре мира. Объективность алгоритма – это кристаллизация субъективности его создателей и данных, на которых он обучен.

Вы научитесь задавать правильные вопросы. Не «какая точность у модели?», а «на каких данных измерена эта точность?». Не «использует ли система искусственный интеллект?», а «какие конкретно закономерности она выявляет и как применяет?». Не «сможет ли машинное обучение решить нашу проблему?», а «подходит ли природа нашей проблемы для статистического моделирования?».

Книга даст практические инструменты для оценки целесообразности применения машинного обучения. Вы узнаете, в каких условиях машинное обучение действительно эффективно: большие объёмы данных, стабильные закономерности, чёткие метрики успеха, толерантность к ошибкам. И поймёте, где его применение опасно или бессмысленно: уникальные ситуации, быстро меняющиеся условия, этические дилеммы, критическая цена ошибки.

Структура книги

Книга построена как путешествие от понимания природы технологии через анализ её влияния к практическим инструментам осознанного применения. Каждая часть отвечает на свой ключевой вопрос, формируя целостную картину.

Часть I «Природа машинного обучения» отвечает на вопрос «что это такое на самом деле?». Мы препарируем технологию, снимая слои маркетингового тумана и добираясь до сути. Вы узнаете, что скрывается за громкими терминами вроде «искусственный интеллект» и «глубокое обучение». Поймёте, почему важно говорить «выявление статистических закономерностей», а не «понимание», «классификация», а не «распознавание смысла». Увидите, как выбор данных, архитектуры и метрик предопределяет поведение системы задолго до её запуска.

Часть II «Перенос сложности» показывает, как машинное обучение трансформирует процессы принятия решений. Сложность не исчезает – она перемещается. Из конкретных решений в метарешения, из явных правил в неявные закономерности, из персональной ответственности в размытую отчётность. Вы увидите, как появляются новые роли и компетенции, создающие дополнительные уровни абстракции между проблемой и решением. Поймёте, почему важные решения часто принимаются неявно, на этапе подготовки данных или выбора метрики.

Часть III «Трансформация процессов» анализирует, что происходит, когда машинное обучение встраивается в организационные процессы. Как теряется информация при преобразовании богатой реальности в векторы чисел. Почему ускорение и масштабирование решений создаёт системные риски. Как сложность моделей приводит к потере контроля и понимания. Эта часть покажет цену, которую мы платим за автоматизацию, часто не осознавая её в полной мере.

Часть IV «Осознанное применение» предлагает практические инструменты. Где машинное обучение действительно эффективно и почему. Какие вопросы критически важно задать перед началом проекта. Как оценить организационную готовность к внедрению машинного обучения. Эта часть – не набор рецептов, а система принципов для принятия обоснованных решений с пониманием всех компромиссов.

Главы внутри каждой части выстроены логически, но могут читаться независимо. Если вас интересует конкретный аспект – например, проблема интерпретируемости или организационная зрелость – можете начать с соответствующей главы. Но последовательное чтение даст более глубокое понимание взаимосвязей между техническими, организационными и этическими аспектами машинного обучения.

Книга намеренно избегает технических подробностей, которые могут устареть через год. Вместо этого она фокусируется на фундаментальных принципах, которые останутся актуальными независимо от развития технологий. Модели станут мощнее, но проблема переноса сложности останется. Алгоритмы станут изощрённее, но вопрос ответственности не исчезнет. Данных станет больше, но проблема их качества и репрезентативности сохранится.

Эта книга – попытка честного разговора о технологии, которая одновременно переоценена и недооценена. Переоценена в своих возможностях заменить человеческое суждение. Недооценена в своей способности трансформировать организации и общество способами, которые мы только начинаем осознавать.

ЧАСТЬ I: ПРИРОДА МАШИННОГО ОБУЧЕНИЯ

Глава 1. Что представляет собой машинное обучение

В феврале 2019 года компания Amazon свернула проект автоматизированной системы найма, над которой работала с 2014 года (согласно публикациям в Reuters). Система, созданная для просмотра резюме и выявления лучших кандидатов, систематически занижала оценки женщинам. Алгоритм обучался на данных о сотрудниках, нанятых за предыдущие десять лет, среди которых преобладали мужчины – особенно на технических позициях. Модель выявила эту статистическую закономерность и воспроизвела её: понижала рейтинг резюме, содержащих слово «женский» – например, «капитан женской шахматной команды». Даже после попыток скорректировать алгоритм, Amazon не смогла гарантировать отсутствие других форм дискриминации и отказалась от системы.

Эта история идеально иллюстрирует суть машинного обучения: технология, которая автоматически выявляет статистические закономерности в данных и применяет их к новым случаям. В данных Amazon была закономерность – успешные сотрудники чаще были мужчинами. Алгоритм выявил её и начал применять. Он не «понимал», что дискриминирует – он просто находил корреляции и использовал их для предсказаний.

Чтобы разобраться в природе машинного обучения и понять, почему подобные ситуации неизбежны, нам нужно внимательно рассмотреть три аспекта: какие процессы лежат в основе этой технологии, где проходят границы её возможностей, и как метафора информационного сжатия помогает понять происходящее.

1.1. Основные процессы машинного обучения

Машинное обучение основано на трёх взаимосвязанных процессах: выявлении статистических закономерностей, интерполяции и экстраполяции в пространстве признаков, и применении выявленных закономерностей к новым данным. Рассмотрим каждый из них детально, опираясь на реальные примеры.

Выявление статистических закономерностей

В основе машинного обучения лежит процесс автоматического обнаружения корреляций в больших массивах данных. Важно понимать: модель не «видит» объекты и не «понимает» их суть – она выявляет статистические связи между числовыми представлениями.

Рассмотрим, как работает система распознавания изображений. В 2012 году нейронная сеть AlexNet (архитектура глубокого обучения для распознавания изображений) произвела революцию в компьютерном зрении, выиграв конкурс ImageNet (крупная база данных с миллионами размеченных изображений) с огромным отрывом от конкурентов. Но что именно делала эта модель? Она не «видела» кошку или собаку в человеческом понимании этого слова. Вместо этого она анализировала миллионы числовых значений – яркость и цвет каждого пикселя – и находила статистические корреляции между определёнными комбинациями этих значений и метками «кошка», «собака», «автомобиль».

Процесс выглядит следующим образом: модель получает изображение в виде матрицы чисел. Размером, скажем, 224×224 пикселя, каждый из которых представлен тремя числами для красного, зелёного и синего каналов. Это 150528 чисел. Свёрточная нейронная сеть (архитектура для работы с изображениями, использующая локальные закономерности) последовательно обрабатывает эти числа через множество слоёв, каждый из которых выявляет определённые закономерности. Первые слои находят простые признаки – края и углы. Средние слои комбинируют их в более сложные структуры – текстуры и простые формы. Глубокие слои выявляют сложные закономерности, которые статистически коррелируют с определёнными объектами.

Когда обученная модель «распознаёт» кошку на новой фотографии, она не осуществляет семантический анализ в человеческом понимании. Она вычисляет, что комбинация числовых признаков на данном изображении статистически похожа на те комбинации, которые в обучающих данных были помечены как «кошка». Если в обучающих данных большинство кошек были сфотографированы в домашних условиях, модель может начать ассоциировать домашнюю обстановку с кошками – и иногда «выявлять» кошку там, где на самом деле просто подушка на диване.

Этот процесс можно представить как статистическое сжатие терабайтов примеров в мегабайты параметров модели. Нейронная сеть ResNet-50 (популярная архитектура с 50 слоями для распознавания изображений) содержит около 25 миллионов параметров – это примерно 100 мегабайт данных. При обучении она «просматривает» миллионы изображений общим объёмом в терабайты. В процессе обучения (процесс настройки параметров модели на данных) вся эта информация «сжимается» в параметры модели, которые кодируют выявленные статистические закономерности.

Важное уточнение для технических специалистов: когда мы говорим о «выявлении корреляций», мы упрощаем. С математической точки зрения модель аппроксимирует функцию, которая отображает входное пространство признаков в выходное пространство предсказаний. В случае нейронных сетей это сложная нелинейная функция с миллионами параметров. Но с точки зрения понимания того, что происходит на концептуальном уровне, представление о выявлении статистических закономерностей остаётся наиболее точным и доступным.

Интерполяция и экстраполяция в пространстве признаков

Второй ключевой процесс – это способность модели делать предсказания для новых, ранее не встречавшихся примеров, основываясь на их сходстве с обучающими данными. Здесь важно понимать разницу между интерполяцией (предсказание внутри области, покрытой обучающими данными) и экстраполяцией (предсказание за её пределами).

Рассмотрим реальный пример из практики Сбербанка, который активно использует машинное обучение для оценки стоимости недвижимости (по публичным данным банка). Модель обучается на исторических данных о сделках: площадь квартиры, количество комнат, этаж, район, год постройки дома, расстояние до метро и десятки других признаков. Для каждой квартиры известна цена сделки.

Когда приходит запрос на оценку новой квартиры, модель не имеет точного аналога в обучающих данных. Вместо этого она находит похожие квартиры в многомерном пространстве признаков (математическое представление объектов в виде векторов чисел) и интерполирует между ними. Представьте квартиру площадью 55 квадратных метров в определённом районе Москвы. В обучающих данных есть квартиры 50 и 60 квадратных метров в том же районе. Модель не просто усредняет их цены – она учитывает сложные нелинейные зависимости между всеми признаками, которые выявила при обучении.

Интерполяция обычно работает хорошо. Если модель обучена на квартирах стоимостью от 3 до 20 миллионов рублей в разных районах Москвы, она довольно точно оценит квартиру за 10 миллионов в известном ей районе. Но что происходит при экстраполяции?

В 2020 году, когда началась пандемия COVID-19, модели оценки недвижимости столкнулись с беспрецедентной ситуацией. Массовый переход на удалённую работу кардинально изменил предпочтения: люди стали меньше ценить близость к офисным центрам и больше – площадь квартиры и возможность обустроить домашний офис. Модели, обученные на допандемийных данных, продолжали высоко оценивать маленькие квартиры в центре и недооценивать просторные квартиры в спальных районах. Это классический пример неудачной экстраполяции – модель пыталась применить старые закономерности к принципиально новой ситуации.

Проблема экстраполяции особенно остро проявилась в алгоритмической торговле (автоматическая торговля на основе математических моделей) во время финансового кризиса 2008 года. Модели, обученные на данных стабильного роста 2003—2007 годов, не просто ошибались – они усугубляли кризис. Когда началась распродажа активов, алгоритмы интерпретировали это как сигнал к продаже, что привело к каскадному обрушению рынка. Модели пытались экстраполировать за пределы известной им области, где закономерности уже не работали.

Ключевое ограничение машинного обучения: качество предсказаний резко падает, когда модель сталкивается с данными, существенно отличающимися от обучающей выборки (набор данных для настройки модели). И часто невозможно заранее определить, где проходит граница между надёжной интерполяцией и рискованной экстраполяцией.

Применение выявленных закономерностей к новым данным

Третий процесс – использование обученной модели для принятия решений о новых случаях. Здесь критически важно понимать фундаментальное допущение: будущее будет статистически похоже на прошлое.

Рассмотрим систему кредитного скоринга (автоматическая оценка кредитоспособности заёмщика), которую использует большинство российских банков. Возьмём обобщённый пример, основанный на публичной информации о практиках Тинькофф Банка и Сбербанка. Модель обучается на исторических данных: информация о заёмщиках за последние 5—10 лет и факт возврата или невозврата кредита. Алгоритм выявляет сотни статистических закономерностей. Например, люди с постоянным доходом выше 100 тысяч рублей и стажем работы более трёх лет на одном месте реже допускают просрочки. Или: заёмщики, которые берут кредит сразу после смены работы, чаще испытывают финансовые трудности.

Когда приходит новый заявитель, модель применяет все выявленные закономерности. Она не «понимает» финансовое положение человека – она вычисляет статистическую вероятность возврата кредита, основываясь на сходстве данного заявителя с теми, кто брал кредиты раньше.

Банк ВТБ в 2019 году сообщал, что их система машинного обучения обрабатывает заявку за 7 минут, анализируя более 500 параметров. Человек-эксперт физически не может учесть такое количество факторов. Но здесь кроется важный нюанс: модель применяет исторические закономерности механически, без понимания контекста.

Представим реальную ситуацию: предприниматель временно снизил свой официальный доход, реинвестируя прибыль в развитие бизнеса. Для модели это выглядит как тревожный сигнал – падение дохода статистически коррелирует с проблемами возврата кредита. Модель не может «осмыслить», что это стратегическое решение, которое в будущем приведёт к росту доходов. Она обрабатывает только числа и применяет к ним выявленные закономерности.

Ещё более показательный пример – изменение экономической ситуации. Модели кредитного скоринга, обученные в период стабильности 2010—2019 годов, столкнулись с проблемами в 2020 году. Пандемия изменила структуру рисков: некоторые традиционно надёжные заёмщики (владельцы ресторанов, туристических агентств) внезапно стали высокорискованными, в то время как IT-специалисты с возможностью удалённой работы стали ещё более надёжными. Модели продолжали применять старые закономерности к новой реальности.

Компания Affirm в США столкнулась с похожей проблемой: их модель потребительского кредитования, показывавшая отличные результаты в 2019 году, в 2020 году начала систематически ошибаться. Причина – фундаментальное изменение потребительского поведения во время локдаунов.

bannerbanner