Читать книгу Машинное обучение без иллюзий. Понимание возможностей и границ ML (Сергей Кирницкий) онлайн бесплатно на Bookz (4-ая страница книги)
bannerbanner
Машинное обучение без иллюзий. Понимание возможностей и границ ML
Машинное обучение без иллюзий. Понимание возможностей и границ ML
Оценить:

4

Полная версия:

Машинное обучение без иллюзий. Понимание возможностей и границ ML

Язык формирует мышление, а мышление определяет решения. Когда мы говорим, что модель «думает» или «понимает», мы неявно наделяем её человеческими качествами, которых у неё нет и быть не может. Эта глава посвящена развенчанию языковых иллюзий вокруг машинного обучения и формированию точного профессионального словаря.

3.1. Проблема антропоморфной терминологии

Эволюционные корни антропоморфизации

Склонность видеть человеческие черты в неодушевлённых объектах заложена в нас эволюцией. Наши предки, которые принимали шорох в кустах за хищника, выживали чаще тех, кто игнорировал потенциальную угрозу. Лучше тысячу раз ошибочно увидеть намерение там, где его нет, чем один раз пропустить реальную опасность. Этот механизм, спасавший жизни в саванне, сегодня заставляет нас видеть «интеллект» в статистических моделях.

В 1944 году психологи провели эксперимент, показывая испытуемым простую анимацию с движущимися геометрическими фигурами. Практически все участники описывали движение фигур в терминах намерений и эмоций: «треугольник преследует круг», «квадрат прячется от треугольника», «круг боится». Если мы готовы приписать эмоции треугольникам на экране, что говорить о сложных алгоритмах, выдающих осмысленные с виду результаты?

Современные нейронные сети (математические модели с множеством связанных вычислительных узлов) усиливают эту иллюзию. Когда GPT (генеративная предобученная трансформерная модель для обработки текста) генерирует связный текст, трудно не думать, что система «понимает» то, о чём пишет. Когда система компьютерного зрения (алгоритмы обработки и анализа изображений) распознаёт лица, кажется, что она «видит» как человек. Но это проекция наших ожиданий на математические операции с матрицами чисел.

Маркетинговое усиление иллюзий

Индустрия технологий активно эксплуатирует нашу склонность к антропоморфизации. IBM назвала свою систему Watson, создав ассоциацию с доктором Ватсоном – умным и надёжным помощником Шерлока Холмса. В рекламной кампании 2011 года Watson представлялся как система, которая «думает» и «понимает». Реальность оказалась прозаичнее: Watson Health, подразделение для здравоохранения, было продано в 2022 году после многолетних неудач в попытках «революционизировать медицину». Система, которая блестяще играла в Jeopardy! (американская телевикторина), оказалась неспособной справиться со сложностью медицинских данных.

Российский рынок следует тем же закономерностям. Анализ презентаций вендоров систем машинного обучения за 2023 год показывает устойчивый набор терминов: «интеллектуальная платформа», «когнитивные технологии», «система понимания естественного языка», «умный помощник». Ни один из этих терминов не отражает реальную природу технологии – статистическое моделирование (выявление закономерностей в данных и их применение для прогнозов).

Особенно показателен случай с чат-ботами. В 2020 году Сбербанк запустил «виртуального помощника», обещая, что он будет «понимать клиентов» и «решать их проблемы». Реальность: система могла отвечать на ограниченный набор типовых вопросов, используя заранее подготовленные шаблоны и простое сопоставление ключевых слов. Когда клиент выходил за рамки предопределённых сценариев, «понимающий помощник» либо выдавал нерелевантные ответы, либо переводил на оператора.

Языковые ловушки в корпоративной среде

В корпоративной среде антропоморфная терминология создаёт особенно опасные иллюзии. Когда на совещании говорят, что «система приняла решение отклонить заявку», создаётся впечатление, что произошёл некий мыслительный процесс, аналогичный человеческому. В реальности произошло следующее: входные данные были преобразованы в числовой вектор (массив чисел), этот вектор был умножен на матрицу весов (параметры модели, полученные в процессе обучения), к результату была применена функция активации (математическое преобразование), и итоговое число сравнили с пороговым значением. Никакого «решения» в человеческом смысле не было.

Эта путаница имеет практические последствия. Типичная ситуация, с которой сталкиваются банки: система кредитного скоринга (алгоритм оценки кредитоспособности заёмщика) отклоняет заявку известного предпринимателя. Когда он требует объяснений, сотрудник банка говорит: «Система решила, что риск слишком высок». Предприниматель задаёт логичный вопрос: «На основании чего система так решила?» Сотрудник не может ответить, потому что использованная модель градиентного бустинга (ансамблевый метод машинного обучения, последовательно обучающий деревья решений) состоит из сотен деревьев решений (алгоритмов классификации на основе последовательности условий), и проследить логику «решения» практически невозможно.

Последствия неточной терминологии

Антропоморфизация машинного обучения приводит к целому каскаду проблем. Первая и самая очевидная – завышенные ожидания. Если мы верим, что система «понимает», мы ожидаем от неё гибкости человеческого понимания. Когда система распознавания речи (алгоритм преобразования аудиосигнала в текст) не может понять акцент или диалект, пользователи фрустрированы: «Как же так, она же должна понимать речь!» Но система не понимает речь – она сопоставляет звуковые закономерности с текстовыми метками на основе статистических корреляций в обучающих данных (наборах примеров для настройки модели).

Вторая проблема – снижение критичности. Если мы верим, что система «анализирует» данные, мы менее склонны проверять её выводы. Расследование 2016 года показало, что система COMPAS, используемая судами в США для оценки риска рецидивизма (повторного совершения преступления), регулярно описывалась как «анализирующая поведение преступников». Журналистское расследование ProPublica показало, что система имела расовую предвзятость: при прочих равных условиях она в два раза чаще ошибочно классифицировала чёрных подсудимых как имеющих высокий риск рецидива. Но судьи доверяли «анализу» системы, не понимая, что это всего лишь статистическая экстраполяция исторических закономерностей.

Третья проблема – размывание ответственности. Когда мы говорим, что «алгоритм решил», мы неявно снимаем ответственность с людей, которые создали алгоритм, выбрали данные, определили метрики. В 2017 году Amazon свернула проект системы найма на основе машинного обучения, которая дискриминировала женщин. Первоначальная реакция руководства была: «Система выявила, что мужчины – лучшие кандидаты». Потребовалось время, чтобы осознать: система просто воспроизвела исторические закономерности найма в компании, где доминировали мужчины.

Корректная терминология: что происходит на самом деле

Давайте проследим, что происходит, когда мы используем антропоморфные термины, и какова реальность. Когда говорят, что модель «видит» изображение, на самом деле происходит следующее: изображение представляется как трёхмерный массив чисел (высота × ширина × цветовые каналы), свёрточные слои (операции математической свёртки) выделяют локальные образцы, слои пулинга (операции уменьшения размерности) обобщают информацию, полносвязные слои (слои, где каждый нейрон связан со всеми нейронами предыдущего слоя) производят финальную классификацию. Никакого «видения» в человеческом смысле нет – есть серия матричных операций.

Когда говорят, что модель «понимает» текст, реальность такова: текст токенизируется (разбивается на элементарные единицы – слова или части слов), токены преобразуются в векторные представления (массивы чисел), механизм внимания (алгоритм определения важности разных частей входных данных) вычисляет веса важности для разных токенов, декодер (часть модели, генерирующая выходные данные) генерирует наиболее вероятное продолжение на основе статистических закономерностей. Семантического понимания в человеческом смысле нет – есть статистическое предсказание вероятных последовательностей.

Когда говорят, что модель «принимает решение», происходит следующее: входные признаки умножаются на веса, полученные в процессе обучения (настройки параметров модели на данных), применяется функция активации, результат сравнивается с порогом. Это не решение в смысле взвешивания альтернатив и выбора – это механическое применение выученных статистических закономерностей.

3.2. Научная терминология в контексте

Злоупотребление статистическими терминами

В индустрии машинного обучения существует парадокс: с одной стороны, используется строгая математическая терминология, с другой – эти термины часто вырываются из контекста, создавая ложное впечатление научной обоснованности. Рассмотрим, как это происходит на практике.

«Статистически значимый результат» – одна из самых злоупотребляемых фраз. Обобщая типичный опыт российских компаний, разрабатывающих рекомендательные системы (алгоритмы подбора релевантного контента для пользователей): отчёт о «статистически значимом улучшении» метрики CTR (click-through rate – доля кликов по рекомендациям) на 0,1%. При детальном рассмотрении выясняется: да, при объёме выборки в 100 миллионов показов даже такое минимальное изменение статистически значимо при p-value <0.05 (вероятность получить такой результат случайно меньше 5%). Но практическая значимость? При среднем CTR в 2% улучшение на 0,1% означает изменение с 2,000% до 2,002%. Это изменение настолько мало, что не покрывает даже затраты на разработку и внедрение новой модели.

Похожая ситуация с термином «точность». В презентациях часто можно увидеть: «Наша модель достигает точности 99%!» Звучит впечатляюще, пока не задашь правильные вопросы. Типичный случай из практики банков: система обнаружения мошенничества отчитывается о точности 99,5%. Реальность: мошеннических транзакций было 0,1% от общего числа. Модель, которая всегда предсказывает «не мошенничество», имела бы точность 99,9%. Получается, что хвалёная модель работала хуже, чем отсутствие модели вообще. Правильная метрика для такой задачи – F1-score (гармоническое среднее между точностью и полнотой), который в данном случае составлял жалкие 0,15.

Игра с метриками: искусство выбирать выгодное

Выбор метрики – это выбор того, что считать успехом. И здесь открывается широкое поле для манипуляций. Типичная ситуация в медицинских лабораториях: внедряется система диагностики заболеваний по анализам крови. В маркетинговых материалах указывается «чувствительность 95%» (доля правильно определённых больных среди всех больных). Впечатляет? Но не указывается специфичность (доля правильно определённых здоровых среди всех здоровых), которая составляет всего 60%. Это означает, что 40% здоровых людей система ошибочно классифицирует как больных.

Представьте последствия: тысячи людей получают ложноположительные результаты, испытывают стресс, проходят дополнительные дорогостоящие обследования. Когда журналисты поднимают эту тему, представители компании отвечают: «Мы оптимизировали систему для максимального выявления больных». Технически они правы. Этически – это катастрофа.

Ещё один пример манипуляции метриками – системы оценки эффективности сотрудников в IT-компаниях. Система использует метрику «производительность», измеряемую количеством закрытых задач. Результат предсказуемый: сотрудники начинают дробить большие задачи на множество мелких, выбирать простые задачи вместо важных, избегать сложных проектов. Метрика растёт, реальная продуктивность падает. Это классический пример закона Гудхарта в действии: когда метрика становится целью, она перестаёт быть хорошей метрикой.

Проблема усреднения и агрегации

«Средняя температура по больнице» – эта метафора идеально описывает одну из ключевых проблем в применении машинного обучения. Модели обучаются на агрегированных данных и выдают усреднённые прогнозы, но реальность состоит из индивидуальных случаев.

В 2019 году исследователи из MIT проанализировали работу коммерческих систем распознавания лиц от Amazon, Microsoft и IBM. Общая точность всех систем превышала 90% – отличный результат. Но дьявол, как всегда, в деталях. Для белых мужчин точность составляла 99%. Для чёрных женщин – 65%. Системы буквально не видели треть чёрных женщин правильно. Причина: обучающие выборки (наборы данных для настройки модели) состояли преимущественно из фотографий белых мужчин. Модель научилась хорошо распознавать то, что видела часто, и плохо – то, что видела редко.

Эта проблема проявляется везде. Системы предсказания побочных эффектов лекарств обучены в основном на данных из клинических испытаний, где преобладают молодые здоровые добровольцы. Применение к пожилым пациентам с множественными заболеваниями даёт непредсказуемые результаты. Модели оценки кредитных рисков обучены на исторических данных, где доминируют определённые социально-экономические группы. Для новых групп (мигранты, молодые предприниматели) модели работают плохо.

Временные аспекты: когда контекст меняет всё

Термин «актуальная модель» часто используется без понимания, насколько быстро модели устаревают. В машинном обучении есть понятие data drift (изменение распределения данных со временем) – ситуация, когда данные, на которых применяется модель, начинают отличаться от данных, на которых она обучалась.

Пандемия COVID-19 стала идеальной иллюстрацией этой проблемы. Модели прогнозирования спроса, обученные на данных до 2020 года, стали бесполезны буквально за недели. Модель прогнозирования трафика в московском метро, показывавшая точность 95% в феврале 2020 года, к апрелю ошибалась в разы – никто не предвидел локдаун. Модели оценки кредитных рисков, не учитывавшие возможность массовой удалённой работы, начали отклонять заявки от платёжеспособных клиентов, временно сменивших офис на дом.

Но data drift (изменение характеристик данных со временем) происходит не только во время кризисов. Обобщая опыт российского ритейла: модель рекомендаций (алгоритм подбора товаров для покупателей) постепенно деградирует с 15% конверсии (доля покупок из рекомендованного) до 8% за год. Причина: изменились покупательские привычки. Модель была обучена, когда люди покупали в магазинах, а применялась, когда массово перешли на доставку. Контекст покупки изменился, модель осталась прежней.

Вопросы, которые нужно задавать

Критическое мышление о терминологии машинного обучения начинается с правильных вопросов. Когда вам говорят о «высокой точности», спрашивайте: на каких данных измерена? Как распределена точность по разным группам? Какие другие метрики использовались? Что происходит при ошибках?

Когда говорят о «статистически значимом улучшении», уточняйте: какой размер эффекта? Какой размер выборки? Какой уровень значимости использовался? Проводилась ли коррекция на множественные сравнения (проверка многих гипотез одновременно увеличивает вероятность ложных открытий)?

Когда заявляют, что модель «работает», выясняйте: в каких условиях тестировалась? Как долго? На каких группах пользователей? Как измеряется «работает»? Что происходит, когда она не работает?

Реальный пример важности таких вопросов. Типичная ситуация при закупке государственными организациями систем автоматической проверки документов: вендор заявляет «точность распознавания 98%». После правильных вопросов выясняется: точность измерена на чистых сканах высокого качества, система не работает с фотографиями документов, не распознаёт рукописный текст, требует строго определённый формат PDF (определённые технические характеристики файла), не поддерживает документы старого образца. Реальная применимость системы оказывается около 40% от документооборота организации.

3.3. Профессиональный словарь

Базовая терминология: что на самом деле означают термины

Профессиональный язык машинного обучения требует точности. Каждый термин имеет конкретное значение, и подмена понятий ведёт к ошибкам в проектировании и применении систем. Рассмотрим ключевые термины и их корректное использование.

Модель машинного обучения – это не «искусственный интеллект», а математическая функция, которая преобразует входные данные в прогнозы. Когда банк говорит об «интеллектуальной системе кредитного скоринга», корректнее сказать: «статистическая модель оценки вероятности дефолта (невозврата кредита) на основе исторических данных». Это сразу проясняет и возможности (статистический прогноз), и ограничения (зависимость от исторических данных).

Обучение модели – это не процесс «обучения» в человеческом смысле, а процесс оптимизации параметров. Модель не «учится понимать», она подбирает численные коэффициенты, минимизирующие расхождение между прогнозами и известными ответами на обучающей выборке (набор данных с известными правильными ответами). Корректная формулировка: «Мы настроили параметры модели на исторических данных о транзакциях за 2019—2023 годы».

Нейронная сеть – это не модель мозга, а класс алгоритмов для аппроксимации сложных функций. Несмотря на биологическую метафору, современные нейронные сети (математические модели с множеством связанных вычислительных узлов) имеют мало общего с работой настоящих нейронов. Это скорее система последовательных математических преобразований. Когда компания заявляет об использовании «нейросетевых технологий», корректнее говорить о «многослойных моделях с нелинейными преобразованиями для выявления сложных закономерностей в данных».

Градации уверенности: от прогноза к предположению

Критически важно различать степени уверенности в выводах модели. Модель никогда не «знает» ответ – она выдаёт вероятностную оценку на основе статистических закономерностей. Рассмотрим корректную терминологию для разных уровней уверенности.

Высокая уверенность (вероятность> 90%): «Модель с высокой вероятностью классифицирует транзакцию как мошенническую». Не «система определила мошенничество», а именно вероятностная оценка. Это важно: даже при 99% уверенности остаётся 1% вероятность ошибки. При миллионе транзакций в день это 10 000 потенциальных ошибок.

Средняя уверенность (вероятность 60—90%): «Модель предполагает повышенный риск оттока клиента». Не «клиент уйдёт», а оценка риска. Это сигнал для дополнительного внимания, не для автоматического действия. В практике телеком-операторов игнорирование этого различия приводит к массовой рассылке удерживающих предложений клиентам со средним риском оттока, что вызывает раздражение у лояльных клиентов, которых модель ошибочно классифицирует.

Низкая уверенность (вероятность <60%): «Модель не может сделать надёжный прогноз». Это честное признание ограничений, не недостаток. Когда модель медицинской диагностики выдаёт низкую уверенность, это сигнал для привлечения врача-специалиста, не для игнорирования случая.

Описание процессов: что делает модель на самом деле

Точное описание процессов машинного обучения помогает избежать иллюзий. Рассмотрим корректные формулировки для типичных операций.

Вместо «модель анализирует данные» используйте «модель выявляет статистические корреляции в данных». Анализ предполагает понимание причинно-следственных связей, выдвижение гипотез, проверку альтернатив. Модель машинного обучения находит численные зависимости: если признак A коррелирует с результатом B в обучающих данных (примерах для настройки модели), модель будет использовать эту корреляцию для прогнозов.

Вместо «система понимает текст» – «система преобразует текст в векторные представления (числовые массивы) и находит статистически похожие закономерности». Когда ChatGPT генерирует ответ на вопрос, он не понимает смысл вопроса и ответа. Он находит статистически вероятное продолжение на основе миллиардов примеров текстов из интернета.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Вы ознакомились с фрагментом книги.

Для бесплатного чтения открыта только часть текста.

Приобретайте полный текст книги у нашего партнера:


Полная версия книги

Всего 10 форматов

bannerbanner