Читать книгу Искусственный интеллект от А до Б (Денис Владимирович Соломатин) онлайн бесплатно на Bookz (3-ая страница книги)
bannerbanner
Искусственный интеллект от А до Б
Искусственный интеллект от А до Б
Оценить:

4

Полная версия:

Искусственный интеллект от А до Б

Свидетельства в пользу теории нечетких следов показывают, что эта теория является как научно экономной, так и обладает большей предсказательной точностью, чем теория кумулятивных перспектив – ведущая теоретическая теория в традиции эвристики и предубеждений – которая, тем не менее, не может объяснить ключевые экспериментальные эффекты, которые объясняет теория нечетких следов.

Натуралистическое принятие решений, еще одна ведущая концепция, которая особенно популярна в литературе по инженерии человеческих факторов и сильного ИИ, утверждает, что люди опираются на свой предыдущий опыт для распознавания закономерностей, которые, в свою очередь, управляют решениями. Как натуралистическое принятие решений, так и теория нечетких следов признают роль интуиции в улучшении процесса принятия решений; однако решения, основанные на интуиции сути, не являются просто «решениями, основанными на распознавании», как это утверждается в традиции натуралистического принятия решений. Скорее, контекстные сигналы (например, когда испытуемых поощряют думать о проблеме с медицинской или статистической точки зрения) могут влиять на уровень ментальной репрезентации, а это означает, что распознавание не гарантирует, что решение будет основываться на интуиции эксперта. В то время как распознавание является механической дословной стратегией (теоретизированной ассоциационизмом), основные представления привносят фоновые знания, контекстуализируя сценарии таким образом, чтобы они имели смысл, и, следовательно, предоставляя понимание человеку, принимающему решения. На самом деле, обширная литература показывает, что люди могут распознавать как суть, так и дословное представление параллельно, и все же предпочитают полагаться на суть при принятии решений.

Таким образом, обширная литература поддерживает утверждение о том, что теория нечетких следов является более экономной и более предсказательной, чем конкурирующие теоретические подходы о роли интерпретации в суждениях и решениях. Эти результаты применимы как к текстам, которые можно найти в области юридического обоснования, так и к числовым стимулам, таким как в области инженерии или сгенерированным моделями машинного обучения.

В приведенном выше обсуждении подчеркивается, что интерпретируемость и объяснимость являются функциями пользователя, сценария использования и других контекстуальных факторов, в той же мере, в какой они являются функциями используемой системы. Тем не менее, психометрические свойства пользователей, как правило, не находятся под контролем дизайнеров. В этой статье мы обсудим современное состояние объяснимых алгоритмов ИИ и то, как можно спроектировать системы для повышения интерпретируемости и объяснимости.

В то время как люди генерируют несколько ментальных представлений параллельно, алгоритмы «поверхностного обучения» генерируют одну модель или распределение моделей из одного математического семейства при представлении набора данных – дословный процесс. Помимо поверхностного обучения, некоторые методы машинного обучения действительно генерируют несколько представлений. Например, ансамблевое обучение – это процесс, в ходе которого генерируется несколько моделей, а затем в конечном итоге агрегируется для формирования одной гипотезы. Однако эти модели не отличаются друг от друга по уровню точности – они просто применяют разные семейства математических операторов к одному и тому же набору признаков. В отличие от этого, многозадачные алгоритмы обучения стремятся воспроизвести гибкость человеческих представлений о сути, обучая модель генерировать общее представление нескольких стимулов из разных областей, тем самым обеспечивая «дальнюю передачу». В случае успеха эти модели могут обучаться более абстрактным представлениям, которые внешне похожи на основные представления; тем не менее, они по-прежнему генерируют только одну модель. Наконец, глубокие нейронные сети генерируют несколько представлений набора данных; однако они делают это, выводя абстрактные представления из более конкретных представлений, в то время как люди кодируют эти представления одновременно и параллельно, а это означает, что люди не получают более простых интерпретаций из более детальных представлений.

В недавнем всестороннем обзоре литературы о вычислительных подходах к объяснимому ИИ отмечается, что для специалистов по информатике понятия интерпретируемости и объяснимости «тесно связаны». Эти авторы утверждают, что «непреложные системы объяснимы, если их действия могут быть поняты людьми». Несмотря на то, что объяснимость и интерпретируемость иногда используются как взаимозаменяемые в литературе по информатике, в этом обзоре приводятся данные, подтверждающие утверждение о том, что «в сообществе машинного обучения термин «интерпретируемый» используется чаще, чем «объяснимый»», особенно по сравнению с использованием этих терминов широкой публикой. В соответствии с изложенными выше психологическими определениями, этот вывод может указывать на то, что производители продуктов ИИ более способны интерпретировать выходные данные этих систем, поскольку они обладают специализированными базовыми знаниями. Действительно, Бхатт и др. утверждают, что это различие может скрывать разницу в целях проектирования этих групп пользователей: разработчики алгоритмов обычно ищут объяснения, чтобы они могли отлаживать или иным образом улучшать свои алгоритмы, и поэтому они могут разрабатывать объяснимые инструменты ИИ для этой цели. Таким образом, объяснение обычно понимается специалистами по информатике как указание на то, как вычислительная система пришла к определенному выводу или сгенерировала его. Хорошее объяснение часто является причинно-следственным и оправданным по отношению к реализации системы – например, «алгоритм смещен в сторону отказа в визе, потому что данные обучения несбалансированы». Такого рода объяснения весьма полезны для отладки этих сложных систем, но только в том случае, если пользователь обладает соответствующими базовыми знаниями и техническими знаниями для этого. Например, приведенное выше объяснение приведет к тому, что разработчик соберет более сбалансированные данные и переобучит алгоритм, но не предложит конечному пользователю немедленного действия, за исключением, возможно, отказа от использования алгоритма.

Большая часть работы в области объяснимого искусственного интеллекта направлена на то, чтобы помочь разработчикам определить простые механические дословные связи между входами и выходами с целью помочь им сделать вывод о потенциальных причинно-следственных механизмах. Например, парадигма важности локального признака может быть наиболее популярным способом взаимодействия практиков с техническими объяснениями. Этот подход направлен на то, чтобы объяснить, как небольшие изменения в конкретных элементах могут привести к изменениям в конкретных выходных данных модели.

Локальные интерпретируемые модельно-независимые объяснения, – один из ведущих алгоритмов, использующих парадигму важности локальных признаков, стремится «объяснить поведение любого классификатора или регрессора верным образом, аппроксимируя его локально с помощью интерпретируемой модели… представляя текстовые или визуальные артефакты, которые обеспечивают качественное понимание взаимосвязи между компонентами экземпляра (например, словами в тексте, пятнами на изображении) и прогнозом модели». Такой подход может помочь разработчикам понять, как изменения в отдельных признаках могут повлиять на выходные данные модели вокруг конкретного прогноза. В той степени, в которой эти выводы обобщают и основаны на значимых признаках, они могут помочь разработчикам сделать вывод о причинно-следственных механизмах модели; однако эти подходы также могут ввести в заблуждение, если они становятся подверженными ложным корреляциям. Этот классификатор, по-видимому, фокусируется на свойствах автора (например, на том факте, что он является выходцем из академического учреждения, на что указывает .edu в его адресе электронной почты) и конкретных стилометрических характеристиках (например, использование слов «иметь» и «там»), а не на словах, которые могут указывать на содержание.

При этом данный подход обращает внимание пользователей на конкретные функции, которые модель использует для создания конкретного прогноза, тем самым связывая конкретный выход с упрощенным представлением модели, которая сгенерировала этот результат. Например, классификатор, разработанный для определения разницы между волками и лайками, классифицировал конкретное изображение на основе наличия снега на заднем плане (а не на основе анатомических особенностей, которые на самом деле отличают эти два вида). Специалист по обработке и анализу данных, обладающий соответствующими знаниями в предметной области, сможет использовать эту информацию для изменения или иной отладки этой ошибочной классификации.

Таким образом, этот процесс имеет некоторое сходство с представленным выше определением объяснения, однако есть и важные отличия. Во-первых, описанный метод не предоставляет пользователю объяснение модели как таковой, а скорее предоставляет пользователям упрощенную модель, которая приближается к более сложной модели, которую пытается объяснить алгоритм. По сути, этот метод заменяет сложное, причинно-следственное описание внутренней работы модели более простым описанием другой модели, результаты которой коррелируют только с исходной моделью. Например, не предоставляя никакой информации о том, что нарисован, волк или хаски, классификатор будет делать точные прогнозы на изображениях, на фоне которых нет снега.

Авторы этого подхода утверждают, что упрощенные модели (например, регрессионные модели с небольшим числом коэффициентов) по своей сути более интерпретируемы, потому что они «обеспечивают качественное понимание между входными переменными и реакцией». Хотя эта цель в целом согласуется с определением сути в теории нечетких следов, при обучении фиксирует мнение эксперта о том, какие признаки с наибольшей вероятностью следует обобщать. Такие методы, могут помочь людям в создании этих представлений, и действительно, предварительные эксперименты, по-видимому, предполагают, что люди могут использовать эти методы для удаления признаков, которые мешают точности прогнозирования, т.е. они могут создать лучший классификатор, и что небольшая выборка людей с опытом в области науки о данных (и, в частности, знакомство с концепцией ложной корреляции) могли бы использовать ограниченные знания для получения более точных объяснений.

Другой подход исходит из предпосылки, что «лучшим объяснением простой модели является сама модель», и поэтому пытается представить сложные модели с помощью более простых моделей. Таким образом возвращая оценки важности для каждого объекта, которые аналогичны коэффициентам регрессии. Для данного прогноза оценки показывают, в какой степени любая из этих функций повлияла на этот прогноз.

Хотя и с возможностью обобщения на более крупный класс моделей машинного обучения. Эти модели являются дословными в самом конкретном смысле – они выводят набор правил (оценки важности признаков), которые могут быть применены в механическом порядке для создания постфактум описания желаемого прогноза. Однако они не связывают причинно-следственные механизмы и подвержены неизвестным ошибкам, поскольку модель применяется за пределами локальной окрестности конкретного прогноза. Отдельные люди, являющиеся субъектами исследования, такие как информированные специалисты, которые имеют желание и возможность глубоко изучить эти результаты, могут использовать свои собственные базовые знания для создания объяснения, но это не предоставляет достаточно информации, чтобы помочь этим специалистам выяснить, когда модель больше не применима. По сути, методы предоставляют пользователям только стимул, который они затем должны объяснить или интерпретировать, в то время как настоящие модели «черного ящика» даже не предоставляют этого стимула.

В то время как разные подходы стремятся объяснить сложные модели с помощью регрессионной парадигмы (т.е. линейной аддитивной функции), объяснимые нейронные сети используют более общую формулировку, основанную на «аддитивной модели индекса». Здесь алгоритм стремится вернуть функцию, описывающую, как прогнозы модели изменяются при изменении отдельных параметров (или, в последнее время, пар параметров). Эти модели могут помочь специалистам по обработке и анализу данных при соответствующем обучении понять, как изменение конкретного признака может изменить прогноз модели, хотя и с риском вывода о ложных корреляциях. Эти подходы особенно широко применяются к моделям глубоких нейронных сетей, в которых одна нейронная сеть используется для упрощенного представления другой, а затем отображается в виде таблицы, аналогичной дисперсионному анализу, показывающей основные эффекты и, в некоторых случаях, двусторонние взаимодействия.

Тем не менее, описанный подход не лишен ограничений: объяснения, которые аналитики могут сделать из применения этих инструментов, могут сами по себе основываться на ложных корреляциях или могут порождать ложную уверенность в предсказаниях моделей, выходящих за рамки непосредственной окрестности точки данных, которую модель пытается объяснить. Хуже того, эти вводящие в заблуждение объяснения могут быть сфабрикованы противниками, стремящимися извлечь выгоду из склонности людей приписывать причинно-следственную связь там, где ее нет.

Градиентно-взвешенное отображение активации классов – это метод, предназначенный для объяснения моделей компьютерного зрения, использующих архитектуры глубокого обучения (в частности, сверточные нейронные сети – в настоящее время самая современная архитектура для компьютерного зрения). В частности, метод «использует градиенты любого целевого понятия (скажем, «собака» в сети классификации или последовательности слов в сети подписей), перетекающих в конечный сверточный слой, для создания грубой карты локализации, выделяющей важные области изображения для прогнозирования понятия». Метод использует преимущества многоуровневой архитектуры для определения тех областей изображения, которые наиболее диагностически для конкретного прогноза. Например, выходные данные могут привлечь внимание пользователя к той части изображения, которая является диагностической для конкретного прогноза, который пользователь хочет объяснить. Это визуальная версия парадигмы важности признаков, где признаки представляют собой ансамбли определенных пикселей с несколькими соответствующими преимуществами и ограничениями.

Рудин подверг резкой критике методы, направленные на создание простых объяснений сложных моделей, утверждая, что они могут запутать фактическую внутреннюю работу этих моделей таким образом, что это введет в заблуждение лиц, принимающих решения, и аналитиков. Модели, которые являются локально точными, не предоставляют информации о степени этой точности или о том, является ли ее снижение плавным или внезапным. Вместо того, чтобы пытаться аппроксимировать более сложные модели более простыми, Рудин утверждает, что более простые модели следует использовать напрямую, потому что они более «интерпретируемы» (т.е. учеными данных), особенно когда ставки высоки. Обоснование этого подхода заключается в том, что специалисты по обработке и анализу данных, по крайней мере, могут понять внутреннюю работу модели.

Масштабируемые байесовские списки правил. Списки байесовских правил Скалабале являются одним из примеров метода, направленного на то, чтобы избежать усложнения модели. В отличие от описанных выше методов, которые стремятся обеспечить непрерывное представление сложных моделей, масштабируемые байесовские списки правил явно не пытаются конкурировать с классификаторами «черного ящика», такими как нейронные сети, методы опорных векторов, градиентный бустинг или случайные леса. Это полезно, когда инструменты машинного обучения используются в качестве помощи в принятии решений людям, которым необходимо понимать модель, чтобы доверять ей и принимать решения на основе данных». Таким образом, модель как правило не нацелены на достижение высокой точности прогнозирования и объяснимости; скорее, они стремятся предоставить набор упрощенных (дословно) вероятностных правил, которые могут быть использованы для разбиения данных.

Один из подходов, который может ответить на критику Рудина, основан на использовании обобщенных аддитивных моделей с парными взаимодействиями – класса моделей, которые ограничивают «вклад одного признака в итоговый прогноз», чтобы он зависел только от этого признака. Цель этих моделей состоит в том, чтобы отделить каждый признак от всех других признаков таким образом, чтобы их можно было оценивать независимо друг от друга.

В первую очередь корреляционный характер и может помочь экспертам в предметной области выбрать особенности – например, авторы модели отмечают, что риск повторной госпитализации пневмонии снижается, а не увеличивается при астме – парадоксальный вывод. Эта модель выявляет этот вывод. Тем не менее, эксперты в предметной области должны затем объяснить этот вывод следующим образом: пациенты с астмой в анамнезе, у которых была пневмония, обычно госпитализировались не только в больницу, но и непосредственно в отделение интенсивной терапии. Хорошая новость заключается в том, что агрессивная помощь, которую получали пациенты с астматической пневмонией, была настолько эффективной, что снижала риск смерти от пневмонии по сравнению с населением в целом. Плохая новость заключается в том, что, поскольку прогноз для этих пациентов лучше среднего, модели, обученные на данных, неверно узнают, что астма снижает риск, тогда как на самом деле риск астматиков гораздо выше (если они не госпитализированы).

Приведенное выше обсуждение показывает, что эти опасения относятся к объяснимости, где цель состоит в том, чтобы помочь специалисту по обработке и анализу данных понять, как работает модель, но могут быть менее применимы к интерпретируемости, где цель в основном состоит в том, чтобы помочь лицу, принимающему решение, связать выходные данные модели со значимым различием, которое позволит ему использовать свои ценности. цели и предпочтения для выбора. В частности, приведенное выше объяснение может помочь пользователю отладить модель или даже решить, стоит ли доверять модели; тем не менее, он может не предоставлять пользователю в явном виде значимую информацию, которая может помочь ему принять окончательное решение о лечении.

Монотонно ограниченные градиентные бустинговые машины стремятся использовать ансамбль «слабых учеников», т.е. моделей с низкой прогностической точностью, для совместного составления точных прогнозов. Такой подход приводит к значительному улучшению возможностей прогнозирования за счет усложнения модели. Чтобы справиться с этой сложностью, монотонно ограниченные градиентно-бустящие машины накладывают ограничение, согласно которому любой данный элемент в модели должен иметь монотонную связь с выходом. Предполагается, что это повышает объяснимость, потому что эти монотонные отношения ограничивают отношения между признаками и предсказаниями, чтобы иметь четкие качественные направления – увеличение признака должно постоянно приводить либо к увеличению, либо к уменьшению точности предсказания. Как и выше, эти модели предполагают, что более простые функциональные формы по своей сути более объяснимы. Однако эти модели в их нынешнем виде могут просто применять форму регуляризации, которая не обязательно основана на знании предметной области. Монотонность может быть уместна в некоторых случаях, например, в кривой «доза-реакция», но не в других, например, при моделировании волн или другого синусоидального поведения. Знание предметной области требуется для определения того, являются ли подходящими ограничения монотонности или любые другие ограничения. При отсутствии знаний в этой области применение таких ограничений действительно может упростить модель, но может сделать это вводящим в заблуждение образом, что может способствовать выводу неправильных объяснений.

Вообще говоря, предположение о том, что упрощенные модели по своей природе интерпретируемы, предполагает некоторую степень знания предметной области со стороны пользователей моделей, т.е. что они обладают достаточным опытом в науке о данных, чтобы разобраться в линейных моделях, деревьях решений, списках правил и т. д. Кроме того, эти «интерпретируемые» модели могут не предоставлять пользователям достаточного контекста для применения их ценностей, целей и принципов для принятия решений. Эти методы действительно дословны в том смысле, что они предоставляют правило, но не дают представления о фактическом механизме алгоритма. Они обеспечивают корреляцию, но не причинно-следственную связь. Тем не менее, они могут помочь профильным экспертам или специалистам по обработке и анализу данных сделать вывод о причинно-следственной связи. Эти методы могут побудить экспертов, обладающих соответствующими базовыми знаниями, более глубоко изучить механизмы, с помощью которых была произведена конкретная классификация, хотя, и не делая эти механизмы явными. Таким образом, технический эксперт, возможно, может использовать свои базовые знания о типе алгоритма, используемого для вывода причинно-следственной связи из этих инструментов. Это может позволить им построить объяснение таким же образом, как присяжный или читатель могут сделать вывод о связной структуре из связного текста. Однако, в конечном счете, именно человек приписывает объяснение выходным данным модели. Описанные выше методы не обеспечивают явного представления причинно-следственных механизмов или взаимодействия с ценностями, целями или предпочтениями пользователей. Скорее, они должны полагаться на базовые знания человека для своей полезности. Таким образом, эти модели предполагают большую часть работы наблюдателя, включая потенциально значимые знания в предметной области относительно значения технических терминов (таких как «гематокрит» в примере с диагнозом пневмонии), способность различать непрерывные и дискретные переменные и т. д. Аналогичным образом, субъекты должны обладать обширными знаниями в предметной области, чтобы быть в состоянии распознать, например, что предыдущий анамнез астмы не должен быть связан с более низким риском пневмонии. Таким образом, модель сама по себе не может быть интерпретирована или объяснена в том смысле, в каком психологи понимают эти термины, но может помочь пользователям, обладающим соответствующими базовыми знаниями и готовностью к исследованию, сделать более значимые и точные выводы.

Поскольку эти модели являются корреляционными по своей природе, они могут быть подвержены ложным ассоциациям. Действительно, в социальных науках уже давно признано, что идентификация значимой структуры в данных (например, из-за корреляции или регрессии) является лишь первым шагом в вменении причинного механизма и при отсутствии контрфакта (например, экспериментальной контрольной группы) не может быть использована для выдвижения каузальных утверждений.

Таким образом, подходы, упрощающие сложные модели путем сведения их к набору монотонных отношений, могут ввести пользователей в заблуждение, заставив их приписывать причинно-следственный механизм в рамках модели там, где его нет. Эта проблема не ограничивается вычислительными системами, а является общей особенностью сложной инженерной системы с множеством взаимодействующих частей. Таким образом, будущая работа в области объяснимого искусственного интеллекта может быть продуктивно сосредоточена на том, как помочь специалистам по обработке и анализу данных и экспертам в предметной области точно вменять причинно-следственные связи, избегая при этом выводов, основанных на ложной корреляции.

В целом, описанные выше подходы направлены на повышение объяснимости, помогая пользователям понять, как изменения в конкретном признаке могут повлиять на выходные данные модели. Несмотря на то, что теоретически они повышают объяснимость, когда специалист по обработке и анализу данных может использовать их для вывода причинно-следственных механизмов о том, как работает алгоритм, эти методы могут быть менее эффективными для установления интерпретируемости, т.е. значения в контексте для конечного пользователя. В то время как разработчикам необходимо знать, как работает система, чтобы они могли выявлять недостатки в ее реализации и исправлять их, представителям общественности или экспертам из других областей, как правило, не хватает глубокой технической подготовки и опыта специалистов по информатике. Например, иммиграционный адвокат может захотеть узнать о юридических последствиях алгоритма рассмотрения визы, а финансовый аналитик может захотеть узнать о финансовых последствиях алгоритма кредитного рейтинга. Часто эти пользователи просто предполагают, что алгоритм был реализован правильно, и что обучающие данные были достаточно репрезентативными. Наконец, соискатели работы/визы/кредита, естественно, захотят знать стандарты, по которым их оценивают, и конкурентоспособны ли они для конкретной должности. Эти пользователи должны знать, почему система сгенерировала свой результат. То есть они стремятся придать смысл выходным данным модели таким образом, чтобы они могли контекстуализировать их в терминах, которые имеют для них значение.

bannerbanner