Читать книгу Отладка и оценка. Как измерять качество ответов ИИ (Сергей Юрьевич Чувашов) онлайн бесплатно на Bookz
bannerbanner
Отладка и оценка. Как измерять качество ответов ИИ
Отладка и оценка. Как измерять качество ответов ИИ
Оценить:

5

Полная версия:

Отладка и оценка. Как измерять качество ответов ИИ

Сергей Чувашов

Отладка и оценка. Как измерять качество ответов ИИ

– Так, группа, приветствую вас на новом занятии! Вижу в ваших глазах огонь после прошлого урока. Вы уже попробовали пообщаться с ИИ, да? Набросали первые промты, получили кучу текста и… возможно, немного растерялись.


Сразу скажу: это абсолютно нормально. Первый диалог с нейросетью часто напоминает разговор с очень эрудированным, но немного рассеянным профессором. Он может выдать гениальную мысль, а в следующую секунду – уйти в такие дебри, что хоть святых выноси.


Мой студент Ваня на прошлой неделе поделился: «Я попросил нейросеть написать мне план маркетинговой стратегии для нового кофе. Она выдала мне трёхстраничный текст, начинающийся с истории кофе в Эфиопии XV века. Это круто, но моего босса история Буркина-Фасо не интересует».


Вот именно с этой проблемы мы и начнём. Ваш главный инструмент как промт-инженера – это не умение писать запросы, а умение оценивать ответы и исправлять ошибки. Сегодня мы будем учиться быть не пользователями, а тестировщиками, редакторами и наставниками для искусственного интеллекта.


Глава 1. «На вкус и цвет» – вводим систему координат.


Первый инстинкт – оценить ответ по принципу «нравится / не нравится». Это тупиковый путь. Нам нужны объективные, измеримые критерии. Запомните эту «великую пятёрку»:


Релевантность. Самый базовый критерий. Ответил ли ИИ именно на ваш вопрос? Не ушёл ли он в сторону?


Пример: Вы спрашиваете: «Какие существуют модели электромобилей с запасом хода от 500 км?». Релевантный ответ перечислит модели и их характеристики. Нерелевантный – начнет с истории создания первого электромобиля или расскажет о принципах работы литий-ионных батарей.

Точность (Фактическая правильность). А правда ли то, что он написал? Здесь ИИ хромает чаще всего. Он может генерировать «галлюцинации» – убедительно звучащую, но абсолютно выдуманную информацию.


Пример: «Александр Пушкин и Михаил Лермонтов были близкими друзьями и часто встречались в литературных салонах Санкт-Петербурга». Звучит правдоподобно? Еще как! Но Лермонтову было 15 лет, когда Пушкина убили. Никаких регулярных встреч быть не могло. Ваша задача – как у детектива, перепроверять сомнительные факты.

Полнота и Глубина. Ответил ли ИИ на вопрос исчерпывающе? Затронул ли все аспекты, которые вы подразумевали?


Пример: Запрос «Напиши пост для блога про здоровый сон».

Поверхностный ответ: «Спите 8 часов, проветривайте комнату, не пользуйтесь телефоном перед сном. Хорошего сна!»

Глубокий ответ: расскажет о фазах сна (REM и NREM), влиянии синего света на выработку мелатонина, важности циркадных ритмов, приведёт примеры «вечерних ритуалов» и упомянет несколько научных исследований.

Креативность и Стиль. Соответствует ли ответ заданному тону и формату? Был ли он шаблонным или, наоборот, оригинальным?


Пример: Запрос «Придумай слоган для новой линии эко-косметики».

Шаблонный ответ: «Натуральная красота для вас!» или «Заботьтесь о себе и о природе».

Креативный ответ (при правильном промте): «Твоя кожа – это лес. Подари ей росянку утра и тишину ночи». или «Косметика, которая дышит. Вместе с планетой».

Безопасность и Этика. Не содержит ли ответ вредоносных, предвзятых, дискриминационных или опасных советов? Это критически важно.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Вы ознакомились с фрагментом книги.

Для бесплатного чтения открыта только часть текста.

Приобретайте полный текст книги у нашего партнера:


Полная версия книги

Всего 10 форматов

bannerbanner