
Полная версия:
Искусственный общий интеллект: насколько он близок и чем это грозит
Но здесь важно не сделать обратную ошибку. Закрытый тест – это лучше, чем полностью публичный тест. Но и он не панацея.
Механизм второй: даже скрытый тест можно "обойти" не напрямую, а структурно
В декабре 2025 года ARC Prize опубликовал один из самых полезных текстов для понимания этой проблемы. Их вывод по ARC-AGI-1 и ARC-AGI-2 звучит неприятно, но честно: даже бенчмарк, специально спроектированный как устойчивый к прямому заучиванию, может начать частично переоценивать прогресс, если публичная и скрытая части слишком похожи, а модель обучалась на массиве публичных данных, где хорошо представлены нужные паттерны.
Если свести, переобучение может происходить не только как буквальное запоминание ответа, но и как более тонкая структурная адаптация к формату задач. ARC Prize даже привел пример, где верификационная обвязка показывала, что модель уверенно использует правильное соответствие цветов в формате ARC, хотя сама проверка напрямую не упоминала бенчмарк. Для создателей ARC это стало сильным сигналом: бенчмарк уже настолько "врос" в модельную экосистему, что одной приватности тестового набора недостаточно.
Ответом на это стала не капитуляция, а ужесточение дизайна. Сначала появился ARC Prize Verified с внешней академической панелью и сертификацией результатов на скрытых наборах. Затем команда ушла еще дальше и начала готовить ARC-AGI-3 как интерактивный бенчмарк нового формата, ориентированный уже не просто на статичное решение головоломок, а на исследование, планирование, память, приобретение целей и эффективность обучения.
Это полезный урок: как только бенчмарк становится культурным объектом, его приходится постоянно пересоздавать. Иначе он начинает измерять не "расстояние до AGI", а "расстояние до хорошей инженерии бенчмарка".
Механизм третий: таблица результатов часто измеряет не модель, а систему вокруг модели
Это, возможно, самый недооцененный источник искажения.
Когда широкая аудитория смотрит на таблицу результатов, она обычно думает, что видит прямое сравнение моделей. Но на практике многие современные таблицы результатов сравнивают не "голый интеллект модели", а целые агентные системы, в которых смешаны:
базовая модель;
системный запрос;
извлечение контекста;
цикл планирования;
повторные попытки;
голосование между вариантами;
внешние инструменты;
исполнение кода;
проверяющий модуль;
этап проверки;
вручную настроенная обвязка.
Это не жульничество, а реальный путь развития полезных систем. Проблема в другом: такую таблицу результатов легко перепутать с показателем общей способности самой модели.
SWE-bench Verified честно показывает эту проблему на собственной странице. Там прямо сказано, что полная таблица результатов сравнивает очень разные типы систем: от простых агентных циклов на базе языковых моделей до RAG-систем, решений с несколькими прогонами и многоэтапных конвейеров проверки. Поэтому авторы отдельно держат режим Bash Only, где модели оцениваются через минимального программного агента для SWE-bench и простую ReAct-петлю без специальных инструментов и сложной архитектуры обвязки.
Это очень важная интеллектуальная честность. Она фактически говорит читателю: если вы хотите сравнить именно языковые модели, а не все инженерное сооружение вокруг них, вам нужен другой режим оценки.
Тот же урок следует из o1 System Card OpenAI. При тестировании на SWE-bench Verified компания прямо пишет, что сама модель o1 не поддерживает исполнение кода и редактирование файлов, поэтому для оценки использовалась внешняя обвязка с открытым кодом Agentless. Это абсолютно нормальное инженерное решение. Но его аналитическое значение такое: результат на бенчмарке здесь уже не является "чистым" результатом модели. Это результат модели плюс выбранной обвязки плюс процедуры оценки.
ARC Prize формулирует ту же проблему с другой стороны. В декабрьском анализе 2025 года они показывают, что лучший верифицированный коммерческий результат модели переднего края на ARC-AGI-2 был 37.6%, тогда как лучший refinement solution, построенный поверх Gemini 3 Pro, доходил до 54%, но уже при гораздо большей стоимости на задачу. Это почти идеальный пример того, почему таблицу результатов надо читать осторожно: она может демонстрировать реальный прогресс, но одновременно скрывать вопрос, какая часть прироста пришла из модели, а какая – из дорогой и умной обвязки вокруг нее.
Для разговора об AGI это критично. Если прогресс обеспечивается в основном все более сложной внешней оркестрацией, это не обязательно приближает нас к общему интеллекту так быстро, как кажется по красивой цифре.
Демо системно завышают впечатление по другой причине: они показывают выбранную траекторию
С бенчмарками все относительно понятно: там хотя бы есть формализованная процедура. С демо ситуация сложнее.
Хорошее демо почти по определению показывает удачную траекторию. Это не значит, что его авторы обязательно что-то скрывают. Просто демо – жанр, в котором нельзя показать все пространство состояний. Если система способна пройти задачу в одной из десяти траекторий, на сцене вы увидите именно эту одну.
Отсюда возникает повторяющаяся ошибка интерпретации. Зритель видит:
браузер, которым пользуется модель;
код, который она пишет;
форму, которую она заполняет;
график, который она строит;
окно терминала, где она "как будто работает".
И делает естественный, но часто неверный вывод: раз система может сделать это один раз, значит, она умеет это делать как устойчивую практику.
Реальная проверка начинается там, где демо заканчивается:
что происходит на сотой задаче;
как система ведет себя при неожиданном состоянии интерфейса;
сколько нужно повторных попыток;
сколько ручных ограничений вшито в обвязку;
как быстро она теряет цель;
как часто она уверенно ошибается.
Официальные документы компаний сами по себе часто намного осторожнее публичных впечатлений. OpenAI в документации по работе за компьютером прямо советует сравнивать не красивые примеры, а реальные метрики продукта: время завершения, поведение при неожиданном состоянии интерфейса, способность оставаться в рамках правил и необходимость держать человека в контуре для высокоставочных действий. Там же компания прямо рекомендует изолированную среду и человека в контуре для чувствительных действий. Это язык не победного пресс-релиза, а инженерной осторожности. И его надо читать буквально: даже когда демонстрация выглядит впечатляюще, система может оставаться недостаточно надежной для самостоятельной работы без надзора.
Здесь полезно держать в голове простое правило:
демонстрация показывает существование способности; бенчмарк пытается измерить ее частоту; реальный мир выясняет ее надежность.
И почти всегда эти три вещи сильно различаются.
Реальная среда ломает иллюзию быстрее всего
Поэтому так важны бенчмарки вроде OSWorld.
Его авторы начали с очень простой претензии к существующим оценкам: многие из них либо вообще не дают интерактивной среды, либо ограничены слишком узким типом приложений и поэтому плохо отражают настоящую сложность компьютерного использования. В ответ они собрали масштабируемую реальную среду с задачами на Ubuntu, Windows и macOS, с веб-приложениями, файловыми операциями и многошаговыми рабочими процессами между разными приложениями.
Главный результат из абстракта OSWorld должен отрезвлять любого, кто делает выводы по отдельным демонстрациям: люди выполняют больше 72% задач, а лучшая модель – только 12.24%. Это не значит, что модели для работы за компьютером слабы в абсолютном смысле. Это значит, что как только мы переносим их из красивой демонстрации в широкую, грязную, разнообразную среду, реальная способность оказывается намного уже, чем кажется по роликам.
И это, пожалуй, главный структурный вывод всей главы: чем ближе бенчмарк к реальному миру, тем обычно ниже и честнее оказываются результаты.
Это касается не только агентов пользовательского интерфейса. Похожая логика работает и в научных, и в кибер-, и в инженерных задачах. Даже OpenAI в o1 System Card специально оговаривает, что хорошее прохождение коротких интервью по машинному обучению не равнозначно реальному машинному исследованию длительностью в месяцы и годы. Такая оговорка кажется очевидной, но именно ее почти всегда игнорируют в медиа. Переход от короткой формализованной задачи к длинной неформализованной работе – это не прибавка на десять процентов. Это другой режим сложности.
Еще одно искажение: бенчмарк может скрывать не только слабость, но и опасную уверенность
Есть и более тонкая проблема. Даже если бенчмарк не протек, не насыщен и измеряет что-то полезное, он все равно может скрывать, как именно система ошибается.
Humanity's Last Exam поэтому важен не только как сложный экзамен, но и как бенчмарк, который делает видимой калибровку. На странице лидерборда прямо подчеркивается: одних точных ответов мало, нужно смотреть и на ошибку калибровки. Авторы отмечают систематическую картину: многие модели показывают низкую точность в сочетании с высокой уверенностью, то есть склонны к уверенной конфабуляции. В полной статье об HLE та же мысль сформулирована еще яснее: передовые языковые модели демонстрируют низкую точность и низкую калибровку на задачах у границы человеческого знания.
Это имеет прямое отношение к AGI. Общий интеллект, если он действительно приближается, нельзя оценивать только по среднему баллу. Не менее важно понимать:
знает ли система, когда она не знает;
умеет ли она останавливаться;
различает ли уверенность и догадку.
Бенчмарк, который показывает только "процент решенных задач", но ничего не говорит о профиле ошибок, слишком легко превращается в инструмент самообмана.
Почему это особенно важно именно сейчас
Во времена более слабых моделей проблема была проще: почти все видели, что системы ограничены. Сегодня ограничения хуже заметны именно потому, что лучшие модели уже умеют слишком много.
Они:
пишут код;
решают сложные экзамены;
пользуются инструментами;
работают с длинным контекстом;
иногда выглядят почти автономно.
Из-за этого даже небольшое переоценивание на бенчмарке начинает иметь большой риторический эффект. Достаточно еще одного лидерства, еще одной демонстрации, еще одного слова человеческий уровень, чтобы публичное воображение сделало скачок от "сильная модель" к "почти AGI".
Но именно в такой момент и нужна дисциплина чтения результатов.
Если бенчмарк:
публичный и давно известный,
не защищен от утечки тестовых данных,
легко хакнуть через обвязка,
оценивает короткие задачи,
не измеряет калибровку,
плохо переносится в реальный мир,
то высокий результат на нем может быть важным инженерным фактом, но он не должен считаться сильным доказательством близости AGI.
Как читать новое демо или таблицу результатов, чтобы не обмануться
Для этой книги я бы предложил очень простую проверочную сетку. Каждый раз, когда появляется новый громкий результат, надо задать семь вопросов.
1. Что именно измеряется?
Знание? Рассуждение? Работа с инструментами? Длина задач? Работа в среде? Калибровка?
Если ответа нет, бенчмарк почти наверняка переинтерпретируют.
2. Насколько свеж тест?
Если это старый популярный бенчмарк, его надо читать с заведомой скидкой на saturation.
3. Есть ли риск загрязнения?
Публичен ли датасет? Есть ли скрытый тест? Есть ли признаки того, что авторы очистили тест от утечек?
Если нет, результат нужно считать менее надежным.
4. Что в этом результате принадлежит модели, а что обвязке?
Это один из самых важных вопросов в эпоху агентных систем.
Если лидерборд сравнивает целые pipelines, он уже не является чистым сравнением моделей.
5. Насколько задача похожа на реальную среду?
Экзаменационная задача, IDE, браузер, офисный рабочий процесс, физический мир – это разные уровни приближения к реальности.
6. Что происходит на длинном горизонте?
Минуты, часы, дни и недели – это разные миры.
Почти все системные преувеличения рождаются именно на переходе между ними.
7. Что известно о профиле ошибок?
Система просто иногда ошибается или системно уверена в ложных ответах?
Для областей с высокой ценой ошибки это принципиально разный режим.
Итог главы
Демонстрации и бенчмарки нужны. Без них разговор об AGI быстро распадается на чистую философию и маркетинг. Но почти каждый бенчмарк и почти каждая демонстрация имеют встроенное смещение в сторону переоценки близости. Причины повторяются:
тесты насыщаются;
данные протекают;
скрытые наборы устаревают;
лидерборды начинают сравнивать обвязки, а не модели;
демонстрации показывают лучшие траектории;
реальная среда оказывается сложнее лаборатории;
точность маскирует плохую калибровку.
Поэтому главный принцип этой главы можно сформулировать жестко:
чем легче результат переслать в соцсети, тем осторожнее его надо читать как сигнал приближения к AGI.
Сильным сигналом является не один рекорд. Сильным сигналом является ситуация, когда:
новый бенчмарк остается трудным после публичности;
результаты подтверждаются на скрытых и обновляемых тестах;
прогресс сохраняется в реальной среде;
длинный горизонт не ломает систему;
высокая точность сопровождается хорошей калибровкой;
прирост не сводится к новой дорогой обвязкирхитектуре.
Пока этого нет, бенчмарк-ы лучше понимать не как "доказательство почти AGI", а как карту локальных прорывов и локальных иллюзий. Они очень полезны. Но только если читать их с инженерной подозрительностью.
Что важно запомнить
Хороший бенчмарк со временем стареет и теряет диагностическую силу.
Публичная таблица результатов часто измеряет не только модель, но и всю агентную систему вокруг нее.
Скрытый тестовый набор помогает, но не гарантирует защиту от структурного переобучения.
Демонстрация почти всегда показывает удачную траекторию, а не типичную надежность.
Чем ближе оценка к реальной среде, тем обычно честнее и ниже результат.
Точность без калибровки легко создает иллюзию прогресса.
Для оценки близости AGI важны не отдельные рекорды, а сходимость устойчивых сигналов на разных типах тестов.
Глава 7. История ложных рассветов: почему прошлые прогнозы так часто ошибались
У каждой технологической эпохи есть любимая иллюзия: мысль, что именно сейчас история наконец-то перестала ошибаться. В ИИ эта иллюзия особенно сильна. Новый скачок выглядит настолько убедительно, что возникает почти непреодолимый соблазн сказать: на этот раз все по-настоящему, а раньше были лишь черновики.
История искусственного интеллекта действует отрезвляюще. Она не говорит, что прогресс в ИИ всегда был мнимым. Она говорит нечто более неприятное: поле снова и снова принимало частичный успех за приближение общего решения.
Этот цикл повторялся достаточно много раз, чтобы относиться к нему не как к случайности, а как к структурной особенности самой темы:
ранний успех;
слишком широкие обещания;
инвестиционный и институциональный оптимизм;
столкновение с реальной сложностью мира;
охлаждение ожиданий.
История ИИ наказывает за две симметричные ошибки. Первая ошибка – объявить победу слишком рано. Вторая – решить после очередного разочарования, что и нынешний прогресс тоже наверняка мираж. Хорошая историческая память нужна как раз затем, чтобы не впадать ни в одну из этих крайностей.
Почему ИИ так склонен к ложным рассветам
Мелани Митчелл в работе Why AI is Harder Than We Think описывает повторяющийся паттерн: ИИ вновь и вновь переживает периоды оптимистических прогнозов и больших инвестиций, за которыми следуют разочарование и сокращение доверия, потому что развитие человекоподобного интеллекта оказывается намного труднее, чем первоначально кажется.
Это сильная формулировка, потому что она объясняет не только историю отдельных школ, но и более общую психологию поля. ИИ особенно подвержен ложным рассветам по одной глубокой причине: интеллект выглядит ближе, чем он есть на самом деле, всякий раз, когда машина уверенно осваивает один яркий слой задачи.
Обычно картина разворачивается так. Система показывает впечатляющий результат в одном узком, но наглядном классе задач. Наблюдатели делают следующий, почти автоматический шаг: если одна важная часть интеллекта уже взята, значит и остальное где-то рядом. Потом оказывается, что за локальным успехом скрывается другой, куда более трудный этаж требований: перенос, здравый смысл, устойчивость, работа в шумных и плохо формализованных средах, память, причинное понимание, длинный горизонт действий.
Так возникает ложный рассвет. Не потому, что результата не было. А потому, что результат слишком быстро превращают в рассказ о близости общего интеллекта.
Первый большой урок: ранний оптимизм 1950–1960-х
У истоков ИИ стояла не только сильная научная интуиция, но и поразительная уверенность в скорости прогресса. Само рождение области создавало почти электрическое ощущение, что главное уже понято, а дальше вопрос лишь в инженерной доводке.
В этом оптимизме было много рационального. Первые программы действительно выглядели почти чудом: машина рассуждает, ищет решение, играет, доказывает. Для своего времени это был не трюк и не пустая демонстрация. Это был реальный научный прорыв.
Проблема начиналась в момент экстраполяции.
Ранние успехи возникали в очень специальных условиях:
в маленьких игрушечных мирах;
в формальных задачах;
в ограниченных пространствах поиска;
при сильно упрощенных представлениях о восприятии, языке и реальном мышлении.
Иначе говоря, поле рано увидело, что некоторые фрагменты интеллекта можно формализовать. Но оно слишком быстро решило, что вслед за этим почти автоматически поддастся и весь остальной интеллект. Это был первый большой самообман эпохи ИИ: спутать доказательство принципа с доказательством близости цели.
Лайтхилл и первый холодный душ
Один из самых известных переломов пришелся на 1973 год. Отчет Джеймса Лайтхилла Artificial Intelligence: A General Survey, подготовленный для британского Science Research Council, подверг область ИИ резкой критике и стал важным фактором сокращения поддержки ряда направлений исследований ИИ в Великобритании.
В ретроспективе Лайтхилл иногда выглядит просто как человек, который "не поверил в будущее". Это слишком удобная трактовка. Историк Джон Агар показывает, что отчет был не только актом скепсиса, но и требованием более жесткой связи между обещаниями ИИ и реально продемонстрированными результатами.
В этом эпизоде и заключена его долговечная ценность.
Лайтхилл ошибался в одном важном отношении: ИИ как направление не оказался тупиком. Но он попадал в другую, не менее важную точку: часть амбиций поля тогда действительно заметно опережала его фактическую состоятельность. Он критиковал не возможность машинного интеллекта как таковую, а разрыв между громкостью обещаний и реальной шириной достигнутых способностей.
Этот эпизод стоит помнить и сегодня. Скептик вполне может ошибаться в длинном горизонте и при этом быть прав в критике текущего завышения ожиданий. История ИИ редко делится на ясных героев и ясных ретроградов. Чаще она состоит из людей, которые по-разному ошибаются в масштабе и темпе.
Экспертные системы: второй цикл
Следующая большая волна пришлась на экспертные системы. На какой-то момент показалось, что если знания специалистов можно достаточно точно формализовать, то значительная часть сложной умственной работы окажется автоматизируемой.
И снова в основе волны лежал настоящий успех. Экспертные системы действительно решали полезные задачи:
в диагностике;
в конфигурации;
в промышленных системах на правилах;
в прикладных корпоративных внедрениях.
Но затем проявилось то, что станет знакомым для всей истории ИИ. Выяснилось, что хрупкие системы на правилах плохо переносят реальный мир. Знания тяжело извлекать, базы правил трудно поддерживать, исключения быстро разрастаются, перенос между доменами оказывается слабым, а цена сопровождения начинает съедать первоначальный энтузиазм.
Это снова был не обман и не пустышка. Это был рабочий класс систем, который слишком рано прочитали как путь к более общему интеллекту. История экспертных систем особенно полезна именно потому, что показывает: ложный рассвет может вырастать из настоящего, а не из фиктивного успеха.
Почему этот цикл повторяется так часто
У этой повторяемости есть как минимум четыре глубокие причины.
1. Интеллект фрактален
Как только машина начинает делать нечто, что раньше считалось признаком ума, вскоре выясняется, что это только один слой более глубокой задачи.
Выигрыш в шахматы не дал общего интеллекта. Экспертные правила не дали общего интеллекта. Компьютерное зрение не дало общего интеллекта. Генерация связного текста сама по себе тоже не решает вопрос. Каждый раз часть задачи поддается раньше целого, а наблюдателю это временно кажется почти завершением всей картины.
2. Узкий бенчмарк почти всегда выглядит шире, чем он есть
Победа в одном ярком домене выглядит как доказательство принципа. На деле она часто доказывает лишь то, что в данном домене нашелся сильный локальный метод. Узкий бенчмарк почти соблазняет нас к неправильному выводу: раз машина уверенно делает это, значит она уже знает, как делать и многое другое. История ИИ показывает, что этот переход часто оказывается ложным.
3. Рынок любит линейную экстраполяцию
Если модель быстро улучшалась три года подряд, рынок, медиа и часть исследовательского сообщества почти автоматически продолжают эту кривую мысленно дальше. Но технологические траектории редко остаются линейными на длинном горизонте. Сложность растет неровно. Иногда прогресс ускоряется, иногда упирается в скрытый барьер. Ложный рассвет начинается в тот момент, когда краткая серия побед выдается за устойчивый закон истории.
4. Люди систематически недооценивают остаточную сложность
Когда система уже сделала 60 процентов того, что еще недавно казалось невозможным, оставшиеся 40 процентов почти неизбежно начинают восприниматься как косметическая доводка. На деле они нередко и есть основная гора. Перенос, устойчивость, надежность, причинное понимание и длинный горизонт поведения часто оказываются не хвостом задачи, а ее самым дорогим ядром.
Вот почему ложные рассветы в ИИ выглядят такими убедительными. Они рождаются не из полного отсутствия прогресса, а из хронической ошибки масштаба.
Значит ли это, что нынешняя волна тоже иллюзия?
Нет. История ложных рассветов нужна не для ленивого цинизма.
Она не доказывает, что текущая волна закончится так же, как предыдущие. Она доказывает другое: сообщество ИИ и общество в целом систематически ошибаются в скорости и глубине экстраполяции. Это важная разница.
У нынешней волны есть черты, которых не было в прежних циклах или не было в таком масштабе.
1. Масштаб вычисления и данных
Многие прошлые волны остывали еще до того, как область получала по-настоящему промышленный уровень инфраструктуры. Сейчас за передового ИИ стоит гигантский вычислительный слой, крупные дата-центры, развитая цепочка чипов и массивы данных, которые по историческим меркам выглядят беспрецедентно.
2. Массовое внедрение
Ранние волны ИИ были важны, но часто оставались относительно узкими. Сегодня передовой ИИ уже встроен в пользовательские приложения, среды разработки, бизнес-процессы и автоматизацию интеллектуальной работы. Это значит, что нынешнюю волну сложнее "отключить" простым изменением настроения инвесторов или чиновников.
3. Широта возможностей
Раньше отдельная волна часто держалась на одной сильной парадигме. Нынешняя опирается сразу на несколько взаимно усиливающих линий:
языковое моделирование;
рассуждение;
мультимодальность;
работа с инструментами;
агенты;
диффузия моделей с открытыми весами.
Это еще не делает AGI неизбежным. Но делает траекторию движения гораздо плотнее и устойчивее.
4. Многополярность переднего края

