
Полная версия:
Искусственный общий интеллект: насколько он близок и чем это грозит
потери симметрии контроля;
и наиболее крайних системных рисков.
Если держать эту дисциплину, становится сразу легче:
читать опросы;
понимать литературу о рисках;
различать экономические и цивилизационные сценарии;
и не перепрыгивать через промежуточные стадии.
Рабочая рамка
AGI и ASI нельзя путать, потому что это разные уровни исторического перелома.
AGI уже сам по себе достаточно силен, чтобы:
изменить рынок труда;
ускорить науку и программирование;
усилить государственные и корпоративные структуры;
создать новые риски контроля.
ASI – это уже следующий режим, в котором речь идет о потере сопоставимости человека с системой и о гораздо более глубокой проблеме контроля.
Поэтому разумная позиция выглядит так:
не ждать ASI, чтобы начать серьезную подготовку;
не объявлять ASI там, где пока речь идет только о ранней общей цифровой способности;
и не позволять путанице между терминами разрушать анализ.
Что важно запомнить
AGI и ASI – не одно и то же.
AGI – это человеческий или сопоставимый общий уровень в широком наборе задач.
ASI – это устойчивое сверхчеловеческое превосходство почти по всем значимым измерениям.
AGI уже сам по себе исторически переломен.
Ждать начала серьезного управления только на стадии ASI – плохая стратегия.
Глава 5. Как измерять дистанцию до общего ИИ
Весной 2025 года в публичном поле появились две очень разные, но на удивление совместимые картины прогресса. Первая пришла из мира бенчмарков: Stanford HAI в AI Index 2025 зафиксировал, что на новых сложных тестах вроде MMMU, GPQA и SWE-bench результаты за один год выросли резко, а не постепенно. Вторая пришла из мира агентных оценок: исследователи METR предложили смотреть не на отдельные яркие ответы модели, а на длину задач, которые система способна завершить с заданной надежностью, и получили тревожный вывод: этот горизонт в последние годы рос примерно экспоненциально.
Эти две картины вместе дают полезный урок. Прогресс реален. Но вопрос AGI уже близко или нет в такой форме почти бесполезен. Он слишком грубый. Он сводит сложный процесс к кнопке да/нет, хотя на практике нас интересует совсем другое: какие свойства уже появились, каких все еще нет, и по каким признакам можно понять, что оставшаяся дистанция резко сокращается.
Поэтому в разговоре об AGI нужен не лозунг, а измерительная рамка.
Почему бинарный вопрос почти всегда заводит в тупик
Проблема с формулой это уже AGI или еще нет в том, что она смешивает несколько разных тем:
ширину компетенций;
способность переносить навыки в новые условия;
устойчивость на длинных горизонтах;
работу с инструментами и средой;
надежность, калибровку и управляемость.
Система может выглядеть почти универсальной в одном классе задач и при этом разваливаться в другом. Она может блестяще отвечать на сложные экзаменационные вопросы и при этом проваливать многошаговую реальную работу. Она может впечатлять в программировании и быть слаба в физическом мире. Она может быть сильной в закрытом наборе тестов и хрупкой в незнакомой среде.
Франсуа Шолле еще в 2019 году сформулировал важную претензию к тому, как сообщество ИИ традиционно измеряет интеллект: навык на конкретной задаче не равен общему интеллекту, потому что высокий результат можно частично "купить" за счет данных, подгонки и заранее накопленного опыта. Если выразить эту мысль максимально просто, получится следующее: модель может быть очень сильной, но это еще не значит, что она действительно близка к человеческой способности осваивать новые задачи с ограниченным опытом.
Для разговора об AGI это ключевой пункт. Нас интересует не только то, что модель умеет, но и как она приходит к решению:
в знакомом или новом домене;
с доступом к подсказкам или без них;
в статичном тесте или в интерактивной среде;
за секунды или в рамках многочасовой задачи;
с высокой надежностью или с постоянными срывами.
Поэтому правильный вопрос звучит так: насколько система приближается к общему интеллекту по нескольким измерениям сразу.
Пять измерений, без которых нельзя оценивать близость общий ИИ
Ни один существующий тест не дает полного ответа. Но уже можно собрать рабочую панель приборов.
1. Ширина компетенций
Первое измерение очевидно: если система претендует на общий интеллект, она должна работать не в одной узкой нише, а в широком диапазоне доменов. Отсюда ценность таких тестов, как GPQA, MMMU или Humanity's Last Exam: они пытаются проверить не одну профессию и не один школьный предмет, а широкий спектр знаний и рассуждений.
Но здесь есть важное ограничение. Ширина знаний не равна общей способности действовать. Экзамен на экспертные вопросы измеряет многое, но не все. Даже разработчики Humanity's Last Exam специально оговаривают: высокая точность на HLE сама по себе еще не означает автономную исследовательскую способность или AGI. Это чрезвычайно важная честность. Хороший бенчмарк должен не только демонстрировать силу модели, но и подчеркивать собственные пределы.
Вывод простой: широкий охват предметов нужен, но его недостаточно.
2. Обобщение в новых условиях
Общий интеллект предполагает не только набор навыков, но и перенос: система должна уметь сталкиваться с новой задачей и осваивать ее без полного переобучения под конкретный тест.
Поэтому так важны бенчмарки, которые пытаются быть простыми для людей и трудными для ИИ, а также сопротивляться простому заучиванию. В логике ARC это выражено особенно ясно: важен не просто результат, а эффективность освоения нового. В будущей версии ARC-AGI-3, релиз которой на момент написания книги был объявлен на 25 марта 2026 года, акцент сделан уже не на статичных головоломках, а на интерактивных средах, где агент должен исследовать, планировать, адаптироваться и учиться в процессе.
Это сильный сдвиг в самой философии оценки. Если модель прекрасно решает публичные задачи, но ломается на реально новых средах, мы видим не общий интеллект, а границу его имитации. То же относится и к частной проблеме загрязнения тестов: даже хороший тест со временем становится хуже, если образцы, паттерны и решения успевают попасть в тренировочную экосистему. ARC Prize в декабре 2025 года прямо писал, что бенчмарки приходится эволюционировать вместе с моделями, иначе они перестают указывать на реальную дистанцию до AGI.
Вывод: хороший индикатор AGI должен измерять не только силу ответа, но и перенос на новое.
3. Длина задач и автономный горизонт
Это, вероятно, самый недооцененный параметр.
Большая часть публичного разговора об ИИ до сих пор устроена так, будто достаточно спросить у модели что-то сложное и посмотреть, ответила ли она правильно. Но реальный экономический и политический эффект определяется не этим. Он определяется тем, какие задачи система может довести до конца сама и как долго она сохраняет цель, контекст и качество работы.
Поэтому подход METR сегодня выглядит одним из самых полезных. Вместо вопроса решила ли модель конкретный тест исследователи спрашивают: какой длины задачи, измеряемые в человеческом времени, система может завершать с приемлемой надежностью. Это сильная идея по двум причинам.
Во-первых, она связывает бенчмарк с реальным миром.
Во-вторых, она снимает часть ложного драматизма с отдельных демо.
Если модель умеет впечатляюще действовать 8 минут, а потом системно сыплется на 2-часовых задачах, это не мелкая деталь, а ключевой факт о ее расстоянии до AGI.
METR в марте 2025 года писала, что длина решаемых задач у самых сильных систем росла с удвоением примерно раз в семь месяцев. Но в январском обновлении Time Horizon 1.1 организация также подчеркнула и вторую сторону картины: даже обновленный набор задач уже начинает упираться в потолок, и исследователям нужно поднимать сложность и длительность измерений, чтобы не потерять чувствительность к сильным моделям. Проще говоря, прогресс есть, но сама линейка быстро устаревает. Это типичная проблема эпохи быстрого роста.
Если пытаться свести это к одной формуле, получится так: самый полезный единичный прокси близости к AGI сегодня – не балл, напоминающий IQ, а длина и разнообразие задач, которые система может автономно завершать. Это аналитический вывод из текущего корпуса оценок, а не формальный консенсус отрасли. Но именно он лучше всего связывает возможности с реальным воздействием.
4. Работа в среде: инструменты, интерфейсы, компьютеры
AGI не обязан начинаться с робота-гуманоида. Куда более вероятно, что его ранняя форма будет сначала цифровой: система, способная читать документацию, пользоваться браузером, средами разработки, таблицами, файлами, программными интерфейсами и внутренними инструментами компании.
Отсюда ценность бенчмарков вроде GAIA, SWE-bench и OSWorld.
GAIA с самого начала был задуман как тест для ИИ-ассистентов общего назначения, которым нужны рассуждение, мультимодальность, веб-поиск и работа с инструментами. SWE-bench поставил модели в более жесткую инженерную среду: не просто написать фрагмент кода, а исправить реальную проблему в настоящем репозитории. OSWorld пошел еще дальше и сделал объектом оценки уже не текстовый ответ, а работу в реальной компьютерной среде с веб- и десктопными приложениями.
Это очень важный переход. Когда модель вступает в контакт с интерфейсом, файлами, ограничениями среды и необходимостью поддерживать состояние по шагам, исчезает большая часть магии чат-окна. Становится видно, где находится реальная способность, а где только удачное объяснение после факта.
Но и здесь нужен трезвый взгляд.
SWE-bench полезен как прокси сложной инженерной деятельности, но он все еще измеряет прежде всего один домен – программирование. OSWorld ценен тем, что дает реальную среду, но компьютерное взаимодействие все еще не равно общей интеллектуальной гибкости. Даже GAIA, один из лучших тестов на сочетание рассуждение и работу с инструментами, остается серией задач, а не полноценной проверкой многодневной автономии.
Вывод: способность работать в среде – обязательный компонент приближения к AGI. Но и он не самодостаточен.
5. Надежность, калибровка и эффективность
Последнее измерение часто недооценивают, хотя именно оно отделяет впечатляющий прототип от системы исторического масштаба.
Нас интересует не только средний результат модели, но и:
насколько стабильно она его воспроизводит;
понимает ли границы собственной уверенности;
сколько ресурсов требует для успеха;
не держится ли ее результат на чрезмерно дорогом внешнем "каркасе".
Humanity's Last Exam полезен именно тем, что явно учитывает не только точность, но и калибровку уверенности. Это правильный ход. Если модель системно уверена в ложных ответах, это не косметический недостаток. Это фундаментальное ограничение для применения в науке, безопасности, управлении и длинных агентных циклах.
ARC идет еще дальше и поднимает тему эффективности. В логике ARC недостаточно решить задачу любой ценой; важно, как именно система преобразует новый опыт в рабочую стратегию. Это сближает тестирование систем ИИ не с шоу-бенчмарком, а с реальным вопросом об интеллекте: сколько проб, шагов, подсказок и вычислений нужно, чтобы адаптироваться.
Это особенно важно сейчас, когда лучшие результаты все чаще достигаются не "голой" моделью, а сложной инженерной обвязкой: поиском, циклами уточнения, проверяющими модулями, переранжированием и внешними инструментами. Все это полезно и само по себе представляет реальный путь развития систем. Но с точки зрения измерения близости к AGI возникает вопрос: мы наблюдаем рост общего интеллекта модели или рост качества инженерной обвязки вокруг нее?
Честный ответ обычно звучит так: и то и другое, но в разной пропорции.
Что измеряют существующие бенчмарки, а что нет
Если свести текущее поле к простой карте, получится такая картина.
1. Широкие экзамены
Примеры:
GPQA
MMMU
Humanity's Last Exam
Что они дают:
ширину знаний;
часть сложного рассуждения;
полезный стресс-тест на "неочевидные" вопросы.
Чего они не дают:
длинного горизонта;
устойчивой автономии;
работы в реальной среде;
надежной оценки того, сможет ли система сама довести проект до конца.
2. Бенчмарки общих ассистентов
Пример:
GAIA
Что они дают:
сочетание рассуждения, веб-поиска, мультимодальности и работы с инструментами;
более жизненные задачи, чем стандартный экзамен;
ранний прокси поведения общего ассистента.
Чего они не дают:
полной проверки на многодневную автономию;
хорошего измерения устойчивости под высокой ценой ошибки;
гарантии, что перенос пойдет в организационную или научную работу.
3. Инженерные и кодовые бенчмарки
Пример:
SWE-bench
Что они дают:
хороший стресс-тест для длинного контекста, запуска кода и координации изменений;
ранний индикатор того, где ИИ может быстро приблизиться к экономически значимому уровню.
Чего они не дают:
общего интеллекта как такового;
понимания того, как модель поведет себя вне программной инженерии;
четкого разделения возможностей модели и возможностей обвязки.
4. Бенчмарки работы за компьютером
Пример:
OSWorld
Что они дают:
реальную интерактивную среду;
многошаговую работу с приложениями;
более честную картину ограничений агентных систем.
Чего они не дают:
широкого доказательства переноса между доменами;
оценки долгих автономных проектов на уровне дней и недель;
полного приближения к физическому миру.
5. Бенчмарки новизны и адаптации
Примеры:
ARC-AGI
ARC-AGI-3
Что они дают:
давление на обобщение, а не только на воспроизведение;
попытку измерять эффективность обучения;
более сильный сигнал в сторону "общей" способности, а не накопленного корпуса знаний.
Чего они не дают:
прямой оценки практической полезности в офисе, на производстве или в науке;
достаточной защиты от всех новых форм переобучения навсегда;
полной связи с экономическим воздействием.
6. Метрики автономного горизонта
Пример:
METR горизонта задач
Что они дают:
самую прямую связку между возможностями и реальной работой;
измерение длинных задач;
возможность обсуждать приближение к AGI без псевдофилософии.
Чего они не дают:
единственной универсальной цифры;
полного охвата физических, социальных и организационных сред;
автоматического ответа на вопрос о безопасности или управляемости.
Главный вывод из этой карты прост: AGI нельзя измерить одним тестом. Но уже можно измерять его приближение по набору согласованных индикаторов.
Рабочая панель приборов: по каким признакам дистанция действительно сокращается
Если убрать маркетинг, я бы предложил для этой книги следующую панель наблюдения.
Признак 1. Модели стабильно проходят скрытые и обновляемые тесты на новое обобщение
Не публичные демо. Не одна красивая трасса. А регулярные результаты на задачах, которые:
не протекли в обучающую экосистему;
обновляются;
проверяют перенос, а не воспроизведение.
Признак 2. Горизонт автономной работы сдвигается из минут и часов в дни
Это один из самых сильных сигналов. Если модели начинают надежно закрывать не куски работы, а целые проекты, разговор об AGI резко меняет статус.
Признак 3. Переход между доменами перестает быть болезненным
Система должна быть сильной не только в коде или экзаменах, но и в нескольких принципиально разных средах:
инженерной;
исследовательской;
офисной;
компьютерной;
мультимодальной.
Признак 4. Снижается разрыв между успехом на бенчмарках и надежностью в реальном мире
Сейчас этот разрыв все еще велик. Хорошая система может блистать в режиме бенчмарка и быть слишком хрупкой в операционной реальности. Если этот разрыв начнет системно сокращаться, это будет сильнее любой пресс-конференции.
Признак 5. Улучшается калибровка
Сильная система будущего должна не только решать больше задач, но и лучше понимать, когда она не знает ответа. Это особенно важно для областей с высокой ценой ошибки.
Признак 6. Растет эффективность, а не только валовая мощность
Если каждый новый рывок требует несоразмерно более дорогой инженерной обвязки и вычислительных затрат, это говорит не только о прогрессе, но и о хрупкости траектории. Настоящее приближение к AGI будет видно и по тому, что системы начинают учиться и адаптироваться экономнее.
Признак 7. Прогресс переносится из "верифицируемых" задач в менее формализованные
Сегодня особенно быстрый прогресс виден там, где среда дает модели ясную и быструю обратную связь: тесты, код, формальные задачи, замкнутые среды. Это очень важно, но признаки общего интеллекта начнут ощущаться по-настоящему тогда, когда перенос станет устойчивым и в менее чистых контекстах.
Что не стоит считать сильным доказательством приближения общий ИИ
Такой список не менее важен, чем список сигналов.
Не являются сильным доказательством сами по себе:
лидерство в одном бенчмарке;
блестящее демо от компании;
рост длины контекста;
высокий результат на знаниях без проверки автономии;
успех в программировании без переноса в другие среды;
успех агентной обвязки, если неясно, насколько вклад идет от модели, а насколько от внешней обвязки;
единичные результаты на уровне человека в специально подобранных задачах.
Это не значит, что такие сигналы не важны. Это значит, что они почти всегда переинтерпретируются рынком и медиа.
Практический вывод
Если свести все это к одной аналитической позиции, она будет такой.
AGI нельзя честно объявить по одному порогу. Но дистанцию до него уже можно измерять не на уровне интуиции, а на уровне признаков. Самые важные из них сегодня:
перенос на новые задачи;
длина автономного горизонта;
работа в реальной цифровой среде;
надежность и калибровка;
эффективность адаптации.
Из существующих подходов самый полезный для разговора о реальном воздействии – это метрика длины задач, предложенная METR. Самый полезный для разговора о новизне и эффективности обучения – это линия ARC и, вероятно, ARC-AGI-3, который на момент написания еще не вышел, но уже задает правильное направление. Самые полезные для оценки практической экономической близости – это SWE-bench, GAIA и OSWorld, потому что они связывают возможности с реальной работой, а не только с красивой теоретической задачей.
Но главный вывод другой: ни один из этих тестов не должен получить монополию на определение AGI. В тот момент, когда индустрия или медиа начнут сводить такой вопрос к одному числу, они снова потеряют контакт с реальностью.
Разумнее думать о приближении AGI как о сходимости нескольких кривых сразу. Когда модели одновременно:
проходят новые тесты на обобщение;
держат длинный горизонт;
надежно работают в среде;
сохраняют калибровку;
не разваливаются вне узкой ниши,
тогда разговор о "дистанции" становится уже не риторикой, а инженерным фактом.
Пока мы еще не там. Но мы уже, по-видимому, ближе к точке внятного измерения, чем к точке полного незнания.
Что важно запомнить
AGI нельзя честно измерять одним бенчмарком.
Самый полезный вопрос сегодня: какие задачи какой длины и в каких средах система может завершать надежно.
Широкие экзамены важны, но они не равны автономии.
Работу с инструментами, программирование и работу за компьютером – сильные признаки прогресса, но еще не доказательство общего интеллекта.
Самые сильные сигналы приближения AGI: новое обобщение, длинный горизонт, надежность и эффективность адаптации.
Глава 6. Почему демо и бенчмарки системно переоценивают прогресс
Одна из самых опасных иллюзий в разговоре об AGI рождается не из фантастики, а из хороших цифр.
Модель берет новый бенчмарк.
Компания показывает уверенное демо.
Лидерборд обновляется.
Внешнему наблюдателю кажется, что осталось совсем немного.
Но именно здесь чаще всего и возникает ошибка масштаба. Не потому, что бенчмарк обязательно фальшивый. И не потому, что демо обязательно нечестное. А потому, что и то и другое почти всегда измеряет уже не то, что мы думаем.
Проблема в том, что публичный разговор об ИИ устроен вокруг легко пересылаемых сигналов:
один красивый ролик;
один лидерборд;
одна громкая метрика;
один заголовок вроде человеческий уровень.
AGI, если к нему вообще можно приближаться измеримо, не появится как один такой сигнал. Он будет скорее выглядеть как сходимость нескольких трудноподделываемых признаков. Об этом уже шла речь в предыдущей главе. Но чтобы эти признаки увидеть, сначала нужно понять, почему обычные демо и бенчмарки почти всегда заставляют нас думать, что прогресс ближе к AGI, чем он есть на самом деле.
Проблема не в наличии бенчмарков, а в их жизненном цикле
Хороший бенчмарк не вечен. В момент появления он помогает отличать сильную систему от слабой. Потом он становится частью тренировочной, посттренировочной и маркетинговой экосистемы. После этого он все хуже выполняет исходную функцию.
На март 2026 года это уже не абстрактная теория, а практически официальная позиция многих авторов самих бенчмарков.
На странице Humanity's Last Exam прямо сказано, что передовые модели быстро насыщают прежние ориентиры: такие тесты, как MMLU и GPQA, уже перестают быть сильным сигналом прогресса, потому что лидирующие модели приближаются там к человеческому уровню или превосходят его. Сам HLE был создан именно как ответ на эту проблему: если старые экзамены уже плохо различают лидеров, нужна более трудная и более свежая шкала.
Это очень важный момент. В разговоре об AGI бенчмарк надо понимать не как окончательный арбитр, а как временный инструмент измерения, который неизбежно стареет. Как только отрасль начинает публично соревноваться на одном и том же тесте, сам этот тест начинает терять диагностическую силу.
Отсюда первый принцип:
рост на популярном бенчмарке почти всегда говорит о реальном прогрессе, но слишком часто преувеличивает его масштаб.
Почему так происходит? Обычно работают сразу несколько механизмов.
Механизм первый: загрязнение, утечка и взлом логики бенчмарка
Самый очевидный источник завышения – это утечка тестовых данных в тренировочную или посттренировочную экосистему.
Проблема загрязнения тестов уже давно перестала быть теоретической. В 2024 году авторы VarBench описали ее как одну из центральных проблем оценки современных языковых моделей: как только бенчмарк становится известным, появляется риск, что ответы, паттерны или сама структура задач начнут влиять на модель либо через предобучение, либо через последующую настройку. Их ответ был радикален и логичен: не просто прятать тест, а динамически менять сами задачи, чтобы каждая новая проверка была хоть немного новой.
Похожую проблему по-своему решает MMLU-CF. Авторы этого бенчмарка прямо исходят из того, что классический MMLU слишком уязвим к непреднамеренной и намеренной утечке, поэтому строят защищенный вариант с закрытым тестовым набором и дополнительными правилами очистки от тестовых утечек. Смысл здесь не в том, что старые результаты автоматически "ложные". Смысл в том, что по мере взросления отрасли старые публичные тесты становятся слишком удобной мишенью для прямого и косвенного подгона.
Еще тревожнее выглядит картина в многоязычных бенчмарках. В октябре 2024 года авторы Contamination Report for Multilingual Benchmarks сообщили, что почти все проверенные ими популярные модели показывают признаки загрязнения тестов почти на всех протестированных многоязычных бенчмарках. Даже если оставить за скобками вопрос о точной величине эффекта для каждой конкретной модели, сам общий вывод достаточно жесткий: в среде, где модели учатся на гигантских корпусах из интернета, публичный тест со временем почти неизбежно начинает "просачиваться" в систему оценки.
Поэтому Humanity's Last Exam сразу включил в свою конструкцию дополнительный закрытый набор вопросов, предназначенный специально для измерения переобучения на публичной части. Это уже новая норма: бенчмарк больше не считается серьезным, если у него нет стратегии защиты от собственной популярности.

