
Полная версия:
Грамматика тишины
Причина первая: артефакт обучения. Нейросеть могла усилить реальные, но тривиальные корреляции между константами до нетривиального уровня. Это объяснило бы всё – и при этом не потребовало бы пересмотра физики. Волков открыл спецификацию обучающего набора.
Причина вторая: систематическая ошибка в данных. Спектры квазаров, на которых обучалась ROSETTA, были получены разными телескопами в разные годы. Межинструментальная калибровка – вечная головная боль радиоастрономии. Сдвиг нуля, разное покрытие uv-плоскости, разные модели атмосферной коррекции – каждый из этих факторов мог внести ложную корреляцию.
Причина третья. Волков остановился. Причина третья не приходила. Он знал, какой она должна быть – «человеческий фактор: предвзятость исследователя» – но это было нечестно, потому что ROSETTA не была человеком. Она не хотела найти. Она не боялась не найти. У неё не было трёх секунд уверенности, за которыми следовали тридцать три года сомнений. Она считала – и выдавала результат. Предвзятость могла быть заложена в архитектуру, в обучающие данные, в постановку задачи, – но не в сам акт вычисления. Машина не видит лица в облаках. Она видит то, на что её натренировали.
На что Вера натренировала ROSETTA?
Искать структуру в шуме. Не конкретную структуру – любую. Максимально агностический подход, минимум допущений. Если ROSETTA нашла контекстно-свободную грамматику, значит, либо грамматика присутствует в данных, либо архитектура сети порождает артефакт, имитирующий грамматику. Третьего варианта нет.
Волков смотрел на экран и не находил третью причину. Две были. Третья – нет. Его собственное правило требовало три. Две недостаточно. С двумя – ты ещё не уверен, что это не сигнал.
Он закрыл файл. Встал. Снова сел. Потянулся к телефону – набрать Веру, сказать: «Что вы нашли?» Остановился. Положил телефон.
Если он позвонит сейчас – если напишет, – это будет означать, что он принял результат всерьёз. А он не мог этого позволить. Не себе – результату. Результат должен пройти проверку, прежде чем к нему можно отнестись серьёзно. Это не трусость. Это – он искал слово и нашёл единственное честное – это гигиена.
Волков развернулся к монитору. Открыл конфигурацию ROSETTA. Начал читать, строчку за строчкой, с самого начала.
За окном пустыня не менялась. Она и не должна была – ей четыре с половиной миллиарда лет, и за это время она видела всё, кроме ответа. Кондиционер гудел на до-диез. Где-то на пяти тысячах метрах над уровнем моря Вера Ланг, вероятно, спала, впервые за двое суток, и ей, вероятно, ничего не снилось – или снилось что-то такое, чего нельзя услышать.
А Волков читал код и искал ошибку, которая спасла бы его от открытия.

Глава 3. Лексема
Вера не спала семьдесят один час.
Она знала точную цифру, потому что вела лог – не из дисциплины, а из привычки: фиксировать параметры среды, в которой получен результат, чтобы потом, при анализе, отделить находку от шума. Шум в данном случае включал: недосыпание (71 час), гипоксию (высота 4900 м, SpO₂ колеблется между 84 и 89%), обезвоживание (менее литра воды за последние сутки, она забывала пить), гипогликемию (последний приём пищи – энергетический батончик, четырнадцать часов назад, обёртка лежала на краю стола, как маленький блестящий труп). Каждый из этих факторов мог влиять на когнитивные функции. Каждый мог быть причиной того, что она видела в данных нечто, чего там не было.
Но данные не менялись. Она проверяла – и они не менялись.
Первые двадцать четыре часа после обнаружения аномалии Вера потратила на то, что должен делать любой учёный, столкнувшийся с невероятным результатом: она пыталась его уничтожить. Систематически, методично, без жалости. Она перезапускала ROSETTA на подмножествах данных – убирала квазары, оставляла реликтовое излучение; убирала реликтовое излучение, оставляла измерения констант из CODATA; оставляла только барионные акустические осцилляции. Паттерн исчезал в каждом отдельном подмножестве. Он появлялся только в комбинации. Это могло означать, что структура была межмасштабной – существовала не в отдельных наборах данных, а в отношениях между ними. Или что нейросеть использовала перекрёстные корреляции между наборами для создания артефакта. Оба объяснения были валидны. Оба были несовместимы друг с другом.
Вера провела серию тестов с инъекцией шума – добавляла к реальным данным случайный гауссовский шум возрастающей амплитуды и смотрела, при каком уровне паттерн разрушается. Если паттерн был артефактом обучения – он должен быть устойчив к шуму, потому что порождён не данными, а архитектурой сети. Если паттерн был реальным – он должен деградировать с ростом шума, потому что шум размывает реальную структуру. Паттерн деградировал. Плавно, предсказуемо, с кривой, характерной для реального сигнала: уровень значимости падал линейно с логарифмом отношения сигнал/шум. При SNR < 3 – исчезал полностью. Именно так ведёт себя реальная структура. Артефакт вёл бы себя иначе.
Это не было доказательством. Это было свидетельством. В науке, как в суде, между ними – пропасть.
Вторые двадцать четыре часа Вера провела, анализируя саму структуру. На первом экране – граф: узлы и связи, фрактальное самоподобие, четыре уровня рекурсии. На втором – таблица с математическим описанием: каждая связь между узлами была функцией, и Вера, выписывая эти функции одну за другой, обнаружила нечто, что заставило её отложить ручку и минуту сидеть неподвижно, глядя в стену.
Функции были не произвольными. Они подчинялись правилам.
Правило первое: каждая функция имела ровно два аргумента. Один – «порождающий», определяющий структуру связи. Другой – «модифицирующий», определяющий параметры. В лингвистике это называлось бы «голова» и «зависимый» – как в словосочетании «красный дом», где «дом» – голова, определяющая категорию, а «красный» – зависимый, определяющий свойство.
Правило второе: функции вкладывались друг в друга рекурсивно, и глубина вложенности определяла масштаб – от космологического (соотношение гравитационной постоянной и постоянной Хаббла) до субатомного (постоянная тонкой структуры и масса электрона). Рекурсия не была бесконечной: на четвёртом уровне данные обрывались – не потому что структура заканчивалась, а потому что точность измерений была недостаточной для более глубокого анализа.
Правило третье – и это было то, от чего Вера минуту смотрела в стену, – функции подчинялись иерархии, в которой каждый уровень генерировался из предыдущего по единообразному набору правил. Это означало: структура не просто самоподобна. Она порождена грамматикой.
Не метафорически. Формально. По определению: контекстно-свободная грамматика – это конечный набор правил подстановки, порождающий (потенциально бесконечное) множество структур. Именно это Вера видела в данных. Набор правил: конечный. Множество порождённых структур: ограниченное точностью измерений, но потенциально расширяемое. Грамматика – тип 2 по иерархии Хомского: более сложная, чем регулярная (тип 3), менее сложная, чем контекстно-зависимая (тип 1). Человеческие языки в основном контекстно-свободны, с вкраплениями контекстной зависимости. Грамматика констант – строго контекстно-свободна.
Вера записала правила подстановки. Их было одиннадцать. Одиннадцать правил, из которых выводились все обнаруженные соотношения между фундаментальными константами. Она пронумеровала их, не давая имён – имена были бы интерпретацией, а интерпретация была тем, чего она сейчас не могла себе позволить. Только формализм. Только математика.
Потом она взяла чистый лист и попробовала применить правила к тем соотношениям, которые ROSETTA не анализировала – к тем, что не входили в обучающий набор. Соотношение между массой протона и массой электрона: 1836.15267343. Соотношение между постоянной тонкой структуры и постоянной слабого взаимодействия. Если грамматика реальна, она должна предсказывать эти соотношения. Если она артефакт – предсказания будут случайными.
Вера подставляла числа. Ручка скрипела по бумаге – звук, которого она не слышала, но ощущала через вибрацию пальцев, передававшуюся от кончика стержня через пластиковый корпус к фалангам: ритмичная, тонкая, одна из тысячи вибраций, которыми был наполнен её мир – мир, который слышащие люди считали тихим, не понимая, что тишина – это не отсутствие информации, а её перераспределение по другим каналам.
Первое предсказание. Соотношение масс протона и электрона. Грамматика давала: 1836.153. Экспериментальное значение CODATA: 1836.15267343 ± 0.00000011. Совпадение до шестого знака. Расхождение начиналось на седьмом – и могло объясняться как ошибкой грамматической экстраполяции, так и экспериментальной погрешностью.
Второе предсказание. Соотношение констант электромагнитного и слабого взаимодействий. Грамматика давала число, которое Вера не могла проверить немедленно – для этого требовались данные о параметрах бозона Хиггса с точностью, доступной только ЦЕРНу. Она записала предсказание и обвела его двойной рамкой. Проверка будет позже.
Третье предсказание. Космологическая постоянная – самая скандальная из констант, числовое значение которой отличается от теоретического предсказания квантовой теории поля на сто двадцать порядков, что делает его либо самым грандиозным провалом в истории теоретической физики, либо указанием на нечто фундаментально непонятое. Грамматика давала значение, совпадающее с наблюдаемым. Не с теоретическим – с наблюдаемым. Как будто грамматика «знала» ответ, которого не знала физика.
Вера положила ручку. Руки не дрожали – она была слишком уставшей для дрожи, – но внутри, в том пространстве, которое она не называла душой (слово было слишком расплывчатым) и не называла разумом (слишком узким), – внутри что-то перестраивалось. Как перестраивается комната, когда передвигаешь мебель: те же предметы, тот же метраж, но пространство другое.
Она должна была позвонить Цзин.
Вера взглянула на часы: в Ванкувере было два часа ночи. Цзин предупреждала, что засыпает рано и просыпается рано, что её циркадный ритм был сдвинут в сторону жаворонка настолько радикально, что она ложилась в девять вечера и вставала в четыре утра, – привычка, оставшаяся с аспирантуры, когда вычислительные кластеры были свободны только в предрассветные часы. Два ночи – слишком поздно для жаворонка. Вера написала сообщение: «Нужно поговорить. Срочно. Не о личном». Добавила: «Когда проснёшься». Потом стёрла «когда проснёшься» и отправила без этого, потому что Цзин, как и она сама, из тех людей, которые просыпаются от уведомлений.
Ответ пришёл через одиннадцать минут. Не текст – запрос на видеозвонок. Вера приняла.
Лицо Цзин появилось на экране: тёмные волосы собраны в неряшливый пучок, без очков (она носила линзы днём и очки ночью, объясняя это тем, что линзы – для мира, а очки – для кода), на заднем плане – стена с тремя мониторами, каждый из которых светился терминальным зелёным на чёрном. Она не выглядела сонной. Она выглядела так, словно ждала этого звонка – не конкретно этого, а любого, который объяснил бы ей, почему последние три дня тестовый экземпляр ROSETTA на её домашнем сервере вёл себя странно.
Вера печатала в чат видеозвонка – так было быстрее и точнее, чем жестовый язык, который Цзин понимала лишь на базовом уровне.
«Ты видела логи основного инстанса?»
Цзин прочитала и ответила вслух. Вера следила за субтитрами – автоматическая транскрипция, неидеальная, но достаточная:
– Нет. У меня нет доступа к боевым логам, только к тестовому зеркалу. Но зеркало тоже показывает… – она замолчала, подбирая слово. Цзин делала это часто: останавливалась посреди предложения, как будто перебирала варианты в ящике с инструментами, ища подходящий по размеру. – Аномалию.
«Какую?»
– Архитектурную. Третий свёрточный слой генерирует активации, которые не соответствуют входным данным. Я сначала думала – переобучение. Запустила L2-регуляризацию, дропаут, пересобрала батчи. Ничего не изменилось. Активации стабильные, воспроизводимые, не зависят от инициализации весов. Это не переобучение.
«Что тогда?»
– Я не знаю. – Цзин произнесла это без смущения, с той прямотой, которую окружающие принимали за резкость, а Вера считала профессиональной честностью: «я не знаю» – самая полезная фраза в науке, если произносится вовремя. – Поэтому я не спала. Я думала, ты скажешь, что на твоей стороне всё нормально.
«На моей стороне – не нормально».
Вера описала находку. Печатала быстро, сокращая где возможно, потому что за семьдесят один час без сна даже её пальцы начинали ошибаться – пропускали буквы, путали раскладки, и она возвращалась, правила, снова печатала. Самоподобие в соотношениях констант. Четыре уровня рекурсии. Одиннадцать правил подстановки. Контекстно-свободная грамматика. Предсказания, совпадающие с экспериментальными данными до шестого знака.
Цзин читала. Её лицо не менялось – оно редко менялось, эмоции у Цзин проявлялись не мимикой, а руками: когда она нервничала, она трогала мочку левого уха; когда была сосредоточена – складывала ладони; когда была в ужасе – замирала, и руки лежали на столе, плоские и неподвижные, как листья после дождя. Сейчас руки лежали на столе.
– Покажи граф, – сказала она.
Вера расшарила экран. Граф развернулся перед Цзин – узлы, связи, четыре уровня вложенности. Цзин молчала минуту, две. Потом:
– Увеличь третий уровень. Узел, соответствующий α.
Вера увеличила. Постоянная тонкой структуры – α ≈ 1/137.036 – была одним из центральных узлов графа: от неё расходились связи к электромагнитному взаимодействию, массе электрона, постоянной Планка. На третьем уровне рекурсии узел раскрывался в подграф, повторяющий топологию целого, но с другими весами связей.
– Эти веса, – Цзин показала на экране, тыкая пальцем в монитор, и Вера видела её палец как тёмный размытый силуэт поверх графа. – Они не случайные. Вера, они распределены по закону Ципфа.
Вера замерла.
Закон Ципфа – эмпирическая закономерность, обнаруженная лингвистом Джорджем Кингсли Ципфом в 1935 году: в любом естественном языке частота слова обратно пропорциональна его рангу. Самое частое слово встречается вдвое чаще второго, втрое чаще третьего, и так далее. Закон Ципфа – один из признаков, отличающих естественный язык от случайного набора символов. Он обнаруживается в английском, китайском, арабском, навахо, языке жестов, шумерском, в музыке, в генетическом коде, в распределении городов по населению. Его находили в шуме – критики говорили, что закон Ципфа слишком универсален, чтобы быть диагностическим: он появляется и в системах, не имеющих никакого лингвистического содержания.
Но закон Ципфа в весах связей между фундаментальными константами – это было другое. Потому что веса связей не были частотами. Они были не «как часто слово встречается», а «как сильно одна константа зависит от другой». И если эти зависимости распределялись по Ципфу – это указывало не на статистическую универсалию, а на информационную структуру, в которой одни элементы несут больше семантической нагрузки, чем другие.
«Ты уверена?» – напечатала Вера.
– Я посчитала за тридцать секунд. Дай мне десять минут, посчитаю точно.
Цзин исчезла с экрана – камера осталась включённой, но она отошла, и Вера видела только пустой стул и три монитора, на которых мелькали окна терминала. Цзин работала быстро – её пальцы на клавиатуре двигались с частотой, которую Вера иногда засекала по видео: около восьмисот нажатий в минуту, скорость профессионального стенографиста. Она не думала о коде, как Вера думала о математике: она говорила на нём.
Десять минут превратились в двадцать три. Цзин вернулась. Руки – на столе, плоские.
– Ципф подтверждается. Экспонент – 1.07, стандартное отклонение 0.03. Для естественных языков – от 0.9 до 1.1. Это в диапазоне.
Вера смотрела на экран. Субтитры были точны. Она прочитала их дважды.
«Цзин. ROSETTA обучалась на лингвистических данных?»
– Нет. Я знаю каждый байт обучающего набора. Космологические данные. Физические константы. Спектры. Никакой лингвистики. Никаких текстов. Никаких корпусов. Никакого NLP.
«Тогда закон Ципфа в весах – это свойство данных, а не сети».
– Да. – Пауза. – Или это свойство вселенной, в которой данные были получены.
Они смотрели друг на друга через семнадцать часовых поясов, через камеры ноутбуков, через автоматические субтитры, которые переводили голос Цзин в текст для Веры с задержкой в полторы секунды, и в этой полуторасекундной задержке, в зазоре между произнесённым и прочитанным, что-то уплотнилось – не тишина (для Веры тишина была нормой), а нечто иное, нечто, для чего у неё не было названия.
– Вера, – сказала Цзин, и её голос, судя по субтитрам, был тихим, хотя Вера не могла знать этого наверняка – субтитры не передавали громкость, – система не обучена на лингвистических данных. Этой структуры не должно быть. Но она есть.
«Я знаю».
– Что ты собираешься делать?
«Проверять дальше».
– А Волков?
Вера замедлилась с ответом. Не потому что не знала, что ответить, а потому что ответ требовал формулировки, которая была бы одновременно честной и точной, а эти два качества в данном случае тянули в разные стороны.
«Пока нет».
Цзин наклонила голову – жест, который означал не несогласие, а обдумывание, как птица, рассматривающая предмет сначала одним глазом, потом другим.
– Он увидит логи.
«У него есть доступ. Но он проверяет логи раз в неделю. У меня есть время».
– Время на что?
«Убедиться. Или разубедиться».
Цзин кивнула. Она не стала спорить – не потому что была согласна, а потому что понимала логику. Показать Волкову сырую находку – значит запустить процесс, который нельзя будет контролировать: верификация, рецензирование, совещания, отчёты, и если где-то в этом процессе результат окажется ошибкой – не просто ошибкой Веры, а ошибкой всего проекта, – последствия будут непропорциональны. Волков это знал лучше всех: он тридцать лет учил людей не кричать «нашёл», пока не проверил трижды.
– Я проведу анализ на своей стороне, – сказала Цзин. – Отдельный инстанс ROSETTA, отдельные данные. Если паттерн воспроизводится на моём зеркале – это не артефакт конкретного запуска.
«Хорошо».
– И Вера? Поспи. – Пауза. – Ты выглядишь как человек, который не спал трое суток.
«Я выгляжу как человек, который не спал трое суток, потому что я – человек, который не спал трое суток».
Цзин почти улыбнулась – уголок губ дёрнулся, что у неё считалось выражением крайнего веселья. Вера отключила звонок.
Она осталась одна в контейнере. Три часа ночи, третья ночь подряд. Кислородный концентратор показывал расход 3.4 литра в минуту – больше, чем обычно: её тело компенсировало недосыпание усиленным метаболизмом, или она дышала чаще, потому что тревога ускоряет дыхание. Она заставила себя вдохнуть медленно. Выдохнуть. Ещё раз.
Вера встала и подошла к стене контейнера, на которой она прикрепила распечатку – граф, вывод ROSETTA, четыре уровня рекурсии. Рядом – три листа бумаги с рукописными вычислениями: одиннадцать правил подстановки, предсказания, закон Ципфа. Она смотрела на это, как архитектор смотрит на чертёж: не на детали, а на целое, на пропорции, на то, как части соотносятся друг с другом.
Целое выглядело как грамматика. Не похоже на грамматику – именно как грамматика. Конечный набор правил, порождающий открытое множество структур, с иерархической вложенностью и рекурсией. Единственное, чего не хватало, – семантики: грамматика определяла, как элементы связаны, но не что они значат. Можно было построить «предложения» из констант, используя одиннадцать правил, и «предложения» были грамматически правильными – но что они говорили?
Ничего. Пока – ничего. Грамматика без семантики – это синтаксис в чистом виде: форма без содержания. Как предложение «Бесцветные зелёные идеи яростно спят» Хомского: грамматически безупречное, семантически пустое. Или нет – семантически непонятное, что не одно и то же.
Мать бы поняла. Хельга Ланг, специалист по шумерскому, провела тридцать лет, расшифровывая тексты на языке, который умер четыре тысячи лет назад. Она знала, что значит видеть структуру без смысла – видеть, что текст подчиняется правилам, не зная, что эти правила порождают. Шумерские клинописные таблички были грамматикой без семантики до тех пор, пока кто-то не нашёл билингву – текст на двух языках, позволивший связать форму со значением. Розеттский камень. Отсюда – название алгоритма, которое Вера выбрала не случайно, а с тем тихим суеверием, которое учёные не признают, но практикуют: назвать инструмент именем надежды, чтобы надежда сбылась.
ROSETTA. Recursive Observer for Structural and Topological Tensor Analysis. Или – Розеттский камень. Камень, который переводит между языками. Между шумом и сигналом. Между Вселенной и наблюдателем.
Вера оторвалась от стены и вернулась к столу. Она должна была спать. Она знала это не как рекомендацию, а как медицинский факт: после семидесяти двух часов без сна начинаются микрозасыпания – эпизоды длительностью от полусекунды до тридцати секунд, во время которых мозг отключается без предупреждения. На высоте пяти тысяч метров, при пониженном содержании кислорода, это могло быть опасным. Она могла упасть, удариться, потерять сознание, и до утра её бы никто не нашёл.
Она открыла терминал и напечатала последнюю команду: архивирование всех данных текущей сессии с временно́й меткой и криптографическим хешем, чтобы зафиксировать момент и содержание находки. Это было стандартной процедурой для значимых результатов – цифровой нотариус, гарантирующий, что данные не были изменены после фиксации. Вера выполняла процедуру автоматически, по протоколу, но сейчас, в три часа ночи, на семьдесят первом часу без сна, движение пальцев по клавиатуре казалось ей ритуалом – печатью на конверте, который она запечатывала, не зная, что внутри.
Конверт.
Она подумала: если грамматика реальна – если эта структура действительно существует в фундаментальных константах, определяющих устройство реальности, – то что это значит? Не физически – физически это значит, что константы не случайны, а подчиняются синтаксису, и этот факт, если подтвердится, перевернёт физику, космологию и философию науки. Это она понимала. Но что это значит – для неё?
Вера Ланг, тридцать шесть лет, глухая от рождения, дочь лингвиста и акустика. Человек, который всю жизнь жил в мире без звука и строил из этого мира карту, в которой информация приходила через форму, через паттерн, через пространственную структуру. Человек, который создал алгоритм, ищущий порядок в шуме, потому что – если быть честной, если быть безжалостно, хирургически честной – потому что она не могла принять, что шум – это просто шум. Что тишина – это просто тишина. Что её мир – мир без звука – не содержит ничего, что мир со звуком не содержит.
Она искала грамматику в хаосе, потому что грамматика – это то, что превращает набор символов в высказывание. А высказывание – это доказательство того, что кто-то говорит. И если во Вселенной есть грамматика – значит, Вселенная говорит. А если Вселенная говорит – значит, тишина, в которой жила Вера, была не пустотой, а каналом. Не отсутствием сигнала, а другим способом передачи.
Она знала, что это – мотивация, а не аргумент. Знала, что желание найти не является доказательством находки. Знала, что Волков сказал бы – и был бы прав, – что именно так работает предвзятость подтверждения: ты находишь то, что ищешь, не потому что оно есть, а потому что ты не можешь не найти.
Но данные не были мотивацией. Данные были данными. 4.7 сигма. Четыре уровня рекурсии. Одиннадцать правил. Предсказания до шестого знака. Закон Ципфа в весах связей. Это были не её желания – это были числа. И числа не знали, чего она хочет.
Или знали?
Вера тряхнула головой – физический жест, изгоняющий мысль, которая была не мыслью, а тенью усталости. Семьдесят один час. Ей нужно было спать. Ей нужно было спуститься в базовый лагерь, лечь в кровать, закрыть глаза и позволить мозгу перезагрузиться, как перезагружают компьютер, когда он начинает выдавать ошибки.
Она собрала вещи: ноутбук, блокнот, термос, пуховку. Выключила мониторы. Вышла из контейнера.
Атакама ждала. Не потому что пустыня умеет ждать – она не умеет ничего, она просто есть, четыре с половиной миллиарда лет неизменного присутствия, – но сейчас, в состоянии между бодрствованием и микрозасыпанием, Вера ощутила то, что не позволила бы себе ощутить в нормальном состоянии: пустыня казалась ей внимательной. Не живой, не сознательной – внимательной, как внимателен текст, когда ты наконец выучил язык, на котором он написан. Камни под ногами. Линия горизонта. Антенны – белые чаши, направленные в небо. Небо – Млечный Путь, такой же, как вчера, и позавчера, и четырнадцать миллиардов лет назад.

