Claude Code сам придумал алгоритм ИИ, который люди не додумались бы

Когда машина умнее проектировщика

Представьте: вы нанимаете сотрудника не для того, чтобы он выполнял ваши инструкции, а чтобы он сам придумал, как лучше работать. Именно это сделала команда исследователей из UMD, UVA, WUSTL, UNC, Google и Meta — и результат оказался обескураживающим для человеческого самолюбия. Агент на базе Claude Code нашёл алгоритм масштабирования тестового времени (test-time scaling), до которого люди, судя по всему, сами бы не додумались.

Это не просто красивая история про ИИ. Это сигнал о том, что мы вступаем в эпоху, когда нейросети начинают оптимизировать сами себя — и делают это лучше, чем их создатели.

Что такое AutoTTS и почему это важно

Test-time scaling — это подход, при котором языковая модель тратит больше вычислительных ресурсов на генерацию ответа: запускает несколько параллельных цепочек рассуждений, выбирает лучшую, углубляет перспективные ветки. Грубо говоря, модель «думает дольше», чтобы ответить точнее.

До сих пор правила этого процесса писали люди: когда запускать новую ветку рассуждений, когда её обрезать, когда остановиться. Это ручная инженерия, которая требует экспертизы и, честно говоря, часто работает по принципу «попробуем так, посмотрим».

Авторы AutoTTS предложили другой подход: не писать алгоритм самим, а создать среду, в которой ИИ-агент найдёт его самостоятельно. Вместо того чтобы определять правила ветвления и отсечения, исследователи описали состояния, действия и обратную связь — а дальше агент разбирался сам.

Как это работает на практике

Ключевая хитрость — офлайн-симуляция. Команда заранее сгенерировала множество цепочек рассуждений от языковой модели и сохранила их. Новый алгоритм управления работает с этими готовыми данными, не запуская модель заново на каждой итерации. Это позволило прогнать тысячи вариантов алгоритмов без астрономических затрат на вычисления.

Claude Code в роли поискового агента работал итеративно: изучал предыдущие попытки, находил слабые места, писал новый вариант управляющего кода. Чтобы пространство поиска не превратилось в хаос из тысяч гиперпараметров, каждое предложение могло раскрывать наружу только один высокоуровневый контроллер — который уже сам устанавливал все внутренние пороги. Элегантное решение проблемы комбинаторного взрыва.

Весь процесс поиска занял 160 минут и стоил около $40. Для научного открытия — смешные деньги.

Результаты, которые заставляют задуматься

На математических бенчмарках AIME и HMMT найденный алгоритм показал лучшую точность на единицу затраченных вычислений по сравнению с ручными методами. Но главная цифра — снижение использования токенов на 70% по сравнению со стандартным self-consistency.

Для справки: self-consistency — это когда модель генерирует 64 ответа параллельно и выбирает победителя голосованием большинства. Это мощно, но дорого. AutoTTS даёт сопоставимую точность, сжигая в три с лишним раза меньше ресурсов.

При этом алгоритм перенёсся на DeepSeek-R1-Distill-Llama-8B и небиблиографический бенчмарк GPQA-Diamond — то есть это не переобучение под конкретную задачу, а нечто более универсальное.

Логика, до которой люди не додумались

Самое интересное — не цифры, а то, *как именно* работает найденный алгоритм. Он отслеживает, как меняется уверенность модели между раундами рассуждений. Большинство человеческих методов бросают поиск, как только мнения склоняются к одному варианту.

Алгоритм от Claude Code действует хитрее: если уверенность почти не растёт — открывает новые ветки рассуждений. Если она быстро нарастает — новые ветки не нужны, ресурсы лучше потратить на углубление существующих. Ветки, чьи промежуточные результаты совпадают с текущим большинством, получают дополнительные вычисления. Отсекаются только те, что стабильно расходятся с правильным направлением — и только после нескольких раундов, не сразу.

Это динамическое адаптивное управление, которое реагирует на процесс рассуждения, а не просто следует статическому расписанию. Люди интуитивно тяготеют к простым правилам — «если X, то Y». Машина нашла что-то более тонкое.

Что это меняет для индустрии

Автоматический поиск алгоритмов — не новая идея. Neural Architecture Search (NAS) занимается примерно тем же для архитектур сетей уже несколько лет. Но AutoTTS делает это в области управления вычислениями при инференсе — там, где сейчас сосредоточена основная конкуренция между лабораториями.

OpenAI с o3, Anthropic с Claude 3.7, Google с Gemini 2.5 — все они вкладываются в улучшение рассуждений именно через test-time compute. Если AutoTTS или подобные подходы войдут в практику, это может сдвинуть баланс: не тот, кто потратит больше на обучение, а тот, кто умнее потратит на инференс.

Для разработчиков и бизнеса это означает потенциально более дешёвые API-вызовы при той же качестве ответов. Снижение на 70% токенов — это прямая экономия на счетах за облако.

Российский контекст

Исследование пока остаётся академическим — код и среда AutoTTS доступны через репозиторий, опубликованный вместе с препринтом. Для российских разработчиков, работающих с открытыми моделями типа DeepSeek-R1, это потенциально применимо уже сейчас: алгоритм был проверен именно на этой модели. VPN и зарубежные карты здесь не нужны — речь о локально запускаемых решениях.

Главный вывод

Мы привыкли думать об ИИ как об инструменте, который выполняет то, что ему скажут. AutoTTS показывает следующий шаг: ИИ как исследователь, который находит решения в пространстве, которое люди даже не успели толком картировать. За $40 и три часа работы — против месяцев человеческих экспериментов.

Это не конец человеческой инженерии в ИИ. Но это отчётливый сигнал: задача инженера смещается от «написать правильный алгоритм» к «создать правильную среду поиска». Разница тонкая, но принципиальная.

Claude Code сам придумал алгоритм ИИ, который люди не додумались бы

Когда машина умнее проектировщика

Что такое AutoTTS и почему это важно

Как это работает на практике

Результаты, которые заставляют задуматься

Логика, до которой люди не додумались

Что это меняет для индустрии

Российский контекст

Главный вывод

Источники

Все эти инструменты — уже на Genova-ai

Похожие новости

ZML из Парижа выпустила бесплатный движок LLMD для любых AI-чипов

Google прокачал Managed Agents: фоновые задачи, удалённый MCP и обновление токенов

Alibaba запрещает Claude Code: шпионаж или паранойя?