Трансформеры отживают свой век: как стартап Manifest AI создал нейросеть без внимания за $4000

Трансформеры отживают свой век: как стартап Manifest AI создал нейросеть без внимания за $4000

Конец эры трансформеров уже начался

Представьте: восемь лет назад механизм внимания (attention) стал основой всех крупных языковых моделей — от GPT и Claude до Gemini и Llama. Это была революция. Но вот беда — этот же механизм теперь становится узким местом. Вычислительные затраты растут в квадрате от длины контекста. Чем больше текста нужно обработать, тем дороже и медленнее всё становится.

И вот 28 октября 2025 года малоизвестный стартап Manifest AI выступил со смелым заявлением: они создали модель Brumby-14B-Base, которая вообще отказалась от механизма внимания. Вместо него — что-то совершенно новое, называется Power Retention.

Самое дикое: модель натренировали всего за 60 часов на 32 GPU Nvidia H100, потратив примерно $4000. Это меньше 2% от обычной стоимости тренировки модели такого размера!

Как это вообще работает?

В обычном трансформере каждый токен (кусочек текста) сравнивается со всеми остальными токенами. Полная матрица сравнений — это красиво, но дорого. Двойная длина текста = примерно четырёхкратный расход вычислений.

Power Retention делает по-другому. Вместо глобального сравнения всех токенов она ведёт специальное состояние памяти, которое обновляется на каждом шаге. Это похоже на рекуррентную нейросеть (RNN), если кто помнит. Прошлая информация сжимается в компактное внутреннее состояние.

Но вот что классное — за счёт тензорных степеней входов (отсюда название «power retention») новая архитектура может представлять сложные зависимости между токенами. То есть она остаётся такой же выразительной, как трансформер, но работает эффективнее, как RNN.

И главное: вычислительные затраты на обработку одного токена не зависят от длины контекста. 1000 токенов или миллион — цена одинакова.

Результаты: неожиданно хорошо

Вот что интересно. Brumby-14B работает на уровне базовых трансформеров вроде Qwen3-14B и GLM-4.5-Air. На знаниевых тестах она немного отстаёт — например, на MMLU-Pro набирает 36% против 55% у Qwen3. Но на математических задачах (MATH) набирает 62% против 54% у конкурента!

Получается интересная картина: архитектура на основе рекуррентности лучше работает именно там, где трансформеры с вниманием начинают буксовать — на задачах, требующих длинных логических цепочек.

Почему это работает дёшево

Тут ключевой момент. Manifest AI не тренировала модель с нуля — они взяли готовый Qwen3-14B и переделали его архитектуру. Убрали слои внимания, вставили Power Retention. Старые веса не подходили идеально, пришлось их пересчитывать.

Но переобучение заняло всего 3000 шагов, и модель вернула себе почти все способности! Это ключевой вывод: новые архитектуры могут наследовать знания от старых поколений. Не нужно начинать с пустого листа.

Джейкоб Бакман, основатель Manifest AI, честно сказал: да, за $4000 тренировать с нуля не получится. Но вот переделать существующую модель — это реально. И это важно, потому что открывает путь для её распространения.

Железо и скорость

Ещё один плюс — эффективность работы на чипах. Manifest разработала специальные ядра (kernels) в Triton, совместимые с GPU от NVIDIA и AMD. Утверждается, что на очень длинных контекстах Power Retention может быть в 100 раз быстрее внимания.

При этом использование видеопамяти меньше, чем даже у FlashAttention2. Бакман отмечает, что их ядра достигают 80-85% утилизации GPU, что выше, чем у FlashAttention2 (70-75%) и Mamba (50-60%).

Мамба, кстати — ещё один конкурент трансформерам, появилась в 2023 году. Но результаты Power Retention выглядят интереснее.

Что дальше?

Бакман рассказал о долгосрочной миссии Manifest: тренировать нейросеть на все человеческие достижения, но не просто на их результаты, а на процессы мышления, которые эти результаты создали. Это уже философия, не просто инженерия.

Интеграция с популярными фреймворками вроде vLLM ещё идёт. Но команда уверена, что технически всё просто: раньше или позже это подружится со всеми инструментами.

Скептицизм тоже справедлив

На X (бывший Twitter) начались дебаты. Некоторые исследователи, вроде Ариэля из Meta, указали: это не совсем «фундаментальная модель за $4000», если вы просто переделали веса Qwen. Справедливо замечание.

Бакман ответил без обороны: да, он разбил анонс на несколько твитов, первый был про стоимость, остальные про метод. Просто людей зацепила первая часть. Он не скрывал подход, просто неудачно разбил информацию.

Но сама суть остаётся верной: эпоха трансформеров не закончилась, но трещина в их монополии уже видна. Появилась реальная альтернатива, которая работает, дешева и практична.

Может быть, это начало конца? Или хотя бы конец начала того, как один архитектурный стиль правит всем миром. Как говорит Бакман: «Конец эры трансформеров ещё не здесь. Но марш уже начался».

Архитектуры нейросетей развиваются на глазах, и уже появляются практичные альтернативы классическому подходу. Чтобы не пропустить следующий прорыв в AI и новые экспериментальные подходы, которые могут революционизировать индустрию.

🔔 Следите за развитием архитектур ИИ и инновациями в нейросетевых технологиях — подпишитесь на мой канал «ProAI» в Telegram!

Не пропустите