Трансформеры отживают свой век: как стартап Manifest AI создал нейросеть без внимания за $4000
Конец эры трансформеров уже начался
Представьте: восемь лет назад механизм внимания (attention) стал основой всех крупных языковых моделей — от GPT и Claude до Gemini и Llama. Это была революция. Но вот беда — этот же механизм теперь становится узким местом. Вычислительные затраты растут в квадрате от длины контекста. Чем больше текста нужно обработать, тем дороже и медленнее всё становится.
И вот 28 октября 2025 года малоизвестный стартап Manifest AI выступил со смелым заявлением: они создали модель Brumby-14B-Base, которая вообще отказалась от механизма внимания. Вместо него — что-то совершенно новое, называется Power Retention.
Самое дикое: модель натренировали всего за 60 часов на 32 GPU Nvidia H100, потратив примерно $4000. Это меньше 2% от обычной стоимости тренировки модели такого размера!
Как это вообще работает?
В обычном трансформере каждый токен (кусочек текста) сравнивается со всеми остальными токенами. Полная матрица сравнений — это красиво, но дорого. Двойная длина текста = примерно четырёхкратный расход вычислений.
Power Retention делает по-другому. Вместо глобального сравнения всех токенов она ведёт специальное состояние памяти, которое обновляется на каждом шаге. Это похоже на рекуррентную нейросеть (RNN), если кто помнит. Прошлая информация сжимается в компактное внутреннее состояние.
Но вот что классное — за счёт тензорных степеней входов (отсюда название «power retention») новая архитектура может представлять сложные зависимости между токенами. То есть она остаётся такой же выразительной, как трансформер, но работает эффективнее, как RNN.
И главное: вычислительные затраты на обработку одного токена не зависят от длины контекста. 1000 токенов или миллион — цена одинакова.
Результаты: неожиданно хорошо
Вот что интересно. Brumby-14B работает на уровне базовых трансформеров вроде Qwen3-14B и GLM-4.5-Air. На знаниевых тестах она немного отстаёт — например, на MMLU-Pro набирает 36% против 55% у Qwen3. Но на математических задачах (MATH) набирает 62% против 54% у конкурента!
Получается интересная картина: архитектура на основе рекуррентности лучше работает именно там, где трансформеры с вниманием начинают буксовать — на задачах, требующих длинных логических цепочек.
Почему это работает дёшево
Тут ключевой момент. Manifest AI не тренировала модель с нуля — они взяли готовый Qwen3-14B и переделали его архитектуру. Убрали слои внимания, вставили Power Retention. Старые веса не подходили идеально, пришлось их пересчитывать.
Но переобучение заняло всего 3000 шагов, и модель вернула себе почти все способности! Это ключевой вывод: новые архитектуры могут наследовать знания от старых поколений. Не нужно начинать с пустого листа.
Джейкоб Бакман, основатель Manifest AI, честно сказал: да, за $4000 тренировать с нуля не получится. Но вот переделать существующую модель — это реально. И это важно, потому что открывает путь для её распространения.
Железо и скорость
Ещё один плюс — эффективность работы на чипах. Manifest разработала специальные ядра (kernels) в Triton, совместимые с GPU от NVIDIA и AMD. Утверждается, что на очень длинных контекстах Power Retention может быть в 100 раз быстрее внимания.
При этом использование видеопамяти меньше, чем даже у FlashAttention2. Бакман отмечает, что их ядра достигают 80-85% утилизации GPU, что выше, чем у FlashAttention2 (70-75%) и Mamba (50-60%).
Мамба, кстати — ещё один конкурент трансформерам, появилась в 2023 году. Но результаты Power Retention выглядят интереснее.
Что дальше?
Бакман рассказал о долгосрочной миссии Manifest: тренировать нейросеть на все человеческие достижения, но не просто на их результаты, а на процессы мышления, которые эти результаты создали. Это уже философия, не просто инженерия.
Интеграция с популярными фреймворками вроде vLLM ещё идёт. Но команда уверена, что технически всё просто: раньше или позже это подружится со всеми инструментами.
Скептицизм тоже справедлив
На X (бывший Twitter) начались дебаты. Некоторые исследователи, вроде Ариэля из Meta, указали: это не совсем «фундаментальная модель за $4000», если вы просто переделали веса Qwen. Справедливо замечание.
Бакман ответил без обороны: да, он разбил анонс на несколько твитов, первый был про стоимость, остальные про метод. Просто людей зацепила первая часть. Он не скрывал подход, просто неудачно разбил информацию.
Но сама суть остаётся верной: эпоха трансформеров не закончилась, но трещина в их монополии уже видна. Появилась реальная альтернатива, которая работает, дешева и практична.
Может быть, это начало конца? Или хотя бы конец начала того, как один архитектурный стиль правит всем миром. Как говорит Бакман: «Конец эры трансформеров ещё не здесь. Но марш уже начался».
Архитектуры нейросетей развиваются на глазах, и уже появляются практичные альтернативы классическому подходу. Чтобы не пропустить следующий прорыв в AI и новые экспериментальные подходы, которые могут революционизировать индустрию.
🔔 Следите за развитием архитектур ИИ и инновациями в нейросетевых технологиях — подпишитесь на мой канал «ProAI» в Telegram!


