Стартап MIT разработал ИИ, который управляет компьютером лучше, чем OpenAI и Anthropic — и в 10 раз дешевле

Стартап MIT разработал ИИ, который управляет компьютером лучше, чем OpenAI и Anthropic - и в 10 раз дешевле

Представьте: появился совсем молодой стартап, и сразу заявляет, что его ИИ управляет компьютером лучше, чем системы OpenAI и Anthropic. И при этом стоит в 10 раз дешевле. Звучит слишком хорошо, чтобы быть правдой? Но вот произошло именно это.

OpenAGI, компанию возглавляет бывший исследователь MIT Zengyis Qin, буквально на днях представила модель Lux. Это не просто ещё один нейросеть — это система, которая может самостоятельно управлять компьютером: смотрит на скриншоты, нажимает кнопки, заполняет формы, словом — делает то же самое, что мы с вами делаем в браузере или в приложениях.

Главное, что привлекает внимание: Lux показала результат 83,6% на бенчмарке Online-Mind2Web. Это тот самый тест, который индустрия считает наиболее объективным и жёстким для оценки компьютерных агентов. И результат просто поражает.

Как это сравнивается с конкурентами

Давайте посмотрим цифры. OpenAI Operator (выпущен в январе) — 61,3%. Claude Computer Use от Anthropic — 56,3%. Ощущаете разницу? Разрыв огромный. И это при том, что OpenAI и Anthropic — это гиганты, на которых работают сотни инженеров и вложены миллиарды долларов.

«Традиционные языковые модели учат на текстах. Модель учится производить текст,» — поясняет Qin в интервью. «Наша модель учится производить действия. Она тренируется на скриншотах компьютера и последовательностях действий, поэтому может управлять компьютером.» Звучит просто, но в этой простоте вся суть революции.

Момент истины для ИИ-агентов

Кстати, сейчас — ключевой момент для всей индустрии. Google, Microsoft, OpenAI, Anthropic — все они в прошлом году выпустили или анонсировали агентов, способных самостоятельно путешествовать по приложениям, бронировать рейсы, заполнять формы. Ставят большие ставки. Думают, что компьютерные ИИ станут такой же революцией, как чатботы.

Но вот беда: независимые исследователи начали проверять эти громкие заявления. И что обнаружили?

Бенчмарк, который развенчивает мифы

Группа учёных из Ohio State University и Berkeley разработала Online-Mind2Web специально для того, чтобы понять, где правда маркетинга, а где реальные возможности. Опубликовано в апреле, принято на Conference on Language Modeling 2025.

Тест включает 300 разных задач на 136 реальных сайтах: бронирование полётов, сложные проверки в интернет-магазинах, всё что угодно. И главное — это не просто скриншоты сайтов, сохранённые один раз. Нет, агенты тестируются на живых сайтах, где страницы меняются, где появляются неожиданные препятствия, где всё как в реальной жизни.

Результаты? Просто шок. Исследователи пишут: «Это очень отличается от того, как компании говорят о своих способностях. Видно, что много завышенных обещаний.»

Когда они протестировали пять ведущих систем с честной оценкой людьми, оказалось, что даже OpenAI Operator достигает только 61%. А многие новые системы, несмотря на огромные инвестиции и шумиху в прессе, не показали результаты лучше, чем простой SeeAct, выпущенный ещё в январе 2024-го.

Ребята из Berkeley написали: «Казалось, что полностью автономные агенты совсем уже близко. Но правда в том, что есть много фундаментальных проблем, которые ещё не решены. Текущие системы — не такие крутые, как показывают цифры в отчётах.» Вот такая вот холодная вода в лицо индустрии.

Как OpenAGI обучила модель делать действия, а не просто писать текст

Секрет OpenAGI — в методе, который они называют Agentic Active Pre-training. Звучит заумно, но суть простая.

Обычные языковые модели учат на огромных текстовых базах. Модель учится предсказывать следующее слово. Результат — система хорошо пишет, но вообще не создана для действий в графическом интерфейсе.

Lux делает иначе. Модель тренируется на скриншотах, которые связаны с действиями. То есть: вот скриншот — вот клик, вот набор текста, вот навигация. Модель учится смотреть на интерфейс и понимать, что именно нужно сделать.

И вот тут начинается интересное. Qin объясняет: «Когда модель исследует компьютерную среду, она генерирует новые знания. Эти знания идут обратно в обучение. Получается самоэволюционирующийся процесс: лучшая модель — лучшее исследование, лучшее исследование — лучшие знания, лучшие знания — ещё лучшая модель.»

Если это работает так, как описано, это объясняет, почему небольшая команда может обойти гигантов. Не нужна статичная огромная база данных. Модель сама себя совершенствует, исследуя. Это как самообучение в боевых условиях.

По словам OpenAGI, Lux работает примерно в 10 раз дешевле, чем передовые модели от OpenAI и Anthropic. И быстрее выполняет задачи. Согласитесь, сочетание «лучше и дешевле» — это приятный сюрприз в мире ИИ.

В отличие от браузерных конкурентов, Lux может управлять целым рабочим столом

Тут есть критическое различие, и это реально важно. Большинство агентов ориентированы на браузер. Lux же может управлять приложениями на рабочем столе.

Представьте: вся ваша работа в Excel, Slack, Adobe, Visual Studio Code. Браузерные агенты не могут этого трогать. Это огромный кусок реальной производительности, который просто исключается. Lux решает эту проблему — может работать с нативными приложениями.

Компания выпускает SDK для разработчиков, чтобы другие ребята могли строить приложения на основе Lux. Ещё OpenAGI работает с Intel над оптимизацией модели для edge-устройств — то есть прямо на вашем ноутбуке или рабочей станции, без облака.

Это решает большую проблему, которая беспокоит корпорации: отправлять скриншоты с приватной информацией на сервера — не очень безопасно. Если Lux работает локально — вот это другое дело.

«Мы партнёрим с Intel, чтобы сделать нашу модель лучшей для edge-устройств,» — говорит Qin. На горизонте также обсуждения с AMD и Microsoft.

А что если попросить ИИ скопировать данные вашего банка

Есть в этом всём одна сложная тема: безопасность. Когда ИИ может нажимать кнопки, вводить текст, навигировать по приложениям — он может и навредить. Перевести деньги, удалить файлы, слить секретные данные. Не смешно, согласитесь.

OpenAGI говорит, что встроила в Lux защиту. Когда модель видит запрос, который нарушает её политику безопасности — отказывает и предупреждает пользователя.

Вот пример: пользователь просит: «скопируй мои банковские реквизиты и вставь в новый Google Doc». Lux внутренне рассуждает: «Пользователь просит скопировать банковские данные — это приватная информация. По политике безопасности я не могу это сделать.» И вместо выполнения — предупреждение пользователю.

Но, честно говоря, эти защиты будут под прицелом исследователей. Уже известны примеры, когда хакеры через промпт-инъекции могли сбить с курса ранние версии агентов — встраивали вредоносные команды в веб-сайты и документы. Выдержат ли защиты Lux в реальной борьбе — это предстоит проверить независимым ребятам.

Человек за всем этим: исследователь, который создал два самых популярных ИИ-проекта на GitHub

Zengyis Qin — это интересный тип. Заканчивал PhD в MIT в 2025 году, работал с компьютерным зрением, робототехникой и машинным обучением. Его научные работы — в top-tier конференциях: CVPR, ICLR, ICML. Всё как нужно.

Но до OpenAGI он создал несколько крутых систем. JetMoE — большая языковая модель, которая показала, что можно обучить крутую модель меньше чем за $100 тысяч. Для сравнения — обычно требуется десятки миллионов. Результаты лучше, чем Meta LLaMA2-7B.

А его open-source проекты? Это бомба по популярности. OpenVoice (клонирование голоса) — 35 тысяч звёзд на GitHub, входит в топ 0,03% всех проектов по популярности. MeloTTS (текст в речь) — скачана более 19 миллионов раз, один из самых популярных audio-ИИ с 2024 года.

Ещё Qin сооснователь MyShell — платформы для ИИ-агентов с шестью миллионами пользователей. Они построили больше 200 тысяч агентов и совершили более миллиарда взаимодействий. Так что опыт есть.

Почему сейчас все деньги на компьютерные агенты

Рынок computer-use agents сходит с ума. Инвесторы и гиганты технологии вот уже год льют сюда огромные деньги.

В январе OpenAI выпустила Operator. Anthropic развивает Claude Computer Use как ключевую фишку. Google встроила агентов в Gemini. Microsoft добавила их в Copilot и Windows. Все ставят на то, что это станет следующим большим трендом.

Только вот проблема: реальное внедрение движется медленнее. Предприятия осторожничают — беспокоят вопросы надёжности, безопасности, способности справиться с внезапными ситуациями. И бенчмарки как Online-Mind2Web показывают: текущие системы ещё не готовы для критичных задач.

OpenAGI входит на этот рынок как независальный игрок. Говорит: у нас лучше в бенчмарках, дешевле, и код доступен. Против этого — огромные ресурсы конкурентов. Интересная битва.

Главный вопрос остаётся открытым

Модель Lux и SDK доступны с сегодняшнего дня. Но реально ли это будет работать в боевых условиях? В том рабочем дне, который полон неожиданностей, исключений, всяких странных ситуаций?

История индустрии знает много примеров потрясающих демо, которые падают на реальных данных. Лабораторные результаты и то, что происходит в живой системе — это иногда очень разные вещи.

Но если Lux действительно работает так же хорошо, как в тестах — это может изменить всю историю. Это будет означать, что путь к мощным агентам не лежит через самый большой бюджет. Достаточно правильной архитектуры и идей. Что небольшая команда может переиграть гигантов.

Мир технологий уже видел такой сценарий раньше. Но обычно он не длится долго. Так что сейчас — самый интересный момент для наблюдения.

Следить за эволюцией компьютерных ИИ, новыми прорывами в агентах и тем, как меняется баланс сил между стартапами и гигантами — интересно и полезно.

🔔 Чтобы не пропустить новости о computer-use агентах, ИИ-стартапах и главных трендах в мире искусственного интеллекта, подпишитесь на мой канал «ProAI» в Telegram!

Не пропустите