GPT-5.6: модели Sol, Terra и Luna — что меняет релиз OpenAI

Обложка статьи ProAI: GPT-5.6: модели Sol, Terra и Luna — что меняет релиз OpenAI

OpenAI представила не одну флагманскую модель, а семейство из трёх: Sol, Terra и Luna. Каждая заточена под разные задачи и разные бюджеты. Это не просто маркетинг — это признание того, что рынок AI сейчас упирается не столько в качество моделей, сколько в регуляцию, безопасность и управление релизом.

Запуск идёт в режиме ограниченного preview — всего примерно 20 организаций получат доступ в первую волну. Это не задержка, это результат прямого согласования OpenAI с американским правительством. За неделю до анонса компания поделилась подробностями о возможностях каждой модели с властями США, руководствуясь executive order от 2 июня 2026 про обязательный бенчмаркинг advanced AI перед широким релизом.

OpenAI честно пишет: такой процесс — полезная мера безопасности на данном этапе, но как долгосрочный стандарт он не должен стать нормой. Broad release обещают в ближайшие недели. Но уже сейчас видно, что игра меняет правила: регуляторный допуск и доказанная управляемость теперь в центре истории, наравне с AI-качеством.

Sol, Terra и Luna: кто есть кто

Три модели GPT-5.6 — это не разные версии одного продукта, а три отдельных инструмента:

  • Sol — для сложных задач, которые требуют глубокого рассуждения. Профильная область: advanced coding, security research, extended reasoning. Цена: $5 за миллион входящих токенов, $30 за исходящие.
  • Terra — рабочая лошадка для корпоративных нагрузок. Enterprise support, внутренние инструменты, анализ документов, high-volume обработка. $2.50 / $15 за миллион токенов.
  • Luna — быстрая и дешёвая. Подходит для рутины: summarization, draft-writing, автоматизация повседневных задач. $1 / $6 за миллион. Самая быстрая из трёх, по многим тестам практически не уступает предыдущему флагманскому поколению.

Ценовая лестница здесь не случайна — она отражает разные уровни возможностей и степень риска, которые OpenAI согласна брать на себя при каждом уровне.

Новые режимы: max reasoning и ultra с subagents

Sol получит два критических режима работы. Первый — max reasoning, то есть более глубокий режим рассуждения для сложных задач. Второй — ultra mode с поддержкой subagents, когда модель может разбить сложный проект на несколько параллельных задач и координировать их выполнение.

Prompt caching тоже обновили. Теперь можно явно задавать breakpoints для кэша — места, где раз выполненные вычисления не нужно повторять. Минимальное время жизни кэша — 30 минут. Первая запись в кэш стоит в 1.25 раза дороже обычного input-токена, но последующие чтения получают скидку 90%. Для больших контекстов и репетитивных нагрузок это серьёзная экономия.

В июле Sol выйдет на инфраструктуре Cerebras, где будет выдавать до 750 токенов в секунду — это почти вдвое быстрее обычного.

Бенчмарки и что они показывают реально

OpenAI потратила примерно 700 000 GPU-часов на автоматизированный red-teaming GPT-5.6. Результаты залили в бенчмарки, и картина интересная.

GPT-5.6 performance on TerminalBench
Сравнение GPT-5.6 с другими моделями на TerminalBench. Источник графика: OpenAI.

На TerminalBench 2.1 — тесте, симулирующем реальную работу с терминалом, — Sol ultra набирает 91.91%, Sol max 88.76%. Для сравнения: GPT-5.5 показала 83.4%, Claude Mythos 5 — 88%. Разница заметна, но не революционна.

Agent’s Last Exam — тест на способность самостоятельно выполнять цепочку задач в режиме агента. Sol в режиме code mode берёт 50.9%. А вот Luna (самая быстрая и дешёвая!) кое-где обходит предыдущее флагманское поколение. Это ключ — не всегда нужно платить за top-модель, если задача рутинная.

GPT-5.6 series scores on Agent's Last Exam benchmark
Результаты GPT-5.6 на Agent’s Last Exam. Источник графика: OpenAI.

ExploitBench измеряет, насколько модель может симулировать атакующие сценарии. Sol близка к Claude Mythos Preview по качеству, но при этом использует примерно треть выходящих токенов. Эффективнее.

OpenAI GPT-5.6 performance compared other models on ExploitBench
Сравнение GPT-5.6 и других моделей на ExploitBench. Источник графика: OpenAI.

Prompt caching и масштабирование на Cerebras

Prompt caching — это не просто удобство, это способ снизить цену для тех, кто работает с большими статичными контекстами. Если ты кормишь модель одной и той же документацией, кодовой базой или набором инструкций раз за разом, кэширование даст 90% скидку на повторные запросы. Явные breakpoints делают это предсказуемым: ты сам выбираешь, что кэшировать.

Cerebras — это другой уровень. Вывод 750 токенов/сек открывает возможности для реал-тайм приложений, которые раньше требовали либо более слабые модели, либо прокси-решения. Sol на Cerebras в июле — это точка, на которую смотрят команды с high-latency требованиями.

Управление рисками и реальные ограничения

OpenAI классифицировала все три модели GPT-5.6 как High risk по киберугрозам и биохимическим возможностям. Это означает, что стек защиты включил максимум слоёв: отказы на уровне модели, live misuse screening, activation-based screening для Sol и Terra, плюс паузы на review рассуждений.

На этап red-teaming потратили ресурсы, чтобы примерить на себя реальные атаки. Sol не смог автономно собрать полноценную full-chain exploit campaign — остался ниже Cyber Critical threshold. Во внутреннем тестировании на cyberсек порог High пересекли все трое: Sol 96.7%, Terra 91.84%, Luna 85.19%. Recall защитного стека: 94.8% по биологии, 81.6% по киберсеку.

OpenAI прямо пишет, что такой government access process не должен стать долгосрочным стандартом, потому что он отрезает разработчиков, компании и защитников от лучших инструментов.

Для команд infosec это важный сигнал: легитимная защитная работа вроде penetration testing и vulnerability research тоже может ловить false positives. Значит, без отдельного процесса согласования и исключений такие модели будут не только помогать, но и тормозить часть реальных задач.

Что это значит на практике

Если ты разработчик или PM: выбирай модель по задаче, не по престижу. Luna часто даёт результат дешевле и быстрее, чем Sol. Для рутины это норма. Для security research или сложного кодинга — Sol, и готовься к возможным false positives в защитном стеке. Terra занимает золотую середину для enterprise нагрузок.

Если ты работаешь с регуляцией: эпоха, когда AI-компания просто выпускает модель и ждёт, когда её заметят, кончилась. Теперь это согласование с властями, бенчмаркинг, управление рисками как часть релиза. Это замедляет запуск, но снижает вероятность того, что после выхода появятся громкие скандалы. Для бизнеса это конкурентное преимущество — стабильность.

Рынок AI больше не спешит. Он считает.

Если интересно следить за такими сдвигами в AI в более спокойном формате, загляни в Telegram-канал ProAI.

Там выходят короткие разборы инструментов, релизов и практических сценариев: перейти в канал

Не пропустите