Хронософер берёт на себя миссию: как стартап за $1,6 млрд делает отладку ИИ-эры понятной для инженеров

Хронософер берёт на себя миссию: как стартап за $1,6 млрд делает отладку ИИ-эры понятной для инженеров

Когда код пишется быстрее, чем его можно починить

Представьте: ваша команда разработчиков благодаря ИИ пишет код в два раза быстрее, чем раньше. Классно, правда? Но вот беда — когда что-то ломается в продакшене, вам всё равно приходится часами копаться в логах и метриках. Звучит несправедливо, и это действительно так.

Стартап Chronosphere из Нью-Йорка, недавно оценённый в $1,6 млрд, заметил эту проблему и решил её взять. На этой неделе компания объявила о запуске AI-Guided Troubleshooting — функций, которые помогают инженерам находить и исправлять сбои в production быстрее. И это не просто ещё одно ИИ-решение с красивыми демками.

Исследования показывают дикие цифры: объёмы логов растут на 250% год за годом, а ИИ-инструменты ускорили разработку на 13,5% (то есть коммиты в git тек посильнее). Но отладка? Она остаётся почти полностью ручной. Вот и получается: скорость разработки взлетела, а скорость починки осталась на месте. Дисбаланс налицо.

Temporal Knowledge Graph: живая карта вашей системы

Основа новых возможностей Chronosphere — это то, что компания назвала Temporal Knowledge Graph. Звучит сложно, но идея проста: это постоянно обновляемая карта всех сервисов, зависимостей между ними и того, как всё это менялось во времени.

Мартин Мао, CEO и соучредитель Chronosphere, объяснил это так: система stitches вместе телеметрию (метрики, traces, логи), контекст инфраструктуры, события изменений (вроде деплоев и feature flags), даже заметки инженеров. И это всё в одной queryable карте, которая живёт и эволюционирует вместе с вашей системой.

А чем это отличается от того, что предлагают конкуренты типа Datadog или Dynatrace? Они показывают топологию (как сервисы связаны сейчас), а Chronosphere добавляет ещё временное измерение. Система видит не просто «сервис A зависит от сервиса B», но и «B сломался ровно после деплоя версии X, и это повлияло на A через 3 минуты». Разница огромная.

Плюс ещё момент: большинство платформ работают со стандартными интеграциями (Kubernetes, популярные облака). Chronosphere старается нормализовать custom-телеметрию — те особые сигналы, которые только у вас в приложении. Это важно, потому что именно там часто живут самые полезные clues.

ИИ должен показывать свою работу, а не принимать решения в тени

Вот что действительно интересует: Chronosphere не просто автоматизирует всё. Компания сделала сознательный выбор — держать инженеров в курсе.

Мао называет это проблемой «confident-but-wrong guidance»: ИИ-системы часто дают уверенный ответ, который оказывается неправильным, и команда тратит часы на dead ends. Chronosphere делает наоборот. Система предлагает Suggestions (конкретные шаги расследования), но показывает и evidence — timing, dependencies, error patterns. Есть даже кнопка «Почему это предложено?», чтобы инженер мог посмотреть, что система проверила и что отклонила.

Вот конкретный пример: срабатывает SLO alert на Checkout. Chronosphere тут же выдаёт ranked suggestion: ошибки похоже начались в зависимом Payment-сервисе. Инженер может кликнуть, посмотреть графики и рассуждения системы. Если всё сходится, он идёт копать дальше. И система не просто «делает» — она ещё и запоминает весь путь в Investigation Notebook. Каждый шаг, каждый взгляд на данные, каждое решение. Это потом помогает следующему инциденту быть быстрее.

Как $1,6 млрд стартап влезает в драку с Datadog и компанией

Рынок observability — это горячее место. Datadog (публичная компания, оценка $40+ млрд) уже запустила свои ИИ-фичи для troubleshooting. То же сделали Dynatrace и Splunk. Все кричат о своём всё-в-одном решении и single-pane-of-glass видимости.

Но Chronosphere видит проблему по-другому. Первое поколение «ИИ для observability» в основном занимается pattern-spotting и summarization. Звучит круто на демке, но на живых инцидентах это часто падает. Система может найти correlation между аномалиями и написать красивое объяснение, но это не то же самое, что найти root cause и объяснить causal chain.

Плюс та проблема с custom telemetry, о которой выше: большие LLMs на стандартных платформах просто фантазируют, когда данных недостаточно. Результат: confident-but-wrong guidance.

Авторитет Chronosphere подтвердил Gartner — в июле назвал компанию Leader в 2025 Magic Quadrant для observability (уже второй год подряд). И в December 2024 Chronosphere поделила first place в Gartner Peer Insights с рейтингом 4.7 из 5.

Но конкуренция серьёзная. UBS аналитики заметили, что даже OpenAI одновременно запустила и Datadog, и Chronosphere для мониторинга GPU-ворклоадов. Это намёк: даже AI-лидеры ищут альтернативы.

84% снижение затрат: что на самом деле считать

Помимо техники, Chronosphere построила позицию на cost control — это критично, потому что observability spending взлетает в небеса. Компания заявляет о 84% среднем снижении объёмов данных и затрат, плюс урезание критических инцидентов на 75%.

Когда просишь реальные примеры, Mao перечисляет: Robinhood видит 5x улучшение reliability и 4x улучшение Mean Time to Detection. DoorDash использовала Chronosphere для governance и стандартизации мониторинга. Astronomer срезала затраты на 85% через shaping данных на ingest. Affirm масштабировалась 10x в Black Friday без проблем.

Это важно потому, что по данным аналитиков, более 70% observability бюджета уходит на хранение логов, которые никогда не читают. Драма.

Для CIO’шек, уставших от «ИИ-powered» объявлений, Mao честно говорит: скептицизм оправдан. Вот что реально проверять: прозрачность (система показывает своё мышление?), покрытие custom telemetry, количество ручной работы, которое вы не делаете.

Пять партнеров вместо универсального монстра

Вместе с объявлением про AI troubleshooting Chronosphere показала новую Partner Program. Пять специализированных вендоров: Arize (LLM мониторинг), Embrace (real user monitoring), Polar Signals (continuous profiling), Checkly (synthetic monitoring), Rootly (incident management).

Это ставка против всё-в-одном платформ, которые доминируют. Мао говорит: маленьким организациям может хватить one-stop-shop, но глобальные enterprises хотят best-in-class в каждом домене. Поэтому они выбрали модель лучших специализированных инструментов с гладкими интеграциями.

Партнёры подтверждают: Noah Smolen (Arize) заметил, что Fortune 500 customers ставят высокие requirements для AI agent систем, и integrated stack Chronosphere+Arize это решает. JJ Tang (Rootly) говорит про 78% снижение repeat Sev0/Sev1 инцидентов.

На вопрос о затратах с несколькими контрактами vs одна платформа Mao честно: сейчас клиенты обычно держат отдельные контракты. Но общая стоимость всё равно ниже, чем один all-in-one. И качество observability получается рicher и более unified, особенно на больших scale’ах.

В планах упростить — перейти на единый контракт, это будет проще с procurement и faster to value.

От Halloween outages в Uber к billion-dollar startup

История началась в 2019. Мао и соучредитель Rob Skillington ушли из Uber, где строили observability платформу для ride-hailing гиганта. Там была драматичная ситуация: система отказывала ровно в самые пиковые дни — Halloween и New Year’s Eve. Представьте: в самый критичный момент теряете видимость, видите ли ли люди кнопку заказа, видят ли водители пассажиров.

Они построили решение на open-source софте, которое позволило Uber работать без outages даже в peak moments. Но real insight пришёл в декабре 2018 на конференции, когда облачные провайдеры встали за Kubernetes.

Мао вспомнил: это означало, что в итоге у всех архитектуры будут выглядеть как у Uber. А значит, каждая компания, а не только big tech и Walmart, столкнётся с той же проблемой, которую они решили.

С тех пор Chronosphere собрала $343+ млн funding от Greylock (lead investor), Lux Capital, General Atlantic, Addition, Founders Fund. Компания работает как remote-first организация с офисами в Нью-Йорке, Остине, Бостоне, Сан-Франциско и Сиэтле. На LinkedIn примерно 299 человек в команде.

Клиентов список впечатляет: DoorDash, Zillow, Snap, Robinhood, Affirm — в основном high-growth tech компании с cloud-native Kubernetes инфраструктурой на massive scale.

Что доступно сейчас, что ждать в 2026

AI-Guided Troubleshooting (Suggestions и Investigation Notebooks) вошли в limited availability на этой неделе. Full general availability планируется на 2026. А вот Model Context Protocol Server (позволяет интегрировать Chronosphere в AI workflows и запрашивать observability данные через AI-enabled dev environments) доступен уже сейчас для всех клиентов.

Пошаговый rollout — это осторожный подход. В production среде ошибки стоят дорого, поэтому компания собирает feedback от early adopters, рефайнит алгоритмы, валидирует, что suggestions действительно ускоряют troubleshooting, а не просто выглядят классно.

Но это не только про feature releases. Chronosphere делает фундаментальную ставку: на transparent ИИ, который объясняет свои рассуждения и не боится сказать «не знаю»; и на ecosystem партнёров вместо monolithic integration.

Если эта ставка правильная, то observability для ИИ-эры решит не тот, у кого самый автоматизированный чёрный ящик. Решит тот, кто заработает доверие инженеров тем, что показывает работу, признаёт ограничения и дает людям последнее слово. В индустрии, которая тонет в данных и silver bullet обещаниях, Chronosphere ставит на то, что показывать работу — это всё ещё важно. Даже когда ИИ считает.

Мир observability и ИИ-инструментов меняется очень быстро, и новые решения появляются чуть ли не каждый день. Если вы хотите не пропустить действительно важные новости в этой области — следите за новинками.

🔔 Чтобы узнать больше об observability, ИИ-инструментах для разработчиков и следить за новостями мира ИИ, подпишитесь на мой канал «ProAI» в Telegram!

Не пропустите