Anthropic представила Claude Opus 4.8: новые функции и улучшения производительности

|
Anthropic представила Claude Opus 4.8: новые функции и улучшения производительности

Anthropic официально представила Claude Opus 4.8 — обновленную версию своей флагманской искусственной интеллектуальной модели. Разработчики подчеркивают, что она стала точнее в выявлении и признании собственных ошибок при написании кода, а также достигла более высоких результатов в ключевых бенчмарках по сравнению с предшественниками.

Об этом сообщает Finway

Новые возможности и результаты тестирований

Claude Opus 4.8 заменила версию 4.7, которая появилась в апреле 2026 года. По информации компании, новинка демонстрирует повышенную скорость и эффективность в различных тестах, а также сохраняет прежнюю ценовую политику — $5 за 1 млн входных токенов и $25 за 1 млн выходных.

Оценка Claude Opus 4.8 по ключевым тестам. Источник: Anthropic.

В бенчмарке SWE-Bench Pro, который оценивает способность ИИ исправлять реальные ошибки в коде, Claude Opus 4.8 достигла 69,2% против 64,3% у предыдущей версии и 58,6% у OpenAI GPT-5.5. В тесте OSWorld, который анализирует выполнение задач в рамках операционных систем, результат составил 83,4%. В бенчмарке GDPval-AA модель получила 1890 баллов, превысив показатель 1753 у версии 4.7. Однако в Terminal-Bench 2.1, который измеряет эффективность в терминальных средах, Opus 4.8 все еще уступает GPT-5.5.

В Humanity’s Last Exam (2500 вопросов из различных наук) Claude Opus 4.8 получила 49,8% без использования дополнительных инструментов и 57,9% с ними, опередив трех основных конкурентов. Компания Linkup отметила, что эта модель впервые успешно прошла все кейсы в рамках Super-Agent benchmark, сохраняя конкурентную цену.

Одной из главных инноваций Anthropic считается рост честности: модель в четыре раза реже скрывает ошибки в коде и меньше склонна к неподтвержденным утверждениям. По сравнению с Claude Mythos Preview, которая остается недоступной для широкой аудитории, Opus 4.8 не превышает ее в кибербезопасности, но приблизилась к лидирующим позициям во многих других тестах.

«Мы протестировали модель на наборе тестов по кибербезопасности, некоторые из которых мы использовали впервые в системной карте. Во время работы без мер безопасности Opus 4.8 демонстрирует несколько более высокие возможности, чем Claude Opus 4.7; с мерами безопасности его показатели сопоставимы. Он по-прежнему значительно отстает от Mythos Preview по кибер-возможностям», — говорится в отчете по модели.

Что касается обсуждения чувствительных тем, модель сохраняет прежний уровень, но теперь чаще признает существование противоположных точек зрения во время политических дискуссий. В то же время разработчики заметили, что Claude Opus 4.8 стала «немного менее удовлетворенной» своим положением по сравнению с предыдущей версией.

Внедрение новых функций и планы Anthropic

С выходом Claude Opus 4.8 компания внедрила ряд нововведений. Наиболее значительное из них — Dynamic Workflows в Claude Code, что позволяет использовать субагентов для деления задач на более мелкие части в рамках одной сессии, а результаты проверяются перед выдачей. Функция доступна пользователям тарифных планов Enterprise, Team и Max.

Кроме этого, появилась возможность выбора объема вычислений в селекторе модели (от Low до Max, стандартно — High), что влияет на глубину ответов и расход токенов. Доступно для всех тарифных планов. Режим Fast Mode стал дешевле почти в три раза, обеспечивая ускоренное выполнение запросов без потери качества.

Пользователи теперь могут уточнять и дополнять свои запросы во время выполнения задач — Claude больше не считывает весь контекст повторно. Также увеличены лимиты запросов в Claude Code, а в ближайшее время ожидается публичный релиз семейства Mythos, которое ранее считалось слишком опасным для открытого доступа.

Презентация Claude Opus 4.8 и анонс Mythos состоялись на фоне подготовки Anthropic к IPO. Компания недавно заключила несколько партнерских соглашений для расширения вычислительных мощностей. 28 мая 2026 года Anthropic объявила о закрытии инвестиционного раунда серии H с привлечением $65 млрд при оценке в $965 млрд — вдвое больше, чем в феврале этого года, и выше подтвержденной оценки OpenAI.

Привлеченные инвестиции будут направлены на масштабирование и укрепление позиций Anthropic в сфере высокопроизводительных вычислений. Выход новой модели, анонс Mythos и рост оценки компании усиливают конкуренцию с OpenAI, хотя ни одна из сторон пока не обнародовала конкретных сроков проведения IPO.