C
ChaoBro

Китайские модели с открытым кодом догнали Claude/GPT на SWE-Bench: равная производительность при трети стоимости

Китайские модели с открытым кодом догнали Claude/GPT на SWE-Bench: равная производительность при трети стоимости

Основной вывод

«Китайский ИИ отстаёт на два года» — это утверждение больше не актуально в мае 2026 года.

Отчёт State of AI May 2026 раскрыл серьёзно недооценённый факт: китайские модели с открытым кодом, такие как DeepSeek V4 и Kimi K2.6, сравнялись с Claude Opus 4.7 и GPT-5.5 на SWE-Bench Pro, при этом стоимость API составляет лишь треть от их цены. Это не «приблизились» — это «сравнялись». Ещё важнее то, что способности передовых моделей к кибератакам удваиваются каждые 4 месяца, но китайские модели не отстают в скорости погони.

Сравнение результатов SWE-Bench Pro

Модель SWE-Bench Pro Стоимость API (относительная) Статус открытости
Claude Opus 4.7 Базовая линия 1,0x Закрытая
GPT-5.5 Базовая линия 1,0x Закрытая
DeepSeek V4 ≈ Базовая линия ~0,33x Открытый код
Kimi K2.6 ≈ Базовая линия ~0,33x Открытые веса
Gemini 3.1 Pro Близко к базовой 0,8x Закрытая
Grok 4.3 Немного ниже 0,4x Закрытая

Примечание: SWE-Bench Pro измеряет способность ИИ исправлять проблемы в реальных репозиториях GitHub — это самый практичный бенчмарк для программирования на сегодняшний день.

Почему этопогони важно

1. Преимущество в стоимости имеет структурный характер

Преимущество китайских моделей в стоимости — это не временная ценовая война, а следствие:

  • Зрелость архитектуры MoE: DeepSeek V4 и Kimi K2.6 используют смесь экспертов, при этом активированные параметры значительно меньше общего числа
  • Адаптация к отечественным вычислениям: Глубокое сотрудничество DeepSeek с Huawei Ascend снижает стоимость вывода
  • Инженерная оптимизация: Китайские модели в целом эффективнее по токенам, чем американские аналоги

2. Парадигмальные различия: открытый vs закрытый код

Параметр Китайские модели с открытым кодом Американские закрытые модели
Аудируемость Полная Чёрный ящик
Локальное развёртывание Поддерживается Не поддерживается
Кастомная дообучка Свободная Ограничена
Безопасность цепочки поставок Самоконтроль Зависимость от поставщиков США
Сообщество и экосистема Быстро растёт Закрытая

3. Скоростьпогони ускоряется

Способности передовых моделей удваиваются каждые 4 месяца, и скоростьпогони китайских моделей не отстаёт. Переход от DeepSeek V3 к V4 занял менее 6 месяцев; итерация Kimi от K2.5 к K2.6 была столь же быстрой.

Оценка ситуации

Влияние на американские модели

погони китайских моделей с открытым кодом сжимает ценовое пространство американских моделей. DeepSeek V4 уже самая дешёвая SOTA-модель (1/20 стоимости Opus 4.7), и если Kimi K2.6 и другие китайские модели присоединятся к ценовой войне, «высокая производительность + низкая стоимость» может стать новым лейблом китайских моделей.

Значение для корпоративных руководителей

Сценарий Рекомендуемое решение Причина
Исправление кода / Агентное программирование DeepSeek V4 / Kimi K2.6 Производительность равна, стоимость 1/3, локальное развёртывание
Творческое письмо / Мультимодальность Claude / GPT Ещё имеют преимущество
Сценарии с чувствительными данными Локальное развёртывание DeepSeek / Kimi Данные не покидают страну
Масштабные вызовы API DeepSeek V4 Соотношение цена-качество доминирует

Практические рекомендации

  • Техническим директорам: Приоритизируйте тестирование DeepSeek V4 и Kimi K2.6 в сценариях программирования и агентов — экономия может быть значительной
  • ИИ-инженерам: Возможность дообучения китайских моделей с открытым кодом означает, что вы можете глубоко оптимизировать их под вертикальные сценарии — чего закрытые модели делать не позволяют
  • Инвесторам: Следите за возможностями глобальной экспансии китайских компаний в области ИИ-моделей — «SOTA по соотношению цена-качество» — мощный глобальный нарратив