Оцінка NIST: Китайська модель DeepSeek V4 Pro відстає від передових американських розробок, але методологія викликає запитання
Створіть обліковий запис, щоб зберегти статті.Додати в GoogleДодайте Decrypt як джерело за замовчуванням, щоб бачити більше наших історій у Google.
Коротко
Оцінка CAISI поставила DeepSeek V4 Pro на вісім місяців позаду від американського лідерства, використовуючи систему оцінювання на основі IRT (Item Response Theory) за дев’ятьма бенчмарками, включно з двома приватними, неперевіреними наборами даних.
Порівняння витрат виключило всі американські моделі, визнані занадто дорогими або занадто слабкими, залишивши лише GPT-5.4 mini, проти якого DeepSeek виявився дешевшим на п’яти з семи бенчмарків.
Індекс AI Index 2026 від Стенфорду показав, що розрив у продуктивності між США та Китаєм на публічних лідербордах скоротився до 2,7%.
Урядовий інститут США опублікував свій вердикт щодо найпотужнішого штучного інтелекту Китаю: він відстає на вісім місяців, і цей розрив зростає з часом. Інтернет-спільнота ознайомилася з методологією і почала ставити запитання.
CAISI — Центр стандартів та інновацій у сфері ШІ, підрозділ NIST — 1 травня оприлюднив свою оцінку DeepSeek V4 Pro. Висновок: флагманська модель DeepSeek з відкритим кодом «відстає від передових розробок приблизно на 8 місяців».
CAISI також називає її найпотужнішою китайською моделлю ШІ, яку вони коли-небудь оцінювали.
Система оцінювання
CAISI не усереднює оцінки бенчмарків, як це роблять більшість аналітиків. Натомість, вони застосовують Теорію відповіді на елементи (IRT) — статистичний метод зі стандартизованого тестування. Цей підхід дозволяє оцінити приховану спроможність кожної моделі, відстежуючи, які завдання вона вирішує, а які ні, на основі дев’яти бенчмарків у п’яти доменах: кібербезпека, розробка програмного забезпечення, природничі науки, абстрактне мислення та математика.
Результати оцінювання за системою IRT (ELO-бали): GPT-5.5 — 1260 балів, Claude Opus 4.6 від Anthropic — 999. DeepSeek V4 Pro набирає близько 800 балів (±28), що дуже близько до GPT-5.4 mini — 749. За системою CAISI, DeepSeek знаходиться ближче до попереднього покоління GPT mini, ніж до Opus.
Система балів у бенчмарках оцінює моделі так само, як стандартизовані тести оцінюють студентів — не за сирим відсотком правильних відповідей, а з урахуванням того, які завдання вони виконали, а які ні. Це дає оцінку балів, яка має значення лише відносно інших моделей у тому ж тестуванні. Чим вищий бал, тим кращою є модель у загальному розумінні, причому результат найкращої моделі стає референтною точкою для оцінки спроможності інших.
Відтворити результати CAISI неможливо, оскільки два з дев’яти бенчмарків є непублічними. Саме в цих двох бенчмарках розрив є найбільшим. Наприклад, GPT-5.5 набрав 71% на CTF-Archive-Diamond, одному з тестів CAISI з кібербезпеки, тоді як DeepSeek показав результат близько 32%.
На публічних бенчмарках картина змінюється. GPQA-Diamond — наукове міркування рівня PhD (оцінюється як відсоток правильних відповідей) — поставило DeepSeek на 90%, на один пункт позаду Opus 4.6 (91%). Математичні олімпіадні бенчмарки (OTIS-AIME-2025, PUMaC 2024, SMT 2025) показали результати DeepSeek на рівні 97%, 96% та 96% відповідно. На SWE-Bench Verified — реальні виправлення помилок GitHub (оцінюється як відсоток вирішених завдань) — DeepSeek набрав 74%, тоді як GPT-5.5 — 81%. У власному технічному звіті DeepSeek стверджує, що V4 Pro відповідає Opus 4.6 і GPT-5.4.
Для порівняння витрат CAISI відфільтрував будь-які американські моделі, які значно гірше працювали або коштували значно дорожче за токен, ніж DeepSeek. Лише одна модель пройшла цей фільтр: GPT-5.4 mini. Це вся американська “передова лінія”, зведена до одного запису.
DeepSeek виявився дешевшим на 5 із 7 бенчмарків, перевершивши навіть найменшу та найменш потужну ШІ-модель OpenAI.
Контраргумент: Розрив більший чи менший?
Критика методології CAISI не повністю виправдовує DeepSeek. Розробник ШІ під псевдонімом Ex0bit прямо заявив: «Немає жодного «розриву», і ніхто не відстає на 8 місяців. Нас тролили з кожним закритим американським релізом, а з відкритими вагами ми доводили свою перевагу».
There’s no ‘gap’, and no one’s 8 months behind. We’ve been trolled on every closed U.S drop and flexed on with open weights. https://t.co/dhbDb43b6P pic.twitter.com/kl0kAecmyO
— Eric (@Ex0byt) May 2, 2026
Індекс штучного аналізу (Artificial Analysis Intelligence Index) v4.0 — система рейтингування, яка відстежує інтелект передових моделей за 10 оцінками — станом на травень 2026 року показує OpenAI близько 60 балів, а DeepSeek — у районі 50 балів. Це значно менший розрив, ніж рік тому.
Базуючись на стандартизованих бенчмарках, їхня методологія показує, що розрив насправді зменшується.
Коли DeepSeek вперше з’явився в січні 2025 року, постало питання, чи Китай вже наздогнав лідерів. Американські лабораторії поспішили відповісти. AI Index 2026 від Стенфорду, опублікований 13 квітня, повідомляє, що розрив на Arena leaderboard між Claude Opus 4.6 та китайським Dola-Seed-2.0 Preview скоротився і зараз становить лише 2,7%.
CAISI планує опублікувати детальний опис методології IRT найближчим часом.
Погляд Crypto Top: Інтеграція передових ШІ-моделей, таких як DeepSeek V4 Pro, в екосистему Web3 може революціонізувати децентралізовані обчислення та створення ШІ-агентів. Це потенційно підвищить цінність токенів, що використовуються для доступу до цих ресурсів або участі в їх управлінні.