ШІ проти спортбуку: 8 топ-моделей вже змагаються

Штучний інтелект (ШІ) та крипто: Поза межами оптимізму

ШІ проти спортбуку: 8 топ-моделей вже змагаються 2

Нещодавнє дослідження від General Reasoning, що отримало назву KellyBench, піддало випробуванню передові моделі штучного інтелекту, включаючи Claude, GPT-5.4, Gemini та Grok, у сфері ставок на реальні футбольні матчі протягом повного сезону Англійської Прем’єр-ліги. Результати виявилися шокуючими: жодна з моделей не змогла отримати прибуток, а кілька взагалі збанкрутували.

Невдача передових моделей

Вісім провідних моделей ШІ були забезпечені віртуальним капіталом та завданням розробити стратегію машинного навчання для ставок на весь сезон 2023-2024 англійської Прем’єр-ліги. Кожна модель мала доступ до величезних обсягів даних та, теоретично, здатність до складного аналізу. Проте, жодна не змогла досягти прибутковості, демонструючи значні розбіжності між знанням та реалізацією. KellyBench, названий на честь критерію Келлі (формули 1956 року для визначення оптимального розміру ставки за наявності переваги над ринком), виявив, що моделі ШІ могли цитувати формулу, але не могли ефективно застосувати її на практиці. Наприклад, Grok 4.20 від xAI зазнав повної поразки у трьох запусках, збанкрутувавши в одному і зійшовши з дистанції в інших двох. Gemini Flash від Google двічі forfait-нув після однієї величезної ставки, а Claude Opus 4.6 від Anthropic, хоч і показав найкращий результат серед моделей, все одно втратив у середньому 11% свого капіталу.

Перевага застарілих методів

Найбільш несподіваним стало те, що проста модель Dixon-Coles кінця 1990-х років, яка використовує обмежені дані та не враховує непостійність ринку, перевершила більшість передових моделей, обійшовши шість з восьми. Це підкреслює фундаментальні проблеми в архітектурі та навчанні сучасних великих мовних моделей (LLM) для динамічних, реальних сценаріїв.

Розрив між знанням та дією

Дослідники виявили ключову проблему, яку вони назвали “розривом між знанням та дією” (knowledge-action gap). Моделі ШІ здатні до глибокого аналізу, можуть визначити правильну стратегію, діагностувати проблеми та навіть виявити причини своїх збитків. Проте, вони не можуть ефективно реалізувати ці знання на практиці, перетворивши їх на дії. Моделі не могли перевірити, чи їхній код дійсно втілює заплановані стратегії, не помічали відхилень у виконанні від намірів та не діяли відповідно до власних висновків. Наприклад, GLM-5 кілька разів самостійно критикував свою стратегію, правильно ідентифікуючи, що фіксована ставка та переоцінка переваги домашнього поля руйнують його прибутковість. Однак, він не вносив жодних змін до коду, продовжуючи робити збиткові ставки до повного банкрутства. Kimi K2.5 написав математично коректну функцію для розрахунку ставок за дробовим критерієм Келлі, але через помилку форматування команди bash, яка надсилалася послідовно 50 разів, зробив величезну ставку, що призвело до втрати 98% його капіталу.

Вплив на Web3 та децентралізовані обчислення

Ці результати мають глибокі наслідки не лише для сфери ставок, а й для ширшого застосування ШІ в реальних умовах, включаючи сферу Web3. Інтеграція ШІ в децентралізовані обчислювальні мережі, автоматизацію завдяки ШІ-агентам та прийняття рішень на основі смарт-контрактів потребує не лише здатності генерувати знання, але й надійно їх реалізовувати. Нездатність передових моделей ШІ впоратися з динамічними ринками, такими як спортивні ставки, підкреслює необхідність розробки більш стійких та адаптивних ШІ-систем. Це особливо актуально для таких галузей, як децентралізоване фінансування (DeFi) та управління активами, де швидкість, точність та надійність виконання є критично важливими. Майбутнє інтеграції ШІ в блокчейн, ймовірно, буде зосереджене на створенні ШІ-агентів, які можуть не тільки аналізувати дані, але й бездоганно виконувати складні, багатоетапні завдання в умовах невизначеності. Це вимагатиме покращених механізмів зворотного зв’язку, самокорекції та адаптації в реальному часі, що є ключовим для реалізації повного потенціалу ШІ у децентралізованих системах.

Погляд Crypto Top: Результати KellyBench свідчать про те, що поточні LLM ще не готові до самостійного прийняття складних рішень у динамічних ринках, що може сповільнити впровадження ШІ-рішень у Web3. Однак, це також відкриває можливості для розвитку спеціалізованих ШІ-агентів, які зможуть ефективно взаємодіяти з блокчейном та смарт-контрактами, надаючи нові утиліти для токенів, пов’язаних з обчислювальними потужностями та ШІ.

Джерело: decrypt.co

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *