Нове дослідження показало, що п’ять передових моделей ШІ не змогли дійти згоди щодо 67% з 1000 реальних тверджень, які вони перевіряли.

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleЗробіть Decrypt вашим улюбленим джерелом, щоб бачити більше наших історій у Google.
Ключові моменти
- П’ять передових моделей ШІ не дійшли згоди щодо 67% з 1000 реальних тверджень для перевірки фактів.
- Одностайна згода була досягнута лише щодо 328 тверджень.
- При показнику Криппендорфа альфа 0.639 моделі не досягають порогу надійності 0.8.
Задайте п’ятьом найсучаснішим системам штучного інтелекту (ШІ) питання щодо правдивості певного твердження, і в двох третинах випадків щонайменше одна модель надасть вам відмінну відповідь. Такий висновок нового дослідження, опублікованого цього місяця дослідником Костою Джордановим з Lenz Research.
Дослідження надало моделям GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro with Search та Sonar Pro однакові 1000 реальних тверджень для перевірки фактів, поданих реальними користувачами. Моделі мали обрати один з чотирьох ярликів: “правда”, “переважно правда”, “вводить в оману” або “брехня”.

Щодо 672 з 1000 тверджень, щонайменше одна модель відхилилася від більшості. У 34% випадків розбіжність була значною: одна модель назвала твердження правдивим, тоді як інша – брехливим.
«Це не тестові елементи з загальнодоступними ключами відповідей — це твердження, які реальні користувачі подавали для перевірки на платформу фактчекінгу», — йдеться в дослідженні. «Лише один ярлик може бути правильним для кожного твердження, тому будь-яка розбіжність між моделями означає, що щонайменше одна з них надала непослідовну відповідь згідно з цією чотирирівневою системою оцінювання».
Попередні дослідження щодо “галюцинацій” ШІ показували, що чат-боти вигадують факти. Це одна проблема. Ця ж ситуація є іншою. Моделі не обов’язково вигадують інформацію, вони просто не можуть домовитися щодо базових фактичних суджень про один і той самий матеріал.
Дослідження використовувало такий метод, який ускладнює пояснення з боку компаній-розробників ШІ. Замість того, щоб брати твердження зі стандартних тестових наборів — тих, які часто потрапляють до навчальних даних — дослідники використовували твердження, подані реальними людьми на платформі фактчекінгу Lenz. «Більшість цих тверджень навряд чи з’являться в будь-якому навчальному корпусі з прив’язаною “золотою” міткою — немає канонічного ключа відповіді для зіставлення зразків, немає референтної таблиці лідерів», — зазначається в роботі.
Статистичний показник узгодженості, відомий як альфа Криппендорфа, склав 0.639 за шкалою, де 1.0 означає ідеальну узгодженість, а 0 — випадковий збіг. Дослідження вказує, що це свідчить про «нетривіальну, але обмежену узгодженість». «Вердикти моделей структуровані, а не випадкові, але недостатньо послідовні, щоб розглядати панелі як єдиного взаємозамінного суддю», — зазначають дослідники. Загалом дослідники вважають показник нижче 0.8 слабким.
Коли всі п’ять моделей погоджувалися — що траплялося лише щодо 328 з 1000 тверджень — вони майже ніколи не погоджувалися, що щось було “вводить в оману” або “переважно правда”. Лише чотири твердження отримали одностайний вердикт “вводить в оману”. Жодне не отримало одностайного вердикту “переважно правда”.
Дослідники навели приклади тверджень, щодо яких моделі ШІ показали найбільші розбіжності, зокрема: “Активне портфоліо Світового банку в Нігерії становить понад 16,4 мільярда доларів станом на 2025 рік”. ChatGPT 5.4 назвав його “переважно правдивим”, тоді як Gemini 3 Pro – “брехнею”, а його аналогічна модель Gemini 3 Pro + Search – “вводить в оману”.
В іншому прикладі моделям було надано твердження: “Дональд Трамп заявив, що напад на Іран було відкладено на прохання союзників з Перської затоки”. GPT-5.4 назвав його брехнею, Claude Opus 4.7 – переважно правдою, Gemini 3 Pro – брехнею, а Gemini 3 Pro + Search – правдою.
“Панелі моделей збігаються в остаточних вердиктах; середина шкали оцінювання є місцем, де відбувається розкол”, — виявили дослідники. Одностайність виникала лише на крайніх значеннях: або твердження було однозначно правдивим, або однозначно брехливим.
Це важливо, оскільки люди все частіше звертаються до систем ШІ для перевірки фактів. Якщо ви вставите твердження з новинної статті в ChatGPT, Claude або Gemini, ви можете отримати три різні відповіді. Якій з них довіряти?
Компанії-розробники ШІ люблять розповідати про те, наскільки точнішими стають їхні моделі. Вони публікують результати тестів, що демонструють стабільне вдосконалення. Однак дослідження Lenz перевірило ці моделі на складних, неоднозначних твердженнях, які реально обговорюють люди — і виявило, що моделі також сперечаються.
У звіті це чітко зазначено: “Більшість передових моделей не є істиною в останній інстанції. Вердикт більшості іноді буває помилковим; окрема модель, що не погоджується, іноді буває права. Ми використовуємо більшість як структурну відправну точку для вимірювання розбіжності, а не як заміну правильності”.
Існує глибша проблема, прихована в цифрах. Коли моделі не погоджуються, щонайменше одна з них повинна бути помилковою — дослідження називає вердикт моделі “непослідовним згідно з цією чотирирівневою системою оцінювання”. Немає механізму вирішення суперечок, немає апеляційного суду. Нещодавні звіти про надійність ШІ викликають подібні застереження.
З 328 тверджень, щодо яких усі п’ять моделей погодилися, жодне не отримало одностайного вердикту “переважно правда”. Бакет для нюансів виявився повністю порожнім. Якщо моделі ШІ можуть знайти консенсус лише на крайніх значеннях, чи можна взагалі довіряти їм як перевіреним фактів?
Погляд Crypto Top: Ця розбіжність у вердиктах ШІ підкреслює потребу в децентралізованих системах перевірки фактів, де блокчейн може забезпечити прозорість та незмінність результатів. Інтеграція ШІ-агентів з розумними контрактами може створити нові механізми для незалежної верифікації інформації, зменшуючи залежність від окремих централізованих моделей.
Джерело: decrypt.co
