Нещодавній аналіз, проведений ШІ-стартапом Oumi на замовлення The New York Times, виявив, що згенеровані штучним інтелектом резюме AI Overviews, які з’являються над результатами пошуку Google, є точними приблизно у 91% випадків.
Масштаб проблеми дезінформації
Хоча 91% точності може здатися вражаючою цифрою, реальність є значно тривожнішою. Google обробляє приблизно 5 трильйонів пошукових запитів щорічно. Це означає, що AI Overviews надають десятки мільйонів неправильних відповідей щогодини та сотні тисяч щохвилини, згідно з розрахунками аналізу. Іншими словами, Google створив кризу дезінформації.
Когнітивна капітуляція перед ШІ
Дослідження показують, що люди схильні беззастережно довіряти інформації, наданій штучним інтелектом. Один звіт виявив, що лише 8% користувачів фактично перевіряли відповіді ШІ. Інший експеримент показав, що користувачі продовжували довіряти ШІ майже у 80% випадків, навіть коли той надавав неправильну інформацію. Дослідники назвали цю тенденцію «когнітивною капітуляцією».
Причини неточності AI Overviews
- Великі мовні моделі (LLM) переймають авторитетний тон і можуть впевнено представляти вигадану інформацію як факт, коли не можуть негайно отримати пряму відповідь.
- Зручність, яку пропонують AI Overviews від Google, призводить до того, що користувачі часто сприймають ці резюме на віру без перевірки.
- «Проблема з поганими AI Overviews закладена в самій їхній конструкції. Вони розроблені для швидкості, а не для точності, і це призводить до помилок у медичній інформації, які можуть бути небезпечними для життя», — зазначає Джина Нефф, професорка відповідального ШІ в Університеті Королеви Мері.
Методологія дослідження Oumi
Компанія Oumi провела аналіз за допомогою тесту SimpleQA — загальновизнаного еталону точності ШІ, розробленого OpenAI.
- Перший раунд тестів у жовтні використовував версію AI Overviews на базі моделі Google Gemini 2.
- Наступна перевірка в лютому протестувала функцію після її оновлення до Gemini 3.
- Кожен раунд тестів включав 4 326 пошукових запитів у Google.
Результати та висновки
Gemini 3 показала вищу точність, надавши фактично обґрунтовану відповідь у 91% випадків. Gemini 2 мала значно гірші результати — лише 85% точності.
Хоча це свідчить про вдосконалення моделей, це також означає, що Google був готовий розгорнути модель, яка була ще більш схильна до «галюцинацій» (генерації неправдивої інформації), серед мільйонів користувачів. Google назвав аналіз помилковим.
📈 Більше новин про крипто-світ читайте на CryptoTop.info!
