Дослідження Стенфордського університету кількісно оцінило те, що всі підозрювали — але результати не зовсім такі, як очікувалося.
Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як ваше джерело за замовчуванням, щоб бачити більше наших історій у Google.
Коротко
До середини 2025 року 35% новостворених вебсайтів були згенеровані за допомогою ШІ або за його сприяння, порівняно з нулем до запуску ChatGPT у листопаді 2022 року.
Підтверджені наслідки — семантичне скорочення та штучний позитив, а не дезінформація чи стилістична однорідність, попри те, що думає більшість.
За рівня поширеності ШІ 35% ризик колапсу моделі переходить від теоретичної стурбованості до емпіричної для наступного покоління фундаментальних моделей.
Нове дослідження надає числову оцінку частки штучного інтелекту в Інтернеті: 35%. Це частка новостворених вебсайтів, класифікованих як згенеровані за допомогою ШІ або створені за його сприяння до середини 2025 року, згідно з дослідженням Стенфордського університету, Імперського коледжу Лондона та Інтернет-архіву. Цей показник був практично нульовим до запуску ChatGPT у листопаді 2022 року.
«Я вважаю швидкість, з якою ШІ захоплює веб, просто вражаючою», — сказав 404 Media Джонаш Долежал, дослідник Імперського коледжу Лондона та співавтор статті. «Після десятиліть людського формування значна частина Інтернету за три роки була визначена ШІ».
Дослідження під назвою «Вплив тексту, згенерованого ШІ, на Інтернет» спиралося на 33 місяці знімків вебсайтів з Wayback Machine Інтернет-архіву та використовувало детектор тексту ШІ під назвою Pangram v3 для класифікації кожної сторінки.
Підтверджені шкідливі наслідки: атмосфера, а не факти
Дослідники перевірили шість гіпотез щодо впливу контенту ШІ на Інтернет. Лише дві з них витримали перевірку даними.
Перша: ми перетворюємося на натовп нерозумних NPC, що діють однаково… Або, науково кажучи, Інтернет стає менш семантично різноманітним.
Сайти, згенеровані ШІ, показали показники попарної семантичної подібності на 33% вищі, ніж написані людьми. Ті самі ідеї висловлюються майже однаковими способами.
Дослідження припускає, що онлайн-вікно Овертона звужується не через цензуру чи скоординовані кампанії, а тому, що мовні моделі оптимізують вихідні дані, наближаючи їх до розподілу, на якому вони навчалися.
Друга: Інтернет стає агресивно оптимістичним.
Контент ШІ показав показники позитивного настрою більш ніж на 107% вищі, ніж контент, створений людиною. Дослідники пов’язують це з добре документованими схильностями великих мовних моделей (LLM) до підлабузництва — навчені на сигналах схвалення від людей, вони створюють текст, який відчувається стерильним, позбавленим тертя та незмінно бадьорим.
Інтернет, наповнений бадьорим, гомогенізованим контентом, може маргіналізувати людський інакомислення у великих масштабах, незважаючи на відсутність навмисних дій.
Попри поширену громадську думку, дослідження не виявило статистично значущих доказів того, що контент ШІ робить Інтернет менш точним з фактичної точки зору. Дослідники не знайшли жодної значущої кореляції між поширеністю ШІ та рівнем фактичних помилок.
Гіпотеза про *стилістичну монокультуру* — зведення індивідуальних голосів до загального уніфікованого стилю за допомогою ШІ — була переконанням, яке респонденти підтримували найсильніше (83% погодилися). Дані цього не підтвердили. Аналіз символів не виявив статистично значущого збільшення стилістичної однорідності, пов’язаного з поширеністю ШІ.
Проблема колапсу моделі стала реальною
Ширші ставки виходять за межі якості дискурсу. При 35% поширеності ШІ, теоретичний ризик колапсу моделі — коли майбутні моделі деградують після навчання на даних, згенерованих ШІ — переходить від академічної стурбованості до емпіричної реальності. Майбутні фундаментальні моделі, навчені на сучасних веб-скануваннях, неминуче будуть поглинати дані, які значною мірою згенеровані ШІ та вимірювано менш семантично різноманітні.
Команда зараз працює з Інтернет-архівом над перетворенням дослідження на безперервний інструмент моніторингу в реальному часі, відстежуючи частку ШІ в Інтернеті, а не як одноразовий знімок.
Опитування в США, проведене паралельно з дослідженням, показало, що більшість американців вже вірять у всі шість негативних гіпотез, включаючи ті, які не підтверджуються даними. Люди, які рідко користуються ШІ, на 12% частіше вірили в негативні наслідки, ніж часті користувачі. Прихильники теорії «Мертвого Інтернету», зустрічайте дані: Інтернет не мертвий, але 35% нового контенту, ймовірно, є свого роду зомбі-контентом.
Погляд Crypto Top: Це дослідження підкреслює критичну потребу в децентралізованих обчислювальних мережах, які можуть протистояти семантичному скороченню та штучному позитиву, забезпечуючи більш надійну основу для майбутніх ШІ-агентів та смарт-контрактів. Це може призвести до зростання інвестицій у токени, що підтримують децентралізовані ШІ-інфраструктури, такі як FET або TAO, оскільки вони пропонують вирішення проблеми колапсу моделі.