GPT-4.5 впоралася з тристороннім тестом Тьюринга
Дослідники провели тристоронній тест Тьюринга для чотирьох ІІ-систем – ELIZA, GPT-4o, LLaMa-3.1-405B та GPT-4.5. Остання набрала найвищий бал.
В опублікованій 31 березня роботі Кемерон Джонс та Бенджамін Берген із Кафедри когнітивних наук Каліфорнійського університету в Сан-Дієго поділилися результатами експерименту.
Вони застосували оригінальну тристоронню версію тесту – учасники вели п'ятихвилинні розмови одночасно з іншим співрозмовником та однією з ІІ-систем, після чого визначали, кого із співрозмовників вважають людиною. Такий варіант є складнішим у порівнянні з тестом, де люди спілкуються тільки з машиною.
У 73% випадків піддослідні вважають GPT-4.5 людиною. Інші ІІ набрали меншого результату:
- LLaMa-3.1 – 56%;
- ELIZA – 23%;
- GPT-4o – 21%.
«Отримані дані є першим емпіричним доказом того, що штучна система проходить стандартний тристоронній тест Тьюринга», — зазначили дослідники.
Тест Тьюринга — концептуальний тест, запропонований британським математиком Аланом Тьюрингом 1950 року визначення можливості комп'ютера демонструвати інтелектуальне поведінка, невідмінне від людського.
Суть тесту:
Тест Т'юрінга неодноразово проводився серед популярних ІІ-моделей. Так, у червні 2024 року люди не змогли відрізнити ChatGPT від співрозмовника-людини у 54% випадків. ELIZA тоді набрала 22%, GPT-3.5 – 50%, людина – 67%.
У 2023 році в аналогічному дослідженні від Джонса GPT-4 набрав 41%, GPT-3.5 – 14%, ELIZA – 27%. Люди тоді здобули 63%.
Нагадаємо, у лютому 2025 року OpenAI випустила нову версію чат-бота GPT-4.5 з просунутим «емоційним інтелектом».
Источник: cryptocurrency.tech