Нове дослідження визначає, що провідні моделі ШІ досі поступаються людям у візуальному математичному міркуванні.

Створіть обліковий запис, щоб зберігати статті.Додати в GoogleДодайте Decrypt як бажане джерело, щоб бачити більше наших історій у Google.
Коротко
- MATHVISTA, створений на основі понад 6000 анотованих точок даних від Sahara AI, тестує моделі ШІ на мультимодальне математичне міркування.
- GPT-4V показав результат 49,9%, найвищий серед 12 протестованих моделей, але все ще на 10,4 відсоткових пункти нижче людської продуктивності.
- Дослідники стверджують, що прогрес у напрямку загального штучного інтелекту (AGI) може залежати менше від розміру моделі, ніж від кращого навчання та даних для оцінки.
Загальний штучний інтелект, або AGI, часто описується як система, що може виконувати завдання в багатьох доменах так само, як це роблять люди. Результати, опубліковані цього тижня за результатами бенчмарк-тесту MATHVISTA, показують, що сучасні моделі все ще не досягли цієї мети.
Дослідники з Microsoft Research, Sahara AI та Університету Еморі протестували можливості, центральні для загального інтелекту, зокрема математичне міркування, що ґрунтується на візуальній інформації, такій як діаграми, графіки та схеми.
З 12 протестованих фундаментальних моделей, включаючи ChatGPT, Gemini та Claude, GPT-4 Vision показав найвищий результат – 49,9%. Середній показник людських учасників становив 60,3%, що підкреслює розрив між сучасними системами ШІ та ширшими міркувальними здібностями, які часто асоціюються з AGI.
«Ми хочемо, щоб машина виконувала завдання, які звичайна, пересічна людина може виконувати для своїх щоденних потреб», — розповів Decrypt головний дослідник Microsoft Research Хао Ченг. «Це, по суті, те, до чого прагне кожен для AGI».
Подаючи завдання у вигляді зображень, діаграм та графіків, проєкт перевіряє, чи можуть моделі точно інтерпретувати візуальну інформацію та вирішувати багатоетапні математичні та логічні задачі — навички, що виходять за межі простого розпізнавання закономірностей у тексті.
З цими завданнями моделі все ще борються, і виміряти це обмеження складно.
Коли команда Ченга переглядала наявні набори даних для оцінки, багато з них містили завдання, які не вимагали візуального міркування. Моделі часто досягали правильних відповідей, покладаючись виключно на текст.
«Що не є ідеальним», — зазначив Ченг.
MathVista, доступний на GitHub та Hugging Face, був запущений у жовтні 2023 року. З того часу його було завантажено понад 275 000 разів, включно з понад 13 000 завантажень за останній місяць, за даними Microsoft Research.
Однак створення набору даних вимагало більше, ніж стандартне маркування даних. Microsoft Research потребувала анотаторів, які могли б розв’язувати задачі з арифметики, алгебри, геометрії та статистики, одночасно розрізняючи глибші математичні міркування, такі як інтерпретація графіків або розв’язання рівнянь, від простіших завдань, як-от підрахунок об’єктів чи читання чисел.
Після пілотного етапу Microsoft обрала Sahara AI для підтримки цього зусилля. Компанія надала навчених анотаторів, спеціалізовані робочі процеси та багаторівневі перевірки якості для створення понад 6000 мультимодальних прикладів, використаних у бенчмарку.
Без надійних бенчмарків вимірювати прогрес у напрямку ширшого машинного інтелекту стає складно, вважає Шон Рен, генеральний директор Sahara AI та доцент кафедри комп’ютерних наук у USC.
«Існує ця тонкість забруднення даних, коли після того, як ми починаємо використовувати цей набір даних для тестування, ці результати поглинаються наступною версією», — розповів Рен Decrypt. «Тож ви насправді не знаєте, чи вони просто розв’язують набір даних, чи вони мають цю здатність».
Якщо відповіді з бенчмарку з’являються в навчальних даних моделі, високі показники можуть відображати запам’ятовування, а не міркування. Це ускладнює визначення того, чи насправді покращуються системи ШІ.
Дослідники також вказують на обмеження навчальних даних. Значна частина загальнодоступного Інтернету вже була включена до наборів даних моделей.
«Вам безумовно потрібен якийсь спосіб впровадити нові знання в цей процес», — сказав Ченг. «Я думаю, що такого роду речі повинні надходити з високоякісних даних, щоб ми могли фактично зламати цю межу знань».
Один із запропонованих шляхів включає симульовані середовища, де моделі можуть взаємодіяти, навчатися на досвіді та вдосконалюватися через зворотний зв’язок.
«Ви створюєте двійковий світ або дзеркало реального світу всередині деякого пісочниці, щоб модель могла грати і робити багато речей, які люди роблять у реальному житті, щоб вона могла, по суті, зламати межу Інтернету», — сказав Ченг.
Рен зазначив, що люди все ще можуть відігравати важливу роль у вдосконаленні систем ШІ. Хоча моделі можуть швидко генерувати контент, люди краще його оцінюють.
«Цей розрив між людьми та ШІ, в чому вони сильні, а в чому ні, може бути використаний для дійсно покращення ШІ в майбутньому», — сказав він.
Погляд Crypto Top: Здатність ШІ до візуального математичного міркування є ключовою для побудови справді автономних децентралізованих систем. Покращення в цій сфері можуть призвести до появи складніших ШІ-агентів, які зможуть ефективніше взаємодіяти з блокчейном, оптимізуючи смарт-контракти та керуючи складними децентралізованими обчислювальними мережами.
Джерело: decrypt.co
