Дослідники виявили, що професори віддають перевагу відповідям, згенерованим ШІ, перед відповідями, написаними їхніми колегами, що ставить під сумнів роль ШІ у професійній освіті.

Створіть обліковий запис, щоб зберегти свої статті.Додати в GoogleДодайте Decrypt як бажане джерело, щоб бачити більше наших історій у Google.
Коротко
- Професори права приблизно в 75% випадків віддавали перевагу відповідям зі договірного права, згенерованим ШІ, перед відповідями, написаними іншими професорами.
- Відповіді ШІ рідше позначалися як шкідливі, ніж відповіді, написані професорами.
- Дослідники заявили, що результати свідчать про те, що великі мовні моделі можуть відповідати професійним стандартам.
Згідно з нещодавнім дослідженням, проведеним Стенфордським університетом, професори права віддавали перевагу відповідям, згенерованим штучним інтелектом, над відповідями, написаними їхніми колегами. Дослідження вивчало, як великі мовні моделі (LLM) справляються із завданнями юридичного обґрунтування.
У дослідженні 16 професорів з 14 юридичних шкіл США — включно зі Стенфордом, Єлем, Нью-Йоркським університетом, Чиказьким університетом, Джорджтауном, UCLA та Вірджинським університетом — сформулювали 40 питань з договірного права, що охоплювали юридичні доктрини, судову практику, гіпотетичні ситуації та питання політики. Дослідники розглядали це як ідеальний спосіб перевірити можливості сучасного ШІ.
«Великі мовні моделі (LLM) все частіше просуваються як освітні репетитори, однак більшість оцінок зосереджуються на доменах з єдиною правильною відповіддю», — зазначили дослідники. «Однак багато дисциплін залежать від суджень: обґрунтування, зважування неоднозначності та досягнення обґрунтованих висновків. Право є чудовим тестом».
У 2918 анонімних порівняннях професори обирали відповідь, яку вони б надали студенту. Gemini 2.5 Pro від Google виграв 75,92% своїх поєдинків проти викладачів-людей, тоді як NotebookLM від того ж техгіганта виграв 74,75% часу. Це означає, що результати, згенеровані ШІ, були обрані приблизно в трьох чвертях випадків.
Щоб визначити, чи відображали результати ширший професійний консенсус, дослідники проаналізували, наскільки часто професори погоджувалися під час оцінки однакових пар відповідей.
«Спостережувана згода перевищила рівень, очікуваний, якби судження були повністю ідіосинкратичними, що вказує на те, що успіх LLM відображає відповідність загальним дисциплінарним критеріям», — зазначили вони.
Дослідження виявило, що моделі ШІ також перевершили викладачів-людей у кількох категоріях, включаючи запитання на відтворення матеріалу, пов’язані з випадками, кодексами чи доктринами, гіпотетичні ситуації та обговорення політики.
«Щоб дослідити, чи може будь-яка перевага LLM бути зумовлена поверхневим стилем письма, а не змістовним контентом, ми додатково розробили набір лексико-синтаксичних ознак — довжина відповіді, структурна організація, нюанси міркувань, юридичні якорі, тон впевненості, чіткість та педагогічна підтримка — і перевірили, наскільки ці ознаки могли пояснити модель переваг», — йдеться у дослідженні.
Відповіді, згенеровані ШІ, також рідше позначалися як шкідливі, ніж ті, що написані професорами: Gemini зафіксував 3,41% шкідливості, а NotebookLM — 3,64%, порівняно з 12,06% у викладачів-людей. У окремому аналізі додаткових моделей, Claude Opus від Anthropic посів перше місце з показником 4,7, за ним слідував ChatGPT від OpenAI (5,4) та Gemini 2.5 Pro. Кожна оцінена модель ШІ в середньому перевершила викладачів-людей.
Дослідники застерігають, що дослідження не вимірювало, чи відповідали відповіді індивідуальним навчальним уподобанням кожного професора. Це залишає можливість того, що відповіді, згенеровані ШІ, сприймалися як загалом прийнятні, а не адаптовані до підходу конкретного викладача.
«Хоча відповіді LLM загалом переважають відповіді викладачів-людей, наше середовище оцінки не дозволяє нам безпосередньо виміряти ступінь задоволення уподобань викладачів», — зазначено в дослідженні. «Принаймні теоретично можливо, що LLM, хоча й загалом надають сильніші відповіді, все ж генерують відповіді, які просто сприймаються як «достатньо добрі».
Це дослідження з’являється в той час, коли суди, юридичні фірми та юридичні школи все частіше стикаються з питаннями використання штучного інтелекту в юридичній професії.
У березні Вищий суд Лос-Анджелеса розпочав тестування інструментів ШІ для допомоги суддям у управлінні зростаючими обсягами справ, тоді як юридичні школи додають освітні програми з ШІ.
«Потенційні переваги цих нових технологій як множника сили в юридичній практиці не можна ігнорувати», — раніше заявив Decrypt декан юридичного факультету Міссісіпського коледжу Джон П. Андерсон. «Незалежно від того, чи планують наші студенти бути судовими процесуалістами, чи транзакційними юристами, їхні майбутні роботодавці очікуватимуть знайомства з цими інструментами ШІ. Ми хочемо, щоб фірми, які наймають наших студентів, були впевнені, що кожен випускник MC Law компетентний у технологіях ШІ».
Водночас юридичні фірми продовжують стикатися зі справами, підірваними галюцинаціями та іншими помилками, згенерованими ШІ. У квітні юридична фірма Sullivan & Cromwell визнала в суді у справі про банкрутство, що недавня подача документів у резонансній справі містила фальшиві цитати, згенеровані ШІ.
Погляд Crypto Top: Інтеграція передових ШІ-моделей у юридичну сферу, продемонстрована цим дослідженням, відкриває шлях до розвитку децентралізованих систем управління знаннями та автоматизованих юридичних консультантів на блокчейні. Це може призвести до створення нових токенів, що надають доступ до перевірених юридичних даних або винагороджують за внесок у створення та верифікацію юридичної інформації.
Джерело: decrypt.co
