“`html
Відомий розробник програмного забезпечення для Windows, Дейв Пламмер, успішно запустив нейронну мережу на 47-річному комп’ютері PDP-11.
Запуск нейромережі на старовинному обладнанні
Комп’ютер PDP-11 працює на процесорі з частотою 6 МГц та має 64 КБ оперативної пам’яті. На цьому пристрої Пламмер запустив модель трансформера “Attention 11”, написану мовою асемблера PDP-11 Демієном Бюре. Завдання, яке виконує нейромережа, полягає у перевертанні послідовності з 8 цифр. Це, на перший погляд, надзвичайно проста задача.
Суть навчання сучасних LLM
Однак, після успішного виконання кожного вхідного етапу, модель повинна засвоїти структурне правило для правильного виконання будь-якого виведення. На думку Пламмера, саме в цьому криється ключова суть сучасних моделей великих мовних моделей (LLM) з лінійним виведенням, таких як ChatGPT.
“Одна людина бере клас алгоритмів, що наразі сприймаються світом як щось сакральне, й доводить, що це можна скоротити, зрозуміти та реалізувати на системі, достатньо старій, з часів, коли ПЗ виходило з перемикачами й переплетеними в кільця посібниками. Тепер ви знаєте, що це насправді за процес. Це не магія ШІ. Це машина, яка постійно оновлює потужність тисяч маленьких зважених посилань, щоб наступна відповідь була трохи менш неправильною, ніж остання”, — зазначає Пламмер.
Технічні аспекти та оптимізація
Попри використання “Attention 11” — одношарового трансформера з однією головкою для концентрації уваги, повністю написаного мовою асемблера PDP-11, Пламмеру довелося оптимізувати систему з урахуванням її обмежень.
- Модель має всього 1216 параметрів.
- Використовуються обчислення з фіксованою точкою.
- Точність обмежена 8 бітами.
- Кожен цикл оптимізується, щоб гарантувати завершення навчання моделі.
Процес навчання та висновки
Пламмер описує процес як спрощену анатомію самого навчання. Модель починає з нуля, з дуже високою ймовірністю помилки. Точність коливається, доки не формується шаблон. Механізм уваги починає створювати карту зворотного перетворення, і машина перетинає “невидиму межу від здогадки до знання”.
Пламмеру вдалося досягти 100% точності моделі у зворотному перетворенні чисел приблизно після 350 кроків навчання. Для цього на PDP-11/44 з використанням кеш-пам’яті знадобилося близько 3,5 хвилин. За словами Пламмера, сучасний ШІ — це лише механічна технологія зі значно покращеним виправленням помилок та масштабними арифметичними обчисленнями.
📈 Більше новин про крипто-світ читайте на CryptoTop.info!
“`
