Один момент, який я висловив і який не прозвучав:
- Масштабування поточного пристрою й надалі призведе до покращень. Зокрема, він не затягується.
- Але щось важливе й надалі буде відсутнє.
Ось найважливіші моменти з сьогоднішнього подкасту Іллі Сутскевера:
- надінтелект за 5-20 років
- масштабування струму різко зупиниться; Ми повертаємося до справжніх досліджень
- суперінтелект = надшвидкий безперервний учень, не завершений оракул
- моделі узагальнюють у 100 разів гірше, ніж у людей, є найбільшим блокувальником AGI
- потрібна абсолютно нова парадигма машинного навчання (у мене є ідеї, зараз не можу поділитися)
- Вплив ШІ буде сильно вдарити, але лише після економічного поширення
- прориви, історично майже не потребували обчислень
- SSI має достатньо сфокусованих дослідницьких обчислювань для перемоги
- поточний RL вже споживає більше обчислювальної роботи, ніж попереднє навчання
Нове антропографічне дослідження: Природне неузгодження внаслідок хакінгу винагород у виробництві RL.
«Hacking Reward» — це коли моделі навчаються шахраювати у завданнях, які їм дають під час тренувань.
Наше нове дослідження показує, що наслідки хакерства винагород, якщо його не пом'якшувати, можуть бути дуже серйозними.