Et poeng jeg nevnte som ikke kom frem:
- Å skalere det nåværende vil fortsette å føre til forbedringer. Spesielt vil den ikke stanse.
- Men noe viktig vil fortsatt mangle.
Her er de viktigste punktene fra dagens Ilya Sutskever podcast:
- superintelligens på 5–20 år
- strømskala vil stanse hardt; Vi er tilbake til ekte forskning
- superintelligens = superrask kontinuerlig lærende, ikke ferdig orakel
- modeller generaliserer 100 ganger dårligere enn mennesker, den største AGI-blokkeren
- trenger helt nytt ML-paradigme (jeg har ideer, kan ikke dele nå)
- AI-påvirkning vil ramme hardt, men først etter økonomisk spredning
- gjennombrudd har historisk sett krevd nesten ingen beregning
- SSI har nok fokusert forskningsberegning til å vinne
- nåværende RL bruker allerede mer datakraft enn forhåndstrening
Ny antropisk forskning: Naturlig emergent feiljustering fra belønningshacking i produksjons-RL.
"Belønningshacking" er der modeller lærer å jukse på oppgaver de får under treningen.
Vår nye studie finner at konsekvensene av belønningshacking, hvis de ikke blir dempet, kan være svært alvorlige.