RT @RichardHanania: Jopa 225 000 dollaria podcastin kirjoittajana oleminen on todella korkea palkka. Dwarkesh on valmis maksamaan laadusta. Kannustan t...
"Yksi hyvin hämmentävistä asioista malleissa tällä hetkellä: miten sovittaa yhteen se, että ne menestyvät niin hyvin arvioinneissa.
Ja katsot arvioita ja ajattelet: 'Ne ovat aika vaikeita arvioita.'
Mutta taloudellinen vaikutus näyttää olevan dramaattisesti jäljessä.
Tähän on [mahdollinen] selitys. Silloin kun ihmiset tekivät esikoulutusta, kysymys siitä, millä datalla kouluttautua, ratkaistiin, koska se vastaus oli kaikki kaikessa. Joten sinun ei tarvitse miettiä, onko kyse tästä datasta vai tuosta datasta.
Kun ihmiset tekevät RL-koulutusta, he sanovat: 'Okei, haluamme tällaisen RL-koulutuksen tähän asiaan ja tuon sellaisen RL-koulutuksen tuohon.'
Sanot: 'Hei, toivoisin, että mallimme menestyisi todella hyvin, kun julkaisemme sen. Haluan, että arvioinnit näyttävät upeilta. Mikä olisi RL-koulutus, joka voisi auttaa tässä tehtävässä?'
Jos tähän yhdistetään mallien riittämättömyyden yleistäminen, se voi selittää paljon siitä, mitä näemme, tämän kuilun arviointisuorituskyvyn ja todellisen suorituskyvyn välillä."
@ilyasut jakso
0:00:00 – Selitys mallin rosoisuudesta
0:09:39 - Tunteet ja arvofunktiot
0:18:49 – Mitä skaalaamme?
0:25:13 – Miksi ihmiset yleistävät paremmin kuin mallit
0:35:45 – Suorasukainen superäly
0:46:47 – SSI:n malli oppii käyttöönotosta
0:55:07 – Linjaus
1:18:13 – "Olemme selvästi tutkimusyritysten aikakausi"
1:29:23 – Itsepeli ja moniagentti
1:32:42 – Tutkimusmaku
Etsi Dwarkesh Podcast YouTubesta, Apple Podcastsista tai Spotifysta. Nauttia!