DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

"En av de mycket förvirrande sakerna med modellerna just nu: hur man ska förena det faktum att de klarar sig så bra på utvärderingarna. Och du tittar på utvärderingarna och tänker, 'Det där är ganska hårda utvärderingar.' Men den ekonomiska effekten verkar vara dramatiskt efter. Det finns [en möjlig] förklaring. När folk gjorde förutbildning besvarades frågan om vilken data man skulle träna på, eftersom det svaret var allt. Så du behöver inte tänka på om det kommer att vara den här eller den där datan. När folk gör RL-träning säger de, 'Okej, vi vill ha den här typen av RL-träning för det här och den RL-träningen för det där.' Du säger, 'Hej, jag skulle älska att vår modell skulle gå riktigt bra när vi släpper den. Jag vill att utvärderingarna ska se bra ut. Vad skulle vara RL-träning som skulle kunna hjälpa till med denna uppgift?' Om du kombinerar detta med en generalisering av att modellerna faktiskt är otillräckliga, har det potential att förklara mycket av det vi ser, denna klyfta mellan utvärderingsprestanda och faktisk verklig prestation."

Topp

Rankning

Favoriter