熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Dwarkesh Patel
"目前模型中非常令人困惑的一件事:如何調和它們在評估中表現得如此出色的事實。
你看評估,然後你會想,'那些評估相當困難。'
但經濟影響似乎大幅滯後。
有[一個可能的]解釋。當人們進行預訓練時,訓練數據的問題已經有了答案,因為那個答案是所有數據。所以你不必考慮是這個數據還是那個數據。
當人們進行強化學習訓練時,他們會說,'好吧,我們想要這種強化學習訓練來處理這個,還有那種強化學習訓練來處理那個。'
你會說,'嘿,我希望我們的模型在發布時表現得很好。我希望評估看起來很棒。什麼樣的強化學習訓練可以幫助這個任務?'
如果你將這與模型的泛化實際上不充分結合起來,那就有可能解釋我們所看到的許多現象,即評估表現與實際現實世界表現之間的脫節。"

Dwarkesh Patel11月26日 01:29
@ilyasut 的集數
0:00:00 – 解釋模型的鋸齒性
0:09:39 - 情感與價值函數
0:18:49 – 我們在擴展什麼?
0:25:13 – 為什麼人類的概括能力比模型更好
0:35:45 – 直擊超智能
0:46:47 – SSI 的模型將從部署中學習
0:55:07 – 對齊
1:18:13 – “我們正處於一個研究公司的時代”
1:29:23 – 自我對弈與多代理
1:32:42 – 研究品味
在 YouTube、Apple Podcasts 或 Spotify 上查找 Dwarkesh Podcast。享受!
307.45K
「公司數量遠超過想法。
計算能力足夠大,因此並不明顯你需要那麼多的計算能力來證明某個想法。
AlexNet 是在 2 個 GPU 上構建的。變壓器是在 8 到 64 個 GPU 上構建的。那麼,今天的 2 個 GPU 是什麼?你可以說 o1 推理並不是世界上最需要計算的東西。
對於研究,你確實需要一定量的計算能力,但並不明顯你需要絕對最大的計算能力。
如果每個人都在同一範疇內,那麼計算能力就成為一個重要的區別因素。」
@ilyasut

Dwarkesh Patel11月26日 01:29
@ilyasut 的集數
0:00:00 – 解釋模型的鋸齒性
0:09:39 - 情感與價值函數
0:18:49 – 我們在擴展什麼?
0:25:13 – 為什麼人類的概括能力比模型更好
0:35:45 – 直擊超智能
0:46:47 – SSI 的模型將從部署中學習
0:55:07 – 對齊
1:18:13 – “我們正處於一個研究公司的時代”
1:29:23 – 自我對弈與多代理
1:32:42 – 研究品味
在 YouTube、Apple Podcasts 或 Spotify 上查找 Dwarkesh Podcast。享受!
169.6K
「從2012年到2020年,是研究的時代。從2020年到2025年,是擴展的時代。
是否相信只要將規模提高100倍,一切都會被改變?
我不認為這是真的。這又回到了研究的時代,只是有了更強大的電腦。」
@ilyasut

Dwarkesh Patel11月26日 01:29
@ilyasut 的集數
0:00:00 – 解釋模型的鋸齒性
0:09:39 - 情感與價值函數
0:18:49 – 我們在擴展什麼?
0:25:13 – 為什麼人類的概括能力比模型更好
0:35:45 – 直擊超智能
0:46:47 – SSI 的模型將從部署中學習
0:55:07 – 對齊
1:18:13 – “我們正處於一個研究公司的時代”
1:29:23 – 自我對弈與多代理
1:32:42 – 研究品味
在 YouTube、Apple Podcasts 或 Spotify 上查找 Dwarkesh Podcast。享受!
207.16K
熱門
排行
收藏
