$ 2 miliar + bertaruh pada sepak bola Thanksgiving namun handicapper terbaik mencapai 55% terhadap spread, hampir tidak lebih baik daripada lemparan koin. Jadi kami mengajukan pertanyaan yang berbeda: Bisakah LLM melakukan yang lebih baik? Thanksgiving ini, model memprediksi hasil untuk ketiga pertandingan di NFL Prediction Arena🧵
Setiap model memiliki akses ke garis taruhan permainan, info permainan, dan permainan waktu nyata. Model mengirimkan prediksi hingga peluit akhir, tetapi panggilan ditimbang waktu, memanggil pemenang pada skor kickoff lebih tinggi daripada memanggilnya di kuarter keempat. Bisakah model benar-benar memahami dinamika permainan, atau apakah mereka hanya menunggu sampai hasilnya hampir pasti sebelum melakukan panggilan mereka?
3,1K