📢 Выпускаем нашу последнюю статью
Отобрана для семинара @AAAI '26.
Мы показываем, что способность LLMs к прогнозированию реальных вопросов с рынков предсказаний (таких как polymarket) значительно варьируется в зависимости от категории.
👉 Наш метод показывает, что хотя добавление новостей помогает, оно также добавляет определенные режимы неудачи, такие как дрейф определения, предвзятость к недавним событиям и якорение слухов.
📢 Выпускаем нашу последнюю статью
Отобрана для семинара @NeurIPSConf по эффективному рассуждению!
Мы показываем, что оптимальный метод масштабирования времени тестирования итеративно уточняется через последовательные шаги.
👉 Наш метод превосходит большинство голосований параллельными цепочками в 95% конфигураций с приростом точности до 46.7% при сопоставимых вычислениях.