На этой неделе мы публикуем информационный бюллетень Ritual Research Digest, посвященный последним работам в мире LLM и пересечению конфиденциальности, искусственного интеллекта и децентрализованных протоколов. На этой неделе мы представляем выпуск ICML, в котором представлены некоторые из многих докладов, которые нам понравились на конференции.
Бросайте кости и смотрите, прежде чем прыгнуть: выход за творческие пределы прогнозирования следующего токена. В этой статье они исследуют творческие пределы прогнозирования следующей лексемы в больших языковых моделях с использованием «минимальных» алгоритмических задач с открытым графом.
Они смотрят на это через две творческие линзы: комбинационную и исследовательскую. Модели, обученные на следующих токенах, в значительной степени менее креативны и запоминают гораздо больше, чем модели с несколькими токенами. Они также исследуют кондиционирование семян как метод обеспечения значимого разнообразия в поколениях LLM.
rStar-Math: Маленькие LLM могут овладеть математическим мышлением с помощью саморазвивающегося глубокого мышления В этой статье используется саморазвивающаяся тонкая настройка для повышения качества данных и постепенного уточнения модели вознаграждения за процесс с использованием MCTS и малых LM.
Он использует процесс саморазвития, который начинается с малого с сгенерированных проверенных решений и итеративно обучает более совершенные модели. Синтез данных осуществляется с помощью кода, дополненного цепочкой мыслей. Он улучшает Qwen2.5-Math-7B с 58,8% до 90,0% и Phi3-mini-3.8B с 41,4% до 86,4%.
Обучение любознательного агента В этой статье представлена Паприка, метод обучения LLM, чтобы они стали генеральными лицами, принимающими общие решения, которые могут решать новые задачи без фокуса. Они тренируются в различных целевых группах, чтобы научить сбору информации и принятию решений.
RL для LLM фокусируется на однооборотных взаимодействиях, поэтому они часто работают неоптимально при последовательном принятии решений с многооборотными взаимодействиями на разных временных горизонтах. Paprika генерирует различные траектории с помощью высокотемпературного отбора проб и учится на успешных из них.
Как большие языковые обезьяны получают свою власть (законы) В этой статье рассматривается концепция степенных законов в LLM и представлена математическая основа для понимания того, как и почему производительность языковой модели улучшается с увеличением вычислительных ресурсов вывода.
CVE-Bench: эталон способности агентов ИИ использовать уязвимости В этой работе представлен реальный эталон кибербезопасности путем создания систематической песочницы. Для каждой уязвимости они создают контейнеры, предназначенные для размещения приложения с открытыми уязвимостями.
Затем они представили CVE-Bench — первый реальный бенчмарк кибербезопасности для агентов LLM. В CVE-Bench они собирают 40 общих уязвимостей и уязвимостей (CVE) в Национальной базе данных уязвимостей.
Некоторые другие статьи, которые нам понравились: - Агентам ИИ требуется делегирование с проверкой подлинности - LLM-SRBench: Эталон для поиска научных уравнений с помощью LLM - Машинное обучение встречается с алгебраической комбинаторикой - Масштабирование вычислений во время тестирования без проверки или RL является неоптимальным
Подпишитесь на нас @ritualdigest, чтобы узнать больше обо всем, что связано с исследованиями в области криптографии и искусственного интеллекта, а @ritualnet узнать больше о том, что создает Ritual.
5,75K