Entusiasmado por partilhar ideias sobre o nosso trabalho sobre raciocínio eficiente @LiquidAI_ : Transformamos um modelo de bate-papo geral 1.3B em um raciocínio matemático forte que permanece conciso. SFT em rastreamentos CoT curados desbloqueia raciocínio forte e RL direcionado controla a verbosidade. A receita é simples e fornece um ponto de dados interessante para modelos não baseados em Qwen. Isso ainda é baseado em nossa primeira geração de LFMs - animado com a próxima geração! Por favor, encontre detalhes em nosso blog-post!
@LiquidAI_
65