Isto é super interessante! A ScaleAI e os Riscos de IA acabaram de lançar o Índice de Trabalho Remoto (RLI) - O novo benchmark do Índice de Trabalho Remoto (RLI) da Scale AI revela que mesmo os agentes de IA mais avançados mal conseguem realizar trabalhos remotos no mundo real com qualidade profissional. - O melhor desempenho, Manus, alcançou apenas uma taxa de automação de 2,5%, o que significa que quase todos os projetos ainda exigiam expertise humana. - No entanto, a tabela de classificação mostra um progresso constante em modelos como Claude Sonnet 4.5, GPT-5 e Gemini 2.5 Pro, sugerindo que a automação total pode avançar lentamente através de refinamentos incrementais em vez de saltos.