To jest super interesujące! ScaleAI i AI Risks właśnie opublikowały Indeks Pracy Zdalnej (RLI) - Nowy benchmark Indeksu Pracy Zdalnej (RLI) od Scale AI ujawnia, że nawet najbardziej zaawansowane agenty AI ledwo radzą sobie z wykonywaniem rzeczywistych zdalnych zadań na profesjonalnym poziomie. - Najlepszy wykonawca, Manus, osiągnął jedynie 2,5% wskaźnik automatyzacji, co oznacza, że niemal wszystkie projekty nadal wymagały ludzkiej ekspertyzy. - Jednak tabela liderów pokazuje stały postęp w modelach takich jak Claude Sonnet 4.5, GPT-5 i Gemini 2.5 Pro, co sugeruje, że pełna automatyzacja może posuwać się naprzód dzięki stopniowym udoskonaleniom, a nie skokowym zmianom.