🚀 Présentation de SWE-Bench Pro — un nouveau benchmark pour évaluer les agents de codage LLM sur des tâches d'ingénierie logicielle réelles et de niveau entreprise. C'est l'étape suivante au-delà de SWE-Bench : plus difficile, résistant à la contamination et plus proche des dépôts du monde réel.