Lancement de mon benchmark "SVG d'un chat chevauchant un dragon". (inspiré par le benchmark de @simonw avec un pélican à vélo) Claude Opus 4.5 fait paraître Gemini 3 Pro & GPT 5.1 Pro & Grok 4.1 comme des jouets.
Je n'arrive pas à croire que GPT 5.1 Pro a pensé pendant 7m 40s pour cette merde 🤣
Je commence à remettre en question la valeur de ce benchmark, le SVG change beaucoup chaque fois que je l'exécute ! Une autre tentative et Gemini 3 Pro a généré ce dragon de style anime étonnamment mignon.
3,9K