Uruchamiam mój benchmark „SVG kota jeżdżącego na smoku”. (zainspirowany benchmarkiem @simonw o pelikanie jeżdżącym na rowerze) Claude Opus 4.5 sprawia, że Gemini 3 Pro i GPT 5.1 Pro oraz Grok 4.1 wyglądają jak zabawki.
Nie mogę uwierzyć, że GPT 5.1 Pro myślał przez 7m 40s nad tym gównem 🤣
Zaczynam kwestionować wartość tego benchmarku, SVG zmienia się za każdym razem, gdy go uruchamiam! Kolejna próba i Gemini 3 Pro wygenerował tego zaskakująco urocze smoka w stylu anime.
3,9K