Claude Opus 4.5: pełna recenzja To najlepsze wydanie modelu od bardzo, bardzo dawna, jeśli chodzi o programowanie. Zdumiewa mnie, jak dobry jest. Nie widziałem tak dużej poprawy od oryginalnego wydania gpt-4-0314. Główną poprawą jest to, że w końcu nauczyli go 'myśleć' poprawnie. Już nie popełnia okropnych błędów logicznych w swoim myśleniu. Problemy takie jak "Dobrze, teraz uruchomię testy. <Testy nieudane> Świetnie! Testy przeszły." już nie istnieją. To generalizuje się na praktycznie WSZYSTKĄ logikę, jeśli chodzi o myślenie o kodzie - niezwykle rzadko, jeśli w ogóle, popełnia błędy. Następny wielki kamień milowy: już nie pisze złego kodu! To ogromne. Z Codexem możesz sprawić, że napisze kod, który działa. Ale pisze okropny kod - bezużyteczne funkcje, złe abstrakcje itd. To jest frustrujące, ponieważ działa krótko, ale na dłuższą metę model wprowadzi się w kłopoty, gdzie nie będzie mógł pracować z kodem, który sam napisał. Nie w przypadku Opus. Nie tylko pisze elegancki kod, ale także wie, jak przekształcać zły kod w dobry. Głęboko rozumie bazę kodu i potrafi wymyślać eleganckie rozwiązania, które nie są tylko 'mechanicznymi' refaktoryzacjami. Jest bardzo autonomiczny i niezależny. Samodzielnie, napotykając problemy, tworzy minimalne przykłady reprodukcyjne, stara się ustalić, skąd pochodzi błąd, a następnie go naprawia, nie wpadając w pułapki. Nawet jeśli błąd znajduje się w jakiejś niepowiązanej części kodu -- kodzie, którego nawet sam nie napisał!! Również ROBI DOKŁADNIE TO, CO MÓWISZ, BEZ OMIJANIA! To ogromne!!! Używanie Codexa to w zasadzie gra w whack-a-mole, gdzie rozumie, co chcesz, ale jest to zbyt trudne, więc oszukuje, aby znaleźć rozwiązanie, którego nie chcesz. Opus rzeczywiście zajmuje się problemem i rozwiązuje go poprawnie, nawet jeśli jest trudny. Długie zrozumienie kontekstu jest praktycznie idealne. W połączeniu z mechanizmem kompresji dostępnym w Claude Code domyślnie, możesz w zasadzie prowadzić nieskończoną rozmowę, w której rozumie wszystko, co w niej jest, bez degradacji. Jeśli chodzi o projektowanie, badania, wymyślanie nowych pomysłów. Jest lepszy, ale jeszcze nie na poziomie eksperta-ludzkiego. Może proponować rozwiązania, które uważam za dobry projekt, ale jeszcze nie potrafi 'myśleć z portalami'. Mimo to, to dobra poprawa w porównaniu do tego, co mieliśmy wcześniej, co było praktycznie nieistniejące. Wszystko powyższe zebrałem z testowania go przez ostatnie kilka dni, gdzie zadaniem było napisanie interpretera dla języka, który projektowaliśmy na bieżąco. To bardzo niszowy projekt, podobny do Self i Smalltalk, z tym że budujemy język wewnątrz samego języka. To prowadzi do niezwykle trudnych scenariuszy, gdzie próbujesz zdefiniować, jak działają funkcje -- wewnątrz języka -- gdy jeszcze nie masz funkcji! A mimo to radzi sobie wspaniale. Czasami nawet nie do końca rozumiem, co go proszę, ale Opus rozumie i wykonuje to dobrze. TL;DR: To Sonnet 3.5 roku 2025. Wypróbuj to. Zrób to teraz.