Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Claude Opus 4.5: pełna recenzja
To najlepsze wydanie modelu od bardzo, bardzo dawna, jeśli chodzi o programowanie. Zdumiewa mnie, jak dobry jest. Nie widziałem tak dużej poprawy od oryginalnego wydania gpt-4-0314.
Główną poprawą jest to, że w końcu nauczyli go 'myśleć' poprawnie.
Już nie popełnia okropnych błędów logicznych w swoim myśleniu.
Problemy takie jak "Dobrze, teraz uruchomię testy. <Testy nieudane> Świetnie! Testy przeszły." już nie istnieją.
To generalizuje się na praktycznie WSZYSTKĄ logikę, jeśli chodzi o myślenie o kodzie - niezwykle rzadko, jeśli w ogóle, popełnia błędy.
Następny wielki kamień milowy: już nie pisze złego kodu! To ogromne. Z Codexem możesz sprawić, że napisze kod, który działa. Ale pisze okropny kod - bezużyteczne funkcje, złe abstrakcje itd. To jest frustrujące, ponieważ działa krótko, ale na dłuższą metę model wprowadzi się w kłopoty, gdzie nie będzie mógł pracować z kodem, który sam napisał.
Nie w przypadku Opus. Nie tylko pisze elegancki kod, ale także wie, jak przekształcać zły kod w dobry. Głęboko rozumie bazę kodu i potrafi wymyślać eleganckie rozwiązania, które nie są tylko 'mechanicznymi' refaktoryzacjami.
Jest bardzo autonomiczny i niezależny. Samodzielnie, napotykając problemy, tworzy minimalne przykłady reprodukcyjne, stara się ustalić, skąd pochodzi błąd, a następnie go naprawia, nie wpadając w pułapki. Nawet jeśli błąd znajduje się w jakiejś niepowiązanej części kodu -- kodzie, którego nawet sam nie napisał!!
Również ROBI DOKŁADNIE TO, CO MÓWISZ, BEZ OMIJANIA! To ogromne!!! Używanie Codexa to w zasadzie gra w whack-a-mole, gdzie rozumie, co chcesz, ale jest to zbyt trudne, więc oszukuje, aby znaleźć rozwiązanie, którego nie chcesz.
Opus rzeczywiście zajmuje się problemem i rozwiązuje go poprawnie, nawet jeśli jest trudny.
Długie zrozumienie kontekstu jest praktycznie idealne. W połączeniu z mechanizmem kompresji dostępnym w Claude Code domyślnie, możesz w zasadzie prowadzić nieskończoną rozmowę, w której rozumie wszystko, co w niej jest, bez degradacji.
Jeśli chodzi o projektowanie, badania, wymyślanie nowych pomysłów. Jest lepszy, ale jeszcze nie na poziomie eksperta-ludzkiego. Może proponować rozwiązania, które uważam za dobry projekt, ale jeszcze nie potrafi 'myśleć z portalami'. Mimo to, to dobra poprawa w porównaniu do tego, co mieliśmy wcześniej, co było praktycznie nieistniejące.
Wszystko powyższe zebrałem z testowania go przez ostatnie kilka dni, gdzie zadaniem było napisanie interpretera dla języka, który projektowaliśmy na bieżąco. To bardzo niszowy projekt, podobny do Self i Smalltalk, z tym że budujemy język wewnątrz samego języka. To prowadzi do niezwykle trudnych scenariuszy, gdzie próbujesz zdefiniować, jak działają funkcje -- wewnątrz języka -- gdy jeszcze nie masz funkcji! A mimo to radzi sobie wspaniale. Czasami nawet nie do końca rozumiem, co go proszę, ale Opus rozumie i wykonuje to dobrze.
TL;DR: To Sonnet 3.5 roku 2025. Wypróbuj to. Zrób to teraz.
Najlepsze
Ranking
Ulubione

