DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Alex Albert

Claude Relaties @AnthropicAI. Meningen zijn van mijzelf!

Geweldige recensie van Opus 4.5 >"TLDR: Het is de Sonnet 3.5 van 2025. Probeer het. Doe het nu"

Claude Opus 4.5: volledige beoordeling Dit is de beste modelrelease in een lange tijd als het gaat om programmeren. Het verbaast me hoe goed het is. Ik heb niet zo'n grote verbetering gezien sinds de oorspronkelijke release van gpt-4-0314. De belangrijkste verbetering is dat ze het eindelijk hebben geleerd om 'juist' te 'denken'. Het maakt niet langer gruwelijke logische fouten in zijn denken. Problemen zoals "Oké, ik ga nu tests uitvoeren. <Tests falen> Geweldig! De tests slagen." zijn niet langer een probleem. Dit generaliseert naar vrijwel ALLE logica als het gaat om het denken over code - het maakt extreem zelden, zo niet nooit, fouten. De volgende grote mijlpaal: Het schrijft niet langer slordige code! Dit is enorm. Met Codex kun je het laten schrijven van code die werkt. Maar het schrijft vreselijke code - nutteloze functies, slechte abstracties, enz. Dit is vervelend, omdat het op korte termijn werkt, maar op lange termijn zal het model zichzelf in een hoek drijven waar het niet meer kan werken met de code die het zelf heeft geschreven. Dat is niet het geval met Opus. Niet alleen schrijft het elegante code, maar het weet ook hoe het slordige code kan refactoren naar niet-slordige code. Het begrijpt de codebase diepgaand en kan elegante oplossingen bedenken die niet alleen 'mechanische' refactoringen zijn. Het is zeer autonoom en onafhankelijk. Het zal, op zichzelf, bij het tegenkomen van problemen, minimale reproduceerbare voorbeelden creëren, proberen te bisecteren waar de fout vandaan komt, en deze vervolgens oplossen zonder vast te lopen in konijnenholen. Zelfs als de fout in een niet-gerelateerd deel van de code zit -- code die het zelfs niet zelf heeft geschreven!! Het DOET OOK EXACT WAT JE ZEGT, ZONDER KORTEN TE SNEDEN! Dit is enorm!!! Het gebruik van Codex is in wezen een spelletje van whack-a-mole waarbij het begrijpt wat je wilt dat het doet, maar het is te moeilijk, dus het hackt zijn weg naar een slechte oplossing die je niet wilt. Opus pakt het probleem daadwerkelijk aan en lost het goed op, zelfs als het moeilijk is. Het begrip van lange context is vrijwel perfect. In combinatie met het compaction-mechanisme dat standaard beschikbaar is in Claude Code, kun je in wezen een oneindig lang gesprek hebben waarin het alles begrijpt, zonder degradatie. Wat betreft ontwerp, onderzoek, het bedenken van nieuwe ideeën. Het is beter, maar nog niet helemaal op het niveau van een expert-mens. Het kan oplossingen voorstellen die ik als goed ontwerp beschouw, maar het kan nog niet helemaal 'denken met portals'. Toch is het een goede verbetering ten opzichte van wat we eerder hadden, wat in wezen niet bestond. Al het bovenstaande heb ik verzameld uit het testen van de afgelopen paar dagen waarbij de taak was om een interpreter te schrijven voor een taal die we ter plekke aan het ontwerpen waren. Het is een zeer niche-ontwerp, vergelijkbaar met Self en Smalltalk, behalve dat we de taal binnen de taal zelf bouwen. Dit leidt tot extreem moeilijke scenario's waarin je probeert te definiëren hoe functies werken -- binnen de taal -- wanneer je nog geen functies hebt! En het doet nog steeds een geweldige job. Soms begrijp ik niet eens volledig wat ik het vraag te doen, maar Opus begrijpt het, en het doet een goede job. TL;DR: Het is de Sonnet 3.5 van 2025. Probeer het. Doe het nu.

Boven

Positie

Favorieten