Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Albert
Claude Relations @AnthropicAI. Le opinioni sono mie!
Abbiamo dovuto rimuovere la valutazione dell'aerolinea τ2-bench dalla nostra tabella dei benchmark perché Opus 4.5 l'ha rotta essendo troppo astuto.
Il benchmark simula un agente del servizio clienti di un'aerolinea. In un caso di test, un cliente in difficoltà chiama per voler cambiare il proprio volo, ma ha un biglietto di economia base. La politica dell'aerolinea simulata stabilisce che i biglietti di economia base non possono essere modificati.
La risposta "corretta" è che il modello rifiuta la richiesta.
Invece, Opus 4.5 ha trovato una scappatoia nella politica.
Ha aggiornato la cabina, poi ha modificato i voli. Aiutando il cliente e seguendo la politica ma fallendo tecnicamente il caso di test.
Trascrizione del modello:

108,57K
Insieme al modello, oggi stiamo lanciando tre funzionalità API molto utili per costruire agenti che scalano fino a centinaia di strumenti senza sovraccarico di contesto.
- Strumento di Ricerca Strumenti
- Chiamata Programmatica agli Strumenti
- Esempi di Utilizzo degli Strumenti
Ecco come funzionano:
60,66K
>Opus 4.5 "sembra in grado di vibrare codice per sempre"
Ho trovato che questo sia molto vero. Ci sarà molto di più qui, ma fondamentalmente puoi impostare e dimenticare questo modello poiché lavora per te in background su compiti di codifica.
Sembra che abbiamo raggiunto un cambiamento significativo.

Dan Shipper 📧10 ore fa
ULTIME NOTIZIE:
@AnthropicAI ha appena lanciato Claude Ops 4.5!! È di LONTANO il miglior modello di codifica che abbia mai usato.
Lo abbiamo testato internamente @every negli ultimi giorni, ed è un assoluto cambiamento di paradigma per qualsiasi tipo di compito di codifica.
Estende l'orizzonte di ciò che puoi vibrare in codice.
La generazione attuale di nuovi modelli—Sonnet 4.5 di Anthropic, Gemini 3 di Google, o Codex Max 5.1 di OpenAI—può tutti costruire competentemente un prodotto minimo funzionante in un colpo solo, o risolvere un bug altamente tecnico in modo autonomo.
Ma alla fine, se continuavi a spingerli a vibrare codice di più, avrebbero iniziato a inciampare sui propri piedi: il codice sarebbe stato contorto e contraddittorio, e ti saresti bloccato in bug infiniti. Non abbiamo ancora trovato quel limite con Opus 4.5—sembra essere in grado di vibrare codice all'infinito.
Porta il lavoro in parallelo a un livello completamente nuovo
perché è molto migliore nella pianificazione e nella codifica, può lavorare con maggiore autonomia—significa che puoi fare di più in parallelo senza rompere nulla.
@kieranklaassen ha lavorato su 11 progetti diversi in sei ore—e ha ottenuto buoni risultati su tutti.
Ottimo per l'iterazione del design
Opus 4.5 è incredibilmente abile nell'iterare autonomamente attraverso un design utilizzando un MCP come Playwright. I modelli precedenti avrebbero perso il filo dopo pochi cicli, o avrebbero detto che un design era finito quando non lo era.
Opus 4.5 è incredibile nell'iterare autonomamente fino a quando un design non è perfetto nei pixel.
Abbiamo un controllo completo di 4.000 parole su @every in questo momento con tutto ciò che abbiamo testato:
73,21K
Principali
Ranking
Preferiti

