Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Il nuovo modello di immagine di Gemini (noto anche come “nano banana”) funziona piuttosto bene ed è molto divertente da usare con i tuoi bambini (ne ho fatto una regina, l'altro Blippi, a loro richiesta).
Tuttavia, ha alcune limitazioni piuttosto strane. A volte, riesce a catturare la somiglianza in modo molto accurato. Altre volte, i volti sembrano totalmente irriconoscibili. Non sembra esserci molto di un modello che riesca a discernere in termini di quando funziona e quando fallisce.
Google ha già una tecnologia piuttosto buona per riconoscere i volti, dato che lo fa in Google Immagini.
Mi chiedo perché non aggiungano un passaggio di controllo qualità automatico che verifichi se il volto nell'immagine generata corrisponde bene al volto nell'immagine originale e riprovi automaticamente quelli che non riescono. L'incoerenza fa sembrare il prodotto molto meno magico.
Il problema più grande è che le revisioni di un'immagine che è andata male non funzionano mai. È totalmente incapace di recuperare una volta che prende una cattiva direzione. Anche se le revisioni sono piuttosto chiare e modeste. Sembra quasi una sorta di “contaminazione del contesto”.
Questo sembra essere il problema molto più serio con questo strumento di produttività che compete con Photoshop. Ma potrebbe anche essere risolto facendo sempre più generazioni in background e valutandole, mostrando solo la migliore.
Non ti permettono nemmeno di rigenerare (“re-roll”) un'immagine, quindi devi iniziare una nuova conversazione ogni volta. Questo è fastidioso e inquina la tua cronologia delle conversazioni.
Ma detto ciò, funziona piuttosto bene e sicuramente molto meglio della funzionalità simile in Facebook Messenger.
Adobe deve assolutamente avere una risposta a questo se vuole rimanere rilevante.


716
Non posso credere di aver aspettato così a lungo per passare da mypy a ty (dal creatore di uv e ruff). Penso di essere stato scoraggiato dal fatto che fosse pubblicizzato come "in pre-release".
Assurdità, funziona benissimo! Ed è letteralmente centinaia di volte più veloce di mypy. È una differenza qualitativa.

1,61K
È bello quando un vecchio progetto che hai realizzato viene condiviso da qualche parte e all'improvviso ricevi un sacco di nuove stelle su GitHub.
Ho sempre pensato che questo fosse un progetto interessante, e ho avuto alcune vere scoperte mentre lo realizzavo in termini di utilizzo degli LLM in modi creativi e nuovi:
1,3K
Mi sono un po' perso in tutti gli acronimi e il gergo qui, quindi ho fatto spiegare a Claude senza usare acronimi e ora ha tutto perfettamente senso (tldr; larghezza di banda ⟹ semplicità):
Questa è una discussione tecnica affascinante sulla formazione di modelli di linguaggio di grandi dimensioni su larga scala.
La Conversazione Principale
Jingyuan Liu esprime sorpresa nel scoprire che non hai bisogno di certe tecniche di ottimizzazione complesse quando usi TPU (Tensor Processing Units - i chip AI specializzati di Google) rispetto a GPU (Graphics Processing Units - tipicamente i chip NVIDIA).
Concetti Tecnici Chiave Spiegati:
Tipi di Hardware:
•GPU (Graphics Processing Unit): Originariamente progettata per la grafica, ora ampiamente utilizzata per l'AI. NVIDIA domina questo mercato.
•TPU (Tensor Processing Unit): Chip progettati su misura da Google specificamente per l'apprendimento automatico.
Strategie di Parallelismo:
Quando si addestrano modelli AI massicci, è necessario suddividere il lavoro tra molti chip. Ci sono diversi modi per farlo:
1) Parallelismo Dati (DP): Ogni chip elabora diversi lotti di dati con la stessa copia del modello
2) Parallelismo Tensoriale (TP): Le operazioni matematiche del modello sono suddivise tra i chip
3) Parallelismo a Pipeline (PP): Diversi strati del modello sono posizionati su chip diversi, creando una pipeline
La Sfida Tecnica In Discussione:
Il problema della perdita ausiliaria: Quando si addestrano modelli molto grandi, spesso si aggiungono "perdite ausiliarie" (obiettivi di addestramento aggiuntivi) a strati intermedi per aiutare i gradienti a fluire meglio attraverso la rete. Sotto i vincoli di PPVP (Pipeline Parallelism with Variable Partitioning), questo diventa complesso perché:
•Devi fare "tutti f tutti b" (tutti i passaggi in avanti, poi tutti i passaggi all'indietro)
•Questo è impegnativo per l'uso della memoria di picco perché devi memorizzare i risultati intermedi
L'innovazione di DeepSeek: Hanno sviluppato un design "auxfree bias" che apparentemente evita la necessità di queste perdite ausiliarie pur continuando a formare in modo efficace.
La Rivelazione Sorprendente:
L'esperto senior ha detto a Jingyuan che con i TPU a scala K2 o DSV3 (queste sono configurazioni di cluster con centinaia o migliaia di chip), puoi ottenere un'eccellente MFU (Model FLOPs Utilization - fondamentalmente quanto efficientemente stai usando l'hardware) SENZA utilizzare il Parallelismo a Pipeline.
Perché è sorprendente?
•Il Parallelismo a Pipeline è tipicamente considerato essenziale per l'addestramento su larga scala
•È una tecnica complessa che richiede un'ottimizzazione attenta
•Essere in grado di evitarlo semplifica tutto in modo significativo
La Spiegazione di Horace He:
Spiega PERCHÉ questo è possibile con i TPU:
Il vantaggio della larghezza di banda: I TPU e i cluster NVIDIA di alta gamma (come NVL72 - l'ultima configurazione a 72 GPU di NVIDIA con interconnessioni NVLink) hanno una larghezza di banda così alta tra i chip che possono gestire i requisiti di comunicazione senza Parallelismo a Pipeline.
L'intuizione chiave:
•Il Parallelismo a Pipeline è principalmente necessario quando sei "bottlenecked on DP comms" (limitato da quanto velocemente puoi comunicare durante l'addestramento parallelo dei dati)
•Se hai abbastanza larghezza di banda attraverso un dominio abbastanza grande (cluster interconnesso), puoi semplicemente utilizzare strategie di parallelismo più semplici
•Questo funziona "per molto tempo" - il che significa che puoi addestrare anche modelli molto grandi senza raggiungere i limiti
L'Intuizione:
Pensalo come un sistema autostradale:
•I cluster GPU tradizionali sono come avere strade strette tra le città, quindi hai bisogno di un instradamento complesso (Parallelismo a Pipeline) per evitare ingorghi
•I cluster TPU o le GPU collegate tramite NVLink sono come avere autostrade enormi - puoi semplicemente inviare tutto direttamente senza instradamenti complicati
Questo è un grande affare perché il Parallelismo a Pipeline è complesso da implementare, debug e ottimizzare. Essere in grado di evitarlo pur raggiungendo un'alta efficienza rende l'intero processo di addestramento molto più semplice e affidabile.
La discussione evidenzia come i progressi nella tecnologia di interconnessione hardware (le "strade" tra i chip) possano cambiare fondamentalmente le strategie software necessarie per un addestramento AI efficiente.

25,7K
Mi sono un po' perso in tutti gli acronimi e il gergo qui, quindi ho fatto spiegare a Claude senza usare acronimi e ora ha tutto perfettamente senso (tldr; larghezza di banda ⟹ semplicità):
Questa è una discussione tecnica affascinante sulla formazione di modelli di linguaggio di grandi dimensioni su larga scala.
La Conversazione Principale
Jingyuan Liu esprime sorpresa nel scoprire che non è necessario utilizzare certe tecniche di ottimizzazione complesse quando si usano i TPU (Tensor Processing Units - i chip AI specializzati di Google) rispetto alle GPU (Graphics Processing Units - tipicamente i chip NVIDIA).
Concetti Tecnici Chiave Spiegati:
Tipi di Hardware:
•GPU (Graphics Processing Unit): Originariamente progettata per la grafica, ora ampiamente utilizzata per l'AI. NVIDIA domina questo mercato.
•TPU (Tensor Processing Unit): Chip progettati su misura da Google specificamente per l'apprendimento automatico.
Strategie di Parallelismo:
Quando si addestrano modelli AI massicci, è necessario suddividere il lavoro tra molti chip. Ci sono diversi modi per farlo:
1. Parallelismo Dati (DP): Ogni chip elabora diversi batch di dati con la stessa copia del modello.
2. Parallelismo Tensoriale (TP): Le operazioni matematiche del modello sono suddivise tra i chip.
3. Parallelismo a Pipeline (PP): Diversi strati del modello sono posizionati su chip diversi, creando una pipeline.
La Sfida Tecnica in Discussione:
Il problema della perdita ausiliaria: Quando si addestrano modelli molto grandi, spesso si aggiungono "perdite ausiliarie" (obiettivi di addestramento aggiuntivi) a strati intermedi per aiutare i gradienti a fluire meglio attraverso la rete. Sotto i vincoli di PPVP (Parallelismo a Pipeline con Partizionamento Variabile), questo diventa complesso perché:
•È necessario fare "tutti f tutti b" (tutti i passaggi in avanti, poi tutti i passaggi all'indietro).
•Questo è impegnativo per l'uso della memoria di picco perché è necessario memorizzare i risultati intermedi.
L'innovazione di DeepSeek: Hanno sviluppato un design "auxfree bias" che apparentemente evita la necessità di queste perdite ausiliarie pur continuando a formare in modo efficace.
La Rivelazione Sorprendente:
L'esperto senior ha detto a Jingyuan che con i TPU a scala K2 o DSV3 (queste sono configurazioni di cluster con centinaia o migliaia di chip), è possibile ottenere un'eccellente MFU (Utilizzo dei FLOPs del Modello - fondamentalmente quanto efficientemente si utilizza l'hardware) SENZA utilizzare il Parallelismo a Pipeline.
Perché è sorprendente?
•Il Parallelismo a Pipeline è tipicamente considerato essenziale per l'addestramento su larga scala.
•È una tecnica complessa che richiede un'ottimizzazione attenta.
•Essere in grado di evitarlo semplifica tutto in modo significativo.
La Spiegazione di Horace He:
Spiega PERCHÉ questo è possibile con i TPU:
Il vantaggio della larghezza di banda: I TPU e i cluster NVIDIA di alta gamma (come NVL72 - l'ultima configurazione a 72 GPU di NVIDIA con interconnessioni NVLink) hanno una larghezza di banda così alta tra i chip che possono gestire i requisiti di comunicazione senza Parallelismo a Pipeline.
L'intuizione chiave:
•Il Parallelismo a Pipeline è principalmente necessario quando sei "bottlenecked su DP comms" (limitato da quanto velocemente puoi comunicare durante l'addestramento parallelo dei dati).
•Se hai abbastanza larghezza di banda su un dominio abbastanza grande (cluster interconnesso), puoi semplicemente utilizzare strategie di parallelismo più semplici.
•Questo funziona "per molto tempo" - il che significa che puoi addestrare anche modelli molto grandi senza raggiungere i limiti.
L'Intuizione:
Pensalo come un sistema autostradale:
•I cluster GPU tradizionali sono come avere strade strette tra le città, quindi hai bisogno di un instradamento complesso (Parallelismo a Pipeline) per evitare ingorghi.
•I cluster TPU o le GPU collegate tramite NVLink sono come avere autostrade enormi - puoi semplicemente inviare tutto direttamente senza un instradamento elaborato.
Questo è un grande affare perché il Parallelismo a Pipeline è complesso da implementare, debug e ottimizzare. Essere in grado di evitarlo pur raggiungendo un'alta efficienza rende l'intero processo di addestramento molto più semplice e affidabile.
La discussione evidenzia come i progressi nella tecnologia di interconnessione hardware (le "strade" tra i chip) possano cambiare fondamentalmente le strategie software necessarie per un addestramento AI efficiente.

3,98K
Sono un po' sorpreso che nessuno abbia ancora creato un server MCP per Dwarf Fortress che possa consentire a un agente come Codex o Claude Code di controllare il gioco in modo efficiente e monitorare lo stato e i progressi.
Non l'ho mai giocato davvero, l'ho solo scaricato e l'ho controllato brevemente circa 10 anni fa, ma mi è piaciuto leggere a riguardo.
Sembra che sarebbe un ottimo test per un LLM vedere per quanto tempo potrebbe mantenere i nani vivi e prosperi.
Poiché ogni gioco alla fine porta a qualche catastrofe a cascata che causa la morte di tutti i nani, dovrebbe esserci un punto di arresto naturale, il che lo rende un buon candidato per un benchmark. Almeno questa è la mia comprensione (il motto dei giocatori è "Perdere è divertente").
Fare un buon lavoro con questo gioco dipenderebbe dall'accuratezza nella chiamata degli strumenti e dalla coerenza sostenuta nei compiti a lungo termine, oltre alla capacità di monitorare e comprendere le dinamiche di un sistema complesso e fare interventi tempestivi che anticipano e contrastano i problemi.
E poiché è nativo per terminale, potrebbe essere trasmesso e elaborato in modo efficiente utilizzando token regolari senza necessità di elaborazione di immagini multimodali, il che lo renderebbe molto più efficiente rispetto ad altri giochi.
Inoltre, sai che nessun laboratorio di intelligenza artificiale si è ancora addestrato per questo (ancora!), quindi è incontaminato da "benchmaxxing."

4,38K
Una cosa divertente da fare quando devi aspettare per qualche minuto è usare il tuo telefono per chiedere a Claude Opus la seguente domanda su qualche disciplina o campo a caso:
"Quale diresti sia L'intuizione fondamentale o il trucco analitico della cristallografia?"
Sostituisci cristallografia con qualsiasi cosa tu possa pensare. Finora, ho provato:
QED; il Modello Standard; Biochimica; Probabilità; Teoria evolutiva; e molti altri.
C'è qualcosa nel costringere il modello a fare l'impossibile, a condensare un vasto e complesso campo in "un trucco strano", che lo spinge davvero a cercare il miglior principio profondo e unificante nel campo e poi a articolare questo concetto in modo succinto.
Tende a essere qualcosa che è ovvio per i praticanti, ma molto probabilmente sconosciuto alla maggior parte delle persone con solo un interesse superficiale nell'argomento.
È interessante notare che puoi anche premere ripetutamente il pulsante "ripeti" con lo stesso prompt e a volte ottenere spiegazioni molto diverse, ma di solito molto affascinanti.
Ho già imparato MOLTO facendo questo, e potrebbe essere semplicemente il più alto "comprensione per minuto" che ho incontrato in qualsiasi apprendimento autodiretto.
Perché non sono solo fatti divertenti o curiosità interessanti. Sono, per costruzione, idee penetranti e unificanti che collegano una vasta quantità di teoria e fenomeni osservati nel mondo.
È sicuramente molto più ad alta capacità rispetto a guardare un altro video esplicativo su YouTube con animazioni e pubblicità per Brilliant/KiwiCo! Non che ci sia qualcosa di sbagliato in quelli.




8,29K
L'idea che ci sia stata una sorta di "esodo di talenti" da OpenAI recentemente, al punto che non siano più in grado di essere leader nel settore, è tanto fuorviante e sbagliata quanto l'idea che GPT-5 "sia stato un grande flop e che il modello non sia così eccezionale e sia molto incrementale."
Non solo GPT-5 Pro è il modello più intelligente al mondo ora, di gran lunga, nella maggior parte dei compiti reali più impegnativi (soprattutto nei compiti di programmazione, che hanno ora la maggiore importanza economica), ma il nuovo strumento codex cli di OpenAI è incredibilmente ben realizzato.
Sono passati da un lontano terzo posto negli strumenti cli di programmazione ad avere quello che è senza dubbio il migliore attualmente disponibile (nota che mi piace e uso ancora Claude Code, non è o l'uno o l'altro!), con di gran lunga le migliori prestazioni, la latenza più bassa, ecc. perché è programmato in rust.
E ora questo strumento cli è combinato con il miglior modello di programmazione che ha la migliore affidabilità nella chiamata degli strumenti e la migliore coerenza nei compiti lunghi, con il minor numero di allucinazioni.
E non c'è bisogno di dire che la loro app iOS è anche drammaticamente migliore di tutte le altre app AI in termini di rifinitura e funzionalità. L'app Claude è semplicemente l'app web in un sandbox di Safari! E la loro app web è ancora la migliore. Cose come la ricerca funzionano semplicemente meglio rispetto ad altre app. Fondamenta e basi.
Quindi, sì. Alcune persone molto intelligenti come Ilya e John Schulman sono andate a lavorare per altre aziende. Ma hanno ancora un team tecnico assolutamente fantastico con persone di prodotto incredibilmente valide e ottime capacità ingegneristiche.
Non lasciare che il tuo disprezzo per Altman ti accechi all'evidente. Ogni volta che vedo un'altra persona lamentarsi di quanto sia cattivo GPT-5, mi viene da rabbrividire, perché la persona sta dimostrando di non saper pensare con la propria testa basandosi su prove e ragione, ed è stata influenzata a pensare un'opinione (e a diffonderla online) perché pensa che la faccia sembrare intelligente.
34,25K
Quanto è fantastico che ciascuno di quei piccoli chip abbia 8 terabyte di spazio di archiviazione super veloce? E puoi collegarli entrambi a quell'involucro blu e ottenere 20 Gbps tramite USB 3.3 (non ho porte USB 4 e tutte le mie slot pci-e sono occupate da GPU)
Viviamo in un'epoca di tale abbondanza.

3,47K
Come aggiornamento ai miei due recenti thread sull'uso di GPT-5 Pro per avviare un processo di scoperta di teorie innovative che combinano applicazioni nuove di matematica avanzata nei casi d'uso dell'IA, ho fatto creare al modello implementazioni dimostrative in Python utilizzando Jax e Numpy per ciascuna delle 11 idee.
Poi le ho messe insieme in un progetto e ho aggiunto una bella interfaccia a riga di comando per eseguirle, e una serie di test end-to-end che misuravano se il codice fosse matematicamente corretto, controllando che il codice avesse le proprietà matematiche che desideriamo e, infine, se facesse qualcosa di utile rispetto agli approcci standard attuali.
Ho utilizzato codex CLI con GPT-5 per integrare tutto e correggere eventuali bug. Collegherò il repository, che contiene documentazione dettagliata per l'intero progetto e poi scritti per ciascuna delle 11 dimostrazioni che contengono tutto l'output generato dal modello durante il processo.
4,05K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari