DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Andrej Karpathy

Costruire @EurekaLabsAI. In precedenza Direttore di AI @ Tesla, team fondatore @ OpenAI, CS231n/PhD @ Stanford. Mi piace addestrare grandi reti neurali profonde.

Nell'era del pretraining, ciò che contava era il testo di internet. Vorresti principalmente una grande, diversificata e di alta qualità collezione di documenti internet da cui apprendere. Nell'era del fine-tuning supervisionato, erano le conversazioni. Vengono assunti lavoratori a contratto per creare risposte a domande, un po' come ciò che vedresti su Stack Overflow / Quora, o simili, ma orientati verso casi d'uso di LLM. Nessuno dei due sopra menzionati sta per scomparire (a mio avviso), ma in quest'era di apprendimento per rinforzo, ora sono gli ambienti. A differenza di quanto sopra, offrono all'LLM l'opportunità di interagire realmente - compiere azioni, vedere risultati, ecc. Questo significa che puoi sperare di fare molto meglio dell'imitazione esperta statistica. E possono essere utilizzati sia per l'addestramento che per la valutazione del modello. Ma proprio come prima, il problema centrale ora è la necessità di un grande, diversificato e di alta qualità set di ambienti, come esercizi per l'LLM su cui praticare. In un certo senso, mi ricorda il primo progetto di OpenAI (gym), che era esattamente un framework che sperava di costruire una grande collezione di ambienti nello stesso schema, ma questo era molto prima degli LLM. Quindi gli ambienti erano semplici compiti di controllo accademico dell'epoca, come cartpole, ATARI, ecc. L'hub degli ambienti @PrimeIntellect (e il repo `verifiers` su GitHub) costruisce la versione modernizzata specificamente mirata agli LLM, ed è un grande sforzo/idea. Ho proposto che qualcuno costruisse qualcosa di simile all'inizio di quest'anno: Gli ambienti hanno la proprietà che, una volta che lo scheletro del framework è in atto, in linea di principio la comunità / industria può parallelizzare attraverso molti domini diversi, il che è entusiasmante. Pensiero finale - personalmente e a lungo termine, sono ottimista sugli ambienti e le interazioni agentiche, ma sono pessimista sull'apprendimento per rinforzo specificamente. Penso che le funzioni di ricompensa siano molto sospette, e penso che gli esseri umani non usino l'RL per apprendere (forse lo fanno per alcuni compiti motori, ecc., ma non per compiti di problem solving intellettuale). Gli esseri umani usano paradigmi di apprendimento diversi che sono significativamente più potenti ed efficienti in termini di campionamento e che non sono stati ancora inventati e scalati correttamente, anche se esistono schizzi e idee iniziali (come solo un esempio, l'idea di "apprendimento tramite prompt di sistema", spostando l'aggiornamento su token/contesti e non pesi e distillando facoltativamente ai pesi come processo separato un po' come fa il sonno).

Continuando il viaggio verso un'esperienza di codifica ottimale assistita da LLM. In particolare, trovo che invece di concentrarmi su una cosa perfetta, il mio utilizzo si sta diversificando sempre di più su alcuni flussi di lavoro che "cucio" insieme i pro e i contro: Personalmente, il pane e burro (~75%?) della mia assistenza LLM continua a essere semplicemente il completamento automatico (Cursor). Questo perché trovo che scrivere blocchi concreti di codice/commenti da solo e nella parte giusta del codice sia un modo ad alta capacità di comunicare la "specifica del compito" all'LLM, cioè si tratta principalmente di pezzi di specifica del compito - ci vogliono troppi bit e troppa latenza per comunicare ciò che voglio in testo, ed è più veloce dimostrarlo nel codice e nel posto giusto. A volte il modello di completamento automatico è fastidioso, quindi lo attivo/disattivo spesso. Il livello successivo è evidenziare un blocco concreto di codice e chiedere qualche tipo di modifica. Il livello successivo è Claude Code / Codex / ecc., che utilizzo a fianco di Cursor, a cui mi rivolgo per blocchi più grandi di funzionalità che sono anche abbastanza facili da specificare in un prompt. Questi sono super utili, ma nel complesso sono ancora misti e leggermente frustranti a volte. Non utilizzo la modalità YOLO perché possono deviare e fare cose stupide che non volevi/necessitavi e ESC spesso. Non ho nemmeno imparato a essere produttivo usando più di un'istanza in parallelo - una già sembra abbastanza difficile. Non ho trovato un buon modo per mantenere CLAUDE[.]md in buone condizioni o aggiornato. Spesso devo fare un passaggio di "pulizie" per lo stile di codifica o questioni di gusto del codice. Ad esempio, sono troppo difensivi e spesso abusano delle istruzioni try/catch, complicano spesso le astrazioni, sovraccaricano il codice (ad esempio, costrutti if-else annidati quando una list comprehension o un if-then-else su una riga funzionerebbero), o duplicano blocchi di codice invece di creare una bella funzione di aiuto, cose del genere... fondamentalmente non hanno senso del gusto. Sono indispensabili nei casi in cui mi avventuro in un territorio di codifica più "vibe" dove sono meno familiare (ad esempio, scrivendo recentemente in rust, o comandi sql, o qualsiasi altra cosa che ho fatto meno in precedenza). Ho anche provato CC per insegnarmi cose insieme al codice che stava scrivendo, ma non ha funzionato affatto - vuole davvero solo scrivere codice molto più di quanto voglia spiegare qualcosa lungo il cammino. Ho provato a far fare a CC la sintonizzazione degli iperparametri, il che è stato molto divertente. Sono anche super utili in tutti i tipi di visualizzazioni personalizzate o utilità o codice di debug a basso rischio che non scriverei mai altrimenti perché ci vorrebbe troppo tempo. Ad esempio, CC può produrre 1.000 righe di visualizzazione/code estensive solo per identificare un bug specifico, che viene poi eliminato subito dopo averlo trovato. È l'era del codice post-scarsità - puoi semplicemente creare e poi eliminare migliaia di righe di codice super personalizzato e super effimero ora, va bene, non è più una cosa preziosa e costosa. L'ultimo livello di difesa è GPT5 Pro, a cui mi rivolgo per le cose più difficili. Ad esempio, mi è successo alcune volte che io / Cursor / CC fossimo tutti bloccati su un bug per 10 minuti, ma quando copio e incollo tutto in 5 Pro, va avanti per 10 minuti ma poi trova effettivamente un bug molto sottile. È molto potente. Può scavare tutti i tipi di documenti e articoli esoterici e simili. L'ho anche usato per altri compiti più sostanziosi, ad esempio suggerimenti su come pulire le astrazioni (risultati misti, a volte buone idee ma non tutte), o un'intera revisione della letteratura su come le persone fanno questo o quello e torna con buone risorse/punti pertinenti. Comunque, la codifica sembra completamente aperta a possibilità attraverso un certo numero di "tipi" di codifica e poi un certo numero di strumenti con i loro pro e contro. È difficile evitare la sensazione di ansia di non essere all'avanguardia di ciò che è collettivamente possibile, da qui un random sunday shower di pensieri e una buona dose di curiosità su ciò che gli altri stanno trovando.

Principali

Ranking

Preferiti