Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Å bygge @EurekaLabsAI. Tidligere direktør for AI @ Tesla, grunnleggerteam @ OpenAI, CS231n/PhD @ Stanford. Jeg liker å trene store dype nevrale nett.
Jeg spilte med Gemini 3 i går via early access. Noen tanker –
Først pleier jeg å oppfordre til forsiktighet med offentlige benchmarks fordi jeg mener de er ganske mulige å manipulere. Det handler om disiplin og selvkontroll fra teamet (som samtidig er sterkt motivert til å unngå å overtilpasse testsett gjennom avanserte gymnastikkøvelser over testsett-tilstøtende data i dokumentinnbyggingsrommet. Realistisk sett, fordi alle andre gjør det, er presset for å gjøre det høyt.
Gå og snakk med modellen. Snakk med de andre modellene (Kjør LLM-syklusen – bruk en ny LLM hver dag). Jeg fikk et positivt tidlig inntrykk i går innen personlighet, skriving, vibe-koding, humor osv., veldig solid potensial for daglig bilfører, tydeligvis en tier 1 LLM, gratulerer til teamet!
I løpet av de neste dagene/ukene er jeg mest nysgjerrig og på utkikk etter et ensemble fremfor private evalueringer, som mange folk/organisasjoner nå ser ut til å bygge for seg selv og av og til rapporterer om her.
859,83K
Jeg begynner å få en vane med å lese alt (blogger, artikler, bokkapitler,...) med LLM-er. Vanligvis er første runde manuell, så består 2 «forklare/oppsummere», består 3 spørsmål og svar. Jeg ender som regel opp med en bedre/dypere forståelse enn om jeg gikk videre. Vokser til å bli blant de beste bruksområdene.
På den andre siden, hvis du er en forfatter som prøver å forklare/kommunisere noe, kan vi i økende grad se mindre av tankegangen «Jeg skriver dette for et annet menneske» og mer «Jeg skriver dette for en LLM». For når en LLM «forstår det», kan den målrette, personalisere og levere ideen til brukeren.
1,01M
Deler en interessant nylig samtale om AIs innvirkning på økonomien.
AI har blitt sammenlignet med ulike historiske presedenser: elektrisitet, industriell revolusjon, etc., jeg tror den sterkeste analogien er AI som et nytt dataparadigme (Software 2.0) fordi begge grunnleggende handler om automatisering av digital informasjonsbehandling.
Hvis du skulle forutsi virkningen av databehandling på arbeidsmarkedet på ~1980-tallet, er det mest prediktive trekket ved en oppgave/jobb du ville se på i hvilken grad algoritmen til den er fast, det vil si at du bare mekanisk transformerer informasjon i henhold til rutine, enkle å spesifisere regler (f.eks. skriving, bokføring, menneskelige kalkulatorer, etc.)? Den gang var dette klassen av programmer som databehandlingsevnen på den tiden tillot oss å skrive (for hånd, manuelt).
Med AI nå er vi i stand til å skrive nye programmer som vi aldri kunne håpe å skrive for hånd før. Vi gjør det ved å spesifisere mål (f.eks. klassifiseringsnøyaktighet, belønningsfunksjoner), og vi søker i programrommet via gradientnedstigning for å finne nevrale nettverk som fungerer godt mot det målet. Dette er blogginnlegget mitt om Software 2.0 fra en stund siden. I dette nye programmeringsparadigmet er den nye mest prediktive funksjonen å se på verifiserbarhet. Hvis en oppgave/jobb er verifiserbar, kan den optimaliseres direkte eller via forsterkende læring, og et nevralt nett kan trenes til å fungere ekstremt bra. Det handler om i hvilken grad en AI kan "praktisere" noe. Miljøet må være tilbakestillbart (du kan starte et nytt forsøk), effektivt (mange forsøk kan gjøres) og belønningsbart (det er en automatisert prosess for å belønne ethvert spesifikt forsøk som ble gjort).
Jo mer en oppgave/jobb er verifiserbar, jo mer mottakelig er den for automatisering i det nye programmeringsparadigmet. Hvis det ikke er verifiserbart, må det falle ut av nevrale nettmagi av generalisering krysser fingrene, eller via svakere midler som imitasjon. Det er dette som driver den "taggete" grensen for fremgang i LLM-er. Oppgaver som er verifiserbare utvikler seg raskt, inkludert muligens utenfor evnene til toppeksperter (f.eks. matematikk, kode, hvor mye tid brukt på å se videoer, alt som ser ut som gåter med riktige svar), mens mange andre henger etter i sammenligning (kreative, strategiske, oppgaver som kombinerer kunnskap fra den virkelige verden, stat, kontekst og sunn fornuft).
Software 1.0 automatiserer enkelt det du kan spesifisere.
Software 2.0 automatiserer enkelt det du kan verifisere.
1,98M
Topp
Rangering
Favoritter

