Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derek Edws
administrerende partner @collab_currency / medgründer @glitchmarfa
Derek Edws lagt ut på nytt
I en tid med fortrening var det internetttekst som betydde noe. Du vil først og fremst ha en stor, mangfoldig samling av internettdokumenter av høy kvalitet å lære av.
I en tid med overvåket finjustering var det samtaler. Kontraktsarbeidere er ansatt for å lage svar på spørsmål, litt som det du vil se på Stack Overflow / Quora, eller etc., men rettet mot LLM-brukstilfeller.
Ingen av de to ovennevnte forsvinner (imo), men i denne epoken med forsterkende læring er det nå miljøer. I motsetning til de ovennevnte, gir de LLM en mulighet til å faktisk samhandle - iverksette handlinger, se resultater osv. Dette betyr at du kan håpe å gjøre det mye bedre enn statistisk ekspertimitasjon. Og de kan brukes både til modelltrening og evaluering. Men akkurat som før, er kjerneproblemet nå å trenge et stort, mangfoldig sett med miljøer av høy kvalitet, som øvelser for LLM å øve mot.
På noen måter blir jeg minnet om OpenAIs aller første prosjekt (treningsstudio), som var akkurat et rammeverk i håp om å bygge en stor samling miljøer i samme skjema, men dette var lenge før LLM-er. Så miljøene var enkle akademiske kontrolloppgaver på den tiden, som cartpole, ATARI, etc. Huben for @PrimeIntellect miljøer (og «verifikatorer»-repositoriet på GitHub) bygger den moderniserte versjonen som er spesielt rettet mot LLM-er, og det er en flott innsats/idé. Jeg foreslo at noen skulle bygge noe lignende tidligere i år:
Miljøer har den egenskapen at når skjelettet til rammeverket er på plass, kan i prinsippet samfunnet/industrien parallellisere på tvers av mange ulike domener, noe som er spennende.
Siste tanke - personlig og langsiktig, jeg er bullish på miljøer og agentiske interaksjoner, men jeg er bearish på forsterkende læring spesifikt. Jeg tror at belønningsfunksjoner er super sus, og jeg tror mennesker ikke bruker RL for å lære (kanskje de gjør det for noen motoriske oppgaver osv., men ikke intellektuelle problemløsningsoppgaver). Mennesker bruker forskjellige læringsparadigmer som er betydelig kraftigere og prøveeffektive, og som ikke har blitt ordentlig oppfunnet og skalert ennå, selv om tidlige skisser og ideer eksisterer (som bare ett eksempel, ideen om "systemrask læring", flytte oppdateringen til tokens/kontekster ikke vekter og eventuelt destillere til vekter som en egen prosess litt som søvn gjør).
182,9K
Derek Edws lagt ut på nytt
Neste generasjon av 10B+ verdivurderingsproduktoppstart vil bli bygget ved å skalere opplæring på internt RL-miljø
Vi lever i en overflod av muligheter, og likevel har vi bare to store AI-produkter, chatgpt og kodeagent, og det frustrerer meg dypt
Den nåværende forsyningskjeden for kunstig intelligens er strukturelt ødelagt med en maskinvareleverandør, et par gigantiske AI-spillere som eier alt etterretningsraffineriet, utviklere sitter igjen med api-tilgang med knapt ingen kontroll
Som om internett-æraen ble bygget med Intel som solgte CPU til 4 gigantiske skyer som eier hele infrastrukturen og programvarestabelen med hemmelighet og nda over alt og gir wordpress som et utviklingssett til oppstart
Hvorfor oppfant ikke forvirring dyp forskning? De kunne bare ikke fordi det er trene med RL
Min spådom for de neste årene:
RL vil bli det kraftigste verktøysettet for oppstartsbygging av AI-produkter. Vi vil se hundrevis av suksesshistorier som markør og elskelig. Sluttbrukeren vil ha mest nytte av det
Store laboratorier vil utvikle seg mot produktselskap, oai vil fokusere på forbrukermarkedet, Antropic på kodeagent, deepmind vil integrere AI i alle Google-virksomheter, meta og XAI kjemper om sosiale medier
Vi vil se fremveksten av et økosystem av oppstart av AI-infrastruktur, salg av databehandling, opplæringsgrunnmodell, kuratering av data, bygging av RL-miljø, tilbud om billig slutning og opplæring, drevet av åpen vitenskap og åpen kildekode-programvare.
@PrimeIntellect er banebrytende for dette økosystemet og visjonen om åpen kildekode-agi, er RL-miljøhuben en av de første nøkkelbrikkene
2,85K
Derek Edws lagt ut på nytt
Nous Research presenterer Hermes 4, vår nyeste serie med hybride resonneringsmodeller.
Hermes 4 bygger på vår arv av brukerjusterte modeller med utvidede databehandlingsmuligheter for testtid.
Spesiell oppmerksomhet ble gitt til å gjøre modellene kreative og interessante å samhandle med, uhindret av sensur og nøytralt justert samtidig som de opprettholdt toppmoderne matematikk-, kodings- og resonneringsytelse for modeller med åpen vekt.

10,77K
Derek Edws lagt ut på nytt
I den forrige administratoren ville det ha vært på grensen til uredelighet å råde et kryptoprosjekt i tidlig fase til å villig møte SEC – alt du ville få er «vi kan ikke fortelle deg hva loven er, men sørg for å følge den» sammen med en rask henvisning til håndhevelsesavdelingen
Imidlertid har Crypto Task Force vist en reell forpliktelse til å engasjere seg med industrien i god tro for å prøve å utvikle et brukbart rammeverk. Det påhviler bransjen å engasjere seg. Jeg, for min del, vil ta imot dette tilbudet og er klar til å være en CTF-roadie
3,63K
Derek Edws lagt ut på nytt
Lift Explorer-oppdatering!
La til de fire kritikeranimasjonene samt 3D-bildet av Pixel Man (som SVG-nedlasting) og en 3D-modell (som PLY-nedlasting).
Bare søk etter tokenID + klikk på tokenet for å få tilgang til nedlastinger. Takk @Afs2407 for forslagene og inspirasjonen.
cc: @glitchmarfa
Lenke 👇

5,91K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til