Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jürgen Schmidhuber
Uppfann principer för metainlärning (1987), GAN (1990), Transformers (1991), mycket djupinlärning (1991), etc. Vår AI används många miljarder gånger varje dag.
Fukushimas video (1986) visar en CNN som känner igen handskrivna siffror [3], tre år före LeCuns video (1989).
CNN:s tidslinje hämtad från [5]:
★ 1969: Kunihiko Fukushima publicerade rektifierade linjära enheter eller ReLU [1] som nu används i stor utsträckning i CNN.
★ 1979: Fukushima publicerade den grundläggande CNN-arkitekturen med konvolutionslager och nedsamplingslager [2]. Han kallade det neokognitron. Den tränades enligt regler för oövervakad inlärning. Beräkning var hundra gånger dyrare än 1989 och en miljard gånger dyrare än idag.
★ 1986: Fukushimas video om att känna igen handskrivna siffror [3].
★ 1988: Wei Zhang et al. lät den första "moderna" tvådimensionella CNN tränas med backpropagation och tillämpade den även för teckenigenkänning [4]. Beräkningar var ungefär 10 miljoner gånger dyrare än idag.
★ 1989-: senare verk av andra [5].
REFERENSER (mer i [5])
[1] K. Fukushima (1969). Visuell funktionsextraktion med ett flerskiktat nätverk av analoga tröskelelement. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Detta arbete introducerade rektifierade linjära enheter eller ReLU:er, som nu används i stor utsträckning i CNN och andra neurala nätverk.
[2] K. Fukushima (1979). Neural nätverksmodell för en mekanism för mönsterigenkänning som inte påverkas av positionsförskjutning—Neocognitron. Övers. IECE, vol. J62-A, nr 10, s. 658-665, 1979. Den första djupa konvolutionella neurala nätverksarkitekturen, med alternerande konvolutionella lager och nedsamplingslager. På japanska. Engelsk version: 1980.
[3] Film producerad av K. Fukushima, S. Miyake och T. Ito (NHK Science and Technical Research Laboratories), år 1986. YouTube:
[4] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Skiftinvariant mönsterigenkänning av neurala nätverk och dess optiska arkitektur. Proc. Årskonferens för Japan Society of Applied Physics, 1988. Första "moderna" backpropagationstränade tvådimensionella CNN, tillämpad på teckenigenkänning.
[5] J. Schmidhuber (AI Blog, 2025). Vem uppfann konvolutionella neurala nätverk?

Chubby♨️28 nov. 2025
Yann LeCuns demo av konvolutionella neurala nätverk från 1989, grunden för de CNN:er vi fortfarande använder idag.
Det är otroligt hur långt vi har kommit sedan dess!
299,37K
Modern AI bygger på artificiella neurala nätverk (NN). Vem uppfann dem?
Biologiska neurala nätverk upptäcktes på 1880-talet [CAJ88-06]. Termen "neuron" myntades 1891 [CAJ06]. Många tror att NN utvecklades EFTER det. Men så är det inte: de första "moderna" NN:erna med två lager av enheter uppfanns för över två sekler sedan (1795–1805) av Legendre (1805) och Gauss (1795, opublicerad) [STI81], när beräkningar var många biljoner gånger dyrare än 2025.
Visst, terminologin artificiella neurala nätverk introducerades först mycket senare, på 1900-talet. Till exempel diskuterades vissa icke-lärande NN 1943 [MC43]. Informella tankar om en enkel inlärningsregel för att inte längre ta ett normalt tal publicerades 1948 [HEB48]. Evolutionär beräkning för NN nämndes i en opublicerad rapport från 1948 [TUR1]. Olika konkreta lärande NN publicerades 1958 [R58], 1961 [R61][ST61-95] och 1962 [WID62].
Men även om dessa NN-artiklar från mitten av 1900-talet är av historiskt intresse, HAR DE FAKTISKT MINDRE ATT GÖRA MED MODERN AI ÄN DEN MYCKET ÄLDRE ADAPTIVA NN av Gauss & Legendre, som fortfarande används flitigt idag, själva grunden för alla NN, inklusive de nyligen djupare NN:erna [DL25].
Gauss-Legendre NN från över 2 sekler sedan [NN25] har ett inmatningslager med flera inmatningsenheter och ett utgångslager. För enkelhetens skull antar vi att den senare består av en enda utgångsenhet. Varje inmatningsenhet kan innehålla ett reellt värde och är kopplat till utgångsenheten via en koppling med reellt värde. NN:s utdata är summan av produkterna av insatserna och deras vikter. Givet en träningsuppsättning av inmatningsvektorer och önskade målvärden för var och en av dem, justeras NN-vikterna så att summan av kvadrerade felen mellan NN-utgångarna och motsvarande mål minimeras [DLH]. Nu kan det icke neutrala nummert användas för att bearbeta tidigare osedda testdata.
Självklart kallades detta då inte ett NN, eftersom folk inte ens kände till biologiska neuroner än – den första mikroskopiska bilden av en nervcell skapades decennier senare av Valentin 1836, och termen "neuron" myntades av Waldeyer 1891 [CAJ06]. Istället kallades tekniken för minsta kvadratmetoden, även allmänt känd inom statistiken som linjär regression. Men den är MATEMATISKT IDENTISK med dagens linjära tvålagers NN: SAMMA grundläggande algoritm, SAMMA felfunktion, SAMMA adaptiva parametrar/vikter. Sådana enkla NN utför "ytligt lärande", till skillnad från "djupinlärning" med många icke-linjära lager [DL25]. Faktum är att många moderna NN-kurser börjar med att introducera denna metod och går sedan vidare till mer komplexa, djupare NN [DLH].
Även tillämpningarna från tidigt 1800-tal liknade dagens: lär dig förutsäga nästa element i en sekvens, givet tidigare element. DET ÄR VAD CHATGPT GÖR! Det första berömda exemplet på mönsterigenkänning genom ett NN är över 200 år gammalt: återupptäckten av dvärgplaneten Ceres 1801 genom Gauss, som samlade in brusiga datapunkter från tidigare astronomiska observationer och sedan använde dem för att justera parametrarna för en prediktor, som i princip lärde sig generalisera från träningsdata för att korrekt förutsäga Ceres nya plats. Det var det som gjorde den unge Gauss berömd [DLH].
De gamla Gauss-Legendre NN:erna används fortfarande idag i otaliga tillämpningar. Vad är den största skillnaden jämfört med de NN som använts i några av de imponerande AI-applikationerna sedan 2010-talet? De senare är vanligtvis mycket djupare och har många mellanliggande lager av inlärnings-"dolda" enheter. Vem uppfann det här? Kort svar: Ivakhnenko & Lapa (1965) [DEEP1-2]. Andra förfinade detta [DLH]. Se även: vem uppfann deep learning [DL25]?
Vissa tror fortfarande att moderna nät på något sätt inspirerades av den biologiska hjärnan. Men det är helt enkelt inte sant: decennier innan biologiska nervceller upptäcktes ledde ren ingenjörskonst och matematisk problemlösning redan till det som nu kallas NN. Faktum är att under de senaste två århundradena har inte så mycket förändrats inom AI-forskningen: från och med 2025 drivs NN:s framsteg fortfarande mestadels av ingenjörskonst, inte av neurofysiologiska insikter. (Vissa undantag som går tillbaka många decennier [CN25] bekräftar regeln.)
Fotnot 1. År 1958 kombinerades enkla NN i stil med Gauss & Legendre med en uttröskelfunktion för att erhålla mönsterklassificerare kallade Perceptrons [R58][R61][DLH]. Förvånande nog verkade författarna [R58][R61] omedvetna om den mycket tidigare NN (1795–1805) som inom statistikområdet var känd som "minsta kvadratmetoden" eller "linjär regression." Anmärkningsvärt nog är dagens mest använda tvålagers NN de från Gauss & Legendre, inte de från 1940-talen [MC43] och 1950-talen [R58] (som inte ens var deriverbara)!
UTVALDA REFERENSER (många ytterligare referenser i [NN25] – se länken ovan):
[CAJ88] S. R. Cajal. Estructura de los centros nerviosos de las aves. Rev. Trim. Histol. Norm. Patol., 1 (1888), s. 1-10.
[CAJ88b] S. R. Cajal. Sobre las fibras nerviosas de la capa molecular del cerebelo. Rev. Trim. Histol. Norm. Patol., 1 (1888), s. 33-49.
[CAJ89] Conexión general de los elementos nerviosos. Med. Práct., 2 (1889), s. 341-346.
[CAJ06] F. López-Muñoz, J. Boya b, C. Alamo (2006). Neuronteorin, hörnstenen i neurovetenskapen, på hundraårsjubileet av Nobelpriset till Santiago Ramón y Cajal. Brain Research Bulletin, volym 70, nummer 4–6, 16 oktober 2006, sidorna 391–405.
[CN25] J. Schmidhuber (AI Blog, 2025). Vem uppfann konvolutionella neurala nätverk?
[DEEP1] Ivakhnenko, A. G. och Lapa, V. G. (1965). Cybernetiska prediktionsenheter. CCM Information Corporation. Först arbetade jag med djuplärare med många lager, lärde sig interna representationer.
[DEEP1a] Ivakhnenko, Alexey Grigorevich. Gruppmetoden för datahantering; en konkurrent till metoden stokastisk approximation. Sovjetisk automatisk styrning 13 (1968): 43-55.
[DEEP2] Ivakhnenko, A. G. (1971). Polynomteori för komplexa system. IEEE Transactions on System, Man and Cybernetics, (4):364-378.
[DL25] J. Schmidhuber. Vem uppfann djupinlärning? Teknisk not IDSIA-16-25, IDSIA, november 2025.
[DLH] J. Schmidhuber. Annoterad historia om modern AI och djupinlärning. Teknisk rapport IDSIA-22-22, IDSIA, Lugano, Schweiz, 2022. Preprint arXiv:2212.11279.
[HEB48] J. Konorski (1948). Betingade reflexer och neuronorganisation. Översättning från det polska manuskriptet under författarens överinseende. Cambridge University Press, 1948. Konorski publicerade den så kallade "Hebb-regeln" före Hebb [HEB49].
[HEB49] D. O. Hebb. Beteendets organisation. Wiley, New York, 1949. Konorski [HEB48] publicerade den så kallade "Hebe-regeln" före Hebb.
[MC43] W. S. McCulloch, W. Pitts. En logisk kalkyl av idéer som är immanent i nervös aktivitet. Bulletin of Mathematical Biophysics, Vol. 5, s. 115-133, 1943.
[NN25] J. Schmidhuber. Vem uppfann artificiella neurala nätverk? Teknisk not IDSIA-15-25, IDSIA, november 2025.
[R58] Rosenblatt, F. (1958). Perceptron: en probabilistisk modell för informationslagring och organisering i hjärnan. Psykologisk översikt, 65(6):386.
[R61] Joseph, R. D. (1961). Bidrag till perceptronteorin. Doktorsavhandling, Cornell Univ.
[R62] Rosenblatt, F. (1962). Principer för neurodynamik. Spartan, New York.
[ST61] K. Steinbuch. Die Lernmatrix. (Inlärningsmatrisen.) Kybernetik, 1(1):36-45, 1961.
[TUR1] A. M. Turing. Intelligent maskineri. Opublicerad teknisk rapport, 1948. I: Ince DC, redaktör. Samlade verk av AM Turing—Mekanisk intelligens. Elsevier Science Publishers, 1992.
[STI81] S. M. Stigler. Gauss och uppfinningen av minsta kvadrat. Ann. Stat. 9(3):465-474, 1981.
[WID62] Widrow, B. och Hoff, M. (1962). Associativ lagring och hämtning av digital information i nätverk av adaptiva neuroner. Biologiska prototyper och syntetiska system, 1:160, 1962.

26,36K
För 10 år sedan: förstärkningsinlärningspromptingenjören [1] (avsnitt 5.3). Adaptiv tankekedja: ett RL-neuralt nätverk lär sig att fråga sitt "världsmodell"-nät för abstrakt resonemang och beslutsfattande. Att gå bortom 1990 års neurala världsmodell [2] för millisekund-för-millisekund-planering och 1991 års adaptiva neurala delmålsgenerator [3,4] för hierarkisk planering.
[1] J. Schmidhuber (JS, 2015). Om att lära sig tänka: Algoritmisk informationsteori för nya kombinationer av RL-kontroller och recurrenta neurala världsmodeller. ArXiv 1210.0118
[2] JS (1990). Att göra världen differentierbar: Om att använda fullt recurrenta självövervakade neurala nätverk för dynamisk förstärkningsinlärning och planering i icke-stationära miljöer. TR FKI-126-90, TUM. (Denna rapport introducerade också artificiell nyfikenhet och inre motivation genom generativa adversariella nätverk.)
[3] JS (1991). Att lära sig att generera delmål för actionsekvenser. Proc. ICANN'91, s. 967-972.
[4] JS & R. Wahnsiedler (1992). Planering av enkla banor med hjälp av neurala delmålsgeneratorer. Proc. SAB'92, s. 196-202, MIT Press.

42,39K
Topp
Rankning
Favoriter

