DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Jürgen Schmidhuber

Uppfann principer för metainlärning (1987), GAN (1990), Transformers (1991), mycket djupinlärning (1991), etc. Vår AI används många miljarder gånger varje dag.

Modern AI bygger på artificiella neurala nätverk (NN). Vem uppfann dem? Biologiska neurala nätverk upptäcktes på 1880-talet [CAJ88-06]. Termen "neuron" myntades 1891 [CAJ06]. Många tror att NN utvecklades EFTER det. Men så är det inte: de första "moderna" NN:erna med två lager av enheter uppfanns för över två sekler sedan (1795–1805) av Legendre (1805) och Gauss (1795, opublicerad) [STI81], när beräkningar var många biljoner gånger dyrare än 2025. Visst, terminologin artificiella neurala nätverk introducerades först mycket senare, på 1900-talet. Till exempel diskuterades vissa icke-lärande NN 1943 [MC43]. Informella tankar om en enkel inlärningsregel för att inte längre ta ett normalt tal publicerades 1948 [HEB48]. Evolutionär beräkning för NN nämndes i en opublicerad rapport från 1948 [TUR1]. Olika konkreta lärande NN publicerades 1958 [R58], 1961 [R61][ST61-95] och 1962 [WID62]. Men även om dessa NN-artiklar från mitten av 1900-talet är av historiskt intresse, HAR DE FAKTISKT MINDRE ATT GÖRA MED MODERN AI ÄN DEN MYCKET ÄLDRE ADAPTIVA NN av Gauss & Legendre, som fortfarande används flitigt idag, själva grunden för alla NN, inklusive de nyligen djupare NN:erna [DL25]. Gauss-Legendre NN från över 2 sekler sedan [NN25] har ett inmatningslager med flera inmatningsenheter och ett utgångslager. För enkelhetens skull antar vi att den senare består av en enda utgångsenhet. Varje inmatningsenhet kan innehålla ett reellt värde och är kopplat till utgångsenheten via en koppling med reellt värde. NN:s utdata är summan av produkterna av insatserna och deras vikter. Givet en träningsuppsättning av inmatningsvektorer och önskade målvärden för var och en av dem, justeras NN-vikterna så att summan av kvadrerade felen mellan NN-utgångarna och motsvarande mål minimeras [DLH]. Nu kan det icke neutrala nummert användas för att bearbeta tidigare osedda testdata. Självklart kallades detta då inte ett NN, eftersom folk inte ens kände till biologiska neuroner än – den första mikroskopiska bilden av en nervcell skapades decennier senare av Valentin 1836, och termen "neuron" myntades av Waldeyer 1891 [CAJ06]. Istället kallades tekniken för minsta kvadratmetoden, även allmänt känd inom statistiken som linjär regression. Men den är MATEMATISKT IDENTISK med dagens linjära tvålagers NN: SAMMA grundläggande algoritm, SAMMA felfunktion, SAMMA adaptiva parametrar/vikter. Sådana enkla NN utför "ytligt lärande", till skillnad från "djupinlärning" med många icke-linjära lager [DL25]. Faktum är att många moderna NN-kurser börjar med att introducera denna metod och går sedan vidare till mer komplexa, djupare NN [DLH]. Även tillämpningarna från tidigt 1800-tal liknade dagens: lär dig förutsäga nästa element i en sekvens, givet tidigare element. DET ÄR VAD CHATGPT GÖR! Det första berömda exemplet på mönsterigenkänning genom ett NN är över 200 år gammalt: återupptäckten av dvärgplaneten Ceres 1801 genom Gauss, som samlade in brusiga datapunkter från tidigare astronomiska observationer och sedan använde dem för att justera parametrarna för en prediktor, som i princip lärde sig generalisera från träningsdata för att korrekt förutsäga Ceres nya plats. Det var det som gjorde den unge Gauss berömd [DLH]. De gamla Gauss-Legendre NN:erna används fortfarande idag i otaliga tillämpningar. Vad är den största skillnaden jämfört med de NN som använts i några av de imponerande AI-applikationerna sedan 2010-talet? De senare är vanligtvis mycket djupare och har många mellanliggande lager av inlärnings-"dolda" enheter. Vem uppfann det här? Kort svar: Ivakhnenko & Lapa (1965) [DEEP1-2]. Andra förfinade detta [DLH]. Se även: vem uppfann deep learning [DL25]? Vissa tror fortfarande att moderna nät på något sätt inspirerades av den biologiska hjärnan. Men det är helt enkelt inte sant: decennier innan biologiska nervceller upptäcktes ledde ren ingenjörskonst och matematisk problemlösning redan till det som nu kallas NN. Faktum är att under de senaste två århundradena har inte så mycket förändrats inom AI-forskningen: från och med 2025 drivs NN:s framsteg fortfarande mestadels av ingenjörskonst, inte av neurofysiologiska insikter. (Vissa undantag som går tillbaka många decennier [CN25] bekräftar regeln.) Fotnot 1. År 1958 kombinerades enkla NN i stil med Gauss & Legendre med en uttröskelfunktion för att erhålla mönsterklassificerare kallade Perceptrons [R58][R61][DLH]. Förvånande nog verkade författarna [R58][R61] omedvetna om den mycket tidigare NN (1795–1805) som inom statistikområdet var känd som "minsta kvadratmetoden" eller "linjär regression." Anmärkningsvärt nog är dagens mest använda tvålagers NN de från Gauss & Legendre, inte de från 1940-talen [MC43] och 1950-talen [R58] (som inte ens var deriverbara)! UTVALDA REFERENSER (många ytterligare referenser i [NN25] – se länken ovan): [CAJ88] S. R. Cajal. Estructura de los centros nerviosos de las aves. Rev. Trim. Histol. Norm. Patol., 1 (1888), s. 1-10. [CAJ88b] S. R. Cajal. Sobre las fibras nerviosas de la capa molecular del cerebelo. Rev. Trim. Histol. Norm. Patol., 1 (1888), s. 33-49. [CAJ89] Conexión general de los elementos nerviosos. Med. Práct., 2 (1889), s. 341-346. [CAJ06] F. López-Muñoz, J. Boya b, C. Alamo (2006). Neuronteorin, hörnstenen i neurovetenskapen, på hundraårsjubileet av Nobelpriset till Santiago Ramón y Cajal. Brain Research Bulletin, volym 70, nummer 4–6, 16 oktober 2006, sidorna 391–405. [CN25] J. Schmidhuber (AI Blog, 2025). Vem uppfann konvolutionella neurala nätverk? [DEEP1] Ivakhnenko, A. G. och Lapa, V. G. (1965). Cybernetiska prediktionsenheter. CCM Information Corporation. Först arbetade jag med djuplärare med många lager, lärde sig interna representationer. [DEEP1a] Ivakhnenko, Alexey Grigorevich. Gruppmetoden för datahantering; en konkurrent till metoden stokastisk approximation. Sovjetisk automatisk styrning 13 (1968): 43-55. [DEEP2] Ivakhnenko, A. G. (1971). Polynomteori för komplexa system. IEEE Transactions on System, Man and Cybernetics, (4):364-378. [DL25] J. Schmidhuber. Vem uppfann djupinlärning? Teknisk not IDSIA-16-25, IDSIA, november 2025. [DLH] J. Schmidhuber. Annoterad historia om modern AI och djupinlärning. Teknisk rapport IDSIA-22-22, IDSIA, Lugano, Schweiz, 2022. Preprint arXiv:2212.11279. [HEB48] J. Konorski (1948). Betingade reflexer och neuronorganisation. Översättning från det polska manuskriptet under författarens överinseende. Cambridge University Press, 1948. Konorski publicerade den så kallade "Hebb-regeln" före Hebb [HEB49]. [HEB49] D. O. Hebb. Beteendets organisation. Wiley, New York, 1949. Konorski [HEB48] publicerade den så kallade "Hebe-regeln" före Hebb. [MC43] W. S. McCulloch, W. Pitts. En logisk kalkyl av idéer som är immanent i nervös aktivitet. Bulletin of Mathematical Biophysics, Vol. 5, s. 115-133, 1943. [NN25] J. Schmidhuber. Vem uppfann artificiella neurala nätverk? Teknisk not IDSIA-15-25, IDSIA, november 2025. [R58] Rosenblatt, F. (1958). Perceptron: en probabilistisk modell för informationslagring och organisering i hjärnan. Psykologisk översikt, 65(6):386. [R61] Joseph, R. D. (1961). Bidrag till perceptronteorin. Doktorsavhandling, Cornell Univ. [R62] Rosenblatt, F. (1962). Principer för neurodynamik. Spartan, New York. [ST61] K. Steinbuch. Die Lernmatrix. (Inlärningsmatrisen.) Kybernetik, 1(1):36-45, 1961. [TUR1] A. M. Turing. Intelligent maskineri. Opublicerad teknisk rapport, 1948. I: Ince DC, redaktör. Samlade verk av AM Turing—Mekanisk intelligens. Elsevier Science Publishers, 1992. [STI81] S. M. Stigler. Gauss och uppfinningen av minsta kvadrat. Ann. Stat. 9(3):465-474, 1981. [WID62] Widrow, B. och Hoff, M. (1962). Associativ lagring och hämtning av digital information i nätverk av adaptiva neuroner. Biologiska prototyper och syntetiska system, 1:160, 1962.

Topp

Rankning

Favoriter