DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Jürgen Schmidhuber

Ha inventato i principi del meta-apprendimento (1987), delle GAN (1990), dei Transformers (1991), dell'apprendimento molto profondo (1991), ecc. La nostra intelligenza artificiale viene utilizzata molti miliardi di volte ogni giorno.

L'IA moderna si basa su reti neurali artificiali (NN). Chi le ha inventate? Le reti neurali biologiche sono state scoperte negli anni 1880 [CAJ88-06]. Il termine "neurone" è stato coniato nel 1891 [CAJ06]. Molti pensano che le NN siano state sviluppate DOPO. Ma non è così: le prime NN "moderne" con 2 strati di unità sono state inventate oltre 2 secoli fa (1795-1805) da Legendre (1805) e Gauss (1795, non pubblicato) [STI81], quando il calcolo costava molte trilioni di volte di più rispetto al 2025. È vero, la terminologia delle reti neurali artificiali è stata introdotta solo molto più tardi negli anni 1900. Ad esempio, alcune NN non apprendenti sono state discusse nel 1943 [MC43]. Pensieri informali su una semplice regola di apprendimento delle NN sono stati pubblicati nel 1948 [HEB48]. Il calcolo evolutivo per le NN è stato menzionato in un rapporto non pubblicato del 1948 [TUR1]. Diverse NN concrete di apprendimento sono state pubblicate nel 1958 [R58], 1961 [R61][ST61-95] e 1962 [WID62]. Tuttavia, mentre questi articoli sulle NN della metà del 1900 sono di interesse storico, HANNO IN REALTÀ MENO A CHE FARE CON L'IA MODERNA RISPETTO ALLA MOLTO PIÙ VECCHIA NN ADATTIVA di Gauss e Legendre, ancora ampiamente utilizzata oggi, la vera base di tutte le NN, comprese le recenti NN più profonde [DL25]. La NN di Gauss-Legendre di oltre 2 secoli fa [NN25] ha uno strato di input con diversi unità di input e uno strato di output. Per semplicità, supponiamo che quest'ultimo consista di un'unica unità di output. Ogni unità di input può contenere un numero a valore reale ed è collegata all'unità di output tramite una connessione con un peso a valore reale. L'output della NN è la somma dei prodotti degli input e dei loro pesi. Dato un insieme di addestramento di vettori di input e valori target desiderati per ciascuno di essi, i pesi della NN vengono regolati in modo che la somma degli errori quadratici tra gli output della NN e i corrispondenti target sia minimizzata [DLH]. Ora la NN può essere utilizzata per elaborare dati di test precedentemente non visti. Certo, all'epoca non si chiamava NN, perché le persone non sapevano nemmeno dei neuroni biologici - la prima immagine microscopica di una cellula nervosa è stata creata decenni dopo da Valentin nel 1836, e il termine "neurone" è stato coniato da Waldeyer nel 1891 [CAJ06]. Invece, la tecnica era chiamata Metodo dei Minimi Quadrati, noto anche in statistica come Regressione Lineare. Ma è MATEMATICAMENTE IDENTICO alle odierne NN lineari a 2 strati: STESSO algoritmo di base, STESSA funzione di errore, STESSI parametri/pesi adattivi. Tali NN semplici eseguono "apprendimento superficiale", a differenza dell'"apprendimento profondo" con molti strati non lineari [DL25]. Infatti, molti corsi moderni di NN iniziano introducendo questo metodo, per poi passare a NN più complesse e profonde [DLH]. Anche le applicazioni dei primi anni 1800 erano simili a quelle di oggi: imparare a prevedere il prossimo elemento di una sequenza, dati gli elementi precedenti. QUELLO È CIÒ CHE FA CHATGPT! Il primo famoso esempio di riconoscimento di pattern attraverso una NN risale a oltre 200 anni fa: la riscoperta del pianeta nano Cerere nel 1801 attraverso Gauss, che raccolse punti dati rumorosi da osservazioni astronomiche precedenti, per poi usarli per regolare i parametri di un predittore, che essenzialmente imparò a generalizzare dai dati di addestramento per prevedere correttamente la nuova posizione di Cerere. È ciò che rese famoso il giovane Gauss [DLH]. Le vecchie NN di Gauss-Legendre sono ancora utilizzate oggi in innumerevoli applicazioni. Qual è la principale differenza rispetto alle NN utilizzate in alcune delle impressionanti applicazioni di IA dagli anni 2010? Queste ultime sono tipicamente molto più profonde e hanno molti strati intermedi di unità di apprendimento "nascoste". Chi ha inventato questo? Risposta breve: Ivakhnenko e Lapa (1965) [DEEP1-2]. Altri hanno affinato questo [DLH]. Vedi anche: chi ha inventato l'apprendimento profondo [DL25]? Alcune persone credono ancora che le NN moderne siano state in qualche modo ispirate dal cervello biologico. Ma non è affatto vero: decenni prima che le cellule nervose biologiche fossero scoperte, la semplice ingegneria e la risoluzione di problemi matematici avevano già portato a ciò che ora è chiamato NN. Infatti, negli ultimi 2 secoli, non è cambiato molto nella ricerca sull'IA: a partire dal 2025, i progressi delle NN sono ancora per lo più guidati dall'ingegneria, non da intuizioni neurofisiologiche. (Alcune eccezioni risalenti a molti decenni [CN25] confermano la regola.) Nota 1. Nel 1958, semplici NN nello stile di Gauss e Legendre sono state combinate con una funzione di soglia di output per ottenere classificatori di pattern chiamati Perceptron [R58][R61][DLH]. Sorprendentemente, gli autori [R58][R61] sembravano ignari della NN molto più antica (1795-1805) famosa nel campo della statistica come "metodo dei minimi quadrati" o "regressione lineare." Remarkably, le NN a 2 strati più frequentemente utilizzate oggi sono quelle di Gauss e Legendre, non quelle degli anni '40 [MC43] e '50 [R58] (che non erano nemmeno differenziabili)! RIFERIMENTI SELEZIONATI (molti riferimenti aggiuntivi in [NN25] - vedi link sopra): [CAJ88] S. R. Cajal. Estructura de los centros nerviosos de las aves. Rev. Trim. Histol. Norm. Patol., 1 (1888), pp. 1-10. [CAJ88b] S. R. Cajal. Sobre las fibras nerviosas de la capa molecular del cerebelo. Rev. Trim. Histol. Norm. Patol., 1 (1888), pp. 33-49. [CAJ89] Conexión general de los elementos nerviosos. Med. Práct., 2 (1889), pp. 341-346. [CAJ06] F. López-Muñoz, J. Boya b, C. Alamo (2006). Neuron theory, the cornerstone of neuroscience, on the centenary of the Nobel Prize award to Santiago Ramón y Cajal. Brain Research Bulletin, Volume 70, Issues 4–6, 16 October 2006, Pages 391-405. [CN25] J. Schmidhuber (AI Blog, 2025). Who invented convolutional neural networks? [DEEP1] Ivakhnenko, A. G. and Lapa, V. G. (1965). Cybernetic Predicting Devices. CCM Information Corporation. First working Deep Learners with many layers, learning internal representations. [DEEP1a] Ivakhnenko, Alexey Grigorevich. The group method of data of handling; a rival of the method of stochastic approximation. Soviet Automatic Control 13 (1968): 43-55. [DEEP2] Ivakhnenko, A. G. (1971). Polynomial theory of complex systems. IEEE Transactions on Systems, Man and Cybernetics, (4):364-378. [DL25] J. Schmidhuber. Who invented deep learning? Technical Note IDSIA-16-25, IDSIA, November 2025. [DLH] J. Schmidhuber. Annotated History of Modern AI and Deep Learning. Technical Report IDSIA-22-22, IDSIA, Lugano, Switzerland, 2022. Preprint arXiv:2212.11279. [HEB48] J. Konorski (1948). Conditioned reflexes and neuron organization. Translation from the Polish manuscript under the author's supervision. Cambridge University Press, 1948. Konorski published the so-called "Hebb rule" before Hebb [HEB49]. [HEB49] D. O. Hebb. The Organization of Behavior. Wiley, New York, 1949. Konorski [HEB48] published the so-called "Hebb rule" before Hebb. [MC43] W. S. McCulloch, W. Pitts. A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, Vol. 5, p. 115-133, 1943. [NN25] J. Schmidhuber. Who invented artificial neural networks? Technical Note IDSIA-15-25, IDSIA, November 2025. [R58] Rosenblatt, F. (1958). The perceptron: a probabilistic model for information storage and organization in the brain. Psychological review, 65(6):386. [R61] Joseph, R. D. (1961). Contributions to perceptron theory. PhD thesis, Cornell Univ. [R62] Rosenblatt, F. (1962). Principles of Neurodynamics. Spartan, New York. [ST61] K. Steinbuch. Die Lernmatrix. (The learning matrix.) Kybernetik, 1(1):36-45, 1961. [TUR1] A. M. Turing. Intelligent Machinery. Unpublished Technical Report, 1948. In: Ince DC, editor. Collected works of AM Turing—Mechanical Intelligence. Elsevier Science Publishers, 1992. [STI81] S. M. Stigler. Gauss and the Invention of Least Squares. Ann. Stat. 9(3):465-474, 1981. [WID62] Widrow, B. and Hoff, M. (1962). Associative storage and retrieval of digital information in networks of adaptive neurons. Biological Prototypes and Synthetic Systems, 1:160, 1962.

Principali

Ranking

Preferiti