Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jürgen Schmidhuber
Ha inventato i principi del meta-apprendimento (1987), delle GAN (1990), dei Transformers (1991), dell'apprendimento molto profondo (1991), ecc. La nostra intelligenza artificiale viene utilizzata molti miliardi di volte ogni giorno.
Il video di Fukushima (1986) mostra una CNN che riconosce cifre scritte a mano [3], tre anni prima del video di LeCun (1989).
Cronologia delle CNN presa da [5]:
★ 1969: Kunihiko Fukushima pubblicò le unità lineari rettificate o ReLU [1] che ora sono ampiamente utilizzate nelle CNN.
★ 1979: Fukushima pubblicò l'architettura di base della CNN con strati di convoluzione e strati di downsampling [2]. La chiamò neocognitron. Fu addestrata con regole di apprendimento non supervisionato. Il calcolo era 100 volte più costoso rispetto al 1989 e un miliardo di volte più costoso rispetto ad oggi.
★ 1986: Il video di Fukushima sul riconoscimento delle cifre scritte a mano [3].
★ 1988: Wei Zhang et al. avevano la prima CNN "moderna" bidimensionale addestrata tramite retropropagazione, e l'hanno anche applicata al riconoscimento dei caratteri [4]. Il calcolo era circa 10 milioni di volte più costoso rispetto ad oggi.
★ 1989-: lavori successivi di altri [5].
RIFERIMENTI (ulteriori in [5])
[1] K. Fukushima (1969). Estrazione di caratteristiche visive tramite una rete multilivello di elementi soglia analogici. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Questo lavoro ha introdotto le unità lineari rettificate o ReLU, ora ampiamente utilizzate nelle CNN e in altre reti neurali.
[2] K. Fukushima (1979). Modello di rete neurale per un meccanismo di riconoscimento dei pattern non influenzato dallo spostamento di posizione—Neocognitron. Trans. IECE, vol. J62-A, n. 10, pp. 658-665, 1979. La prima architettura di rete neurale convoluzionale profonda, con strati di convoluzione alternati e strati di downsampling. In giapponese. Versione inglese: 1980.
[3] Film prodotto da K. Fukushima, S. Miyake e T. Ito (Laboratori di Ricerca Scientifica e Tecnica NHK), nel 1986. YouTube:
[4] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Rete neurale per il riconoscimento di pattern invarianti rispetto allo spostamento e la sua architettura ottica. Proc. Annual Conference of the Japan Society of Applied Physics, 1988. Prima CNN bidimensionale "moderna" addestrata tramite retropropagazione, applicata al riconoscimento dei caratteri.
[5] J. Schmidhuber (AI Blog, 2025). Chi ha inventato le reti neurali convoluzionali?

Chubby♨️28 nov 2025
La demo della rete neurale convoluzionale di Yann LeCun del 1989, la base per le CNN che utilizziamo ancora oggi.
È incredibile quanto siamo progrediti da allora!
389,17K
L'IA moderna si basa su reti neurali artificiali (NN). Chi le ha inventate?
Le reti neurali biologiche sono state scoperte negli anni 1880 [CAJ88-06]. Il termine "neurone" è stato coniato nel 1891 [CAJ06]. Molti pensano che le NN siano state sviluppate DOPO. Ma non è così: le prime NN "moderne" con 2 strati di unità sono state inventate oltre 2 secoli fa (1795-1805) da Legendre (1805) e Gauss (1795, non pubblicato) [STI81], quando il calcolo costava molte trilioni di volte di più rispetto al 2025.
È vero, la terminologia delle reti neurali artificiali è stata introdotta solo molto più tardi negli anni 1900. Ad esempio, alcune NN non apprendenti sono state discusse nel 1943 [MC43]. Pensieri informali su una semplice regola di apprendimento delle NN sono stati pubblicati nel 1948 [HEB48]. Il calcolo evolutivo per le NN è stato menzionato in un rapporto non pubblicato del 1948 [TUR1]. Diverse NN concrete di apprendimento sono state pubblicate nel 1958 [R58], 1961 [R61][ST61-95] e 1962 [WID62].
Tuttavia, mentre questi articoli sulle NN della metà del 1900 sono di interesse storico, HANNO IN REALTÀ MENO A CHE FARE CON L'IA MODERNA RISPETTO ALLA MOLTO PIÙ VECCHIA NN ADATTIVA di Gauss e Legendre, ancora ampiamente utilizzata oggi, la vera base di tutte le NN, comprese le recenti NN più profonde [DL25].
La NN di Gauss-Legendre di oltre 2 secoli fa [NN25] ha uno strato di input con diversi unità di input e uno strato di output. Per semplicità, supponiamo che quest'ultimo consista di un'unica unità di output. Ogni unità di input può contenere un numero a valore reale ed è collegata all'unità di output tramite una connessione con un peso a valore reale. L'output della NN è la somma dei prodotti degli input e dei loro pesi. Dato un insieme di addestramento di vettori di input e valori target desiderati per ciascuno di essi, i pesi della NN vengono regolati in modo che la somma degli errori quadratici tra gli output della NN e i corrispondenti target sia minimizzata [DLH]. Ora la NN può essere utilizzata per elaborare dati di test precedentemente non visti.
Certo, all'epoca non si chiamava NN, perché le persone non sapevano nemmeno dei neuroni biologici - la prima immagine microscopica di una cellula nervosa è stata creata decenni dopo da Valentin nel 1836, e il termine "neurone" è stato coniato da Waldeyer nel 1891 [CAJ06]. Invece, la tecnica era chiamata Metodo dei Minimi Quadrati, noto anche in statistica come Regressione Lineare. Ma è MATEMATICAMENTE IDENTICO alle odierne NN lineari a 2 strati: STESSO algoritmo di base, STESSA funzione di errore, STESSI parametri/pesi adattivi. Tali NN semplici eseguono "apprendimento superficiale", a differenza dell'"apprendimento profondo" con molti strati non lineari [DL25]. Infatti, molti corsi moderni di NN iniziano introducendo questo metodo, per poi passare a NN più complesse e profonde [DLH].
Anche le applicazioni dei primi anni 1800 erano simili a quelle di oggi: imparare a prevedere il prossimo elemento di una sequenza, dati gli elementi precedenti. QUELLO È CIÒ CHE FA CHATGPT! Il primo famoso esempio di riconoscimento di pattern attraverso una NN risale a oltre 200 anni fa: la riscoperta del pianeta nano Cerere nel 1801 attraverso Gauss, che raccolse punti dati rumorosi da osservazioni astronomiche precedenti, per poi usarli per regolare i parametri di un predittore, che essenzialmente imparò a generalizzare dai dati di addestramento per prevedere correttamente la nuova posizione di Cerere. È ciò che rese famoso il giovane Gauss [DLH].
Le vecchie NN di Gauss-Legendre sono ancora utilizzate oggi in innumerevoli applicazioni. Qual è la principale differenza rispetto alle NN utilizzate in alcune delle impressionanti applicazioni di IA dagli anni 2010? Queste ultime sono tipicamente molto più profonde e hanno molti strati intermedi di unità di apprendimento "nascoste". Chi ha inventato questo? Risposta breve: Ivakhnenko e Lapa (1965) [DEEP1-2]. Altri hanno affinato questo [DLH]. Vedi anche: chi ha inventato l'apprendimento profondo [DL25]?
Alcune persone credono ancora che le NN moderne siano state in qualche modo ispirate dal cervello biologico. Ma non è affatto vero: decenni prima che le cellule nervose biologiche fossero scoperte, la semplice ingegneria e la risoluzione di problemi matematici avevano già portato a ciò che ora è chiamato NN. Infatti, negli ultimi 2 secoli, non è cambiato molto nella ricerca sull'IA: a partire dal 2025, i progressi delle NN sono ancora per lo più guidati dall'ingegneria, non da intuizioni neurofisiologiche. (Alcune eccezioni risalenti a molti decenni [CN25] confermano la regola.)
Nota 1. Nel 1958, semplici NN nello stile di Gauss e Legendre sono state combinate con una funzione di soglia di output per ottenere classificatori di pattern chiamati Perceptron [R58][R61][DLH]. Sorprendentemente, gli autori [R58][R61] sembravano ignari della NN molto più antica (1795-1805) famosa nel campo della statistica come "metodo dei minimi quadrati" o "regressione lineare." Remarkably, le NN a 2 strati più frequentemente utilizzate oggi sono quelle di Gauss e Legendre, non quelle degli anni '40 [MC43] e '50 [R58] (che non erano nemmeno differenziabili)!
RIFERIMENTI SELEZIONATI (molti riferimenti aggiuntivi in [NN25] - vedi link sopra):
[CAJ88] S. R. Cajal. Estructura de los centros nerviosos de las aves. Rev. Trim. Histol. Norm. Patol., 1 (1888), pp. 1-10.
[CAJ88b] S. R. Cajal. Sobre las fibras nerviosas de la capa molecular del cerebelo. Rev. Trim. Histol. Norm. Patol., 1 (1888), pp. 33-49.
[CAJ89] Conexión general de los elementos nerviosos. Med. Práct., 2 (1889), pp. 341-346.
[CAJ06] F. López-Muñoz, J. Boya b, C. Alamo (2006). Neuron theory, the cornerstone of neuroscience, on the centenary of the Nobel Prize award to Santiago Ramón y Cajal. Brain Research Bulletin, Volume 70, Issues 4–6, 16 October 2006, Pages 391-405.
[CN25] J. Schmidhuber (AI Blog, 2025). Who invented convolutional neural networks?
[DEEP1] Ivakhnenko, A. G. and Lapa, V. G. (1965). Cybernetic Predicting Devices. CCM Information Corporation. First working Deep Learners with many layers, learning internal representations.
[DEEP1a] Ivakhnenko, Alexey Grigorevich. The group method of data of handling; a rival of the method of stochastic approximation. Soviet Automatic Control 13 (1968): 43-55.
[DEEP2] Ivakhnenko, A. G. (1971). Polynomial theory of complex systems. IEEE Transactions on Systems, Man and Cybernetics, (4):364-378.
[DL25] J. Schmidhuber. Who invented deep learning? Technical Note IDSIA-16-25, IDSIA, November 2025.
[DLH] J. Schmidhuber. Annotated History of Modern AI and Deep Learning. Technical Report IDSIA-22-22, IDSIA, Lugano, Switzerland, 2022. Preprint arXiv:2212.11279.
[HEB48] J. Konorski (1948). Conditioned reflexes and neuron organization. Translation from the Polish manuscript under the author's supervision. Cambridge University Press, 1948. Konorski published the so-called "Hebb rule" before Hebb [HEB49].
[HEB49] D. O. Hebb. The Organization of Behavior. Wiley, New York, 1949. Konorski [HEB48] published the so-called "Hebb rule" before Hebb.
[MC43] W. S. McCulloch, W. Pitts. A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, Vol. 5, p. 115-133, 1943.
[NN25] J. Schmidhuber. Who invented artificial neural networks? Technical Note IDSIA-15-25, IDSIA, November 2025.
[R58] Rosenblatt, F. (1958). The perceptron: a probabilistic model for information storage and organization in the brain. Psychological review, 65(6):386.
[R61] Joseph, R. D. (1961). Contributions to perceptron theory. PhD thesis, Cornell Univ.
[R62] Rosenblatt, F. (1962). Principles of Neurodynamics. Spartan, New York.
[ST61] K. Steinbuch. Die Lernmatrix. (The learning matrix.) Kybernetik, 1(1):36-45, 1961.
[TUR1] A. M. Turing. Intelligent Machinery. Unpublished Technical Report, 1948. In: Ince DC, editor. Collected works of AM Turing—Mechanical Intelligence. Elsevier Science Publishers, 1992.
[STI81] S. M. Stigler. Gauss and the Invention of Least Squares. Ann. Stat. 9(3):465-474, 1981.
[WID62] Widrow, B. and Hoff, M. (1962). Associative storage and retrieval of digital information in networks of adaptive neurons. Biological Prototypes and Synthetic Systems, 1:160, 1962.

26,36K
10 anni fa: l'ingegnere di prompt di apprendimento per rinforzo (RL) [1] (Sez. 5.3). Catena di pensiero adattiva: una rete neurale RL impara a interrogare la sua rete "modello del mondo" per il ragionamento astratto e la presa di decisioni. Andando oltre il modello neurale del mondo del 1990 [2] per la pianificazione millisecondo per millisecondo e il generatore di sottogol adattivo del 1991 [3,4] per la pianificazione gerarchica.
[1] J. Schmidhuber (JS, 2015). Sull'apprendimento a pensare: Teoria dell'informazione algoritmica per combinazioni nuove di controllori RL e modelli neurali ricorrenti del mondo. ArXiv 1210.0118
[2] JS (1990). Rendere il mondo differenziabile: sull'uso di reti neurali completamente ricorrenti auto-supervisionate per l'apprendimento per rinforzo dinamico e la pianificazione in ambienti non stazionari. TR FKI-126-90, TUM. (Questo rapporto ha anche introdotto la curiosità artificiale e la motivazione intrinseca attraverso reti generative avversarie.)
[3] JS (1991). Apprendere a generare sottogol per sequenze di azioni. Proc. ICANN'91, p. 967-972.
[4] JS & R. Wahnsiedler (1992). Pianificazione di traiettorie semplici utilizzando generatori di sottogol neurali. Proc. SAB'92, p 196-202, MIT Press.

42,4K
Principali
Ranking
Preferiti

