Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jürgen Schmidhuber
Erfundene Prinzipien des Meta-Lernens (1987), GANs (1990), Transformers (1991), sehr tiefes Lernen (1991) usw. Unsere KI wird jeden Tag viele Milliarden Mal genutzt.
Das Video von Fukushima (1986) zeigt ein CNN, das handgeschriebene Ziffern erkennt [3], drei Jahre bevor das Video von LeCun (1989) veröffentlicht wurde.
Die Zeitachse der CNNs stammt aus [5]:
★ 1969: Kunihiko Fukushima veröffentlichte rectified linear units oder ReLUs [1], die jetzt umfangreich in CNNs verwendet werden.
★ 1979: Fukushima veröffentlichte die grundlegende CNN-Architektur mit Faltungsschichten und Downsampling-Schichten [2]. Er nannte es Neocognitron. Es wurde durch unüberwachtes Lernen trainiert. Die Rechenleistung war 100 Mal teurer als 1989 und eine Milliarde Mal teurer als heute.
★ 1986: Fukushimas Video zur Erkennung handgeschriebener Ziffern [3].
★ 1988: Wei Zhang et al. hatten das erste "moderne" 2-dimensionale CNN, das durch Rückpropagation trainiert wurde, und wandten es auch auf die Zeichenerkennung an [4]. Die Rechenleistung war etwa 10 Millionen Mal teurer als heute.
★ 1989-: spätere Arbeiten von anderen [5].
REFERENZEN (mehr in [5])
[1] K. Fukushima (1969). Visuelle Merkmalsextraktion durch ein mehrschichtiges Netzwerk von analogen Schwellenwert-Elementen. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Diese Arbeit führte rectified linear units oder ReLUs ein, die jetzt weit verbreitet in CNNs und anderen neuronalen Netzen verwendet werden.
[2] K. Fukushima (1979). Neuronales Netzwerkmodell für einen Mechanismus der Mustererkennung, der nicht von Positionsverschiebungen betroffen ist—Neocognitron. Trans. IECE, vol. J62-A, no. 10, pp. 658-665, 1979. Die erste tiefe Faltungsneuronale Netzwerkarchitektur mit abwechselnden Faltungsschichten und Downsampling-Schichten. Auf Japanisch. Englische Version: 1980.
[3] Film produziert von K. Fukushima, S. Miyake und T. Ito (NHK Wissenschafts- und Technologieforschungsinstitute), 1986. YouTube:
[4] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Shift-invariant pattern recognition neural network und seine optische Architektur. Proc. Annual Conference of the Japan Society of Applied Physics, 1988. Erstes "modernes" durch Rückpropagation trainiertes 2-dimensionales CNN, angewendet auf die Zeichenerkennung.
[5] J. Schmidhuber (AI Blog, 2025). Wer hat die Faltungsneuronalen Netzwerke erfunden?

Chubby♨️28. Nov. 2025
Yann LeCuns Demo des konvolutionalen neuronalen Netzwerks von 1989, die Grundlage für die CNNs, die wir heute noch verwenden.
Es ist erstaunlich, wie weit wir seitdem gekommen sind!
389,17K
Moderne KI basiert auf künstlichen neuronalen Netzen (NNs). Wer hat sie erfunden?
Biologische neuronale Netze wurden in den 1880er Jahren entdeckt [CAJ88-06]. Der Begriff "Neuron" wurde 1891 geprägt [CAJ06]. Viele denken, dass NNs danach entwickelt wurden. Aber das ist nicht der Fall: die ersten "modernen" NNs mit 2 Schichten von Einheiten wurden vor über 2 Jahrhunderten (1795-1805) von Legendre (1805) und Gauss (1795, unveröffentlicht) erfunden [STI81], als das Rechnen viele Billionen Mal teurer war als im Jahr 2025.
Es stimmt, dass die Terminologie der künstlichen neuronalen Netze erst viel später im 20. Jahrhundert eingeführt wurde. Zum Beispiel wurden bestimmte nicht-lernende NNs 1943 diskutiert [MC43]. Informelle Gedanken über eine einfache NN-Lernregel wurden 1948 veröffentlicht [HEB48]. Evolutionäre Berechnungen für NNs wurden in einem unveröffentlichten Bericht von 1948 erwähnt [TUR1]. Verschiedene konkrete lernende NNs wurden 1958 [R58], 1961 [R61][ST61-95] und 1962 [WID62] veröffentlicht.
Allerdings haben diese NN-Papiere der Mitte des 20. Jahrhunderts historisches Interesse, sie haben tatsächlich weniger mit moderner KI zu tun als das viel ältere adaptive NN von Gauss & Legendre, das heute noch stark genutzt wird, die eigentliche Grundlage aller NNs, einschließlich der neueren tieferen NNs [DL25].
Das Gauss-Legendre NN von vor über 2 Jahrhunderten [NN25] hat eine Eingabeschicht mit mehreren Eingabeeinheiten und eine Ausgabeschicht. Zur Vereinfachung nehmen wir an, dass letztere aus einer einzigen Ausgabeeinheit besteht. Jede Eingabeeinheit kann eine reelle Zahl halten und ist mit der Ausgabeeinheit durch eine Verbindung mit einem reellen Gewicht verbunden. Die Ausgabe des NNs ist die Summe der Produkte der Eingaben und ihrer Gewichte. Gegebenenfalls wird ein Trainingssatz von Eingangsvektoren und gewünschten Zielwerten für jeden von ihnen verwendet, um die NN-Gewichte so anzupassen, dass die Summe der quadrierten Fehler zwischen den NN-Ausgaben und den entsprechenden Zielen minimiert wird [DLH]. Jetzt kann das NN verwendet werden, um zuvor ungesehene Testdaten zu verarbeiten.
Natürlich wurde das damals nicht als NN bezeichnet, weil die Menschen nicht einmal über biologische Neuronen Bescheid wussten - das erste mikroskopische Bild einer Nervenzelle wurde Jahrzehnte später von Valentin im Jahr 1836 erstellt, und der Begriff "Neuron" wurde von Waldeyer 1891 geprägt [CAJ06]. Stattdessen wurde die Technik als Methode der kleinsten Quadrate bezeichnet, die auch in der Statistik als lineare Regression bekannt ist. Aber sie ist MATHEMATISCH IDENTISCH zu den heutigen linearen 2-Schicht-NNs: DASSELBE grundlegende Algorithmus, DIESESE Fehlerfunktion, DIESESE adaptiven Parameter/Gewichte. Solche einfachen NNs führen "flaches Lernen" durch, im Gegensatz zu "tiefem Lernen" mit vielen nichtlinearen Schichten [DL25]. Tatsächlich beginnen viele moderne NN-Kurse mit der Einführung dieser Methode und gehen dann zu komplexeren, tieferen NNs über [DLH].
Sogar die Anwendungen der frühen 1800er Jahre waren ähnlich wie die heutigen: lernen, das nächste Element einer Sequenz vorherzusagen, gegebenenfalls vorherige Elemente. DAS IST, WAS CHATGPT TUT! Das erste berühmte Beispiel für Mustererkennung durch ein NN geht über 200 Jahre zurück: die Wiederentdeckung des Zwergplaneten Ceres im Jahr 1801 durch Gauss, der rauschende Datenpunkte aus früheren astronomischen Beobachtungen sammelte und sie dann verwendete, um die Parameter eines Prädiktors anzupassen, der im Wesentlichen lernte, aus den Trainingsdaten zu verallgemeinern, um den neuen Standort von Ceres korrekt vorherzusagen. Das machte den jungen Gauss berühmt [DLH].
Die alten Gauss-Legendre-NNs werden heute noch in unzähligen Anwendungen verwendet. Was ist der Hauptunterschied zu den NNs, die in einigen der beeindruckenden KI-Anwendungen seit den 2010er Jahren verwendet werden? Letztere sind typischerweise viel tiefer und haben viele Zwischenebenen von lernenden "versteckten" Einheiten. Wer hat das erfunden? Kurze Antwort: Ivakhnenko & Lapa (1965) [DEEP1-2]. Andere haben dies verfeinert [DLH]. Siehe auch: Wer hat tiefes Lernen erfunden [DL25]?
Einige Menschen glauben immer noch, dass moderne NNs irgendwie von dem biologischen Gehirn inspiriert wurden. Aber das ist einfach nicht wahr: Jahrzehnte bevor biologische Nervenzellen entdeckt wurden, führten einfache Ingenieur- und mathematische Problemlösungen bereits zu dem, was heute als NNs bezeichnet wird. Tatsächlich hat sich in den letzten 2 Jahrhunderten in der KI-Forschung nicht so viel verändert: Stand 2025 wird der Fortschritt der NNs immer noch hauptsächlich von Ingenieurwesen und nicht von neurophysiologischen Erkenntnissen vorangetrieben. (Bestimmte Ausnahmen, die viele Jahrzehnte zurückreichen [CN25], bestätigen die Regel.)
Fußnote 1. Im Jahr 1958 wurden einfache NNs im Stil von Gauss & Legendre mit einer Ausgabeschwellenfunktion kombiniert, um Musterklassifizierer zu erhalten, die Perzeptrons genannt werden [R58][R61][DLH]. Erstaunlicherweise schienen die Autoren [R58][R61] sich nicht der viel früheren NN (1795-1805) bewusst zu sein, die in der Statistik als "Methode der kleinsten Quadrate" oder "lineare Regression" bekannt ist. Bemerkenswerterweise sind die heute am häufigsten verwendeten 2-Schicht-NNs die von Gauss & Legendre, nicht die aus den 1940er [MC43] und 1950er [R58] (die nicht einmal differenzierbar waren)!
AUSGEWÄHLTE REFERENZEN (viele zusätzliche Referenzen in [NN25] - siehe Link oben):
[CAJ88] S. R. Cajal. Estructura de los centros nerviosos de las aves. Rev. Trim. Histol. Norm. Patol., 1 (1888), S. 1-10.
[CAJ88b] S. R. Cajal. Sobre las fibras nerviosas de la capa molecular del cerebelo. Rev. Trim. Histol. Norm. Patol., 1 (1888), S. 33-49.
[CAJ89] Conexión general de los elementos nerviosos. Med. Práct., 2 (1889), S. 341-346.
[CAJ06] F. López-Muñoz, J. Boya b, C. Alamo (2006). Neuron theory, the cornerstone of neuroscience, on the centenary of the Nobel Prize award to Santiago Ramón y Cajal. Brain Research Bulletin, Volume 70, Issues 4–6, 16. Oktober 2006, Seiten 391-405.
[CN25] J. Schmidhuber (AI Blog, 2025). Wer hat konvolutionale neuronale Netzwerke erfunden?
[DEEP1] Ivakhnenko, A. G. und Lapa, V. G. (1965). Cybernetic Predicting Devices. CCM Information Corporation. Erste funktionierende Deep Learner mit vielen Schichten, die interne Repräsentationen lernen.
[DEEP1a] Ivakhnenko, Alexey Grigorevich. Die Gruppenmethode der Datenverarbeitung; ein Rivale der Methode der stochastischen Approximation. Soviet Automatic Control 13 (1968): 43-55.
[DEEP2] Ivakhnenko, A. G. (1971). Polynomial theory of complex systems. IEEE Transactions on Systems, Man and Cybernetics, (4):364-378.
[DL25] J. Schmidhuber. Wer hat tiefes Lernen erfunden? Technische Notiz IDSIA-16-25, IDSIA, November 2025.
[DLH] J. Schmidhuber. Annotierte Geschichte der modernen KI und des tiefen Lernens. Technischer Bericht IDSIA-22-22, IDSIA, Lugano, Schweiz, 2022. Preprint arXiv:2212.11279.
[HEB48] J. Konorski (1948). Conditioned reflexes and neuron organization. Übersetzung aus dem polnischen Manuskript unter der Aufsicht des Autors. Cambridge University Press, 1948. Konorski veröffentlichte die sogenannte "Hebb-Regel" vor Hebb [HEB49].
[HEB49] D. O. Hebb. The Organization of Behavior. Wiley, New York, 1949. Konorski [HEB48] veröffentlichte die sogenannte "Hebb-Regel" vor Hebb.
[MC43] W. S. McCulloch, W. Pitts. A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, Vol. 5, S. 115-133, 1943.
[NN25] J. Schmidhuber. Wer hat künstliche neuronale Netzwerke erfunden? Technische Notiz IDSIA-15-25, IDSIA, November 2025.
[R58] Rosenblatt, F. (1958). Der Perzeptron: ein probabilistisches Modell für Informationsspeicherung und -organisation im Gehirn. Psychological review, 65(6):386.
[R61] Joseph, R. D. (1961). Beiträge zur Perzeptron-Theorie. Doktorarbeit, Cornell Univ.
[R62] Rosenblatt, F. (1962). Principles of Neurodynamics. Spartan, New York.
[ST61] K. Steinbuch. Die Lernmatrix. Kybernetik, 1(1):36-45, 1961.
[TUR1] A. M. Turing. Intelligent Machinery. Unveröffentlichten technischen Bericht, 1948. In: Ince DC, Herausgeber. Gesammelte Werke von A. M. Turing—Mechanische Intelligenz. Elsevier Science Publishers, 1992.
[STI81] S. M. Stigler. Gauss und die Erfindung der kleinsten Quadrate. Ann. Stat. 9(3):465-474, 1981.
[WID62] Widrow, B. und Hoff, M. (1962). Assoziative Speicherung und Abruf digitaler Informationen in Netzwerken adaptiver Neuronen. Biologische Prototypen und synthetische Systeme, 1:160, 1962.

26,36K
Vor 10 Jahren: der Prompt-Ingenieur für verstärkendes Lernen (RL) [1] (Abschnitt 5.3). Adaptive Denkweise: ein RL-Neuronales Netzwerk lernt, sein "Weltmodell"-Netz für abstraktes Denken und Entscheidungsfindung abzufragen. Über das neuronale Weltmodell von 1990 [2] hinaus, das Millisekunde für Millisekunde plant, und den adaptiven neuronalen Unterzielgenerator von 1991 [3,4] für hierarchische Planung.
[1] J. Schmidhuber (JS, 2015). Über das Lernen zu denken: Algorithmische Informationstheorie für neuartige Kombinationen von RL-Controllern und rekurrenten neuronalen Weltmodellen. ArXiv 1210.0118
[2] JS (1990). Die Welt differenzierbar machen: Über die Verwendung von vollständig rekurrenten selbstüberwachten neuronalen Netzwerken für dynamisches verstärkendes Lernen und Planung in nicht-stationären Umgebungen. TR FKI-126-90, TUM. (Dieser Bericht führte auch künstliche Neugier und intrinsische Motivation durch generative gegnerische Netzwerke ein.)
[3] JS (1991). Lernen, Unterziele für Aktionssequenzen zu generieren. Proc. ICANN'91, S. 967-972.
[4] JS & R. Wahnsiedler (1992). Planung einfacher Trajektorien mit neuronalen Unterzielgeneratoren. Proc. SAB'92, S. 196-202, MIT Press.

42,4K
Top
Ranking
Favoriten

