DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Jürgen Schmidhuber

Erfundene Prinzipien des Meta-Lernens (1987), GANs (1990), Transformers (1991), sehr tiefes Lernen (1991) usw. Unsere KI wird jeden Tag viele Milliarden Mal genutzt.

Moderne KI basiert auf künstlichen neuronalen Netzen (NNs). Wer hat sie erfunden? Biologische neuronale Netze wurden in den 1880er Jahren entdeckt [CAJ88-06]. Der Begriff "Neuron" wurde 1891 geprägt [CAJ06]. Viele denken, dass NNs danach entwickelt wurden. Aber das ist nicht der Fall: die ersten "modernen" NNs mit 2 Schichten von Einheiten wurden vor über 2 Jahrhunderten (1795-1805) von Legendre (1805) und Gauss (1795, unveröffentlicht) erfunden [STI81], als das Rechnen viele Billionen Mal teurer war als im Jahr 2025. Es stimmt, dass die Terminologie der künstlichen neuronalen Netze erst viel später im 20. Jahrhundert eingeführt wurde. Zum Beispiel wurden bestimmte nicht-lernende NNs 1943 diskutiert [MC43]. Informelle Gedanken über eine einfache NN-Lernregel wurden 1948 veröffentlicht [HEB48]. Evolutionäre Berechnungen für NNs wurden in einem unveröffentlichten Bericht von 1948 erwähnt [TUR1]. Verschiedene konkrete lernende NNs wurden 1958 [R58], 1961 [R61][ST61-95] und 1962 [WID62] veröffentlicht. Allerdings haben diese NN-Papiere der Mitte des 20. Jahrhunderts historisches Interesse, sie haben tatsächlich weniger mit moderner KI zu tun als das viel ältere adaptive NN von Gauss & Legendre, das heute noch stark genutzt wird, die eigentliche Grundlage aller NNs, einschließlich der neueren tieferen NNs [DL25]. Das Gauss-Legendre NN von vor über 2 Jahrhunderten [NN25] hat eine Eingabeschicht mit mehreren Eingabeeinheiten und eine Ausgabeschicht. Zur Vereinfachung nehmen wir an, dass letztere aus einer einzigen Ausgabeeinheit besteht. Jede Eingabeeinheit kann eine reelle Zahl halten und ist mit der Ausgabeeinheit durch eine Verbindung mit einem reellen Gewicht verbunden. Die Ausgabe des NNs ist die Summe der Produkte der Eingaben und ihrer Gewichte. Gegebenenfalls wird ein Trainingssatz von Eingangsvektoren und gewünschten Zielwerten für jeden von ihnen verwendet, um die NN-Gewichte so anzupassen, dass die Summe der quadrierten Fehler zwischen den NN-Ausgaben und den entsprechenden Zielen minimiert wird [DLH]. Jetzt kann das NN verwendet werden, um zuvor ungesehene Testdaten zu verarbeiten. Natürlich wurde das damals nicht als NN bezeichnet, weil die Menschen nicht einmal über biologische Neuronen Bescheid wussten - das erste mikroskopische Bild einer Nervenzelle wurde Jahrzehnte später von Valentin im Jahr 1836 erstellt, und der Begriff "Neuron" wurde von Waldeyer 1891 geprägt [CAJ06]. Stattdessen wurde die Technik als Methode der kleinsten Quadrate bezeichnet, die auch in der Statistik als lineare Regression bekannt ist. Aber sie ist MATHEMATISCH IDENTISCH zu den heutigen linearen 2-Schicht-NNs: DASSELBE grundlegende Algorithmus, DIESESE Fehlerfunktion, DIESESE adaptiven Parameter/Gewichte. Solche einfachen NNs führen "flaches Lernen" durch, im Gegensatz zu "tiefem Lernen" mit vielen nichtlinearen Schichten [DL25]. Tatsächlich beginnen viele moderne NN-Kurse mit der Einführung dieser Methode und gehen dann zu komplexeren, tieferen NNs über [DLH]. Sogar die Anwendungen der frühen 1800er Jahre waren ähnlich wie die heutigen: lernen, das nächste Element einer Sequenz vorherzusagen, gegebenenfalls vorherige Elemente. DAS IST, WAS CHATGPT TUT! Das erste berühmte Beispiel für Mustererkennung durch ein NN geht über 200 Jahre zurück: die Wiederentdeckung des Zwergplaneten Ceres im Jahr 1801 durch Gauss, der rauschende Datenpunkte aus früheren astronomischen Beobachtungen sammelte und sie dann verwendete, um die Parameter eines Prädiktors anzupassen, der im Wesentlichen lernte, aus den Trainingsdaten zu verallgemeinern, um den neuen Standort von Ceres korrekt vorherzusagen. Das machte den jungen Gauss berühmt [DLH]. Die alten Gauss-Legendre-NNs werden heute noch in unzähligen Anwendungen verwendet. Was ist der Hauptunterschied zu den NNs, die in einigen der beeindruckenden KI-Anwendungen seit den 2010er Jahren verwendet werden? Letztere sind typischerweise viel tiefer und haben viele Zwischenebenen von lernenden "versteckten" Einheiten. Wer hat das erfunden? Kurze Antwort: Ivakhnenko & Lapa (1965) [DEEP1-2]. Andere haben dies verfeinert [DLH]. Siehe auch: Wer hat tiefes Lernen erfunden [DL25]? Einige Menschen glauben immer noch, dass moderne NNs irgendwie von dem biologischen Gehirn inspiriert wurden. Aber das ist einfach nicht wahr: Jahrzehnte bevor biologische Nervenzellen entdeckt wurden, führten einfache Ingenieur- und mathematische Problemlösungen bereits zu dem, was heute als NNs bezeichnet wird. Tatsächlich hat sich in den letzten 2 Jahrhunderten in der KI-Forschung nicht so viel verändert: Stand 2025 wird der Fortschritt der NNs immer noch hauptsächlich von Ingenieurwesen und nicht von neurophysiologischen Erkenntnissen vorangetrieben. (Bestimmte Ausnahmen, die viele Jahrzehnte zurückreichen [CN25], bestätigen die Regel.) Fußnote 1. Im Jahr 1958 wurden einfache NNs im Stil von Gauss & Legendre mit einer Ausgabeschwellenfunktion kombiniert, um Musterklassifizierer zu erhalten, die Perzeptrons genannt werden [R58][R61][DLH]. Erstaunlicherweise schienen die Autoren [R58][R61] sich nicht der viel früheren NN (1795-1805) bewusst zu sein, die in der Statistik als "Methode der kleinsten Quadrate" oder "lineare Regression" bekannt ist. Bemerkenswerterweise sind die heute am häufigsten verwendeten 2-Schicht-NNs die von Gauss & Legendre, nicht die aus den 1940er [MC43] und 1950er [R58] (die nicht einmal differenzierbar waren)! AUSGEWÄHLTE REFERENZEN (viele zusätzliche Referenzen in [NN25] - siehe Link oben): [CAJ88] S. R. Cajal. Estructura de los centros nerviosos de las aves. Rev. Trim. Histol. Norm. Patol., 1 (1888), S. 1-10. [CAJ88b] S. R. Cajal. Sobre las fibras nerviosas de la capa molecular del cerebelo. Rev. Trim. Histol. Norm. Patol., 1 (1888), S. 33-49. [CAJ89] Conexión general de los elementos nerviosos. Med. Práct., 2 (1889), S. 341-346. [CAJ06] F. López-Muñoz, J. Boya b, C. Alamo (2006). Neuron theory, the cornerstone of neuroscience, on the centenary of the Nobel Prize award to Santiago Ramón y Cajal. Brain Research Bulletin, Volume 70, Issues 4–6, 16. Oktober 2006, Seiten 391-405. [CN25] J. Schmidhuber (AI Blog, 2025). Wer hat konvolutionale neuronale Netzwerke erfunden? [DEEP1] Ivakhnenko, A. G. und Lapa, V. G. (1965). Cybernetic Predicting Devices. CCM Information Corporation. Erste funktionierende Deep Learner mit vielen Schichten, die interne Repräsentationen lernen. [DEEP1a] Ivakhnenko, Alexey Grigorevich. Die Gruppenmethode der Datenverarbeitung; ein Rivale der Methode der stochastischen Approximation. Soviet Automatic Control 13 (1968): 43-55. [DEEP2] Ivakhnenko, A. G. (1971). Polynomial theory of complex systems. IEEE Transactions on Systems, Man and Cybernetics, (4):364-378. [DL25] J. Schmidhuber. Wer hat tiefes Lernen erfunden? Technische Notiz IDSIA-16-25, IDSIA, November 2025. [DLH] J. Schmidhuber. Annotierte Geschichte der modernen KI und des tiefen Lernens. Technischer Bericht IDSIA-22-22, IDSIA, Lugano, Schweiz, 2022. Preprint arXiv:2212.11279. [HEB48] J. Konorski (1948). Conditioned reflexes and neuron organization. Übersetzung aus dem polnischen Manuskript unter der Aufsicht des Autors. Cambridge University Press, 1948. Konorski veröffentlichte die sogenannte "Hebb-Regel" vor Hebb [HEB49]. [HEB49] D. O. Hebb. The Organization of Behavior. Wiley, New York, 1949. Konorski [HEB48] veröffentlichte die sogenannte "Hebb-Regel" vor Hebb. [MC43] W. S. McCulloch, W. Pitts. A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, Vol. 5, S. 115-133, 1943. [NN25] J. Schmidhuber. Wer hat künstliche neuronale Netzwerke erfunden? Technische Notiz IDSIA-15-25, IDSIA, November 2025. [R58] Rosenblatt, F. (1958). Der Perzeptron: ein probabilistisches Modell für Informationsspeicherung und -organisation im Gehirn. Psychological review, 65(6):386. [R61] Joseph, R. D. (1961). Beiträge zur Perzeptron-Theorie. Doktorarbeit, Cornell Univ. [R62] Rosenblatt, F. (1962). Principles of Neurodynamics. Spartan, New York. [ST61] K. Steinbuch. Die Lernmatrix. Kybernetik, 1(1):36-45, 1961. [TUR1] A. M. Turing. Intelligent Machinery. Unveröffentlichten technischen Bericht, 1948. In: Ince DC, Herausgeber. Gesammelte Werke von A. M. Turing—Mechanische Intelligenz. Elsevier Science Publishers, 1992. [STI81] S. M. Stigler. Gauss und die Erfindung der kleinsten Quadrate. Ann. Stat. 9(3):465-474, 1981. [WID62] Widrow, B. und Hoff, M. (1962). Assoziative Speicherung und Abruf digitaler Informationen in Netzwerken adaptiver Neuronen. Biologische Prototypen und synthetische Systeme, 1:160, 1962.

Top

Ranking

Favoriten