Qualche giorno fa, ho pubblicato sul fenomeno del double descent per avvisare gli economisti della sua importanza. Per illustrarlo, ho usato il seguente esempio: 1️⃣ Vuoi trovare la curva che "migliore" approssima una funzione sconosciuta che genera 12 osservazioni. 2️⃣ So che la funzione obiettivo è Y = 2(1 - e^{-|x + \sin(x^2)|}), ma tu non lo sai. Sai solo che non c'è rumore nel problema. 3️⃣ Usando come approssimatore una rete neurale a singolo strato nascosto con attivazione ReLU addestrata su queste 12 osservazioni. 4️⃣ Controlli cosa succede con l'approssimazione quando aumenti il numero di parametri nella rete neurale da 4 a 24.001. 🎥 Il gif movie che il mio caro coautore @MahdiKahou ha preparato illustra i risultati: Caso A. Con un numero ridotto di parametri (diciamo, 7), fai male: la distanza ℓ₂ tra la tua approssimazione addestrata (linea blu) e la funzione obiettivo (non tracciata, solo i 12 punti rossi tratti da essa) è alta. Caso B. Con ~1.000 parametri, raggiungi la soglia di interpolazione: la rete si adatta perfettamente a tutti e 12 i punti, ma la funzione è molto ondulata. La distanza ℓ₂ è ancora alta. Caso C. Con ancora più parametri (ad esempio, 24.001), l'approssimazione si smussa e la distanza ℓ₂ dalla funzione obiettivo diventa molto più piccola. ⚡ Punti chiave: 1️⃣ Questo è solo un esempio, ma risultati simili sono stati documentati in migliaia di applicazioni. Non sto rivendicando alcuna novità qui. 2️⃣ Il risultato non dipende dall'avere esattamente 12 osservazioni (con di più, il double descent appare prima), dall'assenza di rumore, o anche dall'uso di reti neurali: lo ottieni con molti altri approssimatori parametrici. 3️⃣ Sì, in migliaia di applicazioni economiche, vuoi approssimare funzioni complicate e ad alta dimensione con tutti i tipi di forme intricate, e sai solo alcuni punti tratti da esse. 👉 Perché preferire l'approssimazione liscia? Perché, anche se sovra-parametrizzata, generalizza meglio. Se disegno nuove osservazioni dalla funzione obiettivo (a te sconosciuta)...