Abstract

Sebbene il deep learning abbia radici storiche che risalgono a decenni fa, né il termine né l'approccio erano popolari fino a poco più di cinque anni fa, quando il campo è stato rilanciato da pubblicazioni come il modello di rete profonda Imagenet del 2012, ormai classico, di Krizhevsky, Sutskever e Hinton. Cosa ha scoperto il campo nei cinque anni successivi? Sullo sfondo di progressi considerevoli in aree come riconoscimento vocale, riconoscimento di immagini e gioco, e di notevole entusiasmo nella stampa generale, presento dieci criticità per il deep learning e suggerisco che il deep learning deve essere integrato da altre tecniche se vogliamo raggiungere l'intelligenza artificiale generale.

Introduzione: Il Deep Learning Sta Raggiungendo un Punto di Stallo?

Il deep learning, nonostante la sua recente esplosione di popolarità, ha radici storiche che si estendono per decenni. Il campo ha attirato relativamente poca attenzione fino a poco più di cinque anni fa, quando tutto è cambiato nel 2012 con la pubblicazione di articoli di grande influenza come 'ImageNet Classification with Deep Convolutional Neural Networks' di Krizhevsky, Sutskever e Hinton, che ha ottenuto risultati all'avanguardia nella sfida di riconoscimento oggetti nota come ImageNet.

Prima che l'anno finisse, il deep learning ha fatto la prima pagina del New York Times ed è rapidamente diventato la tecnica più conosciuta nell'intelligenza artificiale, di gran lunga. Sebbene l'idea generale di addestrare reti neurali con più strati non fosse nuova, l'aumento della potenza computazionale e della disponibilità dei dati ha reso il deep learning veramente pratico per la prima volta.

Da allora, il deep learning ha prodotto numerosi risultati all'avanguardia in domini come il riconoscimento vocale, il riconoscimento di immagini e la traduzione linguistica, e svolge un ruolo in un'ampia fascia di applicazioni AI attuali. Le aziende hanno investito miliardi di dollari per contendersi i talenti del deep learning, con sostenitori di spicco come Andrew Ng che suggeriscono che 'Se una persona tipica può svolgere un compito mentale in meno di un secondo di pensiero, probabilmente possiamo automatizzarlo usando l'AI ora o nel prossimo futuro.'

Tuttavia, le evidenze suggeriscono che il deep learning potrebbe essere vicino a un punto di stallo. Come ha notato François Chollet, autore della libreria di reti neurali Keras, nel dicembre 2017: 'Per la maggior parte dei problemi in cui il deep learning ha permesso soluzioni trasformazionalmente migliori (visione, parlato), siamo entrati in un territorio di rendimenti decrescenti nel 2016-2017.' Anche Geoff Hinton, il pioniere del deep learning, riconosce che 'Il futuro dipende da qualche studente laureato che è profondamente sospettoso di tutto ciò che ho detto.'

Questo articolo mira a temperare l'euforia irrazionale considerando ciò di cui il campo ha bisogno per andare avanti, rivolgendosi sia ai ricercatori tecnici che ai consumatori di AI con un background meno tecnico che desiderano capire dove sta andando il campo.

Cos'è il Deep Learning e i Suoi Punti di Forza

Il deep learning si riferisce a una classe di tecniche di apprendimento automatico che utilizzano più strati di unità di elaborazione non lineare per l'estrazione e la trasformazione delle caratteristiche. Ogni strato successivo utilizza l'output dello strato precedente come input, consentendo al sistema di apprendere rappresentazioni di dati con più livelli di astrazione.

La forza fondamentale del deep learning risiede nella sua capacità di scoprire strutture intricate in grandi set di dati attraverso l'algoritmo di retropropagazione, che utilizza la discesa del gradiente per regolare i pesi delle connessioni tra i neuroni. Questo approccio si è rivelato eccezionalmente potente per problemi in cui:

La mappatura input-output è complessa ma può essere appresa da dati abbondanti
Le caratteristiche necessarie per il compito non sono facilmente specificabili da ingegneri umani
Il problema coinvolge compiti percettivi simili a quelli che umani e animali risolvono naturalmente

Il deep learning ha ottenuto un successo notevole in diversi domini chiave:

Computer Vision

Le Reti Neurali Convoluzionali (CNN) hanno rivoluzionato la computer vision, raggiungendo prestazioni a livello umano in compiti come classificazione di immagini, rilevamento di oggetti e riconoscimento facciale. La svolta di ImageNet del 2012 ha dimostrato che le reti profonde potevano superare significativamente gli approcci precedenti, riducendo i tassi di errore top-5 dal 26% al 15%.

Riconoscimento Vocale

Le Reti Neurali Ricorrenti (RNN) e le reti a Memoria a Breve-Termine Lungo (LSTM) hanno migliorato drasticamente i sistemi di riconoscimento vocale, con tassi di errore scesi a livelli quasi umani in ambienti controllati. Aziende come Google, Apple e Amazon hanno integrato queste tecnologie nei loro assistenti virtuali.

Elaborazione del Linguaggio Naturale

I modelli sequenza-sequenza e i meccanismi di attenzione hanno consentito progressi significativi nella traduzione automatica, nella sintesi di testi e nei sistemi di risposta alle domande. Il sistema di traduzione neurale di Google rappresenta un esempio prominente di questo progresso.

Gioco

L'apprendimento per rinforzo profondo ha prodotto sistemi che superano esperti umani in giochi complessi come Go, Scacchi e videogiochi. L'AlphaGo di DeepMind e i bot Dota 2 di OpenAI dimostrano il potenziale della combinazione del deep learning con l'apprendimento per rinforzo.

Il filo conduttore di questi successi è la capacità del deep learning di apprendere automaticamente caratteristiche rilevanti dai dati grezzi, eliminando la necessità di