Abstract
Obwohl Deep Learning historische Wurzeln hat, die Jahrzehnte zurückreichen, waren weder der Begriff noch der Ansatz vor etwas mehr als fünf Jahren populär, als das Feld durch Publikationen wie das mittlerweile klassische Deep-Net-Modell für ImageNet von Krizhevsky, Sutskever und Hinton aus dem Jahr 2012 neu entfacht wurde. Was hat das Feld in den folgenden fünf Jahren entdeckt? Vor dem Hintergrund erheblicher Fortschritte in Bereichen wie Spracherkennung, Bilderkennung und Spielen sowie großer Begeisterung in den Medien stelle ich zehn Bedenken gegenüber Deep Learning vor und lege dar, dass Deep Learning durch andere Techniken ergänzt werden muss, wenn wir eine allgemeine künstliche Intelligenz erreichen wollen.
Einleitung: Steht Deep Learning vor einer Wand?
Deep Learning hat trotz seines jüngsten Popularitätsschubs historische Wurzeln, die Jahrzehnte zurückreichen. Das Feld erregte relativ wenig Aufmerksamkeit, bis sich vor etwas mehr als fünf Jahren alles änderte: 2012 wurden einflussreiche Arbeiten wie „ImageNet Classification with Deep Convolutional Neural Networks“ von Krizhevsky, Sutskever und Hinton veröffentlicht, die bahnbrechende Ergebnisse in der Objekterkennungs-Herausforderung ImageNet erzielten.
Noch im selben Jahr schaffte es Deep Learning auf die Titelseite der New York Times und wurde rasch die mit Abstand bekannteste Technik in der künstlichen Intelligenz. Während die grundsätzliche Idee, neuronale Netze mit mehreren Schichten zu trainieren, nicht neu war, machten Steigerungen der Rechenleistung und Datenverfügbarkeit Deep Learning erstmals wirklich praktikabel.
Deep Learning hat seither zahlreiche Spitzenergebnisse in Domänen wie Spracherkennung, Bilderkennung und Sprachübersetzung erzielt und spielt eine Rolle in einem breiten Spektrum aktueller KI-Anwendungen. Unternehmen haben Milliarden Dollar investiert, um um Talente im Bereich Deep Learning zu kämpfen. Prominente Befürworter wie Andrew Ng behaupten: „Wenn eine durchschnittliche Person eine mentale Aufgabe in weniger als einer Sekunde erledigen kann, können wir sie wahrscheinlich jetzt oder in naher Zukunft mit KI automatisieren.“
Allerdings deuten Anzeichen darauf hin, dass Deep Learning an eine Grenze stoßen könnte. Wie François Chollet, Autor der Keras-Bibliothek für neuronale Netze, im Dezember 2017 feststellte: „Bei den meisten Problemen, bei denen Deep Learning transformativ bessere Lösungen ermöglicht hat (Vision, Sprache), sind wir 2016-2017 in den Bereich abnehmender Erträge eingetreten.“ Selbst Geoff Hinton, der Pate des Deep Learning, räumt ein: „Die Zukunft hängt von einem Doktoranden ab, der alles, was ich gesagt habe, zutiefst misstraut.“
Dieses Papier zielt darauf ab, unbegründeten Überschwang zu mäßigen und gleichzeitig zu überlegen, was das Feld voranbringen muss. Es richtet sich sowohl an technische Forscher als auch an KI-Anwender mit weniger technischem Hintergrund, die verstehen möchten, wohin sich das Feld entwickelt.
Deep Learning: Grundlagen und Stärken
Deep Learning bezeichnet eine Klasse von Machine-Learning-Techniken, die mehrere Schichten nichtlinearer Verarbeitungseinheiten zur Merkmalsextraktion und -transformation verwenden. Jede aufeinanderfolgende Schicht verwendet die Ausgabe der vorherigen Schicht als Eingabe, wodurch das System in der Lage ist, Repräsentationen von Daten mit mehreren Abstraktionsebenen zu erlernen.
Die grundlegende Stärke von Deep Learning liegt in seiner Fähigkeit, mittels Backpropagation-Algorithmus komplexe Strukturen in großen Datensätzen zu entdecken. Dieser Algorithmus verwendet Gradientenabstieg, um die Gewichtungen der Verbindungen zwischen Neuronen anzupassen. Dieser Ansatz hat sich als außerordentlich leistungsfähig für Probleme erwiesen, bei denen:
- Die Eingabe-Ausgabe-Abbildung komplex ist, aber aus umfangreichen Daten erlernt werden kann
- Die für die Aufgabe benötigten Merkmale von menschlichen Ingenieuren nicht leicht spezifiziert werden können
- Das Problem Wahrnehmungsaufgaben betrifft, ähnlich denen, die Menschen und Tiere natürlich lösen
Deep Learning hat in mehreren Schlüsseldomänen bemerkenswerte Erfolge erzielt:
Computer Vision
Convolutional Neural Networks (CNNs) haben die Computer Vision revolutioniert und erreichen menschenähnliche Leistung bei Aufgaben wie Bildklassifizierung, Objekterkennung und Gesichtserkennung. Der ImageNet-Durchbruch 2012 demonstrierte, dass tiefe Netze bisherige Ansätze deutlich übertreffen konnten und die Top-5-Fehlerraten von 26 % auf 15 % senkten.
Spracherkennung
Recurrent Neural Networks (RNNs) und Long Short-Term Memory (LSTM)-Netze haben Spracherkennungssysteme dramatisch verbessert, wobei die Fehlerraten in kontrollierten Umgebungen auf nahezu menschliches Niveau gesunken sind. Unternehmen wie Google, Apple und Amazon haben diese Technologien in ihre virtuellen Assistenten integriert.
Natural Language Processing
Sequence-to-Sequence-Modelle und Attention-Mechanismen haben bedeutende Fortschritte bei maschineller Übersetzung, Textzusammenfassung und Frage-Antwort-Systemen ermöglicht. Googles Neural Machine Translation System ist ein prominentes Beispiel für diesen Fortschritt.
Spiele
Deep Reinforcement Learning hat Systeme hervorgebracht, die menschliche Experten in komplexen Spielen wie Go, Schach und Videospielen übertreffen. DeepMinds AlphaGo und OpenAIs Dota 2-Bots demonstrieren das Potenzial der Kombination von Deep Learning mit Reinforcement Learning.
Der gemeinsame Nenner dieser Erfolge ist die Fähigkeit von Deep Learning, relevante Merkmale automatisch aus Rohdaten zu erlernen, wodurch die Notwendigkeit entfällt