Resumen
Aunque el aprendizaje profundo tiene raíces históricas que se remontan a décadas, ni el término 'aprendizaje profundo' ni el enfoque eran populares hace poco más de cinco años, cuando el campo fue revitalizado por publicaciones como el ahora clásico modelo de red profunda de Imagenet de 2012 de Krizhevsky, Sutskever y Hinton. ¿Qué ha descubierto el campo en los cinco años posteriores? Frente a un trasfondo de progreso considerable en áreas como reconocimiento de voz, reconocimiento de imágenes y juegos, y un entusiasmo significativo en la prensa popular, presento diez preocupaciones sobre el aprendizaje profundo y sugiero que debe complementarse con otras técnicas si queremos alcanzar la inteligencia artificial general.
Introducción: ¿Se está Acercando el Aprendizaje Profundo a un Muro?
El aprendizaje profundo, a pesar de su reciente explosión de popularidad, tiene raíces históricas que se extienden décadas atrás. El campo atrajo relativamente poca atención hasta hace poco más de cinco años cuando todo cambió en 2012 con la publicación de artículos muy influyentes como 'Clasificación de ImageNet con Redes Neuronales Convolucionales Profundas' de Krizhevsky, Sutskever y Hinton, que logró resultados de vanguardia en el desafío de reconocimiento de objetos conocido como ImageNet.
Antes de que terminara el año, el aprendizaje profundo llegó a la portada de The New York Times y rápidamente se convirtió en la técnica más conocida de inteligencia artificial, por un amplio margen. Si bien la idea general de entrenar redes neuronales con múltiples capas no era nueva, los aumentos en potencia computacional y disponibilidad de datos hicieron que el aprendizaje profundo fuera verdaderamente práctico por primera vez.
Desde entonces, el aprendizaje profundo ha producido numerosos resultados de vanguardia en dominios como reconocimiento de voz, reconocimiento de imágenes y traducción de idiomas, y juega un papel en una amplia gama de aplicaciones actuales de IA. Las corporaciones han invertido miles de millones de dólares luchando por el talento en aprendizaje profundo, con defensores prominentes como Andrew Ng sugiriendo que 'Si una persona típica puede realizar una tarea mental con menos de un segundo de pensamiento, probablemente podamos automatizarla usando IA ahora o en un futuro cercano.'
Sin embargo, la evidencia sugiere que el aprendizaje profundo podría estar acercándose a un muro. Como François Chollet, autor de la librería de redes neuronales Keras, señaló en diciembre de 2017: 'Para la mayoría de los problemas donde el aprendizaje profundo ha permitido soluciones transformacionalmente mejores (visión, voz), hemos entrado en territorio de rendimientos decrecientes en 2016-2017.' Incluso Geoff Hinton, el gurú del aprendizaje profundo, reconoce que 'El futuro depende de algún estudiante de posgrado que sospeche profundamente de todo lo que he dicho.'
Este artículo pretende moderar el exceso de euforia irracional mientras considera lo que el campo necesita para avanzar, dirigido tanto a investigadores técnicos como a consumidores de IA con menos formación técnica que deseen comprender hacia dónde se dirige el campo.
Qué es el Aprendizaje Profundo y en qué Destaca
El aprendizaje profundo se refiere a una clase de técnicas de aprendizaje automático que utilizan múltiples capas de unidades de procesamiento no lineal para extracción y transformación de características. Cada capa sucesiva utiliza la salida de la capa anterior como entrada, permitiendo al sistema aprender representaciones de datos con múltiples niveles de abstracción.
La fortaleza fundamental del aprendizaje profundo radica en su capacidad para descubrir estructuras intrincadas en grandes conjuntos de datos mediante el algoritmo de retropropagación, que utiliza descenso de gradiente para ajustar los pesos de las conexiones entre neuronas. Este enfoque ha demostrado ser excepcionalmente poderoso para problemas donde:
- El mapeo entrada-salida es complejo pero puede aprenderse a partir de datos abundantes
- Las características necesarias para la tarea no son fácilmente especificadas por ingenieros humanos
- El problema implica tareas perceptuales similares a las que humanos y animales resuelven naturalmente
El aprendizaje profundo ha logrado un éxito notable en varios dominios clave:
Visión por Computadora
Las Redes Neuronales Convolucionales (CNN) han revolucionado la visión por computadora, logrando rendimiento a nivel humano en tareas como clasificación de imágenes, detección de objetos y reconocimiento facial. El avance de ImageNet 2012 demostró que las redes profundas podían superar significativamente los enfoques anteriores, reduciendo las tasas de error top-5 del 26% al 15%.
Reconocimiento de Voz
Las Redes Neuronales Recurrentes (RNN) y las redes de Memoria a Largo-Corto Plazo (LSTM) han mejorado dramáticamente los sistemas de reconocimiento de voz, con tasas de error cayendo a niveles casi humanos en entornos controlados. Empresas como Google, Apple y Amazon han integrado estas tecnologías en sus asistentes virtuales.
Procesamiento de Lenguaje Natural
Los modelos secuencia a secuencia y los mecanismos de atención han permitido avances significativos en traducción automática, resumen de texto y sistemas de respuesta a preguntas. El sistema de Traducción Automática Neuronal de Google representa un ejemplo prominente de este progreso.
Juegos
El aprendizaje por refuerzo profundo ha producido sistemas que superan a expertos humanos en juegos complejos como Go, Ajedrez y videojuegos. AlphaGo de DeepMind y los bots de Dota 2 de OpenAI demuestran el potencial de combinar aprendizaje profundo con aprendizaje por refuerzo.
El hilo común en estos éxitos es la capacidad del aprendizaje profundo para aprender automáticamente características relevantes a partir de datos crudos, eliminando la necesidad de