Resumo
Embora a aprendizagem profunda tenha raízes históricas que remontam a décadas, nem o termo 'aprendizagem profunda' nem a abordagem eram populares há pouco mais de cinco anos, quando o campo foi reativado por artigos como o agora clássico modelo de rede profunda da Imagenet de Krizhevsky, Sutskever e Hinton de 2012. O que o campo descobriu nos cinco anos subsequentes? Diante de progressos consideráveis em áreas como reconhecimento de voz, reconhecimento de imagem e jogos, e um entusiasmo significativo na mídia popular, apresento dez preocupações sobre a aprendizagem profunda e sugiro que ela deve ser complementada por outras técnicas se quisermos alcançar a inteligência artificial geral.
Introdução: A Aprendizagem Profunda Está se Aproximando de um Limite?
A aprendizagem profunda, apesar de sua explosão recente em popularidade, tem raízes históricas que se estendem por décadas. A área atraiu relativamente pouca atenção até pouco mais de cinco anos atrás, quando tudo mudou em 2012 com a publicação de artigos extremamente influentes, como 'Classificação do ImageNet com Redes Neurais Convolucionais Profundas' de Krizhevsky, Sutskever e Hinton, que alcançou resultados de última geração no desafio de reconhecimento de objetos conhecido como ImageNet.
Antes do final do ano, a aprendizagem profunda chegou à capa do The New York Times e rapidamente se tornou a técnica mais conhecida em inteligência artificial, por uma ampla margem. Embora a ideia geral de treinar redes neurais com múltiplas camadas não fosse nova, os aumentos no poder computacional e na disponibilidade de dados tornaram a aprendizagem profunda verdadeiramente prática pela primeira vez.
Desde então, a aprendizagem profunda produziu inúmeros resultados de última geração em domínios como reconhecimento de voz, reconhecimento de imagem e tradução automática, e desempenha um papel em uma vasta gama de aplicações atuais de IA. Corporações investiram bilhões de dólares disputando talentos em aprendizagem profunda, com defensores proeminentes como Andrew Ng sugerindo que 'Se uma pessoa comum pode realizar uma tarefa mental com menos de um segundo de pensamento, provavelmente podemos automatizá-la usando IA agora ou em um futuro próximo.'
No entanto, evidências sugerem que a aprendizagem profunda pode estar se aproximando de um limite. Como François Chollet, autor da biblioteca de redes neurais Keras, observou em dezembro de 2017: 'Para a maioria dos problemas onde a aprendizagem profunda permitiu soluções transformadoramente melhores (visão, fala), entramos em um território de retornos decrescentes em 2016-2017.' Até Geoff Hinton, o 'pai' da aprendizagem profunda, reconhece que 'O futuro depende de algum estudante de pós-graduação que é profundamente cético em relação a tudo que eu disse.'
Este artigo visa moderar o exuberância irracional enquanto considera o que a área precisa para avançar, dirigindo-se tanto a pesquisadores técnicos quanto a consumidores de IA com menos formação técnica que desejam entender para onde o campo está se encaminhando.
O Que É Aprendizagem Profunda e Seus Pontos Fortes
A aprendizagem profunda refere-se a uma classe de técnicas de aprendizado de máquina que utilizam múltiplas camadas de unidades de processamento não linear para extração e transformação de características. Cada camada sucessiva usa a saída da camada anterior como entrada, permitindo que o sistema aprenda representações de dados com múltiplos níveis de abstração.
A força fundamental da aprendizagem profunda reside em sua capacidade de descobrir estruturas intrincadas em grandes conjuntos de dados através do algoritmo de retropropagação, que usa o gradiente descendente para ajustar os pesos das conexões entre neurônios. Essa abordagem se mostrou excepcionalmente poderosa para problemas onde:
- O mapeamento entrada-saída é complexo, mas pode ser aprendido a partir de dados abundantes
- As características necessárias para a tarefa não são facilmente especificadas por engenheiros humanos
- O problema envolve tarefas perceptuais semelhantes àquelas que humanos e animais resolvem naturalmente
A aprendizagem profunda alcançou sucesso notável em vários domínios-chave:
Visão Computacional
As Redes Neurais Convolucionais (CNNs) revolucionaram a visão computacional, atingindo desempenho em nível humano em tarefas como classificação de imagens, detecção de objetos e reconhecimento facial. O avanço do ImageNet em 2012 demonstrou que as redes profundas poderiam superar significativamente as abordagens anteriores, reduzindo as taxas de erro top-5 de 26% para 15%.
Reconhecimento de Voz
As Redes Neurais Recorrentes (RNNs) e as redes de Memória de Longo e Curto Prazo (LSTM) melhoraram dramaticamente os sistemas de reconhecimento de voz, com taxas de erro caindo para níveis próximos aos humanos em ambientes controlados. Empresas como Google, Apple e Amazon integraram essas tecnologias em seus assistentes virtuais.
Processamento de Linguagem Natural
Os modelos sequência a sequência e os mecanismos de atenção permitiram avanços significativos em tradução automática, sumarização de texto e sistemas de perguntas e respostas. O Sistema de Tradução Automática Neural do Google representa um exemplo proeminente desse progresso.
Jogos
O aprendizado por reforço profundo produziu sistemas que superam especialistas humanos em jogos complexos como Go, Xadrez e videogames. O AlphaGo da DeepMind e os bots de Dota 2 da OpenAI demonstram o potencial de combinar aprendizagem profunda com aprendizado por reforço.
O fio condutor desses sucessos é a capacidade da aprendizagem profunda de aprender automaticamente características relevantes a partir de dados brutos, eliminando a necessidade de