Richard Sutton diz que a indústria de IA “perdeu o rumo” ao ignorar os princípios fundamentais da inteligência
Richard Sutton, figura de destaque no aprendizado por reforço e vencedor do Prêmio Turing, afirma que a indústria de IA perdeu seu rumo.
“À medida que a IA se tornou uma indústria enorme, até certo ponto ela perdeu o rumo”, escreve Sutton. Ele argumenta que os avanços recentes negligenciaram os princípios essenciais necessários para alcançar uma inteligência verdadeira.
Sutton convoca uma correção de curso: “O que é preciso para nos colocar de volta no caminho da verdadeira inteligência? Precisamos de agentes que aprendam continuamente. Precisamos de modelos do mundo e de planejamento. Precisamos de um conhecimento de alto nível e que possa ser aprendido. Precisamos meta-aprender como generalizar.”
Trabalhando no Google DeepMind, Sutton se une a outros pesquisadores proeminentes que criticam a obsessão da indústria em ampliar os modelos de linguagem de grande escala. Ele acredita que a verdadeira inteligência surge da experiência – de agentes que aprendem interagindo diretamente com seu ambiente. Juntamente com David Silver, ele recentemente publicou um artigo defendendo que a IA deveria aprender fazendo, e não apenas ao absorver enormes quantidades de texto.
O caminho de Sutton rumo à superinteligência
Sutton aponta que o principal problema dos sistemas atuais é a incapacidade de aprender de forma contínua. Eles enfrentam o esquecimento catastrófico, situação em que novas informações sobrepõem o que já foi aprendido, fazendo com que a capacidade de aprendizado ao longo do tempo se perca.
Para solucionar essa limitação, Sutton propõe a arquitetura Oak (Opções e Conhecimento), uma estrutura para construir agentes capazes de alcançar a superinteligência por meio da experiência.
A Oak se baseia em três princípios essenciais. Primeiro, o agente deve ser de uso geral, começando sem conhecimento específico sobre qualquer mundo. Segundo, seu aprendizado é totalmente impulsionado pela experiência: o agente adquire conhecimento exclusivamente através da interação direta com o ambiente – observando, agindo e recebendo recompensas. Terceiro, aplica-se a hipótese da recompensa, segundo a qual todo objetivo pode ser reduzido à maximização de um sinal de recompensa escalar simples.
No cerne da Oak está um ciclo de autorreforço: o agente cria abstrações de nível superior por meio do feedback, de forma que os elementos que ajudam no planejamento e na resolução de problemas se convertem na base para a próxima geração, ainda mais abstrata, de conhecimento. Esse processo permanece aberto, limitado apenas pela potência computacional disponível e, na perspectiva de Sutton, pode eventualmente pavimentar o caminho para a superinteligência.
Entretanto, Sutton ressalta que a Oak ainda está fora de alcance, pois depende de algoritmos que consigam aprender de maneira contínua e estável, sem esquecer o que já foi assimilado. Segundo ele, o deep learning contínuo e confiável é o elemento que falta. Você pode assistir à palestra técnica completa de Sutton.