O Google Deepmind constrói um AlphaZero multiagente que supera o antigo sistema por meio da diversidade e melhora sua capacidade de generalização.
O AlphaZero da DeepMind foi um ponto de virada na pesquisa de IA, alcançando capacidades sobre-humanas por meio do aprendizado de reforço de auto-jogo e dominando o xadrez em um novo nível. No entanto, quebra-cabeças de xadrez difíceis ainda desconcertam até mesmo os sistemas de IA de xadrez mais fortes, sugerindo espaço para melhorias. Pesquisadores do Google DeepMind agora estão propondo combinar vários agentes AlphaZero diferentes em um sistema de conjunto, chamado AZdb, para melhorar ainda mais suas capacidades no xadrez e além. AZdb, combina vários agentes AlphaZero em uma “liga”.
Os agentes AlphaZero são inspirados pela colaboração humana
Usando técnicas de “diversidade comportamental” e “diversidade de resposta”, os agentes do AZdb são treinados para jogar xadrez de diferentes maneiras. De acordo com o Google Deepmind, a diversidade comportamental maximiza a diferença de posições médias entre os agentes, enquanto a diversidade de resposta expõe os agentes a jogos contra diferentes oponentes. Na prática, isso também significa que o agente do AZdb passará a ver muito mais posições diferentes, expandindo essa gama de dados de distribuição, o que deve permitir que o sistema generalize melhor para posições invisíveis.
Como inspiração para essa abordagem, a equipe cita casos em que os clubes costumavam colaborar e jogar uns contra os outros por meio de xadrez por correspondência, como “Kasparov versus The World”, sobre o qual o famoso jogador de xadrez disse que “nunca gastou tanto esforço em qualquer outro jogo em sua vida”. Grandes mestres de xadrez também costumam se preparar para jogos importantes com uma equipe de jogadores fortes com estilos diferentes.
Outros experimentos confirmam que os agentes do AZdb desenvolvem estilos de jogo únicos, como preferir diferentes aberturas, estruturas de peões e taxas de sobrevivência de peças.
AZdb supera AlphaZero
Os pesquisadores então examinaram se essa diversidade fornece uma vantagem criativa ao tentar resolver quebra-cabeças de xadrez desafiadores coletados de várias fontes, incluindo quebra-cabeças projetados especificamente para enganar os motores de xadrez. Eles descobriram que, dado tempo suficiente para pensar, o AZdb resolveu o dobro desses quebra-cabeças muito desafiadores em comparação com o AlphaZero individual. Isso mostra que a equipe diversificada do AZdb considerou coletivamente mais possibilidades, disseram eles, com diferentes agentes especializados para se destacar em certos tipos de quebra-cabeças. Os jogos de xadrez também mostraram que os agentes se especializaram em diferentes aberturas.
Os pesquisadores exploraram essa especialização por meio do “planejamento subaditivo”, no qual o AZdb escolhe seu melhor agente para cada abertura ao jogar contra o AlphaZero. Essa abordagem resultou em um aumento de 50 na classificação ELO em relação ao desempenho individual da AlphaZero.
No geral, a equipe acredita que, embora ainda haja uma lacuna entre o pensamento humano e o pensamento de máquina, a pesquisa sugere que “incorporar criatividade e diversidade semelhantes às humanas no AZ pode melhorar sua capacidade de generalização”.