Meta ensina inteligência artificial a mentir e a criar estratégias

A Meta treinou um agente de IA para jogar um jogo de tabuleiro que envolve conversar com outros jogadores para persuadi-los a apoiar suas estratégias – e depois traí-los.

A empresa, dona do Facebook, Instagram e WhatsApp, diz que sua Cicero AI pode ter aplicações generalizadas em um futuro próximo, incluindo o desenvolvimento de assistentes virtuais mais inteligentes com o uso combinado de tecnologias como processamento de linguagem natural (NLP) e raciocínio estratégico, de acordo com um postagem no blog divulgada pela empresa.

Em um artigo de pesquisa na revista acadêmica Science, a Meta disse que sua Cicero AI alcançou desempenho de nível humano no jogo de estratégia Diplomacy em uma liga on-line onde jogou 40 jogos contra 82 humanos, ficando entre os 10% melhores dos participantes que jogaram mais de um jogo.

O Diplomacy coloca sete jogadores uns contra os outros pelo controle de um mapa da Europa. Cada turno começa com os jogadores negociando uns com os outros para apoiar seus planos e termina com eles simultaneamente tentando executar seus movimentos. Sem o apoio de outros jogadores, muitos desses movimentos falharão.

O jogo representou um desafio para o agente de IA, disse a Meta, pois vencer exigia que ele entendesse se seus oponentes estavam blefando ou criando estratégias de uma certa maneira para vencer o jogo. A IA precisava estender um certo nível de empatia ao jogar o jogo para formar colaborações com outros jogadores, algo que as IAs não precisavam fazer ao jogar jogos como xadrez contra oponentes humanos.

Os agentes de IA têm melhorado em jogos de estratégia ao longo dos anos: em 1997, o software Deep Blue, da IBM, derrotou o campeão mundial de xadrez Gary Kasparov e, em 2016, o AlphaGo, da DeepMind, derrotou o jogador de Go Lee Sedol. O Facebook também desenvolveu outro mecanismo de IA que pode superar os humanos no Poker.

Raciocínio estratégico

Cicero é construído em dois componentes de tecnologia principais: raciocínio estratégico e processamento de linguagem natural (NLP). Enquanto o mecanismo de raciocínio estratégico prevê movimentos de outros jogadores e usa essa informação para formar uma estratégia própria, o mecanismo de processamento de linguagem natural gera mensagens e analisa respostas em conversas com outros jogadores para negociar e chegar a um acordo, explicaram os pesquisadores.

Para ajudar o agente de IA a gerar conversas relevantes, os pesquisadores começaram com um modelo de geração de linguagem natural de 2,7 bilhões de parâmetros pré-treinados em texto da Internet e o ajustaram com conversas entre jogadores humanos em mais de 40.000 jogos do webDiplomacy.net.

“Desenvolvemos técnicas para anotar automaticamente as mensagens nos dados de treinamento com os movimentos planejados correspondentes no jogo, para que no momento da inferência possamos controlar a geração de diálogos para discutir ações específicas desejadas para o agente e seus parceiros de conversação”, disseram os pesquisadores em um relatório mais detalhado postado no blog de IA da empresa.

A Meta abriu o código do Cicero para outros pesquisadores aproveitarem os recursos do agente de IA.

Além disso, a empresa criou um portal para convidar propostas de pesquisa na área de cooperação humano-IA por meio da PNL usando o Diplomacy como conceito central.

Planos de longo prazo

Grandes empresas de tecnologia, como Microsoft, Google, Amazon, estão em uma corrida umas contra as outras para desenvolver assistentes virtuais independentes mais inteligentes para dar suporte a uma variedade de casos de uso de negócios, desde call centers a agentes de IA que podem realizar análises de sentimentos e ensinar novas habilidades a um indivíduo. O mercado global de processamento de linguagem natural (NLP), que inclui esses assistentes, deve crescer de US$ 26,4 bilhões em 2022 para US$ 161,8 bilhões em 2029, de acordo com um relatório da Fortune Business Insights.

Pesquisadores da Meta pareciam sugerir que o sucesso de Cicero no Diplomacy supera os recursos de outros assistentes virtuais disponíveis hoje, dizendo em uma postagem no blog: “Por exemplo, os atuais assistentes de IA podem concluir tarefas simples de perguntas e respostas, como informar o clima – mas e se eles pudessem manter uma conversa de longo prazo com o objetivo de lhe ensinar uma nova habilidade?”

Esta é uma cutucada em ferramentas como Google Duplex, Amazon Alexa, Xiaoice da Microsoft e Siri da Apple. Mas Cicero também não está apto a conversas de longo prazo, pois seu raciocínio é estritamente de curto prazo. Como os pesquisadores da Meta disseram no artigo da Science: “De uma perspectiva estratégica, Cicero raciocinou sobre o diálogo puramente em termos de ações dos jogadores para o turno atual. Ele não modelou como seu diálogo pode afetar o relacionamento com outros jogadores ao longo do jogo”.