Anthropic lança modelo de IA capaz de controlar aplicativos de desktop
A Anthropic anunciou o lançamento de uma versão atualizada de seu modelo de inteligência artificial, o Claude 3.5 Sonnet, que possui a capacidade de controlar aplicativos de desktop. O modelo é capaz de realizar ações como cliques e movimentos de mouse, além de interagir com softwares de forma automatizada. A novidade faz parte da iniciativa da empresa de criar assistentes virtuais mais avançados, capazes de automatizar tarefas de pesquisa, envio de e-mails e outras funções administrativas.
O novo modelo 3.5 Sonnet da Anthropic foi desenvolvido com a API “Computer Use”, atualmente em fase de beta aberto, permitindo que a IA imite interações humanas em um computador, como se estivesse fisicamente presente. Com a introdução da “camada de execução de ações”, o 3.5 Sonnet pode executar comandos diretamente no desktop e navegar na web, algo inédito para a empresa. Essa tecnologia permite que a IA interaja com qualquer site ou aplicativo, transformando os prompts dos usuários em ações como mover o cursor ou digitar.
Leia também: TI no Brasil: setor em expansão, mas com carência de profissionais
“Treinamos o Claude para ver o que está acontecendo na tela e, em seguida, usar as ferramentas de software disponíveis para realizar tarefas”, escreveu a Anthropic em um post de blog compartilhado com o TechCrunch. “Quando um desenvolvedor solicita ao Claude que use um software específico e lhe concede o acesso necessário, o Claude analisa capturas de tela do que está visível para o usuário e, em seguida, calcula quantos pixels ele precisa mover vertical ou horizontalmente para posicionar o cursor no local correto”.
Os desenvolvedores podem testar o recurso Computer Use utilizando a API da Anthropic, o Amazon Bedrock e a plataforma Vertex AI do Google Cloud. A nova versão do modelo 3.5 Sonnet, sem a funcionalidade Computer Use, está sendo disponibilizada para os aplicativos Claude, trazendo diversas melhorias de desempenho em comparação com o modelo anterior, segundo a empresa.
“Os humanos permanecem no controle ao fornecer prompts específicos que direcionam as ações do Claude, como ‘use os dados do meu computador e da internet para preencher este formulário’”, disse um porta-voz da Anthropic ao TechCrunch. “As pessoas habilitam o acesso e limitam o acesso conforme necessário. O Claude divide os prompts do usuário em comandos de computador (por exemplo, mover o cursor, clicar, digitar) para realizar aquela tarefa específica”.
Algumas empresas já estão testando o modelo para automação de processos. A Replit, por exemplo, está utilizando o Claude 3.5 Sonnet para criar verificadores autônomos que avaliam aplicativos em desenvolvimento. Já a Canva explora como o novo modelo pode ser usado para apoiar processos de design e edição, de acordo com a TechCrunch.
A Anthropic afirma que o 3.5 Sonnet é mais robusto e supera o modelo da OpenAI em tarefas de codificação, segundo o benchmark SWE-bench Verified. Embora não tenha sido treinado especificamente para isso, o 3.5 Sonnet se autocorrige e repete tarefas, lidando com objetivos complexos de várias etapas. No entanto, apesar de seus avanços, o modelo ainda enfrenta alguns desafios em tarefas mais simples. Testes indicam que ele tem dificuldades em executar ações básicas, como rolar a página ou lidar com notificações temporárias, o que compromete a eficiência em algumas situações, segundo a publicação. Em um teste de reserva de voos, por exemplo, a IA completou menos da metade das tarefas com sucesso.
A Anthropic reconheceu esses problemas e afirmou que o modelo ainda é lento e propenso a erros. A empresa recomendou que os desenvolvedores comecem a explorar o uso da IA em tarefas de baixo risco. Além disso, a Anthropic ressaltou que está adotando medidas para evitar o uso indevido da IA, incluindo a retenção de capturas de tela por 30 dias como parte de sua estratégia de mitigação de riscos.
Em paralelo, a Anthropic revelou que uma versão mais barata e eficiente, chamada Claude 3.5 Haiku, será lançada nas próximas semanas. Esse modelo promete oferecer desempenho semelhante ao Claude 3 Opus, mas com menor custo e latência, sendo voltado para produtos voltados ao usuário e tarefas automatizadas.
*Com informações do TechCrunch
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!