Modelos TTT: a nova fase da IA generativa

llms, ia, dados, ouro, ttt

Pesquisadores de Stanford, UC San Diego, UC Berkeley e Meta estão explorando uma nova arquitetura de inteligência artificial que promete superar as limitações enfrentadas pelos tradicionais transformers.

Conhecidos como modelos TTT (test-time training), esses novos modelos foram desenvolvidos com o objetivo de processar grandes volumes de dados de maneira mais eficiente e econômica.

Os transformers desempenham um papel crucial na OpenAI, por exemplo, sendo a base de modelos avançados como o Sora, um gerador de vídeo de ponta desenvolvido pela empresa. No entanto, embora eficazes em tarefas de processamento de linguagem natural e geração de texto, eles enfrentam desafios significativos relacionados ao consumo de energia e demandas computacionais.

Leia também: 335 vagas para avançar na carreira em TI 

Além disso, os transformers são poderosos devido ao seu estado oculto, que armazena informações processadas. No entanto, esse estado também impõe limitações significativas, exigindo que o modelo reviste toda a informação para responder a qualquer pergunta, sobre um livro, por exemplo. Para resolver isso, os pesquisadores desenvolveram o modelo TTT, que substitui o estado oculto por um modelo de machine learning mais eficiente.

“Se você pensar em um transformer como uma entidade inteligente, então a tabela de consulta — seu estado oculto — é o cérebro do transformer”, disse Yu Sun, pós-doutorando em Stanford e colaborador na pesquisa, ao TechCrunch. “Esse cérebro especializado permite as bem conhecidas capacidades dos transformers, como o aprendizado em contexto”.

Porém, ao contrário dos transformers, o modelo TTT não aumenta de tamanho à medida que processa mais dados, codificando as informações em pesos representativos. Isso possibilita que os modelos TTT processem grandes volumes de dados, como palavras, imagens, áudio e vídeos, de maneira eficiente, indo além das capacidades dos modelos atuais.

“Nosso sistema pode dizer X palavras sobre um livro sem a complexidade computacional de reler o livro X vezes”, disse Sun ao TechCrunch. “Grandes modelos de vídeo baseados em transformers, como Sora, só podem processar 10 segundos de vídeo, porque eles só têm um ‘cérebro’ de tabela de consulta. Nosso objetivo final é desenvolver um sistema que possa processar um vídeo longo, semelhante à experiência visual de uma vida humana”.

Empresas como Mistral e AI21 Labs já estão explorando alternativas similares, como os modelos de espaço de estado (SSMs), em busca de eficiência comparável ou superior aos transformers, segundo o TechCrunch.

Embora o potencial dos modelos TTT seja promissor, Mike Cook, professor sênior do King’s College London, especialista ouvido pela reportagem, alerta que são necessárias mais pesquisas para validar a eficiência do modelo em relação às arquiteturas existentes. “Um professor antigo meu costumava contar uma piada quando eu era um graduando: Como você resolve qualquer problema em ciência da computação? Adicione mais uma camada de abstração. Adicionar uma rede neural dentro de uma rede neural definitivamente me lembra disso”, comentou ele à reportagem do TechCrunch.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!