Modelos da OpenAI “decoraram” conteúdos protegidos por direitos autorais, aponta estudo

Ecrã de um smartphone com a interface do ChatGPT aberta, mostrando exemplos, capacidades e limitações da ferramenta, com um teclado de computador visível ao fundo.

Uma nova pesquisa reforça as suspeitas de que a OpenAI teria utilizado materiais protegidos por direitos autorais, como livros e reportagens, para treinar seus modelos de inteligência artificial (IA), sem a devida autorização dos autores.

A empresa está no centro de uma série de processos movidos por escritores, programadores e outros criadores, que acusam a companhia de ter se apropriado de suas obras para alimentar modelos como o GPT-4.

A OpenAI, por sua vez, se defende com o argumento do “uso justo” (fair use), embora especialistas e autores contestem essa justificativa, lembrando que a legislação de direitos autorais dos EUA não prevê exceções específicas para dados usados em treinamentos de IA.

O estudo, desenvolvido por pesquisadores das universidades de Washington, Copenhague e Stanford, propõe um novo método para detectar casos de memorização de dados por modelos de linguagem, inclusive aqueles acessados apenas via API, como os da OpenAI.

Reprodução idêntica

Embora os modelos de IA sejam, na essência, mecanismos de previsão capazes de gerar textos, imagens e outros conteúdos com base em padrões aprendidos, parte do material de saída pode, sim, reproduzir trechos idênticos ao que foi visto durante o treinamento.

Já se observou, por exemplo, modelos de imagem repetindo cenas de filmes usados nos dados de treinamento e modelos de texto recriando quase literalmente reportagens jornalísticas.

Leia mais: NR-1, IA e estratégia: o que uma norma do Ministério do Trabalho tem a ver com inteligência artificial

A nova técnica se baseia na ideia de “palavras de alta surpresa”, termos pouco prováveis num determinado contexto. Ao mascarar essas palavras em trechos de livros de ficção ou de reportagens do New York Times e pedir para que o modelo preenchesse as lacunas, os pesquisadores conseguiram medir se a IA estava simplesmente prevendo com base em padrões ou se estava reproduzindo o texto de memória. Quando a IA acerta essas palavras incomuns com frequência, é sinal de que o conteúdo pode ter sido memorizado.

Os testes foram feitos com o GPT-3.5 e o GPT-4, e os resultados indicam que o modelo mais recente apresenta sinais claros de ter memorizado partes de livros populares — incluindo obras presentes no conjunto de dados BookMIA, que reúne trechos de e-books protegidos por copyright. Também foram encontrados indícios de memorização de reportagens do New York Times, embora com menor intensidade.

Para Abhilasha Ravichander, doutoranda na Universidade de Washington e coautora do estudo, os achados levantam um alerta importante sobre o tipo de conteúdo que pode estar sendo usado no treinamento de modelos de IA.

“Se queremos confiar nessas tecnologias, precisamos de modelos auditáveis, transparentes, que possam ser examinados com rigor científico”, disse Ravichander ao TechCrunch. “Nosso estudo é uma tentativa de oferecer uma ferramenta para isso, mas é urgente que todo o ecossistema avance em transparência sobre os dados.”

A OpenAI, por sua vez, tem pressionado por uma flexibilização das regras sobre o uso de obras protegidas no treinamento de IA. A empresa já firmou alguns acordos de licenciamento e permite que criadores solicitem a exclusão de seus conteúdos dos datasets, mas também atua junto a governos para tentar consolidar legalmente o conceito de “uso justo” nesse contexto.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

*informações retiradas do Tech Crunch