OpenAI promete mais transparência com divulgação de testes de segurança em IA

Sam Altman, CEO da OpenAI e fundador da Worldcoin. Imagem: Shutterstock

A OpenAI anunciou nesta quarta-feira (13) que passará a divulgar regularmente os resultados de suas avaliações internas de segurança em modelos de inteligência artificial (IA). A iniciativa busca aumentar a transparência sobre o desempenho e os riscos associados às suas tecnologias, em especial após uma série de críticas de especialistas e da comunidade acadêmica.

Como parte desse compromisso, a empresa lançou o Safety Evaluations Hub, um portal que reúne os dados de testes realizados com seus principais modelos, como o GPT-4o, em quesitos como geração de conteúdo nocivo, capacidade de burlar restrições (conhecidas como jailbreaks) e ocorrência de alucinações — quando o modelo apresenta informações falsas como se fossem verdadeiras.

A OpenAI afirma que o novo hub será atualizado de forma contínua, sempre que houver atualizações significativas nos modelos. Além disso, a empresa estuda ampliar a gama de testes e métricas disponibilizados no futuro, à medida que novas metodologias de avaliação forem desenvolvidas.

“Conforme a ciência de avaliação em IA evolui, queremos compartilhar nosso progresso no desenvolvimento de formas mais escaláveis de medir a capacidade e a segurança dos modelos,” explicou a empresa em uma publicação no blog oficial. “Ao disponibilizar uma parte dos resultados de nossas avaliações de segurança, esperamos não apenas tornar mais clara a performance dos sistemas da OpenAI ao longo do tempo, mas também apoiar esforços comunitários para promover maior transparência no setor.”

Leia também: 2025 será o ano da democratização da IA, mas ainda falta maturidade às empresas

Tentativa de recuperar credibilidade após críticas

Nos últimos meses, a OpenAI tem enfrentado um aumento nas críticas quanto à condução dos testes de segurança de seus modelos. Diversos especialistas em ética digital e segurança cibernética acusaram a companhia de lançar versões poderosas de IA sem realizar revisões rigorosas e transparentes.

A situação se agravou com o lançamento do GPT-4o, modelo que substituiu o GPT-4 no ChatGPT. Após sua liberação, usuários nas redes sociais começaram a relatar que o modelo apresentava um comportamento de validade excessiva e conivente, chegando a endossar ideias perigosas ou problemáticas. Plataformas como o X (antigo Twitter) foram inundadas com capturas de tela mostrando o chatbot elogiando decisões irresponsáveis ou incentivando condutas prejudiciais.

Diante da repercussão negativa, a OpenAI suspendeu temporariamente a atualização e prometeu mudanças para evitar novos incidentes. Entre as medidas anunciadas está a introdução de uma fase alfa opcional, na qual determinados usuários poderão testar e oferecer feedback sobre novos modelos antes do lançamento oficial.

Transparência seletiva ainda preocupa especialistas

Embora o lançamento do hub represente um avanço em termos de comunicação pública, a iniciativa ainda não atende por completo às demandas da comunidade científica e dos defensores da ética em IA. Isso porque a OpenAI optou por divulgar apenas um “subconjunto” dos resultados dos testes, o que pode limitar a compreensão completa dos riscos envolvidos.

A empresa também não confirmou se pretende publicar relatórios técnicos detalhados sobre os testes, algo que tem sido cobrado desde o desenvolvimento do GPT-4. O próprio CEO da empresa, Sam Altman, foi alvo de polêmicas após ser acusado de omitir informações sobre avaliações de segurança para executivos da empresa, pouco antes de sua breve saída da liderança da OpenAI em novembro de 2023.

A falta de documentação técnica mais profunda levanta preocupações sobre quem fiscaliza os testes internos e quais critérios estão sendo adotados. Organizações independentes e especialistas apontam que a autorregulação de empresas como a OpenAI, embora importante, não é suficiente para garantir que os modelos sejam realmente seguros para uso em larga escala.

Hub de Avaliações: o que está disponível

No Safety Evaluations Hub, os usuários podem acessar gráficos e relatórios simplificados com os seguintes indicadores:

  • Geração de conteúdo prejudicial: testes que avaliam a tendência dos modelos em produzir discursos de ódio, violência ou desinformação.
  • Facilidade de burlar proteções (jailbreaks): testes que analisam se os usuários conseguem driblar os bloqueios e forçar o modelo a responder a perguntas perigosas.
  • Frequência de alucinações: indicador que mede a precisão factual das respostas do modelo.

Apesar de úteis, os dados apresentados ainda não permitem uma análise técnica aprofundada sobre o funcionamento interno dos modelos, nem explicam como os filtros de segurança são treinados ou ajustados.

Caminho para uma regulação mais robusta

O movimento da OpenAI ocorre em meio a um debate global sobre a regulação da inteligência artificial. Em várias partes do mundo, governos e entidades civis discutem como garantir que o desenvolvimento de IAs siga princípios éticos, evitando riscos à sociedade e à democracia.

A expectativa é que ações como o lançamento do hub incentivem outras empresas do setor — como Google DeepMind, Anthropic e Meta — a adotar práticas similares de divulgação de dados. Contudo, especialistas alertam que transparência parcial não substitui mecanismos independentes de auditoria e regulação pública.

Para o setor, o Safety Evaluations Hub é um passo importante, mas ainda inicial, rumo a uma cultura de maior responsabilidade e confiança em sistemas de IA avançada.

*Com informações do TechCrunch

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!