Incerteza regulatória lança sombra sobre a IA generativa apesar do ritmo de adoção

30 de agosto de 2023 tutoriaisweb

Empresas e seus fornecedores de tecnologia estão em uma corrida para adicionar capacidades de IA Generativa (IA gen) às ferramentas e plataformas. No entanto, avançar rápido demais pode expor as empresas a riscos atuais e futuros de conformidade, bem como a possíveis responsabilidades legais.

Enquanto a IA tem se incorporado gradualmente ao vocabulário das empresas ao longo de muitos anos, a IA gen não apenas se tornou uma força própria, mas também um acelerador geral de IA. No entanto, não sem sinais de alerta.

A IA gen tem o potencial de amplificar riscos existentes em torno das leis de privacidade de dados que regulam como dados sensíveis são coletados, usados, compartilhados e armazenados. Ela também pode expor empresas a futuras legislações. Em resposta, embora com um certo atraso, surge um maior escrutínio.

A Europa, por exemplo, está se atualizando com seu AI Act [Lei de IA], que agora aborda a IA gen, apesar de a lei ter sido proposta antes do advento da IA gen. E então temos os processos judiciais. Vários fornecedores de IA gen, incluindo OpenAI, Microsoft, Midjourney, Stable Diffusion e outros, enfrentaram processos judiciais. Essas reclamações, movidas por diversos detentores de direitos autorais, alegam que as empresas treinaram suas IAs com dados protegidos por direitos autorais – como imagens, código e texto.

Além disso, há audiências no Congresso e petições para pausar o desenvolvimento de IA, incluindo a IA gen. Qualquer uma dessas ações poderia potencialmente pressionar reguladores ou legisladores a impor limites em seu uso.

Mesmo cidades individuais estão entrando na ação. Em julho, por exemplo, a cidade de Nova York começou a aplicar novas regras sobre o uso de IA em decisões de contratação. Essas regras exigem que as ferramentas de tomada de decisão automatizada passem por auditorias de viés e que os candidatos a emprego sejam notificados sobre seu uso. Regras similares estão em consideração em Nova Jersey, Maryland, Illinois e Califórnia.

“Este é um tópico muito quente”, diz Eric Vandevelde, Copresidente de IA e Sócio do escritório de advocacia Gibson, Dunn & Crutcher. “Estamos sendo bombardeados com perguntas e consultas de clientes e potenciais clientes sobre os riscos da IA”.

Não é surpresa, então, que de acordo com uma pesquisa da KPMG em junho, a incerteza regulatória foi a principal barreira para implementar a IA gen. Na verdade, 77% dos CEOs de grandes empresas disseram que a incerteza regulatória impacta suas decisões de implantação da IA gen, e 41% dizem que estão fazendo uma pausa curta de três a seis meses para monitorar o cenário regulatório.

Aqui estão algumas das estratégias que as organizações estão usando para implantar a IA gen diante da incerteza regulatória.

O caminho mais lento para a IA

Algumas empresas, especialmente aquelas em setores regulamentados, estão sendo cautelosas em relação ao uso da IA gen e estão implantando-a apenas em áreas com menos risco.

“Na verdade, fui abordado por uma empresa que vai carregar todos os registros médicos e contas de nossos clientes e formular cartas de demanda”, diz Robert Fakhouri, fundador do The Fakhouri Firm, um escritório de advocacia de danos pessoais com sede em Chicago. A ideia é que, ao gerar as cartas usando IA, haverá menos necessidade de funcionários humanos.

“Decidi não entrar nisso”, ele diz. “Já tenho preocupações suficientes sobre o fato de estarmos armazenando informações médicas. Não vou enviar essas informações para outro serviço. O risco é muito alto”.

A empresa também proíbe os funcionários de usar o ChatGPT para escrever cartas para os clientes. Mas há um caso de uso de baixo risco em que a IA gen é permitida, diz ele. “Quando se trata do ChatGPT, a única utilização em minha prática é a maneira como abordamos a criação de nossa estratégia de marketing nas redes sociais – obtendo ideias, gerando scripts, vendo o que ele pode nos fornecer como inspiração para novo conteúdo. Mas gostaria de ver mais legislação e orientações em vigor, especialmente para registros médicos”.

Muitas empresas estão implantando a IA em casos de uso de menor risco primeiro, diz Kjell Carlsson, Chefe de Estratégia e Evangelismo de Ciência de Dados na Domino Data Lab.

“A maioria das empresas com as quais estou conversando está aprimorando os usuários internos”, diz ele. “Se eu sou uma empresa de energia, quero tornar possível para as pessoas aproveitarem levantamentos geológicos e relatórios que são difíceis de percorrer”.

Com a IA, seus usuários podem ter assistentes de pesquisa extremamente inteligentes.

“Agora tenho capacidades de sumarização, acesso ao melhor bibliotecário de pesquisa do mundo e um gerador de texto de primeira versão para muitas coisas que quero fazer”, ele diz.

Governança de Dados

No desenvolvimento tradicional de aplicativos, as empresas precisam ter cuidado para não permitir que os usuários finais acessem dados aos quais não têm permissão para ver. Por exemplo, em um aplicativo de RH, um funcionário pode ter permissão para ver suas próprias informações salariais e benefícios, mas não as de outros funcionários. Se essa ferramenta for ampliada ou substituída por um chatbot de RH alimentado por IA gerativa, então será necessário ter acesso ao banco de dados de funcionários para que possa responder às perguntas dos usuários. Mas como a empresa pode ter certeza de que a IA não revelará tudo o que sabe a qualquer pessoa que pergunte?

Isso é especialmente importante para chatbots voltados para o cliente que podem ter que responder a perguntas sobre transações financeiras ou registros médicos dos clientes. Proteger o acesso a dados sensíveis é apenas uma parte do quadro de governança de dados.

“Você precisa saber de onde vêm os dados, como são transformados e quais são as saídas”, diz Nick Amabile, CEO da DAS42, uma empresa de consultoria de dados. “As empresas em geral ainda estão tendo problemas com a governança de dados”.

E com modelos de linguagem grandes (LLMs), a governança de dados está em sua infância.

“Ainda estamos nas fases piloto de avaliação dos LLMs”, diz ele. “Alguns fornecedores começaram a falar sobre como vão adicionar recursos de governança às suas plataformas. Treinamento, implantação, operações, teste – muitos desses recursos simplesmente ainda não estão disponíveis”.

À medida que as empresas amadurecem em sua compreensão e uso da IA gerativa, elas terão que implementar salvaguardas, diz Juan Orlandini, CTO, América do Norte, na Insight, uma integradora de soluções sediada no Arizona (EUA). Isso pode incluir aprender a verificar se os controles corretos estão em vigor, se os modelos estão isolados e se estão sendo usados adequadamente, diz ele.

“Quando criamos nossa própria política de IA gerativa, criamos nossa própria instância do ChatGPT e a implantamos para todos os nossos 14.000 colegas globalmente”, diz ele. A Insight usou o Azure OpenAI Service para isso.

A empresa também está treinando seus funcionários sobre como usar a IA com segurança, especialmente ferramentas que ainda não foram avaliadas e aprovadas para uso seguro. Por exemplo, os funcionários devem tratar essas ferramentas da mesma forma que tratariam qualquer plataforma de mídia social, onde qualquer pessoa poderia potencialmente ver o que você posta.

“Você colocaria a previsão de vendas do seu cliente no Facebook? Provavelmente não”, diz Orlandini.

Camadas de controle

Não há garantia de que um modelo de IA gerativa não produza resultados enviesados ou perigosos. A maneira como esses modelos são projetados é criar novo material, e a mesma solicitação pode produzir um resultado diferente a cada vez. Isso é muito diferente do software tradicional, onde um conjunto específico de entradas resultaria em um conjunto previsível de saídas.

“Os testes apenas mostrarão a presença de erros, não a ausência”, diz Martin Fix, Diretor de Tecnologia da Star, uma empresa de consultoria de tecnologia. “A IA é uma caixa preta. Tudo o que você tem são métodos estatísticos para observar a saída e medi-la, e não é possível testar toda a área de capacidade da IA”.

Isso ocorre porque os usuários podem inserir qualquer prompt que possam imaginar em um LLM, e os pesquisadores têm encontrado novas maneiras de enganar as IAs para realizar ações questionáveis há meses, um processo conhecido como “jailbreaking” das IAs.

Algumas empresas também estão considerando o uso de outras IAs para testar os resultados em busca de saídas arriscadas, ou utilizando ferramentas de prevenção de perda de dados e outras ferramentas de segurança para impedir que os usuários insiram dados sensíveis nos prompts em primeiro lugar.

“É possível reduzir os riscos combinando diferentes tecnologias, criando camadas de segurança e proteção”, diz Fix.

Isso será especialmente importante se uma IA estiver sendo executada dentro de uma empresa e tiver acesso a grandes quantidades de dados corporativos.

“Se uma IA tiver acesso a tudo isso, pode divulgar tudo isso”, diz ele. “Portanto, é necessário ser muito mais rigoroso na segurança do sistema e colocar quantas camadas forem necessárias”.

A abordagem de código aberto

Sistemas comerciais de IA, como o ChatGPT da OpenAI, são como as caixas-pretas descritas por Fix: as empresas têm pouca visibilidade sobre os dados de treinamento utilizados, como são ajustados, que informações são incorporadas ao treinamento contínuo, como a IA realmente toma suas decisões e como todos os dados envolvidos são protegidos. Em setores altamente regulamentados, em particular, algumas empresas podem relutar em correr riscos com esses sistemas opacos. No entanto, uma opção é usar software de código aberto. Existem vários modelos, com várias licenças, atualmente disponíveis ao público. Em julho, essa lista foi significativamente expandida quando a Meta lançou o Llama 2, um LLM de qualidade empresarial disponível em três tamanhos diferentes, permitido para uso comercial e completamente gratuito para as empresas – pelo menos para aplicações com menos de 700 milhões de usuários ativos mensais.

As empresas podem baixar, instalar, ajustar e executar o Llama 2 por conta própria, em sua forma original ou em uma de suas muitas variações, ou usar sistemas de IA de terceiros baseados no Llama 2.

Por exemplo, a empresa de saúde do paciente Aiberry utiliza modelos de código aberto personalizados, incluindo Flan-T5, Llama 2 e Vicuna, conforme afirma Michael Mullarkey, Cientista de Dados Clínicos Sênior da empresa.

Os modelos são executados dentro da infraestrutura de dados segura da Aiberry, ele afirma, e são ajustados para funcionar de maneira que atenda às necessidades da empresa. “Isso parece estar funcionando bem”, diz ele.

A Aiberry possui um conjunto de dados que utiliza para treinar, testar e validar esses modelos, que tentam antecipar o que os clínicos precisam e fornecem informações antecipadas com base em avaliações das informações de triagem do paciente.

“Para outras partes dos nossos fluxos de trabalho que não envolvem dados sensíveis, usamos o ChatGPT, Claude e outros modelos comerciais”, acrescenta.

Executar software de código aberto localmente ou em nuvens privadas pode ajudar a reduzir riscos, como a perda de dados, e permitir que as empresas cumpram regulamentações de soberania de dados e privacidade. No entanto, o software de código aberto também apresenta seus próprios riscos, especialmente à medida que o número de projetos de IA se multiplica nos repositórios de código aberto. Isso inclui riscos de cibersegurança. Em algumas indústrias regulamentadas, as empresas precisam ter cuidado com o código de código aberto que executam em seus sistemas, o que pode resultar em violações de dados, violações de privacidade ou em decisões tendenciosas ou discriminatórias que podem gerar responsabilidades regulatórias.

De acordo com o relatório de segurança de código aberto da Synopsys, lançado em fevereiro, 84% dos códigos-fonte de código aberto em geral contêm pelo menos uma vulnerabilidade.

“O código ou aplicativos de código aberto têm sido explorados para causar muitos danos”, afirma Alla Valente, Analista da Forrester Research.

Por exemplo, a vulnerabilidade Log4Shell, corrigida no final de 2021, ainda estava recebendo meio milhão de solicitações de ataque por dia no final de 2022.

Além das vulnerabilidades, o código de código aberto também pode conter código malicioso e backdoors, e modelos de IA de código aberto podem potencialmente ser treinados ou ajustados com conjuntos de dados contaminados.

“Se você é uma empresa, sabe melhor do que apenas pegar algo que encontrou de código aberto e inseri-lo em seus sistemas sem nenhum tipo de proteção”, diz Valente.

As empresas precisarão estabelecer controles para modelos de IA semelhantes aos que já têm para outros projetos de software, e as equipes de segurança da informação e conformidade precisam estar cientes do que as equipes de ciência de dados estão fazendo.

Além dos riscos de segurança, as empresas também precisam ter cuidado com a origem dos dados de treinamento para os modelos, acrescenta Valente. “Como esses dados foram obtidos? Foi legal e ético?” Um lugar onde as empresas podem procurar orientação é na carta que a FTC enviou para a OpenAI.

De acordo com um relatório no Washington Post, a carta pede à OpenAI que explique como obtêm os dados de treinamento para seus LLMs, avaliam os dados e testam se os modelos geram declarações falsas, enganosas ou difamatórias, ou geram informações precisas e identificáveis sobre indivíduos.

Na ausência de estruturas mandatadas pelo governo federal, essa carta oferece às empresas um ponto de partida, diz Valente. “E definitivamente antecipa o que está por vir se houver regulamentação federal”.

Se uma ferramenta de IA for usada para redigir uma carta sobre os registros financeiros ou histórico médico de um cliente, a solicitação contendo essas informações sensíveis será enviada para uma IA para processamento. Com um chatbot público como o ChatGPT ou o Bard, é impossível para uma empresa saber exatamente onde essa solicitação será processada, potencialmente entrando em conflito com os requisitos nacionais de residência de dados.

As empresas já têm várias maneiras de lidar com o problema, diz Nick Amabile, CEO da DAS42, uma empresa de consultoria de dados que ajuda empresas com questões de residência de dados.

“Estamos vendo muitos fornecedores empresariais confiáveis entrando nesse espaço”, diz ele. “Em vez de trazer os dados para a IA, estamos trazendo a IA para os dados”.

E provedores de serviços em nuvem como a AWS e a Azure oferecem infraestrutura baseada em geolocalização aos seus usuários há muito tempo. O serviço Azure OpenAI da Microsoft, por exemplo, permite que os clientes armazenem dados na fonte de dados e na localização que designarem, sem que os dados sejam copiados para o próprio serviço Azure OpenAI. Fornecedores de dados como Snowflake e Databricks, que historicamente se concentraram em ajudar empresas com as implicações de privacidade, residência e conformidade do gerenciamento de dados, também estão entrando no espaço da IA gerativa.

“Estamos vendo muitos fornecedores oferecendo isso em cima de suas plataformas”, diz Amabile.

Identificando a indenização

Alguns fornecedores, compreendendo que as empresas estão receosas em relação a modelos de IA arriscados, estão oferecendo indenização.

Por exemplo, as AIs geradoras de imagens, que têm sido populares há alguns meses a mais do que os grandes modelos de linguagem, foram acusadas de violar direitos autorais em seus dados de treinamento.

Enquanto os processos judiciais estão em andamento, a Adobe, a Shutterstock e outras plataformas amigáveis para empresas têm implantado IAs treinadas apenas em dados totalmente licenciados ou em dados de domínio público.

Além disso, em junho, a Adobe anunciou que iria indenizar as empresas pelo conteúdo gerado por IA, permitindo que as implantassem com confiança em toda a organização.

Outros fornecedores corporativos, incluindo Snowflake e Databricks, também oferecem vários graus de indenização aos seus clientes. Em seus termos de serviço, por exemplo, a Snowflake se compromete a defender seus clientes contra quaisquer alegações de terceiros de que os serviços infrinjam qualquer direito de propriedade intelectual desse terceiro.

“Os fornecedores existentes com os quais estou trabalhando hoje, como Snowflake e Databricks, estão oferecendo proteção aos seus clientes”, diz Amabile. Quando ele adquire seus modelos de IA por meio de seus contratos existentes com esses fornecedores, todas as mesmas disposições de indenização estão em vigor.

“Isso é realmente um benefício para as empresas”, diz ele. “E um benefício de trabalhar com alguns fornecedores estabelecidos”.

Atenção em nível de diretoria

De acordo com Eric Vandevelde, da Gibson, Dunn & Crutcher, a IA requer atenção em nível de diretoria.

“Isso não é apenas um problema do CIO ou do diretor de privacidade”, ele diz. “Isso é um problema de toda a empresa que precisa ser enfrentado desde a diretoria até a base”.

Essa é a mesma trajetória que a cibersegurança e a privacidade seguiram, e a indústria está apenas no início da jornada, diz ele.

“Há 15 anos, era estranho para os conselhos de administração pensarem em privacidade, terem diretores de privacidade e terem privacidade no nível de design de produtos e serviços”, diz ele. “A mesma coisa vai acontecer com a IA”.

E pode ser que isso precise acontecer mais rápido do que está acontecendo atualmente, acrescenta.

“Os novos modelos são muito diferentes em termos de seu poder, e a consciência pública vê isso”, diz ele. “Isso surgiu em todas as facetas das regulamentações, legislações e ações governamentais. Seja justo ou não, houve críticas de que as regulamentações em torno da privacidade de dados e segurança de dados foram muito lentas, então os reguladores estão buscando se mover muito mais rapidamente para se estabelecerem e estabelecerem sua autoridade”.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!