O que é a IA generativa?

9 de agosto de 2023 tutoriaisweb

A IA generativa é uma forma de inteligência artificial que é capaz de criar novos conteúdos, incluindo texto, imagens, áudio e vídeo, com base em padrões aprendidos a partir de conteúdos existentes. Os modelos de IA generativa atuais foram treinados com enormes volumes de dados utilizando aprendizado profundo, ou redes neurais profundas, e podem realizar conversas, responder a perguntas, escrever histórias, produzir código-fonte e criar imagens e vídeos de qualquer descrição, tudo com base em breves inputs de texto – ou “solicitações”.

A IA generativa é chamada de generativa porque ela cria algo que não existia anteriormente. Isso a diferencia da IA discriminativa, que faz distinções entre diferentes tipos de entrada. Para explicar de forma diferente, a IA discriminativa tenta responder a perguntas como “Esta imagem é um desenho de um coelho ou de um leão?”, enquanto a IA generativa responde a solicitações como “Desenhe uma imagem de um leão e um coelho sentados lado a lado”.

Este artigo apresenta a você a inteligência artificial generativa e seus usos com modelos populares como oChatGPT e o DALL-E. Também vamos considerar as limitações da tecnologia, incluindo o motivo pelo qual “o número de dedos” se tornou uma pista reveladora para arte gerada artificialmente.

A emergência da IA generativa

A IA generativa existe há anos, possivelmente desde a ELIZA, um chatbot que simula uma conversa com uma terapeuta e foi desenvolvido no MIT em 1966. Mas anos de trabalho em IA e machine learning chegaram a um ponto de destaque com o lançamento de novos sistemas de IA generativa. Você certamente já ouviu falar sobre o ChatGPT, um chatbot baseado em texto que produz conversas bastante parecidas com as de um ser humano. O DALL-E e o Stable Diffusion também chamaram a atenção por suas capacidades de criar imagens vibrantes e realistas com base em instruções de texto.

Os conteúdos criados por esses sistemas são tão surpreendentemente realistas que muitas pessoas estão fazendo perguntas filosóficas sobre a natureza da consciência – e ficando preocupadas com o impacto econômico da IA generativa nos empregos humanos. Mas, embora todas essas criações de inteligência artificial sejam, inegavelmente, uma grande novidade, possivelmente há menos acontecendo por baixo da superfície do que alguns de nós supõe. Abordaremos algumas dessas questões mais amplas em breve. Mas, primeiro, vamos examinar o que está acontecendo nos bastidores.

Como funciona a IA generativa?

A IA generativa utiliza machine learning para processar uma enorme quantidade de dados visuais ou textuais, muitos dos quais são coletados da internet, e em seguida determina quais são as coisas mais propensas a aparecer próximas umas das outras. Grande parte do trabalho de programação da IA generativa consiste em criar algoritmos que possam distinguir as “coisas” de interesse para os criadores da IA – palavras e frases no caso de chatbots, como o ChatGPT, ou elementos visuais, para o DALL-E. Mas, fundamentalmente, a IA generativa cria conteúdo avaliando um enorme corpus de dados e, em seguida, respondendo a solicitações com algo que esteja dentro do domínio da probabilidade determinada por esse corpus.

O recurso de autocompletar – quando o seu celular ou o Gmail sugere qual será o complemento da palavra ou frase que você está digitando – é uma forma básica de IA generativa. O ChatGPT e o DALL-E apenas levam essa ideia a níveis significativamente mais avançados.

O que é um modelo de IA?

ChatGPT e DALL-E são interfaces para uma funcionalidade subjacente da IA, conhecida como um ‘modelo’. Um modelo de IA é uma representação matemática – implementada como um algoritmo ou como uma prática – que gera novos dados que se assemelharão (tudo dando certo) ao conjunto de dados já disponíveis. Às vezes, você verá o ChatGPT e o DALL-E referidos como modelos em si; estritamente falando, isso está incorreto, pois o ChatGPT é um chatbot que dá aos usuários acesso a várias versões diferentes do modelo subjacente, o GPT. No entanto, na prática, essas interfaces são como a maioria das pessoas interagirá com os modelos, então não se surpreenda ao ver os termos usados de forma intercambiável.

Os desenvolvedores de IA montam um corpus de dados do tipo que desejam que seus modelos gerem. Esse corpus é conhecido como conjunto de treinamento do modelo (“training set”), e o processo de desenvolvimento do modelo é chamado de treinamento (“training”). Por exemplo, os modelos GPT foram treinados em um enorme corpus de texto coletado da internet, e o resultado é que você pode alimentá-lo com perguntas em linguagem natural e ele responderá em inglês idiomático (ou em qualquer número de outros idiomas, dependendo da informação de entrada).

Os modelos de IA tratam diferentes características dos dados em seus conjuntos de treinamento como vetores – estruturas matemáticas compostas por vários números. Grande parte do segredo por trás desses modelos está em sua capacidade de traduzir informações do mundo real em vetores de maneira significativa e determinar quais vetores são similares uns aos outros de forma a permitir que o modelo gere saídas semelhantes, mas não idênticas, ao seu conjunto de treinamento.

Existem diversos tipos de modelos de IA, mas é importante ter em mente que as várias categorias não são necessariamente mutuamente exclusivas. Alguns modelos podem se encaixar em mais de uma categoria.

Provavelmente, o tipo de modelo de IA que mais está recebendo atenção pública hoje em dia é o dos grandes modelos de linguagem, conhecidos como LLMs. Os LLMs são baseados no conceito de um “transformer”, introduzido pela primeira vez no artigo “Attention Is All You Need“, de 2017, de pesquisadores do Google. Um “transformer” extrai significado de longas sequências de texto para entender como diferentes palavras ou componentes semânticos podem estar relacionados entre si, e então determina a probabilidade de ocorrerem próximos um do outro. Os modelos GPT são LLMs, sendo que o “T” significa “transformer”. Esses “transformers” são executados de forma não supervisionada em um vasto corpus de texto de linguagem natural, em um processo chamado de pré-treinamento (daí o “P” em GPT), antes de serem ajustados por seres humanos interagindo com o modelo.

A difusão é comumente usada em modelos de IA generativa que produzem imagens ou vídeos. No processo de difusão, o modelo adiciona ruído – basicamente, aleatoriedade – a uma imagem e, em seguida, o remove gradualmente de forma iterativa, ao mesmo tempo em que verifica, em relação ao seu conjunto de treinamento, para tentar corresponder a imagens semanticamente similares. A difusão é o cerne dos modelos de IA que fazer a mágica de texto para imagem, como o Stable Diffusion e o DALL-E.

Veja mais: IA generativa pode ser ferramenta essencial para pessoas com deficiência visual

Uma rede generativa adversarial, ou GAN, é baseada em um tipo de aprendizado por reforço, no qual dois algoritmos competem entre si. Um deles gera texto ou imagens com base em probabilidades derivadas de um grande conjunto de dados. O outro – uma IA discriminativa – avalia se a saída é real ou gerada por IA. A IA generativa tenta repetidamente “enganar” a IA discriminativa, adaptando-se automaticamente para favorecer resultados bem-sucedidos. Uma vez que a IA generativa consistentemente “vence” essa competição, a IA discriminativa é ajustada por seres humanos e o processo recomeça.

Uma das coisas mais importantes a serem lembradas aqui é que, embora haja intervenção humana no processo de treinamento, a maior parte da aprendizagem e adaptação acontece automaticamente. Muitas iterações são necessárias para fazer com que os modelos produzam resultados interessantes, por isso a automação é essencial. O processo é bastante intensivo em termos computacionais, e grande parte da recente explosão nas capacidades da IA tem sido impulsionada pelos avanços no poder de processamento das GPUs e pelas técnicas para implementar processamento paralelo nesses chips.

A IA generativa é senciente?

As matemáticas e codificações envolvidas na criação e treinamento dos modelos de IA generativa são bastante complexas e vão muito além do escopo deste artigo. Mas se você interagir com os modelos que são o resultado final desse processo, a experiência é definitivamente intrigante. Você pode fazer com que o DALL-E produza coisas que se parecem com obras de arte reais. Você pode ter conversas com o ChatGPT que parecem uma conversa com outro ser humano. Os pesquisadores realmente criaram uma máquina pensante?

Chris Phipps, ex-líder de Processamento de Linguagem Natural da IBM, que trabalhou nos produtos de IA do Watson, diz que não. Ele descreve o ChatGPT como uma “máquina de previsão muito boa”.

“Ele é muito bom em prever o que os humanos vão considerar coerente. Nem sempre é coerente (na maioria das vezes é), mas isso não acontece porque o ChatGPT ‘entende’. É o oposto: nós, humanos, que consumimos o resultado somos muito bons em fazer qualquer suposição implícita que precisamos para dar sentido ao resultado”, diz.

Phipps, que também é um comediante, faz uma comparação com um jogo de improviso comum chamado “Mind Meld“.

Duas pessoas pensam em uma palavra e a dizem em voz alta simultaneamente – você pode dizer “bota” e eu digo “árvore”. Nós chegamos a essas palavras completamente independentemente e, a princípio, elas não tinham nada a ver uma com a outra. Os próximos dois participantes pegam essas duas palavras e tentam encontrar algo que elas tenham em comum e dizem isso em voz alta ao mesmo tempo. O jogo continua até que dois participantes digam a mesma palavra.

Talvez duas pessoas digam “lenhador”. Parece mágica, mas na realidade nós usamos nossos cérebros humanos para raciocinar sobre as informações de entradaa (“bota” e “árvore”) e encontrar uma conexão. Nós fazemos o trabalho de compreensão, não a máquina. Há muito mais disso acontecendo com o ChatGPT e o DALL-E do que as pessoas estão admitindo. O ChatGPT pode escrever uma história, mas nós, humanos, fazemos muito trabalho para fazê-la fazer sentido.

Testando os limites da inteligência computacional

Certas solicitações que podemos fazer a esses modelos de IA deixam o ponto de Phipps bem evidente. Por exemplo, considere o enigma: “O que pesa mais, um quilo de chumbo ou um quilo de penas?” A resposta, é claro, é que ambos pesam o mesmo (um quilo), mesmo que nosso instinto ou senso comum possa nos dizer que as penas são mais leves.

O ChatGPT responderá corretamente a esse enigma, e você pode presumir que ele o faz porque é um computador friamente lógico que não tem “senso comum” para confundi-lo. Mas isso não é o que está acontecendo atrás das cortinas. O ChatGPT não está raciocinando logicamente para chegar à resposta; ele está apenas gerando o conteúdo com base em suas previsões do que deveria seguir uma pergunta sobre um quilo de penas e um quilo de chumbo. Como seu conjunto de treinamento inclui um monte de texto explicando o enigma, ele monta uma versão da resposta correta.

No entanto, se você perguntar ao ChatGPT se dois quilos de penas são mais pesados que um quilo de chumbo, ele responderá com confiança que eles pesam a mesma quantidade, porque essa ainda é a saída mais provável para uma solicitação sobre penas e chumbo, com base em seu conjunto de treinamento. Pode ser divertido dizer à IA que ela está errada e observá-la se esforçar na resposta; eu a fiz me pedir desculpas por seu erro e depois sugerir que dois quilos de penas pesam quatro vezes mais que um quilo de chumbo.

Por que a arte gerada por IA tem muitos dedos?

Uma característica notável da arte gerada por IA é que muitas vezes representa pessoas com mãos estranhamente bizarras. O “recurso de mãos estranhas” está se tornando um indicador comum de que a arte foi gerada artificialmente. Essa peculiaridade oferece mais insights sobre como a IA generativa funciona (ou não funciona). Começando pelo conjunto de dados que o DALL-E e outras ferramentas visuais de IA generativa semelhantes estão utilizando: as fotos de pessoas geralmente mostram bem seus rostos, mas suas mãos são frequentemente parcialmente obscurecidas ou mostradas em ângulos estranhos, de modo que você não pode ver todos os dedos de uma vez. Além disso, as mãos são estruturalmente complexas – elas são notoriamente difíceis até mesmo para pessoas, incluindo artistas treinados, desenharem. E uma coisa que o DALL-E não faz é montar um elaborado modelo 3D das mãos com base nas várias representações 2D em seu conjunto de treinamento. Não é assim que funciona. O DALL-E nem sequer necessariamente sabe que “mãos” é uma categoria coerente de coisa para ser raciocinada. Tudo o que ele pode fazer é tentar prever, com base nas imagens que possui, como uma imagem semelhante poderia ser. Apesar de enormes quantidades de dados de treinamento, essas previsões frequentemente não correspondem à realidade.

Veja também: IA acabará com esses empregos – mas criará outros também

Phipps especula que um dos fatores é a falta de entrada negativa: “Na maior parte do tempo, o treinamento é baseado em exemplos positivos, pelo que eu sei. Eles não forneceram uma imagem de uma mão com sete dedos e disseram: ‘NÃO! Mau exemplo de uma mão. Não faça isso’. Então, ele prevê o espaço do possível, não o espaço do impossível. Basicamente, nunca foi instruído a não criar uma mão com sete dedos”.

Há também o fator de que esses modelos não veem os desenhos que estão fazendo como um todo coerente; em vez disso, eles montam uma série de componentes que provavelmente estarão próximos uns dos outros, conforme mostrado pelos dados de treinamento. O DALL-E pode não saber que uma mão deve ter cinco dedos, mas sabe que um dedo provavelmente estará imediatamente ao lado de outro dedo. Então, às vezes, ele simplesmente continua adicionando dedos. (Você pode obter os mesmos resultados com dentes.) Na verdade, até mesmo essa descrição do processo do DALL-E provavelmente está antropomorfizando demais; como Phipps diz, “duvido que ele tenha até mesmo o entendimento de um dedo. É mais provável que esteja prevendo a cor do pixel, e pixels com a cor de dedos tendem a estar ao lado de outros pixels com a cor de dedos”.

Potenciais impactos negativos da IA generativa

Esses exemplos mostram uma das principais limitações da IA generativa: o que os profissionais da indústria chamam de “alucinações“, que é um termo talvez enganoso para conteúdos gerados que, pelos padrões dos humanos que a utilizam, são falsos ou incorretos. Todos os sistemas de computador ocasionalmente produzem erros, é claro, mas esses erros são particularmente problemáticos porque os usuários finais provavelmente não os perceberão facilmente: se você está fazendo uma pergunta a um chatbot de IA em produção, geralmente não saberá a resposta você mesmo. Você também é mais propenso a aceitar uma resposta entregue em prosa confiante e totalmente idiomática, como a produzida pelo ChatGPT e outros modelos similares, mesmo que a informação esteja incorreta.

Mesmo que uma IA generativa pudesse produzir conteúdos sem alucinações, existem diversos potenciais impactos negativos:

Criação de conteúdo barata e fácil: Espero que agora esteja claro que o ChatGPT e outras IAs generativas não são mentes reais capazes de produzir conteúdos criativos ou insights. Mas a verdade é que nem tudo que é escrito ou desenhado precisa ser particularmente criativo. Muitos trabalhos de pesquisa em nível de ensino médio ou graduação universitária visam apenas sintetizar dados publicamente disponíveis, o que os torna um alvo perfeito para a IA generativa. E o fato de que a prosa ou arte sintética agora pode ser produzida automaticamente em uma escala super-humana pode ter resultados estranhos ou imprevistos. Por exemplo, já há artistas de spam usando o ChatGPT para escrever e-mails de phishing.

Propriedade intelectual: Quem é o dono de uma imagem ou texto gerado por IA? Se uma obra protegida por direitos autorais faz parte do conjunto de treinamento de uma IA, a IA está “plagiando” essa obra quando gera dados sintéticos, mesmo que não os copie palavra por palavra? Essas são questões legais complicadas e não testadas.

Vieses: O conteúdo produzido pela IA generativa é totalmente determinado pelos dados subjacentes nos quais ela é treinada. Como esses dados são produzidos por seres humanos com todas as suas falhas e preconceitos, os resultados gerados também podem ser falhos e enviesados, especialmente se operarem sem limites humanos. A OpenAI, a empresa que criou o ChatGPT, implementou salvaguardas no modelo antes de disponibilizá-lo para uso público, impedindo-o de fazer coisas como usar insultos raciais; no entanto, outros argumentam que essas medidas de segurança representam um tipo próprio de viés.

Consumo de energia: Além das questões filosóficas complexas, a IA generativa também levanta questões muito práticas: o treinamento de um modelo de IA generativa requer uma quantidade extremamente intensa de computação. Isso pode resultar em grandes faturas de computação em nuvem para empresas que desejam entrar nesse espaço e, em última análise, levanta a questão se o aumento do consumo de energia – e, consequentemente, das emissões de gases de efeito estufa – vale o resultado final. (Também vemos essa questão surgir em relação a criptomoedas e tecnologia blockchain.)

Casos de uso para a IA generativa

Apesar desses problemas potenciais, a promessa da IA generativa é difícil de ignorar. A capacidade do ChatGPT de extrair informações úteis de enormes conjuntos de dados em resposta a consultas em linguagem natural deixa gigantes de busca animados. A Microsoft está testando seu próprio chatbot de IA, apelidado de “Sydney“, embora ainda esteja em fase beta e os resultados tenham sido decididamente mistos.

Mas Phipps acredita que tipos mais especializados de busca são uma combinação perfeita para essa tecnologia. “Um dos meus últimos clientes na IBM era uma grande empresa de transporte internacional que também tinha um negócio de consultoria de cadeia de suprimentos de bilhões de dólares”, diz ele.

O problema deles era que não conseguiam contratar e treinar consultores de cadeia de suprimentos de nível inicial rápido o suficiente – eles estavam perdendo negócios porque não conseguiam responder rapidamente a perguntas simples dos clientes. Construímos um chatbot para ajudar os consultores de nível inicial a pesquisar a extensa biblioteca de manuais e apresentações de cadeia de suprimentos da empresa, para que pudessem responder rapidamente aos clientes.

Se eu fosse construir uma solução para o mesmo cliente hoje, apenas um ano após a construção do primeiro chatbot, com certeza usaria o ChatGPT e provavelmente seria muito superior ao que eu construí anteriormente. O que é interessante nesse caso de uso é que ainda existe um especialista humano verificando a resposta. Isso mitiga muitos dos problemas éticos. Existe um enorme mercado para esse tipo de ferramenta de busca inteligente destinada a especialistas.

Outros casos de uso potenciais incluem:

Geração de código: A ideia de que a IA generativa pode escrever código de computador para nós tem sido discutida há anos. Descobriu-se que modelos de linguagem grandes, como o ChatGPT, podem entender tanto linguagens de programação quanto linguagens naturais faladas. Embora a IA generativa provavelmente não vá substituir programadores no futuro imediato, ela pode ajudar a aumentar sua produtividade.

Criação de conteúdo barata e fácil: Por mais que isso seja uma preocupação (listada acima), também é uma oportunidade. A mesma IA que escreve e-mails de spam pode escrever e-mails de marketing legítimos, e houve uma explosão de startups de redação de cópias de IA. A IA generativa prospera quando se trata de formas altamente estruturadas de prosa que não exigem muita criatividade, como currículos e cartas de apresentação.

Projeto de engenharia: A arte visual e a linguagem natural têm recebido muita atenção no campo da IA generativa porque são fáceis para pessoas comuns compreenderem. Mas técnicas similares estão sendo usadas para projetar desde microchips até novos medicamentos – e certamente entrarão no espaço de projeto de arquitetura de TI em breve.

Conclusão

A IA generativa certamente perturbará algumas indústrias e alterará – ou eliminará – muitos empregos. No entanto, artigos como este continuarão sendo escritos por seres humanos, pelo menos por enquanto. Recentemente, a CNET tentou utilizar a IA generativa para escrever artigos, mas o esforço falhou diante de uma onda de alucinações. Se você está preocupado, talvez queira se envolver na nova e promissora carreira do futuro: engenharia de prompts de IA.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!