DeepSeek pode não ser tão amigável quando o tema é questão energética
Na última semana, desde que um modelo de IA chinês chamado DeepSeek se tornou amplamente conhecido, uma série de narrativas ganhou força, com diferentes graus de precisão: que o modelo está coletando seus dados pessoais (talvez); que ele revolucionará a IA como a conhecemos (ainda é cedo para dizer) e, talvez a mais notável, que a abordagem mais eficiente do DeepSeek significa que a IA pode não precisar consumir as enormes quantidades de energia que atualmente consome.
O alerta foi feito pela MIT Technology Review, que revelou que essa última noção é enganosa, e novos números compartilhados com a publicação norte-americana ajudam a explicar por quê.
Os primeiros dados, segundo a publicação, – baseados no desempenho de um dos modelos menores do DeepSeek em um número reduzido de solicitações – sugerem que ele pode ser mais intensivo em energia na geração de respostas do que um modelo equivalente da Meta. O problema pode ser que a energia economizada no treinamento seja compensada por técnicas mais exigentes para responder às perguntas e pelas respostas longas que o modelo gera.
Somando-se ao fato de que outras empresas de tecnologia, inspiradas pela abordagem do DeepSeek, podem começar a desenvolver modelos próprios de raciocínio de baixo custo, a perspectiva para o consumo de energia parece cada vez menos promissora.
O ciclo de vida de qualquer modelo de IA tem duas fases: treinamento e inferência. O treinamento é um processo que pode durar meses, no qual o modelo aprende a partir dos dados. Depois disso, ele está pronto para a inferência, que acontece sempre que alguém faz uma pergunta ao modelo. Ambos os processos geralmente ocorrem em data centers, que demandam muita energia para operar chips e resfriar servidores.
No treinamento do seu modelo R1, a equipe do DeepSeek aprimorou a técnica chamada “mixture of experts“, na qual apenas uma parte dos bilhões de parâmetros do modelo – os “botões” que ele ajusta para gerar melhores respostas – são ativados em determinado momento durante o treinamento.
Mais notavelmente, eles melhoraram o aprendizado por reforço, onde as saídas do modelo são avaliadas e usadas para aprimorá-lo. Normalmente, isso é feito por anotadores humanos, mas a equipe do DeepSeek conseguiu automatizar esse processo de forma eficiente.
A introdução de uma maneira mais eficiente de treinar modelos pode sugerir que as empresas de IA usarão menos energia para atingir um determinado nível de desempenho. Mas não é bem assim que funciona.
“Porque o valor de ter um sistema mais inteligente é tão alto”, escreveu Dario Amodei, cofundador da Anthropic, em seu blog, “isso faz com que as empresas gastem mais, não menos, no treinamento dos modelos”.
Se as empresas conseguem mais retorno pelo seu investimento, elas acharão que vale a pena gastar mais, o que significa mais consumo de energia. “Os ganhos em eficiência de custo acabam sendo inteiramente dedicados ao treinamento de modelos mais inteligentes, limitados apenas pelos recursos financeiros da empresa”, escreveu ele. Isso exemplifica o que é conhecido como Paradoxo de Jevons.
Mas isso sempre foi verdade no lado do treinamento, desde o início da corrida da IA. O que torna a questão mais interessante é a energia necessária para a inferência.
Modelo de raciocínio
O DeepSeek foi projetado como um modelo de raciocínio, ou seja, ele foi feito para se sair bem em tarefas como lógica, identificação de padrões, matemática e outros desafios nos quais os modelos típicos de IA generativa têm dificuldades. Modelos de raciocínio fazem isso por meio de uma abordagem chamada “chain of thought” (cadeia de pensamento). Esse método permite que o modelo divida sua tarefa em partes e as resolva em ordem lógica antes de chegar a uma conclusão.
Isso pode ser observado no DeepSeek. Se você perguntar se é aceitável mentir para proteger os sentimentos de alguém, o modelo primeiro analisa a questão sob a ótica do utilitarismo, ponderando o bem imediato contra o possível dano futuro.
Em seguida, ele considera a ética kantiana, que propõe que devemos agir de acordo com máximas que poderiam se tornar leis universais. Ele avalia essas e outras nuances antes de apresentar sua conclusão. Caso esteja curioso, ele conclui que mentir é “geralmente aceitável em situações em que a bondade e a prevenção de danos são fundamentais, mas que não há uma solução universal”.
Modelos baseados em cadeia de pensamento tendem a ter um desempenho melhor em certos testes, como o MMLU, que avalia conhecimento e resolução de problemas em 57 disciplinas. Mas, como está ficando claro com o DeepSeek, eles também exigem muito mais energia para processar suas respostas. Já temos algumas pistas iniciais sobre o quão maior é esse consumo.
Consumo de energia
Scott Chamberlin, que trabalhou por anos na Microsoft e depois na Intel desenvolvendo ferramentas para medir os custos ambientais de atividades digitais, realizou alguns testes preliminares para analisar o consumo de energia de uma GPU enquanto o DeepSeek gerava suas respostas. O experimento vem com várias ressalvas: ele testou apenas uma versão de porte médio do modelo DeepSeek R-1, utilizando um pequeno número de solicitações. Além disso, é difícil fazer comparações diretas com outros modelos de raciocínio.
O DeepSeek é “realmente o primeiro modelo de raciocínio popular ao qual temos acesso”, diz ele. O modelo o1 da OpenAI é seu concorrente mais próximo, mas a empresa não permite testes públicos. Assim, Chamberlin comparou o DeepSeek com um modelo da Meta de tamanho equivalente: 70 bilhões de parâmetros.
Leia também: GenAI e DeepSeek: entre o potencial e a realidade corporativa
Uma solicitação perguntando se é aceitável mentir gerou uma resposta de mil palavras do DeepSeek, que consumiu 17,8 mil joules de energia – aproximadamente o mesmo que assistir a um vídeo de 10 minutos no YouTube. Isso foi cerca de 41% mais energia do que o modelo da Meta usou para responder à mesma pergunta. No geral, em 40 testes, o DeepSeek teve eficiência energética semelhante ao modelo da Meta, mas como suas respostas eram mais longas, acabou consumindo 87% mais energia.
Como isso se compara com modelos que utilizam a IA generativa tradicional, sem a abordagem de cadeia de pensamento? Testes realizados por uma equipe da Universidade de Michigan, em outubro, descobriram que a versão de 70 bilhões de parâmetros do Llama 3.1 da Meta consumia, em média, apenas 512 joules por resposta.
Nem o DeepSeek nem a Meta responderam aos pedidos de comentário da publicação.
Incertezas
Ainda há muitas incertezas. Estes são modelos diferentes, para propósitos distintos, e ainda não foi conduzido um estudo cientificamente rigoroso para comparar o consumo de energia do DeepSeek com o de seus concorrentes. Mas já é evidente, apenas pela arquitetura dos modelos, que aqueles baseados em cadeia de pensamento consomem muito mais energia ao chegar a respostas mais bem elaboradas.
Sasha Luccioni, pesquisadora de IA e líder climática na Hugging Face, teme que o entusiasmo em torno do DeepSeek leve a uma corrida para adotar essa abordagem em todos os lugares, mesmo onde ela não seja necessária.
“Se começarmos a adotar amplamente esse paradigma, o consumo de energia para inferência disparará”, diz ela. “Se todos os modelos lançados forem mais intensivos em computação e adotarem a abordagem de cadeia de pensamento, isso anula completamente qualquer ganho de eficiência.”
A IA já passou por algo semelhante. Antes do lançamento do ChatGPT em 2022, o foco da IA era extrativo – basicamente, encontrar informações em grandes volumes de texto ou categorizar imagens. Mas, em 2022, a atenção se voltou para a IA generativa, baseada na melhoria contínua das previsões.
Esse avanço exigiu mais energia.
“Esse foi o primeiro grande paradigma de mudança”, diz Luccioni. Segundo suas pesquisas, essa mudança resultou em um consumo de energia muito maior para realizar tarefas semelhantes. Se o entusiasmo pelo DeepSeek continuar, ela alerta que as empresas podem ser pressionadas a integrar esse tipo de modelo em tudo, assim como a IA generativa foi adicionada a mecanismos de busca, aplicativos de mensagens e outros serviços.
De fato, parece que estamos caminhando nessa direção: em 31 de janeiro, a OpenAI anunciou que expandiria o acesso ao seu próprio modelo de raciocínio, o o3. No entanto, só saberemos mais sobre os custos energéticos quando o DeepSeek e modelos similares forem mais amplamente estudados.
“O impacto dependerá de se o custo-benefício faz sentido para os negócios envolvidos”, diz Nathan Benaich, fundador da Air Street Capital. “Os custos energéticos teriam que ser absurdamente altos para realmente influenciar a tomada de decisões.”
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!