Indústria de chips luta para atender às demandas impulsionadas pela IA – LLMs menores podem ajudar?

chips semicondutores intel processadores

A inteligência artificial (IA) generativa, na forma de tecnologia de processamento de linguagem natural, tomou o mundo de assalto, e organizações grandes e pequenas estão correndo para testá-la na automatização de tarefas e para ganhos de produtividade .

Gigantes da tecnologia como Google, Microsoft e Amazon estão oferecendo tecnologias de IA generativa baseadas na nuvem ou as incorporando em seus aplicativos de negócios para os usuários, e a expectativa é que os gastos globais em IA por empresas atinjam US$ 301 bilhões até 2026, segundo o IDC.

Mas as ferramentas de IA generativa consomem muitos recursos computacionais, principalmente para treinar os grandes modelos de linguagem (LLMs) que sustentam o ChatGPT, da OpenAI, e o Bard, do Google. À medida que o uso de IA generativa aumenta, cresce também a pressão sobre o hardware usado para executar esses modelos, que são os repositórios de informações para processamento de linguagem natural.

Unidades de processamento gráfico (GPUs), que são criadas conectando diferentes chips – como processador e memória – em um único pacote, se tornaram a base das plataformas de IA, porque oferecem a largura de banda necessária para treinar e implantar LLMs. No entanto, os fabricantes de chips de IA não conseguem acompanhar a demanda. Como resultado, mercados paralelos para GPUs de IA surgiram nos últimos meses.

Alguns culpam a escassez de chips em empresas como a Nvidia, que dominou o mercado de produção de GPUs e tem um controle rigoroso sobre os suprimentos. Antes do surgimento da IA, a Nvidia projetava e produzia processadores de alta qualidade que ajudavam a criar gráficos sofisticados em jogos de vídeo – o tipo de processamento especializado que agora é altamente aplicável à machine learning e à IA.

A sede da IA por GPUs

Em 2018, a OpenAI lançou uma análise mostrando que, desde 2012, a quantidade de poder de computação utilizada nas maiores execuções de treinamento de IA havia aumentado exponencialmente, dobrando a cada 3,4 meses (em comparação, a Lei de Moore afirmava que o número de transistores em um circuito integrado dobrava a cada dois anos).

“Desde 2012, essa métrica cresceu mais de 300 mil vezes (um período de duplicação de dois anos resultaria em apenas um aumento de 7 vezes)”, disse a OpenAI em seu relatório. “Melhorias no poder de processamento têm sido um componente-chave do progresso da IA, então, enquanto essa tendência continuar, vale a pena se preparar para as implicações de sistemas muito além das capacidades atuais”.

Não há motivo para acreditar que a tese da OpenAI mudou; na verdade, com a introdução do ChatGPT em novembro passado, a demanda aumentou, de acordo com Jay Shah, pesquisador do Instituto de Engenheiros Eletricistas e Eletrônicos (IEEE). “Atualmente, estamos vendo um grande aumento na demanda de hardware – principalmente GPUs – por parte das grandes empresas de tecnologia para treinar e testar diferentes modelos de IA, a fim de melhorar a experiência do usuário e adicionar novos recursos aos seus produtos existentes”, disse ele.

Às vezes, criadores de LLM, como a OpenAI e a Amazon, parecem estar em uma disputa para determinar quem pode construir o modelo maior. Alguns agora excedem 1 trilhão de parâmetros em tamanho, o que significa que exigem ainda mais poder de processamento para treinar e executar.

“Eu não acredito que tornar os modelos ainda maiores faça avançar o campo”, disse Shah. “Mesmo nesta fase, treinar esses modelos continua sendo extremamente caro em termos de computação, custando dinheiro e deixando uma pegada de carbono ainda maior no clima. Além disso, a comunidade de pesquisa prospera quando outras pessoas podem acessar, treinar, testar e validar esses modelos”.

A maioria das universidades e instituições de pesquisa não pode se dar ao luxo de replicar e melhorar LLMs já massivos, então estão focadas em encontrar técnicas eficientes que usem menos hardware e tempo para treinar e implantar modelos de IA, de acordo com Shah. Técnicas como aprendizado auto-supervisionado, aprendizado por transferência, aprendizado de zero e modelos fundamentais têm mostrado resultados promissores, disse ele.

“Eu esperaria mais um ou dois anos para que a comunidade de pesquisa em IA encontre uma solução viável”, afirmou.

Startups ao resgate?

Startups de chips de IA baseadas nos EUA, como Graphcore, Kneron e iDEAL Semiconductor, são vistas como alternativas às gigantes do setor, como a Nvidia. Por exemplo, a Graphcore está propondo um novo tipo de processador chamado unidade de processamento inteligente (IPU), projetado desde o início para lidar com as necessidades de computação de IA. Os chips da Kneron são projetados para aplicações de IA na borda, como veículos elétricos (EVs) ou edifícios inteligentes.

Em maio, a iDEAL Semiconductor lançou uma nova arquitetura baseada em silício chamada “SuperQ“, que, segundo ela, pode produzir maior eficiência e desempenho de tensão em dispositivos semicondutores, como diodos, transistores de efeito de campo de óxido metálico semicondutor (MOSFETs) e circuitos integrados.

Embora a cadeia de suprimentos de semicondutores seja muito complexa, a parte de fabricação tem o maior prazo para a introdução de novas capacidades on-line, de acordo com Mike Burns, cofundador e presidente da iDEAL Semiconductor.

“Embora a operação de uma fábrica com alta utilização possa ser muito lucrativa, operá-la com baixa utilização pode ser um desastre financeiro devido aos custos extremos associados ao equipamento de produção”, disse Burns. “Por essas razões, as fábricas são cautelosas em relação à expansão da capacidade. Vários choques na cadeia de suprimentos, incluindo a Covid, questões geopolíticas e mudanças nos tipos de chips necessários no caso de EVs e IA, produziram várias restrições que podem levar de um a três anos para corrigir. As restrições podem ocorrer em qualquer nível, incluindo matérias-primas envolvidas em questões geopolíticas ou capacidade de fabricação aguardando expansão”.

Embora os videogames continuem sendo um grande negócio para a Nvidia, seu crescente negócio de IA permitiu à empresa controlar mais de 80% do mercado de chips de IA. No entanto, apesar dos saltos consideráveis nas receitas da Nvidia, analistas veem possíveis problemas em sua cadeia de suprimentos. A empresa projeta seus próprios chips, mas – como grande parte da indústria de semicondutores – depende da TSMC para produzi-los, tornando-a suscetível a interrupções na cadeia de suprimentos.

Além disso, esforços de código aberto permitiram o desenvolvimento de uma miríade de modelos de linguagem de IA, então pequenas empresas e startups de IA também estão entrando no mercado para desenvolver modelos de linguagem de IA específicos de produtos. E, com preocupações de privacidade sobre a IA compartilhando inadvertidamente informações sensíveis, muitas empresas também estão investindo em produtos que podem executar pequenos modelos de IA localmente (conhecidos como Edge IA).

É chamado de “edge” porque a computação de IA ocorre mais perto do usuário na borda da rede, onde os dados estão localizados – como em um servidor isolado ou até mesmo em um carro inteligente – em oposição a um modelo de linguagem de IA localizado centralmente em uma nuvem ou data center privado.

A Edge IA ajudou radiologistas a identificar patologias, controlou prédios de escritórios por meio de dispositivos da Internet das Coisas (IoT) e foi usada para controlar carros autônomos. O mercado de Edge IA foi avaliado em US$ 12 bilhões em 2021 e espera-se que alcance US$ 107,47 bilhões até 2029.

“Veremos mais produtos capazes de executar IA localmente, aumentando ainda mais a demanda por hardware”, disse Shaw.

Seriam LLMs menores a resposta?

Avivah Litan, vice-presidente e analista distinta empresa de pesquisa Gartner, afirmou que, mais cedo ou mais tarde, a escalabilidade dos chips GPU não conseguirá acompanhar o crescimento dos tamanhos dos modelos de IA. “Portanto, continuar a aumentar o tamanho dos modelos não é uma opção viável”, disse ela.

Mike Burns, da iDEAL Semiconductor, concordou, afirmando que “haverá a necessidade de desenvolver modelos de linguagem de IA (LLMs) e soluções de IA mais eficientes, mas a produção adicional de GPUs é uma parte inevitável dessa equação”.

“Também devemos focar nas necessidades energéticas”, disse ele. “Há a necessidade de acompanhar tanto a demanda de energia de hardware quanto de data center. Treinar um LLM pode representar uma pegada de carbono significativa. Portanto, precisamos ver melhorias na produção de GPUs, mas também nas memórias e semicondutores de potência que devem ser usados para projetar o servidor de IA que utiliza a GPU”.

No início deste mês, a maior fabricante de chips do mundo, a TSMC, admitiu que está enfrentando restrições de fabricação e disponibilidade limitada de GPUs para aplicações de IA e HPC. “Atualmente, não conseguimos atender todas as demandas de nossos clientes, mas estamos trabalhando para atender cerca de 80% delas”, disse Liu na Semicon Taiwan. “Isso é visto como uma fase transitória. Antecipamos um alívio após o crescimento de nossa capacidade avançada de embalagem de chips, aproximadamente em um ano e meio”.

Em 2021, a queda na produção doméstica de chips destacou uma crise mundial na cadeia de suprimentos que levou a apelos para trazer a fabricação de volta para os EUA. Com o governo dos EUA incentivando esse movimento por meio do CHIPS Act, empresas como IntelSamsungMicron,e TSMC anunciaram planos para várias novas fábricas nos EUA. (A Qualcomm, em parceria com a GlobalFoundries, também planeja investir US$ 4,2 bilhões para dobrar a produção de chips em sua instalação de Malta, NY.)

A TSMC planeja gastar até US$ 36 bilhões este ano para aumentar a produção de chips, mesmo quando outras empresas – tanto os fabricantes de dispositivos integrados (IDM) quanto as fundições – operam próximas ou em plena utilização, de acordo com a empresa de consultoria global McKinsey & Co.

“A indústria de chips não consegue acompanhar. A inovação em GPUs está avançando mais devagar do que o aumento e o crescimento dos tamanhos dos modelos”, disse Litan. “O hardware sempre é mais lento para mudar do que o software”.

No entanto, Liu, da TSMC, disse que as restrições de oferta de chips de IA são “temporárias” e podem ser aliviadas até o final de 2024, de acordo com um relatório da Nikkei Asia.

Tanto a Lei de CHIPS dos EUA quanto a Lei de Chips Europeia visavam abordar os desafios de oferta e demanda trazendo de volta e aumentando a produção de chips em seus próprios territórios. Mesmo assim, mais de um ano após a aprovação da Lei de CHIPS, a TSMC adiou a data de abertura de sua Foundry em Phoenix, Arizona – uma fábrica anunciada pelo presidente dos EUA, Joseph R. Biden Jr., como peça central de sua agenda de repatriação de chips de US$ 52,7 bilhões. A TSMC havia planejado a abertura para 2024; agora está prevista para 2025 devido à falta de mão de obra qualificada. Uma segunda fábrica da TSMC ainda está programada para abrir em 2026.

O maior fornecedor mundial de carbeto de silício, Wolfspeed, admitiu recentemente que provavelmente será a segunda metade da década antes que os investimentos relacionados à Lei de CHIPS afetem a cadeia de suprimentos.

Mike Burns, da iDEAL Semiconductor, afirmou que as leis de chips dos EUA e da Europa devem ajudar a resolver o problema da cadeia de suprimentos ao trazer de volta parte da indústria de semicondutores para aumentar a resiliência no sistema de fabricação.

“A Lei de CHIPS e da Ciência dos EUA já impactou o setor ao elevar o risco da cadeia de suprimentos de semicondutores para um diálogo nacional. A atenção agora concentrada nos riscos da cadeia de suprimentos impulsionou investimentos do setor privado”, disse Burns. “Os fabricantes dos EUA anunciaram planos para expandir suas capacidades, e os investimentos em lugares como Texas, Ohio, Nova York e Arizona estão avançando rapidamente. Levará tempo para avaliar totalmente o alcance com que a Lei de CHIPS e da Ciência pode resolver os problemas existentes na cadeia de suprimentos, mas é um bom primeiro passo para expandir a capacidade de fabricação doméstica”.

Apesar da escassez de chips de IA, as ações de empresas de chips de IA dispararam, incluindo a Nvidia, cuja capitalização de mercado ultrapassou a marca de um trilhão de dólares à medida que o preço de suas ações mais que triplicou nos últimos 52 semanas.

Shaw, da IEEE, também observou que o governo dos EUA não foi capaz de fornecer os fundos prometidos às fundições, o que significa, por padrão, que muitas empresas de tecnologia dos EUA com base nos EUA devem planejar contar com fabricantes existentes.

“Pessoalmente, acredito que ainda levaria quatro a cinco anos para ter hardware fabricado em solo americano que também seja mais barato do que os equivalentes asiáticos”, disse Shaw.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!