Phi-3 Mini: Microsoft introduz o menor modelo de IA até o momento

24 de abril de 2024 tutoriaisweb

A Microsoft lançou, na última terça-feira (23), o Phi-3 Mini, com 3,8 bilhões de parâmetros e treinado em um conjunto de dados menor do que modelos de linguagem maiores, como o GPT-4. Este é o primeiro de uma série de pequenos modelos de linguagem (SLM) que a empresa planeja lançar. O Phi-3 Mini já está disponível no Azure, Hugging Face e Ollama.

Depois de lançar o Phi-2 em dezembro, a Microsoft anunciou o Phi-3 Mini com um desempenho superior à sua versão anterior, podendo oferecer respostas quase equivalentes às de um modelo dez vezes maior, de acordo com a empresa. O lançamento do Phi-3 Mini incluiu a apresentação de uma série de pequenos modelos de linguagem que a empresa promete lançar nas próximas semanas, incluindo o Phi-3-Small (7B) e o Phi-3-Medium (14B), que estarão disponíveis no catálogo de modelos do Azure AI e em outras plataformas.

Misha Bilenko, vice-presidente corporativo da Microsoft GenAI, afirma que os modelos Phi-3 superam significativamente outros de mesmo tamanho ou maiores em benchmarks essenciais. O Phi-3-mini supera modelos duas vezes maiores, enquanto Phi-3-small e Phi-3-medium superam até o GPT-3.5T, segundo Bilenko. Os números são comparáveis devido ao mesmo pipeline de produção, embora possam variar ligeiramente de outras avaliações.

“Graças ao seu tamanho menor, os modelos Phi-3 podem ser usados em ambientes de inferência com computação limitada. Phi-3-mini, em particular, pode ser usado no dispositivo, especialmente quando otimizado com ONNX Runtime para disponibilidade em várias plataformas”, escreveu Bilenko no blog da Microsoft Azure.

Modelos de IA menores são geralmente mais acessíveis para operar em comparação com seus equivalentes maiores e funcionam melhor em dispositivos pessoais, como telefones e laptops.

“O tamanho menor dos modelos Phi-3 também torna o ajuste fino ou a personalização mais fácil e acessível. Além disso, suas menores necessidades computacionais os tornam uma opção de menor custo e com latência muito melhor. A janela de contexto mais longa permite compreender e raciocinar sobre grandes conteúdos de texto – documentos, páginas da web, código e muito mais”, adicionou.

Eric Boyd, vice-presidente corporativo da plataforma de IA do Azure da Microsoft, explicou ao The Verge que o treinamento do Phi-3 envolveu a criação de um “currículo” inspirado na forma como as crianças aprendem, usando histórias simples e estruturas de frases adaptadas para facilitar o entendimento do modelo. “Não há livros infantis suficientes por aí, então pegamos uma lista de mais de 3.000 palavras e pedimos a um LLM para fazer ‘livros infantis’ para ensinar Phi”, disse Boyd.

Segundo o executivo, o Phi-3 avançou progressivamente, aproveitando os aprendizados das versões anteriores. Enquanto o Phi-1 se dedicava à codificação e o Phi-2 começava a desenvolver habilidades de raciocínio, o Phi-3 se destaca tanto na codificação quanto no raciocínio. Embora os modelos Phi-3 possuam algum conhecimento geral, Boyd observou que eles não podem rivalizar com a abrangência de um GPT-4 ou outro LLM.

No entanto, para muitas empresas, especialmente aquelas com conjuntos de dados internos relativamente pequenos, os modelos de IA menores como o Phi-3 oferecem uma solução mais acessível e eficaz para suas necessidades específicas, disse Boyd.

*Com informações do The Verge

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Você pode gostar também