O novo modelo Phi 4 da Microsoft desafia sistemas de IA muito maiores
A Microsoft lançou vários novos modelos de IA com licença permissiva nesta quarta-feira, dos quais o mais capaz é competitivo com o o3-mini da OpenAI em pelo menos um teste de desempenho.
Todos os modelos lançados — Phi 4 mini reasoning, Phi 4 reasoning e Phi 4 reasoning plus — são especializados em raciocínio, ou seja, dedicam mais tempo à verificação dos fatos na resolução de problemas complexos. Essa linha amplia a família de modelos “pequenos” Phi, apresentada pela empresa há um ano, que serve de base para desenvolvedores de IA que criam aplicações em dispositivos com recursos limitados.
O Phi 4 mini reasoning foi treinado com aproximadamente 1 milhão de problemas matemáticos sintéticos, gerados pelo modelo R1 da startup chinesa DeepSeek. Com cerca de 3,8 bilhões de parâmetros, este modelo foi concebido para aplicações educacionais, como sistemas de tutoria incorporados em dispositivos leves.
Os parâmetros de um modelo estão diretamente relacionados à sua capacidade de resolver problemas, e, em geral, modelos com maior número de parâmetros apresentam um desempenho superior em comparação aos de menor capacidade.
O Phi 4 reasoning, um modelo de 14 bilhões de parâmetros, teve seu treinamento baseado em dados de alta qualidade da web, além de demonstrações cuidadosamente selecionadas oriundas do o3-mini da OpenAI. De acordo com a Microsoft, esse modelo é ideal para aplicações em matemática, ciências e programação.
O Phi 4 reasoning plus é uma adaptação do modelo Phi 4 anteriormente lançado, ajustado para aprimorar a precisão em tarefas específicas. A empresa afirma que o desempenho do Phi 4 reasoning plus se aproxima do do modelo R1, que conta com expressivos 671 bilhões de parâmetros. Testes internos indicam que, no OmniMath — um exame de habilidades matemáticas — o Phi 4 reasoning plus alcança resultados similares aos do o3-mini.
Os modelos Phi 4 mini reasoning, Phi 4 reasoning e Phi 4 reasoning plus estão disponíveis na plataforma de desenvolvimento de IA Hugging Face, acompanhados de relatórios técnicos detalhados.
Utilizando técnicas como destilação, aprendizado por reforço e dados de alta qualidade, esses novos modelos equilibram tamanho e desempenho. São compactos o suficiente para funcionar em ambientes de baixa latência, sem abrir mão de uma robusta capacidade de raciocínio que os posiciona à altura de modelos significativamente maiores. Essa combinação permite que até mesmo dispositivos com recursos limitados realizem tarefas complexas de forma eficiente.