Novos Dados de Desempenho da Apple Revelam que Seus Modelos de IA Ainda Ficam Para Trás de Gigantes como OpenAI e Google

A Apple divulgou novas informações de desempenho para seus dois modelos de IA desenvolvidos internamente e liberou a versão menor para desenvolvedores terceirizados. Os benchmarks demonstram que a tecnologia de modelos de linguagem da empresa ainda está aquém da concorrência.

Modelos Desenvolvidos pela Apple

A empresa criou dois modelos distintos: uma versão compacta com 3 bilhões de parâmetros para uso direto nos dispositivos e um modelo maior baseado em servidor. Nos testes internos da Apple, o modelo de 3 bilhões de parâmetros supera modelos de tamanho semelhante, aproximando-se do desempenho de sistemas um pouco maiores. Embora a companhia atribua essa melhora a aprimoramentos de eficiência, a pequena diferença de tamanho entre os modelos torna as justificativas menos convincentes.

Apple Foundational Model Human Benchmarks Text Responses

Avaliações humanas indicam que os modelos Foundation, tanto o de dispositivo quanto o baseado em servidor, ficam significativamente atrás do GPT-4o da OpenAI. O modelo de servidor, embora não tenha divulgado sua contagem exata de parâmetros, é comparado ao Scout da Meta, que possui 109 bilhões de parâmetros no total, com 17 bilhões efetivos. Esse sistema utiliza uma arquitetura do tipo “parallel track mixture-of-experts” (MoE), permitindo que diversas sub-redes operem em paralelo, o que, mesmo assim, não o coloca em pé de igualdade com modelos muito maiores.

Apple Parallel Track Mixture of Experts Architecture

A arquitetura MoE de trilha paralela empregada pela Apple permite que as sub-redes processem tokens de forma autônoma, sincronizando apenas a cada quatro camadas para reduzir em 87,5% a comunicação necessária. Enquanto o modelo para dispositivos utiliza compressão agressiva para funcionar de forma eficiente em iPhones e iPads, o modelo de servidor usa uma técnica especializada de compressão gráfica.

Reconhecimento de Imagens: Eficiência sem Liderança

No reconhecimento de imagens, o modelo para dispositivos disputa com outras tecnologias, superando alguns sistemas e igualando a performance de outros. Por outro lado, o modelo de servidor supera determinadas referências em menos da metade dos casos de teste e ainda fica atrás de outros modelos concorrentes.

Apple Foundational Model Human Benchmarks Image Understanding

A Apple utiliza sistemas distintos para reconhecimento de imagens: o modelo de servidor opera com uma IA de 1 bilhão de parâmetros, enquanto a versão para dispositivo usa uma configuração com 300 milhões de parâmetros. Ambos foram treinados com mais de dez bilhões de pares de imagem-texto e 175 milhões de documentos que continham imagens incorporadas.

Acesso para Desenvolvedores

Agora, desenvolvedores podem acessar o modelo de 3 bilhões de parâmetros por meio do Apple’s Foundation Models Framework. Esse modelo é mais adequado para tarefas como sumarização, extração de informações e compreensão de textos, não sendo ideal para chatbots abertos. O modelo mais robusto, baseado em servidor, permanece reservado para recursos internos da Apple.

O framework oferece funcionalidades de IA gratuitas e integra-se com a linguagem Swift. Por meio dele, os desenvolvedores podem marcar estruturas de dados para que as saídas geradas sejam automáticas e relevantes, contando também com uma API que permite ampliar as capacidades do modelo.

Para aprimorar o desempenho multilingue, a Apple expandiu o vocabulário dos modelos de 100 mil para 150 mil palavras. Foram realizados testes culturais específicos em 15 idiomas para garantir respostas adequadas a diferentes regiões. Os dados de treinamento provêm de “centenas de bilhões de páginas” coletadas por seu rastreador web, o Applebot, o qual respeita as exclusões definidas em robots.txt e, segundo a empresa, não utiliza dados de usuários para o treinamento.

Os benchmarks mais recentes da Apple confirmam a preocupação que já se mostrava antes dos eventos tecnológicos: os modelos de IA da empresa ainda têm um longo caminho a percorrer para alcançar o desempenho dos líderes de mercado, como Google e OpenAI.