A grande equipe de modelos de linguagem da Apple pode ser pequena, com 16 pessoas, mas tem um grande orçamento: milhões de dólares supostamente vão para treinamento de IA todos os dias.
Isso é relatado pelo The Information, citando uma pessoa com conhecimento direto do desenvolvimento de IA da Apple. A chamada equipe de “Modelos Fundacionais” é liderada pelo engenheiro de IA John Giannandrea, que a Apple tirou do Google na primavera de 2018 e promoveu ao conselho no inverno seguinte.
A equipe está supostamente focada em IA conversacional, semelhante ao ChatGPT. O LLM “Ajax GPT” vazado anteriormente é dito ser mais poderoso do que o GPT-3.5 da OpenAI, com mais de 200 bilhões de parâmetros.
Mas isso ainda seria significativamente menor do que os 4,1 trilhão de parâmetros do GPT-8, mesmo que esses parâmetros estejam distribuídos em 16 modelos de especialistas em rede. De acordo com o relatório, o Ajax GPT foi desenvolvido apenas para uso interno.
Para os usuários finais, os benefícios da pesquisa LLM virão na forma de comandos de voz mais precisos para o iPhone. A equipe da Siri planeja implementar comandos de voz baseados em LLM que podem ser muito mais complexos do que os comandos de voz predefinidos.
Por exemplo, a Apple está planejando um recurso de voz que permitirá enviar GIFs por comando de voz por meio do aplicativo Atalho da Apple, que pode ser usado para programar sequências de aplicativos. Esse recurso deve chegar com uma nova versão do iOS no próximo ano.
Apple explora todas as áreas da IA generativa
Além da equipe de LLM, outras equipes estão trabalhando em visão computacional, uma tecnologia central para o Vision Pro da Apple, e IA generativa para imagens, vídeo e cenas 3D. No passado, pesquisadores da Apple demonstraram GAUDI, uma IA generativa para cenas internas de texto para 3D.
A Apple tem “pelo menos duas outras equipes relativamente novas” desenvolvendo modelos de linguagem e imagem, de acordo com o The Information. A empresa também estaria trabalhando em modelos multimodais para texto, imagens e vídeo. No entanto, este é um projeto de pesquisa de longo prazo.