Pruna AI torna open source seu framework de otimização para modelos de IA

A startup europeia Pruna AI, que vem desenvolvendo algoritmos de compressão para modelos de inteligência artificial, disponibilizou nesta quinta-feira seu framework de otimização como open source. A ferramenta aplica diversas técnicas de eficiência – como caching, pruning, quantização e destilação – a um modelo de IA específico.

“Também padronizamos o salvamento e carregamento dos modelos comprimidos, aplicando combinações desses métodos de compressão e avaliando o desempenho do modelo após a compressão”, afirmou John Rachwan, cofundador e CTO da Pruna AI. Em outras palavras, o framework pode verificar se há perda significativa de qualidade após a compressão e medir os ganhos de performance obtidos.

“Se eu fosse usar uma metáfora, nós seríamos semelhantes a como a Hugging Face padronizou transformers e diffusers – como chamá-los, como salvá-los, carregá-los, etc. Estamos fazendo o mesmo, mas para métodos de eficiência”, acrescentou Rachwan.

Grandes laboratórios de IA já utilizam diversos métodos de compressão. Por exemplo, a OpenAI tem recorrido à destilação para criar versões mais rápidas de seus modelos principais, assim como o modelo de geração de imagens Flux.1-schnell é uma versão destilada do Flux.1, desenvolvido pela Black Forest Labs.

A destilação é uma técnica utilizada para extrair conhecimento de um modelo de IA robusto por meio de um processo “professor-aluno”. Os desenvolvedores enviam solicitações a um modelo professor, registram suas respostas — que são comparadas a um conjunto de dados para aferir a acurácia — e utilizam esses resultados para treinar o modelo aluno, que aprende a aproximar o comportamento do professor.

“Para grandes empresas, o que geralmente acontece é que elas desenvolvem essas soluções internamente. No mundo open source, normalmente encontramos ferramentas baseadas em métodos isolados – por exemplo, uma única técnica de quantização para LLMs ou um método de caching para modelos de difusão. Mas não existe uma ferramenta que agregue todos esses métodos, facilitando seu uso e integração. Esse é o grande valor que a Pruna está trazendo no momento”, explicou Rachwan.

Pruna AI Co founders

Embora a Pruna AI suporte qualquer tipo de modelo – desde grandes modelos de linguagem até modelos de difusão, reconhecimento de voz para texto e visão computacional – a empresa está focando, por ora, nos modelos de geração de imagens e vídeos.

Entre os usuários atuais da startup estão Scenario e PhotoRoom. Além da edição open source, a Pruna AI oferece uma versão empresarial com recursos avançados de otimização, incluindo um agente de otimização.

“A funcionalidade mais empolgante que lançaremos em breve será um agente de compressão. Basicamente, você fornece seu modelo, define que deseja mais velocidade sem perder mais que 2% de acurácia e, então, o agente fará sua mágica, encontrando a melhor combinação para você e retornando o resultado sem que seja necessário qualquer esforço do desenvolvedor”, destacou Rachwan.

A versão profissional da Pruna AI é cobrada por hora, de maneira similar ao aluguel de uma GPU em serviços de nuvem. Se seu modelo faz parte crítica da infraestrutura de IA, a otimização pode gerar significativa economia nos custos de inferência. Por exemplo, a Pruna AI conseguiu reduzir um modelo Llama para um oitavo do seu tamanho original sem comprometer muito a qualidade. A expectativa é que os clientes encarem o framework de compressão como um investimento que se paga com o tempo.

Recentemente, a Pruna AI levantou uma rodada de financiamento seed de US$ 6,5 milhões, com investidores como EQT Ventures, Daphni, Motier Ventures e Kima Ventures.