Um novo estudo mostra que os modelos de raciocínio atuais podem passar no rigoroso exame dos analistas financeiros. Gemini 3.0 Pro estabeleceu um recorde com uma pontuação de 97,6% no Nível I.

A certificação Chartered Financial Analyst (CFA) é amplamente considerada uma das qualificações mais desafiadoras no mundo das finanças. O exame, dividido em três etapas, testa habilidades progressivamente complexas, que vão desde conhecimentos fundamentais até aplicação, análise e construção de portfólios sofisticados.

Em 2023, os principais modelos de linguagem já conseguiam responder a algumas questões do exame CFA, embora com desempenho variável. O ChatGPT (3.5) não passou nos Níveis I e II, enquanto o GPT-4 conseguiu passar apenas no Nível I, falhando no Nível II. Por fim, o GPT-4o — operando como um modelo puramente linguístico — obteve êxito em todas as três fases.

Um estudo recente, realizado por pesquisadores da Universidade de Columbia, do Instituto Politécnico Rensselaer e da Universidade da Carolina do Norte, mostra que a atual geração de modelos de raciocínio passou em todos os três níveis, atingindo, em alguns casos, resultados quase perfeitos.

Os pesquisadores submeteram seis modelos de raciocínio a 980 questões do exame: três provas do Nível I com 540 questões de múltipla escolha, dois exames do Nível II com 176 questões baseadas em casos e três provas do Nível III com 264 questões, que incluíam formatos com respostas abertas. O resultado foi que Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 e DeepSeek-V3.1 passaram em todas as etapas, de acordo com os critérios estabelecidos.

Gemini e GPT-5 lideram o grupo

O Gemini 3.0 Pro atingiu um recorde de 97,6% no Nível I, composto por questões independentes de múltipla escolha. O GPT-5 o seguiu com 96,1%, e o Gemini 2.5 Pro marcou 95,7%. Mesmo o modelo com o desempenho mais baixo, o DeepSeek-V3.1, alcançou 90,9%.

No Nível II, que avalia a aplicação e análise por meio de estudos de caso, o GPT-5 assumiu a liderança ao obter 94,3%. O Gemini 3.0 Pro alcançou 93,2% e o Gemini 2.5 Pro, 92,6%. Os pesquisadores destacaram que os modelos obtiveram “resultados quase perfeitos” nessa etapa, embora as questões éticas tenham se mostrado um desafio, com taxas de erro relativas de 17 a 21% mesmo entre os melhores modelos.

Já no Nível III — a fase mais complexa, que combina questões de múltipla escolha com respostas abertas — o Gemini 2.5 Pro foi o melhor nas questões objetivas, com 86,4%. Entretanto, o Gemini 3.0 Pro se destacou nas respostas construídas ao atingir 92,0%, representando um salto significativo em relação aos 82,8% de sua versão anterior.

Nível Melhor modelo Resultado
Nível I (múltipla escolha) Gemini 3.0 Pro 97,6%
Nível II (múltipla escolha) GPT-5 94,3%
Nível III (múltipla escolha) Gemini 2.5 Pro 86,4%
Nível III (respostas construídas) Gemini 3.0 Pro 92,0%
Classificação geral Gemini 3.0 Pro 1º lugar

O estudo utilizou exames simulados do CFA compilados a partir do CFA Institute Practice Pack oficial (para os Níveis I e II) e dos exames simulados do AnalystPrep (para o Nível III). Enquanto os Níveis I e II se basearam em material oficial, o Nível III utilizou provas simuladas de terceiros para manter a comparabilidade com pesquisas anteriores.

Além disso, um modelo o4-mini automatizou a correção das respostas abertas. Os pesquisadores alertam que essa abordagem pode introduzir erros de medição e um possível “viés de verbosidade”, que favorece respostas mais detalhadas com pontuações mais altas. Dessa forma, os resultados devem ser encarados como aproximações baseadas no modelo.

Os critérios para aprovação foram definidos com base em estudos anteriores: o Nível I exige pelo menos 60% de acerto por tópico e 70% no total; o Nível II requer no mínimo 50% por tópico e 60% no geral; já o Nível III demanda uma média de pelo menos 63% entre as seções de múltipla escolha e de respostas construídas.

Passar em um exame não significa estar apto para o trabalho

Os pesquisadores afirmam que os resultados indicam que “os modelos de raciocínio superam a expertise exigida de analistas financeiros de nível iniciante a intermediário e podem, no futuro, alcançar a proficiência de analistas financeiros seniores”. Enquanto os modelos já dominavam o “conhecimento codificado” dos Níveis I e II, a nova geração está desenvolvendo as habilidades complexas de síntese exigidas para o Nível III.

Vale ressaltar que os benchmarks — especialmente os formatos de múltipla escolha — apenas oferecem uma ideia do desempenho e do potencial impacto econômico desses modelos. Passar num exame não significa necessariamente que o modelo seja capaz de lidar com as demandas do dia a dia de um analista financeiro, que envolve desde reuniões com clientes até avaliação do sentimento do mercado e a tomada de decisões com informações incompletas.

O estudo também evidencia que os modelos ainda encontram dificuldades com questões éticas, que muitas vezes requerem uma compreensão contextual mais profunda e julgamento. Os exames avaliam conhecimentos isolados, sem testar a capacidade de aplicá-los em situações reais e dinâmicas.

Além disso, os pesquisadores não descartam a possibilidade de contaminação dos dados. Embora tenham utilizado materiais atuais e pagos, há chance de que algumas questões tenham vazado para os conjuntos de treinamento por meio de conteúdos parafraseados em bases de dados públicas. Isso levanta a hipótese de que os modelos possam ter simplesmente conhecido as respostas, em vez de raciocinarem de forma autônoma.

Mesmo assim, a evolução de um desempenho considerado falho para resultados quase perfeitos em apenas dois anos evidencia o rápido avanço da inteligência artificial em domínios especializados. Para o setor financeiro, a questão não é mais se a IA pode dominar o conteúdo, mas sim como integrar esse conhecimento aos fluxos de trabalho reais.