OpenAI afirma que seus modelos mais recentes superam médicos em referência médica
A OpenAI lançou um novo benchmark para testar sistemas de IA na área da saúde. Denominado HealthBench, ele foi desenvolvido para avaliar como os modelos de linguagem lidam com conversas médicas realistas. Segundo a empresa, seus modelos mais recentes superam médicos no teste.
A empresa afirma que benchmarks anteriores não refletiam interações reais entre médico e paciente, careciam de contribuições de especialistas ou não eram detalhados o suficiente para mensurar o progresso dos modelos mais novos. Para resolver essa lacuna, a OpenAI colaborou com 262 médicos de 60 países e, juntos, criaram 5.000 cenários médicos realistas, abrangendo 26 especialidades e 49 idiomas.
O HealthBench abrange sete domínios médicos, desde a medicina de emergência até a saúde global. Cada resposta da IA é avaliada em cinco categorias: qualidade da comunicação, cumprimento de instruções, precisão, compreensão contextual e completude. No total, o sistema utiliza 48.000 pontos de avaliação fundamentados na área médica.
A pontuação é realizada pelo GPT-4.1. Para verificar a confiabilidade, a OpenAI comparou as avaliações do modelo com as de médicos. Os resultados demonstraram que os julgamentos do GPT-4.1 coincidiam com as avaliações humanas num nível de concordância similar ao observado entre diferentes médicos.
GPT-4.1 e o3 superam médicos – pelo menos neste teste
A OpenAI afirma que seus modelos mais recentes – GPT-4.1 e o3 – superaram as respostas dos médicos na referência HealthBench. Em testes realizados em setembro de 2024, os médicos conseguiram aprimorar os resultados dos modelos anteriores através de edições, enquanto as respostas sem auxílio apresentaram as menores pontuações. Porém, em abril de 2025, os resultados se inverteram: tanto o GPT-4.1 quanto o o3 superaram os médicos mesmo sem intervenção adicional.

A OpenAI ressalta que essa comparação apresenta limitações importantes. Normalmente, os médicos não elaboram respostas no formato de chat para questões médicas, de modo que o benchmark não reflete a forma tradicional de atendimento clínico. Ele, sim, testa o desempenho dos modelos de linguagem em um tipo específico de comunicação, no qual as competências da IA podem ter mais destaque.
Em termos de pontuações brutas, o modelo o3 atingiu 0,60 na referência, praticamente o dobro dos 0,32 obtidos pelo GPT-4o em agosto de 2024. Apenas alguns modelos concorrentes se aproximaram: o Grok 3, da xAI, registrou 0,54, e o Gemini 2.5, do Google, alcançou 0,52.

Medindo a confiabilidade em pior cenário
Na área da saúde, uma única resposta equivocada pode ter consequências mais graves do que inúmeras respostas corretas. Por isso, o HealthBench inclui um teste de estresse para avaliar o desempenho no pior cenário: quão útil é a resposta menos adequada que um modelo pode oferecer? Segundo a OpenAI, os modelos mais recentes também apresentam melhorias significativas nesse aspecto, embora ainda haja desafios a serem superados.

A eficiência também é um foco importante. A OpenAI afirma que seu modelo compacto, o GPT-4.1 nano, é 25 vezes mais eficaz em termos de custo se comparado ao GPT-4o de agosto de 2024, além de oferecer melhores resultados. Essa melhoria pode torná-lo mais acessível em ambientes com recursos limitados.
Para ampliar os testes, a OpenAI disponibilizou dois conjuntos de dados adicionais: HealthBench Consensus e HealthBench Hard. O conjunto “Consensus” abrange apenas critérios altamente validados, enquanto o conjunto “Hard” reúne 1.000 casos especialmente desafiadores, nos quais a maioria dos modelos ainda apresenta falhas.
Todos os dados de teste e métodos de avaliação estão disponíveis no GitHub. A OpenAI também publicou um artigo detalhado e incentiva pesquisadores a aprimorar esse benchmark.