OpenAI diz que os principais modelos de IA estão atingindo nível de especialista em trabalhos de conhecimento do mundo real
O GDPval estabelece um novo padrão para avaliação de IA em trabalhos de conhecimento do mundo real, com 1.320 tarefas envolvendo 44 profissões, todas revisadas por especialistas da indústria.
A OpenAI lançou o GDPval, uma nova referência criada para avaliar o desempenho da inteligência artificial em trabalhos de conhecimento reais. A primeira versão abrange 44 profissões de nove setores estratégicos, que, juntas, representam mais de 5% do PIB dos Estados Unidos.
Para definir as funções avaliadas, a OpenAI selecionou os empregos mais bem remunerados desses setores e aplicou filtros para garantir que pelo menos 60% das atividades não sejam de natureza física. A seleção foi baseada em dados oficiais e informações detalhadas sobre as ocupações, coletadas a partir de fontes renomadas.
As tarefas abrangem áreas como tecnologia, enfermagem, direito, desenvolvimento de software, jornalismo e outras. Cada tarefa foi elaborada por profissionais com, em média, 14 anos de experiência e é fundamentada em produtos reais, como pareceres jurídicos, planos de cuidados e apresentações técnicas.
Tarefas reais, requisitos reais
Diferentemente dos testes tradicionais de IA, que se baseiam em comandos simples, as atividades do GDPval exigem materiais complementares e resultados em formatos complexos. Por exemplo, um engenheiro mecânico pode ser solicitado a projetar um banco de testes para um sistema de enrolamento de cabos, desenvolver um modelo 3D e montar uma apresentação em PowerPoint, tudo isso a partir de especificações técnicas detalhadas.

Cada resultado é avaliado por especialistas da indústria, que, em testes às cegas, comparam as respostas da IA com soluções de referência elaboradas por humanos, classificando-as como “melhor”, “tão boa quanto” ou “pior”.
A OpenAI também desenvolveu um assistente experimental baseado em IA para simular essa avaliação humana. Conforme detalhado em um artigo técnico, cada tarefa passou por aproximadamente cinco rodadas de revisão, envolvendo verificações pelos pares, avaliações adicionais de especialistas e validação automatizada.
Modelos líderes se aproximam do desempenho de especialistas
Os primeiros resultados mostram que modelos de ponta, como o GPT-5 e o Claude Opus 4.1, estão cada vez mais próximos do desempenho de um especialista. Em cerca de metade das 220 tarefas de referência publicadas até o momento, os especialistas consideraram o trabalho da IA equivalente ou superior ao trabalho humano.
O GPT-5 apresenta ganhos significativos em comparação com seu antecessor, o GPT-4, lançado na primavera de 2024. Dependendo do critério, as pontuações do GPT-5 dobraram ou até triplicaram. Já o Claude Opus 4.1 sobressai em estética e formatação, enquanto o GPT-5 lidera em expertise e precisão.

A OpenAI destaca, ainda, ganhos expressivos em eficiência: as atividades foram concluídas cerca de 100 vezes mais rápido e a um custo 100 vezes menor do que o de especialistas humanos, considerando apenas o tempo de inferência e os custos de API. Embora a utilização da IA na primeira etapa possa representar economia de tempo e recursos, os fluxos de trabalho reais ainda dependem da revisão, iteração e integração feitas por pessoas.
Mas ainda não é uma simulação completa do ambiente de trabalho
No momento, o GDPval adota tarefas “one-shot”: os modelos têm apenas uma chance por atividade, sem receber feedback, construir contexto ou iterar. As atividades não contemplam a ambiguidade típica do mundo real, como requisitos pouco claros ou a necessidade de interações constantes com colegas e clientes. Em vez disso, o teste avalia como os modelos realizam etapas isoladas em ambiente computacional.
A OpenAI ressalta que os modelos atuais de IA não estão prontos para substituir empregos inteiros, pois são mais eficazes na automação de tarefas repetitivas e claramente estruturadas. Além disso, o conjunto de testes é relativamente limitado, com cerca de 30 tarefas por profissão dentre as 44 avaliadas.
A empresa planeja que futuras versões do GDPval se aproximem mais das condições reais de trabalho, incorporando tarefas interativas e cenários com maior ambiguidade ou ciclos de feedback. O objetivo a longo prazo é monitorar sistematicamente o impacto econômico da IA e compreender como ela está transformando o mercado de trabalho.