OpenAI's o3 atinge desempenho quase perfeito em benchmark de contexto longo
Um dos resultados mais impressionantes nos benchmarks recentes do o3 surge pelo seu desempenho em tarefas com contexto extenso.
Com suporte para até 200.000 tokens, o o3 é o primeiro modelo a atingir 100% no benchmark Fiction.live utilizando 128.000 tokens — cerca de 96.000 palavras. Para qualquer modelo de linguagem que lide com narrativas amplas ou documentos extensos, esse avanço representa um marco significativo. O único modelo que se aproxima é o Gemini 2.5 Pro do Google, que alcançou 90,6%, enquanto o o3-mini e o4-mini ficam consideravelmente atrás.
O teste Fiction.LiveBench foi desenvolvido para avaliar a capacidade dos modelos em compreender e reproduzir com precisão histórias complexas e seus contextos, mesmo quando o texto se estende por volumes extraordinários.
Modelos como o Llama 4 da Meta, por exemplo, anunciando uma janela de contexto de até dez milhões de tokens — um número impressionante no papel — na prática demonstram utilidade limitada, servindo mais para buscas simples de palavras do que para uma compreensão significativa de textos longos.
Diante da performance modesta de diversos modelos em se aprofundar na compreensão de contextos extensos, transformando amplas janelas de contexto em truques de marketing, o o3 se consolida como o padrão de referência para aplicações que demandam desempenho consistente e aprofundado em grandes volumes de entradas.