Tencent Hunyuan-T1

A Tencent afirma que seu novo modelo Hunyuan-T1 é capaz de competir de igual para igual com os melhores sistemas de raciocínio da OpenAI. Utilizando uma abordagem baseada em aprendizado por reforço, a empresa destinou 96,7% do poder computacional pós-treinamento para aprimorar o raciocínio lógico e garantir o alinhamento com as preferências humanas.

Em avaliações que abrangem 14 áreas do conhecimento, o Hunyuan-T1 obteve 87,2 pontos no MMLU-PRO, ficando em segundo lugar, atrás do modelo o1 da OpenAI. No teste de raciocínio científico GPQA-diamond, a pontuação foi de 69,3. O modelo se destaca especialmente na matemática, alcançando 96,2 pontos no benchmark MATH-500, ficando logo atrás do Deepseek-R1, e apresentou desempenhos sólidos em testes como o LiveCodeBench (64,9 pontos) e o ArenaHard (91,9 pontos).

Para o treinamento, a Tencent adotou uma abordagem de aprendizado progressivo, aumentando gradativamente a dificuldade dos desafios. Além disso, foi desenvolvido um sistema de auto-recompensa onde versões anteriores do modelo avaliavam os resultados das versões mais recentes, impulsionando melhorias contínuas.

A arquitetura Transformer Mamba, aplicada no Hunyuan-T1, processa textos extensos com o dobro de velocidade em comparação aos modelos convencionais, segundo a empresa. O modelo já está disponível por meio da Tencent Cloud, e uma demonstração pode ser conferida em plataformas especializadas.

Benchmarks são apenas isso

Considerando que os principais modelos já atingem acurácias superiores a 90% em testes padrão, o Google Deepmind lançou um benchmark mais desafiador, o BIG-Bench Extra Hard (BBEH). Mesmo os sistemas de ponta enfrentam dificuldades nesse cenário – o melhor desempenho da OpenAI, representado pelo o3-mini (high), atingiu apenas 44,8% de precisão.

Outro resultado surpreendente foi observado com o Deepseek-R1, que, apesar de seu desempenho robusto em outros testes, registrou cerca de 7%. Essa diferença evidencia que os resultados dos benchmarks não revelam toda a complexidade do desempenho real, especialmente quando equipes de desenvolvimento otimizam os modelos especificamente para esses testes. Alguns modelos de origem chinesa, por exemplo, podem inserir caracteres chineses em respostas formuladas em inglês.

  • A gigante chinesa Tencent revelou o Hunyuan-T1, um modelo de IA que apresenta desempenho comparável aos sistemas de raciocínio da OpenAI.
  • O modelo foi treinado principalmente com técnicas de aprendizado por reforço, complementado por uma estratégia de aprendizado progressivo.
  • A utilização da arquitetura Transformer Mamba permite o processamento de textos extensos com maior velocidade, dobrando a eficiência na geração de respostas.