Sistemas de IA desenvolvem senso de suas próprias limitações com mais tempo para “pensar”
Um novo estudo da Universidade Johns Hopkins mostra como dar mais tempo para os sistemas de IA “pensarem” aprimora sua capacidade de determinar quando podem e quando não podem responder com exatidão às perguntas.
A equipe de pesquisa examinou como o tempo adicional de processamento afeta a tomada de decisão da IA e desenvolveu uma nova estrutura de avaliação que corrige as limitações dos métodos tradicionais. Abordagens convencionais pressupõem que os modelos de IA devam fornecer sempre uma resposta, independentemente do nível de confiança – prática que, segundo os pesquisadores, não reflete os cenários do mundo real, onde respostas equivocadas podem ter sérias consequências.
Os pesquisadores testaram dois modelos de linguagem – DeepSeek R1-32B e s1-32B – utilizando 30 problemas matemáticos do conjunto de dados AIME24. Eles variaram o tempo de processamento disponível (especificamente, o número de tokens destinados ao raciocínio) e observaram o comportamento dos modelos em diferentes limiares de confiança.
Os resultados revelaram que um tempo maior para processar as informações não só elevou a precisão das respostas, como também aprimorou a capacidade dos sistemas de reconhecer quando não deveriam tentar responder. Com mais tempo para “pensar”, os modelos desenvolveram um senso mais apurado de quais questões poderiam ser respondidas com segurança e quais não poderiam.
O estudo avaliou três cenários de risco: “Exam Odds”, sem penalidades para respostas erradas; “Jeopardy Odds”, com igual ponderação entre recompensas e penalidades; e “High-Stakes Odds”, com penalidades severas para erros em contextos críticos de decisão.
Uma distinção interessante surgiu entre os modelos testados. Enquanto ambos apresentaram desempenho semelhante em condições padrão, o DeepSeek R1-32B obteve resultados significativamente melhores sob requisitos de confiança mais rigorosos – uma diferença que só se evidenciou graças à nova estrutura de avaliação implementada.
Os pesquisadores ressaltam que o método adotado para medir a confiança, baseado exclusivamente nas probabilidades dos tokens, pode não captar todos os aspectos da incerteza dos modelos. Além disso, ao focar em problemas matemáticos em inglês, eles podem ter deixado de considerar variações importantes presentes em outros domínios e idiomas.
A equipe recomenda que futuras pesquisas sobre ampliação do tempo de teste avaliem tanto as condições de “Exam Odds” quanto de “Jeopardy Odds”. Essa abordagem mais abrangente ajudaria os desenvolvedores a compreender melhor o desempenho dos sistemas em diferentes contextos de risco.
Você leu 2 de nossos artigos este mês. Obrigado pelo seu interesse!
Apoie nosso jornalismo independente e de acesso livre. Qualquer contribuição ajuda e garante o nosso futuro. Apoie agora:
Resumo
- Pesquisadores da Universidade Johns Hopkins investigaram o impacto do aumento do tempo de processamento na tomada de decisão dos sistemas de IA, criando uma nova estrutura de avaliação que supera as limitações dos métodos anteriores.
- Conceder mais “tempo para pensar” aos sistemas de IA não só aprimora a precisão das respostas, mas também fortalece a capacidade de identificar quando não é prudente fornecer uma resposta.
- O estudo ressaltou diferenças entre os modelos testados: embora ambos tenham se saído de forma semelhante em condições padrão, o DeepSeek R1-32B superou significativamente o s1-32B sob critérios de confiança mais exigentes – distinção que só se tornou evidente com a nova abordagem de avaliação.
Max é o editor-gerente da THE DECODER e utiliza seu conhecimento em filosofia para explorar questões relacionadas à consciência e se as máquinas realmente pensam ou apenas fingem fazê-lo.