Um estudo realizado por pesquisadores da Korea University, Upstage AI e AIGEN Sciences identificou componentes especializados em grandes modelos de linguagem que lidam com informações dependentes do tempo. Essas “cabeças temporais” desempenham um papel crucial na forma como os sistemas de IA processam fatos que se transformam com o passar dos anos.
Os pesquisadores descobriram que essas cabeças temporais existem em diversos modelos de linguagem, embora suas localizações exatas possam variar entre os sistemas. Suas respostas também diferem conforme o tipo de conhecimento processado e o ano em questão.
Esses componentes especializados não apenas entendem referências diretas a datas, como “Em 2004”, mas também são capazes de interpretar frases temporais mais complexas, por exemplo, “O ano em que as Olimpíadas foram realizadas em Atenas”. Isso sugere que os modelos desenvolveram uma compreensão mais sutil do tempo, que vai além do simples processamento numérico.
Descoberta pode possibilitar atualizações direcionadas nos modelos
Quando os pesquisadores desativaram essas cabeças temporais, os modelos perderam a capacidade de recordar informações específicas de tempo, mantendo intactas as demais funcionalidades. Essa interrupção seletiva não afetou a maneira como os modelos lidavam com conhecimentos independentes do tempo ou como respondiam a questionamentos gerais.
A equipe também constatou que era possível modificar o conhecimento temporal ajustando os valores desses componentes especializados. Essa abordagem pode reduzir significativamente os custos de manter os sistemas de IA atualizados, pois, em vez de re-treinar modelos inteiros – um processo caro e demorado – os desenvolvedores poderiam atualizar informações sensíveis ao tempo focando apenas nessas cabeças temporais.
No entanto, os pesquisadores reconhecem limitações importantes em seu trabalho. Modelos menores, como o Phi-3-mini, que conta com apenas 3,8 bilhões de parâmetros, não respondem tão efetivamente à manipulação direcionada das cabeças temporais. É provável que esses modelos exijam mecanismos mais complexos, que ainda precisam ser descobertos e compreendidos.
Resumo
- Identificação de componentes especiais: Pesquisadores identificaram as “cabeças temporais” em grandes modelos de linguagem, responsáveis pelo processamento de informações dependentes do tempo e fundamentais para tratar fatos que se alteram ao longo dos anos.
- Compreensão temporal ampliada: Essas cabeças não respondem apenas a dados diretos de anos, mas também a informações temporais descritivas, indicando que codificam uma dimensão do tempo que vai além da simples representação numérica.
- Atualizações direcionadas: A descoberta abre a possibilidade de atualizar especificamente os conhecimentos dependentes do tempo em sistemas de IA, sem a necessidade de re-treinar todo o modelo.