Sakana AI explora o pensamento temporal com um modelo de IA inspirado no cérebro
Sakana AI, uma startup sediada em Tóquio, apresentou um novo tipo de sistema de inteligência artificial projetado para imitar a forma como o cérebro processa o tempo. O novo modelo, chamado Continuous Thought Machine (CTM), adota uma abordagem diferente dos modelos de linguagem convencionais, concentrando-se em como os neurônios sintéticos se sincronizam ao longo do tempo, em vez de tratar a entrada como um instantâneo estático.
Ao invés das funções de ativação tradicionais, o CTM utiliza o que a Sakana denomina de modelos a nível de neurônio (NLMs), que monitoram um histórico contínuo de ativações passadas. Esses históricos influenciam o comportamento dos neurônios ao longo do tempo, com a sincronização entre eles formando a principal representação interna do modelo – um design inspirado nos padrões encontrados no cérebro biológico.
Quando a Sakana foi lançada em 2023, a empresa afirmou ter como objetivo desenvolver sistemas de IA inspirados na natureza. O CTM aparece como um dos primeiros resultados relevantes nessa empreitada. Um dos cofundadores, Llion Jones, foi um dos autores originais da arquitetura Transformer, atualmente base para quase todos os principais modelos generativos de IA.
Embora sistemas anteriores utilizassem técnicas como o budget forcing – uma forma de engenharia de prompt – para incentivar um raciocínio prolongado, o CTM propõe uma arquitetura completamente nova. Ele integra uma classe crescente de modelos de raciocínio que dependem de uma computação mais intensa durante a inferência, quando comparados aos modelos LLM padrão.
Um ciclo de pensamento passo a passo
O CTM introduz o conceito interno de tempo – os chamados “ticks internos” – desvinculado da entrada externa. Isso permite que o modelo execute múltiplos passos internos ao resolver um problema, ao invés de pular diretamente para a resposta final em uma única passagem.
Cada etapa começa com um “modelo de sinapse” que processa os estados atuais dos neurônios juntamente com a entrada externa para gerar pré-ativações. Cada neurônio mantém um histórico contínuo dessas pré-ativações, o qual é utilizado para calcular estados atualizados, ou pós-ativações, na fase subsequente. Esses estados se acumulam com o passar do tempo e são analisados para identificar sincronizações, que se tornam o principal sinal interno para direcionar a atenção e gerar previsões.
O CTM também incorpora um mecanismo de atenção para focar nas partes mais relevantes da entrada. Os estados atualizados dos neurônios e as características selecionadas da informação retornam ao ciclo para desencadear o próximo tick interno.

O modelo processa as informações em múltiplos passos internos, nos quais os estados dos neurônios, a atenção e a sincronização evoluem conjuntamente para formar a saída final.
Em testes iniciais, o CTM foi aplicado à classificação de imagens no conjunto ImageNet 1K. O sistema analisou diferentes regiões de cada imagem ao longo de diversos passos, alcançando 72,47% de acurácia top-1 e 89,89% de acurácia top-5 – resultados que, embora não sejam de ponta, são respeitáveis. Segundo a Sakana, o desempenho não foi o foco principal do projeto.
Além disso, o CTM adapta dinamicamente a profundidade de seu processamento. Para tarefas simples, ele pode interromper o processamento antecipadamente; para desafios mais complexos, o raciocínio se estende por mais tempo. Esse comportamento emerge naturalmente da arquitetura, sem a necessidade de funções de perda especiais ou critérios exatos de parada.
Sincronização como memória
A capacidade de raciocínio ao longo do tempo do CTM depende da sincronização entre os neurônios. Esses padrões, derivados do histórico de ativações, orientam tanto os mecanismos de atenção quanto os de previsão, permitindo que o sistema integre informações em múltiplas escalas temporais – desde reações de curto prazo a novas entradas até o reconhecimento de padrões mais prolongados.
Em um dos experimentos, o CTM foi testado na navegação por labirintos. O modelo pareceu planejar seu trajeto passo a passo, chegando até mesmo a resolver parcialmente labirintos maiores e mais complexos que nunca havia encontrado durante o treinamento. Para ilustrar esse desempenho, a Sakana disponibilizou uma demonstração interativa que exibe o modelo navegando por labirintos de 39×39 em até 150 etapas.

Como se compara
Para avaliar o desempenho do CTM, a equipe realizou testes comparando-o com redes Long Short-Term Memory (LSTMs), amplamente utilizadas para processamento de sequências, e com redes feedforward simples, que processam as entradas em uma única passagem. Em tarefas como a ordenação de sequências numéricas e o cálculo de paridades, o CTM demonstrou aprendizagem mais rápida e consistente do que as referências utilizadas, além de apresentar uma atividade neuronal mais complexa e variada. Resta saber se essa complexidade se traduz em desempenho superior em aplicações práticas.
No conjunto de dados CIFAR-10 – composto por 60.000 imagens distribuídas em dez categorias – o CTM superou ligeiramente os outros modelos. Suas previsões também coincidem de forma mais próxima com a forma como os humanos classificam as imagens. Testes semelhantes conduzidos no CIFAR-100, que contém 100 categorias, revelaram que, embora modelos maiores exibam padrões neuronais mais diversos, o acréscimo no número de neurônios nem sempre resulta em melhor acurácia.

Inspirado pela biologia, limitado pelo hardware
Embora o CTM não tenha a intenção de replicar o cérebro com perfeição, ele se inspira em conceitos da neurociência, especialmente no que diz respeito à sincronização baseada no tempo. Ainda que os neurônios reais não acessem seus históricos de ativação, os pesquisadores enfatizam que o modelo é uma inspiração funcional e não uma reprodução exata da biologia.
Contudo, há desafios a serem considerados. Por operar de forma recursiva, o CTM não permite uma paralelização simples durante o treinamento, o que pode reduzir a velocidade do processamento. Além disso, ele requer um número significativamente maior de parâmetros em comparação com os modelos tradicionais, aumentando a demanda computacional. Resta perceber se essa complexidade adicional trará ganhos relevantes em aplicações reais.
A Sakana disponibilizou o código e os checkpoints do modelo como open source por meio do repositório no GitHub e espera que o CTM sirva como base para futuras pesquisas em sistemas de inteligência artificial inspirados na biologia.