Deepmind apresentou o AlphaGenome, um novo modelo de IA projetado para prever como até mesmo pequenas alterações no DNA podem influenciar a atividade dos genes. O modelo se concentra nas regiões não codificantes do DNA – extensões que não contêm instruções diretas para a construção de proteínas, mas atuam como centros reguladores, determinando quando e como os genes são ativados ou desativados. Essas regiões compõem a maior parte do genoma humano e sempre foram difíceis de interpretar.
O AlphaGenome analisa até um milhão de letras de DNA em uma única passagem, concentrando-se nesses segmentos não codificantes, que correspondem a cerca de 98% do DNA humano. Essas regiões são repletas de variantes relacionadas a doenças e, até então, eram notoriamente difíceis de decifrar. Ao contrário das regiões codificantes, que fornecem instruções para criar proteínas, as seções não codificantes desempenham um papel crucial na regulação da atividade gênica.
O modelo prevê uma variedade de propriedades moleculares para cada posição de uma sequência de DNA, tais como onde os genes começam e terminam, a quantidade de RNA produzida e os locais onde determinadas proteínas têm maior probabilidade de se ligar. Além disso, identifica os pontos de splicing – locais onde o RNA é cortado e religado durante a expressão gênica –, uma etapa em que falhas podem levar ao desenvolvimento de doenças graves.
O AlphaGenome realiza suas previsões com resolução de base única, abrangendo centenas de tipos celulares e tecidos. Para atingir esse resultado, a Deepmind combinou diversas técnicas de IA: camadas convolucionais para identificar pequenos padrões no DNA, transformers para lidar com relações de longo alcance, e camadas adicionais que integram todas as informações para gerar as previsões.
Um modelo, diversas tarefas
De acordo com a Deepmind, o AlphaGenome supera os modelos existentes em 22 dos 24 benchmarks analisados, além de superar ferramentas especializadas na previsão dos efeitos regulatórios de variantes genéticas em 24 dos 26 casos avaliados. Atualmente, é o único modelo capaz de prever simultaneamente todas as propriedades moleculares testadas. Os dados de treinamento provêm de grandes projetos de pesquisa pública, como ENCODE, GTEx, FANTOM5 e 4D Nucleome, que oferecem informações experimentais sobre a regulação gênica em diferentes tipos celulares.
Um dos pontos fortes do AlphaGenome é sua eficiência na avaliação de variantes genéticas. O modelo compara as previsões para sequências com e sem mutações, resumindo as diferenças em cada propriedade. Além disso, consegue identificar diretamente os pontos de junção do splicing a partir do DNA, o que pode impulsionar a pesquisa em doenças genéticas.
Aplicações em doenças e pesquisa básica
A Deepmind afirma que o AlphaGenome pode auxiliar os pesquisadores a compreender melhor as raízes genéticas das doenças. Em um exemplo, o modelo analisou uma mutação observada na leucemia linfoide aguda de células T (T-ALL) e previu corretamente que a alteração criaria um novo sítio de ligação para a proteína MYB, ativando um gene cancerígeno próximo – um mecanismo de doença já conhecido.
Além das pesquisas em doenças, o AlphaGenome pode ser útil na biologia sintética, auxiliando na criação de sequências de DNA destinadas à regulação gênica direcionada. O modelo também pode ajudar a identificar elementos funcionais do genoma que controlam tipos celulares específicos.
No momento, o AlphaGenome está disponível apenas para pesquisas não comerciais por meio de uma API. A Deepmind enfatiza que o modelo não foi desenvolvido nem validado para uso clínico, não sendo capaz de capturar completamente os processos complexos das doenças, que são influenciados pelo desenvolvimento e pelo ambiente, tampouco conseguir prever com total precisão os efeitos de elementos regulatórios distantes – localizados a mais de 100.000 bases do DNA.
Mesmo assim, a Deepmind enxerga um potencial de crescimento: com mais dados de treinamento, o AlphaGenome pode ser expandido para abranger outras espécies, tipos celulares e processos moleculares. A arquitetura do modelo é flexível e escalável, conforme destacado pela equipe de pesquisa.
Em resumo, o AlphaGenome prevê como as alterações no DNA não codificante influenciam a regulação dos genes, oferecendo novas perspectivas sobre regiões do genoma que, por muito tempo, foram envoltas em mistério.
