O OpenProteinSet fornece um conjunto de dados maciço da mesma qualidade que aquele usado para treinar o AlphaFold 2, que não foi disponibilizado para a comunidade de pesquisa.
As proteínas são os “cavalos de trabalho” da vida. Compreender suas sequências e estruturas é fundamental para enfrentar desafios que vão desde o projeto de novas enzimas até o desenvolvimento de medicamentos que salvam vidas. Nos últimos anos, o sistema de IA AlphaFold 2, da DeepMind, revolucionou o campo, prevendo estruturas de proteínas com uma precisão sem precedentes. No entanto, de acordo com um novo artigo de pesquisadores da Universidade Harvard, Faculdade de Medicina de Harvard, Universidade Columbia, Universidade de Nova York e Instituto Flatiron, o progresso tem sido prejudicado pela falta de dados de treinamento abertos.
Agora, um banco de dados de código aberto chamado OpenProteinSet visa mudar isso, fornecendo dados de alinhamento de proteínas em grande escala.
O OpenProteinSet fornece 16 milhões de alinhamentos de sequências múltiplas
A função de uma proteína está codificada em sua sequência de aminoácidos. Através da evolução, pequenas mudanças nessas sequências se acumulam, enquanto a estrutura e a função geral permanecem as mesmas.
Alinhamentos de sequências múltiplas (MSAs) são conjuntos de sequências de proteínas relacionadas evolutivamente alinhadas pela inserção de lacunas para que os aminoácidos correspondentes acabem nas mesmas colunas. A análise de padrões nesses MSAs fornece insights ricos na estrutura e função de uma proteína.
As MSAs têm sido essenciais há muito tempo para a pesquisa de proteínas, mas sua utilidade explodiu em 2021 com o AlphaFold2, que prevê estruturas de proteínas com uma precisão próxima da experimental com base em uma quantidade massiva de dados MSA. Embora o AlphaFold 2 seja de código aberto, seus dados de treinamento permaneceram privados.
O OpenProteinSet agora fornece 16 milhões de MSAs e dados associados, todos de código aberto. Ele inclui MSAs para todas as 140.000 proteínas no Banco de Dados de Proteínas (PDB), o banco de dados definitivo de estruturas de proteínas determinadas experimentalmente. Ele também inclui sequências da base de conhecimento UniProt, agrupadas por similaridade.
Para as proteínas do PDB, o OpenProteinSet fornece MSAs brutos de várias bases de dados de sequências múltiplas. Ele também inclui proteínas estruturalmente similares identificadas por busca no PDB. Estruturas previstas pelo AlphaFold2 estão incluídas para 270.000 diferentes grupos UniProt.
Pesquisadores recriam o AlphaFold 2 com o conjunto de dados de código aberto
Os desenvolvedores também usaram o OpenProteinSet para treinar o OpenFold, uma recriação aberta do AlphaFold 2. Segundo eles, o OpenFold tem desempenho semelhante ao original, provando a suficiência desses dados abertos.
“Com o OpenProteinSet, aumentamos significativamente a quantidade e a qualidade de MSAs pré-computados disponíveis para as comunidades de aprendizado de máquina molecular”, disse a equipe. “O conjunto de dados tem aplicações imediatas para diversas tarefas na biologia estrutural.”
O OpenProteinSet está hospedado e disponível na AWS.