L’OpenProteinSet fournit un ensemble de données massif de la même qualité que celui utilisé pour former l’AlphaFold 2, qui n’a pas été mis à la disposition de la communauté de recherche.

Les protéines sont les « chevaux de trait » de la vie. Comprendre leurs séquences et leurs structures est essentiel pour relever des défis allant de la conception de nouvelles enzymes au développement de médicaments qui sauvent des vies. Ces dernières années, le système d’IA AlphaFold 2 de DeepMind a révolutionné le domaine en prédisant les structures protéiques avec une précision sans précédent. Cependant, selon un nouvel article de chercheurs de l’Université Harvard, de la Faculté de médecine de Harvard, de l’Université Columbia, de l’Université de New York et de l’Institut Flatiron, les progrès ont été entravés par le manque de données d’entraînement ouvertes.

Un nouvel ensemble de données en libre accès appelé OpenProteinSet vise désormais à changer cela en fournissant des données d’alignement de protéines à grande échelle.

OpenProteinSet fournit 16 millions d’alignements de séquences multiples

La fonction d’une protéine est encodée dans sa séquence d’acides aminés. Au fil de l’évolution, de petites modifications de ces séquences s’accumulent, tandis que la structure et la fonction globales restent les mêmes.

Les alignements de séquences multiples (MSA) sont des ensembles de séquences de protéines liées par évolution alignées par l’insertion de lacunes afin que les acides aminés correspondants se retrouvent dans les mêmes colonnes. L’analyse de motifs dans ces MSA fournit des informations riches sur la structure et la fonction d’une protéine.

Les MSA ont été essentiels depuis longtemps pour la recherche sur les protéines, mais leur utilité a explosé en 2021 avec l’AlphaFold2, qui prédit les structures protéiques avec une précision proche de l’expérimentale sur la base d’une quantité massive de données MSA. Bien que l’AlphaFold 2 soit en libre accès, ses données d’entraînement sont restées privées.

OpenProteinSet fournit désormais 16 millions de MSA et les données associées, toutes en libre accès. Il comprend des MSA pour les 140 000 protéines de la Base de données des protéines (PDB), la base de données définitive des structures protéiques déterminées expérimentalement. Il inclut également des séquences de la base de connaissances UniProt, regroupées par similarité.

Pour les protéines du PDB, OpenProteinSet fournit des MSA bruts à partir de plusieurs bases de données de séquences multiples. Il inclut également des protéines structuralement similaires identifiées par recherche dans le PDB. Les structures prédites par l’AlphaFold 2 sont incluses pour 270 000 groupes UniProt différents.

Les chercheurs recréent l’AlphaFold 2 avec l’ensemble de données en libre accès

Les développeurs ont également utilisé OpenProteinSet pour former OpenFold, une re-création ouverte de l’AlphaFold 2. Selon eux, OpenFold a des performances similaires à l’original, démontrant ainsi l’adéquation de ces données ouvertes.

« Avec OpenProteinSet, nous avons considérablement augmenté la quantité et la qualité des MSA précalculés disponibles pour les communautés d’apprentissage automatique moléculaire », a déclaré l’équipe. « L’ensemble de données a des applications immédiates pour diverses tâches en biologie structurale. »

OpenProteinSet est hébergé et disponible sur AWS.