El OpenProteinSet proporciona un conjunto masivo de datos de entrenamiento de la misma calidad que la utilizada para entrenar el AlphaFold 2, que no fue puesto a disposición de la comunidad de investigación.

Las proteínas son los «caballos de batalla» de la vida. Comprender sus secuencias y estructuras es fundamental para enfrentar desafíos que van desde el diseño de nuevas enzimas hasta el desarrollo de medicamentos que salvan vidas. En los últimos años, el sistema de IA AlphaFold 2, de DeepMind, ha revolucionado el campo al predecir estructuras de proteínas con una precisión sin precedentes. Sin embargo, según un nuevo artículo de investigadores de la Universidad Harvard, la Facultad de Medicina de Harvard, la Universidad Columbia, la Universidad de Nueva York y el Instituto Flatiron, el progreso ha sido obstaculizado por la falta de datos de entrenamiento abiertos.

Ahora, una base de datos de código abierto llamada OpenProteinSet tiene como objetivo cambiar esto, proporcionando datos de alineación de proteínas a gran escala.

OpenProteinSet proporciona 16 millones de alineaciones de secuencias múltiples

La función de una proteína está codificada en su secuencia de aminoácidos. A través de la evolución, pequeños cambios en estas secuencias se acumulan, mientras que la estructura y la función general permanecen iguales.

Las alineaciones de secuencias múltiples (MSAs) son conjuntos de secuencias de proteínas relacionadas evolutivamente alineadas mediante la inserción de huecos para que los aminoácidos correspondientes terminen en las mismas columnas. El análisis de patrones en estos MSAs proporciona información detallada sobre la estructura y función de una proteína.

Los MSAs han sido esenciales durante mucho tiempo para la investigación de proteínas, pero su utilidad explotó en 2021 con el AlphaFold 2, que predice estructuras de proteínas con una precisión cercana a la experimental basada en una gran cantidad de datos MSA. Aunque el AlphaFold 2 es de código abierto, sus datos de entrenamiento han permanecido privados.

El OpenProteinSet ahora proporciona 16 millones de MSAs y datos asociados, todos de código abierto. Incluye MSAs para las 140,000 proteínas en la Base de Datos de Proteínas (PDB), la base de datos definitiva de estructuras de proteínas determinadas experimentalmente. También incluye secuencias de la base de conocimiento UniProt, agrupadas por similitud.

Para las proteínas del PDB, el OpenProteinSet proporciona MSAs crudos de varias bases de datos de secuencias múltiples. También incluye proteínas estructuralmente similares identificadas mediante búsqueda en el PDB. Las estructuras predichas por el AlphaFold 2 se incluyen para 270,000 grupos diferentes de UniProt.

Los investigadores recrean el AlphaFold 2 con el conjunto de datos de código abierto

Los desarrolladores también utilizaron el OpenProteinSet para entrenar el OpenFold, una recreación abierta del AlphaFold 2. Según ellos, el OpenFold tiene un rendimiento similar al original, lo que demuestra la suficiencia de estos datos abiertos.

«Con el OpenProteinSet, hemos aumentado significativamente la cantidad y calidad de MSAs precomputados disponibles para las comunidades de aprendizaje automático molecular», dijo el equipo. «El conjunto de datos tiene aplicaciones inmediatas para diversas tareas en la biología estructural.»

El OpenProteinSet está alojado y disponible en AWS.