Demostración científica con aprendizaje automático revela secuencias de ADN «extremas» con actividades personalizadas.
La inteligencia artificial (IA) ha captado la atención en nuestros titulares de noticias, con ChatGPT y otras tecnologías relacionadas con IA siendo objeto de amplio escrutinio público. Además de los populares chatbots, los biólogos están encontrando formas de aprovechar la IA para investigar las funciones esenciales de nuestros genes.
Previamente, investigadores de la Universidad de California en San Diego que estudian secuencias de ADN que activan genes utilizaron la inteligencia artificial para identificar una pieza enigmática vinculada a la activación de genes, un proceso fundamental involucrado en el crecimiento, desarrollo y enfermedades. Utilizando el aprendizaje automático, un tipo de inteligencia artificial, el profesor James T. Kadonaga, de la Escuela de Ciencias Biológicas, y sus colegas descubrieron la región del promotor central aguas abajo (DPR), un código de activación del ADN «puerta de entrada» que está involucrado en el funcionamiento de hasta un tercio de nuestros genes.
A partir de este descubrimiento, Kadonaga y los investigadores Long Vo Ngoc y Torrey E. Rhyne utilizaron el aprendizaje automático para identificar secuencias de ADN sintéticas «extremas» con funciones diseñadas específicamente para la activación de genes. Publicando en la revista Genes & Development, los investigadores probaron millones de secuencias de ADN diferentes utilizando el aprendizaje automático (IA), comparando el elemento de activación del gen DPR en humanos versus moscas de la fruta (Drosophila). Mediante el uso de IA, lograron encontrar secuencias DPR raras y personalizadas que están activas en humanos pero no en moscas de la fruta y viceversa. En términos más generales, este enfoque ahora podría utilizarse para identificar secuencias de ADN sintético con actividades que podrían ser útiles en biotecnología y medicina.
«En el futuro, esta estrategia podría usarse para identificar secuencias de ADN sintéticas extremas con aplicaciones prácticas y útiles. En lugar de comparar humanos (condición X) con moscas de la fruta (condición Y), podríamos probar la capacidad del medicamento A (condición X), pero no del medicamento B (condición Y), para activar un gen», dijo Kadonaga, un destacado profesor del Departamento de Biología Molecular. «Este método también podría usarse para encontrar secuencias de ADN personalizadas que activen un gen en el tejido 1 (condición X), pero no en el tejido 2 (condición Y). Hay numerosas aplicaciones prácticas de este enfoque basado en IA. Las secuencias de ADN sintéticas extremas pueden ser muy raras, tal vez una en un millón: si existen, pueden encontrarse utilizando IA».
El aprendizaje automático es una rama de la IA en la que los sistemas informáticos mejoran y aprenden continuamente a partir de datos y experiencias. En la nueva investigación, Kadonaga, Vo ngoc (un ex investigador postdoctoral de UC San Diego, ahora en Velia Therapeutics) y Rhyne (un investigador asociado) utilizaron un método conocido como regresión de vectores de soporte para «entrenar» modelos de aprendizaje automático con 200,000 secuencias de ADN establecidas basadas en datos de experimentos de laboratorio del mundo real. Estos se presentaron como ejemplos objetivo para el sistema de aprendizaje automático. Luego, «alimentaron» 50 millones de secuencias de ADN de prueba en los sistemas de aprendizaje automático para humanos y moscas de la fruta y les pidieron que compararan las secuencias e identificaran secuencias únicas en los dos conjuntos de datos masivos.
Aunque los sistemas de aprendizaje automático mostraron que las secuencias humanas y de moscas de la fruta se superponen en gran medida, los investigadores se centraron en la cuestión clave de si los modelos de IA podrían identificar casos raros en los que la activación del gen es altamente activa en humanos pero no en moscas de la fruta. La respuesta fue un rotundo «sí». Los modelos de aprendizaje automático pudieron identificar secuencias específicas de ADN humanas (y específicas de moscas de la fruta). Es importante destacar que las funciones predichas por la IA de las secuencias extremas fueron verificadas en el laboratorio de Kadonaga mediante métodos convencionales de prueba de laboratorio.
«Antes de embarcar en este trabajo, no sabíamos si los modelos de IA eran lo suficientemente ‘inteligentes' como para predecir las actividades de 50 millones de secuencias, especialmente secuencias ‘extremas' atípicas con actividades inusuales. Por lo tanto, es muy impresionante y notable que los modelos de IA pudieran predecir las actividades de las secuencias extremadamente raras, una entre un millón», dijo Kadonaga, añadiendo que sería prácticamente imposible llevar a cabo los comparables 100 millones de experimentos de laboratorio que la tecnología de aprendizaje automático analizó, ya que cada experimento de laboratorio llevaría casi tres semanas para completarse.
Las secuencias raras identificadas por el sistema de aprendizaje automático sirven como una demostración exitosa y sientan las bases para otros usos del aprendizaje automático y otras tecnologías de IA en biología.
«En la vida cotidiana, las personas están descubriendo nuevas aplicaciones para herramientas de IA, como ChatGPT. Aquí, hemos demostrado el uso de IA para el diseño de elementos de ADN personalizados en la activación de genes. Este método debe tener aplicaciones prácticas en biotecnología e investigación biomédica», dijo Kadonaga. «En general, los biólogos probablemente apenas están comenzando a explorar el poder de la tecnología de IA».
La investigación fue financiada por los Institutos Nacionales de Salud (R35 GM118060).
Fuente: UCSD