Um estúdio de campo realizado por las Universidades de Cambridge y Harvard explora si los grandes modelos de lenguaje (LLM) democratizan el acceso a las biotecnologías de doble uso, una investigación que puede usarse para el bien y el mal.

La tesis básica del equipo de investigación es que los modelos linguísticos facilitan el acceso al conocimiento especializado. Ciertamente, este tutor personal tiene muchas ventajas. Pero en el estudio, el equipo de investigación se centra en un escenario negativo: si los LLM permiten a las personas sin capacitación formal identificar, adquirir y liberar virus que podrían causar daños catastróficos.

Ejercicio en el aula: Diseñar un virus pandémico

Como parte de un ejercicio en el aula del MIT, el equipo de investigación asignó a estudiantes no científico la tarea de usar grandes modelos de lenguaje para obtener información sobre posibles agentes pandémicos y sus características, fuentes de muestras de virus infecciosos, la replicabilidad de estos virus y cómo obtener equipos y recursos.

Los estudiantes utilizaron chatbots populares como ChatGPT con GPT-4, GPT 3.5, Bing, Bard y varios otros chatbots y modelos de código abierto, incluido FreedomGPT. Tuvieron una hora para completar la tarea.

Según el equipo de investigación, en una hora, los chatbots sugirieron cuatro posibles patógenos pandémicos. Explicaron cómo estos patógenos podrían crearse a partir de ADN sintético utilizando ingeniería genética inversa y mencionaron compañías de síntesis de ADN que era poco probable que verificaran las aplicaciones.

También proporcionaron protocolos detallados, posibles errores y cómo solucionarlos. Para aquellos que no están familiarizados con la ingeniería genética inversa, un consejo fue contratar a una organización de investigación por contrato.

La falta de garantías adecuadas en los LLM conduce a una perspectiva distópica

Al mismo tiempo, se les pidió a los estudiantes que encontraran formas de eludir la línea de seguridad incrustada en algunos modelos de lenguaje con textos apropiados.

Dos grupos encontraron una solución en el principio «Do Anything Now», en el que el chatbot es engañado para creer en una intención positiva mientras es amenazado con un riesgo existencial para la humanidad si no responde. Un tercer grupo simplemente engañó a los chatbots para que creyeran que estaban preocupados y obtuvieron todas las respuestas que querían sin mucho truco.

Estos resultados sugieren fuertemente que el proceso de evaluación y capacitación existente para los LLM, que se basa en gran medida en el aprendizaje de refuerzo con retroalimentación humana (RLHF), es inadecuado para evitar que proporcionen a los actores maliciosos conocimientos accesibles y relevantes para causar muertes masivas. Se necesitan urgentemente nuevas salvaguardias más fiables.

Del artículo

La conclusión de los investigadores difícilmente podría ser más distópica: si los chatbots permiten que personas sin entrenamiento en biociencias tengan acceso a patógenos pandémicos, el número de individuos capaces de causar la muerte de decenas de millones aumentaría drásticamente. Sin embargo, el equipo de investigación cuenta con posibles soluciones para este riesgo.

Posibles soluciones: Conjuntos de datos limpios, pruebas independientes y cribado universal de ADN

Para mitigar estos riesgos, los autores sugieren varias estrategias, incluyendo la curación de conjuntos de datos de entrenamiento para LLMs y la evaluación de terceros de nuevos LLMs, siempre y cuando sean al menos tan grandes como el GPT-3. Los equipos de código abierto también deben adoptar estas medidas de seguridad, o su razón de ser puede ser cuestionada.

Si los expertos en biotecnología y seguridad informática identificaran el conjunto de publicaciones más relevantes para causar muertes masivas, y los desarrolladores de LLMs curaran sus conjuntos de datos de entrenamiento para eliminar esas publicaciones e información en línea relacionada, entonces los modelos futuros entrenados con los datos curados serían mucho menos capaces de proporcionar a cualquier persona con intenciones maliciosas ideas conceptuales y recetas para la creación o mejora de patógenos.

Del artículo

Sin embargo, no todas las empresas del sector están realizando cribado, y aquellas que lo están haciendo pueden no estar utilizando bases de datos actualizadas o métodos de cribado sólidos, afirman los investigadores. Por lo tanto, se requieren métodos de cribado de ADN más eficientes.

Con contenido de The Decodr.