«BigCode», una iniciativa conjunta de Hugging Face y ServiceNow, presenta Starcoder y StarcoderBase, dos grandes modelos lingüísticos de código abierto. Los investigadores hacen especial hincapié en la selección transparente y respetuosa con los derechos de autor de los datos.

Los modelos Starcoder, con 15.500 millones de parámetros, son capaces de generar código en 86 lenguajes de programación. En un enfoque innovador, los investigadores utilizaron un método denominado «atención a múltiples consultas», que permite a los modelos Starcoder centrarse en varias partes del código al mismo tiempo, en lugar de procesar cada token secuencialmente. Esto permite a los dos modelos de Starcoder leer grandes cantidades de código (ventanas contextuales de 8K) de forma más rápida y eficiente, lo que acelera la comprensión y generación de código.

Según la investigadora participante, Lubna Ben Allal, los modelos Starcoder se entrenaron con datos muy seleccionados, lo que requirió un gran esfuerzo humano: «Inspeccionamos manualmente entre 50 y 100 archivos de todas las extensiones en los lenguajes de programación seleccionados y elegimos los filtros adecuados», explica Ben Allal.

El trabajo parece haber merecido la pena: ambos modelos obtienen mejores resultados en las pruebas comparativas que cualquier otro modelo abierto compatible con varios lenguajes de programación, e incluso igualan o superan al modelo «code-cushman-001» de OpenAI.

Esto sitúa a Starcoder en la creciente lista de modelos de IA de código abierto que pueden competir con los modelos industriales patentados, aunque el rendimiento del código de Starcoder puede seguir estando por detrás de GPT-4.

El equipo de Starcoder respeta la privacidad y los derechos de autor

Ambos modelos también pretenden establecer un nuevo estándar en la gestión de datos. El equipo afirma haber utilizado únicamente datos permitidos sin referencias personales para el entrenamiento de datos y también ha implementado un mecanismo de exclusión y un mecanismo de búsqueda de fragmentos de código en caso de que quieras comprobar si tu código está incluido en los datos utilizados de la base de datos The Stack.

El equipo publica el modelo Starcoder bajo la licencia Open Responsible AI Model, que admite el uso comercial. El modelo no está optimizado para recibir instrucciones de forma inmediata, pero puede optimizarse como asistente técnico con algunas instrucciones adicionales. Toda la información adicional pertinente y los enlaces se pueden encontrar en HuggingFace Starcoder.