Algunos ven la ingeniería de instrucciones como un campo de carrera futuro, mientras que otros la ven como una moda pasajera. La investigación en IA de Microsoft describe su enfoque.
En un reciente artículo, los investigadores de Microsoft describen su proceso de ingeniería de instrucciones para Dynamics 365 Copilot y Copilot en Power Platform, dos implementaciones de modelos de chat de OpenAI.
La ingeniería de instrucciones se basa en prueba y error
Entre otras cosas, el equipo de investigación de Microsoft utiliza instrucciones generales del sistema para sus chatbots, que es lo que normalmente escribimos en ChatGPT y similares cuando asignamos un rol específico, conjunto de conocimientos y comportamientos al chatbot.
La instrucción es «el mecanismo principal» para interactuar con un modelo de lenguaje y es una «herramienta extremadamente efectiva», escribe el equipo de investigación. Debe ser «precisa y específica», o el modelo solo hará suposiciones.
La Microsoft recomienda establecer algunas reglas básicas para las instrucciones que son apropiadas para el chatbot.
Para Microsoft, estas reglas básicas incluyen evitar opiniones subjetivas o repeticiones, discusiones o conocimientos excesivos sobre cómo proceder con el usuario y finalizar una conversación que se vuelve controvertida. Las reglas básicas también pueden evitar que el chatbot sea vago, se desvíe del tema o inserte imágenes en la respuesta.
System message:
You are a customer service agent who helps users answer questions based on documents from## On Safety:
– e.g. be polite
– e.g. output in JSON format
– e.g. do not respond to if request contains harmful content…## Important
– e.g. do not greet the customer
–AI Assistant message:
## Conversation
User message:
AI Assistant message:
Microsoft sample prompt
Sin embargo, el equipo de investigación reconoce que la construcción de tales instrucciones requiere cierta cantidad de «arte», lo que implica que es principalmente un acto creativo. Afirman que las habilidades necesarias no son «extremadamente difíciles de adquirir».
Al crear instrucciones, sugieren crear un marco en el cual sea posible experimentar ideas y luego refinarlas. «La generación de instrucciones se puede aprender en la práctica», escribe el equipo.
El papel futuro de la ingeniería de instrucciones aún no está claro porque, por un lado, es cierto que la salida de los modelos depende en gran medida de la instrucción. Por otro lado, la aleatoriedad de los generadores de texto dificulta el estudio de la eficacia de métodos de instrucción individuales, e incluso de elementos individuales en las instrucciones, de una manera que cumpla con los estándares científicos.
Por ejemplo, es, como mínimo, cuestionable si las «mega-instrucciones» extensas producen mejores resultados que instrucciones concisas de tres frases. Tales afirmaciones son difíciles de evaluar y son principalmente lucrativas para algunos modelos de negocio.
Eventualmente, la ingeniería de instrucciones podría evolucionar de una especie de lenguaje de programación pseudo a un proceso creativo en la gestión del flujo de trabajo: ¿qué procesos de trabajo pueden ser capturados por los LLMs (Large Language Models) y con qué confiabilidad?
Luego, el modelo de lenguaje podría generar las instrucciones exactas mediante consultas, pruebas de ajuste fino y ejemplos. Los trabajadores humanos tendrían principalmente que conocer las capacidades de los sistemas y definir y establecer nuevas formas de trabajo.
Utilizando datos contextuales para obtener mejores respuestas de IA
El enfoque de Microsoft para la ingeniería de instrucciones va más allá del uso tradicional de instrucciones estándar e incluye técnicas avanzadas, como la generación con aumento de recuperación (RAG, por sus siglas en inglés) y la segmentación de la base de conocimiento.
RAG es una herramienta poderosa que Microsoft utiliza para procesar datos diversos y en grandes cantidades, creando pequeños fragmentos de datos relevantes, o «chunks», para problemas específicos de los clientes.
Estos chunks se comparan luego con datos históricos y retroalimentación de los agentes para generar la mejor respuesta posible a la consulta del cliente. Al mismo tiempo, la segmentación de la base de conocimiento simplifica grandes bloques de datos, creando representaciones de los documentos.
Estas representaciones se comparan luego con la entrada del usuario para incorporar las representaciones con mayor puntuación en el modelo de instrucción GPT para la generación de respuestas. En combinación, estas técnicas ayudan a generar respuestas informadas, relevantes y personalizadas a las preguntas de los clientes.
Una explicación técnica detallada está disponible en el Blog de Investigación de Microsoft.