Un complejo ejercicio de la empresa de marketing en la nube Salesforce pretende mejorar la calidad de los resúmenes de artículos utilizando GPT-4.

La pregunta Cadena de Densidad pide primero al GPT-4 que cree un primer borrador de un resumen con el menor número posible de elementos. En los pasos siguientes, el cuestionario pide al GPT-4 que revise este resumen y añada más detalles.

Al igual que con la cadena de pensamiento, el modelo utiliza el primer resultado generado como plantilla para la siguiente generación. Cuantas más veces pase el modelo por este proceso, mayor será la densidad de información en el resumen para la misma longitud de caracteres.

«Los resúmenes generados por CoD son más abstractos, muestran una mayor fusión y tienen menos sesgo de plomo que los resúmenes GPT-4 generados por un prompt vainilla», escribe el equipo.

Artículo: {{article}
Generarás resúmenes cada vez más concisos y densos en entidades del artículo anterior. Repita los dos pasos siguientes 5 veces.

Paso 1: Identifique de 1 a 3 entidades informativas (delimitadas) del artículo que faltan en el resumen generado anteriormente.
Paso 2: Escriba un nuevo resumen más denso de idéntica longitud que abarque todas las entidades y detalles del resumen anterior más las entidades que faltan.

Una entidad que falta es
- Relevante: para las historias principales.
- Específica: descriptiva pero concisa (5 palabras o menos).
- Novedosa: no aparece en el resumen anterior.
- Fiel: presente en el artículo.
- En cualquier lugar: situada en el artículo.

Pautas:
- El primer resumen debe ser largo (4-5 frases, ~80 palabras), pero muy poco específico, con poca información más allá de las entidades marcadas como ausentes. Utilice un lenguaje demasiado ampuloso y rellenos (por ejemplo, "este artículo trata") para alcanzar las ~80 palabras.
- Haga que cada palabra cuente. Reescriba el resumen anterior para mejorar la fluidez y hacer espacio para entidades adicionales.
- Haga espacio con la fusión, compresión y eliminación de frases poco informativas como "el artículo discute".
- Los resúmenes deben ser muy densos y concisos, pero autocontenidos, es decir, fácilmente comprensibles sin el artículo.
- Las entidades que faltan pueden aparecer en cualquier parte del nuevo resumen.
- Nunca elimine entidades del resumen anterior. Si no se puede hacer espacio, añada menos entidades nuevas.

Recuerde: utilice exactamente el mismo número de palabras para cada resumen.
Responda en JSON. El JSON debe ser una lista (longitud 5) de diccionarios cuyas claves sean "missing_entities" y "denser_summary".
prompt

Bild: Salesforce

La complejidad de los resúmenes

El equipo de investigación probó el sistema con 100 artículos de noticias de CNN y DailyMail. Los revisores humanos, en este caso cuatro de los autores del artículo, clasificaron los resúmenes con la mejor puntuación después de unas tres pasadas.

Por término medio, GPT-4 calificó los resúmenes con la mejor nota en las dimensiones de información, calidad, coherencia, atribución y «global» después de dos pases. Se considera que el método CoD es superior a otro más sencillo que se puso a prueba («Escriba un resumen MUY breve del artículo. No supere las 70 palabras»).

«Sin embargo, cuando los resúmenes contienen muchas entidades por token, es muy difícil mantener la legibilidad y la coherencia», escribe el equipo.

tabela informativa

Imagen: Salesforce

En general, el primer y el último paso obtienen la peor puntuación, seguidos de cerca por los tres resúmenes intermedios. Que la puntuación del primer resumen sea más baja tiene sentido, teniendo en cuenta que la pregunta pide al modelo que escriba primero un resumen superficial.

El hecho de que las puntuaciones sean tan ajustadas también demuestra lo difícil que es evaluar textos por encima de un cierto nivel. Esto, a su vez, dificulta la medición del impacto de la ingeniería de instrucciones.

El equipo de investigación publica un conjunto de datos de 500 resúmenes de CoD anotados y 5.000 no anotados junto con la indicación.