Maya Bodnick, estudiante de la Universidad de Harvard, quería ver si GPT-4 podía aprobar los ensayos de primer curso de Harvard en humanidades y ciencias sociales.
Bodnick hizo que GPT-4 escribiera siete ensayos sobre temas como conceptos económicos, el presidencialismo en América Latina y un análisis literario de un pasaje de Proust.
A continuación, entregó los ensayos a los profesores para su evaluación, indicando, a efectos de parcialidad, que el ensayo había sido escrito por ella o por GPT-4. De hecho, GPT-4 escribió todos los ensayos. De hecho, GPT-4 escribió todos los ensayos utilizando la tarea de redacción como estímulo.
El resultado: A. A. A-. B. B-. Aprobado. GPT-4 obtuvo una respetable media de 3,57 puntos, según Bodnick.
La estudiante dijo que envió las respuestas de GPT-4 sin editar, pero con dos advertencias: unió el ensayo a partir de varias respuestas para cumplir con el límite de palabras, ya que GPT-4 genera un máximo de 750 palabras a la vez.
También pidió a los revisores que ignoraran las citas que faltaban y que GPT-4 no podía proporcionar. Estas citas normalmente formarían parte de la nota.
Grandes notas con elogios especiales y pocas críticas
Además de algunas calificaciones excelentes, los revisores concedieron elogios especiales, como «bellamente escrito» o «ensayo bien articulado». En uno de los ensayos sobre resolución de conflictos, el revisor criticó el estilo rebuscado de la redacción, con muchos adjetivos y metáforas.
En cuanto al contenido, los análisis también fueron positivos, por ejemplo elogiando el alto nivel de detalle o el enfoque estructurado de cada pregunta. La nota más baja, «B-«, se otorgó al ensayo sobre el presidencialismo en América Latina, en el que el revisor criticó el ensayo por ignorar las evaluaciones positivas del presidencialismo, así como los aspectos económicos.
«Creo que podemos extrapolar del sólido rendimiento general de ChatGPT-4 que los ensayos generados por IA probablemente pueden obtener notas de aprobado en las clases de artes liberales en la mayoría de las universidades del país», escribe Bodnick. En Princeton o en la Universidad de Berkeley, esas notas podrían haber sido de notable y sobresaliente en lugar de sobresaliente y matrícula de honor. Aun así, habrían aprobado el GPT-4″. Los siete ensayos pueden verse aquí.
Un nuevo paradigma para el aprendizaje y la enseñanza
Bodnick cree que la IA cambiará por completo la forma de enseñar humanidades y ciencias sociales. Afirma que nunca ha sido tan fácil hacer trampas en una tarea, y que la tecnología probablemente será aún mejor en cosas como las citas.
Recientemente, importantes empresas de IA se ofrecieron a desarrollar un sistema de marcas de agua. Sin embargo, OpenAI retiró su detector por falta de precisión, y el consejero delegado de OpenAI, Sam Altman, ha expresado constantemente sus dudas de que un sistema de reconocimiento de texto basado en IA funcione a medio y largo plazo.
Por lo tanto, las pruebas tendrán que volver, al menos en parte, a las entrevistas cara a cara en lugar de a los ensayos, afirma Bodnick. Para ella, el hecho de que el GPT-4 consiguiera escribir sus ensayos es indicativo de posibles avances en su futura profesión.
Por eso, dice, es importante que el sistema educativo utilice sus hallazgos para reflexionar sobre cómo están cambiando las carreras y cómo prepararse para ellas, en lugar de intentar identificar y castigar los ensayos de las IA.
«Mi reacción inicial es que los estudiantes de humanidades -que pasan la mayor parte de su carrera académica escribiendo ensayos- se enfrentarán a dificultades aún mayores en un mundo post IA. La IA no sólo está llegando al ensayo universitario; está llegando a la clase de cerebro»