La Ciutat de Barcelona

La inteligencia artificial suspende en gramática

Redacció

11 de enero de 2024 a las 11:29h

El lenguaje es uno de los principales rasgos que diferencia a los seres humanos de otras especies. De dónde procede, cómo se aprende y por qué las personas han sido capaces de desarrollar este sistema de comunicación tan complejo ha generado muchos interrogantes a lingüistas e investigadores de diversos campos de la investigación. En los últimos años se ha avanzado mucho al intentar enseñar el lenguaje a los ordenadores, y esto ha dado lugar a la aparición de los llamados grandes modelos de lenguaje, tecnologías entrenadas a partir de enormes cantidades de datos que son la base de algunas aplicaciones de inteligencia artificial (IA): motores de búsqueda, traductores automáticos o convertidores de audio a texto, por ejemplo.

Pero, ¿cómo son las capacidades lingüísticas de estos modelos? ¿Se pueden equiparar a las de un ser humano? Un equipo investigador liderado por la URV con participación de la Universidad Humboldt de Berlín, la Universidad Autónoma de Barcelona (UAB) y la Institución Catalana de Investigación y Estudios Avanzados (ICREA) puso a prueba estos sistemas para comprobar si realmente tienen capacidades lingüísticas equiparables a las de las personas. Para ello compararon la habilidad humana con la de los tres mejores grandes modelos de lenguaje disponibles actualmente: dos basados en GPT3, así como ChatGPT, basado en GP3.5.

Se les asignó una tarea fácilmente ejecutable para las personas: a partir de muchos tipos diferentes de oraciones debían identificar al momento si ésta estaba gramaticalmente bien formada en su lengua materna o no. Tanto a los humanos que participaron en este experimento como a los modelos del estudio se les hizo una pregunta muy simple: “¿Esta oración es gramaticalmente correcta?”.

Los resultados demostraron que los humanos respondieron correctamente, mientras que los grandes modelos de lenguaje dieron muchas respuestas erróneas. De hecho, se detectó que adoptaron una estrategia predeterminada que consistía en responder “sí” la mayor parte de las veces, independientemente de si la respuesta era correcta o no.

“El resultado es sorprendente, ya que a estos sistemas se les instruye según lo que es gramaticalmente correcto o no en un idioma”, explica Vittoria Dentella, investigadora del Departamento de Estudios Ingleses y Alemanes, que ha liderado el estudio. Los evaluadores humanos capacitan a estos grandes modelos de lenguaje explícitamente sobre el estado de gramaticalidad de las construcciones que pueden encontrar. A través del proceso de aprendizaje reforzado a partir de la retroalimentación humana, a estos modelos se les pondrá ejemplos de frases que no están gramaticalmente bien construidas y se les dará la versión correcta. Este tipo de instrucción es una parte fundamental de su “entrenamiento”. Esto, en cambio, no ocurre en los humanos. “Si bien las personas que educan a un bebé pueden corregirle ocasionalmente la forma en que habla, esto no ocurre constantemente ni en todas las comunidades lingüísticas del mundo”, afirma la investigadora.

El estudio, pues, pone de manifiesto que existe un doble desajuste entre humanos e IA. Las personas no tienen acceso a “evidencia negativa” —sobre lo que no es gramaticalmente correcto en ese idioma—, mientras que los grandes modelos de lenguaje tienen un amplio acceso a esta información a través de la retroalimentación humana, pero aun así no pueden reconocer errores gramaticales triviales, mientras que los humanos pueden hacerlo instantáneamente y sin esfuerzo.

“Desarrollar herramientas útiles y seguras de inteligencia artificial puede ser muy útil, pero pasa necesariamente por determinar sus limitaciones. Dado que la mayoría de las aplicaciones de IA dependen de la comprensión de órdenes dadas en lenguaje natural, determinar estas limitaciones en el manejo de la gramática, como hemos hecho en este estudio, es de vital importancia”, señala Evelina Leivada, profesora de investigación ICREA en el Departamento de Filología Catalana de la UAB.

“Con estos resultados pensamos que es necesaria una reflexión crítica sobre las afirmaciones que atribuyen a las IA capacidades lingüísticas similares a las de las personas”, concluye Dentella, quien considera que adoptar estos modelos de lenguaje como teorías de lenguaje humano no está justificado en la etapa actual de su desarrollo.