La Ciutat de Lleida

La UdL, en un proyecto de traducción automática neuronal

Redacció

05 de julio de 2023 a las 11:33h

La Universidad de Lleida (UdL) participa en un proyecto de investigación, liderado por la Universitat Oberta de Catalunya (UOC), para desarrollar un sistema basado en la Inteligencia Artificial (IA) que traduzca de forma automática todas las lenguas románicas de la península Ibérica: castellano, catalán, portugués, gallego, asturiano, aragonés y aranés / occitano. Con la colaboración de las universidades de Oviedo y Zaragoza, el equipo explora las técnicas más efectivas para entrenar sistemas de traducción basados en redes neuronales, un modelo matemático de procesamiento de datos que imita las conexiones del sistema nervioso animal.

La traducción automática neuronal trabaja con corpus paralelos, es decir, conjuntos de segmentos u oraciones en una lengua con sus equivalentes de traducción en otra. Estos sistemas no se desarrollan, sino que se entrenan; es decir, aprenden a traducir a partir de textos en la lengua de partida y en la de llegada. Para hacerlo, necesitan como mínimo entre 5 y 10 millones de oraciones. Como que estos corpus no están disponibles para todos los pares de lenguas, las investigadoras y los investigadores se centran en el aprendizaje por transferencia (transfer learning). Se trata de aprovechar el conocimiento de un par de lenguas con muchos recursos y transferirlo a otros que tienen menos. Por ejemplo, para entrenar un sistema castellano - aranés, que presenta muy pocos recursos, se puede utilizar el conocimiento de otro par como el castellano - catalán, que dispone de grandes corpus paralelos.

Otra técnica que están explorando es el entrenamiento de sistemas multilingües para explotar las similitudes entre idiomas. En un sistema como este, los pares de lenguas con menos recursos, como por ejemplo el español - aranés, se aprovechan del conocimiento aprendido por otros pares, como el español - portugués o el español - catalán. Los sistemas entrenados de esta manera son incluso capaces de traducir entre pares de lenguas para los cuales no existen oraciones paralelas en el corpus de entrenamiento, como podría ser el par asturiano - aranés.

La primera parte del proyecto se lleva a cabo fuera de los laboratorios. Para disponer de los datos necesarios para entrenar los modelos de IA, hay que recopilar todo el material que sea posible del asturiano, el aragonés y el aranés /occitan. En esta última lengua es donde colabora la profesora del departamento de Filología y Comunicación de la UdL, Mar Font Martí.