La Ciutat de Lleida

La UdL, en un projecte de traducció automàtica neuronal

La Universitat de Lleida (UdL) participa en un projecte de recerca, liderat per la Universitat Oberta de Catalunya (UOC), per desenvolupar un sistema basat en la Intel·ligència Artificial (IA) que tradueixi de forma automàtica totes les llengües romàniques de la península Ibèrica: castellà, català, portuguès, gallec, asturià, aragonès i aranès / occità. Amb la col·laboració de les universitats d’Oviedo i Saragossa, l’equip explora les tècniques més efectives per entrenar sistemes de traducció basats en xarxes neuronals, un model matemàtic de processament de dades que imita les connexions del sistema nerviós animal.
La traducció automàtica neuronal treballa amb corpus paral·lels, és a dir, conjunts de segments o oracions en una llengua amb els seus equivalents de traducció en una altra. Aquests sistemes no es desenvolupen, sinó que s’entrenen; és a dir, aprenen a traduir a partir de textos en la llengua de partida i en la d’arribada. Per a fer-ho, necessiten com a mínim entre 5 i 10 milions d’oracions. Com que aquests corpus no estan disponibles per a tots els parells de llengües, les investigadores i els investigadors se centren en l’aprenentatge per transferència (transfer learning). Es tracta d’aprofitar el coneixement d’un parell de llengües amb molts recursos i transferir-lo a altres que en tenen menys. Per exemple, per a entrenar un sistema castellà – aranès, que presenta molt pocs recursos, es pot utilitzar el coneixement d’un altre parell com el castellà – català, que disposa de grans corpus paral·lels.
Una altra tècnica que estan explorant és l’entrenament de sistemes multilingües per explotar les similituds entre idiomes. En un sistema com aquest, els parells de llengües amb menys recursos, com per exemple l’espanyol – aranès, s’aprofiten del coneixement après per altres parells, com l’espanyol – portuguès o l’espanyol – català. Els sistemes entrenats d’aquesta manera són fins i tot capaços de traduir entre parells de llengües per als quals no existeixen oracions paral·leles en el corpus d’entrenament, com podria ser el parell asturià – aranès.
La primera part del projecte es porta a terme fora dels laboratoris. Per disposar de les dades necessàries per entrenar els models d’IA, cal recopilar tot el material que sigui possible de l’asturià, l’aragonès i l’aranès /occità. En aquesta darrera llengua és on col·labora la professora del departament de Filologia i Comunicació de la UdL, Mar Font Martí.
Tags: Lleida
SergioLahoz

Missatges recents

El Roser d’Ordino i les festes majors de Canillo, Escaldes-Engordany i Sant Julià de Lòria tindran més busos nocturns

Reforç del bus nocturn durant les festes del Roser d'Ordino i les majors de Canillo, Escaldes-Engordany i Sant Julià de…

4 hores fa

Sabadell acull una nova edició del ‘Botiga al carrer. Rebaixes d’estiu’

Els carrers del centre de Sabadell tornen a acollir avui i demà una nova edició de la “Botiga al carrer.…

4 hores fa

Un empresari de Mollet, detingut pel robatori de més de 1.000 metres de cable de telefonia a Tortosa

Els Mossos d'Esquadra van detenir el passat 2 de juliol un home, de 45 anys, com a presumpte autor d'un…

4 hores fa

Uns 50 infants de l’Hospitalet planten nova vegetació a la plaça d’Eivissa

Una cinquantena d’infants de l’Esplai La Florida de L’Hospitalet han plantat vegetació a la plaça d’Eivissa. Han col·locat planta vivaç…

4 hores fa

4 detinguts a Tarragona per presentar-se a exàmens de conduir de forma fraudulenta

Els Mossos d'Esquadra han detingut quatre homes, d'entre 30 i 45 anys, a Tarragona com a presumptes autors d'un delicte…

5 hores fa

L’ArtCamp tornarà a reunir artistes dels cinc continents a Ordino del 9 al 18 de juliol

Andorra tornarà a ser escenari del 9 al 18 de juliol d'una trobada artística i intercultural única amb la celebració…

5 hores fa

Esta web utiliza cookies.