La Ciutat de Lleida

La UdL, en un projecte de traducció automàtica neuronal

La Universitat de Lleida (UdL) participa en un projecte de recerca, liderat per la Universitat Oberta de Catalunya (UOC), per desenvolupar un sistema basat en la Intel·ligència Artificial (IA) que tradueixi de forma automàtica totes les llengües romàniques de la península Ibèrica: castellà, català, portuguès, gallec, asturià, aragonès i aranès / occità. Amb la col·laboració de les universitats d’Oviedo i Saragossa, l’equip explora les tècniques més efectives per entrenar sistemes de traducció basats en xarxes neuronals, un model matemàtic de processament de dades que imita les connexions del sistema nerviós animal.
La traducció automàtica neuronal treballa amb corpus paral·lels, és a dir, conjunts de segments o oracions en una llengua amb els seus equivalents de traducció en una altra. Aquests sistemes no es desenvolupen, sinó que s’entrenen; és a dir, aprenen a traduir a partir de textos en la llengua de partida i en la d’arribada. Per a fer-ho, necessiten com a mínim entre 5 i 10 milions d’oracions. Com que aquests corpus no estan disponibles per a tots els parells de llengües, les investigadores i els investigadors se centren en l’aprenentatge per transferència (transfer learning). Es tracta d’aprofitar el coneixement d’un parell de llengües amb molts recursos i transferir-lo a altres que en tenen menys. Per exemple, per a entrenar un sistema castellà – aranès, que presenta molt pocs recursos, es pot utilitzar el coneixement d’un altre parell com el castellà – català, que disposa de grans corpus paral·lels.
Una altra tècnica que estan explorant és l’entrenament de sistemes multilingües per explotar les similituds entre idiomes. En un sistema com aquest, els parells de llengües amb menys recursos, com per exemple l’espanyol – aranès, s’aprofiten del coneixement après per altres parells, com l’espanyol – portuguès o l’espanyol – català. Els sistemes entrenats d’aquesta manera són fins i tot capaços de traduir entre parells de llengües per als quals no existeixen oracions paral·leles en el corpus d’entrenament, com podria ser el parell asturià – aranès.
La primera part del projecte es porta a terme fora dels laboratoris. Per disposar de les dades necessàries per entrenar els models d’IA, cal recopilar tot el material que sigui possible de l’asturià, l’aragonès i l’aranès /occità. En aquesta darrera llengua és on col·labora la professora del departament de Filologia i Comunicació de la UdL, Mar Font Martí.
Tags: Lleida
SergioLahoz

Missatges recents

Les hipoteques continuen a l’alça a Catalunya: el millor febrer des del 2011

El nombre d'hipoteques sobre habitatges a Catalunya va augmentar un 16,2% al febrer en comparació al mateix mes de l'any…

2 minuts fa

El transport públic metropolità també assoleix un rècord històric per Sant Jordi

El metro de Barcelona ha marcat un rècord històric amb més de 1.875.000 validacions durant la celebració de Sant Jordi.…

18 minuts fa

L’itinerari de La Ruta del Cister GR 175 ha acollit més de 500 persones durant la Setmana Santa

Recórrer a peu o en bicicleta —convencional o elèctrica— l’itinerari de La Ruta del Cister que segueix el traçat del…

21 minuts fa

El millor bàsquet català arriba a Vilafranca del Penedès amb els torneigs de Seleccions Territorials

Aquest cap de setmana Vilafranca acollirà una nova jornada de competicions de bàsquet. La Ciutat del Bàsquet Català 2025 serà…

25 minuts fa

Desarticulada una xarxa que difonia imatges íntimes de dones a través de canals de missatgeria

La Policia Nacional ha desarticulat una xarxa dedicada a la difusió d'imatges íntimes de dones a través de canals de…

40 minuts fa

Fingeix el seu propi segrest per a no haver d’explicar on havia passat la nit a la dona

Un home de 48 anys ha estat investigat per la Guàrdia Civil com a presumpte autor d’un delicte de simulació…

42 minuts fa

Esta web utiliza cookies.