Hablar lenguas, querer comunicarse por encima de las barreras lingüísticas es una actitud. Cuando hablamos de idiomas con millones de hablantes (el inglés, el francés, el alemán, el japonés…) es fácil encontrar alguna aplicación que funcione como traductor. Detrás de ellas suele haber una inteligencia artificial que permite que sean herramientas cada vez más potentes. Pero si quisiéramos entendernos con un hablante de alguna de las lenguas minoritarias que se hablan por el mundo, la cosa se complicaría un poco más.
Las IA necesitan aprender a fuerza de leer corpus, millones de oraciones y palabras en esos idiomas. Y en el caso de las lenguas minoritarias, estos testimonios no son tan fáciles de localizar, por lo que resulta complicado entrenar a la inteligencia artificial para que aprende a hablarlas.
Para paliar esta carencia, el proyecto Traducción Automática Neuronal para las lenguas románicas de la península ibérica (TAN-IBE) explora las técnicas más efectivas para entrenar sistemas de traducción automática basados en redes neuronales. Está financiado por el Ministerio de Ciencia, Innovación y Universidades y coordinado por la Universitat Oberta de Catalunya (UOC), y quiere aplicarse a siete lenguas románicas de la península ibérica: español, portugués, catalán, gallego, asturiano, aragonés y aranés.
CÓMO ENTRENAR A TU IA
Uno de los sistemas para entrenar a una inteligencia artificial y que sea capaz de traducir de una lengua a otra es a través de redes neuronales. Las redes neuronales que forman el sistema de traducción automática neuronal están formadas, a su vez, «por una serie de unidades llamadas neuronas artificiales, que a partir de una o más entradas y unos factores de ponderación, dan una determinada salida», explica Antoni Oliver, investigador del grupo de investigación interuniversitario en Aplicaciones Lingüísticas (GRIAL-UOC), coordinador del proyecto TAN-IBE y profesor de los Estudios de Artes y Humanidades de la UOC.
«Estos sistemas aprenden a transformar una oración en una lengua, a su traducción a otra lengua. Para ello, las oraciones se representan mediante vectores. Los sistemas neuronales se entrenan a partir de grandes conjuntos de oraciones en una lengua con sus correspondientes traducciones a otras lenguas, lo que se denomina corpus paralelo.
El entrenamiento consiste en calcular las ponderaciones óptimas para que la red neuronal sea capaz de traducir. La ventaja de este tipo de sistemas es que aprenden a traducir a partir de un gran volumen de texto original y traducido. De esta manera, a medida que se dispone de más textos, se pueden realizar reentrenamientos de los sistemas, y así los motores de traducción van mejorando con el tiempo».
Con idiomas como el español o el portugués es sencillo encontrar esos corpus paralelos, pero no tanto con el aranés, por ejemplo. «Lo bueno es que los sistemas neuronales pueden aprender cosas de una lengua a partir de otra que se le parezca —explica Oliver—. Por eso escogimos las lenguas románicas. El proceso deberá ser capaz de aprender por transferencia utilizando un modelo entre dos lenguas para construir el sistema de traducción entre otras dos. Así, por ejemplo, cuando esté terminada, la herramienta de traducción español-aranés habrá aprendido en parte gracias al sistema español-catalán o al español-portugués», añade.
En una primera fase del proyecto, es necesario recopilar el máximo material necesario de testimonios en asturiano, aragonés y aranés con los que poder entrenar a estos modelos de inteligencia artificial. Y para conseguirlos, se ha llegado a acuerdos con universidades, editoriales y gobiernos autonómicos. Uno de ellos ha sido el del Principado de Asturias, que ha cedido textos traducidos del castellano al asturiano. A cambio, el gobierno asturiano podrá disponer de lo avanzado en el proyecto TAN-IBE si lo necesita para sus propios proyectos de traducción automática.
«En última instancia, con este proyecto pretendemos ayudar a fomentar el uso de las lenguas con menos recursos y que se publique más en dichas lenguas», aclara Antoni Oliver.
«Por ejemplo, todas las leyes podrían publicarse en dos lenguas de forma rápida y eficiente, invirtiendo menos recursos, aunque siempre se necesitaría una revisión humana. Además, las personas que no se atreven a usar estas lenguas porque no se sienten seguras pueden apoyarse en estas herramientas para mejorar sus textos. Por último, las lenguas como el asturiano, el aragonés o el aranés deben formar parte de las tecnologías digitales. Si no, pueden ir desapareciendo y ser olvidadas».
LOS OBJETIVOS
Pero la construcción de un modelo de traducción no es el único objetivo de este programa. La investigación busca también compilar corpus paralelos y monolingües para las lenguas románicas en las que se basa, prestando especial atención al asturiano, al aragonés y al aranés.
De paso, se explorarán nuevas técnicas para el entrenamiento de sistemas de traducción automática neuronal. Y no solo se estudiará aprendizaje por transferencia, sino también la traducción automática multilingüe, la traducción automática autosupervisada y la traducción automática no supervisada.
Otra de las metas de la investigación es entrenar sistemas de traducción automática neuronal entre el español y el resto de las lenguas del proyecto, en ambas direcciones, y entrenar sistemas multilingües capaces de traducir desde y hacia todas las lenguas del proyecto. También, crear guías y scripts que faciliten el entrenamiento de sistemas de traducción automática neuronal en general y, más en concreto, para las lenguas del proyecto.
Los resultados de la investigación se publicarán con licencias libres, lo que incluye los corpus compilados, los modelos y motores de traducción automática y las guías y scripts.
¿Y POR QUÉ UN TRADUCTOR DE LENGUAS MINORITARIAS?
A proyectos como TAN-IBE no solo hay que buscarles una vía práctica para valorarlos. Estamos hablando de ciencia e investigación diseñadas por investigadores, y su motivación fundamental es el avance científico, «en este caso, la lingüística computacional o procesamiento del lenguaje natural —justifica Antoni Oliver—. La misma investigación se podría haber llevado a cabo con otro conjunto de lenguas, pero se ha escogido este por el ámbito geográfico y por la familia lingüística».
«Creemos, además, que los resultados podrán ser de gran interés para la protección y el fomento de estas lenguas con menos hablantes y recursos. La protección de las lenguas amenazadas también es un tema de interés para todos los investigadores que nos dedicamos a la lingüística», concluye el investigador de la UOC.
Lo cierto es que las lenguas minoritarias en sí ya son interesantes desde el punto de vista de la investigación, opina Oliver, porque son lenguas que, normalmente, disponen de pocos recursos lingüísticos. «Esto hace que el entrenamiento de motores de traducción neuronal para estas lenguas sea un reto científico interesante. Por otro lado, estamos convencidos de que las tecnologías del lenguaje y muy especialmente la traducción automática, pueden fomentar el uso de estas lenguas y, por tanto, sean un factor decisivo para su revitalización».
TRADUCTOR HUMANO VS. TRADUCTOR AUTOMÁTICO
Las inteligencias artificiales resultan tan atractivas como amenazantes. La literatura fantástica y las teorías catastrofistas alrededor de ellas no están ayudando mucho en este sentido. Sin embargo, el investigador de la UOC tiene claro que los miedos alrededor de esta tecnología son infundados. «Es una tecnología que puede tener aplicaciones muy interesantes y que en general aportará más beneficios que problemas».
[pullquote]«Las lenguas como el asturiano, el aragonés o el aranés deben formar parte de las tecnologías digitales. Si no, pueden ir desapareciendo y ser olvidadas»[/pullquote]
En su opinión, un traductor profesional no debe sentirse amenazado por los sistemas de traducción automática neuronales. «Antes de estos ya existía la traducción automática estadística, que conseguía también muy buenos resultados para lenguas próximas. Y antes aún los sistemas de transferencia sintáctica, por ejemplo, conseguían resultados buenísimos para lenguas muy próximas, como castellano-catalán, castellano-francés, etc. Estas tecnologías anteriores, que llevan mucho tiempo en el mercado, no han eliminado la necesidad de disponer de buenos traductores humanos».
Además, no es cierto que los sistemas de traducción automática, sobre todo los neuronales, hayan conseguido la paridad en cuanto a calidad con los traductores humanos. No, al menos, frente a un buen traductor de carne y hueso. Por tanto, será difícil que estas herramientas puedan sustituirlos.
«Los traductores automáticos pueden ayudar a optimizar procesos y costes de traducción y conseguir que se traduzca mucho más material. Pero si se requiere una traducción de calidad, el traductor humano todavía es imprescindible», confirma Antoni Oliver.
Pero los sistemas de traducción automática también tienen sus puntos fuertes frente a sus colegas humanos. «Los sistemas automáticos pueden dar una buena calidad a una velocidad muy alta. Esto los convierten en óptimos para algunas tareas, como pueden ser la traducción de correos electrónicos, chats, cuando queremos tener una idea del contenido general de un texto, etc.», explica el investigador de la UOC.
«Pero si hablamos de obtener traducciones fiables con calidad publicable, el traductor humano es imprescindible. O bien porque traduce desde cero el texto, o bien mediante un flujo de traducción automática más posedición humana, donde el traductor humano revisa, corrige y adapta la traducción automática proporcionada por la máquina».