Hablar ya no es solo una capacidad humana. Tambiรฉn lo hacen las mรกquinas y cada vez mejor. En este nuevo espectro que se abre ante la inteligencia artificial, enseรฑar a hablar a una mรกquina no puede recaer solo en los programadores e ingenieros. Que las mรกquinas hablen y sean capaces de entendernos es gracias, entre otras cosas, a los lingรผistas computacionales
Leticia Martรญn-Fuentes trabaja como lingรผista computacional de Adecco para Google y da clases en lรญnea de introducciรณn a la programaciรณn. Es una de las personas que enseรฑa a entender y a hablar a las mรกquinas como un humano. En eso consiste el procesamiento de lenguaje natural (PLN). Y lo hace en espaรฑol.
ยซSi hablamos de PLN en IA, siempre hay dos vertientes: el natural language generation (NLG) o producciรณn de lenguaje natural, y el natural language understanding (NLU) o comprensiรณn del lenguaje natural. Para los humanos parece parte de lo mismo: hablar, porque pasamos de una a otra tarea en cuestiรณn de milisegundos. Pero constantemente estamos mandando y recibiendo mensajes, que son tareas muy distintasยป.
Para tratar de lograr que esos mensajes sean entendidos por la mayor parte de los hablantes cuando hablan las mรกquinas, los lingรผistas computacionales utilizan el lenguaje normativo. Dentro de esa norma, explica Martรญn-Fuentes, se busca que los mensajes sean naturales, que huyan de expresiones esquemรกticas como ยซSalida programada para el vuelo: 17.00ยป y usen otras mรกs fluidas como ยซEl vuelo saldrรก a las cinco de la tardeยป. El objetivo es que una mรกquina no diga nada que no dirรญa un humano. De ahรญ que se busque un espaรฑol lo mรกs neutro y sujeto a las reglas posible.
Sin embargo, afirma, tambiรฉn se busca que esos sistemas de inteligencia artificial sean capaces de entender a la mayor cantidad posible de hablantes, por lo que deben entrenar a ese NLU con ejemplos tanto normativos como no normativos. ยซLos asistentes estรกn pensados para acompaรฑarte en el dรญa a dรญa, asรญ que estรกn presentes en todo tipo de รกmbitos. Asรญ, tenemos que tener en cuenta rasgos de la lengua informal como leรญsmos, laรญsmos, anacolutos, redundanciasโฆ ยกincluso el lenguaje keyword! [usar frases del estilo: โactivaciรณn subtรญtulos espaรฑolโ]ยป. Es decir, transmitimos nuestros propios sesgos lingรผรญsticos a las mรกquinas para que sean capaces de entendernos hablemos como hablemos.
Cuenta Leticia Martรญn-Fuentes que lo mรกs difรญcil de enseรฑar a hablar a una mรกquina son las ambigรผedades. El ejemplo mรกs divertido lo aportรณ el escritor Juan Josรฉ Millรกs en un programa de la Cadena SER cuando contaba que Siri le llamaba Maรฑana porque la IA habรญa entendido que lo que le pedรญa no era que hiciera una llamada telefรณnica (un intent โlo que el usuario quiere que haga la mรกquinaโ que seguramente no debรญa existir en su programaciรณn), sino que lo que le estaba solicitando es que cambiara la forma en que debรญa dirigirse a รฉl.
ยซLos problemas mรกs grandes provienen de que la mรกquina no sabe lo que es hablar, porque los humanos tampoco sabemos absolutamente todo lo que ocurre en el acto de habla. Pero la buena noticia es que, gracias a este desarrollo en la industria y en la investigaciรณn, cada vez estamos mรกs cerca de elloยป.
IA, TIENES EXAMEN DE LENGUA
Santiago Muรฑoz Machado, actual director de la RAE, abogaba en una entrevista publicada conjuntamente en Archiletras y en Telos por que la inteligencia artificial hable ยซun espaรฑol correcto, adecuado a las normas, que no lo diversifiquen ni lo fragmentenยป. En este sentido, la Academia ha impulsado junto con grandes empresas tecnolรณgicas como Telefรณnica, Facebook, Microsoft, Google, Twitter y Amazon el proyecto LEIA (Lengua Espaรฑola e Inteligencia Artificial). Con รฉl, esas empresas se comprometen a velar por el buen uso del idioma siguiendo los criterios aprobados por la RAE y a que el espaรฑol estรฉ disponible como lengua de uso de sus productos y servicios.
Pero Martรญn-Fuentes no comparte con el director de la RAE ese miedo a la diversificaciรณn ni a quienes pronostican un empobrecimiento lingรผรญstico. ยซA mรญ, en realidad, me da mรกs miedo que con los asistentes virtuales la lengua tienda a la unidad y la homogeneidad, ya que las mรกquinas no poseen (de momento) la creatividad lingรผรญstica que tenemos los humanos, que nos lleva a crear nuevas palabras cada dรญaยป. Basta pensar, dice, en los SMS y en cรณmo nos llevรกbamos las manos a la cabeza con la forma y el estilo en el que se escribรญan. ยซEl legado que nos han dejado es un puรฑado de acortamientos y abreviaturas nuevas, asรญ que, si hacemos balance, mรกs bien hemos ganado algoยป.
El peligro real, sin embargo, podrรญa estar en la falta de contenidos tecnolรณgicos y cientรญficos creados en espaรฑol. Segรบn el estudio El espaรฑol, una lengua viva, de Daniel Fernรกndez Vรญtores, profesor de la Universidad de Alcalรก de Henares, realizado en 2018 para el Instituto Cervantes, el espaรฑol es la segunda lengua mรกs utilizada en redes sociales, pero ocupa el noveno lugar en las entradas de Wikipedia, por debajo de otras lenguas como el inglรฉs, el alemรกn, el ruso o incluso el sueco.
Y eso, para expertos y periodistas como Arsenio Escolar, director de Archiletras, supone una amenaza para el futuro de nuestro idioma. ยซHay un dรฉficit de contenidos cientรญficos, desde la medicina a la neurociencia, donde nos superan lenguas que en hablantes totales son muy inferiores, como, por ejemplo, el ruso o el alemรกnยป, afirmaba en un artรญculo de El Cultural. ยซHay que intentar convencer a los cientรญficos de que publiquen tambiรฉn en su lengua materna. Ese es el reto, y a ver si somos capaces de afrontarloยป.
En ese sentido tambiรฉn se pronunciรณ Muรฑoz Machado en la presentaciรณn del proyecto LEIA durante el acto de clausura del XVI Congreso de la Asociaciรณn de Academias de la Lengua (ASALE) que tuvo lugar en Sevilla a principios de noviembre. ยซSu lengua [la de las mรกquinas y la IA] tiende a diversificarse y hay que tomar medidas. La IA habla inglรฉs, fundamentalmente, y tenemos que procurar que, poco a poco, el espaรฑol coja una posiciรณn eminente en el mundo de la IA, pero tambiรฉn en el mundo general de las redesยป.
Mientras eso llega, Mario Tascรณn, presidente de la Fundรฉu, ve un problema derivado de esa falta de terminologรญa en espaรฑol para denominar nuevas realidades: la traducciรณn y adaptaciรณn a nuestro idioma de esas palabras que no deja de crear la tecnologรญa. ยซUn smart speaker es un altavoz inteligente, pero tambiรฉn es un micrรณfono con altavoz, ยฟcรณmo lo traducimos?ยป, se preguntaba en una entrevista para El Paรญs. ยซNos cuesta, pero usamos sin problema los anglicismos crudosยป, concluรญa
Martรญn-Fuentes, sin embargo, ve mรกs problemรกtico que al estar escrita en inglรฉs, esa documentaciรณn e informaciรณn no pueda llegar a quienes no dominen ese idioma. ยซAdemรกs, el problema no es solo que la ciencia y la tecnologรญa se estรฉn documentando prรกcticamente en un idioma, sino que el procesamiento del lenguaje natural tambiรฉn tiende a trabajar รบnicamente en un idioma. Coincido con Rodrigo Agerri en que en espaรฑol hacen falta corpus anotados al nivel de los que estรกn disponibles en inglรฉs; por ejemplo, serรญa estupendo poder descargar el CORPES o el CREA anotados, pero ahora mismo solo se pueden consultarยป.
Agerri es investigador en procesamiento de lenguaje natural y trabaja actualmente en el Centro para el Lenguaje Tecnolรณgico de la Universidad del Paรญs Vasco. Fue uno de los participantes, junto con Leticia Martรญn-Fuentes, en el XIV Seminario de Lengua y Periodismo organizado por la Fundรฉu y la Fundaciรณn San Millรกn el pasado mes de octubre, que llevaba como lema El espaรฑol y las mรกquinas: lenguaje, รฉtica y periodismo.
Los corpus a los que hace referencia la lingรผista computacional se crean a travรฉs del etiquetado de palabras y se incorporan parรกmetros para detectar ambigรผedades, diferentes significados y usos. Esos corpus son la herramienta bรกsica de la que se valen los lingรผistas computacionales para entrenar a los sistemas de PLN. Y en opiniรณn de Agerri, debido a que no existe ninguno de calidad en espaรฑol, las herramientas acaban desarrollรกndose en inglรฉs puesto que en Espaรฑa no hay interรฉs en desarrollarlos ya que implica un proceso muy costoso.
ยซTodas esas aplicaciones necesitan elementos bรกsicos para su desarrollo y en eso no estamos avanzando en el espaรฑol, aunque deberรญa ser una cuestiรณn estratรฉgica que nos afecta a todosยป, afirmรณ en el Seminario. ยซSi no lo hacemos nosotros, lo harรกn otros, en China o Estados Unidos, y seremos tecnolรณgicamente dependientesยป.
AMENAZAS DE CIENCIA FICCIรN
Cada vez es mรกs frecuente encontrar noticias en diarios cuyo autor no es humano. La existencia de robots periodistas estรก dejando de ser un fenรณmeno de la ciencia ficciรณn para convertirse en una realidad. Dail Software, empresa espaรฑola experta en inteligencia artificial, PLN y machine learning ha creado LeoRobotIA, una herramienta que nace de la colaboraciรณn entre expertos en IA, lingรผistas computacionales y periodistas especializados en tecnologรญa. Leo es capaz de escribir textos en lengua castellana de miles de palabras en milรฉsimas de segundo partiendo de datos estructurados y convertirlos en escritos que sean perfectamente comprensibles para el lector.
ยซCon los datos que nos proporciona un proveedor, enseรฑamos a la mรกquina a escribir de fรบtbol, de smartphones, de coches, de resultados financierosโฆ y le enseรฑamos a escribir, ademรกs, como quiere el clienteยป, explica Juan Carlos F. Galindo, cofundador de LeoRobotIA en el blog de Dail Software. Sus creadores presentan la herramienta como una ayuda al periodista y no como una amenaza, ya que le permitirรก dedicar su tiempo a la creaciรณn de contenidos de valor, mรกs creativos, dejando el rutinario anรกlisis de datos, que es donde mรกs efectivo se presenta Leo, en manos de esos robots.
Pero el miedo es libre y no todos lo ven de una manera positiva. ยฟLlegarรกn estos sistemas de inteligencia artificial a sustituir a los humanos en la tarea de creaciรณn de textos? Leticia Martรญn-Fuentes no lo tiene tan claro. ยซSe necesitarรญa una mรกquina que no solo procesara datos estructurados, como ahora, sino que hiciera tareas complejรญsimas como leer entre lรญneas lo que quiere decir una persona, entender su actitud, tener una visiรณn de cรณmo funciona el mundoโฆ para que pudiera producir textos complejos de la misma forma que un periodista. Y para eso queda mucho, pero, por quรฉ no, podrรญa llegarยป.
Y ya puestos a imaginar, supongamos que un dรญa los humanos desaparecen de este mundo y solo las mรกquinas habitaran la Tierra. ยฟSeguirรญan ellas haciendo evolucionar los idiomas? ยฟAcabarรญa el espaรฑol estancado, sonando a circuito y metal? Como dirรญa don Juan, cuรกn largo me lo fiais. Dependerรญa, dice Martรญn-Fuentes, de cuรกnta creatividad humana hubiรฉramos conseguido enseรฑarles antes.
ยซA los lingรผistas nos interesa el lenguaje humano, las innovaciones que las personas vamos introduciendo en la lengua, porque es donde se deja ver su funcionamiento internoยป. Esa clase de innovaciรณn, se pregunta, ยฟnos interesa enseรฑรกrsela a las mรกquinas?
ยซY aunque nos interesara y lo hiciรฉramos, y pudiรฉramos hablar de creatividad real porque las mรกquinas hayan inventado sus propias normas nuevas, mucho descontrol tendrรญamos que tener sobre ellas para que los que las hayan programado no sepan a quรฉ se debe esa innovaciรณn. Asรญ que, resumiendo, puede que evolucionen en la misma direcciรณn que si las hablaran tambiรฉn humanos, o en una distinta, dependiendo de lo que les enseรฑemos, pero creo que nunca serรญan objeto de estudio de la lingรผรญsticaยป.
Olvidamos a menudo que los humanos tambiรฉn somos mรกquinas. Nuestra espontaneidad , nuestra tristeza y nuestra alegrรญa, tambiรฉn es la suya. Olvidamos a menudo tambiรฉn que un humano suele tardar entre 15 y 18 aรฑos en aprender y comprender un รบnico idioma correctamente, con fluidez y sin faltas (algunos humanos nunca lo consiguen en toda una vida entera). Estas tasas y ritmos de aprendizaje y comprensiรณn sonrojan de forma cรณmplice a nuestras compaรฑeras de aprendizaje lingรผรญstico, las mรกquinas, los robots y las/os asistentas/es de voz.