«¿Netflixeamos algo esta noche?» es uno de los planes que proponemos en mi casa muchos fines de semana en los que solo apetece peli, sofá y manta. Netflixear, obviamente, no está en el diccionario oficial, pero sí forma parte de nuestro vocabulario familiar, igual que otros muchos términos.
De esta manera, jugamos a ser dioses lingüísticos y nos da por crear palabras que tienen la particularidad de pertenecernos solo a nosotros. Y no somos los únicos: seguro que en tu círculo familiar y amistoso ocurre lo mismo. En tu casa, como en la mía, lo decís así y ya está.
Al fin y al cabo, lo que hacemos todos con el idioma —además de lo obvio, que es comunicarnos— es jugar, seamos conscientes o no de ello. Y eso mismo, divertirse con las palabras, es lo que ha hecho Juan Alonso, programador informático que explora las posibilidades artísticas y creativas de los ordenardores y de la inteligencia artificial, con la colaboración de Pablo Serret de Ena, artista multidisciplinar, y Leticia Martín-Fuentes, lingüista computacional. Juntos han creado En mi casa lo decimos así (Arranca Ediciones, 2022), un lemario de verbos generados con la ayuda de una red neuronal.
«El proyecto surge en 2020, antes de GPT-3 y la locura de estas últimas semanas», explica Juan Alonso. «Yo quería probar un modelo que aprendiera a generar palabras o frases, y que lo pudieras entrenar rápidamente, aunque no tuvieras una máquina especializada. Como no podía recopilar ni limpiar decenas de miles de textos en español, se me ocurrió crear una lista de los verbos que existen en español (un poco más de 11.000); entrené a la red con esos datos y monté una web en la que pulsas un botón y te genera verbos nuevos».
¿Y por qué solo verbos y no otro tipo de palabras? Sencillamente, porque dan más juego: «normalmente indican acción, adoptan un montón de formas al conjugarlos y se puede deducir mejor su significado según el contexto», confirma Alonso.
El programador usó un modelo llamado char-RNN — «pequeño para los estándares de ahora», comenta—, capaz de predecir patrones de caracteres. Alonso lleva años experimentando con las posibilidades creativas y artísticas de los ordenadores, y este proyecto era una vía más de exploración.
«Creé una lista de verbos en español, basándome en el lemario de Ismael Olea y el lemario de Ignacio Mario Morales, y los usé para entrenar a la red usando diferentes hiperparámetros: varios tamaños de red, distintas longitudes de secuencias generadas… hasta dar con una combinación que creaba combinaciones plausibles. El entrenamiento dura más o menos un par de horas en un ordenador normal y corriente, sin tarjeta especializada», explica el proceso.
Acalabrarse, berrecer, agüintarse, conglorificar, obesitar, pollificar, jimiar, printarse… fueron algunos de los miles de resultados que creó la red neuronal. Convencido de que ese juego podía tener mucho de divertido pero también de creativo, se lo mostró a su amigo Pablo Serret de Ena. Como artista que es, enseguida encontró la belleza del proyecto.
Alonso y él se habían conocido años antes en Copenhague, ciudad donde reside Serret de Ena y donde acudió Alonso a cursar un máster en sonido y computación. Desde entonces, han desarrollado ideas y proyectos conjuntos.
Así que animó al programador a convertir esa web y ese juego en un libro-objeto. Serret de Ena se encargó de la maquetación y Alonso, de generar los verbos, alrededor de unos mil, en un primer momento.
«Me suena que en ese momento estaba la RAE un poco pesada con las palabras de primera (las que aparecen en el diccionario) y las de segunda (las que no), y de ahí surgió el título. Si yo digo «esta noche japoneamos» y mi familia entiende que vamos a pedir sushi o ramen, me da igual que la palabra aparezca o no en el diccionario, porque «en mi casa lo decimos así»».
«Ahí nos dimos cuenta de que el proyecto se nos quedaba un poco cojo y que necesitábamos un marchamo lingüístico, y fue cuando acudimos a Leticia, que nos escribió un prólogo maravilloso y nos ha estado dando apoyo con esos temas», continúa explicando Juan Alonso. «Desechamos parte de los verbos generados, bien porque ya existían (los cruzamos con dos diccionarios online), bien porque eran incorrectos o porque rompían la maquetación de alguna manera, y finalmente nos quedamos con unos 700».
«Esta red neuronal es capaz de crear palabras siguiendo un mecanismo que es el que menos utilizamos los humanos para crear nuevas palabras», precisa la autora del prólogo (¿o acaso habría que decir, como ella misma propone, próverbio?) de En mi casa lo decimos así, Leticia Martín-Fuentes.
«Me explico: las palabras que genera son combinaciones de letras que ha aprendido que son posibles en español, así que son invenciones aleatorias que han pasado ese test. Ha aprendido cómo se combinan las sílabas en español, podríamos decir. Pero si le pidiéramos a un humano que generara 700 palabras en español, seguramente serían muy distintas; probablemente muchas saldrían de lexemas que ya forman parte de otros verbos».
Para exponerlo de manera más clara, pone el ejemplo de contrapasearse. En este caso, un humano detecta perfectamente dos elementos que conoce de otros verbos, con sus respectivos significados: contra- y pasearse. Pero el ordenador no los ha juntado porque sepa lo que significan uno y otro, sino simplemente (y simplificando mucho) porque ha visto muchos ejemplos en los que con aparece al principio, tra puede seguirle, se pueden generar nuevos verbos a partir de otros ya existentes (como pasearse) pegándoles cosas delante, y el resultado pasa el test de sonar a español.
«El valor lingüístico [de este juego] está en disparar la imaginación de la gente, y animarla a jugar con la lengua y que la hagan suya», remarca Martín-Fuentes. «Bastantes veces se nos recuerda ya todo lo que queda fuera de la variedad estándar, y no se suele hablar tanto de otras variedades, como pueden ser, en este caso, los idiolectos: formas de hablar de una determinada persona o de un grupo muy reducido de personas».
«Hay gente que tiene un claro síndrome de Estocolmo con la lengua, que con frecuencia dudan de si la palabra que están usando existe. Fíjate si está arraigado este miedo que esta misma semana he visto a un youtuber preguntándose si palabras tan mondas y lirondas como removido y revuelto existían…», remarca la lingüista computacional.
«Si una palabra sirve para que una persona se comunique con otras, da igual que entre todos sean 5 que 50.000, ningún lingüista te puede negar que exista. Como dice Anne Curzan hacia el final de su charla TED, «si una comunidad de hablantes usa una palabra y sabe lo que significa, esa palabra es real». Por eso me encanta ver a gente como Ter o Juan Gómez-Jurado que inventan palabras constantemente sin pudor y con alegría; ¿qué más da si luego la palabra no cuaja?».
Para que el juego siga, es necesaria la participación de otros jugadores; en este caso, nosotros los hablantes. «Realmente, nos gustaría que fuera la gente quien invente las definiciones y nosotras recogerlas de alguna manera», corrobora Juan Alonso.
Cluir es el ruido que hacen los animales pequeños, especialmente en los bosques.
«La fraga es un cluir incesante: los pájaros que hacen su nido, el escarabajo que fabrica su bola, el grillo que estira el chaqué de sus alas…» (El bosque animado, W. Fernández Flórez) https://t.co/WsDCyDM1Q3
— Juan Alonso (@kokuma) November 27, 2022
Para ello, han creado un bot en twitter que tuitea los verbos, y de vez en cuando, añade las definiciones (esta vez sí, generadas con GPT-3). Pero, oye, si en tu casa se dice de otra manera, solo tienes que decirlo. ¿O cómo crees, si no, que se construye un idioma?