SomosNLP: La larga marcha de un grupo de voluntarios por lograr un ChatGPT hispano: “Un modelo entrenado en español sería increíble”

“La pregunta es ‘dame una receta típica de Perú’, y entonces te la da”, dice María Grandury, fundadora de la organización de voluntarios SomosNLP. Grandury describe una acción banal para los nuevos chatbots hechos con inteligencia artificial (IA). Esa simple petición incluye, sin embargo, un enorme trabajo previo, la mayor parte automatizado, pero en gran parte también humano.

Esa pregunta necesita, al menos, tres elementos básicos: primero, una base de datos que incluya recetas peruanas en español, que salen de internet. Segundo, una lista de preguntas y respuestas que permita al modelo aprender qué responder cuando le preguntan por una receta peruana. Y tercero, un control que permita revisar la respuesta y decir si es correcta.

Esta sencilla explicación de tres pasos oculta una variedad ingente de opciones, donde la financiación es clave. Las grandes empresas de Silicon Valley y el inglés dominan en todo con mucha distancia. ¿Qué se hace desde otras lenguas? Se intenta, a distintos niveles. El español debería ser una lengua también dominante, pero en realidad no lo es tanto. El reto de hacer que una máquina aprenda a responder cualquier pregunta en español (no un puñado, centradas en un solo tema) es enormemente complejo.

El primer paso clave es reunir ingentes cantidades de texto para entrenar lo que se llama un modelo fundacional. “De mucho texto no tenemos tantísimos, pero sí que hay más en estos últimos tres años, ha ido creciendo la comunidad y han surgido iniciativas por parte del Gobierno”, dice Grandury. Se refiere sobre todo a Alia, modelo impulsado por el Gobierno de España y del que el ministro José Luis Escrivá dijo en EL PAÍS que “abrirá las puertas a una nueva generación de productos tecnológicos enriquecidos con el vasto patrimonio lingüístico del castellano y las lenguas cooficiales de España”.

El modelo es una parte que requiere muchos datos originales pero también mucha computación. Por eso es indispensable el acuerdo del Gobierno con el Barcelona Super Computing Center y con IBM. Pero con eso solo hay un modelo capaz escribir texto a partir de una frase inicial, no una pregunta. Pero los chats que se han popularizado son precisamente de preguntas y respuestas. Esas instrucciones no existen en español, al menos públicas. Ahí es donde entra en juego SomosNLP (NLP son las siglas de Procesamiento de Lenguaje Natural en inglés), que intenta reunir recursos para que la presencia del español mejore en la IA: “De bases de datos con instrucciones solo hay públicos los que están en inglés. Lo que suele hacerse es cogerlos y traducirlos”, dice Grandury. “Lo que vamos a hacer nosotros es crear seguramente el mayor hasta ahora corpus de instrucciones abierto en español”, añade.

Grandury, de 26 años y de Ponferrada, tiene ya experiencia en el espinoso camino de montar un modelo viable en español. Tras licenciarse en matemáticas y física en la Universidad de Oviedo y trabajar brevemente en Berlín, fichó por Clibrain. En el verano de 2023 Clibrain “quería ser la referencia mundial de la IA en español” y su cofundadora, Elena González-Blanco, era “la referencia mundial de la IA en español”, según titulares de prensa. Incluso sacaron un modelo con un nombre tan español como Lince. Hoy Clibrain ha cerrado.

“Lince funcionaba bien, faltó hacerlo más accesible, por ejemplo con una interfaz. Aunque eso también es costoso, tenerlo disponible para que la gente lo utilice”, dice Grandury, en referencia a la necesidad de computación requerida para que un modelo esté disponible en internet para ir respondiendo preguntas de usuarios.

Francia ya tiene su líder

Mientras, Francia sí ha conseguido con Mistral una empresa nacional que compita a escala global. “El campeón de IA de Europa pone su mira en los gigantes tecnológicos de EE UU”, titulaba el New York Times en abril. Su presidente ejecutivo, el francés de 31 años Arthur Mensch, ex empleado de Google, decía: “Estos modelos moldean nuestra comprensión cultural del mundo, y los valores de Francia y los valores de Estados Unidos difieren en formas sutiles pero importantes”.

La distancia en financiación sigue siendo enorme: OpenAI ha logrado inversiones por valor de 13.000 millones de dólares; Mistral, 540 millones. El modelo de Mistral es en inglés, pero hay aparentemente un esfuerzo para meter más contenido en francés: al menos literatura francesa del siglo XIX, que ya no tiene derechos de autor, según el NYTimes.

Grandury coincidió con gente de Mistral al poco de lanzar su modelo. “Ya no contaban mucho, Les pregunté sí habían entrenado con texto en francés o en español. ‘Puede ser’, me dijeron”, sin aclarar ningún detalle. “La gente no habla”, añade.

El presidente francés, Emmanuel Macron, recibe a Mensch. El presidente español, Pedro Sánchez, anunció el nuevo modelo Alia y se reunió con el español Darío Gil, vicepresidente de IBM. A falta de empresas potentes, los españoles bien colocados pueden ser de ayuda. Es probable que ayude en Francia que uno de los “padres de la IA” sea el francés Yann LeCun, científico jefe de IA en Meta.

Hoy me he reunido con Darío Gil, vicepresidente de @IBM y director mundial de @IBMResearch.

Hemos acordado colaborar con la multinacional tecnológica para desarrollar modelos de lenguaje de IA en español y lenguas cooficiales, que anunciamos en el último MWC.

España apuesta por… pic.twitter.com/DwxzSBF3Ad

— Pedro Sánchez (@sanchezcastejon) April 5, 2024

La ventaja del inglés es que internet es en inglés. El español y el francés deben buscar y negociar con montones de instituciones para alimentar sus modelos, igual que lenguas más pequeñas como las cooficiales españolas o precolombinas en América Latina.

Somos NLP no tiene capacidad para entrenar esos modelos, pero sí puede montar esfuerzos voluntarios, como un hackatón, para ir reuniendo pares de preguntas y respuestas generales. ¿Qué motiva a cientos de voluntarios a hacer estos esfuerzos por mejorar la IA en español? “Te unes a una gran comunidad internacional de personas con tus mismos intereses y sabes que, a la vez que estás aprendiendo y ganando visibilidad, estás aportando tu granito de arena a un objetivo común: colaborar con la preservación de tu lengua y cultura”, dice Grandury.

Unos 20 equipos de cinco personas crearon en unos días 200.000 instrucciones. Es factible crear con código preguntas y respuestas a partir de bases de datos de temas específicos. “Hay pdfs, webs sobre temas legales o de refugiados en conversaciones en grupos abiertos de Telegram. Cuando tienes un montón de datos, puedes crear automáticamente pares de preguntas y respuestas sobre ese texto. Después lo mandas a un espacio de anotación y ya humanos, la gente de cada equipo, va revisando para ver si tienen sentido. Es mucho más rápido porque ya no tienes que ir leyendo y buscando una pregunta y su respuesta”, dice Grandury. Los humanos son como profesores de lengua de los chatbots, que les van indicando errores y aciertos y le corrigen para que mejores sus respuestas.

El objetivo de SomosNLP es crear 10 millones de preguntas y respuestas originales en español. “Seguiría siendo un tercio del mayor corpus sintético en inglés”, dice Grandury. En SomosNLP el trabajo es de momento estrictamente voluntario. Solo algunos patrocinios para sus acciones, como el uso de servidores o premios, procede entre otros de la compañía Hugging Face, construida alrededor de una comunidad que trabaja la IA de manera abierta.

👋 Os presento a este mini avatar con el que queremos explicar de forma didáctica asuntos importantes en los que trabajamos en @mintradigital

Hoy nos cuenta por qué es clave tener un modelo de lenguaje en castellano y lenguas cooficiales como el que estamos preparando: #ALIA 👇 pic.twitter.com/N5UYMLUyim

— José Luis Escrivá (@joseluisescriva) May 7, 2024

Las grandes empresas de Silicon Valley no revelan cómo hacen este proceso. En enero de 2023 se supo que OpenAI había pagado a miles de trabajadores en Kenia para que anotaran respuestas demasiado tóxicas y el chatbot aprendiera que no debía darlas. Pero apenas hay más detalles: “No sabemos hasta qué punto automatizan la creación de preguntas”, dice Grandury. “Después hay mucha parte humana donde nosotros ni de lejos manejamos la misma cantidad de datos. Imaginar cuántas personas están ahí anotadas es impensable”.

Meta acaba de sacar su nuevo modelo Llama 3. En un documento titulado Nuestra aproximación responsable a Meta AI y a Meta Llama 3, la compañía dedica 3.000 palabras a explicar pasos, a menudo en colaboración con humanos, para que no dé respuestas políticamente incorrectas. Pero no cuentan cómo han hecho todo el proceso anterior.

Por qué no usar ChatGPT en español

Una pregunta repetida es por qué no usar los modelos que ya existen y que responden bien en español. Además de las cuestiones estratégica, cultural y abierta, es difícil que un modelo creado originalmente en inglés sepa distinguir variantes dialectales del español.

“La gracia sería no coger un modelo multilingüe y adaptarlo, sino coger uno que esté entrenado en español y después adaptarlo con datos en español, sería increíble”, dice Grandury. ¿Cómo se notarían las diferencias? “Hay cosas más sutiles en el lenguaje, por ejemplo cómo se expresa si se tiene un C1 o C2 o si utilizas expresiones coloquiales o más elaboradas”.

El objetivo inmediato del modelo impulsado por el Gobierno es dar a empresas y organizaciones algo muy español para sus necesidades concretas: es sencillo refinar un modelo para que responda solo sobre accidentes laborales en España, seguros de coche o matriculación en tal universidad. “La tendencia es ir hacia modelos especializados: uno legal, por ejemplo, para que también aprenda a hablar más con ese tipo de idioma”, dice Grandury.

Aunque un objetivo final es caminar hacia un chat general como ChatGPT, no será un camino sencillo: “Solos no lo vamos a hacer”, aclara por si acaso.

Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.

Suscríbete para seguir leyendo

Lee sin límites

SomosNLP: La larga marcha de un grupo de voluntarios por lograr un ChatGPT hispano: “Un modelo entrenado en español sería increíble” | Tecnología

Francia ya tiene su líder

Por qué no usar ChatGPT en español

Suscríbete para seguir leyendo

Por Alberto Ramos

El desafío de agregar valor en la manufactura vietnamita mediante la formación técnica

Cómo la formación técnica complementa la inversión en I+D en Corea del Sur

El fortalecimiento de redes de seguridad como palanca para la economía local y nacional en China

Políticas públicas australianas para incentivar tecnologías de almacenamiento

Rosario desarrolla nuevos proyectos industriales vinculados a exportación y logística

Rosario lidera proyectos innovadores en la industria y la logística portuaria