Latam-GPT: ¿Tienen lengua materna los modelos de lenguaje?

Aprovechamos el Día Internacional de la Lengua Materna para pensar en la relación entre lenguaje, identidad y por qué no amor. Y aprovechamos la invitación del Centro Nacional de Inteligencia Artificial de Chile, el CENIA, para asomarnos y sumarnos al gran equipo que está elaborando Latam-GPT, un modelo de lenguaje gestado en América latina.

Desde 1999, cada 21 de febrero se celebra el Día Internacional de la Lengua Materna. La UNESCO eligió esta fecha en conmemoración a un grupo de estudiantes de Bangladesh que fueron reprimidos por la policía mientras reclamaban que su lengua materna, el bangla, fuera reconocida como oficial, el 21 de febrero de 1952. Tres de los manifestantes fueron asesinados en plena defensa de sus derechos lingüísticos.

¿Por qué dar la vida por una lengua? Porque la lengua materna es la que moldea la concepción del mundo, el desarrollo cognitivo y la relación con el entorno y las demás personas. No se piensa ni se siente ni se habita igual si se hablan lenguas distintas. Por eso, el vínculo entre lengua materna e identidad es fuerte.

Ahora que, por primera vez en la historia de la humanidad, nos estamos acostumbrado a dialogar (o quizás “dialogar”) con entidades no humanas, cabe preguntarse: ¿Tienen lengua materna los grandes modelos de lenguaje de la IA generativa? ¿Puede existir una lengua sin vínculo con un lugar ni con personas? ¿Una lengua huérfana, neutra, sin marcas, erguida en el vacío, sin tomar en cuenta condiciones de producción?

Basta con pararse a pensar, ¿te habla de vos el modelo de lenguaje? ¿Y vos, lo tuteás? ¿Sentís que habla “con tus palabras”, o con las de quién?

Si el lenguaje construye mundos, también define la tecnología que habitamos. En el contacto cada vez más frecuente (es tentador decir “cada vez más familiar”) con los modelos de lenguaje, percibimos el eco de una traducción: parecerían “pensar” originalmente en inglés, y luego traducir al español (en nuestro caso). Incluso a veces, cuando muestran algunos indicios de ese proceso de “pensamiento”, suelen estar en inglés. Eso refuerza la posición dominante del inglés como lengua principal en el territorio digital y tecnológico, y deja a otras variedades y lenguas minorizadas en un segundo plano.

Por eso creemos que el desarrollo de IA no puede ser neutro ni importado sin contexto: necesita identidad, diversidad y mirada regional. Pero es difícil construir un modelo de lenguaje con raíces regionales: requiere comenzar desde los datos que se seleccionan para entrenarlo, y prestar continua atención, precisamente, a las características de cada variedad dialectal.

Esa muy ambiciosa tarea es la que se propuso el equipo de Latam-GPT, un proyecto de modelo de lenguaje situado construido desde y para América latina. Es un modelo abierto (o como nos gusta pensar en LAIA, quizás entornado), que corre sobre Llama 3.1 (¿lama, iama o shama?). La iniciativa es comandada y coordinada por el Centro Nacional de Inteligencia Artificial (CENIA) de Chile, con ramificaciones y colaboraciones en toda la región. Tenemos la inmensa alegría de colaborar en ese equipo internacional que busca crear una IA más nuestra: una tecnología lo más apropiada que sea posible, por y para las ciudadanías latinoamericanas.

LAIA en Latam GPT: cómo colaboramos

David Coronel, miembro de LAIA y representante de la organización en Latam-GPT, cuenta que el proyecto tiene cuatro áreas de trabajo: pre entrenamiento del modelo o pre training, post entrenamiento o post training, ética y datos. La participación de LAIA se da en el post training.

La colaboración con el Centro Nacional de Inteligencia Artificial de Chile (CENIA) se centra en el entrenamiento de la primera versión de Latam-GPT, específicamente dentro del área de post-training. El aporte principal consistió en replicar y adaptar una metodología de evaluación originalmente desarrollada para regionalismos y modismos chilenos, aplicándola al contexto lingüístico local. Para este proceso, se recopilaron diccionarios de modismos y términos regionales —incluyendo material de la UNTREF— con el objetivo de conformar un esquema de evaluación de modelos. Este sistema permite verificar la precisión con la que distintos modelos de inteligencia artificial utilizan vocabulario específico y variantes gramaticales y morfológicas propias de la variedad local, contrastando su uso con las definiciones de los diccionarios recopilados.

A diferencia de otras instituciones que aportaron corpus de datos masivos, la intervención de LAIA está enfocada en la articulación del equipo de desarrollo y en la creación de herramientas específicas para la validación y evaluación del comportamiento de los modelos ante las particularidades del lenguaje regional.

También participamos en la elaboración de un benchmark o evaluador cultural: un centenar de preguntas y respuestas sobre elementos de cultura general relativos a Argentina, orientadas precisamente a evaluar el desempeño del modelo en temas locales.

Latam-GPT todavía no está funcionando como chatbot conversacional, y es probable que todavía falte un buen trecho de trabajo para llegar hasta esa instancia. El proyecto es, sobre todo, una enorme prueba de concepto: ¿podemos, podremos, desde América latina, crear nuestros propios modelos de lenguaje, lograr que la IA generativa hable en nuestras propias palabras? No sabemos, pero hay una sola forma de averiguarlo: intentando.