América latina y el Caribe avanzan en la creación de una IA con soberanía algorítmica

La región se abraza en torno a la apuesta de desarrollar un LLM propio, que ya reúne más de 8 TB y 50 billones de parámetro. Se lanzará en el segundo semestre de 2025

La soberanía idiomática es uno de los grandes temas y debates que hay en torno al desarrollo de la inteligencia artificial (IA) y sus algoritmos porque, hasta ahora, buena parte del lenguaje que la alimenta se corresponde con entrenamientos realizados en otros idiomas, diferentes del castellano, pero que también responden a prácticas sociales, miradas y sesgos culturales provenientes de otras latitudes. Eso hasta ahora, que nace LatamGPT.

Sí, LatamGPT es el nombre del primer modelo de lenguaje de gran tamaño (LLM, por sus siglas en inglés) de la región, que se desarrolla de manera colaborativa entre más de 30 instituciones de América latina y el Caribe, (Chile, Uruguay, Colombia, México, Perú, Ecuador, España, Estados Unidos, Argentina, y Costa Rica) y que cuenta con la coordinación del Centro Nacional de Inteligencia Artificial (CENIA) de Chile.

A ellos se suma el impulso de más de 60 expertas y expertos de estas latitudes (universidades, fundaciones, bibliotecas, entidades gubernamentales y organizaciones de la sociedad civil), y el apoyo del Ministerio de Ciencia, Tecnología, Conocimiento e Innovación de ese país, para la coordinación internacional entre las administraciones de gobierno, además del financiamiento del Banco de Desarrollo de América Latina (CAF).

Se trata de una apuesta conjunta y colaborativa que ya logró reunir más de 8 TB (terabytes) de información en texto plano y 50 billones de parámetros.

Imagen: Leon Overweel/Unsplash

Una IA con identidad latina

“Uno de los problemas que tenemos en Latinoamérica y el Caribe es que los LLM que usamos, si bien funcionan en español y portugués, son bastante limitados en el conocimiento que tienen sobre la región. Al poco andar comienzan a alucinar, porque muy pocos de los datos con los que estos modelos fueron entrenados son de esta parte del mundo”, dijo Álvaro Soto, director de CENIA y valoró que “es importante que en la región podamos desarrollar capacidades para tener cierta independencia y tomar decisiones de cómo esta tecnología impacta a la sociedad. Hasta el momento no tenemos un modelo de lenguaje regional, y esta tarea no la puede asumir solo un grupo ni un solo país: es un desafío que requiere el esfuerzo de toda la región”.

La necesidad es clara y el anuncio así lo precisa. Dice que los modelos de lenguaje utilizados, en general son generados en el Norte Global y que la exposición a los datos recibida no refleja la idiosincrasia y matices propios de esta parte sur de América. Al resultado de esta asimetría la definen como una “brecha de representatividad”, que conduce a limitaciones en su desempeño. Por ejemplo, puede generar errores respecto a la información que ofrece y hasta advierten el agravante que se da a partir del uso cada vez más frecuente de datos sintéticos para el entrenamiento de modelos de otra generación.

Es por ello que desde hace dos años se trabaja en el desarrollo de un primer LLM regional (de sus bases de datos y un entrenamiento que refleje la cultura, el lenguaje y la historia regional), que será abierto y que permitirá que otras personas lo estudien, mejoren y construyan sobre su base.  Algo que para Rodrigo Durán, gerente de CENIA, “democratiza el conocimiento y promueve el desarrollo de capacidades para poder entender mejor los modelos de lenguaje, sus aplicaciones y límites”.

Ya en 2024, se consolidaron 33 alianzas estratégicas que permitieron formar el “corpus de datos lo suficientemente amplio para dar vida a este modelo de 50 billones de parámetros, lo que es comparable a GPT-3.5. “No buscamos competir con OpenAI o uno de los gigantes. Queremos un modelo propio de Latinoamérica y el Caribe, con los requisitos y desafíos culturales que eso implica, es decir, comprender los distintos dialectos, historia y aspectos culturales. Para lograr lo anterior estamos generando métricas propias que puedan evaluar estos conocimientos, como también recolectando datos atingentes a esto”, explicó Durán.

Aisén Etcheverry, ministra de Ciencia de Chile, precisó que “cuando hablamos de IA, ésta tiene que proyectar el mundo que somos, su diversidad. Y en el caso de Latinoamérica, no solo hablar español o portugués, sino entender nuestra idiosincrasia, aportar desde la cultura y desde la visión del mundo, y eso tiene que estar presente en el desarrollo”.

Ahora, en 2025, el plan gira en torno a seguir “levantando datos y aportes de diferentes instituciones y sumando a más países de la región, a la vez que se avanzará en la creación de benchmarks de desempeño, publicaciones científicas y nuevas alianzas”, como también a concretar el lanzamiento de su primera versión en el segundo semestre del año.

Infraestructura, como talón de Aquiles, y la foto regional

Uno de los pilares fundamentales para el desarrollo de LatamGPT es la infraestructura de alto rendimiento instalada en la Universidad de Tarapacá (UTA), que planea invertir 10 millones de dólares para la creación del Centro de Supercómputo en dos etapas. Este clúster, con tecnología de punta en GPUs –12 nodos, cada uno implementado con 8 GPUs NVIDIA H200 – posibilita el entrenamiento del modelo a gran escala inexistente hasta ahora en Chile, promoviendo además la descentralización y eficiencia energética”, dice el anuncio oficial y recuerda la tantas veces planteada idea de erigir al país como hub digital.

Flecha digital

En ese sentido, Durán destacó el rol que estas apuestas significan para las economías regionales, algo muy importante para América latina y Caribe. “La creación de tecnologías de IA también pueden empoderar a las comunidades locales al proporcionar herramientas que les permitan construir y definir su propio futuro digital”, dijo y explicó que esta iniciativa sería imposible sin la inversión y la visión de la Universidad de Tarapacá.

Chile cuenta con la infraestructura de telecomunicaciones que le permite pensar iniciativas de este tipo; pero por sobre todas las cosas cuenta con la convicción de robustecerla. Su iniciativa de data centers, su convicción sobre la ciberseguridad, y su estrategia nacional de IA y normativa de datos personales, pero también el acceso a Internet como un derecho, son ejemplos de políticas públicas con inversión y horizonte que explican buena parte de las posibilidades y proyectos concretos que destacan al país.

En el mismo camino se encuentran Colombia y Brasil, países con los que Chile comparte el podio en materia de IA y de su práctica regulatoria y optimización del recurso espectral. Esos dos países también destacan en materia de infraestructura y de apuestas vinculadas a la IA.

Brasil sabe que la IA es un activo por desarrollar, y en ese camino diseñó un plan nacional para el que desembolsará más de 4.000 millones de dólares; y algo similar se encara en Colombia, también con ciberseguridad. Inclusive, en ambos territorios se planteó el mismo enfoque: que la IA tiene que tener el perfume de su tierra.

 

Tu opinión es importante ¿Qué te ha parecido este contenido?

2 0
Noelia Tellez Tejada se desempeña como Editora Adjunta en TeleSemana.com. Periodista y analista, acredita más de 20 años de labor ininterrumpida en medios gráficos, digitales y radiales. Está especializada en tecnología, negocios y telecomunicaciones. Su correo es [email protected]

Recuperar contraseña

Por favor ingrese su nombre de usuario o dirección de correo electrónico. Recibirá un enlace para crear una nueva contraseña por correo electrónico.