América Latina ha sido la cuna de ahora literaria ahora globalmente popular y géneros musicalesalimentos básicos como la papa y la inspiración detrás el conocido Comida feliz. También podría convertirse en la cuna de una nueva forma de IA.
Una coalición de instituciones de investigación está trabajando en lo que llaman Latamgpt – Una herramienta que puede tener en cuenta las variaciones de idioma, las experiencias culturales y las «idiosincrasias» de la región.
El objetivo es ofrecer a los usuarios un vistazo más fiel y la representación de las Américas y el Caribe que el de los modelos de idiomas grandes (LLM) que en su mayoría provienen de nosotros o Chino empresas y fueron capacitados en gran medida en inglés.
«Queremos desarrollar nuestras capacidades, encontrar soluciones locales basadas en IA y crear una mejor comprensión de estas herramientas en América Latina y América Latina», dijo Rodrigo Durán Rojas, director del Centro Nacional de Inteligencia Artificial de Chile, que está coordinando el esfuerzo.
Durán Rojas dijo que para fines generales, el proyecto será difícil de competir con «modelos de última generación con presupuestos multimillonarios», pero que «lo que nuestro modelo puede ofrecer que otros no son una perspectiva mucho más rica y representativa de América Latina y el Caribe», sus personas y sus salidas.
Por ejemplo, Durán Rojas dijo que las pruebas iniciales han demostrado que LatAMPPT tiene resultados mucho mejores cuando se considera sobre la historia de América del Sur, y que se espera lo mismo cuando se le pide, por ejemplo, escribir un poema al estilo de los autores locales o proporcionar una visión general de la política de educación regional.
Hay más de 30 instituciones involucradas en el desarrollo de LATAMGPT de países de todo el hemisferio, y los colaboradores incluyen latinos en los Estados Unidos, como Freddy Vilches MenesesProfesor asociado de estudios hispanos en Lewis & Clark College en Oregon. Esto, dijo, reconoce cómo «las experiencias latinas y latinoamericanas son una comunión cultural que va más allá de la geografía».
«Hay elementos de América Latina en Oregon, en California, en Texas», dijo Vilches Meneses. «Queremos asegurarnos de incorporar esa experiencia latina también».
LatAMPT, que tiene como objetivo lanzar su primera versión disponible públicamente alrededor de junio, se anunció el mes pasado después de un compromiso regional hecho durante un cumbre Sobre la inteligencia artificial en Uruguay para centrarse en el desarrollo tecnológico «ético, inclusivo y beneficioso» para «promover y proteger los derechos humanos» y explorar las mejores políticas públicas posibles para la gobernanza de la IA.
Ese impulso sigue una absorción cada vez mayor en la región de avances tecnológicos, como el uso de drones para monitorear la deforestación En la selva amazónica, el desarrollo de aplicaciones para alentar a más personas a continuar aprendiendo Lenguas indígenasla creación de algoritmos para ayudar en la búsqueda de desapareció por la fuerza gente o la adopción de cadena de bloques mecanismos para preservar documentos históricos de la dictadura pasada comportamiento.
Algunos de esos documentos preservados ahora se están utilizando como fuentes para capacitar a LATAMPPT, junto con documentos, registros y registros que instituciones como bibliotecas y archivos nacionales han puesto a disposición específicamente para el proyecto. Durán Rojas dijo que esto le da al modelo más matices y amplitud localizada de la que los datos generales de Internet que raspan otros sistemas tienden a usar.
«Latamgpt tendrá más contexto que los otros idiomas modelo y, por lo tanto, debería alucinar mucho menos» cuando se trata de sus casos de uso, dijo Durán Rojas. La alucinación es lo que llaman los investigadores de IA cuando un modelo aparentemente compone una respuesta incorrecta o falsa, aunque se presenta como objetiva.
Hasta ahora, el conjunto de datos del proyecto tiene más de 8 terabytes de información para que el modelo pueda ejecutarse en unos 55 mil millones de parámetros (las variables con las que un LLM realiza una producción de predicción, como las neuronas que sinapsan o se conectan en un cerebro humano). Durán Rojas dijo que eso está algo cercano a lo que tuvo la primera versión pública de ChatGPT cuando Operai la lanzó en el otoño de 2022.
Los desafíos de diversos dialectos y gramática compleja
ChatGPT y otros modelos como Géminis de Google también han buscado en los últimos años incluir un alcance de datos más amplio para ofrecer los programas en idiomas distintos del inglés y con «localizaciones», como el LLM que sabe responder en el sistema métrico cuando sea relevante o para comprender los idiomas.
Esas compañías reconocen la importancia de expandir esa oferta. Hyunjeong Choe, director de ingeniería e internacionalización de las aplicaciones Gemini de Google, dijo que es «una experiencia dedicada» que puede ser «esencial para la relevancia cultural y la sensibilidad».
Pero también reconocen que es un esfuerzo particularmente complejo, ya que la mayoría de los datos de capacitación disponibles para ellos están en inglés. «Las complejidades de diferentes idiomas pueden plantear un obstáculo significativo para todos los modelos de IA … Los idiomas con gramática compleja, dialectos diversos o recursos digitales limitados pueden ser más difíciles de entrenar», dijo Choe.
LatAMGPT, a través de sus redes institucionales con bibliotecas y archivos, ha bañado un poco este problema, pero no del todo. Durán Rojas dijo que todavía están luchando por incorporar idiomas indígenas hablados por millones en la región porque la documentación escrita no está tan ampliamente disponible.
Pero todavía tienen como objetivo intentarlo, ya que continuamente perfeccionan su modelo, aunque enfatizan la importancia de la colaboración.
«La calidad y los atributos de los resultados que podemos obtener dependerán de nosotros, ya que los latinoamericanos se unan para contribuir tanto como podamos», dijo Vilches Meneses, profesor de Lewis y Clark.
Actualmente, con la tentativa fecha de lanzamiento de junio, LatAMPPT todavía está recibiendo datos, ya que los colaboradores regularmente se registran regularmente con preguntas específicas para compararlo en comparación con otros modelos disponibles.
Entre las preguntas que están probando se encuentran consultas sobre los diferentes nombres y términos utilizados en la región para una palabra específica como «automóvil», o una solicitud para que el GPT haga una tabla de comparación de cómo los países de la región han respondido a la inmigración masiva de Lugares como Venezuela.
Un gran objetivo de LATAMPT es familiarizarse con estos avances tecnológicos para que puedan incluirse en las políticas y regulaciones públicas, según Durán Rojas.
Para eso, la creación de la red transcontinental para ayudar a desarrollar el proyecto es clave, y según Durán Rojas probablemente seguirá siendo así.
«El aspecto más significativo, el mayor legado, es esta interconexión que hemos encontrado para fortalecer y desarrollar soluciones basadas en IA», dice. «El modelo, quiero decir que es genial que lo estemos haciendo, pero la colaboración, eso es lo que más afectará la forma en que construimos las cosas en el futuro».
Y con eso hay una oportunidad creciente para ofrecer más contribuciones con un toque latino.
«En su base, esto está creando conjuntamente algo de América Latina para América Latina y para el mundo, como prueba para nosotros mismos y para otros que también podemos producir alta tecnología», dijo Vilches Meneses, «y que podemos contribuir al conocimiento de la inteligencia artificial mientras aún empleamos nuestra inteligencia social y cultural».
Una versión anterior de esta historia fue publicada por primera vez por Noticias Telemundo.