Primer LLMS OpenAi Open-Weight hace seis años aquí

Por primera vez desde entonces GPT-2 en 2019OpenAi es Lanzamiento de nuevos modelos de idiomas grandes de peso grande. Es un maestro importante para su empresa Fue cada vez más acusado De su distinción La tarea original anunciada «Asegurar que la inteligencia artificial beneficie a toda la humanidad». Ahora, después de múltiples retrasos para una prueba adicional y seguridad Bordado.
Antes de ir más allá, vale la pena pasar un momento para aclarar qué está haciendo Operai exactamente aquí. La compañía no emite nuevos modelos de código abierto que incluyan el código básico y los datos que la compañía usó para capacitar. En cambio, los pesos, es decir, los valores numéricos que los modelos han aprendido a establecer las entradas durante su entrenamiento, que alcanzan los nuevos sistemas. de acuerdo a Benjamin C LiProfesor de Ingeniería e Informática de la Universidad de Pensilvania, los modelos de peso abierto y el código abierto sirvieron dos propósitos muy diferentes.
«El modelo de peso abierto proporciona los valores que se aprendieron durante una gran capacitación en el modelo de idioma, y le permite principalmente usar el modelo y construir sobre él. Si los modelos comerciales son una caja negra absoluta y un sistema de código abierto permite una asignación y ajuste completos, entonces AIS está abierto en el medio.
Operai no emitió modelos de código abierto, probablemente ya que el competidor puede usar capacitación y símbolos para reflejar su tecnología. «El modelo de código abierto es más que solo pesos. También es posible que el código utilizado para operar el proceso de capacitación». En términos prácticos, la persona promedio no se beneficiará mucho de un modelo de código abierto a menos que tenga una granja de unidades de gráficos NVIDIA de alto gas que administran su factura de electricidad. (Serán útiles para los investigadores que buscan aprender más sobre los datos utilizados por la compañía para capacitar a sus modelos, y hay un puñado de modelos de código abierto, como Nemo Mistral y Mistral Small 3.)
Con esta forma, la principal diferencia entre GPT -SS -120B y GPT -SS -20B es el número de parámetros que ofrece cada uno. Si no es consciente del término, los parámetros son la configuración que el modelo de idioma excelente puede proporcionar para proporcionarle una respuesta. La etiqueta es un poco dispuesta aquí, pero GPT -SS -120B es un modelo de parámetros 117 mil millones, mientras que su hermano menor es de 21 mil millones.
En la práctica, esto significa que el GPT-SS-120B requiere el funcionamiento de dispositivos más potentes, con OpenAI recomendando el uno de 80 GB de la unidad de procesamiento de gráficos para un uso efectivo. La buena noticia es que la compañía dice que cualquier computadora moderna contiene 16 GB de RAM puede ejecutar GPT-SS-20B. Como resultado, puede usar el modelo más pequeño para hacer algo como un código VIBE en su computadora sin conexión a Internet. Además, OpenAi pone a disposición de los modelos a través de Apache 2.0 Licencias, brindando a las personas una gran flexibilidad para ajustar los sistemas a sus necesidades.
Aunque esta no es una nueva versión comercial, OpenAi dice que los nuevos modelos son similares a los sistemas de propiedades. La única restricción en los modelos OSS es que no ofrecen una entrada multimedia, lo que significa que no pueden procesar imágenes, videos y sonido. Para estas capacidades, aún deberá recurrir a los modelos comerciales de Cloud y OpenAI, que se pueden formar ambos. Además, proporciona muchas capacidades en sí, incluida una serie de herramientas de pensamiento y uso. Esto significa que los modelos pueden lidiar con problemas más complicados dividiéndolos en pasos más pequeños, y si necesitan ayuda adicional, saben cómo usar lenguajes web y codificación como Python.
Además, Operai ha capacitado modelos utilizando las tecnologías que la compañía había utilizado previamente para desarrollar O3 y otros sistemas fronterizos modernos. En la codificación a nivel de competencia, GPT-SS-120B obtuvo un peor grado de O3, que es el modelo de pensamiento actual en OpenAI, mientras que GPT-SS-20B cayó entre O3-Mini y O4-Mini. Por supuesto, tendremos que esperar más pruebas en el mundo real para averiguar cómo se compara el nuevo modelo con las ofertas comerciales de Openi y sus competidores.
El GPT -SS -120B, GPT -SS -20B y el lanzamiento de OpenAI OpenAI se duplicaron en modelos abiertos después de que Mark Zuckerberg indicara a Meta Se lanzan menos número de estos sistemas para el público. El uso de fuentes abiertas del corresponsal de Zuckerberg fue sobre los esfuerzos de AI para su empresa, ya que el CEO mencionó una vez los sistemas cerrados de «maldición». Al menos entre la secta de los amantes de la tecnología está lista para cruzar con LLM, tiempo, transversal, algo vergonzoso para Dead.
El profesor Lee dijo: «Uno puede argumentar que los modelos de peso abierto debilitan el acceso a los modelos más grandes y capaces para las personas que no tienen estos enormes centros y datos de alta precisión con muchas unidades de procesamiento de gráficos». «Permite a las personas usar resultados o productos durante un período de meses en un gran centro de datos sin la necesidad de invertir en esta infraestructura por su cuenta. Desde la perspectiva de alguien que solo quiere comenzar un modelo verdaderamente capaz, y luego quiere construir para algunas aplicaciones. Creo que los modelos abiertos pueden ser realmente útiles».
Operai ya está trabajando con algunas instituciones diferentes para publicar sus propias versiones de estos modelos, incluidos Oh SueciaCentro Nacional para la Organización Espontánea Aplicada. En una conferencia de prensa entregada por Operai antes del anuncio de hoy, el equipo que trabajó en GPT -SS-120B y GPT-SS-20B dijo que consideran los dos modelos como un mapa; Cuanto más personas los usan, mayor será la posibilidad de emitir modelos adicionales para el peso abierto en el futuro.