Resulta que puede entrenar modelos de inteligencia artificial sin materiales de derechos de autor

Cedillo Alba junio 5, 2025

0 2 minutos de lectura

Empresas de inteligencia artificial que exigen sus herramientas No puede existir sin capacitar en derechos de autor. Resulta que pueden, es realmente difícil. Para probar esto, los investigadores de inteligencia artificial capacitaron un modelo nuevo, menos poderoso pero más ético. Esto se debe a que la recopilación de datos de LLM solo usa el dominio público y los materiales con licencia públicamente.

el papel (a través de Washington PostLa cooperación fue entre 14 instituciones diferentes. Los autores son universidades como el Instituto de Tecnología de Massachusetts, Carnegie Mellon y la Universidad de Toronto. Las organizaciones no de fin de lucro como el Vector Institute y Allen International también contribuyeron a la Amnistía Internacional.

La colección creó una recopilación de datos de 8TB. Entre los datos hay una colección de 130,000 libros en la Biblioteca del Congreso. Después de ingresar al material, capacitaron a un modelo de lenguaje grande siete mil millones (LLM) en esos datos. El resultado? Lo hizo tan bien como el tamaño similar Llama 2-7b A partir de 2023. El equipo no publicó criterios comparando sus resultados con los mejores modelos hoy.

El rendimiento similar a un modelo de dos años no fue el único lado pasivo. El proceso de ensamblaje también fue molienda. No es posible leer muchos datos por máquinas, por lo que los humanos tuvieron que entrar en ellas. «Usamos herramientas automatizadas, pero todos nuestros propósitos se explicaron manualmente al final del día y se separaron de las personas», dijo Stella Pedmman, co -Autor. Y abu. «Esto es realmente difícil». Descubrir los detalles legales dificulta el proceso. El equipo tuvo que determinar la licencia aplicada a cada sitio web que la limpie.

Entonces, ¿qué haces con LLM menos poderoso para entrenar? Si no hay nada más, puede servir como un punto de contra -punto.

En 2024, Opadai Un comité parlamentario británico le dijo a esto Tal modelo no se puede encontrar en primer lugar. La compañía ha afirmado que sería «imposible capacitar a los principales modelos de IA hoy sin usar derechos de autor». El año pasado, un experto más antropiértete fue testigo: «Es posible que no haya LLM si a las compañías de inteligencia artificial se les pide que licenciaran empresas en sus grupos de datos de capacitación».

Por supuesto, este estudio no cambiará el camino de las compañías de inteligencia artificial. Después de todo, más trabajan para crear herramientas menos potentes que no les interesen. Pero al menos uno de los argumentos comunes para la industria. No se sorprenda si escucha nuevamente sobre este estudio en Problemas legales y Argumentos de organización.

Source link

Cedillo Alba junio 5, 2025

0 2 minutos de lectura