Resuelve pero no puede explicar cómo se resolvió

Usted ha calculado la respuesta a un problema en el examen escrito en secundaria o secundaria. Incluso si la respuesta es correcta, los maestros generalmente cuentan su respuesta inválida y le dan 0 puntos de esa pregunta. Eso fue exactamente lo que pasó con la inteligencia artificial …
Resolver a Sudoku en el metro o las vacaciones de café puede parecer un entretenimiento insignificante, pero inteligencia artificial Esto es mucho más que un juego simple. Un grupo de investigadores utilizó este rompecabezas digital no solo para medir la capacidad lógica de los modelos de idiomas más avanzados, sino también para probar algo mucho más importante: lo que están haciendo y por qué están haciendo sus habilidades.
Un equipo de científicos de la Universidad de Colorado Boulder utilizó más de 2,000 rompecabezas de Sudoku para evaluar diferentes sistemas de inteligencia artificial en un estudio reciente. El resultado que encontraron fue sorprendente: algunos modelos pudieron completar el rompecabezas correctamente, pero casi ninguno de ellos no pudo explicar claramente los pasos que tomaron para alcanzar una solución. Esta diferencia entre hacer y explicar, especialmente cuando se usa en tareas sensibles, como diagnóstico médico, asesoramiento financiero o toma de decisiones legales, plantea un problema crítico en el desarrollo de herramientas confiables basadas en inteligencia artificial.
Sudoku para aprender la lógica de la máquina
Los rompecabezas de Sudoku seleccionados para este experimento no fueron clásicos de nueve a nueve cuadrados, sino una versión más simple de seis -Six. Esta versión mantiene una cierta complejidad lógica sin requerir habilidades matemáticas avanzadas. Según el artículo original, «Sudoku proporciona un entorno controlado para examinar las habilidades de los modelos de idiomas en la resolución de problemas de paso por paso».
Los investigadores han diseñado un conjunto de 2 mil rompecabezas de 293 sudoku en diferentes niveles de dificultad, lo que hace que cada uno de ellos tenga una solución única y bien definida. Estos rompecabezas se crearon utilizando un sistema lógico oficial conocido como Z3, que garantiza cada rompecabezas y no permite una respuesta válida múltiple.
Este diseño atento permitió que los errores de inteligencia artificial se aislaran claramente. Si el modelo cometió un error, estaba claro que no había más de una solución y que no había lugar para la interpretación. Esto presentó una medida clara de qué tan bien el sistema comprende las reglas del juego.
Hacen esto … pero no pueden explicar cómo lo hacen
Entre todos los modelos probados, el modelo «O1-preview», una versión avanzada de OpenAI en 2023, pudo resolver correctamente alrededor del 65 %de los rompecabezas de Sudoku. Por otro lado, los modelos de origen abierto como Llama y Mistral apenas pudieron alcanzar cifras simbólicas con una tasa de éxito muy por debajo del 1 %. Sin embargo, incluso el modelo más preciso no justificó sus respuestas.
Cuando se le pidió que explicara sus soluciones, la actuación de la inteligencia artificial disminuyó. Solo el 5 %de las declaraciones proporcionadas por O1-previstos fueron justificadas por los evaluadores humanos. En términos de claridad, solo el 7.5 %recibió puntos positivos y el valor educativo de las respuestas fue aún menor: solo se encontró que el 2.5 %era útil para aprender sobre las estrategias de solución.
Los autores del estudio resumen esto en una expresión clara: «Aunque estas herramientas muestran potencial (…), todavía enfrentan desafíos significativos al presentar sus pasos de razonamiento de una manera leal y comprensible». Esta brecha entre los resultados y el razonamiento revela una de las principales limitaciones de los modelos de idiomas existentes: pueden imitar las soluciones correctas, pero no pueden explicar cómo los alcanzan.
La diferencia entre tener razón y razonamiento
Uno de los aspectos más interesantes de este estudio es que se centra en una habilidad de desarrollo narrativo consistente sobre sus procesos, no si la inteligencia artificial da la respuesta correcta. El objetivo no era solo ver si podían poner el número en el cuadro, sino entender por qué eligieron este número basado en inferencias y reglas.
Esto enfatiza la diferencia entre un resultado correcto obtenido por casualidad, azar o imitación y un proceso de pensamiento lógico. En palabras del artículo científico: «Un buen razonamiento debería poder explicar claramente los procesos deductivos». Eso era exactamente lo que faltaba.
Una inteligencia artificial que propone una solución válida pero que no puede explicarla no es confiable en contextos críticos. En áreas como la salud, la ley o la contabilidad, no es suficiente que una máquina dé una respuesta correcta. Debe ser capaz de demostrar su valía a las personas idealmente de una manera clara, consistente y comprensible.
Un experimento meticuloso y explicativo
El equipo de evaluación no se limitó a las observaciones subjetivas. Solicitaron a un panel de expertos que analizó las respuestas a la inteligencia artificial en tres dimensiones: justificación, apertura y valor educativo. Para hacer esto, aplicaron un sistema de tipo Likert (sí, tal vez, no) al rompecabezas de sudoku seleccionado en diferentes dificultades.
El análisis de armonía inter -evaluante fue bastante bueno; Para la justificación y el valor educativo, se obtuvo el valor de 0.6 cappa para mayor claridad. Esto confirmó que las deficiencias observadas son sistemáticas, no anecdóticas. Incluso la inteligencia artificial más avanzada logró resolver rompecabezas complejos, pero sus explicaciones no pudieron pasar el filtro humano, y en la mayoría de los casos fue confuso, incorrecto o completamente disperso.
De hecho, así como en detalle en las noticias que discutieron el trabajo, también hubo reacciones de que la inteligencia artificial confundió los conceptos, presentó reglas no existentes e incluso respondió al uso de algunas partes del pronóstico del tiempo cuando ni siquiera sabía qué decir. Estas desviaciones indican que en los casos en que no hay una lógica clara, los vacíos de los modelos son aparentemente consistentes, pero pueden llenar con cualquier contenido que no esté relacionado con la tarea original.
Decisiones importantes de sudoku
Aunque puede parecer anécdota, el trabajo no se trata solo de juegos. Según los autores, resolver rompecabezas de sudoku sirve como una pequeña representación a escala de problemas complejos de la vida real. Las reglas netas requieren razonamiento y toma de decisiones conscientes paso a paso. Esto es lo mismo que se espera de la inteligencia artificial que administra impuestos, analiza los registros médicos o brinda asesoramiento legal.
El hecho de que todavía no pueda explicar claramente cómo han alcanzado las respuestas de los modelos trae preguntas sobre sus roles en tareas más sensibles. Por lo tanto, el interés en los sistemas «neurosembólicos» que combinan el lenguaje natural de los programas de Law Master (LL.M.) con estructuras lógicas formales está aumentando.
Según el estudio, estos enfoques híbridos pueden beneficiarse de los mejores aspectos de ambos mundos: la capacidad de producir respuestas comprensibles y la meticulidad formal de los sistemas lógicos tradicionales. Como explicó el escritor, «esperamos que estas explicaciones puedan interpretar estas explicaciones con niveles de detalle apropiados y apropiados para usuarios no expertos».
Entonces, ¿qué pasará ahora?
La investigación muestra claramente que los modelos existentes siguen siendo un largo camino de estructurar en términos de razonamiento estructurado. Aunque los sistemas registrados como O1-previstos funcionan mejor que los modelos abiertos, ninguno de ellos puede alcanzar el nivel de confiabilidad descriptivo requerido para aplicaciones de alto efecto efectivo.
Los escritores proponen integrar modelos de idiomas con herramientas formales como solventes SMT o pruebas matemáticas para avanzar en este camino. Aunque estas herramientas no son muchos usuarios para un lector promedio, permite un razonamiento extremadamente sensible. Si los modelos existentes pueden cerrar la brecha entre esta compleja lógica y lenguaje natural, pueden convertirse en herramientas reales para los procesos de toma de decisiones humanas.
Mientras tanto, lo que aprendemos de los rompecabezas de Sudoku es una advertencia valiosa: la respuesta correcta que no está respaldada por una buena explicación no es suficiente. En este punto, hay mucho que la inteligencia artificial aún puede mejorar.
Enlace de la investigación relevante: «Explique las soluciones de rompecabezas en el lenguaje natural:
6 × 6 es un estudio de descubrimiento sobre sudoku «