Cómo Apple planea mejorar los editores de imágenes con IA

Apple podría ser el último en la carrera de la IA, al menos si se considera la competencia de empresas como OpenAI, Google y Meta, pero eso no significa que la empresa no esté trabajando en la tecnología. De hecho, parece que la mayor parte del trabajo que hace Apple en IA está detrás de escena: Mientras Inteligencia de Apple Bueno, ahí es donde los investigadores de la compañía están trabajando en otras formas de mejorar los modelos de IA para todos, no solo para los usuarios de Apple. ¿El último proyecto? Mejora de los editores de imágenes de IA basados en indicaciones de texto.
En un artículo publicado la semana pasada, los investigadores presentó Pico-Banana-400Kun conjunto de datos de 400.000 imágenes «guiadas por texto» seleccionadas para mejorar la edición de imágenes basada en IA. Apple cree que su conjunto de datos de imágenes mejora los conjuntos existentes al incluir imágenes de mayor calidad y mayor diversidad: los investigadores descubrieron que los conjuntos de datos existentes utilizan imágenes producidas por modelos de IA o no son lo suficientemente variados, lo que puede obstaculizar los esfuerzos para mejorar los modelos.
Curiosamente, Pico-Banana-400K está diseñado para funcionar con nanoplátanoEl modelo de edición de imágenes de Google. Los investigadores dicen que al usar Nano Banana, su conjunto de datos puede generar 35 tipos diferentes de ediciones, además de aprovechar Gemini-2.5-Pro para evaluar la calidad de las ediciones y si esas ediciones deben permanecer como parte del conjunto de datos general.
Como parte de estas 400.000 imágenes, hay 258.000 muestras de ediciones individuales (donde Apple compara las imágenes originales con una con ediciones); 56.000 «pares de preferencias», que distinguen entre generaciones de edición fallidas y exitosas; y 72.000 «secuencias de múltiples turnos», que recorren de dos a cinco ediciones.
¿Qué opinas hasta ahora?
Los investigadores señalan que diferentes funciones tuvieron diferentes tasas de éxito en este conjunto de datos. Las ediciones y estilizaciones globales son «fáciles» y logran las tasas de éxito más altas; la semántica de los objetos y el contexto de la escena son «moderados»; mientras que la geometría, el diseño y la tipografía precisos son «difíciles». La función de mayor rendimiento, «fuerte transferencia de estilo artístico», que podría incluir cambiar el estilo de una imagen a «Van Gogh» o anime, tiene una tasa de éxito del 93%. La función de menor rendimiento, «cambiar el estilo de fuente o el color del texto visible si hay texto», solo tuvo éxito el 58% de las veces. Otras funciones probadas incluyen «agregar texto nuevo» (tasa de éxito del 67%), «acercar» (tasa de éxito del 74%) y «agregar grano de película o filtro antiguo» (tasa de éxito del 91%).
A diferencia de muchos de los productos de Apple, que normalmente están cerrados a las propias plataformas de la compañía, Pico-Banana-400K está abierto para que lo utilicen todos los investigadores y desarrolladores de IA. Es genial ver a los investigadores de Apple contribuyendo a investigaciones abiertas como esta, especialmente en un área en la que Apple generalmente está atrasada. ¿Tendremos realmente una Siri impulsada por IA en el corto plazo?? No claro. Pero está claro que Apple está trabajando activamente en la IA, quizás sólo a su manera.



