Explorando los 2,3k millones de imágenes usadas para entrenar la IA de Stable Diffusion
Explorando los 2,3k MILLONES de imágenes usadas para entrenar la IA de Stable Diffusion
¿Qué hay en las tripas de su dataset? ¿Contiene imágenes NSFW? ¿Qué artistas ha incluido? ¿De qué páginas las ha crawleado?
Descubramos sus "little dirty secrets".
¡Agárrate que vienen curvas!
Las inteligencias artificiales generativas
Lo primero, si no has oído hablar de las IAs generativas, en este artículo hice un resumen: El cambio de paradigma de las inteligencias artificiales generativas.
Si ya has oído hablar de Dalle-2, MidJourney y StableDiffusion, pasa al siguiente párrafo y tira porque te toca.
Detalle: todas las imágenes del hilo las he generado con IA.
¿Cómo construyó Stable Diffusion este montón de datos?
Pues se lo guisaron ellos mismos.
A través de LAION, una organización sin fines de lucro cuyo tiempo de cómputo fue financiado en gran parte por el propietario de Stable Diffusion.
LAION recopiló todas las etiquetas de imágenes HTML, las clasificó por idioma y luego filtró los resultados en conjuntos de datos separados utilizando su resolución, la probabilidad de tener marca de agua y una "puntuación estética" que inventaron ellos mismos.
Brutal.
Nadie se queja de Google (o poca gente), en cambio a Stable Diffusion le están lloviendo chuzos de punta.
La polémica está servida y el debate está al rojo vivo:
Volviendo al dataset. Como os dije... ¡es público! Es decir, este dataset, está ahí, accesible para todos. Pero si intentas descargarlo y masticarlo, te puede dar una indigestión.
No cualquier mortal puede siquiera almacenar sus 250 terabytes.
Repito. Que me explota el cerebelo.
🤯 DOSCIENTOS CINCUENTA TERABYTES 🤯
KABOOOOOOM.
Ahora viene lo bueno: dos genios, Simon Willison y Andy Baio, han conseguido pegarle un buen mordisco a ese dataset 🍰.
Y han publicado un buscador que contiene el 2% de las imágenes del dataset de Stable Diffusion junto con TODOS sus metadatos.
¡Bravo vaqueros!
¿Y qué he hecho yo?
Lo que os prometí. He escarbado entre sus imágenes para ver qué encontraba.
¡Vamos a ello!
1. Lo primero que busqué es... bueno... me vais a llamar perturbado.
¿Pero en serio no hubierais hecho lo mismo? 🍆 🍈🍈 🍑 Lo siento por los rectángulos rojos 🤣
Un par de ejemplos NSFW (¡ojo! no añado las imágenes al email porque entraría directo en correo no deseado):
El equipo de SD asignó a cada imagen una puntuación de probabilidad NSFW que va de 0 a 1.
¡Y se puede ordenar por ese campo para obtenerlas todas de un plumazo!
Bien.
¡El misterio de por qué Stable Diffusion es tan bueno dibujando escenas sensuales y desnudos desvelado!
Ah, ¿no lo sabías? Sí, en la versión Colab y en la versión local, puedes desconectar la limitación de SD y generar imágenes NSFW.
Por cierto, el dataset contiene no solo desnudos. He encontrado imágenes que harían sonrojar hasta a Paris Hilton.
2. ¿De dónde vienen el grueso de las imágenes?
Los investigadores estuvieron agrupando las fuentes de datos y obtuvieron que el 47% de las imágenes vienen de tan solo 100 webs.
Siendo Pinterest la mayor fuente con el 8.5%. Confirmo:
Webs de artistas/diseñadores/ilustradores por número de imágenes crawleadas:
819k, blogs WordPress.
232k, sitios de fotografía, arte, Smugmug.
146k, Blogspot.
121k, Flickr.
67k, DeviantArt.
74k, Wikimedia.
48k, "500px"
28k, Tumblr.
E-commerces:
698k, "Fine Art America" (vende láminas y pósters).
244k, Shopify.
189k, Wix.
90k, Redbubble.
47k, Etsy.
Webs de imágenes de stock:
497k, "123RF".
171k, Adobe Stock’s CDN.
117k, PhotoShelter.
35k, Dreamstime.
23k, iStockPhoto.
22k, Depositphotos.
22k, Unsplash.
15k, Getty Images.
10k, VectorStock.
10k, Shutterstock.
3. ¿Y qué artistas aparecen más veces?
De los 25 artistas principales en el conjunto de datos, solo tres siguen vivos: Phil Koch, Erin Hanson y Steve Henderson. Aquí va el top:
Veamos 🔍. ¿Saldrá un mindunder como yo por estar en Dribbble de cuando hacía 3d? Negativo, a mí no me quieren:
¿Y artistas reputados como @harriorrihar que además siguen el tema de las IAs con atención?
Jon, sí aparece (3 imágenes únicamente, pero recordemos que estamos analizando un fragmento del 2% del dataset total):
Usando el campo "type" de la DB, se pueden filtrar los artistas que se encuentran con más frecuencia por categoría.
Stan Lee lo peta en comic... aunque fuera guionista y no dibujante.
Acabo de caer en algo 💡
Sabiendo esto, cualquiera que esté generando imágenes con StableDiffusion, tiene ahora con este navegador una guía sobre qué pesos podría usar para dirigir la generación de imágenes de forma más efectiva.
Ah, ¡sorpresa!
Greg Rutkowski, cuyo nombre se usa con frecuencia en los "prompts" para generar imágenes tan solo aparece con 15 imágenes. Y James Gurney solo con 73.
¡Esta no me la esperaba! Pero de nuevo: esto es solo el 2% del total.
4. Gente famosa.
Trump es uno de los más citados, con casi 11k fotografías que hacen referencia a su nombre. Seguido de cerca por Charlize Theron con 9,5k imágenes.
No se ha podido hacer un desglose completo por género, pero de un vistazo, parece que muchos de los nombres más populares en el conjunto de datos son mujeres.
5. Personajes de ficción.
A montones, por supuesto:
6. Películas, series, etc.
Estos datasets todavía no consumen vídeo (no me extrañaría que lo hicieran en el futuro). Pero sí hay imágenes de películas.
He probado con "Stranger Things":
7. Calidad de los metadatos.
¡Una de las cosas que más me ha sorprendido es lo pobre que son los metadatos!
Yo creía que cada imagen vendría con una descripción pormenorizada y muy currada (quizás tras haber sido revisada por humanas y mejorada).
Pero no es así...
O si busco "axe" (hacha), no necesariamente va a salir lo que yo esperaba 🪓.
Y bueno, justo aquí está la magia de lo que consiguen estos algoritmos.
Que con una ingente cantidad de imágenes, junto con unos metadatos no necesariamente precisos, consiguen unos resultados tan asombrosos como esta imagen que generé hoy, de una belleza indescriptible.
Pero este me hace pensar: ¿qué pasará cuando hagan algo tan laborioso, pero a la vez tan "sencillo", como mejorar los metadatos de todo el dataset uno a uno con un ejército de personas a lo "mechanical turks"?
Sin el más mínimo adelanto tecnológico, tan solo mejorando el dataset, se dará un salto tremendo en el potencial de generación de estos algoritmos.
¿Qué te ha parecido? ¿Te ha sorprendido?
Si te ha parecido interesante y te gustaría que escribiese más hilos de investigación del estilo, un RT al primer tweet del hilo me dará ánimos para seguir escribiendo. ¡Gracias!
Bonus 1.
Para el desarrollo del hilo he seguido en gran medida la investigación como os comenté de Andy y Simon.
Puedes verla aquí al detalle: Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion’s Image Generator.
Bonus 2.
Estoy SEGURO de que tú también quieres buscar en el navegador del dataset.
Aquí va para que puedas escarbar en sus tripas: Navegador de imágenes.