Conozca este conjunto de datos de imágenes de inteligencia artificial (IA) llamado ‘DIFFUSIONDB’, que consta de 2 millones de imágenes de difusión estable, y sus indicadores de texto e hiperparámetros

El primer conjunto de datos extenso de mensajes de texto a imagen se llama DiffusionDB. Tiene 2 millones de fotos generadas por Stable Diffusion que se produjeron utilizando indicaciones e hiperparámetros proporcionados por usuarios reales.

Los usuarios ahora pueden crear fotos de alta calidad escribiendo indicaciones de texto en lenguaje natural. Sin embargo, producir fotografías con los detalles apropiados requiere los estímulos correctos, pero a veces es necesario aclarar cómo responderá un modelo a varias indicaciones o cuáles son las indicaciones ideales. Los investigadores presentan DIFFUSIONDB, el primer conjunto extenso de datos de mensajes de texto a imagen, para ayudar a los investigadores a abordar estos importantes problemas. 2 millones de fotos producidas por Stable Diffusion utilizando indicaciones e hiperparámetros proporcionados por usuarios reales están contenidas en DIFFUSIONDB. Examinan las indicaciones del conjunto de datos y hablan sobre sus características principales. El tamaño y la diversidad excepcionales de este conjunto de datos activado por humanos ofrecen perspectivas de investigación fascinantes para descubrir cómo interactúan los modelos generativos y las indicaciones, detectar falsificaciones profundas y desarrollar sistemas activados por humanos.

Fuente: https://arxiv.org/pdf/2210.14896.pdf

Soporte de tareas y tablas de clasificación

El tamaño y la diversidad inigualables de este conjunto de datos activado por humanos presentan fascinantes oportunidades de investigación para comprender la interacción entre las indicaciones y los modelos generativos, detectar falsificaciones profundas y desarrollar herramientas para la interacción humano-IA para facilitar la adopción de estos modelos por parte del usuario.

Adición de subconjuntos de conjuntos de datos

DiffusionDB mide 1,6 TB de tamaño. Sin embargo, gracias a nuestra estructura de archivos modularizada, puede importar rápidamente la cantidad deseada de fotos junto con sus indicaciones e hiperparámetros. Muestran tres formas de cargar una parte de DiffusionDB.

Utilizar el CARGADOR DE CONJUNTOS DE DATOS DE CARA ABRAZADA es el Método 1

La biblioteca Hugging Face Datasets simplifica la carga de preguntas e imágenes desde DiffusionDB. Predefinieron 16 subconjuntos de DiffusionDB usando el número de instancias.

MÉTODO #2: Descarga la aplicación Poloclub

Puede descargar y cargar DiffusionDB utilizando el descargador de Python download.py que se incluye en este repositorio. Desde la línea de comando, puede utilizarlo.

obtener un archivo solitario

En HuggingFace, el número al final del archivo indica qué archivo específico descargar. El programa inflará automáticamente el número y producirá la URL.

obtención de varios archivos

Los parámetros -i y -r establecen los límites superior e inferior de la lista de archivos para descargar.

Utilice metadata.parquet en el Método 3 (SOLO TEXTO)

Puede acceder fácilmente a los 2 millones de indicaciones e hiperparámetros en la tabla metadata.parquet si su tarea no requiere imágenes.

DiffusionDB es el resultado de raspar imágenes generadas por usuarios en el servidor oficial de Stable Diffusion Discord. El servidor tiene reglas estrictas contra la generación y el intercambio de imágenes ilegales, odiosas o NSFW (no aptas para el trabajo). También impide que los usuarios escriban o compartan avisos con información personal.

Creación de un conjunto de datos

Justificación de la curación

Los modelos de difusión recientes se han vuelto bastante populares porque hacen posible generar imágenes controladas de alta calidad a partir de señales de texto usando lenguaje natural. Desde la publicación de estos modelos, personas de otros campos los han utilizado rápidamente para producir películas hiperrealistas, exploraciones radiológicas sintéticas e incluso obras de arte galardonadas.

Sin embargo, la creación de imágenes con la información adecuada lleva tiempo porque los usuarios deben formular adecuadamente indicaciones que expliquen los resultados precisos que buscan. Dichos impulsos deben desarrollarse por prueba y error, y con frecuencia parecen aleatorios y sin principios. Un investigador compara las indicaciones de escritura con los magos que adquieren «hechizos mágicos»; Es posible que los usuarios no comprendan por qué algunas indicaciones son efectivas, pero de todos modos las agregarán a su «libro de hechizos». Por ejemplo, se ha vuelto habitual incluir frases únicas como «tendencia en artstation» y «motor irreal» en el mensaje para producir fotos extremadamente detalladas.

En el marco de la generación de texto a texto, la ingeniería de avisos se ha convertido en un tema de estudio en el que los investigadores analizan sistemáticamente cómo crear avisos para completar con éxito varias actividades posteriores. Los modelos grandes de texto a imagen todavía están en pañales, por lo tanto, es fundamental comprender cómo responden a las indicaciones, cómo crear indicaciones convincentes y cómo crear herramientas que ayuden a los usuarios a crear imágenes. Desarrollan DiffusionDB, el primer conjunto de datos de avisos a gran escala con 2 millones de pares de imágenes de avisos reales, para ayudar a los académicos a abordar estos importantes problemas.

Impacto social del conjunto de datos: consideraciones sobre el uso de datos

Este conjunto de datos tiene como objetivo respaldar el desarrollo de modelos generativos de texto a imagen escalables masivamente. La riqueza y diversidad inigualables de este conjunto de datos accionado por humanos presenta interesantes oportunidades de investigación para comprender la relación entre las indicaciones y los modelos generativos, detectar falsificaciones profundas y desarrollar herramientas para la interacción humano-IA para facilitar la adopción de estos modelos por parte del usuario.

Es importante tener en cuenta que obtienen indicaciones y elementos visuales del servidor Stable Diffusion Discord. Los usuarios tienen prohibido crear o compartir fotos dañinas o NSFW (no aceptables para el trabajo, como contenido sexual y violento) en el servidor de Discord. El modelo de difusión estable del servidor también presenta un filtro NSFW que distorsiona los gráficos generados cuando encuentra material NSFW. Todavía es posible que algunos usuarios hayan creado fotos dañinas que el filtro NSFW no detectó o que los moderadores del servidor no eliminaron. Como resultado, DiffusionDB podría tener estas imágenes. Ofrecen un Formulario de Google en el sitio web de DiffusionDB donde los usuarios pueden reportar imágenes e indicaciones ofensivas o inapropiadas para disminuir el posible daño. Este formulario se observará de forma activa, y todas las fotos o avisos informados se eliminarán de DiffusionDB.

Es posible que las indicaciones de DiffusionDB no representen con precisión las fotos cargadas por los evaluadores beta, ya que se tomaron en canales donde un bot podría probar Stable Diffusion antes de tiempo. Es probable que estos usuarios conozcan modelos generativos alternativos de texto a imagen porque comenzaron a usar Diffusion antes de que el modelo estuviera disponible para el público en general.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'DIFFUSIONDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, dataset and project.
Please Don't Forget To Join Our ML Subreddit


Ashish kumar es pasante de consultoría en MarktechPost. Actualmente está cursando su Btech en el Instituto Indio de Tecnología (IIT), Kanpur. Le apasiona explorar los nuevos avances en tecnologías y su aplicación en la vida real.


Fuente del artículo

Deja un comentario