Prepárate para rockear con Riffusion: el modelo de inteligencia artificial (IA) que da vida a la música a través de la visualización

Imagina música generada por inteligencia artificial. Suena bastante innovador y ha sido posible gracias al aprendizaje automático. Esto se hace usando modelos de redes neuronales de entrenamiento como LSTM con notas musicales y luego prediciendo o generando música.

Diffusion, una tecnología que se introdujo recientemente, ha ideado otro método único que crea música extraña utilizando imágenes de audio en lugar de audio real. El modelo de IA de código abierto llamado Stable Diffusion, que crea imágenes a partir del texto, se modificó para generar imágenes de espectrogramas (el contenido de frecuencia de un clip de sonido se puede representar visualmente mediante un espectrograma de audio) que luego se puede convertir en clips de audio. . Esto es lo que hace Riffusion.

Preparate para rockear con Riffusion el modelo de inteligencia artificial
Créditos de imagen: Devin Coldewey

A medida que la música avanza, se vuelve más fuerte en todos los ámbitos, y si sabe qué escuchar, incluso puede distinguir notas e instrumentación específicas. De ninguna manera la técnica es perfecta o sin pérdidas, pero representa el sonido de manera precisa y metódica. Y siguiendo el mismo procedimiento hacia atrás, puede convertirlo en sonido una vez más.

Conozca a Hailo-8™: un procesador de IA que utiliza la visión artificial para la reidentificación de múltiples personas con múltiples cámaras (patrocinado)

Es factible usar modelos de difusión para condicionar las obras de los creadores en varias imágenes además de un mensaje de texto. Esto es tremendamente útil para cambiar los sonidos mientras se mantiene intacta la estructura del clip original. La opción de intensidad de eliminación de ruido determina cuánto se apartará el clip original del nuevo aviso.

Considere que ingresamos un aviso y producimos 100 clips con varias semillas. Los clips resultantes no se pueden concatenar porque tienen tiempos fuertes, tempos y claves diferentes.

Los investigadores interpolan sin problemas entre indicaciones y semillas en el espacio latente del modelo para remediar esto. El espacio latente en los modelos de difusión es un vector de características que contiene todos los resultados imaginables que el modelo es capaz de producir. Cada valor numérico en el espacio latente se decodifica en una salida viable, y los elementos similares están cerca unos de otros.

Lo importante es que puede usar dos semillas separadas o dos indicadores distintos con la misma semilla para muestrear el espacio latente entre ellos.

Para unir todo, los investigadores crearon una aplicación web interactiva que permite a los usuarios ingresar comandos y generar infinitamente contenido interpolado en tiempo real mientras ven la línea de tiempo del espectrograma en 3D.

El audio cambia sin problemas al nuevo mensaje a medida que el usuario completa nuevos mensajes. El programa interpolará entre varias semillas del mismo indicador si no hay ningún indicador nuevo. Con un cabezal de reproducción translúcido, los espectrogramas se muestran como mapas de altura 3D a lo largo de una línea de tiempo.

La música generada por IA ya es un concepto de vanguardia, pero Riffusion lo eleva con un método brillante y peculiar que crea música extraña e intrigante utilizando imágenes de audio en lugar de audio real. Con la difusión se ha hecho posible generar más música nueva y única.


Revisar la Herramienta y Código. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestra página de Reddit y canal de discordiadonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.


navy white abstract background profile photo instagram post 2

Rishabh Jain, es pasante de consultoría en MarktechPost. Actualmente está cursando B.tech en ciencias informáticas de IIIT, Hyderabad. Es un entusiasta del aprendizaje automático y tiene un gran interés en los métodos estadísticos en inteligencia artificial y análisis de datos. Le apasiona desarrollar mejores algoritmos para la IA.


Fuente del artículo

Deja un comentario