Stability AI estrena Stable Audio 3.0 para crear música y efectos con IA

Stability AI estrena Stable Audio 3.0 para crear música y efectos con IA

Sigue a MadridActual en Google
Añadir a mis fuentes favoritas

Tres modelos de pesos abiertos disponibles en Hugging Face y GitHub para ejecutar localmente en ordenadores.

Stability AI ha lanzado Stable Audio 3.0, una nueva generación de modelos de texto a audio diseñada para la creación de música y efectos sonoros. La propuesta incluye versiones de pesos abiertos que pueden descargarse y ejecutarse de forma local en un ordenador, sin depender de servidores externos.

La familia de modelos representa el último avance de la compañía en generación de sonido mediante Inteligencia Artificial. El sistema interpreta la estructura musical profunda y permite crear audios de duración variable, con las versiones más avanzadas superando los seis minutos continuos en calidad estéreo a 44.1 kHz. Stability AI ha comunicado la disponibilidad de esta herramienta y el despliegue de tres modelos de pesos abiertos en Hugging Face, además de un repositorio en GitHub preparado para la inferencia de Stable Audio 3 y el ajuste fino con LoRA. La compañía ha indicado que todos los modelos se han entrenado con contenidos licenciados.

El modelo Stable Audio 3 Small SFX se centra en la creación de efectos de sonido: ambientes, explosiones, pisadas y otros sonidos ambientales. Stability AI lo define como una opción muy ligera, capaz de generar clips de hasta dos minutos y pensada para funcionar de forma local en móviles o portátiles comerciales sin requerir hardware especializado.

La versión Stable Audio 3.0 Small Music comparte el enfoque modular del anterior, pero se dirige específicamente a la composición musical. Esta variante puede crear canciones y melodías instrumentales completas a partir de texto y generar pistas de hasta dos minutos, con la posibilidad de trabajar sin conexión en ordenadores de uso cotidiano.

Para quienes buscan mayor fidelidad artística, Stability AI ofrece Stable Audio 3.0 Medium, también disponible para descarga gratuita. Este modelo genera música y sonido general con más capacidad que las versiones pequeñas, mantiene la coherencia melódica y desarrolla estructuras de canción más complejas, permitiendo crear pistas de hasta 6 minutos y 20 segundos.

La familia incorpora además Stable Audio 3.0 Large, un cuarto modelo accesible mediante la API de Stability AI y a través de autoalojamiento para despliegues empresariales. La compañía lo presenta como el sistema más potente de la serie, diseñado específicamente para grandes plataformas. A diferencia de las otras tres variantes, este modelo no está disponible para su descarga y exige el uso de superordenadores. Stability AI permite probarlo desde la web de Stable Audio, aunque su distribución queda limitada a los canales previstos para API y entornos empresariales.

Los modelos operan bajo la Stability AI Community License, lo que permite utilizarlos gratuitamente para fines personales y creativos. La empresa ha señalado que no reclama royalties ni derechos de propiedad sobre los resultados generados por el sistema, una política que facilita su adopción en proyectos independientes y educativos.

Junto al lanzamiento, Stability AI ha publicado dos artículos académicos relacionados con esta tecnología: Stable Audio 3 paper y SAME paper. Ambos trabajos acompañan la presentación de Stable Audio 3.0 y forman parte de la documentación difundida por la compañía para sustentar el desarrollo técnico de estos modelos.