На платформе hugging face появилась такая функция.
Аудио отправляется в LP-Music-Caps для генерации подписи к аудио, которая затем преобразуется в иллюстративное описание изображения с помощью Llama2 и, наконец, запускается через Stable Diffusion XL для генерации изображения из аудио!
Мы сгенерировали картинку к песни Арии «Штиль». Как вы могли заметить, картинка не очень подходит по содержанию, но подходит по настроению. В интернете я встречал более удачные примеры, так что пробуйте разные аудио.