Google создал ИИ, который может генерировать музыку из текстовых описаний, но не воспроизводит ее

От

27.01.2023

Впечатляющая новая система искусственного интеллекта от Google может генерировать музыку любого жанра с текстовым описанием. Но компания, опасаясь рисков, не планирует запускать его в ближайшее время.

Названная MusicML, Google, безусловно, не первая система генеративного искусственного интеллекта для песен. Были и другие попытки, в том числе Riffusion, ИИ, который сочиняет музыку, визуализируя ее, а также Dance Diffusion, AudioML от Google и Jukebox от OpenAI. Но из-за технических ограничений и ограниченных данных для обучения ни один из них не смог создать особенно сложные или высококачественные песни.

MusicML, пожалуй, первый, кто может.

Как подробно описано в академической статье на этой неделе, MusicML был обучен на немаркированном музыкальном наборе данных, чтобы научиться генерировать согласованные песни для описаний, как выразились создатели, «значительной сложности» (например, «прекрасная джазовая песня с запоминающимся саксофонным соло). и солист» или «берлинское техно 90-х с низким басом и тяжелой бочкой». Его песни, на удивление, звучат так, как будто человек-художник может сочинять, хотя и не обязательно столь же изобретательно или музыкально связно.

На самом деле, трудно преувеличить степень хорошо семплы воспроизводятся, поскольку в цикле нет ни музыканта, ни инструменталиста. Даже при подаче несколько длинных и извилистых описаний MusicML удается улавливать такие нюансы, как инструментальные риффы, мелодии и настроения.

Образец подписи ниже, например, включает фразу «вызывает ощущение потерянности в космосе», и в этом отношении он определенно соответствует действительности (по крайней мере, на мой слух):

Вот еще один образец, созданный на основе описания, которое начинается с предложения «Основной саундтрек к аркадной игре». Правдоподобно, правда?

Возможности MusicLM не ограничиваются созданием коротких музыкальных клипов. Исследователи Google показывают, что система может быть основана на существующих мелодиях, будь то напевание, пение, насвистывание или игра на инструменте. Кроме того, MusicLM может последовательно брать различные письменные описания (например, «время медитировать», «время просыпаться», «время бежать», «время выкладываться на 100%)» и создавать своеобразную «историю». или мелодическое повествование. продолжительностью до нескольких минут, что идеально подходит для саундтрека к фильму.

Это не значит, что MusicLM идеален, если честно, это далеко не так. Некоторые образцы имеют искаженное качество, что является неизбежным побочным эффектом процесса формования. И хотя технически MusicLM может генерировать вокал, включая хоровые гармонии, многие из них оставляют желать лучшего. Большая часть «лирики» варьируется от едва связной до чистой тарабарщины, исполняемой синтезированными голосами, которые звучат как смесь разных исполнителей.

Тем не менее, исследователи Google отмечают множество этических проблем, которые создает такая система, как MusicML, в том числе неудачную тенденцию включать защищенный авторским правом материал из обучающих данных в сгенерированные песни. Во время эксперимента они обнаружили, что около 1% музыки, сгенерированной системой, воспроизводилось непосредственно из песен, на которых она обучалась, — порог, по-видимому, достаточно высок, чтобы отговорить их от выпуска MusicML в его текущем состоянии.

«Мы признаем риск потенциального незаконного присвоения творческого контента, связанного с вариантом использования», — написали соавторы статьи. «Мы подчеркиваем необходимость дальнейшей работы по устранению этих рисков, связанных с поколением музыки».

Если предположить, что MusicML или аналогичная система однажды станет доступной, серьезные юридические проблемы кажутся неизбежными. У них уже есть, хотя и вокруг более простых систем ИИ. В 2020 году звукозаписывающая компания Jay-Z подала иски о нарушении авторских прав против YouTube канал Vocal Synthesis за использование ИИ для создания каверов Jay-Z на такие песни, как «We Didn't Start the Fire» Билли Джоэла. После первоначального удаления видео YouTube сбросить их, посчитав запросы на удаление «незавершенными». Но дипфейковая музыка по-прежнему находится на неясном правовом основании.

В официальном документе, написанном Эриком Санреем, в настоящее время стажером юриста в Ассоциации музыкальных издателей, утверждается, что музыкальные генераторы с искусственным интеллектом, такие как MusicML, нарушают авторские права на музыку, создавая «связные аудиозаписи произведений, которые они используют во время обучения, тем самым нарушая воспроизведение авторских прав США». Закон”. После выпуска Jukebox критики также задались вопросом, является ли обучение моделей ИИ на музыкальных материалах, защищенных авторским правом, добросовестным использованием. Аналогичные опасения были высказаны в отношении обучающих данных, используемых в системах ИИ, которые генерируют изображения, коды и текст, которые часто извлекаются из сети без ведома создателей.

С точки зрения пользователя Энди Байо из Waxy предполагает, что музыка, созданная системой искусственного интеллекта, будет считаться производной работой, и в этом случае авторские права будут защищены только исходными элементами. Конечно, непонятно, что в этой музыке можно считать “оригинальным”; использовать эту музыку в коммерческих целях — значит войти в неизведанные воды. Это проще, если сгенерированная музыка используется в целях, защищенных добросовестным использованием, таких как пародии и комментарии, но Байо ожидает, что суды должны будут выносить решения в каждом конкретном случае.