ИИ придет и в музыку
В конце этой истории приведены образцы музыки, сгенерированной искусственным интеллектом.
Искусственный интеллект едва ли был термином в 1956 году, когда ведущие ученые в области вычислительной техники приехали в Дартмутский колледж на летнюю конференцию. Ученый-компьютерщик Джон Маккарти придумал эту фразу в предложении о финансировании мероприятия, собрания для работы над тем, как создавать машины, которые могли бы использовать язык, решать проблемы, как люди, и совершенствовать себя. Но это был хороший выбор, который отражал основополагающую предпосылку организаторов: любая черта человеческого интеллекта могла бы «в принципе быть настолько точно описана, что можно было бы создать машину, которая будет ее имитировать».
В своем предложении группа перечислила несколько «аспектов проблемы искусственного интеллекта». Последним пунктом в их списке, и, оглядываясь назад, возможно, самым сложным, было создание машины, которая могла бы проявлять креативность и оригинальность.
В то время психологи пытались понять, как определить и измерить креативность у людей. Господствующая теория — что креативность является продуктом интеллекта и высокого IQ — угасала, но психологи не были уверены, чем ее заменить. У организаторов Дартмута была своя собственная. «Разница между творческим мышлением и невообразимым компетентным мышлением заключается во введении некоторой случайности», — писали они, добавляя, что такая случайность «должна направляться интуицией, чтобы быть эффективной».
Почти 70 лет спустя, после ряда циклов подъема и спада в этой области, у нас теперь есть модели ИИ, которые более или менее следуют этому рецепту. В то время как большие языковые модели, которые генерируют текст, взорвались за последние три года, другой тип ИИ, основанный на так называемых моделях диффузии, оказывает беспрецедентное влияние на творческие области. Преобразуя случайный шум в связные узоры, модели диффузии могут генерировать новые изображения, видео или речь, руководствуясь текстовыми подсказками или другими входными данными. Лучшие из них могут создавать результаты, неотличимые от работы людей, а также странные, сюрреалистичные результаты, которые кажутся отчетливо нечеловеческими.
Теперь эти модели маршируют в творческую область, которая, возможно, более уязвима для сбоев, чем любая другая: музыка. Творческие работы, созданные ИИ — от оркестровых выступлений до хэви-метала — готовы проникнуть в нашу жизнь глубже, чем любой другой продукт ИИ. Песни, скорее всего, войдут в наши потоковые платформы, плейлисты для вечеринок и свадеб, саундтреки и многое другое, независимо от того, замечаем ли мы, кто (или что) их создал.
В течение многих лет модели диффузии вызывали споры в мире визуального искусства о том, отражает ли то, что они производят, истинное творение или простое копирование. Теперь этот спор пришел к музыке, форме искусства, которая глубоко укоренилась в нашем опыте, воспоминаниях и социальной жизни. Музыкальные модели теперь могут создавать песни, способные вызывать реальные эмоциональные отклики, представляя собой яркий пример того, как сложно становится определить авторство и оригинальность в эпоху ИИ.
Суды активно борются с этой мутной территорией. Крупные звукозаписывающие компании подают в суд на ведущих музыкальных генераторов ИИ, утверждая, что модели диффузии делают не более, чем просто копируют человеческое искусство без компенсации артистам. Создатели моделей возражают, что их инструменты созданы для помощи в творчестве человека.
Решая, кто прав, мы вынуждены серьезно задуматься о собственном человеческом творчестве. Является ли творчество, будь то в искусственных нейронных сетях или биологических, просто результатом обширного статистического обучения и установленных связей с примесью случайности? Если так, то авторство — скользкое понятие. Если нет — если в творчестве есть некий отчетливо человеческий элемент — что это такое? Что значит быть тронутым чем-то без человеческого создателя? Мне пришлось бороться с этими вопросами, когда я впервые услышал сгенерированную ИИ песню, которая была по-настоящему фантастической — было тревожно знать, что кто-то просто написал подсказку и нажал «Сгенерировать». Эта затруднительная ситуация скоро коснется и вас.
Установление связей
После конференции в Дартмуте ее участники разошлись по разным направлениям исследований, чтобы создать основополагающие технологии ИИ. В то же время когнитивные ученые следовали призыву Дж. П. Гилфорда, президента Американской психологической ассоциации, от 1950 года заняться вопросом креативности у людей. Они пришли к определению, впервые формализованному в 1953 году психологом Моррисом Стайном в Journal of Psychology : творческие работы являются одновременно новыми, то есть они представляют что-то новое, и полезными, то есть они служат какой-то цели для кого-то. Некоторые призывали заменить «полезный» на «удовлетворительный», а другие настаивали на третьем критерии: что творческие вещи также удивительны.
Позже, в 1990-х годах, развитие функциональной магнитно-резонансной томографии позволило изучить больше нейронных механизмов, лежащих в основе креативности во многих областях, включая музыку. Вычислительные методы в последние несколько лет также упростили картирование роли, которую память и ассоциативное мышление играют в творческих решениях.
То, что появилось, — это не столько грандиозная унифицированная теория о том, как творческая идея зарождается и разворачивается в мозгу, сколько постоянно растущий список мощных наблюдений. Сначала мы можем разделить человеческий творческий процесс на фазы, включая этап идеи или предложения, за которым следует более критический и оценочный этап, который ищет достоинства в идеях. Ведущая теория о том, что направляет эти две фазы, называется ассоциативной теорией творчества, которая утверждает, что самые креативные люди могут формировать новые связи между далекими концепциями.

Эти связи часто зависят именно от семантической памяти, которая хранит концепции и факты, в отличие от эпизодической памяти, которая хранит воспоминания из определенного времени и места. В последнее время более сложные вычислительные модели использовались для изучения того, как люди устанавливают связи между концепциями на больших «семантических расстояниях». Например, слово « апокалипсис» более тесно связано с ядерной энергией, чем с празднованием . Исследования показали, что очень творческие люди могут воспринимать очень семантически различные концепции как близкие друг к другу. Было обнаружено, что художники генерируют словесные ассоциации на больших расстояниях, чем не художники. Другие исследования подтвердили идею о том, что у творческих людей «протекающее» внимание, то есть они часто замечают информацию, которая может быть не особенно важна для их непосредственной задачи.
Нейробиологические методы оценки этих процессов не предполагают, что креативность раскрывается в определенной области мозга. «Ничто в мозге не производит креативность так, как железа, выделяющая гормон», — написал Дин Кит Саймонтон, лидер в области исследований креативности, в Cambridge Handbook of the Neuroscience of Creativity .
Вместо этого доказательства указывают на несколько рассеянных сетей активности во время творческого мышления, говорит Бити, — одна для поддержки первоначального создания идей посредством ассоциативного мышления, другая участвует в выявлении перспективных идей, а третья для оценки и модификации. Новое исследование, проведенное исследователями Гарвардской медицинской школы и опубликованное в феврале, предполагает, что творчество может даже включать подавление определенных сетей мозга, например, тех, которые участвуют в самоцензуре.
Пока что машинное творчество — если его можно так назвать — выглядит совсем иначе. Хотя во время конференции в Дартмуте исследователи ИИ интересовались машинами, вдохновленными человеческим мозгом, фокус сместился к моменту изобретения диффузионных моделей, около десяти лет назад.
Лучшая подсказка о том, как они работают, содержится в названии. Если окунуть кисть, наполненную красными чернилами, в стеклянную банку с водой, чернила будут диффундировать и завихряться в воде, казалось бы, хаотично, в конечном итоге давая бледно-розовую жидкость. Модели диффузии имитируют этот процесс в обратном порядке, реконструируя различимые формы из случайности.
Чтобы понять, как это работает для изображений, представьте себе фотографию слона. Чтобы обучить модель, вы делаете копию фотографии, добавляя слой случайной черно-белой статики сверху. Сделайте вторую копию и добавьте немного больше, и так сотни раз, пока последнее изображение не станет чистой статикой, без слона в поле зрения. Для каждого изображения между ними статистическая модель предсказывает, какая часть изображения является шумом, а какая — настоящим слоном. Она сравнивает свои догадки с правильными ответами и учится на своих ошибках. За миллионы таких примеров модель становится лучше в «очищении от шума» изображений и связывании этих шаблонов с описаниями, такими как «самец слона Борнео в открытом поле».
Теперь, когда он обучен, создание нового изображения означает обратный процесс. Если вы дадите модели подсказку, например, «счастливый орангутан в мшистом лесу», она сгенерирует изображение случайного белого шума и будет работать в обратном направлении, используя свою статистическую модель для удаления частичек шума шаг за шагом. Сначала появляются грубые формы и цвета. Затем следуют детали, и, наконец (если это сработает), появляется орангутан, и все это без того, чтобы модель «знала», что такое орангутан.
Музыкальные образы
Подход работает примерно так же и для музыки. Модель диффузии не «сочиняет» песню так, как это могла бы сделать группа, начиная с аккордов фортепиано и добавляя вокал и барабаны. Вместо этого все элементы генерируются одновременно. Процесс основан на том факте, что множество сложностей песни можно визуально изобразить в одной волновой форме, представляющей амплитуду звуковой волны, нанесенную на график во времени.
Представьте себе проигрыватель пластинок. Двигаясь по канавке в куске винила, игла отражает путь звуковых волн, выгравированных в материале, и передает его в сигнал для динамика. Динамик просто выталкивает воздух в этих узорах, генерируя звуковые волны, которые передают всю песню.
Издалека форма волны может выглядеть так, как будто она просто следует громкости песни. Но если бы вы достаточно приблизились, вы могли бы увидеть закономерности в пиках и впадинах, например, 49 волн в секунду для бас-гитары, играющей низкую соль. Форма волны содержит сумму частот всех различных инструментов и текстур. «Вы видите, как начинают возникать определенные формы», — говорит Дэвид Дин, соучредитель музыкальной компании Udio, работающей с искусственным интеллектом, «и это как бы соответствует широкому мелодическому смыслу».
Поскольку формы волн или подобные им диаграммы, называемые спектрограммами, можно рассматривать как изображения, вы можете создать из них модель диффузии. Модель получает миллионы клипов существующих песен, каждая из которых помечена описанием. Чтобы сгенерировать новую песню, она начинает с чистого случайного шума и работает в обратном направлении, чтобы создать новую форму волны. Путь, который требуется для этого, формируется тем, какие слова кто-то вставляет в подсказку.
Дин работал в Google DeepMind пять лет старшим инженером-исследователем по моделям диффузии для изображений и видео, но в 2023 году ушел, чтобы основать Udio, базирующуюся в Нью-Йорке. Компания и ее конкурент Suno, базирующаяся в Кембридже, штат Массачусетс, сейчас лидируют в гонке за модели генерации музыки. Обе компании стремятся создавать инструменты ИИ, которые позволяют немузыкантам создавать музыку. Suno крупнее, у нее более 12 миллионов пользователей, и в мае 2024 года она привлекла раунд финансирования в размере 125 миллионов долларов. Компания сотрудничала с такими артистами, как Timbaland. Udio привлекла раунд начального финансирования в размере 10 миллионов долларов в апреле 2024 года от таких известных инвесторов, как Andreessen Horowitz, а также музыкантов Will.i.am и Common.
Результаты Udio и Suno на данный момент говорят о том, что есть значительная аудитория людей, которым может быть все равно, создана ли музыка, которую они слушают, людьми или машинами. Suno имеет страницы исполнителей для создателей, некоторые из которых имеют большое количество подписчиков, которые генерируют песни полностью с помощью ИИ, часто сопровождаемые сгенерированными ИИ изображениями исполнителя. Эти создатели не являются музыкантами в общепринятом смысле, а искусными суфлерами, создающими работу, которую нельзя приписать одному композитору или певцу. В этом новом пространстве наши обычные определения авторства — и наши границы между созданием и воспроизведением — практически растворяются.
Результаты, полученные Удио и Суно на данный момент, свидетельствуют о том, что существует значительная аудитория людей, которым может быть все равно, создана ли музыка, которую они слушают, людьми или машинами.
Музыкальная индустрия сопротивляется. Обе компании были привлечены к ответственности крупными звукозаписывающими компаниями в июне 2024 года, и судебные иски продолжаются. Лейблы, включая Universal и Sony, утверждают, что модели ИИ обучались на защищенной авторским правом музыке «в почти невообразимых масштабах» и генерируют песни, которые «имитируют качества настоящих человеческих звукозаписей» (например, в деле против Суно упоминается одна песня, связанная с ABBA, под названием «Prancing Queen»).
Suno не ответила на просьбы прокомментировать судебный процесс, но в заявлении в ответ на дело, опубликованном в блоге Suno в августе, генеральный директор Майки Шульман сказал, что компания обучается на музыке, найденной в открытом интернете, которая «действительно содержит материалы, защищенные авторским правом». Но, по его словам, «обучение не является нарушением».
Представитель Udio заявил, что компания не будет комментировать предстоящее судебное разбирательство. Во время судебного процесса Udio опубликовала заявление, в котором упомянула, что ее модель имеет фильтры, гарантирующие, что она «не воспроизводит защищенные авторским правом произведения или голоса артистов».
Еще больше усложняет ситуацию руководство Бюро по авторским правам США, выпущенное в январе, в котором говорится, что созданные ИИ произведения могут быть защищены авторским правом, если они включают в себя значительный объем человеческого вклада. Месяц спустя художник из Нью-Йорка получил то, что может стать первым авторским правом на произведение визуального искусства, созданное с помощью ИИ. Следующей может стать первая песня.
Новизна и подражание
Эти судебные дела заходят в серую зону, похожую на ту, что исследовали другие судебные баталии, разворачивающиеся в сфере ИИ. Здесь вопрос в том, разрешено ли обучение моделей ИИ на защищенном авторским правом контенте, и не копируют ли сгенерированные песни стиль исполнителя-человека несправедливо.
Однако музыка, созданная с использованием искусственного интеллекта, скорее всего, в той или иной форме распространится независимо от этих судебных решений; сообщается, что YouTube ведет переговоры с крупными лейблами о лицензировании их музыки для обучения искусственного интеллекта, а недавнее расширение соглашений Meta с Universal Music Group позволяет предположить, что лицензирование музыки, созданной с использованием искусственного интеллекта, может быть рассмотрено.
Если музыка ИИ останется, будет ли она хоть сколько-нибудь хороша? Рассмотрим три фактора: данные для обучения, саму модель диффузии и подсказки. Модель может быть хороша лишь настолько, насколько хороша библиотека музыки, на которой она учится, и описания этой музыки, которые должны быть сложными, чтобы хорошо ее охватить. Затем архитектура модели определяет, насколько хорошо она может использовать то, что было изучено, для генерации песен. И подсказки, которые вы вводите в модель, а также степень, в которой модель «понимает», что вы имеете в виду, например, «выключи этот саксофон», также имеют решающее значение.
Является ли результат созданием или просто копированием обучающих данных? Мы могли бы задать тот же вопрос о человеческом творчестве.
Вероятно, наиболее важным вопросом является первый: насколько обширны и разнообразны данные для обучения и насколько хорошо они маркированы? Ни Suno, ни Udio не раскрывают, какая музыка вошла в их набор для обучения, хотя эти подробности, вероятно, придется раскрыть в ходе судебных разбирательств.
Udio говорит, что способ маркировки этих песен имеет важное значение для модели. «Область активных исследований для нас: как мы получаем все более и более утонченные описания музыки?» — говорит Дин. Базовое описание идентифицирует жанр, но затем вы также можете сказать, является ли песня угрюмой, воодушевляющей или спокойной. Более технические описания могут упоминать последовательность аккордов два-пять-один или определенную гамму. Udio говорит, что делает это посредством комбинации машинной и человеческой маркировки.
«Поскольку мы хотим охватить широкий круг целевых пользователей, это также означает, что нам нужен широкий круг музыкальных аннотаторов», — говорит он. «Не только люди с музыкальными степенями, которые могут описывать музыку на очень техническом уровне, но и любители музыки, у которых есть свой собственный неформальный словарь для описания музыки».
Конкурентные музыкальные генераторы ИИ также должны учиться на постоянном притоке новых песен, созданных людьми, иначе их результаты будут застревать во времени, звучать безвкусно и устаревшими. Для этого сегодняшняя музыка, созданная ИИ, опирается на созданное человеком искусство. Однако в будущем музыкальные модели ИИ смогут обучаться на собственных выходах, подход, который экспериментируется в других областях ИИ.
Поскольку модели начинаются со случайной выборки шума, они недетерминированы; предоставление одной и той же модели ИИ одной и той же подсказки каждый раз приведет к новой песне. Это также связано с тем, что многие создатели диффузионных моделей, включая Udio, вводят дополнительную случайность в процесс — по сути, беря форму волны, генерируемую на каждом шаге, и слегка искажая ее в надежде добавить несовершенства, которые сделают вывод более интересным или реальным. Организаторы конференции в Дартмуте сами рекомендовали такую тактику еще в 1956 году.
По словам соучредителя и главного операционного директора Udio Эндрю Санчеса, именно эта случайность, присущая программам генеративного ИИ, шокирует многих людей. В течение последних 70 лет компьютеры выполняли детерминированные программы: давали программному обеспечению ввод и каждый раз получали один и тот же ответ.
«Многие из наших партнеров-художников скажут: «Ну, почему он это делает?» — говорит он. «Мы такие, ну, мы на самом деле не знаем». Генеративная эра требует нового мышления, даже для компаний, которые ее создают: программы ИИ могут быть запутанными и непостижимыми.
Является ли результат созданием или просто копированием обучающих данных? Поклонники музыки ИИ сказали мне, что мы могли бы задать тот же вопрос о человеческом творчестве. Когда мы слушаем музыку в юности, нейронные механизмы обучения взвешиваются этими входами, и воспоминания об этих песнях влияют на наши творческие результаты. В недавнем исследовании Энтони Брандт, композитор и профессор музыки в Университете Райса, указал, что и люди, и большие языковые модели используют прошлый опыт для оценки возможных будущих сценариев и принятия лучших решений.
Действительно, большая часть человеческого искусства, особенно в музыке, заимствована. Это часто приводит к судебным разбирательствам, когда артисты утверждают, что песня была скопирована или сэмплирована без разрешения. Некоторые артисты предлагают сделать модели диффузии более прозрачными, чтобы мы могли знать, что вдохновение для данной песни на три части Дэвид Боуи и на одну часть Лу Рид. Удио говорит, что ведутся исследования, чтобы достичь этого, но сейчас никто не может сделать это надежно.
Для великих художников «существует сочетание новизны и влияния, которое играет роль», — говорит Санчес. «И я думаю, что это то, что также играет роль в этих технологиях».
Но есть много областей, где попытки приравнять человеческие нейронные сети к искусственным быстро разваливаются под пристальным вниманием. Брандт выделяет одну область, где он видит, что человеческое творчество явно превосходит своих машинных аналогов: то, что он называет «усилением аномалии». Модели ИИ работают в сфере статистической выборки. Они работают не путем подчеркивания исключительного, а, скорее, путем сокращения ошибок и поиска вероятных закономерностей. Людей, с другой стороны, интригуют странности. «Вместо того, чтобы рассматривать их как странные события или „единичные случаи“», пишет Брандт, странность «пронизывает творческий продукт».

Если творческий результат действительно определяется как нечто одновременно новое и полезное, то интерпретация Брандта предполагает, что машины могут сравниться с нами по второму критерию, в то время как люди будут доминировать по первому.
Чтобы выяснить, правда ли это, я провел несколько дней, играясь с моделью Udio. Генерация 30-секундного образца занимает минуту или две, но если у вас есть платные версии модели, вы можете генерировать целые песни. Я решил выбрать 12 жанров, сгенерировать образец песни для каждого, а затем найти похожие песни, созданные людьми. Я создал тест, чтобы проверить, смогут ли люди в нашей редакции определить, какие песни были созданы ИИ.
Средний балл составил 46%. А для некоторых жанров, особенно инструментальных, слушатели ошибались чаще, чем нет. Когда я наблюдал, как люди проходили тест передо мной, я заметил, что качества, которые они уверенно отмечали как признак сочинения ИИ — фальшиво звучащий инструмент, странная лирика — редко оказывались правыми. Как и ожидалось, люди справлялись хуже в жанрах, с которыми были менее знакомы; некоторые справились с кантри или соулом, но у многих не было никаких шансов против джаза, классического фортепиано или поп-музыки. Бити, исследователь креативности, набрал 66%, в то время как Брандт, композитор, закончил с 50% (хотя он ответил правильно на тесты оркестровой и фортепианной сонаты).
Помните, что модель не заслуживает здесь всех похвал; эти результаты не могли быть созданы без работы людей-художников, чья работа была в обучающих данных. Но всего с несколькими подсказками модель сгенерировала песни, которые мало кто выберет как созданные машиной. Несколько из них можно было бы легко сыграть на вечеринке, не вызывая возражений, и я нашел две, которые мне действительно понравились, даже будучи музыкантом всю жизнь и в целом придирчивым любителем музыки. Но звучать по-настоящему — это не то же самое, что звучать оригинально. Песни не ощущались движимыми странностями или аномалиями — определенно не на уровне «прыжка-пугала» Бетховена. И они не казались искажающими жанры или охватывающими большие скачки между темами. В моем тесте люди иногда с трудом могли решить, была ли песня сгенерирована ИИ или просто плохой.
Насколько это будет иметь значение в конечном итоге? Суды будут играть роль в решении, будут ли музыкальные модели ИИ служить репликациями или новыми творениями — и как артисты будут получать компенсацию в этом процессе — но мы, как слушатели, будем определять их культурную ценность. Чтобы оценить песню, нужно ли нам представлять себе человека-исполнителя за ней — кого-то с опытом, амбициями, мнениями? Перестанет ли отличная песня быть отличной, если мы узнаем, что она является продуктом ИИ?
Санчес говорит, что люди могут задаться вопросом, кто стоит за этой музыкой. Но «в конце концов, как бы много ни было в ней искусственного интеллекта, как бы много ни было человеческого компонента, это будет искусство», — говорит он. «И люди будут реагировать на нее по качеству ее эстетических достоинств».
Однако в своем эксперименте я увидел, что этот вопрос действительно важен для людей, и некоторые яростно сопротивлялись идее наслаждаться музыкой, созданной компьютерной моделью. Когда одна из моих испытуемых инстинктивно начала качать головой в такт электропоп-песне в тесте, на ее лице отразилось сомнение. Это было почти так, как если бы она изо всех сил пыталась представить человека, а не машину в качестве композитора песни. «Боже, — сказала она, — я очень надеюсь, что это не ИИ».