Генерация музыкальных треков с помощью нейросети

Титов Т.И. 1

1Физтех-лицей им. П.Л. Капицы

Мерзляков А.В. 1

1Физтех-лицей им. П.Л. Капицы

Работа в формате PDF

190.4 KB

Автор работы награжден дипломом победителя II степени

Диплом школьника Свидетельство руководителя

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

Цель

Разработать собственную нейронную сеть, способную генерировать MIDI-треки, и обучить ее создавать музыкальные композиции.

Назначение

Данный продукт предназначен для начинающих музыкантов, композиторов и людей, не имеющих музыкального образования, для которых создание музыки может быть сложным процессом. Подобные системы могут помочь в создании оригинальной мелодии и профессиональным композиторам.

Постановка проблемы

Классические методы кодирования входных данных для нейронных сетей, применяемые при генерации музыкальных MIDI-треков, а также классические подходы с использованием популярных библиотек (таких как TensorFlow и др.) не достаточны для получения высокого качества результата. Например: генерация интересных, разнообразных, запоминающихся мелодий с плавным голосоведением.

Требуется разработать инновационный метод кодирования данных, а также предложить собственную реализацию различных архитектур нейросетей, чтобы эффективно их использовать в составе более сложных моделей генерации музыки, таких как seq2seq. Важной частью решения проблемы является условие: не прибегать к таким сложным архитектурам нейросетей, как Transformer, так как подобные архитектуры очень сложны в обучении и требуют больших вычислительных мощностей.

Актуальность

Актуальность данного проекта заключается в нескольких ключевых аспектах:

Развитие музыкальных технологий: с каждым годом развивается индустрия музыкальных технологий, и автоматизация создания музыки становится важным направлением. Генерация MIDI-файлов с помощью алгоритмов открывает новые возможности как для профессиональных музыкантов, так и для любителей, позволяя создавать музыку быстрее и с минимальными усилиями.
Использование машинного обучения: современные алгоритмы на основе машинного обучения и искусственного интеллекта могут эффективно генерировать музыкальные композиции, что приводит к новому уровню творчества и инноваций в музыке. Генерация MIDI-файлов с использованием этих технологий помогает создавать уникальные произведения, которые могут быть использованы в различных музыкальных жанрах.
Спрос на музыкальный контент: в условиях роста популярности стриминговых платформ, видео и аудиопрограмм востребованность контента продолжает расти. Генерация MIDI-файлов дает возможность создавать музыку, которая может быть использована в различных проектах, таких как видеоигры, фильмы, рекламные ролики и другие виды медиа-продукции.

Новизна

Проект предлагает инновационный метод генерации музыкальных MIDI‑треков, обеспечивающий качество результата, превосходящее как классические методы кодирования входных данных (кодирование MIDI-событий), так и традиционные архитектуры нейросетей.

Анализ аналогов на рынке

Место	Компания	Связанная мелодия	Сложная интересная мелодия	Бесплатная утилита	Выбор тональности	Широкий выбор длины трека	Удобный интерфейс	Разнообразный ритм	Выбор музыкальных инструментов	Много- голосие	Полифония	Создание нотной партитуры
1	MN3F	+-	+	+	-	+	+	+	+	+	+	+
2	MIDI GEN 1.0	-	-	+	+	+	+	+	+	-	-	-
3	dopeloop	+	-	-	+	-	+	+	+	-	-	-
4	MIDI Generation Studio	-	-	+	-	-	-	-	-	-	-	-

Хотелось бы отметить, что связанная мелодия получилась далеко не у всех. В частности, связанность присутствует только dopeloop. Но dopeloop специализируется на генерации мелодий, максимальная длина которых не превышает 64 нот.

Генератор MIDI Generation Studio вообще выдает MIDI-файл, в котором содержится только одна очень короткая нота.

У MIDI GEN 1.0 генератор работает не намного лучше, чем у MIDI Generation Studio. Он выдает абсолютно не связанный между собой набор нот разной длины.

Таким образом, услышать мелодию от генераторов конкурентов можем только с оговоркой, у dopeloop.

Также хотелось бы упомянуть успешный проект Midi Composer, но к сожалению он не подходит нам по критериям оценки, так как он работает на базе архитектуры нейросети Transformer.

Этапы проектирования

Создание MidiNeuro

Сбор датасета: скачивание 20’000 MIDI-файлов.

Обучение нейросети: решение проблемы с затуханием и взрывом градиента, с применением L1 и L2 регуляции.

Вывод: отдельно высоты нот не несут в себе никакого семантического смысла, следовательно началась разработка нового метода обучения нейросети.

Создание MN2F

Идея: группировать ноты по парам и представлять это как слова.

Реализация Word2Vec: разработка CBOW (Continuous Bag Of Words) нейросети.

Отказ от старого датасета: использование датастеа MAESTRO V3.0.0.

Разработка 8 скриптов на Python для преобразования MIDI-файлов в нужные форматы - для подачи на вход и на выход CBOW и основной MidiNeuro2 на базе архитектуры RNN.

Приобретение видеокарты NVIDIA GeForce GT 1030 с поддержкой CUDA (Compute Unified Device Architecture).

Переработка кодовой базы на PyTorch для того, чтобы использовать возможности видеокарты: возможность вычисления на CUDA ядрах дало ускорение в 80 раз.

Создание MN3F

Выяснилось, что из-за того, что в датасете MAESTRO V3.0.0 пианисты играют двумя руками верхний и нижний голос, нейросеть начинает в своих сочинениях резко переходить от нижнего голоса к верхнему. Так как, моя нейросеть способна обрабатывать только 1 голос, она слушала, как пианист играет двумя руками, в разложенном виде. То есть, нейросеть слушала по очереди то нижний голос, то верхний.

Для того, чтобы решить эту проблему, я создал специальный ритм, который каждый 2 соседние ноты воспроизводит одновременно. Это помогло, но все же нейросети было трудно уловить зависимости между нотами, которые расположены в таком порядке.

Из-за вышеописанных проблем пришлось отказаться от датасета MAESTRO V3.0.0. Было принято решение создать свой датасет. В этом мне помогла профессиональный композитор, член Союза композиторов России и Москвы, Суфиярова Диана Александровна. Вместе мы записали более 400 одноголосных MIDI-треков с плавным голосоведением. Далее я обучил нейросеть на собственном датасете. Теперь сочинения нейросети стали звучать гораздо лучше. График ошибки тоже стал лучше. В отличие от предыдущих графиков, теперь в общей тенденции прослеживается явное падения ошибки. В среднем функция ошибки MSE теперь составляет примерно 0.5, а функция точности RMSE примерно 0.4.

Концепция моей нейросети описана более подробно в теоретической и практической части.

Методы исследования

Анализ - в данном проекте это математический анализ поведения функций при изменении входных параметров.
Моделирование - строим математическую модель нейросети (задаем структуру, функцию потерь, метод оптимизации), наблюдаем, как нейросеть обрабатывает входные данные, изменяем глобальные параметры обучения и смотрим, как это влияет на качество предсказаний, корректируем параметры и изучаем поведение нейросети.
Обобщение - обобщаем результаты тестирования на основе показателей точности (смотрим, насколько хорошо модель обобщает знания на тестовых данных).
Формализация - используем для формулирования алгоритмов обучения и четкого определения метрик качества модели (формализация теоретических основ, архитектуры нейросети, процесса обучения, метрик и результатов), выводим с все формулы, необходимые для написания данной нейросети.
Эксперимент - экспериментируем с архитектурой нейросети, с выбором функции потерь, с гиперпараметрами, с различными методами предобработки данных, с методами регуляризации, с метриками оценки модели, с алгоритмами оптимизации.

Средства разработки

В проекте использовались современные технологии и языки: язык программирования Python, CUDA^¹.

Библиотеки для Python: PyTorch, Midiutil, Mido, Pickle, Matplotlib, Keyboard.

Задачи

Для реализации поставленной цели необходимо было решить следующие задачи:

Задача №1 - Разработка модели нейронной сети, которая подходит под данную задачу
Задача №2 - Выбор языка программирования и библиотек
Задача №3 - Реализация модели нейронной сети
Задача №4 - Обучение нейронной сети создавать музыкальные MIDI-треки

Структура проекта

Вся система состоит из 2-х частей - frontend и backend:

Backend - это серверная часть, которая будет обрабатывать запросы от frontend части и отвечать на них.
Frontend - это Telegram бот, позволяющий взаимодействовать с нейросетью.

Описание функционала конечного продукта

Конечным продуктом является нейросеть, доступная через Telegram бот, которая может генерировать интересные, запоминающиеся мелодические темы.

Описание алгоритмов, структур данных и их сложности

MIDI-файл, который пользователь загрузил для генерации по нему остальной части трека, передается на сервер, где проходит 3 этапа конвертации. После этого запускается нейросеть, которая проходится по входным данным, полученным из MIDI-файла, после чего нейросеть начинает генерировать продолжение до тех пор, пока не будет достигнуто специальное “STOP” значение. Далее результат проходит 2 этапа обратного преобразования в выходной MIDI-файл, который отправляется пользователю на устройство.

Этапы преобразования (MIDI-файл => формат входных данных в нейросеть):
1. Преобразование элементарных событий MIDI в номера нот (от 0 до 127 включительно)
2. Деление нот на слова
3. Преобразование индексов слов в векторы слов
Этапы преобразования (формат выходных данных нейросети => MIDI-файл):
1. Преобразование индексов слов в ноты
2. Сбор нот в итоговый MIDI-файл

Архитектура нейросети

Данная нейросеть написана мной вручную. Были использованы следующие библиотеки: Numpy, PyTorch, Pickle и другие. Стоит отметить, что PyTorch использовался исключительно для вычислений на GPU.

Архитектура нейросети создана на базе seq2seq. Seq2seq состоит из 2 частей: Encoder и Decoder.

Encoder

Задача: создать словарь эмбеддингов для каждого слова.

Формат входных данных: контекстный вектор.

Формат выходных данных: вектор центрального слова.

Decoder

Задача: сгенерировать продолжение временной зависимости, состоящей из эмбеддингов слов.

Формат входных данных: вектор текущего слова (эмбеддинг текущего слова).

Формат выходных данных: вектор следующего слова (эмбеддинг следующего слова).

Классы

В данном проекте имеется 3 класса: RNN, Hyper и EMA.

RNN - это основной класс, который использует классы Hyper и EMA для группировки переменных в логические блоки. Подсчитаем асимптотику обучения нейронной сети.

Обучающая выборка

Собран собственный dataset, состоящий из более чем 400 одноголосных MIDI-треков с плавным голосоведением.

Этапы разработки

Задача №1 - Разработка модели нейронной сети, которая подходит под данную задачу

Выбор архитектуры нейронной сети

Для задач анализа последовательностей во времени хорошо подходит seq2seq. Encoder представляет собой архитектуру CBOW, так как используется способ создания векторов слов Word2Vec (имеется 1 скрытый слой). Decoder представляет собой архитектуру RNN.

Выбор идеи генерации музыкальных файлов

Для генерации трека будем использовать MIDI-файлы. Каждый MIDI-файл состоит из элементарных событий. Среди них есть note_on и note_off. Каждое из этих двух событий состоит из множества параметров. Среди них выделим номер ноты, начало/конец звучания ноты на шкале времени MIDI, которая измеряется в tick, и громкость ноты.

Выбор количества входных нейронов

Для разложения MIDI-файла на ноты я буду использовать библиотеку Mido. Так как уже говорилось ранее, seq2seq состоит из 2 частей - Encoder и Decoder. Количество нейронов на вход и выход для Encoder соответствует количеству слов в словаре, так как контекстный вектор - это среднее значение one-hot векторов контекстных слов. Количество нейронов на вход и выход для Decoder соответствует выбранной длине вектора слова.

Выбор количества скрытых слоев и количества нейронов в них

Я долго экспериментировал и пришел к следующей архитектуре:

Input Dim: 32 нейрона, Linear, Tanh
Hidden Dim 1: 64 нейрона, RNN, Tanh
Hidden Dim 2: 64 нейрона, Linear, Tanh
Hidden Dim 3: 64 нейрона, Linear, Tanh
Output Dim: 32 нейрона, Linear, None

Для вычисления ошибки используется функция MSE (среднеквадратичная ошибка). Для оценки точности модели используется функция RMSE (Root Mean Squared Error).

Выбор выходных данных нейронной сети

Так как я пишу нейросеть, которая генерирует продолжение входных данных, количество нейронов в выходном слове должно совпадать с количеством нейроном во входном слое.

Задача №2 - Выбор языка программирования и библиотек

Выбор языка программирования для написания нейронной сети

Обычно для написания нейронных сетей выбирают Python, так как на данном языке программирования сделано уже очень много библиотек, позволяющих быстро перемножать матрицы и вектора, а также работать с Big Data^².

Выбор библиотек для написания нейронной сети

Я выбрал следующие библиотеки:

PyTorch — в качестве замены NumPy, так как NumPy не позволяет производить вычисления на CUDA
Midiutil — для создания MIDI-треков
Mido — для чтения MIDI-файлов
Pickle — для сериализации^³ объектов Python
Matplotlib — для создания графиков
Keyboard — для считывания событий нажатия клавиш на клавиатуре

Задача №3 - Реализация модели нейронной сети

Разработка CBOW нейросети (Encoder)

Для реализации CBOW нейросети достаточно реализовать обычную NLP нейросеть.