Отделить вокал от музыки — как разделить трек на стемы

Кратко

Отделить вокал от музыки это одна задача с двумя результатами. На выходе получаете и минус (музыку без голоса), и акапеллу (голос без музыки). Один файл на входе, два файла на выходе.
Нейросеть-сепаратор работает не так, как старые частотные фильтры. Она не вырезает диапазон частот, а распознаёт сам вокал как звук и вынимает его целиком.
В Сонграйтере не надо выбирать «дай мне минус» или «дай мне акапеллу». Загружаете mp3, нажимаете «Разделить», и через 2-3 минуты в чате приходят оба файла сразу.
Качество разделения зависит от исходника. Современная стереозапись делится почти идеально, а старое моно из 80-х нейросеть путает.
Цена — 2 алмаза за трек до пяти минут. По обычному курсу это 24 ₽, на максимальном пакете со скидкой выходит от 12 ₽ за трек.
Открыть Сонграйтер → — загрузить песню и получить вокал с инструменталом в один клик.

Что такое стемы и зачем трек на них делить

Экран ноутбука с двумя аудиодорожками в редакторе, верхняя зелёная вокальная, нижняя фиолетовая инструментальная, рядом наушники и чашка кофе Один трек, разложенный на две дорожки. Сверху видно, где вокал, снизу где инструментал.

Готовая песня, которую вы слушаете в наушниках, это смешанный звук. Голос, гитара, бас, барабаны, синтезаторы, всё это свели в один файл на студии. Стем (от английского stem) это отдельная дорожка из такой смеси. Бывает вокальный стем, инструментальный стем, иногда отдельно барабаны или бас.

Когда говорят «отделить вокал от музыки», имеют в виду расклад исходного mp3 обратно на стемы. Чаще всего на два: вокал и всё остальное. Это и есть базовое разделение трека.

Зачем это нужно. Причин обычно две, и они противоположные.

Первая причина: нужен минус. Это инструментал без голоса. Под него поют караоке, записывают каверы, репетируют вокал. Минус нужен тем, кто хочет петь сам.

Вторая причина: нужна акапелла. Это голос без музыки. Акапеллу берут для ремиксов, для нарезки сэмплов, иногда чтобы вытащить из неё текст песни. Акапелла нужна тем, кто работает с самим вокалом.

Хитрость в том, что обе задачи решаются одним действием. Когда нейросеть раскладывает трек на стемы, она отдаёт сразу оба файла. Вы не выбираете заранее. Просто получаете и минус, и акапеллу, а дальше берёте то, что нужно под вашу задачу. Подробный разбор именно про минус собран в статье «Как сделать минус из песни нейросетью».

Стоит держать в голове, что готового стема в исходном файле нет. На студии звукорежиссёр свёл всё вместе и отдельных дорожек вам не оставил. Поэтому разделение это не «достать готовое», а заново разобрать смесь обратно. Раньше такое умели только инженеры с дорогим софтом, сейчас это делает нейросеть за пару минут. Качество не дотягивает до студийного мультитрека, но для пения, ремиксов и тренировки голоса его более чем достаточно.

Вокал отдельно от музыки — что получаете на выходе

На выходе из Сонграйтера всегда два отдельных файла. Никаких склеек в один трек, никаких «выберите, что вам нужно» перед загрузкой. Загрузили mp3, получили два файла — голос отдельной дорожкой и музыку отдельной дорожкой. Точка.

Файл vocal.mp3 — это чистая акапелла. Только голос исполнителя, без инструментов, без бита, без подложки. Если в песне был бэк-вокал, он тоже попадает сюда, потому что нейросеть распознаёт его как голос. Тишина в паузах остаётся тишиной: модель не дорисовывает звук там, где певец молчал.

Файл instrumental.mp3 — это полная музыка без голоса. Бас, барабаны, гитары, клавиши, синтезаторы, всё кроме вокала. Если в оригинале были инструментальные проигрыши без пения, они остаются нетронутыми. На местах, где раньше был голос, играет только музыкальная подкладка, которая там и была. Сепаратор не «склеивает дыры», он просто вынимает голосовую дорожку и отдаёт остаток.

Голос отдельным файлом нужен для ремиксов, караоке, монтажа под видео, обучающих сеток, разбора партии. Инструментал отдельным файлом — для пения сверху своим голосом, для каверов, для подкладки под подкаст или ролик. Часто люди приходят за чем-то одним, а потом понимают, что второй файл тоже пригодился. Платить дважды не нужно: вы скачиваете оба сразу.

Формат на выходе — mp3 в высоком битрейте, открывается любым плеером, грузится в любой видеоредактор. Файлы приходят с понятными именами, чтобы вы не перепутали, где голос, а где инструментал. Время жизни ссылок в чате — несколько дней, поэтому скачать стоит сразу после обработки.

Длительность совпадает с оригиналом до миллисекунды. Если песня шла 3:42, оба стема тоже идут ровно 3:42. Это важно для тех, кто будет накладывать дорожки обратно в видеоредакторе или DAW. Если нужно вытащить именно минус для пения, в гайде по pillar /sdelat-minus-iz-pesni разобрано, как из инструментала собирать караоке-видео и кавер прямо в чате.

Как нейросеть-сепаратор отделяет голос

Старые программы для удаления вокала работали грубо. Они исходили из того, что в стереозаписи вокал обычно сидит ровно по центру. Программа брала левый и правый канал, вычитала один из другого, и центр пропадал. Вместе с вокалом пропадал бас и часть барабанов, потому что они тоже часто по центру. Результат звучал пусто и плоско.

Нейросеть устроена иначе. Её обучили на огромном количестве пар: вот смешанный трек, а вот его отдельные стемы. Модель научилась узнавать, как выглядит человеческий голос в спектре звука. Не «звук по центру», а именно вокал как явление. Гласные, согласные, дыхание, вибрато.

Дальше всё просто. Вы даёте сепаратору смешанный mp3, он находит в нём вокал и аккуратно вынимает. То, что осталось, становится минусом. То, что вынули, становится акапеллой. Бас и барабаны при этом остаются на месте, потому что нейросеть не путает их с голосом.

По моему опыту разница слышна сразу. Минус от частотного фильтра звучит так, будто у песни что-то сломали. Минус от нейросети звучит как нормальный инструментал, который будто так и записывали. Технология не идеальная, призраки вокала иногда остаются на громких нотах, но это совсем другой уровень по сравнению со старыми методами.

Как отделить вокал от музыки в Сонграйтере

Рука держит смартфон, на экране чат с ботом, виден загруженный аудиофайл и кнопка разделения дорожек Весь процесс внутри чата. Загрузили файл, нажали кнопку, забрали результат.

Процедура занимает три шага и не требует ни сайтов, ни установки программ.

Шаг 1. Открыть Сонграйтер. Сервис работает через три канала, аккаунт везде один:

Мини-приложение в МАХ — самый стабильный канал для пользователей в России
Telegram-бот @easysongbot — для привычного мессенджера
Веб-версия easysong.ru/app — открывается с любого браузера

Шаг 2. Отправить файл в чат. Прикрепляете песню как аудио или как документ. Поддерживаются mp3, wav, ogg, flac, aac, m4a и даже mp4. Ограничение по размеру 20 МБ, этого хватает на трек длиной до пятнадцати-двадцати минут в нормальном битрейте.

Шаг 3. Нажать «Разделить». Кнопка появляется под загруженным файлом. Стоит 2 алмаза для трека до пяти минут, дальше прибавляется алмаз за каждые 2,5 минуты сверху. Через 2-3 минуты в чат приходят два файла: вокал и инструментал. Не один, который вы выбрали, а оба сразу.

Это момент, который многих удивляет. Не нужно отдельно «сделать минус», а потом отдельно «сделать акапеллу» и платить дважды. Одно разделение даёт оба стема. Хотите минус, берёте инструментал. Хотите акапеллу, берёте вокальную дорожку. Иногда нужны оба, и они уже у вас в чате. Бывает, человек пришёл за минусом для караоке, а потом понял, что вокальная дорожка тоже пригодится, чтобы свериться с оригиналом. Файл уже скачан, доплачивать ничего не надо.

Ещё одна деталь про оплату. Если этот же файл кто-то уже разделял раньше, повторное разделение всегда стоит фиксированно 2 алмаза, даже если трек длинный. Сервис кеширует результаты. Бывает удобно, когда работаешь с популярной песней, которую до вас наверняка уже кто-то загружал.

Качество разделения по жанрам

Честно говоря, нейросеть-сепаратор не всесильна. Качество результата сильно зависит от того, что вы загрузили.

Лучше всего делятся современные записи. Поп, рок, хип-хоп, электроника, всё что записано после 2010 года в нормальной студии и в стерео. Тут разделение почти идеальное. В минусе может остаться 5-10% призрачного вокала на самых громких нотах, но в большинстве сценариев это не мешает.

Сложнее с акустикой и живыми записями. Когда вокал и инструменты писали одновременно в одной комнате, они «протекают» друг в друга. Нейросеть всё равно справляется, но в акапелле бывает слышен фон, а в минусе остаётся лёгкое эхо голоса.

Тяжело даётся старое моно. Записи 60-80-х годов, где нет разделения на каналы, виниловая теплота, шум. Тут нейросеть путается. Часть инструментов улетает в вокальную дорожку, часть голоса остаётся в минусе. Результат рабочий, но не чистый.

Отдельная боль это хоры, дабл-трек вокал и оперные арии. Когда голосов много и они наложены друг на друга, модель не всегда понимает, где заканчивается один и начинается другой. Это не косяк конкретного сервиса, а общий лимит технологии разделения на сегодня.

Правило простое: чем чище и современнее исходник, тем чище стемы на выходе. Если результат вас не устроил, иногда помогает прогнать mp3 через шумоподавитель перед загрузкой. Ещё совет: берите файл в максимальном битрейте, какой найдёте. mp3 на 320 кбит делится заметно лучше, чем тот же трек на 128. Нейросети просто больше информации, с которой работать. Подробнее про то, как вытянуть максимум, есть в статье «Как сделать минус в хорошем качестве».

Два стема или четыре, в чём разница

Схема на тёмном фоне, один трек разветвляется на два блока (вокал, музыка) и на четыре блока (вокал, бас, барабаны, остальное) Два стема покрывают почти все бытовые задачи. Четыре нужны тем, кто сводит музыку профессионально.

Когда читаете про сепараторы, встречаете цифры: 2-stem, 4-stem, иногда 6-stem. Это про то, на сколько дорожек разбивают трек.

Два стема это вокал и инструментал. Самый частый сценарий. Если вам нужен минус для караоке или акапелла для ремикса, двух стемов хватает с головой. Сонграйтер делает именно так: голос отдельно, всё остальное отдельно.

Четыре стема это вокал, бас, барабаны и «прочее» (гитары, синтезаторы, клавиши). Такой расклад нужен тем, кто пересводит трек. Например, хочется убрать только барабаны и поставить свои, или вытащить чистую басовую линию для изучения. Это уже не бытовая задача, а работа аранжировщика.

Четыре и больше стемов умеют делать профессиональные сервисы вроде Moises и LALAL.ai в платных режимах. Стоит это дороже, и порог входа выше: нужна регистрация, карта, надо разбираться с интерфейсом.

Нужно ли вам четыре стема? Скорее всего нет. Если задача звучит как «хочу спеть под музыку» или «хочу голос для ремикса», то это два стема, и Сонграйтер закрывает её за 24 ₽ без лишних движений. Четыре стема имеют смысл, когда вы точно знаете, зачем вам отдельная дорожка баса.

Разделить песню на дорожки (стемы): вокал, бас, барабаны, прочие инструменты

Базовый режим Сонграйтера — два стема, вокал плюс инструментал. Этого хватает для 9 из 10 бытовых задач. Но если песню надо разделить на дорожки глубже, есть продвинутый режим четырёх стемов: vocal, drums, bass, other.

Что в каждой дорожке. Vocal — это голос, всё пение включая бэки. Drums — барабаны: бочка, малый, тарелки, перкуссия. Bass — басовая линия, басс-гитара или синтезаторный бас, всё что играет в низком регистре. Other — остальное: гитары, клавиши, синтезаторы, духовые, струнные, эффекты. Четыре файла на выходе, каждый со своим именем, каждый можно открыть отдельно.

Зачем такой расклад. DJ-ремиксерам — выкинуть оригинальные барабаны и поставить свой бит под чистый вокал и бас. Продюсерам — взять басовую линию любимого трека и изучить её ноту в ноту. Преподавателям музыки — показать ученикам, как партия барабанов соотносится с басом без отвлекающих инструментов. Битмейкерам — нарезать сэмплы из отдельной other-дорожки, где остались интересные гитарные риффы или клавиши.

Тариф на 4-стем чуть дороже двух. Это связано с тем, что модель прогоняет трек через более тяжёлую нейросеть, которая обучена различать не только голос против всего остального, но и каждый инструмент по отдельности. Время обработки тоже растёт: вместо 2-3 минут это 5-7 минут на пятиминутный трек.

Когда четыре стема не нужны. Если задача звучит «хочу спеть караоке», «нужна акапелла для ремикса», «уберите голос из трека» — берите обычное разделение на два стема за 2 алмаза. Четыре дорожки в этом сценарии только запутают: вам всё равно придётся склеивать bass, drums и other обратно в один инструментал.

Качество четырёх стемов зависит от тех же факторов, что и двух. Современная стереозапись делится чисто по всем четырём дорожкам. На старых моно-записях стемы баса и барабанов начинают «протекать» друг в друга, потому что в моно нет пространственной картинки, по которой нейросеть ориентируется. Если работаете с винтажным материалом, ожидайте, что чёткой границы между bass и drums может и не получиться. Подробно про это и про то, как сделать минус из песни, разобрано на pillar-странице.

Чем отделить вокал, обзор инструментов

Вариантов на рынке хватает. Коротко про основные, без рекламы.

Audacity. Бесплатный десктопный редактор. Умеет «удалять вокал», но через старый частотный метод, то самое вычитание каналов. Качество низкое, работает только если вокал строго по центру, и придётся повозиться с настройками. Плюс один: реально бесплатно навсегда.

Vocalremover.org. Онлайн-сервис на нейросети. Делает два стема, бесплатная версия с лимитами по длине, дальше подписка. Работает прилично, но интерфейс на сайте и нужен браузер.

Moises. Приложение и сайт, нейросеть, умеет 4+ стема в платном режиме. Сильный инструмент для музыкантов, но требует регистрации, карты и подписки от нескольких долларов в месяц.

LALAL.ai. Самостоятельный SaaS-сервис, специализируется на разделении стемов. Качество высокое, есть продвинутые режимы. Тоже работает по подписке, оплата зарубежной картой.

Сонграйтер. Разделение прямо в чате бота, без сайтов и установки. Загрузили mp3, нажали кнопку, получили оба стема за 2-3 минуты. Оплата российской картой, без VPN. Из минусов: делаем только два стема, четыре пока не умеем.

У каждого инструмента своя ниша. Если вам нужно регулярно пересводить треки на уровне аранжировщика, смотрите в сторону Moises или LALAL.ai. Если задача бытовая, «спеть под минус» или «взять акапеллу», то возиться с подписками и зарубежными картами смысла нет.

Что делать с минусом и акапеллой дальше

Получили два файла. Теперь о том, как их обычно используют.

С минусом всё понятно. Под него поют: караоке дома, репетиция перед выступлением, запись своего кавера. Минус можно сразу превратить в караоке-видео с бегущим текстом, это отдельная функция Сонграйтера. А можно наложить на него свой голос и собрать готовый трек для соцсетей.

С акапеллой сценариев чуть больше. Её используют для ремиксов: берут чистый вокал и подкладывают новый бит. Из акапеллы удобно нарезать сэмплы. Иногда вокальный стем прогоняют через распознавание речи, чтобы вытащить текст песни, если его нигде нет в интернете. А ещё чистый вокал помогает разобрать, как именно певец берёт ноты, это бывает полезно при обучении вокалу.

Если копнуть только в сторону акапеллы, детальный разбор есть в статье «Как сделать акапеллу из песни». Если интересует обратное, как именно убирается голос, смотрите «Как убрать вокал из песни». Обе задачи, напомню, решаются одним разделением, просто люди по-разному формулируют, что им нужно. Кто-то говорит «отделить вокал», кто-то «убрать голос», кто-то «достать акапеллу», а действие под капотом одно и то же.

FAQ

Чем отличается минус от акапеллы?

Минус это инструментал без голоса, музыка для пения под неё. Акапелла наоборот, голос без музыки. Оба файла получаются из одного разделения трека. Минус нужен тем, кто хочет петь сам, акапелла тем, кто работает с вокалом: ремиксы, сэмплы, разбор партии.

Получу ли я сразу оба файла или нужно выбирать?

Сразу оба. Когда нейросеть раскладывает трек на стемы, она отдаёт и вокал, и инструментал одним разделением. Выбирать заранее не нужно, платить дважды не нужно. Берёте тот файл, который подходит под вашу задачу, или оба, если нужны оба.

Сколько стоит отделить вокал от музыки?

2 алмаза за трек длиной до пяти минут. По обычному курсу это 24 ₽, на максимальном пакете со скидкой выходит от 12 ₽ за трек. За каждые дополнительные 2,5 минуты добавляется ещё алмаз. Повторное разделение уже обработанного файла всегда стоит фиксированно 2 алмаза.

Можно ли отделить вокал бесплатно?

Полностью бесплатно только через Audacity с частотным фильтром, но качество там низкое. Онлайн-нейросети дают бесплатные пробы с лимитами, дальше подписка. Сонграйтер берёт 24 ₽ за трек, это низкий порог за разделение нейросетью с двумя готовыми файлами на выходе.

Какое качество разделения у старых записей?

Хуже, чем у современных. Моно-записи 60-80-х годов нейросеть путает: часть инструментов улетает в вокальную дорожку, часть голоса остаётся в минусе. Современная стереозапись делится почти идеально. Чем чище исходник, тем чище стемы.

Сколько стемов делает Сонграйтер?

Два: вокал и инструментал. Для караоке, каверов и ремиксов этого хватает. Четыре стема (отдельно бас и барабаны) делают профессиональные сервисы вроде Moises и LALAL.ai в платных режимах, это нужно в основном аранжировщикам.

Какие форматы файлов можно загрузить?

mp3, wav, ogg, flac, aac, m4a и mp4. Ограничение по размеру 20 МБ, этого хватает на трек до пятнадцати-двадцати минут в нормальном битрейте. Файл прикрепляется в чат как аудио или как документ.

Будут ли мои файлы видны другим людям?

Нет. Результат разделения приходит вам в личный чат. Сервис кеширует обработанные файлы, чтобы повторное разделение того же трека стоило дешевле, но доступа к вашим файлам у других пользователей нет.

Что почитать дальше

Как создать песню нейросетью — pillar-страница с пошаговым разбором: от описания идеи до готового MP3 за пять минут.
Каталог AI-треков на русском — слушайте, что получается у других — это лучший способ оценить возможности нейросети.
Страницы артистов на Сонграйтере — посмотрите, как пользователи оформляют свои публичные профили.
Как сделать минус из песни нейросетью — главный гайд по разделению, pillar кластера
Как сделать акапеллу из песни — обратная задача, только вокал
Как убрать вокал из песни — про получение чистого минуса
Как сделать минус в хорошем качестве — что влияет на качество разделения