Кратко
- Отделить вокал от музыки это одна задача с двумя результатами. На выходе получаете и минус (музыку без голоса), и акапеллу (голос без музыки). Один файл на входе, два файла на выходе.
- Нейросеть-сепаратор работает не так, как старые частотные фильтры. Она не вырезает диапазон частот, а распознаёт сам вокал как звук и вынимает его целиком.
- В Сонграйтере не надо выбирать «дай мне минус» или «дай мне акапеллу». Загружаете mp3, нажимаете «Разделить», и через 2-3 минуты в чате приходят оба файла сразу.
- Качество разделения зависит от исходника. Современная стереозапись делится почти идеально, а старое моно из 80-х нейросеть путает.
- Цена — 2 алмаза за трек до пяти минут. По обычному курсу это 24 ₽, на максимальном пакете со скидкой выходит от 12 ₽ за трек.
- Открыть Сонграйтер → — загрузить песню и получить вокал с инструменталом в один клик.
Что такое стемы и зачем трек на них делить
Один трек, разложенный на две дорожки. Сверху видно, где вокал, снизу где инструментал.
Готовая песня, которую вы слушаете в наушниках, это смешанный звук. Голос, гитара, бас, барабаны, синтезаторы, всё это свели в один файл на студии. Стем (от английского stem) это отдельная дорожка из такой смеси. Бывает вокальный стем, инструментальный стем, иногда отдельно барабаны или бас.
Когда говорят «отделить вокал от музыки», имеют в виду расклад исходного mp3 обратно на стемы. Чаще всего на два: вокал и всё остальное. Это и есть базовое разделение трека.
Зачем это нужно. Причин обычно две, и они противоположные.
Первая причина: нужен минус. Это инструментал без голоса. Под него поют караоке, записывают каверы, репетируют вокал. Минус нужен тем, кто хочет петь сам.
Вторая причина: нужна акапелла. Это голос без музыки. Акапеллу берут для ремиксов, для нарезки сэмплов, иногда чтобы вытащить из неё текст песни. Акапелла нужна тем, кто работает с самим вокалом.
Хитрость в том, что обе задачи решаются одним действием. Когда нейросеть раскладывает трек на стемы, она отдаёт сразу оба файла. Вы не выбираете заранее. Просто получаете и минус, и акапеллу, а дальше берёте то, что нужно под вашу задачу. Подробный разбор именно про минус собран в статье «Как сделать минус из песни нейросетью».
Стоит держать в голове, что готового стема в исходном файле нет. На студии звукорежиссёр свёл всё вместе и отдельных дорожек вам не оставил. Поэтому разделение это не «достать готовое», а заново разобрать смесь обратно. Раньше такое умели только инженеры с дорогим софтом, сейчас это делает нейросеть за пару минут. Качество не дотягивает до студийного мультитрека, но для пения, ремиксов и тренировки голоса его более чем достаточно.
Как нейросеть-сепаратор отделяет голос
Старые программы для удаления вокала работали грубо. Они исходили из того, что в стереозаписи вокал обычно сидит ровно по центру. Программа брала левый и правый канал, вычитала один из другого, и центр пропадал. Вместе с вокалом пропадал бас и часть барабанов, потому что они тоже часто по центру. Результат звучал пусто и плоско.
Нейросеть устроена иначе. Её обучили на огромном количестве пар: вот смешанный трек, а вот его отдельные стемы. Модель научилась узнавать, как выглядит человеческий голос в спектре звука. Не «звук по центру», а именно вокал как явление. Гласные, согласные, дыхание, вибрато.
Дальше всё просто. Вы даёте сепаратору смешанный mp3, он находит в нём вокал и аккуратно вынимает. То, что осталось, становится минусом. То, что вынули, становится акапеллой. Бас и барабаны при этом остаются на месте, потому что нейросеть не путает их с голосом.
По моему опыту разница слышна сразу. Минус от частотного фильтра звучит так, будто у песни что-то сломали. Минус от нейросети звучит как нормальный инструментал, который будто так и записывали. Технология не идеальная, призраки вокала иногда остаются на громких нотах, но это совсем другой уровень по сравнению со старыми методами.
Как отделить вокал от музыки в Сонграйтере
Весь процесс внутри чата. Загрузили файл, нажали кнопку, забрали результат.
Процедура занимает три шага и не требует ни сайтов, ни установки программ.
Шаг 1. Открыть Сонграйтер. Сервис работает через три канала, аккаунт везде один:
- Мини-приложение в МАХ — самый стабильный канал для пользователей в России
- Telegram-бот @easysongbot — для привычного мессенджера
- Веб-версия easysong.ru/app — открывается с любого браузера
Шаг 2. Отправить файл в чат. Прикрепляете песню как аудио или как документ. Поддерживаются mp3, wav, ogg, flac, aac, m4a и даже mp4. Ограничение по размеру 20 МБ, этого хватает на трек длиной до пятнадцати-двадцати минут в нормальном битрейте.
Шаг 3. Нажать «Разделить». Кнопка появляется под загруженным файлом. Стоит 2 алмаза для трека до пяти минут, дальше прибавляется алмаз за каждые 2,5 минуты сверху. Через 2-3 минуты в чат приходят два файла: вокал и инструментал. Не один, который вы выбрали, а оба сразу.
Это момент, который многих удивляет. Не нужно отдельно «сделать минус», а потом отдельно «сделать акапеллу» и платить дважды. Одно разделение даёт оба стема. Хотите минус, берёте инструментал. Хотите акапеллу, берёте вокальную дорожку. Иногда нужны оба, и они уже у вас в чате. Бывает, человек пришёл за минусом для караоке, а потом понял, что вокальная дорожка тоже пригодится, чтобы свериться с оригиналом. Файл уже скачан, доплачивать ничего не надо.
Ещё одна деталь про оплату. Если этот же файл кто-то уже разделял раньше, повторное разделение всегда стоит фиксированно 2 алмаза, даже если трек длинный. Сервис кеширует результаты. Бывает удобно, когда работаешь с популярной песней, которую до вас наверняка уже кто-то загружал.
Качество разделения по жанрам
Честно говоря, нейросеть-сепаратор не всесильна. Качество результата сильно зависит от того, что вы загрузили.
Лучше всего делятся современные записи. Поп, рок, хип-хоп, электроника, всё что записано после 2010 года в нормальной студии и в стерео. Тут разделение почти идеальное. В минусе может остаться 5-10% призрачного вокала на самых громких нотах, но в большинстве сценариев это не мешает.
Сложнее с акустикой и живыми записями. Когда вокал и инструменты писали одновременно в одной комнате, они «протекают» друг в друга. Нейросеть всё равно справляется, но в акапелле бывает слышен фон, а в минусе остаётся лёгкое эхо голоса.
Тяжело даётся старое моно. Записи 60-80-х годов, где нет разделения на каналы, виниловая теплота, шум. Тут нейросеть путается. Часть инструментов улетает в вокальную дорожку, часть голоса остаётся в минусе. Результат рабочий, но не чистый.
Отдельная боль это хоры, дабл-трек вокал и оперные арии. Когда голосов много и они наложены друг на друга, модель не всегда понимает, где заканчивается один и начинается другой. Это не косяк конкретного сервиса, а общий лимит технологии разделения на сегодня.
Правило простое: чем чище и современнее исходник, тем чище стемы на выходе. Если результат вас не устроил, иногда помогает прогнать mp3 через шумоподавитель перед загрузкой. Ещё совет: берите файл в максимальном битрейте, какой найдёте. mp3 на 320 кбит делится заметно лучше, чем тот же трек на 128. Нейросети просто больше информации, с которой работать. Подробнее про то, как вытянуть максимум, есть в статье «Как сделать минус в хорошем качестве».
Два стема или четыре, в чём разница
Два стема покрывают почти все бытовые задачи. Четыре нужны тем, кто сводит музыку профессионально.
Когда читаете про сепараторы, встречаете цифры: 2-stem, 4-stem, иногда 6-stem. Это про то, на сколько дорожек разбивают трек.
Два стема это вокал и инструментал. Самый частый сценарий. Если вам нужен минус для караоке или акапелла для ремикса, двух стемов хватает с головой. Сонграйтер делает именно так: голос отдельно, всё остальное отдельно.
Четыре стема это вокал, бас, барабаны и «прочее» (гитары, синтезаторы, клавиши). Такой расклад нужен тем, кто пересводит трек. Например, хочется убрать только барабаны и поставить свои, или вытащить чистую басовую линию для изучения. Это уже не бытовая задача, а работа аранжировщика.
Четыре и больше стемов умеют делать профессиональные сервисы вроде Moises и LALAL.ai в платных режимах. Стоит это дороже, и порог входа выше: нужна регистрация, карта, надо разбираться с интерфейсом.
Нужно ли вам четыре стема? Скорее всего нет. Если задача звучит как «хочу спеть под музыку» или «хочу голос для ремикса», то это два стема, и Сонграйтер закрывает её за 24 ₽ без лишних движений. Четыре стема имеют смысл, когда вы точно знаете, зачем вам отдельная дорожка баса.
Чем отделить вокал, обзор инструментов
Вариантов на рынке хватает. Коротко про основные, без рекламы.
Audacity. Бесплатный десктопный редактор. Умеет «удалять вокал», но через старый частотный метод, то самое вычитание каналов. Качество низкое, работает только если вокал строго по центру, и придётся повозиться с настройками. Плюс один: реально бесплатно навсегда.
Vocalremover.org. Онлайн-сервис на нейросети. Делает два стема, бесплатная версия с лимитами по длине, дальше подписка. Работает прилично, но интерфейс на сайте и нужен браузер.
Moises. Приложение и сайт, нейросеть, умеет 4+ стема в платном режиме. Сильный инструмент для музыкантов, но требует регистрации, карты и подписки от нескольких долларов в месяц.
LALAL.ai. Самостоятельный SaaS-сервис, специализируется на разделении стемов. Качество высокое, есть продвинутые режимы. Тоже работает по подписке, оплата зарубежной картой.
Сонграйтер. Разделение прямо в чате бота, без сайтов и установки. Загрузили mp3, нажали кнопку, получили оба стема за 2-3 минуты. Оплата российской картой, без VPN. Из минусов: делаем только два стема, четыре пока не умеем.
У каждого инструмента своя ниша. Если вам нужно регулярно пересводить треки на уровне аранжировщика, смотрите в сторону Moises или LALAL.ai. Если задача бытовая, «спеть под минус» или «взять акапеллу», то возиться с подписками и зарубежными картами смысла нет.
Что делать с минусом и акапеллой дальше
Получили два файла. Теперь о том, как их обычно используют.
С минусом всё понятно. Под него поют: караоке дома, репетиция перед выступлением, запись своего кавера. Минус можно сразу превратить в караоке-видео с бегущим текстом, это отдельная функция Сонграйтера. А можно наложить на него свой голос и собрать готовый трек для соцсетей.
С акапеллой сценариев чуть больше. Её используют для ремиксов: берут чистый вокал и подкладывают новый бит. Из акапеллы удобно нарезать сэмплы. Иногда вокальный стем прогоняют через распознавание речи, чтобы вытащить текст песни, если его нигде нет в интернете. А ещё чистый вокал помогает разобрать, как именно певец берёт ноты, это бывает полезно при обучении вокалу.
Если копнуть только в сторону акапеллы, детальный разбор есть в статье «Как сделать акапеллу из песни». Если интересует обратное, как именно убирается голос, смотрите «Как убрать вокал из песни». Обе задачи, напомню, решаются одним разделением, просто люди по-разному формулируют, что им нужно. Кто-то говорит «отделить вокал», кто-то «убрать голос», кто-то «достать акапеллу», а действие под капотом одно и то же.
FAQ
Чем отличается минус от акапеллы?
Минус это инструментал без голоса, музыка для пения под неё. Акапелла наоборот, голос без музыки. Оба файла получаются из одного разделения трека. Минус нужен тем, кто хочет петь сам, акапелла тем, кто работает с вокалом: ремиксы, сэмплы, разбор партии.
Получу ли я сразу оба файла или нужно выбирать?
Сразу оба. Когда нейросеть раскладывает трек на стемы, она отдаёт и вокал, и инструментал одним разделением. Выбирать заранее не нужно, платить дважды не нужно. Берёте тот файл, который подходит под вашу задачу, или оба, если нужны оба.
Сколько стоит отделить вокал от музыки?
2 алмаза за трек длиной до пяти минут. По обычному курсу это 24 ₽, на максимальном пакете со скидкой выходит от 12 ₽ за трек. За каждые дополнительные 2,5 минуты добавляется ещё алмаз. Повторное разделение уже обработанного файла всегда стоит фиксированно 2 алмаза.
Можно ли отделить вокал бесплатно?
Полностью бесплатно только через Audacity с частотным фильтром, но качество там низкое. Онлайн-нейросети дают бесплатные пробы с лимитами, дальше подписка. Сонграйтер берёт 24 ₽ за трек, это низкий порог за разделение нейросетью с двумя готовыми файлами на выходе.
Какое качество разделения у старых записей?
Хуже, чем у современных. Моно-записи 60-80-х годов нейросеть путает: часть инструментов улетает в вокальную дорожку, часть голоса остаётся в минусе. Современная стереозапись делится почти идеально. Чем чище исходник, тем чище стемы.
Сколько стемов делает Сонграйтер?
Два: вокал и инструментал. Для караоке, каверов и ремиксов этого хватает. Четыре стема (отдельно бас и барабаны) делают профессиональные сервисы вроде Moises и LALAL.ai в платных режимах, это нужно в основном аранжировщикам.
Какие форматы файлов можно загрузить?
mp3, wav, ogg, flac, aac, m4a и mp4. Ограничение по размеру 20 МБ, этого хватает на трек до пятнадцати-двадцати минут в нормальном битрейте. Файл прикрепляется в чат как аудио или как документ.
Будут ли мои файлы видны другим людям?
Нет. Результат разделения приходит вам в личный чат. Сервис кеширует обработанные файлы, чтобы повторное разделение того же трека стоило дешевле, но доступа к вашим файлам у других пользователей нет.
Что почитать дальше
- Как сделать минус из песни нейросетью — главный гайд по разделению, pillar кластера
- Как сделать акапеллу из песни — обратная задача, только вокал
- Как убрать вокал из песни — про получение чистого минуса
- Как сделать минус в хорошем качестве — что влияет на качество разделения
Попробовать прямо сейчас
Если нужно отделить вокал от музыки и не хочется ставить программы или возиться с подписками, проще всего загрузить песню в Сонграйтер. Через 2-3 минуты в чате будут оба файла, и минус, и акапелла.
Внутри выберите удобный канал: мини-приложение в МАХ, Telegram-бот или веб-версию. Аккаунт и алмазы общие на всех платформах.