Кратко
- Караоке-видео в Сонграйтере собирается за 3-5 минут из готового трека: подсветка слов синхронизируется с аудио автоматически.
- Подсветка построчная: активная строка целиком на экране, заливка слов слева направо в такт. Три типа фона: статичная картинка, slideshow с эффектом Ken Burns и видеообложка.
- Стоимость одного рендера — 1-3 алмаза. 1 алмаз если минус для песни уже есть в вашем Сонграйтере (создан раньше), 3 алмаза если минуса нет — тогда вы получаете минус заодно с караоке-видео. На максимальном пакете со скидкой 20% это около 12-36 ₽.
- Экспорт в MP4 (H.264, 1080p), готовый файл подходит для Telegram, MAX, Reels и YouTube Shorts без дополнительной перекодировки.
Введение
Караоке видео — это видеоролик, в котором текст песни появляется на экране синхронно с вокалом, а активная строка или слово выделяются цветом. Раньше для такого ролика нужно было руками размечать тайминг в Aegisub, экспортировать ASS-субтитры и собирать всё в видеоредакторе. Сейчас процесс автоматизирован: алгоритм сам распознаёт, в какой момент звучит каждое слово, и накладывает подсветку поверх выбранного фона.
Я разбираю функцию караоке-видео в Сонграйтере как тех-эксперт: покажу, как устроен пайплайн, чем отличаются стили подсветки, какие фоны работают лучше всего и где у системы есть слабые места. Материал будет полезен тем, кто хочет понимать, что именно происходит между нажатием кнопки «Сделать караоке» и MP4-файлом в скачанном виде.

Раздел караоке-видео в Сонграйтере: кнопка «Сделать караоке-видео» в карточке готового трека. Подсветка текста синхронизируется с аудио автоматически.
Как работает: распознавание тайминга слов в треке + рендер с подсветкой
Пайплайн караоке-видео делится на два этапа. Первый — получение тайминга. Если песня сгенерирована в Сонграйтере, тайминг приходит вместе с треком от движка генерации: на каждое слово или слог известна метка start и end в миллисекундах. Если песня загружена пользователем извне (например, кавер собственного исполнения), тайминг рассчитывается отдельно — через выравнивание текста и аудио.
Второй этап — рендер. На вход берётся: исходный аудиофайл, фоновый слой (картинка, slideshow или видео), текст с разметкой по словам и параметры стиля. Параметры компилируются в формат субтитров ASS, поверх него FFmpeg накладывает фильтр overlay и сохраняет результат в MP4. Один рендер на сервере занимает от 40 секунд до 3 минут, в зависимости от длительности песни и сложности фона. На стороне пользователя задача попадает в очередь: одновременно рендерится не больше 6 видео, остальное ждёт.
Готовый файл загружается в S3 и приходит в WebApp по WebSocket уведомлению. Скачать можно прямо из чата с ботом или из раздела «Мои треки».
Подсветка текста
Текст ложится на видео построчно. Активная строка видна целиком, по мере проигрывания трека на её фоне идёт цветная подсветка — заливает слова слева направо в такт звучанию. Когда строка отзвучала, на её место выезжает следующая. Получается читаемый караоке-формат: певец или зритель видит, какое слово сейчас, и не теряется в большом тексте.
Шрифт подобран так, чтобы кириллица читалась с экрана телевизора, проектора или телефона. Размер автоматически подгоняется под длину строки — длинные строки уменьшаются, короткие крупнее, текст не выезжает за края кадра. Обводка вокруг букв спасает читаемость поверх любого фона: и поверх плотной фотографии, и поверх однотонного цвета.
Сейчас в Сонграйтере один универсальный стиль подсветки. Он закрывает большинство сценариев — семейные подарочные ролики, школьные концерты, клипы для соцсетей.
Фоны и обложки
Фон — это то, что находится под слоем с текстом. От него зависит, как ролик будет смотреться в ленте: статичная картинка экономит трафик и быстрее рендерится, видеофон смотрится живее, slideshow — компромисс.
Статичная картинка. Стандартный вариант: одна обложка на весь ролик. Поддерживается загрузка собственного изображения от 480 пикселей до 4K. Если разрешение исходника низкое, движок не будет апскейлить — рендер сохранит качество как есть.
Slideshow с эффектом Ken Burns. Несколько картинок сменяют друг друга, каждая медленно приближается или сдвигается. Эффект Ken Burns — это плавный zoom in/zoom out с панорамированием, имитирующий съёмку движущейся камерой. Длительность одного слайда подгоняется под длительность песни и количество фото: например, 5 фото на трек 3 минуты — каждое 36 секунд с переходом fade.
Видеообложка. Вместо картинки — короткое сгенерированное видео (Live Photo или анимация). Файл циклится, чтобы покрыть длину трека. Подходит, если у вас уже есть видеообложка из соседней функции «Оживить фото».
В Сонграйтере выбор фона — отдельный шаг мастера: сначала выбираете тип, потом загружаете файлы или генерируете прямо в WebApp.
Идеи использования
Привожу 5 сценариев, в которых функция реально работает, а не просто «можно сделать ролик».
Свадьба, первый танец. Берётся песня, под которую планируется танец, фоном идёт slideshow из совместных фото пары. Текст идёт снизу — гости подпевают. Готовый MP4 кидается на проектор в зале или на экран на сцене.
День учителя или классный час. Школьники записывают голосовое поздравление учителю, делают из него песню в Сонграйтере, добавляют караоке-текст и slideshow с фотографиями класса. Получается мини-клип, который не стыдно показать.
Корпоратив. Гимн отдела или прощальное видео уходящему сотруднику. Подсветка слов помогает залу вступить хором — текст виден всем, никто не путается.
Личный мем-канал в Telegram или MAX. Парадокс: караоке-формат делает любой текст в 2-3 раза смешнее. Серьёзный текст на смешном фоне работает как мем сам по себе, без дополнительных подписей.
Домашняя вечеринка. Несколько любимых песен друзей в собственных версиях, караоке-текст на телевизоре через флешку. MP4 H.264 1080p воспроизводится практически на любом современном ТВ напрямую.
Как сделать пошагово
Алгоритм работы с функцией внутри Сонграйтера:
-
Откройте трек в разделе «Мои треки» и нажмите «Сделать караоке». Доступно для песен, сгенерированных в Сонграйтере, а также для каверов с распознанным текстом. Если у трека нет тайминга, кнопка не появится.
-
Выберите стиль подсветки. Превью каждого стиля показано на короткой 5-секундной анимации — видно, как будет двигаться текст. Стиль можно поменять в любой момент до запуска рендера.
-
Настройте фон. Загрузите свою картинку, выберите slideshow и подгрузите 3-10 фото, либо подключите готовую видеообложку. На этом же шаге можно выбрать положение текста — снизу, сверху или по центру.
-
Запустите рендер. Списываются алмазы, задача попадает в очередь. Среднее время ожидания — 1-3 минуты на трек длиной до 4 минут. Готовый MP4 приходит уведомлением в WebApp, оттуда же его можно скачать или поделиться ссылкой.
Ограничения
Функция работает не идеально, и я перечислю известные слабые места честно.
Длина трека. Лимит на один рендер — около 6 минут. Если трек длиннее, его придётся разбивать или сокращать. Это связано не с пайплайном, а с расходом серверных ресурсов на длинных видео.
Точность тайминга на сложных треках. Если в песне много речитатива, наложенных гармоний или быстрого темпа, движок может промахиваться на 100-200 миллисекунд. Чаще всего это незаметно при беглом просмотре, но при пении вживую разница ощущается. Кавер-версии распознаются хуже оригинальной генерации, потому что тайминг считается отдельно, а не приходит готовым.
Кириллические шрифты. Не все стили имеют идеально подобранный кириллический шрифт — иногда буквы кажутся чуть тоньше, чем латиница. Это исправляется выбором другого стиля.
Ограничения форматов фона. Видеообложка должна быть в MP4 H.264, картинки — в JPEG или PNG. WebP и HEIC конвертируются автоматически, но это добавляет 5-10 секунд к времени рендера.
Задержка очереди в часы пик. Если на сервере одновременно идёт более 6 рендеров, новая задача встаёт в ожидание. По вечерам и в выходные ожидание иногда растягивается на 5-7 минут вместо обычной минуты. Это плата за параллельную обработку — приоритет сейчас на качество готового файла, а не на минимальную латентность.
FAQ
В каком формате экспортируется караоке-видео? MP4 с кодеком H.264, разрешение 1080p (1920×1080), частота кадров 30 fps, аудио AAC 192 kbps. Это универсальный формат — играется везде без перекодировки, заливается в любую соцсеть.
Сколько стоит одно караоке-видео? Цена зависит от того, есть ли уже минус для этой песни в вашем Сонграйтере. Если минус есть (вы делали его раньше — например, через функцию «удалить вокал» или вместе с предыдущим караоке) — рендер караоке-видео стоит 1 алмаз. Если минуса нет — 3 алмаза, и в эту цену уже включена генерация минуса. Минус остаётся в вашем аккаунте, дальше его можно использовать для других караоке-видео или скачать отдельно. В рублях это 12-36 ₽ на максимальном пакете со скидкой 20% (один алмаз около 12 ₽), на ходовом «Любительском» — около 24,5 ₽ за алмаз.
Можно ли загрузить свой фон? Да. Картинка от 480 пикселей по короткой стороне до 4K. Slideshow принимает 3-10 фотографий. Видеообложка — MP4 до 30 секунд, который будет зациклен под длину трека. Фоны сохраняются в вашем аккаунте и используются повторно.
Что делать, если тайминг не точный? Если промах большой и заметный, попробуйте другой стиль подсветки — иногда визуально проблема смягчается. Радикальный вариант: сгенерировать новую версию трека в Сонграйтере с такой же лирикой и сделать караоке заново. На свежей генерации тайминг приходит вместе с треком и почти всегда совпадает идеально.
Что почитать дальше
- Минус из песни — пошаговый гайд — загружаете mp3, нажимаете «Разделить», через 2-3 минуты получаете два файла.
- Гайд по созданию песни через AI — что значит «создать песню нейросетью» в 2026 и чем сервис отличается от Suno.
- Песни нейросети — топ-30 в чарте — живая подборка треков по числу лайков, можно сравнить разные жанры и голоса.
- Поющее фото: как анимировать лицо под трек за 3 минуты — отдельный материал про оживление фотографий с вокалом, хорошо комбинируется с караоке.
- Как написать текст песни самостоятельно: гайд для не-поэтов — для тех, кто хочет, чтобы текст в караоке был свой, а не сгенерированный.
- Как сделать песню в подарок: 7 идей и пошаговая инструкция — сценарии использования трека с караоке-видео в качестве подарка.