TLDR
- Поющее фото — это короткое видео, где статичный портрет открывает рот и поёт ваш трек, как будто запись настоящая.
- Рендер занимает около 3 минут, цена в Сонграйтере — 2-3 алмаза за ролик, то есть примерно 50-66 рублей.
- Лучше всего работает анфас, в хорошем свете, без очков и масок. Профиль и групповые фото движок не вытянет.
- Сценарии: поздравления родителям, мемы для друзей, оживление старых семейных снимков, рилсы, корпоративный контент.
Что такое поющее фото в 2026 году
Поющее фото — это технология, в которой нейросеть берёт статичную фотографию человека, накладывает на неё аудиодорожку и анимирует артикуляцию: губы, скулы, веки, мелкие повороты головы. На выходе получается видео, где портрет действительно поёт ваш трек, а не просто шевелит ртом мимо ритма.
Год назад такие ролики выдавали себя за полсекунды: рот двигался, но не попадал в фонемы, лицо плыло, кожа шла рябью. Сейчас алгоритмы научились разбирать аудио на отдельные звуки и подбирать под них корректные положения губ. Я тестировал поющее фото в Сонграйтере на портретах разной сложности — от студийной фотосессии до телефонного снимка из 2012 года, и в большинстве случаев результат уверенно проходит «тест на бабушку»: близкие родственники не понимают, что видео сгенерировано.
Главное отличие 2026 года от ранних версий — стабильность. Лицо не дрожит, фон остаётся неподвижным, моргание выглядит естественным. Технология вышла из категории «прикольная игрушка» в разряд практичного инструмента для подарков и контента.
Как это работает технически
Внутри процесса три ключевых этапа.
Первый — детекция лица. Модель находит на фотографии лицо, размечает 68 опорных точек: контур губ, нос, глаза, линию подбородка. Если опорных точек найдено меньше нужного порога, фото отбраковывается на входе. Поэтому, кстати, профильные снимки и отвёрнутые лица движок не принимает.
Второй этап — анализ аудио. Аудиодорожка разбивается на фонемы, то есть минимальные звуковые единицы языка. Каждой фонеме соответствует определённое положение губ: «о» — округлые, «м» — сомкнутые, «и» — растянутые. Модель строит таймлайн положений губ под весь трек.
Третий этап — рендер. На каждом кадре движок деформирует исходное лицо так, чтобы губы заняли нужное положение, и попутно добавляет естественные микродвижения: моргание, едва заметные повороты головы, лёгкое колебание щёк. Без этих микродвижений лицо выглядит как маска, и эффект сразу разваливается.
В Сонграйтере под капотом работают два независимых движка для разных типов лиц. Один лучше справляется с реалистичными портретами, второй — с лицами в нестандартных условиях освещения. Система сама выбирает подходящий движок по входному фото, пользователю об этом думать не нужно.
Какое фото подходит лучше всего
За полтора месяца тестов я прогнал через поющее фото около 200 снимков — своих, чужих, найденных в семейных архивах. Закономерности получились такие.
Анфас или близко к анфасу. Голова повёрнута к камере. Допустим лёгкий поворот в три четверти, но не больше. Профильный снимок алгоритм просто не примет: ему нужны обе половины лица.
Чёткое лицо в хорошем свете. Размытые фотографии, снимки в контровом свете, тёмные кадры с выкрученным ISO — всё это даёт плохой результат. Не потому что движок не справится, а потому что детекция точек на размытом лице работает с погрешностью, и губы начинают «плыть».
Без очков-зеркалок и масок. Обычные диоптрийные очки модель переваривает нормально. Зеркальные авиаторы, очки с бликом или солнцезащитные тонированные стёкла мешают: алгоритм не видит верхнюю границу глаза. Маски, шарфы и любые предметы, закрывающие нижнюю часть лица, делают рендер невозможным.
Нейтральное или умеренно эмоциональное выражение. Открытый рот в крике, гримаса, смех с зажмуренными глазами — плохие исходники. Движку нужно естественное стартовое положение губ, чтобы было откуда стартовать анимацию. Полуулыбка работает идеально.
Разрешение от 720p. Я бы не брал фотографии меньше 720 пикселей по короткой стороне. Чем выше разрешение, тем чётче рендер. Сильно ужимать большие фото тоже не нужно, движок сам приведёт к нужному размеру.
Шесть сценариев, в которых поющее фото реально работает
Поздравление родителям. Записываете в Сонграйтере персональный трек на день рождения мамы или папы, выбираете их любимое фото из семейного архива и склеиваете с поющим лицом. Получается ролик, где именинник как будто сам поёт песню про себя. Эффект на семейном застолье сильный.
Мем-розыгрыш в чате друзей. Берёте фото друга из общего альбома, пишете ему персональный трек с упоминанием его привычек, прикладываете поющее лицо. Подвох в том, что человек видит самого себя, поющего про себя — реакция всегда яркая.
Корпоратив. Фото руководителя или коллектива, поверх — корпоративный гимн или шуточный трек к юбилею компании. Работает на новогодних вечеринках и на годовщинах. Один знакомый HR заказал три таких ролика для топ-менеджмента и потом отчитывался, что директор пересматривал своё видео восемь раз.
Оживить старое фото бабушки или дедушки. Один из самых трогательных сценариев. Берётся семейный снимок 50-70-летней давности, к нему — трек в стиле эпохи или личное обращение от внуков, и портрет начинает петь. Технических нюансов больше: старые фото часто чёрно-белые, с зернистостью, царапинами. Перед загрузкой имеет смысл прогнать снимок через реставрацию — в Сонграйтере она тоже встроена.
Юбилей школы с общим фото класса. Тонкость: групповое фото целиком движок не примет. Но можно сделать поющим какого-то одного человека на снимке — например, самого активного выпускника или классного руководителя. Вырезаете его лицо в отдельный кадр, добавляете трек про класс — готово.
Рилсы и TikTok. Поющее фото отлично заходит как формат короткого видео. Особенно если совместить со своим оригинальным треком: сначала показываете, как пишете песню в Сонграйтере, потом показываете поющий портрет на эту песню. Несколько ребят-блогеров делают такие связки и неплохо набирают охваты.
Что не работает: ограничения движка
Чтобы избежать разочарования, лучше сразу понимать, чего модель не умеет.
Профильные фото. Алгоритму нужны обе стороны лица. Если человек повёрнут больше чем на 45 градусов — поющего фото не получится. Решение: найти другой кадр или попросить владельца сделать новое фото анфас.
Групповые фото целиком. Один кадр — одно лицо. Если на фотографии трое человек, выберите главного героя и обрежьте кадр так, чтобы в фокусе остался один. Анимировать всех сразу движок не умеет.
Стоковые картинки. Технически они проходят, но выглядят неживо. Стоковое лицо — это лицо, которое не имеет личной связи с получателем. Эффект «портрет вашего человека поёт лично вам» исчезает, остаётся просто говорящая голова с интернета. Не тратьте на это алмазы.
Мультяшные стилизации и арты. Нарисованные портреты, аниме-аватары, картины маслом, изображения в стиле «поп-арт» — всё это движок отказывается обрабатывать или выдаёт некачественный результат. Технология обучалась на реальных лицах, поэтому работает с реальными лицами.
Очень старые сильно повреждённые фото. Если на снимке трещины через всё лицо, пятна, вырванный кусок — сначала реставрация, потом поющее фото. Без реставрации движок будет принимать дефекты за элементы лица и анимировать их.
Как сделать поющее фото в Сонграйтере: пошагово
Опишу путь, по которому я обычно иду.
Шаг 1. Открываю Сонграйтер, генерирую трек или беру готовый из своей библиотеки. Работает любой трек длительностью до нескольких минут. Если трек длинный, имеет смысл выбрать кусок — припев или яркий куплет.
Шаг 2. В меню выбираю «Поющее фото», загружаю фотографию. Сервис сразу проверяет лицо: если фото не подходит, появится подсказка, что именно не так — повёрнуто, размыто, не найдено лицо.
Шаг 3. Выбираю аудио — генерирую новый трек прямо в Сонграйтере или подкрепляю один из своих ранее созданных треков. Подтверждаю заказ. Списывается 2-3 алмаза в зависимости от длины трека и выбранного движка.
Шаг 4. Жду рендер. В среднем три минуты, иногда быстрее, иногда чуть дольше при загрузке. По готовности приходит уведомление, видео можно скачать в MP4 или сразу отправить в чат.
Если результат не понравился, всегда можно перегенерировать с другим стартовым кадром или другим звуковым отрывком. Бесплатных перегенов нет, каждая попытка — новые алмазы, поэтому к выбору фото стоит подойти аккуратно с самого начала.
FAQ
Сколько стоит поющее фото в Сонграйтере? 2-3 алмаза за ролик в зависимости от длины трека и выбранного движка. По текущему курсу алмазов это примерно 50-66 рублей за один ролик.
Какие форматы фото и видео поддерживаются? На вход — JPG, PNG, HEIC. На выход — MP4 в разрешении исходного фото, но не выше 1080p. Для соцсетей хватает с запасом.
Можно ли использовать своё аудио, не сгенерированное в сервисе? Да, можно подгрузить любой свой трек или фрагмент. Главное, чтобы файл был чистым по правам — на чужие коммерческие записи сервис может среагировать ограничениями.
Можно ли использовать поющее фото в коммерции? Можно, если у вас есть согласие человека, изображённого на фото, и права на музыку. Без согласия модели использовать чужое лицо в рекламе нельзя — это уже история про право на изображение, а не про технологию.
Что почитать дальше
- Реставрация старых фото в Сонграйтере: гид по работе со снимками 30-60-летней давности.
- Песня в подарок: как собрать персональный трек за 10 минут.
- Караоке-видео своими руками: формат, который дополняет поющее фото на семейных праздниках.