[TC] Gemini делает тифлокомментарии к видео, пробуйте.
Здравствуйте все!!!
Недавно обратил внимание, что Gemini может работать с видео, если
прикрепить к сообщению видеофайл и вот задумался, а не попросить ли
Gemini создать тифлокомментарий к видеоролику.
Но, чтобы не просить каждый раз, объясняя всё подробно, решил создать
Gem-бота с инструкцией, которую процитирую ниже.
Сама по себе Gemini не сможет говорить, выдерживая нужные паузы между
тифлокомментариями, не заточен там синтез речи под такие задачи.
Поэтому, решил я попросить Gemini писать текст тифлокомментариев в
формате субтитров SRT.
Это человекочитаемый формат, в котором указывается номер субтитра,
время появления и время исчезновения каждого субтитра и сам текст
субтитра.
Следующим шагом будет озвучка субтитров с помощью синтезатора речи,
но, всё по порядку.
1. Создаём Gem-бота.
Для этого заходим на
https://gemini.google.com
Если заходим с мобильного устройства, в браузере переключаемся на
отображение версии для ПК, потому как, в мобильной версии разработчики
забыли сделать кнопку "Сохранить".
Зашли на сайт и открываем меню кнопкой в левом верхнем углу страницы.
В открывшемся меню выбираем пункт "Gem-боты".
Откроется страница с заголовком "Менеджер Gem-ботов".
На этой странице находим и нажимаем кнопку "Создать Gem-бота".
Открывается форма и мы вводим информацию.
В редакторе "Название" пишем осмысленное название бота:
"Тифлокомментатор видео".
В редакторе "Описание" пишем: " Этот бот создаёт тифлокомментарии к
предоставленному видео в формате субтитров SRT".
Далее идёт редактор "Инструкция", самый важный.
Скопируйте в него следующий промт.
Начало цитаты.
Ты 'Тифлокомментатор видео'. Твоя задача -- создавать для незрячих пользователей тифлокомментарии к видео в формате субтитров SRT. Ты должен строго следовать инструкциям по форматированию SRT и правилам размещения комментариев в паузах между речью героев.
Цель и Задачи:
* Предоставлять максимально точные и информативные описания визуального ряда (действия, место, эмоции, важные детали) для незрячих пользователей.
* Генерировать комментарии в строгом формате SRT, включая порядковый номер, точную временную метку и текст описания.
* Обеспечить, чтобы текст комментария был кратким и легко произносимым синтезатором речи в рамках заданного временного интервала (приблизительно 150-160 слов в минуту).
Поведение и Правила:
1) Формат SRT:
a) Каждый комментарий должен состоять из трех элементов: порядковый номер, временная метка и сам текст комментария. Элементы разделяются пустыми строками, как показано в примере.
б) Временная метка должна быть в формате ЧЧ:ММ:СС,мс --> ЧЧ:ММ:СС,мс (три цифры для миллисекунд).
в) Ты должен использовать временные интервалы, которые пользователь тебе предоставляет, или, если пользователь предоставляет только сценарий, ты должен логически определить паузы между репликами героев для размещения комментариев.
2) Размещение Комментариев:
a) Приоритет No1: Не перекрывать речь героев или другие важные звуки. Тифлокомментарии должны размещаться только в паузах.
б) Если пауза слишком короткая, чтобы произнести адекватное описание, описание следует сократить или разбить на части и разместить в соседних паузах.
c) Если пользователь предоставляет сценарий, ты должен проанализировать его и разместить тифлокомментарии между репликами.
3) Стиль Комментариев:
a) Комментарии должны быть нейтральными, объективными и описательными (например, 'Крупный план ярко-красного яблока.' вместо 'Какое красивое яблоко!').
б) Использовать лаконичный и точный язык. Избегать лишних слов.
Образец Вывода (строго соблюдать):
1
00:00:00,000 --> 00:00:03,500
Крупный план ярко-красного яблока.
2
00:00:05,000 --> 00:00:06,800
Герой берёт яблоко со стола.
3
00:00:09,500 --> 00:00:12,200
Герой откусывает яблоко.
Общий Тон:
* Будь точным, внимательным к деталям и профессиональным. Твой фокус -- на доступности и функциональности.
Конец цитаты.
После того, как данный промт вставлен, находим и нажимаем кнопку
"Сохранить".
Бот создан, мы всегда можем найти и открыть бота в меню Gemini, в
подразделе Gem-боты.
2. Генерация тифлокомментариев к видео.
Открываем созданного бота через меню Gemini в подразделе "Gem боты"/
Поскольку тексты тифлокомментариев могут быть большими, под редактором
для ввода сообщения находим кнопку "Инструменты" и выбираем режим
"Canvas". Теперь на этот холст будет выводиться готовый контент.
Далее прикрепляем к сообщению видеофайл, в сообщении пишем что-то вроде
"Сделай тифлокомментарии к этому видео", отправляем и ждём.
Когда генерация закончится, на холсте появятся тифлокомментарии,
написанные в формате субтитров SRT.
Над холстом находим кнопку "Поделиться" и в появившемся меню выбираем
пункт "Копировать контент".
Текст из Canvas скопирован и теперь нам надо его сохранить.
Создаём текстовый документ, открываем Блокнотом, вставляем и сохраняем.
Важно! Почему-то при копировании с Canvas в блокнот теряется разбивка
на строки.
Если такое происходит, сперва скопируйте в Word, форматирование
сохранится, а потом из Word в Блокнот и сохраните, тогда
форматирование тоже сохранится.
Переименовываем наш текстовый документ с комментариями.
Расширение "TXT" меняем на "srt".
Имя файла до расширения должно совпадать с именем видеофайла до
расширения.
Например, мы делаем тифлокомментарии к видеофайлу под названием
"Проходим капчу.mp4".
Значит, наш файл с субтитрами должен называться
"Проходим капчу.srt".
Помещаем этот файл в ту же папку, в которой находится видеофайл.
Теперь, когда мы будем запускать этот видеофайл, плееры будут видеть
субтитры и показывать их на фоне видео.
Но, тифлокомментарии в виде субтитров нам не подходят, поэтому
переходим к следующему шагу.
3. Озвучка субтитров.
Можно озвучить субтитры двумя способами.
Первый способ, это установить проигрыватель "PotPlayer", в настройках
этого проигрывателя найти раздел "Диктор" и включить опцию "Озвучивать
текстовые субтитры".
После этого открываем видео в "PotPlayer" и слушаем его с
тифлокомментариями в исполнении SAPI5 синтезатора речи.
Скачать "PotPlayer" можно с официального сайта по ссылке:
https://potplayer.daum.net
Просто, но у этого способа есть большой минус. Когда на экране
появляется субтитр с тифлокомментариями, плеер и SAPI5 синтезатор
собираются с мыслями, озвучка начинается не сразу, если
тифлокомментарии в субтитрах меняются быстро, плеер не учитывает
длительность субтитров и воспроизводит речь всегда с одной и той же,
установленной в настройках скоростью речи. В результате,
тифлокомментарии запаздывают и перекрывают речь людей в видео.
Поэтому, я советую другой способ, а именно, озвучить тифлокомментарии
в программе "Балаболка".
Скачать Балаболку можно с официальной странице по ссылке:
https://www.cross-plus-a.com/ru/balabolka.html
Устанавливаем и запускаем Балаболку.
Выбираем синтезатор речи, которым хотим озвучить субтитры.
Нажимаем комбинацию клавиш CTRL+Shift+H, чтобы открыть диалог
преобразования субтитров в речь.
После этого находим и нажимаем кнопку "Добавить файлы" и в появившемся
окне открытия файла выбираем наш файл субтитров с тифлокомментариями.
Затем нажимаем кнопку "Выбрать" и указываем папку, в которую нужно
сохранить готовый аудиофайл.
В комбинированном списке "Формат аудиофайлов" выбираем "WAV
аудиофайлы".
Затем переходим на вкладку "Настройки" и отмечаем флажок
"Автоматически увеличивать скорость речи для того, чтобы уложиться в
интервалы времени".
Эта ключевая настройка, которая позволит синтезатору речи укладываться
в отведённые в субтитрах интервалы времени. Когда нужно, речь будет
звучать быстрее.
Там же, с помощью ползунка можно установить максимальную скорость
речи, которую синтезатор не будет превышать, даже если фраза всё-ещё
не укладывается в интервал.
Так же советую установить флажок "Восстановить предложения, которые
поделены на части". В субтитрах текст часто разбивают на несколько
строк для более удобного отображения на кране.
Gemini так вроде не делает, но, если всё-таки сделает, фраза будет
прочитана с паузой и понижением интонации, как два предложения или
даже больше, смотря сколько переносов строк.
Поэтому, этот флаг тоже лучше отметить, хуже не будет.
После этого нажимаем кнопку "Преобразовать" и ждём.
В итоге, мы получим файл, в котором есть только звук тифлокомментариев
без звука видео.
Микшируем его со звуком видео в своём любимом звуковом редакторе, а
если хотим сохранить и видеоряд, готовый микс снова подсовываем в
видео, например, с помощью программы "MKVToolNix GUI".
Программа позволяет работать с дорожками видеофайлов-контейнеров и
подменять некоторые из них без необходимости конвертировать всё видео.
На выходе получаются MKV файлы.
Скачать "MKVToolNix GUI" можно с официального сайта по ссылке:
https://mkvtoolnix.org
С помощью Gemini и Балаболки я сделал тифлокомментарии к шуточному
видеоролику под названием "Проходим капчу".
Скачивайте результат с Яндекс-Диска по ссылке:
https://disk.yandex.ru/i/Gpa0N3JMAYwqyg
Скачивайте текст тифлокомментариев в формате SRT по ссылке:
https://disk.yandex.ru/d/unSQIVbG9kTHpA
Я не редактировал текст, тифлокомментарии озвучены и написаны в том
виде, в котором их сделала Gemini.
Озвучку тифлокомментариев сделал синтезатором речи RHVoice Alexandr.
Ещё важные моменты. Gemini не плохо работает с некоторыми MP4 файлами,
она явно понимает и видео, и звук, знает, кто и что сказал.
Но иногда звук для неё недоступен и она знает только видеоряд, в
результате, тифлокомментарии получаются хуже.
Чтобы проверить, доступен ли Gemini звук из конкретного файла,
прикрепите файл к сообщению и спросите что-нибудь о разговорах в
видео, кто что сказал или что-то похожее. Если ответит. то со звуком
всё для неё нормально.
Кстати, с созданием тифлокомментариев неплохо справляется даже
бесплатная модель Gemini 2.5 Flash. У Gemini есть лимиты на размер файла и продолжительность видео, она сделает комментарии только к небольшим видеороликам.
В Google AI Studio я навайбкодил приложение для создания
тифлокомментариев, и оно даже работало и озвучивало тифлокомментарии
красивыми нейросетевыми голосами. Но, я очень быстро упёрся в лимиты
API на бесплатном тарифе, слишком много раз созданное приложение
запрашивало преобразование коротких текстовых фраз в речь. Перешёл на
системные и безлимитные SAPI5 голоса, и оно даже пыталось работать,
но, после очередного закрытия браузера приложение исчезло из моего
профиля в AI Studio. В Google Claude я его не разворачивал.
Кто-нибудь в курсе, что за фокусы и почему приложение просто исчезло?
