[TC] Программа для высококачественного преобразования текста в речь и речи в текст с помощью моделей Google Gemini, скачивайте!!!
Здравствуйте все!!!
Предлагаю всеобщему вниманию программу для
высококачественного преобразования текста в речь и речи в текст с
помощью нейросетевых моделей Google Gemini.
Прослушать примеры работы программы можно по ссылке:
https://disk.yandex.ru/d/u8-Ykbd_WBX1HQ
Описание программы.
Gemini voice studio.
Программа для озвучивания текстов и распознавания речи с помощью нейросетевых моделей Gemini от Google.
Функции программы.
1. Озвучивание текстов нейросетевыми голосами Google Gemini. Тексты будут звучать так, как будто их читают профессиональные актёры, с выражением и эмоциями, в соответствии со смыслом текста и сюжетом конкретного эпизода.
2. Преобразование речи в текст с помощью моделей Google Gemini. В тексте будут расставлены знаки препинания и выполнено базовое форматирование, качество транскрибирование текстов очень высокое.
Требования.
1. В России необходимо средство обхода региональных ограничений Google. Это могут быть специальные DNS-серверы (GeoDNS, SmartDNS) или законопослушный VPN-сервис, который не позволяет получить доступ к запрещённым ресурсам, заблокированным Роскомнадзором на территории РФ, но позволяет обходить географические ограничения Google.
Перед покупкой подписки на подобные сервисы свяжитесь с поддержкой и убедитесь, что сервис предоставляет доступ к Google Gemini и Google AI Studio.
2. API ключ Google AI Studio.
Зайдите на:
https://aistudio.google.com
под своей учётной записью Google и получите API ключ.
3. Windows 10 (x64) или новее.
Начало работы.
1. Распакуйте архив.
2. Запустите файл "GeminiVoiceStudio.exe".
3. Скоппируйте ваш API ключ.
4. Нажмите кнопку "Настройки".
5. Найдите редактор "Gemini API Key" и вставьте в него ваш API ключ.
6. Нажмите кнопку "Save".
7. Важно, все настройки программы, в том числе и API ключ сохраняются в файле "settings.ini". Будьте внимательны, не передавайте и не распространяйте программу с вашим личным API ключём.
Озвучивание текста.
1. Убедитесь, что открыта вкладка "Озвучивание".
2. В поле "Название проекта" введите произвольное название, например, название вашего материала. В будущем это поможет быстро найти нужный проект в списке.
3. Нажмите кнопку "Открыть текстовый файл" и в появившемся окне выберите файл с текстом, который нужно озвучить, либо скопируйте текст из другой программы и вставьте его в "Поле ввода текста для озвучивания" (на слух), "Введите текст для озвучивания" (Визуально).
4. В комбинированном списке "Голос" выберите голос, которым будет озвучен текст. В папке "Образцы голосов" находятся демонстрационные записи с образцами голосов для озвучивания, послушайте, сравните и выберите наиболее понравившийся и подходящий для вашего материала.
5. Нажмите кнопку "Озвучить". В строке состояния будет отображаться информация о текущей операции.
6. После того, как генерация речи будет завершена программа выдаст сообщение с информацией об этом.
7. Вы можете нажать кнопку "Воспроизвести", чтобы прослушать получившееся аудио, или кнопку "Сохранить аудио".
8. После нажатия кнопки "Сохранить аудио" появится диалоговое окно для сохранения файла.
9. Выберите папку, в которую нужно сохранить файл, введите имя файла, в комбинированном списке "Тип файла" выберите формат, MP3 или WAV и нажмите кнопку "Сохранить".
Генерация речи может занять много времени, но, после того, как вы нажали кнопку "Озвучить,", нажмите кнопку "Задания", убедитесь, что ваш проект появился в списке заданий и, если проект в списке, вы можете закрыть программу и даже выключить компьютер, всё выполняется в облаке Google.
Через некоторое время запустите программу, снова нажмите кнопку "Задания", выберите ваш проект в списке, если его статус "JOB_STATE_SUCCEEDET", открывайте его и сохраняйте готовое аудио.
Распознавание речи.
1. Перейдите на вкладку "Распознавание речи".
2. В соответствующем редакторе введите название проекта.
3. Нажмите кнопку "Обзор" и в появившемся окне выберите аудиофайл с записью речи, который нужно преобразовать в текст.
4. Нажмите кнопку "Распознать".
5. Не торопитесь закрывать программу, загрузка аудиофайла на сервер требует времени.
В строке состояния появится текст "Загрузка файлов", затем его сменит сообщение "Создание Batch задания", после того, как и это сообщение исчезнет нажмите кнопку "Задания", убедитесь, что задание появилось в списке и только после этого программу можно закрыть или оставить запущенной, когда распознавание речи будет завершено, программа выдаст соответствующее сообщение.
Выбор моделей.
Программа позволяет выбрать модели Gemini для синтеза и распознавания речи.
Чтобы выбрать модели,
1. Нажмите кнопку "Настройки".
2. В появившемся окне настроек обязательно нажмите кнопку "Загрузить список моделей" и подождите несколько секунд, программа загрузит актуальный на данный момент список моделей, доступных через API.
3. В комбинированном списке "Модель для озвучивания (TTS)" вы можете выбрать модель Gemini, которая будет преобразовывать текст в речь/
В комбинированном списке "Модель для распознавания (STT)" выберите модель, которая будет преобразовывать речь в текст.
4. Помните, не все модели работают в режиме Batch API, то есть, не все модели могут выполнять задание в облаке Google. Если при попытке синтезировать или распознать речь вы получаете сообщение с ошибкой 404, это значит, выбранная модель недоступна в режиме Batch API, выберите другую модель.
Лимиты.
Даже в пакетном режиме модели имеют ограничения на размер текста для генерации речи и продолжительность аудиозаписи для преобразования в речь.
У некоторых моделей этот лимит больше. У некоторых меньше.
В среднем, на текущий момент, февраль 2026, можно преобразовать в речь тексты длинной около 40000 символов и преобразовать в текст аудио длинной около 25 минут. Более длинные аудио будут транскрибированы не до конца.
Так же, существуют лимиты на количество обращений к API в минуту, в час и в сутки, поэтому, количество проектов, которые можно поставить в очередь ограничено.
Есть лимиты на использование каждой модели, если вы сталкиваетесь с лимитом модели, попробуйте выбрать другую модель для своей задачи.
Если вы получаете сообщение с ошибкой 429, значит, вы столкнулись с лимитами.
Попробуйте уменьшить размер вашего контента, разделить его на части или выбрать другую модель.
В случае превышения лимитов на запросы по API попробуйте позже.
Посмотреть, на сколько, на текущий момент, исчерпаны лимиты для каждой модели по вашему API ключу можно в Google AI Studio.
Повысить лимиты можно, привязав к проекту с вашим API ключём платёжный профиль с картой европейского банка, (Visa, MasterCard).
Проекты в облаке Google Cloud хранятся ограниченное количество времени, на текущий момент это 48 часов.
Помимо облака, программа сохраняет проекты локально в папку " Projects". Чтобы открыть локальный проект в программе, нажмите кнопку "Открыть проект" и в появившемся диалоговом окне откройте папку с нужным проектом.
Устранение неполадок.
Если программа выдаёт ошибку:
"Ошибка Worker: 400 FAILED_PRECONDITION. {'error': {'code': 400, 'message': 'User location is not supported for the API use.', 'status': 'FAILED_PRECONDITION'}}",
Проверьте работоспособность вашего средства обхода географических ограничений Google.
Исходный код программы находится в файле "main.py"
Скачивайте программу с Яндекс Диска по ссылке:
https://disk.yandex.ru/d/pxtUh4CS5OuqPA
