← Все новости

Локальный синтез речи для 20 языков в SAPI5 и Windows

Представлено обновление системы синтеза речи, работающее локально под Windows через SAPI5. Решение поддерживает 20 языков, не требует GPU и совместимо с популярными экранными читалками, включая «Балаболку».

Локальный синтез речи для 20 языков в SAPI5 и Windows

Разработчики представили долгожданное обновление системы генерации голоса, которое теперь функционирует непосредственно в среде Microsoft. Благодаря внедрению интерфейса SAPI5, технология стала доступна для использования в качестве экранного диктора без необходимости подключения к облачным серверам. Проект охватывает 20 наречий, распространенных на территории РФ и в странах Содружества.

Ключевой особенностью стала высокая производительность: алгоритмы оптимизированы для работы на центральном процессоре (CPU), что исключает потребность в дискретной видеокарте. Это позволяет интегрировать решение в популярные утилиты вроде «Балаболки» сразу после установки. Ранее команда успешно справилась с корректным произношением омографов в русской речи, планируя в ближайшем будущем выпустить масштабное дополнение. Кроме того, были представлены специализированные модели-акценторы, отвечающие за правильную расстановку ударений в украинском и белорусском языках.

Контекст и реализация

Создание системного компонента стало возможным благодаря партнерству с независимым программистом, специализирующимся на низкоуровневой разработке под Windows. Текущая версия является пилотным выпуском, приуроченным к зимним праздникам в качестве подарка сообществу. Переход на локальную обработку данных — важный шаг для обеспечения приватности и автономности. В отличие от онлайн-сервисов, подобные движки позволяют слабовидящим людям комфортно взаимодействовать с компьютером даже при отсутствии интернета.

Что это значит

Поддержка широкого спектра лингвистических групп СНГ делает данную разработку уникальной на рынке TTS (Text-to-Speech). Оптимизация под стандартные вычислительные мощности расширяет круг потенциальных пользователей, включая владельцев бюджетных ноутбуков и офисных ПК. Отсутствие жестких требований к аппаратному обеспечению делает качественный синтез доступным для массового сегмента, сохраняя при этом высокую скорость отклика, необходимую для комфортного чтения с экрана в реальном времени.

Источник: Хабр