Что такое синтез речи?
Синтез речи - это задача генерации речи из какой-либо другой модальности, такой как текст, движения губ и т.д. В большинстве приложений текст выбирается в качестве предварительной формы из-за быстрого развития систем естественного языка. Система преобразования текста в речь (TTS) предназначена для преобразования естественного языка в речь.
Вы, вероятно, сталкиваетесь со всеми видами синтетической речи в течение обычного дня. С помощью приложений, интеллектуальных колонок и беспроводных наушников синтез речи упрощает жизнь, улучшая:
- Специальные возможности. Если у вас слабое зрение, вы можете использовать TTS для чтения текстового содержимого или использовать программу чтения с экрана, чтобы произносить слова вслух. Например, синтезатор преобразования текста в речь от TikTok является широко используемой функцией специальных возможностей, позволяющей любому пользователю использовать визуальный контент социальных сетей.
- Навигация.Вы не можете смотреть на карту во время вождения, но вы можете слушать инструкции. Независимо от того, куда вы направляетесь, большинство приложений GPS могут доставлять полезные голосовые оповещения во время путешествия, некоторые на нескольких языках.
- Голосовая поддержка.Интеллектуальные аудиоусилители, такие как Siri и Alexa, отлично подходят для многозадачности, позволяя вам заказать пиццу или послушать прогноз погоды, пока вы заняты другими физическими задачами (например, мытьем посуды). Хотя эти помощники иногда ошибаются — случайно заказывают стиральный порошок на сумму 200 долларов, играют колыбельные вместо новостных подкастов и т.д. — И часто создаются в виде подчиненных женских персонажей, они звучат вполне реалистично и рассказывают довольно хорошую шутку или две.
На протяжении многих лет существовало много различных подходов, наиболее известными из которых были синтез конкатенации и параметрический синтез.
Синтез конкатенации
Синтез конкатенации, как следует из названия, основан на объединении предварительно записанных речевых сегментов. Сегментами могут быть полные предложения, слова, слоги, дифоны или даже отдельные телефоны. Обычно они хранятся в виде сигналов или спектрограмм.
Мы получаем сегменты с помощью системы распознавания речи, а затем маркируем их на основе их акустических свойств (например, основной частоты). Во время выполнения желаемая последовательность создается путем определения наилучшей цепочки блоков-кандидатов из базы данных (выбор блока).
Статистический параметрический синтез
Параметрический синтез также использует записанные человеческие голоса. Разница в том, что мы используем функцию и набор параметров для изменения голосаe. Давайте разберем это:
Статистический параметрический синтез обычно состоит из двух частей. Обучение и синтез. Во время обучения мы извлекаем набор параметров, которые характеризуют аудиосэмпл, таких как частотный спектр (голосовой тракт), основная частота (источник голоса) и продолжительность (просодия) речи. Затем мы пытаемся оценить эти параметры, используя статистическую модель. Исторически доказано, что наилучшие результаты дает скрытая марковская модель (ХМ).
Во время синтеза HMM генерируют набор параметров из нашей целевой текстовой последовательности. Параметры используются для синтеза конечных речевых сигналов.
Преимущества статистического параметрического синтеза:
- Нет необходимости хранить аудио-сэмпл в базе данных
- Языковая независимость
- Гибкость в характеристиках голоса
Однако в большинстве случаев качество синтезированной речи не идеально. Здесь в игру вступают методы, основанные на глубоком обучении.
Как работает синтез речи?
Синтез речи состоит в основном из трех этапов: превращение текста в слова, превращение слов в явления и превращение явлений в звук.
Эта фаза включает предварительную обработку или нормализацию. Он фокусируется на уменьшении двусмысленности, сужении различных способов, которыми вы могли бы прочитать фрагмент текста, оставляя только наиболее подходящий.
Это включает в себя очистку текста, чтобы компьютер делал меньше ошибок при чтении слов вслух. Цифры, даты, время, сокращения, акронимы, специальные символы и т.д. необходимо преобразовать в слова.
Компьютеры используют скрытые марковские модели или нейронные сети для поиска наиболее подходящего произношения.
Предварительная обработка также позволяет работать с омографами, которые по сути являются словами, которые пишутся одинаково, но произносятся по-разному, в зависимости от значения.
После определения слов синтезатор должен сгенерировать звуки речи, из которых состоят эти слова. Для каждого слова компьютеру потребуется список явлений, составляющих это слово.
В качестве альтернативы компьютер мог бы также разбивать написанные слова на их графемы. Это письменные компоненты, которые обычно состоят из отдельных букв или слогов, составляющих слово. Затем синтезатор генерирует феномены, соответствующие графемам, используя набор правил.
Существует три подхода к получению основных явлений, которые компьютер считывает вслух при преобразовании текста в речь.
- Конкатенативный синтез. Это предполагает использование записанных человеческих голосов, которые должны быть предварительно загружены небольшими фрагментами человеческого звука, которые они могут изменять.
- Синтез формант. Это включает в себя генерацию речевых звуков, необходимых системе, с нуля, как музыкальный синтезатор.
- Артикуляционный синтез. Это включает в себя генерацию речи путем моделирования сложного человеческого речевого аппарата и, таким образом, синтез речи.
Как выбрать и интегрировать синтез речи?
Для того, чтобы выбрать правильный синтез речи (преобразование текста в речь), важно учитывать несколько критериев. Эти параметры следующие:
- язык, на котором говорят
- тип говорящего
- качество голоса
- поставщик
С помощью этой информации легче выбрать правильное решение, которое соответствует вашим потребностям и ограничениям. Действительно, не все компании, предлагающие TTS, имеют эквивалентные диапазоны. Таким образом, очень важно найти этих партнеров задолго до начала. Далее, язык и тип голоса являются важными критериями для предлагаемого пользовательского интерфейса. Действительно, должна быть согласованность между голосовым интерфейсом и тем, что он должен вдохновлять.
Что касается интеграции, технологии синтеза речи также основаны на понятиях облачных, встроенных или гибридных (также известных как “локальные”). Вы должны иметь в виду, что встроенный имеет технические ограничения в плане хранения предложений, которых не будет в облаке. Однако, хотя для подключения к облаку требуется подключение, встроенный голос будет работать независимо от того, что происходит. Подумайте об этих параметрах в соответствии с характером ваших проектов. Например, в транспорте следует отдавать предпочтение встроенному синтезу речи, чтобы обеспечить непрерывное обслуживание.
Для чего используется синтез речи?
Синтетическая речь имеет различные применения. Качество синтеза речи также быстро улучшается. Вот некоторые из областей, в которых используется синтез речи:
Создание пособий для чтения и общения для слепых - одно из крупнейших и наиболее важных применений синтеза речи. До синтезированной речи, если слепой человек хотел читать, ему нужно было использовать аудиокниги. Превращение большой книги в аудиокнигу может оказаться довольно трудоемкой и дорогостоящей задачей. Получать информацию с компьютера с помощью функции синтеза речи также намного проще и доступнее, чем с помощью специальной клавиатуры Bliss symbol, интерфейса, который используется для чтения символов Брайля.
Считывающая машина Kurzweil для слепых, возможно, была первым коммерчески доступным приложением для преобразования текста в речь. Он состоял из оптического сканера и программного обеспечения для распознавания текста и был способен выдавать довольно разборчивую речь из написанного несколькими шрифтами текста.
Когда дело доходит до считывающих устройств, наиболее важным фактором является разборчивость речи. Это должно поддерживаться при частоте произнесения речи в диапазоне от менее чем половины до, по крайней мере, в три раза превышающей нормальную скорость. Естественность также важна для того, чтобы сделать синтетическую речь более приемлемой, но иногда важно, чтобы слушатель мог знать, что речь исходила от машины.
Люди, которые рождаются без способности слышать, неспособны научиться правильно говорить. Люди с нарушениями слуха также, как правило, испытывают трудности с речью. Синтезированная речь дает людям с нарушениями слуха шанс общаться с людьми, которые не понимают язык жестов. С помощью мультимодального синтеза речи можно еще больше повысить качество речи, поскольку визуальная информация очень важна для людей с нарушениями слуха и речи.
Синтез речи также может быть использован в нескольких образовательных ситуациях. Синтез речи может позволить компьютерам обучать студентов по всему миру 24/7 в течение всего года. Это может быть очень полезно для студентов, страдающих дислексией, потому что они могут чувствовать себя неловко, обращаясь за помощью к настоящему преподавателю.
Приложения для телекоммуникаций и мультимедиа
Синтезированная речь использовалась в течение очень долгого времени в системах телефонного запроса, таких как IVR. Однако в те времена качество было не таким хорошим. Сегодня качество значительно улучшилось. Синтез речи также может использоваться для считывания текстовых сообщений и электронных писем на мобильных телефонах и компьютерах. Он также широко используется в других интерактивных мультимедийных приложениях.
Другие приложения
Теоретически синтез речи можно было бы в значительной степени использовать для всех типов взаимодействий человека и компьютера. Это может быть использовано в системах оповещения и аварийной сигнализации, чтобы дать вам лучшее, более точное понимание ситуации. В будущем могут использоваться даже языковые переводчики, видеоконференции и т.д.
Оставьте заявку на сайте и менеджер вам перезвонит.
Мы можем назначить видеоконференцию или приехать лично для обсуждения деталей.