Автоматизированная обработка речи является перспективным направлением в информационных технологиях. Это направление привлекает многих исследователей, в мире проводятся множество работ по синтезу и распознавании речи. В области синтеза речи достигнуты хорошие результаты, но в области распознавания речи многие результаты не вышли за пределы лабораторных исследований и демонстраций дикторского распознавания. Большие компании, такие как Google и Apple, решают вопросы распознавания речи напрямую, они создают огромные базы данных голосов и фрагментов, в которых идет поиск и сравнение с образцами. Данный метод требует несколько миллиардов фрагментов речи и несколько десятков лет их сбора, а также необходимо наличие большого количества технических и программных средств для хранения и обработки данных.
В России и в мире ведутся исследования языков разных народов, например, татарского [9], чувашского [3] языков, но, к сожалению, изучение других языков остается в продвигаются медлено, что конечно в дальнейшем снижает количество носителей языка, так как происходит отток в сторону более информационно развитых языков. Данная ситуация также начинает преобладать в якутском языке, так как отсутствуют электронные ресурсы по поддержке якутского языка.
Развитие информационных технологий позволило расширить возможности автоматизированного исследования устной речи. Появились программные средства для анализа устной речи. Исследователями были разработаны множество методов и способов синтеза и распознавания речи, все они обладают своими преимуществами и недостатками.
Аппаратные исследования фонетики якутского языка были проведены в 70-х годах 20 века [1, 2]. В данных работах приведены данные о гласных и согласных фонемах якутского языка, показаны пневмоосцилограммы, палатограммы и рентгенограммы и кадры из кинорентгенограмм различных слов и фонем. Все это дает понимание механизма работы речевого тракта для задач синтеза и распознавания речи на якутском языке. Возможности вычислительной техники в те времена не могли обеспечить компьютерный анализ звуковой речи на якутском языке.
В работе [7] Слепцов И.А. исследовал формантные частоты гласных звуков устной речи на якутском языке. В работе [8] Токарев И.З. провел спектральное сравнение чисел на якутском языке. Все эти работы являлись начальным этапом исследовательской работы по изучении устной речи на якутском языке для задач синтеза и распознавания речи.
Современные информационные средства позволяют хранить и создавать устную речь с помощью компиляции частей речи [4, 5], но это не позволяет реализовывать такие характеристики речи, как просодия, интонация, эмоция. Для высококачественного синтеза устной речи необходимо обеспечить наличие всех характеристик речи, только в таком случае речь перестанет быть искусственной.
Формантный метод синтеза обладает возможностью изменения их параметров, это позволяет изменять характеристики речи, получать разные типы голосов, создавать ударения, выражать эмоции. Такой метод также обладает малым объемом и делает возможным реализацию речи на микроэлектронных устройствах.
Целью работы является получение таблицы формантных частот устной речи якутского языка.
Материалы и методы исследования
По теории создания звука в речевом тракте звук представляет формантными частотами, это резонансные параметры речевого тракта и диапазона частот формантных областей в которых сосредоточена большая часть энергии сигнала. Согласно теории формантных частот для фонемы необходимо выделить основную частоту и дополнительные четыре формантных частоты.
Обычно считается, что достаточно указать две первые формантные частоты для задач распознавания и синтеза, но иногда необходимо учитывать и более высокие формантные частоты, а также основной тон. Для выделения формантных частот создают спектрограмму голосового сигнала и проводят анализ по обнаружению формантных частот. Формантные частоты раньше анализировались с помощью динамического спектрографа, который производил запись спектрограмм (сонограмм). Исследования разных языков мира, в частности, английского языка, его гласных и согласных, дифтонгов усовершенствовали методы исследования и позволили создать программное обеспечение, с помощью которого можно производить анализ звука и речевых сигналов.
Обнаружение основных и формантных частот возможно производить с помощью программных средств анализа радиосигналов MatLab, с помощью математической программы MathCAD [6] или с помощью специализированного программного обеспечения, такого как SpeechAnalyzer фирмы SIL International, который относится к свободно распространяемым программным продуктам.
Результаты исследования и их обсуждение
В ходе исследований получены формантные частоты гласных звуков устной речи на якутском языке, приведенные в табл. 1. В якутском языке существуют долгие гласные и гласные, характерные для якутского языка, это гласные «Ө» и «Ү».
Таблица 1
Формантные частоты гласных звуков
Фонемы |
Формантные частоты (Гц) |
|||
F1 |
F2 |
F3 |
F4 |
|
А |
730 |
1481 |
2731 |
3336 |
АА |
741 |
1467 |
2713 |
3409 |
Э |
601 |
1682 |
2827 |
3646 |
ЭЭ |
573 |
1619 |
2853 |
3569 |
И |
302 |
2221 |
3295 |
3450 |
ИИ |
254 |
2218 |
2953 |
3548 |
О |
637 |
1834 |
3150 |
|
ОО |
491 |
1877 |
2868 |
3520 |
Ө |
459 |
1567 |
2673 |
3639 |
Ө Ө |
432 |
1492 |
2569 |
3562 |
У |
254 |
735 |
2122 |
3265 |
УУ |
305 |
749 |
2140 |
3214 |
Ү |
175 |
2177 |
3103 |
|
ҮҮ |
261 |
1892 |
2259 |
3306 |
Ы |
271 |
1778 |
2259 |
3361 |
ЫЫ |
256 |
2286 |
3427 |
При анализе гласных звуков программа SpeechAnalyzer показывает временной отклик сигнала, а также производить вычисления формантных частот. На рисунке приведена спектрограмма гласного звука «Ө».
Также был исследованы дифтонги якутского языка «иэ», «уо», «ыа» и «үө». При произношении дифтонгов звук произносится слитно. При исследовании дифтонгов выяснилось, что дифтонги имеют формантные частоты (табл. 2), отличные от слияния двух разных фонем.
Спектрограмма гласного звука «Ө»
Таблица 2
Формантные частоты дифтонгов
Дифтонги |
Формантные частоты (Гц) |
||||
F1 |
F2 |
F3 |
F4 |
F5 |
|
иэ |
434 |
1871 |
2605 |
3593 |
4699 |
уо |
502 |
980 |
2123 |
3280 |
4153 |
ыа |
433 |
1568 |
2637 |
3975 |
5455 |
үө |
430 |
1647 |
2510 |
3507 |
4651 |
Таблица 3
Формантные частоты согласных
Фонемы |
Формантные частоты (Гц) |
|||
F1 |
F2 |
F3 |
F4 |
|
1 |
2 |
3 |
4 |
5 |
Б |
614 |
1535 |
2459 |
3509 |
Г |
314 |
1395 |
2321 |
3402 |
Ҕ |
276 |
1676 |
2815 |
|
Д |
250 |
1590 |
2729 |
|
Дь |
73 |
2598 |
||
Й |
572 |
2835 |
||
К |
625 |
1669 |
3514 |
|
Л |
309 |
2216 |
||
М |
604 |
1527 |
2616 |
|
Н |
347 |
1520 |
2581 |
3622 |
1 |
2 |
3 |
4 |
5 |
Ҥ |
178 |
1591 |
||
Нь |
619 |
1726 |
2665 |
|
П |
241 |
1517 |
2495 |
3575 |
Р |
1527 |
2563 |
3603 |
|
С |
1005 |
|||
Һ |
450 |
1564 |
3616 |
|
Т |
954 |
1993 |
2944 |
|
Х |
476 |
1621 |
2776 |
|
Ч |
259 |
1644 |
2525 |
Также авторами впервые были получены формантные частоты согласных звуков якутского языка, до этого такие исследования не производились. В якутском языке существуют характерные согласные «Дь», «Ҥ», «Нь», «Һ» и «Ҕ». Звуки, заимствованные из русского языка «В», «Ш», «Щ», «Ц», «З», «Ф», «Ж», произносятся согласно фонетике русского языка.
Заключение
В результате исследования получена таблица формантных частот, с помощью которых возможно создать электронный синтезатор речи на якутском языке, а также создать программное обеспечение по распознаванию речи на якутском языке. Материалы по фонетике якутского языка необходимо собирать и анализировать с помощью новых программных средств, что позволяет сохранить чистое произношение якутского языка.