УПРАВЛЕНИЕ БОЛЬШИМИ СИСТЕМАМИ
на главную написать письмо карта сайта


јвтор:  Ѕессонов ћ.ј., ‘архадов ћ.ѕ.
Ќазвание:  јлгоритмы интерпретации просодических признаков речи при ее обработке низкоскоростными кодеками
¬ыпуск:  66
–убрика:  »нформационные технологии в управлении
√од:  2017
Ѕиблиографи€:  Ѕессонов ћ.ј., ‘архадов ћ.ѕ. јлгоритмы интерпретации просодических признаков речи при ее обработке низкоскоростными кодеками / ”правление большими системами. ¬ыпуск 66. ћ.: »ѕ” –јЌ, 2017. —.6-24. URL: https://doi.org/10.25728/ubs.2017.66.1
 лючевые слова:  идентификаци€ €зыка, нейронные сети, просодические признаки речи, широкие фонетические категории
 лючевые слова (англ.):  language identification, neural networks, speech prosodic features, broad phonetic categories
јннотаци€:  ¬ рамках решени€ задачи определени€ €зыка аудиосообщени€ на основе просодического подхода предложены два алгоритма интерпретации просодических признаков речи и методика их использовани€ Ц алгоритм на основе широких фонетических категорий и алгоритм на основе кросскоррел€ционной функции от мелодики речевого сигнала и последовательности кратковременных энергий. ѕроводитс€ экспериментальна€ оценка алгоритмов. ¬ качестве решающего правила используютс€ нейронные сети.
јннотаци€ (англ.):  We study the language identification problem using prosodic features. Prosodic features such as melody, rhythm, timbre and others are difficult to formalize mathematically. Two algorithms for a complex description of prosodic features are proposed in the paper. The first is based on the broad phonetic categories, and the second is based on the cross-correlation of the speech melody and the short-term energy sequence. The fundamental frequency was estimated by MELP algorithm. The performance of the proposed algorithms was evaluated experimentally on a database of speech recordings obtained from Internet and therefore encoded by low-bitrate vocoders. The database includes ten different languages. The proposed algorithms provide a feature description and a multi-layer neural network was used as a language classifier. Both algorithms show satisfactory classification performance, but the broad phonetic categories approach performs slightly better than the cross-correlation function. These algorithms can be applied to a speech signal processed by low-bitrate vocoders without decoding to the original signal.

в формате PDF
ќбсудить статью в »нтернет-конференции по проблемам управлени€

ѕросмотров: 1275, загрузок: 411, за мес€ц: 8.

Ќазад

»ѕ” –јЌ © 2007. ¬се права защищены