УПРАВЛЕНИЕ БОЛЬШИМИ СИСТЕМАМИ
на главную написать письмо карта сайта


јвтор:  ќбухов ƒ.—.
Ќазвание:  –азработка современной системы распознавани€ русско€зычной телефонной речи
¬ыпуск:  89
–убрика:  ѕрограммы и системы моделировани€ объектов, средств и систем управлени€
√од:  2021
Ѕиблиографи€:  ќбухов ƒ.—. –азработка современной системы распознавани€ русско€зычной телефонной речи // ”правление большими системами. ¬ыпуск 89. ћ.: »ѕ” –јЌ, 2021. —.106-122. DOI: https://doi.org/10.25728/ubs.2021.89.4
 лючевые слова:  распознавание речи, русско€зычна€ речь, акустическа€ модель, €зыкова€ модель, аугментаци€ звука, вектор характеристик спикера
 лючевые слова (англ.):  speech recognition, russian-language speech, acoustic model, language model, speech augmentation, speaker embedding
јннотаци€:  ќписываетс€ система, разработанна€ дл€ распознавани€ русско€зычной речи. ћы фокусируемс€ на домене телефонных разговоров, когда на вход поступает одноканальный аудиосигнал с частотой дискретизации 8 к√ц, полученный в услови€х с повышенными шумами. ƒополнительно дл€ обучени€ используютс€ данные из видео хостинга YouTube. –ассматриваетс€ р€д акустических моделей и техники построени€ фонемного словар€ и €зыковой модели.  роме того, привод€тс€ результаты экспериментов по вли€нию информации о спикере. “акже показываетс€, что применение таких техник аугментации, как ревербераци€, изменение скорости и громкости сигнала, маскирование частотных и временных характеристик существенно повышают качество распознавани€. Ќа отложенном дл€ тестировани€ наборе данных телефонии достигнута ошибка обучени€ на словах 24.21.
јннотаци€ (англ.):  We describe a system designed to recognize Russian-language speech. Our focus is on the domain of telephone conversations, when a single-channel noisy audio signal with a sample rate of 8 kHz is received at the input. Additionally, data from YouTube video hosting is used for training. We consider a number of acoustic models and techniques for building a lexicon and language model. In addition, we conduct experiments on the influence of speaker information. It is also shown that the use of augmentation techniques such as reverb, changing the speed and volume of a signal, masking frequency and time characteristics significantly increase the quality of recognition. We achieve word error rate 24.21 on our validation dataset.

¬ формате PDF
ќбсудить статью в »нтернет-конференции по проблемам управлени€

ѕросмотров: 289, загрузок: 131, за мес€ц: 17.

Ќазад

»ѕ” –јЌ © 2007. ¬се права защищены