Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 22
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 22 страницы из PDF
В частности, в диссертации показана их эффективность в задаче распознавания английской спонтанной речи.3. Результаты диссертации могут быть использованы при создании системраспознавания спонтанной речи для других языков, для которых отсутствуют большие обучающие базы. В этом случае следует обучать акустические модели для целевого языка, используя признаки, извлекаемыеиз глубокой нейронной сети с узким горлом, обученной по русским данным. Такой подход к построению акустических моделей позволяет значительно повысить точность распознавания, по сравнению с обучениемакустических моделей только по малому количеству данных на целевомязыке.Перспективы дальнейшей разработки темы таковы:1.
Улучшение метода построения информативных признаков, извлекаемыхиз адаптированной к диктору и акустическим условиям глубокой нейронной сети, за счет обучения глубокой нейронной сети с узким горломс использованием критериев разделения последовательностей.2. Повышение точности распознавания русской телефонной спонтаннойречи за счет применения акустических моделей на основе сверточныхи рекуррентных нейронных сетей.3. Повышение точности распознавания русской спонтанной речи с помощью применения подходов к построению языковых моделей, позволяющих эффективно учитывать дальний смысловой контекст, а также морфологическую, синтаксическую и семантическую информацию.4.
Повышение быстродействия системы распознавания русской телефонной спонтанной речи.131Список сокращений и условных обозначенийФПИASRАМЯМWERMFCCFBANKPLPLDACMNCMVNVTLNHMMGMMMLEMMLLTMLLRfMLLRMAP-LRDNNANNMSECENLLBPSGDNAGRBMDBNDPTФонд Перспективных ИсследованийAutomatic Speech RecognitionАкустическая модельЯзыковая модельWord Error RateMel-Frequency Cepstral CoefficientsMel-frequency filterbank log energiesPerceptual Linear PredictionLinear Discriminant AnalysisCepstral Mean NormalizationCepstral Mean and Variance NormalizationVocal Tract Length NormalizationHidden Markov ModelGaussian Mixture ModelMaximum LikelihoodExpectation-MaximizationMaximum Likelihood Linear TransformationMaximum Likelihood Linear Regressionfeature-domain Maximum Likelihood Linear RegressionMaximum a Posteriori Linear RegressionDeep Neural NetworkArtificial Neural NetworkMean Square ErrorCross-EntropyNegative Log-LikelihoodError BackpropagationStochastic Gradient DescentNesterov Accelerated GradientRestricted Boltzmann MachineDeep Belief Networkdiscriminative pretraining132LBPCD-DNN-HMMFERSTMMIBMMIMPEMBRsMBRF-SmoothingfDLRJFAVTSUBMN (·; µ; Σ)PPLRNNLMFLMMaxEntPCAHLDASVDGPGPUVADRTFlayer-wise error backpropagationContext-Dependent Deep Neural Network — HiddenMarkov ModelFrame Error RateSequence-discriminative TrainingMaximum Mutual InformationBoosted Maximum Mutual InformationMinimum Phone ErrorMinimum Bayes Riskstate Minimum Bayes RiskFrame Smoothingfeature Discriminant Linear RegressionJoint Factor AnalysisVector Taylor SeriesUniversal Background ModelСтандартное нормальное распределение с математическим ожиданием µ и ковариационной матрицей ΣPerplexityRecurrent Neural Network Language ModelFactored Language ModelMaximum EntropyPrincipal Component AnalysisHeteroscedactic Linear Discriminant AnalysisSingular Values DecompositionGeneral-purpose computing for graphics processing unitsVoice Activity DetectorReal-Time Factor133Список литературы1.
Бондарко, Л. В. Спонтанная речь и организация системы языка [Текст] /Л. В. Бондарко // Бюллетень фонетического фонда русского языка. ––2001. –– С. 17––23.2. Godfrey, J. Switchboard: telephone speech corpus for research and development [Text] / J. Godfrey, E. Holliman, J. McDaniel // Proc. IEEE InternationalConference on Acoustics, Speech and Signal Processing (ICASSP). — 1992. —Vol. 1. — P. 517–520.3. Godfrey, J. Switchboard-1 Release 2 LDC97S62. Web Download [Electronicresource].
— Philadelphia : Linguistic Data Consortium, 1993. — URL: https://catalog.ldc.upenn.edu/LDC97S62 (online; accessed: 29.01.2016).4. Cieri, C. Fisher English Training Speech Part 1 Speech LDC2004S13. DVD [Electronic resource]. — Philadelphia : Linguistic Data Consortium, 2004. — URL:https://catalog.ldc.upenn.edu/LDC2004S13 (online; accessed: 29.01.2016).5. Cieri, C. Fisher English Training Speech Part 2, Speech LDC2005S13. DVD[Electronic resource]. — Philadelphia : Linguistic Data Consortium, 2005.
—URL: https://catalog.ldc.upenn.edu/LDC2005S13 (online; accessed: 29.01.2016).6. 2000 HUB5 English Evaluation Speech LDC2002S09. Web Download [Electronic resource]. — Philadelphia : Linguistic Data Consortium, 2002. — URL:https://catalog.ldc.upenn.edu/LDC2002S09 (online; accessed: 29.01.2016).7. Linguistic Data Consortium [Electronic resource]. — 2016. — URL: https://www.ldc.upenn.edu/ (online; accessed: 29.01.2016).8. Санкт-Петербургский институт информатики и автоматизации Российскойакадемии наук [Электронный ресурс]. –– 2016. –– URL: http://www.spiiras.nw.ru/ (дата обращения: 20.01.2016).9.
ООО «ЦРТ» [Электронный ресурс]. — 2016. — URL: http://www.speechpro.ru/ (online; accessed: 20.01.2016).13410. Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur[Electronic resource]. — 2016. — URL: https://www.limsi.fr/en/ (online; accessed: 20.01.2016).11. Фонд Перспективных Исследований [Электронный ресурс]. –– 2016. –– URL:http://fpi.gov.ru (дата обращения: 20.01.2016).12.
Итоги конкурса по распознаванию речи [Электронный ресурс]. ––2016. –– URL: http://fpi.gov.ru/press/news/podvedeni_itogi_konkursa_po_raspoznavaniyu_rechi (дата обращения: 20.01.2016).13. ФГУП «НИИ «Квант» [Электронный ресурс]. –– 2016. –– URL: http://www.rdi-kvant.ru (дата обращения: 20.01.2016).14. ООО «Стэл-КС» [Электронный ресурс].
–– 2016. –– URL: http://www.stel.ru/(дата обращения: 20.01.2016).15. ЗАО «НТЦ «Поиск-ИТ» [Электронный ресурс]. –– 2016. –– URL: http://poisk-it.ru/ (дата обращения: 20.01.2016).16. Меденников, И. П. Дикторо-зависимые признаки для распознавания спонтанной речи [Текст] / И. П. Меденников // Научно-технический вестник информационных технологий, механики и оптики. –– 2016. –– Т.
16, № 1. ––С. 195–197.17. Меденников, И. П. Двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей [Текст] / И. П. Меденников // Научно-технический вестник информационных технологий, механики и оптики. –– 2016. –– Т. 16, № 2. –– С. 379–381.18. Automated closed captioning for Russian live broadcasting [Text] / K. Levin,I.
Ponomareva, A. Bulusheva [et al.] // Proc. Annual Conference of InternationalSpeech Communication Association (INTERSPEECH). — 2014. — P. 1438–1442.19. Romanenko, A. Simplified Simultaneous Perturbation Stochastic Approximation for the Optimization of Free Decoding Parameters [Text] / A. Romanenko,A. Zatvornitsky, I.
Medennikov // Speech and Computer, Lecture Notes in Computer Science. — 2014. — Vol. 8773. — P. 402–409.13520. Controlling the Uncertainty Area in the Real Time LVCSR Application [Text] /N. Merkin, I. Medennikov, A. Romanenko, A. Zatvornitskiy // Speech and Computer, Lecture Notes in Computer Science.
— 2014. — Vol. 8773. — P. 153–160.21. Improving Acoustic Models For Russian Spontaneous Speech Recognition[Text] / A. Prudnikov, I. Medennikov, V. Mendelev [et al.] // Speech and Computer, Lecture Notes in Computer Science. — 2015. — Vol. 9319. — P. 234–242.22. A Bilingual Kazakh-Russian System for Automatic Speech Recognition and Synthesis [Text] / O.
Khomitsevich, V. Mendelev, N. Tomashenko [et al.] // Speechand Computer, Lecture Notes in Computer Science. — 2015. — Vol. 9319. —P. 25–33.23. Yu, D. Automatic Speech Recognition: A Deep Learning Approach [Text] / D. Yu,L. Deng. — London : Springer-Verlag, 2015.24. Davis, S. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences [Text] / S. Davis, P. Mermelstein //Acoustics, Speech and Signal Processing, IEEE Transactions on. — 1980. —Vol.
28, no. 4. — P. 357–366.25. Huang, X. Spoken Language Processing: A guide to theory, algorithm, and systemdevelopment [Text] / X Huang, A. Acero, H.-W. Hon. — Upper Saddle River, NJ,USA : Prentice Hall, 2001.26. Hermansky, H. Perceptual linear predictive (PLP) analysis of speech [Text] /H. Hermansky // the Journal of the Acoustical Society of America. — 1990. —Vol. 87, no.
4. — P. 1738––1752.27. Haeb-Umbach, R. Linear discriminant analysis for improved large vocabularycontinuous speech recognition [Text] / R. Haeb-Umbach, H Ney // Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). —1992. — Vol. 1. — P. 13––16.28. Efficient Cepstral Normalization for Robust Speech Recognition [Text] / F. Liu,R.
Stern, X. Huang, A. Acero // Proc. ARPA Human Language Technology Workshop. — 1993. — P. 69–74.13629. Acero, A. Augmented Cepstral Normalization for Robust Speech Recognition[Text] / A. Acero, X. Huang // Proc. IEEE Workshop on Automatic Speech Recognition. — 1995. — P. 147–148.30. Eide, E. A parametric approach to vocal tract length normalization [Text] / E. Eide,H. Gish // Proc.
IEEE International Conference on Acoustics, Speech and SignalProcessing (ICASSP). — 1996. — Vol. 1. — P. 346––348.31. Rabiner, L. A tutorial on hidden Markov models and selected applications inspeech recognition [Text] / L. Rabiner // Proceedings of the IEEE. — 1989. —Vol. 77, no. 2.