语音识别概念<br><br>语音识别技术就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。这项技术可以提供比如自动客服、自动语音翻译、命令控制、语音验证码等多项应用。近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,开始从实验室走向市场,已逐渐走进我们的日常生活。现在语音识别己用于许多领域,主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台,智能客服等。<br><br>语音识别原理<br><br>语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。目前,模式匹配原理已经被应用于大多数语音识别系统中。如图1是基于模式匹配原理的语音识别系统框图。<br><br>一般的模式识别包括预处理,特征提取,模式匹配等基本模块。如图所示首先对输入语音进行预处理,其中预处理包括分帧,加窗,预加重等。其次是特征提取,因此选择合适的特征参数尤为重要。常用的特征参数包括:基音周期,共振峰,短时平均能量或幅度,线性预测系数(LPC),感知加权预测系数(PLP),短时平均过零率,线性预测倒谱系数(LPCC),自相关函数,梅尔倒谱系数(MFCC),小波变换系数,经验模态分解系数(EMD),伽马通滤波器系数(GFCC)等。在进行实际识别时,要对测试语音按训练过程产生模板,最后根据失真判决准则进行识别。常用的失真判决准则有欧式距离,协方差矩阵与贝叶斯距离等。<br><br><br>图1. 语音识别原理架图<br><br>语音识别技术简介<br>从语音识别算法的发展来看,语音识别技术主要分为三大类,第一类是模型匹配法,包括矢量量化(VQ) 、动态时间规整(DTW)等;第二类是概率统计方法,包括高斯混合模型(GMM) 、隐马尔科夫模型(HMM)等;第三类是辨别器分类方法,如支持向量机(SVM) 、人工神经网络(ANN)和深度神经网络(DNN)等以及多种组合方法。下面对主流的识别技术做简单介绍:<br><br>1.动态时间规整(DTW)<br><br>语音识别中,由于语音信号的随机性,即使同一个人发的同一个音,只要说话环境和情绪不同,时间长度也不尽相同,因此时间规整是必不可少的。DTW是一种将时间规整与距离测度有机结合的非线性规整技术,在语音识别时,需要把测试模板与参考模板进行实际比对和非线性伸缩,并依照某种距离测度选取距离最小的模板作为识别结果输出。动态时间规整技术的引入,将测试语音映射到标准语音时间轴上,使长短不等的两个信号最后通过时间轴弯折达到一样的时间长度,进而使得匹配差别最小,结合距离测度,得到测试语音与标准语音之间的距离。<br><br>2.支持向量机(SVM)<br><br>支持向量机是建立在VC维理论和结构风险最小理论基础上的分类方法,它是根据有限样本信息在模型复杂度与学习能力之间寻求最佳折中。从理论上说,SVM就是一个简单的寻优过程,它解决了神经网络算法中局部极值的问题,得到的是全局最优解。SVM已经成功地应用到语音识别中,并表现出良好的识别性能。<br><br>3.矢量量化(VQ)<br><br>矢量量化是一种广泛应用于语音和图像压缩编码等领域的重要信号压缩技术,思想来自香农的率-失真理论。其基本原理是把每帧特征矢量参数在多维空间中进行整体量化,在信息量损失较小的情况下对数据进行压缩。因此,它不仅可以减小数据存储,而且还能提高系统运行速度,保证语音编码质量和压缩效率,一般应用于小词汇量的孤立词语音识别系统。<br><br>4.隐马尔科夫模型(HMM)<br><br>隐马尔科夫模型是一种统计模型,目前多应用于语音信号处理领域。在该模型中,马尔科夫(Markov)链中的一个状态是否转移到另一个状态取决于状态转移概率,而某一状态产生的观察值取决于状态生成概率。在进行语音识别时,HMM首先为每个识别单元建立发声模型,通过长时间训练得到状态转移概率矩阵和输出概率矩阵,在识别时根据状态转移过程中的最大概率进行判决。<br><br>5.高斯混合模型(GMM)<br><br>高斯混合模型是单一高斯概率密度函数的延伸,GMM能够平滑地近似任意形状的密度分布。高斯混合模型种类有单高斯模型(Single Gaussian Model, SGM)和高斯混合模型(Gaussian Mixture Model, GMM)两类。类似于聚类,根据高斯概率密度函数(Probability Density Function, PDF)参数不同,每一个高斯模型可以看作一种类别,输入一个样本x,即可通过PDF计算其值,然后通过一个阈值来判断该样本是否属于高斯模型。很明显,SGM适合于仅有两类别问题的划分,而GMM由于具有多个模型,划分更为精细,适用于多类别的划分,可以应用于复杂对象建模。目前在语音识别领域,GMM需要和HMM一起构建完整的语音识别系统。<br><br>6.人工神经网络(ANN/BP)<br><br>Хиймэл мэдрэлийн сүлжээг 1980-аад оны сүүлчээр санал болгосон бөгөөд түүний мөн чанар нь биологийн мэдрэлийн системд суурилсан дасан зохицох шугаман бус динамик систем бөгөөд мэдрэлийн систем нь даалгаврыг хэрхэн гүйцэтгэж буйг бүрэн дуурайх зорилготой юм. Хүний тархины нэгэн адил мэдрэлийн сүлжээ нь бие биенийхээ зан төлөвт нөлөөлдөг харилцан уялдаатай мэдрэлийн эсүүдээс тогтдог бөгөөд эдгээр нейронуудыг зангилаа буюу боловсруулах нэгж гэж нэрлэдэг. Мэдрэлийн сүлжээ нь хүний мэдрэлийн үйл ажиллагааг олон тооны зангилаагаар дуурайж, хүний тархины үйл ажиллагааны үндсэн шинж чанарыг тусгахын тулд бүх зангилааг мэдээлэл боловсруулах системд холбодог. Хүний тархины ANN загварчлал, хийсвэр хийц нь маш нарийн боловч энэ нь хиймэл мэдрэлийн сүлжээ бөгөөд энэ нь зүгээр л тархсан параллель боловсруулах загвар бөгөөд биологийн мэдрэмжийн онцлог шинж чанарыг дуурайдаг. ANN-ийн өвөрмөц давуу талууд ба түүний ангиллын хүч чадал, оролт, гаралтын зураглалын чадвар нь түүний яриаг таних, дүрс боловсруулах, хурууны хээ таних, компьютерийн ухаалаг удирдлага, шинжээчийн систем зэрэг олон салбарт өргөн хүрээнд ашиглахад хүргэсэн. Гэсэн хэдий ч одоогийн яриаг таних системээс харахад ANN нь ярианы дохионы цаг хугацааны динамик шинж чанарыг тодорхойлоход хангалтгүй байдаг тул ихэнх нь уламжлалт таних алгоритмтай хослуулан ANN ашигладаг. <br><br>7. Гүн мэдрэлийн сүлжээ / гүн итгэлийн сүлжээ (Mark DNN / DBN-HMM)<br><br>Одоогийн байдлаар ANN, BP гэх мэт ангилах сургалтын ихэнх аргууд нь гүнзгий алгоритмтай харьцуулахад хязгаарлалттай, гүехэн бүтэцтэй алгоритмууд юм. Ялангуяа түүврийн өгөгдөл хязгаарлагдмал байх үед тэдгээрийн нарийн төвөгтэй функцийг тодорхойлох чадвар хангалтгүй байдаг. Гүн гүнзгий сургалт нь гүнзгий бус сүлжээний бүтцийг судалж, тархсан оролтын өгөгдлийг тодорхойлж, цөөн тооны дээжээс чухал шинж чанаруудыг олж авах чадварыг харуулах замаар нарийн төвөгтэй функцэд ойртох боломжтой. Гүн бүтцийн гүдгэр бус зорилгын өртгийн функцэд түгээмэл тохиолддог орон нутгийн хамгийн бага асуудал бол сургалтын хангалтгүй байдлын гол эх үүсвэр юм. Дээрх асуудлыг шийдвэрлэхийн тулд гүн мэдрэлийн сүлжээ (DNN) дээр суурилсан хяналтгүй шунахай давхаргын давхаргын сургалтын алгоритмыг санал болгож байгаа бөгөөд энэ нь мэдрэлийн сүлжээнүүдийн сургалтын гүйцэтгэлийг сайжруулах параметрүүдийн тоог бууруулахад орон зайн харьцангуй харилцааг ашигладаг. GMM-HMM дээр суурилсан уламжлалт яриа таних системтэй харьцуулахад хамгийн том өөрчлөлт бол ярианы ажиглалтын магадлалыг загварчлахын тулд GMM загварыг гүн мэдрэлийн сүлжээгээр солих явдал юм. Анхан шатны гүн гүнзгий мэдрэлийн сүлжээ нь хамгийн энгийн тэжээлийн гүн мэдрэлийн сүлжээ (FDNN) байв. GNM-ээс DNN-ийн давуу талууд нь: 1. DNN-ийг ашиглан HMM-ийн төлөв байдлын дараах үеийн тархалт нь ярианы өгөгдлийг тараах талаархи төсөөллийг шаарддаггүй; 2. DNN-ийн оролтын шинж чанарууд нь олон шинж чанар, тэр дундаа тасралтгүй эсвэл тасралтгүй нийлж болдог; 3. DNN нь зэргэлдээ ярианы хүрээний бүтцийн мэдээллийг ашиглаж болно. <br><br>Зураг 2 Гүн мэдрэлийн сүлжээнд суурилсан яриаг таних систем <br><br>8. Давтагдах мэдрэлийн сүлжээ (RNN) <br><br>яриаг таних систем нь долгионы хэлбэр дээр салхилах, хүрээ хийх, задлах зэрэг боловсруулалтыг шаарддаг. GMM-ийг сургахдаа оролтын онцлог нь ерөнхийдөө зөвхөн нэг хүрээ дохио байж болох бөгөөд DNN-ийн хувьд оёдоллосон хүрээ нь оролт болгон ашиглаж болох бөгөөд энэ нь GMM-тай харьцуулахад томоохон гүйцэтгэлийг олж авахад гол хүчин зүйл болдог. Гэсэн хэдий ч яриа бол хүрээ хоорондын уялдаа холбоог бий болгодог цаг хугацааны нарийн төвөгтэй дохио юм. Энэ хамаарал нь ярихдаа хамтын үг хэллэгээр илэрхийлэгддэг бөгөөд бидний хэлэх гэж байгаа үгсийн өмнө болон дараа нь хэд хэдэн үгтэй байдаг. Нөлөөлөл, өөрөөр хэлбэл ярианы хүрээ хоорондын урт хугацааны хамаарал байдаг. Зүсэх хүрээний аргыг ашиглан тодорхой хэмжээний контекст мэдээлэл олж авах боломжтой. Гэсэн хэдий ч DNN оролтын цонхны уртыг тогтоосон тул тогтмол оролт ба оролтын хоорондын зураглал хоорондын харилцаа холбоог олж мэдсэн нь цаг хугацааны цуврал мэдээллийн урт хугацааны хамаарлыг сул загварчлахад хүргэдэг. <br><br><br>Зураг 3 DNN ба RNN схем<br><br>考虑到语音信号的长时相关性,一个自然而然的想法是选用具有更强长时建模能力的神经网络模型。于是,循环神经网络(Recurrent Neural Network,RNN)近年来逐渐替代传统的DNN成为主流的语音识别建模方案。如图3,相比前馈型神经网络DNN,循环神经网络在隐层上增加了一个反馈连接,也就是说,RNN隐层当前时刻的输入有一部分是前一时刻的隐层输出,这使得RNN可以通过循环反馈连接看到前面所有时刻的信息,这赋予了RNN记忆功能。这些特点使得RNN非常适合用于对时序信号的建模。<br><br>9.长短时记忆模块(LSTM)<br><br>长短时记忆模块 (Long-Short Term Memory,LSTM) 的引入解决了传统简单RNN梯度消失等问题,使得RNN框架可以在语音识别领域实用化并获得了超越DNN的效果,目前已经使用在业界一些比较先进的语音系统中。除此之外,研究人员还在RNN的基础上做了进一步改进工作,如图4是当前语音识别中的主流RNN声学模型框架,主要包含两部分:深层双向RNN和序列短时分类(Connectionist Temporal Classification,CTC)输出层。其中双向RNN对当前语音帧进行判断时,不仅可以利用历史的语音信息,还可以利用未来的语音信息,从而进行更加准确的决策;CTC使得训练过程无需帧级别的标注,实现有效的“端对端”训练。<br><br><br>图4 基于RNN-CTC的主流语音识别系统框架<br><br>10.卷积神经网络(CNN)<br><br>CNN早在2012年就被用于语音识别系统,并且一直以来都有很多研究人员积极投身于基于CNN的语音识别系统的研究,但始终没有大的突破。最主要的原因是他们没有突破传统前馈神经网络采用固定长度的帧拼接作为输入的思维定式,从而无法看到足够长的语音上下文信息。另外一个缺陷是他们只是将CNN视作一种特征提取器,因此所用的卷积层数很少,一般只有一到二层,这样的卷积网络表达能力十分有限。针对这些问题,提出了一种名为深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)的语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好地表达了语音的长时相关性。<br><br>DFCNN的结构如图5所示,它直接将一句语音转化成一张图像作为输入,即先对每帧语音进行傅里叶变换,再将时间和频率作为图像的两个维度,然后通过非常多的卷积层和池化(pooling)层的组合,对整句语音进行建模,输出单元直接与最终的识别结果比如音节或者汉字相对应。<br><br><br>图5 DFCNN示意图<br><br>识别技术的发展方向<br><br>更有效的序列到序列直接转换的模型。序列到序列直接转换的模型目前来讲主要有两个方向,一是CTC模型;二是Attention 模型。<br>鸡尾酒会问题(远场识别)。这个问题在近场麦克风并不明显,这是因为人声的能量对比噪声非常大,而在远场识别系统上,信噪比下降得很厉害,所以这个问题就变得非常突出,成为了一个非常关键、比较难解决的问题。鸡尾酒会问题的主要困难在于标签置换(Label Permutation),目前较好的解决方案有二,一是深度聚类(Deep Clustering);二是置换不变训练(Permutation invariant Training)。<br>Тасралтгүй таамаглал, дасан зохицох загвар. Та тасралтгүй таамаглал, дасан зохицох системийг бий болгож чадах уу? Шаардлагатай шинж чанаруудын нэг бол маш хурдан дасан зохицох, хүлээгдэж буй хүлээн зөвшөөрөх түвшинг оновчтой болгох чадвар юм. Нөгөө хэсэг нь өндөр давтамжийн хуулиудыг олж, тэдгээрийг загваруудын үндсэн хэсэг болгон хувиргах чадвартай байх тул сургалт хийх шаардлагагүй юм. <br>Урд болон арын хэсгийг хамтарсан оновчтой болгох. Урд хэсэг нь аудио чанарыг сайжруулахад чиглэдэг бөгөөд арын хэсэг нь таних гүйцэтгэл, үр ашгийг дээшлүүлэхэд чиглэдэг.
正在翻译中..