时间:2022-11-25 09:32:25
导语:在语音识别系统的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
关键词:SAPI;C#;.NET;语音识别
1 引言
语音识别是信息处理领域的一个重要方向,语音识别通常又可以分为两种工作方式:一种是连续语音听写,这种方式需要语音识别引擎对语音听写过程中上下文以及相同相似发音的词语进行分析、做出判断,实现难度较大。另一种是命令与控制方式(command and control),在此种方式下,语音识别引擎可以通过对简短的命令语音进行识别,以便执行相应操作。
语音识别技术基础是非常复杂的。正是如此,它获得了世界上著名的公司与研究机构的青睐,语音识别技术正经历着日新月异的改变,其中一些产品已经取得较好的效果,用户可以在上述产品基础之上进行二次开发。
2开发图片语音识别系统的条件
语音识别技术的发展涉及人机交互,自然语言处理,人工智能。这使开发人员难以从底层进行应用开发,欣慰的是一些公司与研究机构已经推出他们的研究成果,并且提供了供开发人员使用的开发平台与接口。其中影响比较大的有微软的SAPI、剑桥大学的HTK,IBM的via voice开发平台。本文采用微软的Speech SDK5.1开发包,它不仅是一个免费的开发包,同时提供对中文的支持。
2.1微软SAPI简介
微软的 Speech SDK是基于 C O M 的视窗操作系统开发工具包。这个 SDK中含有语音应用程序接口( SAPI )、微软连续语音识别引擎(MCSR)以及串联语音合成(又称文本到语音)引擎(TTS)等等。SAPI 中还包括对于低层控制和高度适应性的直接语音管理、训练向导、事件、 语法、 编译、资源、语音识别管理以及文本到语音管理,其结构如图 l 所示。
图1 SAPI结构
SAPI API在应用程序和语音引擎之间提供一个高级别的接口。SAPI实现了所有必需的对各种语音引擎的实时的控制和管理等低级别的细节。
SAPI引擎的两个基本类型是文本语音转换系统(TTS)和语音识别系统。TTS系统使用合成语音合成文本字符串和文件到声音音频流。语音识别技术转换人类的声音语音流到可读的文本字符串或者文件。
2.2 在.net应用程序中使用SAPI的准备
安装SAPI 5.1语音开发包。
由于SAPI基于Windows平台,通过COM接口供.net平台调用,所以具体调用方法为:新建工程,在此工程的解决方案中单击右键,在添加/引用中选择 Microsoft Speech Object Library,并在程序中添加对SAPI命名空间的引用:using SpeechLib。
3 系统模型设计及实现
3.1 创立系统界面
图2 系统界面一览
3.2 使用SAPI语音识别核心类
ISpRecognizer类是支持语音识别的核心类,主要用于访问MCSR实现语音识别。在进行语音识别时,微软Speech SDK 5.1 支持两种模式的语音识别引擎:共享(Share)和独享(InProc)。在本系统中,我们使用共享型语音识别引擎,CLSID_SpSharedRecognizer。
SpSharedRecoContext类是语音识别上下文接口,它可以发送与接收消息通知,通过CreateGrammar方法创建语法规则。通过对它的两个事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重写,我们可以很轻松的得到当前语音识别结果。第一个事件对应的就是识别结果显示:1、第二个事件对应的就是识别结果显示;2、ISpeechRecoGrammar类是语法规则接口,定义语音识别引擎需要是别的语音类容。起语法规则可以分为听写型与命令控制型。听写型可以识别大词汇量语音,但是别效率与识别准确率较低。命令控制型有针对性的对特定语音进行识别,在效率与准确率上都非常高。
当然一个ISpRecognizer不管是共享还是独享,都可以有多个RecoContext与其关联,而一个RecoContext也可以与多个ISpeechReco Grammar关联,每个ISpeechRecoGramma r识别各自规定的内容。
图3 语音识别类对应关系
3.3 编写系统核心代码
通过读入外部Grammar配置语音识别引擎,外部Grammar文件以xml文件格式存储。具体形式如下:
ManegePic.xml
玫瑰
大象
狮子
老虎
仙人掌
珠穆朗玛峰
布达拉宫
貂蝉
十字军
世界杯
阿里巴巴
乒乓球
五星红旗
……
采用命令控制型Grammar是为了使语音识别结果准确有效,定义外部Grammar是为了保持以后系统的可扩展性。对于新输入的图片,只要将图片名字加入到 图片名字
中即可。
开始语音输入事件:
private void btnStart_Click(object sender, EventArgs e)
{
ssrc = new SpSharedRecoContext();
srg = ssrc.CreateGrammar(1);
srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);
//读入规则
ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);
//添加识别最终事件
ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);
//添加识别怀疑事件
srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);
//激活规则
}
其中识别最终事件是系统在完整处理输入音频之后得到的最后识别结果,怀疑事件则是因为系统在处理过程中的最相似识别结果。这两个事件在一些环境之下得到的识别结果不同。
识别怀疑事件:
private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)
{
textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);
}
将系统在处理过程中的最相似结果显示在textBox控件之中。
识别最终事件:
void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)
{
textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);
// 将系统最终结果显示在textBox控件之中。
try
{
Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;
//显示识别结果的图片
}
Catch (Exception e)
{}
}
由于篇幅有限,这里仅仅给出了构建语音识别引擎与图片显示部分的代码。完 整的系统可以在Windows XP + vs2008环境中调试通过,实现基于.net和SAPI的图片语音识别系统。
4 结语
通过制作图片语音识别系统,对利用SAPI进行语音识别有了初步的研究和实践,该系统具有一定的扩展性,也可以作为子系统嵌入到其他系统之中。该系统的功能可以扩展到语音控制文件操作,比如打开/关闭文件,添加文件,可以制作一个不需要键盘鼠标只利用语音就可进行操作的软件系统。
参考文献:
[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation
【关键词】 Mel倒谱 感知线性预测系数 MFCC PLP 语音识别 藏语
自动语音识别研究起始于上世纪50年代,80年代最大突破是隐马尔科夫模型(HMM)的应用,语音识别研究重点从特定人、小词表、孤立词语音识别向非特定人、大词表、连续语音识别转移;90年代以来,语音识别在模型细化、参数提取和优化、系统自适应方面取得重大突破.进入本世纪,著名的研究机构和公司,如剑桥大学、IBM、CMU大学、微软、贝尔实验室等机构的大词表连续语音识别系统对特定说话人的识别率达到95%左右.面对中国未来市场,国外IBM、APPLE、MOTOROLA等公司投入到汉语语音识别系统的开发.
我国语音识别研究虽然起步较晚,但发展发展迅速,中国科学院自动化研究所、声学研究所及清华大学、北京交通大学等机构都开展了语音识别的研究,总体上,汉语连续语音识别的研究与国外先进技术相差不大。
实际环境对语音识别的声学噪声鲁棒性要求越来越高,因此,提取具有鲁棒性和较强区分能力的特征向量对语音识别系统具有重要的意义.目前常用的声学特征参数有基于线性预测分析(LPC)的倒谱LPCC、基于Mel频率弯折的倒谱MFCC及基于听觉模型的感知线性预测(PLP)分析等.
由于考虑到人耳的听觉特性,Mel倒谱系数或感知线性预测系数已经成为目前主流的语音特征向量提取方法之一,加上它们的一阶、二阶差分以及对特征向量进行归一化处理以后,在大词汇量连续语音识别问题上取得不错的结果。为了使系统具有较好的鲁棒性,通常要对语音识别系统的前端进行预处理.
虽然语音信号是非平稳信号,但在一个小的时段内具有相对的稳定性,因此在对语音信号进行分析时,我们总是假定语音信号在一个时间帧(frame)内是平稳信号,这就是语音信号的短时分析假设。通常一帧大约为20ms左右。对一帧信号通过加Hamming 窗、Hanning 窗或矩形窗后再进行特征分析就可以得到相应的一组特征,然后通过把分析窗移动一个偏移(称为帧移,通常为一帧的1/2或1/3),然后进行下一帧的处理。
1.MFCC的计算
Mel频率倒谱参数(MFCC),着眼于人耳的听觉特性。人耳所听到的声音的高低与声音的频率并不成线性正比关系,从人类听觉系统的研究成果来看,人耳分辨声音频率的过程犹如一种取对数的功能,而Mel频率尺度则更符合人耳的听觉特性。
类似于临界频带的划分,可以将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组。Mel频率和频率的关系如下:
Mel(f)=2595lg(1+f/700)
Mel频率带宽随频率的增长而变化,在1000Hz以下,大致呈线性分布,带宽为100Hz左右,在1000Hz以上呈对数增长。将频谱通过24个三角滤波器,其中中心频率在1000Hz以上和以下的各12个。滤波器的中心频率间隔特点是在1000Hz以下为线性分布,1000Hz以上为等比数列分布。
图1 Mel三角滤波器
MFCC的具体计算过程如下:
1) 由原始信号计算其DFT,得到离散谱{S n n N} t ( ) = 1,2,..., ;
2) 三角滤波器的输出则为此频率带宽内所有信号幅度谱加权和。
l = 1,2,....,24
3) 对所有滤波器输出作对数运算
ln(y(l))l= 1,2,....,24
4) 作离散余弦变换(DCT)得到Mel频率倒谱参数(MFCC)。
i = 1,2,...,P,P为MFCC参数的阶数,取P=12.
2.PLP的计算
感知线性预测(PLP)技术涉及到听力、心理、物理学的三个概念:(1)临界波段频谱分辨率;(2)等响度曲线;(3)强度-响度功率定律。使用一个自回归全极点模型去逼近听觉频谱。5阶的全极点模型能有效地抑制听觉频谱中与话者有关的细节信息。与传统的线性预测(LP)分析相比,在强调听觉这方面,PLP分析更为合理。
PLP分析流程:
(1)使用FFT用对原始信号从时域变换到频域,得到功率谱 ;
(2)关键波段频谱分析(Critical-band spectral resolution):以不同于Mel频谱分析的新的临界波段曲线进行分段离散卷积,产生临界波段功率谱的样点.
(3)等响度预加重(Equal-loudness pre-emphasis):样值化的通过模拟的等响度曲线进行预加重
(4) 利用强度-响度幂律(Intensity-loudness power law)进行立方根幅度压缩
(5) 自回归建模(auto-regressive modeling):利用全极点频谱建模的自相关方法由全极点模型的频谱去逼近 。基本原理是:对Φ(Ω)进行逆DFT变换,产生自相关函数。前M+1个自相关值用于从Yule-Walker方程中解出M阶全极点模型的自回归系数。
3.实验结果
分别提取12维PLP和MFCC特征参数,1维归一化短时能量,并求其一阶差分及二阶差分,共39维MFCC和PLP特征参数.
以音素为声学建模单元,采用5状态的连续HMM模型(见图2),其中1、5状态只起连接作用,没有观测概率,第2、3、4状态有GMM概率分布,假设特征参数是相互独立的,所以规定协方差矩阵为对角阵。
图2 五状态HMM模型结构
声学模型的训练基于4007句朗读式的特定人男声语料,共2.84小时,结合藏语语言学和语音学的研究成果,对拉萨话中全部50个音素进行分类,共划分了38个音素类别集,对全部72个声韵母设计了72个类别集,根据其前后语境分别建立决策树问题集,生成决策树,生成三音子模型后逐步增加高斯混合度。
选择50句短句作为测试集,测试集与训练集为同一发音人,但发音文本完全独立,同时,测试集语料与语言模型的训练语料也完全独立,测试集共有885个单音节,其中界外词(OOV)25个,全部为紧缩音节。
当特征参数分别为PLP和MFCC时,实验结果如下(三音子triphone模型的状态数为584):
由藏语大词表连续语音识别的实验结果来看,PLP和MFCC的效果相差不大。
参考文献
[1] Lawrence Rabiner, Biing-Hwang Juang. Fundamentals of Speech Recognition[M].北京:清华大学出版社.1993
[2] 郑方,吴文虎,方棣棠. 连续无限制语音流中关键词识别的研究现状[C].第四届全国人机语音通讯学术会议,北京,1996
[3] 高升,徐波,黄泰翼.基于决策树的汉语三音子模型[J].声学学报,2000,11(2):271-276
[4] Julian James Odell. The Use of Context in Large Vocabulary Speech Recognition[D]. Cambridge: University of Cambridge,1995
关键词:FPGA;语音识别;MPCC;HMM
中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)10-2339-02
Design and Implementation of FPGA-based Voice Recognition Dialing System
WANG Hong, HAN Fei, WANG Jian, MA Yan-ping, ZHONG Hui, LI He
(School of Computer Science, South-Central University For Nationalities, Wuhan 430074, China)
Abstract: This paper elaborates a much more efficent and more identifiable process of speech dialing system and crucial technology which based on Altera Cyclone Ⅲ 3C16 and Quartus Ⅱ, NiosⅡ9. 0IDE using improved speech processing and speech recognition algorithm.
Key words: FPGA; speech recognition; MPCC; HMM
1 系统的总体设计
系统由语音采集模块、语音识别模块和拨号模块三部分组成。语音信号采集模块由麦克风和音频编解码芯片TLV320AIC23B组成,它主要的功能是对外部语音进行采集并数字化;语音识别模块由预处理、端点检测、特征提取、训练和模式匹配等算法模块组成;匹配成功后,由拨号模块找出对应的电话号码,经DTMF发生器输出到电话线路上,实现语音控制自动拨号功能。系统的算法流程如图1所示。
2 语音采集模块
系统采用音频编解码芯片TLV320AIC23B对语音信号进行采集,使用该芯片时只需配置相应端口,芯片自动将外界语音信号转变成数字信号输出。
3 语音识别模块
语音识别模块不仅要进行训练和模式匹配,还要对采集到的语音信号进行诸如加窗、预加重、除噪处理,最后提取特征参数供匹配识别操作。该模块(如图2所示)所采用的语音识别算法全部用HDL描述,采用FPGA实现。
3.1 预处理
预处理包括预加重、分帧和加窗,它们的目的是去除噪声,加强有用信息,对语音输入测量仪器或其他因素造成的退化现象进行复原。
3.1.1 预加重
预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。
3.1.2 分帧加窗算法
语音信号是一种典型的非平稳信号,特性随时间变化,但在很短的时间(大概15ms)内是平稳的,其特性保持不变,因此,可以采用分帧处理,用帧来描述语音信号的特征[1]。分帧算法用DSPBuilder描述,再转换成对应的HDL[2]。其DSP Builder的实现如图3所示。
加窗的目的是使主瓣更尖锐,旁瓣更低。本系统选用汉明窗,公式如(1):
(1)
3.2 端点检测
系统用HDL描述端点检测,并且采用基于能量状态变迁的端点检测方法,将整个端点检测过程分为6个状态,其状态变迁取决于转换条件。能量状态变迁图如图4所示。
3.3 特征提取
经过端点检测后的语音帧用MFCC进行特征提取,对于经过预加重和加窗处理的语音信号,可以直接从FFT开始计算。我们采用Alter公司提供的FFT IP核。一般框架如图5所示。
3.4 HMM训练与匹配
系统的HMM训练采用经典的Baum-Welch算法,识别采用viterbi算法[4]。系统对原始的viterbi算法进行了改进,改进后的算法如下:
1)初始化 δ[1][1]= ∏[j]+b[j][O(1)],1QjQ4
2)递归 δ[t][j]=min[δ[t-1][i]+a[i][j]]+b[O(t)],2QtQT 1QjQ4
φ[j]=argmin[δ[t-1][i]+a[i][j]]2QtQT 1Qi jQ4
3)终止 p=δ[T][4]q[t]=4
4)路径回溯q[t]= φ[t+1][q[t+1]],t=T-1,T-2,…,1
算法表明,下一状态只停留在当前状态转移到它概率最大的那个状态,直至最后一个状态S4,如图6。
4 拨号模块
模式匹配成功后,找出与模板对应的电话号码,经过DTMF发生器输出到电话线路上实现语音控制自动拨号的功能。在拨号状态下,语音识别模块通过信号线和控制线将DTMF信号发送到电话机线路上,电话机读取存放在相应位置的电话号码并发送出去。
5 结束语
本文讨论了基于FPGA的语音识别拨号系统的设计和实现,对非特定人、孤立词等进行识别。系统实现的语音识别准确率高、效率加强,可应用于任何可编程逻辑器件中,为手机、座机及其它诸多应用中的语音拨号功能的实现提供了参考设计方案。
参考文献:
[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93-97.
[2] 怀,徐佩霞.基于DSP的嵌入式语音识别系统的实现[J].计算机工程,2005(16).
关键字:普通话 语音识别 基本音素
一、普通话基本音素分析
1.音素的分类。普通话所有的发音,都可以将声母和韵母相拼,再加入声调而成。1958年批准的《汉语拼音方案》将汉语拼音分成21个声母与35个韵母,以及五种音调。但因56个声、韵母中,许多都是由基本音素所构成的复合音,计算机要识别单音特征就显得有一定的难度,为了降低复杂性,先要对普通话的基本音素进行分析和筛选,给从基于音素的语音识别做好铺垫。
2.音素分析。如果从发音特征来考察,普通话的音素包括元音和辅音两大类。元音在发音的过程当中起到主导作用,辅音则辅助发音,汉语拼音的56个声、韵母发音中,有10个汉语元音和22个汉语辅音。所以掌握好了这l0个汉语元音和22个辅音,就能将所有的汉语拼音的发音拼出。元音和辅音分别如下:
元音:a,o,e,i,u,n,仑,i(知),i(资), er;
辅音:b,P,m,f,d,t,n,l,g,k,h,j,q,x, zh,ch,sh,r,z,c,s,ng
需要说明一下的是:元音i(知)为zh、ch、sh发音的尾部部分;i(资)为z、c、s发音的尾部部分。在构成汉语拼音的时候,元音i(知)仅在zhi,chi,shi当中出现,它的作用只是为了延长原有发音的尾音。也就是说,i(知)的发音, zh,ch,sh的发音当中已经包含了。所以,在分析基本因素时,只需做好zh,ch,sh的发音,稍微将其尾部延长便可得到zhi,chi,shi的发音。同理,元音i(资)只使用在汉语拼音zi,ci,si中,而其也包含于辅音z ,s的发音中。另外,因为er的发音可由e和r的发音相拼而成,所以它可不作为一个独立音素。根据上述分析,汉语元音音素的数目可由10个减为7个。
二、元音音素的可变性分析
1.研究音素变化的重要性。音节是普通话语音体系当中最基本的结构单位,而音节又是由音素按照一定的方式组成的,所以普通话里面最小的语音结构单位就是音素。可以这样说,发音器官所产生的每次细微的变化,均可以发出不同的音素。因而,分析和探究这些音素在音节当中产生的相互间的变化和影响,对于准确把握普通话的音节或字音,起着非常重要的作用。
2.音素可变性分析。学习普通话时,准确地发出单元音韵母是学习的基础,但是,这种韵母的发音特点是口形始终保持不变,舌位也不移动,但单元音韵母(元音音素)的变化,就是它们一旦进入复韵母和鼻韵母,或是和声母拼合时,所产生的细微变化会被忽视。对于北方人而言,这种可变性在自然语言环境当中耳濡目染就能学会;但对南方人而言,这种变化是一大难点,所以,准确把握元音音素在音节中的可变性,对于语音识别非常重要。
3.以原音i为例的分析。元音i是一个前元音兼高元音,当i与e组合成ie音节时,i和e彼此影响的结果就是舌位会往两者之间的中部稍有移动,因而元音i的实际舌位就已从高降到了次高;而当i与a组成ia时,因a是一个央元音兼低元音,与i之间的差异较大,融合时的影响也就更大,导致i的舌位从高降到了半高;当i与ou组成iou音节时,因o、u均为后元音,且o为半高元音,故i与ou后,其舌位不仅由前往后稍移,并且从高变成了次高并呈半高的趋向,因为只有这样才能与半高元音o顺畅地进行衔接,于是iou音节既有由前往后的舌位趋向,又表现出高(i)――半高(o)――高(u)的发音曲线;当i与n结合成in时,因为舌尖中音n的舌位也靠前偏高,二者的发音趋向一致,此时只要i的舌尖再往前伸,抵住上齿龈,n的韵尾就形成了,因此鼻辅音n几乎不会影响到元音i;当i与ng组合时,因为鼻辅音ng的舌位靠后并偏低,会对i元音造成一定的影响,在发音时,i元音的舌位会形成由高往低、由前往后的趋向,因此前元音兼高元音i在发音之初就已变为次前元音兼次高元音了;i与ong的组合中, o和ng舌位都靠后,并且o是半高元音,ng舌位偏低,受两者的共同影响,i的舌位明显后缩,并且表现出由高往低的趋向,这使其变成了次前元音兼次高元音。
三、对y、w的音素性质分析
y、w是两个较为特殊的因素,兼具元音和辅音的一些特点,下面将它们单独提出来进行因素性质的分析。
1.从发音部位与方法上进行分析。从语音的发声部位和方法来看,发元音时,气流经声门带动声带的振动,通过咽喉、口腔、鼻腔时,没有阻碍;辅音发声时,呼出的气流定会在经过某个发声器官时受阻碍。发元音的时候,除了声带,其余发音器官均保持紧张,而发辅音时,只有形成阻碍的器官才紧张。例如:辅音[k]在发音时,舌根和软腭会紧张。并且,发元音时呼出的气流没有发辅音时急促。由此可见,y、w的发音既接近元音,但又具有辅音的发声特点。这里将y[j]、w[w]两个音素看做辅音,因为“发声时气流有阻碍”是辅音的重要特征,就算它们发音部位接近元音,但满足了这一条件,就该被看做是辅音。
2.从声带振动特点上进行分析。语音是由声带振动引起空气振动产生音波而形成的,可看做是一种物理现象,所以语音又有乐音和噪音之分。从y、w的发声来看,它们发音时只是引起声带稍微的振动,发出的声音不如元音清晰,从这个角度看,我们可以把它们看做是乐音性的噪音。但在元音的分类中,元音被看做是非常纯粹的乐音,所以,y、w也只能被看做辅音了。
3.从音节结构上进行分析。在原来的汉语拼音方案当中,[w]、[j]被认为是韵头,是[u]、[j]的改写,所以将其看做元音,但这样分类显然混淆了概念。因为从音节结构上来看,非常明显[wA]与[jA]是音节,而[uA]、[iA]是韵母,如果进行改换,是非常不合理的。再从音位的角度来看,[jA]当中的[j]和[iA]当中的[i],[wA]当中的[w]和[uA]当中的[u]是不同的音位,因为[j]和[A]、[w]和[A]可以组成以[j]、[w]做为声母的音节,它们与[i]与[a]、[u]与[a]组成的音节是不同的,只是作为音节的一个部分――韵母。这样来看, [j]、[w]被看做是具有区别意义功能的语音单位,即音位是合理的,此时,y、w就该被归到辅音当中去。
从以上情况的分析来看,y、w应该被看做是辅音而作为声母来使用。
四、结语
汉语普通话当中易混淆的音素很多,要想让语音识别更精准,就要对普通话的音素进行分析和研究,并充分了解音素的可变性,并进行正确的分类,只有在此基础之上,才能提出更先进的识别技术。语
参考文献
[1]王红雨,廖逢钗,卢昌荆等.一种基于语音识别的普通话语音失误判别方法[J].三明学院学报,2007(4):452-455.
[2]徐秉铮,邱伟.汉语普通话声母的分类与识别[C].第五届全国语音图象通讯信号处理学术会议论文集.
[3]黄中伟,杨磊,徐明等.普通话语音识别中的基本音素分析[J].深圳大学学报(理工版),2006(4):356-357.
关键词:语音识别; 音频数据;典型的语音识别系统; 特征参数
中图分类号:TP391.42文献标识码:A
文章编号:1004-373X(2010)08-0138-03
Research on Speech Recognition Technology
LI Hong-mei, WU Xiao-qin
(Hainan University, Haikou 570228, China)
Abstract:The speech recognition is a technology which transfers the audio datainto the text or other information form convenient to be disposed bycomputer.The history and situation of development of the speech recognition technology is introduced. The principle of a typical speech recognition system is elaborated.The difficulties existing during the development of the speech recognition technologyare discussed and the solutions are given. The method and process of the speech recognition are analysed.
Keywords:speech recognition; audio data; typical speech recognition system; characteristic parameter
0 引 言
语言是人类获取信息的主要来源之一,是人类与外界交流信息最方便、最有效、最自然的工具,随着计算机技术的快速发展,语音技术的研究也越来越受到重视。人类对语音的研究主要包括语音编码、语音合成、语音识别和说话人辨识等几个方面。
语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,设计到语言学、生理学、心理学、计算机科学以及信号处理等学科。语音识别的目的是为了使机器能够准确地听出人的语音及其内容,以便控制其他设备来满足人类的各种需要,它是发展人机有声通信和新一代智能计算机的重要组成部分。
1 概 述
语音识别[1-2]研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在20世纪60年代末70年代初。这是因为计算机的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语言信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效地解决了语言信号的特征和不等长匹配问题。
实验室语音识别研究的巨大突破产生于20世纪80代末。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特征都集成在一个系统中,比较典型的是卡耐基美隆大学的Sphinx系统。
20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。我国的语音识别研究的起步比先进国家晚一点,但是进步很快,成果突出。
2 语音识别系统原理
语音识别系统大体上可以划分为:孤立语音和连续语音识别系统、大词汇量和小词汇量语音识别系统、特定人和非特定人语音识别系统。
不同的语音识别系统,尽管设计和实现细节不同,但所采用的基本技术是相似的。一个典型的语音识别系统基本原理框图如图1所示。
图1 典型的语音识别系统基本原理框图
从图1可看出,语音识别系统包括预处理、特征提取、模型的训练和匹配、后处理等几个部分。下面分别介绍这几个部分。
2.1 预处理
预处理对输入的原始语音信号进行处理,滤除其中不必要的信息及噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束位置,并进行语音分帧和预加重处理等工作[3]。
2.2 特征参数提取技术
特征提取负责计算语音声学参数,提取出反映信号特征的关键特征参数。特征参数的提取是关系到语音识别系统性能好坏的一个关键技术,合理地选择特征参数不仅对系统的识别率有很大的提高,同时对系统的实时性能也至关重要[4]。
特征提取的目的是对原始语音信号进行处理,计算语音信号对应的特征参数,主要包括以下几个步骤:
(1) 采样与量化。
首先将模拟语音信号s(t)以采样周期T采样,将其离散化为S(n)。采样周期的选取应根据模拟语音信号的带宽(根据奈奎斯特采样定理确定),以避免信号的频域混叠失真。对离散后的语音信号进行量化处理过程中会带来一定的量化噪声和失真。
(2) 预加重处理。
对输入的原始语音信号进行预加重,其目的是为了对语音的高频部分进行加重,增加语音的高频分辨率。一般通过一个传递函数为H(z)=1-αz-1的滤波器对其加以滤波。其中:α为预加重系数且0.9
Иy(n)=x(n)-αx(n-1), 0.9
(3) 分帧与加窗。
语音具有短时平稳的特点,通过对语音进行分帧操作后,可以提取其短时特性,从而便于模型的建立。然后将每帧信号用某种窗相乘,以减少帧起始和结束处的信号不连续性。常用的加窗函数有汉明窗和汉宁窗。
(4) 特征参数计算。
实践证明有效的特征参数有线性预测编码(LPC)系数,线性预测编码倒谱(LPCC)系数和Mel频率倒谱系数(MFCC)。
关键词:语音识别 应用领域 热点 难点
中图分类号:TN912 文献标识码:A 文章编号:1007-3973 (2010) 03-062-02
1应用领域
如今,一些语音识别的应用已经应用到实际生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系统等。语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、、家庭服务、订票系统、声控智能玩具、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。预计在不远的将来,语音识别技术将在工业、家电、通信、、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
2发展历史
语音识别的研究工作开始于50年代,Bell实验室实现了第一个可识别十个英文数字的语音识别系统―Audry系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。60年代,提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,极大地促进了语音识别的发展。70年代,动态时间归正技术(DTW)解决了语音特征不等长匹配问题,对特定人孤立词语音识别十分有效,在语音识别领域取得了突破。在此期间还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
80年代语音识别研究进一步深入,HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。使得借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。
90年代,人们开始进一步研究语音识别与自然语言处理的结合,逐步发展到基于自然口语识别和理解的人机对话系统。人工神经元网络(ANN)也开始应用于语音识别,它和HMM模型建立的语音识别系统性能相当,在很多系统中还被结合在一起使用以提高识别率及系统的鲁棒性。小波分析也开始用于特征提取,但目前性能不理想,其研究还在进一步深入中。
现在语音识别系统已经开始从实验室走向实用,出现了比较成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资。
3研究的热点与难点
目前语音识别领域的研究热点包括:稳健语音识别(识别的鲁棒性)、语音输入设备研究 、声学HMM模型的细化、说话人自适应技术、大词汇量关键词识别、高效的识别(搜索)算法研究 、可信度评测算法研究、ANN的应用、语言模型及深层次的自然语言理解。
目前研究的难点主要表现在:(1)语音识别系统的适应性差。主要体现在对环境依赖性强。(2)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。(3)如何把语言学、生理学、心理学方面知识量化、建模并有效用于语音识别,目前也是一个难点。(4)由于我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚,这必将阻碍语音识别的进一步发展。
4语音识别系统
一个典型的语音识别系统如图所示:
输入的语言信号首先要进行反混叠滤波、采样、A/D转换等过程进行数字化,之后要进行预处理,包括预加重、加窗和分帧、端点检测等。我们称之为对语音信号进行预处理。
语音信号的特征参数主要有:短时能量En,反映语音振幅或能量随着时间缓慢变化的规律;短时平均过零率Zn,对于离散信号来讲,简单的说就是样本改变符号的次数,可以粗略分辨清音和浊音;短时自相关函数;经过FFT或LPC运算得到的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱参数;根据人耳听觉特性变换的美尔(MEL);线性预测系数等。通常识别参数可选择上面的某一种或几种的组合。
语音识别是语音识别系统最核心的部分。包括语音的声学模型(训练学习)与模式匹配(识别算法)以及相应的语言模型与语言处理2大部分。声学模型用于参数匹配,通常在模型训练阶段按照一定的准则,由用语音特征参数表征的大量已知模式中通过学习算法来获取代表该模式本质特征的模型参数而产生。在识别(模式匹配)时将输入的语音特征同声学模型(模式)根据一定准则进行匹配与比较,使未知模式与模型库中的某一个模型获得最佳匹配以得到最佳的识别结果。语言模型一般指在匹配搜索时用于字词和路径约束的语言规则,它包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理则可以进行语法、语义分析。
声学模型是语音识别系统中最关键的一部分。目前最常用也最有效的几种声学识别模型包括动态时间归整模型(DTW)、隐马尔可夫模型(HMM)和人工神经网络模型(ANN)等。
DTW是较早的一种模式匹配和模型训练技术,它把整个单词作为识别单元,在训练阶段将词汇表中每个词的特征矢量序列作为模板存入模板库,在识别阶段将待识别语音的特征矢量序列依次与库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。DTW应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在小词汇量、孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已逐渐被HMM和ANN模型替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。HMM很好的模拟了人得语言过程,目前应用十分广泛。HMM模型的模型参数包括HMM拓扑结构(状态数目N、状态之间的转移方向等)、每个状态可以观察到的符号数M(符号集合O)、状态转移概率A及描述观察符号统计特性的一组随机函数,包括观察符号的概率分布B和初始状态概率分布 ,因此一个HMM模型可以由{N,M,A,B, }来确定,对词汇表中的每一个词都要建立相应的HMM模型。
模型参数得到后可以用Viterbi算法来确定与观察序列对应的最佳的状态序列。建好模型后,在识别阶段就是要计算每个模型产生观察符号序列的输出概率,输出概率最大的模型所表示的词就是我们的识别结果。这个过程计算量很大,有人提出了前向-后向算法,大大减少了计算量,已经被广泛采用,关于它们的各种改进方法也被大量提出。
ANN在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,是由结点互连组成的计算网络,模拟了人类大脑神经元活动的基本原理,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。这些能力是HMM模型不具备的,可用于处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。目前大部分应用神经网络的语音识别系统都采用了BP网并取得了较好的识别效果。
将ANN与HMM结合分别利用各自优点进行识别将是今后的一条研究途径。二者结合的混合语音识别方法的研究开始于上世纪90年代,目前已有一些方法将ANN辅助HMM进行计算和学习概率参数。
语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram模型基于这样一种假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料库中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5总结
尽管语音识别技术已经取得了长足的进步,而语音识别系统也层出不穷,不断的改变人类现有的生活方式,但其比较成功的应用也只是在某些特定的领域,谈不上大规模广泛的应用。只有建立从声学、语音学到语言学的知识为基础、以信息论、模式识别数理统计和人工智能为主要实现手段的语音处理机制,把整个语音识别过程从系统工程的高度进行分析构建,才有可能获得能与人类相比的高性能的、完整的计算机语音识别系统。
参考文献:
[1]易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000.
[2]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.
[3]赵力.语音信号处理[M].机械工业出版社,2003.
关键词:语音识别;HMM;俄语声学模型;俄语语言模型
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)29-0155-04
Research Status and Development Trend of Russian Speech Recognition Technology
MA Yan-zhou
(PLA University of Foreign Languages, Luoyang 471003, China)
Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.
Key words: speech recognition; hmm;russian acoustic models; russian language models
俄语(Русскийязык)[1]是俄罗斯和联合国的官方语言,也是我国少数民族正式语言。在前苏联和俄罗斯使用,俄语在苏联时期具有很重要的地位,直到现在仍然有些独联体国家在广泛使用,虽然这些国家已经开始强调本地语言的重要性,但在这些国家之间依然使用俄语进行交流。全球有超过一亿四千万把俄语作为母语使用,有近四千五百万人以第二语言使用,使用俄语媒体的有3亿多人。我国俄罗斯族使用俄语进行交流,聚集地分布在新疆地区的阿勒泰、伊犁、塔城及内蒙古呼伦贝尔市的额尔古纳、满洲里等地,
语音识别(Speech Recognition)[2]是指在各种情况下,识别出语音的内容,让机器听懂人说的话,根据其信息而执行人的不同意图。它是一门交叉学科,涉及与计算机、语音语言学、通信、信号处理、数理统计、神经心理学人工智能、和神经生理学等学科。能够能满足不同需要的语音识别系统的实现已经成为可能,它的前提是模式识别、信号处理技术、计算机技术和声学技术等的发展。近年来,军事、交通等领域,尤其在计算机、人工智能等领域得到广泛应用。
俄语语音识别是一个有巨大潜力的研究方向,不仅能够为人们的生产生活、日常交往提供极大的便捷性和高效性,而且在政治、军事、经济等各个领域都有着重要的研究价值和应用前景。本文着重介绍语音识别发展历程、阐述俄语语音识别关键技术、分析俄语语音识别未来的发展趋势。
1 俄语语音识别的现状
俄语连续语音识别取得快速发展,利益于技术的进步。随着语音识别在技术层面的不断突破与创新,对英语的识别慢慢成熟,然后逐渐扩展到其他语种如汉语、俄语等。
1.1语音识别技术的发展
20世纪50年代,语音识别的研究开始借助机器来实现。1952年,一个特定人独立数字识别系统[3]由贝尔(Bell)实验室的Davis、Diddulph和Balashelk首次研制,该系统成功识别10个英语数字。1959年,英格兰的Fry和Denes利用谱分析技术和模板匹配技术,提高了音素的识别精度,建立了一个能够识别9个辅音和4个元音的识别系统。20世纪60年代,经过Faut和Stevens的努力,语音生成理论初步形成。动态规划方法[4]由苏联的Vintsyuk提出,并实现了对两段语音进行对齐。70年代取得一系列重大突破,基本实现孤立词识别。俄罗斯推进了模板匹配思想在语音识别中的应用;利用动态规划方法实现语音识别也由日本的科学家实验成功。20世纪80年代,语音识别研究的一个主要特点是由模板匹配方法向统计建模方法的转变,特别是隐马尔可夫模型[5-6]。尽管HMM众所周知,但是直到20世纪80年代中期HMM模型才广泛被世界各地的语音识别实验室熟悉和采纳。另一个新方向是利用神经网络解决语音识别问题,促进了该技术在语音识别领域的应用[7-9]。20世纪80年代后期,在DAPRA的支持下,对大词汇连续语音识别系统的研制也取得了显著的成果,研究机构主要有CMU、BBN、林肯实验室、MIT、AT&T贝尔实验室。
20世纪90年代以来,语音识别开始实用化研究,并取得了突破性的进展。其中算法的研究取得了非常明显的效果,并提升了系统的性能,如最大似然线性回归(Maximum Likelihood Linear Regression, MLLR),最大后验概率准则估计(MaximumA-Posteriori Estimation, MAP),以及用于模型参数绑定的决策树状态聚类等算法,这些算法的不断优化,也使得应用于实际的语音识别不断出现。最具有有代表性的系统有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform语音平台,IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美国国家标准和技术研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不断推动下,各个研究机构不断尝试语音识别任务,目的是不断提高识别的性能。进入21世纪,在向广度和深度两方面,自动语音识别得到了更为广泛的研究。鲁棒性语音识别,进行了了细致的调研,特别是在置信度和句子确认方面非常有效,尤其对处理病句。在21世纪的前10年,信息技术领域最重要的十大科技发展技术之一就有语音识别技术的一席之地,人机接口关键的语音识别技术,已经成为一个具有竞争性的新兴高技术产业,它的实用化研究将成为未来的方向。
1.2俄语语音识别技术的发展
语音技术的研究主要集中在几个主要的语言,如英语,法语,西班牙语,汉语和西班牙语,一些其他语言尤其是东欧语言很少受到注意。但是近几年在俄罗斯,捷克,波兰,塞尔维亚,克罗地亚等俄语区对俄语语音技术的研究活动正在稳步上升。
俄罗斯科学院紧跟世界语音识别技术的发展,结合俄语自身的独有发音特点进行了卓有成效的研究并取得了一系列的成果。在开发声学,词汇和语言模型时采取特别重视俄语的细节,对于声学模型,采用知识和基于统计的方法来创建几个不同的音素集10。对于语言模型(LM),从不同网站自动收集新闻文本语料,用统计分析的方法将训练文本数据和语法相结合,计算不同情况下n-gram中单词的频率,优化n-gram模型,以建立更好的n-gram模型[11]。在基本语音识别单元的问题上采用距离最小信息不匹配的原则,建立语素级单元,显著减少误差概率[12]。
语料库是语音识别最基本的支撑,文本语料和口语语料都是一个语料库不可或缺的组成部分,任缺其一则语料库就不能反映该语言的完整信息,也没有办法在此基础上进行大词汇、非特定人连续俄语语音识别的研究[13]。俄罗斯对语料库的研究起步比较晚,在20世纪一直落后于世界语料库的发展,缺乏系统的理论研究和先进的实践成果。但近十年来,随着俄罗斯国家语料库建立和不断完善,俄语语音技术的研究正在慢慢兴起并取得了一些瞩目的成就。
国内对俄语语音的研究主要集中在教学方面。使用统计的方法,基于HMM对俄语语音进行建模和识别研究,目前还没有发现相关的文献记录。
2 语音识别技术
语音识别系统根据角度、范围、性能等差别,有以下的分类。
根据词汇量的大小分可为小词汇量(10至100)、中词汇量(100至500)和大词汇量(大于500)。根据发音方式可分为孤立词(isolated word)识别、连接词(connected word)识别、连续语音(continuous word)识别等。根据说话人特征可分为特定(speaker-dependent)说话人和非特定(speaker-independent)说话人。根据语音识别的方法不同进行了模板匹配、随机模型和概率语法分析等分类方法。
2.1 语音识别基本原理
通过计算机的辅助功能把输入的语音信号变换为对应的文本和命令,并且能够接受人类的语音、理解人类的意图,是语音识别技术研究的根本目的。语音识别系统核心是一套语音取样、识别、匹配的模式匹配系统[2],基本原理如图1所示。
语音识别系统由三个基本单元组成,它包含特征提取、模式匹配和参考模式库,虽然它是模式识别系统,但它的结构要比普通的模式识别系统要复杂,因为语音所包含的信息是复杂多样的语言信息,结构也是多变的。首先对输入的语音信号进行预处理,预处理包括适当放大信号功率并对增益进行有效控制,之后进行反混叠滤波以消除信号的干扰;然后将模拟信号转化为数字信号即数字化处理,便于存储和处理;然后进行特征提取,并使用一些参数来表示的语音信号的特性;最后对其进行识别。语音识别又分为两阶段:训练和识别。在训练阶段,利用特征参数表示语音信号的相应特征,得到标准数据即模板,将模板构建成一个数据库即模板库;在识别阶段,将语音特征与模板库中的每一个模板进行比较,找到了最相似的参考模板,这就是识别的结果。
2.2 HMM模型技术
语音识别早期采用的有矢量量化(Vector quantization, VQ)技术、动态时间规整(dynamic time warping, DTW)技术等,从处理难度上看,最简单的是小词汇量、特定人、孤立词的语音识别,最难解决的是大词汇量、非特定人、连续语音识别。当今语音识别系统采用的主流算法是HMM模型技术。
HMM模型的状态不能被直接观察到,但可以通过观测向量序列来观察到,这些向量都是通过某些特定的概率密度分布来表现为各种状态的,每个观测向量都是由一个状态序列产生的,这些状态序列具有相应的概率密度分布。HMM是一个双重随机过程:具有一定状态数量的隐马尔可夫链和显示随机函数集。HMM的基本问题及解决算法6-9
1)评估问题(前向算法)。
现有观测序列O=O1O2O3…Ot以及模型参数λ=(π,A,B),如何计算观测序列的概率,进一步可对该HMM做出相关评估。利用forward算法分别以每个HMM产生给定观测序列O的概率进行计算,然后从其中选出最优秀的HMM模型。
经典应用例子就是语音识别。在HMM的语音识别描述中,每个单词对应一个HMM,每个观测序列全部由一个单词的语音来构成,单词的识别可以通过评估而选出最可能的HMM,此HMM由产生观测序列所代表的读音实现。
2)解码问题(Viterbi算法)
现有观测序列O=O1O2O3…Ot以及模型参数λ=(π,A,B),如何寻找最优的隐含状态序列。此类问题比较关注马尔科夫模型中的隐含状态,在这些状态中虽然不能直接观测,但价值更大,可以利用Viterbi算法来解决。
实际例子是进行分词,分词问题可以用HMM来解决。这句话的分割方法可以看做是一个隐式的状态,而这句话可以被视为一个给定的条件,从而找出基于HMM的可能正确的分割方法。
3)训练问题(Baum-Welch算法即前向后向算法)
此时HMM的模型参数λ=(π,A,B)未知,对这些参数进行调整,使得观测序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解决。
2.3 大词汇量连续语言识别
在语音识别研究中难度和挑战性最大为课题应该是基于大词汇量的、非特定人的连续语音识别[13]。在词汇量大于1000词的时候,比较容易混淆的词数量增加,误识率约为基于小词汇量的、特定人的孤立词识别系统的50倍左右。而且还带来两个重要的、不易解决的问题:语流的切分和连续语音的发音变化。此时采用统一框架可以有效解决这个问题。大词汇量连续语音识别总体框架[14]如图2所示。
俄语语音信号分析后,形成特征向量,并通过字典识别模型,然后,根据语言模型的语法,将输入的语音与模板匹配,在句子层面进行组合。从俄语声学模型、俄语语言模型叙述大词汇量连续语音识别的过程。
2.3.1声学模型
设计俄语语音识别系统底层相应的HMM子词单元模型,需要充分考虑俄语声学和语音学的特征。俄语基本声学单元的选择是声学建模过程中一个基本而重要的问题。在俄语连续语音识别中,可供选择的基本单元包括词、音节、元辅音等。识别基本单元的选择一般基于语音学知识。
俄语字母是语音的书面形式,每个俄语字母都有自己的字母名称。元音字母的名称和读音相同,辅音字母的名称是在该辅音后加一个元音[15-16]。如字母с的名称为эс,字母б的名称为бэ等。字母名称通常用于读某些缩写词。俄语字母共有33个字母如表1所示。
根据俄语词的发音特征、音节的发音特征和字母的发音特征,选择音素作为子词单元,然后就可以进行HMM训练,首先用一种很粗糙的方法进行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自动收敛到一个最佳的模型,并实现了一个合理的子词分割。这样就可以初步完成俄语的声学建模,建设一个俄语语音参考模式库。
2.3.2 统计语言模型
自然语言处理问题必然要乃至统计语言模型[17],如语音识别、机器翻译、分词、词性标注等等。统计语言模型是计算概率的模型,即。使用语言模型,可以确定一个单词序列的概率,或给定一个单词的数目,它可以预测下一个最有可能的单词。
那么如何计算一个句子的概率呢?给定句子(词语序列),它的概率可以表示为:
由于上式中的参数过多,因此需要近似的计算方法。下面介绍适用于俄语的n-gram统计语言模型。
n-gram模型即n-1阶马尔科夫模型,首先假设:当前词的出现概率仅仅与前面n-1个词相关。因此(1)式可以近似为:
当n值为1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率。N取值越大,模型越准确但计算越复杂计算量越大。在俄语语言模型的建立过程中,采用最多是二元模型和三元模型。
2.3.3 连续语音识别系统的性能评测
评定连续语音识别系统的优劣,观测系统的性能,一般都是针对不同的识别任务,不同的任务单词库和任务语句库,需要不同的评价标准。如果要想粗略地评估某个系统,可以从两个方面去考虑,一是系统识别任务的难易程度即复杂性;另一个是采用该系统的识别系统的识别方法对该难度的识别任务的识别效果即识别率。在连续语音识别系统中,通过对音素、音节或词的识别率进行识别性能评价,常用的系统参数是正确率(正确率),错误率和识别准确率。
其中的正确数、转换数、插入数和脱落数,采用主观的方法来目测,马可以通过统计的方法来得到。
2.4 HTK工具
语音识别过程涉及的算法复杂,其中最为著名的HTK由剑桥大学研发,主要用来建立基于HMM的大规模连续语音识别系统。该软件集为开放源代码,可以在UNIX/Linux和Windows环境下运行。HTK提供了一系列命令函数用于语音识别,包括一系列的运行库和工具,使用基于ASNIC模块化设计,可以实现语音录制、分析、标示、HMM的训练、测试和结果分析。整个HTK的工作过程包括数据准备、模型训练和识别过程。
3 语音识别的应用
随着计算机技术的进步、算法的不断优化、信息处理技术的智能化,俄语语音识别技术的发展会越来越光明。应用的范围也会越来越广,可能会出现一些新的应用。
1)俄语语音信息检索
网络技术和多媒体技术的迅速发展,数据量急剧增多,如何在海量数据中挑选出有用的信息,并进行相应的分类和检索,对合理地利用信息资源具有重要的意义。多媒体检索技术应运而生。
2)俄语发音自学技术
非母语语言学习成为目前教育领域的一个热点,而自学是语言学习的一个有效途径,它具有不受时间和空间限制、灵活方便的特点,一种称为计算机辅助语言学习的技术诞生了。有几个普通问题和关键技术是必须要考虑和解决的:标准发音语料库和非标准发音语料库、学习者发音的分级标准、语音对齐、衡量发音质量的评判标准和发音矫正。
3)基于俄语语音情感处理
人与人的交流,除了语言信息外,非语言信息也起着非常重要的作用,包含在语音信号中的情感因素[18],也反映了信息的一个方面。情感的分析和识别也是一个非常困难的研究方向。
4)嵌入式俄语语音识别技术
后PC时代智能终端的飞速发展,为人机之间的自然、快捷交互提供了可能。当前嵌入式语音识别的应用领域还比较有限,未来应用可能会更加广泛。
4 总结
语音识别技术的实用研究是一项极具挑战性的工作,虽然经历了近半个世纪的发展,取得了一些突破性的进展。语音识别技术在俄语方面的应用更是如此,不仅要解决语音识别技术本身的问题,还要解决高质量的俄语语音语料库和文本语料库的问题,同时还要解决各种算法与俄语适应和匹配等其他问题,如俄语自然语言的识别与理解、俄语语音信息的变化范围与幅度、俄语语音的清晰度、俄语语音发音与环境噪声及上下文的影响等等。虽然面临诸多困难,但是随着人类文明的不断发展与科技的不断进步,相信这些问题会在不久的将来逐一得到解决,展现在人们面前的是更加流畅、更加智能的人机交互界面。
参考文献
[1] 赵力.语音信号处理 [M].北京:机械工业出版社,2011:191-215.
[2] 韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2013:241-255.
[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.
[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.
[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.
[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.
[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.
[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.
[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.
[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.
[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.
[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.
[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.
[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.
[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.
[16] ДН Бабин,ИЛ Мазуренко,АБ Холоденко.О перспектив ах создания системы автоматического распознавания сли тной устной русской речи[J].Интеллектуальные системы,2004,8(1):45-70.
关键词:语音识别;神经网络;遗传算法;遗传神经网络
中图分类号:TP183文献标识码:A文章编号:1009-3044(2008)22-774-03
Research of Speech Recognition Based on Genetic Neural Network
ZHAO Feng
(Computer School of Wuhan University,Wuhan 430081,China)
Abstract:This Paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low. a new recognizing algorithm based on BP algorithm by combining with the good effect method in ANN which named genetic algorithm(GA) was proposed and used to improve the BP neural network . Experiment results show that the training speed can be accelerated by the method and the recognition performance is also promoted.
Key words: speech recognition; neural network; genetic algorithm; genetic neural network
1 引言
语音识别SR(Speech Recognition)是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图[1]。现代语音识别技术以神经网络为主要发展趋势,进入20世纪90年代以来,神经网络已经成为语音识别的一条重要途径。由于神经网络反映了人脑功能的基本特征,故具有自组织性、自适应性和连续学习能力等特点,特别适合于解决像语音识别这类模拟人的认知过程和智能处理能力,难以用算法来描述而又有大量样本可供学习的问题[2]。
人工神经网络(ANN)是采用大量的简单处理单元广泛连接起来构成的一种复杂信息处理网络。网络的训练学习是应用一系列输入矢量,通过已确定的算法逐步调整网络的权值,最终达到期望的目标。BP神经网络是神经网络中前向神经网络的核心部分,BP算法的学习过程由信号的正向传播和误差的反向传播组成。随着误差逆传播修正的不断进行,网络对输入模式响应的正确率不断上升。然而BP算法是一种梯度下降算法,梯度下降存在多极值问题,且BP网络学习训练速度慢,容易陷入局部最小或振荡。因此,参数的选择非常重要。为克服标准BP算法存在的各种缺点,本文研究用BP算法结合人工智能领域较为有效的方法――遗传(GA)算法来训练网络进行语音识别,仿真实验表明,GABP算法使BP网络在收敛速度上有了很大提高,尤其是克服了容易陷入局部最小值的缺点,基于GABP的语音识别系统的最高识别率和平均识别率都有了很大的提高。
2 语音识别的基本原理
大部分基于神经网络的语音识别系统实现识别功能都要经过从特征参数提取到应用识别算法进行识别的过程,该过程如下图1所示:
■
图1 语音识别系统原理框图
该文主要面向孤立数字识别系统作一些改进研究,其基本识别过程也符合上图1描述:输入的语音信号首先进行预处理,包括抗混叠滤波、声音的预加重、加窗分症处理与端点检测等。预加重的目的是在于滤出低频干扰,尤其是50Hz或60Hz的工频干扰,将对于语音识别更为有用的高频部分的频谱进行提升,以便于语音参数分析。
预加重滤波器传递函数为: H(Z)=1-0.9375Z-1(1)
若S(n)为预加重前语音信号,则经过预加重滤波器后得到的信号■(n)为:
■(n)= S(n)-0.9375 S(n-1)(2)
该文主要完成孤立数字识别,所要求识别的字数不多,对环境的噪声的适应能力的要求也并不高,因此采用了目前比较流行的双门限端点检测算法,借助于语音信号短时平均能量和短时过零率来判定语音有效范围的开始和结束。
语音信号经过预处理后,接下来很重要的一环就是进行特征提取,常用的特征包括短时平均能量和幅度、短时平均过零率、线性预测系数(LPC)、短时傅里叶变换和Mel频率倒谱系数(MFCC)。语音特征参数的时间序列构成了语音的模式,将其与通过应用一系列已知信号训练提取的参考模式逐一进行比较,获得最佳匹配的参考模式便是识别结果。本文中对于预处理的每个有效语音信号段,都要提取其12个一阶MFCC系数,提取过程为:用汉明窗将语音切割成长短一致的语音帧,对每帧语音进行正反傅里叶变换,经对数和离散余弦变换后取前12个数作为MFCC系数来描述每一个帧。最后将每个语音信号对应的MFCC系数序列用K-means聚类算法进行聚类,分为4个聚类,使得每个语音信号都得到相应的12个4维一阶MFCC系数,即可作为语音的特征参数成为神经网络的输入信号。
3 语音识别中的BP网络构造
语音识别中的BP网络构造主要包括输入层、隐层、输出层、初始权值、学习速率与期望误差的选取几个方面的问题。
1) 网络层数:理论上,在不限制隐层节点数的情况下,两层(只有一个隐层)的BP网络可以实现任意非线性映射。当模式样本很多时,减小网络规模,增加一个隐层是必要的,但BP网络隐层数一般不超过两层。本文所要求识别的模式样本不多,因此一个隐层已经足够。
2) 输入层节点数:在BP网络语音识别系统中,输入层节点数与选取的语音信号特征参数的维度和阶数有关。本文中每个语音信号都得到相应的12个4维一阶MFCC系数,故输入层的节点数为12×4=48。
3) 输出层节点数:输出层的节点数取决于输出数据的类型和表示该类型所需的数据大小。当BP网络用于语音识别时,以二进制形式来表示不同的识别结果,则输出层的节点数可根据训练模板的语音数来确定。本文设定输出节点数为10,分别对应于0~9这10个数字。
4) 隐层节点数:通过采用一个隐层,增加其神经元数的方法来达到网络训练精度的提高,这在结构上,要比增加更多的隐层简单的多。但究竟选取多少个隐层节点才合适?在理论上并没有个明确的规定。在具体设计时,比较实际的做法是通过对不同神经元数进行训练对比,然后适当的加上一点余量[4]。一般可利用下面式子决定:
n1=■+a(3)
其中n1为隐层节数;m为输入节点数;n为输出节点数;a为取1~10的常数。本实验中输入节点数为48,输出节点数为10,a选取为常数4,因此隐层节点数n1=12。
5) 初始权值:由于系统是非线性的,初始值对于学习是否达到局部最小、是否能收敛以及训练时间的长短关系很大。一般总是希望经过初始加权后的每个神经元的输出值都接近于零。所以,一般取初始值在(-1,1)之间的随机数。
6) 学习速率与期望误差的选取:学习速率决定每一次循环训练中所产生的权值变化量。小的学习速率虽然会导致收敛速度慢,不过能保证网络的误差值不跳出误差表面的低谷而最终趋于最小值。所以,一般情况下,学习速率的选取范围在0.01~0.8之间。期望误差0.000001。
解决了上述几个方面的问题后,本文采用三层结构神经网络,如图2所示:输入层各节点将输入信号经权重藕合到隐层的每个节点,隐层各节点对来自前一层的信号加权,经激发函数转换后再藕合到输出层。
4 基于遗传神经网络的语音识别
本文研究引用遗传算法对网络的初始连接权值进行优化处理,用BP算法完成给定精度的学习。
4.1 个体编码方案
编码对于网络进化过程的性能和效率影响很大,因此,编码技术是连接权值进化过程中学解决的首要问题和关键步骤。本文中考虑到BP网络的节点数和结构已经固定,可以采用实数编码方案,将网络的权值和各节点的阀值依此排列得到一个向量。
假设一个具有m个节点的n层BP网络,如果第i个节点对应的权值分别为vi(vi[-1,+1]),则一个个体用实数向量表示为X=(v1,v2,…vm)。
4.2 适应度函数的选择
一个网络连接权值优劣的标准,是根据网络对一组输入得到的实际输出与期望输出之间的误差大小来制定的。BP网络中误差平分和小,则表示该网络性能比较好。本文中适应度函数为:
f(x)=■(4)
其中,E为神经网络的输出误差,即:
■(5)
其中n为学习样本总数,yk,■k为第k个个体的期望输出和实际输出向量。
4.3 进化参数
连接权的进化过程中所涉及到的主要进化参数有:种群规模、交叉率、变异率和进化代数等等。交叉是最主要的进化操作,交叉率是指各代中交叉产生的后代数与种群规模之比。常用的交叉率取值范围为0.6~1.0。变异率是指种群中变异的基因数占总基因数的比例,其值控制了新基因引入的比例。常用变异率的数量级范围为0.1~0.001。 种群规模是连接权进化过程首先需要确定的参数,是算法会否陷入局部解的主要影响因素。综合考虑BP网络的初始连接权值和交叉率、变异率的选择,这里选择种群规模为50。
5 仿真实验结果
仿真实验为针对非特定人的孤立数字词语音识别。语音数据由二男二女(0到9共10个数字的普通话发音)通过PC话筒输入,每个音每人发20遍,共计1000次发音,其中以每人每个音的前10次作训练样本,后10次作测试样本,录音环境为安静实验室,采样频率为11.025kHz。
经过反复实验,不断改善实验环境,基于演化神经网络的识别得到了相对较高的识别率。对实验结果分析可知,结合了GA算法的BP网络通过GA全局搜索得到一个权值最优解,只迭代了151次便使得误差值为0.000001 ,而普通BP算法要迭代517才能勉强达到期望误差,由此可知,结合了GA算法的BP网络避免了局部极小,减低了学习速率,提高了收敛速度。
表1 基于遗传神经网络与普通BP网络语音识别系统对比表
■
通过表1对比可知,基于演化神经网络识别算法的语音识别系统无论是在训练时的收敛速度还是在最后的识别率上,都要优于普通的BP网络语音识别系统。
6 结论
语音信号处理和神经网络均是目前研究的热点,文章主要针对语音识别的特点,结合人工智能领域两种比较有效的方法――BP网络和GA算法,构建了一种基于遗传神经网络的语音识别算法。仿真实验结果表明,该算法避免了传统BP算法容易陷入局部极小的缺点,减低了训练时间,有效的提高了系统识别率。
参考文献:
[1] 赵力.语音信号处理[M].北京:机械工业出版社,2003.
[2] 蔡莲红,黄德智,蔡锐.现代语音技术基础于应用[M].北京:清华大学出版社,2003.
[3] 易克初.语音信号处理[M].北京:国防工业出版社,2000.
[4] 孙宁,孙劲光,孙宇.基于神经网络的语音识别技术研究[J].计算机与数字工程,2005,34(3):58-61.
[5] 何英.Matlab扩展编程[M].北京:清华大学出版社,2002.
摘要:介绍了一种基于HTK的语音拨号系统设计方案。方案中以HMM实验工具包HTK3.3为工具,通过对拨号语音提取39维MFCC特征参数,采用基于模板匹配的训练方法,完成了拨号语音识别系统的构建,并对该系统进行了性能分析。
关键词:语音拨号;模式识别;隐马尔科夫模型;隐马尔科夫工具箱;Mel频率倒谱系数
中图分类号:TP311文献标识码:A文章编号:1009-3044(2009)28-7932-02
Design and Analysis of A Voice Dialing System Based on HTK
CHEN Xin-rui1, JIANG Zheng-feng2, LU Shi-peng1
(1.Electronic Engineering Institute of Guangxi Normal University, Guilin 541004, China; puter Science and Information Engineering Institute of Guangxi Normal University, Guilin 541004, China)
Abstract: Introduced a HTK-based voice dialing system design.Used HTK3.3 as a tool and used training method based on template matching,by extracted 39-dimensional MFCC feature parameters of the dial-up voice, has completed the digit dialing speech recognition system's construction, and has carried on the performance analysis to this system.
Key words: voice dialing; pattern recognition; HMM; HTK; MFCC
信息科技的快速发展,使得数字语音拨号系统的推广应用日益广泛。语音拨号的实用化会在众多场合给人们带来便捷,如司机开车、黑夜或盲人拨打电话时,用手指拨电话号码是很不方便或不安全的,而最自然的方式就是采用语音拨号,因此具有语音识别能力,能够进行声音拨号的系统,有着较好的市场前景,对于高性能低成本的数字语音识别系统的研究具有很强的应用价值。HTK(HMM tools kit)是剑桥大学开发的一个专门用于建立和处理HMM的实验工具包,主要应用于语音识别领域,也可以应用于语音合成、字符识别和DNA排序等领域,它有着源代码开放以及基于ANSI C的模块化设计等特点,可以方便地嵌入到用户系统中。
1 基于HTK的语音拨号系统的构建
隐马尔可夫模型(Hidden Markov Model)即HMM是现今语音识别的主流技术,目前大多数的语音识别系统都是基于它的。要把HMM应用于实际,必须解决的三个基本关键问题是[1]:1)输出概率的计算问题:给定观察序列O=O1,O2,…,OT和HMM模型λ=(π,A,B),如何计算观察序列对HMM模型的输出概率P(O|λ)。2)状态序列解码问题:给定观察序列O=O1,O2,…,OT和HMM模型λ=(π,A,B),如何确定一个最优的状态转移序列q=(q1,q2,…,qT)。3)模型参数的估计问题:如何调整λ=(π,A,B)的参数,使P(O|λ)最大。针对上述问题,前人分别提出了三种解决方法即前向-后向算法、Viterbi算法、Baum-Welch算法。本文在把HMM应用于语音识别时采用连续混合密度HMM模型,以摒弃离散HMM模型因矢量量化而造成的语音信号丢失的不足,并选择了从左到右、有跳变的HMM结构。连续HMM语音识别具体实施方案:1)端点检测;2)提取MFCC参数和一阶差分MFCC参数;3)对数形式Viterbi算法;4)将训练所得的HMM模型用于对训练集和测试集的识别,得到识别结果并保存。其征参数的选择与提取是语音识别的关键任务。Mel频率倒谱系数(MFCC) 将人耳的听觉感知特性和语音的产生机制相结合, 是将频谱转换为基于Mel频标的非线性频谱,然后转换到倒谱域上,因而被目前大多数语音识别系统所采用。Mel频率倒谱系数(MFCC)的提取过程如图1所示。图中s(n)为原始语音信号,x(n)为分帧后的时域信号,预加重是将语音信号 s(n) 通过一个高通滤波器H(z)=1-a*z-1,文中取预加重系数a=0.9375,加汉明窗,用工具Hsigp可完成预加重和分帧。分帧时帧长和帧移的大小由信号的采样频率决定。X(k)为线性频谱,s(m)为Mel能量谱取对数,c(n)为Mel频率倒谱系数,c^(n)为所求的MFCC特征参数。
HTK工具箱中比较重要的两个文件夹是HTKLib和HTKTools。HTKLib里面包含了语音信号处理所用到的资源文件,如内存分配(HMem)、信号处理(HSigP)、参数产生(HParm)、数学计算((HMath)等,这些模块构成了HTK的主体结构;HTKTools作为入口程序,利用上述文件夹里面的库文件,通过对源文件进行调用,链接生成一些可以执行的程序。根据HTK语音识别原理,搭建一个语音识别系统一般分为四步: 数据准备,模型训练,模式识别和模型分析。其语音识别系统框图如图2所示。也可理解为包括语音信号预处理、特征提取、特征建模(建立参考模板库)及模式匹配等几个功能模块,即训练和识别两个阶段。
汉语普通话是以字为单元的,从声学角度看,汉语中一个字就对应一个音节。音节结构的显著特点是声、韵母结构,一般每一个音节都有韵母,因而音节划分成声韵母音素作为识别单元符合汉语特点,也将推动汉语语音识别向大词汇量连续语音识别的方向不断发展。在本系统中分别采用了不同的识别单元,并建立了不同字典。对于语音拨号电话类的系统,它要求能够识别用户的语音输入,主要是人名和电话号码的语音识别。
系统所用语音数据由CoolEdit2.1软件录制,数据采样率为16000Hz,量化精度为16bit,是一个人的200个语音样本,其中100样本作为训练集,另外100样本作为测试集,包含有14个不同的电话号码以及6个人名,录制环境为实验室。系统用工具Hcopy对拨号语音提取39维的梅尔倒频谱参MFCC包括12阶的频谱值加上能量值,并取其一阶差分作为语音特征参数,声学模型状态数目分别为:音节状态数6个、声母状态数3个、韵母状态数6个、静音状态数3个、间隔符状态数1个。系统的概要构建步骤是:在定义任务语法后通过HParse转成HTK可用的底层表示。使用任务语法产生真值文本,再进行字典定义,用工具HLEd通过一个转换规则文件,将词级的mlf文件转换为音节级的mlf文件,用工具HCopy进行特征提取,用工具HCompV计算训练数据的均值与方差,采用工具HERest对HMM模型进行训练,再进行重复估算,建立一个识别结果输出的目录,执行HVite进行Viterbi校准,将所有用到过的字,全部列表到wordlist文件中进行识别得到最终识别结果。
2 语音拨号系统性能分析
在系统测试中,分别采用三种不同的语音识别单元进行识别实验,并且增加高斯分量个数以测试其对识别的影响情况,得到的实验结果如表1所示。本文用到的识别率有三种,分别为句识别率(SRR)、词识别率(WRR-WC)和考虑插入错误的词识别率(WRR-WA)。
从表1中的识别结果可以得出这样的结论:不含间隔的音节作为声学模型识别效果是最好的,而有间隔的音节要比声、韵母效果要好。[2]高斯混合分量个数的增加加大了语音拟合效果从而使对应识别单元的识别率有所提高。因而对于汉语连续数字和连续词结合的语音识别,可以选择音节作为声学模型,以提高系统的识别率。对于特定人的语音识别,当训练语音集越大时,识别率就越高。该系统的识别包括两部分语音的识别,电话号码的识别和人名的识别,两者的组合识别要比单独识别的识别率低。由于待识别语音的汉字或者数字在排序上存在着相互重合的现象,因此有必要建立一个最优的语音识别网络,从而提高系统的识别率。
参考文献:
[1] Rabiner L R,Fellow.IEEE A Tutorrial on Hidden Markov Models and Selected Applications in Speech Recognition[C].Proceedings of the IEEE,1989,77(2).
[2] 蒋正锋.基于HTK的汉语连续数字语音识别研究[D].广西师范大学硕士研究生学位论文,2008
[3] Flandrin P,Gabriel Rilling G,Goncalves P.Empirical mode decompositon as a filter bank[C].IEEE Signal Processing Letters 2004,11(2):112-114.
[4] Benjamin J S,Kuldip K P.Feature extraction form higher-lag autocorrelation Coefficients for robust speeeh recognition[J].Speech Communication,2006(48):1458-1485.
[5] 赵力.语音信号处理[M].北京:机械工业出版社,2003.
[6] 侯周国.基于HMM的汉语数字语音识别系统研究[D].湖南师范大学硕士研究生学位论文,2006.
[7] 胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000:20-24
[8] 蔡莲红,黄德智,蔡锐,等.现代语音技术基础与应用[M].北京:清华大学出版社,2003.