时间:2023-03-24 15:09:17
导语:在语音识别技术的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
一、引言
随着我国外语教学的不断发展,各种外语口语教学工具与学习方法也应运而生。然而外语口语的学习对于学习者而言既是重点也是难点,当前的计算机辅助教学只是侧重于外语单词记忆教学与语法教学,并且因为外语口语学习者的学习水平不一,在学习过程中很难将自己的不正确发音找出来。于是,在外语口语学习中就可以应用语言识别技术,该系统具备外语口语发音的纠正功能,学习者通过该系统进行外语口语的学习与练习,就能纠正自己错误的发音,避免因为多次错误发音而形成不良习惯。因此,对外语口语训练中语音识别技术进行研究,能够提高外语口语学习者的学习效率。
二、外语口语学习中语音识别技术应用的重要意义
随着中国改革开放程度的深化以及全球经济一体化的飞速发展,世界各国的交往越来越频繁,学习并掌握一门外语,对于人们的工作与生活而言,已经成为必不可少的工具。在学习外语的需求不断增长的情况下,出现了各种外语教学方法、教学工具以及语言学校等,然而国人在外语学习过程中,外语的口语教学与学习一直是较难突破的难题,其主要原因有以下几个方面:
(一)各种外语发音的特点与汉语发音的特点存在较大差异,因而可能导致国人在学习外语时由于受到母语的深厚影响而犯下许多自己根本无法察觉或者是很难察觉的发音错误。
(二)目前在国内合格的外语口语教师还是很少,自己发音标准又能够准确地指导别人进行口语学习的外语教师,即便是在一些大中城市的中小学中也相当缺乏。同时,一般的媒体教学也不能够针对学生的特定情况,有效地让学生与教师互动进行口语训练,只能够单方面地进行传授,所以起到的作用也不是很有效。
外语口语训练中语音识别技术的应用,让软件具备了矫正错误发音的功能,能够为学习者及时改正错误的发音提供帮助,从而有效避免错误反复而变成一种恶性习惯,并使外语学习者口语学习的效率与效果得到一定程度的提高,获得更大的市场价值与社会效益。
三、外语口语训练中语音识别的关键技术
(一)语音识别
在语音识别技术中,语音识别是第一步也是最重要的一步,接下来几个步骤的精确度都会受其影响,它能够在语法与音素模型的基础上,将输入的语音信号翻译成单词串。同时,许多基于计算机的语言训练活动都可以应用这一部分,比如基于语音的选择题或者是与计算机的对话训练等等。
(二)语音评分
在基于语音识别技术的外语口语学习系统中,语音评分技术是最基本也是最核心的组成部分。语音评分技术能够评价并反馈学习者的口语发音情况,可以让学习者通过反馈的结果对自己的学习结果进行检查。通常情况下,按照语音评分技术,目前的外语口语学习系统主要可以分为两种:一种是基于语音特征比较的评分方法,它通过将学习者的发音与标准语音进行对比参考,从一个较为主观的角度对一段语音质量进行评价,通常采用动态时间规整技术实现,因为其具备运算量小的特点,因而在嵌入式系统与手持设备中运用较多;另一种是基于声学模型的评分方法,它能够通过语音识别技术将以计算发音质量所需的小单元切割出来,然后再通过事先训练好的声学模型与其进行对比,最后根据评分机制对其评分,因为该方式较为客观,目前主流的外语口语学习系统中均采用这种技术,其主要是基于隐马尔可夫模型(HMM)技术实现。
如图1,基于HMM的语音评分流程图所示,其语音评分的关键技术分为以下几步:
图1 基于HMM的语音评分流程图
1.首先,对学习者所输入的语音进行特征提取;
2.其次,将已经训练好的HMM作为模板,再采用Viterbi算法将语言以计算发音质量所需的小单元进行分割,并强制对齐;
3.最后,采用不同的评分机制对不同的需要进行评分,将评分结果得出。同时,在某些情况下,要注意将说话验证在语音评分开始时加入,从而将学习者发音内容与标准发音完全不同的部分挡下,保证整个口语学习系统的可信度更高。此外,由于同样的声音可能代表的意义不同,因而在这些更加复杂的应用中,需要将各种词发生概率的大小、上下文的关系进行综合考虑,并将语言模型加入,从而为声学模型的判断提供更好的辅助。
(三)发音错误检测与错误纠正
对于外语学习者而言,虽然知道系统能够评价其发音质量,但是单凭非母语学习者自己对其自身错误的所在还是不能清楚地了解到,对这个错误也不知道如何进行纠正。因而,外语口语学习者需要通过系统对发音的错误进行检测与定位,并将相应的错误纠正建议提供给学习者进行有效纠正。
1.发音错误的检测与定位
在外语口语训练中,导致错误发音的因素有很多。例如学习者不会发某种声音,或者是受到其他语言拼读方法的影响以及不能正确体会到两种声音的差别等等。语音识别器也是发音错误检测中使用的一种方法,比如用母语训练的语音识别器,但是因为在没有使用自适应技术的情况下,学习者发音的识别错误也有可能会当成是发音错误,因而这种方法就很难准确地检测到非母语学习者的发音是否正确。所以,目前对错误发音的检测比较合理的一种做法是:首先以发音专家的知识为依据,严格将容易出错的发音进行合理的分类,然后以不同的错误类型为依据,将其相应的检测算法设计出来,最后用各种错误检测算法对学习者的发音分别进行检测。
2.发音错误的纠正
系统将发音错误检测出来后,同时就对学习者所犯的错误根据专家关于发音错误的知识给出相应的错误提示与错误纠正建议。其中,对于这些发音专家知识的构建而言,是通过事先收集大量的经验数据而积累而成的,例如不同学习者的发音特点等,然后通过数据挖掘的聚类算法将不同学习者不同发音特征的聚类准确地计算出来,再由专家客观地评判分类的发音,最后将各聚类的改进建议提出来。
(四)回馈展示
在基于语音识别技术的外语口语学习系统中,这一部分是整个系统对用户的窗口,上述部分所产生的信息都可以通过分数条或者是数字的形式为外语学习者展示出来。同时只有通过这个模块,外语学习者才能够从基于语音识别技术的外语口语学习系统中获益,所以,整个系统的可用度都通过这一模块设计的好坏来决定。
四、结语
总而言之,随着社会经济与科学技术的快速发展,各种带有语音识别技术的便携式终端设备出现在人们的日常生活与学习中,为广大外语爱好者与学习者提供了不受教师资源、地点以及时间等限制的智能外语学习系统,有效地提高了外语学习者的学习效率与学习效果,相信在未来,也能够为外语学习者们提供更快、更好的电子学习手段。
【参考文献】
[1]卢永辉.语音识别技术在外语口语训练中的应用[J].电脑知识与技术,2014(04):836-837,843.
[2]吴艳艳.孤立词语音识别的关键技术研究[D].青岛:青岛大学,2012.
[3]涂惠燕.移动设备平台上英语口语学习中的语音识别技术[D].上海:上海交通大学,2011.
【关键词】语音识别;简单模板匹配;预处理;特征提取
1 语音识别技术原理
语音识别是为了让机器“懂”我们的语言,准确无误地识别出我们发出语音内容,并且做出符合语音内容的一系列动作,执行我们的意图。分析人类语言交流通信的过程,可以启发我们的研究思路。对人类语音通信流程[1-2]分析如图1。
由人类语音通信流程框图可以看出,人类发出语音过程如图左半部分,语音理解过程如图右半部分。语音识别包括两种含义,一是:将人类说的话转换成文字,二是:在充分理解口述语音的基础上,不仅仅是将语音转换为文字信息,而且对语音内容也要作出正确响应[3]。在此,本文认为语音识别和语音理解意义等同,所以可用图1右侧部分流程可将语音识别过程。
目前语音识别技术应用中大部分都是小词汇量,词语间相互独立基于简单模板匹配工作原理的识别模式。针对这种典型的语音识别模式,原理流程路线图[4]如图2所示:
1.1 基于发音模型的语音信号产生模型
语音信号的产生是语音识别技术的基石,在语音信号处理的大部分过程中对语音信号产生模型有很强的依赖性。本文研究过程中,首先对人类发音过程进行了解:人类发音流程是首先肺部收缩,迫使气流通过声门和声道引起音频震荡产生[3]。根据人的声道三种不同激励方式,分别对应产生了三种被大家熟知的发音类型,分别是浊音,摩擦音或清音,爆破音。
语音信号可看做由线性系统受到激励信号的激励输出产生。如图3是基于发音模型的语音信号产生模型流程图:
如图3建立的语音信号产生模型中认为浊音是周期为N0的冲激信号,且N0=fs/F0(其中F0是基音频率,fs是采样频率)。清音认为是一个均值为0,幅值是正态分布的波形信号。参数Av,Au分别用来调节浊音和清音的幅值。
从已有语音识别技术研究结果可知,窗函数类型众多,使用不同形式的窗函数对短时分析处理语音信号结果有很大的影响。已知目前应用最广泛的窗函数是汉明窗,结合仿真实验分析可以看出:高斯窗函数的横向主瓣宽度最小,但其纵向旁瓣高度最高;汉明窗函数的横向主瓣宽度最宽,纵向旁瓣高度是三种窗函数中最低的。
2.3 端点检测
语音信号的起始点是语音信号处理的关键分界点,端点检测的目的就是找到连续语音信号中的信号起始点。常用的端点检测方法有两种,分别是短时平均能量和短时过零率[6]。当下流行的端点检测方法是短时平均能量和短时过零率两者的结合,称这种方法为双门限端点检测算法[7]。
在实际问题中通常采用两者结合解决问题。本文同样是采用两者结合的方法,利用短时过零率方法检测语音信号波形穿越零电平的次数,既代表的是清音;用短时平均能量方法计算第y帧语音信号的短时平均能量E(y),既代表的是浊音,进而实现可靠的端点检测。
3 特征提取
目前特征是语音信号预处理中的重要步骤。在实际特征提取中,较常采用的参数是线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)。二者采用的均是时域转换到倒谱域上,但是出发思路两者不同。线性预测倒谱系数(LPCC)以人类发声模型为基础,采用线性预测编码(LPC)技术求倒谱系数;Mel倒谱系数(MFCC)以人类听觉模型为基础,通过离散傅利叶变换(DFT)进行变换分析。
其中k表示第k个滤波器,Hm(k)表示第k个mel滤波器组,f(m)为中心频率,m=1,2,…K,K表示滤波器个数。
经过仿真实验分析比较,可以分析得出Mel倒谱系数(MFCC)参数较线性预测倒谱系数(LPCC)参数的优点,优点如下:
(1)语音低频信号是语音信息的聚集区,高频信号相对低频语音信号更容易受到周围环境等的干扰。Mel倒谱系数(MFCC)将线性频标转化为Mel频标,强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰[8]。LPCC参数是基于线性频标的,所以没有这一特点;
(2)MFCC参数无任何假设前提,在各种语音信号预处理情况下均可使用,但是LPCC参数首先假定所处理的语音信号是AR信号,对于动态特性较强的辅音,这个假设并不严格成立[8];
(3)MFCC参数提取过程中需要经过FFT变换,我们可以顺便获得语音信号频域上的全部信息,不需要多花费时间处理,有利于端点检测、语音分段等算法实现[8]。
4 训练与识别
训练和识别是语音识别的中心内容,有很多专家学者研究了一系列成果。语音识别实质是模式匹配的过程,而对分类器和分类决策的设计[9]又是模式匹配的核心。在现有的分类器设计[10-11]中,经常使用的有:动态时间规整(Dynamic Time Warping,DTW)分类器、基于人工神经网络(Artificial Neural Networks,ANN)分类器、基于高斯混合模型(GMM)分类器、基于Bayes规则的分类器、基于HMM分类器[12]等。
本文重点讨论语音信号预处理中技术及实现,对训练和识别技术不再做研究描述。
【参考文献】
[1]尹岩岩.基于语音识别与合成的低速率语音编码研究[D].上海师范大学,2013.
[2]伟伟.通信系统中语音质量评价的研究[D].北京邮电大学,2014.
[3]朱淑琴.语音识别系统关键技术研究[D].西安电子科技大学,2004.
[4]王伟臻.基于神经网络的语音识别研究[D].浙江大学,2008.
[5]钟林鹏.说话人识别系统中的语音信号处理技术研究[D].电子科技大学,2013.
[6]周刚,周萍,杨青.一种简单的噪声鲁棒性语音端点检测方法[J].测控技术,2015,(02):31-34.
[7]薛胜尧.基于改进型双门限语音端点检测算法的研究[J].电子设计工程,2015,(04):78-81.
[8]惠博.语音识别特征提取算法的研究及实现[D].西北大学,2008.
[9]张宁.基于决策树分类器的迁移学习研究[D].西安电子科技大学,2014.
[10]汪云云.结合先验知识的分类器设计研究[D].南京航空航天大学,2012.
语音识别ASR(Automatic Speech Recognition)系统的实用化研究是近十年语音识别研究的一个主要方向。近年来,消费类电子产品对低成本、高稳健性的语音识别片上系统的需求快速增加,语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。
语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。
嵌入式设备通常针对特定应用而设计,只需要对几十个词的命令进行识别,属于小词汇量语音识别系统。因此在语音识别技术的要求不在于大词汇量和连续语音识别,而在于识别的准确性与稳健性。
对于嵌入式系统而言,还有许多其它因素需要考虑。首先是成本,由于成本的限制,一般使用定点DSP,有时甚至只能考虑使用MPU,这意味着算法的复杂度受到限制;其次,嵌入式系统对体积有严格的限制,这就需要一个高度集成的硬件平台,因此,SoC(System on Chip)开始在语音识别领域崭露头角。SoC结构的嵌入式系统大大减少了芯片数量,能够提供高集成度和相对低成本的解决方案,同时也使得系统的可靠性大为提高。
语音识别片上系统是系统级的集成芯片。它不只是把功能复杂的若干个数字逻辑电路放入同一个芯片,做成一个完整的单片数字系统,而且在芯片中还应包括其它类型的电子功能器件,如模拟器件(如ADC/DAC)和存储器。
笔者使用SoC芯片实现了一个稳定、可靠、高性能的嵌入式语音识别系统。包括一套全定点的DHMM和CHMM嵌入式语音识别算法和硬件系统。
1 硬件平台
本识别系统是在与Infineon公司合作开发的芯片UniSpeech上实现的。UniSpeech芯片是为语音信号处理开发的专用芯片,采用0.18μm工艺生产。它将双核(DSP+MCU)、存储器、模拟处理单元(ADC与DAC)集成在一个芯片中,构成了一种语音处理SoC芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。
该芯片为语音识别算法提供了相应的存储量和运算能力。包括一个内存控制单元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核为16位定点DSP,运算速度可达到约100MIPS.MCU核是8位增强型8051,每两个时钟周期为一个指令周期,其时钟频率可达到50MHz。
UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11bit的DAC,采样后的数据在芯片内部均按16bit格式保存和处理。对于语音识别领域,这样精度的ADC/DAC已经可以满足应用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。
2 嵌入式语音识别系统比较
以下就目前基于整词模型的语音识别的主要技术作一比较。
(1)基于DTW(Dynamic Time Warping)和模拟匹配技术的语音识别系统。目前,许多移动电话可以提供简单的语音识别功能,几乎都是甚至DTM和模板匹配技术。
DTW和模板匹配技术直接利用提取的语音特征作为模板,能较好地实现孤立词识别。由于DTW模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别。为减少运算量大多数使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)运算。
DTW和模板匹配技术的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练。这一应用从20世纪90年代就进入成熟期。目前的努力方向是进一步降低成本、提高稳健性(采用双模板)和抗噪性能。
(2)基于隐含马尔科夫模型HMM(Hidden Markov Model)的识别算法。这是Rabiner等人在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突况。因此,HMM算法具有良好的识别性能和抗噪性能。
基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。它的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM的DSP才能完成。
在嵌入式语音识别系统中,由于成本和算法复杂度的限制,HMM算法特别CHMM(Continuous density HMM)算法尚未得到广泛的应用。
(3)人工神经网络ANN(Artificial Neural Network)。ANN在语音识别领域的应用是在20世纪80年代中后期发展起来的。其思想是用大量简单的处理单元并行连接构成一种信息处理系统。这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。但是ANN相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用ANN的系统识别性能不高,所以目前ANN通常在多阶段识别中与HMM算法配合使用。
3 基于HMM的语音识别系统
下面详细介绍基于HMM的语音识别系统。首先在UniSpeech芯片上实现了基于DHMM的识别系统,然后又在同一平台上实现了基于CHMM的识别系统。
3.1 前端处理
语音的前端处理主要包括对语音的采样、A/D变换、分帧、特片提取和端点检测。
模拟语音信号的数字化由A/D变换器实现。ADC集成在片内,它的采样频率固定为8kHz。
特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长的1/2。对于本片上系统,为了方便做FFT,采用的帧长为256点(32ms),帧移为128点(16ms)。
特征的选择需要综合考虑存储量的限制和识别性能的要求。在DHMM系统中,使用24维特征矢量,包括12维MFCC(Mel Frequency Cepstrum Coefficient)和12维一阶差分MFCC;在CHMM系统中,在DHMM系统的基础上增加了归一化能量、一阶差分能量和二阶差分能量3维特征,构成27维特征矢量。对MFCC和能量分别使用了倒谱均值减CMS(Cepstrum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性。
3.2 声学模型
在HMM模型中,首先定义了一系列有限的状态S1…SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:
πi=P{X0=Si},i=1..N
以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:
系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布B称为输出概率矩阵,只取决于Xn所处状态:
Pxn=Si{On}=P{On|Si}
因为该系统的状态不为外界所见,因此称之为“稳含马尔科夫模型”,简称HMM。
在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。
其中,M为使用的混合高斯分布的阶数,Cm为各阶高期分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型。在本识别系统中,采用整词模型,每个词条7个状态同,包括首尾各一个静音状态;每个状态使用7阶混合高斯分布拟合。CHMM识别流程如图1所示。
由于CHMM模型的复杂性,也可以假定On的分布是离散的。通常采用分裂式K-Mean算法得到码本,然后对提取的特征矢量根据码本做一次矢量量化VQ(Vector Quantization)。这样特征矢量的概率分布上就简化为一个离散的概率分布矩阵,此时的HMM模型称为离散HMM模型(Discrete density HMM),简称DHMM模型。本DHMM识别系统使用的码本大小为128。DHMM识别流程如图2所示。
DHMM虽然增加了矢量量化这一步骤,但是由于简化了模型的复杂度,从而减少了占用计算量最大的匹配计算。当然,这是以牺牲一定的识别性能为代价。
笔者先后自己的硬件平台上完成了基于DHMM和CHMM的识别系统。通过比较发现,对于嵌入式平台而言,实现CHMM识别系统的关键在于芯片有足够运算太多的增加。因为词条模型存储在ROM中,在匹配计算时是按条读取的。
3.3 识别性能
笔者使用自己的识别算法分别对11词的汉语数码和一个59词的命令词集作了实际识别测试,识别率非常令人满意,如表1所示。
表1 汉语数码识别率
DHMMCHMM特征矢量维数2427识别率93.40%98.28%识别速度(11词)10ms50ms模型大小(1个词条)1.5KB<5.5KB码本6KB无对于59词命令词集的识别,还增加了静音模型。由于基线的识别率已经很高,所以静音模型的加入对于识别率的进一步提高作用不大,如表2所示。但静音模型的加入可以降低对端点判断的依赖。这在实际使用中对系统的稳健性有很大的提高。
表2 59词命令词集识别率
浮 点定 点无静音模型98.59%98.28%有静音模型98.83%98.55%可以看到,在硬件能够支持的情况下,CHMM的识别率比DHMM有很大的提高,同时识别速度也完全可以满足使用要求。
关键词:PTT;语音识别;通信
中图分类号:TP391 文献标识码:A
Earthquake site intercom communication optimization technology based on speech recognition
XU Nian, LI Wei, CHENG Fei
(Earthquake Administration of Jiangsu Province,Nanjing 210014,China)
Abstract: Nowadays, using walkie-talkie call is an essential method of communication when the earthquake emergency rescue. But when rescue workers call, it is necessary to press PTT by hand,which could influence the work convenience of rescue workers. Based on this, the paper uses the latest digital processing technology and the incorporated algorithm to identify only the human voice,so that the outside sound and shock are not recognized. After that, for the rescue workers in the state of speech, automatic identification could be gotten to produce PTT, and the call could be achieved. Hands of rescue personnel are completely liberated, and intercom speech are automatically launched. It is concluded that the proposed optimization communication method could improve the efficiency of the rescue,therefore gain significant benefits.
Keywords: PTT;speech recognition;communication
0 引言
地震应急救援是我国防震减灾事业3+1体系的重要组成之一。最大限度地降低地震灾害损失是抗震救灾工作的核心设定目标,而实现这一目标的基础环节之一就是提高地震应急救援水平。我国的地震应急救援系统和管理体系迄今为止仍有待完善,2008年的汶川地震和2010年的玉树地震救援工作已经清晰表明了应急救援的强大背景支撑作用,与此同时更进一步揭示了在突发地震灾害面前应急救援技术及应用的广阔施展空间与不断增长的现实需求。特别地,已有研究指出,稳定可靠的对讲机自动对讲和多功能、全方位的语音通话在地震救援现场正在担负和执行着日趋显著、且不可或缺的使命任务与功能角色。这种通信方式的优化对于提高地震救援效率则有着不言而喻的实用价值与积极推动意义。本文即针对这一课题内容展开研究论述。
1 基本原理
语音识别是新兴的人机交互技术之一。研究可知,语音识别系统则由语音信号的预处理、特征提取、语音模板库以及匹配判决这4个部分构建组成。在此,给出语音识别系统的院里构成如图1所示。
如图1所示,对于语音识别系统各组成部分的效果实现可提出如下设计分述:
1)预处理
预加重。预加重过程可以使语音的高频部分得到提升,减小语音的动态范围,增加信噪比,使信号的频谱更趋平滑,利于展开频谱分析。
分帧与加窗。采用一个有限长的窗序列,并利用其滑动来实现对原始语音信号的分帧,另外采用交叠分段方法使相邻帧之间过渡更为流畅。
2)端点监测。端点检测是指从一段语音信号中检测出说话的起始点与终止点,删除无声段,以降低特征提取的计算量,缩短系统的训练与识别时间,进而提高准确度与识别率。常用的端点检测方法主要基于2个参数:短时平均能量和短时平均过零率。
3)特征提取。在语音信号处理中,可以采用如下特征:语音信号能量、基音周期、共振峰、LPCC及MFCC等。其中,LPCC是依据说话人的声道模型得来的,整体实现思路是对语音信号进行线性预测分析,再将所得到的线性预测系数启用倒谱运算,该种参数优点是计算过程清晰,且能够优质描述元音信号,但其缺点却在于对辅音信号的描述性能欠佳,且极容易受到噪声的干扰而产生失真。而MFCC参数的获取则是基于人耳的听觉特性,其完整思路是将语音信号的频谱通过带通滤波器转换为基于美尔频率尺度的非线性频谱,接下来就是对滤波器的输出设计展开对数及离散余弦变换,由于该参数为符合贴近人耳的听觉特性,因此相比较而言即LPCC参数具有较好的抗干扰能力。
4)模板匹配。动态时间规划(DTW)是模板匹配法中核心经典的算法之一。DTW算法通过不均匀地扭曲或弯折待测语音信号的时间轴,使待测语音特征和模板特征彼此对齐,并通过不断地在2个模板之间搜索模板中对应矢量最小距离的匹配路径,最终得到一个规整函数,这个函数可使2个模板中的矢量匹配时累计距离最小。因此,DTW是一种结合了时间规整和距离测度的非线性规整技术。
2系统软件设计
本项目软件主要在CCS上获得开发实现。CCS是TI公司开发的用于开发DSP应用程序的可视化集成开发环境,具体支持C2000、 C5000、 C6000系列,包括代码编辑、调试工具、可执行代码生成工具以及实时分析工具,可用于汇编语言和C/C++语言混合编程。
基于CCS的TMS320VC5409A的标准软件开发流程如图2所示。
由图2可以看出,软件开发过程中涉及到C编译器、汇编器、链接器等开发工具,重点包括了C编译、汇编、链接和调试总共4个阶段,具体步骤如下:
1)用C编译器将C语言源代码程序自动编译为C5X的汇编语言源代码程序;
2)用文本编辑器编辑得到符合C5X汇编器格式要求的汇编源程序;
3)调用汇编器将该源文件导入汇编,如果源文件中调用了宏,汇编器还会到宏库中搜索该宏;
4)汇编后,将生成格式为公共目标文件格式的目标文件(.obj),称为COFF目标文件;
5)调用链接器对目标文件提供链接,如果包含了运行支持库和目标文件库,链接器还会到所保护的库中搜索所需的成员。
6)链接之后,生成COFF执行文件(.out);
7)将COFF执行文件下载到C5XDSP中展开运行,同时也可借助调试工具对程序进行跟踪调试或优化。另外,还可利用交叉参考列表器和绝对列表器生成一些包含调试信息的表。
3系统硬件设计
3.1基本组成
语音识别受送话器主要由耳机、麦克风部分和主机部分组成,详细原理框图如图3所示。
3.2控制处理电路
控制处理电路相当于人的大脑,是语音识别受送话器的核心构成。该电路由信号滤波、模数转换、识别、存储、延时、收发控制、产生提示信号、灵敏度调节等各部分组成,每一独立功能均由软件程序调试控制完成。在此,针对该控制处理电路的基础功能模式流程展开设计解析,具体论述如下。
3.2.1 信号滤波、模数转换、语音实现
控制处理电路将收到的前置放大电路送来的信号首先进行滤波、去除外带无用的信号,而后进行模数转换,即编码,将模拟信号转为数字信号。
语音实现部分,本文研究选用了MC145483。这是一款功能全面的音频编解码器,MC145483的主要外接管脚有PCM数据输入端DR,PCM数据输出端DT、芯片主控制时钟MCLK(频率可为256kHz,512kHz,1.536MHz,2.048MHz,4.096MHz)、接收帧同步信号FSR(8kHz)、发送帧同步信号FST(8kHz)、接收端的位时钟BCLKR(256kHz到4096kHz)。MC145483可以提供高质量的语音通信,而且电路简单,通过调节相应的电阻比值即可改变麦克风和扬声器的增益数值。研究可得,语音实现电路如图4所示。
图4 语音实现电路图
Fig.4 Phoneticalisation circuit diagram
至此,MC145483则通过数字输入/输出接口连接至DSP芯片。由于DSP芯片是专门针对数字信号设计和开发的,所以在数字信号分析和处理的领域中,比通用CPU芯片的处理速度更快,效率更高,稳定性更好。本次研究最终选择了TMS320VC5409芯片。总而言之,MC145483可将输入的模拟音频信号经过抽样、量化、编码后变成数字音频信号发送给DSP处理,也可从DSP接收经过其处理后的数字音频信号,并将其通过DA转换后还原为模拟音频信号输出。
3.2.2 信号识别、存储、延时
这一功能是控制处理电路的重点与关键。收到转换后的数字信号后,通过分析判断是否为人的讲话声音。如果不是,系统选择忽略;如果是,则将数字信号进行存储,同时使系统转为发射状态。再将存储的数字信号经过数模转换,即信号解码,恢复为模拟信号,经过不到1s的延时送至输出放大电路输出。信号识别可以确保系统运行高度可靠,而延时则可以实现信号的理想成功传送。
3.2.3 受送话结束提示音
为了获得最佳使用,设置受送话结束提示音。受送话结束提示音分为送话结束提示音和受话结束提示音。下面将基于各自实现阐释。
1)送话结束提示音。结束讲话时,系统需判定使用者讲话是否结束。判定的方法是在使用者结束讲话后1~2s内没有重新讲话,便可视作讲话结束。在1~2s后系统将由发射状态自动调为接收待机状态,同时发出“嘀”的提示音,告知使用者系统目前已处于接收状态。
2)受话结束提示音。当使用者接收到对方电台的声音时,接收的声音一般是连续的,在对方讲话期间,使用者是不能发送的。在对方停止讲话后,系统会产生一个“嘀”的提示音,通知使用者对方讲话已结束,可以讲话发射了。
3.2.4 发射屏蔽信号
发射屏蔽信号主要用来在接收时屏蔽发射功能,这是另一重要设计组成部分。其实现作用如下:当使用者在接收对方讲话期间,因为电台处于接收状态,对方电台则处于发射状态,此时是不能发射的。即使己方电台发射,由于对方电台也同样处于发射状态,对方也是听不到使用者讲话的,相应地使用者也不能听到对方的讲话了。这种现象是人为原因造成的通信线路紊乱。为了避免这一现象的不利效果的干扰出现,设计时处理电路会监视收到的信号,在对方处于讲话期间,即便使用者发声讲话,处理电路也将屏蔽讲话信号(此种状态下,即使不使用通信系统,电台同样不能在对方讲话期间发射),只有在对方讲话结束,即受话结束提示音响过以后才能讲话、发射,确保不会产生通信紊乱现象。
4应用效果
2016年5月23~25日,“2016年中国杭州G20峰会地震安全保障・华东地震应急联动协作区应急支援演练” 在杭州临安举行,来自江苏、福建、安徽、江西、浙江和上海五省一市地震局的6支队伍参加了演练。江苏局研发的骨传导数字语音识别受送话器在地震现场搜救科目中发挥了高效作用,有效提高了救援效率。得到了中国地震局应急救援司领导和参与专家的一致好评。
5结束语
骨传导数字语音识别受送话器在江苏局的应用,首要优势即是控制消除了对外界声音和冲击等的辨识接收。当救援人员讲话时,自动识别产生PTT,就可以实现通话。救援人员的双手获得了彻底解放,讲话时对讲机自动发射,这种通信方法的优化,对于提高救援效率,已然呈现出显著现实益处与良好的方法指导意义。
参考文献
[1]李宁,徐守坤,马正华,等.自适应语音识别算法仿真研究[J].计算机仿真,2011,28(8):181-185.
[2]张雪英.数字语音处理及MATLAB仿真[M].北京:电子工业出版社,2010:189-189.
[3]余建潮,张瑞林.基于MFCC和LPCC的说话人识别[J].计算机工程与设计,2009,30(5):1189-1191.
所谓“手语识别”是指,通过计算机采集设备获得聋哑人的手语数据,采用模式识别算法,结合上下文知识,获知手语含义,进而翻译成语音,传达给不懂手语的正常人。这样,正常人就可以“听懂手语”。
而“手语合成”是指,正常人通过语音表达自己的意图,计算机将语音翻译为手语并表现出来,向聋哑人传递信息。这样,聋哑人就能够“看懂声音”。
从2000年开始,“手语识别与合成”项目组始终专注于手语与语音、语言自动转换技术的研究,在“大词汇量的手语识别”、“非特定人手语识别”,以及“多模式手语合成”等方面拥有大量核心技术,申请国家发明专利二十余项,其中手语编辑、手语翻译等相关专利已获授权。
该项目得到了国家自然科学基金重点项目以及国家“863”高技术发展项目等多项课题基金的支持,在国内外形成了广泛的影响,并获得2003年度国家科技进步奖二等奖。
在研究过程中,项目组采用“沿途生蛋”的产业化模式,将部分阶段研究成果成熟后直接推向应用,从实践中得到反馈,为进一步研发积累需求,并且项目成果在多个实践中得到有效应用。
其中,“电视台用手语电视节目制作系统”通过自动合成手语视频窗口,可与电视节目同步播放;“奥运新闻实时播报系统”获国家科技支撑计划“无障碍信息平台”资助,将在2008年奥运会上展示;对奥运志愿者进行培训的“奥运手语在线互动教学系统”获得北京市信息办和残联等各部分的支持,成为2008残奥会志愿者必备学习软件;“标准中国手语电子词典”已在1000多所聋校推广应用。
TTS是“Text To Speech”的缩写,即“从文本到语音”。它同时运用语言学和心理学的杰出之作,把文字智能地转化为自然语音流。电子小说软件将文字读出来、银行营业厅的语音叫号系统、词霸朗读单词、手机朗读短信和来电朋友的姓名……这就是目前应用最广泛的TTS语音识别技术。想了解其最新研究进展可以访问网站/speech/tts.asp。那么,我们又是如何进一步控制计算机的呢?
计算机为什么能听懂我们的话?
技术上,实现语音识别就是让计算机通过识别和理解的过程把自然语音信号转变为相应的文本或计算机指令。语
音识别是一门交叉学科,所涉及的领域很广,包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
在语音识别过程中,首先要将说话的声音由模拟的语音信号转换为数字信号,然后从信号中提取语音特征,同时进行数据压缩。输入的模拟语音信号也要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。语音识别系统的模型通常由声学模型和语言模型两部分组成。
p语音输入模式图
p语音识别软件工作流程图
语音识别过程主要分为两个阶段:“学习”阶段中,计算机的主要任务是建立识别基本单元的声学模型以及进行文法分析的语言模型,即构建参考模式库;在“识别”阶段,计算机根据识别系统的类型选择能够满足要求的识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,按照一定的准则和测度与参考模式库中的模型进行比较从而得出识别结果。
Vista,语音识别就在你身边
微软在最新推出的Vista中增加了上千个让人耳目一新的新功能,其中之一便是能让你与计算机进行交谈的“语音识别”技术。
其实,Windows XP就已经内置了当时较为先进的TTS语音识别引擎,同时也支持语音输入功能,不过要实现语音输入功能还需要另外安装语音输入模块。
而Windows Vista的语音识别功能已经内置在系统中,功能更为强大,我们可以通过说话来让计算机完成操作、输入文字、将屏幕上的文字朗读出来、处理文件夹和文件、通过IE浏览器来访问互联网、单击屏幕的任意位置、操作窗口和程序……这些功能基本上实现了通过语音命令来完成计算机的常用操作和语音输入命令,对于某些特殊需要的人来说非常实用。没有配置键盘、鼠标?记不清命令的路径?手忙不过来?一样可以通过说话控制计算机。
pWindows Vista的语音识别向导
p在Windows Vista控制面板中设置语音识别选项
pWindows Vista的语音识别工具栏窗口
p语音检索识别。可以通过哼唱歌曲的段落在卡拉OK厅找出想唱的歌曲,通过说话寻找手机电话本中的联系人,甚至可以用手机通过哼唱音乐旋律来下载彩铃。
p使用语音控制通过说出不同链接的编号浏览网页
如何找到并设置语音识别的功能呢?在Vista控制面板的搜索栏中输入“语音识别选项”即可。需要注意的是,在
开始设置之前请将麦克风和音箱(或者耳机)连接到计算机上。如果启动语音识别时提示错误,可能是你开启了其他音频软件(比如Windows Media Player等音乐播放软件),关闭这些软件后就可以正常开启语音识别了。
开启Windows Vista的语音识别软件后会出现一个语音识别设置向导,在其中会引导你对麦克风进行设置以及进行语音训练。语音训练是目前的语音识别软件比较通用的一个使用前的设置工作,因为我们每个人的说话口音和习惯都不同,计算机要听懂你说的话当然也需要提前学习,大大提高语音识别的准确率。
语音识别设置向导不仅能帮助计算机学习和适应你的说话习惯,还能教给你语音识别的使用方法和常用的语音命令。设置完成并启用语音识别功能以后,Windows的语音识别提示工具窗口会浮现在桌面上方以方便你随时使用。这时,我们就可以随心所欲地通过与计算机“交谈”来控制计算机了。特别值得一提的是,Vista的语音识别对于桌面控制和在使用浏览器浏览网页上也更加人性化,比如它会自动检测并给网页链接加上编号,读出编号即能访问相应的链接了。
关键词:语音识别;动态时间规整算法;人工神经元网络
中图分类号:H017文献标识码:A文章编号:1672-3198(2008)02-0199-02
1 背景介绍
语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。
语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的技术。它是一门交叉学科,涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。
2 发展历史
1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统,标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术(Liner Predictive)等重要成果。20世纪70年代,语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研制成功, 隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代,近年来发展迅速,并取得了一系列的成果。
3 具体应用
随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。
在许多政府部门、商业机构,语音识别技术的应用,可免除大量操作人员的重复劳动,既经济又方便。如:语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统,112、114、119等信息查询系统)等。许多特定环境下,如工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。
当今,语音识别产品不仅在人机交互中,占到的市场比例越来越大,而且在许多领域都有了广阔的应用前景,在人们的社会生活中起着举足轻重的作用。
4 语音识别系统原理
语音识别一般分为两个步骤:学习阶段和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语音的特征参数和模型进行比较,得到识别结果。
语音识别过程如图所示。下面对该流程作简单介绍:
(1)语音采集设备如话筒、电话等将语音转换成模拟信号。
(2)数字化一般包括预滤波、采样和A/D变换。该过程将模拟信号转变成计算机能处理的数字信号。
(3)预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。
(4)参数分析是对短时信号进行分析,提取语音特征参数的过程,如时域、频域分析,矢量量化等。
(5)语音识别是目标语音根据特征参数与模型库中的参数进行匹配,产生识别结果的过程。一般有模板匹配法、随机模型法和神经网络等。
(6)应用程序根据识别结果产程预定动作。
(7)该过程是语音模型的学习过程。
5 现有算法介绍
语音识别常用的方法有:模板匹配法、人工神经网络法。
(1)模板匹配法是语音识别中常用的一种相似度计算方法。模板匹配法一般将语音或单词作为识别单元,一般适用于词汇表较小的场合。在训练阶段,对用户语音进行特征提取和特征维数的压缩,这个过程常用的方法是采用矢量量化(VQ)技术。然后采用聚类方法或其他方法,针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音模式的特征参数与各模板进行相似度的计算,将最高相似者作为识别结果。但由于用户在不同时刻发同一个音的时间长度有较大随意性,所以识别时必须对语音时间进行伸缩处理。研究表明,简单的线性伸缩是不能满足要求的。由日本学者板仓在70年代提出的动态时间伸缩算法(DTW)很好的解决了这一问题。DTW算法能够较好地解决小词汇量、孤立词识别时说话速度不均匀的难题。DTW算法示意图如图所示。
设测试的语音参数共有M帧矢量,而参考模板有N帧矢量,且M≠N,则DTW 就是寻找一个时间归整函数tn=f(tm),它将测试矢量的时间轴tm非线性地映射到模板的时间轴tn上,并使该函数满足第k帧(k=1,2,…M)测试矢量I和第f(k)帧(f(k)=1,2…N)模板矢量J之间的距离测度之和最小:
Distance=min∑Mk=1d[I(k)-J(f(k))]
另外,在实际识别系统中,语音的起点或终点由摩擦音构成,环境噪声也比较大,语音的端点检测会存在较大的误差。DTW 算法起点点可以固定在(tm,tn)=(1,1),称为固定起点;也可以选择在(1,2)、(2,1)等点,称为松驰起点。同样,中止点可以选择在(M,N)点,称为固定终点;也可以选择在(N一1,M)、(N,M一1)等点,称为松弛终点。松弛的DTW 算法的起始点从(1,1)、(1,2)、(2,1)等点中选择一最小值,终止点从(M,N)、(M,N-1)、(M-1,N)等点中选择一最小值,两语音样本之间的相互距离在相应的点放松后选择一最小距离。松弛DTW可以克服由于端点检测不精确引起的误差,但运算量加大。
(2)人工神经网络法。现实世界的语音信号会随着许多特征如:说话人语速、语调以及环境的变化而动态变化的,想要用传统的基于模板的方法建立一个适应动态变化的语音识别系统是非常困难的。因此需要设计一个带有自学习能力的自适应识别系统,以便可以适应语音的动态变化。
人工神经网络由神经元、网络拓朴和学习方法构成。人工神经网络拓朴结构可分为反馈型和非反馈型(前馈型)。学习方法可分为监督型和非监督型。各种人工神经网络模型中应用得最典型的是采用反向传播(Back Propagation)学习算法的多层前馈网络。多层前馈型网络如图所示。
除上述介绍的几种常用的方法外,还有许多其它的识别方法以及改进算法。
6 尚未解决的问题及值得研究的方向
(1)就算法模型方面而言,需要有进一步的突破。声学模型和语言模型是听写识别的基础。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展。
(2)语音识别的自适应性也有待进一步改进。同一个音节或单词的语音不仅对随着的讲话者的不同而变化,而且对同一个讲话者在不同场合,不同上下文环境中也会发生变化。这意味着对语言模型的进一步改进。
(3)语音识别技术还需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,如何让语音识别技术能有摒弃环境嗓音并从中获取所需要的特定声音是一个艰巨的任务。
虽然在短期内还不可能造出具有和人相比拟的语音识别系统,但在未来几年内,语音识别系统的应用将更加广泛,各种语音识别系统产品将陆续进入我们的生活。语音识别各个方面的技术正在不断地进步,一步步朝着更加智能化的方向发展。
参考文献
[1]杨尚国,杨金龙.语音识别技术概述[J].福建电脑,2006,(8).
[2]孙宁,孙劲光,孙宇. 基于神经网络的语音识别技术研究[J]. 计算机与数字工程,2006.
[3]Phil Woodland. Speech Recognition. Speech and Language Engineering-State of the Art (Ref. No. 1998/499).
【关键词】隐马尔可夫;语音识别;单片机
在这个高科技的信息时代,计算机占着极为重要的地位,人机通信是人与机器之间进行信息通讯,使机器按照人的意愿工作,传统的人机通信是通过键盘、按钮以及显示器等机器设备实现的,在许多场合都不是很方便,其最理想的通信方式就是通过语音进行识别。实现人与机器通过自然语音的方式进行信息通讯,不仅可以简化日常工作,更可以提高工作效率,带给人们极大的方便。而实现这个理想最关键的部分就是语音识别技术。
1语音识别概述
1.1语音信号的产生
物体的振动产生声音,正在发声的物体叫做声源,声音在介质中以声波的形式传播。语音是指人的发声器官振动所发出的负载一定语言意义的声音,发音器官主要有肺部、气管、喉部、咽、鼻腔、口腔和上下唇,每个人的声道各不相同,从而各自发出的声音也不相同。
语音信号主要有模拟信号和数字信号两种表现形式。模拟信号是人直接通过耳朵听到的信号,是时间和幅值均连续的物理量,由于其数据量过大、有较多的随机因素等原因不能直接被作为计算机的识别信号。数字信号是时间和数值均离散的二进制数字量化的模拟信号,是计算机语音识别技术的基础。数字信号相比模拟信号有以下优点:可以实现很多复杂的信号处理工作;具有可靠性高、价格低廉、反应迅速等特点;有利于区分出干扰信号等。所以要想使计算机按照人类的自然语言要求工作,关键的就是将模拟信号转换为数字信号。
1.2语音信号的处理
根据讨论,若要对语音信号进行处理必须先对此信号进行预处理,即将模拟信号转换为数字信号,再整理、分析、理解转换后的数字信号,并过滤掉多余的信息。主要包括数字化、预加重和加窗分帧三部分。
数字化就是把语音模拟信号转换为数字信号的采样与量化过程,采样是在相同间隔的时间内抽取信号而得到离散的序列,并将其转换为数字。量化则是在有限的区域内分布采样后的信号。预加重是通过一个高通滤波器使频谱变得平坦,防止衰减作用,不受有限字长效应的影响。以“帧”为单位对语音信号进行截取,使信号有短时平稳的特征,加窗则可以让截取的信号波形更加平滑。
1.3语音信号的模块处理
在语音识别中,常使用的基本算法有:动态时间规整技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。
1)隐马尔可夫模型
隐马尔可夫模型(HMM)在当前语音识别系统中占据主流地位。它是一种随机概率模型,其使用大大降低了模型的复杂度。早在20世纪六七十年代就开始研究的统计信号模型。HMM是在Markov链的基础上发展起来的,但实际问题要更为复杂,所观察到的事件与一组概率分布相关。它是一个双重随机过程,一个是Markov链,这是基本随机过程,它描述状态的转移;一个是随机过程描述状态和观测值之间的统计对应关系,观察者不能直接看到状态,而是由感觉感知到的,因此称之为“隐”Markov模型,即HMM。
2)人工神经网络法
ANN现在已经成为了另一个热点,是非线性系统,具有DTW和HMM没有的对比、概括、推理能力。
3)动态时间规整技术
DTW是模板训练和模式匹配中出现最早的技术,使用动态规划技术在孤立词语音识别中具有良好的成果,但是其计算量较大,很难被使用到现实中的语音识别。目前已经被其他的算法所替代。
2语音识别系统设计思路
语音识别技术正在不断的发展中,在硬件平台上实现语音识别以取代繁琐的工作成为其发展的必然趋势。本文就是对基于单片机的语音识别系统的研究。由于单片机本身存在着处理速度慢、存储能力不强大的缺陷,所以此次设计是基于孤立词的语音识别系统。
语音识别系统的模型库训练工作原理是:特定人的语音信号进入系统,系统对进入的语音信号滤波,目的是为了消除需要的语音频率之外的其他杂音,进而数模转换,将输入的语音模拟信号数字化,有利于计算机进行识别。数字化后的语音信号再通过预处理、加窗分帧。对于剩下的语音信号送入HMM模板与模板库进行训练和匹配,再将最佳的结果传输给用户。
3系统模块设计及系统测试
此次设计是基于单片机的语音识别系统研究,有以下几点要求:该系统必须使完整的语音识别系统,有简单的显示功能,提高系统的识别性能,体积尽量减小。
工作原理首先采集语音信号,输入完成后通过滤波采集需要的语音信号,再通过数模转换器进入控制器,再与标准语音库中的语音信号进行对比,找出最接近该段信号的语音,再将识别出的语音通过LCD显示模块显示给用户。
系统检测首先确认是否有按键按下,当检测到有按键按下时,表示系统开始运行,如果没有按下,则表示系统处于非工作状态,只有当有按键时,才可以工作。进而开始接收语音信号,首先对语音信号进行滤波消除杂音,然后通过数模转换电路,将模拟信号转换为数字信号,预处理、端点检测后,与事先存储好的信号进行比对,得到最后的识别结果,将识别出来的结果,送往LCD液晶显示器上显示出来,展现给用户。
此次设计通过MATLAB软件实现对语音信号的调试。在接收语音信号时,有可能产生外界的干扰噪声,这就需要我们通过一系列复杂的公式计算,对该信号进行处理,进而在送由单片机进行下一步的工作。
4结束语
语音识别技术是实现人与计算机进行直接对话,让计算机自动对人所说的话进行识别、理解并执行的技术手段。语音识别技术的应用已经成为一个被受关注的新型技术产业,它的实现能够简化人们在以往工作中的繁琐,未来语音识别还要向低成本、高性能方向不断发展。
【参考文献】
关键词 空间增强;谱减法;连续语音识别;自适应;双通道信号
中图分类号 TP393文献标识码 A文章编号 10002537(2014)03006306
虽然自动语音识别(ASR)系统的研究已投入了大量的人员和资金,但是它还不能够像电话一样,作为日常生活的一部分完整地融入到人们的生活当中.其中一个最主要的问题就是自动语音识别系统在噪声和混响环境下,特别是二者混合环境下的识别性能过于低下[1].在大多数情况下,为获得可接受的识别性能,只能依赖于麦克风阵列的使用,即通过使用大量按照特定位置放置的麦克风来获取语音输入和空间信息.大量的ASR研究,使用麦克风阵列得到方向增益,以改善噪声与混响环境中获取信号的质量;采用模式识别技术中的谱减法来消除噪声和处理语音训练集与测试集不匹配问题[2].
在日常应用中,普通用户既不可能随身携带麦克风阵列也不可能精确地放置它们.目前,日常使用的麦克风是与双通道耳机相对应的,它能得到双通道语音信号,却不能得到复杂的空间信息.如果依然采用传统的信号增强方法(例如广义旁瓣抵消技术)来处理双通道信号,以作为语音识别系统的预处理端,那么噪声的消除反而会带来无法接受的语音失真.
谱减法[3]作为另一种消除噪声的技术,可以不依赖麦克风阵列获取输入信号,但是却存在三大缺点:(1)噪声估计误差过大导致噪声消除时语音失真;(2)增强后的语音中含有明显的“音乐噪声”;(3)混响未被处理.
为解决上述问题,本文基于双声道语音信号简单的空间特性,综合使用改进的广义旁瓣抵消空间增强技术和改进的谱减法技术作为语音识别系统的噪声消除和信号放大的预处理端,并基于HTK开发工具设计一个识别性能优异的语音识别系统.
1 系统描述
图1 系统结构
Fig.1 System structure
图1为本系统的整体构架.它由空间增强、谱减法模块和自动语音识别模块3个主要部分构成.
1.1 空间增强模块
因为空间线索是语音识别的主要部分和远场麦克风语音识别的组织焦点,在该ASR系统中,采用PASCAL “CHiME”[4]组织提供的双通道含噪语音信号,利用该信号简单的空间特性可以得到表现优异的噪声估计.
有许多经典的使用麦克风阵列的方法来放大目标信号,例如通过延迟求和方式的波束形成,自适应噪声消除(ANC)以及独立成分分析(ICA).它们使用麦克风阵列得到方向增益,以改善在噪声与混响环境中获取信号的质量.
1.2 噪声消除模块
通常的ASR系统在处理含噪信号时性能大幅度下降,因此,噪音消除是该系统中常见且必须的组成部分.当前主流的噪声消除技术可以分为3大部分.(1)使用时域滤波技术,例如维纳滤波和自适应滤波;(2)尝试还原原始语音谱的谱还原技术,例如谱减法[5]和参数减法;(3)为增强语音结构,有许多基于语音模型的噪声消除技术,例如基于谐波模型的噪声消除.然而,使用这些技术来获得噪声衰减和信噪比的改善,往往会造成语音失真.通常,越干净的噪声消除会导致越严重的语音失真,因此,研究设计一个针对复杂声学环境的ASR系统,在语音失真和噪声消除之间寻找一个平衡点,是非常重要的工作.
1.3 识别系统自适应
通过一些经典的空间滤波和噪声消除技术来处理麦克风阵列在真实环境中获取的声音信号,较直接采集含噪声音,具有更好的听感知质量.但是无论系统设计多么完备,获得的加强声音中依然会有噪声残留和语音失真的问题存在,它们能被正常人轻易的接受和识别,但是目前的ASR系统却不具备这样的能力.当前几乎所有的ASR系统都采用模式识别技术,当测试数据集接近训练数据集时,能够得到非常高的识别精确度.但是噪声残留和语音失真会导致测试数据集完全不同于“干净”的训练数据集,训练和测试不匹配的问题会直接导致ASR系统识别率的降低.
为解决这些问题,前人提出许多的方法,例如模型再训练和自适应,特征变换和归一化[67],建立环境模型和模型特征一体化技术将之使用在自动语音识别模块上,能起到良好的效果.
综合考虑到对上面所述三部分的分析,所有的模块都应该整合为一体,只有通过良好的语音信号预处理和完善的识别系统自适应,才能构架一个更优异性能的ASR系统.
2 系统设计
本文提出一个简洁而具有高鲁棒性的针对CHiME问题的ASR系统.首先,依据双通道信号的空间信息增强它们,然后采用改进的谱减法获得增强信号,作为ASR系统的输入,最终得到识别结果和关键词准确率.
2.1 改进的空间增强
由于存在混响问题,使用传统方法得到双通道信号的空间信息的有效内容非常困难.另外,如果采用传统的信号增强方法,例如基于广义旁瓣相消(GSC) 的波束成型,作为ASR系统的前端,那么噪音消除会带来语音失真[8],会极大地降低ASR系统的识别性能.语音失真是由GSC多路输入抵消器(MC)的窄带自适应滤波器导致的,它既无法良好地消除噪声,同时还消耗昂贵的计算资源.
图2 空间增强
Fig.2 Spatial enhancement
本ASR系统的前端,利用双通道语音信号的优势,移除了典型GSC里的MC模型,使得在空间滤波的同时尽量避免语音失真和降低计算负担(图2).该模块的主要任务是提取参考噪声,而不再进行噪声消除.
4 结论
本文针对语音识别这一交叉性强的学科,打破传统的语音识别系统局限于利用有限的技术,不断挖掘技术潜力,来达到提高性能的研究模式,提出了一种全新的综合性构架,并取得了实质性的成效;考虑到人类听觉的生理情况,结合空间增强层得出的无目标语言的参考噪声,对谱减法模块做了积极的改变.将去除噪声操作从空间增强层移动到了效率更高的谱减法层,将噪声估计移动到空间增强层,使得整个系统的分工更加明确,以降低耦合,提高鲁棒性;使用了倒谱均值归一化实现标准39维梅尔倒频谱系数,为语音识别模块加入基于最大后验概率的自适应训练,提高了训练效率和系统整体性能.
参考文献:
[1] 宋志章,马 丽,刘省非,等.混合语音识别模型的设计与仿真研究[J].计算机仿真, 2012,29 (5):152155.
[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.
[3] 张 满,陶 亮,周 健.基于实值离散Cabor变换的谱减法语音增强[J].计算机工程与应用, 2012,48(29):109113.
[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.
[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.
[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.
[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.
[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.
[9] KAUPPINEN I, ROTH K. Improved noise reduction in audio signals using spectral resolution enhancement with timedomain signal extrapolation[J]. Speech and Audio Processing, IEEE Transactions, 2005,13(6):12101216.