摘要 摘要 随着信息技术的发展,使人与机器用自然语言进行对话的梦想一步步接近实现,人 们对交互能力的要求也越来越高。简单的语音内容的识别已经不能满足人们的要求,让 机器识别和理解语音中的情绪已经被看作最重要的问题之一。 本文首先详细介绍了语音情绪识别的现状以及机器宠物、语音、情绪等方面的概念; 概括介绍了语音识别的基本知识;并简单介绍了c o l e a 软件、录音软件c o o le d i t 和m a t l a b 软件及工具箱等。 本课题主要从实用角度,面向个人机器宠物,通过录制四个人常用话语建立语音库, 并提取语音情绪特征。本文详尽的论述了五个特征( 即能量均值、能量曲线局部极点个 数、发音的持续时间、基音频率均值和平均过零率) 的提取方法,并对比其他文献,论 证其在本课题实现上的优越性。情绪分类过程中,介绍了常见方法的基本原理,包括主 元分析法、混合高斯模型法、矢量量化和支持向量机方法。重点说明模板匹配法的使用 和优势。 课题的实现是在仿真智能机器宠物的识别并学习过程,软件的编制主要采用m a t l a b 实现语音情绪分类并构建情绪模板进行识别,取得8 5 以上的识别率。而后对识别的 结果通过人工神经网络进行学习、训练形成一定的知识库以进行进一步的识别,可达到 9 0 的识别率,个别情绪识别率已经超过9 5 。 本文在识别过程中,大略的讨论课题相关的聚类分析和模糊理论以及对课题以后的 发展有很好的启发性。识别后学习算法,提到了常见的学习算法,以及隐马尔可夫模型, 人工神经网络。 本文在最后讨论了语音情绪识别的发展,以及与其他领域的融合,包括表情识别以 及姿态识别等。 关键词:个人智能机器宠物,语音情绪特征,情绪识别,人工神经网络 a b s tr a c t a l o n gw i t ht h ed e v e l o p m e n to f 砌o n n a t i o nt e c h n o l o g y , a b i l i t yo f i n t e r a c t i o ni sd e m a n d e d m o r ea n dm o r es t r o n g y s i m p l er e c o g n i t i o no fc o n t e n t si ns p e e c ha l r e a d yc a n tm e e tp e o p l e t or e c o g n i z ea n dt ou n d e r s t a n dp e r s o n s e m o t i o nh a sb e e nc o n s i d e r e d 够o n eo ft h em o s t i m p o r t a n ti s s u e f i r s t l yt h i sp a p e ri n t r o d u c e si nd e t a i l st h ep r e s e n ts t a t u so f s p e c c he m o t i o nr e c o g n i t i o na n d t h ec o n c e p t so fm a c h i n e - p e t , s p e e c h , e m o t i o n ;i n t r o d u c e si ns l l mt h eb a s ek n o w l e d g eo f s p e e c hr e c o g n i t i o n ;a n da l s oi n t r o d u c ei ne a s es o m es o f t w a r es u c ha sc o l e a , c o o le d i t , m a t l a b , t o o l b o x a n ds oo n p r a c t i c a l l yf a c i n gp e r s o n a lm a c h i n e - p e t , s o m es p e e c he m o t i o nf e a t u r e so f u s u a ld i a l o g so f f o u rp e r s o n sa r er e c o r d e dt ob u i l ds p e e c hb a n ka n dp i c k e du pi no r d e rt os o r ts p e e c he m o t i o n s e p a r a t e l y a tg r e a tl e n # a , f i v ec h a r a c t e r s ( 1 1 1 a ti st h em e a no fe n e r g y , l o c a lt o po fe n e r g yc u e , d u r a t i o n , p i t c h ,a n dt h em e a no f z e r oc r o s sr a t e ) 施a b s t r a c t e d , c o m p a r e dt oo t h e rp a p e r s ,t h e a d v a n t a g ei sd e m o n s w a t e d i nt h ep r o c e s so fe m o t i o ns o r t , m a n yc o n l r n o nm e t h o d o l o g i e sa r e i n t r o d u c e d ,i n c l u d i n gp e a , g m m , v q ( = r a t o rq u a n t i z a t i o n ) ,s v m ( s u p p o r tv e c t o rm a c h i n e ) t e m p l a t em a t c h e dm e t h o d si si n t r o d u c e da ti m p o r t a n tp o i n t , l l s ea n da d v a n t a g ei n c l u d e d a c c o m p l i s h m e n to ft h i ss u b j e c ti s t os i m u l a t ee m o t i o nr e c o g n i t i o na n dl e a r no f i n t e l l i g e n tm a c b _ i n e - p e t m a t l a bi st h em a i np r o g r a m m i n gt o o lt or e c o g i t i z ee m o t i o ni ns p e e c h b yb u i l d i n gt e m p l a t eo fe m o t i o nu pt ot h er e c o g n i t i o n - r o t e8 5 t h es y s t e m 湖b et r a i n e d a n dt a u g h tt ob u i l dk n o w l e d g ed a t eb a s e t oo p t i m i z er e c o g r i t i o nb yi t s e l f b ya n n ( a r t i f i c i a l n e u r a ln e t w o r k ) t or e a c hm o r et h a nr e c o g n i t i o n - r a t e9 0 ,s o m ee m o t i o n sr e c o g n i t i o n - r a t e e x c e e d s9 5 i nt h ep r o c e s so fr e c o g n i t i o n , c l u s t e r i n ga n a l y s i sa n df u z z yt h e o r y d 妇d i s c u s s e di nr o u g h s o m es t u d ya l g o r i t h m sa r er e f e r r e d , s u c ha sh m m ( h i d d e nm a r k o vm o d e l ) a n da n n ( a r t i f i c i a ln e n i a ln e t w o r k ) , a tl a s t , t h i sp a p e rd i s c u s s e st h ed e v e l o p m e n to fs p e e c he m o t i o nr e c o g n i t i o na n dt h e i n t e r f u s ew i t l lo t h e rf i e l d s e x p r e s s i o nr e c o g n i t i o na n dg e s t u r er e c o g n i t i o na 他a l lg o o d e x a m p l e s 。 k e y w o r d s : p e r s o n a li n t e l l i g e n tm a c h i n e - p e tm a c h i n e - p e t , s p e e c he m o t i o nf e a t u r e s ,e m o t i o n r e c o g n i t i o n ,a n n 目录 图1 - - 1 图1 - - 2 图2 一l 图2 2 圈2 - - 3 图2 4 图2 5 图2 6 图2 7 图2 8 图3 1 图3 2 图3 3 圈3 4 图3 - - 5 图3 6 图3 - - 7 图3 - - 8 圈3 9 图3 - - 1 0 圈4 一l 圈4 2 图5 - - 1 圈5 - - 2 图5 - - 3 图5 - - 3 圈5 4 图5 5 图片目录 a i b ee r s - 2 1 0 s 。 海尔智能机器狗d 3 1 8 a 一, a i b oe r s - 3 1 1 。 一段语音信号 2 5 5 语音信号产生的离散时域模型 五种情绪下语音“过来一的原始波形图 一般语音识别系统 情感轮( e m o t i o nw h e e l ) c o l e a 软件主界面 8 9 1 0 c o o le d i tp r o1 2 a 录音界面 语音信号样本的能量均值分布 语音信号的能量曲线 语音信号的能量曲线局部极点个数对比 语音信号的持续时间对比图 语音信号的基音频率均值对比图 语音信号的平均过零率对比图 基音频率f 0 的相对稳定性 对语言信号做n 丌 1 7 1 8 对语音信号租关函数估计 语音信号的e n e g y 和z c r 简图 2 2 。2 2 利用主元分析方法进行语音情绪识别的训练和识别流程 主程序流程示意图 情绪识别简易流程 利用神经网络识别语音情绪 神经元模型 2 3 2 4 神经网络结构图 4 3 4 3 主程序结构图 面向个人机器宠物的语音情绪识别软件实现图 袭3 i 建库初期的部分数据整理, 表格目录 表3 2 各能量参数的比较 4 4 4 6 表3 3 在自相关和对数倒谱求音频频率时的部分数据比较。 表4 1 五个特征在五种情绪下的样本平均值 v 1 2 2 3 3 1 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名:粹导师签名: 日 第一章绪论 第一章绪论 无论是在过去还是现在,智能研究者们都广泛地从学术和科研领域来做大量的智能研究工作。 1 1 引言 随着信息技术的发展,各种智能产品慢慢地贴近大众生活,身边智能终端比比皆是,人类文明 进入高智能阶段,并向着更高的层次迈进。人对生活水平的要求,对精神文明的要求日益增高。 人的需求是科技创新、市场开拓的原动力。机器宠物已经不再遥不可及,开始逐渐走进家庭, 如右下图1 1 爱宝第二代,人们对人机交互能力的要求也越来越高。简单的语音内容的识别已经 不能满足人们的要求,语音信号中,除了与语言内容相关的信息之外,还包含着说话人的情感信息。 情绪信息处理及识别正在受到学者越来越广泛的重视,这些情感信息在交流中同样具有着重要的作 用,让机器宠物识别和理解语音中的情绪已经被看作推动机器宠物业进一步发展的最重要课题之一。 语音的情绪识别是目前信号处理及模式识别领域的一 个新的研究热点,该研究在信号处理、心理学研究、机器人 技术、虚拟现实技术、人工智能以及新型人机交互技术等领 域有着重要的应用价值。机器宠物,或者机器人以及人工智 能是人类文明基本的一个重要象征,同时也是控制论和自动 化中一个重要的研究方向。进入九十年代之后,语音识别的 研究进一步升温,除了连续语音听写机之外,还出现了诸多 实用化的研究方向。m m 公司率先推出的v i a v o i c e 标志着大 词汇量、非特定人、连续语音识别技术正在趋于成熟。今后 的发展方向,将由连续语音进一步进入自然话语识别与理 解,并着手解决语音识别中的一系列难题,如鲁棒性问题。图1 - - 1a i b oe r s _ 2 1 0 s 难度还会加大,但前景是乐观的。在语音识别领域,语音内容的识别和说话人的识别前期研究较多, 技术相对成熟,而语音情绪识剐则是一个相对崭新的领域。语音情绪识别不仅仅是语音识别领域内 的研究课题,心理生理等科学领域也探索中。 面向智能机器宠物的语音情绪识别研究是从实用工程的角度研究语音情绪识识别,从新的角度 研究语音情绪识别,拓展了一条新的思路,有助于语情绪识别研究的发展,更有助于提升我国机器 宠物的技术含量,增强与国外同类产品的竞争力。 1 2 语音情绪识别现状 多数学者普遍认为:语音信号中的某些特定的参数和相应情绪状态有着显著的联系。情绪识别 的研究本身是前沿性的课题,语音识别领域尽管相对完备,如语音内容的识别,说话人的识别,但 语音的情绪识别相对落后。目前情绪化语音识别研究尚属摸索阶段,情绪状态的分类和选择千差万 别,各国研究从两种到数十种不等,且各种情绪状态的明确界定还没有,甚至在基本情绪的定义上 还没有定论。整个语音情感信息处理领域还处在一个较低的水平。i l 。1 这一领域有为数不多的学校和科研机构在做,国内如东南人学学习科学研究中心和中科院自动 东南大学硕士论文 化所等。目前情绪识别大部分的研究方向在于寻找标准的或者普遍的情绪特征,进而识别出情绪, 比如:有些学者研究普通话的情绪识别。国外也有学者研究标准语( m a n d a r i n ) 的情绪识别。例 市场上的高级智能机器宠物逐渐走入家庭,并成熟销趋势市面上的机器宠物能接受、并作出 反应的信号也有多种形式,有些具有声音输入,可以进行说话人的识别( 如:日本索尼公司推出a l o o 宠物机器狗,在a j b o 机器狗记录了主人的名字,声音和面貌特征后,它就可以在人群中找到自己的 主人) 和内容的识别( 如海尔智能机器狗d 3 1 8 a ,右图1 2 所示,智能电子电路可以使它会听会看) , 从智能角度索尼的爱宝系列领先不少。还有许多文献p 4 0 1 中提到的尤罗娃娃。但具备情绪识别的几 乎没有。 首先,特征提取的手段极其局限,目前各国学者还未找 到最能体现情绪状态信息的语音特征几乎所有的研究人员 都是采用韵律特征或者这些韵律特征的线性组合和变换作 为研究对象,如基音频率、共振峰、能量,过零率、m f c c 参 数、l p c 系数等。其次,对于模式识别的手段,虽然有不同 的应用方法,如支持向量机,马尔可夫模型,主元素分析, 高斯模型分布模型( g 姒) ,神经网络等,但是由于研究项目 中使用的数据各异,而使得这些文献间类比的可能性不丈。 最后,情绪化语音识别还没有找到最有效的情绪化语音模型 和最有效的识别、分类算法。侧图1 2 海尔智能机器狗d 3 1 8 a 由于人耳和大脑对情绪化语音的识别有很好的听辨能力,而机器的识别能力还相差很远。语音 情绪识别研究对象相差极大,结果各异。i “5 ”所有成果目前还仅停留在研究阶段,没有得到广大 的研究人员的认可和应用。 1 3 课题研究价值 对于面向个人智能机器宠物的的研究,有着广泛的理论价值和实用价值: 理论价值:语音的情绪识别,不仅仅是简单的语音信号处理,涉及的专业知识很多,很多 科目交叉进行,声学、计算机科学、语言学、模式识别、人工智能、心理学、生理学,各 种分析手段,神经网络,模糊理论甚至小波分析等。课题很具有挑战性和先进性。语音情 绪的识别分析带动相关学科进步也会加深相关学科间的联系。 实用价值:研究成果必将推动语音学中自然口语的发展,与面部表情以及其他生理特征的情 绪识别相结合,在人机交互、虚拟现实语音合成,语音识别等多方面都有广泛应用价值。 商业价值:个人机器宠物已经开始在市场上流行,具备情绪识别的智能宠物会是一个很大 的卖点,无疑拓展部分市场。 对于课题的深入研究,带动其他相关的应用,如儿童玩具、病人的护理和犯罪嫌疑入的追捕对 会有很好的发展空间。 1 4 研究内容及章节安排 从个人机器宠物的工程应用角度,采取人和机器宠物建立一对一的模型,主要对四个人语音的 录制、入库、声学特征分析、情绪特征的提取、建立各自的模板、有效的对每个人生气、平静、喜 悦、悲伤、厌恶五种情绪进行情绪分类,神经网络的方法识别和学习。进而在个人智能机器宠物实 现理论分析阶段基本实现了语音的情绪识别。课题分为四个步骤进行,即语音样本库的建立,语音 2 第一章绪论 情绪特征分析、构建情绪模板进行识别和情绪识别的学习。 本文的章节安排如下; 第二章介绍课题所涉及的理论知识和技术,包括机器宠物的介绍,语音和情绪的基本知识,语 音识别的技术和算法的介绍,语音情绪识别的背景知识以及相关的软件和工具箱的说明等。 第三章着重讲语音情绪特征的提取,包括建立语音库,介绍国内外提取特征,并简单比较最后 讲课题所采用的办法和提取的特征。 第四章提到情绪识别的关键问题,包括识别的类别分析,识别技术的介绍,本课题的模板匹配 法,并与相关领域进行了识别率方面的对比。 第五章探讨了识别以后的学习算法,包括领域内常见的和自己采用的隐马尔可夫模型和人工 网络的学习策略以及自动学习和手动学习机制。 最后阐述自己所做的主要工作,以及在课题设计中的一些体会,并对下一步的工作提出了一些 见解,以及今后发展提出了一些设想。 3 东南大学磺士学位论文 第二章相关理论与技术 语音情绪的识别是综合的学科,是交叉的学科,不仅包括了自然科学中的语音,识别算法等技 术,而且包含了社会学中的心理学、人类情绪等学科。 s 5 1 2 1 机器宠物 机器宠物,顾名思义,供家庭或者个人娱乐、解闷等用途的人工制造的玩伴。具有可观赏、无 危害、高智能等特点。一般机器宠物,应该具有自己活动、发出声音或者显示指示灯等输出信号, 高智能的机器宠物能够接受入的控制、甚至声音、图像等遥控的输入信号。换句话说。机器宠物除 具备一定的外观、质地外,最主要的是运用现代人工智能技术。 现代人工智能技术研究是继数码电脑之后在2 0 世纪5 0 年代开始的。1 9 5 0 年,数学家a l a n t u r i n g 就这一技术研究发表了其名为“计算机和智能技术”的科普文章。在这文章里作者谈到了关于制造智 能机器所需的各种条件。1 9 5 6 年,在d a r t m o u t hc o l l e g e 的 一次会议上,一群想模仿人脑设计一台电脑的科研者聚在 了一起,由此对于智能技术的研究便正式开始了。【i q 机器宠物,属于机器人的范畴是家庭版的机器人。 机器狗是当今娱乐机器人中最典型的代表,也是最受广泛 关注的机器人。当今的机器人已经从工业制造等领域进入 到寻常百姓家,当今机器人已越来越贴近我们的生活。如 右图( 图2 - - la i b oe r s 3 1 1 ) 所示。为索尼的爱宝第三 代产品。 索尼数字动物实验室主任、被誉为。爱宝之父”的 土井藤志声称8 0 年代是p c 机时代9 0 年代是互联网时 代他相信即将到来的下个1 0 年是机器人的时代。 图2 - - 1a i b oe 船一3 1 1 未来大多数的家庭将会拥有私人机器人,并且这些机器人的性能将越来越完善:这些机器人能 够同人们自然地交谈,闲聊最新的话题。随着科技的发展,他们也可能会被赋予感情因素,与人的 关系也将越来越亲密。 由于现在市场上便宜的微型处理器和研究者对人脑及d n a t 作方式的重大发现,人工智能( a i ) 或者称之为使机器如人一样思维的科技一步步地由晟初的设想似乎开始变为现实。实际上,大多数 人工智能研究者认为,要使机器变得跟人一样具有智慧,也许只是时间的问题。1 “j 2 2 1 语音 2 2 语音信号 语音对我们来说,非常熟悉,最普遍的交流方式,几乎每时每刻都在通过语音传递着自己的思 想。语音是人的发卢器官发出的一种卢波,同时也是从人们的话语中概况总结出来的规律性的符号 系统。如图2 1 所示,语音可以描述成一种有一定振动特点的信号。语音包括构成语言的词素、词、 4 第二章课题相关理论与技术 短语和句子等的不同层次的单位,以及词法、句法、文脉等语法和语义内容等。语音除了自身的属 性外还具有社会属性,社会属性首先体现为语音与语义的结合由社会约定俗成,离开了社会的约定 俗成,就没有语言的产生,也就没有语音的存在。语音的社会属性还体现为语音的民族性和地域性。 圈2 - - 2 一段语音信号 语音是声音和语言的结合体,具有一定的音色、音调、音强和音长。其中,音色也叫做音质, 是一种声音区别于另一种声音的基本特征。具体的讲是包括频率成分的多少。任何语言都有语音的 元音和辅音两种音素。元音:气流从声腔( 喉腔,咽腔和唇腔) 顺利通过发辅音时声带是否振动引 起浊音和清音的区别。元音的一个重要声学特性是共振峰( f o r w a n t ) 。共振峰参数包括共振峰频率 的位置和频带宽度。浊音的声带振动基本频率( f u n d a m e n t a lf r e q u e n c y ) 又称基音频率,_ 般用f o 表示。 通过对发声器官和语音产生机理的分析,可以将语音生成系统分为三个部分,在声门( 声带) 以下,称为“声门子系统”,它负责产生激励振动,是“激励系统”;从声门到嘴唇的呼气通道是声 道,是“声道系统”;语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统”图2 - - 3 是语音信号产 生的整体的离散时域模型。 图2 - - 3 语音信号产生的离散时域模型 5 东南大学硕上学位论文 从人的发音器官的机理来看,发不同性质的声音时,声道的情况是不同的。另外,声门和声道 的相互耦合,还形成语音信号的非线形特性。因此,语音信号是非平稳随机过程,其特性是随着时 间变化的,所以模型中的参数应该是随着时间而变化的。但语音信号特性随着时间变化是很缓慢的。 所以可以作出一些合理的假设,将语音信号分为一些相继的短段中可以认为语音信号特性是不随着 时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时,可以采用线形时不变模型。贯 穿于语音分析全过程的是“短时分析技术”,短时间范围一般来讲取l o 3 0 m s 。“” 由于语音信号的时变特性,以及信息量大的缘故,特征提取必须在- 4 , 段语音信号上进行,也 即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1 2 或 l 3 。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。 2 2 1 情绪 情绪一词对我们并不陌生,是在人的生活中经常碰到的一个生命现象。虽然并不能拿出一个实 物,时时刻刻都能感受到情绪的存在。情绪这术语,按照蒙芮( m u r r a y ,1 8 8 8 ) 字典,来自拉丁文外) 和m o v c r e ( 动1 ,意思是从一个地方向外移动到另一个地方。l l 刀 情绪( e m o t i o n ) 代表着感情性反映 的过程。在本世纪l 巩英国心理学家铁钦纳( t i t c h e o e r ,b 1 8 6 7 一u 2 7 ) 在他所著的心理学教科书 中说:叶眚绪心理学目前在颇大程度上还只是个人意见和个人信念的心理学。”自从詹姆士( j a m e ,n ) 首次提出情绪理论后的1 0 0 年间,在经过几十年的缓慢进程将近2 0 年中,对情绪心理学的科学研究已 经有了相当的进步或者可以说,已经有了一些质的变化。 以语音为例,如图2 4 所示,同样是说出“过来”一词,但在生气、平静、喜悦、悲伤、厌恶五 种情绪状态下,语音信号的波形图是很不同的,说明语音信号中识别情绪的必要性和可行性,语音信 号中的某些特定的参数和相应情绪状态有着显著的联系。有些科学家形象的把声音包含的这种独特 性称为“声纹”,类比于指纹。 图2 4 五种情绪下语音。过来”的原始波形图 情绪是多成份的复合过程。它包括内在体验、外显表情和生理激活这三种成份。首先,认识过 程是平淡而无情的。情绪则带有独特的主观体验的色彩具有某种愉快、享乐、忧愁或悲伤等多种享 乐色调。情绪具有多绝望结构。冯得( w u n d t l w ) 于1 8 9 6 年提出情绪的三维学说。冯持认为感情过程 6 第一二章课题相关理论与技术 是由三对感情元素构成的。每一对感情元素都具有处于两极之间的程度变化。它们是愉快、不愉悦: 兴奋,沉静;紧张、松弛这三个维量。“” 美国心理学家维廉瞻姆士( i i l i a , j a m e s :1 8 4 2 一1 9 1 0 ) 和丹安生理学家卡尔兰格( c a r ll a n g e ) 分别予1 8 8 4 和1 8 8 5 年提出相同的情绪理沧,后来被称为詹姆士一兰格情绪的外周学说。他坚持主张 情绪是身体变化的感觉;使人激动的外部事件而引起的身体变化是情绪产生的直接原因。【1 日 从基本的生理、表达以及语义上来看,定义五种基本情绪:f 1 1 ( 1 ) 恐惧定义为身体上的或者社会的给自身或者有价值的东西或目标构成威胁。 ( 2 ) 生气定义为由于其他人或物有意识的行为导致了效果的沦陷或者目标的挫败。 ( 3 ) 厌恶定义为排除或者远离与自身和有价值的东西和目标排斥的人、物或者思想。 ( 4 ) 悲伤定义为有价值的东西或目标丧失或失败( 真实的或者可能的) 。 ( 5 ) 喜悦定义为成功的朝有价值的东西靠近或者争取目标。 在人类交流时,非言语的信息占有很大一部分。特别的是,通过使用情绪信息人与人之间能够 交流的更和谐。非言语信息的交流在所有交往形式的中是很重要的,而且有些时候比言语信息更重 要,可以说非言语的交流是人类交流的基础。l l ” 2 3 1 语音识别概述 2 3 语音识别技术和算法 语音是人类进行信息交换的一种最便捷的方式,近些年来随着计算机、通讯技术的发展,语音识 别技术的重要性进一步得以体现。i l6 j 语音识别( s p e e c hr e c o g n i t i o n ) 主要指让机器听懂人说的话, 准确地识别出语音的内容,从而根据其信息,执行人的各种意图。i l 可 如图2 5 给出了一般语音识别系统的组成框图。识别预处理的过程主要是对通过话筒或电话线 路输入的语音信号进行数字化采样、在语音检测部分切出语音区间、经过语音分析部变换成特征向 量;在语音识别部分根据单词字典和文法的约束进行语音特征向量的时间序列和语音声学模型的匹 配,输出识别结果;然后或直接把识别出的单词或由单词列组成的句子输出给应用部分,或把识别 结果转接成控制信号,控制应用部分的动作。 语音识别技术以语音信号处理为研究对象,涉及语言学、计算机科学、信号处理、生理学、心 理学等诸多领域,是模式识别的重要分支。该技术有非常广阔的应用前景,从6 0 年代至今,世界许 多著名公司不借投入巨资进行开发研究。我国的北京大学和中科院声学研究所一直紧跟国际水平, 进行汉语语音识别技术的研究工作。5 0 年代,是语音识别研究工作的开始时期,它以贝尔实验室研 制成功可识别。6 0 年代,计算机广泛应用于语音识别的研究工作中,动态规划和线性预测分析技术 是这一时期的重要成果。7 0 年代,语音识别的研究取得了突破性进展。基于线性预测倒谱和动态时 间规整技术的特定人孤立语音识别系统放研制成功,提出了矢量量化和隐马尔可夫模型理论。8 0 年代,语音识别的研究工作进一步深入。其标志是人j 神经元网络在语音识别中的成功应用。9 0 年 代,随着计算机技术的飞速发展,语音识别正从研究走向实用,其研究成果已达到相当高的水平。 2 0 0 0 年,上e 象美国微软公司总裁所说的那样,语音识别技术将使计算机丢掉键盘平鼠标。这无疑将 改变我们许多人的工作和生活方式。 一个语音识别系统性能好坏的关键首先是它所采用的语音模型能否真实地反映话音的物理变化 规律,所用的语言模型能否表达自然语言所包含的车富语言学知识。然而无论是语音信号还是人类 的白然语言都是随机、多变和不稳定的,很难把握。这就是目前语音识别过程中的最大难点。 7 东南大学硕士学位论文 图2 5 一般语音识别系统 语音识别的关键技术包括特征参数提取技术、模式匹配准则及模型训练技术、语音识别单元选 取。i j 7 1 目前主流的语音识别技术是基于统计模式识别的基本理论,一个完整的语音识别系统可大致 分为三部分:【嘲 ( 1 ) 语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。 ( 2 ) 声学模型与模式匹配( 识别算法) :声学模型通常将获取的语音特征通过学习算法产生。在 识别时将输入的语音特征同声学模型( 模式) 进行匹配与比较,得到最佳的识别结果。 ( 3 ) 语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法梅成的 语言模型,语言处理可以进行语法,语义分析。对小词表语音识别系统,往往不需要语言处理部分。 语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语 义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器 来说。识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有豳难。 语音识别系统按照不同的角度、不同的应用范围、不同的性能要求会有不同的系统设计和实现, 也会有不同的分类。一般语音识别系统按不同的角度有下面几种分类方法: ( 1 ) 孤立词、连续词、连续语音识别系统以及语音理解和会话系统。 , ( 2 ) 大词汇、中词汇平小词1 汇量语音识别系统。 ( 3 ) 特定人和非特定人语音识别系统。 计算机语音识别是一个模式识别匹配的过程。在这个过程中,计算机首先要根据人的语音特点 建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的 模板。而计算机在识别过程中要根据语音识别的整体模型,将计算机中存放的语音模板与输入的语 音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模饭。 然后,据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的 选择、语音模型和语言模型的好坏、模板是否准确等都有直接的关系。 8 第二章馔题相关理论与技术 语音识别所采用的方法也可以作为语音识别系统分类的依据,冈此,也有从识别方法上来对语 音识别系统进行分类的。语音识别方法一般有模板匹配法、随机模型法和概率语法分析法三种。除 了基本的三种外,还有许多其他的识别方法。其中最重要的是基于人工神经网络的语音识别方法。 2 3 2 语音情绪识别 近年来,许多研究关心人机界面。最近,除了人与人交流,人与机器或者智能计算机的交流变 得愈来愈普遍。为了实现普通的电脑界面能达到人对电脑和对人一样,电脑的情绪识别是需要的。 情绪识别有很多方面,表情识别和语音的情绪识别都是情绪识别的分支,表情识别指根据提取的特 征信息,用适当的分类器或聚类算法进行表情识别和分类。 为完成人与机器更亲密的和更人性化的交互,使用语言的和非语言的信息将很基本。为了完成 一种智能的人机界面系统,这种系统可以识别非语言的信息,比如意图、情绪和用户的感情。如果 计算机能够识别人类情绪也能表达人类自己的情绪,人机交互自然会改善。 语音的情绪( e m o t i o n ) 识别也有些教材和文献中也称为情感( a f f e c t i v e ) 识别。比如像文献“q 提到,要研究语音信号的情感,首先需要根据某些特性标准对语音情感做一个有效合理的分类,然 后在不同类别的基础上研究特征参数的性质。经过p l u c t c h i k 等人的多年研究,通过在激活评价空间上对情感进行分析,认为情感分析在一个圆形的结构上,结 构的中心是自然原点。对予自然原点,认为它是一种 具有各种情感因素的状态,但是由于这些情感因素在 该点的强度太弱而得不到体现。通过向周围不用方向 的扩展,表现为不同的情感。情感点同自然原点之间 的距离体现了情感的强度。由于各种情感在自然原点 的周围排成了一个圆形,所以这种对情感进行分类的 方法叫做。情感轮( e m o t i o nw h e e l ) ”。【l ”如图2 6 所示。对于任何一个情感语句,可以根据其情感强度 和情感方向,在情感轮所组成的二维平面中用唯一的 一个情感矢量重来表示。其中情感情度表现为这个情感 矢量的幅度值,而情感方向劂表现为该情感矢量的角 度。图2 - - 6 情感轮( e m o t i o nw h e e l ) 情绪检测用来探索适应情绪状态、习惯和居住环境里的生存条件。这篇论文分析了用于情绪识 别四个生理信号的特性。l l w 结果表明在区别中性和非中性情绪状态时咬肌肌电图是最好的标志。利用自组织神经网络用于 改善聚类分离,区分正性和负性情绪时,皮肤传导力的梯度表现出最好的结果。 情绪包括了一个特定处境的意识、明显的表达和行为、迅速的行动以及随着主体感情的生理上 的变化。生理上的度量常常包括一个或者多个特征,比如:心率,血量、血压、皮肤阻抗或者电导 ( 电流的皮肤响应,g s r ) 、脑电图、乳头响应、眼动电圈( 眼睛移动) 、肠胃蠕动、肌电图( 肌肉活 动) 、皮肤温度、大脑潜能和呼吸频率。其他的测量都是面部的和声音的。 真实生命语音的情绪检测一个最主要的挑战是分类和解释。通常使用三类情绪解释:估量维、 抽象维和最将遍的言辞分类。事实上,人多数的情绪检测研究只是集中使用情绪的最小基元在语义 上分类。这样真实生命数据解释的挑战就成了一个有系和有限的标签集以及适当的解释系统。 随着语音学、生理学和心理学的融合,情绪识别技术能够提供一个语音模型,这个模型可以改 善语音分析平语音识别的质量。 9 东南大学硕上学位论文 2 4 软件及其工具箱介绍 主要的编程语音是= m a t l a b6 5 ,w a t l a b 软件是语音识别系统中有效。方便的工具,提供了强大 的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、便捷地与其他程序和语言接 口的功能。 i l i a t l a b 这个软件在语音信号处理方面具有很大的优势,提供了强大的计算、纺真、矩阵处理和 绘图功能,很多专家因此在自己擅长的领域用它编写了许多专门的姒t l a b 工具箱( t o o l b o x ) 自己 在m a t l 曲6 5 的工具箱里添加了几个工具箱: ( 1 ) v o i c e b o x 语音处理m a t l a b 工具箱,最常用的语音处理工具箱,是一个不错的语音编码 m a t l a b 工具箱,用于语音编码、语音压缩和语音识别。 ( 2 ) m a t l a b 之语音处理与合成工具箱。1 专门的语音分析、处理合成,并可以演示的功能 全面的工具箱。 ( 3 )c o l e a :美国德克萨斯州大学电子工程系开发的一套进行语音分析的m a t l a b 程序。主界 面如下图,图2 7 所示。 图2 7 蚴软件主界面 m a t l a b 添加工具箱很方便,没有复杂的编程,可以用一个简单的函数,a d d p a t h 就可以轻松加 载,也可以更方便的使用菜单操作。 m a t l a b 由于其强大的数据处理能力和丰富的工具箱,使得它的编程较为简单,可以极大地缩短 应用程序开发周期,提高编程效率和缩短理论方案研制周期。对于纯理论方案来说,w a t l a b 语言的 优势较多。简洁方便的图形用户界面( g u i ) 设计功能,可以设计出良好的界面而不需复杂的程序实 现,让开发者从复杂的界面设计中解脱出来,投入到算法的设计中。 g u i 的编程面向对象,对象之间直接采用句柄调用,回调函数把自己的幽数和工具箱之闻的幽 数完美的结合在一起。 川到有很多语音处理的函数,w a t l a b 自带或者有专门的:具箱可以采用,这是其他编程语言所 不具备的,比如: 文件操作函数:u i g e t f i l e ( f i l t e r s p e c ,t i t l e ) 录音函数:w a y r b c o i l d ( n ,f s ,c h ) 语音分帧函数:e n f r a m e ( x ,l e n ) 1 0 第二章课题相关理论与技术 声音播放:w a v p l a y ( y ,f s ) 画图函数:p l o t 神经网络学习:n n t o o l 等等。都不需要另外编制。 录音软件c o o le d i tp r ov e r s i o n1 2 a ,这是一个多轨录音,音频编辑软件,它是c o o le d i t2 0 0 0 的专业版本,采样频率设为1 1 0 2 5 h z ,单声道( m o n o ) ,1 6 一b i t 的录制方式,c o o le d i t 录制成标准 格式的张v 文件。主界面如下图,图2 - - 8 所示。 统计记录软件采用m i c r o s o f te x c e l 和w p s 表格,后者虽然功能弱些,但占用资源和空间小, 处理数据速度快,比较适合少量数据的统计,整理和分析。 图2 - - 8c o o le d i tp r o1 2 a 录音界面 此外,考虑到m a t l a b 运行速度慢的情况,部分算法采用了c 语言的编制,有很多算法,已经有 了成熟的c 程序,只需稍做修改。m a t l a b 与c 语言之间的相互调用,涉及到了a p i ( 应用程序接口) 问 题。m e x 文件是一种。可在m t l a b 环境中调用的c 语言衍生程序。口1 】m e x 文件的源码文件是由c 语言 编写的,后经m a t l a b 编译器处理而生成的二进制文件;它可以被m a f l a b 解释器自动装载并执行的动 态链接程序,这种文件在w i n d o w s 下是d m 文件。很多程序员称:m e x 是m a f l a b 与c 之间的桥梁。 小结 本章介绍课题研究的相关理论和技术,内容包括:机器宠物的基本背景,语音的概念、特点、 模型,情绪的概念,分类,语音识别的基本内容,发展,语音情绪识别概念、基本方法,以及课题 研究过程中用到的软件、编程语音、j u 恿箱等。 东南大学硕士学位论文 第三章语音情绪特征的提取 声学特征的提取与选择是语音识别的一个重要环节,声学特征的提取既是一个信息大幅度压缩 的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。g 翻 3 1 语音库的建立 建立语音库是语音识别中晟初的一步,也是其中一个重要环节。 本课题建立语音库从四点出发: 第一,个人机器宠物,当然是自己专属,最好是只昕主入的要求,所以文的语音库区别于许多 文献所提到的标准语音库2 4 2 5 l 或者从影片截取或者找特定演员现场录制。因为要研究一定的普实 行,从实际出发,从身边着手,真正的贴近自己的生活,所以录制了实验室同学包括自己共四个人 的语音。之所以录制四个人,是为了特征提取时的相互对照,也是考虑到系统特征提取方法的稳定 性和面向对象的普适性。 第二,面对机器宠物,情绪表现并不多,一些文献所提到的恐惧、惊讶等情绪,不会出现在与 机器宠物的交流上,根据研究回2 ”表明以及自己课题的需要,常用的情绪也就是:生气、平静、喜 悦、悲伤、厌恶五种情绪。 一 第三,我们对待机器宠物很少长篇大论,机器宠物现阶段,识别词语并不多。而且由于人的语 音情绪在说话的开始几秒钟已经确定。话语也相对较少,构建语音样本库的样本数,在特征提取方 面相对简单这样大大减少。我们建立语音库录制时,每个人分别用自己自然的五种情绪说出“过来”、 快跑等时语音。 第四,机器宠物的活动空间,基本是室内或者正常的人活动空间,我们选择采用在正常的作息 时间里在普通的室内环境录制。 需要说明的是:( 1 ) 考虑到人的声音同样的情绪语句在不同情况下有所变化,为增加识别的广 泛性,录制可在不同的作息时间段内进行。( 2 ) 录制的四个人各自有自己的库,录制分别入库进行 分
相关知识
智能机器宠物的设计与实现
模式识别与视觉感知
最新最全论文合集——基于机器学习/深度学习的情绪识别
语音情感识别调研
基于宠物游戏的智能教学系统
一种利用宠物语音信号识别情绪的方法及系统与流程
一种基于人工智能的智能动物情绪识别操控系统.pdf
AI智能语音宠物语言识别软件正版下载
【重要通知】第七届中国模式识别与计算机视觉大会(PRCV 2024) 征稿通知
科技与智能加持的机器宠物狗
网址: (模式识别与智能系统专业论文)面向智能机器宠物的语音情绪识别研究.pdf https://m.mcbbbk.com/newsview362449.html
上一篇: 华人小哥搞出一个鸡鸣狗叫GPT, |
下一篇: 怎么判断宠物猫有压抑情绪 |