本发明涉及声信号识别领域,尤其涉及一种利用宠物语音信号识别情绪的方法及系统。
背景技术:
1、家养物种被认为是研究种间关系和交流的合适对象,因为驯化、人工选择和与人类的密切共存塑造了它们的行为和社会认知能力,有利于相互理解、有效沟通和情感联系。动物一般是通过动作、姿态、声音等行为来表达情绪,因此,在相关技术中,通常需要一些经验丰富的人员根据动物的特定行为来识别动物的情绪。然而人工经验有限,且人们对动物情绪的认知局限于长期的经验总结和直觉判断,因此如何实时有效地感知动物情绪成为了一种较为新颖的研究方向,现有的基于声信号的宠物情绪识别方法主要包含宠物位姿识别和基于机器学习的诊断方法,这里的宠物包括比如宠物狗和宠物猫,也涵盖其它家养宠物或动物。
2、基于宠物位姿情绪识别的方法属于计算机视觉技术,对宠物的姿态和表情进行分析,从而判断宠物的情绪和状态。该方法通过对宠物的图像或视频进行分析,来判断宠物的情绪状态,如高兴、生气、害怕等。该方法的缺点是情绪场景不充分,导致预测不准确。
3、基于机器学习的声信号方法就是利用计算机对大量的数据进行分析研究,寻找数据内部的分布规律,从而建立数学模型并利用该模型对未知数据进行预测,缺点是准确率不是很高。
4、基于深度学习的情绪识别方法需要对采集到的声信号进行时频特征提取,再使用神经网络对特征进行学习及分类,该技术虽然原理简单,但由于提取多模态特征,会使计算成本增加。
5、总体而言,现有的针对宠物情绪判别的方法,存在检测成本高、稳定性差、实时性低等缺点。
技术实现思路
1、为解决上述技术问题,本发明提供一种利用宠物语音信号识别情绪的方法,包括步骤:
2、s1:获取宠物的语音信号,对语音信号进行预处理,获得可用语音信号;
3、s2:对可用语音信号进行多特征提取,获得多种特征图;对多种特征图进行拼接,获得融合特征图;
4、s3:构建情绪识别模型,情绪识别模型包括:alexnet网络、mobilenetv2网络和resnet34网络;
5、s4:将融合特征图分别输入alexnet网络、mobilenetv2网络和resnet34网络,获得第一识别结果、第二识别结果和第三识别结果;
6、s5:对第一识别结果、第二识别结果和第三识别结果进行融合处理,获得最终识别结果。
7、优选的,步骤s1具体为:
8、s11:获取语音信号的音频,在音频上设置语音窗口;设置检测窗口,通过检测窗口在语音窗口内滑动进行分帧处理,获得多帧语音信号,计算每一帧语音信号的短时能量;
9、s12:若各帧语音信号的短时能量的总和与语音窗口的能量比值大于阈值,则判断语音窗口内的语音信号为可用语音信号;否则判断为不可用语音信号;
10、s13:重复步骤s11-s13,将音频上的不可用语音信号剔除,获得音频上的可用语音信号。
11、优选的,步骤s2具体为:
12、s21:对可用语音信号分别进行语谱、logmel频谱、mfcc、色度、音调网络、光谱对比度特征提取,获得语谱特征图、logmel频谱特征图、mfcc特征图、色度特征图、音调网络特征图和光谱对比度特征图;
13、s22:将语谱特征图作为主特征,其它特征图作为辅助特征,依次将语谱特征图、logmel频谱特征图、mfcc特征图、色度特征图、音调网络特征图和光谱对比度特征图进行顺序拼接,获得融合特征图。
14、优选的:
15、alexnet网络包括依次连接的第一卷积网络、第一full connect模块、第一dropout模块和第二full connect模块。
16、优选的:
17、mobilenetv2网络包括依次连接的第二卷积网络、第三full connect模块、第二dropout模块和第四full connect模块。
18、优选的:
19、resnet34网络包括依次连接的第三卷积网络、第五full connect模块、第三dropout模块和第六full connect模块。
20、优选的,步骤s5具体为:
21、s51:获取第一识别结果、第二识别结果和第三识别结果的softmax函数的输出概率pij,其中i表示识别结果的编号,j表示第i个识别结果的第j个数据;
22、s52:计算获得第i个识别结果的第j个数据的信息熵eij,计算公式为:
23、
24、其中,n为识别结果的总数,n≤3;
25、s53:计算获得第i个识别结果的总信息熵ei,计算公式为:
26、
27、其中,j为第i个识别结果的数据总数;
28、s54:计算获得第i个识别结果的权重,计算公式为:
29、
30、s55:计算获得最终识别结果s,计算公式为:
31、s=w1×softmax1+w2×softmax2+w3×softmax3
32、其中,softmax1为第一识别结果的softmax函数值,softmax2为第二识别结果的softmax函数值,softmax3为第三识别结果的softmax函数值。
33、一种利用宠物语音信号识别情绪的系统,包括模块:
34、语音预处理模块,用于获取宠物的语音信号,对语音信号进行预处理,获得可用语音信号;
35、特征图融合模块,用于对可用语音信号进行多特征提取,获得多种特征图;对多种特征图进行拼接,获得融合特征图;
36、情绪识别模型构建模块,用于构建情绪识别模型,情绪识别模型包括:alexnet网络、mobilenetv2网络和resnet34网络;
37、情绪识别模块,用于将融合特征图分别输入alexnet网络、mobilenetv2网络和resnet34网络,获得第一识别结果、第二识别结果和第三识别结果;
38、识别结果融合模块,用于对第一识别结果、第二识别结果和第三识别结果进行融合处理,获得最终识别结果。
39、本发明具有以下有益效果:
40、通过计算语音信号的能量对语音信号进行预处理,剔除语音中的空白段,留下可用语音信号,以此节约计算成本和时间;通过多特征提取可以从不同的角度进行特征提取,对同一段音频进行多维度分析和拼接,获得最好的融合特征图;通过多种网络对同一个特征图进行分析,每个网络提取不同维度的特征,同时使用熵权法对每个网络的识别结果进行融合,得到最终识别结果,很大程度上缓解了梯度消失和梯度爆炸等问题,同时还具有很高的情绪识别准确率。
技术特征:
1.一种利用宠物语音信号识别情绪的方法,其特征在于,包括步骤:
2.根据权利要求1所述的利用宠物语音信号识别情绪的方法,其特征在于,步骤s1具体为:
3.根据权利要求1所述的利用宠物语音信号识别情绪的方法,其特征在于,步骤s2具体为:
4.根据权利要求1所述的利用宠物语音信号识别情绪的方法,其特征在于:
5.根据权利要求1所述的利用宠物语音信号识别情绪的方法,其特征在于:
6.根据权利要求1所述的利用宠物语音信号识别情绪的方法,其特征在于:
7.根据权利要求1所述的利用宠物语音信号识别情绪的方法,其特征在于,步骤s5具体为:
8.一种利用宠物语音信号识别情绪的系统,其特征在于,包括模块:
技术总结
本发明提供一种利用宠物语音信号识别情绪的方法及系统,包括:获取宠物的语音信号,对语音信号进行预处理,获得可用语音信号;对可用语音信号进行多特征提取,获得多种特征图;对多种特征图进行拼接,获得融合特征图;将融合特征图分别输入AlexNet网络、MobileNetV2网络和ResNet34网络,获得第一识别结果、第二识别结果和第三识别结果;对第一识别结果、第二识别结果和第三识别结果进行融合处理,获得最终识别结果。本发明通过多种网络对同一个特征图进行分析,每个网络提取不同维度的特征,同时使用熵权法对每个网络的识别结果进行融合,得到最终识别结果,很大程度上缓解了梯度消失和梯度爆炸等问题,同时还具有很高的情绪识别准确率。
技术研发人员:余永升,曾强,祝锐,袁小红
受保护的技术使用者:海纳科德(湖北)科技有限公司
技术研发日:
技术公布日:2024/1/15
相关知识
一种利用宠物语音信号识别情绪的方法及系统.pdf
一种宠物情绪识别方法及系统与流程
一种宠物情绪识别方法及系统
一种识别宠物情绪的方法、装置及宠物可穿戴设备
语音情感识别调研
一种宠物情绪识别的方法和终端
一种宠物情绪识别的方法和终端专利
一种公共场所中的异常宠物行为的检测方法、装置及系统与流程
一种宠物情绪识别方法及装置与流程
车内宠物服务方法、装置、车辆及存储介质与流程
网址: 一种利用宠物语音信号识别情绪的方法及系统与流程 https://m.mcbbbk.com/newsview114074.html
上一篇: 秋季狗狗过敏大揭秘:如何应对“敏 |
下一篇: 宠物狗真的拥有感知主人情绪的能力 |