摘要: 本发明提供了一种基于神经网络的宠物声音识别方法,对宠物声音波形的振幅进行归一化,计算归一化后的波形图的波形包络和振幅平均值,求出波形包络所有的极大值,根据极大值、振幅平均值以及预设时间确定峰值,根据峰值将波形图分为多个片段;计算片段平均值,若片段平均值大于左右相邻片段的平均值,则将片段标记为待识别片段,否则标记为噪声片段;利用待识别片段左右相邻两侧的噪声片段对待识别片段降噪;将降噪后的每个待识别片段的频谱分别输入训练好的神经网络中得到类别及类别对应的概率,根据每个待识别片段的类别、概率和待识别片段之间的时间间距得到宠物的情感...
主分类号:
G10L17/26(2013.01)(讲话者辨认或验证)
权利要求:
1.一种基于神经网络的宠物声音识别方法,其特征在于,所述方法包括以下步骤: S1,获取宠物声音文件,对所述宠物声音波形的振幅进行归一化,计算归一化后的波形图的波形包络和振幅平均值,求出所述波形包络所有的极大值,根据所述极大值、所述振幅平均值以及预设时间确定峰值,根据峰值将所述波形图分为多个片段; S2,对于每个片段,计算片段平均值,若所述片段平均值大于左右相邻片段的平均值,则将片段标记为待识别片段,否则标记为噪声片段;利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪; S3,将降噪后的每个所述待识别片段的频谱分别输入训练好的神经网络中得到类别及类别对应的概率,根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息。 2.如权利要求1所述的宠物声音识别方法,其特征在于,所述根据所述极大值、所述平均值以及预设时间确定峰值,根据峰值将所述波形图分为多个片段,具体包括: 当极大值大于所述平均值的预设倍数时,获取以所述极大值为中间点,预设时间范围内的最大值点,若所述极大值和所述最大值为同一点,则将所述最大值作为峰值,若所述极大值和所述最大值不为同一点,则将所述最大值作为中间点,获取以所述中间点为中心,预设时间范围内的最大值点,直到最大值点和中间点为同一点,将所述中间点作为峰值; 获取距离所述峰值大于预设时间且距离所述峰值最近的n个采样点,所述n个采样点的平均振幅小于所述振幅平均值且n个采样点振幅的平均差小于阈值,以所述n个采样点的中间位置作为分割点,将所述波形图分为多个片段。 3.如权利要求1所述的宠物声音识别方法,其特征在于,所述利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪,具体为:分别将所述待识别片段和左右两侧的噪声片段从时域转换到频域,计算左右相邻两侧的噪声片段频域中相同的频率及相同频率的幅度的平均值;在所述待识别片段的频域中减去所述相同频率的幅度的平均值,得到降噪后的待识别片段频域。 4.如权利要求1所述的宠物声音识别方法,其特征在于,所述根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息,具体为: 对于每个待识别片段,判断所述待识别片段前面是否有待识别片段,若没有则将所述待识别片段去除,计算与前一个待识别片段的时间间距,根据所述时间间距得到权重,利用所述权重计算得到神经网络输出的每个类别的新概率值; 计算所有待识别片段相同的分类对应的新概率值的平均值,将平均值最大的分类作为宠物情感,根据平均值标识所述宠物情感的强烈度。 5.如权利要求1所述的宠物声音识别方法,其特征在于,所述根据所述时间间距得到权重,利用所述权重计算得到神经网络输出的每个类别的新概率值,具体为: 根据公式计算第j个所述待识别片段的权重,其中,tj为第j个待识别片段与前一个待识别片段的时间间距大小,n为所述待识别片段个数,j为正整数,且1≤j≤n; 根据公式计算第j个所述待识别片段第k个类别的新概率值为神经网络输出的第j个所述待识别片段第k个类别的概率值,其中,j为正整数,且1≤j≤n。 6.一种基于神经网络的宠物声音识别系统,其特征在于,所述系统包括以下模块: 分段模块,用于获取宠物声音文件,对所述宠物声音波形的振幅进行归一化,计算归一化后的波形图的波形包络和振幅平均值,求出所述波形包络所有的极大值,根据所述极大值、所述振幅平均值以及预设时间确定峰值,根据峰值将所述波形图分为多个片段; 预处理模块,用于对于每个片段,计算片段平均值,若所述片段平均值大于左右相邻片段的平均值,则将片段标记为待识别片段,否则标记为噪声片段;利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪; 情感识别模块,用于将降噪后的每个所述待识别片段的频谱分别输入训练好的神经网络中得到类别及类别对应的概率,根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息。 7.如权利要求6所述的宠物声音识别系统,其特征在于,所述根据所述极大值、所述平均值以及预设时间确定峰值,根据峰值将所述波形图分为多个片段,具体包括: 当极大值大于所述平均值的预设倍数时,获取以所述极大值为中间点,预设时间范围内的最大值点,若所述极大值和所述最大值为同一点,则将所述最大值作为峰值,若所述极大值和所述最大值不为同一点,则将所述最大值作为中间点,获取以所述中间点为中心,预设时间范围内的最大值点,直到最大值点和中间点为同一点,将所述中间点作为峰值; 获取距离所述峰值大于预设时间且距离所述峰值最近的n个采样点,所述n个采样点的平均振幅小于所述振幅平均值且n个采样点振幅的平均差小于阈值,以所述n个采样点的中间位置作为分割点,将所述波形图分为多个片段。 8.如权利要求6所述的宠物声音识别系统,其特征在于,所述利用所述待识别片段左右相邻两侧的噪声片段对所述待识别片段降噪,具体为:分别将所述待识别片段和左右两侧的噪声片段从时域转换到频域,计算左右相邻两侧的噪声片段频域中相同的频率及相同频率的幅度的平均值;在所述待识别片段的频域中减去所述相同频率的幅度的平均值,得到降噪后的待识别片段频域。 9.如权利要求6所述的宠物声音识别系统,其特征在于,所述根据每个待识别片段的所述类别、所述概率和待识别片段之间的时间间距得到宠物的情感信息,具体为: 对于每个待识别片段,判断所述待识别片段前面是否有待识别片段,若没有则将所述待识别片段去除,计算与前一个待识别片段的时间间距,根据所述时间间距得到权重,利用所述权重计算得到神经网络输出的每个类别的新概率值; 计算所有待识别片段相同的分类对应的新概率值的平均值,将平均值最大的分类作为宠物情感,根据平均值标识所述宠物情感的强烈度。 10.如权利要求6所述的宠物声音识别系统,其特征在于,所述根据所述时间间距得到权重,利用所述权重计算得到神经网络输出的每个类别的新概率值,具体为: 根据公式计算第j个所述待识别片段的权重,其中,tj为第j个待识别片段与前一个待识别片段的时间间距大小,n为所述待识别片段个数,j为正整数,且1≤j≤n; 根据公式计算第j个所述待识别片段第k个类别的新概率值为神经网络输出的第j个所述待识别片段第k个类别的概率值,其中,j为正整数,且1≤j≤n。
相关知识
一种基于神经网络的宠物声音识别方法及系统技术方案
一种基于神经网络的宠物声音识别方法及系统
一种基于神经网络的宠物声音识别方法及系统与流程
基于卷积神经网络通过声音识别动物情绪的方法及系统
一种基于深度卷积神经网络的禽类动物行为识别方法与流程
一种基于深度学习的狗叫情感识别方法及装置与流程
一种基于注意力残差和特征融合的鸟语识别方法和系统
一种基于YOLO的宠物图像识别方法
基于神经网络的野生生态环境鸟类鸣声识别方法与流程
基于卷积神经网络通过声音识别动物情绪的方法及系统与流程
网址: 一种基于神经网络的宠物声音识别方法及系统 https://m.mcbbbk.com/newsview1073080.html
上一篇: 基于MobileNetV3架构动 |
下一篇: 揭秘宠物鸟如何识别公母:科学解读 |