本发明涉及语音处理,具体涉及基于神经网络的野生生态环境鸟类鸣声识别方法。
背景技术:
1、鸟鸣信号是一种高频信号,鸟鸣声通常能够传播到较远的距离外,且不同种鸟类的鸟鸣声之间具有一定的可区分性,因此现阶段常通过采集鸟鸣信号进行鸟类识别。得益于对大量数据优异的学习能力、特征提取能力,基于深度学习技术的各种神经网络模型在鸟鸣识别中广泛应用。
2、基于深度学习的神经网络模型在学习鸟鸣信号中的特征时,通常是对鸟鸣信号的特征图像进行学习,例如,鸟鸣信号的时域波形图、鸟鸣信号的频谱图、梅尔语谱图等等,在神经网络模型中通过卷积操作对鸟鸣信号的特征图像进行加权求和得到图像的特征,由于3d卷积能够描述3d空间中的对象关系,3d卷积在鸟鸣信号中连续帧的特征图像上能够提取更多的特征信息。但是3d卷积不仅具有较高的计算复杂度,在处理三维数据时还需要较大的内存空间,容易出现神经网络模型迭代达到一定次数训练失败的问题,无法基于鸟鸣信号的特征图像进行鸟类识别。
技术实现思路
1、为了解决上述技术问题,本发明提供基于神经网络的野生生态环境鸟类鸣声识别方法,以解决现有的问题。
2、本发明的基于神经网络的野生生态环境鸟类鸣声识别方法采用如下技术方案:
3、本发明一个实施例提供了基于神经网络的野生生态环境鸟类鸣声识别方法,该方法包括以下步骤:
4、采集鸟鸣信号;
5、将各帧鸟鸣信号的频谱图作为各帧鸟鸣信号的特征图像;将鸟鸣信号划定多个矩形短时窗口;根据各矩形短时窗口内各帧鸟鸣信号在不同时延下自相关函数的差异得到各帧鸟鸣信号的谱熵时延同步系数;根据各矩形短时窗口内各帧鸟鸣信号在不同时延下自相关函数的峰值幅度分布得到各帧鸟鸣信号的窗口长时延稳定系数;结合谱熵时延同步系数及窗口长时延稳定系数得到各帧鸟鸣信号的窗内多时延周期指数;
6、将二维特征图像添加时间维度转换为三维特征图像;获取各时刻对应的平面特征图像上两坐标点间的分割结果相似度;结合分割结果相似度及窗内多时延周期指数得到各时刻对应平面特征图像的卷积可分割程度;根据矩形短时窗口内所有帧鸟鸣信号对应时刻平面特征图像的卷积可分割程度的分布得到各帧鸟鸣信号的时序平滑度;结合各时刻的卷积可分割程度及各帧鸟鸣信号的时序平滑度得到各帧鸟鸣信号的滑动三维卷积平滑度;根据各帧鸟鸣信号频谱图的频率分布及滑动三维卷积平滑度得到3d卷积核的卷积组个数;结合3d卷积核的卷积组个数及神经网络模型完成鸟类鸣声识别。
7、优选的,所述根据各矩形短时窗口内各帧鸟鸣信号在不同时延下自相关函数的差异得到各帧鸟鸣信号的谱熵时延同步系数,包括:
8、对鸟鸣信号利用vad端点检测算法获取鸟鸣信号的有声信号区间,将所有有声信号区间的区间长度最小值作为计算自相关函数时的时延上限,针对各矩形短时窗口,计算各帧鸟鸣信号在不同时间延迟下的自相关函数,获取自相关函数峰值的位置、宽度及幅度,将鸟鸣信号进行傅里叶变换,计算各帧鸟鸣信号的谱熵;
9、各帧鸟鸣信号的谱熵时延同步系数的表达式为:
10、
11、式中,是第a帧鸟鸣信号的谱熵时延同步系数,是以自然常数为底数的指数函数,是矩形短时窗口内第a帧鸟鸣信号的谱熵,是矩形短时窗口内第a帧鸟鸣信号在时延上限时对应自相关函数峰值的宽度,、分别是矩形短时窗口内所有帧鸟鸣信号的谱熵最大值、最小值,、分别是矩形短时窗口内所有帧鸟鸣信号在时延上限时对应自相关函数峰值的宽度最大值、最小值。
12、优选的,所述根据各矩形短时窗口内各帧鸟鸣信号在不同时延下自相关函数的峰值幅度分布得到各帧鸟鸣信号的窗口长时延稳定系数,表达式为:
13、
14、式中,是第a帧鸟鸣信号的窗口长时延稳定系数,n是第a帧鸟鸣信号所属矩形短时窗口内帧的数量,、分别是第a帧鸟鸣信号、第b帧鸟鸣信号在时延上限的范围内所有时延下自相关函数峰值的幅度按照时延尺度升序组成的峰值幅度序列,是最小值函数,是值方差函数,表示分别计算序列、相同次序下元素之间的值方差,、分别是序列、内元素的变异系数。
15、优选的,所述结合谱熵时延同步系数及窗口长时延稳定系数得到各帧鸟鸣信号的窗内多时延周期指数,包括:
16、针对各矩形短时窗口内的各帧鸟鸣信号,计算窗口长时延稳定系数与谱熵时延同步系数的乘积,计算第一个时延下的自相关函数峰值对应频率下的梅尔倒谱系数与其他所有时延下的自相关函数峰值对应频率下的梅尔倒谱系数的差值,计算所有时延下所述差值的和值,计算所述和值与预设调参因子的和值,记为第一和值,将所述乘积与所述第一和值的比值作为各帧鸟鸣信号的窗内多时延周期指数。
17、优选的,所述获取各时刻对应的平面特征图像上两坐标点间的分割结果相似度,包括:
18、针对各时刻对应的平面特征图像,将平面特征图像上的各坐标点作为分割点利用dijkstra算法确定最小闭环路径,每个坐标点的最小闭环路径将平面特征图像分割成两个数据簇;
19、两坐标点间的分割结果相似度的表达式为:
20、
21、式中,是第x个时刻对应的平面特征图像上第个、第个坐标点之间的分割结果相似度,、分别是以第个、第个坐标点为分割点时所得数据簇的数量,是以第个坐标点为分割点时所得第c个数据簇内元素的集合,是以第个坐标点为分割点时所得第g个数据簇内元素的集合,是集合、之间的杰卡德系数。
22、优选的,所述结合分割结果相似度及窗内多时延周期指数得到各时刻对应平面特征图像的卷积可分割程度,包括:
23、计算各时刻对应的平面特征图像上所有坐标点对应最小闭环路径的路径长度均值,记为第一均值,计算各时刻对应的平面特征图像上所有坐标点之间的分割结果相似度的均值,记为第二均值,计算所述第一均值与各时刻对应帧的窗内多时延周期指数的乘积,将所述乘积与所述第二均值的比值作为各时刻对应平面特征图像的卷积可分割程度。
24、优选的,所述根据矩形短时窗口内所有帧鸟鸣信号对应时刻平面特征图像的卷积可分割程度的分布得到各帧鸟鸣信号的时序平滑度,包括:
25、获取各帧鸟鸣信号所属的矩形短时窗口内所有帧鸟鸣信号对应时刻平面特征图像的卷积可分割程度组成的序列,计算所述序列内所有元素的方差,计算各帧鸟鸣信号的窗内多时延周期指数与各帧鸟鸣信号所属的矩形短时窗口内所有帧鸟鸣信号的窗内多时延周期指数均值的差值绝对值,将所述方差与所述差值绝对值的乘积作为各帧鸟鸣信号的时序平滑度。
26、优选的,所述结合各时刻的卷积可分割程度及各帧鸟鸣信号的时序平滑度得到各帧鸟鸣信号的滑动三维卷积平滑度,包括:
27、将所有帧鸟鸣信号的窗内多时延周期指数利用聚类算法获取各聚类簇,计算各聚类簇中所有元素的方差,将所述方差最小值对应的聚类簇作为高噪声成分聚类簇,获取高噪声成分聚类簇中所有元素对应时刻平面特征图像的卷积可分割程度组成的序列,记为第一序列,计算所述序列与所述第一序列的皮尔逊相关系数,计算各帧鸟鸣信号对应时刻与高噪声成分聚类簇中所有元素对应时刻的差值绝对值的均值,记为第三均值,计算所述第三均值与所述皮尔逊相关系数的乘积,记为第一乘积,将各帧鸟鸣信号的时序平滑度与所述第一乘积的比值作为各帧鸟鸣信号的滑动三维卷积平滑度。
28、优选的,所述根据各帧鸟鸣信号频谱图的频率分布及滑动三维卷积平滑度得到3d卷积核的卷积组个数,包括:
29、针对各帧鸟鸣信号,将对应频谱图的所有频率的梅尔倒谱系数按照频率降序的顺序排序,并将各帧鸟鸣信号的滑动三维卷积平滑度、窗内多时延周期指数置于排序结果的前两位,将得到的序列作为各帧鸟鸣信号的卷积特征序列,分别计算所有任意两个连续帧鸟鸣信号的卷积特征序列间的余弦相似度,将所有所述余弦相似度利用稳定随机森林砍伐算法获取各异常点,3d卷积核划分的卷积组个数为异常点总个数与1的和值。
30、优选的,所述结合3d卷积核的卷积组个数及神经网络模型完成鸟类鸣声识别,包括:
31、将鸟鸣信号的三维特征图像与各卷积组进行卷积得到各卷积结果,将各卷积结果按照卷积组的时序顺序首尾拼接得到的向量作为鸟鸣信号的3d卷积声学特征向量,将3d卷积声学特征向量作为神经网络模型的输入,输出为鸟鸣信号的鸟类识别结果。
32、本发明至少具有如下有益效果:
33、本技术提出基于神经网络的野生生态环境鸟类鸣声识别方法,通过短时自相关分析将纯声鸟鸣信号分成多个矩形短时窗口,通过分析每一帧鸟鸣信号在不同时延下的自相关程度构建窗内多时延周期指数,窗内多时延周期指数考虑了矩形短时窗口内鸟鸣信号和噪声信号的能量分布在不同时延下的周期性,其有益效果在于通过分析相邻帧之间谱熵大小以及周期稳定性能够准确评估每一帧鸟鸣信号的含噪程度;其次基于时间维度上每个时刻对应平面特征图像中受噪声影响情况确定每个时刻的卷积可分割程度,卷积可分割程度能够准确反映每个时刻平面特征图像上坐标点的可分离情况;并结合噪声信号的随机性以及每一帧鸟鸣信号的滑动三维卷积平滑度自适应确定3d卷积时分组卷积的数量,通过合理划分分组卷积的数量在不破坏声学特征连续性的前提下加快3d卷积的卷积效率,更好的提取3d特征图像上的图像特征,提高鸟类鸣声的识别率。
技术特征:
1.基于神经网络的野生生态环境鸟类鸣声识别方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于神经网络的野生生态环境鸟类鸣声识别方法,其特征在于,所述根据各矩形短时窗口内各帧鸟鸣信号在不同时延下自相关函数的差异得到各帧鸟鸣信号的谱熵时延同步系数,包括:
3.根据权利要求2所述的基于神经网络的野生生态环境鸟类鸣声识别方法,其特征在于,所述根据各矩形短时窗口内各帧鸟鸣信号在不同时延下自相关函数的峰值幅度分布得到各帧鸟鸣信号的窗口长时延稳定系数,表达式为:
4.根据权利要求1所述的基于神经网络的野生生态环境鸟类鸣声识别方法,其特征在于,所述结合谱熵时延同步系数及窗口长时延稳定系数得到各帧鸟鸣信号的窗内多时延周期指数,包括:
5.根据权利要求1所述的基于神经网络的野生生态环境鸟类鸣声识别方法,其特征在于,所述获取各时刻对应的平面特征图像上两坐标点间的分割结果相似度,包括:
6.根据权利要求5所述的基于神经网络的野生生态环境鸟类鸣声识别方法,其特征在于,所述结合分割结果相似度及窗内多时延周期指数得到各时刻对应平面特征图像的卷积可分割程度,包括:
7.根据权利要求1所述的基于神经网络的野生生态环境鸟类鸣声识别方法,其特征在于,所述根据矩形短时窗口内所有帧鸟鸣信号对应时刻平面特征图像的卷积可分割程度的分布得到各帧鸟鸣信号的时序平滑度,包括:
8.根据权利要求7所述的基于神经网络的野生生态环境鸟类鸣声识别方法,其特征在于,所述结合各时刻的卷积可分割程度及各帧鸟鸣信号的时序平滑度得到各帧鸟鸣信号的滑动三维卷积平滑度,包括:
9.根据权利要求1所述的基于神经网络的野生生态环境鸟类鸣声识别方法,其特征在于,所述根据各帧鸟鸣信号频谱图的频率分布及滑动三维卷积平滑度得到3d卷积核的卷积组个数,包括:
10.根据权利要求1所述的基于神经网络的野生生态环境鸟类鸣声识别方法,其特征在于,所述结合3d卷积核的卷积组个数及神经网络模型完成鸟类鸣声识别,包括:
技术总结
本发明涉及语音处理技术领域,具体涉及基于神经网络的野生生态环境鸟类鸣声识别方法,该方法包括:采集纯声鸟鸣信号,根据纯声鸟鸣信号的频域特征获取各帧鸟鸣信号的谱熵时延同步系数,根据鸟鸣信号的自相关性得到各帧鸟鸣信号的窗口长时延稳定系数,结合谱熵时延同步系数及窗口长时延稳定系数得到各帧鸟鸣信号的窗内多时延周期指数,获取两坐标点之间的分割结果相似度,结合窗内多时延周期指数及分割结果相似度得到各采集时刻的卷积可分割程度,进而得到各帧鸟鸣信号的滑动三维卷积平滑度,确定各组卷积的滑动步长。本发明旨在提高鸟类鸣声的识别率,实现基于滑动窗口以及3D卷积的鸟类鸣声精确识别。
技术研发人员:李攀生,雷凯智,黄世浩
受保护的技术使用者:百鸟数据科技(北京)有限责任公司
技术研发日:
技术公布日:2024/8/21
相关知识
基于表征全局依赖关系的并行注意力机制鸟鸣声识别方法
一种基于神经网络的宠物声音识别方法及系统与流程
信息融合增强鸟类声纹识别研究
一种基于神经网络的宠物声音识别方法及系统技术方案
面向鸟鸣声识别任务的深度学习技术
基于卷积神经网络通过声音识别动物情绪的方法及系统
基于卷积神经网络通过声音识别动物情绪的方法及系统与流程
一种基于深度残差网络的宠物图像情绪识别方法与流程
基于KH
宠物情绪识别方法及装置与流程
网址: 基于神经网络的野生生态环境鸟类鸣声识别方法与流程 https://m.mcbbbk.com/newsview197993.html
上一篇: 识鸟app哪个好?拍照识别鸟的软 |
下一篇: 声纹识别软件识别什么鸟在叫 |