技术特征:
1.基于深度迁移学习与xgboost的混合鸟鸣识别方法,其特征在于:包括以下步骤:s1:收集自然环境下的多种鸟类鸣声,每种鸟类鸣声信号包括多个时间序列相同的鸣声片段;建立基于自然场景设计和收集的鸟鸣音频库;s2:对鸟鸣音频库的每个鸣声片段进行预处理获得短时平稳的鸣声信号,将每帧鸣声信号通过快速傅里叶变换后取绝对值的平方得到能量谱图;s3:将能量谱图经过64阶梅尔滤波器映射为mel频谱图,作为深度迁移学习与xgboost混合鸟鸣识别模型的输入;对mel频谱图取对数得到log-mel频谱图;计算log-mel频谱图的一阶差分系数和二阶差分系数获得动态声学特征;将一阶差分系数和二阶差分系数与log-mel频谱图组合成为三维log-mel频谱图;s4:采用参数迁移微调在imagenet数据集上预训练的深度卷积神经网络vgg16模型,得到针对鸟鸣信息的特征提取器,并提取三维log-mel时频谱图的高维隐式特征;s5:将三维log-mel时频谱图的高维隐式特征按照一定比例划分为训练集、测试集和验证集;采用训练集训练xgboost分类器,并在验证集上调整xgboost分类器的参数,最后在测试集上将高维隐式特征映射为鸟类物种。2.根据权利要求1所述的基于深度迁移学习与xgboost的混合鸟鸣识别方法,其特征在于:所述的步骤s1中,每个鸟鸣片段的时间序列长度为2秒,采样率为22.05khz,存储格式为.wav。3.根据权利要求2所述的基于深度迁移学习与xgboost的混合鸟鸣识别方法,其特征在于:所述的步骤s2中,具体步骤为:s21:将2秒的鸟鸣片段分割为1.5秒并设置1秒的重叠保证鸣声的连续性;s22:对分割后的鸟鸣信号进行分帧,设置帧长为2048个采样点,帧移为512个采样点得到短时平稳信号;s23:设n为采样点的取值,n为帧长,则汉明窗计算公式ω(n)为:设每帧信号为s(n),对分帧后的每帧信号乘以汉明窗进行加窗得到x(n):x(n)=w(n)
·
s(n),0≤n≤n-1;s24:设k是快速傅里叶变换的点数,对加窗后的鸟鸣信号x(n)进行快速傅里叶变换计算各帧的频谱,并对频谱取绝对值的平方,得到用于反映时域和频域特征信息的能量谱:s25:绘制以时间为横轴、频率为纵轴的能量谱图,通过颜色明暗表示能量高低。4.根据权利要求3所述的基于深度迁移学习与xgboost的混合鸟鸣识别方法,其特征在于:所述的步骤s3中,具体步骤为:s31:64阶梅尔滤波器具有人耳滤波功能,使用64阶梅尔滤波器对能量谱图进行滤波得到大小为64
×
64的mel频谱图;s32:对mel频谱图取对数得到log-mel频谱图l
(m)
,log-mel频谱图l
(m)
具备静态声学特征;
s33:计算log-mel频谱图l
(m)
的一阶差分系数l
(m)d
和二阶差分系数l
(m)dd
获得动态声学特征,用于捕捉相邻两帧与相邻三帧之间音频信号的动态关系:特征,用于捕捉相邻两帧与相邻三帧之间音频信号的动态关系:s34:将一阶差分系数l
(m)d
和二阶差分系数l
(m)dd
作为log-mel频谱图l
(m)
的动态补充特征形成大小为64
×
64
×
3的三维log-mel频谱图。5.根据权利要求4所述的基于深度迁移学习与xgboost的混合鸟鸣识别方法,其特征在于:所述的步骤s4中,具体步骤为:s40:在imagenet数据集上预训练深度卷积神经网络vgg16模型;s41:采用参数迁移保留vgg16模型的浅层结构与参数权重;s42:微调vgg16模型的深层结构;s43:使用三维log-mel频谱图重新训练深层结构的参数权重,得到针对鸟鸣信息的特征提取器;s44:通过特征提取器提取三维log-mel时频谱图的高维隐式特征。6.根据权利要求5所述的基于深度迁移学习与xgboost的混合鸟鸣识别方法,其特征在于:所述的步骤s42中,具体步骤为:将vgg16模型的输入尺度调整为64
×
64
×
3;vgg16模型包括5组共13个卷积层;每个卷积层的卷积核大小为3
×
3,其中第一组2个卷积层各有64个通道,卷积层之后使用relu激活函数用于增加非线性映射、缓解梯度消失、提升网络的稀疏性;还包括4个2x2的最大池化层分别连接在每组卷积层之间,用于对上层输出特征进行下采样,使池化后输入变成输出大小的一半,通道数增大一倍;还包括2个全连接层,通过全局平均池化层连接最后一层卷积层;全连接层包括512个神经元,用于把分布式特征表示映射到样本标记空间;全连接层后添加有dropout函数,用于按照一定的概率随机丢弃神经元,防止网络产生过拟合。7.根据权利要求6所述的基于深度迁移学习与xgboost的混合鸟鸣识别方法,其特征在于:所述的步骤s43中,具体步骤为:把从鸟鸣信号中提取的大小为64
×
64
×
3的三维log-mel频谱图作为vgg16模型的输入,重新训练最后两组卷积层和全连接层,得到基于vgg16模型的特征提取器。8.根据权利要求7所述的基于深度迁移学习与xgboost的混合鸟鸣识别方法,其特征在于:所述的步骤s5中,具体步骤为:s51:将三维log-mel时频谱图的高维隐式特征按6:2:2的比例随机划分为训练集、测试集和验证集,分别与实际对应标签存储为dmatrix格式以符合xgboost的输入要求;s52:采用训练集训练xgboost分类器,将无意义的高维隐式特征重新描述为显示特征,用于增加所提取特征的可解释性;s53:在验证集上不断调整参数达到最优组合;
s54:在测试集上将鸟鸣信号映射为鸟类物种。9.一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如权利要求1至权利要求8中任意一项所述的基于深度迁移学习与xgboost的混合鸟鸣识别方法。
技术总结
本发明提供了基于深度迁移学习与XGBoost的混合鸟鸣识别方法,通过计算log-Mel频谱图的一阶差分系数和二阶差分系数,反映鸟鸣信号的变化过程,在保留物种有效信息的同时减少环境噪声等无关因素的影响,提升了识别鸟类物种的准确率;减少了环境背景噪声等无关因素的影响,有效识别了自然场景下的多种鸟类物种。本发明采用深度迁移学习微调VGG16模型构建特征提取器,提升了少样本训练数据下深度卷积神经网络的泛化能力,减少了参数训练,提升了运行效率。本发明将鸟鸣信号更准确的映射为鸟类物种,对自然环境中多种鸟类鸣声均具有良好的识别性能。别性能。别性能。
技术研发人员:刘玮 张飞 张彦铎 卢涛 陈灯 栗娟 邵俊杰 华鑫 张鹏 王凯
受保护的技术使用者:武汉工程大学
技术研发日:2022.05.17
技术公布日:2022/8/5
相关知识
基于深度迁移学习与XGBoost的混合鸟鸣识别方法
一种基于深度学习的狗叫情感识别方法及装置与流程
基于神经网络的野生生态环境鸟类鸣声识别方法与流程
0050期基于深度学习的大型猫科动物的识别
一种基于深度卷积神经网络的禽类动物行为识别方法与流程
基于深度学习的鸟类声音识别的研究与应用
一种基于深度残差网络的宠物图像情绪识别方法与流程
一种基于深度学习的宠物行为识别方法及系统.pdf
基于音频信号处理的鸟类鸣声识别方法与流程
基于多维神经网络深度特征融合的鸟鸣识别算法
网址: 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 https://m.mcbbbk.com/newsview708509.html
上一篇: 鸟语学堂鸟鸣学习游戏卡顿延迟掉帧 |
下一篇: 毕设文献2(Not really |