首页 > 分享 > 一种基于注意力残差和特征融合的鸟语识别方法和系统

一种基于注意力残差和特征融合的鸟语识别方法和系统

一种基于注意力残差和特征融合的鸟语识别方法和系统

1.本发明涉及基于深度学习的鸟类声纹识别技术领域,特别涉及基于注意力残差和特征融合的鸟语识别方法和系统。

背景技术:

2.鸟类是评估生态系统健康良好的重要指标,作为生态系统的重要组成部分,鸟类的存在和迁徙模式往往是任何特定地区环境健康的警示信号。近几十年的时间里,对鸟类生物多样性的保护也越来越重视,鸟类声纹识别技术的意义也愈发重要。每种鸟类的发声结构以及器官上会存在一定的差异,也造成这些鸟类的生物特征不可复制,这些生物特征能够用于识别生物种类,鸟类声纹技术就是利用声纹识别技术对鸟类物种特有的生物特征进行种类识别。目前鸟类声纹识别技术根据模型种类可分为传统方法和基于深度学习方法;传统方法主要使用高斯混合模型和极大似然估计学习到分数最高的声音;基于深度学习的方法主要通过神经网络模型训练和识别检测。基于深度学习的方法比较传统方法和机器学习方法,在处理鸟类声识别任务上性能表现更加优秀。随着人工智能和深度学习的快速发展,鸟类声纹识别技术在保护环境领域具有广泛的应用前景。
3.文献1(lee c h,han c c,chuang c c.automatic classification of bird species from their sounds using two-dimensional cepstral coefficients[j].ieee transactions on audio speech&language processing,2008,16(8):1541-1550.)是使用单种音频特征通过动态和静态提取再进行融合表示,提高特征信息表达,以提升识别准确率。文献2(efremova d b,sankupellay m,konovalov d a.data-efficient classification of birdcall through convolutional neural networks transfer learning[c].in:digital image computing:techniques and applications,2019,294-301.)利用resnet50深度卷积神经网络作为模型,提高鸟类识别的速度。文献3(杨春勇,祁宏达,彭焱秋,等.融合声纹信息的能量谱图在鸟类识别中的研究[j].应用声学,2020,39(3):453-463.)通过lbp和hog特征与分类器算法结合,额外使用生成对抗网络频谱信息进行数据增强,进一步提升识别率。
[0004]
在基于深度学习的识别任务中模型多数使用大型卷积神经网络,识别率虽有提升,但是也不可避免增加了参数计算量,导致训练困难,检测速度不快等问题。在特征提取方面,通常都使用单种特征提取方法,但在识别检测过程中单一特征参数无法完全表达鸟类声音的所有特点,存有一定局限性。

技术实现要素:

[0005]
为解决音频特征信息局限以及网络参数量大等问题,本发明提出一种基于注意力残差和特征融合的鸟语识别方法,该方法使用两种特征提取方法,并进行信息融合得到特征信息,将特征信息转换为能量频谱图;能量频谱图输入到鸟语识别分类卷积神经网络,经过采样生成对应特征图像,输入网络后使用带有水平垂直注意力模块的残差结构网络有效
关注特征图像之间的通道关系,同时降低计算成本和提高识别精度。
[0006]
一种基于注意力残差和特征融合的鸟语识别方法,其特征在于,包括以下步骤:
[0007]
s1、收集自然环境中多种不同鸟类鸣叫声音,构成声音训练集;对能够知道所属鸟类品种的声音进行标注,控制每段声音时间范围在2s到30s之间,且含单种鸟类叫声;
[0008]
s2、对步骤s1中的声音训练集使用相同采样频率进行采样,然后通过分帧、加窗的预处理操作,统一声音训练集的音频时长;
[0009]
s3、通过两种特征提取方法得到特征信息,最后将特征信息转换为能量频谱图;
[0010]
s31、依次使用梅尔三角滤波算法和倒谱均值方差归一化方法对预处理后的声音训练集进行处理,得到向量分数f;依次使用加入噪声抑制处理的伽马通滤波算法和倒谱均值方差归一化对预处理后的声音训练集进行处理,得到向量分数g;将两种向量分数进行融合得到特征信息f:
[0011]
f=ωf+(1-ω)g
[0012]
其中ω表示混合权重系数。
[0013]
s32、将s31中得到的特征信息f转换为能量频谱图。
[0014]
s33、对得到的能量频谱图进行图像增强;其中图像增强操作包括图像色彩随机灰度变换、图像旋转。
[0015]
所述构建的鸟语识别分类卷积神经网络,具体为:
[0016]
网络结构依次设置3个卷积核为3*3步长为2的卷积层、最大池化层、激活函数层和48个带有水平垂直注意力模块的残差结构层;其中带有水平垂直注意力模块的残差结构层中包括卷积层、激活函数层、平均池化层、批次归一化层;所述网络结构在最后一层使用全局平均池化操作,并在所有卷积操作后均使用激活函数层。
[0017]
将能量频谱图输入到所述鸟语识别分类卷积神经网络中,经过3个3*3步长为2的卷积层进行下采样操作得到特征图像q,其过程表示为:
[0018]
q=f
3*3
(f
3*3
(f
3*3
(f)))
[0019]
将特征图像q,经过带有水平垂直注意力模块的残差结构层处理,所述带有水平垂直注意力模块的残差结构层包括如下部分:卷积层1*1、卷积层3*3、卷积层1*1、批次归一化层、激活函数层、水平垂直注意力模块和残差连接;其过程能够表示为:
[0020]fout
=f
hw
(f
1*1
(f
3*3
(f
1*1
(x))))+x
[0021]fhw
为水平垂直注意力模块,所述注意力模块由两个分别沿垂直和水平方向的注意力子模块构成,其表示为:
[0022]fhw
=fh+fw[0023]
其中:
[0024][0025][0026]
δ表示使用sigmoid函数,conv(x)表示使用1*1大小卷积核,avgpool表示使用平均池化操作。
[0027]
s4、构建鸟语识别分类卷积神经网络;将s3得到的能量频谱图输入到构建的鸟语
识别分类卷积神经网络中进行训练;损失函数使用分类交叉熵损失函数,设置优化策略和超参数用于构建鸟语识别分类网络,通过对网络进行循环迭代训练使损失函数不断减小,直到完成设定的迭代次数并将训练权重参数保存;
[0028]
s5、利用步骤s3构建的鸟语识别分类卷积神经网络和获得的网络训练权重参数构建基于注意力残差和特征融合的鸟语识别系统,并以该检测系统对待检测能量频谱图进行鸟语识别分类,同时使用鸟语识别系统将所有输入的鸟类声谱图进行数量标记和分类。
[0029]
本发明还提出了一种基于残差注意力和特征融合的鸟语识别系统,其中包括以下模块:
[0030]
鸟类声音获取模块,配置为获取待处理鸟类声音数据集;
[0031]
鸟类声音识别模型获取模块,以权利1中所述基于注意力残差和特征融合的鸟语识别方法中得到的鸟类声音识别模型和参数文件为配置构成鸟类声音识别器,用于鸟类声音种类识别分类;
[0032]
鸟类计数模块,用于统计得到的鸟类种类数量。
[0033]
有益效果:
[0034]
1、本发明提出一种基于注意力残差和特征融合的鸟语识别方法。因鸟类声音数据集包含大量短时鸟类原始鸣叫信号并且种类多样,本发明首先使用声纹预处理处理音频信号,再通过音频特征提取将音频信号转换为能量频谱图,然后使用注意力残差网络提取图片特征加快识别分类网络训练速度,并减少网络参数量。
[0035]
2、本发明对音频信号特征提取时,采用不同的特征提取方法,得到不同特征之后使用倒谱均值和方差归一化和特征扭曲处理,减少可能存在音频中的信道失配和通道效应。
[0036]
3、本发明提出并设计一种鸟类声音识别系统,该系统能够使用本发明提出的基于注意力残差和特征融合的鸟语识别方法进行鸟类声音识别。
附图说明
[0037]
图1为本发明实施例使用的鸟语识别方法模型结构整体图;
[0038]
图2为本发明实施例使用的鸟语识别方法中所述注意力结构图;其中子图a为注意力残差模块整体结构;子图b为注意力模块中垂直和水平注意力子结构图;
[0039]
图3为本发明实施例的鸟类声音识别系统流程示意图;
[0040]
图4为本发明实施例的鸟类声音识别系统组成图;
[0041]
图5为采用本发明方法和未采用本发明方法特征提取对比图,其中子图a为仅使用梅尔三角滤波算法特征提取方法的能量频谱图,子图b为仅使用带噪声抑制处理的伽马通滤波算法特征提取方法的能量频谱图,子图c为采用本发明特征融合方法得到的能量频谱图。
[0042]
图6为采用本发明方法和未采用本发明方法混淆矩阵对比图,其中子图a为仅使用梅尔三角滤波算法特征提取方法的混淆矩阵图,子图b为仅使用带噪声抑制处理的伽马通滤波算法特征提取方法的混淆矩阵图,子图c为使用特征融合方法的混淆矩阵图,子图d为本发明方法的混淆矩阵图。
具体实施方式
[0043]
为对本发明的技术特征、目的和有益效果的理解有更加清楚,结合附图对本发明的一个实施例作进一步描述。实施例只用于对本发明进行进一步的说明,不能理解为对本发明保护范围的限制,本领域的技术人员根据本发明的内容做出的一些非本质的改进和调整也属于本发明保护的范围。
[0044]
一种基于注意力残差和特征融合的鸟语识别方法,其特征在于,包括以下步骤:
[0045]
s1、收集自然环境中多种不同鸟类鸣叫声音,构成声音训练集;对能够知道所属鸟类品种的声音进行标注,控制每段声音时间范围在2s到30s之间,且含单种鸟类叫声;此处筛选的鸟类声音数量每种鸟类大于等于200个。
[0046]
s2、对步骤s1中的声音训练集使用相同采样频率进行采样,然后通过分帧、加窗的预处理操作,统一声音训练集的音频时长;
[0047]
s3、通过两种特征提取方法得到特征信息,最后将特征信息转换为能量频谱图;
[0048]
s4、构建鸟语识别分类卷积神经网络;将s3得到的能量频谱图输入到构建的鸟语识别分类卷积神经网络中进行训练;损失函数使用分类交叉熵损失函数,设置优化策略和超参数用于构建鸟语识别分类网络,通过对网络进行循环迭代训练使损失函数不断减小,直到完成设定的迭代次数并将训练权重参数保存;达到训练迭代次数时,训练到拟合表现为损失函数值不再有明显减小;
[0049]
s5、利用步骤s3构建的鸟语识别分类卷积神经网络和获得的网络训练权重参数构建基于注意力残差和特征融合的鸟语识别系统,并以该检测系统对待检测能量频谱图进行鸟语识别分类,同时使用鸟语识别系统将所有输入的鸟类声谱图进行数量标记和分类。
[0050]
作为本发明的一种具体实施方式,步骤具体包括如下步骤:
[0051]
s31、依次使用梅尔三角滤波算法和倒谱均值方差归一化方法对预处理后的声音训练集进行处理,得到向量分数f;依次使用加入噪声抑制处理的伽马通滤波算法和倒谱均值方差归一化对预处理后的声音训练集进行处理,得到向量分数g;将两种向量分数进行融合得到特征信息f:
[0052]
f=ωf+(1-ω)g
[0053]
其中ω表示混合权重系数。
[0054]
s32、将s31中得到的特征信息f转换为能量频谱图。
[0055]
s33、对得到的能量频谱图进行图像增强;其中图像增强操作包括图像色彩随机灰度变换、图像旋转。
[0056]
作为本发明的一种具体实施方式,步骤s3所述构建的鸟语识别分类卷积神经网络,具体为:
[0057]
网络结构依次设置3个卷积核为3*3步长为2的卷积层、最大池化层、激活函数层和48个带有水平垂直注意力模块的残差结构层;其中带有水平垂直注意力模块的残差结构层中包括卷积层、激活函数层、平均池化层、批次归一化层;所述网络结构在最后一层使用全局平均池化操作,并在所有卷积操作后均使用激活函数层。
[0058]
将能量频谱图输入到所述鸟语识别分类卷积神经网络中,经过3个3*3步长为2的卷积层进行下采样操作得到特征图像q,其过程表示为:
[0059]
q=f
3*3
(f
3*3
(f
3*3
(f)))
[0060]
将特征图像q,经过带有水平垂直注意力模块的残差结构层处理,所述带有水平垂直注意力模块的残差结构层包括如下部分:卷积层1*1、卷积层3*3、卷积层1*1、批次归一化层、激活函数层、水平垂直注意力模块和残差连接;其过程能够表示为:
[0061]fout
=f
hw
(f
1*1
(f
3*3
(f
1*1
(x))))+x
[0062]fhw
为水平垂直注意力模块,所述注意力模块由两个分别沿垂直和水平方向的注意力子模块构成,其表示为:
[0063]fhw
=fh+fw[0064]
其中:
[0065][0066][0067]
δ表示使用sigmoid函数,conv(x)表示使用1*1大小卷积核,avgpool表示使用平均池化操作。
[0068]
仿真实验
[0069]
由图5能够看出使用本方法的能量频谱图c子图中的频率表现比a和b子图中的频率表现更明显,说明本发明中的特征融合方法对频率有一定增强效果,有助于识别率提升。
[0070]
本发明方法与对比识别方法的识别率如表1所示,其中特征1方法是仅使用梅尔三角滤波算法和残差网络得到的指标,特征2方法仅使用经过噪声抑制的伽马通滤波算法和残差网络得到的指标,特征融合方法为仅使用特征融合方法和残差网络得到的指标。
[0071]
表1仿真实验鸟类声音识别分类评价指标统计表
[0072]
方法平均精确率(%)平均召回率(%)平均f1(%)特征1方法88.9686.0688.06特征2方法90.1789.1489.14特征融合方法93.4390.9192.15本发明方法93.6290.5992.17
[0073]
从表1和图6中可以看出:使用本发明所述的特征融合和注意力残差网络方法,精确度和f1值都有一定提升,分类效果上优于单特征提取方法和残差网络。以上仿真实验结果表明,本发明方法在不对网络增加额外计算成本同时,提高特征提取对鸟类声音信息的表达,很好地提升识别性能。
[0074]
以上对本发明的所述方法内容进行说明,本领域技术人员可在基于本内容说明的情况下将本发明方法实现。基于本发明的上述内容,本领域技术人员在没有做出创造性劳动的前提下所获得的其他实施例,都应当属于本发明保护的范围。

相关知识

一种基于深度残差网络的宠物图像情绪识别方法与流程
一种基于深度残差网络的宠物图像情绪识别方法
一种基于深度残差网络的宠物图像情绪识别方法.pdf
一种基于多线索融合的动物行为识别方法
基于面部图像的实时动物情绪识别方法、装置及相关组件
基于表征全局依赖关系的并行注意力机制鸟鸣声识别方法
一种基于宠物姿态的心情识别方法与流程
一种宠物情绪识别方法及系统
一种基于神经网络的宠物声音识别方法及系统技术方案
一种基于声音特征优化选择的鸟声识别方法

网址: 一种基于注意力残差和特征融合的鸟语识别方法和系统 https://m.mcbbbk.com/newsview648742.html

所属分类:萌宠日常
上一篇: 快瞳AI
下一篇: 宠物AI识别