首页 > 分享 > 一种真实环境中的鸟类鸣声自动识别系统

一种真实环境中的鸟类鸣声自动识别系统

一种真实环境中的鸟类鸣声自动识别系统

1.本发明涉及鸣声信号提取和识别技术领域,尤其涉及一种真实环境中的鸟类鸣声自动识别系统。

背景技术:

2.鸟类是野生动物中具有代表性的类群之一,是生态系统的重要组成部分,其生存与发展维系着整个生态系统的平衡与稳定。鸟类的调查和监测可以提供鸟的种群的种类、数量、生活习性、生存质量和栖息地状况等必要信息,帮助研究人员掌握鸟类资源现状以及鸟类动物资源的动态变化,为有效保护、持续利用、科学管理鸟类资源提供依据。然而,传统的鸟类调查和监测方式存在监测周期长、监测范围有限、劳动强度大等缺陷,无法适应现今鸟类物种监测的数字化、自动化、智能化的要求。
3.鸟类鸣声作为鸟类重要的生物学特征之一,具有较高的辨识度,在鸟类物种分类研究中得到广泛应用。以此为理论基础,利用自动录音设备和识别软件,通过鸣声识别实现鸟类物种调查的方法,不仅可以克服上述缺点,而且是高效率、非损伤、低干扰、大范围的监测。研究鸟类鸣声有利于人们掌握其繁殖行为和生活习性等生命活动规律,实现鸟类个体或物种数量的自动统计,从而更有效保护鸟类动物。
4.鸟类鸣声识别可分为传统识别方法和深度学习方法。
5.传统的用于鸟类鸣声识别的方法是基于模式匹配的分类方法,最常见的就是动态时间规整(dtw)算法。该算法识别精度较高,但其缺点是匹配运算量太大,影响识别效率。随后,基于特征的分类模型得到了广泛的应用,国内外常用的方法有隐马尔可夫模型(hmm)、高斯混合模型(gmm)、支持向量机(svm)、随机森林(rf)、自主神经网络(ann)、k最近邻(knn)、贝叶斯网络学习以及它们的混合模型等。然而,从该类方法中提取合适的差异特征存在很大的困难。
6.随着深度学习的发展,深度神经网络能自动学习复杂度很高的数据特征,避免了传统方法手动学习特征困难、泛化能力不理想、深度特征无法提取的问题,在近些年的应用中取得了惊人的效果。1997年,mcllraith.a.l(mcilraith a l,card h c.bird song identification using artificial neural networks and statistical analysis[c]//electrical and computer engineering,1997.engineering innovation:voyage of discovery.ieee 1997canadian conference on.ieee,1997:63-66.)首次采用前馈神经网络对6种鸟类进行分类,达到了82%的准确率。为了进一步提高鸣声识别的准确率,在图像分类任务上取得突出表现的卷积神经网络(cnn)成为声音分类研究中的热点。e.sprengelt(m.lasseck,bird species identification in soundscapes,working notes of clef 2019.)于2019年利用语谱图作为卷积神经网络的输入实现了1500种的鸟类鸣声的识别,平均识别率不低于70%。因此,深度学习能够为鸟类鸣声识别问题能带来更好的识别效果。
[0007]
但是在处理嘈杂环境下的鸟类鸣声,模型的识别效果欠佳,目前仍需要对此类问题进行更为深入的研究,主要存在以下技术问题:
[0008]
(1)现有的传统鸣声识别方法是一个模式匹配的过程,需要手动提取特征,处理周期长,识别效率低,难以应用于鸟类统计分析所要求的大范围监测、低时延的场景。
[0009]
(2)现有识别方法多采用单一的特征图进行输入,导致网络模型的识别效果不佳。鸟鸣声是非平稳信号,不含有意义的子结构或模式,仅使用单一的特征可能无法有效捕获重要的音频信息,从而难以避免由相似噪音导致的识别细节不准确的问题。
[0010]
(3)现有的深度学习方法存在泛化能力差、实用性不强的缺点。目前这些研究仅评估了单个场景中的分类模型,但在充满噪声的真实环境中,将多物种的检测和分类结合起来的方法却很少,而取得较好效果的方法则更是稀缺。

技术实现要素:

[0011]
本发明的目的是提供一种真实环境中的鸟类鸣声自动识别系统,用于解决上述背景技术中的现有技术问题。
[0012]
为了实现上述目的,本发明采用了如下技术方案:
[0013]
本发明提供一种真实环境中的鸟类鸣声自动识别系统,包括:
[0014]
预处理模块,用于对鸟类鸣声音频文件进行分帧、加窗和滤波器处理;
[0015]
特征提取模块,用于提取出鸟类鸣声音频文件的频谱特征和乐谱特征;
[0016]
特征组合模块,用于将提取出的频谱特征和乐谱特征进行组合,并得到log-cst特征集、mfcc-cst特征集和log-mfcc-cst特征集;
[0017]
物种分类预测模块,用于根据得到的鸟类鸣声音频文件的特征集得出鸟类物种。
[0018]
进一步地,所述物种分类预测模块为amresnet网络,其包括卷积层(conv)、批处理化规范层(bn)、修正线性单元(relu)、最大池化层(maxpool)、4个结构块(arblock)、平均池化层(avgpool)和全连接层(fc);所述结构块中,注意力层与残差层进行串联;
[0019]
所述注意力层包括通道注意力模块和空间注意力模块,分别对信道和空间进行加权,将模型集中在时域和频域中最重要的信息上,过滤掉不相关的噪声部分;
[0020]
所述残差层由两个残差结构组成,每个残差结构包括顺序连接的conv3
×
3-bn-relu操作和一个跳跃连接。
[0021]
进一步地,所述频谱特征包括:对数梅尔频谱(log-mel)、梅尔倒频谱系数(mfcc);
[0022]
所述乐谱特征包括:色度(chroma)、谱对比度(spectral contrast)和色调质心(tonnetz)。
[0023]
进一步地,所述通道注意力模块中,maxpool-mlp顺序连接操作和avgpool-mlp顺序连接操作通过相加进行合并;
[0024]
通过1个大小为3,步长为1的卷积层将输出数据的通道维数降低到1,并利用sigmoid作为激活函数,得到关注权重,计算如下:
[0025]ac
(x)=σ(w
mlp
(avg(x))+w
mlp
(max(x)))
[0026]
其中,其中x和ac(x)分别表示通道注意力模块的输入和输出,avg()和max()表示平均池化和最大池化,w
mlp
()表示多层感知机学习,σ()是sigmoid函数。
[0027]
进一步地,所述空间注意力模块中,maxpool和avgpool基于通道进行拼接(concat)运算,将经过通道注意模块之后的特征图聚合成h
×w×
2的向量,并通过核大小为7、填充(padding)为3的二维卷积操作和sigmoid函数,得到空间注意模块的关注权重,计算
如下:
[0028]as
(x)=σ(f3([avg(ac(x));max(ac(x))]))
[0029]
其中x和as(x)分别表示空间注意模块的输入和输出,f3()表示卷积核为7、填充为3的卷积操作。
[0030]
进一步地,所述注意层的输出由输入的特征张量xi和两个注意力模块处理后的输出相乘,其计算过程如下:
[0031][0032]
进一步地,所述残差层的计算过程如下:
[0033]
y=x+f(x,w)
[0034]
其中,x和y分别表示残差结构的输入和输出,w是输入元素的对应权重;
[0035]
所述残差层组成的残差网络的输出计算,其过程如下:
[0036][0037]
其中,l和l表示残差层的层数,f
relu
()表示relu激活函数。
[0038]
本发明还提供一种真实环境中的鸟类鸣声自动识别系统所用方法,包括以下步骤:
[0039]
s1.将读入的鸟类鸣声音频文件进行分帧、加窗和滤波器处理,并提取出频谱特征和乐谱特征;
[0040]
s2.将提取出的特征进行特征组合,得到log-cst特征集、mfcc-cst特征集和log-mfcc-cst特征集;
[0041]
s3.将得到的特征集作为输入,送入到amresnet网络中进行低维到高维的特征学习,输出模型预测的鸟类物种。
[0042]
进一步地,s2中,将提取出的特征进行特征组合,主要包括:
[0043]
将色度、谱对比度和色调质心进行拼接,得到扩展特征;
[0044]
将对数梅尔频谱和扩展特征聚合,得到log-cst特征集;
[0045]
将梅尔倒频谱系数和扩展特征聚合,得到mfcc-cst特征集;
[0046]
将对数梅尔频谱、梅尔倒频谱系数和扩展特征聚合,得到log-mfcc-cst特征集;
[0047]
且所述log-cst特征集、mfcc-cst特征集和log-mfcc-cst特征集均以线性方式组合。
[0048]
进一步地,所述amresnet网络事先训练各鸟类的音频文件特征过程包括:
[0049]
通过移动端采集鸟类的音频,并提取出其频谱特征和乐谱特征;
[0050]
将各鸟类的种类以及其频谱特征和乐谱特征加载到安装有amresnet网络的pc端;
[0051]
pc端首先根据鸟类的种类与事先划分的种类进行比对,判断是否为新物种;
[0052]
如果是新物种,则先接收该频谱特征和乐谱特征,并记录为新鸣声数据;然后下载并加载预训练权重文件,并将频谱特征和乐谱特征以及鸟类的种类进行迁移学习,在部署好的amresnet网络上进行训练;上传训练好的新的特征数据集和预训练权重文件,更新数据库的鸟类鸣声数据集,并提醒后台工作人员监测新的鸟类物种;
[0053]
如果不是新物种,则只需下载预训练权重文件,然后将该频谱特征和乐谱特征作
为amresnet网络的输入,然后输出该网络的预测物种,并将结果展示;同时,将数据传送到后台,对数据库中的该鸟类数量进行修改,便于工作人员监测鸟类物种的变化趋势。
[0054]
本发明至少具备以下有益效果:
[0055]
本发明提出的识别方法,消除了手动提取特征的困难,减少了人工成本,缩短了识别周期,使实时监测鸟类物种变化成为可能;
[0056]
本发明设计并实现一种有效的特征组合方式,以对数梅尔频谱(logmel)、梅尔倒频谱系数(mfcc)、色度(chroma)、谱对比度(spectral_contrast)、色调质心特征(tonnetz)特征组合成一种新的特征集,更加全面地提取出鸣声信号中的关键信息;
[0057]
本发明搭建一种amresnet深度学习网络模型,该模型以残差网络为基础,在通道上和空间上与注意力机制进行双重结合;残差网络中的跳跃连接缓解了梯度消失和网络退化问题,进而能构建更深的网络架构,实现更精确的识别和分类;注意力机制通过对信道和空间进行加权,将模型集中在时域和频域中最重要的信息上,忽略特征中的噪声部分,提高模型的泛化能力。
附图说明
[0058]
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0059]
图1为本发明的鸟类鸣声识别流程图;
[0060]
图2为特征的光谱图;
[0061]
图3为特征集的结构图;
[0062]
图4为amresnet模型处理单通道特征集输入的示意图;
[0063]
图5为注意力层的架构图;
[0064]
图6为残差层中的残差结构示意图;
[0065]
图7为特征图在无注意力层的模型(a)和有注意力层的模型(b)中的变化图;
[0066]
图8为amresnet的混淆矩阵图;
[0067]
图9为十折交叉验证下的roc曲线图。
[0068]
图10为鸟类鸣声自动识别系统结构图。
具体实施方式
[0069]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0070]
参阅图1,本发明的整个鸟类鸣声识别的流程主要分为三个阶段:特征提取、特征组合、amresnet的物种分类预测。
[0071]
首先,读入的鸟类鸣声音频文件经过分帧、加窗和滤波器处理,分别提取出频谱特征和乐谱特征,共包括对数梅尔频谱、梅尔倒频谱系数、色度、谱对比度和色调质心五种特征。然后,将五种特征按照一定方式进行组合,得到单通道的特征集。最后将特征集作为输入,送入到amresnet网络中,与事先训练好的各鸟类的音频文件特征进行比对,输出对比得
到的鸟类物种。
[0072]
为此,本发明的系统至少包括:预处理模块,用于对鸟类鸣声音频文件进行分帧、加窗和滤波器处理;
[0073]
特征提取模块,用于提取出鸟类鸣声音频文件的频谱特征和乐谱特征;
[0074]
特征组合模块,用于将提取出的频谱特征和乐谱特征进行组合,并得到log-cst特征集、mfcc-cst特征集和log-mfcc-cst特征集;
[0075]
物种分类预测模块,用于根据得到的鸟类鸣声音频文件的特征集得出鸟类物种。
[0076]
具体的,详细技术方案如下:
[0077]
(1)特征提取
[0078]
读入的鸣声音频文件采用mp3格式存储,为适应深度学习中的网络模型的输入,需要利用计算机对其进行特征提取。通过音频处理库librosa,设置快速傅里叶变换(fft)的窗口长度为1024,帧偏移为512,对数梅尔频谱和梅尔倒频谱系数的信道数都为40,色度、谱对比度和色调质心的信道数分别为12、7和6。最终,对数梅尔频谱和梅尔倒频谱系数提取的特征矩阵大小均为40
×
63,而色度、谱对比度和色调质心的特征尺寸分别为12
×
63,7
×
63,6
×
63,这五种特征的光谱图如图2所示。
[0079]
(2)特征组合
[0080]
音频特征中包含了丰富的信息,但不同特征之间的信息又各不相同,将这些特征进行一定方式的组合,从而达到最大程度上获取这些有用信息的效果。
[0081]
对数梅尔频谱和梅尔倒谱系数是自动音频识别中最常用的特征。色度、谱对比度和色调质心特征是音乐信息识别(mir)中最常用的特征,拼接后用作扩展特征(cst)。对数梅尔频谱和扩展特征聚合,形成特征集(log-cst)。梅尔倒谱系数和扩展特征聚合,形成特征集(mfcc-cst)。对数梅尔频谱、梅尔倒谱系数和扩展特征聚合,形成特征集(log-mfcc-cst)。所有特征集以线性方式组合,log-cst(图3(a))、mfcc-cst(图3(b))和log-mfcc-cst(图3(c))的大小分别为65
×
63、65
×
63和105
×
63。
[0082]
(3)深度学习网络amresnet
[0083]
amresnet主要用来解决鸣声的物种分类问题,是一个结合了注意力机制的视觉域残差网络。amresnet的结构示意图如图4所示,主要分支包括卷积层、批处理化规范层、最大池化层、1

4个结构块、平均池化层和全连接层。在每个结构块中,带有通道注意力模块和空间注意力模块的注意力层与带有两个跳跃连接组成的残差层进行串联。n表示四个块中的通道数,其值分别为64、128、256、512。输入数据为特征集的单通道特征图,经过第一个7
×
7卷积层和2
×
2最大池化层处理后,输入特征图的大小缩减一半。从注意力层和残差层导出的特征图与输入特征图的大小相同,但改变了通道的数量。因为平均池是在第4个块之后执行的,所以用于展平的特征图的大小皆是1
×
1,并输送到具有1024个隐藏单元的全连接层,最后根据鸣声数据集的类别数输出对应尺寸的张量值。
[0084]
参阅图10,为所述鸟类鸣声自动识别系统在真实环境中的智能识别过程,具体包括:
[0085]
通过移动端采集鸟类的音频,并提取出其频谱特征和乐谱特征;
[0086]
将各鸟类的种类以及其频谱特征和乐谱特征倒入到安装有amresnet网络的pc端;
[0087]
pc端首先根据鸟类的种类与事先划分的种类进行比对,判断是否为新物种;
[0088]
如果是新物种,则先接收该频谱特征和乐谱特征,并记录为新鸣声数据;然后下载并加载预训练权重文件,并将频谱特征和乐谱特征以及鸟类的种类进行迁移学习,在部署好的amresnet网络上进行训练;上传训练好的新的特征数据集和预训练权重文件,更新数据库的鸟类鸣声数据集,并提醒后台工作人员监测新的鸟类物种;
[0089]
如果不是新物种,则只需下载预训练权重文件,然后将该频谱特征和乐谱特征作为amresnet网络的输入,然后输出该网络的预测物种,并将结果展示;同时,将数据传送到后台,对数据库中的该鸟类数量进行修改,便于工作人员监测鸟类物种的变化趋势。
[0090]
3.1注意力层
[0091]
每个注意力层都由通道注意力模块(图5(左框))和空间注意力模块(图5(右框))组成,分别对信道和空间进行加权,将模型集中在时域和频域中最重要的信息上,从而过滤掉不相关的噪声部分。
[0092]
在通道注意力模块中,maxpool-mlp顺序连接操作和avgpool-mlp顺序连接操作通过相加进行合并。然后,通过1个大小为3,步长为1的卷积层将输出数据的通道维数降低到1,并利用sigmoid作为激活函数,得到关注权重。计算过程如下:
[0093]ac
(x)=σ(w
mlp
(avg(x))+w
mlp
(max(x)))
[0094]
其中,其中x和ac(x)分别表示通道注意力模块的输入和输出,avg()和max()表示平均池化和最大池化,w
mlp
()表示多层感知机学习,σ()是sigmoid函数。
[0095]
在空间注意力模块中,maxpool和avgpool基于通道进行concat运算,将经过通道注意模块之后的特征图聚合成h
×w×
2的向量,并通过核大小为7、padding为3的二维卷积操作和sigmoid函数,进而得到空间注意模块的关注权重。计算过程如下:
[0096]as
(x)=σ(f3([avg(ac(x));max(ac(x))]))
[0097]
其中x和as(x)分别表示空间注意模块的输入和输出,f3()表示卷积核为7、padding为3的卷积操作。
[0098]
最后,整个注意层的输出由输入的特征张量xi和两个注意力模块处理后的输出相乘,计算过程如下:
[0099][0100]
3.2残差层
[0101]
每个残差层都由两个残差结构(图6)组成,而每个残差结构包括顺序连接的conv3
×
3-bn-relu操作和一个跳跃连接。与一般的深度神经网络相比,残差网络中的深层结构不再设计为无效的恒等映射,而是设计为拟合运算,只要残差函数f()等于0时,就可以转换成恒等变换,而拟合残差是简单、易实现的,其计算过程如下:
[0102]
y=x+f(x,w)
[0103]
其中,x和y分别表示残差结构的输入和输出,w是输入元素的对应权重。
[0104]
最后,残差网络输出所有深层结构的综合结果,其计算过程如下:
[0105][0106]
其中,l和l表示残差层的层数,f
relu
()表示relu激活函数。
[0107]
(4)统计分析
[0108]
本研究中,用于检测所提方法性能的评价指标有:准确率(accuracy)、精准率(precision)、召回率(recall)和f1分数(f1-score)。准确率accuracy是分类模型的黄金指标,既适用于二分类任务,也适用于多分类任务。对于测试集d的数目为n的分类模型f()来说,准确率的计算过程如下:
[0109][0110]
精准率表示预测标签集中分类正确的鸟鸣声样本所占的比例,其计算过程如下:
[0111][0112]
召回率表示真实标签集中分类正确的鸟鸣声样本所占的比例,其计算过程如下:
[0113][0114]
f1分数是精准率和召回率的一种调和平均,其计算过程如下:
[0115][0116]
为了定义这些指标,本研究还使用了真阳性(tp)、真阴性(tn)、假阳性(fp)和假阴性(fn)的值。
[0117]
(5)实验验证
[0118]
本发明以北京人工智能研究院(baai)提供的12651个真实环境中的鸣声记录所组成的鸟类鸣声数据集作为实验对象,共19个物种,分别是灰雁(aa)、大天鹅(cc)、绿头鸭(ap)、绿翅鸭(acr)、西鹌鹑(cq)、雉鸡(pco)、红喉潜鸟(gs)、苍鹭(aci)、普通鸬鹚(pca)、苍鹰(ag)、欧亚鵟(bb)、西方秧鸡(wc)、骨顶鸡(fa)、黑翅长脚鹬(hh)、凤头麦鸡(vv)、白腰草鹬(tc)、红脚鹬(tt)、林鹬(tg)和麻雀(pa)。实验过程中,所有鸟鸣数据集被划分为训练集(8863个鸣声记录)和测试集(3788个鸣声记录),并通过十折交叉验证法来训练模型。我们分别测试了不同组合的特征集(表1)、不同数目的注意力层(表2)、有无注意力层的实验效果(图7),并利用混淆矩阵(图8)、roc曲线(图9)、精准率、召回率和f1得分(表3)验证了amresnet的性能。此外,我们还对比了amresnet与其他七种常见的分类模型的识别准确率(表4),其中包括高斯混合模型(gmm)、隐马尔科夫模型(hmm)、三层级联人工神经网络(ann)、resnet-18、resnet-34、resnet-50和vision transformer(vit)。
[0119]
实验结果表明,本研究所用的组合特征log-cst(表1)是最为有效的,在amresnet中所用的四层注意力层(表2)效果是最好的。特征图在有注意力层的模型(图7(b))中可有效去除无注意力层的模型(图7(a))中的噪声部分(图7(a)的黄框表示),同时特征图的相关部分(图7(b)的红框表示)会被注意力层突出。对于十折交叉验证的roc曲线(图9),amresnet取得了良好的平均auc值,并且在混淆矩阵(图8)和每个物种的识别(表3)中也取得了良好的分类效果。最后,在不同模型的对比实验(表4)中,结合了残差网络和注意力机制两者优点的amresnet模型,既加深了网络深度,又减少了计算量,还能对输入数据的重要信息赋予更高的权重,从而取得了最佳的识别效果。
[0120]
表1基于不同组合的特征集的amresnet识别准确率比较
[0121][0122]
表2不同数目的注意力层的模型识别准确率比较
[0123][0124][0125]
表3 bcresnet在每个物种上的识别结果
[0126][0127]
表4不同模型的鸣声识别准确率比较
[0128][0129][0130]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

 

技术特征:
1.一种真实环境中的鸟类鸣声自动识别系统,其特征在于,包括:预处理模块,用于对鸟类鸣声音频文件进行分帧、加窗和滤波器处理;特征提取模块,用于提取出鸟类鸣声音频文件的频谱特征和乐谱特征;特征组合模块,用于将提取出的频谱特征和乐谱特征进行组合,并得到log-cst特征集、mfcc-cst特征集和log-mfcc-cst特征集;物种分类预测模块,用于根据得到的鸟类鸣声音频文件的特征集得出鸟类物种。2.根据权利要求1所述的一种真实环境中的鸟类鸣声自动识别系统,其特征在于,所述物种分类预测模块为amresnet网络,其包括卷积层(conv)、批处理化规范层(bn)、修正线性单元(relu)、最大池化层(maxpool)、4个结构块(arblock)、平均池化层(avgpool)和全连接层(fc);所述结构块中,注意力层与残差层进行串联;所述注意力层包括通道注意力模块和空间注意力模块,分别对信道和空间进行加权,将模型集中在时域和频域中最重要的信息上,过滤掉不相关的噪声部分;所述残差层由两个残差结构组成,每个残差结构包括顺序连接的conv3
×
3-bn-relu操作和一个跳跃连接。3.根据权利要求1所述的一种真实环境中的鸟类鸣声自动识别系统,其特征在于,所述频谱特征包括:对数梅尔频谱(log-mel)、梅尔倒频谱系数(mfcc);所述乐谱特征包括:色度(chroma)、谱对比度(spectral contrast)和色调质心(tonnetz)。4.根据权利要求2所述的一种真实环境中的鸟类鸣声自动识别系统,其特征在于,所述通道注意力模块中,maxpool-mlp顺序连接操作和avgpool-mlp顺序连接操作通过相加进行合并;通过1个大小为3,步长为1的卷积层将输出数据的通道维数降低到1,并利用sigmoid作为激活函数,得到关注权重,计算如下:a
c
(x)=σ(w
mlp
(avg(x))+w
mlp
(max(x)))其中,其中x和a
c
(x)分别表示通道注意力模块的输入和输出,avg()和max()表示平均池化和最大池化,w
mlp
()表示多层感知机学习,σ()是sigmoid函数。5.根据权利要求4所述的一种真实环境中的鸟类鸣声自动识别系统,其特征在于,所述空间注意力模块中,maxpool和avgpool基于通道进行拼接(concat)运算,将经过通道注意模块之后的特征图聚合成h
×
w
×
2的向量,并通过核大小为7、填充(padding)为3的二维卷积操作和sigmoid函数,得到空间注意模块的关注权重,计算如下:a
s
(x)=σ(f3([avg(a
c
(x));max(a
c
(x))]))其中x和a
s
(x)分别表示空间注意模块的输入和输出,f3()表示卷积核为7、填充为3的卷积操作。6.根据权利要求5所述的一种真实环境中的鸟类鸣声自动识别系统,其特征在于,所述注意层的输出由输入的特征张量x
i
和两个注意力模块处理后的输出相乘,其计算过程如下:7.根据权利要求2所述的一种真实环境中的鸟类鸣声自动识别系统,其特征在于,所述
残差层的计算过程如下:y=x+f(x,w)其中,x和y分别表示残差结构的输入和输出,w是输入元素的对应权重;所述残差层组成的残差网络的输出计算,其过程如下:其中,l和l表示残差层的层数,f
relu
()表示relu激活函数。8.一种真实环境中的鸟类鸣声自动识别系统所用方法,其特征在于,包括以下步骤:s1.将读入的鸟类鸣声音频文件进行分帧、加窗和滤波器处理,并提取出频谱特征和乐谱特征;s2.将提取出的特征进行特征组合,得到log-cst特征集、mfcc-cst特征集和log-mfcc-cst特征集;s3.将得到的特征集作为输入,送入到amresnet网络中进行低维到高维的特征学习,输出模型预测的鸟类物种。9.根据权利要求8所述的一种真实环境中的鸟类鸣声自动识别系统所用方法,其特征在于,s2中,将提取出的特征进行特征组合,主要包括:将色度、谱对比度和色调质心进行拼接,得到扩展特征;将对数梅尔频谱和扩展特征聚合,得到log-cst特征集;将梅尔倒频谱系数和扩展特征聚合,得到mfcc-cst特征集;将对数梅尔频谱、梅尔倒频谱系数和扩展特征聚合,得到log-mfcc-cst特征集;且所述log-cst特征集、mfcc-cst特征集和log-mfcc-cst特征集均以线性方式组合。10.根据权利要求8所述的一种真实环境中的鸟类鸣声自动识别系统所用方法,其特征在于,所述amresnet网络事先训练各鸟类的音频文件特征过程包括:通过移动端采集鸟类的音频,并提取出其频谱特征和乐谱特征;将各鸟类的种类以及其频谱特征和乐谱特征加载到安装有amresnet网络的pc端;pc端首先根据鸟类的种类与事先划分的种类进行比对,判断是否为新物种;如果是新物种,则先接收该频谱特征和乐谱特征,并记录为新鸣声数据;然后下载并加载预训练权重文件,并将频谱特征和乐谱特征以及鸟类的种类进行迁移学习,在部署好的amresnet网络上进行训练;上传训练好的新的特征数据集和预训练权重文件,更新数据库的鸟类鸣声数据集,并提醒后台工作人员监测新的鸟类物种;如果不是新物种,则只需下载预训练权重文件,然后将该频谱特征和乐谱特征作为amresnet网络的输入,然后输出该网络的预测物种,并将结果展示;同时,将数据传送到后台,对数据库中的该鸟类数量进行修定,便于工作人员监测鸟类种类的变化趋势。

技术总结
本发明涉及鸣声信号提取和识别技术领域,尤其涉及一种真实环境中的鸟类鸣声自动识别系统。系统包括预处理模块,用于对鸟类鸣声音频文件进行分帧、加窗和滤波器处理;特征提取模块,用于提取出鸟类鸣声音频文件的频谱特征和乐谱特征;特征组合模块,用于将提取出的频谱特征和乐谱特征进行组合,并得到Log-CST特征集、MFCC-CST特征集和Log-MFCC-CST特征集;物种分类预测模块,用于根据得到的鸟类鸣声音频文件的特征集得出鸟类物种。本发明消除了手动提取特征的困难,减少成本,缩短周期;通过组合特征集,更加全面地提取出鸣声信号中的关键信息;通过构建AMResNet深度学习网络模型,实现更精确的识别和分类、提高模型的泛化能力。提高模型的泛化能力。提高模型的泛化能力。

技术研发人员:肖汉光 刘代代 陈凯
受保护的技术使用者:重庆理工大学
技术研发日:2022.06.28
技术公布日:2022/11/3

相关知识

鸟类声纹识别系统如何定制?-澳盾
一种基于物联网的鸟类鸣声识别监测系统及方法.pdf
SM4动物鸣声分析系统,鸟类声音记录仪
天信互通
一种基于鸟鸣声的园林引鸟装置
基于深度学习的鸟类声音识别系统
信息融合增强鸟类声纹识别研究
基于深度学习的鸟类识别系统(网页版+YOLOv8/v7/v6/v5代码+训练数据集)
基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的鸟类识别系统(Python+PySide6界面+训练代码)
基于神经网络的野生生态环境鸟类鸣声识别方法与流程

网址: 一种真实环境中的鸟类鸣声自动识别系统 https://m.mcbbbk.com/newsview215010.html

所属分类:萌宠日常
上一篇: 多种规格宠物牙刷狗牙刷宠物牙齿清
下一篇: 基于鸣声的鸟类智能识别方法研究