首页 > 分享 > 基于深度特征融合的鸟鸣识别方法及其可解释性分析

基于深度特征融合的鸟鸣识别方法及其可解释性分析

A deep feature fusion-based method for bird sound recognition and its interpretability analysis

Jianmin Cai ,1, Peiyu He1, Zhipeng Yang2, Luying Li2, Qijun Zhao3, Fan Pan ,1,*

1. School of Electronic Information, Sichuan University, Chengdu 610065

2. College of Electronic Engineering, Chengdu University of Information Technology, Chengdu 610225

3. School of Computer Science (School of Software), Sichuan University, Chengdu 610065

摘要

鸟鸣识别是生态监测的重要手段, 为进一步提升鸟鸣识别的准确性和鲁棒性, 本文提出了1种新的基于深度特征融合的鸟鸣识别方法。该方法首先利用深度特征提取网络对鸟鸣的对数梅尔谱图和补充特征集的深度特征进行提取, 再将两种深度特征进行融合, 最后使用轻量级梯度提升机(light gradient boosting machine, lightGBM)分类器进行分类。本文充分利用深度神经网络的特征提取能力以及lightGBM的分类性能, 将特征提取和特征分类过程进行分离, 从而实现了高准确率的鸟鸣识别。实验结果显示, 本文提出的方法在北京百鸟数据集中取得了目前已知的最佳结果, 模型的平均准确率达到了98.70%, 平均F1分数达到了98.84%。相比传统方法, 深度融合特征在鸟鸣识别任务上准确率提升了5.62%以上。同时, 引入的lightGBM分类器使分类准确率提升了3.02%。此外, 在CLO-43SD和BirdCLEF2022比赛的数据集中, 本文方法也展现出卓越的性能, 分别取得了98.32%和91.12%的平均准确率。本文还引入了类激活图对不同类型鸟鸣的识别结果进行可解释性分析, 揭示了神经网络对不同类型鸟鸣的注意力区域差异, 为后续的特征选择和模型优化提供了理论依据。研究结果表明, 本文方法有效提高了鸟鸣识别的准确率, 在3个数据集的测试中均展现出较好的性能, 能够为基于鸟鸣识别的生态监测提供有力的技术支撑。

关键词:鸟鸣识别;特征融合;可解释性分析;深度学习;lightGBM

Abstract

Background: Bird sound recognition is a crucial tool for ecological monitoring. However, current research still faces the challenges of achieving low recognition rates in complex datasets and a lack of robustness. Moreover, there is a noticeable absence of interpretability analysis for deep learning model in the existing research.

Methods: Firstly, we utilized a deep feature extraction network to extract features from the logarithmic Mel-spectrogram of bird sound and the deep features of the supplementary feature set. These two types of deep features were then fused and fed into a light gradient boosting machine (lightGBM) classifier for classification. Class activation maps were applied to perform interpretability analysis on deep learning models to understand how the models recognize bird sound.

Results: The experimental results demonstrated that the proposed method in this paper achieved state-of-the-art results on the Beijing Bird Dataset, with an average accuracy of 98.70% and an average F1 score of 98.84%. Compared to traditional methods, the deep fusion features show a significant improvement in accuracy for bird sound recognition, with an increase of at least 5.62%. Additionally, the introduction of the lightGBM classifier contributed to a 3.02% improvement in classification accuracy. Furthermore, the proposed method exhibited outstanding performance on the CLO-43SD and BirdCLEF2022 competition datasets, achieving average accuracies of 98.32% and 91.12%, respectively. The result of the class activation maps revealed that the disparities in attentional regions within the neural network for each specific bird sound type.

Conclusion: The method proposed in this paper effectively improves the accuracy of bird sound recognition and demonstrates excellent performance on three datasets, offering strong technical support for ecological monitoring based on bird sound recognition. This analysis serves as a theoretical foundation for subsequent endeavors in feature selection and model optimization.

Keywords:bird sound recognition;feature fusion;interpretability analysis;deep learning;lightGBM

近年来, 随着生态环境的日益恶化和人们对生态保护意识的增强, 越来越多的研究人员开始关注鸟类监测活动。鸟类作为生态系统重要的组成部分, 对维护生态平衡和生态稳定具有重要作用。鸟类监测不仅可以帮助保护珍稀鸟类, 还能提供有关生态系统健康状况的信息, 为生态环境的保护和管理提供科学依据。

在鸟类监测中, 鸟类识别是一种重要的手段。目前, 鸟类识别主要分为鸟类的影像识别和音频识别。影像识别基于鸟类的外貌特征来分类, 需要依靠拍摄设备对鸟类进行拍摄, 并进行图像处理和识别分析。然而, 影像识别存在一定的局限性。由于鸟类活动范围广泛, 采集到的图片或者视频可能存在遮挡或鸟类不全等问题, 同时光线、云雾等环境因素也会对影像采集产生不利影响。此外, 大量的影像数据需要进行户外存储, 也会加大采集成本。

相比影像识别, 音频识别是一种更为有效的识别方法。鸟类的鸣叫声在自然界中是普遍存在的, 因此通过采集鸟类的鸣叫声来识别鸟类更为便捷。尤其是在丛林茂密以及人迹罕至的地区, 人们往往更容易听到和记录到鸟类鸣叫。基于声学传感器的鸟类音频采集不存在被完全遮挡的情况, 采集成本更低, 具有更广的识别范围。然而, 采集到的自然界鸟鸣声往往伴随着流水、风噪、其他动物的声音等干扰, 也给鸟鸣识别带来了极大的挑战。因此, 研究人员需要对声音进行处理和分析, 进一步提高对鸟鸣识别的精度与准确率, 从而实现更有效的鸟类监测。

数字记录设备和存储技术的发展实现了大规模生物声学监测。但由此产生的大量音频数据会导致缺乏足够的数据分析人员来处理数据, 基于深度学习的自动化检测方法使解决这个问题成为可能(Stowell, 2022)。近年来, 越来越多的研究者开始使用深度学习方法进行鸟鸣识别。Sprengelt等(2016)利用语谱图作为卷积神经网络(convolutional neural networks, CNN)的输入实现了鸟鸣声的识别, 获得了LifeCLEF Bird的冠军。Xie和Zhu (2019)研究了用于鸟类声音分类的深度学习方法、视觉特征和声学特征, 结果发现深度学习方法最高获得了94.36%的F1分数, 优于视觉特征与声学特征。Gupta等(2021)提出了一种基于梅尔频谱图的深度学习方法, 该方法利用CNN与RNN (recurrent neural network)混合模型对100种鸟类数据集进行分类, 最终获得了67%的平均准确率, 在大规模数据集的鸟鸣识别任务中存在低准确率(low accuracy)、低鲁棒性(low robustness)等问题。Yan等(2021)提出了1种基于特征融合的鸟鸣识别方法, 该方法将Chroma-logMel- MFCC 3种特征融合, 利用3DCNN-LSTM组合模型进行分类, 实验结果表明融合特征相比单一特征有更好的分类表现。Zhang等(2021)提出了基于DCNNs多通道融合频谱图的鸟鸣分类模型, 分别通过特征融合和结果融合来探究模型性能, 首次将多通道融合技术引入鸟鸣识别任务中, 提高了模型的泛化能力。最近, 李怀城等(2022)提出了基于Inception-CSA深度学习模型的鸟鸣识别算法, 该算法从梅尔频谱图中提取融合多尺度局部特征和全局注意力权重的鸟鸣声特征图, 捕获了特征图的全局注意力权重, 为网络提供了更丰富的鸟鸣声特征信息, 从而使分类精度得到了很大提升。

基于深度学习的鸟鸣识别研究虽然取得了喜人的成果, 但同样面临着一些问题。例如, 大多数学者使用传统的CNN网络或者自建的深度学习模型, 在特征提取能力和泛化能力上相比现代的分类网络有很大差距。另外当前研究主要围绕提高模型分类精度, 而缺乏对模型的可解释性分析, 不能为基于深度学习的鸟鸣识别的进一步优化提供理论指导。同时, 面对复杂的鸟鸣数据集, 现有的方法在鸟鸣识别任务上的准确性和鲁棒性上还存在不足。

针对以上问题, 本文旨在提出了一种基于深度特征融合的鸟鸣识别方法。该方法使用鸟鸣信号的logMelMAPS和logEGeMAPS特征, 并利用基于EfficientNetV2的特征提取模型提取深度特征。最后, 将深度融合特征输入到lightGBM中进行分类。

1 材料与方法

本节介绍了本文提出基于深度特征融合的鸟鸣识别方法及其实验使用的数据集、预处理方法、特征提取方法以及深度特征提取模型。该鸟鸣识别方法流程如图1所示。

图1

图1  本文提出的鸟鸣识别方法流程图

Fig. 1  Flow chart of bird song identification method proposed in this paper


1.1 数据集

本文在3个数据集上对提出方法的性能进行了评估。3个数据集 包括: (1)北京百鸟数据集。包含中国本土常见20种鸟鸣的数据合集, 共有声音片段14,311个, 均以时长2 s的.wav格式存储。另外, 该数据集包含了所有5种鸟鸣频谱类型(单频、调频、宽带脉冲、类噪声、强谐波) (Brandes, 2008)。(2) CLO-43SD数据集。包含了43种北美林莺的5,000多次迁徙鸣声, 具有持续时间短、频率高等特点, 单段鸟鸣时长不超过200 ms。这些鸟鸣片段来自各种录音条件, 包括野外定向麦克风录制的纯净鸟鸣和全向麦克风录制的含噪鸟鸣, 以及从圈养鸟类获得的鸟鸣录音。(3) BirdCLEF2022比赛的训练数据集。包含大约1.5万条记录, 涵盖夏威夷群岛链的152种鸟类, 每段录音时长从几秒到几十分钟不等。该数据集具有多物种和噪声复杂的特点, 录音来源于Xeno-Canto网站(https://xeno-canto.org), 信息还包括不同录音地点的背景声录音。由于比赛测试集数据未公开, 本文只使用公开的训练集对模型进行性能评估。

1.2 预处理

为保留语音原始特征, 本文未对鸟鸣做数据增强处理, 同时所有鸟鸣音频文件统一重采样为16 kHz。在CLO-43SD和BirdCLEF2022数据集中, 鸟鸣声的时长存在不确定性, 因此, 我们对每段鸟鸣进行了时长统一化处理。对于CLO-43SD数据集, 由于鸟鸣时长较短, 我们采用了复制拼接的方法, 将每一段鸟鸣多次复制拼接, 并从中截取前2 s作为特征提取的音频(吉训生等, 2022)。而对于BirdCLEF2022数据集, 由于鸟鸣时长较长, 我们按照等间隔的时间间隔截取鸟鸣, 每段鸟鸣的长度为2 s, 不足2 s的鸟鸣片段被舍去, 截取的鸟鸣段与原始鸟鸣共享一个标签。由于原始数据集未进行剪辑, 截取的鸟鸣段可能存在无鸟鸣的情况, 我们对这部分样本进行手工剔除, 以便后续训练模型。

由于录音环境和设备的不同, 导致不同样本的鸟鸣幅值差异很大。因此, 我们对3个数据集的每个鸟鸣样本进行了幅度去均值归一化处理(式(1)), 以消除幅值差异。

s(n)=s(n)−mean(s(n))max(abs(s(n)))

(1)

其中, s(n)为输入信号,  mean(⋅)、max(⋅)与abs(⋅)分别为均值、最大值与绝对值。

1.3 声学特征提取

对数梅尔谱图(logarithmic Mel-spectrogram, logMel)和梅尔频率倒谱系数(Mel frequency cepstral coefficient, MFCC)都是声学分类中常用的特征提取方法。相比MFCC, logMel谱图没有经过离散余弦变换(discrete cosine transform, DCT), 能够更多地保留声学的细节信息。在本文中, 我们采用25 ms的帧长和10 ms的帧移, 并选择13阶的Mel滤波器组对鸟鸣进行logMel特征提取。然而, logMel谱图是静态的, 无法描述信号的动态变化。因此, 我们还引入了logMel谱图的一阶和二阶差分, 以更好地描述鸟鸣信号的变化。我们将logMel谱图及其一阶和二阶差分拼接成一个新的特征图, 称为logMelMAPS, 如图1所示。这个新的特征图将作为深度学习模型的输入。

尽管logMelMAPS特征谱包含丰富的声学信息,但它仍存在一些问题, 因此我们引入了补充特征集EGeMAPS (Eyben et al, 2015)。EGeMAPS包含88个特征, 包括时域、频域、能量振幅、谱相关的特征等, 这些特征大都是计算相邻三帧语音的低水平特征(low level descriptors, LLDs)的算数平均和标准差而得到的, 具有丰富的统计特性。相比logMelMAPS, EGeMAPS能更好地反映鸟鸣的动态变化, 同时引入了谐噪比(harmonics-to-noise ratio, HNR)等特征, 这些特征在鸟鸣识别中具有重要作用。本文利用开源工具openSMILE (Eyben et al, 2010)来提取EGeMAPS。为了避免不同特征数值上的差异对识别效果造成影响, 我们对EGeMAPS进行了对数运算, 并将其可视化为logEGeMAPS谱图, 如图1所示。

1.4 基于EfficientNetV2的深度特征提取网络

本文在EfficientNetV2的基础上提出了深度特征提取网络。EfficientNetV2是一种新型的卷积神经网络, 对比以往的神经网络, 其在训练效率和参数数量方面均具有突出的优点。为提高训练系统的稳定性, EfficientNetV2的开发者们提供了一个新的训练渐进方法, 这个方法能够通过训练图像的大小动态调整参数, 包括dropout、data augmentation和mixup, 从而提升了训练效率和准确性。根据Tan和Le (2021)的试验结果, 这个算法不但能够提升训练效率, 而且还能够提升准确性, 训练速度提升了11倍, 参数数量也减少到EfficientNetV1的1/6.8。

由于EfficientNetV2在图片分类方面有着巨大的优势, 我们对其特征提取能力产生了兴趣。因此, 在EfficientNetV2网络结构中, 输出全连接层前, 我们添加了一个包含512个神经元的全连接层, 作为特征提取层, 构成了基于EfficientNetV2的深度特征提取网络, 如图2所示。我们使用该特征提取网络对logMelMAPS和logEGeMAPS进行特征提取, 分别获得512维的特征向量。为了融合这两种深度特征, 我们将这两个特征向量拼接成1,024维的特征向量, 作为分类器的输入。这可以将这两种特征的优势结合起来, 提高识别的准确率和鲁棒性。通过这样的特征提取方式, 我们可以获得更具区分性的特征向量, 进而提高模型的性能和泛化能力。本文采用lightGBM (Ke et al, 2017)作为分类器对深度融合特征进行分类(图1)。

图2

图2  基于EfficientNetV2的深度特征提取网络

Fig. 2  Deep feature extraction network based on Efficient- NetV2


1.5 可解释性分析

鸟鸣按照时频谱图特性一共可以被分为5种类型, 分别是单频类型(constant frequency, CF)、类噪声类型(broadband with varying frequency compo- nents, BVF)、强谐波类型(strong harmonics, SH)、调频类型(frequency modulated whistles, FM)和宽带脉冲类型(broadband pulses, BP) (Brandes,2008)。为了探究神经网络的注意力机制, 我们引入了类激活图(class activation map, CAM) (Selvaraju et al, 2017)对不同类型鸟鸣的logMelMAPS特征图进行可解释性分析。类激活图是一种用于解释深度卷积神经网络分类结果的可视化技术, 它可以将神经网络的分类结果可视化为一个热力图, 其中颜色越深的区域表示对应的区域对分类结果的贡献越大, 可以帮助我们理解神经网络对于分类的依据和决策过程。

1.6 实验设置

在本项研究中, 深度特征提取网络和分类器训练参数见表1。本文实验GPU采用NVIDIA RTX3090, CPU采用Ryzen 5600X, 内存为32 G。

表1  模型及其参数列表

Table 1  Model and model parameter list

模型
Model参数名称
Parameter name参数值
Parameter value深度特征提取网络
Deep feature
extraction network优化器 OptimizerAdam学习率 Learning rate0.01时期数 Epochs200批大小 Batch size16损失函数
Loss function分类交叉熵
Categorical_cross-entropy分类器 Classifier学习率
Learning rate0.01加速方法
Boosting methodGBDT最大深度 Max depth4

新窗口打开|下载CSV


为了评估模型性能, 我们采用了五折交叉验证。我们将数据集分为5个等分, 每次将其中1个等分作为测试集, 剩余的4个等分作为训练集, 依次循环5次, 每次使用不同的等分作为测试集, 最终, 我们选择五折平均准确率和平均F1分数(F1 score)来评价模型性能。准确率和F1分数定义如式(2)和式(3)。

   accuracy = TP+TNTP+TN+FP+FN

(2)

F1 score = 2×   precision   ×   recall   precision+   recall

(3)

其中TP表示真阳性, TN表示真阴性, FP表示假阳性, FN表示假阴性。precision表示精确率, 定义为TP/(TP+FP), recall表示召回率, 定义为TP/(TP+FN)。

2 结果

2.1 基准测试

为了验证本文提出方法的有效性, 我们在北京百鸟数据集上进行了基准测试。首先, 对鸟鸣进行预处理, 提取logMel谱图, 利用mobileNetV3和EfficientNetV2进行分类。其次, 我们将logMel谱图与其一阶差分和二阶差分拼接成logMelMAPS, 并利用EfficientNetV2作为分类器。为了验证补充特征集EGeMAPS的有效性, 我们使用openSMILE工具箱提取EGeMAPS谱图, 然后进行对数运算得到logEGeMAPS, 最后利用EfficientNetV2分别对鸟鸣的EGeMAPS谱图和logEGeMAPS进行分类和效果对比。

表2呈现了北京百鸟数据集上基准测试中各方法的分类性能。使用logMel单一特征时, Efficient- NetV2相较于mobileNetV3的平均准确率提高了2.88%; 相较于包含一阶和二阶差分的logMelMAPS特征下的平均准确率提高了2.61%。对比logEGeMAPS特征和EGeMAPS特征, 在该数据集上平均准确率和平均F1分数分别提高了14.15%和13.97%。

表2  基于北京百鸟数据集的基准测试实验结果(最佳结果加粗显示)

Table 2  Benchmark experiment results based on Beijing Bird dataset (The best result is highlighted in bold)

模型
Model平均准确率
Average accuracy (%)平均F1分数
Average F1-score (%)logMel + mobileNetV390.2090.11logMel + EfficientNetV293.0893.20logMelMAPS + EfficientNetV295.6995.73EGeMAPS + EfficientNetV277.4177.45LogEGeMAPS + EfficientNetV291.5691.42深度logEGeMAPS + lightGBM Deep logEGeMAPS + lightGBM97.1397.12深度logMelMAPS + lightGBM Deep logMelMAPS + lightGBM98.7198.69深度融合特征(mobileNetV3) + lightGBM Deep fusion features (mobileNetV3) + lightGBM97.7797.76深度融合特征 + SVM Deep fusion features + SVM98.8398.82深度融合特征 + Random Forest Deep fusion features + Random Forest98.8298.81深度融合特征 + XGBoost Deep fusion features + XGBoost98.6498.63深度融合特征 + lightGBM Deep fusion features + lightGBM98.7098.82

新窗口打开|下载CSV


使用深度模型提取深度特征, 将这些特征输入lightGBM算法进行分类, 实验结果见表2。logMel- MAPS和logEGeMAPS深度特征平均准确率分别达到了98.71%和97.13%。与直接使用深度神经网络(EfficientNetV2)进行分类对比, logMelMAPS和logEGeMAPS深度特征的平均准确率分别提高了3.02%和5.57%。同时, 深度融合特征和深度logMelMAPS在该数据集上的平均准确率和平均F1分数相似。对深度融合特征和深度logEGeMAPS在lightGBM上取得的实验结果进行t-test检验, P值为0.0008 (P < 0.05), 有显著性提升。进一步对深度融合特征和深度logMelMAPS在lightGBM上取得的实验结果进行t-test检验, P值为0.4460 (P > 0.05), 没有显著性差异。

与lightGBM相比, 其他机器学习分类器在北京百鸟数据集也取得了类似的性能表现, SVM、Random Forest、XGBoost平均准确率分别为98.83%、98.82%和98.64%。此外, 表2中基于mobile-NetV3提取深度特征并送入lightGBM中进行分类相比直接使用mobileNetV3进行分类在平均准确率上也有7.57%的提升。这表明结合本文提出的深度神经网络提取特征和机器学习分类器进行分类的模型具有一定的通用性。

2.2 基于3个不同数据集的实验结果比较

为了进一步验证我们提出方法的有效性, 我们在多个数据集上与其他优秀方法进行了比较。表3、表4和表5分别展示了我们在北京百鸟数据集、CLO-43S数据集和BirdCLEF2022数据集上的表现及与其他方法的比较结果。在表3中, 我们的方法相比于双向LSTM分类logMel的方法(李大鹏, 2022)①(① 李大鹏 (2022) 自然场景下鸟鸣声识别算法研究, 硕士学位论文, 南京信息工程大学, 南京.)平均准确率提高了2.12%, 平均F1分数提高了2.31%。这表明我们提出的方法在分类任务中具有显著的优势。在表4中, 我们提出的算法在CLO-43S数据集上的表现相比于3种深度特征融合使用KNN分类的方法(吉训生等, 2022)平均准确率提高了4.43%。在表5中, 我们的深度融合特征使用lightGBM分类的方法在平均F1分数上接近BirdCLEF2022比赛公开数据集最优算法。深度融合特征相比深度logMelMAPS特征在BirdCLEF2022公开数据集上平均准确率提高了2.59%, 平均F1分数提高了2.73%。对比其他机器学习分类器, SVM、Random Forest、XGBoost平均准确率分别为89.40%、85.47%和85.71%, 均低于lightGBM。这表明了我们提出的深度特征融合模型在复杂数据集上的有效性。

表3  基于北京百鸟数据集的不同模型实验结果对比(加粗显示最佳结果)

Table 3  Comparison of different model experimental results based on Beijing Bird dataset (The best result is highlighted in bold)

模型 Model平均准确率 Average accuracy (%)平均F1分数 Average F1-score (%)参考文献 ReferenceGWO-KELM91.1688.54李大鹏, 2022①① 李大鹏 (2022) 自然场景下鸟鸣声识别算法研究, 硕士学位论文, 南京信息工程大学, 南京.)LogMel + CRNN92.8989.64Adavanne et al, 2017LogMel + CNN91.1288.47Bold et al, 2019logMel + DSRN + DilatedSAM + BiLSTM96.5896.51李大鹏, 2022①① 李大鹏 (2022) 自然场景下鸟鸣声识别算法研究, 硕士学位论文, 南京信息工程大学, 南京.)深度融合特征 + lightGBM
Deep fusion features + lightGBM98.7098.82本文 This study

新窗口打开|下载CSV


表4  基于CLO-43S数据集的不同模型实验结果对比(最佳结果加粗显示)

Table 4  Comparison of different model experimental results based on CLO-43S dataset (The best result is highlighted in bold)

模型 Model平均准确率 Average accuracy (%)平均F1分数 Average F1-score (%)参考文献 ReferencelogMel + SVM93.96-Salamon et al, 2016深度特征-1-2-3 + 最小最大归一化 + KNN
Deep fusion feature-1-2-3 + Max-Min Normalization + KNN93.89-吉训生等, 2022深度融合特征 + lightGBM
Deep fusion features + lightGBM98.3298.04本文 This study

新窗口打开|下载CSV


表5  基于BirdCLEF 2022比赛数据集的不同模型实验结果对比(加粗显示最佳结果)

Table 5  Comparison of different model experimental results based on BirdCLEF2022 competition dataset (The best result is highlighted in bold)

模型
Model平均准确率
Average accuracy (%)平均F1分数
Average F1-score (%)参考文献
ReferenceBirdCLEF2022比赛public最优 BirdCLEF2022 competition optimal model
in public dataset-91.28https://www.kaggle.com/competitions/birdclef-2022/leaderboard?t ab=public深度logMelMAPS + lightGBM Deep logEGeMAPS + lightGBM88.5388.32本文 This study深度融合特征 + SVM Deep fusion features + SVM89.4089.22本文 This study深度融合特征 + Random Forest Deep fusion features + Random Forest85.4784.77本文 This study深度融合特征 + XGBoost Deep fusion features + XGBoost85.7185.47本文 This study深度融合特征 + lightGBM Deep fusion features + lightGBM91.1291.05本文 This study

新窗口打开|下载CSV


2.3 可解释性分析结果

我们绘制了5种类型鸟鸣的logMelMAPS特征图及其对应的类激活图(图3)。从图3中可以看出, 神经网络的注意力区域主要集中在logMelMAPS能量较高的地方, 在每种类型鸟鸣中logMel谱图的高亮部分都被神经网络所注意。根据图3中的各个子图, 可以观察到神经网络不仅关注了logMel特征, 还关注了其一阶和二阶差分特征。这一发现表明融合特征logMelMAPS相较于单一的logMel特征更具优势, 从而验证了特征融合的有效性。由于不同类型鸟鸣频谱形状的差异, 神经网络的注意力区域也表现出差异。在图3(a), 单频类型的鸟鸣中, 神经网络在logMel的注意力区域主要集中在鸟鸣声起始时刻, 呈现以能量最高区域的同心圆; 而在图3(c), 强谐波鸟鸣类型中, 注意力区域呈现沿各次谐波的带状分布。这些发现表明神经网络能够对鸟鸣中重要的时频特征进行区分, 并有针对性地提取相关特征。

图3

图3  5种鸟鸣类型类激活图。a-e分别表示西方秧鸡(单频类型)、苍鹭(类噪声类型)、欧亚鵟(强谐波类型)、麻雀(调频类型)、黑翅长脚鹬(宽带脉冲类型)的logMelMAPS及其对应的类激活图。每幅子图左侧表示logMelMAPS特征图, 从下至上由logMel谱图、logMel一阶差分图和logMel二阶差分图拼接而成, 横向表示时间, 纵向表示频率; 每幅子图右侧则表示logMelMAPS对应的类激活图, 右侧颜色越深表明神经网络对该区域越关注。

Fig. 3  Class activation maps of five bird song types. a-e represent the logMelMAPS of western coconuts (constant frequency), heron (broadband with varying frequency components), Eurasian eagle (strong harmonics), sparrow (frequency modulated whistles), black-winged sandpiper (broadband pulses) and their corresponding class activation map, respectively. Each subfigure on the left side represents the logMelMAPS feature map, which is composed of logMel spectrogram, logMel first-order differential spectrogram, and logMel second-order differential spectrogram from bottom to top. The horizontal axis represents time, and the vertical axis represents frequency. On the right side of each subfigure, the corresponding class activation map for logMelMAPS is displayed, where darker colors indicate that the neural network pays more attention to that particular region.


3 讨论

本文研究了深度融合特征识别模型在两个小型数据集(北京百鸟数据集、CLO-43S数据集)和1个大型数据集(BirdCLEF2022数据集)中的有效性,该模型在3个数据集中都取得了优异的性能表现。实验结果表明, logMelMAPS在鸟鸣识别表现上优于补充特征集logEGeMAPS, 深度特征相比原始特征更能区分不同鸟类。

根据表2的结果, 深度logMelMAPS特征和深度融合特征在分类效果上表现相似。然而, 表4中可以看出, 深度融合特征在分类性能上优于深度logMelMAPS。这说明在简单鸟鸣数据集中, 深度logMelMAPS特征已经足以很好地表征和区分各种鸟鸣的信息。但在鸟类多、噪声多的复杂鸟鸣数据集中, 引入logEGeMAPS特征可以弥补单一logMelMAPS动态不足的缺陷, 并补充了谐噪比、基音频率、共振峰带宽以及谐波能量比等特征, 能进一步提高模型的分类效果。实验表明, 使用深度特征融合可以在BirdCLEF2022数据集中比深度logMelMAPS特征在性能上有进一步的提高。这说明在处理复杂鸟鸣数据集时, 深度特征融合是一种有效的方法。

我们设计的网络性能上优于Efficient-NetV2直接分类logMelMAPS特征(表2), 同时在lightGBM的分类效果明显高于其他机器学习分类器(表4), 这可以归因于lightGBM模型的强大分类能力。lightGBM模型是梯度提升决策树(gradient boosted decision trees, GBDT)的一种实现, 其本质原理是利用决策树训练集成, 从而得到最优的模型。相比于神经网络的softmax函数, lightGBM模型的分类性能更为优越, 同时计算效率和扩展性也更高(Ke et al, 2017)。基于mobile-NetV3的深度特征提取网络和基于EfficientNetV2的深度特征提取网络结合机器学习分类器相比直接使用深度学习模型进行鸟鸣识别性能都有显著提升(表2)。采用深度学习模型提取特征, 再用机器学习模型来进行分类, 这种组合算法能够充分利用深度学习模型对特征的提取能力和机器学习模型的分类优势, 能进一步提高鸟鸣识别的性能。

鸟鸣按照时频谱图特性一共可以被分为5种类型, 分别是单频类型(constant frequency, CF)、类噪声类型(broadband with varying frequency compo- nents, BVF)、强谐波类型(strong harmonics, SH)、调频类型(frequency modulated whistles, FM)和宽带脉冲类型(broadband pulses, BP) (Brandes, 2008)。区域呈现沿各次谐波的带状分布。这些发现表明神经网络能够对鸟鸣中重要的时频特征进行区分, 并有针对性地提取相关特征。

神经网络的关注区域与logMel谱图及其一阶差分和二阶差分的信息量有关。logMel谱图由于包含鸟鸣信息量最大, 在鸟鸣识别中, 神经网络都关注了5种鸟鸣类型对应的logMel谱图中能量最大的区域, 准确捕捉到关键的高能量部分。这表明logMel谱图中的高能量部分对于鸟鸣识别具有重要的影响。在一阶logMel中, 单频类型、强谐波类型和宽带脉冲类型神经网络都给予了单个注意力区域, 而类噪声类型和调频类型神经网络则将logMel谱图及其一阶差分在一个注意力区域一起关注, 这可能与这两类鸟鸣的复杂性有关, 两种特征联合起来关注更能让神经网络找到与其他鸟鸣之间的差异。在logMel二阶差分中, 神经网络仅对强谐波类型、调频类型和宽带脉冲类型这3种鸟鸣类型给予了关注, 关注区域颜色相比logMel谱图和一阶差分也更淡。神经网络的类激活图颜色深浅递减, 表明logMel谱图、一阶差分和二阶差分对鸟鸣的识别影响也递减, 对应了信息量的递减。这些结果表明神经网络可以准确捕捉不同特征的高能量部分, 同时关注区域也与特征的信息量和复杂性有关。

4 总结

本文充分利用深度神经网络对特征的提取能力和机器学习模型强大的分类性能对鸟鸣特征进行分类, 极大提高了识别性能和模型的鲁棒性。在实验过程中, 本文发现对数梅尔谱图的深度特征在简单的鸟鸣数据集中表现出了很好的效果, 而在复杂数据集中, 引入补充特征集的深度融合特征能够进一步提高模型的表现效果。为了解释基于深度学习鸟鸣识别的工作机理, 引入类激活图对不同鸟鸣类型进行可解释性分析, 说明了算法对不同类型鸟鸣的注意力区域差异。

本文提出了一种新的基于深度特征融合的鸟鸣识别方法。该方法不仅使用传统的logMel谱图特征, 还引入了EGeMAPS特征集, 以提供更多的鸟鸣声学信息。为了提取高质量的深度特征, 我们提出了1种深度特征提取方法用于深度特征提取。为了更好地描述鸟鸣, 我们将两种深度特征进行融合, 最终采用lightGBM作为分类器进行鸟鸣识别。实验证明, 我们提出的算法在3个数据集中都表现出色, 能够对鸟鸣进行高效准确的识别。本文还对提出的鸟鸣识别方法进行了可解释性分析, 为进一步优化鸟鸣识别网络提供了理论支撑。

参考文献

[1]

Adavanne S, Drossos K, Cakir E, Virtanen T (2017) Stacked convolutional and recurrent neural networks for bird audio detection. In:Proceedings of the 25th European Signal Processing Conference (EUSIPCO), Greek Island, Greece.

[本文引用: 1]

[2]

Bold N, Zhang C, Akashi T (2019)

Cross-domain deep feature combination for bird species classification with audio-visual data

IEICE Transactions on Information and Systems, 102, 2033-2042.

[本文引用: 1]

[3]

Brandes TS (2008)

Automated sound recording and analysis techniques for bird surveys and conservation

Bird Conservation International, 18, S163-S173.

[本文引用: 3]

[4]

Dan S (2022)

Computational bioacoustics with deep learning: A review and roadmap

PeerJ, 10, e13152.

[5]

Eyben F, Scherer KR, Schuller BW, Sundberg J, André E, Busso C, Devillers LY, Epps J, Laukka P, Narayanan SS, Truong KP (2015)

The Geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing

IEEE Transactions on Affective Computing, 7, 190-202.

DOI:10.1109/TAFFC.2015.2457417    URL     [本文引用: 1]

[6]

Eyben F, Wöllmer M, Schuller B (2010) Opensmile:The Munich versatile and fast open-source audio feature extractor. In: Proceedings of the 18th ACM International Conference on Multimedia (eds del Bimbo A, Chang SF), pp. 1459-1462.

Association for Computing Machinery,

New York.

[本文引用: 1]

[7]

Gupta G, Kshirsagar M, Zhong M, Gholami S, Ferres JL (2021)

Comparing recurrent convolutional neural networks for large scale bird species classification

Scientific Reports, 11, 17085.

DOI:10.1038/s41598-021-96446-w    PMID:34429468     [本文引用: 1]

We present a deep learning approach towards the large-scale prediction and analysis of bird acoustics from 100 different bird species. We use spectrograms constructed on bird audio recordings from the Cornell Bird Challenge (CBC)2020 dataset, which includes recordings of multiple and potentially overlapping bird vocalizations with background noise. Our experiments show that a hybrid modeling approach that involves a Convolutional Neural Network (CNN) for learning the representation for a slice of the spectrogram, and a Recurrent Neural Network (RNN) for the temporal component to combine across time-points leads to the most accurate model on this dataset. We show results on a spectrum of models ranging from stand-alone CNNs to hybrid models of various types obtained by combining CNNs with other CNNs or RNNs of the following types: Long Short-Term Memory (LSTM) networks, Gated Recurrent Units (GRU), and Legendre Memory Units (LMU). The best performing model achieves an average accuracy of 67% over the 100 different bird species, with the highest accuracy of 90% for the bird species, Red crossbill. We further analyze the learned representations visually and find them to be intuitive, where we find that related bird species are clustered close together. We present a novel way to empirically interpret the representations learned by the LMU-based hybrid model which shows how memory channel patterns change over time with the changes seen in the spectrograms.© 2021. The Author(s).

[8]

Ji XS, Jiang K, Xie J (2022)

Deep feature fusion of multi-dimensional neural network for bird call recognition

Journal of Signal Processing, 38, 844-853. (in Chinese with English abstract)

[本文引用: 3]

[吉训生, 江昆, 谢捷 (2022)

基于多维神经网络深度特征融合的鸟鸣识别算法

信号处理, 38, 844-853.]

[本文引用: 3]

[9]

Ke GL, Meng Q, Finley T, Wang TF, Chen W, Ma WD, Ye QW, Liu TY (2017) LightGBM:A highly efficient gradient boosting decision tree. In: NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems (eds von Luxburg U, Guyon I, Bengio S, Wallach H, Fergus R), pp. 3149-3157.

Curran Associates Inc.,

New York.

[本文引用: 2]

[10]

Li HC, Yang DW, Wen ZF, Wang YN, Chen AB (2022)

Inception-CSA deep learning model-based classification of bird sounds

Journal of Huazhong Agricultural University, 42(3), 97-104. (in Chinese with English abstract)

[本文引用: 1]

[李怀城, 杨道武, 温治芳, 王亚楠, 陈爱斌 (2022)

基于Inception- CSA深度学习模型的鸟鸣分类

华中农业大学学报, 42(3), 97-104.]

[本文引用: 1]

[11]

Salamon J, Bello JP, Farnsworth A, Robbins M, Keen S, Klinck H, Kelling S (2016)

Towards the automatic classification of avian flight calls for bioacoustic monitoring

PLoS ONE, 11, e0166866.

[本文引用: 1]

[12]

Selvaraju RR, Cogswell M, Das A, Vedantam R, Parikh D, Batra D (2017) Grad-CAM:Visual explanations from deep networks via gradient-based localization. In:2017 IEEE International Conference on Computer Vision (ICCV) (ed.ed. O'Conner L), pp. 618-626.

IEEE Computer Society Customer Service Center,

California.

[本文引用: 1]

[13]

Sprengel E, Jaggi M, Kilcher Y, Hofmann T (2016) Audio based bird species identification using deep learning techniques. In: Conference and Labs of the Evaluation Forum (CLEF) 2016, pp. 547-559.

Évora,

Portugal.

[本文引用: 1]

[14]

Stowell D (2022)

Computational bioacoustics with deep learning: A review and roadmap

PeerJ, e13152.

[本文引用: 1]

[17]

Yan N, Chen AB, Zhou GX, Zhang ZQ, Liu XY, Wang JW, Liu ZH, Chen WJ (2021)

Birdsong classification based on multi-feature fusion

Multimedia Tools and Applications, 80, 36529-36547.

DOI:10.1007/s11042-021-11396-9     [本文引用: 1]

[18]

Zhang FY, Zhang LY, Chen HX, Xie JJ (2021)

Bird species identification using spectrogram based on multi-channel fusion of DCNNs

Entropy, 23, 1507.

DOI:10.3390/e23111507    URL     [本文引用: 1]

Deep convolutional neural networks (DCNNs) have achieved breakthrough performance on bird species identification using a spectrogram of bird vocalization. Aiming at the imbalance of the bird vocalization dataset, a single feature identification model (SFIM) with residual blocks and modified, weighted, cross-entropy function was proposed. To further improve the identification accuracy, two multi-channel fusion methods were built with three SFIMs. One of these fused the outputs of the feature extraction parts of three SFIMs (feature fusion mode), the other fused the outputs of the classifiers of three SFIMs (result fusion mode). The SFIMs were trained with three different kinds of spectrograms, which were calculated through short-time Fourier transform, mel-frequency cepstrum transform and chirplet transform, respectively. To overcome the shortage of the huge number of trainable model parameters, transfer learning was used in the multi-channel models. Using our own vocalization dataset as a sample set, it is found that the result fusion mode model outperforms the other proposed models, the best mean average precision (MAP) reaches 0.914. Choosing three durations of spectrograms, 100 ms, 300 ms and 500 ms for comparison, the results reveal that the 300 ms duration is the best for our own dataset. The duration is suggested to be determined based on the duration distribution of bird syllables. As for the performance with the training dataset of BirdCLEF2019, the highest classification mean average precision (cmAP) reached 0.135, which means the proposed model has certain generalization ability.

相关知识

基于深度迁移学习与XGBoost的混合鸟鸣识别方法
一种基于特征融合的鸟鸣自动识别方法与流程
基于多维神经网络深度特征融合的鸟鸣识别算法
信息融合增强鸟类声纹识别研究
基于空间方位的鸟鸣识别方法、系统、计算机设备与介质
基于深度学习的鸟鸣声识别方法研究.docx
多特征融合的鸟类物种识别方法
基于神经网络的野生生态环境鸟类鸣声识别方法与流程
一种基于注意力残差和特征融合的鸟语识别方法和系统
一种基于多线索融合的动物行为识别方法

网址: 基于深度特征融合的鸟鸣识别方法及其可解释性分析 https://m.mcbbbk.com/newsview1188523.html

所属分类:萌宠日常
上一篇: 原来狗语翻译器真的可以有,还是个
下一篇: 宠物鸟的鸣叫声背后,隐藏着怎样的