完整代码: https://github.com/CarrieX6/-Xeno-Canto-
[1] Xie Z. et al., ‘面向鸟鸣声识别任务的深度学习技术’, Biodiversity Science, vol. 31, no. 1, p. 22308, 2023, doi: 10.17520/biods.2022308.本研究利用深度学习技术结合特征融合方法,解决了传统鸟鸣声识别方法中特征提取不充分的问题,最终在Xeno-Canto世界野生鸟类声音数据集上取得了96.9%的准确率。
论文背景: 在生态系统中,鸟类对于生态环境的调节和生物多样性的监测至关重要,而鸟鸣声识别和异常鸣声监测成为研究热点。过去方案: 传统鸟鸣声识别方法存在特征提取不充分等问题,导致识别率不高。论文的Motivation: 为了提高鸟鸣声识别的准确率,本研究采用融合特征的方法结合深度学习技术,通过自注意力模块和中心损失函数提高特征表达能力,解决类内特征不紧凑问题。理论背景:本研究提出了一种鸟鸣识别的神经网络结构,结合深度学习和融合特征方法。融合特征是通过将原始信号参数与修改后的log-Meier谱差参数拼接而成的。深度学习方法基于DenseNet121网络结构,并引入了自注意力模块和中心损失函数用于鸟鸣识别。自注意力模块改善了关键通道的特征表示,而中心损失函数解决了类内特征不紧凑的问题。
技术路线:本研究首先对收集到的鸟鸣数据进行分析和预处理,包括预加重、分帧和加窗操作。然后,通过直接提取对数梅尔频谱图特征,并添加一阶和二阶差分参数来保留时间信息,改进了梅尔滤波器。接着,设计了基于DenseNet121的神经网络架构,并引入了自注意力模块来关注相关的鸟鸣。模型使用softmax损失和中心损失函数进行优化。
实验设置:本研究使用了Xeno-Canto数据集进行实验。研究人员应用Mel频率倒谱系数(MFCC)算法从鸟鸣数据中提取特征。这些特征被融合并用作卷积神经网络模型的输入。提供的文本中没有提及具体的实验设置和参数。
实验结果:本实验在Xeno-Canto World Wild Bird Sounds公共数据集上测试了10种鸟鸣声音,鸟鸣识别的准确率达到了96.9%。