本研究提出了一种基于MFF-ScSEnet的深度学习鸟鸣识别方法,通过特征融合和注意力机制,解决了鸟鸣识别中信息损失和噪声干扰的问题,实现了较高的识别准确率。
过去方案: 过去的鸟鸣识别方法中,特征提取过程中滤波器提取的信息可能导致信息损失,限制了鸟鸣识别的学习能力。论文的Motivation: 本研究旨在解决鸟鸣识别中信息损失和噪声干扰的问题,提出了一种基于MFF-ScSEnet的特征融合网络,通过融合不同频谱图的优势特征和引入注意力机制,提高了网络的识别性能。理论背景:本研究提出了一种名为MFF-ScSEnet的特征融合网络,用于深度学习鸟鸣识别。该网络通过早期融合结合Mel-频谱图和Sinc-频谱图的优势。引入了ScSEnet注意力模块以增强频谱图的声音涟漪信息并提高识别性能。
技术路线:该鸟鸣识别模型结合了时间域和时频域特征,使用3D卷积神经网络(3D-CNN)和2D卷积神经网络(2D-CNN)作为logmel频谱和波形图像的特征提取器。提取的特征然后输入到双门循环单元(d-GRU)网络进行分类。此外,还添加了ScSEnet注意力模块到Resnet18骨干网络以增强鸟鸣特征信息并提高识别性能。
实验设置:实验使用了200个epochs和64的批量大小进行训练。训练和测试集以8:2的比例随机分割。使用了批量归一化、dropout和Adam优化器等多种技术。学习率设置为0.001,每40个epochs衰减一次。
实验结果:提出的鸟鸣识别模型在Huabei_dataset上取得了95.9%的平均准确率,并通过引入ScSEnet注意力机制展现了改进的识别性能。