首页 > 分享 > ECOGEN：使用深度学习生成鸟声,Methods in Ecology and Evolution

ECOGEN：使用深度学习生成鸟声,Methods in Ecology and Evolution

萌宠菠菠乐园
2024-12-05 11:06

1 简介

1.1 背景

使用自动记录仪的被动声学监测在生态学中已经很受欢迎，涵盖了广泛的物种和应用（Sugai 等人， 2019）。然而，大型项目的利用通常会导致大量数据的积累，而手动分析这些数据即使不是几乎不可能，也变得非常困难（Browning et al., 2017）。为了应对这些挑战，有助于自动处理这些数据的工具和技术的开发不断增加（Priyadarshani 等人， 2020 年；Sueur 和 Farina， 2015 年）。近年来，基于深度学习的声音种类检测和分类工具因其准确性而引起了广泛关注（Aodha 等人， 2018；Fairbrass 等人， 2019；Ruff 等人， 2020）。然而，生态数据集往往呈现偏态分布，常见物种的数据量过大，而稀有或濒危物种的样本却很少。这会导致类别不平衡，这种情况可能会损害深度学习模型的性能（Buda 等人， 2018；Johnson & Khoshgoftaar， 2019）。事实上，这些模型是数据驱动的，需要充足且平衡的数据集才能达到最佳精度，这强调了迫切需要强大的技术来处理稀有物种的稀缺数据。常见的方法包括使用数据增强来修改现有样本，例如添加噪声或隐藏特征（Jorge et al., 2018；Zhang et al., 2017），或使用其他模型生成全新的样本（Giuffrida et al., 2017； Wild 等人， 2018）。随着深度学习的兴起，我们见证了围绕音频生成领域的大量重要工作。作品范围从音乐生成（Dai 等人， 2021；Dhariwal 等人， 2020；Dielman， 2020；Huang 等人， 2019）到人声合成（Alonso 和 Erkut， 2021；Liu 等人，2022；Huang 等人， 2022）。 Luong 和 Yamagishi， 2020；Shi 等人， 2021）。目前，这些领域最高效的深度学习方法如下：Wavenet (Oord, Dieleman, et al., 2016 )、Tacatron 1 (Wang et al., 2017 )、Tacotron 2 (Elias et al., 2021 ) 和最近，点唱机（Dhariwal 等人， 2020）。然而，生成音频样本仍然是一项艰巨的任务。

1.2 为什么生成音频很困难？

由于多种原因，音频生成仍然是一项具有挑战性的任务。一大困难是合成需要大量样品。音频文件可以以各种格式表示以进行处理（McFee et al., 2015），例如波形、频谱图和色谱图，每种格式都突出显示特定的特征，例如音调、节奏和响度。然而，许多这些表示都涉及信息丢失，使得生成高质量音频样本变得具有挑战性。波形表示捕获时域中的声压幅度，是最常见的格式之一，不会丢失任何信息（图 1）。从数字上讲，音频波形是描述声压随时间变化的数字序列。与音频持续时间相比，该序列可能很大。例如，以 44.1 kHz 采样的 1 秒单声道音频文件由 44,100 个样本表示。这可能需要大量计算，尤其是在使用深度学习算法时。

图1

在图查看器中打开微软幻灯片软件

美国金鸻 ( Pluvialis dominica ) 歌曲录音的不同音频信号表示。(a) 美国金鸻 (NL) 的图片。(b–e) 分别表示珩鸟歌曲的音频波形、梅尔频谱图、CQT 频率和色度偏移表示。

Jukebox（Dhariwal 等人， 2020 ）等多种方法可在样本级别生成音频信号（Oord、Kalchbrenner 等人， 2016）。Jukebox 是迄今为止最先进的音频生成工具之一，它采用自回归模型直接推断音频信号并一次生成每个样本。虽然这种方法可以产生令人愉悦且逼真的音频（Dhariwal 等人， 2020），但它可能非常耗时。例如，作者使用昂贵的显卡花了大约 3 小时才生成 20 秒的音频。因此，需要探索更容易获得和更有效的音频生成方法。

1.3 图像生成

从声学角度来看，音频波形生成给出了有趣的结果。然而，其性能限制阻碍了其实际应用。相反，图像生成引起了人们的极大兴趣并产生了大量的研究。生成的图像现在已经达到了真实的水平，人类有时很难将它们与真实图像区分开来（Karras 等人， 2018、2020 ； Ramesh 等人， 2021；Rombach 等人， 2022；Ruiz 等人， 2023 ）。此外，与音频生成方法相比，大多数图像生成技术可以在几秒钟内产生高质量的结果。在这些方法中，VQ-VAE2 已成为一种有前途的方法（Razavi 等人， 2019）。

VQ-VAE2 是一种自动编码器架构，包括编码器和解码器网络。编码器首先将输入x映射到量化的潜在变量z，也称为码本（图 2）；然后解码器从码本重建输入x 。码本包含使解码器能够准确重建输入的基本信息。使用最近邻聚类算法对码本进行量化，该算法将相似的模式分组在一起。

图2

在图查看器中打开微软幻灯片软件

码本提取。VQ-VAE2 模型经过训练，可以从输入样本中提取显着特征，并将相似特征分组到聚类中。在这里，我们表示从梅尔谱图中提取特征（图 1）。

本质上，VQ-VAE2 架构中的码本通过分配的密钥 ID 表示输入数据中特定特征的存在。例如，音频文件中的特定鸟叫模式可能会被分配键号 10。每当在任何音频文件中检测到此模式时，模型都会将其分配给键号 10。码本空间的结构方式类似于模式被分配给相同或附近的簇，而不同的特征被放置在相距较远的地方。换句话说，VQ-VAE2 网络学习分解鸟鸣模式，捕获最相关的模式并将其组织到特征目录（代码本）中，该目录可重复用于各种下游任务，例如物种分组、音频压缩、鸟类识别甚至音频生成。

1.4 音频作为图像

为了利用现有图像生成技术的功能，我们需要一种音频表示形式，以类似于图像的结构化格式有效捕获与物种识别相关的关键信息。这种选择的表示也应该是可逆的，允许我们将音频从紧凑表示转换回其波形，反之亦然。幸运的是，这种表示形式已经存在，称为频谱图。通过对音频信号应用短时傅立叶变换（Bosi & Goldberg， 2003 ）来生成频谱图。这个过程会产生一个类似于图像的二维网格，它描述了信号随时间的频率变化。通过采用 Griffin 和 Lim 方法（Griffin & Lim， 1984）进行相位估计，然后进行短时傅里叶逆变换，可以将频谱图转换回数字音频信号。由于这些特性，声谱图已被研究人员广泛应用于各种基于音频的任务，包括单词识别（Abukrat & Korambath， 2020；Davis & Mermelstein， 2014；Kahl 等， 2017；Zhou 等， 2021）。

1.5 生态原

在这项研究中，我们提出了 ECOGEN，这是一种开源、快速的深度学习方法，旨在生成合成且逼真的鸟鸣声。利用 VQ-VAE2 架构（Razavi 等人， 2019），ECOGEN 使用频谱图作为输入来学习鸟鸣的表示。然后它会生成新的频谱图，可以将其转换回数字音频信号。ECOGEN 的主要目标是通过增强数据来解决数据集中某些类别中鸟鸣样本不足的问题。通过这样做，我们的目标是减轻不平衡数据集带来的挑战，提高分类器的性能和通用性，并增强整体稳健性。此外，ECOGEN 不仅仅局限于鸟鸣；它可以应用于任何其他生物声音，包括哺乳动物和昆虫的叫声。

"点击查看英文标题和摘要"