首页 > 分享 > Meta研究人员利用人工智能解码脑电语音信号（全文解读）

Meta研究人员利用人工智能解码脑电语音信号（全文解读）

萌宠菠菠乐园
2024-10-07 02:51

最近，Meta团队提出一种通过非侵入式脑磁(电)图(magneto- or electro- encephalography, M/EEG)解码语言的方法。具体地，首先使用深度学习方法对语音输入和对应的脑电(磁)图信号进行解码，得到深层次的特征表示；然后，应用对比学习策略匹配两种模态的潜在特征表示；最终，在四个公共数据集上评估了该模型，该模型可以从3s的MEG信号中识别相应的语音段进行识别，TOP-10的准确率高达72.5%（TOP-1的正确率为44%），在EEG信号的TOP-10准确率为19.1% (允许测试集中存在训练集中不存在的短语)。

补充知识TOP-10准确率：

一个训练完毕的网络进行分类任务时，假设要分类的数目有50类，输入一张图片，网络会依次输出这50个类别的概率，当所有样本测试完成后，那么：

TOP-10准确率是指在测试样本的50个分类概率中，取前面10个最大的分类概率，如果正确的标签在前10分类概率中，则分类成功。

TOP-10正确率=（所有测试样本中正确标签包含在前十个分类概率中的个数）/（总的测试图片数）×100%

1 方法概述

非侵入的大脑活动记录方式(M/EEG)容易受到噪声的污染，这会使得其在跨试次和跨受试的数据分布差异大。之前研究者们的方法是首先利用专业知识提取手工特征，再输入至特定的解码器进行训练(每个模型只训练一个受试者的数据)。

本文不同于先前的研究，提出了端到端(无需手工特征)的单一结构(跨受试)和使用数据驱动方法从健康受试者听故事和/或句子时非侵入式的M/EEG记录中解码语音。为此，该模型设计了一个’Subject Layer’并且使用对比学习策略匹配语音和M/EEG模态。

模型的总体结构如图1所示，3s长的语音信号通过预训练的自监督模型wav2vec提取深层次的特征，M/EEG使用一个Subject Block和卷积神经网络(CNN)堆叠的结构得到深层次的特征，然后使用对比损失CLIP最大限度的对正这两种特征表示。并且，在测试语音中会存在训练时不存在的单词，因此该模型可以是’Zero-shot’的。因此，该模型比标准分类方法(解码器只能预测在训练期间学习的类别)更通用。

补充知识Zero-shot learning:

Zero-shot learning指的是模型之前没有这个类别的训练样本。但是模型已学习到一个映射X->Y。如果这个映射足够好的话，模型就可以处理未知类。虽然模型不知道未知类是什么，但是模型评估未知类与各个已知类的相似度。

2 方法详解

2.1 神经解码

我们观察到，这种直接回归方法面临挑战：当存在语音时，解码预测似乎由不可区分的宽带分量主导（图2.B）。这一挑战激发了我们的三个主要贡献：引入对比损失、预训练深度语音表示和专用大脑解码器。

2.2 大脑解码模块

如图2-E所示，主要包括三个子模块：M/EEG传感器上的空间注意层;受试者特定的1x1卷积，旨在利用受试者间的差异；堆叠的卷积block。

2.3 对比损失

从语音与M/EEG的绝对差异损失(实际差异很大，网络难以学习)，变成了M/EEG与所有潜在语音片段的相对差异损失(网络更容易学习)。

2.4 语音模块

Mel谱图是语音的低水平表示，因此不太可能与丰富的皮层表示相匹配。因此，重点关注使用wav2vec 2.0获得的解码结果。wav2vec 2.0是一种由卷积和Transformer构成的预训练网络用于变换原始波形，以预测其自身潜在表示的掩蔽部分。在实验中，使用了wav2vec2-large-xlsr-531模型，它已经在53种不同语言的56k小时语音上进行了预训练。详细代码可参见：

https://github.com/pytorch/fairseq/blob/main/examples/wav2vec

3 实验设置

M/EEG通常被认为是从相对较低的频率范围捕获神经信号，将所有大脑记录重新采样到120 Hz，然后将数据分为训练、验证和测试部分，按照70%、20%和10%的比例。我们将“样本”定义为大脑记录的3s窗口及其相关的语音表示。我们确保在拆分中没有相同的句子，并检查每个句子是否由唯一的说话者发音。M/EEG数据可能会出现较大的伪影，如眼球运动或电磁环境的变化。为了限制其影响，我们采用了“基线校正”（即，我们减去每个输入通道在前0.5秒的平均值）。对于Mel谱图，我们使用了120个Mel频带，使用在16kHz采样的音频，帧大小为512个样本，跳跃长度为128个样本的归一化STFT。

表1 四个公共数据集的具体信息

我们在四个公共数据集上测试了我们的方法，其中两个基于MEG记录，两个基于EEG。我们概述了表1中数据集的主要特征，包括训练和测试段的数量以及两个部分的词汇大小。对于所有数据集，健康成年志愿者被动地听语音（伴随一些记忆或理解问题，以确保参与者注意力集中），同时用MEG或EEG记录他们的大脑活动。

一个训练epoch内伴随着使用Adam的1200次更新，学习率为3*10−4和批量大小为128。当10个epoch的验证集上没有观察到改进时，我们停止训练，并基于有效损失保持最佳模型。对于Mel谱图的直接回归，我们使用MSE损失。我们使用两个具有16GB内存的V100 GPU。

4 实验结果

4.1 从M/EEG记录中解码语音的准确性

表2语句级的TOP-10准确率

我们的模型预测了1000多个可能段中的正确段，MEG数据集的Top-10准确率分别为72%和67%（TOP-1准确率为44%和36%）。对于超过一半的样本，真实音频段在解码器的预测中排名第一或第二。相比之下，预测词汇表上均匀分布的模型（“随机模型”）在相同的MEG数据集上仅达到2%的TOP-10准确率。EEG数据集的解码性能较低：我们的模型达到19%和31%的TOP-10准确率，这些分数比随机模型高四倍。

表3 消融实验结果(语句级TOP-10)

我们的消融强调了以下重要性：（1）对比损失，（2）使用深度语音表征和（3）大量参与者的组合。首先，当使用模型输出按余弦相似性对候选片段进行排序时，经过训练以预测具有回归目标的Mel谱图的模型（表2中的“基础模型”）在数据集上平均达到10%的TOP-10准确率，即比我们的模型低近五倍。

第二，预测具有对比损失的Mel谱图比基本模型提高了3倍，并通过使用wav2vec 2.0作为语音表示获得了16%的增加。我们验证了wav2vec 2.0的潜在表示比使用对比学习的端到端学习提供了更高的解码性能，如表2上的深度Mel模型的结果所示。

第三，为了测试我们的模型是否有效地利用了个体间变异性，我们在不同数量的受试者上进行了训练，并计算了前10%受试者的准确率。随着模型在两个MEG数据集上训练更多对象，解码性能提高。另一个消融实验加强了从多个受试者学习的能力：对所有受试者进行训练，但没有受试者特定层，导致四个数据集的平均准确率下降17%。

最后，其他设计选择对我们模型的性能产生了适度但显著的影响。当去除跳跃连接、空间注意力模块、初始或最终卷积层时，性能系统性降低。

论文信息：decoding speech from non-invasive brain recordings

仅用于学术交流，若有侵权及疑问，请后台留言，管理员即时删侵！

更多阅读

将同构迁移学习应用于脑机接口，

解决训练数据不足的问题

用于恢复言语以及帮助治疗抑郁症的脑机接口设想

Transformers 如何模仿大脑的某些部分

当你在梦乡里，大脑是如何唤醒你的？

帮助大脑患病患者生活的脑机接口解决方案

瘫痪患者借助脑机接口可进行数字绘画