最近,Meta团队提出一种通过非侵入式脑磁(电)图(magneto- or electro- encephalography, M/EEG)解码语言的方法。具体地,首先使用深度学习方法对语音输入和对应的脑电(磁)图信号进行解码,得到深层次的特征表示;然后,应用对比学习策略匹配两种模态的潜在特征表示;最终,在四个公共数据集上评估了该模型,该模型可以从3s的MEG信号中识别相应的语音段进行识别,TOP-10的准确率高达72.5%(TOP-1的正确率为44%),在EEG信号的TOP-10准确率为19.1% (允许测试集中存在训练集中不存在的短语)。
补充知识TOP-10准确率:
一个训练完毕的网络进行分类任务时,假设要分类的数目有50类,输入一张图片,网络会依次输出这50个类别的概率,当所有样本测试完成后,那么:
TOP-10准确率是指在测试样本的50个分类概率中,取前面10个最大的分类概率,如果正确的标签在前10分类概率中,则分类成功。
TOP-10正确率=(所有测试样本中正确标签包含在前十个分类概率中的个数)/(总的测试图片数)×100%
1 方法概述
非侵入的大脑活动记录方式(M/EEG)容易受到噪声的污染,这会使得其在跨试次和跨受试的数据分布差异大。之前研究者们的方法是首先利用专业知识提取手工特征,再输入至特定的解码器进行训练(每个模型只训练一个受试者的数据)。
本文不同于先前的研究,提出了端到端(无需手工特征)的单一结构(跨受试)和使用数据驱动方法从健康受试者听故事和/或句子时非侵入式的M/EEG记录中解码语音。为此,该模型设计了一个’Subject Layer’并且使用对比学习策略匹配语音和M/EEG模态。
模型的总体结构如图1所示,3s长的语音信号通过预训练的自监督模型wav2vec提取深层次的特征,M/EEG使用一个Subject Block和卷积神经网络(CNN)堆叠的结构得到深层次的特征,然后使用对比损失CLIP最大限度的对正这两种特征表示。并且,在测试语音中会存在训练时不存在的单词,因此该模型可以是’Zero-shot’的。因此,该模型比标准分类方法(解码器只能预测在训练期间学习的类别)更通用。
补充知识Zero-shot learning:
Zero-shot learning指的是模型之前没有这个类别的训练样本。但是模型已学习到一个映射X->Y。如果这个映射足够好的话,模型就可以处理未知类。虽然模型不知道未知类是什么,但是模型评估未知类与各个已知类的相似度。
2 方法详解
2.1 神经解码
我们观察到,这种直接回归方法面临挑战:当存在语音时,解码预测似乎由不可区分的宽带分量主导(图2.B)。这一挑战激发了我们的三个主要贡献:引入对比损失、预训练深度语音表示和专用大脑解码器。
2.2 大脑解码模块
如图2-E所示,主要包括三个子模块:M/EEG传感器上的空间注意层;受试者特定的1x1卷积,旨在利用受试者间的差异;堆叠的卷积block。
2.3 对比损失
从语音与M/EEG的绝对差异损失(实际差异很大,网络难以学习),变成了M/EEG与所有潜在语音片段的相对差异损失(网络更容易学习)。
2.4 语音模块
Mel谱图是语音的低水平表示,因此不太可能与丰富的皮层表示相匹配。因此,重点关注使用wav2vec 2.0获得的解码结果。wav2vec 2.0是一种由卷积和Transformer构成的预训练网络用于变换原始波形,以预测其自身潜在表示的掩蔽部分。在实验中,使用了wav2vec2-large-xlsr-531模型,它已经在53种不同语言的56k小时语音上进行了预训练。详细代码可参见:
https://github.com/pytorch/fairseq/blob/main/examples/wav2vec
3 实验设置
M/EEG通常被认为是从相对较低的频率范围捕获神经信号,将所有大脑记录重新采样到120 Hz,然后将数据分为训练、验证和测试部分,按照70%、20%和10%的比例。我们将“样本”定义为大脑记录的3s窗口及其相关的语音表示。我们确保在拆分中没有相同的句子,并检查每个句子是否由唯一的说话者发音。M/EEG数据可能会出现较大的伪影,如眼球运动或电磁环境的变化。为了限制其影响,我们采用了“基线校正”(即,我们减去每个输入通道在前0.5秒的平均值)。对于Mel谱图,我们使用了120个Mel频带,使用在16kHz采样的音频,帧大小为512个样本,跳跃长度为128个样本的归一化STFT。
表1 四个公共数据集的具体信息
我们在四个公共数据集上测试了我们的方法,其中两个基于MEG记录,两个基于EEG。我们概述了表1中数据集的主要特征,包括训练和测试段的数量以及两个部分的词汇大小。对于所有数据集,健康成年志愿者被动地听语音(伴随一些记忆或理解问题,以确保参与者注意力集中),同时用MEG或EEG记录他们的大脑活动。
一个训练epoch内伴随着使用Adam的1200次更新,学习率为3*10−4和批量大小为128。当10个epoch的验证集上没有观察到改进时,我们停止训练,并基于有效损失保持最佳模型。对于Mel谱图的直接回归,我们使用MSE损失。我们使用两个具有16GB内存的V100 GPU。
4 实验结果
4.1 从M/EEG记录中解码语音的准确性
表2语句级的TOP-10准确率
我们的模型预测了1000多个可能段中的正确段,MEG数据集的Top-10准确率分别为72%和67%(TOP-1准确率为44%和36%)。对于超过一半的样本,真实音频段在解码器的预测中排名第一或第二。相比之下,预测词汇表上均匀分布的模型(“随机模型”)在相同的MEG数据集上仅达到2%的TOP-10准确率。EEG数据集的解码性能较低:我们的模型达到19%和31%的TOP-10准确率,这些分数比随机模型高四倍。
表3 消融实验结果(语句级TOP-10)
我们的消融强调了以下重要性:(1)对比损失,(2)使用深度语音表征和(3)大量参与者的组合。首先,当使用模型输出按余弦相似性对候选片段进行排序时,经过训练以预测具有回归目标的Mel谱图的模型(表2中的“基础模型”)在数据集上平均达到10%的TOP-10准确率,即比我们的模型低近五倍。
第二,预测具有对比损失的Mel谱图比基本模型提高了3倍,并通过使用wav2vec 2.0作为语音表示获得了16%的增加。我们验证了wav2vec 2.0的潜在表示比使用对比学习的端到端学习提供了更高的解码性能,如表2上的深度Mel模型的结果所示。
第三,为了测试我们的模型是否有效地利用了个体间变异性,我们在不同数量的受试者上进行了训练,并计算了前10%受试者的准确率。随着模型在两个MEG数据集上训练更多对象,解码性能提高。另一个消融实验加强了从多个受试者学习的能力:对所有受试者进行训练,但没有受试者特定层,导致四个数据集的平均准确率下降17%。
最后,其他设计选择对我们模型的性能产生了适度但显著的影响。当去除跳跃连接、空间注意力模块、初始或最终卷积层时,性能系统性降低。
论文信息:decoding speech from non-invasive brain recordings
仅用于学术交流,若有侵权及疑问,请后台留言,管理员即时删侵!
更多阅读
将同构迁移学习应用于脑机接口,
解决训练数据不足的问题
用于恢复言语以及帮助治疗抑郁症的脑机接口设想
Transformers 如何模仿大脑的某些部分
当你在梦乡里,大脑是如何唤醒你的?
帮助大脑患病患者生活的脑机接口解决方案
瘫痪患者借助脑机接口可进行数字绘画
加入社群
欢迎加入脑机接口社区交流群,
探讨脑机接口领域话题,实时跟踪脑机接口前沿。
加微信群:
添加微信:RoseBCI【备注:姓名+行业/专业】。
加QQ群:104048131
欢迎来稿
1.欢迎来稿。投稿咨询,请联系微信:RoseBCI
2.加入社区成为兼职创作者,请联系微信:RoseBCI
助力脑机接口发展
点个在看祝你开心一整天!
相关知识
研究人员利用人工智能解码狗狗叫声的秘密语言
新研究借助人工智能“解码”狗叫声
AI解锁狗狗“秘密语言”:人类语音模型助力解码狗吠之谜
北大黄铁军团队 | 专题综述:视觉信息的神经解码
想了解您的爱宠在说什么?现在可使用人工智能解码狗叫声
准确率高的可怕:利用 AI 解读狗的叫声
准确率可达 70%,科学家利用 AI 解读狗的叫声
一种利用宠物语音信号识别情绪的方法及系统与流程
听懂狗叫未来可期:利用AI解读狗叫准确率达70%!
Meta AI在日常任务中的应用
网址: Meta研究人员利用人工智能解码脑电语音信号(全文解读) https://m.mcbbbk.com/newsview347021.html
上一篇: 原创 孩 |
下一篇: 心理咨询:非语言行为在咨询过程中 |