语音情感识别(speech emotion recognition,SER)在教育、医疗、服务业等领域得到了广泛的应用。一些研究人员使用深度学习模型,如卷积神经网络(convolutional neural networks,CNN)、深度简要神经网络(deep brief neural network,DBN)和双向长短期记忆网络(bidirectional long short-term memory network,BLSTM),提取神经网络更深的特征,并用激活函数对输入特征进行非线性变换。单模态SER会混淆不同的情绪,研究人员将音频模态与文本、面部图像或心率相融合[1],利用不同模态之间的互补情感信息,提高SER的准确性[2]。Singh等[3]将声学特征和文本特征融合作为输入特征向量,使用深度神经网络(deep neural networks,DNN)进行分类。Cai等[4]结合CNN和BLSTM提取声学特征,然后使用BLSTM提取文本特征,最后,应用DNN对融合特征进行学习和分类。后期融合是指每个模态先使用自己的分类器进行分类,然后融合每个模型的结果进行最终分类。Wang等[5]先使用CNN+RNN进行人脸分类,然后利用CNN+BLSTM进行音频分类,最后使用加权决策融合方法进行最终分类。Wang等[6]在决策级融合中,采用最大权重多模态融合方法对脑电信号和面部表情信息进行融合。然而,多模态融合存在异质性差异[7],Chen等[8]指出多模态情感识别在不同的模态之间存在问题,一些研究者忽略了它们之间的联系,需要缩小异质性差距,并充分利用不同模式之间的联系。为解决这些问题,Zhang等[9]提出了一种将知识从视觉模态转移到听觉模态的新架构。Dong等[10]提出了一个时间关系推理网络,用于不同模态之间的关联。Li等[11]提出了基于注意的双向长短期记忆递归神经网络(LSTM-RNNs)来考虑模态之间的时间关系。
语音数据是从不同的文化和说话风格中收集的,这意味着如果分类器在一个语料库中训练并在另一个语料库中测试,情感分类的准确性将会变低。迁移学习被广泛应用于解决这一问题[12-16],解决这一问题的方法主要是Ocquaye等[17]提出的一种结合相关对齐损失的双重互斥注意迁移,相关对齐的功能是最小化域移位。Song等[18]提出了一种基于非负矩阵分解的迁移子空间学习算法,用于寻找源数据和目标数据之间的共享特征子空间。
跨语料库SER和多模态SER都为情感识别领域做出了突出的贡献,研究人员受到这些研究成果的启发,提出了双模态跨语料库SER,并使用Bert+BLSTM和CNN+BLSTM分别提取了声学特征和文本特征。为了消除异质差异并考虑2个模态之间的联系,他们提出了一种模态不变性损失,对不同模态无差别的共同表征,并保持固有的跨模态语义一致性。利用LDA+MMD+GE算法在源数据和目标数据之间创建公共子空间,并引入情绪感知中心损失因子Lc" role="presentation">Lc
本文的创新之处在于:①通过融合音频和文本模态,提出了双模态跨语料库的SER,这在以往的研究中很少出现;②设计了能够消除异质性间隙并保持固有的跨模态语义一致性的通用表示;③使用LDA+MMD+GE算法在源数据集和目标数据集之间形成一个公共子空间,并引入Lc" role="presentation">Lc
多模态情感识别是指融合语音、文本或视觉的2种或2种以上的情感识别。多模态情感识别利用不同模态之间的互补情感信息,来提高情感分类的准确率[19-20]。多模态情感识别分为3类:特征层融合、决策层融合和模型层融合。特征层融合将声学特征、文本特征和视觉特征融合到高维向量中,然后将该向量发送到分类器中进行分类。决策层融合是每个模态都使用自己的分类器进行分类,再融合每个模型的结果进行最终分类。这2种融合方式各有优缺点。特征层融合的优点是融合方法简单,可以更好地体现特征之间的关系,缺点是不同模态融合的高维向量容易造成维数灾难,以及训练模型出现过拟合的情况。决策层融合的优点是可以避免高维特征出现过拟合的情况,缺点则是融合过程中不能利用不同模态特征之间的相关信息。模型层融合对各个模态的特征进行模态内核模态间的关系建模,利用所建的模型,可以学习不同模态特征之间的互补信息,以此获得更有效地多模态特征[21]。
为了能够有效学习不同模态的互补信息,提高模态之间的交互性,Guo等[22]使用文本和语音2个模态,提出了隐式对齐多模态transformer融合框架(implicitly align the multimodal transformer fusion framework, IA-MMTA)。IA-MMTA可以学习不同模态的互补情感信息,之后使用加权融合方法,控制不同模态的权重。Zou等[23]利用传统的融合多模态情感分类的方法对每种模态的情感表达能力进行分析,结果每种模态的情感表达能力相同,实验结果不尽人意。他们引入了主模态和弱模态的概念,通过主模态变换器(master mode transverter,MMTr)的多头注意力机制,对不同模态间的信息交互,达到增强主模态的完整性并增强弱模态的情感表达。Li 等[24]提出了多级多模态动态融合网络(multi-level multi-mode dynamic fusion network, MSMDFN),首先提取不同模态的特征,学习特征间的相互作用,最后利用模态相关性,对多模态特征进行多阶段融合。
1.2 迁移子空间学习迁移子空间学习方法是使用差异约束法,将源数据集和目标数据集,由高维特征空间映射到一个公共的低维子空间。迁移子空间学习通常包含特征选择、特征降维、标签信息映射回归以及特征分布相似性约束这4个操作。特征选择和特征降维的功能是确保形成低维的子空间,避免造成维数灾难。许多深度学习模型需要大量有标签的数据,而获取大量有标签的数据很困难[25-26],因此标签信息映射回归的功能是解决目标数据集无标签的问题,通过回归矩阵,将特征映射到标签空间,从而将源数据集的标签信息迁移到目标数据集。特征分布相似性约束的功能是减少不同数据集之间特征分布的差异,常见的约束有最大平均差异(maximum mean discrepancy, MMD)约束和图嵌入(graph embedding, GE)约束,其中MMD是全局差异约束算法,GE是局部差异约束算法。
在这个子空间中,不仅源数据集和目标数据集的特征分布相似,而且可以降低特征维数,避免造成维数灾难,从而更有效地把源数据集学习到的知识迁移到目标数据集。Song等[27]提出了迁移判别分析(transfer discriminant analysis,TDA)方法。TDA是在使用LDA子空间降维方法的同时,结合MMD算法,形成源数据集和目标数据集特征分布相似的低维子空间。Chen等[28]提出了目标自适应子空间学习(target adaptive subspace learning,TaSL)方法。TaSL使用l1" role="presentation">l1
双模态迁移判别情感特征子空间(bi-modal transfer discriminates the subspace of affective features,BMTDAFSL)的结构如图1所示。BMTDAFSL包括4个要素:特征提取、多模态学习、低维度共同的子空间学习和情感分类。
图 1 BMTDAFSL的方法的结构
Figure 1. The structure of BMTDAFSL
2.1 特征提取OpenSmile工具包用来提取原始语音信号的音调、抖动、微光和MFCC特征。将提取的语音特征输入到CNN中,然后通过CNN卷积和池化操作。将CNN的输出作为BLSTM的输入。CNN的基础结构包括卷积层、池化层和密集层,CNN可以提取全局特征。在第1~4卷积层中,有64、128、256、512个卷积核。卷积层大小为3×3,条带大小为1×1,池化层大小为4×4,步长为4×4。引入Bi-LSTM模型实现信息的双向存储。可以通过BLSTM提取声学特征的上下文依赖信息。全局特征和局部特征都有利于语音情感识别,因此CNN+BLSTM用来同时提取全局特征和局部特征。BI-LSTM中的隐藏细胞数量设置为128。文本模态为语音信息的文本翻译稿。文本情态的功能是为音频情态提供补充信息,音频情态可以考虑语境互动。使用Bert来对文本进行矢量化。Bert是变压器层的编码器,Bert模型由输入层、转换层和输出层组成。变压器层是对SEQ2SEQ的改进,它结合了多头注意力机制。SEQ2SEQ由编码器和解码器组成。编码器将输入的文本信息压缩成固定长度的向量,解码器将该向量作为与编码器相同长度的向量序列输出。向量化的文本特征被输入到BLSTM中以提取高级特征。多头关注机制的头数设置为8。
2.2 多模态学习 不同模式之间存在异质性差距,这对SER的准确性有不利影响[29]。因此,减少音频和文本模态之间异质特征的影响是至关重要的。模态不变性损失用来消除不同模态之间的异质性[30]。模态不变性损失是学习音频和文本模态的转换,以形成共同的表征空间。引入模态不变损失相比文献[10-11]的优势是通过子空间,把模态融合与学习模态间联系2个步骤合二为一,提高了情感分类的效率。文献[10-11]中无法做到模态融合与学习模态之间联系2个步骤一起操作。所以P(djβ|diα" role="presentation">djβ|diα
P(djβ|diα)=e−||ha(diα)−hβ(djβ)||2∑k=1m+ne−||ha(diα)−hβ(dkβ)||2" role="presentation">P(djβ|diα)=e−||ha(diα)−hβ(djβ)||2∑k=1m+ne−||ha(diα)−hβ(dkβ)||2
(1)q(djβ|diα)={1,如果i=j0,否则" role="presentation">q(djβ|diα)={1,如果i=j0,否则
(2)为了保持文本和音频模态的模态不变性,可以最小化从音频到文本的KL散度函数:
τi2t=1m+n∑i=1m+n∑j=1m+nq(djβ|diα)logq(djβ|diα)P(djβ|diα)+σ" role="presentation">τi2t=1m+n∑i=1m+n∑j=1m+nq(djβ|diα)logq(djβ|diα)P(djβ|diα)+σ
(3) 式中:diα" role="presentation">diα
同时,从文本到音频的KL发散函数可以被最小化为
τt2i=1m+n∑i=1m+n∑j=1m+nq(diα|djβ)logq(diα|djβ)P(diα|djβ)+σ" role="presentation">τt2i=1m+n∑i=1m+n∑j=1m+nq(diα|djβ)logq(diα|djβ)P(diα|djβ)+σ
(4) 通过结合τi2t" role="presentation">τi2t
低维度共同的子空间学习(low dimensions transfer supspace learning, LDTSL)相对于其他迁移子空间的学习方法,优势在于TDAFSL方法在求解公共低维子空间的时候,综合考虑了特征选择,全局差异约束,局部差异约束,特征与标签映射关系以及在减小源数据集和目标数据集差异的同时没有忽视具有情感辨别的特征。其他的迁移子空间方法不能有效地将这些综合考虑。
2.3.1 联合优化线性判别分析(LDA)首先使用LDA方法对源数据和目标数据的多模态特征空间进行特征降维。LDA将数据投影到子空间中,使同类数据之间的距离最小,异类数据之间的距离最大。步骤如下:
Sb=∑i=1cni(μ(i)−μ)(μ(i)−μ)T" role="presentation">Sb=∑i=1cni(μ(i)−μ)(μ(i)−μ)T
(8)Sw=∑i=1c∑j=1ni(xj(i)−μ(i))(xj(i)−μ(i))T" role="presentation">Sw=∑i=1c∑j=1ni(xj(i)−μ(i))(xj(i)−μ(i))T
(9)W选择=argmaxtr(PTSbP)tr(PTSwP)=minTR(PT(Sw−βSb)P)" role="presentation">W选择=argmaxtr(PTSbP)tr(PTSwP)=minTR(PT(Sw−βSb)P)
(10) 式中:ni" role="presentation">ni
设置X=[Xs,Xt" role="presentation">Xs,Xt
G(Cs,Ct)=||1ns∑i=1nscis−1nt∑j=1ntcjt||2=tr(PTXMXTP)" role="presentation">G(Cs,Ct)=||1ns∑i=1nscis−1nt∑j=1ntcjt||2=tr(PTXMXTP)
(11) 式中:tr()为矩阵的迹;M是MMD矩阵;cis是源数据的样本,cjt" role="presentation">cis是源数据的样本,cjt
mi,j={1ns2xi,xjϵXs1nt2xi,xjϵXt−1nsnt,否则" role="presentation">mi,j={1ns2xi,xjϵXs1nt2xi,xjϵXt−1nsnt,否则
(12) 式中:ns" role="presentation">ns
虽然MMD可以减少源数据和目标数据之间的差异,但它忽略了数据的几何信息。应用GE来维护该几何信息。GE将邻域内样本的相似度作为分布差异约束。对于每个样本向量,可以根据欧氏距离找到它的p近邻。在本文中,使用0-1矩阵。相邻点的权重值为1,不相邻点的权重值为0。0-1权矩阵W=w伊吉" role="presentation">w伊吉
wi,j={1xis∈Np(xjt)或xjt∈Np(xis)0否则" role="presentation">wi,j={1xis∈Np(xjt)或xjt∈Np(xis)0否则
(13) 式中:xis" role="presentation">xis
Ge的函数计算如下:
G(P)=12∑i,j=1N||ci−cj||2wi,j=12(∑i=1Nci2∑j=1Nwij+∑j=1Ncj2∑i=1Nwi,j−2∑i=1N∑j=1Ncicjwi,j)=∑i=1Nci2Dii−∑i=1N∑j=1Ncicjwi,j=tr(PTXMXTP)" role="presentation">G(P)=12∑i,j=1N||ci−cj||2wi,j=12(∑i=1Nci2∑j=1Nwij+∑j=1Ncj2∑i=1Nwi,j−2∑i=1N∑j=1Ncicjwi,j)=∑i=1Nci2Dii−∑i=1N∑j=1Ncicjwi,j=tr(PTXMXTP)
(14) 式中:L=D–W是拉普拉斯矩阵;D是对角矩阵;其对角线上的每个元素是W的相应列的和;ci" role="presentation">ci
LDTSL将子空间学习和回归方法结合在一个统一的框架中。引入了1个回归系数矩阵,并使用最小二乘回归方法来描述特征表示和相应标签之间的关系。这使得模型更具鉴别性,可以更好地预测目标域测试数据的标签信息。因此,引入了回归矩阵P来实现这一目标。所提出的回归模型可以描述如下:min||Y−PQTX||F2" role="presentation">||Y−PQTX||F2
一些传统的迁移学习方法只考虑减少源数据和目标数据之间的领域差异,而忽略了情感区分特征。为了解决这个问题,引入了Lc" role="presentation">Lc
Lc=∑i=1nsmax(0,||fks,i−ci||22−α1)+∑p,q=1p≠qcmax(1,α2−||cpb−cqb||22)" role="presentation">Lc=∑i=1nsmax(0,||fks,i−ci||22−α1)+∑p,q=1p≠qcmax(1,α2−||cpb−cqb||22)
(15) 式中:ns" role="presentation">ns
cqb=1nbq∑1≤i≤nbqfks,i" role="presentation">cqb=1nbq∑1≤i≤nbqfks,i
(16) 式中:nbq" role="presentation">nbq
Ltotal=min||Y−PQTX||F2+tr(QT(Sw−βSb)Q)+μtr(QTXMXTQ)+γtr(QTXLXTQ)+Lc" role="presentation">Ltotal=min||Y−PQTX||F2+tr(QT(Sw−βSb)Q)+μtr(QTXMXTQ)+γtr(QTXLXTQ)+Lc
(17) 2.3.6 BMTDAFSL的优化 BMTDAFSL首先通过迭代算法,选取最优的P和Q,以此寻找最优的迁移子空间,其次在形成最优的迁移子空间基础上,加上Lc" role="presentation">Lc
(1) 更新Q:通过固定P和更新Q,对Ltotal" role="presentation">Ltotal
∂Ltotal∂Q=(Sw−βSb)Q+μXMXTQ+γXLXTQ+XXTQ−XYTP=0" role="presentation">∂Ltotal∂Q=(Sw−βSb)Q+μXMXTQ+γXLXTQ+XXTQ−XYTP=0
Q=(Sw−βSb+μXMXT+γXLXT+XXT)−1XYTP" role="presentation">Q=(Sw−βSb+μXMXT+γXLXT+XXT)−1XYTP
(2) 更新P:固定Q,对min ||Y−PQTX||F2" role="presentation">||Y−PQTX||F2
Tr(PTYXTQ" role="presentation">PTYXTQ
(3) 求解完步骤(1)、(2)后,加上Lc" role="presentation">Lc
在TEDFSL中,特征的维数从1 582降到150,并形成了特征表示和相应标签之间的关系,然后将TEDFSL形成的特征和相应标签发送到SVM分类器中,以进行最终的情绪分类。
在实验中,选择YouTube数据集作为源数据,IEMOCAP作为目标数据。YouTube数据集由47个视频和转录组成。快乐、愤怒、悲伤、中性、恐惧和惊讶都包括在这个数据库中。有20名女性和27名男性发言者,他们来自不同的背景。实验中使用了视频和录音的语音信号。IEMOCAP是1个多模态数据库,包括愤怒、快乐、悲伤、中立、恐惧和惊讶。IEMOCAP数据库支持视频和音频,以及所有话语的文本转录。所有的源数据和7/10的目标数据用于训练,而3/10的目标数据用于测试。IEMOCAP和YouTube转录中的M是Google Speech在开源API下提供的,用于执行语音文本的转换。
3.2 实验设置 实验使用了INTERSPEECH2010 Challenge的特征集,其中包含MFCC、LSP及其相应的delta系数。根据迁移子空间学习的目标函数表达式,使用网格搜索的方法选择最优参数β,γ,μ," role="presentation">β,γ,μ,
表 1 实验参数
Table 1. Experiment parameters
参数价值 dropout0. 5学习率0. 001批量大小64循环次数10BLSTM隐层节点数128多头注意机制的头数8 3.3 实验结果如表2所示,提出的方法比文献[3,4]和文献[26]的准确率高。文献[3]从音频特征中提取局部和全局级信息,并使用语言模型V2(Elmo V2)来提取文本特征。Elmo V2由CNN+LSTM组成。使用CNN+BI-LSTM提取音频特征,使用BLSTM提取文本特征,然后使用深度神经网络对融合特征进行学习和分类[4]。使用OpenSmile Toolbox从音频信号中提取Mel频率倒谱(MFCC),使用Bert提取文本特征,然后将特征输入到基于自注意机制的RNNs中,以利用每个时间戳的上下文,然后使用多头注意机制融合所有代表来预测情绪状态[32]。本文提出的方法之所以比现有的双模态SER表现更好,是因为其他双模态SER忽略了源数据和目标数据之间的差异。本文提出了LDTSL+LEF的情感特征提取算法,该算法在减少源数据和目标数据之间的差异的同时,保留了源数据和目标数据之间的情感判别特征。双模态SER比单模态SER表现更好,原因是双模态SER可以利用不同模态之间的连接。单一的音频或文本信息所表达的情感信息是不完整的,不能完全满足人们的期望。
表 2 与双模态SER和仅使用音频模态或文本模态的方法的其他先前工作的比较。
Table 2. Comparison with other previous work on bimoal SER and our method of using only audio mode or text mode
方法准确性/% 文献[3]75. 23文献[4]71. 86文献 [26]78. 25本文方法(音频)76. 74本文方法(文本)80. 69本文方法(音频+文本)87. 03 表3显示了与以前的跨语料库SER的比较。通过基于源数据中的标签信息构造标签空间并使用MMD作为距离度量,学习投影矩阵以将源和目标语音信号变换到公共子空间[13]。通过利用学习公共子空间l2,1" role="presentation">l2,1
表 3 与以前跨语料库情感识别的比较
Table 3. Comparison with other previous work on cross-corpus ser
方法准确性/% 文献[13]69. 23文献[16]72. 56文献[14]72. 84本文方法87. 03本文改进了传统的双模态SER和跨语料库SER中的迁移学习,解决了迁移学习中不同模态之间的异质性差距、忽略情绪辨别特征等问题,并增加了数量有限的跨语料生物模态SER的研究。局限性在于只融合了音频和文本模态,未融合其他形式,如面部表情、血压、心率等。进一步的研究应考虑多模式SER中的其他模式。
相关知识
语音情感识别调研
查找: 关键字=情感识别
情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent
轻量型胶囊网络语音情感识别方法
多模态情感识别数据集和模型(下载地址+最新综述2021.8)
双模态驱动,精准守护心理健康 知心意双模态心理健康评估系统引领行业新篇章
对话情感识别研究综述:从基础到前沿
宠物语音识别软件
多模态传感器融合提升宠物训练效率.docx
顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述
网址: 双模态跨语料库语音情感识别 https://m.mcbbbk.com/newsview412381.html
上一篇: 亲子鉴定惹出20万元“情感费” |
下一篇: 分裂情感性障碍如何诊断鉴别 |