首页 > 分享 > 双模态跨语料库语音情感识别

双模态跨语料库语音情感识别

萌宠菠菠乐园
2024-10-18 09:33

语音情感识别（speech emotion recognition，SER）在教育、医疗、服务业等领域得到了广泛的应用。一些研究人员使用深度学习模型，如卷积神经网络（convolutional neural networks，CNN）、深度简要神经网络（deep brief neural network，DBN）和双向长短期记忆网络（bidirectional long short-term memory network，BLSTM），提取神经网络更深的特征，并用激活函数对输入特征进行非线性变换。单模态SER会混淆不同的情绪，研究人员将音频模态与文本、面部图像或心率相融合[1]，利用不同模态之间的互补情感信息，提高SER的准确性[2]。Singh等[3]将声学特征和文本特征融合作为输入特征向量，使用深度神经网络（deep neural networks，DNN）进行分类。Cai等[4]结合CNN和BLSTM提取声学特征，然后使用BLSTM提取文本特征，最后，应用DNN对融合特征进行学习和分类。后期融合是指每个模态先使用自己的分类器进行分类，然后融合每个模型的结果进行最终分类。Wang等[5]先使用CNN+RNN进行人脸分类，然后利用CNN+BLSTM进行音频分类，最后使用加权决策融合方法进行最终分类。Wang等[6]在决策级融合中，采用最大权重多模态融合方法对脑电信号和面部表情信息进行融合。然而，多模态融合存在异质性差异[7]，Chen等[8]指出多模态情感识别在不同的模态之间存在问题，一些研究者忽略了它们之间的联系，需要缩小异质性差距，并充分利用不同模式之间的联系。为解决这些问题，Zhang等[9]提出了一种将知识从视觉模态转移到听觉模态的新架构。Dong等[10]提出了一个时间关系推理网络，用于不同模态之间的关联。Li等[11]提出了基于注意的双向长短期记忆递归神经网络（LSTM-RNNs）来考虑模态之间的时间关系。

语音数据是从不同的文化和说话风格中收集的，这意味着如果分类器在一个语料库中训练并在另一个语料库中测试，情感分类的准确性将会变低。迁移学习被广泛应用于解决这一问题[12-16]，解决这一问题的方法主要是Ocquaye等[17]提出的一种结合相关对齐损失的双重互斥注意迁移，相关对齐的功能是最小化域移位。Song等[18]提出了一种基于非负矩阵分解的迁移子空间学习算法，用于寻找源数据和目标数据之间的共享特征子空间。

跨语料库SER和多模态SER都为情感识别领域做出了突出的贡献，研究人员受到这些研究成果的启发，提出了双模态跨语料库SER，并使用Bert+BLSTM和CNN+BLSTM分别提取了声学特征和文本特征。为了消除异质差异并考虑2个模态之间的联系，他们提出了一种模态不变性损失，对不同模态无差别的共同表征，并保持固有的跨模态语义一致性。利用LDA+MMD+GE算法在源数据和目标数据之间创建公共子空间，并引入情绪感知中心损失因子Lc" role="presentation">Lc。最后，利用支持向量机进行情感分类。

本文的创新之处在于：①通过融合音频和文本模态，提出了双模态跨语料库的SER，这在以往的研究中很少出现；②设计了能够消除异质性间隙并保持固有的跨模态语义一致性的通用表示；③使用LDA+MMD+GE算法在源数据集和目标数据集之间形成一个公共子空间，并引入Lc" role="presentation">Lc以保留情绪辨别特征。

1. 相关工作

1.1 多模态情感识别

多模态情感识别是指融合语音、文本或视觉的2种或2种以上的情感识别。多模态情感识别利用不同模态之间的互补情感信息，来提高情感分类的准确率[19-20]。多模态情感识别分为3类：特征层融合、决策层融合和模型层融合。特征层融合将声学特征、文本特征和视觉特征融合到高维向量中，然后将该向量发送到分类器中进行分类。决策层融合是每个模态都使用自己的分类器进行分类，再融合每个模型的结果进行最终分类。这2种融合方式各有优缺点。特征层融合的优点是融合方法简单，可以更好地体现特征之间的关系，缺点是不同模态融合的高维向量容易造成维数灾难，以及训练模型出现过拟合的情况。决策层融合的优点是可以避免高维特征出现过拟合的情况，缺点则是融合过程中不能利用不同模态特征之间的相关信息。模型层融合对各个模态的特征进行模态内核模态间的关系建模，利用所建的模型，可以学习不同模态特征之间的互补信息，以此获得更有效地多模态特征[21]。

为了能够有效学习不同模态的互补信息，提高模态之间的交互性，Guo等[22]使用文本和语音2个模态，提出了隐式对齐多模态transformer融合框架（implicitly align the multimodal transformer fusion framework, IA-MMTA）。IA-MMTA可以学习不同模态的互补情感信息，之后使用加权融合方法，控制不同模态的权重。Zou等[23]利用传统的融合多模态情感分类的方法对每种模态的情感表达能力进行分析，结果每种模态的情感表达能力相同，实验结果不尽人意。他们引入了主模态和弱模态的概念，通过主模态变换器（master mode transverter，MMTr）的多头注意力机制，对不同模态间的信息交互，达到增强主模态的完整性并增强弱模态的情感表达。Li 等[24]提出了多级多模态动态融合网络（multi-level multi-mode dynamic fusion network, MSMDFN），首先提取不同模态的特征，学习特征间的相互作用，最后利用模态相关性，对多模态特征进行多阶段融合。

1.2 迁移子空间学习

迁移子空间学习方法是使用差异约束法，将源数据集和目标数据集，由高维特征空间映射到一个公共的低维子空间。迁移子空间学习通常包含特征选择、特征降维、标签信息映射回归以及特征分布相似性约束这4个操作。特征选择和特征降维的功能是确保形成低维的子空间，避免造成维数灾难。许多深度学习模型需要大量有标签的数据，而获取大量有标签的数据很困难[25-26]，因此标签信息映射回归的功能是解决目标数据集无标签的问题，通过回归矩阵，将特征映射到标签空间，从而将源数据集的标签信息迁移到目标数据集。特征分布相似性约束的功能是减少不同数据集之间特征分布的差异，常见的约束有最大平均差异（maximum mean discrepancy, MMD)约束和图嵌入(graph embedding, GE)约束，其中MMD是全局差异约束算法，GE是局部差异约束算法。

在这个子空间中，不仅源数据集和目标数据集的特征分布相似，而且可以降低特征维数，避免造成维数灾难，从而更有效地把源数据集学习到的知识迁移到目标数据集。Song等[27]提出了迁移判别分析（transfer discriminant analysis，TDA）方法。TDA是在使用LDA子空间降维方法的同时，结合MMD算法，形成源数据集和目标数据集特征分布相似的低维子空间。Chen等[28]提出了目标自适应子空间学习（target adaptive subspace learning，TaSL）方法。TaSL使用l1" role="presentation">l1范式作为标签回归，使用l2,1" role="presentation">l2,1范式用作减少源数据集和目标数据集的差异。TaSL子空间可以准确地预测特征标签。Liu等[13]提出了迁移子空间学习（transfer subspace learning，TRaSL）方法。TRaSL可以将源数据集和目标数据集的特征空间转化到标签空间。在标签空间中，特征分布相似。此方法中，源数据集有标签，而目标数据集无标签，TRaSL的提出通过训练源数据集，可以有效地利用源数据集的标签来预测目标数据集的情感类别。Zhang等[16]为了得到语料库之间有代表性的特征以及不同语料库之间的相关性，提出了迁移稀疏判别子空间学习（transfer sparse discriminant subspace learning，TSDSL）方法。为了得到不同语料库之间有代表性的特征，使用l2,1" role="presentation">l2,1范式。为了利用不同语料库之间的相关性，提出了一种新的最近邻图作为距离度量。最近邻图相比MMD算法，可以保留数据的局部几何结构。

2. 双模态迁移判别情感特征子空间

双模态迁移判别情感特征子空间（bi-modal transfer discriminates the subspace of affective features，BMTDAFSL)的结构如图1所示。BMTDAFSL包括4个要素：特征提取、多模态学习、低维度共同的子空间学习和情感分类。

图 1 BMTDAFSL的方法的结构

Figure 1. The structure of BMTDAFSL

2.1 特征提取

OpenSmile工具包用来提取原始语音信号的音调、抖动、微光和MFCC特征。将提取的语音特征输入到CNN中，然后通过CNN卷积和池化操作。将CNN的输出作为BLSTM的输入。CNN的基础结构包括卷积层、池化层和密集层，CNN可以提取全局特征。在第1～4卷积层中，有64、128、256、512个卷积核。卷积层大小为3×3，条带大小为1×1，池化层大小为4×4，步长为4×4。引入Bi-LSTM模型实现信息的双向存储。可以通过BLSTM提取声学特征的上下文依赖信息。全局特征和局部特征都有利于语音情感识别，因此CNN+BLSTM用来同时提取全局特征和局部特征。BI-LSTM中的隐藏细胞数量设置为128。文本模态为语音信息的文本翻译稿。文本情态的功能是为音频情态提供补充信息，音频情态可以考虑语境互动。使用Bert来对文本进行矢量化。Bert是变压器层的编码器，Bert模型由输入层、转换层和输出层组成。变压器层是对SEQ2SEQ的改进，它结合了多头注意力机制。SEQ2SEQ由编码器和解码器组成。编码器将输入的文本信息压缩成固定长度的向量，解码器将该向量作为与编码器相同长度的向量序列输出。向量化的文本特征被输入到BLSTM中以提取高级特征。多头关注机制的头数设置为8。

2.2 多模态学习

不同模式之间存在异质性差距，这对SER的准确性有不利影响[29]。因此，减少音频和文本模态之间异质特征的影响是至关重要的。模态不变性损失用来消除不同模态之间的异质性[30]。模态不变性损失是学习音频和文本模态的转换，以形成共同的表征空间。引入模态不变损失相比文献[10-11]的优势是通过子空间，把模态融合与学习模态间联系2个步骤合二为一，提高了情感分类的效率。文献[10-11]中无法做到模态融合与学习模态之间联系2个步骤一起操作。所以P（djβ|diα" role="presentation">djβ|diα）被强制为尽可能接近q（djβ|diα" role="presentation">djβ|diα)、 P(djβ|diα" role="presentation">djβ|diα）和q（djβ|diα" role="presentation">djβ|diα），可以计算为

P(djβ|diα)=e−||ha(diα)−hβ(djβ)||2∑k=1m+ne−||ha(diα)−hβ(dkβ)||2" role="presentation">P(djβ|diα)=e−||ha(diα)−hβ(djβ)||2∑k=1m+ne−||ha(diα)−hβ(dkβ)||2

(1)

q(djβ|diα)={1，如果i=j0，否则" role="presentation">q(djβ|diα)={1，如果i=j0，否则

(2)

为了保持文本和音频模态的模态不变性，可以最小化从音频到文本的KL散度函数：

(3)

式中：diα" role="presentation">diα为每个音频样本；djβ" role="presentation">djβ为每个文本样本；ha" role="presentation">ha为音频样本的变换函数，hβ" role="presentation">hβ为文本样本的转换函数；P（djβ|diα" role="presentation">djβ|diα）为在每个音频样本的所有文本样本上的条件分布；q(djβ|diα)" role="presentation">q(djβ|diα)为理想的匹配分布。

同时，从文本到音频的KL发散函数可以被最小化为

(4)

通过结合τi2t" role="presentation">τi2t 和τt2i" role="presentation">τt2i，模态不变性的总损失可以计算为

2.3 低维度共同的子空间学习（LDTSL）

低维度共同的子空间学习（low dimensions transfer supspace learning, LDTSL）相对于其他迁移子空间的学习方法，优势在于TDAFSL方法在求解公共低维子空间的时候，综合考虑了特征选择，全局差异约束，局部差异约束，特征与标签映射关系以及在减小源数据集和目标数据集差异的同时没有忽视具有情感辨别的特征。其他的迁移子空间方法不能有效地将这些综合考虑。

2.3.1 联合优化线性判别分析（LDA）

首先使用LDA方法对源数据和目标数据的多模态特征空间进行特征降维。LDA将数据投影到子空间中，使同类数据之间的距离最小，异类数据之间的距离最大。步骤如下：

Sb=∑i=1cni(μ(i)−μ)(μ(i)−μ)T" role="presentation">Sb=∑i=1cni(μ(i)−μ)(μ(i)−μ)T

(8)

Sw=∑i=1c∑j=1ni(xj(i)−μ(i))(xj(i)−μ(i))T" role="presentation">Sw=∑i=1c∑j=1ni(xj(i)−μ(i))(xj(i)−μ(i))T

(9)

W选择=argmaxtr(PTSbP)tr(PTSwP)=minTR(PT(Sw−βSb)P)" role="presentation">W选择=argmaxtr(PTSbP)tr(PTSwP)=minTR(PT(Sw−βSb)P)

(10)

式中：ni" role="presentation">ni是属于类别I的样品的数量；xi" role="presentation">xi为第I个样本；μ(i)" role="presentation">μ(i)为第I类的样本平均值；μ" role="presentation">μ为所有样本的平均值；W选择" role="presentation">W选择为由1组最佳鉴别特征空间形成的投影矩阵；β" role="presentation">β被用来平衡两者之间的重要性Sw" role="presentation">Sw和Sb" role="presentation">Sb。

2.3.2 最大平均差异（MMD）

设置X=[Xs,Xt" role="presentation">Xs,Xt] ∈Rm∗n" role="presentation">∈Rm∗n为特征矩阵。Xs=[x1,x2,…xns]" role="presentation">Xs=[x1,x2,…xns]是源数据的特征，Xt=[xns+1,xns+2,…xn]" role="presentation">Xt=[xns+1,xns+2,…xn]为目标数据的特征。源数据和目标数据之间的MMD：

G(Cs,Ct)=||1ns∑i=1nscis−1nt∑j=1ntcjt||2=tr(PTXMXTP)" role="presentation">G(Cs,Ct)=||1ns∑i=1nscis−1nt∑j=1ntcjt||2=tr(PTXMXTP)

(11)

式中：tr（）为矩阵的迹；M是MMD矩阵；cis是源数据的样本，cjt" role="presentation">cis是源数据的样本，cjt为目标数据集的样本；Cs" role="presentation">Cs为特征子空间映射后的源数据的共同特征；Ct" role="presentation">Ct为子空间映射后目标数据集的共同特征。M计算如下：

mi,j={1ns2xi,xjϵXs1nt2xi,xjϵXt−1nsnt,否则" role="presentation">mi,j={1ns2xi,xjϵXs1nt2xi,xjϵXt−1nsnt,否则

(12)

式中：ns" role="presentation">ns为源数据中的样本数；nt" role="presentation">nt为目标数据中的样本数。

2.3.3 图嵌入（GE）

虽然MMD可以减少源数据和目标数据之间的差异，但它忽略了数据的几何信息。应用GE来维护该几何信息。GE将邻域内样本的相似度作为分布差异约束。对于每个样本向量，可以根据欧氏距离找到它的p近邻。在本文中，使用0-1矩阵。相邻点的权重值为1，不相邻点的权重值为0。0-1权矩阵W=w伊吉" role="presentation">w伊吉可计算等于（13）：

wi,j={1xis∈Np(xjt)或xjt∈Np(xis)0否则" role="presentation">wi,j={1xis∈Np(xjt)或xjt∈Np(xis)0否则

(13)

式中：xis" role="presentation">xis表示源数据的特征；xjt" role="presentation">xjt表示目标数据的特征；Np(xjt)" role="presentation">Np(xjt) 表示的p个最近邻居xjt,Np(xis)" role="presentation">xjt,Np(xis)表示的p个最近邻居xis" role="presentation">xis。

Ge的函数计算如下：

G(P)=12∑i,j=1N||ci−cj||2wi,j=12(∑i=1Nci2∑j=1Nwij+∑j=1Ncj2∑i=1Nwi,j−2∑i=1N∑j=1Ncicjwi,j)=∑i=1Nci2Dii−∑i=1N∑j=1Ncicjwi,j=tr(PTXMXTP)" role="presentation">G(P)=12∑i,j=1N||ci−cj||2wi,j=12(∑i=1Nci2∑j=1Nwij+∑j=1Ncj2∑i=1Nwi,j−2∑i=1N∑j=1Ncicjwi,j)=∑i=1Nci2Dii−∑i=1N∑j=1Ncicjwi,j=tr(PTXMXTP)

(14)

式中：L=D–W是拉普拉斯矩阵；D是对角矩阵；其对角线上的每个元素是W的相应列的和；ci" role="presentation">ci 和cj" role="presentation">cj 是2个数据点低维表示。

2.3.4 标签回归（LSR）

LDTSL将子空间学习和回归方法结合在一个统一的框架中。引入了1个回归系数矩阵，并使用最小二乘回归方法来描述特征表示和相应标签之间的关系。这使得模型更具鉴别性，可以更好地预测目标域测试数据的标签信息。因此，引入了回归矩阵P来实现这一目标。所提出的回归模型可以描述如下：min||Y−PQTX||F2" role="presentation">||Y−PQTX||F2

2.3.5 学习情绪判别特征（LEF）

一些传统的迁移学习方法只考虑减少源数据和目标数据之间的领域差异，而忽略了情感区分特征。为了解决这个问题，引入了Lc" role="presentation">Lc，在形成低维迁移子空间的同时，学习情感辨别和领域不变的特征表示。由于不同领域的情感具有较远的情感类别中心，情感类别的先验知识被引入到深度特征学习中，以保持语音特征的情感区分度[31]。Lc" role="presentation">Lc可计算如下：

Lc=∑i=1nsmax(0，||fks,i−ci||22−α1)+∑p,q=1p≠qcmax(1，α2−||cpb−cqb||22)" role="presentation">Lc=∑i=1nsmax(0，||fks,i−ci||22−α1)+∑p,q=1p≠qcmax(1，α2−||cpb−cqb||22)

(15)

式中：ns" role="presentation">ns表示源样本的数量；fks,i" role="presentation">fks,i表示在源数据集的公共空间中的第i个语音样本；ci" role="presentation">ci表示第i个语音样本对应的情感类别在整个源数据中的特征中心；α1" role="presentation">α1和α2" role="presentation">α2是调整距离的阈值；cpb" role="presentation">cpb表示第p个情感类别的小批量特征中心；cqb" role="presentation">cqb表示第q个情感类别的小批量特征中心。cqb" role="presentation">cqb可计算如下：

cqb=1nbq∑1≤i≤nbqfks,i" role="presentation">cqb=1nbq∑1≤i≤nbqfks,i

(16)

式中：nbq" role="presentation">nbq是对应于第q个情感类别的样本数。通过最小总损失来优化：

Ltotal=min||Y−PQTX||F2+tr(QT(Sw−βSb)Q)+μtr(QTXMXTQ)+γtr(QTXLXTQ)+Lc" role="presentation">Ltotal=min||Y−PQTX||F2+tr(QT(Sw−βSb)Q)+μtr(QTXMXTQ)+γtr(QTXLXTQ)+Lc

(17) 2.3.6 BMTDAFSL的优化

BMTDAFSL首先通过迭代算法，选取最优的P和Q，以此寻找最优的迁移子空间，其次在形成最优的迁移子空间基础上，加上Lc" role="presentation">Lc和τm" role="presentation">τm，使得Ltotal" role="presentation">Ltotal最小。

（1）更新Q：通过固定P和更新Q，对Ltotal" role="presentation">Ltotal进行最小化处理，对Q求偏导,并令其等于0：

∂Ltotal∂Q=(Sw−βSb)Q+μXMXTQ+γXLXTQ+XXTQ−XYTP=0" role="presentation">∂Ltotal∂Q=(Sw−βSb)Q+μXMXTQ+γXLXTQ+XXTQ−XYTP=0

Q=(Sw−βSb+μXMXT+γXLXT+XXT)−1XYTP" role="presentation">Q=(Sw−βSb+μXMXT+γXLXT+XXT)−1XYTP

（2）更新P：固定Q，对min ||Y−PQTX||F2" role="presentation">||Y−PQTX||F2=min tr(YTY−2YTPQTX" role="presentation">YTY−2YTPQTX)求最小值。用奇异值求解的方式对YXT" role="presentation">YXTQ求解，SVD(YXT" role="presentation">YXTQ)= UΛVT" role="presentation">VT，可以得到

Tr(PTYXTQ" role="presentation">PTYXTQ)=tr(PTUΛVT" role="presentation">PTUΛVT)=tr(VTPTUΛ" role="presentation">VTPTUΛ)，因此最优P为，P= UVT" role="presentation">VT

（3）求解完步骤（1）、（2）后，加上Lc" role="presentation">Lc以及τm" role="presentation">τm，使得Ltotal" role="presentation">Ltotal最小。

2.4 情感分类

在TEDFSL中，特征的维数从1 582降到150，并形成了特征表示和相应标签之间的关系，然后将TEDFSL形成的特征和相应标签发送到SVM分类器中，以进行最终的情绪分类。

3. 实　验

3.1 双模态语料库

在实验中，选择YouTube数据集作为源数据，IEMOCAP作为目标数据。YouTube数据集由47个视频和转录组成。快乐、愤怒、悲伤、中性、恐惧和惊讶都包括在这个数据库中。有20名女性和27名男性发言者，他们来自不同的背景。实验中使用了视频和录音的语音信号。IEMOCAP是1个多模态数据库，包括愤怒、快乐、悲伤、中立、恐惧和惊讶。IEMOCAP数据库支持视频和音频，以及所有话语的文本转录。所有的源数据和7/10的目标数据用于训练，而3/10的目标数据用于测试。IEMOCAP和YouTube转录中的M是Google Speech在开源API下提供的，用于执行语音文本的转换。

3.2 实验设置

实验使用了INTERSPEECH2010 Challenge的特征集，其中包含MFCC、LSP及其相应的delta系数。根据迁移子空间学习的目标函数表达式，使用网格搜索的方法选择最优参数β,γ,μ," role="presentation">β,γ,μ,来自{0,001，0.01.0.1，1}，并从3～9中选择最近邻居的数量。提出的模型是用Keras实现的，使用Adam集合作为优化器。选择Windows作为实验运行环境。根据表1设置实验参数。为评估提出方法的性能并证明多模态SER的重要性，与其他先前的双模态SER工作、仅使用音频模态或文本模态的方法以及先前的跨语料库SER进行了比较。评估了情绪分类的准确性。准确率是指分类器的预测占正数的比例，及预测样本占所有预测样本的比例。

表 1 实验参数

Table 1. Experiment parameters

参数价值 dropout0. 5学习率0. 001批量大小64循环次数10BLSTM隐层节点数128多头注意机制的头数8 3.3 实验结果

如表2所示，提出的方法比文献[3,4]和文献[26]的准确率高。文献[3]从音频特征中提取局部和全局级信息，并使用语言模型V2（Elmo V2）来提取文本特征。Elmo V2由CNN+LSTM组成。使用CNN+BI-LSTM提取音频特征，使用BLSTM提取文本特征，然后使用深度神经网络对融合特征进行学习和分类[4]。使用OpenSmile Toolbox从音频信号中提取Mel频率倒谱（MFCC），使用Bert提取文本特征，然后将特征输入到基于自注意机制的RNNs中，以利用每个时间戳的上下文，然后使用多头注意机制融合所有代表来预测情绪状态[32]。本文提出的方法之所以比现有的双模态SER表现更好，是因为其他双模态SER忽略了源数据和目标数据之间的差异。本文提出了LDTSL+LEF的情感特征提取算法，该算法在减少源数据和目标数据之间的差异的同时，保留了源数据和目标数据之间的情感判别特征。双模态SER比单模态SER表现更好，原因是双模态SER可以利用不同模态之间的连接。单一的音频或文本信息所表达的情感信息是不完整的，不能完全满足人们的期望。

表 2 与双模态SER和仅使用音频模态或文本模态的方法的其他先前工作的比较。

Table 2. Comparison with other previous work on bimoal SER and our method of using only audio mode or text mode

方法准确性/% 文献[3]75. 23文献[4]71. 86文献 [26]78. 25本文方法（音频）76. 74本文方法（文本）80. 69本文方法（音频+文本）87. 03

表3显示了与以前的跨语料库SER的比较。通过基于源数据中的标签信息构造标签空间并使用MMD作为距离度量，学习投影矩阵以将源和目标语音信号变换到公共子空间[13]。通过利用学习公共子空间l2,1" role="presentation">l2,1，然后，范数惩罚和LDA使用新的最近邻居图来确保源数据和目标数据之间的相似性[16]。结合非负标记松弛线性回归、MMD、GE和l2,1" role="presentation">l2,1范数惩罚，以形成可以减少分布间隙和学习鲁棒特征的子空间[14]。文献[13]表现不如文献[14，16]，他们忽略了特征约简来形成有判别力的特征表示，这将导致维数灾难。文献[14]表现好于文献[16]，证明了考虑数据的几何结构对缩小分布差距起着关键作用。此方法表现最好的原因如下：①其他跨语料库SER方法只考虑音频模态，与多模态SER相比，单模态SER总是具有较差的性能。②其他方法只考虑缩小差异，而忽略了学习情绪判别特征。

表 3 与以前跨语料库情感识别的比较

Table 3. Comparison with other previous work on cross-corpus ser

方法准确性/% 文献[13]69. 23文献[16]72. 56文献[14]72. 84本文方法87. 03