引用论文:Zhao, Sicheng, et al. “Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies.” arXiv preprint arXiv:2108.10152 (2021).
PDF链接:Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies.
新鲜出炉的赵思成和杨巨峰大佬的论文哦(情感识别领域的专家),全面的梳理了多模态情感识别(Multi-modal Emotion Recognition, MER)的多个关键方面,是一篇日期新鲜(2021.08),内容详实,高质量的综述,非常适合入门的同学入手和老司机们回顾总结。翻译和整理了一上午,有用请帮我点个赞再走吧,谢谢Thanks♪(・ω・)ノ~
下表为多模态数据集,可以看到最后一列给出了下载地址,需要数据集的朋友们可以点上面链接地址进入文章下载,如果除了数据集还想了解多模态情感识别(MER)的其他章节内容(模型,难点,挑战,任务,方法,应用),请继续往下阅读哦~
目前,学术界对情绪分类并没有统一的定义,一般的情绪分类主要有两大基本观点:离散模式(categorical emotion states (CES))和连续模式( dimensional emotion space (DES))。离散模式认为情绪具有完全不同的结构,连续模式认为不同情绪之间有着过渡阶段。
binary sentiment :positive and negative, sometimes including neutral;
Ekman’s six basic emotions: positive happiness, surprise and negative anger, disgust, fear, sadness;
Mikels’s eight emotions: positive amusement, awe, contentment, excitement, and negative anger, disgust, fear, sadness;
Plutchik’s emotion wheel :eight basic emotion categories by three intensities;
Parrott’s tree hierarchical grouping :primary, secondary and tertiary categories.
valence-arousal-dominance (VAD):where valence, measure all emotions as different coordinate points in the continuous Cartesian space, but the absolute continuous values are beyond users’ understanding.
PAD情感三维理论是由Mehrabian 和Russell 于1974年提出的维度观测量模型 ,该模型认为情感具有愉悦度 、激活度和优势度3个维度,其中P代表愉悦度(Pleasure-displeasure),表示主体情感状态的正负性;A代表觉醒度(Arousal-nonarousal),表示主体的神经生理激活水平;D代表优势度(Dominance-submissiveness),表示主体对情景和他人的控制状态,是个体情绪被控制和主导的状态,由内而外的自发情绪就是支配性的情绪如愤怒,由外而内的被动情绪就是服从性的情绪如害怕。同时也可以用这3个维度的值来代表具体的情绪和情感。研究表明,利用 PDA的3 个维度可有效地解释人类的情感。Mehrabian 等人利用这3个维度可解释其他42种情感量表中的绝大部分变异 ,而且这3个维度并不限于描述情感的主观体验,它与情感的外部表现、生理唤醒有较好的映射关系。前人研究表明:PAD三维情感模型可以充分地表达和量化人类情绪和情感,是情感计算研究的基础 。情绪自我评价等级系统(SAM)在MER(多模态情感识别)领域,多种模式(multi-modal)被用于识别和预测人类情绪。根据情感是来自人体的身体变化还是来自外部数字媒体,MER中的情感模态可以大致分为两类:
显性情感线索:包括面部表情、眼球运动、语言、动作、步态和脑电图,所有这些都可以直接观察、记录或从个人身上收集。
隐性情感刺激:后者表示常用的数字媒体类型,如文本、音频、图像和视频。我们使用这些数据类型来存储信息和知识,以及在数字设备之间传输信息和知识。通过这种方式,情感可能会含蓄地参与和唤起。虽然单一模式作为情感表达的可靠渠道的有效性无法保证,但联合考虑多种模式将显著提高[12]的可靠性和稳健性。
对于多模态情感信号,我们可以进行不同的MER任务,包括分类、回归、检测和检索。
在情感分类任务中,我们假设样本只能属于一个或固定数量的情感类别,其目标是发现数据空间[16]中的类边界或类分布。目前的工作主要集中在多模态特征和分类器的手工设计或以端到端方式使用深度神经网络。
MER定义为单标签学习(SLL)问题,为每个样本分配一个显性情绪标签。然而,情感可能是来自不同区域或序列的所有成分的混合物,而不是一个单一的代表性情感。与此同时,不同的人可能有对同一刺激产生不同的情绪反应,这是由性格等多种因素引起的。因此,多标签学习(MLL)被用来研究一个实例与多个情绪标签关联的问题。
最近,为了解决MLL不能很好地适应实际应用的问题,不同标签重要性的总体分布很重要,标签分布学习(LDL)被提出,覆盖一定数量的标签,代表每个情绪标签描述实例[20]的程度。
情感回归的目的是学习一种映射函数可以有效地将一个实例与笛卡尔空间中的连续情感值联系起来。最常用的MER回归算法旨在将平均维数值分配给源数据。为了解决情绪固有的主观性,研究者提出了预测在维价唤起空间中表现的情绪的连续概率分布的方法。具体地说,可以用高斯混合模型(GMM)来表示情感标签,然后将情感分布预测形式化为参数学习问题[21]。
由于原始数据不能保证承载情绪,或者只有部分数据能够引起情绪反应,所以情绪检测的目的是找出源数据中哪一种情绪在哪里。例如,Yelp上的餐厅评论可能是“这家餐厅就在我工作的街对面,非常方便,步行对我来说是一个巨大的加分!” 在食物方面,那里和我去过的几乎所有地方都一样,所以没什么可说的。我不得不说,客户服务是命中注定或错过。”同时,总体评分是3星(满分5星)。这篇评论包含了不同的情绪和态度:第一句是积极的,第二句是中立的,最后一句是消极的。因此,系统检测哪个句子对应哪个情绪是至关重要的。另一个例子是图像[22]中的情感区域检测。
如何基于人的感知来搜索情感内容是另一个有意义的任务。现有框架首先检测查询和候选数据源中的局部兴趣块或序列。然后,通过确定两个patch或序列之间的距离是否小于给定的固定阈值来发现所有匹配的对。查询与每个候选项之间的相似度得分被计算为匹配组件的数量,然后对该查询的可候选项进行相应的排名。尽管情感检索系统有助于从海量存储库[10]中获取具有所需情感的在线内容,但抽象和主观特征使任务具有挑战性和难以评估。
情感鸿沟是MER的主要挑战之一,它衡量的是提取的特征和感知到的高级情绪之间的不一致性。在客观多媒体分析中,情感鸿沟比语义鸿沟更具挑战性。即使语义上的鸿沟被弥合了,情感上的鸿沟仍然可能存在。例如,一朵盛开的玫瑰和一朵凋谢的玫瑰都含有玫瑰,但却能唤起不同的情感。对于同一个句子,不同的语调可能对应着完全不同的情绪。提取具有区别性的高级特征,特别是与情绪相关的特征,有助于弥合情感鸿沟。主要难点在于如何评价所提取的特征是否与情绪相关。
有的人可能会因为巨大的雷声而感到恐惧,有的人可能会因为捕捉到这样罕见的场景而感到兴奋;即使相同的情绪(如兴奋),也会有不同的反应,如面部表情、步态、动作和语言。对于主观性的挑战,一个直接的解决方案是学习每个受试者的个性化的MER模型。从刺激的角度,我们也可以预测一定数量被试参与时的情绪分布。除了刺激内容和直接的生理和心理变化外,上述个人因素、情境因素和心理因素的联合建模也有助于MER任务的完成。
由于在数据采集中存在许多不可避免的因素,如传感器设备故障,特定形式的信息可能会被破坏,从而导致数据丢失或不完整。数据不完整是现实世界MER任务中常见的现象。例如,对于明确的情感线索,脑电图耳机可能会记录受污染的信号,甚至无法记录任何信号;在晚上,摄像机无法捕捉到清晰的面部表情。对于内隐情感刺激,一个用户可能只发布包含图像(没有文本)的tweet;对于一些视频,音频通道变化不大。在这种情况下,最简单的特征融合方法,即早期融合,是行不通的,因为在没有捕获信号的情况下,我们无法提取任何特征。设计能够处理数据不完整性的有效融合方法是一种广泛采用的策略。
同一样本的不同模态可能会相互冲突,从而表达不同的情绪。例如,面部表情和言语可以很容易地被抑制或掩盖,以避免被发现,但脑电图信号是由中枢神经系统控制的,可以反映人类无意识的身体变化。当人们在社交媒体上发布推文时,图像与文本在语义上不相关的现象非常普遍。在这种情况下,一种有效的MER方法有望自动评估哪些模式更可靠,例如通过为每个模式分配权重。
在一些MER应用中,不同的模式对唤起的情绪的贡献可能是不平等的。例如,网络新闻在我们的日常生活中扮演着重要的角色,除了了解读者的偏好,预测他们的情绪反应在各种应用中都有很大的价值,比如个性化广告。然而,一篇网络新闻通常包含不平衡的文字和图片,即文章可能很长,有很多详细的信息,而新闻中只有一两个插图。可能更有问题的是,新闻编辑可能会为一篇带有明显情绪的文章选择一幅中性的图像。
现有的MER方法,特别是基于深度学习的MER方法需要大量的标记数据进行训练。然而,在实际应用中,在生成ground-truth给情绪贴标签不仅花费昂贵和时间,而且高度不一致,这导致数据量大,但很少或甚至没有情绪标签。随着情感需求的日益多样化和细粒度化,我们可能有足够的训练数据来处理某些情感类别,而不是其他类别。手动注释的另一种解决方案是利用社交推文的标签或关键字作为情感标签,但这样的标签是不完整的和嘈杂的。因此,为无监督/弱监督学习和少/零次学习设计有效的算法可以提供潜在的解决方案。
同时,我们可能在一个领域有足够的标记情感数据,如合成面部表情和语音。问题是如何有效地将经过训练的MER模型在有标记的源域转移到另一个未标记的目标域。当使用直接传输[23]时,畴移的存在导致显著的性能下降。多模态域自适应和域泛化有助于缓解这种域间隙。还应该考虑实际的设置,例如多源域。
一般而言,在目标域具有足够标记训练数据的MER框架中,有三个组成部分:表示学习、特征融合和分类器优化,如上图2所示。在本节中,我们将介绍这些部分。进一步,我们将描述在目标域没有标记训练数据和在另一个相关源域有足够标记数据时的域自适应。
基于模型的融合在构建学习模型的过程中进行了明确的融合,因此受到了更多的关注[7,9]。近年来,基于神经网络的深度模型、基于注意力的深度模型和基于张量的深度模型被广泛应用。
Kernel-based fusion:基于核的融合是基于包含核的分类器的扩展,如支持向量机。对于不同的模式,使用不同的核。核选择的灵活性和损失函数的凸性使得多核学习融合在包括MER在内的许多应用中很受欢迎。然而,在测试过程中,这些融合方法依赖于训练数据中的支持向量,导致存储成本大,参考效率低。基于图的融合为每个模态构造单独的图或超图,将这些图合并成一个融合图,并通过基于图的学习来学习不同边和模态的权值。它可以很好地处理数据不完全性问题,简单地根据可用数据构造图。除了提取特征表示外,我们还可以通过相应的边缘将人类先验知识融合到模型中。然而,当有更多的训练样本时,计算成本将呈指数增长。Neural network-based fusion:基于神经网络的融合采用一种直接、直观的策略,通过神经网络融合不同模式的特征表征或预测结果。基于注意的融合利用一些注意机制来获得一组具有标量权的特征表示的加权和,这些特征表示由注意模块动态学习。不同的注意机制对应于融合不同的组件。例如,空间图像注意力衡量的是不同图像区域的重要性。图像和文本共同注意采用对称注意机制生成视觉和文本表征。平行共注意法和交替共注意法可分别对不同模态同时逐个产生注意。最近,多模态自适应门(Multimodal Adaptation Gate, MAG)被设计用于使基于Transformer的上下文词表示,如BERT和XLNet,接受多模态非语言数据[17]。基于基于非语言行为的注意,MAG本质上可以将信息的多种形式映射到一个具有轨迹和大小的向量上。基于张量的融合试图通过一些特定的张量运算,如外积和多项式张量池,来挖掘不同表示的相关性。这些深度模型融合方法能够从大量数据中以端到端方式学习,性能较好,但可解释性较差。上述特征融合方法的一个重要特性是是否支持视频中MER的时间建模。很明显,早期融合可以,而晚期融合和混合融合不能,因为在晚期融合之前,基于各模态的预测结果已经已知。对于基于模型的融合,除了基于核的融合,其他的都可以用于时间建模,如基于图的融合方法可以使用隐马尔可夫模型(HMM)和条件随机场(CRF),基于神经网络的融合方法可以使用RNN和LSTM网络。 3、 Classifier Optimization for Multi-modal Emotion Recognition(分类器优化) 文本情感:对于以单词嵌入序列表示的文本,最流行的利用单词之间语义的方法是RNN和CNN。LSTM是一种典型的RNN,它包含一系列具有相同结构的单元。每个单元格以一个单词嵌入和上一个单元格的隐藏状态作为输入,计算输出,并更新下一个单元格的隐藏状态。隐藏的状态记录了之前单词的语义。CNN通过卷积运算计算连续单词之间的局部上下文特征。利用平均池层或最大池层进一步整合得到的特征,进行后续的情感分类。最近,研究人员开始使用基于Transformer的方法,如BERT和GPT-3。transformer是由一系列模块组成的,其中包括一个多头自注意层,然后是标准化层、前馈网络和另一个标准化层。文本中单词的顺序也由另一个位置嵌入层表示。与RNN相比,Transformer不需要对单词进行顺序处理,提高了并行性。与CNN相比,transformer可以模拟更长距离的单词之间的关系。音频情感: 目前用于音频情感识别的分类方法一般有传统方法和基于深度学习的方法两种。在传统方法中,HMM具有捕获序列数据动态特征的能力,是一种具有代表性的方法。支持向量机在音频情感识别中也得到了广泛的应用。基于深度学习的方法由于不受HMM模型经典独立性假设的限制而越来越受欢迎。在这些方法中,有关注的序列到序列模型以端到端方式显示了成功。最近,一些方法通过开发深度混合卷积和循环模型[14]显著地扩展了该领域的技术水平。图像情感:早期将多个手工提取的图像特征集成并输入到支持向量机中来训练分类器。然后,基于深度学习,通过交叉熵损失[26]等相应的损失函数,对分类器和特征提取器进行端到端连接优化。此外,常用的度量损耗如三重损耗和n对损耗也参与到网络优化中,以获得更多的鉴别特征。在上述学习范式下,每一幅图像都被预测为一个单一的主导情绪类别。然而,根据心理学的理论,一个图像可能会引起观众的多种情绪,从而导致一个模棱两可的问题。为了解决这个问题,使用标签分布学习来预测每个情绪类别的具体相对程度,其中Kullback-Leibler分歧是最流行的损失函数。图像中某些信息丰富、吸引人的区域总是决定着图像的情感。因此,构建了一系列具有额外关注或检测分支的体系结构。通过对包括注意和原始任务在内的多个任务进行优化,得到了一个更健壮、更具辨识性的模型。视频情感:现有的方法大多采用两阶段pipeline来识别视频情感,即提取视觉/音频特征并训练分类器。对于分类器的训练,研究了许多机器学习方法来建模视频特征和离散情感类别之间的映射,包括SVM、GMM、HMM、动态贝叶斯网络(DBM)和条件随机时(CRF)。尽管上述方法对视频情感识别的发展做出了贡献,但基于深度神经网络的情感识别方法由于其卓越的能力[27]而被提出以端到端方式进行视频情感识别。基于CNN的方法首先利用三维卷积神经网络提取包含情感信息的高级时空特征,然后利用完全连接层对情感进行分类。最后,用损失函数对模型进行跟踪,对整个网络进行优化。受人类感知情绪过程的启发,cnn使用注意机制来强调每个视频帧或片段中的情绪相关区域。此外,考虑到极性-情绪层次的约束,最近的方法提出极性一致交叉熵损失来指导注意力的生成。步态情感:人的步态可以表示为步行视频中每一帧的2D或3D关节坐标序列。为了利用关节坐标中固有的情感线索,许多分类器或结构被用来提取步态中的情感特征。LSTM网络包含许多特殊的单元,即记忆单元,可以存储长时间数据序列中特定时间步长的联合坐标信息。因此,它被用于步态情绪识别的早期工作中。LSTM的隐藏特征可以进一步与手工制作的情感特征连接,然后送入分类器(如SVM或随机森林(RF))来预测情感。近年来,另一种流行的用于步态情绪预测的网络是时空图卷积网络(ST-GCN)。ST-GCN最初被提出用于人体骨骼图的动作识别。“空间”代表骨骼结构的空间边缘,即连接身体关节的四肢。“颞边”指的是颞边,它们连接着不同框架中每个关节的位置。ST-GCN可以很容易地实现为空间卷积,然后是节奏卷积,类似于深度卷积网络。脑电情感:基于EEG的情感识别在早期阶段通常使用支持向量机、决策树、k-最近邻等多种分类器对手工特征进行分类。其次,由于CNN和RNN分别擅长提取脑电图信号的空间信息和时间信息,因此采用级联卷积递归网络(将CNN和RNN结合起来)、LSTM-RNN、并成功地设计了并行卷积递归神经网络,并将其应用于情绪识别任务。域自适应的目的是从标记的源域学习一个可迁移的MER模型,该模型可以很好地应用于未标记的目标域[23]。最近致力于深度无监督域自适应[23],它采用了两流架构。一个流用于在标记的源域上训练MER模型,而另一个流用于对齐源域和目标域。基于对齐策略,现有的单模态域自适应方法可分为基于差异、对抗判别、对抗生成和基于自我监督的方法[23]。(更多请阅读原文,没翻译完)
从多种外显线索和内隐刺激中识别情绪具有广泛的现实应用意义。一般来说,情感是我们存在的质量和意义的最重要的方面,它使生活有价值。数字数据的情感影响在于它可以改善现有技术的用户体验,进而加强人与计算机之间的知识转移[18]。
许多人倾向于在社交网络上发布文字、图片和视频来表达他们的日常生活感受。受此启发,我们可以挖掘人们对现实世界中发生的话题和事件的看法和情感。例如,Facebook或Instagram上的用户生成内容可以用来获取来自不同国家和地区的人们在面对COVID-19[29]等流行病时的态度。研究人员还试图检测社交网络中的情绪,并将结果应用于预测政治选举。注意,当个体的个性化情绪被发现时,我们可以进一步将这些情绪分组,这可能有助于预测社会趋势。
多模态情感识别的另一个重要应用是商业智能,特别是营销和消费者行为分析[30]。如今,大多数服装电子零售商都使用人体模型来展示产品。模型的面部呈现对消费者接近行为有显著影响。具体来说,对于情绪接受度高的参与者,微笑的面部表情更容易导致最高接近行为。此外,研究人员在刺激-机体-反应框架的基础上,考察了网上商店专业化如何影响消费者的愉悦和唤起。情绪识别也可以应用于呼叫中心,其目的是检测呼叫者和接线员的情绪状态。该系统通过语调和节奏识别相关的情绪,以及从相应的讲话中翻译出来的文本。在此基础上,我们可以收到关于服务质量的反馈。
同时,情感识别在医疗和心理健康领域具有重要作用。随着社交媒体的普及,一些人更喜欢在互联网上分享他们的情绪而不是与他人。如果用户被观察到频繁且持续地分享负面信息(如悲伤),就有必要跟踪其心理状态,防止心理疾病甚至自杀的发生。情绪状态还可以用来监测和预测各种人的疲劳状态,如司机、飞行员、装配线上的工人和教室里的学生。这种方法既能防止危险情况的发生,又有利于工作/学习效率的评估。此外,情绪状态可以被整合到各种安全应用中,例如监控公共空间(如公交/火车/地铁站,足球场)的系统,以防范潜在的攻击行为。最近,在儿童自闭症谱系障碍(ASD)的诊断和治疗过程中引入了一种有效的辅助系统,以辅助收集患儿的病理信息。为了帮助专业临床医生更好、更快地对ASD患者进行诊断和治疗,该系统将面部表情和眼睛注视注意力作为自闭症早期筛查的显著指标。
采用多模态情感识别提高个人娱乐体验。例如,最近的一项脑电波-音乐界面的研究将脑电图特征映射到音乐结构(音符、强度和音高)。同样,人们也在努力理解不同模式之间以情感为中心的相关性,这对各种应用至关重要。情感图像-音乐匹配提供了一个很好的机会,将音乐序列附加到给定的图像,在那里它们可能唤起相同的情感。这有助于从移动设备上的个人相册照片中生成能感知情感的音乐播放列表。
现有的方法在视觉-音频、面部-文本-语音和文本-视觉任务等各种MER设置上取得了很好的性能。然而,所有概括的挑战都没有得到充分处理。例如,如何提取与情绪关系更密切的鉴别特征,如何平衡普通情绪反应和个性化情绪反应,以及如何强调更重要的表现形式等,仍是开放的。为提高MER方法的性能,使其适应现实世界的特殊要求,本文提出了一些潜在的发展方向。
相关知识
顶刊TPAMI 2022!基于不同数据模态的行为识别:最新综述
对话情感识别研究综述:从基础到前沿
情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent
语音情感识别调研
基于脑电图和眼电图融合的多模态情绪识别研究,IEEE Transactions on Instrumentation and Measurement
鸟类声音识别技术综述:从传统方法到深度学习
深度学习——动物数据集大合集(附下载地址)
情感识别技术:从文本到情感
多模态传感器融合提升宠物训练效率.docx
宠物声音识别与理解研究.pptx
网址: 多模态情感识别数据集和模型(下载地址+最新综述2021.8) https://m.mcbbbk.com/newsview412362.html
上一篇: 将情感植入陪伴机器人,「可以科技 |
下一篇: 如何识别狗的情感 |