首页 > 分享 > 达摩院跨语言研究最新进展：多语言知识增强的预训练&基于一致性训练的跨语言NER

达摩院跨语言研究最新进展：多语言知识增强的预训练&基于一致性训练的跨语言NER

萌宠菠菠乐园
2024-09-26 09:45

©PaperWeekly 原创 · 作者 | 邴立东刘林林周然李昕等

单位 |Alibaba DAMO, NTU

跨语言预训练模型（如 XLM-R）的出现，使很多低资源语种的 NLP 任务处理从不可能变为可能。具体做法是以跨语言预训练模型作为编码器，用目标任务的源语言（通常是英语）训练集训练模型后，直接在低资源目标语种的测试数据上进行预测，即 Zero-shot Learning。

跨语言任务的另外一类主流解法是将训练数据从源语言翻译到目标语言，构成目标语言的训练集并训练模型，即 Translate-train。对于细粒度任务（如NER），标签映射是 Translate-train 需要解决的一个难题。

为了缓解标签映射问题并利用目标语言的无标注数据，我们提出了免映射的训练数据翻译方法以及跨语言 NER 的一致性训练方法 ConNER。ConNER 能够利用目标语言无标注数据的丰富知识，并缓解对源语言数据的过拟合，以达到更好的跨语言表现。

KMLM: 兼顾知识记忆与逻辑推理 —— 多语言知识图谱增强的预训练语言模型

本小节工作来自 EMNLP 2022 主会论文：Enhancing Multilingual Language Model with Massive Multilingual Knowledge Triples

论文链接：

https://arxiv.org/pdf/2111.10962.pdf

数据代码：

https://github.com/ntunlp/kmlm.git

1.1 背景及动机

近年来在大型预训练语言模型上进行微调已经成为自然语言处理任务中最常用的方法之一，该方法在众多任务中都取得了优异的表现。然而预训练模型在知识密集的任务的表现上仍然有进一步提高的空间，所以最近有很多知识增强的语言模型被提出来 [1,2]。

然而现有的知识增强的语言模型大部分是单一语言的，限制了它们在更多语言上的应用。同时，很多现有的知识增强方法会使用额外的 entity/relation embedding [3,4]，或者知识图谱编码器 [2]来辅助语言模型学习，这样会增加模型的参数量并限制其在下游任务应用的灵活性。此外，这些预训练的模型更多地强调知识的记忆，而逻辑推理能力没有得到足够的重视。

针对上面指出的几个问题，我们提出新的方法，通过知识图谱中的数据来生成大量的多语种训练数据，并使用它们直接训练语言模型。我们生成的训练数据包括 Code-Switched/Parallel Synthetic Sentences 和 Reasoning-Based Training Data。

然后，我们设计知识相关的训练任务，包括基于多语言知识语料的训练任务（Multilingual Knowledge Oriented Pretraining），和基于逻辑推理的训练任务（Logical Reasoning Oriented Pretraining），来增强多语种预训练语言模型。

1.2 KMLM: 多语言知识图谱增强的预训练语言模型

知识图谱数据库通常使用三元组（h, r, t）来描述实体之间的关系，其中 h 和 t 分别是头实体和尾实体，r 用来描述二者的关系。如表格 1 所示，知识图谱数据库 Wikidata 中有大量多语种标注的信息，很多实体和关系也提供了大量的常用别名，然而这些信息在以往的预训练语言模型中没有被充分地利用。

▲ 图表1: Wikidata中一个多语言标注的实体的例子，Q1420为该实体的ID。

如图表 2 所示，我们可以通过使用多语种标注和别名来替换三元组里面的实体和关系，并用 [mask] 来连接它们，从而生成大量的知识密集的多语言语言训练数据：Code-Switched/Parallel Synthetic Sentences 。

▲ 图表2: 使用三元组生成的知识密集的多语言训练数据的例子。

除此之外，我们还在知识图谱中抽取大量长度为三和长度为四的环，并用它们生成逻辑推理训练数据（Reasoning-Based Training Data）。抽取的环如图表 3 所示。我们发现增加环的长度，会生成一些没有逻辑关系的环，所以我们要求长度为四的环中间有至少一条边连接对角的两个节点。这些环也是由知识三元组构成，所以我们也可以通过插入 [mask] 来生成训练数据，如图表 4 所示。

▲ 图表3: 知识图谱中抽取的长度为3和4的环。

▲ 图表4: 使用知识图谱中抽取的环构建的逻辑推理训练数据的例子

生成好训练数据后，我们设计了两个预训练任务：基于多语言知识语料的训练任务，和基于逻辑推理的训练任务。其中基于多语言知识语料的训练任务与常见的 Masked Language Modeling 任务相近，但是区别是我们的训练语料中用 [mask] 来连接实体和关系，这些 [mask] 对应的连接词我们并不知道。所以在训练模型时，我们只用实体和关系对应的 token 预测计算交叉熵损失，如图表 5 所示。

▲ 图表5：在语言混合的训练数据上进行Masked Language Modeling训练的例子。

对于基于逻辑推理的训练任务，我们为长度为 3 和 4 的环分别设计训练任务。如上所述，每个环能够生成对应的一段话，图表 4 给出了两个例子。对于长度为 3 的环，我们随机掩盖掉其中一句话的关系，并训练模型根据句子中的其他关系和实体来预测掩盖掉的词。

对于长度为 4 的环，我们设计了两个子任务：1）对于 80% 的情况，我们随机选择一句话并掩盖掉里面的关系。同时为了增加难度，我们还会随机掩盖掉这段话中的一到两个实体。然后训练模型预测掩盖掉的实体和关系。2）对于 20% 的情况，我们随机掩盖掉一句话，让模型学习能否从其他句子里推断出新的知识。我们保留选中那一句话里面的关系作为提示。

除了上面介绍的两个预训练任务，我们还加入了常见 Masked Language Modeling 任务[5] 来学习自然语句中词的分布。为了使用这三个任务同时来训练模型，我们将它们对应的损失函数加在一起作为最终的损失函数来使用，如下面公式所示。其中等号右面的三个损失函数分别对应 Masked Language Modeling 任务，基于多语言知识语料的训练任务和基于逻辑推理的训练任务。是一个参数来调整后两项知识相关任务的权重。

1.3 实验分析

▲ 图表6: CoNLL02/03跨语言命名实体识别任务

▲ 图表7：WikiAnn跨语言命名实体识别任务

▲ 图表8：X-FACTR多语言知识抽取任务

▲ 图表9：RELX跨语言实体关系分类任务

为了验证我们的方法对逻辑推理任务的有效性，我们提出了多选题形式的跨语言逻辑推理（XLR）任务。这种推理任务的一个例子在图 10 中给出。这些模型先在英语训练集上微调，然后在不同目标语言的测试集上测试。结果如表 11 所示。我们所有的模型都显著优于基准模型。由此可见，我们的这种预训练方法可以帮助语言模型更好地学习常见的逻辑推理模式，以提高其在下游任务的表现。

▲ 图表10: 我们标注的跨语言逻辑推理任务XLR数据的例子

▲ 图表11：XLR跨语言逻辑推理任务

1.4 小结

在本文中，我们提出方法直接使用多语言知识图谱构建多种知识密集的训练数据，并设计了基于多语言知识语料的训练任务（Multilingual Knowledge Oriented Pretraining），和基于逻辑推理的训练任务（Logical Reasoning Oriented Pretraining）来增强预训练语言模型。

我们的方法不依赖额外的 entity/relation embedding 或者知识图谱编码器，有效地避免了引入更多的参数和模块，降低模型复杂度。我们的预训练模型在多个知识密集的下游任务中均取得了显著的表现提升。

本小节工作来自 EMNLP 2022 主会论文: ConNER: Consistency Training for Cross-lingual Named Entity Recognition

论文链接：

https://arxiv.org/pdf/2211.09394.pdf

数据代码：

https://github.com/RandyZhouRan/ConNER

2.1 背景介绍

然而，由于语言学上的差异，仅在源语言上训练可能不足以达到令人满意的 NER 表现。针对这些问题，我们开发的跨语言 NER 的一致性训练方法能够有效利用目标语言无标注数据的丰富知识，并缓解对源语言数据的过拟合，以达到更好的跨语言表现。

相关方法的局限

现存的跨语言 NER 方法主要分为：

1）翻译训练集（translate train）：通过将源语言训练数据翻译至目标语言并映射NER标签构造目标语言的伪训练数据。

缺陷：翻译后的文本质量较差，语法不自然通顺。生成的训练数据标签依赖于额外的词映射工具，容易引入噪音。并且此方法无法利用丰富的目标语言无标注数据。

2）知识蒸馏（knowledge distillation）：利用一个老师模型对无标注数据作软标注，并使用软标签训练一个表现更好的学生模型。

缺陷：由于语言间的差异，使用源语言训练的老师模型输出目标语言的软标签往往含有较多噪音，影响模型表现。

3）一致性训练 (consistency training)：通过鼓励模型对扰动前后的样本输出一致的概率分布，增强模型的鲁棒性和泛化性。

缺陷：现有的一致性训练使用高斯噪音 [6]或者随机词替换[7]作为扰动，有可能影响扰动后样本的真实标签。此外，基于翻译的一致性训练 [8]在 NER 上受到词映射困难的限制，因此采取了基于某类别实体是否出现的较模糊的一致性，限制了模型的表现。

2.2 基于词粒度一致性训练的NER

2.2.1 问题定义

如上文所述，目前针对跨语言NER的相关方法存在一定的局限性。Translate train 容易受到词映射错误的影响，而知识蒸馏也可能会放大无标注数据上软标签中的噪音。相较之下，一致性训练更不容易受软标签噪音影响，但现存的方法无法同时保证扰动的多样性和扰动前后的标签一致性，或者由于翻译带来的词映射困难而采取粗略的句子粒度的一致性。

因此，我们的一致性训练方法旨在使用翻译作为一种多样化且满足一致性假设的扰动，并避免词映射引入的噪音，来有效地利用目标语言的无标注数据。同时，我们也希望减少模型对源语言标注数据的过拟合，以更好地迁移到目标语言。

2.2.2 ConNER模型

在跨语言场景下，训练集包含有标注的源语言数据，以及无标注的目标语言数据。针对这两类数据，我们的方法（ConNER）相应的提出两种一致性训练方法：1）基于翻译的一致性训练；2）基于 dropout 的一致性训练。

具体的，我们将基于翻译的一致性训练应用在无标注的目标语言数据上，以充分利用无标注数据中的目标语言知识。同时，我们将基于 dropout 的一致性训练应用在有标注的源语言数据上，以缓解模型对源语言过拟合，增强跨语言迁移能力。

1）基于翻译的一致性训练

当我们将包含某个实体的句子翻译到另一个语言时，翻译后句子中的该实体仍然与原句中的实体属于同一类别。从这个动机出发，我们提出基于翻译的一致性训练。

首先，由于我们将基于翻译的一致性训练应用在目标语言无标注数据上，句子中的实体并没有被标注出来。尽管我们的方法可以应用在任意词段，但当目标词组有可能是实体时效果更好。因此，我们用源语言训练数据训练一个基线模型，并将此模型标注为任意实体的词段选为目标词组。我们只使用基线模型决定目标词组的边界，以减轻错误的实体类别的影响。

然而，基于翻译的一致性训练主要面临两个挑战：（1）翻译前后的词映射不明确，而使用词映射工具容易引入额外的噪音（2）翻译前后实体包含的单词数量可能有变化（例如 Westdeutschland 翻译至 West German），导致无法在单词级别两两计算一致性损失。我们分别通过免映射的翻译方法和单词级别到词组级别的概率转化解决这些问题。

免映射的翻译方法

为了在翻译后得到更准确的词映射关系，我们利用[9]提出的免映射翻译方法将无标注数据翻译至源语言，如图12所示。具体的，我们首先将目标词组替换成占位符（SPAN44），接着将替换后的句子输入翻译引擎得到翻译后的句子。翻译后句子中仍保留了该占位符，并且占位符指示了目标词组在翻译后句子中应当处在的位置。接着，我们将目标词组也进行翻译，并用翻译后的目标词组替换翻译后句子中的占位符，即可得到原句完整的翻译，且翻译前后的目标词组互相对应。

▲ 图表12：免映射的翻译方法

单词级别到词组级别的概率转化

由于目标词组在翻译后可能有词数增减，我们无法通过一对一的词映射计算一致性损失。因此，我们将目标词组中的单词级别概率连乘，转化为词组级别概率。

图 13 提供了一个计算过程的示例：在使用 BIOES 规则的前提下，“West German” 是一个地点实体（LOC）的词组级别概率是 “West” 作为”B-LOC”的单词级别概率与 “German” 作为 “E-LOC” 的单词级别概率之乘积。“West German”作为其他实体类别以及非实体（O）的词组级别概率计算同理。

值得注意的是，我们引入了一个额外的词组级类别 “illegal”，以包含所有不符合 BIOES 规则的标签序列。

▲ 图表13: 单词级别到词组级别的概率转化

最后，我们计算翻译前后对应目标词组间词组级别概率的双向KL divergence，作为目标损失函数：

2）基于dropout的一致性训练

经相关工作 [10,11]启发，我们将 dropout 作为一种表示层面的扰动，提出基于 dropout 的一致性训练。具体的，我们将同一源语言训练数据两次输入模型。经过不同的随机 dropout 过程，两次的输出概率分布会有不同。我们鼓励模型对两次 dropout 输出一致的概率分布，以减少模型对源语言数据的过拟合。我们仍采用双向 KL divergence 来计算目标损失函数：

3）训练目标

我们将标注数据的交叉熵损失与基于翻译和基于 dropout 的一致性损失作加权和，得到总体的训练目标函数。其中 a，b 为权重系数。

2.3 主要结果

我们在 CoNLL NER 数据集上的实验结果如下。如表 14 所示，相比于只使用源语言训练数据（vanilla baseline），我们的 ConNER 在三个语言迁移对上均有显著的提升，平均 F1 提升 2.61。相比于 translate train，ConNER 使用免映射的翻译方法有效避免了标签映射的问题，并且充分利用了目标语言无标注数据的丰富知识，以达到更好的效果。

另外，与知识蒸馏不同，我们的一致性训练不易受到软标签噪音的影响，也通过在平行语料上训练更好的融合不同语言的表示。同时，我们也和两个一致性训练的基线方法比较。结果表明，我们以翻译和 dropout 作为扰动，在保证一致性假设成立的前提下，提供更丰富的扰动，表现也更好。

▲ 图表14: CoNLL数据集的实验结果

为了验证 ConNER 在更广泛目标语言上的鲁棒性，我们选取三个与源语言英语差异较大的语言作为目标语言，分别是：中文（Zh），阿拉伯语（Ar），印地语（Hi）。

如表 15 所示，由于更大的语言差异，只使用英语训练的模型（vanilla baseline）在这些语言上的表现较差。尽管模型对目标语言无标注数据的预测质量较低，我们的一致性训练方法相比于知识蒸馏对此类噪音较不敏感，从而能更有效地利用目标语言的无标注数据，并带来显著的提升。

▲ 图表15: 在差异更大的语言上的实验结果

我们也将 ConNER 应用到低资源场景下。我们随机采样 5%，10% 和 25% 的源语言训练集作为我们的低资源训练集，并在目标语言上评估 ConNER 的表现。如表 16 所示，在三个不同的低资源水平上，ConNER 均能有效利用目标语言无标注数据并减轻对源语言低量数据的过拟合有显著的表现提升。并且，当我们只使用 25% 的训练数据时，ConNER 就能达到与全量源语言训练数据相当的表现。

▲ 图表16: 低资源NER的实验结果

2.4 消融实验

我们的方法 ConNER 主要由两部分组成：1）在目标语言无标注数据上的基于翻译的一致性训练和 2）在源语言标注数据上基于 dropout 的一致性训练。我们进行消融实验，分别验证他们带来的提升。

如表 17 所示，基于翻译（trans-unlabel）和基于 dropout（dropout-label）的一致性训练均带来一定的提升，但基于翻译的一致性训练带来的提升更显著。这也佐证了跨语言设置下利用目标语言无标注数据的重要性。

我们也尝试将基于翻译的一致性训练应用在源语言标注数据上（trans-label），但表现反而有所下降。这可能是在有标注的情况下，模型已能准确预测翻译后句子中的实体，所以基于翻译的一致性训练便显得冗余了。

类似的，当我们将基于 dropout 的一致性训练应用在目标语言无标注数据时，在目标语言（如德语）上的表现反常的低。我们将其归结于模型多语言能力的 catastrophic forgetting。由于目标语言数据无标注，简单地强制模型减小对两次输入目标语言句子预测的差异可能使源语言和目标语言在表示空间分离，导致模型丧失其跨语言迁移的能力。

▲ 图表17: 消融实验

2.5 小结

针对跨语言 NER 任务，我们提出一种新颖的一致性训练方法，增强模型对数据扰动的鲁棒性。面对基于翻译的一致性训练的挑战，我们使用免映射的翻译方法解决了词映射的问题，并将单词级别概率转化为词组级别概率以解决了词数变化的问题。

通过在翻译后的平行数据上训练，我们更好的融合不同语言的表示空间，以实现更好的跨语言迁移能力。我们也通过基于 dropout 的一致性训练，缓解模型对源语言数据的过拟合，以在目标语言上获得更好的表现。我们的方法在多个语言迁移对上展现了显著的表现提升。

参考文献

[1] Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, and Qun Liu. 2019. ERNIE: Enhanced language representation with informative entities. In Proceedings of ACL, pages 1441–1451.

[2] Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, and Ping Wang. 2020a. K-BERT: Enabling language representation with knowledge graph. In Proceedings of AAAI.

[3] Ryokan Ri, Ikuya Yamada, and Yoshimasa Tsuruoka. 2022. mLUKE: The power of entity representations in multilingual pretrained language models. In Proceedings of ACL, pages 7316–7330.

[4] Xiaoze Jiang, Yaobo Liang, Weizhu Chen, and Nan Duan. 2022. Xlm-k: Improving cross-lingual language model pre-training with multilingual knowledge. In AAAI 2022.

[6] Bo Zheng, Li Dong, Shaohan Huang, Wenhui Wang, Zewen Chi, Saksham Singhal, Wanxiang Che, Ting Liu, Xia Song, and Furu Wei. 2021. Consistency regularization for cross-lingual fine-tuning. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 3403–3417.

[7] David Lowell, Brian E Howard, Zachary C Lipton, and Byron C Wallace. 2020. Unsupervised data augmentation with naive augmentation and without unlabeled data. arXiv preprint arXiv:2010.11966.

[8] Rui Wang and Ricardo Henao. 2021. Unsupervised paraphrasing consistency training for low resource named entity recognition. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 5303–5308.

[9] Linlin Liu, Bosheng Ding, Lidong Bing, Shafiq Joty, Luo Si, and Chunyan Miao. 2021. MulDA: A multilingual data augmentation framework for lowresource cross-lingual NER. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 5834–5846.

[10] Lijun Wu, Juntao Li, Yue Wang, Qi Meng, Tao Qin, Wei Chen, Min Zhang, Tie-Yan Liu, et al. 2021. R-drop: regularized dropout for neural networks. Advances in Neural Information Processing Systems, 34.

[11] Tianyu Gao, Xingcheng Yao, and Danqi Chen. 2021. SimCSE: Simple contrastive learning of sentence embeddings. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 6894–6910.

关于作者：

本文由阿里巴巴达摩院自然语言智能实验室邴立东、李昕，联培博士生刘林林、周然等共同整理。由PaperWeekly编辑做了校对和格式调整。

更多阅读

# 投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读，也可以是 学术热点剖析、 科研心得或 竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人 原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供 业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（ pwbot02）快速投稿，备注：姓名-投稿

现在，在 「知乎」也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」订阅我们的专栏吧

责任编辑：

猫咪患上猫癣,环境消毒为何是关键?滴露宠物家庭专用消毒液深度解析

Menú

热点分享

布偶猫吃什么对毛发好原来这些食物就可以

对于布偶猫这种长毛猫来说，一般情况下，布偶猫这样的长毛猫咪毛...

这九种宠物既新奇又独特，看完你爱上没有？

这九种宠物既新奇又独特，看完你爱上没有？小猫，小狗，仓鼠...

推荐分享

缅因猫能长多大一种体型较大的猫

缅因猫能长多大?缅因猫是很多人都喜欢的一个品种，尤其是广大的女...

警惕狗贩的骗人损招星期狗的症状特征

警惕狗贩的骗人损招染色：这一招最多的是用在斑点狗、蝴蝶犬...

热门点击排行

养玉米蛇的危害

狗交配为什么会锁住？从狗狗生理结构来分析

分享分类导航

萌宠日常

宠物饲养指南

宠物营养食谱