恒达平台官网:_万字长文综述：给你的数据加上杠

机械之心宣布

作者：李渔

样本少、漫衍不平衡，若何让训练的模子性能更优越？文本增强手艺算得上一个不错的设施。本文先容了熵简科技团结创始人李渔的一篇关于自然语言处置领域中文本增强手艺的论文，重点探讨了近两年来常用的五类文本增强手艺路径以及对应的代表性手艺。

目录

1 为什么要领会文本增强手艺

2. 典型手艺方案

2.1. 回译（Back translation）

2.2. 随机词替换

2.3. 非焦点词替换

2.4. 基于上下文信息的文本增强

2.5. 基于语言天生模子的文本增强

3. 新偏向展望

4. 在金融领域义务的实践16

4.1. 金融领域的 NLP 义务为什么需要文本增强手艺

4.2. 案例靠山及实验条件

4.2.1. 案例靠山和数据集特点

4.2.2. 算法模子

4.3. 实验效果及剖析

4.3.1. 回译

4.3.2. EDA

4.3.3. 基于 TF-IDF 的文本增强

4.3.4. 三类方式的对比

4.3.4. 小结

5. 总结

参考文献

摘要

文章系统性地回首了自然语言处置领域中的文本增强手艺在近几年的生长情形，重点枚举和讨论了 18 年、19 年中人们常用的五类文本增强手艺路径以及对应的代表性手艺。接下来，文章以金融领域的自然语言处置义务入手，多维度地剖析几类通用文本数据增强手艺在现实营业问题上的主要价值。文章的结论是，文本增强手艺是一类低成本的数据杠杆，可以在不引入新数据下，有用撬动模子性能。

1 为什么要领会文本增强手艺

本文摘自熵简科技 NLP 团队的内部手艺沙龙，文章系统性地回首了自然语言处置领域中的文本增强手艺在近几年的生长情形，重点枚举和讨论了 18 年、19 年中人们常用的五类文本增强手艺路径以及对应的代表性手艺，希望对于人人的一样平时研究事情有所启发。在第 4 节中，我们以金融资管领域的现实应用场景入手，多维度地剖析了几类通用的文本数据增强手艺在现实产物研发中的作用。

在最先先容详细方式之前，先简朴枚举一下现在自然语言处置义务中运用文本增强手艺的常见场景：

(1) 少样本场景

在少样本场景下，能够搜集到的样本数目不知足模子训练的需求，导致模子处于欠拟合的状态。自然而然，在现有数据基础上，运用文本增强手艺来扩充样本集，是一件又快又省，性价比很高的事。许多研究也已经解释，这种方式可以显著提高模子的性能 [1-3]；

(2) 分类义务中样本漫衍不平衡的场景

除了一些基准 benchmark，真实场景中大部门文本分类义务中的种种别样本数目都是不平衡的，许多时刻样本数最多种别的数目可能比最少的种别高两个数目级。这会带来许多问题，好比模子对于小样本种别往往处于欠拟合状态，在现实展望时，险些不会对这一种别给予太高的概率。

自然，面临这样的问题，一种常见的处置方式是针对小样本种别，运用数据增强手艺举行样本扩充，从而降低样本间的不平衡性，提高模子的泛化能力。这种方式也在现实中被多次证实了其有用性 [2,4]；

固然，对于样本不平衡问题，已经有许多解决方式，人人可以参考这篇 google 引用数快 1 万的论文 [5] 及其引文。

(3) 半监视训练场景

至少从 19 年 NLP 偏向 google 出品的半监视学习算法 UDA 可以看出 [6]，文本数据增强手艺可以用在无标签样本上，以组织出半监视训练所需的样本对，以此让模子从无标签的数据中获取到优化所需的梯度。关于半监视学习的详细希望，后面若是有时间，可以单开一篇文章先容。

(4) 提高模子的鲁棒性

数据增强手艺在不严谨的情形下可以分为两类，一类是在保持语义稳定的情形下，变换文本的表达形式，例如接下来提到的回译、文本复述等；另一类是，凭据某种计谋对原文举行局部调整，例如后面提到同义词替换，随机删除等等。岂论是哪种方式，都可以以为是提高了模子的鲁棒性，使得模子更关注文本的语义信息，并对文本的局部噪声不再敏感。举个例子，「文本数据强增手艺辅助可以模子对于噪声局部不再感敏」，若是你依然能够看明晰这句话的意思，说明你对于文本局部噪声也是不敏感的。

基于这种思量，无论是少样本场景照样大语料场景，文本增强手艺都有助于提高模子的鲁棒性，提高其泛化能力。关于这一点，深度学习领域著名的花书 [7] 的 7.4 节表达了类似的看法。

从上面的先容可以看出来，文本数据增强手艺在自然语言处置中属于基础性手艺，具有广漠的应用场景，因此有必要对其举行系统性的讨论。

2. 典型手艺方案

2.1. 回译（Back translation）

得益于近几年文本翻译领域的显著希望、种种先进翻译模子的开源（包罗百度、google 等翻译工具的接口开放），基于回译（back translation）方式的文本数据增强成为了质量高又险些无手艺门槛的通用文本增强手艺。回译方式的基本流程很简朴，行使翻译模子将语种 1 的原始文本翻译为语种 2 的文本表达，基于语种 2 的表达再翻译为语种 3 的文本表达，最后再直接从语种 3 的形式翻译回语种 1 的文本表达，此文本即是原始文本增强后的文本。固然，许多时刻只接纳一种中心语种也可以实现很好的增强效果。

我们行使 google 翻译举个例子：

原始文本为：文本数据增强手艺在自然语言处置中属于基础性手艺；

翻译为日语：テキストデ�`タ��技�gは、自然言�Z�I理の基本的な技�gです；

日语再翻译为英语：Text data extension technology is a basic technology of natural language processing；

英语再翻译回中文：文本数据扩展手艺是自然语言处置的基本手艺；

可以看出来，由于 google 翻译足够优异，增强前后的文本在语义上基本保持一致。因此，对于回译这一增强手艺，翻译模子的利害决议了数据增强的最终效果。

其中另有一些细节值得说一下：

第一，若是接纳翻译模子，可以接纳 random sample 或 beam search 等计谋实现成倍数的数据扩充。若是接纳 google 等翻译工具，通过替换中心语种，也可以实现 N 倍的数据扩充。

第二，现在翻译模子对长文本输入的支持较弱，因此在现实中，一样平时会将文本凭据「。」等标点符号拆分为一条条句子，然后划分举行回译操作，最后再组装为新的文本。

说了这么多，我们看一下回译手艺在近几年研究报道中的现实应用情形。

据我们所知，早期人们主要将回译手艺用于神经网络翻译模子（NMT）的性能提升 [8,9]，通过回译可以将单语语料（monolingual data）组织成双语语料，从而辅助模子提升性能。实验证实，回译可以辅助 NMT 模子带来平均 1.7 BLEU 的性能提升，辅助 facebook 的团队在 WMT'14 English-German 测试集上实现了那时的 SOTA 性能，更多的细节人人可以移步文献 [9]，内里有详细讨论。

到了 2018 年，CMU 和 google brain 的团队将回译手艺自力出来作为一个专门的数据增强手艺用来优化问答模子的性能 [10]。他们同时训练了两个 NMT 模子，划分是 English to French 和 French to English，用来实现回译，如下图所示：

最终的实验证实，回译手艺辅助他们的模子带了至少一个百分点的性能提升，如下图红框所示。我们知道，对于问答系统而言，能够有一个百分点的提升，也是很不错的事情。

同时，他们详细研究了差异增强倍数以及差异采样比例下，回译对于模子提升的巨细，如下图所示：

对比图中的两个红框部门，研究人员发现，在最佳情形下，回译带来的性能提升与在模子中加入 self-attention 组件带来的提升险些相当。这似乎解释，挖掘数据多维度的信息和优化模子架构具有一致的主要性。

时间到了 2019 年下半年，google 团队提出了一种可用于 NLP 义务的半监视学习算法（UDA）[6]，前面已经提到过了。这篇文章自己并不庞大，主要是实验证实了回译等文本增强手艺可以用于半监视学习，而且效果看起来很惊人，他们仅用了 20 条样本作为标签数据，就在 IMDb 数据集上实现了靠近 SOTA 的性能。固然，我们以为这内里至少有一半的原因是算法接纳的 BERT 模子原本就已经在大规模预料上学习过。关于 UDA 更详细的剖析，感兴趣的同砚可以移步文献 [6]，这里就不再详细睁开。

最后，再从机械学习自己来讨论一下回译手艺：

第一，回译手艺的有用性本质上泉源于迁徙学习。通过文本增强的历程，回译手艺将翻译模子学到的关于词义、语法、句法等知识转移到了新天生的样本上，从而为当前的自然语言处置义务引入了新的信息和知识泉源；

第二，回译手艺发生的新样本若是有益，隐含着这样一个先验，即模子对于具有差异语言表达形式但同样语义的输入文本，应该具有稳定性，或者应该具有相近的输出。那么，是否所有的 NLP 义务都具备这样的先验假设呢？

2.2. 随机词替换

此处所谓的基于随机词替换的数据增强方式是对一类文本数据增强方式的统称，其基本方式类似于图像增强手艺中的随机裁剪、图像缩放，通常是随机地选择文本中一定比例的词，并对这些词举行同义词替换、删除等简朴操作，不像回译等模子，需要外部预训练好的模子的辅助。

19 年有研究团队提出了一种称为 EDA (Easy data augmentation) 的文本增强方式 [11]，该方式可以以为是这一类方式的集大成者。EDA 主要包罗四种操作：同义词替换、随机插入、随机交流和随机删除。详细说明如下：

(1) 同义词替换 (SR)：从句子中随机选择非住手词。用随机选择的同义词替换这些单词；

(2) 随机插入 (RI)：随机的找出句中某个不属于停用词集的词，并求出其随机的同义词，将该同义词插入句子的一个随机位置。重复 n 次；

(3) 随机交流 (Random Swap, RS)：随机的选择句中两个单词并交流它们的位置。重复 n 次；

(4) 随机删除 (RD)：以概率 p 随机删除句子中每个单词。

下面枚举了以上四类操作的例子：

原始文本：今天天气很好。

同义词替换 (SR)：今天天气不错。（好替换为不错）

随机插入 (RI)：今天不错天气很好。（插入不错）

随机交流 (RS)：今天很好天气。（很好和天气交流位置）

随机删除 (RD)：今天天气好。（删除很）

对于这种方式，最大的一个疑问是，经由 EDA 操作之后，文本的种别标签（label）是否还能保持稳定，究竟这是对文本举行随机操作。研究人员对于这个问题专门举行了实验剖析。首先，他们仅用原始训练集 (未经由数据增强) 训练了一个分类模子，这里临时称之为「模子 A」。接下来，行使 EDA 方式对测试集举行了数据拓展。最后，将原有的测试集和拓展出的语料输入到模子 A 中，并对模子在最后线性层的输出举行了对照。他们发现原有测试集和拓展出的语料，在高维空间中，距离很小。二者经由 t-SNE 算法降维之后的效果对比，如下图所示：

从上面的剖析可以看出来，经由 EDA 变换之后，原始数据集一方面在原有基础上扩展吸收了许多噪声，扩大了数据量，同时还保持了原有的标签，因而有用的扩大了原始样本集的信息容量。

接下来，我们看一下 EDA 手艺应用到现实问题中的效果怎么样。

研究人员在五项公然的文本分类数据集中举行实验测试，为了更充实地对比，实验中划分接纳了卷积神经网络（CNN）和循环神经网络（RNN）作为分类模子，最终在五项义务中的平均显示如下表所示 [2.2.1]：

从上表的效果中，我们至少可以得出两个结论：

第一：EDA 手艺可以有用提到模子的泛化能力，降低泛化误差，纵然在完整数据集下，EDA 手艺也可以带来平均 0.8 个百分点的提升；

第二：数据集越小，EDA 手艺对模子带来的提升越显著。当样本数目只有 500 时，EDA 手艺可以带来平均三个百分点的提升。因此，很适合用在少样本的场景。值得注意的是，在 EDA 手艺的辅助，数据量规模仅有原数据集的 50% 时，模子性能已经超过了不使用 EDA 时在 100% 数据上的显示。

此外，在 19 年 11 月由 IBM 研究团队揭晓的一项新的文本增强手艺的研究中 [2]，也对 EDA 手艺举行了对照实验：

其中，LAMBADA 手艺为 IBM 研究团队所提出的文本增强方式，将本文的后面部门做详细先容。从表中可以看出，EDA 方式在多数训练集中的显示仅次于 IBM 最新研究功效 LAMBADA，这再次验证了 EDA 方式的简朴有用。

关于 EDA 手艺，另一个需要重点关注的问题是，在运用 EDA 手艺，若何设置替换比例和增强的文本倍数，好比 2000 条语句应对若干数据举行随机删除，增添等。原文给出的建议比例如下 [11]：

其中，α是替换删除等的比例，好比同义词替换中，替换的单词数 n=α L，L 是句子长度，随机插入、随机替换类似；Naug 是使用 EDA 方式从每一个句子拓展出的句子数目。

综上，我们可以知道，接纳 EDA 文本增强手艺举行模子性能的提升，简朴而有用，尤其是在小样本场景下。

2.3. 非焦点词替换

在上文的 EDA 手艺中，对于要替换的词是随机选择的，因此一种直观感受是，若是一些主要词被替换了，那么增强后文本的质量会大打折扣。这一部门先容的方式，则是为了只管制止这一问题，所实现的词替换手艺，临时称之为「基于非焦点词替换的数据增强手艺」。

我们最早是在 google 提出 UDA 算法的那篇论文中发现的这一手艺 [6]，是否在更早的文献中泛起过，我们没有再深究了，有领会的同砚请留言见告。

整个手艺的焦点点也对照简朴，用词典中不主要的词去替换文本中一定比例的不主要词，从而发生新的文本。

我们知道在信息检索中，一样平时会用 TF-IDF 值来权衡一个词对于一段文本的主要性，下面简朴先容一下 TF-IDF 的界说：

TF（词频）即一个词在文中泛起的次数，统计出来就是词频 TF，显而易见，一个词在文章中泛起许多次，那么这个词可能有着很大的作用，但若是这个词又经常泛起在其他文档中，如「的」、「我」，那么其主要性就要大打折扣，后者就是用 IDF 来表征。

IDF（逆文档频率），一个主要性调整系数，权衡一个词是不是常见词。若是某个词对照少见，然则它在这篇文章中多次泛起，那么它很可能就反映了这篇文章的特征，正是我们所需要的要害词。

TF-IDF = TF×IDF，通过此公式可以有用权衡一个词对于一段文本的主要性。当我们知道一个词对于一个文本的主要性之后，再接纳与 TF-IDF 负相关的概率去采样文中的词，用来决议是否要替换，这样可以有用制止将文本中的一些要害词举行错误替换或删除。

UDA 论文中所提出的详细实现方式如下：

提出这一方式的原始论文并没有单独对这一方式举行对照实验，而是与回译手艺一起来配合实现文本的增强，我们可以看一下综合的效果。论文在六个差异的数据集举行了实验：

实验中，接纳了四种差异的模子举行对照实验，划分是权重随机化的 Transformer 结构，BERT-base，BERT-large 以及在领域内微调过的 BERT-large，表中的数值是在测试集上的误差。从表中可知，在经由非焦点词替换以及回译的文本增强之后，模子在实验各个数据集中基本都取得较大提高。

上图展示了差异含标签数据量下，模子行使 UDA 算法框架和两种数据增强方式可以实现的最佳性能。关于文本增强手艺，从图中可以间接验证一个主要判断：无论在少样本下照样大样本场景，文本增强手艺的运用可以辅助模子在原始样本集的基础上进一步提高性能。

遗憾地是，论文没有对基于 TF-IDF 替换的文本增强手艺的效果举行单独研究，或许团队内部实验过，但没有放在论文中。本文的姊妹篇文本增强手艺在金融领域的应用实践，单独对这一手艺的效果举行了对照实验，感兴趣的同砚可以参考。

最后再针对 UDA 这篇论文所涉及的文本增强手艺讨论两点：

第一，在 UDA 的这篇研究中，研究人员仅仅用到了词替换的操作，并没有将 EDA 中其他三项操作加入进来，如删除、交流位置等等，这可以作为后续的研究偏向之一。

第二，相对于 UDA 手艺，这一手艺分外的操作是引入了 TF-IDF 来权衡一个词对于一个句子的主要性，本质上可以以为是在 EDA 的基础上引入了强的先验知识，再凭据确定好的要害词替换同义词，制止无用数据和错误数据的发生。

2.4. 基于上下文信息的文本增强

基于上下文信息的文本增强手艺在原理上也很直观：首先需要一个训练好的语言模子（LM），对于需要增强的原始文本，随机去掉文中的一个词或字（这取决于语言模子支持字照样词）。接下来，将文本的剩余部门输入语言模子，选择语言模子所展望的 top k 个词去替换原文中被去掉的词，以形成 k 条新的文本。这里枚举两个近两年的代表事情。

一个是日本 Preferred Networks 公司在 2018 年提出的基于双向 LM 的上下文文本增强手艺 [12]。整个框架如下：

相对于一样平时的双向 LM，在这个方案中，为了保证文本变换之后的标签稳定（例如对于示意情绪极性的文本，变换之后不会从努力变为消极），研究人员在 LM 隐层中加入了文本的标签信息，从而保证发生的文本与原始本文具有相同的标签属性。

研究人员在五个分类义务中测试了这个方式的效果，效果如下：

从上图可以看出，本文提出的方式相对于同义词替换的方式，能够带来 0.5 左右的提升。然则，针对是否应该加入标签信息这个问题。从实验中可以看出，加入标签信息之后带来了约 0.2 个百分点的泛化误差的降低，这个差值基本在泛化误差的颠簸局限之内，因此是否有显著效果是存疑的。

另一篇研究报道来自于海内的中科院 [13]，是 19 年揭晓的功效。整体的思绪与上面的方案类似，主要的区别是将双向 LM 替换为了 BERT，并同样对 BERT 举行了微调，引入了原始文本的标签信息，以保证新发生的样本具有与原始样本相同的标签属性。实验效果如下：

从实验中至少看出两点：

第一点，基于 BERT 的上下文增强手艺可以带来显著的模子性能提升，平均能够提高靠近两个百分点，这照样很吸引人的。

第二点，将原始原始文本的标签信息带入 BERT（w/C-BERT）相对于不带入的情形（w/BERT）确实能够带来较为显著的模子增益。

由于 BERT 模子已经开源，人人在平时事情和研究中也用的许多，因此从实用价值来说，这篇文章相对于前一篇文章 [12] 的参考意义更大一些。从上面的实验可以看出，纵然纰谬 BERT 做任何刷新，直接套用过来，也可以带来至少 1 个百分点的模子性能提升。

2.5. 基于语言天生模子的文本增强

行使语言天生模子举行文本增强是一大类方式，已经报道了多种实现方式 [14-16]，19 年之前的研究事情一样平时是针对特界说务在 RNN 架构基础上衍生出的文本增强手艺。直到 19 年前后，GPT 和 GPT-2 模子横空出世，在文本天生义务上的效果极其惊人，以至于 OpenAI 那时不敢放出 GPT-2 完整版的模子参数。

关于 GPT 模子的详细先容，人人可以参考 OpenAI 的相关文献 [17,18]。至于中文相关的资料，人人可以参考张俊林先生在知乎上的文章：https://zhuanlan.zhihu.com/p/56865533。本文就不再做详细先容。

GPT 作为一个在海量语料上预训练过的通用语言天生模子，人们自然会想到拿它来实现文本增强相关的事情。

前面已经提到，IBM 的研究团队在 19 年 11 月提出了一种基于 GPT 架构的文本增强手艺，他们称之为 LAMBDA (language-model-based data augmentation)[2]。详细方式如下：

LAMBADA 首先在大量文本上举行了预训练，使模子能够捕捉语言的结构，从而能发生连贯的句子。然后在差异义务的少量数据集上对模子举行微调，并使用微调后的模子天生新的句子。最后在相同的小型数据集上训练分类器，并举行过滤，保证现有的小型数据集和新天生数据集有相近的漫衍。

为了充实验证 LAMBADA 手艺的性能，研究人员举行了两大类实验。

实验一：将 LAMBADA 手艺运用在了三种差异数据集上，并接纳三种差异的模子架构（BERT、LSTM、SVM）举行对照实验，效果如下：

其中，Baseline 指的是仅接纳原始数据集举行训练时的模子。从表中可以看出，LAMBADA 手艺相对于 baseline 在三种数据集下都可以带来性能提升。尤其是对于 ATIS 数据集，相对 baseline 的性能提升超过了 50%，原论文中给出的说法是，ATIS 数据具有显著的漫衍不平衡性，而 LAMBADA 手艺可以有用填补原数据集的不平衡性。

实验二：将 LAMBADA 手艺与当前其他主流的数据增强手艺举行了对照（竟然没有对照回译）：

其中，EDA 和 CBERT 在前文中都已经做了详细先容。从图中可以看出，LAMBADA 手艺的优势照样很显著的。若是接纳 BERT 作为模子架构，那么相对于其他文本增强算法，至少可以提升 1.2 个百分点；在 ATIS 数据集上，更是比第二名提高了 13 个百分点。同样地，在 SVM 和 LSTM 上，除了个体数据及上的显示略差于 EDA，LAMBADA 手艺仍然是一枝独秀。实在很好奇，若是将回译手艺也纳入对照会是什么样的情形。

总而言之，至少从论文中的实验来看，LAMBADA 手艺可以视为当前最优异的文本增强手艺之一。LAMBADA 手艺后续另有许多可以挖掘的地方，好比与前面提到的 UDA 框架连系，用实现少样本下的半监视学习。或者像论文原作者提到的那样，未来他们将实验将此手艺用于 zero-shot learning。

3. 新偏向展望

（1）文本气概迁徙

在 CV 领域，图像气概迁徙在前两年研究较多，信赖人人也体验过在手机 app 上，一键将通俗照片转换为梵高气概的画。对于人眼来说，变换前后的照片虽然气概转变很大，然则上面的人物或动物实体仍然是可以识别出来的。换言之，气概迁徙也可以看作是一次图像数据增强（augmentation）。

沿着这个思绪，若是在 NLP 领域也有成熟且通用的语言气概迁徙算法，那么自然也可以用来做文本数据增强。实在，回译就有一点文本气概迁徙的意思，然则属于气概不可控的文本转换。在这方面，近两年已经有一些代表事情，但现在另有看到把相关算法用于文本数据增强的研究报道，感兴趣的同砚可以详细参考文献 [19,20]。

4. 在金融领域义务的实践

文章到这里，实在另有留下两个问题：

第一，我们团队为什么会云云关注文本增强手艺，它在详细营业场景中真的能施展作用吗？

第二，文中提到的几类手艺虽然在公然测评集上显示很好，那么在现实营业中的显示若何？特别地，现在没有看到有公然的研究报道对于文中部门手艺举行单独实验。自然，我们会好奇这些手艺在单独运用时，到底效果怎么样。

本小节接下来部门，实验对这两个问题举行回覆。

4.1. 金融领域的 NLP 义务为什么需要文本增强手艺

先回覆第一个问题。我们团队之所以云云关注文本增强手艺，这与我们一样平时面临的营业需求慎密相关。我们团队一直致力于将 NLP 和深度学习领域内最新的头脑、最成熟的手艺真正落地于金融资管领域，让科技赋能产业，因此主要面临的义务特征与金融资管领域的数据特点息息相关。

在面临金融资管领域的数据剖析义务时，面临的问题经常具备两类特点：

第一，大量实时有用的信息漫衍在非结构化的文本数据中，如研报、新闻资讯、twitter 等社交媒体中，需要 NLP 等手艺从中高效准确地挖掘出结构化信息。

上图的数据来自 IDC，说明晰近几年全球新增的数据中，有 80% 的数据都是非结构化数据（除文本外，还包罗图片和语音等数据）。因此，金融业机构需要高精度、高鲁棒性和高效率的 NLP 手艺。其中，算法的高精度、高鲁棒性是两项最主要的指标。

第二，许多与金融领域内特界说务相关的应用场景经常面临着少样本的逆境。这体现在两方面：

一方面，可搜集的数据量少，数据搜集的时间成本很高，尤其在从 0 到 1 的立项初期。曾经在某个项目上，我们用了三周时间才搜集到 1000 多条有用样本。

另一方面，数据的人工标注成本很高。人人都知道，NLP 属于认知层面的手艺，数据标注的难度和不确定性本来就比图像识别要高。而对于金融领域的问题，还需要营业人员甚至金融剖析师的介入才气实现相对准确的数据标注，知足营业需求。这又进一步增大了数据标注成本。

因此，岂论是为了提高模子的准确性和鲁棒性，照样为了在少样本场景下尽可能有用地行使数据，我们都希望能够充实运用文本增强手艺这个低成本的数据杠杆，在有限条件下尽可能撬动模子的性能。

关于第二个问题，这也是我们之前深入探索这一手艺时的疑问。在本文的接下来部门，我们以金融资管领域的一类典型的文本处置义务为案例，以对照实验的方式详细地讨论和展示，文本增强手艺在详细产物开发时的主要作用。

4.2. 案例靠山及实验条件

4.2.1. 案例靠山和数据集特点

此案例由前面提到的少样本场景下的某个金融舆情项目抽象出来。其义务目的是，针对金融舆情类的短文本举行所属行业分类，项目中以中信一级行业分类作为分类基准，包罗餐饮旅游、商贸零售、煤炭、纺织服装、农林牧渔、修建、石油石化、家电、通讯、盘算机等 29 个行业种别。

这里展示了几条原始样本，我们可以直观感受一下数据（数据中的数值类指标为虚构数）：

原始数据：【xxx 月报】特点：（1）紧跟物业市场动向，观察各地政策转变；（2）弥补通告内容，跟踪项目中标和收并购。行业：「物业服务」入产业结构激励类目，中消协宣布调查讲述。行业种别：房地产

原始数据：公司有望成为「慢病治理血糖监测药物治疗」三位一体的糖尿病治理大平台企业。维持展望 2001-2002 年 EPS 为 0.2/0.34/0.21 元，同比增进 11/11/11%，现价对应 01~21 年 PE 为 10/10/10 倍，维持「增持」评级。行业种别：医药

原始数据：公司实现飞机起降架次 6 万次，同比增进 4.8%，游客吞吐量 800 万人次，同比增进 4.5%，货邮吞吐量 32.2 万吨，同比增进 0.8%。行业种别：交通运输

在项目初期，我们共搜集和标注的有用数据约为 1900 条。为了充实测试和准确验证算法的性能，在维持种种别数据相对平衡的情形下，我们将数据集随机分为了训练集和测试集。

其中，训练集共包罗 900 条样本，用于模子的训练。测试集包罗约 1000 条数据，仅用来测试模子的泛化误差，不介入模子的训练。

4.2.2. 算法模子

在现实产物中，一样平时会接纳多模子集成以及人工规则等多种方式的连系，以尽可能提高模子的泛化能力。在本文中，为了突出实验重点，我们接纳 TextCNN 网络作为行业分类器 [21]，其网络架构如下图所示：

这里对于 TextCNN 网络简朴做一下先容，对于此模子熟悉的同砚可以直接跳过此部门。如上图所述，TextCNN 网络由基于 word2vec 手艺的词向量层 (Word embedding block)、基于 TextCNN 架构的卷积神经网络层（Multi-CNN block）配合组成。

TextCNN 架构由美国纽约大学的 Kim 教授提出 [21]，该架构的两类基本操作划分是卷积运算和池化运算：

卷积运算本质上是局部区域的加权运算，应用在本模子中可以有用提取文本的局部特征及局部语序信息。通过差异长度卷积核的组合，还可以同时提到取文本中差异距离上的特征信息。

池化运算一方面可以实现降维功效，并保证输出向量的长度不受文本长度转变的影响，另一方面池化操作还可以保证平移稳定性，从而使得文本的要害特征不受到位置的影响。

得益于这两大优势，同时 CNN 网络自然支持并行运算，具备无可比拟的盘算效率优势，因此本模子接纳 CNN 网络作为文本信息特征提取层。值得一提的是，基于工程实践经验以及公然研究效果来看 [22, 23]，卷积神经网络在自然语言处置义务中具备怪异的优势，受到许多大厂的青睐。

本模子的训练样本包罗两个部门：

词向量层的语料训练样本：由各门户网站的新闻语料、各机构宣布的研报、百度百科等文本组成的数亿规模的语料；

整体模子的训练样本：包罗上述的训练集中的 900 条语料、行使数据增强手艺对 900 条原始语料扩充之后获得的语料；

4.3. 实验效果及剖析

本文接下来部门，划分将回译、EDA 和基于 TF-IDF 的词替换这三种数据增强手艺运用在上述案例上，验证三类方式是否有用。

4.3.1. 回译

在回译的详细实现方案上，我们先后实验了两种方案：

方案一：行使开源的中-英、英-中两个翻译模子实现回译变换，在输出选择时，我们同时实验了随机采样和 beam search 两种方式，以实现多倍数的文本增强；

方案二：行使 google 翻译，选用多个中心语种做过渡，以同样实现多倍数的文本增强。如，中-日-英-中，中-法-德-中等。

实验中我们发现，虽然方案一所增强文本的语言厚实度更高，然则方案二所增强的文本在语义准确度和连贯性上更好，因此最终接纳方案二。

原始文本与增强后的文本举例如下：

原始文本：公司有望成为「慢病治理血糖监测药物治疗」三位一体的糖尿病治理大平台企业。维持展望 2001-2002 年 EPS 为 0.2/0.34/0.21 元，同比增进 11/11/11%，现价对应 01~21 年 PE 为 10/10/10 倍，维持「增持」评级。

增强后文本：该公司有望成为具有「慢病治理血糖监测药物治疗」的三位一体糖尿病治理平台公司。维持展望，2001 年至 2002 年每股收益为 0.2 / 0.34 / 0.21 元，比上年增进 11/11/11％。当前价钱是对应于 01-21 PE 的 10/10/10 倍，维持「增持」评级。

在实验参数的选择上，我们重点对于数据集规模、数据增强倍数这两个参数举行了详细的对照实验。整体的实验步骤可归纳综合如下：

步骤一：对训练集中的 900 条样本，运用回译手艺举行文本增强操作，共增强 4 倍（因此行使了 4 种差异的中心语种）；

步骤二：从原始训练集的 900 条样本中随机取 20%、40%、60%、80% 和 100 % 比例的数据，然后夹杂进对应的增强后数据（包罗 0 倍，即不做增强），在差异夹杂倍数下举行模子训练，并纪录最优实验效果；

步骤三：重复步骤二的实验三次，以三次实验的平均值作为最终效果。

最终的实验效果如下：

从上表的效果来看，我们至少可以得出以下几个结论：

第一，从整体来看，无论是在小规模数据下（20% 比例的数据对应约 180 条训练样本）照样在完整训练集下（约 900 条训练样本），回译手艺都可以给模子带来 8~25 个百分点的提升。这个提升有时可以带来质的转变。例如，在比例为 60% 的实验中，无扩充下的模子 F1 值为 0.823，这很难应用在金融领域的产物上。而运用文本增强手艺之后，模子可以到达 0.921，这个显示已经靠近灰度宣布的尺度了。

第二，对比差异倍数下的模子显示可以发现，相对于无扩充时 baseline 的显示，1 倍扩充时给模子带来的新增提升是最显著的，之后新增的倍数带来的模子增益逐渐递减，但纵然接纳 4 倍增强时，模子的性能依然略有提升。思量到回译的实现方式（参看方案二），这可能得益于差异语种之间对于统一语义表达的多样性。

第三，对比差异数据规模下回译带来的模子提升，我们可以发现，随着数据规模增强，回译给 baseline 带来的提升绝对值在逐渐降低，这也验证了前一篇文章中的结论。即，小样本场景下，文本增强手艺给模子带来的提升会加倍显著。

第四，从效果来看，在接纳完全数据集下，在不引入分外数据的情形下，回译手艺辅助模子显示从 0.91 提升到了 0.95，这也充实说明晰回译是一种低成本的数据杠杆。

值得一提的是，回译手艺确实辅助模子在原有数据集上有用地提升了能力，但 embedding 层施展的作用也不可能忽略。此模子用到的 embedding 层在海量通用语料和领域内语料上预训练过，其词典收录了 20 万个词。对于金融领域内的重点词，已经有很好的先验示意。

4.3.2. EDA

在 EDA 增强方案中，我们实验了五种操作，划分是同义词替换，随机插入，随机交流，随机删除和句子位置随机替换。

其中，句子位置随机替换在原始的 EDA 手艺中并不包罗，而是我们在本实验中新加入的一种增强方式。本质上，我们是在表达这样一种先验信心，即对于所处置的金融舆情短文本，其句子泛起的先后顺序并不影响其所属的行业。

关于实现中的几个主要细节：

第一，所操作的词语数，好比每句话同义词替换个数，随机交流个数等凭据公式 n=α L，L 是句子长度，α是替换删除等的比例，经由试验发现 0.1 到 0.2 之间效果最佳。

第二，同义词替换所用的同义词：接纳 word2vec 方式在公然的新闻语料训练的词向量，找出与被替换文本最相似的词语。

第三，五种方式自力使用，也即，对于每一条扩充的样本，只使用了一种增强操作。更花式的组合，人人可以自己实验。

原始文本与增强后的文本举例如下：

原始数据：【周报（12.02-12.08）】：拼多多上线火车票营业，海南离岛购物免税新政三周年销售近 200 亿。（行业种别：餐饮旅游）

同义词替换：【周报（12.02 亿 12.08，】：拼多多上线火车票营业）海南离岛购物免税新政三周年销售近 200 亿。

随机插入：【周报（12.02-12.08）】：拼刷新多多上线火车票营业，海南离岛购物免税新政三周年销售近 200 亿。

随机交流：【服务 200（12.02 近 12.08）】：拼多多上线火车票营业，海南离岛购物免税新政三周年销售-周报亿。

随机删除：【周报（12.02-12.08）】：拼多多上线火车票，海南离岛购物免税新政三周年销售近 200。

随即交流句子位置：海南离岛购物免税新政三周年销售近 200 亿，【周报（12.02-12.08）】：拼多多上线火车票营业。

再次说明，上述文本中的数值为虚构数值，无任何参考意义。

直观来看，经由五项操作之后，新扩充出文本与原始样本的行业种别仍然保持一致。

在实验参数的选择上，与回译类似，我们同样对于数据集规模、数据增强倍数这两个参数举行了详细的实验，步骤可归纳综合如下：

步骤一：对训练集中的 900 条样本，运用五种 EDA 手艺举行文本增强操作，每中操作举行 2 倍，3 倍，4 倍扩充，即每条样本对应扩充 10 倍，15 倍，20 倍；

步骤二、三：与回译实验相同；

实验效果如下：

从表中的效果，EDA 手艺给模子带来的提升整体与回译手艺类似：

第一，无论是在仅有 180 条样本的场景下，照样在完整数据集下，EDA 的运用可以给模子带来 2~30 个百分点不等的提升，数目越小，相对于 baseline 的提升越显著；

第二，运用 EDA 手艺时，较好的增强倍数在 3 倍左右，数据量小时，可适当选择更大的增强倍数；

第三，从表中可以看出，数据集仅为 60% 时，接纳 EDA 举行 2 倍扩充时，模子的显示就已经超过了在完全数据集下不用 EDA 手艺的模子，这也充实说明晰 EDA 的杠杆作用。同时，这一征象，也在 EDA 的原始论文中提到过 [4]；

4.3.3. 基于 TF-IDF 的文本增强

在基于 TF-IDF 增强方案中，主要头脑是基于 TF-IDF 值评估原始样本中各个词对于文本的主要性，在此基础上，用词典中的非焦点词替换掉文中不主要词，以重新天生一段文本。

在构建候选词的字典时，由于原始预料数目较少，我们搜集整理了 4 万多篇研究讲述，只管保证每个行业的讲述数目不少于 1000 篇。同时，思量到研报第一页的内容在漫衍上与原始预料的漫衍最为相似，因此我们以这 4 万多篇研报的第一页来构建字典，并统计响应的词频和 IDF 值，用来统计字典中各词的被替换概率。

下面给出一些原始文本与增强之后文本的对比：

原始样本 1：锦江旅店调研纪要，经济型旅店相比中高端旅店各指标下滑多一点，入住率、单价均有下滑，幅度较之前差不多。近期中端旅店同店 revpar 数据是持平，整体受新开店影响略有下降。

增强后样本 (扩充系数 p=0.1)：齐格勒旅店调研纪要，经济型旅店相比中探访旅店各细目下滑多一点专攻入住率、单价均有下滑，幅度较之前差不多。近期中端旅店同店 revpar 数据是持平，整体受新开店略有下降。

增强后样本 (扩充系数 p=0.3)：201912 锦江旅店每位纪要，经济型旅店相比中高端旅店各指标下滑多一点，入住率熏陶华有下滑，幅度较之前差不多。近期中端旅店同店 revpar 诺思是于长，整体受新町村蓝黛略有下降。

原始样本 2：大秦铁路点评：电煤需求回升或受口岸卸车影响，8 月运量同比 2%。新闻/通告。大秦铁路宣布 9 月份运营数据，公司焦点资产大秦线 9 月份完成货物运输量。

增强后样本 (扩充系数 p=0.1)：大秦铁路点评：电煤需求回升或受口岸卸车影响，8 月运量同比 2%。新闻/通告：大秦铁路宣布 9 月份运营马勒，公司焦点资产大秦线 9 月份完成货物运输。

增强后样本 (扩充系数 p=0.3)：大秦铁路助益：项下不停回升或西递专属卸车影响，8 月运量同比 2%。偿债/通告。大秦铁路形制 10 月份运营数据，滑石封航 cerner 大秦线 9 月份完成招聘。

在实验参数的选择上，我们重点对于数据集规模、数据增强倍数以及扩充比例这三个参数举行了实验。步骤可归纳综合如下：

步骤一：将数据集凭据之前的比例划分为训练集和测试集，并对训练集举行文本增强操作，替换比例划分为 5%，10%，15%，20%，25%，30%；

步骤二、三：与回译实验相同；

实验效果如下，遵照简明扼要、突出矛盾的特点，这里只展示了替换比例为 10% 和 30% 的情形：

从表中的效果可以得出以下结论：

第一，本方式与 EDA 手艺给模子带来的提升类似，即无论是在少样本照样在完整数据集下，本方式都可以给模子带来 3~30 个百分点的提升，样本越少，效果越显著。

第二，对比差异替换比例下的实验效果，p=0.1 的替换比例一样平时会优于 p=0.3 的情形，尤其在小样本下，这种差异会加倍显著。这是由于在 30% 的比例下，文本引入了更多的噪声。然则，二者的差距许多时刻都在 1 个百分点以内，这说明在这类义务下，模子对于噪声的容忍度是很高的。这反过来可以启发我们更好地设计和优化模子。

4.3.4. 三类方式的对比

为了更周全地领会三类方式的特点，我们选取了其中最有代表性的部门实验数据举行了对比：

对比表中的三类方式，开端可以得出以下结论：

第一，三种方式都可以有用辅助模子提升性能。在全数据集下，只要保证足够的增强倍数，三类方式对于模子的提升基本相当。

第二，整体而言，基于 TF-IDF 的增强方式在效果上稍逊于另外两种方式，随着样本量削减，这一差异越发显著。从正则化或者先验假设来看待这个问题：回译手艺在基本保证语义稳定的情形下，可以提供厚实多样的文本表达形式；EDA 手艺则通过五种差异的操作，给模子施加了五类先验信心，例如，文本中的句子应是可以交流的，部门词是可以被替换、删除或者交流位置的。而基于 TF-IDF 的增强方式仅仅告诉了模子不主要词对于文本的行业类型没有孝敬。相对而言，前两类方式给予了模子更多的信息，因而能够给模子更大的提升。

4.3.4. 小结

本文首先先容了金融资管领域文本剖析义务的特点，以金融资管领域一类典型的行业分类义务为案例，在少样本场景下，对三种差异的文本增添手艺举行了详细的实验剖析，证实了回译、EDA 和基于 TF-IDF 词替换方式确实可以作为数据杠杆，在现实营业中撬动模子的性能。

另外，据我们所知，这也是第一次有公然文章单独对基于 TF-IDF 的文本增强手艺的实验剖析。若是有同砚在其他地方发现了更早的实验报道，望见告。

关于本文内容的其他弥补如下：

第一，EDA 或基于 TF-IDF 的词替换方式会在原始样本中引入噪声，并导致一部门语义的丢失，因此这类方式是否有用与详细义务息息相关。在本文的案例中，行业分类属于依赖少数一些要害词的泛起与否即可实现种别划分的义务，对于局部噪声并不敏感。因而，EDA 等手艺才气够有用施展作用；

第二，我们内部正在实验基于 GPT 的 LAMBADA 方式 [5]，并在实验提出一些新的头脑和方式，后面有机遇再和人人分享。

5. 总结

本文回首了文本数据增强手艺（Data Augmentation）近几年的生长情形，重点枚举和讨论了 18 年、19 年中人们最常用到的五类文本增强手艺路径以及对应的代表性手艺，划分是回译 (Back Translation)、随机词替换 (EDA 手艺)、非焦点词替换 (基于 TF-IDF 的词替换)、基于上下文信息的文本增强（C-BERT）以及基于天生语言模子的文本增强 (LAMBADA)，给出了各方式的详细实现方案以及实验效果。简朴总结如下：

第一，从各手艺的实验中来看，无论对于少样本场景照样大样本场景，文本数据增强手艺都能带来分外的增益，尤其在少样本场景下，文本增强手艺往往有奇效，多个实验证实了可以带来 5~20 个百分点的提升；

第二，文中提到的五种手艺都可以自力运用，而且实现起来相对简朴，属于性价比很高的提高模子性能的通用方式。在现实中，人人可以实验团结运用这几种方式。

第三，回译、基于上下文信息的文本增强以及基于 GPT 的文本增强，都行使了外部预训练好的模子作为杠杆来撬动下游义务，因此可以以为这是 NLP 通俗玩家能够享受当前 NLP 手艺快速生长的盈利之一；

最后，从机械学习的角度再简朴谈谈对于文本增强手艺的熟悉，总结上述几类方式，至少可以从四个角度来看待文本增强手艺的有用性：

(1) 正则化：

文本增强手艺无疑是一种有用的正则化方式，无论是回译、EDA、非焦点词替换照样基于上下文的文本增强，本质上都是设计者表达了一种模子偏好，或者对于模子的漫衍施加了较强的先验漫衍假设。其中，回译表达的模子偏好是，模子应该对于差异表达形式但统一语义的文本具有稳定性。EDA、要害词替换等表达的模子偏好则是，模子应该对于文本的局部噪声不敏感。因此，纵然面临少样本场景，在这种正则化下，模子也能够在假设空间中有用的收敛，实现较好的泛化误差。

(2) 迁徙学习：

任何学习都需要有用的外部信息指导，上面所提的部门文本增强手艺的有用性无疑也可以从迁徙学习的角度来明白。无论是回译、基于 GPT-2 的文本增强照样未来有希望的文本气概迁徙，都可以明白为将外部预训练好的模子从其他地方所学习到的信息或者知识迁徙到了当前的义务中，提高了整体数据的信息容量，进而更好地指导当前模子的学习。

(3) 提高模子鲁棒性：

EDA、要害词等手艺除了可以从语义层面的噪声来看待，同时还可以看作是对于输入数据施加一样平时化噪声（与详细义务无关的），实现类似于 dropout 层的功效，而这一思绪已经被各个研究证实，可以一定水平提高模子的鲁棒性。

(4) 流形：

统一类标签的文本可以视为文本空间中某一类流形，因此有用的文本增强手艺应该保证新天生的文本仍然是该流形上的一点。

参考文献

Wei, Jason W., and Kai Zou. "Eda: Easy data augmentation techniques for boosting performance on text classification tasks." arXiv preprint arXiv:1901.11196 (2019).

Anaby-Tavor, Ateret, et al. "Not Enough Data? Deep Learning to the Rescue!." arXiv preprint arXiv:1911.03118 (2019).

Hu, Zhiting, et al. "Learning Data Manipulation for Augmentation and Weighting." Advances in Neural Information Processing Systems. 2019.

Wang, William Yang, and Diyi Yang. "That』s so annoying!!!: A lexical and frame-semantic embedding based data augmentation approach to automatic categorization of annoying behaviors using# petpeeve tweets." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.

Chawla, Nitesh V., et al. "SMOTE: synthetic minority over-sampling technique." Journal of artificial intelligence research16 (2002): 321-357.

Xie, Qizhe, et al. "Unsupervised data augmentation." arXiv preprint arXiv:1904.12848 (2019).

Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep learning. MIT press, 2016.

Sennrich, Rico, Barry Haddow, and Alexandra Birch. "Improving neural machine translation models with monolingual data." arXiv preprint arXiv:1511.06709 (2015).

Edunov, Sergey, et al. "Understanding back-translation at scale." arXiv preprint arXiv:1808.09381 (2018).

Yu, Adams Wei, et al. "Qanet: Combining local convolution with global self-attention for reading comprehension." arXiv preprint arXiv:1804.09541 (2018).

Wei, Jason W., and Kai Zou. "Eda: Easy data augmentation techniques for boosting performance on text classification tasks." arXiv preprint arXiv:1901.11196 (2019).

Kobayashi, Sosuke. "Contextual augmentation: Data augmentation by words with paradigmatic relations." arXiv preprint arXiv:1805.06201 (2018).

Wu, Xing, et al. "Conditional BERT contextual augmentation." International Conference on Computational Science. Springer, Cham, 2019.

Liu, Ting, et al. "Generating and exploiting large-scale pseudo training data for zero pronoun resolution." arXiv preprint arXiv:1606.01603 (2016).

Hou, Yutai, et al. "Sequence-to-sequence data augmentation for dialogue language understanding." arXiv preprint arXiv:1807.01554 (2018).

Dong, Li, et al. "Learning to paraphrase for question answering." arXiv preprint arXiv:1708.06022 (2017).

Radford, Alec, et al. "Improving language understanding by generative pre-training." URL https://s3-us-west-2. amazonaws. com/openai-assets/researchcovers/languageunsupervised/language understanding paper. pdf (2018).

Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI Blog 1.8 (2019): 9.

Hu, Zhiting, et al. "Toward controlled generation of text." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.

Guu, Kelvin, et al. "Generating sentences by editing prototypes." Transactions of the Association for Computational Linguistics 6 (2018): 437-450.

Kim, Yoon. "Convolutional neural networks for sentence classification." arXiv preprint arXiv:1408.5882 (2014).

Strubell, Emma, et al. "Fast and accurate entity recognition with iterated dilated convolutions." arXiv preprint arXiv:1702.02098 (2017).

Tang, Gongbo, et al. "Why self-attention? a targeted evaluation of neural machine translation architectures." arXiv preprint arXiv:1808.08946 (2018).

作者信息

李渔，熵简科技团结创始人，博士结业于清华大学电子工程系，以第一作者身份揭晓学术论文 10 余篇，申请专利 6 项，致力于将先进的自然语言处置及深度学习手艺真正落地于金融资管领域，让科技赋能产业。现在卖力熵简科技 NLP 手艺中台的建设，包罗条理化的分层架构、大数据泛采系统、连续部署的后台支持以及前沿算法的领域内落地等，为熵简科技的各大营业线提供底层手艺支持和可落地的解决方案。

本文为机械之心宣布，转载请联系本民众号获得授权。

------------------------------------------------

加入机械之心（全职记者 / 实习生）：hr@jiqizhixin.com

投稿或追求报道：content@jiqizhixin.com

广告 & 商务互助：bd@jiqizhixin.com

公司新闻

恒达平台官网:_万字长文综述：给你的数据加上杠

恒达登录新闻

关于我们

新闻中心

工程案例

招商加盟

官方诚招-安全无忧

注册联系主管QQ:1015831000

公司新闻

恒达平台官网:_万字长文综述：给你的数据加上杠

恒达登录新闻

关于我们

新闻中心

工程案例

招商加盟

官方诚招-安全无忧

注册联系主管QQ:1015831000