CN111967604A

CN111967604A - 针对基于文本的ai应用的数据增强

Info

Publication number: CN111967604A
Application number: CN202010357329.9A
Authority: CN
Inventors: J·马穆德; 刘喆
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-05-20
Filing date: 2020-04-29
Publication date: 2020-11-20
Also published as: US11568307B2; US20200372404A1; US20200372395A1; US11556842B2

Abstract

本公开的实施例涉及针对基于文本的AI应用的数据增强。认知***(人工智能)通过以下方式被优化：评估用于增强训练数据的不同数据增强方法，然后使用由最佳标识方法增强的训练集对***进行训练。通过将增强方法应用于相同的训练数据集以生成不同的增强训练数据集，增强方法被评估。认知***的相应实例利用增强集进行训练，并且每个实例经受验证测试来评估其优良度。验证测试可以包括导致分量得分的多个验证测试，并且使用每个验证测试的相应权重将组合验证得分计算为分量得分的加权平均。与具有最高组合验证得分的实例相对应的增强方法被选择，作为针对当前特定认知***的最佳增强方法。

Description

针对基于文本的AI应用的数据增强

技术领域

本发明总体上涉及认知***(人工智能)，并且更具体地涉及使用增强训练数据来优化认知***的方法。

背景技术

认知***(有时称为深度学习、深度思考或深度问题解答)是一种使用机器学习和问题解决的人工智能形式。认知***通常采用神经网络，但是存在备选设计。神经网络可以是各种类型的。前馈神经网络是其中单元之间的连接不形成循环的人工神经网络。前馈神经网络是所设计的第一类型也是最简单的人工神经网络。在该网络中，信息仅在一个方向上移动，即，从输入节点向前经过隐藏节点(如果存在)并到达输出节点。网络中没有循环或环路。因此，它不同于递归神经网络。递归神经网络是其中单元之间的连接形成有向循环的一类人工神经网络。这会创建网络的内部状态，从而使其表现出动态的时间行为。与前馈神经网络不同，递归神经网络可以使用其内部存储器来处理任意输入序列。卷积神经网络是基于动物视觉感知的一个特定类型的前馈神经网络，因此在处理图像数据时特别有用。卷积神经网络与普通神经网络相似，但是由具有可学习的权重和偏差的神经元组成。

使用神经网络进行机器学习有很多备选方法，诸如，支持向量机(SVM)。SVM基本上基于训练示例来构建多维数学空间，并在该空间中提供边界，边界允许对输入进行二进制分类(例如，作为“好”答案与“坏”答案)。另一方法涉及贝叶斯网络，贝叶斯网络利用有向无环图来表示变量集。网络然后被用于计算变量之间的概率关系。认知***不限于单个方法的使用，即，它可以并入任何数量的这些和其他机器学习算法。

人工智能的现代实现是IBM Watson^TM认知技术，该技术将高级自然语言处理、信息检索、知识表示、自动推理和机器学习技术应用于开放域问题解答领域。这样的认知***可以依靠现有文档(语料库)并以各种方式对其进行分析以便提取与查询(例如，人、位置、组织和特定对象)相关的答案，或者标识正面和负面情绪。可以使用不同的技术来分析自然语言、标识源、查找和生成假设、对证据进行查找和评分以及对假设进行合并和排名。可以基于大量问题(输入)和答案(输出)对来训练用于对答案进行评分和排名的模型。独立找到相同答案的算法越多，答案就越有可能是正确的，从而得出总得分或置信度。

作为这项工作的一部分，许多***采用某种形式的自然语言处理来为用户提供更直观的界面，以向计算机***发出命令和查询。自然语言处理(NLP)是与计算机和人类(自然)语言之间的交互相关的计算机科学、人工智能和语言学领域。NLP中的许多挑战涉及自然语言理解(即，使得计算机能够从人类或自然语言输入中得出含义)，而其他挑战涉及允许计算机以用户熟悉的方式做出响应的自然语言生成。例如，非技术人员可以向计算机***输入自然语言问题，并且***智能可以提供用户希望能够理解的自然语言答案。使用自然语言处理的高级计算机***的示例包括虚拟助手、互联网搜索引擎以及诸如Watson^TM认知技术的深度问题解答***。

认知***的一个重要方面是对于确保***的质量至关重要的训练和验证。所使用的训练类型取决于所涉及的认知***的特定类型。对于基于文本的***，训练数据可以采取问答对的形式，即，具有对应答案的问题，答案被标识为正确(“好”)或不正确(“差”)。对于基于图像的***，训练数据可以是图像/对象对，即，具有被标识为动物、植物或无生命对象的主体的输入图片。对于基于听觉的***，训练数据可以使用被标识为人类语音、交通工具声音或环境听觉特征的音频片段。训练数据通常由主题专家为特定领域的认知***提供。具体提供训练数据的方式也可能与认知***的类型有关。例如，在NLP***中，输入数据可能要经过文本分析。文本分析在关于NLP的领域中是已知的，并且通常使用文本注释程序来相对于所定义的标签集对文本进行分析。文本注释器可以在文档中生成语言注释来标记可能埋藏在文本中的概念和实体。其他形式的分析用于其他类型的认知***(例如，基于图像或基于听觉的认知***)。

图1示出了用于训练和验证认知***11的通用过程10。认知***11获取训练数据12的集合，并将其应用于其输入算法来从数据中进行学习。训练数据集因此用于帮助形成***逻辑的基础(例如，调整神经网络上的权重)。结果是经训练的认知***14。验证数据15的集合然后可以被提交给经训练的认知***14。验证集可以被用来将过度拟合最小化，即，不必调整网络的权重，而只是在训练数据上验证准确度。存在多种验证测试可以用于此目的。结果是验证得分18，其表示是否可能需要附加训练。测试集还可以被用于评估最终***设置(未示出)，以便确认网络的实际预测能力。

训练认知***优选地涉及数百或数千个输入示例的使用。因此，构建良好的训练集并不总是那么容易。设计人员为解决此问题而设计的一种方法是，采用已被认为对训练有用的现有数据集，并以各种方式对数据进行增强。例如，可以使用参考源(同义词库)将语句中的一个或多个单词替换为同义词来创建新语句。另一方法是交换某些单词或以其他方式更改单词顺序，诸如，将“他在2018年得了流感”改为“在2018年，他得了流感”。还有许多其他常规的数据增强方法。

发明内容

本发明在至少一个实施例中总体上涉及通过以下方式来优化对认知***的训练的方法：接收适于训练认知***的类型的训练数据集；将多个不同的数据增强方法应用于训练数据集以生成多个增强训练数据集；利用增强训练数据集来训练认知***的相应实例；验证每个经训练的实例以获得多个验证得分，每个验证得分与数据增强方法中的相应一个数据增强方法相关联；根据验证得分，对数据增强方法进行排名；基于排名来选择数据增强方法中的最佳数据增强方法；以及使用最佳数据增强方法来训练认知***的最终实例。对于其中认知***是基于文本的实施例，数据增强方法可以包括基于词典的文本替换、Word2Vec文本生成、语句复述和反向翻译。选择可以是自动的，选择具有最高验证得分的数据增强方法。在说明性实现中，验证包括将多个不同的验证测试应用于给定训练实例来确定针对给定训练实例的多个相应分量得分，并且验证得分是分量得分的组合。例如，验证得分可以是使用每个验证测试的相应权重的分量得分的加权平均。在其中认知***是基于文本的实施例中，验证测试可以包括句法变化、语法质量、可读性、准确度增益和词汇增益。一旦认知***已经被如此优化，它就可以执行其预期的操作，诸如，接收用户查询并响应地为用户查询提供答案的深度问/答***。

在以下详细的书面描述中，本发明的各个实施例中的上述以及其他目标、特征和优点将变得明显。

附图说明

通过参考附图，可以更好地理解本发明，并且其各种实施例的众多目的、特征和优点对于本领域技术人员而言是明显的。

图1是针对认知***的常规训练和验证过程的框图；

图2是根据本发明的一个实现的计算机***的框图，计算机***被编程为执行认知***的训练和验证；

图3是根据本发明的一个实现的数据增强评估过程的框图；

图4是示出根据本发明的一个实现的可以如何使用不同的验证测试和权重以获得针对特定数据增强方法的组合验证得分的框图；

图5是描绘根据一个实现的具有通过使用特定的增强训练集而被优化的深度问题解答***的本发明的示例性应用的框图；以及

图6是图示根据本发明的一个实现的用于选择用于训练认知***的最佳数据增强方法的自动化过程的逻辑流程的流程图。

在不同附图中使用相同的附图标记表示相似或相同的项。

具体实施方式

如上所述，数据稀疏性是训练机器学习算法的常见问题。研究人员已针对诸如文本、图像和语音的各个领域探索了增强数据的技术。然而，用于数据增强的现有方法仅以特定方式提供附加数据，其中选择特定数据增强方法和增强数据的量是任意的。对于一个认知***可能是良好的增强的内容不一定是对另一不同认知***的良好的增强。尽管一些***由于数据增强而显示出准确度的改进，但没有***的方法可以确定特定认知***的最佳数据增强方法。

因此，期望设计用于对认知***进行训练的增强数据的改进方法，该方法可以应用具有不同参数的增强方法集、控制验证过程并为特定认知***选择最佳增强模型。如果该方法可以按照自动化方式操作，将是进一步有利的。本发明在其各种实施例中通过以下方式来实现这些以及其他优点：从借助增强方法选择、参数变化以及用于增强的训练集大小变化而被生成的候选增强模型的集合中计算优良的增强模型，并且借助特征集，针对每个增强模型计算良率得分。数据科学家提供输入训练和测试数据、针对特定应用(例如，业务或工程问题)的机器学习模型、初始的增强方法集以及可选地与每个增强方法相关联的参数集。数据增强引擎应用输入中指定的增强方法集，并使用所指定的参数/规则来选择待增强的数据、增强数据并生成经增强的训练数据集。针对每个增强数据集，训练机器学习模型。验证引擎然后通过应用不同的测试集(其可以包括原始测试集和包含增强词汇或其他特征的增强测试集)来为每个增强模型计算得分集。每个增强模型因此得到得分集，诸如，原始测试集的基础模型的准确度增益、增强测试集的基础模型的准确度增益、与基础模型相比的词汇增益、增强数据的语法质量、增强数据的句法变化、增强数据的可读性等。这些得分可以被加权以形成组合得分；权重可以经由单独的机器学习而被确定。该组合得分表示每个增强模型的优良度。排名引擎根据每个增强模型的得分对它们进行排名，并将经排名的列表返回给数据科学家。数据科学家可以选择排名最高的增强模型，或者通过根据需要改变参数来重新运行增强评估。备选地，该过程可以自动选择具有最高组合得分的增强模型。

现在参考附图，具体是参考图2，描绘了其中可以实现本发明来执行针对认知***的数据增强方法的评估的计算机***的一个实施例20。计算机***20是具有连接到***总线24的多个处理器22a、22b的对称多处理器(SMP)***。***总线24还被连接到组合的存储器控制器/主机桥接器(MC/HB)26，组合的存储器控制器/主机桥接器26提供到***存储器28的接口。***存储器28可以是本地存储器设备或者备选地可以包括多个分布式存储器设备，优选是动态随机存取存储器(DRAM)。存储器分层结构中可以存在未描绘的附加结构，诸如，板载(L1)和第二级(L2)或第三级(L3)高速缓存。***存储器28在其中加载了根据本发明的一个或多个应用，诸如，作为训练主体的特定认知***或人工智能(AI)、各种增强引擎、一个或多个训练数据集以及被适应当前特定类型的认知***的一系列验证测试。

MC/HB 26还具有到***组件互连(PCI)快速链路30a、30b、30c的接口。每个PCI快速(PCIe)链路30a、30b被连接到相应的PCIe适配器32a、32b，并且每个PCIe适配器32a、32b被连接到相应的输入/输出(I/O)设备34a、34b。MC/HB 26可以附加地具有到I/O总线36的接口，I/O总线36被连接到交换机(I/O结构)38。交换机38为I/O总线向多个PCI链路30d、30e、30f提供扇出(fan-out)。这些PCI链路被连接到更多的PCIe适配器32c、32d、32e，PCIe适配器32c、32d、32e进而支持更多的I/O设备34c、34d、34e。I/O设备可以包括但不限于键盘、图形指示设备(鼠标)、麦克风、显示设备、扬声器、永久存储设备(硬盘驱动器)或这种存储设备的阵列、接收诸如CD或DVD的光盘35(计算机可读存储介质的一个示例)的光盘驱动器以及网卡。每个PCIe适配器在PCI链路和相应的I/O设备之间提供接口。MC/HB 26提供了低时延路径，处理器22a、22b可以借助低时延路径来访问总线存储器或I/O地址空间内任何地方映射的PCI设备。MC/HB 26还提供了高带宽路径，以允许PCI设备访问存储器28。交换机38可以在不同端点之间提供对等通信，并且如果该数据流量不涉及高速缓存相干的存储器传输，则该数据流量不需要被转发到MC/HB 26。交换机38被示出为单独的逻辑组件，但其可以被集成到MC/HB 26中。

在该实施例中，PCI链路30c将MC/HB 26连接到服务处理器接口40，以允许I/O设备34a与服务处理器42之间通信。服务处理器42经由JTAG接口44被连接到处理器22a、22b并使用警示线46，警示线46中断处理器22a、22b的操作。服务处理器42可以具有其自己的本地存储器48，并且被连接到只读存储器(ROM)50，只读存储器50存储用于***启动的各种程序指令。服务处理器42还可以访问硬件操作员面板52来提供***状态和诊断信息。

在备选实施例中，计算机***20可以包括对这些硬件组件或其互连或附加组件的修改，因此所描绘的示例不应被解释为暗示关于本发明的任何架构限制。本发明可以进一步在等效的云计算网络中被实现。

当计算机***20最初启动时，服务处理器42使用JTAG接口44来询问***(主机)处理器22a、22b和MC/HB26。在完成询问之后，服务处理器42获取计算机***20的详细目录和拓扑。服务处理器42然后在计算机***20的组件上执行各种测试，诸如，内置的自测(BIST)、基本保证测试(BAT)和存储器测试。通过服务处理器42向操作员面板52报告测试期间所检测到的故障的任何错误信息。如果在测试期间取出发现有故障的任何组件之后仍然有可能对***资源进行有效配置，则允许计算机***20继续运行。可执行代码被加载到存储器28中，并且服务处理器42释放主机处理器22a、22b来执行程序代码(例如，用于启动应用、特别是本发明的数据增强评估程序的操作***(OS))，其结果可以存储在***的硬盘驱动器(I/O设备34)中。当主机处理器22a、22b正执行程序代码时，服务处理器42可以进入监测和报告任何操作参数或错误(诸如，冷却风扇的速度和操作、热传感器、电源调节器以及由处理器22a、22b、存储器28和MC/HB 26中的任一个报告的可恢复和不可恢复的错误)的模式。服务处理器42可以基于错误的类型或所限定的阈值来采取进一步的行动。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括其上具有用于使得处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可以是可以保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光学存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括以下内容：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、机械编码设备(诸如，打孔卡或其上记录有指令的凹槽中的凸起结构)以及上述内容的任何合适组合。如本文所使用的，计算机可读存储介质不应被理解为本身是瞬态信号(诸如，无线电波或其他自由传播的电磁波、借助波导传播的电磁波)或其他传输介质(例如，传递通过光纤电缆的光脉冲)或通过电线传输的电信号。

本文中描述的计算机可读程序指令可以从计算机可读存储介质被下载到相应的计算/处理设备，或者经由网络(例如，互联网、局域网、广域网和无线网络)被下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光学传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编程序指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或源代码或以一种或多种编程语言(包括面向对象的编程语言(例如，Java、Smalltalk、C++等)以及常规过程编程语言(例如，“C”编程语言或类似编程语言))的任意组合编写的对象代码。计算机可读程序指令可以完全在用户计算机上执行、部分在用户计算机上执行、作为独立软件分组执行、部分在用户计算机上并且部分在远程计算机上或完全在远程计算机或服务器上执行。在后一情况下，远程计算机可以借助任何类型的网络(包括局域网(LAN)或广域网(WAN))被连接到用户的计算机，或者可以与外部计算机进行连接(例如，借助使用互联网服务提供方的互联网)。在一些实施例中，包括例如可编程逻辑电路装置、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路装置可以通过利用计算机可读程序指令的状态信息将电子电路装置个性化，来执行计算机可读程序指令，以便执行本发明的各方面。

本文参考根据本发明的实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或用于产生机器的其他可编程数据处理装置的处理器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的部件。这些计算机可读程序指令还可以被存储在计算机可读存储介质中，计算机可读存储介质可以以特定方式引导计算机、可编程数据处理装置和/或其他设备，使得其中存储有指令的计算机可读存储介质包括制品，制品包括实现在流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得一系列操作步骤在计算机、其他可编程装置或其他设备上被执行来产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图图示了根据本发明的各个实施例的***、方法和计算机程序产品的可能实现的架构、功能性和操作。在这方面，流程图或框图中的每个框可以表示包括用于实现指定的(多个)逻辑功能的一个或多个可执行指令的模块、片段或指令部分。在一些备选实现中，框中指出的功能可以不按图中指出的顺序发生。例如，根据所涉及的功能性，实际上可以基本上同时执行连续示出的两个框，或者有时可以以相反的顺序执行这些框。还应注意，框图和/或流程图的每个框以及框图和/或流程图的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的***实现。

计算机***20执行用于评估过程的程序指令，该评估过程使用新颖的方法来标识给定认知***的最佳增强方法。因此，体现本发明的程序可以附加地包括各种认知***工具的常规方面(包括数据增强方法)，并且这些细节对于本领域技术人员在参考本公开后将变得明显。

现在参考图3，描绘了根据本发明的一个实现的增强评估环境60。环境60具有训练数据62的至少一个集合；并且如将在下面进一步解释的，可以在更高级的实现中使用多个不同的训练集。训练数据62可以是适合于待优化的认知***的任何形式，并且由数据科学家提供。训练数据62由多个增强引擎作用。在该示例中，仅描绘了四个引擎64a-64d，但是可以存在更多(或更少)的引擎。每个增强引擎根据特定的增强方法论来增强训练数据62，以产生经增强的训练数据66a-66d，即，第一增强引擎生成增强的训练数据的第一集合，第二增强引擎生成增强的训练数据的第二集合等。被评估的特定增强方法也可以由数据科学家选择。

对于基于文本的认知***(例如，自然语言文本或从语音至文本转录获得的文本)，以下增强方法被认为是示例性的，而不是限制性的。增强引擎64a使用基于词典的替换来增强训练数据62；增强引擎64b使用文本生成来增强训练数据62；增强引擎64c使用复述语句来增强训练数据62；并且增强引擎64d使用反向翻译来增强训练数据62。

在基于词典的增强中，数据科学家提供了词典，词典包含单词的同义词和指示训练数据的需要增强的部分的规则集。一个这样的词典的示例是英语单词网词典(包含单词的同义词)。对于基于词典的增强，通过由单词的同义词替换单词，从每个语句生成增强集的不同变型。

在另一实施例中，使用Word2Vec或其他语言模型，利用文本替换来执行文本增强。Word2Vec模型标识文本中单词之间固有的上下文相互依赖。它是用于学习单词的矢量表示的基于神经网络的技术，并有助于发现术语空间中相关单词占据的有意义子空间。

在用于文本增强的另一实施例中，数据增强方法从原始语句生成复述语句。可以使用现有技术的复述生成方法。该引擎可以进一步实现具有受控语句属性的端到端自动生成方法。特别是在情绪控制的文本生成领域中存在现有方法。

在另一实施例中，语句可以被翻译成另一语言，并且被翻译回原始语言来生成新的语句。通过使用这种基于反向翻译的方法，可以在不丢失输入语句的语义的情况下，添加变型。由于翻译的中间语言可能很多，因此这还会生成每个输入语句的变型集合。(多个)特定语言可以再次由数据科学家选择。

数据增强方法也可以是这些方法或其他方法的组合。可以使用混合增强方法，在混合增强方法中，使用方法1来增强训练数据62的一部分，使用方法2来增强训练数据62的另一部分，依此类推。对训练数据的一部分的特定增强方法的选择可以随机进行，也可以由数据科学家指定作为输入参数。

尽管这些是用于基于文本的AI的示例性增强方法，但本领域技术人员将理解，还存在其他常规的增强方法可用于其他类型的认知***(非文本)。

因此，给定训练集，引擎应用各种数据增强方法，各种数据增强方法由数据科学家在训练集上给出作为输入，以获得经增强的训练集。对于待应用的每个方法，他们可以附加地生成训练集的不同变型或子集(例如，训练数据的随机样本的10％、训练数据的随机样本的50％、训练数据的100％、具有输入标签“1”的训练数据的5％、具有输入标签“2”的训练数据的5％等)。数据增强方法然后可以被应用于具有针对特定方法的选定参数的每个这样的变型。数据科学家还给出了如何生成训练集的不同变型作为输入。如果没有为增强方法指定参数，则增强引擎选择可以是上述任意参数的默认参数集。

每个增强训练数据集66a-66d然后被应用于基本认知***68来训练***的多个单独实例。基本认知***68可以是原始***(即，没有在前训练)或者可以是已经历过某些训练的***。因此，图3的该示例的结果是四个认知***实例70a-70d。如下面结合图4进一步所述，这些认知***实例中的每一个然后进行验证测试72，从而为每个认知***实例产生至少一个验证得分。然后，所有认知***实例的得分74可以被比较(排名)，以确定哪个实例看似已经从数据增强中获得最大的改进。

图4示出了可以如何使用多个变化的验证测试来将验证测试80应用于给定的认知***实例，以获得组合验证得分的一个示例。这些测试可以例如但不限于包括句法变型82a、语法质量82b、可读性82c、准确度增益82d和词汇增益82e及其变型。所有这些测试都是常规测试，但也可以使用新的验证测试。

句法变型测试82a指代增强模型(认知***)的句法的变型。句法通常指代语句的结构、特别是单词顺序。可以使用多种技术(诸如，添加新的二元模型或新的三元模型)来计算句法变型。通过为每个语句构造依赖性解析树，还可以使用语句长度和依赖性结构中的变化。

可以借助现有技术的语法质量检查算法来评估增强模型的语法质量，语法质量检查算法返回跨各种语法维度的质量得分集，语法维度例如为，拼写错误的百分比、标点错误的百分比、介词错误的百分比等。当针对增强数据的所有语句计算语法质量得分时，它们可以被平均以得到所有维度的单个得分。

借助现有技术的可读性检查器来计算可读性，可读性检查器为任何给定语句提供可读性得分(例如，可读性指数)。所有语句的得分可以再次被平均，以获得总体可读性得分。

准确度增益可以涉及若干不同的变型，诸如，与基础模型对原始测试集相比的准确度增益或基础模型对经增强的测试集的准确度增益。基础模型对原始测试集的准确度增益是应用原始模型和增强模型时，对原始测试集的准确度的差异。原始测试集的增强模型用于基于增强模型对该测试集的预测来计算准确度得分。对原始模型也进行相同的操作，并且差异是准确度增益。该差异可以为正、零或负(意味着准确度降低)。作为示例，对于预测文本情绪的业务问题，原始训练数据可能包含一万个示例，测试数据可能包含一千个示例，并且模型可以基于支持向量机。原始模型(从原始训练数据中训练)对原始测试数据的准确度可能为70％。现在，如果一万个示例由另五千个示例增强(经增强的训练数据包含一万五千个示例)，则增强的模型对一千个测试数据示例的准确度可能为74％。

因此，准确度增益为4％。

基础模型对增强测试集的准确度增益是应用原始模型和增强模型时，对增强测试集的准确度差异。例如，如果原始测试集具有一千个示例并且由另五百个示例增强，则增强测试集具有一千五百个示例。原始模型对增强测试集的准确度可能为72％，而增强模型对增强测试集的准确度可能为75％，因此准确度增益为3％。在另一方法中，通过采用增强词并从各种源(诸如，社交媒体、电子邮件、文章、新闻)收集包含这些词的语句来创建测试集。然后对语句进行注释(例如，使用常规文本注释器)，并将增强模型应用于它们来预测结果。基于增强模型对该测试集的预测以及原始模型的预测来计算准确度得分。该差异是准确度增益。

词汇增益指代原始模型和增强模型的词汇覆盖率的差异。例如，如果原始模型的词汇为2万个单词，而增强模型的词汇为25000个单词，则词汇增益为5000(或25％)。

验证测试的每一个均产生单独的分量得分。这些得分可以以各种方式被组合，以得出针对特定增强方法的组合验证得分。在得分已被归一化的简单实现中，可以取得分的平均值。然而，在优选的实现中，组合验证得分84是各个得分与每个测试的相应权重的组合，即，得分的加权平均。这样的权重表示每个增强方法的优良度。因此，数据科学家可以设置这样的权重/优良度。在另一实施例中，可以经由机器学习来确定权重/优良度，其中数据科学家对用于增强的权重/优良度模型(这是单独的认知***)进行训练。为了训练机器学习模型，数据科学家可以针对特定应用(诸如，业务问题)随时间收集良好(例如，标记为“1”)和不良(例如，标记为“0”)增强模型的基础真实示例。一旦经训练，这样的优良度模型就返回特定增强模型的优良度得分(即，权重)。

一旦针对每个增强模型计算了组合验证得分84，就可以对它们进行排名，并经由计算机***10的显示设备或其他I/O设备呈现给数据科学家。为了便于说明，排名列表还可以示出特定增强模型的组合验证得分的每个分量。数据科学家可以基于这些得分来选择数据增强方法(即，用于训练最佳增强模型的增强方法)。备选地，计算机***10可以通过选择与最高排名的验证得分相对应的方法来自动选择增强方法。

在选择最佳增强方法后，可以将其用于为认知***构建更全面的训练数据集。图5示出了可以在同一计算机***10上被执行的用于深度问/答***的一个示例应用90。所选择的数据增强方法92被应用于训练集94(在这种情况下是深度问/答训练集)。该训练集94可以与用于增强评估的较早训练集62相同，但是在说明性实现中，它是不同的训练集。特别地，针对不同增强方法的验证测试使用的训练数据可能是有限的，而最终认知***的训练数据则更为全面。结果是经增强的训练数据集96，经增强的训练数据集96随后用于训练认知***，从而产生经优化的深度问/答***98。用户可以例如以自然语言形式向经优化的深度问/答***98提交查询。然后，经优化的深度问/答***98的NLP引擎可以处理查询并将其应用于经训练的***来提供一个或多个答案。

参考图6的图表，可以进一步理解本发明，图6图示了用于评估针对认知***训练数据的数据增强方法的自动化过程100的逻辑流程，该逻辑流程也可以在诸如计算机***10的计算机***上被执行。当计算机***10接收到认知***的训练数据集时，评估过程100开始(102)。训练数据采用适合于所涉及的特定认知***的形式，例如，基于文本的AI的问/答对。使用各种增强技术来生成多个经增强的训练数据集(104)。经增强的训练数据集也可以是单个增强方法的不同变型(其中一个或多个参数变化)。利用第一增强训练数据集来训练认知***(106)。所涉及的训练的性质再次取决于认知***的特定类型，例如，基于文本的AI可以使用诸如文本注释器、解析树生成器等的工具来对输入变量进行分类。不同的验证测试被应用于经训练的认知***(108)。每个验证测试产生得分，并且得分优选地与权重组合，以得出当前方法的组合验证得分，组合验证得分然后被存储(110)。如果还存在要测试的更多的增强方法(112)，则过程移动至下一增强训练数据集(114)，并在框106处迭代地继续利用下一集合来训练认知***。一旦所有增强训练数据集已被处理，就根据增强方法的组合验证得分对增强方法进行排名(116)。备选地，如返回框102的虚线箭头所示，可以使用不同的训练数据集来重复进行到此为止的整个过程(可以对来自不同训练集的组合验证得分取平均，以获得每个增强方法的总体得分)。然后选择最佳增强方法来进行部署(118)。该选择可以是自动的(即，选择具有最高组合得分的增强方法)或者是手动的(即，在查看不同的得分及其分量之后，令***设计者选择该方法)。所选择的增强方法然后被用于完全训练认知***来进行常规操作(120)。图6的流程因此产生了经优化的认知***，经优化的认知***然后可以用于其预期的应用，例如，图5所示的深度Q/A***。

因此，本发明提供了用于在认知***的训练中进行数据增强的高级方法。如上所述，这样的训练对于认知***的正确操作至关重要，并且本身构成了技术领域。训练认知***可以被认为是诸如通过锐化刀片来改进工具的性能。可以使用各种器具来磨削刀片，但是有些器具会产生更锋利的边缘。本发明因此表示对认知***训练技术领域的显著改进。在至少一些实施例中，本发明还允许整个过程被自动化，使得可以针对现有的特定认知***可靠地标识最佳增强方法。

尽管已参考特定实施例描述了本发明，但是该描述并不意味着以限制性的意义来解释。在参考本发明的描述之后，所公开的实施例的各种修改以及本发明的备选实施例对于本领域技术人员将变得明显。例如，本发明不限于基于文本的AI应用。只要有足够的数据增强方法可用于这样的***，它可以与其他类型的认知***(基于图像、基于听觉等)一起使用。因此，预期在不脱离所附权利要求所限定的本发明的精神或范围的情况下，可以进行这样的修改。

Claims

1.一种优化对认知***的训练的方法，包括：

接收适用于训练所述认知***的类型的训练数据集；

将多个不同的数据增强方法应用于所述训练数据集，以生成多个增强训练数据集；

利用所述增强训练数据集来训练所述认知***的相应实例；

验证每个经训练的实例以获得多个验证得分，每个验证得分与所述数据增强方法中的相应数据增强方法相关联；

根据所述验证得分，对所述数据增强方法进行排名；

基于所述排名来选择所述数据增强方法中的最佳数据增强方法；以及

使用所述最佳数据增强方法来训练所述认知***的最终实例。

2.根据权利要求1所述的方法，其中所述认知***是基于文本的，并且所述数据增强方法至少包括基于词典的文本替换、Word2Vec文本生成、语句复述和反向翻译。

3.根据权利要求1所述的方法，其中所述选择自动选择了所述数据增强方法中具有最高验证得分的一个数据增强方法。

4.根据权利要求1所述的方法，其中所述验证包括将多个不同的验证测试应用于给定的经训练实例，以确定针对所述给定的经训练实例的多个相应分量得分，并且所述验证得分是所述分量得分的组合。

5.根据权利要求4所述的方法，其中所述验证得分是使用每个验证测试的相应权重的所述分量得分的加权平均。

6.根据权利要求4所述的方法，其中所述认知***是基于文本的，并且所述多个验证测试至少包括句法变型、语法质量、可读性、准确度增益和词汇增益。

7.根据权利要求1所述的方法，其中所述认知***是深度问/答***，并且还包括：

在所述认知***的所述最终实例处接收用户查询；以及

使用所述认知***的所述最终实例提供对所述用户查询的答案。

8.一种计算机***，包括：

处理程序指令的一个或多个处理器；

被连接到所述一个或多个处理器的存储器设备；以及

驻留在所述存储器设备中的程序指令，所述程序指令用于通过以下方式来优化对认知***的训练：接收适用于训练所述认知***的类型的训练数据集；将多个不同的数据增强方法应用于所述训练数据集，以生成多个增强训练数据集；利用所述增强训练数据集来训练所述认知***的相应实例；验证每个经训练的实例以获得多个验证得分，每个验证得分与所述数据增强方法中的相应数据增强方法相关联；根据所述验证得分，对所述数据增强方法进行排名；基于所述排名来选择所述数据增强方法中的最佳数据增强方法；以及使用所述最佳数据增强方法来训练所述认知***的最终实例。

9.根据权利要求8所述的计算机***，其中所述认知***是基于文本的，并且所述数据增强方法至少包括基于词典的文本替换、Word2Vec文本生成、语句复述和反向翻译。

10.根据权利要求8所述的计算机***，其中所述选择自动选择了所述数据增强方法中具有最高验证得分的一个数据增强方法。

11.根据权利要求8所述的计算机***，其中所述验证包括将多个不同的验证测试应用于给定的经训练实例，以确定针对所述给定的经训练实例的多个相应分量得分，并且所述验证得分是所述分量得分的组合。

12.根据权利要求11所述的计算机***，其中所述验证得分是使用每个验证测试的相应权重的所述分量得分的加权平均。

13.根据权利要求11所述的计算机***，其中所述认知***是基于文本的，并且所述多个验证测试至少包括句法变型、语法质量、可读性、准确度增益和词汇增益。

14.根据权利要求8所述的计算机***，其中所述认知***是深度问/答***，并且还包括：

在所述认知***的所述最终实例处接收用户查询；以及

15.一种计算机程序产品，包括：

计算机可读存储介质；以及

驻留在所述存储介质中的程序指令，所述程序指令用于执行根据权利要求1至8中任一项所述的方法中的步骤。

16.一种计算机***，所述计算机***包括用于执行根据权利要求1至8中任一项所述的方法中的步骤的模块。