CN110458207A

CN110458207A - 一种语料意图预测方法、语料标注方法及电子设备

Info

Publication number: CN110458207A
Application number: CN201910669701.7A
Authority: CN
Inventors: 陈鑫; 肖龙源; ***; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-11-15

Abstract

本发明涉及自然语言处理技术，提供了一种语料意图预测方法，所述方法包含步骤：基于预处理后的样本，训练得到N个预测模型；分别基于各所述预测模型对待预测语料进行预测，得到N个预测结果；基于所述N个预测结果匹配预设规则，确定所述待预测语料对应的意图信息；其中，所述N为大于等于3的奇数；所述预设规则包含:若所述N个预测结果中存在相同预测结果，且相同的个数大于N/2，那么确定所述相同预测结果为所述待预测语料对应的意图信息。基于本实施例所提供的方法，实现对语料的意图预测，并提升了预测准确度，从而可大幅度的减少重复的人工处理工作。此外，本发明还提供了一种语料标注方法和电子设备。

Description

一种语料意图预测方法、语料标注方法及电子设备

技术领域

本发明涉及自然语言处理技术，尤其涉及一种语料意图预测方法、语料标注方法及电子设备。

背景技术

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。传统的语料库主要应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。随着互联网大数据及人工智能技术的发展，语料库也被广泛的应用。

语料库有三点特征，语料库中存放的是在语言的实际使用中真实出现过的语言材料，例如直接从网页上获取的用户留言、客服对话等；语料库是承载语言知识的基础资源，但并不等于语言知识；真实语料需要经过加工，才能成为有用的资源，对真实语料的加工可包含除脏数据、语义标注、词性标记等，而在对语料进行标注时，往往需要主要靠人工对各个语料数据进行标注，由于语料数据中往往会包含大量的重复的语料数据，导致需要耗费大量人工在重复的语料标注上。

以意图识别分类器的训练语料为例，通常在使用监督学习算法训练一个医美行业意图识别分类器时，需要大量标注好的语料。其中标注工作多数以人工标记为主，大多数情况下，语料事先没有做一些处理，会存在大量的重复数据，如果没有对这些重复数据进行过滤，一是影响标注效率，二是浪费人力。

发明内容

为了解决上述问题，本发明的实施例提供了一种语料意图预测方法，所述方法包含步骤：基于预处理后的样本，训练得到N个预测模型；分别基于各所述预测模型对待预测语料进行预测，得到N个预测结果；基于所述N个预测结果匹配预设规则，确定所述待预测语料对应的意图信息；其中，所述N为大于等于3的奇数；所述预设规则包含:若所述N个预测结果中存在相同预测结果，且相同的个数大于N/2，那么确定所述相同预测结果为所述待预测语料对应的意图信息。

在一实施中，所述样本的预处理方法包含：收集初始语料数据；基于正则表达式对所述初始语料数据进行意图识别；选择N等份包含目标意图的所述初始语料数据；对所述N等份初始语料数据进行分词，并文本向量化，得到N等份所述样本。

在一实施中，所述基于正则表达式对所述初始语料数据进行意图识别的方法，包括：收集意图信息及对应的关键词；基于所述目标意图和所述对应的关键词构建所述正则表达式。

在一实施中，所述选择N等份包含目标意图的所述初始语料数据的方法包含：确定所有所述初始语料数据中包含的所述目标意图；分别将包含相同目标意图的所述初始语料数据均分为N等份，分别从包含不同目标意图的所述初始语料数据中选择一份进行合并，得到所述N等份包含目标意图的所述初始语料数据。

在一实施中，所述基于预处理后的样本，训练得到N个预测模型进行训练的方法包含：基于不同的算法构建N个初始预测模型；分别基于所述预处理后的样本对各个所述初始预测模型进行训练，得到所述N个预测模型。

在一实施中，所述方法更包含步骤：周期性的对各所述预测模型进行迭代训练；当各所述预测模型的准确率超过预设阈值时，可退出迭代训练；其中，若所述相同的个数小于N/2，则记录所述样本及所述样本对应的进行人工识别结果，作为各所述预测模型的迭代样本；若所述相同的个数大于N/2，则记录所述样本及所述相同的预测结果，作为所述预测结果不同的所述预测模型的迭代样本。

由此可见，通过本发明提供的语料意图预测方法可实现对语料数据的自动预测，已获得对应的意图信息，从而节省人工成本，提升数据处理效率。本发明所提供的语料意图预测方法可基于N个预测模型对待预测语料进行预测，并基于预测结果通过投票制来确定待预测语料的意图信息，以提升预测结果的准确性。更进一步的，在构建N个预测模型的过程中，不仅选用了不同的算法来进行初始预测模型的构建，更是对训练样本也进行了预处理，以保证了样本的均衡性，从而提升预测结果的准确性。同时，通过周期性的迭代，可不断提升预测模型的预测精度，不仅可保证预测结果的准确性，还可适应预测语料的扩展需求。

此外，本发明还提供一种语料标注方法，所述方法包含步骤：基于上述语料意图预测方法，对所述原始语料进行意图预测，获得所述意图信息；基于所述意图信息对所述待处理语料进行标注。从而为人工标注提供辅助参考。

本发明另提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述语料意图预测方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1绘示本发明第一实施例所提供的语料意图预测方法流程图；

图2绘示本发明第一实施例中的样本预处理方法流程图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明所提供的第一实施例为一种语料意图预测方法，以下将结合图示对所述方法进行详细说明。

请参照图1，图1绘示本发明第一实施例所提供的语料意图预测方法流程图。

如图1所示，本发明所提供的语料预处理的方法包含以下步骤：

步骤101，基于预处理后的样本，训练得到N个预测模型。

本发明实施例主要是依赖于多个预测模型来实现意图识别，其中N为大于等于3的奇数，在预测模型的构建过程中，训练样本的获取可基于图2所示的方法，图2绘示本发明第一实施例中的样本预处理方法流程图。

如图2所示，所述样本的预处理方法可包含以下步骤：

步骤201，收集初始语料数据。

其中，语料数据可从网络、业务数据库等途径获得，优选的，可基于实际应用的需求，选则应用场景相关的语料数据作为初始语料数据，在获得初始语料数据后，可先对其进行筛选、清洗等操作，以过滤无效的数据，本发明的实施例并不对数据清洗的具体的处理方式任何限定，故不再赘述。

步骤202，基于正则表达式对所述初始语料数据进行意图识别。

由于初始语料数据中，可能包含非目的数据，即不包含目标意图信息的数据。具体而言，在实际的应用场景中，有效的意图信息是有限的，所谓有效是指机器可对其进行处理的，故在对初始语料数据进行意图识别时，可基于正则表达式来实现。

其中，所述正则表达式的构建方法可包括：收集意图信息及对应的关键词，基于目标意图和所述对应的关键词构建所述正则表达式。

举例而言，包含询问价格意图的语料中，可能包含的关键词有：费用、花销、花钱、大概、一般、需要、总共、可能，以及多少、好多、多钱，那么可构建对应的正则表达式：

(费用|花销|花钱|大概|一般|需要|总共|可能).*(多少|好多|多钱)

基于此，可通过人工或者其他方式对应用场景中的语料(即行业语料)进行归纳，总结得到各目标意图信息对应的关键词，从而构建出用于识别目标意图信息的正则表达式，并基于该些正则表达式分别对初始语料数据进行识别，以确定出初始语料数据对应的目标意图信息，其中目标意图可基于初始语料数据中所包含的全部意图进行选择，也可以基于实际的需求进行设定。基于行业语料来收集意图及关键词可更适用应用场景，可快速获取到目标意图，使得训练出的模型的预测结果在目标范围内。

在本发明的其他实施例中，正则表达式可以是基于更大范围的语料数据总结得到的，关键词的收集更完整，从而可提升正则表达式的识别准确度。

步骤203，选择N等份包含目标意图的所述初始语料数据。

通过上述正则表达式的识别，可从初始语料数据中，确定出各初始语料数据对应的目标意图，从而可基于目标意图对初始语料数据进行筛选，具体的过程可包含：确定所有初始语料数据中包含的目标意图；分别将包含相同目标意图的初始语料数据均分为N等份，分别从包含不同目标意图的初始语料数据中选择一份进行合并，得到N等份包含目标意图的初始语料数据。

举例而言，10000条初始语料数据经过正则表达式的识别后，确定出有4000条初始语料数据中包含的目标意图为“询问价格”，2000条初始语料数据中包含的目标意图为“优惠查询”，3000条初始语料数据中包含的目标意图为“产品咨询”，400条初始语料数据中包含的目标意图为“售后咨询”，以及600条无效数据，即不包含目标意图的数据。若N等于4，那么，可分别将各目标意图类型的数量分成4等份，再分别合并为一份数据，也就是说，每份数据中将包含1000条询问价格的语料、500条优惠查询的语料、750条产品咨询的语料和100条售后咨询的语料，进而得到4等份包含目标意图的初始语料数据。对初始语料数据进行均分，可在一定程度上保证样本的完整性。

步骤204，对所述N等份初始语料数据进行分词，并文本向量化，得到N等份所述样本。

在得到N等份初始语料数据后，分别对各初始语料数据进行分词和文本向量化，以得到N等份样本，用于预测模型的训练。

通过上述步骤201至204所述的方法，可对训练样本的预处理，从而可提升样本的有效性和完整性。

获得了N等份预处理后的样本后，可基于该些样本对预测模型进行训练，具体包含：

首先，基于不同的算法构建N个初始预测模型。

其中，初始预测模型可分别基于二分类、多分类、或深度学习算法进行构建，包括：朴素贝叶斯、支持向量机、随机森林、xgboost、卷积神经网络等，算法的具体选取可根据实际需求，本发明的实施例并不做任何限定。

然后，分别基于预处理后的样本对各个初始预测模型进行训练，得到所述N个预测模型。

具体而言，上述N等份样本可分别用于一个初始预测模型的训练，也就是说，各个初始预测模型所使用的训练样本并不相同，但数量、以及所包含的目标意图是一致的。具体的训练方法可按需选择现有的模型训练方法，本发明的实施例并不作任何限制。

通过上述方式，可基于预处理后的样本，训练得到N个预测模型。

步骤102，分别基于各所述预测模型对待预测语料进行预测，得到N个预测结果。

在对待预测语料进行预测时，可先分别基于N个预测模型对待预测语料进行预测，从而得到N个预测结果。

步骤103，基于所述N个预测结果匹配预设规则，确定所述待预测语料对应的意图信息。

可以理解的是，由于N个预测模型分别是基于不同的算法构建而成的，且训练样本也不相同，故模型的预测精度会存在一定差别，因此，获得的N个预测结果可能会存在差异，例如，各不相同或者全部相同，因此，为了提升预测结果的准确性，可采取投票制，来确定待预测语料所对应的意图信息。

具体而言，预设规则可包含：若N个预测结果中存在相同预测结果，且相同的个数大于N/2，那么确定相同预测结果为待预测语料对应的意图信息。

也就是说，可基于N个预测结果，采取投票制，来确定待预测语料对应的意图信息，但为了更进一步的保证结果的准确性，可设定阈值，来确定N个预测结果中是否存在正确的意图，在本实施例中，阈值为N/2，也就是说，当大于半数的预测结果相同时，才能确定待预测语料的意图信息，若预测结果中相同的个数不超过半数，则无法确定出正确的意图信息，那么该次预测则被视为无效。

在本发明的所提供的实施例中，针对每条待预测语料的预测结果都可被记录下来，用于后续的模型迭代。

具体而言，由于N个预测模型在基于初始样本进行训练之后，即投入使用，在预测的准确性上还存在较大的提升空间，为了进一步保证预测结果的准确性，可周期性的对各预测模型进行迭代训练。每次迭代训练所使用的样本可包含初次训练所使用的样本，以及从预测结果中得到的记录。

具体而言，在预测结果中，若相同的个数小于N/2，则记录所述样本及样本对应的进行人工识别结果，作为各预测模型的迭代样；若相同的个数大于N/2，则记录样本及相同的预测结果，作为预测结果不同的预测模型的迭代样本。

如此，基于上述样本，再分别对各预测模型进行迭代训练，当各预测模型的准确率超过预设阈值时，可退出迭代训练，并开始新一轮的语料预测。可以理解的是，在新一轮的语料预测中，同样可能获得迭代样本，用于下一次的迭代训练，而新类型的待预测语料的加入，也可在一定程度上对预测模型的预测范围进行了扩展。

其中，迭代周期的设定，可基于固定的时间周期，也可基于实际的数据量或从预测结果中获得的迭代样本的数量来确定。

若经过几轮迭代训练之后，各预测模型的预测结果基本保持一致，则可停止迭代。

通过上述语料预处理的方法，可实现对待预测语料进行预测，以获得对应的意图信息，可节省人工识别的成本，提升数据处理效率。

基于同样的发明构思，本发明的第二实施例提供了一种语料标注方法。所述方法具体可包含：

首先，对待处理语料进行意图信息识别，以获得对应意图信息，其中，意图信息识别的具体方法可参照图1实施例所提供的语料意图预测方法，故在此不再赘述。

然后，基于得到的意图信息，对待处理语料进行标注。

通过本实施例所提供的方法，可实现语料意图的自动识别和自动标注，从而获得已标注的语料数据，可直接供其他应用场景使用，或供人工标注参考，以提升人工标注速率。

本发明另一实施例涉及一种电子设备，包括至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行图1所示实施例中的语料意图预测方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明又一实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时，实现上述方法实施例。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语料意图预测方法，其特征在于，所述方法包含步骤：

基于预处理后的样本，训练得到N个预测模型；

分别基于各所述预测模型对待预测语料进行预测，得到N个预测结果；

基于所述N个预测结果匹配预设规则，确定所述待预测语料对应的意图信息；

其中，所述N为大于等于3的奇数；

所述预设规则包含:

若所述N个预测结果中存在相同预测结果，且相同的个数大于N/2，那么确定所述相同预测结果为所述待预测语料对应的意图信息。

2.如权利要求1所述的方法，其特征在于，所述样本的预处理方法包含：

收集初始语料数据；

基于正则表达式对所述初始语料数据进行意图识别；

选择N等份包含目标意图的所述初始语料数据；

对所述N等份初始语料数据进行分词，并文本向量化，得到N等份所述样本。

3.如权利要求2所述的方法，其特征在于，所述基于正则表达式对所述初始语料数据进行意图识别的方法，包括：

收集意图信息及对应的关键词；

基于所述目标意图和所述对应的关键词构建所述正则表达式。

4.如权利要求2所述的方法，其特征在于，所述选择N等份包含目标意图的所述初始语料数据的方法包含：

确定所有所述初始语料数据中包含的所述目标意图；

分别将包含相同目标意图的所述初始语料数据均分为N等份，分别从包含不同目标意图的所述初始语料数据中选择一份进行合并，得到所述N等份包含目标意图的所述初始语料数据。

5.如权利要求1所述的方法，其特征在于，所述基于预处理后的样本，训练得到N个预测模型进行训练的方法包含：

基于不同的算法构建N个初始预测模型；

分别基于所述预处理后的样本对各个所述初始预测模型进行训练，得到所述N个预测模型。

6.如权利要求1所述的方法，其特征在于，所述方法更包含步骤：

周期性的对各所述预测模型进行迭代训练；

当各所述预测模型的准确率超过预设阈值时，可退出迭代训练；

其中，若所述相同的个数小于N/2，则记录所述样本及所述样本对应的进行人工识别结果，作为各所述预测模型的迭代样本；

若所述相同的个数大于N/2，则记录所述样本及所述相同的预测结果，作为所述预测结果不同的所述预测模型的迭代样本。

7.一种语料标注方法，其特征在于，所述方法包含步骤：

基于权利要求1至6中任一项所述的语料意图预测方法，对待处理语料进行意图预测，获得所述意图信息；

基于所述意图信息对所述待处理语料进行标注。

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一所述的语料意图预测方法。