CN110188204B

CN110188204B - 一种扩展语料挖掘方法、装置、服务器及存储介质

Info

Publication number: CN110188204B
Application number: CN201910501365.5A
Authority: CN
Inventors: 周辉阳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2022-10-04
Anticipated expiration: 2039-06-11
Also published as: CN110188204A

Abstract

本申请提供一种语料挖掘方法、装置、服务器及存储介质，基于预训练的语料预测模型对语料在目标领域的评分确定语料是否为目标领域中的模糊语料(即，第一候选语料，该语料可能属于目标领域也可能不属于目标领域)；若语料是目标领域的第一候选语料则通过生活化语料集对第一候选语料进行扩展，得到与第一候选语料相似度最高的生活化的第二候选语料；以通过二分类模型确定候选语料(候选语料包括第二候选语料)是否真的属于目标领域的扩展语料。本申请不需要逐一匹配关键字、标准语料或标准模板，因此，相对于现有技术可以降低耗时提高扩展语料挖掘效率，并且基于对第一候选语料相似度最高的生活化的第二语料的扩充，实现了对扩展语料的深入挖掘。

Description

一种扩展语料挖掘方法、装置、服务器及存储介质

技术领域

本发明涉及语料挖掘技术领域，更具体地说，涉及一种扩展语料挖掘方法、装置、服务器及存储介质。

背景技术

在领域建设过程中，领域预测模型占据非常重要的角色，领域预测模型可以预测语料所属领域，为产品的智能化提供技术基础。领域预测模型的能力往往依赖于语料样本，语料样本这一分支中扩展语料对领域预测模型的泛化性和召回能力有着决定性的作用，扩展语料指的是属于某一个领域，但是在该领域不常见的语料。

现有技术在挖掘领域的扩展语料的过程中，常用的是关键字挖掘技术、语料相似度挖掘技术和模板相似度挖掘技术。其中，关键字挖掘技术主要是将领域的实体作为关键字，通过关键字召回扩展语料(比如，音乐领域的关键字为“首”，通过关键字挖掘技术可能召回的扩展语料为“来一首歌曲”)；语料相似度挖掘技术主要是在确定语料与领域的语料库中的任一标准语料匹配时，确定语料为该领域的扩展语料；模板相似度挖掘技术主要是将语料中的实体替换成变量得到语料模板，在语料模板与领域的模板库中的任一标准模板匹配时，确定语料为该领域的扩展语料。

虽然现有技术可以实现对扩展语料的挖掘，但是却通常存在如下问题：1、需要逐一匹配关键字、标准语料或标准模板，耗时较长，扩展语料挖掘效率低；2、挖掘出的扩展语料趋于同质化，即，挖掘出的扩展语料趋近于关键字、语料库中的标准语料或者模板库中的标准模板，不能实现对扩展语料的深入挖掘。

发明内容

有鉴于此，为解决上述问题，本发明提供一种扩展语料挖掘方法、装置、服务器及存储介质，以在降低扩展语料挖掘耗时、提高挖掘效率的基础上，实现对扩展语料的深入挖掘。技术方案如下：

一种扩展语料挖掘方法，包括：

根据预训练的领域预测模型对语料在目标领域的评分确定所述语料是否属于所述目标领域的第一候选语料；

若所述语料属于所述目标领域的第一候选语料，从生活化语料集的至少一个语料中确定一个与所述第一候选语料相似度最高的第二候选语料；

利用预训练的所述目标领域的二分类模型确定候选语料是否为所述目标领域的扩展语料，所述二分类模型以属于所述目标领域的语料为正样本，不属于所述目标领域的语料为负样本训练分类算法得到，所述候选语料包括所述第二候选语料。

一种扩展语料挖掘装置，包括：

第一候选语料确定单元，用于根据预训练的领域预测模型对语料在目标领域的评分确定所述语料是否属于所述目标领域的第一候选语料；

第二候选语料确定单元，用于若所述语料属于所述目标领域的第一候选语料，从生活化语料集的至少一个语料中确定一个与所述第一候选语料相似度最高的第二候选语料；

扩展语料确定单元，用于利用预训练的所述目标领域的二分类模型确定候选语料是否为所述目标领域的扩展语料，所述二分类模型以属于所述目标领域的语料为正样本，不属于所述目标领域的语料为负样本训练分类算法得到，所述候选语料包括所述第二候选语料。

一种服务器，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现所述扩展语料挖掘方法。

一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行所述扩展语料挖掘方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种服务器的硬件结构框图；

图2为本申请实施例提供的一种领域预测模型的生成方法流程图；

图3为本申请实施例提供的一种领域预测模型校验方法流程图；

图4为本申请实施例提供的一种目标领域的二分类模型的生成方法流程图；

图5为本申请实施例提供的一种扩展语料挖掘方法流程图；

图6为本申请实施例提供的一种根据预训练的领域预测模型对语料在目标领域的评分确定语料是否属于目标领域的第一候选语料的方法流程图；

图7为本申请实施例提供的一种利用预训练的目标领域的二分类模型确定候选语料是否为目标领域的扩展语料的方法流程图；

图8为本申请实施例提供的一种扩展语料挖掘装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

本申请实施例提供一种扩展语料挖掘方法，基于本申请实施例提供的扩展语料挖掘方法可以避免现有技术在实现扩展语料挖掘时存在的扩展语料挖掘耗时长、挖掘效率低，以及挖掘出的扩展语料与关键字、标准语料或者标准模板趋于同质化，挖掘不深入的问题。

为了便于对本申请实施例提供的一种扩展语料挖掘方法的理解，现先对扩展语料进行说明。

语料可以理解为是用户的搜索语句，包含用户的语音、文字、图片输入等等。

扩展语料指的是属于某一个领域，但是在该领域不常见的语料。比如，针对音乐领域，人们常说的语料一般是“我想听歌”、“播放热门歌曲”“来一首音乐”......由此可见音乐领域的常见关键字如下：“首”、“歌”、“歌曲”、“听”、“音乐”、“播放”......但是在现实生活中，人们的问法和需求是多种多样的，我们不可能要求大家听歌曲都这么说，一千个人眼里有一千个哈姆雷特，即使是同样一个需求，人们也有成千上万种说法。人们在不同的场景下会有相同的需求，但是却有着不同的说法，比如有的人想听音乐，他可能会说“我觉得爵士比较适合这个天气”，“我心情比较低落，来点欢快的吧”，“我比较喜欢布鲁斯的风格”......可以看出用户说这些话的意图很明显是想听歌曲，但是却没有包含任何常见的关键词。第一句“我觉得爵士比较时候这个天气”，这个话特别容易被天气领域兜住，因为它还有天气领域的关键词“天气”。由此可见，扩展语料的挖掘对于划清领域界限，提升领域预测模型对语料所属领域分类的准确性有很重要的作用。

扩展语料的挖掘对于智能产品的智能化程度的建设占有举足轻重的作用。如果我们希望智能产品能更懂用户，能更加明白、贴近用户的心声，能明白用户在不同语境下的真实诉求，那么更深入、高效的挖掘扩展语料就成为了必经之路。

上文中涉及到了领域预测模型，领域预测模型可以认为是语义分类器，用深度学习算法学习出来的预测语料属于哪个领域、意图的分类器。

将语料输入至领域预测模型，领域预测模型可以得到语料分别在不同领域的概率，以此来进一步确定出语料所属的领域。

上述实施例对一种扩展语料挖掘方法的基础内容进行了说明，现从扩展语料的挖掘方式进一步进行阐述。

本申请实施例提供的一种扩展语料挖掘方法可应用于服务器，该服务器可以是网络侧为用户提供服务的服务设备，其可能是多台服务器组成的服务器集群，也可能是单台服务器。

可选的，图1示出了服务器的硬件结构框图，参照图1，服务器的硬件结构可以包括：处理器11，通信接口12，存储器13和通信总线14；

在本发明实施例中，处理器11、通信接口12、存储器13、通信总线14的数量均可以为至少一个，且处理器11、通信接口12、存储器13通过通信总线14完成相互间的通信；

处理器11可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器13可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，程序用于：

根据预训练的领域预测模型对语料在目标领域的评分确定语料是否属于目标领域的第一候选语料；

若语料属于目标领域的第一候选语料，从生活化语料集的至少一个语料中确定一个与第一候选语料相似度最高的第二候选语料；

利用预训练的目标领域的二分类模型确定候选语料是否为目标领域的扩展语料，二分类模型以属于目标领域的语料为正样本，不属于目标领域的语料为负样本训练分类算法得到，候选语料包括第二候选语料。

可选的，程序的细化功能和扩展功能可参照下文描述。

为了便于对适用于上述服务器的扩展语料挖掘方法的理解，现对本申请实施例提供的一种扩展语料挖掘方法进行详细介绍。

本申请实施例提供的一种扩展语料挖掘方法在实施过程中，需要用到预训练的领域预测模型和预训练的二分类模型，现先从领域预测模型和二分类模型的生成方法进行说明。

领域预测模型可以认为是语义分类器，其用来预测语料所属的领域。通过领域预测模型的生成过程可以生成预训练的领域预测模型。

参见图2为本申请实施例提供的一种领域预测模型的生成方法流程图。

如图2所示，该方法包括：

S201、获取至少一个训练样本，至少一个训练样本包括多个领域中分别属于每个领域的语料；

领域预测模型可以认为包括了很多子模型，不同的子模型对应的领域不同。在通过领域预测模型对语料进行预测时，可以针对每个领域得到语料属于该领域的概率，进而将概率最大的领域确定为语料所属的领域。

在生成领域预测模型时，需要获取至少一个训练样本，每个训练样本可以认为是一个语料，至少一个训练样本中包括多个领域中分别属于每个领域的语料。比如，多个领域为天气领域、音乐领域、地理领域时，获取的至少一个训练样本包括天气领域的语料、音乐领域的语料和地理领域的语料。

S202、基于至少一个训练样本对待训练逻辑回归算法进行训练，得到初始领域预测模型；

在本申请实施例中，可以基于至少一个训练样本对待训练逻辑回归算法进行训练，以得到初始领域预测模型，该初始领域预测模型可以实现对语料所属领域的预测，但是为了提高其对语料所属领域的预测的准确性，本申请实施例还可以进一步对该初始领域预测模型进行训练得到对语料所属领域预测更准确的领域预测模型，具体训练过程参见下面步骤S203-S207。

S203、获取至少一个语料样本；

在本申请实施例中，可以获取至少一个语料样本，语料样本可以认为是智能产品在应用时，应用智能产品的用户向智能产品中输入的语料。

S204、检测初始领域预测模型对语料样本在领域的评分是否位于第二阈值范围内，第二阈值范围与初始领域预测模型对领域的门阈值相关；

在本申请实施例中，基于至少一个训练样本对待训练逻辑回归算法进行训练得到的初始领域预测模型可以提供该初始领域预测模型分别对每个领域的门阈值。比如，在多个领域为天气领域、音乐领域、地理领域时，获取的至少一个训练样本包括天气领域的语料、音乐领域的语料和地理领域的语料，基于至少一个训练样本对待训练逻辑回归算法进行训练得到初始领域预测模型，该初始领域预测模型提供天气领域的门阈值、音乐领域的门阈值和地理领域的门阈值。比如，天气领域的门阈值为0.6，音乐领域的门阈值为0.7，地理领域的门阈值为0.4。

本申请实施例提供的一种扩展语料挖掘方法是为了寻找领域的扩展语料，也就是要找属于一个领域但是不常见的语料。那么它可能在什么区间分布呢？研究人员通过研究发现其与初始领域预测模型对领域的门阈值有关，是位于领域的门阈值附近的区间。比如，天气领域的门阈值为0.6，那也就是说在天气领域的概率在0.6附近的语料都很模糊，是很难分辨的语料，其有可能属于天气领域，也有可能不属于天气领域。这个区间的语料可能是我们需要的扩展语料，此时我们需要把他们获取到。比如，我们可以预设一个上下浮动的区间阈值0.1，则与天气领域的门阈值相关的第二阈值范围为0.5-0.7；与音乐领域的门阈值相关的第二阈值范围为0.6-0.8；与地理领域的门阈值相关的第二阈值范围为0.3-0.5。以上仅仅是本申请实施例提供的区间阈值的优选方式，有关区间阈值的具体数值发明人可根据自己的需求进行设置，比如设置成0.11、0.2、0.25等等，在此不做限定。

将语料样本输入至初始领域预测模型，得到初始领域预测模型对语料样本在天气领域的评分(即，语料样本属于天气领域的概率，比如，0.55)、初始领域预测模型对语料样本在音乐领域的评分(即，语料样本属于音乐领域的概率，比如，0.9)、初始领域预测模型对语料样本在地理领域的评分(即，语料样本属于地理领域的概率，比如，0.45)。

S205、若初始领域预测模型对语料样本在领域的评分位于第二阈值范围内，将语料样本确定为领域的目标语料样本；

基于上述对步骤S204的详细描述可知：初始领域预测模型对语料样本在天气领域的评分为0.55，与天气领域的门阈值相关的第二阈值范围为0.5-0.7，则初始领域预测模型对语料样本在天气领域的评分位于与天气领域的门阈值相关的第二阈值范围0.5-0.7内，则将语料样本确定为天气领域的目标语料样本；初始领域预测模型对语料样本在音乐领域的评分为0.9，与音乐领域的门阈值相关的第二阈值范围为0.6-0.8，则初始领域预测模型对语料样本在音乐领域的评分没有位于与音乐领域的门阈值相关的第二阈值范围0.6-0.8内，则确定语料样本不为音乐领域的目标语料样本；初始领域预测模型对语料样本在地理领域的评分为0.45，与地理领域的门阈值相关的第二阈值范围为0.3-0.5，则初始领域预测模型对语料样本在地理领域的评分位于与地理领域的门阈值相关的第二阈值范围0.3-0.5内，则确定语料样本为地理领域的目标语料样本。

进一步的，在本申请实施例中，若初始领域预测模型对语料样本在领域的评分不位于第二阈值范围内，确定语料样本不为领域的目标语料样本，进而不生成与该语料样本对应的训练样本。

S206、响应用户对目标语料样本所属领域的标定操作，生成与目标语料样本对应的训练样本；

基于上述对步骤S205的详细描述可知：可以确定语料样本为天气领域的目标语料样本以及确定语料样本为地理领域的目标语料样本；可以显示此内容，由用户确定目标语料样本是否真的为天气领域的目标语料，若是，标定该目标语料样本属于天气领域，相应的，可以响应用户对该目标语料样本的标定操作，生成与该目标语料样本对应的训练样本，该训练样本为被标定为属于天气领域的语料样本；并且，还可以由用户确定目标语料样本是否真的为地理领域的目标语料，若是，标定该目标语料样本属于地理领域，相应的，可以响应用户对该目标语料样本的标定操作，生成与该目标语料样本对应的训练样本，该训练样本为被标定为属于地理领域的语料样本。

在本申请实施例中，若用户确定该目标语料样本既属于天气领域又属于地理领域，则可以基于该目标语料样本生成一个与天气领域对应的训练样本以及生成一个与地理领域对应的训练样本。

S207、基于所生成的训练样本对初始领域预测模型进行更新训练，得到预训练的领域预测模型。

本申请实施例提供的一种领域预测模型生成方法，在生成训练样本后，还可以进一步根据生成的训练样本对初始领域预测模型进行更新训练，以得到预训练的领域预测模型。

更进一步的，为了提高本申请实施例提供的一种预训练的领域预测模型对语料的处理效率，还可以采用优化内存、启用多进程等方式。

基于本申请实施例预训练的领域预测模型，可以实现对目标领域的扩展语料的挖掘，并且，在挖掘出目标领域的扩展语料后，还可以进一步将目标领域的扩展语料确定为训练样本，以基于所确定的训练样本对领域预测模型进行进一步的更新训练。

在本申请实施例中，目标领域可以为天气领域、音乐领域、地理领域等等，在挖掘出音乐领域的扩展语料后，可以将该音乐领域的扩展语料确定为训练样本，以基于该训练样本对领域预测模型进行进一步的更新训练。

更进一步的，本申请实施例在生成预训练的领域预测模型后，还可以进一步对所生成的领域预测模型进行校验，以验证领域预测模型的输出结果是否准确。

图3为本申请实施例提供的一种领域预测模型校验方法流程图。

如图3所示，该方法包括：

S301、获取至少一个测试语料，测试语料携带领域信息；

在本申请实施例中，将确定出的目标领域的扩展语料作为测试语料，用来实现对领域预测模型的校验。此时，目标领域的扩展语料所携带的领域信息指示的第二领域便是该目标领域。

S302、根据预训练的领域预测模型对测试语料分别在每个领域的评分，预测测试语料所属的第一领域；

在本申请实施例中，可以将测试语料输入到领域预测模型，得到测试语料分别在每个领域的评分，进而将评分最高的领域确定为测试语料所属的第一领域。

比如，若预训练的领域预测模型是根据音乐领域的语料、地理领域的语料和天气领域的语料训练逻辑回归算法得到的，那么在将测试语料(该测试语料携带的领域信息指示的第二领域为音乐领域)输入到预训练的领域预测模型后，得到的结果包括：测试语料在音乐领域的评分1，测试语料在天气领域的评分2，以及测试语料在地里领域的评分3；若评分1、评分2和评分3中评分2最高，则可以认为测试语料所属的第一领域是天气领域，通过比较发现第一领域(天气领域)和第二领域(音乐领域)不同，则说明预训练的领域预测模型的输出结果不准确，需要进行进一步训练。

若预训练的领域预测模型是根据音乐领域的语料、地理领域的语料和天气领域的语料训练逻辑回归算法得到的，那么在将测试语料(该测试语料携带的领域信息指示的第二领域为音乐领域)输入到预训练的领域预测模型后，得到的结果包括：测试语料在音乐领域的评分1，测试语料在天气领域的评分2，以及测试语料在地里领域的评分3；若评分1、评分2和评分3中评分1最高，则可以认为测试语料所属的第一领域是音乐领域，通过比较发现第一领域(音乐领域)和第二领域(音乐领域)相同，则说明预训练的领域预测模型的输出结果准确。

S303、基于预测的测试语料所属的第一领域和测试语料携带的领域信息指示的第二领域，校验领域预测模型。

本申请实施例可以通过至少一个测试语句对预训练的领域预测模型进行校验，以即时发现领域预测模型的问题，保证领域预测模型输出结果的准确性，进而提高本申请实施例提供的一种扩展语料挖掘方法的准确性。

上述实施例提供了语料预测模型的生成方式，现在对目标领域的二分类模型的生成方法进行详细说明。

参见图4为本申请实施例提供的一种目标领域的二分类模型的生成方法流程图。

如图4所示，该方法包括：

S401、获取属于目标领域的语料和不属于目标领域的语料；

在本申请实施例中，目标领域可以为音乐领域、可以为天气领域，也可以为地理领域等等。本申请实施例可以针对不同的目标领域生成与该目标领域对应的二分类模型，即，该目标领域的二分类模型。比如，可以生成音乐领域的二分类模型，可以生成天气领域的二分类模型，可以生成地理领域的二分类模型等等。

在生成目标领域的二分类模型时，首先需要获取训练样本，此时该训练样本为属于目标领域的语料和不属于目标领域的语料。

S402、将属于目标领域的语料作为正样本，不属于目标领域的语料作为负样本，对分类算法进行训练，得到目标领域的二分类模型。

在本申请实施例中，在生成目标领域的二分类模型时，可以将属于目标领域的语料看成是正样本，将不属于目标领域的语料看成是负样本，进而根据正样本和负样本对分类算法进行训练，以得到目标领域的二分类模型。

其中，分类算法可以为Xgboost(eXtreme Gradient Boosting，极端梯度提升)算法，以上仅仅是本申请实施例提供的分类算法的优选方式，有关分类算法的具体内容发明人可根据自己的需求进行设置，在此不做限定。比如，分类算法可以为bert算法、SVM(Support Vector Machine，支持向量机)算法、LR(Logistic Regression)算法、LSTM(LongShort-Term Memory，长短期记忆网络)算法等等。

进一步的，本申请实施例提供的一种扩展语料挖掘方法，可以利用目标领域的二分类模型实现对目标领域的扩展语料的挖掘，并且，在挖掘出目标领域的扩展语料后，还可以进一步将目标领域的扩展语料作为正样本对当前该目标领域的二分类模型进行更新训练。

上述实施例对本申请实施例提供的预训练的领域预测模型和目标领域的二分类模型的生成过程进行了详细介绍，现从基于预训练的领域预测模型和目标领域的二分类模型对目标领域的扩展语料进行挖掘的角度，对本申请实施例提供的一种扩展语料挖掘方法进行详细说明。

图5为本申请实施例提供的一种扩展语料挖掘方法流程图。

如图5所示，该方法包括：

S501、根据预训练的领域预测模型对语料在目标领域的评分确定语料是否属于目标领域的第一候选语料；

在本申请实施例中，语料可以为智能产品在应用时，应用智能产品的用户向智能产品中输入的语料。

在挖掘目标领域的扩展语料时，可以将语料输入到预训练的领域预测模型，可以得到领域预测模型对语料在目标领域的评分。即，领域预测模型可以输出语料属于目标领域的概率。比如，在目标领域为音乐领域时，可以将语料输入到预训练的领域预测模型，得到领域预测模型对语料在音乐领域的评分。即，得到语料属于音乐领域的概率；进而，基于语料属于音乐领域的概率，可以确定该语料是否属于音乐领域的第一候选语料。

在本申请实施例中，确定语料是否属于音乐领域的第一候选语料的方式可以为：确定预训练的领域预测模型对音乐领域的门阈值，根据预设的上下浮动的区间阈值，生成与音乐领域的门阈值相关的第一阈值范围；检测预训练的领域预测模型对语料在音乐领域的评分是否位于第一阈值范围内，若是，确定语料属于音乐领域的第一候选语料，若否，确定语料不属于音乐领域的第一候选语料。

比如，在确定预训练的领域预测模型对音乐领域的门阈值为0.5，预训练的领域预测模型对语料在音乐领域的评分为0.45时，若预设的上下浮动的区间阈值为0.1，则生成的与音乐领域的门阈值相关的第一阈值范围为0.4-0.6，此时预训练的领域预测模型对语料在音乐领域的评分为0.45位于与音乐领域的门阈值相关的第一阈值范围为0.4-0.6内，则说明该语料为音乐领域的第一候选语料。

S502、若语料属于目标领域的第一候选语料，从生活化语料集的至少一个语料中确定一个与第一候选语料相似度最高的第二候选语料；

为了提高扩展语料挖掘的深入性，在确定语料为目标领域的第一候选语料后，我们可以基于该第一候选语料召回更多生活化的语料，进而基于生活化的语料来提高扩展语料挖掘的深入性。

具体的，本申请实施例可以设置一个生活化语料集，生活化语料集中的语料为偏生活化的语料，该生活化语料集中包括至少一个语料。在本申请实施例中生活化语料集中语料的来源可以是从搜狗问答对中爬取的语料、从百度问答对中爬取的语料、一些开源平台提供的生活化的闲聊语句。该生活化语料集可以定时更新或实时更新，以使得其更加贴近于当前人们的日常生活化语句。

在确定语料为目标领域的第一候选语料后，可以通过ES(ElasticSearch，搜索服务器)检索从生活化语料集的至少一个语料中确定一个与第一候选语料相似度最高的第二候选语料。

ES：ElasticSearch是一个基于Lucene的搜索服务器，它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

S503、利用预训练的目标领域的二分类模型确定候选语料是否为目标领域的扩展语料，二分类模型以属于目标领域的语料为正样本，不属于目标领域的语料为负样本训练分类算法得到，候选语料包括第二候选语料。

在本申请实施例中，在确定语料为目标领域的第一候选语料，从生活化语料集中确定与第一候选语料相似度最高的第二候选语料后，可以利用预训练的该目标领域的二分类模型确定该第二候选语料是否为目标领域的扩展语料。

具体的，预训练的目标领域的二分类模型提供对该目标领域的门阈值，将第二候选语料输入到该预训练的目标领域的二分类模型，得到该目标领域的二分类模型对该第二候选语料在该目标领域的评分(即，该第二候选语料属于该目标领域的概率)，在该评分大于该门阈值时，可以认为该第二候选语料为该目标领域的扩展语料，在该评分不大于该门阈值时，可以认为该第二候选语料不为该目标领域的扩展语料。

在本申请实施例中，在基于目标领域的二分类模型确定第二候选语料为目标领域的扩展语料后，还可以进一步由用户确定该第二候选语料是否真正的为目标领域的扩展语料，以进一步保证挖掘出的扩展语料的准确性。

本申请实施例中，预训练的目标领域的二分类模型提供对该目标领域的门阈值，进一步的，本申请实施例提供的一种扩展语料挖掘方法还可以将第一候选语料输入到该预训练的目标领域的二分类模型，得到该目标领域的二分类模型对该第一候选语料在该目标领域的评分(即，该第一候选语料属于该目标领域的概率)，在该评分大于该门阈值时，可以认为该第一候选语料为该目标领域的扩展语料，在该评分不大于该门阈值时，可以认为该第一候选语料不为该目标领域的扩展语料。

在本申请实施例中，在基于目标领域的二分类模型确定第一候选语料为目标领域的扩展语料后，还可以进一步由用户确定该第一候选语料是否真正的为目标领域的扩展语料，以进一步保证挖掘出的扩展语料的准确性。

本申请可以利用预训练的目标领域的二分类模型确定候选语料是否为目标领域的扩展语料，其中，候选语料包括第二候选语料(即，一个第二候选语料可以看成是一个候选语料)，或者，候选语料包括第一候选语料和第二候选语料(即，一个第一候选语料可以看成是一个候选语料，一个第二候选语料也可以看成是一个候选语料)。

在本申请实施例中，在候选语料包括第二候选语料时，若目标领域的二分类模型确定第二候选语料为扩展语料后，还可以进一步由用户确定该被目标领域的二分类模型确定为扩展语料的第二候选语料是否真正的为目标领域的扩展语料，以及由用户确定第一候选语料是否真正的为目标领域的扩展语料，以进一步保证挖掘出的扩展语料的准确性。

为了更加清楚的对本申请实施例提供的一种扩展语料挖掘方法进行阐述，现对本申请实施例提供的一种扩展语料挖掘方法中的根据预训练的领域预测模型对语料在目标领域的评分确定语料是否属于目标领域的第一候选语料的方法进行详细说明。

图6为本申请实施例提供的一种根据预训练的领域预测模型对语料在目标领域的评分确定语料是否属于目标领域的第一候选语料的方法流程图。

如图6所示，该方法包括：

S601、将语料输入至预训练的领域预测模型，得到领域预测模型对语料在目标领域的评分；

S602、检测领域预测模型对语料在目标领域的评分是否位于第一阈值范围内；若领域预测模型对语料在目标领域的评分位于第一阈值范围内，执行步骤S603；若领域预测模型对语料在目标领域的评分没有位于第一阈值范围内，执行步骤S604；

在本申请实施例中，第一阈值范围与领域预测模型对目标领域的门阈值相关。

S603、确定语料属于目标领域的第一候选语料；

S604、确定语料不属于目标领域的第一候选语料。

为了更加清楚的对本申请实施例提供的一种扩展语料挖掘方法进行阐述，现对本申请实施例提供的一种利用预训练的目标领域的二分类模型确定候选语料是否为目标领域的扩展语料的方法进行详细说明。

图7为本申请实施例提供的一种利用预训练的目标领域的二分类模型确定候选语料是否为目标领域的扩展语料的方法流程图。

如图7所示，该方法包括：

S701、将候选语料输入至预训练的目标领域的二分类模型，得到二分类模型对候选语料的评分；

S702、检测二分类模型对候选语料的评分是否大于二分类模型对目标领域的门阈值；若二分类模型对候选语料的评分大于二分类模型对目标领域的门阈值，执行步骤S703；若二分类模型对候选语料的评分不大于二分类模型对目标领域的门阈值，执行步骤S704；

S703、确定候选语料为目标领域的扩展语料；

S704、确定候选语料不为目标领域的扩展语料。

本申请提供一种语料挖掘方法，基于预训练的语料预测模型对语料在目标领域的评分确定语料是否为目标领域中的模糊语料(即，第一候选语料，该语料可能属于目标领域也可能不属于目标领域)；若语料是目标领域的第一候选语料则通过生活化语料集对第一候选语料进行扩展，得到与第一候选语料相似度最高的生活化的第二候选语料；以通过二分类模型确定候选语料(候选语料包括第二候选语料)是否真的属于目标领域的扩展语料。本申请不需要逐一匹配关键字、标准语料或标准模板，因此，相对于现有技术可以降低耗时提高扩展语料挖掘效率，并且基于对第一候选语料相似度最高的生活化的第二语料的扩充，实现了对扩展语料的深入挖掘。

如图8所示，该装置包括：

第一候选语料确定单元81，用于根据预训练的领域预测模型对语料在目标领域的评分确定语料是否属于目标领域的第一候选语料；

第二候选语料确定单元82，用于若语料属于目标领域的第一候选语料，从生活化语料集的至少一个语料中确定一个与第一候选语料相似度最高的第二候选语料；

扩展语料确定单元83，用于利用预训练的目标领域的二分类模型确定候选语料是否为目标领域的扩展语料，二分类模型以属于目标领域的语料为正样本，不属于目标领域的语料为负样本训练分类算法得到，候选语料包括第二候选语料。

在本申请实施例中，优选的，第一候选语料确定单元，包括：

第一评分单元，用于将语料输入至预训练的领域预测模型，得到领域预测模型对语料在目标领域的评分；

第一检测单元，用于检测领域预测模型对语料在目标领域的评分是否位于第一阈值范围内，第一阈值范围与领域预测模型对目标领域的门阈值相关；

第一确定单元，用于若领域预测模型对语料在目标领域的评分位于第一阈值范围内，确定语料属于目标领域的第一候选语料；

第二确定单元，用于若领域预测模型对语料在目标领域的评分没有位于第一阈值范围内，确定语料不属于目标领域的第一候选语料。

在本申请实施例中，优选的，扩展语料确定单元，包括：

第二评分单元，用于将候选语料输入至预训练的目标领域的二分类模型，得到二分类模型对候选语料的评分；

第二检测单元，用于检测二分类模型对候选语料的评分是否大于二分类模型对目标领域的门阈值；

第三确定单元，用于若二分类模型对候选语料的评分大于二分类模型对目标领域的门阈值，确定候选语料为目标领域的扩展语料；

第四确定单元，用于若二分类模型对候选语料的评分不大于二分类模型对目标领域的门阈值，确定候选语料不为目标领域的扩展语料。

进一步的，本申请实施例提供的一种扩展语料挖掘装置还包括领域预测模型生成单元，包括：

第一获取单元，用于获取至少一个训练样本，至少一个训练样本包括多个领域中分别属于每个领域的语料；

初始领域预测模型生成单元，用于基于至少一个训练样本对待训练逻辑回归算法进行训练，得到初始领域预测模型；

第二获取单元，用于获取至少一个语料样本；

第三检测单元，用于检测初始领域预测模型对语料样本在领域的评分是否位于第二阈值范围内，第二阈值范围与初始领域预测模型对领域的门阈值相关；

第五确定单元，用于若初始领域预测模型对语料样本在领域的评分位于第二阈值范围内，将语料样本确定为领域的目标语料样本；

训练样本生成单元，用于响应用户对目标语料样本所属领域的标定操作，生成与目标语料样本对应的训练样本；

领域预测模型生成子单元，用于基于所生成的训练样本对初始领域预测模型进行更新训练，得到预训练的领域预测模型。

进一步的，本申请实施例提供的一种扩展语料挖掘装置，还包括：

领域预测模型更新单元，用于将扩展语料确定为训练样本，基于所确定的训练样本对领域预测模型进行更新训练。

进一步的，本申请实施例提供的一种扩展语料挖掘装置，还包括领域预测模型校验单元，包括：

第三获取单元，用于获取至少一个测试语料，测试语料携带领域信息；

预测单元，用于根据预训练的领域预测模型对测试语料分别在每个领域的评分，预测测试语料所属的第一领域；

校验单元，用于基于预测的测试语料所属的第一领域和测试语料携带的领域信息指示的第二领域，校验领域预测模型。

在本申请实施例中，优选的，第二候选语料确定单元具体用于通过搜索服务器检索从生活化语料集的至少一个语料中确定一个与第一候选语料相似度最高的第二候选语料。

更进一步的，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行上述实施例所涉及到的扩展语料挖掘方法。

有关本申请实施例提供的存储介质中存储的程序的详细描述可参照上述实施例，在此不做赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种扩展语料挖掘方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据预训练的领域预测模型对语料在目标领域的评分确定所述语料是否属于所述目标领域的第一候选语料，包括：

将所述语料输入至预训练的领域预测模型，得到所述领域预测模型对所述语料在目标领域的评分；

检测所述领域预测模型对所述语料在目标领域的评分是否位于第一阈值范围内，所述第一阈值范围与所述领域预测模型对所述目标领域的门阈值相关；

若所述领域预测模型对所述语料在目标领域的评分位于所述第一阈值范围内，确定所述语料属于所述目标领域的第一候选语料；

若所述领域预测模型对所述语料在目标领域的评分没有位于所述第一阈值范围内，确定所述语料不属于所述目标领域的第一候选语料。

3.根据权利要求1所述的方法，其特征在于，所述利用预训练的所述目标领域的二分类模型确定候选语料是否为所述目标领域的扩展语料，包括：

将候选语料输入至预训练的所述目标领域的二分类模型，得到所述二分类模型对所述候选语料的评分；

检测所述二分类模型对所述候选语料的评分是否大于所述二分类模型对所述目标领域的门阈值；

若所述二分类模型对所述候选语料的评分大于所述二分类模型对所述目标领域的门阈值，确定所述候选语料为所述目标领域的扩展语料；

若所述二分类模型对所述候选语料的评分不大于所述二分类模型对所述目标领域的门阈值，确定所述候选语料不为所述目标领域的扩展语料。

4.根据权利要求1所述的方法，其特征在于，还包括领域预测模型生成过程，该过程包括：

获取至少一个训练样本，所述至少一个训练样本包括多个领域中分别属于每个所述领域的语料；

基于所述至少一个训练样本对待训练逻辑回归算法进行训练，得到初始领域预测模型；

获取至少一个语料样本；

检测所述初始领域预测模型对所述语料样本在领域的评分是否位于第二阈值范围内，所述第二阈值范围与所述初始领域预测模型对所述领域的门阈值相关；

若所述初始领域预测模型对所述语料样本在所述领域的评分位于所述第二阈值范围内，将所述语料样本确定为所述领域的目标语料样本；

响应用户对所述目标语料样本所属领域的标定操作，生成与所述目标语料样本对应的训练样本；

基于所生成的训练样本对所述初始领域预测模型进行更新训练，得到预训练的领域预测模型。

5.根据权利要求4所述的方法，其特征在于，还包括：

将所述扩展语料确定为训练样本，基于所确定的训练样本对所述领域预测模型进行更新训练。

6.根据权利要求1-5任意一项所述的方法，其特征在于，还包括：

获取至少一个测试语料，所述测试语料携带领域信息；

根据预训练的领域预测模型对测试语料分别在每个领域的评分，预测所述测试语料所属的第一领域；

基于预测的所述测试语料所属的第一领域和所述测试语料携带的领域信息指示的第二领域，校验所述领域预测模型。

7.根据权利要求1所述的方法，其特征在于，所述从生活化语料集的至少一个语料中确定一个与所述第一候选语料相似度最高的第二候选语料，包括：通过搜索服务器检索从生活化语料集的至少一个语料中确定一个与所述第一候选语料相似度最高的第二候选语料。

8.一种扩展语料挖掘装置，其特征在于，包括：

9.一种服务器，其特征在于，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现如权利要求1-7任意一项所述的扩展语料挖掘方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-7任意一项所述的扩展语料挖掘方法。