CN111274404A

CN111274404A - 一种基于人机协同的小样本实体多领域分类方法

Info

Publication number: CN111274404A
Application number: CN202010088532.0A
Authority: CN
Inventors: 高汕; 李健; 宗畅; 吴海燕
Original assignee: Hangzhou Liangzhi Data Technology Co ltd
Current assignee: Hangzhou Liangzhi Data Technology Co ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-06-12
Anticipated expiration: 2040-02-12
Also published as: CN111274404B

Abstract

本发明公开了一种实体多领域分类的方法，该方法一开始通过众包方式获取实体在各领域的属性语义词汇，然后利用语义词汇对实体的属性文本进行匹配，得到匹配结果后运用计算公式计算出分数并与阈值比较得出分类结果，进而以专家知识校验结果正确性生成小批量训练样本，在小样本基础上运用网格搜索自动调整公式系数提高召回率和准确率，通过持续自动化处理分类效果的优化，解决了人工实体分类需要查看大量文本的问题。本发明充分利用众包、人机协同、半监督学习方式解决实体分类的问题，能在缺少标注数据的情况下，快速实施实体的多领域分类。

Description

一种基于人机协同的小样本实体多领域分类方法

技术领域

本发明涉及计算机技术、人工智能、自然语言处理、标签分类领域，尤其涉及一种在产业链领域分类场景下的人机协同多源文本内容认知方法。

背景技术

产业链分析在区域经济的发展，产业的发展中起到重要作用。但各类实体在产业链上的分类归属目前没有很好的方法。目前只能通过实体的属性描述人工判断标注实体的所属。

人工标注过程中实体的领域描述在不同的属性文本中有不同的描述词语，例如计算机视觉领域在专利中的描述为“视觉算法”，在产品中描述为“人脸识别”,在招聘岗位中描述为“CV算法工程师”。人为穷举这些包含领域语义的词汇将产生巨大的工作量。

采用简单规则指定关键词来自动分类的方法，不能同时兼顾分类的精确度和召回率，若所选关键词覆盖不全，常常容易导致召回不高，若所选关键词覆盖过全则导致精度不高。能够辅助判断实体所属领域分类的特征描述会体现在各个属性维度的文本数据中，通过统计概率的分析方法将关键词与领域的关联紧密程度进行合理的量化。

如果纯粹使用深度学习和机器学习算法进行实体领域分类，有三个主要的缺点，第一就是需要大量的标注语料才能进行训练，第二就是文本在使用前需要进行特殊的预处理量化成可计算的数据；第三、深度学习的黑盒模型会导致最终结果的可解释性变差，分类依据难以追溯。

因此，如何提供一种利用群体智慧收集语义，并使用少量语料训练就可以得到分类准确率高的半监督实体领域分类方法是技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于人机协同方式的统计概率文本匹配算法，该方法结合众包收集，专家校验等方式解决了实体多领域分类问题，不仅分类准确率高，而且可以用于各种不同类型的实体和不同产业的领域。

为了实现上述目的，本发明采用如下技术方案：

一种基于人机协同的小样本实体多领域分类方法，其包括以下步骤：

S1：通过众包方式获取与实体相关的语义词汇，众包返回的语义词汇中包含语义词汇的所属领域、所属属性以及与所属领域的语义关联程度三个维度；

S2：对实体领域分类所需的各个参数进行初始化，初始化参数包括属性分数A_i、语义关联程度的权重系数B_ni和分类阈值；

S3：获取实体的多属性文本，并将实体的每种属性文本与S1中得到的不同领域的语义词汇进行匹配，并根据匹配结果计算每个实体在不同领域的得分；

S4：将S3中得到的得分与所述分类阈值进行对比判断，得出分类结果，分类结果经过校验后生成训练数据；

S5：基于所述训练数据，通过网格搜索确定最佳参数；

S6：基于所述最佳参数，对待分类的未知实体预测其所属领域。

基于上述技术方案，各步骤可以采用如下优选方式实现：

优选的，步骤S1的具体方法如下：

S11：在众包求解平台中，通过众包方式获取实体的多属性文本中的语义词汇，众包形式采用从实体的每种属性文本中划出语义词汇，或者直接提供语义词汇并标明出处；众包返回结果中包含语义词汇、语义词汇的所属领域、所属属性以及与所属领域的语义关联程度三个维度；一个语义词汇属于一个或多个属性维度；

S12：对众包返回结果进行校验，经过校验后写入数据库；数据库中属于第j个领域的所有语义词汇构成词典D_j，j＝1,2,…,M，M为实体的领域分类类别总数。

优选的，步骤S2的具体方法如下：

S21：初始化设定每个领域的总分均为100，再将每个领域的总分平均到各个属性维度，第i个属性的属性分数A_i＝100/I，I为属性个数；

S22：对每个属性下的语义词汇关联程度的权重系数进行初始化，语义词汇与所属领域的关联程度越高，权重系数也越高。

S23：初始化分类阈值，使分类阈值等于A_i。

优选的，步骤S2中，语义词汇与所属领域的关联程度分为高中低三级；当关联程度为高时，权重系数B_1i＝1.0；当关联程度为中时，权重系数B_2i＝0.8；当关联程度为低时，权重系数B_3i＝0.4。

优选的，步骤S3的具体方法如下：

依次针对每个领域，基于S1中得到的该领域对应的语义词汇词典D_j，计算每个实体在第j个领域的得分，j＝1,2,…,M，计算方法为：

S31：获取实体的多属性文本，然后将每种属性文本与词典D_j中的每个语义词汇进行匹配，输出词典D_j中的每个语义词汇在属性文本中的出现次数；在一种属性文本中，若同一语义词汇出现多次，其出现次数仅记为1次；

S32：在S31得到的匹配结果中，根据词典D_j中的每个语义词汇对应的语义关联程度，统计实体的每种属性文本中每种语义关联程度的所有语义词汇总出现次数；

S33：根据S32得到的统计结果，计算实体属于第j个领域的得分score，计算公式为：

其中：A_i表示第i个属性的属性分数，B_ni表示第i个属性的第n种语义关联程度权重，C_ni表示实体的第i种属性文本中第n种语义关联程度的所有语义词汇总出现次数；若

的值大于1，则令

等于1，以确保最终所有属性维度分数累加值相同。

优选的，步骤S4的具体方法如下：

S41：将每个实体属于各领域的得分与所述分类阈值进行对比，若该实体属于某个领域的得分高于所述分类阈值，则判定该其属于该领域下的实体；

S42：基于专家知识对判定结果进行校验，根据通过校验的结果数据得到每个领域下的正确实体，作为训练数据。

优选的，步骤S5的具体方法如下：

基于S4中得到的训练数据，通过网格搜索确定最佳参数，所述网格搜索的参数包括属性分数A_i、语义关联程度的权重系数B_ni和分类阈值；最佳参数的评估指标选用jaccard系数，jaccard系数的计算公式为：

其中x表示实体预测的领域标签；y表示实体真实的领域标签；x∩y表示预测标签与真实标签交集的个数；x∪y表示预测标签与真实标签并集的个数；网格搜索最终选取所有样本的平均jaccard系数最大值所对应的参数作为最佳参数。

优选的，通过多轮扩充语义词汇库，并通过专家知识校验扩充训练样本，每次扩充后均重复步骤S5中网格搜索确定新的最佳参数。

优选的，步骤S6的具体方法如下：

S61：按照步骤S3的方法，获取待分类的未知实体的多属性文本，并将未知实体的每种属性文本与S1中得到的不同领域的语义词汇进行匹配，并根据匹配结果计算未知实体在不同领域的得分；

S62：然后将未知实体属于各领域的得分与所述最佳参数中的分类阈值进行对比，若该实体属于某个领域的得分高于所述最佳参数中的分类阈值，则判定该其属于该领域下的实体。

优选的，获取实体的多属性文本时，若同一属性下有多个文本，则将多个文本进行拼接得到属性文本。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种利用众包方式获取语义库，并将语义分级量化，依据实体的属性是否包含某领域下的语义词汇来统计实体在该领域的得分，最终设定阈值来判定分类结果的方法。使用本发明进行实体分类时，只需要维护语义词汇库和各种参数的数据库即可，将待分类的实体属性文本传入***，就可以得到分类结果。

运用该分类方法数据库中的企业实体进行分类，并随机抽样计算召回率和准确率，调整参数后最终得到召回率80％以上，准确率90％以上。将本发明应用于企业实体和专家实体在人工智能、地理信息产业链领域的分类，均能够取得良好的应用效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为实施例中实体多领域分类算法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明主要创新点在于将关键词直接硬匹配来进行分类的模式，通过统计概率的方式软化，并利用众包的方式来提高语义词汇的积累效率，专家校验分类结果得到训练数据，机器学习的网格搜索优化参数，充分利用了人机协同的优势提高分类效果。这种方式充分利用了知识沉淀，减少了对标注数据的依赖。

下面详述本发明的基于人机协同的小样本实体多领域分类方法的一种具体实现方式，其步骤如下：

S1：通过众包方式获取与实体相关的语义词汇，众包返回的语义词汇中包含语义词汇的所属领域、所属属性以及与所属领域的语义关联程度三个维度。

在该实现方式中，步骤S1的具体方法如下：

S11：在众包求解平台中，通过众包方式获取实体的多属性文本(含有多种属性文本)中的语义词汇，众包形式采用从实体的每种属性文本中划出语义词汇，或者直接提供语义词汇并标明出处；众包返回结果中包含语义词汇、语义词汇的所属领域、所属属性以及与所属领域的语义关联程度三个维度；一个语义词汇属于一个或多个属性维度。举例而言，以专利文本中的语义词汇“视觉算法”，众包结果中可以将该语义词汇的所属领域标记为“计算机视觉领域”，其属性为“专利”，其语义关联程度为“高”，这些众包结果可以返回供后续校验。众包求解平台可以包括开源工具和自主开发的特定场景工具，在发布众包任务时，可以预先设定固定的若干领域、属性维度和语义关联程度，使得返回的众包结果满足要求。

S2：对实体领域分类所需的各个参数进行初始化，初始化参数包括属性分数A_i、语义关联程度的权重系数B_ni和分类阈值。

在该实现方式中，步骤S2的具体方法如下：

S21：初始化设定每个领域的总分均为100，再将每个领域的总分平均到各个属性维度，第i个属性的属性分数A_i＝100/I，I为属性个数。

本发明中，具体的属性根据不同实体各不相同。例如，企业实体可以包含企业简介、企业名称、专利、软著、招聘岗位等属性；而专家实体则可以包含论文、专利、个人简介、研究领域、著作等属性。

S22：对每个属性下的语义词汇关联程度的权重系数进行初始化，语义词汇与所属领域的关联程度越高，权重系数也越高。其中，语义词汇与所属领域的关联程度等级可视情况进行修改，一般等级2-5级较为合适。例如在该实现方式中，关联程度可以分为高中低三级；当关联程度为高时，权重系数B_1i＝1.0；当关联程度为中时，权重系数B_2i＝0.8；当关联程度为低时，权重系数B_3i＝0.4。

S23：初始化分类阈值，使分类阈值等于A_i。

S3：获取实体的多属性文本，并将实体的每种属性文本与S1中得到的不同领域的语义词汇进行匹配，并根据匹配结果计算每个实体在不同领域的得分。

在该实现方式中，步骤S3的具体方法如下：

依次针对每个领域，基于S1中得到的该领域对应的语义词汇词典D_j，计算每个实体在第j个领域的得分(j取值依次为1,2,…,M)，计算方法为：

S31：首先获取实体的多属性文本，属性文本根据不同实体维度各不相同。例如，当待分类实体为企业实体时，其属性文本可以包含企业简介、企业名称、专利、软著、招聘岗位；而当待分类实体为专家实体时，其属性文本可以包含论文、专利、个人简介、研究领域、著作。同一属性下若有多个文本，则多个文本进行拼接得到属性文本。属性文本可以从网上抓取，或者以其他方式获取。

然后将每种属性文本与词典D_j中的每个语义词汇进行匹配，使用正则匹配输出属性文本是否包含待匹配的语义词汇，即输出词典D_j中的每个语义词汇在属性文本中的出现次数。一个词汇在文本中出现多次不进行重复计数，在一种属性文本中，若同一语义词汇出现多次，其出现次数仅记为1次。

匹配结果统计各个属性下各语义关联程度下的词汇数量，记为C_ni，下标i表示第i种属性，n表示第n种语义词汇关联程度，i＝1,2,…,I；n＝1,2,…,N。N表示语义词汇与所属领域的关联程度等级总数，一般N为2-5。本实现方式中，由于关联程度分高中低三级，因此N＝3。

的值大于1，则令

等于1，以确保最终所有属性维度分数累加值相同。

需要注意的是，在计算实体属于第j个领域的得分score时，其次数C_ni应当统计该实体在第j个领域对应的词典D_j中的所有语义词汇总出现次数。也就是说，本发明中是依据实体的属性是否包含某领域下的语义词汇来统计实体在该领域的得分的。

S4：将S3中得到的得分与上述分类阈值进行对比判断，得出分类结果，分类结果经过校验后生成训练数据。

在该实现方式中，步骤S4的具体方法如下：

S41：将每个实体属于各领域的得分与上述分类阈值进行对比，若该实体属于某个领域的得分高于上述分类阈值，则判定该其属于该领域下的实体；

S42：基于专家知识对判定结果进行校验，剔除未经过校验的数据，根据通过校验的结果数据得到每个领域下的正确实体，作为小样本训练数据。

S5：基于上述S42中的训练数据，通过网格搜索确定最佳参数。

在该实现方式中，步骤S5的具体方法如下：

基于S4中得到的训练数据，通过网格搜索确定最佳参数，上述网格搜索的参数包括属性分数A_i、语义关联程度的权重系数B_ni和分类阈值；最佳参数的评估指标选用jaccard系数，jaccard系数的计算公式为：

其中x表示实体预测的领域标签；y表示实体真实的领域标签；x∩y表示预测标签与真实标签交集的个数；x∪y表示预测标签与真实标签并集的个数。一般参数范围设置如下：属性分数A_i的范围为0～100，所有属性的总分数之和为100，网格搜索时每次调整间隔为5；语义关联程度的权重系数B_ni范围为0～1.5，网格搜索时每次调整间隔0.1；分类阈值的范围为100/N～100(N为属性个数)，网格搜索时每次调整间隔为5。网格搜索最终选取所有样本的平均jaccard系数最大值所对应的参数作为最佳参数。

在实际使用时，应当通过多轮扩充语义词汇库，并通过专家知识校验扩充训练样本，每次扩充语义词汇库扩充或者扩充训练样本后，均需要重复步骤S5中网格搜索，以确定新的最佳参数。

S6：基于上述确定的最佳参数，对待分类的未知实体预测其所属领域。

在该实现方式中，步骤S6的具体方法如下：

S61：按照步骤S3的方法，获取待分类的未知实体的多属性文本，并将未知实体的每种属性文本与S1中得到的不同领域的语义词汇进行匹配，并根据匹配结果计算未知实体在不同领域的得分，具体参见S31～S33。

S62：然后将未知实体属于各领域的得分与最新的最佳参数中的分类阈值进行对比，若该实体属于某个领域的得分高于该最佳参数中的分类阈值，则判定该其属于该领域下的实体。由此，得到了该未知实体所述领域的预测结果，该领域可能有一个或者多个，也可以是没有对应的领域。

下面基于上述方法，通过实施例来展示其具体实现。，在该实施例中具体步骤如前所述，不再赘述，主要展示其具体参数设置以及技术效果。

实施例

请参见附图1，本实施例具体提供的一种实体多领域的分类方法，方法步骤如前述的S1～S6，其各步骤的具体实现过程如下：

步骤1：众包方式获取语义词汇

本实施例中通过众包平台获取不同属性文本中属于不同领域的语义词汇，并对词汇的关联重要性高中低进行区分。将校验后语义词汇写入数据库中。

步骤2：初始化计算公式中的各个参数

本实施例中属性维度以企业实体为例子，网上收集了企业的名称，简介，专利，软著，招聘数据，共5个维度。总维度分数设定100分，每个属性分配20分，各个属性维度的高中低权重系数均初始化设定为高1.0，中0.8，低0.4。

步骤3：获取实体的多属性文本并与语义词汇进行匹配，并依据公式计算领域类别得分。

本实施例中实体的属性文本先进行拼接，其中专利使用了专利名称和专利摘要进行拼接，软著使用了软著名称进行拼接，招聘使用了招聘岗位和岗位详情进行拼接。最后各属性文本与相对应的语义词汇匹配后，分别统计每个属性下高中低三个级别下的词汇数量。匹配结果存储数据库，方便进行查询、统计和结果分析。

本实施例中计算公式为：

其中A_i表示第i个属性的属性分数，B_ni表示第i个属性的第n个语义关联程度权重，C_ni表示实体的第i种属性文本中第n种语义关联程度的所有语义词汇总出现次数。特别的，若

的值大于1，则令

等于1，以确保最终所有属性维度分数累加值相同。

步骤4：阈值判断得出分类结果，专家知识校验结果生成训练数据。

本实施例中根据初始阈值20分，对于领域得分大于20分的即分类到该领域下，统计实体的分类领域后经由专家进行校验。校验后的数据整理成训练数据，用于后续网格搜索优化参数。

步骤5：将训练数据用于网格搜索最佳参数

本实施例中所述网格搜索的参数包括属性分数A_i、语义关联程度的权重系数B_ni和分类阈值。评估指标选用jaccard系数。参数范围设置一般属性分数的范围为0-100，条件为总分数100，每次调整间隔5；语义关联程度的权重系数范围为0-1.5，每次调整间隔0.1；分类阈值的范围为100/N-100(N为属性个数)，每次调整间隔为5。网格搜索最终选取所有样本的平均jaccard系数最大值所对应的参数作为最终优化结果。

本实施例中，通过多轮扩充语义库和专家校验扩充训练样本，重复步骤5中网格搜索优化参数，确定最终参数，每次调整的参数和相应的版本存储于数据库。

步骤6：使用最终确定的参数对未知实体进行预测

本实施例中，根据版本号从数据库中读取最终参数，再获取所有的语义词汇，输入实体的属性文本，输出实体所属的领域，输出的所属领域可能是单值，也可能是多值，也可能是空值。

需要注意的是，若实体中属性缺失，则应将数据缺失的实体另行处理。

为了保证参数调整的可靠性，应尽量保证训练数据的准确性，可以挑选领域中知名的实体。比如，人工智能产业中的计算机视觉领域的知名企业商汤作为企业实体分类的训练数据。

运用该分类方法数据库中的企业实体进行分类，并随机抽样计算召回率和准确率，调整参数后最终得到召回率80％以上，准确率90％以上。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。