CN111274404A - 一种基于人机协同的小样本实体多领域分类方法 - Google Patents

一种基于人机协同的小样本实体多领域分类方法 Download PDF

Info

Publication number
CN111274404A
CN111274404A CN202010088532.0A CN202010088532A CN111274404A CN 111274404 A CN111274404 A CN 111274404A CN 202010088532 A CN202010088532 A CN 202010088532A CN 111274404 A CN111274404 A CN 111274404A
Authority
CN
China
Prior art keywords
semantic
attribute
entity
field
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010088532.0A
Other languages
English (en)
Other versions
CN111274404B (zh
Inventor
高汕
李健
宗畅
吴海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Liangzhi Data Technology Co ltd
Original Assignee
Hangzhou Liangzhi Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Liangzhi Data Technology Co ltd filed Critical Hangzhou Liangzhi Data Technology Co ltd
Priority to CN202010088532.0A priority Critical patent/CN111274404B/zh
Publication of CN111274404A publication Critical patent/CN111274404A/zh
Application granted granted Critical
Publication of CN111274404B publication Critical patent/CN111274404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实体多领域分类的方法,该方法一开始通过众包方式获取实体在各领域的属性语义词汇,然后利用语义词汇对实体的属性文本进行匹配,得到匹配结果后运用计算公式计算出分数并与阈值比较得出分类结果,进而以专家知识校验结果正确性生成小批量训练样本,在小样本基础上运用网格搜索自动调整公式系数提高召回率和准确率,通过持续自动化处理分类效果的优化,解决了人工实体分类需要查看大量文本的问题。本发明充分利用众包、人机协同、半监督学习方式解决实体分类的问题,能在缺少标注数据的情况下,快速实施实体的多领域分类。

Description

一种基于人机协同的小样本实体多领域分类方法
技术领域
本发明涉及计算机技术、人工智能、自然语言处理、标签分类领域,尤其涉及一种在产业链领域分类场景下的人机协同多源文本内容认知方法。
背景技术
产业链分析在区域经济的发展,产业的发展中起到重要作用。但各类实体在产业链上的分类归属目前没有很好的方法。目前只能通过实体的属性描述人工判断标注实体的所属。
人工标注过程中实体的领域描述在不同的属性文本中有不同的描述词语,例如计算机视觉领域在专利中的描述为“视觉算法”,在产品中描述为“人脸识别”,在招聘岗位中描述为“CV算法工程师”。人为穷举这些包含领域语义的词汇将产生巨大的工作量。
采用简单规则指定关键词来自动分类的方法,不能同时兼顾分类的精确度和召回率,若所选关键词覆盖不全,常常容易导致召回不高,若所选关键词覆盖过全则导致精度不高。能够辅助判断实体所属领域分类的特征描述会体现在各个属性维度的文本数据中,通过统计概率的分析方法将关键词与领域的关联紧密程度进行合理的量化。
如果纯粹使用深度学习和机器学习算法进行实体领域分类,有三个主要的缺点,第一就是需要大量的标注语料才能进行训练,第二就是文本在使用前需要进行特殊的预处理量化成可计算的数据;第三、深度学习的黑盒模型会导致最终结果的可解释性变差,分类依据难以追溯。
因此,如何提供一种利用群体智慧收集语义,并使用少量语料训练就可以得到分类准确率高的半监督实体领域分类方法是技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于人机协同方式的统计概率文本匹配算法,该方法结合众包收集,专家校验等方式解决了实体多领域分类问题,不仅分类准确率高,而且可以用于各种不同类型的实体和不同产业的领域。
为了实现上述目的,本发明采用如下技术方案:
一种基于人机协同的小样本实体多领域分类方法,其包括以下步骤:
S1:通过众包方式获取与实体相关的语义词汇,众包返回的语义词汇中包含语义词汇的所属领域、所属属性以及与所属领域的语义关联程度三个维度;
S2:对实体领域分类所需的各个参数进行初始化,初始化参数包括属性分数Ai、语义关联程度的权重系数Bni和分类阈值;
S3:获取实体的多属性文本,并将实体的每种属性文本与S1中得到的不同领域的语义词汇进行匹配,并根据匹配结果计算每个实体在不同领域的得分;
S4:将S3中得到的得分与所述分类阈值进行对比判断,得出分类结果,分类结果经过校验后生成训练数据;
S5:基于所述训练数据,通过网格搜索确定最佳参数;
S6:基于所述最佳参数,对待分类的未知实体预测其所属领域。
基于上述技术方案,各步骤可以采用如下优选方式实现:
优选的,步骤S1的具体方法如下:
S11:在众包求解平台中,通过众包方式获取实体的多属性文本中的语义词汇,众包形式采用从实体的每种属性文本中划出语义词汇,或者直接提供语义词汇并标明出处;众包返回结果中包含语义词汇、语义词汇的所属领域、所属属性以及与所属领域的语义关联程度三个维度;一个语义词汇属于一个或多个属性维度;
S12:对众包返回结果进行校验,经过校验后写入数据库;数据库中属于第j个领域的所有语义词汇构成词典Dj,j=1,2,…,M,M为实体的领域分类类别总数。
优选的,步骤S2的具体方法如下:
S21:初始化设定每个领域的总分均为100,再将每个领域的总分平均到各个属性维度,第i个属性的属性分数Ai=100/I,I为属性个数;
S22:对每个属性下的语义词汇关联程度的权重系数进行初始化,语义词汇与所属领域的关联程度越高,权重系数也越高。
S23:初始化分类阈值,使分类阈值等于Ai
优选的,步骤S2中,语义词汇与所属领域的关联程度分为高中低三级;当关联程度为高时,权重系数B1i=1.0;当关联程度为中时,权重系数B2i=0.8;当关联程度为低时,权重系数B3i=0.4。
优选的,步骤S3的具体方法如下:
依次针对每个领域,基于S1中得到的该领域对应的语义词汇词典Dj,计算每个实体在第j个领域的得分,j=1,2,…,M,计算方法为:
S31:获取实体的多属性文本,然后将每种属性文本与词典Dj中的每个语义词汇进行匹配,输出词典Dj中的每个语义词汇在属性文本中的出现次数;在一种属性文本中,若同一语义词汇出现多次,其出现次数仅记为1次;
S32:在S31得到的匹配结果中,根据词典Dj中的每个语义词汇对应的语义关联程度,统计实体的每种属性文本中每种语义关联程度的所有语义词汇总出现次数;
S33:根据S32得到的统计结果,计算实体属于第j个领域的得分score,计算公式为:
Figure BDA0002382909130000031
其中:Ai表示第i个属性的属性分数,Bni表示第i个属性的第n种语义关联程度权重,Cni表示实体的第i种属性文本中第n种语义关联程度的所有语义词汇总出现次数;若
Figure BDA0002382909130000032
的值大于1,则令
Figure BDA0002382909130000033
等于1,以确保最终所有属性维度分数累加值相同。
优选的,步骤S4的具体方法如下:
S41:将每个实体属于各领域的得分与所述分类阈值进行对比,若该实体属于某个领域的得分高于所述分类阈值,则判定该其属于该领域下的实体;
S42:基于专家知识对判定结果进行校验,根据通过校验的结果数据得到每个领域下的正确实体,作为训练数据。
优选的,步骤S5的具体方法如下:
基于S4中得到的训练数据,通过网格搜索确定最佳参数,所述网格搜索的参数包括属性分数Ai、语义关联程度的权重系数Bni和分类阈值;最佳参数的评估指标选用jaccard系数,jaccard系数的计算公式为:
Figure BDA0002382909130000041
其中x表示实体预测的领域标签;y表示实体真实的领域标签;x∩y表示预测标签与真实标签交集的个数;x∪y表示预测标签与真实标签并集的个数;网格搜索最终选取所有样本的平均jaccard系数最大值所对应的参数作为最佳参数。
优选的,通过多轮扩充语义词汇库,并通过专家知识校验扩充训练样本,每次扩充后均重复步骤S5中网格搜索确定新的最佳参数。
优选的,步骤S6的具体方法如下:
S61:按照步骤S3的方法,获取待分类的未知实体的多属性文本,并将未知实体的每种属性文本与S1中得到的不同领域的语义词汇进行匹配,并根据匹配结果计算未知实体在不同领域的得分;
S62:然后将未知实体属于各领域的得分与所述最佳参数中的分类阈值进行对比,若该实体属于某个领域的得分高于所述最佳参数中的分类阈值,则判定该其属于该领域下的实体。
优选的,获取实体的多属性文本时,若同一属性下有多个文本,则将多个文本进行拼接得到属性文本。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种利用众包方式获取语义库,并将语义分级量化,依据实体的属性是否包含某领域下的语义词汇来统计实体在该领域的得分,最终设定阈值来判定分类结果的方法。使用本发明进行实体分类时,只需要维护语义词汇库和各种参数的数据库即可,将待分类的实体属性文本传入***,就可以得到分类结果。
运用该分类方法数据库中的企业实体进行分类,并随机抽样计算召回率和准确率,调整参数后最终得到召回率80%以上,准确率90%以上。将本发明应用于企业实体和专家实体在人工智能、地理信息产业链领域的分类,均能够取得良好的应用效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为实施例中实体多领域分类算法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明主要创新点在于将关键词直接硬匹配来进行分类的模式,通过统计概率的方式软化,并利用众包的方式来提高语义词汇的积累效率,专家校验分类结果得到训练数据,机器学习的网格搜索优化参数,充分利用了人机协同的优势提高分类效果。这种方式充分利用了知识沉淀,减少了对标注数据的依赖。
下面详述本发明的基于人机协同的小样本实体多领域分类方法的一种具体实现方式,其步骤如下:
S1:通过众包方式获取与实体相关的语义词汇,众包返回的语义词汇中包含语义词汇的所属领域、所属属性以及与所属领域的语义关联程度三个维度。
在该实现方式中,步骤S1的具体方法如下:
S11:在众包求解平台中,通过众包方式获取实体的多属性文本(含有多种属性文本)中的语义词汇,众包形式采用从实体的每种属性文本中划出语义词汇,或者直接提供语义词汇并标明出处;众包返回结果中包含语义词汇、语义词汇的所属领域、所属属性以及与所属领域的语义关联程度三个维度;一个语义词汇属于一个或多个属性维度。举例而言,以专利文本中的语义词汇“视觉算法”,众包结果中可以将该语义词汇的所属领域标记为“计算机视觉领域”,其属性为“专利”,其语义关联程度为“高”,这些众包结果可以返回供后续校验。众包求解平台可以包括开源工具和自主开发的特定场景工具,在发布众包任务时,可以预先设定固定的若干领域、属性维度和语义关联程度,使得返回的众包结果满足要求。
S12:对众包返回结果进行校验,经过校验后写入数据库;数据库中属于第j个领域的所有语义词汇构成词典Dj,j=1,2,…,M,M为实体的领域分类类别总数。
S2:对实体领域分类所需的各个参数进行初始化,初始化参数包括属性分数Ai、语义关联程度的权重系数Bni和分类阈值。
在该实现方式中,步骤S2的具体方法如下:
S21:初始化设定每个领域的总分均为100,再将每个领域的总分平均到各个属性维度,第i个属性的属性分数Ai=100/I,I为属性个数。
本发明中,具体的属性根据不同实体各不相同。例如,企业实体可以包含企业简介、企业名称、专利、软著、招聘岗位等属性;而专家实体则可以包含论文、专利、个人简介、研究领域、著作等属性。
S22:对每个属性下的语义词汇关联程度的权重系数进行初始化,语义词汇与所属领域的关联程度越高,权重系数也越高。其中,语义词汇与所属领域的关联程度等级可视情况进行修改,一般等级2-5级较为合适。例如在该实现方式中,关联程度可以分为高中低三级;当关联程度为高时,权重系数B1i=1.0;当关联程度为中时,权重系数B2i=0.8;当关联程度为低时,权重系数B3i=0.4。
S23:初始化分类阈值,使分类阈值等于Ai
S3:获取实体的多属性文本,并将实体的每种属性文本与S1中得到的不同领域的语义词汇进行匹配,并根据匹配结果计算每个实体在不同领域的得分。
在该实现方式中,步骤S3的具体方法如下:
依次针对每个领域,基于S1中得到的该领域对应的语义词汇词典Dj,计算每个实体在第j个领域的得分(j取值依次为1,2,…,M),计算方法为:
S31:首先获取实体的多属性文本,属性文本根据不同实体维度各不相同。例如,当待分类实体为企业实体时,其属性文本可以包含企业简介、企业名称、专利、软著、招聘岗位;而当待分类实体为专家实体时,其属性文本可以包含论文、专利、个人简介、研究领域、著作。同一属性下若有多个文本,则多个文本进行拼接得到属性文本。属性文本可以从网上抓取,或者以其他方式获取。
然后将每种属性文本与词典Dj中的每个语义词汇进行匹配,使用正则匹配输出属性文本是否包含待匹配的语义词汇,即输出词典Dj中的每个语义词汇在属性文本中的出现次数。一个词汇在文本中出现多次不进行重复计数,在一种属性文本中,若同一语义词汇出现多次,其出现次数仅记为1次。
匹配结果统计各个属性下各语义关联程度下的词汇数量,记为Cni,下标i表示第i种属性,n表示第n种语义词汇关联程度,i=1,2,…,I;n=1,2,…,N。N表示语义词汇与所属领域的关联程度等级总数,一般N为2-5。本实现方式中,由于关联程度分高中低三级,因此N=3。
S32:在S31得到的匹配结果中,根据词典Dj中的每个语义词汇对应的语义关联程度,统计实体的每种属性文本中每种语义关联程度的所有语义词汇总出现次数;
S33:根据S32得到的统计结果,计算实体属于第j个领域的得分score,计算公式为:
Figure BDA0002382909130000071
其中:Ai表示第i个属性的属性分数,Bni表示第i个属性的第n种语义关联程度权重,Cni表示实体的第i种属性文本中第n种语义关联程度的所有语义词汇总出现次数;若
Figure BDA0002382909130000072
的值大于1,则令
Figure BDA0002382909130000073
等于1,以确保最终所有属性维度分数累加值相同。
需要注意的是,在计算实体属于第j个领域的得分score时,其次数Cni应当统计该实体在第j个领域对应的词典Dj中的所有语义词汇总出现次数。也就是说,本发明中是依据实体的属性是否包含某领域下的语义词汇来统计实体在该领域的得分的。
S4:将S3中得到的得分与上述分类阈值进行对比判断,得出分类结果,分类结果经过校验后生成训练数据。
在该实现方式中,步骤S4的具体方法如下:
S41:将每个实体属于各领域的得分与上述分类阈值进行对比,若该实体属于某个领域的得分高于上述分类阈值,则判定该其属于该领域下的实体;
S42:基于专家知识对判定结果进行校验,剔除未经过校验的数据,根据通过校验的结果数据得到每个领域下的正确实体,作为小样本训练数据。
S5:基于上述S42中的训练数据,通过网格搜索确定最佳参数。
在该实现方式中,步骤S5的具体方法如下:
基于S4中得到的训练数据,通过网格搜索确定最佳参数,上述网格搜索的参数包括属性分数Ai、语义关联程度的权重系数Bni和分类阈值;最佳参数的评估指标选用jaccard系数,jaccard系数的计算公式为:
Figure BDA0002382909130000074
其中x表示实体预测的领域标签;y表示实体真实的领域标签;x∩y表示预测标签与真实标签交集的个数;x∪y表示预测标签与真实标签并集的个数。一般参数范围设置如下:属性分数Ai的范围为0~100,所有属性的总分数之和为100,网格搜索时每次调整间隔为5;语义关联程度的权重系数Bni范围为0~1.5,网格搜索时每次调整间隔0.1;分类阈值的范围为100/N~100(N为属性个数),网格搜索时每次调整间隔为5。网格搜索最终选取所有样本的平均jaccard系数最大值所对应的参数作为最佳参数。
在实际使用时,应当通过多轮扩充语义词汇库,并通过专家知识校验扩充训练样本,每次扩充语义词汇库扩充或者扩充训练样本后,均需要重复步骤S5中网格搜索,以确定新的最佳参数。
S6:基于上述确定的最佳参数,对待分类的未知实体预测其所属领域。
在该实现方式中,步骤S6的具体方法如下:
S61:按照步骤S3的方法,获取待分类的未知实体的多属性文本,并将未知实体的每种属性文本与S1中得到的不同领域的语义词汇进行匹配,并根据匹配结果计算未知实体在不同领域的得分,具体参见S31~S33。
S62:然后将未知实体属于各领域的得分与最新的最佳参数中的分类阈值进行对比,若该实体属于某个领域的得分高于该最佳参数中的分类阈值,则判定该其属于该领域下的实体。由此,得到了该未知实体所述领域的预测结果,该领域可能有一个或者多个,也可以是没有对应的领域。
下面基于上述方法,通过实施例来展示其具体实现。,在该实施例中具体步骤如前所述,不再赘述,主要展示其具体参数设置以及技术效果。
实施例
请参见附图1,本实施例具体提供的一种实体多领域的分类方法,方法步骤如前述的S1~S6,其各步骤的具体实现过程如下:
步骤1:众包方式获取语义词汇
本实施例中通过众包平台获取不同属性文本中属于不同领域的语义词汇,并对词汇的关联重要性高中低进行区分。将校验后语义词汇写入数据库中。
步骤2:初始化计算公式中的各个参数
本实施例中属性维度以企业实体为例子,网上收集了企业的名称,简介,专利,软著,招聘数据,共5个维度。总维度分数设定100分,每个属性分配20分,各个属性维度的高中低权重系数均初始化设定为高1.0,中0.8,低0.4。
步骤3:获取实体的多属性文本并与语义词汇进行匹配,并依据公式计算领域类别得分。
本实施例中实体的属性文本先进行拼接,其中专利使用了专利名称和专利摘要进行拼接,软著使用了软著名称进行拼接,招聘使用了招聘岗位和岗位详情进行拼接。最后各属性文本与相对应的语义词汇匹配后,分别统计每个属性下高中低三个级别下的词汇数量。匹配结果存储数据库,方便进行查询、统计和结果分析。
本实施例中计算公式为:
Figure BDA0002382909130000091
其中Ai表示第i个属性的属性分数,Bni表示第i个属性的第n个语义关联程度权重,Cni表示实体的第i种属性文本中第n种语义关联程度的所有语义词汇总出现次数。特别的,若
Figure BDA0002382909130000092
的值大于1,则令
Figure BDA0002382909130000093
等于1,以确保最终所有属性维度分数累加值相同。
步骤4:阈值判断得出分类结果,专家知识校验结果生成训练数据。
本实施例中根据初始阈值20分,对于领域得分大于20分的即分类到该领域下,统计实体的分类领域后经由专家进行校验。校验后的数据整理成训练数据,用于后续网格搜索优化参数。
步骤5:将训练数据用于网格搜索最佳参数
本实施例中所述网格搜索的参数包括属性分数Ai、语义关联程度的权重系数Bni和分类阈值。评估指标选用jaccard系数。参数范围设置一般属性分数的范围为0-100,条件为总分数100,每次调整间隔5;语义关联程度的权重系数范围为0-1.5,每次调整间隔0.1;分类阈值的范围为100/N-100(N为属性个数),每次调整间隔为5。网格搜索最终选取所有样本的平均jaccard系数最大值所对应的参数作为最终优化结果。
本实施例中,通过多轮扩充语义库和专家校验扩充训练样本,重复步骤5中网格搜索优化参数,确定最终参数,每次调整的参数和相应的版本存储于数据库。
步骤6:使用最终确定的参数对未知实体进行预测
本实施例中,根据版本号从数据库中读取最终参数,再获取所有的语义词汇,输入实体的属性文本,输出实体所属的领域,输出的所属领域可能是单值,也可能是多值,也可能是空值。
需要注意的是,若实体中属性缺失,则应将数据缺失的实体另行处理。
为了保证参数调整的可靠性,应尽量保证训练数据的准确性,可以挑选领域中知名的实体。比如,人工智能产业中的计算机视觉领域的知名企业商汤作为企业实体分类的训练数据。
运用该分类方法数据库中的企业实体进行分类,并随机抽样计算召回率和准确率,调整参数后最终得到召回率80%以上,准确率90%以上。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于人机协同的小样本实体多领域分类方法,其特征在于,包括以下步骤:
S1:通过众包方式获取与实体相关的语义词汇,众包返回的语义词汇中包含语义词汇的所属领域、所属属性以及与所属领域的语义关联程度三个维度;
S2:对实体领域分类所需的各个参数进行初始化,初始化参数包括属性分数Ai、语义关联程度的权重系数Bni和分类阈值;
S3:获取实体的多属性文本,并将实体的每种属性文本与S1中得到的不同领域的语义词汇进行匹配,并根据匹配结果计算每个实体在不同领域的得分;
S4:将S3中得到的得分与所述分类阈值进行对比判断,得出分类结果,分类结果经过校验后生成训练数据;
S5:基于所述训练数据,通过网格搜索确定最佳参数;
S6:基于所述最佳参数,对待分类的未知实体预测其所属领域。
2.根据权利要求1所述的方法,其特征在于,步骤S1的具体方法如下:
S11:在众包求解平台中,通过众包方式获取实体的多属性文本中的语义词汇,众包形式采用从实体的每种属性文本中划出语义词汇,或者直接提供语义词汇并标明出处;众包返回结果中包含语义词汇、语义词汇的所属领域、所属属性以及与所属领域的语义关联程度三个维度;一个语义词汇属于一个或多个属性维度;
S12:对众包返回结果进行校验,经过校验后写入数据库;数据库中属于第j个领域的所有语义词汇构成词典Dj,j=1,2,…,M,M为实体的领域分类类别总数。
3.根据权利要求1所述的方法,其特征在于,步骤S2的具体方法如下:
S21:初始化设定每个领域的总分均为100,再将每个领域的总分平均到各个属性维度,第i个属性的属性分数Ai=100/I,I为属性个数;
S22:对每个属性下的语义词汇关联程度的权重系数进行初始化,语义词汇与所属领域的关联程度越高,权重系数也越高。
S23:初始化分类阈值,使分类阈值等于Ai
4.根据权利要求3所述的方法,其特征在于,步骤S2中,语义词汇与所属领域的关联程度分为高中低三级;当关联程度为高时,权重系数B1i=1.0;当关联程度为中时,权重系数B2i=0.8;当关联程度为低时,权重系数B3i=0.4。
5.根据权利要求1所述的方法,其特征在于,步骤S3的具体方法如下:
依次针对每个领域,基于S1中得到的该领域对应的语义词汇词典Dj,计算每个实体在第j个领域的得分,j=1,2,…,M,计算方法为:
S31:获取实体的多属性文本,然后将每种属性文本与词典Dj中的每个语义词汇进行匹配,输出词典Dj中的每个语义词汇在属性文本中的出现次数;在一种属性文本中,若同一语义词汇出现多次,其出现次数仅记为1次;
S32:在S31得到的匹配结果中,根据词典Dj中的每个语义词汇对应的语义关联程度,统计实体的每种属性文本中每种语义关联程度的所有语义词汇总出现次数;
S33:根据S32得到的统计结果,计算实体属于第j个领域的得分score,计算公式为:
Figure FDA0002382909120000021
其中:Ai表示第i个属性的属性分数,Bni表示第i个属性的第n种语义关联程度权重,Cni表示实体的第i种属性文本中第n种语义关联程度的所有语义词汇总出现次数;若
Figure FDA0002382909120000022
的值大于1,则令
Figure FDA0002382909120000023
等于1,以确保最终所有属性维度分数累加值相同。
6.根据权利要求1所述的方法,其特征在于,步骤S4的具体方法如下:
S41:将每个实体属于各领域的得分与所述分类阈值进行对比,若该实体属于某个领域的得分高于所述分类阈值,则判定该其属于该领域下的实体;
S42:基于专家知识对判定结果进行校验,根据通过校验的结果数据得到每个领域下的正确实体,作为训练数据。
7.根据权利要求1所述的方法,其特征在于,步骤S5的具体方法如下:
基于S4中得到的训练数据,通过网格搜索确定最佳参数,所述网格搜索的参数包括属性分数Ai、语义关联程度的权重系数Bni和分类阈值;最佳参数的评估指标选用jaccard系数,jaccard系数的计算公式为:
Figure FDA0002382909120000031
其中x表示实体预测的领域标签;y表示实体真实的领域标签;x∩y表示预测标签与真实标签交集的个数;x∪y表示预测标签与真实标签并集的个数;网格搜索最终选取所有样本的平均jaccard系数最大值所对应的参数作为最佳参数。
8.根据权利要求1所述的方法,其特征在于,通过多轮扩充语义词汇库,并通过专家知识校验扩充训练样本,每次扩充后均重复步骤S5中网格搜索确定新的最佳参数。
9.根据权利要求1所述的方法,其特征在于,步骤S6的具体方法如下:
S61:按照步骤S3的方法,获取待分类的未知实体的多属性文本,并将未知实体的每种属性文本与S1中得到的不同领域的语义词汇进行匹配,并根据匹配结果计算未知实体在不同领域的得分;
S62:然后将未知实体属于各领域的得分与所述最佳参数中的分类阈值进行对比,若该实体属于某个领域的得分高于所述最佳参数中的分类阈值,则判定该其属于该领域下的实体。
10.根据权利要求1所述的方法,其特征在于,获取实体的多属性文本时,若同一属性下有多个文本,则将多个文本进行拼接得到属性文本。
CN202010088532.0A 2020-02-12 2020-02-12 一种基于人机协同的小样本实体多领域分类方法 Active CN111274404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010088532.0A CN111274404B (zh) 2020-02-12 2020-02-12 一种基于人机协同的小样本实体多领域分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010088532.0A CN111274404B (zh) 2020-02-12 2020-02-12 一种基于人机协同的小样本实体多领域分类方法

Publications (2)

Publication Number Publication Date
CN111274404A true CN111274404A (zh) 2020-06-12
CN111274404B CN111274404B (zh) 2023-07-14

Family

ID=70997015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010088532.0A Active CN111274404B (zh) 2020-02-12 2020-02-12 一种基于人机协同的小样本实体多领域分类方法

Country Status (1)

Country Link
CN (1) CN111274404B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506671A (zh) * 2020-03-17 2020-08-07 北京捷通华声科技股份有限公司 处理实体对象的属性的方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JP2005250841A (ja) * 2004-03-04 2005-09-15 Energia Communications Inc 専門家と見込み客とのマッチング方法
US20060136467A1 (en) * 2004-12-17 2006-06-22 General Electric Company Domain-specific data entity mapping method and system
US20110184926A1 (en) * 2010-01-26 2011-07-28 National Taiwan University Of Science & Technology Expert list recommendation methods and systems
CN103324692A (zh) * 2013-06-04 2013-09-25 北京大学 分类知识获取方法和装置
CN105260482A (zh) * 2015-11-16 2016-01-20 金陵科技学院 基于众包技术的网络新词发现装置以及方法
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及***
CN106682128A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 多领域词典自动构建方法
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类***及方法
CN106934020A (zh) * 2017-03-10 2017-07-07 东南大学 一种基于多域实体索引的实体链接方法
CN109101477A (zh) * 2018-06-04 2018-12-28 东南大学 一种企业领域分类及企业关键词筛选方法
CN109783818A (zh) * 2019-01-17 2019-05-21 上海三零卫士信息安全有限公司 一种企业行业多标签分类方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254883A (ja) * 1997-03-10 1998-09-25 Mitsubishi Electric Corp 文書自動分類方法
JP2005250841A (ja) * 2004-03-04 2005-09-15 Energia Communications Inc 専門家と見込み客とのマッチング方法
US20060136467A1 (en) * 2004-12-17 2006-06-22 General Electric Company Domain-specific data entity mapping method and system
US20110184926A1 (en) * 2010-01-26 2011-07-28 National Taiwan University Of Science & Technology Expert list recommendation methods and systems
CN103324692A (zh) * 2013-06-04 2013-09-25 北京大学 分类知识获取方法和装置
CN105260482A (zh) * 2015-11-16 2016-01-20 金陵科技学院 基于众包技术的网络新词发现装置以及方法
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及***
CN106682128A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 多领域词典自动构建方法
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类***及方法
CN106934020A (zh) * 2017-03-10 2017-07-07 东南大学 一种基于多域实体索引的实体链接方法
CN109101477A (zh) * 2018-06-04 2018-12-28 东南大学 一种企业领域分类及企业关键词筛选方法
CN109783818A (zh) * 2019-01-17 2019-05-21 上海三零卫士信息安全有限公司 一种企业行业多标签分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
耿爽,杨辰,牛奔,蚁文洁,刘雷: "《面向企业信息检索的语义扩展查询方法》" *
陈果,许天祥: "《小规模知识库指导下的细分领域实体关系发现研究》", 《情报学报》, vol. 38, no. 11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506671A (zh) * 2020-03-17 2020-08-07 北京捷通华声科技股份有限公司 处理实体对象的属性的方法、装置、设备及存储介质
CN111506671B (zh) * 2020-03-17 2021-02-12 北京捷通华声科技股份有限公司 处理实体对象的属性的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111274404B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN108733748B (zh) 一种基于商品评论舆情的跨境产品质量风险模糊预测方法
CN112100344A (zh) 一种基于知识图谱的金融领域知识问答方法
CN110990564A (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN106919619A (zh) 一种商品聚类方法、装置及电子设备
CN110717654B (zh) 基于用户评论的产品质量评价方法和***
CN113537796A (zh) 一种企业风险评估方法、装置及设备
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及***
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN112035658A (zh) 基于深度学习的企业舆情监测方法
CN109241199B (zh) 一种面向金融知识图谱发现的方法
CN113962219A (zh) 面向电力变压器知识检索和问答的语义匹配方法及***
CN109359302A (zh) 一种领域化词向量的优化方法及基于其的融合排序方法
US20220027748A1 (en) Systems and methods for document similarity matching
CN113032570A (zh) 一种基于ATAE-BiGRU的文本方面情感分类方法及***
CN109614490A (zh) 基于lstm的金融新闻倾向性分析方法
CN115599899A (zh) 基于飞行器知识图谱的智能问答方法、***、设备及介质
CN114707516A (zh) 一种基于对比学习的长文本语义相似度计算方法
Ge et al. Optimization of computer aided design system for music automatic classification based on feature analysis
CN116542800A (zh) 基于云端ai技术的智能化财务报表分析***
Zhao RETRACTED ARTICLE: Application of deep learning algorithm in college English teaching process evaluation
CN113269477B (zh) 一种科研项目查询评分模型训练方法、查询方法及装置
CN112862569B (zh) 基于图像和文本多模态数据的产品外观风格评价方法和***
CN111274404A (zh) 一种基于人机协同的小样本实体多领域分类方法
Chen et al. A quantitative investment model based on random forest and sentiment analysis
CN114282875A (zh) 流程审批确定性规则和语义自学习结合判定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant