CN112800214A - 基于主题共现网络和外部知识的主题识别方法、***及设备 - Google Patents

基于主题共现网络和外部知识的主题识别方法、***及设备 Download PDF

Info

Publication number
CN112800214A
CN112800214A CN202110128830.2A CN202110128830A CN112800214A CN 112800214 A CN112800214 A CN 112800214A CN 202110128830 A CN202110128830 A CN 202110128830A CN 112800214 A CN112800214 A CN 112800214A
Authority
CN
China
Prior art keywords
topic
text
domain knowledge
theme
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110128830.2A
Other languages
English (en)
Other versions
CN112800214B (zh
Inventor
魏笔凡
祁敬超
刘均
郑庆华
杨祎
罗强
洪振杰
武雨辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110128830.2A priority Critical patent/CN112800214B/zh
Publication of CN112800214A publication Critical patent/CN112800214A/zh
Application granted granted Critical
Publication of CN112800214B publication Critical patent/CN112800214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主题共现网络和外部知识的主题识别方法,方法具体为:基于标注数据的主题共现网络构建:使用已有带主题标注的领域知识文本,检测文本中的主题子词并以此构建主题共现网络;融合外部知识和主题共现网络的开关模块构建:使用共现网络对带主题标注的领域知识文本进行信息丰富度排序,并以此排序结合外部知识构成开关模块;引入开关模块的改进领域知识文本主题识别模型自训练:使用自训练方法训练领域知识文本主题识别模型,尽可能使用无主题标注的领域知识文本的信息,防止自训练不加选择地学习无主题标注领域知识文本导致泛化性能下降;更充分更高效地利用有限语料信息,提升领域知识文本主题识别模型的性能。

Description

基于主题共现网络和外部知识的主题识别方法、***及设备
技术领域
本发明属于文本识别技术领域,尤其涉及基于主题共现网络和外部知识的主题识别方法、***及设备。
背景技术
知识总量在互联网时代的***式增长使得知识碎片化问题日益凸显,由于缺乏统一的知识组织管理形式,用户通常需要花费较多时间在海量的碎片化知识中寻找有价值的领域知识文本进行学习,信息获取效率偏低。将领域知识文本按照其描述的知识主题进行分类存储,能够提高检索和学习的效率,同时为其它领域知识相关的下游应用提供技术支持。
领域知识文本通常包含较多领域专业术语,来自不同领域的知识文本的描述对象和表达方式有着很大的区别。为领域知识文本标注主题需要相关领域的专家或经充分培训的标注人员人工参与,在领域不断增多时,人工标注的成本将成倍增长,因此带主题标注的领域知识文本样本数量有限,同时扩充成本较高;而在特征海量、样本有限的情况下,对于领域知识文本的主题识别任务,传统机器学习方法性能表现难以满足工程应用需求。因此需要人工参与数据标注尽可能少、主题识别效率和准确率较高的方法。
现有技术中与本发明密切相关的专利,分别是:
1、一种基于图数据库的知识森林构建方法,专利号:CN201810068490.7
2、一种半监督分类预测方法,专利号:CN 201910188479.9
3、一种基于词共现的汉语实体关系提取的控制方法及装置,专利号:CN201110001355.9;专利1统计每条文本包含的主题关键词个数,寻找其包含最多的主题关键词作为文本主题;专利2通过寻找类别中心和随机采样方法实现降低数据冗余度两个措施实现半监督分类预测,专利1和专利2均没有进一步挖掘数据共现网络等信息。专利3使用的词共现关系为全词匹配,没有考虑领域知识中的子词特性。
发明内容
为了解决现有技术的问题,本发明提供一种基于主题共现网络和外部知识的主题识别方法,故以主题为节点,以主题子词在领域知识文本中的共现频率为边权重构建主题共现网络,可以更好地利用已有样本,提升领域知识文本主题识别模型的性能,可以更充分更高效地利用有限语料信息。
为达到以上目的,本发明采用如下技术方案:基于主题共现网络和外部知识的主题识别方法,具体步骤如下:
使用已有带主题标注的领域知识文本,检测文本中的主题词以及主题子词并以此构建主题共现网络;
使用主题共现网络对带主题标注的领域知识文本进行信息丰富度排序,并以所述排序结合外部知识构建开关模块;
将所述开关模块引入领域知识文本主题识别模型中,对无主题标注的领域知识文本进行主题识别。
构建主题共现网络具体如下:
首先,初始化一个主题共现网络,每个主题用一个节点表示,所有节点两两间由一条边相连,边的权重均为0,对于每个带主题标注的领域知识文本,分词后识别并记录每个文本中出现的主题关键词以及主题关键词的子词,记为主题子词,当两个主题关键词或主题关键词的子词同时出现在同一个领域知识文本中时,为连接这两个主题子词各自对应主题的节点的边增加权重,同时记录每条边权重增量的来源领域知识文本;直到所有从已有带主题标注的主题共现关系均在主题共现网络中更新完毕,得到主题共现网络。
构建融合外部知识和主题共现网络的开关模块具体如下:
选定基础外部知识;
对于所述主题共现网络,按节点带权度的大小对主题进行权重排序;
对于每个领域知识文本,其信息丰富度由其所包含的所有主题的权重之和计算而来,并由此得到所述领域知识文本的信息丰富度排序,构建融合外部知识和主题共现网络的开关模块,对每个由主题识别模型给出候选主题且拟加入带标注领域知识文本集合的无标注领域知识文本样本进行判断,将样本与对应主题关键词的基础外部知识进行相似性计算,再与该主题下信息丰富度排名高于阈值的前3条领域知识文本进行相似性计算,,得到4个相似度值,将所述相似度值与设定阈值进行比较,根据所述结果确定开关是否打开。
所述基础外部知识采用***或百度百科中主题关键词对应词条下的摘要部分文本。
对无主题标注的领域知识文本进行主题识别具体为:首先用所有带标注领域知识文本训练初始主题识别模型,之后对每个无标注领域知识文本进行主题识别,对于无标注样本的识别结果,如果主题识别结果置信度大于阈值,则将该结果输入所述开关模块进行判别,若开关模块打开,则将该样本标注对应主题后加入带标注领域知识文本集合;否则拒绝将此样本加入带标注领域知识文本集合。
进行主题识别时,使用fastText分类模型作为主题识别模型,向fastText分类模型中引入所述开关模块。
引入开关模块的改进领域知识文本主题识别模型自训练识别包括如下步骤:
获取当前带主题标注的领域知识文本集合和无主题标注的领域知识文本集合;
融合外部知识和共现网络的开关模块;
使用fastText分类模型作为主题识别模型,将当前带主题标注的领域知识文本集合输入主题识别模型训练获得主题识别模型;
从无主题标注的领域知识文本集合中取出一个无主题标注领域知识文本,使用所述主题识别模型对无标注领域知识文本样本进行主题识别,得到与所述无标注领域知识文本样本对应的候选主题,将所述无标注领域知识文本样本与候选主题输入开关模块,若开关打开,将所述无标注领域知识文本样本标注所述候选主题后加入带标注领域知识文本集合,从无标注领域知识文本样本集合中删除该无标注领域知识文本样本;若开关未打开,则拒绝将所述无标注领域知识文本样本加入带标注领域知识文本集合,并放回无标注领域知识文本样本集合,直至无标注领域知识文本样本集合为空集。
一种基于主题共现网络和外部知识的主题识别***,主题共现网络构建模块、开关模块构建模块以及主题识别模块;主题共现网络构建模块使用已有带主题标注的领域知识文本,检测文本中的主题词以及主题子词并以此构建主题共现网络;
开关模块构建模块使用主题共现网络对带主题标注的领域知识文本进行信息丰富度排序,并以所述排序结合外部知识构建开关模块;
主题识别模块将所述开关模块引入领域知识文本主题识别模型中,对无主题标注的领域知识文本进行主题识别。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时本发明所述基于主题共现网络和外部知识的主题识别方法的步骤。
本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明所述基于主题共现网络和外部知识的主题识别方法的步骤。
与现有技术相比,本发明至少具有以下有益效果:
本发明检测领域知识文本的主题子词,并基于主题子词检测的结果构建主题共现网络,更充分地挖掘领域知识文本中主题关键词的多样化显式表达,使主题共现网络自身的信息量更加丰富完整;使用主题共现网络,生成带主题标注的领域知识文本的信息丰富度排序,并加入外部知识构建开关模块,使开关模块具有充分的信息来判断主题识别的正确性;引入开关模块,使用自训练方法训练领域知识文本主题识别模型,尽可能使用无主题标注的领域知识文本的信息,采用开关模块对主题识别模型的自训练过程进行调节,防止自训练不加选择地学习无主题标注领域知识文本导致泛化性能下降,本发明提出的方法可以更充分更高效地利用有限语料信息,提升领域知识文本主题识别模型的性能。
附图说明
图1是本发明基于主题共现网络和外部知识的自训练主题识别方法流程图。
图2是本发明***页面摘要文本示意图。
图3是本发明基于标注数据的主题共现网络构建流程图。
图4是本发明主题共现网络示意图。
图5是本发明融合外部知识和主题共现网络的开关模块构建流程图。
图6是本发明引入开关模块的改进领域知识文本主题识别模型自训练流程图。
具体实施方式
以下结合附图及实施例对本发明作进一步的详细说明。
参考图1,基于主题共现网络和外部知识的自训练主题识别方法,包括基于标注数据的主题共现网络构建、融合外部知识和主题共现网络的开关模块构建、引入开关模块的改进领域知识文本主题识别模型自训练,具体流程如下:
构建基于标注数据的主题共现网络:首先,初始化一个主题共现网络,每个主题用一个节点表示,所有节点两两间由一条边相连,边的权重均为0,对于每个带主题标注的领域知识文本,分词后识别并记录每个文本中出现的主题关键词以及主题关键词的子词,记为主题子词,当两个主题子词同时出现在同一个领域知识文本中时,为连接这两个主题子词各自对应的主题节点的边增加权重,同时记录每条边权重增量的来源领域知识文本;直到所有从已有带主题标注的主题共现关系均在主题共现网络中更新完毕;得到主题共现网络,参考图4。
(2)构建融合外部知识和主题共现网络的开关模块:采用***主题关键词对应词条下的摘要部分文本作为基础外部知识,参考图2;对于步骤(1)中构建的主题共现网络,按节点带权度的大小对主题进行权重排序;对于每个领域知识文本,其信息丰富度由其所包含的所有主题的权重之和计算而来,领域知识文本的信息丰富度与包含的所有主题的权重之和正相关,并由此得到领域知识文本的信息丰富度排序;构建融合外部知识和主题共现网络的开关模块;对每个拟加入带标注领域知识文本集合的无标注领域知识文本样本进行判断,判断时由主题识别模型给出候选主题;将样本与对应主题关键词的***词条摘要进行相似性计算,再与该主题下信息丰富度排名高于阈值的前3条领域知识文本进行相似性计算,输出的4个相似度若存在大于设定阈值的,则打开开关,将该样本标注对应主题后加入带标注领域知识文本集合;否则关闭开关,拒绝将此样本加入带标注领域知识文本集合;
将所述开关模块引入主题识别模型,并对领域知识文本主题识别模型进行自训练:使用引入开关模块改进的自训练策略训练主题识别模型,首先,用所有带标注领域知识文本训练初始主题识别模型,之后对每个无标注领域知识文本样本进行主题识别;对于无标注文本样本的识别结果,如果主题识别结果的置信度大于阈值,则将该结果输入步骤(2)构建的开关模块进行判别,若开关模块打开,则将该样本标注对应主题后加入带标注领域知识文本集合;否则拒绝将此样本加入带标注领域知识文本集合。重复上述过程直至无主题标注领域知识样本集合为空。如图2所示,***页面摘要文本wikii如方框中所示,是主题ti页面标题下的一段用来概括性介绍ti的文本。
如图3所示,基于标注数据的主题共现网络构建包括3个步骤,具体流程如下:
(1)设当前领域下的主题集合T={t1,t2,…,tk|k∈N+},带主题标注的领域知识文本集合为Dl={(d1,l1),(d2,l2),…,(dp,lp)|p∈N+,lp∈T},无主题标注的领域知识文本集合为Du={dp+1,dp+2,…,dp+q|p,q∈N+},所有领域知识文本集合为D=Dl∪Du,初始化主题共现网络为TKCN0={N,E0},其中N={n1,n2,n3,…,nk|k∈N+},ni代表主题ti在主题共现网络中的对应节点,
Figure BDA0002924377500000071
(2)初次执行时令a=1(之后a由(3)赋值),对于带主题标注的领域知识文本(da,la),将da中出现的主题子词集合记为
Figure BDA0002924377500000072
Figure BDA0002924377500000073
同时是多个ti的子词,则忽略
Figure BDA0002924377500000074
以避免冲突,即
Figure BDA0002924377500000075
对于每个主题子词对所对应的主题对(ti,tj)(ti,tj∈Ta,i≠j),将TKCNa-1={N,Ea-1}中,Ea-1的所有对应eij边权重加1,并记录eij边权重增量的来源领域知识文本(da,la),即(eij,wij,contribij)→(eij,wij+1,contribij∪{(da,la)}),得到Ea,构造出主题共现网络TKCNa={N,Ea};
(3)令a=a+1,若a=p+1,所有已有带主题标注的领域知识文本中的主题共现关系均在主题共现网络中更新完毕,执行结束;否则读入下一个带主题标注的领域知识文本(da,la),执行步骤(2)。
如图5所示,构建融合外部知识和主题共现网络的开关模块包括4个步骤,具体流程如下:
①若主题ti的***页面存在,则提取对应***页面中的摘要文本wikii,否则记wikii为空;
②将主题共现网络记为TKCN={N={n1,n2,n3,…,nk},E={(eij,wij,contribij)|i,j∈1,2,…,k,i≠j},其中contribij={(da,la),(db,db),…|a,b,…∈{1,2,…,k}}。计算主题节点ni的带权度dei=∑wij(j=1,2,…,k,j≠i)。从大到小的顺序对节点ni进行排序,更新主题T={t1,t2,,…,tk|k∈N+}的下标为排序顺序,同时由此更新节点、权度的下标及TKCN中节点、边及权重的下标,构建带权重的主题排序Trank={(t1,de1),(t2,de2),…,(tk,dek)};
③对Dl={(d1,l1),(d2,l2),…,(dp,lp)|p∈N+,lp∈T}中的每个(di,li),查询di中的所有主题子词记为
Figure BDA0002924377500000081
Figure BDA0002924377500000082
同时是多个ti的子词,则
Figure BDA0002924377500000083
Figure BDA0002924377500000084
计算(di,li)的信息丰富度
Figure BDA0002924377500000085
对于某个主题ti,按信息丰富度从大到小选出该主题下排在前3的带主题标注领域知识文本topdi={di1,di2,di3},将步骤(1)与步骤(3)的wikii与topdi结合,得到主题外部知识EKi={wikii}∪topdi={wikii,di1,di2,di3};
④构建开关模块Modswitch,输入是由主题识别模型Mtopic给出的候选主题为tcandilabel且拟加入带标注领域知识文本集合的无标注领域知识文本样本di(i=p+1,p+2,…,p+q,p,q∈N+),使用fastText预训练模型对样本di进行词嵌入得到
Figure BDA0002924377500000086
对EKcandilabel进行词嵌入得到
Figure BDA0002924377500000087
(尺寸为[4,embed_size]),计算
Figure BDA0002924377500000088
Figure BDA0002924377500000089
的cos相似度simi=[si1,si2,si3,si4]T,若存在sij(j=1,2,3,4)大于设定的阈值θ,则开关模块Modswitch输出为open,将样本di标注主题tcandilabel后加入带标注领域知识文本集合;否则输出为close,关闭开关,拒绝将此样本加入带标注领域知识文本集合。这里如果wikii为空,则si1≡0,不影响开关模块工作。
如图6所示,引入开关模块的改进领域知识文本主题识别模型自训练包括4个步骤,具体流程如下:
(1)输入当前领域下的主题集合T={t1,t2,…,tk|k∈N+},带主题标注的领域知识文本集合为Dl={(d1,l1),(d2,l2),…,(dp,lp)|p∈N+,lp∈T},无主题标注的领域知识文本集合为Du={dp+1,dp+2,…,dp+q|p,q∈N+},所有领域知识文本集合为D=Dl∪Du,融合外部知识和共现网络的开关模块Modswitch
(2)使用fastText分类模型作为主题识别模型M,将Dl输入M训练获得初始主题识别模型M0,令i=1;
(3)从Du中取出一个无主题标注领域知识文本dp+i,使用Mi-1对dp+i进行主题识别,得到候选主题
Figure BDA0002924377500000091
将dp+i
Figure BDA0002924377500000092
输入开关模块Modswitch,若输出为open,将样本dp+i标注主题
Figure BDA0002924377500000093
后加入带标注领域知识文本集合Dl,即
Figure BDA0002924377500000094
Figure BDA0002924377500000095
从Du中删除dp+i,即Du=Du-{dp+i};否则输出为close,关闭开关,拒绝将此样本加入带标注领域知识文本集合,放回Du。使用Dl训练得到Mi,若
Figure BDA0002924377500000096
则令i=i+1;
(4)重复步骤(3),直至
Figure BDA0002924377500000097
本发明提供一种基于主题共现网络和外部知识的主题识别***,主题共现网络构建模块、开关模块构建模块以及主题识别模块;主题共现网络构建模块使用已有带主题标注的领域知识文本,检测文本中的主题词以及主题子词并以此构建主题共现网络;
开关模块构建模块使用主题共现网络对带主题标注的领域知识文本进行信息丰富度排序,并以所述排序结合外部知识构建开关模块;
主题识别模块将所述开关模块引入领域知识文本主题识别模型中,对无主题标注的领域知识文本进行主题识别。
本发明基于主题共现网络和外部知识的主题识别方法可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明基于主题共现网络和外部知识的主题识别方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
基于这样的理解,在示例性实施例中,还提供了一种计算机可读存储介质,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于该计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
在示例性实施例中,还提供计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于主题共现网络和外部知识的主题识别方法的步骤。处理器可能是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor、DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

Claims (10)

1.基于主题共现网络和外部知识的主题识别方法,其特征在于,具体步骤如下:
使用已有带主题标注的领域知识文本,检测文本中的主题词以及主题子词并以此构建主题共现网络;
使用主题共现网络对带主题标注的领域知识文本进行信息丰富度排序,并以所述排序结合外部知识构建开关模块;
将所述开关模块引入领域知识文本主题识别模型中,对无主题标注的领域知识文本进行主题识别。
2.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法,其特征在于,构建主题共现网络具体如下:
初始化一个主题共现网络,每个主题用一个节点表示,所有节点两两间由一条边相连,边的权重均为0,对于每个带主题标注的领域知识文本,分词后识别并记录每个文本中出现的主题关键词以及主题关键词的子词,记为主题子词,当两个主题关键词或主题关键词的子词同时出现在同一个领域知识文本中时,为连接这两个主题子词各自对应主题的节点的边增加权重,同时记录每条边权重增量的来源领域知识文本;直到所有从已有带主题标注的主题共现关系均在主题共现网络中更新完毕,得到主题共现网络。
3.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法,其特征在于,构建融合外部知识和主题共现网络的开关模块具体如下:
选定基础外部知识;
对于所述主题共现网络,按节点带权度的大小对主题进行权重排序;
对于每个领域知识文本,其信息丰富度由其所包含的所有主题的权重之和计算而来,并由此得到所述领域知识文本的信息丰富度排序,构建融合外部知识和主题共现网络的开关模块,对每个由主题识别模型给出候选主题且拟加入带标注领域知识文本集合的无标注领域知识文本样本进行判断,将样本与对应主题关键词的基础外部知识进行相似性计算,再与该主题下信息丰富度排名高于阈值的前3条领域知识文本进行相似性计算,得到4个相似度值,将所述相似度值与设定阈值进行比较,根据所述结果确定开关是否打开。
4.如权利要求3所述的基于主题共现网络和外部知识的主题识别方法,其特征在于,所述基础外部知识采用***或百度百科中主题关键词对应词条下的摘要部分文本。
5.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法,其特征在于,对无主题标注的领域知识文本进行主题识别具体为:首先,用所有带标注领域知识文本训练初始主题识别模型;其次,对每个无标注领域知识文本进行主题识别,对于无标注样本的识别结果,如果主题识别结果置信度大于阈值,则将该结果输入所述开关模块进行判别,若开关模块打开,则将该样本标注对应主题后加入带标注领域知识文本集合;否则拒绝将此样本加入带标注领域知识文本集合。
6.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法,其特征在于,进行主题识别时,使用fastText分类模型作为主题识别模型,向fastText分类模型中引入所述开关模块。
7.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法,其特征在于,引入开关模块的改进领域知识文本主题识别模型自训练识别包括如下步骤:
获取当前带主题标注的领域知识文本集合和无主题标注的领域知识文本集合;
融合外部知识和共现网络的开关模块;
使用fastText分类模型作为主题识别模型,将当前带主题标注的领域知识文本集合输入主题识别模型训练获得主题识别模型;
从无主题标注的领域知识文本集合中取出一个无主题标注领域知识文本,使用所述主题识别模型对无标注领域知识文本样本进行主题识别,得到与所述无标注领域知识文本样本对应的候选主题,将所述无标注领域知识文本样本与候选主题输入开关模块,若开关打开,将所述无标注领域知识文本样本标注所述候选主题后加入带标注领域知识文本集合,从无标注领域知识文本样本集合中删除该无标注领域知识文本样本;若开关未打开,则拒绝将所述无标注领域知识文本样本加入带标注领域知识文本集合,并放回无标注领域知识文本样本集合,直至无标注领域知识文本样本集合为空集。
8.一种基于主题共现网络和外部知识的主题识别***,其特征在于,主题共现网络构建模块、开关模块构建模块以及主题识别模块;主题共现网络构建模块使用已有带主题标注的领域知识文本,检测文本中的主题词以及主题子词并以此构建主题共现网络;
开关模块构建模块使用主题共现网络对带主题标注的领域知识文本进行信息丰富度排序,并以所述排序结合外部知识构建开关模块;
主题识别模块将所述开关模块引入领域知识文本主题识别模型中,对无主题标注的领域知识文本进行主题识别。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述基于主题共现网络和外部知识的主题识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述基于主题共现网络和外部知识的主题识别方法的步骤。
CN202110128830.2A 2021-01-29 2021-01-29 基于主题共现网络和外部知识的主题识别方法、***及设备 Active CN112800214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110128830.2A CN112800214B (zh) 2021-01-29 2021-01-29 基于主题共现网络和外部知识的主题识别方法、***及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110128830.2A CN112800214B (zh) 2021-01-29 2021-01-29 基于主题共现网络和外部知识的主题识别方法、***及设备

Publications (2)

Publication Number Publication Date
CN112800214A true CN112800214A (zh) 2021-05-14
CN112800214B CN112800214B (zh) 2023-04-18

Family

ID=75813001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110128830.2A Active CN112800214B (zh) 2021-01-29 2021-01-29 基于主题共现网络和外部知识的主题识别方法、***及设备

Country Status (1)

Country Link
CN (1) CN112800214B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991127A (zh) * 2017-03-06 2017-07-28 西安交通大学 一种基于拓扑特征扩展的知识主题短文本层次分类方法
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
US20200097597A1 (en) * 2018-09-24 2020-03-26 International Business Machines Corporation On-demand relation extraction from text

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991127A (zh) * 2017-03-06 2017-07-28 西安交通大学 一种基于拓扑特征扩展的知识主题短文本层次分类方法
US20200097597A1 (en) * 2018-09-24 2020-03-26 International Business Machines Corporation On-demand relation extraction from text
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MA FEICHENG ET AL.: "Utilising social network analysis to study the characteristics and functions of the co-occurrence network of online tags", 《ONLINE INFORMATION REVIEW》 *
许海云等: "文本主题识别关键技术研究综述", 《情报科学》 *

Also Published As

Publication number Publication date
CN112800214B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110298033B (zh) 关键词语料标注训练提取***
US20210064821A1 (en) System and method to extract customized information in natural language text
CN105631009A (zh) 基于词向量相似度的检索方法和***
CN113806482B (zh) 视频文本跨模态检索方法、装置、存储介质和设备
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答***实现方法
Chrupała Text segmentation with character-level text embeddings
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与***
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN108345694B (zh) 一种基于主题数据库的文献检索方法及***
Najafi et al. Text-to-Text Transformer in Authorship Verification Via Stylistic and Semantical Analysis.
CN116662518A (zh) 问答方法、装置、电子设备及可读存储介质
Althobaiti et al. Combining minimally-supervised methods for arabic named entity recognition
Berrahou et al. How to extract unit of measure in scientific documents?
CN112800214B (zh) 基于主题共现网络和外部知识的主题识别方法、***及设备
CN115150354B (zh) 一种生成域名的方法、装置、存储介质及电子设备
CN115587163A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN116975275A (zh) 多语种文本分类模型训练方法、装置和计算机设备
CN115858733A (zh) 跨语言实体词检索方法、装置、设备及存储介质
CN113656575A (zh) 训练数据的生成方法、装置、电子设备及可读介质
Renuse et al. Multi label learning and multi feature extraction for automatic image annotation
CN113220824A (zh) 数据检索方法、装置、设备及存储介质
Lei et al. A Multilabel Learning-based Automatic Annotation Method for Semantic Roles in English Text
El-Sayed et al. An Improvement of FA Terms Dictionary using Power Link and Co-Word Analysis
CN110633446B (zh) 网页栏目识别模型训练方法、使用方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant