CN112800214A

CN112800214A - 基于主题共现网络和外部知识的主题识别方法、***及设备

Info

Publication number: CN112800214A
Application number: CN202110128830.2A
Authority: CN
Inventors: 魏笔凡; 祁敬超; 刘均; 郑庆华; 杨祎; 罗强; 洪振杰; 武雨辰
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-14
Anticipated expiration: 2041-01-29
Also published as: CN112800214B

Abstract

本发明公开了一种基于主题共现网络和外部知识的主题识别方法，方法具体为：基于标注数据的主题共现网络构建：使用已有带主题标注的领域知识文本，检测文本中的主题子词并以此构建主题共现网络；融合外部知识和主题共现网络的开关模块构建：使用共现网络对带主题标注的领域知识文本进行信息丰富度排序，并以此排序结合外部知识构成开关模块；引入开关模块的改进领域知识文本主题识别模型自训练：使用自训练方法训练领域知识文本主题识别模型，尽可能使用无主题标注的领域知识文本的信息，防止自训练不加选择地学习无主题标注领域知识文本导致泛化性能下降；更充分更高效地利用有限语料信息，提升领域知识文本主题识别模型的性能。

Description

基于主题共现网络和外部知识的主题识别方法、***及设备

技术领域

本发明属于文本识别技术领域，尤其涉及基于主题共现网络和外部知识的主题识别方法、***及设备。

背景技术

知识总量在互联网时代的***式增长使得知识碎片化问题日益凸显，由于缺乏统一的知识组织管理形式，用户通常需要花费较多时间在海量的碎片化知识中寻找有价值的领域知识文本进行学习，信息获取效率偏低。将领域知识文本按照其描述的知识主题进行分类存储，能够提高检索和学习的效率，同时为其它领域知识相关的下游应用提供技术支持。

领域知识文本通常包含较多领域专业术语，来自不同领域的知识文本的描述对象和表达方式有着很大的区别。为领域知识文本标注主题需要相关领域的专家或经充分培训的标注人员人工参与，在领域不断增多时，人工标注的成本将成倍增长，因此带主题标注的领域知识文本样本数量有限，同时扩充成本较高；而在特征海量、样本有限的情况下，对于领域知识文本的主题识别任务，传统机器学习方法性能表现难以满足工程应用需求。因此需要人工参与数据标注尽可能少、主题识别效率和准确率较高的方法。

现有技术中与本发明密切相关的专利，分别是：

1、一种基于图数据库的知识森林构建方法，专利号：CN201810068490.7

2、一种半监督分类预测方法，专利号：CN 201910188479.9

3、一种基于词共现的汉语实体关系提取的控制方法及装置，专利号：CN201110001355.9；专利1统计每条文本包含的主题关键词个数，寻找其包含最多的主题关键词作为文本主题；专利2通过寻找类别中心和随机采样方法实现降低数据冗余度两个措施实现半监督分类预测，专利1和专利2均没有进一步挖掘数据共现网络等信息。专利3使用的词共现关系为全词匹配，没有考虑领域知识中的子词特性。

发明内容

为了解决现有技术的问题，本发明提供一种基于主题共现网络和外部知识的主题识别方法，故以主题为节点，以主题子词在领域知识文本中的共现频率为边权重构建主题共现网络，可以更好地利用已有样本，提升领域知识文本主题识别模型的性能，可以更充分更高效地利用有限语料信息。

为达到以上目的，本发明采用如下技术方案：基于主题共现网络和外部知识的主题识别方法，具体步骤如下：

使用已有带主题标注的领域知识文本，检测文本中的主题词以及主题子词并以此构建主题共现网络；

使用主题共现网络对带主题标注的领域知识文本进行信息丰富度排序，并以所述排序结合外部知识构建开关模块；

将所述开关模块引入领域知识文本主题识别模型中，对无主题标注的领域知识文本进行主题识别。

构建主题共现网络具体如下：

首先，初始化一个主题共现网络，每个主题用一个节点表示，所有节点两两间由一条边相连，边的权重均为0，对于每个带主题标注的领域知识文本，分词后识别并记录每个文本中出现的主题关键词以及主题关键词的子词，记为主题子词，当两个主题关键词或主题关键词的子词同时出现在同一个领域知识文本中时，为连接这两个主题子词各自对应主题的节点的边增加权重，同时记录每条边权重增量的来源领域知识文本；直到所有从已有带主题标注的主题共现关系均在主题共现网络中更新完毕，得到主题共现网络。

构建融合外部知识和主题共现网络的开关模块具体如下：

选定基础外部知识；

对于所述主题共现网络，按节点带权度的大小对主题进行权重排序；

对于每个领域知识文本，其信息丰富度由其所包含的所有主题的权重之和计算而来，并由此得到所述领域知识文本的信息丰富度排序，构建融合外部知识和主题共现网络的开关模块，对每个由主题识别模型给出候选主题且拟加入带标注领域知识文本集合的无标注领域知识文本样本进行判断，将样本与对应主题关键词的基础外部知识进行相似性计算，再与该主题下信息丰富度排名高于阈值的前3条领域知识文本进行相似性计算，，得到4个相似度值，将所述相似度值与设定阈值进行比较，根据所述结果确定开关是否打开。

所述基础外部知识采用***或百度百科中主题关键词对应词条下的摘要部分文本。

对无主题标注的领域知识文本进行主题识别具体为：首先用所有带标注领域知识文本训练初始主题识别模型，之后对每个无标注领域知识文本进行主题识别，对于无标注样本的识别结果，如果主题识别结果置信度大于阈值，则将该结果输入所述开关模块进行判别，若开关模块打开，则将该样本标注对应主题后加入带标注领域知识文本集合；否则拒绝将此样本加入带标注领域知识文本集合。

进行主题识别时，使用fastText分类模型作为主题识别模型，向fastText分类模型中引入所述开关模块。

引入开关模块的改进领域知识文本主题识别模型自训练识别包括如下步骤：

获取当前带主题标注的领域知识文本集合和无主题标注的领域知识文本集合；

融合外部知识和共现网络的开关模块；

使用fastText分类模型作为主题识别模型，将当前带主题标注的领域知识文本集合输入主题识别模型训练获得主题识别模型；

从无主题标注的领域知识文本集合中取出一个无主题标注领域知识文本，使用所述主题识别模型对无标注领域知识文本样本进行主题识别，得到与所述无标注领域知识文本样本对应的候选主题，将所述无标注领域知识文本样本与候选主题输入开关模块，若开关打开，将所述无标注领域知识文本样本标注所述候选主题后加入带标注领域知识文本集合，从无标注领域知识文本样本集合中删除该无标注领域知识文本样本；若开关未打开，则拒绝将所述无标注领域知识文本样本加入带标注领域知识文本集合，并放回无标注领域知识文本样本集合，直至无标注领域知识文本样本集合为空集。

一种基于主题共现网络和外部知识的主题识别***，主题共现网络构建模块、开关模块构建模块以及主题识别模块；主题共现网络构建模块使用已有带主题标注的领域知识文本，检测文本中的主题词以及主题子词并以此构建主题共现网络；

开关模块构建模块使用主题共现网络对带主题标注的领域知识文本进行信息丰富度排序，并以所述排序结合外部知识构建开关模块；

主题识别模块将所述开关模块引入领域知识文本主题识别模型中，对无主题标注的领域知识文本进行主题识别。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时本发明所述基于主题共现网络和外部知识的主题识别方法的步骤。

本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明所述基于主题共现网络和外部知识的主题识别方法的步骤。

与现有技术相比，本发明至少具有以下有益效果：

本发明检测领域知识文本的主题子词，并基于主题子词检测的结果构建主题共现网络，更充分地挖掘领域知识文本中主题关键词的多样化显式表达，使主题共现网络自身的信息量更加丰富完整；使用主题共现网络，生成带主题标注的领域知识文本的信息丰富度排序，并加入外部知识构建开关模块，使开关模块具有充分的信息来判断主题识别的正确性；引入开关模块，使用自训练方法训练领域知识文本主题识别模型，尽可能使用无主题标注的领域知识文本的信息，采用开关模块对主题识别模型的自训练过程进行调节，防止自训练不加选择地学习无主题标注领域知识文本导致泛化性能下降，本发明提出的方法可以更充分更高效地利用有限语料信息，提升领域知识文本主题识别模型的性能。

附图说明

图1是本发明基于主题共现网络和外部知识的自训练主题识别方法流程图。

图2是本发明***页面摘要文本示意图。

图3是本发明基于标注数据的主题共现网络构建流程图。

图4是本发明主题共现网络示意图。

图5是本发明融合外部知识和主题共现网络的开关模块构建流程图。

图6是本发明引入开关模块的改进领域知识文本主题识别模型自训练流程图。

具体实施方式

以下结合附图及实施例对本发明作进一步的详细说明。

参考图1，基于主题共现网络和外部知识的自训练主题识别方法，包括基于标注数据的主题共现网络构建、融合外部知识和主题共现网络的开关模块构建、引入开关模块的改进领域知识文本主题识别模型自训练，具体流程如下：

构建基于标注数据的主题共现网络：首先，初始化一个主题共现网络，每个主题用一个节点表示，所有节点两两间由一条边相连，边的权重均为0，对于每个带主题标注的领域知识文本，分词后识别并记录每个文本中出现的主题关键词以及主题关键词的子词，记为主题子词，当两个主题子词同时出现在同一个领域知识文本中时，为连接这两个主题子词各自对应的主题节点的边增加权重，同时记录每条边权重增量的来源领域知识文本；直到所有从已有带主题标注的主题共现关系均在主题共现网络中更新完毕；得到主题共现网络，参考图4。

(2)构建融合外部知识和主题共现网络的开关模块：采用***主题关键词对应词条下的摘要部分文本作为基础外部知识，参考图2；对于步骤(1)中构建的主题共现网络，按节点带权度的大小对主题进行权重排序；对于每个领域知识文本，其信息丰富度由其所包含的所有主题的权重之和计算而来，领域知识文本的信息丰富度与包含的所有主题的权重之和正相关，并由此得到领域知识文本的信息丰富度排序；构建融合外部知识和主题共现网络的开关模块；对每个拟加入带标注领域知识文本集合的无标注领域知识文本样本进行判断，判断时由主题识别模型给出候选主题；将样本与对应主题关键词的***词条摘要进行相似性计算，再与该主题下信息丰富度排名高于阈值的前3条领域知识文本进行相似性计算，输出的4个相似度若存在大于设定阈值的，则打开开关，将该样本标注对应主题后加入带标注领域知识文本集合；否则关闭开关，拒绝将此样本加入带标注领域知识文本集合；

将所述开关模块引入主题识别模型，并对领域知识文本主题识别模型进行自训练：使用引入开关模块改进的自训练策略训练主题识别模型，首先，用所有带标注领域知识文本训练初始主题识别模型，之后对每个无标注领域知识文本样本进行主题识别；对于无标注文本样本的识别结果，如果主题识别结果的置信度大于阈值，则将该结果输入步骤(2)构建的开关模块进行判别，若开关模块打开，则将该样本标注对应主题后加入带标注领域知识文本集合；否则拒绝将此样本加入带标注领域知识文本集合。重复上述过程直至无主题标注领域知识样本集合为空。如图2所示，***页面摘要文本wiki_i如方框中所示，是主题t_i页面标题下的一段用来概括性介绍t_i的文本。

如图3所示，基于标注数据的主题共现网络构建包括3个步骤，具体流程如下：

(1)设当前领域下的主题集合T＝{t₁，t₂，…，t_k|k∈N⁺}，带主题标注的领域知识文本集合为D_l＝{(d₁，l₁)，(d₂，l₂)，…，(d_p，l_p)|p∈N⁺，l_p∈T}，无主题标注的领域知识文本集合为D_u＝{d_p+1，d_p+2，…，d_p+q|p，q∈N⁺}，所有领域知识文本集合为D＝D_l∪D_u，初始化主题共现网络为TKCN₀＝{N，E₀}，其中N＝{n₁，n₂，n₃，…，n_k|k∈N⁺}，n_i代表主题t_i在主题共现网络中的对应节点，

(2)初次执行时令a＝1(之后a由(3)赋值)，对于带主题标注的领域知识文本(d_a，l_a)，将d_a中出现的主题子词集合记为

若

同时是多个t_i的子词，则忽略

以避免冲突，即

对于每个主题子词对所对应的主题对(t_i，t_j)(t_i，t_j∈T_a，i≠j)，将TKCN_a-1＝{N，E_a-1}中，E_a-1的所有对应e_ij边权重加1，并记录e_ij边权重增量的来源领域知识文本(d_a，l_a)，即(e_ij，w_ij，contrib_ij)→(e_ij，w_ij+1，contrib_ij∪{(d_a，l_a)})，得到E_a，构造出主题共现网络TKCN_a＝{N，E_a}；

(3)令a＝a+1，若a＝p+1，所有已有带主题标注的领域知识文本中的主题共现关系均在主题共现网络中更新完毕，执行结束；否则读入下一个带主题标注的领域知识文本(d_a，l_a)，执行步骤(2)。

如图5所示，构建融合外部知识和主题共现网络的开关模块包括4个步骤，具体流程如下：

①若主题t_i的***页面存在，则提取对应***页面中的摘要文本wiki_i，否则记wiki_i为空；

②将主题共现网络记为TKCN＝{N＝{n₁，n₂，n₃，…，n_k}，E＝{(e_ij，w_ij，contrib_ij)|i，j∈1，2，…，k，i≠j}，其中contrib_ij＝{(d_a，l_a)，(d_b，d_b)，…|a，b，…∈{1，2，…，k}}。计算主题节点n_i的带权度de_i＝∑w_ij(j＝1，2，…，k，j≠i)。从大到小的顺序对节点n_i进行排序，更新主题T＝{t₁，t₂，，…，t_k|k∈N⁺}的下标为排序顺序，同时由此更新节点、权度的下标及TKCN中节点、边及权重的下标，构建带权重的主题排序T_rank＝{(t₁，de₁)，(t₂，de₂)，…，(t_k，de_k)}；

③对D_l＝{(d₁，l₁)，(d₂，l₂)，…，(d_p，l_p)|p∈N⁺，l_p∈T}中的每个(d_i，l_i)，查询d_i中的所有主题子词记为

若

同时是多个t_i的子词，则

计算(d_i，l_i)的信息丰富度

对于某个主题t_i，按信息丰富度从大到小选出该主题下排在前3的带主题标注领域知识文本topd_i＝{d_i1，d_i2，d_i3}，将步骤(1)与步骤(3)的wiki_i与topd_i结合，得到主题外部知识EK_i＝{wiki_i}∪topd_i＝{wiki_i，d_i1，d_i2，d_i3}；

④构建开关模块Mod_switch，输入是由主题识别模型M_topic给出的候选主题为t_candilabel且拟加入带标注领域知识文本集合的无标注领域知识文本样本d_i(i＝p+1，p+2，…，p+q，p，q∈N⁺)，使用fastText预训练模型对样本d_i进行词嵌入得到

对EK_candilabel进行词嵌入得到

(尺寸为[4，embed_size])，计算

与

的cos相似度sim_i＝[s_i1，s_i2，s_i3，s_i4]^T，若存在s_ij(j＝1，2，3，4)大于设定的阈值θ，则开关模块Mod_switch输出为open，将样本d_i标注主题t_candilabel后加入带标注领域知识文本集合；否则输出为close，关闭开关，拒绝将此样本加入带标注领域知识文本集合。这里如果wiki_i为空，则s_i1≡0，不影响开关模块工作。

如图6所示，引入开关模块的改进领域知识文本主题识别模型自训练包括4个步骤，具体流程如下：

(1)输入当前领域下的主题集合T＝{t₁，t₂，…，t_k|k∈N⁺}，带主题标注的领域知识文本集合为D_l＝{(d₁，l₁)，(d₂，l₂)，…，(d_p，l_p)|p∈N⁺，l_p∈T}，无主题标注的领域知识文本集合为D_u＝{d_p+1，d_p+2，…，d_p+q|p，q∈N⁺}，所有领域知识文本集合为D＝D_l∪D_u，融合外部知识和共现网络的开关模块Mod_switch；

(2)使用fastText分类模型作为主题识别模型M，将D_l输入M训练获得初始主题识别模型M₀，令i＝1；

(3)从D_u中取出一个无主题标注领域知识文本d_p+i，使用M_i-1对d_p+i进行主题识别，得到候选主题

将d_p+i与

输入开关模块Mod_switch，若输出为open，将样本d_p+i标注主题

后加入带标注领域知识文本集合D_l，即

从D_u中删除d_p+i，即D_u＝D_u-{d_p+i}；否则输出为close，关闭开关，拒绝将此样本加入带标注领域知识文本集合，放回D_u。使用D_l训练得到M_i，若

则令i＝i+1；

(4)重复步骤(3)，直至

本发明提供一种基于主题共现网络和外部知识的主题识别***，主题共现网络构建模块、开关模块构建模块以及主题识别模块；主题共现网络构建模块使用已有带主题标注的领域知识文本，检测文本中的主题词以及主题子词并以此构建主题共现网络；

本发明基于主题共现网络和外部知识的主题识别方法可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明基于主题共现网络和外部知识的主题识别方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

基于这样的理解，在示例性实施例中，还提供了一种计算机可读存储介质，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于该计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。其中，所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

在示例性实施例中，还提供计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述基于主题共现网络和外部知识的主题识别方法的步骤。处理器可能是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor、DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

Claims

1.基于主题共现网络和外部知识的主题识别方法，其特征在于，具体步骤如下：

2.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法，其特征在于，构建主题共现网络具体如下：

初始化一个主题共现网络，每个主题用一个节点表示，所有节点两两间由一条边相连，边的权重均为0，对于每个带主题标注的领域知识文本，分词后识别并记录每个文本中出现的主题关键词以及主题关键词的子词，记为主题子词，当两个主题关键词或主题关键词的子词同时出现在同一个领域知识文本中时，为连接这两个主题子词各自对应主题的节点的边增加权重，同时记录每条边权重增量的来源领域知识文本；直到所有从已有带主题标注的主题共现关系均在主题共现网络中更新完毕，得到主题共现网络。

3.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法，其特征在于，构建融合外部知识和主题共现网络的开关模块具体如下：

选定基础外部知识；

对于每个领域知识文本，其信息丰富度由其所包含的所有主题的权重之和计算而来，并由此得到所述领域知识文本的信息丰富度排序，构建融合外部知识和主题共现网络的开关模块，对每个由主题识别模型给出候选主题且拟加入带标注领域知识文本集合的无标注领域知识文本样本进行判断，将样本与对应主题关键词的基础外部知识进行相似性计算，再与该主题下信息丰富度排名高于阈值的前3条领域知识文本进行相似性计算，得到4个相似度值，将所述相似度值与设定阈值进行比较，根据所述结果确定开关是否打开。

4.如权利要求3所述的基于主题共现网络和外部知识的主题识别方法，其特征在于，所述基础外部知识采用***或百度百科中主题关键词对应词条下的摘要部分文本。

5.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法，其特征在于，对无主题标注的领域知识文本进行主题识别具体为：首先，用所有带标注领域知识文本训练初始主题识别模型；其次，对每个无标注领域知识文本进行主题识别，对于无标注样本的识别结果，如果主题识别结果置信度大于阈值，则将该结果输入所述开关模块进行判别，若开关模块打开，则将该样本标注对应主题后加入带标注领域知识文本集合；否则拒绝将此样本加入带标注领域知识文本集合。

6.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法，其特征在于，进行主题识别时，使用fastText分类模型作为主题识别模型，向fastText分类模型中引入所述开关模块。

7.如权利要求1所述的基于主题共现网络和外部知识的主题识别方法，其特征在于，引入开关模块的改进领域知识文本主题识别模型自训练识别包括如下步骤：

融合外部知识和共现网络的开关模块；

8.一种基于主题共现网络和外部知识的主题识别***，其特征在于，主题共现网络构建模块、开关模块构建模块以及主题识别模块；主题共现网络构建模块使用已有带主题标注的领域知识文本，检测文本中的主题词以及主题子词并以此构建主题共现网络；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述基于主题共现网络和外部知识的主题识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述基于主题共现网络和外部知识的主题识别方法的步骤。