CN113468339A

CN113468339A - 基于知识图谱的标签提取方法、***、电子设备及介质

Info

Publication number: CN113468339A
Application number: CN202110704870.7A
Authority: CN
Inventors: 刘俊辰; 尤旸
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Nanjing Minglue Technology Co ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-10-01

Abstract

本发明公开了一种基于知识图谱的标签提取方法、***、电子设备及介质，标签提取方法包括：文档预处理步骤：对在线文档进行预处理获得实体和非实体；实体处理步骤：将实体映射到知识图谱中获得多个实体标签；非实体处理步骤：对非实体进行解析通过预设规则获得非实体序列，对非实体序列进行处理获得多个非实体标签；合并处理步骤：将多个实体标签与多个非实体标签进行合并和去重处理获得对应在线文档的文档标签。本发明通过引入实体识别，从而有针对性的抽取所需的实体类型作为文本标签；同时，通过知识图谱对抽取到的实体进行重要性排序，使得抽取到的标签更有价值，从而免去人工复检等操作，减少了人工成本。

Description

基于知识图谱的标签提取方法、***、电子设备及介质

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于知识图谱的标签提取方法、***、电子设备及介质。

背景技术

近来，在线文档因为其云存储，多人协作的特性有效提升了公司企业的办公效率，从而收到了越来越多的关注。在线文档除了拥有文档本身的信息，同时又携带了编辑者，浏览者等多人协作过程中产生的信息。这些信息可以轻易的与企业内部知识库，信息***以及企业知识图谱进行打通，关联，大大提升了在线文档的价值。

通过对在线文档进行标签提取，可以更加有效的支撑知识库的文档检索，推荐等智能化服务。文档标签的提取是通过nlp等技术从文档中抽取一条或几条文档的重要信息，这些信息是用户真正关注的内容，包括实体、关键短语等。利用这些标签可以使文档的查询，推荐等服务更加智能，更加准确，从而提升效率。

现有的技术大都是直接对文档进行关键词提取。如基于TF-IDF(词频-逆文档频率)，词频和逆文档频率的乘积作为单词的得分，选取得分较高的几个词作为关键词。基于TextRank的方法，用局部词汇关系，即共现窗口，构建候选关键词图，采用共现关系构造任两点之间的边，根据公式迭代计算各节点的权重，直至收敛。最后，对节点权重进行排序，选取前面几个作为关键词。但是在实际中发现，现有技术的方法都只是依赖于词频或词语共现来判断词语的重要程度，从而对抽取的关键词进行排序，在有些情况下并不够准确。即使在提取之前已经进行了去停用词操作，提取出的关键词仍然可能是一些出现较多却无明显意义的词汇，所以往往需要在提取后再进行人工筛选。也正因为此，现有技术的方法不能有针对性的对一些我们关注的词语类型进行集中抽取，如产品名称，部门名称，文档类型等等。

因此亟需开发一种克服上述缺陷的基于知识图谱的标签提取方法、***、电子设备及介质。

发明内容

针对上述问题，本申请实施例提供了一种基于知识图谱的标签提取方法、***、电子设备及介质，以至少解决对关注的词语类型进行集中抽取的问题。

本发明提供一种基于知识图谱的标签提取方法，其中，包括：

文档预处理步骤：对在线文档进行预处理获得实体和非实体；

实体处理步骤：将所述实体映射到知识图谱中获得多个实体标签；

非实体处理步骤：对所述非实体进行解析通过预设规则获得非实体序列，对所述非实体序列进行处理获得多个非实体标签；

合并处理步骤：将多个所述实体标签与多个所述非实体标签进行合并和去重处理获得对应所述在线文档的文档标签。

上述的标签提取方法，其中，所述文档预处理步骤包括：

实体获取步骤：通过实体识别技术抽取所述在线文档的多个所述实体；

非实体获取步骤：根据依存关系抽取所述在线文档的多个所述非实体。

上述的标签提取方法，其中，所述实体处理步骤包括：

实***置判断步骤：判断所述实体在所述在线文档中的位置；

实体标签获取步骤：将出现在所述在线文档的文档名或文档标题中的所述实体设置为所述实体标签；将所述知识图谱中与所述实体间的节点路径距离小于一阈值且在所述在线文档中出现的至少一实体也设置为所述实体标签；将出现在所述在线文档的正文中的所述实体也分别对应到所述知识图谱中，根据与所述实体对应的相关实体以及实体间的关系构建出新的小型知识图谱，通过PageRank算法对所述小型知识图谱的实体进行重要性排序，根据排序结果保留至少一实体设置为所述实体标签。

上述的标签提取方法，其中，所述非实体处理步骤包括：将出现在所述在线文档的标题中的所述非实体序列设置为所述非实体标签，对出现在所述在线文档的正文中的所述非实体序列根据词频进行排序后，选取至少一所述非实体序列设置为所述非实体标签。

本发明还提供一种基于知识图谱的标签提取***，其中，包括：

文档预处理单元，对在线文档进行预处理获得实体和非实体；

实体处理单元，将所述实体映射到知识图谱中获得多个实体标签；

非实体处理单元，对所述非实体进行解析通过预设规则获得非实体序列，对所述非实体序列进行处理获得多个非实体标签；

合并处理单元，将多个所述实体标签与多个所述非实体标签进行合并和去重处理获得对应所述在线文档的文档标签。

上述的标签提取***，其中，所述文档预处理单元包括：

实体获取模块，通过实体识别技术抽取所述在线文档的多个所述实体；

非实体获取模块，根据依存关系抽取所述在线文档的多个所述非实体。

上述的标签提取***，其中，所述实体处理单元包括：

实***置判断模块，判断所述实体在所述在线文档中的位置；

实体标签获取模块，将出现在所述在线文档的文档名或文档标题中的所述实体设置为所述实体标签；将所述知识图谱中与所述实体间的节点路径距离小于一阈值且在所述在线文档中出现的至少一实体也设置为所述实体标签；将出现在所述在线文档的正文中的所述实体也分别对应到所述知识图谱中，根据与所述实体对应的相关实体以及实体间的关系构建出新的小型知识图谱，通过PageRank算法对所述小型知识图谱的实体进行重要性排序，根据排序结果保留至少一实体设置为所述实体标签。

上述的标签提取***，其中，所述非实体处理单元将出现在所述在线文档的标题中的所述非实体序列设置为所述非实体标签，所述非实体处理单元对出现在所述在线文档的正文中的所述非实体序列根据词频进行排序后，选取至少一所述非实体序列设置为所述非实体标签。

本发明还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述中任一项所述的标签提取方法。

本发明还提供一种介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述中任一项所述的标签提取方法。

本发明应用于深度学习技术的自然语言处理，本发明相对于现有技术其功效在于：本发明通过引入实体识别，从而有针对性的抽取所需的实体类型作为文本标签；同时，通过知识图谱对抽取到的实体进行重要性排序，使得抽取到的标签更有价值，从而免去人工复检等操作，减少了人工成本。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的标签提取方法的流程图；

图2为图1中步骤S1的分步骤流程图；

图3为图1中步骤S2的分步骤流程图；

图4为本发明的标签提取方法的应用流程图；

图5为本发明的标签提取***的结构示意图；

图6为本发明的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等，并非特别指称次序或顺位的意思，也非用以限定本发明，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

文档标签的提取效果依赖与两方面，一是抽取出的实体或关键词的质量，二是抽取出的词的排序效果。抽取出的词往往要经过排序选取前topk个词作为代表文档的标签。如何得到更为合理的排序结果是一个非常重要的问题。本发明首先将文档标签分为两类，即实体和非实体，其中非实体以名词短语为例，两类标签分别进行抽取和排序；实体通过实体识别技术获得，此外还有在线文档携带一些编辑者，浏览者等实体，这些实体通过关联知识图谱进行排序，而非实体则通过抽取名词短语获得，并且根据出现位置，以及名词短语的词频进行综合排序；最后将两种类型的标签各取topk，然后合到一起作为最后的文档标签；以下结合附图对本发明进行具体说明如下。

请参照图1，图1为本发明的标签提取方法的流程图。如图1所示，基于知识图谱的标签提取方法包括：

文档预处理步骤S1：对在线文档进行预处理获得实体和非实体；

实体处理步骤S2：将所述实体映射到知识图谱中获得多个实体标签；

非实体处理步骤S3：对所述非实体进行解析通过预设规则获得非实体序列，对所述非实体序列进行处理获得多个非实体标签；

合并处理步骤S4：将多个所述实体标签与多个所述非实体标签进行合并和去重处理获得对应所述在线文档的文档标签。

其中，在本实施例中，非实体可以为名次短语，但本发明并不以此为限。

进一步地，请参照图2，图2为图1中步骤S1的分步骤流程图。如图2所示，所述文档预处理步骤S1包括：

实体获取步骤S11：通过实体识别技术抽取所述在线文档的多个所述实体；

非实体获取步骤S12：根据依存关系抽取所述在线文档的多个所述非实体。

其中，在本实施例中，实体可以为如产品、功能、技术、部门、文档类型等，其中文档类型可以为部署文档、***、使用手册等。采用的实体识别技术如基于词典的方法以及基于深度学习神经网络的方法，如CRF、LSTM+CRF、Bert+CRF等序列标注模型，本发明通过使用实体识别对所需要的实体类型进行集中抽取，缩小抽取范围，使最终的文档标签更加准确。

再进一步地，请参照图3，图3为图1中步骤S2的分步骤流程图。如图3所示，所述实体处理步骤S2包括：

实***置判断步骤S21：判断所述实体在所述在线文档中的位置；

实体标签获取步骤S22：将出现在所述在线文档的文档名或文档标题中的所述实体设置为所述实体标签；将所述知识图谱中与所述实体间的节点路径距离小于一阈值且在所述在线文档中出现的至少一实体也设置为所述实体标签；将出现在所述在线文档的正文中的所述实体也分别对应到所述知识图谱中，根据与所述实体对应的相关实体以及实体间的关系构建出新的小型知识图谱，通过PageRank算法对所述小型知识图谱的实体进行重要性排序，根据排序结果保留至少一实体设置为所述实体标签。本发明通过利用知识图谱中的实体和实体间的关系对抽取到的实体进行重要性排序，使排序结果更加准确。

更进一步地，所述非实体处理步骤S3包括：将出现在所述在线文档的标题中的所述非实体序列设置为所述非实体标签，对出现在所述在线文档的正文中的所述非实体序列根据词频进行排序后，选取至少一所述非实体序列设置为所述非实体标签。

以下请参照图4，图4为本发明的标签提取方法的应用流程图。结合图4以一具体实施例对本发明的标签提取方法进行具体说明。

(1)实体标签：

首先，通过实体识别技术从在线文档中抽取所需类型的实体。

需要说明的是，在本实施例中除了实体识别抽取的实体，还有一部分是在线文档所携带的文档的编辑者，浏览者，管理者等等实体。将这些实体连同抽取到的实体全部映射到企业知识图谱中。即在图谱中找到相应的实体节点。

知识图谱是一种基于图的数据结构，由节点和边组成，每个节点表示一个实体，比如员工、产品、公司等，每条边为是实体与实体之间的关系，本质上是一种揭示实体之间关系的语义网络，能够把所有信息连接在一起。企业知识图谱是基于企业中大量数据构建而成的，可以更好的反映出实体之间的关联性，从而找出更能体现文档内容的实体。

根据实体在文档中出现的位置，有不同的处理方式。

A.当实体出现在文档名或者文档标题中，视为非常重要的实体，直接归为实体标签。此外，企业知识图谱中与此实体节点的路径距离<＝2，且在文档中出现的所有实体也直接归为实体标签。这些标签在知识图谱中与文档标题中的重要实体紧密相连，所以也具有很高的重要性。这里可以根据需要控制一下实体标签的数量，如根据路径距离取前5个，但本发明并不对数量进行限制。

B.其余出现在文档正文中的实体也分别对应到企业知识图谱中，然后将对应的相关实体以及实体间的关系全部摘出来组成一个针对与此篇文档的新的小型知识图谱。通过PageRank算法对小型知识图谱的实体进行重要性排序。PageRank是一种图计算算法，通过不断迭代计算节点之间连接的权重，从而对实体节点的重要性进行排序。最后，根据排序后的结果保留topk作为实体标签。

(2)非实体标签

需要说明的是，本实施例中以非实体标签为名词短语标签为例进行说明。

抽取在线文档的标题和正文中的名词短语。这里的名词短语不包括前面已经抽取过的实体。

名词短语的抽取是通过spacy的中文模型解析待抽取句子的依存关系，通过根据依存关系制定的规则提取常规名词短语序列和包含特殊动词结构的名词短语序列。最后对提取出的短语序列进行整合。根据长度，保留2-7字以内的名词短语，并过滤掉通用词和脏词，其中脏词可为根据测试结果人工收集。

C.若名词短语出现在标题中，则视为重要的名词短语，直接保留作为非实体标签。

D.其余出现在正文中的名词短语根据出现的词频进行重要性排序，之后选择前topk作为非实体标签。

由此本发明还考虑了除所需实体之外的名词短语标签，从而避免了遗漏重要的标签信息的情况。

(3)文档标签去重

将A，B，C，D中提取出的实体标签和非实体标签集中到一起进行去重处理后，得到最后的文档标签。

请参照图5，图5为本发明的标签提取***的结构示意图。如图5所示，本发明的基于知识图谱的标签提取***包括：

文档预处理单元11，对在线文档进行预处理获得实体和非实体；

实体处理单元12，将所述实体映射到知识图谱中获得多个实体标签；

非实体处理单元13，对所述非实体进行解析通过预设规则获得非实体序列，对所述非实体序列进行处理获得多个非实体标签；

合并处理单元14，将多个所述实体标签与多个所述非实体标签进行合并和去重处理获得对应所述在线文档的文档标签。

进一步地，所述文档预处理单元11包括：

实体获取模块111，通过实体识别技术抽取所述在线文档的多个所述实体；

非实体获取模块112，根据依存关系抽取所述在线文档的多个所述非实体。

再进一步地，所述实体处理单元12包括：

实***置判断模块121，判断所述实体在所述在线文档中的位置；

实体标签获取模块122，将出现在所述在线文档的文档名或文档标题中的所述实体设置为所述实体标签；将所述知识图谱中与所述实体间的节点路径距离小于一阈值且在所述在线文档中出现的至少一实体也设置为所述实体标签；将出现在所述在线文档的正文中的所述实体也分别对应到所述知识图谱中，根据与所述实体对应的相关实体以及实体间的关系构建出新的小型知识图谱，通过PageRank算法对所述小型知识图谱的实体进行重要性排序，根据排序结果保留至少一实体设置为所述实体标签。

更进一步地，所述非实体处理单元13将出现在所述在线文档的标题中的所述非实体序列设置为所述非实体标签，所述非实体处理单元对出现在所述在线文档的正文中的所述非实体序列根据词频进行排序后，选取至少一所述非实体序列设置为所述非实体标签。

请参照图6，图6为本发明的电子设备的结构示意图。如图6所示，本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种标签提取方法。

在其中一些实施例中，电子设备还可包括通信接口83和总线80。其中，如图6所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated GraphicsPort，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(Infini Band)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、***组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中处理方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种标签提取方法。

综上所述，本发明通过引入实体识别，从而有针对性的抽取所需的实体类型作为文本标签；同时，通过知识图谱对抽取到的实体进行重要性排序，使得抽取到的标签更有价值，从而免去人工复检等操作，减少了人工成本。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于知识图谱的标签提取方法，其特征在于，包括：

2.如权利要求1所述的标签提取方法，其特征在于，所述文档预处理步骤包括：

3.如权利要求1所述的标签提取方法，其特征在于，所述实体处理步骤包括：

实***置判断步骤：判断所述实体在所述在线文档中的位置；

4.如权利要求1所述的标签提取方法，其特征在于，所述非实体处理步骤包括：将出现在所述在线文档的标题中的所述非实体序列设置为所述非实体标签，对出现在所述在线文档的正文中的所述非实体序列根据词频进行排序后，选取至少一所述非实体序列设置为所述非实体标签。

5.一种基于知识图谱的标签提取***，其特征在于，包括：

非实体处理单元，对所述非实体进行解析通过预设规则获得名非实体序列，对所述非实体序列进行处理获得多个非实体标签；

6.如权利要求5所述的标签提取***，其特征在于，所述文档预处理单元包括：

7.如权利要求5所述的标签提取***，其特征在于，所述实体处理单元包括：

实***置判断模块，判断所述实体在所述在线文档中的位置；

8.如权利要求5所述的标签提取***，其特征在于，所述非实体处理单元将出现在所述在线文档的标题中的所述非实体序列设置为所述非实体标签，所述非实体处理单元对出现在所述在线文档的正文中的所述非实体序列根据词频进行排序后，选取至少一所述非实体序列设置为所述非实体标签。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的标签提取方法。

10.一种介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的标签提取方法。