CN114238654A - 一种知识图谱的构建方法、装置和计算机可读存储介质 - Google Patents

一种知识图谱的构建方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN114238654A
CN114238654A CN202111536550.1A CN202111536550A CN114238654A CN 114238654 A CN114238654 A CN 114238654A CN 202111536550 A CN202111536550 A CN 202111536550A CN 114238654 A CN114238654 A CN 114238654A
Authority
CN
China
Prior art keywords
title
knowledge
category
text
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111536550.1A
Other languages
English (en)
Inventor
李新鹏
彭加琪
王松
崔玉波
李春杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111536550.1A priority Critical patent/CN114238654A/zh
Publication of CN114238654A publication Critical patent/CN114238654A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种知识图谱的构建方法、装置和计算机可读存储介质,该方法包括:获取待处理文档的目录标题与知识类别之间的类别映射表;基于待处理文档的正文数据与类别映射表,生成知识点类别,知识点类别为正文数据对应的知识类别;对正文数据进行解析处理,得到解析数据,解析数据包括实体属性名称与属性值;基于知识点类别、实体属性名称以及属性值,生成知识图谱。通过上述方式,本申请能够降低人力成本。

Description

一种知识图谱的构建方法、装置和计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种知识图谱的构建方法、装置和计算机可读存储介质。
背景技术
知识的丰富程度是体现机器智能化的重要因素,人工智能(ArtificialIntelligence,AI)***获取知识的来源和格式是多样化的,如:通过人工整理将人类具备的知识手动输送给AI***、通过互联网获取知识或来源于具体产品说明书的非结构化知识等;通过对知识进行抽取可形成知识图谱,如何快速高效地构建一个知识图谱成为知识图谱研究的基础工作之一,但是相关技术中采用的知识图谱的构建方案存在效率低下或模型的训练成本较高的问题。
发明内容
本申请提供一种知识图谱的构建方法、装置和计算机可读存储介质,能够降低人力成本。
为解决上述技术问题,本申请采用的技术方案是:提供一种知识图谱的构建方法,该方法包括:获取待处理文档的目录标题与知识类别之间的类别映射表;基于待处理文档的正文数据与类别映射表,生成知识点类别,知识点类别为正文数据对应的知识类别;对正文数据进行解析处理,得到解析数据,解析数据包括实体属性名称与属性值;基于知识点类别、实体属性名称以及属性值,生成知识图谱。
为解决上述技术问题,本申请采用的另一技术方案是:提供一种知识图谱构建装置,该知识图谱构建装置包括互相连接的存储器和处理器,其中,存储器用于存储计算机程序,计算机程序在被处理器执行时,用于实现上述技术方案中的知识图谱的构建方法。
为解决上述技术问题,本申请采用的另一技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,计算机程序在被处理器执行时,用于实现上述技术方案中的知识图谱的构建方法。
通过上述方案,本申请的有益效果是:先人工构建待处理文档的目录与知识类别之间的映射关系,生成类别映射表;然后由机器获取类别映射表,并利用该类别映射表以及待处理文档的正文数据,生成待处理文档中每个知识点对应的知识点类型、实体属性名称以及属性值,进而构建出与各个知识点相关的知识图谱;由于无需训练知识抽取模型,因此无需获取训练知识抽取模型所需的训练数据集,无需大量人工进行标注,相较于主要依赖人工或人机耦合进行抽取的方案,可以投入更少的人力成本,获得更高效和准确的结果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的知识图谱的构建方法一实施例的流程示意图;
图2是本申请提供的知识图谱的构建方法另一实施例的流程示意图;
图3是本申请提供的末级标题与倒数第二级标题的示意图;
图4是图3所示的实施例中S24的流程示意图;
图5是图4所示的实施例中S43的流程示意图;
图6是本申请提供的汽车使用手册的目录的示意图;
图7是图6中章节与知识类别的映射关系;
图8是图6中“操作各部件”章节的子章节的示意图;
图9是图8中“前排座椅”的具体内容;
图10是图6、图8以及图9对应的层级结构的示意图;
图11是图9对应的知识信息;
图12是本申请提供的知识图谱构建装置一实施例的结构示意图;
图13是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本申请作进一步的详细描述。特别指出的是,以下实施例仅用于说明本申请,但不对本申请的范围进行限定。同样的,以下实施例仅为本申请的部分实施例而非全部实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
需要说明的是,本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先对知识图谱的构建进行介绍,一个特定领域(如:汽车知识或医疗知识)的知识图谱通常有着严谨的知识结构体系,构建过程包括知识本体建模和实体知识抽取。本体建模主要是由领域专家梳理并设计好知识结构,然后再到实体知识抽取阶段,将不同来源和形式多样的源数据通过相应的技术方案转化为结构化的知识。在实体知识抽取阶段,对于具有少量内容知识的应用场景,可以完全依靠人工整理或者导入,但对于汽车或医学等场景,完全依靠人工构建知识图谱显然是费时又费力的。
对于一些非结构化或者半结构化形式的数据(如:产品使用说明书)来说,当前主要还是依赖人机耦合的方式进行知识抽取,即人工标注数据、机器训练知识抽取模型以及机器辅助抽取与人工确认相结合。具体地,先收集同领域的文档列表,例如:以汽车零部件知识领域为例,文档列表为各大车系的产品使用说明书,将文档列表上传到标注平台,创建标注任务后分配给标注员进行标注,标注过程需要用到知识平台中定义好的知识结构标签,利用标注的结果生成训练数据集输入到训练平台;训练平台创建训练任务,加载训练数据集,生成知识抽取模型;然后由机器运行知识抽取模型,负责抽取待抽取文档(例如:某一具体车型的使用说明书)中的知识点;抽取的结果还需要经由审核员最终确认才能入库。
上述方案采取的人工标注和机器辅助抽取相结合的方式,相较于传统完全依靠人工进行抽取的方案,实现了一定的智能化;但经过业务实践验证发现机器辅助抽取的效果取决于训练数据集的多少和质量。一方面,用作训练知识抽取模型的数据量越多,知识抽取模型的效果越好,结果越准确,因而要保证知识抽取模型的效果和准确性越好,就需要标注较多的训练数据集,这无疑会耗费较多的人力。另一方面,前期标注过程中由于人工参与的主观性会影响训练数据集的质量,如果训练数据集本身的质量就不高,则知识抽取模型的效果和机器辅助抽取的结果也会很低。因此,一旦前期标注的数据量不足,或者是训练数据集的质量不高,就会导致模型的准确性低,为了保证最终入库质量,后续仍需投入较大的人力进行审核确认。甚至在一些应用场景中,该方案相较于完全依靠人工抽取的方案,投入的成本更高、效果却更差;例如,在抽取汽车使用说明书内容的应用场景中,目标是准确抽取一本使用手册(比如:400页)中的知识并入库;完全采取人工整理进行抽取的方式,需要投入3-5个人力耗费2个月的时间才能完成;如果采用上述人机耦合的方案,首先需要标注至少同等篇幅的说明书,也即在标注训练数据集阶段所使用的人力已经达到了全人工抽取的人力,后续在模型训练阶段,还需要投入研究人员研发和优化模型,最后在审核入库阶段还需要审核员参与审核,因此该方案的全部人力投入明显高于全人工抽取方案的人力,另外模型训练还需要耗费昂贵的图形处理器(graphics processing unit,GPU)服务器资源等。
基于上述问题,本申请提出一种基于文档结构的抽取方案,下面对本申请所采用的技术方案进行详细阐述。
请参阅图1,图1是本申请提供的知识图谱的构建方法一实施例的流程示意图,该方法包括:
S11:获取待处理文档的目录标题与知识类别之间的类别映射表。
可从文档数据库中获取待处理文档,或者从网上下载待处理文档,或者接收其他设备发送的待处理文档,该待处理文档可以为产品说明书、论文或书籍等具备目录的非结构化文档。
进一步地,知识类别主要来源待处理文档中的章节标题,为了便于构建领域统一、标准化的知识类别,知识类别不能直接采用章节标题,需要事先定义并且建立到章节标题的映射关系。具体地,对于获取到的待处理文档,采用人工的方式对该待处理文档的目录结构进行解析,建立目录中各个章节与知识类别之间的映射关系,生成类别映射表,以便后续使用。具体地,目录标题包括首级标题,类别映射表包括首级标题以及与首级标题对应的知识类别。
S12:基于待处理文档的正文数据与类别映射表,生成知识点类别。
在获取到类别映射表之后,通过对待处理文档的正文数据与类别映射表进行处理,便可生成知识点类别,该知识点类别为正文数据对应的知识类别。具体地,可对待处理文档进行解析,得到待处理文档的正文数据,该正文数据包括文字、公式或图片;然后采用相关技术中的文档处理方法对正文数据进行处理,得到正文数据中的标题(即正文标题);然后将正文标题与类别映射表进行匹配,即将正文标题作为关键词,在类别映射表中查找是否存在与正文标题类似的目录标题,如果有,则将该目录标题对应的知识类别作为知识点类别。
S13:对正文数据进行解析处理,得到解析数据。
在获取到正文数据之后,还可采用相关技术中的文档解析方法对正文数据进行解析处理,生成解析数据,该解析数据包括实体属性名称与属性值,实体属性名称、属性值与知识点类别对应,实体属性名称为知识点的名称,属性值为该知识点的属性信息。
S14:基于知识点类别、实体属性名称以及属性值,生成知识图谱。
在获取到每个知识点对应的知识点类别、实体属性名称以及属性值之后,可以建立知识点类别、实体属性名称以及属性值的对应关系,得到知识图谱;或者,在获取到每个知识点对应的知识点类别、实体属性名称以及属性值之后,可将其保存在一个文档中;或者建立知识点类别、实体属性名称以及属性值的对应关系,得到知识对应表,以便后续进行其他操作,比如:更新或修改知识对应表中的内容。
可以理解地,在获取到知识点类别、实体属性名称以及属性值后,可以人工对这些知识信息进行验证,以保证最终构建出的知识图谱的准确性。
本实施例提出了一种基于文档结构的知识抽取方案,适用于知识图谱构建的场景,先人工构建待处理文档的目录与知识类别之间的映射关系,得到类别映射表;然后由机器(即知识图谱构建装置)获取该类别映射表,并利用该类别映射表以及待处理文档的正文数据,结合相关技术中的文档分析处理方法,得到待处理文档中每个知识点对应的知识点类型、实体属性名称以及属性值,进而构建出与各个知识点相关的知识图谱;由于无需训练知识抽取模型,因此无需获取训练知识抽取模型所需的训练数据集,无需大量人工进行标注,虽然本方案也需要人工,但是相比采用知识抽取模型的方案来说,所采用的人工成本较低,仅需要在构建与目录相关的类别映射表以及验证阶段采用人工,因此通过本方案可以高效地完成将非结构化文档快速构建为知识图谱,能够提升知识抽取的效率和准确率。
请参阅图2,图2是本申请提供的知识图谱的构建方法另一实施例的流程示意图,该方法包括:
S21:获取待处理文档的目录标题与知识类别之间的类别映射表。
S21与上述实施例中S11相同,在此不再赘述。
S22:对正文数据进行解析,得到正文标题数据与正文内容数据。
在获取到待处理文档的正文数据后,可采用相关技术中的文档处理方法对正文数据进行分类,以将正文数据拆分为两部分:正文标题数据与正文内容数据,正文标题数据为待处理文档的正文中出现的标题,正文内容数据为待处理文档的正文中除标题以外的内容。通过解析完整的文档结构,最终生成正文数据中各级别标题对应的数据(即正文标题数据)和正文内容对应的数据(即正文内容数据)。
S23:将正文标题与类别映射表匹配,得到与正文标题匹配的知识类别,将与正文标题匹配的知识类别确定为知识点类别。
正文标题数据包括多个正文标题,在获取到正文标题数据后,可根据知识类别与目录标题的映射关系(即类别映射表)和待处理文档的正文中各个章节的标题(即正文标题)来生成知识点类别,即判断类别映射表中是否存在与正文标题相同的目录标题,若存在,则该目录标题对应的知识类别便是知识点类别。
进一步,多个正文标题包括首级标题,首级标题为某个章节中第一次出现的标题,可将首级标题与类别映射表进行匹配,得到与首级标题对应的知识点类别。
S24:对正文标题数据进行解析处理,生成实体名称与属性名称。
实体属性名称包括实体名称与属性名称,可以通过末级标题与倒数第二级标题(即末级标题的上一级标题)来解析出实体名称和属性名称。可先对正文标题数据进行解析,得到多个正文标题;然后对多个正文标题进行处理,生成实体名称与属性名称。具体地,多个正文标题包括末级标题与倒数第二级标题,可对末级标题进行解析得到实体名称,对倒数第二级标题进行解析得到属性名称;或者对末级标题进行解析得到属性名称,对倒数第二级标题进行解析得到实体名称。
进一步地,虽然有些方案中,末级标题被解析为实体名称,倒数第二级标题被解析为属性名称;但这不是绝对的,例如,如图3所示,末级标题“方向盘调节”应当被解析为属性名称,倒数第二级标题“方向盘”则为具体的实体名称;因此关于实体名称和属性名称的解析方案,需要进一步明确和细化,下面描述具体的实现方案。
采用图4所示的方案进行处理,具体包括以下步骤:
S41:从末级标题与倒数第二级标题中选取出待处理标题。
以待处理文档为产品说明书为例,对于说明书类型的文档来说,能够作为实体名称的标题应该是名词,而可以作为属性名称的标题一般为动词或者是多个词的组合(至少含有一个动词),因此可以通过对正文标题进行分词,然后依据分词结果中的词性和个数来确定实体名称与属性名称。
进一步地,可选择对末级标题与倒数第二级标题中的任意一个进行分词处理,基于分词结果确定另一个标题是实体名称还是属性名称。
S42:对待处理标题进行分词处理,得到分词结果。
采用相关技术中的分词方法对待处理标题进行拆分,生成分词结果,该分词结果包括至少一个标题词语;进一步地,分词结果包括每个标题词语的个数以及标题词语的词性信息。
S43:基于分词结果,生成实体名称与属性名称。
最终要构建出的知识图谱中,实体名称应该是该领域内可通用和标准化的词,例如:汽车领域的零部件或医药领域的药品名称等,因此可以建立起实体名称的词库(即预设标注词库),预设标注词库是某个领域内通用的,例如:适用于不同品牌车款的使用说明书。在抽取实体名称的过程中可以参考预设标注词库中的词,采用如图5所示的方案对分词结果进行处理,具体包括以下步骤:
S51:判断预设标注词库中是否存在标题词语。
预设标注词库包括多个实体名称。
S52:若预设标注词库中存在标题词语,则将标题词语确定为实体名称,将末级标题与倒数第二级标题中除待处理标题以外的标题确定为属性名称。
如果检测到预设标注词库中存在与标题词语相同的实体名称,则将该标题词语抽取为实体名称,此时将末级标题与倒数第二级标题中除待处理标题以外的另一个标题确定为属性名称,或者还可抽取另一个标题中的关键词作为属性名称。
S53:若预设标注词库中不存在标题词语,则基于标题词语的数量以及词性,确定实体名称与属性名称。
判断分词结果中词性为预设词性的标题词语的数量是否为预设数量;若分词结果中词性为预设词性的标题词语的数量为预设数量,则将标题词语设置为实体名称,将末级标题与倒数第二级标题中除待处理标题以外的标题确定为属性名称;若分词结果中词性为预设词性的标题词语的数量不为预设数量,则将标题词语设置为属性名称,将末级标题与倒数第二级标题中除待处理标题以外的标题确定为实体名称。具体地,预设词性为名词,预设数量为1个,即如果分词结果有且仅有一个名词,则将该名词抽取为实体名称,否则将该名词抽取为属性名称。
进一步地,在预设标注词库中不存在标题词语时,将标题词语存入预设标注词库,以对预设标注词库进行更新,即使用抽取出来的实体名称进一步丰富、扩展预设标注词库。
S25:对正文内容数据进行解析,得到属性值。
对正文内容数据进行解析,将末级标题下的正文内容解析为属性值,从而实现将正文内容数据抽取为属性值。
S26:建立知识点类别、实体名称、属性名称以及属性值的对应关系,生成知识图谱。
通过上述方案完成了实体名称、属性名称、属性值以及所属的知识类别的抽取,利用抽取到的知识信息便可构建出知识图谱。
在一具体的实施例中,为了更好地阐述本实施例所采用的技术方案,以产品说明书为例进行说明。
产品说明书通常是有目录结构的,以汽车使用手册为例,如图6所示,该汽车使用手册包括“安全须知”、“仪表组”、“操作各部件”、“驾驶”、“音响***”以及“车内装备”等章节。
可以基于章节的标题定义知识类别,比如:“零部件”或“驾驶方法”等;根据知识体系的梳理结果,知识类别和章节不一定是一一对应的,例如,如图6与图7所示,“仪表组”和“操作各部件”两个章节中的内容都可以抽取为“零部件”类别的知识,其中,chapter为章节,concept为知识类别;因此需要建立一种从章节到知识类别的映射关系。
具体的章节内容也是有层级结构的,可以包括一级标题或二级标题等;例如,图8为“操作各部件”章节中的细分层级,“调节座椅-前排座椅”章节的内容页如图9所示,解析出的层级结构如图10所示。再结合具体的内容信息(即图9中的图文结合的步骤描述),主要描述了驾驶员座椅的具体调节步骤,最终预期解析出的抽取结果如图11所示,其中,concept为知识类别,entity为实体名称,property为属性名称,value为属性值。
如图9-图11所示,最后一级标题“驾驶员座椅”被解析为实体名称,其上一级标题(即倒数第二级标题)“调节步骤”被解析为属性名称;至于中间两级标题,可以根据最终要构建的知识体系来取舍,例如:“前排座椅”可以解析为“零部件”的一个子类型,但不作为需要抽取的核心知识点。至此提炼出知识抽取的几个关键要素:知识类别、实体名称、属性名称以及属性值。
本实施例根据待处理文档的结构特征,对末级标题/倒数第二级标题的分词结果的数量和词性进行判断,并综合预先建立的实体名称的标注词库等方式,抽取待处理文档中的知识信息(包括知识类别、实体名称、属性名称以及属性值);利用本方案知识抽取的结果,辅以少量的人工验证即可完成构建待处理文档的知识图谱,可以节省大量的人工以及机器训练成本。
请参阅图12,图12是本申请提供的知识图谱构建装置一实施例的结构示意图,知识图谱构建装置120包括互相连接的存储器121和处理器122,存储器121用于存储计算机程序,计算机程序在被处理器122执行时,用于实现上述实施例中的知识图谱的构建方法。
请参阅图13,图13是本申请提供的计算机可读存储介质一实施例的结构示意图,计算机可读存储介质130用于存储计算机程序131,计算机程序131在被处理器执行时,用于实现上述实施例中的知识图谱的构建方法。
计算机可读存储介质130可以是服务端、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (11)

1.一种知识图谱的构建方法,其特征在于,包括:
获取待处理文档的目录标题与知识类别之间的类别映射表;
基于所述待处理文档的正文数据与所述类别映射表,生成知识点类别,所述知识点类别为所述正文数据对应的知识类别;
对所述正文数据进行解析处理,得到解析数据,所述解析数据包括实体属性名称与属性值;
基于所述知识点类别、所述实体属性名称以及所述属性值,生成知识图谱。
2.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述实体属性名称包括实体名称与属性名称,所述对所述正文数据进行解析处理,得到解析数据的步骤,包括:
对所述正文数据进行解析,得到正文标题数据与正文内容数据;
对所述正文标题数据进行解析处理,生成所述实体名称与所述属性名称;
对所述正文内容数据进行解析,得到所述属性值。
3.根据权利要求2所述的知识图谱的构建方法,其特征在于,所述正文标题数据包括多个正文标题,所述对所述正文标题数据进行解析处理,生成所述实体名称与所述属性名称的步骤,包括:
对所述正文标题数据进行解析,得到多个正文标题;
对所述多个正文标题进行处理,生成所述实体名称与所述属性名称。
4.根据权利要求3所述的知识图谱的构建方法,其特征在于,所述多个正文标题包括末级标题与倒数第二级标题,所述对所述多个正文标题进行处理,生成所述实体名称与所述属性名称的步骤,包括:
从所述末级标题与所述倒数第二级标题中选取出待处理标题;
对所述待处理标题进行分词处理,得到分词结果;
基于所述分词结果,生成所述实体名称与所述属性名称。
5.根据权利要求4所述的知识图谱的构建方法,其特征在于,所述分词结果包括至少一个标题词语,所述基于所述分词结果,生成所述实体名称与所述属性名称的步骤,包括:
判断预设标注词库中是否存在所述标题词语;
若是,则将所述标题词语确定为所述实体名称,将所述末级标题与所述倒数第二级标题中除所述待处理标题以外的标题确定为所述属性名称;
若否,则基于所述标题词语的数量以及词性,确定所述实体名称与所述属性名称。
6.根据权利要求5所述的知识图谱的构建方法,其特征在于,所述基于所述标题词语的数量以及词性,确定所述实体名称与所述属性名称的步骤,包括:
判断所述分词结果中词性为预设词性的标题词语的数量是否为预设数量;
若是,则将所述标题词语设置为所述实体名称,将所述末级标题与所述倒数第二级标题中除所述待处理标题以外的标题确定为所述属性名称;
若否,则将所述标题词语设置为所述属性名称,将所述末级标题与所述倒数第二级标题中除所述待处理标题以外的标题确定为所述实体名称。
7.根据权利要求5所述的知识图谱的构建方法,其特征在于,所述方法还包括:
在所述预设标注词库中不存在所述标题词语时,将所述标题词语存入所述预设标注词库,以对所述预设标注词库进行更新。
8.根据权利要求3所述的知识图谱的构建方法,其特征在于,所述基于所述待处理文档的正文数据与所述类别映射表,生成知识点类别的步骤,包括:
将所述正文标题与所述类别映射表匹配,得到与所述正文标题匹配的知识类别,将与所述正文标题匹配的知识类别确定为所述知识点类别;
所述基于所述知识点类别、所述实体属性名称以及所述属性值,生成知识图谱的步骤,包括:
建立所述知识点类别、所述实体名称、所述属性名称以及所述属性值的对应关系,生成所述知识图谱。
9.根据权利要求1所述的知识图谱的构建方法,其特征在于,
所述目录标题包括首级标题,所述类别映射表包括所述首级标题以及与所述首级标题对应的知识类别。
10.一种知识图谱构建装置,其特征在于,包括互相连接的存储器和处理器,其中,所述存储器用于存储计算机程序,所述计算机程序在被所述处理器执行时,用于实现权利要求1-8中任一项所述的知识图谱的构建方法。
11.一种计算机可读存储介质,用于存储计算机程序,其特征在于,所述计算机程序在被处理器执行时,用于实现权利要求1-8中任一项所述的知识图谱的构建方法。
CN202111536550.1A 2021-12-15 2021-12-15 一种知识图谱的构建方法、装置和计算机可读存储介质 Pending CN114238654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111536550.1A CN114238654A (zh) 2021-12-15 2021-12-15 一种知识图谱的构建方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111536550.1A CN114238654A (zh) 2021-12-15 2021-12-15 一种知识图谱的构建方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114238654A true CN114238654A (zh) 2022-03-25

Family

ID=80756656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111536550.1A Pending CN114238654A (zh) 2021-12-15 2021-12-15 一种知识图谱的构建方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114238654A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809311A (zh) * 2022-12-22 2023-03-17 企查查科技有限公司 知识图谱的数据处理方法、装置及计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809311A (zh) * 2022-12-22 2023-03-17 企查查科技有限公司 知识图谱的数据处理方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
Hatzigeorgiu et al. Design and Implementation of the Online ILSP Greek Corpus.
US7930322B2 (en) Text based schema discovery and information extraction
CN111291161A (zh) 法律案件知识图谱查询方法、装置、设备及存储介质
CN111259631B (zh) 一种裁判文书结构化方法及装置
WO2010038540A1 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
US8577887B2 (en) Content grouping systems and methods
CN109947952B (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
CN109101551B (zh) 一种问答知识库的构建方法及装置
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
US20090019362A1 (en) Automatic Reusable Definitions Identification (Rdi) Method
Pivk et al. From tables to frames
CN112749272A (zh) 面向非结构化数据的新能源规划性文本智能推荐方法
CN112667815A (zh) 文本处理方法、装置、计算机可读存储介质及处理器
CN105378706A (zh) 实体提取反馈
CN111241299A (zh) 一种法律咨询的知识图谱自动构建方法及其检索***
CN114238654A (zh) 一种知识图谱的构建方法、装置和计算机可读存储介质
WO2022032685A1 (en) Method and device for constructing multi-level knowledge graph
CN113157888A (zh) 支持多知识来源的询问答复方法、装置和电子设备
CN111274354B (zh) 一种裁判文书结构化方法及装置
CN117216214A (zh) 一种问答抽取的生成方法、装置、设备及介质
Zhang et al. Informing the curious negotiator: Automatic news extraction from the internet
KR102280028B1 (ko) 빅데이터와 인공지능을 이용한 챗봇 기반 콘텐츠 관리 방법 및 장치
CN112148838B (zh) 一种业务源对象提取方法与装置
CN114970543A (zh) 一种众包设计资源的语义分析方法
US8719693B2 (en) Method for storing localized XML document values

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination