CN116578724B - 知识库知识结构构建方法及装置、存储介质和终端 - Google Patents

知识库知识结构构建方法及装置、存储介质和终端 Download PDF

Info

Publication number
CN116578724B
CN116578724B CN202310861085.1A CN202310861085A CN116578724B CN 116578724 B CN116578724 B CN 116578724B CN 202310861085 A CN202310861085 A CN 202310861085A CN 116578724 B CN116578724 B CN 116578724B
Authority
CN
China
Prior art keywords
knowledge base
equivalent
knowledge
constructed
judged
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310861085.1A
Other languages
English (en)
Other versions
CN116578724A (zh
Inventor
张晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Langmuda Information Technology Co ltd
Original Assignee
Hangzhou Langmuda Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Langmuda Information Technology Co ltd filed Critical Hangzhou Langmuda Information Technology Co ltd
Priority to CN202310861085.1A priority Critical patent/CN116578724B/zh
Publication of CN116578724A publication Critical patent/CN116578724A/zh
Application granted granted Critical
Publication of CN116578724B publication Critical patent/CN116578724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识库知识结构构建方法及装置、存储介质和终端,其中方法包括获取已知知识库中每个对象的等价体集合和每个范畴的等价体集合;基于已知知识库中对象的等价体集合和范畴的等价体集合,对待构建知识库中对象进行等价判定,获取待构建知识库中对象的等价结果;获取等价结果在已知知识库中的所属范畴列表,并基于所属范畴列表从已知知识库中获取对应的偏序关系,基于所属范畴列表和对应的偏序关系获取对应等价结果的知识结构;将所有等价结果的知识结构分别赋予到待构建知识库中对应的对象上,获取待构建知识库的知识结构体系。本发明实现不同语言知识库知识结构的转换,克服了语言差异和歧义性问题,利用现有资源来提高效率。

Description

知识库知识结构构建方法及装置、存储介质和终端
技术领域
本发明涉及知识库构建技术领域,尤其涉及一种知识库知识结构构建方法及装置、存储介质和终端。
背景技术
知识库是一种存储和管理知识的工具,它可以用来支持专家***、知识发现、知识共享等应用。为了更好地组织和理解知识库中的知识,需要为知识库建立知识结构。知识结构是一种对范畴及其关系的形式化描述,它可以用于定义知识库中对象和关系的类别、属性、约束等,帮助提高知识库的质量、一致性和可扩展性,支持更复杂和灵活的查询和推理。
但并不是所有的知识库都具有知识结构,有些知识库可能只有对象和关系,并没有明确地定义它们所属的范畴。该类知识库缺乏结构化和规范化信息,难以进行有效和准确的检索和分析。因此为不具有知识结构的知识库建立知识结构是一个重要且具有挑战性的任务。
目前已经存在一些方法来为没有知识结构的知识库建立知识结构,但它们通常需要大量的人工干预或依赖于外部资源。例如统计学方法,虽然易于实现但产生的结构较为扁平,无法覆盖知识库的全貌;语言学方法可以构建有层次的知识结构,但易受自然语言表达的限制,人工标注工作量也比较大;机器学***,需要与其他方法结合;模式发现方法需要较强的模式识别和抽象能力,难度较大,数据集和算法的选择也很重要。
发明内容
本发明所要解决的技术问题是现有的知识库知识结构构建方式,存在所构建知识库结构扁平化、人工工作量大、依赖于外部资源以及构建难度大等问题。
为了解决上述技术问题,本发明提供了一种知识库知识结构构建方法,包括:
获取已知知识库中每个对象的等价体集合和每个范畴的等价体集合;
基于所述已知知识库中所述对象的等价体集合和所述范畴的等价体集合,对待构建知识库中对象进行等价判定,获取所述待构建知识库中对象的等价结果;
获取所述等价结果在所述已知知识库中的所属范畴列表,并基于所属范畴列表从所述已知知识库中获取对应的偏序关系,基于所属范畴列表和对应的偏序关系获取对应所述等价结果的知识结构;
将所有所述等价结果的知识结构分别赋予到所述待构建知识库中对应的对象上,获取所述待构建知识库的知识结构体系。
优选地,获取已知知识库中目标词语的等价体集合包括:
获取目标词语在预设多语言知识库的预设语言库中的等价体对象,并将所有所述等价体对象集合为所述目标词语的等价体集合;
其中,所述预设语言库至少包括第一语言库和第二语言库,所述第一语言库的语言种类与所述已知知识库的语言种类相同,所述第二语言库的语言种类与所述待构建知识库的语言种类相同;
所述等价体对象包括所述目标词语、所述目标词语的所有同义词、所述目标词语的所有多义词以及所述目标词语每个多义词的所有同义词;或
所述等价体对象包括目标映射词语、所述目标映射词语的所有同义词、所述目标映射词语的所有多义词以及所述目标映射词语每个多义词的所有同义词,所述目标映射词语为所述目标词语针对于预设多语言知识库中设定语言库的翻译对象,所述设定语言库不为所述第一语言库;
所述目标词语为所述已知知识库中任意一个对象或任意一个范畴。
优选地,所述目标词语的目标映射词语获取过程包括:
判断所述目标词语在所述预设多语言知识库的设定语言库中是否有翻译映射对象,若有则将所述翻译映射对象作为所述目标词语的目标映射词语,否则通过翻译软件获取所述目标词语的译文翻译,并将所述译文翻译作为所述目标词语的目标映射词语。
优选地,基于所述已知知识库中所述对象的等价体集合和所述范畴的等价体集合,对待构建知识库中对象进行等价判定,获取所述待构建知识库中对象的等价结果步骤包括:
当待判定对象为单义词时,判断所述已知知识库中是否存在对象所对应等价体集合中等价体与所述待判定对象相同,若是且对应等价体所属对象不为翻译软件翻译结果,则认定对应等价体所属对象为所述待判定对象的等价结果,否则判定所述已知知识库中不存在所述待判定对象等价的等价结果;
当所述待判定对象为多义词或所述待判定对象为单义词但其对应等价体所属对象为翻译软件翻译结果时,基于预设判定方式依次判断所述已知知识库中对象是否为待判定对象的等价结果;
其中,所述待判定对象为所述待构建知识库中任意一个对象。
优选地,基于预设判定方式判断所述已知知识库中对象是否为待判定对象的等价结果包括:
基于编辑距离判断比对对象的等价体集合中是否存在与所述待判定对象之间为高相似度的等价体,若存在则判断所述待判定对象的主体内容和所述比对对象的主体内容之间相同的潜在范畴个数是否大于预设个数阈值,若是则认定所述比对对象为所述待判定对象的预等价结果,若不存在高相似度的等价体或潜在范畴个数小于或等于预设个数阈值,则判定所述比对对象不为所述待判定对象的等价结果;
当所述已知知识库中所有对象均作为所述比对对象,与所述待判定对象比对完成后,判断所述待判定对象的预等价结果是否仅有一个,若是则将所述预等价结果作为所述待判定对象的等价结果,否则通过余弦相似度计算所述待判定对象的主体内容分别与所述待判定对象各预等价结果的主体内容的对象相关度,选取对应对象相关度最高的预等价结果作为所述待判定对象的等价结果;
其中,所述比对对象为所述已知知识库中任意一个对象。
优选地,在判断所述待判定对象的主体内容中潜在范畴与所述比对对象的主体内容中潜在范畴是否相同时,需基于所述已知知识库中范畴的等价体集合进行判断。
优选地,将所有所述等价结果的知识结构分别赋予到所述待构建知识库中对应的对象上,获取所述待构建知识库的知识结构体系步骤包括:
当所述待构建知识库的语言种类与所述已知知识库的语言种类相同时,直接将所有所述等价结果的知识结构分别赋予到所述待构建知识库中对应的对象上,获取所述待构建知识库的知识结构体系;
当所述待构建知识库的语言种类与所述已知知识库的语言种类不同时,需将所述等价结果的知识结构翻译为所述待构建知识库的语言种类,再将所有所述等价结果翻译后的知识结构分别赋予到所述待构建知识库中对应的对象上,获取所述待构建知识库的知识结构体系。
为了解决上述技术问题,本发明还提供了一种知识库知识结构构建装置,包括等价体获取模块、等价结果获取模块、知识结构体系获取模块和知识结构获取模块;
所述等价体获取模块,用于获取已知知识库中每个对象的等价体集合和每个范畴的等价体集合;
所述等价结果获取模块,用于基于所述已知知识库中所述对象的等价体集合和所述范畴的等价体集合,对待构建知识库中对象进行等价判定,获取所述待构建知识库中对象的等价结果;
所述知识结构体系获取模块,用于获取所述等价结果在所述已知知识库中的所属范畴列表,并基于所属范畴列表从所述已知知识库中获取对应的偏序关系,基于所属范畴列表和对应的偏序关系获取对应所述等价结果的知识结构;
所述知识结构获取模块,用于将所有所述等价结果的知识结构分别赋予到所述待构建知识库中对应的对象上,获取所述待构建知识库的知识结构体系。
为了解决上述技术问题,本发明还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的知识库知识结构构建方法。
为了解决上述技术问题,本发明还提供了一种终端,包括:处理器以及存储器,所述存储器与所述处理器之间通信连接;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如所述的知识库知识结构构建方法。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
应用本发明实施例提供的知识库知识结构构建方法,通过多语言知识库构建已知知识库中对象的等价体集合,待构建知识库中对象利用等价体集合在已知知识库中查找等价结果,最后基于等价结果将已知知识库中对象知识结构映射到未知知识库结构的对象上,实现知识库知识结构体系的构建。实现不同语言知识库知识结构的转换,克服了语言差异和歧义性问题,利用现有资源来提高效率和准确性,实现不同知识库以及不同语言知识库之间知识结构的映射构建,无需人为干预,节省算力,提高效率,适用于各种类型和领域的知识库。
本发明的其它特征和优点将在随后的说明书中阐述,并且部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1示出了本发明实施例一知识库知识结构构建方法的流程示意图。
图2示出了本发明实施例一中一个对象的知识结构示意图。
图3示出了本发明实施例二知识库知识结构构建装置的结构示意图。
图4示出了本发明实施例四终端的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
知识库通常包含了一定领域或主题的相关信息和数据,具有相应规则、方法、概念等知识表示形式。可按照一定的结构和语义进行分类、组织和检索,从而提高知识的可理解性、可重用性和互操作性。
对象是知识库中用来表示特定领域内存在或发生的事物或概念的元素,具有唯一的标识符、属性值和关系类型。范畴则是知识结构中的一种基本元素,用于定义一组具有相同特征或属性的对象。例如人类、动物、植物都属于范畴。偏序关系则是知识库各元素之间的联系。知识结构可以看成是范畴组成的所有偏序关系。对象是范畴下面的具体存在事物。比如植物下面的花,草等都是对象。
例如张三就是一个对象,张三属于多个范畴,例如“人”“中国人”“中国演员”等,范畴之间又有偏序关系,即“中国演员”属于“中国人”,“中国人”属于“人”,所有这种范畴之间的偏序关系就是知识结构。
实施例一
为解决现有技术中存在的技术问题,本发明实施例提供了一种知识库知识结构构建方法。
本发明实施例主要通过一个已知知识结构的知识库来获取一个未知知识结构的知识库的知识结构体系。其中已知知识结构的知识库和未知知识结构的知识库可以为同种语言种类,也可以为不同语言种类。且已知知识结构的知识库和未知知识结构的知识库可以为相同或相似类型知识库,也可以为差异较大的不同类型知识库。本发明实施例可实现对已知知识库中知识结构的复刻,也可实现对未知知识结构的知识库中知识结构的构建。
图1示出了本发明实施例一知识库知识结构构建方法的流程示意图;参考图1所示,本发明实施例知识库知识结构构建方法包括如下步骤。
步骤S101,获取已知知识库中每个对象的等价体集合和每个范畴的等价体集合。
具体地,获取待构建知识结构的知识库,将其作为待构建知识库;同时获取相应地一个已知知识结构的知识库,将其作为构建待构建知识库知识结构的依据,进一步将其作为已知知识库。
基于预设多语言知识库,获取已知知识库中所有对象和所有范畴的等价体集合。其中预设多语言知识库为包括多种语言形式的语言知识库,例如***等。进一步地,获取已知知识库中所有的对象和所有的范畴,而后通过预设方式获取每个对象和每个范畴的等价体集合。
通过预设方式获取对象或范畴的等价体集合具体包括:将待获取等价体集合的对象或范畴作为目标词语,目标词语可以为已知知识库中任意一个对象或任意一个范畴。获取目标词语在预设多语言知识库中预设语言库中的等价体对象,预设语言库至少需要包括第一语言库和第二语言库,第一语言库为预设多语言知识库中语言种类与已知知识库语言种类相同的语言库,第二语言库则为语言种类与待构建知识库的语言种类相同的语言库。例如第一语言库可以为中文语言库,第二语言库可以为英文语言库。当已知知识库的语言种类与待构建知识库的语言种类相同时,第一语言库和第二语言库为一种语言库。
当获取目标词语在第一语言库中的等价体对象时,即为在与已知知识库相同语言种类的语言库中查找等价体对象,此时等价体对象具体包括目标词语本身、目标词语在该语言库中的所有同义词、目标词语在该语言库中的所有多义词,以及目标词语的每个多义词所对应的所有同义词。其中知识库一般都具有同义词功能或重定向功能,可基于该功能获取目标词语的同义词;例如在知识库中搜索“北大”,会直接跳转到“北京大学”的页面,即“北大”和“北京大学”为同义词。同时目标词语还可能是多义词,例如搜索“西北大学”,由于“西北大学”是多义词,会列出所有“西北大学”的多义词,由此获取多义词信息。为了避免在构建等价体集合时漏掉词语,进而影响之后的等价判断过程,在发现目标词语为多义词时,还需获取每个多义词的所有同义词。
当目标词语在与已知知识库不同语言种类的语言库中查找等价体对象时,目标词语需先获取该目标词语在该语言库中的目标映射词语。通常多语言知识库中不同语言库之间的对象已经做过映射,比如多语言知识库的英文知识库有一个对象“Pekinguniversity”,那么在多语言知识库的中文知识库中很可能就有一个“北京大学”的翻译映射对象与之对应。因此在目标词语的目标映射词语获取过程中,需先判断目标词语在对应语言库是否有相应地翻译映射对象,若有则将相应翻译映射对象作为目标词语的目标映射词语。多语言知识库中不同语言的词条映射可能有缺,例如多语言知识库中的英文语言库中词条中有一定比例在多语言知识库中的中文语言库中匹配不到,那么需要对这些词条进行补充,具体可以借助翻译软件补充不同语言的词汇映射。即当判定目标词语对应的语言库没有相应地翻译映射对象时,需借助翻译软件获取目标词语的译文翻译,并将译文翻译作为目标词语的目标映射词语。
当获取目标词语在与已知知识库不同语言种类的语言库中查找等价体对象时,此时的等价体对象即包括目标词语的目标映射词语、目标映射词语的所有同义词、目标映射词语的所有多义词,以及目标映射词语的每个多义词的所有同义词。同义词和多义词的获取过程如上所述,在此不再对其进行过多赘述。
预设多语言知识库还可包括其他语言种类的语言库,用户可按需设置。获取目标词语在预设多语言知识库的多个语言库中的等价体对象后,即可将目标词语的所有等价体对象集合为目标词语的等价体集合。
重复上述过程即可获取已知知识库中每个对象的等价体集合和每个范畴的等价体集合。
步骤S102,基于已知知识库中对象的等价体集合和范畴的等价体集合,对待构建知识库中对象进行等价判定,获取待构建知识库中对象的等价结果。
具体地,该步骤需将待构建知识库中每个对象分别与已知知识库中所有对象进行等价判断,以获取待构建知识库中每个对象在已知知识库中对象的等价结果。其中待构建知识库中单个对象分别与已知知识库中所有对象进行等价判定过程包括:将待构建知识库中某待进行等价判定的对象作为待判定对象,待判定对象可以为待构建知识库中任意一个对象。先判断待判定对象是否为单义词,若是则需将待判定对象依次与已知知识库中每个对象进行一致性判断,以确定是否可在已知知识库中直接查找到待判定对象相对应的等价结果。在与已知知识库中对象进行一致性判断过程中,实质上是将待判定对象与已知知识库中对象所对应等价体集合中的每个等价体分别进行一致性判断。即假设待判定对象为对象e1,对象e2为已知知识库中某个对象,L为对象e2所对应的等价体集合,则在对两者进行一致性判定过程中需将对象e1与对象e2的等价体集合L中的每个等价体分别进行一致性判定。
若在上述判定过程中,判定已知知识库中某对象所对应的等价体集合中存在与待判定对象相同的等价体,同时又判定该等价体所属于的对象不为翻译软件的翻译结果(翻译软件的翻译结果存在一定不准确性,因此不能将其直接作为等价结果),此时即可认定该对象为待判定对象的等价结果。例如假设对象e1为“Peking university”,对象e2的等价体集合L中有“Beijing university”“北大”“北京大学”等,对象e1与对象e2等价体集L中的“Beijing university”相同,即认定对象e1与对象e2等价,对象e2为对象e1的等价结果。
而若判定待判定对象为多义词(例如“Northwest University”对应的多义词有“Northwest University (China)”“Northwest University (United States)”等),或待判定对象为单义词但其对应等价体所属对象为翻译软件翻译结果时,则需基于预设判定方式依次对已知知识库中对象进行判断,判定已知知识库中每个对象是否为待判定对象的等价结果。进一步地,以已知知识库中单个对象是否为待判定对象的等价结果为例进行说明,具体包括:假定比对对象为已知知识库中任意一个对象,分别计算待判定对象与比对对象等价体集合中各等价体的相似度,并判断所计算的相似度中是否存在高相似度,若存在则表示待判定对象与比对对象相似度较高,否则表示待判定对象与比对对象相似度偏低,比对对象不为待判定对象的等价结果。
优选地,可使用编辑距离比较两个词汇的相似度,编辑距离为将一个字符串转换成另一个字符串所需的最少操作次数,具体转换操作包括***、删除、替换等,编辑距离越小则表示两个词汇越相似。本实施例通过计算待判定对象与比对对象等价体集合中各等价体的编辑距离来确定相似度。且相似判定标准可设置为:编辑距离很小(比如1-2步),表示两个词语为高相似度;编辑距离较小(比如3-5步),表示两个词语相似度一般;编辑距离较大(6步以上),表示两个词语不太相似。
当判定待判定对象与比对对象相似度为高相似度后,还需判断待判定对象的主体内容是否与比对对象的主体内容存在多个相同的潜在范畴,若是则判定比对对象即为待判定对象的预等价结果,否则认定比对对象不为待判定对象的等价结果。此后再将已知知识库中其他对象作为比对对象,并对比对对象做是否为待判定对象预等价结果的判定,直到已知知识库中所有对象均完成是否为待判定对象预等价结果的判定,此时即可获取待判定对象在已知知识库中的所有预等价结果。
对象的主体内容为描述该对象的具体信息,例如将张三作为检索词时,对应知识库所呈现的张三的正文内容即为对象张三的主体内容。在此基础上,上述判断待判定对象的主体内容是否与比对对象的主体内容存在多个相同的潜在范畴具体包括:先获取比对对象主体内容中所存在的所有范畴词汇作为比对对象的潜在范畴,同时获取相应潜在范畴的等价体集合;再获取待判定对象主体内容所存在的所有范畴词汇作为待判定对象的潜在范畴;将待判定对象的潜在范畴,与比对对象潜在范畴的等价体集合中的等价体分别进行一致性判定,若比对对象某潜在范畴的等价体集合中,存在等价体与待判定对象的某潜在范畴相同,则表示该等价体所属潜在范畴与待判定对象中某潜在范畴相同;依次类推,获取比对对象主体内容和待判定对象主体内容之间所有相同潜在范畴,并获取所有相同潜在范畴的个数。而后判断该相同潜在范畴的个数是否大于预设个数阈值,若是则认定待判定对象的主体内容与比对对象的主体内容之间存在多个相同的潜在范畴,该比对对象为待判定对象的预等价结果,否则认定比对对象不为待判定对象的等价结果。
在获取主体内容中所存在的范畴词汇过程中,所获取的范畴词汇应为当前已知知识库知识结构中原始具有的范畴词汇,不能是后续重新定义的范畴词汇,这样可确保已知知识库中知识结构与待构建知识库中知识结构的一致性。
在获取待判定对象在已知知识库中的所有预等价结果后,判定待判定对象是否仅有一个预等价结果,若是则直接将仅有的一个预等价结果作为待判定对象的等价结果。若待判定对象存在多个预等价结果时,则需将待判定对象的主体内容分别与待判定对象各预等价结果的主体内容进行对象相关度的判定。进一步待判定对象的主体内容与待判定对象某预等价结果的主体内容的对象相关度计算过程具体包括:统计待判定对象的主体内容中所有对象以及对象在对应主体内容中所出现的频率,同时统计预等价结果的主体内容中所有对象以及对象在对应主体内容中所出现的频率;计算待判定对象的主体内容中对象以及相应出现频率,与预等价结果的主体内容中对象以及相应出现频率的余弦相似度,并将余弦相似度值作为待判定对象与该预等价结果的对象相关度。
例如待判定对象e1的主体内容中有3个对象a1、a2和a3;预等价结果e2的主体内容中有2个对象a1和a3,确定位置dict={a1:0,a2:1,a3:2},假设每个对象在待判定对象e1的主体内容和预等价结果e2的主体内容中都只出现了一次,待判定对象e1主体内容所包含的对象词向量为[1,1,1],预等价结果e2主体内容所包含的对象词向量为[1,0,1],待判定对象e1主体内容所包含的对象和预等价结果e2主体内容所包含的对象的余弦相似度如下:
[1*1+1*0+1*1]/[(1^2+1^2+1^2)^(1/2)*(1^2+0^2+1^2)^(1/2)]=0.82。
在统计待判定对象主体内容中对象和统计预等价结果主体内容中对象时,所统计对象应为对应知识库中原始具有的,例如假设待判定对象主体内容中包含词汇“自行车”,且“自行车”为待构建知识库中的一个对象,此时就可将“自行车”作为待判定对象主体内容中的对象;同理假设预等价结果主体内容中包含词汇“电动车”,且“电动车”为已知知识库中的一个对象,此时就可将“电动车”作为待判定对象主体内容中的对象。
重复上述过程,获取待判定对象分别与每个对应预等价结果的对象相关度,并选取其中对象相关度最高的预等价结果作为待判定对象的等价结果。
通过上述方式即可获取待构建知识库中所有可获取到等价结果的对象的等价结果。
步骤S103,获取等价结果在已知知识库中的所属范畴列表,并基于所属范畴列表从已知知识库中获取对应的偏序关系,基于所属范畴列表和对应的偏序关系获取对应等价结果的知识结构。
具体地,设定判定等价结果为待判定对象在已知知识库中的等价结果,待判定对象为待构建知识库中的任意一个可获取到等价结果的对象。从已知知识库中获取判定等价结果的所属范围列表,并基于判定等价结果的所属范围列表从已知知识库中获取所对应的所有偏序关系,将获取的所属范围列表和所有偏序关系形成判定等价结果的知识结构。
图2示出了本发明实施例一中一个对象的知识结构示意图;如图2所示,对象北京大学属于北京高等院校、211工程等范畴内,北京高等院校又属于中国各省高等教育、北京市教育、中国各城市高等院校和北京市建筑物等范畴内;依次类推,即可获取北京大学的所属范围列表;北京大学与北京高等院校、211工程等范畴之间的关系,北京高等院校与中国各省高等教育、北京市教育、中国各城市高等院校和北京市建筑物等之间的关系等构成所有范畴的偏序关系,所属范围列表和所有偏序关系即形成对象北京大学的知识结构。
重复上述步骤即可获取所有等价结果的知识结构。
步骤S104,将所有等价结果的知识结构分别赋予到待构建知识库中对应的对象上,获取待构建知识库的知识结构体系。
具体地,若待构建知识库的语言种类与已知知识库的语言种类相同时,直接将所有等价结果的知识结构分别赋予到待构建知识库中对应的对象上,即将等价结果e2所获取的知识结构直接赋予到,待构建知识库中与其为等价关系的对象e1上。赋予完成后待构建知识库中所有对象的知识结构构成该待构建知识库的知识结构体系。(待构架知识库中可能存在某些对象,在已知知识库中不具有对应的等价结果,在进行知识结构赋予和形成知识结构体系过程中,忽略该类对象即可)。
而若待构建知识库的语言种类与已知知识库的语言种类不相同时,需先基于范畴的等价体集合(等价体集合中通常有范畴相对应的翻译译文)和翻译软件将等价结果的知识结构翻译为待构建知识库的语言种类,而后再将等价结果翻译后的知识结构赋予待构建知识库中对应的对象,进而获取待构建知识库的知识结构体系。
需要说明的是,上述等价结果的判定、知识结构的获取以及赋予到对应对象上过程,待构建知识库中对象可依次实现,即待构建知识库中上一个对象完成上述所有过程后,下一个对象再进行上述过程,重复操作,直到待构建知识库中所有可被赋予知识结构的对象均被赋予知识结果。
本发明实施例提供的知识库知识结构构建方法,通过多语言知识库构建已知知识库中对象的等价体集合,待构建知识库中对象利用等价体集合在已知知识库中查找等价结果,最后基于等价结果将已知知识库中对象知识结构映射到未知知识库结构的对象上,实现知识库知识结构体系的构建。实现不同语言知识库知识结构的转换,克服了语言差异和歧义性问题,利用现有资源来提高效率和准确性,实现不同知识库以及不同语言知识库之间知识结构的映射构建,无需人为干预,节省算力,提高效率,适用于各种类型和领域的知识库。
实施例二
为解决现有技术中存在的技术问题,本发明实施例提供了一种知识库知识结构构建装置。
图3示出了本发明实施例二知识库知识结构构建装置的结构示意图;参考图3所示,本发明实施例知识库知识结构构建装置包括等价体获取模块、等价结果获取模块、知识结构体系获取模块和知识结构获取模块。
等价体获取模块用于获取已知知识库中每个对象的等价体集合和每个范畴的等价体集合。
等价结果获取模块用于基于已知知识库中对象的等价体集合和范畴的等价体集合,对待构建知识库中对象进行等价判定,获取待构建知识库中对象的等价结果。
知识结构体系获取模块,获取等价结果在已知知识库中的所属范畴列表,并基于所属范畴列表从已知知识库中获取对应的偏序关系,基于所属范畴列表和对应的偏序关系获取对应等价结果的知识结构。
知识结构获取模块用于将所有等价结果的知识结构分别赋予到待构建知识库中对应的对象上,获取待构建知识库的知识结构体系。
本发明实施例提供的知识库知识结构构建装置,通过多语言知识库构建已知知识库中对象的等价体集合,待构建知识库中对象利用等价体集合在已知知识库中查找等价结果,最后基于等价结果将已知知识库中对象知识结构映射到未知知识库结构的对象上,实现知识库知识结构体系的构建。实现不同语言知识库知识结构的转换,克服了语言差异和歧义性问题,利用现有资源来提高效率和准确性,实现不同知识库以及不同语言知识库之间知识结构的映射构建,无需人为干预,节省算力,提高效率,适用于各种类型和领域的知识库。
实施例三
为解决现有技术中存在的上述技术问题,本发明实施例还提供了一种存储介质,其存储有计算机程序,该计算机程序被处理器执行时可实现实施例一中知识库知识结构构建方法中的所有步骤。
所述的知识库知识结构构建方法的具体步骤以及应用本发明实施例提供的可读存储介质获取的有益效果均与实施例一相同,在此不在对其进行赘述。
需要说明的是:存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
实施例四
为解决现有技术中存在的上述技术问题,本发明实施例还提供了一种终端。
图4示出了本发明实施例四终端结构示意图,参照图4,本实施例终端包括相互连接的处理器及存储器;存储器用于存储计算机程序,处理器用于执行存储器存储的计算机程序,以使终端执行时可实现实施例一中所述的知识库知识结构构建方法中的所有步骤。
所述的知识库知识结构构建方法的具体步骤以及应用本发明实施例提供的终端获取的有益效果均与实施例一相同,在此不在对其进行赘述。
需要说明的是,存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。同理处理器也可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种知识库知识结构构建方法,包括:
获取已知知识库中每个对象的等价体集合和每个范畴的等价体集合;
基于所述已知知识库中所述对象的等价体集合和所述范畴的等价体集合,对待构建知识库中对象进行等价判定,获取所述待构建知识库中对象的等价结果;
获取所述等价结果在所述已知知识库中的所属范畴列表,并基于所属范畴列表从所述已知知识库中获取对应的偏序关系,基于所属范畴列表和对应的偏序关系获取对应所述等价结果的知识结构;
将所有所述等价结果的知识结构分别赋予到所述待构建知识库中对应的对象上,获取所述待构建知识库的知识结构体系;
其中,基于所述已知知识库中所述对象的等价体集合和所述范畴的等价体集合,对待构建知识库中对象进行等价判定,获取所述待构建知识库中对象的等价结果包括:
当待判定对象为多义词时,基于预设判定方式依次判断所述已知知识库中对象是否为待判定对象的等价结果;
其中,所述待判定对象为所述待构建知识库中任意一个对象。
2.根据权利要求1所述的构建方法,其特征在于,获取已知知识库中目标词语的等价体集合包括:
获取目标词语在预设多语言知识库的预设语言库中的等价体对象,并将所有所述等价体对象集合为所述目标词语的等价体集合;
其中,所述预设语言库至少包括第一语言库和第二语言库,所述第一语言库的语言种类与所述已知知识库的语言种类相同,所述第二语言库的语言种类与所述待构建知识库的语言种类相同;
所述等价体对象包括所述目标词语、所述目标词语的所有同义词、所述目标词语的所有多义词以及所述目标词语每个多义词的所有同义词;或
所述等价体对象包括目标映射词语、所述目标映射词语的所有同义词、所述目标映射词语的所有多义词以及所述目标映射词语每个多义词的所有同义词,所述目标映射词语为所述目标词语针对于预设多语言知识库中设定语言库的翻译对象,所述设定语言库不为所述第一语言库;
所述目标词语为所述已知知识库中任意一个对象或任意一个范畴。
3.根据权利要求2所述的构建方法,其特征在于,所述目标词语的目标映射词语获取过程包括:
判断所述目标词语在所述预设多语言知识库的设定语言库中是否有翻译映射对象,若有则将所述翻译映射对象作为所述目标词语的目标映射词语,否则通过翻译软件获取所述目标词语的译文翻译,并将所述译文翻译作为所述目标词语的目标映射词语。
4.根据权利要求1所述的构建方法,其特征在于,基于所述已知知识库中所述对象的等价体集合和所述范畴的等价体集合,对待构建知识库中对象进行等价判定,获取所述待构建知识库中对象的等价结果步骤还包括:
当待判定对象为单义词时,判断所述已知知识库中是否存在对象所对应等价体集合中等价体与所述待判定对象相同,若是且对应等价体所属对象不为翻译软件翻译结果,则认定对应等价体所属对象为所述待判定对象的等价结果,否则判定所述已知知识库中不存在所述待判定对象等价的等价结果;
当所述待判定对象为单义词但其对应等价体所属对象为翻译软件翻译结果时,基于预设判定方式依次判断所述已知知识库中对象是否为待判定对象的等价结果。
5.根据权利要求4所述的构建方法,其特征在于,基于预设判定方式判断所述已知知识库中对象是否为待判定对象的等价结果包括:
基于编辑距离判断比对对象的等价体集合中是否存在与所述待判定对象之间为高相似度的等价体,若存在则判断所述待判定对象的主体内容和所述比对对象的主体内容之间相同的潜在范畴个数是否大于预设个数阈值,若是则认定所述比对对象为所述待判定对象的预等价结果,若不存在高相似度的等价体或潜在范畴个数小于或等于预设个数阈值,则判定所述比对对象不为所述待判定对象的等价结果;
当所述已知知识库中所有对象均作为所述比对对象,与所述待判定对象比对完成后,判断所述待判定对象的预等价结果是否仅有一个,若是则将所述预等价结果作为所述待判定对象的等价结果,否则通过余弦相似度计算所述待判定对象的主体内容分别与所述待判定对象各预等价结果的主体内容的对象相关度,选取对应对象相关度最高的预等价结果作为所述待判定对象的等价结果;
其中,所述比对对象为所述已知知识库中任意一个对象。
6.根据权利要求5所述的构建方法,其特征在于,在判断所述待判定对象的主体内容中潜在范畴与所述比对对象的主体内容中潜在范畴是否相同时,需基于所述已知知识库中范畴的等价体集合进行判断。
7.根据权利要求1所述的构建方法,其特征在于,将所有所述等价结果的知识结构分别赋予到所述待构建知识库中对应的对象上,获取所述待构建知识库的知识结构体系步骤包括:
当所述待构建知识库的语言种类与所述已知知识库的语言种类相同时,直接将所有所述等价结果的知识结构分别赋予到所述待构建知识库中对应的对象上,获取所述待构建知识库的知识结构体系;
当所述待构建知识库的语言种类与所述已知知识库的语言种类不同时,需将所述等价结果的知识结构翻译为所述待构建知识库的语言种类,再将所有所述等价结果翻译后的知识结构分别赋予到所述待构建知识库中对应的对象上,获取所述待构建知识库的知识结构体系。
8.一种知识库知识结构构建装置,其特征在于,包括等价体获取模块、等价结果获取模块、知识结构体系获取模块和知识结构获取模块;
所述等价体获取模块,用于获取已知知识库中每个对象的等价体集合和每个范畴的等价体集合;
所述等价结果获取模块,用于基于所述已知知识库中所述对象的等价体集合和所述范畴的等价体集合,对待构建知识库中对象进行等价判定,获取所述待构建知识库中对象的等价结果;
所述知识结构体系获取模块,用于获取所述等价结果在所述已知知识库中的所属范畴列表,并基于所属范畴列表从所述已知知识库中获取对应的偏序关系,基于所属范畴列表和对应的偏序关系获取对应所述等价结果的知识结构;
所述知识结构获取模块,用于将所有所述等价结果的知识结构分别赋予到所述待构建知识库中对应的对象上,获取所述待构建知识库的知识结构体系;
其中,基于所述已知知识库中所述对象的等价体集合和所述范畴的等价体集合,对待构建知识库中对象进行等价判定,获取所述待构建知识库中对象的等价结果包括:
当待判定对象为多义词时,基于预设判定方式依次判断所述已知知识库中对象是否为待判定对象的等价结果;
其中,所述待判定对象为所述待构建知识库中任意一个对象。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述的知识库知识结构构建方法。
10.一种终端,其特征在于,包括:处理器以及存储器,所述存储器与所述处理器之间通信连接;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项所述的知识库知识结构构建方法。
CN202310861085.1A 2023-07-14 2023-07-14 知识库知识结构构建方法及装置、存储介质和终端 Active CN116578724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310861085.1A CN116578724B (zh) 2023-07-14 2023-07-14 知识库知识结构构建方法及装置、存储介质和终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310861085.1A CN116578724B (zh) 2023-07-14 2023-07-14 知识库知识结构构建方法及装置、存储介质和终端

Publications (2)

Publication Number Publication Date
CN116578724A CN116578724A (zh) 2023-08-11
CN116578724B true CN116578724B (zh) 2023-09-29

Family

ID=87543569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310861085.1A Active CN116578724B (zh) 2023-07-14 2023-07-14 知识库知识结构构建方法及装置、存储介质和终端

Country Status (1)

Country Link
CN (1) CN116578724B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117272073B (zh) * 2023-11-23 2024-03-08 杭州朗目达信息科技有限公司 文本单位语义距离预计算方法及装置、查询方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002093409A1 (en) * 2001-05-16 2002-11-21 Isis Pharmaceuticals, Inc. Multi-paradigm knowledge-bases
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
WO2010044180A1 (ja) * 2008-10-15 2010-04-22 日本電気株式会社 情報処理装置
CN109255034A (zh) * 2018-08-08 2019-01-22 数据地平线(广州)科技有限公司 一种基于产业链的行业知识图谱构建方法
CN110990417A (zh) * 2019-12-13 2020-04-10 陕西师范大学 基于众包的中文旅游领域知识服务平台知识库更新方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002093409A1 (en) * 2001-05-16 2002-11-21 Isis Pharmaceuticals, Inc. Multi-paradigm knowledge-bases
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
WO2010044180A1 (ja) * 2008-10-15 2010-04-22 日本電気株式会社 情報処理装置
CN109255034A (zh) * 2018-08-08 2019-01-22 数据地平线(广州)科技有限公司 一种基于产业链的行业知识图谱构建方法
CN110990417A (zh) * 2019-12-13 2020-04-10 陕西师范大学 基于众包的中文旅游领域知识服务平台知识库更新方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于互联网的词汇语义知识库构建框架研究;刘兴林;陈建超;马千里;;计算机与现代化(第10期);12-15 *

Also Published As

Publication number Publication date
CN116578724A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN108388559B (zh) 地理空间应用下的命名实体识别方法及***、计算机程序
CN104361127B (zh) 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN111159330B (zh) 一种数据库查询语句的生成方法及装置
US10289717B2 (en) Semantic search apparatus and method using mobile terminal
CN111353030A (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
CN109033314B (zh) 内存受限情况下的大规模知识图谱的实时查询方法和***
CN112328891B (zh) 训练搜索模型的方法、搜索目标对象的方法及其装置
EP3799640A1 (en) Semantic parsing of natural language query
CN116578724B (zh) 知识库知识结构构建方法及装置、存储介质和终端
WO2016064576A1 (en) Tagging personal photos with deep networks
WO2015010509A1 (zh) 一种基于一维线性空间实现Trie树的词典检索方法
CN102314464B (zh) 歌词搜索方法及搜索引擎
US8768969B2 (en) Method and system for efficient representation, manipulation, communication, and search of hierarchical composite named entities
CN107679124B (zh) 一种基于动态规划算法的知识图谱中文问答检索方法
CN116108194A (zh) 基于知识图谱的搜索引擎方法、***、存储介质和电子设备
CN115438160A (zh) 一种基于深度学习的问答方法、装置及电子设备
CN117272073B (zh) 文本单位语义距离预计算方法及装置、查询方法及装置
Wagenpfeil et al. Graph codes-2d projections of multimedia feature graphs for fast and effective retrieval
CN112148894B (zh) 一种基于深度学习和定性空间推理的泛在道路信息定位方法
EP3407206B1 (en) Reconciled data storage system
CN113515616A (zh) 一种基于自然语言的任务驱动***
CN117033534A (zh) 地理信息处理方法、装置、计算机设备和存储介质
CN115455249A (zh) 双引擎驱动的多模态数据检索方法、设备及***
CN116186297A (zh) 一种基于图流形学习的文献关系发现方法及***
CN115082010A (zh) 一种电力领域元数据智能管理方法、存储介质及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant