CN111949855A - 一种基于知识图谱的工程技经知识检索平台及其方法 - Google Patents

一种基于知识图谱的工程技经知识检索平台及其方法 Download PDF

Info

Publication number
CN111949855A
CN111949855A CN202010756705.1A CN202010756705A CN111949855A CN 111949855 A CN111949855 A CN 111949855A CN 202010756705 A CN202010756705 A CN 202010756705A CN 111949855 A CN111949855 A CN 111949855A
Authority
CN
China
Prior art keywords
knowledge
ontology
retrieval
search
engineering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010756705.1A
Other languages
English (en)
Inventor
韩东
费斐
顾闻
李灏恩
吴恩琦
陈凯玲
徐雪莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
Original Assignee
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Shanghai Electric Power Co Ltd filed Critical State Grid Shanghai Electric Power Co Ltd
Priority to CN202010756705.1A priority Critical patent/CN111949855A/zh
Publication of CN111949855A publication Critical patent/CN111949855A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于知识图谱的工程技经知识检索平台及其方法,其中,检索平台包括技经本体知识库、语义处理单元以及交互单元,技经本体知识库、交互单元分别与语义处理单元相互连接,技经本体知识库用于存储项目管理知识、技经知识、造价知识、工程技术知识、法规知识以及实际案例;语义处理单元根据用户输入的检索语句,生成对应的检索式,以从技经本体知识库中检索得到相关知识图谱;交互单元用于用户进行检索语句的输入操作,以及将检索得到的相关知识图谱可视化呈现给用户。与现有技术相比,本发明通过构建技经本体知识库,结合语义检索,能够使用户准确快速地检索得到所需知识,有利于提高工程专业协作效率。

Description

一种基于知识图谱的工程技经知识检索平台及其方法
技术领域
本发明涉及智能检索技术领域,尤其是涉及一种基于知识图谱的工程技经知识检索平台及其方法。
背景技术
输变电工程作为电力***重要基础设施,具有综合性强、协作性高等特点。输变电工程推进过程中涉及专业繁多,需不同专业间的分工与协作。但在输变电工程中,大部分技经人员精通自身专业知识,却对其他领域知识了解甚少,该情况将限制工程中专业协作效率的提高。同时,项目参与者也缺乏有效的跨行业知识学习途径,互联网上的知识往往碎片化且不够准确,课堂学习的可行性也不高。***知识框架的缺失使得相关人员不能有针对性地选择学习内容,容易打击其积极性,最终降低学习的成效。随着我国电力行业的发展,完工的输变电工程数量不断增加,累积了大量的工程数据,但由于缺少切实可行的数据存储架构,导致项目人员无法准确快速获取所需数据,需要耗费大量的时间用于资料查找与阅读。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于知识图谱的工程技经知识检索平台及其方法,以实现兼顾***学习和语义化快速检索的目的,从而使工程参与人员能够快速准确检索得到相关知识。
本发明的目的可以通过以下技术方案来实现:一种基于知识图谱的工程技经知识检索平台,包括技经本体知识库、语义处理单元以及交互单元,所述技经本体知识库、交互单元分别与语义处理单元相互连接,所述技经本体知识库用于存储项目管理知识、技经知识、造价知识、工程技术知识、法规知识以及实际案例;
所述语义处理单元根据用户输入的检索语句,生成对应的检索式,以从技经本体知识库中检索得到相关知识图谱;
所述交互单元用于用户进行检索语句的输入操作,以及将检索得到的相关知识图谱可视化呈现给用户。
进一步地,所述语义处理单元包括依次连接的分词处理模块、同义转换模块、检索词生成模块、检索式生成模块和检索结果排序模块,所述分词处理模块用于去除用户输入检索语句中无意义用词,以提取出关键词和逻辑关系词;
所述同义转换模块用于对关键词进行同义词转换,以得到规范词;
所述检索词生成模块用于对规范词进行概念映射、对未进行同义词转换的关键词进行语义拓展,以得到检索词;
所述检索式生成模块根据检索词以及逻辑关系词,以构造生成相应的检索式;
所述检索结果排序模块根据检索式从技经本体知识库中检索得到多个检索结果,并对多个检索结果进行排序。
一种基于知识图谱的工程技经知识检索方法,包括以下步骤:
S1、构建技经本体知识库;
S2、用户在交互单元输入检索语句;
S3、基于用户输入的检索语句,语义处理单元从技经本体知识库检索得到对应的相关知识图谱;
S4、交互单元将检索得到的相关知识图谱可视化展示给用户。
进一步地,所述步骤S1具体包括以下步骤:
S11、确定技经本体构建目标;
S12、确定技经本体所覆盖的领域以及知识来源;
S13、定义技经本体中所需的术语并进行分类;
S14、定义本体间的层次关系和相关关系;
S15、定义本体的属性;
S16、对构建的本体进行评价,以判断本体是否需进行修改,若需修改则返回步骤S13或步骤S14,否则执行步骤S17;
S17、根据知识来源的更新,对本体进行迭代修正,得到技经本体库;
S18、在建立技经本体库之后,将本体术语形成知识节点,并存储为OWL(WebOntology Language,网络本体语言)格式,之后用OWL和URL(Universal ResourceLocator,统一资源定位符)构建技经知识图谱的知识链接,即基于OWL的URL来实现本体知识的定位,以连接孤立的本体知识,从而搭建出本体知识网络、形成技经知识图谱,即得到技经本体知识库。
进一步地,所述步骤S11中技经本体所覆盖的领域以及知识来源具体包括:
从相关工程经济、工程造价或工程技术教材中获得的技术经济以造价基础理论知识;
从行业相关专业性规范规程规定中获得的输变电工程知识及其技术经济知识;
从教材、企业正式规范和办法、企业内部文件资料中获得的项目管理知识;
从公司、地方以及国家相关法规规定中获得的法规知识;
从企业历年输变电工程实际数据文献资料中获得的实际案例。
进一步地,所述步骤S13具体包括以下步骤:
S131、根据知识来源的目录大纲和具体内容,从知识来源中提取术语;
S132、对术语进行规范化处理;
S133、按照术语所属的知识来源,将规范化处理后的术语分为管理类、技经类、造价类、技术类、法规类和实例类。
进一步地,所述步骤S132中规范化处理具体包括同义异词处理和同词异议处理。
进一步地,所述步骤S14具体包括以下步骤:
S141、将术语导入本体编码工具Protégé,形成树形结构的本体库,按需要学习的先后顺序进行术语的排布,通过Protégé自动形成术语的层次关系,所述层次关系包括基础关系和包含关系;
S142、根据术语之间的关联度,建立术语之间的相关关系。
进一步地,所述步骤S15中本体的属性包括数据属性和对象属性,所述数据属性为本体的内部属性,即本体本身所固有的、可传递的属性;
所述对象属性为本体的外部属性,用于描述本体之间的属性关系。
进一步地,所述步骤S3具体包括以下步骤:
S31、基于词典的正向对大匹配算法,对用户输入的检索语句进行分词处理,即借助现有的词典,将检索语句每与词典匹配一次后,将检索语句从右边减少一个字,直到匹配成功或只剩一个字,匹配成功后将上一轮匹配的词从检索语句中去掉,进行下一轮匹配,以此从检索语句中提取得到关键词和逻辑关系词;
S32、利用词汇矩阵模型构造适用于技术经济知识图谱的同义词典,以对关键词进行同义词转换,得到对应的规范词;
S33、对规范词进行概念映射,并通过语义相似度计算,对未进行同义词转换的关键词进行语义拓展,得到多个检索词;
S34、将逻辑关系词转换为布尔操作符,以连接多个检索词,得到检索式;
S35、基于检索式,从技经本体知识库中检索得到对应的多个检索结果;
S36、按照词频加权值和位置加权值的大小关系,对多个检索结果进行排序,得到最终的相关知识图谱。
与现有技术相比,本发明具有以下优点:
一、本发明通过建立输变电工程技经本体库,在本体库的基础上构建出知识图谱,以此建立输变电工程技经知识检索平台,实现了语义化检索以及可视化展示的目的,本发明提出的检索平台,一方面通过知识图谱技术建立技经知识间的映射关联,便于用户快速检索专业知识,提高检索与学***台可形成技经管理的资料库,通过对相关资料进行集约化管理、滚动更新,形成综合性数据管理平台,对提高技经管理工作水平具有重要支撑作用,能够有效提高工程专业协作效率。
二、本发明在构建工程技经本体知识库时,基于知识图谱技术,能够将与输变电工程相关的多个知识统一管理存储,并利用语义处理单元从技经本体知识库进行检索,使得用户通过单次检索即可获得与输变电工程相关的所有知识,且能将检索结果直观地展示给用户,此外,本发明通过语义进行检索,能够从检索语句的语义层面上准确理解用户需求,且对检索结果进行排序处理,保证了最终得到的相关知识图谱的准确性。
附图说明
图1为本发明的检索平台结构示意图;
图2为本发明的检索方法流程示意图;
图3为实施例中构建技经本体库的过程示意图;
图4为实施例中技经本体层次关系及相关关系局部示意图;
图5为实施例中语义处理单元的工作过程示意图;
图6为实施例中分词处理过程示意图;
图中标记说明:1、技经本体知识库,2、语义处理单元,201、分词处理模块,202、同义转换模块,203、检索词生成模块,204、检索式生成模块,205、检索结果排序模块,3、交互单元。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
为详细阐明本发明的技术方案内容,首先对本发明涉及的相关概念进行说明:
1、本体(Ontology)在不同领域本体的定义往往不同。在计算机领域,1993年,Gruber提出“本体是概念模型的明确规范说明”。1998年,Studer深入研究后拓展了Gruber本体的概念,他认为“本体是共享概念模型的明确形式化规范说明”,这一定义得到了广泛认同。
本体的构建方式可分为,人工构建方式、自动化构建方式和半自动化构建方式。人工构建方式是指由人力协同完成本体的构建,可供人工构建本体的软件有Protégé、VOWL、OBO-Edit等。自动化构建方式是利用机器学习技术从已有数据源中获取本体知识完成本体构建。半自动化构建方式是在自动化构建过程中加入人工指导的一种方式。
2、知识图谱最早由Google在2012年正式提出,为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化描述。现在的知识图谱已被用来泛指各种大规模的知识库。
知识图谱的基本组成单位是“实体-关系-实体”三元组,以及“实体-相关属性-属性值”对,实体间通过关系相互联结,构成网状的知识结构。
3、本体与知识图谱
知识图谱在逻辑上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。
基于本体的知识图谱的构建是指是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库。
如图1所示,一种基于知识图谱的工程技经检索平台,包括技经本体知识库1、语义处理单元2以及交互单元3,技经本体知识库1、交互单元3分别与语义处理单元2相互连接,其中,语义处理单元2包括依次连接的分词处理模块201、同义转换模块202、检索词生成模块203、检索式生成模块204和检索结果排序模块205,技经本体知识库1用于存储项目管理知识、技经知识、造价知识、工程技术知识、法规知识以及实际案例;
语义处理单元2根据用户输入的检索语句,生成对应的检索式,以从技经本体知识库中检索得到相关知识图谱,具体的,分词处理模块201用于去除用户输入检索语句中无意义用词,以提取出关键词和逻辑关系词;
同义转换模块202用于对关键词进行同义词转换,以得到规范词;
检索词生成模块203用于对规范词进行概念映射、对未进行同义词转换的关键词进行语义拓展,以得到检索词;
检索式生成模块204根据检索词以及逻辑关系词,以构造生成相应的检索式;
检索结果排序模块205根据检索式从技经本体知识库1中检索得到多个检索结果,并对多个检索结果进行排序;
交互单元3用于用户进行检索语句的输入操作,以及将检索得到的相关知识图谱可视化呈现给用户。
本实施例中,检索平台的总体结构包括本体层、处理层以及服务层:本体层提供数据存储以及数据访问功能,本体层最底层存储了技经本体知识库;处理层是由该平台的检索引擎完成的查询检索、结果分析等功能组成,用户输入问题或关键词,检索引擎对用户的输入进行语义分析解构,借助自然语言处理构建检索式访问本体层进行检索;服务层是指该学习平台为用户提供知识检索、图谱展示等功能,通过可视化的方式呈现结构化的知识,使用户高效率学习与检索。
将上述检索平台应用于实际,具体的检索方法流程如图2所示,包括:
S1、构建技经本体知识库;
S2、用户在交互单元输入检索语句;
S3、基于用户输入的检索语句,语义处理单元从技经本体知识库检索得到对应的相关知识图谱;
S4、交互单元将检索得到的相关知识图谱可视化展示给用户。
其中,在步骤S1构建技经本体知识库时,具体是基于七步法构建输变电工程技经本体库,如图3所示,包括以下步骤:
一、确定技经本体构建目标
输变电工程技术复杂,参与人员众多,每个人工作所需要的技术经济知识也各不相同,为了能够使输变电工程的参与人员能够快速在该学习平台上检索学习到其所需的输变电工程技术经济知识,本输变电工程技经本体的构建目标为:搭建一个覆盖参与输变电工程的所有工作人员所需的技术经济知识及其基础的本体库。
二、确定技经本体所覆盖的领域及其知识来源
通过组建专家小组,基于本体库构建的目标,根据输变电工程工作人员的工作性质研究并讨论该本体库所覆盖的知识领域。首先应包括该本体库最核心的技术经济以及造价的基础理论,这部分知识可从相关的工程经济、工程造价或工程技术相关教材中获得;其次应包括输变电工程的相关知识及其技术经济相关知识,这一部分从行业相关的专业性规范规程规定中获得;另外,管理人员需要相关的项目管理知识和工程建设管理相关规范和办法,这一部分从相关教材、企业正式规范和办法,以及企业内部文件资料中获得;技经工作离不开相关法规知识,这一部分从公司、地方以及国家的相关法规规定中获得;最后,方便相关工作人员从实际中学习,本体库也包含相关案例,案例包括企业历年的输变电工程的实际数据文献资料。
三、定义技经本体中所需的术语并进行分类
专家小组的成员分工阅读和整理上述知识来源,根据其目录大纲和具体内容初步提取术语。在术语提取完之后,将术语进行规范化处理,首先进行同义异词处理,在不同的知识来源对于同一个概念的术语可能会有差异,需要将这些术语规范成同一术语,例如,生产能力指数法又称指数估算法,统一规范成生产能力指数法;其次要进行同词异议的处理,在不同的语义环境中,同样的词可能代表不同的含义,因此需要将术语加上不同的定语加以区分,例如各个阶段的预算均有编制依据,需要加以区分。
根据术语的来源将术语分为管理类、技经类、造价类、技术类、法规类和实例类,参见表1。
表1
Figure BDA0002611815960000071
Figure BDA0002611815960000081
四、定义本体间的层次关系和相关关系
在定义完本体中的术语后,需要进一步定义本体间的层次关系和相关关系,层次关系包括“基础关系”和“包含关系”,“基础关系”是指某一个术语是学习另一个术语的前提,例如学习法律法规中的定额规范的基础知识是造价中的工程定额。“包含关系”是指某一术语由其他的术语所包含,例如工程造价包括投资估算、施工图预算等。相关关系是指两个术语之间有某种关联性,例如合同价是以中标价为基础的,因此合同价和中标价有相关关系。
由于本发明技经本体中所含术语数量庞大,为了节省人力物力,采取自动和人工结合的方式。将术语导入本体编码工具Protégé,形成树形结构的本体库,按需要学习的先后顺序进行术语的排布,Protégé将自动形成术语的层次关系,包括基础关系和包含关系;由于相关关系较为复杂,因此需要进行人工定义,由专家小组成员根据术语之间的关联度建立相关关系,同时检查层次关系的准确性,图4为本实施例的技经本体层次关系及相关关系局部示意图。
五、定义本体的属性
本体中的属性分为两类,一类是数据属性,也即本体的内部属性,是指本体本身所固有的属性,该属性可以传递。例如,工程造价中的内部属性有概念、组成、作用和内容等;一类是对象属性,也即本体的外部属性,是描述本体之间的属性关系,工程定额的一个属性是工程定额的法律规范,它也是一个本体术语。本体的属性由专家小组根据经验进行人工标注。
六、本体评估
本实施例采用专家评价法对所构建的本体进行评价,根据专家评价结果判断本体是否需要修改。
七、迭代和修正
本体实例化的完成代表着技经本体初步构建的完成,但是该本体不会一成不变,随着时间推移,相关法律规范和公司规范会进行更新,因此技经本体库也要随之迭代和修正。
在技经本体库构建完成之后,将本体术语形成知识节点,将其存储为OWL格式(Web本体语言),该格式能够将本体之间的关系完整保存。用OWL和URL(统一资源定位符)构建技经知识图谱的知识链接,由基于OWL的URL来实现本体知识的定位,连接起孤立的本体知识,搭建起本体知识网络,形成技经知识图谱。
在步骤S3进行检索时,传统是通过关键词匹配进行检索,这种方式不能在语义的层面上理解用户的含义,因此本发明在传统的查询上增加语义查询功能。检索流程如图5所示:
一、分词处理
因为中文不像英文一样有自然的分词,需要将语句进行分词提取关键词,去掉无意义用词。才能构建检索式,本发明采用基于词典的正向最大匹配算法进行分词处理,借助现有的词典,将待分词文本每与词典匹配一次后将待分词文本从右边减少一个字,直到匹配成功或只剩一个字,匹配成功后将上一轮匹配的词从待分词文本中去掉,进行下一轮匹配。
如图6所示,Sen记作待分词文本字符串,Res记为分词结果字符串,Sub为临时字符串,Ope为待处理的字符串,Dic为用来分词的词典,具体的分词流程为:
(1)判断Sen字符串的长度,如果等于0则转到步骤(6),如果大于0,转到步骤(2);
(2)将Ope=Sen,转到步骤(3);
(3)判断Ope字符串长度,如果等于1则Sub=Ope,转到步骤(5),否则转到步骤(4);
(4)将Ope在词典Dic中查找,如匹配成功则Sub=Ope,转到步骤(5);否则Ope被重新赋值为右边减掉一个字符返回步骤(3);
(5)Sen被重新赋值为Sen-Sub,即Sen=Sen-Sub,Res被赋值为Res+Sub+”/”,即Res=Res+Sub+”/”,转到步骤(2);
(6)返回最终分词结果Res,算法结束。
假如输入的检索语句为“设计概算的依据是什么”,则Sen=“设计概算的依据是什么”,字符串长度大于1,则Ope=“设计概算的依据是什么”,将Ope与词典进行匹配,匹配失败,则Ope=“设计概算的依据是什”,然后判断字符串Ope长度然后进行匹配,Ope依次为“设计概算的依据是”,“设计概算的依据”,“设计概算的依”,“设计概算的”,直到Ope=“设计概算”,匹配成功,则Sub=“设计概算”,Sen=“的依据是什么”,Res=“设计概算/”,继续在Sen=“的依据是什么”的基础上进行切分,直至Sen=0,此时Res=“设计概算/的/依据/是/什么”,将无意义词“是”和“什么”去掉,则关键词为“设计概算”和“依据”,逻辑关系词为“的”。
二、同义转换
由于对于同一语义有多种描述方式,为了方便检索式的构造以及提高检索的效率,将通过同义词的转换进行检索词的规范,将分词处理后的关键词进行同义词转换,本发明利用词汇矩阵模型构造适用于技术经济知识图谱的同义词典,在词汇矩阵中,行代表词义,列代表词形,描述了词形与词义间映射的关系,同列不同行代表多义词,同行不同列的词汇是同义词,如元素、E(k,t)、E(k,p)表示用词形F_t和F_p代表词义M_k。该矩阵每行中设定一个规范词,利用该同义词典进行同义词转换时,每行中的词转换为该行的规范词,若为多义词,则转换为所有规范词,在检索式构造时用或逻辑表示出来。
三、概念映射和语义扩展
当分词处理后的关键词均可以在同义词词典进行转换为规范词且能直接映射到本体概念上,如转换后的规范词含有“设计概算”,则可以直接进行概念映射到“设计概算”这个本体概念中。进行完概念映射后,将规范词作为检索式的一部分。
当分词处理后的关键词在同义词词典中并未找到对应,则需要将关键词进行语义拓展,通过语义相似度的计算,用语义最相近的规范词代替关键词进行检索式的构造,语义相似度的通过编辑距离来衡量,编辑距离越小语义相似度越大,编辑距离为某个词语转换为另一个词语所需要编辑的次数,包括添加、替换和删除,并用最长词语的长度进行归一化计算得到编辑距离。将未进行同义词转换的关键词语义拓展为与其语义相似度最大即编辑距离最小的规范词作为检索词,而后进行检索式的构造。
四、自动构造检索式
将进行了同义转换、概念映射和语义拓展转化为的规范词作为检索词,并将利用分词处理提取的逻辑关系词转换为布尔操作符,如“和”、“的”等转化为“AND”,如“无”、“没”等转化为“NOT”,“或”等转化为“OR”,同时将同义转换中的多义词转化后的检索词用“OR”连接,形成用布尔逻辑关系词连接的检索词的检索式,进行检索。
五、返回检索结果,对检索结果进行排序
利用词频和位置统计进行检索结果排序,检索词在检索结果内出现的频率越高,出现的位置越重要,则认为该检索结果与检索词越相关,则其排序越靠前,出现频率和位置通过加权来表示。对于多个检索词的检索式,不同检索词的权重不同。
词频加权中,对于单个检索词,出现该检索词频率越高的检索结果的权重越高。对于多个检索词构造的检索式,不能够单纯地进行词频相加,应对所有检索结果进行总的词频检测,对在所用检索结果中出现总频率高的检索词赋予低的权重,而将在所有检索结果中出现总频率低的检索词赋予较低的权重。如检索式为“设计概算&方法”,将检索出所有带有“设计概算”和“方法”的条目,“方法”在所有检索结果中出现的频率高于“设计概算”,因此“方法”的权重低于“设计概算”。
位置加权中,考虑到检索词出现位置的不同,其权重也不同,对于出现在标题或者有加粗等特殊个式的权重更高。如对“设计概算”的检索中,检索结果1和检索结果2中“设计概算”均出现了10次,而结果1中“设计概算”出现在标题中,标题中的“设计概算”的权重要高于其他的“设计概算”,导致结果1排序在前。
在步骤S4可视化展示时,本实施例采用Cytoscape Web工具进行技经知识图谱的可视化,节点代表本体中的术语,节点之间的有向边代表本体术语之间的关系,不同颜色的本体术语带表分属不同的类别。通过点击某节点可以单独展示某本体术语及和其有关系的本体术语,并在页面上展示该术语的数据属性。
综上所述,本发明通过建立输变电工程技经本体库,再以本体库为基础构建基于知识图谱技术的检索平台,能够有效实现智能语义检索和可视化展示功能,方便用户能根据所需快速地检索和***地学习其所需的知识,有利于后续提高工程中各专业协作效率。

Claims (10)

1.一种基于知识图谱的工程技经知识检索平台,其特征在于,包括技经本体知识库、语义处理单元以及交互单元,所述技经本体知识库、交互单元分别与语义处理单元相互连接,所述技经本体知识库用于存储项目管理知识、技经知识、造价知识、工程技术知识、法规知识以及实际案例;
所述语义处理单元根据用户输入的检索语句,生成对应的检索式,以从技经本体知识库中检索得到相关知识图谱;
所述交互单元用于用户进行检索语句的输入操作,以及将检索得到的相关知识图谱可视化呈现给用户。
2.根据权利要求1所述的一种基于知识图谱的工程技经知识检索平台,其特征在于,所述语义处理单元包括依次连接的分词处理模块、同义转换模块、检索词生成模块、检索式生成模块和检索结果排序模块,所述分词处理模块用于去除用户输入检索语句中无意义用词,以提取出关键词和逻辑关系词;
所述同义转换模块用于对关键词进行同义词转换,以得到规范词;
所述检索词生成模块用于对规范词进行概念映射、对未进行同义词转换的关键词进行语义拓展,以得到检索词;
所述检索式生成模块根据检索词以及逻辑关系词,以构造生成相应的检索式;
所述检索结果排序模块根据检索式从技经本体知识库中检索得到多个检索结果,并对多个检索结果进行排序。
3.一种应用权利要求1所述检索平台的工程技经知识检索方法,其特征在于,包括以下步骤:
S1、构建技经本体知识库;
S2、用户在交互单元输入检索语句;
S3、基于用户输入的检索语句,语义处理单元从技经本体知识库检索得到对应的相关知识图谱;
S4、交互单元将检索得到的相关知识图谱可视化展示给用户。
4.根据权利要求3所述的一种工程技经知识检索方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、确定技经本体构建目标;
S12、确定技经本体所覆盖的领域以及知识来源;
S13、定义技经本体中所需的术语并进行分类;
S14、定义本体间的层次关系和相关关系;
S15、定义本体的属性;
S16、对构建的本体进行评价,以判断本体是否需进行修改,若需修改则返回步骤S13或步骤S14,否则执行步骤S17;
S17、根据知识来源的更新,对本体进行迭代修正,得到技经本体库;
S18、在建立技经本体库之后,将本体术语形成知识节点,并存储为OWL格式,之后用OWL和URL构建技经知识图谱的知识链接,即基于OWL的URL来实现本体知识的定位,以连接孤立的本体知识,从而搭建出本体知识网络、形成技经知识图谱,即得到技经本体知识库。
5.根据权利要求4所述的一种工程技经知识检索方法,其特征在于,所述步骤S12中技经本体所覆盖的领域以及知识来源具体包括:
从相关工程经济、工程造价或工程技术教材中获得的技术经济以造价基础理论知识;
从行业相关专业性规范规程规定中获得的输变电工程知识及其技术经济知识;
从教材、企业正式规范和办法、企业内部文件资料中获得的项目管理知识;
从公司、地方以及国家相关法规规定中获得的法规知识;
从企业历年输变电工程实际数据文献资料中获得的实际案例。
6.根据权利要求4所述的一种工程技经知识检索方法,其特征在于,所述步骤S13具体包括以下步骤:
S131、根据知识来源的目录大纲和具体内容,从知识来源中提取术语;
S132、对术语进行规范化处理;
S133、按照术语所属的知识来源,将规范化处理后的术语分为管理类、技经类、造价类、技术类、法规类和实例类。
7.根据权利要求6所述的一种工程技经知识检索方法,其特征在于,所述步骤S132中规范化处理具体包括同义异词处理和同词异议处理。
8.根据权利要求4所述的一种工程技经知识检索方法,其特征在于,所述步骤S14具体包括以下步骤:
S141、将术语导入本体编码工具Protégé,形成树形结构的本体库,按需要学习的先后顺序进行术语的排布,通过Protégé自动形成术语的层次关系,所述层次关系包括基础关系和包含关系;
S142、根据术语之间的关联度,建立术语之间的相关关系。
9.根据权利要求4所述的一种工程技经知识检索方法,其特征在于,所述步骤S15中本体的属性包括数据属性和对象属性,所述数据属性为本体的内部属性,即本体本身所固有的、可传递的属性;
所述对象属性为本体的外部属性,用于描述本体之间的属性关系。
10.根据权利要求3所述的一种工程技经知识检索方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、基于词典的正向对大匹配算法,对用户输入的检索语句进行分词处理,即借助现有的词典,将检索语句每与词典匹配一次后,将检索语句从右边减少一个字,直到匹配成功或只剩一个字,匹配成功后将上一轮匹配的词从检索语句中去掉,进行下一轮匹配,以此从检索语句中提取得到关键词和逻辑关系词;
S32、利用词汇矩阵模型构造适用于技术经济知识图谱的同义词典,以对关键词进行同义词转换,得到对应的规范词;
S33、对规范词进行概念映射,并通过语义相似度计算,对未进行同义词转换的关键词进行语义拓展,得到多个检索词;
S34、将逻辑关系词转换为布尔操作符,以连接多个检索词,得到检索式;
S35、基于检索式,从技经本体知识库中检索得到对应的多个检索结果;
S36、按照词频加权值和位置加权值的大小关系,对多个检索结果进行排序,得到最终的相关知识图谱。
CN202010756705.1A 2020-07-31 2020-07-31 一种基于知识图谱的工程技经知识检索平台及其方法 Pending CN111949855A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010756705.1A CN111949855A (zh) 2020-07-31 2020-07-31 一种基于知识图谱的工程技经知识检索平台及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010756705.1A CN111949855A (zh) 2020-07-31 2020-07-31 一种基于知识图谱的工程技经知识检索平台及其方法

Publications (1)

Publication Number Publication Date
CN111949855A true CN111949855A (zh) 2020-11-17

Family

ID=73338940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010756705.1A Pending CN111949855A (zh) 2020-07-31 2020-07-31 一种基于知识图谱的工程技经知识检索平台及其方法

Country Status (1)

Country Link
CN (1) CN111949855A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487314A (zh) * 2020-12-04 2021-03-12 国泰新点软件股份有限公司 基于知识图谱的住建搜索方法、装置及存储介质
CN112528102A (zh) * 2020-12-15 2021-03-19 深圳供电局有限公司 一种基于布尔逻辑判断的规范词条匹配方法
CN112800243A (zh) * 2021-02-04 2021-05-14 天津德尔塔科技有限公司 一种基于知识图谱的项目预算分析方法及***
CN112988980A (zh) * 2021-05-12 2021-06-18 太平金融科技服务(上海)有限公司 目标产品查询方法、装置、计算机设备和存储介质
CN113191497A (zh) * 2021-05-28 2021-07-30 国家电网有限公司 一种面向变电站踏勘选址的知识图谱构建方法和***
CN113505211A (zh) * 2021-07-29 2021-10-15 永道科技有限公司 一种基于关键词词库的工程造价数据解析***及其方法
CN113505593A (zh) * 2021-07-23 2021-10-15 北京中科凡语科技有限公司 相似语句检索方法、装置、电子设备及可读存储介质
CN116150929A (zh) * 2023-04-17 2023-05-23 中南大学 一种铁路选线知识图谱的构建方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010109404A (ko) * 2000-05-31 2001-12-10 정영미 의미망 지식베이스를 이용한 개념기반 정보검색시스템
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和***
CN106649394A (zh) * 2015-11-03 2017-05-10 中兴通讯股份有限公司 融合知识库处理方法和装置,以及知识库管理***
CN106919674A (zh) * 2017-02-20 2017-07-04 广东省中医院 一种基于Wiki语义网络构建的知识问答***及智能检索方法
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN109919585A (zh) * 2019-05-14 2019-06-21 上海市浦东新区行政服务中心(上海市浦东新区市民中心) 基于知识图谱的人工智能辅助行政审批方法、***及终端
CN110866089A (zh) * 2019-11-14 2020-03-06 国家电网有限公司 基于同义多语境分析的机器人知识库构建***及方法
CN111157001A (zh) * 2019-12-20 2020-05-15 南京师范大学 一种面向医院室内导航的本体构建方法
CN111221957A (zh) * 2020-01-10 2020-06-02 合肥工业大学 一种基于知识组织的科技信息自动化处理方法及***
CN111309877A (zh) * 2018-12-12 2020-06-19 北京文因互联科技有限公司 一种基于知识图谱的智能问答方法及***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010109404A (ko) * 2000-05-31 2001-12-10 정영미 의미망 지식베이스를 이용한 개념기반 정보검색시스템
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和***
CN106649394A (zh) * 2015-11-03 2017-05-10 中兴通讯股份有限公司 融合知识库处理方法和装置,以及知识库管理***
CN106919674A (zh) * 2017-02-20 2017-07-04 广东省中医院 一种基于Wiki语义网络构建的知识问答***及智能检索方法
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN111309877A (zh) * 2018-12-12 2020-06-19 北京文因互联科技有限公司 一种基于知识图谱的智能问答方法及***
CN109919585A (zh) * 2019-05-14 2019-06-21 上海市浦东新区行政服务中心(上海市浦东新区市民中心) 基于知识图谱的人工智能辅助行政审批方法、***及终端
CN110866089A (zh) * 2019-11-14 2020-03-06 国家电网有限公司 基于同义多语境分析的机器人知识库构建***及方法
CN111157001A (zh) * 2019-12-20 2020-05-15 南京师范大学 一种面向医院室内导航的本体构建方法
CN111221957A (zh) * 2020-01-10 2020-06-02 合肥工业大学 一种基于知识组织的科技信息自动化处理方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴红光等: "信息检索与利用", vol. 1, 28 February 2015, 武汉大学出版社, pages: 36 - 37 *
周宁、刘解放: "基于 OWL 的网络管理领域本体构建方法", 《内江师范学院学报》, vol. 24, no. 10, pages 76 - 78 *
巩沐歌、温有奎: "基于本体的高血压疾病诊断知识库", 《情报杂志》, vol. 29, no. 1, pages 169 - 172 *
陈立华: "《本体模式下的数字图书馆信息检索与服务研究》", vol. 1, 31 October 2014, 科学技术出版社, pages: 192 - 200 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487314A (zh) * 2020-12-04 2021-03-12 国泰新点软件股份有限公司 基于知识图谱的住建搜索方法、装置及存储介质
CN112528102A (zh) * 2020-12-15 2021-03-19 深圳供电局有限公司 一种基于布尔逻辑判断的规范词条匹配方法
CN112800243A (zh) * 2021-02-04 2021-05-14 天津德尔塔科技有限公司 一种基于知识图谱的项目预算分析方法及***
CN112988980A (zh) * 2021-05-12 2021-06-18 太平金融科技服务(上海)有限公司 目标产品查询方法、装置、计算机设备和存储介质
CN113191497A (zh) * 2021-05-28 2021-07-30 国家电网有限公司 一种面向变电站踏勘选址的知识图谱构建方法和***
CN113191497B (zh) * 2021-05-28 2024-04-23 国家电网有限公司 一种面向变电站踏勘选址的知识图谱构建方法和***
CN113505593A (zh) * 2021-07-23 2021-10-15 北京中科凡语科技有限公司 相似语句检索方法、装置、电子设备及可读存储介质
CN113505593B (zh) * 2021-07-23 2024-03-29 北京中科凡语科技有限公司 相似语句检索方法、装置、电子设备及可读存储介质
CN113505211A (zh) * 2021-07-29 2021-10-15 永道科技有限公司 一种基于关键词词库的工程造价数据解析***及其方法
CN116150929A (zh) * 2023-04-17 2023-05-23 中南大学 一种铁路选线知识图谱的构建方法
CN116150929B (zh) * 2023-04-17 2023-07-07 中南大学 一种铁路选线知识图谱的构建方法

Similar Documents

Publication Publication Date Title
CN111949855A (zh) 一种基于知识图谱的工程技经知识检索平台及其方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
US7739257B2 (en) Search engine
CN112463980A (zh) 一种基于知识图谱的预案智能推荐方法
CN109033135A (zh) 一种面向软件项目知识图谱的自然语言查询方法及***
WO2022095573A1 (zh) 一种结合主动学习的社区问答网站答案排序方法及***
US8583669B2 (en) Query suggestion for efficient legal E-discovery
WO2014210387A2 (en) Concept extraction
WO2023035330A1 (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
CN112948547A (zh) 测井知识图谱构建查询方法、装置、设备及存储介质
CN116150337A (zh) 一种基于数控机床故障知识图谱的智能问答方法及其***
CN112667821A (zh) 基于百科数据的军事知识图谱构建和问答方法
CN115203337A (zh) 一种数据库元数据关系知识图谱生成方法
CN115757810A (zh) 一种知识图谱标准本体构建方法
CN109947914B (zh) 一种基于模板的软件缺陷自动问答方法
Truong et al. Construct an intelligent querying system in education based on ontology integration
Looser et al. Using formal concept analysis for ontology maintenance in human resource recruitment
CN112925919A (zh) 一种知识图谱驱动的个性化作业布置方法
CN115982322A (zh) 一种水利行业设计领域知识图谱的检索方法及检索***
CN114238653B (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
Banerjee et al. Neural language model based intelligent semantic information retrieval on NCDOT projects for knowledge management
Tao et al. From citation network to study map: a novel model to reorganize academic literatures
CN113792157A (zh) 一种面向领域机理知识库的构建方法
CN111814457A (zh) 一种电网工程合同文本生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination