CN111897914A - 用于综合管廊领域的实体信息抽取及知识图谱构建方法 - Google Patents

用于综合管廊领域的实体信息抽取及知识图谱构建方法 Download PDF

Info

Publication number
CN111897914A
CN111897914A CN202010701527.2A CN202010701527A CN111897914A CN 111897914 A CN111897914 A CN 111897914A CN 202010701527 A CN202010701527 A CN 202010701527A CN 111897914 A CN111897914 A CN 111897914A
Authority
CN
China
Prior art keywords
data
entity
comprehensive pipe
pipe gallery
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010701527.2A
Other languages
English (en)
Other versions
CN111897914B (zh
Inventor
朱安安
邱彦林
陈尚武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xujian Science And Technology Co ltd
Original Assignee
Hangzhou Xujian Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xujian Science And Technology Co ltd filed Critical Hangzhou Xujian Science And Technology Co ltd
Priority to CN202010701527.2A priority Critical patent/CN111897914B/zh
Publication of CN111897914A publication Critical patent/CN111897914A/zh
Application granted granted Critical
Publication of CN111897914B publication Critical patent/CN111897914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供用于综合管廊领域的实体信息抽取及知识图谱构建方法,基于已有综合管廊结构化数据和互联网数据生成综合管廊相关数据,获取的数据通过收集、清洗、分析、汇总、入库等工作后形成综合管廊网络知识库;根据上述采集的数据信息,选取部分数据作为训练集进行标注训练,建立NLP模型;通过人工筛选标注的方式进行标注,作为训练数据。采用本发明的技术方案,通过对相关网站、论坛等的信息获取,得到综合管廊相关的数据资料,构建基于语义分析和属性分类的三元组抽取模型,将抽取的三元组通过图数据库的形式存储,并通过预设算法予以展示,形成综合管廊的行业知识图谱;本发明提供的技术方案还可以从综合管廊行业泛化到其他行业中。

Description

用于综合管廊领域的实体信息抽取及知识图谱构建方法
技术领域
本发明涉及知识图谱构建技术领域,尤其是涉及用于综合管廊领域的实体信息抽取及知识图谱构建方法。
背景技术
知识图谱本质上是一种语义网络的知识库,是一种基于图的数据结构,由节点和边组成。近年来,知识图谱与自然语言处理及搜索技术的结合越来越广泛,知识图谱是关系的最有效表述方式,将不同种类的信息相连接从而得到一个实体之间的关系网络,提供了从“关联关系”的角度去分析问题的方式。
现有技术的缺陷和不足:目前,由于综合管廊行业起步较晚,知识图谱在综合管廊行业的应用还是一片空白,而管廊行业复杂的设计施工以及各个管网的相互合作却更需要这种基于关系的知识网络来帮助人们进行更加完善***的规划建设。鉴于此,需要一种或多种方法针对管廊这一特定行业进行实体抽取与知识图谱的建立。
发明内容
本发明要解决的问题是综合管廊领域实体关系抽取与知识图谱体系空白的问题,为解决上述技术问题,本发明提供了一种用于综合管廊领域的实体信息抽取及知识图谱构建方法,用以构建更为完善的综合管廊的关系图谱。
为实现上述目的,本发明提供了一种用于综合管廊领域的实体信息抽取及知识图谱构建方法,包括如下步骤:
步骤(1)、数据采集:
基于已有综合管廊结构化数据和互联网数据生成综合管廊相关数据,这些数据包括已有相关设施设备等的结构化数据,以及通过爬虫在相关政府网站、综合管廊类网站、施工等相关网站采集的综合管廊相关文档信息;这些综合管廊相关文档信息包括规划类文档信息、设计文档、施工文档、法律法规、政策标准、期刊、专利、报告、百科以及相关新闻等;获取的数据通过收集、清洗、分析、汇总、入库等工作后形成综合管廊网络知识库;
步骤(2)、数据标注训练:
根据上述步骤(1)采集的数据信息,选取部分数据作为训练集进行标注训练,建立NL P模型;
通过人工筛选标注的方式进行标注,作为训练数据。
需说明:在人工标注过程中,对管廊行业相关词进行特殊标注以便后续可根据词性抽取实体,取“隧道”的英文“tunnel”的前三个字母“tun”作为管廊相关词的特殊词性,方便与其他词性进行区分,;
确定各个实体的属性分类,在考虑了管廊的特性后暂规划的实体属性有包含名词解释、实体设计、实体施工、实体运维要求、优缺点等在内的共11种属性以及父、子关系从属的上下级关系;
运用BERT模型对标注数据进行训练,最后用训练好的模型对所有文档进行词性标注;
步骤(3)、实体属性分类:
建立句子属性分类模型,对符合三元组抽取的句子进行实体属性分类,得到该被分析句子所包含实体的属性为哪一种;
步骤(4)、实体抽取:
建立基于语义角色和依存句法关系的三元组抽取模型,将综合管数据通过预设模型抽取相关的实体,并分别抽取所述综合管廊实体的基本属性及实体之间的关系;其中抽取的实体包括实体名称、基本属性以及所属文档id;
三元组抽取模型的具体如下:
4.1、对每句话进行语义角色和依存句法分析,对每个词生成一个该词的数组,用以记录该词的词性、父子节点的词性及其关系;
4.2、对每个词性标注为‘tun’的词查找其是否具有语义角色关系,如存在则进入属性分类判断其属性归属,然后提取三元组,若不存在则进行依存句法分析查询;
4.3、对每个词进行查询,找出其是否具有“主谓宾[SBV],动宾[VOB];定语后置[ATT];缺失宾语情况下的介宾关系[POB]、前置宾语[FOB]、间接宾语[IOB]等”中的某一情况,若存在,先对关系进行扩充,再判断该关系结构中存在几个词性为‘tun’的词,若为一个则进行属性分类,若大于一个则进行实体间的关系抽取,最终抽取出该情况下的三元组;
以主谓宾结构为例说明:如句子“综合管廊是建于城市地下用于容纳两类及以上城市工程管线的构筑物及附属设施。”首先对句子进行词性标注、语义角色及依存句法分析。依存句法分析后得到的结构为“是:{'SBV':[综合管廊/tun],'VOB':[建]}”进行扩充结果为:{SBV:[综合管廊/tun]}-{HED:是}-{VOB:建于城市地下用于容纳两类及以上城市工程管线的构筑物及附属设施},其中‘/tun’为词性,主语中包含标注词性,则进行实体属性分类,属性分类结果为名词解释,则最终抽取的三元组为[实体:SBO]-[属性:名词解释]-[属性值:VOB]。
步骤(5)、数据存储:
根据所述三元组抽取模块,将获取的所述实体的属性及实体间逻辑关系进行整合,去除相似及重复数据,消除矛盾及歧义数据,建立准确的实体连接并存储于图数据库中;
步骤(6)、知识图谱生成:
基于Neo4J图数据库将所述三元组进行存储后,通过预设算法处理图数据库中的数据,将所述实体属性及实体关系连接按照实体-关系-实体的三元组数据用图的方式进行展现。
其中,实体即具体的事物、主体等独立存在的东西。在本发明中的实体特指综合管廊领域中的主体,如“综合管廊”、“附属构筑物”等名词,或在管廊施工、设计过程中的施工方法、施工用品、廊内所属物品名称、构筑物名称等,如“明挖现浇”、“盾构机”、“防火门”、“排水管道”等,下文所述“实体”相同。
与现有技术相比,本发明的技术方案具有如下有益效果:
采用本发明的技术方案,通过对相关网站、论坛等的信息获取,得到综合管廊相关的数据资料,构建基于语义分析和属性分类的三元组抽取模型,将抽取的三元组通过图数据库的形式存储,并通过预设算法予以展示,形成综合管廊的行业知识图谱;本发明提供的技术方案还可以从综合管廊行业泛化到其他行业中。
附图说明
图1是本发明的整体工作示意图;
图2是本发明的具体技术方案示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1~2所示,本发明提供了一种用于综合管廊领域的实体信息抽取及知识图谱构建方法的具体实施例,包括如下步骤:
步骤(1)、数据采集:
基于已有综合管廊结构化数据和互联网数据生成综合管廊相关数据,这些数据包括已有相关设施设备等的结构化数据,以及通过爬虫在相关政府网站、综合管廊类网站、施工等相关网站采集的综合管廊相关文档信息;这些综合管廊相关文档信息包括规划类文档信息、设计文档、施工文档、法律法规、政策标准、期刊、专利、报告、百科以及相关新闻等;获取的数据通过收集、清洗、分析、汇总、入库等工作后形成综合管廊网络知识库;
步骤(2)、数据标注训练:
根据上述步骤(1)采集的数据信息,选取部分数据作为训练集进行标注训练,建立NL P模型;
通过人工筛选标注的方式进行标注,作为训练数据。
需说明:在人工标注过程中,对管廊行业相关词进行特殊标注以便后续可根据词性抽取实体,取“隧道”的英文“tunnel”的前三个字母“tun”作为管廊相关词的特殊词性,方便与其他词性进行区分;
确定各个实体的属性分类,在考虑了管廊的特性后暂规划的实体属性有包含名词解释、实体设计、实体施工、实体运维要求、优缺点等在内的共11种属性以及父、子关系从属的上下级关系;
运用BERT模型对标注数据进行训练,最后用训练好的模型对所有文档进行词性标注;
步骤(3)、实体属性分类:
建立句子属性分类模型,对符合三元组抽取的句子进行实体属性分类,得到该被分析句子所包含实体的属性为哪一种;
步骤(4)、实体抽取:
建立基于语义角色和依存句法关系的三元组抽取模型,将综合管数据通过预设模型抽取相关的实体,并分别抽取所述综合管廊实体的基本属性及实体之间的关系;其中抽取的实体包括实体名称、基本属性以及所属文档id;
三元组抽取模型的具体如下:
4.1、对每句话进行语义角色和依存句法分析,对每个词生成一个该词的数组,用以记录该词的词性、父子节点的词性及其关系;
4.2、对每个词性标注为‘tun’的词查找其是否具有语义角色关系,如存在则进入属性分类判断其属性归属,然后提取三元组,若不存在则进行依存句法分析查询;
4.3、对每个词进行查询,找出其是否具有“主谓宾[SBV],动宾[VOB];定语后置[ATT];缺失宾语情况下的介宾关系[POB]、前置宾语[FOB]、间接宾语[IOB]等”中的某一情况,若存在,先对关系进行扩充,再判断该关系结构中存在几个词性为‘tun’的词,若为一个则进行属性分类,若大于一个则进行实体间的关系抽取,最终抽取出该情况下的三元组;
以主谓宾结构为例说明:如句子“综合管廊是建于城市地下用于容纳两类及以上城市工程管线的构筑物及附属设施。”首先对句子进行词性标注、语义角色及依存句法分析。依存句法分析后得到的结构为“是:{'SBV':[综合管廊/tun],'VOB':[建]}”进行扩充结果为:{SBV:[综合管廊/tun]}-{HED:是}-{VOB:建于城市地下用于容纳两类及以上城市工程管线的构筑物及附属设施},其中‘/tun’为词性,主语中包含标注词性,则进行实体属性分类,属性分类结果为名词解释,则最终抽取的三元组为[实体:SBO]-[属性:名词解释]-[属性值:VOB]。
步骤(5)、数据存储:
根据所述三元组抽取模块,将获取的所述实体的属性及实体间逻辑关系进行整合,去除相似及重复数据,消除矛盾及歧义数据,建立准确的实体连接并存储于图数据库中;
步骤(6)、知识图谱生成:
基于Neo4J图数据库将所述三元组进行存储后,通过预设算法处理图数据库中的数据,将所述实体属性及实体关系连接按照实体-关系-实体的三元组数据用图的方式进行展现。
其中,实体即具体的事物、主体等独立存在的东西。在本发明中的实体特指综合管廊领域中的主体,如“综合管廊”、“附属构筑物”等名词,或在管廊施工、设计过程中的施工方法、施工用品、廊内所属物品名称、构筑物名称等,如“明挖现浇”、“盾构机”、“防火门”、“排水管道”等,下文所述“实体”相同。
采用本发明的技术方案,通过对相关网站、论坛等的信息获取,得到综合管廊相关的数据资料,构建基于语义分析和属性分类的三元组抽取模型,将抽取的三元组通过图数据库的形式存储,并通过预设算法予以展示,形成综合管廊的行业知识图谱;本发明提供的技术方案还可以从综合管廊行业泛化到其他行业中。
需要说明的是,在本发明中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本发明的方法及其核心思想,以上所述仅是本发明的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。

Claims (2)

1.一种用于综合管廊领域的实体信息抽取及知识图谱构建方法,其特征在于,包括如下步骤:
步骤(1)、数据采集:
基于已有综合管廊结构化数据和互联网数据生成综合管廊相关数据,这些数据包括已有相关设施设备的结构化数据,以及通过爬虫在相关政府网站、综合管廊类网站、施工相关网站采集的综合管廊相关文档信息;这些综合管廊相关文档信息包括规划类文档信息、设计文档、施工文档、法律法规、政策标准、期刊、专利、报告、百科以及相关新闻;获取的数据通过收集、清洗、分析、汇总、入库工作后形成综合管廊网络知识库;
步骤(2)、数据标注训练:
根据上述步骤(1)采集的数据信息,选取部分数据作为训练集进行标注训练,建立NLP模型;
通过人工筛选标注的方式进行标注,作为训练数据;
在人工标注过程中,对管廊行业相关词进行特殊标注以便后续可根据词性抽取实体,取“隧道”的英文“tunnel”的前三个字母“tun”作为管廊相关词的特殊词性,方便与其他词性进行区分;
确定各个实体的属性分类,在考虑了管廊的特性后暂规划的实体属性有包含名词解释、实体设计、实体施工、实体运维要求、优缺点在内的共11种属性以及父、子关系从属的上下级关系;
运用BERT模型对标注数据进行训练,最后用训练好的模型对所有文档进行词性标注;
步骤(3)、实体属性分类:
建立句子属性分类模型,对符合三元组抽取的句子进行实体属性分类,得到该被分析句子所包含实体的属性为哪一种;
步骤(4)、实体抽取:
建立基于语义角色和依存句法关系的三元组抽取模型,将综合管数据通过预设模型抽取相关的实体,并分别抽取所述综合管廊实体的基本属性及实体之间的关系;其中抽取的实体包括实体名称、基本属性以及所属文档id;
步骤(5)、数据存储:
根据所述三元组抽取模块,将获取的所述实体的属性及实体间逻辑关系进行整合,去除相似及重复数据,消除矛盾及歧义数据,建立准确的实体连接并存储于图数据库中;
步骤(6)、知识图谱生成:
基于Neo4J图数据库将所述三元组进行存储后,通过预设算法处理图数据库中的数据,将所述实体属性及实体关系连接按照实体-关系-实体的三元组数据用图的方式进行展现。
2.根据权利要求1中所述的一种用于综合管廊领域的实体信息抽取及知识图谱构建方法,其特征在于,在步骤(4)中三元组抽取模型的具体如下:
4.1、对每句话进行语义角色和依存句法分析,对每个词生成一个该词的数组,用以记录该词的词性、父子节点的词性及其关系;
4.2、对每个词性标注为‘tun’的词查找其是否具有语义角色关系,如存在则进入属性分类判断其属性归属,然后提取三元组,若不存在则进行依存句法分析查询;
4.3、对每个词进行查询,找出其是否具有“主谓宾[SBV],动宾[VOB];定语后置[ATT];缺失宾语情况下的介宾关系[POB]、前置宾语[FOB]、间接宾语[IOB]”中的某一情况,若存在,先对关系进行扩充,再判断该关系结构中存在几个词性为‘tun’的词,若为一个则进行属性分类,若大于一个则进行实体间的关系抽取,最终抽取出该情况下的三元组。
CN202010701527.2A 2020-07-20 2020-07-20 用于综合管廊领域的实体信息抽取及知识图谱构建方法 Active CN111897914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010701527.2A CN111897914B (zh) 2020-07-20 2020-07-20 用于综合管廊领域的实体信息抽取及知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010701527.2A CN111897914B (zh) 2020-07-20 2020-07-20 用于综合管廊领域的实体信息抽取及知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN111897914A true CN111897914A (zh) 2020-11-06
CN111897914B CN111897914B (zh) 2023-09-19

Family

ID=73189568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010701527.2A Active CN111897914B (zh) 2020-07-20 2020-07-20 用于综合管廊领域的实体信息抽取及知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN111897914B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380298A (zh) * 2020-12-03 2021-02-19 成都航天科工大数据研究院有限公司 一种油气管道缺陷修复的知识图谱构建方法及***
CN112417220A (zh) * 2020-11-20 2021-02-26 国家电网有限公司大数据中心 一种异构数据的整合方法
CN112765363A (zh) * 2021-01-19 2021-05-07 昆明理工大学 一种面向科技服务需求的需求图谱构建方法
CN113065928A (zh) * 2021-04-22 2021-07-02 上海日羲科技有限公司 一种基于大数据的电商交易方法
CN113449120A (zh) * 2021-07-02 2021-09-28 航天海鹰机电技术研究院有限公司 一种结合空间信息的管线安全综合监管方法
CN113609838A (zh) * 2021-07-14 2021-11-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和***
CN115115227A (zh) * 2022-06-28 2022-09-27 华南理工大学 一种用于造纸领域的产品质量知识图谱构建方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070010990A1 (en) * 2003-04-24 2007-01-11 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
CN108897857A (zh) * 2018-06-28 2018-11-27 东华大学 面向领域的中文文本主题句生成方法
US20190156223A1 (en) * 2017-06-22 2019-05-23 International Business Machines Corporation Relation extraction using co-training with distant supervision
US20190171656A1 (en) * 2017-05-10 2019-06-06 Boe Technology Group Co., Ltd. Traditional chinese medicine knowledge graph and establishment method therefor, and computer system
CN110245239A (zh) * 2019-05-13 2019-09-17 吉林大学 一种面向汽车领域知识图谱的构建方法及***
US10496678B1 (en) * 2016-05-12 2019-12-03 Federal Home Loan Mortgage Corporation (Freddie Mac) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
CN110555153A (zh) * 2019-08-20 2019-12-10 暨南大学 一种基于领域知识图谱的问答***及其构建方法
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
CN110825883A (zh) * 2019-10-30 2020-02-21 杭州叙简科技股份有限公司 一种基于知识图谱的混合式团伙发现方法
CN111177322A (zh) * 2019-12-30 2020-05-19 成都数之联科技有限公司 一种领域知识图谱的本体模型构建方法
CN111382214A (zh) * 2018-12-11 2020-07-07 星际空间(天津)科技发展有限公司 一种基于3dgis bim的综合管廊运维管理***

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070010990A1 (en) * 2003-04-24 2007-01-11 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
US10496678B1 (en) * 2016-05-12 2019-12-03 Federal Home Loan Mortgage Corporation (Freddie Mac) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的***及方法
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
US20190171656A1 (en) * 2017-05-10 2019-06-06 Boe Technology Group Co., Ltd. Traditional chinese medicine knowledge graph and establishment method therefor, and computer system
US20190156223A1 (en) * 2017-06-22 2019-05-23 International Business Machines Corporation Relation extraction using co-training with distant supervision
CN108897857A (zh) * 2018-06-28 2018-11-27 东华大学 面向领域的中文文本主题句生成方法
CN111382214A (zh) * 2018-12-11 2020-07-07 星际空间(天津)科技发展有限公司 一种基于3dgis bim的综合管廊运维管理***
CN110245239A (zh) * 2019-05-13 2019-09-17 吉林大学 一种面向汽车领域知识图谱的构建方法及***
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法
CN110555153A (zh) * 2019-08-20 2019-12-10 暨南大学 一种基于领域知识图谱的问答***及其构建方法
CN110825883A (zh) * 2019-10-30 2020-02-21 杭州叙简科技股份有限公司 一种基于知识图谱的混合式团伙发现方法
CN111177322A (zh) * 2019-12-30 2020-05-19 成都数之联科技有限公司 一种领域知识图谱的本体模型构建方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417220A (zh) * 2020-11-20 2021-02-26 国家电网有限公司大数据中心 一种异构数据的整合方法
CN112380298A (zh) * 2020-12-03 2021-02-19 成都航天科工大数据研究院有限公司 一种油气管道缺陷修复的知识图谱构建方法及***
CN112765363A (zh) * 2021-01-19 2021-05-07 昆明理工大学 一种面向科技服务需求的需求图谱构建方法
CN113065928A (zh) * 2021-04-22 2021-07-02 上海日羲科技有限公司 一种基于大数据的电商交易方法
CN113449120A (zh) * 2021-07-02 2021-09-28 航天海鹰机电技术研究院有限公司 一种结合空间信息的管线安全综合监管方法
CN113449120B (zh) * 2021-07-02 2023-06-16 航天海鹰机电技术研究院有限公司 一种结合空间信息的管线安全综合监管方法
CN113609838A (zh) * 2021-07-14 2021-11-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和***
CN113609838B (zh) * 2021-07-14 2024-05-24 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和***
CN115115227A (zh) * 2022-06-28 2022-09-27 华南理工大学 一种用于造纸领域的产品质量知识图谱构建方法

Also Published As

Publication number Publication date
CN111897914B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN111897914A (zh) 用于综合管廊领域的实体信息抽取及知识图谱构建方法
CN109710701B (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN110309393B (zh) 数据处理方法、装置、设备及可读存储介质
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN110555153A (zh) 一种基于领域知识图谱的问答***及其构建方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
Kovbasistyi et al. Method for detection of non-relevant and wrong information based on content analysis of web resources
CN111488467B (zh) 地理知识图谱的构建方法、装置、存储介质及计算机设备
CN106570171A (zh) 一种基于语义的科技情报处理方法及***
CN101373532A (zh) 旅游领域faq中文问答***实现方法
CN110609983B (zh) 一种政策文件结构化分解方法
CN105824933A (zh) 基于主述位的自动问答***及其实现方法
CN111125524B (zh) 基于知识图谱的数据分析与数据推送方法
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN109947952A (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
CN106960058A (zh) 一种网页结构变更检测方法及***
CN111831794A (zh) 一种基于知识图谱的综合管廊行业知识问答***构建方法
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN111177401A (zh) 一种电网自由文本知识抽取方法
JPH11110384A (ja) 構造化文書検索表示方法及び装置
CN107491524B (zh) 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置
CN112966169A (zh) 一种互联网应急信息抓取方法
CN112328811A (zh) 一种基于同类型词组的词谱聚类智能生成方法
Oramas et al. Automatic creation of knowledge graphs from digital musical document libraries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant