CN111581376A - 一种知识图谱自动构建***及方法 - Google Patents

一种知识图谱自动构建***及方法 Download PDF

Info

Publication number
CN111581376A
CN111581376A CN202010314286.6A CN202010314286A CN111581376A CN 111581376 A CN111581376 A CN 111581376A CN 202010314286 A CN202010314286 A CN 202010314286A CN 111581376 A CN111581376 A CN 111581376A
Authority
CN
China
Prior art keywords
data
entity
model
text
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010314286.6A
Other languages
English (en)
Other versions
CN111581376B (zh
Inventor
任惠超
胡颖
黄庆龙
于文东
董艳波
薛龙
许光
刘锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
714th Research Institute of CSIC
Original Assignee
714th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 714th Research Institute of CSIC filed Critical 714th Research Institute of CSIC
Priority to CN202010314286.6A priority Critical patent/CN111581376B/zh
Publication of CN111581376A publication Critical patent/CN111581376A/zh
Application granted granted Critical
Publication of CN111581376B publication Critical patent/CN111581376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种知识图谱自动构建***及方法,为了弥补目前只基于结构化数据和非结构化数据构建知识图谱的缺陷,技术方案包括采用Bert学习模型进行关系分类和实体抽取,有效地从非结构文本中提取知识三元组;通过改进Bert的输入形式,采用分步抽取方式,实体识别过程中通过给句子填充关系信息,从而提高了实体的识别效果,可以从文本中识别多个三元组关系,避免了信息交错而导致实体关系对应错误;实现7×24小时的实时知识图谱构建,能够实时抓取互联网数据,实时提取文本中的三元组,并存储到数据库中,这样能够快速获取最新文本中的最新知识,提高知识时效性,让科研人员第一时间获得文本中蕴涵的知识,从而提高工作效率。

Description

一种知识图谱自动构建***及方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种知识图谱自动构建***及方法。
背景技术
目前国内外很多互联网公司都构建自己的知识图谱,在基于知识图谱的基础上推出搜索、问答、推荐等来改善服务质量。知识图谱的构建需要知识数据,目前知识的获取主要从结构化、半结构化数据、非结构化数据中获取。结构化、半结构数据数据格式清晰,数据比较规范,经过简单的处理即可得到相应的知识。而非结构数据比较杂乱、知识通常隐藏在语义中,知识获取比较难。然而,数据量庞大的非结构化数据中往往蕴含丰富的知识,因此,从非结构化数据中获取知识能够极大的丰富整个知识体系,从而更好的服务于下游的各种应用。对于非结构文本的关系和实体抽取,通常的做法为输入文本,一次性的输出文本中的关系和实体,若是句子中只存在一个实体关系三元组,该方法尚且可以,但是如果文本中存在多组关系实体对,则容易产生关系和实体对应错误,这样大大影响了识别效果。现在的互联网数据更新频繁,信息量不断的增加,然而现有技术并没有高效地实时提取互联网上非结构化文本中的知识,提升用户使用体验。
发明内容
为了解决上述技术问题,本发明提供了一种知识图谱自动构建***及方法,采用如下技术方案:
作为本发明的一个方面,本发明提供了一种知识图谱自动构建***,包括数据采集层、模型层以及数据存储层;
所述数据采集层,实时从互联网网站爬取非结构的文本数据,并将爬取到的文本数据逐条传递到消息队列中,分为模型训练队列和线上预测队列;
所述模型层包括预处理部分、模型训练部分和线上预测部分;
预处理部分,对所述消息队列中的文本数据进行预处理;
模型训练部分,根据模型训练队列提供的已标注数据,采用分步抽取方式,先抽取文本中的关系,后抽取文本中的实体,利用深度学习算法,分别进行关系分类模型训练和实体抽取模型训练;
线上预测部分,当读取到线上预测队列中的文本数据后,利用训练好的模型,实时抽取文本中的关系和实体,完成三元组提取;
所述存储层包括概念图谱和实例图谱;
概念图谱,经过业务专家整理并标注好数据,其中包含图谱中涉及的概念和关系;
实例图谱,存储模型层经线上预测部分,将提取出的三元组存储到数据库中。
作为优选,所述深度学习算法采用Bert学习模型。
作为优选,所述关系分类模型通过tensorflow框架建立Bert文本多分类模型。
作为优选,所述实体抽取模型通过tensorflow框架建立Bert实体识别模型。
作为优选,实体抽取时,将包含多个关系的句子复制出与关系数目相同的句子数。
作为本发明的另一个方面,本发明提供了一种知识图谱自动构建方法,采用前述的***,包括如下步骤:
步骤一、概念图谱构建
S11、概念数据导入数据库
将概念数据格式导入到数据库中,构建相关的概念节点;
S12、关系数据导入数据库
将多个概念所对应的关系数据格式,导入到数据库中,构建概念之间的关系;
步骤二、数据采集
S21、利用数据采集***获取最新上传的期刊文献或专利;
S22、将数据采集***抓取到的文本数据逐条传递到消息队列中;
步骤三、数据预处理
将文本数据进行分句、分字、特殊字符处理;
步骤四、模型训练
采用分步抽取,先抽取句子中的关系,再抽取句子中的实体;
S41、关系分类模型训练
根据关系分类训练语料,通过tensorflow框架建立Bert文本多分类模型;
S42:实体抽取模型训练
根据实体抽取训练语料,通过tensorflow框架建立Bert实体识别模型;将包含多个关系的句子复制出与关系数目相同的句子数,在实体抽取时获得与该关系相关的实体;
步骤五、线上预测
采用关系分类模型和实体抽取模型分别进行关系分类和实体识别:
S51、关系分类阶段是将处理后的句子进行关系预测,识别出该句子中所蕴涵的实体之间关系;
S52、实体识别阶段是预测句子中识别出关系所对应的主体和客体两个实体,从而完成最终的三元组提取;
步骤六、三元组存储与展示
通过线上模型预测,识别出的关系和实体,然后将三元组数据保存到实例图谱数据库中。
有益效果:本发明提供的知识图谱自动构建***及方法,对于非结构文本的关系和实体抽取,采用分步抽取的方式,先抽取出文本中所存在的所有关系,然后利用预测出的关系信息,分别把识别出的关系作为下一步实体识别的输入,从而加强了关系、实体的对应信息,大大提高了识别准确率;本发明通过搭建数据采集层、模型层、存储层,实现了数据的实时采集、实时处理、实时存储,以至于能够从新出现的非结构文本及时有效获取三元组信息,大大提高信息的利用率,及时掌握关键信息。
附图说明
图1为一种知识图谱自动构建***示意图;
图2为一种知识图谱自动构建方法流程图;
图3为Bert关系分类模型示意图;
图4为关系预测示意图;
图5为实体预测示意图。
具体实施方式
参见图1,本发明实施例提供的知识图谱自动构建***,包括数据采集层、模型层以及数据存储层。
所述数据采集层,实时从互联网网站爬取非结构的文本数据,并将爬取到的文本数据逐条传递到消息队列中,分为模型训练队列和线上预测队列;
所述模型层包括预处理部分、模型训练部分和线上预测部分;
预处理部分,对所述消息队列中的文本数据进行预处理;
模型训练部分,根据模型训练队列提供的已标注数据,采用分步抽取方式,先抽取文本中的关系,后抽取文本中的实体,利用深度学习算法,分别进行关系分类模型训练和实体抽取模型训练;
线上预测部分,当读取到线上预测队列中的文本数据后,利用训练好的模型,实时抽取文本中的关系和实体,完成三元组提取;
所述存储层包括概念图谱和实例图谱;
概念图谱,经过业务专家整理并标注好数据,其中包含图谱中涉及的概念和关系;
实例图谱,存储模型层经线上预测部分,将提取出的三元组存储到数据库中。
参见图2,本发明实施例提供了一种知识图谱自动构建方法,包括如下步骤:
步骤一、概念图谱构建
S11、概念数据导入数据库
将概念数据格式导入到数据库中,构建相关的概念节点。
表1“专家”概念所对应概念数据格式
属性名称 数据类型 显示属性 唯一属性 #EOF#
姓名 文本
出生日期 日期
年龄 数值
性别 文本
所著文献 文本
所属国家 文本
#EOF#
表1以“专家”这一概念的数据格式为例,第1列为专家这个概念下所拥有的属性和关系;第2、3、4列为属性的约束设置。
S12、关系数据导入数据库
参见表2,将多个概念所对应的关系数据格式,导入到数据库中,构建概念之间的关系。
表2概念图谱中关系数据格式
Figure BSA0000206849300000041
Figure BSA0000206849300000051
表2中第1列为提取的关系,第3、5列为关系所对应的概念。
步骤二、数据采集
S21、利用数据采集***获取最新上传的期刊文献或专利;
S22、将数据采集***抓取到的文本数据逐条传递到消息队列中,从而保证后续能够实时处理抓取到数据。
步骤三、数据预处理
将文本数据进行分句、分字、特殊字符处理。
步骤四、模型训练
对于关系和实体的抽取,可以有两种方案:End-to-End和分步抽取。End-to-End方法是训练一个模型,该模型同时抽取出句子中的关系和实体,这种方法的缺点是输出的维度比较高,比较难训练。本发明实施例中采用分步抽取,先抽取句子中的关系,再抽取句子中的实体对,这样可以使用不同的模型专一去做不同的事情,降低了训练复杂度。
S41、关系分类模型训练
根据关系分类训练语料,参见表3,通过tensorflow框架建立Bert文本多分类模型。
表3关系分类训练语料
Figure BSA0000206849300000052
表3中第1列为文本,第2列为文本对应的类别。
由于一句话中可能包含多个类别关系,比如“王强,出生于1982年,发表了《同频干扰分析》”。这句话中可以看出有两个关系:“出生年月”和“作者”,所以这是一个多分类模型。
参见图3,对于图中模型,Tok1、Tok2、…、TokN为关系预测模型的输入,每一个代表句子中的一个字,经过随机Embedding,获得E1、E2、…、EN向量,此步骤是将句子进行向量化,最终T1、T2、…、TN为模型的输出,根据概率最大的输出,获得关系分类。
S42:实体抽取模型训练
根据实体抽取训练语料,参见表4,通过tensorflow框架建立Bert实体识别模型。
表4实体抽取训练语料
Figure BSA0000206849300000061
表4中第1列为文本,第2列是对文本中实体进行的标注。
参见图4-图5,针对图中模型,[CLS]、Tok1、Tok2、…、TokN、[SEP]、Tok1、Tok2、…、TokM为模型的输入,[CLS]和[SEP]之间的输入相当于text_a,即文本的原始输入,而[SEP]之后的输入为text_b,为图3中关系预测模型预测出的关系,这样就可以在实体预测的观察中加入关系信息,从而获取实体和关系的对应关系。
具体来说,一句话中包含多个关系,与此对应的就是一个句子中包含多个三元组,怎样从一个句子中提取出多个三元组并保证三元组之间关系没有对应错是至关重要的。本发明实施例采取的方法是将包含多个关系的句子复制出和关系数目相同的句子数,比如,一个句子有两个关系,那么相应就得到两个原始的句子。为了保证提取的关系和实体相对应,Bert输入时每个句子增加一个关系输入。比如:“王强,出生于1982年,发表了《同频干扰分析》”,分解成两个句子分别是“王强,出生于1982年,发表了《同频干扰分析》+出生日期”和“王强,出生于1982年,发表了《同频干扰分析》+作者”。这样增加了句子中的关系语义信息,在实体抽取时可以获得与该关系相关的实体。
步骤五、线上预测
采用关系分类模型和实体抽取模型分别进行关系分类和实体识别:
S51、关系分类阶段是将处理后的句子进行关系预测,识别出该句子中所蕴涵的实体之间关系;
S52、实体识别阶段是预测句子中识别出关系所对应的主体和客体两个实体,从而完成最终的三元组提取。
步骤六、三元组存储与展示
通过线上模型预测,识别出的关系和实体,然后将三元组数据保存到实例图谱数据库中。
以下提供本发明实地部署实施例。
部署客户端,客户端主要是为了对采集的数据进行预处理,并将处理后的数据发送到服务器端。
部署服务器端,服务器端主要是保证能够实时处理客户端传递过来的数据,保证7×24小时处于监听状态,这里使用bert-as-service工程进行服务器端模型的部署。服务器端包含的模型有Bert分类模型和Bert实体识别模型,分别用于进行关系分类和实体识别。
对于科研工作着下载的新论文或专利,通过数据采集***抓取到数据后,首先通过客户端进行预处理,而后由服务器端实时分析出新论文或专利中的知识三元组,将格式化的、简洁的数据呈现给研究工作者,大大提高科研人员研究效率。
本发明提供的知识图谱自动构建***及方法,采用Bert学习模型进行关系分类和实体抽取,有效地从非结构文本中提取知识三元组,从而弥补了目前只基于结构化数据和非结构化数据构建知识图谱的缺陷;通过改进Bert的输入形式,采用分步抽取方式,实体识别过程中通过给句子填充关系信息,从而提高了实体的识别效果,可以从文本中识别多个三元组关系,避免了信息交错而导致实体关系对应错误;实现7×24小时的实时知识图谱构建,能够实时抓取互联网数据,实时提取文本中的三元组,并存储到数据库中,这样能够快速获取最新文本中的最新知识,提高知识时效性,让科研人员第一时间获得文本中蕴涵的知识,从而提高工作效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明揭露的范围内,可轻易想到的变化或者替换,都应该涵盖在本发明的保护范围内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种知识图谱自动构建***,其特征在于,包括数据采集层、模型层以及数据存储层;
所述数据采集层,实时从互联网网站爬取非结构的文本数据,并将爬取到的文本数据逐条传递到消息队列中,分为模型训练队列和线上预测队列;
所述模型层包括预处理部分、模型训练部分和线上预测部分;
预处理部分,对所述消息队列中的文本数据进行预处理;
模型训练部分,根据模型训练队列提供的已标注数据,采用分步抽取方式,先抽取文本中的关系,后抽取文本中的实体,利用深度学习算法,分别进行关系分类模型训练和实体抽取模型训练;
线上预测部分,当读取到线上预测队列中的文本数据后,利用训练好的模型,实时抽取文本中的关系和实体,完成三元组提取;
所述存储层包括概念图谱和实例图谱;
概念图谱,经过业务专家整理并标注好数据,其中包含图谱中涉及的概念和关系;
实例图谱,存储模型层经线上预测部分,将提取出的三元组存储到数据库中。
2.根据权利要求1所述的一种知识图谱自动构建***,其特征在于,所述深度学习算法采用Bert学习模型。
3.根据权利要求2所述的一种知识图谱自动构建***,其特征在于,所述关系分类模型通过tensorflow框架建立Bert文本多分类模型。
4.根据权利要求2所述的一种知识图谱自动构建***,其特征在于,所述实体抽取模型通过tensorflow框架建立Bert实体识别模型。
5.根据权利要求4所述的一种知识图谱自动构建***,其特征在于,实体抽取时,将包含多个关系的句子复制出与关系数目相同的句子数。
6.一种知识图谱自动构建方法,采用如权利要求1-5之一所述的***,其特征在于,包括如下步骤:
步骤一、概念图谱构建
S11、概念数据导入数据库
将概念数据格式导入到数据库中,构建相关的概念节点;
S12、关系数据导入数据库
将多个概念所对应的关系数据格式,导入到数据库中,构建概念之间的关系;
步骤二、数据采集
S21、利用数据采集***获取最新上传的期刊文献或专利;
S22、将数据采集***抓取到的文本数据逐条传递到消息队列中;
步骤三、数据预处理
将文本数据进行分句、分字、特殊字符处理;
步骤四、模型训练
采用分步抽取,先抽取句子中的关系,再抽取句子中的实体;
S41、关系分类模型训练
根据关系分类训练语料,通过tensorflow框架建立Bert文本多分类模型;
S42:实体抽取模型训练
根据实体抽取训练语料,通过tensorflow框架建立Bert实体识别模型;将包含多个关系的句子复制出与关系数目相同的句子数,在实体抽取时获得与该关系相关的实体;
步骤五、线上预测
采用关系分类模型和实体抽取模型分别进行关系分类和实体识别:
S51、关系分类阶段是将处理后的句子进行关系预测,识别出该句子中所蕴涵的实体之间关系;
S52、实体识别阶段是预测句子中识别出关系所对应的主体和客体两个实体,从而完成最终的三元组提取;
步骤六、三元组存储与展示
通过线上模型预测,识别出的关系和实体,然后将三元组数据保存到实例图谱数据库中。
CN202010314286.6A 2020-04-17 2020-04-17 一种知识图谱自动构建***及方法 Active CN111581376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010314286.6A CN111581376B (zh) 2020-04-17 2020-04-17 一种知识图谱自动构建***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010314286.6A CN111581376B (zh) 2020-04-17 2020-04-17 一种知识图谱自动构建***及方法

Publications (2)

Publication Number Publication Date
CN111581376A true CN111581376A (zh) 2020-08-25
CN111581376B CN111581376B (zh) 2024-04-19

Family

ID=72119738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010314286.6A Active CN111581376B (zh) 2020-04-17 2020-04-17 一种知识图谱自动构建***及方法

Country Status (1)

Country Link
CN (1) CN111581376B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814472A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本识别方法、装置、设备及存储介质
CN112333102A (zh) * 2020-11-02 2021-02-05 北京邮电大学 基于知识图谱的软件定义网络路由选择方法和***
CN112507125A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN112818692A (zh) * 2021-02-03 2021-05-18 招商银行股份有限公司 命名实体识别和处理方法、装置、设备及可读存储介质
CN113111644A (zh) * 2021-04-22 2021-07-13 上海云从企业发展有限公司 文本识别方法、装置及计算机存储介质
CN113569050A (zh) * 2021-09-24 2021-10-29 湖南大学 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及***
CN117271800A (zh) * 2023-09-27 2023-12-22 数据空间研究院 一种专利的产业信息挖掘方法、挖掘***及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622413A (zh) * 2012-02-17 2012-08-01 清华大学 一种回答自然语言问题的方法与装置
CN102637165A (zh) * 2012-02-17 2012-08-15 清华大学 一种中文的观点、评价信息的属性-观点对抽取方法
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及***
CN109446530A (zh) * 2018-11-03 2019-03-08 上海犀语科技有限公司 一种基于lstm模型由文本中抽取信息的方法及装置
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及***
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和***
CN110555083A (zh) * 2019-08-26 2019-12-10 北京工业大学 一种基于zero-shot无监督实体关系抽取方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备
CN110781254A (zh) * 2020-01-02 2020-02-11 四川大学 一种案情知识图谱自动构建方法及***及设备及介质
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622413A (zh) * 2012-02-17 2012-08-01 清华大学 一种回答自然语言问题的方法与装置
CN102637165A (zh) * 2012-02-17 2012-08-15 清华大学 一种中文的观点、评价信息的属性-观点对抽取方法
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及***
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和***
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及***
CN109446530A (zh) * 2018-11-03 2019-03-08 上海犀语科技有限公司 一种基于lstm模型由文本中抽取信息的方法及装置
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110555083A (zh) * 2019-08-26 2019-12-10 北京工业大学 一种基于zero-shot无监督实体关系抽取方法
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备
CN110781254A (zh) * 2020-01-02 2020-02-11 四川大学 一种案情知识图谱自动构建方法及***及设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王燕华: "基于事件或话题下文档的实体重要性排序", 《CNKI优秀硕士学位论文全文库信息科技辑》, 15 January 2018 (2018-01-15), pages 1 - 85 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814472A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本识别方法、装置、设备及存储介质
CN111814472B (zh) * 2020-09-03 2021-04-06 平安国际智慧城市科技股份有限公司 文本识别方法、装置、设备及存储介质
CN112333102A (zh) * 2020-11-02 2021-02-05 北京邮电大学 基于知识图谱的软件定义网络路由选择方法和***
CN112507125A (zh) * 2020-12-03 2021-03-16 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN112818692A (zh) * 2021-02-03 2021-05-18 招商银行股份有限公司 命名实体识别和处理方法、装置、设备及可读存储介质
CN112818692B (zh) * 2021-02-03 2024-05-28 招商银行股份有限公司 命名实体识别和处理方法、装置、设备及可读存储介质
CN113111644A (zh) * 2021-04-22 2021-07-13 上海云从企业发展有限公司 文本识别方法、装置及计算机存储介质
CN113569050A (zh) * 2021-09-24 2021-10-29 湖南大学 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN113569050B (zh) * 2021-09-24 2021-12-07 湖南大学 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及***
CN117271800A (zh) * 2023-09-27 2023-12-22 数据空间研究院 一种专利的产业信息挖掘方法、挖掘***及存储介质
CN117271800B (zh) * 2023-09-27 2024-05-03 数据空间研究院 一种专利的产业信息挖掘方法、挖掘***及存储介质

Also Published As

Publication number Publication date
CN111581376B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN111581376B (zh) 一种知识图谱自动构建***及方法
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
CN110598000B (zh) 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN108874878B (zh) 一种知识图谱的构建***及方法
CN113177124B (zh) 一种垂直领域知识图谱构建方法及***
CN110032635B (zh) 一种基于深度特征融合神经网络的问题对匹配方法和装置
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN109493265A (zh) 一种基于深度学习的政策解读方法及政策解读***
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和***及设备
CN111639183B (zh) 一种基于深度学习算法的金融同业舆情分析方法及***
CN112149400A (zh) 一种数据处理方法、装置、设备及存储介质
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN106446072A (zh) 网页内容的处理方法和装置
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和***
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及***
CN115545558A (zh) 获取风险识别模型的方法、装置、机器可读介质及设备
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN112036179B (zh) 基于文本分类与语义框架的电力预案信息抽取方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配***及方法
CN113220964A (zh) 一种基于网信领域短文本的观点挖掘方法
CN117390198A (zh) 构建电力领域科技知识图谱的方法、装置、设备及介质
CN111951079A (zh) 一种基于知识图谱的信用评级方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant