CN106776711B - 一种基于深度学习的中文医学知识图谱构建方法 - Google Patents

一种基于深度学习的中文医学知识图谱构建方法 Download PDF

Info

Publication number
CN106776711B
CN106776711B CN201611017724.2A CN201611017724A CN106776711B CN 106776711 B CN106776711 B CN 106776711B CN 201611017724 A CN201611017724 A CN 201611017724A CN 106776711 B CN106776711 B CN 106776711B
Authority
CN
China
Prior art keywords
word
knowledge
entity
feature
pos
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611017724.2A
Other languages
English (en)
Other versions
CN106776711A (zh
Inventor
郑小林
王维维
扈中凯
黄嘉伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201611017724.2A priority Critical patent/CN106776711B/zh
Publication of CN106776711A publication Critical patent/CN106776711A/zh
Application granted granted Critical
Publication of CN106776711B publication Critical patent/CN106776711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及知识图谱技术,旨在提供一种基于深度学习的中文医学知识图谱构建方法。包括:从数据源获取医疗领域相关数据;使用分词工具对非结构化数据进行分词,使用RNN完成序列标注任务以识别医疗相关的实体,实现知识单元的抽取;对实体进行特征向量的构建,使用RNN进行序列标注并完成知识单元间关系的识别;进行实体对齐后,利用提取的实体以及实体之间的关系构建知识图谱。本发明巧妙地将循环神经网络用于知识单元抽取和知识单元间关系识别,能很好地完成对非结构化数据的处理。本发明提出适用于医学领域的特征来进行网络的训练任务,相对于通用特征而言更能够代表医学实体,使得抽取出的知识单元和知识单元间的关系更加准确、全面。

Description

一种基于深度学习的中文医学知识图谱构建方法
技术领域
本发明涉及知识图谱技术,特别涉及一种基于深度学习的中文医学知识图谱构建方法。
背景技术
随着越来越多的语义万维网数据在互联网上开放,国内外各个互联网搜索引擎公司开始以此为基础构建知识图谱从而提升服务质量,如Google知识图谱(GoogleKnowledge Graph),百度“知心”等。知识图谱(Knowledge Graph)的本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体或概念之间的各种语义关系。它是一种知识管理的服务模式,能够将各个领域琐碎、零散的知识相互连接,从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的知识***。现在,人们已经开始将知识图谱应用在综合性知识检索以及问答、决策支持等智能***中。
然而,虽然搜索引擎利用通用的大型知识图谱能够为用户提供高质量的检索、推荐等服务,但是当用户需要进行某一特定领域(如医学领域)的检索时,搜索引擎提供的结果常常看似相关度高,但实际上不能满足用户需求。因此垂直搜索引擎应运而生。就医学领域而言,当用户需要查询某些症状对应的可能疾病、疾病对应的症状和治疗方法、药物的治疗功能以及特性等信息时,医学垂直搜索引擎利用针对于医学领域构建的知识图谱在这些方面返回的结果往往比通用搜索更加专注、具体和深入。
目前国内外还没有成熟的中文医学知识图谱构建案例,而现有的知识图谱对中文的支持也不够。因此,本发明要解决的技术问题是如何从全网的各种结构化、半结构化以及非结构化数据中通过深度学习提取出医学领域的实体、实体之间的关系,并且通过这些提取出的知识构建出医学领域的知识图谱,这样可以提高垂直于医学领域的搜索引擎的检索的精确性与实用性。
知识图谱旨在描述真实世界中存在的各种实体、实体的属性以及实体之间的关系,构建知识图谱的主要工作流程包括:获取数据、构建知识单元、构建单元关系、知识图谱的结构化展示。然而通用的知识图谱覆盖的信息规模太大,因此在使用过程中会露出一些问题,比如缺少细节,时效性差,关系过于死板等等,于是出现了一些更加智能化、个性化和专业化的垂直知识图谱。
垂直知识图谱针对特定领域,专注于自己的特长,保证了对该领域信息的完全收录与及时更新。与通用的知识图谱不同,垂直知识图谱的实体以及实体的属性只限定在该领域,而实体间关系除了来自通用的关系,还会针对特定领域添加更加详细和全面的与该领域相关的关系。因为本发明是面向医疗领域的,因此牵涉的关系和实体不像通用知识图谱那么多,但都是与领域密切相关的,在关系方面更加细致和深入。
在知识图谱的构建过程中,最为关键的两个步骤就是知识单元抽取以及知识单元的关系抽取,也就是实体识别以及实体之间的关系抽取。以垂直于医学领域的知识图谱为例,实体识别就是在非结构化数据中识别出症状、药品以及疾病等医学相关的名词,而实体关系抽取则是抽取出这些识别出的实体之间的关系,包括疾病对应的症状、疾病对应的相关药品等关系。以往在进行实体识别以及实体关系抽取时,人们主要使用支持向量机(SVM)以及条件随机场(CRF)之类的浅层学习方法,***还需要融入大量适用于特定学习任务的人工特征,从而会导致部分特征的丢失。本发明则尝试使用深度学习中的循环神经网络(RNN)来完成这一任务,通过综合多种高维度的特征向量,形成越来越抽象的深层表示,从而在实体识别和关系抽取的任务上达到更高的准确率和召回率。
与本发明最相近似的实现方案有下面几种,中国发明专利申请:“一种面向图书的阅读领域知识图谱构建方法”(申请号:2013104203759)、“基于结构化数据的知识图谱构建方法和装置”(申请号:2014108044667)、“一种基于深度学习的命名实体关系抽取与构建方法”(申请号:2014104880477)。
发明1(一种面向图书的阅读领域知识图谱构建方法)为一种面向图书的阅读领域知识图谱构建方法。该方法分为三个部分:通用知识图谱构建、领域知识图谱构建和智能阅读推荐。即:获取互联网上的知识,集成通用知识图谱;结合通用知识图谱利用迭代的方式扩展书籍相关的概念和实体,结合实体Infobox表和传统关系抽取实体关系;按照实体由长到短标注电子书籍中的核心实体,并建立实体与书籍知识图谱的链接,以实现智能知识推荐。该发明通过建立面向书籍的阅读领域知识图谱,对书籍中的实体进行解释或知识推荐,增加了知识的深度,实现了电子阅读的便捷化、智能化和人性化,具有更好的用户体验。
发明2(基于结构化数据的知识图谱构建方法和装置)为一种基于结构化数据的知识图谱构建方法和装置,该方法包括:获取一条或多条包含实体名称及对应实体属性信息的结构化数据;提取所述结构化数据中包含的实体名称及其属性信息的映射关系,生成对应的数据结构对;将所述生成的数据结构对作为知识图谱数据项进行存储。本发明基于结构化数据的结构性特点构建知识图谱,使得知识图谱中数据项的架构包括实体名称及对应实体属性信息,基于知识图谱结构化数据对外提供搜索服务时,能够直观、精确地将实体属性信息作为搜索结果提供给用户。
发明3(一种基于深度学习的命名实体关系抽取与构建方法)为一种基于深度学习的命名实体关系抽取与构建方法,用于互联网信息技术领域。该方法针对某一特定领域,在垂直网站上抓取领域内的新闻数据,对获取的新闻数据进行预处理;新闻数据分词,抽取关键词,生成行业词库,利用行业词库对新闻数据重新分词;抽取种子词库;无监督构建实体关系网络,从新闻数据中抽取包含两个以上实体的句子,抽取句子中的动词以及对应的文档,对抽取的文档建立基于深度学习的词聚类模型,根据动词描述的词之间的关系,构建实体关系网络;定义实体关系类别,对实体关系网络中的每个实体对,进行关系分类。
发明1和发明2虽然也完成了知识图谱的构建,但是要把它们的方法直接应用到医学领域,就会存在以下的不足:
●依赖于传统的实体关系提取算法。但在医学领域中实体和实体关系比图书阅读领域更加繁多,因此在高维度的特征向量以及上下文强相关的前提下,这种方法缺乏对上下文的联系、并且效率较低,并不适合医学领域的分类。
●过度依赖结构化数据。在医学领域中,大部分数据都是半结构化或非结构化的,如果过于依赖结构化数据,那么得到的知识图谱覆盖范围则不全面。
发明3(一种基于深度学习的命名实体关系抽取与构建方法)通过深度学习中的词聚类模型从爬取的非结构化新闻数据中提取除了实体之间的关系并对这些关系进行分类并构架关系网络。发明3虽然使用深度学习的词聚类模型完成了实体关系的抽取任务,但是只是针对新闻领域,相对来说实体关系较少。对于实体以及实体关系繁多的医学领域,在上下文关系的处理上也有所欠缺,这种模型就不适用了。
发明内容
本发明要解决的技术问题是,克服现有技术中的不足,提供一种基于深度学习的中文医学知识图谱构建方法。
为解决技术问题,本发明的解决方案是:
提供一种基于深度学习的中文医学知识图谱构建方法,是从全网提取与医学领域相关的结构化、半结构化与非结构化的数据,并利用深度学习技术从中抽取出相关信息,最终完成垂直医疗领域的知识图谱构建任务;
该方法具体包括以下步骤:
(1)从数据源获取医疗领域相关数据
获得包括百科类站点、医疗领域类站点和医疗专业名词库的数据;其中,对结构化数据直接存储以作为后续的训练集,对于非结构化数据在存储后用于后续的知识单元抽取;
(2)知识单元抽取
使用分词工具对非结构化数据进行分词,然后使用循环神经网络完成序列标注任务,根据序列标注的结果识别出医疗相关的实体,实现知识单元的抽取;
(3)知识单元间关系识别
对知识单元抽取过程中得到的实体进行特征向量的构建,然后使用循环神经网络进行序列标注,并根据序列标注的结果完成知识单元间关系的识别;
(4)实体对齐
查找具有不同标识实体但代表同一对象的实体,并将其归并为具有全局唯一标识的实体对象添加到知识图谱中;
(5)知识图谱的构建
利用提取的实体以及实体之间的关系构建知识图谱。
本发明中,从数据源获取医疗领域相关数据时,若缺少结构化数据,则直接提取其中所有的内容作为非结构化数据存储;若为半结构化数据,则按照小标题名、属性名和相关链接名的关系进行存储。
本发明中,在知识单元抽取这一步骤中,先训练出适用的神经网络以用于序列标注;具体包括:
(1)通过对实体的体征进行构造,得到实体的特征向量;
(2)结合已收集的结构化数据对训练集进行标注;
(3)训练神经网络,得到一个能对非结构化数据分词结果进行标注的循环神经网络;
所述对实体的体征进行构造,是指针对医疗领域的实体特点来定义特征,并构造特征向量;所述特征是指基于上下文的特征、基于语义标签的特征或基于医学词典的词向量特征中的任意一种。
本发明中,在知识单元间关系识别这一步骤中,先训练出适用的神经网络以用于序列标注;具体包括:
(1)根据知识单元抽取步骤中获得的实体识别结果,提取语料中所有的实体对;通过对实体对的体征进行构造,得到实体对的特征向量;
(2)结合已收集的结构化数据构成的语义关系网络进行自动标注,其余的实体则按照多数原则进行标注;
(3)将已标注的数据集的70%作为训练集进行循环神经网络的网络训练,在训练收敛后,用剩下的30%进行测试,并根据测试结果来调整网络结构或训练参数;训练完成后,再利用循环神经网络结合收集到的非结构化数据对知识单元抽取出来的实体进行关系标注;
所述对实体的体征进行构造,是指针对医疗领域的实体特点来定义特征,并构造特征向量;所述特征是指基于上下文的特征、基于语义标签的特征或基于医学词典的词向量特征中的任意一种。
本发明中,所述基于上下文的特征是指:
文本中单词的含义与这个单词在文本中出现位置前后的单词有很大关联,在对医学领域实体进行识别时,以目标词为中心,前后的若干个单词为该词的上下文,并将其作为该词的特征使用;
对于任意文档d以及文档d中的每一个词w,定义上下文窗口context=[-t,+t],应用上下文特征集合提取算法得到每一个w对应的上下文特征fctx(w);
将语料库corpus中所有文档中的每个词w对应的上下文特征fctx(w)汇总,即可得到该语料库的全部特征集合Fctx(corpus)。
对所有文档重复上述操作,即得到所有w的全部特征集合Fctx(corpus);
由于每次抽取多个单词组成一个特征导致特征的稀疏程度较大,而多数文档仅包含几个特征并且每个特征仅出现一次,故采用二元值{0,1}而非特征的频率定义特征在向量中的分量值;
设语料库中全部文档抽取得到全部特征的集合为Fctx(corpus),则对于该语料库下述公式将特征集合fctx(w)转化为特征向量vctx(w):
Figure BDA0001151626850000051
Figure BDA0001151626850000052
其中i=1,…,|Fctx(corpus)|(表示特征的总个数);Vctx(w)为单词w的上下文特征向量;
Figure BDA0001151626850000053
为Vctx(w)的第i个分量;fi为特征向量第i个分量对应的特征。
本发明中,所述基于语义标签的特征是指:
单词在文本中的语义类别和文档中单词间的依赖关系能提供关于单词更多的信息,因此在医学实体识别的过程中以目标词为中心词,检查相关的语义类别和依赖关系;
在分词阶段使用语法解析工具Stanford Parser(由斯坦福大学自然语言研究小组推出)作为分词工具,以分词结果中的POS标签作为语义类别,以结果中的依赖列表作为依赖关系,相似的语义标签归为一类;
定义一个窗口大小为t的窗口[-t,+t],在这个窗口中,在目标词w之前的单词的标签作为目标词的前缀prefix,在目标词之后的单词的标签作为目标词w的后缀suffix,具体如下式所示:
prefix={(POSprefix,POSw)}
suffix={(POSw,POSprefix)}
利用语义标签特征集合提取算法得到每个单词的语义标签特征,对所有文档进行如上的操作即可得到所有w的全部特征集合Fpos(corpus);
所述语义标签特征集合提取算法是指:在选取了语料库corpus以及从语料库中提取出prefix与suffix语义标签集合之后,利用如下的步骤得到最终每个目标词w对应的语义标签特征集合fpos(w):
(1)设置fpos(w)为空集;
(2)对语料库的每个文档中的单词进行遍历,设定当前单词为wk
(3)对于处于[k-t,k-1]这个窗口中的单词wprefix,如果wprefix对应的语义标签POSprefix以及当前单词wk所对应的语义标签POSk的组合属于prefix语义标签集合,则将(POSprefix,wk)添加至fpos(w);
(4)对于处于[k+1,k+t]这个窗口中的单词wsuffix,如果wsuffix对应的语义标签POSsuffix以及当前单词wk所对应的语义标签POSk的组合属于suffix语义标签集合,则将(wk,POSsuffix)添加至fpos(w);
采用二元值{0,1}来定义特征在向量中的分量值,设语料库中全部文档抽取得到全部特征的集合为Fpos(corpus),则通过这个特征集合将每个目标词所对应的特征集合fpos(w)转化为特征向量vpos(w)。
本发明中,所述基于医学词典的词向量特征是指:利用国际疾病分类词典ICD10中所收录的医学词汇,结合word2vec软件来构造与疾病相关的医学名词所对应的特征向量。
本发明中,在实体识别过程中,通过使用长短时记忆模型(LSTM)或者门控循环单元(GRU)来替循环神经网络(RNN)中的隐层单元,以用于长距离依赖的场景。
与现有同类技术相比,本发明的有益效果在于:
1、在现有的知识图谱构建过程中,从非结构化数据抽取知识单元以及识别知识单元之间的关系一直都是一个技术难点,现有的技术往往使用传统的语言模型,最好的技术也只是将深度学习用于简单的词聚类任务,对于高维度的特征、繁多的知识单元以及关系、较长的上下文联系处理都有所欠缺。本发明巧妙地将循环神经网络用于上述两个任务(还可以结合长短时记忆模型),能够很好地完成对非结构化数据的处理。
2、本发明是垂直于医学领域的,提出了适用于医学领域的特征来进行网络的训练任务,相对于通用的特征而言更能够代表医学实体,从而使得抽取出的知识单元和知识单元间的关系更加准确和全面。
附图说明
图1为本发明实现流程示意图;
图2为上下文特征提取算法示意图;
图3为语义标签特征集合提取算法示意图;
图4为中文医学知识图谱模式层实例展示。
具体实施方式
部分术语解释:
知识图谱:知识图谱(Knowledge Graph)本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体或概念之间的各种语义关系。它是一种知识管理与服务模式,能够将各个领域琐碎、零散的知识相互连接、从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的知识***。
知识单元(命名实体):知识单元是指构成整个知识图谱的最基本单元形态。在医学领域的知识图谱中,知识单元通常是指疾病、药品、症状、治疗方法等这样的医学名词。在本发明中,知识单元与命名实体含义相同。
命名实体识别(知识单元抽取):命名实体识别是指在非结构化文本数据中识别具有特定意义的实体。在本发明中,具体是指从医学领域的描述文本中抽取出疾病、药品、症状、治疗方法等这样的医学名词。这些医学名词与知识单元一一对应,因此这个过程也可以被叫做知识单元抽取。
实体关系抽取(知识单元关系抽取):实体关系抽取是指从非结构化文本数据中抽取出各个实体之间的关系。在此发明中具体是指从医学领域的描述文本中抽取出疾病、药品、症状、治疗方法之间的对应关系。
本发明为解决技术问题,提出一种基于深度学习的中文医学知识图谱构建方法,具体包括四个步骤:获取数据、知识单元抽取、知识单元关系识别、知识图谱构建。
●获取数据
首先要做的工作就是收集中文医学知识的数据,本发明主要收集了百科站点的非结构化数据,医疗领域站点的结构化数据以及国际采用的一体化医学语言***的名词库数据。
(一)获取百科类站点的数据
(1)从全网中的各类百科类站点(包括***,中文有互动百科,百度百科)中爬取与医疗相关的词条
(2)若缺少结构化数据,则直接提取其中所有的内容,作为非结构化数据存储,若为半结构化数据,则按照一定的关系(小标题名、属性名、相关链接名)进行存储
(二)获取医疗领域类站点的数据
(1)从全网中人工搜索医疗相关的网站
(2)针对不同站点编写不同的爬虫程序
(3)医疗领域站点的数多数是结构化数据,如疾病与症状的关联、疾病与药品的关联等,因此可以将这些关系直接存储,作为后续的训练集
(4)关于疾病和症状的简介,其中同样包含着大量在结构化数据中不存在的信息,因此也需要将这些信息作为非结构化数据存储
(三)获取医疗专业名词库数据
国际疾病分类(international Classification of diseases,ICD)是依据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,并用编码的方法来表示的***。目前全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》,仍保留了ICD的简称,并被统称为ICD-10。ICD-10的中文版本中涵盖绝大多数医学领域的疾病词汇,因此可以用于与疾病相关的医学名词的特征提取过程。可以通过从ICD-10的疾病分类词典获取大量的疾病名词库和分类信息,直接作为已知分类的疾病实体进行存储,为后续的实体识别以及实体关系抽取任务做准备。随着该词典的中文版本的更新及内容不断扩充,其在本发明中的应用范围也将随之得到扩展。
●知识单元抽取
在获得中文医学知识数据以后,主要对非结构化数据进行知识单元的抽取。知识单元抽取可以映射为命名实体识别。就医学领域而言,就是把症状、疾病以及药品等与医疗相关的概念识别出来。这属于自然语言处理问题,而绝大多数的自然语言处理问题都可以转化为序列标注问题,也就是是对线性序列中每个元素根据上下文内容进行分类的问题。而本发明使用的是这种思路,先使用分词工具对非结构化数据进行分词,接着使用RNN进行序列标注任务,在根据序列标注的结果识别出医疗相关的实体。
要利用循环神经网络完成标注任务,就得训练出适用的神经网络。第一,通过对实体的体征进行构造,得到实体的特征向量;第二,结合已收集的结构化数据对训练集进行标注;第三,训练神经网络。完成上述步骤,就能得到一个可以对非结构化数据分词得到的词进行标注的循环神经网络。
(一)构造特征向量
首先需要针对医疗领域的实体特点,定义适当的特征,并构造特征向量。
在本发明中使用了如下三种特征:
(1)基于上下文的特征
文本中单词的含义与这个单词在文本中出现位置前后的单词有很大关联。医学领域实体识别时,以目标词为中心,前后的若干个单词为该词的上下文,并将其作为该词的特征使用。对于任意文档d以及文档d中的每一个词w,定义上下文窗口context=[-t,+t],应用上下文特征集合提取算法得到每一个w对应的上下文特征fctx(w)。将语料库(corpus)中所有文档中的每个词w对应的上下文特征fctx(w)汇总,即可得到该语料库的全部特征集合Fctx(corpus)。(上下文特征集合提取算法属于现有技术,本文并未做任何特别改进,因此不再赘述。)
对所有文档进行如上的操作即可得到所有w的全部特征集合Fctx(corpus)
由于每次抽取多个单词组成一个特征导致特征的稀疏程度较大,多数文档仅包含几个特征并且每个特征仅出现一次。因此采用二元值{0,1}而非特征的频率定义特征在向量中的分量值。设语料库中全部文档抽取得到全部特征的集合为Fctx(corpus)。
则对于该语料库可以使用公式1以及公式2将特征集合fctx(w)转化为特征向量vctx(w)。
Figure BDA0001151626850000101
Figure BDA0001151626850000102
其中i=1,…,|Fctx(corpus)|(表示特征的总个数);Vctx(w)为单词w的上下文特征向量;
Figure BDA0001151626850000103
为Vctx(w)的第i个分量;fi为特征向量第i个分量对应的特征。
(2)基于语义标签的特征
单词在文本中的语义类别和文档中单词间的依赖关系可以提供关于单词更多的信息。因此在医学实体识别的过程中,可以以目标词为中心词,检查相关的语义类别和依赖关系。本发明在分词阶段使用语法解析工具Stanford Parser(由斯坦福大学自然语言研究小组推出)作为分词工具,以分词结果中的POS标签作为语义类别,以结果中的依赖列表作为依赖关系。其中,一些相似的语义标签可以归为一类,具体的归类方案如下表。
POS标签类别 POS标签
J JJ,JJR,JJS
N NN,NNS,NNP,NNPS
V VB,VBD,VBG,VBN,VBP,VBZ
R RB,RBR,RBS
O 其他
表1语义标签归类表
同样地,定义一个窗口大小为t的窗口[-t,+t],在这个窗口中,在目标词w之前的单词的标签作为目标词的前缀prefix,在目标词之后的单词的标签作为目标词w的后缀suffix,具体如下式所示。
prefix={(POSprefix,POSw)}
suffix={(POSw,POSprefix)}
利用如图3所示的语义标签特征集合提取算法,可以得到每个单词的语义标签特征。对所有文档进行如上的操作即可得到所有w的全部特征集合Fpos(corpus)。与上下文特征向量构造时相同,仍然采用二元值{0,1}来定义特征在向量中的分量值。设语料库中全部文档抽取得到全部特征的集合为Fpos(corpus),则通过这个特征集合可以将每个目标词所对应的特征集合fpos(w)转化为特征向量vpos(w)。
所述语义标签特征集合提取算法是指:在选取了语料库corpus以及从语料库中提取出prefix与suffix语义标签集合之后,利用如下的步骤得到最终每个目标词w对应的语义标签特征集合fpos(w):
(1)设置fpos(w)为空集;
(2)对语料库的每个文档中的单词进行遍历,设定当前单词为wk
(3)对于处于[k-t,k-1]这个窗口中的单词wprefix,如果wprefix对应的语义标签POSprefix以及当前单词wk所对应的语义标签POSk的组合属于prefix语义标签集合,则将(POSprefix,wk)添加至fpos(w);
(4)对于处于[k+1,k+t]这个窗口中的单词wsuffix,如果wsuffix对应的语义标签POSsuffix以及当前单词wk所对应的语义标签POSk的组合属于suffix语义标签集合,则将(wk,POSsuffix)添加至fpos(w);
(3)基于医学词典的词向量特征
国际疾病分类词典ICD10中所收录的医学词汇可以直接用于医学领域词向量的构建。因此,对于语料库中的每个单词,都可以根据这个词典结合word2vec来构造对应的特征向量。
(二)标注训练集
RNN的训练是有监督训练,因此需要对训练集进行标注。首先结合国际疾病分类词典ICD10以及来自结构化数据构成的词典来进行自动标注,余下的则按照多数原则进行标注。这里的标注是为了提高训练集的质量和扩大训练集容量,尽可能地减少噪点,采用多数原则可以极大地消除因主观能动性引起的影响。
(三)RNN网络训练
循环神经网络(RNN)包含输入单元(Input units),输入集标记为{x0,x1,...,xt,xt+1,...},而输出单元(Output units)的输出集则被标记为{y0,y1,...,yt,yt+1.,..}。RNN还包含隐藏单元(Hidden units),将其输出集标记为{s0,s1,...,st,st+1,...},这些隐藏单元完成了最为主要的工作。与传统的神经网络不同的是,RNN会引导信息从输出单元返回隐藏单元,并且隐藏层的输入还包括上一隐藏层的状态,即隐藏层内的节点可以自连也可以互连。在实体识别中,还可以使用长短时记忆模型(LSTM)或者门控循环单元(GRU)来替RNN中的隐层单元对于解决长距离依赖的场景明显要优于RNN本身。
将已标注的数据集的70%作为训练集进行RNN的网络训练,在训练收敛后,用剩下的30%进行测试,并根据测试结果来调整网络结构或训练参数。
训练完成后,利用训练好的循环神经网络对知识实体进行识别,即序列标注任务,即可完成知识单元抽取。
●知识单元关系识别
知识单元抽取完成后,需要进行实体关系的识别,同样,需要采用构造一个循环神经网络来对实体关系进行识别。
知识单元间关系可以映射为命名实体的关系识别,在命名实体识别部分识别出来的医学实体,在实体关系识别中,希望能将这些实体对应起来,如将疾病与相关症状对应上,将疾病与相关药品对应上。这个任务同样也可以转化为序列标注问题。在使用分词工具对非结构化数据进行分词后,结合知识单元抽取任务中抽取出的实体进行特征向量的构建,接着使用RNN进行序列标注任务,最后根据序列标注的结果完成知识单元间关系的识别。以下是构造循环神经网络的过程:
(一)构造特征向量
这里使用的特征向量与实体识别过程中的特征向量基本一致,唯一的不同之处在于,在构造特征向量之前,首先需要根据实体识别的结果提取语料中所有的实体对,即每一个句子中出现的任意两个实体都标为一个实体对。接下来的特征则是针对这个实体对来进行提取并构造特征向量的。
(二)标注训练集
标注训练集的方法与在实体识别中的方法基本一致,首先结合国际疾病分类词典ICD10以及来自结构化数据构成的语义关系网络来进行自动标注,余下的则按照多数原则进行标注。这里的标注是为了提高训练集的质量和扩大训练集容量,尽可能地减少噪点,采用多数原则可以极大地消除因主观能动性引起的影响。
(三)RNN网络训练
将已标注的数据集的70%作为训练集进行RNN的网络训练,在训练收敛后,用剩下的30%进行测试,并根据测试结果来调整网络结构或训练参数。
训练完成后,再利用RNN结合收集到的非结构化数据对知识单元抽取出来的实体进行关系标注。
●实体对齐
在通过深度学习从各种半结构化和非结构化数据种抽取出相关实体以及实体之间的关系之后,还需要进行实体对齐任务。
实体对齐旨在发现具有不同标识实体但却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。在医学领域,具体表现在很多疾病都有别称,实体对齐的任务就是要求所有对应同一种疾病的别称都对齐到同一个疾病实体上。在实体对齐过程中,可以使用一定的规则帮助程序自动对齐,如具有相同属性-值的实体也可能代表相同对象(属性相似);具有相同邻居的实体可能指向同一个对象(结构相似)。除此之外,还可以根据现有的词典以及人工的方式进行对齐。
●知识图谱构建
在完成上述任务之后,就可以开始构建知识图谱了。模式是对知识的提炼,为知识图谱构建模式(schema)相当于为其建立本体(Ontology)。最基本的本体包括概念、概念层次、属性、属性值类型、关系、关系定义域(Domain)概念集以及关系值域(Range)概念集。在此基础上,可以额外添加规则(Rules)或公理(Axioms)来表示模式层更复杂的约束关系。本发明的模式层构建依赖于从百科站点以及医疗站点的结构化数据得到的高质量知识中所提取的模式信息,相对于通用知识图谱而言更加准确和领域相关。附图4是针对医疗领域设计的知识图谱的模式层部分。附图4所示的是由一个疾病“大肠癌”展开的知识图谱,其中圆形代表实体,这里的实体是通过对收集到的数据进行分词,再利用循环神经网络进行标注得到的实体;虚线代表实体间的关系,这些关系是由人工定义的(如这里用到的“有…症状”,“功能主治”,“可采用…手术”等),再通过对抽取出的实体单元进行关系标注,即可得到图示。

Claims (5)

1.一种基于深度学习的中文医学知识图谱构建方法,其特征在于,从全网提取与医学领域相关的结构化、半结构化与非结构化的数据,并利用深度学习技术从中抽取出相关信息,最终完成垂直医疗领域的知识图谱构建任务;
该方法具体包括以下步骤:
(1)从数据源获取医疗领域相关数据
获得包括百科类站点、医疗领域类站点和医疗专业名词库的数据;其中,对结构化数据直接存储以作为后续的训练集,对于非结构化数据在存储后用于后续的知识单元抽取;
(2)知识单元抽取
使用分词工具对非结构化数据进行分词,然后使用循环神经网络完成序列标注任务,根据序列标注的结果识别出医疗相关的实体,实现知识单元的抽取;
在该步骤中,先训练出适用的神经网络以用于序列标注;具体包括:
(2.1)通过对实体的特征进行构造,得到实体的特征向量;
(2.2)结合已收集的结构化数据对训练集进行标注;
(2.3)训练神经网络,得到一个能对非结构化数据分词结果进行标注的循环神经网络;
(3)知识单元间关系识别
对知识单元抽取过程中得到的实体进行特征向量的构建,然后使用循环神经网络进行序列标注,并根据序列标注的结果完成知识单元间关系的识别;
在该步骤中,先训练出适用的神经网络以用于序列标注;具体包括:
(3.1)根据知识单元抽取步骤中获得的实体识别结果,提取语料中所有的实体;通过对实体的特征进行构造,得到实体的特征向量;
(3.2)结合已收集的结构化数据构成的语义关系网络进行自动标注,其余的实体则按照多数原则进行标注;
(3.3)将已标注的数据集的70%作为训练集进行循环神经网络的网络训练,在训练收敛后,用剩下的30%进行测试,并根据测试结果来调整网络结构或训练参数;训练完成后,再利用循环神经网络结合收集到的非结构化数据对知识单元抽取出来的实体进行关系标注;
(4)实体对齐
查找具有不同标识实体但代表同一对象的实体,并将其归并为具有全局唯一标识的实体对象添加到知识图谱中;
(5)知识图谱的构建
利用提取的实体以及实体之间的关系构建知识图谱;
在步骤(2.1)和步骤(3.1)中,所述对实体的特征进行构造是指,针对医疗领域的实体特点来定义特征,并构造特征向量;所述特征是指基于上下文的特征、基于语义标签的特征或基于医学词典的词向量特征中的任意一种;其中,
所述基于上下文的特征是指:
文本中单词的含义与这个单词在文本中出现位置前后的单词有很大关联,在对医学领域实体进行识别时,以目标词为中心,前后的若干个单词为该词的上下文,并将其作为该词的特征使用;
对于任意文档d以及文档d中的每一个词w,定义上下文窗口context=[-t,+t],应用上下文特征提取算法得到每一个w对应的上下文特征fctx(w);
将语料库corpus中所有文档中的每个词w对应的上下文特征fctx(w)汇总,即可得到该语料库的全部上下文特征集合Fctx(corpus);
由于每次抽取多个单词组成一个特征导致特征的稀疏程度较大,而多数文档仅包含几个特征并且每个特征仅出现一次,故采用二元值{0,1}而非特征的频率定义特征在向量中的分量值;
设语料库中全部文档抽取得到全部上下文特征集合为Fctx(corpus),则对于该语料库下述公式将上下文特征fctx(w)转化为特征向量vctx(w):
Figure FDA0002238018010000021
Figure FDA0002238018010000022
其中i=1,...,|Fctx(corpus)|,表示特征的总个数;Vctx(w)为单词w的上下文特征向量;
Figure FDA0002238018010000023
为Vctx(w)的第i个分量;fi为特征向量第i个分量对应的特征。
2.根据权利要求1所述的方法,其特征在于,从数据源获取医疗领域相关数据时,若缺少结构化数据,则直接提取其中所有的内容作为非结构化数据存储;若为半结构化数据,则按照小标题名、属性名和相关链接名的关系进行存储。
3.根据权利要求1所述的方法,其特征在于,所述基于语义标签的特征是指:
单词在文本中的语义类别和文档中单词间的依赖关系能提供关于单词更多的信息,因此在医学实体识别的过程中以目标词为中心词,检查相关的语义类别和依赖关系;
在分词阶段使用语法解析工具Stanford Parser作为分词工具,以分词结果中的POS标签作为语义类别,以结果中的依赖列表作为依赖关系,相似的语义标签归为一类;
定义一个窗口大小为t的窗口[-t,+t],在这个窗口中,在目标词w之前的单词的标签作为目标词的前缀prefix,在目标词之后的单词的标签作为目标词w的后缀suffix,具体如下式所示:
prefix={(POSprefix,POSw)}
suffix={(POSw,POSsuffix)}
利用语义标签特征集合提取算法得到每个单词的语义标签特征,对所有文档进行如上的操作即可得到所有w的全部语义标签特征集合FPOS(corpus);
所述语义标签特征集合提取算法是指:在选取了语料库corpus以及从语料库中提取出prefix与suffix语义标签集合之后,利用如下的步骤得到最终每个目标词w对应的语义标签特征集合fpos(w):
(1)设置fpos(w)为空集;
(2)对语料库的每个文档中的单词进行遍历,设定当前单词为wk
(3)对于处于[k-t,k-1]这个窗口中的单词wprefix,如果wprefix对应的语义标签POSprefix以及当前单词wk所对应的语义标签POSk的组合属于prefix语义标签集合,则将(POSprefix,wk)添加至fpos(w);
(4)对于处于[k+1,k+t]这个窗口中的单词wsuffix,如果wsuffix对应的语义标签POSsuffix以及当前单词wk所对应的语义标签POSk的组合属于suffix语义标签集合,则将(wk,POSsuffix)添加至fpos(w);
采用二元值{0,1}来定义特征在向量中的分量值,设语料库中全部文档抽取得到全部语义标签特征集合为FPOS(corpus),则通过这个特征集合将每个目标词所对应的特征集合fpos(w)转化为特征向量vpos(w)。
4.根据权利要求1所述的方法,其特征在于,所述基于医学词典的词向量特征是指:利用国际疾病分类词典《疾病和有关健康问题的国际统计分类》中所收录的医学领域的疾病词汇,结合word2vec软件来构造与疾病相关的医学名词所对应的特征向量。
5.根据权利要求1所述的方法,其特征在于,在实体识别过程中,通过使用长短时记忆模型或者门控循环单元来替循环神经网络中的隐层单元,以用于长距离依赖的场景。
CN201611017724.2A 2016-11-14 2016-11-14 一种基于深度学习的中文医学知识图谱构建方法 Active CN106776711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611017724.2A CN106776711B (zh) 2016-11-14 2016-11-14 一种基于深度学习的中文医学知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611017724.2A CN106776711B (zh) 2016-11-14 2016-11-14 一种基于深度学习的中文医学知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN106776711A CN106776711A (zh) 2017-05-31
CN106776711B true CN106776711B (zh) 2020-04-07

Family

ID=58969731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611017724.2A Active CN106776711B (zh) 2016-11-14 2016-11-14 一种基于深度学习的中文医学知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN106776711B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11836120B2 (en) 2021-07-23 2023-12-05 Oracle International Corporation Machine learning techniques for schema mapping

Families Citing this family (145)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168949A (zh) * 2017-04-24 2017-09-15 成都准星云学科技有限公司 基于实体组合的数学自然语言处理实现方法、***
CN107247881B (zh) * 2017-06-20 2020-04-28 北京大数医达科技有限公司 一种多模态智能分析方法及***
CN107391623B (zh) * 2017-07-07 2020-03-31 中国人民大学 一种融合多背景知识的知识图谱嵌入方法
CN107423289A (zh) * 2017-07-19 2017-12-01 东华大学 一种跨类型乳腺肿瘤临床文档的结构化处理方法
CN109284497B (zh) 2017-07-20 2021-01-12 京东方科技集团股份有限公司 用于识别自然语言的医疗文本中的医疗实体的方法和装置
CN107480131A (zh) * 2017-07-25 2017-12-15 李姣 中文电子病历症状语义提取方法及其***
CN109388793B (zh) * 2017-08-03 2023-04-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN107526799B (zh) * 2017-08-18 2021-01-08 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
CN107526798B (zh) * 2017-08-18 2020-09-01 武汉红茶数据技术有限公司 一种基于神经网络的实体识别和规范化联合方法及模型
CN107491555B (zh) * 2017-09-01 2020-11-20 北京纽伦智能科技有限公司 知识图谱构建方法和***
CN107609163B (zh) * 2017-09-15 2021-08-24 南京深数信息科技有限公司 医学知识图谱的生成方法、存储介质及服务器
CN107665252B (zh) * 2017-09-27 2020-08-25 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN109583440B (zh) * 2017-09-28 2021-12-17 北京西格码列顿信息技术有限公司 结合影像识别与报告编辑的医学影像辅助诊断方法及***
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及***
CN107748799B (zh) * 2017-11-08 2021-09-21 四川长虹电器股份有限公司 一种多数据源影视数据实体对齐的方法
CN107704637B (zh) * 2017-11-20 2019-12-13 中国人民解放军国防科技大学 一种面向突发事件的知识图谱构建方法
CN108154234A (zh) * 2017-12-04 2018-06-12 盈盛资讯科技有限公司 一种基于模板的知识学习方法和***
CN107977361B (zh) * 2017-12-06 2021-05-18 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108509479B (zh) * 2017-12-13 2022-02-11 深圳市腾讯计算机***有限公司 实体推荐方法及装置、终端及可读存储介质
CN108052504B (zh) * 2017-12-26 2020-11-20 浙江讯飞智能科技有限公司 数学主观题解答结果的结构分析方法及***
CN107958091A (zh) * 2017-12-28 2018-04-24 北京贝塔智投科技有限公司 一种基于金融垂直知识图谱的nlp人工智能方法及交互***
CN110019839B (zh) * 2018-01-03 2021-11-05 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和***
CN108446769B (zh) * 2018-01-23 2020-12-08 深圳市阿西莫夫科技有限公司 知识图谱关系推理方法、装置、计算机设备和存储介质
CN108460012A (zh) * 2018-02-01 2018-08-28 哈尔滨理工大学 一种基于gru-crf的命名实体识别方法
CN108491378B (zh) * 2018-03-08 2021-11-09 国网福建省电力有限公司 电力信息运维智能应答***
CN108388560B (zh) * 2018-03-17 2021-08-20 北京工业大学 基于语言模型的gru-crf会议名称识别方法
CN108491502B (zh) * 2018-03-21 2022-02-08 腾讯科技(深圳)有限公司 一种新闻追踪的方法、终端、服务器及存储介质
CN108282262B (zh) * 2018-04-16 2019-11-26 西安电子科技大学 基于门控循环单元深度网络的智能时序信号分类方法
EP3564964A1 (en) * 2018-05-04 2019-11-06 Avaintec Oy Method for utilising natural language processing technology in decision-making support of abnormal state of object
CN108804611B (zh) * 2018-05-30 2021-11-19 浙江大学 一种基于自我评论序列学习的对话回复生成方法及***
CN110609995B (zh) * 2018-06-15 2023-06-27 中央民族大学 构建藏语问答语料库的方法及装置
CN108875051B (zh) * 2018-06-28 2020-04-28 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及***
CN110728148B (zh) * 2018-06-29 2023-07-14 富士通株式会社 实体关系抽取方法和装置
CN108920634A (zh) * 2018-06-30 2018-11-30 天津大学 基于知识图谱的皮肤病特征分析***
CN109145120B (zh) * 2018-07-02 2021-11-02 北京妙医佳信息技术有限公司 医学健康领域知识图谱的关系抽取方法及***
CN109147954A (zh) * 2018-07-26 2019-01-04 南京邮电大学 基于知识图谱的患者信息处理装置
CN109213871A (zh) * 2018-07-26 2019-01-15 南京邮电大学 患者信息知识图谱构建方法、可读存储介质和终端
CN109190113B (zh) * 2018-08-10 2021-08-31 北京科技大学 一种中医理论典籍的知识图谱构建方法
CN109065100A (zh) * 2018-08-20 2018-12-21 广州小云软件科技有限公司 一种基于区块链的中医健康个性化问卷智能生成与加密***
CN109145003B (zh) * 2018-08-24 2022-05-27 联动数科(北京)科技有限公司 一种构建知识图谱的方法及装置
CN109189943B (zh) * 2018-09-19 2021-06-04 中国电子科技集团公司信息科学研究院 一种能力知识抽取及能力知识图谱构建的方法
CN109325131B (zh) * 2018-09-27 2021-03-02 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
CN109284396A (zh) * 2018-09-27 2019-01-29 北京大学深圳研究生院 医学知识图谱构建方法、装置、服务器及存储介质
CN110970112B (zh) * 2018-09-29 2024-03-12 九阳股份有限公司 一种面向营养健康的知识图谱构建方法和***
CN109597894B (zh) * 2018-09-30 2023-10-03 创新先进技术有限公司 一种关联模型生成方法及装置、一种数据关联方法及装置
CN109635120B (zh) * 2018-10-30 2020-06-09 百度在线网络技术(北京)有限公司 知识图谱的构建方法、装置和存储介质
CN109522551B (zh) * 2018-11-09 2024-02-20 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN109509556A (zh) * 2018-11-09 2019-03-22 天津开心生活科技有限公司 知识图谱生成方法、装置、电子设备及计算机可读介质
CN111209407B (zh) * 2018-11-21 2023-06-16 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及***
CN109582802B (zh) * 2018-11-30 2020-11-03 国信优易数据股份有限公司 一种实体嵌入方法、装置、介质及设备
CN109766446A (zh) * 2018-12-13 2019-05-17 平安科技(深圳)有限公司 一种数据调查方法、数据调查装置及计算机可读存储介质
CN109710928B (zh) * 2018-12-17 2022-08-19 新华三大数据技术有限公司 非结构化文本的实体关系抽取方法及装置
CN109857917B (zh) * 2018-12-21 2021-07-13 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及***
US11514091B2 (en) 2019-01-07 2022-11-29 International Business Machines Corporation Extracting entity relations from semi-structured information
CN109726298B (zh) * 2019-01-08 2020-12-29 上海市研发公共服务平台管理中心 适用于科技文献的知识图谱构建方法、***、终端及介质
CN109885691B (zh) * 2019-01-08 2024-06-25 平安科技(深圳)有限公司 知识图谱补全方法、装置、计算机设备及存储介质
CN109740168B (zh) * 2019-01-09 2020-10-13 北京邮电大学 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法
CN109918436B (zh) * 2019-03-08 2022-12-20 麦博(上海)健康科技有限公司 一种医学知识管理和查询***
CN109902186B (zh) 2019-03-12 2021-05-11 北京百度网讯科技有限公司 用于生成神经网络的方法和装置
CN110032647A (zh) * 2019-03-12 2019-07-19 埃睿迪信息技术(北京)有限公司 基于工业领域构建知识图谱的方法、装置及存储介质
CN109960810B (zh) * 2019-03-28 2020-05-19 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置
CN110033851B (zh) * 2019-04-02 2022-07-26 腾讯科技(深圳)有限公司 信息推荐方法、装置、存储介质及服务器
CN110008354B (zh) * 2019-04-10 2022-06-07 华侨大学 一种基于知识图谱的对外汉语学习内容的构建方法
CN110717018A (zh) * 2019-04-15 2020-01-21 中国石油大学(华东) 一种基于知识图谱的工业设备故障维修问答***
CN110175519B (zh) * 2019-04-22 2021-07-20 南方电网科学研究院有限责任公司 一种变电站的分合标识仪表识别方法、装置与存储介质
CN111950278A (zh) * 2019-05-14 2020-11-17 株式会社理光 一种序列标注方法、装置及计算机可读存储介质
CN110188207B (zh) * 2019-05-15 2021-06-04 出门问问创新科技有限公司 知识图谱构建方法及装置、可读存储介质、电子设备
CN110322959B (zh) * 2019-05-24 2021-09-28 山东大学 一种基于知识的深度医疗问题路由方法及***
CN110188359B (zh) * 2019-05-31 2023-01-03 成都火石创造科技有限公司 一种文本实体抽取方法
CN110287334B (zh) * 2019-06-13 2023-12-01 淮阴工学院 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法
CN110390021A (zh) * 2019-06-13 2019-10-29 平安科技(深圳)有限公司 药品知识图谱构建方法、装置、计算机设备及存储介质
CN110246590A (zh) * 2019-06-17 2019-09-17 上海米帝信息技术有限公司 一种血液病知识图谱数据库的构建方法
CN110209839B (zh) * 2019-06-18 2021-07-27 卓尔智联(武汉)研究院有限公司 农业知识图谱构建装置、方法及计算机可读存储介质
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的***及方法
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110321432B (zh) * 2019-06-24 2021-11-23 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
CN110275894B (zh) * 2019-06-24 2021-12-14 恒生电子股份有限公司 一种知识图谱的更新方法、装置、电子设备及存储介质
CN110399497A (zh) * 2019-07-02 2019-11-01 厦门美域中央信息科技有限公司 一种基于深度学习技术的知识图谱自适应构建方法
CN110851611A (zh) * 2019-07-18 2020-02-28 华瑞新智科技(北京)有限公司 一种隐患数据知识图谱的构建方法及装置、设备、介质
CN110442869B (zh) * 2019-08-01 2021-02-23 腾讯科技(深圳)有限公司 一种医疗文本处理方法及其装置、设备和存储介质
CN110597969B (zh) * 2019-08-12 2022-05-24 中国农业大学 一种农业知识智能问答方法、***以及电子设备
CN110704631B (zh) * 2019-08-16 2022-12-13 北京紫冬认知科技有限公司 医疗知识图谱的构建方法及装置
CN110543562A (zh) * 2019-08-19 2019-12-06 武大吉奥信息技术有限公司 一种基于事件图谱的城市治理事件自动分拨方法及***
CN110765754B (zh) * 2019-09-16 2024-05-03 平安科技(深圳)有限公司 文本数据排版方法、装置、计算机设备及存储介质
CN110674312B (zh) * 2019-09-18 2022-05-17 泰康保险集团股份有限公司 构建知识图谱方法、装置、介质及电子设备
CN110807102B (zh) * 2019-09-19 2023-09-29 平安科技(深圳)有限公司 知识融合方法、装置、计算机设备和存储介质
CN110569372B (zh) * 2019-09-20 2022-08-30 四川大学 一种心脏病大数据知识图谱***的构建方法
CN112632269A (zh) * 2019-09-24 2021-04-09 北京国双科技有限公司 一种文档分类模型训练的方法和相关装置
CN110825882B (zh) * 2019-10-09 2022-03-01 西安交通大学 一种基于知识图谱的信息***管理方法
CN110675954A (zh) * 2019-10-11 2020-01-10 北京百度网讯科技有限公司 信息处理方法及装置、电子设备、存储介质
CN110781677B (zh) * 2019-10-12 2023-02-07 深圳平安医疗健康科技服务有限公司 药品信息匹配处理方法、装置、计算机设备和存储介质
CN110968650A (zh) * 2019-10-30 2020-04-07 清华大学 基于医生协助的医疗领域知识图谱构建方法
CN110851577A (zh) * 2019-10-30 2020-02-28 国网江苏省电力有限公司电力科学研究院 一种电力领域的知识图谱扩充方法及装置
CN110955764B (zh) * 2019-11-19 2021-04-06 百度在线网络技术(北京)有限公司 场景知识图谱的生成方法、人机对话方法以及相关设备
CN111028952B (zh) * 2019-11-27 2023-08-04 云知声智能科技股份有限公司 一种中文医学蕴含知识图谱构建方法及装置
CN110931128B (zh) * 2019-12-05 2023-04-07 中国科学院自动化研究所 非结构化医疗文本无监督症状自动识别方法、***、装置
CN110895580B (zh) * 2019-12-12 2020-07-07 山东众阳健康科技集团有限公司 一种基于深度学习的icd手术与操作编码自动匹配方法
CN111192693B (zh) * 2019-12-19 2021-07-27 山东大学 一种基于药物组合进行诊断编码纠正的方法及***
CN111091006B (zh) * 2019-12-20 2023-08-29 北京百度网讯科技有限公司 一种实体意图体系的建立方法、装置、设备和介质
CN111125309A (zh) * 2019-12-23 2020-05-08 中电云脑(天津)科技有限公司 自然语言处理方法、装置及计算设备、存储介质
CN111104524B (zh) * 2019-12-25 2024-06-21 北京航天云路有限公司 一种识别电视端用户集合的方法
CN111475653B (zh) * 2019-12-30 2021-03-02 北京国双科技有限公司 油气勘探开发领域的知识图谱的构建方法及装置
CN111324691A (zh) * 2020-01-06 2020-06-23 大连民族大学 一种基于知识图谱的少数民族领域智能问答方法
US11544593B2 (en) 2020-01-07 2023-01-03 International Business Machines Corporation Data analysis and rule generation for providing a recommendation
CN111324742B (zh) * 2020-02-10 2024-01-23 同方知网数字出版技术股份有限公司 一种数字人文知识图谱的构建方法
CN111209412B (zh) * 2020-02-10 2023-05-12 同方知网数字出版技术股份有限公司 一种循环更新迭代的期刊文献知识图谱构建方法
CN111488741A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种税收知识数据语义标注方法及相关装置
CN111581376B (zh) * 2020-04-17 2024-04-19 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建***及方法
CN111666418B (zh) * 2020-04-23 2024-01-16 北京三快在线科技有限公司 文本重生成方法、装置、电子设备和计算机可读介质
CN111681775B (zh) * 2020-06-03 2023-09-29 北京启云数联科技有限公司 基于医药大数据的药品应用分析的方法、***及装置
CN111708899B (zh) * 2020-06-13 2023-10-03 广州华建工智慧科技有限公司 一种基于自然语言和知识图谱工程信息智能搜索方法
CN111723215B (zh) * 2020-06-19 2022-10-04 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN111831908A (zh) * 2020-06-24 2020-10-27 平安科技(深圳)有限公司 医疗领域知识图谱构建方法、装置、设备及存储介质
CN113761905A (zh) * 2020-07-01 2021-12-07 北京沃东天骏信息技术有限公司 一种领域建模词汇表的构建方法和装置
CN111538895A (zh) * 2020-07-07 2020-08-14 成都数联铭品科技有限公司 一种基于图网络的数据处理***
US11520986B2 (en) 2020-07-24 2022-12-06 International Business Machines Corporation Neural-based ontology generation and refinement
CN111814463B (zh) * 2020-08-24 2020-12-15 望海康信(北京)科技股份公司 国际疾病分类编码推荐方法、***及相应设备和存储介质
CN112035675A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 医疗文本标注方法、装置、设备及存储介质
CN112131401B (zh) * 2020-09-14 2024-02-13 腾讯科技(深圳)有限公司 一种概念知识图谱构建方法和装置
CN115796181A (zh) * 2020-09-17 2023-03-14 青岛科技大学 一种针对化工领域的文本关系抽取方法
CN112231460B (zh) * 2020-10-27 2022-07-12 中国科学院合肥物质科学研究院 一种基于农业百科知识图谱的问答***的构建方法
CN112307134B (zh) * 2020-10-30 2024-02-06 北京百度网讯科技有限公司 实体信息处理方法、装置、电子设备及存储介质
CN112349370B (zh) * 2020-11-05 2023-11-24 大连理工大学 一种基于对抗网络+众包的电子病历语料构建方法
CN112486919A (zh) * 2020-11-13 2021-03-12 北京北大千方科技有限公司 文档管理方法、***及存储介质
CN112417100A (zh) * 2020-11-20 2021-02-26 大连民族大学 辽代历史文化领域知识图谱及其智能问答***的构建方法
CN112420212B (zh) * 2020-11-27 2023-12-26 湖南师范大学 一种脑卒中医疗知识图谱的构建方法
CN112199961B (zh) * 2020-12-07 2021-04-02 浙江万维空间信息技术有限公司 一种基于深度学习的知识图谱获取方法
CN112560467A (zh) * 2020-12-16 2021-03-26 北京百度网讯科技有限公司 确定文本中要素关系的方法、装置、设备和介质
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN112559772B (zh) * 2020-12-29 2022-09-09 厦门市美亚柏科信息股份有限公司 一种知识图谱动态维护方法、终端设备及存储介质
CN112836120B (zh) * 2021-01-27 2024-03-22 深圳大学 一种基于多模态知识图谱的电影推荐方法、***及终端
CN113806549A (zh) * 2021-02-09 2021-12-17 京东科技控股股份有限公司 人员关系图谱的构建方法、装置及电子设备
CN113220895B (zh) * 2021-04-23 2024-02-02 北京大数医达科技有限公司 基于强化学习的信息处理方法、装置、终端设备
CN113239208A (zh) * 2021-05-06 2021-08-10 广东博维创远科技有限公司 一种基于知识图谱的标注训练模型
CN113205504B (zh) * 2021-05-12 2022-12-02 青岛大学附属医院 基于知识图谱的人工智能肾肿瘤预测***
CN113539490A (zh) * 2021-06-10 2021-10-22 成都基预科技有限公司 基于知识图谱的常见职业病风险预测方法
CN113779271A (zh) * 2021-09-13 2021-12-10 广州汇通国信科技有限公司 一种基于循环神经网络的知识图谱构建方法及装置
CN113779179B (zh) * 2021-09-29 2024-02-09 北京雅丁信息技术有限公司 一种基于深度学习和知识图谱的icd智能编码的方法
CN114840684A (zh) * 2022-04-25 2022-08-02 平安普惠企业管理有限公司 基于医疗实体的图谱构建方法、装置、设备及存储介质
CN114596931B (zh) * 2022-05-10 2022-08-02 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114707005B (zh) * 2022-06-02 2022-10-25 浙江建木智能***有限公司 一种舰船装备的知识图谱构建方法和***
CN115146642B (zh) * 2022-07-21 2023-08-29 北京市科学技术研究院 一种面向命名实体识别的训练集自动标注方法及***
CN117312493A (zh) * 2023-09-08 2023-12-29 中国中医科学院中医药信息研究所 一种多策略知识抽取***
CN118116611A (zh) * 2024-04-30 2024-05-31 青岛国创智能家电研究院有限公司 基于多源医养大数据融合集成的数据库构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160064826A (ko) * 2014-11-28 2016-06-08 한국전자통신연구원 지식 그래프 기반에서의 의미적 검색 서비스 제공장치 및 그 방법
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160064826A (ko) * 2014-11-28 2016-06-08 한국전자통신연구원 지식 그래프 기반에서의 의미적 검색 서비스 제공장치 및 그 방법
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于深度学习的商业领域知识图谱构建》;袁旭萍;《中国优秀硕士学位论文全文数据库信息科技辑》;20151015(第10期);第I143-13页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11836120B2 (en) 2021-07-23 2023-12-05 Oracle International Corporation Machine learning techniques for schema mapping

Also Published As

Publication number Publication date
CN106776711A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN110825721B (zh) 大数据环境下高血压知识库构建与***集成方法
US10678816B2 (en) Single-entity-single-relation question answering systems, and methods
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
Arulmurugan et al. RETRACTED ARTICLE: Classification of sentence level sentiment analysis using cloud machine learning techniques
CN111625659B (zh) 知识图谱处理方法、装置、服务器及存储介质
RU2686000C1 (ru) Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及***
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN109033284A (zh) 基于知识图谱的电力信息运维***数据库构建方法
US10740406B2 (en) Matching of an input document to documents in a document collection
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及***
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN109783806A (zh) 一种利用语义解析结构的文本匹配方法
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN114997288A (zh) 一种设计资源关联方法
CN115982379A (zh) 基于知识图谱的用户画像构建方法和***
Jia et al. A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth
KR20220074576A (ko) 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant