CN111028952B - 一种中文医学蕴含知识图谱构建方法及装置 - Google Patents
一种中文医学蕴含知识图谱构建方法及装置 Download PDFInfo
- Publication number
- CN111028952B CN111028952B CN201911179731.6A CN201911179731A CN111028952B CN 111028952 B CN111028952 B CN 111028952B CN 201911179731 A CN201911179731 A CN 201911179731A CN 111028952 B CN111028952 B CN 111028952B
- Authority
- CN
- China
- Prior art keywords
- medical
- entity
- knowledge graph
- medical entity
- implication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 21
- 238000002372 labelling Methods 0.000 claims description 14
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000009966 trimming Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- NOESYZHRGYRDHS-UHFFFAOYSA-N insulin Chemical compound N1C(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(NC(=O)CN)C(C)CC)CSSCC(C(NC(CO)C(=O)NC(CC(C)C)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CCC(N)=O)C(=O)NC(CC(C)C)C(=O)NC(CCC(O)=O)C(=O)NC(CC(N)=O)C(=O)NC(CC=2C=CC(O)=CC=2)C(=O)NC(CSSCC(NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2C=CC(O)=CC=2)NC(=O)C(CC(C)C)NC(=O)C(C)NC(=O)C(CCC(O)=O)NC(=O)C(C(C)C)NC(=O)C(CC(C)C)NC(=O)C(CC=2NC=NC=2)NC(=O)C(CO)NC(=O)CNC2=O)C(=O)NCC(=O)NC(CCC(O)=O)C(=O)NC(CCCNC(N)=N)C(=O)NCC(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC=CC=3)C(=O)NC(CC=3C=CC(O)=CC=3)C(=O)NC(C(C)O)C(=O)N3C(CCC3)C(=O)NC(CCCCN)C(=O)NC(C)C(O)=O)C(=O)NC(CC(N)=O)C(O)=O)=O)NC(=O)C(C(C)CC)NC(=O)C(CO)NC(=O)C(C(C)O)NC(=O)C1CSSCC2NC(=O)C(CC(C)C)NC(=O)C(NC(=O)C(CCC(N)=O)NC(=O)C(CC(N)=O)NC(=O)C(NC(=O)C(N)CC=1C=CC=CC=1)C(C)C)CC1=CN=CN1 NOESYZHRGYRDHS-UHFFFAOYSA-N 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 206010012601 diabetes mellitus Diseases 0.000 description 3
- 102000004877 Insulin Human genes 0.000 description 2
- 108090001061 Insulin Proteins 0.000 description 2
- 208000004880 Polyuria Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000035619 diuresis Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 229940125396 insulin Drugs 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种中文医学蕴含知识图谱构建方法及装置。所述方法包括:获取第一医疗实体与第二医疗实体;对所述第一医疗实体与所述第二医疗实体整合,与预设医疗知识图谱中的实体去重过滤,得到所述预设医疗知识图谱中不存在且需要对齐的第三医疗实体;通过对预训练的模型进行微调以得到医疗实体蕴含模型;将所述第三医疗实体与其相似度最高的实体输入所述医疗实体蕴含模型,确定实体间的关系;根据所述第三医疗实体与所述实体间的关系对所述预设医疗知识图谱更新。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种中文医学蕴含知识图谱构建方法及装置。
背景技术
随着越来越多的语义万维网数据在互联网上开放,国内外各个互联网搜索引擎公司开始以此为基础构建知识图谱从而提升服务质量,如Google知识图谱(GoogleKnowledge Graph),百度“知心”等。知识图谱(Knowledge Graph)的本质上是一种语文网络,其结点代表实体(entity)或者概念(concept),连线代表实体或概念之间的各种语义关系,它是一种知识管理的服务模式,能够将各个领域琐碎、零散的知识相互连接.从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的知识***。现在,人们已经开始将知识图谱应用在综合性知识检索以及问答、决策支持等智能***中。
目前构建医疗知识图谱,将从数据源中抽取到的所有实体输入到神经网络模型中,需要做大量的工作,降低了构建医疗知识图谱的效率,如何提高效率,是一亟待解决的技术问题。
发明内容
本发明提供一种中文医学蕴含知识图谱构建方法,包括:
获取第一医疗实体与第二医疗实体;
对所述第一医疗实体与所述第二医疗实体整合,与预设医疗知识图谱中的实体去重过滤,得到所述预设医疗知识图谱中不存在且需要对齐的第三医疗实体;
通过对预训练的模型进行微调以得到医疗实体蕴含模型;
将所述第三医疗实体与其相似度最高的实体输入所述医疗实体蕴含模型,确定实体间的关系;
根据所述第三医疗实体与所述实体间的关系对所述预设医疗知识图谱更新。
本实施例的有益效果在于:对获取到的医疗实体进行去重过滤,留下现有医疗知识图谱中没有的并且需要对齐的第三医疗实体,通过检索计算得到现有医疗知识图谱中与第三医疗实体相似度最高的实体,然后将第三医疗实体和与相似度最高的实体输入到模型中,无需将其它的医疗实体输入到模型中,大大减少需要输入模型中实体的数量,提高了效率。
具体的,所述获取第一医疗实体与第二医疗实体,包括:
从网上获取数据作为数据源;
提取所述数据源中医疗领域相关数据;
使用微调的深度学习预训练的模型做医疗命名实体识别,得到所述第一医疗实体;
从结构化医疗文档中获取所述第二医疗实体。
具体的,所述通过对预训练的模型进行微调以得到医疗实体蕴含模型,包括:
从所述预设医疗知识图谱中获取标注数据集;
从所述标注数据集中抽取构建医疗实体蕴含模型所需的训练数据集和测试数据集;
通过微调的方式,将所述训练数据集与所述测试数据集放在预训练的模型中进行训练和测试,得到所述医疗实体蕴含模型。
具体的,所述第三医疗实体与其相似度最高的实体,包括:
根据预设算法对所述预设医疗知识库进行检索,得到对所述第三医疗实体相似度最高的实体。
具体的,所述根据所述第三医疗实体与所述实体间的关系对所述预设医疗知识图谱更新,包括:
判断所述第三医疗实体与所述实体间的关系是否为蕴含关系,若是蕴含关系则对所述预设医疗知识图谱更新。
本发明还提供一种中文医学蕴含知识图谱构建装置,包括:
获取模块,用于获取第一医疗实体与第二医疗实体;
筛选模块,用于对所述第一医疗实体与所述第二医疗实体整合,与预设医疗知识图谱中的实体去重过滤,得到预设医疗知识图谱中不存在且需要对齐的第三医疗实体;
微调模块,通过对预训练的模型进行微调以得到医疗实体蕴含模型;
确定模块,用于将所述第三医疗实体与其相似度最高的实体输入所述医疗实体蕴含模型,确定实体间的关系;
更新模块,用于根据所述第三医疗实体与所述实体间的关系对所述预设医疗知识图谱更新。
具体的,所述获取模块,包括:
第一获取子模块,用于从网上获取数据作为数据源;
提取子模块,用于提取所述数据源中医疗领域相关数据;
识别子模块,用于使用微调的深度学习预训练的模型做医疗命名实体识别,得到所述第一医疗实体;
第二获取子模块,用于从结构化医疗文档中获取所述第二医疗实体。
具体的,所述微调模块,包括:
第三获取子模块,用于从所述预设医疗知识图谱中获取标注数据集;
抽取子模块,用于从所述标注数据集中抽取构建医疗实体蕴含模型所需的训练数据集和测试数据集;
微调子模块,用于通过微调的方式,将所述训练数据集与所述测试数据集放在预训练的模型中进行训练和测试,得到所述医疗实体蕴含模型。
具体的,所述确定模块,包括:
检索子模块,用于根据预设算法对所述预设医疗知识库进行检索,得到对所述第三医疗实体相似度最高的实体。
具体的,所述更新模块,包括:
判断子模块,用于判断所述第三医疗实体与所述实体间的关系是否为蕴含关系,若是蕴含关系则对所述预设医疗知识图谱更新。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例中一种中文医学蕴含知识图谱构建方法的流程图;
图2为本发明一实施例中一种中文医学蕴含知识图谱构建方法的流程图;
图3为本发明一实施例中一种中文医学蕴含知识图谱构建装置的框图;
图4为本发明一实施例中一种中文医学蕴含知识图谱构建装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明一实施例中一种中文医学蕴含知识图谱构建方法的流程图,如图1所示,该方法可被实施为以下步骤S11-S12:
在步骤S11中,获取第一医疗实体与第二医疗实体;
在步骤S12中,对第一医疗实体与第二医疗实体整合,与预设医疗知识图谱中的实体去重过滤,得到预设医疗知识图谱中不存在且需要对齐的第三医疗实体;
在步骤S13中,通过对预训练的模型进行微调以得到医疗实体蕴含模型;
在步骤S14中,将第三医疗实体与其相似度最高的实体输入医疗实体蕴含模型,确定实体间的关系;
在步骤S15中,根据第三医疗实体与实体间的关系对预设医疗知识图谱更新。
本实施例中,预设医疗知识图谱可以是现有医疗知识图谱,第一医疗实体从网络以及现实中的数据中获取,第二医疗实体从非结构化医疗文档中获取,整合第一医疗实体和第二医疗实体,与现有医疗知识图谱进行比较,留下现有知识图谱中不存在且需要对齐的医疗实体,此医疗实体为第三医疗实体;通过大规模医疗语料来预训练出医疗领域的通用模型,再用标注的数据对通用模型进行微调,得到医疗实体蕴含模型;对第三医疗实体与现有医疗知识图谱中的实体检索计算,得到与第三医疗实体相似度最高的实体,第三医疗实体及其相似度最高的实体输入上述的医疗实体蕴含模型,该医疗实体模型会输出第三医疗实体与其相似度最高的实体间的蕴含关系,用第三医疗实体和第三医疗实体与其相似度最高的实体间的蕴含关系对现有医疗知识图谱进行更新,得到一个新的医疗知识图谱。
举例而言:医疗实体可以是“糖尿病”、“多尿”、“注射胰岛素”,实体间的关系可以是“糖尿病”的症状是“多尿”,“注射胰岛素”可以治疗糖尿病。
需要说明的是,“第一医疗实体”、“第二医疗实体”“第三医疗实体”不是指某一个单独的实体;与第三医疗实体相似度最高的实体可以是一个,也可以是多个;需要对齐的医疗实体是指具有不同标识的实体代表同一对象的实体,对齐即将其归并为具有唯一标识的实体。
本实施例的有益效果在于:对获取到的医疗实体进行去重过滤,留下现有医疗知识图谱中没有的并且需要对齐的第三医疗实体,通过检索计算得到现有医疗知识图谱中与第三医疗实体相似度最高的实体,然后将第三医疗实体和与相似度最高的实体输入到模型中,无需将其它的医疗实体输入到模型中,大大减少需要输入模型中实体的数量,提高了效率。
在一个实施例中,上述步骤S11可以被实施为如下步骤A1-A4:
在步骤A1中,从网上获取数据作为数据源;
在步骤A2中,提取数据源中医疗领域相关数据;
在步骤A3中,使用微调的深度学习预训练的模型做医疗命名实体识别,得到第一医疗实体;
在步骤A4中,从结构化医疗文档中获取第二医疗实体。
举例而言:以网络爬取数据(医疗百科、医疗网站)、医学文献(临床指南、医学教材)和临床病历非结构化数据作为数据源,从数据源中获取医疗领域相关数据,并使用微调的深度学习预训练的模型Bert做医疗命名实体识别,获得第一医疗实体;从已经结构化的医疗文档中获取第二医疗实体。
在一个实施例中,如图2所示,上述步骤S13可以被实施为如下步骤S21-S23:
在步骤S21中,从预设医疗知识图谱中获取标注数据集;
在步骤S22中,从标注数据集中抽取构建医疗实体蕴含模型所需的训练数据集和测试数据集;
在步骤S23中,通过微调的方式,将训练数据集与测试数据集放在预训练的模型中进行训练和测试,得到医疗实体蕴含模型。
本实施例中,通过大规模医疗语料来预训练出医疗领域的通用模型,再用标注的数据对通用模型微调训练出医疗实体蕴含模型;具体的,利用现有医疗知识图谱中的实体上下位关系和同义词关系构建蕴含模型所需的标注数据集。
构建蕴含模型所需的标注数据集包括:
构建蕴含模型标注数据集的正例,随机选择实体以及该实体的直系上位实体或同义实体作为正例样本;
构建蕴含模型标注数据集的负例,随机选择实体以及该实体的直系下位实体作为负例样本。
取上述标注数据集的70%作为训练数据集,30%作为测试数据集,然后通过微调的方式,将训练数据集与测试数据集放在预训练的模型Bert中进行训练和测试,得到医疗实体蕴含模型。
需要说明的是,蕴含关系是指,对于实体A和实体B,若实体A是实体B的下位关系或同义关系,则实体A蕴含实体B。
在一个实施例中,上述步骤S14可以被实施为如下步骤,包括:
根据预设算法对所述预设医疗知识库进行检索,得到对所述第三医疗实体相似度最高的实体。
通过如下公式计算第三医疗实体Q与现有医疗知识图谱中的医实体D最终相似度分值:
其中,qi表示对医疗实体D进行分词后的元素,f(qi,D)表示qi在实体D中的词频,|D|表示医疗实体D包含词语个数,avgdl表示所有医疗知识图谱中实体平均包含的词语个数,k1和b表示可以自由调节的参数,默认的,k∈[1.2,2.0],b=0.75;score(D,Q)为最终的相似度分值;IDF表示逆文本频率指数;其中,IDF基于如下方式进行计算;
其中,IDFi表示第i个词的逆文本频率指数,N是现有医疗知识图谱中医疗实体D的总数,n(qi)表示包含检索实体第i个词的医疗实体D的数量。
在一个实施例中,上述步骤S15可以被实施为如下步骤,包括:
判断所述第三医疗实体与所述实体间的关系是否为蕴含关系,若是蕴含关系则对所述预设医疗知识图谱更新。
本实施例中,对第三医疗实体Q与其相似度最高的X个实体分别应用蕴含模型,可以得到第三医疗实体Q与其相似度最高的X个实体间的上下位关系或者同义关系。
对于qi∈Q,xi∈X,详细规范如下:
若qi蕴含xi,且xi蕴含qi,则qi与xi属于同义关系;
若qi蕴含xi,但xi不蕴含qi,则qi是xi的下位关系;
若qi不蕴含xi,但xi蕴含qi,则qi是xi的上位关系;
若qi不蕴含xi,且xi不蕴含qi,则qi与xi没有关系。
判断第三医疗实体与其相似度最高的X个实体间的关系,如果满足蕴含关系,则用满足关系的第三医疗实体和与其相似度最高的X个实体间的关系对现有医疗知识图谱进行更新;如果不满足,则去除该第三医疗实体。
图3为本发明一实施例中一种中文医学蕴含知识图谱构建装置的框图,如图3所示,该装置可包括如下模块:
获取模块31,用于获取第一医疗实体与第二医疗实体;
筛选模块32,用于对第一医疗实体与所述第二医疗实体整合,与预设医疗知识图谱中的实体去重过滤,得到预设医疗知识图谱中不存在且需要对齐的第三医疗实体;
微调模块33,通过对预训练的模型进行微调以得到医疗实体蕴含模型;
确定模块34,用于将第三医疗实体与其相似度最高的实体输入医疗实体蕴含模型,确定实体间的关系;
更新模块35,用于根据第三医疗实体与实体间的关系对预设医疗知识图谱更新。
在一个实施例中,如图4所示,获取模块31,包括:
第一获取子模块41,用于从网上获取数据作为数据源;
提取子模块42,用于提取数据源中医疗领域相关数据;
识别子模块43,用于使用微调的深度学习预训练的模型做医疗命名实体识别,得到第一医疗实体;
第二获取子模块44,用于从结构化医疗文档中获取第二医疗实体。
在一个实施例中,微调模块,包括:
第三获取子模块,用于从预设医疗知识图谱中获取标注数据集;
抽取子模块,用于从标注数据集中抽取构建医疗实体蕴含模型所需的训练数据集和测试数据集;
微调子模块,用于通过微调的方式,将训练数据集与测试数据集放在预训练的模型中进行训练和测试,得到医疗实体蕴含模型。
在一个实施例中,确定模块,包括:
检索子模块,用于根据预设算法对预设医疗知识库进行检索,得到对所述第三医疗实体相似度最高的实体。
在一个实施例中,更新模块,包括:
判断子模块,用于判断第三医疗实体与所述实体间的关系是否为蕴含关系,若是蕴含关系则对预设医疗知识图谱更新。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种中文医学蕴含知识图谱构建方法,其特征在于,包括:
获取第一医疗实体与第二医疗实体,包括:
从网上获取数据作为数据源;
提取所述数据源中医疗领域相关数据;
使用微调的深度学习预训练的模型做医疗命名实体识别,得到所述第一医疗实体;
从结构化医疗文档中获取所述第二医疗实体;
对所述第一医疗实体与所述第二医疗实体整合,与预设医疗知识图谱中的实体去重过滤,得到所述预设医疗知识图谱中不存在且需要对齐的第三医疗实体;
通过对预训练的模型进行微调以得到医疗实体蕴含模型;
将所述第三医疗实体与其相似度最高的实体输入所述医疗实体蕴含模型,确定实体间的关系;
根据所述第三医疗实体与所述实体间的关系对所述预设医疗知识图谱更新;
根据预设算法对预设医疗知识库进行检索,得到对所述第三医疗实体相似度最高的实体,包括:
通过如下公式计算第三医疗实体Q与现有医疗知识图谱中的医疗实体D最终相似度分值:
;
其中,表示对现有医疗知识图谱中的医疗实体D进行分词后的元素,表示在现有医疗知识图谱中的医疗实体D中的词频,表示现有医疗知识图谱中的医疗实
体D包含词语个数,avgdl表示所有医疗知识图谱中实体平均包含的词语个数,和b表示可
以自由调节的参数,默认的,,b=0.75;为最终的相似度分值;
IDF表示逆文本频率指数;其中,IDF基于如下方式进行计算;
;
其中,IDFi表示第i个词的逆文本频率指数,N是现有医疗知识图谱中医疗实体D的总数,表示包含检索实体第i个词的现有医疗知识图谱中的医疗实体D的数量。
2.如权利要求1所述的方法,其特征在于,所述通过对预训练的模型进行微调以得到医疗实体蕴含模型,包括:
从所述预设医疗知识图谱中获取标注数据集;
从所述标注数据集中抽取构建医疗实体蕴含模型所需的训练数据集和测试数据集;
通过微调的方式,将所述训练数据集与所述测试数据集放在预训练的模型中进行训练和测试,得到所述医疗实体蕴含模型。
3.如权利要求1所述的方法,其特征在于,所述根据所述第三医疗实体与所述实体间的关系对所述预设医疗知识图谱更新,包括:
判断所述第三医疗实体与所述实体间的关系是否为蕴含关系,若是蕴含关系则对所述预设医疗知识图谱更新。
4.一种中文医学蕴含知识图谱构建装置,其特征在于,包括:
获取模块,用于获取第一医疗实体与第二医疗实体,包括:
第一获取子模块,用于从网上获取数据作为数据源;
提取子模块,用于提取所述数据源中医疗领域相关数据;
识别子模块,用于使用微调的深度学习预训练的模型做医疗命名实体识别,得到所述第一医疗实体;
第二获取子模块,用于从结构化医疗文档中获取所述第二医疗实体;
筛选模块,用于对所述第一医疗实体与所述第二医疗实体整合,与预设医疗知识图谱中的实体去重过滤,得到预设医疗知识图谱中不存在且需要对齐的第三医疗实体;
微调模块,通过对预训练的模型进行微调以得到医疗实体蕴含模型;
确定模块,用于将所述第三医疗实体与其相似度最高的实体输入所述医疗实体蕴含模型,确定实体间的关系;
更新模块,用于根据所述第三医疗实体与所述实体间的关系对所述预设医疗知识图谱更新;
根据预设算法对预设医疗知识库进行检索,得到对所述第三医疗实体相似度最高的实体,包括:
通过如下公式计算第三医疗实体Q与现有医疗知识图谱中的医疗实体D最终相似度分值:
;
其中,表示对现有医疗知识图谱中的医疗实体D进行分词后的元素,表示在现有医疗知识图谱中的医疗实体D中的词频,表示现有医疗知识图谱中的医疗实
体D包含词语个数,avgdl表示所有医疗知识图谱中实体平均包含的词语个数,和b表示可
以自由调节的参数,默认的,,b=0.75;为最终的相似度分值;
IDF表示逆文本频率指数;其中,IDF基于如下方式进行计算;
;
其中,IDFi表示第i个词的逆文本频率指数,N是现有医疗知识图谱中医疗实体D的总数,表示包含检索实体第i个词的现有医疗知识图谱中的医疗实体D的数量。
5.如权利要求4所述的装置,其特征在于,所述微调模块,包括:
第三获取子模块,用于从所述预设医疗知识图谱中获取标注数据集;
抽取子模块,用于从所述标注数据集中抽取构建医疗实体蕴含模型所需的训练数据集和测试数据集;
微调子模块,用于通过微调的方式,将所述训练数据集与所述测试数据集放在预训练的模型中进行训练和测试,得到所述医疗实体蕴含模型。
6.如权利要求4所述的装置,其特征在于,所述更新模块,包括:
判断子模块,用于判断所述第三医疗实体与所述实体间的关系是否为蕴含关系,若是蕴含关系则对所述预设医疗知识图谱更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911179731.6A CN111028952B (zh) | 2019-11-27 | 2019-11-27 | 一种中文医学蕴含知识图谱构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911179731.6A CN111028952B (zh) | 2019-11-27 | 2019-11-27 | 一种中文医学蕴含知识图谱构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111028952A CN111028952A (zh) | 2020-04-17 |
CN111028952B true CN111028952B (zh) | 2023-08-04 |
Family
ID=70202485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911179731.6A Active CN111028952B (zh) | 2019-11-27 | 2019-11-27 | 一种中文医学蕴含知识图谱构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111028952B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723570B (zh) * | 2020-06-09 | 2023-04-28 | 平安科技(深圳)有限公司 | 药品知识图谱的构建方法、装置和计算机设备 |
CN112233803A (zh) * | 2020-09-11 | 2021-01-15 | 北京欧应信息技术有限公司 | 一种用于辅助医生优化诊疗的数据挖掘装置 |
CN116108000B (zh) * | 2023-04-14 | 2023-06-20 | 成都安哲斯生物医药科技有限公司 | 医疗数据管理查询方法 |
CN116383413B (zh) * | 2023-06-05 | 2023-08-29 | 湖南云略信息技术有限公司 | 基于医疗数据提取的知识图谱更新方法和*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105431839A (zh) * | 2013-03-15 | 2016-03-23 | 罗伯特·哈多克 | 具有提供对知识的一步访问的自适应用户接口的智能互联网*** |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN109192321A (zh) * | 2018-09-26 | 2019-01-11 | 北京理工大学 | 药品知识图谱的构建方法及计算存储装置 |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台***、设备、存储介质 |
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、***及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357381A1 (en) * | 2017-06-09 | 2018-12-13 | Intelligent Medical Objects, Inc. | Method and System for Generating Persistent Local Instances of Ontological Mappings |
-
2019
- 2019-11-27 CN CN201911179731.6A patent/CN111028952B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105431839A (zh) * | 2013-03-15 | 2016-03-23 | 罗伯特·哈多克 | 具有提供对知识的一步访问的自适应用户接口的智能互联网*** |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、***及存储介质 |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN109192321A (zh) * | 2018-09-26 | 2019-01-11 | 北京理工大学 | 药品知识图谱的构建方法及计算存储装置 |
CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台***、设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111028952A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111028952B (zh) | 一种中文医学蕴含知识图谱构建方法及装置 | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN110765257A (zh) | 一种知识图谱驱动型的法律智能咨询*** | |
CN111597347B (zh) | 知识嵌入的缺陷报告重构方法及装置 | |
CN113779272B (zh) | 基于知识图谱的数据处理方法、装置、设备及存储介质 | |
US20140172754A1 (en) | Semi-supervised data integration model for named entity classification | |
CN110188147B (zh) | 基于知识图谱的文献实体关系发现方法及*** | |
EP3270303A1 (en) | An automated monitoring and archiving system and method | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
WO2020074023A1 (zh) | 基于深度学习的医学文献中关键句筛选方法及装置 | |
CN111914550B (zh) | 一种面向限定领域的知识图谱更新方法及*** | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
CN111708899A (zh) | 一种基于自然语言和知识图谱工程信息智能搜索方法 | |
CN110990676A (zh) | 一种社交媒体热点主题提取方法与*** | |
CN106844638A (zh) | 信息检索方法、装置及电子设备 | |
CN114386421A (zh) | 相似新闻检测方法、装置、计算机设备和存储介质 | |
CN111626568A (zh) | 知识库构建方法、装置和知识搜索方法、*** | |
CN117149988B (zh) | 基于教育数字化的数据管理处理方法及*** | |
CN117216221A (zh) | 一种基于知识图谱的智能问答***及构建方法 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和*** | |
CN116976321A (zh) | 文本处理方法、装置、计算机设备、存储介质和程序产品 | |
CN107992524B (zh) | 一种专家信息搜索及领域评分计算方法 | |
CN114168751B (zh) | 一种基于医学知识概念图的医学文本标签识别方法及*** | |
CN116010662A (zh) | 一种能源消费-碳排放查询***的构建方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |