CN111259626A - 一种中医实体识别算法 - Google Patents

一种中医实体识别算法 Download PDF

Info

Publication number
CN111259626A
CN111259626A CN202010057863.8A CN202010057863A CN111259626A CN 111259626 A CN111259626 A CN 111259626A CN 202010057863 A CN202010057863 A CN 202010057863A CN 111259626 A CN111259626 A CN 111259626A
Authority
CN
China
Prior art keywords
chinese medicine
traditional chinese
training
algorithm
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010057863.8A
Other languages
English (en)
Inventor
安静梅
张凯文
钱小菲
魏宇涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai National Group Health Technology Co ltd
Original Assignee
Shanghai National Group Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai National Group Health Technology Co ltd filed Critical Shanghai National Group Health Technology Co ltd
Priority to CN202010057863.8A priority Critical patent/CN111259626A/zh
Publication of CN111259626A publication Critical patent/CN111259626A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中医实体识别算法,包含以下步骤:A、数据标注;将中医组收集的中医医案文本采用的是BIO的标注方式,B,即Begin,表示开始I,即Intermediate,表示中间O,即Other,表示其他,用于标记无关字符;B、预训练模型;使用预训练模型做微调的训练方式称为迁移学习;C、训练模型,本发明打破中医领域分词效果差的瓶颈,为健康领域的智能对话和中医知识图谱,中医辅助诊疗***奠定基础,提升基础语义组件的效果。

Description

一种中医实体识别算法
技术领域
本发明涉及自然语言处理的应用技术领域,具体是一种中医实体识别算法。
背景技术
基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
本文的主要工作是针对中医医案中症状、证型、药名这三类命名实体及其相互间的关联关系展开研究。研究所采用的方法涉及到了自然语言处理的语料库语言学知识、基于统计学方法的命名实体识别技术。
发明内容
本发明的目的在于提供一种中医实体识别算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种中医实体识别算法,包含以下步骤:
A、数据标注;将中医组收集的中医医案文本采用的是BIO的标注方式,B,即Begin,表示开始I,即Intermediate,表示中间 O,即Other,表示其他,用于标记无关字符;
B、预训练模型;使用预训练模型做微调的训练方式称为迁移学习;
C、训练模型。
作为本发明的进一步方案:所述步骤A中每一行一个字符,字符后面跟上空格,然后跟上该字符的标注。
作为本发明的进一步方案:每个样本之间用空行分隔。
作为本发明的进一步方案:所述步骤A中使用Brat标注工具辅助进行标注工作。
作为本发明的进一步方案:所述步骤B中使用自然语言表征模型之一的bert的中文预训练模型。
作为本发明的进一步方案:所述步骤C基于bert+lstm+crf算法来训练命名实体模型的。
作为本发明的进一步方案:所述步骤C结束后还会输出训练日志。
与现有技术相比,本发明的有益效果是:本发明打破中医领域分词效果差的瓶颈,为健康领域的智能对话和中医知识图谱,中医辅助诊疗***奠定基础,提升基础语义组件的效果。
附图说明
图1为本发明的模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:请参阅图1,一种中医实体识别算法,包含以下步骤:
A、数据标注,将中医组收集的中医医案文本采用的是BIO的标注方式,B,即Begin,表示开始I,即Intermediate,表示中间 O,即Other,表示其他,用于标记无关字符 ,每一行一个字符,字符后面跟上空格,然后跟上该字符的标注, 每个样本之间用空行分隔。使用Brat标注工具辅助进行标注工作。
B、预训练模型,使用预训练模型做微调的训练方式称为迁移学习,这样做可以让我们的训练收敛的更快,并且可以使得在较少的训练样本上训练也能得到不错的效果。这里我们将使用目前最好的自然语言表征模型之一的bert的中文预训练模型。使用bert可以得到比word2vec(词向量)更好的表征即可。bert在中文***上预训练的模型下载地址:https://storage.***apis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip。
C、训练模型,本文的模型是基于bert+lstm+crf算法来训练命名实体模型的,比基于lstm+crf的项目的效果要好,下面是该项目的地址:
https://github.com/macanv/BERT-BiLSTM-CRF-NER。
测试输出的结果和上面训练完成后输出的结果的格式是一样的。如果你按照本文的步骤,完整的走到这里了,那么你已经有了一个可以识别症状、证型、中药名,共三个实体的命名实体识别模型。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种中医实体识别算法,其特征在于,包含以下步骤:
A、数据标注;将中医组收集的中医医案文本采用的是BIO的标注方式,B,即Begin,表示开始I,即Intermediate,表示中间 O,即Other,表示其他,用于标记无关字符;
B、预训练模型;使用预训练模型做微调的训练方式称为迁移学习;
C、训练模型。
2.根据权利要求1所述的一种中医实体识别算法,其特征在于,所述步骤A中每一行一个字符,字符后面跟上空格,然后跟上该字符的标注。
3.根据权利要求2所述的一种中医实体识别算法,其特征在于,每个样本之间用空行分隔。
4.根据权利要求3所述的一种中医实体识别算法,其特征在于,所述步骤A中使用Brat标注工具辅助进行标注工作。
5.根据权利要求4所述的一种中医实体识别算法,其特征在于,所述步骤B中使用自然语言表征模型之一的bert的中文预训练模型。
6.根据权利要求4所述的一种中医实体识别算法,其特征在于,所述步骤C基于bert+lstm+crf算法来训练命名实体模型的。
7.根据权利要求3所述的一种中医实体识别算法,其特征在于,所述步骤C结束后还会输出训练日志。
CN202010057863.8A 2020-01-16 2020-01-16 一种中医实体识别算法 Pending CN111259626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010057863.8A CN111259626A (zh) 2020-01-16 2020-01-16 一种中医实体识别算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010057863.8A CN111259626A (zh) 2020-01-16 2020-01-16 一种中医实体识别算法

Publications (1)

Publication Number Publication Date
CN111259626A true CN111259626A (zh) 2020-06-09

Family

ID=70947143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010057863.8A Pending CN111259626A (zh) 2020-01-16 2020-01-16 一种中医实体识别算法

Country Status (1)

Country Link
CN (1) CN111259626A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080063264A1 (en) * 2006-09-08 2008-03-13 Porikli Fatih M Method for classifying data using an analytic manifold
CN108549639A (zh) * 2018-04-20 2018-09-18 山东管理学院 基于多特征模板修正的中医医案命名识别方法及***
AU2018101606A4 (en) * 2018-08-09 2018-12-13 Northwest Institute Of Plateau Biology, Chinese Academy Of Sciences A method for identifying meconopsis quintuplinervia regel from different geographical origins
CN109635123A (zh) * 2018-11-28 2019-04-16 北京工业大学 一种增量式的中医文本概念识别方法
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN110134953A (zh) * 2019-05-05 2019-08-16 北京科技大学 基于中医古籍文献的中医命名实体识别方法及识别***
CN110321550A (zh) * 2019-04-25 2019-10-11 北京科技大学 一种面向中医古籍文献的命名实体识别方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080063264A1 (en) * 2006-09-08 2008-03-13 Porikli Fatih M Method for classifying data using an analytic manifold
CN108549639A (zh) * 2018-04-20 2018-09-18 山东管理学院 基于多特征模板修正的中医医案命名识别方法及***
AU2018101606A4 (en) * 2018-08-09 2018-12-13 Northwest Institute Of Plateau Biology, Chinese Academy Of Sciences A method for identifying meconopsis quintuplinervia regel from different geographical origins
CN109635123A (zh) * 2018-11-28 2019-04-16 北京工业大学 一种增量式的中医文本概念识别方法
CN109918644A (zh) * 2019-01-26 2019-06-21 华南理工大学 一种基于迁移学习的中医健康咨询文本命名实体识别方法
CN110321550A (zh) * 2019-04-25 2019-10-11 北京科技大学 一种面向中医古籍文献的命名实体识别方法和装置
CN110134953A (zh) * 2019-05-05 2019-08-16 北京科技大学 基于中医古籍文献的中医命名实体识别方法及识别***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
舒红平等: "《软件需求工程》", pages: 163 - 164 *

Similar Documents

Publication Publication Date Title
CN111859987B (zh) 文本处理方法、目标任务模型的训练方法和装置
CN105957518B (zh) 一种蒙古语大词汇量连续语音识别的方法
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及***
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
JP2023535709A (ja) 言語表現モデルシステム、事前訓練方法、装置、機器及び媒体
CN113205817A (zh) 语音语义识别方法、***、设备及介质
WO2021134524A1 (zh) 数据处理方法、装置、电子设备和存储介质
WO2020199600A1 (zh) 情感极性分析方法及相关装置
CN108304387B (zh) 文本中噪音词的识别方法、装置、服务器组及存储介质
CN115080694A (zh) 一种基于知识图谱的电力行业信息分析方法及设备
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN112949293B (zh) 一种相似文本生成方法、相似文本生成装置及智能设备
CN112749277B (zh) 医学数据的处理方法、装置及存储介质
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN111814433B (zh) 一种维吾尔语实体识别的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200609

RJ01 Rejection of invention patent application after publication