CN105159917A - 一种电子病历的非结构化信息转化为结构化的泛化方法 - Google Patents
一种电子病历的非结构化信息转化为结构化的泛化方法 Download PDFInfo
- Publication number
- CN105159917A CN105159917A CN201510429975.0A CN201510429975A CN105159917A CN 105159917 A CN105159917 A CN 105159917A CN 201510429975 A CN201510429975 A CN 201510429975A CN 105159917 A CN105159917 A CN 105159917A
- Authority
- CN
- China
- Prior art keywords
- pattern
- clause
- information
- sample
- extensive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种电子病历的非结构化信息转化为结构化的泛化方法,包括以下步骤:采用样本学习的方法构建初始候选模式库;根据电子病历信息构建关于标本名的医疗词库;根据医疗词库中标本名,把电子病历语句切分成多个子句,其中,每个子句只包含一个标本的信息;采用分词提取工具对子句进行分词,生成子句序列;依据已经构建的初始候选模式库,从所述子句序列中提取新模式;将多个模式泛化成一个模式;根据得到的模式对文本信息进行信息抽取。本发明可以获得更快速、精确的抽取结果。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种电子病历的非结构化信息转化为结构化的泛化方法。
背景技术
随着信息时代数据量的***式增长,临床医疗数据也展现出其容量大、增速快、形式多样和潜在价值高的特点。而在临床医疗领域,以自然语言文本形式存在的非结构化数据占有重要地位。由于自然语言文本没有一个相对统一的结构,文档格式没有具体的限制,书写比较随意,因此对非结构化医疗数据的结构化信息提取变得十分困难,目前针对文本信息抽取常用的方法,主要是基于规则的抽取模型和基于统计的抽取模型两种。
基于统计的抽取模型的特点是信息抽取精度高,但是对于概率模型发训练过程复杂度高,耗时久。而基于规则的抽取模型的特点是抽取过程简单,但抽取结构过分依赖于规则制定或学习的成果。且这两种方法都是针对所有领域的文本信息,而没有考虑到医疗数据的特点,因此这两种方法很难获得快速精确的抽取结果。如何根据电子病历的特点进行信息抽取,特别是对抽取过程的优化,成为医疗数据分析过程中迫切需要解决的问题。
发明内容
本发明所要解决的技术问题是提供一种电子病历的非结构化信息转化为结构化的泛化方法,以获得更快速、精确的抽取结果。
本发明解决其技术问题所采用的技术方案是:提供一种电子病历的非结构化信息转化为结构化的泛化方法,包括以下步骤:
(1)采用样本学习的方法构建初始候选模式库;
(2)根据电子病历信息构建关于标本名的医疗词库;
(3)根据医疗词库中标本名,把电子病历语句切分成多个子句,其中,每个子句只包含一个标本的信息;
(4)采用分词提取工具对子句进行分词,生成子句序列;
(5)依据已经构建的初始候选模式库,从所述子句序列中提取新模式;
(6)将多个模式泛化成一个模式;
(7)根据得到的模式对文本信息进行信息抽取。
所述步骤(5)为:根据子句中的标本名,从初始候选模式库中选择标本名相同的模式,分别计算每一个模式与子句的相似度,取相似度最大值为CMax,对应模式为Pk,若CMax大于设定阈值,且标本名相同,则新模式为Pk;若标本名不同,则根据子句标本名构建与Pk同构的模式;若CMax小于设定阈值,则采用学习方法构建新模式。
所述步骤(5)和步骤(6)之间还包括进行模式优化的步骤,即若从所述步骤(5)产生的新模式来自初始候选模式库,则依据新模式提取子句信息,并与原子句序列比较提取出新模式未提取的词,依据该词在新模式中增加标本属性,标本属性序列与子句序列对应相同,从而优化新模式。
所述步骤(6)具体包括以下子步骤:
(61)对于模式X,把与其相似度大于泛化门限值的模式分为两类,一类是与模式X的标本名属于同一类的模式集P,一类是与模式X的标本名不属于同一类的模式集Q;
(62)对于模式集P中任意模式Y,若Xi=Yi(i=1,2,...,n),则把Xi放入泛化后模式C,若Xi!=Yi,则把Xi|Yi放入模式C,其中Xi和Yi分别是模式X和模式Y的指标;若P为空,则C=X;
(63)对于泛化后模式C,对于模式集Q中任意模式Z,把Ck|Zk放入模式D,其中Ck和Zk分别是模式C和模式Z的标本名;若Ci=Zi(i=1,2,...,n),则把Ci放入泛化后模式D;若Ci!=Zi,则把Ci|Zi放入模式D,其中Ci和Zi分别是模式C和模式Z的指标。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明根据电子病历文本信息的典型特征,在生成新模式的基础上,经过多次泛化有效的缩小了模式库,使电子病历信息抽取更快速、更精确。
附图说明
图1是本发明的流程图;
图2是步骤3电子病理文本切分成子句流程图;
图3是步骤7模式泛化流程图;
图4是步骤7泛化模式示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明提供了一种电子病历的非结构化信息转化为结构化的泛化方法,如图1所示,包括以下步骤:
步骤1、采用样本学习的方法构建初始候选模式库。如:标本名,指标1:[指标值1],指标2:[指标值2]...,指标n:[指标值n],特性:[特性值]。其中,标本是指病种,比如肿块、胆囊等;指标是指标本的大小、颜色、质地、周径、长度等有特定描述形式的属性;属性是指对标本没有特定描述形式的属性,且一个模式只设一个属性;
步骤2、根据电子病历信息手动构建关于标本名的医疗词库;
步骤3、根据医疗词库中的标本名,把电子病历语句切分成多个子句,一个子句只包含一个标本的信息,具体步骤见图2所示;
步骤4、采用分词提取工具jcseg对子句进行分词,生成子句序列;
步骤5、依据已经构建的初始候选模式库,从所述子句序列中提取新模式。具体为:根据子句中的标本名,从初始模式库中选择标本名相同的模式,分别计算每一个模式与子句的相似度,取相似度最大值为CMax,对应模式为Pk,若CMax大于设定阈值,且标本名相同,则新模式为Pk;若标本名不同,则根据子句标本名构建与Pk同构的模式;若CMax小于设定阈值,则采用学习方法构建新模式。
步骤6、若从步骤5产生的新模式来自初始模式库,则依据新模式提取子句信息,并与原子句序列比较提取出新模式未提取的词,依据该词在新模式中增加标本属性,标本属性序列与子句序列对应相同,从而优化新模式,具体如下:
1)假设当前子句语句序列为WR=(r1,r2,r3,...rn);
2)根据新模式抽取子句信息,生成词序列WS=(s1,s2,s3,...sj);
3)若i<j,则转到4),否者转到6);
4)若ri=si,则信息抽取成功,i=i+1;转到3);若ri!=si,转到5);
5)则在新模式中构建新指标,放在指标i之前,且ri=r(i+1),转到3);
6)模式优化完成。
步骤7、模式泛化,即多个模式泛化成一个模式,如图3所示,具体包括:
7.1)对于优化后的模式X,把与其相似度大于泛化门限值CG的模式分为两类,一类是与模式X的标本名属于同一类的模式集P,一类是与模式X的标本名不属于同一类的模式集Q;
7.2)对于模式集P中任意模式Y,若Xi=Yi(i=1,2,...,n),则把Xi放入泛化后模式C,若Xi!=Yi,则把Xi|Yi放入模式C,其中Xi和Yi分别是模式X和模式Y的指标,如图4所示;若P为空,则C=X;
7.3)对于泛化后模式C,对于模式集Q中任意模式Z,把Ck|Zk放入模式D,其中Ck和Zk分别是模式C和模式Z的标本名;若Ci=Zi(i=1,2,...,n),则把Ci放入泛化后模式D;若Ci!=Zi,则把Ci|Zi放入模式D,其中Ci和Zi分别是模式C和模式Z的指标。
步骤8、根据模式,对文本信息进行信息抽取。
Claims (4)
1.一种电子病历的非结构化信息转化为结构化的泛化方法,其特征在于,包括以下步骤:
(1)采用样本学习的方法构建初始候选模式库;
(2)根据电子病历信息构建关于标本名的医疗词库;
(3)根据医疗词库中标本名,把电子病历语句切分成多个子句,其中,每个子句只包含一个标本的信息;
(4)采用分词提取工具对子句进行分词,生成子句序列;
(5)依据已经构建的初始候选模式库,从所述子句序列中提取新模式;
(6)将多个模式泛化成一个模式;
(7)根据得到的模式对文本信息进行信息抽取。
2.根据权利要求1所述的电子病历的非结构化信息转化为结构化的泛化方法,其特征在于,所述步骤(5)为:根据子句中的标本名,从初始候选模式库中选择标本名相同的模式,分别计算每一个模式与子句的相似度,取相似度最大值为CMax,对应模式为Pk,若CMax大于设定阈值,且标本名相同,则新模式为Pk;若标本名不同,则根据子句标本名构建与Pk同构的模式;若CMax小于设定阈值,则采用学习方法构建新模式。
3.根据权利要求1所述的电子病历的非结构化信息转化为结构化的泛化方法,其特征在于,所述步骤(5)和步骤(6)之间还包括进行模式优化的步骤,即若从所述步骤(5)产生的新模式来自初始候选模式库,则依据新模式提取子句信息,并与原子句序列比较提取出新模式未提取的词,依据该词在新模式中增加标本属性,标本属性序列与子句序列对应相同,从而优化新模式。
4.根据权利要求1所述的电子病历的非结构化信息转化为结构化的泛化方法,其特征在于,所述步骤(6)具体包括以下子步骤:
(61)对于模式X,把与其相似度大于泛化门限值的模式分为两类,一类是与模式X的标本名属于同一类的模式集P,一类是与模式X的标本名不属于同一类的模式集Q;
(62)对于模式集P中任意模式Y,若Xi=Yi(i=1,2,...,n),则把Xi放入泛化后模式C,若Xi!=Yi,则把Xi|Yi放入模式C,其中Xi和Yi分别是模式X和模式Y的指标;若P为空,则C=X;
(63)对于泛化后模式C,对于模式集Q中任意模式Z,把Ck|Zk放入模式D,其中Ck和Zk分别是模式C和模式Z的标本名;若Ci=Zi(i=1,2,...,n),则把Ci放入泛化后模式D;若Ci!=Zi,则把Ci|Zi放入模式D,其中Ci和Zi分别是模式C和模式Z的指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510429975.0A CN105159917B (zh) | 2015-07-21 | 2015-07-21 | 一种电子病历的非结构化信息转化为结构化的泛化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510429975.0A CN105159917B (zh) | 2015-07-21 | 2015-07-21 | 一种电子病历的非结构化信息转化为结构化的泛化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105159917A true CN105159917A (zh) | 2015-12-16 |
CN105159917B CN105159917B (zh) | 2018-08-03 |
Family
ID=54800774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510429975.0A Expired - Fee Related CN105159917B (zh) | 2015-07-21 | 2015-07-21 | 一种电子病历的非结构化信息转化为结构化的泛化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105159917B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678107A (zh) * | 2016-04-15 | 2016-06-15 | 江苏曼荼罗软件股份有限公司 | 一种电子病历后结构化知识发现方法和装置 |
CN106095913A (zh) * | 2016-06-08 | 2016-11-09 | 广州同构医疗科技有限公司 | 一种电子病历文本结构化方法 |
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
CN107578798A (zh) * | 2017-10-26 | 2018-01-12 | 北京康夫子科技有限公司 | 电子病历的处理方法及*** |
CN113420562A (zh) * | 2021-05-10 | 2021-09-21 | 河南大学 | 医疗文本中抽取疾病及其对应的化验指标实体词的方法及***及装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887562B (zh) * | 2019-02-20 | 2021-10-29 | 广州天鹏计算机科技有限公司 | 电子病历的相似度确定方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393545A (zh) * | 2008-11-06 | 2009-03-25 | 新百丽鞋业(深圳)有限公司 | 一种利用关联模型实现自动摘要的方法 |
CN103792474A (zh) * | 2012-11-02 | 2014-05-14 | 全亿大科技(佛山)有限公司 | 发光二极管检测量具 |
CN104182535A (zh) * | 2014-08-29 | 2014-12-03 | 苏州大学 | 一种人物关系抽取方法和装置 |
US20150046190A1 (en) * | 2013-08-12 | 2015-02-12 | Ironwood Medical Information Technologies, LLC | Medical data system and method |
-
2015
- 2015-07-21 CN CN201510429975.0A patent/CN105159917B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393545A (zh) * | 2008-11-06 | 2009-03-25 | 新百丽鞋业(深圳)有限公司 | 一种利用关联模型实现自动摘要的方法 |
CN103792474A (zh) * | 2012-11-02 | 2014-05-14 | 全亿大科技(佛山)有限公司 | 发光二极管检测量具 |
US20150046190A1 (en) * | 2013-08-12 | 2015-02-12 | Ironwood Medical Information Technologies, LLC | Medical data system and method |
CN104182535A (zh) * | 2014-08-29 | 2014-12-03 | 苏州大学 | 一种人物关系抽取方法和装置 |
Non-Patent Citations (3)
Title |
---|
孔晓风 等: "基于自然语言处理技术的消化科内窥镜检查报告的结构化", 《中国医疗器械杂志》 * |
梁帅: "病历文本数据的结构化处理***研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
邵堃 等: "基于模式匹配的结构化信息抽取", 《模式识别与人工智能》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678107A (zh) * | 2016-04-15 | 2016-06-15 | 江苏曼荼罗软件股份有限公司 | 一种电子病历后结构化知识发现方法和装置 |
CN106095913A (zh) * | 2016-06-08 | 2016-11-09 | 广州同构医疗科技有限公司 | 一种电子病历文本结构化方法 |
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
CN107578798A (zh) * | 2017-10-26 | 2018-01-12 | 北京康夫子科技有限公司 | 电子病历的处理方法及*** |
CN107578798B (zh) * | 2017-10-26 | 2022-06-17 | 北京康夫子健康技术有限公司 | 电子病历的处理方法及*** |
CN113420562A (zh) * | 2021-05-10 | 2021-09-21 | 河南大学 | 医疗文本中抽取疾病及其对应的化验指标实体词的方法及***及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105159917B (zh) | 2018-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与*** | |
CN105159917A (zh) | 一种电子病历的非结构化信息转化为结构化的泛化方法 | |
CN111090736B (zh) | 问答模型的训练方法、问答方法、装置及计算机存储介质 | |
CN107463553A (zh) | 针对初等数学题目的文本语义抽取、表示与建模方法和*** | |
CN106844346A (zh) | 基于深度学习模型Word2Vec的短文本语义相似性判别方法和*** | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN109918672B (zh) | 一种基于树结构的甲状腺超声报告的结构化处理方法 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN107832458A (zh) | 一种字符级的基于嵌套深度网络的文本分类方法 | |
CN107357785A (zh) | 主题特征词抽取方法及***、情感极性判断方法及*** | |
CN111914555B (zh) | 基于Transformer结构的自动化关系抽取*** | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN105446955A (zh) | 一种自适应的分词方法 | |
CN112347761B (zh) | 基于bert的药物关系抽取方法 | |
CN106980620A (zh) | 一种对中文字串进行匹配的方法及装置 | |
CN105512110A (zh) | 一种基于模糊匹配与统计的错字词知识库构建方法 | |
CN110705272A (zh) | 一种面向汽车发动机故障诊断的命名实体识别方法 | |
CN110826298A (zh) | 一种智能辅助定密***中使用的语句编码方法 | |
CN107832307B (zh) | 基于无向图与单层神经网络的中文分词方法 | |
CN107463624B (zh) | 一种基于社交媒体数据进行城市兴趣域识别的方法及*** | |
CN114782965A (zh) | 基于布局关联性的视觉富文档信息抽取方法、***及介质 | |
CN103177125B (zh) | 一种快速的短文本双聚类方法 | |
CN107622047B (zh) | 一种设计决策知识的提取和表达方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180803 Termination date: 20210721 |
|
CF01 | Termination of patent right due to non-payment of annual fee |