CN104268144B - 一种电子病历查询语句的构造方法 - Google Patents
一种电子病历查询语句的构造方法 Download PDFInfo
- Publication number
- CN104268144B CN104268144B CN201410394537.0A CN201410394537A CN104268144B CN 104268144 B CN104268144 B CN 104268144B CN 201410394537 A CN201410394537 A CN 201410394537A CN 104268144 B CN104268144 B CN 104268144B
- Authority
- CN
- China
- Prior art keywords
- mrow
- medical terminology
- query statement
- word
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000000463 material Substances 0.000 claims abstract description 13
- 238000010276 construction Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 201000010099 disease Diseases 0.000 claims description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 6
- 230000009849 deactivation Effects 0.000 claims 1
- 238000009499 grossing Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract 1
- 206010060862 Prostate cancer Diseases 0.000 description 6
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 6
- 238000002432 robotic surgery Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000003814 drug Substances 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G06Q50/24—
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种电子病历查询语句的构造方法,该方法包括电子病历语料预处理,医学术语抽取及筛选,医学术语权重计算,新查询语句构造四步骤;其中:电子病历语料预处理包括分词、词频统计、概率分布参数计算;医学术语抽取及筛选包括分词、医学术语抽取及去掉医学停用词;医学术语权重计算包括泊松分布拟合词分布、医学术语出现概率计算及医学术语自信息计算;新查询构造是将得到的带权重医学术语与原始查询语句,通过线性平滑参数结合,得到新查询语句。本发明应用到一个新的病历集合上,就可以在该病历集合上进行更加有效的查询,提高了电子病历检索的准确度。
Description
技术领域
本发明涉及信息检索、查询扩展、查询词加权、自然语言处理等技术领域,具体地说是一种利用自信息来度量查询词权重,根据输入的原始查询语句,重新构造带权重的查询语句的方法,用来提高电子病历检索的准确率和召回率。
背景技术
随着医疗***的信息化,电子病历(electronic medical records, 简称EMR)被广泛使用,正在以前所未有的速度增长。病历一般包括病人的临床诊断,以往病史,检查报告,治疗药物等丰富的信息。把这些信息检索出来,进行统计分析,有利于临床医学研究,可以更好地诊断、预防和治疗人类的疾病。显然,使用人工的方法处理这些信息是一件不可能的任务。因此,电子病历检索给信息检索带来了新的挑战。
电子病历的检索,更多的是涉及这样的查询:查询的目标是一个病人群体,附带的查询条件是,这些病人患有的病,使用过的药物,进行过的检查,目前的康复情况等等。病名,治疗药物,检查项目等,都是专门的医学术语。针对这样的查询语句,有必要提出一种新的查询词权重设置方法。
发明内容
本发明的目的是针对现有技术的不足而提供的一种电子病历查询语句的构造方法,该方法利用医学术语抽取方法得到查询语句中的医学术语;随后通过分析整个电子病历集合中这些医学术语的概率分布来得到医学术语的自信息;最后加入平滑参数构造了新的带权重的查询语句。
本发明的目的是这样实现的:
一种电子病历查询语句的构造方法,该方法包括以下具体步骤:
a)、电子病历语料预处理
对电子病历语料文本进行分词,去掉停用词之后,得到所有语料中出现的词;利用公式(1)计算每个词t在每篇病历中的平均出现次数;
(1)
其中,表示词t的平均出现次数,n表示电子病历语料集合的大小,表示词t在第i篇病历中出现的次数;通过计算得到每个词t对应的;
b)、医学术语抽取及筛选
首先,抽取原始查询语句中出现的医学术语;再在抽取出的医学术语中去掉医学停用词,剩下的医学术语的集合记为,其中表示第i个医学术语,每个医学术语有可能由多个词组成;
c)、医学术语权重计算
计算每个医学术语 的权重 ,具体包括:
ⅰ)、计算组成医学术语的词的出现概率;使用泊松分布来拟合词t的概率分布;那么使用公式(2)来计算;
(2)
其中,T表示词t的出现次数,表示词t的平均出现次数,e表示自然常数;
ⅱ)、计算医学术语在电子病历语料中出现的概率;医学术语中每个词的出现是相互独立事件,使用公式(3)计算;
(3)
ⅲ)、计算每个医学术语 的权重 ,使用自信息的定义,即公式(4)计算;
(4)
d)、新查询语句构造
使用原始查询语句、以及对应的构造新的查询语句,具体包括:
ⅰ)、对于原始查询语句,组成原始查询语句的词之间的权重平均分配,得到查询子句1;
ⅱ)、对于医学术语内部,医学术语中每个词的权重平均分配;
ⅲ)、对于医学术语之间,每个医学术语分配到的权重是,得到查询子句2;
ⅳ)、将查询子句1和查询子句2,按照的比例分配权重,得到新查询语句,其中的取值范围是[0, 1]。
本发明提供了一种电子病历查询语句的构造方法,使用医学术语的自信息来度量医学术语的权重,分析了医学术语在整个病历集合中的分布情况,是一种从全局考虑的方法,只要病历集合确定,很容易得到医学术语的分布情况。
本发明应用到一个新的病历集合上,只要先预处理计算出医学术语的分布情况,之后每个查询语句,通过本发明的方法重新构造之后,就可以在该病历集合上进行更加有效的查询,提高了电子病历检索的准确度。
附图说明
图1为本发明流程图;
图2为本发明构造的查询语句实例图;
图3为本发明与原始查询方法查询结果对比图;
图4为本发明查询语句的形式化表达示意图。
具体实施方式
本发明针对电子病历检索时,通过原始查询语句,自动构造新的查询语句,相较原始查询语句的查询效果得到明显提升。
实施例
下面以文本检索会议(Text Retrieval Conference, 简称TREC)的电子病历数据集自带的测试查询语句为例结合附图对本发明作进一步说明。
参阅图1,首先是图1中右侧的电子病历语料的预处理。
在本实施例中,对于每一篇病历,进行以下这些步骤:分词,去掉停用词,统计每个词出现次数。处理完之后,可以得到一个三元组(t, d, k)的集合,该三元组表示词t在病历d中出现的次数为k。根据公式(1)可以计算得到每个词t对应的平均出现次数:
(1)
参阅图1,其次是图1左侧是整个查询语句构造过程。
在本实施例中,对输入的查询语句进行医学术语提取,并且去掉医学停用词。比如:查询语句是“被诊断出患有局限性***癌并且接受过机器人手术治疗的病人”,提取出的医学术语包括“病人”,“诊断”,“治疗”,“局限性***癌”和“机器人手术”,其中“病人”,“诊断”和“治疗”是医学停用词,应该去掉,剩下的医学术语是“局限性***癌”和“机器人手术”。
接下来是计算每个医学术语的权重,本实施例中根据以下三个公式计算;
(2)
(3)
(4)
其中,公式(2)中T表示词t出现的次数,T服从泊松分布,e表示自然常数,由公式(1)计算得到。公式(3)中,t表示组成第i个医学术语的词语。在本实施例中,输入查询语句“被诊断出患有局限性***癌并且接受过机器人手术治疗的病人”,得到医学术语是“局限性***癌”,由“局限性”,“***”和“癌”组成,对应的分别是0.0447、0.0482、0.1280(保留4位小数);医学术语是“机器人手术”由“机器人”和“手术”组成,对应的分别是0.0006、0.2641(保留4位小数);那么根据公式(2)(3)(4)计算权重(保留2位小数):
最后是新查询语句的构造,将原始的查询语句和加权的医学术语进行线性平滑,得到新查询语句的形式化表达如图4所示。其中,#weight和#equal都是形式化的查询语法,#weight表示加权重的查询,#equal是特殊的#weight,表示权重平均分配;是一个线性平滑参数,取值范围是[0, 1]。在本实施例中,取值为0.6。比如,查询语句“被诊断出患有局限性***癌并且接受过机器人手术治疗的病人”,最后得到的查询语句的形式化表达如图2所示。
利用本发明结合数据集的测试数据,按照原始查询和重构的新查询的检索结果进行对比实验。实验一共包含35组查询语句。图3显示的是实验结果的准确率-召回率折线图,虚折线B代表原始查询语句的结果,实折线A代表新查询语句的结果,可以看到A完全在B的右上方,说明新查询语句的查询效果完全好于原始查询语句的查询效果。实验结果表明经过本发明重新构造的查询语句,能够提高查询的准确率和召回率。
Claims (1)
1.一种电子病历查询语句的构造方法,其特征在于该方法包括以下具体步骤:
a)、电子病历语料预处理
对电子病历语料文本进行分词,去掉停用词之后,得到语料中出现的所有词;利用公式(1)计算每个词t在每篇病历中的平均出现次数;
<mrow>
<mi>&lambda;</mi>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>k</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,λ表示词t的平均出现次数,n表示电子病历语料集合的大小,ki表示词t在第i篇病历中出现的次数;通过计算得到每个词t对应的λ;
b)、医学术语抽取及筛选
首先,抽取原始查询语句中出现的医学术语;再在抽取出的医学术语中去掉医学停用词,剩下的医学术语的集合记为QUMLS={Q1,Q2,...,Qn},其中Qi表示第i个医学术语,每个医学术语有可能由多个词组成;
c)、医学术语权重计算
计算每个医学术语Qi的权重wi,具体包括:
i)、计算组成医学术语的词的出现概率p(t);使用泊松分布来拟合词t的概率分布;那么p(t)使用公式(2)来计算;
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>T</mi>
<mo>&GreaterEqual;</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>T</mi>
<mo>=</mo>
<mn>0</mn>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>&lambda;</mi>
</mrow>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,T表示词t的出现次数,λ表示词t的平均出现次数,e表示自然常数;
ii)、计算医学术语Qi在电子病历语料中出现的概率p(Qi);医学术语Qi中每个词的出现是相互独立事件,p(Qi)使用公式(3)计算;
iii)、计算每个医学术语Qi的权重wi,使用自信息的定义,即公式(4)计算;
<mrow>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mo>-</mo>
<mi>ln</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>Q</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
d)、新查询语句构造
使用原始查询语句、Q1,Q2,...,Qn以及对应的w1,w2,...,wn构造新的查询语句,具体包括:
i)、对于原始查询语句,组成原始查询语句的词之间的权重平均分配,得到查询子句1;
ii)、对于医学术语Qi内部,医学术语Qi中每个词的权重平均分配;
iii)、对于医学术语Qi之间,每个医学术语Qi分配到的权重是得到查询子句2;
iv)、将查询子句1和查询子句2,按照μ∶(1-μ)的比例分配权重,得到新查询语句,其中μ的取值范围是[0,1]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410394537.0A CN104268144B (zh) | 2014-08-12 | 2014-08-12 | 一种电子病历查询语句的构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410394537.0A CN104268144B (zh) | 2014-08-12 | 2014-08-12 | 一种电子病历查询语句的构造方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104268144A CN104268144A (zh) | 2015-01-07 |
CN104268144B true CN104268144B (zh) | 2017-08-29 |
Family
ID=52159666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410394537.0A Expired - Fee Related CN104268144B (zh) | 2014-08-12 | 2014-08-12 | 一种电子病历查询语句的构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104268144B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893597B (zh) * | 2016-04-20 | 2022-05-31 | 上海家好科技有限公司 | 一种相似病历检索方法及*** |
CN105956362B (zh) * | 2016-04-20 | 2018-12-18 | 上海爱楷医疗科技有限公司 | 一种可信的病历结构化方法及*** |
CN109840275B (zh) * | 2019-01-31 | 2021-08-17 | 北京嘉和海森健康科技有限公司 | 一种医疗搜索语句的处理方法、装置和设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100583101C (zh) * | 2008-06-12 | 2010-01-20 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
US9460232B2 (en) * | 2010-04-07 | 2016-10-04 | Oracle International Corporation | Searching document object model elements by attribute order priority |
CN102073692B (zh) * | 2010-12-16 | 2016-04-27 | 北京农业信息技术研究中心 | 基于农业领域本体库的语义检索***和方法 |
CN103823857B (zh) * | 2014-02-21 | 2017-02-01 | 浙江大学 | 基于自然语言处理的空间信息检索方法 |
CN103927358B (zh) * | 2014-04-15 | 2017-02-15 | 清华大学 | 文本检索方法及*** |
-
2014
- 2014-08-12 CN CN201410394537.0A patent/CN104268144B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN104268144A (zh) | 2015-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108614885B (zh) | 基于医学信息的知识图谱分析方法及装置 | |
CN107887024A (zh) | 基于中医机器人的智能诊断***及中医机器人 | |
CN109686441A (zh) | 一种大数据医疗数据特征提取和智能分析预测方法 | |
CN108154934A (zh) | 基于智能中医机器人的数据库*** | |
CN107833629A (zh) | 基于深度学习的辅助诊断方法及*** | |
Muslim et al. | Expert system diagnosis chronic kidney disease based on mamdani fuzzy inference system | |
CN103116707A (zh) | 一种基于案例推理的心脏病智能诊断方法 | |
CN106803012A (zh) | 基于概率主题模型和中药基本属性的方剂功能预测方法 | |
CN109805898A (zh) | 基于注意力机制时序卷积网络算法的危重症死亡预测方法 | |
Craven et al. | Efficient argumentation for medical decision-making | |
CN104268144B (zh) | 一种电子病历查询语句的构造方法 | |
CN108647484B (zh) | 一种基于多元信息集成和最小二乘法的药物关系预测方法 | |
CN105550526B (zh) | 一种基于中药属性的中医方剂功效定量方法及*** | |
Mahdi et al. | Comparison of fuzzy diagnosis with K-nearest neighbor and Naïve Bayes classifiers in disease diagnosis | |
Chauhan et al. | Framework to predict health diseases using attribute selection mechanism | |
CN106570325A (zh) | 一种基于偏最小二乘法的乳腺细胞异常检测方法 | |
CN113539412A (zh) | 基于深度学习的中草药推荐*** | |
US20100121618A1 (en) | Subject modelling | |
CN110619960A (zh) | 一种基于监督学习框架的中药配伍禁忌预测方法 | |
CN112233804B (zh) | 一种经方智能推荐方法及应用该方法的设备 | |
Permanasari et al. | A web-based decision support system of patient time prediction using iterative dichotomiser 3 algorithm | |
Ieva et al. | Process indicators for assessing quality of hospital care: a case study on stemi patients | |
CN113517044A (zh) | 基于药代学评价胞二磷胆碱的临床数据处理方法及*** | |
Xiong et al. | Dose-effect relationship analysis of TCM based on deep Boltzmann machine and partial least squares | |
Ordouei et al. | Identification of hepatitis disease by combining decision tree algorithm and Harris Hawks Optimization (HHO) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170829 |