CN109829156A - 医学文本识别方法及装置 - Google Patents
医学文本识别方法及装置 Download PDFInfo
- Publication number
- CN109829156A CN109829156A CN201910049925.8A CN201910049925A CN109829156A CN 109829156 A CN109829156 A CN 109829156A CN 201910049925 A CN201910049925 A CN 201910049925A CN 109829156 A CN109829156 A CN 109829156A
- Authority
- CN
- China
- Prior art keywords
- word
- feature
- vector
- sentence
- word feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003814 drug Substances 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 37
- 229940079593 drug Drugs 0.000 title abstract description 5
- 238000012549 training Methods 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims description 213
- 239000011159 matrix material Substances 0.000 claims description 17
- 239000000203 mixture Substances 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 208000002193 Pain Diseases 0.000 description 19
- 210000001015 abdomen Anatomy 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 210000002784 stomach Anatomy 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000004998 Abdominal Pain Diseases 0.000 description 2
- 208000008035 Back Pain Diseases 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000036528 appetite Effects 0.000 description 1
- 235000019789 appetite Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008058 pain sensation Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000000825 pharmaceutical preparation Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了医学文本识别方法及装置,涉及医疗领域。本申请提供的医学文本识别方法,采用先从医疗文本的待识别语句中提取的特征字和特征词;而后,根据特征字确定第一字特征,并根据特征词确定第一词特征;最后,将第一字特征和第一词特征同时输入到预先训练完成的识别模型中,以确定待识别语句中指定文字或词语的医学标签。这种确定医学标签的方式,综合的使用了字特征和词特征来表征待识别语句的特点,使得识别模型可以更加准确的了解待识别语句的特点,从而提高了确定医学标签的精度。
Description
技术领域
本申请涉及医疗领域,具体而言,涉及医学文本识别方法及装置。
背景技术
通过对已有的医疗数据进行分析和研究,能够对医疗技术的提高起到正面帮助。近年来,随着电子信息技术的快速发展,医疗领域所产生的电子医疗数据的数据量越来越大,从电子医疗数据中提取有效信息的难度也随之增加,进而,人们开始探讨和学习如何利用文字识别技术来提高医疗行业的改进效率。
发明内容
本申请的目的在于提供一种医学文本识别方法和装置。
第一方面,本申请实施例提供了一种医学文本识别方法,包括:
从医疗文本的待识别语句中提取的特征字和特征词;
根据特征字确定第一字特征;
根据特征词确定第一词特征;
将第一字特征和第一词特征同时输入到预先训练完成的识别模型中,以确定待识别语句中指定文字或词语的医学标签。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,步骤根据特征字确定第一字特征包括:
获取特征字所对应的至少两种第一字特征向量;第一字特征向量包括:字标识向量、字位置向量和字的医疗领域向量;
将至少两种第一字特征向量组成表示第一字特征的第一字特征向量矩阵。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,步骤根据特征词确定第一词特征包括:
获取特征词所对应的至少两种第一词特征向量;第一词特征向量包括:词标识向量、词位置向量和词的医疗领域向量;
将至少两种第一词特征向量组成标识第一词特征的第一词特征向量矩阵。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,步骤从医疗文本的待识别语句中提取的特征字和特征词包括:
使用语义识别模型,对待识别语句进行语义识别,以确定待识别语句中的特征词。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述识别模型是按照如下方式训练得到的:
获取训练语句的训练特征,所述训练特征是由训练语句中训练字的第二字特征和训练词的第二词特征组成的;
将训练特征和训练语句中指定文字的医学标签输入到未训练完成的识别模型中,以对所述识别模型进行训练。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,
第二字特征是由至少两种第二字特征向量组成;
第二词特征是由至少两种第二词特征向量组成;
第二字特征向量包括以下的一种或多种向量:字标识向量、字位置向量和字的医疗领域向量;
第二词特征向量包括以下的一种或多种向量:词标识向量、词位置向量和词的医疗领域向量。
第二方面,本申请实施例还提供了一种医学文本识别装置,包括:
提取模块,用于从医疗文本的待识别语句中提取的特征字和特征词;
第一确定模块,用于根据特征字确定第一字特征;
第二确定模块,用于根据特征词确定第一词特征;
输入模块,用于将第一字特征和第一词特征同时输入到预先训练完成的识别模型中,以确定待识别语句中指定文字或词语的医学标签。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,第一确定模块包括:
第一获取单元,用于获取特征字所对应的至少两种第一字特征向量;第一字特征向量包括:字标识向量、字位置向量和字的医疗领域向量;
第一组合单元,用于将至少两种第一字特征向量组成表示第一字特征的第一字特征向量矩阵。
第二确定模块包括:
第二获取单元,用于获取特征词所对应的至少两种第一词特征向量;第一词特征向量包括:词标识向量、词位置向量和词的医疗领域向量;
第二组合单元,用于将至少两种第一词特征向量组成标识第一词特征的第一词特征向量矩阵。
第三方面,本申请实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行第一方面任一所述方法。
第四方面,本申请实施例还提供了一种计算设备包括:处理器、存储器和总线,存储器存储有执行指令,当计算设备运行时,处理器与存储器之间通过总线通信,处理器执行存储器中存储的如第一方面任一所述方法。
本申请实施例提供的医学文本识别方法,采用先从医疗文本的待识别语句中提取的特征字和特征词;而后,根据特征字确定第一字特征,并根据特征词确定第一词特征;最后,将第一字特征和第一词特征同时输入到预先训练完成的识别模型中,以确定待识别语句中指定文字或词语的医学标签。这种确定医学标签的方式,综合的使用了字特征和词特征来表征待识别语句的特点,使得识别模型可以更加准确的了解待识别语句的特点,从而提高了确定医学标签的精度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的医学文本识别方法的基本流程图;
图2示出了本申请实施例所提供的医学文本识别方法的优化流程图;
图3示出了本申请实施例所提供的医学文本识别装置的基本模块图;
图4示出了本申请实施例所提供的计算设备的示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
医学的进步离不开对现有医疗文本的分析,但当医疗文本大量增加后,采用人工对医疗文本进行分析的方式显然已经无法满足需求了。进而,相关技术中出现了采用语义识别技术对文本进行自动分析的语义识别模型,此处,使用语义识别模型对医疗文本进行分析的方式可以理解为是对特征(特征字或特征词)的提取和识别。
但本申请发明人在进行试用后,发现现有的予以识别模型难以对医学文本进行有效的识别。这主要是由于记录医疗文本的文字通常不是规范性文字,或者说医生在记录医疗文本的时候,有很大的随意性,正是这随意性导致医疗文本中可能出现大量的“错误”,或者说可能出现大量的非规范表达。医疗文本中常见的几个非规范表达的情况如下:
1,存在单字简写的情况,比如:“胸背痛”,“胃纳佳”;实际上胸背痛指的是胸和背都有疼痛感觉;胃纳佳指的是食欲还好。
2)存在错别字的情况,比如,药品方面的医疗文本中会出现“双眼等园”,实际上指的是双眼等圆;
3)存在文本信息共用的情况,比如:“胃部胸部背部疼痛”;实际上指的是胃部、胸部和背部均疼痛。
4)存在倒装描述的情况,比如“咳嗽无发热有”。实际上指的是不咳嗽,且有发热情况。
正是由于医疗文本存在这种非规范的书写情况,直接导致了传统的语义分析模型无法准确的对医疗文本进行分析。针对该种情况,本申请提供了一种医学文本识别方法,如图1所示,包括:
S101,从医疗文本的待识别语句中提取的特征字和特征词;
S102,根据特征字确定第一字特征;
S103,根据特征词确定第一词特征;
S104,将第一字特征和第一词特征同时输入到预先训练完成的识别模型中,以确定待识别语句中指定文字的医学标签。
上述步骤S102和步骤S103并无绝对的执行先后顺序,在具体实现时,在提取到特征字后就可以执行步骤S102,在提取到特征词后就可以执行步骤S103。并且,在确定了第一字特征和第一词特征后就可以执行步骤S104。
其中,医疗文本通常是医生在临床医疗过程中进行人工记录所形成的文本,待识别语句则是医疗文本中的一句话。
特征字指的是待识别语句中具有一定识别度的字,或者是说具有某种指定医学含义的字。确定特征字的方式通常有两种分别是:第一种,将待识别语句中的每个字都作为特征字;第二种,通过对大量的现有医疗文本进行数据统计,得到识别样本,并使用识别样本对待识别语句进行识别,以确定特征字或特征词。其中,识别样本中可以携带有医生常用的、使用频率较高字,或者是医生标注的具有一定识别度的字;识别样本中还可以携带有医疗文本中不会出现的字。
如果识别样本中携带的是医生常用的、使用频率较高字,或者是医生标注的具有一定识别度的字,则步骤S101中,医疗文本中出现的任何与识别样本中的内容相同的文字都可以作为特征字,或者是医疗文本中出现的任何与识别样本中的内容相同的词语都可以作为特征词。
类似的,如果识别样本中携带的是医疗文本中不会出现的字,则医疗文本中出现的任何与识别样本中的内容相同的文字都不可以作为特征字(或者是说将未出现在识别样本中的字作为特征字)。
与确定特征字的方式有区别的是,通常情况下,特征词都只能采用现有的语义分析软件/模型来从待识别语句中提取,这主要是考虑到,如果是将任意两个或三个字组成的词语都作为特征词的话,则会大大增加噪音,从而降低了模型的分析质量。
在确定了特征字和特征词之后,步骤S102中,就需要提取特征字的第一字特征了,第一字特征是能够反映指定文字(某个文字)特点的特征,具体而言,通常是采用特征向量的方式来表征第一字特征,也就是,可以使用特征向量的形式来表示第一字特征,即使用第一字特征向量来表示第一字特征。
具体的,第一字特征向量的种类至少有如下几种:
字标识向量、字位置向量和字的医疗领域向量。
其中,字标识向量指的是用于区分不同文字的向量,也就是,不同的文字的字标识向量应当是不同的,相同的字(不论在哪个待识别语句中的字)的字标识向量都应当是相同的。字标识向量可以是使用模型进行识别出的,字标识向量的主要作用是区分不同的字,进而,只要是能够区分不同字的向量都可以认为是字标识向量。
字位置向量反映的是字所在待识别语句中的位置,具体而言,可以是指指定的文字在待识别语句中的第几位。如待识别语句“无腹部疼痛”中,“部”的位置就是第三位(从左向右数),“疼”位置就是第四位(从左向右数)。除了从左向右数之外,当然也可以采用其他的标识位置的方式,此处,字位置向量主要是为了描述指定的文字在待识别语句中的位置,具体是哪种计算位置的方式,或者是表述位置的方式,本申请中并不做要求。之所以加入位置向量,主要是考虑到cnn模型(即Convolutional Neural Network,卷积神经网络,该cnn模型是预先训练完成的识别模型的一部分)的max pooling层在某种程度上会屏蔽位置信息,导致位置信息丢失。
字的医疗领域向量,指的是指定的文字所归属的医疗领域的类型,或者就是医疗领域。可以预见的是,在不同的医疗领域中,相同的字也可能会表达不同的含义,因此,有必要通过医疗领域向量来使得待识别语句能够更加准确的被识别和表达。通常情况下,字的医疗领域向量也就是待识别语句的医疗领域向量,这是在确定待识别语句时就可以确定的。该医疗领域向量主要是根据指定的字和其他字、词之间的修饰关系(如胸后面是否有疼痛等修饰词),还有字频(指定的字在句子中出现的频率)确定的。
在具体实现的时候,可以使用一种第一字特征向量来组成第一字特征的第一字特征向量矩阵,也可以使用至少两种第一字特征向量来组成第一字特征的第一字特征向量矩阵。具体实现的时候,为了保证识别的准确度,应当使用至少两种第一字特征向量组成表示第一字特征的第一字特征向量矩阵。
比如,组成表示第一字特征的第一字特征向量矩阵可以是由字标识向量和字位置向量组成的,也可以是由字位置向量和字的医疗领域向量组成的,也可以是由字标识向量和字的医疗领域向量组成的,还可以是由字标识向量、字位置向量和字的医疗领域向量组成的。
也就是,如图2所示,本申请所提供的方法中,步骤S102可以按照如下方式实现:
S1021,获取特征字所对应的至少两种第一字特征向量;第一字特征向量包括:字标识向量、字位置向量和字的医疗领域向量;
S1022,将至少两种第一字特征向量组成表示第一字特征的第一字特征向量矩阵。
类似的,步骤S103中,第一词特征是能够反映指定词语(某个词、短语)特点的特征,具体而言,通常也是采用特征向量的方式来表征第一词特征,也就是,可以使用特征向量的形式来表示第一词特征,即使用第一词特征向量来表示第一词特征。
第一词特征向量的种类通常包括如下几种:词标识向量、词位置向量和词的医疗领域向量;
其中,词标识向量指的是用于区分不同词语的向量,也就是,不同的词语的词标识向量应当是不同的,相同的词(不论在哪个待识别语句中的词)的词标识向量都应当是相同的。
词位置向量反映的是词所在待识别语句中的位置,具体而言,可以是指指定的词语在待识别语句中的第几位。此处,词位置向量主要是为了描述指定的词语在待识别语句中的位置,具体是哪种计算位置的方式,或者是表述位置的方式,本申请中并不做要求。之所以加入词位置向量,主要是考虑到cnn模型(即Convolutional Neural Network,卷积神经网络,该cnn模型是预先训练完成的识别模型的一部分)的max pooling层在某种程度上会屏蔽位置信息,导致位置信息丢失。
词的医疗领域向量,指的是指定的词语所归属的医疗领域的类型,或者就是医疗领域。可以预见的是,在不同的医疗领域中,相同的词也可能会表达不同的含义,因此,有必要通过医疗领域向量来使得待识别语句能够更加准确的被识别和表达。通常情况下,词的医疗领域向量也就是待识别语句的医疗领域向量,这是在确定待识别语句时就可以确定的。该医疗领域向量主要是根据指定的词和其他字、词之间的修饰关系(如胸后面是否有疼痛等修饰词),还有词频(指定的词在句子中出现的频率)确定的。
在具体实现的时候,可以使用一种第一词特征向量来组成第一词特征的第一词特征向量矩阵,也可以使用至少两种第一词特征向量来组成第一词特征的第一词特征向量矩阵。具体实现的时候,为了保证识别的准确度,应当使用至少两种第一词特征向量组成表示第一词特征的第一词特征向量矩阵。
比如,组成表示第一词特征的第一词特征向量矩阵可以是由词标识向量和词位置向量组成的,也可以是由词位置向量和词的医疗领域向量组成的,也可以是由词标识向量和词的医疗领域向量组成的,还可以是由词标识向量、词位置向量和词的医疗领域向量组成的。
也就是,步骤S103可以按照如下方式实现:
步骤1031,获取特征词所对应的至少两种第一词特征向量;第一词特征向量包括:词标识向量、词位置向量和词的医疗领域向量;
步骤1032,将至少两种第一词特征向量组成标识第一词特征的第一词特征向量矩阵。
经过发明人的测试,认为使用字位置向量和词位置向量的作用是相似的,或者说,在其他条件不变的情况下,向预先训练完成的识别模型中输入以下三种情况的位置向量,不会导致识别模型的输出结果有偏差(识别结果的准确度是基本相同的):
第一种情况,第一字特征中有字位置向量,第一词特征中没有词位置向量的情况;
第二种情况,第一字特征中没有字位置向量,第一词特征中有词位置向量的情况;
第三种情况,第一字特征中有字位置向量,第一词特征中有词位置向量的情况。
进而,在提取第一字特征或提取第一词特征的时候,字位置向量和词位置向量中,只提取一个即可,以提高整体的计算效率。
在确定了第一字特征和第一词特征之后,就可以将第一字特征和所述第一词特征同时输入到预先训练完成的识别模型中,以确定待识别语句中指定文字的医学标签了。
其中,指定文字的医学标签指的是某个文字在医学领域中的类型,比如,某个文字的类型可以是XX部位。
具体如医疗文本“腹部背部疼痛”中,腹的医疗标签为部位标签;部的医疗标签为部位标签;疼的医疗标签为临床表现标签;痛的医疗标签为临床表现标签。具体的,医学标签包括以下种类的标签:部位(如前文中的腹和部均是部位标签)、症状、诊断、检查项、数值、单位、方位、观察对象等。
在对识别模型进行训练的时候,首先要获取训练语句的训练特征,此处的是由训练语句中训练字的第二字特征和训练词的第二词特征组成的。其中,第二字特征的确定方式与第一字特征的确定方式是相同的,第二词特征的确定方式与第一词特征的确定方式是相同的。此处,不再对第二字特征和第二词特征的获取方式进行过多说明。此处的训练语句与待识别语句相同,均是指医疗文本中的某一句话。
训练过程中,输入到未训练完成的识别模型中的除了训练特征以外,还有训练语句中指定文字的医学标签,实际上,该医学标签就是别模型在识别时真正输出的结果。在模型未训练完成的时候,只能是由人工来标注训练语句中指定文字的医学标签,并将标注的结果和训练特征同时输入到未训练完成的识别模型中,以使识别模型学习标注结果和训练特征的对应关系。
当然,在训练完成之后,还可以从验证语句中提取验证特征,并采用人工标注的形式标注出验证语句的标准结果(标准结果携带有验证语句中指定文字的医学标签);并使用验证特征对识别模型的准确度进行识别(判断识别模型对验证特征的识别结果与标准结果是否相同),以确定是否可以完成训练。
下面以一个具体的实例来说明本申请所提供的医学文本识别方法。
步骤1,获取医疗文本中的待识别语句,该待识别语句为“无腹部疼痛”;
步骤2,提取待识别语句中,每个字的第一字特征,第一字特征包括字标识向量、字位置向量和字的医疗领域向量;
步骤3,提取待识别语句中,每个词的第一词特征,第一词特征包括词标识向量、词位置向量和词的医疗领域向量;
步骤4,将第一字特征和第一词特征组合成文本特征;
步骤5,将文本特征输入到识别模型中,以确定待识别语句中每个文字的医学标签。
其中,字标识向量为:
无:[0.1,0.2,0.3]
腹:[0.4,0.5,0.6]
部:[0.5,0.3,0.2]
疼:[0.6,0.2,0.1]
痛:[0.9,0.1,0.2];
词标识向量为:
无:[[0.3,0.2,0.1]]
腹部:[[0.5,0.4,0.3],[0.6,0.5,0.4]]
疼痛:[[0.8,0.3,0.2],[0.9,0.8,0.7]]
字位置向量为:
无:[0,1]
腹:[1,2]
部:[2,3]
疼:[3,4]
痛:[4,5]
词位置向量为:
无:[0,1]
腹部:[1,3]
疼痛:[3,5]
字的医疗领域向量为:
无:[[-0.3]]
腹:[-[0.5]]
部:[[-0.6]]
疼:[-[0.8]]
痛:[[-0.9]]
词的医疗领域向量为:
无:[[0.3]]
腹部:[[0.5],[0.6]]
疼痛:[[0.8],[0.9]]
文本特征可以为(由字特征向量、词特征向量、字领域向量和字领域向量组成):
无:[0.1,0.2,0.3,0.3,0.2,0.1,-0.3,0.3]
腹:[0.4,0.5,0.6,0.5,0.4,0.3,-0.5,0.5]
部:[0.5,0.3,0.2,0.6,0.5,0.4,-0.6 0.6]
疼:[0.6,0.2,0.1,0.8,0.3,0.2,0.8,0.8]
痛:[0.9,0.1,0.2,0.9,0.8,0.7,-0.9,0.9];
当然,还可以将字位置向量和此位置向量加入到文本特征中。
待识别语句中每个文字的医学标签如下:
腹的医学标签为部位标签;
部的医学标签为部位标签;
疼的医学标签为临床表现标签;
痛的医学标签为临床表现标签。
与上述的医学文本识别方法相对应的,本申请还提供了一种医学文本识别装置,如图3所示,包括:
提取模块301,用于从医疗文本的待识别语句中提取的特征字和特征词;
第一确定模块302,用于根据特征字确定第一字特征;
第二确定模块303,用于根据特征词确定第一词特征;
第一输入模块304,用于将第一字特征和第一词特征同时输入到预先训练完成的识别模型中,以确定待识别语句中指定文字或词语的医学标签。
优选的,第一确定模块302包括:
第一获取单元,用于获取特征字所对应的至少两种第一字特征向量;第一字特征向量包括:字标识向量、字位置向量和字的医疗领域向量;
第一组合单元,用于将至少两种第一字特征向量组成表示第一字特征的第一字特征向量矩阵。
第二确定模块303包括:
第二获取单元,用于获取特征词所对应的至少两种第一词特征向量;第一词特征向量包括:词标识向量、词位置向量和词的医疗领域向量;
第二组合单元,用于将至少两种第一词特征向量组成标识第一词特征的第一词特征向量矩阵。
优选的,提取模块301包括:
识别单元,用于使用语义识别模型,对待识别语句进行语义识别,以确定待识别语句中的特征词。
优选的,识别模型是使用如下模块训练得到的:
获取模块,用于获取训练语句的训练特征,所述训练特征是由训练语句中训练字的第二字特征和训练词的第二词特征组成的;
第二输入模块304,用于将训练特征和训练语句中指定文字的医学标签输入到未训练完成的识别模型中,以对所述识别模型进行训练。
优选的,第二字特征是由至少两种第二字特征向量组成;
第二词特征是由至少两种第二词特征向量组成;
第二字特征向量包括以下的一种或多种向量:字标识向量、字位置向量和字的医疗领域向量;
第二词特征向量包括以下的一种或多种向量:词标识向量、词位置向量和词的医疗领域向量。
与上述方法相对应的,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行医学文本识别方法。
如图4所示,为本申请实施例所提供的第一计算设备示意图,该第一计算设备1000包括:处理器1001、存储器1002和总线1003,存储器1002存储有执行指令,当第一计算设备运行时,处理器1001与存储器1002之间通过总线1003通信,处理器1001执行存储器1002中存储的如医学文本识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种医学文本识别方法,其特征在于,包括:
从医疗文本的待识别语句中提取的特征字和特征词;
根据所述特征字确定第一字特征;
根据所述特征词确定第一词特征;
将所述第一字特征和所述第一词特征同时输入到预先训练完成的识别模型中,以确定待识别语句中指定文字或词语的医学标签。
2.根据权利要求1所述的方法,其特征在于,步骤根据特征字确定第一字特征包括:
获取特征字所对应的至少两种第一字特征向量;第一字特征向量包括:字标识向量、字位置向量和字的医疗领域向量;
将至少两种第一字特征向量组成表示第一字特征的第一字特征向量矩阵。
3.根据权利要求1所述的方法,其特征在于,步骤根据特征词确定第一词特征包括:
获取特征词所对应的至少两种第一词特征向量;第一词特征向量包括:词标识向量、词位置向量和词的医疗领域向量;
将至少两种第一词特征向量组成标识第一词特征的第一词特征向量矩阵。
4.根据权利要求1所述的方法,其特征在于,步骤从医疗文本的待识别语句中提取的特征字和特征词包括:
使用语义识别模型,对待识别语句进行语义识别,以确定待识别语句中的特征词。
5.根据权利要求1所述的方法,其特征在于,所述识别模型是按照如下方式训练得到的:
获取训练语句的训练特征,所述训练特征是由训练语句中训练字的第二字特征和训练词的第二词特征组成的;
将训练特征和训练语句中指定文字的医学标签输入到未训练完成的识别模型中,以对所述识别模型进行训练。
6.根据权利要求5所述的方法,其特征在于,
第二字特征是由至少两种第二字特征向量组成;
第二词特征是由至少两种第二词特征向量组成;
第二字特征向量包括以下的一种或多种向量:字标识向量、字位置向量和字的医疗领域向量;
第二词特征向量包括以下的一种或多种向量:词标识向量、词位置向量和词的医疗领域向量。
7.一种医学文本识别装置,其特征在于,包括:
提取模块,用于从医疗文本的待识别语句中提取的特征字和特征词;
第一确定模块,用于根据特征字确定第一字特征;
第二确定模块,用于根据特征词确定第一词特征;
第一输入模块,用于将第一字特征和第一词特征同时输入到预先训练完成的识别模型中,以确定待识别语句中指定文字或词语的医学标签。
8.根据权利要求7所述的装置,其特征在于,第一确定模块包括:
第一获取单元,用于获取特征字所对应的至少两种第一字特征向量;第一字特征向量包括:字标识向量、字位置向量和字的医疗领域向量;
第一组合单元,用于将至少两种第一字特征向量组成表示第一字特征的第一字特征向量矩阵;
第二确定模块包括:
第二获取单元,用于获取特征词所对应的至少两种第一词特征向量;第一词特征向量包括:词标识向量、词位置向量和词的医疗领域向量;
第二组合单元,用于将至少两种第一词特征向量组成标识第一词特征的第一词特征向量矩阵。
9.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1-6任一所述方法。
10.一种计算设备,其特征在于,包括:处理器、存储器和总线,存储器存储有执行指令,当计算设备运行时,处理器与存储器之间通过总线通信,处理器执行存储器中存储的如权利要求1-6任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910049925.8A CN109829156B (zh) | 2019-01-18 | 2019-01-18 | 医学文本识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910049925.8A CN109829156B (zh) | 2019-01-18 | 2019-01-18 | 医学文本识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829156A true CN109829156A (zh) | 2019-05-31 |
CN109829156B CN109829156B (zh) | 2023-11-14 |
Family
ID=66860993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910049925.8A Active CN109829156B (zh) | 2019-01-18 | 2019-01-18 | 医学文本识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829156B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532570A (zh) * | 2019-09-10 | 2019-12-03 | 杭州橙鹰数据技术有限公司 | 一种命名实体识别的方法和装置及模型训练的方法和装置 |
CN111046657A (zh) * | 2019-12-04 | 2020-04-21 | 东软集团股份有限公司 | 一种实现文本信息标准化的方法、装置及设备 |
CN111160012A (zh) * | 2019-12-26 | 2020-05-15 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
CN112101021A (zh) * | 2020-09-03 | 2020-12-18 | 沈阳东软智能医疗科技研究院有限公司 | 一种实现标准词映射的方法、装置及设备 |
CN112712118A (zh) * | 2020-12-29 | 2021-04-27 | 银江股份有限公司 | 一种面向医疗文本数据的过滤方法及*** |
CN113254595A (zh) * | 2021-06-22 | 2021-08-13 | 北京沃丰时代数据科技有限公司 | 闲聊识别方法、装置、电子设备及存储介质 |
CN113343703A (zh) * | 2021-08-09 | 2021-09-03 | 北京惠每云科技有限公司 | 医学实体的分类提取方法、装置、电子设备及存储介质 |
WO2021174695A1 (zh) * | 2020-03-04 | 2021-09-10 | 平安科技(深圳)有限公司 | 基于机器学习的药物识别方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
CN106933803A (zh) * | 2017-02-24 | 2017-07-07 | 黑龙江特士信息技术有限公司 | 一种面向多数据源的医疗器材类实体识别方法及装置 |
CN107038336A (zh) * | 2017-03-21 | 2017-08-11 | 科大讯飞股份有限公司 | 一种电子病历自动生成方法及装置 |
CN107729312A (zh) * | 2017-09-05 | 2018-02-23 | 苏州大学 | 基于序列标注建模的多粒度分词方法及*** |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108563725A (zh) * | 2018-04-04 | 2018-09-21 | 华东理工大学 | 一种中文症状体征构成识别方法 |
-
2019
- 2019-01-18 CN CN201910049925.8A patent/CN109829156B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933803A (zh) * | 2017-02-24 | 2017-07-07 | 黑龙江特士信息技术有限公司 | 一种面向多数据源的医疗器材类实体识别方法及装置 |
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
CN107038336A (zh) * | 2017-03-21 | 2017-08-11 | 科大讯飞股份有限公司 | 一种电子病历自动生成方法及装置 |
CN107729312A (zh) * | 2017-09-05 | 2018-02-23 | 苏州大学 | 基于序列标注建模的多粒度分词方法及*** |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108563725A (zh) * | 2018-04-04 | 2018-09-21 | 华东理工大学 | 一种中文症状体征构成识别方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532570A (zh) * | 2019-09-10 | 2019-12-03 | 杭州橙鹰数据技术有限公司 | 一种命名实体识别的方法和装置及模型训练的方法和装置 |
CN111046657A (zh) * | 2019-12-04 | 2020-04-21 | 东软集团股份有限公司 | 一种实现文本信息标准化的方法、装置及设备 |
CN111046657B (zh) * | 2019-12-04 | 2023-10-13 | 东软集团股份有限公司 | 一种实现文本信息标准化的方法、装置及设备 |
CN111160012A (zh) * | 2019-12-26 | 2020-05-15 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
CN111160012B (zh) * | 2019-12-26 | 2024-02-06 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
WO2021174695A1 (zh) * | 2020-03-04 | 2021-09-10 | 平安科技(深圳)有限公司 | 基于机器学习的药物识别方法及相关设备 |
CN112101021A (zh) * | 2020-09-03 | 2020-12-18 | 沈阳东软智能医疗科技研究院有限公司 | 一种实现标准词映射的方法、装置及设备 |
CN112712118A (zh) * | 2020-12-29 | 2021-04-27 | 银江股份有限公司 | 一种面向医疗文本数据的过滤方法及*** |
CN113254595A (zh) * | 2021-06-22 | 2021-08-13 | 北京沃丰时代数据科技有限公司 | 闲聊识别方法、装置、电子设备及存储介质 |
CN113254595B (zh) * | 2021-06-22 | 2021-10-22 | 北京沃丰时代数据科技有限公司 | 闲聊识别方法、装置、电子设备及存储介质 |
CN113343703A (zh) * | 2021-08-09 | 2021-09-03 | 北京惠每云科技有限公司 | 医学实体的分类提取方法、装置、电子设备及存储介质 |
CN113343703B (zh) * | 2021-08-09 | 2021-10-29 | 北京惠每云科技有限公司 | 医学实体的分类提取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109829156B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829156A (zh) | 医学文本识别方法及装置 | |
US10762630B2 (en) | System and method for structures detection and multi-class image categorization in medical imaging | |
CN107958230B (zh) | 人脸表情识别方法及装置 | |
CN108446621A (zh) | 票据识别方法、服务器及计算机可读存储介质 | |
CN107273657A (zh) | 影像诊断图文报告的生成方法及存储设备 | |
US11468989B2 (en) | Machine-aided dialog system and medical condition inquiry apparatus and method | |
CN106407443A (zh) | 一种结构化医疗数据生成方法及装置 | |
CN111696640A (zh) | 自动获取病历模板的方法、装置和存储介质 | |
CN110147878B (zh) | 数据处理方法、装置及设备 | |
CN105469063B (zh) | 鲁棒的人脸图像主成分特征提取方法及识别装置 | |
Bordes et al. | Incorporating visual semantics into sentence representations within a grounded space | |
CN111192660B (zh) | 一种影像报告分析方法、设备及计算机存储介质 | |
CN111985241B (zh) | 医学信息查询方法、装置、电子设备及介质 | |
CN114912887B (zh) | 一种基于电子病历的临床数据录入方法及录入装置 | |
CN112560400B (zh) | 医学数据的处理方法、装置及存储介质 | |
CN113656547A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN108511036A (zh) | 一种中文症状标注的方法及*** | |
CN109101984A (zh) | 一种基于卷积神经网络的图像识别方法及装置 | |
CN109033078B (zh) | 语句类别识别方法及装置、存储介质、处理器 | |
CN116628161A (zh) | 答案生成方法、装置、设备及存储介质 | |
CN111144355A (zh) | 数据采集方法、装置、设备及计算机可读存储介质 | |
CN111369546A (zh) | 一种颈部***图像分类识别装置及方法 | |
CN112766314B (zh) | 解剖结构的识别方法、电子设备及存储介质 | |
CN115601768A (zh) | 书写文字的判断方法、装置、设备及存储介质 | |
CN112101034B (zh) | 一种判别医学实体的属性的方法、装置及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |