CN113762100B - 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质 - Google Patents
医疗票据中名称提取及标准化方法、装置、计算设备及存储介质 Download PDFInfo
- Publication number
- CN113762100B CN113762100B CN202110952861.XA CN202110952861A CN113762100B CN 113762100 B CN113762100 B CN 113762100B CN 202110952861 A CN202110952861 A CN 202110952861A CN 113762100 B CN113762100 B CN 113762100B
- Authority
- CN
- China
- Prior art keywords
- line
- keyword
- name
- medical
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 4
- 238000011425 standardization method Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 description 57
- 238000003745 diagnosis Methods 0.000 description 19
- 208000028659 discharge Diseases 0.000 description 9
- 238000011282 treatment Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- -1 patella Substances 0.000 description 1
- 210000004417 patella Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000011269 tar Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种医疗票据中名称提取及标准化方法、装置、计算设备及存储介质,包括:获取医疗票据OCR识别结果;依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;根据名称内容范围与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;从半结构化的关键词对应内容文本中提取名称,并对提取的名称进行标准化处理,以得到名称对应的标准名称。该方法和装置能够实现对医疗票据中关键词的快速准确提取和标准化。
Description
技术领域
本发明属于文字提取领域,具体涉及一种医疗票据中名称提取及标准化方法、装置、计算设备及存储介质。
背景技术
随着人工智能技术的发展,识别图片中所包含文字内容的OCR(OpticalCharacter Recognition,光学字符识别)技术已经逐渐成熟并应用在各个领域中。图片OCR识别的结果一般为一个列表,列表中每个元素是OCR识别的一个单元,包含一个单元的文本内容,矩形包围框的位置(中心坐标,宽高,旋转角度,行号,列号)。
在保险理赔鉴定领域中,通过人工智能技术正确识别医疗票据中的文字并有效提取其中关键信息可以帮助理赔人员提高审核的效率与准确率,减少保险公司的人力成本,并缩短被保险人的理赔申请等待时间。
在保险理赔鉴定过程中,需要审核被保险人提供的住院相关的医疗票据,找到诊断名称和手术名称,并对诊断名称和手术名称进行标准化,以便审核诊疗过程中是否存在不合理的情况。由于经过OCR识别过后得到的文本信息是一种非结构化的信息,想要提取其中一部分需要的信息需要对非结构化的数据进行结构化或半结构化,这样才有利于提取到想要的信息。
发明内容
鉴于上述,本发明的目的是提供一种医疗票据中名称提取及标准化方法、装置、计算设备及存储介质,以实现对医疗票据中名称的快速准确提取和标准化。
第一方面,实施例提供的一种医疗票据中名称提取及标准化方法,包括以下步骤:
获取医疗票据OCR识别结果;
依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;
对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;
根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;
从半结构化的关键词对应内容文本中提取名称,并对提取的名称进行标准化处理,以得到名称对应的标准名称。
在一个实施例中,所述依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型,包括:
依据医疗票据的表头文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,
依据医疗票据中特定文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,
利用分类模型对输入OCR识别结果进行计算,以确定OCR识别结果对应的医疗票据类型。
在一个实施例中,所述对OCR识别结果进行名称内容范围分析,以提取名称内容范围,包括:
针对单栏排布的医疗票据对应的OCR识别结果,以关键词所在行为初始行,逐行向上进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容的文字描述,则认为当前行的下一行为关键词对应的名称内容范围的开始行,并将关键词移至开始行的首位置;
以关键词所在行为初始行,逐行向下进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容文字的描述,则认为当前行的上一行为关键词对应的名称内容范围的结束行;
所述开始行到所述结束行包含的所有内容形成关键词对应的名称内容范围,且该名称内容范围的首位置为关键词;将整理好的名称内容范围对应的OCR块列表顺序***到关键词所在行。
针对双栏排布的医疗票据对应的OCR识别结果会存在至少2个关键词,对双栏中的每一栏中的每个关键词,按照针对单栏排布的医疗票据对应的OCR识别结果中关键词对应内容范围确定方法确定每个关键词对应的名称内容范围的开始行与结束行,并移动关键词到开始行的首位置;
针对每个关键词,从其开始行到结束行逐行向下进行判断,若当前行中元素中心坐标小于其他关键词中心坐标,则该元素属于当前关键词,否则属于其他关键词,依次进一步确定每个关键词对应的名称内容范围;
将提取的关键词对应的名称内容范围作为一个块***到关键词所在行。
针对表格排布的医疗票据对应的OCR识别结果,关键词所在行即为表头行,也为名称内容范围的开始行,将表头行中的每个元素作为单独一列,从表头行开始,逐行向下进行判断,若当前行存在不属于关键词对应内容的文字描述,则认为当前行的上一行为名称内容范围的结束行;
从开始行到结束行,逐行向下判断,依据当前行中的每个元素与表头中的每个元素的距离,将元素归到距离最近的表头中元素对应的那列。
在一个实施例中,所述根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本,包括:
依据每类医疗票据包含的信息确定每类医疗票据类型对应的每个关键词描述规则;
针对提取的名称内容范围,确定对应的医疗票据类型及关键词,然后,利用与确定的医疗票据类型和关键词对应的关键词描述规则,对医疗票据内容进行文本切分,以得到半结构化的关键词对应的内容文本。
在一个实施例中,所述从半结构化的关键词对应的内容文本中提取名称,包括:
依据深度学习网络构建名称提取模型,利用名称提取模型从半结构化的关键词对应的内容文本中提取名称;
优选地,名称提取模型采用Bert+CRF结构,利用Bert结构进行词嵌入特征提取,利用CRF结构根据词嵌入特征进行词分类。
在一个实施例中,所述对提取的名称进行标准化处理,以得到名称对应的标准名称,包括:
采用bert模型构建标准化处理模型,过程为:
构建训练样本,训练样本包括正样本和负样本,其中,正样本为<名称i,标准名称i,1>,负样本为<名称i,标准名称j,0>,标准名称i和标准名称j来自于标准名称库,且标准名称j≠标准名称i;
利用训练样本优化bert模型参数,参数确定的bert模型作为标准化处理模型;
利用标准化处理模型对名称进行标准化处理以输出对应的标准名称,过程为:
将待标准化的名称与多个标准名称分别组成多个待测样本输入至标准化处理模型,提取计算结果为1的测试样本包含的标准名称作为待标准化的名称的标准化结果。
第二方面,实施例提供了一种医疗票据中名称提取及标准化装置,包括:
获取模块,用于获取医疗票据OCR识别结果;
分类模块,用于依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;
分析模块,用于对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;
结构化模块,用于根据名称内容范围和与医疗票据类型对应的关键词描述规则医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;
提取模块,用于从半结构化的关键词对应的内容文本中提取名称;
标准化模块,用于对提取的名称进行标准化处理,以得到名称对应的标准名称。
第三方面,实施例提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的医疗票据中名称提取及标准化方法的步骤。
第四方面,实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理执行时实现第一方面所述的医疗票据中名称提取及标准化方法的步骤。
上述实施例提供的技术方案具有的有益效果至少包括:
通过对医疗票据OCR识别结果进行名称内容范围分析,对名称内容范围内的医疗票据内容进行半结构化处理后,对得到的半结构化的关键词对应的内容文本基于深度学习进行名称提取和标准化,这样能够顾快速得到准确的标准化名称,减少保险公司的人力成本,缩短理赔等待时间,提升理赔效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是一实施例提供的医疗票据中名称提取及标准化方法的流程图;
图2是一实施例提供的名称提取模型的结构示意图;
图3是一实施例提供的标准化处理模型的结构示意图;
图4是一实施例提供的医疗票据中名称提取及标准化装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为了实现对医疗票据中名称快速准确提取,实施例提供了一种医疗票据中名称提取及标准化方法和装置。图1是一实施例提供的医疗票据中名称提取及标准化方法的流程图。如图1所示,实施例提供的医疗票据中名称提取及标准化方法,包括以下步骤:
步骤1,获取医疗票据OCR识别结果。
医疗票据是指在诊疗过程中会产生不同类型的票据,包括病案首页,出院小结,手术记录,门诊记录。实施例中,处理对象为对医疗票据进行OCR技术扫描得到的OCR识别结果图像。
步骤2,依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型。
由于不同类型的医疗票据内容以及版面结构相差很大,为了能够准确地提取不同医疗票据的名称需要对医疗票据进行分类。实施例中,将诊断名称和手术名称均统称为名称。
实施例中,采用基于规则的方法判断医疗票据的类型。针对不同类型的票据表头一般会写明是票据类型,但是描述上会有些许差异,如出院记录和出院小结都属于出院小结类型,针对这一类,经过研究大量票据总结得到医疗票据的表头文本语义与医疗票据类型的映射关系,然后依据该映射关系确定OCR识别结果对应的医疗票据类型。
由于医疗票据OCR识别结果是通过拍照得到的,拍照过程中存在拍模糊,其他内容遮挡或者票据本身没有表头等情况,无法根据表头信息进行分类,针对不同票据类型中存在一些特别的信息,如诊疗经过只会出现在出院小结中,手术名称只会存在手术记录单中等。针对这一类,经过研究大量票据总结得到医疗票据中特定文本语义与医疗票据类型的映射关系,然后依据该映射关系,确定OCR识别结果对应的医疗票据类型。特定文本语义是与医疗票据类型相关的具有区分的文本词汇形成的语义,不同医疗票据类型对应的特定文本语义会有所差异,特定文本语义具体根据实际应用确定,在此不受限制。
由于病案首页票据是一种特殊的表格形式,可以根据表格形式这一特点进行类型区分,依据大量病案首页训练了一个能够识别表格的分类模型,然后利用分类模型对输入OCR识别结果进行计算,以确定OCR识别结果对应的医疗票据类型是否为病案首页。
步骤3,对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围。
实施例中,医疗票据大致可分为以下几种版面:单栏、双栏、表格。实施例针对这三种版面格式采用三种名称内容范围分析方式,目的是确定关键词所包含内容,以便接下来提取医疗票据中的名称。
针对三种版面进行定义:单栏,也叫通栏,表示文本内容从左至右排列,到达右边界自动返回到下一行;双栏,即两栏,文本内容分为左右两栏,中间用空白进行分割,通常情况下左右两栏的内容分属于不同的部分,两者互不相通;表格,即票据内容用表格进行排列,此时每一行的内容可能属于多列,一般大于等于3列,这种以表格版面排布的票据一般出现在病案首页。
步骤3中,对OCR识别结果基于关键词进行名称内容范围分析,得到的结果应是一个OCR结果列表,此OCR结果列表中每一个元素的排列顺序应满足:(1)非关键词及关键词对应内容的排列按行号从小到大,列号从小到大;(2)关键词在对应名称内容范围的开头,关键词对应的名称内容范围中的每一个元素排列顺序为行号从小到大,列号从小到大;(3)关键词及对应名称内容范围组成的块***到关键词所在行。
针对单栏排布的医疗票据,每一行元素内容是连贯的,所以只需要判断关键词是否在对应内容范围的中间位置,如果在,需要将关键词移动到内容范围的开头。具体过程为:
以关键词所在行为初始行,逐行向上进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在明显不属于关键词对应内容的文字描述(如时间),则认为当前行的下一行为关键词对应的名称内容范围的开始行,并将关键词移至开始行的首位置;
以关键词所在行为初始行,逐行向下进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容文字的描述,则认为当前行的上一行为关键词对应的名称内容范围的结束行;
所述开始行到所述结束行包含的所有内容形成关键词对应的名称内容范围,且该名称内容范围的首位置为关键词;将整理好的名称内容范围对应的OCR块列表顺序***到关键词所在行。
针对双栏排布的医疗票据,会存在至少2个关键词,这至少2个关键词出现在同一行且对应内容分别列于左右两栏中,如果直接按行读取,则会将两列的内容相混无法区分,所以需要判断两栏中的内容属于哪一个关键词内容范围内。因OCR识别的问题,可能存在一栏的内容分布于两个OCR元素中,所以不能简单地按元素个数进行左右分栏,需要按照位置进行判断,并且至少2个关键词也可能存在于对应内容范围的中间位置,所以也进行关键词移动。具体过程为:
对双栏中的每一栏中的每个关键词,按照针对单栏排布的医疗票据对应的OCR识别结果中关键词对应的名称内容范围确定方法确定每个关键词的关键词对应的名称内容范围的开始行与结束行,并移动关键词到开始行的首位置;
针对每个关键词,从其开始行到结束行逐行向下进行判断,若当前行中元素中心坐标小于其他关键词中心坐标,则该元素属于当前关键词,否则属于其他关键词,依次进一步确定每个关键词的关键词内容范围;对于存在2个关键词的单据,从其开始行到结束行逐行向下进行判断,若当前行中元素中心坐标小于第2个关键词中心坐标,则该元素属于第1个关键词,否则属于第2个其他关键词。
将提取的关键词对应的名称内容范围作为一个块***到关键词所在行。
针对表格排布的医疗票据,这类医疗票据一般出现在病案首页中,表格中会出现关键词以及其他信息如编码等,一个表格可能出现两个同样的关键词。因OCR识别的结果没有是否为表格的信息,所以无法按照图像的方式来读取表格,只能按照文字的方式来判断。具体过程为:
因关键词比较特殊,在整张票据中其他位置不会出现,所以先找到关键词所在行,关键词所在行即为表头行,也为名称内容范围的开始行,将表头行中的每个元素作为单独一列,从表头行开始,逐行向下进行判断,若当前行存在不属于关键词对应内容的文字描述,则认为当前行的上一行为名称内容范围的结束行;
从开始行到结束行,逐行向下判断,依据当前行中的每个元素与表头中的每个元素的距离,将元素归到距离最近的表头中元素对应的那列。具体而言,计算当前行中每个元素的中心坐标与表头元素的中心坐标的距离,将距离最近的表头元素作为当前行中元素的归属类,然后,依据按照表头中每个元素位置从左到右的顺序将当前行中元素内容排列***到结果列表中。
步骤4,根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容范围进行半结构化处理,以得到半结构化的关键词对应的内容文本。
医疗票据经过OCR识别后得到的文本内容属于非结构化的数据,其中除了需要提取的关键词内容外,还会出现其他杂乱的信息,干扰名称提取的准确率,所以在进行名称实体提取前,需要先对票据内容进行半结构化处理。实施例中,关键词内容半结构化处理过程包括:
依据每类医疗票据包含的信息确定每类医疗票据类型对应的每个关键词描述规则;实施例中,通过统计分析各类医疗票据,总结各类医疗票据中可能包含的信息,如出院小结中包含入院时间、出院时间、入院诊断、出院诊断、诊疗经过等,由于医疗票据之间的差异,可能关键词的描述并不唯一,所以总结每个关键词描述规则。
针对提取的名称内容范围,确定对应的医疗票据类型及关键词,然后,利用与确定的医疗票据类型和关键词对应的关键词描述规则,对医疗票据内容进行文本切分,以得到半结构化的关键词对应的内容文本。
步骤5,从半结构化的关键词对应的内容文本中提取名称。
医疗票据中诊断名称和手术称出现在关键词如出院诊断、手术名称之后,并且一张票据中并不是只有一个诊断名称或手术名称,它们经常使用一些标点符号或者序列符号进行连接。由于使用连接的符号没有具体的规则,并且由于人工书写时又比较随意,导致无法使用规则来随意切分。因此,实施例采用一种深度学习中的名称提取方法,即依据深度学习网络构建名称提取模型,利用名称提取模型从半结构化的关键词对应的内容文本中提取名称。
实施例中,如图2所示,名称提取模型可以采用Bert+CRF结构,利用Bert结构进行词嵌入特征提取,提取的词嵌入特征经过softmax函数映射后输入至CRF结构,利用CRF结构对映射后的词嵌入特征进行词分类。构建名称提取模型时,采用Bert公开的中文预训练模型对名称提取模型进行微调训练,微调后的名称提取模型能够从关键词内容文本中提取诊断名称和手术名称。
步骤6,对提取的名称进行标准化处理,以得到名称对应的标准名称。
医疗票据中的诊断名称和手术名称,因不同医院不同医生的书写习惯不同,并不会严格按照标准的名称进行书写,而且在书写过程中经常会出现错别字的情况再加上OCR识别也会带入一些错误的识别结果,而在保险理赔鉴定中,审核人员参照的医保规则都是标准的诊断名称和手术名称,统称为标准关键词,此时如果直接使用提取的非标准的诊断名称和手术名称进行保险审核理赔,对于理赔人员的要求将非常高而且难度也非常大。所以需要将诊断名称和手术名称进行标准化。
实施例中,采用如图4所示的bert模型构建标准化处理模型,利用该标准化处理模型,输入一个诊断名称或手术名称,即可以得到对应的标准诊断名称或者手术标准名称。结合实际使用场景,实施例中标准诊断名称来自于ICD10医保版,标注手术名称来自于ICD9医保版。
实施例中,采用bert模型构建标准化处理模型,过程为:
标注训练数据,对历史诊断名称和手术名称进行人工标注获得标注数据,一条原始关键词对应n条标准关键词名称,n>=1;
构建训练样本,训练样本包括正样本和负样本,其中,正样本为<原始名称i,标准名称i,1>,这里的标准名称i为标注的标准名称,如果有多个,则有多条正样本,每条正样本表示如果原始名称i的标准词为标准名称i,则输出预测结果为1;负样本为<原始名称i,标准名称j,0>,每条负样本表示如果原始名称i的标准词为标准名称j,则输出预测结果为0,这里的标准名称j为经过筛选得到的每一条标准名称,筛选方法为:
如果满足:
则原始词i与标准词j形成负样本<原始名称i,标准名称j,0>,其中,标准名称j≠标准名称i,LCS(·)表示原始词与标准词的最长公共子序列的长度,len(·)表示名称词的字符长度,thres表示阈值,取值范围为0-1,tfidf-sim(·)表示使用tfidf(term frequency–inverse document frequency)算法计算标准词i,标准词j的相似度。上述公式的意思表示为当原始词i与标准词j的最长公共子序列长度占两个词最大长度的比值大于thres或原始词i对应的正例标准词i与负例候选标准词j的tfidf-sim大于thres,则将标准词j保留下来作为负样本。
利用训练样本优化bert模型参数,参数确定的bert模型作为标准化处理模型。实施例中,使用官方提供的中文预训练模型并自行扩充了词汇表,加入了一些医学中常出现的特殊字符,如髌、跗等。将原始词与标准词拼接作为输入,最终输出的结果为这两个词语是否相似,相似为1,不相似为0,相似则表示该标准词是原始词对应的标准名称。因一个原始词可能对应n个标准词(n>=1),该模型的好处是不需要知道n等于几,直接让模型来判断,减少人为判断带来错误传递。
实施例中,利用标准化处理模型对名称进行标准化处理以输出对应的标准名称,过程为:
将待标准化的名称与多个标准名称分别组成多个待测样本输入至标准化处理模型,提取计算结果为1的测试样本包含的标准名称作为待标准化的名称的标准化结果。
上述实施例提供的医疗票据中名称提取及标准化方法,通过对医疗票据OCR识别结果基于关键词进行名称内容范围分析,对医疗票据内容进行半结构化处理后,对得到的半结构化的关键词对应的内容文本基于深度学习进行名称提取和标准化,这样能够顾快速得到准确的标准化名称,减少保险公司的人力成本,缩短理赔等待时间,提升理赔效率。
图4是一实施例提供的医疗票据中名称提取及标准化装置的结构示意图。如图4所示,实施例提供的医疗票据中名称提取及标准化装置400,包括:
获取模块410,用于获取医疗票据OCR识别结果;
分类模块420,用于依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;
分析模块430,用于对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;
结构化模块440,用于根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;
提取模块450,用于从半结构化的关键词对应的内容文本中提取名称;
标准化模块460,用于对提取的名称进行标准化处理,以得到名称对应的标准名称。
需要说明的是,上述实施例提供的医疗票据中名称提取及标准化装置在进行医疗票据中名称提取及标准化时,应以上述各功能模块的划分进行举例说明,可以根据需要将上述功能分配由不同的功能模块完成,即在终端或服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的医疗票据中名称提取及标准化装置与医疗票据中名称提取及标准化方法实施例属于同一构思,其具体实现过程详见医疗票据中名称提取及标准化方法实施例,这里不再赘述。
上述实施例提供的医疗票据中名称提取及标准化装置,通过对医疗票据OCR识别结果进行关键词内容范围分析,对医疗票据内容进行半结构化处理后,对得到的半结构化的关键词对应的内容文本基于深度学习进行名称提取和标准化,这样能够顾快速得到准确的标准化名称,减少保险公司的人力成本,缩短理赔等待时间,提升理赔效率。
实施例还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现上述医疗票据中关键词提取及标准化方法的步骤,即包括以下步骤:
步骤1,获取医疗票据OCR识别结果;
步骤2,依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;
步骤3,对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;
步骤4,根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;
步骤5,从半结构化的关键词对应的内容文本中提取名称;
步骤6,对提取的名称进行标准化处理,以得到名称对应的标准名称。
实际应用中,存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现医疗票据中名称提取及标准化步骤。
实施例还提供了一种存储介质,其上存储有计算机程序,计算机程序被处理执行时上述医疗票据中名称提取及标准化方法的步骤,即包括以下步骤:
步骤1,获取医疗票据OCR识别结果;
步骤2,依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;
步骤3,对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;
步骤4,根据名称内容范围和与医疗票据类型对应的关键词描述规则对名称范围内医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;
步骤5,从半结构化的关键词对应的内容文本中提取名称;
步骤6,对提取的名称进行标准化处理,以得到名称对应的标准名称。
实施例中,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种医疗票据中名称提取及标准化方法,其特征在于,包括以下步骤:
获取医疗票据OCR识别结果;
依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;
对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围,包括:针对单栏排布的医疗票据对应的OCR识别结果,以关键词所在行为初始行,逐行向上进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容的文字描述,则认为当前行的下一行为关键词对应的名称内容范围的开始行,并将关键词移至开始行的首位置;以关键词所在行为初始行,逐行向下进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容文字的描述,则认为当前行的上一行为关键词对应的名称内容范围的结束行;所述开始行到所述结束行包含的所有内容形成关键词对应的名称内容范围,且该名称内容范围的首位置为关键词;将整理好的名称内容范围对应的OCR块列表顺序***到关键词所在行;
根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本,包括:依据每类医疗票据包含的信息确定每类医疗票据类型对应的每个关键词描述规则;针对提取的名称内容范围,确定对应的医疗票据类型及关键词,然后,利用与确定的医疗票据类型和关键词对应的关键词描述规则,对医疗票据内容进行文本切分,以得到半结构化的关键词对应的内容文本;
从半结构化的关键词对应内容文本中提取名称,并对提取的名称进行标准化处理,以得到名称对应的标准名称。
2.根据权利要求1所述的医疗票据中名称提取及标准化方法,其特征在于,所述依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型,包括:
依据医疗票据的表头文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,
依据医疗票据中特定文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,
利用分类模型对输入OCR识别结果进行计算,以确定OCR识别结果对应的医疗票据类型。
3.根据权利要求1所述的医疗票据中名称提取及标准化方法,其特征在于,所述对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围,还包括:
针对双栏排布的医疗票据对应的OCR识别结果会存在至少2个关键词,对双栏中的每一栏中的每个关键词,按照针对单栏排布的医疗票据对应的OCR识别结果中关键词对应的名称内容范围确定方法确定每个关键词对应的名称内容范围的开始行与结束行,并移动关键词到开始行的首位置;
针对每个关键词,从其开始行到结束行逐行向下进行判断,若当前行中元素中心坐标小于其他关键词中心坐标,则该元素属于当前关键词,否则属于其他关键词,依次进一步确定每个关键词对应的名称内容范围;
将提取的关键词对应的名称内容范围作为一个块***到关键词所在行。
4.根据权利要求1或3所述的医疗票据中名称提取及标准化方法,其特征在于,所述对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围,还包括:
针对表格排布的医疗票据对应的OCR识别结果,关键词所在行即为表头行,也为名称内容范围的开始行,将表头行中的每个元素作为单独一列,从表头行开始,逐行向下进行判断,若当前行存在不属于关键词对应内容的文字描述,则认为当前行的上一行为名称内容范围的结束行;
从开始行到结束行,逐行向下判断,依据当前行中的每个元素与表头中的每个元素的距离,将元素归到距离最近的表头中元素对应的那列。
5.根据权利要求1所述的医疗票据中名称提取及标准化方法,其特征在于,所述从半结构化的关键词对应的内容文本中提取名称,包括:
依据深度学习网络构建名称提取模型,利用名称提取模型从半结构化的关键词对应的内容文本中提取名称。
6.根据权利要求5所述的医疗票据中名称提取及标准化方法,其特征在于,名称提取模型采用Bert+CRF结构,利用Bert结构进行词嵌入特征提取,利用CRF结构根据词嵌入特征进行词分类。
7.根据权利要求1所述的医疗票据中名称提取及标准化方法,其特征在于,所述对提取的名称进行标准化处理,以得到名称对应的标准名称,包括:
采用bert模型构建标准化处理模型,过程为:
构建训练样本,训练样本包括正样本和负样本,其中,正样本为<名称i,标准名称i,1>,负样本为<名称i,标准名称j,0>,标准名称i和标准名称j来自于标准名称库,且标准名称j≠标准名称i;
利用训练样本优化bert模型参数,参数确定的bert模型作为标准化处理模型;
利用标准化处理模型对名称进行标准化处理以输出对应的标准名称,过程为:
将待标准化的名称与多个标准名称分别组成多个待测样本输入至标准化处理模型,提取计算结果为1的测试样本包含的标准名称作为待标准化的名称的标准化结果。
8.一种医疗票据中名称提取及标准化装置,其特征在于,包括:
获取模块,用于获取医疗票据OCR识别结果;
分类模块,用于依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;
分析模块,用于对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围,包括:针对单栏排布的医疗票据对应的OCR识别结果,以关键词所在行为初始行,逐行向上进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容的文字描述,则认为当前行的下一行为关键词对应的名称内容范围的开始行,并将关键词移至开始行的首位置;以关键词所在行为初始行,逐行向下进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容文字的描述,则认为当前行的上一行为关键词对应的名称内容范围的结束行;所述开始行到所述结束行包含的所有内容形成关键词对应的名称内容范围,且该名称内容范围的首位置为关键词;将整理好的名称内容范围对应的OCR块列表顺序***到关键词所在行;
结构化模块,用于根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本,包括:依据每类医疗票据包含的信息确定每类医疗票据类型对应的每个关键词描述规则;针对提取的名称内容范围,确定对应的医疗票据类型及关键词,然后,利用与确定的医疗票据类型和关键词对应的关键词描述规则,对医疗票据内容进行文本切分,以得到半结构化的关键词对应的内容文本;
提取模块,用于从半结构化的关键词对应的内容文本中提取名称;
标准化模块,用于对提取的名称进行标准化处理,以得到名称对应的标准名称。
9.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的医疗票据中名称提取及标准化方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现权利要求1-7任一项所述的医疗票据中名称提取及标准化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110952861.XA CN113762100B (zh) | 2021-08-19 | 2021-08-19 | 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110952861.XA CN113762100B (zh) | 2021-08-19 | 2021-08-19 | 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113762100A CN113762100A (zh) | 2021-12-07 |
CN113762100B true CN113762100B (zh) | 2024-02-09 |
Family
ID=78790427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110952861.XA Active CN113762100B (zh) | 2021-08-19 | 2021-08-19 | 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762100B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708603A (zh) * | 2022-05-25 | 2022-07-05 | 杭州咏柳科技有限公司 | 对医疗票据中关键信息的识别方法、***、设备和介质 |
CN114996466B (zh) * | 2022-08-01 | 2022-11-01 | 神州医疗科技股份有限公司 | 一种医学标准映射模型的建立方法、***及使用方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002768A (zh) * | 2018-06-22 | 2018-12-14 | 深源恒际科技有限公司 | 基于神经网络文本检测识别的医疗票据类文字提取方法 |
CN109543690A (zh) * | 2018-11-27 | 2019-03-29 | 北京百度网讯科技有限公司 | 用于提取信息的方法和装置 |
CN111275037A (zh) * | 2020-01-09 | 2020-06-12 | 上海知达教育科技有限公司 | 票据识别方法及装置 |
WO2020155763A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN112446351A (zh) * | 2020-12-09 | 2021-03-05 | 杭州米数科技有限公司 | 医疗票据智能识别***解决方法 |
CN112926577A (zh) * | 2021-02-20 | 2021-06-08 | 杭州海量信息技术有限公司 | 一种医疗票据图像结构化方法和装置、计算机可读介质 |
EP3836016A1 (en) * | 2020-06-09 | 2021-06-16 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Recognizing invoice images |
CN113221869A (zh) * | 2021-05-25 | 2021-08-06 | 中国平安人寿保险股份有限公司 | 医疗***结构化信息提取方法、装置设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7408313B2 (ja) * | 2019-08-13 | 2024-01-05 | キヤノン株式会社 | 画像処理装置、その制御方法及びプログラム |
-
2021
- 2021-08-19 CN CN202110952861.XA patent/CN113762100B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002768A (zh) * | 2018-06-22 | 2018-12-14 | 深源恒际科技有限公司 | 基于神经网络文本检测识别的医疗票据类文字提取方法 |
CN109543690A (zh) * | 2018-11-27 | 2019-03-29 | 北京百度网讯科技有限公司 | 用于提取信息的方法和装置 |
WO2020155763A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN111275037A (zh) * | 2020-01-09 | 2020-06-12 | 上海知达教育科技有限公司 | 票据识别方法及装置 |
EP3836016A1 (en) * | 2020-06-09 | 2021-06-16 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Recognizing invoice images |
CN112446351A (zh) * | 2020-12-09 | 2021-03-05 | 杭州米数科技有限公司 | 医疗票据智能识别***解决方法 |
CN112926577A (zh) * | 2021-02-20 | 2021-06-08 | 杭州海量信息技术有限公司 | 一种医疗票据图像结构化方法和装置、计算机可读介质 |
CN113221869A (zh) * | 2021-05-25 | 2021-08-06 | 中国平安人寿保险股份有限公司 | 医疗***结构化信息提取方法、装置设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
"Efficient Automated Processing of the Unstructured Documents Using Artificial Intelligence: A Systematic Literature Review and Future Directions";Dipali Baviskar;《IEEE Access》;全文 * |
"票据结构化识别方法研究";潘妍;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 * |
双网络模型下的智能医疗票据识别方法;郑祖兵;盛冠群;谢凯;唐新功;文畅;李长晟;;计算机工程与应用(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113762100A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853638B2 (en) | System and method for extracting structured information from image documents | |
US11580763B2 (en) | Representative document hierarchy generation | |
US11954139B2 (en) | Deep document processing with self-supervised learning | |
Mao et al. | Document structure analysis algorithms: a literature survey | |
KR101376863B1 (ko) | 문서 시각 구조의 문법 분석 | |
US8321357B2 (en) | Method and system for extraction | |
US11232300B2 (en) | System and method for automatic detection and verification of optical character recognition data | |
US20220301670A1 (en) | Automated information extraction and enrichment in pathology report using natural language processing | |
US20160041987A1 (en) | Method and system for extraction | |
RU2760471C1 (ru) | Способы и системы идентификации полей в документе | |
CN113762100B (zh) | 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质 | |
US11568284B2 (en) | System and method for determining a structured representation of a form document utilizing multiple machine learning models | |
JP2007172077A (ja) | 画像検索システム及び方法及びプログラム | |
Roy et al. | Keyword spotting in doctor's handwriting on medical prescriptions | |
Dhar et al. | HP_DocPres: a method for classifying printed and handwritten texts in doctor’s prescription | |
Mathew et al. | Asking questions on handwritten document collections | |
CN116469505A (zh) | 数据处理方法、装置、计算机设备及可读存储介质 | |
CN112926577B (zh) | 一种医疗票据图像结构化方法和装置、计算机可读介质 | |
Dhivya et al. | Tablet identification using support vector machine based text recognition and error correction by enhanced n‐grams algorithm | |
CN114581934A (zh) | 试卷图像的处理方法、装置及设备 | |
Kawanaka et al. | Document image processing for hospital information systems | |
CN113255369A (zh) | 文本相似度分析的方法、装置及存储介质 | |
CN113723508B (zh) | 票据图像分类方法、装置、计算设备和存储介质 | |
Mukhejee et al. | A new approach to information retrieval based on keyword spotting from handwritten medical prescriptions | |
Sara et al. | Label-Value Extraction from Documents Using Co-SSL Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |