CN113963149A

CN113963149A - 一种医疗票据图片的模糊判断方法、***、设备及介质

Info

Publication number: CN113963149A
Application number: CN202111277440.8A
Authority: CN
Inventors: 周建伟; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-21

Abstract

本发明公开了一种医疗票据图片的模糊判断方法、***、设备及介质，所述方法包括以下步骤：步骤1、获得切片文本、坐标以及识别结果置信度；步骤2、基于获得的切片文本、坐标以及识别结果置信度，获得方向判断结果；其中，如果方向判断结果为预设角度，则跳转执行步骤4，否则跳转执行步骤3；步骤3、基于方向判断结果对医疗票据图片进行旋转矫正，获得旋转矫正后图片，重复执行步骤1和步骤2；步骤4、基于所有切片文本的识别结果置信度进行模糊计算，获得模糊判断结果。本发明能够解决现有模糊算法针对运动模糊的判断正确率较低、用户使用体验较差的技术问题。

Description

一种医疗票据图片的模糊判断方法、***、设备及介质

技术领域

本发明属于医疗票据处理及模糊判断技术领域，特别涉及一种医疗票据图片的模糊判断方法、***、设备及介质。

背景技术

目前，操作者在上传医疗票据图片进行报销时(示例性的，通过手机app上传等)，上传的医疗票据图片通常是通过自动扫描或者拍照方式获得，上述这两种方式获得的票据照片可能会产生模糊；模糊的医疗票据图片上传后，需要大量的后续确认工作，会极大程度地影响报销效率。基于上述分析，目前需要一种能够在前端过滤掉模糊照片的模糊算法。

具体的，自动扫描或者拍照方式获得的医疗票据图片产生模糊的原因可能是相机的对焦模糊或者是拍照时晃动产生的运动模糊。现有模糊算法一般采用均值模糊、高斯模糊等算法等；这些现有模糊算法对对焦造成的模糊的判断正确率在90％左右，但是对运动模糊的照片的判断正确率只有50％左右，判断正确率较低，不能满足使用要求。

目前对于运动模糊，有些研究者想出通过多帧的方案来解决，即获取每帧照片在手机屏幕的中心点的位置，然后查看中心点的移动距离是否超过了某个阈值；上述这种方案的阈值很难获取；其中，阈值大了，起不到效果；阈值小了，就非常难拍摄，影响用户的使用体验。综上分析可知，目前对于运动模糊尚没有好的解决方案。

发明内容

本发明的目的在于提供一种医疗票据图片的模糊判断方法、***、设备及介质，以解决上述现有模糊算法针对运动模糊的判断正确率较低、用户使用体验较差的技术问题。

为达到上述目的，本发明采用以下技术方案：

本发明第一方面提供的一种医疗票据图片的模糊判断方法，包括以下步骤：

步骤1、对待模糊判断的医疗票据图片进行目标框检测以及每个目标框内的内容识别，获得切片文本、坐标以及识别结果置信度；其中，所述识别结果置信度为目标框内的字符识别置信度；

步骤2、基于获得的切片文本、坐标以及识别结果置信度，对医疗票据图片进行方向判断，获得方向判断结果；其中，如果方向判断结果为预设角度，则跳转执行步骤4，否则跳转执行步骤3；

步骤3、基于方向判断结果对医疗票据图片进行旋转矫正，获得旋转矫正后图片；基于所述旋转矫正后图片，重复执行步骤1和步骤2；

步骤4、去掉所有切片文本的识别结果置信度中的预设数量的最大值和最小值，计算获得剩余切片文本的识别结果置信度的平均值；所述剩余切片文本的识别结果置信度的平均值大于预设阈值时，则所述待模糊判断的医疗票据图片判断为清晰，否则判断为模糊。

本发明方法的进一步改进在于，步骤1中，所述对待模糊判断的医疗票据图片进行目标框检测时，采用DB算法的表达式为，

式中，

为近似的二值化图，P_i,j为概率图上的点，T_i,j为阈值图上由网络训练时生成的值，k为放大因子，(i，j)是像素点。

本发明方法的进一步改进在于，步骤1中，所述待模糊判断的医疗票据图片为用户端上传的照片。

本发明方法的进一步改进在于，步骤2具体包括：

如果切片文本的文本框数量小于预设数量阈值，则方向判断结果为第一待旋转矫正角度；

如果检测框宽度平均值大于等于高度平均值，且识别结果置信度的平均值小于预设置信度阈值，则方向判断结果为第二待旋转矫正角度；

如果检测框宽度平均值小于高度平均值，且识别结果置信度的平均值小于所述预设置信度阈值，则方向判断结果为所述第一待旋转矫正角度；

如果检测框宽度平均值小于高度平均值，且识别结果置信度的平均值大于等于所述预设置信度阈值，则方向判断结果为第三待旋转矫正角度；

否则，方向判断结果为预设角度。

本发明方法的进一步改进在于，所述预设角度为0度。

本发明方法的进一步改进在于，所述识别结果置信度的平均值的获取步骤包括：

去掉所有识别结果置信度里的预设数量的最大值和最小值，计算剩余识别结果置信度的平均值，获得识别结果置信度的平均值。

本发明第二方面提供的一种医疗票据图片的模糊判断***，包括：

检测及识别模块，用于对待模糊判断的医疗票据图片进行目标框检测以及每个目标框内的内容识别，获得切片文本、坐标以及识别结果置信度；其中，所述识别结果置信度为目标框内的字符识别置信度；

方向判断结果获取模块，用于基于获得的切片文本、坐标以及识别结果置信度，对医疗票据图片进行方向判断，获得方向判断结果；其中，如果方向判断结果为预设角度，则跳转执行模糊判断结果获取模块中的步骤，否则跳转执行旋转矫正模块中的步骤；

旋转矫正模块，用于基于方向判断结果对医疗票据图片进行旋转矫正，获得旋转矫正后图片；基于所述旋转矫正后图片，重复执行检测及识别模块和方向判断结果获取模块的步骤；

模糊判断结果获取模块，用于去掉所有切片文本的识别结果置信度中的预设数量的最大值和最小值，计算获得剩余切片文本的识别结果置信度的平均值；所述剩余切片文本的识别结果置信度的平均值大于预设阈值时，则所述待模糊判断的医疗票据图片判断为清晰，否则判断为模糊。

本发明的进一步改进在于，所述检测及识别模块中，对待模糊判断的医疗票据图片进行目标框检测时，

采用DB算法的表达式为，

式中，

本发明第三方面提供的一种电子设备，包括：处理器；存储器，用于存储计算机程序指令；所述计算机程序指令由所述处理器加载并运行时，所述处理器执行本发明任一项上述的基于OCR识别的医疗票据图片的模糊判断方法。

本发明第四方面提供的一种可读存储介质，所述可读存储介质存储有计算机程序指令，所述计算机程序指令被处理器加载并运行时，所述处理器执行本发明任一项上述的基于OCR识别的医疗票据图片的模糊判断方法。

与现有技术相比，本发明具有以下有益效果：

本发明的方法中，具体提供了一种基于OCR(Optical Character Recognition,光学字符识别)识别的医疗票据图片的模糊判断方法，不同于现有传统的模糊算法，本发明提供的模糊判断方案是通过对字符识别的结果来判断照片的模糊度，可以同时规避对焦模糊和运动模糊的照片，简化了处理的流程。另外，通过OCR的检测和识别的结果还可以对输入图片的角度进行判断，即使不是预设角度的图片，也可以自动进行旋转处理，可减少后台人工审核的工作量，节省相关企业的成本，能够有效的提高医疗***报销的效率，提高客户对企业的满意度。

本发明中，具体考虑了医疗票据图片特点、运动模糊判断特点，采用本发明具体的检测和识别算法，能够提高判断正确率(示例性的，经过实施例具体测试统计，本发明方法对对焦模糊和运动模糊的判断正确率均可以达到95％左右)。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于OCR识别的医疗票据图片的模糊判断方法的流程示意图；

图2是本发明实施例中，选用开源深度学习平台paddle通用检测和识别对输入图片进行目标框检测以及目标框里面内容的识别的流程示意图；

图3是本发明实施例中，经过paddle检测和识别输出切片的文本、坐标及识别结果置信度的效果示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

请参阅图1，本发明实施例的一种基于OCR识别的医疗票据图片的模糊判断方法，包括以下步骤：

(1)对待模糊判断的医疗票据图片进行目标框检测以及每个目标框里面内容的识别，获得切片文本、坐标以及识别结果的置信度；其中，所述置信度为目标框里面字符识别的置信度。

请参阅图2和图3，本发明又一具体实施例中，选用开源深度学习平台paddle通用检测和识别对输入图片进行目标框检测以及目标框里面内容的识别的流程示意图，如图2所示。本发明实施例中，经过paddle检测和识别可以输出切片的文本、坐标、score(识别结果的置信度)，效果如图3所示。

本发明实施例中示例性优选的，选用开源深度学习平台paddle通用检测和识别对输入图片进行目标框检测以及目标框里面内容的识别，获取每个目标框里面字符识别的置信度(score)。其中，paddle通用检测采用DB(Differentiable Binarization)算法。解释性的，由于基于分割的方法对各种形状(弯曲、竖直、多方向)的场景文本检测更加精确，因此，基于分割的方法在场景文本检测领域很流行。

在本发明实施例的目标框检测过程中，采用基于分割的场景文本检测即把分割方法产生的概率图(热力图)转化为边界框和文字区域，其中会包含二值化的后处理过程。二值化的过程非常关键，常规二值化操作通过设定固定的阈值，然而固定的阈值难以适应复杂多变的检测场景。Differentiable Binarization(DB)可以在分割网络中执行二值化过程，可以自适应地设置二值化阈值，不仅简化了后处理，而且提高了文本检测的性能。

下式(1)表示了传统二值化操作的方法，通过固定的阈值对网络输出的概率图进行划分。

式中，P表示概率图，t是预设的划分阈值，(i，j)是图上的像素点。

由于这种二值化方式是不可微分的，因此它无法在训练阶段随着分割网络被优化。在DB算法中提出了一个approximate step function，用于将二值化操作融合于分割网络中。

如下式(2)所示，建立了概率图P和阈值图T与二值化图之间的关系，使得二值化的计算可微，从而可以满足梯度反向传播的条件。

式中，

是近似的二值化图，P_i,j是概率图上的点，T_i,j是阈值图上由网络训练时生成的值，k为放大因子。

示例性的，k依经验设定为50；带有自适应阈值的可微分二值化不仅有助于把文字区域与背景区分开，而且还能把相近的实例分离开来。

paddle识别采用CRNN算法，CRNN是一种卷积循环神经网络结构，用于解决基于图像的序列识别问题，特别是场景文字识别问题。主要用于端到端地对不定长的文本序列进行识别，不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，就是基于图像的序列识别。

(2)基于步骤(1)获得的切片文本、坐标、score(识别结果的置信度)，进行方向判断，获得方向判断结果。如果方向判断结果不是0度，则跳转执行步骤(3)；如果方向判断结果是0度，则跳转执行步骤(4)；

本发明实施例示例性的，如果检测出的切片文本的文本框数量小于20，则认为是270度。

本发明实施例示例性的，计算出所有检测框宽度平均值和高度平均值；去掉score里面三个最大值和一个最小值，求出score的平均值。如果检测框宽度平均值大于等于高度平均值，score的平均值小于0.41，则认为是180度；如果检测框宽度平均值小于高度平均值，score的平均值小于0.41，则认为是270度，score的平均值大于0.41，则认为是90度。

本发明实施例方案原理解释性的，包括：一般医疗票据照片或图片的文本框都比较多，且文本框的平均宽度会大于平均高度，如果图片不正，则可检测出的文本框会比较少，同时每个文本框的score也会比较低，文本框的平均宽度也会低于平均高度。

(3)基于方向判断结果对图片进行旋转矫正；然后重复执行步骤(1)和步骤(2)，再一次调用paddle通用检测和识别。

(4)基于所有切片文本的score进行模糊计算，获得模糊判断结果。

本发明实施例的步骤(4)具体包括：去掉三个最大和一个最小的score。计算剩余切片文本score的平均值，如果平均值大于阈值(0.48)则认为是清晰的，否则就判断为模糊的。

本发明实施例可选的一种基于OCR识别的医疗票据图片的模糊判断方法，包括以下步骤：

(1)获取检测模型；

1.1获取***样本；

1.2用***样本进行模型训练；模型结构：ResNet-50；训练方法为梯度下降法。

(2)直接将待判断的医疗票据图片输入上述获取的检测模型，获得检测结果。

本发明实施例中，可以采用本发明上述思想训练获得检测模型，以提高判断效率。

不同于现有传统的模糊算法，本发明实施例提出的基于OCR识别的模糊判断方案，是通过对字符识别的结果来判断照片的模糊度，可以同时规避对焦模糊和运动模糊的照片，简化了处理的流程。

本发明实施例中，经过测试统计，对对焦模糊和运动模糊的判断正确率均可以达到95％左右。

综上，本发明的技术方案中，针对技术问题具体考虑了医疗票据特点、运动模糊判断特点，采用本发明具体的检测和识别算法能够将判断正确率从50％左右提高至95％左右；另外，通过OCR的检测和识别的结果还可以对所输入图片的角度进行判断，即使不是正角度的图片，也可以自动进行旋转处理，减少了后台人工审核的工作量，节省了相关企业的成本，可以有效的提高医疗***报销的效率，提高了客户对企业的满意度。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

本发明再一实施例提供的一种基于OCR识别的医疗票据图片的模糊判断***，包括：

方向判断结果获取模块，用于基于获得的切片文本、坐标以及识别结果置信度，对医疗票据图片进行方向判断，获得方向判断结果；其中，如果方向判断结果是0度，则跳转执行模糊判断结果获取模块中的步骤，否则跳转执行旋转矫正模块中的步骤；

模糊判断结果获取模块，用于基于所有切片文本的识别结果置信度进行模糊计算，获得模糊判断结果，完成医疗票据图片的模糊判断。

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于OCR识别的医疗票据图片的模糊判断方法的操作。

本发明再一个实施例中，还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作***。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于OCR识别的医疗票据图片的模糊判断方法的相应步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种医疗票据图片的模糊判断方法，其特征在于，包括以下步骤：

步骤1、对待模糊判断的医疗票据图片进行目标框检测以及每个目标框内的内容识别，获得切片文本、坐标以及识别结果置信度；其中，所述识别结果置信度为所述目标框内的字符识别置信度；

2.根据权利要求1所述的一种医疗票据图片的模糊判断方法，其特征在于，步骤1中，所述对待模糊判断的医疗票据图片进行目标框检测时，

采用DB算法的表达式为，

式中，

3.根据权利要求1所述的一种医疗票据图片的模糊判断方法，其特征在于，步骤1中，所述待模糊判断的医疗票据图片为用户端上传的照片。

4.根据权利要求1所述的一种医疗票据图片的模糊判断方法，其特征在于，步骤2具体包括：

否则，方向判断结果为预设角度。

5.根据权利要求4所述的一种医疗票据图片的模糊判断方法，其特征在于，所述预设角度为0度。

6.根据权利要求4所述的一种医疗票据图片的模糊判断方法，其特征在于，所述识别结果置信度的平均值的获取步骤包括：

7.一种医疗票据图片的模糊判断***，其特征在于，包括：

8.根据权利要求7所述的一种医疗票据图片的模糊判断***，其特征在于，所述检测及识别模块中，对待模糊判断的医疗票据图片进行目标框检测时，

采用DB算法的表达式为，

式中，

9.一种电子设备，包括：处理器；存储器，用于存储计算机程序指令；其特征在于，

所述计算机程序指令由所述处理器加载并运行时，所述处理器执行权利要求1至6中任一项所述的医疗票据图片的模糊判断方法。

10.一种可读存储介质，所述可读存储介质存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器加载并运行时，所述处理器执行权利要求1至6中任一项所述的医疗票据图片的模糊判断方法。