CN112257613A

CN112257613A - 体检报告信息结构化提取方法、装置及计算机设备

Info

Publication number: CN112257613A
Application number: CN202011149638.3A
Authority: CN
Inventors: 欧光礼
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-22
Anticipated expiration: 2040-10-23
Also published as: CN112257613B

Abstract

本发明公开了体检报告信息结构化提取方法、装置、计算机设备及存储介质，涉及图像识别技术，可应用于智慧医疗场景，包括获取体检报告影像图片集对应的报告来源信息，定位体检报告影像图片集中的待识别区域组成待识别区域图片集；将其依次进行去除透视形变及文字识别得到对应的识别文本；通过语义分析定位获取识别文本中目标字段及目标字段取值以组成目标文本集；调用预先存储的标准字段集对目标文本集中各目标字段进行校正以得到校正后目标文本集；将校正后目标文本集存储至对应创建的存储区域，以得到体检报告结构化信息。该方法实现了对待识别区域的快速定位，对待识别区域的精准文本识别以及对体检报告核心体检数据的快速结构化提取。

Description

体检报告信息结构化提取方法、装置及计算机设备

技术领域

本发明涉及人工智能的图像识别技术领域，尤其涉及一种体检报告信息结构化提取方法、装置、计算机设备及存储介质。

背景技术

在保险核保领域，体检报告信息录入是一个非常重要的环节，目前主要采用人工录入的方式进行处理，也即核保人员通过查看用户提交的体检报告原件后录入与该投保人相对应的体检报告信息，整个录入过程效率低下且人力成本高，导致了核保效率低下。

发明内容

本发明实施例提供了一种体检报告信息结构化提取方法、装置、计算机设备及存储介质，旨在解决现有技术中保险核保***中是采用人工录入体检报告关键信息的方式，导致整个录入过程效率低下且人力成本高的问题。

第一方面，本发明实施例提供了一种体检报告信息结构化提取方法，其包括：

接收用户端上传的体检报告影像图片集，通过OCR识别获取所述体检报告影像图片集对应的报告来源信息；其中，所述报告来源信息包括体检报告出具机构名称和体检报告类型；

调用预先存储的体检报告样本集，获取每一体检报告样本对应的样本报告来源信息和样本体检数据分布区域；

若所述体检报告样本集中存在有体检报告样本对应的样本报告来源信息与所述体检报告影像图片集的报告来源信息相同，获取该体检报告样本的样本体检数据分布区域，以定位所述体检报告影像图片集中的待识别区域组成待识别区域图片集；

将所述待识别区域图片集依次进行去除透视形变及文字识别，得到所述待识别区域图片集对应的识别文本；

通过语义分析定位获取所述识别文本中目标字段及目标字段取值，以组成目标文本集；

调用预先存储的标准字段集，获取所述目标文本集中各目标字段在所述标准字段集中对应的近似字段，对所述目标文本集中各目标字段进行校正，以得到校正后目标文本集；以及

将所述校正后目标文本集存储至对应创建的存储区域，以得到体检报告结构化信息。

第二方面，本发明实施例提供了一种体检报告信息结构化提取装置，其包括：

体检报告图片接收单元，用于接收用户端上传的体检报告影像图片集，通过OCR识别获取所述体检报告影像图片集对应的报告来源信息；其中，所述报告来源信息包括体检报告出具机构名称和体检报告类型；

样本集获取单元，用于调用预先存储的体检报告样本集，获取每一体检报告样本对应的样本报告来源信息和样本体检数据分布区域；

待识别区域图片集定位单元，用于若所述体检报告样本集中存在有体检报告样本对应的样本报告来源信息与所述体检报告影像图片集的报告来源信息相同，获取该体检报告样本的样本体检数据分布区域，以定位所述体检报告影像图片集中的待识别区域组成待识别区域图片集；

文本识别单元，用于将所述待识别区域图片集依次进行去除透视形变及文字识别，得到所述待识别区域图片集对应的识别文本；

目标文本集获取单元，用于通过语义分析定位获取所述识别文本中目标字段及目标字段取值，以组成目标文本集；

目标文本校正单元，用于调用预先存储的标准字段集，获取所述目标文本集中各目标字段在所述标准字段集中对应的近似字段，对所述目标文本集中各目标字段进行校正，以得到校正后目标文本集；以及

结构化信息获取单元，用于将所述校正后目标文本集存储至对应创建的存储区域，以得到体检报告结构化信息。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的体检报告信息结构化提取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的体检报告信息结构化提取方法。

本发明实施例提供了一种体检报告信息结构化提取方法、装置、计算机设备及存储介质，包括通过OCR识别获取体检报告影像图片集对应的报告来源信息；调用预先存储的体检报告样本集，获取每一体检报告样本对应的样本报告来源信息和样本体检数据分布区域；若体检报告样本集中存在有体检报告样本对应的样本报告来源信息与体检报告影像图片集的报告来源信息相同，获取该体检报告样本的样本体检数据分布区域，以定位体检报告影像图片集中的待识别区域组成待识别区域图片集；将待识别区域图片集依次进行去除透视形变及文字识别，得到待识别区域图片集对应的识别文本；通过语义分析定位获取识别文本中目标字段及目标字段取值，以组成目标文本集；调用预先存储的标准字段集，获取目标文本集中各目标字段在标准字段集中对应的近似字段，对目标文本集中各目标字段进行校正，以得到校正后目标文本集；将校正后目标文本集存储至对应创建的存储区域，以得到体检报告结构化信息。该方法实现了对待识别区域的快速定位，对待识别区域的精准文本识别以及对体检报告核心体检数据的快速结构化提取。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的体检报告信息结构化提取方法的应用场景示意图；

图2为本发明实施例提供的体检报告信息结构化提取方法的流程示意图；

图3为本发明实施例提供的体检报告信息结构化提取方法的子流程示意图；

图4为本发明实施例提供的体检报告信息结构化提取装置的示意性框图；

图5为本发明实施例提供的体检报告信息结构化提取装置的子单元示意性框图；

图6为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的体检报告信息结构化提取方法的应用场景示意图；图2为本发明实施例提供的体检报告信息结构化提取方法的流程示意图，该体检报告信息结构化提取方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S110～S170。

S110、接收用户端上传的体检报告影像图片集，通过OCR识别获取所述体检报告影像图片集对应的报告来源信息；其中，所述报告来源信息包括体检报告出具机构名称和体检报告类型。

在本实施例中，可以将投保***和核保***均部署在服务器中，当有用户使用用户端与服务器建立通讯连接而且登录了投保***后，在用户端上显示投保***的用户交互界面。此时，用户可以选择之前投保的险种(例如重疾险)后，针对该险种上传理赔资料(例如上传体检报告影像图片集作为理赔资料，该体检报告影像图片集中包括多张体检报告影像图片，一般是用户使用用户端的拍照功能拍摄若干张纸质的体检报告的图片组成体检报告影像图片集)，这些理赔资料上传到服务器中后，流转到核保***中进行理赔资料核验。

当服务器中部署的核保***接收到了用户端上传的体检报告影像图片集之后，为了判断是哪一家体检报告出具机构的哪一种类型的体检报告模板，此时可以通过OCR识别获取所述体检报告影像图片集的局部区域的文本，以获取对应的报告来源信息。

在一实施例中，步骤S110包括：

获取所述体检报告影像图片集的首页上半部区域，通过OCR识别获取所述首页上半部区域对应的前三行文字，以获取所述体检报告影像图片集对应的报告来源信息。

在本实施例中，不同医院或体检机构有不同的体检报告模板，各体检报告模板的体检数据排布区域存在差异，更具体如医院A的第一类型体检数据(如血常规体检数据)一般分布在体检报告的第一页下半部分，医院A的第二类型体检数据(如常规全身体检数据)一般分布在体检报告的第二页至第五页，医院B的体检数据一般分布在体检报告的第二页下半部分和第三页上半部分。

之所以识别所述体检报告影像图片集的局部区域(一般是体检报告影像图片集首页的抬头部分，例如首页的前3行文字一般会包括医院名称或体检机构的名称及体检报告类型，也即分布在体检报告影像图片集首页的抬头部分)的文本，是因为可以在这一区域识别到该体检报告的出具机构以及体检报告类型，从而可以快速的判断其体检数据的分布区域。

S120、调用预先存储的体检报告样本集，获取每一体检报告样本对应的样本报告来源信息和样本体检数据分布区域。

在本实施例中，由于在服务器的核保***中存储了多家体检报告出具机构分别对应的体检报告样本，而且每一体检报告样本对应的样本报告来源信息和样本体检数据分布区域是已知的。这样将所述体检报告影像图片集对应的报告来源信息与体检报告样本集的样本报告来源信息一一进行比对，即可快速判断获取所述体检报告影像图片集对应的检数据分布区域。

S130、若所述体检报告样本集中存在有体检报告样本对应的样本报告来源信息与所述体检报告影像图片集的报告来源信息相同，获取该体检报告样本的样本体检数据分布区域，以定位所述体检报告影像图片集中的待识别区域组成待识别区域图片集。

在本实施例中，例如当用户端上传的所述体检报告影像图片集的报告来源信息对应A1出具机构B1体检报告类型，且在所述体检报告样本集中存在有体检报告样本对应的样本报告来源信息也是A1出具机构B1体检报告类型，那么可以获取该体检报告样本的样本体检数据分布区域(具体如体检数据分布在体检报告的第二页下半部分和第三页上半部分)，直接根据该样本体检数据分布区域定位所述体检报告影像图片集中的相同区域作为待识别区域，由各待识别区域对应的待识别区域图片组成待识别区域图片集。这些待识别区域是有先后顺序的，即每一待识别区域都对应一个页码属性值，例如体检数据分布在体检报告的第二页下半部分则该区域对应的页码属性值等于2，体检数据分布在体检报告的第三页上半部分则该区域对应的页码属性值等于3。

例如体检报告影像图片集对应的是A1出具机构B1体检报告类型，则定位体检报告影像图片集中第二页下半部分的区域作为待识别区域1(待识别区域1对应的图片记为待识别区域图片1)，定位体检报告影像图片集中第三页上半部分的区域作为待识别区域2(待识别区域2对应的图片记为待识别区域图片2)，由待识别区域图片1和待识别区域图片2组成待识别区域图片集。通过这一根据体检报告出具机构和体检报告类型来快速定位体检报告影像图片集的方式，快速筛选出了提取体检报告数据的精准定位区域，使得后续进行文本识别的区域减小，从而提高了文本识别及数据提取的效率。

S140、将所述待识别区域图片集依次进行去除透视形变及文字识别，得到所述待识别区域图片集对应的识别文本。

在本实施例中，当通过体检报告影像图片集的报告来源信息获取了所述待识别区域图片集后，此时为了更加准确的进行文本识别，在文本识别之前还需对图片集进行去透视变形的预处理，这样能更加准确和快速的提取图片中的文本。

在一实施例中，如图3所示，步骤S140包括：

S141、通过Warping算法对所述待识别区域图片集去除透视变形，得到第一处理图片集；

S142、对所述第一处理图片集中各第一处理图片进行字符切割，得到多个字符切割子图片，以组成字符切割子图片集；

S143、调用预先训练的CRNN-CTC文字识别模型，通过所述CRNN-CTC文字识别模型对所述字符切割子图片集中各字符切割子图片进行文字识别，得到与各字符切割子图片分别对应的字符识别结果；

S144、将与各字符切割子图片分别对应的字符识别结果依序进行串接组合，得到所述待识别区域图片集对应的识别文本。

在本实施例中，由于已经获取了所述体检报告影像图片集对应的待识别区域图片集，且待识别区域图片集中的待识别区域图片是根据页码属性值的大小升序排列的，此时通过Warping算法(即图像变形算法)对所述待识别区域图片集中各待识别区域图片依序进行去除透视变形处理，得到各待识别区域图片分别对应的第一处理图片，以组成第一处理图片集。

在一实施例中，步骤S141包括：

通过Warping算法中的单应性矩阵将所述待识别区域图片集中各待识别区域图片所有的相交线段转变成平行线段以去除透视变形，得到第一处理图片集。

在本实施例中，去除透视变形可通过单应性矩阵(homographymatrix)来实现。在计算机视觉中，平面的单应性被定义为从一个平面到另一个平面的投影映射。通过OpenCV(其是一个基于BSD许可发行的跨平台计算机视觉和机器学***行线段，之后还可增加去除几何变形的处理，从而得到了第一处理图片集。

在获取了第一处理图片集后，为了更准确的进行文本识别，还需对第一处理图片集中各第一处理图片进行字符切割，也即将各第一处理图片再次细化切割为多个字符切割子图片，以组成字符切割子图片集。通过这种更加细粒度的字符切割的模式，便于后续更加准确的进行小区域的文本识别。具体实施时，可选择统计分割法或基于水平/垂直投影字符切割法对第一处理图片集中各第一处理图片进行字符切割，以得到字符切割子图片集。

在获取了字符切割子图片集，调用服务器中本地存储且完成训练的CRNN-CTC文字识别模型，以对字符切割子图片集中各字符切割子图片进行文本识别。其中，在CRNN-CTC文字识别模型中CRNN网络是由CNN(卷积神经网络)和RNN(循环神经网络)混合组成的神经网络，CRNN网络的卷积层就是一个CNN网络(用于提取输入图像的卷积特征矩阵)，CRNN网络的循环网络层是一个深层双向LSTM网络(用于在在卷积特征矩阵的基础上继续提取文字序列特征)，将CRNN网络的循环网络层的输出做softmax后输出输入图像对应的提取文本。CTC(CTC的英文全称是Connectionist Temporal Classification，表示连接时序分类)，即用来解决输入序列和输出序列难以一一对应的问题，可以提高单行文本识别鲁棒性。

当按照字符切割子图片的顺序依序识别出字符识别结果后，此时可以将与各字符识别结果依序进行串接组合，得到所述待识别区域图片集对应的识别文本，识别文本中包括多个字符(可能是英文字符，数字字符、符号字符和/或中文字符)。这样完成了对所述待识别区域图片集的识别后，即可用于提取后续用户所需的关键数据。

S150、通过语义分析定位获取所述识别文本中目标字段及目标字段取值，以组成目标文本集。

在本实施例中，采用句子级语义分析对所述识别文本进行目标字段及目标字段取值的提取，更具体是可采用基于完全句法分析的语义角色标注的方法来进行语义分析。当给定了所述识别文本后，依序进行句法分析、候选论元剪除、论元识别、论元标注、后处理(将标注之后的论元进行处理或者加上一些更加丰富的信息)之后，得到目标文本集，实现了目标字段及目标字段取值的提取。

在一实施例中，所述步骤S150包括：

将所述识别文本根据分隔符划分为多个待识别语句；

通过语义分析获取每一待识别语句分别包括的目标字段及目标字段取值，以组成目标文本集。

在本实施例中，由于语义分析中采用的是句子级语义分析对所述识别文本进行目标字段及目标字段取值的提取，在语义分析之前可以将所述识别文本根据分隔符(如句号。.、转行符或是每一字符切割子图片的末位端自动视为分隔符)划分为多个待识别语句，之后即可采用句子级语义分析对所述识别文本进行目标字段及目标字段取值的提取。

S160、调用预先存储的标准字段集，获取所述目标文本集中各目标字段在所述标准字段集中对应的近似字段，对所述目标文本集中各目标字段进行校正，以得到校正后目标文本集。

在本实施例中，由于识别出来的目标文本集中可能存在有目标字段不是标准体检术语，此时可以针对所述目标文本集中每一目标字段在所述标准字段集中搜索待对应的近似字段(这一近似字段可能与目标字段完全相同，也有可能只有1-2个字符之差)，通过每一目标字段的近似字段对所述目标文本集中各目标字段进行校正，以得到校正后目标文本集。通过这一字段校正过程后，得到的文本识别结果更加准确。

在一实施例中，步骤S160包括：

获取所述目标文本集中各目标字段与所述标准字段集中各标准字段的字符串编辑距离，以将与各目标字段有最小字符串编辑距离的标准字段作为各目标字段分别对应的近似字段；

判断各目标字段与相对应的近似字段是否相同；

若有目标字段与相对应的近似字段不相同，将该目标字段替换为对应的近似字段，以得到校正后目标文本集。

在本实施例中，采用字符串编辑距离来判断两个字符之间的相似性。字符串编辑距离是指利用字符操作，把字符串A转换成字符串B所需要的最少操作数。其中，字符操作包括：删除一个字符；***一个字符；修改一个字符。例如对于字符串"if"和"iff"，可以通过***一个'f'或者删除一个'f'来达到目的。

若所述目标文本集中各目标字段与相对应的近似字段均相同，表示此时无目标字段需进行校正，直接将目标文本集作为校正后目标文本集。若有目标字段与相对应的近似字段不相同，表示有目标字段存在不是规范用语或是识别误差导致的，此时可以将该目标字段替换为对应的近似字段，以得到校正后目标文本集。通过这一基于字符串编辑距离的近似字段替换方法，能更快速和准确的对文本识别结果进行校正。

S170、将所述校正后目标文本集存储至对应创建的存储区域，以得到体检报告结构化信息。

在本实施例中，经过字段校正后得到的所述校正后目标文本集，既可以作为最终的体检报告结构化信息存储在服务器本地。在预先创建存储区域时，该存储区域的名字可以与用户端的终端唯一识别码相同，且在该存储区域内设置多个子文件夹，以分别存储用户端在不同操作时间段上传的体检报告影像图片集对应的体检报告结构化信息。通过这一分区存储的方式，便于对各用户的体检报告结构化信息进行分区检索，提高检索效率。

在一实施例中，步骤S170之后还包括：

将所述体检报告结构化信息上传至区块链网络。

在本实施例中，服务器可以作为一个区块链节点设备，以将所述体检报告结构化信息上传至区块链网络，充分利用区块链数据不可篡改的特性，实现数据证据固化。

其中，基于所述体检报告结构化信息得到对应的摘要信息，具体来说，摘要信息由所述体检报告结构化信息进行散列处理得到，比如利用sha256算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证所述体检报告结构化信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

该方法实现了对待识别区域的快速定位，对待识别区域的精准文本识别以及对体检报告核心体检数据的快速结构化提取。

本发明实施例还提供一种体检报告信息结构化提取装置，该体检报告信息结构化提取装置用于执行前述体检报告信息结构化提取方法的任一实施例。具体地，请参阅图4，图4是本发明实施例提供的体检报告信息结构化提取装置的示意性框图。该体检报告信息结构化提取装置100可以配置于服务器中。

如图4所示，体检报告信息结构化提取装置100包括：体检报告图片接收单元110、样本集获取单元120、待识别区域图片集定位单元130、文本识别单元140、目标文本集获取单元150、目标文本校正单元160、结构化信息获取单元170。

体检报告图片接收单元110，用于接收用户端上传的体检报告影像图片集，通过OCR识别获取所述体检报告影像图片集对应的报告来源信息；其中，所述报告来源信息包括体检报告出具机构名称和体检报告类型。

在一实施例中，体检报告图片接收单元110包括：

报告来源信息识别单元，用于获取所述体检报告影像图片集的首页上半部区域，通过OCR识别获取所述首页上半部区域对应的前三行文字，以获取所述体检报告影像图片集对应的报告来源信息。

样本集获取单元120，用于调用预先存储的体检报告样本集，获取每一体检报告样本对应的样本报告来源信息和样本体检数据分布区域。

待识别区域图片集定位单元130，用于若所述体检报告样本集中存在有体检报告样本对应的样本报告来源信息与所述体检报告影像图片集的报告来源信息相同，获取该体检报告样本的样本体检数据分布区域，以定位所述体检报告影像图片集中的待识别区域组成待识别区域图片集。

文本识别单元140，用于将所述待识别区域图片集依次进行去除透视形变及文字识别，得到所述待识别区域图片集对应的识别文本。

在一实施例中，如图5所示，文本识别单元140包括：

去除透视变形处理单元141，用于通过Warping算法对所述待识别区域图片集去除透视变形，得到第一处理图片集；

字符切割单元142，用于对所述第一处理图片集中各第一处理图片进行字符切割，得到多个字符切割子图片，以组成字符切割子图片集；

字符识别单元143，用于调用预先训练的CRNN-CTC文字识别模型，通过所述CRNN-CTC文字识别模型对所述字符切割子图片集中各字符切割子图片进行文字识别，得到与各字符切割子图片分别对应的字符识别结果；

识别结果组合单元144，用于将与各字符切割子图片分别对应的字符识别结果依序进行串接组合，得到所述待识别区域图片集对应的识别文本。

在一实施例中，去除透视变形处理单元141还用于：

目标文本集获取单元150，用于通过语义分析定位获取所述识别文本中目标字段及目标字段取值，以组成目标文本集。

在一实施例中，目标文本集获取单元150包括：

待识别语句获取单元，用于将所述识别文本根据分隔符划分为多个待识别语句；

目标文本集获取单元，用于通过语义分析获取每一待识别语句分别包括的目标字段及目标字段取值，以组成目标文本集。

目标文本校正单元160，用于调用预先存储的标准字段集，获取所述目标文本集中各目标字段在所述标准字段集中对应的近似字段，对所述目标文本集中各目标字段进行校正，以得到校正后目标文本集。

在一实施例中，目标文本校正单元160包括：

近似字段获取单元，用于获取所述目标文本集中各目标字段与所述标准字段集中各标准字段的字符串编辑距离，以将与各目标字段有最小字符串编辑距离的标准字段作为各目标字段分别对应的近似字段；

相似字段判断单元，用于判断各目标字段与相对应的近似字段是否相同；

校正后目标文本集获取单元，用于若有目标字段与相对应的近似字段不相同，将该目标字段替换为对应的近似字段，以得到校正后目标文本集。

结构化信息获取单元170，用于将所述校正后目标文本集存储至对应创建的存储区域，以得到体检报告结构化信息。

在一实施例中，步体检报告信息结构化提取装置100还包括：

数据上链单元，用于将所述体检报告结构化信息上传至区块链网络。

该装置实现了对待识别区域的快速定位，对待识别区域的精准文本识别以及对体检报告核心体检数据的快速结构化提取。

上述体检报告信息结构化提取装置可以实现为计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图6，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行体检报告信息结构化提取方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行体检报告信息结构化提取方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的体检报告信息结构化提取方法。

本领域技术人员可以理解，图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图6所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的体检报告信息结构化提取方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种体检报告信息结构化提取方法，其特征在于，包括：

2.根据权利要求1所述的体检报告信息结构化提取方法，其特征在于，所述通过OCR识别获取所述体检报告影像图片集对应的报告来源信息，包括：

3.根据权利要求1所述的体检报告信息结构化提取方法，其特征在于，所述将所述待识别区域图片集依次进行去除透视形变及文字识别，得到所述待识别区域图片集对应的识别文本，包括：

通过Warping算法对所述待识别区域图片集去除透视变形，得到第一处理图片集；

对所述第一处理图片集中各第一处理图片进行字符切割，得到多个字符切割子图片，以组成字符切割子图片集；

调用预先训练的CRNN-CTC文字识别模型，通过所述CRNN-CTC文字识别模型对所述字符切割子图片集中各字符切割子图片进行文字识别，得到与各字符切割子图片分别对应的字符识别结果；

将与各字符切割子图片分别对应的字符识别结果依序进行串接组合，得到所述待识别区域图片集对应的识别文本。

4.根据权利要求3所述的体检报告信息结构化提取方法，其特征在于，所述通过Warping算法对所述待识别区域图片集去除透视变形，得到第一处理图片集，包括：

5.根据权利要求1所述的体检报告信息结构化提取方法，其特征在于，所述通过语义分析定位获取所述识别文本中目标字段及目标字段取值，以组成目标文本集，包括：

将所述识别文本根据分隔符划分为多个待识别语句；

6.根据权利要求1所述的体检报告信息结构化提取方法，其特征在于，所述获取所述目标文本集中各目标字段在所述标准字段集中对应的近似字段，对所述目标文本集中各目标字段进行校正，以得到校正后目标文本集，包括：

判断各目标字段与相对应的近似字段是否相同；

7.根据权利要求1所述的体检报告信息结构化提取方法，其特征在于，所述将所述校正后目标文本集存储至对应创建的存储区域，以得到体检报告结构化信息之后，还包括：

将所述体检报告结构化信息上传至区块链网络。

8.一种体检报告信息结构化提取装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的体检报告信息结构化提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的体检报告信息结构化提取方法。