CN118172789A

CN118172789A - 信息识别方法和计算机程序产品

Info

Publication number: CN118172789A
Application number: CN202410217040.5A
Authority: CN
Inventors: 张超; 何立东; 张祖权
Original assignee: Zhejiang Feizhu Network Technology Co ltd
Current assignee: Zhejiang Feizhu Network Technology Co ltd
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-06-11

Abstract

本公开涉及信息识别方法和计算机程序产品。该方法包括：实时呈现拍摄目标识别对象得到的视频，其中所述目标识别对象中的多个文本信息具有预设的呈现布局；以及响应于对所述视频中的图像帧进行实时识别的结果存在未成功识别文本信息的区域，在实时呈现的所述视频上，针对所述未成功识别的区域，呈现相应的提示信息。利用该方法，能够提高信息识别的准确性和效率，并且提高用户体验。

Description

信息识别方法和计算机程序产品

技术领域

本公开涉及信息识别领域，特别涉及信息识别方法和计算机程序产品等。

背景技术

目前，在各种场景，例如身份验证、信息登记、交易安全等场景，通常需要在各种设备、特别是移动设备上进行例如身份证件等的文件的扫描，从而进行信息识别，快速便捷地获得文件中的信息以便进行身份验证或信息录入等操作。然而，使用移动设备拍摄文件时，经常会因为例如光线反射引起的反光现象等因素影响图像质量，这不仅降低了图像的可用性，也直接影响到基于这些图像进行的识别的准确性。

由此期望提供一种改进的信息识别方法。

发明内容

本公开要解决的一个技术问题是提供一种的改进的信息识别方法，其能提高信息识别的准确性等。

根据本公开的第一个方面，提供了一种信息识别方法，包括：实时呈现拍摄目标识别对象得到的视频，其中所述目标识别对象中的多个文本信息具有预设的呈现布局；以及响应于对所述视频中的图像帧进行实时识别的结果存在未成功识别文本信息的区域，在实时呈现的所述视频上，针对所述未成功识别的区域，呈现相应的提示信息。

可选地，所述实时识别的结果包括所述目标识别对象中至少一个文本信息的文本识别结果及其位置；通过如下步骤确定对所述视频中的图像帧进行实时识别的结果存在未成功识别的区域：将实时识别所获得的文本识别结果及其位置与指定类型的目标识别对象模板中的至少一个字段的信息进行匹配，得到匹配结果，其中匹配不通过的字段对应的区域为所述未成功识别的区域。

可选地，针对所述未成功识别的区域呈现的相应的提示信息包括：相应的调整所述目标识别对象拍摄的提示信息和/或突出展示所述未成功识别的区域的标识。

可选地，所述至少一个字段的信息包括预定的文本规则和位置范围；以及得到匹配结果的步骤包括：根据所获得的文本识别结果与所述预定的文本规则的匹配程度和/或所获得的文本识别结果的位置与所述预定的位置范围的匹配程度，获得对于所述字段的匹配分数，其中匹配分数低于其预设阈值的字段为匹配不通过的字段。

可选地，所述至少一个字段包括用于表征目标识别对象的类型的至少一个特征文本字段、以及包含要采集的文本信息的至少一个文本信息字段；得到匹配结果的步骤包括：至少根据所获得的文本识别结果与所述特征文本字段中的至少一个字段的信息的匹配程度，得到类型匹配分数；根据所述类型匹配分数，判断所述目标识别对象的类型是否匹配所述指定类型；在所述目标识别对象的类型匹配所述指定类型的情况下，将所获得的文本识别结果及其位置与所述至少一个文本信息字段的信息分别进行匹配，分别得到对于各文本信息字段的匹配分数。

可选地，判断所述目标识别对象的类型是否匹配所述指定类型的步骤包括：按照预定顺序依次将所获得的文本识别结果或文本识别结果及其位置与所述至少一个特征文本字段的信息分别进行匹配，直到任意一个特征文本字段的匹配分数超过其预设阈值，确定所述目标识别对象的类型匹配所述指定类型；在所有特征文本字段的匹配分数均不超过其预设阈值的情况下，确定所述目标识别对象的类型不匹配所述指定类型。

可选地，将所获得的文本识别结果及其位置与所述至少一个文本信息字段的信息分别进行匹配的步骤包括：将匹配分数超过其预设阈值的特征文本字段对应的第一文本识别结果的相关位置确定为基准坐标；基于所述基准坐标，查找在所述图像帧中所述至少一个文本信息字段各自对应的位置范围内所获得的第二文本识别结果，并检验所获得的第二文本识别结果与对应文本信息字段的预定的文本规则的匹配程度，得到对于各文本信息字段的匹配分数。

可选地，在实时呈现的所述视频上针对未成功识别的区域呈现相应的提示信息的步骤包括：在对于文本信息字段中的至少一个的匹配分数低于其预设阈值的情况下，在实时呈现的所述视频上突出展示匹配分数低于其预设阈值的文本信息字段所在的区域，并且呈现相应的调整目标识别对象拍摄的文字说明；并且/或者，所述方法还包括：在所述目标识别对象的类型不匹配所述指定类型的情况下，在实时呈现的所述视频上呈现类型错误的提示信息。

可选地，所述方法还包括：响应于对所述视频中的图像帧进行实时识别的结果不存在未成功识别的区域，将所获得的文本识别结果作为对应字段的文本信息传输到服务端进行文本信息规则校验；以及在校验不通过的情况下，在实时呈现的所述视频上呈现相应的提示信息。

可选地，所述方法还包括：更新所述图像帧，并对更新后的图像帧进行实时识别的结果的分析和/或校验，直到不存在未成功识别的区域和/或校验通过。

根据本公开的第二个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。

根据本公开的第三个方面，提供了一种计算机程序产品，包括可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上述第一方面所述的方法。

根据本公开的第四个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一方面所述的方法。

由此，利用根据本公开的方法，能够提高信息识别的准确性和效率，并且提高用户体验。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本公开至少一个实施例的信息识别方法的示意性流程图。

图2示出了根据本公开至少一个实施例的信息识别方法的示意性流程图。

图3示出了根据本公开至少一个实施例的信息识别方法中的一些主要步骤的示意性流程图。

图4至图7分别示出了根据本公开至少一个实施例的示例性目标识别对象的图像及一些示例性的用户界面显示。

图8示出了根据本公开至少一个实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本公开发现，目前在进行信息识别时，经常会因为例如光线反射引起的反光现象等因素影响拍摄的图像质量，从而影响到信息识别的准确性。传统方案通常没有提供有效的解决方案来指导用户如何在拍摄过程中避免或减少这种反光现象，因此用户通常需要通过反复尝试来获得合格的图像从而完成信息识别，这不仅降低了数据采集的效率，也可能导致用户的挫败感和不满。

此外，即使在没有反光的情况下，用户在拍摄目标识别对象时也可能由于角度不当、距离过远或过近等原因导致图像质量不佳，信息识别准确性不高。而传统方案也无法实时反馈这些问题并且提供有效的解决方案，这进一步增加了用户在操作过程中遇到困难的可能性。

由此，本公开提出了一种新的信息识别方法，其能够实时分析所拍摄的图像的质量，有效地实时指导用户调整拍摄方式，从而不仅极大提高了图像采集的效率和准确性，也改善了用户的使用体验。在一些实施例中，本公开的方案专门针对具有固定格式(即，预设的呈现布局)的目标识别对象(例如证件等)定制模板以及相应的匹配分析方法，能够提高识别准确率。在一些实施例中，本公开的方案可以专门为移动设备用户设计，不仅可以提供简化和直观的用户界面来指导用户拍摄，而且可以专注于减少移动端可能出现的主要问题，比如反光问题等，从而提高移动设备用户的操作便捷性。

应理解，本公开的方案处理的“目标识别对象”包含多个文本信息，并且该多个文本信息具有预设的呈现布局，本公开的信息识别方法用来识别并提取该目标识别对象中的一个或多个文本信息。该目标识别对象可以包括任何将其中文本信息按照预设的布局呈现的文件，其不仅包括例如身份证、护照之类的用来证明身份、资质、经历等的证书和文件，还包括例如***之类的票据和其他具有固定格式的文件(如个人或公司定制的以固定表格/模板方式收集或显示特定信息的文件)。该文本信息可以包括固定文本内容或者根据实际情况填写/产生的可变文本内容，每个文本信息均反映了目标识别对象所包含的一种信息。

应理解，本公开实施例提供的信息识别方法可以广泛适用于所有有通过拍摄对象进行信息识别的产品，例如：

·提供在线身份验证服务的产品：其可以提供给需要身份证明的网站或应用程序，如在线银行、保险公司等；

·在线预订机票/酒店的平台：用户可以通过手机拍摄证件来快速录入预订所需的个人身份信息；

·移动支付***：用户需要通过手机拍摄证件来设置或验证支付账户；

·移动报销***：员工可以用手机拍摄***进行报销；

·客户关系管理(CRM)***：在一些情况下企业需要通过拍摄文件来录入客户相关信息；

·自动化机场登机***：乘客可以快速拍摄护照和登机牌，提高安全检查速度；

·智能门禁***：使用证件拍摄进行身份验证，提高安全性并减少人力监察需求；

·法律合规检查工具：帮助企业在进行背景调查和合规性验证时自动化证件检查流程。

下面将结合附图来详细描述本公开的方案的至少部分实施例。

如图1所示，在步骤S110中，实时呈现拍摄目标识别对象得到的视频。如前所述，所拍摄的目标识别对象中的多个文本信息具有预设的呈现布局，该目标识别对象例如可以为某一特定类型的文件，包括如身份证、护照等的证件。应理解，本公开的方案不仅可以适用于实物类型的目标识别对象(如纸质文件或实体证件等)，还可以适用于电子类型的目标识别对象，例如可以拍摄在其他显示屏上显示的电子文件，该显示的电子文件即为目标识别对象。

例如，在使用移动设备(例如智能手机等)上的某些应用程序时，需要用户提供身份信息以便进行身份验证或者在线预订机票/酒店等操作，此时可通过移动设备上自带的摄像头拍摄相关证件，从而进行证件信息识别，获得证件上的个人身份信息。

可以在用摄像头拍摄目标识别对象的同时在该应用程序的用户界面(UI)上的取景框中实时预览(呈现)该目标识别对象的视频，类似于使用拍照应用程序时实时预览视频以便取景的操作。在一些情况下，还可以在该UI上呈现一些提示信息，比如引导用户拍摄目标识别对象的文字说明、提示目标识别对象类型的文字等。

应理解，拍摄目标识别对象的摄像装置并不一定位于实时呈现所拍摄的目标识别对象的视频的设备上，在一些情况下也可以是分离的设备，其可以将拍摄所得的视频通过各种方式传输到实时呈现视频的设备；本公开对此不作限制。

然后，在步骤S120中，响应于对所述视频中的图像帧进行实时识别的结果存在未成功识别文本信息的区域，在实时呈现的所述视频上，针对所述未成功识别的区域，呈现相应的提示信息。

应理解，所谓的“实时识别”指的是在进行拍摄的同时立即对图像中的文本进行识别。在拍摄视频的情况下，可以即时对当前最新的图像帧进行识别。例如，前述的实时识别的结果可以包括目标识别对象中至少一个文本信息的文本识别结果及其位置。可以对整个图像都进行识别并得到所有的文本识别结果及其位置，或者可以根据需要仅对图像中的指定区域进行识别并得到相应部分的文本识别结果，或者可以对整个图像都进行识别并根据需要仅输出指定区域中的文本识别结果作为识别结果；本公开对此不作限制。应理解，在所识别的图像区域存在如反光之类的异常的情况下，所得到的文本识别结果可能为空的或者包括乱码。

在一些实施例中，在前述步骤S110中在用户界面上实时呈现拍摄得到的视频的同时，可以对该视频中的当前图像帧(最新拍摄的图像帧)进行实时识别(例如进行光学字符识别(OCR))，并对识别出来的结果进行分析，判断是否存在未成功识别文本信息的区域。

应理解，在本公开的方案中，识别的对象包括具有预设呈现布局的多个文本信息，其中预设的呈现布局通常限定了目标识别对象上的一个或多个固定位置(区域)处呈现固定规则的文本内容，因此所谓的“未成功识别(文本信息)的区域”意味着该区域中识别出来的文本识别结果不符合该目标识别对象的预设呈现布局所限定的固定规则，从而该区域中的文本信息被提取(识别)失败。

应理解，步骤S120中的“对所述视频中的图像帧进行实时识别的结果存在未成功识别文本信息的区域”的确定操作可以由实时呈现视频的设备(如用户的移动设备等的客户端设备)执行，或者可以由服务端设备(如提供信息识别服务的服务器或相应的应用程序服务器等)执行并返回分析结果给实时呈现视频的设备，或者可以由实时呈现视频的设备与相应的服务端设备协作执行；本公开对此不作限制。

在存在未成功识别的区域的情况下，可以在实时呈现的视频上针对该未成功识别的区域呈现相应的提示信息，从而能够在拍摄目标识别对象时实时检测出拍摄存在的问题(比如因反光导致的图像质量问题)，并实时提供可视化的建议，帮助用户迅速调整拍摄方式，完成信息识别。这不仅提高了信息识别的成功率和用户的操作便利性，而且由于是在拍摄过程中即时提供调整反馈而不是仅在拍摄完成后进行反馈，因此还提升了处理效率，可以减少因图像质量问题导致的重复拍摄过程，有效节省用户或企业的时间和资源。

在一些实施例中，可以在用户界面上的视频预览框(取景框)中实时呈现所拍摄的视频的同时，还在该视频预览框中实时呈现可视化的调整建议，如动态引导线或箭头指示等，用来帮助用户调整拍摄角度或位置等，以便获得更好的证件拍摄质量。

另外，还可以用如红框等醒目的标识突出展示所拍摄的视频上未成功识别的区域，并且在用户界面上的合适位置处呈现相应的调整目标识别对象拍摄的文字说明。

在一些实施例中，可以按照文本信息的呈现布局将目标识别对象分为一个或多个类型，每类目标识别对象都有相同的呈现布局，因此可以将每个类型的呈现布局归纳为相应的目标识别对象模板，其存储目标识别对象的呈现布局信息，例如包括所需提取的文本信息的文本规则以及所在位置范围等。在模板中可以按照字段来分别限定所需提取的文本信息的格式，每个字段对应于目标识别对象中的一个文本信息，其位于目标识别对象中的预定位置范围内并且通常具有预定规则的文本内容。也就是说，目标识别对象模板可以包括一个或多个字段的信息，其中每个字段的信息包括预定的文本规则和位置范围。例如，对于护照类型的目标识别对象，其模板可以包括姓名字段、生日字段、或有效期字段等，分别用于提取护照中的姓名信息、生日信息或护照有效期信息等，其分别位于护照的特定位置范围(区域)内且具有特定的文本规则。

由此，可以通过模板匹配处理来判断前述实时识别的结果是否存在未成功识别的区域。模板匹配指的是将识别得到的结果与预定义的模板中的信息进行比较，检查位置和/或文本内容是否匹配预定规则，用于验证识别结果的准确性。可以相应地进行匹配度计算，即根据模板匹配的结果为模板中的每个字段分配一个分数，用于评估识别效果的好坏，即是否成功识别。可以根据经验(例如基于大量样本的实验结果做调试)对每个字段中的每条规则设定对应的分值。

由此，在一些实施例中，可以通过如下步骤确定对图像帧进行实时识别的结果存在未成功识别的区域：将实时识别所获得的文本识别结果及其位置与指定类型的目标识别对象模板中的至少一个字段的信息进行匹配，得到匹配结果，其中匹配不通过的字段对应的区域为所述未成功识别的区域。所谓的指定类型意指当前信息识别处理所针对的目标识别对象类型，其例如可以由发起当前信息识别处理的应用程序来指定。

在一些实施例中，前述的得到匹配结果的步骤包括：根据所获得的文本识别结果与所述预定的文本规则的匹配程度和/或所获得的文本识别结果的位置与所述预定的位置范围的匹配程度，获得对于所述字段的匹配分数，其中匹配分数低于其预设阈值的字段为匹配不通过的字段。

可以根据需要仅将文本识别结果或位置与一个字段中的相应信息进行匹配，得到该字段的匹配分数，该匹配分数即代表文本识别结果或位置与模板中的预定文本规则或位置范围的匹配程度。可以通过各种方式来计算二者的匹配程度，得到相应的匹配分数。可以根据需要来采用相同或不同的方式分别计算各字段的匹配分数。或者，可以根据需要将文本识别结果和位置都与一个字段中的相应信息进行匹配并将二者的匹配分数进行加权求和来获得对于该字段的匹配分数。可以根据需要来设置每个字段的阈值，其可以对于各字段是相同的或不同的。

在一些实施例中，可以先判断所拍摄的当前目标识别对象的类型是否是所期望的类型(即前述的指定类型)，在类型错误的情况下也可以及时提示用户。在目标识别对象类型正确的情况下，再采集所需的文本信息。也就是说，可以将前述的模板匹配处理分为两个阶段：对象类型匹配阶段和文本信息采集阶段。

由此，在一些实施例中，该目标识别对象模板中的字段可以包括用于表征目标识别对象的类型的至少一个特征文本字段、以及包含要采集的文本信息的至少一个文本信息字段。前述的得到匹配结果的步骤可以包括：至少根据所获得的文本识别结果与该特征文本字段中的至少一个字段的信息的匹配程度，得到类型匹配分数；根据该类型匹配分数，判断该目标识别对象的类型是否匹配该指定类型；在该目标识别对象的类型匹配该指定类型的情况下，将所获得的文本识别结果及其位置与该至少一个文本信息字段的信息分别进行匹配，分别得到对于各文本信息字段的匹配分数。

例如，在某个特定类型的目标识别对象中，必然存在固定的一段或多段文本(比如护照中的“护照”文本或“国家码”文本等)，因此可以在OCR识别获得的文本识别结果中检索该固定文本内容，获得相应的类型匹配分数。另外，还可以进一步根据图像帧中对应文本的位置与特征文本字段预定的位置范围的匹配程度来计算位置匹配分数，得到最终的类型匹配分数。可以根据需要为该指定类型设置一个阈值，在类型匹配分数高于该阈值的情况下，确定目标识别对象的类型匹配该指定类型。

在一些实施例中，在目标识别对象模板包括用于表征目标识别对象的类型的多个特征文本字段的情况下，可以例如按照特征文本的关键程度(比如与类型的关联程度)来对该多个特征文本字段进行排序，并按照顺序依次匹配各个特征文本字段，只要有一个特征文本字段匹配成功即可确定类型匹配，结束该对象类型匹配阶段并进入文本信息采集阶段。如果所有特征文本字段都未匹配成功，则可确定类型不匹配；此时可提示用户目标识别对象类型错误，并更新当前图像帧，对更新后的最新的图像帧重新进行识别和类型判断操作等，如后面将结合图3所详述的。

因此，前述的判断所述目标识别对象的类型是否匹配所述指定类型的步骤可以包括：

按照预定顺序依次将所获得的文本识别结果或文本识别结果及其位置与所述至少一个特征文本字段的信息分别进行匹配，直到任意一个特征文本字段的匹配分数超过其预设阈值，确定所述目标识别对象的类型匹配所述指定类型；

在所有特征文本字段的匹配分数均不超过其预设阈值的情况下，确定所述目标识别对象的类型不匹配所述指定类型。

在确定所述目标识别对象的类型不匹配所述指定类型的情况下，可以在实时呈现的视频上呈现类型错误的提示信息。例如，可以在视频预览框的中间显示比如“类型错误，请确认使用护照”之类的提示文字。

在确定所述目标识别对象类型匹配所述指定类型后，进入文本信息采集阶段，其中将所获得的文本识别结果及其位置与所述至少一个文本信息字段的信息分别进行匹配。

在一些实施例中，前述的将所获得的文本识别结果及其位置与所述至少一个文本信息字段的信息分别进行匹配的步骤包括：

将匹配分数超过其预设阈值的特征文本字段对应的第一文本识别结果的相关位置确定为基准坐标；

基于所述基准坐标，查找在所述图像帧中所述至少一个文本信息字段各自对应的位置范围内所获得的第二文本识别结果，并检验所获得的第二文本识别结果与对应文本信息字段的预定的文本规则的匹配程度，得到对于各文本信息字段的匹配分数。

例如，可以将在对象类型匹配阶段中匹配成功的任一特征文本字段对应的文本识别结果的起始位置或结束位置作为基准坐标，并且根据模板中的各文本信息字段相对于该特征文本字段的位置偏移来确定在图像帧中的对应的位置范围。在检验对应位置范围内OCR识别出的文本识别结果时，可以判断该文本识别结果是否完全符合对应文本信息字段的预定的文本规则，如完全符合则确定该文本信息字段匹配通过，可给与较高的匹配分数，如不完全符合则确定该文本信息字段匹配不通过，可给与较低的匹配分数。

在一些实施例中，在存在匹配不通过的文本信息字段(比如其匹配分数低于其预设阈值)的情况下，可以在实时呈现的视频上突出展示该匹配不通过的文本信息字段所在的区域，并且呈现相应的调整目标识别对象拍摄的文字说明。由此用户可清楚明了图像的何处没拍好或存在问题，并及时调整拍摄的方式。

在一些实施例中，在对图像帧的实时识别的结果均成功匹配模板中的各字段的情况下，还可以将识别得到的各字段的文本信息送到服务端进行进一步校验，确定校验通过后才结束该信息识别过程，若校验不通过则可类似地呈现提示信息，比如提示用户及时调整拍摄方式等。

因此，本公开的方法还可以包括：响应于对所述视频中的图像帧进行实时识别的结果不存在未成功识别的区域，将所获得的文本识别结果作为对应字段的文本信息传输到服务端进行文本信息规则校验；以及在校验不通过的情况下，在实时呈现的所述视频上呈现相应的提示信息。

在一些实施例中，在前述的信息识别过程中，一直持续对目标识别对象进行拍摄，并对视频进行实时呈现，在识别结果匹配不通过或校验不通过的情况下不仅对用户呈现相应的提示信息，而且重新对最新拍摄得到的图像帧进行前述的识别和分析操作，直到确定不存在任何识别结果匹配不通过或校验不通过才结束整个信息识别过程。

因此，本公开的方法还可以包括：更新前述的图像帧，并对更新后的图像帧进行实时识别的结果的分析和/或校验，直到不存在未成功识别的区域和/或校验通过。可以即时更新该图像帧，或者可以根据需要在预设的一段时间后再更新该图像帧，该预设的一段时间可以是预估的用户调整拍摄所需的时间。

下面将结合图2到图7详细描述一些根据本公开的信息识别方法的实现方式作为示例。应理解，图2到图3中的各操作等仅仅是示例性的而非限制性的，并不意图限制本公开的范围。图2到图3中的各操作的一些细节或可替代方式等可以参照前面结合图1所描述的内容，在此不再赘述。稍后描述的图2到图3中的各种细节也可以与前面结合图1描述的各个实施例或示例结合使用。本领域技术人员应理解，本公开的图5到图7中所示的用户界面仅仅作为示例，而非对本公开的方案的限制。

图2示出了根据本公开至少一个实施例的信息识别方法的示意性流程图，图3示出了图2中的模板匹配相关步骤的示例性实现方式。

如图2所示，在用户使用移动设备上的应用程序的过程中，需要使用信息识别功能时，该应用程序可以启动信息识别过程。例如，用户在使用购票平台软件预定国际机票时，需要填写乘机人的护照信息，此时该软件可以为用户提供信息识别的选项，通过拍摄护照自动提取并填写所需的护照信息。

然后，在步骤S201中，可以使用移动设备的相机对目标识别对象进行拍摄，并可以在该移动设备的显示屏上实时预览，例如在该应用程序的用户界面(UI)上的视频预览框中实时呈现该视频。此时，该应用程序还可以在UI上提供一个辅助框来帮助用户将目标识别对象对准，并提示用户保持设备的稳定以减少模糊。应理解，步骤S201中的视频拍摄和实时预览操作在图2的整个信息识别过程中是一直持续进行的，直到信息识别过程结束才停止。实际上图2中的步骤S201与后续的步骤S202到S207是并行进行的。

然后，在步骤S202中，安装在移动设备上的移动端OCR引擎可以在步骤S201中拍摄视频的同时开始工作，实时识别目标识别对象上的文本信息，即对所拍摄的视频的当前图像帧进行OCR识别，输出文本识别结果及其在图像中的位置作为OCR识别结果。

然后，在步骤S203中，进行模板匹配处理，即将实时OCR输出的内容与预定义的指定类型的模板进行匹配。该指定类型的模板可以由应用程序根据其需要或应用场景来选择。该模板定义了该指定类型的目标识别对象上各个需提取的字段的位置范围和文本规则。可以检查识别出的各文本块是否在模板定义的各字段的位置范围内，并且检查识别出的各文本块的内容是否符合预定的文本规则(其可以由例如正则表达式表示)。然后，可以根据上述的位置和内容检查的结果，为每个字段分配一个匹配分数。

然后，在步骤S204中，可以根据每个字段的匹配分数判断该字段是否匹配通过。可以根据经验或其他方式针对各个字段预设阈值，在存在字段的匹配分数低于预设阈值的情况下，确定匹配不通过(S204中的“否”)，该字段对应的区域为未成功识别的区域，表明该区域可能存在反光或其他影响因素。此时可进行到步骤S205，在该应用程序的UI上的视频预览框中实时呈现相应的提示信息，例如提示用户调整拍摄角度以避免反光或重新拍摄图像等的信息。另外，在整个信息识别过程中该视频预览框中还实时呈现当前拍摄的视频，也就是说，步骤S205是在实时呈现的视频上呈现相应的提示信息的。还可以用高亮等各种方式在视频上突出显示未成功识别的区域，并且/或者针对未成功识别的区域给出相应的调整建议。在步骤S205实时呈现提示信息之后，可以立即或等待一段时间后再返回步骤S202，并且更新当前图像帧，即，将步骤S202中处理的图像帧更换为所拍摄的视频中的最新的当前图像帧，然后同样进行后续步骤S203等，一直循环直到在步骤S204处匹配通过为止。

在所有字段的匹配分数均不低于预设阈值的情况下，确定匹配通过(S204中的“是”)，可以进行到步骤S206，其中移动端的该应用程序可以将识别获得的文本识别结果作为各对应字段的文本信息传输到服务端，利用服务端对其进行文本信息规则校验。应理解，该校验步骤是可选的，例如可以根据实际需要在前面的各字段信息都匹配通过后再对其进行其他规则的校验，以进一步确保所提取的文本信息的准确性。

在校验未通过的情况下(S207中的“否”)，类似地也可以进行到步骤S205，在该应用程序的UI上的视频预览框中实时呈现相应的提示信息，即在实时呈现的视频上呈现相应的提示信息。例如可以类似地用高亮等各种方式在视频上突出显示校验未通过的字段对应的区域，并且/或者针对校验未通过的区域给出相应的调整建议。同样，在步骤S205实时呈现提示信息之后，可以立即或等待一段时间后再返回步骤S202，并且更新当前图像帧，即，将步骤S202中处理的图像帧更换为所拍摄的视频中的最新的当前图像帧，然后同样进行后续步骤S203等，一直循环直到在步骤S207处校验通过为止。

在校验通过的情况下(S207中的“是”)，整个信息识别过程结束。此时，该应用程序可停止拍摄目标识别对象，并自动录入所识别得到的各文本信息。

下面以图4到图7给出的护照文件示例为例结合图3具体描述图2中的模板匹配相关步骤(步骤S202到S205)的一些示例性实现方式。应理解，图4给出了一个对护照样本的信息页拍摄得到的照片的示例，其中的个人信息均为示例性的样本信息而非真实信息，并且用带“证件照”字样的白色方块示意性地代表了人像照片；图5和图6分别示出了在对图4的护照拍摄清楚和拍摄存在反光等质量问题的两种情况下对各字段信息的识别结果；图7示出了在图6所示的拍摄存在反光等质量问题的情况下在应用程序的UI上的实时呈现画面。

图3中的模板匹配处理可以分为两个阶段：

1、对象类型匹配阶段：首先进行目标识别对象的类型的匹配，通常可采集的用于确定目标识别对象的类型的信息很多，局部的反光等影响因素并不会影响这部分匹配工作。在这一阶段可以判断用户是否使用了错误的目标识别对象，比如需要拍摄护照，而用户提供的是身份证，则在本阶段就可以提示用户使用准确的目标识别对象；

2、文本信息采集阶段：确定类型无误后，进入到需要的文本信息采集，比如在线国际机票预订场景下需要采集护照的号码、姓名、有效期、签发国等文本信息。例如，在图7所例示的护照样张上由于护照的号码区域有反光，导致OCR采集的文本信息不完整；在该阶段对提取的信息做规则(此时为中国护照的模板中的规则)匹配，在不符合规范时，可以在视频预览框中实时展示该区域，并提醒用户调整拍摄方式。

由此，本公开的方案可以实时拍摄目标识别对象，当识别到异常后(类型错误/信息不完整/空)可以在取景框(视频预览框)的相应位置提示异常或展示异常区域，引导用户做相应调整，保证文本信息能被准确识别，而且在整个信息识别过程中实时检测，直到信息识别都成功。

具体而言，如图3所示，在步骤S301中，与前述的图2的步骤S202类似，对所拍摄的视频的当前图像帧进行OCR识别，输出文本识别结果及其在图像中的位置作为OCR识别结果。例如，对图5或图6所示的护照图像进行OCR识别，得到如图5或图6中的高亮条块所示的各文本块的信息(包括文本识别结果和位置坐标信息)。

然后，如步骤S302到S304所示，该指定类型的模板可以包括n个特征文本字段(n≥1)，并可以按照特征文本的关键程度(比如与类型的关联程度)来对该n个特征文本字段进行排序，例如对其编号i从1编到n；可以按照顺序(编号i从1到n的顺序)依次匹配各个特征文本字段(步骤S302)，如果当前特征文本字段匹配成功则不需要继续进行匹配(步骤S303中的“否”)并可以确定对象类型匹配成功(步骤S305中的“是”)，结束该对象类型匹配阶段并进入文本信息采集阶段。

如果当前特征文本字段匹配不成功且尚未遍历所有特征文本字段(即当前编号i还未到最大值n)，则需要继续进行匹配(步骤S303中的“是”)，进行到步骤S304，其中查找下一个(第(i+1)个)特征文本字段对应的位置及所识别的文本识别结果，并且回到步骤S302对该特征文本字段进行匹配，如此循环遍历直到如前所述有特征文本字段匹配成功。如果遍历结束发现所有特征文本字段都未匹配成功，则也不需要继续进行匹配(步骤S303中的“否”)并可以确定对象类型匹配不成功(步骤S305中的“否”)；此时可进行到步骤S306，在该应用程序的UI上的视频预览框中实时呈现对象类型错误的提示信息，并回到步骤S301，更新当前图像帧，对更新后的最新的图像帧重新进行识别和后续的对象类型匹配步骤，直到对象类型匹配成功为止。

例如，对于图4所示的中国护照类型，其模板可以包括多个特征文本字段，例如关键特征文本字段“中华人民共和国”、次要特征文本字段“国家码”、次要特征文本字段“签发地点”等。首先可以与关键特征文本字段“中华人民共和国”进行匹配，例如查找所识别得到的文本识别结果中是否有完全匹配或部分匹配该关键特征文本的字符串，如果完全匹配可赋予较高的匹配分数，部分匹配可赋予较低的匹配分数。可以根据匹配分数是否超过预设的阈值来判断该关键特征文本字段是否匹配成功。没有相应的字符串则确定该关键特征文本字段匹配不成功。如果该关键特征文本字段匹配不成功，则需要继续对次要特征文本字段“国家码”进行匹配，一直重复直到有特征文本字段匹配成功或所有特征文本字段都已遍历完成。

另外，在对特征文本字段进行匹配时，还可以确定一个基准坐标，基于该基准坐标可以查找到要匹配的各字段(包括特征文本字段和文本信息字段)对应的位置和/或对应位置处识别得到的文本识别结果。例如，可以将匹配成功的特征文本字段对应的文本识别结果的相关位置确定为基准坐标。另外，在对特征文本字段进行匹配时，可以根据需要基于文本识别结果的匹配程度或者文本识别结果及其位置的匹配程度来确定匹配分数。

在步骤S305处确定对象类型匹配成功后，进入文本信息采集阶段。

在步骤S307中查找到各文本信息字段对应的在图像帧中的位置及所识别的文本识别结果，然后在步骤S308中将所识别的文本识别结果及其位置与各文本信息字段的信息分别进行匹配。如果存在任意文本信息字段匹配不通过(步骤S309中为“否”)则进行到步骤S310，在UI上的视频预览框中实时突出展示未匹配字段所在区域且呈现相应的调整拍摄的文字说明，然后回到步骤S301，更新当前图像帧，对更新后的最新的图像帧重新进行识别，并跳过前面的对象类型匹配阶段，直接进入文本信息采集阶段，直到所有文本信息字段匹配通过为止。

如果没有任何文本信息字段匹配不通过(步骤S309中为“是”)则进行到步骤S311，将各文本信息字段对应的识别结果返回给该应用程序或其相应的服务端。

例如，对于图6所示的护照样本图像，可以基于对象类型匹配阶段确定的基准坐标，查找在各文本信息字段(例如护照的号码字段、姓名字段等)对应的位置范围内的所获得的文本识别结果，并基于模板的预定文本规则检验所获得的文本识别结果的准确性，例如检验所获得的护照的号码是否符合对应的规范，所获得的姓名是否符合对应的拼音标准，等等，如完全符合则确定该文本信息字段匹配通过，如不完全符合则确定该文本信息字段匹配不通过。例如，图6所示的护照样本图像存在局部反光的问题，导致护照的号码字段对应区域识别得到的护照的号码不全，因此护照的号码字段匹配不通过，此时可以如图7所示的在UI上的实时呈现的视频上用红框突出展示护照的号码字段所在区域，并且在上方呈现相应的调整拍摄的文字说明“扫描出错，请保证证件表面无反光”。由此用户可清楚明了图像的何处没拍好或存在问题，并及时调整拍摄的方式。

综上，本公开实施例的方案能够在用户拍摄时即刻识别出图像质量不佳的区域(比如反光区域)，并通过用户界面实时提供可视化的调整建议(如框图、动态引导线、箭头指示、文字说明等)，帮助用户调整拍摄方式(比如拍摄角度、拍摄位置等)。本公开实施例的方案可以提供用户友好的交互设计，确保了用户能够快速明白如何操作，这增加了用户体验，减少了对技术支持的需求。

另外，本公开实施例的方案通过结合实时OCR识别和模板匹配处理，不仅在识别过程中即时处理图像质量问题，而且还可以针对特定字段进行优化匹配，提高了识别结果的准确性。由此，减少了错误识别和后续手动修正的需要，提高了整个信息识别流程的效率。而且高准确率的OCR识别意味着更少的错误和更高的数据质量，这特别有利于需要准确身份信息的应用场景。

另外，本公开实施例的方案可以为每个识别字段分配一个匹配分数，并将各字段的匹配结果反馈给用户，这种评分机制有助于用户理解图像质量和提供改进的方向。

总之，本公开实施例的方案可以通过结合实时图像质量检测、用户友好的交互设计和高准确率的OCR技术，提供一种更高效、更准确、用户体验更佳的信息识别解决方案。

特别是在一些实施例中，本公开方案可以提供针对移动设备用户友好的、实时图像质量检测和用户交互引导的信息识别解决方案。本公开实施例的方案可以解决用户在使用移动设备进行信息识别时常面临的问题，提供一个更为顺畅和效率的使用过程。

下面描述一些本公开的方案的具体使用场景作为示例：

1.在线机票预订：在机票乘机人信息录入的使用场景中，乘客需要提供其个人身份信息以完成机票的预订和登机手续。在使用机票预订应用的证件信息识别功能拍摄证件，受环境影响证件表面可能出现反光的情况，会影响证件信息识别的准确性。本公开的方案能检测出证件拍摄及其信息识别的受影响情况，并引导用户调整拍摄方式，提高证件信息识别的准确性。

2.在线酒店预订：顾客在预订酒店时，需要提供身份信息，使用酒店预订应用的证件信息识别功能拍摄证件，同样也可能遇到证件拍摄受环境光影响的情况，本公开的方案能引导用户提高证件信息识别的准确性。

3.银行开户：客户通过银行的移动应用，使用内置的证件信息识别功能拍摄身份证用于开户验证。应用立即进行证件信息识别。采用本公开方案的应用在识别出反光现象时可以实时提示用户调整拍摄方式，直到获得高质量图片。

4.移动报销***：员工用手机拍摄***进行报销。采用本公开方案的报销应用立即进行识别处理，并检测图像中的反光现象。如果有问题，应用可以提示用户重新拍摄，保证***信息的准确录入。

在这些场景中，本公开方案的实时图像质量检测与实时用户交互引导大幅提高了信息识别的准确性，优化了用户体验，同时也保证了数据采集的效率和质量。

图8示出了根据本公开至少一实施例的可用于实现上述的信息识别方法的计算设备的结构示意图。

参见图8，计算设备800包括存储器810和处理器820。

处理器820可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器820可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器820可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器810可以包括各种类型的存储单元，例如***内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器810可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器810可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器810上存储有可执行代码，当可执行代码被处理器820处理时，可以使处理器820执行上文述及的信息识别方法。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

此外，根据本公开的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本公开的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本公开还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本公开的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本公开的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种信息识别方法，包括：

实时呈现拍摄目标识别对象得到的视频，其中所述目标识别对象中的多个文本信息具有预设的呈现布局；以及

响应于对所述视频中的图像帧进行实时识别的结果存在未成功识别文本信息的区域，在实时呈现的所述视频上，针对所述未成功识别的区域，呈现相应的提示信息。

2.根据权利要求1所述的方法，其中，所述实时识别的结果包括所述目标识别对象中至少一个文本信息的文本识别结果及其位置；

通过如下步骤确定对所述视频中的图像帧进行实时识别的结果存在未成功识别的区域：

将实时识别所获得的文本识别结果及其位置与指定类型的目标识别对象模板中的至少一个字段的信息进行匹配，得到匹配结果，

其中匹配不通过的字段对应的区域为所述未成功识别的区域；

并且/或者，针对所述未成功识别的区域呈现的相应的提示信息包括：相应的调整所述目标识别对象拍摄的提示信息和/或突出展示所述未成功识别的区域的标识。

3.根据权利要求2所述的方法，其中，所述至少一个字段的信息包括预定的文本规则和位置范围；以及

得到匹配结果的步骤包括：

根据所获得的文本识别结果与所述预定的文本规则的匹配程度和/或所获得的文本识别结果的位置与所述预定的位置范围的匹配程度，获得对于所述字段的匹配分数，其中匹配分数低于其预设阈值的字段为匹配不通过的字段。

4.根据权利要求3所述的方法，其中，所述至少一个字段包括用于表征目标识别对象的类型的至少一个特征文本字段、以及包含要采集的文本信息的至少一个文本信息字段；

得到匹配结果的步骤包括：

至少根据所获得的文本识别结果与所述特征文本字段中的至少一个字段的信息的匹配程度，得到类型匹配分数；

根据所述类型匹配分数，判断所述目标识别对象的类型是否匹配所述指定类型；

在所述目标识别对象的类型匹配所述指定类型的情况下，将所获得的文本识别结果及其位置与所述至少一个文本信息字段的信息分别进行匹配，分别得到对于各文本信息字段的匹配分数。

5.根据权利要求4所述的方法，其中，判断所述目标识别对象的类型是否匹配所述指定类型的步骤包括：

6.根据权利要求4所述的方法，其中，将所获得的文本识别结果及其位置与所述至少一个文本信息字段的信息分别进行匹配的步骤包括：

7.根据权利要求4所述的方法，其中，在实时呈现的所述视频上针对未成功识别的区域呈现相应的提示信息的步骤包括：

在对于文本信息字段中的至少一个的匹配分数低于其预设阈值的情况下，在实时呈现的所述视频上突出展示匹配分数低于其预设阈值的文本信息字段所在的区域，并且呈现相应的调整目标识别对象拍摄的文字说明；

并且/或者，所述方法还包括：在所述目标识别对象的类型不匹配所述指定类型的情况下，在实时呈现的所述视频上呈现类型错误的提示信息。

8.根据权利要求2所述的方法，还包括：

响应于对所述视频中的图像帧进行实时识别的结果不存在未成功识别的区域，将所获得的文本识别结果作为对应字段的文本信息传输到服务端进行文本信息规则校验；以及

在校验不通过的情况下，在实时呈现的所述视频上呈现相应的提示信息。

9.根据权利要求1-8中任一项所述的方法，还包括：

更新所述图像帧，并对更新后的图像帧进行实时识别的结果的分析和/或校验，直到不存在未成功识别的区域和/或校验通过。

10.一种计算机程序产品，包括可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至9中任何一项所述的方法。