CN111461097A

CN111461097A - 识别图像信息的方法、装置、电子设备及介质

Info

Publication number: CN111461097A
Application number: CN202010189750.3A
Authority: CN
Inventors: 黄恺; 谢文珍; 冯富森
Original assignee: Beijing Dami Future Technology Co ltd
Current assignee: Beijing Dami Future Technology Co ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-28

Abstract

本申请公开了一种识别图像信息的方法、装置、电子设备及介质。本申请中，在获取含有待识别信息的原始图像之后，可以对原始图像进行处理，得到处理图像，并定位处理图像中包含有待识别信息的目标区域，并基于预设的文本识别模型，识别目标区域图像中的待识别信息，得到对应的文本信息。通过应用本申请的技术方案，可以在获得由包含需要识别信息的图像之后，自动定位其中包含有待识别信息的目标区域图像，并根据文本识别模型自动识别目标区域图像中的待识别信息。从而避免了相关技术中，当用户需要对大量证件信息进行手动录入时存在的耗费时间的弊端。

Description

识别图像信息的方法、装置、电子设备及介质

技术领域

本申请中涉及图像处理技术，尤其是一种识别图像信息的方法、装置、电子设备及介质。

背景技术

随着通信与社会的发展，智能终端已经随着越来越多用户的使用而不断发展。

进一步的，伴随着互联网的发展，用户通常需要查看各式各样的图像信息以从中获取自身需要的信息。以在线教学领域为例，对于在线教学领域来说，是由老师以及学生利用互联网来实现教学的一种方式。其中，为了保证授课老师的教学资格，通常需要预先由审核用户获取每个老师对应的证件信息以判定该老师是否符合教学资格。相关技术中，需要审核用户手动将每个老师对应的多个证件信息录入并上传到资料库中，从而在后期根据该录入信息实现依次进行审核的目的。

然而，当用户需要对大量证件信息进行手动录入时，采取上述方法会耗费较多时间，进而影响用户体验。

发明内容

本申请实施例提供一种识别图像信息的方法、装置、电子设备及介质。

其中，根据本申请实施例的一个方面，提供的一种识别图像信息的方法，其特征在于，包括：

获取原始图像，所述原始图像中含有待识别信息；

对所述原始图像进行处理，得到处理图像；

定位所述处理图像中的目标区域，所述目标区域包含所述待识别信息；

基于预设的文本识别模型，识别所述目标区域图像中的所述待识别信息，得到对应的文本信息。

可选地，在基于本申请上述方法的另一个实施例中，所述对所述原始图像进行处理包括：

利用边缘检测算法对所述原始图像进行旋转矫正处理，和/或，利用图像变换算法对所述原始图像进行透视矫正处理，得到所述处理图像。

可选地，在基于本申请上述方法的另一个实施例中，所述定位所述处理图像中的目标区域包括：

基于所述原始图像和/或所述处理图像的类型，确定所述目标区域的位置信息和/或大小信息；

基于所述目标区域的位置信息和/或大小信息，定位所述目标区域。

基于局部二值化处理，检测所述待识别信息的边缘轮廓，进行轮廓回归处理，筛选出所述目标区域。

可选地，在基于本申请上述方法的另一个实施例中，在所述确定所述原始图像中的目标区域图像之后，还包括：

利用卷积神经网络CNN提取所述目标区域中的至少一个特征信息；

基于所述至少一个特征信息，采用循环神经网络RNN以及连接时序分类函数算法CTC loss，获取所述至少一个特征信息的语义关系；

基于所述至少一个特征信息的语义关系，得到所述文本信息。

可选地，在基于本申请上述方法的另一个实施例中，所述方法还包括：

根据所述原始图像的类型信息，得到至少一个关键词信息；

基于所述至少一个关键词信息，对所述文本信息进行校验，生成校验结果；

当所述校验结果满足预设条件时，存储所述文本信息。

根据本申请实施例的另一个方面，提供的一种识别图像信息的装置，包括：

图像获取单元，用于获取原始图像，所述原始图像中含有待识别信息；

图像处理单元，用于对所述原始图像进行处理，得到处理图像；

区域定位单元，用于定位所述处理图像中的目标区域，所述目标区域包含所述待识别信息；

文本识别单元，用于基于预设的文本识别模型，识别所述目标区域图像中的所述待识别信息，得到对应的文本信息。

可选地，在基于本申请上述装置的另一个实施例中，所述图像获取单元，用于利用边缘检测算法对所述原始图像进行旋转矫正处理，和/或，利用图像变换算法对所述原始图像进行透视矫正处理，得到所述处理图像。

根据本申请实施例的又一个方面，提供的一种电子设备，包括：

存储器，用于存储可执行指令；以及

显示器，用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述识别图像信息的方法的操作。

根据本申请实施例的还一个方面，提供的一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述任一所述识别图像信息的方法的操作。

本申请中，在获取含有待识别信息的原始图像之后，可以定位原始图像中包含有待识别信息的目标区域图像，并基于预设的文本识别模型，识别目标区域图像中的待识别信息，得到对应的文本信息。通过应用本申请的技术方案，可以在获得由包含需要识别信息的图像之后，自动定位其中包含有待识别信息的目标区域图像，并根据文本识别模型自动识别目标区域图像中的待识别信息。从而避免了相关技术中，当用户需要对大量证件信息进行手动录入时存在的耗费时间的弊端。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1示出应用本申请实施例的视频处理方法或视频处理装置的示例性***架构的示意图；

图2为本申请提出的一种识别图像信息的方法的示意图；

图3为本申请提出的一种识别图像信息的方法的示意图；

图4为本申请识别图像信息的装置的结构示意图；

图5为本申请显示电子设备结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的大小比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

另外，本申请各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

需要说明的是，本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

下面结合图1-图3来描述根据本申请示例性实施方式的用于进行识别图像信息的方法。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

图1示出了可以应用本申请实施例的视频处理方法或视频处理装置的示例性***架构100的示意图。

如图1所示，***架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

本申请中的终端设备101、102、103可以为提供各种服务的终端设备。例如用户通过终端设备103(也可以是终端设备101或102)获取原始图像，原始图像中含有待识别信息；对原始图像进行处理，得到处理图像；定位处理图像中的目标区域，目标区域包含待识别信息；基于预设的文本识别模型，识别目标区域图像中的待识别信息，得到对应的文本信息。

在此需要说明的是，本申请实施例所提供的视频处理方法可以由终端设备101、102、103中的一个或多个,和/或,服务器105执行，相应地，本申请实施例所提供的视频处理装置一般设置于对应终端设备中,和/或，服务器105中，但本申请不限于此。

本申请还提出一种识别图像信息的方法、装置、目标终端及介质。

图2示意性地示出了根据本申请实施方式的一种识别图像信息的方法的流程示意图。如图2所示，该方法包括：

S101，获取原始图像，原始图像中含有待识别信息。

需要说明的是，本申请中不对获取原始图像的设备做具体限定，例如可以为智能设备，也可以为服务器。其中，智能设备可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group AudioLayerIII，动态影像专家压缩标准音频层面3)识别图像信息的器、MP4(Moving PictureExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)识别图像信息的器、便携计算机等具有显示功能的可移动式终端设备等等。

可选的，本申请实施例中不对原始图像做具体限定，即本申请中的原始图像可以为任意的图像。在一种优选的实施方式中，原始图像例如可以是用户的证件图像等等，该用户的证件图像包括但不限于用户的身份证图像、学位证图像、毕业证图像等等。其中，当原始图像为用户的身份证图像时，待识别信息则为该身份证图像中包含的用户相关信息等信息。该用户相关信息包括但不限于姓名、身份证号、有效期等等。

还有，本申请并不对原始图像的数量做具体限定，例如可以为两张，也可以为十张。

S102，对原始图像进行处理，得到处理图像。

根据一些实施例，当电子设备获取到原始图像时，电子设备可以对原始图像进行处理，的到处理图像。电子设备对原始图像的处理可以提高电子设备识别图像信息的准确性。其中，电子设备对原始图像的处理包括但不限于灰度化处理、高斯模糊处理、二值化处理、膨胀处理、提取边缘轮廓处理、排序处理等等。

易于理解的是，电子设备对原始图像的处理例如可以是二值化处理。二值化处理就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果。

S103，定位处理图像中的目标区域，目标区域包含待识别信息信息。

进一步的，本申请在获取到包含有待识别信息的原始图像之后，即可以自动定位原始图像中的包含有待识别信息的目标区域图像。其中，本申请不对该目标区域图像做具体限定，例如该目标区域图像可以为全部的原始图像，也可以为原始图像的部分区域的图像。

本申请不对待识别信息做具体限定，例如该待识别信息可以为文字信息，或者该待识别信息也可以为图像信息。可以理解的，当待识别信息为文字信息时，目标区域图像即为该图像中，包括文字部分的图像信息。例如可以为用户名称信息，用户年龄信息，用户证件信息等等。进一步的，而当待识别信息为图像信息时，目标区域图像即为该图像中，包括图像部分的图像信息。例如可以为用户的头像信息等。

本申请同样不对目标区域图像的数量做具体限定，例如可以为一个，也可以为多个。

S104,基于预设的文本识别模型，识别目标区域图像中的待识别信息，得到对应的文本信息。

进一步的，本申请在获取到目标区域图像之后，即可以根据预设的文本识别模型，识别该目标区域图像中的待识别信息，进而得到对应的文本信息。其中，本申请不对该文本识别模型做具体限定，也即该文本识别模型可以为任意的神经网络文字识别模型。

更进一步的，本申请中在获取到原始图像后，可以首先进行原始图像输入并将其进行图像预处理。其中，对于原始图像输入来说，可以首先对于不同的图像格式，有着不同的存储格式，不同的压缩方式。例如可以包括BMP格式。其中，BMP图像文件格式是Windows环境设置的标准图像格式。又或，也可以为JPEG格式。其是一个适用于彩色和单色或连续色调静止数字图像的压缩标准。再或，还可以为标签图像文件格式(Tag Image File Format，TIFF)，其中TIFF文件中有一个标记信息区用来定义文件存储的图像信息类型、颜色和压缩方法。还或，同样可以为GIF格式。其中，GIF是一种压缩格式，用来最小化文件大小和电子传递时间。最后，原始图像也可以为PNG格式，其是为了适应网络信息传输而设计的一种图像格式，用于取代格式较为简单、专利限制严格的GIF图像格式。

再进一步的，在对原始图像输入成功后，还可以进一步的将其进行对应的图像预处理操作，例如包括二值化处理，噪声去除处理，倾斜较正处理等。其中，对于图像的二值化处理来说，是将彩色的原始图像进行黑白处理的过程。具体而言，对于彩色图像来说，彩色图像所含信息量巨大。为了让计算机更快的，更好的识别文字，本申请可以首先对彩色图进行处理，使图片只存在前景信息与背景信息，并定义前景信息为黑色，背景信息为白色，以得到对应的二值化图像，即电子设备可以得到处理图像。

更进一步的，对于噪声去除来说，本申请可以根据原始图像中存在的噪声的特征进行去噪，以达到噪声去除的目的。

在本申请另外一种可能的实施方式中，在S101(获取原始图像)之后，可以实施下述步骤：

利用边缘检测算法(如Canny算法)对原始图像进行旋转矫正处理，以及，利用变换算法对原始图像进行透视矫正处理，得到处理图像。

进一步的，本申请在获取到原始图像之后，为了保证后续获取待识别信息的准确性。本申请可以首先对该原始图像进行旋转矫正处理以及透视矫正处理，进而得到经过处理后的处理图像，以使后续根据该处理图像，确定并定位目标区域图像。其中，边缘检测算法包括但不限于Canny边缘检测算法，小波变换算法，小波包的边缘检测算法，基于数学形态学、模糊理论和神经网络的边缘检测算法等等。

更进一步的，对于旋转矫正处理来说，本申请可以利用Canny边缘检测算法对原始图像进行旋转矫正处理。其中，在利用Canny边缘检测算法对原始图像进行旋转矫正处理的过程中，可以包括图像灰度化、高斯滤波器以平滑图像，滤除噪声、计算图像中每个像素点的梯度强度和方向、以及应用非极大值抑制以消除边缘检测带来的杂散响应。再通过应用双阈值(Double-Threshold)检测来确定真实的和潜在的边缘。进而通过抑制孤立的弱边缘最终完成边缘检测。

可选的，对于图像灰度化来说，由于Canny算法通常处理的图像为灰度图，因此如果本申请的原始图像为彩色图像时，则首先需要将其进行灰度化。其中对一幅彩色图进行灰度化，就是根据图像各个通道的采样值进行加权平均。进一步的，对于高斯滤波来说，本申请为了尽可能减少噪声对边缘检测结果的影响，所以必须滤除噪声以防止由噪声引起的错误检测。为了平滑图像，使用高斯滤波器与图像进行卷积，该步骤将减少边缘检测器上明显的噪声影响。另外，本申请在计算图像中每个像素点的梯度强度和方向上，可以采用经典Canny算法用了四个梯度算子来分别计算水平，垂直和对角线方向的梯度。但是通常都不用四个梯度算子来分别计算四个方向。常用的边缘差分算子计算水平和垂直方向的差分Gx和Gy。进而实现对原始图像进行旋转矫正处理。

在进一步的，对于透视矫正处理来说，本申请可以利用霍夫变换算法对原始图像进行透视矫正处理，得到处理图像。其中，霍夫变换主要是利用图片所在的空间和霍夫空间之间的变换，将图片所在的直角坐标系中具有形状的曲线或直线映射到霍夫空间的一个点上形成峰值，从而将检测任意形状的问题转化成了计算峰值的问题。即在图片所在的直角坐标系的一个直线，转换到霍夫空间便成了一点，并且是由多条直线相交而成。因此，本申请可以在对原始图像进行旋转矫正处理，以及利用霍夫变换算法对原始图像进行透视矫正处理之后，得到处理图像。

进一步可选的，在本申请另外一种可能的实施方式中，在S101(获取原始图像)之后，可以实施下述步骤：

基于原始图像和/或处理图像的类型，确定目标区域的位置信息和/或大小信息；

基于目标区域的位置信息和/或大小信息，定位目标区域。

其中，本申请在确定原始图像和/或处理图像中的目标区域的过程中，电子设备可以通过原始图像和/或处理图像的类型来确定。举例来说，以原始图像的类型为身份证证件图像，待识别区域为用户名称文字对应的图像区域为例，由于身份证照片大小为1寸照片大小，身份证的用户图像尺寸为2.6x3.7厘米，且身份证尺寸为3.2厘米×2.6厘米。进一步的，本申请即可以根据身份证图像的尺寸信息，从预设的信息中得到其对应的用户名称区域的位置信息以及大小信息，进而实现定位身份证证件图像中用户名称的文字对应的目标区域图像。

进一步举例来说，以处理图像的类型为学历证书图像，待识别区域为用户学位证号对应的图像区域为例，由于学位证书图像大小为297cmx210cm。进一步的，本申请即可以根据学位证书图像的尺寸信息，从预设的信息中得到其对应的用户学位证号区域的位置信息以及大小信息，进而实现定位学位证书中用户学位证号对应的目标区域图像。

进一步可选的，本申请在确定原始图像和/或处理图像中的目标区域图像之后，还可以实施下述步骤：

基于局部二值化处理，检测待识别信息的边缘轮廓，进行轮廓回归处理，筛选出目标区域。

进一步的，对于本申请来说，原始图像通常情况下为彩色的图像。其中，彩色图像主要分为两种类型，RGB及CMYK。其中RGB的彩色图像是由三种不同颜色成分组合而成，一个为红色，一个为绿色，另一个为蓝色。而CMYK类型的图像则由四个颜色成分组成：青色(Cyan,C)、品红色(Magenta，M)、黄色(Yellow，Y)、黑色(blacK，K)。CMYK类型的图像主要用于印刷行业。

更进一步的，每个图像的像素通常对应于二维空间中一个特定的位置，并且有一个或者多个与那个点相关的采样值组成数值。灰度图像,也称为灰阶图像,图像中每个像素可以由0(黑)到255(白)的亮度值(Intensity)表示。0-255之间表示不同的灰度级。

本申请中，可以将彩色的原始图像转化成为灰度图像的过程称为图像的二值化处理。具体来说，以RGB图像为例，在RGB模型中如果R＝G＝B时，则彩色表示一种灰度颜色，其中R＝G＝B值叫灰度值，因此，灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值)，灰度范围为0-255。彩色图像中的每个像素的颜色有R、G、B三个分量决定，而每个分量有255个值可取，这样一个像素点可以有1600多万(255255255)的颜色的变化范围。而灰度图像一个像素点的变化范围为255种，所以本申请在数字图像处理中一般先将各种格式的图像转变成灰度图像以使后续的图像的计算量变得少一些。灰度图像的描述与彩色图像一样仍然反映了整幅图像的整体和局部的色度和亮度等级的分布和特征。本申请可以选择利用平均值法对图像进行二值化处理。并在后续基于预设的文本识别模型，识别经过二值化处理后的目标区域图像中的待识别信息。

更进一步可选的，本申请在确定原始图像中的目标区域图像之后，也可以实施下述步骤：

利用卷积神经网络CNN提取目标区域中的至少一个特征信息；

基于至少一个特征信息，采用循环神经网络RNN以及连接时序分类函数算法CTCloss，获取至少一个特征信息的语义关系；

基于至少一个特征信息的语义关系，得到文本信息。

其中，卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学***移不变分类。得益于CNN(卷积神经网络)对图像的强大特征表征能力，其在图像分类、目标检测、语义分割等领域都取得了令人瞩目的效果。

进一步的，本申请中在利用CNN网络提取目标区域图像中的至少一个特征信息之后，还可以进一步的采用RNN网络选用BGRU(双向GRU网络，共2层)，loss函数选用CTC loss获取到至少一个特征信息的语意关系，电子设备可以基于至少一个特征信息的语意关系,获取到待识别信息对应的文本信息。

其中，循环神经网络(RNN Recurrent Neural Network)是指一个随着时间的推移，重复发生的结构。在自然语言处理(NLP)，语音图像等多个领域均有非常广泛的应用。RNN网络和其他网络最大的不同就在于RNN能够实现某种“记忆功能”，是进行时间序列分析时最好的选择。如同人类能够凭借自己过往的记忆更好地认识这个世界一样。RNN也实现了类似于人脑的这一机制，对所处理过的信息留存有一定的记忆，而不像其他类型的神经网络并不能对处理过的信息留存记忆。

进一步的，本申请可以利用RNN网络来识别目标区域图像中的至少一个特征信息的语意关系。其中，RNN模型中包含一个输入x，一个输出h和一个神经网络单元A。和普通的神经网络不同的是，RNN网络的神经网络单元A不仅仅与输入和输出存在联系，其与自身也存在一个回路。这种网络结构就揭示了RNN的实质：上一个时刻的网络状态信息将会作用于下一个时刻的网络状态。由于RNN一般用时间信息来处理序列信息，因此对于RNN网络中最初始的输入是x0，输出是h0，这代表着0时刻RNN网络的输入为x0，输出为h0。进一步的，网络神经元在0时刻的状态保存在A中。当下一个时刻1到来时，此时网络神经元的状态不仅仅由1时刻的输入x1决定，也由0时刻的神经元状态决定。以后的情况都以此类推，直到时间序列的末尾t时刻。

易于理解的是，电子设备采用CNN神经网络获取到的至少一个特征信息例如可以是“公民”、“号码”和“身份”。电子设备采用RNN网络来识别目标区域图像中的至少一个特征信息的语意关系后，电子设备可以识别得到目标区域图像中的待识别信息为“公民身份号码”。因此电子设备对CNN神经网络获取到的至少一个特征信息后，采用RNN网络来识别目标区域图像中的至少一个特征信息的语意关系，可以提高电子设备获取文本信息的准确性。

进一步可选的，在本申请的一种实施方式中，在S104(基于预设的文本识别模型，识别目标区域图像中的待识别信息，得到对应的文本信息)之后，还包括一种具体的实施方式，如图3所示，包括：

S201，获取原始图像，原始图像中含有待识别信息。

S202，对原始图像进行处理，得到处理图像。

S203，定位处理图像中的目标区域，目标区域包含待识别信息。

S204，基于预设的文本识别模型，识别目标区域图像中的待识别信息，得到对应的文本信息。

S205，根据原始图像的类型信息，得到至少一个关键词信息。

进一步的，本申请中为了确定得到的文本信息的结果正确性。本申请即可以首先基于该原始图像对应的类型信息，得到对应的一个或多个关键词信息。

需要说明的是，本申请不对关键词信息做具体限定，例如可以为表征原始图像类型的信息，也可以为表征原始图像内容的信息。

S206，基于至少一个关键词信息，对文本信息进行校对，生成校验结果。

举例来说，本申请当检测到原始图像的类型信息为身份证图像时，即可以从预设的信息库中得到身份证图像对应的关键词信息为“公民身份号码”。进一步的，当本申请获取到原始图像对应的文本信息之后，即可以将该文本信息与该关键词信息“公民身份号码”进行匹配。可以理解的，当匹配成功时，即认为该获取原始图像对应的文本信息结果正确，如匹配不成功，则认为本次识别结果失败。

又或，本申请当检测到原始图像的类型信息为学位证书图像时，即可以从预设的信息库中得到学位证书图像对应的关键词信息为“学位证号”。进一步的，当本申请获取到原始图像对应的文本信息之后，即可以将该文本信息与该关键词信息“学位证号”进行匹配。可以理解的，当匹配成功时，即认为该获取原始图像对应的文本信息结果正确，如匹配不成功，则认为本次识别结果失败。

S207，当校验结果满足预设条件时，存储文本信息。

易于理解的是，当电子设备对文本信息进行校对，生成的校验结果符合预设要求时，电子设备可以将文本信息存储在电子设备的存储器中，电子设备还可以将文本信息发送至服务器，将文本信息存储至服务器。

本申请中，在获取含有待识别信息的原始图像之后，电子设备可以定位原始图像中包含有待识别信息的目标区域图像，并基于预设的文本识别模型，识别目标区域图像中的待识别信息，得到对应的文本信息。通过应用本申请的技术方案，电子设备可以在获得由包含需要识别信息的图像之后，自动定位其中包含有待识别信息的目标区域图像，并根据文本识别模型自动识别目标区域图像中的待识别信息。从而避免了相关技术中，当用户需要对大量证件信息进行手动录入时存在的耗费时间的弊端。

在本申请的另外一种实施方式中，如图4所示，本申请还提供一种识别图像信息的装置。其中，该装置包括图像获取模块301，图像处理模块302，区域定位模块303和信息识别模块304，其中：

图像获取模块301，被设置为获取原始图像，原始图像中含有待识别信息；

图像处理模块302，被配置为对原始图像进行处理，得到处理图像；

区域定位模块303，被设置为定位处理图像中的目标区域，目标区域包含待识别信息；

信息识别模块304，被设置为基于预设的文本识别模型，识别目标区域图像中的待识别信息，得到对应的文本信息。

本申请中，在获取含有待识别信息的原始图像进行处理之后，可以定位处理图像中包含有待识别信息的目标区域图像，并基于预设的文本识别模型，识别目标区域图像中的待识别信息，得到对应的文本信息。通过应用本申请的技术方案，可以在获得由包含需要识别信息的图像之后，自动定位其中包含有待识别信息的目标区域图像，并根据文本识别模型自动识别目标区域图像中的待识别信息。从而避免了相关技术中，当用户需要对大量证件信息进行手动录入时存在的耗费时间的弊端。

在本申请的另一种实施方式中，图像处理模块302，还被配置为利用边缘检测算法对原始图像进行旋转矫正处理，和/或，利用图像变换算法对原始图像进行透视矫正处理，得到处理图像。

在本申请的另一种实施方式中，区域定位模块303，还被配置为基于原始图像和/或处理图像的类型，确定目标区域的位置信息和/或大小信息；基于目标区域的位置信息和/或大小信息，定位目标区域。

在本申请的另一种实施方式中，区域定位模块303，还被配置为基于局部二值化处理，检测待识别信息的边缘轮廓，进行轮廓回归处理，筛选出目标区域。

在本申请的另一种实施方式中，还包括，文本识别模块305，其中：

文本识别模块305，被配置为对目标区域图像进行二值化处理后，基于预设的文本识别模型，识别二值化处理后的目标区域图像中的待识别信息。

在本申请的另一种实施方式中，文本识别模块305，还被配置为利用卷积神经网络CNN提取目标区域中的至少一个特征信息；

基于至少一个特征信息的语义关系，得到文本信息。

在本申请的另一种实施方式中，还包括，关键词获取模块301，其中：

关键词获取模块301，被配置为根据原始图像的类型信息，得到至少一个关键词数据；

基于至少一个关键词数据，对文本信息进行校验，生成校验结果；

当校验结果满足预设条件时，存储文本信息。

图5是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如，电子设备400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，电子设备400可以包括以下一个或多个组件：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的信息进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的信息进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的互动特效标定方法。

在一些实施例中，电子设备400还可选包括有：***设备接口403和至少一个***设备。处理器401、存储器402和***设备接口403之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口403相连。具体地，***设备包括：射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

***设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和***设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和***设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置电子设备400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在电子设备400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在电子设备400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位电子设备400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源409用于为电子设备400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以电子设备400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动信息的采集。

陀螺仪传感器412可以检测电子设备400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对电子设备400的3D动作。处理器401根据陀螺仪传感器412采集的信息，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在电子设备400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在电子设备400的侧边框时，可以检测用户对电子设备400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，由处理器401根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置电子设备400的正面、背面或侧面。当电子设备400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在电子设备400的前面板。接近传感器416用于采集用户与电子设备400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与电子设备400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与电子设备400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对电子设备400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由电子设备400的处理器420执行以完成上述识别图像信息的方法，该方法包括：获取原始图像，原始图像中含有待识别信息；对原始图像进行处理，得到处理图像；定位处理图像中的目标区域，目标区域包含待识别信息；基于预设的文本识别模型，识别目标区域图像中的待识别信息，得到对应的文本信息。

可选地，上述指令还可以由电子设备400的处理器420执行以完成上述示例性实施例中所涉及的其他步骤。可选地，上述指令还可以由电子设备400的处理器420执行以完成上述示例性实施例中所涉及的其他步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光信息存储设备等。

在示例性实施例中，还提供了一种应用程序/计算机程序产品，包括一条或多条指令，该一条或多条指令可以由电子设备400的处理器420执行，以完成上述识别图像信息的方法，该方法包括：获取原始图像，原始图像中含有待识别信息；对原始图像进行处理，得到处理图像；定位处理图像中的目标区域，目标区域包含所述待识别信息；基于预设的文本识别模型，识别目标区域图像中的待识别信息，得到对应的文本信息。

可选地，上述指令还可以由电子设备400的处理器420执行以完成上述示例性实施例中所涉及的其他步骤。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种识别图像信息的方法，其特征在于，包括：

获取原始图像，所述原始图像中含有待识别信息；

对所述原始图像进行处理，得到处理图像；

2.如权利要求1所述的方法，其特征在于，所述对所述原始图像进行处理包括：

3.如权利要求1或2所述的方法，其特征在于，所述定位所述处理图像中的目标区域包括：

4.如权利要求1所述的方法，其特征在于，所述定位所述处理图像中的目标区域包括：

5.如权利要求3所述的方法，其特征在于，所述基于预设的文本识别模型，识别所述目标区域图像中的所述待识别信息，得到对应的文本信息，包括：

基于所述至少一个特征信息，采用循环神经网络RNN以及连接时序分类函数算法CTCloss，获取所述至少一个特征信息的语义关系；

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述原始图像的类型信息，得到至少一个关键词信息；

当所述校验结果满足预设条件时，存储所述文本信息。

7.一种识别图像信息的装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，包括：

所述图像获取单元，用于利用边缘检测算法对所述原始图像进行旋转矫正处理，和/或，利用图像变换算法对所述原始图像进行透视矫正处理，得到所述处理图像。

9.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及，

处理器，用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-6中任一所述识别图像信息的方法的操作。

10.一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1-6中任一所述识别图像信息的方法的操作。