CN115035520B - 图像的文字识别方法、电子设备及存储介质 - Google Patents

图像的文字识别方法、电子设备及存储介质 Download PDF

Info

Publication number
CN115035520B
CN115035520B CN202111389997.0A CN202111389997A CN115035520B CN 115035520 B CN115035520 B CN 115035520B CN 202111389997 A CN202111389997 A CN 202111389997A CN 115035520 B CN115035520 B CN 115035520B
Authority
CN
China
Prior art keywords
image
probability
mobile phone
application
belongs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111389997.0A
Other languages
English (en)
Other versions
CN115035520A (zh
Inventor
潘宇欣
毛璐
孙甜甜
车浩
唐成达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202111389997.0A priority Critical patent/CN115035520B/zh
Publication of CN115035520A publication Critical patent/CN115035520A/zh
Application granted granted Critical
Publication of CN115035520B publication Critical patent/CN115035520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Character Discrimination (AREA)

Abstract

本申请提供了一种图像的文字识别方法、电子设备及存储介质,涉及计算机技术领域。第二电子设备接收到第一电子设备发送的第一分享信息,获取第一图像的属性信息;根据该第一图像的属性信息确定是否需要对指定图像进行OCR文字识别操作;第二电子对需要进行OCR文字识别的指定图像进行对应的操作。由于不是对所有的图像均进行OCR识别的操作,而是根据第一图像的属性信息,确定是否对第一图像进行OCR识别的操作,减少电子设备的功耗,优化电子设备对图库中的图像进行OCR文字识别的效率。

Description

图像的文字识别方法、电子设备及存储介质
技术领域
本申请涉及无线通信领域,尤其涉及一种图像的文字识别方法、电子设备及存储介 质。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进 行分析识别处理,获取文字及版面信息的过程。OCR技术现已广泛地应用在医疗、保险、 金融、物流、传统制造业、购物等领域。例如,在物流领域的一种应用场景中,用户使 用手机拍摄物流订单的照片,通过OCR识别该照片上的快递单号。通过OCR技术,可 以快速获取照片上的快递单号,无需人工录入而直接导入***进行快递查询。
然而,目前电子设备(如手机、平板电脑等)对图库中的图像进行OCR识别的功耗大,时延长,影响用户的体验。
发明内容
本申请实施例提供了一种优化的图像的文字识别方法、电子设备及存储介质。
在本申请提供的一些实施例中,电子设备可以对需要进行文字识别的图像进行文字 识别,而不是对所有图像均进行文字识别的操作,减少电子设备对图像进行文字识别的功耗,有效提高电子设备的对图像进行OCR文字识别的效率,提高用户对电子设备的使 用体验。
第一方面,本申请提供一种图像的文字识别方法,该方法包括:响应于接收的第一电子设备的第一分享信息,将第一分享信息中的第一图像与第一图像的属性信息;获取 第一图像的属性信息;根据第一图像的属性信息,检测第一图像的概率类型;当检测到 第一图像属于第一概率类型,则对第一图像进行OCR识别的操作;存储第一图像的识别 结果;当检测到第一图像属于第二概率类型,则检测第二电子设备是否处于灭屏且充电 的状态;当检测到第二电子设备未处于充电且灭屏的状态,则取消对第一图像进行的OCR 文字识别的操作,或,当检测到第二电子设备未处于充电且灭屏的状态,对第一图像进 行文本检测的操作,存储第一图像的文本检测结果;当检测到第一图像属于第三概率类 型,则取消对第一图像进行的OCR文字识别的操作。
这样,第二电子设备接收到第一电子设备发送的第一分享信息,该第一分享信息中 包括第一图像图像和第一图像的属性信息,传输数据中包含有第一图像的属性信息,从而使得第二电子设备可以根据属性信息,确定第一图像是否需要进行OCR文字识别操作,对有需要进行进行文字识别的图像进行OCR文字识别,提高了第二电子设备对图像进行OCR文字识别的效率,同时,不是对接收到的所有图像都进行OCR文字识别,减小了 第二电子设备的功耗。
根据第一方面,根据第一图像的属性信息,检测第一图像的概率类型,包括:从第一图像的属性信息中获取第一图像的第一标签,确定第一图像的类别;根据第一图像的 类别以及第一图像的属性信息,确定用于指示第一图像所属概率类型的第一检测结果; 从第一图像的属性信息中获取第一图像的内容标签;根据第一图像的内容标签,确定用 于指示第一图像所属概率类型的第二检测结果;从第一检测结果和第二检测结果中选取 高等级的概率类型作为第一图像所属的概率类型。第二电子设备可以从多种检测结果中 选取高等级的类型作为第一图像所属类型,可以确保检测的第一图像所属类型的准确性, 避免出现误判而导致第二电子设备不对第一图像进行OCR文字识别的问题。
根据第一方面,根据第一图像的类别以及第一图像的属性信息,确定用于指示第一图像 所属概率类型的第一检测结果,包括:当检测到第一图像的类别为截图,则从第一图像 的属性信息中获取指第一图像所属应用的信息;根据第一图像所属应用的信息,检测第 一图像所属应用的类型;当检测到第一图像所属应用属于第一概率应用,则确定第一检测结果指示第一图像所属的概率类型为第一概率类型;当检测到第一图像所属应用属于第二概率应用,则确定第一检测结果指示第一图像所属的概率类型为第二概率类型;当 检测到第一图像所属应用属于第三概率应用,则确定第一检测结果指示第一图像所属概 率类型为第三概率类型;其中,第一概率类型的等级大于第二概率类型的等级,第二概 率类型的等级大于第三概率类型的等级。当第一图像为截图时,通过第一图像中的应用 标签可以确定该第一图像所属应用的应用类型,确定处该第一图像所属类型;第二电子 设备针对不同类别的第一图像采用不同的方式确定第一图像所属类型,可以加快确定第 一图像的第一检测结果的速度。
根据第一方面,根据第一图像的类别以及第一图像的属性信息,确定用于指示第一 图像所属概率类型的第一检测结果,包括:当检测到第一图像的类别为照片,则从第一图像的属性信息中获取第一图像的拍照模式标签;根据第一图像的拍照模式标签,检测 第一图像的拍照模式;当检测到第一图像的拍照模式属于第一概率模式,则确定第一检 测结果指示第一图像所属的概率类型为第一概率类型;当检测到第一图像的拍照模式属 于第二概率模式,则确定第一检测结果指示第一图像所属的概率类型为第二概率类型; 当检测到第一图像的拍照模式属于第三概率模式,则确定第一检测结果指示第一图像所 属的概率类型为第三概率类型;其中,第一概率类型的等级大于第二概率类型的等级, 第二概率类型的等级大于第三概率类型的等级。当第一图像为照片时,通过第一图像中 的拍照模式标签可以准确确定该第一图像的第一检测结果。
根据第一方面,根据第一图像的内容标签,确定用于指示第一图像所属概率类型的 第二检测结果,包括:当检测到第一图像的内容标签属于第一概率标签,则确定第二检测结果指示第一图像所属的概率类型为第一概率类型;当检测到第一图像的内容标签属于第二概率标签,则确定第二检测结果指示第一图像所属的概率类型为第二概率类型; 当检测到第一图像的内容标签属于第三概率标签,则确定第二检测结果指示第一图像所 属的概率类型为第三概率类型;其中,第一概率类型的等级大于第二概率类型的等级, 第二概率类型的等级大于第三概率类型的等级。第二电子设备通过第一图像中的内容标 签可以准确确定该第一图像的第二检测结果。
根据第一方面,方法还包括:响应于接收的第一电子设备的第二分享信息,将第二分享信息中的第二图像与第二图像的属性信息;获取第二图像的属性信息;根据第二图 像的属性信息中的第一标签,确定第二图像的类别;根据第二图像的类别,确定第二图 像的第一指示信息,第一指示信息用于指示第二电子设备是否需要对第二图像进行OCR 文字识别;根据第二图像的内容标签的类别,确定第二图像的第二指示信息,第二指示 信息用于指示第二电子设备是否需要对第二图像进行OCR文字识别;当检测到第二图像 的第一指示信息以及第二指示信息均不需要对第二图像进行OCR文字识别,则取消对第 二图像进行OCR文字识别的操作;当检测到第二图像的第一指示信息以及第二指示信息 中任一指示需要对第二图像进行OCR文字识别的操作,则对第二图像进行OCR识别的 操作。这样,第二电子设备还可以分别获取根据第二图像的类别确定的第一指示信息以 及根据内容标签确定的第二指示信息,第一指示信息和第二指示信息均用于指示第二电 子设备是否需要对第二图像进行OCR文字识别的操作,由于存在两个指示信息,在指示 信息均指示取消对第二图像进行OCR文字识别操作时,取消对第二图像进行OCR文字 识别操作,从而可以避免对第二图像漏识别的问题。
根据第一方面,根据第二图像的类别,确定第二图像的第一指示信息,包括:当检测到第二图像的类别属于截图,从第二图像的属性信息中获取第二图像所属应用的类别;当检测到第二图像所属应用属于第一概率应用,则确定第二图像的第一指示信息指示第二电子设备需要对第二图像进行OCR识别;当检测到第二图像所属应用属于第二概率应用,则检测第二电子设备是否处于灭屏且充电的状态;当检测到第二电子设备未处于充 电且灭屏的状态,则确定第二图像的第一指示信息指示第二电子设备取消对第二图像进 行OCR文字识别的操作;当检测到第二图像所属应用属于第三概率应用,则确定第二图 像的第一指示信息指示第二电子设备取消对第二图像进行OCR文字识别的操作。当第二 图像为截图时,通过第二图像中的所属应用信息可以准确确定该第二图像的第一指示信 息。
根据第一方面,根据第二图像的类别,确定第二图像的第一指示信息,包括:当检测到第二图像的类别属于照片,从第二图像的属性信息中获取第二图像的拍照模式标签;根据第二图像的拍照模式标签,检测第二图像的拍照模式;当检测到第二图像的拍照模 式属于第一概率模式,则确定第二图像的第一指示信息指示第二电子设备需要对第二图 像进行OCR识别;当检测到第二图像的拍照模式属于第二概率模式,则检测第二电子设 备是否处于灭屏且充电的状态;当检测到第二电子设备未处于充电且灭屏的状态,则确 定第二图像的第一指示信息指示第二电子设备取消对第二图像进行OCR文字识别的操 作;当检测到第二图像的拍照模式属于第三概率模式,则确定第二图像的第一指示信息 指示第二电子设备取消对第二图像进行OCR文字识别的操作。当第二图像为照片时,通 过第二图像中的拍照模式标签可以准确确定该第二图像的第一指示信息。
根据第一方面,根据第二图像的内容标签的类别,确定第二图像的第二指示信息,包括:当检测到第二图像的内容标签属于第一概率标签,则确定第二图像的第二指示信 息指示第二电子设备需要对第二图像进行OCR识别;当检测到第二图像的内容标签属于 第二概率标签,则检测第二电子设备是否处于灭屏且充电的状态;当检测到电子设备未 处于充电且灭屏的状态,则确定第二图像的第二指示信息指示第二电子设备取消对第二 图像进行OCR文字识别的操作;当检测到第二图像的内容标签属于第三概率标签,则确 定第二图像的第二指示信息指示第二电子设备取消对第二图像进行OCR文字识别的操 作。第二电子设备可以根据第二图像的内容标签可以准确确定该第二图像的第二指示信 息。
根据第一方面,在获取第一图像的属性信息之前,方法还包括:检测到预设的触发条件,预设的触发条件包括:第二电子设备接收到用户查看第一图像的操作;或者,第 二电子设备处于灭屏且充电的状态;或者,第二电子设备接收到用户查看图库的操作。 第二电子设备设置有多种触发方式,使得电子设备可以及时对第一图像进行文字识别的 操作,便于用户查看,提高用户使用电子设备的体验。
根据第一方面,在获取第二图像的属性信息之前,方法还包括:检测到预设的触发条件,预设的触发条件包括:第二电子设备接收到用户查看第二图像的操作;或者,第 二电子设备处于灭屏且充电的状态;或者,第二电子设备接收到用户查看图库的操作。 第二电子设备设置有多种触发方式,使得电子设备可以及时对第二图像进行文字识别的 操作,便于用户查看,提高用户使用电子设备的体验。
第二方面,本申请提供了一种电子设备,包括:一个或多个处理器;存储器;以及一个或多个计算机程序,其中一个或多个计算机程序存储在存储器上,当计算机程序被 一个或多个处理器执行时,使得电子设备执行上述第一方面任意一种实现方式所对应的 图像的文字识别的方法。
第二方面实现方式与第一方面以及第一方面的任意一种实现方式相对应。第二方面 任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现 方式所对应的技术效果,此处不再赘述。
第三方面,本申请提供了一种计算机可读介质,用于存储计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行上述第一方面的任意一种实现方式所对应的图像的文字识别的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需 要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些 附图获得其他的附图。
图1是示例性示出的手机分享图像的场景示意图;
图2是示例性示出的手机传输图像的示意图;
图3是示例性示出的HanMei的手机显示接收到的图像的示意图;
图4是示例性示出的电子设备的结构示意图;
图5是本申请实施例提供的一种图像的文字识别方法的流程图;
图6a是本申请实施例提供的一种手机B对该图像进行OCR文字识别的操作的流程图;
图6b是本申请实施例提供的另一种手机B对该图像进行OCR文字识别的操作的流程图;
图7a是本申请实施例提供的一种当图像为截图时,确定第一指示信息的流程图;
图7b是本申请实施例提供的一种当图像为照片时,确定第一指示信息的流程图;
图7c是本申请实施例提供的一种根据图像的内容标签的类别,确定第二指示信息的 流程图;
图7d是本申请实施例提供的一种当图像的类别属于截图时,确定第一检测结果的示 意图;
图7e是本申请实施例提供的一种当图像的类别属于照片时,确定第一检测结果的示 意图;
图7f是本申请实施例提供的一种根据图像的内容标签,确定第二检测结果的示意图;
图8为示例性示出的应用类别的示意图;
图9为示例性示出的模式类别的示意图;
图10为示例性示出的标签类别的示意图;
图11是本申请实施例提供的一种手机A分享图像的场景示意图;
图12是本申请实施例提供的一种图像信息的示意图;
图13是本申请实施例提供的一种图像格式为JPG的图像的存储格式示意图;
图14是本申请实施例提供的一种传输分享信息的示意图;
图15是本申请实施例提供的一种手机B接收到的指定图像的示意图;
图16是本申请实施例提供的一种手机B对图像进行文字识别的应用场景示意图;
图17是本申请实施例提供的一种图像属性信息的示意图;
图18是本申请实施例提供的一种手机B对图像进行文字识别的应用场景示意图;
图19是本申请实施例提供的另一种手机B对图像进行文字识别的应用场景示意图;
图20是本申请实施例提供的另一种手机B对图像进行文字识别的应用场景示意图;
图21是本申请实施例提供的另一种手机B对图像进行文字识别的应用场景示意图;
图22是本申请实施例提供的另一种手机B对图像进行文字识别的应用场景示意图;
图23是本申请实施例提供的另一种手机B对图像进行文字识别的应用场景示意图;
图24a是本申请实施例提供的一种图像的文字识别的应用场景示意图;
图24b是本申请实施例提供的一种图像的文字识别的应用场景示意图;
图24c是本申请实施例提供的一种图像的文字识别的应用场景示意图;
图25是示例性示出的电子设备的软件结构示意图;
图26为示例性示出的一种手机A内部模块之间的交互示意图;
图27为示例性示出的一种手机B内部模块之间的交互示意图;
图28为示例性示出的一种手机B对图像B进行指定文字识别操作时各模块之间的交互图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情 况。
本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一目标对象和第二目标对象等是 用于区别不同的目标对象,而不是用于描述目标对象的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解 释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例 如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个处理单元是指两个或两个以上的处理单元;多个***是指两个或两个以上的***。
如图1为示例性示出的一种应用场景示意图,参照图1,在手机分享图像的场景下,用户点击待分享的图像,发送端手机(即LiMei的手机)响应于用户查看图像的操作, 在显示界面10中显示图像。当用户点击显示界面10中的详细按钮10-13,发送端手机响 应于用户的点击详细按钮10-13的操作,可以在显示界面10上显示该图像的属性信息 10-11。如图1所示,该详细信息中包括了图像的像素信息、手机型号、存储路径等信息, 可选地,存储路径中可以包括有图像的第一标签、第二标签以及内容标签等信息。例如, 手机以第一标签、第二标签以及内容标签的组合作为该图像的名称等。
接收端手机开启蓝牙以及数据分享功能(即接收端手机通过点击接收端上的分享按 钮启动该数据分享功能)。发送端手机在开启蓝牙的情况下,用户点击该显示界面10上显示的分享按钮10-12,发送端手机响应于用户点击分享按钮10-12的操作,与接收端手 机建立通信连接。同时,该发送端手机将界面10切换至界面10-13,界面10-13中显示 有该待分享的图像以及发送按钮10-14。发送端手机响应于用户点击该发送按钮10-14, 发送端手机将图像传输至接收端手机,如图2所示,发送端手机为LiMei的手机,接收 端手机为HanMei的手机。HanMei的手机接收到图像后,将接收的图像保存。
图3为HanMei的手机显示接收到的图像的示意图。
如图3所示,接收端手机保存了从发送端手机分享的图像(该图像的标识信息为“IMG0”,后文中图像IMG0用于指示标识信息为“IMG0”的图像)。接收端手机响应 于用户查看该图像IMG0的操作,在界面30中展示该图像IMG0,该界面30中显示有详 细按钮30-32。接收端手机响应于用户点击该详细按钮30-32的操作,在界面30中显示 该图像IMG0的详细信息30-31,该详细信息30-31包括:图像IMG0的像素信息、以及 存储路径,其中,存储路径中该图像IMG0的名称以数字串以及分享方式命名,如“Honor share_1635330115151.jpg”,“Honor share”指示该图像IMG0通过分享获得。接收端手机 通过分享方式获得图像,但并不会同步获得发送端手机存储的该图像IMG0的属性信息。
如图3所示的场景,发送端电子设备(如LiMei的手机)将图像分享至接收端电子设备(如HanMei的手机),接收端电子设备仅保存该图像的像素信息以及存储路径。当 接收端电子设备需要查看该图像的文字识别结果,该图像进行文字识别,导致接收端电 子设备无法获取的到图像IMG0的属性信息,接收端手机也无法根据图像IMG0的属性 信息预先判断是否对图像进行文字识别操作,导致接收端电子设备需要对所有接收的图 像进行文字识别的操作,增加接收端电子设备的功耗。
图4为本申请实施例示出的一种电子设备100的结构示意图。可选地,电子设备100可以为终端,也可以称为终端设备,终端可以为蜂窝电话(cellular phone),平板电脑(pad)、 可穿戴设备或物联网设备等具有摄像头的设备,本申请不做限定。应该理解的是,图4 所示电子设备100仅是电子设备的一个范例,并且电子设备100可以具有比图中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。 图4中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、 软件、或硬件和软件的组合中实现。
电子设备100可以包括:处理器110,外部存储器接口120,内部存储器121,通用 串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电 池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器 170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达 191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。
在本申请实施例中,处理器110可以用于根据用户的操作或者检测到预设识别条件, 触发对图像进行文字识别。处理器110还可以用于检测电子设备当前所处状态,如检测电子设备是否处于充电状态、灭屏状态或者灭屏且充电状态等。处理器110还可以用于 根据用户操作截取屏幕的内容形成的图像,并将截取的图像存储在图库中。
本申请实施例中,显示屏194可以用于显示图库中的图像,显示应用程序的界面等。 显示屏还可以显示出电子设备为用户提供的各种可操作控件(如可点击的按钮、可滑动 的滑块等)等。
本申请实施例中,内部存储器121可以用于存储图像,如摄像头拍摄的图像、电子设备截屏产生的图像等。内部存储器121还可以存储图像的OCR识别的识别结果等。
可以理解的是,在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。
电子设备100的软件***可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android***为例。
在一些实施例中,电子设备100的图库中存储有若干张图像(如:500张),该电子设备100响应于用户查看图像的操作,依次对用户查看的图像进行OCR识别。可选地, 电子设备100可以使用基于深度学习的OCR识别技术。深度学习的OCR识别技术是通 过收集数据并训练出深度学习模型(如OCR模型),使用训练完成的OCR模型进行识别 的技术。基于深度学习的OCR模型包括文本检测模型和文本识别模型。该电子设备100 可以部署文本检测模型实现对图像的文本检测,部署文本识别模型实现对图像的文本识 别。
文本检测模型用于定位图像中文本的位置。发送端手机将一张图像输入该文本检测 模型,该文本检测模型输出图像中每个文本区域、每个字符的坐标。文本检测模型检测文本的方法包括:基于候选框的文本检测方法、基于语义分割的文本检测方法、以及基 于两种文本检测方法的混合方法。
文本识别模型用于识别图像中的文本。可选地,电子设备100将单个文本区域的切片图像输入文本识别模型,该文本识别模型将输出切片中的文字内容。文本识别模型识 别文本的框架包括:卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)以及联结主义时间分类(Connectionist TemporalClassification,CTC)算法三者组合框架,或者,采用CNN、Sequence to Sequence模型 以及注意力模型(Attention)三者组合的框架。
当用户点击进入电子设备100的图库时,将触发电子设备对该图像进行OCR识别。即用户每查看一张图像,电子设备100都将对查看的图像进行OCR识别,导致电子设备 100的功耗增加,例如,假设对一张具有5行文本的图像进行OCR识别的时延为630ms, 功耗为m。当用户依次查看50张相同的图像时,该电子设备100将依次对该50张图像 进行OCR识别,此时查看50张图像的时延为630ms*50;消耗的功耗为m*50;电子设 备的功耗增加。由于OCR识别的时延长,也影响用户查看图像的速度,影响用户的体验。
基于此,本申请实施例提供了一种图像的文字识别方法,以降低电子设备对图库中 图像进行OCR识别的功耗。示例性地,本申请实施例中电子设备100以手机为例。
图5为示例性示出的本申请实施例提供了图像的文字识别方法的流程图。该图像的 文字识别方法包括以下步骤:
步骤501:手机A响应于接收的分享指令,读取指定图像的属性信息。
示例性地,手机A为数据的发送端设备,手机B为数据的接收端设备。手机A存储 有每张图像对应的属性信息。示例性地,属性信息可以包括:第一标签、第二标签、拍 照模式标签以及内容标签;还可以包括:图像的获取时间信息等。第一标签用于指示获 取图像的来源方式,例如,第一标签为“DCIM”,可以用于指示图像来源于拍摄,第一 标签为“Screenshot”,可以用于指示图像来源于截屏操作。拍照模式标签用于指示拍摄 图像的工作模式,如:人像模式、大光圈模式等。内容标签用于指示图像的内容所属的 类别,例如,图像中内容呈现的是蛋糕,则该图像的内容所属类别为食物,即该内容标 签“food”用于指示该图像的内容为食物。图像中内容呈现的是文字,则该图像的内容 所属类别为文本,手机可以为该图像标记“Text1”的内容标签。第二标签用于指示图像 所属应用的信息。图像的获取时间信息用于指示该当前手机获取图像的时间或者指示发 送图像的源电子设备生成图像的时间。需要说明的是,本申请中属性信息包含的内容仅 为示意性举例,本申请不做限定。在其他示例中,属性信息还可以包括以下信息中的一 种或多种信息的组合:图像的颜色信息(如RGB三色的详细信息)、拍照模式标签(如: 人像拍照模式标签、夜景拍照模式标签、大光圈拍照模式标签等)、源设备信息等,其中, 源设备信息用于指示发送图像的设备的型号信息、***信息(如Android版本信息)、图 像的像素信息等。
手机A可以按照数据结构的方式将图像的属性信息存储于手机的数据库中。其中,手机A将绑定该图像与该图像的属性信息。示例性地,手机A可以通过图像的标识信息 绑定该图像与该图像的属性信息。图像的标识信息可以用于唯一指示该图像。手机A可 以根据属性信息生成图像的标识信息,例如,手机A可以为图像设置唯一对应的标识信 息(如IMG2),也可以用拍摄图像的时间作为图像的标识信息。
需要说明的是,本示例中的标识信息仅为示例性举例,在其他实施例中,标识信息还可以是随机生成,例如,手机可以随时生成的预设位数的字符串,并将随机生成的字 符串作为图像的标识信息,本申请不限制图像的标识信息的生成方式。本示例中属性信 息可以以表的形式存储于数据库中,表的形式如表1所示,其中,表1中属性信息包括: 第一标签、第二标签、图像的获取时间、拍照模式标签以及内容标签。手机通过图像标 识绑定图像以及图像对应的属性信息。需要说明的是,本示例中属性信息中包含的项目 仅为示例性举例,在本申请另一些实施例中,属性信息可以包括比表1更多或更少的项 目。手机可以根据图像标识查找图像对应的属性信息。
表1
Figure BDA0003368236480000091
手机B开启蓝牙以及数据分享功能。手机A在开启蓝牙的情况下,用户点击该手机A中显示的分享按钮10-12,手机A响应于用户点击分享按钮的操作,与手机B之间建 立通信连接。
手机A可以在检测到与手机B成功建立连接之后,响应于用户的分享指令(如点击发送按钮等),手机A读取图库中的图像。可选地,手机A选取图库中的任一张图像作 为指定图像,例如,手机A可以将待分享的图像依次作为指定图像。如图库存储有3张 图像(分别为图像a、图像b、图像c),手机A遍历图库中的每张图像。即手机A对图 像a处理时,将图像a作为指定图像。对图像b处理时,将图像b作为指定图像。对图 像c处理时,将图像c作为指定图像。手机A确定指定图像之后,读取指定图像的属性 信息。可选地,本示例中指定图像的属性信息可以包括:第一标签、内容标签以及第二 标签。
需要说明的是,本示例中以手机A通过“Honor share”分享图像的方式为例,在其他示例中,分享方式还可以包括:蓝牙分享、微信分享、Wi-Fi直连分享等,本示例中不 再一一列举。
步骤502:手机A将该指定图像的属性信息以及该指定图像作为分享信息。
步骤503:手机A向手机B发送该分享信息。
示例性地,手机A通过建立的通信通道将该分享信息发送至手机B。如本示例中,“Honor share”分享是两台手机之间通过WLAN直连进行数据传输。
步骤504:手机B接收到手机A发送的分享信息。
步骤505:手机B从该分享信息中获取指定图像以及该指定图像的属性信息。
该分享信息中包含有指定图像、该指定图像的属性信息。手机B从该分享信息中获取指定图像以及该指定图像的属性信息。
步骤506:手机B绑定该指定图像与该指定图像的属性信息,并保存。
示例性地,手机B可以按照数据结构的方式将图像的属性信息存储于手机的数据库 中。手机A并绑定该图像与该图像的属性信息。示例性地,手机B可以通过图像的标识 信息绑定该图像与该图像的属性信息。图像的标识信息可以用于唯一指示该图像。
步骤507:手机B当检测到预设的触发条件,则对该指定图像进行OCR文字识别的操作。
示例性地,预设的触发条件可以是:手机B接收到用户查看图库中任一图像的操作。 需要说明的是,本示例中的触发条件仅为示例性举例,在其他示例中,预设的触发条件还可以是:手机B检测手机B到处于灭屏且充电的状态;或者,手机B接收到用户查看 图库的操作。对此,本申请将不再一一列举。
本示例中,手机B绑定了指定图像与该指定图像的属性信息并保存后,手机B可以响应于用户查看该指定图像的操作,触发手机B对该指定图像进行OCR文字识别的操作。
手机B可以根据分享信息中该指定图像的属性信息,对该指定图像进行OCR文字识别的操作。下面将结合图6a、图7a~图7c详细介绍手机B对指定图像进行指定文字识别 的过程。
图6a为示例性示出的手机B对该指定图像进行OCR文字识别的操作的流程图。
步骤5071:手机B读取指定图像的属性信息。
手机B将不同来源方式的图像存储于图库中,以供用户查看。例如,手机B通过拍照方式获得的图像、手机B接收其他电子设备(如手机A)发送的指定图像、或者手机 B通过截屏获得图像。
本示例中,图库界面上以缩略图的方式显示图像,用户点击缩略图,手机B响应于用户的点击操作,打开与该缩略图对应的图像。手机B还可以通过该缩略图确定该缩略 图对应图像的标识信息,从数据库中查找与该标识信息绑定的属性信息。示例性地,手 机B响应于用户点击指定图像的缩略图的操作,从数据库中查找该指定图像绑定的属性 信息。
需要说明的是,本示例中,属性信息可以包括:第一标签、第二标签以及内容标签。可选地,该属性信息中可以包括获取图像的时间信息。
步骤5072:手机B从指定图像的属性信息中确定该指定图像的类别。
示例性地,手机B读取指定图像的属性信息之后,从属性信息中获取第一标签。手机B根据第一标签,确定该指定图像所属的类别。例如,属性信息中获取到第一标签为“Screenshot”,则手机B确定该指定图像属于截图。若第一标签的值为“DCIM”,则手 机B确定该指定图像属于照片。
可以理解的是,手机B可以预先存储第一标签与图像的类别之间的对应关系,例如, “Screenshot”——截图,“DCIM”——照片。当手机B从属性信息中获取到第一标签, 即可根据存储的第一标签与图像的类别之间的对应关系,确定该指定图像的类别。需要 说明的是,第一标签的值为示例性举例。在其他实施例中,例如指示照片的第一标签可 以为“Camera”。本示例中对第一标签的值不做具体的限制。
本示例中,手机通过属性信息可以快速获取指定图像的类别。
步骤5073:手机B根据指定图像的类别,确定第一指示信息。该步骤之后执行步骤5076。示例性地,手机B确定指定图像的类别为截图时,可以采用如图7a所示的方法确 定第一指示信息。当手机B确定指定图像的类别为照片时,可以采用如图7b所示的方法 确定第一指定信息。在一个示例中,将结合图7a说明指定图像为截图时,确定第一指示 信息的流程。
步骤601:手机B确定该指定图像的类别为截图。
步骤602:手机B从该图像的属性信息中获取该图像所属应用的信息。
示例性地,手机B可以从属性信息中获取第二标签,读取该第二标签,例如,第二标签的值为:“taobao”,该第二标签“taobao”可以指示该截图所属应用为“淘宝”。
可以理解的是,手机B可以预先存储第二标签与应用名称之间的对应关系,例如,“taobao”——淘宝,“meitu”——美图秀秀。当手机B从属性信息中获取到第二标签, 即可根据存储的第二标签与应用名称之间的对应关系,确定指定图像所属应用的名称。 需要说明的是,第二标签的值为示例性举例。
步骤603:手机B检测应用的类型。当检测到该应用属于第二概率应用,则执行步骤604。当检测到该应用属于第一概率应用,则执行步骤606。当检测到该应用属于第三 概率应用,则执行步骤605。
示例性地,该指定图像所属应用的应用类别可以预先划分,例如,电子设备可以对各种截图进行OCR识别,通过大数据统计的方式确定出第一概率应用、第二概率应用以 及第三概率应用。示例性地,第一概率应用用于指示应用出现文字的概率大于第一阈值 (如:第一阈值为50%),第二概率应用用于指示应用出现文字的概率大于第二阈值且小 于第一阈值,如,大于0且小于50%。第三概率应用用于指示应用出现文字的概率为0。 需要说明的是,第一阈值、第二阈值仅为示例性举例,第二阈值可以为0;在其他实施例 中,第一阈值还可以是60%,第二阈值还可以是20%、10%等。
图8为示例性示出的应用类别的示意图。手机B可以预先存储如图8所示的应用类别的信息。示例性地,第一概率应用包括:社交类应用、教育类应用、新闻阅读类应用、 出行导航类应用、旅游住宿类应用、购物类应用、商务类应用、美食类应用、便携生活 类应用以及儿童类应用。社交类应用如:微信。教育类应用如:XX学英语、XX辅导等。 新闻阅读类应用如:***、央视新闻等应用。出行导航类应用如:百度地图、高德 地图、XX打车应用等。旅游住宿类应用如:携程应用、去哪儿应用等。购物类应用如淘 宝、京东等应用。商务类应用如:招聘应用、商标查询应用等。美食类应用如:下厨房 应用等。便携生活类应用如:备忘录、支付宝等应用。儿童类应用如:XX绘本读物。需 要说明的是,第一概率应用中各类所包含的应用仅为举例,在其他实施例中,每个类别 还可以包括其他未列举的应用,如社交类应用还可以包括:钉钉、飞鸽等。
第二概率应用可以包括:影音类应用(如:视频应用)、金融财经类应用(如:交易所应用等)、运动健康类应用(如:XX运动健康等)、使用工具类应用(如:测量工具应 用、网盘应用等)、汽车类应用(如:二手车交易应用、车类查询应用等)。第二概率应 用中各类所包含的应用仅为举例,在其他实施例中,每个类别还可以包括其他未列举的 应用,如影音类应用还可以包括:酷我音乐等。
第三概率应用可以包括:拍摄美化类应用(如美图应用等)以及主题个性类应用(如: 主题应用等)。第三概率应用中各类所包含的应用仅为举例,在其他实施例中,每个类别 还可以包括其他未列举的应用。
在一个示例中,手机B获取截图所属应用的信息,以及预先存储的应用类别,确定截图所属应用的类别。例如,截图所属应用的名称为“淘宝”,根据预先存储的应用类别, 手机B确定该截图所属应用属于第一概率应用。
在另一个示例中,手机B还可以通过其他方式确定截图所属应用的类别。例如,可以训练截图所属应用分类模型,手机B将截图所属应用的信息输入该截图所属应用分类 模型,即可确定该截图所属应用的类别。截图所属应用分类模型可以预先训练好。训练 的方式将不再进行赘述。
可以理解的是,手机B还可以采用其他方式确定截图所属应用的类别。
步骤604:手机B判断手机B是否处于灭屏且充电的状态。当手机B确定处于灭屏 且充电的状态,则执行步骤606。当手机B确定未处于灭屏且充电状态,则执行步骤605。
步骤605:手机B确定第一指示信息指示结束流程。
步骤606:手机B确定第一指示信息指示进行OCR识别。
在另一个示例中,将结合图7b说明指定图像为照片时,确定第一指示信息的流程。
步骤701:手机B确定该指定图像的类别为照片。
步骤702:手机B从该指定图像的属性信息中获取该指定图像的拍照模式的信息。
示例性地,手机B可以从属性信息中读取拍照模式标签的内容,将该拍照模式标签的值作为拍照模式的信息,例如,获取的属性信息包括“DCIM_20210928_2010_拍摄 _Text1”,该指定图像的属性信息中第一项属性为图像的来源方式,获取到第一标签的值 为“DCIM”,手机B确定该图像属于照片。该指定图像的属性信息中第二项属性为图像 的拍照模式信息,获取到拍照模式标签的值为“拍摄”,手机B确定该图像的拍照模式属 于普通模式。
可选地,若属性信息在数据库中以表的形式存储,手机B可以根据第一标签的属性名以及图像的标识信息,从表中读取该指定图像的第一标签的值、拍照模式标签的值。 例如,指定图像的标识信息为“IMG2”,根据表1的内容,可以读取该图像的第一标签 的值为“DCIM”、读取该图像的拍照模式标签的值为“水印”。
步骤703:手机B识别拍照模式的类型。当手机B识别到该指定图像的拍照模式属于第二概率模式,则执行步骤704。当手机B识别到该指定图像的拍照模式属于第一概 率模式,则执行步骤706。当手机识别到该指定图像的拍照模式属于第三概率模式,则执 行步骤705。
示例性地,图像的拍照模式的类别可以预先划分,例如,电子设备可以对各种图像进行OCR识别,通过大数据统计的方式确定出第一概率模式、第二概率模式以及第三概 率模式。示例性地,第一概率模式用于指示图像出现文字的概率大于第一阈值(如:第 一阈值为50%),第二概率模式用于指示图像出现文字的概率大于第二阈值且小于第一阈 值,如,大于0且小于50%。第三概率模式用于指示图像出现文字的概率小于等于第二 阈值且大于等于0。需要说明的是,第一阈值、第二阈值仅为示例性举例,在其他实施例 中,第二阈值可以为0。可选地,第一阈值还可以是60%,第二阈值还可以是20%、10% 等。
图9为示例性示出的模式类别的示意图。手机B可以预先存储如图9所示的模式类别的信息。示例性地,第一概率模式包括:文档矫正模式、水印模式。本示例中,第一 概率模式中包含的模式仅为举例,在其他实施例中,第一概率模式还可以为其他用于拍 摄文档或包含文字的拍照模式。
第二概率模式可以包括:大光圈模式、高像素模式以及普通拍照模式。本示例中,第二概率模式中包含的模式仅为举例,在其他实施例中,第二概率模式还可以为其他用 于拍摄高像素图像的拍照模式。
第三概率模式可以包括:夜景模式、人像模式、全景模式、慢动作模式、水下模式、黑白艺术模式、流光快门模式、延时摄影模式、超级微距模式、多机位模式以及专业模 式。
第三概率模式中包含各类标签仅为举例,在其他实施例中,还可以包括其他未列举 的模式。
在一个示例中,手机B根据拍照模式标签的值以及预先存储的模式类别,确定指定图像的拍照模式所属的类别。例如,拍照模式标签的值为“人像”,根据预先存储的模式 类别,手机B确定该“人像”标签属于第三概率模式。拍照模式标签的值为“文档矫正”, 根据预先存储的模式类别,手机B确定该“文档矫正”标签属于第一概率模式。拍照模 式标签的值为“大光圈”,根据预先存储的模式类别,手机B确定该“大光圈”标签属于 第二概率模式。
在另一个示例中,手机B还可以通过其他方式确定拍照模式标签的类别。例如,可以训练拍照模式的模式分类模型,手机B将图像的内容标签输入该训练好的模式分类模 型中,该模式分类模型即可输出该拍照模式标签的类别。模式分类模型可以预先训练好。 训练的方式将不再进行赘述。可以理解的是,手机B还可以采用其他方式确定拍照模式 标签的类别。
步骤704:手机B判断手机B是否处于灭屏且充电的状态。当手机B确定处于灭屏 且充电的状态,则执行步骤706。当手机B确定未处于灭屏且充电状态,则执行步骤705。
步骤705:手机B确定第一指示信息指示结束流程。
步骤706:手机B确定第一指示信息指示进行OCR识别。
本示例中,当手机B确定指定图像的类别为截图时,采用如图7a所示的方式确定第一指示信息;当手机B确定指定图像的类别为照片时,采用如图7b所示的方式确定第一 指示信息。
需要说明的是,确定第一指示信息的步骤与确定第二指示信息的步骤可以并行处理。 即在执行步骤5071之后,并行执行步骤5074。
步骤5074:手机B根据该属性信息,判断内容标签是否为空。当手机B确定内容标签为空,则执行步骤5075。当手机B确定内容标签不为空,则执行步骤5076。
步骤5075:手机B确定第二指示信息指示结束流程。
步骤5076:手机B根据该指定图像的内容标签的类别,确定第二指示信息。在该步骤之后执行步骤5077。
在一个示例中,将结合图7c说明根据指定图像的内容标签的类别,确定第二指示信 息的流程。确定第二指示信息包括:
步骤801:手机B从该指定图像的属性信息中获取该指定图像的内容标签。
示例性地,手机B可以从属性信息中读取该内容标签的内容,例如,获取的属性信息为“DICM_Camera_20210928_2010_拍摄_Text1”,其中,该属性信息中的第五项属性 为内容标签,则手机读取该内容标签的取值为“Text1”。
可选地,若属性信息在数据库中以表的形式存储,手机B可以根据内容标签的属性名以及图像的标识信息,从表中读取该图像的内容标签的值。例如,图像的标识信息为“IMG1”,根据表1的内容,可以读取该图像对应的内容标签的值为“Text1”。
步骤802:手机B识别内容标签的类型。当手机B识别到该指定图像的内容标签属于第二概率标签,则执行步骤803。当手机B识别到该指定图像的内容标签属于第一概 率标签,则执行步骤805。当识别到该图像的内容标签属于第三概率标签,则执行步骤 804。
示例性地,图像的内容标签的类别可以预先划分,例如,电子设备可以对各种图像进行OCR识别,通过大数据统计的方式确定出第一概率标签、第二概率标签以及第三概 率标签。示例性地,第一概率标签用于指示图像出现文字的概率大于第一阈值(如:第 一阈值为50%),第二概率标签用于指示图像出现文字的概率大于第二阈值且小于第一阈 值,如,大于0且小于50%。第三概率标签用于指示图像出现文字的概率小于等于第二 阈值且大于等于0。需要说明的是,第一阈值、第二阈值仅为示例性举例,在其他实施例 中,可选地,第一阈值还可以是60%,第二阈值还可以是20%、10%等。
图10为示例性示出的标签类别的示意图。手机可以预先存储如图10所示的标签类别的信息。示例性地,第一概率标签包括:文档一类。文档一类包括:纸质文档、身份 证、护照、银行卡、演示文稿、名片、房产证、户口本、***、火车票、飞机票、电影 票、荣誉证书、表格、结婚证、驾驶证、行驶证、设计图等。需要说明的是,文档一类 中包含的各类型的物体仅为举例,在其他实施例中,该文档一类还可以包括其他未列举 的包含文字的实体,如报纸、期刊杂志等。
第二概率标签可以包括:交通工具一类、电器一类。可选地,交通工具一类可以是覆盖有文字的交通工具,例如,车身覆盖有广告的汽车、火车、轮船等。电器一类可以 是覆盖有文字的电器,例如,机身上覆盖有使用说明的打印机、自助充卡机等。交通工 具一类以及电器一类中包含的各类物体仅为举例,在其他实施例中,交通工具一类还可 以包括其他未列举的物体,如覆盖有公益口号的救援车等,电器一类中还可以是自动售 货机、智能货柜等。
第三概率标签可以包括:人像、风景、动物、家居、艺术、节目、运动、动作、活 动、配饰、服饰、玩具、工具、交通工具二类、电器二类以及文档二类。可选地,交通 工具二类可以是无覆盖文字或文字少于预设字数(如5个字)的交通工具,如,挖掘机、 代步机等。电器二类可以是无覆盖文字或文字少于预设字数(如5个字)的电器,如电 灯、插线板等
家居可以用于指示图像中物体为沙发、餐桌等。艺术可以用于指示图像中物体为画、 瓶子等艺术品。节目可以用于指示图像所处时间为节假日,如图像包含爆竹,则可以使用节日的内容标签。运动标签可以用于指示图像中的人物的运动,如图像中人物的起跑 姿势,可以使用跑步的标签。动作可以用于指示图像中的人物或动物的姿态。活动可以 用于指示图像中人物的任务、配饰可以用于指示图像中的人物衣服的装饰物、服饰可以 用于指示图像中的人物的服装等。
第三概率标签中包含各类标签仅为举例,在其他实施例中,还可以包括其他未列举 的标签。
在一个示例中,手机B根据内容标签的值以及预先存储的标签类别,确定指定图像的内容标签所属的类别。例如,内容标签的值为“人像”,根据预先存储的标签类别,手 机确定该“人像”标签属于第三概率标签。
在另一个示例中,手机B还可以通过其他方式确定内容标签的类别。例如,可以训练内容标签的分类模型,手机B将图像的内容标签输入该训练好的分类模型中,该分类 模型即可输出该内容标签的类别。分类模型可以预先训练好。训练的方式将不再进行赘 述。可以理解的是,手机B还可以采用其他方式确定内容标签的类别。
步骤803:手机B判断手机是否处于灭屏且充电的状态。当手机B确定处于灭屏且充电的状态,则执行步骤805。当手机B确定未处于灭屏且充电状态,则执行步骤804。
步骤804:手机B确定第二指示信息指示结束流程。
步骤805:手机B确定第二指信息指示进行OCR识别。
本示例中,通过步骤801~步骤805,手机B可以根据指定图像的内容标签的类别,确定第二指示信息。在手机B确定第一指示信息以及第二指示信息后,可以执行步骤5077。
步骤5077:手机B判断第一指示信息以及第二指示信息是否均指示结束流程。当手机B确定第一指示信息以及第二指示信息均指示结束流程,则结束对该指定图像进行 OCR文字识别的操作。当手机B确定第一指示信息以及第二指示信息未均指示结束流程, 则执行步骤5078。
示例性地,手机B确定第一指示信息或第二指示信息中任一指示信息未指示结束流 程,则手机B执行步骤5078。
步骤5078:手机B执行OCR识别。
手机B对该图像进行OCR识别,OCR识别的过程包括:文本检测和文本识别。当 手机B检测到文本后,继续对该指定图像进行文本识别,手机B获取对该指定图像进行 文本识别的识别结果,该识别结果也即为OCR识别的识别结果。当手机B未检测到文本, 则手机B结束流程。
步骤5079:手机B存储OCR识别的识别结果。
示例性的,手机B可以存储OCR识别的识别结果。手机B响应于用户查看OCR识 别结果的操作时,显示该识别结果。示例性地,查看OCR识别结果的操作可以是点击界 面中的指定按钮。
下面将结合图6b、图7d~图7f详细介绍手机B根据分享信息中该指定图像的属性信 息,对该指定图像进行OCR文字识别的操作的另一示例。
图6b为示例性示出的手机B对该指定图像进行指定文字识别的另一操作的流程图。
步骤5071’:手机B读取指定图像的属性信息。
步骤5072’:手机B判断识别标签是否为真值。当检测到识别标签为假值,则结束对指定图像进行OCR文字识别的操作。当手机B检测到识别标签为真值,则执行步骤5073’ 和步骤5074’。该步骤与5072类似,此处不再进行赘述。
步骤5073’:手机B从指定图像的属性信息中确定该指定图像的类别。该步骤之后,执行步骤5075’。该步骤与5073类似,此处不再进行赘述。
步骤5074’:手机B根据该属性信息,判断内容标签是否为空。确定第二检测结果为空。当手机B检测到内容标签不为空,则执行步骤5076’。当手机B检测到内容标签为 空,则执行步骤5077’。该步骤与5074类似,此处不再进行赘述。
步骤5075’:手机B根据指定图像的类别以及该指定图像的属性信息,确定第一检测 结果。该步骤之后,执行步骤5078’。
在一个示例中,该步骤5075’可以采用如图7d或7e中的流程。具体过程将在图7d以及7e中介绍。
步骤5076’:手机B根据指定图像的内容标签,确定第二检测结果。该步骤之后执行步骤5078’。该步骤的具体过程参见图7f。
步骤5077’:手机B确定第二检测结果为空。该步骤之后,执行步骤5078’。
步骤5078’:手机B从第一检测结果和第二检测结果中选取高等级的概率类型作为该 指定图像所属的概率类型。
可选地,图像所属的概率类型包括:第一概率类型、第二概率类型以及第三概率类型,其中,第一概率类型的等级高于第二概率类型,第二概率类型高于第三概率类型。
第一概率类型的图像可以包括:所属应用属于第一概率应用的图像、拍照模式属于 第一拍照模式的图像以及内容标签为第一概率标签的图像。第二概率类型的图像可以包 括:所属应用属于第二概率应用的图像、拍照模式属于第二拍照模式的图像以及内容标签为第二概率标签的图像。第三概率类型的图像可以包括:所属应用属于第三概率应用 的图像、拍照模式属于第三拍照模式的图像以及内容标签为第三概率标签的图像。
当确定了第一检测结果以及第二检测结果后,选取高等级的概率类型作为指定图像 的概率类型。例如,第一检测结果指示指定图像属于第一概率类型,第二检测结果指示该指定图像属于第二概率类型,则确定图像属于第一概率类型。
步骤5079’:手机B检测该指定图像的概率类型。当手机B检测到该指定图像属于第三概率类型,则结束对该指定图像进行OCR文字识别的操作。当手机B检测到该指定 图像属于第二概率类型,则手机B执行步骤5080’。当手机B检测到该指定图像属于第 一概率类型,则手机B执行步骤5083’。
步骤5080’:手机B判断手机是否处于灭屏且充电的状态。当手机B检测到手机B 未处于充电且灭屏的状态,则手机B执行步骤5081’。当手机B检测到手机B处于充电 且灭屏的状态,则手机B步骤5083’。
步骤5081’:手机B对该指定图像指定文本检测的操作。该步骤之后,执行步骤5082’。
步骤5082’:存储文本检测结果。该步骤之后,手机B结束对该指定图像进行OCR 文字识别的操作。
步骤5083’:手机B对该指定图像执行文本检测的操作。该步骤之后,执行步骤5084’。
步骤5084’:手机B对该指定图像执行文本识别的操作。
步骤5085’:手机B存储OCR识别结果。该步骤之后,结束对指定图像进行OCR 文字识别的操作。
本示例中,对属于第一概率类型的指定图像直接进行文本检测以及文本识别的操作; 当检测到图像属于第二概率类型,且未检测到手机处于充电且灭屏的状态时,对指定图 像进行文本检测的操作。当手机检测到指定图像属于第三概率类型,则不对指定图像进行任何操作;本示例中,由于预先确定了图像所属的概率类型,可以避免对指定图像执 行的操作出现冲突的问题。
需要说明的是,图7d和图7e为确定第一检测结果的流程图。图7f为一种确定第二检测结果的流程图。
图7d为针对图像的类别属于截图时,确定第一检测结果的示意图。
步骤601’:手机B确定该指定图像的类别为截图。
与步骤601类似,此处不再进行赘述。
步骤602’:手机B从该指定图像的属性信息中获取该指定图像所属应用的信息。
步骤603’:手机B检测应用的类型。当手机B检测该指定图像所属应用属于第三概率应用,则执行步骤604’。当手机B检测到指定图像所属应用属于第二概率应用,则执 行步骤605’。当手机B检测到指定图像所属应用属于第一概率应用,则执行步骤606’。
步骤604’:手机B确定第一检测结果指示该指定图像属于第三概率类型。
步骤605’:手机B确定第一检测结果指示该指定图像属于第二概率类型。
步骤606’:手机B确定第一检测结果指示该指定图像属于第一概率类型。
在另一个示例中,图7e为针对图像的类别属于照片时,确定第一检测结果的示意图。
步骤701’:手机B确定该指定图像的类别为照片。
与步骤701类似,此处不再进行赘述。
步骤702’:手机B从该指定图像的属性信息中获取该指定图像的拍照模式的信息。
与步骤702类似,此处不再进行赘述。
步骤703’:手机B检测拍照模式的类型。当手机B检测该指定图像的拍照模式属于第三概率模式,则执行步骤704’。当手机B检测到指定图像的拍照模式属于第二概率模 式,则执行步骤705’。当手机B检测到指定图像的拍照模式属于第一概率应用,则执行 步骤706’。
步骤704’:手机B确定第一检测结果指示该指定图像属于第三概率类型。
步骤705’:手机B确定第一检测结果指示该指定图像属于第二概率类型。
步骤706’:手机B确定第一检测结果指示该指定图像属于第一概率类型。
在另一个示例中,图7f为根据图像的内容标签确定第二检测结果的示意图。
步骤801’:手机B从指定图像的属性信息中获取该指定图像的内容标签。
步骤802’:手机B识别该内容标签的类型。当手机B检测该指定图像的内容标签属于第三概率标签,则执行步骤803’。当手机B检测到指定图像的内容标签属于第二概率 标签,则执行步骤804’。当手机B检测到指定图像的内容标签属于第一概率应用,则执 行步骤805’。
步骤803’:手机B确定第二检测结果指示该指定图像属于第三概率类型。
步骤804’:手机B确定第二检测结果指示该指定图像属于第二概率类型。
步骤805’:手机B确定第二检测结果指示该指定图像属于第一概率类型。
下面结合具体场景,对本申请实施例中图像的文字识别方法进行详细说明。
图11为示例性示出的手机A分享图像的场景示意图。
在一个示例中,接收端设备(即手机B)开启蓝牙以及数据分享功能(如手机B通 过点击手机B界面上的分享按钮启动该数据分享功能)。手机A在开启蓝牙的情况下, 用户点击该显示界面上显示的分享按钮,手机A响应于用户点击分享按钮(图11中未示 出该分享按钮)的操作,与手机B建立通信连接。手机A切换至界面1101,该界面1101 上展示了指定图像,以及发送按钮1103,手机A可以响应于用户点击发送按钮1103的 操作,依次将图库中的每张图像作为指定图像,并读取指定图像的属性信息1102。可选 地,本示例中分享指令为用户点击了发送按钮1103。在其他示例中,分享指令还可以是 用户点击分享按钮。
示例性地,可以将属性信息中的部分内容作为图像的名称,例如,可以将属性信息中的第一标签、第二标签、内容标签以及图像的获得时间作为该图像的名称,如“Screenshot_20210928_2010_Memorandum_Text1”为该图像的名称。该属性信息1102 中包含的内容仅为示例性举例,在其它示例中,属性信息还可以包括其它内容。
需要说明的是,本示例中,图像的属性信息中包括:手机A的型号以及源识别设备的型号信息,在其他示例中,图像的属性信息中可以不包括手机A的型号以及源识别设 备的型号,手机A将手机A的型号以及源识别设备的型号存储于其他位置,本示例中不 限定手机A的型号以及源识别设备的型号的存储位置。
在一个示例中,图12为示例性示出了一种图像信息的示意图。如图12所示,将指定图像的属性信息1201以及该指定图像1202绑定,作为分享信息。
在另一个示例中,手机A还可以将属性信息写入指定图像1202中,手机A将写入 属性信息的指定图像作为分享信息。图13为示例性示出的图像格式为JPG(或JPEG) 的图像的存储格式示意图。本示例中,图像采用十六进制的文件形式存储于手机A中。 参照图13所示,标号1301为图像的存储文件的头(start of imge,SOI),标号1302为该 图像的存储文件的尾(end of image,EOI)。即在显示屏中展示的图像的内容从FFD8开 始,至FFD9结束。手机A不展示存储文件FFD9之后的内容。故手机A可以从FFD9 的位置写入图像的属性信息。需要说明的是,图像的属性信息可以转换为十六进制的文 件,以便写入图像的存储文件中。
图14为示例性示出的一种传输分享信息的示意图。如图14所示,手机A可以通过WLAN直连传输分享信息。手机B接收到该分享信息后,可以从分享信息中获取指定图 像(即图像IMG1),以及该指定图像的属性信息。手机B可以将该指定图像的属性信息 存储于手机B的数据库中,并绑定该指定图像以及该指定图像的属性信息。
图15为示例性示出的手机B接收到的指定图像的示意图。当手机B检测到用户查看该指定图像的操作,在显示界面1501上展示该图像IMG1。如图15所示,用户点击显 示界面上的详细按钮1502,手机B响应于用户的点击详细按钮1502的操作,在该显示 界面1901中展示该指定图像的详细信息。本示例中,详细信息包括属性信息,该属性信 息包括:第一标签、第二标签、内容标签等内容。
本示例中,手机A向手机B分享指定图像时,手机A读取该指定图像的属性信息, 并将该指定图像的属性信息以该指定图像作为分享信息一并发送至手机B;或者手机A 将图像的属性信息写入该指定图像中,将写入属性信息的指定图像发送至手机B。使得 手机B不仅可以接收到指定图像,还可以获取该指定图像的属性信息。指定图像的属性 信息中包含该指定图像的来源信息、内容的类别信息,可以辅助手机B快速确定是否对 该指定图像进行OCR识别,避免对无文字的指定图像进行OCR识别的情况,从而减少 手机的功耗。
下面结合图16~图23介绍手机B对指定图像进行指定文字识别操作的过程。
图16为示例性示出的手机B对图像进行指定文字识别的应用场景示意图。
手机B响应于用户查看图库的操作(如:点击相册的图标),在显示屏中展示如图16中的16a所示的图库界面1601。该图库界面1601中显示了6张图像的缩略图。16a中缩 略图1602为图像IMG2的缩略图。用户可以通过点击缩略图的方式,查看缩略图对应的 图像。本示例中,手机B在获取到点击缩略图1602的操作时,可以触发手机B读取该 缩略图1602对应的图像(即图像IMG2)的属性信息。可选地,图16中的16a中仅示出 了部分属性信息,例如,获取的属性信息可以包括:第一标签、第二标签、内容标签以 及获取图像的时间信息,如:Screenshot_20210928_2010_Memorandum_Text1。
图17为示例性示出的该图像属性信息的示意图。如图17所示,该属性信息包括:第一标签1701、图像的获取时间信息1702、第二标签1703以及内容标签1704。如图17 所示,该第一标签为“Screenshot”,用于指示该图像来源于截图方式。标号1702用于指 示该图像IMG2的获取时间为2021年9月28日20点10分。第二标签1703用于指示该 图像IMG2所属应用的信息,例如,手机B根据“Memorandum”,可以确定图像IMG2 所属应用的名称为“备忘录”。内容标签用于指示该图像IMG2的内容的类别,例如,手 机B根据“Text1”,确定图像IMG2的内容属于文档一类。
继续参照图16,手机B获取该属性信息中的第一标签,该第一标签为“Screenshot”。 手机B可以根据该第一标签确定该图像属于截图。手机B从该属性信息中获取第二标签, 根据该第二标签“Memorandum”,手机B确定该图像所属应用为“备忘录”。手机B根 据“备忘录”的应用名称,确定该“备忘录”应用属于便携生活类应用。该手机B根据 预先存储的应用类别的信息(即如图8所示的应用类别分类信息)确定便携生活类应用 属于第一概率应用,即该缩略图1602对应图像的所属应用属于第一概率应用。手机B确 定图像IMG2的所属应用属于第一概率应用,则确定第一指示信息指示进行OCR识别。
手机B检测到该图像IMG2的内容标签不为空。手机B从该属性信息中获取该内容标签,根据该内容标签的内容“Text1”,手机B确定该图像IMG2的内容属于文档一类。 该手机B根据预先存储的标签类别的信息(即如图10所示的标签类别的信息)确定文档 一类的标签属于第一概率标签,即确定该图像IMG2的内容标签属于第一概率标签。手 机B确定图像IMG2的内容标签属于第一概率标签,则确定第二指示信息指示进行OCR 识别。
手机B确定第一指示信息以及第二指示信息均指示进行OCR识别,则该手机B执行OCR识别步骤,对该图像IMG2(即缩略图1602对应的图像)进行OCR识别。手机B 获取OCR识别的识别结果,并存储该识别结果。手机B可以以数据结构的方式存储该识 别结果,如手机B将该图像IMG2的标识信息作为键(Key),以该识别结果作为该键对 应的值(value)进行存储。也可以将该识别结果存储于该图像IMG2的属性信息中。本 示例对此不作限定。
需要说明的是,本示例中以手机B对该图像1602进行OCR识别的时长为630ms为 例进行说明。在其他实施例中,对图像进行OCR识别的时延与该图像中文字的个数相关, 字数越多,OCR识别的时长越长。
图16中的16b为示例性示出的一种图像展示的场景示意图。用户点击该缩略图1602, 手机B可以经过630ms之后,显示如16b所示的界面1603。界面1603中包括有缩略图1602对应的图像(即图像IMG2),以及控件1604(即显示有“点击显示识别结果”的控 件),该控件1604用于指示用户查看当前图像的OCR识别的识别结果。示例性地,手机 B响应于用户点击该控件1604的操作,经过10ms之后,将界面1603切换为界面1605。 该界面1605中包括该蒙板1606,展示在蒙板1606之上图像1607以及图像1607的识别 结果1608。标号1609用于指示复制文字的控件。该控件1609被点击后,手机B为用户 提供通过触摸屏幕复制的文字的操作,以供用户复制文字。需要说明的是,16b切换至 16c所经历的时延为示例性举例,在其他实施例中,从16b切换至16c所经历的时延还可 以是其他值,如20ms、5ms等,具体时延与手机的***性能相关,本实施例中不做具体 限定。
需要说明的是,蒙板1606仅为示例性举例,在其它实施例中,也可以没有蒙板以及图像1607,例如,在界面1605上直接显示图像的识别结果1608。
本示例中,还可以采用其他的形式提示用户点击,例如,可以通过颜色指示该当前显 示的图像有对应的文字识别结果。例如,控件为黄色时,指示该图像有对应的文字识别结果,还可以是通过语音提示手机存储有显示界面显示的图像的识别结果。
图18为示例性示出的手机B对图像进行指定文字识别的应用场景示意图。
手机B响应于用户查看图库的操作(如:点击相册的图标),在显示屏中展示如图18中的18a所示的图库界面1801。该图库界面1801中显示了6张图像的缩略图。用户可以 通过点击缩略图的方式,查看缩略图对应的图像。本示例中,手机B在获取到点击缩略 图1802的操作时,可以触发手机B读取该缩略图1802对应的图像(如该图像的标识信 息为IMG3,后文中“图像IMG3”用于指示标识信息为IMG3的图像)的属性信息1803。 可选地,图18中的18a中仅示出了部分属性信息,例如,获取的属性信息可以包括:第 一标签、第二标签、内容标签以及获取图像的时间信息,如: Screenshot_20210928_2010_Memorandum。手机B获取该属性信息中的第一标签,该第一 标签为“Screenshot”。手机B可以根据该第一标签确定该图像属于截图。手机B从该属 性信息中获取第二标签,根据该第二标签“Memorandum”,手机B确定该图像所属应用 为“备忘录”。手机B根据“备忘录”的应用名称,确定该“备忘录”应用属于便携生活 类应用。该手机B根据预先存储的应用类别的信息(即如图8所示的应用类别分类信息) 确定便携生活类应用属于第一概率应用,即该缩略图1802对应图像的所属应用属于第一 概率应用。手机B确定图像IMG3的所属应用属于第一概率应用,则确定第一指示信息 指示进行OCR识别。
手机B检测到该图像IMG3的内容标签为空。手机B确定第二指示信息指示结束流程。
手机B确定第一指示信息指示进行OCR识别,确定第二指示信息指示结束流程,则该手机B依然执行OCR识别步骤,对该图像IMG3(即缩略图1802对应的图像)进行 OCR识别。手机B获取OCR识别的识别结果,并存储该识别结果。手机B可以以数据 结构的方式存储该识别结果。示例性地,手机B识别图像IMG3的时长可以是630ms, 则手机B经过630ms之后,显示如18b所示的界面1804,界面1804中包括有图像IMG3, 以及控件1805(即显示有“点击显示识别结果”的控件),该控件1805用于指示用户查 看当前图像的OCR识别的识别结果。与图16中的16c类似,手机B响应于用户点击该 控件1805的操作,经过10ms之后,显示如图23c所示的识别结果,本示例中对显示识 别结果的界面不再进行赘述。
本示例中,第一指示信息指示对图像进行OCR识别,当属性信息中内容标签为空时, 第二指示信息指示结束流程,当手机确定第一指示信息与第二指示信息的相异时,手机 执行对图像进行OCR识别的操作,避免出现手机对图像漏识别的问题,提高自主触发OCR识别的准确性,进而提高用户的使用体验。
图19为示例性示出的手机B对图像进行指定文字识别的应用场景示意图。
图19中的19a示出了该手机B的图库主界面1901,该图库主界面1901中展示了各图像的缩略图。本示例中,如19a所示,手机B响应于用户点击缩略图1902的操作,手 机读取该缩略图1902对应的图像(如该图像的标识信息为IMG4,后文中“图像IMG4” 用于指示标识信息为IMG4的图像)的属性信息,即手机B读取“DCIM_20210928_2010_ 水印_Vehicle_1”。手机B从该属性信息中获取拍照模式标签,获取该拍照模式标签的值 “水印”,手机B确定该图像IMG4的拍照模式为水印模式。该手机B根据预先存储的 模式类别的信息(即如图9所示的模式类别的分类信息)确定水印模式属于第一概率模 式,则手机B确定第一指示信息指示进行OCR识别。
手机B检测到该图像IMG4的内容标签不为空。手机B从该属性信息中获取内容标签,根据该内容标签的内容“Vehicle_1”,手机B确定该图像IMG4的内容属于交通工具 一类。该手机B根据预先存储的标签类别的信息(即如图10所示的标签类别的信息)确 定交通工具一类的标签属于第二概率标签。在一个场景中,手机B识别到该图像IMG4 的内容标签属于第二概率标签,手机B检测当前是否处于灭屏且充电的状态。该手机B 未检测到手机处于灭屏且充电的状态,则手机B确定第二指示信息指示结束流程,即不 对图像IMG4进行OCR识别。
手机B确定第一指示信息指示进行OCR识别,确定第二指示信息指示结束流程,则该手机B依然执行OCR识别步骤,对该图像IMG4(即缩略图1902对应的图像)进行 OCR识别。手机B获取OCR识别的识别结果,并存储该识别结果。手机B可以以数据 结构的方式存储该识别结果。
示例性地,手机B识别图像IMG4的时长可以是630ms,手机B可以在经过630ms 之后,显示如19b所示的界面1904。界面1904中包括有图像IMG4,以及控件1905(即 显示有“点击显示识别结果”的控件),该控件1905用于指示用户查看当前图像的OCR 识别的识别结果。手机B响应于用户点击该控件1905的操作,经过10ms之后,显示界 面显示如图16c所示的识别结果,本示例中对显示识别结果的界面不再进行赘述。
本示例中,属性信息中内容标签的值不为空,手机根据内容标签的值确定第二指示 信息指示结束流程。当手机确定第一指示信息与第二指示信息的相异时,手机执行对图像进行OCR识别的操作,避免手机对图像漏识别的问题,提高自主触发OCR识别的准 确性,进而提高用户的使用体验。
图20为示例性示出的手机B对图像进行指定文字识别的应用场景示意图。
图20中的20a示出了该手机B的图库主界面2001,该图库主界面2001中展示了各图像的缩略图。本示例中,如20a所示,手机B响应于用户点击缩略图2002的操作,手 机读取该缩略图2002对应的图像(如该图像的标识信息为IMG5,后文中“图像IMG5” 用于指示标识信息为IMG5的图像)的属性信息,即手机读取“Screenshot_20210928_2010_ 汽车租赁_Vehicle_1”。
手机B从属性信息中获取第一标签“Screenshot”,确定该图像IMG5属于截图。手机B确定该图像IMG5属于截图后,手机B从该属性信息中获取第二标签(即“汽车租 赁”),根据该第二标签“汽车租赁”,手机B确定该图像IMG5所属应用为租赁应用。手 机B根据“租赁应用”的应用名称,确定该“租赁应用”属于金融财经类应用。手机根 据预先存储的应用类别的信息(即图8所示的应用类别),确定该“汽车租赁”应用属于 第二概率应用。在一个场景中,手机B确定图像IMG5的所属应用属于第二概率应用, 手机B检测当前是否处于灭屏且充电的状态。该手机B未检测到手机B处于灭屏且充电 的状态,则手机B确定第一指示信息指示结束流程。
手机B检测到该图像IMG5的内容标签不为空。手机B从该属性信息中获取内容标签,根据该该内容标签的内容“Vehicle_1”,手机B确定该图像的内容属于交通工具一类。该手机B根据预先存储的标签类别的信息(即如图10所示的标签类别的信息)确定交通 工具一类的标签属于第二概率标签。在一个场景中,手机B识别到该图像IMG5的内容 标签属于第二概率标签,手机B检测当前是否处于灭屏且充电的状态。该手机B未检测 到手机B处于灭屏且充电的状态,则手机B确定第二指示信息指示结束流程。
需要说明的是,手机B的电池标识2004指示该手机处于电量低的状态。
在一个示例中,用户发现手机B的电量低(如2004所示),用户对手机B进行了灭 屏操作(也可以手机B检测到电量低,自行关闭了手机B,即手机B进行了灭屏操作), 用户为该手机B进行充电操作。如图20中的20b所示,显示屏2005处于熄灭状态,充 电线2006为该手机B进行充电。当手机B检测到手机B处于灭屏且充电状态,则手机 B确定该图像IMG5的第一指示信息指示对图像IMG5进行OCR识别,以及确定第二指 示信息指示对图像IMG5进行OCR识别。手机B根据第一指示信息和第二指示信息,对 图像IMG5进行OCR识别(即对图像IMG5进行文本检测和文本识别的步骤),获取对 图像IMG5进行OCR识别的识别结果,并存储图像IMG5的识别结果。
经过1小时的充电后,用户停止对手机B的充电,图21中的21a示出了手机经过1 小时充电后的电量处于满电状态的示意图。如21a所示,图库主界面2101示出了各图像 的缩略图,该图库主界面2101中的电池标识2103显示电量满格。手机B响应于用户点 击缩略图2102的操作,查询到该缩略图2102对应的图像为图像IMG5。手机B根据图 像IMG5的标识信息查询到该图像IMG5的OCR识别的识别结果。如21b所示,手机B 经过10ms,从图库主界面2101切换至界面2104。在该界面2104上显示用于指示查看识 别结果的控件2105。如21b所示,该控件2105上可以显示用于提示用户点击查看识别结 果的信息,如控件2105上显示文字“点击显示识别结果”。可以理解的是,控件2105不 限于本示例中所列举的样式,在其他实施例中,控件2105可以通过颜色提示用户点击显 示识别结果。可选地,手机B还可以通过检测到快捷查看操作后,显示图像IMG5的识 别结果,快捷查看操作可以根据实际应用进行设置,例如,可以三指左滑/右滑屏幕,连 续三次击打屏幕等,本示例中不作具体限制。
本示例中,手机检测到图像的内容标签属于第二概率标签且手机检测到未处于灭屏 且充电状态时,确定第二指示信息不指示该图像进行OCR识别。手机检测到图像的拍照模式属于第二概率模式,且手机检测到未处于灭屏且充电状态时,确定第一指示信息不 指示该图像进行OCR识别。第一指示信息以及第二指示信息均指示结束流程,手机不对 图像进行OCR识别,节省了手机的功耗。而当手机检测到处于灭屏且充电状态时,第一 指示信息以及第二指示信息均指示对该图像进行OCR识别,该手机对图像进行OCR识 别,并保存该图像的OCR识别的识别结果。手机检测到用户查看该图像的操作时,手机 可以在图像的属性信息之前,查询该图像是否存在识别结果,若存在识别结果,则该手 机可以直接展示该图像以及提示用户可以查看该图像的识别结果,而无需检测到用户指 示进行OCR识别的指令后,才对图像进行OCR识别,由于不是实时对图像进行OCR识 别,加快了手机展示识别结果的速度,减少了展示图像的识别结果的时延,提高用户使 用图像的OCR识别的使用体验。由于手机处于灭屏且充电状态时,用户未使用手机,故 在此状态下进行OCR识别,避免手机在未充电状态时对电量的消耗,可以提高手机的续 航能力。
图22为示例性示出的手机B对图像进行指定文字识别的应用场景示意图。
图22中的22a示出了用户点击图库中缩略图的示意图。如22a所示,图库主界面2201 示出各图像的缩略图。手机B响应于用户的点击缩略图2202的操作,读取查询到的图像(如该图像的标识信息为IMG6,后文中“图像IMG6”用于指示标识信息为IMG6的图 像)的属性信息。手机B获取该属性信息(即“DCIM_20210928_2010_人像_人像”)中 的第一标签,该第一标签的值为“DCIM”。手机B可以根据该第一标签的值确定该图像 IMG6属于照片。手机B从该属性信息中获取拍照模式标签,获取该拍照模式标签的值 “人像”,手机B确定该图像IMG6的拍照模式为人像模式。该手机B根据预先存储的 模式类别的信息(即如图9所示的模式类别的分类信息)确定人像模式属于第三概率模 式。当手机B识别到图像IMG6的拍照模式属于第三概率模式,可以确定第一指示信息 指示结束流程。
手机B检测到该属性信息中的内容标签不为空。手机B从该属性信息中获取内容标签为“人像”。手机B根据该内容标签以及预先存储的标签类别的信息,确定“人像”标 签属于第三概率标签。手机B确定该图像IMG6的内容标签为第三概率标签,则手机B 确定第二指示信息指示结束流程。
手机B确定第一指示信息以及第二指示信息均指示结束流程,则手机B不对图像IMG6进行OCR识别。手机B可以经过10ms的时延后,在显示屏中展示如22b所示的 界面2204。该界面2204中展示有图像IMG6,如22b所示,该图像中不涉及文本,属于 人物图像。可选地,在该界面2204中还可以显示用于指示用户进行OCR识别的控件2205。 如22b所示,在界面2204中显示有“点击触发OCR识别”的控件2205。手机B响应于 用户点击该控件2205的操作,对该图像IMG6进行文本检测。该手机B检测到该图像中 不存在文本,不进行后续的文本识别的操作。手机B可以在界面2205中提示该图像中未 检测到文本。
本示例中,由于第三概率标签指示图像不涉及文本,当手机确定图像的内容标签属 于第三概率标签,手机确定第二指示信息指示结束流程。且手机检测到图像的拍照模式为人像拍照模式,该人像拍照模式属于第三概率模式,手机确定第一指示信息指示结束 流程。由于第一指示信息以及第二指示信息均指示结束流程,手机不对该图像进行OCR 识别,大大减小了手机的功耗。本申请中,根据图像的内容标签的类别以及图像的类别, 决定是否立即对图像进行OCR识别,或对图像结束OCR识别,从而大大减小了手机在 查看图像时消耗的不必要的功耗。
图23为示例性示出的手机B对图像进行指定文字识别的应用场景示意图。
如图23中的23a所示,图库主界面2301示出了各图像的缩略图。手机B响应于点 击缩略图2302的操作,查询该缩略图2302对应的图像(如该图像的标识信息为IMG7, 后文中“图像IMG7”用于指示标识信息为IMG7的图像)。手机B获取图像IMG7的属 性信息(即读取DCIM_20210928_2010_大光圈_Vehicle_1)。手机B获取该属性信息中的 第一标签,该第一标签的值为“DCIM”。手机B可以根据该第一标签的值确定该图像IMG7 属于照片。手机B从该属性信息中获取拍照模式标签,获取该拍照模式标签的值“大光 圈”,手机B确定该图像IMG7的拍照模式为大光圈模式。该手机根据预先存储的模式类 别的信息(即如图9所示的模式类别的分类信息)确定大光圈模式属于第二概率模式。
当手机B识别到图像IMG5的拍照模式属于第二概率模式,手机B检测当前是否处于灭屏且充电的状态。当手机B确定未处于灭屏且充电的状态,手机B可以对图像IMG7 进行文本检测操作。当手机B检测到该图像IMG7中存在文本,则存储该图像IMG7的 文本检测结果。示例性地,手机B对图像IMG7进行文本检测的时延为230ms。手机B 在文本检测操作完成后,可以确定第一指示信息指示结束流程,即不对图像IMG7进行 文本识别操作。
手机B检测到该图像IMG7的内容标签不为空。手机B从该属性信息中获取该图像IMG7的内容标签(即“Vehicle_1”),根据该内容标签“Vehicle_1”,手机B确定该图像 IMG7的内容属于交通工具一类。该手机根据预先存储的标签类别的信息(即图10所示 的标签类别的信息),确定该交通工具一类的标签属于第二概率标签。当手机B检测到手 机B未处于灭屏且充电的状态,则手机B可以对该图像IMG7进行文本检测。本示例中, 由于手机B并行确定第一指示信息和第二指示信息,为了减少对图像IMG7的重复处理, 手机B在对图像IMG7进行文本检测前,查询该图像IMG7是否存在文本检测结果,若 手机B确定存在文本检测结果,则直接确定第二指示信息指示结束流程,即不对图像 IMG7进行后续的文本识别操作。若手机B确定不存在文本检测结果,则对图像IMG7 进行文本检测的操作,当手机B检测到该图像IMG7中存在文本,则存储该图像IMG7 的文本检测结果。示例性地,手机B对图像IMG7进行文本检测的时延为230ms。
手机B确定第一指示信息以及第二指示信息均指示结束流程,则手机B可以在经过230m后,将界面2301切换至如23b所示的界面2304。如23b所示,界面2304上显示 缩图像IMG7。手机B确定该图像IMG7的文本检测结果指示存在文本,则在该界面2304 上展示控件2305,该控件2305用于指示图像IMG7中存在文本,且用于触发文本识别的 操作。例如,手机B响应于用户点击该控件2305的操作,则手机B对该图像IMG7进 行文本识别,获得对该图像IMG7进行文本识别的识别结果,手机经过400ms的文本识 别后,在界面2306中展示该图像IMG7的识别结果,如23c所示,标号2307为蒙板, 标号2308为图像IMG7,标号2309为图像IMG7的识别结果,控件2310用于为用户提 供复制文字的功能。本示例中对图像IMG7进行OCR识别的总时延为630ms,其中,手 机对图像IMG7进行文本检测的时延为230ms,对图像IMG7进行文本识别的时延为 400ms。需要说明的是,本示例中对图像IMG7进行文字检测以及文字识别的时延仅为举 例,其中,本示例中以文本识别的时延为400ms为例,在其他实施例中,图像中文字的 字数不同,对应文本识别的时延也不同,例如,对100个文字进行识别的时延为500ms。
本示例中,图像的内容标签属于第二概率标签,且确定图像的拍照模式属于第二概 率模式。手机检测到手机未处于灭屏且充电状态,手机确定第一指示信息以及第二指示信息均指示结束流程的情况下,手机可以预先对图像进行文本检测。手机在检测到用户 指示对图像进行文本识别的操作时,对图像进行文本识别,减少了手机的功耗。另外, 手机响应于用户的文本识别操作后,手机由于仅需对图像进行文本识别的步骤,而不是 对图像进行文本检测以及文本识别两个步骤,提高了展示识别结果的速度,提高用户的 使用体验。
图24a为示例性示出的一种对图像进行指定文字识别的场景示意图。本示例的场景 中,用户点击查看图像2402,手机获取该图像2402的属性信息,从图像2402的属性信 息中获取图像2402的内容标签、第一标签、第二标签以及拍照模式标签。手机B根据第 一标签确定图像2402属于照片,根据拍照模式标签确定图像2402的拍照模式属于第二 概率模式,则手机B确定第一检测结果指示图像属于第二概率类型。手机B根据标签类 别,确定图像2402的内容标签属于第二概率标签;手机B确定第二检测结果指示图像属 于第二概率类型。根据第一检测结果以及第二检测结果,确定图像2402属于第二概率类 型。手机B检测是否处于充电且灭屏的状态。当手机检测到未处于充电且灭屏的状态, 则结束对图像2402进行文字识别的操作。手机可以在经过10ms的时长后,显示如图24a 所示的显示界面2401,显示界面2401上显示有该图像2402,同时在该图像2402上显示 有控件2403。控件2403用于触发对图像2402进行OCR识别的操作。例如,若用户点 击该图像2402,则触发手机对该图像2402进行OCR识别,即进行文本检测和文本识别 (也称文字识别)的操作。手机B可以切换至新的界面显示该OCR识别结果。手机B 也可以在该图像2402上对识别到的文字以高亮颜色进行标注。
图24b为示例性示出的一种对图像进行文字识别的场景示意图。本示例中的场景中, 用户点击查看图像2405,手机获取该图像2405的属性信息,从图像2405的属性信息中获取图像2405的内容标签,读取该图像2405的内容标签、第一标签、第二标签以及拍 照模式标签。手机B根据第一标签确定图像2405属于照片,根据拍照模式标签确定图像 2402的拍照模式(如拍照模式为“人像”)属于第三概率模式,则手机B确定第一检测 结果指示图像属于第三概率类型。手机B根据内容标签的标签类别,确定图像2405的内 容标签(如内容标签为“电器一类”)属于第二概率标签;手机B确定第二检测结果指示 图像属于第二概率类型。根据第一检测结果以及第二检测结果,确定图像2405属于第二 概率类型。
手机B确定图像2405属于第二概率类型,则手机B检测是否处于充电且灭屏的状态。当手机检测到未处于充电且灭屏的状态,则对图像2405进行文本检测的操作,获取 文本检测结果。当手机检测到该图像2405存在文本检测结果,可以在图像2405上显示 控件2406。例如,手机B可以在经过230ms的时长后,显示为如图24b所示的显示界面 2404,显示界面2404上显示有该图像2405,同时在该图像2405上显示有控件2406。控 件2406用于触发对图像2405进行文本识别的操作。控件2406可以设置为灰色,本示例 中以横线填充代表灰色。在其他示例中,控件2406的颜色还可以设置为其他颜色,如白 色等。当手机检测到用户点击该控件2406的操作,触发手机对该图像2406进行文本识 别的操作,手机B可以切换至新的界面显示该OCR识别结果。手机也可以在该图像2405 上对识别到的文字以高亮颜色进行标注。
图24c为示例性示出的一种对图像进行文字识别的场景示意图。本示例中的场景中, 用户点击查看图像2408,手机获取该图像2408的属性信息,从图像2408的属性信息中获取图像2408的内容标签、第一标签、第二标签以及拍照模式标签。手机B根据第一标 签确定图像2408属于照片,根据拍照模式标签确定图像2408的拍照模式(如拍照模式 为“普通拍照”)属于第二概率模式,则手机B确定第一检测结果指示图像属于第二概率 类型。手机B根据标签类别,确定图像2408的内容标签(如内容标签为“文档一类”) 属于第一概率标签;手机B确定第二检测结果指示图像属于第一概率类型。根据第一检 测结果以及第二检测结果,确定图像2408属于第一概率类型。手机B确定图像2408属 于第一概率,则对图像2408进行OCR识别的操作,获取OCR识别结果。当手机检测到 该图像2408存在OCR识别结果,可以在图像2408上显示控件2411。例如,手机B可 以在经过630ms的时长后,切换为如图24c所示的显示界面2407,显示界面2407上显 示有该图像2408,同时在该图像2408上显示有控件2411。控件2411填充颜色与控件2405 的填充颜色不同,例如,可以是蓝牙填充该控件2411。
在一个示例中,手机B在该图像2408上对识别到的文字以高亮颜色进行标注,如图24c中的2409、2410等。其中,本示例中,高亮以虚线框表征。该控件2411还可以是图 标,以用于指示该图像2408存在OCR识别结果。
在另一个示例中,控件2411呈蓝色(图24c中以2411的填充色作为蓝色示意),手机响应于用户点击控件2411的操作,在该图像2408上对识别到的文字以高亮颜色进行 标注。其中,本示例中,高亮以虚线框表征。
另外,执行本申请示例中图像的文字识别的操作的电子设备100的软件***以分层 架构的Android***为例。图25是本申请实施例的电子设备100的软件结构框图。
电子设备100的分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android***分为五层,从上至下分 别为应用程序层,应用程序框架层,***层,硬件抽象层以及内核层。如图25所示,应 用程序包可以包括相机,图库,换机克隆、荣耀分享、相机,OCR引擎以及智慧截屏 等应用程序。本申请实施例中图库展示图像、触发OCR引擎对图像进行OCR识别的操 作。OCR引擎可以对图像进行OCR识别的操作,OCR识别包括文本检测和文本识别两 个步骤。如图25所示,应用程序框架层可以包括活动管理器,窗口提供器,内容管理器, 通知管理器以及电池管理器等。通知管理器使应用程序可以在状态栏中显示通知信息, 可以用于传达告知类型的消息。本申请实施例中电池管理器可以检测电池的状态以及检 测手机是否处于灭屏状态。同时,电池管理器在检测到电子设备处于充电且灭屏的状态 时,则可以向图库发送灭屏且充电的消息。
图26为示例性示出的一种手机A(图像分享端设备)内部模块之间的交互示意图。其中,图26仅示出了手机A的内部模块图。
步骤2601:用户执行打开图像A的操作。
本示例中,手机A显示图库主界面,图库主界面中显示有各图像的缩略图。用户执行打开图像A的操作。打开图像的操作可以是点击该图像的缩略图。
步骤2602:手机A的图库接收到用户打开图像A的操作。
手机的图库接收到打开图像A的操作,可以触发图库执行步骤2603。
步骤2603:手机A的图库向多媒体数据库发起查询图像A的请求。
多媒体数据库可以是SQLite数据库。
步骤2604:手机A的多媒体数据库向图库返回图像A。
手机A的多媒体数据库查询到图像A后,可以直接向图库返回该图像A。
步骤2605:手机A的图库显示图像A。
步骤2606:用户点击分享图像的操作。
本示例中用户可以通过点击分享图像的图标启动手机A中分享图像的功能。
步骤2607:手机A的图库向手机A的多媒体数据库发送查询图像A的属性信息的 请求。
本示例中,指定图像的属性信息中可以包括:第一标签、第二标签、拍照模式标签、内容标签。该可选地,指定图像的属性信息中还可以包括其他信息,例如,指定图像的 检测标签。图像A的检测标签可以为“screenshotTypeJude”,该检测标签用于指示图像A 是否存在检测结果。该检测标签的值若为真值(如真值为true或1),指示图像A存在检 测结果,也即指示手机检测过该图像A所属的概率类型。若检测标签的值为假值(如真 值为false或0),指示图像A不存在检测结果,也即指示手机未检测该图像A所属的概 率类型。手机A的多媒体数据库接收到图库发送的查询请求,将该图像A的属性信息返 回图库。本示例中,图像A的属性信息可以包括:第一标签、第二标签、拍照模式标签、 内容标签、手机A的检测标签等。在一个示例中该步骤2607也可以与步骤2603一并执 行,即同时向多媒体数据库请求图像A以及图像A的属性信息。
步骤2608:手机A的多媒体数据库向图库返回图像A的属性信息。
步骤2609:手机A的图库将图像A的属性信息写入图像A中,将图像A作为分享 信息。
该步骤可以参见图13中的示例。
步骤2610:手机A的图库向荣耀分享发送图像分享的请求。
示例性地,该图像分享的请求中可以包括确定的分享信息,该分享信息包括图像A, 其中,图像A中写入有图像A的属性信息。
步骤2611:手机A的荣耀分享启动图像分享的操作。
步骤2612:手机A的荣耀分享向手机B的荣耀分享发送该分享信息。
手机B的荣耀分享接收到该分享信息,手机A结束对图像A的图像分享。
图27为示例性示出的一种手机B(图像A的接收端设备)内部模块之间的交互示意图。其中,图27仅示出了手机B的内部模块图。图27中的手机B作为图26中手机A 的接收端设备。
步骤2701:手机B的荣耀分享接收到手机A发送的分享信息。
步骤2702:手机B的荣耀分享向手机B的图库发送分享信息。
步骤2703:手机B的图库从分享信息中获取图像A以及图像A的属性信息。
步骤2704:手机B的图库向多媒体数据库发送图像A以及图像A的属性信息。
步骤2708:手机B的多媒体数据库绑定图像A以及图像A的属性信息,并保存。
手机B的多媒体数据库存储图像A以及图像A的属性信息后,结束图像的接收流程。
图28为手机B对图像B进行指定文字识别操作时各模块之间的交互图。
步骤2801:用户打开图像B的操作。
步骤2802:手机B的图库接收到用户打开图像B的操作。
步骤2803:手机B的图库向多媒体数据库发起查询图像B的属性信息的请求。
步骤2804:手机B的多媒体数据库向图库返回图像B以及图像B的属性信息。
步骤2805:手机B的图库根据图像B的属性信息,检测到图像B不存在检测结果。
步骤2806:手机B的图库根据属性信息确定图像B属于第二概率类型。
步骤2807:手机B的图库确定手机未处于灭屏且充电的状态。
步骤2808:手机B的图库触发OCR引擎进行文本检测的操作。
步骤2809:手机B的OCR引擎执行对图像B进行文本检测的操作,获得文本检测 结果。
步骤2810:手机B的OCR引擎向多媒体数据库传输文本检测结果。
步骤2811:手机B的OCR引擎向图库传输文本检测结果。
步骤2812:手机B的多媒体数据库存储文本检测结果。
步骤2813:手机B的图库显示图像B以及显示控件B。
控件B用于指示存在文本且用于触发进行文本识别的操作。
步骤2814:用户点击控件B。
步骤2815:手机B的图库响应于接收的点击控件B的操作,触发对图像B进行文本识别的操作。
步骤2816:手机B的OCR引擎根据文本检测结果对图像C进行文本识别的操作。
步骤2817:手机B的OCR引擎向图库返回OCR识别结果。
步骤2818:手机B的OCR引擎向多媒体数据库传输OCR识别结果。
步骤2819:手机B的图库显示图像C以及显示OCR识别结果。
上述各步骤可以参见图23,本示例中将不在进行赘述。
可以理解的是,各实施例中相同或相似之处可以相互参考进行理解。电子设备为了 实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的 实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来 实现。

Claims (12)

1.一种图像的文字识别方法,其特征在于,所述方法包括:
响应于接收的第一电子设备的第一分享信息,获取所述第一分享信息中的第一图像与所述第一图像的属性信息,所述第一图像的属性信息包括:第一标签、第二标签以及内容标签,所述第一标签用于指示获取图像的来源方式,所述第二标签用于指示图像所属应用的信息,所述内容标签用于指示图像的内容所属的类别;
根据所述第一图像的属性信息,检测所述第一图像所属的概率类型,图像所属的概率类型包括:第一概率类型、第二概率类型和第三概率类型;
当检测到所述第一图像属于第一概率类型,则对所述第一图像进行OCR识别的操作;存储所述第一图像的识别结果;
当检测到所述第一图像属于第二概率类型,则检测第二电子设备是否处于灭屏且充电的状态;当检测到所述第二电子设备未处于充电且灭屏的状态,则取消对所述第一图像进行的OCR文字识别的操作,或,当检测到所述第二电子设备未处于充电且灭屏的状态,对所述第一图像进行文本检测的操作,存储所述第一图像的文本检测结果;
当检测到所述第一图像属于第三概率类型,则取消对所述第一图像进行的OCR文字识别的操作。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一图像的属性信息,检测所述第一图像所属的概率类型,包括:
从所述第一图像的属性信息中获取所述第一图像的第一标签,确定所述第一图像的类别;
根据所述第一图像的类别以及所述第一图像的属性信息,确定用于指示所述第一图像所属概率类型的第一检测结果;
从所述第一图像的属性信息中获取所述第一图像的内容标签;
根据所述第一图像的内容标签,确定用于指示所述第一图像所属概率类型的第二检测结果;
从所述第一检测结果和所述第二检测结果中选取最高等级的概率类型作为所述第一图像所属的概率类型;其中,所述第一概率类型的等级高于第二概率类型的等级,第二概率类型的等级高于第三概率类型的等级。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一图像的类别以及所述第一图像的属性信息,确定用于指示所述第一图像所属概率类型的第一检测结果,包括:
当检测到所述第一图像的类别为截图,则从所述第一图像的属性信息中获取所述第一图像所属应用的信息;
根据所述第一图像所属应用的信息,检测所述第一图像所属应用的类型;
当检测到所述第一图像所属应用属于第一概率应用,则确定所述第一检测结果指示所述第一图像所属的概率类型为第一概率类型,所述第一概率应用用于指示应用出现文字的概率大于第一阈值;
当检测到所述第一图像所属应用属于第二概率应用,则确定所述第一检测结果指示所述第一图像所属的概率类型为第二概率类型,所述第二概率应用用于指示应用出现文字的概率大于第二阈值且小于第一阈值;
当检测到所述第一图像所属应用属于第三概率应用,则确定所述第一检测结果指示所述第一图像所属概率类型为第三概率类型,所述第三概率应用用于指示应用出现文字的概率为0;
其中,所述第一概率类型的等级大于第二概率类型的等级,所述第二概率类型的等级大于所述第三概率类型的等级。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一图像的类别以及所述第一图像的属性信息,确定用于指示所述第一图像所属概率类型的第一检测结果,包括:
当检测到所述第一图像的类别为照片,则从所述第一图像的属性信息中获取所述第一图像的拍照模式标签;
根据所述第一图像的拍照模式标签,检测所述第一图像的拍照模式;
当检测到所述第一图像的拍照模式属于第一概率模式,则确定第一检测结果指示第一图像所属的概率类型为第一概率类型,所述第一概率模式用于指示图像出现文字的概率大于第一阈值;
当检测到所述第一图像的拍照模式属于第二概率模式,则确定第一检测结果指示第一图像所属的概率类型为第二概率类型,所述第二概率模式用于指示图像出现文字的概率大于第二阈值且小于第一阈值;
当检测到所述第一图像的拍照模式属于第三概率模式,则确定第一检测结果指示所述第一图像所属的概率类型为第三概率类型,所述第三概率模式用于指示图像出现文字的概率小于等于第二阈值且大于等于0;
其中,所述第一概率类型的等级大于第二概率类型的等级,所述第二概率类型的等级大于所述第三概率类型的等级。
5.根据权利要求2至4中任一项所述的方法,其特征在于,根据所述第一图像的内容标签,确定用于指示所述第一图像所属概率类型的第二检测结果,包括:
当检测到所述第一图像的内容标签属于第一概率标签,则确定所述第二检测结果指示所述第一图像所属的概率类型为第一概率类型,所述第一概率标签用于指示图像出现文字的概率大于第一阈值;
当检测到所述第一图像的内容标签属于第二概率标签,则确定所述第二检测结果指示第一图像所属的概率类型为第二概率类型,所述第二概率标签用于指示图像出现文字的概率大于第二阈值且小于第一阈值;
当检测到所述第一图像的内容标签属于第三概率标签,则确定所述第二检测结果指示第一图像所属的概率类型为第三概率类型,所述第三概率标签用于指示图像出现文字的概率小于等于第二阈值且大于等于0;
其中,所述第一概率类型的等级大于所述第二概率类型的等级,所述第二概率类型的等级大于所述第三概率类型的等级。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于接收的第一电子设备的第二分享信息,获取所述第二分享信息中的第二图像与所述第二图像的属性信息;
根据所述第二图像的属性信息中的第一标签,确定所述第二图像的类别;
根据所述第二图像的类别,确定所述第二图像的第一指示信息,所述第一指示信息用于指示所述第二电子设备是否需要对所述第二图像进行OCR文字识别;
根据所述第二图像的内容标签的类别,确定所述第二图像的第二指示信息,所述第二指示信息用于指示所述第二电子设备是否需要对所述第二图像进行OCR文字识别;
当检测到所述第二图像的所述第一指示信息以及所述第二指示信息均不需要对所述第二图像进行OCR文字识别,则取消对所述第二图像进行OCR文字识别的操作;
当检测到所述第二图像的所述第一指示信息以及所述第二指示信息中任一指示需要对所述第二图像进行OCR文字识别的操作,则对所述第二图像进行OCR识别的操作。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第二图像的类别,确定所述第二图像的第一指示信息,包括:
当检测到所述第二图像的类别属于截图,从所述第二图像的属性信息中获取所述第二图像所属应用的类别;
当检测到所述第二图像所属应用属于第一概率应用,则确定所述第二图像的第一指示信息指示所述第二电子设备需要对所述第二图像进行OCR识别,所述第一概率应用用于指示应用出现文字的概率大于第一阈值;
当检测到所述第二图像所属应用属于第二概率应用,则检测所述第二电子设备是否处于灭屏且充电的状态;当检测到所述第二电子设备未处于充电且灭屏的状态,则确定所述第二图像的第一指示信息指示所述第二电子设备取消对所述第二图像进行OCR文字识别的操作,所述第二概率应用用于指示应用出现文字的概率大于第二阈值且小于第一阈值;
当检测到所述第二图像所属应用属于第三概率应用,则确定所述第二图像的第一指示信息指示所述第二电子设备取消对所述第二图像进行OCR文字识别的操作,所述第三概率应用用于指示应用出现文字的概率为0。
8.根据权利要求6所述的方法,其特征在于,所述根据所述第二图像的类别,确定所述第二图像的第一指示信息,包括:
当检测到所述第二图像的类别属于照片,从所述第二图像的属性信息中获取所述第二图像的拍照模式标签;
根据所述第二图像的拍照模式标签,检测所述第二图像的拍照模式;
当检测到所述第二图像的拍照模式属于第一概率模式,则确定所述第二图像的第一指示信息指示所述第二电子设备需要对所述第二图像进行OCR识别,所述第一概率模式用于指示图像出现文字的概率大于第一阈值;
当检测到所述第二图像的拍照模式属于第二概率模式,则检测所述第二电子设备是否处于灭屏且充电的状态;当检测到所述第二电子设备未处于充电且灭屏的状态,则确定所述第二图像的第一指示信息指示所述第二电子设备取消对所述第二图像进行OCR文字识别的操作,所述第二概率模式用于指示图像出现文字的概率大于第二阈值且小于第一阈值;
当检测到所述第二图像的拍照模式属于第三概率模式,则确定所述第二图像的第一指示信息指示所述第二电子设备取消对所述第二图像进行OCR文字识别的操作,所述第三概率模式用于指示图像出现文字的概率小于等于第二阈值且大于等于0。
9.根据权利要求6至8中任一项所述的方法,其特征在于,所述根据所述第二图像的内容标签的类别,确定所述第二图像的第二指示信息,包括:
当检测到所述第二图像的内容标签属于第一概率标签,则确定所述第二图像的第二指示信息指示所述第二电子设备需要对所述第二图像进行OCR识别,所述第一概率标签用于指示图像出现文字的概率大于第一阈值;
当检测到所述第二图像的内容标签属于第二概率标签,则检测所述第二电子设备是否处于灭屏且充电的状态;当检测到所述电子设备未处于充电且灭屏的状态,则确定所述第二图像的第二指示信息指示所述第二电子设备取消对所述第二图像进行OCR文字识别的操作,所述第二概率标签用于指示图像出现文字的概率大于第二阈值且小于第一阈值;
当检测到所述第二图像的内容标签属于第三概率标签,则确定所述第二图像的第二指示信息指示所述第二电子设备取消对所述第二图像进行OCR文字识别的操作,所述第三概率标签用于指示图像出现文字的概率小于等于第二阈值且大于等于0。
10.根据权利要求1所述的方法,其特征在于,在获取第一图像的属性信息之前,所述方法还包括:检测到预设的触发条件,所述预设的触发条件包括:所述第二电子设备接收到用户查看所述第一图像的操作;或者,所述第二电子设备处于灭屏且充电的状态;或者,所述第二电子设备接收到用户查看图库的操作。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
以及一个或多个计算机程序,其中所述一个或多个计算机程序存储在所述存储器上,当所述计算机程序被所述一个或多个处理器执行时,使得所述电子设备执行如权利要求1至10中任一项所述的图像的文字识别方法。
12.一种计算机可读存储介质,包括计算机程序,其特征在于,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1-10中任意一项所述的图像的文字识别方法。
CN202111389997.0A 2021-11-22 2021-11-22 图像的文字识别方法、电子设备及存储介质 Active CN115035520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111389997.0A CN115035520B (zh) 2021-11-22 2021-11-22 图像的文字识别方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111389997.0A CN115035520B (zh) 2021-11-22 2021-11-22 图像的文字识别方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115035520A CN115035520A (zh) 2022-09-09
CN115035520B true CN115035520B (zh) 2023-04-18

Family

ID=83118200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111389997.0A Active CN115035520B (zh) 2021-11-22 2021-11-22 图像的文字识别方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115035520B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945327A (zh) * 2010-09-02 2011-01-12 郑茂 基于数字图像识别和检索的无线定位方法、***
CN103425234A (zh) * 2013-07-30 2013-12-04 海信集团有限公司 动态调节图像处理性能的方法及显示终端
CN106886776A (zh) * 2017-02-23 2017-06-23 山东浪潮云服务信息科技有限公司 一种利用图像识别实现证照电子化的应用模型
CN108446639A (zh) * 2018-03-21 2018-08-24 四川意高汇智科技有限公司 低功耗增强现实设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5417980B2 (ja) * 2009-05-14 2014-02-19 富士ゼロックス株式会社 情報処理装置、およびプログラム
JP5637817B2 (ja) * 2010-10-29 2014-12-10 株式会社東芝 画像処理システム
CN103854349B (zh) * 2014-03-26 2016-02-10 林海 基于文字识别与无线通信技术的移动式智能来访登记***
CN105654101B (zh) * 2014-11-11 2019-04-26 联想(北京)有限公司 一种信息处理方法及电子设备
CN108647097B (zh) * 2018-05-16 2021-04-13 Oppo广东移动通信有限公司 文本图像处理方法、装置、存储介质及终端
CN109002759A (zh) * 2018-06-07 2018-12-14 Oppo广东移动通信有限公司 文本识别方法、装置、移动终端以及存储介质
CN108959462B (zh) * 2018-06-19 2021-04-23 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
CN109005350A (zh) * 2018-08-30 2018-12-14 Oppo广东移动通信有限公司 图像重复拍摄提示方法、装置、存储介质及移动终端
CN109492143A (zh) * 2018-09-21 2019-03-19 平安科技(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945327A (zh) * 2010-09-02 2011-01-12 郑茂 基于数字图像识别和检索的无线定位方法、***
CN103425234A (zh) * 2013-07-30 2013-12-04 海信集团有限公司 动态调节图像处理性能的方法及显示终端
CN106886776A (zh) * 2017-02-23 2017-06-23 山东浪潮云服务信息科技有限公司 一种利用图像识别实现证照电子化的应用模型
CN108446639A (zh) * 2018-03-21 2018-08-24 四川意高汇智科技有限公司 低功耗增强现实设备

Also Published As

Publication number Publication date
CN115035520A (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
WO2020238356A1 (zh) 界面显示方法、装置、终端及存储介质
CN104461277B (zh) 移动终端及其控制方法
US20170286419A1 (en) Content determining method and apparatus for intelligent device
CN111083364A (zh) 一种控制方法、电子设备、计算机可读存储介质、芯片
US20120062595A1 (en) Method and apparatus for providing augmented reality
US20220254143A1 (en) Method and apparatus for determining item name, computer device, and storage medium
CN111164983B (zh) 互联终端出借本地处理能力
WO2022100221A1 (zh) 检索处理方法、装置及存储介质
CN105224075A (zh) 基于传感器的移动搜索、相关方法和***
WO2021088393A1 (zh) 确定位姿的方法、装置和***
CN112287234B (zh) 信息检索方法、装置及存储介质
CN106919571A (zh) 获取与搜索关键词相匹配的图片的方法及装置
CN109844734A (zh) 一种图片文件管理的方法及终端、计算机存储介质
CN109492170A (zh) 信息推送方法及相关产品
CN115115679A (zh) 一种图像配准方法及相关设备
WO2022033432A1 (zh) 内容推荐方法、电子设备和服务器
CN115033318B (zh) 图像的文字识别方法、电子设备及存储介质
CN113497835B (zh) 多屏交互方法、电子设备及计算机可读存储介质
CN115035520B (zh) 图像的文字识别方法、电子设备及存储介质
CN116048765B (zh) 任务处理方法、样本数据处理方法及电子设备
CN115019291B (zh) 图像的文字识别方法、电子设备及存储介质
CN105320514A (zh) 图片处理方法及装置
CN116055629B (zh) 一种识别终端状态的方法、电子设备、存储介质和芯片
CN115035360B (zh) 图像的文字识别方法、电子设备及存储介质
CN115170785B (zh) 图像的文字识别方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant