CN113963355A - Ocr文字识别方法、装置、电子设备及存储介质 - Google Patents

Ocr文字识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113963355A
CN113963355A CN202111575873.1A CN202111575873A CN113963355A CN 113963355 A CN113963355 A CN 113963355A CN 202111575873 A CN202111575873 A CN 202111575873A CN 113963355 A CN113963355 A CN 113963355A
Authority
CN
China
Prior art keywords
target
image
gesture
characters
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111575873.1A
Other languages
English (en)
Other versions
CN113963355B (zh
Inventor
吴斐
杨华龙
张立
张冰洋
刘天一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing LLvision Technology Co ltd
Original Assignee
Beijing LLvision Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing LLvision Technology Co ltd filed Critical Beijing LLvision Technology Co ltd
Priority to CN202111575873.1A priority Critical patent/CN113963355B/zh
Publication of CN113963355A publication Critical patent/CN113963355A/zh
Application granted granted Critical
Publication of CN113963355B publication Critical patent/CN113963355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种OCR文字识别方法、装置、电子设备及存储介质,其中,OCR文字识别方法包括接收对手势识别的开启操作;响应于所述开启操作,对场景中的手势进行检测,得到目标手势;基于所述目标手势,确定文字所在的图像区域;对所述图像区域中的文字进行识别,得到目标识别文字。采用本方法能够提高OCR文字识别效率。

Description

OCR文字识别方法、装置、电子设备及存储介质
技术领域
本发明涉及增强现实技术领域,尤其涉及一种OCR文字识别方法、装置、电子设备及存储介质。
背景技术
随着增强现实技术的发展,其广泛应用于医疗、工业维修或娱乐等各个领域。增强现实(Augmented Reality,简称AR),是一种将虚拟信息与真实世界巧妙融合的技术,广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互和传感等多种技术手段,将计算机生成的文字、图像、三维模型、音乐和视频等虚拟信息模拟仿真后,应用到真实世界中,两种信息互为补充,从而实现对真实世界的“增强”。也即将原本在现实世界的空间范围中比较难以进行体验的实体信息在电脑等科学技术的基础上,实施模拟仿真处理,叠加将虚拟信息内容在真实世界中加以有效应用,并且在这一过程中能够被人类感官所感知,从而实现超越现实的感官体验。真实环境和虚拟物体之间重叠之后,能够在同一个画面以及空间中同时存在。OCR(Optical Character Recognition)文字识别是指对图像或者实体中存在文字的地方进行文字识别。将增强现实与文字识别相互结合,能够实现在众多场景下的功能交互。
现有技术中,OCR文字识别方法因无法进行功能交互,需要频繁识别筛选出所需要的识别文字,存在识别效率低的问题。
发明内容
本发明提供一种OCR文字识别方法、装置、电子设备及存储介质,用以解决现有技术中OCR文字识别效率低的缺陷,实现提高OCR文字识别效率的目的。
本发明提供一种OCR文字识别方法,包括:接收对手势识别的开启操作;响应于所述开启操作,对场景中的手势进行检测,得到目标手势;基于所述目标手势,确定文字所在的图像区域;对所述图像区域中的文字进行识别,得到目标识别文字。
根据本发明提供的一种OCR文字识别方法,所述基于所述目标手势,确定文字所在的图像区域包括:在图像坐标系下,确定所述目标手势的图像坐标;根据所述图像坐标,确定所述图像区域。
根据本发明提供的一种OCR文字识别方法,所述根据所述图像坐标,确定所述图像区域包括:获取所述目标手势中的第一目标图像坐标和第二目标图像坐标,所述第一目标图像坐标为所述目标手势中第一目标关节点的图像坐标,所述第二目标图像坐标为所述目标手势中第二目标关节点的图像坐标;对所述第一目标图像坐标中第一横坐标与所述第二目标图像坐标中第二横坐标进行差值计算,得到第一差值坐标;以及,对所述第一目标图像坐标中第一纵坐标与所述第二目标图像坐标中第二纵坐标进行差值计算,得到第二差值坐标;根据所述第一差值坐标和所述第二差值坐标,确定所述图像区域。
根据本发明提供的一种OCR文字识别方法,所述对所述图像区域中的文字进行识别,得到目标识别文字之后还包括:将所述目标识别文字展示于目标交互界面上;响应于对所述目标识别文字的触发操作,发送执行指令到目标功能模块,以使所述目标功能模块根据所述执行指令执行对应的功能。
根据本发明提供的一种OCR文字识别方法,所述基于所述目标手势,确定文字所在的图像区域包括:在所述目标手势为OCR文字识别手势的情况下,开启OCR文字识别功能;在开启OCR文字识别功能的情况下,在预设时间内,确定文字所在的图像区域。
根据本发明提供的一种OCR文字识别方法,所述在所述目标手势为OCR文字识别手势的情况下,开启OCR文字识别功能之后包括:获取目标图像;以文字所在的行为划分单位,对所述目标图像中的文字进行划分,得到目标子图像集合;所述对所述图像区域中的文字进行识别,得到目标识别文字包括:对所述目标子图像集合中个各个目标子图像进行识别,得到目标识别文字。
本发明还提供一种OCR文字识别装置,包括:第一处理模块,用于接收对手势识别的开启操作;第二处理模块,用于响应于所述开启操作,对场景中的手势进行检测,得到目标手势;第三处理模块,用于基于所述目标手势,确定文字所在的图像区域;第四处理模块,用于对所述图像区域中的文字进行识别,得到目标识别文字。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述OCR文字识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述OCR文字识别方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述OCR文字识别方法的步骤。
本发明提供的OCR文字识别方法、装置、电子设备及存储介质,通过接收对手势识别的开启操作;响应于该开启操作,对场景中的手势进行检测,得到目标手势;基于目标手势,确定文字所在的图像区域;对图像区域中的文字进行识别,得到目标识别文字。能够通过目标手势确定文字所在的图像区域,并对该图像区域中的文字进行识别,得到目标识别文字,可以对目标手势选定的图像区域进行OCR文字识别,从而提高了OCR文字识别效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的OCR文字识别方法的流程示意图之一;
图2是本发明提供的OCR文字识别方法的流程示意图之二;
图3是本发明提供的OCR文字识别方法的流程示意图之三;
图4是本发明提供的OCR文字识别方法的流程示意图之四;
图5是本发明提供的OCR文字识别方法的流程示意图之五;
图6是本发明提供的OCR文字识别方法的流程示意图之六;
图7是本发明提供的OCR文字识别方法的流程示意图之七;
图8是本发明提供的OCR文字识别方法的场景示意图之一;
图9是本发明提供的OCR文字识别方法的场景示意图之二;
图10是本发明提供的OCR文字识别方法的场景示意图之三;
图11是本发明提供的OCR文字识别装置的结构示意图;
图12是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图7描述本发明的OCR文字识别方法。
在一个实施例中,如图1所示,提供了一种OCR文字识别方法,以该方法应用于终端为例进行说明,包括以下步骤:
步骤102,接收对手势识别的开启操作。
其中,手势识别是指对手势进行的识别,手势是指人在运用手臂时,所出现的具体动作与***,例如,OK手势和V字形手势等。
具体地,终端接收用户可以通过手动或者自动方式开启对手势识别控件或者插件或者脚本等的触发操作。
在一个实施例中,以终端为AR眼镜为例,当手势出现在AR眼镜前方位置,并且超过时间阈值后,自动开启手势识别插件或者脚本的运行操作。
步骤104,响应于开启操作,对场景中的手势进行检测,得到目标手势。
其中,场景是指手势所处的环境。例如,场景为对书本上的文字进行识别或者对饮料瓶上的文字进行识别等等。
具体地,在终端接收到对手势识别的开启操作后,响应于该开启操作,对场景中的手势进行检测,得到目标手势。
步骤106,基于目标手势,确定文字所在的图像区域。
具体地,终端得到目标手势之后,基于该目标手势,可以确定文字所在的图像区域。
在一个实施例中,终端可以根据目标手势中第一目标关节点的图像坐标和第二目标关节点的图像坐标,确定文字所在的图像区域。例如,在目标手势中,第一目标关节点的图像坐标为(x1,y1),第二目标关节点的图像坐标为(x2,y2),则可以根据其中的横轴坐标x1和x2,确定图像区域的宽度w;可以根据其中的纵轴坐标y1和y2,确定图像区域的宽度h。其中,图像区域的宽度w可以表示为公式:
w= |x2- x1|; (1)
图像区域的宽度h可以表示为公式:
h=| y2- y1|; (2)
步骤108,对图像区域中的文字进行识别,得到目标识别文字。
具体地,终端在确定文字所在的图像区域之后,对该图像区域中的文字进行识别,得到目标识别文字。
在一个实施例中,终端在确定文字所在的图像区域之后,开启OCR文字识别插件或者脚本,对该图像区域中的文字进行识别,得到目标识别文字。
上述OCR文字识别方法中,通过接收对手势识别的开启操作;响应于该开启操作,对场景中的手势进行检测,得到目标手势;基于目标手势,确定文字所在的图像区域;对图像区域中的文字进行识别,得到目标识别文字。能够通过目标手势确定文字所在的图像区域,并对该图像区域中的文字进行识别,得到目标识别文字,可以对目标手势选定的图像区域进行OCR文字识别,从而提高了OCR文字识别效率。
在一个实施例中,如图2所示,基于目标手势,确定文字所在的图像区域包括:
步骤202,在图像坐标系下,确定目标手势的图像坐标。
具体地,终端在确定目标手势之后,在图像坐标系下,获取该目标手势中个各个关节的图像坐标。
在一个实施例中,在终端上设置的图像获取装置为深度图像获取装置的情况下,首先获取目标手势中候选关节点的空间位置坐标,提取该空间位置坐标中的横坐标和纵坐标,作为候选关节点的图像坐标。例如,候选关节点的空间位置坐标为(x3,y3,z3)则对应的图像坐标为(x3,y3)。
在一个实施例中,在终端上设置的图像获取装置为二维图像获取装置的情况下,获取目标手势中候选关节点的二维图像坐标,将该坐标作为该候选关节点的图像坐标。例如,二维图像获取装置获取到的目标手势中候选关节点的二维图像坐标为(x4,y4),则候选关节点的图像坐标为(x4,y4)。
步骤204,根据图像坐标,确定图像区域。
具体地,终端确定目标手势的图像坐标之后,可以根据其中一个或者多个候选关节点的图像坐标,确定图像区域。
本实施例中,通过在图像坐标系下,确定目标手势的图像坐标,根据图像坐标,确定图像区域,能够达到准确确定图像区域的目的。
在一个实施例中,如图3所示,根据图像坐标,确定图像区域包括:
步骤302,获取目标手势中的第一目标图像坐标和第二目标图像坐标,该第一目标图像坐标为目标手势中第一目标关节点的图像坐标,第二目标图像坐标为目标手势中第二目标关节点的图像坐标。
具体地,终端获取目标手势之后,利用关节识别方法,识别到目标手势中的第一目标关节点和第二目标关节点,并且获取到第一目标关节点对应的图像坐标和第二目标关节点对应的图像坐标。
步骤304,对第一目标图像坐标中第一横坐标与第二目标图像坐标中第二横坐标进行差值计算,得到第一差值坐标;以及,对第一目标图像坐标中第一纵坐标与第二目标图像坐标中第二纵坐标进行差值计算,得到第二差值坐标。
具体地,终端获取到第一目标图像坐标和第二目标图像坐标之后,对图像坐标中的横坐标做差值计算,得到第一差值坐标;以及,对图像坐标中的纵坐标做差值计算,得到第二差值坐标。例如,假设第一目标图像坐标表示为第一目标关节点的图像坐标为(x5,y5),第二目标关节点的图像坐标为(x6,y6),则可以根据其中的横轴坐标x5和x6,第一差值坐标X1;可以根据其中的纵轴坐标y5和y6,确定第二差值坐标Y1,则第一差值坐标X1可以表示为公式:
X1= x6- x5; (3)
第二差值坐标Y1可以表示为公式:
Y1= y6- y5; (4)
步骤306,根据第一差值坐标和第二差值坐标,确定图像区域。
具体地,终端得到第一差值坐标和第二差值坐标,可以根据第一差值坐标和第二差值坐标,可以将第一差值坐标的绝对值作为图像区域的宽度,将第二差值坐标的绝对值作为图像区域的高度,利用该宽度和高度,可以确定图像区域。
本实施例中,通过获取目标手势中的第一目标图像坐标和第二目标图像坐标,对第一目标图像坐标中第一横坐标与第二目标图像坐标中第二横坐标进行差值计算,得到第一差值坐标;以及,对第一目标图像坐标中第一纵坐标与第二目标图像坐标中第二纵坐标进行差值计算,得到第二差值坐标,根据第一差值坐标和第二差值坐标,确定图像区域,能够达到准确确定图像区域的目的。
在一个实施例中,如图4所示,对图像区域中的文字进行识别,得到目标识别文字之后还包括:
步骤402,将目标识别文字展示于目标交互界面上。
具体地,终端在得到目标识别文字,将识别到的文字按照原有排布布局展示于目标交互界面上。
步骤404,响应于对目标识别文字的触发操作,发送执行指令到目标功能模块,以使目标功能模块根据执行指令执行对应的功能。
具体地,终端将目标识别文字展示于目标交互界面上之后,接收用户对该目标识别文字的触发操作,该触发操作为发送执行指令的触发操作,响应于该触发操作,发送执行指令到目标功能模块,以使目标功能模块根据执行指令执行对应的功能。例如,终端识别到的目标识别文字为“开启连接的蓝牙音响”,用户在以单击或者双击等方式触发该目标识别文字时,终端发送执行指令到指令发送模块,以使得指令发送模块根据该指令执行开启连接的蓝牙音响。
本实施例中,通过将目标识别文字展示于目标交互界面上,响应于对目标识别文字的触发操作,发送执行指令到目标功能模块,以使目标功能模块根据执行指令执行对应的功能,能够达到通过目标识别文字的触发操作,实现相应的执行功能的目的。
在一个实施例中,如图5所示,基于目标手势,确定文字所在的图像区域包括:
步骤502,在目标手势为OCR文字识别手势的情况下,开启OCR文字识别功能。
具体地,终端可以利用对OCR文字识别手势,开启OCR文字识别功能。例如,OCR文字识别手势为OK手势,在目标手势为OK手势的情况下,开启OCR文字识别功能。
在一个实施例中,终端可以通过接收用户对OCR文字识别功能的开启操作,响应于该开启操作,开启OCR文字识别功能。
步骤504,在开启OCR文字识别功能的情况下,在预设时间内,确定文字所在的图像区域。
具体地,终端在开启OCR文字识别功能的情况下,在预设时间内,在所需要进行OCR文字识别的物体上确定文字所在的图像区域。例如,在文字所在的图像区域停留2秒,确认该区域为所要识别文字所在的图像区域。若在文字所在的图像区域停留2秒后,区域选择失败,则再次进行图像区域选择,直至图像区域选择成功。
本实施例中,通过在目标手势为OCR文字识别手势的情况下,开启OCR文字识别功能,在开启OCR文字识别功能的情况下,在预设时间内,确定文字所在的图像区域,能够达到准确确定文字所在的图像区域的目的。
在一个实施例中,在目标手势为OCR文字识别手势的情况下,开启OCR文字识别功能之后包括:获取目标图像;以文字所在的行为划分单位,对目标图像中的文字进行划分,得到目标子图像集合;对图像区域中的文字进行识别,得到目标识别文字包括:对目标子图像集合中个各个目标子图像进行识别,得到目标识别文字。
其中,划分单位是指对目标图像进行划分的最小单元。
具体地,终端通过本端所携带的图像获取设备获取到目标图像,该目标图像可以为任何场景下,包含有文字的图像。若在该目标图像中存在有多行需要识别的文字,则以行为划分单位,对多行文字中每行文字所在的图像区域进行切割,并对切割后的各个目标子图像进行识别,得到目标识别文字。
在一个实施例中,在多行文字中的某一行文字有断句的情况下,例如,某一行文字中间间隔超过两个字的距离或者超过预设的距离阈值,则根据断句位置将该行文字所在的目标子图像切割为两个图像块,分别对该两个图像块进行OCR文字识别,得到每个图像块对应的目标识别文字。
本实施例中,通过获取目标图像;以文字所在的行为划分单位,对目标图像中的文字进行划分,得到目标子图像集合,对目标子图像集合中个各个目标子图像进行识别,得到目标识别文字。能够达到准确识别目标图像中的多行文字。
在一个实施例中,如图6所示,以文字图片载体为书本为例。首先打开手势识别***,等待开启OCR(Optical Character Recognition)文字手势识别,当识别到的手势为OCR文字手势开启的手势时,打开OCR文字区域选取,在选取的区域中停留2秒,确认该区域,若在该选取的区域中停留2秒,未确认该区域,则重新对OCR文字区域进行选取。在确认该区域之后,截取选中区域,运行OCR算法提取确认区域中的文本。同时,在截取选中区域后,关闭OCR文字的区域选取,同时关闭手势识别***。其中,确认该区域的效果如图8,可以通过选取手势中的两个关节点的位置创建选框选中文字;或者图9所示,通过识别到多手中特定关节点之间的区域作为选中文字的选框。
在一个实施例中,如图7所示,以识别文字图片载体中的全图为例。其中的全图为利用增强现实设备获取到的图像。以该增强现实设备为AR眼镜为例。首先打开手势识别***,等待开启OCR文字识别手势,在检测到手势为开启OCR文字识别的手势时,执行全图OCR算法。在检测到手势不是开启OCR的手势时,则等待开启OCR文字识别手势。在执行全图OCR算法后,输出全图中所有OCR浮窗,浮窗的多少取决于全图中文字的行数以及同一行文字之间的断句数量等。例如,全图中有10行文字,可以输出10个浮窗,若在某一行中出现了一个断句,则可以输出11个浮窗。等待选择OCR浮窗的选择手势,在检测到选择指向手势时,计算指尖与浮窗的位置坐标;若未检测到选择指向手势时,继续等待选择手势。当指尖坐标与浮窗的OCR浮窗位置坐标重合时,输出选中的OCR文本。同时关闭手势识别***。选中浮窗的示意图如图10所示,通过指向手势指向待识别文字,输出识别到的文字。
在一个实施例中,当指尖坐标与浮窗的OCR浮窗位置坐标重合时,重合时间达到时间阈值,例如,时间阈值为3秒。实时识别出该坐标处的OCR文本,该OCR文本可以为控制控件,通过对该OCR文本的选中操作,终端发送控制指令到相应的功能模块,以使相应的功能模块执行相应的功能。例如,文字图片载体是一个项目简介书,包含有一个目录,通过本实施例中的方法可以把这个目录内容和按钮的功能链接,实现真实菜单和虚拟***的交互。
上述实施例能够增强AR交互使用体验。可以借助智能眼镜,利用智能眼镜的摄像头对当前场景录像,提取录像中某一帧的图像内容,选中固定区域的内容,对该固定区域的内容进行OCR文字识别得到目标识别文字。
下面对本发明提供的OCR文字识别装置进行描述,下文描述的OCR文字识别装置与上文描述的OCR文字识别方法可相互对应参照。
在一个实施例中,如图11所示,提供了一种OCR文字识别装置1100,包括:第一处理模块1102、第二处理模块1104、第三处理模块1106和第四处理模块1108,其中:第一处理模块1102,用于接收对手势识别的开启操作;第二处理模块1104,用于响应于所述开启操作,对场景中的手势进行检测,得到目标手势;第三处理模块1106,用于基于所述目标手势,确定文字所在的图像区域;第四处理模块1108,用于对所述图像区域中的文字进行识别,得到目标识别文字。
在一个实施例中,第三处理模块1106,用于在图像坐标系下,确定所述目标手势的图像坐标;根据所述图像坐标,确定所述图像区域。
在一个实施例中,第三处理模块1106,用于获取所述目标手势中的第一目标图像坐标和第二目标图像坐标,所述第一目标图像坐标为所述目标手势中第一目标关节点的图像坐标,所述第二目标图像坐标为所述目标手势中第二目标关节点的图像坐标;对所述第一目标图像坐标中第一横坐标与所述第二目标图像坐标中第二横坐标进行差值计算,得到第一差值坐标;以及,对所述第一目标图像坐标中第一纵坐标与所述第二目标图像坐标中第二纵坐标进行差值计算,得到第二差值坐标;根据所述第一差值坐标和所述第二差值坐标,确定所述图像区域。
在一个实施例中,OCR文字识别装置,用于将所述目标识别文字展示于目标交互界面上;响应于对所述目标识别文字的触发操作,发送执行指令到目标功能模块,以使所述目标功能模块根据所述执行指令执行对应的功能。
在一个实施例中,第三处理模块1106,用于在所述目标手势为OCR文字识别手势的情况下,开启OCR文字识别功能;在开启OCR文字识别功能的情况下,在预设时间内,确定文字所在的图像区域。
在一个实施例中,OCR文字识别装置,用于获取目标图像;以文字所在的行为划分单位,对所述目标图像中的文字进行划分,得到目标子图像集合;对所述目标子图像集合中个各个目标子图像进行识别,得到目标识别文字。
图12示例了一种电子设备的实体结构示意图,如图12所示,该电子设备可以包括:处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240,其中,处理器1210,通信接口1220,存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令,以执行OCR文字识别方法,该方法包括:接收对手势识别的开启操作;响应于所述开启操作,对场景中的手势进行检测,得到目标手势;基于所述目标手势,确定文字所在的图像区域;对所述图像区域中的文字进行识别,得到目标识别文字。
此外,上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的OCR文字识别方法,该方法包括:接收对手势识别的开启操作;响应于所述开启操作,对场景中的手势进行检测,得到目标手势;基于所述目标手势,确定文字所在的图像区域;对所述图像区域中的文字进行识别,得到目标识别文字。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的OCR文字识别方法,该方法包括:接收对手势识别的开启操作;响应于所述开启操作,对场景中的手势进行检测,得到目标手势;基于所述目标手势,确定文字所在的图像区域;对所述图像区域中的文字进行识别,得到目标识别文字。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种OCR文字识别方法,其特征在于,包括:
接收对手势识别的开启操作;
响应于所述开启操作,对场景中的手势进行检测,得到目标手势;
基于所述目标手势,确定文字所在的图像区域;
对所述图像区域中的文字进行识别,得到目标识别文字。
2.根据权利要求1所述的OCR文字识别方法,其特征在于,所述基于所述目标手势,确定文字所在的图像区域包括:
在图像坐标系下,确定所述目标手势的图像坐标;
根据所述图像坐标,确定所述图像区域。
3.根据权利要求2所述的OCR文字识别方法,其特征在于,所述根据所述图像坐标,确定所述图像区域包括:
获取所述目标手势中的第一目标图像坐标和第二目标图像坐标,所述第一目标图像坐标为所述目标手势中第一目标关节点的图像坐标,所述第二目标图像坐标为所述目标手势中第二目标关节点的图像坐标;
对所述第一目标图像坐标中第一横坐标与所述第二目标图像坐标中第二横坐标进行差值计算,得到第一差值坐标;以及,对所述第一目标图像坐标中第一纵坐标与所述第二目标图像坐标中第二纵坐标进行差值计算,得到第二差值坐标;
根据所述第一差值坐标和所述第二差值坐标,确定所述图像区域。
4.根据权利要求1所述的OCR文字识别方法,其特征在于,所述对所述图像区域中的文字进行识别,得到目标识别文字之后还包括:
将所述目标识别文字展示于目标交互界面上;
响应于对所述目标识别文字的触发操作,发送执行指令到目标功能模块,以使所述目标功能模块根据所述执行指令执行对应的功能。
5.根据权利要求1所述的OCR文字识别方法,其特征在于,所述基于所述目标手势,确定文字所在的图像区域包括:
在所述目标手势为OCR文字识别手势的情况下,开启OCR文字识别功能;
在开启OCR文字识别功能的情况下,在预设时间内,确定文字所在的图像区域。
6.根据权利要求5所述的OCR文字识别方法,其特征在于,所述在所述目标手势为OCR文字识别手势的情况下,开启OCR文字识别功能之后包括:
获取目标图像;
以文字所在的行为划分单位,对所述目标图像中的文字进行划分,得到目标子图像集合;
所述对所述图像区域中的文字进行识别,得到目标识别文字包括:
对所述目标子图像集合中个各个目标子图像进行识别,得到目标识别文字。
7.一种OCR文字识别装置,其特征在于,包括:
第一处理模块,用于接收对手势识别的开启操作;
第二处理模块,用于响应于所述开启操作,对场景中的手势进行检测,得到目标手势;
第三处理模块,用于基于所述目标手势,确定文字所在的图像区域;
第四处理模块,用于对所述图像区域中的文字进行识别,得到目标识别文字。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述OCR文字识别方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述OCR文字识别方法的步骤。
CN202111575873.1A 2021-12-22 2021-12-22 Ocr文字识别方法、装置、电子设备及存储介质 Active CN113963355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111575873.1A CN113963355B (zh) 2021-12-22 2021-12-22 Ocr文字识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111575873.1A CN113963355B (zh) 2021-12-22 2021-12-22 Ocr文字识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113963355A true CN113963355A (zh) 2022-01-21
CN113963355B CN113963355B (zh) 2022-03-25

Family

ID=79473604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111575873.1A Active CN113963355B (zh) 2021-12-22 2021-12-22 Ocr文字识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113963355B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359911A (zh) * 2022-03-18 2022-04-15 北京亮亮视野科技有限公司 文字关键信息的提取方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110081083A1 (en) * 2009-10-07 2011-04-07 Google Inc. Gesture-based selective text recognition
CN107122042A (zh) * 2017-03-29 2017-09-01 浙江大学 一种静动态手势结合的汉字书写方法及***
CN110059600A (zh) * 2019-04-09 2019-07-26 杭州视氪科技有限公司 一种基于指向手势的单行文字识别方法
CN110443231A (zh) * 2019-09-05 2019-11-12 湖南神通智能股份有限公司 一种基于人工智能的单手手指点读文字识别方法和***
CN111176540A (zh) * 2019-11-27 2020-05-19 云知声智能科技股份有限公司 字符提取方法及装置
US20200393909A1 (en) * 2019-06-14 2020-12-17 Ringcentral, Inc. System and method for capturing presentation gestures

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110081083A1 (en) * 2009-10-07 2011-04-07 Google Inc. Gesture-based selective text recognition
CN107122042A (zh) * 2017-03-29 2017-09-01 浙江大学 一种静动态手势结合的汉字书写方法及***
CN110059600A (zh) * 2019-04-09 2019-07-26 杭州视氪科技有限公司 一种基于指向手势的单行文字识别方法
US20200393909A1 (en) * 2019-06-14 2020-12-17 Ringcentral, Inc. System and method for capturing presentation gestures
CN110443231A (zh) * 2019-09-05 2019-11-12 湖南神通智能股份有限公司 一种基于人工智能的单手手指点读文字识别方法和***
CN111176540A (zh) * 2019-11-27 2020-05-19 云知声智能科技股份有限公司 字符提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIANG LU等: "A Reading Assistant System for Blind People Based on Hand Gesture Recognition", 《IFTC 2019: DIGITAL TV AND WIRELESS MULTIMEDIA COMMUNICATION》 *
章田: "基于最优化特征选择的空间坐标三维手势识别方法", 《中国优秀硕士学位论文全文数据库,(信息科技辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359911A (zh) * 2022-03-18 2022-04-15 北京亮亮视野科技有限公司 文字关键信息的提取方法及装置
CN114359911B (zh) * 2022-03-18 2022-07-26 北京亮亮视野科技有限公司 文字关键信息的提取方法及装置

Also Published As

Publication number Publication date
CN113963355B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
US11170210B2 (en) Gesture identification, control, and neural network training methods and apparatuses, and electronic devices
CN106462242B (zh) 使用视线跟踪的用户界面控制
CN110716645A (zh) 一种增强现实数据呈现方法、装置、电子设备及存储介质
CN107222468B (zh) 增强现实处理方法、终端、云端服务器和边缘服务器
US20140210857A1 (en) Realization method and device for two-dimensional code augmented reality
US9912874B2 (en) Real-time visual effects for a live camera view
CN106845335B (zh) 用于虚拟现实设备的手势识别方法、装置及虚拟现实设备
CA2898668A1 (en) Realization method and device for two-dimensional code augmented reality
CN103079092B (zh) 在视频中获取人物信息的方法和装置
US11893702B2 (en) Virtual object processing method and apparatus, and storage medium and electronic device
CN111259751A (zh) 基于视频的人体行为识别方法、装置、设备及存储介质
CN104123520A (zh) 二维码扫描方法及装置
CN113867531A (zh) 交互方法、装置、设备及计算机可读存储介质
CN111638797A (zh) 一种展示控制方法及装置
WO2022222510A1 (zh) 交互控制方法、终端设备及存储介质
CN113963355B (zh) Ocr文字识别方法、装置、电子设备及存储介质
CN113359995A (zh) 人机交互方法、装置、设备以及存储介质
CN111598996A (zh) 一种基于ar技术的物品3d模型展示方法和***
KR101308184B1 (ko) 윈도우 형태의 증강현실을 제공하는 장치 및 방법
CN113269782B (zh) 数据生成方法、装置及电子设备
CN114299263A (zh) 增强现实ar场景的展示方法及装置
Kim et al. Method for user interface of large displays using arm pointing and finger counting gesture recognition
US10409464B2 (en) Providing a context related view with a wearable apparatus
Álvarez et al. A new marker design for a robust marker tracking system against occlusions
CN111290721A (zh) 在线交互控制方法、***、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant