CN108846339B

CN108846339B - 一种文字识别方法、装置、电子设备和存储介质

Info

Publication number: CN108846339B
Application number: CN201810563940.XA
Authority: CN
Inventors: 马宝兴; 黄茵洁; 武学良; 钟维涛
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2020-11-27
Anticipated expiration: 2038-06-04
Also published as: CN108846339A

Abstract

本发明公开了一种文字识别方法、装置、电子设备和存储介质，用以解决现有技术中在录入文字时不准确，不方便的问题。方法包括：根检测摄像头采集的视频流中的当前帧图像中是否存在预设的用于书写的目标手势；如果是，则确定所述目标手势的坐标信息，并保存；根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字，并输出。由于用户临空写字时，电子设备根据确定用户书写时目标手势的每个三维坐标，确定用户书写的文字，实现了快速准确地录入文字。

Description

一种文字识别方法、装置、电子设备和存储介质

技术领域

本发明涉及文字识别技术领域，特别涉及一种文字识别方法、装置、电子设备和存储介质。

背景技术

随着科技和社会的进步，人们生活水平不断提高，各种电子设备逐渐进入人们的生活，为用户提供各种便利。

现有的电子设备在录入文字用来输入信息时，一般都是通过键盘或触摸屏的方式进行录入。但是生活中有很多人对于键盘的熟练程度不够，通过键盘的方式录入文字速度很慢。电子设备的触摸屏容易损坏，或者不灵敏，导致用户在通过触摸屏输入文字时，也会出现很多不便。

用户一般对于文字的书写是非常熟悉的，如何利用这一优势，快速准确地录入文字，是需要研究的问题。

发明内容

本发明实施例公开了一种文字识别方法、装置、电子设备和存储介质，用以解决现有技术中在录入文字时不准确，不方便的问题。

为达到上述目的，本发明实施例公开了一种文字识别方法，应用于电子设备，所述方法包括：

检测摄像头采集的视频流中的当前帧图像中是否存在预设的用于书写的目标手势；如果是，则确定所述目标手势的坐标信息，并保存；

根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字，并输出。

进一步地，所述检测摄像头采集的视频流中的当前帧图像中是否存在预设的用于书写的目标手势包括：

根据两个摄像头分别采集的视频流中的当前帧图像，确定两当前帧图像中的重叠区域；检测重叠区域中是否存在预设的用于书写的目标手势；

所述确定所述目标手势的坐标信息包括：

根据所述重叠区域，确定所述目标手势的第一三维坐标。

进一步地，在确定所述目标手势的第一三维坐标之后，所述方法还包括：

根据预先保存的重叠区域与显示屏的书写显示区域的映射关系，将所述第一三维坐标映射为所述书写显示区域的第一二维坐标，根据所述第一二维坐标在所述书写显示区域进行显示。

进一步地，在确定出所述目标手势的第一三维坐标之后，在根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字之前，所述方法还包括：

根据所述第一三维坐标，判断当前笔画是否书写完毕；

如果是，则进行后续步骤。

进一步地，如果重叠区域中不存在预设的用于书写的目标手势，在根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字之前，所述方法还包括：

判断针对当前帧图像的上一帧图像，是否保存有所述目标手势的第二三维坐标；如果是，则进行后续步骤。

进一步地，所述根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的目标文字包括：

根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的第一文字；

将所述第一文字与预先保存的文字库进行匹配，根据匹配结果，确定所述待输出文字对应的目标文字。

进一步地，所述根据匹配结果，确定所述待输出文字对应的目标文字包括：

将匹配度最高的第二文字确定为所述待输出文字对应的目标文字；或，

按匹配度由高至低显示预设数量的第二文字；将用户选择的第二文字确定为所述待输出文字对应的目标文字。

进一步地，所述根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的第一文字包括：

根据确定的待输出文字对应的每一笔画，确定待输出文字对应的第一文字，其中，待输出文字对应的每一笔画为在确定该笔画书写完毕后，根据该笔画对应的每个三维坐标确定的。

进一步地，根据第一三维坐标，确定当前笔画是否书写完毕的过程包括：

根据所述第一三维坐标与针对当前帧图像的上一帧图像保存的第二三维坐标的第一距离，确定当前书写速度；

判断当前书写速度是否位于预先保存的笔画书写速度范围内；

如果是，将所述第一三维坐标作为确定笔画的有效三维坐标；

如果否，将所述第一三维坐标作为确定笔画的无效三维坐标；判断所述第二三维坐标是否为确定笔画的有效三维坐标，如果是，将所述第二三维坐标作为当前笔画的结束三维坐标，确定当前笔画书写完毕。

进一步地，在将所述第一三维坐标作为确定笔画的有效三维坐标之后，所述方法还包括：

判断所述第二三维坐标是否为确定笔画的有效三维坐标；

如果否，则将所述第一三维坐标作为当前笔画的开始三维坐标。

进一步地，在确定出待输出文字对应的每一笔画之后，在根据确定的待输出文字对应的每一笔画，确定待输出文字对应的第一文字之前，所述方法还包括：

针对每一笔画，确定该笔画的用时是否小于预设的第一时长阈值；

如果是，将该笔画滤除。

进一步地，在根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字之后，所述方法还包括：

删除待输出文字对应的每个坐标信息。

进一步地，如果针对当前帧图像的上一帧图像，未保存有所述目标手势的第二三维坐标，所述方法还包括：

对预先保存的重叠区域不存在所述目标手势的图像的帧数进行更新。

进一步地，所述方法还包括：

当识别满足文字书写结束条件时，将书写的至少一个文字进行语音播报。

进一步地，识别满足文字书写结束条件包括：

识别接收到文字书写结束指令；或

识别到预先保存的重叠区域不存在所述目标手势的图像的帧数大于预设的数量。

本发明实施例公开了一种文字识别装置，所述装置包括：

目标手势检测模块，用于检测摄像头采集的视频流中的当前帧图像中是否存在预设的用于书写的目标手势；

坐标信息确定模块，用于在所述目标手势检测模块的检测结果为是时，则确定所述目标手势的坐标信息，并保存；

文字确定模块，用于根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字；

显示模块，用于显示确定的目标文字。

进一步地，所述目标手势检测模块，具体用于根据两个摄像头分别采集的视频流中的当前帧图像，确定两当前帧图像中的重叠区域；检测重叠区域中是否存在预设的用于书写的目标手势；

所述坐标信息确定模块，具体用于在所述目标手势检测模块的检测结果为是时，根据所述重叠区域，确定所述目标手势的第一三维坐标。

进一步地，所述显示模块，还用于在确定所述目标手势的第一三维坐标之后，根据预先保存的重叠区域与显示屏的书写显示区域的映射关系，将所述第一三维坐标映射为所述书写显示区域的第一二维坐标，根据所述第一二维坐标在所述书写显示区域进行显示。

进一步地，所述装置还包括：

第一判断模块，用于在所述坐标信息确定模块确定出所述目标手势的第一三维坐标之后，根据所述第一三维坐标，判断当前笔画是否书写完毕；

如果第一判断模块的判断结果为是，则触发所述文字确定模块。

进一步地，所述装置还包括：

第二判断模块，用于在所述目标手势检测模块的检测结果为否时，判断针对当前帧图像的上一帧图像，是否保存有所述目标手势的第二三维坐标；如果第二判断模块的判断结果为是，则触发所述文字确定模块。

进一步地，所述文字确定模块，具体用于根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的第一文字；

进一步地，所述文字确定模块，具体用于将匹配度最高的第二文字确定为所述待输出文字对应的目标文字；或，按匹配度由高至低显示预设数量的第二文字；将用户选择的第二文字确定为所述待输出文字对应的目标文字。

进一步地，所述文字确定模块，具体用于根据确定的待输出文字对应的每一笔画，确定待输出文字对应的第一文字，其中，待输出文字对应的每一笔画为在确定该笔画书写完毕后，根据该笔画对应的每个三维坐标确定的。

进一步地，所述文字确定模块，具体用于根据所述第一三维坐标与针对当前帧图像的上一帧图像保存的第二三维坐标的第一距离，确定当前书写速度；

进一步地，所述文字确定模块，还用于在将所述第一三维坐标作为确定笔画的有效三维坐标之后，判断所述第二三维坐标是否为确定笔画的有效三维坐标；

进一步地，所述文字确定模块，还用于在确定出待输出文字对应的每一笔画之后，在根据确定的待输出文字对应的每一笔画，确定待输出文字对应的第一文字之前，针对每一笔画，确定该笔画的用时是否小于预设的第一时长阈值；如果是，将该笔画滤除。

进一步地，所述装置还包括：

删除模块，用于在所述文字确定模块执行完成后，删除待输出文字对应的每个坐标信息。

进一步地，所述文字确定模块，还用于如果针对当前帧图像的上一帧图像，未保存有所述目标手势的第二三维坐标，对预先保存的重叠区域不存在所述目标手势的图像的帧数进行更新。

进一步地，所述装置还包括：

语音播报模块，用于当识别满足文字书写结束条件时，将书写的至少一个文字进行语音播报。

进一步地，所述语音播报模块，具体用于识别接收到文字书写结束指令；或识别到预先保存的重叠区域不存在所述目标手势的图像的帧数大于预设的数量。

本发明实施例公开了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述任一项所述方法的步骤。

本发明实施例公开了一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行上述任一项所述方法的步骤。

本发明公开了一种文字识别方法、装置、电子设备和存储介质，方法包括：根检测摄像头采集的视频流中的当前帧图像中是否存在预设的用于书写的目标手势；如果是，则确定所述目标手势的坐标信息，并保存；根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字，并输出。由于用户临空写字时，电子设备根据确定用户书写时目标手势的每个三维坐标，确定用户书写的文字，实现了快速准确地录入文字。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A为本发明实施例提供的一种文字识别过程示意图；

图1B为本发明实施例提供的一种文字识别过程示意图；

图2为本发明实施例提供的一种文字笔画确定过程示意图；

图3为本发明实施例提供的一种文字识别装置结构图；

图4为本发明实施例提供的一种电子设备。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种文字识别方法，该方法应用于电子设备，该方法包括以下步骤：

本发明实施例提供的文字识别方法应用于电子设备，该电子设备可以是电脑，手机等。电子设备上的摄像头可以以录像的形式采集图像信息，电子设备在根据录像即视频流信息进行文字识别时，可以是根据采集的每帧图像，实时进行文字识别，也可以是先将采集的视频流保存起来，对保存的视频流进行文字识别。

在本发明实施例中，用户在临空书写时，会先在电子设备中录入用于书写的手势，该手势可以是手掌，可以是拳头，可以是手指，将用于书写的手势称为目标手势。

电子设备对视频流中的每帧图像进行分析，确定每帧图像中是否存在该目标手势，如果存在该目标手势，则确定该目标手势对应的坐标信息，并针对每一帧保存对应的坐标信息。

电子设备可以根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字，并输出。

电子设备在知道了目标手势是什么之后，确定是否存在目标手势的过程属于现有技术，在本发明实施例中不进行赘述。

由于在本发明实施例中，用户临空写字，电子设备通过确定用户书写时目标手势的坐标信息，确定用户临空书写的文字，实现了快速准确地确定文字。

实施例1：

为了使确定的文字更加准确地，所述检测摄像头采集的视频流中的当前帧图像中是否存在预设的用于书写的目标手势包括：

所述确定所述目标手势的坐标信息包括：

根据所述重叠区域，确定所述目标手势的第一三维坐标。

本发明实施例提供的文字识别方法应用于电子设备，该电子设备包括至少两个摄像头，且存在至少两个摄像头采集的图像帧中存在重叠区域。

本发明实施例是针对采集的图像帧中存在重叠区域的两个摄像头采集的视频流进行文字识别的。

进行视频流采集的两个摄像头可以是任意位置设置的，只要该两个摄像头的采集区域中存在重叠区域即可，较优的，该两个摄像头组成双目摄像头。两个摄像头在整个文字识别过程中的位置一般情况下是不会动的，在此前提下，两个摄像头在文字识别的过程中，任何时刻采集的图像的重叠区域一般均是相同的。

每个摄像头连续采集图像，在同一时刻每个摄像头均采集有图像，则两个摄像头采集了两帧图像，电子设备可以对同一时刻的两帧图像进行分析，确定同一时刻的两帧图像中的重叠区域。

将当前进行分析，确定重叠区域的图像称为当前帧图像。

在两帧图像中确定重叠区域的过程属于现有技术，在本发明实施例中不进行赘述。

电子设备在对摄像头采集的当前帧图像进行分析时，可以确定两当前帧图像的重叠区域中是否存在该用于书写的目标手势，如果存在，则可以说明用户当前正在临空书写，如果没有，则说明用户当前没有进行临空书写。

电子设备检测重叠区域是否存在目标手势的过程属于现有技术，在本发明实施例中不进行赘述。

电子设备输出的文字称为目标文字，该目标文字可以理解为最后识别出来的文字。

一般情况下，当电子设备在检测出重叠区域中存在目标手势时，则可以根据该重叠区域，确定目标手势的三维坐标，并针对每帧图像，保存目标手势的三维坐标。将根据当前帧对应的重叠区域确定的三维坐标称为第一三维坐标。

在一个时刻，目标手势的三维坐标是一个，目标手势可能是手掌，可能是拳头，可能是手指。手掌、拳头、手指一般会占据多个坐标点，可以选择其中的一个，例如中心点作为该目标手势的第一三维坐标。

上述根据重叠区域确定目标手势的三维坐标的过程属于现有技术，在本发明实施例中不进行赘述。

在本发明实施例中，在什么条件下根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字的一种具体的实施方法可以是：

如果重叠区域中不存在预设的用于书写的目标手势，则判断针对当前帧图像的上一帧图像，是否保存有所述目标手势的第二三维坐标；如果是，则确定当前满足目标文字确定条件，即根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字。

如果未保存，则可以将下一帧图像作为当前帧图像，进行分析识别。

如果用户还未开始书写，或者用户在上上图像帧对应的时刻已经将某个文字写完，且当前还未进行下一文字的书写时，当前帧图像对应的重叠区域中不会检测到目标手势，且当前帧图像的上一帧图像对应的重叠区域中也不会检测到目标手势。

在确定出当前帧对应的重叠区域中不存在目标手势，即用户当前没有进行临空书写后，可以根据当前帧图像的上一帧图像对应的重叠区域中是否存在目标手势，确定用户是否在上一帧图像对应的时刻正好写完一个字，如果是，则认为满足目标文字确定条件，需要确定出目标文字。

在判断当前帧图像的上一帧图像对应的重叠区域中是否存在目标手势时，可以是判断针对当前帧图像的上一帧图像，是否保存有该目标手势的第二三维坐标，将当前帧图像的上一帧图像对应的目标手势的三维坐标称为第二三维坐标。如果保存有第二三维坐标，则可以确定在上一帧对应的时刻，用户刚好写完一个字，则可以确定该文字。

电子设备中预先保存有待输出文字对应的每个坐标信息即三维坐标，在确定当前满足目标文字确定条件时，可以根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的目标文字。在确定出目标文字后，还可以在电子设备的屏幕上进行显示。

当用户书写一个文字时，用于书写的目标手势会一直在重叠区域中，当重叠区域中不存在目标手势时，则认为用户已经写完一个文字。重叠区域中不存在目标手势，可以是用户将手离开了重叠区域，或用户离开了重叠区域，或用户换了一个与目标手势不同的手势。待输出文字对应的每个三维坐标可以是在第一时间段内确定的每个三维坐标，其中，第一时间段中的每一帧图像对应的重叠区域中均存在目标手势，且第一时间段中的每一帧图像中存在与当前帧图像相邻的图像帧。

假设第1帧-第4帧图像对应的重叠区域中存在目标手势，第3帧中不存在，第5帧-第10帧对应的重叠区域中的存在目标手势，已确定出目标手势在每一帧图像对应的重叠区域中的三维坐标。当前帧为第11帧，当前帧图像对应的重叠区域中不存在目标手势，则可以根据第5帧-第10帧中的确定的每个其他三维坐标确定文字，第一时间段为第5帧-第10帧构成的时间段。第1帧 -第4帧为用户写的一个字，因为第3帧中不存在目标手势，已经确定出第1 帧-第4帧中的文字，所以无需再次确定。

在本发明实施例中，两个摄像头的采集区域中存在重叠区域，电子设备可以预先确定重叠区域对应的空间点阵。电子设备在每次确定出三维坐标后，可以确定出该三维坐标在空间点阵中对应的像素点，在根据待输出文字对应的每个三维坐标，确定所述待输出文字对应的目标文字时，可以是根据预先保存的重叠区域的点阵中每个像素点的三维坐标，确定待输出文字对应的每个三维坐标在点阵中对应的目标像素点，根据确定的每个目标像素点，确定所述待输出文字对应的目标文字，也就是将每个目标像素点组成的文字确定为目标文字。目标像素点对应的在点阵中的三维坐标与根据重叠区域确定出的三维坐标相同。

图1A为本发明实施例提供的一种文字识别过程示意图，该过程包括以下步骤：

S101：根据两个摄像头分别采集的当前帧图像，确定两当前帧图像中的重叠区域。

S102：检测重叠区域中是否存在预设的用于书写的目标手势，如果是，则进行S103，如果否，则进行S104。

S103：根据所述重叠区域，确定所述目标手势的第一三维坐标，并保存。

S104：判断针对当前帧图像的上一帧图像，是否保存有所述目标手势的第二三维坐标；如果是，则进行S105，如果否，则将下一帧图像作为当前帧图像，进行分析识别。

S105：根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的目标文字，并输出。

由于在本发明实施例中，用户临空写字，电子设备通过确定用户书写时目标手势的三维坐标，确定用户临空书写的文字，实现了快速准确地确定文字。

实施例2：

在上述实施例的基础上，在本发明实施例中，在确定出所述目标手势的第一三维坐标之后，在根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字之前，所述方法还包括：

根据所述第一三维坐标，判断当前笔画是否书写完毕；

如果是，则进行后续步骤。

在本发明实施例中，当用户书写一个文字时，用于书写的目标手势会一直在重叠区域中，用户在书写文字时，一般都是按照笔画进行书写的，用户写完某个文字的一个笔画后，在写该文字的下一笔画时，目标手势不会离开重叠区域，则重叠区域中存在目标手势。

电子设备在每确定目标手势的一个三维坐标后，都可以根据确定的该三维坐标，确定笔画是否书写完成，如果笔画书写完成，则认为满足目标文字确定条件，可以根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字。

以第一三维坐标为例，如果检测到重叠区域中存在目标手势，则根据第一三维坐标，确定当前笔画是否书写完成，如果是，则确定当前满足目标文字确定条件；如果否，则确定当前不满足目标文字确定条件。

图1B为本发明实施例提供的一种文字识别过程示意图，该过程包括以下步骤：

S106：根据两个摄像头分别采集的当前帧图像，确定两当前帧图像中的重叠区域。

S107：检测重叠区域中是否存在预设的用于书写的目标手势，如果是，则进行S108。

S108：根据所述重叠区域，确定所述目标手势的第一三维坐标，并保存。

S109：根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的目标文字，并输出。

实施例3：

为了方便用户查看自己的书写情况，在上述各实施例的基础上，在本发明实施例中，在确定所述目标手势的第一三维坐标之后，所述方法还包括：

在本发明实施例中，电子设备的显示屏中有书写显示区域，该书写显示区域可以显示用户的书写情况，电子设备中预先保存有重叠区域与显示屏的书写显示区域的映射关系，根据该映射关系可以将三维坐标映射成二维坐标，也就是在确定出第一三维坐标后，可以根据该映射关系，将该第一三维坐标映射为书写显示区域的第一二维坐标，进而根据第一二维坐标在书写显示区域进行显示，具体可以是在书写显示区域显示该第一二维坐标对应的像素点。

一般情况下，会在书写显示区域显示待输出文字对应的每个三维坐标映射后的二维坐标对应的像素点。则用户可以根据书写显示区域显示的像素点，查看自己的书写情况，及时纠正错误，提高书写准确性。

实施例4：

为了使输出的目标文字更加准确，在上述各实施例的基础上，在本发明实施例中，根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的目标文字包括：

在本发明实施例中，电子设备中预先保存有文字库，在确定出待输出文字的每个坐标信息，即三维坐标后，可以根据每个三维坐标，确定待输出文字对应的第一文字，具体过程与上述实施例中的过程类似，在此不再进行赘述。

在确定出第一文字后，可以将该第一文字与文字库中的文字进行匹配，根据匹配结果，确定待输出文字对应的目标文字，匹配结果可以是无匹配的文字，则无法输出目标文字，也可能是匹配的文字有多个。

在根据匹配结果，确定所述待输出文字对应的目标文字时可以是将匹配度最高的第二文字确定为所述待输出文字对应的目标文字；也可以是按匹配度由高至低显示预设数量的第二文字；将用户选择的第二文字确定为所述待输出文字对应的目标文字。

将第一文字与文字库进行匹配，确定文字库中的第二文字与确定的第一文字的匹配度高低的过程属于现有技术，在本发明实施例中不进行赘述。

一种具体的实施方式：重叠区域中不存在预设的用于书写的目标手势，且针对当前帧图像的上一帧图像，保存有所述目标手势的第二三维坐标，则确定满足目标文字确定条件，后续根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的第一文字；将所述第一文字与预先保存的文字库进行匹配，将匹配度最高的第二文字确定为所述待输出文字对应的目标文字，或者按匹配度由高至低显示预设数量的第二文字；将用户选择的第二文字确定为所述待输出文字对应的目标文字。

另一种具体的实施方式：重叠区域中存在预设的用于书写的目标手势，且根据所述第一三维坐标，确定当前笔画书写完毕，则确定满足目标文字确定条件，后续根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的第一文字，也就是根据待输出文字对应的每一笔画，确定所述待输出文字对应的第一文字；将所述第一文字与预先保存的文字库进行匹配，按匹配度由高至低显示预设数量的第二文字；将用户选择的第二文字确定为所述待输出文字对应的目标文字。

由于在本发明实施例中，将第一文字与文字库中的第二文字进行匹配，确定出目标文字，实现了更加准确地确定文字。

实施例5：

用户在书写文字时，一般都是根据固定的笔画进行书写的，在上述各实施例的基础上，在本发明实施例中，根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的第一文字包括：

在本发明实施例中，在确定第一文字时，可以是根据待输出文字对应的每个三维坐标确定待输出文字对应的每一笔画，后续可以根据确定的每一笔画，确定待输出文字对应的第一文字。

电子设备可以在每次确定出每帧图像对应的目标手势的三维坐标，确定笔画是否书写完成，如果确定笔画书写完成后，进行确定笔画的过程，也可以是在确定用户已经书写完一个文字后，即在确定针对当前帧图像的上一帧图像保存有所述目标手势的第二三维坐标后，进行确定笔画的过程。还可以是在确定文字之前的任一时刻确定笔画。

在本发明实施例中，在确定出每个三维坐标后，都可以确定笔画是否书写完成，以确定出第一三维坐标为例，进行说明，如图2所示，根据第一三维坐标，确定当前笔画是否书写完毕的过程包括以下步骤：

S201：根据所述第一三维坐标与保存的第二三维坐标的第一距离，确定当前书写速度。

其中，第二三维坐标为针对当前帧图像的上一帧图像保存的三维坐标。

S202：判断当前书写速度是否位于预先保存的笔画书写速度范围内；如果是，则进行S203，如果否，则进行S207。

S203：将所述第一三维坐标作为确定笔画的有效三维坐标。

S207：将所述第一三维坐标作为确定笔画的无效三维坐标；并判断所述第二三维坐标是否为确定笔画的有效三维坐标，如果是，则进行S208。

S208：将所述第二三维坐标作为当前笔画的结束三维坐标，确定当前笔画书写完毕。

进一步地，可以根据保存的当前笔画对应的每个有效三维坐标，确定待输出文字对应的当前笔画。

在本发明实施例中，一般用户在书写文字时，有自己常规的书写速度，在写某一笔画时，一般是匀速的。

电子设备在每次确定出目标手势的三维坐标后，可以根据该次确定的三维坐标与上一次确定的三维坐标进行对比，确定是否已经完成一笔画的书写。

首先，以当前帧图像为例，电子设备可以根据当前帧对应的第一三维坐标与当前帧的上一帧对应的第二三维坐标，确定当前书写速度，具体的可以是，确定第一三维坐标与第二三维坐标的第一距离，根据第一距离与相邻两图像帧的时间间隔，确定出当前书写速度。

电子设备中可以预先保存有笔画书写的速度范围，该速度范围可以是用户在电子设备中设置的，也可以是电子设备根据预设时间段内的书画书写速度确定的。

在确定出当前书写速度后，可以判断当前书写速度是否位于预先保存的笔画书写速度范围内，如果是，则认为用户的书写是正常的笔画书写，则将第一三维坐标作为确定笔画的有效三维坐标，如果未位于笔画书写范围内，则确定用户的书写非正常的笔画书写，则将第一三维坐标作为确定笔画的无效三维坐标。

如果第一三维坐标为确定笔画的有效三维坐标，还可以根据第二三维坐标是否为有效三维坐标确定第一三维坐标在笔画中的作用，具体的，在将所述第一三维坐标作为确定笔画的有效三维坐标之后，如图2所示，所述方法还包括以下步骤：

S204：判断所述第二三维坐标是否为确定笔画的有效三维坐标；如果是，则进行S205，如果否，则进行S206。

S206：将所述第一三维坐标作为当前笔画的开始三维坐标。

S205：将所述第一三维坐标作为当前笔画的中间三维坐标。

如果第一三维坐标为确定笔画的无效三维坐标，还可以根据第二维坐标是否为有效三维坐标确定该笔画是否写完，具体的，判断所述第二三维坐标是否为确定笔画的有效三维坐标，如果是，则确定该笔画写完，将所述第二三维坐标作为当前笔画的结束三维坐标，如果第二三维坐标为确定笔画的无效三维坐标，则认为当前的书写不是文字的正常笔画。

在将第二三维坐标作为当前笔画的结束三维坐标之后，就可以根据保存的当前笔画对应的每个有效三维坐标，确定待输出文字对应的当前笔画。

当前笔画对应的每个有效三维坐标包括当前笔画的开始三维坐标，结束三维坐标及中间三维坐标。开始三维坐标为笔画的起点对应的三维坐标，结束三维坐标为笔画的终点对应的单位坐标，开始三维坐标的确定时间与结束三维坐标的确定时间之间的时间段确定的是笔画的中间三维坐标，不管是起点，终点还是中间三维坐标对应的点，都是点阵中的像素点。

上述的每一笔画代表了目标手势的运动轨迹，笔画的起点为运动轨迹的起点，笔画的结束点，为运动轨迹的结束点。

实施例6：

用户在临空写字时，目标手势的每一个动作都会被记录下来，这样会导致不属于文字的笔画也会算作文字的一部分，为了提高确定的文字的准确性，在上述各实施例的基础上，在本发明实施例中，在确定出待输出文字对应的每一笔画之后，在根据确定的待输出文字对应的每一笔画，确定待输出文字对应的第一文字之前，所述方法还包括：

针对每一笔画，确定该笔画的用时是否小于预设的第一时长；

如果是，则将该笔画滤除。

在本发明实施例中，电子设备中预先保存有第一时长，一般文字中的每一笔画在书写时，用时是较长的，当存在不属于文字的笔画时，认为该书写时长较短，为了更加准确地确定文字，可以将无用的笔画滤除，具体可以是针对每一笔画，当确定该笔画的用时是否小于预设的第一时长时，将该笔画滤除，根据剩余的笔画确定第一文字。

确定笔画的用时的过程包括：确定该笔画对应的图像帧的帧数，根据该帧数及相邻两帧图像的时间间隔，确定该笔画的用时。

实施例7：

为了使确定的文字更加准确，以及为电子设备节省存储空间，在上述各实施例的基础上，在本发明实施例中，在根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字之后，所述方法还包括：

删除待输出文字对应的每个坐标信息。

电子设备在每次确定出一个文字后，可以将该文字对应的坐标信息，如三维坐标删除，这样在确定下一文字时，可以清楚准确地知道下一文字对应的三维坐标有哪些，即待输出文字对应的每个三维坐标可以是电子设备中当前保存的全部三维坐标，提高了确定文字的准确性。另一方面，也为电子设备节省存储空间。

实施例8：

在上述各实施例的基础上，在本发明实施例中，如果针对当前帧图像的上一帧图像，未保存有所述目标手势的第二三维坐标，所述方法还包括：

电子设备在确定出某一帧对应的重叠区域中不存在目标手势时，可以是记录重叠区域不存在目标手势的图像的帧数，如果当前帧的上一帧对应的重叠区域中不存在目标手势，则可以对保存的帧数进行更新，一般情况下为加1。

实施例9：

用户在进行临空书写时，一般不仅是书写一个文字，而是多个字，电子设备还可以识别用户是否书写完成，在上述各实施例的基础上，在本发明实施例中，所述方法还包括：

在本发明实施例中，电子设备中预先保存有文字书写结束的条件，当识别满足文字书写结束条件时，可以为用户展示书写的文字，为了进一步提高用户体验，电子设备还可以将用户书写的文字播报出来。

电子设备在识别是否满足文字书写结束条件时，可以是识别是否接收到文字书写结束指令；如果是，则确定满足文字书写结束条件。

文字书写结束指令可以是用户在电子设备屏幕上的结束操作，或者电子设备接收到其他设备发送的结束指令。

电子设备在识别是否满足文字书写结束条件时，还可以是检测到重叠区域中不存在预设的用于书写的目标手势是否超过预设的第二时长，如果是，则确定满足文字书写结束条件。具体可以是，识别到预先保存的重叠区域不存在所述目标手势的图像的帧数大于预设的数量，则认为满足文字书写结束条件。该数量一般大于2，可以是5，可以是10。

实施例10：

图3为本发明实施例提供的一种文字识别装置结构图，应用于包括至少两个摄像头的文字识别装置，所述装置包括：

目标手势检测模块31，用于检测摄像头采集的视频流中的当前帧图像中是否存在预设的用于书写的目标手势；

坐标信息确定模块32，用于在所述目标手势检测模块的检测结果为是时，则确定所述目标手势的坐标信息，并保存；

文字确定模块33，用于根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字；

显示模块34，用于显示确定的目标文字。

进一步地，所述目标手势检测模块31，具体用于根据两个摄像头分别采集的视频流中的当前帧图像，确定两当前帧图像中的重叠区域；检测重叠区域中是否存在预设的用于书写的目标手势；

所述坐标信息确定模块32，具体用于在所述目标手势检测模块的检测结果为是时，根据所述重叠区域，确定所述目标手势的第一三维坐标。

进一步地，所述显示模块34，还用于在确定所述目标手势的第一三维坐标之后，根据预先保存的重叠区域与显示屏的书写显示区域的映射关系，将所述第一三维坐标映射为所述书写显示区域的第一二维坐标，根据所述第一二维坐标在所述书写显示区域进行显示。

进一步地，所述装置还包括：

第一判断模块35，用于在所述坐标信息确定模块32确定出所述目标手势的第一三维坐标之后，根据所述第一三维坐标，判断当前笔画是否书写完毕；

如果第一判断模块35的判断结果为是，则触发所述文字确定模块33。

进一步地，所述装置还包括：

第二判断模块36，用于在所述目标手势检测模块31的检测结果为否时，判断针对当前帧图像的上一帧图像，是否保存有所述目标手势的第二三维坐标；如果第二判断模块36的判断结果为是，则触发所述文字确定模块33。

进一步地，所述文字确定模块33，具体用于根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的第一文字；

将所述候选文字与预先保存的文字库进行匹配，根据匹配结果，确定所述待输出文字对应的目标文字。

进一步地，所述文字确定模块33，具体用于将匹配度最高的第二文字确定为所述待输出文字对应的目标文字；或，按匹配度由高至低显示预设数量的第二文字；将用户选择的第二文字确定为所述待输出文字对应的目标文字。

进一步地，所述文字确定模块33，具体用于根据确定的待输出文字对应的每一笔画，确定待输出文字对应的第一文字，其中，待输出文字对应的每一笔画为在确定该笔画书写完毕后，根据该笔画对应的每个三维坐标确定的。

进一步地，所述文字确定模块33，具体用于根据所述第一三维坐标与针对当前帧图像的上一帧图像保存的第二三维坐标的第一距离，确定当前书写速度；

进一步地，所述文字确定模块33，还用于在将所述第一三维坐标作为确定笔画的有效三维坐标之后，判断所述第二三维坐标是否为确定笔画的有效三维坐标；

进一步地，所述文字确定模块33，还用于在确定出待输出文字对应的每一笔画之后，在根据确定的待输出文字对应的每一笔画，确定待输出文字对应的第一文字之前，针对每一笔画，确定该笔画的用时是否小于预设的第一时长阈值；如果是，将该笔画滤除。

进一步地，所述装置还包括：

删除模块37，用于在所述文字确定模33块执行完成后，删除待输出文字对应的每个坐标信息。

进一步地，所述文字确定模块33，还用于如果针对当前帧图像的上一帧图像，未保存有所述目标手势的第二三维坐标，对预先保存的重叠区域不存在所述目标手势的图像的帧数进行更新。

进一步地，所述装置还包括：

语音播报模块38，用于当识别满足文字书写结束条件时，将书写的至少一个文字进行语音播报。

进一步地，所述语音播报模块38，具体用于识别接收到文字书写结束指令；或识别到预先保存的重叠区域不存在所述目标手势的图像的帧数大于预设的数量。

实施例11：

图4为本发明实施例提供的一种电子设备，包括：处理器41、通信接口 42、存储器43和通信总线44，其中，处理器41，通信接口42，存储器43通过通信总线44完成相互间的通信；

所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行以下步骤：

所述确定所述目标手势的坐标信息包括：

根据所述重叠区域，确定所述目标手势的第一三维坐标。

进一步地，在确定所述目标手势的第一三维坐标之后，根据预先保存的重叠区域与显示屏的书写显示区域的映射关系，将所述第一三维坐标映射为所述书写显示区域的第一二维坐标，根据所述第一二维坐标在所述书写显示区域进行显示。

根据所述第一三维坐标，判断当前笔画是否书写完毕；

如果是，则进行后续步骤。

进一步地，在将所述第一三维坐标作为确定笔画的有效三维坐标之后，判断所述第二三维坐标是否为确定笔画的有效三维坐标；

进一步地，在确定出待输出文字对应的每一笔画之后，在根据确定的待输出文字对应的每一笔画，确定待输出文字对应的第一文字之前，针对每一笔画，确定该笔画的用时是否小于预设的第一时长阈值；

如果是，将该笔画滤除。

进一步地，在根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字之后，删除待输出文字对应的每个坐标信息。

进一步地，如果针对当前帧图像的上一帧图像，未保存有所述目标手势的第二三维坐标，对预先保存的重叠区域不存在所述目标手势的图像的帧数进行更新。

进一步地，当识别满足文字书写结束条件时，将书写的至少一个文字进行语音播报。

进一步地，识别满足文字书写结束条件包括：

识别接收到文字书写结束指令；或

上述各实施例中的电子设备提到的通信总线可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口，用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例10：

本发明实施例提供了一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行以下步骤：

所述确定所述目标手势的坐标信息包括：

根据所述重叠区域，确定所述目标手势的第一三维坐标。

根据所述第一三维坐标，判断当前笔画是否书写完毕；

如果是，则进行后续步骤。

如果是，将该笔画滤除。

进一步地，识别满足文字书写结束条件包括：

识别接收到文字书写结束指令；或

上述实施例中的计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD)等。

对于***/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全应用实施例、或结合应用和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文字识别方法，其特征在于，应用于电子设备，所述方法包括：

根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字，并输出；

其中，所述检测摄像头采集的视频流中的当前帧图像中是否存在预设的用于书写的目标手势包括：

所述确定所述目标手势的坐标信息包括：

根据所述重叠区域，确定所述目标手势的第一三维坐标；

其中，如果重叠区域中不存在预设的用于书写的目标手势，在根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字之前，所述方法还包括：

判断针对当前帧图像的上一帧图像，是否保存有所述目标手势的第二三维坐标；如果是，则进行后续步骤；

其中，在确定出所述目标手势的第一三维坐标之后，在根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字之前，所述方法还包括：

根据所述第一三维坐标，判断当前笔画是否书写完毕；

如果是，则进行后续步骤；

其中，根据第一三维坐标，确定当前笔画是否书写完毕的过程包括：

2.如权利要求1所述的方法，其特征在于，在确定所述目标手势的第一三维坐标之后，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的目标文字包括：

4.如权利要求3所述的方法，其特征在于，所述根据匹配结果，确定所述待输出文字对应的目标文字包括：

5.如权利要求3所述的方法，其特征在于，所述根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的第一文字包括：

6.如权利要求1所述的方法，其特征在于，在将所述第一三维坐标作为确定笔画的有效三维坐标之后，所述方法还包括：

判断所述第二三维坐标是否为确定笔画的有效三维坐标；

7.如权利要求5所述的方法，其特征在于，在确定出待输出文字对应的每一笔画之后，在根据确定的待输出文字对应的每一笔画，确定待输出文字对应的第一文字之前，所述方法还包括：

如果是，将该笔画滤除。

8.如权利要求1所述的方法，其特征在于，在根据保存的待输出文字对应的每个坐标信息，确定所述待输出文字对应的目标文字之后，所述方法还包括：

删除待输出文字对应的每个坐标信息。

9.如权利要求1所述的方法，其特征在于，如果针对当前帧图像的上一帧图像，未保存有所述目标手势的第二三维坐标，所述方法还包括：

10.如权利要求9所述的方法，其特征在于，所述方法还包括：

11.如权利要求10所述的方法，其特征在于，识别满足文字书写结束条件包括：

识别接收到文字书写结束指令；或

12.一种文字识别装置，其特征在于，所述装置包括：

显示模块，用于显示确定的目标文字；

其中，所述目标手势检测模块，具体用于根据两个摄像头分别采集的视频流中的当前帧图像，确定两当前帧图像中的重叠区域；检测重叠区域中是否存在预设的用于书写的目标手势；

所述坐标信息确定模块，具体用于在所述目标手势检测模块的检测结果为是时，根据所述重叠区域，确定所述目标手势的第一三维坐标；

其中，第二判断模块，用于在所述目标手势检测模块的检测结果为否时，判断针对当前帧图像的上一帧图像，是否保存有所述目标手势的第二三维坐标；如果第二判断模块的判断结果为是，则触发所述文字确定模块；

其中，所述装置还包括：

如果第一判断模块的判断结果为是，则触发所述文字确定模块；

所述文字确定模块，具体用于根据所述第一三维坐标与针对当前帧图像的上一帧图像保存的第二三维坐标的第一距离，确定当前书写速度；

13.如权利要求12所述的装置，其特征在于，所述显示模块，还用于在确定所述目标手势的第一三维坐标之后，根据预先保存的重叠区域与显示屏的书写显示区域的映射关系，将所述第一三维坐标映射为所述书写显示区域的第一二维坐标，根据所述第一二维坐标在所述书写显示区域进行显示。

14.如权利要求12所述的装置，其特征在于，所述文字确定模块，具体用于根据保存的待输出文字对应的每个三维坐标，确定所述待输出文字对应的第一文字；

15.如权利要求14所述的装置，其特征在于，所述文字确定模块，具体用于将匹配度最高的第二文字确定为所述待输出文字对应的目标文字；或，按匹配度由高至低显示预设数量的第二文字；将用户选择的第二文字确定为所述待输出文字对应的目标文字。

16.如权利要求14所述的装置，其特征在于，所述文字确定模块，具体用于根据确定的待输出文字对应的每一笔画，确定待输出文字对应的第一文字，其中，待输出文字对应的每一笔画为在确定该笔画书写完毕后，根据该笔画对应的每个三维坐标确定的。

17.如权利要求12所述的装置，其特征在于，所述文字确定模块，还用于在将所述第一三维坐标作为确定笔画的有效三维坐标之后，判断所述第二三维坐标是否为确定笔画的有效三维坐标；

18.如权利要求16所述的装置，其特征在于，所述文字确定模块，还用于在确定出待输出文字对应的每一笔画之后，在根据确定的待输出文字对应的每一笔画，确定待输出文字对应的第一文字之前，针对每一笔画，确定该笔画的用时是否小于预设的第一时长阈值；如果是，将该笔画滤除。

19.如权利要求12所述的装置，其特征在于，所述装置还包括：

20.如权利要求12所述的装置，其特征在于，所述文字确定模块，还用于如果针对当前帧图像的上一帧图像，未保存有所述目标手势的第二三维坐标，对预先保存的重叠区域不存在所述目标手势的图像的帧数进行更新。

21.如权利要求20所述的装置，其特征在于，所述装置还包括：

22.如权利要求21所述的装置，其特征在于，所述语音播报模块，具体用于识别接收到文字书写结束指令；或识别到预先保存的重叠区域不存在所述目标手势的图像的帧数大于预设的数量。

23.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1-11任一项所述方法的步骤。

24.一种计算机可读存储介质，其特征在于，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行权利要求1-11任一项所述方法的步骤。