CN115131693A

CN115131693A - 文本内容识别方法、装置、计算机设备和存储介质

Info

Publication number: CN115131693A
Application number: CN202110336251.7A
Authority: CN
Inventors: 林建民
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-09-30
Also published as: WO2022206534A1

Abstract

本申请涉及一种文本内容识别方法、装置、计算机设备和存储介质。所述方法包括：获取当前采集的视频帧图像；检测所述视频帧图像中的手指指尖，并获得所述手指指尖的指尖位置；以所述指尖位置为基准，截取所述视频帧图像中的候选区域；通过对所述候选区域进行指尖回归定位，对所述候选区域进行文本检测，获得所述候选区域中的文本区域；识别所述文本区域中的文本内容。采用本方法能够在提高文本内容检测的效率的基础上，提高检测的文本内容的准确度。

Description

文本内容识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本内容识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了基于桌面学习设备的指尖查词技术，具体是用户通过手指指向不认识的目标单词，桌面学习设备通过摄像头拍摄到手指指向目标单词的画面，通过识别出手指指向的文本内容，并对识别到的文本内容进行单词查询，获得词典中对目标单词的注释内容，然后将查询获得的目标单词以及目标单词的注释内容在桌面学习设备的显示屏上显示，从而使得用户只需要指向目标单词就可以获得目标单词的注释内容。在这个过程中，对目标单词的识别的准确性是影响单词查询结果的重要内容，但传统方式中，对目标文本的识别的准确性不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高指尖查词的文本识别的准确率的文本内容识别方法、装置、计算机设备和存储介质。

一种文本内容识别方法，所述方法包括：

获取当前采集的视频帧图像；

检测所述视频帧图像中的手指指尖，并获得所述手指指尖的指尖位置；

以所述指尖位置为基准，截取所述视频帧图像中的候选区域；

通过对所述候选区域进行指尖回归定位，对所述候选区域进行文本检测，获得所述候选区域中的文本区域；

识别所述文本区域中的文本内容。

一种文本内容识别装置，所述装置包括：

图像采集模块，用于获取当前采集的视频帧图像；

指尖位置检测模块，用于检测所述视频帧图像中的手指指尖，并获得所述手指指尖的指尖位置；

候选区域截取模块，用于以所述指尖位置为基准，截取所述视频帧图像中的候选区域；

指尖回归和文本区域检测模块，用于通过对所述候选区域进行指尖回归定位，对所述候选区域进行文本检测，获得所述候选区域中的文本区域；

内容识别模块，用于识别所述文本区域中的文本内容。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述实施例中的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述实施例中的方法的步骤。

上述文本内容识别方法、装置、计算机设备和存储介质，其通过检测采集的视频帧图像中的手指指尖获得指尖位置后，以检测的指尖位置为基准截取候选区域后，针对该候选区域进行进一步地指尖回归定位，以此为基础对候选区域进行文本检测，获得文本区域后，识别文本区域中的文本内容，以此实现指尖定位的文本内容识别过程，在这个股偶成中，结合两次指尖定位来最终实现文本区域的检测，初次通过高速指尖定位的方式来截取候选区域，再通过进一步的指尖回归定位来检测出候选区域中的文本区域，在提高文本内容检测的效率的基础上，提高了检测的文本内容的准确度。

附图说明

图1为一个实施例中的文本内容识别方法的应用环境图；

图2为一个实施例中的文本内容识别方法的流程示意图；

图3为一个应用示例中的文本内容识别方法的流程示意图；

图4为一个应用示例中的截取候选区域的示意图；

图5为另一个应用示例中的截取候选区域的示意图；

图6为一个应用示例中的指尖回归与文本检测的示意图；

图7为一个实施例中的文本内容识别装置的结构框图；

图8为一个实施例中的计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本内容识别方法，可以应用于如图1所示的应用环境中。其中，计算机设备20放置在桌面10上，计算机设备20自身携带或者外接有摄像装置30。使用时，用户将进行指读的文本资料40放置在桌面10上，用户通过手指指向需要进行识别或者进行翻译的文本内容，摄像装置30拍摄到这个画面得到视频帧图像，计算机设备20获得该视频帧图像，并对该视频帧图像进行处理，识别出用户手指指向的文本内容。在一些实施例中，自身携带或者外接有摄像装置30的计算机设备20，也可以固定或者放置于其他位置，使用时，用户用一只手或者其他设备持有文本资料40放置在摄像装置30的拍摄范围内，用户通过手指指向需要进行识别或者进行翻译的文本内容，摄像装置30拍摄到这个画面得到视频帧图像，计算机设备20获得该视频帧图像，并对该视频帧图像进行处理，识别出用户手指指向的文本内容。

在识别出用户手指指向的文本内容之后，在处于查词的应用场景下，对识别到的文本内容进行单词查询，获得词典中对目标单词的注释内容，然后将查询获得的目标单词以及目标单词的注释内容在计算机设备20的显示屏上显示，如图1所示。在处于检索的应用场景下，则对识别到的文本内容进行检索，并将获得的检索结果在计算机设备20的显示屏上显示。在其他的应用场景下，在识别到文本内容后，也可以做其他的进一步的处理。其中，计算机设备20可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在一个实施例中，如图2所示，提供了一种文本内容识别方法，以该方法应用于图1中的计算机设备20为例进行说明，包括以下步骤S201至步骤S205。

步骤S201：获取当前采集的视频帧图像。

可以计算机设备自身携带的摄像装置或者该计算机设备外接的摄像装置，进行视频拍摄获得视频帧图像。

步骤S202：检测所述视频帧图像中的手指指尖，并获得所述手指指尖的指尖位置。

检测视频帧图像中的手指指尖时，可以用各种可能的方式来检测出视频帧图像中的手指指尖的指尖位置。该指尖位置具体可以是检测出手指指尖在视频帧图像中的位置。

在本申请的一些实施例中，可以通过预先训练获得的指尖识别模型对视频帧图像进行检测得到指尖位置，具体可以包括：

通过训练获得的指尖识别模型检测所述视频帧图像中的手指指尖；

在所述指尖识别模型检测到手指指尖时，输出检测到的手指指尖的位置的坐标，获得所述手指指尖的指尖位置；

在所述指尖识别模型未检测到手指指尖时，输出预设回归位置坐标，所述预设回归位置坐标为不属于所述视频帧图像的坐标范围的坐标。

从而，通过指尖识别模型检测时，在视频帧图像中存在手指指尖时，可以直接输出检测到的手指指尖的位置的坐标，从而获得手指指尖的指尖位置，如果在视频帧图像中没有检测到手指指尖，此时指尖识别模型输出的是预设回归位置坐标，避免了指尖识别模型检测未识别到手指指尖时，模型无法输出结果的逻辑错误问题，以确保指尖识别模型识别结果的准确性，以及指尖识别模型的识别结果的可用性。

一些实施例中，训练得到指尖识别模型的方式可以采用下述方式进行。

首先，获取手指指尖样本图像，其中一些手指指尖样本图像中存在手指指尖，并记录有对应的具体的手指指尖的位置，该位置为手指指尖样本图像的目标指尖位置。其中有一些手指指尖样本图像不存在手指指尖，其对应的具体的手指指尖的位置可以设定为预设回归位置坐标，此时预设回归位置坐标为该手指指尖样本图像的目标指尖位置。

然后，将手指指尖样本图像输入到指尖识别模型进行处理，指尖识别模型对输入的手指指尖样本图像进行处理，获得手指指尖的样本指尖位置的训练结果。

将各手指指尖样本图像的样本指尖位置与该手指指尖图像的目标指尖位置进行比较，并根据比较结果计算模型训练误差。计算模型训练误差的函数可以采用任何可能的误差函数，例如均方误差等等，本申请实施例不做具体限定。

若模型训练误差满足误差需求，且训练迭代次数达到预设迭代次数时，确定满足训练结束条件，并将最后一次训练的待训练指尖识别模型，确定为训练得到的指尖识别模型。否则，则判定不满足训练结束条件，对待训练指尖识别模型的模型参数进行调整后，返回将手指指尖样本图像输入到指尖识别模型进行处理的步骤，直至达到模型训练结束条件。

一些实施例中，在获得手指指尖的指尖位置之后，还可以包括步骤：

基于所述指尖位置，确定所述手指指尖是否处于指尖稳定状态；

在所述手指指尖处于指尖稳定状态时，进入以所述指尖位置为基准，截取所述视频帧图像中的候选区域的步骤；

在所述手指指尖不是处于指尖稳定状态时，返回检测所述视频帧图像中的手指指尖的步骤。

从而，在检测到手指指尖的指尖位置，而且手指指尖处于稳定状态后，才进入后续的处理流程，避免了误检测到手指指尖时进入后续流程的资源消耗以及识别准确率低的问题。

其中，在一些实施例中，可以是在所述指尖位置与前预设数目的相邻视频帧图像中的手指指尖位置的偏移量小于预设偏移量时，确定所述手指指尖处于指尖稳定状态。其中，预设偏移量可以结合实际技术需要进行设定，在本申请的一些实施例中，预设偏移量可以基于采集所述视频帧图像的视频采集设备(即上述摄像装置)的分辨率设定，例如所述预设偏移量与采集所述视频帧图像的视频采集设备的分辨率正相关。在一些具体示例中，所述预设偏移量可以设置为10个像素值。

步骤S203：以所述指尖位置为基准，截取所述视频帧图像中的候选区域。

上述获得的指尖位置为基准，可以采用各种可能的方式截取出视频帧图像中的候选区域。

在一些实施例中，以所述指尖位置为基准，截取所述视频帧图像中的候选区域，包括：

以所述指尖位置为中心点，向第一坐标轴的两侧分别扩展第一数目像素，向与第二坐标轴的两侧分别扩展第二数目像素；

将扩展后的各指尖位置形成的区域确定为所述视频帧图像中的候选区域。

其中，第一坐标轴可以是视频帧图像的其中一条边所在的轴，第二坐标轴可以是视频帧图像的另一条边所在的轴。第一数目像素和第二数目像素，可以设置为相同，也可以设置为不同。

其中第一数目像素和第二数目像素可以设置为相同，也可以设置为不同。第一数目像素和第二数目像素的具体数值，可以结合如图1所示的计算机设备20的具体放置位置以及摄像装置30的分辨率以及所处的高度确定。通常情况下，用户在使用计算机设备20时，计算机设备20会有一些较为常用的使用场景，例如放置在学习桌上使用，或者可以固定在某个具体的位置，其在识别文本内容时，通常是对具有常规印刷尺寸的书本、课本、或者其他印刷文本等各种文本中的文本内容进行识别，因此，可以结合计算机设备20在这些常用使用场景下，其携带或者外接的摄像装置30的分辨率、摄像装置30相对于手指指向的文本内容的垂直距离等，确定出第一数目像素和第二数目像素。在另一些实施例中，也可以通过获取用户输入的第一数目像素和第二数目像素。

一些实施例中，将扩展后的各指尖位置形成的区域确定为所述视频帧图像中的候选区域，包括：

当扩展后的指尖位置位于所述视频帧图像的边界外时，将扩展后位于所述视频帧图像的边界外的扩展后的指尖位置对应的边界、与其他扩展后的指尖位置形成的区域确定为所述视频帧图像中的候选区域。

从而，当扩展后的指尖位置处于视频帧图像的边界外时，可以以扩展后的指尖位置对应的边界，来作为确定候选区域的基础，提升确定的候选区域的准确性。

步骤S204：通过对所述候选区域进行指尖回归定位，对所述候选区域进行文本检测，获得所述候选区域中的文本区域。

通过对所述候选区域进行指尖回归定位，对所述候选区域进行文本检测，获得候选区域中的文本区域时，是通过进一步对候选区域进行更精细化的指尖定位，以获得更精确的指尖位置，并据此确定候选区域中的文本区域，从而提高获得的文本区域的准确性。

一些实施例中，通过对所述候选区域进行指尖回归定位，对所述候选区域进行文本检测，获得所述候选区域中的文本区域，包括：

通过训练获得的指尖回归与文本检测综合模型对所述候选区域进行指尖定位和文本检测，获得所述候选区域中的文本区域。

其中，指尖回归与文本检测综合模型可以是同时进行指尖定位以及文本区域检测的模型结构，其以指尖定位的指尖定位误差和文本区域检测的文本区域误差的多重误差来对模型进行调整。

一些实施例中，训练获得所述指尖回归与文本检测综合模型的方式包括如下步骤S2041至步骤S2046。

步骤S2041：获取待训练图像样本，以及与所述待训练图像样本对应的目标文本区域以及目标指尖位置。

待训练图像样本可以是包含有手指指尖以及手指指尖指向了文本内容的图像，可以将已经识别出指尖位置和文本区域的图像作为待训练图像样本，也可以是在获得图像样本后，通过人工识别出指尖位置和文本区域后，将该图像样本作为待训练图像样本。在其他实施例中，也可以通过其他方式获得待训练图像样本，只要待训练图像样本有明确对应的目标文本区域以及目标指尖位置即可。

步骤S2042：通过待训练指尖回归与文本检测综合模型对所述待训练图像样本进行指尖定位和文本检测，获得检测到的样本文本区域以及样本指尖位置。

将待训练图像样本输入到待训练指尖回归与文本检测综合模型，通过待训练指尖回归与文本检测综合模型对待训练图像样本进行处理，获得对其进行检测获得的该待训练样本图像的样本指尖位置，以及与该样本指尖位置对应的样本文本区域。

步骤S2043：基于所述待训练图像样本对应的样本文本区域以及目标文本区域，计算确定文本区域损失。

文本区域损失，是用以表征待训练图像样本的样本文本区域与目标文本区域之间的差异性的参数，用以体现在检测过程中待训练图像样本的文本区域的损失量。可以通过各种可能的方式计算确定文本区域损失，例如在一些实施例中，可以是将目标文本区域与样本文本区域的差值作为文本区域损失，在其他实施例中，基于目标文本区域和样本文本区域，也可以采用其他的方式计算出文本区域损失，例如均方误差等等。

步骤S2044：基于所述待训练图像样本对应的样本指尖位置以及目标指尖位置，计算确定指尖定位损失。

指尖定位损失，是用以表征待训练图像样本的样本指尖位置与目标指尖位置的差异性的参数，用以体现在检测过程中待训练图像样本的指尖定位的损失量。可以通过各种可能的方式计算确定指尖定位损失，例如在一些实施例中，可以是将目标指尖位置与样本指尖位置的差值作为指尖定位损失，在其他实施例中，基于目标指尖位置和样本指尖位置，也可以采用其他的方式计算出指尖定位损失，例如均方误差等等。

步骤S2045：结合所述文本区域损失和指尖定位损失，确定模型损失。

模型损失可以结合文本区域损失和指尖定位损失综合确定。在一些实施例中，可以将各待训练图像样本的文本区域损失和指尖定位损失的和值，作为模型损失。在其他实施例中，可以将待训练图像样本的文本区域损失和指尖定位损失加权求和后，对各待训练图像样本的加权求和后的损失进行求和，并将求和得到的和值作为模型损失。在其他实施例中，也可以采用其他的方式结合各待训练图像样本的文本区域损失和指尖定位损失确定出模型损失。

若基于上述计算得到的模型损失确定满足模型训练结束条件，则将最后一次训练的待训练指尖回归与文本检测综合模型，作为训练得到的指尖回归与文本检测综合模型。一些实施例中，在确定满足模型训练结束条件时，也可以是在最后一次训练的待训练指尖回归与文本检测综合模型的基础上，通过去掉指尖定位的输出部分，以得到最终的训练得到的指尖回归与文本检测综合模型，使得在最终进行使用时，可以只需要输出文本区域即可。

模型训练结束条件可以结合实际技术需要进行设定，在一些实施例中，可以是在所述模型损失小于或者等于预设损失量且达到预设模型迭代次数时，确定达到模型训练结束条件。在其他实施例中，也可以采用其他的方式来确定模型训练结束条件。

若基于上述计算得到的模型损失确定不满足模型训练结束条件，则进入下述步骤S2046。

步骤S2046：基于所述模型损失调整所述待训练指尖回归与文本检测综合模型，返回通过待训练指尖回归与文本检测综合模型对所述待训练图像样本进行指尖定位和文本检测的步骤，直至达到模型训练结束条件。

在对待训练指尖回归与文本检测综合模型进行调整时，可以调整与指尖定位相关的模型参数，也可以是调整与文本区域检测相关的模型参数。一些实施例中，可以结合文本区域损失和指尖定位损失来确定如何对模型参数进行调整。在其他实施例中，也可以采用其他方式来确定对模型参数进行调整的调整策略。

步骤S205：识别所述文本区域中的文本内容。

在获得文本区域后，则可以针对文本区域进行文本内容识别，获得文本区域中的文本内容。可以采用各种可能的方式识别出文本区域中的文本内容，例如采用OCR(OpticalCharacter Recognition，光学字符识别)识别出文本内容。在其他实施例中，也可以采用其他的方式识别出文本区域中的文本内容，本申请实施例不做具体限定。

基于如上所述的本申请实施例中的方法，其通过检测采集的视频帧图像中的手指指尖获得指尖位置后，以检测的指尖位置为基准截取候选区域后，针对该候选区域进行进一步地指尖回归定位，以此为基础对候选区域进行文本检测，获得文本区域后，识别文本区域中的文本内容，以此实现指尖定位的文本内容识别过程，在这个过程中，结合两次指尖定位来最终实现文本区域的检测，初次通过高速指尖定位的方式来截取候选区域，再通过进一步的指尖回归定位来检测出候选区域中的文本区域，在提高文本内容检测的效率的基础上，提高了检测的文本内容的准确度。

基于如上所述的实施例中的方法，以下结合其中一个应用示例进行详细举例说明。

参考图4所示，在一个具体示例中，本申请实施例在进行文本内容识别时，首先通过摄像装置进行拍摄得到桌面视频流，该桌面视频流会包含多帧的视频帧图像。

然后，对桌面视频流进行高速指尖定位，即快速、轻量地对视频帧图像中的指尖位置进行识别，从而通过高速指尖检测定位可以直接帮助后面的稳定性判断以及候选区域提取。

其中，用以进行高速指尖定位的指尖识别模型，一些实施例中可以采用CNN模型，其特征提取backbone可以根据业务场景的特点进行选择(如ResNet、MobileNet……)，后面回归模块使用dense层，损失loss使用MSE(均方误差)等。

本申请实施例方案中，通过指尖识别模型对桌面视频流进行高速指尖定位和检测，指尖识别模型通过对指尖位置进行识别，并在桌面视频流中未识别到手指指尖时，则指尖识别模型输出的回归目标为预设回归位置坐标，该预设回归位置坐标可以设置为未在摄像装置的拍摄范围的坐标，例如(-1,-1)。如果在桌面视频流中识别到手指指尖，则指尖识别模型输出的回归目标为其真实坐标，即该指尖识别模型识别的指尖位置坐标(例如(123,56))，即获得手指指尖的指尖位置。

在获得上述指尖位置之后，因为用户的指尖可能还没定下来，因此通过进一步判断指尖的稳定性，并在指尖稳定的情况下，才会进行下一步的处理过程。在一些实施例中，可以通过计算视频相邻帧的指尖位置的坐标变化来判断，例如如果某一帧的指尖位置相比于前预设数目的相邻视频帧(例如前3帧以上的相邻视频帧)的坐标偏移量小于预设偏移量，比如10个像素值(应当理解，这个值可以结合摄像装置的分辨率调整或者其他因素的考虑进行设定)，则认为指尖稳定。一些具体示例中，预设偏移量的设定，可以结合对稳定的精度要求进行设定。若对稳定性要求相对较低，则预设偏移量可以设置的相对较大，例如15个像素值，即手指的指尖位置在前预设数目的相邻视频帧的坐标偏移量都在15个像素值的范围内，则认为指尖稳定，这种方式下，对于用户来说，用户可以在相对较大的范围内活动，有助于提高用户体验。若对稳定性要求相对较高，则预设偏移量可以设置的相对较小，例如5个像素值，即手指的指尖位置在前预设数目的相邻视频帧的坐标偏移量都在5个像素值的范围内，则认为指尖稳定，这种方式下，对于用户来说，需要用户只能在相对较小的范围内活动。在实际技术场景中，可以结合摄像装置的分辨率调整、用户体验、稳定性精度等综合考虑。

在指尖稳定之后，围绕上述高速指尖定位确定的指尖位置，截取一定的区域作为候选区域，例如以指尖位置为中心，向第一坐标轴和第二坐标轴的两侧外分别扩展第一数目像素和第二数目像素(例如100像素)，具体可以根据设备拍摄的像素进行确定)，一个实施例中，如图4所示，基于指尖位置51确定截取区域52后，指尖位置51位于截取区域52的中心。当扩展后的位置位于视频帧图像之外时，则直接基于边界来确定截取区域。一个实施例中，如图5所示，基于指尖位置51往外扩展的区域如图5中的虚线框所示，此时，则基于向下扩展后的扩展边界61、向左扩展后的边界62、向上扩展后的边界63以及视频帧图像的边界60共同确定出截取的候选区域。在其他实施例中，也可以采用其他的方式确定出截取区域。通过即取候选区域可以有效提高二次指尖定位精度，同时可以使文本检测的准确度有所提升。

在获得上一步提取的候选区域后，进一步采用指尖回归与文本检测综合模型确定出文本区域。其中，文本内容的提取与指尖定位和文本检测都有关，而指尖的坐标和文本内容的坐标是高度相关的，因此如图6所示，本实施例方案中使用多重损失的方案来训练得到指尖回归与文本检测综合模型，以此进行指尖定位和文本检测，并输出识别出的指尖位置对应的文本区域。

然后，将识别出的文本区域输入到文本识别模型中进行识别，从而识别出具体的文本内容。

在一些实施例中，以查词引用为例，在识别出文本内容后，可以进一步查询词典获得识别出的文本内容的释义，并将获得的释义在计算机设备上的显示屏上显示，如图1所示。

如上所述的本实施例的方案，充分考虑桌面学习设备的应用场景，先进行快速的指尖定位，据此确定截取区域，再针对截取区域进行更精细化的指尖回归定位和文本区域的检测，然后再进行文本内容的识别，其由粗到细的方式既能降低整体计算量，也能较好地提升回归坐标的精度；另外，将指尖定位和文本检测合并到一个模型里面，可以进一步提升定位精度。

应该理解的是，虽然如上所述的各实施例涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，这些流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种文本内容识别装置，所述装置包括：

图像采集模块701，用于获取当前采集的视频帧图像；

指尖位置检测模块702，用于检测所述视频帧图像中的手指指尖，并获得所述手指指尖的指尖位置；

候选区域截取模块703，用于以所述指尖位置为基准，截取所述视频帧图像中的候选区域；

指尖回归和文本区域检测模块704，用于通过对所述候选区域进行指尖回归定位，对所述候选区域进行文本检测，获得所述候选区域中的文本区域；

内容识别模块705，用于识别所述文本区域中的文本内容。

一些实施例中，所述装置还包括：指尖稳定态确定模块，用于基于所述指尖位置，确定所述手指指尖是否处于指尖稳定状态；

所述候选区域截取模块703，用于在指尖稳定态确定模块的输出结果为手指指尖处于指尖稳定状态时，以所述指尖位置为基准，截取所述视频帧图像中的候选区域。

一些实施例中，指尖稳定态确定模块，在所述指尖位置与前预设数目的相邻视频帧图像中的手指指尖位置的偏移量小于预设偏移量时，确定所述手指指尖处于指尖稳定状态。

一些实施例中，所述指尖位置检测模块702，通过训练获得的指尖识别模型检测所述视频帧图像中的手指指尖；在所述指尖识别模型检测到手指指尖且检测到的手指指尖时，输出检测到的手指指尖的位置的坐标，获得所述手指指尖的指尖位置；在所述指尖识别模型未检测到手指指尖时，输出预设回归位置坐标，所述预设回归位置坐标为不属于所述视频帧图像的坐标范围的坐标。

一些实施例中，所述候选区域截取模块703，以所述指尖位置为中心点，向第一坐标轴的两侧分别扩展第一数目像素，向第二坐标轴的两侧分别扩展第二数目像素；根据扩展后的各指尖位置形成的区域确定所述视频帧图像中的候选区域。

一些实施例中，所述候选区域截取模块703，用于当扩展后的指尖位置位于所述视频帧图像的边界外时，将扩展后位于所述视频帧图像的边界外的扩展后的指尖位置对应的边界、与其他扩展后的指尖位置形成的区域确定为所述视频帧图像中的候选区域。

一些实施例中，指尖回归和文本区域检测模块704，用于通过训练获得的指尖回归与文本检测综合模型对所述候选区域进行指尖定位和文本检测，获得所述候选区域中的文本区域。

一些实施例中，还包括：指尖回归与文本检测综合模型训练模块，用于获取待训练图像样本，以及与所述待训练图像样本对应的目标文本区域以及目标指尖位置；通过待训练指尖回归与文本检测综合模型对所述待训练图像样本进行指尖定位和文本检测，获得检测到的样本文本区域以及样本指尖位置；基于所述待训练图像样本对应的样本文本区域以及目标文本区域，计算确定文本区域损失；基于所述待训练图像样本对应的样本指尖位置以及目标指尖位置，计算确定指尖定位损失；结合所述文本区域损失和指尖定位损失，确定模型损失；基于所述模型损失调整所述待训练指尖回归与文本检测综合模型，返回通过待训练指尖回归与文本检测综合模型对所述待训练图像样本进行指尖定位和文本检测的步骤，直至达到模型训练结束条件。

关于文本内容识别装置的具体限定可以参见上文中对于文本内容识别方法的限定，在此不再赘述。上述文本内容识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本内容识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现如上所述的任一实施例中的方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上所述的任一实施例中的方法的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本内容识别方法，其特征在于，所述方法包括：

获取当前采集的视频帧图像；

识别所述文本区域中的文本内容。

2.根据权利要求1所述的方法，其特征在于，在获得所述手指指尖的指尖位置之后，以所述指尖位置为基准，截取所述视频帧图像中的候选区域之前，还包括步骤：

3.根据权利要求2所述的方法，其特征在于，

在所述指尖位置与前预设数目的相邻视频帧图像中的手指指尖位置的偏移量小于预设偏移量时，确定所述手指指尖处于指尖稳定状态。

4.根据权利要求1所述的方法，其特征在于，检测所述视频帧图像中的手指指尖，获得所述手指指尖的指尖位置，包括：

5.根据权利要求1所述的方法，其特征在于，以所述指尖位置为基准，截取所述视频帧图像中的候选区域，包括：

以所述指尖位置为中心点，向第一坐标轴的两侧分别扩展第一数目像素，向第二坐标轴的两侧分别扩展第二数目像素；

根据扩展后的各指尖位置形成的区域确定所述视频帧图像中的候选区域。

6.根据权利要求5所述的方法，其特征在于，根据扩展后的各指尖位置形成的区域确定所述视频帧图像中的候选区域，包括：

7.根据权利要求1所述的方法，其特征在于，通过对所述候选区域进行指尖回归定位，对所述候选区域进行文本检测，获得所述候选区域中的文本区域，包括：

8.根据权利要求7所述的方法，其特征在于，训练获得所述指尖回归与文本检测综合模型的方式包括：

获取待训练图像样本，以及与所述待训练图像样本对应的目标文本区域以及目标指尖位置；

通过待训练指尖回归与文本检测综合模型对所述待训练图像样本进行指尖定位和文本检测，获得检测到的样本文本区域以及样本指尖位置；

基于所述待训练图像样本对应的样本文本区域以及目标文本区域，计算确定文本区域损失；

基于所述待训练图像样本对应的样本指尖位置以及目标指尖位置，计算确定指尖定位损失；

结合所述文本区域损失和指尖定位损失，确定模型损失；

基于所述模型损失调整所述待训练指尖回归与文本检测综合模型，返回通过待训练指尖回归与文本检测综合模型对所述待训练图像样本进行指尖定位和文本检测的步骤，直至达到模型训练结束条件。

9.一种文本内容识别装置，其特征在于，所述装置包括：

图像采集模块，用于获取当前采集的视频帧图像；

内容识别模块，用于识别所述文本区域中的文本内容。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。