CN114005121A

CN114005121A - 一种移动终端的文本识别方法及设备

Info

Publication number: CN114005121A
Application number: CN202111199309.4A
Authority: CN
Inventors: 吴诚明
Original assignee: Shanghai Search Information Technology Co ltd
Current assignee: Shanghai Search Information Technology Co ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-02-01

Abstract

本申请的目的是提供一种移动终端的文本识别方法及设备，本申请通过所述后置摄像头获取待识别的目标区域对应的至少两幅文本图像一张文字图片；对所述至少两幅文本图像进行拼图操作，得到所述目标区域对应的整体文本图像；对所述目标区域对应的整体文本图像进行文本内容的识别，得到所述目标区域对应的目标文本内容，所述目标文本内容包括一个或多个文字；在所述前置显示屏中显示所述目标区域对应的目标文本内容，解决了逐字扫描时导致的低效率，改善上下行移动扫描导致的扫描结果出错，提高扫描效率的同时使得扫描结果更加准确，同时不在限制书本中字体大小，扩大设备应用范围。

Description

一种移动终端的文本识别方法及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种移动终端的文本识别方法及设备。

背景技术

随着智能化技术越来越贴近人们的生活，再加上不断学习成为当下主流，为了使人们更加方便的学习和工作，获取书本上的文字内容成为过程中不可缺少的部分，但在获取文字内容时，人们通过抄写、打印等原始办法仍然无法高效提取书本中的文字，这给我们的学习带来不便和障碍。现有技术中，人们通过扫描设备的摄像头等实现逐字的扫描方式，并且在扫描过程中容易出现上下行移动导致错行扫描，且获取文字内容速度慢，并且容易产生扫描错误，导致提取文字效率低下且不能达到预期的效果；比如当扫描内容中出现一个字符出错时，就会导致整体识别失败，这对提取文字带来了极大的不便；除上述之外，现有扫描设备对书本中字体大小有明确要求，若超出要求字体大小将无法扫描识别。可见，现有扫描设备提取文字效率低，并且获取内容过程不稳定，稍不留意会出现结果出错，故而，在获取文字内容时，我们迫切需要一种能够高效扫描，输出精准的文字扫描设备。

发明内容

本申请的一个目的是提供一种移动终端的文本识别方法及设备，实现了高效精准地对待识别的目标区域内的文本内容进行识别。

根据本申请的一个方面，提供了一种移动终端的文本识别方法及设备，所述移动终端包括后置摄像头和前置显示屏其中，所述方法包括：

通过所述后置摄像头获取待识别的目标区域对应的至少两幅文本图像一张文字图片；

对所述至少两幅文本图像进行拼图操作，得到所述目标区域对应的整体文本图像；

对所述目标区域对应的整体文本图像进行文本内容的识别，得到所述目标区域对应的目标文本内容，所述目标文本内容包括一个或多个文字；

在所述前置显示屏中显示所述目标区域对应的目标文本内容。

进一步地，上述方法中，所述通过所述后置摄像头获取待识别的目标区域对应的至少两幅文本图像，包括：

通过所述后置摄像头拍摄或扫描待识别的目标区域对应的至少两幅文本图像。

进一步地，上述方法中，所述对所述至少两幅文本图像进行拼图操作，得到所述目标区域对应的整体文本图像，包括：

通过预置的拼图算法，对所述至少两幅文本图像进行拼图操作，得到所述目标区域对应的整体文本图像。

进一步地，上述方法中，所述对所述目标区域对应的整体文本图像进行文本内容的识别，得到所述目标区域对应的目标文本内容，包括：

通过光学字符识别算法，对所述目标区域对应的整体文本图像进行文本内容的识别，得到所述目标区域对应的目标文本内容。

进一步地，上述方法中，所述方法还包括：

在所述前置显示屏中预览呈现待识别的目标区域。

根据本申请的另一方面，还提供了一种非易失性存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述移动终端的文本识别方法。

根据本申请的另一方面，还提供了一种数据去重设备，其中，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述移动终端的文本识别方法。

与现有技术相比，本申请通过所述后置摄像头获取待识别的目标区域对应的至少两幅文本图像一张文字图片；对所述至少两幅文本图像进行拼图操作，得到所述目标区域对应的整体文本图像；对所述目标区域对应的整体文本图像进行文本内容的识别，得到所述目标区域对应的目标文本内容，所述目标文本内容包括一个或多个文字；在所述前置显示屏中显示所述目标区域对应的目标文本内容，解决了逐字扫描时导致的低效率问题，还避免了通过上下行移动扫描的形式导致的扫描结果出错的情况，在提高文本识别效率的同时还提高了文本识别的准确度，通过后置摄像头获取待识别的目标区域的文本图像的方式，使得本申请的实际应用场景不再限制于书本中字体大小，从而扩大在实际应用场景中的使用范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一种移动终端的文本识别方法的流程示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图1所示，本申请的一个方面提出了一种移动终端的文本识别方法的交互流程示意图，其中，所述移动终端包括后置摄像头和前置显示屏，所述方法包括步骤S11、步骤S12、步骤S13及步骤S14，具体包括如下步骤：

步骤S11，通过所述后置摄像头获取待识别的目标区域对应的至少两幅文本图像；在此，所述目标区域包括但不限于书本中的一行、多行、半页、一页、多页及平铺开的多页、整本书平铺开的所有页面及实际应用场景中的含文本内容的提示牌等含有文本内容的区域。

步骤S12，对所述至少两幅文本图像进行拼图操作，得到所述目标区域对应的整体文本图像；

步骤S13，对所述目标区域对应的整体文本图像进行文本内容的识别，得到所述目标区域对应的目标文本内容，所述目标文本内容包括一个或多个文字；

步骤S14，在所述前置显示屏中显示所述目标区域对应的目标文本内容。

通过步骤S11至步骤S14，解决了逐字扫描时导致的低效率问题，还避免了通过上下行移动扫描的形式导致的扫描结果出错的情况，在提高文本识别效率的同时还提高了文本识别的准确度，通过后置摄像头获取待识别的目标区域的文本图像的方式，使得本申请的实际应用场景不再限制于书本中字体大小，从而扩大在实际应用场景中的使用范围。

例如，当待识别的目标区域为A4纸大小的书本时，可以通过后置摄像头获取该目标区域内的两幅或两幅以上文本图像，比如对书本的上半部分和下半部分分别进行文本图像的获取，以达到对书本进行全面覆盖的区域的获取；当待扫描的目标区域为建筑物上广告牌时，由于目标区域过大，无法一个镜头完整清晰拍摄，也可以通过对目标区域进行分块获取的形式，来获取目标区域各个小区域对应的文本图像，以得到目标区域对应的多幅文本图像，从而实现对范围较大的待识别的目标区域对应的各文本图像获取。在本申请实施例中，由于对目标区域进行图像获取不再局限于目标区域的范围大小及包含的字体大小等，使得本申请可以灵活根据待识别区域的范围大小进行不同的部分区域对应的文本图像的获取，使得扫描设备不再有局限性，使用范围更广，提高了设备的实用性。

在步骤S11中，通过所述后置摄像头获取到待识别的目标区域对应的至少两幅文本图像，比如文本图像1、文本图像2、文本图像3、……、文本图像(N-1)及文本图像N，其中，N为大于等于2的正整数；接着，在步骤S12中，对文本图像1、文本图像2、文本图像3、……、文本图像(N-1)及文本图像N进行拼图操作，得到所述目标区域对应的整体文本图像，确保该整个文本图像能够完整的涵盖该目标区域的全部范围，确保后续提取文本内容的完整性；然后，在步骤S13中，对所述目标区域对应的整体文本图像进行文本内容的识别，得到所述目标区域对应的目标文本内容，所述目标文本内容包括一个或多个文字；最后，在所述步骤S14中，在所述前置显示屏中显示所述目标区域对应的目标文本内容，实现了在目标区域对应的完整的整体文本图像上，进行目标区域内所涵盖的文本内容的识别，不仅可以避免现有技术中由于上下换行带来的内容错位导致的不准确的情况，还可以提高对目标区域内的文本内容进行识别的准确度和效率。

接着本申请的上述实施例，步骤S13，当待识别的目标区域为A4纸的书本的第M页时，可以通过后置摄像头通过一个镜头清晰完整拍摄，此时可以整体获取两幅或两幅以上文本图像，也可以进行图像分割获取两幅或两幅以上文本图像，并将两幅或两幅以上的文本图像进行图像拼接，得到A4纸的书本的第M页对应的整页的整体文本图像，然后对该A4纸的书本的第M页对应的整页的整体文本图像进行文本识别，得到该A4纸的书本的第M页对应的整页的整体文本图像上涵盖的目标文本内容，该目标文本内容可以包括一个或多个文字，比如当该A4纸的书本的第M页为题目时，这目标文本内容可以是一个字，比如书本的名字“飘”，当该A4纸的书本的第M页为内容页面时，则识别到的目标文本内容包括多个字，且是具有故事情节或者叙事的文本内容，从而实现对目标区域的文本内容的整体识别，突破了现有技术中逐字扫描的缺陷，大大提高文本内容的识别效率。

又比如，当待扫描的目标区域为建筑物上广告牌时，由于目标区域过大，需要对目标区域进行各小部分的获取图像，则可以获取目标区域的不同部分区域对应的文本图像，以便对获取的各个部分区域对应的文本图像进行图像拼接，得到目标区域的整体文本图像，然后再识别整体文本图像中所涵盖的文本内容，从而得到广告牌所在的目标区域内的文本内容，即文本内容仅有少数文字，实现了对过大的待识别的目标区域的文本内容的识别，使得目标区域的文本识别不再受区域的限制；同时，本申请实施例中的文本识别方法实现了对目标区域的整体识别，不仅避免了现有技术中上下换行带来的内容错位，甚至导致的结果不准确的情况，还通过在所述前置显示屏中显示所述目标区域对应的目标文本内容，实现对目标区域识别到的文本内容进行确认，确保了文本识别的准确率和效率。

接着本申请的上述实施例，所述步骤S11通过所述后置摄像头获取待识别的目标区域对应的至少两幅文本图像，具体包括：通过所述后置摄像头拍摄或扫描待识别的目标区域对应的至少两幅文本图像。例如，通过后置摄像头获取目标区域对应的至少两幅文本图像的过程中，可以通过所述后置摄像头进行拍摄获取，也可以通过所述后置摄像头进行扫描获取，以实现对目标区域对应的至少两幅文本图像的拍摄或扫描。在本申请一优选实施例中，将所述目标区域优选为A4纸的书本的第M页，可以通过所述后置摄像头对该A4纸的书本的第M页进行连续拍摄，以便拍摄获取到的该A4纸的书本的第M页对应的至少两幅文本图像能够涵盖该A4纸的书本的第M页的全部页面；还可以通过所述后置摄像头对该A4纸的书本的第M页进行整行或多行的扫描，以便所有次扫描得到的文本图像能够涵盖该A4纸的书本的第M页的全部页面，从而实现通过所述后置摄像头进行拍摄或扫描的形式，达到对目标区域：A4纸的书本的第M页对应的至少两幅文本图像的获取，以便后续能够识别到该目标区域：A4纸的书本的第M页中的所有文本内容。

接着本申请上述实施例，所述步骤S12对所述至少两幅文本图像进行拼图操作，得到所述目标区域对应的整体文本图像，具体包括：

通过预置的拼图算法，对所述至少两幅文本图像进行拼图操作，得到所述目标区域对应的整体文本图像。在此，所述预置的拼图算法包括但不限于A*算法。比如，通过所述预置的拼图算法，将目标区域对应的文本图像1、文本图像2、文本图像3、……、文本图像(N-1)及文本图像N，其中，N为大于等于2的正整数；接着，在步骤S12中，对文本图像1、文本图像2、文本图像3、……、文本图像(N-1)及文本图像N进行拼图操作，得到所述目标区域对应的整体文本图像，确保整个文本图像能够完整的涵盖该目标区域的全部范围，使得目标区域保持完整，从而确保后续提取文本内容的完整性，进一步提高后续识别文本内容的准确率。

接着本申请的上述实施例，所述步骤S13对所述目标区域对应的整体文本图像进行文本内容的识别，得到所述目标区域对应的目标文本内容，具体包括：

通过光学字符识别(Optical Character Recognition，OCR)算法，对所述目标区域对应的整体文本图像进行文本内容的识别，得到所述目标区域对应的目标文本内容。例如，在得到目标区域对应的整体文本图像后，通过光学字符识别算法，对所述目标区域对应的整体文本图像进行文本内容的识别，得到目标区域对应的目标文本内容，实现对目标区域内所涵盖的文本内容进行整体识别，使得识别效率更高；后续在前置显示屏中，可以显示整体的目标区域对应的目标文本内容，以便用户能够及时了解到识别的目标文本内容，进一步提高用户的使用体验度。

本申请的一个方面提供的一种移动终端的文本识别方法中，所述方法还包括：在所述前置显示屏中预览呈现待识别的目标区域。例如，在对待识别的目标区域进行两幅或多幅文本图像的获取之前，可以在所述前置显示屏中预览呈现所述待识别的目标区域，以便用户能够通过预览呈现的方式，了解并确定所需进行文本识别的目标区域是否为用户所需识别的最终区域，从而进一步确定目标区域的范围。

在本申请的一个方面提供的一种移动终端的文本识别方法中，所述移动终端还包括后置手电筒，其中，所述通过所述后置摄像头获取待识别的目标区域对应的至少两幅文本图像，包括：启动所述后置手电筒，并通过所述后置手电筒在待识别的所述目标区域内进行灯光投射；在所述后置手电筒的投射范围内，通过所述后置摄像头获取所述目标区域对应的至少两幅文本图像。

例如，优选A4纸的书本的第M页为所述目标区域，对书本的第M页进行文本图像的获取时，由于光线过低或光线不均匀等原因，造成书本的第M页通过后置摄像头拍摄或扫描得到的图像在前置显示屏中出现模糊，不清晰等现象，为了解决这样的技术问题，本申请实施例可以通过启动后置手电筒，使后置手电筒在书本的第M页中进行灯光投射，同时，后置摄像头可以获取投射范围内的书本的第M页对应的至少两幅文本图像，实现了在打开后置手电筒的同时通过后置摄像头对目标区域进行拍摄或扫描，突破了现有技术的技术壁垒，还提高了移动终端获取图像的清晰度，避免了因外界环境不稳定带来的不便。

根据本申请的另一方面，还提供了一种移动终端的文本识别设备，其中，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述设备的移动终端的文本识别方法。

在此，所述移动终端的文本识别的设备中的各实施例的详细内容，具体可参见上述设备的移动终端的文本识别方法的实施例的对应部分，在此，不再赘述。

综上所述，本申请通过所述后置摄像头获取待识别的目标区域对应的至少两幅文本图像一张文字图片；对所述至少两幅文本图像进行拼图操作，得到所述目标区域对应的整体文本图像；对所述目标区域对应的整体文本图像进行文本内容的识别，得到所述目标区域对应的目标文本内容，所述目标文本内容包括一个或多个文字；在所述前置显示屏中显示所述目标区域对应的目标文本内容，解决了逐字扫描时导致的低效率，改善上下行移动扫描导致的扫描结果出错，提高扫描效率的同时使得扫描结果更加准确，同时不在限制书本中字体大小，扩大设备应用范围。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种移动终端的文本识别方法，所述移动终端包括后置摄像头和前置显示屏，其中，所述方法包括：

通过所述后置摄像头获取待识别的目标区域对应的至少两幅文本图像；

2.根据权利要求1所述的方法，其中，所述通过所述后置摄像头获取待识别的目标区域对应的至少两幅文本图像，包括：

3.根据权利要求1所述的方法，其中，所述对所述至少两幅文本图像进行拼图操作，得到所述目标区域对应的整体文本图像，包括：

4.根据权利要求1所述的方法，其中，所述对所述目标区域对应的整体文本图像进行文本内容的识别，得到所述目标区域对应的目标文本内容，包括：

5.根据权利要求1至4中任一项所述的方法，其中，所述方法还包括：

在所述前置显示屏中预览呈现待识别的目标区域。

6.根据权利要求1至4中任一项所述的方法，其中，所述移动终端还包括后置手电筒，其中，所述通过所述后置摄像头获取待识别的目标区域对应的至少两幅文本图像，包括：

启动所述后置手电筒，并通过所述后置手电筒在待识别的所述目标区域内进行灯光投射；

在所述后置手电筒的投射范围内，通过所述后置摄像头获取所述目标区域对应的至少两幅文本图像。

7.一种非易失性存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如权利要求1至6中任一项所述的方法。

8.一种用于文本识别的移动终端，其中，该移动终端包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。