CN111582267A

CN111582267A - 一种文本检测方法、计算设备及可读存储介质

Info

Publication number: CN111582267A
Application number: CN202010269719.0A
Authority: CN
Inventors: 徐丞申; 李林; 叶明登; 刘荣; 黄萧
Original assignee: Beijing Pierbulaini Software Co ltd
Current assignee: Beijing Pierbulaini Software Co ltd
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-08-25
Anticipated expiration: 2040-04-08
Also published as: CN111582267B

Abstract

本发明公开了一种文本检测方法，适于在计算设备中执行，该方法包括步骤：获取待处理图像，待处理图像中包含文本信息，文本信息包含一行或多行文本；将待处理图像输入第一目标检测模型进行检测，获取包含文本信息的文本图像；将文本图像输入第二目标检测模型进行检测，获取包含单字信息的单字检测框；根据单字检测框的坐标对所有单字信息进行排序，获得完整的文本信息。本发明一并公开了相应的计算设备和可读存储介质。

Description

一种文本检测方法、计算设备及可读存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种文本检测方法、计算设备及可读存储介质。

背景技术

随着深度学习技术在检测识别上的发展，对于文本识别，一种典型的文本检测方法是目标检测识别(如Faster R-CNN，YoloV3等)与卷积神经网络(CRNN)进行序列识别相结合的方法，即先用目标检测识别算法检测识别出文字区域，再对文字区域用CRNN算法进行序列识别。由于CRNN算法需要大量数据才能将模型训练准确，因此，最近又有人提出了多次检测的算法，即第一步用检测识别算法检测出文字区域，第二步再用检测识别算法检测识别出单字，由于该方法是单字识别而非序列识别算法，因此在小数据上取得了很高的准确率，但是在实际应用中，有些识别项的行数是不固定的，可以包括多行。

目前对多行文本检测采用的方法为多次检测方案，将文本同一识别项中的不同的行标注为不同的类别，之后再对每一个区域进行单字识别，最后将结果拼接在一起，从而识别出完整的文本信息，由于同一个识别项的不同行标注成了不同的位置，使得检测识别算法中的标签类别数目与标签数增多，增加了内存使用量与计算的时间复杂度，降低了识别速度，另一方面由于多次检测的方法是针对于小数据集而提出的，对于包含多行文字信息的文字识别可能存在漏检的情况。

另外一种方法是将文本同一识别项的不同的行标注在同一个标注框中，之后再对该区域进行第二次标注，将不同行识别为不同类别，检测识别出单行，之后再对每一行进行单字识别，最后将结果拼接在一起，从而识别出完整的文字信息，该方案第一步检测出整体区域，第二步在此基础之上检测出单行，增加了一步检测识别程度，因此使得过程变得更加繁琐，速度也会有所下降。

发明内容

为此，本发明提供了一种文本检测方法、计算设备和可读存储介质，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种文本检测方法，适于在计算设备中执行，方法包括步骤：获取待处理图像，待处理图像中包含文本信息，文本信息包含一行或多行文本；将待处理图像输入第一目标检测模型进行检测，获取包含文本信息的文本图像；将文本图像输入第二目标检测模型进行检测，获取包含单字信息的单字检测框；根据单字检测框的坐标对所有单字信息进行排序，获得完整的文本信息。

可选地，在根据本发明的文本检测方法中，将待处理图像输入第一目标检测模型进行检测，获取包含文本信息的文本图像包括：将待处理图像输入第一检测模型检测出包含文本信息的文本区域；将文本区域进行剪切，输出包含文本信息的文本图像。

可选地，在根据本发明的文本检测方法中，第二检测模型还进一步输出单字。

可选地，在根据本发明的文本检测方法中，在根据单字检测框的坐标对所有单字信息进行排序，获得完整的文本信息步骤前还包括：对单字检测框进行文字识别，获得单字检测框包含的单字。

可选地，在根据本发明的文本检测方法中，根据单字检测框的坐标对所有单字信息进行排序，获得完整的文本信息包括：根据单字检测框左上顶点的横坐标，按照横坐标从左到右的顺序对所有单字检测框进行排序；计算单字检测框之间的交叠比，根据交叠比对所有单字检测框进行分组；获取每个分组中第一个单字检测框的左上顶点的纵坐标，并按照纵坐标从上到下的顺序对分组进行排序；将排序后的分组首尾相连，得到最终的文字信息。

可选地，在根据本发明的文本检测方法中，计算单字检测框之间的交叠比，根据交叠比对所有单字检测框进行分组包括：获取待检测单字检测框；计算待检测单字检测框与已有分组中的最后一个单字检测框的交叠比；将交叠比大于预定数值的单字检测框分到同一分组；若待检测单字检测框与所有已有分组中的最后一个单字检测框的交叠比均不大于预定数值，则增加新的分组。

可选地，在根据本发明的文本检测方法中，计算待检测单字检测框与已有分组中的最后一个单字检测框的交叠比包括：获取待处理单字检测框与已有分组中的最后一个单字检测框的左上顶点坐标和右下顶点坐标；按照以下公式计算待处理单字检测框与已有分组中的最后一个单字检测框的交叠比r：

其中，待检测单字检测框的左上点坐标为(x1₁,y1₁)，待处理单字检测框的右下点坐标为(x1₂,y1₂)，分组中最后一个单字检测框的左上点坐标为(x2₁,y2₁)，分组中最后一个单字检测框的右下点坐标为(x2₂,y2₂)，且x1₁＜x1₂，y1₁＜y1₂。

可选地，在根据本发明的文本检测方法中，第一目标检测网络和第二目标检测模型为卷积神经网络Faster R-CNN。

可选地，在根据本发明的文本检测方法中，待处理图像为身份证图像，文本信息为地址信息。

根据本发明的另一方面，提供一种计算设备，包括：至少一个处理器；以及存储器，存储有程序指令，其中，程序指令被配置为适于由至少一个处理器执行，程序指令包括用于执行如上的文本检测方法的指令。

根据本发明的又一方面，提供一种存储有程序指令的可读存储介质，当程序指令被计算设备读取并执行时，使得计算设备执行如上的文本检测方法。

根据本发明的文本检测方法，通过对获取到的包含文本信息的文本图像进行目标检测得到单字检测框，根据单字检测框的坐标信息对单字检测框进行排序，拼接成完整的文字信息，这一过程将文字图像的多行文字看做一个整体进行处理，不需要将文字切割成行，不需要将行标注成不同的类别，从而节省了检测识别过程，降低了计算的时间复杂度以及内存占用量，提高了检测效率，同时，也不存在漏检的情况。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的框图；

图2示出了根据跟发明一个实施例的文本检测方法200的流程图；

图3示出了根据本发明一个实施例的身份证地址检测文本区域检测结果图；

图4示出了根据本发明一个实施例的身份证地址检测单字检测框的检测结果图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的计算设备100的示意图。在基本的配置102中，计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，***存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个应用122以及程序数据124。应用122实际上是多条程序指令，其用于指示处理器104执行相应的操作。在一些实施方式中，应用122可以布置为在操作***上使得处理器104利用程序数据124进行操作。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在根据本发明的计算设备100中，应用122包括用户数据存储应用128，用户数据存储应用128包括多条程序指令，而程序数据124可以包括由数据存储装置110中获取到的各条用户行为记录。装置228可以指示处理器204执行用户数据存储方法300，对程序数据224进行分析处理，以便于将第一数据存储装置110中的用户行为记录转存于第二数据存储装置120中，以提高数据存储效率，并便于计算分析。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100被配置为执行本发明一实施例的文本检测方法。

图2示出了本发明一个实施例的文本检测方法200的流程图，方法200在计算设备中执行。

方法200始于步骤S210，获取待处理图像，待处理图像中包含文本信息，文本信息包含一行或多行文本。

根据本发明的一个具体实施例，待处理图像包括身份证图像、票据图像、其他证件图像等包含文本信息的图像，也可以是需要按行或列排序非文字目标的检测识别场景。例如，在身份证图像中，需要检测的文本信息为地址信息。

随后进入步骤S220，将待处理图像输入第一目标检测模型进行检测，获取包含文本信息的文本图像。第一目标检测模型可以是卷积神经网络Faster R-CNN，也可以是其他可以检测出图像中文本区域的其他目标检测模型，本发明对第一目标检测模型不做限制。步骤S220具体包括以下两步：

A、将待处理图像输入第一目标检测模型检测出包含文本信息的文字区域，根据本发明的一个实施例，以检测身份证上的地址信息为例进行说明，本步骤可以检测出包含地址信息的文字区域，如图3所示。

B、将文字区域进行剪切，输出包含文本信息的文本图像。身份证上包含地址信息的文字区域会被剪切输出为文本图像。

第一目标检测模型是预先训练好的目标检测模型。训练过程包括：获取训练样本集，训练样本集中的每条训练样本是标注有文字区域(文本框)的证件图像；将训练样本集中的证件图像输入到待训练的第一目标检测模型，第一目标检测模型输出预测的文本框；根据预测的文本框与标注的文本框的差异，计算损失函数；根据损失函数调整第一目标检测模型的模型参数，例如采用梯度下降法来调整模型参数；当迭代次数达到预定次数，或者模型收敛时，停止训练，输出训练好的第一目标检测模型。

随后进入步骤S230，将文本图像输入第二目标检测模型进行检测，获取包含单字信息的单字检测框，该步骤中第二目标检测模型可以是卷积神经网络Faster R-CNN，也可以是其他可以检测出图像中文本区域的其他目标检测模型，本发明对第二目标检测模型不做限制。

第二目标检测模型还可以完成文字识别输出单字，也可以输出单字检测框中的字符类别，即将字符分成汉字、数字、字母等字符类别，如果第二目标检测模型输出的是字符类别，则第二目标检测模型后面还包括文字识别的步骤，该步骤可以通过卷积神经网络实现。根据本发明的一个实施例，检测身份证地址信息单字检测框的划分结果如图4所示。

第二目标检测模型是预先训练好的目标检测模型。训练过程包括：获取训练样本集，训练样本集中的每条训练样本是标注有单字区域(单字框)的文本图像；将训练样本集中的文本图像输入到待训练的第二目标检测模型，第二目标检测模型输出预测的单字框；根据预测的单字框与标注的单字框的差异，计算损失函数；根据损失函数调整第二目标检测模型的模型参数，例如采用梯度下降法来调整模型参数；当迭代次数达到预定次数，或者模型收敛时，停止训练，输出训练好的第二目标检测模型。

另外，训练样本集中的文本图像除了标注单字框之外，还可以标注与单字框对应的单字或者字符类别，这样，训练好的第二目标检测模型则可以输出单字框+单字，或者，输出单字框+字符类别。

随后进入步骤S240，根据单字检测框左上顶点的横坐标，按照横坐标从左到右的顺序对所有单字检测框进行排序。根据本发明的一个实施例，横坐标向右趋于正无穷，则按照横坐标从小到大排序，对于上述实施例中身份证地址信息排序后的结果为“甘南肃路2省2兰2号州市城关区天水”。

随后进入步骤S250，计算单字检测框之间的交叠比，根据交叠比对所有单字检测框进行分组。具体步骤包括：

对步骤S240的排序结果从左到右依次检测，获取待处理单字检测框与已有分组中的最后一个单字检测框的左上顶点坐标和右下顶点坐标；计算待检测单字检测框与已有分组中的最后一个单字检测框的交叠比；将交叠比大于预定数值的单字检测框分到同一分组；若待检测单字检测框与所有已有分组中的最后一个单字检测框的交叠比均不大于预定数值，则增加新的分组。

根据本发明的一个实施例，单字检测框的交叠比r的计算公式为：

根据本发明的一个实施例，交叠比的预定数值为0.7，当交叠比大于0.7时，两个单字检测框分到同一分组，对上述身份证地址信息排序结果进行分组。

从左到右遍历“甘南肃路2省2兰2号州市城关区天水”中的每个字符：

1)“甘”字进入新建的第1个分组，第1分组结果为“甘”；

2)“南”与第1分组最后一字“甘”作交叠比发现小于0.7，则新建第2分组，“南”进入第2分组，第2组结果为“南”；

3)“肃”与第1分组最后一个字“甘”作交叠比，发现大于0.7，则“肃”进入第1分组，第一分组更新为“甘肃”

4)路与第1分组最后一个字“肃”作交叠比，发现小于0.7，再与第2分组最后一字“南”作交叠比，发现大于0.7，则第2分组更新为“南路”

直至检测完所有字符，最终第1分组结果为“甘肃省兰州市城关区天水”，第2分组结果为“南路222号”

随后进入步骤S260，获取每个分组中第一个单字检测框的左上顶点的纵坐标，并按照纵坐标从上到下的顺序对分组进行排序；将排序后的分组首尾相连，得到最终的文字信息。

继续以身份证地址信息检测为例，上述身份证地址信息分组后为第1分组结果为“甘肃省兰州市城关区天水”，第2分组结果为“南路222号”，比较第1分组中“甘”左顶点的纵坐标和第二分组中“南”左顶点的纵坐标，并按照纵坐标从上到下的顺序进行排序，排序结果为第1组在前，第2组在后，将两组字符首尾相连得到最终的检测结果为“甘肃省兰州市城关区天水南路222号”。

根据本发明的文本检测方法，通过对获取到的包含文本信息的文本图像进行目标检测得到单字检测框，根据单字检测框的坐标信息对单字检测框进行排序，拼接成完整的文字信息，这一过程将文字图像的多行文字看做一个整体进行处理，不需要将文字切割成行，不需要将行标注成不同的类别，从而节省了检测识别过程，降低了计算的时间复杂度以及内存占用量，提高了检测效率。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的文本检测方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与本发明的示例一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

A9、如A1-A8中任意一项所述的文本检测方法，其中，所述待处理图像为身份证图像，所述文本信息为地址信息。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种文本检测方法，适于在计算设备中执行，所述方法包括步骤：

获取待处理图像，所述待处理图像中包含文本信息，所述文本信息包含一行或多行文本；

将所述待处理图像输入第一目标检测模型进行检测，获取包含所述文本信息的文本图像；

将所述文本图像输入第二目标检测模型进行检测，获取包含单字信息的单字检测框；

根据所述单字检测框的坐标对所有单字信息进行排序，获得完整的文本信息。

2.如权利要求1所述的方法，其中，所述将所述待处理图像输入第一目标检测模型进行检测，获取包含所述文本信息的文本图像包括：

将所述待处理图像输入所述第一检测模型检测出包含所述文本信息的文本区域；

将所述文本区域进行剪切，输出包含所述文本信息的文本图像。

3.如权利要求1或2所述的方法，其中，所述第二检测模型还进一步输出单字。

4.如权利要求1或2所述的方法，其中，在所述根据所述单字检测框的坐标对所有单字信息进行排序，获得完整的文本信息步骤前还包括：

对单字检测框进行文字识别，获得所述单字检测框包含的单字。

5.如权利要求1-4中任意一项所述的方法，其中，所述根据单字检测框的坐标对所有单字信息进行排序，获得完整的文本信息包括：

根据单字检测框左上顶点的横坐标，按照横坐标从左到右的顺序对所有单字检测框进行排序；

计算单字检测框之间的交叠比，根据所述交叠比对所有单字检测框进行分组；

获取每个分组中第一个单字检测框的左上顶点的纵坐标，并按照纵坐标从上到下的顺序对分组进行排序；

将排序后的分组首尾相连，得到最终的文字信息。

6.如权利要求5所述的方法，其中，所述计算单字检测框之间的交叠比，根据所述交叠比对所有单字检测框进行分组包括：

获取待检测单字检测框；

计算所述待检测单字检测框与已有分组中的最后一个单字检测框的交叠比；

将交叠比大于预定数值的单字检测框分到同一分组；

若待检测单字检测框与所有已有分组中的最后一个单字检测框的交叠比均不大于预定数值，则增加新的分组。

7.如权利要求6所述的方法，其中，所述计算所述待检测单字检测框与已有分组中的最后一个单字检测框的交叠比包括：

获取所述待处理单字检测框与已有分组中的最后一个单字检测框的左上顶点坐标和右下顶点坐标；

按照以下公式计算待处理单字检测框与已有分组中的最后一个单字检测框的交叠比r：

其中，所述待检测单字检测框的左上点坐标为(x1₁,y1₁)，所述待处理单字检测框的右下点坐标为(x1₂,y1₂)，所述分组中最后一个单字检测框的左上点坐标为(x2₁,y2₁)，所述分组中最后一个单字检测框的右下点坐标为(x2₂,y2₂)，且x1₁＜x1₂，y1₁＜y1₂。

8.如权利要求1-7任意一项所述的方法，其中，所述第一目标检测网络和第二目标检测模型为卷积神经网络Faster R-CNN。

9.一种计算设备，包括：

至少一个处理器；以及

存储器，存储有程序指令，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-8中任一项所述方法的指令。

10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-8中任一项所述方法。