CN116580407A

CN116580407A - 文本检测模型的训练方法、文本检测方法及装置

Info

Publication number: CN116580407A
Application number: CN202310540078.1A
Authority: CN
Inventors: 范峻植; 蒋宁
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-08-11

Abstract

本公开提供了一种文本检测模型的训练方法、文本检测方法及装置，该方法包括：获取样本图像、样本图像的标注和待训练的初始文本检测模型；基于特征提取子模型提取与样本图像对应的特征图；将特征图输入至预测子模型中进行噪声去除处理和文本位置预测处理，得到文本在样本图像中的预测位置信息，噪声去除处理用于去除标注中的第一预设噪声；根据预测位置信息和标注位置信息，得到目标损失值，并基于目标损失值调整初始文本检测模型的参数，得到目标文本检测模型，目标损失值用于表示预测位置信息所表示的第一位置和标注位置信息所表示的第二位置之间的误差。根据本公开的实施例能够提升得到的文本检测模型的训练效果和预测结果的准确性。

Description

文本检测模型的训练方法、文本检测方法及装置

技术领域

本公开涉及计算机技术领域，特别涉及一种文本检测模型的训练方法、文本检测方法及装置、电子设备、计算机可读存储介质。

背景技术

目前，在训练用于检测图像中文本位置的文本检测模型时，通常是基于标注有文本位置的样本图像对初始的文本检测模型进行训练，并基于训练至收敛的文本检测模型对待检测的图像进行处理。

相关技术中的该种模型训练方法可能存在模型训练效果差，以及可能不能准确检测图像中文本位置的问题。

发明内容

本公开提供一种文本检测模型的训练方法、文本检测方法及装置、电子设备、计算机可读存储介质。

第一方面，本公开提供了一种文本检测模型的训练方法，该文本检测模型的训练方法包括：

获取样本图像、所述样本图像的标注和待训练的初始文本检测模型，其中，所述标注用于表示文本在所述样本图像中的标注位置信息，所述初始文本检测模型包括特征提取子模型和预测子模型；

基于所述特征提取子模型提取与所述样本图像对应的特征图；

将所述特征图输入至所述预测子模型中进行噪声去除处理和文本位置预测处理，得到所述文本在所述样本图像中的预测位置信息，其中，所述噪声去除处理用于去除所述标注中的第一预设噪声；

根据所述预测位置信息和所述标注位置信息，得到目标损失值，并基于所述目标损失值调整所述初始文本检测模型的参数，得到目标文本检测模型，其中，所述目标损失值用于表示所述预测位置信息所表示的第一位置和所述标注位置信息所表示的第二位置之间的误差。

第二方面，本公开提供了一种文本检测方法，该文本检测方法包括：

获取待检测的目标图像；

将所述目标图像输入目标文本检测模型中进行文本检测处理，得到目标位置信息，其中，所述目标位置信息用于表示所述目标图像中文本的位置信息，所述目标文本检测模型是根据上述第一方面的文本检测模型的训练方法得到的。

第三方面，本公开提供了一种文本检测模型的训练装置，该文本检测模型的训练装置包括：

第二获取单元，用于获取样本图像、所述样本图像的标注和待训练的初始文本检测模型，其中，所述标注用于表示文本在所述样本图像中的标注位置信息，所述初始文本检测模型包括特征提取子模型和预测子模型；

特征提取单元，用于基于所述特征提取子模型提取与所述样本图像对应的特征图；

预测单元，用于将所述特征图输入至所述预测子模型中进行噪声去除处理和文本位置预测处理，得到所述文本在所述样本图像中的预测位置信息，其中，所述噪声去除处理用于去除所述标注中的第一预设噪声；

调参单元，用于根据所述预测位置信息和所述标注位置信息，得到目标损失值，并基于所述目标损失值调整所述初始文本检测模型的参数，得到目标文本检测模型，其中，所述目标损失值用于表示所述预测位置信息所表示的第一位置和所述标注位置信息所表示的第二位置之间的误差。

第四方面，本公开提供了一种文本检测装置，该文本检测装置包括：

第一获取单元，用于获取待检测的目标图像；

检测单元，用于将所述目标图像输入目标文本检测模型中进行文本检测处理，得到目标位置信息，其中，所述目标位置信息用于表示所述目标图像中文本的位置信息，所述目标文本检测模型是根据上述第一方面的文本检测模型的训练方法得到的。

第五方面，本公开提供了一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面的文本检测模型的训练方法或者第二方面的文本检测方法。

第六方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器执行时实现上述第一方面的文本检测模型的训练方法或者第二方面的文本检测方法。

本公开所提供的实施例，考虑到在文本检测模型的训练过程中，若样本图像的标注存在噪声，则可能导致模型训练效果差以及训练得到的模型可能并不能准确预测文本位置，因此，在本公开实施例中，在进行文本检测模型的训练过程中，在电子设备获取到样本图像及其标注以及待训练的初始文本检测模型之后，通过使用初始文本检测模型中的特征提取子模型先提取与该样本图像对应的特征图，之后，通过将该特征图输入该初始文本检测模型的预测子模型中同时进行噪声去除处理和文本位置预测处理，可以降低样本图像的标注中存在的第一预设噪声可能对训练结果造成的影响；再之后，基于预测得到的预测位置信息和该标注得到目标损失值，并基于该目标损失值调整初始文本检测模型的参数，即可高效的训练得到可以准确预测文本位置的目标文本检测模型。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用来提供对本公开的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例提供的一种文本检测模型的训练方法的实施环境的示意图；

图2为本公开实施例提供的一种文本检测模型的训练方法的流程图；

图3为本公开实施例提供的用于获取预测位置信息的流程图；

图4为本公开实施例提供的文本检测模型的训练处理的框架示意图；

图5为本公开实施例提供的用于获取多个概率分布图的流程图；

图6为本公开实施例提供的获取第一概率分布图的流程图；

图7为本公开实施例提供的用于获取目标损失值的流程图；

图8为本公开实施例提供的文本检测方法的流程图；

图9为本公开实施例提供的一种文本检测模型的训练装置的框图；

图10为本公开实施例提供的一种文本检测装置的框图；

图11为本公开实施例提供的一种电子设备的框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

在相关技术中，在训练用于检测图像中文本位置的文本检测模型时，通常是基于标注有文本位置的样本图像对初始的文本检测模型进行训练，并基于训练至收敛的文本检测模型对待检测的图像进行处理；在该种模型训练方法以及文本检测方法中，文本检测模型一般是由编码子模型和解码子模型构成，其中，编码子模型用于提取样本图像的特征数据，解码子模型用于基于编码子模型提取的特征数据预测文本在图像中的位置。

在实现本公开的过程中，发明人发现，相关技术中的该类文本检测模型的训练方法可能存在的问题是：在模型训练过程中，往往是默认样本图像的标注是完全正确的，而不会存在噪声，例如，存在漏标、误标的噪声，或者，存在错误标注的噪声，即虽然标注了样本图像中的文本位置，但是并未准确进行标注，例如标注的文本框过大或者过小；由于相关技术中的方案往往是默认样本图像的标注完全正确，忽略其可能存在的噪声，因此，这就使得在训练过程中，一方面会导致模型收敛速度变慢，效率降低；另一方面，也可能导致训练得到的模型出现漏检、误检等检测不准确的问题，从而还可能影响下游任务，该下游任务例如可以为基于训练得到的文本检测模型进行文本识别处理的任务。

请参看图1，其为本公开实施例提供的一种文本检测模型的训练方法的实施环境的示意图。如图1所示，该实施环境可以包括服务器101、终端设备102以及网络103。

服务器101可以是物理服务器，例如可以为刀片服务器、机架式服务器等，服务器101也可以是虚拟服务器，例如可以是部署在云端的服务器集群，在此不做限定。

终端设备102可以是智能手机、便携式电脑、台式计算机、平板电脑等。在本公开实施例中，终端设备102可以用于向服务器101提供训练数据以及待训练的初始文本检测模型，该训练数据可以是样本图像以及该样本图像的标注。

网络103可以是无线网络也可以是有线网络，可以是局域网也可以是广域网。服务器101和终端设备102之间可以通过网络103进行通信。

在本公开实施例中，服务器101可用于参与实现根据本公开任意实施例的文本检测模型的训练方法。例如可以用于：获取终端设备102发送的样本图像、样本图像的标注和待训练的初始文本检测模型，其中，标注用于表示文本在样本图像中的标注位置信息，初始文本检测模型包括特征提取子模型和预测子模型；基于特征提取子模型提取与样本图像对应的特征图；将特征图输入至预测子模型中进行噪声去除处理和文本位置预测处理，得到文本在样本图像中的预测位置信息，其中，噪声去除处理用于去除标注中的第一预设噪声；根据预测位置信息和标注位置信息，得到目标损失值，并基于目标损失值调整初始文本检测模型的参数，得到目标文本检测模型，其中，目标损失值用于表示预测位置信息所表示的第一位置和标注位置信息所表示的第二位置之间的误差。

又例如，在训练得到该目标文本检测模型之后，该服务器101还可以用于执行文本检测处理，例如，还可以用于：获取终端设备102发送的待检测的目标图像；将该目标图像输入至训练得到的目标文本检测模型中进行文本检测处理，得到用于标识目标图像中文本的位置信息的目标位置信息。

可以理解的是，图1所示的实施环境仅是解释性的，并且决不是为了要限制本公开、其应用或用途。例如，尽管图1仅示出一个服务器101和一个终端设备102，但不意味着限制各自的数量，该实施环境中可以包含多个服务器101以及多个终端设备102；又例如，该实施环境中也可以仅包含服务器101，该服务器101基于网络103获取样本图像以及标注以及待训练的初始文本检测模型，并执行训练处理得到目标文本检测模型。

为解决相关技术中的文本检测模型的训练方法可能存在的模型训练效果差以及训练得到的模型可能不能准确检测图像中文本位置的问题，本公开实施例提供一种文本检测模型的训练方法，请参看图2，其为本公开实施例提供的一种文本检测模型的训练方法的流程图。该方法可以应用于电子设备中，该电子设备例如可以为图1所示的服务器101。

如图2所示，本公开实施例提供的文本检测模型的训练方法可以包括如下步骤S201-S204，以下予以详细说明。

步骤S201，获取样本图像、样本图像的标注和待训练的初始文本检测模型，其中，标注用于表示文本在样本图像中的标注位置信息，初始文本检测模型包括特征提取子模型和预测子模型。

在本公开实施例中，样本图像可以是包含文本的任意图像；样本图像的标注用于表示文本的标注位置信息，即，人为标注的文本位置，标注位置信息可以是位置框的形式，该位置框可以为一多边形框，例如，标注位置信息可以是由至少四个位置坐标构成的、用于表示文本位置的矩形框，该四个位置坐标可以分别为该矩形框的四个顶点在该样本图像中的位置坐标。

步骤S202，基于特征提取子模型提取与样本图像对应的特征图。

样本图像对应的特征图，是包含样本图像的多尺寸融合特征的特征图。

具体地，在本公开实施例中，初始文本检测模型中的特征提取子模型可以是用于提取图像的多尺寸融合特征的模型，例如，该特征提取子模型可以包含多个不同的卷积层，该多个不同的卷积层分别提取图像的不同尺寸的图像特征，之后通过将该多个不同尺寸的图像特征通过上采样为同一尺寸并进行合并处理，即可得到图像的多尺寸融合特征，以从不同粒度表现图像中不同像素的特征。

在一些实施例中，本公开实施例所述的基于特征提取子模型提取与样本图像对应的特征图，包括：从样本图像中随机获取一预设尺寸的图像输入至特征提取子模型中进行多尺寸特征提取处理，得到多个不同尺寸的图像特征；对多个不同尺寸的图像特征进行合并处理，得到特征图。

即，在样本图像数量不足的情况下，为了提升模型训练效果和模型泛化能力，可以是从样本图像中随机裁剪出一预设尺寸的裁剪图像，并将裁剪图像输入至特征提取子模型中进行多尺寸特征提取处理，以得到多个不同尺寸的图像特征，其中，该预设尺寸例如可以为1024像素*1024像素。

所述对多个不同尺寸的图像特征进行合并处理，得到特征图，可以是：对该多个不同尺寸的图像分别进行上采样(Upsampling)处理，以将该多个不同尺寸的图像特征采样至同一尺寸，再对该采样至同一尺寸的多个图像特征进行合并处理，得到融合有不同尺寸的图像特征的特征图。

需要说明的是，在一些实施方式中，为了进一步提升模型训练效果和模型泛化能力，在得到样本图像之后，该方法还可以包括：对样本图像进行数据增强处理，得到样本图像对应的增强图像，从该增强图像中随机获取一预设尺寸的图像输入至该特征提取子模型中进行多尺寸特征提取处理，并将得到的特征图作为样本图像对应的特征图。

可见，在本公开实施例中，通过基于特征提取子模型提取样本图像对应的、融合有不同尺寸的图像特征的特征图，可以使得在进行文本位置预测时，基于多粒度的图像特征确定文本位置，以提升预测结果的准确性。

步骤S203，将特征图输入至预测子模型中进行噪声去除处理和文本位置预测处理，得到文本在样本图像中的预测位置信息，其中，噪声去除处理用于去除标注中的第一预设噪声。

第一预设噪声，是指标注中存在标注位置信息所表示的位置框未准确标注文本位置，即，标注的位置框与文本不贴合。例如，样本图像中的文本的位置框实际为100像素*100像素，但标注的位置框为200像素*200像素或者为50像素*200像素等未正确贴合文本实际位置的位置框。

在样本图像的标注中存在第一预设噪声的情况下，由于标注未能准确表示文本位置，因此基于该类样本图像训练模型，可能导致模型学习到错误的特征，进而导致收敛速度减慢甚至不能准确预测文本位置。

因此，在本公开实施例中，并不是默认标注均为完全正确的，而是在得到特征图进行文本位置预测的同时，还基于该特征图去除标注中可能存在的第一预设噪声，以避免模型学习到错误的特征，并提升得到的预测位置信息的准确性。

步骤S204，根据预测位置信息和标注位置信息，得到目标损失值，并基于目标损失值调整初始文本检测模型的参数，得到目标文本检测模型，其中，目标损失值用于表示预测位置信息所表示的第一位置和标注位置信息所表示的第二位置之间的误差。

在得到预测位置信息之后，即可通过计算预测位置信息和标注位置信息之间的误差作为目标损失值，并基于该目标损失值对模型参数进行调优，以获得满足预设收敛条件的目标文本检测模型。

需要说明的是，在本公开实施例中，预设收敛条件可以是该计算得到的目标损失值低于预设阈值，即，模型预测得到的预测位置信息和标注中的标注位置信息之间的误差低于预设阈值；或者，也可以是模型的训练迭代次数达到预设迭代值，此处不做特殊限定。

另外，在本公开实施例中，用于计算目标损失值的损失函数可以为均方误差(MSE，Mean Squared Error)损失函数、交叉熵(CE，Cross Entropy)损失函数等函数中的任一项，或者，也可以根据需要设置为其他损失函数，此处不做特殊限定。

根据以上说明可知，相较于相关技术中在进行模型训练时忽略标注噪声的存在而可能导致模型训练效果差以及可能不能准确预测图像中文本位置的问题，基于本公开实施例提供的方法，在基于初始文本检测模型的特征提取子模型提取到样本图像对应的特征图之后，通过将该特征图输入至预测子模型中同时进行噪声去除处理和文本位置预测处理，可以避免样本图像的标注中可能存在的第一预设噪声对模型训练造成影响，提升模型训练效果以及预测结果的准确性。

请参看图3和图4，其分别为本公开实施例提供的用于获取预测位置信息的流程图以及文本检测模型的训练处理的框架示意图；以下结合图3和图4，对如何得到预测位置信息进行说明。

在本公开实施例中，样本图像的标注可以为用于表示样本图像中文本的位置的位置框；如图4所示，预测子模型中可以包括多个顺序连接的卷积组，每一卷积组可以用于预测位置框内像素为文本类型像素的概率分布，各卷积组预测得到的概率分布不同；在该种实施方式中，如图3所示，上述步骤S203中的将特征图输入至预测子模型中进行噪声去除处理和文本位置预测处理，得到文本在样本图像中的预测位置信息，可以包括如下步骤S301-S302。

步骤S301，将特征图和融合特征数据依次输入每一卷积组中进行文本位置预测处理，得到多个概率分布图，其中，每一概率分布图与一卷积组对应，融合特征数据包括当前卷积组之前的所有卷积组的输出，并且，在当前卷积组为多个卷积组中的首个位置处的卷积组的情况下，融合特征数据为预设值。

在本公开实施例中，该概率分布图，是用于表示标注位置信息所表示的位置框中每一像素为文本类型像素的概率分布，该概率分布图可以为由0和1构成的二值图，其中，1可以表示对应位置的像素为文本类型像素，0表示对应位置的像素不为文本类型像素；当然，此处仅为举例说明，在实际处理中，该概率分布图也可以为其他形式，此处不做特殊限定。

即，由于标注中存在噪声，因此，标注的位置框中的像素可能不仅仅包含文本类型像素，还可能包含背景类型像素，其中，文本类型像素是指样本图像的位置框中用于构成文本的像素，背景类型像素可以是文本类型像素以外的像素。

在实际中，考虑到在标注的位置框中，往往到位置框边界的距离越近的像素，那么其为背景类型像素的概率往往较高，而距离位置框边界的距离越大，则其为文本类型像素的概率则较高，因此，在本公开实施例中，可以基于样本图像对应的特征图预测其位置框中每一像素为文本类型的概率，以准确分割出文本位置；同时，为了提升预测结果的置信度(confidence coefficient)，可以基于多模型融合以及残差网络的思想，通过基于多个卷积组预测不同的概率分布，并通过在该多个卷积组预测当前概率分布的过程中，同时基于其之前卷积组预测的概率分布作为输入，以通过融合之前的特征，缓解标注中第一预设噪声带来的影响，提升预测得到的预测位置信息的准确性。

步骤S302，根据多个概率分布图，得到预测位置信息。

即，在基于该多个卷积组得到多个概率分布图之后，所述基于多个概率分布图，得到预测位置信息，可以为：将多个概率分布图的均值作为合并图，根据该多个合并图得到预测位置信息。

在实际处理中，所述根据该多个合并图得到预测位置信息，可以是基于区域生长算法等算法对该合并图进行分割处理，以分割出用于表示文本位置的预测位置框作为该预测位置信息。

可见，在本公开实施例中，通过以多个卷积组分别获取概率分布图，并在当前卷积组提取概率分布图的过程中，将特征图和位于其之前位置的所有卷积组预测的概率分布图作为输入，可以融合之前卷积组的特征，同时，通过对预测得到的多个概率分布图进行求均值，可以进一步缓解标注中第一预设噪声的影响，提升预测得到的预测位置信息的准确性。

请继续参看图4，在一些实施方式中，预测子模型的多个卷积组的数量可以为n个，n为大于1的整数，优选地，n可以为6，即本公开实施例中的预测子模型可以包含6个卷积组；在该种实施方式中，如图5所示，上述步骤S301中的将特征图和融合特征数据依次输入每一卷积组中进行文本位置预测处理，得到多个概率分布图，可以包括如下步骤S501-S503。

步骤S501，将特征图和融合特征数据输入第i个卷积组中进行文本位置预测处理，得到第一概率分布图，其中，i的初值为1；步骤S502，在i小于n的情况下，根据第一概率分布图，更新融合特征数据，以及，按照预设步长值更新i，并再次执行将特征图和融合特征数据输入第i个卷积组中进行文本位置预测处理，得到第一概率分布图的步骤；以及，步骤S503，在i等于n的情况下，将得到的多个第一概率分布图作为多个概率分布图。

在本公开实施例中，如无特殊说明，预设步长值可以为1。

即，在n为6，即该多个卷积组为6个卷积组的情况下，在i为1的情况下，针对卷积组1，其输入可以仅为步骤S202提取得到的特征图，其输出可以为概率分布图1；之后，由于i小于6，可以基于概率分布图1得到融合特征数据为：{概率分布图1}，以及更新i为2；之后，可以将特征图和当前融合特征数据，即概率分布图1输入至卷积组2，得到概率分布图2，并更新融合特征数据为：{概率分布图1，概率分布图2}，以及更新i为3，之后输入卷积组3，得到概率分布图3；经过迭代执行上述步骤，在i为6的情况下，将特征图和概率分布图1、概率分布图2、概率分布图3、概率分布图4和概率分布图5输入卷积组6中，得到概率分布图6，并停止执行，将概率分布图1～6作为该多个概率分布图。

请继续参看图4，在一些实施方式中，该多个卷积组中的每一卷积组可以包括m层卷积层和1个权重处理层，其中，m为大于1的整数，优选地，m为3，即，每一卷机组可以包含3个卷积层，其中，卷积组中首个位置的卷积层的输入通道可以为16+i-1。

在本公开实施例中，在卷积组为6个的情况下，卷积组1中卷积层11的输入通道为16，卷积层11的输出通道为16，卷积层12输入通道为16，输出通道为16，卷积层13的输入通道为16，且输出通道为1；卷积组2中卷积层21的输入通道为17，输出通道为17，卷积层22的输入通道和输出通道均为17，卷积层23的输入通道为17，输出通道为1，…，卷积组6中卷积层61的输入通道为和输出通道均为21，卷积层62的输入和输出通道均为21，卷积层63的输入通道为21，输出通道为1；另外，在m为3的情况下，各卷积组中第一个卷积层的卷积核可以为1*5，填充为1，卷积步长为1，第二个卷积层的卷积核为5*1，填充为1，卷积步长为1，第三个卷积层的卷积核为1*1，填充为0，卷积步长为1。

在该种实施方式中，如图6所示，上述步骤S501中的将特征图和融合特征数据输入第i个卷积组中进行文本位置预测处理，得到第一概率分布图，可以包括如下步骤S601-S602。

步骤S601，基于第i个卷积组中的m层卷积层对特征图和融合特征数据进行卷积处理，得到初始概率分布图；以及步骤S602，将初始概率分布图输入权重处理层中进行加权处理，得到第一概率分布图，其中，权重处理层用于根据位置框中每一像素到位置框边界的距离、最大边界距离和像素数量确定每一像素的权重值，其中，最大边界距离为位置框中所有像素到位置框框边界的距离中的最大值，像素数量为位置框框中所有像素的数量。

在本公开实施例中，每一像素的权重值可以由对应卷积组中的权重处理层基于以下公式计算得到：

其中，D_x表示当前像素x到位置框边界，即边框的距离，D_max表示最大边界距离，x表示位置框内需要计算权重值的像素，n为当前卷积组在所有卷积组中的位置。

根据以上说明可知，在本公开实施例中，基于预测子模型中的多个卷积组分别获取表示标注的位置框中像素为文本类型像素的不同概率分布，并基于特征融合和残差网络的思想对该多个不同概率分布进行融合，以及基于融合得到的概率分布分割得到预测位置信息，可以避免标注中存在的第一预设噪声，即标注的位置框未贴合文本而带来的影响，提升预测结果的准确性。

请参看图7，其为本公开实施例提供的用于获取目标损失值的流程图。如图7所示，在一些实施例中，上述步骤S204中的根据预测位置信息和标注位置信息，得到目标损失值，包括如下步骤S701-S703。

步骤S701，根据预测位置信息和标注位置信息，确定样本图像的样本类型，其中，样本类型包括：用于表示预测位置信息和标注位置信息匹配的正样本类型，以及用于表示预测位置信息和标注位置信息不匹配的负样本类型。

具体地，考虑到在实际中，样本图像的标注中还可能存在第二预设噪声，即对文本位置进行了漏标或者误标，这同样可能会对模型训练带来影响，为此，在本公开实施例中，可以在得到预测位置信息之后，在计算目标损失值的过程中，通过判断预测位置信息和标注位置信息是否匹配，例如判断两者的误差是否在一定阈值范围内以确定样本图像的样本类型，即为正样本类型还是负样本类型，考虑到在样本图像为正样本类型的情况下，预测位置信息和标注位置信息之间的损失值可以准确反映模型预测效果，因此，可以不对两者的损失值做调整；而在样本图像为负样本类型的情况下，考虑到预测位置信息和标注位置信息之间的损失值在模型训练初始时并不能准确反映模型的预测效果，进而可能会对模型训练带来影响，因此可以通过设置权重的范围对负样本类型的样本图像的损失值进行调整，以降低第二预设噪声对模型训练带来的影响。

在一些实施例中，根据预测位置信息和标注位置信息，确定样本图像的样本类型，包括：分别获取第一位置和第二位置之间的交集和并集；在交集和并集的比值大于或等于预设阈值的情况下，确定样本类型为正样本类型，以及，在交集和并集的比值小于预设阈值的情况下，确定样本类型为负样本类型。

即，在本公开实施例中，可以通过基于预测位置信息表示的第一位置和标注位置信息表示的第二位置之间的交集和并集的比值来确定两者是否匹配，若该比值大于或等于预设阈值，则可以确定样本图像的样本类型为正样本类型，否则，则可以确定样本图像的样本类型为负样本类型，其中，该预设阈值例如可以为0.5。

步骤S702，根据样本类型和当前的训练迭代次数，确定用于去除标注中的第二预设噪声的权重值。

如上所示，在一些实施例中，在根据样本类型和当前的训练迭代次数，确定用于去除标注中的第二预设噪声的权重值，包括：在样本类型为正样本类型的情况下，设置权重值为第一预设权重值；在样本类型为负样本类型的情况下，根据当前的训练迭代次数确定权重值。

该第一预设权重值例如可以为1；另外，在本公开实施例中，在样本类型为负样本类型的情况下，可以基于以下公式确定该负样本类型的样本图像对应的损失值的权重值：

其中，e表示当前的训练迭代次数，E_max表示预设的最大训练迭代次数；具体地，考虑到直至训练结束，也并不能保证模型的预测结果完全正确，因此，在本公开实施例中，为了在降低第二预设噪声对训练结果造成影响的同时，还尽可能提升模型训练结果，可以在训练过程中，在初始训练阶段基于当前的迭代次数和预设的最大训练迭代次数确定权重值；而在模型训练后期，可以将该权重值设置为第二预设阈值，例如，设置为上述公式中的0.5；需要说明的是，在实际中，也可以将第二预设阈值设置为其他数值，此处不做特殊限定。

步骤S703，计算预测位置信息和标注位置信息之间的误差值作为初始损失值，并根据初始损失值和权重值，得到目标损失值。

在确定损失值对应的权重值之后，即可在计算得到初始损失值的情况下，基于该初始损失值和权重值，计算得到可以降低第二预设噪声带来的影响的目标损失值，基于该目标损失值对模型参数进行调优，可以加快模型收敛速度并提升预测结果的准确性。

可见，在本公开实施例中，在训练文本检测模型时，不仅可以基于预测子模型去除标注中可能存在的第一预设噪声，即，标注的文本框不准确的噪声；还可以在基于损失值调整模型参数的过程中，通过判断预测位置信息和标注位置信息是否匹配以区分样本图像的样本类型，并基于该样本类型适应性调整损失值的权重，可以降低负样本中存在的第二预设噪声可能对模型训练带来的影响，进而更进一步的提升模型训练效率以及预测结果的准确性。

请参看图8，其为本公开实施例提供的文本检测方法的流程示意图。该方法可以应用于电子设备中，该电子设备例如可以为图1所示的服务器101，或者也可以为终端设备，例如，可以为手机、平板电脑以及个人计算机等设备，此处不做特殊限定。

如图8所示，本公开实施例提供的文本检测方法可以包括如下步骤S801-S802。

步骤S801，获取待检测的目标图像。

步骤S802，将目标图像输入目标文本检测模型中进行文本检测处理，得到目标位置信息，其中，目标位置信息用于表示目标图像中文本的位置信息，目标文本检测模型是根据上述实施例中的文本检测模型的训练方法得到的。

由于目标文本检测模型是在训练过程中通过去除样本图像中可能存在的标注噪声，例如第一预设噪声和/或第二预设噪声带来的影响，因此，基于目标文本检测模型进行文本检测，可以使得电子设备能够准确地预测得到目标图像中文本的目标位置信息。

需要说明的是，基于本公开实施例中的目标文本检测模型不仅可以直接用于文本检测任务，还可以用于其他下游任务，例如，可以用于文本识别任务中，此处不再赘述。

另外，可以理解的是，在训练得到目标文本检测模型的过程中，若其训练过程还包含去除第二预设噪声，即漏标、误标噪声的处理，则在应用目标文本检测模型的过程中，该目标文本检测模型可以不必包括基于预测位置信息判断样本类型的处理，以减轻模型结构。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开还提供了文本检测模型的训练装置、文本检测装置、电子设备、计算机可读存储介质，上述均可用来实现本公开提供的任一种文本检测模型的训练方法或者文本检测方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图9为本公开实施例提供的一种文本检测模型的训练装置的框图。

参照图9，本公开实施例提供了一种文本检测模型的训练装置，该文本检测模型的训练装置900包括：第二获取单元901、特征提取单元902、预测单元903和调参单元904。

该第二获取单元901，用于获取样本图像、样本图像的标注和待训练的初始文本检测模型，其中，标注用于表示文本在样本图像中的标注位置信息，初始文本检测模型包括特征提取子模型和预测子模型。

该特征提取单元902，用于基于特征提取子模型提取与样本图像对应的特征图。

该预测单元903，用于将特征图输入至预测子模型中进行噪声去除处理和文本位置预测处理，得到文本在样本图像中的预测位置信息，其中，噪声去除处理用于去除标注中的第一预设噪声。

该调参单元904，用于根据预测位置信息和标注位置信息，得到目标损失值，并基于目标损失值调整初始文本检测模型的参数，得到目标文本检测模型，其中，目标损失值用于表示预测位置信息所表示的第一位置和标注位置信息所表示的第二位置之间的误差。

在一些实施例中，该调参单元904在根据预测位置信息和标注位置信息，得到目标损失值时，可以用于：根据预测位置信息和标注位置信息，确定样本图像的样本类型，其中，样本类型包括：用于表示预测位置信息和标注位置信息匹配的正样本类型，以及用于表示预测位置信息和标注位置信息不匹配的负样本类型；根据样本类型和当前的训练迭代次数，确定用于去除标注中的第二预设噪声的权重值；计算预测位置信息和标注之间的误差值作为初始损失值，并根据初始损失值和权重值，得到目标损失值。

在一些实施例中，该调参单元904在根据预测位置信息和标注位置信息，确定样本图像的样本类型时，可以用于：分别获取第一位置和第二位置之间的交集和并集；在交集和并集的比值大于或等于预设阈值的情况下，确定样本类型为正样本类型，以及，在交集和并集的比值小于预设阈值的情况下，确定样本类型为负样本类型。

在一些实施例中，该调参单元904在根据样本类型和当前的训练迭代次数，确定用于去除标注中的第二预设噪声的权重值时，可以用于：在样本类型为正样本类型的情况下，设置权重值为第一预设权重值；在样本类型为负样本类型的情况下，根据当前的训练迭代次数确定权重值。

在一些实施例中，标注为用于表示样本图像中文本的位置的位置框；预测子模型中包括多个顺序连接的卷积组，每一卷积组用于预测位置框内像素为文本类型像素的概率分布，各卷积组预测得到的概率分布不同；该预测单元903在将特征图输入至预测子模型中进行噪声去除处理和文本位置预测处理，得到文本在样本图像中的预测位置信息时，可以用于：将特征图和融合特征数据依次输入每一卷积组中进行文本位置预测处理，得到多个概率分布图，其中，每一概率分布图与一卷积组对应，融合特征数据包括当前卷积组之前的所有卷积组的输出，并且，在当前卷积组为多个卷积组中的首个位置处的卷积组的情况下，融合特征数据为预设值；根据多个概率分布图，得到预测位置信息。

在一些实施例中，多个卷积组的数量为n，n为大于1的整数；该预测单元903在将特征图和融合特征数据依次输入每一卷积组中进行文本位置预测处理，得到多个概率分布图时，可以用于：将特征图和融合特征数据输入第i个卷积组中进行文本位置预测处理，得到第一概率分布图，其中，i的初值为1；在i小于n的情况下，根据第一概率分布图，更新融合特征数据，以及，按照预设步长值更新i，并再次执行将特征图和融合特征数据输入第i个卷积组中进行文本位置预测处理，得到第一概率分布图的步骤；在i等于n的情况下，将得到的多个第一概率分布图作为多个概率分布图。

在一些实施例中，多个卷积组中的每一卷积组包括m层卷积层和1个权重处理层，其中，m为大于1的整数；该预测单元903在将特征图和融合特征数据输入第i个卷积组中进行文本位置预测处理，得到第一概率分布图时，可以用于：基于第i个卷积组中的m层卷积层对特征图和融合特征数据进行卷积处理，得到初始概率分布图；将初始概率分布图输入权重处理层中进行加权处理，得到第一概率分布图，其中，权重处理层用于根据位置框中每一像素到位置框边界的距离、最大边界距离和像素数量确定每一像素的权重值，其中，最大边界距离为位置框中所有像素到位置框框边界的距离中的最大值，像素数量为位置框框中所有像素的数量。

在一些实施例中，该特征提取单元902在基于特征提取子模型提取与样本图像对应的特征图时，可以用于：从样本图像中随机获取一预设尺寸的图像输入至特征提取子模型中进行多尺寸特征提取处理，得到多个不同尺寸的图像特征；对多个不同尺寸的图像特征进行合并处理，得到特征图。

图10为本公开实施例提供的一种文本检测装置的框图。

参照图10，本公开实施例提供了一种文本检测装置，该文本检测装置1000包括：第一获取单元1001和预测单元1002。

该第一获取单元1001，用于获取待检测的目标图像。

该预测单元1002，用于将目标图像输入目标文本检测模型中进行文本检测处理，得到目标位置信息，其中，目标位置信息用于表示目标图像中文本的位置信息，目标文本检测模型是上述任一项文本检测模型的训练方法得到的。

图11为本公开实施例提供的一种电子设备的框图。

参照图11，本公开实施例提供了一种电子设备，该电子设备1100包括：至少一个处理器1101；至少一个存储器1102，以及一个或多个I/O接口1103，连接在处理器1101与存储器1102之间；其中，存储器1102存储有可被至少一个处理器1101执行的一个或多个计算机程序，一个或多个计算机程序被至少一个处理器1101执行，以使至少一个处理器1101能够执行上述的文本检测模型的训练方法或者文本检测方法。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器执行时实现上述的文本检测模型的训练方法或者文本检测方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述的文本检测模型的训练方法或者文本检测方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读存储介质上，计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。

如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储预设(期望)的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种文本检测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述预测位置信息和所述标注位置信息，得到目标损失值，包括：

根据所述预测位置信息和所述标注位置信息，确定所述样本图像的样本类型，其中，所述样本类型包括：用于表示所述预测位置信息和所述标注位置信息匹配的正样本类型，以及用于表示所述预测位置信息和所述标注位置信息不匹配的负样本类型；

根据所述样本类型和当前的训练迭代次数，确定用于去除所述标注中的第二预设噪声的权重值；

计算所述预测位置信息和所述标注位置信息之间的误差值作为初始损失值，并根据所述初始损失值和所述权重值，得到所述目标损失值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述预测位置信息和所述标注位置信息，确定所述样本图像的样本类型，包括：

分别获取所述第一位置和所述第二位置之间的交集和并集；

在所述交集和所述并集的比值大于或等于预设阈值的情况下，确定所述样本类型为所述正样本类型，以及，在所述交集和所述并集的比值小于所述预设阈值的情况下，确定所述样本类型为所述负样本类型。

4.根据权利要求2所述的方法，其特征在于，所述根据所述样本类型和当前的训练迭代次数，确定用于去除所述标注中的第二预设噪声的权重值，包括：

在所述样本类型为所述正样本类型的情况下，设置所述权重值为第一预设权重值；

在所述样本类型为所述负样本类型的情况下，根据所述当前的训练迭代次数确定所述权重值。

5.根据权利要求1所述的方法，其特征在于，所述标注为用于表示所述样本图像中文本的位置的位置框；所述预测子模型中包括多个顺序连接的卷积组，每一卷积组用于预测所述位置框内像素为文本类型像素的概率分布，各卷积组预测得到的概率分布不同；

所述将所述特征图输入至所述预测子模型中进行噪声去除处理和文本位置预测处理，得到所述文本在所述样本图像中的预测位置信息，包括：

将所述特征图和融合特征数据依次输入每一卷积组中进行文本位置预测处理，得到多个概率分布图，其中，每一概率分布图与一卷积组对应，所述融合特征数据包括当前卷积组之前的所有卷积组的输出，并且，在当前卷积组为所述多个卷积组中的首个位置处的卷积组的情况下，所述融合特征数据为预设值；

根据所述多个概率分布图，得到所述预测位置信息。

6.根据权利要求5所述的方法，其特征在于，所述多个卷积组的数量为n，n为大于1的整数；

所述将所述特征图和融合特征数据依次输入每一卷积组中进行文本位置预测处理，得到多个概率分布图，包括：

将所述特征图和所述融合特征数据输入第i个卷积组中进行文本位置预测处理，得到第一概率分布图，其中，i的初值为1；

在i小于n的情况下，根据所述第一概率分布图，更新所述融合特征数据，以及，按照预设步长值更新i，并再次执行所述将所述特征图和所述融合特征数据输入第i个卷积组中进行文本位置预测处理，得到第一概率分布图的步骤；

在i等于n的情况下，将得到的多个第一概率分布图作为所述多个概率分布图。

7.根据权利要求6所述的方法，其特征在于，所述多个卷积组中的每一卷积组包括m层卷积层和1个权重处理层，其中，m为大于1的整数；

所述将所述特征图和所述融合特征数据输入第i个卷积组中进行文本位置预测处理，得到第一概率分布图，包括：

基于第i个卷积组中的所述m层卷积层对所述特征图和所述融合特征数据进行卷积处理，得到初始概率分布图；

将所述初始概率分布图输入所述权重处理层中进行加权处理，得到所述第一概率分布图，其中，所述权重处理层用于根据所述位置框中每一像素到所述位置框边界的距离、最大边界距离和像素数量确定每一像素的权重值，所述最大边界距离为所述位置框中所有像素到所述位置框框边界的距离中的最大值，所述像素数量为所述位置框框中所有像素的数量。

8.根据权利要求1所述的方法，其特征在于，所述基于所述特征提取子模型提取与所述样本图像对应的特征图，包括：

从所述样本图像中随机获取一预设尺寸的图像输入至所述特征提取子模型中进行多尺寸特征提取处理，得到多个不同尺寸的图像特征；

对所述多个不同尺寸的图像特征进行合并处理，得到所述特征图。

9.一种文本检测方法，其特征在于，包括：

获取待检测的目标图像；

将所述目标图像输入目标文本检测模型中进行文本检测处理，得到目标位置信息，其中，所述目标位置信息用于表示所述目标图像中文本的位置信息，所述目标文本检测模型是根据权利要求1-8中任一项所述文本检测模型的训练方法得到的。

10.一种文本检测装置，其特征在于，包括：

第一获取单元，用于获取待检测的目标图像；

检测单元，用于将所述目标图像输入目标文本检测模型中进行文本检测处理，得到目标位置信息，其中，所述目标位置信息用于表示所述目标图像中文本的位置信息，所述目标文本检测模型是根据权利要求1-8中任一项所述文本检测模型的训练方法得到的。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-9中任一项所述的方法。