CN111126243A

CN111126243A - 一种图像数据检测方法、装置以及计算机可读存储介质

Info

Publication number: CN111126243A
Application number: CN201911320665.XA
Authority: CN
Inventors: 刘畅; 殷绪成; 王红法; 郭春超; 吴隆煌
Original assignee: Tencent Technology Shenzhen Co Ltd; University of Science and Technology Beijing USTB
Current assignee: Tencent Technology Shenzhen Co Ltd; University of Science and Technology Beijing USTB
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-08
Anticipated expiration: 2039-12-19
Also published as: CN111126243B

Abstract

本申请公开了一种图像数据检测方法、装置以及计算机可读存储介质，该方法包括：获取检测图像，从检测图像中获取包含目标对象的情景图像；获取情景图像中的像素点对应的位置特征矩阵；位置特征矩阵中包括像素点针对目标对象的位置特征元素；根据情景图像中的目标对象的对象排版特征，生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵；根据位置特征矩阵中的位置特征元素和注意力机制矩阵，确定像素点对应的预测区域，将像素点对应的预测区域添加至预测区域集合；在预测区域集合中，选择与目标对象在检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域。采用本申请，可提高针对目标对象的检测准确性。

Description

一种图像数据检测方法、装置以及计算机可读存储介质

技术领域

本申请涉及数据检测的技术领域，尤其涉及一种图像数据检测方法、装置以及计算机可读存储介质。

背景技术

随着计算机网络的不断发展，对于物体检测的相关技术也日趋成熟，检测的物体可以是想要进行检测的任意物体，例如，针对人脸的检测以及针对文字的检测等。

在一种检测场景中，若是需要通过对某个书籍的封面图像进行智能识别以得到该封面图像所对应的书籍名称、书籍作者以及书籍出版社等信息，则首先就需要对该封面图像中的文字位置进行检测，只有在检测到该封面图像中的文字具体所在的位置，才能进一步地对所检测到的文字进行识别，即识别出所检测到的文字的具体内容。

但是，现有技术中，若封面图像中的文字组过于密集，则会导致文字组容易被粘连，例如，若书籍名称对应的文字组和书籍作者对应的文字组之间的间距太小，则会将书籍名称对应的文字组和书籍作者对应的文字组检测为一个文字组。若封面图像的文字组中的文字过于稀疏，则会导致文字组容易被截断，例如，若书籍名称对应的文字组中的多个文字之间的间距太大，则会将书籍名称对应的文字组检测为多个文字组。由此可知，现有技术中，针对图像中的文字组的具***置的检测结果并不准确。

申请内容

本申请提供了一种图像数据检测方法、装置以及计算机可读存储介质，可提高针对目标对象的检测准确性。

本申请一方面提供了一种图像数据检测方法，包括：

获取检测图像，从检测图像中获取包含目标对象的情景图像；

获取情景图像中的像素点对应的位置特征矩阵；位置特征矩阵中包括像素点针对目标对象的位置特征元素；

根据情景图像中的目标对象的对象排版特征，生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵；

根据位置特征矩阵中的位置特征元素和注意力机制矩阵，确定像素点对应的预测区域，将像素点对应的预测区域添加至预测区域集合；

在预测区域集合中，选择与目标对象在检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域。

其中，位置特征矩阵包括水平位置特征矩阵和垂直位置特征矩阵；位置特征元素包括像素点针对所对应的目标对象的水平边缘距离元素和垂直边缘距离元素；水平位置特征矩阵中的位置特征元素为水平边缘距离元素；垂直位置特征矩阵中的位置特征元素为垂直边缘距离元素；注意力机制矩阵包括水平注意力机制矩阵和垂直注意力机制矩阵；水平注意力机制矩阵用于调整水平位置特征矩阵中的水平边缘距离元素；垂直注意力机制矩阵用于调整垂直位置特征矩阵中的垂直边缘距离元素。

其中，根据位置特征矩阵中的位置特征元素和注意力机制矩阵，确定像素点对应的预测区域，包括：

基于水平注意力机制矩阵对水平位置特征矩阵中的水平边缘距离元素进行加权运算，得到加权后的水平位置特征矩阵；

基于垂直注意力机制矩阵对垂直位置特征矩阵中的垂直边缘距离元素进行加权运算，得到加权后的垂直位置特征矩阵；

根据加权后的水平位置特征矩阵和加权后的垂直位置特征矩阵，确定像素点对应的预测区域。

其中，位置特征矩阵还包括角度特征矩阵；

根据加权后的水平位置特征矩阵和加权后的垂直位置特征矩阵，确定像素点对应的预测区域，包括：

根据加权后的水平位置特征矩阵和加权后的垂直位置特征矩阵，确定像素点对应的预测区域的区域尺寸；

根据角度特征矩阵和像素点在检测图像中的像素位置坐标，确定像素点对应的预测区域在检测图像中的区域位置；

根据像素点对应的区域尺寸和区域位置，确定像素点对应的预测区域。

其中，在预测区域集合中，选择与目标对象在检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域，包括：

获取预测区域集合中的每个预测区域分别对应的置信度；置信度用于表征所对应的预测区域为目标区域的概率；

将预测区域集合中置信度小于置信度阈值的预测区域，从预测区域集合中删除，得到第一过滤区域集合；

从第一过滤区域集合中，获取目标区域。

其中，第一过滤区域集合包括第一预测区域和第二预测区域；

从第一过滤区域集合中，获取目标区域，包括：

获取第一预测区域和第二预测区域在检测图像中的区域重合比例；

当区域重合比例大于区域重合比例阈值，且第一预测区域对应的置信度大于第二预测区域对应的置信度时，将第二预测区域从第一过滤区域集合中删除，得到第二过滤区域集合；

将第二过滤区域集合中的预测区域，均确定为目标区域。

本申请另一方面提供了一种图像数据检测方法，包括：

原始检测模型获取训练图像，从训练图像中获取包含目标对象的情景图像；

从预测区域集合中，选择与目标对象在检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域；

根据目标区域与在训练图像中所标记的目标对象的实际所在区域之间的区域差异，修正原始检测模型的模型参数，得到检测模型。

其中，获取情景图像中的像素点对应的位置特征矩阵，包括：

识别情景图像中的像素点的像素点类型，根据识别结果为像素点添加识别类型标签；像素点类型包括目标像素点类型和背景像素点类型；目标像素点类型的像素点为情景图像中目标对象所具有的像素点；背景像素点类型的像素点为情景图像中除目标对象所具有的像素点之外的像素点；识别类型标签包括目标像素点类型对应的目标类型标签和背景像素点类型对应的背景类型标签；

根据像素点所添加的识别类型标签，生成情景图像对应的情景特征图；

根据情景特征图，生成情景图像中的像素点对应的位置特征矩阵。

其中，根据像素点所添加的识别类型标签，生成情景图像对应的情景特征图，包括：

根据像素点所添加的识别类型标签和情景图像中的目标对象的对象排版特征，生成情景图像对应的情景特征图；

则，根据情景图像中的目标对象的对象排版特征，生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵，包括：

根据情景特征图，生成用于调整位置特征元素的注意力机制矩阵。

其中，情景图像中的像素点还被标记有实际类型标签；实际类型标签包括目标类型标签和背景类型标签；

根据目标区域与在训练图像中所标记的目标对象的实际所在区域之间的区域差异，修正原始检测模型的模型参数，得到检测模型，包括：

根据像素点对应的识别类型标签与实际类型标签之间的标签差异，确定第一损失函数；

根据目标区域与实际所在区域之间的区域差异，确定第二损失函数；

根据第一损失函数和第二损失函数，修正原始检测模型的模型参数，得到检测模型。

其中，根据目标区域与在训练图像中所标记的目标对象的实际所在区域之间的区域差异，修正原始检测模型的模型参数，得到检测模型，包括：

获取情景图像中被添加有目标类型标签的像素点在检测图像中的图像区域；

根据图像区域和实际所在区域之间的区域差异，确定第三损失函数；

根据第二损失函数和第三损失函数，修正原始检测模型的模型参数，得到检测模型。

本申请一方面提供了一种图像数据检测装置，包括：

第一图像获取模块，用于获取检测图像，从检测图像中获取包含目标对象的情景图像；

第一矩阵获取模块，用于获取情景图像中的像素点对应的位置特征矩阵；位置特征矩阵中包括像素点针对目标对象的位置特征元素；

第一矩阵生成模块，用于根据情景图像中的目标对象的对象排版特征，生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵；

第一区域确定模块，用于根据位置特征矩阵中的位置特征元素和注意力机制矩阵，确定像素点对应的预测区域，将像素点对应的预测区域添加至预测区域集合；

第一区域选择模块，用于在预测区域集合中，选择与目标对象在检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域。

其中，第一区域确定模块，包括：

第一加权单元，用于基于水平注意力机制矩阵对水平位置特征矩阵中的水平边缘距离元素进行加权运算，得到加权后的水平位置特征矩阵；

第二加权单元，用于基于垂直注意力机制矩阵对垂直位置特征矩阵中的垂直边缘距离元素进行加权运算，得到加权后的垂直位置特征矩阵；

区域确定单元，用于根据加权后的水平位置特征矩阵和加权后的垂直位置特征矩阵，确定像素点对应的预测区域。

其中，位置特征矩阵还包括角度特征矩阵；

区域确定单元，包括：

第一确定子单元，用于根据加权后的水平位置特征矩阵和加权后的垂直位置特征矩阵，确定像素点对应的预测区域的区域尺寸；

第二确定子单元，用于根据角度特征矩阵和像素点在检测图像中的像素位置坐标，确定像素点对应的预测区域在检测图像中的区域位置；

第三确定子单元，用于根据像素点对应的区域尺寸和区域位置，确定像素点对应的预测区域。

其中，第一区域选择模块，包括：

置信度获取单元，用于获取预测区域集合中的每个预测区域分别对应的置信度；置信度用于表征所对应的预测区域为目标区域的概率；

删除单元，用于将预测区域集合中置信度小于置信度阈值的预测区域，从预测区域集合中删除，得到第一过滤区域集合；

区域获取单元，用于从第一过滤区域集合中，获取目标区域。

区域获取单元，包括：

比例获取子单元，用于获取第一预测区域和第二预测区域在检测图像中的区域重合比例；

删除子单元，用于当区域重合比例大于区域重合比例阈值，且第一预测区域对应的置信度大于第二预测区域对应的置信度时，将第二预测区域从第一过滤区域集合中删除，得到第二过滤区域集合；

第四确定子单元，用于将第二过滤区域集合中的预测区域，均确定为目标区域。

本申请另一方面提供了一种图像数据检测装置，包括：

第二图像获取模块，用于获取训练图像，从训练图像中获取包含目标对象的情景图像；

第二矩阵获取模块，用于获取情景图像中的像素点对应的位置特征矩阵；位置特征矩阵中包括像素点针对目标对象的位置特征元素；

第二矩阵生成模块，用于根据情景图像中的目标对象的对象排版特征，生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵；

第二区域确定模块，用于根据位置特征矩阵中的位置特征元素和注意力机制矩阵，确定像素点对应的预测区域，将像素点对应的预测区域添加至预测区域集合；

第二区域选择模块，用于从预测区域集合中，选择与目标对象在检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域；

修正模块，用于根据目标区域与在训练图像中所标记的目标对象的实际所在区域之间的区域差异，修正原始检测模型的模型参数，得到检测模型。

其中，第二矩阵获取模块，包括：

类型识别单元，用于识别情景图像中的像素点的像素点类型，根据识别结果为像素点添加识别类型标签；像素点类型包括目标像素点类型和背景像素点类型；目标像素点类型的像素点为情景图像中目标对象所具有的像素点；背景像素点类型的像素点为情景图像中除目标对象所具有的像素点之外的像素点；识别类型标签包括目标像素点类型对应的目标类型标签和背景像素点类型对应的背景类型标签；

特征图生成单元，用于根据像素点所添加的识别类型标签，生成情景图像对应的情景特征图；

矩阵生成单元，用于根据情景特征图，生成情景图像中的像素点对应的位置特征矩阵。

其中，特征图生成单元，具体用于：

则，第二矩阵生成模块，具体用于：

修正模块，包括：

第一损失单元，用于根据像素点对应的识别类型标签与实际类型标签之间的标签差异，确定第一损失函数；

第二损失单元，用于根据目标区域与实际所在区域之间的区域差异，确定第二损失函数；

第一修正单元，用于根据第一损失函数和第二损失函数，修正原始检测模型的模型参数，得到检测模型。

其中，修正模块，包括：

第三损失单元，用于根据目标区域与实际所在区域之间的区域差异，确定第二损失函数；

图像区域获取单元，用于获取情景图像中被添加有目标类型标签的像素点在检测图像中的图像区域；

第四损失单元，用于根据图像区域和实际所在区域之间的区域差异，确定第三损失函数；

第二修正单元，用于根据第二损失函数和第三损失函数，修正原始检测模型的模型参数，得到检测模型。

本申请一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如本申请中一方面/另一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述一方面/另一方面中的方法。

本申请首先可以从检测图像中获取包含目标对象的情景图像，接着，可以对该情景图像中的目标对象的对象排版特征进行学习，以得到该情景图像中的像素点对应的位置特征矩阵以及注意力机制矩阵，通过该注意力机制矩阵可以对该位置特征矩阵进行调整，进而可以通过调整之后的位置特征矩阵，得到目标对象在检测图像中的具体所在区域(即目标区域)。由此可见，本申请可以通过情景图像中的目标对象的对象排版特征，生成注意力机制矩阵，通过该注意力机制矩阵对位置特征矩阵进行优化调整，可以使得最后通过位置特征矩阵预测得到的情景图像中的像素点针对目标对象的预测区域更加准确，进而使得最终从预测区域集合中所选出的针对目标对象的目标区域更加准确。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请提供的一种***架构示意图；

图1b是本申请提供的一种数据交互的场景示意图；

图2是本申请提供的一种数据检测的场景示意图；

图3是本申请提供的一种图像数据检测方法的流程示意图；

图4是本申请提供的一种获取预测区域集合的场景示意图；

图5是本申请提供的一种区域过滤的场景示意图；

图6是本申请提供的另一种图像数据检测方法的流程示意图；

图7是本申请提供的一种获取网络损失函数的场景示意图；

图8是本申请提供的一种获取第三损失函数的场景示意图；

图9是本申请提供的一种图像数据检测装置的结构示意图；

图10是本申请提供的另一种图像数据检测装置的结构示意图；

图11是本申请提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision,CV)和机器学习(Machine Learning,ML)。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请中，尤其涉及到场景文本位置检测，场景文本位置检测是指识别自然场景图像中的文字在该自然场景图像中所在的位置，不仅需要使用计算机视觉技术来获取自然场景图像中文字对应的位置特征矩阵，还需要借助机器学习将位置特征矩阵转化为文字在自然场景图像中的具***置。

请参见图1a，是本申请提供的一种***架构示意图。如图1a所示，该***架构示意图包括服务器100以及多个终端设备，多个终端设备具体包括终端设备200a、终端设备200b和终端设备200c。其中，终端设备200a、终端设备200b和终端设备200c均能通过网络与服务器100之间相互通信，终端设备可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)。此处以终端设备200a与服务器100之间的通信为例进行说明。

请一并参见图1b，是本申请提供的一种数据交互的场景示意图。终端设备200a中可以安装广告提交应用，该广告提交应用可以是任意一个支持用户上传广告材料的应用。用户可以通过终端设备200a中所安装的广告提交应用提交广告材料，该广告材料可以是一张用作广告宣传的图像。如图1b所示，终端页面100g为终端设备200a中安装的广告提交应用的一个应用界面，支持用户在在终端页面100g中录入广告图像，此处，在终端页面100g中获取到的用户录入的广告图像为图像100a。终端设备可以将获取到的图像100a发送给服务器100，服务器100可以对图像100a中的文本内容的文本位置进行检测。当服务器100检测出了图像100a中的文本内容在图像100a中的文本位置后，可以生成检测结果，该检测结果可以是检测出的图像100a中的文本内容所在区域(可以是矩形区域)的区域位置信息(可以用文本内容所在区域在图像100a中的区域坐标信息来表示)。服务器100可以将该检测结果发送给终端设备200a，终端设备200a可以根据该检测结果，在终端页面101g中显示标记有文本内容所在区域的图像100a。如终端页面101g所示，图像100a中显示有文本内容“好好学习”的所在区域102g和文本内容“天天向上”的所在区域103g。

终端设备此时只知道图像100a中的文本内容的所在区域，但并不知道该所在区域中的文本内容的具体内容，因此，进一步地，终端设备还可以对所在区域102g和所在区域103g中的文本内容进行识别，并识别出所在区域102g中的文本内容为“好好学习”，所在区域103g中的文本内容为“天天向上”。更多的，终端设备200a还可以对识别出的文本内容“好好学习”以及文本内容“天天向上”中是否含有敏感词汇(例如涉及到政治批判性质的词汇，或者不利于用户身心健康的词汇)进行判定，此处假设判定结果为没有(即无敏感词汇)。终端设备200a可以在终端页面104g中显示识别出的图像100a中的文本内容(如图1b的终端页面104g中的“检测出文本内容包括：好好学习天天向上”)以及判定出的判定结果(如图1b的终端页面104g中的“检测结果：无敏感词汇”)。终端设备200a可以根据判定出的判定结果判定用户是否可以将图像100a用于广告宣传中，例如，当判定结果为“无敏感词汇”，则支持用户可以将图像100a用于广告宣传中，当判定结果为“有敏感词汇”，则不支持用户将图像100a用于广告宣传中。其中，支持用户将图像100a用于广告宣传中的方式可以是，支持用户在广告提交应用的应用界面中投放包含该图像100a的悬浮窗口，以达到广告宣传的目的。

本申请所提供的方法主要描述了如何对图像中的文本内容的文本位置进行检测，因此，下面对服务器100是如何检测得到图像100a中的文本内容所在位置(即所在区域)进行详细说明。

请一并参见图2，是本申请提供的一种数据检测的场景示意图。如图2所示，服务器100可以将图像100a输入到检测模型101a中，该检测模型101a为预先训练好的用于检测图像中的文本内容所在位置的模型(具体训练过程可以参见下述图6对应的实施例中的描述)。其中，检测模型101a在检测图像100a中的文本内容的文本位置的结果，是要得到图像100a中的文本内容对应的文本框，该文本框可以是矩形框，理想的结果就是该矩形框刚好框住了对应位置处的文本内容。以下过程以执行主体为检测模型101a进行说明，可以理解的是，以下过程实际上是由服务器100调用该检测模型101a所执行的。

首先，检测模型101a可以对获取到的图像100a进行前景背景分割，进而得到图像100a中的一个情景图像103a。其中，前景背景分割是指先从图像100a中大致获取出一个包含图像100a中的文本内容的图像，该图像即是上述情景图像103a。可以理解的是，由于图像100a中的背景图像(指图像100a中除了文本图像之外的图像)通常较多，该背景图像对于检测图像100a中的文本内容所在位置而言为无用图像，通过情景背景分割可以将图像100a中的部分背景图像进行分割，即去掉图像100a中作为无用信息的部分背景图像，得到上述情景图像103a，该情景图像103a中包括上述图像100a中的文本内容。后续，检测模型101a可以对该情景图像103a中的文本内容的文本位置进行检测，降低了直接对图像100a中的文本内容进行检测的难度。

接着，检测模型101a可以通过学习上述情景图像103a的图像特征，得到该情景图像103a对应的情景图像特征104a(即feature map)，该情景图像特征104a实际上是检测模型101a通过提取情景图像中的图像特征所得到的情景图像103a对应的特征图，该情景图像特征104a中包含情景图像103a中的每个像素点的像素点信息。通过该情景图像特征104a，检测模型101a可以预测得到针对情景图像特征104a中的文本内容的5个位置特征矩阵以及2个注意力机制矩阵。如图2所示，上述5个位置特征矩阵包括矩阵105a、矩阵106a、矩阵107a、矩阵108a以及矩阵109a，上述2个注意力机制矩阵包括矩阵110a和矩阵111a。注意力机制矩阵为attention机制(即注意力机制)对应的特征向量，该特征向量的表现形式可以为矩阵(即注意力机制矩阵)的形式。注意力机制矩阵为用于调整以优化位置特征矩阵的权重矩阵，即注意力机制矩阵中的每个元素用于对位置特征矩阵中的每个元素进行加权运算以调整位置特征矩阵中的每个元素的值。此处，可以将情景图像104a中的文本内容称之为目标对象，因此，对情景图像104a中的文本内容的位置进行检测，即是需要获取目标对象对应的文本框。情景图像104a中可以包括多个文字组(举个例子，当情景图像104a为一本书籍的封面图像，则该封面图像中的作者名称、书籍名称以及书籍出版社可以分别为一个文字组)，每个文字组对应为一个目标对象，因此，需要获取每个目标对象分别对应的文本框。检测模型101a可以通过上述情景图像特征104a预测出情景图像103a中的每个像素点分别对应的初始预测框，该初始预测框即是预测得到的每个像素点分别针对情景图像103a中的文本内容的文本框。

其中，情景图像103a中的每个像素点分别对应的初始预测框是通过检测模型101a预测到的每个像素点针对所对应的初始预测框的上边缘距离、下边缘距离、左边缘距离、右边缘距离以及框角度所得到的。因此，可以理解的是，上述矩阵105a是由预测出来的情景图像103a中的每个像素点距离所对应的初始预测框的上边缘距离所构成的，换句话说，矩阵105a中的每个元素(1个数值代表1个元素)分别为预测得到的情景图像103a中的每个像素点针对所对应的初始预测框的上边缘距离。上述矩阵106a是由预测出来的情景图像103a中的每个像素点距离所对应的初始预测框的下边缘距离所构成的，换句话说，矩阵106a中的每个元素分别为预测得到的情景图像103a中的每个像素点针对所对应的初始预测框的下边缘距离。上述矩阵107a是由预测出来的情景图像103a中的每个像素点距离所对应的初始预测框的左边缘距离所构成的，换句话说，矩阵107a中的每个元素分别为预测得到的情景图像103a中的每个像素点针对所对应的初始预测框的左边缘距离。上述矩阵108a是由预测出来的情景图像103a中的每个像素点距离所对应的初始预测框的右边缘距离所构成的，换句话说，矩阵108a中的每个元素分别为预测得到的情景图像103a中的每个像素点针对所对应的初始预测框的右边缘距离。上述矩阵109a是由预测出来的情景图像103a中的每个像素点所对应的初始预测框的角度(可以理解为是倾斜角度或者旋转角度)所构成的，换句话说，矩阵106a中的每个元素分别为预测得到的情景图像103a中的每个像素点所对应的初始预测框的角度。因此，通过上述矩阵105a、矩阵106a、矩阵107a、矩阵108a以及矩阵109a即可确定情景图像103a中的每个像素点分别对应的初始预测框。

其中，在本申请所提供的方案中，矩阵110a用于对包含垂直方向上的边缘距离(如上述上边缘距离和下边缘距离)的矩阵进行调整，即矩阵110a用于对矩阵105a和矩阵106a中的每个元素进行优化调整。矩阵111a用于对包含水平方向上的边缘距离(如上述左边缘距离和右边缘距离)的矩阵进行调整，即矩阵110a用于对矩阵107a和矩阵108a中的每个元素进行优化调整。矩阵109a保持不变，即此处不对矩阵109a进行调整。其中，矩阵105a、矩阵106a和矩阵110a的大小相同，例如都为5*5。矩阵107a、矩阵108a和矩阵111a的大小相同，例如都为5*5。可以将矩阵110a中的每个元素与矩阵105a中对应位置处的元素相乘，得到矩阵112a，矩阵112a即为通过矩阵110a对矩阵105a进行优化后的矩阵。可以将矩阵110a中的每个元素与矩阵106a中对应位置处的元素相乘，得到矩阵113a，矩阵113a即为通过矩阵110a对矩阵106a进行优化后的矩阵。可以将矩阵111a中的每个元素与矩阵107a中对应位置处的元素相乘，得到矩阵114a，矩阵114a即为通过矩阵111a对矩阵107a进行优化后的矩阵。可以将矩阵111a中的每个元素与矩阵108a中对应位置处的元素相乘，得到矩阵115a，矩阵115a即为通过矩阵111a对矩阵107a进行优化后的矩阵。

通过上述矩阵112a、矩阵113a、矩阵114a、矩阵115a和矩阵109a，可以得到情景图像103a中的每个像素点分别对应的被优化之后的初始预测框，可以将每个像素点分别对应的被优化之后的初始预测框称之为每个像素点对应的预测框。可以将情景图像103a中的每个像素点分别对应的预测框添加至预测框集合117a。后续，检测模型101a可以从预测框集合中选择一个或者多个预测框(选择的具体过程可以参见下述步骤S105)，作为目标框，该目标框即是检测模型101a检测出来的图像100a中的文本内容对应的文本框，该目标框即表明了图像100a中的文本内容在图像100a中的具体所在区域。可以将该目标框理解为就是图像100a中的文本内容在图像100a中的所在区域。进一步地，服务器100还可以通过检测模型101a输出标记有目标框的图像100a，即输出标记有检测模型101a检测出的图像100a中的文本内容的文本框，如图2中的图像118a所示。由图像118a可知，检测模型101a检测出了图像100a中的文本内容“好好学习”以及文本内容“天天向上”的位置，即图像118a中标注了图像100a中的文本内容“好好学习”对应的目标框120a以及文本内容“天天向上”对应的目标框121a。

通过本申请所提供的方法，可以对通过情景图像103a的情景图像特征104a预测到的情景图像103a中的每个像素点分别对应的初始预测框进行修正(即调整和优化)，使得得到的情景图像103a中的每个像素点分别对应的预测框更加准确，最终使得得到的图像100a中的文本内容对应的目标框更加准确。换句话说，通过本申请所提供的方法，提高了针对图像中的文本内容位置的检测准确性。

请参见图3，是本申请提供的一种图像数据检测方法的流程示意图。图3对应的实施例中以检测模型作为执行主体为例对本申请进行说明，可以理解的是，终端设备或者服务器都可以搭建并调用该检测模型，以实现图3所描述的图像数据检测方法，即执行主体也可以是可以调用该检测模型的终端设备或者服务器。图3所描述的实施例中的执行主体根据实际应用场景决定，对此不作限制。如图3所示，该方法可以包括：

步骤S101，获取检测图像，从检测图像中获取包含目标对象的情景图像；

具体的，检测模型可以获取检测图像(即将检测图像输入检测模型)，并从该检测图像中获取包含目标对象的情景图像。其中，目标对象可以是需要进行检测的任意对象，例如，目标对象可以是文字、人脸、花朵或者小狗等。检测模型可以对检测图像进行前景背景分割，来获取包含目标对象的情景图像。检测模型为已经训练好的用于检测目标对象在检测图像中的位置的模型，检测模型的训练过程可以参见下述图6对应的实施例中的描述。可以将检测图像中的图像分为两种图像，一种是目标对象对应的图像，一种不是目标对象对应的图像(这种图像也可以称之为目标对象的背景图像)。由于检测图像中的背景图像对于检测检测图像中的目标对象而言为无用图像，因此检测模型可以通过前景背景分割的操作，将检测图像中的部分背景图像分割掉，得到情景图像，该情景图像的尺寸通常小于检测图像，该情景图像中包括检测图像中的目标对象。可以将情景图像理解为是从检测图像中截取下来的部分图像，情景图像可以是矩形形状的图像。

步骤S102，获取情景图像中的像素点对应的位置特征矩阵；

具体的，检测模型可以对上述得到的情景图像进行学习，得到情景图像对应的情景特征图(即feature map)，学习得到的情景特征图中包括情景图像中的每个像素点的像素点信息，某个像素点对应的像素点信息不仅包括该个像素点对应的信息，还包括该像素点与其周围的像素点之间的的关联信息。检测模型可以通过上述情景特征图预测得到情景图像中的每个像素点对应的初始预测区域，该初始预测区域是指检测模型针对情景图像中的每个像素点预测得到的目标对象在检测图像中的所在区域，该所在区域可以是矩形区域，即初始预测区域为矩形形状的区域，因此，也可以将初始预测区域理解为矩形框。情景图像中的一个像素点对应于一个初始预测区域。其中，上述情景图像中的每个像素点对应的初始预测区域是由检测模型通过情景特征图预测得到的位置特征矩阵所得到的。该位置特征矩阵中包括情景图像中的每个像素点针对目标对象的位置特征元素。

其中，上述位置特征矩阵包括水平位置特征矩阵和垂直位置特征矩阵，水平位置特征矩阵又包括左边缘距离矩阵和右边缘距离矩阵，垂直位置特征矩阵又包括上边缘距离矩阵和下边缘距离矩阵。该位置特征元素包括水平边缘距离元素和垂直边缘距离元素。上述水平位置特征矩阵中的位置特征元素为水平边缘距离元素，垂直位置特征矩阵中的位置特征元素为垂直边缘距离元素。其中，水平边缘距离元素又包括左边缘距离元素和右边缘距离元素，垂直边缘距离元素又包括上边缘距离元素和下边缘距离元素。上述左边缘距离矩阵中的位置特征元素为左边缘距离元素，右边缘距离矩阵中的位置特征元素为右边缘距离元素，上边缘距离矩阵中的位置特征元素为上边缘距离元素，下边缘距离矩阵中的位置特征元素为下边缘距离元素。其中，位置特征矩阵还包括角度特征矩阵，该角度特征矩阵中的位置特征元素为角度特征元素。情景图像中的一个像素点分别对应于一个上边缘距离元素、一个下边缘距离元素、一个左边缘距离元素、一个右边缘距离元素和一个角度特征元素。

上述左边缘距离矩阵是由检测模型根据情景特征图预测得到的情景图像中的每个像素点针对所对应的初始预测区域的左边缘的距离所构成的，即左边缘距离矩阵中的左边缘距离元素为预测得到的情景图像中的每个像素点分别距离其所对应的初始预测区域的左边缘的距离。右边缘距离矩阵是由检测模型根据情景特征图预测得到的情景图像中的每个像素点针对所对应的初始预测区域的右边缘的距离所构成的，即右边缘距离矩阵中的右边缘距离元素为预测得到的情景图像中的每个像素点分别距离其所对应的初始预测区域的右边缘的距离。上边缘距离矩阵是由检测模型根据情景特征图预测得到的情景图像中的每个像素点针对所对应的初始预测区域的上边缘的距离所构成的，即上边缘距离矩阵中的上边缘距离元素为预测得到的情景图像中的每个像素点分别距离其所对应的初始预测区域的上边缘的距离。下边缘距离矩阵是由检测模型根据情景特征图预测得到的情景图像中的每个像素点针对所对应的初始预测区域的下边缘的距离所构成的，即下边缘距离矩阵中的下边缘距离元素为预测得到的情景图像中的每个像素点分别距离其所对应的初始预测区域的下边缘的距离。角度特征矩阵是由检测模型根据情景特征图预测得到的情景图像中的每个像素点所对应的初始预测区域的区域角度(可以理解为是区域的倾斜角度，例如初始预测区域相较于水平方向上的倾斜角度，即初始预测区域的下边缘与水平方向之间的夹角)所构成的，即角度特征矩阵中的角度特征元素为预测得到的情景图像中的每个像素点分别对应的初始预测区域的区域角度。

通过上述位置特征矩阵(包括上边缘特征矩阵、下边缘特征矩阵、左边缘特征矩阵、右边缘特征矩阵以及角度特征矩阵)，即可得到情景图像中的每个像素点分别针对检测图像中的目标对象的初始预测区域。

步骤S103，根据情景图像中的目标对象的对象排版特征，生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵；

具体的，以目标对象为文字为例进行说明。检测模型可以根据情景图像中的目标对象的对象排版特征，生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵。具体为：实际上，上述情景图像的情景特征图可以是检测模型通过学***位置特征矩阵和垂直位置特征矩阵的加权矩阵，用于优化(也可以说成是修正或调整)水平位置特征矩阵和垂直位置特征矩阵中的位置特征元素的值域。该注意力机制矩阵包括水平注意力机制矩阵和垂直注意力机制矩阵。其中，水平注意力机制矩阵用于优化水平位置特征矩阵中的水平边缘距离元素，即水平注意力机制矩阵用于优化左边缘距离矩阵中的左边缘距离元素，以及优化右边缘距离矩阵中的右边缘距离元素。可以将水平注意力机制矩阵理解为是用于在水平方向上对情景图像中的每个像素点分别对应的初始预测区域的长进行拉伸。垂直注意力机制矩阵用于优化垂直位置特征矩阵中的垂直边缘距离元素，即垂直注意力机制矩阵用于优化上边缘距离矩阵中的上边缘距离元素，以及优化下边缘距离矩阵中的下边缘距离元素。可以将垂直注意力机制矩阵理解为是用于在垂直方向上对情景图像中的每个像素点分别对应的初始预测区域的宽进行拉伸。

实际上，可以通过检测模型所获取到的情景图像的情景特征图，同时生成上述位置特征矩阵和注意力机制矩阵。

步骤S104，根据位置特征矩阵中的位置特征元素和注意力机制矩阵，确定像素点对应的预测区域，将像素点对应的预测区域添加至预测区域集合；

具体的，检测模型可以根据位置特征矩阵中的位置特征元素和注意力机制矩阵，得到情景图像中的每个像素点分别对应的预测区域，实际上，该预测区域即是通过注意力机制矩阵对上述初始预测区域进行优化之后的区域。具体为：检测模型可以基于水平注意力机制矩阵对水平位置特征矩阵中的水平边缘距离元素进行加权运算，得到加权后的水平位置特征矩阵；基于垂直注意力机制矩阵对垂直位置特征矩阵中的垂直边缘距离元素进行加权运算，得到加权后的垂直位置特征矩阵；根据加权后的水平位置特征矩阵和加权后的垂直位置特征矩阵，确定像素点对应的预测区域：

通过注意力机制矩阵对位置特征矩阵进行加权，以得到加权后的位置特征矩阵的公式可以是下述公式(1)：

其中，A为位置特征矩阵，A的维度可以是L1*C，其中，L1表示位置特征矩阵的矩阵尺寸，例如，L1可以是10*10，C表示需要通过注意力机制矩阵进行优化的位置特征矩阵的个数，本申请中，C等于4，表明有4个位置特征矩阵需要通过注意力机制矩阵进行优化，该4个位置特征矩阵包括下述上边缘距离矩阵、下边缘距离矩阵、左边缘距离矩阵和右边缘距离矩阵。V为注意力机制矩阵，V的维度可以是T*L2，其中，T表示注意力机制矩阵的个数，本申请中，T等于2，表明有2个注意力机制矩阵，该2个注意力机制矩阵包括下述水平注意力机制矩阵和垂直注意力机制矩阵，L2表示注意力机制矩阵的矩阵尺寸，例如，L2可以是10*10。i表示位置特征矩阵和注意力机制矩阵中的元素的个数，位置特征矩阵和注意力机制矩阵中的元素的个数相同。使用注意力机制矩阵对位置特征矩阵进行加权运算的具体过程可以参见下面的描述。

其中，水平注意力机制矩阵与水平位置特征矩阵(包括左边缘距离矩阵和右边缘距离矩阵)的矩阵大小相同，例如，都为100*100，一个水平注意力机制矩阵中包括情景图像中的每个像素点分别对应的一个元素，一个水平位置特征矩阵中也包括情景图像中的每个像素点分别对应的一个元素，即水平注意力机制中的元素与水平位置特征矩阵中的元素一一对应(一一对应的两个元素对应于情景图像中的同一个像素点)。因此，可以将水平注意力机制矩阵中的每个元素分别与左边缘距离矩阵中对应位置处的元素相乘，得到加权后的左边缘距离矩阵。可以将水平注意力机制矩阵中的每个元素分别与右边缘距离矩阵中对应位置处的元素相乘，得到加权后的右边缘距离矩阵。可以将上述加权后的左边缘距离矩阵和加权后的右边缘距离矩阵称之为加权后的水平位置特征矩阵。

同理，垂直注意力机制矩阵与垂直位置特征矩阵(包括上边缘距离矩阵和下边缘距离矩阵)的矩阵大小相同，例如，都为100*100，一个垂直注意力机制矩阵中包括情景图像中的每个像素点分别对应的一个元素，一个垂直位置特征矩阵中也包括情景图像中的每个像素点分别对应的一个元素，即垂直注意力机制中的元素与垂直位置特征矩阵中的元素一一对应(一一对应的两个元素对应于情景图像中的同一个像素点)。因此，可以将垂直注意力机制矩阵中的每个元素分别与上边缘距离矩阵中对应位置处的元素相乘，得到加权后的上边缘距离矩阵。可以将垂直注意力机制矩阵中的每个元素分别与下边缘距离矩阵中对应位置处的元素相乘，得到加权后的下边缘距离矩阵。可以将上述加权后的上边缘距离矩阵和加权后的下边缘距离矩阵称之为加权后的垂直位置特征矩阵。

保持上述角度特征矩阵不变，即不调整角度特征矩阵中的角度特征元素。通过上述加权后的垂直位置特征矩阵(包括上述加权后的上边缘距离矩阵和加权后的下边缘距离矩阵)、加权后的水平位置特征矩阵(包括上述加权后的左边缘距离矩阵和加权后的右边缘距离矩阵)以及角度特征矩阵，即可得到情景图像中的每个像素点分别对应的预测区域。即可以通过上述加权后的上边缘距离矩阵得到情景图像中的某个像素点针对其所对应的预测区域的上边缘距离，通过上述加权后的下边缘距离矩阵得到该个像素点针对其所对应的预测区域的下边缘距离，通过上述加权后的左边缘距离矩阵得到该个像素点针对其所对应的预测区域的左边缘距离，通过上述加权后的右边缘距离矩阵得到该个像素点针对其所对应的预测区域的右边缘距离，通过上述角度特征矩阵得到该个像素点针对其所对应的预测区域的区域角度。通过该个像素点针对其所对应的预测区域的上边缘距离、下边缘距离、左边缘距离、右边缘距离和区域角度，即可确定该个像素点对应的预测区域。

通过注意力机制矩阵对位置特征矩阵中的各个位置特征元素进行加权运算(即优化调整)，可以得到情景图像对应的更准确的位置特征矩阵，即可以使得情景图像中的每个像素点对应在位置特征矩阵中的边缘距离(包括上述上边缘距离、下边缘距离、左边缘距离和右边缘距离)更加准确，进而可以通过调整之后的位置特征矩阵得到情景图像中的每个像素点对应的更准确的预测区域。其中，更准确的预测区域是指与情景图像中的目标对象所在区域的区域位置以及区域尺寸更接近的区域。

具体为：检测模型可以根据加权后的水平位置特征矩阵和加权后的垂直位置特征矩阵，确定像素点对应的预测区域的区域尺寸；根据角度特征矩阵和像素点在检测图像中的像素位置坐标，确定像素点对应的预测区域在检测图像中的区域位置；根据像素点对应的区域尺寸和区域位置，确定像素点对应的预测区域：

假设情景图像中包括像素点Q，此处以确定像素点Q的预测区域为例进行说明。通过上述加权后的上边缘距离矩阵可以知道像素点Q针对其所对应的预测区域的上边缘的距离，假设为top Q；通过加权后的下边缘距离矩阵可以知道像素点Q针对其所对应的预测区域的下边缘的距离，假设为bottom Q。因此，可以计算出像素点Q对应的预测区域的宽为topQ加上bottom Q，记像素点Q的宽为weight Q。通过上述加权后的左边缘距离矩阵可以知道像素点Q针对其所对应的预测区域的左边缘的距离，假设为left Q；通过加权后的右边缘距离矩阵可以知道像素点Q针对其所对应的预测区域的右边缘的距离，假设为right Q。因此，可以计算出像素点Q对应的预测区域的长为left Q加上right Q，记像素点Q的长为heightQ。因此可以得出像素点对应的预测区域(矩形区域)的区域尺寸为(长*宽)，即weight Q*height Q。由于上述top Q、bottom Q、left Q和right Q均是以像素点Q在检测图像中的坐标位置计算得到的，因此，通过像素点Q在检测图像中的像素点的像素位置坐标(即坐标位置)以及从角度特征矩阵中得知的像素点Q对应的预测区域的区域角度，即可确定像素点Q对应的预测区域在检测图像中的区域位置。可以理解的是，当确定了像素点Q对应的预测区域的区域尺寸以及区域位置，即可确定像素点Q对应的在检测图像中的具体预测区域。

情景图像中可以包括多个(两个及以上)像素点，得到情景图像中的每个像素点对应的预测区域的方式与上述得到像素点Q的预测区域的方式相同。可以将情景图像中的每个像素点分别对应的预测区域添加至预测区域集合，即预测区域集合中包括情景图像中的每个像素点分别对应的针对情景图像中的目标对象的预测区域。

请参见图4，是本申请提供的一种获取预测区域集合的场景示意图。如图4所示，像素点集合111c中包括情景图像中所有的像素点，具体包括：像素点z1、像素点z2、像素点z3、像素点z4、像素点z5、像素点z6、像素点z7、像素点8和像素点z9。矩阵100c为上边缘距离矩阵，矩阵100c中包括情景图像中的每个像素点分别针对其所对应的初始预测区域的上边缘距离，具体包括：像素点z1对应的上边缘距离m1，像素点z2对应的上边缘距离m2，像素点z3对应的上边缘距离m3，像素点z4对应的上边缘距离m4，像素点z5对应的上边缘距离m5，像素点z6对应的上边缘距离m6，像素点z7对应的上边缘距离m7，像素点z8对应的上边缘距离m8，像素点z9对应的上边缘距离m9。矩阵101c为下边缘距离矩阵，矩阵101c中包括情景图像中的每个像素点分别针对其所对应的初始预测区域的下边缘距离，具体包括：像素点z1对应的下边缘距离k1，像素点z2对应的下边缘距离k2，像素点z3对应的下边缘距离k3，像素点z4对应的下边缘距离k4，像素点z5对应的下边缘距离k5，像素点z6对应的下边缘距离k6，像素点z7对应的下边缘距离k7，像素点z8对应的下边缘距离k8，像素点z9对应的下边缘距离k9。矩阵103c为左边缘距离矩阵，矩阵103c中包括情景图像中的每个像素点分别针对其所对应的初始预测区域的左边缘距离，具体包括：像素点z1对应的左边缘距离s1，像素点z2对应的左边缘距离s2，像素点z3对应的左边缘距离s3，像素点z4对应的左边缘距离s4，像素点z5对应的左边缘距离s5，像素点z6对应的左边缘距离s6，像素点z7对应的左边缘距离s7，像素点z8对应的左边缘距离s8，像素点z9对应的左边缘距离s9。矩阵110c为角度特征矩阵，矩阵110c中包括情景图像中的每个像素点分别对应的初始预测区域的区域角度，具体包括：像素点z1对应的区域角度v1，像素点z2对应的区域角度v2，像素点z3对应的区域角度v3，像素点z4对应的区域角度v4，像素点z5对应的区域角度v5，像素点z6对应的区域角度v6，像素点z7对应的区域角度v7，像素点z8对应的区域角度v8，像素点z9对应的区域角度v9。矩阵104c为水平注意力机制矩阵，水平注意力机制矩阵中包括用于调整上述水平位置特征矩阵(包括上述矩阵100c和矩阵101c)的各个元素。具体包括：用于调整m1和n1的元素x1，用于调整m2和n2的元素x2，用于调整m3和n3的元素x3，用于调整m4和n4的元素x4，用于调整m5和n5的元素x5，用于调整m6和n6的元素x6，用于调整m7和n7的元素x7，用于调整m8和n8的元素x8，用于调整m9和n9的元素x9。

通过将矩阵104c中的每个元素与矩阵100c中对应位置处的元素相乘，可以得到加权后的上边缘距离矩阵106c，矩阵106c中包括调整后的情景图像中的每个像素点针对其所分别对应的预测区域的上边缘距离。具体包括：像素点z1对应的上边缘距离m1x1，像素点z2对应的上边缘距离m2x2，像素点z3对应的上边缘距离m3x3，像素点z4对应的上边缘距离m4x4，像素点z5对应的上边缘距离m5x5，像素点z6对应的上边缘距离m6x6，像素点z7对应的上边缘距离m7x7，像素点z8对应的上边缘距离m8x8，像素点z9对应的上边缘距离m9x9。通过将矩阵104c中的每个元素与矩阵101c中对应位置处的元素相乘，可以得到加权后的下边缘距离矩阵107c，矩阵107c中包括调整后的情景图像中的每个像素点针对其所分别对应的预测区域的下边缘距离。具体包括：像素点z1对应的下边缘距离n1x1，像素点z2对应的下边缘距离n2x2，像素点z3对应的下边缘距离n3x3，像素点z4对应的下边缘距离n4x4，像素点z5对应的下边缘距离n5x5，像素点z6对应的下边缘距离n6x6，像素点z7对应的下边缘距离n7x7，像素点z8对应的下边缘距离n8x8，像素点z9对应的下边缘距离n9x9。通过将矩阵105c中的每个元素与矩阵102c中对应位置处的元素相乘，可以得到加权后的左边缘距离矩阵108c，矩阵108c中包括调整后的情景图像中的每个像素点针对其所分别对应的预测区域的左边缘距离。具体包括：像素点z1对应的左边缘距离k1y1，像素点z2对应的左边缘距离k2y2，像素点z3对应的左边缘距离k3y3，像素点z4对应的左边缘距离k4y4，像素点z5对应的左边缘距离k5y5，像素点z6对应的左边缘距离k6y6，像素点z7对应的左边缘距离k7y7，像素点z8对应的左边缘距离k8y8，像素点z9对应的左边缘距离k9y9。通过将矩阵105c中的每个元素与矩阵103c中对应位置处的元素相乘，可以得到加权后的右边缘距离矩阵109c，矩阵109c中包括调整后的情景图像中的每个像素点针对其所分别对应的预测区域的右边缘距离。具体包括：像素点z1对应的右边缘距离s1y1，像素点z2对应的右边缘距离s2y2，像素点z3对应的右边缘距离s3y3，像素点z4对应的右边缘距离s4y4，像素点z5对应的右边缘距离s5y5，像素点z6对应的右边缘距离s6y6，像素点z7对应的右边缘距离s7y7，像素点z8对应的右边缘距离s8y8，像素点z9对应的右边缘距离s9y9。

通过上述矩阵106c、矩阵107c、矩阵108c、矩阵109c和矩阵110c，即可得到情景图像中的每个像素点(包括上述像素点z1、像素点z2、像素点z3、像素点z4、像素点z5、像素点z6、像素点z7、像素点8和像素点z9)分别对应的预测区域。可以将情景图像中的每个像素点分别对应的预测区域添加至预测区域集合112c中，预测区域集合112c中具体包括：像素点z1对应的预测区域1，像素点z2对应的预测区域2，像素点z3对应的预测区域3，像素点z4对应的预测区域4，像素点z5对应的预测区域5，像素点z6对应的预测区域6，像素点z7对应的预测区域7，像素点z8对应的预测区域8，像素点z9对应的预测区域9。以得到像素点z1的预测区域为例进行说明，需要说明的是，获取情景图像中的每个像素点对应的预测区域的过程相同且独立。如图4中的过程框113c所示，可以通过上述矩阵106c得到像素点z1针对其所对应的预测区域的上边缘距离top，即top等于m1x1。可以通过上述矩阵107c得到像素点z1针对其所对应的预测区域的下边缘距离bottom，即bottom等于n1x1。可以通过上述矩阵108c得到像素点z1针对其所对应的预测区域的左边缘距离left，即left等于k1y1。可以通过上述矩阵109c得到像素点z1针对其所对应的预测区域的右边缘距离right，即right等于s1y1。由此，可以得到像素点z1所对应的预测区域的区域尺寸114c，即像素点z1对应的预测区域的区域尺寸为(top+bottom)*(left+right)。通过矩阵110c可以得到像素点z1对应的区域角度θ，通过像素点z1在检测图像中的像素点位置坐标以及该区域角度θ即可确定像素点z1对应的预测区域在检测图像中的区域位置，通过像素点z1对应的预测区域的区域位置和区域尺寸，即可确定像素点z1在检测图像中的预测区域115c。可选的，可以先确定像素点z1在情景图像中的像素点位置坐标，再确定像素点z1对应的预测区域在情景图像中的具***置，进而可以通过情景图像在检测图像中的具***置，进一步得到像素点z1对应的预测区域在检测图像中的具***置。也可以直接通过像素点z1在检测图像中的像素点位置坐标，直接确定像素点z1对应的预测区域在检测图像中的具***置。

步骤S105，在预测区域集合中，选择与目标对象在检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域；

具体的，检测模型可以在上述预测区域集合中，选择与目标对象在检测图像中的对象位置以及对象尺寸相匹配的预测区域。图3对应的实施例中的检测模型也可以实现上述图2对应的实施例中服务器检测图像100a中的文本内容所在区域(即检测出图像100a中的文本内容对应的文本框/目标框)的过程，该文本框/目标框即是此处的目标区域。

从预测区域集合中选择目标区域的方式可以根据实际应用场景决定，对此不作限制。此处提供一种从预测区域集合中选择目标区域的方式但并不仅限于此种选择方式：即对预测区域集合中的预测区域进行过滤的方式，该过滤分为两步过滤。

第一步过滤：检测模型可以获取所述预测区域集合中的每个预测区域分别对应的置信度；所述置信度用于表征所对应的预测区域为所述目标区域的概率；将所述预测区域集合中所述置信度小于置信度阈值的预测区域，从所述预测区域集合中删除，得到第一过滤区域集合；从所述第一过滤区域集合中，获取所述目标区域：

在学习的过程中，检测模型还可以通过全连接层输出预测区域集合中的每个预测区域分别对应的置信度，该置信度用于表征预测区域集合中的每个预测区域为目标对象在检测图像中的实际位置区域的准确性。换句话说，该置信度表征了对应的预测区域在检测图像中的对象位置和对象尺寸与目标对象在检测图像中的对象位置和对象尺寸的匹配度。置信度的取值范围可以是0到1，置信度越大，对应的预测区域为目标区域的概率就越大，置信度越小，对应的预测区域为目标区域的概率就越小。检测模型可以将预测区域集合中置信度小于置信度阈值的预测区域，从预测区域集合中过滤掉，得到第一过滤区域集合。例如，置信度阈值可以是0.8，因此，可以将预测区域集合中置信度小于0.8的预测区域删除，得到上述第一过滤区域集合。接着，通过下述第二步过滤，即可从第一过滤区域集合中获取到目标区域。

第二步过滤：检测模型可以获取所述第一预测区域和所述第二预测区域在所述检测图像中的区域重合比例；当所述区域重合比例大于区域重合比例阈值，且所述第一预测区域对应的置信度大于所述第二预测区域对应的置信度时，将所述第二预测区域从所述第一过滤区域集合中删除，得到第二过滤区域集合；将所述第二过滤区域集合中的预测区域，均确定为所述目标区域：

由于获取到的情景图像中的每个像素点分别对应的预测区域在检测图像中极有可能会重合，因此，可以获取每两个预测区域之间的重合比例。假设预测区域集合中包括第一预测区域和第二预测区域，第一预测区域和第二预测区域可以是预测区域集合中的任意两个预测区域。此处，以第一预测区域和第二预测区域为例对第二步过滤的过程进行说明，需要进行说明的是，预测区域集合中任意两个预测区域之间的第二步过滤的方式相同。第二步过滤的方式可以为lms(一种过滤方式)的过滤方式，具体为：检测模型可以获取第一预测区域针对第二预测区域的区域重合比例，该区域重合比例可以是第一预测区域和第二预测区域重合区域部分的面积与第一预测区域的面积的比值。检测模型可以获取第二预测区域针对第一预测区域的区域重合比例，该区域重合比例可以是第一预测区域和第二预测区域重合区域部分的面积与第二预测区域的面积的比值。当第一预测区域对应的区域重合比例与第二预测区域对应的区域重合比例均大于重合比例阈值(例如为50％)，并且第一预测区域对应的置信度大于第二预测区域对应的置信度时，可以将第二预测区域从预测区域集合中删除，即将第二预测区域从预测区域集合中过滤掉。当通过与上述第一预测区域和第二预测区域针对第二步过滤同样的过滤方式，对预测区域集合中的任意两个预测区域集合均进行了过滤之后，可以得到上述第二过滤区域集合。可以将第二过滤区域集合中的每个预测区域，均作为目标对象对应的目标区域。当存在多个目标区域时，表明检测图像中(也可以说是情景图像中)存在多个文字组，每个文字组分别对应于一个目标区域。

请参见图5，是本申请提供的一种区域过滤的场景示意图。如图5所示，情景图像p中包括像素点1、像素点2、像素点3、……、以及像素点n，共n个像素点。预测区域集合100b中包括情景图像中的每个像素点分别对应的预测区域，具体包括：像素点1的预测区域为预测区域1，像素点1的预测区域为预测区域1，像素点2的预测区域为预测区域2，像素点,3的预测区域为预测区域3，……，像素点n的预测区域为预测区域n。检测模型可以获取到情景图像p中的每个像素点对应的预测区域的置信度，此处具体获取到了，预测区域1对应的置信度1，预测区域2对应的置信度2，预测区域3对应的置信度3，……，预测区域n对应的置信度n。对预测区域集合100b进行第一次过滤(即上述第一步过滤)得到第一过滤集合101b，集合101b中包括预测区域1、预测区域2和预测区域6，表明预测区域集合100b只有预测区域1、预测区域3和预测区域6对应的置信度大于置信度阈值。接着，当预测区域6与预测区域3在检测图像中的区域重合比例大于重合比例阈值，并且，预测区域6对应的置信度6小于预测区域3对应的置信度3时，则可以对第一过滤区域集合101b进行第二次过滤(即上述第二步过滤)得到第二过滤区域集合102b，即将预测区域6从第一过滤区域集合101b中删除，第二过滤区域集合102b中包括预测区域1和预测区域3。可以将第二区域集合102b中的预测区域1和预测区域3均作为目标对象对应的目标区域(该目标区域可以是矩形形状的矩形框)。

通过图5对应的实施例中对原始检测模型的训练过程，可以训练得到上述图3对应的实施例中的检测模型。图5对应的实施例中的情景图像、位置特征矩阵、注意力机制矩阵、预测区域集合以及目标区域都是通过训练图像所得到的，区分于上述图3对应的实施例中的情景图像、位置特征矩阵、注意力机制矩阵、预测区域集合以及目标区域都是通过检测图像所得到的，只是图3以及图5中某些数据获取以及处理过程是一致的。

请参见图6，是本申请提供的另一种图像数据检测方法的流程示意图，如图6所示，该方法可以包括：

步骤S201，原始检测模型获取训练图像，从训练图像中获取包含目标对象的情景图像；

具体的，原始检测模型可以是获取训练图像，该训练图像中包含目标对象(与上述图3对应的实施例中的目标对象相同)。原始检测模型可以通过前景背景分割从训练图像中获取包含目标对象的情景图像，原始检测模型获取训练图像对应的情景图像的过程与上述检测模型获取检测图像对应的情景图像的过程相同，请参见上述步骤S101，此处不再进行赘述。图5中的原始检测模型可以是专门训练用于检测图像中的文字的检测模型，因此，训练图像可以是ICDAR 2013(一种场景文字数据集)数据集的训练集中的部分或者全部图像，训练图像还可以是ICDAR 2015(一种场景文字数据集)数据集的训练集中的部分或者全部图像，训练图像可以包括若干个图像。可以采用改造的CAFFE(ConvolutionalArchitecture for Fast Feature Embedding，一个深度学习框架)复现的EAST(Efficientand Accuracy Scene Text，一种场景文本检测算法)作为原始检测模型的基础网络。还可以采用初始化自ResNet50(一种深度残差网络)在ImageNet(一个用于视觉对象识别软件研究的大型可视化数据库)上训练得到的模型作为原始检测模型中用于提取和学习情景图像中的图像特征以得到情景图像的情景特征图的网络。原始检测模型训练过程中可以使用Adam算法来优化原始检测模型的网络参数，其中，Adam优化算法能基于训练数据(即上述训练图像)迭代地更新原始检测模型的权重(该权重即是原始检测模型的模型参数)。

步骤S202，获取情景图像中的像素点对应的位置特征矩阵；

具体的，原始检测模型可以获取从训练图像中获取到的情景图像中的像素点对应的位置特征矩阵，该位置特征矩阵中包括情景图像中的每个像素点针对训练图像中的目标对象的位置特征元素。原始检测模型可以对情景图像中的每个像素点的像素点类型进行预测(即识别)，可以通过预测结果为情景图像中的每个像素点添加识别类型标签。

其中，像素点类型包括目标像素点类型和背景像素点类型，目标像素点类型的像素点指情景图像中目标对象所具有的像素点(例如目标对象为文本时，则情景图像中文本所包含的像素点的像素点类型即为目标像素点类型)。背景像素点类型的像素点指情景图像中不是目标对象所具有的像素点(例如目标对象为文本时，则情景图像中除文本所包含的像素点之外的像素点的像素点类型即为背景像素点类型)。上述识别类型标签包括目标类型标签和背景类型标签，可以为识别出来的情景图像中像素点类型为目标像素点类型的像素点添加目标类型标签，可以为识别出来的情景图像中像素点类型为背景像素点类型的像素点添加背景类型标签。可以将情景图像中每个像素点的像素点类型也作为生成情景图像的情景特征图的图像特征之一，通过原始检测模型对情景图像进行深度卷积运算，可以充分提取情景图像中的图像特征(可以包括目标对象在情景图像中的对象排版特征以及上述像素点类型的特征，其中，对象排版特征可以参见上述步骤S103)，得到情景图像对应的情景特征图。其中，原始检测模型获取训练图像中的情景图像对应的位置特征矩阵与上述步骤S102中检测模型获取检测图像中情景图像对应的位置特征矩阵的过程相同，此处不再进行赘述。其中，需要进行说明的是，只有在对原始检测模型的训练过程中，才会对识别情景图像中的像素点的像素点类型，而当对原始检测模型训练完成得到检测模型之后，在应用检测模型时，无需识别情景图像中的像素点的像素点类型。

步骤S203，根据情景图像中的目标对象的对象排版特征，生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵；

具体的，原始检测模型可以根据上述在步骤S202中学习得到的情景特征图(通过目标对象在情景图像中的对象排版特征学习得到)，生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵。原始检测模型生成注意力机制矩阵的过程与上述步骤S103中检测模型生成注意力机制矩阵的过程相同，此处不再进行赘述。

步骤S204，根据位置特征矩阵中的位置特征元素和注意力机制矩阵，确定像素点对应的预测区域，将像素点对应的预测区域添加至预测区域集合；

具体的，原始检测模型得到训练图像中获取到的情景图像中的每个像素点分别对应的预测区域的过程，与上述检测模型得到检测图像中获取到的情景图像中的每个像素点分别对应的预测区域的过程相同，请参见上述步骤S104，此处不再进行赘述。原始检测模型可以将情景图像中的每个像素点分别对应的预测区域添加至预测区域集合中。

步骤S205，从预测区域集合中，选择与目标对象在检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域；

具体的，原始检测模型从预测区域集合中选择目标区域的过程与上述步骤S105中检测模型从预测区域集合中选择目标区域的过程相同，此处不再进行赘述。实际上，在对原始检测模型训练的过程中，上述注意力机制矩阵也在不断更新。举个例子，上述训练图像中的目标对象为文字，如果训练图像中有些文字组的文字比较密集(即文字之间间隔小)，有可能预测出来的该个文字组的初始预测区域会遗漏该个文字组中的部分文字在初始预测区域外面，即该个文字组并没有全部落在所对应的初始预测区域中，则原始检测网络可以学习到此种文字组的特征，并知道该以何种尺度(由注意力机制矩阵决定)去调节该个初始预测区域的长宽，得到该个初始预测区域对应的预测区域，使得该个文字组落在对应的预测区域中。再举个例子，训练图像中有些文字组的文字比较稀(即文字之间间隔大)，有可能预测出来的初始预测区域会大于实际的文字组所在区域，那么初始预测区域中就有过多不包括文字的空白部分，则原始检测网络也可以学习到此种文字组的特征，并知道该以何种尺度(由注意力机制矩阵决定)去调节该个初始预测区域的长宽，得到该个初始预测区域对应的预测区域，使得该个文字组落在对应的预测区域中。换句话说，模型可以根据预测出来的文字组对应的初始预测区域的不准确(偏大或者偏小)去更新需要生成的注意力机制矩阵，进而可以通过这个注意力机制矩阵去调节初始预测区域的长宽，得到文字组对应的更准确的预测区域。

步骤S206，根据目标区域与在训练图像中所标记的目标对象的实际所在区域之间的区域差异，修正原始检测模型的模型参数，得到检测模型；

具体的，上述训练图像中还标记有目标对象在训练图像中的实际所在区域，该实际所在区域表征了目标对象在训练图像中真实的对象位置以及对象尺寸。该实际所在区域可以是矩形区域，因此，也可以将该实际所在区域称之为目标对象对应的实际矩形框。原始检测模型可以通过上述检测到的目标对象在训练图像中的目标区域与该目标对象在训练图像中的实际所在区域之间的区域差异(例如区域尺寸差异以及区域位置差异)，得到针对原始检测模型的第二损失函数。上述训练图像中的每个像素点还被标记有实际类型标签，该实际类型标签表征了训练图像中的每个像素点的像素点类型，该实际类型标签同样包括上述目标类型标签和背景类型标签。因此，可以理解的是，上述情景图像中的每个像素点也被标记有实际类型标签。原始检测模型可以根据识别出的情景图像中的每个像素点的识别类型标签与情景图像中的每个像素点的实际类型标签之间的标签差异(例如原本是目标像素点类型的像素点被标记了背景类型标签，或者原本是背景像素点类型的像素点被标记了目标类型标签)，得到针对原始检测模型的第一损失函数。可以将上述识别出的为目标像素点类型的像素点称之为目标点，将上述识别出的为背景像素点类型的像素点称之为背景点，因此，可以在情景图像中得到被识别出来的目标点所构成的连通区域(该连通区域即是情景图像中被添加有目标类型标签的像素点在检测图像中的图像区域)，该连通区域为矩形形状的区域，可以有多个连通区域，表明识别出了多个文字组，一个文字组中包括多个被添加有目标类型标签的像素点，一个文字组对应于一个连通区域。其中，连通区域是指该区域中的目标点之间相互连接，连通区域中的任意一个目标点与该连通区域中的其他目标点的最大距离不超过距离阈值。举个例子，该距离阈值可以是5，即5个像素点的距离(距离阈值的单位可以根据实际应用场景决定)，则表明连通区域中的任意一个目标点与该连通区域中距离其最近的那个目标点之间的像素点距离不大于5个像素点。当某个连通区域与该连通区域对应位置处的被标记有的目标对象的实际所在区域之间的区域重合度(可以是连通区域与实际所在区域的重合部分区域的面积与该实际所在区域的面积之间的比值)超过重合度阈值(该重合度阈值可以根据实际应用场景自行设置，对此不作限制)，则可以将此处的连通区域作为一个修正样本用于修正原始检测模型模型的模型参数，即原始检测模型可以根据该连通区域与该连通区域对应位置处的目标对象的实际所在区域之间的区域差异(例如区域位置差异和区域尺寸差异)，得到第三损失函数。例如，上述重合度阈值可以是50％，则用作修正样本的连通区域为预测误差小于50％的连通区域，因为该连通区域与对应的实际所在区域之间的重合度大于50％。当某个连通区域与对应位置处的目标对象的实际所在区域之间的重合度小于重合度阈值，则丢弃该个连通区域，不用作修正原始检测模型的样本。原始检测模型可以通过上述得到的第一损失函数、第二损失函数以及第三损失函数，修正原始检测模型的模型参数，当通过所有的训练图像对原始检测模型的模型参数修正完成时，可以得到检测模型，该检测模型即是通过所有的训练图像对原始检测模型的模型参数修正后的模型。可选的，也可以只通过上述第一损失函数和第二损失函数来修正原始检测模型的模型参数以得到检测模型，或者，也可以仅通过上述第二损失函数和第三损失函数修正原始检测模型的模型参数以得到检测模型。具体根据哪些损失函数来修正原始检测模型的模型参数根据实际应用场景决定。

请参见图7，是本申请提供的一种获取网络损失函数的场景示意图。如图7所示，首先，可以通过情景图像中的每个像素点对应的识别类型标签与实际类型标签之间标签差异，得到第一损失函数。接着，可以通过检测出来的目标区域与该目标区域对应的目标对象的实际所在区域之间的区域差异得到第二损失函数。然后，可以通过情景图像中的目标点所构成的连通区域与该连通区域所对应的目标对象的实际所在区域之间的区域差异得到第三损失函数值。最后，可以将上述第一损失函数、第二损失函数和第三损失函数进行加权求和，得到原始检测模型的损失函数(即网络损失函数)。

请参见图8，是本申请提供的一种获取第三损失函数的场景示意图。如图8所示，训练图像100e中包括文字组“一二三四”(为一个目标对象)和文字组“五六七”(为一个目标对象)。原始检测模型可以从训练图像100e中获取情景图像104e，接着，原始检测模型可以对情景图像104e中的像素点的像素点类型进行识别。如图8所示，原始图像中的可视像素点即是识别出来的目标点。原始检测模型可以获取到识别出来的目标点所构成的连通区域，此处获取到的连通区域包括区域105e(文字组“一二三四”对应的连通区域)和区域106e(文字组“五六七”对应的连通区域)。训练图像100e中还标记有文字组“一二三四”对应的实际所在区域107e，并标记有文字组“五六七”对应的实际所在区域108e。原始检测模型可以通过区域105e和区域107e之间的区域差异，以及区域106e和区域108e之间的区域差异，得到第三损失函数。

原始检测模型的损失函数可以是下述公式(2)：

L＝λ_east*L_east+λ_sem*R_sem (2)

R_sem＝λ_cls*L_cls+λ_rec*L_rec (3)

其中，上述R_sem为本申请提出的针对原始检测模型的正则项，该正则项实际上也是一个损失函数，该正则项是通过对情景图像进行局部语义分割(通过识别出情景图像中的像素点的像素点类型实现)而获取到的，通过该正则项可以使得原始检测模型学习到情景图像中的目标对象(例如文字)对应的语义以及形状，即识别出的情景图像中的目标点所对应的语义以及形状，这样会使得原始检测模型对所识别的目标对象的语义以及形状更加敏感。通过此种方式得到的检测模型，可以对栅栏以及商标等类似文字(该文字即是目标对象)的背景图像更加敏感，并更加容易区分图像中哪些图像是目标对象，哪些图像不是目标对象，因此，使得检测模型最终所检测到的目标对象的目标区域也更准确。公式(3)中的λ_cls和λ_rec为常数，一般可以取λ_cls等于1，λ_rec也等于1。公式(3)中的L_cls即为上述第三损失函数，L_rec即为上述第一损失函数。公式(2)中的λ_east和λ_sem也是常数，一般可以取λ_east等于1，λ_sem等于0.1。公式(2)中的L_east即为上述第二损失函数，L即是原始检测模型的损失函数，由上可知，L包括上述第一损失函数、第二损失函数和第三损失函数。实际上，通过设定原始检测模型的损失函数是为了训练原始检测模型可以更好更准确地学习得到情景图像对应的情景特征图，进而可以使得通过情景特征图得到的位置特征矩阵和注意力机制矩阵更加准确，以得到情景图像中每个像素点更准确的预测区域。

其中，当对原始检测模型训练完成，得到检测模型之后，可以通过ICDAR2015(包含了大量商品介绍的图像)中的测试集来测试检测模型的性能评估指标，并可以通过COCO数据集(一个大型图像数据集)来测试检测模型的泛化能力的评价指标。其中，COCO数据集为专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计的。由于上述训练过程中，未使用COCO数据集中的图像作为训练图像来训练原始检测模型，因此，通过COCO测试集可以很好地对检测模型的泛化能力进行测试。通过ICDAR 2015测试集和COCO测试集对下述模型进行测试，可以得到如下表1所示的测试结果：

表1

其中，IOU0.5和IOU0.75均为评判检测模型检测出的目标对象的目标区域是否准确的指标，IOU0.5和IOU0.75的值越高，表明检测出的目标对象的目标区域越准确。表中，对照模型为既未进行语义分割(即未对情景图像中的像素点的像素点类型进行识别)又未进行注意力机制加权(即未通过注意力机制对位置特征矩阵进行加权调整)而训练得到的检测模型，语义约束模型为采用了语义分割训练出来的检测模型，注意力机制模型为采用了注意力机制加权而训练得到的检测模型，全模型为既进行了语义分割又进行了注意力机制加权而训练得到的检测模型。从上述测试结果可以看出，对于对照模型而言，其IOU0.5和IOU0.75的值相较于语义约束模型、注意力机制模型和全模型都是最小的。而对于对于全模型而言，其IOU0.5和IOU0.75的值相较于对照模型、语义约束模型和注意力机制模型都是最大的，即对于单独采用语义分割或者注意力机制加权中任一项所得到的检测模型(即语义约束模型和注意力机制模型)，以及未采用语义分割和注意力机制加权所得到检测模型(即对照模型)而言，其所检测到的目标对象在所在图像中的目标区域，都没有采用了语义分割和注意力机制加权所得到检测模型(即全模型)所检测到的目标对象在所在图像中的目标区域准确。由上可知，通过采用本申请所提供的方法，可以得到更准确的检测模型，通过该检测模型，可以更加准确地对图像中的目标对象(例如文字)的所在区域进行检测。

请参见图9，是本申请提供的一种图像数据检测装置的结构示意图，可以执行上述图3对应的实施例中所描述的图像数据处理方法。如图9所示，该图像数据检测装置1可以包括：第一图像获取模块11、第一矩阵获取模块12、第一矩阵生成模块13、第一区域确定模块14和第一区域选择模块15；

第一图像获取模块11，用于获取检测图像，从检测图像中获取包含目标对象的情景图像；

第一矩阵获取模块12，用于获取情景图像中的像素点对应的位置特征矩阵；位置特征矩阵中包括像素点针对目标对象的位置特征元素；

第一矩阵生成模块13，用于根据情景图像中的目标对象的对象排版特征，生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵；

第一区域确定模块14，用于根据位置特征矩阵中的位置特征元素和注意力机制矩阵，确定像素点对应的预测区域，将像素点对应的预测区域添加至预测区域集合；

第一区域选择模块15，用于在预测区域集合中，选择与目标对象在检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域。

其中，第一图像获取模块11、第一矩阵获取模块12、第一矩阵生成模块13、第一区域确定模块14和第一区域选择模块15的具体功能实现方式请参见图3对应的实施例中的步骤S101-步骤S105，这里不再进行赘述。

其中，第一区域确定模块14，包括：第一加权单元141、第二加权单元142和区域确定单元143；

第一加权单元141，用于基于水平注意力机制矩阵对水平位置特征矩阵中的水平边缘距离元素进行加权运算，得到加权后的水平位置特征矩阵；

第二加权单元142，用于基于垂直注意力机制矩阵对垂直位置特征矩阵中的垂直边缘距离元素进行加权运算，得到加权后的垂直位置特征矩阵；

区域确定单元143，用于根据加权后的水平位置特征矩阵和加权后的垂直位置特征矩阵，确定像素点对应的预测区域。

其中，第一加权单元141、第二加权单元142和区域确定单元143的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，位置特征矩阵还包括角度特征矩阵；

区域确定单元143，包括：第一确定子单元1431、第二确定子单元1432和第三确定子单元1433；

第一确定子单元1431，用于根据加权后的水平位置特征矩阵和加权后的垂直位置特征矩阵，确定像素点对应的预测区域的区域尺寸；

第二确定子单元1432，用于根据角度特征矩阵和像素点在检测图像中的像素位置坐标，确定像素点对应的预测区域在检测图像中的区域位置；

第三确定子单元1433，用于根据像素点对应的区域尺寸和区域位置，确定像素点对应的预测区域。

其中，第一确定子单元1431、第二确定子单元1432和第三确定子单元1433的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，第一区域选择模块15，包括：置信度获取单元151、删除单元152和区域获取单元153；

置信度获取单元151，用于获取预测区域集合中的每个预测区域分别对应的置信度；置信度用于表征所对应的预测区域为目标区域的概率；

删除单元152，用于将预测区域集合中置信度小于置信度阈值的预测区域，从预测区域集合中删除，得到第一过滤区域集合；

区域获取单元153，用于从第一过滤区域集合中，获取目标区域。

其中，置信度获取单元151、删除单元152和区域获取单元153的具体功能实现方式请参见图3对应的实施例中的步骤S105，这里不再进行赘述。

区域获取单元153，包括：比例获取子单元1531、删除子单元1532和第四确定子单元1533；

比例获取子单元1531，用于获取第一预测区域和第二预测区域在检测图像中的区域重合比例；

删除子单元1532，用于当区域重合比例大于区域重合比例阈值，且第一预测区域对应的置信度大于第二预测区域对应的置信度时，将第二预测区域从第一过滤区域集合中删除，得到第二过滤区域集合；

第四确定子单元1533，用于将第二过滤区域集合中的预测区域，均确定为目标区域。

其中，比例获取子单元1531、删除子单元1532和第四确定子单元1533的具体功能实现方式请参见图3对应的实施例中的步骤S105，这里不再进行赘述。

请参见图10，是本申请提供的另一种图像数据检测装置的结构示意图，可以执行上述图6对应的实施例中所描述的图像数据检测方法。如图10所示，该图像数据检测装置2可以包括：第二图像获取模块21、第二矩阵获取模块22、第二矩阵生成模块23、第二区域确定模块24、第二区域选择模块25和修正模块26；

第二图像获取模块21，用于获取训练图像，从训练图像中获取包含目标对象的情景图像；

第二矩阵获取模块22，用于获取情景图像中的像素点对应的位置特征矩阵；位置特征矩阵中包括像素点针对目标对象的位置特征元素；

第二矩阵生成模块23，用于根据情景图像中的目标对象的对象排版特征，生成用于调整位置特征矩阵中的位置特征元素的注意力机制矩阵；

第二区域确定模块24，用于根据位置特征矩阵中的位置特征元素和注意力机制矩阵，确定像素点对应的预测区域，将像素点对应的预测区域添加至预测区域集合；

第二区域选择模块25，用于从预测区域集合中，选择与目标对象在检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域；

修正模块26，用于根据目标区域与在训练图像中所标记的目标对象的实际所在区域之间的区域差异，修正原始检测模型的模型参数，得到检测模型。

其中，第二图像获取模块21、第二矩阵获取模块22、第二矩阵生成模块23、第二区域确定模块24、第二区域选择模块25和修正模块26的具体功能实现方式请参见图6对应的实施例中的步骤S201-步骤S206，这里不再进行赘述。

其中，第二矩阵获取模块22，包括：类型识别单元221、特征图生成单元222和矩阵生成单元223；

类型识别单元221，用于识别情景图像中的像素点的像素点类型，根据识别结果为像素点添加识别类型标签；像素点类型包括目标像素点类型和背景像素点类型；目标像素点类型的像素点为情景图像中目标对象所具有的像素点；背景像素点类型的像素点为情景图像中除目标对象所具有的像素点之外的像素点；识别类型标签包括目标像素点类型对应的目标类型标签和背景像素点类型对应的背景类型标签；

特征图生成单元222，用于根据像素点所添加的识别类型标签，生成情景图像对应的情景特征图；

矩阵生成单元223，用于根据情景特征图，生成情景图像中的像素点对应的位置特征矩阵。

其中，类型识别单元221、特征图生成单元222和矩阵生成单元223的具体功能实现方式请参见图6对应的实施例中的步骤S202，这里不再进行赘述。

其中，特征图生成单元222，具体用于：

则，第二矩阵生成模块23，具体用于：

修正模块26，包括：第一损失单元261、第二损失单元262和第一修正单元263；

第一损失单元261，用于根据像素点对应的识别类型标签与实际类型标签之间的标签差异，确定第一损失函数；

第二损失单元262，用于根据目标区域与实际所在区域之间的区域差异，确定第二损失函数；

第一修正单元263，用于根据第一损失函数和第二损失函数，修正原始检测模型的模型参数，得到检测模型。

其中，第一损失单元261、第二损失单元262和第一修正单元263的具体功能实现方式请参见图6对应的实施例中的步骤S206，这里不再进行赘述。

其中，修正模块26，包括：第三损失单元264、图像区域获取单元265、第四损失单元266和第二修正单元267；

第三损失单元264，用于根据目标区域与实际所在区域之间的区域差异，确定第二损失函数；

图像区域获取单元265，用于获取情景图像中被添加有目标类型标签的像素点在检测图像中的图像区域；

第四损失单元266，用于根据图像区域和实际所在区域之间的区域差异，确定第三损失函数；

第二修正单元267，用于根据第二损失函数和第三损失函数，修正原始检测模型的模型参数，得到检测模型。

其中，第三损失单元264、图像区域获取单元265、第四损失单元266和第二修正单元267的具体功能实现方式请参见图6对应的实施例中的步骤S206，这里不再进行赘述。

请参见图11，是本申请提供的一种计算机设备的结构示意图。如图11所示，计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，图像数据检测装置1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在图11所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现前文图3和图6中任一个所对应实施例中对图像数据检测方法的描述。应当理解，本申请中所描述的图像数据检测装置1000也可执行前文图9所对应实施例中对图像数据检测装置1的描述，以及前文图10所对应实施例中对图像数据检测装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的图像数据检测装置1和图像数据检测装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3和图6中任一个所对应实施例中对图像数据检测方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖范围。

Claims

1.一种图像数据检测方法，其特征在于，包括：

获取检测图像，从所述检测图像中获取包含目标对象的情景图像；

获取所述情景图像中的像素点对应的位置特征矩阵；所述位置特征矩阵包括所述像素点针对所述目标对象的位置特征元素；

根据所述情景图像中的所述目标对象的对象排版特征，生成用于调整所述位置特征矩阵中的所述位置特征元素的注意力机制矩阵；

根据所述位置特征矩阵中的所述位置特征元素和所述注意力机制矩阵，确定所述像素点对应的预测区域，将所述像素点对应的预测区域添加至预测区域集合；

在所述预测区域集合中，选择与所述目标对象在所述检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域。

2.根据权利要求1所述的方法，其特征在于，所述位置特征矩阵包括水平位置特征矩阵和垂直位置特征矩阵；所述位置特征元素包括所述像素点针对所对应的目标对象的水平边缘距离元素和垂直边缘距离元素；所述水平位置特征矩阵中的位置特征元素为所述水平边缘距离元素；所述垂直位置特征矩阵中的位置特征元素为所述垂直边缘距离元素；所述注意力机制矩阵包括水平注意力机制矩阵和垂直注意力机制矩阵；所述水平注意力机制矩阵用于调整所述水平位置特征矩阵中的水平边缘距离元素；所述垂直注意力机制矩阵用于调整所述垂直位置特征矩阵中的垂直边缘距离元素。

3.根据权利要求2所述的方法，其特征在于，所述根据所述位置特征矩阵中的所述位置特征元素和所述注意力机制矩阵，确定所述像素点对应的预测区域，包括：

基于所述水平注意力机制矩阵对所述水平位置特征矩阵中的水平边缘距离元素进行加权运算，得到加权后的水平位置特征矩阵；

基于所述垂直注意力机制矩阵对所述垂直位置特征矩阵中的垂直边缘距离元素进行加权运算，得到加权后的垂直位置特征矩阵；

根据所述加权后的水平位置特征矩阵和所述加权后的垂直位置特征矩阵，确定所述像素点对应的预测区域。

4.根据权利要求3所述的方法，其特征在于，所述位置特征矩阵还包括角度特征矩阵；

所述根据所述加权后的水平位置特征矩阵和所述加权后的垂直位置特征矩阵，确定所述像素点对应的预测区域，包括：

根据所述加权后的水平位置特征矩阵和所述加权后的垂直位置特征矩阵，确定所述像素点对应的预测区域的区域尺寸；

根据所述角度特征矩阵和所述像素点在所述检测图像中的像素位置坐标，确定所述像素点对应的预测区域在所述检测图像中的区域位置；

根据所述像素点对应的所述区域尺寸和所述区域位置，确定所述像素点对应的预测区域。

5.根据权利要求1所述的方法，其特征在于，所述在所述预测区域集合中，选择与所述目标对象在所述检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域，包括：

获取所述预测区域集合中的每个预测区域分别对应的置信度；所述置信度用于表征所对应的预测区域为所述目标区域的概率；

将所述预测区域集合中所述置信度小于置信度阈值的预测区域，从所述预测区域集合中删除，得到第一过滤区域集合；

从所述第一过滤区域集合中，获取所述目标区域。

6.根据权利要求5所述的方法，其特征在于，所述第一过滤区域集合包括第一预测区域和第二预测区域；

所述从所述第一过滤区域集合中，获取所述目标区域，包括：

获取所述第一预测区域和所述第二预测区域在所述检测图像中的区域重合比例；

当所述区域重合比例大于区域重合比例阈值，且所述第一预测区域对应的置信度大于所述第二预测区域对应的置信度时，将所述第二预测区域从所述第一过滤区域集合中删除，得到第二过滤区域集合；

将所述第二过滤区域集合中的预测区域，均确定为所述目标区域。

7.一种图像数据检测方法，其特征在于，包括：

原始检测模型获取训练图像，从所述训练图像中获取包含目标对象的情景图像；

获取所述情景图像中的像素点对应的位置特征矩阵；所述位置特征矩阵中包括所述像素点针对所述目标对象的位置特征元素；

从所述预测区域集合中，选择与所述目标对象在所述检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域；

根据所述目标区域与在所述训练图像中所标记的所述目标对象的实际所在区域之间的区域差异，修正所述原始检测模型的模型参数，得到检测模型。

8.根据权利要求7所述的方法，其特征在于，所述获取所述情景图像中的像素点对应的位置特征矩阵，包括：

识别所述情景图像中的像素点的像素点类型，根据识别结果为所述像素点添加识别类型标签；所述像素点类型包括目标像素点类型和背景像素点类型；所述目标像素点类型的像素点为所述情景图像中所述目标对象所具有的像素点；所述背景像素点类型的像素点为所述情景图像中除所述目标对象所具有的像素点之外的像素点；所述识别类型标签包括所述目标像素点类型对应的目标类型标签和所述背景像素点类型对应的背景类型标签；

根据所述像素点所添加的识别类型标签，生成所述情景图像对应的情景特征图；

根据所述情景特征图，生成所述情景图像中的所述像素点对应的所述位置特征矩阵。

9.根据权利要求8所述的方法，其特征在于，所述根据所述像素点所添加的识别类型标签，生成所述情景图像对应的情景特征图，包括：

根据所述像素点所添加的识别类型标签和所述情景图像中的所述目标对象的所述对象排版特征，生成所述情景图像对应的所述情景特征图；

则，所述根据所述情景图像中的所述目标对象的对象排版特征，生成用于调整所述位置特征矩阵中的所述位置特征元素的注意力机制矩阵，包括：

根据所述情景特征图，生成用于调整所述位置特征元素的所述注意力机制矩阵。

10.根据权利要求8所述的方法，其特征在于，所述情景图像中的所述像素点还被标记有实际类型标签；所述实际类型标签包括所述目标类型标签和所述背景类型标签；

所述根据所述目标区域与在所述训练图像中所标记的所述目标对象的实际所在区域之间的区域差异，修正所述原始检测模型的模型参数，得到检测模型，包括：

根据所述像素点对应的所述识别类型标签与所述实际类型标签之间的标签差异，确定第一损失函数；

根据所述目标区域与所述实际所在区域之间的区域差异，确定第二损失函数；

根据所述第一损失函数和所述第二损失函数，修正所述原始检测模型的模型参数，得到所述检测模型。

11.根据权利要求8所述的方法，其特征在于，所述根据所述目标区域与在所述训练图像中所标记的所述目标对象的实际所在区域之间的区域差异，修正所述原始检测模型的模型参数，得到检测模型，包括：

获取所述情景图像中被添加有所述目标类型标签的像素点在所述检测图像中的图像区域；

根据所述图像区域和所述实际所在区域之间的区域差异，确定第三损失函数；

根据所述第二损失函数和所述第三损失函数，修正所述原始检测模型的模型参数，得到所述检测模型。

12.一种图像数据检测装置，其特征在于，包括：

第一图像获取模块，用于获取检测图像，从所述检测图像中获取包含目标对象的情景图像；

第一矩阵获取模块，用于获取所述情景图像中的像素点对应的位置特征矩阵；所述位置特征矩阵中包括所述像素点针对所述目标对象的位置特征元素；

第一矩阵生成模块，用于根据所述情景图像中的所述目标对象的对象排版特征，生成用于调整所述位置特征矩阵中的所述位置特征元素的注意力机制矩阵；

第一区域确定模块，用于根据所述位置特征矩阵中的所述位置特征元素和所述注意力机制矩阵，确定所述像素点对应的预测区域，将所述像素点对应的预测区域添加至预测区域集合；

第一区域选择模块，用于在所述预测区域集合中，选择与所述目标对象在所述检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域。

13.一种图像数据检测装置，其特征在于，包括：

第二图像获取模块，用于获取训练图像，从所述训练图像中获取包含目标对象的情景图像；

第二矩阵获取模块，用于获取所述情景图像中的像素点对应的位置特征矩阵；所述位置特征矩阵中包括所述像素点针对所述目标对象的位置特征元素；

第二矩阵生成模块，用于根据所述情景图像中的所述目标对象的对象排版特征，生成用于调整所述位置特征矩阵中的所述位置特征元素的注意力机制矩阵；

第二区域确定模块，用于根据所述位置特征矩阵中的所述位置特征元素和所述注意力机制矩阵，确定所述像素点对应的预测区域，将所述像素点对应的预测区域添加至预测区域集合；

第二区域选择模块，用于从所述预测区域集合中，选择与所述目标对象在所述检测图像中的对象位置和对象尺寸相匹配的预测区域，作为目标区域；

修正模块，用于根据所述目标区域与在所述训练图像中所标记的所述目标对象的实际所在区域之间的区域差异，修正原始检测模型的模型参数，得到检测模型。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-11中任一项所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-11任一项所述的方法。