CN115760986A - 基于神经网络模型的图像处理方法及装置 - Google Patents

基于神经网络模型的图像处理方法及装置 Download PDF

Info

Publication number
CN115760986A
CN115760986A CN202211513405.6A CN202211513405A CN115760986A CN 115760986 A CN115760986 A CN 115760986A CN 202211513405 A CN202211513405 A CN 202211513405A CN 115760986 A CN115760986 A CN 115760986A
Authority
CN
China
Prior art keywords
image
video data
neural network
target
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211513405.6A
Other languages
English (en)
Other versions
CN115760986B (zh
Inventor
秦云松
杨德志
杨俊�
周广东
邢小伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhonghua High Tech Environmental Management Co ltd
Original Assignee
Beijing Zhonghua High Tech Environmental Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhonghua High Tech Environmental Management Co ltd filed Critical Beijing Zhonghua High Tech Environmental Management Co ltd
Priority to CN202211513405.6A priority Critical patent/CN115760986B/zh
Publication of CN115760986A publication Critical patent/CN115760986A/zh
Application granted granted Critical
Publication of CN115760986B publication Critical patent/CN115760986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种基于神经网络模型的图像处理方法及装置,方法包括:获取包含目标对象的场景区域的双目视频数据,对双目视频数据中每组同步图像进行匹配生成深度图;根据当前时刻的同步图像中的目标对象对应的目标区域的边界和深度图确定目标对象的参考输入数据;利用目标神经网络模型分别提取参考输入数据和动态输入的新双目视频数据在不同尺度下的第一特征以及用于表征参考输入数据和新双目视频数据的同类数据相关性的第二特征,并利用第一特征和第二特征从新双目视频数据中确定目标对象所在的目标区域并进行处理。该方法将二维图像的外观特征和深度信息进行结合,克服了噪声敏感性和外观依赖性,实时性较高,鲁棒性强。

Description

基于神经网络模型的图像处理方法及装置
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种基于神经网络模型的图像处理方法及装置。
背景技术
工业互联通讯是工业领域优化生产效率的重要手段。近年来随着技术的进步,基于图像视频的可视化通讯方法逐渐兴起。随着社会的发展与网络技术的进步,可视化通讯的运用日益广泛,也逐渐推广到PC机、手机、边缘终端等设备载体上,发挥了越来越重要的作用。可视化通讯正在许多工业领域快速替代现场沟通,成为一种有效的协同工作手段。
可视化通讯具有传统语音视频不具备的优势,通过现场图像、视频的传递可以实现更为丰富的通讯功能和更为优秀的应用效果。然而在通讯信息更为丰富的同时,也带来了隐私方面的困扰。很多情况下,用户并不希望现场的所有信息都被传递给通讯的对方。一些基于背景识别的机器视觉方法,通过区分背景与前景来去除背景,保留前景,如人像等,这类方法通常假设背景是静止的,对于背景中包含运动目标时通常具备较强噪声敏感性。还有一些基于特定目标识别的方法,如人脸识别,识别特定类型目标并聚焦于该目标,这类方法对目标类型要求比较严格,通常只能识别出具有某种固定外观特征的目标,对工业复杂环境的适用性较弱。
发明内容
本发明提供一种基于神经网络模型的图像处理方法及装置,用以克服现有技术中存在的至少一个技术问题。
第一方面,本发明实施例提供了一种基于神经网络模型的图像处理方法,包括:
获取包含目标对象的场景区域的双目视频数据,对所述双目视频数据的每组同步图像进行匹配生成带有深度信息的深度图;
获取当前时刻所述目标对象在所述同步图像中对应的目标区域的边界,并根据所述边界确定所述目标对象在所述同步图像的第一图像中对应的多个第一像素点的第一坐标集合、在所述同步图像的第二图像中对应的多个第二像素点的第二坐标集合以及在所述深度图中对应的深度信息集合,其中,所述目标区域为一闭合区域;
根据所述第一坐标集合、所述第二坐标集合和所述深度信息集合确定所述目标对象的参考输入数据,所述参考输入数据用于描述所述目标对象在所述场景区域中的位置信息;
利用目标神经网络模型提取所述参考输入数据以及下一时刻的新双目视频数据在不同尺度下的第一特征以及用于表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征,并利用所述第一特征和所述第二特征从所述新双目视频数据中确定所述目标对象所在的目标区域并对所述目标区域进行处理,得到处理后的视频数据,其中,所述目标神经网络模型是利用训练样本输入预设原始神经网络进行训练得到的。
可选的,所述对所述目标区域进行处理,具体包括:
对所述目标区域进行隐藏、打码或模糊化处理。
可选的,所述目标神经网络模型的隐藏层包括至少三层;
所述隐藏层的第一层用于提取所述新双目视频数据和所述参考输入数据在第一尺度下的第一特征;
所述隐藏层的第二层用于提取所述新双目视频数据和所述参考输入数据在第二尺度下的第一特征;
所述隐藏层的第三层用于提取表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征。
可选的,所述目标神经网络模型的输出层用于对所述隐藏层的第三层进行卷积运算。
可选的,在对所述双目视频数据的每组同步图像进行匹配之前,还包括:去除每组同步图像的互不相交区域。
可选的,所述基于神经网络模型的图像处理方法还包括:对所述参考输入数据进行预处理,得到适于输入所述目标神经网络模型的模型数据。
可选的,通过双目同步相机拍摄所述场景区域得到所述双目视频数据,所述双目视频数据包括多组同步图像,所述双目同步相机包括第一相机和第二相机,每组同步图像包括同一时刻由所述第一相机拍摄的第一图像和由所述第二相机拍摄的第二图像,根据所述第一相机和所述第二相机的相对空间位置关系和像机的内部参数确定基本矩阵;通过所述基本矩阵对所述第一图像和所述第二图像中的像元作几何约束,作为图像匹配的约束条件。
可选的,所述基于神经网络模型的图像处理方法还包括:
获取训练图像,并对所述训练图像中的目标对象和目标对象所在的目标区域在训练图像中的位置进行标注,得到多个训练样本,其中所述训练图像是通过对双目同步相机拍摄场景区域得到的双目视频数据进行解码得到的,所述场景区域中包含目标对象所在的目标区域。
第二方面,本发明实施例提供了一种基于神经网络模型的图像处理装置,包括:
深度图生成模块,被配置为获取包含目标对象的场景区域的双目视频数据,对所述双目视频数据的每组同步图像进行匹配生成带有深度信息的深度图;
集合确定模块,被配置为获取当前时刻所述目标对象在所述同步图像中对应的目标区域的边界,并根据所述边界确定所述目标对象在所述同步图像的第一图像中对应的多个第一像素点的第一坐标集合、在所述同步图像的第二图像中对应的多个第二像素点的第二坐标集合以及在所述深度图中对应的深度信息集合,其中,所述目标区域为一闭合区域;
参考输入数据确定模块,被配置为根据所述第一坐标集合、所述第二坐标集合和所述深度信息集合确定所述目标对象的参考输入数据,所述参考输入数据用于描述所述目标对象在所述场景区域中的位置信息;
处理模块,被配置为利用目标神经网络模型提取所述参考输入数据以及下一时刻的新双目视频数据在不同尺度下的第一特征以及用于表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征,并利用所述第一特征和所述第二特征从所述新双目视频数据中确定所述目标对象所在的目标区域并对所述目标区域进行处理,得到处理后的视频数据,其中,所述目标神经网络模型是利用训练样本输入预设原始神经网络进行训练得到的。
可选的,所述处理模块具体被配置为对所述目标区域进行隐藏、打码或模糊化处理。
可选的,所述处理模块还被配置为将所述目标神经网络模型的隐藏层设置为至少包括三层;
所述隐藏层的第一层用于提取所述新双目视频数据和所述参考输入数据在第一尺度下的第一特征;
所述隐藏层的第二层用于提取所述新双目视频数据和所述参考输入数据在第二尺度下的第一特征;
所述隐藏层的第三层用于提取表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征。
可选的,所述目标神经网络模型的输出层用于对所述隐藏层的第三层进行卷积运算。
可选的,所述深度图生成模块还被配置为:在对所述双目视频数据的每组同步图像进行匹配之前去除每组同步图像的互不相交区域。
可选的,所述基于神经网络模型的图像处理装置还包括:预处理模块;
所述预处理模块被配置为对所述参考输入数据进行预处理,得到适于输入所述目标神经网络模型的模型数据。
可选的,所述深度图生成模块还被配置为:通过双目同步相机拍摄所述场景区域得到所述双目视频数据,所述双目视频数据包括多组同步图像,所述双目同步相机包括第一相机和第二相机,每组同步图像包括同一时刻由所述第一相机拍摄的第一图像和由所述第二相机拍摄的第二图像,根据所述第一相机和所述第二相机的相对空间位置关系和像机的内部参数确定基本矩阵;通过所述基本矩阵对所述第一图像和所述第二图像中的像元作几何约束,作为图像匹配的约束条件。
可选的,所述基于神经网络模型的图像处理装置还包括:训练模块;
所述训练模块被配置为获取训练图像,并对所述训练图像中的目标对象和目标对象所在的目标区域在训练图像中的位置进行标注,得到多个训练样本,其中所述训练图像是通过对双目同步相机拍摄场景区域得到的双目视频数据进行解码得到的,所述场景区域中包含目标对象所在的目标区域。
与现有技术相比,本发明的有益效果是:
本发明提供的一种基于神经网络模型的图像处理方法通过双目同步相机拍摄现场场景区域,对成对的同步图像进行匹配得到深度信息,利用深度信息和同步图像中的外观信息共同组成用于表征目标对象在场景区域中的位置信息的参考输入数据,并利用训练好的神经网络模型提取新双目视频数据和参考输入数据的至少三个维度的特征,并根据提取到的特征定位出需要处理的目标对象所在的目标区域并进行处理,该方法自动生成目标对象的参考输入数据并通过参考输入数据来确定下一时刻新双目视频数据中需要处理内容。
该方法将图像的二维图像的外观特征和深度信息进行结合,得到有利于全方位观察三维空间信息,对并利用该三位空间信息结合神经网络其进行至少三个维度的特征的提取分析,以准确定位出目标对象所在目标区域并针对该区域进行相关的隐私保护处理。该方法通过结合深度信息的多维特征提取,克服了噪声敏感和外观依赖,在摄像机采集现场环境视频的过程中能动态提取敏感区域部分,有效保护用户隐私该方法。
本发明实施例的创新点包括:
1、根据同步图像匹配获得带有深度信息的深度图,将二维图像的外观特征和深度信息进行结合,得到有利于全方位观察的三维空间信息,便于运动目标的跟踪和特征提取,以克服噪声敏感性和外观依赖性,是本发明的发明点之一。
2、首先在当前时刻的第一图像中标记出目标对象所在的目标区域的边界,接着确定目标对象在第一图像和第二图像中对应的坐标位置以及对应的深度信息,根据该坐标位置和深度信息共同确定用于表征目标对象在现实环境中的位置信息的参考输入数据,然后利用神经网络模型提取参考输入数据和后续动态输入的新双目视频数据在不同尺度下的第一特征,并进一步提取用于表征所述参考输入数据和所述动态输入数据的同类数据相关性的第二特征,结合第一特征和第二特征共同确定出要处理的目标区域并进行处理,实现了在摄像机采集现场环境视频的过程中动态提取敏感区域部分,有效保护用户隐私,并且实时性较高,鲁棒性强,是本发明的发明点之一。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例的基于神经网络模型的图像处理方法的流程示意图;
图2为本发明一个实施例的基于神经网络模型的图像处理装置的模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语 “包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书实施例公开了一种基于基于神经网络模型的图像处理方法及装置。以下分别进行详细说明。
图1为本发明一个实施例的基于神经网络模型的图像处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取包含目标对象的场景区域的双目视频数据,对双目视频数据的每组同步图像进行匹配生成带有深度信息的深度图;
一种实现方式中,通过双目同步相机拍摄场景区域得到的双目视频数据,所述场景区域中包含目标对象所在的目标区域,所述双目视频数据包括多组同步图像,每组同步图像包括同一时刻第一相机拍摄的第一图像和第二相机拍摄的第二图像,对所述第一图像和所述第二图像进行立体匹配,生成带有深度信息的深度图,其中,所述双目同步相机包括所述第一相机和所述第二相机。
具体的,作为一个示例,采用两台同步摄像机采集工业现场环境图像数据,处理后获得环境的深度数据。
采用两台可以同步工作拍摄图像的摄像机采集工业现场环境图像数据,设其中一台为主摄像机,另一台为从摄像机。两台摄像机的相对空间位置关系、内部参数经过标定。参见步骤S1.1至步骤S1.3,根据主摄像机与从摄像机的相对空间位置关系可解算环境图像中各部分的深度数据。
步骤S1.1,从主摄像机、从摄像机获得一对同步拍摄的图像,分别记为M和S,两台摄像机相对距离远小于拍摄范围,使两张图像中大部分内容相同或非常近似。两台摄像机的相对空间位置关系经过标定。
步骤S1.2,根据两台摄像机的相对空间位置关系和摄像机的内部参数可以获得两图像M、S之间的基本矩阵;摄像机的内部参数经过标定。通过基本矩阵对两图像M、S上的像元(pixel)作几何约束,作为图像匹配优化算法的约束条件。
步骤S1.3,根据图像匹配优化算法,以S1.2所述基本矩阵为约束条件,匹配两张图像M、S中的像元,使主摄像机图像M中的每个像元
Figure 526638DEST_PATH_IMAGE001
在从摄像机图像S中存在唯一的对应像元
Figure 115883DEST_PATH_IMAGE002
,其中,
Figure 630040DEST_PATH_IMAGE003
为主摄像机图像M中像元的位置坐标,
Figure 962933DEST_PATH_IMAGE004
为从摄像机图像S中与其对应的像元位置坐标。根据
Figure 449409DEST_PATH_IMAGE005
Figure 433325DEST_PATH_IMAGE006
,其在现实环境中对应于同一个三维坐标
Figure 575724DEST_PATH_IMAGE007
。根据两台摄像机的相对空间位置关系和摄像机的内部参数,以主摄像机为基准,可求解
Figure 118832DEST_PATH_IMAGE008
Figure 725394DEST_PATH_IMAGE009
为环境的广度,
Figure 653511DEST_PATH_IMAGE010
为环境的深度,组成的集合记为
Figure 345524DEST_PATH_IMAGE011
步骤S102,获取当前时刻所述目标对象在所述同步图像中对应的目标区域的边界,并根据所述边界确定所述目标对象在所述同步图像的第一图像中对应的多个第一像素点的第一坐标集合、在所述同步图像的第二图像中对应的多个第二像素点的第二坐标集合以及在所述深度图中对应的深度信息集合,其中,所述目标区域为一闭合区域;
一种实现方式中,将第一相机作为主摄像机,在主摄像机拍摄的第一图像中标记出一块完整的闭合区域,作为可以被通讯的对方通过摄像机观察到的活动区域;图像中除活动区域外的剩余部分即为敏感区域,敏感区域中包含目标对象,敏感区域中的视频影像不会被通讯对方看到。目标对象在同步图像中对应的目标区域的边界可以是用户预先标记或定义好的,具体的标记参见现有技术,这里不做限制。
具体的,结合上述示例在根据主摄像机与从摄像机的相对空间位置关系可解算环境图像中各部分的深度数据后,结合用户在主摄像机图像中标注的敏感区域,确定工业场景环境中敏感区域。
用户在主摄像机图像中标记出一块完整的闭合区域,作为可以被通讯的对方通过摄像机观察到的活动区域;图像中除活动区域外的剩余部分即为敏感区域,敏感区域中的视频影像不会被通讯对方观察到。
主摄像机图像M中活动区域A是M的一个真子集:
Figure 551377DEST_PATH_IMAGE012
则敏感区域E是M的一个真子集,且:
Figure 838877DEST_PATH_IMAGE013
其中,
Figure 95152DEST_PATH_IMAGE014
表示空集。
Figure 274461DEST_PATH_IMAGE015
中所有像元在从摄像机图像S中的对应像元组成集合
Figure 221688DEST_PATH_IMAGE016
Figure 881471DEST_PATH_IMAGE017
中所有像元在从摄像机图像S中但不在集合
Figure 230019DEST_PATH_IMAGE018
中的对应像元组成集合
Figure 771990DEST_PATH_IMAGE019
,并且:
Figure 257329DEST_PATH_IMAGE020
Figure 692990DEST_PATH_IMAGE021
中所有像元映射到三维现实环境中的深度组成集合
Figure 199057DEST_PATH_IMAGE022
Figure 84449DEST_PATH_IMAGE023
中所有像元映射到三维现实环境中的深度组成集合
Figure 639059DEST_PATH_IMAGE024
至此,获得主摄像机图像M中活动区域A,及其在从摄像机图像中对应的区域集合
Figure 866909DEST_PATH_IMAGE025
、在三维现实环境中对应的深度集合
Figure 481561DEST_PATH_IMAGE026
;获得主摄像机图像M中敏感区域E,及其在从摄像机图像中对应的区域集合
Figure 60441DEST_PATH_IMAGE027
、在三维现实环境中对应的深度集合
Figure 215479DEST_PATH_IMAGE024
本发明首先根据同步图像匹配获得带有深度信息的深度图,将二维图像的外观特征和深度信息进行结合,得到有利于全方位观察三维空间信息,更有利于全方位目标对象,便于运动目标的跟踪和特征提取,以克服噪声敏感性和外观依赖性,是本发明的发明点之一。
步骤S103,根据所述第一坐标集合、所述第二坐标集合和所述深度信息集合确定所述目标对象的参考输入数据,所述参考输入数据用于描述所述目标对象在所述场景区域中的位置信息;
一种实现方式中,将所述第一坐标集合、所述第二坐标集合和所述深度信息共同作为所述目标对象的参考输入数据。
为了提高数据处理效率,一种实现方式中,对所述参考输入数据进行预处理,得到适于输入所述目标神经网络模型的模型数据。
具体的,结合上述所有示例,以获得的活动区域及其对应集合为参考,在摄像机采集现场环境视频的过程中动态提取敏感区域部分,以保护用户隐私。
Figure 793441DEST_PATH_IMAGE028
表示主摄像机采集到图像中的一个像元,定义:
Figure 798568DEST_PATH_IMAGE029
其中,
Figure 104826DEST_PATH_IMAGE030
表示
Figure 266817DEST_PATH_IMAGE031
中的四条直线,围成的矩形区域是活动区域A的外切矩形,记为B。通过边界获得的活动区域是不规则的,通过求取外切矩形使其规则化,以便神经网络模型处理。
相应的,对于
Figure 669592DEST_PATH_IMAGE032
中的所有像元,在从摄像机图像S中存在唯一的对应像元,这些像元组成的集合称为集合
Figure 688364DEST_PATH_IMAGE033
;对应到三维现实环境中的深度组成集合记为
Figure 38574DEST_PATH_IMAGE034
为了去除噪点,一种实现方式中,在对所述双目视频数据的每组同步图像进行匹配之前,还包括:去除每组同步图像的互不相交区域,具体的:
定义与B相对应的矩形集合C,C的每一个元素
Figure 4256DEST_PATH_IMAGE035
与B中同样位置的一个像元
Figure 123521DEST_PATH_IMAGE036
对应;类似的,定义与B相对应的矩形集合D,D的每一个元素
Figure 719719DEST_PATH_IMAGE037
与B中同样位置的一个像元b对应,且与
Figure 291646DEST_PATH_IMAGE038
中的某一个像元
Figure 261351DEST_PATH_IMAGE039
对应。
C的元素c取值为0或1,并且:
Figure 766282DEST_PATH_IMAGE040
D的元素d取值为0或1,并且:
Figure 64539DEST_PATH_IMAGE041
集合
Figure 327024DEST_PATH_IMAGE042
为与B相对应的矩形集合,每一个元素
Figure 165667DEST_PATH_IMAGE043
与B中同样位置的一个像元b对应,
Figure 728367DEST_PATH_IMAGE044
为一深度值。
以上
Figure 994263DEST_PATH_IMAGE045
均表示对应于矩形B中的坐标。
将上述获得的B、
Figure 337520DEST_PATH_IMAGE046
、C、D、
Figure 979854DEST_PATH_IMAGE034
作为参考输入数据。
步骤S104,利用目标神经网络模型提取所述参考输入数据以及下一时刻的新双目视频数据在不同尺度下的第一特征以及用于表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征,并利用所述第一特征和所述第二特征从所述新双目视频数据中确定所述目标对象所在的目标区域并对所述目标区域进行处理,得到处理后的视频数据,其中,所述目标神经网络模型是利用训练样本输入预设原始神经网络进行训练得到的。
一种实现方式中,所述对所述目标区域进行处理,具体包括:
对所述目标区域进行隐藏、打码或模糊化处理。
一种实现方式中,所述目标神经网络模型的隐藏层包括至少三层;
所述隐藏层的第一层用于提取所述新双目视频数据和所述参考输入数据在第一尺度下的第一特征;
所述隐藏层的第二层用于提取所述新双目视频数据和所述参考输入数据在第二尺度下的第一特征;
所述隐藏层的第三层用于提取表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征。
一种实现方式中,所述目标神经网络模型的输出层用于对所述隐藏层的第三层进行卷积运算。
结合上述示例,在确定参考输入数据后,摄像机进入动态采集视频阶段,获取下一时刻的新双目视频数据,新双目视频数据包括多组新的同步图像,每一组新的同步图像中的新的第一图像和新的第二图像,同样的,对于新获取到的同步图像首先生成对应的深度图,然后将动态采集阶段从主、从摄像机获得的图像和计算的深度集合分别记为
Figure 296260DEST_PATH_IMAGE047
,作为动态输入数据,根据参考输入数据获得动态输入数据中需要隐去的内容,将参考输入数据、动态输入数据作为神经网络模型的输入建立模型。
一种实现方式中,模型的隐藏层为从输入到输出的一组逻辑、算术关系,定义如下。
隐藏层的第一层包括:
Figure 405161DEST_PATH_IMAGE048
其中,
Figure 438977DEST_PATH_IMAGE049
Figure 25947DEST_PATH_IMAGE050
Figure 294730DEST_PATH_IMAGE051
表示7*7的卷积核函数,共有12个核函数,12个核函数每三个为一组,分别对应于B、
Figure 105691DEST_PATH_IMAGE046
Figure 830064DEST_PATH_IMAGE052
Figure 17463DEST_PATH_IMAGE053
是卷积核内的相对坐标;
Figure 737158DEST_PATH_IMAGE054
表示自然指数函数;
Figure 515758DEST_PATH_IMAGE055
是线性偏置参数;
Figure 258586DEST_PATH_IMAGE056
为一非线性激励函数,定义如下:
Figure 984096DEST_PATH_IMAGE057
参数
Figure 797830DEST_PATH_IMAGE058
为速率控制系数,用于控制非线性函数输出值随输入值的变化速度,优选
Figure 12910DEST_PATH_IMAGE059
=0.3。
Figure 774193DEST_PATH_IMAGE060
表示反正切三角函数。该函数
Figure 303394DEST_PATH_IMAGE061
的作用是使模型能够对非线性映射进行建模,使模型更加精确。
隐藏层的第一层还包括:
Figure 466522DEST_PATH_IMAGE062
同样,
Figure 524608DEST_PATH_IMAGE063
Figure 304345DEST_PATH_IMAGE064
,12个核函数每三个为一组,分别对应于
Figure 168396DEST_PATH_IMAGE065
Figure 389293DEST_PATH_IMAGE066
是表示
Figure 946176DEST_PATH_IMAGE067
中的坐标。
根据公式7和公式9,神经网络模型隐藏层第一层包括12个与B同样大小的矩阵、及12个与
Figure 944701DEST_PATH_IMAGE068
同大小的矩阵,共24个矩阵。
隐藏层的第二层为对第一层的进一步计算:
Figure 612442DEST_PATH_IMAGE069
其中,
Figure 687846DEST_PATH_IMAGE070
Figure 681210DEST_PATH_IMAGE071
Figure 107643DEST_PATH_IMAGE072
表示13*13的卷积核函数,共有12个核函数,
Figure 579076DEST_PATH_IMAGE073
是卷积核内的相对坐标;
Figure 571302DEST_PATH_IMAGE074
是线性偏置参数;
Figure 469988DEST_PATH_IMAGE075
定义同式8.
通过设置不同尺寸的卷积核函数,第二层与第一层分别捕捉不同尺度下的视频数据特征,以更好的适应多场景与场景变化。
隐藏层的第三层为对第二层的进一步计算:
Figure 118138DEST_PATH_IMAGE076
其中,
Figure 127683DEST_PATH_IMAGE077
Figure 239995DEST_PATH_IMAGE078
为线性系数,
Figure 309582DEST_PATH_IMAGE079
是线性偏置参数;
Figure 507345DEST_PATH_IMAGE080
定义同式8.
隐藏层第三层包括两个矩阵
Figure 52072DEST_PATH_IMAGE081
Figure 222153DEST_PATH_IMAGE082
;矩阵
Figure 197062DEST_PATH_IMAGE083
由第二层的前12个矩阵经过线性系数
Figure 147701DEST_PATH_IMAGE084
映射而来,矩阵
Figure 499048DEST_PATH_IMAGE085
由第二层的后12个矩阵经过线性系数
Figure 320373DEST_PATH_IMAGE086
映射而来,分别对应于参考输入数据和动态输入数据。线性系数
Figure 935025DEST_PATH_IMAGE087
捕捉了同类数据内部的相关关系。
隐藏层的输出层为第三层的进一步推演:
Figure 841801DEST_PATH_IMAGE088
其中,
Figure 996839DEST_PATH_IMAGE089
表示相关性卷积运算;第三层的两个矩阵大小不相等,且
Figure 938250DEST_PATH_IMAGE090
的大小更大,因此输出层
Figure 254962DEST_PATH_IMAGE091
是与两个矩阵大小相关的一个新矩阵;其含义是在
Figure 852297DEST_PATH_IMAGE082
中每个相同大小的子矩阵与
Figure 545446DEST_PATH_IMAGE092
的相关性。
由于
Figure 604014DEST_PATH_IMAGE093
对应于用户标注的活动区域,把
Figure 357206DEST_PATH_IMAGE094
对应于动态捕捉到的现场环境,因此输出层
Figure 238574DEST_PATH_IMAGE095
反映了现场环境中每个位置对应于用户标注活动区域的可能性。相对的,其余区域就是敏感区域。
利用上述模型可以动态对视频场景中的敏感区域进行标记,并相应在传输时隐去,保护用户隐私。
本发明首先在当前时刻的第一图像中标记出目标对象所在的目标区域的边界,接着确定目标对象在第一图像和第二图像中对应的坐标位置以及对应的深度信息,根据该坐标位置和深度信息共同确定用于表征目标对象在现实环境中的位置信息的参考输入数据,然后利用神经网络模型提取参考输入数据和后续动态输入的新双目视频数据不同尺度下的第一特征,并进一步提取用于表征所述参考输入数据和新双目视频数据的相关性的第二特征,结合第一特征和第二特征共同确定出要处理的目标子区域并进行处理,实现了在摄像机采集现场环境视频的过程中动态提取敏感区域部分,有效保护用户隐私,并且实时性较高,鲁棒性强,是本发明的发明点之一。
一种实现方式中,所述基于神经网络模型的图像处理方法还包括:
获取训练图像,并对所述训练图像中的目标对象和目标对象所在的目标区域在训练图像中的位置进行标注,得到多个训练样本,其中所述训练图像是通过对双目同步相机拍摄场景区域得到的双目视频数据进行解码得到的,所述场景区域中包含目标对象所在的目标区域。
结合上述示例所描述的,使用模型前需进行训练,每组训练样本包括一张活动区域参考图像,一张动态拍摄的环境图像,及参考图像在环境图像中的相对位置;在样本真值
Figure 673098DEST_PATH_IMAGE096
相对位置处标记为1,其余位置标记为0,根据式(7)至式(12)可以计算训练样本的输出值,与样本真值根据下面代价函数作比较:
Figure 323522DEST_PATH_IMAGE097
代价函数用于使模型输出值与样本真值的差异最小化,从而训练获得模型参数。Log表示自然对数函数,可以防止优化过程陷入局部极值。
图2为本发明一个实施例的一种基于神经网络模型的图像处理装置的模块图。如图2所示,基于神经网络模型的图像处理装置200包括:
深度图生成模块210,被配置为获取包含目标对象的场景区域的双目视频数据,对所述双目视频数据的每组同步图像进行匹配生成带有深度信息的深度图;
集合确定模块220,被配置为获取当前时刻所述目标对象在所述同步图像中对应的目标区域的边界,并根据所述边界确定所述目标对象在所述同步图像的第一图像中对应的多个第一像素点的第一坐标集合、在所述同步图像的第二图像中对应的多个第二像素点的第二坐标集合以及在所述深度图中对应的深度信息集合,其中,所述目标区域为一闭合区域;
参考输入数据确定模块230,被配置为根据所述第一坐标集合、所述第二坐标集合和所述深度信息集合确定所述目标对象的参考输入数据,所述参考输入数据用于描述所述目标对象在所述场景区域中的位置信息;
处理模块240,被配置为利用目标神经网络模型提取所述参考输入数据以及下一时刻的新双目视频数据在不同尺度下的第一特征以及用于表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征,并利用所述第一特征和所述第二特征从所述新双目视频数据中确定所述目标对象所在的目标区域并对所述目标区域进行处理,得到处理后的视频数据,其中,所述目标神经网络模型是利用训练样本输入预设原始神经网络进行训练得到的。
一种实现方式中,所述处理模块具体被配置为对所述目标区域进行隐藏、打码或模糊化处理。
一种实现方式中,所述处理模块还被配置为将所述目标神经网络模型的隐藏层设置为至少包括三层;
所述隐藏层的第一层用于提取所述新双目视频数据和所述参考输入数据在第一尺度下的第一特征;
所述隐藏层的第二层用于提取所述新双目视频数据和所述参考输入数据在第二尺度下的第一特征;
所述隐藏层的第三层用于提取表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征。
一种实现方式中,所述目标神经网络模型的输出层用于对所述隐藏层的第三层进行卷积运算。
一种实现方式中,所述深度图生成模块还被配置为:在对所述双目视频数据的每组同步图像进行匹配之前去除每组同步图像的互不相交区域。
一种实现方式中,所述基于神经网络模型的图像处理装置还包括:预处理模块;
所述预处理模块被配置为对所述参考输入数据进行预处理,得到适于输入所述目标神经网络模型的模型数据。
一种实现方式中,所述深度图生成模块还被配置为:通过双目同步相机拍摄所述场景区域得到所述双目视频数据,所述双目视频数据包括多组同步图像,所述双目同步相机包括第一相机和第二相机,每组同步图像包括同一时刻由所述第一相机拍摄的第一图像和由所述第二相机拍摄的第二图像,根据所述第一相机和所述第二相机的相对空间位置关系和像机的内部参数确定基本矩阵;通过所述基本矩阵对所述第一图像和所述第二图像中的像元作几何约束,作为图像匹配的约束条件。
一种实现方式中,所述基于神经网络模型的图像处理装置还包括:训练模块;
所述训练模块被配置为获取训练图像,并对所述训练图像中的目标对象和目标对象所在的目标区域在训练图像中的位置进行标注,得到多个训练样本,其中所述训练图像是通过对双目同步相机拍摄场景区域得到的双目视频数据进行解码得到的,所述场景区域中包含目标对象所在的目标区域。
本发明提供的一种基于神经网络模型的图像处理装置,首先利用双目相机拍摄场景区域获得场景区域的二维图像和深度图像,然后根据二维图像中目标对象所处的位置,结合深度图像,将二维图像中的不可显示区域(或可显示区域)映射到场景区域的三维真实世界中,以实现不可显示的隐私区域的自适应定位,分割图像;最后对分割后的图像进行深度特征学习,确定目标对象所在目标区域的特征,并将该特征作为参考输入数据,利用目标神经网络模块对下一时刻新的双目视频数据进行目标对象的隐私处理。通过对大量的样本进行测试,本发明的隐私区域(即目标区域)的漏检率比传统相关绿波法和统计学习法都低, 可以较好的隐藏现场隐私信息,在通讯过程中保护客户隐私。
本发明提供的一种基于神经网络模型的图像处理装置利用摄像头捕捉工业现场环境的外观信息和深度信息,克服经典方法对背景噪声的敏感性和对目标外观特征的依赖性,适用于工业环境的多种应用场景,可以根据用户需求去除用户不希望暴露的环境信息,提高可视化工业互联通讯的私密性,保护客户信息安全。
本发明提供的一种基于神经网络模型的图像处理装置采用两台同步摄像机采集工业现场环境图像数据,处理后获得环境的深度数据;利用深度数据可以克服经典方法对背景噪声的敏感性和对目标外观特征的依赖性。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种基于神经网络模型的图像处理方法,其特征在于,包括:
获取包含目标对象的场景区域的双目视频数据,对所述双目视频数据的每组同步图像进行匹配生成带有深度信息的深度图;
获取当前时刻所述目标对象在所述同步图像中对应的目标区域的边界,并根据所述边界确定所述目标对象在所述同步图像的第一图像中对应的多个第一像素点的第一坐标集合、在所述同步图像的第二图像中对应的多个第二像素点的第二坐标集合以及在所述深度图中对应的深度信息集合,其中,所述目标区域为一闭合区域;
根据所述第一坐标集合、所述第二坐标集合和所述深度信息集合确定所述目标对象的参考输入数据,所述参考输入数据用于描述所述目标对象在所述场景区域中的位置信息;
利用目标神经网络模型提取所述参考输入数据以及下一时刻的新双目视频数据在不同尺度下的第一特征以及用于表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征,并利用所述第一特征和所述第二特征从所述新双目视频数据中确定所述目标对象所在的目标区域并对所述目标区域进行处理,得到处理后的视频数据,其中,所述目标神经网络模型是利用训练样本输入预设原始神经网络进行训练得到的。
2.根据权利要求1所述的基于神经网络模型的图像处理方法,其特征在于,所述对所述目标区域进行处理,具体包括:
对所述目标区域进行隐藏、打码或模糊化处理。
3.根据权利要求1所述的基于神经网络模型的图像处理方法,其特征在于,所述目标神经网络模型的隐藏层包括至少三层;
所述隐藏层的第一层用于提取所述新双目视频数据和所述参考输入数据在第一尺度下的第一特征;
所述隐藏层的第二层用于提取所述新双目视频数据和所述参考输入数据在第二尺度下的第一特征;
所述隐藏层的第三层用于提取表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征。
4.根据权利要求3所述的基于神经网络模型的图像处理方法,其特征在于,所述目标神经网络模型的输出层用于对所述隐藏层的第三层进行卷积运算。
5.根据权利要求1所述的基于神经网络模型的图像处理方法,其特征在于,在对所述双目视频数据的每组同步图像进行匹配之前,还包括:去除每组同步图像的互不相交区域。
6.根据权利要求1所述的基于神经网络模型的图像处理方法,其特征在于,还包括:对所述参考输入数据进行预处理,得到适于输入所述目标神经网络模型的模型数据。
7.根据权利要求1所述的基于神经网络模型的图像处理方法,其特征在于, 包括:通过双目同步相机拍摄所述场景区域得到所述双目视频数据,所述双目视频数据包括多组同步图像,所述双目同步相机包括第一相机和第二相机,每组同步图像包括同一时刻由所述第一相机拍摄的第一图像和由所述第二相机拍摄的第二图像,根据所述第一相机和所述第二相机的相对空间位置关系和像机的内部参数确定基本矩阵;通过所述基本矩阵对所述第一图像和所述第二图像中的像元作几何约束,作为图像匹配的约束条件。
8.根据权利要求1所述的基于神经网络模型的图像处理方法,其特征在于,还包括:
获取训练图像,并对所述训练图像中的目标对象和目标对象所在的目标区域在训练图像中的位置进行标注,得到多个训练样本,其中所述训练图像是通过对双目同步相机拍摄场景区域得到的双目视频数据进行解码得到的,所述场景区域中包含目标对象所在的目标区域。
9.一种基于神经网络模型的图像处理装置,其特征在于,包括:
深度图生成模块,被配置为获取包含目标对象的场景区域的双目视频数据,对所述双目视频数据的每组同步图像进行匹配生成带有深度信息的深度图;
集合确定模块,被配置为获取当前时刻所述目标对象在所述同步图像中对应的目标区域的边界,并根据所述边界确定所述目标对象在所述同步图像的第一图像中对应的多个第一像素点的第一坐标集合、在所述同步图像的第二图像中对应的多个第二像素点的第二坐标集合以及在所述深度图中对应的深度信息集合,其中,所述目标区域为一闭合区域;
参考输入数据确定模块,被配置为根据所述第一坐标集合、所述第二坐标集合和所述深度信息集合确定所述目标对象的参考输入数据,所述参考输入数据用于描述所述目标对象在所述场景区域中的位置信息;
处理模块,被配置为利用目标神经网络模型提取所述参考输入数据以及下一时刻的新双目视频数据在不同尺度下的第一特征以及用于表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征,并利用所述第一特征和所述第二特征从所述新双目视频数据中确定所述目标对象所在的目标区域并对所述目标区域进行处理,得到处理后的视频数据,其中,所述目标神经网络模型是利用训练样本输入预设原始神经网络进行训练得到的。
10.根据权利要求9所述的基于神经网络模型的图像处理装置,其特征在于,所述处理模块具体被配置为对所述目标区域进行隐藏、打码或模糊化处理。
CN202211513405.6A 2022-11-30 2022-11-30 基于神经网络模型的图像处理方法及装置 Active CN115760986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211513405.6A CN115760986B (zh) 2022-11-30 2022-11-30 基于神经网络模型的图像处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211513405.6A CN115760986B (zh) 2022-11-30 2022-11-30 基于神经网络模型的图像处理方法及装置

Publications (2)

Publication Number Publication Date
CN115760986A true CN115760986A (zh) 2023-03-07
CN115760986B CN115760986B (zh) 2023-07-25

Family

ID=85340514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211513405.6A Active CN115760986B (zh) 2022-11-30 2022-11-30 基于神经网络模型的图像处理方法及装置

Country Status (1)

Country Link
CN (1) CN115760986B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054270A (zh) * 2009-11-10 2011-05-11 华为技术有限公司 一种视频图像中提取前景的方法及装置
CN106878588A (zh) * 2017-02-27 2017-06-20 努比亚技术有限公司 一种视频背景虚化终端及方法
CN107623817A (zh) * 2017-09-11 2018-01-23 广东欧珀移动通信有限公司 视频背景处理方法、装置和移动终端
CN108668069A (zh) * 2017-03-27 2018-10-16 华为技术有限公司 一种图像背景虚化方法及装置
CN109889724A (zh) * 2019-01-30 2019-06-14 北京达佳互联信息技术有限公司 图像虚化方法、装置、电子设备及可读存储介质
CN110033003A (zh) * 2019-03-01 2019-07-19 华为技术有限公司 图像分割方法和图像处理装置
CN110910304A (zh) * 2019-11-08 2020-03-24 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及介质
CN110992371A (zh) * 2019-11-20 2020-04-10 北京奇艺世纪科技有限公司 一种基于先验信息的人像分割方法、装置及电子设备
CN112446380A (zh) * 2019-09-02 2021-03-05 华为技术有限公司 图像处理方法和装置
CN112614057A (zh) * 2019-09-18 2021-04-06 华为技术有限公司 一种图像虚化处理方法及电子设备
US20220070389A1 (en) * 2020-09-02 2022-03-03 Cisco Technology, Inc. Matching foreground and virtual background during a video communication session
CN114677422A (zh) * 2022-02-14 2022-06-28 北京极感科技有限公司 深度信息生成方法、图像虚化方法和视频虚化方法
CN114897916A (zh) * 2022-05-07 2022-08-12 虹软科技股份有限公司 图像处理方法及装置、非易失性可读存储介质、电子设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054270A (zh) * 2009-11-10 2011-05-11 华为技术有限公司 一种视频图像中提取前景的方法及装置
CN106878588A (zh) * 2017-02-27 2017-06-20 努比亚技术有限公司 一种视频背景虚化终端及方法
CN108668069A (zh) * 2017-03-27 2018-10-16 华为技术有限公司 一种图像背景虚化方法及装置
CN107623817A (zh) * 2017-09-11 2018-01-23 广东欧珀移动通信有限公司 视频背景处理方法、装置和移动终端
CN109889724A (zh) * 2019-01-30 2019-06-14 北京达佳互联信息技术有限公司 图像虚化方法、装置、电子设备及可读存储介质
CN110033003A (zh) * 2019-03-01 2019-07-19 华为技术有限公司 图像分割方法和图像处理装置
CN112446380A (zh) * 2019-09-02 2021-03-05 华为技术有限公司 图像处理方法和装置
CN112614057A (zh) * 2019-09-18 2021-04-06 华为技术有限公司 一种图像虚化处理方法及电子设备
CN110910304A (zh) * 2019-11-08 2020-03-24 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及介质
CN110992371A (zh) * 2019-11-20 2020-04-10 北京奇艺世纪科技有限公司 一种基于先验信息的人像分割方法、装置及电子设备
US20220070389A1 (en) * 2020-09-02 2022-03-03 Cisco Technology, Inc. Matching foreground and virtual background during a video communication session
CN114677422A (zh) * 2022-02-14 2022-06-28 北京极感科技有限公司 深度信息生成方法、图像虚化方法和视频虚化方法
CN114897916A (zh) * 2022-05-07 2022-08-12 虹软科技股份有限公司 图像处理方法及装置、非易失性可读存储介质、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵钰莹: "阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现? | CVPR 技术解读", 《HTTPS://WWW.INFOQ.CN/ARTICLE/QYZJDA0A1EPKROG2P1JO》, pages 1 - 9 *

Also Published As

Publication number Publication date
CN115760986B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN106778928B (zh) 图像处理方法及装置
CN108121931B (zh) 二维码数据处理方法、装置及移动终端
CN112037320B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN111428575B (zh) 一种基于孪生网络的针对模糊目标的跟踪方法
JP5833507B2 (ja) 画像処理装置
CN110263768A (zh) 一种基于深度残差网络的人脸识别方法
CN113436338A (zh) 火灾现场的三维重建方法、装置、服务器及可读存储介质
CN106023307A (zh) 基于现场环境的快速重建三维模型方法及***
CN115861591B (zh) 基于transformer关键纹理编码匹配的无人机定位方法
US11417019B2 (en) Detection of a calibration object for modifying image parameters
US11620765B2 (en) Automatic detection of a calibration object for modifying image parameters
CN113379815A (zh) 基于rgb相机与激光传感器的三维重建方法、装置及服务器
CN113573044A (zh) 视频数据处理方法、装置、计算机设备及可读存储介质
CN115760986B (zh) 基于神经网络模型的图像处理方法及装置
CN109544455B (zh) 一种超长高清实景长卷无缝融合方法
CN115690488A (zh) 基于卷积神经网络模型的图像识别方法、装置及终端设备
CN111369612A (zh) 一种三维点云图像生成方法及设备
CN110992474B (zh) 一种时域技术的实现方法
CN114119701A (zh) 图像处理方法及其装置
CN113225484A (zh) 快速获取屏蔽非目标前景的高清图片的方法及装置
CN112329606B (zh) 一种活体检测方法、装置、电子设备及可读存储介质
CN112115833B (zh) 一种图片的活体检测及分类方法
CN118097566B (zh) 基于深度学习的场景变动检测方法、装置、介质及设备
CN110266939B (zh) 显示方法及电子设备、存储介质
US11734855B2 (en) Rotation equivariant orientation estimation for omnidirectional localization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant