CN115082968B

CN115082968B - 基于红外光和可见光融合的行为识别方法及终端设备

Info

Publication number: CN115082968B
Application number: CN202211013357.4A
Authority: CN
Inventors: 李月忠
Original assignee: Tianjin Ruijin Intelligent Technology Co ltd
Current assignee: Tianjin Ruijin Intelligent Technology Co ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2023-03-28
Anticipated expiration: 2042-08-23
Also published as: CN115082968A

Abstract

本申请适用于行为识别技术领域，提供了一种基于红外光和可见光融合的行为识别方法及终端设备，其中，方法包括：获取待识别的至少一个已配准图像组，已配准图像组包括已配准的一张可见光图像和一张红外光图像；针对每个已配准图像组，对已配准图像组中的可见光图像进行去噪处理，得到可见光图像的去噪图像；将已配准图像组中的红外光图像与可见光图像的去噪图像进行融合，得到已配准图像组在预设约束条件下的融合图像；在预设约束条件下，融合图像与红外光图像的像素差异最小，且融合图像与去噪图像的梯度差异最小；基于所有已配准图像组在预设约束条件下的融合图像，确定已配准图像组中的目标对象的行为类别。该方案可以提高行为识别的准确度。

Description

基于红外光和可见光融合的行为识别方法及终端设备

技术领域

本申请属于行为识别技术领域，尤其涉及一种基于红外光和可见光融合的行为识别方法及终端设备。

背景技术

动物行为是指在外界环境的刺激下动物所表现出的适应于环境的动作，动物的行为可能会对其自身的繁殖或其它动物的行为产生一定影响，因此，研究动物行为有助于了解动物的行为特点或需求等，可以辅助动物看护员实现对动物的管理。研究动物行为的基础是对动物的行为进行准确识别。

传统的行为识别方法是，通过非接触式红外光摄像机采集包含动物热辐射信息的红外光图像，或者通过可见光摄像装置采集包含物体外观信息的可见光图像，再单独基于红外光图像对动物行为进行识别，或者单独基于可见光图像进对动物行为进行识别，该行为识别方式的行为识别准确率较低。

发明内容

有鉴于此，本申请实施例提供了一种基于红外光和可见光融合的行为识别方法及终端设备，以解决现有行为识别方法的行为识别准确度较低的技术问题。

第一方面，本申请实施例提供一种基于红外光和可见光融合的行为识别方法，包括：

获取待识别的至少一个已配准图像组；所述已配准图像组包括已配准的一张可见光图像和一张红外光图像；

针对每个所述已配准图像组，对所述已配准图像组中的可见光图像进行去噪处理，得到所述可见光图像的去噪图像；

将所述红外光图像与所述去噪图像进行融合，得到所述已配准图像组在预设约束条件下的融合图像；在所述预设约束条件下，所述融合图像与所述红外光图像的像素差异最小，且所述融合图像与所述去噪图像的梯度差异最小；

基于所有所述已配准图像组在预设约束条件下的融合图像，确定所述已配准图像组中的目标对象的行为类别。

在第一方面的一种可选的实现方式中，所述对所述已配准图像组中的可见光图像进行去噪处理，得到所述可见光图像的去噪图像，包括：

基于所述可见光图像中各个像素的灰度值，采用第一梯度函数确定所述可见光图像中各个像素的水平二阶梯度和垂直二阶梯度；所述第一梯度函数为：

VIS _h(i)=[1/2(vis _i-vis _r(i))+1/2(vis _i-vis _l(i))]²；

VIS _v(i)=[1/2(vis _i-vis _b(i))+1/2(vis _i-vis _o(i))]²；

其中，VIS _h(i)为所述可见光图像中第i个像素的水平二阶梯度，VIS _v(i)为所述可见光图像中第i个像素的垂直二阶梯度，vis _i为所述可见光图像中第i个像素的灰度值，vis _r(i)为位于所述第i个像素右侧且与所述第i个像素相邻的像素的灰度值，vis _l(i)为位于所述第i个像素左侧且与所述第i个像素相邻的像素的灰度值，vis _b(i)为位于所述第i个像素下方且与所述第i个像素相邻的像素的灰度值，vis _o(i)为位于所述第i个像素上方且与所述第i个像素相邻的像素的灰度值；

针对所述可见光图像中的每个像素，对所述像素的所述水平二阶梯度与所述垂直二阶梯度之和进行开二次方运算，得到所述像素的综合梯度；

将所述可见光图像中所有像素的所述综合梯度之和确定为去噪调节因子；

基于所述可见光图像的列向量、所述去噪调节因子及预设正则化权重，采用预设去噪函数确定所述去噪图像的列向量；所述预设去噪函数为：

DeN=Vis+λ*DeN _vis；

其中，DeN为所述去噪图像的列向量，Vis为所述可见光图像的列向量，λ为所述预设正则化权重，DeN _vis为所述去噪调节因子。

在第一方面的一种可选的实现方式中，所述将所述红外光图像与所述去噪图像进行融合，得到所述已配准图像组在预设约束条件下的融合图像，包括：

基于所述红外光图像的列向量和所述去噪图像的列向量，采用预设约束函数确定所述融合图像的待调节列向量；所述预设约束函数为：

；

其中，MIX ^*为所述融合图像的待调节列向量，InF为所述红外光图像的列向量，▽MIX ^*为所述融合图像的梯度向量，DeN ^*为所述去噪图像的列向量，||MIX ^*-InF||₂用于表示MIX ^*-InF的L2范数，||▽MIX ^*- DeN ^*||₁用于表示▽MIX ^*- DeN ^*的L1范数，λ为预设正则化权重；

所述融合图像的梯度向量中的每个元素的值均通过以下公式确定得到：

MIX ^* ₁=[1/2(MIX ^* _i-MIX ^* _r(i))+1/2(MIX ^* _i-MIX ^* _l(i))]²；

MIX ^* ₂=[1/2(MIX ^* _i-MIX ^* _b(i))+1/2(MIX ^* _i-MIX ^* _o(i))]²；

；

其中，MIX ^* _i为所述融合图像的待调节列向量中第i个元素对应的像素的灰度值，MIX ^* _r(i)为位于所述第i个元素对应的像素右侧且与所述第i个元素对应的像素相邻的像素的灰度值，MIX ^* _l(i)为位于所述第i个元素对应的像素左侧且与所述第i个元素对应的像素相邻的像素的灰度值，MIX ^* _b(i)为位于所述第i个元素对应的像素下方且与所述第i个元素对应的像素相邻的像素的灰度值，MIX ^* _o(i)为位于所述第i个元素对应的像素上方且与所述第i个元素对应的像素相邻的像素的灰度值；

对所述融合图像的待调节列向量进行标准化处理，得到所述融合图像的列向量。

在第一方面的一种可选的实现方式中，所述对所述融合图像的待调节列向量进行标准化处理，得到所述融合图像的列向量，包括：

基于预设标准化公式对所述融合图像的待调节列向量进行标准化处理，得到所述融合图像的列向量；所述预设标准化公式为：

；

其中，MIX ^* _i为所述融合图像的待调节列向量中第i个元素对应的像素的灰度值，MIX _i为所述融合图像的列向量中第i个元素对应的像素的灰度值。

在第一方面的一种可选的实现方式中，所述基于所有所述已配准图像组在预设约束条件下的融合图像，确定所述已配准图像组中的目标对象的行为类别，包括：

将所有所述融合图像导入至上下文注意力网络中，得到所述已配准图像组中的目标对象的动态行为数据；所述动态行为数据通过每相邻两个所述融合图像中所述目标对象与环境对象之间的位置变化向量描述；

将所述动态行为数据导入行为识别模型中，得到所述目标对象的动作类型。

第二方面，本申请实施例提供一种终端设备，包括：

第一获取单元，用于获取待识别的至少一个已配准图像组；所述已配准图像组包括已配准的一张可见光图像和一张红外光图像；

图像去噪单元，用于针对每个所述已配准图像组，对所述已配准图像组中的可见光图像进行去噪处理，得到所述可见光图像的去噪图像；

图像融合单元，用于将所述红外光图像与所述去噪图像进行融合，得到所述已配准图像组在预设约束条件下的融合图像；在所述预设约束条件下，所述融合图像与所述红外光图像的像素差异最小，且所述融合图像与所述去噪图像的梯度差异最小；

行为识别单元，用于基于所有所述已配准图像组在预设约束条件下的融合图像，确定所述已配准图像组中的目标对象的行为类别。

第三方面，本申请实施例提供一种终端设备，所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面或第一方面的任一可选方式行为识别方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面或第一方面的任一可选方式行为识别方法。

第五方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行如上述第一方面或第一方面的任一可选方式行为识别方法。

第六方面，本申请实施例提供一种行为识别***，包括摄像装置以及如上述第二方面或第三方面所述的终端设备，所述摄像装置与所述终端设备连接。

实施本申请实施例提供的基于红外光和可见光融合的行为识别方法、终端设备、计算机可读存储介质及计算机程序产品具有以下有益效果：

本申请实施例提供的基于红外光和可见光融合的行为识别方法，通过对每个已配准图像组中的可见光图像进行去噪处理，得到每个已配准图像组中的可见光图像的去噪图像；再将每个已配准图像组中的红外光图像与去噪图像进行融合，得到每个已配准图像组在预设约束条件下的融合图像；最后基于所有已配准图像组在预设约束条件下的融合图像，确定已配准图像组中的目标对象的行为类别。由于在预设约束条件下，融合图像与红外光图像的像素差异最小，且融合图像与去噪图像的梯度差异最小，因此，融合图像与红外光图像具有类似的像素强度，且融合图像与可见光图像具有类似的梯度（即边缘），从而使得融合图像能够同时保留红外光图像中物体的热辐射信息以及可见光图像中物体的外观信息，即，融合图像可以看作是具有细致场景描述的红外光图像，如此，基于融合图像对目标对象进行行为识别，可以提高行为识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种行为识别***的示意性结构图；

图2为本申请实施例提供的一种基于红外光和可见光融合的行为识别方法的示意性流程图；

图3为本申请实施例提供的一种基于红外光和可见光融合的行为识别方法中S22的具体实现流程图；

图4为本申请实施例提供的一种基于红外光和可见光融合的行为识别方法中S23的具体实现流程图；

图5为本申请实施例提供的一种终端设备的结构示意图；

图6为本申请另一实施例提供的一种终端设备的结构示意图。

具体实施方式

需要说明的是，本申请实施例使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。在本申请实施例的描述中，除非另有说明，“多个”是指两个或多于两个，“至少一个”、“一个或多个”是指一个、两个或两个以上。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”特征可以明示或者隐含地包括一个或者更多个该特征。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

传统的行为识别方法是通红外摄像装置采集包含目标对象的热辐射信息的红外光图像，或者通过可见光摄像装置采集包含目标对象的外观信息的可见光图像，再单独基于红外光图像或者可见光图像对目标对象行为进行识别。然而，可见光图像容易受到光照变化的影响，使其丢失掉一些纹理信息，红外光图像虽然受光照变化的影响较小，但缺乏细节信息，因此单独基于红外光图像或者可见光图像对目标对象行为进行识别，会降低目标对象行为识别的准确度。

为了解决该技术问题，本申请实施例首先提供一种行为识别***。请参阅图1，为本申请实施例提供的一种行为识别***的结构示意图。如图1所示，该行为识别***可以包括红外摄像装置11、可见光摄像装置12及终端设备13。其中，红外摄像装置11和可见光摄像装置12均与终端设备13连接。

红外摄像装置11用于采集红外光图像，可见光摄像装置12用于采集可见光图像。需要说明的是，本申请实施例中，红外摄像装置11的主光轴与可见光摄像装置12的主光轴重合，且红外摄像装置11的视野范围与可见光摄像装置12的视野范围相同，即红外摄像装置11在某个时刻采集到的红外光图像与可见光摄像装置12在该时刻采集到的可见光图像对应的场景相同。

如图1所示，当红外摄像装置11和可见光摄像装置12的视野范围内有目标对象经过时，红外摄像装置11可以采集到时间上连续的多张包含目标对象的红外光图像111，可见光摄像装置12可以采集到时间上连续的多张包含目标对象的可见光图像121。需要说明的是，红外光图像中包含目标对象的热辐射信息，可见光图像中包含目标对象的外观信息（即纹理信息）。

示例性的，目标对象可以是生命体，例如，人或动物等。

终端设备13用于从红外摄像装置11中获取红外摄像装置11采集到的红外光图像序列，以及从可见光摄像装置12中获取可见光摄像装置12采集到的可见光图像序列，并将红外光图像序列和可见光图像序列进行配准。将红外光图像序列和可见光图像序列进行配准具体指，将红外光图像序列和可见光图像序列中具有相同场景的红外光图像和可见光图像进行配对，也即，将红外摄像装置11和可见光摄像装置12在同一时刻分别采集到的红外光图像和可见光图像进行配对。基于此，将红外光图像序列和可见光图像序列进行配准后，可以得到多个已配准图像组，每个已配准图像组均包括一张可见光图像和一张红外光图像，每个已配准图像组包括的可见光图像和红外光图像具有相同场景。

示例性的，如图1所示，假如红外摄像装置11在第一时刻采集到一张红外光图像1111，可见光摄像装置12在第一时刻采集到一张可见光图像1211，则红外光图像1111和可见光图像1211即可以组成一个已配准图像组。

可以理解的是，由于红外光图像序列中的各个红外光图像在时间上是连续的，可见光图像序列中的各个可见光图像在时间上是连续的，因此，终端设备得到的多个已配准图像组在时间上也是连续的。

可以理解的是，终端设备13得到多个已配准图像组后，可以将各个已配准图像组中的红外光图像和可见光图像均预处理为灰度图像，并将预处理后的已配准图像组作为待识别的已配准图像组。由于待识别的已配准图像组中的可见光图像和红外光图像均为灰度图像，因此，待识别的已配准图像组中的可见光图像中各个像素的灰度值的取值范围为0~255，同理，待识别的已配准图像组中的红外光图像中各个像素的灰度值的取值范围也为0~255。

可选的，终端设备13可以将待识别的已配准图像组存储在其本地存储器中，以用于后续目标对象的行为识别，即，终端设备13还可以用于执行后续方法实施例中的各步骤，具体请参考方法实施例中的相关描述，此处暂不详述。

在具体应用中，终端设备13可以包括智能手机、平板电脑、笔记本电脑或台式电脑等设备，本实施例对终端设备13的具体类型不做特别限定。

在具体应用中，红外摄像装置11和可见光摄像装置12与终端设备13之间的连接方式均可以是有线连接或无线连接。

其中，有线连接可以包括基于通用串行总线（universal serial bus，USB）或高清多媒体接口（high definition multimedia interface，HDMI）等的有线连接。无线连接可以包括基于蓝牙、无线保真（wireless fidelity，WIFI）或移动通信技术等的无线连接。示例性的，移动通信技术可以包括但不限于第五代移动通信技术（5th generation mobilecommunication technology，简称5G）或***移动通信技术（4th generation mobilecommunication technology，简称4G）等。

基于上述实施例提供的行为识别***，本申请实施例还提供一种基于红外光和可见光融合的行为识别方法，该行为识别方法的执行主体以是图1对应的实施例中的终端设备13。在具体应用中，可以通过向终端设备13配置目标脚本文件，由该目标脚本文件描述本申请实施例提供的基于红外光和可见光融合的行为识别方法，令终端设备13在需要对目标对象进行行为识别时执行该目标脚本文件，进而执行本申请实施例提供的基于红外光和可见光融合的行为识别方法中的各个步骤。

请参阅图2，为本申请实施例提供的一种基于红外光和可见光融合的行为识别方法的示意性流程图。如图2所示，该方法可以包括S21~S24，详述如下：

S21：获取待识别的至少一个已配准图像组。

本申请实施例中，终端设备可以从其本地存储器中获取待识别的至少一个已配准图像组。每个已配准图像组均包括已配准的一张可见光图像和一张红外光图像。示例性的，可见光图像的分辨率和红外光图像的分辨率均可以为m×n，即，可见光图像和红外光图像均可以包括m行×n列像素。

S22：针对每个已配准图像组，对已配准图像组中的可见光图像进行去噪处理，得到可见光图像的去噪图像。

在一种可能的实现方式中，在各个已配准图像组中的对可见光图像进行去噪处理时，为了避免丢失掉可见光图像的梯度信息（也即纹理信息），终端设备可以采用如图3所示的S221~S224来得到可见光图像的去噪图像。

S221：基于可见光图像中各个像素的灰度值，采用第一梯度函数确定可见光图像中各个像素的水平二阶梯度和垂直二阶梯度。

具体地，第一梯度函数可以为：

VIS _h(i)=[1/2(vis _i-vis _r(i))+1/2(vis _i-vis _l(i))]²；

VIS _v(i)=[1/2(vis _i-vis _b(i))+1/2(vis _i-vis _o(i))]²；

其中，VIS _h(i)为可见光图像中第i个像素的水平二阶梯度，VIS _v(i)为可见光图像中第i个像素的垂直二阶梯度，vis _i为可见光图像中第i个像素的灰度值，vis _r(i)为位于第i个像素右侧且与第i个像素相邻的像素的灰度值，vis _l(i)为位于第i个像素左侧且与第i个像素相邻的像素的灰度值，vis _b(i)为位于第i个像素下方且与第i个像素相邻的像素的灰度值，vis _o(i)为位于第i个像素上方且与第i个像素相邻的像素的灰度值。

需要说明的是，对于可见光图像中第1行的各个像素，vis _o(i)=vis _i；对于可见光图像中最后一行的各个像素，vis _l(i)=vis _i；对于可见光图像中第1列的各个像素，vis _l(i)=vis _i；对于可见光图像中最后一列的各个像素，vis _r(i)=vis _i。

可以理解的是，可见光图像中各个像素的次序是按照从左到右、从上到下的顺序对可见光图像中的各个像素进行排序得到的。示例性的，假如可见光图像包括3×3个像素，那么，第1行的3个像素从左到右依次为可见光图像的第1个像素、第2个像素及第3个像素，第2行的3个像素从左到右依次为可见光图像的第4个像素、第5个像素及第6个像素，第3行的3个像素从左到右依次为可见光图像的第7个像素、第8个像素及第9个像素。

例如，以可见光图像中的第5个像素（即第2行第2列的像素）为例，位于第5个像素右侧且与第5个像素相邻的像素即为可见光图像中的第6个像素（即第2行第2列的像素），位于第5个像素左侧且与第5个像素相邻的像素即为可见光图像中的第4个像素（即第2行第1列的像素），位于第5个像素下方且与第5个像素相邻的像素即为可见光图像中的第8个像素（即第3行第2列的像素），位于第5个像素上方且与第5个像素相邻的像素即为可见光图像中的第2个像素（即第1行第2列的像素）。

S222：针对可见光图像中的每个像素，对像素的水平二阶梯度与垂直二阶梯度之和进行开二次方运算，得到像素的综合梯度。

本实现方式中，针对可见光图像中的每个像素，终端设备可以计算该像素的水平二阶梯度与垂直二阶梯度之和，在对该像素的水平二阶梯度与垂直二阶梯度之和进行开二次方运算，得到像素的综合梯度。

S223：将可见光图像中所有像素的综合梯度之和确定为去噪调节因子。

终端设备得到可见光图像中各个像素的综合梯度后，可以计算可见光图像中所有像素的综合梯度之和，将可见光图像中所有像素的综合梯度之和确定为去噪调节因子。

其中，去噪调节因子用于对可见光图像中的各个像素的灰度值进行调节。

本实现方式中，由于VIS _h(i)可以体现第i个像素在水平方向上的二阶梯度，VIS _v(i)可以体现第i个像素在垂直方向上的二阶梯度，而二阶梯度相对于一阶梯度而言，能够使可见光图像保留更多的梯度信息，因此，基于S221~S223得到的去噪调节因子对可见光图像中的各个像素的灰度值进行调节，可以使得在对可见光图像进行去噪的同时，能够较好地保留可见光图像的梯度信息。

S224：基于可见光图像的列向量、去噪调节因子及预设正则化权重，采用预设去噪函数确定去噪图像的列向量。

可以理解的是，可见光图像的列向量可以通过将可见光图像中的各个像素按照由小到大的次序排为一列而得到。

预设正则化权重的值可以根据实际需求设置，此处对其不做特别限定。

具体地，预设去噪函数可以为：

DeN=Vis+λ*DeN _vis；

其中，DeN为去噪图像的列向量，Vis为可见光图像的列向量，λ为预设正则化权重，DeN _vis为所述去噪调节因子。

需要说明的是，DeN∈R^mn×1，Vis∈R^mn×1。

可以理解的是，终端设备得到去噪图像的列向量后，可以将去噪图像的列向量还原为分辨率为m×n的去噪图像。

在另一种可能的实现方式中，终端设备还可以采用中值滤波器或均值滤波器等方式对各个已配准图像组中的可见光图像进行去噪处理，得到各个已配准图像组中的可见光图像的去噪图像。

S23：将红外光图像与去噪图像进行融合，得到已配准图像组在预设约束条件下的融合图像。

需要说明的是，在预设约束条件下，融合图像与红外光图像的像素差异最小，且融合图像与去噪图像的梯度差异最小。即，通过预设约束条件的约束，可以将可见光图像的梯度信息转移到红外光图像的相应位置，从而使融合图像与红外光图像具有类似的像素强度，且使融合图像与可见光图像具有类似的梯度，如此，融合图像能够同时保留红外光图像中物体的热辐射信息以及可见光图像中物体的外观信息。

在一种可能的实现方式中，预设约束条件可以通过预设约束函数来描述。基于此，S23具体可以通过如图4所示的S231~S232实现，详述如下：

S231 ：基于红外光图像的列向量和去噪图像的列向量，采用预设约束函数确定融合图像的待调节列向量。

可以理解的是，红外光图像的列向量可以通过将红外光图像中的各个像素按照由小到大的次序排为一列而得到。

具体地，预设约束函数可以为：

；

其中，MIX ^*为融合图像的待调节列向量，InF为红外光图像的列向量，▽MIX ^*为融合图像的梯度向量，DeN ^*为去噪图像的列向量，||MIX ^*-InF||₂用于表示MIX ^*-InF的L2范数，||▽MIX ^*- DeN ^*||₁用于表示▽MIX ^*- DeN ^*的L1范数，λ为预设正则化权重。

需要说明的是，融合图像的梯度向量包括的元素个数与可见光图像或红外光图像包括的像素个数相同，融合图像的梯度向量中的每个元素可以对应可见光图像或红外光图像中的一个像素。

可选的，融合图像的梯度向量中每个元素的值可以通过以下公式确定得到：

；

其中，MIX ^* _i为融合图像的待调节列向量中第i个元素的值，也即第i个元素对应的像素的灰度值；MIX ^* _r(i)为融合图像的待调节列向量中，位于第i个元素对应的像素右侧且与第i个元素对应的像素相邻的像素的灰度值；MIX ^* _l(i)为融合图像的待调节列向量中，位于第i个元素对应的像素左侧且与第i个元素对应的像素相邻的像素的灰度值；MIX ^* _b(i)为融合图像的待调节列向量中，位于第i个元素对应的像素下方且与第i个元素对应的像素相邻的像素的灰度值；MIX ^* _o(i)为融合图像的待调节列向量中，位于第i个元素对应的像素上方且与第i个元素对应的像素相邻的像素的灰度值。

S232 ：对融合图像的待调节列向量进行标准化处理，得到融合图像的列向量。

由于通过预设约束函数得到的融合图像的待调节列向量中各个元素的值不一定均在0~255之间，因此，需要对融合图像的待调节向量进行标准化处理，以使最终得到的融合图像的列向量中所有元素的值均处于0~255内。

在一种可能的实现方式中，终端设备可以基于预设标准化公式对待融合图像的待调节列向量进行标准化处理，得到待融合图像的列向量。

具体地，预设标准化公式为：

；

其中，MIX ^* _i为融合图像的待调节列向量中第i个元素对应的像素的灰度值，MIX _i为融合图像的列向量中第i个元素对应的像素的灰度值。

可以理解的是，终端设备得到融合图像的列向量后，可以将融合图像的列向量还原为分辨率为m×n的融合图像。

通过执行上述S21~S23，对于每个已配准图像组，均可以得到一个与其对应的融合图像，即可以得到每个已配准图像组在预设约束条件下的融合图像。

S24：基于所有已配准图像组在预设约束条件下的融合图像，确定已配准图像组中的目标对象的行为类别。

由于多个已配准图像组在时间上是连续的，因此，多个已配准图像组各自对应的融合图像在时间上也是连续的。

可选的，终端设备中可以配置有上下文注意力网络和行为识别模型。

其中，上下文注意力网络用于确定已配准图像组中的目标对象与环境对象之间的相对位置的变化，从而得到目标对象的动态行为数据。即，目标对象的动态行为数据可以通过每相邻两个融合图像中目标对象与环境对象之间的位置变化向量描述。

行为识别模型用于基于目标对象的动态行为数据确定目标对象的动作类型。在具体应用中，行为识别模型可以是基于预设样本集，采用深度学习方法对分类模型进行训练得到的。示例性的，预设样本集可以包括多条样本数据，每条样本数据均可以包括一个样本对象的动态行为数据和动作类型。在对分类模型进行训练时，可以将每条样本数据中样本对象的动态行为数据作为分类模型的输入，将每条样本数据中样本对象的动作类型作为分类模型的输出，使分类模型在训练过程中学习到动态行为数据与动作类型之间的对应关系。终端设备可以将采用上述样本数据训练好的分类模型确定为行为识别模型。

基于此，S24具体可以包括以下步骤：

步骤a，将所有所述融合图像导入至上下文注意力网络中，得到所述已配准图像组中的目标对象的动态行为数据。

步骤b，将所述动态行为数据导入行为识别模型中，得到所述目标对象的动作类型。

需要说明的是，在上下文注意网络中，终端设备会对各个融合图像进行物体识别、关键点识别及人体识别等。通过物体识别可以识别出融合图像中的环境对象，通过人体识别可以识别出融合图像中的目标对象，通过关键点识别可以识别出目标对象的动作变化，最后通过卷积神经网络进行上下文注意力关注，可以得到目标对象的动态行为数据。

以上可以看出，本实施例提供的基于红外光和可见光融合的行为识别方法，通过对每个已配准图像组中的可见光图像进行去噪处理，得到每个已配准图像组中的可见光图像的去噪图像；再将每个已配准图像组中的红外光图像与去噪图像进行融合，得到每个已配准图像组在预设约束条件下的融合图像；最后基于所有已配准图像组在预设约束条件下的融合图像，确定已配准图像组中的目标对象的行为类别。由于在预设约束条件下，融合图像与红外光图像的像素差异最小，且融合图像与去噪图像的梯度差异最小，因此，融合图像与红外光图像具有类似的像素强度，且融合图像与可见光图像具有类似的梯度（即边缘），从而使得融合图像能够同时保留红外光图像中物体的热辐射信息以及可见光图像中物体的外观信息，即融合图像可以看作是具有细致场景描述的红外光图像，如此，基于融合图像对目标对象进行行为识别，可以提高行为识别的准确性。

可以理解的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

基于上述实施例所提供的基于红外光和可见光融合的行为识别方法，本申请实施例进一步给出实现上述方法实施例的终端设备的实施例。请参阅图5，为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本实施例相关的部分。如图5所示，终端设备50可以包括：第一获取单元51、图像去噪单元52、图像融合单元53及行为识别单元54。其中：

第一获取单元51用于获取待识别的至少一个已配准图像组；所述已配准图像组包括已配准的一张可见光图像和一张红外光图像。

图像去噪单元52用于针对每个所述已配准图像组，对所述已配准图像组中的可见光图像进行去噪处理，得到所述可见光图像的去噪图像。

图像融合单元53用于将所述红外光图像与所述去噪图像进行融合，得到所述已配准图像组在预设约束条件下的融合图像；在所述预设约束条件下，所述融合图像与所述红外光图像的像素差异最小，且所述融合图像与所述去噪图像的梯度差异最小。

行为识别单元54用于基于所有所述已配准图像组在预设约束条件下的融合图像，确定所述已配准图像组中的目标对象的行为类别。

可选的，图像去噪单元52可以包括第一确定单元、第一计算单元、第二确定单元及第三确定单元。其中：

第一确定单元用于基于所述可见光图像中各个像素的灰度值，采用第一梯度函数确定所述可见光图像中各个像素的水平二阶梯度和垂直二阶梯度；所述第一梯度函数为：

VIS _h(i)=[1/2(vis _i-vis _r(i))+1/2(vis _i-vis _l(i))]²；

VIS _v(i)=[1/2(vis _i-vis _b(i))+1/2(vis _i-vis _o(i))]²；

其中，VIS _h(i)为所述可见光图像中第i个像素的水平二阶梯度，VIS _v(i)为所述可见光图像中第i个像素的垂直二阶梯度，vis _i为所述可见光图像中第i个像素的灰度值，vis _r(i)为位于所述第i个像素右侧且与所述第i个像素相邻的像素的灰度值，vis _l(i)为位于所述第i个像素左侧且与所述第i个像素相邻的像素的灰度值，vis _b(i)为位于所述第i个像素下方且与所述第i个像素相邻的像素的灰度值，vis _o(i)为位于所述第i个像素上方且与所述第i个像素相邻的像素的灰度值。

第一计算单元用于针对所述可见光图像中的每个像素，对所述像素的所述水平二阶梯度与所述垂直二阶梯度之和进行开二次方运算，得到所述像素的综合梯度。

第二确定单元用于将所述可见光图像中所有像素的所述综合梯度之和确定为去噪调节因子。

第三确定单元用于基于所述可见光图像的列向量、所述去噪调节因子及预设正则化权重，采用预设去噪函数确定所述去噪图像的列向量；所述预设去噪函数为：

DeN=Vis+λ*DeN _vis；

可选的，图像融合单元53可以包括第四确定单元和标准化单元。其中：

第三确定单元用于基于所述红外光图像的列向量和所述去噪图像的列向量，采用预设约束函数确定所述融合图像的待调节列向量；所述预设约束函数为：

；

；

其中，MIX ^* _i为所述融合图像的待调节列向量中第i个元素对应的像素的灰度值，MIX ^* _r(i)为位于所述第i个元素对应的像素右侧且与所述第i个元素对应的像素相邻的像素的灰度值，MIX ^* _l(i)为位于所述第i个元素对应的像素左侧且与所述第i个元素对应的像素相邻的像素的灰度值，MIX ^* _b(i)为位于所述第i个元素对应的像素下方且与所述第i个元素对应的像素相邻的像素的灰度值，MIX ^* _o(i)为位于所述第i个元素对应的像素上方且与所述第i个元素对应的像素相邻的像素的灰度值。

标准化单元用于对所述融合图像的待调节列向量进行标准化处理，得到所述融合图像的列向量。

可选的，标准化单元具体用于：

；/>

可选的，行为识别单元可以包括动态行为确定单元和动作类型确定单元。其中：

动态行为确定单元用于将所有所述融合图像导入至上下文注意力网络中，得到所述已配准图像组中的目标对象的动态行为数据；所述动态行为数据通过每相邻两个所述融合图像中所述目标对象与环境对象之间的位置变化向量描述。

动作类型确定单元用于将所述动态行为数据导入行为识别模型中，得到所述目标对象的动作类型。

需要说明的是，上述单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参照方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将终端设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参阅图6，图6为本申请实施例提供的一种终端设备的结构示意图。如图6所示，本实施例提供的终端设备6可以包括：处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62，例如基于红外光和可见光融合的行为识别方法对应的程序。处理器60执行计算机程序62时实现上述基于红外光和可见光融合的行为识别方法实施例中的步骤，例如图2所示的S21~S24。或者，处理器60执行计算机程序62时实现上述终端设备实施例中各模块/单元的功能，例如图5所示的单元51~54的功能。

示例性的，计算机程序62可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器61中，并由处理器60执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序62在终端设备6中的执行过程。例如，计算机程序62可以被分割成第一获取单元、图像去噪单元、图像融合单元及行为识别单元，各单元的具体功能请参阅图5对应的实施例中的相关描述，此处不赘述。

本领域技术人员可以理解，图6仅仅是终端设备6的示例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

处理器60可以是中央处理单元（central processing unit，CPU），还可以是其他通用处理器、数字信号处理器（digital signal processor，DSP）、专用集成电路（application specific integrated circuit，ASIC）、现成可编程门阵列（field-programmable gate array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器61可以是终端设备6的内部存储单元，例如终端设备6的硬盘或内存。存储器61也可以是终端设备6的外部存储设备，例如终端设备6上配备的插接式硬盘、智能存储卡（smart media card，SMC）、安全数字（secure digital，SD）卡或闪存卡（flash card）等。进一步地，存储器61还可以既包括终端设备6的内部存储单元也包括外部存储设备。存储器61用于存储计算机程序以及终端设备所需的其他程序和数据。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备实现上述各个方法实施例中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参照其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。