CN106355171A

CN106355171A - 一种视频监控联网***

Info

Publication number: CN106355171A
Application number: CN201611063348.0A
Authority: CN
Inventors: 邱林新
Original assignee: Shenzhen Kaida Photoelectric Technology Co Ltd
Current assignee: Shenzhen Kaida Photoelectric Technology Co Ltd
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2017-01-25

Abstract

本发明提供了一种视频监控联网***，能够通过语音和图像两种方式对人员进行识别，包括采集***、语音识别***和与图像识别***，所述采集***对语音和图像进行采集，所述语音识别***包括词典场景语音模块、相似度比较模块和语音识别引擎模块，所述图像识别***包括预处理模块、特征提取模块、训练模块、再识别模块和评价模块。本发明实现了对人员的有效识别。

Description

一种视频监控联网***

技术领域

本发明涉及视频监控领域，具体涉及一种视频监控联网***。

背景技术

视频监控是安全防范***的重要组成部分，传统的监控***包括前端摄像机、传输线缆、视频监控平台。摄像机可分为网络数字摄像机和模拟摄像机，可作为前端视频图像信号的采集，它是一种防范能力较强的综合***。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。近年来，随着计算机、网络以及图像处理、传输技术的飞速发展，视频监控技术也有了长足的发展。

发明内容

本发明旨在提供一种能够对人员进行快速、有效识别的视频监控联网***。

本发明的目的采用以下技术方案来实现：

提供了一种视频监控联网***，能够通过语音和图像两种方式对人员进行识别，包括采集***、语音识别***和与图像识别***，所述采集***对语音和图像进行采集，所述语音识别***包括词典场景语音模块、相似度比较模块和语音识别引擎模块，所述图像识别***包括预处理模块、特征提取模块、训练模块、再识别模块和评价模块；所述预处理模块用于确定行人图像中的人员位置，获取包含人员的矩形区域；所述特征提取模块，用于在包含人员的矩形区域中进行外观特征提取；所述训练模块用于训练多个跨模态投影模型，每一个跨模态投影模型中包含两个投影函数，它们分别将不同摄像机中的图像持征映射到共同的特征空间中并完成相似度计算；所述再识别模块，用于识别数据库中是否含有与查询人员一致的行人图像并确认查询人员身份；所述评价模块用于对***性能进行评估。

本发明的有益效果为：实现了对人员的有效识别。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本发明的结构连接示意图。

附图标记：

采集***1、语音识别***2、图像识别***3。

具体实施方式

结合以下实施例对本发明作进一步描述。

参见图1，本实施例的一种视频监控联网***，能够通过语音和图像两种方式对人员进行识别，包括采集***1、语音识别***2和与图像识别***3，所述采集***1对语音和图像进行采集，所述语音识别***2包括词典场景语音模块、相似度比较模块和语音识别引擎模块，所述图像识别***3包括预处理模块、特征提取模块、训练模块、再识别模块和评价模块；所述预处理模块用于确定行人图像中的人员位置，获取包含人员的矩形区域；所述特征提取模块用于在包含人员的矩形区域中进行外观特征提取；所述训练模块用于训练多个跨模态投影模型，每一个跨模态投影模型中包含两个投影函数，它们分别将不同摄像机中的图像持征映射到共同的特征空间中并完成相似度计算；所述再识别模块用于识别数据库中是否含有与查询人员一致的行人图像并确认查询人员身份；所述评价模块用于对***性能进行评估。

优选地，词典场景语音模块，适于对用户词汇表中的词典、场景语音依次进行采集，并将采集的特征矢量作为模版进行保存；

相似度比较模块，适于将语音输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较，将相似度最高者作为语音识别结果输出。

本有选实施例实现了对人员的有效识别。

优选地，所述词典场景语音模块中的模版包括监控***术语模版和人体语音加词典模版。

本有选实施例加快了识别速度。

优选地，所述预处理模块包括图像融合单元，所述图像融合单元用于对不同来源的图像进行融合处理，以便更好地获取图像的全面特征，包括：对需要融合的两幅源图像分别用双正交小波变换进行小波分解，确定分解后图像的小波系数；对低频系数按设定的比例选取分解后图像的小波系数，构成融合图像的小波低频系数矩阵；对高频系数采用纹理一致性测度分析特定区域不同高低频系数的边缘特性，计算图像区域的纹理一致性测度，并按照预定的规则确定融合图像的高频小波系数矩阵，所述图像区域的纹理一致性测度的计算公式定义为：

E F (x) = \frac{3}{8} ({EF}_{l} + {EF}_{c}) + \frac{1}{4} {EF}_{d}

式中，EF(x)表示图像区域x的纹理一致性测度，EF_l表示图像区域x的各高频分量图像在水平方向上的纹理一致性测度，EF_c表示图像区域x的各高频分量图像在垂直方向上的纹理一致性测度，EF_d表示图像区域x的各高频分量图像在对角线方向上的纹理一致性测度；将所述融合图像的小波低频系数矩阵、所述融合图像的高频小波系数矩阵进行离散双正交小波逆变换，最终获得融合图像。

本优选实施例设置图像融合单元，按照纹理一致性测度可较好地分辨出图像的伪边缘，在保证整体视觉效果的同时使细节信息更加丰富和真实；定义了图像区域的纹理一致性测度的计算公式，加快了图像融合的速度。

优选地，所述预定的规则包括：

(1)若图像区域中有88％以上像素值具有较大的纹理一致性测度，定义该图像区域为边缘区，选取相应的边缘纹理一致性测度最大的高频图像小波系数构成所述融合图像的高频小波系数矩阵；

(2)若图像区域中有88％以上像素值具有较小的纹理一致性测度，定义该图像区域为平滑区，分别计算两幅源图像在该图像区域的能量及匹配度，根据能量及匹配度确定两幅源图像的小波系数在融合图像小波系数中所占的比重，根据下式确定所述融合图像的高频小波系数矩阵：

R_G＝β_AR_A+β_BR_B

式中，R_G表示融合图像的高频小波系数矩阵，R_A、β_A分别表示一副源图像的小波系数、该小波系数在融合图像小波系数中所占的比重，R_B、β_B分别表示另一副源图像的小波系数、该小波系数在融合图像小波系数中所占的比重，其中β_A+β_B＝1。

本优选实施例按照预定的规则确定融合图像的高频小波系数矩阵，提高了融合的效果以及融合的速度。

优选地，所述在包含人员的矩形区域中进行外观特征提取，包括：

(1)进行图像的光照归一化处理，具体包括：a、设图像为I，利用LOG对数将图像I转换到对数域，利用差分高斯滤波器对图像I进行平滑处理；b、对图像I进行全局对比度均衡化处理；

(2)进行图像尺寸归一化处理；

(3)进行图像分块，针对每个图像块，进行特征向量提取；

(4)将所有图像块的特征向量进行串联，然后对串联后的图像进行PCA特征降维。

本优选实施例设置特征提取模块，在提取特征前先对图像进行光照归一化处理，减少了因光照变化而产生的图像扭曲，使特征的提取更为精确。

优选地，所述训练模块包括样本分类单元和跨模态投影模型学习单元；所述样本分类单元具体执行：

设两个摄像机C₁和C₂对应的特征空间分别为和d₁和d₂分别表示两个摄像机特征空间的维度，假定训练数据集合为K对跨摄像机图像特征s_k＝s(x_k，y_k)∈{-1,+1}表示样本对的类别标签，-1表示异类，+1表示同类，根据类别标签将训练集合分为负样本集合和正样本集合|D₁|+|D₂|＝K；

所述跨模态投影模型学习单元具体执行：

设跨模态投影模型集合H＝[h₁h₂,…,h_L]，L个子模型用于处理L种数据差异，每一个子模型由一对投影函数构成，h_l＝[p_Xl(x),p_Yl(y)]，略去脚标l，投影函数p_X(x)和p_Y(y)将x∈X和y∈Y投影到共同的特征空间：

式中，表示投影向量，a、b∈R为线性偏差，p_x(x)和p_Y(y)将原始特征投影到{-1,+1}空间中；

同时存在投影函数q_X(x)和q_Y(y)将x∈X和y∈Y投影到另一共同的特征空间：

\{\begin{matrix} q_{X} (x) = u^{T} x + a \\ q_{Y} (y) = v^{T} y + b \end{matrix}

建立数据类别和共同特征空间之间的关系，定义目标函数：

式中，E表示期望，表示同类样本对和异类样本对的重要性权衡指数；

式中，w_k表示样本对{x_k，y_k}在本次子模型学习中的样本权重，s_k＝s(x_k，y_k)∈{-1,+1}表示样本对的类别标签，

通过最小化目标函数来学习参数{u,v,a,b}，得到相应的投影函数。

本优选实施例采用多个跨模态投影模型，可充分应对各种不同的数据分布差异。

优选地，所述识别数据库中是否含有与查询人员一致的行人图像并确认查询人员身份，包括：

假设被查询人员集合为{f_i,STA(f_i)}，i＝1,2,…,N，f_i表示第i个被查询人员，STA(f_i)表示第个被查询人员的身份，对于查询人员集合{g_j,STA(g_j)，j＝1,2,…,M：

STA(g_j)＝STA(f)

f = \underset{i}{argmax} Z (g_{j}, f_{i})

g_j和f_i的相似度Z(g_j，f_i)表示为：

Z(g_j，f_i)＝sign(u^Tg_j+a)·sign(v^Tf_i+b)+||(u^Tg_j+a)-(v^Tf_i+b)||

设定阔值T，T∈[1，2]，若Z(g_j，f_i)<T，则被查询人员中不存在与查询人员一致的图像；

若Z(g_j，f_i)≥T，将被查询人员按照相似度从大到小排序，排在最前面的与查询人员具有相同的身份。

本优选实施例提高了视频监控联网***人员的识别精度和效率。

优选地，所述对图像识别***性能进行评估，包括：

定义评价函数：

F (n) = \frac{Σ_{n = 1}^{N} S_{n}}{N^{2}}

式中，N表示查询次数，S_n表示前n位中可以找到正确结果的次数，评价函数值越大，则***的再识别性能越好。

本优选实施例设置评价模块，有利于对视频监控联网***进行改进。

本发明视频监控联网***的一组识别结果如下表所示：

N	人员识别平均用时	人员识别准确率
			6	0.14s	95.5％
12	0.12s	95.3％
			18	0.16s	95.7％

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种视频监控联网***，其特征是，能够通过语音和图像两种方式对人员进行识别，包括采集***、语音识别***和与图像识别***，所述采集***对语音和图像进行采集，所述语音识别***包括词典场景语音模块、相似度比较模块和语音识别引擎模块，所述图像识别***包括预处理模块、特征提取模块、训练模块、再识别模块和评价模块；所述预处理模块用于确定行人图像中的人员位置，获取包含人员的矩形区域；所述特征提取模块，用于在包含人员的矩形区域中进行外观特征提取；所述训练模块用于训练多个跨模态投影模型，每一个跨模态投影模型中包含两个投影函数，它们分别将不同摄像机中的图像持征映射到共同的特征空间中并完成相似度计算；所述再识别模块，用于识别数据库中是否含有与查询人员一致的行人图像并确认查询人员身份；所述评价模块用于对***性能进行评估。

2.根据权利要求1所述的一种视频监控联网***，其特征是，词典场景语音模块，适于对用户词汇表中的词典、场景语音依次进行采集，并将采集的特征矢量作为模版进行保存；

3.根据权利要求2所述的一种视频监控联网***，其特征是，所述词典场景语音模块中的模版包括监控***术语模版和人体语音加词典模版。