CN106355171A - 一种视频监控联网*** - Google Patents
一种视频监控联网*** Download PDFInfo
- Publication number
- CN106355171A CN106355171A CN201611063348.0A CN201611063348A CN106355171A CN 106355171 A CN106355171 A CN 106355171A CN 201611063348 A CN201611063348 A CN 201611063348A CN 106355171 A CN106355171 A CN 106355171A
- Authority
- CN
- China
- Prior art keywords
- module
- image
- voice
- personnel
- video monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 13
- 230000006855 networking Effects 0.000 claims description 11
- 238000011524 similarity measure Methods 0.000 claims description 3
- 230000009897 systematic effect Effects 0.000 claims description 2
- 238000004321 preservation Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000004927 fusion Effects 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 8
- 238000005286 illumination Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种视频监控联网***,能够通过语音和图像两种方式对人员进行识别,包括采集***、语音识别***和与图像识别***,所述采集***对语音和图像进行采集,所述语音识别***包括词典场景语音模块、相似度比较模块和语音识别引擎模块,所述图像识别***包括预处理模块、特征提取模块、训练模块、再识别模块和评价模块。本发明实现了对人员的有效识别。
Description
技术领域
本发明涉及视频监控领域,具体涉及一种视频监控联网***。
背景技术
视频监控是安全防范***的重要组成部分,传统的监控***包括前端摄像机、传输线缆、视频监控平台。摄像机可分为网络数字摄像机和模拟摄像机,可作为前端视频图像信号的采集,它是一种防范能力较强的综合***。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。近年来,随着计算机、网络以及图像处理、传输技术的飞速发展,视频监控技术也有了长足的发展。
发明内容
本发明旨在提供一种能够对人员进行快速、有效识别的视频监控联网***。
本发明的目的采用以下技术方案来实现:
提供了一种视频监控联网***,能够通过语音和图像两种方式对人员进行识别,包括采集***、语音识别***和与图像识别***,所述采集***对语音和图像进行采集,所述语音识别***包括词典场景语音模块、相似度比较模块和语音识别引擎模块,所述图像识别***包括预处理模块、特征提取模块、训练模块、再识别模块和评价模块;所述预处理模块用于确定行人图像中的人员位置,获取包含人员的矩形区域;所述特征提取模块,用于在包含人员的矩形区域中进行外观特征提取;所述训练模块用于训练多个跨模态投影模型,每一个跨模态投影模型中包含两个投影函数,它们分别将不同摄像机中的图像持征映射到共同的特征空间中并完成相似度计算;所述再识别模块,用于识别数据库中是否含有与查询人员一致的行人图像并确认查询人员身份;所述评价模块用于对***性能进行评估。
本发明的有益效果为:实现了对人员的有效识别。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明的结构连接示意图。
附图标记:
采集***1、语音识别***2、图像识别***3。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的一种视频监控联网***,能够通过语音和图像两种方式对人员进行识别,包括采集***1、语音识别***2和与图像识别***3,所述采集***1对语音和图像进行采集,所述语音识别***2包括词典场景语音模块、相似度比较模块和语音识别引擎模块,所述图像识别***3包括预处理模块、特征提取模块、训练模块、再识别模块和评价模块;所述预处理模块用于确定行人图像中的人员位置,获取包含人员的矩形区域;所述特征提取模块用于在包含人员的矩形区域中进行外观特征提取;所述训练模块用于训练多个跨模态投影模型,每一个跨模态投影模型中包含两个投影函数,它们分别将不同摄像机中的图像持征映射到共同的特征空间中并完成相似度计算;所述再识别模块用于识别数据库中是否含有与查询人员一致的行人图像并确认查询人员身份;所述评价模块用于对***性能进行评估。
优选地,词典场景语音模块,适于对用户词汇表中的词典、场景语音依次进行采集,并将采集的特征矢量作为模版进行保存;
相似度比较模块,适于将语音输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出。
本有选实施例实现了对人员的有效识别。
优选地,所述词典场景语音模块中的模版包括监控***术语模版和人体语音加词典模版。
本有选实施例加快了识别速度。
优选地,所述预处理模块包括图像融合单元,所述图像融合单元用于对不同来源的图像进行融合处理,以便更好地获取图像的全面特征,包括:对需要融合的两幅源图像分别用双正交小波变换进行小波分解,确定分解后图像的小波系数;对低频系数按设定的比例选取分解后图像的小波系数,构成融合图像的小波低频系数矩阵;对高频系数采用纹理一致性测度分析特定区域不同高低频系数的边缘特性,计算图像区域的纹理一致性测度,并按照预定的规则确定融合图像的高频小波系数矩阵,所述图像区域的纹理一致性测度的计算公式定义为:
式中,EF(x)表示图像区域x的纹理一致性测度,EFl表示图像区域x的各高频分量图像在水平方向上的纹理一致性测度,EFc表示图像区域x的各高频分量图像在垂直方向上的纹理一致性测度,EFd表示图像区域x的各高频分量图像在对角线方向上的纹理一致性测度;将所述融合图像的小波低频系数矩阵、所述融合图像的高频小波系数矩阵进行离散双正交小波逆变换,最终获得融合图像。
本优选实施例设置图像融合单元,按照纹理一致性测度可较好地分辨出图像的伪边缘,在保证整体视觉效果的同时使细节信息更加丰富和真实;定义了图像区域的纹理一致性测度的计算公式,加快了图像融合的速度。
优选地,所述预定的规则包括:
(1)若图像区域中有88%以上像素值具有较大的纹理一致性测度,定义该图像区域为边缘区,选取相应的边缘纹理一致性测度最大的高频图像小波系数构成所述融合图像的高频小波系数矩阵;
(2)若图像区域中有88%以上像素值具有较小的纹理一致性测度,定义该图像区域为平滑区,分别计算两幅源图像在该图像区域的能量及匹配度,根据能量及匹配度确定两幅源图像的小波系数在融合图像小波系数中所占的比重,根据下式确定所述融合图像的高频小波系数矩阵:
RG=βARA+βBRB
式中,RG表示融合图像的高频小波系数矩阵,RA、βA分别表示一副源图像的小波系数、该小波系数在融合图像小波系数中所占的比重,RB、βB分别表示另一副源图像的小波系数、该小波系数在融合图像小波系数中所占的比重,其中βA+βB=1。
本优选实施例按照预定的规则确定融合图像的高频小波系数矩阵,提高了融合的效果以及融合的速度。
优选地,所述在包含人员的矩形区域中进行外观特征提取,包括:
(1)进行图像的光照归一化处理,具体包括:a、设图像为I,利用LOG对数将图像I转换到对数域,利用差分高斯滤波器对图像I进行平滑处理;b、对图像I进行全局对比度均衡化处理;
(2)进行图像尺寸归一化处理;
(3)进行图像分块,针对每个图像块,进行特征向量提取;
(4)将所有图像块的特征向量进行串联,然后对串联后的图像进行PCA特征降维。
本优选实施例设置特征提取模块,在提取特征前先对图像进行光照归一化处理,减少了因光照变化而产生的图像扭曲,使特征的提取更为精确。
优选地,所述训练模块包括样本分类单元和跨模态投影模型学习单元;所述样本分类单元具体执行:
设两个摄像机C1和C2对应的特征空间分别为和d1和d2分别表示两个摄像机特征空间的维度,假定训练数据集合为K对跨摄像机图像特征sk=s(xk,yk)∈{-1,+1}表示样本对的类别标签,-1表示异类,+1表示同类,根据类别标签将训练集合分为负样本集合和正样本集合|D1|+|D2|=K;
所述跨模态投影模型学习单元具体执行:
设跨模态投影模型集合H=[h1h2,…,hL],L个子模型用于处理L种数据差异,每一个子模型由一对投影函数构成,hl=[pXl(x),pYl(y)],略去脚标l,投影函数pX(x)和pY(y)将x∈X和y∈Y投影到共同的特征空间:
式中,表示投影向量,a、b∈R为线性偏差,px(x)和pY(y)将原始特征投影到{-1,+1}空间中;
同时存在投影函数qX(x)和qY(y)将x∈X和y∈Y投影到另一共同的特征空间:
建立数据类别和共同特征空间之间的关系,定义目标函数:
式中,E表示期望,表示同类样本对和异类样本对的重要性权衡指数;
式中,wk表示样本对{xk,yk}在本次子模型学习中的样本权重,sk=s(xk,yk)∈{-1,+1}表示样本对的类别标签,
通过最小化目标函数来学习参数{u,v,a,b},得到相应的投影函数。
本优选实施例采用多个跨模态投影模型,可充分应对各种不同的数据分布差异。
优选地,所述识别数据库中是否含有与查询人员一致的行人图像并确认查询人员身份,包括:
假设被查询人员集合为{fi,STA(fi)},i=1,2,…,N,fi表示第i个被查询人员,STA(fi)表示第个被查询人员的身份,对于查询人员集合{gj,STA(gj),j=1,2,…,M:
STA(gj)=STA(f)
gj和fi的相似度Z(gj,fi)表示为:
Z(gj,fi)=sign(uTgj+a)·sign(vTfi+b)+||(uTgj+a)-(vTfi+b)||
设定阔值T,T∈[1,2],若Z(gj,fi)<T,则被查询人员中不存在与查询人员一致的图像;
若Z(gj,fi)≥T,将被查询人员按照相似度从大到小排序,排在最前面的与查询人员具有相同的身份。
本优选实施例提高了视频监控联网***人员的识别精度和效率。
优选地,所述对图像识别***性能进行评估,包括:
定义评价函数:
式中,N表示查询次数,Sn表示前n位中可以找到正确结果的次数,评价函数值越大,则***的再识别性能越好。
本优选实施例设置评价模块,有利于对视频监控联网***进行改进。
本发明视频监控联网***的一组识别结果如下表所示:
N | 人员识别平均用时 | 人员识别准确率 |
6 | 0.14s | 95.5% |
12 | 0.12s | 95.3% |
18 | 0.16s | 95.7% |
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (3)
1.一种视频监控联网***,其特征是,能够通过语音和图像两种方式对人员进行识别,包括采集***、语音识别***和与图像识别***,所述采集***对语音和图像进行采集,所述语音识别***包括词典场景语音模块、相似度比较模块和语音识别引擎模块,所述图像识别***包括预处理模块、特征提取模块、训练模块、再识别模块和评价模块;所述预处理模块用于确定行人图像中的人员位置,获取包含人员的矩形区域;所述特征提取模块,用于在包含人员的矩形区域中进行外观特征提取;所述训练模块用于训练多个跨模态投影模型,每一个跨模态投影模型中包含两个投影函数,它们分别将不同摄像机中的图像持征映射到共同的特征空间中并完成相似度计算;所述再识别模块,用于识别数据库中是否含有与查询人员一致的行人图像并确认查询人员身份;所述评价模块用于对***性能进行评估。
2.根据权利要求1所述的一种视频监控联网***,其特征是,词典场景语音模块,适于对用户词汇表中的词典、场景语音依次进行采集,并将采集的特征矢量作为模版进行保存;
相似度比较模块,适于将语音输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出。
3.根据权利要求2所述的一种视频监控联网***,其特征是,所述词典场景语音模块中的模版包括监控***术语模版和人体语音加词典模版。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611063348.0A CN106355171A (zh) | 2016-11-24 | 2016-11-24 | 一种视频监控联网*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611063348.0A CN106355171A (zh) | 2016-11-24 | 2016-11-24 | 一种视频监控联网*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106355171A true CN106355171A (zh) | 2017-01-25 |
Family
ID=57863012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611063348.0A Pending CN106355171A (zh) | 2016-11-24 | 2016-11-24 | 一种视频监控联网*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106355171A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919954A (zh) * | 2017-03-02 | 2017-07-04 | 深圳明创自控技术有限公司 | 一种用于商品分类的云计算*** |
CN108090473A (zh) * | 2018-01-12 | 2018-05-29 | 北京陌上花科技有限公司 | 多相机下人脸识别的方法及装置 |
CN108345866A (zh) * | 2018-03-08 | 2018-07-31 | 天津师范大学 | 一种基于深度特征学习的行人再识别方法 |
CN108924483A (zh) * | 2018-06-27 | 2018-11-30 | 南京朴厚生态科技有限公司 | 一种基于深度学习技术的野外动物的自动监测***和方法 |
CN111292764A (zh) * | 2018-11-20 | 2020-06-16 | 新唐科技股份有限公司 | 辨识***及辨识方法 |
CN111507774A (zh) * | 2020-04-28 | 2020-08-07 | 上海依图网络科技有限公司 | 一种数据处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346547A (zh) * | 2013-07-26 | 2015-02-11 | 宁夏新航信息科技有限公司 | 一种智能化的身份识别*** |
CN104834849A (zh) * | 2015-04-14 | 2015-08-12 | 时代亿宝(北京)科技有限公司 | 基于声纹识别和人脸识别的双因素身份认证方法及*** |
CN105228033A (zh) * | 2015-08-27 | 2016-01-06 | 联想(北京)有限公司 | 一种视频处理方法及电子设备 |
CN105426723A (zh) * | 2015-11-20 | 2016-03-23 | 北京得意音通技术有限责任公司 | 基于声纹识别、人脸识别以及同步活体检测的身份认证方法及*** |
-
2016
- 2016-11-24 CN CN201611063348.0A patent/CN106355171A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346547A (zh) * | 2013-07-26 | 2015-02-11 | 宁夏新航信息科技有限公司 | 一种智能化的身份识别*** |
CN104834849A (zh) * | 2015-04-14 | 2015-08-12 | 时代亿宝(北京)科技有限公司 | 基于声纹识别和人脸识别的双因素身份认证方法及*** |
CN105228033A (zh) * | 2015-08-27 | 2016-01-06 | 联想(北京)有限公司 | 一种视频处理方法及电子设备 |
CN105426723A (zh) * | 2015-11-20 | 2016-03-23 | 北京得意音通技术有限责任公司 | 基于声纹识别、人脸识别以及同步活体检测的身份认证方法及*** |
Non-Patent Citations (3)
Title |
---|
刘凯: ""无交叠多摄像机网络中的人员再辨识"", 《中国博士学位论文全文数据库 信息科技辑》 * |
张德祥等: ""基于小波变换纹理一致性测度的遥感图像融合算法"", 《仪器仪表学报》 * |
许百林: ""基于矢量两户(VQ)和混合高斯模型(GMM)的说话人识别的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919954A (zh) * | 2017-03-02 | 2017-07-04 | 深圳明创自控技术有限公司 | 一种用于商品分类的云计算*** |
CN108090473A (zh) * | 2018-01-12 | 2018-05-29 | 北京陌上花科技有限公司 | 多相机下人脸识别的方法及装置 |
CN108345866A (zh) * | 2018-03-08 | 2018-07-31 | 天津师范大学 | 一种基于深度特征学习的行人再识别方法 |
CN108345866B (zh) * | 2018-03-08 | 2021-08-24 | 天津师范大学 | 一种基于深度特征学习的行人再识别方法 |
CN108924483A (zh) * | 2018-06-27 | 2018-11-30 | 南京朴厚生态科技有限公司 | 一种基于深度学习技术的野外动物的自动监测***和方法 |
CN111292764A (zh) * | 2018-11-20 | 2020-06-16 | 新唐科技股份有限公司 | 辨识***及辨识方法 |
CN111292764B (zh) * | 2018-11-20 | 2023-12-29 | 新唐科技股份有限公司 | 辨识***及辨识方法 |
CN111507774A (zh) * | 2020-04-28 | 2020-08-07 | 上海依图网络科技有限公司 | 一种数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106355171A (zh) | 一种视频监控联网*** | |
CN107766787B (zh) | 人脸属性识别方法、装置、终端及存储介质 | |
Kang et al. | Learning consistent feature representation for cross-modal multimedia retrieval | |
Ansari et al. | Nearest neighbour classification of Indian sign language gestures using kinect camera | |
Kagaya et al. | Highly accurate food/non-food image classification based on a deep convolutional neural network | |
CN109784197B (zh) | 基于孔洞卷积与注意力学习机制的行人再识别方法 | |
Li | Analysis of object detection performance based on Faster R-CNN | |
CN105205449B (zh) | 基于深度学习的手语识别方法 | |
CN112560631A (zh) | 一种基于知识蒸馏的行人重识别方法 | |
CN105608454B (zh) | 基于文字结构部件检测神经网络的文字检测方法及*** | |
CN104966081B (zh) | 书脊图像识别方法 | |
CN107527065B (zh) | 一种基于卷积神经网络的花卉品种识别模型建立方法 | |
CN104008375A (zh) | 基于特征融合的集成人脸识别方法 | |
CN106980826A (zh) | 一种基于神经网络的动作识别方法 | |
CN110472652A (zh) | 基于语义引导的少量样本分类方法 | |
CN106529586A (zh) | 基于补充文本特征的图像分类方法 | |
CN108537109B (zh) | 基于OpenPose的单目相机手语识别方法 | |
CN107368803A (zh) | 一种基于类别稀疏表示的人脸识别方法及*** | |
CN112733665A (zh) | 一种基于轻量化网络结构设计的人脸识别方法及*** | |
CN110826534A (zh) | 一种基于局部主成分分析的人脸关键点检测方法及*** | |
CN108280417A (zh) | 一种手指静脉快速识别方法 | |
CN113743389A (zh) | 一种面部表情识别的方法、装置和电子设备 | |
CN110956116B (zh) | 基于卷积神经网络的人脸图像性别识别模型及识别方法 | |
CN102110303B (zh) | 基于支撑向量回归的人脸伪照片合成方法 | |
CN106557756A (zh) | 一种人员再识别*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170125 |
|
RJ01 | Rejection of invention patent application after publication |