CN109684990B - 一种基于视频的打电话行为检测方法 - Google Patents
一种基于视频的打电话行为检测方法 Download PDFInfo
- Publication number
- CN109684990B CN109684990B CN201811565980.4A CN201811565980A CN109684990B CN 109684990 B CN109684990 B CN 109684990B CN 201811565980 A CN201811565980 A CN 201811565980A CN 109684990 B CN109684990 B CN 109684990B
- Authority
- CN
- China
- Prior art keywords
- call
- image
- making
- model
- shoulder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于视频的打电话行为检测方法,包括以下步骤:A.对视频图像进行处理,获得头肩模型检测的送检图像;B.利用人头肩模型,对步骤A中得到的图像进行检测,获得人头肩的位置及相应的得分;C.对B中检测出来的头肩图像进行处理,获得打电话模型检测的送检图像;D.利用打电话模型,对步骤C得到的图像进行检测,获得打电话手势、嘴的位置及相应的得分;E.利用步骤D中的检测结果,进行打电话检测的逻辑判断。本发明有益效果:实现了打电话行为检测的自动化,不仅省去了大量的人力成本和时间成本,而且提高了打电话检测的准确性和实时性,本发明具有多种场景的适用性。
Description
技术领域
本发明属于视频检测技术领域,尤其是涉及一种基于视频的打电话行为检测方法。
背景技术
在某些特定场景是不允许有接打电话行为,例如:法制部门审判案件,机动车驾驶,考试等。人员监督无法起到实时的监督作用,或者事后监控视频筛查,既需要大量的人力和时间成本并且不具有主动性。所以需要一种基于视频的打电话行为检测方法解决此类问题。
发明内容
有鉴于此,本发明旨在提出一种基于视频的打电话行为检测方法,以解决上述问题的不足之处。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于视频的打电话行为检测方法,包括以下步骤:
A.对视频图像进行处理,获得头肩模型检测的送检图像;
B.利用人头肩模型,对步骤A中得到的图像进行检测,获得人头肩的位置及相应的得分;
C.对B中检测出来的头肩图像进行处理,获得打电话模型检测的送检图像;
D.利用打电话模型,对步骤C得到的图像进行检测,获得打电话手势、嘴的位置及相应的得分;
E.利用步骤D中的检测结果,进行打电话检测的逻辑判断。
进一步的,所述步骤A中对视频图像的处理过程为:将待检测区域以较长的边长为基准随机生成长宽比为1:1的图像,原待检测区域在新图像中的位置随机。
进一步的,所述步骤B中人头肩模型训练过程如下:
先采集各种形态和场景的头肩样本,并对样本进行标注,即根据头肩在图像中的位置,标出真实的位置坐标,并赋予此位置头肩标签,基于caffe框架,使用采集的样本与标注信息训练SSD模型,采用随机梯度下降方法对模型反复进行迭代训练,每次迭代使得损失函数更小,使用的损失函数如下式,
其中,x表示前向传播的得到的预测类别,c表示的真实类别,l表示前向传播得到的头肩预测位置坐标,g表示头肩的真实位置坐标,Lconf为分类损失,Lloc为位置回归损失,α为这两种损失的平衡参数,N表示与真实标注框匹配上的样本数目。
进一步的,所述步骤C中图像处理过程为:使待检测区域以长边随机生成1:1的图像,待检测区域在图像中的位置随机。
进一步的,所述步骤D中打电话模型训练过程如下:
先采集各种形态和场景的打电话样本,并对样本进行标注,即根据打电话手势和嘴在图像中的位置,标出真实的位置坐标,并分别赋予此位置打电话手势或者嘴的标签,基于caffe框架,使用采集的样本与标注信息训练SSD模型,采用随机梯度下降方法对模型反复进行迭代训练,每次迭代使得损失函数更小,使用的损失函数如下式,
其中,x表示前向传播的得到的预测类别,c表示的真实类别,l表示前向传播得到的打电话手势和嘴预测位置坐标,g表示打电话手势和嘴的真实位置坐标,Lconf为分类损失,Lloc为位置回归损失,α为这两种损失的平衡参数,N表示与真实标注框匹配上的样本数目。
进一步的,所述步骤E中进行打电话检测的逻辑判断过程如下:
E1.对步骤D中的检测结果根据目标的得分进行阈值筛选,筛选掉得分小于0.3的目标;
E2.利用筛选后的检测结果,通过比较打电话手势和嘴的区域的位置关系与真实打电话时其位置关系,排除模型误检,确定此帧图像中人是否在打电话,如果为打电话帧,进行打电话帧数累积;如果不是打电话帧,则进行打电话帧数削减;
E3.通过判断打电话的累计的帧数是否大于阈值,来确定此人是否正在打电话。
相对于现有技术,本发明所述的基于视频的打电话行为检测方法具有以下优势:
本发明所述的基于视频的打电话行为检测方法首先获取视频图像,对图像进行处理,获得头肩模型送检图像,使用深度学习目标检测的方法确定头肩位置,并对头肩区域图像进行处理,获得打电话模型的送检图像,使用深度学习目标检测的方法确定打电话手势和嘴位置,通过判断嘴和打电话手势的区域位置关系排除误检,在一定的时间内如果打电话的能量累积大于设定的阈值,则判定此人此时正在打电话。此方法实现了打电话行为检测的自动化,不仅省去了大量的人力成本和时间成本,而且提高了打电话检测的准确性和实时性,本发明具有多种场景的适用性。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的基于视频的打电话行为检测方法流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
如图1所示,一种基于视频的打电话行为检测方法,包括以下步骤:
A.对视频图像进行处理,获得头肩模型检测的送检图像;
B.利用人头肩模型,对步骤A中得到的图像进行检测,获得人头肩的位置及相应的得分;
C.对B中检测出来的头肩图像进行处理,获得打电话模型检测的送检图像;
D.利用打电话模型,对步骤C得到的图像进行检测,获得打电话手势、嘴的位置及相应的得分;
E.利用步骤D中的检测结果,进行打电话检测的逻辑判断。
所述步骤A中对视频图像的处理过程为:将待检测区域以较长的边长为基准随机生成长宽比为1:1的图像,原待检测区域在新图像中的位置随机。
所述步骤B中人头肩模型是一种深度学习SSD模型,其训练过程如下:
先采集各种形态(侧身,正身,低头)和场景(室内、室外)的头肩样本,并对样本进行标注,即根据头肩在图像中的位置,标出真实的位置坐标,并赋予此位置头肩标签,基于caffe框架,使用采集的样本与标注信息训练SSD模型,采用随机梯度下降方法对模型反复进行迭代训练,每次迭代使得损失函数更小,使用的损失函数如下式,
其中,x表示前向传播的得到的预测类别,c表示的真实类别,l表示前向传播得到的头肩预测位置坐标,g表示头肩的真实位置坐标,Lconf为分类损失,Lloc为位置回归损失,α为这两种损失的平衡参数,N表示与真实标注框匹配上的样本数目。
最后用检测效果最好(Map值最高)的人头肩模型对步骤A得到的图像进行检测,从而确定头肩在图像中的具***置。
所述步骤C中图像处理过程为:使待检测区域以长边随机生成1:1的图像,待检测区域在图像中的位置随机。
所述步骤D中打电话模型也是一种深度学习SSD模型,其训练过程如下:
先采集各种形态和场景的打电话样本,并对样本进行标注,即根据打电话手势和嘴在图像中的位置,标出真实的位置坐标,并分别赋予此位置打电话手势或者嘴的标签,基于caffe框架,使用采集的样本与标注信息训练SSD模型,采用随机梯度下降方法对模型反复进行迭代训练,每次迭代使得损失函数更小,使用的损失函数如下式,
其中,x表示前向传播的得到的预测类别,c表示的真实类别,l表示前向传播得到的打电话手势和嘴预测位置坐标,g表示打电话手势和嘴的真实位置坐标,Lconf为分类损失,Lloc为位置回归损失,α为这两种损失的平衡参数,N表示与真实标注框匹配上的样本数目。
最后用检测效果最好(Map值最高)的打电话模型对步骤C得到的图像进行检测,从而确定打电话手势和嘴在图像中的具***置和相应得分。
所述步骤E中进行打电话检测的逻辑判断过程如下:
E1.对步骤D中的检测结果根据目标的得分进行阈值筛选,筛选掉得分小于0.3的目标,(得分由模型检测得出,表示待检测目标与真是目标的相似程度);
E2.利用筛选后的检测结果,通过比较打电话手势和嘴的区域的位置关系与真实打电话时其位置关系,排除模型误检,确定此帧图像中人是否在打电话,如果为打电话帧,进行打电话帧数累积;如果不是打电话帧,则进行打电话帧数削减;
E3.通过判断打电话的累计的帧数是否大于阈值(20帧),来确定此人是否正在打电话。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于视频的打电话行为检测方法,其特征在于,包括以下步骤:
A.对视频图像进行处理,获得头肩模型检测的送检图像;
B.利用人头肩模型,对步骤A中得到的图像进行检测,获得人头肩的位置及相应的得分;
C.对B中检测出来的头肩图像进行处理,获得打电话模型检测的送检图像;
D.利用打电话模型,对步骤C得到的图像进行检测,获得打电话手势、嘴的位置及相应的得分;
E.利用步骤D中的检测结果,进行打电话检测的逻辑判断;
步骤B中人头肩模型训练过程如下:
先采集各种形态和场景的头肩样本,并对样本进行标注,即根据头肩在图像中的位置,标出真实的位置坐标,并赋予此位置头肩标签,基于caffe框架,使用采集的样本与标注信息训练SSD模型,采用随机梯度下降方法对模型反复进行迭代训练,每次迭代使得损失函数更小,使用的损失函数如下式,
其中,x表示前向传播的得到的预测类别,c表示的真实类别,1表示前向传播得到的头肩预测位置坐标,g表示头肩的真实位置坐标,Lconf为分类损失,Lloc为位置回归损失,α为这两种损失的平衡参数,N表示与真实标注框匹配上的样本数目;
步骤D中打电话模型训练过程如下:
先采集各种形态和场景的打电话样本,并对样本进行标注,即根据打电话手势和嘴在图像中的位置,标出真实的位置坐标,并分别赋予此位置打电话手势或者嘴的标签,基于caffe框架,使用采集的样本与标注信息训练SSD模型,采用随机梯度下降方法对模型反复进行迭代训练,每次迭代使得损失函数更小,使用的损失函数如下式,
其中,x表示前向传播的得到的预测类别,c表示的真实类别,1表示前向传播得到的打电话手势和嘴预测位置坐标,g表示打电话手势和嘴的真实位置坐标,Lconf为分类损失,Lloc为位置回归损失,α为这两种损失的平衡参数,N表示与真实标注框匹配上的样本数目。
2.根据权利要求1所述的一种基于视频的打电话行为检测方法,其特征在于,所述步骤A中对视频图像的处理过程为:将待检测区域以较长的边长为基准随机生成长宽比为1∶1的图像,原待检测区域在新图像中的位置随机。
3.根据权利要求1所述的一种基于视频的打电话行为检测方法,其特征在于,所述步骤C中图像处理过程为:使待检测区域以长边随机生成1∶1的图像,待检测区域在图像中的位置随机。
4.根据权利要求1所述的一种基于视频的打电话行为检测方法,其特征在于,所述步骤E中进行打电话检测的逻辑判断过程如下:
E1.对步骤D中的检测结果根据目标的得分进行阈值筛选,筛选掉得分小于0.3的目标;
E2.利用筛选后的检测结果,通过比较打电话手势和嘴的区域的位置关系与真实打电话时其位置关系,排除模型误检,确定此帧图像中人是否在打电话,如果为打电话帧,进行打电话帧数累积;如果不是打电话帧,则进行打电话帧数削减;
E3.通过判断打电话的累计的帧数是否大于阈值,来确定此人是否正在打电话。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811565980.4A CN109684990B (zh) | 2018-12-20 | 2018-12-20 | 一种基于视频的打电话行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811565980.4A CN109684990B (zh) | 2018-12-20 | 2018-12-20 | 一种基于视频的打电话行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109684990A CN109684990A (zh) | 2019-04-26 |
CN109684990B true CN109684990B (zh) | 2023-05-30 |
Family
ID=66188367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811565980.4A Active CN109684990B (zh) | 2018-12-20 | 2018-12-20 | 一种基于视频的打电话行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684990B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414344B (zh) * | 2019-06-25 | 2023-06-06 | 深圳大学 | 一种基于视频的人物分类方法、智能终端及存储介质 |
CN112818939A (zh) * | 2021-03-03 | 2021-05-18 | 上海高德威智能交通***有限公司 | 一种行为检测方法、装置及电子设备 |
CN113673342A (zh) * | 2021-07-19 | 2021-11-19 | 浙江大华技术股份有限公司 | 行为检测方法、电子装置和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913022A (zh) * | 2016-04-11 | 2016-08-31 | 深圳市飞瑞斯科技有限公司 | 一种基于视频分析的手持式打电话状态判别方法及*** |
CN107832728A (zh) * | 2017-11-21 | 2018-03-23 | 天津英田视讯科技有限公司 | 一种基于视频的审判员打电话行为识别方法 |
CN108564034A (zh) * | 2018-04-13 | 2018-09-21 | 湖北文理学院 | 一种驾驶员行车中操作手机行为的检测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260705B (zh) * | 2015-09-15 | 2019-07-05 | 西安邦威电子科技有限公司 | 一种适用于多姿态下的驾驶人员接打电话行为检测方法 |
JP6515764B2 (ja) * | 2015-09-28 | 2019-05-22 | 株式会社デンソー | 対話装置及び対話方法 |
CN106611162B (zh) * | 2016-12-20 | 2019-06-18 | 西安电子科技大学 | 基于深度学习ssd框架的道路车辆实时检测方法 |
CN108345819B (zh) * | 2017-01-23 | 2020-09-15 | 杭州海康威视数字技术股份有限公司 | 一种发送报警消息的方法和装置 |
CN107301384A (zh) * | 2017-06-09 | 2017-10-27 | 湖北天业云商网络科技有限公司 | 一种驾驶员接打电话行为检测方法及*** |
CN107844783A (zh) * | 2017-12-06 | 2018-03-27 | 西安市交通信息中心 | 一种营运车辆异常驾驶行为检测方法及*** |
CN108846442A (zh) * | 2018-06-21 | 2018-11-20 | 吉旗物联科技(上海)有限公司 | 一种基于决策树的打电话手势视觉检测算法 |
-
2018
- 2018-12-20 CN CN201811565980.4A patent/CN109684990B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913022A (zh) * | 2016-04-11 | 2016-08-31 | 深圳市飞瑞斯科技有限公司 | 一种基于视频分析的手持式打电话状态判别方法及*** |
CN107832728A (zh) * | 2017-11-21 | 2018-03-23 | 天津英田视讯科技有限公司 | 一种基于视频的审判员打电话行为识别方法 |
CN108564034A (zh) * | 2018-04-13 | 2018-09-21 | 湖北文理学院 | 一种驾驶员行车中操作手机行为的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109684990A (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163076B (zh) | 一种图像数据处理方法和相关装置 | |
CN109684990B (zh) | 一种基于视频的打电话行为检测方法 | |
CN105608456B (zh) | 一种基于全卷积网络的多方向文本检测方法 | |
CN109325418A (zh) | 基于改进YOLOv3的道路交通环境下行人识别方法 | |
CN105740780B (zh) | 人脸活体检测的方法和装置 | |
WO2021051601A1 (zh) | 利用Mask R-CNN选择检测框的方法及***、电子装置及存储介质 | |
CN108268867B (zh) | 一种车牌定位方法及装置 | |
WO2019033525A1 (zh) | Au特征识别方法、装置及存储介质 | |
CN109711407B (zh) | 一种车牌识别的方法及相关装置 | |
CN106022231A (zh) | 一种基于多特征融合的行人快速检测的技术方法 | |
CN109919002B (zh) | 黄色禁停线识别方法、装置、计算机设备及存储介质 | |
CN111027481B (zh) | 基于人体关键点检测的行为分析方法及装置 | |
CN106648078B (zh) | 应用于智能机器人的多模态交互方法及*** | |
CN110674680B (zh) | 活体识别的方法、装置、存储介质 | |
CN109726678B (zh) | 一种车牌识别的方法及相关装置 | |
KR20190068000A (ko) | 다중 영상 환경에서의 동일인 재식별 시스템 | |
CN112766218B (zh) | 基于非对称联合教学网络的跨域行人重识别方法和装置 | |
CN110781785A (zh) | 基于Faster RCNN算法改进的交通场景下行人检测方法 | |
CN109568123B (zh) | 一种基于yolo目标检测的穴位定位方法 | |
CN113869276B (zh) | 基于微表情的谎言识别方法及*** | |
CN111008576A (zh) | 行人检测及其模型训练、更新方法、设备及可读存储介质 | |
CN111753610A (zh) | 天气识别方法及装置 | |
CN113632097A (zh) | 对象间的关联性的预测方法、装置、设备和存储介质 | |
CN103077380A (zh) | 一种基于视频的人数统计方法及装置 | |
CN111950507B (zh) | 数据处理和模型训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |