CN109218660B

CN109218660B - 一种视频处理方法及装置

Info

Publication number: CN109218660B
Application number: CN201710551156.2A
Authority: CN
Inventors: 王勃飞
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2021-10-12
Anticipated expiration: 2037-07-07
Also published as: CN109218660A

Abstract

本发明实施例提供一种视频处理方法及装置，通过对基础视频中的视频帧进行识别并生成包含各目标结构化语义信息的集合信息，然后根据各视频帧所对应的时间信息将各视频帧划分到对应的时间组，对时间组中的各视频帧所对应的结构化语义信息进行聚合，得到组内结构化语义信息，能够将基础视频帧中记录的图像信息转换成包含时间信息的结构化语义信息，并利用目标活动具有持续性的特点，在时间段内聚合各目标的结构化语义信息，得到该时间段的组内结构化语义信息。让用户在需要了解基础视频中记录的视频信息时，基于各时间段对应的组内结构化语义信息即可基本了解基础视频中记录的信息，极大地减少了用户的浏览量，减轻了用户负担，提升了用户体验。

Description

一种视频处理方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种视频处理方法及装置。

背景技术

在安防领域中，视频监控是一种非常重要的手段，也是使用最为广泛的一种方案，例如公共交通领域，商用、民用防盗领域等，监控摄像头都随处可见。由于监控摄像头总是客观地记录自己所监控区域内的图像，因此，能够在人们进行溯往查询的时候提供可信的依据。但也正是因为监控摄像头会客观记录所有的画面，所以很多摄像头拍摄得到的视频中包含较多无用的信息，这在民用安防领域中尤为突出：例如，如果用户希望通过安装在自家的摄像头所记录的视频了解星期一在自己家里发生的事情，则用户需要完整浏览摄像头在星期一所记录的全部视频，这需要耗费大量的时间。基本不会有用户花费这么长的时间来进行仔细浏览，而是会根据主观猜测从完整视频中选择部分时段的视频进行查看。但这种浏览方式带有太大的主观性，容易导致用户漏掉比较重要的视频信息。

对于用户而言，其期望了解的只是在星期一是否有人或动物在监控区域出没行动，对于另外一些完全静止的画面并没有兴趣。所以现有的视频处理方案中，会通过移动侦测技术保留有运动信息的视频帧给用户浏览。这种方案虽然能够为用户筛除部分无用视频帧，但是其保留的视频依然很长，不利于用户抓住要点，且容易记录大量无意义运动视频，如光照变化、窗帘被风吹动等等。

所以现在亟需提供一种新的视频处理方案，用于从大量的视频中提取出用户感兴趣的信息，减少用户了解视频信息时需要花费大量时间，用户体验低的问题。

发明内容

本发明实施例提供的一种视频处理方法及装置，主要解决的技术问题是：解决现有视频处理方案中通过移动侦测技术保留有运动信息的视频帧给用户浏览，导致用户需要浏览大量视频，导致用户体验低的问题。

为解决上述技术问题，本发明实施例提供一种视频处理方法，包括：

对基础视频中的视频帧进行目标识别，并根据识别结果为各所述视频帧生成集合信息，所述集合信息包括所述视频帧内各目标的结构化语义信息，所述结构化语义信息中包含按照预设顺序排列的时间信息、目标信息及目标行为信息；

根据各所述视频帧所对应的时间信息将各所述视频帧划分到对应的时间组；

对所述时间组中的各所述视频帧所对应的结构化语义信息进行聚合，得到针对所述时间组的组内结构化语义信息。

本发明实施例还提供一种视频处理装置，包括处理器、存储器及通信总线；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行存储器中存储的终端软件测试程序，以实现以下步骤：

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行前述的任一项的视频处理方法。

本发明的有益效果是：

本发明实施例提供的视频处理方法、装置以及计算机存储介质，通过对基础视频中的视频帧进行目标识别，并根据识别结果为各视频帧生成包含各目标结构化语义信息的集合信息，然后根据各视频帧所对应的时间信息将各视频帧划分到对应的时间组，随后，对时间组中的各视频帧所对应的结构化语义信息进行聚合，得到针对时间组的组内结构化语义信息。本发明提供的视频处理处理方案，能够将基础视频帧中记录的图像信息转换成包含时间信息的结构化语义信息，同时利用目标活动具有持续性的特点，在时间段内对各目标的结构化语义信息进行聚合，得到该时间段的组内结构化语义信息。让用户在需要了解基础视频中记录的视频信息时，基于基础视频中各时间段对应的组内结构化语义信息即可基本了解基础视频中记录的信息。这极大地减少了用户的浏览量，减轻了用户负担，提升了用户体验。

附图说明

图1为本发明实施例一中提供的视频处理方法的一种流程图；

图2为本发明实施例二中提供的视频处理方法的一种流程图；

图3为本发明实施例二中提供的在各视频帧的集合信息中查找到针对同一目标的结构化语义信息的流程图；

图4为本发明实施例二中提供的一种视频帧中各目标之行为位置的关系示意图；

图5为与图4视频帧中相邻的后帧中各目标之行为位置的关系示意图；

图6为本发明实施例三中提供的视频处理方法的一种流程图；

图7为本发明实施例四中提供的视频处理装置的一种硬件结构示意图；

图8为本发明实施例五中提供的视频处理装置的一种硬件结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。

实施例一：

为了解决现有视频处理方案中通过移动侦测技术保留有运动信息的视频帧给用户浏览，导致用户需要浏览大量视频，导致用户体验低的问题，本发明提供一种视频处理方法，请参见图1示出的视频处理方法的一种流程图：

S102、对基础视频中的视频帧进行目标识别，并根据识别结果为各视频帧生成集合信息。

所谓目标，通常是指用户比较感兴趣的被监控对象，例如人、宠物等。应当理解的是，静物，诸如家庭中的电器、家具等在没有人力作用下，常年也不会发生任何空间位置改变，所以用户安装监控摄像头实际上并不是为了对监控摄像头监控范围内的静物进行监测，而是为了对会发生空间位置变化，能够有动作行为的人或动物等进行监控，从而根据监控所得视频了解人或动物的行为。本实施例中，视频处理装置在视频帧中进行目标识别时可以采用智能视频分析法，例如传统特征描述子+分类器法、深度学习法等。

一个视频帧的集合信息中包括该视频帧内各目标的结构化语义信息，所谓结构化语义信息就是将视频中的目标相关的信息按照预设的排列顺序，例如，在本实施例中的结构化语义信息中包括目标信息、目标行为信息与目标做出相关行为的时间信息，且时间信息与目标信息与目标行为信息总是按照固定顺序排列，例如针对第i帧中的第j个目标，其结构化语义信息可以表征为：

SM_i,j＝[时间信息,目标信息,目标行为信息]^T

应当理解的是，第i帧中的第j个目标结构化语义信息中的时间信息也就是第i个视频帧所对应的时间信息。毫无疑义的是，视频处理装置也可以按照其他顺序对三者进行排序，只是，一旦对第i帧中第j个目标的结构化语义信息进行了调整，则需要对基础视频中所有视频帧的所有目标的结构化语义信息进行同样的调整，从而保证所有视频帧中所有目标的结构化语义信息都符合同一标准，方便后续处理。

本实施例中，将一个视频帧内目标总数称为“帧内数目”，假定第i帧的帧内数目为J，其中J的取值可以大于等于1。其中第i帧的集合信息为：

SM_i＝{SM_ij|0<j<J}

在本实施例的一种示例当中，视频处理装置可以直接将监控摄像头采集到的原始视频作为基础视频。但考虑到原始视频中有相当多的视频帧并不包含目标，所以在本实施例中，视频处理装置并不会直接将原始视频作为基础视频。所以在对基础视频中的视频帧进行目标识别之前，视频处理装置还需要先从原始视频中获取到基础视频。

视频处理装置从原始视频中筛选获得基础视频主要是要筛除原始视频中不包含运动信息的视频帧，所以，视频处理装置会对原始视频中的各视频帧进行运动信息检测，然后筛除原始视频中不包含运动信息的视频帧后得到基础视频。进行运动信息检测时，视频处理装置可以采用光流法，帧间差分法以及背景差分法中的至少一种进行：

光流(optical flow)法是空间运动物体在观测成像面上的像素运动的瞬时速度。物体在运动的时候，它在图像上对应点的亮度模式也在做相应的运动，这种图像亮度模式的表观运动就是光流。光流的研究就是利用图像序列中像素的强度数据的时域变化和相关性来确定各自像素位置的“运动”。光流表达了图像的变化，因此可被观察者用来确定目标的运动情况。一般情况下，光流由相机运动、场景中目标运动或两者的共同运动产生。光流法检测运动目标，其基本思想是赋予图像中的每一个像素点一个速度矢量，从而形成了该图像的运动场。图像上的点和三维物体上的点在某一特定的运动时刻是一一对应的，根据各像素点的速度矢量特征对图像进行动态的分析。若图像中不存在运动目标，那么光流矢量在整个图像区域则是连续变化的，而当物体和图像背景中存在相对运动时，运动物体所形成的速度矢量则必然不同于邻域背景的速度矢量，从而将运动物体的位置检测出来。

帧间差分法通过对序列图像中相邻视频帧做差分或“相减”运算，利用序列图像中相邻视频帧的强相关性进行变化检测，从而检测出运动目标。她通过直接比较相邻视频帧对应像素点灰度值的不同，然后通过选取阈值来提取序列图像中的运动区域。

背景差分法是在背景静止的情况下常用的运动目标检测方法，其主要是通过将当前视频帧图像与实现得到的背景图像或实时得到的背景图像做“相减”运算，得到差分图像，然后用选定阈值进行二值化处理后得到运动目标区域。背景剪发操作简单，能够提供完全的特征数据，但其对天气、光照等噪声干扰特别敏感。

通常，视频处理装置可以将上述帧间差分法与背景差分法结合从而实现视频帧运动信息的检测。

S104、根据各视频帧所对应的时间信息将各视频帧划分到对应的时间组。

由于目标在做某一件事情时，特别是人在做某件事情时，通常会持续一段时间，例如，一个人在看电视、看书时，看电视、看书这些动作并不是在一瞬间完成的，而是会持续较长的时间。所以加入在监控摄像头的监控范围内，有人坐着看电视，则监控摄像头所采集到的多个视频帧中，这个人都应当是面向电视而坐。对于需要了解基础视频内容的用户而言，其并不需要具体了解被监控目标在每一视频帧中是什么样的状态，因为在视频中，一个视频帧所对应的时间是用户几乎感知不到的时间：由于人类眼睛的特殊生理结构，如果所看画面之帧率高于16的时候，就会认为是连贯的，此现象称之为视觉暂留。而通常的视频帧率还会大于16，也就是说，每一个视频所对应的时间甚至小于1/16秒。而目标的行为基本不会在这么短的时间内开始并结束，所以，对于用户而言，了解每一帧中目标的行为并没有什么意义，用户真正想要了解的是在一段较长的时间内，被监控目标做了什么事情，所以理想情况下，视频处理装置应当根据将被监控目标在基础视频所对应的时间范围内做了什么行为总结给用户。

在本实施例中，视频处理装置会根据各视频帧所对应的时间信息将各视频帧划分到对应的时间组，以便后续过程中针对每个时间组进行结构化语义信息聚合处理。由于各视频帧被划分到对应的时间组之后，后续聚合处理都是以时间组为对象，所以视频处理装置应当保证被划分到一个时间组中的视频帧所对应的目标行为比较一致。在本实施例的一种示例当中，视频处理装置会根据预设时长及各视频帧所对应的时间信息将基础视频中的各视频帧划分到对应的时间组，也就是说，被划分到同一时间组中各视频帧的时间信息相差不会超过预设时长，即划分后各时间组中起始帧与终止帧间的时间差不超过预设时长。

根据视频处理经验，目标的行为通常可以持续15分钟，所以在该示例当中，假定预设时长时15分钟，也就是说，视频处理装置会每个15分钟设置一个时间组，假定基础视频的起始时间是上午10:00，则第一个时间组即为10:00～10:15。视频处理装置将会把时间信息处于10:00～10:15之间的所有视频帧都划分到第一个时间组中。同样地，视频处理装置将会把时间信息处于15:00～30:00之间的所有视频帧都划分到第二个时间组中……依次类推，直到将基础视频中各视频帧均划分到对应视频组中为止。

假定经过视频处理装置的划分，基础视频被划分成了K个分组，其中，第k个时间组可以被表示为：

SMSeg_k＝{SM_i|i∈第k个时间组}

在本实施例的其他示例当中，预设时长并不是必须设置成15分钟，甚至在部分示例当中可以由用户自定义设置预设时长的大小，用户可以根据被监控目标的运动特性确定预设时长的大小：例如，被监控目标喜静，则可以将预设时长设置得比较大，因为，被监控目标可能长时间都在执行同一行为；而如果被监控目标好动，则用户可以将预设时长设置得稍微小一点，因为在相同时长内，好动的监控目标可能已经进行了好几种行为了。假定甲、乙两个用户在各自家中安装监控摄像头是为了分别监控各自的宠物猫与宠物狗，则根据猫和狗各自的习性可知，猫好静，而狗好动，所以，甲用户在设置预设时长时可能比较大，这样甲用户可以让视频处理装置将基础视频各视频帧的结构化语义信息聚合地尽可能地简单，减少自己了解基础视频内容所花费的时间；而乙用户则需要将预设时长设置得比较小，以便全面充分地了解宠物狗在被监控期间所进行的各种行为。

S106、对时间组中的各视频帧所对应的结构化语义信息进行聚合，得到针对时间组的组内结构化语义信息。

视频处理装置根据各视频帧所对应的时间信息将各视频帧划分到对应的时间组之后，其会针对每一个时间组进行结构化语义信息聚合，从而得到针对各时间组的组内结构化语义信息。

在本实施例的一种示例当中，视频处理装置可以直接对有基础视频帧中各视频帧进行划分所得的时间组进行结构化语义信息聚合。理想情况下，预设时长内各视频帧的帧内数目，即各视频帧中目标总数应当是一致的。但这没有考虑目标被遮挡，没被监控摄像头拍摄到的情况，也没有考虑视频处理装置识别各视频帧中目标时出现误差的情况。由于目标被遮挡以及识别目标时的误差毕竟是少数情况，所以，在本实施例中，视频处理装置对某个时间组进行结构化语义信息聚合之前还可以先去除该时间组中容易导致聚合结果不准确的部分视频帧，在本实施例中提供这样两种方式针对时间组进行视频帧筛除：

第一种，视频处理装置在时间组内计算各视频帧帧内数目的组内均值，保留帧内数目最接近组内均值的视频帧，筛除剩余视频帧。例如，假定某个时间组中原本包含22500个视频帧，其中有21000个视频帧中包含有3个目标，剩余1500个视频帧中有1000个视频帧包括2个目标，500个视频帧包含1个目标，则组内均值

Avg＝(21000*3+1000*2+500*1)/22500≈2.91

所以，该时间组的组内均值为2.91，而最接近该组内均值的帧内数目为3，故，视频处理装置会保留帧内数目为3的21000个视频帧，筛除帧内数目分别为2和1的1500个视频帧。

第二种，视频处理装置保留时间组内帧内数目等于组内高频数目的视频帧，筛除剩余视频帧，帧内数目为各视频帧中包含目标的个数，组内高频数目为在时间组内出现频率最高的帧内数目。例如，同样针对上述时间组，组内出现频率最高的帧内数目就是3，所以，视频处理装置还是会保留帧内数目为3的21000个视频帧，筛除帧内数目分别为2和1的1500个视频帧。

视频处理装置对各时间组中容易造成聚合偏差的视频帧进行筛除之后，可以针对组内各视频帧进行结构化信息聚合。聚合得到针对时间组的组内结构化语义信息后，用户就可以直接基于该组内结构化语义信息了解在该时间组所对应的时间内，被监控目标进行了什么样的行为。例如，假定某个时间组k的帧内数目为J，则第k各时间组的组内结构化语义信息为

{[第j个目标,第j个目标的目标行为信息]^T|j∈[1,J]}；

经过聚合的组内结构化语义信息中可以不包括时间信息，但为了让用户能明白该组内结构化语义信息是针对某一个时间段的，则视频处理装置需要另外向用户示出各时间组同具体时间的对应关系，例如第一时间组对应的具体时间为上午10:00～10:15等。当用户看到第一个时间组的组内结构化语义信息之后就能确定组内结构化语义信息是在对上午10:00～10:15的监控内容进行描述。在本实施例的另一种示例当中，在聚合后得到的组内结构化语义信息中也可以包括时间组的时间信息。

另外，在本实施例的一种示例当中，视频处理装置直接呈现给用户的并不是组内结构化语义信息，而是根据组内结构化语义信息得到描述总结信息，描述总结信息根据组内结构化语义信息内各部分的内容，将标准的结构化语言转换成文字描述和/或图片描述，例如，转换后得到的描述总结信息为文字信息：“在上午10:00～10:15，第一个目标在做X事件，第二个目标在做Y事件，第三个目标在做Z事件”等。

本发明实施例提供的视频处理方法，通过对基础视频中各视频帧进行目标识别，生成针对各视频帧的包含有视频帧内各目标结构化语义信息的集合信息，然后按照时间对各视频帧进行划分，最后对划分所得的各时间组进行结构化语义信息聚合，从而得到针对时间组的组内结构化语义信息，让用户可以直接根据组内结构化语义信息了解对应时段内监控摄像头所采集到的主要信息，避免了用户浏览基础视频时花费大量时间的做法。同时，视频处理装置在获取基础视频时，会筛除原始视频中不包含运动信息的视频帧，减少了后续处理的处理量，提升了处理效率，减少了处理资源浪费的问题。

另一方面，视频处理装置得到组内结构化语义信息之后，会根据组内结构化语义信息生成描述总结信息，让用户可以更加直观地通过描述总结信息了解各时段内发生的事情，提升了用户体验。

实施例二：

本实施例将对本发明提供的视频处理方法作进一步介绍，尤其详细阐述聚合结构化语义信息的过程，请参见图2示出的视频处理方法的一种流程图：

S202、对原始视频中的各视频帧进行运动信息检测，筛除原始视频中不包含运动信息的视频帧后获得基础视频。

由于实施例一中对筛除不包含运动信息的视频帧的原因及方式进行了比较详细地阐释，所以这里就不再赘述。

S204、对基础视频中的视频帧进行目标识别，并根据识别结果为各视频帧生成集合信息。

和实施例一中类似，一个视频帧的集合信息中包括该视频帧中各目标的结构化语义信息。本实施例中，结构化语义信息中依旧包括时间信息与目标信息以及目标行为信息，其中目标信息包括目标类别，例如，“人”或“动物”等；目标行为信息包括目标行为位置与行为类别，其中行为类别包括“玩手机”、“看电视”、“阅读”、“吃零食”等，行为类别可以由用户根据基础视频所对应的场地进行定义设置，例如，针对在客厅采集到的基础视频，行为类别包括“玩手机”、“看电视”、“阅读”、“吃零食”等，针对来源于饭厅的基础视频，行为类别可以是“吃饭”、“收拾餐桌”等。目标行为位置是指发生对应行为的坐标位置。视频处理装置在对一个视频帧进行目标识别时，需要得到上述四种信息。

在本实施例的一种示例当中，视频处理装置会将结构化语义信息中的目标信息、目标行为信息进行量化，例如，“人物”为“0”，“猫”为“1”、“狗”则被量化为“2”……等。所以，“0”、“1”“2”分别是“人物”、“猫”、“狗”三种目标类别的标准目标信息。同样地，视频处理装置将“吃东西”、“看电视”、“玩电子设备”分别用整数“3”、“4”、“5”进行量化表示，所以“3”、“4”、“5”分别是“吃东西”、“看电视”、“玩电子设备”三种行为类别的标准行为类别。

针对某一视频帧中某一个目标的结构化语义信息，视频处理装置可以采用一个四维矢量进行表示，例如第i帧的第j个目标的结构化语义信息为：

SM_i,j＝[FrNo_i,Pos_i,j,Type_i,j,Action_i,j]^T

其中，FrNo_i表示第i帧的帧号，应当理解的是，该帧号可表征第i个视频帧的时间信息。Pos_i,j表示第i帧中第j个目标的行为位置，Type_i,j表示第i帧中第j个目标的目标类型，Action_i,j表示第i帧中第j个目标的行为类别。

假定第i帧中包含的目标总数，即帧内数目为J，则第i帧的集合信息可由第i帧所有目标的结构化语义信息集合进行表示，假设第i帧共有J个目标，则第i帧的集合信息为

SM_i＝{SM_ij|0<j<J}

S206、根据各视频帧所对应的时间信息将各视频帧划分到对应的时间组。

视频处理装置得到基础视频中每一个视频帧的集合信息之后，将会按照预设时长将各视频帧划分到对应的时间组中。应当明白的是，将视频帧划分到对应的时间组，实际上也就是将视频帧对应的结构化语义信息划分到对应的时间组。假定经过视频处理装置的划分，一共得到了K个时间组，则其中第k个时间组可以被表示为

SMSeg_k＝{SM_i|i∈第k个时间组}

S208、筛除各时间组中会引起聚合结构不准确的视频帧。

视频处理装置将基础视频帧中各视频帧划分到对应时间组之后，将会先把各时间组中会引起聚合结果不准确的视频帧，视频处理装置可以采用实施例一中两种方式中的任意一种筛除因识别误差或拍摄被遮挡而导致帧内数目出现偏差的视频帧。

S210、对时间组中的各视频帧所对应的结构化语义信息进行聚合，得到针对时间组的组内结构化语义信息。

在一个时间组当中，每个视频帧的集合信息实际上就是该视频帧中各个目标的结构化语义信息集合。所以，SMSeg_k中实际上是一个时间段内各个目标在各视频帧的结构化语义信息的集合。而聚合处理实际上是期望在时间组内得到以各目标为基础的结构化语义信息，例如通过聚合得到目标X在时间段T内于P位置做S事情。所以，对一个时间组中各视频帧所对应的结构化语义信息进行聚合，其关键在于找到各视频帧集合信息中针对同一个目标的结构化语义信息，然后将针对同一目标的结构化语义信息进行聚合，得到针对该目标的组内结构化语义信息。

所以为了对第k个时间组中各视频帧的结构化语义信息进行聚合，本实施例中视频处理装置需要先在各视频帧的集合信息中查找到针对同一目标的结构化语义信息，然后将针对同一个目标的结构化语义信息进行聚合得到针对该目标的组内结构化语义信息。

如果第k个时间组的各视频帧中只有一个目标，则这种情况非常简单，各视频帧的集合信息均仅由该唯一目标的结构化语义信息集合构成，所以视频处理装置可以直接将各集合信息中唯一的结构化语义信息均作为针对目标的结构化语义信息。

但如果第k个时间组的各视频帧中包括J个目标，且J大于等于2，则：视频处理装置可以按照如图3所示的方式在各集合信息中查找到针对同一目标的结构化语义信息：

S302、对于任意两个相邻视频帧，视频处理装置将前帧集合信息中各结构化语义信息之排列顺序作为标准顺序。

首先，假定视频处理装置当前是在对第k个时间组中的第i帧与第i+1帧针对同一目标的结构化语义信息进行查找，而且，第k个时间组中每一个视频帧中均有三个目标A、B、C；另外，在确定第i个视频帧所对应的结构化语义信息SM_i时，都是按照目标在视频帧中的位置，从左至右，从上到下依次描述。在本实施例中，将相邻两个视频帧中靠前的一帧称为“前帧”，将另一视频帧称为“后帧”，例如，图4和图5中分别示出了第i个视频帧(前帧)和第i+1个视频帧(后帧)，其中SM_i和SM_i+1分别为第i帧与第i+1帧的集合信息：

SM_i＝{SM_i,1,SM_i,2,SM_i,3}

SM_i+1＝{SM_i+1,1,SM_i+1,2,SM_i+1,3}

其中，SM_i,1,SM_i,2,SM_i,3分别是A、B、C在前帧中的结构化语义信息，而SM_i+1,1,SM_i+1,2,SM_i+1,3也是三个目标在后帧中的结构化语义信息，但是由于不同视频帧对应不同时刻，而目标在不同时刻是可能发生位置改变的，所以，对于视频处理装置而言，其目前并不能确定SM_i+1,1,SM_i+1,2,SM_i+1,3是否就一定是对应着目标A、B、C的。也即，视频处理装置不能确定后帧中的目标51是否就是前帧中的目标41，后帧中的目标52是否就是前帧中的目标42，后帧中的目标53是否就是前帧中的目标43。

为了确定SM_i+1,1,SM_i+1,2,SM_i+1,3分别对应于哪一个目标，本实施例中，视频处理装置可以先将前帧集合信息SM_i中{SM_i,1,SM_i,2,SM_i,3}的排序作为标准排序。

S304、视频处理装置对后帧集合信息中各结构化语义信息进行排序得到J！种待选排序。

对于后帧，可能存在3！种待选排序，例如待选排序{SM_i+1,1,SM_i+1,2,SM_i+1,3}，待选排序{SM_i+1,1,SM_i+1,3,SM_i+1,2}，待选排序{SM_i+1,3,SM_i+1,2,SM_i+1,1}……等。应当明白的是，当一个时间组中包括J个目标时，待选排序也就有J！种。

S306、视频处理装置根据前帧与后帧中各结构化语义信息中的行为位置分别计算待选排序中序号与标准排序中序号相同的两个行为位置间的距离。

由于在前帧所对应的结构化语义信息中包括各个目标的行为位置，而后帧所对应的结构化语义信息中也包括各个目标的行为位置，因此，针对每一种待选排序，视频处理装置可以计算出前帧中第一个行为位置同后帧中第一个行为位置之间的距离信息S1，前帧中第二个行为位置同后帧中第二个行为位置之间的距离信息S2，以及前帧中第三个行为位置同后帧中第三个行为位置之间的距离信息S3。对于帧内数目为J的情景，计算方式也是依次类推。

S308、视频处理装置计算待选排序中各行为位置同标准顺序中序号对应的行为位置间的距离和。

对于帧内数目为3的情景，视频处理装置可以计算出各待选排序中各目标同标准顺序中各目标的距离和S。例如，针对第x种待选排序，距离和Sx＝S1+S2+S3。

S310、视频处理装置选择距离和最小的待选排序作为后帧集合信息的标准排序。

最后，视频处理装置可以从J！种待选排序中选择一个距离和S最小的，将该待选排序作为后帧中各结构化语义信息的标准排序。例如，针对上述帧内数目为3的示例，最终计算确定第一种待选排序的距离和最小，而第一种待选排序为{SM_i+1,1,SM_i+1,2,SM_i+1,3}，也就是说，后帧中的SM_i+1,1,SM_i+1,2,SM_i+1,3分别对应于A，B，C。也即SM_i和SM_i+1中第一个结构化语义信息都是针对目标A的，而第二个结构化语义信息都是针对目标B的，而第三个结构化语义信息都是针对目标C的。对于其他各视频帧的处理方式也是类似。

确定出时间组内针对同一个目标的结构化语义信息之后，视频处理装置可将针对该目标的结构化语义信息进行聚合得到针对该目标的组内结构化语义信息。假定在一个时间组内针对第一个目标的结构化语义信息分别有SM_1,1、SM_2,1和SM_3,1，其中

SM_1,1＝[1,(1,2),0,5]^T

SM_2,1＝[2,(1,3),1,6]^T

SM_3,1＝[3,(1,2),0,6]^T

首先，视频处理装置根据各视频帧所对应的语义结构化信息计算该目标在时间组内平均目标信息与平均目标行为信息，针对该示例中的该目标，视频处理装置经过计算确定平均行为位置为((1+1+1)/3,(2+3+2)/3)，即(1,7/3)；平均目标类别为(0+1+0)/3，即1/3；平均目标行为类别为(5+6+6)/3，即17/3。

然后，视频处理装置从预设的标准目标信息与标准目标行为信息中为该目标选择出实际目标信息与实际目标行为信息，其中，实际目标信息是与平均目标信息最接近的标准目标信息，实际目标行为信息是与平均目标行为信息最接近的标准目标行为信息。例如在前面已经介绍过“人物”、“猫”、“狗”三种目标类别的标准目标信息分别是“0”、“1”“2”，而“吃东西”、“看电视”、“玩电子设备”三种行为的标准目标行为信息分别为“3”、“4”、“5”，所以最终经过匹配可知，该目标在该时间组内，的组内结构化语义信息为

SM_实际i＝[(1,7/3),0,6]^T

实际上，在得到结构化语义信息之后，视频处理装置可以直接将该信息呈现给用户，同时向用户示出各坐标位置与家庭类各功能区域的对应关系，各标准目标信息同对应标准目标之间的对应关系以及各标准目标行为信息同对应标准目标行为之间的对应关系，以便用户根据这些对应关系明确组内结构化语义信息所表征的含义。

S212、根据组内结构化语义信息得到针对时间组的描述总结信息。

在本实施例的一种示例当中，视频处理装置会根据实际目标信息及实际目标行为信息与相关对应关系确定出组内结构化语义信息的含义，得到针对时间组的描述总结信息，然后示出给用户，让用户了解在相应时间中发生了什么。

本实施例提供的视频处理方法，能够将基础视频帧中记录的图像信息转换成包含时间信息的结构化语义信息，同时利用目标活动具有持续性的特点，在时间段内对各目标的结构化语义信息进行聚合，得到该时间段的组内结构化语义信息。让用户在需要了解基础视频中记录的视频信息时，基于基础视频中各时间段对应的组内结构化语义信息即可基本了解基础视频中记录的信息。这极大地减少了用户的浏览量，减轻了用户负担，提升了用户体验。

实施例三：

本实施例将结合具体示例对前述实施例中的视频处理方法做进一步介绍，请参见图6：

S602、采用帧间差分法从原始视频中得到基础视频。

基础视频原始视频中包含有运动信息的各视频帧的集合。针对原始视频亮度分量Y，采用帧间差分法，检测出原始视频中包含运动信息的视频帧。例如，根据经验值设定阈值T_diff，针对某一个视频帧计算与该视频帧与相邻的前一视频帧或多个视频帧的平均绝对偏差值AvgDiff，若AvgDiff超过设定阈值T_diff，则认为该视频帧是包含运动信息的视频帧，反之则认为该视频帧不包含运动信息。

S604、采用RFCN法对视频中的人物进行检测，识别任务行为信息，确定行为位置。

RFCN(Region-based Fully Convolutional Networks)，即基于区域的全卷积网络算法。本实施例中视频处理装置仅对视频帧中的人物进行检测识别，这是由于用户仅对监控视频中的人物感兴趣。所以目标类型只有一类为“人物”，用整数0表示，若有更多类型则依次递增；待识别的行为类别是“吃东西”、“看电视”、“玩电子设备”三类，分别用整数0、1、2进行表示，若有更多类型则依次递增。

假设第10帧共有3个人，其中第一个人坐标位置为(x0,y0)，行为是“吃东西”；第二个人坐标位置为(x1,y1)，行为是“看电视”；第三个人坐标位置为(x2,y2)，行为是“玩电子设备”；则该视频帧的集合信息可表示为：

SM_10,0＝[10,(x0,y0),0,0]^T

SM_10,1＝[10,(x1,y1),0,1]^T

SM_10,0＝[10,(x2,y2),0,2]^T

类似的，其它视频帧也采用同样的方式进行描述。

S606、按照预设时长1小时对一天的基础视频进行时间组划分。

假设用户设定的时间周期为一天，则对当天视频帧文字语义集合进行聚类，生成当天的活动事件总结信息，具体实施步骤举例说明如下：

假设，当天所有视频帧的集合信息表示为：

SM＝{SM_i|i∈当天}

首先，视频处理装置按照预设时长1小时对各视频帧进行时间组划分，假设最终共有K＝16个这样的分组，则当天的文字语义集合可表示为

SM＝SMSeg₀、SMSeg₁、…、SMSeg₁₆

以第k＝5个分组为例，可表示为：

SMSeg₅＝{SM_i|i∈第5个时间组}

S608、对各时间组中各视频帧所对应的结构化语义信息进行聚合。

针对每个时间组，视频处理装置统计该时间组的组内均值，并筛除该时间组内帧内数目不等于该组内均值的视频帧。

随后，视频处理装置按照实施例二中的介绍对各时间组中剩余的视频帧进行结构化语义信息聚合。

S610、根据组内结构化语义信息得到针对时间组的描述总结信息。

最后，根据聚合所得的组内结构化语义信息，以时间组为单位，输出当天活动事件文字描述，该文字描述包含所有分组起始时间，包含的目标个数，以及每个目标的类型、活动位置和行为类别。例如“上午11点30分到11点45分，共有4个人在活动，其中第一个人在沙发上看电视，第二个人在桌子上吃东西，第三个人在沙发上玩电子设备”。

本实施例提供的视频处理方案，能够极大程度地简化用户了解视频信息的工作量，让用户通过简单、直观的方式获知视频内容，从而提升用户体验。

第四实施例：

本实施例对前述实施例中的视频处理装置进行介绍，请参见图7示出的视频处理装置的一种硬件结构示意图：

视频处理装置70包括处理器71、存储器72及通信总线73，其中通信总线73用于实现处理器71和存储器72之间的连接通信，存储器72作为一种计算机可读存储介质，其中存储有至少一个计算机程序，这些计算机程序可以供处理器71读取、编译并执行，从而实现对应的处理流程。例如，在本实施例中，存储器72中存储有视频处理程序，处理器71可以通过执行该计算机程序实现前述实施例中介绍的视频处理方法。

首先，处理器71会对基础视频中的视频帧进行目标识别，并根据识别结果为各视频帧生成集合信息。

SM_i,j＝[时间信息,目标信息,目标行为信息]^T

应当理解的是，第i帧中的第j个目标结构化语义信息中的时间信息也就是第i个视频帧所对应的时间信息。毫无疑义的是，处理器71也可以按照其他顺序对三者进行排序，只是，一旦对第i帧中第j个目标的结构化语义信息进行了调整，则需要对基础视频中所有视频帧的所有目标的结构化语义信息进行同样的调整，从而保证所有视频帧中所有目标的结构化语义信息都符合同一标准，方便后续处理。

SM_i＝{SM_ij|0<j<J}

在本实施例的一种示例当中，处理器71可以直接将监控摄像头采集到的原始视频作为基础视频。但考虑到原始视频中有相当多的视频帧并不包含目标，所以在本实施例中，处理器71并不会直接将原始视频作为基础视频。所以在对基础视频中的视频帧进行目标识别之前，处理器71还需要先从原始视频中获取到基础视频。

处理器71从原始视频中筛选获得基础视频主要是要筛除原始视频中不包含运动信息的视频帧，所以，处理器71会对原始视频中的各视频帧进行运动信息检测，然后筛除原始视频中不包含运动信息的视频帧后得到基础视频。进行运动信息检测时，处理器71可以采用光流法，帧间差分法以及背景差分法中的至少一种进行。通常，处理器71可以将上述帧间差分法与背景差分法结合从而实现视频帧运动信息的检测。

然后处理器71根据各视频帧所对应的时间信息将各视频帧划分到对应的时间组。在本实施例中，处理器71会根据各视频帧所对应的时间信息将各视频帧划分到对应的时间组，以便后续过程中针对每个时间组进行结构化语义信息聚合处理。由于各视频帧被划分到对应的时间组之后，后续聚合处理都是以时间组为对象，所以处理器71应当保证被划分到一个时间组中的视频帧所对应的目标行为比较一致。在本实施例的一种示例当中，处理器71会根据预设时长及各视频帧所对应的时间信息将基础视频中的各视频帧划分到对应的时间组，也就是说，被划分到同一时间组中各视频帧的时间信息相差不会超过预设时长，即划分后各时间组中起始帧与终止帧间的时间差不超过预设时长。

根据视频处理经验，目标的行为通常可以持续15分钟，所以在该示例当中，假定预设时长时15分钟，也就是说，处理器71会每个15分钟设置一个时间组，假定基础视频的起始时间是上午10:00，则第一个时间组即为10:00～10:15。处理器71将会把时间信息处于10:00～10:15之间的所有视频帧都划分到第一个时间组中。同样地，处理器71将会把时间信息处于15:00～30:00之间的所有视频帧都划分到第二个时间组中……依次类推，直到将基础视频中各视频帧均划分到对应视频组中为止。

假定经过处理器71的划分，基础视频被划分成了K个分组，其中，第k个时间组可以被表示为：

SMSeg_k＝{SM_i|i∈第k个时间组}

在本实施例的其他示例当中，预设时长并不是必须设置成15分钟，甚至在部分示例当中可以由用户自定义设置预设时长的大小，用户可以根据被监控目标的运动特性确定预设时长的大小：例如，被监控目标喜静，则可以将预设时长设置得比较大，因为，被监控目标可能长时间都在执行同一行为；而如果被监控目标好动，则用户可以将预设时长设置得稍微小一点，因为在相同时长内，好动的监控目标可能已经进行了好几种行为了。假定甲、乙两个用户在各自家中安装监控摄像头是为了分别监控各自的宠物猫与宠物狗，则根据猫和狗各自的习性可知，猫好静，而狗好动，所以，甲用户在设置预设时长时可能比较大，这样甲用户可以让处理器71将基础视频各视频帧的结构化语义信息聚合地尽可能地简单，减少自己了解基础视频内容所花费的时间；而乙用户则需要将预设时长设置得比较小，以便全面充分地了解宠物狗在被监控期间所进行的各种行为。

处理器71根据各视频帧所对应的时间信息将各视频帧划分到对应的时间组之后，其会针对每一个时间组进行结构化语义信息聚合，从而得到针对各时间组的组内结构化语义信息。

在本实施例的一种示例当中，处理器71可以直接对有基础视频帧中各视频帧进行划分所得的时间组进行结构化语义信息聚合。理想情况下，预设时长内各视频帧的帧内数目，即各视频帧中目标总数应当是一致的。但这没有考虑目标被遮挡，没被监控摄像头拍摄到的情况，也没有考虑处理器71识别各视频帧中目标时出现误差的情况。由于目标被遮挡以及识别目标时的误差毕竟是少数情况，所以，在本实施例中，处理器71对某个时间组进行结构化语义信息聚合之前还可以先去除该时间组中容易导致聚合结果不准确的部分视频帧，在本实施例中提供这样两种方式针对时间组进行视频帧筛除：

第一种，处理器71在时间组内计算各视频帧帧内数目的组内均值，保留帧内数目最接近组内均值的视频帧，筛除剩余视频帧。例如，假定某个时间组中原本包含22500个视频帧，其中有21000个视频帧中包含有3个目标，剩余1500个视频帧中有1000个视频帧包括2个目标，500个视频帧包含1个目标，则组内均值

Avg＝(21000*3+1000*2+500*1)/22500≈2.91

所以，该时间组的组内均值为2.91，而最接近该组内均值的帧内数目为3，故，处理器71会保留帧内数目为3的21000个视频帧，筛除帧内数目分别为2和1的1500个视频帧。

第二种，处理器71保留时间组内帧内数目等于组内高频数目的视频帧，筛除剩余视频帧，帧内数目为各视频帧中包含目标的个数，组内高频数目为在时间组内出现频率最高的帧内数目。例如，同样针对上述时间组，组内出现频率最高的帧内数目就是3，所以，处理器71还是会保留帧内数目为3的21000个视频帧，筛除帧内数目分别为2和1的1500个视频帧。

处理器71对各时间组中容易造成聚合偏差的视频帧进行筛除之后，可以针对组内各视频帧进行结构化信息聚合。聚合得到针对时间组的组内结构化语义信息后，用户就可以直接基于该组内结构化语义信息了解在该时间组所对应的时间内，被监控目标进行了什么样的行为。例如，假定某个时间组k的帧内数目为J，则第k各时间组的组内结构化语义信息为

{[第j个目标,第j个目标的目标行为信息]^T|j∈[1,J]}；

经过聚合的组内结构化语义信息中可以不包括时间信息，但为了让用户能明白该组内结构化语义信息是针对某一个时间段的，则处理器71需要另外向用户示出各时间组同具体时间的对应关系，例如第一时间组对应的具体时间为上午10:00～10:15等。当用户看到第一个时间组的组内结构化语义信息之后就能确定组内结构化语义信息是在对上午10:00～10:15的监控内容进行描述。在本实施例的另一种示例当中，在聚合后得到的组内结构化语义信息中也可以包括时间组的时间信息。

另外，在本实施例的一种示例当中，处理器71直接呈现给用户的并不是组内结构化语义信息，而是根据组内结构化语义信息得到描述总结信息，描述总结信息根据组内结构化语义信息内各部分的内容，将标准的结构化语言转换成文字描述和/或图片描述，例如，转换后得到的描述总结信息为文字信息：“在上午10:00～10:15，第一个目标在做X事件，第二个目标在做Y事件，第三个目标在做Z事件”等。

本发明实施例提供的视频处理装置，通过对基础视频中各视频帧进行目标识别，生成针对各视频帧的包含有视频帧内各目标结构化语义信息的集合信息，然后按照时间对各视频帧进行划分，最后对划分所得的各时间组进行结构化语义信息聚合，从而得到针对时间组的组内结构化语义信息，让用户可以直接根据组内结构化语义信息了解对应时段内监控摄像头所采集到的主要信息，避免了用户浏览基础视频时花费大量时间的做法。同时，处理器在获取基础视频时，会筛除原始视频中不包含运动信息的视频帧，减少了后续处理的处理量，提升了处理效率，减少了处理资源浪费的问题。

另一方面，处理器得到组内结构化语义信息之后，会根据组内结构化语义信息生成描述总结信息，让用户可以更加直观地通过描述总结信息了解各时段内发生的事情，提升了用户体验。

实施例五：

本实施例将结合图8对本发明提供的视频处理装置80作进一步介绍，尤其详细阐述聚合结构化语义信息的过程。

本实施例中的视频处理装置可以以各种形式来实施。例如，手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

在本实施例中，视频处理装置80包括处理器81、存储器82以及用户输入单元83、显示单元84。其中存储器82中存储是视频处理程序，用以供处理器81读取并执行，从而实现视频处理方法。用户输入单元83可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元83可包括触控面板以及其他输入设备。显示单元84用于显示由用户输入的信息或提供给用户的信息。显示单元84可包括显示面板，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。

由于实施例三中对处理器筛除不包含运动信息的视频帧的原因及方式进行了比较详细地阐释，所以这里对于处理器81从原始视频中获取基础视频的过程不再赘述。

和实施例一中类似，一个视频帧的集合信息中包括该视频帧中各目标的结构化语义信息。本实施例中，结构化语义信息中依旧包括时间信息与目标信息以及目标行为信息，其中目标信息包括目标类别，例如，“人”或“动物”等；目标行为信息包括目标行为位置与行为类别，其中行为类别包括“玩手机”、“看电视”、“阅读”、“吃零食”等，行为类别可以由用户根据基础视频所对应的场地进行定义设置，例如，针对在客厅采集到的基础视频，行为类别包括“玩手机”、“看电视”、“阅读”、“吃零食”等，针对来源于饭厅的基础视频，行为类别可以是“吃饭”、“收拾餐桌”等。目标行为位置是指发生对应行为的坐标位置。处理器81在对一个视频帧进行目标识别时，需要得到上述四种信息。

在本实施例的一种示例当中，处理器81会将结构化语义信息中的目标信息、目标行为信息进行量化，例如，“人物”为“0”，“猫”为“1”、“狗”则被量化为“2”……等。所以，“0”、“1”“2”分别是“人物”、“猫”、“狗”三种目标类别的标准目标信息。同样地，处理器81将“吃东西”、“看电视”、“玩电子设备”分别用整数“3”、“4”、“5”进行量化表示，所以“3”、“4”、“5”分别是“吃东西”、“看电视”、“玩电子设备”三种行为类别的标准行为类别。

针对某一视频帧中某一个目标的结构化语义信息，处理器81可以采用一个四维矢量进行表示，例如第i帧的第j个目标的结构化语义信息为：

SM_i,j＝[FrNo_i,Pos_i,j,Type_i,j,Action_i,j]^T

SM_i＝{SM_ij|0<j<J}

处理器81得到基础视频中每一个视频帧的集合信息之后，将会按照预设时长将各视频帧划分到对应的时间组中。应当明白的是，将视频帧划分到对应的时间组，实际上也就是将视频帧对应的结构化语义信息划分到对应的时间组。在本实施例中，预设时长可以由用户通过用户输入单元83输入自定义设置。

假定经过处理器81的划分，一共得到了K个时间组，则其中第k个时间组可以被表示为

SMSeg_k＝{SM_i|i∈第k个时间组}

处理器81将基础视频帧中各视频帧划分到对应时间组之后，将会先把各时间组中会引起聚合结果不准确的视频帧，处理器81可以采用实施例一中两种方式中的任意一种筛除因识别误差或拍摄被遮挡而导致帧内数目出现偏差的视频帧。

所以为了对第k个时间组中各视频帧的结构化语义信息进行聚合，本实施例中处理器81需要先在各视频帧的集合信息中查找到针对同一目标的结构化语义信息，然后将针对同一个目标的结构化语义信息进行聚合得到针对该目标的组内结构化语义信息。

如果第k个时间组的各视频帧中只有一个目标，则这种情况非常简单，各视频帧的集合信息均仅由该唯一目标的结构化语义信息集合构成，所以处理器81可以直接将各集合信息中唯一的结构化语义信息均作为针对目标的结构化语义信息。

但如果第k个时间组的各视频帧中包括J个目标，且J大于等于2，则：处理器81可以按照如下方式在各集合信息中查找到针对同一目标的结构化语义信息：

对于任意两个相邻视频帧，处理器81将前帧集合信息中各结构化语义信息之排列顺序作为标准顺序。假定处理器81当前是在对第k个时间组中的第i帧与第i+1帧针对同一目标的结构化语义信息进行查找，而且，第k个时间组中每一个视频帧中均有三个目标A、B、C；另外，在确定第i个视频帧所对应的结构化语义信息SM_i时，都是按照目标在视频帧中的位置，从左至右，从上到下依次描述。在本实施例中，将相邻两个视频帧中靠前的一帧称为“前帧”，将另一视频帧称为“后帧”，例如，图4和图5中分别示出了第i个视频帧(前帧)和第i+1个视频帧(后帧)，其中SM_i和SM_i+1分别为第i帧与第i+1帧的集合信息：

SM_i＝{SM_i,1,SM_i,2,SM_i,3}

SM_i+1＝{SM_i+1,1,SM_i+1,2,SM_i+1,3}

其中，SM_i,1,SM_i,2,SM_i,3分别是A、B、C在前帧中的结构化语义信息，而SM_i+1,1,SM_i+1,2,SM_i+1,3也是三个目标在后帧中的结构化语义信息，但是由于不同视频帧对应不同时刻，而目标在不同时刻是可能发生位置改变的，所以，对于处理器81而言，其目前并不能确定SM_i+1,1,SM_i+1,2,SM_i+1,3是否就一定是对应着目标A、B、C的。也即，处理器81不能确定后帧中的目标51是否就是前帧中的目标41，后帧中的目标52是否就是前帧中的目标42，后帧中的目标53是否就是前帧中的目标43。

为了确定SM_i+1,1,SM_i+1,2,SM_i+1,3分别对应于哪一个目标，本实施例中，处理器81可以先将前帧集合信息SM_i中{SM_i,1,SM_i,2,SM_i,3}的排序作为标准排序。

然后，处理器81对后帧集合信息中各结构化语义信息进行排序得到J！种待选排序。

由于在前帧所对应的结构化语义信息中包括各个目标的行为位置，而后帧所对应的结构化语义信息中也包括各个目标的行为位置，因此，针对每一种待选排序，处理器81可以计算出前帧中第一个行为位置同后帧中第一个行为位置之间的距离信息S1，前帧中第二个行为位置同后帧中第二个行为位置之间的距离信息S2，以及前帧中第三个行为位置同后帧中第三个行为位置之间的距离信息S3。对于帧内数目为J的情景，计算方式也是依次类推。

随后，处理器81计算待选排序中各行为位置同标准顺序中序号对应的行为位置间的距离和。例如，对于帧内数目为3的情景，处理器81可以计算出各待选排序中各目标同标准顺序中各目标的距离和S。例如，针对第x种待选排序，距离和Sx＝S1+S2+S3。

最后，处理器81可以从J！种待选排序中选择一个距离和S最小的，将该待选排序作为后帧中各结构化语义信息的标准排序。例如，针对上述帧内数目为3的示例，最终计算确定第一种待选排序的距离和最小，而第一种待选排序为{SM_i+1,1,SM_i+1,2,SM_i+1,3}，也就是说，后帧中的SM_i+1,1,SM_i+1,2,SM_i+1,3分别对应于A，B，C。也即SM_i和SM_i+1中第一个结构化语义信息都是针对目标A的，而第二个结构化语义信息都是针对目标B的，而第三个结构化语义信息都是针对目标C的。对于其他各视频帧的处理方式也是类似。

确定出时间组内针对同一个目标的结构化语义信息之后，处理器81可将针对该目标的结构化语义信息进行聚合得到针对该目标的组内结构化语义信息。假定在一个时间组内针对第一个目标的结构化语义信息分别有SM_1,1、SM_2,1和SM_3,1，其中

SM_1,1＝[1,(1,2),0,5]^T

SM_2,1＝[2,(1,3),1,6]^T

SM_3,1＝[3,(1,2),0,6]^T

首先，处理器81根据各视频帧所对应的语义结构化信息计算该目标在时间组内平均目标信息与平均目标行为信息，针对该示例中的该目标，处理器81经过计算确定平均行为位置为((1+1+1)/3,(2+3+2)/3)，即(1,7/3)；平均目标类别为(0+1+0)/3，即1/3；平均目标行为类别为(5+6+6)/3，即17/3。

然后，处理器81从预设的标准目标信息与标准目标行为信息中为该目标选择出实际目标信息与实际目标行为信息，其中，实际目标信息是与平均目标信息最接近的标准目标信息，实际目标行为信息是与平均目标行为信息最接近的标准目标行为信息。例如在前面已经介绍过“人物”、“猫”、“狗”三种目标类别的标准目标信息分别是“0”、“1”“2”，而“吃东西”、“看电视”、“玩电子设备”三种行为的标准目标行为信息分别为“3”、“4”、“5”，所以最终经过匹配可知，该目标在该时间组内，的组内结构化语义信息为

SM_实际i＝[(1,7/3),0,6]^T

实际上，在得到结构化语义信息之后，处理器81可以直接将该信息通过显示单元84呈现给用户，同时向用户示出各坐标位置与家庭类各功能区域的对应关系，各标准目标信息同对应标准目标之间的对应关系以及各标准目标行为信息同对应标准目标行为之间的对应关系，以便用户根据这些对应关系明确组内结构化语义信息所表征的含义。

在本实施例的一种示例当中，处理器81会根据实际目标信息及实际目标行为信息与相关对应关系确定出组内结构化语义信息的含义，得到针对时间组的描述总结信息，然后通过显示单元84示出给用户，让用户了解在相应时间中发生了什么。

本实施例提供的视频处理装置，能够将基础视频帧中记录的图像信息转换成包含时间信息的结构化语义信息，同时利用目标活动具有持续性的特点，在时间段内对各目标的结构化语义信息进行聚合，得到该时间段的组内结构化语义信息。让用户在需要了解基础视频中记录的视频信息时，基于基础视频中各时间段对应的组内结构化语义信息即可基本了解基础视频中记录的信息。这极大地减少了用户的浏览量，减轻了用户负担，提升了用户体验。

本发明还提供一种计算机可读存储介质，其可以存储视频处理程序，以供处理器读取、编译并执行实现前述各实施例中的视频处理方法。

显然，本领域的技术人员应该明白，上述本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种视频处理方法，包括：

对基础视频中的视频帧进行目标识别，并根据识别结果为各所述视频帧生成集合信息，所述集合信息包括所述视频帧内各目标的结构化语义信息，所述结构化语义信息中包含按照预设顺序排列的时间信息、目标信息及目标行为信息，目标的行为位置；

对所述时间组中的各所述视频帧所对应的结构化语义信息进行聚合，得到针对所述时间组的组内结构化语义信息；其中，若所述时间组的各视频帧中只有一个目标，则将各所述集合信息中唯一的结构化语义信息均作为针对所述目标的结构化语义信息；

若所述时间组的各视频帧中包括J个目标，所述J大于等于2，则：

对于任意两个相邻视频帧，将前帧集合信息中各结构化语义信息之排列顺序作为标准顺序；

对后帧集合信息中各结构化语义信息进行排序，得到J！种待选排序；

根据所述前帧与后帧中各结构化语义信息中的行为位置分别计算待选排序中序号与标准排序中序号相同的两个行为位置间的距离；

计算待选排序中各行为位置同标准顺序中序号对应的行为位置间的距离和；

选择距离和最小的待选排序作为所述后帧集合信息的标准排序，所述后帧集合信息中第j个结构化语义信息与所述前帧集合信息中的第j个结构化语义信息针对同一目标，所述j大于等于1，小于等于J。

2.如权利要求1所述的视频处理方法，其特征在于，所述对基础视频中的各视频帧进行目标识别之前还包括：

对原始视频中的各视频帧进行运动信息检测；

筛除所述原始视频中不包含运动信息的视频帧后获得所述基础视频。

3.如权利要求1所述的视频处理方法，其特征在于，所述根据各所述视频帧所对应的时间信息将各所述视频帧划分到对应的时间组包括：

根据用户设置的预设时长及各所述视频帧所对应的时间信息将所述基础视频中的各所述视频帧划分到对应的时间组，划分后所述时间组中起始帧与终止帧间的时间差不超过所述预设时长。

4.如权利要求1所述的视频处理方法，其特征在于，所述对所述时间组中的各所述视频帧所对应的结构化语义信息进行聚合之前还包括：

在所述时间组内计算各视频帧帧内数目的组内均值，保留帧内数目最接近所述组内均值的所述视频帧，筛除剩余视频帧，所述帧内数目为各视频帧中包含目标的个数；

或，

保留所述时间组内帧内数目等于组内高频数目的视频帧，筛除剩余视频帧，所述帧内数目为各视频帧中包含目标的个数，所述组内高频数目为在所述时间组内出现频率最高的帧内数目。

5.如权利要求1-4任一项所述的视频处理方法，其特征在于，所述对所述时间组中的各所述视频帧所对应的结构化语义信息进行聚合包括：

在各所述视频帧的集合信息中查找到针对同一目标的结构化语义信息；

将针对所述目标的结构化语义信息进行聚合得到针对所述目标的组内结构化语义信息。

6.如权利要求5所述的视频处理方法，其特征在于，所述将针对所述目标的结构化语义信息进行聚合得到针对所述目标的组内结构化语义信息包括：

根据各视频帧所对应的结构化语义信息计算所述目标在所述时间组内平均目标信息与平均目标行为信息；

从预设的标准目标信息与标准目标行为信息中为所述目标选择出实际目标信息与实际目标行为信息，所述实际目标信息与实际目标行为信息分别是同所述平均目标信息与平均目标行为信息最接近的标准目标信息与标准目标行为信息。

7.如权利要求6所述的视频处理方法，其特征在于，所述目标信息包括目标类别，所述目标行为信息包括目标的行为类别，针对第i帧中第j个目标的结构化语义信息为：

SM_i,j＝[FrNo_i,Pos_i,j,Type_i,j,Action_i,j]^T

所述FrNo_i表示第i帧的帧号，所述帧号可表征所述视频帧的时间信息，所述Pos_i,j表示第i帧中第j个目标的行为位置，所述Type_i,j表示第i帧中第j个目标的目标类型，所述Action_i,j表示第i帧中第j个目标的行为类别；

所述第i帧的集合信息为

SM_i＝{SM_ij|0<j<J}

所述J为第i帧的帧内数目。

8.如权利要求1-4任一项所述的视频处理方法，其特征在于，所述对所述时间组中的各所述视频帧所对应的结构化语义信息进行聚合，得到针对所述时间组的组内结构化语义信息之后，还包括：根据所述组内结构化语义信息得到针对所述时间组的描述总结信息，所述描述总结信息包括文字和/或图片。

9.一种视频处理装置，其特征在于，所述视频处理装置包括处理器、存储器及通信总线；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行存储器中存储的视频处理程序，以实现以下步骤：