CN104301596B

CN104301596B - 一种视频处理方法及装置

Info

Publication number: CN104301596B
Application number: CN201310292305.XA
Authority: CN
Inventors: 赖钦伟
Original assignee: Juxin (zhuhai) Science & Technology Co Ltd
Current assignee: Hefei Torch Core Intelligent Technology Co., Ltd.
Priority date: 2013-07-11
Filing date: 2013-07-11
Publication date: 2018-09-25
Anticipated expiration: 2033-07-11
Also published as: CN104301596A

Abstract

本发明公开了一种视频处理方法及装置，用于解决在现有视频图像的拍摄过程中，未能实时获取所拍摄到的视频图像中的目标图像的问题。本发明实施例的方法包括：接收从外界获取的视频图像，确定视频图像中的目标区域；针对目标区域确定后接收到的每帧视频图像，根据该目标区域的参数信息，对该帧视频图像进行剪裁处理和矫正处理，获得该帧视频图像中该目标区域内的图像并输出。由于采用本发明实施例的方法仅输出每帧视频图像中目标区域内的图像，从而提高了用户体验，减少了后期需要的处理。

Description

一种视频处理方法及装置

技术领域

本发明涉及多媒体影音技术领域，特别涉及一种视频处理方法及装置。

背景技术

目前的视频拍摄设备，一般都是通过光学变焦将需要拍摄的图像景物进行放大和缩小，并对拍摄到的图像的品质（如颜色、曝光、白平衡等）进行调整，从而得到所需的视频。

在视频图像的内容处理方面，目前的视频拍摄设备，都只是对拍摄到的图像作等比例缩放，然而在视频拍摄过程中，有时我们仅需要关注拍摄到的视频图像中的特定区域内的图像，而该视频图像中的其他区域内的图像（如场景图像）并不是我们所关注的。由于目前的视频拍摄设备缺少对场景的智能分析、分割和处理，拍摄到的视频图像中不仅包含所关注的目标图像，还包含不需要关注的场景图像，使得拍摄到的图像中，目标图像一般都不是能够覆盖视场的最好效果，从而增加了后期制作的复杂度，也降低了用户体验。

例如，在会场录制PPT（PowerPoint）演讲内容时，关注的是演讲者播放的PPT的内容。在拍摄过程中，如果视频拍摄设备不是位于PPT所在位置的中央位置，拍摄到的视频图像中除了包含所关注的PPT图像外，还包含不需要关注的场景图像，使得拍摄到的PPT图像一般都不是能够覆盖视场的最好效果。类似的，在拍摄舞台剧等这些具有特定区域内容的场景时，都存在上述问题。

综上所述，在视频图像的拍摄过程中，未能实时获取所拍摄到的视频图像中的目标图像。

发明内容

本发明实施例提供了一种视频处理方法及装置，用于解决在现有视频图像的拍摄过程中，未能实时获取所拍摄到的视频图像中的目标图像的问题。

本发明实施例提供了一种视频处理方法，该方法包括：

接收从外界获取的视频图像，确定所述视频图像中的目标区域；

针对所述目标区域确定后接收到的每帧视频图像，根据所述目标区域的参数信息，对该帧视频图像进行剪裁处理，获得该帧视频图像中所述目标区域内的图像并输出。

本发明实施例提供了一种视频处理装置，该装置包括：

目标区域确定单元，用于接收从外界获取的视频图像，确定所述视频图像中的目标区域；

处理单元，用于针对所述目标区域确定后接收到的每帧视频图像，根据所述目标区域的参数信息，对该帧视频图像进行剪裁处理，获得该帧视频图像中所述目标区域内的图像并输出。

本发明实施例中，接收从外界获取的视频图像，确定接收到的视频图像中的目标区域；针对目标区域确定后接收到的每帧视频图像，根据该目标区域的参数信息，对该帧视频图像进行剪裁处理，获得该帧视频图像中该目标区域内的图像并输出。由于仅输出每帧视频图像中目标区域内的图像，从而提高了用户体验，减少了后期需要的处理。

附图说明

图1为本发明实施例提供的一种视频处理方法流程示意图；

图2为本发明实施例提供的一种确定视频图像目标区域方式的流程示意图；

图3A～图3E为本发明实施例提供的以PPT拍摄场景为例进行视频处理的示意图；

图4为本发明实施例提供的另一种视频处理方法流程示意图；

图5为本发明实施例提供的一种进行移动检测的流程示意图；

图6为本发明实施例提供的视频处理过程的时间轴示意图；

图7为本发明实施例提供的一种视频处理装置的结构示意图；

图8为本发明实施例提供的另一种视频处理装置的结构示意图；

图9为图8所示的装置的数据流流程和处理示意图。

具体实施方式

下面结合说明书附图对本发明实施例作进一步详细描述。

参见图1所示，本发明实施例提供的一种视频处理方法，包括：

步骤11、接收从外界获取的视频图像，确定接收到的视频图像中的目标区域；

步骤12、针对目标区域确定后接收到的每帧视频图像，根据该目标区域的参数信息，对该帧视频图像进行剪裁处理，获得该帧视频图像中该目标区域内的图像并输出。

本发明实施例的目标区域为视频图像中的部分区域，该部分区域内的图像为用户感兴趣的内容；而本发明实施例确定出的目标区域是由目标直线构成的四边形区域。

本发明实施例中，先确定接收到的视频图像中的目标区域，然后针对后续接收到的每帧视频图像，根据该目标区域的参数信息，对每帧视频图像进行剪裁处理，从而获得每帧视频图像中该目标区域内的图像，并输出每帧视频图像中该目标区域内的图像。采用本发明实施例的方法，仅输出每帧视频图像中目标区域内的图像，提高了用户体验，减少了后期需要的处理。

在实施中，步骤11中，确定接收到的视频图像中的目标区域，包括以下两种方式：

方式A、在接收到视频图像时，按照设定的算法，自动确定视频图像中的目标区域，参见图2所示，具体包括以下步骤：

步骤21、对视频图像进行边缘检测，得到该视频图像中各区域的边缘信息；

优选的，本步骤可以采用Sobel算法、Canny算法、Roberts算法、Prewitt算法、Krisch算法等对视频图像进行边缘检测。

步骤22、根据得到的边缘信息，对该视频图像进行直线搜索处理；

优选的，本步骤可以采用Hough变换算法、Freeman算法，PCA-HT算法等对视频图像进行直线搜索处理。

步骤23、从搜索出的直线中，确定出至少三条目标直线；以及

步骤24、根据确定出的目标直线，确定视频图像的目标区域。

进一步，步骤23中，从搜索出的直线中，确定出至少三条目标直线，具体包括：

从搜索出的所有直线中，确定出能够形成边角的直线，并计算出形成边角的直线之间的交点；以及

将计算出的所有交点按照区域进行分组，在至少一组交点中，选择出与该视频图像的中心点距离最大的交点，并将该交点所在的两条直线作为目标直线，其中，视频图像以自身中心点所在的水平线和垂直线划分为四个区域。

在实施中，步骤22中对视频图像进行直线搜索处理后，搜索出的直线有可能是断续的且未形成边角的短直线，需要将该些短直线向两边进行延长，以确定延长后的短直线是否能够形成边角。

需要说明的是，由于所拍摄的场景中，用户感兴趣的区域的形状有可能不同，从而根据拍摄到的视频图像确定出的交点的数量有可能不同，进而确定出的目标直线的数量有可能不同。例如，使用PPT演讲的场景中，用户感兴趣的区域为该PPT的内容，该场景下，感兴趣的区域为矩形，根据拍摄到的视频图像，针对每组交点，从该组交点中，选择出与该视频图像的中心点距离最大的交点，从而能够确定出四个交点，进而确定出的四条目标直线，该四条目标直线框出来的四边形即为确定的目标区域；

又如，舞台剧场景中，用户感兴趣的区域为该舞台内的区域，而舞台的顶部一般为圆拱形，其他三条边为直线，该场景下，感兴趣的区域为一边是曲线且其他三边是直线的封闭图形，根据拍摄到的视频图像，确定出三条目标直线（即底边和两个侧边），根据确定出的三条目标直线以及设定的显示比例，能够确定出另一条目标直线，该四条目标直线框出来的四边形即为确定的目标区域。优选的，设定的显示比例可以为16:9或4:3等常用的显示比例。

作为一种实现方式，若步骤23中确定出三条目标直线，则步骤24中根据确定出的目标直线，确定目标区域，包括：

从确定出的三条目标直线中，选择出两条仅具有一个交点的目标直线；

根据设定的显示比例，分别确定选择出的两条目标直线的端点；

根据确定出的该两条目标直线的端点，确定出同时通过该两个端点的直线，并将确定出的直线作为第四条目标直线；以及

将确定出的四条目标直线围成的四边形作为目标区域。

具体的，从确定出的三条目标直线中，选择出两条仅具有一个交点的目标直线，记为L1和L2；根据设定的显示比例（如16:9或4:3）以及一条具有两个交点的目标直线（记为L3）的长度，能够确定出L1和L2的长度，从而能够确定出L1和L2的端点；根据确定的L1的端点与L2的端点能够确定出一条直线，并将确定出的直线作为第四条目标直线；该四条目标直线能够围成一个四边形，即目标区域。

作为另一种实现形式，若步骤23中确定出四条目标直线，则步骤24中根据确定出的目标直线，确定目标区域，包括：

将确定出的四条目标直线围成的四边形作为目标区域。

在实施中，步骤21中，对视频图像进行边缘检测，具体包括：

对视频图像进行二值化处理和滤波处理，去除该视频图像中的干扰信息，并对处理后的视频图像进行边缘检测。

方式B、在接收到视频图像时，根据用户的指示命令，确定出目标区域；具体如下：

接收用于指定视频图像中的目标区域的指示命令，并根据该指示命令确定出目标区域。

具体的，用户可以根据自身需要，通过按键方式或者触摸点击方式在视频图像中选择出目标区域。

在实施中，步骤11中，在接收从外界获取的视频图像之后，确定接收到的视频图像中的目标区域之前，还包括：

对从外界获取的视频图像进行曝光控制和对焦控制。其中，对视频图像进行对焦控制，能够保证目标区域的图像是最清晰的；对视频图像进行曝光控制，能够保证目标区域的曝光正常，不会出现太亮或者太暗的情况，从而避免了其他区域的亮度干扰。

优选的，仅对接收到的视频图像的中央区域进行曝光控制和对焦控制；

其中，视频图像的中央区域指的是把该视频图像分为3×3的方块，最中心的那一个方块即为中央区域。

需要说明的是，由于此时还未确定出目标区域，先将目标区域设定在该视频图像中央区域，因此，可以仅对接收到的视频图像的中央区域进行曝光控制和对焦控制，以保证目标区域的图像的清晰度及正常曝光。

在实施中，优选的，在步骤11之后，步骤12中对该帧视频图像进行剪裁处理之前，该方法还包括：

根据设定的显示比例，对确定出的目标区域的大小进行调整，并将调整后的目标区域作为最终的目标区域。

优选的，设定的显示比例可以为16:9或4:3等常用的显示比例。

在实施中，步骤12具体包括：

针对目标区域确定后接收到的每帧视频图像，根据该目标区域的参数信息及设定的显示比例，对该帧视频图像中该目标区域内的图像进行剪裁处理和矫正处理。

由于拍摄角度的问题，确定出的目标区域有可能不是矩形形状，因此需要该视频图像中目标区域内的图像进行矫正处理，得到矩形形状的图像并输出。

优选的，按照公式一对该帧视频图像中目标区域内的图像进行矫正处理：

……公式一；

其中，x′，y′为该帧视频图像中目标区域内的图像矫正后的坐标值，x，y为该帧视频图像中目标区域内的图像的坐标值，C₁～C₈为已知的参数值。

具体的，本发明实施例对目标区域内的图像进行矫正采用逆变换的方式，也就是说先扩展出一片预留给输出图像的空间，对于输出的每一像素点，查找原图像中最佳的点，原图像与矫正后的图像两图之间的关系通过上述双线性方程来模拟。

需要说明的是，c₁～c₈通过目标区域内的原图像的四个边角的坐标值以及矫正后的该图像的四个边角的坐标值（即设定的输出图像的四个边角的坐标值）确定，由于共有8组对应关系，因此可以解得c₁～c₈这8个参数的值。优选的，为了获得更好的显示效果，对于上述8组对应关系中的非整数值，进行权重计算。

进一步，为了方便用户对确定出的目标区域进行调整，步骤11中，在确定出目标区域之后，对该帧视频图像进行剪裁处理之前，该方法还包括：

将确定的目标区域的参数信息，叠加到视频图像中进行显示，以使在视频图像中能够显示出确定的目标区域；

若接收到调整指令，根据该调整指令调整目标区域的大小，将调整后的目标区域作为最终的目标区域；

若未接收到调整指令，将确定的目标区域作为最终的目标区域。

相应的，针对最终的目标区域确定后接收到的每帧视频图像，根据该最终的目标区域的参数信息，对该帧视频图像进行剪裁处理，获得该帧视频图像中该最终的目标区域内的图像并输出。

优选的，用户可以通过点击触摸屏、点击按键或其他人机交互方式对目标区域进行调整。

为了降低功耗以及避免某些场景的干扰，优选的，该方法还包括：

实时获取振动幅度，针对当前获取到的振动幅度，进行如下处理：

若当前获取到的振动幅度大于设定的第一阈值，重新确定目标区域；

若当前获取到的振动幅度大于设定的第二阈值且不大于第一阈值，进行防抖处理；

其中，第一阈值与第二阈值均为经验值，且第一阈值大于第二阈值，第一阈值及第二阈值可以根据实际拍摄场景进行设定。

具体的，若当前获取到的振动幅度大于设定的第一阈值，我们认为拍摄位置已发生了较大变化或拍摄场景已发生了变化，因此需要重新确定目标区域；若当前获取到的振动幅度大于设定的第二阈值且不大于第一阈值，我们认为是拍摄装置发生了微小的抖动，因此仅需进行防抖处理即可，无需重新确定目标区域。

进一步，若当前获取到的振动幅度不大于第二阈值，则不执行任何操作。

在实施中，本发明实施例可以采用加速度传感器、位移传感器等检测装置实现对振动幅度的检测，以加速度传感器为例，包括以下处理过程：

实时查询加速度传感器的三个坐标轴（即三维空间上的三个坐标轴）上的坐标值；

当至少一个坐标值的变化值大于第一阈值时，重新确定目标区域，即执行步骤11～步骤12；

当至少一个坐标值的变化值大于第二阈值且不大于第一阈值时，进行防抖处理。

进一步，当检测到的三个坐标值的变化值不大于第二阈值时，不执行任何操作。

进一步，在拍摄过程中，还需要同时进行音频的录制，具体的，通过麦克风接收外界的音频信息，并将接收到的音频信息进行编码处理，从而在视频拍摄过程中，将外界的音频同时录制下来。

下面结合以下具体实施例对本发明实施例的视频处理方法进行详细说明。

实施例一、以PPT拍摄的场景为例，对本发明实施例的视频处理方法进行详细说明，其他拍摄场景与此类似，此处不再一一举例说明。

由于用户感兴趣的区域（即PPT所在的位置）在拍摄过程的亮度相对于其他区域来说会比较亮，参见图3A所示，首先针对拍摄到的视频图像进行优化处理，将用户感兴趣的区域从视频图像中分割开来，具体的：采用中值滤波进行处理，为了消除干扰，对视频图像先进行一次腐蚀处理（erode算法），然后进行两次膨胀处理（dilate算法），最后再进行一次腐蚀处理，得到如图3B所示的二值化图像，从而将视频图像中与感兴趣区域无关的边缘都屏蔽掉了。

其次，对处理后的二值化图像进行边缘检测（本实施例采用Canny算法进行边缘检测），把该二值化图像中的边缘检测出来，得到如图3C所示的视频图像。

再次，根据得到的边缘信息，进行直线搜索（本实施例使用霍夫变换进行直线搜索），搜索出来的直线在图中用较粗的线表示，把能形成边角的直线做运算，算出这些直线的交点，这样就得到了所有可能成为目标区域的四个边角的交点，如图3C所示，其中，搜索出来的目标区域的边缘直线有可能是未形成边角的短直线，如图3C中的粗直线，此时，需要将各短直线向两边延长，以确定延长后的短直线是否形成边角；

然后，对该视频图像中各区域（以视频图像的中心线为界，将该视频图像划分为四个区域）内的交点进行判断，把每个区域内距离该视频图像的中心位置最远的交点选定为最佳点（即目标区域的边角的交点），从而确定出目标区域的四个边角的交点，从而确定出目标区域的四条边线（即目标直线），通过以上方法，就从搜索出的直线中找到框出来的最优化的四边形作为目标区域，如图3D所示。

在进行直线搜索时，会受到镜头畸变的影响，优选的，若拍摄时使用广角镜头，则先进行镜头畸变的修正，再进行直线搜索，从而降低了搜索的难度。

尽管经过了阈值处理（即中值滤波处理），还是会出现一些不需要的直线，需要对搜索到的直线进行删减，从而将一部分与目标区域无关的直线进行删除。这些无关的线段主要包括：图像中央的直线以及短直线；

具体的，对于图像中央的线段，可以通过与该视频图像的中心点的距离来判断，例如，若某条直线到中心点的距离小于设定的距离阈值，则确定该直线是图像中央的直线；若该直线到中心点的距离不小于该距离阈值，则确定该直线不是图像中央的直线；

对于短直线，可以通过该直线的长度来判断，例如，若某条直线的长度小于设定的长度阈值，则确定该直线是短直线；若该直线的长度不小于该长度阈值，则确定该直线不是短直线。

优选的，按照设定的原则，对搜索到的直线进行删减，删除掉图像中央的直线和/或短直线。

优选的，为了找到最佳的四个边角，对搜索到的直线进行分组，分为上下左右四组。

最后，根据设定的显示比例，对后续接收到的每帧视频图像中目标区域内的图像进行剪裁处理和矫正处理，从而获取到矩形形状的感兴趣区域内的图像，如图3E所示，图3E中的（x，y）为每帧视频图像中目标区域内的图像的各像素点的坐标值，采用公式一对该帧视频图像中目标区域内的图像进行矫正处理后，其各像素点的坐标值为（x’，y’）。

进一步，获取到的矩形形状的感兴趣区域内的图像输出到后端进行处理，主要包括：图像编码、图像传输等处理。

实施例二、本实施例提供了一个优选的视频处理过程，参见图4所示，包括以下步骤：

步骤41、根据接收到的视频图像，确定目标区域的参数信息；

步骤42、将确定的目标区域的参数信息叠加到当前接收到的每帧视频图像中进行显示；

步骤43、用户根据显示结果，判断是否需要进行调整；

若是，执行步骤44；

若否，执行步骤45；

步骤44、接收用户的调整指令，并根据该调整指令，对目标区域的大小进行调整，并执行步骤45；

步骤45、用户确定是否为目标区域；

若是，执行步骤46；

若否，返回步骤41；

步骤46、配置图形矫正参数，并输出每帧视频图像中目标区域内的矫正后的图像；

具体的，根据目标区域（若进行了调整，则为调整后的目标区域；若未进行调整，则为初始确定的目标区域）的四个边角的坐标值、以及设定的显示比例，配置图形矫正参数。

步骤47、进行后续录影录像流程。

实施例三、本实施例提供了一种移动检测的过程，本实施例中使用加速度传感器进行检测，参见图5所示，包括：

步骤51、启动移动检测；

步骤52、实时查询加速度传感器提供的数据（即该加速度传感器的X、Y、Z三个坐标轴的坐标值）；

步骤53、根据查询到的三轴坐标值，判断自身是否移动；

若是（即至少一个坐标轴上的坐标值的变化值大于第二阈值），执行步骤54；

若否（即三个坐标轴上的坐标值均不大于第二阈值），返回步骤52；

步骤54、判断是否是小抖动；

若是（即至少一个坐标轴上的坐标值的变化值大于第二阈值且不大于第一阈值），执行步骤55；

若否（即至少一个坐标轴上的坐标值的变化值大于第一阈值），执行步骤56；

步骤55、进行防抖处理；

步骤56、重新启动目标区域的检测。

在视频录制过程中，参见图6所示，视频帧1～L的时间内为目标区域的确定阶段，视频帧L～M的时间内为防抖稳定阶段，抖动和移动的检测采用加速度传感器来实现，若在视频帧M内，确定任一坐标轴的坐标值出现比较大的变化，则认为拍摄场景发生了变化，需要重新确定目标区域，对应时间轴上的视频帧M～N。

上述方法处理流程可以用软件程序实现，该软件程序可以存储在存储介质中，当存储的软件程序被调用时，执行上述方法步骤。

基于同一发明构思，本发明实施例中还提供了一种视频处理装置，由于该装置解决问题的原理与上述视频处理方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

参见图7所示，本发明实施例提供的一种视频处理装置，包括：

目标区域确定单元71，用于接收从外界获取的视频图像，确定视频图像中的目标区域；

处理单元72，用于针对目标区域确定后接收到的每帧视频图像，根据目标区域的参数信息，对该帧视频图像进行剪裁处理，获得该帧视频图像中该目标区域内的图像并输出。

在实施中，目标区域确定单元71包括目标区域识别模块711，其中：

目标区域识别模块711用于对视频图像进行边缘检测，得到视频图像中各区域的边缘信息；根据得到的边缘信息，对视频图像进行直线搜索处理；从搜索出的直线中，确定出至少三条目标直线；以及根据确定出的目标直线，确定目标区域；或者，

接收用于指定所述视频图像中的目标区域的指示命令，根据该指示命令确定出目标区域。

进一步，目标区域识别模块711根据以下步骤对视频图像进行边缘检测：

对视频图像进行二值化处理和滤波处理，去除视频图像中的干扰信息，并对处理后的视频图像进行边缘检测。

进一步，目标区域识别模块711根据以下步骤从搜索出的直线中，确定出至少三条目标直线：

从搜索出的所有直线中，确定出能够形成边角的直线，并计算出形成边角的直线之间的交点；以及将计算出的所有交点按照区域进行分组，在至少一组交点中，选择出与视频图像的中心点距离最大的交点，并将该交点所在的两条直线作为目标直线，其中，视频图像以自身中心点所在的水平线和垂直线划分为四个区域。

优选的，目标区域确定单元71包括图像处理模块712，其中：

图像处理模块712用于在接收从外界获取的视频图像之后，确定视频图像中的目标区域之前，对视频图像进行曝光控制和对焦控制。

在实施中，优选的，目标区域识别模块711还用于：

根据设定的显示比例，对目标区域的大小进行调整，并将调整后的目标区域作为最终的目标区域。

在实施中，优选的，目标区域识别模块711还用于：

将确定的目标区域的参数信息，叠加到视频图像中进行显示；

若接收到调整指令，根据调整指令调整目标区域的大小，将调整后的目标区域作为最终的目标区域；

在实施中，处理单元72具体用于：

根据目标区域的参数信息及设定的显示比例，对该帧视频图像中目标区域内的图像进行剪裁处理和矫正处理。

在实施中，为了降低功耗以及避免某些场景的干扰，优选的，该装置还包括：

移动检测单元73，用于实时获取振动幅度，针对当前获取到的振动幅度，进行如下处理：若当前获取到的振动幅度大于设定的第一阈值，重新确定目标区域；若当前获取到的振动幅度大于设定的第二阈值且不大于第一阈值，进行防抖处理；其中，第一阈值大于第二阈值。

在实施中，为了实现图像与声音的同步，优选的，该装置还包括：

音频编码单元，用于接收外界的音频信息，并将接收到的音频信息进行编码处理，从而在视频拍摄过程中，将外界的音频同时录制下来。

下面给出本发明实施例的一种优选的硬件实现方式，其中，目标区域确定单元71及处理单元72的功能由处理器完成，移动检测单元73的功能由加速度传感器完成，音频编码单元的功能可以由音频编码器完成。

本发明实施例提供的视频处理装置可以应用于DV、手机、PAD、等具有录影录像功能的电子设备中。

下面结合优选实施例，对本发明提供的视频处理装置进行详细说明。

参见图8所示，本实施例提供的视频处理装置包括：

图像处理模块81，用于对图像传感器获得的图像进行优化处理；其中，优化处理包括但不限于下列方式中的一种或多种：

处理对焦控制、白平衡控制、曝光控制、对比度增强、色彩调整、镜头矫正、图像噪点处理、图像边缘增强及色彩空间转换。

目标区域识别模块82，用于分离出目标区域的边缘信息，确定目标区域的形状，查找出最佳的构成四边形。

需要说明的是，本实施例中的图像处理模块81及目标区域识别模块82所实现的功能，分别与图7所示的实施例中的目标区域确定单元71图像处理模块711及目标区域识别模块711所实现的功能相同。

目标区域图形矫正和显示比例校正模块83，用于获得目标区域的参数信息后，对后续接收到的每帧视频图像进行剪裁处理和矫正恢复处理，获得矩形形状的目标区域输出图像，并传输到存储模块87进行存储；

其中，输出图像的最终大小可以进行设定，如果设定了最终的输出图像大小，目标区域图形矫正和显示比例校正模块会根据设定的比例对图像进行缩放并输出。

后端处理模块84，用于从存储模块87中获取目标区域输出图像，对目标区域输出图像进行编码处理，并将处理后的图像传输到存储模块87进行存储。

需要说明的是，本实施例中的目标区域图形矫正和显示比例校正模块83及后端处理模块84所实现的功能，与图7所示的实施例中的处理单元72所实现的功能相同。

移动检测模块85，用于进行自身移动的检测，在确定移动为小抖动时，进行防抖处理；在确定移动为拍摄场景变换时，触发目标区域识别模块82重新识别目标区域；在确定未发生移动时，不执行操作，从而提高了对场景变换检测的可靠性和进行防抖动处理。

需要说明的是，本实施例中的移动检测模块85所实现的功能，与图7所示的实施例中的移动检测单元73所实现的功能相同。

音频编码模块86，用于对接收到的外界的音频信息进行编码处理，并将处理后的音频信息保存于存储模块87，从而把外界的声音同步录制下来。

需要说明的是，图8所示的实施例与图7所示的实施例对视频处理装置的各模块的划分不同，上述两个实施例只是为了说明视频处理装置所能实现的功能，并非对视频处理装置的模块划分的限定，本领域技术人员可以根据该视频处理装置所能够实现的功能进行模块的划分。

图8所示的实施例中，数据流的处理过程可参见图9所示，图9中上半部分为视频图像的处理过程，包括图像获取过程，对接收到的视频图像的优化处理（即图中的图像处理部分）过程，目标区域的识别过程（即图中的目标区域识别部分），目标区域的确定过程（即图中的目标区域设定部分，包括自动确定和用户确定两种方式），以及目标区域的图像矫正过程（即图中的目标区域图像矫正部分）；图9中下半部分为音频处理过程，对接收到的音频数据进行编码处理（即图中的音频编码部分）。

下面给出本实施例的一种优选的硬件实现方式，由于本发明实施例提供的视频处理装置需要对视频信号进行实时的处理，对数据带宽和实时性要求比较高，因此，本发明实施例提供的视频处理装置可以为单片SoC（System on Chip，***级芯片，也称为片上***）或FPGA（Field Programmable Gate Array，现场可编程门阵列）电路，其中，该SoC或FPGA能够实现本发明实施例提供的视频处理装置的目标区域确定单元71、处理单元72以及移动检测单元73的功能。本发明实施例不对SoC或FPGA的具体结构（如逻辑电路等）进行限定，凡是能实现本发明实施例的视频处理装置中各模块的功能的SoC或FPGA的硬件结构，均涵盖于本发明实施例中。

以图8所示的视频处理装置为例，该装置中的图像处理模块81、目标区域识别模块82、目标区域图形矫正和显示比例校正模块83、后端处理模块84、移动检测模块85、音频编码模块86、以及存储器87（包括存储器接口）的功能可以通过在单片SoC或FPGA上实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频处理方法，其特征在于，该方法包括：

针对所述目标区域确定后接收到的每帧视频图像，根据所述目标区域的参数信息，对该帧视频图像进行剪裁处理，获得该帧视频图像中所述目标区域内的图像并输出；

在接收从外界获取的视频图像之后，确定所述视频图像中的目标区域之前，还包括：

对所述接收到的视频图像的中央区域进行曝光控制和对焦控制，所述视频图像的中央区域指的是把所述视频图像分为3×3的方块，最中心的方块即为中央区域；

在确定出所述目标区域之后，且在对该帧视频图像进行剪裁处理之前，还包括：

根据设定的显示比例，对所述目标区域的大小进行调整，并将调整后的目标区域作为最终的目标区域；

针对所述目标区域确定后接收到的每帧视频图像，根据所述目标区域的参数信息，对该帧视频图像进行剪裁处理，具体包括：

根据所述目标区域的参数信息及设定的显示比例，对该帧视频图像中所述目标区域内的图像进行剪裁处理和矫正处理。

2.如权利要求1所述的方法，其特征在于，确定所述视频图像中的目标区域，具体包括：

对所述视频图像进行边缘检测，得到所述视频图像中各区域的边缘信息；

根据得到的边缘信息，对所述视频图像进行直线搜索处理；

从搜索出的直线中，确定出至少三条目标直线；以及

根据确定出的目标直线，确定所述目标区域。

3.如权利要求2所述的方法，其特征在于，对所述视频图像进行边缘检测，具体包括：

对所述视频图像进行二值化处理和滤波处理，去除所述视频图像中的干扰信息，并对处理后的视频图像进行边缘检测。

4.如权利要求2所述的方法，其特征在于，从搜索出的直线中，确定出至少三条目标直线，具体包括：

从搜索出的所有直线中，确定出能够形成边角的直线，并计算出形成边角的直线之间的交点；

将计算出的所有交点按照区域进行分组，在至少一组交点中，选择出与所述视频图像的中心点距离最大的交点，并将该交点所在的两条直线作为目标直线，其中，所述视频图像以自身中心点所在的水平线和垂直线划分为四个区域。

5.如权利要求1所述的方法，其特征在于，确定所述视频图像中的目标区域，具体包括：

接收用于指定所述视频图像中的目标区域的指示命令，并根据所述指示命令确定出目标区域。

6.如权利要求1～5任一项所述的方法，其特征在于，在确定出所述目标区域之后，对该帧视频图像进行剪裁处理之前，还包括：

将确定的所述目标区域的参数信息，叠加到所述视频图像中进行显示；

若接收到调整指令，根据所述调整指令调整所述目标区域的大小，将调整后的目标区域作为最终的目标区域；

若未接收到调整指令，将确定的所述目标区域作为最终的目标区域。

7.如权利要求1～5任一项所述的方法，其特征在于，所述方法还包括：

若当前获取到的振动幅度大于设定的第一阈值，重新确定所述目标区域；

若当前获取到的振动幅度大于设定的第二阈值且不大于所述第一阈值，进行防抖处理；

其中，所述第一阈值大于所述第二阈值。

8.一种视频处理装置，其特征在于，该装置包括：

处理单元，用于针对所述目标区域确定后接收到的每帧视频图像，根据所述目标区域的参数信息，对该帧视频图像进行剪裁处理，获得该帧视频图像中所述目标区域内的图像并输出；

其中，所述目标区域确定单元包括图像处理模块，所述图像处理模块用于：在接收从外界获取的视频图像之后，确定所述视频图像中的目标区域之前，对所述接收到的视频图像的中央区域进行曝光控制和对焦控制，所述视频图像的中央区域指的是把所述视频图像分为3×3的方块，最中心的方块即为中央区域；

所述目标区域确定单元包括目标区域识别模块，所述目标区域识别模块用于：

所述处理单元具体用于：

9.如权利要求8所述的装置，其特征在于，所述目标区域识别模块用于：对所述视频图像进行边缘检测，得到所述视频图像中各区域的边缘信息；根据得到的边缘信息，对所述视频图像进行直线搜索处理；从搜索出的直线中，确定出至少三条目标直线；以及根据确定出的目标直线，确定所述目标区域；或者

接收用于指定所述视频图像中的目标区域的指示命令，根据所述指示命令确定出目标区域。

10.如权利要求9所述的装置，其特征在于，所述目标区域识别模块根据以下步骤对所述视频图像进行边缘检测：

11.如权利要求9所述的装置，其特征在于，所述目标区域识别模块根据以下步骤从搜索出的直线中，确定出至少三条目标直线：

从搜索出的所有直线中，确定出能够形成边角的直线，并计算出形成边角的直线之间的交点；以及将计算出的所有交点按照区域进行分组，在至少一组交点中，选择出与所述视频图像的中心点距离最大的交点，并将该交点所在的两条直线作为目标直线，其中，所述视频图像以自身中心点所在的水平线和垂直线划分为四个区域。

12.如权利要求8～11任一项所述的装置，其特征在于，所述目标区域识别模块还用于：

13.如权利要求8～11任一项所述的装置，其特征在于，所述装置还包括：

移动检测单元，用于实时获取振动幅度，针对当前获取到的振动幅度，进行如下处理：若当前获取到的振动幅度大于设定的第一阈值，重新确定所述目标区域；若当前获取到的振动幅度大于设定的第二阈值且不大于所述第一阈值，进行防抖处理；其中，所述第一阈值大于所述第二阈值。