CN108307116B

CN108307116B - 图像拍摄方法、装置、计算机设备和存储介质

Info

Publication number: CN108307116B
Application number: CN201810122474.1A
Authority: CN
Inventors: 李科慧
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2022-03-29
Anticipated expiration: 2038-02-07
Also published as: CN108307116A

Abstract

本申请涉及一种图像拍摄方法、装置、计算机设备和存储介质。上述方法通过获取图像采集装置采集的图像，所述图像中识别出至少一个目标主体，并持续跟踪所述至少一个目标主体的姿态变化，通过已训练的深度学习神经网络模型对所述至少一个目标主体的姿态进行检测，当检测到所述至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令。上述方法能够准确的把握动态姿态抓拍的时间点，提高抓拍效果。

Description

图像拍摄方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像拍摄方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，拍摄需求也日益增长，要记录下最美丽的瞬间，需要我们把握时机在最恰当的时刻按下快门。为了拍摄到合适的照片，衍生了众多的拍摄手段，目前衍生出来的拍照方式主要包括倒计时拍摄、蓝牙触发拍摄等。

传统的拍摄方式基本上都是基于时间控制的拍摄方法，采用上述拍摄方法经常出现已经在拍摄了但是拍摄者还没准备好拍摄的动作，或者在拍摄时拍摄者的动作已经结束，错过了最佳的拍摄时间。现有的拍摄技术难以把握抓拍动态姿态的时间点，不能得到最佳抓拍效果。

发明内容

基于此，有必要针对上述的技术问题，提供一种能够准确的把握动态姿态抓拍的时间点，提高抓拍效果的图像拍摄方法、装置、计算机设备和存储介质。

一种图像拍摄方法，包括：

获取图像采集装置采集的图像；

在所述图像中识别出至少一个目标主体，并持续跟踪所述至少一个目标主体的姿态变化；

通过已训练的深度学习神经网络模型对所述至少一个目标主体的姿态进行检测；

当检测到所述至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令。

一种图像拍摄装置，包括：

图像采集模块，用于获取图像采集装置采集的图像；

目标主体识别跟踪模块，用于在所述图像中识别出至少一个目标主体，并持续跟踪所述至少一个目标主体的姿态变化；

姿态检测模块，用于通过已训练的深度学习神经网络模型对所述至少一个目标主体的姿态进行检测；

拍摄模块，用于当检测到所述至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取图像采集装置采集的图像；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取图像采集装置采集的图像；

上述图像拍摄方法、装置、计算机设备和存储介质，通过图像采集装置监测场景中的目标主体的姿态，对目标主体进行持续跟踪提高检测目标主体的效率。根据已训练好的深度学习神经网络对目标主体的姿态进行检测可以得到更为准确的动态姿态。根据检测到目标主体的动态姿态与预设目标姿态匹配情况进行拍摄，可在动态姿态完成的瞬间触发拍摄，提高抓拍效果。

附图说明

图1为一个实施例中图像拍摄方法的应用环境图；

图2为一个实施例中图像拍摄方法的流程示意图；

图3为一个实施例中目标主体识别跟踪的流程示意图；

图4为一个实施例中训练深度学习神经网络的流程示意图；

图5为另一个实施例中训练深度学习神经网络的流程示意图；

图6为一个实施例中姿态检测的流程示意图；

图7为一个实施例中完成持续触发拍摄的流程示意图；

图8为另一个实施例中完成视频拍摄的流程示意图；

图9为再一个实施例中多目标主体触发拍摄的流程示意图；

图10为一个实施例中多目标主体触发拍摄得到的图片终端界面示意图；

图11为另一个实施例中多目标主体触发拍摄得到的图片终端界面示意图；

图12为再一个实施例中多目标主体触发拍摄得到的图片终端界面示意图；

图13为一个实施例中跳起过程中不同状态下的姿态示意图；

图14为一个实施例中满足预设状态参数拍摄得到的图片终端界面示意图；

图15为一个实施例中语音触发拍摄的流程示意图；

图16为一个具体实施例图像拍摄方法的流程示意图；

图17为一个实施例中图像拍摄装置的结构框图；

图18为一个实施例中目标主体识别跟踪的结构框图；

图19为一个实施例中姿态检测模型的结构框图；

图20为一个实施例中姿态网络模型训练单元的结构框图；

图21为另一个实施例中姿态检测模型的结构框图；

图22为另一个实施例图像拍摄装置的结构框图；

图23为一个实施例中视频拍摄模块的结构框图；

图24为一个实施例中拍摄模块的结构框图；

图25为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中提供图像拍摄方法的应用环境图，如图1所示，在该应用环境中，包括终端110以及服务器120。终端110包含图像采集装置，图像采集装置用于采集图像。终端110获取图像采集装置采集到的图像，通过图像识别模型和深度学习神经网络模型对图像中的目标主体和目标主体的姿态进行检测，并对识别到的目标主体的姿态与预设姿态进行匹配，图像采集装置根据匹配结果执行拍摄。当匹配成功时，图像采集装置触发拍摄指令，当匹配不成功时，图像采集装置继续采集图像。将拍摄得到的图像通过网络发送给服务器。也可以通过终端将图像采集装置采集到的原始图像发送到服务器120中，在服务器120中对原始图像进行处理得到图像中目标主体的姿态，将目标主体的姿态返回终端110。终端110将返回结果与预设目标姿态进行匹配，当匹配成功时，图像采集装置执行拍摄，当匹配不成功时，图像采集装置继续头采集图像。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群，可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、专业相机等，但并不局限于此。服务器120以及终端110可以网络等通讯连接方式进行连接，本发明在此不做限制。

如图2所示，在一个实施例中，提供了一种图像拍摄方法。该方法具体包括如下步骤：

步骤S202，获取图像采集装置采集的图像。

其中，图像采集装置是用于采集图像的装置，如摄像头，摄像头一般具有视频摄像/传播和静态图像捕捉等基本功能，它是借由镜头采集图像后，由摄像头内的感光组件电路及控制组件对图像进行处理并转换成计算机所能识别的数字信号，从而完成图像采集的工作。拍摄设备上的摄像头一般可以直接利用，不需要重新开发。图像是图像采集装置采集到的一张或多张图像，图像中可包含主体，主体可以是人、动物或景物。

具体地，获取图像采集装置采集到的包含目标主体的图像。可以获取图像采集装置连续采集到的多张图像组成的图像集合，也可以是图像采集装置按照一定时间间隔采集到的图像组成的图像集合。

步骤S204，在图像中识别出至少一个目标主体，并持续跟踪至少一个目标主体的姿态变化。

其中，图像识别是利用计算机对图像进行处理、分析和理解，以识别出图像中的目标和对象的识别技术。图像识别技术是以图像的主要特征为基础的，提取图像的主要特征用于识别图像中的目标主体。特征是用来描述目标主体的一组数据。比如，一个深度学习神经网络包括多层网络，每一层网络提取出不同维度的特征。以人脸为例，机器学习后，网络的底部层提取出的特征主要是基本特征，如左斜线、右斜线、横线、竖线、点等等，更上层的网络层，提取出的特征是局部特征，如五官的局部特征，再上层的网络层提取的是五官特征，通过上层网络提取到的五官几何特征和五官位置特征等描述一张人脸。目标主体是用于触发拍摄指令的行为主体，通过跟踪目标主体的姿态变化触发拍摄指令，可以预先设定需要识别的目标主体、或者通过识别算法自动识别得到对应的目标主体。其中，目标主体包括人、动物、景物等，比如拍摄前保存的目标人脸图像，从而在拍摄得到的图像中通过目标人脸图像识别得到对应的目标主体。在一幅图像中可以包含一个或多个目标主体。图像跟踪是对通过图像采集装置拍摄的图像中检测到的目标主体进行定位，得到目标主体在图像中的位置信息。可以采用包括但不限于神经网络或粒子滤波算法或卡尔曼滤波算法等跟踪算法对目标主体进行跟踪。对目标主体进行跟踪时，包括但不限于仅采用跟踪算法中的任意一个算法对目标主体进行跟踪，或将多个跟踪算法进行结合后再用于对目标主体进行跟踪等。如，采用粒子滤波算法对目标主体进行跟踪，或将粒子滤波算法和卡尔曼滤波算法结合后再对目标主体进行跟踪。

具体地，提取图像中包含的主要特征，对提取到的主要特征进行分析识别出目标主体，持续对识别出的目标主体的姿态变化进行跟踪，得到目标主体的位置信息。其中，对目标主体的跟踪包括但不限于对每一帧中的目标主体进行跟踪或按照一定的时间间隔进行跟踪或按照一定的间隔帧进行跟踪。目标主体的姿态变化可以是同一个姿态的持续变化或多个姿态的多种变化。

步骤S206，通过已训练的深度学习神经网络模型对至少一个目标主体的姿态进行检测。

其中，已训练的深度学习神经网络模型是通过对携带姿态标签的图像数据集合进行学习得到的。该模型能够对输入的包含目标主体的图像中的目标主体的姿态进行检测，并输出目标主体的姿态。姿态是被拍摄的对象发出的动作，或者摆出的姿势。其中，以人为例，动作和姿势包括但不限于跳起、指天、拍手、招手、翻身、所有人都遥指远方、扔帽子等。以动物为例，动作和姿势包括但不限于动物的跳跃、挠痒痒、吐舌头、后腿站立或四脚朝天等。

具体地，将包含目标主体的图像输入已训练的深度学习神经网络模型，提取目标主体的姿态特征，根据目标主体的姿态特征确定目标主体的姿态。如，目标主体为人体，将包含人体的图像输入已训练的深度学习神经网络模型，输出得到人体的姿态。

步骤S208，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令。

其中，预设目标姿态是预先设定用于触发拍摄指令的姿态，一次可以设置一个或者多个预设目标姿态。可以通过姿态学习算法对图像中的姿态进行学习得到的姿态中确定预设目标姿态，或根据自定义姿态模板确定预设目标姿态。如，根据深度学习神经网络模型学习对图像中的姿态进行学习得到的姿态。匹配是指目标主体的姿态特征与预设目标姿态的特征相同或者相似，可以计算目标主体的姿态与预设目标姿态之间的匹配度，并预设匹配度阈值，当匹配度达到匹配度阈值时，判断为匹配成功。

具体地，通过已训练的深度学习神经网络模型中得到的目标主体的姿态与预先设定的用于触发拍照的目标姿态进行匹配，匹配为同一个姿态时，拍摄设备启动拍摄，并完成拍摄。拍摄可以是拍摄照片或者视频。当拍摄设备设置的拍摄模式为拍照时，触发拍摄指令之后，完成拍照。其中，拍摄得到的照片可以是一张，也可以是多张，当拍摄设备设置的拍摄模式为拍摄视频时，触发拍摄指令之后，完成视频拍摄。完成一次拍摄之后可以再次触发拍摄指令，再次触发拍摄指令的姿态与第一次触发拍摄指令的姿态可以相同，也可以不相同。同一次拍摄可以设置多个触发拍摄指令的目标姿态，当检测到目标主体与触发拍摄指令的目标姿态中的至少一个目标姿态匹配时，触发拍摄指令。触发拍摄时还可以发出拍照提示信息。

在一个实施例中，当图像中的目标主体为一个时，在检测到该目标主体的动态姿态与预先设定的用于触发拍摄指令的姿态匹配时，触发拍摄指令。如，识别到图像中的目标主体为1人，预先设定用于触发拍摄指令的姿态为跳跃，则在检测到图像中的此目标主体做出跳跃的动作时，触发拍摄指令，完成拍摄。

在另一个实施例中，当图像中的目标主体为多个时，在检测到其中任意一个目标主体或预设数目的目标主体的姿态与预先设定用于触发拍摄指令的姿态匹配时，触发拍摄指令。其中预设数目可以根据需要自定义，如，识别到图像中的目标主体为10人，预先设定用于触发拍摄指令的姿态为跳跃，预设数目为3，则在检测到图像中有3人做出跳跃的动作时，触发拍摄指令，完成拍摄。

在又一个实施例中，当图像中的目标主体为多个时，在检测到图像中的所有目标主体的姿态与预先设定用于触发拍摄指令的姿态匹配时，触发拍摄指令。如，识别到图像中的目标主体为20人，预先设定用于触发拍摄指令的姿态为跳跃，则在检测到图像中存在20人同时做出跳跃的动作时，触发拍摄指令，完成拍摄。

上述拍摄方法，通过获取图像采集装置采集的图像，在图像中识别目标主体，并跟踪识别出的目标主体，通过图像对目标主体进行跟踪能够减少检测图像的区域面积，从而减少检测时间，提高检测目标主体的效率，通过已训练的深度学习神经网络模型对目标主体的姿态进行检测，已训练的深度学习神经网络能够快速的学习图像的特征，检测到目标主体的动态姿态，根据检测到目标主体的动态姿态与预设目标姿态匹配情况进行拍摄，可在动态姿态完成的瞬间触发拍摄，提高抓拍效果。

如图3所示，在一个实施例中，步骤S204包括：

步骤S204a，将当前图像输入已训练的图像识别模型，已训练的图像识别模型获取当前图像对应的历史图像中至少一个目标主体的历史位置信息。

其中，图像识别模型是用于识别图像中的目标主体的识别模型，可以识别得到目标主体的位置信息。该图像识别模型包括但不限于是通过对海量携带标签的照片学习得到的，用于识别并定位出拍摄照片中的目标主体，并对其进行追踪。图像跟踪是通过对历史图像进行分析得到目标主体的历史位置信息，根据历史位置信息预测当前图像中目标主体的位置信息。具体地，在将当前图像输入已训练的图像识别模型前，可以对当前图像进行预处理。预处理包括对图像的尺寸进行缩放，把图片尺寸缩放到与训练上述图像识别模型的图像对应的尺寸。根据算法需求对图像的颜色空间进行转换，不同的识别算法对应不同的图像颜色空间。将预处理后的当前图像输入已训练的图像识别模型，通过该图像识别模型获取当前图像之前的至少一张历史图像中的目标主体的历史位置信息。历史图像是当前图像之前的一帧或者多帧图像，历史位置信息是目标主体在历史图像上的位置信息。如，获取上一帧或多帧历史图像目标主体的位置信息。

步骤S204b，根据历史位置信息确定至少一个目标主体在当前图像的预测位置区域。

具体地，预测位置区域是通过图像识别模型预测得到的目标主体在当前图像中可能出现的位置区域，根据目标主体在历史图像中的历史位置信息对目标主体在当前图像上的位置区域进行预测。图像采集装置采集图片的时间间隔比较小，目标主体移动的位置比较有限，故根据历史位置信息能较为准确的预测到目标主体在当前图像中的位置区域。还可以根据历史位置信息和目标主体的运动信息进行结合预测当前图像中目标主体的位置区域。如，根据上一帧或多帧历史图像中目标主体的位置信息，根据卡尔曼状态方程预测目标主体在当前帧图像中的预测位置区域。

步骤S204c，当在预测位置区域范围内检测到至少一个目标主体时，输出至少一个目标主体在当前图像的当前位置信息。

具体的，对当前图像中的预测位置区域进行检测，当在该预测位置区域检测到目标主体时，将检测到的该目标主体的位置信息和识别出的目标主体构成的图像作为图像识别模型的输出数据。考虑到移动端设备的性能限制，追踪算法可以在目标主体的历史位置相邻的区域进行检测，提高目标主体的跟踪效率。利用目标主体的位置信息在预测位置区域检测目标主体能够减少对目标主体的检测时间，提高检测效率。通过图像追踪进行辅助定位，达到实时追踪的效果。

在一个实施例中，在识别定位到目标主体后，可以选取部分帧对目标主体进行定位，提高图像的处理速度。

在一个实施例中，第一次检测目标主体时由于不存在历史位置信息作为参考信息，故在对目标主体进行检测时，查找整个图像区域确定目标主体的位置信息。

在一个实施例中，当在上述当前图像中的预测位置区域未检测到目标主体时，在整个当前图像中对目标主体进行检测，进入下一轮的定位追踪流程，重复上述对图像中的被拍摄主体进行识别跟踪的步骤。

如图4所示，在一个实施例中，步骤S204之前，还包括：

步骤S402，将携带姿态标签的训练图像集合输入深度学习神经网络模型中。

具体地，姿态标签是用于对图像中目标主体的姿态进行说明的数据。如，包含人物跳起的照片对应的姿态标签为“跳起”。姿态标签的训练图像集合是携带了各种姿态标签的图像组成的集合。将训练图像集合输入到深度学习神经网络模型中。

步骤S404，获取与姿态标签对应的状态数据。

具体地，状态数据是与姿态标签对应的自定义格式的数据，可以为向量数据、矩阵数据等。如，与跳起姿态标签对应的状态数据为(1，0，0，0)，与翻身姿态标签对应的状态数据为(0，1，0，0)，与指天姿态标签对应的状态数据为(0，0，1，0)，与旋转姿态标签对应的状态数据为(0，0，0，1)，通过终端获取到与姿态标签对应的状态数据。

步骤S406，将状态数据作为深度学习神经网络模型的预期输出结果，对深度学习神经网络模型进行训练。

具体的，将状态数据作为深度学习神经网络模型的预期输出结果，以输出结果为导向对深度学习神经网络模型进行训练。如，一张图像的姿态标签为跳起，对应的状态数据为(1，0，0，0，...)，那么经过上述深度学习神经网络模型进行处理之后期望得到的状态数据为(1，0，0，0，...)，即将姿态标签对应的状态数据作为深度学习神经网络模型学习期望得到的结果。

步骤S408，更新深度学习神经网络模型的参数，得到已训练的深度学习神经网络模型。

其中，深度学习神经网络模型是对输入的图像中提取到的姿态特征进行加权，得到对应的输出状态数据。通过对输入的携带标签的图像进行不断的学习，尽可能的学习每一种姿态的特征，使得每一种姿态尽可能用一个相同的姿态特征集合进行表示，在学习过程中会调整每一种姿态对应的姿态特征集合中每一个姿态特征的权重。通过学习更新上述深度学习神经网络模型训练模型的参数，使得通过该网络模型对图像集合进行学习识别得到的姿态正确识别率尽可能高，当姿态正确识别率满足预设范围时结束上述深度学习神经网络模型的训练，得到已训练的深度学习神经网络模型。深度学习神经网络模型能够快速的提取到图像的特征，提高图像的处理速度，减少耗时。通过提取到的特征识别出目标主体的姿态，得到目标主体的姿态，提高姿态检测的准确性。

在一个实施例中，可以根据应用场景的需要，对不同应用场景对应的触发拍照的姿态提取不同的多种特征，进行特征学习，从而使得训练后的网络模型可以针对不同的应用场景识别不同的复杂姿态。如对于体育赛事应用场景，存在灌篮、跳水入水、足球射门、网球发球、体操腾空等多种复杂的姿态，当训练数据集足够大，特征提取足够完善时，训练后的网络模型可以准确地识别多种复杂的姿态，可根据识别出的姿态对体育比赛的犯规进行辅助判断。

在一个实施例中，上述深度学习神经网络模型可包括卷积深度学习神经网络模型。卷积深度学习神经网络模型中一般采用权值共享网络结构，降低了网络模型的复杂度，减少了权值的数量。具体地，将携带姿态标签的图像集合输入卷积深度学习神经网络模型，对该网络模型进行训练，更新网络的参数，当使用更新后的网络模型的参数能够得到预设的输出正确率时，停止训练，得到已训练的网络模型。

如图5所示，在一个实施例中，步骤S408包括：

步骤S408a，对图像集合中各个图像进行姿态特征提取得到对应的姿态特征集合。

其中，姿态特征为触发拍摄的目标主体发出的动作或者摆出的姿势对应的各个肢体的状态，或者触发拍摄的风景的动态特征。如，人体基本运动动作形式可主要归纳为推拉、鞭打、缓冲、蹬伸、摆动、扭动和相向运动等。上肢基本运动动作可归纳为推、拉和鞭打3种。下肢基本运动动作可归纳为缓冲、蹬伸和鞭打3种。全身及躯干的运动动作可分为摆动、扭转和相向运动3种。根据上述基本运动动作形式对图像进行特征提取，提取得到的姿态特征集合为(上肢推、上肢拉、上肢鞭打、下肢缓冲、下肢蹬伸、下肢鞭打、摆动、扭转、相向运动)。

步骤S408b，调整各个图像对应的姿态特征集合中各个姿态特征的权重。

其中，权重是每一个姿态中的每一个姿态特征的占有的比重。如，姿态特征集合为x(上肢推、上肢拉、上肢鞭打、下肢缓冲、下肢蹬伸、下肢鞭打、摆动、扭转、相向运动)，支持的触发拍照姿态有(跳起，指天，旋转，翻身)，通过y向量表示姿态的概率(P跳起，P指天，P旋转，P翻身)。通过机器学习训练得到一个矩阵W，该矩阵中的元素用于描述姿态特征集合中各个姿态特征对应的权重。其中，姿态特征集合中的各个姿态的排序可以随机排列，不限于上述排列方式。

步骤S408c，根据各个姿态特征的权重对对应的姿态特征进行加权后得到当前状态数据。

其中，当前状态数据为深度学习神经网络模型的输出数据，是与姿态对应的数据，不同的状态数据表示不同的姿态。对姿态特征集合进行加权得到状态数据，根据状态数据得到与图像目标主体对应的姿态。如，根据y＝W*x计算得到各个姿态对应的概率，计算结果为(0.9，0，0，0.1)，0.9表示跳起姿态对应的概率，0.1表示翻身姿态对应的概率，由于跳起姿态对应的概率远远大于其它姿态对应的概率，故根据概率(0.9，0，0，0.1)确定的状态数据为(1，0，0，0)，与状态数据(1，0，0，0)对应的姿态为跳起。

步骤S408d，当当前状态数据与预期状态数据满足收敛条件时，得到对应的各个姿态特征的目标权重。

具体地，收敛是将误差逐渐缩小到一定的阈值范围内。收敛条件可以是对携带姿态标签的图像集合根据目标权重学习得到的姿态的错误识别率阈值。当检测到携带姿态标签的图像集合中的错误识别率在姿态错误识别率阈值范围内时，得到对应的各个姿态特征的目标权重。其中，错误识别率是根据当前状态数据与预期状态数据计算得到的。当前状态数据与预期状态数据一致，表示正确识别，当前状态数据与预期状态数据不一致，表示错误识别，通过对错误识别数和测试数据进行统计得到错误识别率。如，错误识别率阈值为0.15，通过训练图像进行训练得到了深度学习神经网络模型，将测试数据输入深度学习神经网络模型进行测试，计算测试图像的错误识别率，若错误识别为0.17表示为达到对应的收敛图像。若错误识别率为0.15表示满足收敛条件。

步骤S408e，根据目标权重得到深度学习神经网络模型的参数，得到已训练的深度学习神经网络模型。

具体地，将上述目标权重作为深度学习神经网络模型的参数，得到已训练的深度学习神经网络模型。将图像输入到该已训练的深度学习神经网络模型中，提取目标主体的姿态特征，对姿态特征按照深度学习神经网络模型参数的进行加权得到对应的状态数据，该状态数据作为深度学习神经网络模型的输出。训练数据足够多，使得训练得到的深度学习神经网络模型学习得到的特征越精确，通过深度学习神经网络模型进行姿态检测得到的结果越准确。

如图6所示，在一个实施例中，步骤S206，包括：

步骤S206a，将包含至少一个目标主体的图像区域输入已训练的深度学习神经网络模型。

具体地，目标主体是从上述图像识别模型识别到的目标主体。包含该目标主体的图像区域可以是对上述图像识别模型识别到的目标主体进行分割得到的图像，也可以是获取的包含目标主体的当前图像。目标主体可以包括人、动物或景物，将包含目标主体的图像区域输入已训练的深度学习神经网络模型。

步骤S206b，对包含至少一个目标主体的图像区域进行姿态特征提取得到至少一个目标主体对应的目标姿态特征集合。

其中，目标姿态特征集合为目标主体发出的动作或者姿态的多个特征组成的特征集合。以动物的四脚朝天为例，对动物进行姿态特征提取得到的姿态特征为动物四肢上推动作和四肢的朝向。

具体地，根据特征提取算法提取包含目标主体的图像区域的姿态特征，将提取到的目标主体的姿态特征按照一定的顺序进行排列或者随机排列得到对应的姿态特征集合，该姿态特征集合是一个包含多个姿态特征的向量。

步骤S206c，根据各个姿态特征的权重对至少一个目标主体的姿态特征集合中的各个姿态特征进行加权得到对应目标状态数据。

具体地，各个姿态特征的权重为已训练的深度学习神经网络识别模型的参数对应的权重，通过该参数对目标主体的姿态特征集合中的各个姿态特征进行加权处理，得到目标状态数据。目标状态数据为与目标主体的姿态对应的状态数据。

步骤S206d，根据目标状态数据与姿态的对应关系得到至少一个目标主体的目标姿态。

具体地，状态数据与姿态之间是对应的，该对应关系是在进行上述深度学习神经网络训练之前就定义好的。故在计算得到图像中的目标主体的姿态的状态数据时，通过查找状态数据与姿态的对应关系确定目标主体的姿态。

根据深度学习神经网络模型进行姿态检测能够快速得到目标姿态，且深度学习神经网路模型能够从多个维度学习目标主体的姿态特征，得到更为准确的目标主体的姿态特征，提高拍摄效果。

在一个实施例中，图像识别模型和深度学习神经网络模型可以合并为一个神经网络模型，该神经网络模型可以对输入图像的目标主体进行识别和跟踪，并对识别出的目标主体的姿态进行检测，确定图像中的目标主体的姿态。上述神经网络模型是对多幅图像中包含的目标主体和目标主体的姿态进行学习得到。

如图7所示，在一个实施例中，步骤S208之后，还包括：

步骤S602，继续获取图像采集装置采集的图像。

具体地，在触发拍摄指令，完成拍摄之后，获取图像采集装置采集的新图像。新图像可以是对摄像头进行移动之后采集到的图像，也可以是在原位置采集的图像。

步骤S604，进入在图像中识别出至少一个目标主体，并持续跟踪至少一个目标主体的姿态变化的步骤，当检测到目标主体的姿态与预设目标姿态匹配时，再次触发拍摄指令。

具体地，图像采集装置继续采集新图像，对采集的新图像进行处理，通过图像识别算法识别出图像中的目标主体，并对识别出的目标主体进行跟踪定位。其中，对识别出的目标主体进行跟踪定位包括但不限于对部分图像中的目标主体进行定位或对全部的图像中的目标主体进行定位。对识别出的目标主体的姿态通过姿态检测模型进行检测，该姿态检测模型包括但不限于已训练的深度学习神经网络模型。当通过姿态检测模型检测到的姿态与预设目标姿态匹配时，再次进行拍摄，得到新的视频和照片。其中，预设目标姿态可以是一个或多个。当检测到的目标主体的姿态与多个预设目标姿态中的任意一个预设目标姿态匹配时，再次触发拍摄指令。当一帧图像中包含多个目标主体时，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令。当包含多个目标主体和多个预设目标姿态时，则当检测到的多个目标主体中至少一个目标主体的姿态与多个预设目标姿态的任意一个预设目标姿态匹配时，触发拍摄指令。

步骤S606，重复进入继续获取图像采集装置采集的图像的步骤，完成持续触发拍摄。

具体地，完成再次拍摄之后，重复对获取到的图像进行检测的步骤。图像采集装置一直处于工作模式，不断重复上述获取图像，检测图像，姿态检测，触发拍摄指令的步骤。重复进行拍摄能够得到更多更自然的照片和视频。将图像采集装置对着目标主体时，图像采集装置不断重复执行采集图像到触发拍摄指令，完成拍摄的步骤。如，将图像采集装置对着目标主体，预设目标姿态包括但不限于小孩子做出拍手、招手、翻身或小步跑等动作，当检测到小孩子做出拍手、招手、翻身、小步跑的动作时，触发拍摄指令。当检测到图像中有三个小孩，其中任意一个小孩做出上述动作就触发拍摄指令。预设目标姿态包括但不限于猫狗跳跃，挠痒痒，吐舌头，后腿站立，四脚朝天等动作，当检测到上述动作时触发拍摄指令，完成拍照，得到各种萌照，记录小孩子美好瞬间和宠物的呆萌时刻。

如图8所示，在一个实施例中，预设目标姿态包括起始姿态和终止姿态，步骤S208包括：

步骤S208a，当检测到至少一个目标主体的姿态与起始姿态匹配时，触发拍摄指令，持续获取图像采集装置拍摄的图片。

具体地，当该预设目标姿态用于触发拍摄指令的预设目标姿态时，将其作为起始姿态。当检测到图像中识别到的目标主体做出的动作与用于触发拍摄指令的预设目标姿态一致时，触发拍摄指令，持续获取图像采集装置采集到的图片。

步骤S208b，当检测到至少一个目标主体的姿态与终止姿态匹配时，使图像采集装置停止拍摄图片。

具体地，当预设目标姿态是用于结束拍摄的姿态时为终止姿态。当检测到图像中识别到的目标主体做出的动作与用于终止拍摄的目标姿态一致时，停止获取持续图像采集装置采集到的图片。由起始姿态到终止姿态之间持续获取到的图像采集装置采集的图像构成视频。采用视频记录能够保存更多的信息，且视频能够将许多动态姿态整个过程记录下来。

在一个实施例中，预设目标姿态包含多个预设目标子姿态，步骤S208包括：

当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，拍摄得到多张包含同一个预设目标姿态的多个子姿态照片。

其中，预设姿态包含多个预设目标子姿态表示一个动作从开始到结束整个时间段里面包含多个满足预设姿态的预设目标子姿态，且这些姿态按照时间顺序排列记录了拍摄者在整个时间段内姿态的变化过程。

具体地，触发拍照时可以连续拍摄多张照片。每一个动作的开始到结束会持续一段时间，在动作持续期间可以连续拍摄多张照片，将动作的整个流程记录下来。如，一系列的人物跳跃的照片，一个人从起跳到落地过程中向上跳跃时高度从低到高，下落过程中从高到低，当检测到目标主体的姿态为跳跃时，开始拍摄照片，连续拍摄多张。拍摄可以按照预设的拍摄时间间隔进行连续拍摄，也可以在触发拍摄之后将图像采集装置采集到最近多帧保存下来。保存多少帧图像可以自定义设置，如设置连续拍摄3张或5张图片。

在一个实施例中，由多个预设目标姿态组成预设目标姿态集合，步骤S208包括：当检测到至少一个目标主体的姿态与预设目标姿态集合中的任意一个目标姿态匹配时，触发拍摄。

具体地，预设目标姿态集合由多个预设目标姿态组成，预设目标姿态可以根据拍摄者的预期拍摄内容确定。在拍摄时，当检测到目标主体的姿态与多个预设目标姿态中的任意一个预设目标姿态相匹配时，触发拍摄指令。如，设置的预设目标姿态包括跳起、指天、翻身等，检测到目标主体做出跳起姿态时，拍摄图片，或检测到目标主体做出指天动作时，触发拍摄指令。当目标主体做出的姿态与设置的多个预设目标姿态中的任意一个预设目标姿态相匹配时，触发拍照指令，完成拍照。

在一个实施例中，预设目标姿态包含多个，拍摄设备能够根据多个预设目标姿态触发多次拍摄，在第一次检测目标主体的姿态与多个预设目标姿态中的任意一个预设目标姿态匹配时间，触发拍摄指令，完成第一次拍摄，图像采集装置再次获取图像，对再次获取的图像进行检测，当再次检测到目标主体与多个预设目标姿态中的任意一个预设目标姿态匹配时，再次触发拍摄指令，完成再次拍摄，继续获取图片，重复进入上述图像检测、触发拍摄和完成拍摄的步骤。如，对篮球比赛进行拍摄，预设目标姿态包括但不限于投篮、运球、传球、上篮、扣篮等动作，当检测到图像中的投篮动作与预设目标姿态中的投篮动作匹配时，触发拍摄指令，保存包含投篮动作的图片，然后继续获取图片，对图片中的目标主体的姿态进行再次检测，当检测到上篮时，完成当前拍摄，得到包含上篮姿态的图片，图像采集装置继续获取，当检测图片中的目标主体的姿态运球时，完成当前拍摄，得到包含运球姿态的图片。重复获取图片、检测图片中的姿态是否与上述预设目标姿态匹配，匹配时完成拍照。多次触发拍摄指令和多个预设目标姿态的拍摄方式能够得到更多更为自然的图像。

如图9所示，在一个实施例中，步骤S208包括：

步骤S208c，当检测到目标主体中包含多个目标主体时，对多个目标主体的姿态进行检测。

具体地，在同一帧图像中包含多个目标主体，目标主体的类型可以一致也可以不一致。根据应用场景学习到的同一张图像中的目标主体可以是同一类型的，也可以是不同类型的。对图像识别出的多个目标主体的姿态都进行检测，包括对多个目标主体中各个目标主体的姿态进行检测或对全部目标主体共同做出的姿态进行检测。

步骤S208d，当检测到多个目标主体的姿态同时与预设目标姿态匹配时，触发拍摄指令。

具体地，触发拍摄指令的条件为多个目标主体同时满足触发拍摄时，当检测到的全部目标主体的姿态都满足预设目标姿态时，触发拍摄指令。如图10所示，图10中位于最底部的横线表示地面，当识别出图中的4人全部离地后，进行拍摄，拍摄得到多人的跳跃照片。若是对图像中的多个目标主体的共同做出的姿态进行检测时，检测到多个目标主体共同做出的姿态与预设目标姿态一致时，触发拍摄指令。如，对多人配合完成的杂技表演，竞技运动多人配合完成的竞技项目等动作的拍摄。对多个目标主体的姿态进行检测，根据多个目标主体的姿态触发拍摄使得拍摄更为方便，且每一个目标主体都可以入境，不需要额外的拍摄者进行拍摄，拍摄更为方便。

在本实施例中，全部目标主体的动作都保持一致时触发拍摄，如图11所示，在所有的人的脸上都露出了笑脸时，触发拍摄指令，也就是检测到的4个目标主体同时都出现笑脸时，进行拍摄得到的照片。如图12所示，图中5个人都摆出了命名为“这就是命”的动作时，触发拍摄得到包含命名为“这就是命的”的动作照片。

在一个实施例中，步骤S206包括：深度学习神经网络模型对至少一个目标主体的姿态进行检测，得到至少一个目标主体的姿态和与至少一个目标主体的姿态对应的状态参数，其中状态参数的变化反映与状态参数对应的目标主体的姿态的状态变化。

其中，状态参数用于表示目标主体对应姿态当前所处的状态程度，随着姿态的动态变化，姿态当前所处的状态程度也随之变化，从而深度学习神经网络模型检测出的状态参数动态变化。具体地，通过深度学习神经网络模型识别出的目标主体进行检测，得到该目标主体对应的姿态和该姿态对应的状态参数，该状态参数用于表示目标主体的状态，姿态从形成到结束的整个连续的过程包括多个状态参数，每一个状态参数的代表目标主体的姿态的不同状态。

在一个实施例中，状态参数为与姿态类型对应类型的状态参数，如当姿态类型为跳起时，与跳起姿态类型对应的状态参数为跳起高度；当姿态类型为笑脸时，与笑脸姿态类型对应的状态参数为笑脸的程度等。

在另一个实施例中，状态参数包括但不限于用数值表示或用等级表示等。如，拍摄人物跳跃的照片时图像中人物跳的高度等级，高度等级与高度数值对应。如，跳起的高度等级可以分为包括但不限于3个等级，其中跳起的高度在第一个高度数值阈值范围内时属于1级跳起，在第一个高度数值阈值范围和在第二个高度数值阈值范围间的属于2级跳起，超过第二个高度数值阈值范围属于3级跳起。

步骤S208包括：当检测到至少一个目标主体的姿态与预设目标姿态匹配，且与预设目标姿态匹配的目标主体的姿态的状态参数满足预设状态参数时，触发拍摄指令。

具体地，当检测到多个目标主体中的至少一个目标主体的姿态与预先设置的目标姿态匹配时，且匹配的目标主体的状态参数与预先设置的目标状态参数匹配时，触发拍照。通过状态参数与姿态共同控制拍摄时，能够通过状态参数抓拍到更为精准的拍摄姿态。

在一个实施例中，与预设目标姿态匹配的目标主体的姿态对应的状态参数满足预设状态参数，包括：当目标主体的姿态对应的状态参数大于或等于预设状态参数时，判定与预设目标姿态匹配的目标主体的姿态对应的状态参数满足预设状态参数。

具体的，如预设状态参数为跳起高度阈值，当目标主体的姿态的跳起高度大于或等于跳起高度阈值时，与预设目标姿态匹配的目标主体的姿态对应的状态参数满足预设状态参数。由于从跳起到落下是一个高度连续变化的过程，从而可通过预设状态参数触发拍摄姿态连续变化的图像集合。

在一个实施例中，所述预设状态参数为预设表情变化系数范围，与预设目标姿态匹配的目标主体的姿态对应的状态参数满足预设状态参数，包括：当与预设目标姿态匹配的目标主体对应的姿态的表情变化系数在所述预设表情变化系数范围内时，判定与预设目标姿态匹配的目标主体的姿态对应的状态参数满足预设状态参数。具体地，如预设表情变化系数范围为[0.5，0.8]，表示预设表情的变化幅度，其中0.5表示微笑，0.8表示大笑，如果与预设目标姿态匹配的目标主体的姿态对应的表情变化系数为0.6，则目标主体对应的表情在预设表情变化系数范围内，判定与预设目标姿态匹配的目标主体的姿态对应的状态参数满足预设状态参数。

在一个具体的实施例中，可以设置状态参数为跳起高度，如图13所示，图13中从左到右为同一个人从开始起跳到回落到地上的过程中跳起姿态的不同状态，在不同状态下分别对应了不同的状态参数，即不同的跳起高度。各个状态分别用标号001、002、003、004和005表示。其中，标号为001和005对应的2个状态表示虽然检测到人物的跳起姿态，但是人物跳起高度不满足预设跳起高度阈值，所以不触发拍摄指令，而标号为002、003和004对应的3个状态表示检测到跳起姿态，且跳起高度达到预设跳起高度阈值，当姿态和状态参数同时满足预设条件时，触发拍摄指令，从而得到如图14所示的拍摄图像，标号为002、003和004对应的3个状态对应的拍摄图像分别为图像010、图像020和图像030，这些图像组成拍摄图像集合。

如图15所示，在一个实施例中，步骤S208，包括：

步骤S208e，获取至少一个目标主体的语音数据。

具体地，语音数据是通过语音获取装置获取到的被拍摄者发出的声音。该语音数据可以包括与姿态对应的姿态信息，也可以是特定的语音数据。语音数据包含与目标主体的姿态相匹配的文字信息，如语音数据中包含但不限于“加油”、“举手”、“跳起”等含义的语音数据。

步骤S208f，对语音数据进行语音检测和识别得到对应的语音识别结果。

具体地，通过语音识别装置对获取到的语音数据进行检测和识别。检测和识别的方式包括但不限于提取语音数据中的文字信息作为语音识别结果或提取语音数据的时域信号和频域信号得到对应的语音识别结果。如，对语音数据进行检测得到的文字信息为“指天”、“加油”、“举手”、“跳起”等，或对语音数据进行处理后得到的时域波形或频域波形分别与预设语音数据的时域波形或频域波形相似或者相同。

步骤S208g，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，且语音识别结果与预设目标语音数据匹配时，触发拍摄指令。

具体地，当检测到多个目标主体中至少一个目标主体的姿态与预先设置的目标姿态匹配，语音识别结果与预先设置的用于触发拍摄指令的目标语音数据相匹配时，触发拍摄指令。当语音识别结果为文字信息时，该文字信息包括但不限于与姿态对应的文字信息或通过预先设置姿态与文字信息对应关系，通过姿态与文字信息的对应关系确定。该语音识别结果与预设语音数据中的文字信息是否匹配，当匹配成功时，触发拍摄指令。当语音识别结果为语音数据的时域信号或频域信号时，与预设目标语音数据的时域信号或频域信号匹配成功时，触发拍摄指令。通过语音数据和姿态同时控制拍摄的图像拍摄方法能够抓拍到更为准确的拍摄姿态。当语音数据与姿态其中任意一个与预设条件不相符时，不触发拍摄指令，减少拍摄误差。如，检测到目标主体的姿态为跳起，目标主体的语音数据识别得到的文字信息为“指天”时，不触发拍摄指令；目标主体的语音数据识别得到的文字信息为“跳起”时，触发拍摄指令，完成拍摄。

如图16所示，在一个具体的实施例中，拍摄方法包括：

步骤S802，获取图像采集装置采集的图像。

步骤S804，通过已训练的图像识别模型对图像进行目标识别和跟踪，该已训练的图像识别模型是对携带目标主体标签的图像进行学习得到的。根据获取到的目标主体在历史图像中的位置信息对目标主体在当前图像的位置进行预测，得到预测位置区域。在预测位置区域范围内对目标主体进行检测，并识别出目标主体。

步骤S806，将包含至少一个目标主体的图像区域输入已训练的深度学习神经网络模型，根据特征提取算法提取包含目标主体的图像区域的姿态特征，根据已训练的深度学习神经网络模型的参数中各个姿态特征对应的权重，对各个姿态特征进行加权得到对应目标状态数据。根据状态数据与姿态的对应关系查找目标状态数据对应的目标姿态。

步骤S808，将目标姿态与预设目标姿态进行匹配，当匹配成功时，执行步骤S810。预设目标姿态可以为一个或者多个，如，预设目标姿态包含跳起、指天、翻身等动作。当检测到目标主体做出指天的动作时，执行步骤S810。当检测到目标主体的姿态与预设目标姿态不匹配时，返回步骤S802。如，检测到目标主体并未做出上述三个预设目标姿态中的任何一个姿态时，返回步骤S802，重复执行上述S802到S808步骤。

步骤S810，检测拍摄设备是否设置了持续拍摄。若设置了持续拍摄，则执行步骤S812。若没有设置持续拍摄，则执行步骤S822。

步骤S812，触发拍照，拍照时可以连续拍摄多张照片，也可以只拍摄一张照片。如，拍摄时，包括但不限于执行1次拍摄或3连拍或5连拍等，拍摄完之后执行步骤S830。

步骤S822，开始拍摄视频。

步骤S824，检测是否设置了终止视频录制的终止姿态。检测到设置了用于终止视频录制的终止姿态时，执行步骤S826a。检测到未设置终止视频录制的终止姿态，执行步骤S826b。

步骤S826a，检测图像采集装置采集的图像中的目标主体对应的姿态是否与预设目标姿态中的终止姿态匹配。如，终止姿态为翻身，当检测到视频图像中的目标主体做出翻身的动作时，执行步骤S828。

步骤S826b，获取视频拍摄的时间长度，检测视频拍摄的时间长度是否与预先设置的拍摄时间长度时一致。当视频拍摄的时间长度达到预先设置的拍摄时间长度时，执行步骤S828。如，设置拍摄视频的时间长度为4分钟，当检测到拍摄视频的时间长度已经达到4分钟时，执行步骤S828。

步骤S828，当满足步骤S826a和步骤S826b的条件时，也就是视频图像中的目标主体做出翻身或者拍摄视频的时间长度达到4分钟时，停止拍摄视频。停止拍摄之后，执行步骤S830。

步骤S830，将步骤S812中拍摄得到的照片和步骤S828中拍摄的得到的图像保存下来。

步骤S832，完成步骤S830时，检测拍摄设备是否设置了多次触发拍摄的功能，若是设置了设置多次触发拍摄，则进入步骤S802，重复执行上述S802至S832的步骤，若未设置多次触发拍摄，进入步骤S834。

步骤S834，结束拍摄。

如图17所示，在一个实施例中，提供一种图像拍摄装置200，包括：

图像采集模块202，用于获取图像采集装置采集的图像。

目标主体识别跟踪模块204，用于在图像中识别出至少一个目标主体，并持续跟踪至少一个目标主体的姿态变化。

姿态检测模块206，用于通过已训练的深度学习神经网络模型对至少一个目标主体的姿态进行检测。

拍摄模块208，用于当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令。

如图18所示，在一个实施例中，目标主体识别跟踪模块204，包括：

历史位置获取单元204a，用于将当前图像输入已训练的图像识别模型，已训练的图像识别模型获取图像对应的历史图像中至少一个目标主体的历史位置信息。

预测单元204b，用于根据历史位置信息确定至少一个目标主体在当前图像的预测位置区域。

当前位置输出单元204c，用于当在预测位置区域范围内检测到至少一个目标主体时，输出至少一个目标主体在当前图像的当前位置信息。

如图19所示，在一个实施例中，图像拍摄装置200，包括：

图像数据输入单元402，用于将携带姿态标签的训练图像集合输入深度学习神经网络模型中。

状态数据获取单元404，用于获取与姿态标签对应的状态数据。

网络模型训练单元406，用于将状态数据作为深度学习神经网络模型的预期输出结果，对深度学习神经网络模型进行训练，更新深度学习神经网络模型的参数，得到已训练的深度学习神经网络模型。

如图20所示，在一个实施例中，训练单元406，包括：

特征提取子单元406a，用于对图像集合中各个图像进行姿态特征提取得到对应的姿态特征集合。

权重调节子单元406b，用于调整各个图像对应的姿态特征集合中各个姿态特征的权重。

当前状态数据计算子单元406c，用于根据各个姿态特征的权重对对应的姿态特征进行加权后得到当前状态数据。

目标权重计算子单元406d，用于当当前状态数据与预期状态数据满足收敛条件时，得到对应的各个姿态特征的目标权重。

网络模型确定子单元406e，用于根据目标权重得到深度学习神经网络模型的参数，得到已训练的深度学习神经网络模型。

如图21所示，在一个实施例中，姿态检测模块206，包括：

图像输入单元206a，用于将包含至少一个目标主体的图像区域输入已训练的深度学习神经网络模型。

目标姿态特征集合提取单元206b，用于对包含至少一个目标主体的图像区域进行姿态特征提取得到至少一个目标主体对应的目标姿态特征集合。

目标状态数据计算单元206c，用于根据各个姿态特征的权重对至少一个目标主体的姿态特征集合中的各个姿态特征进行加权得到对应目标状态数据。

目标姿态查找单元206d，用于根据目标状态数据与姿态的对应关系得到至少一个目标主体的目标姿态。

如图22所示，在一个实施例中，图像拍摄装置200，还包括：

图像采集模块202，还用于继续获取图像采集装置采集的图像。

重复进入目标主体识别跟踪模块204在图像中识别出目标主体，并持续跟踪至少一个目标主体的姿态变化，在姿态检测模块206中对识别出的至少一个目标主体的姿态进行检测，拍摄模块208当检测到的至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，完成拍摄。

重复进入图像采集模块202，完成持续触发拍摄。

如图23所示，在一个实施例中，拍摄模块208，包括：

持续拍摄单元208a，用于当检测到至少一个目标主体的姿态与起始姿态匹配时，触发拍摄指令，持续获取图像采集装置拍摄的图片。

停止拍摄单元208b，用于当检测到至少一个目标主体的姿态与终止姿态匹配时，使图像采集装置停止拍摄图片。

在一个实施例中，拍摄模块208还用于当检测到至少一个目标主体的姿态与预设目标子姿态匹配时，触发拍摄指令，拍摄得到与多个预设目标子姿态对应的子姿态照片。

在一个实施例中，拍摄模块208还用于当检测到至少一个目标主体的姿态与预设目标姿态集合中的任意一个预设目标姿态匹配时，触发拍摄指令。

在一个实施例中，拍摄模块208，还用于当检测到目标主体中包含多个目标主体时，对多个目标主体的姿态进行检测，当检测到多个目标主体的姿态同时与预设目标姿态匹配时，触发拍摄指令。

在一个实施例中，态检测模块206，还用于深度学习神经网络模型对至少一个目标主体的姿态进行检测，得到至少一个目标主体的姿态和与至少一个目标主体的姿态对应的状态参数，其中状态参数的变化反映与状态参数对应的目标主体的姿态的状态变化。

在本实施例中，拍摄模块208，还用于当检测到至少一个目标主体的姿态与预设目标姿态匹配，且与预设目标姿态匹配的目标主体的姿态的状态参数满足预设状态参数时，触发拍摄指令。

如图24所示，在一个实施例中，拍摄模块208，包括：

语音获取单元208e，用于获取至少一个目标主体的语音数据。

语音识别单元208f，用于对语音数据进行检测识别得到对应的语音识别结果。

语音姿态拍摄单元208g，用于当检测到至少一个目标主体的姿态与预设目标姿态匹配时，且语音识别结果与预设目标语音数据匹配时，触发拍摄指令。

如图25所示，为一个实施例中计算机设备的内部结构图，该计算机设备通过***连接总线连接处理器、非易失性存储介质、内存储器和网络接口。其中，该计算机设备的非易失性存储介质可存储操作***和计算机可读指令，该计算机可读指令被执行时，可使得处理器执行一种图像拍摄方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种图像拍摄方法。计算机设备的网络接口用于进行网络通信，如接图像，发送停止控制指令等。本领域技术人员可以理解，图25中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的拍摄装置可以实现为一种计算机程序的形式，计算机程序可在如图25所示的计算机设备上运行，计算机设备的非易失性存储介质可存储组成该拍摄装置的各个程序模块，比如图17中的图像获取模块202。各个程序模块中包括计算机可读指令，计算机可读指令用于使计算机设备执行本说明书中描述的本申请各个实施例的拍摄方法中的步骤，如，计算机设备可以通过如图17所示的图像获取模块202获取图像采集装置采集的图像。通过目标主体识别跟踪模块204在图像中识别出至少一个目标主体，并持续跟踪至少一个目标主体的姿态变化。通过姿态检测模块206通过已训练的深度学习神经网络模型对至少一个目标主体的姿态进行检测。通过拍摄模块208当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，完成拍摄。

在一个实施例中，提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如下步骤：获取图像采集装置采集的图像，在图像中识别出至少一个目标主体，并持续跟踪至少一个目标主体的姿态变化，通过已训练的深度学习神经网络模型对至少一个目标主体的姿态进行检测，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令。

在一个实施例中，在图像中识别出至少一个目标主体，并持续跟踪至少一个目标主体的姿态变化，包括：将当前图像输入已训练的图像识别模型，已训练的图像识别模型获取当前图像对应的历史图像中至少一个目标主体的历史位置信息，根据历史位置信息确定至少一个目标主体在当前图像的预测位置区域，当在预测位置区域范围内检测到至少一个目标主体时，输出至少一个目标主体在当前图像的当前位置信息。

在一个实施例中，通过已训练的深度学习神经网络模型对至少一个目标主体的姿态进行检测之前，所述计算机程序还使得所述处理器执行如下步骤：将携带姿态标签的训练图像集合输入深度学习神经网络模型中，获取与姿态标签对应的状态数据，将状态数据作为深度学习神经网络模型的预期输出结果，对深度学习神经网络模型进行训练，更新深度学习神经网络模型的参数，得到已训练的深度学习神经网络模型。

在一个实施例中，更新深度学习神经网络模型的参数，得到已训练的深度学习神经网络模型，包括：对图像集合中各个图像进行姿态特征提取得到对应的姿态特征集合，调整各个图像对应的姿态特征集合中各个姿态特征的权重，根据各个姿态特征的权重对对应的姿态特征进行加权后得到当前状态数据，当当前状态数据与预期状态数据满足收敛条件时，得到对应的各个姿态特征的目标权重，根据目标权重得到深度学习神经网络模型的参数，得到已训练的深度学习神经网络模型。

在一个实施例中，通过已训练的深度学习神经网络模型对至少一个目标主体的姿态进行检测，包括：将包含至少一个目标主体的图像区域输入已训练的深度学习神经网络模型，对包含至少一个目标主体的图像区域进行姿态特征提取得到至少一个目标主体对应的目标姿态特征集合，根据各个姿态特征的权重对至少一个目标主体的姿态特征集合中的各个姿态特征进行加权得到对应目标状态数据，根据目标状态数据与姿态的对应关系得到至少一个目标主体的目标姿态。

在一个实施例中，触发拍摄指令之前，所述计算机程序还使得所述处理器执行如下步骤：继续获取图像采集装置采集的图像；进入在图像中识别出至少一个目标主体，并持续跟踪至少一个目标主体的姿态变化的步骤，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，再次触发拍摄指令，重复进入继续获取图像采集装置采集的图像的步骤，完成持续触发拍摄。

在一个实施例中，预设目标姿态包括起始姿态和终止姿态，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，包括：当检测到至少一个目标主体的姿态与起始姿态匹配时，触发拍摄指令，持续获取图像采集装置拍摄的图片，当检测到至少一个目标主体的姿态与终止姿态匹配时，使图像采集装置停止拍摄图片。

在一个实施例中，预设目标姿态包含多个预设目标子姿态，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，包括：当检测到至少一个目标主体的姿态与预设子目标姿态匹配时，触发拍摄指令，拍摄得到与多个预设目标子姿态对应的子姿态照片。

在一个实施例中，由多个预设目标姿态组成预设目标姿态集合，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，包括：当检测到至少一个目标主体的姿态与预设目标姿态集合中的任意预设一个目标姿态匹配时，触发拍摄指令。

在一个实施例中，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，包括：当检测到目标主体中包含多个目标主体时，对多个目标主体的姿态进行检测，当检测到多个目标主体的姿态同时与预设目标姿态匹配时，触发拍摄指令。

在一个实施例中，深度学习神经网络模型对至少一个目标主体的姿态进行检测，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，包括：深度学习神经网络模型对至少一个目标主体的姿态进行检测，得到至少一个目标主体的姿态和与至少一个目标主体的姿态对应的状态参数，其中状态参数的变化反映与状态参数对应的目标主体的姿态的状态变化；当检测到至少一个目标主体的姿态与预设目标姿态匹配，且与预设目标姿态匹配的目标主体的姿态的状态参数满足预设阈值时，触发拍摄指令。

在一个实施例中，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，包括：获取至少一个目标主体的语音数据；对语音数据进行检测识别得到对应的语音识别结果；当检测到至少一个目标主体的姿态与预设目标姿态匹配时，且语音识别结果与预设目标语音数据匹配时，触发拍摄指令。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：获取图像采集装置采集的图像，在图像中识别出至少一个目标主体，并持续跟踪至少一个目标主体的姿态变化，通过已训练的深度学习神经网络模型对至少一个目标主体的姿态进行检测，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令。

在一个实施例中，触发拍摄指令之前，所述计算机程序还使得所述处理器执行如下步骤：继续获取图像采集装置采集的图像；进入在图像中识别出至少一个目标主体，并持续跟踪至少一个目标主体的姿态变化步骤，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，再次触发拍摄指令，重复进入继续获取图像采集装置采集的图像的步骤，完成持续触发拍摄。

在一个实施例中，预设目标姿态包含多个预设目标子姿态，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，包括：当检测到至少一个目标主体的姿态与预设目标子姿态匹配时，触发拍摄指令，拍摄得到与多个预设目标子姿态对应的子姿态照片。

在一个实施例中，由多个预设目标姿态组成预设目标姿态集合，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，包括：当检测到至少一个目标主体的姿态与预设目标姿态集合中的任意一个预设目标姿态匹配时，触发拍摄指令。

在一个实施例中，深度学习神经网络模型对至少一个目标主体的姿态进行检测，当检测到至少一个目标主体的姿态与预设目标姿态匹配时，触发拍摄指令，包括：深度学习神经网络模型对至少一个目标主体的姿态进行检测，得到至少一个目标主体的姿态和与至少一个目标主体的姿态对应的状态参数，其中状态参数的变化反映与状态参数对应的目标主体的姿态的状态变化；检测到至少一个目标主体的姿态与预设目标姿态匹配，且与预设目标姿态匹配的目标主体的姿态的状态参数满足预设阈值时，触发拍摄指令。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像拍摄方法，所述方法包括：

获取图像采集装置采集的图像；

将当前图像输入已训练的图像识别模型，所述已训练的图像识别模型获取所述当前图像对应的历史图像中多个目标主体的历史位置信息；

对于每个目标主体，执行以下处理：

根据所述历史位置信息和该目标主体的运动信息，结合预测出该目标主体在所述当前图像的预测位置区域；当在所述预测位置区域的范围内检测到该目标主体时，输出该目标主体在所述当前图像的当前位置信息；

在所述当前图像对该目标主体进行分割，将包含该目标主体的图像区域，输入到已训练的深度学习神经网络模型进行姿态特征提取，得到该目标主体对应的目标姿态特征集合；根据各个姿态特征的权重，对该目标主体的姿态特征集合中的各个姿态特征进行加权，得到目标状态数据；根据所述目标状态数据与姿态的对应关系，得到该目标主体的姿态；

通过语音获取装置获取至少一个被拍摄者发出的语音数据，其中，所述语音数据包含与目标主体的姿态相匹配的文字信息；对所述语音数据进行检测识别，得到语音识别结果；

当检测到所述多个目标主体的姿态同时与起始姿态匹配时，且所述语音识别结果与预设目标语音数据匹配时，触发拍摄指令，持续获取所述图像采集装置拍摄的图片；当检测到每个目标主体的姿态与终止姿态匹配时，使所述图像采集装置停止拍摄图片，其中，由所述起始姿态到所述终止姿态之间持续获取到的图片构成视频。

2.根据权利要求1所述的方法，其特征在于，所述将包含该目标主体的图像区域，输入到已训练的深度学习神经网络模型进行姿态特征提取的步骤之前，还包括：

将携带姿态标签的训练图像集合，输入到深度学习神经网络模型中；

获取与所述姿态标签对应的状态数据；

将所述状态数据作为所述深度学习神经网络模型的预期输出结果，对所述深度学习神经网络模型进行训练；

更新所述深度学习神经网络模型的参数，得到所述已训练的深度学习神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述更新所述深度学习神经网络模型的参数，得到所述已训练的深度学习神经网络模型的步骤，包括：

对所述训练图像集合中各个图像进行姿态特征提取，得到对应的姿态特征集合；

调整各个图像对应的姿态特征集合中各个姿态特征的权重；

根据各个姿态特征的权重，对对应的姿态特征进行加权后，得到当前状态数据；

当所述当前状态数据与预期状态数据满足收敛条件时，得到对应的各个姿态特征的目标权重；

根据所述目标权重，得到所述深度学习神经网络模型的参数。

4.根据权利要求1所述的方法，其特征在于，还包括：

当使用所述深度学习神经网络模型得到该目标主体的姿态时，还得到与该目标主体的姿态对应的状态参数，其中，所述状态参数的变化反映该目标主体的姿态的状态变化；

所述当检测到所述多个目标主体的姿态同时与起始姿态匹配时，且所述语音识别结果与预设目标语音数据匹配时，触发拍摄指令的步骤，包括：

当检测到所述多个目标主体的姿态同时与所述起始姿态匹配，且各个目标主体的姿态的状态参数满足预设阈值，以及所述语音识别结果与预设目标语音数据匹配时，触发所述拍摄指令。

5.一种图像拍摄装置，其特征在于，所述装置包括：

图像采集模块，用于获取图像采集装置采集的图像；

目标主体识别跟踪模块，用于将当前图像输入已训练的图像识别模型，所述已训练的图像识别模型获取所述当前图像对应的历史图像中多个目标主体的历史位置信息；对于每个目标主体，执行以下处理：根据所述历史位置信息和该目标主体的运动信息，结合预测出该目标主体在所述当前图像的预测位置区域；当在所述预测位置区域的范围内检测到该目标主体时，输出该目标主体在所述当前图像的当前位置信息；

姿态检测模块，用于对于每个目标主体，在所述当前图像对该目标主体进行分割，将包含该目标主体的图像区域，输入到已训练的深度学习神经网络模型进行姿态特征提取，得到该目标主体对应的目标姿态特征集合；根据各个姿态特征的权重，对该目标主体的姿态特征集合中的各个姿态特征进行加权，得到目标状态数据；根据所述目标状态数据与姿态的对应关系，得到该目标主体的姿态；

拍摄模块，用于通过语音获取装置获取至少一个被拍摄者发出的语音数据，其中，所述语音数据包含与目标主体的姿态相匹配的文字信息；对所述语音数据进行检测识别，得到语音识别结果；当检测到所述多个目标主体的姿态同时与起始姿态匹配时，且所述语音识别结果与预设目标语音数据匹配时，触发拍摄指令，持续获取所述图像采集装置拍摄的图片；当检测到每个目标主体的姿态与终止姿态匹配时，使所述图像采集装置停止拍摄图片，其中，由所述起始姿态到所述终止姿态之间持续获取到的图片构成视频。

6.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。