CN113259734B

CN113259734B - 针对交互场景的智能导播方法、装置、终端和存储介质

Info

Publication number: CN113259734B
Application number: CN202110625376.1A
Authority: CN
Inventors: 涂勇; 秦钰森
Original assignee: Chongqing Jincai Fuxi Technology Co ltd
Current assignee: Chongqing Jincai Fuxi Technology Co ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2023-02-03
Anticipated expiration: 2041-06-04
Also published as: CN113259734A

Abstract

本申请实施例公开了一种针对交互场景的智能导播处理方法、装置、终端和存储介质，所述方法包括：接收辅助采集设备采集的目标场景下的辅助多媒体信息，对辅助多媒体信息进行识别，得到目标场景下主体和各个客体的交互信息，对主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案，基于信息采集方案调用主采集设备对目标场景进行信息采集，得到主多媒体信息，基于主多媒体信息进行多媒体导播。通过实施上述方法，可以基于主采集设备和辅助采集设备的协同工作，完成对于交互场景中重要画面的采集导播，提升针对交互场景的导播智能性。

Description

针对交互场景的智能导播方法、装置、终端和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种针对交互场景的智能导播方法、装置、终端和存储介质。

背景技术

当前，在对存在主体与客体进行互动的交互场景(课堂教学、讲座会议、集会等)的直录播过程中，通常采用以下两种方式进行直录播，方式一为摄像师进行跟踪拍摄，以及和导播师、切换师进行充分而熟练地配合，完成交互场景直录播工作，方式二为采用摄像机对交互场景中的主体进行跟踪拍摄并导播，实现场景的自动导播，其中，主体通常为一个区域中的主要进行演讲的人物，客体通常为另一区域中的主要进行倾听的人物。

显然的是，方式一需要浪费大量的人力物力，且对人员要求较高。而方式二则只是实现了对主体人员的跟踪，而对客体人员进行了忽视，即无法完成对于主体画面和客体画面进行智能导播，使得后续导播画面无法适应交互场景的需求，即针对交互场景的导播智能性较低。

发明内容

本申请实施例提供了一种针对交互场景的智能导播方法、装置、终端和存储介质，可以基于主采集设备和辅助采集设备的协同工作，完成对于交互场景中重要画面的采集导播，提升针对交互场景的导播智能性。

一方面，本申请实施例提供了一种针对交互场景的智能导播方法，所述方法包括：

接收辅助采集设备采集的目标场景下的辅助多媒体信息，所述辅助多媒体信息包括辅助视频信息和辅助音频信息；

对所述辅助多媒体信息进行识别，得到所述目标场景下主体和各个客体的交互信息，所述主体包括在所述目标场景下第一区域中的人物，所述客体包括在所述目标场景下第二区域中的人物；

对所述主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案；

基于所述信息采集方案调用所述主采集设备对所述目标场景进行信息采集，得到主多媒体信息，所述主多媒体信息包括主视频信息和主音频信息；

接收所述主采集设备返回的主多媒体信息，并基于所述主多媒体信息进行多媒体导播。

一方面，本申请实施例提供了一种针对交互场景的智能导播装置，所述装置包括：

接收模块，用于接收辅助采集设备采集的目标场景下的辅助多媒体信息，所述辅助多媒体信息包括辅助视频信息和辅助音频信息；

识别模块，用于对所述辅助多媒体信息进行识别，得到所述目标场景下主体和各个客体的交互信息，所述主体包括在所述目标场景下第一区域中的人物，所述客体包括在所述目标场景下第二区域中的人物；

分析模块，用于对所述主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案；

采集模块，用于基于所述信息采集方案调用所述主采集设备对所述目标场景进行信息采集，得到主多媒体信息，所述主多媒体信息包括主视频信息和主音频信息；

所述接收模块，还用于接收所述主采集设备返回的主多媒体信息；

导播模块，用于基于所述主多媒体信息进行多媒体导播。

一方面，本申请实施例提供了一种终端，包括处理器、输入接口、输出接口和存储器，所述处理器、输入接口、输出接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行所述针对交互场景的智能导播方法。

一方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行所述针对交互场景的智能导播方法。

本申请实施例中，终端接收辅助采集设备采集的目标场景下的辅助多媒体信息，对辅助多媒体信息进行识别，得到目标场景下主体和各个客体的交互信息，对主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案，基于信息采集方案调用主采集设备对目标场景进行信息采集，得到主多媒体信息，基于主多媒体信息进行多媒体导播。通过实施上述方法，可以基于主采集设备和辅助采集设备的协同工作，完成对于交互场景中重要画面的采集导播，提升针对交互场景的导播智能性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种针对交互场景的智能导播方法的流程示意图；

图2为本申请实施例提供的另一种针对交互场景的智能导播方法的流程示意图；

图3为本申请实施例提供的一种智能录播***的结构示意图；

图4为本申请实施例提供的一种针对交互场景的智能导播装置的结构示意图；

图5为本申请实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的针对交互场景的智能导播方法实现于终端，所述终端包括智能手机、平板电脑、数字音视频播放器、电子阅读器、手持游戏机或车载电子设备等电子设备。

图1是本申请实施例中一种针对交互场景的智能导播方法的流程示意图，如图1所示，本实施例中的针对交互场景的智能导播方法的流程可以包括：

S101、接收辅助采集设备采集的目标场景下的辅助多媒体信息。

本申请实施例中，目标场景具体可以为存在主体与客体进行互动的交互场景(课堂教学、讲座会议、集会等)，辅助采集设备包括用于辅助采集的摄像装置和音频采集装置，摄像装置可以为摄像机、监控器等用于摄像的装置，音频采集装置具体可以为话筒、麦克风等用于音频采集的装置，辅助采集设备具体可以为预先安装于目标场景下的部分采集设备，如安装于目标场景下左右方的采集设备。在接收到触发指令之后，终端可以向辅助采集设备发送采集指令，以使得辅助采集设备采集到目标场景下的辅助多媒体信息，辅助采集装置可以将采集到的辅助多媒体信息返回至终端，终端对辅助多媒体信息进行接收。其中，触发指令可以基于用户输入的指定操作生成、或在检测到当前时间满足触发条件时触发生成。终端可以为用于进行智能导播的主机，辅助多媒体信息包括辅助视频信息和辅助音频信息，辅助视频信息可以为用于进行辅助分析的目标场景下的视频图像，辅助音频信息可以为用于进行辅助分析的目标场景下的声音。其中，主体包括在目标场景下第一区域中的人物，客体包括在目标场景下第二区域中的人物，第一区域和第二区域为用户预先进行设置，例如，目标场景为课堂教学场景，则用户可设置第一区域可以为讲台区域，第二区域为学生座位区域。又如，目标场景为讲座会议场景，则用户可设置第一区域可以为讲座区域，第二区域为听讲者区域。或者，终端也可以预先接收针对第一区域和第二区域的划分规则，并在接收到目标场景下的多媒体信息后，对多媒体信息中的图像进行识别，并基于划分规则从识别的图像中划分出目标场景下的第一区域和第二区域。或者，终端接收用户输入的针对目标场景的区域划分操作，并基于区域划分操作划分出目标场景下的第一区域和第二区域。

S102、对辅助多媒体信息进行识别，得到目标场景下主体和各个客体的交互信息。

本申请实施例中，终端获取到辅助多媒体信息之后，将对辅助多媒体信息进行识别，得到目标场景下主体和各个客体的交互信息，交互信息具体可以指示主体和客体在目标场景下的参与度，即在目标场景下的参与认真程度。

具体的，终端对辅助多媒体信息进行识别，得到目标场景下主体和各个客体的交互信息的具体方式可以为，终端提取出辅助多媒体信息中主体的特征信息，调用第一模型对主体的特征信息进行处理，得到主体在目标场景下的参与度，终端提取出辅助多媒体信息中各个客体的特征信息，调用第二模型对各个客体的特征信息进行处理，得到各个客体在目标场景下的参与度；并将主体的参与度和各个客体的参与度确定为目标场景下主体和各个客体的交互信息，其中，主体的特征信息包括主体的表情特征、表情变化特征和声音特征中的至少一种；各个客体的特征信息包括各个客体的表情特征、表情变化特征和声音特征中的至少一种；在目标场景下的参与度用于指示在目标场景下参与的认真程度。

具体的，第一模型的训练方式具体可以为，获取样本主体特征集合，样本主体特征集合中包括至少一个样本主体的特征信息以及每个样本主体的参与度；基于样本主体特征集合对第一初始模型进行训练，以对第一初始模型中的参数进行更新；若参数更新后的第一初始模型满足预设条件，则将第一初始模型确定为第一模型，预设条件包括对于样本主体特征集合中样本主体的参与度的预测准确率高于预设准确率，该第一初始模型具体可以在接收到样本主体的特征信息之后，输入针对该样本主体的预测参与度，当预测参与度与特征集合中该样本主体的参与度之间差值小于预设差值时，确定参与度预测准确。同理，第二模型的训练方式具体可以为，获取样本客体特征集合，样本客体特征集合中包括至少一个样本客体的特征信息以及每个样本客体的参与度；基于样本客体特征集合对第二初始模型进行训练，以对第二初始模型中的参数进行更新；若参数更新后的第二初始模型满足第二预设条件，则将第二初始模型确定为第二模型，第二预设条件包括对于样本客体特征集合中样本客体的参与度的预测准确率高于预设准确率。

需要说明的是，特征信息包括表情特征、表情变化特征和声音特征中的至少一种，终端提取主体的表情特征的具体方式可以为，终端获取到辅助多媒体信息中的辅助视频信息，并提取出辅助视频信息中的每一帧图像，终端从各帧图像中筛选出包含主体人脸的图像，构建出主体人脸图像集合，并按照时间先后顺序对主体人脸图像中各张图像进行排序处理。针对主体人脸图像集合中每张图像，终端识别出每张图像中人脸的表情，得到表情集合，并将该表情集合作为主体的表情特征。其中，主体人脸图像集合中任意一张目标图像中人脸的表情识别方式可以为，将目标图像与数据库中存储的各张表情图像进行匹配，得到目标图像与各张表情图像之间的相似度，并确定出与目标图像之间相似度最高的目标表情图像，终端将数据库中存储的目标表情图像对应的表情确定为目标图像中人脸的表情，其中，数据库中存储了多张表情图像以及每张表情图像对应的表情。目标图像与表情图像之间的相似度的计算方式可以，对目标图像中第一脸部区域和表情图像中第二脸部区域进行归一化处理，使得第一脸部区域的尺寸和第二脸部区域的尺寸处于统一维度，计算第一脸部区域图像中各个像素点与第二脸部区域中各个像素点之间的像素差值，并对各个差值进行求和处理得到差值和，基于预先设置的差值与相似度的对应关系确定差值和对应的相似度，作为目标图像与表情图像之间的相似度。可选的，终端也可以调用表情识别模型对目标图像进行处理，得到目标图像中人脸的表情，其中表情识别模型可以为基于深度学***静表情、由大笑表情到哭泣表情或维持平静表情不变等，皆可作为表情变化特征。或者，终端提取主体的声音特征的具体方式可以为，调用语音识别模型对辅助多媒体信息中的辅助音频信息进行处理，得到主体的声音特征，具体可以预先录入主体的声音频段，将辅助音频信息中与主体的声音频段匹配的声音进行提取，并对提取的生意转换为文本以及进行关键字提取之后，作为主体的声音特征。同理，客体的特征信息也可以采用与主体的特征信息相同的提取方式提取得到，在此不做赘述。可选的实现方式中，特征信息号可以包括动作特征，具体为头部动作特征和肢体动作特征，如抬头、举手、低头等。终端可以基于预先构建的动作识别模型识别出主体和可以的动作特征，并添加至相应特征信息中。

S103、对主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案。

本申请实施例中，终端获取到主体和各个客体的交互信息之后，将对主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案，主体和客体的交互信息具体可以为主体和客体的参与度。

具体实现中，终端基于各个客体的参与度从各个客体中筛选出目标客体；基于主体的参与度和目标客体的参与度，为主体和目标客体进行采集时段分配，得到主体对应的第一采集时段和客体对应的第二采集时段；确定主体在目标场景下的第一位置坐标，以及目标客体在目标场景下的第二位置坐标；将在第一采集时段内采集第一位置坐标中的信息，以及在第二采集时段内采集第二位置坐标中的信息作为针对主采集设备的信息采集方案。其中，目标客体可以为各个客体中参与度高于预设参与度的客体，或者，各个客体中参与度最高的客体。终端具体可以基于预设的参与度与采集时长的对应关系确定出主体对应的第一采集时长和目标客体对应的第二采集时长，并基于采集时长、当前时间以及预先定制的采集规则确定主体对应的第一采集时段和目标客体对应的第二采集时段，其中，预先定制的采集规则用于确定主体和客体在一个采集周期内的采集先后顺序，采集周期可以为5秒，10秒等，每个采集周期终端都可获取到当前辅助采集设备返回的辅助多媒体信息，并制定周期内针对主多媒体设备的信息采集方案。终端确定主体在目标场景下的第一位置坐标的具体方式可以为，通过预先布置在目标场景下的各个摄像装置进行距离测量，构建出针对目标场景的空间坐标系，基于空间坐标系确定出第一位置坐标，同理，也可以基于空间坐标系确定出第二位置坐标。

S104、基于信息采集方案调用主采集设备对目标场景进行信息采集，得到主多媒体信息。

本申请实施例中，终端得到针对主采集设备的信息采集方案之后，将基于所述信息采集方案调用主采集设备对目标场景进行信息采集，得到主多媒体信息，其中，主多媒体信息包括主视频信息和主音频信息。

具体实现中，终端在第一采集时段内，调用第一主摄像装置对焦于第一位置坐标，以采集第一位置坐标中的视频信息，并调用第一主音频采集装置指向第一位置坐标，以采集第一位置坐标中的音频信息；在第二采集时段内，调用第二主摄像装置对焦于第二位置坐标，以采集第二位置坐标中的视频信息，并调用第二主音频采集装置指向第二位置坐标，以采集第二位置坐标中的音频信息；将第一位置坐标中的视频信息和第二位置坐标中的视频信息作为主视频信息，并将第一位置坐标中的音频信息和第二位置坐标中的音频信息作为主音频信息；基于主视频信息和主音频信息构建主多媒体信息。例如，终端可以在当前时间至之后的3秒内，调用第一主摄像机采集第一位置座位中的信息，以及，将第一主话筒旋转方向使其指向第一位置坐标。并在之后的3至4秒内调用第二主摄像机采集第二位置坐标中的信息，并将第二主话筒旋转方向使其指向第二位置坐标，以及将主摄像机和主话筒采集到的数据确定为主多媒体信息。

需要说明的是，主摄像装置可以为布置于目标场景下的多个摄像装置的集合，第一主摄像装置具体可以为布置于主体所在的第一区域中的摄像装置，或用于布置于拍摄第一区域中画面的摄像装置，具体实现中，第一主摄像装置的选取方式可以为，从辅助视频信息中获取到主体所在的第一位置坐标，并基于第一位置坐标筛选出第一主摄像装置，该第一主摄像装置可以为多个摄像装置的集合中与第一位置坐标距离最近的摄像装置，或者，多个摄像装置的集合中与第一位置坐标之间角度为预设角度的摄像装置，以使得第一主摄像装置拍摄出较好的主体图像。主音频采集装置可以为布置于目标场景下的多个音频采集装置的集合，第一主音频采集装置可以为多个音频采集装置的集合中与第一位置坐标距离最近的音频采集装置，其具体可布置于目标场景下的主体所在的第一区域。同理，第二主摄像装置可以为多个摄像装置的集合中与第二位置坐标距离最近的摄像装置，第二主音频采集装置可以为多个音频采集装置的集合中与第二位置坐标距离最近的音频采集装置。

通过上述方式，可以使得主采集设备在一个时间段采集到目标场景下较为重要的信息，并后续基于上述信息进行导播，提升导播的智能性。

S105、接收主采集设备返回的主多媒体信息，并基于主多媒体信息进行多媒体导播。

本申请实施例中，主采集设备采集到主多媒体信息后，将向终端发送该主多媒体信息，终端可以接收主采集设备返回的主多媒体信息，并基于主多媒体信息进行多媒体导播。具体的，当终端检测到主多媒体信息满足第一预设条件时，将主多媒体信息进行导播；当检测到主多媒体信息不满足第一预设条件时，获取辅助采集设备返回的辅助信息，并将主多媒体信息和辅助信息进行拼接，得到拼接多媒体信息后，对拼接多媒体信息进行导播。其中，第一预设条件可以为时间条件，即当主多媒体信息属于预设时间段内的信息时，确定满足第一预设条件，当主多媒体信息不属于预设时间段内的信息时，确定不满足第一预设条件。或者，第一预设条件也可以为参与度条件，终端确定主体多媒体信息中人物的参与度，当人物的参与度大于预设参与度时，确定满足第一预设条件，当人物的参与度小于预设参与度时，辅助信息可以包括辅助视频，确定不满足第一预设条件。主多媒体信息和辅助信息进行拼接的方式可以为，将辅助视频缩放至预设大小得到辅助视频流，并在主多媒体信息中覆盖写入该辅助视频流，已实现主多媒体信息和辅助信息的拼接。

进一步的，终端接收到主采集设备返回的主多媒体信息之后，还可以将主多媒体信息和关联信息存储以指定方式进行存储，关联信息具体可以包括主多媒体信息中各个人物的参与度、主多媒体信息对应的采集设备坐标、辅助多媒体信息、目标场景等信息。在一种实现方式中，可以采用数据库对上述主多媒体信息和辅助多媒体信息进行存储，或者，采用区块链对上述主多媒体信息和辅助多媒体信息进行存储，具体的，终端可以将主多媒体信息和关联信息发送至区块链中的各个节点，以使得各个节点对主多媒体信息和关联信息进行共识校验，若接收到共识校验通过的结果，则终端将主多媒体信息和关联信息打包成区块，并将区块上传至区块链中。

图2是本申请实施例中一种针对交互场景的智能导播方法的流程示意图，如图2所示，本实施例中的针对交互场景的智能导播方法的流程可以包括：

S201、获取主采集设备采集到的目标场景下的图像数据，并对图像数据进行识别，得到目标场景中人物的分布信息。

本申请实施例中，目标场景下安装有多个采集设备，其中，用于负责主要采集且具有较高功能参数的设备可作为主采集设备。终端可以在接收到用户输入的指定操作时，触发调用主采集设备采集到目标场景下的图像数据，其中，主采集设备可以搭配有全景摄像头，可以拍摄到目标场景下的全景图像，即终端获取到的图像数据可以为目标场景下的全景图像，进一步的，终端可以对图像数据进行识别，得到目标场景中人物的分布信息。其中，人物的分布信息具体可以包括目标场景下每个预设区域中人物的数量，具体可以将目标场景划分为N个预设区域，针对每个预设区域，设置有相应的采集设备采集该区域中人物的信息。

在一个实施例中，终端可以预先获取到目标场景的相关图像(全景图、中景图、近景图等)，并设计出针对目标场景的采集设备布置方案，并基于布置方案在目标场景下布置各个采集设备，其中，指定位置处或性能较高的采集设备可以作为主采集设备，采集设备包括摄像设备和拾音设备，分别采集目标场景下的视频数据和音频数据，摄像设备可以配置有广角摄像头或普通摄像头。

S202、基于人物的分布信息确定采集位置，并开启采集位置处的采集设备。

本申请实施例中，终端得到目标场景中人物的分布信息之后，将基于人物的分布信息确定采集位置，并开启采集位置处的采集设备，其中，终端基于人物的分布信息确定采集位置的具体方式可以为，终端获取分布信息中指示的每个预设区域中人物的数量，并筛选出人物的数量大于预设数量的目标预设区域，将目标预设区域内预先安置的采集设备的位置确定为采集位置，终端进一步开启采集位置处的采集设备。

S203、将采集位置处的采集设备作为辅助采集设备。

本申请实施例中，终端开启采集位置处的采集设备之后，则将采集位置处的采集设备作为辅助采集设备，以后续接收辅助采集设备返回的辅助多媒体信息，并基于辅助多媒体信息对主多媒体设备进行调用。

S204、接收辅助采集设备采集的目标场景下的辅助多媒体信息。

本申请实施例中，终端确定辅助采集设备后，可以向辅助采集设备发送采集指令，以使得辅助采集设备采集到目标场景下的辅助多媒体信息，辅助采集装置可以将采集到的辅助多媒体信息返回至终端，终端对辅助多媒体信息进行接收。其中，终端可以为用于进行智能导播的主机，辅助多媒体信息包括辅助视频信息和辅助音频信息。

S205、对辅助多媒体信息进行识别，得到目标场景下主体和各个客体的交互信息。

本申请实施例中，终端对所述辅助多媒体信息进行识别，得到目标场景下主体和各个客体的交互信息，其中，终端基于划分规则从识别的图像中划分出目标场景下的第一区域和第二区域。或者，终端接收用户输入的针对目标场景的区域划分操作，并基于区域划分操作划分出目标场景下的第一区域和第二区域。主体包括在目标场景下第一区域中的人物，客体包括在目标场景下第二区域中的人物，主体和客体的交互信息可以包括主体和客体的参与度。

在一种实现方式中，参与度具体可以由专注度、互动度和交流度确定，其中，专注度具体可以由人物的表情确定，互动度具体由人物的动作确定，交流具体由人物的声音确定。具体实现中，针对目标场景下任意一个人物(主体或客体)，专注度的计算方式可以为，对人物进行面部表情识别，得到人物的面部表情数据，该面部表情数据包括嘴巴开合程度、视线方向和眼睛开合程度中的至少一种，终端调用训练完成的专注度分析模型对面部表情数据进行处理，得到人物的专注度，其中，专注度分析模型可以为深度学习模型，为基于大量样本表情数据和对应的样本专注度训练得到。可选的，针对主体和客体，有着不同的专注度分析标准，则终端可以调用第一专注度分析模型对主体的面部表情数据进行处理，以及调用第二专注度分析模型对客体的面部表情数据进行处理，以对主体和客体的专注度进行区别分析，该第一专注度分析模型可以基于大量样本主体的面部表情训练得到，第二专注度分析模型可以基于大量样本客体的面部表情分析得到。互动度的计算方式可以为，建立基础姿势，并基于基础姿势对人物进行动作识别，得到人物的动作数据，该动作数据包括起立、举手、点头、做笔记、观看他处、玩手机、睡觉等，终端调用训练完成的互动度分析模型对动作数据进行处理，得到人物的互动度。其中，互动度分析模型可以为深度学习模型，为基于大量样本动作数据和对应的样本互动度训练得到。可选的，针对主体和客体，有着不同的互动度分析标准，则终端可以调用第一互动度分析模型对主体的动作数据进行处理，以及调用第二互动度分析模型对客体的动作进行处理，以对主体和客体的互动度进行区别分析。交流度的计算方式可以为，对人物进行声音识别，得到人物的声音数据，该声音数据包括声音的音量大小、类型等，终端调用训练完成的互动度分析模型对声音数据进行处理，得到人物的交流度。其中，交流度分析模型可以为深度学习模型，为基于大量样本声音数据和对应的样本交流度训练得到。可选的，针对主体和客体，有着不同的交流度分析标准，则终端可以调用第一交流度分析模型对主体的声音数据进行处理，以及调用第二交流度分析模型对客体的声音数据进行处理，以对主体和客体的交流度进行区别分析。进一步的，终端对基于预设规则对人物的专注度、互动度和交流度进行加权以及求和处理，即可得到人物的参与度，并将各个人物的参与度作为人物的交互信息。

在一种实现方式中，参与度的计算方式可以为，终端提取出辅助多媒体信息中主体的特征信息，主体的特征信息包括主体的表情特征、表情变化特征和声音特征中的至少一种；调用第一模型对主体的特征信息进行处理，得到主体在目标场景下的参与度，在目标场景下的参与度用于指示在目标场景下参与的认真程度；提取出辅助多媒体信息中各个客体的特征信息，各个客体的特征信息包括各个客体的表情特征、表情变化特征和声音特征中的至少一种；调用第二模型对各个客体的特征信息进行处理，得到各个客体在目标场景下的参与度；将主体的参与度和各个客体的参与度确定为目标场景下主体和各个客体的交互信息。

S206、对主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案。

本申请实施例中，终端获取到主体和各个客体的交互信息之后，将对交互信息进行处理，得到针对主采集设备的信息采集方案，其中，交互信息具体可以为参与度，具体的，终端对主体的参与度和客体的参与度进行标准化处理，得到主体的标准参与度和客体的标准参与度，使得主体的参与度和客体的参与度可以放在统一维度进行比较，其中，标准化过程中主体的权重可以高于客体，保证两者主观上对活动参与度相近的情况，主体的标准参与度大于客体，标准化处理过程可以为使用一个预设凹函数对主体和各个客体的参与度进行非线性计算。在当前时间对应的一个目标时段内，终端可以基于目标参与度为主体和客体分配采集时段，具体的，终端基于主体的目标参与度从目标时段内筛选出第一采集时段分配给主体，并筛选出各个客体中参与度高于预设参与度的客体作为目标客体，基于目标客体的目标参与度从目标时段内筛选出第二采集时段分配给目标客体，其中，目标参与度可以与采集时长存在对应关系，不同应用场景下目标参与度对应的采集时长不同，终端可以获取到目标场景下目标参与度与采集时长的对应关系，并基于该对应关系完成目标时段中针对主体和客体的时间分配。例如，如果目标场景是一场学术讲座，则对应关系中针对主体的时间比例则会达到最大，如果目标场景是一场互动讲座，则对应关系中主体和客体的时段分配比例则会相对均衡，如果目标场景是一场自由辩论，则对应关系中客体的时段分配比例则会达到最大。通过上述方式，可以使得基于预设的不同应用场景下的不同人物的参与度，对主体、各个高参与度客体进行合理采集时段分配，筛选出的目标客体的数量可以由目标场景下人物数量和与目标场景的相关的比例系数计算而得，具体人物的分配时间则与其参与度有关，当某个人物参与度超过限定高值时，允许此个人物分配所有时间。终端将上述过程确定为针对主采集设备的信息采集方案。

S207、基于信息采集方案调用主采集设备对目标场景进行信息采集，得到主多媒体信息。

本申请实施例中，终端确定信息采集方案之后，将基于信息采集方案调用主采集设备对目标场景进行信息采集，得到主多媒体信息，主多媒体信息包括主视频信息和主音频信息。其中，主采集设备包括主摄像机，在基于采集方案对主摄像机进行调用时，需基于构建的艺术化风格调用主摄像机对于目标场景中数据进行采集。即采集方案确定不同采集时段主摄像机的采集位置，艺术化风格确定主摄像机采集过程中的采集风格，如运镜运动速度、镜头选择以及拍摄模式(如闪光拍摄、微距拍摄、全景拍摄等)。终端可以预先对不同风格的视频(电影、活动录像)进行学习，并基于学习结果构建相应的风格模型，该风格模型的输入为场景的参数信息，包括场景类别、采集时间和场景图像，输出为采集风格，使得摄像机基于该采集风格进行数据采集。其中，风格模型的训练过程具体可以为，获取样本参数信息集合，该样本参数信息集合中包括多个样本参数信息以及每个样本参数信息对应的样本采集风格，基于样本参数采集信息集合对初始风格模型进行迭代训练，以使得初始风格模型中的参数得到更新，若参数更新后的初始风格模型满足预置条件，则将参数更新后的初始风格模型确定为风格模型。其中，预置条件可以为对于各个样本参数信息对应的采集风格的预测准确率高于预设准确率，其中，针对任一个样本参数信息，当初始风格模型对其进行处理，得到的预测采集风格与该样本参数信息对应的样本采集风格相匹配时，确定该样本参数信息对应的预测采集风格预测准确。

S208、接收主采集设备返回的主多媒体信息，并基于主多媒体信息进行多媒体导播。

本申请实施例中，本申请实施例中，主采集设备采集到主多媒体信息后，将向终端发送该主多媒体信息，终端可以接收主采集设备返回的主多媒体信息，并基于主多媒体信息进行多媒体导播。进一步的，终端将主多媒体信息上传至数据库中。数据库的主要作用是存储采集到的音视频信息和视频中每个片段的参与度。目标场景下人物的活动结束后，终端可以自动生成整场主体和客体参与度的可视化图像，并自动根据参与度随时间轴的波动情况，截取高参与度片段，生成精彩时刻。自动根据整场活动平均参与度和峰值参与度，对整场活动进行智能评分。在一个实施例中，数据库允许权限人员提取储存视频进行后期操作，并支持向客户端发送相应多媒体信息，已实现对多媒体信息的录播，客户端可以为各个用户所属用的终端，以方便用户在客户端中实时查询目标场景下的互动情况，并可向用户提供即将举行的活动的举办时间、举办地点、主讲人、参加要求等会前信息，可在活动中提供主讲人的实时字幕，可在活动后查看活动的评分、精彩时刻、全程视频或留下评论。

如图3所示，为本申请实施例提供的一种智能录播***的结构示意图，该智能录播***中包括终端301、采集设备302和客户端303，其中，终端与采集设备建立有连接，用于获取到采集设备302上传的多媒体信息，终端与客户端303建立有通讯连接，可以向客户端实时导播多媒体信息，或者，向客户端发送录播的多媒体信息，采集设备302中可以包括多个主采集设备和辅助采集设备，客户端303也可以为多个用户终端的集合。通过上述***，即可实现本申请图1和图2所示的方法。

本申请实施例中，终端获取主采集设备采集到的目标场景下的图像数据，并对图像数据进行识别，得到目标场景中人物的分布信息，基于人物的分布信息确定采集位置，并开启采集位置处的采集设备；将采集位置处的采集设备作为辅助采集设备，收辅助采集设备采集的目标场景下的辅助多媒体信息；对辅助多媒体信息进行识别，得到目标场景下主体和各个客体的交互信息；对主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案；基于信息采集方案调用主采集设备对目标场景进行信息采集，得到主多媒体信息，主多媒体信息包括主视频信息和主音频信息；接收主采集设备返回的主多媒体信息，并基于主多媒体信息进行多媒体导播。通过实施上述方法，可以智能进行导播，避免了传统人工导播对工作人员数量和配合的高要求，以及由导播员本身水平高低带来的不确定性。降低了对专业性人工的依赖，使高水平的导播视频能出现在过去无法聘请专业导播人员的中小型场合。并且，并方案突出了活动中主体与主体之间、主体与客体之间的互动，弥补了现有智能导播方法在展示客体方面的缺失，保证导播画面中都是都是互动性强、参与度高的客体，极大提高了直播录播中展示出的活跃度，提高了整个活动的展示质量。同时降低了发生“直播事故”的风险。本方案可以通过事先的相关学习，总结出不同风格的艺术化风格，并且可以根据具体活动，针对主体场景和客体场景自动选择合适的艺术化风格进行摄像机调用，提高整个活动的展示质量。

基于上述针对交互场景的智能导播方法实施例的描述，本申请实施例还公开了一种针对交互场景的智能导播装置。该针对交互场景的智能导播装置可以是运行于终端中的一个计算机程序(包括程序代码)，也可以是包含在终端中的一个实体装置。该针对交互场景的智能导播装置可以执行图1-图2所示的方法。请参见图4，该针对交互场景的智能导播装置40包括：接收模块401、识别模块402、分析模块403、采集模块404、导播模块405。

接收模块401，用于接收模块，用于接收辅助采集设备采集的目标场景下的辅助多媒体信息，所述辅助多媒体信息包括辅助视频信息和辅助音频信息；

识别模块402，用于对所述辅助多媒体信息进行识别，得到所述目标场景下主体和各个客体的交互信息，所述主体包括在所述目标场景下第一区域中的人物，所述客体包括在所述目标场景下第二区域中的人物；

分析模块403，用于对所述主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案；

采集模块404，用于基于所述信息采集方案调用所述主采集设备对所述目标场景进行信息采集，得到主多媒体信息，所述主多媒体信息包括主视频信息和主音频信息；

所述接收模块401，还用于接收所述主采集设备返回的主多媒体信息；

导播模块405，用于基于所述主多媒体信息进行多媒体导播。

在一种实现方式中，识别模块402，具体用于：

在一种实现方式中，分析模块403，具体用于：

基于所述各个客体的参与度从所述各个客体中筛选出目标客体；

基于所述主体的参与度和所述目标客体的参与度，为所述主体和所述目标客体进行采集时段分配，得到所述主体对应的第一采集时段和所述客体对应的第二采集时段；

确定所述主体在所述目标场景下的第一位置坐标，以及所述目标客体在所述目标场景下的第二位置坐标；

将在所述第一采集时段内采集所述第一位置坐标中的信息，以及在所述第二采集时段内采集所述第二位置坐标中的信息作为针对主采集设备的信息采集方案。

在一种实现方式中，所述主采集设备包括主摄像装置和主音频采集装置，所述主摄像装置包括第一主摄像装置和第二主摄像装置，所述主音频采集装置包括第一主音频采集装置和第二主音频采集装置，采集模块404，具体用于：

在所述第一采集时段内，调用所述第一主摄像装置对焦于所述第一位置坐标，以采集所述第一位置坐标中的视频信息，并调用第一主音频采集装置指向所述第一位置坐标，以采集所述第一位置坐标中的音频信息；

在所述第二采集时段内，调用第二主摄像装置对焦于所述第二位置坐标，以采集所述第二位置坐标中的视频信息，并调用第二主音频采集装置指向所述第二位置坐标，以采集所述第二位置坐标中的音频信息；

将所述第一位置坐标中的视频信息和所述第二位置坐标中的视频信息作为主视频信息，并将所述第一位置坐标中的音频信息和所述第二位置坐标中的音频信息作为主音频信息；

基于所述主视频信息和所述主音频信息构建所述主多媒体信息。

在一种实现方式中，导播模块405，具体用于：

当检测到所述主多媒体信息满足第一预设条件时，将所述主多媒体信息进行导播；

当检测到所述主多媒体信息不满足所述第一预设条件时，获取所述辅助采集设备返回的辅助信息，并将所述主多媒体信息和所述辅助信息进行拼接，得到拼接多媒体信息后，对所述拼接多媒体信息进行导播。

在一种实现方式中，所述主体的特征信息包括所述主体的表情特征、表情变化特征和声音特征，识别模块402，还用于：

获取样本主体特征集合，所述样本主体特征集合中包括至少一个样本主体的特征信息以及每个样本主体的参与度；

基于所述样本主体特征集合对第一初始模型进行训练，以对所述第一初始模型中的参数进行更新；

若参数更新后的第一初始模型满足预设条件，则将所述第一初始模型确定为第一模型，所述预设条件包括对于所述样本主体特征集合中样本主体的参与度的预测准确率高于预设准确率。

在一种实现方式中，所述主体的特征信息包括所述主体的表情特征、表情变化特征和声音特征，采集模块404，还用于：

获取主采集设备采集到的目标场景下的图像数据，并对所述图像数据进行识别，得到所述目标场景中人物的分布信息；

基于所述人物的分布信息确定采集位置，并开启所述采集位置处的采集设备；

将所述采集位置处的采集设备作为辅助采集设备。

本申请实施例中，接收模块401接收辅助采集设备采集的目标场景下的辅助多媒体信息，识别模块402对辅助多媒体信息进行识别，得到目标场景下主体和各个客体的交互信息，分析模块403对主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案，采集模块404基于信息采集方案调用主采集设备对目标场景进行信息采集，得到主多媒体信息，导播模块405基于主多媒体信息进行多媒体导播。通过实施上述方法，可以基于主采集设备和辅助采集设备的协同工作，完成对于交互场景中重要画面的采集导播，提升针对交互场景的导播智能性。

请参见图5，为本申请实施例提供的一种终端的结构示意图。如图5所示，该终端包括：至少一个处理器501，输入设备503，输出设备504，存储器505，至少一个通信总线502。其中，通信总线502用于实现这些组件之间的连接通信。其中，存储器505可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图4所描述的装置，存储器505中存储一组程序代码，且处理器501，输入设备503，输出设备504调用存储器505中存储的程序代码，用于执行以下操作：

处理器501，用于接收辅助采集设备采集的目标场景下的辅助多媒体信息，所述辅助多媒体信息包括辅助视频信息和辅助音频信息；

处理器501，用于对所述辅助多媒体信息进行识别，得到所述目标场景下主体和各个客体的交互信息，所述主体包括在所述目标场景下第一区域中的人物，所述客体包括在所述目标场景下第二区域中的人物；

处理器501，用于对所述主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案；

处理器501，用于基于所述信息采集方案调用所述主采集设备对所述目标场景进行信息采集，得到主多媒体信息，所述主多媒体信息包括主视频信息和主音频信息；

处理器501，用于接收所述主采集设备返回的主多媒体信息，并基于所述主多媒体信息进行多媒体导播。

在一种实现方式中，处理器501，具体用于：

提取出所述辅助多媒体信息中所述主体的特征信息，所述主体的特征信息包括所述主体的表情特征、表情变化特征和声音特征中的至少一种；

调用第一模型对所述主体的特征信息进行处理，得到所述主体在所述目标场景下的参与度，所述在所述目标场景下的参与度用于指示在所述目标场景下参与的认真程度；

提取出所述辅助多媒体信息中所述各个客体的特征信息，所述各个客体的特征信息包括所述各个客体的表情特征、表情变化特征和声音特征中的至少一种；

调用第二模型对所述各个客体的特征信息进行处理，得到所述各个客体在所述目标场景下的参与度；

将所述主体的参与度和所述各个客体的参与度确定为所述目标场景下主体和各个客体的交互信息。

在一种实现方式中，处理器501，具体用于：

将所述采集位置处的采集设备作为辅助采集设备。

本申请实施例中，处理器501接收辅助采集设备采集的目标场景下的辅助多媒体信息，对辅助多媒体信息进行识别，得到目标场景下主体和各个客体的交互信息，对主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案，基于信息采集方案调用主采集设备对目标场景进行信息采集，得到主多媒体信息，基于主多媒体信息进行多媒体导播。通过实施上述方法，可以基于主采集设备和辅助采集设备的协同工作，完成对于交互场景中重要画面的采集导播，提升针对交互场景的导播智能性。

本申请实施例中所述模块，可以通过通用集成电路，例如CPU(CentralProcessing Unit，中央处理器)，或通过ASIC(Application Specific IntegratedCircuit，专用集成电路)来实现。

应当理解，在本申请实施例中，所称处理器501可以是中央处理模块(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

总线502可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互联(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等，该总线502可以分为地点总线、数据总线、控制总线等，为便于表示，图5仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种针对交互场景的智能导播方法，其特征在于，所述方法包括：

接收所述主采集设备返回的主多媒体信息，并基于所述主多媒体信息进行多媒体导播；

所述对所述主体和各个客体的交互信息进行分析，得到针对主采集设备的信息采集方案，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述辅助多媒体信息进行识别，得到所述目标场景下主体和各个客体的交互信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述主采集设备包括主摄像装置和主音频采集装置，所述主摄像装置包括第一主摄像装置和第二主摄像装置，所述主音频采集装置包括第一主音频采集装置和第二主音频采集装置，所述基于所述信息采集方案调用所述主采集设备对所述目标场景进行信息采集，得到主多媒体信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述主多媒体信息进行多媒体导播，包括：

5.根据权利要求2所述的方法，其特征在于，所述主体的特征信息包括所述主体的表情特征、表情变化特征和声音特征，所述调用第一模型对所述主体的特征信息进行处理，得到所述主体在所述目标场景下的参与度之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述接收辅助采集设备采集的目标场景下的辅助多媒体信息之前，所述方法还包括：

将所述采集位置处的采集设备作为辅助采集设备。

7.一种针对交互场景的智能导播装置，其特征在于，所述装置包括：

导播模块，用于基于所述主多媒体信息进行多媒体导播；

所述分析模块具体用于：

8.一种终端，其特征在于，包括处理器、输入接口、输出接口和存储器，所述处理器、输入接口、输出接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。