CN116264620B

CN116264620B - 直播录制的音频数据采集处理方法及相关装置

Info

Publication number: CN116264620B
Application number: CN202310434372.4A
Authority: CN
Inventors: 李庆余; 黄智�
Original assignee: Shenzhen Shengfeite Technology Co ltd
Current assignee: Shenzhen Shengfeite Technology Co ltd
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-07-25
Anticipated expiration: 2043-04-21
Also published as: CN116264620A

Abstract

本发明涉及音频处理领域，公开了一种直播录制的音频数据采集处理方法及相关装置，用于提高录制端的录制效率并且使得主体音更加清晰。所述方法包括：将第一图像数据输入对象行为分析模型集进行行为分析，得到初始行为分析结果集合；对初始行为分析结果集合进行行为特征识别，得到至少一个目标行为分析结果，并构建图像串联标签；根据图像串联标签确定第二图像数据，并根据第二图像数据匹配待处理音频数据；对待处理音频数据进行背景音频故障分析，得到背景音频故障类型，并根据背景音频故障类型生成音频处理策略；根据音频处理策略对待处理音频数据进行背景音频调整，生成目标录制视频。

Description

直播录制的音频数据采集处理方法及相关装置

技术领域

本发明涉及音频处理领域，尤其涉及一种直播录制的音频数据采集处理方法及相关装置。

背景技术

随着直播技术的高速发展，直播录制的技术也随之成熟。把直播录制端的直播画面在网络上传输和存储。再通过内容分发网络进行大规模内容分发能够尽量避免跨区域网络传输带来的资源访问缓慢问题。

但是现有方案中，直播录制的过程存在音频噪音，这些音频噪音会严重影响用户的直播观看体验，因此，需要由人工进行噪声判断和噪声去除，即，现有方案的录制效率很低。

发明内容

本发明提供了一种直播录制的音频数据采集处理方法及相关装置，用于提高录制端的录制效率并且使得主体音更加清晰。

本发明第一方面提供了一种直播录制的音频数据采集处理方法，所述直播录制的音频数据采集处理方法包括：

基于预置的直播录制端采集目标录制对象的原始录制数据，并对所述原始录制数据进行图像和音频分割，得到第一图像数据和第一音频数据；

将所述第一图像数据输入预置的对象行为分析模型集，并通过所述对象行为分析模型集中的每个对象行为分析模型分别对所述第一图像数据中的不同部位进行行为分析，得到初始行为分析结果集合；

对所述初始行为分析结果集合进行行为特征识别，得到至少一个目标行为分析结果，并构建所述至少一个目标行为分析结果对应的图像串联标签；

根据所述图像串联标签确定对应的第二图像数据，并根据所述第二图像数据匹配待处理音频数据；

对所述待处理音频数据进行背景音频故障分析，得到背景音频故障类型，并根据所述背景音频故障类型生成音频处理策略；

调用预置的数字调音台，并根据所述音频处理策略对所述待处理音频数据进行背景音频调整，得到第二音频数据，并根据所述第二音频数据和所述第一图像数据生成目标录制视频。

结合第一方面，所述基于预置的直播录制端采集目标录制对象的原始录制数据，并对所述原始录制数据进行图像和音频分割，得到第一图像数据和第一音频数据，包括：

基于预置的直播录制端采集目标录制对象的原始录制数据，并获取所述原始录制数据的时间戳数据；

根据所述时间戳数据，将所述原始录制数据输入预置的视频图像提取网络进行视频图像提取，得到第一图像数据；

将所述原始录制数据输入预置的音频分割网络进行音频数据分割，得到初始音频数据，并根据所述时间戳数据对所述初始音频数据进行音频转码，得到第一音频数据。

结合第一方面，所述将所述第一图像数据输入预置的对象行为分析模型集，并通过所述对象行为分析模型集中的每个对象行为分析模型分别对所述第一图像数据中的不同部位进行行为分析，得到初始行为分析结果集合，包括：

将所述第一图像数据输入预置的对象行为分析模型集，其中，所述对象行为分析模型集包括多个对象行为分析模型，所述多个对象行为分析模型分别用于对不同部位进行行为分析；

分别通过所述多个对象行为分析模型对所述第一图像数据中的不同部位进行行为分析，得到每个对象行为分析模型的行为分析结果；

对每个对象行为分析模型的行为分析结果进行编码存储，得到每个行为分析结果的编码值；

根据每个行为分析结果的编码值构建初始行为分析结果集合。

结合第一方面，所述对所述初始行为分析结果集合进行行为特征识别，得到至少一个目标行为分析结果，并构建所述至少一个目标行为分析结果对应的图像串联标签，包括：

对所述初始行为分析结果集合进行异常行为识别，得到至少一个目标行为分析结果；

根据所述至少一个目标行为分析结果生成至少一个信息标签；

对所述至少一个信息标签进行图像串联处理，得到所述至少一个目标行为分析结果对应的图像串联标签。

结合第一方面，所述根据所述图像串联标签确定对应的第二图像数据，并根据所述第二图像数据匹配待处理音频数据，包括：

根据所述图像串联标签确定对应的第二图像数据；

获取所述第二图像数据对应的音频段；

对所述音频段进行音频数据匹配，得到所述第二图像数据对应的待处理音频数据。

结合第一方面，所述对所述待处理音频数据进行背景音频故障分析，得到背景音频故障类型，并根据所述背景音频故障类型生成音频处理策略，包括：

将所述待处理音频数据输入预置的音频故障分类模型，其中，所述音频故障分类模型包括：第一层双向门限循环网络、第二层双向门限循环网络以及全连接网络；

通过所述音频故障分类模型对所述待处理音频数据进行背景音频故障分析，得到背景音频故障类型；

获取策略列表，并根据所述背景音频故障类型从所述策略列表查询所述背景音频故障类型对应的音频处理策略。

结合第一方面，所述调用预置的数字调音台，并根据所述音频处理策略对所述待处理音频数据进行背景音频调整，得到第二音频数据，并根据所述第二音频数据和所述第一图像数据生成目标录制视频，包括：

根据所述音频处理策略设置预置数字调音台的参数调整数值；

根据所述参数调整数值，对所述待处理音频数据进行背景音频调整，得到第二音频数据；

根据所述第二音频数据，对所述第一音频数据进行音频整合处理，得到音频整合处理后的音频数据；

对所述音频整合处理后的音频数据和所述第一图像数据进行视频融合，生成目标录制视频。

本发明第二方面提供了一种直播录制的音频数据采集处理装置，所述直播录制的音频数据采集处理装置包括：

采集模块，用于基于预置的直播录制端采集目标录制对象的原始录制数据，并对所述原始录制数据进行图像和音频分割，得到第一图像数据和第一音频数据；

分析模块，用于将所述第一图像数据输入预置的对象行为分析模型集，并通过所述对象行为分析模型集中的每个对象行为分析模型分别对所述第一图像数据中的不同部位进行行为分析，得到初始行为分析结果集合；

构建模块，用于对所述初始行为分析结果集合进行行为特征识别，得到至少一个目标行为分析结果，并构建所述至少一个目标行为分析结果对应的图像串联标签；

匹配模块，用于根据所述图像串联标签确定对应的第二图像数据，并根据所述第二图像数据匹配待处理音频数据；

处理模块，用于对所述待处理音频数据进行背景音频故障分析，得到背景音频故障类型，并根据所述背景音频故障类型生成音频处理策略；

生成模块，用于调用预置的数字调音台，并根据所述音频处理策略对所述待处理音频数据进行背景音频调整，得到第二音频数据，并根据所述第二音频数据和所述第一图像数据生成目标录制视频。

本发明第三方面提供了一种直播录制的音频数据采集处理设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述直播录制的音频数据采集处理设备执行上述的直播录制的音频数据采集处理方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的直播录制的音频数据采集处理方法。

本发明提供的技术方案中，将第一图像数据输入对象行为分析模型集进行行为分析，得到初始行为分析结果集合；对初始行为分析结果集合进行行为特征识别，得到至少一个目标行为分析结果，并构建图像串联标签；根据图像串联标签确定第二图像数据，并根据第二图像数据匹配待处理音频数据；对待处理音频数据进行背景音频故障分析，得到背景音频故障类型，并根据背景音频故障类型生成音频处理策略；根据音频处理策略对待处理音频数据进行背景音频调整，生成目标录制视频，本发明通过对直播录制过程进行目标录制对象的行为实时检测，进而及时找到需要处理的故障音频数据，再通过音频处理技术生产目标录制视频，本发明提高了录制端的录制效率，并且使得主体音更加清晰。

附图说明

图1为本发明实施例中直播录制的音频数据采集处理方法的一个实施例示意图；

图2为本发明实施例中对第一图像数据中的不同部位进行行为分析的流程图；

图3为本发明实施例中构建图像串联标签的流程图；

图4为本发明实施例中背景音频故障分析的流程图；

图5为本发明实施例中直播录制的音频数据采集处理装置的一个实施例示意图；

图6为本发明实施例中直播录制的音频数据采集处理设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种直播录制的音频数据采集处理方法及相关装置，用于提高录制端的录制效率并且使得主体音更加清晰。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中直播录制的音频数据采集处理方法的一个实施例包括：

S101、基于预置的直播录制端采集目标录制对象的原始录制数据，并对原始录制数据进行图像和音频分割，得到第一图像数据和第一音频数据；

可以理解的是，本发明的执行主体可以为直播录制的音频数据采集处理装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

具体的，服务器基于预置的直播录制端采集目标录制对象的原始录制数据，进一步的，服务器对原始录制数据进行图像和音频分割，其中，服务器通过原始录制数据确定音频特征数据，同时获取图像特征数据和音频特征数据，进而服务器通过该图像特征数据及音频特征数据进行图像和音频分割，得到第一图像数据和第一音频数据。

S102、将第一图像数据输入预置的对象行为分析模型集，并通过对象行为分析模型集中的每个对象行为分析模型分别对第一图像数据中的不同部位进行行为分析，得到初始行为分析结果集合；

具体的，服务器将第一图像数据输入预置的对象行为分析模型集，进一步的，服务器通过对象行为分析模型集中的每个对象行为分析模型分别对第一图像数据中的不同部位进行行为分析，其中，服务器根据第一图像数据中的不同部位进行类别划分，将不同部位的图像与预设行为数据库进行查询，得到初始行为分析结果集合。

S103、对初始行为分析结果集合进行行为特征识别，得到至少一个目标行为分析结果，并构建至少一个目标行为分析结果对应的图像串联标签；

需要说明的是，在对初始行为分析结果集合进行行为特征识别时，服务器对该行为分析结果进行数据提取，得到多个传统驾驶特征指标，从初始行为分析结果集合中提取多个梅尔频率倒谱系数MFCC特征指标，进一步的，服务器根据该多个梅尔频率倒谱系数MFCC特征指标进行行为特征识别，得到至少一个目标行为分析结果，并构建至少一个目标行为分析结果对应的图像串联标签。

S104、根据图像串联标签确定对应的第二图像数据，并根据第二图像数据匹配待处理音频数据；

具体的，服务器根据图像串联标签确定对应的第二图像数据，其中，服务器根据该图像串联标签对预置的多个候选图像进行预处理，同时计算每一候选图像之间对应的标签相关值，进一步的，服务器根据该每一候选图像之间对应的标签相关值进行图像筛选，确定对应的第二图像数据，最终，服务器根据该第二图像数据进行音频数据匹配，得到对应的待处理音频数据。

S105、对待处理音频数据进行背景音频故障分析，得到背景音频故障类型，并根据背景音频故障类型生成音频处理策略；

具体的，服务器将待处理音频数据输入预置的音频故障分类模型，其中，音频故障分类模型包括：第一层双向门限循环网络、第二层双向门限循环网络以及全连接网络，通过音频故障分类模型对待处理音频数据进行背景音频故障分析，得到背景音频故障类型，获取策略列表，并根据背景音频故障类型从策略列表查询背景音频故障类型对应的音频处理策略。

S106、调用预置的数字调音台，并根据音频处理策略对待处理音频数据进行背景音频调整，得到第二音频数据，并根据第二音频数据和第一图像数据生成目标录制视频。

具体的，调用预置的数字调音台，并根据音频处理策略对待处理音频数据进行背景音频调整，其中，服务器接收关于待调整背景音频的实际参数值，进一步的，服务器对该待调整背景音频的实际参数值对该预置数字调音台的参数调整数值，进一步的，服务器根据该参数调整数值，对待处理音频数据进行背景音频调整，得到第二音频数据，根据第二音频数据，对第一音频数据进行音频整合处理，得到音频整合处理后的音频数据，对音频整合处理后的音频数据和第一图像数据进行视频融合，生成目标录制视频。

本发明实施例中，将第一图像数据输入对象行为分析模型集进行行为分析，得到初始行为分析结果集合；对初始行为分析结果集合进行行为特征识别，得到至少一个目标行为分析结果，并构建图像串联标签；根据图像串联标签确定第二图像数据，并根据第二图像数据匹配待处理音频数据；对待处理音频数据进行背景音频故障分析，得到背景音频故障类型，并根据背景音频故障类型生成音频处理策略；根据音频处理策略对待处理音频数据进行背景音频调整，生成目标录制视频，本发明通过对直播录制过程进行目标录制对象的行为实时检测，进而及时找到需要处理的故障音频数据，再通过音频处理技术生产目标录制视频，本发明提高了录制端的录制效率，并且使得主体音更加清晰。

在一具体实施例中，执行步骤S101的过程可以具体包括如下步骤：

（1）基于预置的直播录制端采集目标录制对象的原始录制数据，并获取原始录制数据的时间戳数据；

（2）根据时间戳数据，将原始录制数据输入预置的视频图像提取网络进行视频图像提取，得到第一图像数据；

（3）将原始录制数据输入预置的音频分割网络进行音频数据分割，得到初始音频数据，并根据时间戳数据对初始音频数据进行音频转码，得到第一音频数据。

具体的，基于预置的直播录制端采集目标录制对象的原始录制数据，并获取原始录制数据的时间戳数据，其中，服务器对该原始录制数据随机抽取N帧的图像，并记录下N个帧在视频流的位置信息，通过图像时间戳检测算法检测出每帧图像中的时间戳矩形框位置信息，拼接N帧图像时间戳矩形框位置信息和时间戳图像数据作为该视频流的时间戳数据；进而得到该原始录制数据的时间戳数据，根据时间戳数据，将原始录制数据输入预置的视频图像提取网络进行视频图像提取，得到第一图像数据，将原始录制数据输入预置的音频分割网络进行音频数据分割，得到初始音频数据，并根据时间戳数据对初始音频数据进行音频转码，得到第一音频数据，其中，服务器将原始录制数据的视频流划分为至少一个画面组GOP，并将每个GOP保存为文件，将原始录制数据的音频流按照固定帧数划分为至少一个音频包，并将每个音频包保存为文件，得到初始音频数据，进一步的，服务器根据时间戳数据对初始音频数据进行音频转码，其中，将初始音频数据写进每一个GOP文件，最终得到第一音频数据。

在一具体实施例中，如图2所示，执行步骤S102的过程可以具体包括如下步骤：

S201、将第一图像数据输入预置的对象行为分析模型集，其中，对象行为分析模型集包括多个对象行为分析模型，多个对象行为分析模型分别用于对不同部位进行行为分析；

S202、分别通过多个对象行为分析模型对第一图像数据中的不同部位进行行为分析，得到每个对象行为分析模型的行为分析结果；

S203、对每个对象行为分析模型的行为分析结果进行编码存储，得到每个行为分析结果的编码值；

S204、根据每个行为分析结果的编码值构建初始行为分析结果集合。

具体的，将第一图像数据输入预置的对象行为分析模型集，其中，对象行为分析模型集包括多个对象行为分析模型，多个对象行为分析模型分别用于对不同部位进行行为分析，需要说明的是在将第一图像数据输入预置的对象行为分析模型集之前，服务器构建历史图像数据中的不同部位训练数据集；基于历史图像数据中的不同部位训练数据集生成行为图像，将行为图像输入待训练分析模型，以获取历史图像数据中的不同部位训练数据集的行为分类，基于历史图像数据中的不同部位训练数据集的行为分类和真实行为标签获取待训练分析模型的预测损失，利用预测损失对待训练分析模型集进行训练，以得到最终的对象行为分析模型集，进一步的，服务器分别通过多个对象行为分析模型对第一图像数据中的不同部位进行行为分析，得到每个对象行为分析模型的行为分析结果，对每个对象行为分析模型的行为分析结果进行编码存储，得到每个行为分析结果的编码值，根据每个行为分析结果的编码值构建初始行为分析结果集合。

在一具体实施例中，如图3所示，执行步骤S103的过程可以具体包括如下步骤：

S301、对初始行为分析结果集合进行异常行为识别，得到至少一个目标行为分析结果；

S302、根据至少一个目标行为分析结果生成至少一个信息标签；

S303、对至少一个信息标签进行图像串联处理，得到至少一个目标行为分析结果对应的图像串联标签。

具体的，对初始行为分析结果集合进行异常行为识别，得到至少一个目标行为分析结果，其中，服务器提取初始行为分析结果集合的图像，识别初始行为分析结果集合的图像中的人脸表情以及初始行为分析结果集合的图像中的动作及行为倾向，最终服务器根据该人脸表情及初始行为分析结果集合的图像中的动作及行为倾向生成至少一个目标行为分析结果，进一步的，服务器根据至少一个目标行为分析结果生成至少一个信息标签，进而服务器对至少一个信息标签进行图像串联处理，得到至少一个目标行为分析结果对应的图像串联标签，其中，服务器基于预设样本图像，对至少一个目标行为分析结果中的串联标签进行标签识别，得到串联标签对应的目标参数值，最终，服务根据该串联标签对应的目标参数值对至少一个信息标签进行图像串联处理，得到至少一个目标行为分析结果对应的图像串联标签。

在一具体实施例中，执行步骤S104的过程可以具体包括如下步骤：

（1）根据图像串联标签确定对应的第二图像数据；

（2）获取第二图像数据对应的音频段；

（3）对音频段进行音频数据匹配，得到第二图像数据对应的待处理音频数据。

具体的，根据图像串联标签确定对应的第二图像数据，其中，服务器根据图像串联标签确定一个或多个关联图像数据中的图像特征的共性特征，进而服务器根据该一个或多个关联图像数据中的图像特征的共性特征确定对应的第二图像数据，进一步的，服务器获取第二图像数据对应的音频段，对音频段进行音频数据匹配，得到第二图像数据对应的待处理音频数据。

在一具体实施例中，如图4所示，执行步骤S105的过程可以具体包括如下步骤：

S401、将待处理音频数据输入预置的音频故障分类模型，其中，音频故障分类模型包括：第一层双向门限循环网络、第二层双向门限循环网络以及全连接网络；

S402、通过音频故障分类模型对待处理音频数据进行背景音频故障分析，得到背景音频故障类型；

S403、获取策略列表，并根据背景音频故障类型从策略列表查询背景音频故障类型对应的音频处理策略。

具体的，服务器将待处理音频数据输入预置的音频故障分类模型，其中，音频故障分类模型包括：第一层双向门限循环网络、第二层双向门限循环网络以及全连接网络，通过音频故障分类模型对待处理音频数据进行背景音频故障分析，得到背景音频故障类型，其中，服务器对待处理音频数据进行预处理，使用深度神经网络得到设备声的时频掩膜，并利用时频掩膜分离出纯净设备声音，对分离出来的声音活动使用初分析模型进行音频故障预判断，对判断为音频故障的音频数据区进行音频事件的开始?结束端点检测，截取出音频事件片段，对检测出的音频事件片段进行精确识别，得到背景音频故障类型，最终，服务器获取策略列表，并根据背景音频故障类型从策略列表查询背景音频故障类型对应的音频处理策略。

在一具体实施例中，执行步骤S106的过程可以具体包括如下步骤：

（1）根据音频处理策略设置预置数字调音台的参数调整数值；

（2）根据参数调整数值，对待处理音频数据进行背景音频调整，得到第二音频数据；

（3）根据第二音频数据，对第一音频数据进行音频整合处理，得到音频整合处理后的音频数据；

（4）对音频整合处理后的音频数据和第一图像数据进行视频融合，生成目标录制视频。

具体的，根据音频处理策略设置预置数字调音台的参数调整数值，根据参数调整数值，对待处理音频数据进行背景音频调整，得到第二音频数据，其中服务器判数字调音台的调音参数是否满足参数调整条件，其中，该参数调整条件用于指示对调音参数的当前参数值进行调整；当确定当前参数值满足上述参数调整条件时，将该当前参数值调整到上述参数调整数值所对应的参数值，进一步的，服务器根据第二音频数据，对第一音频数据进行音频整合处理，得到音频整合处理后的音频数据，其中，服务器获得对第一音频数据进行模数转换后得到的音频数据；在所获得的音频数据中存在两路待整合音频数据时，对两路待整合音频数据进行整合处理，得到音频整合处理后的音频数据，最终，服务器对音频整合处理后的音频数据和第一图像数据进行视频融合，生成目标录制视频。

上面对本发明实施例中直播录制的音频数据采集处理方法进行了描述，下面对本发明实施例中直播录制的音频数据采集处理装置进行描述，请参阅图5，本发明实施例中直播录制的音频数据采集处理装置一个实施例包括：

采集模块501，用于基于预置的直播录制端采集目标录制对象的原始录制数据，并对所述原始录制数据进行图像和音频分割，得到第一图像数据和第一音频数据；

分析模块502，用于将所述第一图像数据输入预置的对象行为分析模型集，并通过所述对象行为分析模型集中的每个对象行为分析模型分别对所述第一图像数据中的不同部位进行行为分析，得到初始行为分析结果集合；

构建模块503，用于对所述初始行为分析结果集合进行行为特征识别，得到至少一个目标行为分析结果，并构建所述至少一个目标行为分析结果对应的图像串联标签；

匹配模块504，用于根据所述图像串联标签确定对应的第二图像数据，并根据所述第二图像数据匹配待处理音频数据；

处理模块505，用于对所述待处理音频数据进行背景音频故障分析，得到背景音频故障类型，并根据所述背景音频故障类型生成音频处理策略；

生成模块506，用于调用预置的数字调音台，并根据所述音频处理策略对所述待处理音频数据进行背景音频调整，得到第二音频数据，并根据所述第二音频数据和所述第一图像数据生成目标录制视频。

通过上述各个组成部分的协同合作，将第一图像数据输入对象行为分析模型集进行行为分析，得到初始行为分析结果集合；对初始行为分析结果集合进行行为特征识别，得到至少一个目标行为分析结果，并构建图像串联标签；根据图像串联标签确定第二图像数据，并根据第二图像数据匹配待处理音频数据；对待处理音频数据进行背景音频故障分析，得到背景音频故障类型，并根据背景音频故障类型生成音频处理策略；根据音频处理策略对待处理音频数据进行背景音频调整，生成目标录制视频，本发明通过对直播录制过程进行目标录制对象的行为实时检测，进而及时找到需要处理的故障音频数据，再通过音频处理技术生产目标录制视频，本发明提高了录制端的录制效率，并且使得主体音更加清晰。

上面图5从模块化功能实体的角度对本发明实施例中的直播录制的音频数据采集处理装置进行详细描述，下面从硬件处理的角度对本发明实施例中直播录制的音频数据采集处理设备进行详细描述。

图6是本发明实施例提供的一种直播录制的音频数据采集处理设备的结构示意图，该直播录制的音频数据采集处理设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）610和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对直播录制的音频数据采集处理设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在直播录制的音频数据采集处理设备600上执行存储介质630中的一系列指令操作。

直播录制的音频数据采集处理设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作***631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的直播录制的音频数据采集处理设备结构并不构成对直播录制的音频数据采集处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种直播录制的音频数据采集处理设备，所述直播录制的音频数据采集处理设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述直播录制的音频数据采集处理方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述直播录制的音频数据采集处理方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是图像计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random acceS memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种直播录制的音频数据采集处理方法，其特征在于，所述直播录制的音频数据采集处理方法包括：

将所述第一图像数据输入预置的对象行为分析模型集，并通过所述对象行为分析模型集中的每个对象行为分析模型分别对所述第一图像数据中的不同部位进行行为分析，得到初始行为分析结果集合，具体包括：将所述第一图像数据输入预置的对象行为分析模型集，其中，所述对象行为分析模型集包括多个对象行为分析模型，所述多个对象行为分析模型分别用于对不同部位进行行为分析；分别通过所述多个对象行为分析模型对所述第一图像数据中的不同部位进行行为分析，得到每个对象行为分析模型的行为分析结果；对每个对象行为分析模型的行为分析结果进行编码存储，得到每个行为分析结果的编码值；根据每个行为分析结果的编码值构建初始行为分析结果集合；具体的，在将第一图像数据输入预置的对象行为分析模型集之前，构建历史图像数据中的不同部位训练数据集；基于历史图像数据中的不同部位训练数据集生成行为图像，将行为图像输入待训练分析模型，以获取历史图像数据中的不同部位训练数据集的行为分类，基于历史图像数据中的不同部位训练数据集的行为分类和真实行为标签获取待训练分析模型的预测损失，利用预测损失对待训练分析模型集进行训练，以得到对象行为分析模型集；

对所述初始行为分析结果集合进行行为特征识别，得到至少一个目标行为分析结果，并构建所述至少一个目标行为分析结果对应的图像串联标签，具体包括：对所述初始行为分析结果集合进行异常行为识别，得到至少一个目标行为分析结果；根据所述至少一个目标行为分析结果生成至少一个信息标签；对所述至少一个信息标签进行图像串联处理，得到所述至少一个目标行为分析结果对应的图像串联标签；具体的，提取初始行为分析结果集合的图像，识别初始行为分析结果集合的图像中的人脸表情以及初始行为分析结果集合的图像中的动作及行为倾向，根据该人脸表情及初始行为分析结果集合的图像中的动作及行为倾向生成至少一个目标行为分析结果，根据至少一个目标行为分析结果生成至少一个信息标签，对至少一个信息标签进行图像串联处理，得到至少一个目标行为分析结果对应的图像串联标签，其中，基于预设样本图像，对至少一个目标行为分析结果中的信息标签进行标签识别，得到信息标签对应的目标参数值，根据该信息标签对应的目标参数值对至少一个信息标签进行图像串联处理，得到至少一个目标行为分析结果对应的图像串联标签；

对所述待处理音频数据进行背景音频故障分析，得到背景音频故障类型，并根据所述背景音频故障类型生成音频处理策略，具体包括：将所述待处理音频数据输入预置的音频故障分类模型，其中，所述音频故障分类模型包括：第一层双向门限循环网络、第二层双向门限循环网络以及全连接网络；通过所述音频故障分类模型对所述待处理音频数据进行背景音频故障分析，得到背景音频故障类型；获取策略列表，并根据所述背景音频故障类型从所述策略列表查询所述背景音频故障类型对应的音频处理策略；

2.根据权利要求1所述的直播录制的音频数据采集处理方法，其特征在于，所述基于预置的直播录制端采集目标录制对象的原始录制数据，并对所述原始录制数据进行图像和音频分割，得到第一图像数据和第一音频数据，包括：

3.根据权利要求1所述的直播录制的音频数据采集处理方法，其特征在于，所述根据所述图像串联标签确定对应的第二图像数据，并根据所述第二图像数据匹配待处理音频数据，包括：

根据所述图像串联标签确定对应的第二图像数据；

获取所述第二图像数据对应的音频段；

4.根据权利要求1所述的直播录制的音频数据采集处理方法，其特征在于，所述调用预置的数字调音台，并根据所述音频处理策略对所述待处理音频数据进行背景音频调整，得到第二音频数据，并根据所述第二音频数据和所述第一图像数据生成目标录制视频，包括：

5.一种直播录制的音频数据采集处理装置，其特征在于，所述直播录制的音频数据采集处理装置包括：

分析模块，用于将所述第一图像数据输入预置的对象行为分析模型集，并通过所述对象行为分析模型集中的每个对象行为分析模型分别对所述第一图像数据中的不同部位进行行为分析，得到初始行为分析结果集合，具体包括：将所述第一图像数据输入预置的对象行为分析模型集，其中，所述对象行为分析模型集包括多个对象行为分析模型，所述多个对象行为分析模型分别用于对不同部位进行行为分析；分别通过所述多个对象行为分析模型对所述第一图像数据中的不同部位进行行为分析，得到每个对象行为分析模型的行为分析结果；对每个对象行为分析模型的行为分析结果进行编码存储，得到每个行为分析结果的编码值；根据每个行为分析结果的编码值构建初始行为分析结果集合；具体的，在将第一图像数据输入预置的对象行为分析模型集之前，构建历史图像数据中的不同部位训练数据集；基于历史图像数据中的不同部位训练数据集生成行为图像，将行为图像输入待训练分析模型，以获取历史图像数据中的不同部位训练数据集的行为分类，基于历史图像数据中的不同部位训练数据集的行为分类和真实行为标签获取待训练分析模型的预测损失，利用预测损失对待训练分析模型集进行训练，以得到对象行为分析模型集；

构建模块，用于对所述初始行为分析结果集合进行行为特征识别，得到至少一个目标行为分析结果，并构建所述至少一个目标行为分析结果对应的图像串联标签，具体包括：对所述初始行为分析结果集合进行异常行为识别，得到至少一个目标行为分析结果；根据所述至少一个目标行为分析结果生成至少一个信息标签；对所述至少一个信息标签进行图像串联处理，得到所述至少一个目标行为分析结果对应的图像串联标签；具体的，提取初始行为分析结果集合的图像，识别初始行为分析结果集合的图像中的人脸表情以及初始行为分析结果集合的图像中的动作及行为倾向，根据该人脸表情及初始行为分析结果集合的图像中的动作及行为倾向生成至少一个目标行为分析结果，根据至少一个目标行为分析结果生成至少一个信息标签，对至少一个信息标签进行图像串联处理，得到至少一个目标行为分析结果对应的图像串联标签，其中，基于预设样本图像，对至少一个目标行为分析结果中的信息标签进行标签识别，得到信息标签对应的目标参数值，根据该信息标签对应的目标参数值对至少一个信息标签进行图像串联处理，得到至少一个目标行为分析结果对应的图像串联标签；

处理模块，用于对所述待处理音频数据进行背景音频故障分析，得到背景音频故障类型，并根据所述背景音频故障类型生成音频处理策略，具体包括：将所述待处理音频数据输入预置的音频故障分类模型，其中，所述音频故障分类模型包括：第一层双向门限循环网络、第二层双向门限循环网络以及全连接网络；通过所述音频故障分类模型对所述待处理音频数据进行背景音频故障分析，得到背景音频故障类型；获取策略列表，并根据所述背景音频故障类型从所述策略列表查询所述背景音频故障类型对应的音频处理策略；

6.一种直播录制的音频数据采集处理设备，其特征在于，所述直播录制的音频数据采集处理设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述直播录制的音频数据采集处理设备执行如权利要求1-4中任一项所述的直播录制的音频数据采集处理方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-4中任一项所述的直播录制的音频数据采集处理方法。