CN113965772A

CN113965772A - 直播视频处理方法、装置、电子设备和存储介质

Info

Publication number: CN113965772A
Application number: CN202111279813.5A
Authority: CN
Inventors: 刘洋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-21
Anticipated expiration: 2041-10-29
Also published as: CN113965772B

Abstract

本申请公开了一种直播视频处理方法、装置、电子设备和存储介质，涉及图像处理领域，尤其涉及信息流及深度学习领域，具体实现方式为，响应于多个直播视频流的处理请求，获取每个直播视频流的帧图像；对每个帧图像进行人脸信息提取，获取每个帧图像的人脸信息；将每个帧图像的人脸信息进行聚类处理，获取至少一个聚类簇；根据至少一个聚类簇，识别多个直播视频流各自对应的主播中是否存在同一个主播。本申请减少了人工审核的工作量，降低了审核的人工成本，实现了违规审核的覆盖面的增加。

Description

直播视频处理方法、装置、电子设备和存储介质

技术领域

本申请涉及图像处理领域，尤其涉及信息流及深度学习领域，特别的涉及一种直播视频处理方法、装置、电子设备和存储介质。

背景技术

随着5G(第五代移动通信技术)普及和各项基础设施的升级，视频已经成为信息交流的主要载体之一，视频直播也已经广泛深入到电商、电竞等行业中，并带来可观的经济利益。针对视频直播中的违规检测需求强烈，相关技术中大多采用举报、人审等方式以实现视频直播中的违规检测。

但是，针对视频直播中一人多播的违规行为，目前缺乏有效的检测审查方法，由于涉及全网数据，用户举报很难达到较大的覆盖率，且人工审核工作量大，人工成本较高。

发明内容

本申请提供了一种直播视频处理方法、装置、电子设备和存储介质。

根据本申请的一方面，提供了一种直播视频处理方法，包括：

响应于多个直播视频流的处理请求，获取每个所述直播视频流的帧图像；

对每个所述帧图像进行人脸信息提取，获取每个所述帧图像的人脸信息；

将每个所述帧图像的人脸信息进行聚类处理，获取至少一个聚类簇；

根据所述至少一个聚类簇，识别所述多个直播视频流各自对应的主播中是否存在同一个主播。

根据本申请的另一方面，提供了一种直播视频处理装置，包括：

获取模块，用于响应于多个直播视频流的处理请求，获取每个所述直播视频流的帧图像；

提取模块，用于对每个所述帧图像进行人脸信息提取，获取每个所述帧图像的人脸信息；

处理模块，用于将每个所述帧图像的人脸信息进行聚类处理，获取至少一个聚类簇；

识别模块，用于根据所述至少一个聚类簇，识别所述多个直播视频流各自对应的主播中是否存在同一个主播。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面所述的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行前述第一方面所述的方法。

根据本申请的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据前述第一方面所述的方法。

根据本申请的技术方案，通过获取直播视频流的帧图像，并对帧图像中的人脸信息进行聚类处理，得到聚类簇，基于聚类簇来识别直播视频流各自对应的主播中是否存在同一个主播，即通过从直播视频流中提取帧图像，并基于帧图像中的人脸信息进行聚类，基于聚类结果为一人多播违规行为的审核提供判决条件，筛选掉了其中不存在一人多播违规行为的直播视频流，实现了针对直播中一人多播(同一主播的直播视频同时在多个账号上播放，可能视频采集角度有差异)的违规场景的机审功能，从而可以减少人工审核的工作量，达到提高审核效率和降低审核的人工成本的目的。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定，其中：

图1为本申请实施例提供的一种直播视频处理方法的流程图；

图2为本申请实施例提供的另一种直播视频处理方法的流程图；

图3为本申请实施例提供的直播视频处理的流程示意图；

图4为本申请实施例提供的另一种直播视频处理方法的流程图；

图5为本申请实施例提供的一种直播视频处理装置的结构框图；

图6为本申请实施例提供的另一种直播视频处理装置的结构框图；

图7为本申请实施例提供的另一种直播视频处理装置的结构框图；

图8为本申请实施例提供的一种电子设备的结构框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，随着5G(第五代移动通信技术)普及和各项基础设施的升级，视频已经成为信息交流的主要载体之一，视频直播也已经广泛深入到电商、电竞等行业中，并带来可观的经济利益。针对视频直播中的违规检测需求强烈，目前大多采用举报、人审等方式进行。现在对于视频直播中一人多播的违规行为，缺乏有效的检测审查方法，由于涉及全网数据，用户举报的覆盖范围有限，人工审核也难以实施并且成本高。

基于以上问题，本申请提出了一种直播视频处理方法、装置、电子设备和存储介质。本申请通过从原始视频流数据中获取人脸信息，并基于人脸信息进行聚类处理，基于聚类结果以判断是否存在一人多播的违规行为。具体的，下面参考附图描述本申请实施例的直播视频处理方法、装置、电子设备和存储介质。

图1为本申请实施例提供的一种直播视频处理方法的流程图。需要说明的是，本申请实施例的直播视频处理方法可应用于本申请实施例的直播视频处理装置，该直播视频处理装置可以被配置于电子设备上。如图1所示，该直播视频处理方法包括以下步骤：

步骤101，响应于多个直播视频流的处理请求，获取每个直播视频流的帧图像。

其中，在本申请实施例中，该处理请求可以是违规检测请求，用于检测直播视频流是否存在一人多播的违规行为的请求。

在本申请一些实施例中，该帧图像可以理解是直播视频流中的关键帧图像，或者，还可以是直播视频流中具有人脸的帧图像。例如，在接收到针对多个直播视频流的处理请求时，可以提取每个直播视频流的一张帧图像，比如以直播视频流1、直播视频流2和直播视频流3为例，在接收到针对这三个直播视频流的处理请求时，可以提取直播视频流1的关键帧图像，并提取直播视频流2中的关键帧图像，以及提取直播视频流3的关键帧图像。

需要说明的是，本申请实施例的直播视频处理方法可适用于对全网大量直播视频数据进行一人多播的违规检测场景。举例而言，可获取大量直播视频流，在接收到针对这些直播视频流的处理请求时，可以提取每个直播视频流的关键帧图像。

步骤102，对每个帧图像进行人脸信息提取，获取每个帧图像的人脸信息。

需要说明的是，从帧图像中提取人脸信息的方法有很多，例如，通过HOG(Histogram of Oriented Gridients定向网格直方图)进行人脸的特征提取，或者通过CNN(卷积神经网络特征提取)进行人脸的特征提取。可以理解，从帧图像中提取人脸信息的方法有很多，下面给出两种示例，以描述提取人脸信息的具体方法：

作为一种示例，通过HOG进行人脸的特征提取，首先将图像划分成小的连通区域，这些连通区域即为细胞单元，采集细胞单元中各像素点的梯度的或边缘的方向直方图，通过对方向直方图进行组合，即可构成特征描述。

作为另一种示例，CNN由多个卷积层(convolution)，激活(activation)和池化(pooling)三种结构组成。卷积层包含多个卷积核，卷积核对图像进行扫描，得到称为特征图的输出数据，最后通过激活、池化和运算等步骤得到图像的抽象表示。

需要说明的是，上述给出的人脸信息提取的方式仅是为了方便本领域技术人员理解如何实现帧图像中人脸信息的提取，并不能够作为本申请的具体限定，也就是说，本申请还可以采用其他手段从帧图像中提取人脸信息，在此不再赘述。

步骤103，将每个帧图像的人脸信息进行聚类处理，获取至少一个聚类簇。

可选地，可以采用聚类算法将每个帧图像的人脸信息进行聚类处理，以获得至少一个聚类簇。

其中，在本申请一些实施例中，该聚类算法可以是基于划分的聚类方法，比如K均值(K-means)聚类算法。或者，该聚类算法可以是基于层次的聚类方法，比如BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies，基于层次结构的平衡迭代聚类)算法等。或者，该聚类算法可以是基于密度的聚类算法，比如DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)算法，均值漂移聚类算法等。或者，该聚类算法可以是基于网格的聚类算法，或者，还可以是基于模型的聚类算法。对此本申请不做具体限定。

为了方便本领域技术人员能够更加清楚了解如何实现聚类处理，下面将以均值漂移聚类算法为例进行详细描述。

首先需要说明的是，均值漂移聚类是基于滑动窗口的算法，来找到数据点的密集区域。这是一个基于质心的算法，通过将中心点的候选点更新为滑动窗口内点的均值来完成，来定位每个组/类的中心点。然后对这些候选窗口进行相似窗口进行去除，最终形成中心点集及相应的分组。

举例而言，在得到每个帧图像的人脸信息之后，确定滑动窗口半径r，以随机选取的中心点C半径为r的圆形滑动窗口开始滑动。均值漂移类似一种爬山算法，在每一次迭代中向密度更高的区域移动，直到收敛。每一次滑动到新的区域，计算滑动窗口内的均值来作为中心点，滑动窗口内的点的数量为窗口内的密度。在每一次移动中，窗口会向密度更高的区域移动。移动窗口，计算窗口内的中心点以及窗口内的密度，直到没有方向在窗口内可以容纳更多的点，即一直移动到圆内密度不再增加为止。在上述过程中，会产生很多个滑动窗口，当多个滑动窗口重叠时，保留包含最多点的窗口，然后根据数据点所在的滑动窗口进行聚类，从而可以得到聚类结果，该聚类结果可以为至少一个聚类簇。其中数据点可理解为对应的人脸信息，即一个数据点对应一个人脸的人脸信息。

步骤104，根据至少一个聚类簇，识别多个直播视频流各自对应的主播中是否存在同一个主播。

可选地，基于每个聚类簇中的内容，来识别多个直播视频流各自对应的主播中是否存在同一个主播，从而通过将大量直播视频数据进行交叉分析，基于人脸聚类的方式即可实现一人多播的违规行为的检测。

根据本申请实施例的直播视频处理方法，通过对直播视频流进行抽帧处理，获得帧图像，为后续的审核提供条件，通过对帧图像中人脸信息的聚类处理，基于聚类结果为一人多播违规行为的审核提供判决条件，筛选掉了其中不存在一人多播违规行为的直播视频流，实现了针对直播中一人多播(同一主播的直播视频同时在多个账号上播放，可能视频采集角度有差异)的违规场景的机审功能，覆盖率高，具有可实施性，并且可以减少人工审核的工作量，从而达到提高审核效率和降低审核的人工成本的目的。

图2为本申请实施例提供的另一种直播视频处理方法的流程图。如图2所示，该直播视频处理方法可以包括：

步骤201，响应于多个直播视频流的处理请求，获取每个直播视频流的帧图像。

在本申请的实施例中，步骤201可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤202，对每个帧图像进行人脸信息提取，获取每个帧图像的人脸信息。

在本申请的实施例中，步骤202可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤203，将每个帧图像的人脸信息进行聚类处理，获取至少一个聚类簇。

在本申请的实施例中，步骤203可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤204，确定每个聚类簇之中人脸信息的个数。

可以理解，由于聚类簇是对人脸信息进行聚类而得到的结果，一个人脸信息对应一个人脸，则可以统计每个聚类簇之中所包含的人脸信息的个数。

步骤205，响应于至少一个聚类簇中存在个数大于预设阈值的目标聚类簇，确定多个直播视频流各自对应的主播中存在同一个主播。

可选地，可将聚类簇中所包含的人脸信息的个数与预设阈值进行大小比对，如果能够从聚类簇中找出个数大于预设阈值的目标聚类簇，则说明多个直播视频流各自对应的主播中存在同一个主播。例如，如果某个聚类簇中人脸信息的个数大于阈值(如1)，则可判定存在一人多播违规的可能。

步骤206，将目标聚类簇中多个人脸信息各自对应的直播视频流发送给人工审核终端。

可选地，在基于聚类簇中的人脸信息的个数，判定存在一人多播违规的可能，可以将该聚类簇中人脸信息各自对应的直播视频流发送给人工审核终端。

根据本申请实施例的直播视频处理方法，通过确定每个聚类簇中人脸信息的个数，实现对于直播视频流中人脸信息的识别，为一人多播违规行为的审核提供判决条件，通过将聚类簇中所包含的人脸信息的个数与预设阈值进行大小比对从而判定是否存在一人多播违规的可能，实现了针对直播中一人多播(同一主播的直播视频同时在多个账号上播放，可能视频采集角度有差异)的违规场景的机审功能，覆盖率高，具有可实施性，并且可以减少人工审核的工作量，从而达到提高审核效率和降低审核的人工成本的目的。

为了进一步提高检测结果，降低人工审核成本。可选地，如图3和图4所示，该直播视频处理方法可以包括：

步骤401，响应于多个直播视频流的处理请求，获取多个直播视频流各自的帧序列。

其中帧序列是指把直播视频流按照先后顺序用一帧一帧的图像文件来表示。例如，以一个直播视频流为例，可从该直播视频流中提取多张帧图像，将多张帧图像组成一个序列，以得到该直播视频流的帧序列。

步骤402，对多个帧序列进行N次采样，每次从多个帧序列中各采集一张帧图像；其中，N为大于或等于1的整数。

举例而言，以三个直播视频流为例，响应于直播视频流的处理请求，假设直播视频流1的帧序列包含帧图像11,12和13，直播视频流2的帧序列包含帧图像21,22和23，直播视频流3的帧序列包含帧图像31,32和33。以三次采样为例，从直播视频流1的帧序列中采集帧图像13，从直播视频流2的帧序列中采集帧图像23，从直播视频流3的帧序列中采集帧图像33，每一次采样均从帧序列中采集出一张帧图像。

步骤403，根据当前采样得到的帧图像，确定每个直播视频流的帧图像。

举例而言，以三个直播视频流为例，假设直播视频流1的帧序列包含帧图像11,12和13，直播视频流2的帧序列包含帧图像21,22和23，直播视频流3的帧序列包含帧图像31,32和33。每次从多个帧序列中各采集一张帧图像，以第三次采样为例，从直播视频流1的帧序列中采集帧图像12，从直播视频流2的帧序列中采集帧图像22，从直播视频流3的帧序列中采集帧图像32，此时可以将当前采集到的帧图像12、帧图像22和帧图像32，确定为直播视频流1、直播视频流2和直播视频流3的帧图像。

步骤404，对每个帧图像进行人脸信息提取，获取每个帧图像的人脸信息。

在本申请的实施例中，步骤404可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤405，将每个帧图像的人脸信息进行聚类处理，获取至少一个聚类簇。

在本申请的实施例中，步骤405可以分别采用本申请的各实施例中的任一种方式实现，本申请实施例并不对此作出限定，也不再赘述。

步骤406，在基于每次采样到的帧图像中的人脸信息获得的目标聚类簇相同时，确定多个直播视频流各自对应的主播中存在同一个主播。

其中，在本申请实施例中，目标聚类簇为至少一个聚类簇中存在人脸信息个数大于预设阈值的聚类簇。

举例而言，如图3所示，响应于n个直播视频流的处理请求，获取n个直播视频流各自的帧序列，对n个帧序列进行N次采样，每次从n个帧序列中各采集一张帧图像，根据当前采样得到的帧图像，确定每个直播视频流的帧图像，对每个帧图像进行人脸信息提取，获取每个帧图像的人脸信息，将每个帧图像的人脸信息进行聚类处理，获取至少一个聚类簇，如果聚类簇中存在人脸信息个数大于预设阈值的聚类簇，则该聚类簇所对应的直播视频流中可能存在一人多播行为。例如，如图3所示，聚类处理后的聚类簇由圆圈表示，其中，聚类簇的中数字1代表该聚类簇中的人脸信息个数为1，聚类簇中的数字2代表该聚类簇中的人脸信息个数为2，聚类簇中的数字5代表该聚类簇中的人脸信息个数为5，由此可以根据聚类簇中人脸信息个数来决定对应直播视频流是否存在一人多播行为。在基于每次采样到的帧图像中的人脸信息获得的目标聚类簇相同时，确定多个直播视频流各自对应的主播中存在同一个主播。

以三个直播视频流为例，响应于直播视频流的处理请求，假设直播视频流1的帧序列包含帧图像11，12和13，直播视频流2的帧序列包含帧图像21，22和23，直播视频流3的帧序列包含帧图像31，32和33。以第3次采样为例，每次采集均从多个帧序列中各自采集出一张帧图像；其中，从直播视频流1的帧序列中采集帧图像13，从直播视频流2的帧序列中采集帧图像23，从直播视频流3的帧序列中采集帧图像33，此时可以将当前采集到的帧图像13、帧图像23和帧图像33，确定为这一次采样出的直播视频流1、直播视频流2和直播视频流3的帧图像。假设利用帧图像13、帧图像23和帧图像33进行人脸聚类处理后，得到2个聚类簇，其中聚类簇1中包含帧图像13中的人脸信息以及帧图像23中的人脸信息，聚类簇2中包含帧图像33中的人脸信息，则可以看出聚类簇1所对应的直播视频流存在一人多播的可能。每次采样均从多个帧序列中各自采集出一张帧图像，并对对每次采集出来的帧图像进行一次聚类处理，获得一次识别结果，共进行三次采样，可获得三次识别结果，统计三次识别结果得到最终结果，通过多次识别增加审核的准确性，防止出现遗漏。将该聚类簇中人脸信息对应的多路视频推入人审流程，通过人工审核进行进一步的确认。

根据本申请实施例的直播视频处理方法，通过获取帧序列，并对帧序列进行多次采样，实现对于帧图像的获取，为后续一人多播违规行为的审核提供素材，让帧图像更具备代表性，保证帧图像能够反映出对应直播视频流的真实情况，为一人多播违规行为的审核结果提供保障。

为了实现上述实施例，本申请还提出了一种直播视频处理装置。

图5为本申请实施例提供的一种直播视频处理装置的结构框图。如图5所示，该直播视频处理装置可以包括：获取模块510、提取模块520、处理模块530和识别模块540。

其中，获取模块510，用于响应于多个直播视频流的处理请求，获取每个直播视频流的帧图像。

提取模块520，用于对每个帧图像进行人脸信息提取，获取每个帧图像的人脸信息。

处理模块530，用于将每个帧图像的人脸信息进行聚类处理，获取至少一个聚类簇。

识别模块540，用于根据至少一个聚类簇，识别多个直播视频流各自对应的主播中是否存在同一个主播。

本申请实施例的直播视频处理装置，通过对直播视频流进行抽帧处理，获得帧图像，为后续的审核提供条件，通过对帧图像中人脸信息的聚类处理，基于聚类结果为一人多播违规行为的审核提供判决条件，筛选掉了其中不存在一人多播违规行为的直播视频流，实现了针对直播中一人多播(同一主播的直播视频同时在多个账号上播放，可能视频采集角度有差异)的违规场景的机审功能，覆盖率高，具有可实施性，并且可以减少人工审核的工作量，从而达到提高审核效率和降低审核的人工成本的目的。

在本申请的一些实施例中，如图6所示，图6为本申请实施例提供的另一种实施例的直播视频处理装置的结构框图，该直播视频处理装置可以包括：获取模块610、提取模块620、处理模块630、确定模块640、判断模块650和人工审核模块660。

获取模块610，用于响应于多个直播视频流的处理请求，获取每个直播视频流的帧图像。

提取模块620，用于对每个帧图像进行人脸信息提取，获取每个帧图像的人脸信息。

处理模块630，用于将每个帧图像的人脸信息进行聚类处理，获取至少一个聚类簇。

确定模块640，用于确定每个聚类簇之中人脸信息的个数。

判断模块650，用于响应于至少一个聚类簇中存在个数大于预设阈值的目标聚类簇，确定多个直播视频流各自对应的主播中存在同一个主播。

人工审核模块660，用于将目标聚类簇中多个人脸信息各自对应的直播视频流发送给人工审核终端。

根据本申请实施例的直播视频处理装置，通过确定每个聚类簇中人脸信息的个数，实现对于视频流中人脸信息的识别，为一人多播违规行为的审核提供判决条件，通过将聚类簇中所包含的人脸信息的个数与预设阈值进行大小比对从而判定是否存在一人多播违规的可能，实现了针对直播中一人多播(同一主播的直播视频同时在多个账号上播放，可能视频采集角度有差异)的违规场景的机审功能，覆盖率高，具有可实施性，并且可以减少人工审核的工作量，从而达到提高审核效率和降低审核的人工成本的目的。

其中，图6中610-630和图5中510-530具有相同功能和结构。

在本申请的一些实施例中，如图7所示，图7为本申请实施例提供的另一种实施例的直播视频处理装置的结构框图，该直播视频处理装置中获取模块710包括：获取单元711、采样单元712、确定单元713、提取单元714、聚类单元715和判断单元716。

其中，获取单元711，用于响应于多个直播视频流的处理请求，获取多个直播视频流各自的帧序列。

采样单元712，用于对多个帧序列进行N次采样，每次从多个帧序列中各采集一张帧图像；其中，N为大于或等于1的整数。

确定单元713，用于根据当前采样得到的帧图像，确定每个直播视频流的帧图像。

提取单元714，用于对每个帧图像进行人脸信息提取，获取每个帧图像的人脸信息。

聚类单元715，用于将每个帧图像的人脸信息进行聚类处理，获取至少一个聚类簇。

判断单元716，用于在基于每次采样到的帧图像中的人脸信息获得的目标聚类簇相同时，确定多个直播视频流各自对应的主播中存在同一个主播。

根据本申请实施例的直播视频处理装置，通过获取帧序列，并对帧序列进行多次采样，实现对于帧图像的获取，为后续一人多播违规行为的审核提供素材，让帧图像更具备代表性，保证帧图像能够反映出对应直播视频流的真实情况，为一人多播违规行为的审核结果提供保障。

其中，图7中710-760和图6中610-660具有相同功能和结构

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的直播视频处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的直播视频处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的直播视频处理的方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的直播视频处理的方法对应的程序指令/模块(例如，附图5所示的获取模块510、提取模块520、处理模块530和识别模块540)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的直播视频处理的方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据直播视频处理的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至直播视频处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

直播视频处理的方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与直播视频处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，通过获取帧图像，并对帧图像中的人脸信息进行聚类处理，为一人多播违规行为的判决提供审核条件，筛选掉了其中不存在一人多播违规行为的直播视频流，减少了人工审核的工作量，从而达到增加对一人多播违规行为的审核效率和降低审核的人工成本的目的，并且由于人工审核的工作量减少，也让人工审核能够处理更多一人多播违规行为的直播视频流，实现了违规审核的覆盖面的增加。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种直播视频处理方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述至少一个聚类簇，识别所述多个直播视频流各自对应的主播中是否存在同一个主播，包括：

确定每个所述聚类簇之中人脸信息的个数；

响应于所述至少一个聚类簇中存在所述个数大于预设阈值的目标聚类簇，确定所述多个直播视频流各自对应的主播中存在同一个主播。

3.根据权利要求2所述的方法，还包括：

将所述目标聚类簇中多个人脸信息各自对应的直播视频流发送给人工审核终端。

4.根据权利要求1所述的方法，其中，所述获取每个所述直播视频流的帧图像，包括：

获取所述多个直播视频流各自的帧序列；

对多个所述帧序列进行N次采样，每次从多个所述帧序列中各采集一张帧图像；其中，所述N为大于或等于1的整数；

根据当前采样得到的帧图像，确定每个所述直播视频流的帧图像。

5.根据权利要求4所述的方法，其中，所述根据所述至少一个聚类簇，识别所述多个直播视频流各自对应的主播中是否存在同一个主播，包括：

在基于每次采样到的帧图像中的人脸信息获得的目标聚类簇相同时，确定所述多个直播视频流各自对应的主播中存在同一个主播；

其中，所述目标聚类簇为所述至少一个聚类簇中存在人脸信息个数大于预设阈值的聚类簇。

6.一种直播视频处理装置，包括：

7.根据权利要求6所述的装置，其中，所述识别模块具体用于：

确定每个所述聚类簇之中人脸信息的个数；

8.根据权利要求7所述的装置，其中，所述识别模块还具体用于：

9.根据权利要去6所述的装置，其中，所述获取模块包括：

获取单元，用于获取所述多个直播视频流各自的帧序列；

采样单元，用于对多个所述帧序列进行N次采样，每次从多个所述帧序列中各采集一张帧图像；其中，所述N为大于或等于1的整数；

确定单元，用于根据当前采样得到的帧图像，确定每个所述直播视频流的帧图像。

10.根据权利要求9所述的装置，其中，所述识别模块具体用于：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1－5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1－5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至5中任一项所述的方法。