CN114297439A

CN114297439A - 一种短视频标签确定方法、***、装置及存储介质

Info

Publication number: CN114297439A
Application number: CN202111560398.0A
Authority: CN
Inventors: 袁征
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-08
Anticipated expiration: 2041-12-20
Also published as: CN114297439B

Abstract

本发明公开了一种短视频标签确定方法、***、装置及存储介质，方法包括：获取第一短视频的音频信息，对第一短视频进行视频音频分析得到第一音频标签；获取第一短视频的关键帧信息，对第一短视频进行视频内容分析得到第一场景标签、第一物体标签以及第一人物标签；获取第一短视频的标题信息、视频描述信息以及字幕信息，对第一短视频进行视频语义分析得到第一语义标签；根据第一音频标签、第一场景标签、第一物体标签、第一人物标签以及第一语义标签进行权重决策分析，生成第一短视频标签。本发明提高了短视频标签生成的效率，也提高了短视频标签的准确性、全面性及可靠性。本发明可广泛应用于视频处理技术领域。

Description

一种短视频标签确定方法、***、装置及存储介质

技术领域

本发明涉及视频处理技术领域，尤其是一种短视频标签确定方法、***、装置及存储介质。

背景技术

目前的视频标签主要是针对长视频(时间超过60秒以上)进行视频分类和标签标注，一般通是过分析视频的内容来完成视频标签标注，主要有以下两种方式：1)通过人工编辑方式，人工审核整个视频内容，结合主观判断与理解，为视频标注分类标签；2)通过AI识别技术，针对视频内容本身出现的帧进行人脸、场景以及物体识别，提取对应类的标签，例如明星，食物、地点等。

现有的视频标签标注方法具有以下缺点：

1)人工编著的分类标签，属于劳动密集型工作，要求编辑人员拥有较高的审美能力及耐心，存在效率低、速度慢、标签质量主观性大，且视频帧覆盖率低等问题。

2)AI内容识别技术对视频本身内容要求高，要求视频帧必须相对简单，不能出现太多干扰性画面，例如繁杂的大街、光怪陆离的特效等，这样方可以通过AI识别达到较高的分类可用率，因此存在适用范围有限的问题。

3)AI内容识别技术只能获取视频本身内容的有效信息，在视频内容不足以代表视频本身关键信息的情况下，容易忽略其他的关键信息，例如音乐类型MV，针对非明星类型的主唱，仅能输出歌唱、演艺、歌手等分类标签，存在标签不全面、有效性不够的问题，无法为现实业务需求提供更有意义的视频标签。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本发明实施例的一个目的在于提供一种短视频标签确定方法，该方法通过对短视频分别进行视频音频分析、视频内容分析以及视频语义分析得到多维度的标签信息，然后通过权重决策分析生成短视频标签，克服了现有技术中人工标注效率低下、AI内容识别标注标签不全面以及适用范围小等问题，提高了短视频标签生成的效率，也提高了短视频标签的准确性、全面性及可靠性。

本发明实施例的另一个目的在于提供一种短视频标签确定***。

为了达到上述技术目的，本发明实施例所采取的技术方案包括：

第一方面，本发明实施例提供了一种短视频标签确定方法，包括以下步骤：

获取第一短视频的音频信息，根据所述音频信息对所述第一短视频进行视频音频分析，得到第一音频标签；

获取所述第一短视频的关键帧信息，所述关键帧信息包括场景信息、物体信息以及人物信息，根据所述关键帧信息对所述第一短视频进行视频内容分析，得到第一场景标签、第一物体标签以及第一人物标签；

获取所述第一短视频的标题信息、视频描述信息以及字幕信息，根据所述标题信息、所述视频描述信息以及所述字幕信息对所述第一短视频进行视频语义分析，得到第一语义标签；

根据所述第一音频标签、所述第一场景标签、所述第一物体标签、所述第一人物标签以及所述第一语义标签进行权重决策分析，生成第一短视频标签。

进一步地，在本发明的一个实施例中，所述获取第一短视频的音频信息，根据所述音频信息对所述第一短视频进行视频音频分析，得到第一音频标签这一步骤，其具体包括：

确定所述第一短视频的源地址信息，根据所述源地址信息获取所述第一短视频的视频物理文件，并抽取所述视频物理文件中的音频信息；

根据所述音频信息确定音频指纹，并根据所述音频指纹在预设的音频库中匹配到相似度高于预设的第一阈值的第一音频；

将所述第一音频输入到预先构建的音频知识图谱进行匹配，得到所述第一音频标签。

进一步地，在本发明的一个实施例中，所述获取所述第一短视频的关键帧信息，所述关键帧信息包括场景信息、物体信息以及人物信息，根据所述关键帧信息对所述第一短视频进行视频内容分析，得到第一场景标签、第一物体标签以及第一人物标签这一步骤，其具体包括：

确定所述第一短视频的源地址信息，根据所述源地址信息获取所述第一短视频的视频物理文件，并根据所述视频物理文件确定多个视频帧文件；

从多个所述视频帧文件中提取出多个第一关键帧，并通过层次聚类算法对所述第一关键帧进行降维去重，选取出差异性大于预设的第二阈值的多个第二关键帧；

将所述第二关键帧分别输入到预先训练好的场景识别模型、物体识别模型以及人物识别模型，并根据识别结果确定所述第一场景标签、所述第一物体标签以及所述第一人物标签。

进一步地，在本发明的一个实施例中，所述从多个所述视频帧文件中提取出多个第一关键帧，并通过层次聚类算法对所述第一关键帧进行降维去重，选取出差异性大于预设的第二阈值的多个第二关键帧这一步骤，其具体包括：

对所述视频帧文件进行分片关键帧提取，得到多个第一关键帧，并确定第一关键帧矩阵；

对所述第一关键帧进行二值化处理，得到所述第一关键帧的像素特征矩阵；

根据所述像素特征矩阵通过层次聚类法对所述第一关键帧矩阵进行降维去重，得到像素特征差异大于预设的第二阈值的多个第二关键帧。

进一步地，在本发明的一个实施例中，所述获取所述第一短视频的标题信息、视频描述信息以及字幕信息，根据所述标题信息、所述视频描述信息以及所述字幕信息对所述第一短视频进行视频语义分析，得到第一语义标签这一步骤，其具体包括：

确定所述第一短视频的源地址信息、标题信息以及视频描述信息，根据所述源地址信息获取所述第一短视频的视频物理文件，并抽取所述视频物理文件中的音频信息和字幕信息；

将所述标题信息和所述视频描述信息输入到预先构建的视频知识图谱进行匹配，得到第一衍生标签；

对所述音频信息进行语音识别得到文本信息，进而对所述标题信息、所述视频描述信息、所述字幕信息以及所述文本信息进行NLP语义分析，得到第一语义信息；

将所述第一语义信息输入到预先构建的语义知识图谱进行匹配，得到第一语义标签。

进一步地，在本发明的一个实施例中，所述对所述标题信息、所述视频描述信息、所述字幕信息以及所述文本信息进行NLP语义分析，得到第一语义信息这一步骤，其具体包括：

根据所述标题信息、所述视频描述信息、所述字幕信息以及所述文本信息确定第一信息矩阵；

通过GRU神经网络确定所述第一信息矩阵中各个词的词性标签，并根据所述词性标签和所述第一信息矩阵确定关键实体矩阵；

将所述关键实体矩阵输入到预先训练好的语义预测模型，输出得到语义预测结果和置信度矩阵，进而根据所述语义预测结果和所述置信度矩阵确定第一语义信息。

进一步地，在本发明的一个实施例中，所述根据所述第一音频标签、所述第一场景标签、所述第一物体标签、所述第一人物标签以及所述第一语义标签进行权重决策分析，生成第一短视频标签这一步骤，其具体包括：

确定所述第一短视频的内容特征信息，所述内容特征信息包括视频时长信息、视频帧数信息以及分辨率信息，通过随机森林算法对所述内容特征信息进行分类，得到第一内容质量；

确定所述第一短视频的语义特征信息，所述语义特征信息包括文本特殊符号数量信息、文本长度信息以及OCR识别结果占比信息，通过随机森林算法对所述语义特征信息进行分类，得到第一语义质量；

确定所述第一短视频的音频特征信息，所述音频特征信息包括音频长度信息和音频频谱信息，通过随机森林算法对所述音频特征信息进行分类，得到第一音频质量；

根据所述第一内容质量确定所述第一场景标签、所述第一物体标签以及所述第一人物标签的权重，根据所述第一语义质量确定所述第一语义标签和所述第一衍生标签的权重，并根据所述第一音频质量确定所述第一音频标签的权重，进而根据权重大小对各个标签进行筛选和排序，得到第一短视频标签。

第二方面，本发明实施例提供了一种短视频标签确定***，包括：

视频音频分析模块，用于获取第一短视频的音频信息，根据所述音频信息对所述第一短视频进行视频音频分析，得到第一音频标签；

视频内容分析模块，用于获取所述第一短视频的关键帧信息，所述关键帧信息包括场景信息、物体信息以及人物信息，根据所述关键帧信息对所述第一短视频进行视频内容分析，得到第一场景标签、第一物体标签以及第一人物标签；

视频语义分析模块，用于获取所述第一短视频的标题信息、视频描述信息以及字幕信息，根据所述标题信息、所述视频描述信息以及所述字幕信息对所述第一短视频进行视频语义分析，得到第一语义标签；

决策分析模块，用于根据所述第一音频标签、所述第一场景标签、所述第一物体标签、所述第一人物标签以及所述第一语义标签进行权重决策分析，生成第一短视频标签。

第三方面，本发明实施例提供了一种短视频标签确定装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的一种短视频标签确定方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行上述的一种短视频标签确定方法。

本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到：

本发明实施例获取第一短视频的音频信息、场景信息、物体信息、人物信息、标题信息、视频描述信息以及字幕信息，根据音频信息进行视频音频分析得到第一音频标签，根据场景信息、物体信息以及人物信息进行视频内容分析得到第一场景标签、第一物体标签以及第一人物标签，根据标题信息、视频描述信息以及字幕信息进行视频语义分析得到第一语义标签，进而可以根据第一音频标签、第一场景标签、第一物体标签、第一人物标签以及第一语义标签进行权重决策分析，生成第一短视频标签。本发明实施例通过对短视频分别进行视频音频分析、视频内容分析以及视频语义分析得到多维度的标签信息，然后通过权重决策分析生成短视频标签，克服了现有技术中人工标注效率低下、AI内容识别标注标签不全面以及适用范围小等问题，提高了短视频标签生成的效率，也提高了短视频标签的准确性、全面性及可靠性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面对本发明实施例中所需要使用的附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明实施例提供的一种短视频标签确定方法的步骤流程图；

图2为本发明实施例提供的一种短视频标签确定方法的具体流程示意图；

图3为本发明实施例提供的一种短视频标签确定***的结构框图；

图4为本发明实施例提供的一种短视频标签确定装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，多个的含义是两个或两个以上，如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。

随着短视频业务的飞速发展，短视频的数量也迎来爆发期，但是考虑到短视频以下的一些特征，传统长视频的分类标签标注方法已经不适用于短视频：

1)短视频内容更加精短，其时长普遍为60秒左右，不像长视频那样包含大量不同的信息，所以不需要像长视频传统做法一样，分析大量甚至完整的视频帧，分类预测时间存在很大的优化空间。

2)短视频的信息更加规范明确，具有很高的挖掘价值。因短视频属于后起之秀，在现在数据分析盛行的时代，普遍拥有比较清晰且规范的描述性信息，例如{歌手}_{歌名}_{MV/翻唱}等，传统长视频的分类标签方法忽略了这种有效特征，标签准确性存在优化空间。

参照图1，本发明实施例提供了一种短视频标签确定方法，具体包括以下步骤：

S101、获取第一短视频的音频信息，根据音频信息对第一短视频进行视频音频分析，得到第一音频标签。

具体地，本发明实施例获取短视频的音频信息，根据该音频信息在预设的音频库中匹配得到相似音频，然后通过音频知识图谱进行分类得到第一音频标签。步骤S101具体包括以下步骤：

S1011、确定第一短视频的源地址信息，根据源地址信息获取第一短视频的视频物理文件，并抽取视频物理文件中的音频信息；

S1012、根据音频信息确定音频指纹，并根据音频指纹在预设的音频库中匹配到相似度高于预设的第一阈值的第一音频；

S1013、将第一音频输入到预先构建的音频知识图谱进行匹配，得到第一音频标签。

具体地，如图2所示为本发明实施例提供的短视频标签确定方法的具体流程示意图，首先确定第一短视频的源地址信息，根据源地址信息获取视频物理文件，并抽取视频物理文件中的音频；针对音频生成对应的音频指纹，在音频库中进行匹配，找到相似度超过80％的第一音频；将第一音频输入音频知识图谱，匹配得到第一音频标签，该第一音频标签将用于后续的决策分析步骤进行决策计算。

S102、获取第一短视频的关键帧信息，关键帧信息包括场景信息、物体信息以及人物信息，根据关键帧信息对第一短视频进行视频内容分析，得到第一场景标签、第一物体标签以及第一人物标签。

具体地，本发明实施例通过关键帧提取确定用于表征场景信息、物体信息以及人物信息的关键帧信息，然后通过场景识别模型、物体识别模型以及人物识别模型进行分类得到第一场景标签、第一物体标签以及第一人物标签。步骤S102具体包括以下步骤：

S1021、确定第一短视频的源地址信息，根据源地址信息获取第一短视频的视频物理文件，并根据视频物理文件确定多个视频帧文件；

S1022、从多个视频帧文件中提取出多个第一关键帧，并通过层次聚类算法对第一关键帧进行降维去重，选取出差异性大于预设的第二阈值的多个第二关键帧；

S1023、将第二关键帧分别输入到预先训练好的场景识别模型、物体识别模型以及人物识别模型，并根据识别结果确定第一场景标签、第一物体标签以及第一人物标签。

具体地，如图2所示，首先确定第一短视频的源地址信息，然后通过源地址信息获取视频物理文件，并通过CV2库切割视频帧获取视频帧文件；使用分片关键帧提取法提取初步的第一关键帧，然后利用基于内容特征的层次聚类算法对第一关键帧进行降维去重，选取出差异性最大的多组第二关键帧；将第二关键帧分别输入场景识别模型、物体识别模型/目标检测模型以及人物识别模型进行识别，根据识别结果确定第一场景标签、第一物体标签以及第一人物标签，该第一场景标签、第一物体标签以及第一人物标签将用于后续的决策分析步骤进行决策计算。

进一步作为可选的实施方式，从多个视频帧文件中提取出多个第一关键帧，并通过层次聚类算法对第一关键帧进行降维去重，选取出差异性大于预设的第二阈值的多个第二关键帧这一步骤S1022，其具体包括：

S10221、对视频帧文件进行分片关键帧提取，得到多个第一关键帧，并确定第一关键帧矩阵；

S10222、对第一关键帧进行二值化处理，得到第一关键帧的像素特征矩阵；

S10223、根据像素特征矩阵通过层次聚类法对第一关键帧矩阵进行降维去重，得到像素特征差异大于预设的第二阈值的多个第二关键帧。

具体地，首先对视频帧文件进行分片关键帧提取，假设视频总帧数为frame_i，设定分片数segments＝60，每个分片截取的视频帧perSegmentFrame＝1，则可以得到第一关键帧矩阵如下：

然后对第一关键帧进行灰度化处理，使用0-255表示所有图片像素，并确定前景像素Foregroud和背景像素Backgroud、前景色占比为

背景色占比为

前景色平均值和方差分别为FA和FV、背景色平均值和方差分别为BA和BV、类内差异ID＝F×FV²+B×BV²以及类间差异OD＝F×B×(FA-BA)²，然后取Min(ID)为像素阈值，将该像素阈值与每一个像素点进行比较，大于等于该像素阈值的像素点设为1，小于该像素阈值的像素点设为0，从而得到第一像素特征矩阵。

采用层次聚类法对60维的第一像素特征矩阵进行降维，找出区别最大的10张图片，指定簇为10簇，具体如下：

1)将60维的第一像素特征矩阵作为初始样本，自成一类，则构成60个内容特征类：G1(0).....G60(0)，计算各类之间的Single-link距离，得到一个60*60的距离矩阵，“0”表示初始状态。

2)假设已求得距离矩阵D(n)(n为逐次聚类合并的次数)，找出D(n)中的最小元素，将其对应的两类合并为一类。由此建立新的分类：G1(n+1),G2(n+1),....

3)计算合并后新类别之间的距离，得到D(n+1)。

4)跳至第2)步，重复计算及合并。

5)直到缩减至G10后终止遍历，并取每个簇中第一个图片为降维后的关键帧，即可得到降维后的10帧第二关键帧。

可以认识到，本发明实施例在尽可能保留视频关键信息的前提下，使用分片关键帧提取法提取初步的关键帧，然后利用基于内容特征的层次聚类算法用于关键帧降维，用最少的关键帧达到减少视频内容的预测时间的效果，提高了短视频标签生成的效率。

S103、获取第一短视频的标题信息、视频描述信息以及字幕信息，根据标题信息、视频描述信息以及字幕信息对第一短视频进行视频语义分析，得到第一语义标签。

具体地，本发明实施例获取短视频的标题信息、视频描述信息以及字幕信息，根据该标题信息、视频描述信息以及字幕信息进行视频语义分析，然后根据语义分析的结果在语义知识图谱中匹配得到第一语义标签。步骤S103具体包括以下步骤：

S1031、确定第一短视频的源地址信息、标题信息以及视频描述信息，根据源地址信息获取第一短视频的视频物理文件，并抽取视频物理文件中的音频信息和字幕信息；

S1032、将标题信息和视频描述信息输入到预先构建的视频知识图谱进行匹配，得到第一衍生标签；

S1033、对音频信息进行语音识别得到文本信息，进而对标题信息、视频描述信息、字幕信息以及文本信息进行NLP语义分析，得到第一语义信息；

S1034、将第一语义信息输入到预先构建的语义知识图谱进行匹配，得到第一语义标签。

具体地，如图2所示，首先确定第一短视频的源地址信息以及标题信息、视频描述信息等结构化信息，然后通过源地址信息获取视频物理文件，并抽取音频信息和字幕信息；通过标题信息、视频描述信息等结构化信息匹配视频知识图谱，得到第一衍生标签；针对音频信息进行语音识别，生成对应的文本信息，然后对字幕信息、标题信息、视频描述信息以及文本信息进行NLP语义分析得到第一语义信息；将第一语义信息结合语义知识图谱及文本重要性，得到第一语义标签，该第一语义标签将用于后续的决策分析步骤进行决策计算。

进一步作为可选的实施方式，对标题信息、视频描述信息、字幕信息以及文本信息进行NLP语义分析，得到第一语义信息这一步骤S1033，其具体包括：

S10331、根据标题信息、视频描述信息、字幕信息以及文本信息确定第一信息矩阵；

S10332、通过GRU神经网络确定第一信息矩阵中各个词的词性标签，并根据词性标签和第一信息矩阵确定关键实体矩阵；

S10333、将关键实体矩阵输入到预先训练好的语义预测模型，输出得到语义预测结果和置信度矩阵，进而根据语义预测结果和置信度矩阵确定第一语义信息。

具体地，由于短视频具有良好的结构化信息，所以可以直接获取短视频的标题信息及视频描述信息，并进一步获取字幕信息和文本信息，根据_或者“”或者|等特殊字符对这些信息进行切割处理，得到信息集合{T_name1....T_namej}，并形成第一信息矩阵。

对于第一信息矩阵使用GRU神经网络学习特征，将学习到的特征接入CRF解码层完成序列标注，输出第一信息矩阵中各个词对应的词边界和词性，以及实体类别之间的关系。输出的标签包含词性标签24个(小写字母)，专业类别标签4个(大写字母)，通过大小写标注(PER/LOC/ORG/TIME和nr/ns/nt/t)人名、地名、机构名和时间，其中小写表示对于低置信度的人名等信息。通过删除形容词、量词、代词、介词以及副词等非关键实体，最终输出关键实体矩阵如下：

其中，Entity_i表示从第一信息矩阵中获取的第i个去重的关键实体IMP_i表示对应的重要程度，

词频f_Tnamej,name表示Entity_i在第一信息矩阵中出现的次数/i，df_Tnamej表示包含Entity_i的Tname+1。

获取关键实体矩阵输入语义预测模型，输出对应的标签及置信度矩阵如下：

其中，Tag_iz表示根据Entity_i获取的标签，CL_iz表示根据Entity_i获取的置信度，根据同一个Tag下的数据完成矩阵压缩，并最终生成无重复、按照文本准确率

从高到低排序的预测标签矩阵PredTag，然后返回Top K的预测语义标签，即为第一语义标签。

可以认识到，本发明实施例提出的语义标签预测技术，在视频音视频内容质量不高或有效信息不足的情况下，依然可以生成具有较高可用性的分类标签。

S104、根据第一音频标签、第一场景标签、第一物体标签、第一人物标签以及第一语义标签进行权重决策分析，生成第一短视频标签。

具体地，根据前述步骤得到多种类型的标签，通过视频内容质量、视频语义质量以及视频音频质量的计算得到各类型标签的权重，然后计算Top K的标签信息，并组装成JSON体进行输出。步骤S104具体包括以下步骤：

S1041、确定第一短视频的内容特征信息，内容特征信息包括视频时长信息、视频帧数信息以及分辨率信息，通过随机森林算法对内容特征信息进行分类，得到第一内容质量；

S1042、确定第一短视频的语义特征信息，语义特征信息包括文本特殊符号数量信息、文本长度信息以及OCR识别结果占比信息，通过随机森林算法对语义特征信息进行分类，得到第一语义质量；

S1043、确定第一短视频的音频特征信息，音频特征信息包括音频长度信息和音频频谱信息，通过随机森林算法对音频特征信息进行分类，得到第一音频质量；

S1044、根据第一内容质量确定第一场景标签、第一物体标签以及第一人物标签的权重，根据第一语义质量确定第一语义标签和第一衍生标签的权重，并根据第一音频质量确定第一音频标签的权重，进而根据权重大小对各个标签进行筛选和排序，得到第一短视频标签。

具体地，获取短视频的时长、总帧数、分辨率作为视频内容特征，采用RF随机森林算法，对视频内容质量进行分类，输出CQ＝{High，Medium，Low}三个标签；获取短视频的标题特殊符号数、长度、OCR识别结果占比(OCR识别结果/帧数)视频语义作为特征，采用RF随机森林算法，对视频文本质量进行分类，输出TQ＝{High，Medium，Low}三个标签；获取短视频的音频长度、音频的频谱作为视频音频特征，采用RF随机森林算法，对视频音频质量进行分类，输出AQ＝{High，Medium，Low}三个标签；根据质量函数矩阵，选取对应的标签(CT为内容标签，AT为音频标签，TT为文本标签)权重，如High对应权重为1，Medium对应权重为0.5，Low对应权重为0，并最终根据权重进行筛选并从高到低排序，输出Top K标签信息。

以上对本发明实施例的方法步骤进行了说明。可以理解的是，本发明实施例通过对短视频分别进行视频音频分析、视频内容分析以及视频语义分析得到多维度的标签信息，然后通过权重决策分析生成短视频标签，克服了现有技术中人工标注效率低下、AI内容识别标注标签不全面以及适用范围小等问题，提高了短视频标签生成的效率，也提高了短视频标签的准确性、全面性及可靠性。与现有技术相比，本发明实施例还具有以下优点：

1)实现了基于语义、内容、音频等媒体信息进行短视频标签预测的流程设计，提供了多模融合的短视频分类标签预测能力。

2)提出了基于视频文本信息的分类标签预测方法，在视频内容不够丰富时，依然可以提供很好的分类标签预测。

3)实现了结合分片关键帧及基于内容特征的层次聚类算法的视频关键帧提取技术，大大节省基于视频内容预测模型的预测时间。

4)提出了基于语义特征、内容特征、音频特征的“多类型标签决策”方法，以达到在多模融合的情况下，生成综合置信度指标(包含重要性及准确性)的分类标签效果。

此外，本发明实施例还具有以下功能：

1)基于视频分类标签的短视频管理功能：应用层提供视频分类标签预测入口，可供用户上传短视频及编辑视频文本信息，同时针对预测结果进行人工校正并最终保存于数据库，下次打开短视频，可以实时查阅本视频所属的标签信息，并统计显示当前曲库各类分类标签的数量及运营情况。下面介绍新增视频时的流程示意图：

A1、上传及编辑短视频。用户可以在应用层页面选择本地或者URL的方式上传短视频，并支持短视频标题，备注，演唱者等文本信息编辑。

A2、调用分类标签预测接口并展示预测结果。

A3、人工校正预测结果，对于不准确的标签进行负反馈，对于不合适的标签进行人工剔除。

2)基于分类标签的短视频搜索功能：通过离线批量处理曲库现有的短视频资源，并生成对应的短视频分类标签库，通过增加标签匹配策略，返回搜索命中结果。下面介绍搜索同步索引的流程：

B1、离线批量处理曲库短视频资源：每天针对新的视频进行T+1的离线处理，并生成对应的标签信息，保存至数据库。

B2、同步至搜索索引库：每天定时增量同步视频标签信息至搜索索引库。

3)基于分类标签的短视频推荐功能：通过离线批量处理曲库现有的短视频资源，并生成对应的短视频分类标签库，为短视频推荐提供丰富的标签信息。下面介绍推荐构造用户偏好模型及视频相似模型的流程：

C1、离线批量处理曲库短视频资源。

C2、用户偏好模型构建：根据用户的过往用户行为，关联视频的标签信息，生成对应的用户偏好模型。

C3、视频相似模型构建：根据视频之间的标签关联性，相似性，构建视频相似矩阵，为视频推荐提供更多同标签的视频源。

参照图3，本发明实施例提供了一种短视频标签确定***，包括：

视频音频分析模块，用于获取第一短视频的音频信息，根据音频信息对第一短视频进行视频音频分析，得到第一音频标签；

视频内容分析模块，获取第一短视频的关键帧信息，关键帧信息包括场景信息、物体信息以及人物信息，根据关键帧信息对第一短视频进行视频内容分析，得到第一场景标签、第一物体标签以及第一人物标签；

视频语义分析模块，用于获取第一短视频的标题信息、视频描述信息以及字幕信息，根据标题信息、视频描述信息以及字幕信息对第一短视频进行视频语义分析，得到第一语义标签；

决策分析模块，用于根据第一音频标签、第一场景标签、第一物体标签、第一人物标签以及第一语义标签进行权重决策分析，生成第一短视频标签。

上述方法实施例中的内容均适用于本***实施例中，本***实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图4，本发明实施例提供了一种短视频标签确定装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当上述至少一个程序被上述至少一个处理器执行时，使得上述至少一个处理器实现上述的一种短视频标签确定方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，该处理器可执行的程序在由处理器执行时用于执行上述一种短视频标签确定方法。

本发明实施例的一种计算机可读存储介质，可执行本发明方法实施例所提供的一种短视频标签确定方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种短视频标签确定方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种短视频标签确定方法，其特征在于，所述获取第一短视频的音频信息，根据所述音频信息对所述第一短视频进行视频音频分析，得到第一音频标签这一步骤，其具体包括：

3.根据权利要求1所述的一种短视频标签确定方法，其特征在于，所述获取所述第一短视频的关键帧信息，所述关键帧信息包括场景信息、物体信息以及人物信息，根据所述关键帧信息对所述第一短视频进行视频内容分析，得到第一场景标签、第一物体标签以及第一人物标签这一步骤，其具体包括：

4.根据权利要求3所述的一种短视频标签确定方法，其特征在于，所述从多个所述视频帧文件中提取出多个第一关键帧，并通过层次聚类算法对所述第一关键帧进行降维去重，选取出差异性大于预设的第二阈值的多个第二关键帧这一步骤，其具体包括：

5.根据权利要求1所述的一种短视频标签确定方法，其特征在于，所述获取所述第一短视频的标题信息、视频描述信息以及字幕信息，根据所述标题信息、所述视频描述信息以及所述字幕信息对所述第一短视频进行视频语义分析，得到第一语义标签这一步骤，其具体包括：

6.根据权利要求5所述的一种短视频标签确定方法，其特征在于，所述对所述标题信息、所述视频描述信息、所述字幕信息以及所述文本信息进行NLP语义分析，得到第一语义信息这一步骤，其具体包括：

7.根据权利要求5所述的一种短视频标签确定方法，其特征在于，所述根据所述第一音频标签、所述第一场景标签、所述第一物体标签、所述第一人物标签以及所述第一语义标签进行权重决策分析，生成第一短视频标签这一步骤，其具体包括：

8.一种短视频标签确定***，其特征在于，包括：

9.一种短视频标签确定装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1至7中任一项所述的一种短视频标签确定方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1至7中任一项所述的一种短视频标签确定方法。