CN113537215A

CN113537215A - 一种视频标签标注的方法及设备

Info

Publication number: CN113537215A
Application number: CN202110814954.6A
Authority: CN
Inventors: 邓晖; 孙中清; 许峰; 周酉; 姜波; 徐学森; 王大鹏; 孙立照; 刘金博; 付坤; 龙涛; 白峻彬; 谢志泉
Original assignee: Shandong Flex Intelligent Technology Co ltd
Current assignee: Shandong Flex Intelligent Technology Co ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-10-22

Abstract

本申请的目的是提供一种视频标签标注的方法及设备，本申请通过获取目标视频的视频信息，对在所述目标视频中处于同一场景下的视频信息进行识别，根据识别结果确定特征词汇组；确定所述特征词汇组中包含的描述词汇组；在构建的标签库中匹配与所述描述词汇组关联的视频标签，根据匹配结果确定所述目标视频的视频初始标签；将所述视频初始标签推荐给用户并获取反馈的推荐结果，根据所述推荐结果对所述视频初始标签进行决策，得到新的视频标签。从而减少人力物力，提高标注效率以及可以实时更新视频标签。

Description

一种视频标签标注的方法及设备

技术领域

本申请涉及计算机领域，尤其涉及一种视频标签标注的方法及设备。

背景技术

在大数据时代背景下，大量的长短视频信息充斥在视频网站或短视频软件中，如何对这些视频数据进行精准画像成为短视频业务推荐的重要需求。视频标签即视频画像，是将平台账户的代表性短视频抽象成标签，利用这些标签将视频形象具体化，从而为平台用户提供有针对性的服务。

为了让用户在短时间内获知视频的内容，内容提供方或视频平台通常会为视频制作对应的视频标签。目前，为视频添加标签的方式有多种：一种是让观看视频的用户为视频添加标签，这种方式比较快捷，但是添加的标签是否与视频内容相契合则无法把控；一种是通过视频播放平台的管理人员手动添加标签，这种方式需要耗费相当大的人力物力，由于管理人员的数量有限，这种方式效率太低。还有一种是根据视频信息，包括语音、图像、字幕等信息，基于目前先进的人工智能技术进行标签，但这种方式存在标签权重不明确，标签质量不清晰，无法实时更新视频标签等问题。

发明内容

本申请的一个目的是提供一种视频标签标注的方法及设备，解决现有技术中标签与视频内容不契合、使用人工方式效率低一级标签质量不清晰，无法实时更新视频标签等问题。

根据本申请的一个方面，提供了一种视频标签标注的方法，该方法包括：

获取目标视频的视频信息，对在所述目标视频中处于同一场景下的视频信息进行识别，根据识别结果确定特征词汇组；

确定所述特征词汇组中包含的描述词汇组；

在构建的标签库中匹配与所述描述词汇组关联的视频标签，根据匹配结果确定所述目标视频的视频初始标签；

将所述视频初始标签推荐给用户并获取反馈的推荐结果，根据所述推荐结果对所述视频初始标签进行决策，得到新的视频标签。

可选地，所述视频信息包括所述目标视频的语音信息、图像信息、字幕信息以及标题信息。

可选地，对在所述目标视频中处于同一场景下的视频信息进行识别，包括：

确定在所述目标视频中处于同一场景下的语音信息、图像信息、字幕信息以及标题信息；

对所述语音信息进行转换，识别出与所述目标视频相对应的词汇；

对提取出的字幕信息通过语义识别用于表征文字信息含义的词汇；

识别出所述图像信息中包含的目标对象，确定用于表征所述目标对象的词汇；

通过语义识别从所述标题信息中提取出用于表征所述标题信息含义的词汇。

可选地，根据所述识别结果确定特征词汇组，包括：

计算得到的各个词汇的权重值，从所述得到的词汇中筛选出权重值满足指定关系的多个目标词汇；

根据所述多个目标词汇确定所述视频信息中包含的特征词汇组。

可选地，所述指定关系包括以下任一项：

权重值大于或等于指定权重值阈值；

在排序结果中按照排序顺序依次选取预设数量个数的权重值，其中，所述排序结果是按照权重值进行排序得到的。

可选地，计算得到的各个词汇的权重值，包括：

确定所述词汇在所述目标视频的视频信息中出现的次数，得到第一出现次数；

确定所述词汇在历史视频的视频信息中出现的次数，得到第二出现次数；

根据所述第一出现次数和所述第二出现次数确定所述词汇的权重值。

可选地，所述方法包括：

将所述多个描述词汇进行组合，得到多个描述词汇组，并将同一描述词汇组中的多个词汇所共同表征的含义作为该描述词汇组对应的视频标签；

通过知识图谱的方式将得到的多个视频标签表现在标签库中，得到构建的标签库，其中，在所述构建的标签库中各个视频标签与描述词汇组关联，每一描述词汇组中包括至少两个用于描述视频标签的描述词汇。

可选地，根据所述推荐结果对所述视频初始标签进行决策，包括：

确定所述推荐结果中用户对所述视频初始标签的观看率以及反馈状态；

根据所述观看率以及反馈状态对所述视频初始标签进行决策。

可选地，所述方法包括：

对线上服务器记录的视频的实时特征进行用户数据的拼接，得到用户样本；

对所述用户样本进行用户行为分析后进行所述用户对所述视频的特征提取，得到用户关联视频的特征数据；

将所述用户关联视频的特征数据输入至深度神经网络中，得到输出结果。

根据所述推荐结果以及所述深度神经网络的输出结果对所述视频初始标签进行决策。

根据本申请又一个方面，还提供了一种视频标签标注的设备，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。

根据本申请再一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述所述的方法。

与现有技术相比，本申请通过获取目标视频的视频信息，对在所述目标视频中处于同一场景下的视频信息进行识别，根据识别结果确定特征词汇组；确定所述特征词汇组中包含的描述词汇组；在构建的标签库中匹配与所述描述词汇组关联的视频标签，根据匹配结果确定所述目标视频的视频初始标签；将所述视频初始标签推荐给用户并获取反馈的推荐结果，根据所述推荐结果对所述视频初始标签进行决策，得到新的视频标签。从而减少人力物力，提高标注效率以及可以实时更新视频标签。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一个方面提供的一种视频标签标注的方法流程示意图；

图2示出本申请一实施例中进行视频标签标注的方法示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU))、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

图1示出根据本申请的一个方面提供的一种视频标签标注的方法流程示意图，该方法包括：步骤S11～步骤S14，其中，步骤S11，获取目标视频的视频信息，对在所述目标视频中处于同一场景下的视频信息进行识别，根据识别结果确定特征词汇组；步骤S12，确定所述特征词汇组中包含的描述词汇组；步骤S13，在构建的标签库中匹配与所述描述词汇组关联的视频标签，根据匹配结果确定所述目标视频的视频初始标签；步骤S14，将所述视频初始标签推荐给用户并获取反馈的推荐结果，根据所述推荐结果对所述视频初始标签进行决策，得到新的视频标签。从而实现对视频的动态标签标注以及更新标注的标签，得到更清晰的视频标签。

具体地，在步骤S11中，获取目标视频的视频信息，对在所述目标视频中处于同一场景下的视频信息进行识别，根据识别结果确定特征词汇组；在此，目标视频为需要进行标签标注的视频，所述视频信息包括所述目标视频的语音信息、图像信息、字幕信息以及标题信息；通过对获得的目标视频的视频信息进行分析，识别出与视频内容相符的一系列词汇，识别时是按照同一场景下的视频信息进行识别，从而对同一场景的视频进行标签标注，根据识别出的结果选择出该目标视频在当前场景下的特征词汇组；该特征词汇组包含用于表征所述目标视频的内容的多个特征词汇，特征词汇为根据当前场景的视频信息的特征信息进行提取得到的。

具体地，在步骤S12中，确定所述特征词汇组中包含的描述词汇组；在此，特征词汇组包含目标视频的视频信息的特征信息，从而可以从识别到的特征词汇组中选择出所包含的用于表达当前目标视频的视频信息含义的多个描述词汇，形成描述词汇组。

具体地，在步骤S13中，在构建的标签库中匹配与所述描述词汇组关联的视频标签，根据匹配结果确定所述目标视频的视频初始标签；在此，将得到的描述词汇组在构建的标签库中进行匹配，从而可以得到相关联的视频标签，从而可以作为目标视频的视频初始标签，完成视频粗标签标注；即先利用标签库与当前的目标视频的描述词汇组进行匹配，对该目标视频先利用标签库中已有的标签进行标注。

具体地，在步骤S14中，将所述视频初始标签推荐给用户并获取反馈的推荐结果，根据所述推荐结果对所述视频初始标签进行决策，得到新的视频标签。在此，对使用标签库进行视频标签的标注再进行优化，得到清晰度较高、与视频内容更加契合的新的标签，优化时可以将得到的视频初始标签推荐给用户使用，用户根据该推荐的标签进行观看视频，从而反馈对于使用该推荐的标签的推荐结果，根据反馈的推荐结果进一步地对视频初始标签进行决策，该决策过程是指对视频初始标签决策是否重新标注或更加精确标注的过程，从而将决策后的新的视频标签作为目标视频的最终标注的标签。

在本申请一些实施例中，在步骤S11中，确定在所述目标视频中处于同一场景下的语音信息、图像信息、字幕信息以及标题信息；对所述语音信息进行转换，识别出与所述目标视频相对应的词汇；对提取出的字幕信息通过语义识别用于表征文字信息含义的词汇；识别出所述图像信息中包含的目标对象，确定用于表征所述目标对象的词汇；通过语义识别从所述标题信息中提取出用于表征所述标题信息含义的词汇。在此，获取目标视频的语音信息、图像信息、字幕信息以及标题信息；对于语音信息，可以通过自动化语音识别的方式将语音信息转换为机器能够识别的二进制编码或字符序列，随后通过语义识别的技术识别出与视频内容相符的词汇；对于字幕信息，可以通过光学字符识别的技术，从视频画面中提取出文字信息，通过语义识别的技术提取出能够表征文字信息含义的词汇；对于图像信息，可以通过图像识别技术识别出图像信息中包含的目标对象，并确定能够表征目标对象的词汇；对于标题信息，可以通过语义识别的技术提取出能够表征标题信息含义的词汇。

在本申请一些实施例中，所述方法包括：将所述多个描述词汇进行组合，得到多个描述词汇组，并将同一描述词汇组中的多个词汇所共同表征的含义作为该描述词汇组对应的视频标签；通过知识图谱的方式将得到的多个视频标签表现在标签库中，得到构建的标签库，其中，在所述构建的标签库中各个视频标签与描述词汇组关联，每一描述词汇组中包括至少两个用于描述视频标签的描述词汇。在此，对目标视频进行初始标签标注时，是利用构建的标签库进行匹配得到的，而构建标签库时，是根据从视频内容中识别出的与视频内容相符的词汇进行构建的，具体地，采用知识图谱的方式，将多个描述词汇进行组合，并构成组合的多个描述词汇共同表征的含义作为视频标签；通过知识图谱的方式表现在标签库中，可以包含多个视频标签，各个视频标签可以与描述词汇组相关联，在所述描述词汇组中可以包括至少两个用于描述视频标签的描述词汇。比如将多个词汇进行组合后，生成多个描述词汇组为“演员词组”、“导演词组”、“类型词组”等，多词组之间建立关联关系，比如在某视频标注“电影”的标签，则与之关联的标签为“演员”、“导演”、“票房”等，而对视频标注“音乐”时，关联的则是“原唱”、“伴奏”等相关标签。

在本申请一些实施例中，在步骤S11中，计算得到的各个词汇的权重值，从所述得到的词汇中筛选出权重值满足指定关系的多个目标词汇；根据所述多个目标词汇确定所述视频信息中包含的特征词汇组。在此，计算得到各个词汇的权重值后，可以从拆分得到的词汇以及表征所述目标对象的词汇中筛选出权重值满足指定关系的目标词汇，并将所述目标词汇作为所述视频信息中包含的特征词汇。其中，所述指定关系包括以下任一项：权重值大于或等于指定权重值阈值；在排序结果中按照排序顺序依次选取预设数量个数的权重值，其中，所述排序结果是按照权重值进行排序得到的。即，权重值满足指定关系可以为权重值大于或等于指定权重阈值，或者按照权重值进行排序之后，排名最靠前的预设数量个权重值。从而通过将权重值较高的词汇作为从视频信息中识别出的特征词汇，能够更加准确地反映目标视频的内容。

具体地，计算得到的各个词汇的权重值时，可以确定所述词汇在所述目标视频的视频信息中出现的次数，得到第一出现次数；确定所述词汇在历史视频的视频信息中出现的次数，得到第二出现次数；根据所述第一出现次数和所述第二出现次数确定所述词汇的权重值。在此，视频信息中识别出的词汇的数量会较多，而大部分词汇可能无法明显地表征目标视频的内容，因此，为了识别出的大量词汇中筛选出能够明显表征目标视频内容的词汇，可以分别计算拆分得到的词汇的权重值以及表征所述目标对象的词汇的权重值；在本申请实施例中，可以使用TF-IDF(Term Frequency-Inverse Document Frequency，词汇-逆向文件频率)值作为权重值，TF用于表示拆分得到的词汇在目标视频的视频信息中共计出现的次数，即第一次出现次数为TF值，而IDF用于表示拆分得到的词汇在大量的视频信息中共计出现的次数，即第二次出现次数为IDF值，从而利用第一次出现次数与第二次出现次数来表征这个词汇的权重值，即使用TF-IDF值作为权重值。当一个词汇在目标视频中出现次数较多，同时在大量的视频信息中出现的次数较少，则该词汇对应的TF-IDF值会较高，该词汇能够明显地表征目标视频的内容。通过权重值的计算，可以明确标注的标签的权重，标签质量清晰。

在本申请一些实施例中，在步骤S14中，确定所述推荐结果中用户对所述视频初始标签的观看率以及反馈状态；根据所述观看率以及反馈状态对所述视频初始标签进行决策。在此，对得到的视频初始标签进行决策时，可以使用马尔可夫决策方法，具体过程为：通过得到的视频初始标签对用户进行推荐，依照推荐结果对初始标签进行动态更新，马尔可夫决策过程包括状态、动作、策略、奖励和回报这五个过程，并按以下方式进行组织：智能体对初始环境进行感知，按策略实施动作，环境受动作影响进入新的状态，并反馈给智能体一个奖励，随后智能体采取新的策略，与环境持续交互。在本申请实施例中，“环境”是一句标签获取的多个不同推荐结果；“状态”为用户“观看”和“不观看”，“动作”是使用基于标签进行视频推荐；“策略”是依据前一次推荐的结果和其返回状态，选择下一次推荐结果；“奖励”是一次推荐结果后相关用户的观看率，“回报”是多次使用基于当前标签的视频推荐结果所形成的用户总观看度的提升；利用上述五个过程对视频初始标签进行动态更新。例如，对动作类电影，对用户偏好为动作类电影的用户进行推荐，依据前一次推荐的结果和返回的状态，多次使用基于当前标签的视频推荐结果所形成的用户总观看度的提升来判断该影片是否属于动作类电影，即若基于“动作类电影”标签进行推荐能提升用户总观看度，则说明当前的标签合适，若不能提升用户的总观看度，则说明当前的标签不合适，需要重新进行标注。

在本申请一些实施例中，所述方法包括：对线上服务器记录的视频的实时特征进行用户数据的拼接，得到用户样本；对所述用户样本进行用户行为分析后进行所述用户对所述视频的特征提取，得到用户关联视频的特征数据；将所述用户关联视频的特征数据输入至深度神经网络中，得到输出结果。从而在步骤S14中，根据所述推荐结果以及所述深度神经网络的输出结果对所述视频初始标签进行决策。在此，如图2所示，是基于马尔科夫决策过程进行的视频标签标注方式，具体地：获取线上服务器记录的实时特征，该实时特征为用户行为，比如哪个用户在什么时间看了什么节目，在什么渠道进行的观看。因服务器记录的数据是分条数据，因此对服务器记录的实时特征的数据进行拼接，得到用户完整的数据，比如服务器只记录了用户在什么时间观看了什么节目，但对于该节目观看了多久是需要计算的，因此通过计算整理后得到的一个用户数据为一个样本。对构造的样本进行分析，比如分析该用户在一段时间对不同节目的反应，如该用户是更倾向于电影，还是更倾向于音乐，是更倾向于爱情片还是更倾向于动作片。对样本进行分析后进行特征提取，即提取该用户的观看偏好、年龄特征、观看时间段特征、观看渠道特征等，将提取到的特征输入至深度神经网络中，从而根据用户特征指定推荐测量，以此形成对标签价值的评价。进而利用输出的结果以及使用视频初始标签得到的推荐结果对该视频初始标签进行更新标注，使得标签与视频内容更加契合。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述一种视频标签标注的方法。

与上文所述的方法相对应的，本申请还提供一种终端，其包括能够执行上述图1或图2或各个实施例所述的方法步骤的模块或单元，这些模块或单元可以通过硬件、软件或软硬结合的方式来实现，本申请并不限定。例如，在本申请一实施例中，还提供了一种视频标签标注的设备，所述设备包括：

一个或多个处理器；以及

例如，计算机可读指令在被执行时使所述一个或多个处理器：

确定所述特征词汇组中包含的描述词汇组；

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种视频标签标注的方法，其特征在于，所述方法包括：

确定所述特征词汇组中包含的描述词汇组；

2.根据权利要求1所述的方法，其特征在于，所述视频信息包括所述目标视频的语音信息、图像信息、字幕信息以及标题信息。

3.根据权利要求2所述的方法，其特征在于，对在所述目标视频中处于同一场景下的视频信息进行识别，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述识别结果确定特征词汇组，包括：

5.根据权利要求4所述的方法，其特征在于，所述指定关系包括以下任一项：

权重值大于或等于指定权重值阈值；

6.根据权利要求4所述的方法，其特征在于，计算得到的各个词汇的权重值，包括：

7.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法包括：

8.根据权利要求1所述的方法，其特征在于，根据所述推荐结果对所述视频初始标签进行决策，包括：

9.根据权利要求1所述的方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，根据所述推荐结果对所述视频初始标签进行决策，包括：

11.一种视频标签标注的设备，其特征在于，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至10中任一项所述方法的操作。

12.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至10中任一项所述的方法。