CN111757170B

CN111757170B - 一种视频分段和标记的方法及装置

Info

Publication number: CN111757170B
Application number: CN202010625141.8A
Authority: CN
Inventors: 李锁花; 殷飞; 何健; 迟民强
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2022-09-23
Anticipated expiration: 2040-07-01
Also published as: CN111757170A

Abstract

本申请公开了一种视频的分段和标注方法，包括：将视频内容按照场景进行分割，得到场景分割序列，为所述场景分割序列中的每个分段记录对应的场景信息，并将所述场景信息加入标注信息；将视频内容按照声音进行分割，得到声音分割序列，记录相应的声音类别，作为各分段的声音信息，将声音信息加入标注信息；和/或，将视频内容按照热度进行分割，得到热度分割序列和相应分段的热度信息，将所述热度信息加入标记信息；将对所述视频内容进行分割得到的各个分割序列中的所有分割点作为所述视频内容的分割点，对所述视频内容再次进行视频分割，得到视频分割序列，并按照各个分割序列中的标注信息，为所述视频分割序列中的每个分段记录对应的标注信息；根据所述视频分割序列和各个分段对应的标注信息，显示视频内容的分段以及各分段的标注信息。

Description

一种视频分段和标记的方法及装置

技术领域

本申请涉及视频处理技术，特别涉及一种视频分段和标记的方法及装置。

背景技术

随着视频网站资源越来越丰富，用户在观看长视频时(如电视剧/电影/综艺节目/球赛时)，会通过手动拖动进度条或快速播放来节省时间。但是这些方法各有弊端：手动拖动进度条，可以跳跃到任意点播放，但是带有盲目性，常常会错过用户本来感兴趣的内容，不能精准播放；快速播放，会破坏视频的意境，让用户没法好好欣赏自己感兴趣的内容。

为了给用户提供更多视频播放时的辅助信息，可以对视频进行分割，并标注每个分段的信息，让用户可以预览，在有限的时间内，播放自己感兴趣的部分，跳过或者快速播放自己不感兴趣的。更进一步地，还可以分析用户的兴趣点，计算每个片段的对用户的推荐指数，以帮助用户决策。

具体地，视频内容结构按照语义层级的高低可分为镜头和场景。镜头是摄像机一次连续拍摄到的视频片段。场景是由若干个在语义上相关的连续镜头组成的能够表达共同语义内容的视频片段。基于此，可以将视频内容按照场景分割，场景分割的目标是要找到场景的时间边界，将视频按语义分割为多个场景片段。

现有的视频场景分割技术主要利用视频的视觉特征信息，通过分析视频相邻帧之间的相似度，先进行镜头分割，再根据镜头之间的相关性，相似的镜头合并，形成一定语义的场景，从而完成场景语义分割。在视频分段标注时，目前的技术主要是利用关键帧的信息，从关键帧里提取文本信息，形成摘要，结合起始结束位置一起展示给用户，用于定位和重点关注某目标对象，锁定重要的视频线索信息。

进一步地，现有的视频分段个性化推荐技术，一般根据用户的偏好设置、行为来学习用户的画像，然后结合用户的兴趣点来匹配同标签信息的视频。

发明内容

本申请提供一种视频的分段、标记方法和装置，能够从更多维度进行视频分段，提供更丰富的标记信息。

为实现上述目的，本申请采用如下技术方案：

一种视频的分段和标注方法，包括：

将视频内容按照场景进行分割，得到场景分割序列，为所述场景分割序列中的每个分段记录对应的场景信息，并将所述场景信息加入标注信息；

将视频内容的音频数据进行分割，分割点为声音出现、切换和消失的点，得到声音分割序列，对所述声音分割序列中的每个分段进行声音识别，并记录相应的声音类别，作为各分段的声音信息，将所述声音信息加入标注信息；和/或，将视频内容按照时间等分，计算每个时间段的热度统计值，将热度统计值的差小于第一设定阈值的相邻时间段合并，并将对应的热度统计值合并，得到热度分割序列，将热度分割序列中每个分段的热度统计值作为相应分段的热度信息，将所述热度信息加入标注信息；

将对所述视频内容进行分割得到的各个分割序列中的所有分割点作为所述视频内容的分割点，对所述视频内容再次进行视频分割，得到视频分割序列，并按照各个分割序列中的标注信息，为所述视频分割序列中的每个分段记录对应的标注信息；

根据所述视频分割序列和各个分段对应的标注信息，显示视频内容的分段以及各分段的标注信息。

较佳地，所述根据所述视频分割序列和各个分段对应的标注信息，显示视频内容的分段以及分段的标注信息包括：

按照所述视频分割序列的分割点显示视频分段和相应分段的标注信息；或者，

将所述视频分割序列的所有分段的标注信息分别与用于描述用户观看视频的兴趣特征的用户画像进行匹配，计算各个分段对用户的推荐指数；其中，所述用户画像包括用户的兴趣点集合和非兴趣点集合，兴趣点集合和非兴趣点集合中的各个元素对应于标注信息的各类标签；视频分割序列中各分段的标注信息与用户画像的匹配度越高，相应分段对用户的推荐指数越高；

在所述视频分割序列的所有分段中，将用户推荐指数差低于第二设定阈值的相邻分段合并，并将对应的标注信息以及用户推荐指数进行合并，得到用户视频分割序列，据此显示视频内容的分段和各分段的标注信息及用户推荐指数。

较佳地，根据所述每个时间段的播放数据统计值和/或即时评价统计值计算所述每个时间段的热度统计值。

较佳地，对于所述每个时间段，确定每个用户对于该时间段的视频播放指数，将所有用户对于该时间段的视频播放指数求和，作为所述播放数据统计值；其中，所述视频播放指数用于表示相应时间段的视频是否被正常播放和/或是否被播放完毕。

较佳地，当任一时间段的视频被正常播放时，相应时间段的视频播放指数为1；和/或，

当所述任一时间段的视频被跳过时，相应时间段的视频播放指数为0；和/或，

当所述任一时间段的视频倍速播放时，相应时间段的视频播放指数为1/倍率。

较佳地，对于所述每个时间段，确定该时间段内的即时评价总数，作为所述即时评价统计值。

较佳地，根据所述每个时间段i的播放数据统计值和即时评价统计值计算所述每个时间段i的热度统计值h_i包括：

将所述播放数据统计值p_i和即时评价统计值c_i分别进行归一化处理；

计算h_i'＝(p_i+c_i)*N，对h_i'进行四舍五入取整得到所述热度统计值h_i；其中，所述N为预设的正整数，用于控制所述热度统计值的取值范围。

较佳地，所述将对应的热度统计值合并包括：对合并的相邻时间段计算热度统计值的平均值，将所述平均值作为合并后时间段的热度统计值。

较佳地，确定用户画像中兴趣点集合的方式包括：

从用户的搜索记录和/或偏好设置中提取关键信息加入所述兴趣点集合，根据用户的播放记录选择用户播放和/或多次播放的视频分段，根据相应分段的标注信息，更新所述兴趣点集合。

较佳地，确定用户画像中非兴趣点集合的方式包括：

根据用户的播放记录选择用户跳过的视频分段，根据相应分段的标注信息，更新所述非兴趣点集合。

较佳地，在所述用户画像中，为所述兴趣点集合和所述非兴趣点集合中的各个元素设置对应的权重，并在用户进行视频设置、视频搜索和/或视频播放行为时，更新元素的权重；其中，元素更新的越晚，权重越高，元素更新的越早，权重越低；元素出现的频率越高，权重越高，元素出现的频率越低，权重越低。

较佳地，确定元素出现频率的方式为：根据用户播放视频中各分段的标注信息，统计相应元素出现的累计次数，根据所述累计次数确定相应元素的出现频率。

较佳地，所述更新元素的权重包括：当用户有视频设置、视频搜索和/或视频播放行为时，提取关键词作为所述兴趣点集合或非兴趣点集合的待***元素，并设置初始权重，根据该初始权重将相应兴趣点集合或非兴趣点集合里其他元素的权重按比例减少；在所述兴趣点集合或非兴趣点集合中搜索所述待***元素，若存在相同或相似元素，则将所述待***元素与相同或相似元素合并，将权重累加；若不存在相同或相似元素，则将所述待***元素***所述兴趣点集合或非兴趣点集合。

较佳地，来源于视频设置或视频搜索行为的所述待***元素的初始权重高于来源于视频播放行为的所述待***元素的初始权重。

较佳地，所述计算各个分段对用户的推荐指数包括：

对于任一分段i的场景信息中的每个元素s_ij，将元素s_ij分别与用户兴趣点集合中与场景相关的各个元素进行匹配分析，根据所有元素的匹配结果计算所述任一分段的场景兴趣指数；对于任一分段的场景信息中的每个元素s_ij，将元素s_ij分别与用户非兴趣点集合中与场景相关的各个元素进行匹配分析，根据所有元素的匹配结果计算所述任一分段的场景非兴趣指数；其中，i为所述视频分割序列中各个分段的索引，j为元素索引；

当所述标注信息中包括声音信息时：对于任一分类的声音信息中的每个元素v_ij，将元素v_ij分别与用户兴趣点集合中与声音相关的各个元素进行匹配分析，根据所有元素的匹配结果计算所述任一分段的声音兴趣指数；对于任一分类的声音信息中的每个元素v_ij，将元素v_ij分别与用户非兴趣点集合中与声音相关的各个元素进行匹配分析，根据所有元素的匹配结果计算所述任一分段的声音非兴趣指数；

当所述标注信息中包括热度信息时：对于任一分段的热度信息，将该热度信息与用户兴趣点集合中与热度相关的各个元素进行匹配分析，根据所有匹配结果计算所述任一分段的热度兴趣指数；对于任一分段的热度信息，将该热度信息与用户非兴趣点集合中与热度相关的各个元素进行匹配分析，根据所有匹配结果计算所述任一分段的热度非兴趣指数；

对于每个分段，根据场景兴趣指数和声音兴趣指数和/或热度兴趣指数计算用户兴趣指数，根据场景非兴趣指数和声音非兴趣指数和/或热度非兴趣指数计算用户非兴趣指数，利用所述用户兴趣指数和所述用户非兴趣指数计算所述对用户的推荐指数。

较佳地，所述将元素s_ij分别与用户兴趣点集合中与场景相关的各个元素进行匹配分析包括：计算元素s_ij分别与用户兴趣点集合中与场景相关的各个元素的匹配度；

所述计算任一分段的场景兴趣指数包括：对于所述每个元素s_ij，在计算得到的所有匹配度中选择最大值m对应的兴趣点集合元素作为匹配项，将所述m与所述匹配项的权重相乘作为元素s_ij的兴趣指数，将所述任一分段的场景信息中所有元素的兴趣指数相加，得到场景兴趣指数。

较佳地，所述将元素v_ij分别与用户兴趣点集合中与声音相关的各个元素进行匹配分析包括：计算元素s_ij分别与用户兴趣点集合中与场景相关的各个元素的匹配度；

所述计算任一分段的场景兴趣指数包括：对于所述每个元素v_ij，在计算得到的所有匹配度中选择最大值m对应的兴趣点集合元素作为匹配项，将所述m与所述匹配项的权重相乘作为元素v_ij的兴趣指数，将所述任一分段的声音信息中所有元素的兴趣指数相加，得到声音兴趣指数。

较佳地，所述将该热度信息与用户兴趣点集合中与热度相关的各个元素进行匹配分析包括：

当该热度信息等于或大于用户兴趣点集合中与热度相关的任一元素时，认为与所述任一元素匹配，所述任一元素为匹配项；

所述计算所述任一分段的热度兴趣指数包括：将所有匹配项的权重求和作为所述热度兴趣指数。

较佳地，所述计算相应分段对用户的推荐指数R包括：R'＝(用户兴趣指数-用户非兴趣指数)*用户权重+热度统计值*大众权重，对R'进行归一化处理得到R；其中，用户权重和大众权重是预先设置的自然数。

较佳地，所述用户兴趣指数为场景兴趣指数、声音兴趣指数和/或热度兴趣指数的加权和；所述用户非兴趣指数为场景非兴趣指数、声音非兴趣指数和/或热度非兴趣指数的加权和。

较佳地，当所述标注信息包括热度信息时，该方法进一步包括：定时更新所述视频内容的热度分割序列和相应分段的热度信息；根据更新后的热度分割序列和各分段的热度信息更新视频分割序列和各分段的标注信息，再更新用户视频分割序列和各分段的标注信息和用户推荐指数。

较佳地，在将用户推荐指数差低于第二设定阈值的相邻分段合并后，将对应的用户推荐指数进行合并的方式包括：将合并的各分段的用户推荐指数求均值，作为合并后分段的用户推荐指数。

一种视频的分段和标注装置，所述装置包括：视频分割模块、分割序列整合模块和显示模块；其中，所述视频分割模块包括声音分割子模块和/或热度分割子模块以及场景分割子模块；

所述视频分割模块中的场景分割子模块，用于将视频内容按照场景进行分割，得到场景分割序列，为所述场景分割序列中的每个分段记录对应的场景信息，并将所述场景信息加入标注信息；

所述视频分割模块中的声音分割子模块，用于将视频内容的音频数据进行分割，分割点为声音出现、切换和消失的点，得到声音分割序列，对所述声音分割序列中的每个分段进行声音识别，并记录相应的声音类别，作为各分段的声音信息，将所述声音信息加入标注信息；

所述视频分割模块中的热度分割子模块，用于将视频内容按照时间等分，计算每个时间段的热度统计值，将热度统计值的差小于第一设定阈值的相邻时间段合并，并将对应的热度统计值合并，得到热度分割序列，将热度分割序列中每个分段的热度统计值作为相应分段的热度信息，将所述热度信息加入标记信息；

所述分割序列整合模块，用于将视频分割模块中得到的各个分割序列中的所有分割点作为所述视频内容的分割点，再次进行视频分割，得到视频分割序列，并按照各个分割序列中的标注信息，为所述视频分割序列中的每个分段记录对应的标注信息；

所述显示模块，用于根据所述视频分割序列和各个分段对应的标注信息，显示视频内容的分段以及各分段的标注信息。

较佳地，所述装置进一步包括用户级视频分割及标注模块，用于将分割序列整合模块得到的所述视频分割序列的所有分段的标注信息分别与用于描述用户观看视频的兴趣特征的用户画像进行匹配，计算各个分段对用户的推荐指数；其中，所述用户画像包括用户的兴趣点集合和非兴趣点集合，兴趣点集合和非兴趣点集合中的各个元素对应于标注信息的各类标签；视频分割序列中各分段的标注信息与用户画像的匹配度越高，相应分段对用户的推荐指数越高；还用于在所述视频分割序列的所有分段中，将用户推荐指数差低于第二设定阈值的相邻分段合并，并将对应的标注信息以及用户推荐指数进行合并，得到用户视频分割序列；

所述显示模块，用于依据所述用户视频分割序列的分段，显示视频内容的分段和各分段的标注信息及用户推荐指数。

由上述技术方案可见，本申请中，将视频内容分别按照声音和/或热度以及场景进行分割，并得到相应分段的标注信息(包括声音信息和/或热度信息以及场景信息)。通过这种方式，为视频分段提供更多维度，为用户提供更丰富的标注信息。

附图说明

图1为本申请中视频分段和标记方法的流程示意图；

图2为本申请中视频分段和标记装置的结构示意图；

图3为对视频按照场景信息和声音信息进行分割的示意图；

图4为对视频按照热度进行分割得到热度分割序列的示意图；

图5为分割序列整合的示意图；

图6为对应图1中步骤101～104处理的示意图；

图7为获取用户画像的流程示意图；

图8为针对不同用户进行个性化分段和标注的示意图；

图9为本申请方法部署方案一的示意图；

图10为本申请方法部署方案二的示意图；

图11为两个用户的用户画像示例图；

图12为本申请示例中个性化分割及标注的示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

现有场景分割的方法主要基于视频的帧数据，但是声音也是视频的重要组成部分，可以为视频分割提供大量的有效信息。比如电视剧里的一段有背景音乐的场景、一组对话的场景、一组独白的场景，一组解说，都是围绕一个情节或者主题展开的，可以作为视频分割的重要依据。有些观众为了节省时间，会跳过无对话的环境描写，而只关注人物对话甚至冲突的场景。基于此，本申请中在视频分割时进一步考虑声音信息的参与。

除了图像和声音信息外，视频的热度也是视频的另一重要组成部分，例如视频段在服务器的播放情况(如跳过、快进、正常播放、多次播放)以及用户的即时评价信息(如弹幕)都可以反映这个视频段的热度信息，也可以作为视频分割的重要依据。基于此，本申请中在视频分割时也进一步考虑了热度信息的参与，以更贴合并反映用户的需求。

基于上述两点，本申请提供的最基本的视频分段和标记方法中，在现有的按照场景对视频进行分割的基础上，引入了按照音频数据和/或热度信息对视频进行分割的处理。

具体地，可以按照场景对视频进行分割得到场景分割序列，为场景分割序列中的每个分段记录对应的场景信息。除按照场景对视频进行分割外，还可以按照音频数据对视频进行分割得到声音分割序列，为声音分割序列中的每个分段记录对应的声音信息；和/或，按照热度信息对视频进行分割得到热度分割序列，为热度分割序列中的每个分段记录对应的热度信息。接下来，将各个分割序列中的所有分割点作为视频的分割点，再次进行视频分割，得到视频分割序列，并为其中的各个分段标注上声音信息和/或热度信息以及场景信息。最后，根据视频分割序列和相应分段的标注信息(包括声音信息和/或热度信息以及场景信息)进行显示。这里，标注信息中一定包括的是场景信息，另外，根据是否按照音频数据及热度对视频进行分割，标注信息中还可以包括声音信息和热度信息中的一种或两种。

最简单地，在最终显示时，可以直接将按照视频分割序列得到的视频分段作为最终的视频分段结果，显示该最终的视频分段结果和相应分段的标注信息。

另外，目前视频分割并没有针对每个用户的兴趣特征来做精确的分割和推荐。所以用户还需要查看每个分段的标注信息以判断自己是否感兴趣，即使通过检索的方法，也需要手动输入感兴趣的关键字来筛选自己感兴趣的内容。两个兴趣特征不同的用户，面对同一个视频，想看的内容是不同的，所以他们希望看到的视频分割及推荐信息也最好是不同的，这种用户级的视频分割和标注技术更贴合用户的需求，可以帮助用户智能地过滤每个分段信息，直接获取自己感兴趣和不感兴趣的内容。

基于上述考虑，在前述最简单的处理基础上可以进一步考虑在最终显示前，在视频分割序列基础上，将视频分割序列中各分段的标注信息与单个用户的兴趣特征进行匹配，根据匹配结果对视频内容进行重组，得到用户级视频分割序列，并得到相应的标注信息。在最终显示时，将按照用户级视频分割序列得到的分段作为最终的视频分段结果，显示分段及相应标注信息。

接下来，对本申请提供的视频分段和标记的方法进行详细描述。图1为本申请中视频分段和标记方法的流程示意图，图2为本申请中视频分段和标记装置的结构示意图，图1所示的流程可以在图2所示的装置中实现。其中，如图2所示，该装置包括视频分割模块、分割序列整合模块、用户级视频分割和标注模块、显示模块。其中，视频分割模块、分割序列整合模块和显示模块是必选模块，用户级视频分割和标注模块是可选模块。视频分割模块包括场景分割子模块，还包括声音分割子模块和/或热度分割子模块。在下面的流程介绍中，为介绍完整起见，以视频分割模块包括场景分割子模块、声音分割子模块和热度分割子模块为例进行介绍。具体地，如图1和图2所示，本申请中视频分段和标记方法包括：

步骤101，将视频内容按照场景进行分割，得到场景分割序列，为场景分割序列中的每个分段记录对应的场景信息，将场景信息加入标注信息。

本步骤中的处理在场景分割子模块中完成。具体按照场景进行分割的处理可以采用现有方式进行。具体地，可以从视频序列的每幅视频帧中提取能够反映视频帧内容的RGB颜色直方图作为相应视频帧的特征向量，基于视频帧的特征向量计算相邻两幅视频帧之间的欧几里得距离，得到相似度度量。将相邻两帧之间的相似度与设定阈值进行比较，如果相邻两帧之间的相似度大于设定阈值则将这两帧归入相同的镜头分组，否则将这两帧归入不同的镜头分组。再通过计算镜头之间的相关系数，将相关性强的镜头合并，就完成了对视频的场景分割。一般地，基于有标注场景图像集离线训练深度卷积神经网络构建场景分类器。将场景分段输入场景分类器，进行识别，记录识别出来的结果，得到场景分割序列:S＝{s₁,s₂,s₃,…,s_n}，如图3所示。

步骤102，将视频内容按照声音信息进行分割，得到声音分割序列，为声音分割序列中的每个分段记录对应的声音信息，将声音信息加入标注信息。

本步骤中的处理在声音分割子模块中完成。具体按照声音信息进行分割的处理可以包括：将视频内容的音频数据进行分割，分割点为声音出现、切换和消失的点，得到声音分割序列，对声音分割序列中的每个分段进行声音识别，并记录相应的声音类别，作为各分段的声音信息。

更详细地，检测视频的音频数据，当有声音出现时，包括人物声、自然声、环境声、音乐声响起时，起始的地方作为分割点；声音消失或者声音切换时，将声音消失的地方作为分割点。一般地，基于有标注声音集离线训练深度卷积神经网络构建声音分类器。将声音分段输入声音分类器，进行识别，记录识别出来的结果，得到声音分割序列：V＝{v₁,v₂,v₃,…,v_n}，如图3所示。其中，声音分类器的识别结果可以是无声、人物声等。

步骤103，将视频内容按照热度进行分割，得到热度分割序列，为热度分割序列中的每个分段记录对应的热度信息，将热度信息加入标注信息。

本步骤中的处理在热度分割子模块中完成。具体按照声音信息进行分割的处理可以包括：将视频按照时间等分，计算每个时间段的热度统计值，将热度统计值的差小于第一设定阈值的相邻时间段合并，并将对应的热度统计值合并，得到热度分割序列，将热度分割序列中每个分段的热度统计值作为相应分段的热度信息。

更详细地，视频的播放数据和即时评价的数量，代表了这个视频里哪些是热门片段，哪些是冷门片段，因此，在计算热度统计值时，可以根据播放数据统计值和即时评价统计值进行。可以将视频按某时间T等间隔采样，分成n个时间段。统计出每个时间段的观看量和即时评价(例如弹幕)个数。对于观看量的统计，可以根据播放情况设置不同的数值，作为视频播放指数，如：用户正常播放时视频播放指数为1，用户跳过视频段时视频播放指数为0，用户倍速播放视频段时视频播放指数为1/倍率，其中倍率指用户倍速播放时的倍率，例如1.5、2等。将所有用户对于同一时间段的视频播放指数求和，从而统计出这个视频网站所有用户观看这个视频的情况，用播放序列P表达，P＝{p₁,p₂,p₃,…p_n}。同理也统计出T时间段内的即时评价(例如弹幕)数量，从而获得一个评价序列C＝{c₁,c₂,c₃,…,c_n}。优选地，统计后的数据p_i和c_i做归一化处理，使值落在[0,1]之间。利用归一化的播放序列和评价序列按公式计算h_i'＝(p_i+c_i)*N，再对h_i'四舍五入取整得到热度统计值h_i。其中，i为时间分段的索引，N为预设的正整数，用于控制热度统计值的取值范围。例如，N可以取5，热度h_i的取值范围是[0，1，2，…9,10]。将所有等分时间段的热度统计值汇总，获得热度准备序列PH＝{h₁,h₂,h₃,…h_n}，h_i代表第i个T时间内的热度信息。

对热度准备序列PH按照热度值分割，首先设定一个阈值，如果相邻两时间段的热度差值小于该设定阈值，则将这两时间段归入相同的分组，否则将这两时间段归入不同的分组。分组结束后，确定新分段的热度统计值，优选地，可以计算合并的每个组的热度统计值的平均值，作为新分段的热度统计值，或者也可以采用其他的数据汇总方法得到新分段的热度统计值。这样就获得热度分割序列为H＝{h₁,h₂,h₃,…,h_m}(假设长度为m)，如图4所示。

通过如上三个步骤实现了对视频按照内容的不同纬度进行分割。三个步骤可以以任意顺序执行，例如，可以并行执行，也可以顺序执行，本申请对此不作限定。

在执行完上述三个步骤后，继续执行以下各步骤。

步骤104，将对视频内容进行分割得到的各个分割序列中的所有分割点作为视频内容的分割点，对视频内容再次进行视频分割，得到视频分割序列和各个分段的标注信息。

本步骤的处理通过分割序列整合模块完成。其中，在对视频内容再次分割时，将前述步骤101～103得到的所有分割序列中的所有分割点作为再次分割的分割点，得到视频分割序列。按照各个分割序列中的标注信息，为视频分割序列中的每个分段记录对应的标注信息。

具体地，将前述3个序列的集合根据时间点进行排序，得到一个新的分割序列，称为视频分割序列F{f₁,f₂,f₃,…f_x}(假设长度为x)。f_i的标注信息包含三个维度的信息{场景信息，声音信息，热度信息}。

如图5所示，场景分割序列S{s₁,s₂,s₃,…}中的s_i包含第i个时间段描述和场景信息描述，如{00:15-3:00，演员A，海边，跑步}；声音分割序列V{v₁,v₂,v₃,…}中的v_i包含第i个时间段描述和声音信息描述，如{00:15-3:00,人物对话}；热度分割序列H{h₁,h₂,h₃,…}h_i包含第i个时间段描述和热度信息描述，如{1:15-3:00,8}。

根据上述各个分割序列和相应的标注信息，再次分割后得到的视频分割序列F以及标注信息为：{f1:时间段1，[场景一描述,声音一描述，热度一描述]；f2:时间段2，[场景一描述,声音二描述，热度一描述]；f3:时间段3，[场景二描述,声音二描述，热度二描述]；f4:时间段4，[场景二描述,声音三描述，热度二描述]；f5:时间段5，[场景三描述,声音三描述，热度二描述]；f6:时间段6，[场景三描述,声音三描述，热度三描述]；…}。

至此，本申请中的基本流程结束。通过前述步骤101～104的处理，主要从三个维度去分割视频：场景分割、声音分割、热度分割；然后再整合这三个维度的信息，得到一个视频分割序列。就可以依据该视频分割序列显示视频分段和对应的标注信息。最简单地，可以直接显示按照视频分割序列进行分割后的视频分段以及对应的标注信息。另外，由于场景分割、声音分割基于原始视频的数据，执行一次就可以获得场景分割序列和声音分割序列，而视频播放数据和即时评价数据是实时变化的，可以不断学习更新，所以热度分割子模块和分割序列整合模块优选地可以按某预定的时间间隔T'实时动态更新。比如T'＝5分钟，就5分钟学习一次。图6为对应步骤101～104处理的示意图。

为了给不同用户进行个性化的分段推荐和标注，在依据视频分割序列显示视频分段和对应标注信息时，还可以结合用户兴趣偏好进行视频分段和标注信息的显示。具体优选地，可以在上述步骤101～104所示的基本流程基础上，进一步包括如下步骤105～107的处理，结合用户的兴趣偏好，计算每个片段对于用户的价值，为不同的用户提供个性化的推荐。

步骤105，获取用于描述用户观看视频的兴趣特征的用户画像。

用户画像用来描述用户观看视频的兴趣特征，包括用户兴趣点集合和非兴趣点集合，兴趣点集合和非兴趣点集合中的各个元素对应于标注信息的各类标签。用户的行为，包括偏好设置、搜索记录和播放记录。其中偏好设置，搜索记录反映了用户的兴趣倾向，可以从中提取出关键信息加入到用户画像的兴趣点集合。比如当用户搜索某部电影，可以把电影的主演、电影标签等关键信息加入到兴趣点的场景集合里。用户在观看一个视频时，播放或者多次播放的部分，反映了他的兴趣点；而播放视频时跳过的片段，则反映了用户对此片段不感兴趣。通过获取这些视频片段的标注信息(包括场景信息、声音信息、热度信息)，不断更新用户的兴趣点集合和非兴趣点集合。也就是说，可以根据用户的播放记录选择用户播放和/或多次播放的视频分段，根据相应分段的标注信息，更新用户兴趣点集合；还可以根据用户的播放记录选择用户跳过的视频分段，根据相应分段的标注信息，更新非兴趣点集合。

进一步地，可以设置集合元素的权重来精确表达画像，每次当用户有视频设置、搜索、播放行为时，都会触发兴趣点集合和/或非兴趣点集合中元素的更新。具体元素权重的设置可以根据历史经验进行。下面给出一种示例性的元素权重设置方式：

1.根据元素更新的时间由近到远的顺序来决定集合里每个元素的权重。时间近的权重高，时间远的权重低。2.统计用户播放视频标注信息的累计次数来决定集合里每个元素的权重。某个元素出现的频率越高，权重越高；出现的频率越低，权重越低。也会动态地调整兴趣点集合和非兴趣点集合里面的元素和元素权重。

另外，每当用户有设置、搜索、播放行为时，都可以提炼出新的内容作为兴趣点集合和/或非兴趣点集合的待***元素A，假设给待***元素赋予初始权重w_new，那么待***集合里的元素权值都要相应地按比例减少，例如，假设集合里某元素原始权重为w,集合长度为N，那么调整后权重可以是w'＝w-w_new/N。对于待***元素，在待***集合里搜索，如果搜索到相同或者相似的元素，合并为一个，并将权值累加。如果没有搜索到，直接将元素A***待***集合。其中，初始权重的设置可以根据经验确定。优选地，考虑到对于视频设置/搜索行为直接代表用户的意图，因此对于来源于视频设置/搜索行为的待***元素，建议其权重w_new的取值较高，如0.3；对于来源于视频播放行为的待***元素，建议其权重w_new的取值较低，如0.1。

通过如上的方式可以得到用户画像，图7为获取用户画像的流程示意图。

步骤106，将步骤104得到的视频分割序列的所有分段的标注信息分别与用户画像进行匹配，计算各个分段对用户的推荐指数。

其中，视频分割序列中各分段的标注信息与用户画像中兴趣点集合的匹配度越高，相应分段对用户的推荐指数越高；各分段的标注信息与用户画像中非兴趣点集合的匹配度越高，相应分段对用户的推荐指数越低。

对于视频分割序列F{f₁,f₂,f₃,…f_x}(假设长度是x)，将每个分段f_i的标注信息(包括场景信息s_i、声音信息v_i、热度信息h_i)和用户画像做匹配分析，计算这个片段对用户的推荐指数。具体匹配分析时可以采用各种现有的匹配方法。下面给出一种示例性的方式计算推荐指数：

1.将场景信息s_i中每个元素s_ij和用户兴趣点集合中与场景相关的各个元素组成的集合{s1:w1,s2:w2…}做匹配分析，计算s_ij与各元素的匹配度(例如计算两个元素的相关性)，在所有匹配度中取最大值m，将其对应的兴趣点集合元素作为匹配项。将m和匹配项的权重w相乘，将乘积结果作为s_ij的兴趣指数，将场景信息s_i里每个元素的兴趣指数相加，获得场景兴趣指数w_s。其中，i表示视频分段的索引，j表示标注信息元素的索引，w1、w2等表示兴趣点集合中各元素的权重；

2.将声音信息v_i中的每个元素v_ij和用户兴趣点集合中与声音相关的各个元素组成的集合{v₁:w₁,v₂:w₂…}做匹配分析，计算v_ij与各元素的匹配度，在所有匹配度中取最大值m，将其对应的兴趣点集合元素作为匹配项。将m和匹配项的权重w相乘，将乘积结果作为v_ij的兴趣指数，将声音信息v_i每个元素的兴趣指数相加，获得声音兴趣指数w_v。

3.将热度信息h_i和用户兴趣点集合中与热度相关的各个元素组成的集合{h₁:w₁,h₂:w₂…}做匹配分析，如果h_i等于或者大于兴趣点集合中与热度相关的某元素X的值，则认为二者匹配，元素X为匹配项，将所有匹配项的元素权重进行累加，获得热度兴趣指数w_h。

4.用户兴趣指数为I＝w_s+w_v+w_h。

5.按照同样的方法，将每个分段f_i的场景信息s_i、声音信息v_i、热度信息h_i和用户的非兴趣点集合匹配分析，分别得到场景非兴趣指数nw_s、声音非兴趣指数nw_v和热度非兴趣指数nw_h，再利用nw_s、nw_v和nw_h获得用户非兴趣指数NI＝nw_s+nw_v+nw_h。

6.最终针对用户的推荐指数R＝(用户兴趣指数I-用户非兴趣指数NI)*w₁+大众兴趣指数*w₂。其中w₁代表个人的权重，一般取值0.8～0.9，w₂代表大众的权重，一般取值为0.1～0.2，大众兴趣指数即该视频分段的热度统计值。

补充说明：

1)场景和声音的标签匹配分析，是通过比较两个元素的相似度来完成，可以采用现有的技术，如借助已有知识库，上下文相关性，文本相似度等技术。匹配度的取值范围为[0,1]。

2)R是场景信息、声音信息、热度信息的权值之和，极端情况下，R的最大值是3，即R的取值区间是[0.3]，优选地，还可以对R进行归一化处理，使值落在[0,1]之间。

3)R的计算公式里，如果有某个参与计算的数值发生变化了，需要动态更新R值。如热度信息变化，R也需要动态调整。

4)R作为推荐指数，需要和用户的最终反馈结果结合起来，考虑纠错情况。在用户有播放或者跳过行为时，优选地，及时更新用户画像，重新计算R。

步骤107，在步骤104得到的视频分割序列的所有分段中，将用户推荐指数差低于第二设定阈值的相邻分段合并，并将对应的标注信息以及用户推荐指数进行合并，得到用户视频分割序列，据此显示视频内容的分段和各分段的标注信息及用户推荐指数。

本步骤中，对于视频分割序列F{f₁,f₂,f₃,…f_x}(假设长度是x)，计算出每段f_i的推荐指数后，根据推荐指数进行视频重组。具体地，如果相邻分段的推荐指数之差小于设定阈值，则将这两个分段归入相同的分组，否则将这两个分段归入不同的分组。假设重组后视频长度为n，针对每个视频段，合并场景信息和语音信息，重新计算推荐指数(如平均值)，从而获取n个视频段的场景信息、声音信息、推荐指数。将这些信息标注在视频的进度条上，以帮助用户决策收看或者跳过。

上述步骤105～107的处理在用户级视频分割和标注模块中实现，通过相应处理，视频分割序列根据用户画像计算推荐指数、视频重组后，获得用户级别的视频分割序列。所以这是一种因人而异、个性化的、智能的视频分割和标注方法。每个分段u_i上带着标注信息，包括场景信息、声音信息、热度信息和推荐指数，每个用户看到的分段和推荐指数是不同的，如图8所示。

至此，图1所示的方法流程结束。本申请基于深度学习、统计分析，智能地实现视频的场景分割以及声音分割和/或热度分割，从而得到一个多维的视频分割序列，包含了场景信息以及声音信息和/或热度信息。由于每个用户收看视频的偏好不同，视频分割序列还可以经过用户级视频分割及标注模块的处理，从而针对用户画像，重新组合产生用户级别的视频分割，每段视频包含场景描述、声音描述、推荐指数这些标注信息。本申请尤其针对一些长视频，如电视剧/电影/综艺节目/球赛等。

以上本申请的处理可以利用视频服务器和终端设备作为载体为用户提供服务，视频分割模块和分割序列整合模块需要深度学习，计算量大，且一个视频一次分割可以被多个终端使用，放在服务器端比较合适；用户级分割及标注模块，可以放在服务器端，也可以放在终端。和用户交互的部分放在终端。图9和图10是本申请方法的两种部署方案。其中，在图9的方案中本申请方法主要部署在服务器端，在图10的方案中本申请方法主要部署在服务器端和终端侧。下面通过一个具体的例子说明本申请的视频分段和标注方法。

例如有2个用户观看一个30分钟的视频。首先整合场景分割、声音分割、热度分割后的视频分割序列如下:

f1:{00:00-01:30,场景：演员A，演员B，海边，散步；声音：音乐声；热度：2}

f2:{01:30-05:30,场景：演员A，演员B，海边，散步；声音：人物对话声；热度：6}

f3:{05:30-10:30,场景：演员A，演员B，海边，争吵；声音：人物对话声；热度：9}

f4:{10:00-15:00,场景：汽车，追逐；声音：飙车的声音；热度：7}

f5:{15:00-18:00,场景：演员C，公园，奔跑；声音：环境声音，热度：6}

f6:{18:00-25:30,场景：演员A，演员B，树林，打斗，声音：对话，打斗，热度：9}

结合获取2个用户的画像，发现用户1对爱情片、家庭剧、有人物对节、高热度、特定演员的情节感兴趣，而不喜欢吵闹血腥、环境音、低热度的情节，是个典型的女性观众。用户2对战争片、球赛、打斗、飙车等情节感兴趣，但不喜欢特定演员、无人物对话的，低热度的情节，是个典型的男性观众。两个用户的用户画像示例如图11所示。经过推荐度计算和视频重组后，得到个性化分割及标注如图12所示，假设推荐阈值为0.5，那么会用醒目的方式推荐给用户，用户可以直接跳过不感兴趣的内容，播放推荐片段。

具体地，用户1的视频分段及标注信息包括：

u1:{00:00-01:30,场景：演员A，演员B，海边，散步；声音：音乐声；推荐指数：0.1}

u2:{01:30-10:30,场景：演员A，演员B，海边，散步，争吵；声音：人物对话；推荐指数：0.6}

u3:{10:00-18:00,场景：汽车，追逐，演员C，奔跑，声音：飙车声音，环境声音；推荐指数：0.2}

u4:{18:00-25:30,场景：演员A，演员B，树林，打斗，声音：对话，打斗，推荐指数：0.7}

用户2的视频分段及标注信息包括：

u1:{00:00-05:30,场景：演员A，演员B，海边，散步；声音：音乐,人物对话，推荐指数：0.1}

u2:{05:30-15:00,场景：演员A，演员B，海边，争吵，汽车，追逐，声音：人物对话声，飙车；推荐指数：0.6}

u3:{15:00-18:00,场景：演员C，公园，奔跑；声音：环境声音；推荐指数：0.2}

u4:{18:00-25:30,场景：演员A，演员B，树林，打斗，声音：人物对话声，推荐指数：0.6}

当用户1/用户2在收看视频时，进度条上显示以上分段信息，用户可以快进到每个分段，也可以根据推荐度选择智能播放。

由上述本申请的具体实现可见，本申请提出一种结合视频的帧数据、视频的声音数据、视频在服务器段的播放情况、观众的即时反馈信息来做视频分割的方法。同时，针对用户的设置、浏览、播放、搜索信息，获取用户的画像，包括兴趣点和非兴趣点，并对兴趣点和非兴趣点集合里的元素赋予权值，以便精确刻画。分割后的视频基于匹配用户的画像，计算每个场景对用户的推荐指数，根据推荐指数进行重组，获取针对用户画像的个性化视频分割及标注信息，标注信息包括场景信息、声音信息、推荐指数，显示在视频的进度条上。这种用户级的视频分割及标注方法，可以智能地帮助用户获取到感兴趣的内容，也可以根据推荐指数智能播放，节省收看时间，提升收看视频的体验。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种视频的分段和标注方法，其特征在于，包括：

根据所述视频分割序列和各个分段对应的标注信息，显示视频内容的分段以及各分段的标注信息；

其中，所述根据所述视频分割序列和各个分段对应的标注信息，显示视频内容的分段以及分段的标注信息包括：

在所述视频分割序列的所有分段中，将用户推荐指数差低于第二设定阈值的相邻分段合并，并将对应的标注信息以及用户推荐指数进行合并，得到用户视频分割序列，据此显示视频内容的分段和各分段的标注信息及用户推荐指数；

所述计算各个分段对用户的推荐指数包括：

2.根据权利要求1所述的方法，其特征在于，根据所述每个时间段的播放数据统计值和/或即时评价统计值计算所述每个时间段的热度统计值。

3.根据权利要求2所述的方法，其特征在于，对于所述每个时间段，确定每个用户对于该时间段的视频播放指数，将所有用户对于该时间段的视频播放指数求和，作为所述播放数据统计值；其中，所述视频播放指数用于表示相应时间段的视频是否被正常播放和/或是否被播放完毕。

4.根据权利要求2所述的方法，其特征在于，当任一时间段的视频被正常播放时，相应时间段的视频播放指数为1；和/或，

5.根据权利要求2所述的方法，其特征在于，对于所述每个时间段，确定该时间段内的即时评价总数，作为所述即时评价统计值。

6.根据权利要求2到5中任一所述的方法，其特征在于，根据所述每个时间段i的播放数据统计值和即时评价统计值计算所述每个时间段i的热度统计值h_i包括：

7.根据权利要求1或2所述的方法，其特征在于，所述将对应的热度统计值合并包括：对合并的相邻时间段计算热度统计值的平均值，将所述平均值作为合并后时间段的热度统计值。

8.根据权利要求1所述的方法，其特征在于，确定用户画像中兴趣点集合的方式包括：

9.根据权利要求1所述的方法，其特征在于，确定用户画像中非兴趣点集合的方式包括：

10.根据权利要求1所述的方法，其特征在于，在所述用户画像中，为所述兴趣点集合和所述非兴趣点集合中的各个元素设置对应的权重，并在用户进行视频设置、视频搜索和/或视频播放行为时，更新元素的权重；其中，元素更新的越晚，权重越高，元素更新的越早，权重越低；元素出现的频率越高，权重越高，元素出现的频率越低，权重越低。

11.根据权利要求10所述的方法，其特征在于，确定元素出现频率的方式为：根据用户播放视频中各分段的标注信息，统计相应元素出现的累计次数，根据所述累计次数确定相应元素的出现频率。

12.根据权利要求10所述的方法，其特征在于，所述更新元素的权重包括：当用户有视频设置、视频搜索和/或视频播放行为时，提取关键词作为所述兴趣点集合或非兴趣点集合的待***元素，并设置初始权重，根据该初始权重将相应兴趣点集合或非兴趣点集合里其他元素的权重按比例减少；在所述兴趣点集合或非兴趣点集合中搜索所述待***元素，若存在相同或相似元素，则将所述待***元素与相同或相似元素合并，将权重累加；若不存在相同或相似元素，则将所述待***元素***所述兴趣点集合或非兴趣点集合。

13.根据权利要求12所述的方法，其特征在于，来源于视频设置或视频搜索行为的所述待***元素的初始权重高于来源于视频播放行为的所述待***元素的初始权重。

14.根据权利要求1所述的方法，其特征在于，所述将元素s_ij分别与用户兴趣点集合中与场景相关的各个元素进行匹配分析包括：计算元素s_ij分别与用户兴趣点集合中与场景相关的各个元素的匹配度；

15.根据权利要求1所述的方法，其特征在于，所述将元素v_ij分别与用户兴趣点集合中与声音相关的各个元素进行匹配分析包括：计算元素s_ij分别与用户兴趣点集合中与场景相关的各个元素的匹配度；

所述计算任一分段的声音兴趣指数包括：对于所述每个元素v_ij，在计算得到的所有匹配度中选择最大值m对应的兴趣点集合元素作为匹配项，将所述m与所述匹配项的权重相乘作为元素v_ij的兴趣指数，将所述任一分段的声音信息中所有元素的兴趣指数相加，得到声音兴趣指数。

16.根据权利要求1所述的方法，其特征在于，所述将该热度信息与用户兴趣点集合中与热度相关的各个元素进行匹配分析包括：

17.根据权利要求1、14、15或16中任一所述的方法，其特征在于，所述计算相应分段对用户的推荐指数R包括：R'＝(用户兴趣指数-用户非兴趣指数)*用户权重+热度统计值*大众权重，对R'进行归一化处理得到R；其中，用户权重和大众权重是预先设置的自然数。

18.根据权利要求1、14、15或16中任一所述的方法，其特征在于，所述用户兴趣指数为场景兴趣指数、声音兴趣指数和/或热度兴趣指数的加权和；所述用户非兴趣指数为场景非兴趣指数、声音非兴趣指数和/或热度非兴趣指数的加权和。

19.根据权利要求1所述的方法，其特征在于，当所述标注信息包括热度信息时，该方法进一步包括：定时更新所述视频内容的热度分割序列和相应分段的热度信息；根据更新后的热度分割序列和各分段的热度信息更新视频分割序列和各分段的标注信息，再更新用户视频分割序列和各分段的标注信息和用户推荐指数。

20.根据权利要求1所述的方法，其特征在于，在将用户推荐指数差低于第二设定阈值的相邻分段合并后，将对应的用户推荐指数进行合并的方式包括：将合并的各分段的用户推荐指数求均值，作为合并后分段的用户推荐指数。

21.一种视频的分段和标注装置，其特征在于，所述装置包括：视频分割模块、分割序列整合模块、用户级视频分割及标注模块和显示模块；其中，所述视频分割模块包括声音分割子模块和/或热度分割子模块以及场景分割子模块；

用户级视频分割及标注模块，用于将分割序列整合模块得到的所述视频分割序列的所有分段的标注信息分别与用于描述用户观看视频的兴趣特征的用户画像进行匹配，计算各个分段对用户的推荐指数；其中，所述用户画像包括用户的兴趣点集合和非兴趣点集合，兴趣点集合和非兴趣点集合中的各个元素对应于标注信息的各类标签；视频分割序列中各分段的标注信息与用户画像的匹配度越高，相应分段对用户的推荐指数越高；还用于在所述视频分割序列的所有分段中，将用户推荐指数差低于第二设定阈值的相邻分段合并，并将对应的标注信息以及用户推荐指数进行合并，得到用户视频分割序列；其中，所述计算各个分段对用户的推荐指数包括：

对于每个分段，根据场景兴趣指数和声音兴趣指数和/或热度兴趣指数计算用户兴趣指数，根据场景非兴趣指数和声音非兴趣指数和/或热度非兴趣指数计算用户非兴趣指数，利用所述用户兴趣指数和所述用户非兴趣指数计算所述对用户的推荐指数；

所述显示模块，用于依据所述用户视频分割序列和各个分段对应的标注信息，显示视频内容的分段和各分段的标注信息及用户推荐指数。