CN108307230B

CN108307230B - 一种视频精彩片段的提取方法及装置

Info

Publication number: CN108307230B
Application number: CN201810121633.6A
Authority: CN
Inventors: 马龙飞; 张晓明; 张迪; 赵冲翔
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2021-01-22
Anticipated expiration: 2038-02-07
Also published as: CN108307230A

Abstract

本申请公开了一种视频精彩片段的提取方法及装置，获取目标视频中每个预设时间段的弹幕数量，并根据所述目标视频中每个预设时间段的弹幕数量，自适应确定弹幕数量阈值，避免了阈值选取的主观性；将所述目标视频中弹幕数量大于所述弹幕数量阈值的预设时间段确定为精彩时间段；对所有所述精彩时间段进行聚类，得到多个聚类簇，以及每个所述聚类簇的开始时刻和结束时刻；根据每个所述聚类簇的开始时刻和结束时刻，对所述目标视频进行提取，得到目标精彩片段。通过对精彩时间段进行聚类避免了精彩时间点的离散化和碎片化，保证了目标精彩片段有一定的时间长度且保证了目标精彩片段的精彩度。

Description

一种视频精彩片段的提取方法及装置

技术领域

本发明涉及视频剪辑技术领域，更具体的，涉及一种视频精彩片段的提取方法及装置。

背景技术

视频观看成为中国网民娱乐生活中越来越重要的部分，网络视频日益成为人们观看视频的最重要方式。网络视频资源众多，不仅有电影、电视、综艺节目观等多媒体资源，还有微电影、自拍视频等资源。

用户观看视频一般是由别人推荐或通过网页视频受欢迎排行榜、点击量等挑选视频进行播放，但是视频中常常有部分内容比较吸引用户，也会存在有些部分比较无趣、用户不太感兴趣的部分，对于这些无趣的部分用户观看完毕后才会发觉不感兴趣，这既影响了用户的观看体验，造成了时间的浪费，又浪费了流量资源。因此好多视频播放平台一般将视频剪辑出精彩片段，提供给尚未观看的用户，以提升用户的观看体验且避免不必要的时间、流量资源浪费。

弹幕评论数据是用户在视频观看过程中对不同时间点的及时反馈，是用户及时对视频每个时间点是否精彩的“标签”，通过弹幕评论数据剪辑视频精彩片段是公认的一种有效的视频剪辑方法。通过找出弹幕频次高且分布密集的时间段，即可剪辑出效果很好的精彩片段。现有方法是只简单找出视频每秒弹幕数量超过阈值的所有连续时间点，或找出每秒弹幕平均数量超过阈值的时间段作为精彩片段。

但是，只找出弹幕数量超过阈值的时间点，容易出现时间点离散、不连续的问题，这样取出的时间段很短，其中时间跨度长的片段很少或者没有，效果不好。只找出每秒弹幕平均数量超过阈值的时间段作为精彩片段的问题是，可能时间区间中某一个时间点的弹幕数量非常多，其余时间点弹幕量很少，这样也可能整个区间的平均弹幕数量超过了阈值，但整个区间弹幕量最多的时间点与弹幕量最低的时间点之间时间相差很大，这样取出的连续区间精彩度要打折扣。

发明内容

有鉴于此，本发明提供了一种视频精彩片段的提取方法及装置，通过聚类获取弹幕频次高的时间段组成的时间区间，既不要求时间区间中所有时间段的弹幕数量均高于阈值，也可避免时间区间中某些时间段弹幕数量多、其余时间段弹幕数量极少且总体弹幕数量均值高导致的精彩片段提取的不准确问题。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种视频精彩片段的提取方法，包括：

获取目标视频中每个预设时间段的弹幕数量，并根据所述目标视频中每个预设时间段的弹幕数量，确定弹幕数量阈值；

将所述目标视频中弹幕数量大于所述弹幕数量阈值的预设时间段确定为精彩时间段；

对所有所述精彩时间段进行聚类，得到多个聚类簇，以及每个所述聚类簇的开始时刻和结束时刻；

根据每个所述聚类簇的开始时刻和结束时刻，对所述目标视频进行提取得到目标精彩片段。

优选的，所述根据所述目标视频中每个预设时间段的弹幕数量，确定弹幕数量阈值，包括：

对弹幕数量大于0的预设时间段按弹幕数量从大到小的顺序进行排序，为排序后的每个预设时间段添加一个序号值；

计算弹幕数量大于0的预设时间段的总数与比例阈值的比值，并对所述比值进行向下取整，得到整数值，所述比例阈值为对目标视频的时长与目标精彩片段的预设时长的比值进行向下取整所得到的值；

将序号值为所述整数值的预设时间段的弹幕数量值确定为弹幕数量阈值。

优选的，所述对所有所述精彩时间段进行聚类，得到多个聚类簇，以及每个所述聚类簇的开始时刻和结束时刻，包括：

根据密度聚类算法，以聚类簇的预设核心半径值和聚类簇的预设密度阈值为参数，对每个所述精彩时间段进行聚类，得到多个聚类簇；

对于每一个聚类簇，将聚类簇中每个预设时间段的开始时刻中的最早开始时刻确定为所述聚类簇的开始时刻，并将所述聚类簇中每个预设时间段的结束时刻中的最晚结束时刻确定为所述聚类簇的结束时刻。

优选的，所述根据每个所述聚类簇的开始时刻和结束时刻，对所述目标视频进行提取，得到目标精彩片段，包括：

对所述多个聚类簇按开始时刻从早到晚或从晚到早的顺序进行排序，并根据每个所述聚类簇的开始时刻和结束时刻计算相邻两个所述聚类簇之间的时间间隔值；

对时间间隔值小于预设值的两个聚类簇进行合并，得到至少一个时间段集合，以及所述时间段集合的开始时刻和结束时刻；

根据所述时间段集合的开始时刻和结束时刻，对所述目标视频进行提取，得到以所述时间段集合的开始时刻为开始时刻且以所述时间段集合的结束时刻为结束时刻的目标精彩片段。

优选的，在所述根据所述时间段集合的开始时刻和结束时刻，对所述目标视频进行提取之前，所述方法还包括：

对于每一个所述时间段集合，计算所述时间段集合的结束时刻与开始时刻的差值；

当所述时间段集合的结束时刻与开始时刻的差值小于第三预设值时，删除所述时间段集合。

一种视频精彩片段的提取装置，包括：

第一确定单元，用于获取目标视频中每个预设时间段的弹幕数量，并根据所述目标视频中每个预设时间段的弹幕数量，确定弹幕数量阈值；

第二确定单元，用于将所述目标视频中弹幕数量大于所述弹幕数量阈值的预设时间段确定为精彩时间段；

聚类单元，用于对所有所述精彩时间段进行聚类，得到多个聚类簇，以及每个所述聚类簇的开始时刻和结束时刻；

提取单元，用于根据每个所述聚类簇的开始时刻和结束时刻，对所述目标视频进行提取，得到目标精彩片段。

优选的，所述第一确定单元包括：

排序子单元，用于对弹幕数量大于0的预设时间段按弹幕数量从大到小的顺序进行排序，为排序后的每个预设时间段添加一个序号值；

第一计算子单元，用于计算弹幕数量大于0的预设时间段的总数与比例阈值的比值，并对所述比值进行向下取整，得到整数值，所述比例阈值为对目标视频的时长与目标精彩片段的预设时长的比值进行向下取整所得到的值；

第一确定子单元，用于将序号值为所述整数值的预设时间段的弹幕数量值确定为弹幕数量阈值。

优选的，所述聚类单元包括：

聚类子单元，用于根据密度聚类算法，以聚类簇的预设核心半径值和聚类簇的预设密度阈值为参数，对每个所述精彩时间段进行聚类，得到多个聚类簇；

第二确定子单元，用于对于每一个聚类簇，将聚类簇中每个预设时间段的开始时刻中的最早开始时刻确定为所述聚类簇的开始时刻，并将所述聚类簇中每个预设时间段的结束时刻中的最晚结束时刻确定为所述聚类簇的结束时刻。

优选的，所述提取单元包括：

第二计算子单元，用于对所述多个聚类簇按开始时刻从早到晚或从晚到早的顺序进行排序，并根据每个所述聚类簇的开始时刻和结束时刻计算相邻两个所述聚类簇之间的时间间隔值；

合并子单元，用于对时间间隔值小于预设值的两个聚类簇进行合并，得到至少一个时间段集合，以及所述时间段集合的开始时刻和结束时刻；

提取子单元，用于根据所述时间段集合的开始时间和结束时间，对所述目标视频进行提取，得到以所述时间段集合的开始时刻为开始时刻且以所述时间段集合的结束时刻为结束时刻的目标精彩片段。

优选的，所述提取单元还包括：

删除子单元，用于对于每一个所述时间段集合，计算所述时间段集合的结束时刻与开始时刻的差值；当所述时间段集合的结束时刻与开始时刻的差值小于第三预设值时，删除所述时间段集合。

预设时长预设时长相对于现有技术，本发明的有益效果如下：

本发明提供的一种视频精彩片段的提取方法及装置，获取目标视频中每个预设时间段的弹幕数量，并根据所述目标视频中每个预设时间段的弹幕数量，自适应确定最合理的弹幕数量阈值，避免了阈值选取的主观性。将所述目标视频中弹幕数量大于所述弹幕数量阈值的预设时间段确定为精彩时间段；对所有所述精彩时间段进行聚类，得到多个聚类簇，以及每个所述聚类簇的开始时刻和结束时刻；根据每个所述聚类簇的开始时刻和结束时刻，对所述目标视频进行提取，得到目标精彩片段。通过对精彩时间段进行聚类避免了精彩时间点的离散化和碎片化，保证聚类出的目标精彩片段具有一定的时间长度且保证目标精彩片段的精彩度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本实施例公开的一种视频精彩片段的提取方法流程图；

图2为本实施例公开的精彩时间段分布图；

图3为本实施例公开的将离散的精彩时间段聚出的簇的示意图；

图4为本实施例公开的小簇聚成大簇的示意图；

图5为本实施例公开的将时间间隔小于预设值的两个簇合并成时间段集合示意图；

图6为本实施例公开的一种视频精彩片段的提取装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本实施例公开了一种视频精彩片段的提取方法，具体包括以下步骤：

S101：获取目标视频中每个预设时间段的弹幕数量，并根据所述目标视频中每个预设时间段的弹幕数量，确定弹幕数量阈值；

其中，所述目标视频为需要对其进行剪辑从而提取精彩片段的视频。将目标视频分为多个预设时间段，例如，可以将一段时长为30分钟的目标视频分为1800个预设时间段，每个预设时间段的时长为1秒。当然，本发明并不以此为限。

获取目标视频中每个预设时间段的弹幕数量具体为：

从数据源接入目标视频的弹幕数据，将弹幕数据存入Hadoop分布式文件***中，并使用MapReduce解析所述弹幕数据，统计所述目标视频中每个预设时间段的弹幕数量。

每个预设时间段的弹幕数量为相应时间段中出现弹幕的数量，对于任意一个预设时间段可能出现弹幕也可能不出现弹幕，因此，每个预设时间段的弹幕数量为不小于0的整数，每个预设时间段的弹幕数量不同。

所述根据所述目标视频中每个预设时间段的弹幕数量，确定弹幕数量阈值，具体为：

计算弹幕数量大于0的预设时间段的总数与比例阈值的比值，并对所述比值进行向下取整，得到整数值，所述比例阈值为对目标精彩片段的预设时长与所述目标视频的时长的比值进行向下取整所得到的值；

所述目标精彩片段的预设时长为目标视频需要剪辑出的精彩片段的预设时长，例如，***设定目标精彩片段的预设时长为10分钟。需要说明的是，所述目标精彩片段的预设时长与最后得到的目标精彩片段的时长可能不同。

可以理解的是，本实施例根据目标精彩片段的预设时长自适应确定弹幕数量阈值。

首先，需要先将目标精彩片段的预设时长与所述目标视频的时长的比值的向下取整值，确定为比例阈值。如：目标视频的时长为60分钟，需要提取出的目标精彩片段的预设时长为20分钟，则比例阈值为3；目标视频的时长为60分钟，需要提取出的目标精彩片段的预设时长为15分钟，则比例阈值为4。

然后，按弹幕数量从大到小对弹幕数量大于0的预设时间段进行排序，得到每个弹幕数量大于0的预设时间段的序号值，对弹幕数量大于0的预设时间段的总数与比例阈值的比值进行向下取整，得到整数值，将序号值为所述整数值的时间点的弹幕数量值确定为弹幕数量阈值。以目标视频的时长为70分钟，需要提取出的目标精彩片段的预设时长为20分钟，计算得到目标视频的时长与目标精彩片段的预设时长的比值3.5,3.5向下取整得到整数值3，则比例阈值为3。以目标视频包括10个弹幕数量大于0的预设时间段为例，10个预设时间段的弹幕数量分别为1、3、5、7、9、2、4、6、8、10，按弹幕数量从大到小对这10个预设时间段进行排序，分别为10、9、8、7、6、5、4、3、2、1，此时，对弹幕数量大于0的时间点的总数10与比例阈值3的比值进行向下取整得到整数值3，而序号为3的时间点的弹幕数量为8，将8确定为弹幕数量阈值。

S102：将所述目标视频中弹幕数量大于所述弹幕数量阈值的预设时间段确定为精彩时间段；

S103：对多个所述精彩时间段进行聚类，得到多个聚类簇，以及每个所述聚类簇的开始时刻和结束时刻；

具体为，根据密度聚类算法，以聚类簇的预设核心半径值和聚类簇的预设密度阈值为参数，对每个所述精彩时间段进行聚类，得到多个聚类簇；

需要说明的是，聚类簇的预设核心半径值表示聚类簇的大小，聚类簇的预设密度阈值表示聚类簇中预设时间段的密度。可以根据目标视频的特点预先设定核心半径值和密度阈值，例如，目标视频可以为不同类型的视频，电视剧、电影、综艺等，根据不同目标视频的类型特点设定聚类簇的预设核心半径值和聚类簇的预设密度阈值。

优选的，聚类簇的预设核心半径值为3，聚类簇的预设密度阈值为50％。

密度聚类算法的聚类原理为：对一个预设时间段的聚类簇的预设核心半径内，若含有预设时间段的密度达到密度阈值则该预设时间段为核心点，聚类簇的预设核心半径内的预设时间段为密度直达对象，将所有密度直达对象加入集合，对这些密度直达对象的预设时间段用同样的方法找出其中的核心点，再将这些新的核心点对应的密度直达对象加入集合，以此迭代下去，直到所有核心点的密度直达对象都访问完毕，聚类结束。

S104：根据每个所述聚类簇的开始时刻和结束时刻，对所述目标视频进行提取，得到目标精彩片段。

具体的，对所述多个聚类簇按开始时刻从早到晚或从晚到早的顺序进行排序，并根据每个所述聚类簇的开始时刻和结束时刻计算相邻两个所述聚类簇之间的时间间隔值；

可以理解的是，精彩片段的时长不能太短，如果太短用户观看体验差。因此本实施例对时间间隔值小于预设值的两个聚类簇进行合并，成为一个相对较大的时间段集合，该时间段集合对应的视频片段的长度较长，避免了精彩片段时长太短的问题。

因此，在所述根据所述时间段集合的开始时刻和结束时刻，对所述目标视频进行提取之前，所述方法还包括：

可以理解的是，如果一个时间段集合对应的视频片段的长度很短，就没有保留的必要。

还需要说明的是，最终得到的为至少一个聚类簇、至少一个时间段集合。如果最后得到多个聚类簇或多个时间段集合，根据业务需要，可以将多个聚类簇对应的视频片段或多个时间段集合对应的视频片段进行拼接得到目标精彩片段，也可以将每个聚类簇对应的视频片段或每个时间段集合对应的视频片段作为一个单独的目标精彩片段，也就是说，所述目标视频最后提取得到的也可能为多个目标精彩片段。

为了进一步对本实施例公开的一种视频精彩片段的提取方法的技术方案进行阐述，以下通过一个具体的场景实施例进行说明。

首先，获取目标视频中每个预设时间段的弹幕数量，并根据所述目标视频中每个预设时间段的弹幕数量，确定弹幕数量阈值，将所述目标视频中弹幕数量大于所述弹幕数量阈值的预设时间段确定为精彩时间段。将请参阅2，图2为精彩时间段分布图，图2中每个预设时间段对应一个弹幕数量，每个预设时间段对应的弹幕数量不同，水平线对应的值为弹幕数量阈值，图2中弹幕数量大于弹幕数量阈值的预设时间段为精彩时间段。

然后，设定预设聚类簇核心半径值和预设聚类簇密度阈值，基于密度聚类算法对多个所述精彩时间段进行聚类，得到多个聚类簇，以及每个所述聚类簇的开始时刻和结束时刻。请参阅图3，图3为精彩时间段聚出的簇的示意图，其中，聚出的簇之间为非精彩时间段，请参阅图4，在聚类过程中，根据聚类簇的预设核心半径值和聚类簇的预设密度阈值将小簇合并为大簇，可以发现当某段时间内精彩时间点很密集，则可以将密集精彩时间点之间的非精彩时间点并入簇中，最后聚类结束得到聚类簇，将聚类簇的整体的开始时刻和结束时刻作为精彩片段的开始时刻和结束时刻。

最后，为了避免精彩时间点的离散，按照开始时间对多个所述聚类簇进行排序，并计算相邻两个所述聚类簇之间的时间间隔值；对时间间隔值小于第二预设值的两个聚类簇进行合并，得到至少一个时间段集合，以及所述时间点集合的开始时刻和结束时刻。请参阅图5，将时间间隔小于预设值的两个聚类簇进行合并，减小精彩片段长度短的问题。

本实施例公开的一种视频精彩片段的提取方法，获取目标视频中每个预设时间段的弹幕数量，并根据所述目标视频中每个预设时间段的弹幕数量，自适应确定最合理的弹幕数量阈值，避免了阈值选取的主观性。将所述目标视频中弹幕数量大于所述弹幕数量阈值的预设时间段确定为精彩时间段；对所有所述精彩时间点进行聚类，得到多个聚类簇，以及每个所述聚类簇的开始时刻和结束时刻；根据每个所述聚类簇的开始时刻和结束时刻，对所述目标视频进行提取，得到目标精彩片段。通过对精彩时间段进行聚类避免了精彩时间段的离散化和碎片化，保证聚类出的目标精彩片段具有一定的时间长度且保证目标精彩片段的精彩度。

基于上述实施例公开的一种视频精彩片段的提取方法，请参阅图2，本实施例对应公开了一种视频精彩片段的提取装置，包括：

第一确定单元201，用于获取目标视频中每个预设时间段的弹幕数量，并根据所述目标视频中每个预设时间段的弹幕数量，确定弹幕数量阈值；

第二确定单元202，用于将所述目标视频中弹幕数量大于所述弹幕数量阈值的预设时间段确定为精彩时间段；

聚类单元203，用于对所有所述精彩时间段进行聚类，得到多个聚类簇，以及每个所述聚类簇的开始时刻和结束时刻；

提取单元204，用于根据每个所述聚类簇的开始时刻和结束时刻，对所述目标视频进行提取，得到目标精彩片段。

优选的，所述第一确定单元201包括：

排序子单元，用于对弹幕数量大于0的预设时间段按弹幕数量从大到小的顺序进行排序，根据排序为每个预设时间段添加一个序号值；

优选的，所述聚类单元203包括：

优选的，所述提取单元204包括：

优选的，所述提取单元204还包括：

预设时长本实施例公开的一种视频精彩片段的提取装置，获取目标视频中每个预设时间段的弹幕数量，并根据所述目标视频中每个预设时间段的弹幕数量，自适应确定最合理的弹幕数量阈值，避免了阈值选取的主观性。将所述目标视频中弹幕数量大于所述弹幕数量阈值的预设时间段确定为精彩时间段；对所有所述精彩时间段进行聚类，得到多个聚类簇，以及每个所述聚类簇的开始时刻和结束时刻；根据每个所述聚类簇的开始时刻和结束时刻，对所述目标视频进行提取，得到目标精彩片段。通过对精彩时间段进行聚类避免了精彩时间点的离散化和碎片化，保证聚类出的目标精彩片段具有一定的时间长度且保证目标精彩片段的精彩度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频精彩片段的提取方法，其特征在于，包括：

获取目标视频中每个预设时间段的弹幕数量，并根据所述目标视频中每个预设时间段的弹幕数量与比例阈值，确定弹幕数量阈值，所述比例阈值是根据目标视频的时长与目标精彩片段的预设时长设定的；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频中每个预设时间段的弹幕数量与比例阈值，确定弹幕数量阈值，包括：

计算弹幕数量大于0的预设时间段的总数与所述比例阈值的比值，并对所述比值进行向下取整，得到整数值，所述比例阈值为对目标视频的时长与目标精彩片段的预设时长的比值进行向下取整所得到的值；

3.根据权利要求1所述的方法，其特征在于，所述对所有所述精彩时间段进行聚类，得到多个聚类簇，以及每个所述聚类簇的开始时刻和结束时刻，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据每个所述聚类簇的开始时刻和结束时刻，对所述目标视频进行提取，得到目标精彩片段，包括：

5.根据权利要求4所述的方法，其特征在于，在所述根据所述时间段集合的开始时刻和结束时刻，对所述目标视频进行提取之前，所述方法还包括：

6.一种视频精彩片段的提取装置，其特征在于，包括：

第一确定单元，用于获取目标视频中每个预设时间段的弹幕数量，并根据所述目标视频中每个预设时间段的弹幕数量与比例阈值，确定弹幕数量阈值，所述比例阈值是根据目标视频的时长与目标精彩片段的预设时长设定的；

7.根据权利要求6所述的装置，其特征在于，所述第一确定单元包括：

第一计算子单元，用于计算弹幕数量大于0的预设时间段的总数与所述比例阈值的比值，并对所述比值进行向下取整，得到整数值，所述比例阈值为对目标视频的时长与目标精彩片段的预设时长的比值进行向下取整所得到的值；

8.根据权利要求6所述的装置，其特征在于，所述聚类单元包括：

9.根据权利要求6所述的装置，其特征在于，所述提取单元包括：

10.根据权利要求9所述的装置，其特征在于，所述提取单元还包括：