CN114786039B

CN114786039B - 服务器及视频预览图的制作方法

Info

Publication number: CN114786039B
Application number: CN202210439224.7A
Authority: CN
Inventors: 李俊彦
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2024-03-26
Anticipated expiration: 2042-04-25
Also published as: CN114786039A

Abstract

本申请公开了一种服务器及视频预览图的制作方法，包括：根据视频文件获取原始图像帧，依次为原始图像帧标记索引值，并对其进行压缩，得到压缩图像帧；将压缩图像帧由多通道转化为单通道，得到标准图像帧；根据索引值的顺序计算标准图像帧的帧间相似度，得到时域上的相似图像帧集合；将相似图像帧集合进行跨时域的聚类处理，从聚类结果中提取关键帧；根据关键帧的索引值获取与其连续的若干原始图像帧，并将若干原始图像帧按照索引值顺序以预设时长进行压缩，得到第一视频预览图。本申请对视频文件中的图像帧通过在时域上的划分和聚类，能够快速有效提取出视频文件中的关键帧，进而生成视频预览图，大大提高视频预览图的制作效率。

Description

服务器及视频预览图的制作方法

技术领域

本申请涉及图像处理技术领域，尤其涉及一种服务器及视频预览图的制作方法。

背景技术

显示设备是一种可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体的电视产品。显示设备可通过服务器获取媒资，并于主页上进行展示。显示设备在展示媒资时，将各个媒资以不同推荐位进行展示。

服务器端存储有各种各样的时长较长的视频信息，如电影、电视剧、直播录制的视频等。为了使用户在不浏览全部视频信息的情况下快速获取视频内容，以方便知道自己是否对该视频感兴趣，通常可制作相应的视频预览图，其中，视频预览图可以为短视频或者动态图片的形式。当用户控制焦点移动至主页的推荐位上时，显示设备在推荐位上展示出视频预览图，以使用户不仅仅依靠视频的封面来了解视频。目前，视频预览图的制作过程通常采用人工剪辑的方式，即由运营人员人为的挑选视频的精彩片段然后转换为对应的短视频或动态图片进行展示。该方式需要耗费大量的人力物力，且处理效率较低。

发明内容

本申请提供了一种服务器及视频预览图的制作方法，以解决现有技术中视频预览图的制作效率较低的技术问题。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

第一方面，本申请实施例公开了一种服务器，所述服务器被配置为：

根据视频文件获取原始图像帧，依次为所述原始图像帧标记索引值，并将所述原始图像帧进行压缩，得到压缩图像帧；

将所述压缩图像帧由多通道转化为单通道，得到标准图像帧；

根据所述索引值的顺序计算所述标准图像帧的帧间相似度，得到时域上的相似图像帧集合；

将所述相似图像帧集合进行跨时域的聚类处理，从聚类结果中提取关键帧数据；

根据所述关键帧数据的索引值获取与所述关键帧数据的索引值连续的若干原始图像帧，并将若干原始图像帧按照索引值顺序以预设时长进行压缩，得到所述视频文件的第一视频预览图。

第二方面，本申请实施例公开了一种视频预览图的制作方法，其特征在于，所述视频预览图的制作方法包括：

与现有技术相比，本申请的有益效果为：

本申请提供了一种服务器及视频预览图的制作方法，服务器首先对视频文件进行处理，即将视频文件读取为连续的原始图像帧，并依次为每一原始图像帧添加索引值，且将原始图像帧进行压缩获得压缩图像帧。服务器进一步通过压缩图像帧获取标准图像帧，并基于标准图像帧继续后续处理过程。根据标准图像帧的帧间相似度，服务器按照索引值的顺序获得时域上的相似图像帧集合，并将相似图像帧集合进行跨时域的聚类处理。服务器从聚类结果中提取关键帧，根据关键帧的索引值，获取与该索引值相邻的若干连续原始图像帧，将若干连续原始图像帧按照索引值顺序排列，并根据提前预设的图像帧的展示时长进行压缩，得到该视频文件的第一视频预览图。本申请对视频文件中的图像帧通过在时域上的划分和聚类，能够快速有效提取出视频文件中的关键帧，基于提取到的关键帧生成该视频文件的视频预览图，大大提高视频文件的视频预览图的制作效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了根据一些实施例的显示设备200主页的显示效果示意图；

图3中示例性示出了根据一些实施例的视频预览图的制作方法的流程示意图；

图4中示例性示出了根据一些实施例的原始图像帧的索引值的标注示意图；

图5中示例性示出了根据一些实施例的相似图像帧集合中代表帧的平滑分布曲线。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

基于上述显示设备200，可于服务器400请求各种各样的时长较长的视频信息，显示设备200根据服务器400反馈的视频内容，在推荐位上展示出视频预览图，即展示出与视频内容相应的短视频或动态图，以使用户通过视频预览图，在不浏览全部视频信息的情况下快速获取视频内容。图2中示例性示出了根据一些实施例的显示设备200主页的显示效果示意图，如图2所示，在显示设备200主页内，各个频道内均设置有多个推荐位，在推荐位上相应的展示有视屏内容的动态图片，当然也可仅展示出该视频内容的封面。目前，视频预览图的制作过程通常采用人工剪辑的方式，即由运营人员人为的挑选视频的精彩片段然后转换为对应的短视频或动态图片。但是，人工挑选视频中精彩片段的方式需要耗费大量的人力物力，且导致视频预览图的制作过程效率较低。为了解决上述问题，本申请在一些实施例中提供了一种服务器。下面结合附图，来介绍本申请实施例提供的视频预览图的制作过程。

图3中示例性示出了根据一些实施例的视频预览图的制作方法的流程示意图。本申请在一些实施例中所提供的服务器被配置为执行图3中的视频预览图的制作过程。结合图3，该视频预览图的制作过程如下：

S301：根据视频文件获取原始图像帧，依次为所述原始图像帧标记索引值，并将所述原始图像帧进行压缩，得到压缩图像帧。

在一些实施例中，视频文件由连续的图像帧组成，若想为视频文件制作相应的短视频或动态图片，需要从中提取出代表性的图像帧，因此，在进行制作视频预览图之前，需要先通过视频文件提取到组成该视频文件的连续原始图像帧。在一些实施例中，服务器400可以将视频文件输入至视频读取工具中，获取连续原始图像帧。这里，获取到的原始图像帧指的是每一帧原始图像上每一像素点的RGB值。例如，将mp4格式的视频文件输入至cv2或imageio等工具中，读取出视频文件中相应的原始图像帧。

在一些实施例中，在获取到组成视频文件的连续原始图像帧之后，服务器400按照时域从小到大的顺序，依次为每一原始图像帧标记索引值，原始图像帧的索引值指的是原始图像帧所对应的坐标值/或表征各自位置的标记值，以便后续通过索引值可以快速查找到相应的原始图像帧，以及快速查看到当前原始图像帧在整个视频文件中的相对位置。图4中示例性示出了根据一些实施例的原始图像帧的索引值的标注示意图。结合图4，原始图像帧的索引值可以为基于0开始的正整数，如，在含有100张原始图像帧的视频文件中，对应的索引值的取值为[0-99]。

在一些实施例中，服务器400将获取的到原始图像帧进行压缩，得到压缩图像帧。例如，原始图像帧的分辨率为1024*768，将其压缩为分辨率为224*224的压缩图像帧。对原始图像帧及逆行压缩，可以大大减小后续计算量。另外，对于压缩图像帧，其所对应的索引值不变，即对压缩前后的图像帧赋予同一索引值。

在得到压缩图像帧之后，可以对视频文件在时域上的区域窗口划分。

S302：将所述压缩图像帧由多通道转化为单通道，得到标准图像帧。

在一些实施例中，服务器400采用改进的平均哈希算法获取标准图像帧的特征表示，将其进行多通道到单通道化处理。处理过程如下：

首先，服务器400将所述压缩图像帧中的多通道数据经由Sigmoid函数映射，即将压缩图像帧中的RGB值均变换至(0,1)之间，计算公式如下：

Sigmoid(x)＝1/(1+e^-x/64)

式中，x为每一像素点的任意通道(R、G或B通道)上的值。

然后，服务器400通过转换为(0,1)之间的RGB值获取所述压缩图像帧中均值化的像素点数据，计算公式如下：

pixel_{new_1}＝[Sigmoid(R)+Sigmoid(G)+Sigmoid(B)]/3

式中，pixel_{new_1}为压缩图像帧中均值化的像素点数据，Sigmoid(R)为压缩图像帧中像素点在R通道上的值转化后的值，Sigmoid(G)为压缩图像帧中像素点在G通道上的值转化后的值,Sigmoid(B)为压缩图像帧中像素点在B通道上的值转化后的值。

最后，服务器400根据所述压缩图像帧中均值化的像素点数据，将所述压缩图像帧中的像素点二值化，得到标准图像帧，计算公式如下：

式中，pixel_{new_2}为压缩图像帧中的像素点二值化后的值。也就是说，若压缩图像帧中均值化的像素点数据大于或等于第一预设值，则将其设置为1，若压缩图像帧中均值化的像素点数据小于第一预设值，则将其设置为0，此处，第一预设值可设置为0.5。

以上，通过上述计算可以将分辨率为224*224的压缩图像帧计算为一个新的224*224的标准图像帧(feature_{new_2})。例如，对于R、G、B＝[234,125,5]的一个像素点，经过计算后可获得pixel_{new_1}≈0.79，pixel_{new_2}＝1，依次计算即可获得压缩图像帧中每个像素点的pixel_{new_2}值。

S303：根据所述索引值的顺序计算所述标准图像帧的帧间相似度，得到时域上的相似图像帧集合。

在一些实施例中，由视频文件读取出的连续图像帧通过索引值标定了先后顺序，服务器400可根据所述索引值的顺序，计算所述标准图像帧中第一个图像帧和第二个图像帧的帧间相似度。

若第一个图像帧和第二个图像帧的帧间相似度大于或等于第二预设值，则认为两张图像帧较为相似，服务器400可将第二个图像帧划分至第一个图像帧的相似图像帧集合中，且继续计算所述第一个图像帧和第三个图像帧的帧间相似度。同理，若是第一个图像帧和第三个图像帧的帧间相似度大于或等于第二预设值，则同样将第三个图像帧划分至第一个图像帧的相似图像帧集合中，且继续计算第一个图像帧和后续图像帧(第四个图像帧)的帧间相似度。

若第一个图像帧和第二个图像帧的帧间相似度小于该第二预设值，则认为两张图像帧差别较大，服务器400可将两者隶属于不同的相似图像帧集合中，再计算所述第二个图像帧和所述第三个图像帧的帧间相似度。

此处，第二预设值的取值可以为0.8。以此类推，可以将标准图像帧划分为若干相似图像帧集合。

下面以第一个图像帧和第二个图像帧为例，介绍一下两张标准图像帧的帧间相似度的计算方法。

首先，服务器400根据第一个图像帧的像素矩阵和第二个图像帧的像素矩阵，获取两者矩阵位置值相等的位置数量。计算公式如下：

然后，服务器400根据第一个图像帧的像素矩阵和第二个图像帧的像素矩阵，获取两者矩阵位置值的并集位置数量。计算公式如下：

最后，在一些实施例中，由于标准图像帧中均为0或1的值，若两帧标准图像帧中0或1的分布较为相似，即可认定两者较为相似。服务器400获取所述矩阵位置值相等的位置数量与所述矩阵位置值的并集位置数量之间的比值，得到所述第一个图像帧和所述第二个图像帧的帧间相似度。计算公式如下：

举例来说，对于矩阵[[1,0],[0,1]]和[[1,1],[0,1]]，进一步求得sim＝0.6。

以上对视频文件中的连续图像帧实现了时域上的区域窗口划分，得到了若干相似图像帧集合。

S304：将所述相似图像帧集合进行跨时域的聚类处理，从聚类结果中提取关键帧。

在一些实施例中，服务器400对通过以上步骤获取到的若干相似图像帧集合进行跨时域的聚类处理，实现对图像帧的聚类。在聚类之前，为了自动发现最优的簇心数量，服务器400可利用核密度估计评估聚类的簇心数量。

在一些实施例中，在若干相似图像帧集合中，服务器400可获取每一所述相似图像帧集合中的首帧图像帧作为该相似图像帧集合的代表帧，并将每一代表帧中像素值求和，得到多维度的一维数组。对于一个1000维度的一维数组，即可视为由1000个相似图像帧集合的代表帧组成的一维数组。

在一些实施例中，服务器400采用核密度估计的方式来评估一维数据的簇心数量，此处获得的该簇心数量可用于后续聚类使用的簇心数量。这里，服务器400采用sklearn中的KernelDensity方法来进行计算，由此可以根据所述多维度的一维数组，获得密度平滑曲线。

在一些实施例中，对于密度平滑曲线中变化比较缓慢的地方，可视为图像帧聚集的地方，因此，可通过极大值极小值的数量获得簇心数量。考虑到曲线最后逐渐趋近于0的地方，为比较离群的数据，通常无法实现聚合，可为其另辟一个簇心。因此，根据所得密度平滑曲线，服务器400可获取局部区间的极大值和极小值的数量，并将所得数量加一作为最终的簇心数量。图5中示例性示出了根据一些实施例的相似图像帧集合中代表帧的平滑分布曲线，如图5所示，对于一个1000维度的一维数组来说，该平滑曲线中0-2之间存在一个极大值，2-4之间存在一个极小值，4-6之间存在一个极大值，故局部区间的极大值和极小值的数量总共为3个，该数量加1即为簇心数量。

在一些实施例中，在获取簇心数量后，服务器400利用Kmeans对所述相似图像帧集合进行类聚，并在每个聚类中通过欧式距离获得距离簇心最近至少一帧图像作为关键帧。此处，关键帧的数量可以配置为2，由此可以获得簇心数量*2的关键帧数量。需要说明的是，关键帧的数量可以根据需要进行配置，配置数量会影响最终的视频预览图时长。

S305：根据所述关键帧的索引值获取与所述关键帧的索引值连续的若干原始图像帧，并将若干原始图像帧按照索引值顺序以预设时长进行压缩，得到所述视频文件的第一视频预览图。

在一些实施例中，服务器400在获取到关键帧之后，可以进一步检测到关键帧所对应的索引值。服务器400可以根据索引值获得相应的原始图像帧。为了保证能够表达出关键帧所要表达的信息，服务器400可以根据索引值获得相应的原始图像帧之后，并根据该索引值获取前后连续的若干原始图像帧。例如，获取到的关键帧的索引值为56，服务器400可以提取索引值56-66所对应的原始图像帧。

在一些实施例中，服务器400将根据关键帧提取到的原始图像帧以预设时长进行压缩，例如，以每帧原始图像所持续的时长为25ms进行压缩，由此可以把一个长视频文件压缩为一个时长很短且能包含视频有效图像的动态预览图。例如，对于时长为11分30秒的视频文件，处理完成后获得75帧图像，压缩处理为25帧每秒，获得一个3秒的GIF动态图片文件。

在一些实施例中，由于压缩图像帧存在与原始图像帧相同的索引值，因此，若是想要获得占用空间小的视频预览图，服务器400可以根据关键帧的索引值获取与关键帧的索引值连续的若干压缩图像帧，并将若干压缩图像帧按照索引值顺序以预设时长进行压缩，得到所述视频文件的第二视频预览图，其中，所述第二视频预览图所占内存小于所述第一视频预览图所占内存。

本申请对视频文件中的图像帧通过在时域上的划分和聚类，能够快速有效提取出视频文件中的关键帧，基于提取到的关键帧生成该视频文件的视频预览图，大大提高视频文件的视频预览图的制作效率。

基于与上述服务器同样的发明构思，本申请实施例还提供了一种视频预览图的制作方法，所述视频预览图的制作方法包括：服务器400根据视频文件获取原始图像帧，依次为所述原始图像帧标记索引值，并将所述原始图像帧进行压缩，得到压缩图像帧。服务器400将所述压缩图像帧由多通道转化为单通道，得到标准图像帧。服务器400根据所述索引值的顺序计算所述标准图像帧的帧间相似度，得到时域上的相似图像帧集合。服务器400将所述相似图像帧集合进行跨时域的聚类处理，从聚类结果中提取关键帧数据。服务器400根据所述关键帧数据的索引值获取与所述关键帧数据的索引值连续的若干原始图像帧，并将若干原始图像帧按照索引值顺序以预设时长进行压缩，得到所述视频文件的第一视频预览图。

在一些实施例中，在所述从聚类结果中提取关键帧数据之后，所述视频预览图的制作方法还包括：服务器400根据所述关键帧数据的索引值获取与所述关键帧数据的索引值连续的若干压缩图像帧，并将若干压缩图像帧按照索引值顺序以预设时长进行压缩，得到所述视频文件的第二视频预览图，其中，所述第二视频预览图所占内存小于所述第一视频预览图所占内存。

由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。

以上的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种服务器，其特征在于，所述服务器被配置为：

将所述压缩图像帧中的多通道数据经由Sigmoid函数映射后求取均值，得到所述压缩图像帧中均值化的像素点数据；其中，所述Sigmoid函数的计算公式如下：

Sigmoid(x)＝1/(1+e^-x/64)

式中，x为每一像素点的R通道、G通道或B通道上的值；

服务器通过转换为(0,1)之间的RGB值获取所述压缩图像帧中均值化的像素点数据，计算公式如下：

pixel_{new_1}＝[Sigmoid(R)+Sigmoid(G)+Sigmoid(B)]/3

式中，pixel_{new_1}为压缩图像帧中均值化的像素点数据，Sigmoid(R)为压缩图像帧中像素点在R通道上的值转化后的值，Sigmoid(G)为压缩图像帧中像素点在G通道上的值转化后的值,Sigmoid(B)为压缩图像帧中像素点在B通道上的值转化后的值；

根据所述压缩图像帧中均值化的像素点数据，将所述压缩图像帧中的像素点二值化，得到标准图像帧；

将所述相似图像帧集合进行跨时域的聚类处理，从聚类结果中提取关键帧；

根据所述关键帧的索引值获取与所述关键帧的索引值连续的若干原始图像帧，并将若干原始图像帧按照索引值顺序以预设时长进行压缩，得到所述视频文件的第一视频预览图；

或者，根据所述关键帧的索引值获取与所述关键帧的索引值连续的若干压缩图像帧，并将若干压缩图像帧按照索引值顺序以预设时长进行压缩，得到所述视频文件的第二视频预览图，其中，所述第二视频预览图所占内存小于所述第一视频预览图所占内存。

2.根据权利要求1所述的服务器，其特征在于，在所述根据所述压缩图像帧中均值化的像素点数据，将所述压缩图像帧中的像素点二值化的步骤中，所述服务器被配置为：

若所述像素点数据大于或等于第一预设值，则将所述像素点数据设置为1；

若所述像素点数据小于第一预设值，则将所述像素点数据设置为0。

3.根据权利要求1所述的服务器，其特征在于，在根据所述索引值的顺序计算所述标准图像帧的帧间相似度，得到时域上的相似图像帧集合的步骤中，所述服务器被配置为：

根据所述索引值的顺序，计算所述标准图像帧中第一个图像帧和第二个图像帧的帧间相似度；

若所述帧间相似度大于或等于第二预设值，则将所述第二个图像帧划分至所述第一个图像帧的相似图像帧集合中，且继续计算所述第一个图像帧和第三个图像帧的帧间相似度；

若所述帧间相似度小于所述第二预设值，则计算所述第二个图像帧和所述第三个图像帧的帧间相似度。

4.根据权利要求3所述的服务器，其特征在于，在所述计算所述标准图像帧中第一个图像帧和第二个图像帧的帧间相似度的步骤中，所述服务器被配置为：

根据所述第一个图像帧的像素矩阵和所述第二个图像帧的像素矩阵，获取矩阵位置值相等的位置数量，以及矩阵位置值的并集位置数量；

获取所述矩阵位置值相等的位置数量与所述矩阵位置值的并集位置数量之间的比值，得到所述第一个图像帧和所述第二个图像帧的帧间相似度。

5.根据权利要求1所述的服务器，其特征在于，在所述将所述相似图像帧集合进行跨时域的聚类处理，从聚类结果中提取关键帧的步骤中，所述服务器被配置为：

获取每一所述相似图像帧集合中的代表帧，将所述代表帧中像素值求和，得到多维度的一维数组；

根据所述多维度的一维数组，利用核密度估计评估聚类的簇心数量；

根据所述簇心数量，利用Kmeans对所述相似图像帧集合进行类聚，并在每个聚类中通过欧式距离获得距离簇心最近至少一帧图像作为所述关键帧。

6.根据权利要求5所述的服务器，其特征在于，在所述根据所述多维度的一维数组，利用核密度估计评估聚类的簇心数量的步骤中，所述服务器被配置为：

根据所述多维度的一维数组，利用核密度估计获得密度平滑曲线；

根据所述密度平滑曲线获取局部区间的极大值和极小值的数量，并将所得数量加一作为所述簇心数量。

7.一种视频预览图的制作方法，其特征在于，所述视频预览图的制作方法包括：

Sigmoid(x)＝1/(1+e^-x/64)

式中，x为每一像素点的R通道、G通道或B通道上的值；

pixel_{new_1}＝[Sigmoid(R)+Sigmoid(G)+Sigmoid(B)]/3

根据所述关键帧数据的索引值获取与所述关键帧数据的索引值连续的若干原始图像帧，并将若干原始图像帧按照索引值顺序以预设时长进行压缩，得到所述视频文件的第一视频预览图；

8.根据权利要求7所述的视频预览图的制作方法，其特征在于，在所述从聚类结果中提取关键帧数据之后，所述视频预览图的制作方法还包括：

根据所述关键帧数据的索引值获取与所述关键帧数据的索引值连续的若干压缩图像帧，并将若干压缩图像帧按照索引值顺序以预设时长进行压缩，得到所述视频文件的第二视频预览图，其中，所述第二视频预览图所占内存小于所述第一视频预览图所占内存。