CN112911332A

CN112911332A - 用于从直播视频流剪辑视频的方法、装置、设备和存储介质

Info

Publication number: CN112911332A
Application number: CN202011591386.XA
Authority: CN
Inventors: 李晨曦; 庞磊; 王珊; ***
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-06-04
Anticipated expiration: 2040-12-29
Also published as: CN112911332B

Abstract

本公开公开一种用于从直播视频流剪辑视频的方法、装置、设备和存储介质，涉及人工智能领域。用于从直播视频流剪辑视频的方法包括：从视频流获取第一预定时间长度的多个视频片段；确定多个视频片段是否属于预定分类；以及响应于确定多个视频片段中的一个第一视频片段属于预定分类，从第一视频片段中提取第二预定时间长度的视频子片段，作为视频剪辑片段至少一部分，其中第二预定时间长度小于第一预定时间长度。本公开的方案实现了对于例如直播视频流的类别识别以及基于类别的自动视频剪辑。

Description

用于从直播视频流剪辑视频的方法、装置、设备和存储介质

技术领域

本公开主要涉及人工智能领域，并且更具体地，涉及用于从直播视频流剪辑视频的方法、装置、设备和存储介质。

背景技术

随着科技的发展，视频，特别是直播视频广泛地用于信息传播、产品销售和社交活动等。通常，直播视频是网络主播利用互联网及流媒体技术向网络用户直播，视频直播融合了图像、声音等元素，声形并茂。用户可以通过互联网在PC、手机等多种客户端观看视频直播。在直播视频中，网络主播与网络用户互动中可能出现精彩片段，例如才艺表演。通常期望从直播视频中提取出视频的精彩片段。

在传统的视频剪辑方法中，主播需要边直播边录制视频，主播直播完之后人工浏览直播回放录制的视频，寻找精彩才艺片段的起始时刻，用视频剪辑工具将精彩片段裁剪出来，这样的制作方式不仅制作耗费时间，而且生成效率低。期望能够改进直播视频的视频剪辑方法。

发明内容

根据本公开的示例实施例，提出了一种用于视频流剪辑视频的方法、装置、设备和存储介质，其能够改进或消除上述技术问题中的一个或多个。

在本公开的第一方面中，提供了一种用于从直播视频流频流剪辑视频的方法。方法包括：从视频流获取第一预定时间长度的多个视频片段；确定多个视频片段是否属于预定分类；以及响应于确定多个视频片段中的一个第一视频片段属于预定分类，从第一视频片段中提取第二预定时间长度的视频子片段，作为视频剪辑片段至少一部分，其中第二预定时间长度小于第一预定时间长度。

在本公开的第二方面中，提供了一种用于从直播视频流剪辑视频的装置。装置包括：视频片段获取模块，被配置为从视频流获取第一预定时间长度的多个视频片段；分类模块，被配置为确定多个视频片段是否属于预定分类；以及提取模块，被配置为：响应于确定多个视频片段中的一个第一视频片段属于预定分类，从第一视频片段中提取第二预定时间长度的视频子片段，作为视频剪辑片段至少一部分，其中第二预定时间长度小于第一预定时间长度。

在本公开的第三方面中，提供了一种电子设备。电子设备包括：一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现根据前述第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据前述第一方面的方法。

在本公开的第五方面中，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据前述第一方面的方法。

根据本公开实施例的用于从直播视频流剪辑视频的方法、装置、设备、和存储介质，能够实现了视频流的类别识别以及基于类别的自动视频剪辑。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的用于从直播视频流剪辑视频的方法的流程图；

图3示出了根据本公开的一些实施例的用于从视频片段提取视频子片段的方法的流程图；

图4示出了根据本公开的一些实施例的基于所提取的视频子片段调节视频剪辑位置的流程图；

图5示出了根据本公开的一些实施例的基于所提取的视频子片段调节视频剪辑位置的流程图；

图6示出了根据本公开的一些实施例的用于从直播视频流剪辑视频的装置的示意框图；

图7示出了根据本公开的一些实施例的用于从直播视频流剪辑视频的装置的提取模块的示意框图；

图8示出了根据本公开的一些实施例的用于从直播视频流剪辑视频的装置的清晰度确定模块的示意框图；以及

图9示出了能够实施本公开的多个实施例的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如前所述，随着移动互联网的高速发展，人们的消费模式逐渐转变，人们对精神文化的需求日益增加，直播成为当下一种流行的娱乐文化。随着视频直播的发展，视频直播为网络平台提供流量的主要入口之一。在视频直播期间，主播通常与网络用户进行各种互动，其中在互动过程中，网络主播通常会有精彩的才艺表演片段，作为非限制性示例，这些才艺表演可包括唱歌、跳舞、乐器演奏等；在其他实施例中，这些才艺表演还可包括脱口秀等。期望从这些直播视频流中剪辑出这些精彩片段。根据本公开实施例的用于剪辑视频的方法和装置能够实现直播视频流的视频类别识别以及基于识别类别的自动视频剪辑。尽管本公开的实施例以直播视频流作为示例说明了视频剪辑方法，应当理解的是，这仅仅是示例性的。根据本公开的视频剪辑方法也可以用于非直播的视频剪辑。

以下将参照附图来具体描述本公开的实施例。

图1示出了本公开的多个实施例能够在其中实现的示例环境100 的示意图。在该示例环境100中包括一个或多个网络主播端110、服务器端120以及一个或多个网络用户端130。网络主播端110是拥有接入互联网能力的智能设备，通常搭载各种操作***、视频设备、音频装置，适于采集网络主播的视频图像和音频。网络主播端110可安装适于进行视频直播的计算机程序、移动应用程序App等视频直播软件。网络主播可通过启动网络主播端110的视频直播软件进行网络直播。常见网络主播端110可包括移动智能终端、笔记本电脑、台式机电脑、平板、或者其他提供计算能力和数据采集和通信能力的设备。

服务器端120可包括服务器、大型服务机等网络节点、诸如虚拟机(VM)等云端计算设备、以及任何其他提供计算能力的设备。在云环境中，服务器端有时也被称为远程控制服务器、云端设备、云控平台。服务器端120可配置成针对所采集的直播视频进行处理以向用户进行直播。

网络用户端130是拥有接入互联网能力的智能设备，适于接收网络主播的视频图像和音频，网络用户端130可包括移动智能终端、笔记本电脑、台式机电脑、平板、智能电视、或者其他提供计算能力和数据通信能力的设备。在一些实施例中，网络用户端130可安装有计算机程序、移动应用程序App等视频直播软件。网络用户可通过启动网络用户端130进行直播视频的观看。在一些实施例中，网络用户端 130可包括各种输入/输出设备，例如键盘、鼠标、点触笔、视频输入设备、音频输入设备，以与网络主播进行文字、音频、视频等互动。

在示例环境100中，网络主播端110可采集网络主播的视频直播图像以及音频直播信号，并且将所采集的直播信号传输至服务器端 120。服务器端120可被配置成将网络主播的直播信号发送至网络用户端130。网络用户端130的网络用户可通过视频直播软件观看网络主播的视频直播。

值得说明的是，尽管在图示的示例环境100中，网络主播端110 和网络用户端130作为独立的功能单元进行描述的，应当理解的是，这仅仅是示例性的，网络主播端110也可实施为网络用户端130，网络用户端130也可实施为网络主播端110。

下面结合图2-图5详细说明根据本公开的一些实施例的用于剪辑视频的方法。

图2示出了根据本公开的一些实施例的用于剪辑视频的方法200 的流程图。方法200可以被实现在图1的服务器端120处。在其他一些实施例中，方法200可以被实现在图1的网络主播端110处。在其他一些实施例中，例如在获得网络主播授权的情况下，方法200可以被实现在图1的网络用户端130处。应当理解，虽然以特定顺序示出，方法200中的一些步骤可以以与所示出的不同顺序或者以并行方式执行。本公开的实施例在此方面不受限制。

在202处，从视频流获取第一预定时间长度的多个视频片段。在 204处，确定多个视频片段是否属于预定分类。在206处，在确定多个视频片段中的一个第一视频片段属于预定分类的情况下，从第一视频片段中提取第二预定时间长度的视频子片段，作为视频剪辑片段至少一部分。第二预定时间长度小于第一预定时间长度。

视频流可包括网络主播的各种各样的直播素材，也可以是非直播素材，而如何从这些素材中选取有剪辑价值的部分是从视频流剪辑视频片段的难点。根据本公开的实施例的方法200，从视频流获取第一预定时间长度的多个视频片段。在一些实施例中，第一预定时间长度可由用户在软件中设置；在一些实施例中，第一预定时间长度也可以软件自动设置；可为固定设置或者可由用户更改。在一些实施例中，第一预定时间长度可为45s。在其他一些实施例中，第一预定时间长度可为30s、40s、50s、60s、120s、360s等。在其他一些实施例中，可根据旨在剪辑的水平的类别确定第一预定时间长度。例如，在一些实施例中，跳舞和乐器才艺表演的视频剪辑成15s的片段，唱歌表演片段可剪辑成25s片段。应当理解的是，这仅仅是示例性的而非限制性的，其他任何适当的时间均可应用于本公开。

针对所获取的多个视频片段中的一个第一视频片段，识别第一视频片段所述的视频类别。视频类别可以为预定的视频分类。在一些实施例中，预定分类可包括才艺表演类，其中才艺表演类可包括唱歌、跳舞和/或乐器表演。应当理解的是，这仅仅是示例性的，也可以包括其他类型的分类类型。在一些实施例中，可针对每种分类建立分类模型，基于分类模型，可以确定第一视频片段是否属于预定分类。分类模型可包括各种实现方式，例如可包括双流网络方法、图像特征聚合、卷积方法等等，鉴于基于分类模型来对视频进行分类不是本公开的重点，省略对其详细描述。应当理解的是也可以采用其他分类方法。

在确定第一视频片段属于预定分类的情况下，从第一视频片段提取第二预定时间长度的视频子片段，作为视频剪辑片段至少一部分。由此，可针对术语预定分类的第一视频片段做进一步剪辑，以提取时间满足要求的视频剪辑片段。这里的提取方法有多种实现形式。在一些实施例中，可根据第二预定时间长度与第一预定时间长度之间的大小关系，来提取视频子片段。在一些实施例中，可以将在第一视频片段的开始时刻的预定时间后作为视频子片段的开始剪辑时刻提取视频子片段。

根据本公开实施例的用于从视频直播流剪辑视频的方法200，将分类模型用于视频流的分类，针对实时获取的视频片段进行分类，并且基于分类来进行视频剪辑视频的提取，而对不符合预定分类的视频片段不进行剪辑。可以高效地实现视频类别的识别和视频的自动剪辑，有效地节省人力、存储空间和处理资源。通过视频分类，对符合要求的视频进行剪辑，提高了剪辑效率。所生成的视频剪辑视频(即短视频)可进行二次利用，例如可用于对用户进行流量引流。

图3示出了根据本公开的一些实施例的用于从视频片段提取视频子片段的方法300的流程图。在方法300中，在302处，从第一视频片段中获取多个第二预定时间长度的视频子片段。在304处，确定多个视频子片段是否属于预定分类。在306处，响应于确定视频子片段属于预定分类，提取视频子片段作为视频剪辑片段。

从第一视频片段中获取多个第二预定时间长度的视频子片段可包括多种实现形式。在一些实施例中，第一视频片段按照时间顺序均分成多个预定时间长度的剪辑视频子片段。根据第二预定时间长度的大小，多个预定时间长度可以彼此在时间上不重叠，也可以在时间上彼此重叠。

根据本公开实施例的方法300，由于从第一视频片段中获取多个第二预定时间长度的视频子片段，针对所获取的多个视频子片段进行二次分类，可以进一步提高视频剪辑精度。

在一些实施例中，在确定视频子片段属于预定分类的情况下，可提取视频子片段作为视频剪辑片段；在另外一些实施例中，属于预定分类的视频子片段可进行组合以合成视频剪辑片段。

在一些实施例中，确定第一视频片段是否属于预定分类是基于第一分类阈值执行。由此，可对第一视频片段进行初步筛选。确定多个视频子片段是否属于预定分类是基于第二分类阈值执行；其中第一分类阈值小于第二分类阈值。由此，可对视频子片段进行二次精选。在这种情况下，用作视频剪辑片段的视频子片段分类精度更高，进一步提高了视频剪辑的精确度。

在一些实施例中，用于剪辑视频的方法200还可包括确定多个视频片段中视频片段的清晰度；其中确定多个视频片段是否属于预定分类是针对清晰度高于预定清晰度阈值的视频片段执行的。与人工人视频剪辑相比，由处理器执行的剪辑视频方法可以对视频质量有更精确的控制。期望从视频流中所剪辑的视频片段应该是画质清晰。通常，由于直播视频的清晰度与网络主播的网络情况进行了适配，因此所获取到的视频清晰度常常不一致。清晰度低的视频会影响用户观看体验，为了保证视频质量，通过对视频片段的清晰度进行过滤，对清晰度高于预定清晰度阈值的视频片段执行分类。因此，可以对高清视频进行精细剪辑加工，提高了剪辑视频的品质。另一方面，可减少处理器的处理负荷。

在一些实施例中，确定多个视频片段中视频片段的清晰度可包括：以预定周期从视频片段获取至少一个图像帧；以及基于所获取的至少一个图像帧的清晰度来确定视频片段的清晰度。在一些实施例中，例如可以1s每次的频率(也可以为其他适当的频率，例如0.5s 一次，2s一次)针对视频片段进行采样。针对所采样的图像帧，基于图像帧确定清晰度。采用这种方法，可以方便地确定清晰度，而不必耗费过多的处理资源。应当理解的是，这种清晰度确定方法仅仅是示意性，本领域技术人员可以采用其他方法类似地实现视频片段清晰度的确定。

图4示出了根据本公开的一些实施例的基于所提取的视频子片段调节视频剪辑位置的流程图。在图4所示的方法400中，在402处，针对视频子片段，确定视频子片段在第一视频片段中的开始时刻。在 404处，确定在第一视频片段中声音开始端点。在406处，以距离开始时刻最近的声音开始端点，作为视频剪辑片段的剪辑起始点，从第一视频片段提取视频剪辑片段。

通过上述方法可以进一步提高剪辑视频片段的完整性。在处理多模态视频时，例如视频片段包括图像视频片段和声音片段；通过上述方法可以提高视频片段和音频片段之间的协同性。以歌唱视频为例，可确定视频子片段在第一视频片段中的开始时刻，并且确定在第一视频片段中出现声音的声音开始端点。通过使得视频剪辑片段的剪辑起始点以声音开始端点开始，则可以使得剪辑出来的视频更加完整，例如可使得剪辑视频的开始时刻正好是某一句歌词开始时刻。在一些实施例中，可确定在第一视频片段中所有的声音开始端点，以距离开始时刻最近的声音开始端点，作为视频剪辑片段的剪辑起始点。在其他实施例中，可确定在视频子片段中所有的声音开始端点，以距离开始时刻最近的声音开始端点，作为视频剪辑片段的剪辑起始点。应当理解的是，这仅仅是示例性的；例如，可以根据所剪辑视频片段的时间长度，设置适当的声音开始端点作为视频剪辑片段的剪辑起始点。

图5示出了根据本公开的一些实施例的基于所提取的视频子片段调节视频剪辑位置的流程图。在图5所示的方法500中，在502处，针对视频子片段，确定视频子片段在第一视频片段中的结束时刻。在 5404处，确定在视频片段中声音结束端点。在406处，以距离结束时刻最近的声音结束端点，作为视频剪辑片段的剪辑结束点，从第一视频片段提取视频剪辑片段。

通过上述方法可以进一步提高剪辑视频片段的完整性。在例如处理多模态视频时，通过上述方法可以提高视频片段和音频片段之间的协同性。以歌唱视频为例，可确定视频子片段在第一视频片段中的结束时刻，并且确定在第一视频片段中出现声音的声音结束端点。通过使得视频剪辑片段的剪辑结束点以声音结束作为结束点，则可以使得剪辑出来的视频更加完整，例如可使得剪辑视频的结束时刻正好是某一句歌词结束时刻。在一些实施例中，可确定在第一视频片段中所有的声音结束端点，以距离开始时刻最近的声音结束端点，作为视频剪辑片段的剪辑结束点。在其他实施例中，可确定在视频子片段中所有的声音结束端点，以距离开始时刻最近的声音结束端点，作为视频剪辑片段的剪辑起始点。应当理解的是，这仅仅是示例性的；例如，可以根据所剪辑视频片段的时间长度，设置适当的声音结束端点作为视频剪辑片段的剪辑结束点。

尽管图4和图5的实施例作为单独的实施方式进行描述，应当理解的是，图4和图5所示的实施方法可以进行组合。组合的实施例可以进一步提高视频的完整性，经剪辑的视频片段可以在剪辑视频的开始时刻正好是声音(例如歌词、或者乐器演奏声音)的开始时刻。例如可使得剪辑视频的结束时刻正好是声音(例如歌词、或乐器演奏声音)的结束时刻。

在一些实施例中，方法200还可包括针对视频剪辑片段，增加与视频剪辑片段匹配的片段头和/或片段尾。通过对视频剪辑片段增加片段头，可为网络用户提供提示性信息，并且便于引导用户的点击播放。通过增加片段尾，可以增加和丰富视频剪辑片段的内容。鉴于片段头和片段尾的制作类似，下面的描述以片段头的制作为例进行；所描述的方法可类似地应用至片段尾。在一些实施例中，片段头可包括文字、语音和/或图片。在一些实施例中，还可对视频剪辑片段增加一些视频特效，以增加视频的娱乐性。

在一些实施例中，增加片段头和/或片段尾可包括：获取与视频剪辑片段中的图像帧的尺寸匹配的图像；基于图像以及预定格式的文字，创建片段头和/或片段的图像帧；将文字转换成语音片段；以及基于片段头和/或片段的图像帧以及语音片段，生成片段头和/或片段尾视频。

在制作片段头时，预先获取剪辑视频片段中的图像帧的尺寸，获取与图像帧的尺寸致的片头图像。在一些实施例中，片头头像可从剪辑视频片段中提取。例如，可以使用在视频片段中清晰度确定中所提取的品质好的图像作为片头头像。在其他实施例中，可以使用预先提供的图像。

在一些实施例中，将将文字以预定的格式分别添加在片头图像上并且基于片段头和/或片段的图像帧以及语音片段，生成片段头和/或片段尾视频。例如，可以将文字转换成语音片段，并且基于剪辑视频片段的帧率以及语音片段的时长，制作片段头的视频帧。在一些实施例中，还可在片段头中增加音乐片段。

在一些实施例中，方法200还可包括将通常所剪辑视频片段与片段头和/或片段尾的格式进行匹配。在一些实施例中，方法200还可包括将视频剪辑片段转换成图像帧；基于图像帧，生成与片段头和/或片段尾格式一致的视频片段；将所生成的视频片段与片段头和/或片段尾合并。由此，可确保视频剪辑片段与片段头/尾的视频格式一致。

在一些实施例中，方法200还可包括自动发布所制作的剪辑视频片段。针对所生成的剪辑视频片段，通常需要在视频平台发布以便于网络用户查看。每天生成的视频剪辑片段可能多达成千上万条，涉及的大量的网络主播数量。在一些实施例中，可以自动发布所制作的剪辑视频片段。这样不仅减少了人工运营的成本，更可以实现精彩片段视频的实时发布，在例如在网络主播直播的同时发布相关的视频，并吸引用户点击，提升直播渗透。自动发布功能可以更加有效的发挥小视频为直播间引流的作用。

图6示出了根据本公开的一些实施例的用于剪辑视频的装置600 的示意框图。用于剪辑视频的装置600可包括：视频片段获取模块 610、分类模块620和提取模块630。

视频片段获取模块610可被配置为从视频流获取第一预定时间长度的多个视频片段。分类模块620可被配置为确定多个视频片段是否属于预定分类。提取模块630可被配置为：响应于确定多个视频片段中的一个第一视频片段属于预定分类，从第一视频片段中提取第二预定时间长度的视频子片段，作为视频剪辑片段至少一部分，其中第二时间长度小于第一时间长度。

图7示出了根据本公开的一些实施例的用于剪辑视频的装置600 的提取模块700的示意框图。在图示的实施例中，提取模块700可包括：视频子片段获取模块710、视频子片段分类模块720以及视频子片段提取模块730。

视频子片段获取模块710可被配置为从第一视频片段中获取多个第二预定时间长度的视频子片段。视频子片段分类模块720可被配置为确定多个视频子片段是否属于预定分类。视频子片段提取模块730 可被配置为响应于确定视频子片段属于预定分类，提取视频子片段作为视频剪辑片段。

在一些实施例中，提取模块630可被配置为基于第一分类阈值确定多个视频片段是否属于预定分类；视频子片段分类模块被配置为基于第二分类阈值确定多个视频子片段是否属于预定分类；其中第一分类阈值小于第二分类阈值。

在一些实施例中，如图6所示，用于剪辑视频的装置600还可包括清晰度确定模块640，其被配置为确定多个视频片段中视频片段的清晰度，其中分类模块620被配置为针对清晰度高于预定清晰度阈值的视频片段执行分类。

在一些实施例中，如图8所示，清晰度确定模块640可包括图像帧获取模块810和图像清晰度确定模块820。图像帧获取模块810可被配置为以预定周期从视频片段获取至少一个图像帧。图像清晰度确定模块820可被配置为基于所获取的至少一个图像帧的清晰度来确定视频片段的清晰度。

在一些实施例中，提取模块630可还被配置为：针对视频子片段，确定视频子片段在第一视频片段中的开始时刻；确定在第一视频片段中声音开始端点；以及以距离开始时刻最近的声音开始端点，作为视频剪辑片段的剪辑起始点，从第一视频片段提取视频剪辑片段。

在一些实施例中，提取模块630可还被配置为：针对视频子片段，确定视频子片段在第一视频片段中的结束时刻；确定在视频片段中声音结束端点；以距离结束时刻最近的声音结束端点，作为视频剪辑片段的剪辑结束点，从第一视频片段提取视频剪辑片段。

在一些实施例中，如图6所示，用于剪辑视频的装置600还可包括片段头和/或片段尾增加模块650，其被被配置为针对视频剪辑片段，增加与视频剪辑片段匹配的片段头和/或片段尾。

在一些实施例中，片段头和/或片段尾增加模块650可被配置为：获取与视频剪辑片段中的图像帧的尺寸匹配的图像；基于图像以及预定格式的文字，创建片段头和/或片段的图像帧；将文字转换成语音片段；以及基于片段头和/或片段的图像帧以及语音片段，生成片段头和 /或片段尾视频。

在一些实施例中，如图6所示，用于剪辑视频的装置600还可还包括格式转换-发布模块660，其可被配置为：将视频剪辑片段转换成图像帧；基于图像帧，生成与片段头和/或片段尾格式一致的视频片段；将所生成的视频片段与片段头和/或片段尾合并；以及自动发布所合并的视频。尽管在图示的实施例中，格式转换和发布模块被集成在一个功能模块中；应当理解的是，这仅仅是示例性的，格式转换和发布模块被由不同的功能模块来实施。

根据本申请的实施例，本申请还提供了一种电子设备、一种计算机可读存储介质和计算机程序产品。

如图9所示，是根据本申请实施例的用于车辆导航的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

图9示出了能够实施本公开的多个实施例的计算设备900的框图。如图所示，设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/ 数据。

处理单元901执行上文所描述的各个方法和处理，例如方法200、 300、400、500。例如，在一些实施例中，方法200、300、400、500 可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM903并由CPU 901执行时，可以执行上文描述的过程300、400、500的一个或多个步骤。备选地，在其他实施例中，CPU 901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、300、400、500。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器 (RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM 或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开实施例的云控平台可包括上述电子设备或者可实施为电子设备。根据本公开实施例的云控平台能够显著提高车-路协同。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于从直播视频流剪辑视频的方法，包括：

从视频流获取第一预定时间长度的多个视频片段；

确定所述多个视频片段是否属于预定分类；以及

响应于确定所述多个视频片段中的一个第一视频片段属于所述预定分类，从所述第一视频片段中提取第二预定时间长度的视频子片段，作为视频剪辑片段至少一部分，其中所述第二预定时间长度小于所述第一预定时间长度。

2.根据权利要求1所述的方法，其中从所述第一视频片段中提取第二预定时间长度的视频子片段包括：

从所述第一视频片段中获取多个所述第二预定时间长度的视频子片段；

确定多个视频子片段是否属于所述预定分类；

响应于确定所述视频子片段属于所述预定分类，提取所述视频子片段作为视频剪辑片段。

3.根据权利要求2所述的方法，其中确定所述第一视频片段是否属于预定分类是基于第一分类阈值执行；并且

确定所述多个视频子片段是否属于所述预定分类是基于第二分类阈值执行；

其中所述第一分类阈值小于所述第二分类阈值。

4.根据权利要求1所述的方法，还包括：

确定所述多个视频片段中视频片段的清晰度，

其中确定所述多个视频片段是否属于预定分类是针对所述清晰度高于预定清晰度阈值的视频片段执行的。

5.根据权利要求4所述的方法，其中，确定所述多个视频片段中视频片段的清晰度包括：

以预定周期从所述视频片段获取至少一个图像帧；以及

基于所获取的至少一个图像帧的清晰度来确定所述视频片段的清晰度。

6.根据权利要求1-5中任一项所述的方法，其中，所述预定分类包括才艺表演类，其中所述才艺表演类包括唱歌、跳舞和乐器表演中的至少一种。

7.根据权利要求6所述的方法，还包括：

针对所述视频子片段，确定所述视频子片段在所述第一视频片段中的开始时刻；

确定在所述第一视频片段中声音开始端点；以及

以距离所述开始时刻最近的声音开始端点，作为所述视频剪辑片段的剪辑起始点，从所述第一视频片段提取所述视频剪辑片段。

8.根据权利要求6所述的方法，还包括：

针对所述视频子片段，确定所述视频子片段在所述第一视频片段中的结束时刻；

确定在所述视频片段中声音结束端点；

以距离所述结束时刻最近的所述声音结束端点，作为所述视频剪辑片段的剪辑结束点，从所述第一视频片段提取所述视频剪辑片段。

9.根据权利要求1-5、7和8中任一项所述的方法，还包括：

针对所述视频剪辑片段，增加与所述视频剪辑片段匹配的片段头和/或片段尾。

10.根据权利要求9所述的方法，其中增加片段头和/或片段尾包括：

获取与所述视频剪辑片段中的图像帧的尺寸匹配的图像；

基于所述图像以及预定格式的文字，创建所述片段头和/或片段的图像帧；

将所述文字转换成语音片段；以及

基于所述片段头和/或片段尾的图像帧以及所述语音片段，生成片段头和/或片段尾视频。

11.根据权利要求9所述的方法，还包括：

将所述视频剪辑片段转换成图像帧；

基于所述图像帧，生成与所述片段头和/或片段尾格式一致的视频片段；

将所生成的视频片段与所述片段头和/或片段尾合并；以及

自动发布所合并的视频。

12.一种用于从直播视频流剪辑视频的装置，包括：

视频片段获取模块，被配置为从视频流获取第一预定时间长度的多个视频片段；

分类模块，被配置确定所述多个视频片段是否属于预定分类；以及

提取模块，被配置为：响应于确定所述多个视频片段中的一个第一视频片段属于所述预定分类，从所述第一视频片段中提取第二预定时间长度的视频子片段，作为视频剪辑片段至少一部分，其中所述第二预定时间长度小于所述第一预定时间长度。

13.根据权利要求12所述的装置，其中所述提取模块包括：

视频子片段获取模块，被配置为从所述第一视频片段中获取多个所述第二预定时间长度的视频子片段；

视频子片段分类模块，被配置为确定多个视频子片段是否属于所述预定分类；

视频子片段提取模块，被配置为响应于确定所述视频子片段属于所述预定分类，提取所述视频子片段作为视频剪辑片段。

14.根据权利要求13所述的装置，其中

所述提取模块被配置为基于第一分类阈值确定所述多个视频片段是否属于预定分类；

所述视频子片段分类模块被配置为基于第二分类阈值确定所述多个视频子片段是否属于所述预定分类；

其中所述第一分类阈值小于所述第二分类阈值。

15.根据权利要求12所述的装置，还包括：

清晰度确定模块，被配置为确定所述多个视频片段中视频片段的清晰度，其中所述分类模块被配置为针对所述清晰度高于预定清晰度阈值的视频片段执行分类。

16.根据权利要求15所述的装置，其中，所述清晰度确定模块包括：

图像帧获取模块，被配置为以预定周期从所述视频片段获取至少一个图像帧；以及

图像清晰度确定模块，被配置为基于所获取的至少一个图像帧的清晰度来确定所述视频片段的清晰度。

17.根据权利要求12-16中任一项所述的装置，其中，所述预定分类包括才艺表演类，其中所述才艺表演类包括唱歌、跳舞和乐器表演中的至少一种。

18.根据权利要求17所述的装置，所述提取模块还被配置为：

确定在所述第一视频片段中声音开始端点；以及

以距离所述开始时刻最近的所述声音开始端点，作为所述视频剪辑片段的剪辑起始点，从所述第一视频片段提取所述视频剪辑片段。

19.根据权利要求17所述的装置，所述提取模块还被配置为：

确定在所述视频片段中声音结束端点；

20.根据权利要求12-16、18和19中任一项所述的装置，还包括片段头和/或片段尾增加模块，被配置为针对所述视频剪辑片段，增加与所述视频剪辑片段匹配的片段头和/或片段尾。

21.根据权利要求20所述的装置，其中所述片段头和/或片段尾增加模块被配置为：

获取与所述视频剪辑片段中的图像帧的尺寸匹配的图像；

将所述文字转换成语音片段；以及

基于所述片段头和/或片段的图像帧以及所述语音片段，生成片段头和/或片段尾视频。

22.根据权利要求20所述的装置，还包括格式转换-发布模块，被配置为：

将所述视频剪辑片段转换成图像帧；

将所生成的视频片段与所述片段头和/或片段尾合并；以及

自动发布所合并的视频。

23.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现根据权利要求1-11中任一项所述的方法。

24.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。