CN116010655A

CN116010655A - 视频处理与搜索方法、装置、电子设备和存储介质

Info

Publication number: CN116010655A
Application number: CN202310035559.7A
Authority: CN
Inventors: 何永继
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-04-25

Abstract

本发明实施例提供了一种视频处理与搜索方法、装置、电子设备和存储介质。所述视频处理方法包括：对待搜索视频执行基于视频场景的切片处理，得到至少一个视频切片；确定所述至少一个视频切片的至少一组关键帧；融合所述至少一组关键帧的图像语义信息，得到所述待搜索视频的视频帧特征；将所述视频帧特征与所述待搜索视频关联存储为所述待搜索视频的索引数据。在本发明实施例的方案中，基于视频场景的切片处理得到的视频切片能更好地反映待搜索视频的视频内容特征，视频切片中选取的关键帧能够更好地表征视频内容特征，从而将视频帧特征与待搜索视频关联存储为索引数据，能够采用视频帧特征可靠地实现视频内容搜索。

Description

视频处理与搜索方法、装置、电子设备和存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种视频处理与搜索方法、装置、电子设备和存储介质。

背景技术

在诸如教学、情节等内容生产中，短视频相比于传统的媒介传播性更好，用户既可以观看其他用户发布的短视频，也可以参与到短视频的创作中，通过制作具有热度的短视频得到一定奖励或回报，从而更容易激发用户的创作。

随着短视频的数量越来越多，如何在海量短视频中找到精准符合用户需求的短视频变得极为关键。

传统的短视频搜索方式是采用文本搜索相应的短视频资源，但是，短视频作为一种多媒体数据，仅依靠文本已经不能满足需求，搜索结果往往也不能精准满足用户需求。

发明内容

有鉴于此，本发明实施例提供一种视频处理与搜索方法、装置、电子设备和存储介质，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种视频处理方法，包括：对待搜索视频执行基于视频场景的切片处理，得到至少一个视频切片；确定所述至少一个视频切片的至少一组关键帧；融合所述至少一组关键帧的图像语义信息，得到所述待搜索视频的视频帧特征；将所述视频帧特征与所述待搜索视频关联存储为所述待搜索视频的索引数据。

在本发明的另一实现方式中，所述融合所述至少一组关键帧的图像语义信息，得到所述待搜索视频的视频帧特征，包括：对所述至少一组关键帧的图像语义信息进行聚类，得到至少一簇关键帧；分别融合所述至少一簇关键帧的图像语义信息，得到至少一个融合语义信息；基于所述至少一个融合语义信息，确定所述待搜索视频的视频帧特征。

在本发明的另一实现方式中，所述分别融合所述至少一簇关键帧的图像语义信息，得到至少一个融合语义信息，包括：对所述至少一簇关键帧中的每个关键帧进行图像语义编码，得到所述每个关键帧的图像语义编码信息；分别对所述至少一簇关键帧内的各个关键帧的图像语义编码信息均值处理，得到至少一个融合语义信息。

在本发明的另一实现方式中，所述对所述至少一簇关键帧中的每个关键帧进行图像语义编码，得到所述每个关键帧的图像语义编码信息，包括：将所述至少一簇关键帧中的每个关键帧输入到预先训练的图像语义编码模型中，得到各个关键帧的图像语义编码信息。

在本发明的另一实现方式中，所述确定所述至少一个视频切片的至少一组关键帧，包括：确定每个视频切片中的各个视频帧的至少一种表征指标；从所述各个视频帧中，选择至少一种表征指标高于预设条件的至少一个视频帧，作为该视频切片的一组关键帧。

在本发明的另一实现方式中，所述确定每个视频切片中的各个视频帧的至少一种表征指标，包括：确定每个视频切片中的各个视频帧在该视频切片中的帧位置质量、各个视频帧的清晰度、各个视频帧的构图质量中的至少一者，作为至少一种表征指标。

在本发明的另一实现方式中，所述从所述各个视频帧中，选择至少一种表征指标高于预设条件的至少一个视频帧，作为该视频切片的一组关键帧，包括：确定各个视频帧的帧位置质量、各个视频帧的清晰度、各个视频帧的构图质量之间的乘积；从所述各个视频帧中，选择所述乘积高于预设条件指示的预设值的至少一个视频帧，作为该视频切片的一组关键帧。

根据本发明实施例的第二方面，提供了一种视频搜索方法，包括：提取搜索图片的图片特征；将所述搜索图片的图片特征与所述视频索引数据中的视频帧特征进行匹配；返回匹配的视频帧特征关联的待搜索视频。

在本发明的另一实现方式中，所述将所述搜索图片的图片特征与所述视频索引数据中的视频帧特征进行匹配，包括：计算所述搜索图片的图片特征与所述视频索引数据中的视频帧特征之间的相似度；将相似度超过阈值的视频帧特征确定为匹配的视频帧特征。

在本发明的另一实现方式中，所述计算所述搜索图片的图片特征与所述视频索引数据中的视频帧特征之间的相似度，包括：确定所述视频索引数据中的视频帧特征中的多个融合语义信息；计算所述搜索图片的图片特征与所述多个融合语义信息之间的多个相似度；所述将相似度超过阈值的视频帧特征确定为匹配的视频帧特征，包括：如果所述多个相似度的参考相似度中超过阈值，则将所述视频帧特征确定为匹配的视频帧特征。

根据本发明实施例的第三方面，提供了一种视频处理装置，包括：切片模块，对待搜索视频执行基于视频场景的切片处理，得到至少一个视频切片；确定模块，确定所述至少一个视频切片的至少一组关键帧；融合模块，融合所述至少一组关键帧的图像语义信息，得到所述待搜索视频的视频帧特征；存储模块，将所述视频帧特征与所述待搜索视频关联存储为所述待搜索视频的索引数据。

根据本发明实施例的第四方面，提供了一种视频搜索装置，包括：提取模块，提取搜索图片的图片特征；匹配模块，将所述搜索图片的图片特征与所述视频索引数据中的视频帧特征进行匹配；返回模块，返回匹配的视频帧特征关联的待搜索视频。

根据本发明实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述的方法对应的操作。

根据本发明实施例的第六方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的方法。

在本发明实施例的方案中，基于视频场景的切片处理得到的视频切片能更好地反映待搜索视频的视频内容特征，视频切片中选取的关键帧能够更好地表征视频内容特征，从而将视频帧特征与待搜索视频关联存储为索引数据，能够采用视频帧特征可靠地实现视频内容搜索。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据一个示例的搜索网络架构的示意图。

图2为根据本发明的一个实施例的视频处理架构的示意性框图。

图3为根据本发明的一个实施例的视频处理方法的步骤流程图。

图4为根据本发明的另一实施例的视频搜索方法的结构框图。

图5为图4实施例的一个示例的视频搜索界面的示意图。

图6为根据本发明的另一实施例的视频处理装置的结构框图。

图7为根据本发明的另一实施例的视频搜索装置的结构框图。

图8为根据本发明的另一实施例的电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

图1为本发明实施例一所适用的搜索网络架构100的示意图。搜索网络架构100包括通过网络110彼此连接的客户端***120和搜索服务器***160。应理解，图1所示的搜索网络架构适用于本发明实施例的所有的示例。尽管本发明实施例还示出了其他的搜索网络架构的示例，但是，所有示出的网络架构都是便于理解本发明实施例的方案，而不应当理解为对本发明实施例的应用场景、交互方式以及各种通信关系构成了限定。

例如，作为示例而非限制的方式，图1为本发明的另一实施例所适用的搜索网络架构的示意图。如图1所示，第一资源服务器132绕过网络110与搜索服务器***160。第二资源服务器142通过网络110与搜索服务器***160相连接。另外，第一资源服务器132可以通过网络110与搜索服务器***160。第二资源服务器142可以绕过网络110与搜索服务器***160相连接。此外，尽管图1示出了特定数量的客户端***120、搜索服务器***160、第一资源服务器132、第二资源服务器142和网络110，但是本发明实施例考虑了任何合适数量的客户端***120、搜索服务器***160、第一资源服务器132、第二资源服务器142和网络110。作为示例而非限制的方式，搜索网络100可以包括多个客户端***120、搜索服务器***160、第一资源服务器132、第二资源服务器142和网络110。

应理解，第一资源服务器132和第二资源服务器142为通过不同网络通信方式向搜索服务器***160提供服务与资源，上述资源包括但不限于诸如视频、文本、音频等多媒体资源等，上述的服务包括但不限于诸如计算机视觉识别、语音识别、自然语言处理等服务。第一资源服务器132和第二资源服务器142可以被配置为诸如专有云、公有云、混合云、私有云等云服务器，并且可以部署有能够执行上述服务的神经网络模型的训练能力和部署能力。

本发明实施例考虑了任何合适的网络110。作为示例而非限制的方式，网络110的一个或多个部分可以包括自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网的一部分、公共交换电话网络(PSTN)的一部分、蜂窝电话网络、或这些中的两项或更多项的组合。网络110可以包括一个或多个网络110。

网络通信链路150可将客户端***120、搜索服务器***160和第一资源服务器132、第二资源服务器142连接到通信网络110或彼此连接。本发明实施例考虑了任何合适的网络通信链路150。在一个具体的实现方式中，一个或多个网络通信链路150包括一个或多个有线线路(例如数字用户线路(DSL)或有线数据服务接口规范(DOCSIS)、无线(例如Wi-Fi或微波接入全球互操作性(WiMAX))或光(例如同步光网络(SONET)或同步数字分层结构(SDH))链路。在一个具体的实现方式中，一个或多个网络通信链路150各自包括自组织网络、内联网、外联网、VPN、LAN、WLAN、WAN、WWAN、MAN、因特网的一部分、PSTN的一部分、基于蜂窝技术的网络、基于卫星通信技术的网络、另一网络通信链路150或两项或更多项这样的网络通信链路150的组合。网络通信链路150不一定在整个搜索网络架构100中是相同的。一个或多个第一网络通信链路150可以在一个或多个方面不同于一个或多个第二网络通信链路150。

在一个具体的实现方式中，搜索服务器***160可以是可承载在线搜索的可网络寻址的计算***。搜索服务器***160可以生成、存储、接收和发送搜索数据。搜索服务器***160可由搜索网络架构100的其他组件直接访问或经由网络110访问。作为示例而非限制的方式，客户端***120可以使用网络浏览器/搜索应用程序122或与搜索服务器***160相关联的本地应用程序(例如，移动搜索应用程序、消息收发应用程序、另一合适的应用程序或其任何组合)直接或经由网络110访问搜索服务器***160。在一个具体的实现方式中，搜索服务器***160可包括一个或多个服务器162。每个服务器162可以是单一服务器或跨越多个计算机或多个数据中心的分布式服务器。服务器162可以是各种类型的，例如但不限于，网络服务器、新闻服务器、邮件服务器、消息服务器、广告服务器、文件服务器、应用服务器、交换服务器、数据库服务器、代理服务器、适于执行本文所述的功能或处理的另一服务器、或其任意组合。在一个具体的实现方式中，每个服务器162可包括硬件、软件或嵌入式逻辑组件或两个或更多个这样的组件的组合，以用于执行由服务器162实现或支持的适当功能。在一个具体的实现方式中，搜索服务器***160可包括一个或多个数据存储164。数据存储器164可用于存储各种类型的信息。在一个具体的实现方式中，存储在数据存储器164中的信息可根据特定数据结构来组织。在一个具体的实现方式中，每个数据存储164可以是关系数据库、列数据库、相关数据库或其他合适的数据库。尽管本发明实施例描述或示出了特定类型的数据库，但是本发明实施例考虑了任何合适类型的数据库。一个具体的实现方式可提供使客户端***120、搜索服务器***160或第一资源服务器132、第二资源服务器142能够管理、检索、修改、添加或删除存储在数据存储器164中的信息的界面。

在一个具体的实现方式中，客户端***120可以是包括硬件、软件或嵌入式逻辑组件或两个或更多个这样的组件的组合的电子设备，并且能够执行由客户端***120实现或支持的适当功能。作为示例而非限制的方式，客户端***120可以包括计算机***，诸如台式计算机、笔记本或膝上型计算机、上网本、平板计算机、电子书阅读器、GPS设备、照相机、个人数字助理(PDA)、手持电子设备、蜂窝电话、智能电话、其他合适的电子设备或其任何合适的组合。本发明实施例考虑了任何合适的客户端***120。客户端***120可使客户端***120处的网络用户能够访问网络110。客户端***120可使其用户能够与其他客户端***120处的其他用户通信。

在一个具体的实现方式中，搜索服务器***160可以将多个阅读对象或多个视频对象存储在一个或多个数据存储164中。在一个具体的实现方式中，搜索服务器***160可向用户提供对搜索服务器***160支持的各种类型的项目或对象采取动作的能力。

在一个具体的实现方式中，搜索服务器***160能够链接各种实体。作为示例而非限制的方式，搜索服务器***160可以使用户能够彼此交互以及从第一资源服务器132、第二资源服务器142或其他实体接收内容，或者允许用户通过应用程序编程接口(API)或其他通信信道与这些实体交互。

在一个具体的实现方式中，第一资源服务器132、第二资源服务器142可包括一个或多个类型的服务器、一个或多个数据存储、一个或多个接口(包括但不限于API)、一个或多个网络服务、一个或多个内容源、一个或多个网络、或例如服务器可与之通信的任何其他合适组件。第一资源服务器132、第二资源服务器142可以由与操作搜索服务器***160的实体不同的实体操作。然而，在一个具体的实现方式中，搜索服务器***160和第一资源服务器132、第二资源服务器142可彼此协同操作以向搜索服务器***160或第一资源服务器132、第二资源服务器142的用户提供搜索服务。在这个意义上，搜索服务器***160可以提供平台或骨干，诸如第一资源服务器132、第二资源服务器142的其他***可以使用该平台或骨干来通过因特网向用户提供搜索服务和功能。

下面将结合图2描述本发明实施例的视频处理架构的示意性框图。图2的视频处理架构包括视频处理流程(包括框210、框220和框230)、以及视频搜索流程(包括框240)两个部分。在视频处理流程中，对每个待搜索视频进行处理，得到每个待搜索视频的索引数据。相应地，在视频搜索流程中，根据索引数据进行视频搜索。例如，可以通过图1的客户端***120与搜索服务器***160实现视频搜索。

下面将结合图3和图4详细描述上述视频处理过程和视频搜索过程。图3为根据本发明的一个实施例的视频处理方法的步骤流程图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。例如，用于搜索服务器的索引数据处理服务器，本实施例的视频处理方法，包括：

S310：对待搜索视频执行基于视频场景的切片处理，得到至少一个视频切片。

例如，在框210中，对输入的待搜索视频执行视频切片处理，得到至少一个视频切片。例如，可以对待搜索视频进行批量切片处理，在待搜索视频执行视频切片处理时，可以基于视频场景进行划分。从视频内容的角度而言，不同视频场景可以是具有不同幕、不同情节或不同角色的场景。从视频拍摄的角度而言，不同场景可以是不同的拍摄场景，例如，不同镜头或不同背景。

S320：确定至少一个视频切片的至少一组关键帧。

例如，在框220中，可以从视频切片中的各个视频帧中选择关键帧，关键帧也可以被称为代表帧，能够指示视频切片的较高表征程度，也就是说，关键帧能够可靠地反映视频片段的内容。

S330：融合至少一组关键帧的图像语义信息，得到待搜索视频的视频帧特征。

例如，在框230中，可以对关键帧进行图像语义编码，例如，采用预先训练的卷积神经网络CNN对关键帧进行图像语义编码，得到各个关键帧的图像语义编码信息，例如，帧向量。图像语义编码信息指示关键帧的视频帧特征，即，关键帧的图像特征。然后，各个关键帧可以被融合成能够表征待搜索视频的内容的融合语义信息，例如，帧向量组。

S340：将视频帧特征与待搜索视频关联存储为待搜索视频的索引数据。

例如，可以将融合语义信息与待搜索视频关联存储到数据库中，例如，将融合语义信息与待搜索视频的标识或索引存储到数据库中，作为待搜索视频的索引数据。

在另一些示例中，作为融合至少一组关键帧的图像语义信息，得到待搜索视频的视频帧特征的示例，可以对至少一组关键帧的图像语义信息进行聚类，得到至少一簇关键帧，分别融合至少一簇关键帧的图像语义信息，得到至少一个融合语义信息，然后，基于至少一个融合语义信息，确定待搜索视频的视频帧特征。应理解，上述的聚类处理在至少一组关键帧构成的关键帧集合中，进一步选择出相关性更高的至少一簇关键帧，即，每簇关键帧之间的相关度更高，这样的相关性更加反映了与视频内容的相关性，进一步提高了视频帧特征与视频内容的相关性，进而也提高了搜索的准确性。

进一步地，作为分别融合至少一簇关键帧的图像语义信息，得到至少一个融合语义信息的示例，可以对至少一簇关键帧中的每个关键帧进行图像语义编码，得到每个关键帧的图像语义编码信息，然后，分别对至少一簇关键帧内的各个关键帧的图像语义编码信息均值处理，得到至少一个融合语义信息。应理解，采用图像语义编码信息更多地提取了与图像特征关联密切的精简信息，在保证后续搜索精度的情况下减小了数据处理量，提高了数据处理效率。

具体地，分别对至少一簇关键帧内的各个关键帧的图像语义编码信息均值处理，可以针对每个簇，对各个关键帧的帧编码矩阵(图像语义编码信息的示例)进行叠加，例如，对应的矩阵元素直接相加或加权求和，得到这个簇的融合语义信息(例如，叠加编码矩阵)。

作为一个更具体的示例，在对至少一簇关键帧中的每个关键帧进行图像语义编码，得到每个关键帧的图像语义编码信息的情况下，可以将至少一簇关键帧中的每个关键帧输入到预先训练的图像语义编码模型中，得到各个关键帧的图像语义编码信息。

在另一些示例中，作为确定至少一个视频切片的至少一组关键帧的示例，可以确定每个视频切片中的各个视频帧的至少一种表征指标，并且从各个视频帧中，选择至少一种表征指标高于预设条件的至少一个视频帧，作为该视频切片的一组关键帧。

具体地，作为确定每个视频切片中的各个视频帧的至少一种表征指标的示例，可以确定每个视频切片中的各个视频帧在该视频切片中的帧位置质量、各个视频帧的清晰度、各个视频帧的构图质量中的至少一者，作为至少一种表征指标。

进一步地，每个视频切片中的各个视频帧在该视频切片中的帧位置质量可以是各个视频帧的位置与在视频切片中的中心视频帧位置之间距离与视频帧表征质量形成的概率分布(例如，正态分布)，特定视频帧的帧位置质量可以是特征视频帧与中心视频帧位置之间的距离对应于正态分布的概率密度。也就是说，一段视频切片反映了一个视频场景，基于概率而言，靠近视频切片的起始帧与结束帧对视频切片的内容表征质量相比于中心视频帧对视频切片的内容表征质量差，也就是说，起始帧与结束帧的概率密度小于中心视频帧的概率密度。由此，通过概率分布可靠地确定了帧位置质量。

另外，视频切片中的连续各个视频帧的清晰度变动反映了拍摄视频切片的场景中的运镜过程，清晰度更高的视频帧更可靠地反映了视频内容，同时对于运镜过程而言，清晰度更高的视频帧反映了视频主题的特写等，对这样的视频帧进行编码，得到的视频帧特征更加准确，有利于提高视频搜索的准确性。

另外，视频帧的构图质量可以是视频帧的美观度、观赏性等与用户浏览视频体验相关的指标。

进一步地，从各个视频帧中，选择至少一种表征指标高于预设条件的至少一个视频帧，作为该视频切片的一组关键帧，包括：确定各个视频帧的帧位置质量、各个视频帧的清晰度、各个视频帧的构图质量之间的乘积，并且从各个视频帧中，选择乘积高于预设条件指示的预设值的至少一个视频帧，作为该视频切片的一组关键帧。

例如，不同的表征指标可以具有对应的缩放因子，各个缩放因子可以是用户预设的。

图4为根据本发明的另一实施例的视频搜索方法的结构框图。本实施例的视频搜索方法可以适用于图1的搜索网络架构，包括：

S410：提取搜索图片的图片特征。

S420：将搜索图片的图片特征与视频索引数据中的视频帧特征进行匹配。

S430：返回匹配的视频帧特征关联的待搜索视频。

例如，在框240中，视频搜索过程被执行，将搜索图片作为搜索项，然后，提取搜索图片的图像特征，将图像特征与索引数据中的视频帧特征在数据库中的索引数据进行匹配。如果成功匹配，则返回匹配的视频帧特征对应的待搜索视频，即，匹配视频。如果匹配未成功，则说明数据库中不存在与搜索图片匹配的待搜索视频。

在另一些示例中，作为将搜索图片的图片特征与视频索引数据中的视频帧特征进行匹配的示例，可以计算搜索图片的图片特征与视频索引数据中的视频帧特征之间的相似度，并且将相似度超过阈值的视频帧特征确定为匹配的视频帧特征。由此，实现了图片搜索匹配视频，避免了诸如关键词等结构数据作为搜索项导致的对诸如视频等非结构数据的搜索结果不准确的情况。例如，可以在多簇关键帧中选择关键帧数量最多的一簇关键帧，对这一簇关键帧的视频帧特征(例如，帧向量)与图像特征(图向量)执行相似度计算。

更具体地，作为计算搜索图片的图片特征与视频索引数据中的视频帧特征之间的相似度的示例，可以确定视频索引数据中的视频帧特征中的多个融合语义信息，并且计算搜索图片的图片特征与多个融合语义信息之间的多个相似度。相应地，作为将相似度超过阈值的视频帧特征确定为匹配的视频帧特征的示例，可以如果多个相似度的参考相似度中超过阈值，则将视频帧特征确定为匹配的视频帧特征。例如，可以对多簇关键帧的视频帧特征(例如，帧向量)与图像特征(图向量)执行相似度计算，例如，分别判断多簇关键帧的多个融合语义信息与图像特征之间的多个相似度。然后，对多个相似度进行排序，取排序靠前的相似度作为搜索图片是否与待搜索视频匹配的依据。

图4的视频搜索方法适用于图1的搜索网络架构。例如，客户端***120可以使用网络浏览器/搜索应用程序122或与搜索服务器***160相关联的本地应用程序(例如，移动搜索应用程序、消息收发应用程序、另一合适的应用程序或其任何组合)直接或经由网络110访问搜索服务器***160。

图5所示出的界面为网络浏览器/搜索应用程序(例如，短视频应用程序)122的界面的示例。在界面510中，展示了短视频的队列，包括短视频1、短视频2、短视频3以及短视频4。其中，搜索区域511用于输入关键词等结构数据作为搜索项。搜索区域512用于触发切换到界面520，在界面520中，搜索输入图片用于输入搜索图片等非结构数据作为搜索项，其中，可以触发拍摄触发区域521输入即时拍摄的图片、也可以通过触发上传区域522输入本地已经保存的图片。

图6为根据本发明的另一实施例的视频处理装置的结构框图。本实施例的视频处理装置与图3的视频处理方法对应，包括：

切片模块610，对待搜索视频执行基于视频场景的切片处理，得到至少一个视频切片。

确定模块620，确定所述至少一个视频切片的至少一组关键帧。

融合模块630，融合所述至少一组关键帧的图像语义信息，得到所述待搜索视频的视频帧特征。

存储模块640，将所述视频帧特征与所述待搜索视频关联存储为所述待搜索视频的索引数据。

在另一些示例中，融合模块具体用于：对所述至少一组关键帧的图像语义信息进行聚类，得到至少一簇关键帧，分别融合所述至少一簇关键帧的图像语义信息，得到至少一个融合语义信息，并且基于所述至少一个融合语义信息，确定所述待搜索视频的视频帧特征。

在另一些示例中，融合模块具体用于：对所述至少一簇关键帧中的每个关键帧进行图像语义编码，得到所述每个关键帧的图像语义编码信息，并且分别对所述至少一簇关键帧内的各个关键帧的图像语义编码信息均值处理，得到至少一个融合语义信息。

在另一些示例中，融合模块具体用于：将所述至少一簇关键帧中的每个关键帧输入到预先训练的图像语义编码模型中，得到各个关键帧的图像语义编码信息。

在另一些示例中，确定模块具体用于：确定每个视频切片中的各个视频帧的至少一种表征指标，并且从所述各个视频帧中，选择至少一种表征指标高于预设条件的至少一个视频帧，作为该视频切片的一组关键帧。

在另一些示例中，确定模块具体用于：确定每个视频切片中的各个视频帧在该视频切片中的帧位置质量、各个视频帧的清晰度、各个视频帧的构图质量中的至少一者，作为至少一种表征指标。

在另一些示例中，确定模块具体用于：确定各个视频帧的帧位置质量、各个视频帧的清晰度、各个视频帧的构图质量之间的乘积，并且从所述各个视频帧中，选择所述乘积高于预设条件指示的预设值的至少一个视频帧，作为该视频切片的一组关键帧。

下面将结合图7详细描述根据本发明的另一实施例的视频搜索装置。本实施例的视频搜索装置对应于视频搜索方法，包括：

提取模块710，提取搜索图片的图片特征。

匹配模块720，将所述搜索图片的图片特征与所述视频索引数据中的视频帧特征进行匹配。

返回模块730，返回匹配的视频帧特征关联的待搜索视频。

在另一些示例中，匹配模块具体用于：计算所述搜索图片的图片特征与所述视频索引数据中的视频帧特征之间的相似度；将相似度超过阈值的视频帧特征确定为匹配的视频帧特征。

在另一些示例中，匹配模块具体用于：确定所述视频索引数据中的视频帧特征中的多个融合语义信息；计算所述搜索图片的图片特征与所述多个融合语义信息之间的多个相似度；如果所述多个相似度的参考相似度中超过阈值，则将所述视频帧特征确定为匹配的视频帧特征。

本实施例的视频处理装置和视频搜索装置用于实现前述多个方法实施例中相应的方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

参照图8，示出了根据本发明的另一实施例的电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图8所示，该电子设备可以包括：处理器(processor)802、通信接口(Communications Interface)804、存储有程序810的存储器(memory)806、以及通信总线808。

处理器、通信接口、以及存储器通过通信总线完成相互间的通信。

通信接口，用于与其它电子设备或服务器进行通信。

处理器，用于执行程序，具体可以执行上述方法实施例中的相关步骤。

具体地，程序可以包括程序代码，该程序代码包括至少一可执行指令。

处理器可能是处理器CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器，用于存放程序。存储器可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序具体可以用于使得处理器执行以下图3或图4的方法。

此外，程序中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种视频处理方法，包括：

对待搜索视频执行基于视频场景的切片处理，得到至少一个视频切片；

确定所述至少一个视频切片的至少一组关键帧；

融合所述至少一组关键帧的图像语义信息，得到所述待搜索视频的视频帧特征；

将所述视频帧特征与所述待搜索视频关联存储为所述待搜索视频的索引数据。

2.根据权利要求1所述的方法，其中，所述融合所述至少一组关键帧的图像语义信息，得到所述待搜索视频的视频帧特征，包括：

对所述至少一组关键帧的图像语义信息进行聚类，得到至少一簇关键帧；

分别融合所述至少一簇关键帧的图像语义信息，得到至少一个融合语义信息；

基于所述至少一个融合语义信息，确定所述待搜索视频的视频帧特征。

3.根据权利要求2所述的方法，其中，所述分别融合所述至少一簇关键帧的图像语义信息，得到至少一个融合语义信息，包括：

对所述至少一簇关键帧中的每个关键帧进行图像语义编码，得到所述每个关键帧的图像语义编码信息；

分别对所述至少一簇关键帧内的各个关键帧的图像语义编码信息均值处理，得到至少一个融合语义信息。

4.根据权利要求3所述的方法，其中，所述对所述至少一簇关键帧中的每个关键帧进行图像语义编码，得到所述每个关键帧的图像语义编码信息，包括：

将所述至少一簇关键帧中的每个关键帧输入到预先训练的图像语义编码模型中，得到各个关键帧的图像语义编码信息。

5.根据权利要求1所述的方法，其中，所述确定所述至少一个视频切片的至少一组关键帧，包括：

确定每个视频切片中的各个视频帧的至少一种表征指标；

从所述各个视频帧中，选择至少一种表征指标高于预设条件的至少一个视频帧，作为该视频切片的一组关键帧。

6.根据权利要求5所述的方法，其中，所述确定每个视频切片中的各个视频帧的至少一种表征指标，包括：

确定每个视频切片中的各个视频帧在该视频切片中的帧位置质量、各个视频帧的清晰度、各个视频帧的构图质量中的至少一者，作为至少一种表征指标。

7.根据权利要求5所述的方法，其中，所述从所述各个视频帧中，选择至少一种表征指标高于预设条件的至少一个视频帧，作为该视频切片的一组关键帧，包括：

确定各个视频帧的帧位置质量、各个视频帧的清晰度、各个视频帧的构图质量之间的乘积；

从所述各个视频帧中，选择所述乘积高于预设条件指示的预设值的至少一个视频帧，作为该视频切片的一组关键帧。

8.一种视频搜索方法，包括：

提取搜索图片的图片特征；

将所述搜索图片的图片特征与所述视频索引数据中的视频帧特征进行匹配；

返回匹配的视频帧特征关联的待搜索视频。

9.根据权利要求8所述的方法，其中，所述将所述搜索图片的图片特征与所述视频索引数据中的视频帧特征进行匹配，包括：

计算所述搜索图片的图片特征与所述视频索引数据中的视频帧特征之间的相似度；

将相似度超过阈值的视频帧特征确定为匹配的视频帧特征。

10.根据权利要求9所述的方法，其中，所述计算所述搜索图片的图片特征与所述视频索引数据中的视频帧特征之间的相似度，包括：

确定所述视频索引数据中的视频帧特征中的多个融合语义信息；

计算所述搜索图片的图片特征与所述多个融合语义信息之间的多个相似度；

所述将相似度超过阈值的视频帧特征确定为匹配的视频帧特征，包括：

如果所述多个相似度的参考相似度中超过阈值，则将所述视频帧特征确定为匹配的视频帧特征。

11.一种视频处理装置，包括：

切片模块，对待搜索视频执行基于视频场景的切片处理，得到至少一个视频切片；

确定模块，确定所述至少一个视频切片的至少一组关键帧；

融合模块，融合所述至少一组关键帧的图像语义信息，得到所述待搜索视频的视频帧特征；

存储模块，将所述视频帧特征与所述待搜索视频关联存储为所述待搜索视频的索引数据。

12.一种视频搜索装置，包括：

提取模块，提取搜索图片的图片特征；

匹配模块，将所述搜索图片的图片特征与所述视频索引数据中的视频帧特征进行匹配；

返回模块，返回匹配的视频帧特征关联的待搜索视频。

13.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-10中任一项所述的方法对应的操作。

14.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-10中任一项所述的方法。