CN110929098A

CN110929098A - 视频数据的处理方法、装置、电子设备及存储介质

Info

Publication number: CN110929098A
Application number: CN201911111883.2A
Authority: CN
Inventors: 李超; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-03-27
Anticipated expiration: 2039-11-14
Also published as: CN110929098B

Abstract

本发明提供了一种视频数据的处理方法、装置、电子设备及存储介质；所述方法包括：获取目标视频的标题文本及内容文本；对所述内容文本进行语句通顺度检测，得到对应所述内容文本的语句通顺度；基于所述语句通顺度，确定所述目标视频中存在用于描述视频画面的描述性片段时，获取所述内容文本对应的多个分句文本；所述描述性片段中包括内容主题独立于所述目标视频的内容主题的子片段；分别将各所述分句文本与所述标题文本进行相似度匹配，得到对应的多个相似度值；基于所述相似度值，确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。通过本发明，能够有效识别出目标视频的描述性片段中子片段时长是否过长。

Description

视频数据的处理方法、装置、电子设备及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种视频数据的处理方法、装置、电子设备及存储介质。

背景技术

随着移动终端的普及和移动社交媒体的发展，短视频作为当下信息流的主要产品线，已成为用户获取信息、娱乐等重要方式之一。为了便于用户更好地了解短视频的内容，通常情况下短视频中包含有对视频内容进行介绍的描述性片段(即解说)，然而在解说中可能存在与视频内容毫无相关的描述性子片段(即铺垫)，而相关技术由于无法确定铺垫时长与视频时长的相对关系，进而也就无法有效识别短视频是否为铺垫过长，给用户带来不好的体验。

发明内容

本发明实施例提供一种视频数据的处理方法、装置、电子设备及存储介质，能够有效识别出短视频是否为铺垫过长。

本发明实施例提供一种视频数据的处理方法，包括：

获取目标视频的标题文本及内容文本；

对所述内容文本进行语句通顺度检测，得到对应所述内容文本的语句通顺度；

基于所述语句通顺度，确定所述目标视频中存在用于描述视频画面的描述性片段时，获取所述内容文本对应的多个分句文本；所述描述性片段中包括内容主题独立于所述目标视频的内容主题的子片段；

分别将各所述分句文本与所述标题文本进行相似度匹配，得到对应的多个相似度值；

基于所述相似度值，确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。

本发明实施例提供一种视频数据的处理装置，包括：

第一获取模块，用于获取目标视频的标题文本及内容文本；

检测模块，用于对所述内容文本进行语句通顺度检测，得到对应所述内容文本的语句通顺度；

第二获取模块，用于基于所述语句通顺度，确定所述目标视频中存在用于描述视频画面的描述性片段时，获取所述内容文本对应的多个分句文本；所述描述性片段中包括内容主题独立于所述目标视频的内容主题的子片段；

匹配模块，用于分别将各所述分句文本与所述标题文本进行相似度匹配，得到对应的多个相似度值；

确定模块，用于基于所述相似度值，确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。

上述方案中，所述检测模块，还用于对所述内容文本进行分句处理，得到对应的多个分句文本；

分别将各所述分句文本输入语句通顺度检测模型，得到对应所述分句文本的第一语句通顺度评分；

将对应各所述分句文本的第一语句通顺度评分进行加权处理，得到对应所述内容文本的第二语句通顺度评分，所述第二语句通顺度评分用于表征所述内容文本的语句通顺度。

上述方案中，所述第二获取模块，还用于获取语句通顺度参考评分；

获取所述第二语句通顺度评分与所述语句通顺度参考评分的比值；

当所述比值大于比例阈值时，确定所述目标视频中存在用于描述视频画面的描述性片段。

上述方案中，所述匹配模块，还用于对所述标题文本进行向量转换，得到对应的标题向量；

分别对各所述分句文本进行向量转换，得到对应的文本向量；

分别将各所述文本向量与所述标题向量进行相似度匹配，得到对应的相似度值。

上述方案中，所述确定模块，还用于基于各所述分句文本在所述内容文本的顺序，对所述相似度值进行排序，得到包含第一数量的相似度值的第一序列和包含第二数量的相似度值的第二序列；

基于所述第一序列及所述第二序列，确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。

上述方案中，所述确定模块，还用于从所述第一序列中提取最大相似度值作为第一相似度值，以及从所述第二序列中提取最大相似度值作为第二相似度值；

将所述第一相似度值与所述第二相似度值进行比较，得到比较结果；

基于所述比较结果，确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。

上述方案中，所述确定模块，还用于对所述第一数量的相似度值进行加权求平均，得到对应的第三相似度值，以及对所述第二数量的相似度值进行加权求平均，得到对应的第四相似度值；

将所述第三相似度值与所述第四相似度值进行比较，得到比较结果；

上述方案中，所述确定模块，还用于基于各所述分句文本在所述内容文本的顺序，对所述相似度值进行排序，得到对应的相似度值序列；

依次将所述相似度序列中的相似度值与相似度阈值进行比较，确定首个超过所述相似度阈值的相似度值在所述相似度值序列中的序列号；

基于所述序列号及所述相似度值序列，确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。

上述方案中，所述装置还包括推荐模块，所述推荐模块，用于获取所述描述性片段中子片段的时长与所述目标视频的时长的比值；

当所述比值未超过比例阈值时，将所述目标视频加入待推荐视频库中。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的视频数据的处理方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的视频数据的处理方法。

本发明实施例具有以下有益效果：

通过对目标视频的内容文本进行语句通顺度检测，确定了目标视频中是否存在用于描述视频画面的描述性片段，当存在描述性片段时，对内容文本进行分句处理，得到内容文本对应的多个分句文本，并通过分别将各分句文本与目标视频的标题文本进行相似度匹配，确定描述性片段中子片段的时长与目标视频的时长的相对关系，进而有效识别出目标视频是否为铺垫过长。

附图说明

图1为本发明实施例提供的视频数据的处理***的一个可选的架构示意图；

图2为本发明实施例提供的电子设备的一个可选的结构示意图；

图3为本发明实施例提供的视频数据的处理方法的一个可选的流程示意图；

图4为本发明实施例提供的获取文本的语义表示的流程示意图；

图5为本发明实施例提供的目标视频的推荐***示意图；

图6为本发明实施例提供的视频数据的处理方法的一个可选的流程示意图；

图7为本发明实施例提供的观看视频的流程示意图；

图8为本发明实施例提供的视频数据的处理方法的一个可选的流程示意图；

图9为本发明实施例提供的视频数据的处理装置的结构组成示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三\第四”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三\第四”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(CV，Computer Vision)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，Acceleration Slip Regulation)和语音合成技术(TTS，Text To Speech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(NLP，Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(ML，Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景，

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理等技术，具体通过如下实施例进行说明:

本发明的发明人在实施本发明实施例的过程中发现，相关技术实现文本之间匹配的技术主要分为相似度计算、交叉型匹配、交互性匹配等。其中，相似度计算主要是将需要匹配的文本实现向量化，然后计算文本对应的向量之间的相似度的方法，然而该方法比较适合于都是短句的情况，这是由于短句的向量能够足够的表示语义信息。交叉型匹配将需要匹配文本之间实现局部信息匹配，针对局部信息敏感的自然语言处理(NLP，NaturalLanguage Processing)任务有着较为显著的效果。交互性匹配一般使用孪生网络对需要匹配的文本进行信息解读，并且在结构层之间实现信息共享，比较适用于长文本与长文本之间的匹配。

由于短视频的标题属于短文本(一般在40个字以内)，短视频的“音转文”(即内容文本)属于长文本(一般在300个字以上)，上述文本之间的匹配方法尚不能应用于长文本与短文本之间的匹配，因此，构造长文本与短文本之间的匹配是目前匹配算法的核心难点，短视频铺垫过程的场景中，如何基于短视频的标题文本与内容文本构造恰当的匹配方法是整个问题的关键，目前业界还未有较为成熟的方法解决短视频铺垫过长的问题。

鉴于此，本发明实施例提供一种视频数据的处理方法，通过对目标视频的内容文本进行语句通顺度检测，确定了目标视频中是否存在用于描述视频画面的描述性片段，当存在描述性片段时，对内容文本进行分句处理，得到内容文本对应的多个分句文本，并通过分别将各分句文本与目标视频的标题文本进行相似度匹配，确定描述性片段中子片段的时长与目标视频的时长的相对关系，如此，实现长文本与短文本之间的恰当匹配，进而有效识别出目标视频是否为铺垫过长。

参见图1，图1为本发明实施例提供的视频数据的处理***100的一个可选的架构示意图，为实现支撑一个示例性应用，用户终端400(示例性示出了终端400-1、终端400-2和终端400-N)通过网络300连接信息流平台200，其中，终端400-1位于短视频发布侧，终端400-2和终端400-N位于短视频接收侧，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

如图1所示，用户打开用户终端400-1的应用客户端，发布录制好的目标视频，将目标视频的视频数据发送至信息流平台200，这里，视频数据包括标题文本和内容文本。信息流平台200用于获取目标视频的标题文本及内容文本，对内容文本进行语句通顺度检测，得到对应内容文本的语句通顺度，基于语句通顺度，确定目标视频中存在用于描述视频画面的描述性片段时，获取内容文本对应的多个分句文本，其中，描述性片段中包括内容主题独立于目标视频的内容主题的子片段；分别将各分句文本与标题文本进行相似度匹配，得到对应的多个相似度值；基于相似度值，确定描述性片段中子片段的时长与目标视频的时长的相对关系。

在实际应用中，可基于描述性片段中子片段的时长与目标视频的时长的相对关系，确定目标视频的铺垫时长是否过长，例如，可获取描述性片段中子片段的时长与目标视频的时长的比值，当得到的比值未超过比例阈值，即确定目标视频为铺垫不长的视频，将目标视频加到待推荐视频库中以推荐给其他用户对应的终端400-2至终端400-N。

参见图2，图2为本发明实施例提供的电子设备200的一个可选的结构示意图，以电子设备实施为信息流平台200为例，图2所示的电子设备200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。终端200中的各个组件通过总线***240耦合在一起。可理解，总线***250用于实现这些组件之间的连接通信。总线***240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***251，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的视频数据的处理装置可以采用软件方式实现，图2示出了存储在存储器250中的视频数据的处理装置255，其可以是程序和插件等形式的软件，包括以下软件模块：第一获取模块2551、检测模块2552、第二获取模块2553、匹配模块2554和确定模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的视频数据的处理装置可以采用硬件方式实现，作为示例，本发明实施例提供的视频数据的处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频数据的处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面将结合本发明实施例提供的视频数据的处理方法实施为信息流平台时的示例性应用，说明本发明实施例提供的视频数据的处理方法。

参见图3，图3为本发明实施例提供的视频数据的处理方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

步骤301：信息流平台获取目标视频的标题文本及内容文本。

信息流是一种可以滚动浏览的内容流，这些内容会出现在外观相似、一个挨一个显示的版块中，例如，信息流可以是编辑精选的信息流(如文章或新闻列表)或产品详情(如产品列表、服务列表等)。在实际应用中，每个使用新闻客户端的用户，都多少接触过信息流这种产品形态，信息流产品拥有海量信息，能源源不断地刷出新的、实时的内容，能在合适的场景下，为用户提供合适的内容。

在实际实施时，用户接收到的信息流产品，如看点视频，是通过人工运营推荐或推荐算法推荐的，而在大数据时代，由于媒体更新的内容是海量的，人工运营往往局限于热点内容，因此，信息流平台必须依赖信息流中目标视频数据构造算法模型，对信息流的内容进行推荐。信息流平台利用目标视频数据中具体字段信息点，如标题文本和内容文本来构造算法模型，以判断目标视频是否适合推荐给用户，其中，内容文本对应于目标视频的“音转文”，通过对目标视频的音频数据进行文本转换而得。

步骤302：对内容文本进行语句通顺度检测，得到对应内容文本的语句通顺度。

在实际应用中，目标视频包括视频画面及对视频画面进行描述的描述性片段，由于含有描述性片段的目标视频的内容文本语句较为通顺，并且能够构成完整的句子，而不含有描述性片段的目标视频的内容文本对应的是其背景音的识别结果，语句不通顺，不能够构成完整的句子。

在实际实施时，在对内容文本进行语句通顺度检测之前，需要先训练语句通顺度检测模型，在训练模型时，以大量样本文本作为训练集，其中，样本文本都是含有描述性片段的标准文本，采用如斯坦福研究院语言建模工具包(SRILM，Stanford ResearchInstitute Language Modeling Toolkit)、KenLM等训练语言模型的工具，训练得到语句通顺度检测模型。

在一些实施例中，信息流平台可通过如下方式对内容文本进行语句通顺度检测，得到对应内容文本的语句通顺度：

对内容文本进行分句处理，得到对应的多个分句文本；分别将各分句文本输入语句通顺度检测模型，得到对应分句文本的第一语句通顺度评分；将对应各分句文本的第一语句通顺度评分进行加权处理，得到对应内容文本的第二语句通顺度评分，第二语句通顺度评分用于表征内容文本的语句通顺度。

这里，可先基于内容文本中的标点符号，将比较长的内容文本分成多个短的分句文本，然后将得到的各分句文本输入训练好的语句通顺度检测模型中，得到相应的多个语句通顺度评分，最后将各分句文本对应的语句通顺度评分的平均值作为内容文本的通顺度评分。

例如，假设对目标视频的内容文本进行分句处理，得到8个分句文本，分别将这8个分句文本输入训练好的语句通顺度检测模型中，得到对应的分句文本的语句通顺度评分为：[S₁，S₂，S₃，S₄，S₅，S₆，S₇，S₈]，则目标视频的内容文本的语句通顺度评分为：S＝(S₁+…+S₈)/8，该语句通顺度评分S用于表征目标视频的内容文本的语句通顺度。

步骤303：基于语句通顺度，确定目标视频中存在用于描述视频画面的描述性片段时，获取内容文本对应的多个分句文本；描述性片段中包括内容主题独立于目标视频的内容主题的子片段。

在一些实施例中，信息流平台可通过如下方式确定目标视频中存在用于描述视频画面的描述性片段：

获取语句通顺度参考评分；获取第二语句通顺度评分与语句通顺度参考评分的比值；当比值大于比例阈值时，确定目标视频中存在用于描述视频画面的描述性片段。

这里，语句通顺度参考评分是通过将预设数量的样本文本输入到训练好的通顺度检测模型得到的语句通顺度评分的平均值，假设语句通顺度参考评分为S₀，则通过比较对应文本内容的语句通顺度评分S与语句通顺度参考评分S₀的差距来判断目标视频是否含有描述性片段。

例如，基于经验知识，当S与S₀之间的差距大于20％，即S/S₀<0.8时，则认为目标视频不存在用于描述视频画面的描述性片段；当S与S₀之间的差距小于等于20％，即S/S₀>＝0.8时，则认为目标视频中存在用于描述视频画面的描述性片段。

在实际应用中，当目标视频存在用于描述视频画面的描述性片段时，描述性片段中还可包括内容主题独立于目标视频的内容主题的子片段，这里，子片段是指描述性片段中存在的与目标视频的内容主题相关性比较小的片段，例如，目标视频中存在用于介绍北京文化的描述性片段，而在介绍北京文化之前，又存在介绍如北京交通或环境等与北京文化不相关的片段，则可认为介绍北京交通或环境的片段为子片段。

步骤304：分别将各分句文本与标题文本进行相似度匹配，得到对应的多个相似度值。

在一些实施例中，信息流平台可通过如下方式得到对应的多个相似度值：

对标题文本进行向量转换，得到对应的标题向量；分别对各分句文本进行向量转换，得到对应的文本向量；分别将各文本向量与标题向量进行相似度匹配，得到对应的相似度值。

在实际应用中，若要理解复杂的文本，首先需要对文本进行编码，使之成为计算机可以读懂的语言，在编码时，我们期望句子之间保持词语间的相似行，而词的向量表示是进行机器学习和深度学习的基础。因此，为了得到包含丰富语义分析的语义表示，需分别将标题文本和各分句文本输入通用语义表示模型如BERT(Bidirectional EncoderRepresentation from Transformers)模型中。

参见图4，图4为本发明实施例提供的获取文本的语义表示的流程示意图，如图4所示，以文本中各个字/词的一维向量作为BERT模型的输入，经BERT模型处理后得到输入的各字对应的融合全文语义信息后的向量表示。因此，将标题文本输入BERT模型，得到对应的标题向量；分别将各分句文本输入BER T模型，得到对应的文本向量；然后，分别将标题向量与各分句文本对应的文本向量进行相似度匹配，得到对应的相似度值。

步骤305：基于相似度值，确定描述性片段中子片段的时长与目标视频的时长的相对关系。

在一些实施例中，信息流平台可通过如下方式确定描述性片段中子片段的时长与目标视频的时长的相对关系：

基于各分句文本在内容文本的顺序，对相似度值进行排序，得到包含第一数量的相似度值的第一序列和包含第二数量的相似度值的第二序列；基于第一序列及所述第二序列，确定描述性片段中子片段的时长与目标视频的时长的相对关系。

这里，在实际实施时，首先将标题文本的标题向量与各分句文本的文本向量之间的相似度值，按照各分句文本在内容文本中的排列顺序而排列，得到对应的相似度序列；接下来，可顺序得到包含第一数量的相似度值的第一序列和包含第二数量的相似度值的第二序列；也可根据经验值将相似度序列进行分割，得到包含第一数量的相似度值的第一序列和包含第二数量的相似度值的第二序列；最后，基于第一序列及所述第二序列，确定描述性片段中子片段的时长与目标视频的时长的相对关系。

例如，目标视频的内容文本共有10个分句文本，通过计算各分句文本的文本向量与标题文本的标题向量之间的余弦相似度，得到各分句文本与标题文本之间的相似度值组成的相似度值序列为：[score₁，score₂，...，score₁₀]，其中，s core₁为第一个分句文本与标题文本的余弦相似度，score₂为第二个分句文本与标题文本的余弦相似度，以此类推。根据经验，可将相似度值序列的前十分之三作为第一序列：[score₁，score₂，score₃]，将相似度值序列的后十分之七作为第二序列：[score₄，score₅，...，score₁₀]，需要说明的是，初此之外，还可将相似度值序列以其他可行的方式分成两个序列。

在一些实施例中，信息流平台可通过如下方式基于第一序列及第二序列，确定描述性片段中子片段的时长与目标视频的时长的相对关系：

从第一序列中提取最大相似度值作为第一相似度值，以及从第二序列中提取最大相似度值作为第二相似度值；将第一相似度值与第二相似度值进行比较，得到比较结果；基于比较结果，确定描述性片段中子片段的时长与目标视频的时长的相对关系。

这里，还以上述第一序列：[score₁，score₂，score₃]，第二序列：[score₄，score₅，...，score₁₀]为例进行说明，从第一序列中提取最大的相似度值作为第一相似度值top＝max([score₁，score₂，score₃])，从第二序列中提取最大的相似度值作为第二相似度值end＝([score₄，score₅，...，score₁₀])，获取第一相似度值top与第二相似度值end的比值a＝top/end，则a即为描述性片段中子片段的时长相对于目标视频的时长的相对关系，a越大，表征描述性片段中子片段的时长相对于目标视频的时长就越短，由于描述性片段是用于对目标视频的视频画面进行描述的片段，而子片段是与目标视频的内容主题没有相关性的片段，那么a越大，也意味着目标视频中存在与目标视频的内容主题没有相关性的描述性子片段就越短。

在一些实施例中，信息流平台还可通过如下方式基于第一序列及第二序列，确定描述性片段中子片段的时长与目标视频的时长的相对关系：

对第一数量的相似度值进行加权求平均，得到对应的第三相似度值，以及对第二数量的相似度值进行加权求平均，得到对应的第四相似度值；将第三相似度值与第四相似度值进行比较，得到比较结果；基于比较结果，确定描述性片段中子片段的时长与目标视频的时长的相对关系。

这里，还以上述第一序列：[score₁，score₂，score₃]，第二序列：[score₄，score₅，...，score₁₀]为例进行说明，将第一序列中的第一数量的相似度值进行加权求平均，得到对应的第三相似度值sim₁＝(score₁+score₂+score₃)/3；将第二序列中的第二数量的相似度值进行加权求平均，得到对应的第四相似度值sim₁＝(score₄+...+score₁₀)/7，获取第三相似度值sim₁与第四相似度值sim₂的比值b＝sim₁/sim₂，则b即为描述性片段中子片段的时长相对于目标视频的时长的关系，b越大，表征描述性片段中子片段的时长相对于目标视频的时长越短。

基于各分句文本在所述内容文本的顺序，对相似度值进行排序，得到对应的相似度值序列；依次将相似度序列中的相似度值与相似度阈值进行比较，确定首个超过相似度阈值的相似度值在相似度值序列中的序列号；基于序列号及相似度值序列，确定描述性片段中子片段的时长与目标视频的时长的相对关系。

这里，还以上述目标视频的内容文本共有10个分句文本、各分句文本与标题文本之间的相似度值组成的相似度值序列为：[score₁，score₂，...，score₁₀]为例进行说明。假设相似度阈值为score，依次将相似度序列中的相似度值score_i与相似度阈值score进行比较，若相似度值大于相似度阈值，则认为对应的分句文本是用于描述目标视频的视频画面的文本，即是与主题内容相关的文本；若相似度值小于相似度阈值，则认为对应的分句文本不是用于描述目标视频的视频画面的文本，即是与主题内容不相关的文本。

更具体地说，假设相似度序列为：[0.12、0.2、0.3、0.3、0.4、0.8、0.8、0.9、0.8、0.4]，相似度阈值为0.7，则依次将相似度序列中的相似度值与相似度阈值进行比较，可知首个超过相似度阈值的相似度值在相似度值序列中的序列号为6，即相似度序列中的第6个分句文本与标题文本之间的相似度值超过了相似度阈值，则可认为第6个分句文本是与目标视频的主题内容相关的文本，而前五个分句文本是与目标视频的主题内容不相关的文本，即前五个分句文本为描述性片段中子片段，则可确定描述性片段中子片段的时长与目标视频的时长的相对关系为5/10，也就是说，描述性片段中子片段的时长占有了目标视频的时长的一半，可见，首个超过相似度阈值的相似度值在相似度值序列中的序列号与目标视频的相似度值序列的个数的比值越大，表征描述性片段中子片段的时长相对于目标视频的时长就越长。

在一些实施例中，信息流平台还可获取描述性片段中子片段的时长与目标视频的时长的比值；当比值未超过比例阈值时，将目标视频加入待推荐视频库中。

在实际应用中，可根据描述性片段中子片段的时长与目标视频时长的相对关系，确定目标视频中描述性片段中子片段的时长是否过长，也即确定目标视频中是否存在过长的与目标视频的主题内容无关的描述，当确定目标视频中不存在过长的与目标视频的主题内容无关的描述时，则将该目标视频存储至待推荐视频库以推荐给用户；当确定目标视频中存在过长的与目标视频的主题内容无关的描述时，则将该目标视频设置为不推荐。

例如，若上述a＝top/end小于等于0.8，则确定目标视频存在过长的与目标视频的主题内容不相关的描述，将目标视频设置为不推荐；若上述a＝top/end大于0.8，则确定目标视频不存在过长的与目标视频的主题内容不相关的描述，将目标视频存储至待推荐视频库中以推荐给用户。

参见图5，图5为本发明实施例提供的目标视频的推荐***示意图，如图5所示，目标视频的视频数据经信息流平台执行本发明实施例提供的视频数据的处理方法之后，得到描述性片段中子片段的时长与目标视频时长的相对关系，并基于该相对关系判断该目标视频是否存在过长的与目标视频的主题内容不相关的描述，当确定目标不存在过长的与目标视频的主题内容不相关的描述时，认为该目标视频符合推荐条件，并将该目标视频存储至待推荐视频库中以用于推送给如浏览器或快报等信息流产品中。

通过上述方式，对目标视频的内容文本进行语句通顺度检测，确定了目标视频中是否存在用于描述视频画面的描述性片段，当存在描述性片段时，对内容文本进行分句处理，得到内容文本对应的多个分句文本，并通过分别将各分句文本与目标视频的标题文本进行相似度匹配，确定描述性片段中子片段的时长与目标视频的时长的相对关系，如此，实现长文本与短文本之间的恰当匹配，进而有效识别出目标视频是否为铺垫过长，并当识别出目标视频存在铺垫过长，即目标视频的描述性片段中存在过长的与目标视频的主题内容不相关的描述时，将目标视频设置为不推荐；当识别出目标视频的铺垫不长时，将目标视频推荐给用户，如此，用户观看接收到的目标视频时很快就能找到兴趣点，提高了用户体验。

接下来继续对本发明实施例提供的视频数据的处理方法进行介绍，视频数据的处理方法由终端或信息流平台实施，或由信息流平台及终端协同实施，终端上设置有应用客户端，以信息流平台实施为例，图6为本发明实施例提供的视频数据的处理方法的一个可选的流程示意图，参见图6，本发明实施例提供的视频数据的处理方法包括：

步骤601：第一客户端响应于用户针对目标视频的上传操作，获取目标视频。

这里，第一客户端位于目标视频发布侧，在实际应用中，用户打开用户终端上的第一客户端，录制目标视频并发布，或发布已录制好的目标视频。

步骤602：应用客户端发送目标视频数据至信息流平台。

步骤603：信息流平台获取目标视频的标题文本和内容文本。

这里，信息流平台依赖信息流中目标视频数据构造算法模型，对信息流的内容进行推荐。信息流平台利用目标视频数据中具体字段信息点，如标题文本和内容文本来构造算法模型，以判断目标视频是否适合推荐给用户，其中，内容文本对应于目标视频的“音转文”，通过对目标视频的音频数据进行文本转换而得。

步骤604：信息流平台对内容文本进行语句通顺度检测，得到对应内容文本的语句通顺度的评分。

步骤605：信息流平台获取语句通顺度参考评分。

这里，语句通顺度参考评分是通过将预设数量的样本文本输入到训练好的通顺度检测模型得到的语句通顺度评分的平均值，其中，样本文本都是含有描述性片段的标准文本。

步骤606：信息流平台获取第二语句通顺度评分与语句通顺度参考评分的比值。

步骤607：当比值大于比例阈值时，信息流平台确定目标视频中存在用于描述视频画面的描述性片段。

例如，假设语句通顺度参考评分为S₀，对应文本内容的语句通顺度评分为S，则通过S与S₀的差距来判断目标视频是否含有描述性片段。基于经验知识，当S与S₀之间的差距大于20％，即S/S₀<0.8时，则认为目标视频不存在用于描述视频画面的描述性片段；当S与S₀之间的差距小于等于20％，即S/S₀>＝0.8时，则认为目标视频中存在用于描述视频画面的描述性片段。

步骤608：信息流平台获取内容文本对应的多个分句文本。

其中，描述性片段中包括内容主题独立于目标视频的内容主题的子片段，子片段是指描述性片段中存在的与目标视频的内容主题相关性比较小、或无关的片段。

步骤609：信息流平台分别将各分句文本与标题文本进行相似度匹配，得到对应的相似度值。

这里，需分别将标题文本和各分句文本输入通用语义表示模型如BERT模型中，得到对应的标题向量与各分句文本对应的文本向量，然后分别将标题向量与各分句文本对应的文本向量进行相似度匹配，得到对应的相似度值。

步骤610：信息流平台基于各分句文本在内容文本的顺序，对相似度值进行排序，得到包含第一数量的相似度值的第一序列和包含第二数量的相似度值的第二序列。

这里，第一数量与第二数量之和为相似度值的总数，可根据经验值设置第一数量与第二数量的比例关系。

步骤611：信息流平台从第一序列中提取最大相似度值作为第一相似度值，以及从第二序列中提取最大相似度值作为第二相似度值。

步骤612：信息流平台将第一相似度值与第二相似度值进行比较，得到比较结果。

这里，可将第一相似度值与第二相似度值相除，得到第一相似度值与第二相似度值的比值。

步骤613：信息流平台基于比较结果，确定描述性片段中子片段的时长与目标视频的时长的相对关系。

这里，比值越大，说明描述性片段中子片段的时长相对于目标视频的时长越短，目标视频中存在与目标视频的内容主题没有相关性的描述性子片段就越短；否则，比值越小，说明描述性片段中子片段的时长相对于目标视频的时长越长，目标视频中存在与目标视频的内容主题没有相关性的描述性子片段就越长。

步骤614：当确定描述性片段中子片段的时长与目标视频的时长的比值未超过比例阈值时，将目标视频存储至待推荐视频库以推荐给第二客户端。

这里，第二客户端位于目标视频的接收侧，当描述性片段中子片段的时长与目标视频的时长的比值越大，说明目标视频中存在与目标视频的内容主题没有相关性的描述性子片段就越长，及铺垫越长；当描述性片段中子片段的时长与目标视频的时长的比值越小，说明目标视频中存在与目标视频的内容主题没有相关性的描述性子片段就越短，即铺垫越短。将描述性片段中子片段的时长与目标视频的时长的比值未超过比例阈值时，认为满足推荐条件，将满足推送条件的目标视频存储至待推荐视频库中以推荐给如浏览器或快报等信息流产品中供用户使用观看。

步骤615：第二客户端播放目标视频。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

短视频作为当下信息流的主要产品线之一，成为用户获取信息、娱乐等重要方式之一，然而作为“QQ看点”、“看点视频”、“QQ浏览器”等信息流产品，能否将高质量的短视频提供给用户成为当下信息流产品的核心痛点之一。

参见图7，图7为本发明实施例提供的观看视频的流程示意图，信息流用户观看视频的流程为：

步骤701：信息流用户获取目标视频的标题。

步骤702：根据目标视频的标题，确定是否有自己的感兴趣点。

这里，当根据目标视频的标题，确定有自己感兴趣点时，执行步骤703；当根据目标视频的标题，确定没有自己感兴趣点时，执行步骤705。

步骤703：进入目标视频，从目标视频中寻找兴趣点。

步骤704：判断目标视频中是否铺垫过长。

这里，当目标视频中铺垫过长时，执行步骤705；当目标视频中铺垫不长时，执行步骤706。

步骤705：厌烦，不观看目标视频。

步骤706：接受，继续观看目标视频。

从图7可知，如果目标视频中的铺垫过长，用户很难从短视频中快速获取到感兴趣点，从而引起用户的厌烦。由于信息流产品的非强相关性，使得其算法的依赖性相比其他产品作用更大，用户在使用短视频产品时，因其性格、所在环境等不同，对于短视频的铺垫长短容忍度也各不相同。因此，能否帮助推荐侧更好的制定推荐策略而将高质量的短视频提供给用户成为当下信息流产品的核心痛点之一，而相关技术由于无法确定铺垫时长与视频时长的相对关系，进而也就无法有效识别短视频是否为铺垫过长，给用户带来不好的体验。

基于此，本发明实施例提供一种视频数据的处理方法，通过对目标视频的内容文本(即音转文)进行语句通顺度检测，确定了目标视频中是否存在用于描述视频画面的描述性片段(即解说)，其中，描述性片段中包括内容主题独立于目标视频的内容主题的子片段(即铺垫)，当存在描述性片段时，对内容文本进行分句处理，得到内容文本对应的多个分句文本，并通过分别将各分句文本与目标视频的标题文本进行相似度匹配，确定描述性片段中子片段的时长与目标视频的时长的相对关系，如此，实现长文本与短文本之间的恰当匹配，进而有效识别出目标视频是否为铺垫过长。

参见图8，图8为本发明实施例提供的视频数据的处理方法的一个可选的流程示意图，如图8所示，本发明实施例提供的视频数据的处理方法包括：

步骤801：信息流平台获取信息流产品中的目标视频数据。

步骤802：信息流平台获取可以利用的目标视频的标题和内容文本。

步骤803：基于获取的目标视频的标题和内容文本构建内容匹配模型。

步骤804：基于构建好的内容匹配模型，得到目标视频的铺垫是否过长的识别结果。

如图8所示，本发明实施例提供的视频数据的处理方法的整体流程包括：识别目标视频是否包含用于描述视频画面的描述性片段(即解说)、目标视频的内容文本(即音转文)的分句文本、目标视频的分句文本与标题文本的匹配模型、及目标视频铺垫过长决策机制，接下来逐一进行介绍：

1、使用语言模型识别目标视频是否含有解说

在实际应用中，目标视频包括视频画面及对视频画面进行描述的描述性片段(即解说)，由于含有描述性片段(即解说)的目标视频的内容文本语句较为通顺，并且能够构成完整的句子，而不含有描述性片段(即解说)的目标视频的内容文本对应的是其背景音的识别结果，语句不通顺，不能够构成完整的句子。在实际实施时，对目标视频的内容文本进行识别的流程为：

1)使用内容中心历史出库的文章数据构造语句通顺度检测模型(即语言模型)训练集；

2)使用kenlm训练语言模型；

3)随机选择2000篇短视频数据，选择500篇短视频“音转文”基础数据，要求该基础数据都是含有解说的标准数据；

4)使用训练好的kenlm语言模型计算基础数据的语言模型平均得分S₀；

5)计算目标视频“音转文”的语言模型得分S_i，如果S_i与S₀之间的差距大于20％，则认为目标视频不包含有解说，即S_i<0.8S₀，则目标视频不含解说。

在实际应用中，当目标视频中含有解说时，解说中又有可能含有内容主题与短视频的内容主题的无关的描述性子片段(即铺垫)，因此，接下来将对目标视频中是否含有铺垫进行检测。

2、目标视频的内容文本的分句

这里，可先基于内容文本(即音转文)中的标点符号，将比较长的内容文本分成多个短的分句文本，例如，可以用python中的re模块实现，

import re

sent_segs＝re.findall(".*？[。！？]",content)

其中，content为内容文本，sent_segs为计算后的结果。

3、目标视频的内容文本的各分句文本与标题的向量模型

1)将内容文本的各分句文本与标题作为BERT模型输入；

[cls]+“音转文”句子+[seq]

2)使用BERT模型计算句子向量，输入为内容文本与标题文本，输出为向量；

3)取cls对应的向量作为最终的文本向量输出。

这里，由于BERT模型的任务是预测词，预测时需考虑其他的词，由于cls没有明显语义信息，所以它更公平地融合文本中各个字/词的语义信息。在实际应用中，以文本中各个字/词的一维向量作为BERT模型的输入，经BERT模型处理后得到输入的各字对应的融合全文语义信息后的向量表示。因此，将标题文本输入BERT模型，得到对应的标题向量；分别将各分句文本输入BERT模型，得到对应的文本向量。

4、目标视频铺垫过长决策机制

1)分别计算标题向量与各分句文本对应的文本向量之间的余弦相似度，得到对应的余弦相似度值；

2)基于各分句文本在内容文本的顺序，对相似度值进行排序，得到相似度值序列；

3)将相似度序列中前十分之三的分句文本与标题文本的相似度值的最高值与后十分之七的分句文本与标题文本的相似度值的最高值做比，得到比值，当比值小于等于0.8的目标视频识别为铺垫过长。

这里，在实际应用中，根据经验，将相似度序列分割成包含第一数量的相似度值的第一序列和包含第二数量的相似度值的第二序列；从第一序列中提取最大相似度值作为第一相似度值，以及从第二序列中提取最大相似度值作为第二相似度值，将第一相似度值与第二相似度值做比，得到比值；基于比值，确定描述性片段中子片段(即铺垫)的时长与目标视频的时长的相对关系。

例如，标视频的内容文本共有10个分句文本，通过计算各分句文本的文本向量与标题文本的标题向量之间的余弦相似度，得到各分句文本与标题文本之间的相似度值组成的相似度值序列为：[score₁，score₂，...，score₁₀]，其中，score₁为第一个分句文本与标题文本的余弦相似度，score₂为第二个分句文本与标题文本的余弦相似度，以此类推。根据经验，可将相似度值序列的前十分之三作为第一序列：[score₁，score₂，score₃]，将相似度值序列的后十分之七作为第二序列：[score₄，score₅，...，score₁₀]。

从第一序列中提取最大的相似度值作为第一相似度值top＝max([score₁，score₂，score₃])，从第二序列中提取最大的相似度值作为第二相似度值end＝([score₄，score₅，...，score₁₀])，获取第一相似度值top与第二相似度值end的比值a＝top/end，则a表征了描述性片段中子片段的时长相对于目标视频的时长的相对关系，a越大，表征描述性片段中子片段的时长相对于目标视频的时长就越短，由于描述性片段是用于对目标视频的视频画面进行描述的片段，而子片段是与目标视频的内容主题没有相关性的片段，那么a越大，也意味着目标视频中存在与目标视频的内容主题没有相关性的描述性子片段(即铺垫)就越短；相应地，a越小，表征目标视频中的铺垫就越长。

若上述a小于等于0.8，则确定目标视频存在过长的与目标视频的主题内容不相关的描述，即目标视频识别为铺垫过长，将目标视频设置为不推荐；若上述a大于0.8，则确定目标视频不存在过长的与目标视频的主题内容不相关的描述，即目标视频识别为铺垫不过长，此时，将目标视频存储至待推荐视频库中以用于推送给如浏览器或快报等信息流产品中。

通过本发明实施例提供的上述视频数据的处理方法，识别出短视频中含有铺垫过长的视频，并且在信息流产品(看点视频、浏览器、快报)中将这些铺垫过长的短视频置为不推荐，可以有效的提高用户体验。

下面继续说明本发明实施例提供的视频数据的处理装置255实施为软件模块的示例性结构，在一些实施例中，如图2及图9所示，存储在存储器250的视频数据的处理装置255中的软件模块可以包括：第一获取模块2551、检测模块2552、第二获取模块2553、匹配模块2554和确定模块2555。

第一获取模块2551，用于获取目标视频的标题文本及内容文本；

检测模块2552，用于对所述内容文本进行语句通顺度检测，得到对应所述内容文本的语句通顺度；

第二获取模块2553，用于基于所述语句通顺度，确定所述目标视频中存在用于描述视频画面的描述性片段时，获取所述内容文本对应的多个分句文本；所述描述性片段中包括内容主题独立于所述目标视频的内容主题的子片段；

匹配模块2554，用于分别将各所述分句文本与所述标题文本进行相似度匹配，得到对应的多个相似度值；

确定模块2555，用于基于所述相似度值，确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系。

在一些实施例中，所述检测模块，还用于对所述内容文本进行分句处理，得到对应的多个分句文本；

在一些实施例中，所述第二获取模块，还用于获取语句通顺度参考评分；

在一些实施例中，所述匹配模块，还用于对所述标题文本进行向量转换，得到对应的标题向量；

在一些实施例中，所述确定模块，还用于基于各所述分句文本在所述内容文本的顺序，对所述相似度值进行排序，得到包含第一数量的相似度值的第一序列和包含第二数量的相似度值的第二序列；

在一些实施例中，所述确定模块，还用于从所述第一序列中提取最大相似度值作为第一相似度值，以及从所述第二序列中提取最大相似度值作为第二相似度值；

在一些实施例中，所述确定模块，还用于对所述第一数量的相似度值进行加权求平均，得到对应的第三相似度值，以及对所述第二数量的相似度值进行加权求平均，得到对应的第四相似度值；

在一些实施例中，所述确定模块，还用于基于各所述分句文本在所述内容文本的顺序，对所述相似度值进行排序，得到对应的相似度值序列；

在一些实施例中，所述装置还包括推荐模块，所述推荐模块，用于获取所述描述性片段中子片段的时长与所述目标视频的时长的比值；

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种视频数据的处理方法，其特征在于，所述方法包括：

获取目标视频的标题文本及内容文本；

2.如权利要求1所述的方法，其特征在于，所述对所述内容文本进行语句通顺度检测，得到对应所述内容文本的语句通顺度，包括：

对所述内容文本进行分句处理，得到对应的多个分句文本；

3.如权利要求2所述的方法，其特征在于，所述基于所述语句通顺度，确定所述目标视频中存在用于描述视频画面的描述性片段，包括：

获取语句通顺度参考评分；

4.如权利要求1所述的方法，其特征在于，所述分别将各所述分句文本与所述标题文本进行相似度匹配，得到对应的多个相似度值，包括：

对所述标题文本进行向量转换，得到对应的标题向量；

5.如权利要求1所述的方法，其特征在于，所述基于所述相似度值，确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系，包括：

基于各所述分句文本在所述内容文本的顺序，对所述相似度值进行排序，得到包含第一数量的相似度值的第一序列和包含第二数量的相似度值的第二序列；

6.如权利要求5所述的方法，其特征在于，所述基于所述第一序列及所述第二序列，确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系，包括：

从所述第一序列中提取最大相似度值作为第一相似度值，以及从所述第二序列中提取最大相似度值作为第二相似度值；

7.如权利要求5所述的方法，其特征在于，所述基于所述第一序列及所述第二序列，确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系，包括：

对所述第一数量的相似度值进行加权求平均，得到对应的第三相似度值，以及对所述第二数量的相似度值进行加权求平均，得到对应的第四相似度值；

8.如权利要求1所述的方法，其特征在于，所述基于所述相似度值，确定所述描述性片段中子片段的时长与所述目标视频的时长的相对关系，包括：

基于各所述分句文本在所述内容文本的顺序，对所述相似度值进行排序，得到对应的相似度值序列；

9.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述描述性片段中子片段的时长与所述目标视频的时长的比值；

10.一种视频数据的处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标视频的标题文本及内容文本；

11.一种视频处理的电子设备，包括处理器及存储器，所述存储器用于存储可执行指令，所述处理器用于获取所述存储器中的可执行指令并执行如权利要求1-9任一项中所述的方法。

12.一种存储介质，其特征在于，所述存储介质包括存储的可执行指令，其中，所述可执行指令运行时执行上述权利要求1至9任一项中所述的方法。