CN112541095A

CN112541095A - 视频标题生成方法、装置、电子设备及存储介质

Info

Publication number: CN112541095A
Application number: CN202011378455.9A
Authority: CN
Inventors: 于洋
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-23
Anticipated expiration: 2040-11-30
Also published as: CN112541095B

Abstract

本发明实施例提供了一种视频标题生成方法、装置、电子设备及存储介质。该方法包括：获取待生成标题的目标视频的台词内容；对所获取台词内容进行语句划分，得到各个语句；对所述各个语句进行人称代词消歧处理，得到消歧后的各个语句；从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题。通过本方案，可以解决现有技术中标题生成效率较低的问题。

Description

视频标题生成方法、装置、电子设备及存储介质

技术领域

本发明涉及视频处理技术领域，特别是涉及视频标题生成方法、装置、电子设备及存储介质。

背景技术

随着移动终端普及和网络的提速，视频越来越受到用户的青睐，例如：由于短视频适合在移动状态和短时休闲状态下观看，越来越受到用户的青睐。为了吸引用户以及方便用户区分各条视频，每条视频通常需要具有视频标题。

现有技术中，通过人工方式，生成视频的视频标题，即通过相关人员为视频进行命名。

但是，通过人工方式生成视频的标题时，需要人工观看视频，进而基于视频的视频内容来生成视频标题，这样导致视频标题生成效率较低，显然无法适用于海量的视频的标题生成需求。

发明内容

本发明实施例的目的在于提供视频标题生成方法、装置、电子设备及存储介质，以解决现有技术中视频标题生成效率较低的问题。具体技术方案如下：

第一方面，本发明实施例提供了一种视频标题生成方法，包括：

获取待生成标题的目标视频的台词内容；

对所获取台词内容进行语句划分，得到各个语句；

对所述各个语句进行人称代词消歧处理，得到消歧后的各个语句；

从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题。

可选地，所述从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题之后，所述方法还包括：

按照预定的标题修正方式，对所述视频标题进行内容修正处理，得到所述目标视频的修正后的视频标题。

可选地，所述按照预定的标题修正方式，对所述视频标题进行内容修正处理，得到所述目标视频的修正后的视频标题，包括：

基于预设的多个标题模板，对所述视频标题进行内容修正处理，得到所述目标视频的修正后的视频标题；

其中，每一标题模板为对符合预定的高质量条件的样本标题进行预定模板化处理后所形成的标题，其中，所述预定模板化处理为以占位字符替代实体，不同的占位符用于替换不同的实体。

可选地，所述基于预设的多个标题模板，对所述视频标题进行内容修正处理，得到所述目标视频的修正后的视频标题，包括：

从预先设定的动词词典中，确定所包含动词与所述视频标题中动词相同的词典条目，作为目标条目；其中，所述动词词典中的每一词典条目对应有存在相同动词的至少一个标题模板，且每一词典条目中包括该词典条目对应的至少一个标题模板中的目标动词和目标占位符的对应关系，所述目标占位符为所述至少一个标题模板中，与所述目标动词关联的实体的占位符；

从所述目标条目对应的至少一个标题模板中，选取包含所述视频标题中除实体以外的内容的标题模板，作为目标标题模板；

从所述目标条目中，确定所述视频标题中的动词对应的目标占位符，作为待替换占位符；

利用所述视频标题中的动词关联的实体，替换所述目标标题模板中的所述待替换占位符，得到所述目标视频的修正后的视频标题。

可选地，所述从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题之前，所述方法还包括：

针对消歧后的每一语句，在该语句中包含人物类的实体时，则确定所述目标视频中的、包含该语句对应的目标视频帧的连续N帧，确定所述连续N帧中所存在的人物角色；若确定出的人物角色中未包含该语句中的人物类的实体，则丢弃该语句；

该语句对应的目标视频帧为：所述目标视频中包含该语句消歧之前的内容的视频帧。

可选地，所述对所述各个语句进行人称代词消歧处理，得到消歧后的各个语句，包括：

针对所述各个语句中的每一语句，若检测到该语句中存在人称代词，则预测该语句中的人称代词指代各个目标实体的概率，并以概率最高的目标实体替换该语句中的人称代词，得到消歧后的该语句；若检测到该语句中未存在人称代词，则将该语句作为消歧后的语句；

其中，各个目标实体包括：对该语句和该语句之前的N个语句进行实体识别所得到的实体。

可选地，所述预测该语句中的人称代词指代各个目标实体的概率，包括：

利用预先训练完成的人称代词消歧模型，预测该语句中的人称代词指代各个目标实体的概率；

其中，所述人称代词消歧模型为基于第一样本数据和第一样本数据的标签内容，对初始的神经网络模型进行训练所得到的模型；所述第一样本数据为由多个样本语句构成且包含人称代词和人称代词所指代实体的文本内容，所述第一样本数据的标签内容为所述第一样本数据所包含人称代词指代所述第一样本数据的各个实体的概率。

可选地，所述对所获取台词内容进行语句划分，得到各个语句，包括：

对所获取的台词内容进行标点预测，得到预测结果；

基于所得到的预测结果，对所获取台词内容进行语句划分，得到各个语句。

可选地，所述对所获取的台词内容进行标点预测，得到预测结果，包括：

利用预先训练完成的序列标注模型，对所获取的台词内容进行标点预测，得到预测结果；

其中，该序列标注模型为基于第二样本数据和第二样本数据的标签内容，对初始的序列标注模型所训练得到的模型；所述第二样本数据为缺失标点的文本内容，所述第二样本数据的标签内容是：为所述第二样本数据中每个字符所标注的标点。

可选地，所述从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题，包括：

针对消歧后的每一语句，对该语句的内容质量进行质量评分，得到该语句的评分结果；

从消歧后的各个语句中，选取评分结果最高的语句，作为所述目标视频的视频标题。

第二方面，本发明实施例提供了一种视频标题生成装置，包括：

内容获取模块，用于获取待生成标题的目标视频的台词内容；

第一语句获得模块，用于对所获取台词内容进行语句划分，得到各个语句；

第二语句获得模块，用于对所述各个语句进行人称代词消歧处理，得到消歧后的各个语句；

标题生成模块，用于从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面所提供的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所提供的方法步骤。

本发明所提供的方案中，获取待生成标题的目标视频的台词内容；对所获取台词内容进行语句划分，得到各个语句；对各个语句进行人称代词消歧处理，得到消歧后的各个语句；从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为目标视频的视频标题。可见，本方案无需借助人工方式，而是基于视频的台词内容的消歧后的各个语句，自动生成视频的视频标题。因此，可以解决现有技术中视频的视频标题生成效率较低的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所提供的视频标题生成方法的流程图；

图2为本发明实施例所提供的视频标题生成方法的另一流程图；

图3为本发明实施例所提供的视频生成装置的结构示意图；

图4为本发明实施例所提供的视频生成装置的另一结构示意图；

图5为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了解决现有技术问题，本发明实施例提供了一种视频标题生成方法、装置、电子设备及存储介质。

其中，本发明实施例所提供的一种视频生成方法可以应用于电子设备。在具体应用中，该电子设备可以服务器，当然也可以为终端设备。

另外，待生成标题的视频可以为短视频，也可以为长视频，其中，短视频为时长从几秒到几分钟的视频，而长视频是相对于短视频而言的，时长较长的视频。并且，短视频可以为短视频平台待向用户展示的短视频，也可以为用户上传的短视频，等等，这都是合理的，并不做具体限定以方案能够实现为准。

其中，本发明实施例提供了一种视频标题生成方法，可以包括：

获取待生成标题的目标视频的台词内容；

对所获取台词内容进行语句划分，得到各个语句；

对各个语句进行人称代词消歧处理，得到消歧后的各个语句；

从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为目标视频的视频标题。

下面结合附图，对本发明实施例所提供的一种视频标题生成方法进行详细介绍。

如图1所示，本发明实施例提供了一种视频标题生成方法，可以包括：

S101，获取待生成标题的目标视频的台词内容；

可以理解的是，视频的台词内容可以体现出视频所表征的视频内容，而视频的视频标题需要能够体现出视频所表征的视频内容。因此，为了解决现有技术问题，本发明实施例所提供的方法中，可以首先获取待生成标题的目标视频的台词内容，进而利用所获取的台词内容，来生成目标视频的视频标题。

其中，若目标视频中的台词内容以字幕的形式体现在视频中，则可以获取待生成标题的目标视频的字幕内容，从而得到目标视频的台词内容。若目标视频的台词内容未以字幕的形式体现视频中，则可以对目标视频的音频进行语音识别，得到语音识别结果，作为该目标视频的台词内容。

关于对目标视频的音频进行语音识别的实现方式可以采用任一种语音识别方式，本发明实施例对此不做限定。另外，针对台词内容以字幕的形式体现在视频中而言，获取待生成标题的目标视频的台词内容的实现方式存在多种。为了布局清楚及方案清晰，下文对获取待生成标题的目标视频的台词内容的具体实现方式进行介绍。

S102，对所获取台词内容进行语句划分，得到各个语句；

在获取到该目标视频的台词内容后，考虑到台词内容是不存在标点的内容，而视频标题可以是一个语句，因此，可以对所获取的台词内容进行语句划分，得到该目标视频的多个语句。

可选地，在一种实现方式中，对所获取台词内容进行语句划分，得到各个语句，可以包括：

对所获取的台词内容进行标点预测，得到预测结果；

其中，所谓的标点预测，即预测台词内容中各文字后面的标点。这样，在获得预测结果后，可以将第一个指定标点之前的内容，以及，任意两个指定标点之间的内容，分别划分为一个语句，其中，指定标点的符号类型可以包括：句号、叹号和问号。并且，所划分得到的语句中可以包括预测到的标点。

举例而言：台词内容为“今天天气不错我们去郊游吧”，对于该台词内容的标点预测是指：预测“今天天气不错我们去郊游吧”中各个文字后面的标点。假设“错”字后面是句号，“吧”字后面是叹号，其余各个文字后面的标点均为空，那么，可以将“今天天气不错”作为一个语句，“我们去郊游吧”作为一个语句。假设“错”字后面是逗号，“吧”字后面是叹号，那么，可以将“今天天气不错，我们去郊游吧”作为一个语句，该“今天天气不错，我们去郊游吧”为包括预测到的标点的语句。

为了方案清楚及布局清晰，后续对所获取的台词内容进行标点预测，得到预测结果的具体实现方式进行介绍。

另外，针对台词内容以视频帧中字幕的形式体现的情况，还可以结合视频帧来对台词内容进行语句划分。针对该种处理思路，对所获取台词内容进行语句划分，得到各个语句，可以包括：

将属于不同视频帧的台词内容划分为不同的语句，得到各个语句。

上述的对所获取台词内容进行语句划分，得到各个语句的具体实现方式仅仅作为示例，并不应该构成对本发明实施例的限定。任一种能够对所获取台词内容进行语句划分的方式均可以应用于本发明实施例。

S103，对各个语句进行人称代词消歧处理，得到消歧后的各个语句；

有些语句中存在人称代词，如：你、我、他、她和它，这样会导致语句的表意不完整。考虑到视频标题是表意完整的语句，因此，在获取到各个语句后，可以对各个语句进行人称代词消歧处理，得到消歧后的各个语句。其中，由于消歧后的各个语句中不存在人称代词，因此，消歧后的每一语句属于表意完整的语句，且可以作为目标视频的描述性语句。

其中，对各个语句进行人称代词消歧处理，得到消歧后的各个语句的实现方式可以存在多种，例如：从各个语句中删除存在人称代词的语句，得到消歧后的各个语句等等。为了方案清楚及布局清晰，后续对所述各个语句进行人称代词消歧处理，得到消歧后的各个语句的其他实现方式进行详细介绍。

S104，从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题。

其中，消歧后的各个语句的具体数量可以为一个或多个。

当消歧后的各个语句的具体数量为一个时，可以直接将消歧后的语句，确定为该目标视频的视频标题。

当消歧后的各个语句的具体数量为多个时，从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题的具体实现方式存在多种。

可选地，在一种实现方式中，从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题，可以包括：

从消歧后的各个语句中，选取评分结果最高的语句，作为该目标视频的视频标题。

该种实现方式中，预定的标题选取条件可以包括：评分结果最高。并且，可以利用预先训练完成的质量评分模型，对消歧后的各个语句的内容质量进行质量评分。其中，该质量评分模型为基于第三样本数据和第三样本数据的标签内容，对初始的神经网络模型进行训练所得到的模型；该第三样本数据为样本视频的语句，第三样本数据的标签内容为该第三样本数据的质量评分。第三样本数据的质量评分为人工给定的评分，并且，在人工给定评分时所考虑的评判指标可以包括：信息量、通顺度及完整性，当然并不局限于此。其中，基于第三样本数据和第三样本数据的标签内容，对初始的神经网络模型进行训练的过程，与现有技术中的神经网络模型的训练过程类似，区别点在于所利用的样本数据和样本数据的标签内容不同。

可选地，在另一种实现方式中，从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题，可以包括：

从消歧后的各个语句中，选取评分结果大于预设阈值且包含实体的一个语句，作为该目标视频的视频标题。

该种实现方式中，预定的标题选取条件可以包括：评分结果大于预设阈值且包含实体。并且，本发明实施例中所述的实体为真实存在的具体的事物。实体的类型可以存在多种，并且可以基于视频的视频类型来确定。例如：如果视频为电视剧、综艺节目等以人物为主体的视频的片段，那么，该实体的类型可以为人物类的实体，例如人物角色；而如果视频为旅游节目等以非人物为主体的视频，那么，该实体的类型可以为地名、景点名称等非人物类。并且，判定消歧后的语句中是否包含实体的具体实现方式，可以与现有技术中判定任一语句中是否包含实体的方式相同，在此不做限定。

可选地，为了提升视频标题的趣味性，从而提升视频对于用户的吸引力，可以对目标视频的视频标题进行内容修正处理。在包含上述的S101-S104的各个步骤的基础上，如图2所示，本发明实施例所提供的一种视频标题生成方法，还可以包括：

S105，按照预定的标题修正方式，对该视频标题进行内容修正处理，得到该目标视频的修正后的视频标题。

其中，对该视频标题进行内容修正处理的具体实现方式，存在多种。

可选地，在一种实现方式中，按照预定的标题修正方式，对该视频标题进行内容修正处理，得到该目标视频的修正后的视频标题，可以包括：

在该视频标题的指定位置加上预定词语，得到该目标视频的修正后的视频标题。其中，该指定位置可以为该视频标题的头部，即第一个字符之前，或者，尾部，即最后一个字之后。该预定词汇可以预先在网络上筛选得到的流行词语，或者，提升趣味性的词语，等等。

可选地，在另一种实现方式中，按照预定的标题修正方式，对该视频标题进行内容修正处理，得到该目标视频的修正后的视频标题，可以包括：

基于预设的多个标题模板，对该视频标题进行内容修正处理，得到该目标视频的修正后的视频标题；

其中，每一标题模板为对符合预定的高质量条件的样本标题进行预定模板化处理后所形成的标题，其中，该预定模板化处理为以占位字符替代实体，不同的占位符用于替换不同的实体。

其中，占位符即是指先占住一个固定的位置，后续再往里面添加内容的符号。在保证不同的实体对应不同的占位符的前提下，占位符的具体符号形态，本发明实施例不做限定。示例性的，针对样本标题为：“小王猖狂不配合，小李轻松搞定！我服”，标题模板可以为[‘SBV_0’,‘猖狂’,‘不’,‘配合’，‘SBV_1’,‘轻松’,‘搞定’,‘！’‘我服’]，其中，‘SBV_0’和‘SBV_1’均为占位符。示例性的，针对样本标题为：“小王非常配合，小李轻轻松松搞定！”，标题模板可以为[‘SBV_2’,‘非常’,‘配合’，‘SBV_3’,‘轻轻松松’,‘搞定’,‘！”]，其中，‘SBV_2’和‘SBV_3’均为占位符。

具体而言，基于预设的多个标题模板，对该视频标题进行内容修正处理，得到该目标视频的修正后的视频标题，包括如下步骤A1-A4：

步骤A1，从预先设定的动词词典中，确定所包含动词与该视频标题中动词相同的词典条目，作为目标条目；

其中，该动词词典中的每一词典条目对应有存在相同动词的至少一个标题模板，且每一词典条目中包括该词典条目对应的至少一个标题模板中的目标动词和目标占位符的对应关系，该目标占位符为该至少一个标题模板中，与该目标动词关联的实体的占位符。

其中，任一动词关联的实体可以为在该动词之前的第一个实体。

步骤A2，从该目标条目对应的至少一个标题模板中，选取包含该视频标题中除实体以外的内容的标题模板，作为目标标题模板；

步骤A3，从该目标条目中，确定该视频标题中的动词对应的目标占位符，作为待替换占位符；

步骤A4，利用该视频标题中的动词关联的实体，替换该目标标题模板中的待替换占位符，得到该目标视频的修正后的视频标题。

在确定出各个标题模板后，由于通常对动词进行修正且动词是语句中的必备内容，因此，可以针对所确定出的各个标题模板，设置动词词典，从而基于动词词典，为视频标题匹配到样本标题。为了方便理解词典条目与标题模板的关系，下面结合示例进行说明：

针对标题模板1：[‘SBV_0’,‘猖狂’,‘不’,‘配合’，‘SBV_1’,‘轻松’,‘搞定’,‘！’]，以及，标题模板2：[‘SBV_2’,‘非常’,‘配合’，‘SBV_3’,‘轻轻松松’,‘搞定’,‘！”]，由于存在相同的动词，因此，标题模板1和标题模板2，可以对应同一词典条目A，该词典条目A可以为[‘配合’：‘SBV_0’，‘SBV_2’；‘搞定’：‘SBV_1’，‘SBV_3’]，可见，该词典条目A中包含标题模板1和2中的动词和目标占位符的关系，其中，‘SBV_0’，‘SBV_2’为与“配合”关联的实体的占位符，而‘SBV_1’，‘SBV_3’为与“搞定”关联的实体的占位符。

并且，所确定出的目标条目为所包含的所有动词与视频标题中的所有动词，均相同的条目，从而保证标题模板的准确性。示例性的，假设视频标题为：“林宗辉不配合，李飞把他搞定”，由于该视频标题中的各个动词为‘配合’和‘搞定’，而上述的词典条目A中的动词与该视频标题的所有动词均相同，因此，上述的词典条目A可以作为该视频标题的目标条目。

在确定出目标条目后，可以确定出该目标条目对应的至少一个样本标题，进而，基于该至少一个样本标题与该视频标题的匹配程度，来确定出该视频标题对应的待利用的目标标题模板。仍以上述示例进行说明：属于目标条目的词典条目A对应有标题模板1和标题目标2，通过内容匹配可知，标题模板1包含该视频标题的、除实体以外的内容，因此，标题模板1作为目标标题模板。

在确定出目标标题模板后，由于需要将视频标题中的实体添加至该目标标题模板中，为了确定出视频标题中的实体所添加的具***置，可以从该目标条目中，确定该视频标题中的动词对应的目标占位符，作为视频标题中动词对应的待替换占位符。具体而言，若该视频标题中的动词为多个，则针对该视频标题中的每一动词，从目标条目中，确定该动词对应的目标占位符，作为该动词对应的待替换占位符。示例性的：视频标题“林宗辉不配合，李飞把他搞定”中，基于目标条目可知，动词‘配合’对应的目标占位符为：‘SBV_0’，‘SBV_2’，而“搞定”对应的目标占位符为‘SBV_1’，‘SBV_3’，其中，‘SBV_0’，‘SBV_2’作为动词‘配合’相关联的实体的待替换占位符，而‘SBV_1’，‘SBV_3’作为动词‘搞定’相关联的实体对应的待替换占位符。

在确定出各个待替换占位符后，可以利用视频标题中的动词关联的实体，替换目标标题模板中的待替换占位符，得到该目标视频的修正后的视频标题。具体而言，若该视频标题中的动词为多个，则针对该视频标题中的每一动词，利用该动词关联的实体，替换该目标标题模板中该动词对应的待替换占位符，从而得到该目标视频的修正后的视频标题。示例性的，针对视频标题“林宗辉不配合，李飞把他搞定”，目标标题模板为[‘SBV_0’,‘猖狂’,‘不’,‘配合’，‘SBV_1’,‘轻松’,‘搞定’,‘！’]，针对视频标题中的‘配合’，其关联的的实体为‘林宗辉’，而动词‘搞定’相关联的实体为‘李飞’，并且，由于动词‘配合’对应的目标占位符为：‘SBV_0’，‘SBV_2’，动词‘搞定’对应的目标占位符为：‘SBV_1’，‘SBV_3’，因此，利用‘林宗辉’替换目标标题模板中的‘SBV_0’，且利用‘李飞’替换目标标题模板中的‘SBV_1’，最终所得到的修正后的视频标题为：“林宗辉猖狂不配合，李飞轻松搞定！”。

示例性的，在另一种实现方式中，基于预设的多个标题模板，对该视频标题进行内容修正处理，得到该短视频的修正后的视频标题，可以包括：

遍历多个标题模板，当遍历到每一个标题模板时，判断该标题模板是否包含该视频标题的、除实体以外的内容，如果包含，将遍历到的该标题模板作为目标标题模板，结束遍历；如果未包含，继续遍历下一标题模板；

针对视频标题中的每一动词，利用该动词相关联的实体，替换该目标标题模板中该动词相关联的占位符，得到该短视频的修正后的视频标题。

另外，需要说明的是，预设的多个标题模板的生成方式可以存在多种。

示例性的，该预定的高质量条件可以包括：内容质量的评分结果高于预定分数；相应的，预设的多个标题模板的生成方式可以包括：

获取多个样本标题；每一样本标题为一个视频的视频标题；

针对每一样本标题，对该样本标题进行质量评分，得到该样本标题的评分结果；

针对评分结果高于预定分数的每一样本标题，对该样本标题进行预定目标化处理，得到一个标题模板。

其中，对该样本标题进行质量评分的具体实现方式，可以参见上述的对消歧后的语句进行质量评分的方式，在此不做赘述。预定分数可以根据实际情况设定，例如：针对百分制而言，预定分数可以选取大于75的分值范围内的分值，针对十分制而言，该预定分数可以选取大于7.5的分值范围内的分值，当然并不局限于此。

示例性的，该预定的高质量条件可以包括：所对应视频的点击率高于预设点击率；相应的，预设的多个标题模板的生成方式可以包括：

获取多个样本标题；每一样本标题为一个视频的视频标题；

针对每一样本标题，确定该样本标题所属视频的点击率，作为该样本标题对应的点击率；

针对所对应点击率高于预定点击率阈值的每一样本标题，对该样本标题进行预定模板化处理，得到一个标题模板。

其中，预定点击率阈值可以根据实际情况设定，在此不做赘述。

并且，针对任一样本标题而言，任一样本标题中的实体的确定方式可以与现有技术中确定任一语句中的实体的具体实现方式相同，在此不做限定。举例而言：任一样本标题中的实体的确定方式可以包括：将该样本标题输入至预先训练的实体识别模型，得到该样本标题中的实体。其中，该实体识别模型为基于第四样本数据以及第四样本数据的标签内容，对初始的神经网络模型进行训练所得到的模型。其中，第四样本数据为表意完整的语句，该第四样本数据的标签内容可以为第四样本数据中每个文字标注是否属于实体的内容后所形成的内容。

可见，本方案无需借助人工方式，而是基于视频的台词内容，自动生成视频的视频标题。因此，可以解决现有技术中视频的视频标题生成效率较低的问题。并且，由于对视频的视频标题进行了内容修正，因此，可以保证视频标题具有趣味性，从而提升对于用户的吸引力。

为了方案清楚及布局清晰，针对台词内容以字幕形式存在的情况，下面介绍获取待生成标题的目标视频的台词内容的具体实现方式。

可选地，在第一种实现方式中，获取待生成标题的目标视频的台词内容，可以包括：

对待生成标题的目标视频的每一视频帧进行OCR(Optical CharacterRecognition，光学字符识别)处理，得到多个备选内容，并基于多个备选内容，确定待生成标题的目标视频的台词内容。

可选地，在第二种实现方式中，获取待生成标题的目标视频的字幕内容，可以包括：

按照预定的抽帧方式，对该目标视频进行抽帧处理，得到多个视频帧；分别对该多个视频帧中的每一视频帧进行OCR处理，得到多个备选内容，并基于多个备选内容，确定待生成标题的目标视频的台词内容。

由于相邻的视频帧的字幕内容可能具有相同的字幕内容，因此，为了降低数据处理量，对该目标视频进行抽帧处理，仅仅对抽帧得到的多个视频帧进行OCR处理。其中，预定的抽帧方式可以包括：每隔P1帧抽取一帧的方式。举例而言，为了保证字幕内容的完整性，P1的取值可以小于5，当然并不局限于此。

另外，上述的第一种实现方式和第二种实现方式中，基于多个备选内容，确定待生成标题的视频的台词内容的实现方式存在多种。例如，在获得多个备选内容后，可以直接将多个备选内容，作为待生成标题的目标视频的台词内容。又例如，对多个备选内容进行预定的过滤处理，得到待生成标题的目标视频的台词内容。

其中，该预定的过滤处理可以包括内容去重处理和/或不通顺语句删除处理。可以理解的是，由于相邻的视频帧的字幕内容可能具有相同的字幕内容，而同一字幕内容也可以在不相邻的视频帧中出现，因此，为了降低数据处理量，可以对该多个备选内容进行去重处理。而通过OCR处理所得到的备选内容可能属于语句不通顺的内容，该语句不通顺的内容无法表意完整，因此，可以对多个备选内容进行不通顺语句删除处理。当预定的过滤处理包括内容去重处理和不通顺语句删除处理时，可以先对多个备选内容进行内容去重处理，然后，对去重处理后剩余的内容进行不通顺语句删除处理；或者，可以先对多个备选内容进行不通顺语句删除处理，然后，对不通顺语句删除处理后剩余的内容进行内容去重处理。

示例性的，当采用内容去重处理方式时，对各个备选内容进行过滤，具体过程可以包括：

按照各个备选内容所属视频帧的帧顺序，对各个备选内容进行排序；在排序后，针对相邻的两个备选内容，计算该两个备选内容的编辑距离，若编辑距离小于预设距离阈值，则从该两个备选内容中去除一个备选内容；其中，该两个备选内容的编辑距离具体值：由一个备选内容转换为另一个备选内容所需要的最少单字符编辑操作次数。其中，该最少单字符编辑操作次数的计算方式可以通过现有技术来实现，本发明实施例对此不做限定。

示例性的，当采用不通顺语句删除处理方式时，对各个备选内容进行过滤，具体过程可以包括：

利用预先训练的语言模型，计算各个备选内容的困惑度，从各个备选内容中删除困惑度大于预设困惑度阈值的备选内容。其中，备选内容的困惑度越小，表明备选内容越通顺。

为了方案清楚及布局清晰，下面对所获取的台词内容进行标点预测的实现方式进行介绍。

可选地，在一种实现方式中，对所获取的台词内容进行标点预测，得到预测结果，可以包括：

利用预先训练完成的序列标注模型，对所获取的字幕内容进行标点预测；

其中，该序列标注模型为基于第二样本数据和第二样本数据的标签内容，对初始的序列标注模型所训练得到的模型；第二样本数据为缺失标点的文本内容，第二样本数据的标签内容是：为第二样本数据中每个字符所标注的标点。

其中，为第二样本数据中每个字符所标注的标点可以为预定标点集合中的标点，示例性的，预定标点集合中的标点可以包括：空、逗号、句号、叹号、问号等符号。假设第二样本数据为：“今天天气不错我们去野餐”，该第二样本数据的标签内容可以为：“今天天气不错，我们去野餐。”，其中，“错”字后面为逗号，“餐”字后面为句号，其余各字后面为空。

其中，本发明实施例中的该序列标注模型的具体结构可以参见现有技术，本发明实施例对此不做限定。另外，该序列标注模型的训练过程可以包括：

获取多个第二样本数据，以及每一第二样本数据的标签内容；

针对每一第二样本数据，将该第二样本数据输入至初始的序列标注模型中，得到预测结果；

利用各个第二样本数据和各个第二样本数据的标签内容，计算损失值；

当损失值小于预定损失阈值时，将当前的序列标注模型作为训练完成的序列标注模型；否则，调整当前的序列标注模型的网络参数，返回所述针对每一第二样本数据，将该第二样本数据输入至初始的序列标注模型中，得到预测结果的步骤，继续进行训练。

为了方案清楚及布局清晰，下面介绍对各个语句进行人称代词消歧处理，得到消歧后的各个语句的具体实现方式。

可选地，在一种实现方式中，对各个语句进行人称代词消歧处理，得到消歧后的各个语句，可以包括：

针对各个语句中的每一语句，若检测到该语句中存在人称代词，则预测该语句中的人称代词指代各个目标实体的概率，并以概率最高的目标实体替换该语句中的人称代词，得到消歧后的该语句；若检测到该语句中未存在人称代词，则将该语句作为消歧后的语句；

其中，任一语句中的人称代词的确定方式可以参见现有技术中确定任一语句中人称代词的实现方式，本发明实施例对此不作限定。

其中，预测该语句中的人称代词指代各个目标实体的概率，可以包括：

其中，人称代词消歧模型为基于第一样本数据和第一样本数据的标签内容，对初始的神经网络模型进行训练所得到的模型；第一样本数据为由多个样本语句构成且包含人称代词和人称代词所指代实体的文本内容，第一样本数据的标签内容为第一样本数据所包含人称代词指代第一样本数据的各个实体的概率。

其中，由于人称代词指代的实体通常包含在该人称代词所属语句，以及该人称代词所属语句之前的语句中，因此，在对存在人称代词的任一语句进行消歧时，可以先确定出该语句和该语句之前的N个语句的实体，得到各个目标实体；进而识别该语句中的人称代词指代各个目标实体的概率，并以概率最高的目标实体替换该语句中的人称代词，得到消歧后的该语句。

其中，该人称代词消歧模型的训练过程可以包括：

获取多个第一样本数据和第一样本数据的标签内容；

针对每一第一样本数据，将该第一样本数据输入至初始的神经网络模型中，得到预测结果；

利用各个第一样本数据和各个第一样本数据的标签内容，计算损失值；

当损失值小于预定损失阈值时，将当前的神经网络模型作为训练完成的人称代词消歧模型；否则，调整当前的神经网络模型的网络参数，返回所述针对每一第一样本数据，将该第一样本数据输入至初始的神经网络模型中，得到预测结果的步骤，继续进行训练。

另外，为了进一步保证消歧后的语句的有效性以及准确性，针对存在人物类的实体的目标视频而言，

从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题之前，所述方法还可以包括：

针对消歧后的每一语句，在该语句中包含人物类的实体时，则确定该目标视频中的、包含该语句对应的目标视频帧的连续N帧，确定该连续N帧中所存在的人物角色；若确定出的人物角色中未包含该语句中的人物类的实体，则丢弃该语句；

该语句对应的目标视频帧为：该目标视频中包含该语句消歧之前的内容的视频帧。

针对存在人物类的实体的视频而言，由于在视频帧的画面内容是与台词内容匹配的，那么，消歧后的语句中的人物类的实体，即人物角色，应该会出现该语句的目标视频帧对应的帧序列的视频画面中。因此，为了保证消歧后的语句的有效性，可以基于人脸识别方式，对消歧后的语句进行校验，从而保证消歧后的语句的有效性和准确性，从而进一步提升视频标题的有效性。

其中，任一语句中是否包含人物类的实体，可以通过现有的实体识别方式来确定，本发明实施例对此不做限定。并且，确定该连续N帧中所存在的人物角色的实现方式可以包括：对该连续N帧进行人脸识别，基于人脸识别结果确定该帧序列中所存在的人物角色。另外，N的数量可以根据情况设定，本发明实施例对此不作限定。

为了方便理解方案，下面以短视频作为目标视频为例，对本发明实施例所提供的一种视频标题生成方法进行介绍。其中，该短视频中的台词内容以字幕形式进行体现。

本发明实施例所提供的一种视频标题生成方法，可以包括如下步骤：

步骤一，对待生成标题的短视频的每一视频帧进行OCR处理，得到多个备选内容，并基于多个备选内容，确定待生成标题的目标视频的台词内容；

步骤二，利用预先训练完成的序列标注模型，对所获取的台词内容进行标点预测，得到预测结果；

步骤三，基于所得到的预测结果，对所获取台词内容进行语句划分，得到各个语句；

步骤四，针对各个语句中的每一语句，若检测到该语句中存在人称代词，则利用预先训练完成的人称代词消歧模型，预测该语句中的人称代词指代各个目标实体的概率，并以概率最高的目标实体替换该语句中的人称代词，得到消歧后的该语句；若检测到该语句中未存在人称代词，则将该语句作为消歧后的语句；

步骤五，针对消歧后的每一语句，在该语句中包含人物类的实体时，则确定该短视频中的、包含该语句对应的目标视频帧的连续N帧，确定该连续N帧中所存在的人物角色；若确定出的人物角色中未包含该语句中的人物类的实体，则丢弃该语句；

步骤六，针对消歧后的每一语句，利用预定的质量评分模型，对该语句的内容质量进行质量评分，得到该语句的评分结果；

其中，该质量评分模型为基于第三样本数据和第三样本数据的标签内容，对初始的神经网络模型进行训练所得到的模型；该第三样本数据为样本视频的语句，第三样本数据的标签内容为该第三样本数据的质量评分。

步骤七，从消歧后的各个语句中，选取评分结果最高的语句，作为该短视频的视频标题；

步骤八，从预先设定的动词词典中，确定所包含动词与该短视频的视频标题中动词相同的词典条目，作为目标条目；

其中，动词词典中的每一词典条目对应有存在相同动词的至少一个标题模板，且每一词典条目中包括该词典条目对应的至少一个标题模板中的目标动词和目标占位符的对应关系，目标占位符为至少一个标题模板中，与目标动词关联的实体的占位符。

步骤九，从目标条目对应的至少一个标题模板中，选取包含该短视频的视频标题中除实体以外的内容的标题模板，作为目标标题模板；

步骤十，针对该短视频的视频标题中的每一动词，从目标条目中，确定该动词对应的目标占位符，作为该动词对应的待替换占位符；

步骤十一，针对该短视频的视频标题中的每一动词，利用该短视频的视频标题中的该动词关联的实体，替换该目标标题模板中的该动词对应的待替换占位符，从而得到该短视频的修正后的视频标题。

假设通过步骤七确定出的该短视频的视频标题为：林宗辉不配合，李飞把他搞定；

那么，对经过步骤七所确定的视频标题，进行步骤八-步骤十一的修正处理，可以得到该短视频的修正后的视频标题：林宗辉猖狂不配合，李飞轻松搞定。

本方案无需借助人工方式，而是基于视频的台词内容，自动生成视频的视频标题。因此，可以解决现有技术中视频的视频标题生成效率较低的问题。并且，由于对视频的视频标题进行了内容修正，因此，可以保证视频标题具有趣味性，从而提升对于用户的吸引力。

基于上述的方法实施例，本发明实施例还提供了一种视频标题生成装置。如图3所示，本发明实施例所提供的视频标题生成装置可以包括：

内容获取模块310，用于获取待生成标题的目标视频的台词内容；

第一语句获得模块320，用于对所获取台词内容进行语句划分，得到各个语句；

第二语句获得模块330，用于对所述各个语句进行人称代词消歧处理，得到消歧后的各个语句；

标题生成模块340，用于从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题。

可选地，如图4所示，本发明实施例所提供的装置还可以包括：

修正模块350，用于在标题生成模块340从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题之后，按照预定的标题修正方式，对所述视频标题进行内容修正处理，得到所述目标视频的修正后的视频标题。

可选地，修正模块350具体用于：

可选地，所述标题生成模块340还用于从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题之前，针对消歧后的每一语句，在该语句中包含人物类的实体时，则确定所述目标视频中的、包含该语句对应的目标视频帧的连续N帧，确定所述连续N帧中所存在的人物角色；若确定出的人物角色中未包含该语句中的人物类的实体，则丢弃该语句；

可选地，所述第二语句获得模块330具体用于：

可选地，所述第二语句获得模块330预测该语句中的人称代词指代各个目标实体的概率，包括：

可选地，所述第一语句获得模块320，具体用于：

对所获取的台词内容进行标点预测，得到预测结果；

可选地，所述第一语句获得模块320对所获取的台词内容进行标点预测，得到预测结果，包括：

可选地，标题生成模块340具体用于：

所述从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题，包括：

另外，基于上述方法实施例，本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现本发明实施例所提供的视频标题生成方法的步骤。

上述通信总线可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述终端与其他设备之间的通信。存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所提供的视频标题生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本发明实施例所提供的视频标题生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、存储介质等实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频标题生成方法，其特征在于，包括：

获取待生成标题的目标视频的台词内容；

对所获取台词内容进行语句划分，得到各个语句；

2.根据权利要求1所述的方法，其特征在于，所述从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述按照预定的标题修正方式，对所述视频标题进行内容修正处理，得到所述目标视频的修正后的视频标题，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于预设的多个标题模板，对所述视频标题进行内容修正处理，得到所述目标视频的修正后的视频标题，包括：

5.根据权利要求1所述的方法，其特征在于，所述从消歧后的各个语句中，确定符合预定的标题选取条件的语句，作为所述目标视频的视频标题之前，所述方法还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述对所述各个语句进行人称代词消歧处理，得到消歧后的各个语句，包括：

7.根据权利要求6所述的方法，其特征在于，所述预测该语句中的人称代词指代各个目标实体的概率，包括：

8.根据权利要求1-5任一项所述的方法，其特征在于，所述对所获取台词内容进行语句划分，得到各个语句，包括：

对所获取的台词内容进行标点预测，得到预测结果；

9.根据权利要求8所述的方法，其特征在于，所述对所获取的台词内容进行标点预测，得到预测结果，包括：

10.根据权利要求1-5任一项所述的方法，其特征在于，

11.一种视频标题生成装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-10任一所述的方法步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-10任一所述的方法步骤。