CN108495185A

CN108495185A - 一种视频标题生成方法和装置

Info

Publication number: CN108495185A
Application number: CN201810210914.9A
Authority: CN
Inventors: 杨振坤
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2018-09-04
Anticipated expiration: 2038-03-14
Also published as: CN108495185B

Abstract

本发明实施例提供了一种视频标题生成方法和装置，上述方法包括：通过视频播放设备播放目标视频，当接收到用户输入的图像获取指令时，获取目标图像，对目标图像进行文字识别，得到目标文字对应的目标文本，根据目标文本生成目标视频标题。基于上述处理，可以识别出目标图像中的目标文字，得到目标文本，进而生成目标视频标题，能够提高视频标题生成的效率。

Description

一种视频标题生成方法和装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种视频标题生成方法和装置。

背景技术

视频标题具有唯一的代表性，能够帮助用户快速了解视频的内容，也可以在一定程度上提高视频的播放量。通常，用户在制作包含视频的节目时，需要为视频输入视频标题。现有技术中，用户在预览一段视频后，可以根据该视频中出现的文字确定视频标题，然后，用户可以手动输入视频标题。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

用户首先需要浏览视频内容中的文字，然后，用户根据浏览到的文字确定视频标题，并手动输入确定的视频标题，最后，用户需要核对视频标题是否输入正确。如果视频标题输入错误，用户需要重新输入视频标题。可见，现有技术中视频标题生成的效率低。

发明内容

本发明实施例的目的在于提供一种视频标题生成方法和装置，以提高视频标题生成的效率。具体技术方案如下：

第一方面，为了达到上述目的，本发明实施例公开了一种视频标题生成方法，上述方法包括：

通过视频播放设备播放目标视频；

当接收到用户输入的图像获取指令时，获取目标图像，其中，所述目标图像为所述目标视频中包含目标文字的图像；

对所述目标图像进行文字识别，得到所述目标文字对应的目标文本；

根据所述目标文本生成目标视频标题。

可选的，所述图像获取指令中携带有所述目标图像所在的目标帧图像的图像标识及所述目标图像在所述目标帧图像中的坐标信息；

所述获取目标图像，包括：

根据所述图像标识，获取所述目标帧图像；

根据所述坐标信息，从所述目标帧图像中提取所述目标图像。

可选的，所述根据所述目标文本生成目标视频标题，包括：

接收所述用户输入的对应所述目标文本中的多余文字的删除指令，

将所述多余文字从所述目标文本中删除，得到目标视频标题。

可选的，所述根据所述目标文本生成目标视频标题，包括：

接收所述用户输入的添加指令，其中，所述添加指令中携带有所述用户需要添加的文字及所述需要添加的文字在所述目标文本中的位置信息；

将所述用户需要添加的文字添加到所述目标文本中对应的位置，得到目标视频标题。

可选的，当接收到的图像获取指令为多个时，所述根据所述目标文本生成目标视频标题，包括：

接收所述用户输入的选择指令；

从获取的各目标文本中获取所述用户选择的目标标题文本；

根据所述目标标题文本生成目标视频标题。

可选的，在所述根据所述目标文本生成目标视频标题之后，所述方法还包括：

将所述目标视频标题发送至预设的用户终端，以使所述用户终端输出所述目标视频标题。

第二方面，为达到上述目的，本发明实施例公开了一种视频标题生成装置，上述装置包括：

播放模块，用于通过视频播放设备播放目标视频；

获取模块，用于当接收到用户输入的图像获取指令时，获取目标图像，其中，所述目标图像为所述目标视频中包含目标文字的图像；

识别模块，用于对所述目标图像进行文字识别，得到所述目标文字对应的目标文本；

生成模块，用于根据所述目标文本生成目标视频标题。

所述获取模块，具体用于根据所述图像标识，获取所述目标帧图像；

可选的，所述生成模块，具体用于接收所述用户输入的对应所述目标文本中的多余文字的删除指令，

可选的，所述生成模块，具体用于接收所述用户输入的添加指令，其中，所述添加指令中携带有所述用户需要添加的文字及所述需要添加的文字在所述目标文本中的位置信息；

可选的，当接收到的图像获取指令为多个时，所述生成模块，具体用于接收所述用户输入的选择指令；

从获取的各目标文本中获取所述用户选择的目标标题文本；

根据所述目标标题文本生成目标视频标题。

可选的，所述装置还包括：

发送模块，用于将所述目标视频标题发送至预设的用户终端，以使所述用户终端输出所述目标视频标题。

在本发明实施的另一方面，为了达到上述目的，本发明实施例还公开了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现如上述第一方面所述的视频标题生成方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，实现如上述第一方面所述的视频标题生成方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的视频标题生成方法。

本发明实施例提供的视频标题生成方法和装置，可以通过视频播放设备播放目标视频，当接收到用户输入的图像获取指令时，获取目标图像，对目标图像进行文字识别，得到目标文字对应的目标文本，根据目标文本生成目标视频标题。基于上述处理，可以识别出目标图像中的目标文字，得到目标文本，进而生成目标视频标题，能够提高视频标题生成的效率。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种视频标题生成方法的流程图；

图2为本发明实施例提供的一种获取目标图像方法的流程图；

图3为本发明实施例提供的一种对目标文本进行修改方法的流程图；

图4为本发明实施例提供的第二种对目标文本进行修改方法的流程图；

图5为本发明实施例提供的一种视频标题生成方法的应用场景图；

图6为本发明实施例提供的一种视频标题生成装置的结构图；

图7为本发明实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

现有技术中，在生成视频标题的过程中，用户首先需要浏览视频内容中的文字，然后，用户根据浏览到的文字确定视频标题，并手动输入确定的视频标题，最后，用户需要核对视频标题是否输入正确。如果视频标题输入错误，用户需要重新输入视频标题。可见，现有技术中视频标题生成的效率低。

基于上述考虑，本发明申请提供了一种视频标题生成方法和装置，可以应用于电子设备，该电子设备可以是终端，也可以是服务器。上述电子设备可以通过视频播放设备播放目标视频。当接收到用户输入的图像获取指令时，电子设备可以获取目标图像，并对目标图像进行文字识别，得到目标文字对应的目标文本。然后，电子设备可以根据目标文本生成目标视频标题。基于上述处理，电子设备可以识别出目标图像中的目标文字，得到目标文本，进而生成目标视频标题，能够提高视频标题生成的效率。

参见图1，图1为本发明实施例提供的一种视频标题生成方法的流程图，包括：

S101：通过视频播放设备播放目标视频。

在实施中，当用户制作电视节目时，需要为电视节目所需要的目标视频制作视频标题。通常，目标视频可以是视频内容中包含制作视频标题所需的文字的视频。针对新闻视频，该新闻视频的制作者通常会将能够代表该新闻视频的内容的文字标注在该新闻视频中，例如，一段新闻视频中可以出现带有“建国六十周年庆典”文字的图像，还可以出现带有“香港回归二十周年”文字的图像。

电子设备可以通过视频播放设备播放目标视频，具体的，当电子设备为终端时，电子设备可以将目标视频发送至该电子设备的显示器(视频播放设备)，以播放目标视频；当电子设备为服务器时，电子设备可以将目标视频发送至带有显示器的显示终端(视频播放设备)，以使显示终端播放目标视频。具体的，电子设备可以首先对目标视频进行压缩，然后将压缩后的目标视频发送至显示终端，能够提高目标视频的传输速率，进一步提高视频标题生成的效率。

S102：当接收到用户输入的图像获取指令时，获取目标图像。

其中，目标图像可以是目标视频中包含目标文字的图像，目标文字可以是用户用于生成视频目标视频标题的文字，例如，目标文字可以包含目标视频的主题或者关键字。

在实施中，用户可以通过视频播放设备观看目标视频。当用户观看的目标视频中的某一帧图像中含有用户需要的目标文字时，可以向电子设备输入图像获取指令。电子设备则可以接收到图像获取指令，获取当前时刻视频播放设备播放的视频画面，作为目标图像。其中，目标图像可以是目标视频中的一帧图像，具体的，电子设备可以根据目标视频已播放的时长，确定当前时刻视频播放设备正在播放的一帧图像，作为目标图像。目标图像也可以是一帧图像中只包含目标文字部分的图像。对于目标图像是一帧图像中的只包含目标文字部分的图像的情况，将在后续实施例中详细介绍目标图像的获取过程。

S103：对目标图像进行文字识别，得到目标文字对应的目标文本。

在实施中，电子设备中可以预先存储文字识别算法，根据文字识别算法，识别出目标图像中的文字(目标文字)，得到目标文本。其中，文字识别算法可以是OCR(OpticalCharacter Recognition，光学字符识别)算法，该算法可以检测图像中的字符，通过检测暗、亮的模式确定字符的形状，然后用字符识别方法将形状翻译成文字。

S104：根据目标文本生成目标视频标题。

在实施中，电子设备可以根据目标文本生成目标视频标题。在生成目标视频标题的过程中，电子设备还可以接收用户输入的修改指令，根据修改指令对目标文本进行修改，生成目标视频标题。具体的，电子设备对目标文本进行修改的方法将在后续实施例中详细介绍。

由以上可见，基于本发明实施例的视频标题生成方法，电子设备可以识别出目标图像中的目标文字，得到目标文本，进而生成目标视频标题，能够提高视频标题生成的效率。

可选的，目标图像可以是一帧图像中只包含目标文字部分的图像。具体的，参见图2，图2为本发明实施例提供的一种获取目标图像方法的流程图，其中，图像获取指令中可以携带有目标图像所在的目标帧图像的图像标识及目标图像在目标帧图像中的坐标信息，上述方法包括：

S201：根据图像标识，获取目标帧图像。

其中，图像标识可以是目标帧图像在目标视频中的时间戳，也可以是目标帧图像在目标视频的所有帧图像中排列的序号。

在实施中，当用户观看的目标视频中的某一帧图像中含有用户需要的目标文字时，如果电子设备是终端(可以是电脑)，用户可以向电子设备输入图像获取指令，示例性的，用户可以在电脑的键盘上按下预先设置的截图快捷键“R”键，其中，截图快捷键可以由用户设置。电子设备则可以获取显示器当前时刻播放的视频画面，作为目标帧图像。如果电子设备是服务器，用户可以向电子设备输入图像获取指令，电子设备则可以确定当前时刻视频播放设备正在播放的一帧图像，此时，电子设备可以从本地存储的该目标视频中获取对应的高清的帧图像，作为目标帧图像，并将目标帧图像发送至视频播放设备。

S202：根据坐标信息，从目标帧图像中提取目标图像。

其中，当目标图像为矩形时，坐标信息可以包括目标图像的四个顶点像素在目标帧图像中的坐标；如果目标图像为其他形状，坐标信息可以包括目标图像的边缘的像素在目标帧图像中的坐标。

在实施中，当用户观看的目标视频中的某一帧图像中含有用户需要的目标文字时，还可以直接在视频播放设备中框选出目标图像。电子设备可以根据坐标信息，在目标帧图像中确定出目标图像的位置，进而获得目标图像。

由以上可见，基于本发明实施例的视频标题生成方法，电子设备获取的目标图像可以是目标帧图像中只包含目标文字部分的图像，能够提高文字识别的精确度，进而提高视频标题生成的效率。

可选的，参见图3，图3为本发明实施例提供的一种对目标文本进行修改方法的流程图，包括：

S301：接收用户输入的对应目标文本中的多余文字的删除指令。

其中，多余文字可以是一个，也可以是多个。

在实施中，当用户浏览确定出的目标文本时，如果用户需要删除目标文本中的多余文字，可以向电子设备输入删除指令，电子设备则可以接收到删除指令。

S302：将多余文字从目标文本中删除，得到目标视频标题。

在实施中，电子设备接收到删除指令后，可以将多余文字从目标文本中删除。

由以上可见，基于本发明实施例的视频标题生成方法，电子设备可以删除目标文本中的多余文字，满足用户的个性化需求，提高用户体验。

可选的，参见图4，图4为本发明实施例提供的第二种对目标文本进行修改方法的流程图，包括：

S401：接收用户输入的添加指令。

其中，添加指令中可以携带有用户需要添加的文字及需要添加的文字在目标文本中的位置信息。需要添加的文字可以是一个，也可以是多个。

在实施中，当用户浏览确定出的目标文本时，如果用户需要在目标文本中添加文字，可以向电子设备输入添加指令，电子设备则可以接收到添加指令。

S402：将用户需要添加的文字添加到目标文本中对应的位置，得到目标视频标题。

在实施中，电子设备接收到添加指令后，可以将用户需要添加的文字添加到目标文本中对应的位置。

由以上可见，基于本发明实施例的视频标题生成方法，电子设备可以将用户需要添加的文字添加到目标文本中，满足用户的个性化需求，提高用户体验。

可选的，还可以实现电子设备从确定的各目标文本中筛选出用户选择的目标文本。具体的，当电子设备接收到的图像获取指令为多个时，上述处理步骤还可以包括：接收用户输入的选择指令；从获取的各目标文本中获取用户选择的目标标题文本；根据目标标题文本生成目标视频标题。

在实施中，用户可以多次输入图像获取指令，电子设备则可以获取每一图像获取指令，进而确定出对应的各目标文本。电子设备可以将确定出的各目标文本通过视频播放设备显示给用户。用户则可以根据需要进行选择，向电子设备输入选择指令。电子设备则可以接收到选择指令，从各目标文本中获取用户选择的目标标题文本，并根据目标标题文本生成目标视频标题。具体的，电子设备根据目标标题文本生成目标视频标题的步骤可以参考上述S104的方法，在此不再赘述。

由以上可见，基于本发明实施例提供的视频标题生成方法，电子设备可以确定出多个目标文本，并根据用户选择的目标标题文本生成目标视频标题，能够提高用户体验。

可选的，上述方法还可以包括：

将目标视频标题发送至预设的用户终端，以使用户终端输出目标视频标题。

其中，上述用户终端可以是上述视频播放设备，也可以是其他终端。

由以上可见，基于本发明实施例的视频标题生成方法，电子设备可以将目标视频标题发送至用户终端，以使用户终端输出目标视频标题，方便用户浏览目标视频标题，提高用户体验。

参见图5，图5为本发明实施例提供的一种视频标题生成方法的应用场景图，包括：

电子设备501和视频播放设备502，在此应用场景中，电子设备501可以是服务器，视频播放设备502可以是电脑。用户可以通过视频播放设备502向电子设备501发送视频预览请求。电子设备可以将目标视频压缩后发送至视频播放设备502，以使视频播放设备502播放目标视频，具体的，视频播放设备502中可以安装有固态存储器与动画编辑器flash播放器，用于播放目标视频。用户可以观看视频播放设备502播放的目标视频，当用户需要获取目标图像时，可以使用视频播放设备502向电子设备501发送图像获取请求。电子设备501可以获取目标帧图像，将目标帧图像发送至视频播放设备502。当用户通过视频播放设备502观看目标帧图像时，可以通过视频播放设备502框选出目标图像。然后，用户可以通过视频播放设备502向电子设备501发送OCR识别请求，并将目标图像的坐标信息发送至电子设备501。电子设备501可以根据OCR识别算法对用户框选的目标图像进行文字识别，得到目标文本，并生成目标视频标题，将目标视频标题发送至视频播放设备502。视频播放设备502可以将目标视频标题显示给用户。

与图1的方法实施例相对应，参见图6，图6为本发明实施例提供的一种视频标题生成装置的结构图，包括：

播放模块601，用于通过视频播放设备播放目标视频；

获取模块602，用于当接收到用户输入的图像获取指令时，获取目标图像，其中，所述目标图像为所述目标视频中包含目标文字的图像；

识别模块603，用于对所述目标图像进行文字识别，得到所述目标文字对应的目标文本；

生成模块604，用于根据所述目标文本生成目标视频标题。

所述获取模块602，具体用于根据所述图像标识，获取所述目标帧图像；

可选的，所述生成模块604，具体用于接收所述用户输入的对应所述目标文本中的多余文字的删除指令，

可选的，所述生成模块604，具体用于接收所述用户输入的添加指令，其中，所述添加指令中携带有所述用户需要添加的文字及所述用户需要添加的文字在所述目标文本中的位置信息；

可选的，当接收到的图像获取指令为多个时，所述生成模块604，具体用于接收用户输入的选择指令；

从获取的各目标文本中获取用户选择的目标标题文本；

根据所述目标标题文本生成目标视频标题。

可选的，所述装置还包括：

由以上可见，基于本发明实施例的视频标题生成装置，可以识别出目标图像中的目标文字，得到目标文本，进而生成目标视频标题，能够提高视频标题生成的效率。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

通过视频播放设备播放目标视频；

根据所述目标文本生成目标视频标题。

上述电子设备提到的通信总线704可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该通信总线704可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口702用于上述电子设备与其他设备之间的通信。

存储器703可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器703还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器701可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供的电子设备，在生成视频标题时，可以识别出目标图像中的目标文字，得到目标文本，进而生成目标视频标题，能够提高视频标题生成的效率。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本发明实施例提供的视频标题生成方法。

具体的，上述视频标题生成方法，包括：

通过视频播放设备播放目标视频；

根据所述目标文本生成目标视频标题。

需要说明的是，上述视频标题生成方法的其他实现方式与前述方法实施例部分相同，这里不再赘述。

通过运行本发明实施例提供的计算机可读存储介质中存储的指令，在生成视频标题时，可以识别出目标图像中的目标文字，得到目标文本，进而生成目标视频标题，能够提高视频标题生成的效率。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本发明实施例提供的视频标题生成方法。

具体的，上述视频标题生成方法，包括：

通过视频播放设备播放目标视频；

根据所述目标文本生成目标视频标题。

通过运行本发明实施例提供的计算机程序产品，在生成视频标题时，可以识别出目标图像中的目标文字，得到目标文本，进而生成目标视频标题，能够提高视频标题生成的效率。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种视频标题生成方法，其特征在于，所述方法包括：

通过视频播放设备播放目标视频；

根据所述目标文本生成目标视频标题。

2.根据权利要求1所述的方法，其特征在于，所述图像获取指令中携带有所述目标图像所在的目标帧图像的图像标识及所述目标图像在所述目标帧图像中的坐标信息；

所述获取目标图像，包括：

根据所述图像标识，获取所述目标帧图像；

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本生成目标视频标题，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本生成目标视频标题，包括：

5.根据权利要求1所述的方法，其特征在于，当接收到的图像获取指令为多个时，所述根据所述目标文本生成目标视频标题，包括：

接收所述用户输入的选择指令；

从获取的各目标文本中获取所述用户选择的目标标题文本；

根据所述目标标题文本生成目标视频标题。

6.根据权利要求1所述的方法，其特征在于，在所述根据所述目标文本生成目标视频标题之后，所述方法还包括：

7.一种视频标题生成装置，其特征在于，所述装置包括：

播放模块，用于通过视频播放设备播放目标视频；

生成模块，用于根据所述目标文本生成目标视频标题。

8.根据权利要求7所述的装置，其特征在于，所述图像获取指令中携带有所述目标图像所在的目标帧图像的图像标识及所述目标图像在所述目标帧图像中的坐标信息；

9.根据权利要求7所述的装置，其特征在于，

所述生成模块，具体用于接收所述用户输入的对应所述目标文本中的多余文字的删除指令，

10.根据权利要求7所述的装置，其特征在于，

所述生成模块，具体用于接收所述用户输入的添加指令，其中，所述添加指令中携带有所述用户需要添加的文字及所述用户需要添加的文字在所述目标文本中的位置信息；

11.根据权利要求7所述的装置，其特征在于，当接收到的图像获取指令为多个时，所述生成模块，具体用于接收所述用户输入的选择指令；

从获取的各目标文本中获取所述用户选择的目标标题文本；

根据所述目标标题文本生成目标视频标题。

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。