CN112752134A

CN112752134A - 视频处理方法和装置、存储介质及电子装置

Info

Publication number: CN112752134A
Application number: CN202010693888.7A
Authority: CN
Inventors: 田元
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2021-05-04
Anticipated expiration: 2040-07-17
Also published as: CN112752134B

Abstract

本发明公开了一种视频处理方法和装置、存储介质及电子装置。其中，该方法包括：在客户端上的显示界面中显示目标视频；响应于接收到的转换指令，将目标视频中的语音内容转换为文字内容；在显示界面包含的目标控件中显示文字内容；响应于对目标控件执行的触发指令，执行目标控件对应的目标功能，其中，目标控件的目标功能根据客户端的类型确定。本发明解决了相关技术中，对视频内容处理灵活性差的技术问题。

Description

视频处理方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频处理方法和装置、存储介质及电子装置。

背景技术

现有技术中，在用户接收到视频内容后，用户可以查看视频内容。然而，仅限于观看视频内容，用户无法对视频内容中感兴趣的内容进行进一步的处理。如果用户希望对感兴趣的内容进行进一步处理，则需要通过观看视频，记住感兴趣的内容，再使用特定的应用或者功能来处理感兴趣的内容。

也就是说，现有技术中，存在对视频中感兴趣的内容进行处理效率低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频处理方法和装置、存储介质及电子装置，以至少解决相关技术中，对视频中感兴趣的内容处理效率低的技术问题。

根据本发明实施例的一个方面，提供了一种视频处理方法，包括：在客户端上的显示界面中显示目标视频；响应于接收到的转换指令，将目标视频中的语音内容转换为文字内容；在显示界面包含的目标控件中显示文字内容；响应于对目标控件执行的触发指令，执行目标控件对应的目标功能，其中，目标控件的目标功能根据客户端的类型确定。

根据本发明实施例的另一方面，还提供了一种视频处理装置，包括：第一显示单元，用于在客户端上的显示界面中显示目标视频；转换单元，用于响应于接收到的转换指令，将所述目标视频中的语音内容转换为文字内容；第二显示单元，用于在所述显示界面包含的目标控件中显示所述文字内容；执行单元，用于响应于对所述目标控件执行的触发指令，执行所述目标控件对应的目标功能，其中，所述目标控件的所述目标功能根据所述客户端的类型确定。

作为一种可选的示例，所述第二显示单元包括：第三显示模块，用于在所述显示界面中显示多个所述目标控件；第四显示模块，用于在每一个所述目标控件中显示所述文字内容的一个词汇。

作为一种可选的示例，所述装置还包括：第三显示单元，用于在响应于对所述目标控件执行的所述触发指令，执行所述目标控件对应的所述目标功能之后，显示执行所述目标功能之后得到的目标结果，其中，所述目标结果为对所述目标控件中的所述文字内容执行所述目标功能后得到的结果。

作为一种可选的示例，所述装置还包括：获取单元，用于在响应于对所述目标控件执行的所述触发指令，执行所述目标控件对应的所述目标功能之前，获取所述客户端的类型；第一确定单元，用于确定与所述类型匹配的所述客户端的多个功能；第二确定单元，用于从所述多个功能中确定出一个功能作为所述目标功能。

作为一种可选的示例，所述转换单元包括：输入模块，用于将所述语音内容输入到目标神经网络模型中，其中，所述目标神经网络模型为使用样本语音对原始神经网络模型进行训练得到的模型，所述目标神经网络模型用于输入所述语音内容后，输出所述语音内容对应的文字内容；获取模块，用于获取所述目标神经网络模型输出的所述文字内容。

作为一种可选的示例，所述执行单元包括：处理模块，用于在所述目标功能为搜索功能的情况下，搜索所述目标控件中的所述文字内容，在所述目标功能为分享功能的情况下，分享所述目标控件中的所述文字内容，在所述目标功能为翻译功能的情况下，翻译所述目标控件中的所述文字内容，在所述目标功能为解释功能的情况下，显示所述目标控件中的所述文字内容的含义。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频处理方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的视频处理方法。

在本发明实施例中，采用了在客户端上的显示界面中显示目标视频；响应于接收到的转换指令，将目标视频中的语音内容转换为文字内容；在显示界面包含的目标控件中显示文字内容；响应于对目标控件执行的触发指令，执行目标控件对应的目标功能，其中，目标控件的目标功能根据客户端的类型确定的方法，由于在上述方法中，可以将客户端上的视频中的语音内容转换为文字内容并以功能控件的形式进行显示，并且可以在接收到触发指令后执行功能控件对应的功能，从而实现了提高对视频中感兴趣的内容进行处理的效率的效果，进而解决了相关技术中，对视频中感兴趣的内容处理效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频处理方法的应用环境的示意图；

图2是根据本发明实施例的另一种可选的视频处理方法的应用环境的示意图；

图3是根据本发明实施例的一种可选的视频处理方法的流程示意图；

图4是根据本发明实施例的一种可选的视频处理方法的界面示意图；

图5是根据本发明实施例的另一种可选的视频处理方法的界面示意图；

图6是根据本发明实施例的又一种可选的视频处理方法的界面示意图；

图7是根据本发明实施例的又一种可选的视频处理方法的界面示意图；

图8是根据本发明实施例的又一种可选的视频处理方法的界面示意图；

图9是根据本发明实施例的又一种可选的视频处理方法的界面示意图；

图10是根据本发明实施例的一种可选的视频处理装置的结构示意图；

图11是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种视频处理方法，可选地，作为一种可选的实施方式，上述视频处理方法可以但不限于应用于如图1所示的环境中。

图1中用户102与用户设备104之间可以进行人机交互。用户设备104中包含有存储器106，用于存储交互数据、处理器108，用于处理交互数据。用户设备104可以通过网络110与服务器112之间进行数据交互。服务器112中包含有数据库114，用于存储交互数据、处理引擎116，用于处理交互数据。用户设备104可以运行有客户端，在客户端的显示界面中显示目标视频，在接收到转换指令的情况下，在显示界面中显示目标控件，在接收到对目标控件执行的触发指令的情况下，执行目标控件对应的目标功能。

作为一种可选的实施方式，上述视频处理方法可以但不限于应用于如图2所示的环境中。

图2中用户202与用户设备204之间可以进行人机交互。用户设备204中包含有存储器206，用于存储交互数据、处理器208，用于处理交互数据。用户设备204可以运行有客户端，在客户端的显示界面中显示目标视频，在接收到转换指令的情况下，在显示界面中显示目标控件，在接收到对目标控件执行的触发指令的情况下，执行目标控件对应的目标功能。

可选地，上述用户设备104或者用户设备204可以但不限于为手机、平板电脑、笔记本电脑、PC机等终端，上述网络110可以包括但不限于无线网络或有线网络。其中，该无线网络包括：WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。

可选地，作为一种可选的实施方式，如图3所示，上述视频处理方法包括：

S302，在客户端上的显示界面中显示目标视频；

S304，响应于接收到的转换指令，将所述目标视频中的语音内容转换为文字内容；

S306，在所述显示界面包含的目标控件中显示所述文字内容；

S308，响应于对所述目标控件执行的触发指令，执行所述目标控件对应的目标功能，其中，所述目标控件的所述目标功能根据所述客户端的类型确定。

可选地，上述视频处理方法可以但不限于应用于任何客户端中。例如，客户端为视频小程序，或者为直播应用，或者邮箱，也可以应用于具有聊天功能的客户端中。聊天功能可以为实时聊天功能。客户端具有聊天功能的同时，还可以具备其他功能，例如，转账功能、搜索功能、转发功能等。也就是说，本申请中的客户端并不限于实时通信客户端，也可以为具有聊天功能的其他客户端。例如，支付宝中同样可以进行好友之间的通信聊天。

本申请中的客户端为可以显示目标视频的客户端，可以在客户端中显示目标视频的地址，或者显示一个视频标识，视频标识对应有目标视频的地址。通过点击地址或者视频标识可以播放目标视频。本申请对客户端的类型并不做限定，所有可以显示目标视频或者显示目标视频的视频标识的客户端均在本申请的范围内。

以直播过程为例，在直播的过程中，在显示直播的视频流时，可以将直播的语音内容转换为文字内容，并以控件的方式展示文字内容。如果用户点击控件，则执行目标功能。目标功能为与直播应用的类型匹配的功能。

或者，以具有聊天功能的客户端为例，在聊天窗口中显示目标视频，可以将目标视频的语音内容转换为文字内容，并以控件的方式展示文字内容。如果用户点击控件，则执行与客户端的类型对应的目标功能。

或者，以普通客户端为例，如新闻客户端，新闻客户端上可以显示目标视频，可以将目标视频的语音内容转换为文字内容，并以控件的方式展示文字内容。如果用户点击控件，则执行与客户端的类型对应的目标功能。

或者，以邮件为例，在收到邮件之后，邮件中有目标视频，可以将目标视频的语音内容转换为文字内容，并以控件的方式展示文字内容。如果用户点击控件，则执行与客户端的类型对应的目标功能。例如，转发等。

可选地，本申请中，可以通过聊天窗口显示目标视频，目标视频可以为其他用户发送给当前用户的视频，聊天窗口可以为两个用户之间的聊天窗口，也可以为多位用户之间的聊天窗口。在客户端的聊天窗口中显示目标视频，目标视频可以通过一个视频框显示。例如，如图4所示，图4为两个用户使用聊天窗口进行聊天时，一个用户的客户端的显示界面，显示界面中显示有目标视频402。

在显示目标视频后，目标视频可以自动播放或者接收用户的播放指令播放。如果自动播放，则在自动播放之前，可以获取目标视频中的语音内容，然后将语音内容转换为文字内容，然后通过目标控件将文字内容进行显示。用户可以点击控件对文字内容执行目标功能。

显示目标控件可以有多种方式。可以在目标视频播放过程中，在目标视频中系那是目标控件，或者在目标视频没有播放的过程中，可以在目标视频的周围显示目标控件。

例如，如图5所示，图5为视频播放过程中，可以在视频中显示文字信息502，文字信息502是对视频的音频内容进行转文字得到的文字信息。文字信息可以被分词然后展示目标控件，如图6所示，图6中显示有目标控件602，目标控件602中显示有文字信息。图5、6是在视频中显示目标控件或者显示文字信息的情况。

如图7、8所示，图7中，文字信息显示在视频内容的下方，图8中，对文字信息进行分词后，目标控件802显示在视频内容的下方。视频无需播放。

如果在视频中显示目标控件，则需要使用目标控件替换原有的字幕。也就是说，如果视频带有字幕，在确定出目标控件时，使用目标控件显示文字内容时，目标控件替换了原有的字幕。可以替换可以为删除原有字幕，或者覆盖原有字幕。在显示原有字幕的时间段，显示目标控件。

如果目标视频中没有字幕，则在将目标视频中的音频内容转换为文字内容之后，对应记录有音频内容与文字内容的对应关系，如记录目标语音内容与目标文字内容的对应关系，目标语音内容为音频中的一段语音，目标文字内容为将目标语音内容转换为的文字内容。获取目标语义内容的起始时间点与结束时间点，在起始时间点与结束时间点内显示目标文字内容。在显示目标文字内容时，显示目标控件，在目标控件中显示目标文字内容。

本申请中在显示目标控件时，可以显示多个目标控件。也就是说，当对视频中的音频内容转为文字内容之后，可以对文字内容进行分词，分词得到多个词汇，然后使用多个目标控件每一个目标控件显示一个词汇。

本申请中的目标功能可以为客户端自带的功能。例如，搜索、解释、翻译、转发等任意功能。

当显示目标控件之后，当接收到触发指令并且执行控件对应的功能之后，可以显示执行控件的功能所得到的结果。例如，展示搜索结果，或者展示分享结果，或者展示翻译结果，或者展示文字内容的含义。例如，如图9所示，以搜索为例，点击目标控件后，搜索目标控件中的文字内容，展示搜索结果。搜索可以为在客户端内搜索，或者调用搜索引擎的接口进行全网搜索。

可选地，本申请中在生成目标控件时，需要为目标控件赋予功能，以使目标控件被触发之后，可以执行相应的功能。目标控件被赋予的功能可以根据客户端的类型确定。例如，客户端为搜索引擎，则可以为目标控件赋予搜索的功能。客户端为翻译软件，则可以为目标控件赋予翻译的功能等。如果一个客户端有多种功能，则可以从多种功能中选择一种功能赋予目标控件。当然，选择多种功能，为每一种功能赋予一个目标控件也是可行的。需要显示每一个目标控件的功能。

本申请中，在将语音内容转换为文字内容的过程中，可以使用目标神经网络模型来实现。所述目标神经网络模型为使用样本语音对原始神经网络模型进行训练得到的模型，所述目标神经网络模型用于输入所述语音内容后，输出所述语音内容对应的文字内容。

本申请中可以获取样本语音，然后输入到原始神经网络模型中，对原始神经网络模型进行训练。通过计算原始神经网络模型的损失，从而确定是否对原始神经网络模型中的权重与参数进行调整，当原始神经网络模型的识别准确度大于第一阈值的时候，如大于99％，则将原始神经网络模型给你确定为目标神经网络模型。

以上过程中，是自动将语音转文字并进行分词的过程。本申请还提供了可以按照用户意愿进行分词的方法。与上述内容不同的是，本申请中在获取到目标视频并将目标视频的语音内容展示为文字内容后，可以先显示文字内容，然后，当用户点击文字内容时，可以将用户选择的内容生成为目标控件，目标控件中显示用户选择的文字内容，或者用户可以对文字内容进行分词，将分词结果生成目标控件。此方法可以有针对性的生成目标控件，对用户感兴趣的内容生成执行目标功能。

以下结合一个具体实例解释本申请。例如，本申请应用在具有聊天功能的客户端中，用户接收到好友的消息，消息中包含了视频消息。则可以如图4所示显示视频消息。但是，此时视频消息还没有播放。用户可以选择开启视频内声音转字幕的功能，如果开启该功能，则视频在播放的过程中，会将语音内容转换为文字内容，并对文字内容进行分词，对文字内容进行分词之后，可以将分词结果以目标控件的形式显示，并未控件绑定对应的功能。当用户点击目标控件时，可以执行对应的功能。或者，用户可以选择开启视频内声音转字幕的功能，如果开启该功能，则视频在播放的过程中，会将语音内容转换为文字内容，并显示文字内容，由用户进行分词或者由用户点选感兴趣的词，***对用户点选的词转换为目标控件并显示目标控件。当用户点击目标控件时，可以执行对应的功能。当显示目标控件时，目标控件会替换原有的文字内容。结果可以如图5所示，在视频播放过程中显示目标控件。

以上过程中，为视频播放的过程中，显示目标控件。本申请还可以在视频未播放的情况下显示目标控件。用户可以在客户端的显示界面显示目标视频时，选择长按目标视频，然后选择语音转文字功能，则文字内容可以显示在目标视频的下方。在显示文字内容时，可以直接显示分词后生成的目标控件，也可以直接显示文字内容，由用户对文字内容进行分词或者选择感兴趣的词，再由***生成目标控件并显示。显示的目标控件替换原字幕或者文字内容。当用户点击目标控件时，执行目标控件的功能。如对目标控件内的词汇进行搜索，或者转发或者翻译等等。并显示结果。

本申请中的客户端可以为接收端，目标视频由发送端发送，经过服务器，发送到接收端。接收端获取目标视频的唯一标识码VID，然后将VID发送给服务器，由服务器根据VID来检索视频数据，并对视频进行语音转文字处理，将文字发送给接收端。接收端接收到文字数据后，刷新显示前端显示，显示文字数据。用户可以长按接收端的文字数据，在弹出的菜单中选择分词，分词模块进行分词。当然，分词模块也可以部署在服务器，由服务器进行分词。当分词成功后，为每一个分词生成一个控件，接收端显示各个控件。如果控件被点击，则将该词汇作为输入调起应用内相应的信息关联功能。如检索，或者翻译，或者转发或者释义等等。

或者，本申请中的接收端服务端发送视频声音转字幕请求并带上视频的唯一标识码VID，服务端根据VID检索到存储在服务端的视频数据，对视频进行语音转文字处理并增加时间轴压制成字幕文件(文字信息)。服务端向接收端的客户端传输视频对应字幕文件。接收端的客户端在视频播放时载入字幕文件，视频中显示字幕；接收端用户点击字幕后，视频暂停播放，字幕变弹出字幕分词控件，用户点击字幕分词控件后，该段字幕语句被传输到分词模块进行分词处理，分词模块对文本信息进行分词处理后，返回数据到客户端，客户端刷新显示分词后的效果到字幕原位置，每个被分出来的词汇生成一个可点击的控件，接收端用户点击分出来词汇对应的控件，会将该词汇作为输入调起应用内相应的信息关联功能。

作为一种可选的实施方案，所述在所述显示界面包含的目标控件中显示所述文字内容包括：

在所述目标视频未播放的情况下，在所述显示界面中，所述目标视频之外的区域显示所述目标控件，并在所述目标控件中显示所述文字内容；

在所述目标视频正在播放中的情况下，在所述目标视频中显示所述目标控件，并在所述目标控件中显示所述文字内容。

可选地，目标视频可以播放，在播放时，在原字幕位置显示目标控件。或者，在目标视频不播放时，在目标视频下方显示目标控件，提高了显示目标控件的灵活性。

作为一种可选的实施方案，所述在所述目标视频正在播放中的情况下，在所述目标视频中显示所述目标控件，并在所述目标控件中显示所述文字内容包括：

在所述目标视频中包含字幕内容的情况下，将所述目标视频中的所述字幕内容替换为所述目标控件；

在显示所述字幕内容的时间段显示所述目标控件。

通过本实施例，通过上述方法，从而可以避免字幕的重复展示，提高了显示目标控件的准确性的效果。

在所述目标视频中不包括字幕内容的情况下，获取所述目标视频中的语音内容中的目标语音内容的起始时间点与结束时间点，其中，所述目标语音内容为所述语音内容中的一段内容；

在所述起始时间点开始显示所述目标控件，并在所述目标控件中显示与所述目标语音内容对应的所述文字内容；

在所述结束时间点结束显示所述目标控件，并取消显示与所述目标语音内容对应的所述文字内容。

也就是说，在本申请中的目标视频不包括字幕的情况下，可以将语音内容转换为的文字内容随目标视频进行显示。可以确定出目标语音内容的开始时间点与结束时间点，从而在开始时间点与结束时间点内显示与目标语音内容对应的文字内容，从而实现了文字内容随语音内容进行播放的目的。

在所述显示界面中显示多个所述目标控件；

在每一个所述目标控件中显示所述文字内容的一个词汇。

也就是说，本申请中可以将文字信息进行分词，然后由多个目标控件每一个目标控件显示一个分词结果，从而实现了提高显示目标控件的效率的效果。

作为一种可选的实施方案，在响应于对所述目标控件执行的所述触发指令，执行所述目标控件对应的所述目标功能之后，所述方法还包括：

显示执行所述目标功能之后得到的目标结果，其中，所述目标结果为对所述目标控件中的所述文字内容执行所述目标功能后得到的结果。

可选地，显示目标控件对应的记过可以为跳转到其他页面显示结果，或者直接在当前页面上展示结果。通过本实施例，提高了对视频进行处理的灵活性。

作为一种可选的实施方案，在响应于对所述目标控件执行的所述触发指令，执行所述目标控件对应的所述目标功能之前，所述方法还包括：

获取所述客户端的类型；

确定与所述类型匹配的所述客户端的多个功能；

从所述多个功能中确定出一个功能作为所述目标功能。

也就是说，本申请中可以从客户端的多个功能中选择一个功能来对视频中转换出的文字信息进行处理，从而提高对视频进行处理的灵活性。

作为一种可选的实施方案，所述响应于接收到的转换指令，将所述目标视频中的语音内容转换为文字内容包括：

将所述语音内容输入到目标神经网络模型中，其中，所述目标神经网络模型为使用样本语音对原始神经网络模型进行训练得到的模型，所述目标神经网络模型用于输入所述语音内容后，输出所述语音内容对应的文字内容。

本申请中，通过目标神经网络模型来识别语义内容，转换得到文字内容，实现了自动准确高效的将语音内容转换为文字内容的效果。

作为一种可选的实施方案，所述响应于对所述目标控件执行的触发指令，执行所述目标控件对应的目标功能包括：

在目标功能为搜索功能的情况下，搜索目标控件中的文字内容；

在目标功能为分享功能的情况下，分享目标控件中的文字内容；

在目标功能为翻译功能的情况下，翻译目标控件中的文字内容；

在目标功能为解释功能的情况下，显示目标控件中的文字内容的含义。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频处理方法的视频处理装置。如图10所示，该装置包括：

第一显示单元1002，用于在客户端上的显示界面中显示目标视频；

转换单元10024，用于响应于接收到的转换指令，将所述目标视频中的语音内容转换为文字内容；

第二显示单元1006，用于在所述显示界面包含的目标控件中显示所述文字内容；

执行单元1008，用于响应于对所述目标控件执行的触发指令，执行所述目标控件对应的目标功能，其中，所述目标控件的所述目标功能根据所述客户端的类型确定。

可选地，上述视频处理装置可以但不限于应用于任何可以接收消息并显示的客户端中。例如，客户端为视频小程序，或者为直播应用，或者邮箱，也可以应用于具有聊天功能的客户端中。聊天功能可以为实时聊天功能。客户端具有聊天功能的同时，还可以具备其他功能，例如，转账功能、搜索功能、转发功能等。也就是说，本申请中的客户端并不限于实时通信客户端，也可以为具有聊天功能的其他客户端。例如，支付宝中同样可以进行好友之间的通信聊天。

作为一种可选的实施方案，所述第二显示单元包括：

第一显示模块，用于在所述目标视频未播放的情况下，在所述显示界面中，所述目标视频之外的区域显示所述目标控件，并在所述目标控件中显示所述文字内容；

第二显示模块，用于在所述目标视频正在播放中的情况下，在所述目标视频中显示所述目标控件，并在所述目标控件中显示所述文字内容。

作为一种可选的实施方案，所述第二显示模块包括：

替换子模块，用于在所述目标视频中包含字幕内容的情况下，将所述目标视频中的所述字幕内容替换为所述目标控件；

第一显示子模块，用于在显示所述字幕内容的时间段显示所述目标控件。

作为一种可选的实施方案，所述第二显示模块包括：

获取子模块，用于在所述目标视频中不包括字幕内容的情况下，获取所述目标视频中的语音内容中的目标语音内容的起始时间点与结束时间点，其中，所述目标语音内容为所述语音内容中的一段内容；

第二显示子模块，用于在所述起始时间点开始显示所述目标控件，并在所述目标控件中显示与所述目标语音内容对应的所述文字内容，在所述结束时间点结束显示所述目标控件，并取消显示与所述目标语音内容对应的所述文字内容。

作为一种可选的实施方案，所述第二显示单元包括：

第三显示模块，用于在所述显示界面中显示多个所述目标控件；

第四显示模块，用于在每一个所述目标控件中显示所述文字内容的一个词汇。

作为一种可选的实施方案，所述装置还包括：

第三显示单元，用于在响应于对所述目标控件执行的所述触发指令，执行所述目标控件对应的所述目标功能之后，显示执行所述目标功能之后得到的目标结果，其中，所述目标结果为对所述目标控件中的所述文字内容执行所述目标功能后得到的结果。

作为一种可选的实施方案，所述装置还包括：

获取单元，用于在响应于对所述目标控件执行的所述触发指令，执行所述目标控件对应的所述目标功能之前，获取所述客户端的类型；

第一确定单元，用于确定与所述类型匹配的所述客户端的多个功能；

第二确定单元，用于从所述多个功能中确定出一个功能作为所述目标功能。

作为一种可选的实施方案，所述转换单元包括：

输入模块，用于将所述语音内容输入到目标神经网络模型中，其中，所述目标神经网络模型为使用样本语音对原始神经网络模型进行训练得到的模型，所述目标神经网络模型用于输入所述语音内容后，输出所述语音内容对应的文字内容；

获取模块，用于获取所述目标神经网络模型输出的所述文字内容。

作为一种可选的实施方案，所述执行单元包括：

处理模块，用于在所述目标功能为搜索功能的情况下，搜索所述目标控件中的所述文字内容，在所述目标功能为分享功能的情况下，分享所述目标控件中的所述文字内容，在所述目标功能为翻译功能的情况下，翻译所述目标控件中的所述文字内容，在所述目标功能为解释功能的情况下，显示所述目标控件中的所述文字内容的含义。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频处理方法的电子装置，如图11所示，该电子装置包括存储器1102和处理器1104，该存储器1102中存储有计算机程序，该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

在客户端上的显示界面中显示目标视频；

响应于接收到的转换指令，将所述目标视频中的语音内容转换为文字内容；

在所述显示界面包含的目标控件中显示所述文字内容；

响应于对所述目标控件执行的触发指令，执行所述目标控件对应的目标功能，其中，所述目标控件的所述目标功能根据所述客户端的类型确定。

可选地，本领域普通技术人员可以理解，图11所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图11中所示更多或者更少的组件(如网络接口等)，或者具有与图11所示不同的配置。

其中，存储器1102可用于存储软件程序以及模块，如本发明实施例中的视频处理方法和装置对应的程序指令/模块，处理器1104通过运行存储在存储器1102内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频处理方法。存储器1102可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1102可进一步包括相对于处理器1104远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1102具体可以但不限于用于存储目标视频、目标控件等信息。作为一种示例，如图11所示，上述存储器1102中可以但不限于包括上述视频处理装置中的第一显示单元1002、转换单元1004、第二显示单元1006与执行单元1008。此外，还可以包括但不限于上述视频处理装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1106包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1106为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1108，用于显示目标视频与目标控件；和连接总线1110，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

在客户端上的显示界面中显示目标视频；

在所述显示界面包含的目标控件中显示所述文字内容；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频处理方法，其特征在于，包括：

在客户端上的显示界面中显示目标视频；

在所述显示界面包含的目标控件中显示所述文字内容；

2.根据权利要求1所述的方法，其特征在于，所述在所述显示界面包含的目标控件中显示所述文字内容包括：

3.根据权利要求2所述的方法，其特征在于，所述在所述目标视频正在播放中的情况下，在所述目标视频中显示所述目标控件，并在所述目标控件中显示所述文字内容包括：

在显示所述字幕内容的时间段显示所述目标控件。

4.根据权利要求2所述的方法，其特征在于，所述在所述目标视频正在播放中的情况下，在所述目标视频中显示所述目标控件，并在所述目标控件中显示所述文字内容包括：

5.根据权利要求1所述的方法，其特征在于，所述在所述显示界面包含的目标控件中显示所述文字内容包括：

在所述显示界面中显示多个所述目标控件；

在每一个所述目标控件中显示所述文字内容的一个词汇。

6.根据权利要求1所述的方法，其特征在于，在响应于对所述目标控件执行的所述触发指令，执行所述目标控件对应的所述目标功能之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，在响应于对所述目标控件执行的所述触发指令，执行所述目标控件对应的所述目标功能之前，所述方法还包括：

获取所述客户端的类型；

确定与所述类型匹配的所述客户端的多个功能；

从所述多个功能中确定出一个功能作为所述目标功能。

8.根据权利要求1所述的方法，其特征在于，所述响应于接收到的转换指令，将所述目标视频中的语音内容转换为文字内容包括：

9.根据权利要求1至8任意一项所述的方法，其特征在于，所述响应于对所述目标控件执行的触发指令，执行所述目标控件对应的目标功能包括：

在所述目标功能为搜索功能的情况下，搜索所述目标控件中的所述文字内容；

在所述目标功能为分享功能的情况下，分享所述目标控件中的所述文字内容；

在所述目标功能为翻译功能的情况下，翻译所述目标控件中的所述文字内容；

在所述目标功能为解释功能的情况下，显示所述目标控件中的所述文字内容的含义。

10.一种视频处理装置，其特征在于，包括：

第一显示单元，用于在客户端上的显示界面中显示目标视频；

转换单元，用于响应于接收到的转换指令，将所述目标视频中的语音内容转换为文字内容；

第二显示单元，用于在所述显示界面包含的目标控件中显示所述文字内容；

执行单元，用于响应于对所述目标控件执行的触发指令，执行所述目标控件对应的目标功能，其中，所述目标控件的所述目标功能根据所述客户端的类型确定。

11.根据权利要求10所述的装置，其特征在于，所述第二显示单元包括：

12.根据权利要求11所述的装置，其特征在于，所述第二显示模块包括：

13.根据权利要求11所述的装置，其特征在于，所述第二显示模块包括：

14.一种计算机可读的存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至9任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至9任一项中所述的方法。