CN118175346A

CN118175346A - 视频播放方法及装置、电子设备和可读存储介质

Info

Publication number: CN118175346A
Application number: CN202410287562.2A
Authority: CN
Inventors: 徐杰
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-06-11

Abstract

本申请公开了一种视频播放方法及装置、电子设备和可读存储介质，属于流媒体直播技术领域。其中，方法包括：在播放第一视频的情况下，接收第一输入；第一输入对应第一关键词；响应于第一输入，播放第二视频；第二视频是根据第一视频中与第一关键词相对应的直播视频流确定的。

Description

视频播放方法及装置、电子设备和可读存储介质

技术领域

本申请属于流媒体直播技术领域，具体涉及一种视频播放方法及装置、电子设备和可读存储介质。

背景技术

在相关技术中，视频直播作为一种信息传递方式，视频直播的信息传递效率会受视频直播的主播影响，当用户需要获取某些信息时，可能视频直播当前正在讲解的内容与用户感兴趣的内容无关，此时用户只能自己通过弹幕、评论等方式向主播提问，而主播并不一定能第一时间看到并反馈，因此导致用户通过直播获取有效信息的效率低。

发明内容

本申请实施例的目的是提供一种视频播放方法及装置、电子设备和可读存储介质，能够解决通过直播获取有效信息的效率差的问题。

第一方面，本申请实施例提供了一种视频播放方法，方法包括：

在播放第一视频的情况下，接收第一输入；第一输入对应第一关键词；

响应于第一输入，播放第二视频；第二视频是根据第一视频中与第一关键词相对应的直播视频流确定的。

第二方面，本申请实施例提供了一种视频播放装置，播放装置包括：

接收模块，用于在播放第一视频的情况下，接收第一输入；第一输入对应第一关键词；

播放模块，用于响应于第一输入，播放第二视频；第二视频是根据第一视频中与第一关键词相对应的直播视频流确定的。

第三方面，本申请实施例提供了一种电子设备，包括处理器和存储器，存储器存储可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，该程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，该通信接口和该处理器耦合，该处理器用于运行程序或指令，实现如第一方面的方法的步骤。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面的方法。

在本申请实施例中，在观看直播时用户可以输入搜索关键词，基于搜索关键词在当前直播间的历史直播记录或者即将播放的直播内容中，搜索并关注与用户关键词相关联的直播视频流内容，并基于搜索到的直播视频流生成精简后的媒体片段，也即第二视频供用户客户端播放，使得用户能够在当前直播内容与感兴趣的内容无关时，也能快速得到需要的信息，提高用户通过直播获取有效信息的效率。

附图说明

图1示出了本申请的一些实施例的视频播放方法的流程图；

图2示出了相关技术中的流媒体直播间的界面示意图；

图3示出了本申请的一些实施例的流媒体直播的音视频录入过程的示意图；

图4示出了本申请的一些实施例的流媒体直播的音视频解码过程的示意图；

图5示出了本申请的一些实施例的音视频播放同步示意图；

图6示出了本申请的一些实施例的音视频原始数据示意图；

图7示出了本申请的一些实施中检索关键词对应的音频范围和视频图像帧的示意图；

图8示出了本申请的一些实施例的原始I帧序列的示意图；

图9示出了本申请的一些实施例的去除重复信息后的关键I帧序列的示意图；

图10示出了本申请的一些实施例的关键词检索媒体片段的过程的示意图；

图11示出了本申请的一些实施例的第一媒体片段的示意图；

图12示出了本申请的一些实施例的视频播放装置的结构框图；

图13示出了根据本申请实施例的电子设备的结构框图；

图14为实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频播放方法及装置、电子设备和可读存储介质进行详细地说明。

在本申请的一些实施例中，提供了一种视频播放方法，图1示出了本申请的一些实施例的视频播放方法的流程图，如图1所示，方法包括：

步骤102，播放第一视频的情况下，接收第一输入；第一输入对应第一关键词。

在本申请实施例中，第一视频为用户观看直播时的直播视频，示例性地，第一视频可以是第一直播间内播放的视频，第一直播间是用户当前观看直播流媒体的直播间。示例性地，第一视频包括视频部分和音频部分。

在相关技术中，流媒体直播是提供信息的重要方式，而流媒体直播所提供的信息量和信息密度受主播影响程度较大。举例来说，以直播卖货场景为例，图2示出了相关技术中的流媒体直播间的界面示意图，如图2所示，流媒体直播界面200中包括多种不同的信息，如直播画面202、弹幕消息204、商品链接206和其他介绍信息208。

一场直播中，主播可能会介绍多种不同的商品，这些商品不一定都是观看直播的用户所感兴趣的商品。如果用户希望获取需要的信息，就需要通过弹幕与主播沟通，或者等待主播讲到自己感兴趣的商品，如果主播已经在之前讲过了这个商品，那也可能不会再重复讲解，导致用户浪费时间却获取不到需要的信息。

针对上述情况，在流媒体直播过程中提供检索入口，用于通过第一输入和检索入口输入检索关键词，也即上述第一关键词。示例性地，第一关键词可以是用户希望获取的信息，或者用户感兴趣的商品名称，又或是其他感兴趣的信息。示例性地，第一关键词可以是：“两大一小的价格是多少”、“报考分数线是多少”、“新产品什么时候发布”等。

步骤104，响应于第一输入，播放第二视频；第二视频是根据第一视频中与第一关键词相对应的直播视频流确定的。

在本申请实施例中，用户在观看直播的第一视频的过程中，输入第一关键词，基于用户输入的第一关键词来生成第二视频并进行播放。其中，第二视频可以是对当前直播的第一视频进行精简后得到的，精简后的第二视频中将只包括用户感兴趣的，与第一关键词相关的音视频内容，而去除了用户不感兴趣的内容部分。第二视频也可以是对第一直播间内尚未直播的内容进行关注，并在第一直播间内播放的第一视频中出现了与第一关键词相关联的视频对象后，对此时的第一视频进行截取或者处理后得到的，从而使用户可以略过不感兴趣的直播内容。

示例性地，在一些实施方式中，客户端将用户输入的第一关键词发送到直播服务器中，直播服务器根据用户输入的第一关键词，在当前直播间的历史直播记录中检索相关的历史直播录像，并根据历史直播录像生成第二视频，该第第二视频中包含用户的第一关键词所指示的第一对象。

示例性地，在另一些实施方式中，直播客户端本地基于用户输入的第一关键词检索相关的历史直播录像，并根据检索到的与第一关键词相关联的历史直播录像生成第二视频。

示例性地，在另一些实施方式中，直播客户端记录用户输入的第一关键词，并根据第一关键词确定用户感兴趣的第一对象，同时关注第一视频的视频内容，判断第一视频的视频内容中是否包括该第一对象。能够理解的是，第一视频的视频内容中包括第一对象，可以是第一视频的视频画面中出现了第一对象，也可以是第一视频的音频部分中提到了第一对象。能够理解的是，在用户输入第一关键词后，第一视频可以处于前台播放状态、后台播放状态或者停止播放状态。

本申请实施例在观看直播时用户可以输入搜索关键词，基于搜索关键词在当前直播间的历史直播记录或者即将播放的直播内容中，搜索并关注与用户关键词相关联的直播视频流内容，并基于搜索到的直播视频流生成精简后的媒体片段，也即第二视频供用户客户端播放，使得用户能够在当前直播内容与感兴趣的内容无关时，也能快速得到需要的信息，提高用户通过直播获取有效信息的效率。

在本申请的一些实施例中，方法还包括：

对第一视频中与第一关键词相对应的直播视频流进行编辑处理；

根据编辑处理后的直播视频流确定第二视频。

在本申请实施例中，第一视频包括直播视频流，该直播视频流可以是通过直播服务器进行流媒体推送得到的。示例性地，直播服务器向直播客户端推送直播视频流，直播客户端在接收到直播视频流后，对其中的视频部分和音频部分进行重组，得到对应的第一视频并进行播放。

在用户输入了第一关键词后，以第一关键词指示第一对象为例，基于第一对象对当前的直播视频流进行编辑处理，从而得到仅包含与用户感兴趣的第一对象相关的视频内容的第二视频。

其中，第二视频与第一关键词指示的第一对象相关，包括第二视频的视频内容中包括第一对象的对象图像，也包括第二视频的音频内容中包括第一对象的相关音频，如第一对象的名字、介绍第一对象的语音等。

本申请实施例通过对第一视频的直播视频流进行编辑处理，能够得到只包括用户感兴趣的对象的第二视频，从而减少无用信息，帮助用户快速得到需要的信息，提高用户通过直播获取有效信息的效率。

在本申请的一些实施例中，对第一视频中与第一关键词相对应的直播视频流进行编辑处理的步骤之前，方法还包括：

接收第二输入；第二输入对应第一编辑策略；

对第一视频中与第一关键词相对应的直播视频流进行编辑处理，包括：

响应于第二输入，根据第一编辑策略对第一关键词相对应的直播视频流进行编辑处理。

在本申请实施例中，用户可以通过第二输入指定用户编辑得到第二视频时的编辑策略，也即上述第一编辑策略。其中，第一编辑策略包括去除冗余内容、调整主播音量、只看购买较多的商品介绍、只看指定时间段对应的商品或者只看特定价格区间的商品等。

在用户输入了第一编辑策略后，基于第一编辑策略对第一视频中与第一关键词相对应的直播视频流进行编辑处理。具体地，图3示出了本申请的一些实施例的流媒体直播的音视频录入过程的示意图，如图3所示，在直播过程中，麦克风采集直播声音，得到音频采样帧，摄像头拍摄直播画面，得到图像帧，采样帧和图像帧之间通过时钟进行同步。同步后的采样帧和图像帧分别经过音频处理和图像处理后，得到采样帧队列和图像帧队列，再分别经过音频编码和识别编码后，得到音频包队列和视频包队列，并通过复用器进行音视频封装，得到直播的流媒体文件。

图4示出了本申请的一些实施例的流媒体直播的音视频解码过程的示意图，如图4所示，流媒体文件经过解复用器进行逆封装处理，得到音频包队列和视频包队列，并分别经过音频解码和视频解码，得到解码后的采样帧队列和图像帧队列，采样帧队列和图像帧队列经过时钟同步后，分别经过音频处理后播放成为用户听到的声音，和经过图像处理后上屏显示。

图3和图4示出了是直播过程中，从主播录制到用户看到直播内容的过程。为了帮助用户快速获取希望检索的内容，检索速度和内容准确性成为了关键。图5示出了本申请的一些实施例的音视频播放同步示意图，如图5所示，直播客户端接收视频数据，该视频数据具体为直播服务器推送的流媒体数据，视频数据经过解协议处理后，得到封装格式数据，封装格式数据经过解封装后，得到音频压缩数据和视频压缩数据。

其中，音频压缩数据经过音频解码后，得到音频原始数据。视频压缩数据经过视频解码后，得到视频原始数据，按照时钟信息，对音频原始数据和视频原始数据进行音视频同步处理，得到能够被音频驱动设备(如声卡)和视频驱动设备播放的音频和视频。

用户在使用手机端观看直播时，手机就是音频、视频驱动设备，再向前一步，就是音视频的原始数据，以及原始音视频的同步。图6示出了本申请的一些实施例的音视频原始数据示意图，如图6所示，其中的波浪线表示用户听到的声音，具体为不同长度的声波，这个声音具体是主播通过麦克风录制的，用户在中断听到的声音。声音一般会随整个直播阶段，即使主播不发出声音，但是这个时候音频依然是跟视频同步的，只是音频波长近乎为0而已。

用户在主播直播的整个过程中，可以一直看到画面，这些画面就是视频，而视频是由一帧一帧的图片组成，图片之间也有关系，图6的横坐标即表示这种关系，帧画面有I(关键帧)、B(双向预测帧)和P(预测帧)三种，其中I帧占据的信息量最大，B帧和P帧是为了保障视频效果的连续性。

对于实时播放的内容，音视频的对应关系如图6所示，对于已经播放过的音视频，对应关系也如图6所示。

在直播页面上，可以添加一个快捷入口作为检索关键词的输入快捷入口，在用户进行检索时，用户在直播界面中输入想要搜索的第一关键词，如“两大一小的价格是多少”。

在主播的介绍过程中，对“两大一小的价格是多少”做过了介绍，则可以使用关键字匹配到这个范围之内的语音内容，从而获取到对应的音频的范围，图7示出了本申请的一些实施中检索关键词对应的音频范围和视频图像帧的示意图，如图7所示，音频的开始部分和结束部分，根据关键词和当时的语境进行截取，形成对应的音频片段。由于音频一般情况下比较小，所以根据关键词检索音频的速度也会比较快。

为了提升检索速度，可以在不丢失检索信息的情况下，生效包含了有效信息的视频片段。第一关键词检索到的视频片段也即第一媒体片段。示例性地，针对第一媒体片段，可以去除除了检索信息之外的非关键信息，如主播人物、重复的帧内容、无用的帧内容等。

具体地，针对直播的完整画面，可以通过图像识别算法，在其中识别无效信息。示例性地，可以识别出主播人物。主播人物的画面往往是对商品进行介绍，整个直播过程中，一直在固定的区间，身体或者面部有变化，其他无变化，且无有效信息。因此可以在原始的帧图像中将主播人物去除，从而降低图像中的无效信息量。

示例性地，可以识别出重复的帧内容。示例性地，在直播过程中，可能出现长期显示在画面中且不会变化的内容信息，如广告、商品信息等，这些内容无明显变化，存在大量重复，因此可以对这些重复帧进行去除，减少数据量。

示例性地，可以识别出无用的帧，具体地，直播检索结果的关键是提供用户需要的信息，而对媒体片段播放的顺畅性要求不高。因此可以在原有直播视频数据的基础上，保留原始音频不变，对与音频片段相对应的视频的图像帧进行处理。举例来说，可以在视频中只保留关键的I帧，去除无用的B帧和P帧。在一些实施方式中，B帧和P帧不一定要完全去除，可以根据当前音频时间段内关键I帧是否有变化，决定B帧、P帧是否要完全删除，当I帧变化较大的时候，可以保留部分B帧或P帧，使得视频过渡稍微自然。在一些实施方式中，可以进一步去除I帧中的人物信息。

对于I帧，可以第一个I帧作为起始帧，后续的I帧进行二差值转换，目的是降低每一帧的数据量，比对后续I帧和第一个I的差异，若相同，该后续I帧不保留；若不同，则保留。

假如原先一个视频片段含有的帧有100个I帧、200个B帧和100个P帧，每个I帧图片大小10KB，每个B帧图片大小5KB，每个P帧图片大小6KB，则原始的视频片段的大小约为2MB。经过优化后，假设去除了200个B帧、100个P帧，并且对100个I帧做抽样提取，抽样存在规则：以第1个I帧作为起始帧，这样100个I帧只需保留1帧即可。同时，去掉人物信息，视频片段大小可以从2MB降价减少至10KB左右，这个大小在短时间内即可立即检索出来，效率较高。

示例性地，图8示出了本申请的一些实施例的原始I帧序列的示意图，如图8所示，多个I帧中存在复数的重复帧，对其中的重复帧进行去除，只保留最上层的三张帧图像，图9示出了本申请的一些实施例的去除重复信息后的关键I帧序列的示意图，最终效果如图9所示。

在得到第二视频后，由于第二视频是基于用户输入的第一关键词检索得到的，该第二视频中包含了用户感兴趣的第一关键词对应的内容。具体地，图10示出了本申请的一些实施例的关键词检索媒体片段的过程的示意图，如图10所示，用户输入关键词后，基于关键词检索音频原始数据，并基于时钟匹配音频原始数据对应的视频原始数据。保留音频原始数据为音频片段后，对视频原始数据进行优化处理，去除B帧、P帧和人物画面后，得到去除无效信息的I帧，对音频片段和去除无效信息的I帧按照原始时钟匹配同步，进行音视频同步后，得到同步后的音频和视频，并通过用户中断的音频驱动设备和视频驱动设备解码播放。

图11示出了本申请的一些实施例的第一媒体片段的示意图，如图11所示，在图2所示的直播画面的基础上进行信息缩减，第一媒体片段包含了关键信息和完整的音频。

本申请实施例根据用户指定的编辑策略，生成符合用户需求的媒体片段，也即上述第二视频，能够使用户观看的第二视频中只包括用户感兴趣的信息部分，从而去除冗余信息的干扰，提高用户获取信息的效率。

在本申请的一些实施例中，编辑处理用于简化视频内容、简化音频内容和/或调节音量。

在本申请实施例中，对第一视频的直播视频流进行编辑处理，具体包括简化第一视频的视频内容。其中，简化视频内容具体指的是去除第一视频的视频画面中，与用户输入的第一关键词无关的视频内容，如视频背景、主播人像、广告横幅、礼物信息或者弹幕信息等。

通过简化视频内容的编辑处理，能够有效去除直播视频中的冗余信息，帮助用户关注感兴趣的有效信息，提高信息获取效率。

具体地，由于一些直播间的直播画面内容复杂，其中会充斥一些无效信息，如广告、背景图像、其他观看直播用户的礼物特效、弹幕等内容，这些内容会占据部分直播画面，导致观看直播的用户被这些无效信息分散注意力。

针对上述问题，本申请实施例提供“直播简洁模式”的选择。具体地，第一控件为开启“直播简洁模式”的控件。在用户观看直播的过程中，当接收到用户对第一控件的第四输入时，则对当前直播间的第一视频进行处理，去除其中的部分或全部无效信息内容，从而使得直播界面更加简洁、精炼。

具体地，可以隐藏第一视频中的至少一个媒体对象，其中，媒体对象可以是广告信息、直播背景图像、主播人像等，减少无效信息能够减少对用户观看直播带来的影响，帮助用户提高专注度。还可以降低第一视频的帧率，具体地，可以去除第一视频中的B帧和P帧，还可以去除重复的I帧。通过去除无效帧的方式，能够减少视频的数据量，从而节约带宽。还可以减小第一视频的音频音量。示例性地，视频的音频部分可能包括多个音轨，可以根据用户选择，降低特定音轨的音量，比如降低背景音乐的音量，从而凸显主播人声。或者降低主播人声音量，从而使用户更加专注于直播画面内容。

对第一视频的直播视频流进行编辑处理，还包括简化音频内容。其中，简化音频内容具体指的是去除第一视频的音频部分中，与用户输入的第一关键词无关的音频内容，如主播与弹幕互动时的语音、背景音乐、弹幕音效等。

通过简化音频内容的编辑处理，能够使直播音频更间接，避免无效音频干扰用户收听。

对第一视频的直播视频流进行编辑处理，还包括调节音量。在一些场景下，用户可能会需要认真观看画面内容，或者用户可能正在浏览其他页面，在后台“听”直播。

对于不同的观看场景，用户对音频的敏感程度不同。比如在用户聚精会神观看直播画面时，如果音频音量过大，会使用户分心，此时可以适当降低直播音频的音量。比如用户此时没有前台播放视频，而是前台运行其他程序或者显示其他窗口，在后台播放直播视频，此时则可以适当增加直播视频的音量。

本申请实施例通过对直播视频的视频内容或音频进行简化，从而减少冗余信息，提高信息获取效率，同时对直播视频的音量进行适当调节，从而满足不同观看场景。

在本申请的一些实施例中，响应于第一输入，播放第二视频，包括：

响应于第一输入，在显示第一界面的情况下，分屏显示第一界面和第二界面；

在第二界面中播放第二视频。

在本申请实施例中，在一场直播中，主播往往会在不同时间段讲解不同的信息，在主播讲解用户感兴趣的信息之前的直播内容对用户来说是无效内容，此时用户可能会将直播视频放在后台播放，并在前台通过其他界面来显示其他程序内容，如浏览网页、游玩游戏等。

为了避免错过感兴趣的内容，用户通过第一输入指定第一关键词，该第一关键词指示第一对象，该第一对象即用户感兴趣的对象。在接收到第一关键词后，后台直播窗口持续监测直播内容，包括识别直播画面和直播音频，从而判断直播视频是否与用户感兴趣的第一对象相关。

此时，第一对象也可以视为用户“预约观看”的对象。举例来说，直播间内正在讲解商品，用户对“枕头”这一商品感兴趣，则可以在直播间内输入第一关键词“枕头”，此时直播间记录“枕头”为用户预约的对象。

在输入第一关键词后，如果用户正在浏览第一界面，如通过第一界面来浏览网页时，则自动对电子设备的显示界面进行分屏，具体为分屏显示第一界面和第二界面，该第一界面保留原有内容不变，如保留原本的网页浏览界面，第二界面则用来播放与用户搜索关键词相关联的第二视频。

在一些实施方式中，在用户输入第一关键词后，可能历史直播记录中没有与第一关键词相关联的内容，或者直播还未进行到与第一关键词指示的第一对象相关的进度，此时直播后台可以持续监测第一视频的视频内容，并判断是否出现了第一对象的相关内容。

示例性地，在直播进行过程中，直播后台持续检测直播内容，当检测到直播的第一视频的媒体内容中包含了“枕头”时，如第一视频的视频画面中识别出枕头，或者第一视频的音频中出现了与枕头相关联的关键词时，则通过弹窗提醒等方式显示提示信息，提示用户已经开始直播与“枕头”相关联的内容了。

示例性地，可以通过音频检测的方式判断直播内容是否包含用户预约的对象，如通过检测主播语音，当主播语音中包含了“枕头”一词时，显示提示信息。

示例性地，可以通过对直播画面进行图像检测来判断内容是否包含用户预约的对象，当检测到直播画面中出现了“枕头”这一物体时，显示提示信息。

在显示提示信息后，用户可以通过点击提示信息的方式，分屏显示第一界面和第二界面，并在第一界面中保留之前用户正在进行的操作界面，同时在第二界面中播放编辑后的第二视频，在不打断用户原有操作的基础上，及时向用户提供感兴趣的直播内容。

本申请实施例能够在不打断用户原本的操作的情况下，及时向用户展示感兴趣的直播内容。

在本申请的一些实施例中，第二界面中播放第二视频的情况下，电子设备的音频输出通道分配至第二界面；

方法还包括：

接收第三输入；

响应于第三输入，将电子设备的音频输出通道由第二界面切换至第一界面。

在本申请实施例中，在分屏显示第一界面和第二界面后，电子设备的音频输出通道默认为第二界面，也即播放第二视频的音频。此时用户能够听到第二视频的声音。

如果用户希望播放原本浏览的第一界面中的音频，则可以对第一界面进行第三输入，如长按第一界面，或者点击第一界面中的音频播放控件，此时电子设备的音频输出通道由播放第一视频的音频，切换为播放第一界面中的音频。

本申请实施例能够根据用户需求自动切换不同界面的音频，在保证用户不会错过感兴趣的直播内容的同时，避免打断用户当前正在进行的操作。

在本申请的一些实施例中，响应于第三输入，将电子设备的音频输出通道由第二界面切换至第一界面的步骤之后，方法还包括：

在第二界面显示第二视频对应的视频文本信息。

在本申请实施例中，当用户通过第三输入将电子设备的音频输出通道由播放第二视频的第二界面，切换为第一界面之后，用户将无法听到第二视频的视频声音。

此时，为了避免用户错过直播内容，可以在第二界面显示第二视频对应的视频文本信息，具体地，视频文本信息即字幕信息，视频文本信息可以是通过对第二视频的音频部分进行语音转文字处理后得到的，在第二界面中显示该视频文本信息后，用户可以通过阅读字幕信息的方式获取直播讲解的内容。

本申请实施例能够自由切换双屏界面的音频输出，在停止输出直播音频后，在直播界面中自动生成显示字幕信息，使用户能够通过字幕信息获取直播讲解的信息，在不打断用户原本浏览内容的情况下，保证用户能够完整获取到直播讲解的信息。

本申请实施例提供的视频播放方法，执行主体可以为视频播放装置。本申请实施例中以视频播放装置执行视频播放方法为例，说明本申请实施例提供的视频播放装置。

在本申请的一些实施例中，提供了一种视频播放装置，图12示出了本申请的一些实施例的视频播放装置的结构框图，如图12所示，视频播放装置1200包括：

接收模块1202，用于在播放第一视频的情况下，接收第一输入；第一输入对应第一关键词；

播放模块1204，用于响应于第一输入，播放第二视频；第二视频是根据第一视频中与第一关键词相对应的直播视频流确定的。

在本申请的一些实施例中，播放装置还包括：

编辑模块，用于对第一视频中与第一关键词相对应的直播视频流进行编辑处理；

确定模块，用于根据编辑处理后的直播视频流确定第二视频。

在本申请的一些实施例中，接收模块，还用于接收第二输入；第二输入对应第一编辑策略；

编辑模块，还用于响应于第二输入，根据第一编辑策略对第一关键词相对应的直播视频流进行编辑处理。

在本申请的一些实施例中，播放装置还包括：

显示控制模块，用于响应于第一输入，在显示第一界面的情况下，分屏显示第一界面和第二界面；

播放模块，用于在第二界面中播放第二视频。

接收模块，还用于接收第三输入；

播放装置还包括：

音频通道切换模块，用于响应于第三输入，将电子设备的音频输出通道由第二界面切换至第一界面。

在本申请的一些实施例中，显示控制模块，还用于在第二界面显示第二视频对应的视频文本信息。

本申请实施例中的视频播放装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频播放装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为iOS操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的视频播放装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，本申请实施例还提供一种电子设备，图13示出了根据本申请实施例的电子设备的结构框图，如图13所示，电子设备1300包括处理器1302，存储器1304，存储在存储器1304上并可在处理器1302上运行的程序或指令，该程序或指令被处理器1302执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

该电子设备1400包括但不限于：射频单元1401、网络模块1402、音频输出单元1403、输入单元1404、传感器1405、显示单元1406、用户输入单元1407、接口单元1408、存储器1409以及处理器1410等部件。

本领域技术人员可以理解，电子设备1400还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器1410逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图14中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，用户输入单元1407用于在播放第一视频的情况下，接收第一输入；第一输入对应第一关键词；

处理器1410用于响应于第一输入，播放第二视频；第二视频是根据第一视频中与第一关键词相对应的直播视频流确定的。

可选地，处理器1410，还用于对第一视频中与第一关键词相对应的直播视频流进行编辑处理；根据编辑处理后的直播视频流确定第二视频。

可选地，用户输入单元1407，还用于接收第二输入；第二输入对应第一编辑策略；

处理器1410还用于响应于第二输入，根据第一编辑策略对第一关键词相对应的直播视频流进行编辑处理。

可选地，编辑处理用于简化视频内容、简化音频内容和/或调节音量。

可选地，处理器1410，还用于响应于第一输入，在显示第一界面的情况下，分屏显示第一界面和第二界面；

用户输入单元1407，还用于在第二界面中播放第二视频；

可选地，第二界面中播放第二视频的情况下，电子设备的音频输出通道分配至第二界面；

用户输入单元1407，还用于接收第三输入；

处理器1410，还用于响应于第三输入，将电子设备的音频输出通道由第二界面切换至第一界面。

可选地，显示单元1406，用于在第二界面显示第二视频对应的视频文本信息。

应理解的是，本申请实施例中，输入单元1404可以包括图形处理器(GraphicsProcessing Unit，GPU)14041和麦克风14042，图形处理器14041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1406可包括显示面板14061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板14061。用户输入单元1407包括触控面板14071以及其他输入设备14072中的至少一种。触控面板14071，也称为触摸屏。触控面板14071可包括触摸检测装置和触摸控制器两个部分。其他输入设备14072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器1409可用于存储软件程序以及各种数据。存储器1409可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作***、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1409可以包括易失性存储器或非易失性存储器，或者，存储器1409可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器1409包括但不限于这些和任意其它适合类型的存储器。

处理器1410可包括一个或多个处理单元；可选的，处理器1410集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作***、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1410中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频播放方法，其特征在于，所述方法包括：

在播放第一视频的情况下，接收第一输入；所述第一输入对应第一关键词；

响应于所述第一输入，播放第二视频；所述第二视频是根据所述第一视频中与所述第一关键词相对应的直播视频流确定的。

2.根据权利要求1所述的视频播放方法，其特征在于，所述方法还包括：

对所述第一视频中与所述第一关键词相对应的直播视频流进行编辑处理；

根据编辑处理后的所述直播视频流确定所述第二视频。

3.根据权利要求2所述的视频播放方法，其特征在于，所述对所述第一视频中与所述第一关键词相对应的直播视频流进行编辑处理的步骤之前，所述方法还包括：

接收第二输入；所述第二输入对应第一编辑策略；

所述对所述第一视频中与所述第一关键词相对应的直播视频流进行编辑处理，包括：

响应于所述第二输入，根据所述第一编辑策略对所述第一关键词相对应的直播视频流进行编辑处理。

4.根据权利要求2所述的视频播放方法，其特征在于，所述编辑处理用于简化视频内容、简化音频内容和/或调节音量。

5.根据权利要求1所述的视频播放方法，其特征在于，所述响应于所述第一输入，播放第二视频，包括：

响应于所述第一输入，在显示第一界面的情况下，分屏显示所述第一界面和第二界面；

在所述第二界面中播放所述第二视频。

6.根据权利要求5所述的视频播放方法，其特征在于，在所述第二界面中播放所述第二视频的情况下，电子设备的音频输出通道分配至所述第二界面；

所述方法还包括：

接收第三输入；

响应于所述第三输入，将所述电子设备的音频输出通道由所述第二界面切换至所述第一界面。

7.根据权利要求6所述的视频播放方法，其特征在于，所述响应于所述第三输入，将所述电子设备的音频输出通道由所述第二界面切换至所述第一界面的步骤之后，所述方法还包括：

在所述第二界面显示所述第二视频对应的视频文本信息。

8.一种视频播放装置，其特征在于，所述播放装置包括：

接收模块，用于在播放第一视频的情况下，接收第一输入；所述第一输入对应第一关键词；

播放模块，用于响应于所述第一输入，播放第二视频；所述第二视频是根据所述第一视频中与所述第一关键词相对应的直播视频流确定的。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的视频播放方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的视频播放方法的步骤。