CN111836062A

CN111836062A - 视频播放方法、装置及计算机可读存储介质

Info

Publication number: CN111836062A
Application number: CN202010622064.0A
Authority: CN
Inventors: 张浩波
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-27

Abstract

本公开涉及一种视频播放方法、装置及计算机可读存储介质，所述方法包括：对实时接收到的流媒体数据进行缓存；从缓存的流媒体数据中获取待添加字幕的目标音轨数据；对所述目标音轨数据进行解析，获得所述目标音轨数据对应的目标文本信息；将所述目标文本信息与所述目标音轨数据进行时间轴对齐，获得所述目标文本信息对应的时间轴信息；根据所述流媒体数据进行视频播放，并基于所述目标文本信息和所述时间轴信息为播放的视频添加字幕。由此，可以为播放的视频实时添加字幕，从而可以使得用户在观看视频时，可以更加明确视频中的内容。并且，可以在保证不影响视频播放进度的同时，实时地为视频添加字幕，保证视频播放的实时性，提升用户使用体验。

Description

视频播放方法、装置及计算机可读存储介质

技术领域

本公开涉及视频技术领域，尤其涉及视频播放方法、装置及计算机可读存储介质。

背景技术

现在的流媒体直播越来越普遍，而在上述场景中通常是没有字幕显示的。相关技术中，通常是在直播结束之后为该视频添加字幕，不便于用户使用。

发明内容

为克服相关技术中存在的问题，本公开提供一种视频播放方法、装置及计算机可读存储介质。

根据本公开实施例的第一方面，提供一种视频播放方法，包括：

对实时接收到的流媒体数据进行缓存；

从缓存的流媒体数据中获取待添加字幕的目标音轨数据；

对所述目标音轨数据进行解析，获得所述目标音轨数据对应的目标文本信息；

将所述目标文本信息与所述目标音轨数据进行时间轴对齐，获得所述目标文本信息对应的时间轴信息；

根据所述流媒体数据进行视频播放，并基于所述目标文本信息和所述时间轴信息为播放的视频添加字幕。

可选地，所述方法还包括：

接收用户设置的语言选择指令，所述语言选择指令用于指示用户设置的目标语种；

所述对所述目标音轨数据进行解析，获得所述目标音轨数据对应的目标文本信息，包括：

对所述目标音轨数据进行语音识别，获得所述目标音轨数据对应的第一文本信息；

在所述第一文本信息与所述目标语种不同的情况下，按照所述目标语种对所述第一文本信息进行语种转换，以获得所述目标文本信息。

可选地，所述根据所述流媒体数据进行视频播放，并基于所述目标文本信息和所述时间轴信息为播放的视频添加字幕，包括：

播放所述流媒体数据中的所述目标音轨数据和与所述目标音轨数据对应的图像数据，并按照所述时间轴信息显示所述目标文本信息。

可选地，所述方法还包括：

对所述目标文本信息进行语句分割，确定所述目标文本信息包含的每一语句；

针对每一所述语句，根据所述语句对应的时间轴信息，从所述流媒体数据中确定与所述语句对应的图像数据；

根据所述图像数据确定与所述语句对应的目标人物信息；

所述根据所述流媒体数据进行视频播放，并基于所述目标文本信息和所述时间轴信息为播放的视频添加字幕，包括：

播放所述流媒体数据中的所述目标音轨数据和与所述目标音轨数据对应的图像数据，并按照所述时间轴信息，在所述目标人物信息对应的位置显示所述目标人物信息对应的语句的文本信息。

可选地，所述根据所述图像数据确定与所述语句对应的目标人物信息，包括：

根据所述图像数据进行人脸识别，确定所述图像数据对应的人物信息；

根据所述语句对应的音轨数据进行声纹特征提取，获得所述语句对应的声纹信息；

根据所述声纹信息，将所述图像数据对应的所述人物信息中与所述声纹信息匹配的人物信息确定为所述目标人物信息。

可选地，所述方法还包括：

存储所述目标音轨数据对应的进度信息，以表示所述目标音轨数据已被添加字幕。

根据本公开实施例的第二方面，提供一种视频播放装置，包括：

缓存模块，被配置为对实时接收到的流媒体数据进行缓存；

获取模块，被配置为从缓存的流媒体数据中获取待添加字幕的目标音轨数据；

解析模块，被配置为对所述目标音轨数据进行解析，获得所述目标音轨数据对应的目标文本信息；

处理模块，被配置为将所述目标文本信息与所述目标音轨数据进行时间轴对齐，获得所述目标文本信息对应的时间轴信息；

播放模块，被配置为根据所述流媒体数据进行视频播放，并基于所述目标文本信息和所述时间轴信息为播放的视频添加字幕。

可选地，所述装置还包括：

接收模块，被配置为接收用户设置的语言选择指令，所述语言选择指令用于指示用户设置的目标语种；

所述解析模块包括：

识别子模块，被配置为对所述目标音轨数据进行语音识别，获得所述目标音轨数据对应的第一文本信息；

转换子模块，被配置为在所述第一文本信息与所述目标语种不同的情况下，按照所述目标语种对所述第一文本信息进行语种转换，以获得所述目标文本信息。

可选地，所述播放模块包括：

第一播放子模块，被配置为播放所述流媒体数据中的所述目标音轨数据和与所述目标音轨数据对应的图像数据，并按照所述时间轴信息显示所述目标文本信息。

可选地，所述装置还包括：

分割子模块，被配置为对所述目标文本信息进行语句分割，确定所述目标文本信息包含的每一语句；

第一确定子模块，被配置为针对每一所述语句，根据所述语句对应的时间轴信息，从所述流媒体数据中确定与所述语句对应的图像数据；

第二确定子模块，被配置为根据所述图像数据确定与所述语句对应的目标人物信息；

所述播放模块包括：

第二播放子模块，被配置为播放所述流媒体数据中的所述目标音轨数据和与所述目标音轨数据对应的图像数据，并按照所述时间轴信息，在所述目标人物信息对应的位置显示所述目标人物信息对应的语句的文本信息。

可选地，所述第二确定子模块包括：

第三确定子模块，被配置为根据所述图像数据进行人脸识别，确定所述图像数据对应的人物信息；

提取子模块，被配置为根据所述语句对应的音轨数据进行声纹特征提取，获得所述语句对应的声纹信息；

第四确定子模块，被配置为根据所述声纹信息，将所述图像数据对应的所述人物信息中与所述声纹信息匹配的人物信息确定为所述目标人物信息。

可选地，所述装置还包括：

存储模块，被配置为存储所述目标音轨数据对应的进度信息，以表示所述目标音轨数据已被添加字幕。

根据本公开实施例的第三方面，提供一种视频播放装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

对实时接收到的流媒体数据进行缓存；

从缓存的流媒体数据中获取待添加字幕的目标音轨数据；

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的视频播放方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

通过上述技术方案，对实时接收到的流媒体数据进行缓存；从缓存的流媒体数据中获取待添加字幕的目标音轨数据；对所述目标音轨数据进行解析，获得所述目标音轨数据对应的目标文本信息；将所述目标文本信息与所述目标音轨数据进行时间轴对齐，获得所述目标文本信息对应的时间轴信息；根据所述流媒体数据进行视频播放，并基于所述目标文本信息和所述时间轴信息为播放的视频添加字幕。通过上述技术方案，可以基于缓存的流媒体数据中的音轨数据进行解析，从而生成该音轨数据对应的文本信息，以在视频播放时既可以播放视频，又可以显示文本信息，从而可以为播放的视频实时添加字幕，从而可以使得用户在观看视频时，可以更加明确视频中的内容。并且，该方案是基于缓存的流媒体数据的音轨数据进行操作，从而可以在保证不影响视频播放进度的同时，实时地为视频添加字幕，保证视频播放的实时性。另外，上述方案也可以为听力障碍的用户提供视频字幕说明，从而提升用户使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种视频播放方法的流程图。

图2是根据一示例性实施例示出的根据所述图像数据确定与所述语句对应的目标人物信息的示例性实现方式的流程图。

图3是根据一示例性实施例示出的视频播放界面的示意图。

图4是根据一示例性实施例示出的一种视频播放装置的框图。

图5是根据一示例性实施例示出的一种视频播放装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频播放方法的流程图，如图1所示，所述方法包括以下步骤。

在步骤11中，对实时接收到的流媒体数据进行缓存。

作为示例，在直播场景下，该流媒体数据可以为终端从服务器加载的视频数据，终端可以对接收到的该流媒体数据在终端进行缓存，从而可以在终端对该缓存的流媒体数据进行处理。

在步骤12中，从缓存的流媒体数据中获取待添加字幕的目标音轨数据。

其中，该流媒体数据可以包括音轨数据和图像数据，其中，所述音轨数据用于播放音频，所述图像数据用于播放图像，从而实现视频的播放。

可选地，在流媒体数据加载的初始情况下，流媒体数据中不存在已添加字幕的音轨数据，可以实时或定期确定缓存的流媒体数据中的音轨数据对应的数据量，在该数据量大于或等于目标阈值时，将缓存的流媒体数据中的音轨数据确定为该目标音轨数据。其中，该目标阈值可以根据实际使用场景进行设置，本公开对此不进行限定。示例地，该目标阈值可以设置为10M。

在一种可能的实施例中，可以实时确定缓存的流媒体数据中音轨数据对应的数据量，在确定该数据量达到目标阈值时，将该数据量对应的音轨数据确定为目标音轨数据。例如，在对实时接收到的流媒体数据进行缓存时，同时确定该流媒体数据中的音轨数据对应的数据量。示例地，该目标阈值为10M时，则每确定该数据量达到10M时，便将缓存中的该数据量对应的音轨数据确定为目标音轨数据。其中，需要进行说明的是，实时确定出的音轨数据的数据量可以超过10M，如数据量为11M，则此时将该11M对应的音轨数据部分确定为目标音轨数据。其中，需要进行说明的是，需要保证在确定该待添加字幕的目标音轨数据时，之前已添加字幕的音轨数据尚未完全播放，即该待添加字幕的目标音轨数据是从已缓存且尚未播放的流媒体数据中确定出的。

在另一种可能的实施例中，所述方法还可以包括：存储所述目标音轨数据对应的进度信息，以表示所述目标音轨数据已被添加字幕。示例地，可以将确定出的目标音轨数据的数据量作为目标音轨数据对应的进度信息并存储。例如，可以每间隔目标时间，确定缓存的流媒体数据中该进度信息之后的音轨数据的数据量是否达到目标阈值，若该数据量达到目标阈值，则可以将缓存的流媒体数据的音轨数据中该进度信息之后的音轨数据确定为所述目标音轨数据。若初始情况下，确定出的目标音轨数据对应的数据量为10M，则可以确定该目标音轨数据对应的进度信息为10M。作为示例，之后可以每间隔5秒确定该进度信息之后的音轨数据的数据量是否达到10M，例如可以通过音轨数据对应的总数据量和该进度信息的差值进行确定。示例地，确定出音轨数据对应的总数据量为23M，则表示该进度信息之后的音轨数据的数据量(13M)达到目标阈值，此时可以将该进度信息之后的音轨数据的确定为目标音轨数据。

由此，通过上述方式既可以快速确定出目标音轨数据，从而便于后续对目标音轨数据的处理。同时可以保证对流媒体数据中的音轨数据处理的完整性和准确性，从而保证后续添加的字幕的完整性和准确性。

在步骤13中，对目标音轨数据进行解析，获得目标音轨数据对应的目标文本信息。

其中，可以通过语音识别方法对所述目标音轨数据进行识别，从而获得该目标音轨数据对应的目标文本信息。

在步骤14中，将目标文本信息与目标音轨数据进行时间轴对齐，获得目标文本信息对应的时间轴信息。

作为示例，可以通过Seq2Seq(Sequence to Sequence，序列到序列)模型进行音轨数据与目标文本信息对应的序列的时间轴对齐，从而获得该目标文本信息对应的时间轴信息。其中，Seq2Seq模型为现有技术，在此不再赘述。

作为另一示例，在进行字幕显示时，通过都是一次性直接显示一句语句。基于此，可以针对所述目标文本信息中的每一语句，获取该语句对应音轨数据的起止时间(包括起始时间和终止时间)，并将该起止时间确定为该目标文本信息对应的时间轴信息。例如，针对语句“欢迎大家来到XX直播”，其音轨数据对应的起止时间为(1，3)，即该语句对应的起始时间为第1s，终止时间为第3s，由此可以获得该目标文本信息对应的时间轴信息。

在步骤15中，根据流媒体数据进行视频播放，并基于目标文本信息和时间轴信息为播放的视频添加字幕。

随着计算机网络技术的发展，在实际使用场景中用户可能会观看外文直播，因此会由于语言不通的问题而无法清楚的了解直播中的具体内容。因此，本公开还提供以下实施例。

可选地，所述方法还可以包括：

接收用户设置的语言选择指令，所述语言选择指令用于指示用户设置的目标语种。

示例地，用户可以通过语言设置界面进行语种选择。在该语言设置界面中可以承载用多个语种的备选项，用户可以通过选择其中的一个语种作为流媒体数据显示的字幕对应的目标语种。

相应地，在步骤13中，对目标音轨数据进行解析，获得目标音轨数据对应的目标文本信息的示例性实现方式如下，该步骤可以包括：

对所述目标音轨数据进行语音识别，获得所述目标音轨数据对应的第一文本信息。示例地，可以通过自动语音识别(Automatic Speech Recognition，ASR)技术对该目标音轨数据进行语音识别。

示例地，用户当前正在观看韩文直播节目，而用户在语言设置界面中选择的语种为中文语种的应用场景下，通过语音识别确定出该目标音轨数据对应的目标文本信息为韩文文本信息，而用户选择的目标语种为中文，则在该情况下，可以基于翻译器对第一文本信息进行翻译，从而可以将韩文文本信息转换成中文文本信息，即获得目标文本信息。

由此，通过上述技术方案，可以实时显示视频中的语音对应的字幕，并且可以将该字幕显示为用户选择的目标语种，从而可以在用户观看语言不通的视频时，也能够知晓该视频中的具体内容。并且上述方案中是基于缓存中的流媒体数据确定目标文本信息，由此，针对于同一视频数据，不同的用户对应的终端中进行视频播放时可以显示不同的目标文本信息，从而进一步拓宽该视频播放方法的适用范围。

可选地，在步骤15中，根据流媒体数据进行视频播放，并基于目标文本信息和所述时间轴信息为播放的视频添加字幕的示例性实现方式如下，该步骤可以包括：

示例地，通过上文所述实施例，则可以针对缓存的流媒体数据中的目标音轨数据确定出其对应的目标文本信息，因此，在基于缓存中的流媒体数据进行视频播放时，则可以播放该目标音轨数据和该所述目标音轨数据对应的图像数据，从而实现流媒体数据播放的音画同步。其中，同步播放流媒体数据中的音轨数据和图像数据为本领域中常用的播放方式，在此不再赘述。在本公开实施例中，在对视频进行播放的同时，可以按照所述时间轴信息显示所述目标文本信息，从而可以为播放的视频实时添加字幕，并且该字幕与该视频中的音轨数据相对应。

例如，接上文所示示例，确定出语句“欢迎大家来到XX直播”，其音轨数据对应的起止时间为(1，3)，则在按照所述时间轴信息显示所述目标文本信息时，即在视频播放的第1s-第3s显示该目标文本信息“欢迎大家来到XX直播”，同时播放的视频中的音轨数据为“欢迎大家来到XX直播”语句，且画面为该语句对应的画面，从而保证音频、画面、字幕的同步显示。

由此，通过上述技术方案，可以在播放的视频中实时添加字幕显示，从而可以使得用户更加明确当前观看的内容，便于用户使用。同时通过上文所述方法，可以实现播放的视频的音频、画面、字幕的同步显示，可以适用于听力障碍的用户观看视频的场景中，进一步拓宽该方法的使用范围，并为用户观看视频提供便利，进一步提升用户使用体验。

在另一应用场景中，当画面中出现多人时，对于听力障碍的用户而言，其难以分辨其中的每句话为画面中哪一人物所讲。基于此，本公开还提供以下实施例。

可选地，所述方法还可以包括：

对所述目标文本信息进行语句分割，确定所述目标文本信息包含的每一语句。示例地，可以通过训练一自然语言处理(NLP)的分类器实现对目标文本信息的语句分割，或者也可以基于NLTK(Natural Language Toolkit，自然语言处理工具包)实现语句分割。

针对每一所述语句，根据所述语句对应的时间轴信息，从所述流媒体数据中确定与所述语句对应的图像数据。

其中，可以将该语句对应的音轨数据的起止时间确定为语句对应的时间轴信息，其确定方式已在上文进行详述。之后，可以将流媒体数据中与该时间轴信息对应的图像数据确定为该语句对应的图像数据。例如，可以将第1s-第3s对应的图像数据确定为语句“欢迎大家来到XX直播”对应的图像数据。

之后，可以根据所述图像数据确定与所述语句对应的目标人物信息。该目标人物信息即所述图像数据中包含的说出该语句的人物的信息。

其中，通常在当前帧画面中的人物和声音的声纹信息对应的人物会对应于同一人物，基于此本公开提供以下实施例，以确定语句对应的目标人物信息。

示例地，所述根据所述图像数据确定与所述语句对应的目标人物信息的示例性实现方式如下，如图2所示，该步骤可以包括：

在步骤21中，根据图像数据进行人脸识别，确定图像数据对应的人物信息。

作为示例，可以针对图像数据中包含的每一视频帧进行人脸识别，从而将确定出每一视频帧中包含的人物信息。在实际应用场景中，连续多个图像帧中包含的人物通常相同，则作为另一示例，可以对图像数据中包含的视频帧以预设时间间隔进行采样，通过对采样出的视频帧进行人脸识别，从而确定视频中的包含的人物信息。

示例地，可以基于现有的人脸检测算法，如可以通过seetaface、mtcnn等人脸检测算法进行检测，从而可以提取出视频帧中的每一人脸图像。之后可以通过现有的关键点检测算法进行关键点提取，例如，ERT(EnsembleofRegressionTress)算法、MDM(MnemonicDescentMethod)等人脸关键点检测方法，从而可以获得人脸图像对应的关键点。在确定出人脸图像对应的关键点后，则可以根据该关键点的位置信息确定人物的状态信息。

其中，在显示的画面中讲话的人物通常在当前画面中对应的屏幕占比较大。因此，在一种可能的实施例中，在确定出画面中存在多个人物时，则可以按照每一人物对应的关键点的位置信息确定每一人物对应的屏幕占比，从而将屏幕占比由大至小排序前N的人物的信息确定为图像数据对应的人物信息，该人物信息可以为该人物对应的性别信息、位置信息等。

在另一种可能的实施例中，可以通过该关键点的位置信息确定该人物是否张口讲话，从而确定该图像数据对应的人物信息。其中，可以预先训练一检测模型，以基于关键点的位置信息检测人物是否处于讲话状态。示例地，可以基于讲话的人脸图像对应的关键点的位置信息作为训练数据进行训练。由此，在确定出每一人物对应的关键点时，可以将该关键点的位置信息输入该检测模型，以确定该人物是否为讲话状态。之后在确定该人物为讲话状态时，将该人物的信息确定为图像对应的人物信息。

在另一种可能的实施例中，可以通过结合上文所述的两种方式确定图像数据对应的人物信息，例如，可以将对应于讲话状态中的屏幕占比由大至小排序前M的人物的信息确定为图像数据对应的人物信息，其中N和M可以相同，也可以不同。

由此，可以全面且准确地的提取出对应画面中的可能讲话的人物信息，为后续确定语句对应目标人物信息提供全面的数据支持。

在步骤22中，根据语句对应的音轨数据进行声纹特征提取，获得语句对应的声纹信息。示例地，可以通过提取MFCC(Mel-scale Frequency CepstralCoefficients，梅尔倒谱系数)特征作为声纹特征，从而获得声纹信息。

在步骤23中，根据声纹信息，将图像数据对应的人物信息中与声纹信息匹配的人物信息确定为目标人物信息。

作为示例，可以根据声纹信息确定出的性别信息进行匹配。若根据提取出的声纹信息表征为女声，则将确定出的图像数据对应的人物信息中对应为性别信息为女生的人物信息确定为该目标人物信息。其中根据声纹信息进行性别判定的方式为现有技术，在此不再赘述。

作为另一示例，可以根据声纹信息确定出的年龄信息进行匹配。若根据提取出的声纹信息表征为年龄为中年，则将确定出的图像数据对应的人物信息中对应为年龄信息为中年的人物信息确定为该目标人物信息。其中根据声纹信息进行年龄判定的方式为现有技术，在此不再赘述。

示例地，若通过上述方式确定出的匹配的人物信息为多个，则可以将匹配到的对应于讲话状态中的屏幕占比最大的人物信息确定为该目标人物信息。

由此，通过上文所述方法，可以快速且准确地确定出视频画面中每一语句对应的目标人物信息，从而可以实现语句与人物信息的对应，便于针对人物的添加字幕。

相应地，在步骤15中，根据流媒体数据进行视频播放，并基于目标文本信息和时间轴信息为播放的视频添加字幕的示例性实现方式如下，该步骤可以包括：

其中，播放所述流媒体数据中的所述目标音轨数据和与所述目标音轨数据对应的图像数据的方式已在上文进行详述。示例地，语句“欢迎大家来到XX直播”对应的时间轴信息为(1，3)，确定出该语句对应的图像数据中包含两个人物，如图3所示人物A和人物B，通过上文所述确定出该语句对应的目标人物信息指示为人物A，则在显示语句“欢迎大家来到XX直播”的文本信息时，则可以在人物A对应的位置进行显示，如图3所示。其中，可以通过目标人物信息对应的关键点的位置信息确定该目标人物信息对应的语句的文本信息显示的位置。

由此，通过上文所述，可以确定出目标音轨数据中每一语句对应的目标人物信息，从而可以在为播放的视频添加字幕时，可以在该人物信息对应的位置显示其语句的文本信息，从而可以使得用户明确视频中的哪一用户在讲话以及该用户的讲话内容，便于听力障碍的用户对视频的理解，进一步提升用户使用体验。

本公开还提供一种视频播放装置，如图4所示，所述装置10包括：

缓存模块100，被配置为对实时接收到的流媒体数据进行缓存；

获取模块200，被配置为从缓存的流媒体数据中获取待添加字幕的目标音轨数据；

解析模块300，被配置为对所述目标音轨数据进行解析，获得所述目标音轨数据对应的目标文本信息；

处理模块400，被配置为将所述目标文本信息与所述目标音轨数据进行时间轴对齐，获得所述目标文本信息对应的时间轴信息；

播放模块500，被配置为根据所述流媒体数据进行视频播放，并基于所述目标文本信息和所述时间轴信息为播放的视频添加字幕。

可选地，所述装置还包括：

所述解析模块包括：

可选地，所述播放模块包括：

可选地，所述装置还包括：

所述播放模块包括：

可选地，所述第二确定子模块包括：

可选地，所述装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的视频播放方法的步骤。

图5是根据一示例性实施例示出的一种视频播放装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的视频播放方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理***，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述视频播放方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述视频播放方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的视频播放方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频播放方法，其特征在于，包括：

对实时接收到的流媒体数据进行缓存；

从缓存的流媒体数据中获取待添加字幕的目标音轨数据；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述流媒体数据进行视频播放，并基于所述目标文本信息和所述时间轴信息为播放的视频添加字幕，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述图像数据确定与所述语句对应的目标人物信息；

5.根据权利要求4所述的方法，其特征在于，所述根据所述图像数据确定与所述语句对应的目标人物信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种视频播放装置，其特征在于，包括：

缓存模块，被配置为对实时接收到的流媒体数据进行缓存；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

所述解析模块包括：

9.一种视频播放装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

对实时接收到的流媒体数据进行缓存；

从缓存的流媒体数据中获取待添加字幕的目标音轨数据；

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1-6中任一项所述方法的步骤。