CN108962220B

CN108962220B - 多媒体文件播放场景下的文本显示方法及装置

Info

Publication number: CN108962220B
Application number: CN201810837384.0A
Authority: CN
Inventors: 裴泽潭; 卢镇洲
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2021-03-09
Anticipated expiration: 2038-07-26
Also published as: CN108962220A

Abstract

本公开是关于一种多媒体文件播放场景下的文本显示方法及装置，属于多媒体技术领域。该方法包括：终端检测当前播放的多媒体文件的音频所属的语种是否为目标语种，在检测到该音频所属的语种不为目标语种，且该多媒体文件不包括目标语种的字幕时，获取该多媒体文件的音频。进一步的，终端可以将该音频转换为目标语种的文本并显示在终端中，该目标语种的文本可以作为该多媒体文件的字幕以便用户观看。通过本公开提供的方法，终端可以实现字幕的自动添加。使得字幕添加更加方便，且提高了字幕添加的效率。

Description

多媒体文件播放场景下的文本显示方法及装置

技术领域

本公开涉及多媒体技术领域，特别涉及一种多媒体文件播放场景下的文本显示方法及装置。

背景技术

随着多媒体技术的快速发展，用户所能观看的视频类型越来越丰富。但是，当视频中的音频的语种不是用户所熟悉的语种，且该视频中没有相应的字幕时，语言障碍可能会影响用户理解该视频的内容。

相关技术中，用户可以预先下载该视频的指定语种的字幕，并可以将下载的指定语种的字幕手动添加至视频中，从而使得终端可以在播放视频的同时，显示该指定语种的字幕。

但是，相关技术中的字幕添加方法的操作较为复杂，效率较低。

发明内容

本公开实施例提供了一种多媒体文件播放场景下的文本显示方法及装置，可以解决相关技术中字幕添加方法的操作较为复杂，效率较低的问题。所述技术方案如下：

根据本公开实施例的第一方面，提供一种多媒体文件播放场景下的文本显示方法，所述方法包括：

检测当前播放的多媒体文件的音频所属的语种是否为目标语种；

当所述音频所属的语种不为所述目标语种，且所述多媒体文件中不包括所述目标语种的字幕时，获取所述多媒体文件的音频；

将所述音频转换为所述目标语种的文本；

显示所述目标语种的文本。

可选的，所述显示所述目标语种的文本，包括：

在所述多媒体文件的播放界面上显示所述目标语种的文本；

或者，分屏显示所述多媒体文件的播放界面和便签界面，并在所述便签界面显示所述目标语种的文本。

可选的，所述在所述便签界面显示所述目标语种的文本，包括：

在所述便签界面的第一区域以第一文本格式显示所述目标语种的文本；

在所述音频播放完成后，在所述便签界面的第二区域以第二文本格式显示所述目标语种的文本，或者取消显示所述目标语种的文本。

可选的，当所述音频所属的语种不为所述目标语种，且所述多媒体文件中不包括所述目标语种的字幕时，所述方法还包括：

显示触发按钮；

所述获取所述多媒体文件的音频包括：

在接收到针对所述触发按钮的触发操作时，获取所述多媒体文件的音频。

可选的，所述触发按钮包括翻译按钮和记录按钮中的至少一种；

当所述触发操作为针对所述记录按钮的触发操作时，所述方法还包括：

存储显示界面中显示的文本。

可选的，所述将所述音频转换为所述目标语种的文本，包括：

将所述音频转换为所述音频所属的语种的文本；

对所述音频所属的语种的文本进行翻译，得到所述目标语种的文本。

可选的，所述方法还包括：

显示所述音频所属的语种的文本。

可选的，所述方法还包括：

在将所述音频转换为所述音频所属的语种的文本之后，检测所述音频所属的语种的文本中是否包含预设类型的词语；

在所述音频所属的语种的文本中包含预设类型的词语时，所述显示所述目标语种的文本，包括：

显示所述目标语种的文本，并对所述目标语种的文本中，所述预设类型的词语所对应的目标词语进行区别显示。

可选的，在所述显示所述目标语种的文本之后，所述方法还包括：

当检测到针对所述目标词语的确认指令时，将所述目标词语确定为所述预设类型的词语在所述目标语种中对应的翻译词语；

当检测到针对所述目标词语的修正指令时，获取所述修正指令中所携带的修正词语，并将所述修正词语确定为所述预设类型的词语在所述目标语种中对应的翻译词语。

根据本公开实施例的第二方面，提供一种多媒体文件播放场景下的文本显示装置，所述装置包括：

第一检测模块，被配置为检测当前播放的多媒体文件的音频所属的语种是否为目标语种；

获取模块，被配置为当所述音频所属的语种不为所述目标语种，且所述多媒体文件中不包括所述目标语种的字幕时，获取所述多媒体文件的音频；

转换模块，被配置为将所述音频转换为所述目标语种的文本；

第一显示模块，被配置为显示所述目标语种的文本。

可选的，所述第一显示模块，包括：

第一显示子模块，被配置为在所述多媒体文件的播放界面上显示所述目标语种的文本；

第二显示子模块，被配置为分屏显示所述多媒体文件的播放界面和便签界面，并在所述便签界面显示所述目标语种的文本。

可选的，所述第二显示子模块，被配置为：

可选的，所述装置还包括：

第二显示模块，被配置为当所述音频的语种不为目标语种时，显示触发按钮；

所述获取模块，被配置为：

所述装置还包括：

存储模块，被配置为当所述触发操作为针对所述记录按钮的触发操作时，存储显示界面中显示的文本。

可选的，所述转换模块被配置为：

将所述音频转换为所述音频所属的语种的文本；

可选的，所述装置还包括：

所述第一显示模块，还被配置为显示所述音频所属的语种的文本。

可选的，所述装置还包括：

第二检测模块，被配置为在将所述音频转换为所述音频所属的语种的文本之后，检测所述音频所属的语种的文本中是否包含预设类型的词语；

所述第一显示模块，被配置为：

在所述音频所属的语种的文本中包含预设类型的词语时，显示所述目标语种的文本，并对所述目标语种的文本中，所述预设类型的词语所对应的目标词语进行区别显示。

可选的，所述装置还包括：

第一确定模块，被配置为在显示所述目标语种的文本之后，当检测到针对所述目标词语的确认指令时，将所述目标词语确定为所述预设类型的词语在所述目标语种中对应的翻译词语；

第二确定模块，被配置为当检测到针对所述目标词语的修正指令时，获取所述修正指令中所携带的修正词语，并将所述修正词语确定为所述预设类型的词语在所述目标语种中对应的翻译词语。

根据本公开实施例的第三方面，提供一种多媒体文件播放场景下的文本显示装置，包括：

处理器；

被配置为存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

将所述音频转换为所述目标语种的文本；

显示所述目标语种的文本。

根据本公开实施例的第四方面，提供一种存储介质，所述存储介质中存储有指令，当所述可读存储介质在处理组件上运行时，使得处理组件执行如第一方面所述的多媒体文件播放场景下的文本显示方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

综上所述，本公开实施例提供了一种多媒体文件播放场景下的文本显示方法及装置，由于终端可以在检测到当前播放的多媒体文件的音频所属的语种不为目标语种，且检测到多媒体文件中不包括目标语种的字幕时，获取该多媒体文件的音频，然后将该音频转换为目标语种的文本，并显示在终端中。也即是该目标语种的文本可以作为多媒体文件的字幕以便用户观看，由此实现了字幕的自动添加，该多媒体文件播放场景下的文本显示方法更加方便，且效率更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚的说明本公开的实施例，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见的，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种多媒体文件播放场景下的文本显示方法所涉及的实施环境的示意图；

图2是本公开实施例提供的一种多媒体文件播放场景下的文本显示方法的流程图；

图3是本公开实施例提供的另一种多媒体文件播放场景下的文本显示方法的流程图；

图4是本公开实施例提供的一种多媒体文件的播放界面的示意图；

图5是本公开实施例提供的一种包含字幕栏的播放界面的示意图；

图6是本公开实施例提供的一种播放界面和便签界面的示意图；

图7是本公开实施例提供的另一种播放界面和便签界面的示意图；

图8是本公开实施例提供的又一种播放界面和便签界面的示意图；

图9是本公开实施例提供的一种显示有已存储的文本的便签界面的示意图；

图10是本公开实施例提供的再一种播放界面和便签界面的示意图；

图11是本公开实施例提供的再一种播放界面和便签界面的示意图；

图12是本公开实施例提供的一种多媒体文件播放场景下的文本显示装置的框图；

图13是本公开实施例提供的一种第一显示模块的框图；

图14是本公开实施例提供的另一种多媒体文件播放场景下的文本显示装置的框图；

图15是本公开实施例提供的又一种多媒体文件播放场景下的文本显示装置的框图；

图16是本公开实施例提供的一种多媒体文件播放场景下的文本显示装置的结构示意图。

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步的详细描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

请参见图1，其示出了本公开部分实施例中提供的多媒体文件播放场景下的文本显示方法所涉及的实施环境的示意图。该实施环境可以包括：终端110。终端110可以为智能手机、电脑、多媒体播放器或者智能电视等，图1以终端110为智能手机为例进行说明。如图1所示，该终端110上可以安装有视频播放器AA或者音频播放器BB，该视频播放器AA或者音频播放器BB可以为终端中***自带的播放器，也可以为用户下载的第三方播放器，本公开实施例对此不作限定。

图2是本公开实施例提供的一种多媒体文件播放场景下的文本显示方法的流程图，可以应用于图1所示的终端110中，如图2所示，该方法可以包括：

步骤201、检测当前播放的多媒体文件的音频所属的语种是否为目标语种。

在本公开实施例中，该多媒体文件可以为视频文件或者音频文件等包含音频的文件。该目标语种可以为终端中预先设置的常用语种，且该目标语种可以为用户选定的。

当终端检测到当前播放的多媒体文件的音频所属的语种为目标语种时，终端可以正常播放该多媒体文件，并结束该字幕添加的操作；当终端检测到当前播放的多媒体文件的音频所属的语种不为目标语种，可以继续执行下述步骤202。

步骤202、当音频所属的语种不为目标语种时，且该多媒体文件中不包括目标语种的字幕时，获取多媒体文件的音频。

当终端检测到当前播放的多媒体文件的音频所属的语种不为目标语种，且当该多媒体文件中不包括该目标语种的字幕时，终端可以直接开启麦克风(即终端的话筒)，并通过该麦克风实时采集并录入该多媒体文件的音频；或者终端还可以在接收到用户触发的获取多媒体文件的音频的操作时，再通过该麦克风实时采集并录入多媒体文件的音频。

步骤203、将音频转换为目标语种的文本。

在本公开实施例中，终端可以通过实时语音翻译技术将该多媒体文件的音频转换为目标语种的文本。

其中，终端通过该实时语音翻译技术得到目标语种的文本的过程可以包括：终端先将获取到的多媒体文件的音频转换为该音频所属的语种的文本，然后再对该音频所属的语种的文本进行翻译，得到该目标语种的文本。

步骤204、显示目标语种的文本。

终端可以直接在多媒体文件的播放界面上显示该目标语种的文本；或者，终端还可以在该播放界面上悬浮显示字幕栏，并在该字幕栏内显示该目标语种的文本。也即是，可以该目标语种的文本作为该多媒体文件的字幕进行显示，以便用户观看。

其中，该字幕栏的背景色为预设的固定颜色(例如白色)，该字幕栏内显示的文本的颜色与该背景色可以为互补色(例如可以为黑色)，改善了文本的显示效果，并可以保证文本的显示效果不受播放内容的颜色的影响。

综上所述，本公开实施例提供了一种多媒体文件播放场景下的文本显示方法，由于终端可以在检测到当前播放的多媒体文件的音频所属的语种不为目标语种，且在该多媒体文件中不包括目标语种的字幕时，获取该多媒体文件的音频，然后将该音频转换为目标语种的文本，并显示在终端中。该目标语种的文本即可以作为该多媒体文件的字幕以便用户观看，由此实现了字幕的自动添加，该多媒体文件播放场景下的文本显示方法更加方便，且效率更高。

图3是本公开实施例提供的另一种多媒体文件播放场景下的文本显示方法的流程图，可以应用于图1所示的终端110中，如图3所示，该方法包括：

步骤301、检测当前播放的多媒体文件的音频所属的语种是否为目标语种。

在本公开实施例中，该多媒体文件可以为视频文件或者音频文件等包含音频的文件。该目标语种可以为终端中预先设置的常用语种，且该目标语种可以为用户选定的。当用户点击播放某多媒体文件时，终端可以开启麦克风，并通过麦克风采集该多媒体文件的音频；或者终端也可以不开启麦克风，当用户点击播放某多媒体文件时，该多媒体文件的音频会通过终端的扬声器发出，此时，终端可以直接采集通过该扬声器的音频。当终端采集到该多媒体文件的音频后，即可以检测该当前播放的多媒体文件的音频所属的语种是否为目标语种。

当终端检测到当前播放的多媒体文件的音频所属的语种为目标语种时，终端可以正常播放该多媒体文件，并结束该字幕添加的操作；当终端检测到当前播放的多媒体文件的音频所属的语种不为目标语种，可以继续执行下述步骤302。

示例的，假设某终端当前播放的多媒体文件为视频文件，且该视频文件的音频所属的语种为英文。则当终端通过麦克风采集到该视频文件的音频后，即可以检测到该视频文件的音频所属的语种即为英文。若该终端中预先设置的目标语种为中文，则终端可以确定该视频文件的音频所属的语种不为目标语种，并可以继续执行下述步骤302。

步骤302、当音频的语种不为目标语种时，检测该多媒体文件中是否包括目标语种的字幕。

在本公开实施例中，终端在检测到正在播放的多媒体文件的音频所属的语种不为目标语种后，可以继续检测该多媒体文件中是否包括目标语种的字幕。具体的，终端可以自动获取该多媒体文件的信息，并通过字幕检测的方法检测该多媒体文件中是否包括目标语种的字幕。

当终端检测到该多媒体文件中包括目标语种的字幕时，则结束该字幕添加的操作；当终端检测到该多媒体文件中不包含字幕时，或者检测到该多媒体文件包含字幕，但是该字幕的语种不是目标语种时，可以确定该多媒体文件不包括目标语种的字幕，则终端可以继续执行下述步骤303。

步骤303、当该多媒体文件中不包括目标语种的字幕时，显示触发按钮。

在本公开实施例中，当终端检测到当前播放的多媒体文件中不包括目标语种的字幕时，终端可以在多媒体文件的播放界面显示触发按钮。其中，该触发按钮可以包括翻译按钮和记录按钮中的至少一个。针对该翻译按钮的触发操作可以用于指示终端执行获取该多媒体文件的音频，将该音频转换为目标语种的文本，并显示该目标语种的文本的操作；针对该记录按钮的触发操作可以用于指示终端执行获取该多媒体文件的音频，将该音频转换为目标语种的文本以及显示和存储该目标语种的文本的操作，或者还可以用于指示终端在显示该目标语种的文本的同时，显示该音频对应的该音频所属的语种的文本以及存储该音频所属的语种的文本的操作。

用户在观看视频文件或者收听音频文件的过程中，由于语言障碍，用户可能会看不懂该视频文件或者听不懂该音频文件，此时用户可能需要终端对该视频文件或者音频文件进行翻译操作；或者为了后续可以回顾学习，用户可能在观看或者收听的过程中，想要对该视频文件或者音频文件的内容进行记录，此时用户可能需要终端对该视频文件或者音频文件进行记录操作，因此通过设置该翻译按钮和记录按钮，使得终端可以根据用户的不同需求，显示目标语种的文本，或者在显示目标语种的文本的过程中，存储该目标语种的文本，有效改善了用户体验。

示例的，图4示出了一种视频文件的播放界面图。假设终端检测到该视频文件的音频所属的语种不为目标语种时，此时如图4所示的，终端可以在视频文件的播放界面的右上角显示翻译按钮B1和记录按钮B2。

步骤304、在接收到针对触发按钮的触发操作时，获取多媒体文件的音频。

在本公开实施例中，当用户通过单击操作点击了触发按钮时，终端可以接收到针对该触发按钮的触发操作。此时，终端可以开启麦克风，并通过麦克风实时采集并录入该多媒体文件的音频。通过在接收到针对触发按钮的触发操作时再去获取多媒体文件的音频，可以使得在用户不希望将多媒体文件的音频转换为目标语种的文本时，终端不会去获取该多媒体文件的音频，提高了获取多媒体文件的音频的灵活性。

示例的，假设如图4所示，终端的播放界面中显示的触发按钮包括翻译按钮B1和记录按钮B2，当用户通过单击操作点击翻译按钮B1时，终端即可以接收到针对该翻译按钮B1的触发操作，此时，终端可以通过麦克风实时采集并录入该视频文件的音频。

可选的，终端在检测到当前播放的多媒体文件的音频所属的语种不为目标语种时，也可以无需开启麦克风，即终端可以直接实时采集通过扬声器的多媒体文件的音频。从而使得当用户是通过耳机收听该多媒体文件时，终端也可以获取到该多媒体文件的音频。

步骤305、将音频转换为音频所属的语种的文本。

在本公开实施例中，在终端获取到多媒体文件的音频之后，可以通过语音识别技术，将获取到的多媒体文件的音频先转换为该音频所属的语种的文本。

示例的，假设终端中播放的多媒体文件为视频文件，该视频文件的音频所属的语种为英文，当终端获取了该视频文件的音频之后，可以通过语音识别技术将该视频文件的音频先转换为英文文本。

步骤306、对音频所属的语种的文本进行翻译，得到目标语种的文本。

在本公开实施例中，在终端将获取到的多媒体文件的音频转换为该音频所属的语种的文本之后，可以对转换后得到的音频所属的语种的文本进行翻译，从而得到目标语种对应的文本。

示例的，终端对当前播放的视频文件的音频所属的语种的某段文本进行翻译后，得到的目标语种的文本可以为“三种设计模式的优缺点是什么呢？”

需要说明的是，在本公开实施例中，终端还可以在检测到当前播放的多媒体文件的音频所属的语种不为目标语种时，直接通过实时语音翻译技术将该多媒体文件的音频转换为目标语种的文本，该字幕添加的方法更加快捷。

步骤307、显示目标语种的文本。

在本公开实施例中，终端得到目标语种的文本后，可以在其显示界面中显示该目标语种的文本，以便用户观看。

作为一种可选的实现方式，终端可以在该多媒体文件的播放界面上显示目标语种的文本。

示例的，如图5所示，该多媒体文件的播放界面上可以悬浮显示有字幕栏P，终端可以将目标语种的文本“三种设计模式的优缺点是什么呢？”显示在该字幕栏P中。从而保证该文本的显示效果不受播放内容的影响，改善用户观看体验。

在本公开实施例中，该字幕栏的背景色可以为预设的固定颜色(例如白色)，该字幕栏内显示的文本的颜色与该背景色可以为互补色(例如可以为黑色)，改善了文本的显示效果，并可以保证文本的显示效果不受播放内容的颜色的影响。

作为另一种可选的实现方式，终端可以在其显示界面中分屏显示多媒体文件的播放界面和便签界面，其中，该播放界面用于显示多媒体文件，该便签界面用于显示目标语种的文本；同时，终端还可以对该便签界面显示的文本进行同步存储。

通过将该便签界面与多媒体文件的播放界面进行分屏显示，并将目标语种的文本显示在该便签界面中，既可以实现添加字幕的作用，也可以实现存储目标语种的文本的作用，使得当用户想要记录该多媒体文件的内容时，可以不用不断暂停并自己手动记录，提高了记录该多媒体文件的内容的效率。

示例的，当用户通过单击操作点击了图4中的记录按钮B2时，终端接收到的触发操作可以为针对该记录按钮B2的操作，相应的，如图6所示，终端可以分屏显示该多媒体文件的播放界面J1和便签界面J2，其中该播放界面J1可以位于便签界面J2的上方。参考图6可以看出，终端可以在播放界面J1中显示多媒体文件，并可以在便签界面J2中显示该目标语种的文本“三种设计模式的优缺点是什么呢？”。

可选的，当终端接收到的触发操作为针对记录按钮的操作，终端也可以不对其显示界面进行分屏，即终端可以直接在多媒体文件的播放界面中显示该目标语种的文本，并同时在后台记录并存储该目标语种的文本。相应的，当终端接收到的触发操作为针对翻译按钮的触发操作时，终端也可以分屏显示播放界面和便签界面，并在该便签界面显示该目标语种的文本。

需要说明的是，在本公开实施例中，终端中可以安装有便签应用程序，该便签界面可以为该便签应用程序的应用界面，且该便签应用程序可以为终端中的***应用程序，或者也可以是用户下载的第三方应用程序，本公开实施例对此不做限定。

进一步的，当终端在便签界面显示目标语种的文本时，为了改善用户的观看体验，本公开实施例提供了一种在便签界面显示目标语种的文本的方法，该方法可以包括：

步骤X1、在便签界面的第一区域以第一文本格式显示目标语种的文本。

其中，该第一区域可以为便签界面中用于专门显示当前正在播放的音频的目标语种的文本的区域，该第一区域可以位于便签界面的顶部，或者也可以位于便签界面中中部。该第一文本格式可以包括字号、字体颜色、字体透明度、字符间距或者行间距等。

步骤X2、在音频播放完成后，在便签界面的第二区域以第二文本格式显示目标语种的文本，或者取消显示目标语种的文本。

在本公开实施例中，在当前的一句音频播放完成后，为了使得终端可以将当前正在播放的多媒体文件的音频和该音频对应的目标语种的文本同步显示，提高用户的观看体验，终端可以在该句音频播放完成后，在便签界面的第二区域以第二文本格式显示目标语种的文本，或者终端也可以直接取消显示该目标语种的文本。相应的，终端可以在该第一区域继续以第一文本格式显示当前正在播放的音频对应的目标语种的文本。

其中，该第二区域可以为便签界面中与该第一区域相邻的区域，例如该第二区域可以位于第一区域的下方。与第一文本格式类似，该第二文本格式也可以包括字号、字体颜色、字体透明度、字符间距或者行间距等。并且，相对于该第二文本格式，该第一文本格式可以满足下述条件中的至少一种：颜色较为鲜明、字号较大、字体的透明度较低、字符间距较大或者行间距较大。由此可以使得当前播放的音频对应的目标语种的文本能够较为突出的显示在便签界面中，以便用户观看。

示例的，如图6所示，该第一区域Q1可以位于便签界面J2的最上方。该目标语种的文本“三种设计模式的优缺点是什么呢？”可以显示在该便签界面J2的第一区域Q1中。进一步的，如图7所示，当该句音频播放完成之后，在第一区域Q1的目标语种的文本“三种设计模式的优缺点是什么呢？”在该便签界面J2中消失。且该当前正在播放的音频对应的目标语种的文本“人机交互中最重要的”可以显示在该第一区域Q1中。或者如图8所示，当该句音频播放完成之后，该目标语种的文本“三种设计模式的优缺点是什么呢？”可以以第一字号显示在第一区域Q1下方的第二区域Q2中，同时，当前正在播放的音频对应的目标语种的文本“人机交互中最重要的”以第二字号显示在第一区域Q1，该第二字号大于该第一字号。

可选的，在本公开实施例中，终端除了可以显示该音频对应的目标语种的文本之前，还可以显示对音频进行转换后得到的音频所属的语种的文本，例如可以在便签界面中显示该音频所属的语种的文本。示例的，终端可以在便签界面中同时显示音频的英文文本和中文文本。

还需要说明的是，当多媒体文件中包括字幕，但该字幕不为目标语种的字幕时，为了改善目标语种的文本的显示效果，终端还可以在播放该多媒体文件时，禁止显示该多媒体文件中包括的字幕；或者，终端可以正常显示多媒体文件中包括的字幕，并可以将字幕栏悬浮显示在该字幕上，以对该字幕进行遮挡。

步骤307、存储显示界面显示的文本。

在本公开实施例中，在显示对多媒体文件的音频进行转换后得到的文本的同时，终端还可以同步存储该显示界面中显示的文本，以便用户在后续回顾并学习该多媒体文件时更加方便。其中，当显示界面显示的文本包括目标语种的文本时，终端可以将该目标语种的文本存储在终端的便签应用中；当显示界面显示的文本还包括该多媒体文件的音频所属的语种的文本时，终端还可以将该音频所属的语种的文本也存储在终端的便签应用中。通过在便签中将该显示界面显示的文本存储起来，可以方便用户在后续想要回顾学习时查看起来更加方便，且用户可以将该便签中存储的文本分享给好友，提高了用户学习的效率。

示例的，当用户在观看完该视频文件后，在后续想要回顾该视频文件的内容时，用户可以点击终端中的便签应用图标，启动该便签应用，并可以点击该便签应用中存储的该视频文件的文本，此时，终端即可以显示如图9所示的存储的视频文件对应的目标语种的文本。

需要说明的是，在本公开实施例中，终端可以仅存储便签界面中显示的文本。

在本公开实施例中，为了提高目标语种的文本的准确性，在上述步骤304之后，该多媒体文件播放场景下的文本显示方法还可以包括：

步骤Y1、检测转换后得到的音频所属的语种的文本中是否包含预设类型的词语。

其中，该预设类型的词语可以包括在不同的技术领域具有不同的含义词语，或者也可以包括人的名字。

示例的，假设对视频文件中的某段音频转换之后，终端检测到该音频所属的语种的文本包含英文词语“DSP”，而该DSP在物理领域中可以是指数字信号处理，而在材料领域中可以是指聚酯纤维。此时，终端可以确定该转换后得到的音频所属的语种的文本中包含预设类型的词语。

步骤Y2、在音频所属的语种的文本中包含预设类型的词语时，显示目标语种的文本，并对目标语种的文本中，预设类型的词语所对应的目标词语进行区别显示。

为了避免翻译错误，给用户学习带来困扰，终端可以在检测到音频所属的语种的文本中包含预设类型的词语时，对目标语种的文本中，预设类型的词语所对应的目标词语进行区别显示。比如，可以在存储该预设类型的词语所对应的目标词语时，以预设的文本格式进行显示。该预设的文本格式可以为对该目标词语的字体颜色或者背景颜色进行修改，或者也可以为给该目标词语字体加粗和加下划线。

示例的，如图10所示，终端可以在显示该目标词语“数字信号处理”时，可以对该目标词语的进行加粗和加下划线。或者终端还可以将该目标词语“数字信号处理”加浅红色背景做标记(图10中未示出)。

进一步的，为了使得用户可以对目标词语进行后续确认或者修改，在用户通过单击操作点击了该目标词语时，如图11所示，该目标词语下方可以显示修正按钮和确认按钮，当用户通过单击操作点击了修正按钮并输入修正词语后，终端即可以接收到用户触发的修改指令，该修正指令中携带有该修正词语。而当用户通过单击操作点击了确认按钮后，终端即可以接收到用户触发的确认指令。

在本公实施例中，当终端检测到的指令是确认指令时，可以将目标词语确定为预设类型的词语在目标语种中对应的翻译词语；而当终端检测到针对目标词语的修正指令时，终端可以获取修正指令中所携带的修正词语，并将修正词语确定为预设类型的词语在目标语种中对应的翻译词语。从而使得终端在下一次获取到该预设类型的词语，并需要对该词语进行翻译时，可以直接将本次确定的翻译词语确定为该预设类型的词语在目标语种中对应的翻译词语，并将翻译词语显示在显示界面中。由此可以实现对该翻译功能的智能学习，提高翻译的准确率。

示例的，当终端接收到针对目标词语“数字信号处理”的确认指令时，即可以将该目标词语“数字信号处理”确定为该词语在目标语种中对应的翻译词语。

需要说明的是，本公开实施例提供的多媒体文件播放场景下的文本显示方法步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，例如步骤303可以根据情况进行删除，也即是，当终端检测到多媒体文件的音频所属的语种不为目标语种，且检测该多媒体文件中不包括目标语种的字幕时，直接获取多媒体文件的音频。任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本公开的保护范围之内，因此不再赘述。

图12是本公开实施例提供的一种多媒体文件播放场景下的文本显示装置40的框图，如图12所示，该装置40可以包括：

第一检测模块401，被配置为检测当前播放的多媒体文件的音频所属的语种是否为目标语种。

获取模块402，被配置为当该音频所属的语种不为目标语种，且多媒体文件中不包括目标语种的字幕时，获取多媒体文件的音频。

转换模块403，被配置为将该音频转换为目标语种的文本。

第一显示模块404，被配置为显示该目标语种的文本。

综上所述，本公开实施例提供了一种多媒体文件播放场景下的文本显示装置，由于第一检测模块可以检测当前播放的多媒体文件的音频所属的语种是否为目标语种，获取模块可以在检测到当前播放的多媒体文件的音频所属的语种不为目标语种，且在该多媒体文件中不包括目标语种的字幕时，获取该多媒体文件的音频，转换模块可以将该音频转换为目标语种的文本，进一步的显示模块可以将该目标语种的文本显示在终端中，由此实现了字幕的自动添加，该多媒体文件播放场景下的文本显示装置提高了字幕添加的效率。

图13是本公开实施例提供的一种第一显示模块置404的框图，如图13所示，该第一显示模块置404可以包括：

第一显示子模块4041，被配置为在多媒体文件的播放界面上显示目标语种的文本。

第二显示子模块4042，被配置为分屏显示多媒体文件的播放界面和便签界面，并在便签界面显示目标语种的文本。

可选的，该第二显示子模块4042可以被配置为：

在便签界面的第一区域以第一文本格式显示目标语种的文本。

在音频播放完成后，在便签界面的第二区域以第二文本格式显示该目标语种的文本，或者取消显示目标语种的文本。

图14是本公开实施例提供的另一种多媒体文件播放场景下的文本显示装置40的框图，如图14所示，该装置还可以包括：

第二显示模块405，被配置为当音频的语种不为目标语种，且所述多媒体文件中不包括所述目标语种的字幕时，显示触发按钮。

相应的，该获取模块402可以被配置为在接收到针对触发按钮的触发操作时，获取多媒体文件的音频。

在本公开实施例中，该触发按钮可以包括翻译按钮和记录按钮中的至少一种。如图14所示，该装置40还可以包括：存储模块406，被配置为当触发操作为针对记录按钮的触发操作时，存储显示界面中显示的文本。

可选的，该转换模块403可以被配置为：

将音频转换为音频所属的语种的文本，对该音频所属的语种的文本进行翻译，得到目标语种的文本。

可选的，该第一显示模块404，还可以被配置为显示音频所属的语种的文本。

图15是本公开实施例提供的再一种多媒体文件播放场景下的文本显示装置40的框图，如图15所示，该装置40还可以包括：

第二检测模块407，被配置为在将音频转换为音频所属的语种的文本之后，检测音频所属的语种的文本中是否包含预设类型的词语。

可选的，该第一显示模块404还可以被配置为：在音频所属的语种的文本中包含预设类型的词语时，显示目标语种的文本，并对目标语种的文本中，预设类型的词语所对应的目标词语进行区别显示。

可选的，如图15所示，该装置还可以包括：

第一确定模块408，被配置为在显示目标语种的文本之后，当检测到针对目标词语的确认指令时，将目标词语确定为预设类型的词语在目标语种中对应的翻译词语。

第二确定模块409，被配置为当检测到针对目标词语的修正指令时，获取修正指令中所携带的修正词语，并将修正词语确定为预设类型的词语在目标语种中对应的翻译词语。

关于上述实施例中的多媒体文件播放场景下的文本显示装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图16是根据一示例性实施例示出的一种多媒体文件播放场景下的文本显示装置500的框图。例如，装置500可以是智能手机、电脑、多媒体播放器、或者智能电视等。

参照图16，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理***，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到装置500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述图2或图3所示实施例提供的多媒体文件播放场景下的文本显示方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置500的处理器执行时，使得装置500能够执行上述多媒体文件播放场景下的文本显示方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体文件播放场景下的文本显示方法，其特征在于，所述方法包括：

将所述音频转换为所述目标语种的文本；

显示所述目标语种的文本；

所述显示所述目标语种的文本，包括：分屏显示所述多媒体文件的播放界面和便签界面，并在所述便签界面显示所述目标语种的文本；

所述方法还包括：将所述便签界面显示的文本同步存储于所述便签界面所属的便签应用中。

2.根据权利要求1所述的方法，其特征在于，所述在所述便签界面显示所述目标语种的文本，包括：

3.根据权利要求1所述的方法，其特征在于，当所述音频所属的语种不为所述目标语种，且所述多媒体文件中不包括所述目标语种的字幕时，所述方法还包括：

显示触发按钮，所述触发按钮包括翻译按钮和记录按钮中的至少一个；

所述获取所述多媒体文件的音频包括：

在接收到针对所述触发按钮的触发操作时，获取所述多媒体文件的音频；

其中，针对所述触发按钮的触发操作用于指示获取所述多媒体文件的音频，将所述音频转换为所述目标语种的文本，并显示所述目标语种的文本；针对所述记录按钮的触发操作用于指示获取所述多媒体文件的音频，将所述音频转换为所述目标语种的文本，显示并存储所述目标语种的文本。

4.根据权利要求1至3任一所述的方法，其特征在于，所述将所述音频转换为所述目标语种的文本，包括：

将所述音频转换为所述音频所属的语种的文本；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，在所述显示所述目标语种的文本之后，所述方法还包括：

7.一种多媒体文件播放场景下的文本显示装置，其特征在于，所述装置包括：

第一显示模块，被配置为显示所述目标语种的文本；

所述第一显示模块，包括：第二显示子模块，被配置为分屏显示所述多媒体文件的播放界面和便签界面，并在所述便签界面显示所述目标语种的文本；

所述装置还被配置为：将所述便签界面显示的文本同步存储于所述便签界面所属的便签应用中。

8.根据权利要求7所述的装置，其特征在于，所述第二显示子模块，被配置为：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第二显示模块，被配置为当所述音频所属的语种不为所述目标语种，且所述多媒体文件中不包括所述目标语种的字幕时，显示触发按钮；

所述获取模块，被配置为：

10.根据权利要求7至9任一所述的装置，其特征在于，所述转换模块被配置为：

将所述音频转换为所述音频所属的语种的文本；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

所述第一显示模块，被配置为：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.一种多媒体文件播放场景下的文本显示装置，其特征在于，包括：

处理器；

被配置为存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

将所述音频转换为所述目标语种的文本；

显示所述目标语种的文本；

14.一种存储介质，其特征在于，所述存储介质中存储有指令，当所述可读存储介质在处理组件上运行时，使得处理组件执行如权利要求1至6任一所述的多媒体文件播放场景下的文本显示方法。