CN112653919A

CN112653919A - 字幕添加方法及装置

Info

Publication number: CN112653919A
Application number: CN202011536498.5A
Authority: CN
Inventors: 刁弘锦
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-13
Anticipated expiration: 2040-12-22
Also published as: CN112653919B

Abstract

本申请公开了一种字幕添加方法及装置，属于移动通信领域。所述方法包括：获取目标音视频的音视频信息；其中，所述音视频信息包括场景信息以及声音信息中的至少一种；确定与所述音视频信息对应的目标字幕格式；根据所述目标字幕格式，无需用户手动操作；且根据目标字幕格式所添加的字幕，与音视频信息相匹配，提升字幕添加效果，满足用户的个性化需求。本申请实施例解决了现有技术中，通过电子设备为音视频添加字幕的方式操作繁琐的问题。

Description

字幕添加方法及装置

技术领域

本申请属于移动通信领域，具体涉及一种字幕添加方法及装置。

背景技术

随着移动通信技术的迅速发展，各种移动电子设备以及非移动电子设备已成为人们生活中各方面不可或缺的工具。电子设备的各种应用程序(Application，APP)的功能也逐渐完善，不再只是单纯地起到通信作用，较多的是为用户提供各种智能化服务，给用户工作、生活带来了极大的便利。

以音视频文件的播放或录制来说，目前，以智能手机为主的电子设备已经成为播放或录制音视频文件的主要设备。在进行音视频文件录制或播放过程中，经常出现需要添加字幕的场景。以录制音视频为例，在添加字幕的过程中，通常需要用户使用在录制结束后使用其它APP进行添加和编辑，然鹅，通过其它APP添加和编辑字幕操作较为繁琐、耗费时间。

发明内容

本申请实施例的目的是提供一种字幕添加方法及装置，能够解决现有技术中，通过电子设备为音视频添加字幕的方式操作繁琐的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种字幕添加方法，所述方法包括：

获取目标音视频的音视频信息；其中，所述音视频信息包括场景信息以及声音信息中的至少一种；

确定与所述音视频信息对应的目标字幕格式；

根据所述目标字幕格式，在所述目标音视频中添加字幕。

第二方面，本申请实施例还提供了一种字幕添加装置，所述字幕添加装置包括：

信息获取模块，用于获取目标音视频的音视频信息；其中，所述音视频信息包括场景信息以及声音信息中的至少一种；

格式确定模块，用于确定与所述音视频信息对应的目标字幕格式；

字幕添加模块，用于根据所述目标字幕格式，在所述目标音视频中添加字幕。

第三方面，本申请实施例还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的程序或指令，所述处理器执行所述程序或指令时实现如上所述的字幕添加方法中的步骤。

第四方面，本申请实施例还提供了一种可读存储介质，该可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如上所述的字幕添加方法中的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如上所述的方法。

在本申请实施例中，获取目标音视频的音视频信息；其中，所述音视频信息包括场景信息以及声音信息中的至少一种；确定与所述音视频信息对应的目标字幕格式；根据所述目标字幕格式，在所述目标音视频中添加字幕，实现快捷添加字幕，无需用户手动操作；且根据目标字幕格式所添加的字幕，与音视频信息相匹配，提升字幕添加效果，满足用户的个性化需求。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1表示本申请实施例提供的字幕添加方法的流程图；

图2表示本申请实施例提供的第一示例的示意图；

图3表示本申请实施例提供的第二示例的流程图；

图4表示本申请实施例提供的第三示例的流程图；

图5表示本申请实施例提供的第三示例的示意图；

图6表示本申请的实施例提供的字幕添加装置的框图；

图7表示本申请的实施例提供的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的字幕添加方法进行详细地说明。

参见图1，本申请一实施例提供了一种字幕添加方法，可选地，所述方法可应用于电子设备，所述电子设备包括各种手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备，以及各种形式的移动台(Mobile Station，MS)，终端设备(Terminal Device)等等。

所述方法包括：

步骤101，获取目标音视频的音视频信息；其中，所述音视频信息包括场景信息以及声音信息中的至少一种。

可选地，所述目标音视频包括第一音视频以及第二音视频中的至少一项；所述第一音视频为所述电子设备录制的音视频；所述第二音视频为所述电子设备接收或播放的音视频，所述电子设备为本申请实施例提供的字幕添加方法所应用的电子设备；为了便于描述，本申请实施例中以目标音视频为电子设备录制的音视频为例说明。在电子设备录制目标音视频的过程中，电子设备获取目标音视频的音视频信息，音视频信息包括场景信息以及声音信息中的至少一种；场景信息即目标音视频中的场景，例如都市、山水、美食、舞台等；声音信息例如音色、音调和音量等。比如电子设备录制音视频时，从视频画面或从音频中提取场景信息，从音频中提取声音信息。

步骤102，确定与所述音视频信息对应的目标字幕格式。

获取目标音视频的音视频信息之后，进一步确定与音视频信息对应的目标字幕格式；可选地，若音视频信息中包括一项参数里，例如只包括场景信息，则目标字幕格式为与场景信息匹配的字幕格式；若音视频信息中包括至少两项参数，例如包括场景信息、声音信息中的音调、声音信息中的音色，则目标字幕格式为与所有参数匹配程度最高的字幕格式。

可选地，目标字幕格式可以是预设数据库中的字幕格式，比如在预设数据库中为每个字幕格式设定匹配条件，匹配条件用于与音视频信息进行匹配；目标字幕格式还可以是用户自定义的字幕格式，比如对于某些场景、某些声音信息用户预先设定字幕格式。

其中，字幕格式包括字体、大小、风格、显示特效等格式。

步骤103，根据所述目标字幕格式，在所述目标音视频中添加字幕。

确定目标字幕格式之后，电子设备根据所述字幕格式为音视频添加字幕；比如电子设备在录制目标音视频时，识别其中的声音，将声音转换成文字，并将所述文字按照目标字幕格式添加到所述目标音视频中；或电子设备接收到目标音视频，或播放目标音视频时，识别其中的声音，将声音转换成文字，并将所述文字按照目标字幕格式添加到所述目标音视频中；这样，无需用户手动添加字幕，实现了自动添加字幕。

本申请实施例中，获取目标音视频的音视频信息；其中，所述音视频信息包括场景信息以及声音信息中的至少一种；确定与所述音视频信息对应的目标字幕格式；根据所述目标字幕格式，在所述目标音视频中添加字幕，实现快捷添加字幕，无需用户手动操作；且根据目标字幕格式所添加的字幕，与音视频信息相匹配，提升字幕添加效果，满足用户的个性化需求。本申请实施例解决了现有技术中，通过电子设备为音视频添加字幕的方式操作繁琐的问题。

在一个可选实施例中，若所述音视频信息包括所述场景信息或所述声音信息，所述确定与所述音视频信息对应的目标字幕格式，包括：

根据预设的对应关系，确定与所述音视频信息对应的目标字幕格式。

预设的对应关系中，包括与每种音视频信息对应的目标字幕格式；对应关系可以是用户预先设定的对应关系，作为第一示例，参见图2，如以音视频信息仅包括场景信息为例，预定义几类场景，如虚线框S1内所示，场景包括都市、山水、美食、舞台等等，用户可以在不同的场景中预设字幕格式，例如字体、大小和风格；比如，针对某个场景，导入几张该场景对应的照片，然后设置该场景的个性化字体。用户还可自定义场景，如虚线框S2内所示。

此外，对应关系还可以是根据大数据算法确定的，根据机器学习或深度学习算法确定音视频信息对应的目标字幕格式，将目标字幕格式推荐给用户，如虚线框S3内所示，推荐场景包括萌宠、绘画等。

根据预设的对应关系，确定与所述音视频信息对应的目标字幕格式，以便电子设备快速根据音视频信息为目标音视频匹配字幕格式。

在一个可选实施例中，在所述音视频信息包括所述声音信息的情况下，所述对应关系中包括第四参数与第五参数的对应关系；

所述第四参数为所述声音信息的参数，所述第五参数为字幕格式。

比如第四参数为声调，则第五参数可以为字幕的字体大小；或第四采纳数为声色，则第五参数为字幕的字体颜色；比如用户录制一句话，然后设置与这句话相似音色、音调、音量的情况下字幕的字体、大小和特效。比如，字体的大小可以由音量大小或者语调长短来控制，比如，用户说“哇……”，语调较长，那么这个“哇”字的大小可以比同音量的其它字大一些，以突出显示效果。

第五参数还可以是字幕的字体或特效，第四参数可以是音调或音色；比如音调是比较低沉的男声，则字体可以是庄重正式的字体；音调是娃娃音的男声，则字体可以是比较圆润的字体，同时还加上一些可爱的特效，如爱心、星星等；或音调比较高的声音对应的字体比较细；或音调比较低的声音对应的字体比较粗，等等。

这样，可以实现根据声音信息的各个具体参数，个性化设置字幕格式，提升字幕的显示效果。

作为第二示例，参见图3，图3示出了应用本申请实施例提供的字幕添加方法的示例，主要包括以下步骤：

步骤301，预先设定对应关系。

比如，用户在录像前预设好字幕的字体风格、大小、特效，可以根据场景或声音(音色、音调、音量)进行个性化设置。

具体地，以根据场景进行字幕格式个性化设置为例，比如划分几大类预定义场景，如都市、山水、美食、舞台等等，用户可以在不同的场景给字幕设置喜欢又应景的字体、大小和风格；或自定义场景，用户可以导入几张该场景对应的照片，然后设置该场景的个性化字体；

还可根据大数据推荐场景，获取其它用户常设置的场景，将这些场景推荐给用户，用户选择是否对这些场景设置个性化字体。比如，很多用户喜欢给自己的萌宠录制视频，如果有很多用户自定义了萌宠场景并设置了个性化字体，而该用户也观看过或录制过萌宠的视频，可以在场景设置界面推荐用户设置萌宠场景。

此外，还根据声音信息进行字幕格式个性化设置。

(2)用户录入声音进行个性化设置时，音色、音调、音量的优先级依次由高到低。当用户录制一句话时，用户可以先选择音色对应的显示形式，接着进一步设置音色与音调对应的显示形式，最后继续设置音色、音调与音量对应的显示形式。匹配时也按照音色、音调、音量的优先级顺序依次进行匹配。

步骤302，录制目标音视频，获取音视频信息。

用户进行录像时，电子设备检测录像的场景、用户说话的音调、音色、音量等声音信息。

步骤303，电子设备确定与音视频信息对应的目标字幕格式。

电子设备根据音视频信息的检测结果，计算与字幕格式的预设条件的相似性，判断使用哪一种预设设置，然后在即时生成的字幕中使用这种设置。

步骤304，音视频录制结束后，用户可以对字幕进行编辑和调整。

用户可以修改错别字、调整标点符号，以及进一步切换风格、调整字体大小，添加更多特效等等。

步骤305，保存目标音视频。

在一个可选实施例中，若所述音视频信息包括所述场景信息以及所述声音信息，所述确定与所述音视频信息对应的目标字幕格式，包括：

获取预设数据库中，与所述音视频信息匹配程度最高的目标字幕格式。

预设数据库中包括字幕格式以及每个字幕格式对应的应用条件信息，应用条件信息即应用该字幕格式的条件；电子设备在获取预设数据库中，与音视频信息匹配程度最高的字幕格式作为目标字幕格式，提升字幕与目标音视频的匹配程度。

在一个可选实施例中，若所述音视频信息包括至少三项第一参数，所述第一参数为所述场景信息或所述声音信息；比如场景信息包括一个第一参数，声音信息包括两个第一参数；

所述获取预设数据库中，与所述音视频信息匹配程度最高的目标字幕格式，包括：

获取预设数据库中的字幕格式对应的应用条件信息；其中，所述应用条件信息中包括至少三项与所述第一参数分别对应的第二参数；

确定所述第一参数与所述第二参数的第一相似度；比如，第一参数包括音视频信息中的第一场景，第二参数包括应用条件中的第二场景，计算第一场景与第二场景的第一相似度；

根据所述第一相似度，确定所述应用条件信息与所述音视频信息的第二相似度；确定该应用条件信息的每组参数的第一相似度之后，则计算第二相似度，比如对每个第一相似度加权求和，计算第二相似度；

根据所述第二相似度，确定所述字幕格式与所述音视频信息的匹配程度，将匹配程度最高的字幕格式作为目标字幕格式；可选地，预设数据库中的字幕格式可能包括一个或至少两个应用条件信息，若包括至少两个应用条件信息，则可将该字幕格式的所有应用条件信息的第二相似度进行求和，计算匹配程度。

具体地，参见图4，作为第三示例，图4示出了应用本申请实施例提供的字幕添加方法的示例，主要包括以下步骤：

步骤401，录制目标音视频，获取音视频信息。

参见图5，步骤501中，用户进行音视频录制时，电子设备检测目标音视频的场景信息，以及用户说话的音调、音色、音量等声音信息。

步骤402，确定与所述音视频信息匹配程度最高的目标字幕格式。

图5中步骤502中，电子设备根据音视频信息，从预设数据库中搜索字幕格式对应的应用条件信息与此音视频信息最相似的应用条件，得到该应用条件最受欢迎、最常用、最可能被选择的预设设置，然后在即时生成的字幕中使用这种设置。比如，与音视频信息匹配的字幕格式包括预设字幕格式1与预设字幕格式2；预设字幕格式1包括2个应用条件，与音视频信息的第一相似度分别为如图中所示，应用条件1：基于场景的第一相似度为90％，基于音调的第一相似度为70％，基于音色的第一相似度为80％，……，应用条件3：基于场景的第一相似度为70％，……；预设字幕格式2的应用条件包括1个，应用条件2：基于场景的第一相似度为80％，基于音调的第一相似度为60％，基于音色的第一相似度为90％，……；步骤503，基于每个应用条件的第一相似度计算第二相似度，即图5中的权重；基于每个预设字幕格式的所有应用条件的权重计算匹配程度，即：

预设字幕格式1的分数(分数即匹配程度)＝权重1+权重3；

预设字幕格式2的分数＝权重2；

……

分数排序：预设字幕格式1＞预设字幕格式2。则预设字幕格式1为目标字幕格式；在步骤504中，将预设字幕格式1应用到目标音视频中。

比如，当用户在给在沙滩上玩耍的小宝宝录像，并且一边录像一边和小宝宝说话进行互动时，如果用户没有预设该场景或相似场景，那么就从预设数据库中进行搜索，搜索与当前录像相似的场景、音调、音色、音量的预设置数据，例如，在沙滩上玩耍的小宝宝为相似场景1、在黄色瓷砖上玩耍的小宝宝为相似场景2、在沙滩上与小伙伴一起玩耍的小宝宝为相似场景3等；年轻女性音色1为相似音色1、年轻女性音色2为相似音色2等，将这些相似的场景、音调、音色、音量根据算法计算与当前录像的相似程度，将相似程度作为权重，根据权重计算每种预设字体可能被选择的分数，将分数最高的预设字体应用在当前录像中。

步骤403，录像结束后，用户可以对字幕进行编辑和调整，编辑时，相机也会推荐此预设条件下最受欢迎的几种预设设置。

用户可以修改错别字、调整标点符号，从其它几种最受欢迎的预设设置中选择一种进行一键切换，以及进一步切换风格、调整字体大小，添加更多特效等等。用户最后的设置结果也会加入到大数据库中。进一步丰富大数据库。

步骤404，保存具有目标字幕格式的字幕的视频。

本申请实施例中，获取目标音视频的音视频信息；其中，所述音视频信息包括场景信息以及声音信息中的至少一种；确定与所述音视频信息对应的目标字幕格式；根据所述目标字幕格式，在所述目标音视频中添加字幕，实现快捷添加字幕，无需用户手动操作；且根据目标字幕格式所添加的字幕，与音视频信息相匹配，提升字幕添加效果，满足用户的个性化需求。

以上介绍了本申请实施例提供的字幕添加方法，下面将结合附图介绍本申请实施例提供的字幕添加装置。

需要说明的是，本申请实施例提供的字幕添加方法，执行主体可以为字幕添加装置，或者该字幕添加装置中的用于执行字幕添加方法的控制模块。本申请实施例中以字幕添加装置执行字幕添加方法为例，说明本申请实施例提供的字幕添加方法。

参见图6，本申请实施例还提供了一种字幕添加装置600，包括：

信息获取模块601，用于获取目标音视频的音视频信息；其中，所述音视频信息包括场景信息以及声音信息中的至少一种。

可选地，所述目标音视频包括第一音视频以及第二音视频中的至少一项；所述第一音视频为电子设备录制的音视频；所述第二音视频为所述电子设备接收或播放的音视频；为了便于描述，本申请实施例中以目标音视频为电子设备录制的音视频为例说明。在电子设备录制目标音视频的过程中，电子设备获取目标音视频的音视频信息，音视频信息包括场景信息以及声音信息中的至少一种；场景信息即目标音视频中的场景，例如都市、山水、美食、舞台等；声音信息例如音色、音调和音量等。比如电子设备录制音视频时，从视频画面或从音频中提取场景信息，从音频中提取声音信息。

格式确定模块602，用于确定与所述音视频信息对应的目标字幕格式。

其中，字幕格式包括字体、大小、风格、显示特效等格式。

字幕添加模块603，用于根据所述目标字幕格式，在所述目标音视频中添加字幕。

可选地，本申请实施例中，所述格式确定模块602包括：

第二确定子模块，用于若所述音视频信息包括所述场景信息以及所述声音信息的情况下，获取预设数据库中，与所述音视频信息匹配程度最高的目标字幕格式。

可选地，本申请实施例中，若所述音视频信息包括至少三项第一参数，所述第一参数为所述场景信息或所述声音信息；

所述第二确定子模块用于：

确定所述第一参数与所述第二参数的第一相似度；

根据所述第一相似度，确定所述应用条件信息与所述音视频信息的第二相似度；

根据所述第二相似度，确定所述字幕格式与所述音视频信息的匹配程度，将匹配程度最高的字幕格式作为目标字幕格式。

可选地，本申请实施例中，可选地，本申请实施例中，所述格式确定模块602包括：

第一确定子模块，用于若所述音视频信息包括所述场景信息或所述声音信息，根据预设的对应关系，确定与所述音视频信息对应的目标字幕格式。

其中，在所述音视频信息包括所述声音信息的情况下，所述对应关系中包括第四参数与第五参数的对应关系；

可选地，本申请实施例中，所述目标音视频包括第一音视频以及第二音视频中的至少一项；

所述第一音视频为电子设备录制的音视频；

所述第二音视频为所述电子设备接收或播放的音视频。

本申请实施例中，信息获取模块601获取目标音视频的音视频信息；其中，所述音视频信息包括场景信息以及声音信息中的至少一种；格式确定模块602确定与所述音视频信息对应的目标字幕格式；字幕添加模块603根据所述目标字幕格式，在所述目标音视频中添加字幕，实现快捷添加字幕，无需用户手动操作；且根据目标字幕格式所添加的字幕，与音视频信息相匹配，提升字幕添加效果，满足用户的个性化需求。

本申请实施例中的字幕添加装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本或者个人数字助理(PersonalDigital Assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(Personal Computer，PC)、电视机(Television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的字幕添加装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为ios操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的字幕添加装置能够实现图1至图5的方法实施例中字幕添加装置实现的各个过程，为避免重复，这里不再赘述。

可选的，本申请实施例还提供一种电子设备，包括处理器710，存储器709，存储在存储器709上并可在所述处理器710上运行的程序或指令，该程序或指令被处理器710执行时实现上述字幕添加方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图7为实现本申请各个实施例的一种电子设备700的硬件结构示意图；

该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。

本领域技术人员可以理解，电子设备700还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器710逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器710，用于获取目标音视频的音视频信息；其中，所述音视频信息包括场景信息以及声音信息中的至少一种；

确定与所述音视频信息对应的目标字幕格式；

根据所述目标字幕格式，在所述目标音视频中添加字幕。

可选的，处理器710，用于：

可选的，若所述音视频信息包括至少三项第一参数，所述第一参数为所述场景信息或所述声音信息；

处理器710，用于：

确定所述第一参数与所述第二参数的第一相似度；

可选的，处理器710，用于：

获取预设数据库中，与所述音视频信息匹配程度最高的目标字幕格式；

可选的，处理器710，用于：所述目标音视频包括第一音视频以及第二音视频中的至少一项；

所述第一音视频为电子设备录制的音视频；

所述第二音视频为所述电子设备接收或播放的音视频。本申请实施例中，获取目标音视频的音视频信息；其中，所述音视频信息包括场景信息以及声音信息中的至少一种；确定与所述音视频信息对应的目标字幕格式；根据所述目标字幕格式，在所述目标音视频中添加字幕，实现快捷添加字幕，无需用户手动操作；且根据目标字幕格式所添加的字幕，与音视频信息相匹配，提升字幕添加效果，满足用户的个性化需求。。

应理解的是，本申请实施例中，输入单元704可以包括图形处理器(GraphicsProcessing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元706可包括显示面板7061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板7061。用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器709可用于存储软件程序以及各种数据，包括但不限于应用程序和操作***。处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述字幕添加方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述字幕添加方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种字幕添加方法，其特征在于，所述方法包括：

确定与所述音视频信息对应的目标字幕格式；

根据所述目标字幕格式，在所述目标音视频中添加字幕。

2.根据权利要求1所述的字幕添加方法，其特征在于，若所述音视频信息包括所述场景信息以及所述声音信息，所述确定与所述音视频信息对应的目标字幕格式，包括：

3.根据权利要求2所述的字幕添加方法，其特征在于，若所述音视频信息包括至少三项第一参数，所述第一参数为所述场景信息或所述声音信息；

确定所述第一参数与所述第二参数的第一相似度；

4.根据权利要求1所述的字幕添加方法，其特征在于，若所述音视频信息包括所述场景信息或所述声音信息，所述确定与所述音视频信息对应的目标字幕格式，包括：

根据预设的对应关系，确定与所述音视频信息对应的目标字幕格式；

5.根据权利要求1所述的字幕添加方法，其特征在于，所述目标音视频包括第一音视频以及第二音视频中的至少一项；

所述第一音视频为电子设备录制的音视频；

所述第二音视频为所述电子设备接收或播放的音视频。

6.一种字幕添加装置，其特征在于，所述装置包括：

7.根据权利要求6所述的字幕添加装置，其特征在于，所述格式确定模块包括：

8.根据权利要求7所述的字幕添加装置，其特征在于，若所述音视频信息包括至少三项第一参数，所述第一参数为所述场景信息或所述声音信息；

所述第二确定子模块用于：

确定所述第一参数与所述第二参数的第一相似度；

9.根据权利要求6所述的字幕添加装置，其特征在于，所述格式确定模块包括：

第一确定子模块，用于若所述音视频信息包括所述场景信息或所述声音信息，根据预设的对应关系，确定与所述音视频信息对应的目标字幕格式；

10.根据权利要求6所述的字幕添加装置，其特征在于，所述目标音视频包括第一音视频以及第二音视频中的至少一项；

所述第一音视频为电子设备录制的音视频；

所述第二音视频为所述电子设备接收或播放的音视频。

11.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的字幕添加方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的字幕添加方法的步骤。