CN114900718A

CN114900718A - 一种多区域感知的自动多字幕实现方法、装置及***

Info

Publication number: CN114900718A
Application number: CN202210814117.8A
Authority: CN
Inventors: 韦月飞; 张灵晶
Original assignee: Shenzhen SDMC Technology Co Ltd
Current assignee: Shenzhen SDMC Technology Co Ltd
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-08-12

Abstract

本申请公开提供了一种多区域感知的自动多字幕实现方法、装置及***，其中，该方法包括：接收来自终端的内容播放请求，所述内容播放请求包括内容标识和所述终端的IP地址；根据所述终端的IP地址查找所述终端所在区域的区域信息；根据所述内容标识从预先生成的注入内容输出目录中获取音频文件，基于所述音频文件中的语音创建与所述区域信息对应的区域语种字幕，并生成区域语种字幕输出目录；根据所述区域语种字幕输出目录生成索引文件，并将所述索引文件返回给终端，解决了现有技术中，字幕文件需要提前制作，人工制作字幕出现字幕显示的时间与音视频画面不同步的问题。

Description

一种多区域感知的自动多字幕实现方法、装置及***

技术领域

本发明涉及多媒体音视频技术领域，具体涉及一种多区域感知的自动多字幕实现方法、装置及***。

背景技术

随着互联网技术的发展，人们现在已经可以通过互联网观看到不同国家、不同语种的电剧视和电影，但是，在观看非母语语种的电视剧或电影过程中，如果没有字幕提示功能，很难理解电视剧或电影中人物对话所表达的意思，因此，字幕提示功能对理解非母语语种的影视作品人物对话所表达意思起到了桥梁的作用，目前，在影视作品中显示多字幕的传统做法是：内容运营商提前制作影视作品多语言字幕文件，比如中文、英语、德语和韩语，在用户播放影视作品时，用户可以从多字幕列表中选择相应的字幕，服务端根据用户的选择下发对应的字幕文件，虽然实现方法在一定程度上解决了非母语语种影视作品字幕呈现的问题，但是仍存在一些不足：第一，字幕文件是需要提前制作的，因此，在用户观看影视作品时，用户可选择的字幕列表是固定的，选择性有限，缺乏灵活性，如果字幕列表中没有包含用户母语语种对应的字幕，对用户来说，字幕就失去了应有的作用，用户体验来说是不友好的；第二，人工制作字幕会出现字幕显示的时间与音视频画面不同步的问题，这种情况下字幕没有起到应有的作用。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中，字幕文件需要提前制作，在用户观看影视作品时，用户可选择的字幕列表是固定的，选择性有限，缺乏灵活性，如果字幕列表中没有包含用户母语语种对应的字幕，对用户来说，字幕就失去了它应有的作用，用户体验来说是不友好的；人工制作字幕会出现字幕显示的时间与音视频画面不同步的问题，这种情况下字幕没有起到应有的作用的问题，从而提供一种多区域感知的自动多字幕实现方法、装置及***。

为解决上述技术问题，本发明公开实施例至少提供一种多区域感知的自动多字幕实现方法、装置及***。

第一方面，本发明公开实施例提供了一种多区域感知的自动多字幕实现方法，包括：

接收来自终端的内容播放请求，所述内容播放请求包括内容标识和所述终端的IP地址；

根据所述终端的IP地址查找所述终端所在区域的区域信息；

根据所述内容标识从预先生成的注入内容输出目录中获取音频文件，基于所述音频文件中的语音创建与所述区域信息对应的区域语种字幕，并生成区域语种字幕输出目录；

根据所述区域语种字幕输出目录生成索引文件，并将所述索引文件返回给终端。

可选地，根据下述方式生成所述注入内容输出目录：

接收来自内容管理***的注入内容请求，所述注入内容请求包括源文件的路径信息；

生成注入内容的内容标识并创建对应的输出目录；

根据所述源文件的路径信息获取源文件，从源文件分离出音频文件，写入所述输出目录；

对所述源文件进行打包切片，输出视频切片到第一目录，输出音频切片到第二目录；

将第一目录信息和第二目录信息写入所述输出目录，得到所述注入内容输出目录。

可选地，在从源文件分离出音频文件，写入所述输出目录后，生成音频文件完整路径；

所述根据所述内容标识从预先生成的注入内容输出目录中获取音频文件包括：

根据所述内容标识查找音频文件完整路径；

根据所述音频文件完整路径从所述注入内容输出目录中获取音频文件。

可选地，所述根据所述区域语种字幕输出目录生成索引文件包括：

从所述注入内容输出目录中获取第一目录和第二目录；

根据所述区域语种字幕输出目录、第一目录和第二目录生成一级索引文件。

第二方面，本发明公开实施例还提供一种多区域感知的自动多字幕实现装置，包括：

分发模块，用于接收来自终端的内容播放请求，所述内容播放请求包括内容标识和所述终端的IP地址；

区域模块，用于根据所述终端的IP地址查找所述终端所在区域的区域信息；

字幕模块，用于根据所述内容标识从预先生成的注入内容输出目录中获取音频文件，基于所述音频文件中的语音创建与所述区域信息对应的区域语种字幕，并生成区域语种字幕输出目录；

分发模块，用于根据所述区域语种字幕输出目录生成索引文件，并将所述索引文件返回给终端。

可选地，根据下述方式生成所述注入内容输出目录：

生成注入内容的内容标识并创建对应的输出目录；

从所述注入内容输出目录中获取第一目录和第二目录；

第三方面，本发明公开实施例还提供一种多区域感知的自动多字幕实现***，包括：

内容管理***、终端和第二方面中任一所述的多区域感知的自动多字幕实现装置。

第四方面，本发明公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第五方面，本发明公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本发明的实施例提供的技术方案可以具有以下有益效果：

通过从预先生成的注入内容输出目录中获取音频文件，基于所述音频文件中的语音创建与所述区域信息对应的区域语种字幕，为不同区域的用户自动生成相应母语语种的字幕文件；可以避免传统的人工制作字幕的方式，提升了字幕制作的灵活性；由于采用了自动生成字幕的技术手段，有效避免了人工制作字幕过程中可能出现的与音频不同步的问题。进一步地，通过生成注入内容输出目录和返回索引文件的方式，将内容的视频、音频和区域语种字幕的索引发送给终端用户，无需对源文件进行更改，也保障了终端处字幕与内容同步显示。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明公开实施例所提供的一种多区域感知的自动多字幕实现方法的流程图；

图2示出了本发明公开实施例所提供的一种多区域感知的自动多字幕实现装置的结构示意图；

图3示出了本发明公开实施例所提供的一种多区域感知的自动多字幕实现***的结构示意图；

图4示出了本发明公开实施例所提供的另一种多区域感知的自动多字幕实现方法的流程图；

图5示出了本发明公开实施例所提供的输出目录下目录结构示意图；

图6示出了本发明公开实施例所提供的video目录下目录结构示意图；

图7示出了本发明公开实施例所提供的audio目录下目录结构示意图；

图8示出了本发明公开实施例所提供的处理完成后输出目录下输出的分片列表图；

图9示出了本发明公开实施例所提供的分发模块生成的一级索引文件图；

图10示出了本发明公开实施例所提供的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例1

如图1所示，本发明公开实施例所提供的一种多区域感知的自动多字幕实现方法，该方法包括：

S11：接收来自终端的内容播放请求，所述内容播放请求包括内容标识和所述终端的IP地址；

S12：根据所述终端的IP地址查找所述终端所在区域的区域信息；

S13：根据所述内容标识从预先生成的注入内容输出目录中获取音频文件，基于所述音频文件中的语音创建与所述区域信息对应的区域语种字幕，并生成区域语种字幕输出目录；

S14：根据所述区域语种字幕输出目录生成索引文件，并将所述索引文件返回给终端。

在具体实践中，根据下述方式生成所述注入内容输出目录：

生成注入内容的内容标识并创建对应的输出目录；

在具体实践中，在从源文件分离出音频文件，写入所述输出目录后，生成音频文件完整路径；

根据所述内容标识查找音频文件完整路径；

在具体实践中，所述根据所述区域语种字幕输出目录生成索引文件包括：

从所述注入内容输出目录中获取第一目录和第二目录；

可以理解的是，本实施例提供的技术方案，通过从预先生成的注入内容输出目录中获取音频文件，基于所述音频文件中的语音创建与所述区域信息对应的区域语种字幕，为不同区域的用户自动生成相应母语语种的字幕文件；可以避免传统的人工制作字幕的方式，提升了字幕制作的灵活性；由于采用了自动生成字幕的技术手段，有效避免了人工制作字幕过程中可能出现的与音频不同步的问题。进一步地，通过生成注入内容输出目录和返回索引文件的方式，将内容的视频、音频和区域语种字幕的索引发送给终端用户，无需对源文件进行更改，也保障了终端处字幕与内容同步显示。

实施例2

如图2所示，本发明实施例还提供一种多区域感知的自动多字幕实现装置，包括：

在具体实践中，根据下述方式生成所述注入内容输出目录：

生成注入内容的内容标识并创建对应的输出目录；

从所述注入内容输出目录中获取第一目录和第二目录；

实施例3

如图3所示，本发明实施例还提供一种多区域感知的自动多字幕实现***，包括：

服务端、终端和内容管理***；

所述服务端包括：分发模块、区域模块、字幕模块和切片模块；

所述分发模块用于接收来自终端的内容播放请求，将终端的内容播放请求中的终端的IP地址同步到所述区域模块，所述内容播放请求包括内容标识和所述终端的IP地址；

所述区域模块根据所述终端的IP地址查找所述终端所在区域的区域信息，将查找到的区域信息同步到所述字幕模块，并请求所述字幕模块输出对应区域语种字幕；

所述字幕模块根据所述内容标识从预先生成的注入内容输出目录中获取音频文件，基于所述音频文件中的语音创建与所述区域信息对应的区域语种字幕，并生成区域语种字幕输出目录，将所述区域语种字幕输出目录同步到所述分发模块；

所述分发模块根据所述区域语种字幕输出目录生成索引文件，并将所述索引文件返回给终端。

在具体实践中，根据下述方式生成所述注入内容输出目录：

所述切片模块接收来自内容管理***的注入内容请求，所述注入内容请求包括源文件的路径信息；

生成注入内容的内容标识并创建对应的输出目录；

在具体实践中，所述终端，还用于接收由分发模块返回的一级索引文件，再依次请求视频、音频和字幕的分片索引文件以及分片文件。

在具体实践中，所述内容管理***，还用于通过HTTP POST方式向切片模块请求注入内容，所述请求包括：源文件的本地路径或远程路径信息。

根据所述内容标识查找音频文件完整路径；

从所述注入内容输出目录中获取第一目录和第二目录；

实施例4

如图4所示，本发明实施例还提供另一种多区域感知的自动多字幕实现方法，包括：

S41：内容管理***通过HTTP POST方式向切片模块请求注入内容，注入内容请求包括源文件的路径信息，可指定本地路径或远程路径，比如FTP或HTTP，假设传入的是本地路径，比如：/media/file.mp4；

S42：切片模块收到注入内容请求后，为注入内容生成唯一编号CID，比如：978e1c5a93c356b50c1e03dd1e3120f2，用CID为注入内容创建输出目录，比如：/output/978e1c5a93c356b50c1e03dd1e3120f2；从源文件分离出音频文件，比如：file_audio.mp4，写入输出目录/output/978e1c5a93c356b50c1e03dd1e3120f2，将源文件音频文件完整路径/output/978e1c5a93c356b50c1e03dd1e3120f2/file_audio.mp4同步到字幕模块；切片模块对源文件进行打包切片，输出视频切片到第一目录，比如：/output/978e1c5a93c356b50c1e03dd1e3120f2/video，输出音频切片到第二目录，比如：/output/978e1c5a93c356b50c1e03dd1e3120f2/audio，此时输出目录下目录结构如图5所示：

video目录下是视频切片文件以及分片索引文件，如图6所示：

audio目录下是音频切片文件以及对应的分片索引文件，如图7所示：

S43：切片模块向分发模块同步内容输出目录信息，信息同步成功后，返回注入内容的拉流地址，假设分发模块对应的访问域名为edge.movie.tv，则返回的内容拉流地址为：https://edge.movie.tv/output/978e1c5a93c356b50c1e03dd1e3120f2/master.m3u8；

S44：内容注入成功后，运营人员上架内容；

S45：假设T0时刻，中国北京区域的一个用户请求播放上架内容，假设用户接入互联网的IP为221.221.151.40，CID=978e1c5a93c356b50c1e03dd1e3120f2，分发模块收到注入内容请求后，将注入内容请求的终端IP地址同步到区域模块，假设终端IP：221.221.151.40，区域模块根据终端IP地址查找注入内容请求对应的区域，区域模块将查找到的区域信息同步到字幕模块，字幕模块检查输出目录下是否已经创建了对应区域的字幕，如果已经创建了该区域的字幕文件，则转到步骤S47；否则，转到步骤S46：

S46：字幕模块根据所述内容标识从预先生成的注入内容输出目录中获取音频文件，基于所述音频文件中的语音创建与所述区域信息对应的区域语种字幕，并生成区域语种字幕输出目录，输出目录为：/output/978e1c5a93c356b50c1e03dd1e3120f2/subtitle/zh/；

处理完成后该输出目录下输出的分片列表如图8所示；

其中，init.m4s是包含元数据信息的分片；

S47：分发模块根据所述区域语种字幕输出目录生成一级索引文件，并直接返回给客户端，分发模块生成的一级索引文件如图9所示；

本实施例中，终端收到分发模块返回的一级索引文件后，依次请求视频、音频和字幕的分片索引文件以及分片文件。

本实施例中，直播场景下***实现方法与点播场景下***实现方法类似，区别在于音频的输入形式：点播场景下是以音频文件形式作为输入的，直播场景下是以实时流的形式作为输入的，其他的处理流程与点播场景流程一致。

实施例5

本发明实施例还提供了一种计算机设备，包括存储器1和处理器2，如图10所示，所述存储器1存储有计算机程序，所述处理器2执行所述计算机程序时实现上述任一项所述的方法。

其中，存储器1至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器1在一些实施例中可以是多区域感知的自动多字幕实现***的内部存储单元，例如硬盘。存储器1在另一些实施例中也可以是多区域感知的自动多字幕实现***的外部存储设备，例如插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器1还可以既包括多区域感知的自动多字幕实现的内部存储单元也包括外部存储设备。存储器1不仅可以用于存储安装于多区域感知的自动多字幕实现的应用软件及各类数据，例如多区域感知的自动多字幕实现程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器2在一些实施例中可以是一中央处理器（Central Processing Unit,CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器1中存储的程序代码或处理数据，例如多区域感知的自动多字幕实现程序等。

本发明公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本发明公开实施例所提供的多区域感知的自动多字幕实现方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本发明公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包（Software DevelopmentKit，SDK）等等。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种多区域感知的自动多字幕实现方法，其特征在于，包括：

根据所述终端的IP地址查找所述终端所在区域的区域信息；

2.根据权利要求1所述的方法，其特征在于，根据下述方式生成所述注入内容输出目录：

生成注入内容的内容标识并创建对应的输出目录；

3.根据权利要求2所述的方法，其特征在于，在从源文件分离出音频文件，写入所述输出目录后，生成音频文件完整路径；

根据所述内容标识查找音频文件完整路径；

4.根据权利要求3所述的方法，其特征在于，所述根据所述区域语种字幕输出目录生成索引文件包括：

从所述注入内容输出目录中获取第一目录和第二目录；

5.一种多区域感知的自动多字幕实现装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，根据下述方式生成所述注入内容输出目录：

生成注入内容的内容标识并创建对应的输出目录；

7.根据权利要求6所述的装置，其特征在于，所述根据所述区域语种字幕输出目录生成索引文件包括：

从所述注入内容输出目录中获取第一目录和第二目录；

8.一种多区域感知的自动多字幕实现***，其特征在于，包括内容管理***、终端和根据权利要求5-7任一所述的多区域感知的自动多字幕实现装置。

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至4中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至4中任一项所述的方法。