CN113630620A

CN113630620A - 多媒体文件播放***、相关方法、装置及设备

Info

Publication number: CN113630620A
Application number: CN202010376043.5A
Authority: CN
Inventors: 周明智; 龙舟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2021-11-09

Abstract

本申请公开了多媒体文件播放相关***、方法、装置及设备。所述***，针对客户端播放器当前播放的多媒体文件，通过客户端提取与播放进度对应的音频流；向服务端发送所述音频流；以及，在播放器中显示服务端回送的所述音频流的语音翻译文本；服务端通过语音翻译模型，确定所述语音翻译文本，向客户端回送所述语音翻译文本。采用这种处理方式，使得根据当前用户产生的音频流调用语音翻译服务，实现语音即时翻译；因此，可以有效确保用户观看新文件也可同步显示字幕，达到“所听既所见”的实时字幕效果，同时可满足不同语言用户的字幕观看需求。

Description

多媒体文件播放***、相关方法、装置及设备

技术领域

本申请涉及语音处理技术领域，具体涉及多媒体文件播放***、方法和装置，语音翻译模型质量评估***和方法，以及电子设备。

背景技术

随着互联网技术的不断发展，视频网站已经得到了日益广泛的应用。视频网站在用户观看音视频文件时，可精准地匹配音视频文件的当前播放进度，实时显示多国语言字幕，以便用户更好的理解音视频内容。

目前，视频网站主要是采用离线语音翻译方案，基于视频文件生成多国语言字幕。具体而言，该方案通过用户提供的完整语音文件，调用语音识别与翻译服务对整体文件进行识别，在语音文件整体翻译完后，用户即可看到声画与翻译字幕同步的实时字幕结果。

然而，在实现本发明过程中，发明人发现该技术方案至少存在如下问题：1)对于新增音视频，由于要通过离线语音翻译方式生成新增文件的语音翻译字幕，因此用户需要等待一定的时间，待***对新增文件整体进行语音识别与翻译处理完成之后，才可以看到新增音视频的同步语音翻译字幕，但在新增文件整体翻译完前，只能观看没有字幕的文件，无法做到“所听既所见”的实时字幕效果；2)离线语音翻译通常只生成一种常用语言的翻译字幕，无法满足不同语言用户的字幕观看需求。综上所述，如何实现实时语音翻译，以达到声画与字幕同步的效果，满足不同语言用户的观看需求，成为本领域技术人员迫切需要解决的技术问题。

发明内容

本申请提供多媒体文件播放***，以解决现有技术存在的观看新文件时无法显示字幕的问题。本申请另外提供多媒体文件播放方法和装置，语音翻译模型质量评估***和方法，以及电子设备。

本申请提供一种多媒体文件播放***，包括：

客户端，用于针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流；向服务端发送所述音频流；以及，在播放器中显示服务端回送的所述音频流的语音翻译文本；

服务端，用于通过语音翻译模型，确定所述语音翻译文本，向客户端回送所述语音翻译文本。

本申请还提供一种多媒体文件播放方法，包括：

针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流；

向服务端发送所述音频流；

在播放器中显示服务端回送的所述音频流的语音翻译文本。

可选的，所述播放器包括浏览器播放器；

所述提取与播放进度对应的音频流，包括：

通过浏览器播放器的数据流捕捉模块，获取所述音频流。

可选的，所述音频流包括毫秒级时长的音频流。

可选的，所述方法还包括：

对所述音频流执行压缩处理；

所述向服务端发送所述音频流，包括：

将压缩后的音频流发送至所述服务端。

可选的，所述对所述音频流执行压缩处理，采用以下方式的至少一种：

对所述音频流执行降采样处理；

根据所述音频流的音量数据，对所述音频流执行增益降低处理。

可选的，所述对所述音频流执行降采样处理，包括：

确定降采样率；

根据所述降采样率，对所述音频流执行降采样处理。

可选的，所述播放器包括浏览器播放器；

所述对所述音频流执行压缩处理，包括：

根据所述音频流，创建音频输入节点；

根据所述音频输入节点，创建针对所述音频流的音频处理程序；

通过音频处理程序，对所述音频流执行压缩处理。

可选的，所述提取与播放进度对应的音频流，包括：

提取待播放的音频流；

在所述向服务端发送所述音频流之后，通过所述播放器播放所述待播放的音频流，以使得在播放所述待播放的音频流时，显示所述待播放的音频流的语音翻译文本。

可选的，还包括：

向服务端发送目标语言信息，以使得服务端将所述音频流翻译为目标语言的文本。

本申请还提供一种多媒体文件播放方法，包括：

接收客户端发送的当前播放的多媒体文件的与播放进度对应的音频流；

通过语音翻译模型，确定所述音频流的语音翻译文本；

向客户端回送所述语音翻译文本，以使得客户端在播放所述音频流时，显示所述语音翻译文本。

本申请还提供一种多媒体文件播放装置，包括：

音频流提取单元，用于针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流；

音频流发送单元，用于向服务端发送所述音频流；

文本显示单元，用于在播放器中显示服务端回送的所述音频流的语音翻译文本。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现多媒体文件播放方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流；向服务端发送所述音频流；在播放器中显示服务端回送的所述音频流的语音翻译文本。

本申请还提供一种多媒体文件播放装置，包括：

数据接收单元，用于接收客户端发送的当前播放的多媒体文件的与播放进度对应的音频流；

翻译单元，用于通过语音翻译模型，确定所述音频流的语音翻译文本；

文本回送单元，用于向客户端回送所述语音翻译文本，以使得客户端在播放所述音频流时，显示所述语音翻译文本。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现多媒体文件播放方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收客户端发送的当前播放的多媒体文件的与播放进度对应的音频流；通过语音翻译模型，确定所述音频流的语音翻译文本；向客户端回送所述语音翻译文本，以使得客户端在播放所述音频流时，显示所述语音翻译文本。

本申请还提供一种语音翻译模型质量评估***，包括：

服务端，用于搜集用于评测实时语音翻译模型质量的至少一个多媒体文件，向客户端发送所述多媒体文件；接收客户端发送的与所述多媒体文件的播放进度对应的音频流；通过所述翻译模型，确定所述音频流的语音翻译文本，向客户端回送所述语音翻译文本；接收客户端发送的与所述多媒体文件的对应的语音翻译质量信息；根据至少一个多媒体文件的所述质量信息，确定所述翻译模型的质量信息；

客户端，用于通过浏览器播放所述多媒体文件，提取所述音频流；以及，在播放器中显示所述语音翻译文本；根据所述语音翻译文本，确定所述语音翻译质量信息。

本申请还提供一种语音翻译模型质量评估方法，包括：

搜集用于评测实时语音翻译模型质量的至少一个多媒体文件，向客户端发送所述多媒体文件；

接收客户端发送的与所述多媒体文件的播放进度对应的音频流；

通过所述翻译模型，确定所述音频流的语音翻译文本，向客户端回送所述语音翻译文本；

接收客户端发送的与所述多媒体文件的对应的语音翻译质量信息；

根据至少一个多媒体文件的所述质量信息，确定所述翻译模型的质量信息。

本申请还提供一种语音翻译模型质量评估方法，包括：

通过浏览器播放用于评测实时语音翻译模型质量的多媒体文件；

提取与所述多媒体文件的播放进度对应的音频流，向服务端发送所述音频流；

在播放器中显示服务端回送的所述音频流的语音翻译文本；

根据所述语音翻译文本，确定与所述多媒体文件对应的语音翻译质量信息，向服务端发送所述质量信息。

本申请还提供一种多媒体文件播放控制方法，包括：

针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流，向服务端发送所述音频流；

确定语音翻译文本的显示延时时长信息；

根据所述时长信息，在播放器中显示服务端回送的所述音频流的语音翻译文本。

可选的，所述确定语音翻译文本的显示延时时长信息，包括：

根据用户听力水平信息，确定所述时长信息。

可选的，还包括：

若语音听力难度超过用户听力水平，则暂停播放所述多媒体文件，并反复播放已播放文件片段；

根据反复播放次数，调整所述时长信息。

可选的，还包括：

若所述音频流的原文包括用户源语言词表中不包括的词，则反复播放所述音频流。

可选的，所述反复播放所述音频流，包括：

确定跟读时长信息；

根据跟读时长信息，确定相邻两次音频流的播放时间间隔。

可选的，还包括：

采集用户跟读语音数据；

根据所述跟读语音数据，确定跟读得分；

根据跟读得分，确定所述音频流的反复播放次数。

可选的，还包括：

截取所述多媒体文件中语音听力难度超过用户听力水平的文件片段；

存储所述文件片段，以便于反复播放所述文件片段。

本申请还提供一种多媒体文件播放***，包括：

客户端，用于针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流；向服务端发送所述音频流；以及，在播放器中播放服务端回送的所述音频流的目标语言的语音数据；

服务端，用于通过语音翻译模型，确定所述语音翻译文本；通过语音合成模型，确定所述目标语言的语音数据；向客户端回送所述目标语言的语音数据。

本申请还提供一种多媒体文件播放方法，包括：

向服务端发送所述音频流；

在播放器中播放服务端回送的所述音频流的目标语言的语音数据。

本申请还提供一种多媒体文件播放方法，包括：

通过语音翻译模型，确定所述语音翻译文本；

通过语音合成模型，确定所述目标语言的语音数据；

向客户端回送所述目标语言的语音数据。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的多媒体文件播放***，针对客户端播放器当前播放的多媒体文件，通过客户端提取与播放进度对应的音频流；向服务端发送所述音频流；以及，在播放器中显示服务端回送的所述音频流的语音翻译文本；服务端通过语音翻译模型，确定所述语音翻译文本，向客户端回送所述语音翻译文本；这种处理方式，使得根据当前用户产生的音频流调用语音翻译服务，实现语音即时翻译；因此，可以有效确保用户观看新文件也可同步显示字幕，达到“所听既所见”的实时字幕效果，同时可满足不同语言用户的字幕观看需求。

本申请实施例提供的语音翻译模型质量评估***，通过服务端搜集用于评测实时语音翻译模型质量的多个多媒体文件，向客户端发送所述多媒体文件；接收客户端发送的与所述多媒体文件的播放进度对应的音频流；通过所述翻译模型，确定所述音频流的语音翻译文本，向客户端回送所述语音翻译文本；接收客户端发送的与所述多媒体文件的对应的语音翻译质量信息；根据多个多媒体文件的所述质量信息，确定所述翻译模型的质量信息；客户端通过浏览器播放所述多媒体文件，提取所述音频流；以及，在播放器中显示所述语音翻译文本；根据所述语音翻译文本，确定所述语音翻译质量信息；这种处理方式，使得易于搜集到内容丰富的多媒体文件，将其作为模型评测数据，无需专人通过会议方式生成实时语音数据；因此，可以有效提升模型评测效率，降低模型评测成本，缩短模型上线周期。

本申请实施例提供的所述多媒体文件播放控制方法，通过针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流，向服务端发送所述音频流；确定语音翻译文本的显示延时时长信息；根据所述时长信息，在播放器中显示服务端回送的所述音频流的语音翻译文本；这种处理方式，使得可控制译文字幕的显示，可实现延时显示译文字幕的效果，也可实现所见即所得的字幕显示效果；因此，可以有效提升用户体验，满足用户语言学习要求，提升用户语言学习效果。

本申请实施例提供的所述多媒体文件播放***，通过客户端针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流；向服务端发送所述音频流；以及，在播放器中播放服务端回送的所述音频流的目标语言的语音数据；服务端通过语音翻译模型，确定所述语音翻译文本；通过语音合成模型，确定所述目标语言的语音数据；向客户端回送所述目标语言的语音数据；这种处理方式，使得将源语言的语音转换为目标语言的语音，播放给用户听；因此，可以有效满足用户的收听需求，可以有效提升用户体验。

附图说明

图1本申请提供的一种多媒体文件播放***的实施例的结构示意图；

图2本申请提供的一种多媒体文件播放***的实施例的应用场景示意图；

图3本申请提供的一种多媒体文件播放***的实施例的设备交互示意图；

图4本申请提供的一种多媒体文件播放***的实施例的具体交互示意图；

图5本申请提供的一种多媒体文件播放***的实施例的处理流程示意图；

图6本申请提供的一种语音翻译模型质量评估***的实施例的应用场景示意图图；

图7本申请提供的一种语音翻译模型质量评估***的实施例的设备交互示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了多媒体文件播放***、方法和装置，语音翻译模型质量评估***和方法，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请的多媒体文件播放***的实施例的结构图。该***包括：服务端1，客户端2。

所述服务端1，可以是部署在云端服务器上的服务端，也可以是专用于实现多媒体文件播放的服务器，可部署在数据中心。服务器，可以是集群服务器，也可以是单台服务器。

所述客户端2，包括但不限于移动通讯设备，即：通常所说的手机或者智能手机，还包括个人电脑、PAD、iPad等终端设备。

请参考图2，其为本申请的多媒体文件播放***的场景示意图。服务端和客户端间可通过网络连接，如客户端可通过WIFI等方式联网，等等。用户通过客户端播放服务端提供的多媒体文件，该文件本身并无字幕，用户在观看文件时，客户端向服务端发送与当前观看进度对应的音频流，通过服务端的语音翻译模型，确定该音频流的目标语言文本，并将该文本回送至客户端，客户端显示该文本，这样用户在观看无字幕的多媒体文件时也可同步观看到翻译后的字幕，达到“所听既所见”的实时字幕效果，以便用户更好的理解音视频内容。

请参考图3，其为本申请的多媒体文件播放***的实施例的设备交互示意图。在一个示例中，客户端播放器当前播放的多媒体文件，通过客户端提取与播放进度对应的音频流；向服务端发送所述音频流；以及，在播放器中显示服务端回送的所述音频流的语音翻译文本；服务端通过语音翻译模型，确定所述语音翻译文本，向客户端回送所述语音翻译文本。

所述多媒体文件，可以是音频文件，如英文演讲音频；也可以是视频文件，如影视剧作品。

所述客户端播放器，可以是浏览器(如IE浏览器)，也可以是桌面播放器(如微软的多媒体播放器)，还可以是智能手机上安装的移动应用播放器(如虾米音乐应用的播放器)，等等。

在一个示例中，所述客户端播放器是浏览器，用户通过客户端浏览器打开视频网站，查找感兴趣的多媒体文件观看。在多媒体文件播放过程中，可通过浏览器播放器的数据流捕捉模块，获取所述音频流。例如，用HTMLMediaElement.captureStream，获取网页中<audio>或<video>发出的音频流。

部署在服务端的语音翻译模型是一种可将语音转写为源语言的文字、并翻译为目标语言的文字的语音处理模型。该模型可根据用户当前播放的音频，实时调用语音识别与翻译服务产生语音翻译字幕流，供用户观看。

在实际应用中，由于不同用户可能由不同语言字幕的观看需求，因此具体实施时，用户可指定目标语言；客户端还可向服务端发送目标语言信息，以使得服务端将所述音频流翻译为目标语言的文本。具体实施时，服务端可包括多种语言的语音翻译模型，服务端可选取与目标语言对应的语音翻译模型，确定音频流的翻译文本。

需要说明的是，虽然客户端可在播放音频流的同时，将音频流发送至服务端，以识别该音频流对应的翻译文本，服务端再将翻译文本回送至客户端显示，但是因为该音频流可以是毫秒级时长的音频流，如10毫秒，因此，用户可感知到声画与字幕同步的观看效果。

请参考图4，其为本申请的多媒体文件播放***的实施例的设备交互示意图。在本实施例中，客户端播放器当前播放的多媒体文件，通过客户端提取与播放进度对应的音频流；向服务端发送所述音频流；以及，在播放器中显示服务端回送的所述音频流的语音翻译文本；服务端通过语音翻译模型，确定所述语音翻译文本，向客户端回送所述语音翻译文本。采用这种处理方式，使得减少网络传输体积，不仅可以降低网络资源消耗，还可以有效提升翻译字幕同步显示速度，从而提升用户体验。

在一个示例中，所述对所述音频流执行压缩处理，可采用以下如下方式：对所述音频流执行降采样处理。具体实施时，所述对所述音频流执行降采样处理，可包括如下步骤：确定降采样率；根据所述降采样率，对所述音频流执行降采样处理。例如，采用48k采样率，可减少大约1/3的音频流体积。

在另一个示例中，所述对所述音频流执行压缩处理，还可采用以下如下方式：根据所述音频流的音量数据，对所述音频流执行增益降低处理。例如，如果音频流的音量较大，超过一定的阈值，则可通过对所述音频流执行增益降低的处理，降低其音量，从而达到压缩效果。

在本实施例中，所述播放器包括浏览器播放器；具体实施时，所述对所述音频流执行压缩处理，包括：根据所述音频流，创建音频输入节点；根据所述音频输入节点，创建针对所述音频流的音频处理程序；通过音频处理程序，对所述音频流执行压缩处理。

请参考图5，其为本申请的多媒体文件播放***的实施例的处理流程示意图。在本实施例中，用户通过浏览器播放多媒体文件，字幕同步处理过程包括如下步骤：

1、浏览器通过<audio>或<video>标签播放音视频文件。

2、用HTMLMediaElement.captureStream获取【步骤1】中<audio>或<video>发出的音频流。

3、结合步骤2的音频流与AudioContext.createMediaStreamSource创建音频输入节点。

4、利用BaseAudioContext.createScriptProcessor创建音频处理程序，将步骤3中的输出节点做为音频处理程序的输入。

5、音频处理程序中根据实际需要将音频流通过降采样模块减少传输体积之后，发送至云端语音识别模块以及翻译服务。将实时返回的翻译结果呈现给用户。

6、在识别的同时将音频流发送至用户的默认播放设备(如浏览器)，以达到声画与字幕同步的目的。

在一个示例中，所述提取与播放进度对应的音频流，可包括如下步骤：提取待播放的音频流；在所述向服务端发送所述音频流之后，通过所述播放器播放所述待播放的音频流，以使得在播放所述待播放的音频流时，显示所述待播放的音频流的语音翻译文本。采用这种处理方式，使得提前对音频流进行翻译，因此可以有效提升音画与翻译字幕的同步度。

从上述实施例可见，本申请实施例提供的多媒体文件播放***，针对客户端播放器当前播放的多媒体文件，通过客户端提取与播放进度对应的音频流；向服务端发送所述音频流；以及，在播放器中显示服务端回送的所述音频流的语音翻译文本；服务端通过语音翻译模型，确定所述语音翻译文本，向客户端回送所述语音翻译文本；这种处理方式，使得根据当前用户产生的音频流调用语音翻译服务，实现语音即时翻译；因此，可以有效确保用户观看新文件也可同步显示字幕，达到“所听既所见”的实时字幕效果，同时可满足不同语言用户的字幕观看需求。

第二实施例

与上述的多媒体文件播放***相对应，本申请还提供一种多媒体文件播放方法，该方法的执行主体包括但不限于客户端，也可以是其它终端设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法包括如下步骤：

步骤1：针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流；

步骤2：向服务端发送所述音频流；

步骤3：在播放器中显示服务端回送的所述音频流的语音翻译文本。

所述播放器包括但不限于：浏览器播放器；所述提取与播放进度对应的音频流，可采用如下方式：通过浏览器播放器的数据流捕捉模块，获取所述音频流。

所述音频流包括毫秒级时长的音频流。

在一个示例中，所述方法还可包括如下步骤：对所述音频流执行压缩处理；相应的，所述向服务端发送所述音频流，可采用如下方式：将压缩后的音频流发送至所述服务端。

在一个示例中，所述对所述音频流执行压缩处理，可采用以下方式的至少一种：1)对所述音频流执行降采样处理；2)根据所述音频流的音量数据，对所述音频流执行增益降低处理。

在一个示例中，所述对所述音频流执行降采样处理，可包括如下子步骤：确定降采样率；根据所述降采样率，对所述音频流执行降采样处理。

在一个示例中，所述播放器包括浏览器播放器；所述对所述音频流执行压缩处理，可包括如下子步骤：根据所述音频流，创建音频输入节点；根据所述音频输入节点，创建针对所述音频流的音频处理程序；通过音频处理程序，对所述音频流执行压缩处理。

在一个示例中，所述提取与播放进度对应的音频流，可包括如下子步骤：提取待播放的音频流；在所述向服务端发送所述音频流之后，通过所述播放器播放所述待播放的音频流，以使得在播放所述待播放的音频流时，显示所述待播放的音频流的语音翻译文本。

在一个示例中，所述方法还可包括如下步骤：向服务端发送目标语言信息，以使得服务端将所述音频流翻译为目标语言的文本。

第三实施例

在上述的实施例中，提供了一种多媒体文件播放方法，与之相对应的，本申请还提供一种多媒体文件播放装置。该装置是与上述方法的实施例相对应。

本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种多媒体文件播放装置包括：

音频流发送单元，用于向服务端发送所述音频流；

第四实施例

本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现多媒体文件播放方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流；向服务端发送所述音频流；在播放器中显示服务端回送的所述音频流的语音翻译文本。

第五实施例

与上述的多媒体文件播放***相对应，本申请还提供一种多媒体文件播放方法，该方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任意设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法包括如下步骤：

步骤1：接收客户端发送的当前播放的多媒体文件的与播放进度对应的音频流；

步骤2：通过语音翻译模型，确定所述音频流的语音翻译文本；

步骤3：向客户端回送所述语音翻译文本，以使得客户端在播放所述音频流时，显示所述语音翻译文本。

第六实施例

第七实施例

本申请还提供一种电子设备实施例。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现多媒体文件播放方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：接收客户端发送的当前播放的多媒体文件的与播放进度对应的音频流；通过语音翻译模型，确定所述音频流的语音翻译文本；向客户端回送所述语音翻译文本，以使得客户端在播放所述音频流时，显示所述语音翻译文本。

第八实施例

在上述的实施例中，提供了一种语音翻译模型质量评估***，与之相对应的，本申请还提供一种语音翻译模型质量评估***。该***是与上述***的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在实际应用中，一种常见的语音翻译场景是，对现场会议内容进行机器同声传译，翻译结果可显示在大屏幕中，供用户观看。机器同声传译主要是通过实时语音识别结合机器翻译达到的，即所述实时语音翻译模型。为了确保较好的翻译效果，语音翻译模型在上线前，需要进行模型评测处理。

目前，一种典型的语音翻译模型质量评估方式是，模拟现场会议，采集人的实时语音数据，通过实时语音翻译***实时进行翻译，并由技术人员对翻译结果进行质量标注，以确定模型翻译质量。

然而，在实现本发明过程中，发明人发现该技术方案至少存在如下问题：模拟现场会议，采集人的实时语音数据，导致消耗较多的人力资源和设备资源。

如图6所示，本申请提供的一种语音翻译模型质量评估***的应用场景示意图。在本实施例中，所述***包括：语音翻译服务端、多媒体文件源服务端和客户端。服务端和客户端间可通过网络连接，如客户端可通过WIFI等方式联网，等等。语音翻译服务端，可从多种多媒体源服务端搜集多媒体文件，将其发送至用户客户端；用户通过客户端播放语音翻译服务端提供的多媒体文件，该文件本身并无字幕，用户在观看文件时，客户端向服务端发送与当前观看进度对应的音频流，通过服务端的待评测的语音翻译模型，确定该音频流的目标语言文本，并将该文本回送至客户端，客户端显示该文本，这样用户在观看无字幕的多媒体文件时也可同步观看到翻译后的字幕，用户可结合声音对翻译效果进行评价，并将评价信息上传至语音翻译服务端；语音翻译服务端综合用户对多个多媒体文件的翻译质量评价信息，确定语音翻译模型的质量，决策是否将其上线投入使用。

请参考图7，其为本申请的语音翻译模型质量评估***的实施例的设备交互示意图。服务端搜集用于评测实时语音翻译模型质量的多个多媒体文件，向客户端发送所述多媒体文件；接收客户端发送的与所述多媒体文件的播放进度对应的音频流；通过所述翻译模型，确定所述音频流的语音翻译文本，向客户端回送所述语音翻译文本；接收客户端发送的与所述多媒体文件的对应的语音翻译质量信息；根据多个多媒体文件的所述质量信息，确定所述翻译模型的质量信息；客户端通过浏览器播放所述多媒体文件，提取所述音频流；以及，在播放器中显示所述语音翻译文本；根据所述语音翻译文本，确定所述语音翻译质量信息。

表1示出了本实施例的模型评测数据。

多媒体文件标识	语音翻译质量信息
		文件A	60
文件B	80
		文件C	76
…

表1、模型评测数据

服务端存储用户针对各个多媒体文件的语音翻译质量信息，可将这些质量得分的平均值作为模型得分，根据该得分决策是否将该模型投入使用。

在一个示例中，语音翻译服务器从不同语言的多媒体源服务端抓取不同语言的多媒体文件，以对各种语言的语音翻译模型进行评测。

从上述实施例可见，本申请实施例提供的语音翻译模型质量评估***，通过服务端搜集用于评测实时语音翻译模型质量的多个多媒体文件，向客户端发送所述多媒体文件；接收客户端发送的与所述多媒体文件的播放进度对应的音频流；通过所述翻译模型，确定所述音频流的语音翻译文本，向客户端回送所述语音翻译文本；接收客户端发送的与所述多媒体文件的对应的语音翻译质量信息；根据多个多媒体文件的所述质量信息，确定所述翻译模型的质量信息；客户端通过浏览器播放所述多媒体文件，提取所述音频流；以及，在播放器中显示所述语音翻译文本；根据所述语音翻译文本，确定所述语音翻译质量信息；这种处理方式，使得易于搜集到内容丰富的多媒体文件，将其作为模型评测数据，无需专人通过会议方式生成实时语音数据；因此，可以有效提升模型评测效率，降低模型评测成本，缩短模型上线周期。

第九实施例

与上述的语音翻译模型质量评估***相对应，本申请还提供一种语音翻译模型质量评估方法，该方法的执行主体包括但不限于客户端。本实施例与第八实施例内容相同的部分不再赘述，请参见实施例八中的相应部分。

本申请提供的语音翻译模型质量评估方法，可包括如下步骤：

步骤1：通过浏览器播放用于评测实时语音翻译模型质量的多媒体文件；

步骤2：提取与所述多媒体文件的播放进度对应的音频流，向服务端发送所述音频流；

步骤3：在播放器中显示服务端回送的所述音频流的语音翻译文本；

步骤4：根据所述语音翻译文本，确定与所述多媒体文件对应的语音翻译质量信息，向服务端发送所述质量信息。

第十实施例

在上述的实施例中，提供了一种语音翻译模型质量评估方法，与之相对应的，本申请还提供一种语音翻译模型质量评估装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的一种语音翻译模型质量评估装置包括：

播放单元，用于通过浏览器播放用于评测实时语音翻译模型质量的多媒体文件；

提取单元，用于提取与所述多媒体文件的播放进度对应的音频流，向服务端发送所述音频流；

显示单元，用于在播放器中显示服务端回送的所述音频流的语音翻译文本；

确定单元，用于根据所述语音翻译文本，确定与所述多媒体文件对应的语音翻译质量信息，向服务端发送所述质量信息。

第十一实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音翻译模型质量评估方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：通过浏览器播放用于评测实时语音翻译模型质量的多媒体文件；提取与所述多媒体文件的播放进度对应的音频流，向服务端发送所述音频流；在播放器中显示服务端回送的所述音频流的语音翻译文本；根据所述语音翻译文本，确定与所述多媒体文件对应的语音翻译质量信息，向服务端发送所述质量信息。

第十二实施例

与上述的语音翻译模型质量评估***相对应，本申请还提供一种语音翻译模型质量评估方法，该方法的执行主体包括但不限于服务端。本实施例与第八实施例内容相同的部分不再赘述，请参见实施例八中的相应部分。

本申请提供的远程健康检测方法，可包括如下步骤：

步骤1：搜集用于评测实时语音翻译模型质量的多个多媒体文件，向客户端发送所述多媒体文件；

步骤2：接收客户端发送的与所述多媒体文件的播放进度对应的音频流；

步骤3：通过所述翻译模型，确定所述音频流的语音翻译文本，向客户端回送所述语音翻译文本；

步骤4：接收客户端发送的与所述多媒体文件的对应的语音翻译质量信息；

步骤5：根据多个多媒体文件的所述质量信息，确定所述翻译模型的质量信息。

第十三实施例

本申请提供的一种语音翻译模型质量评估装置包括：

搜集单元，用于搜集用于评测实时语音翻译模型质量的多个多媒体文件，向客户端发送所述多媒体文件；

接收单元，用于接收客户端发送的与所述多媒体文件的播放进度对应的音频流；

翻译单元，用于通过所述翻译模型，确定所述音频流的语音翻译文本，向客户端回送所述语音翻译文本；

接收单元，用于接收客户端发送的与所述多媒体文件的对应的语音翻译质量信息；

确定单元，用于根据多个多媒体文件的所述质量信息，确定所述翻译模型的质量信息。

第十四实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现语音翻译模型质量评估方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：搜集用于评测实时语音翻译模型质量的多个多媒体文件，向客户端发送所述多媒体文件；接收客户端发送的与所述多媒体文件的播放进度对应的音频流；通过所述翻译模型，确定所述音频流的语音翻译文本，向客户端回送所述语音翻译文本；接收客户端发送的与所述多媒体文件的对应的语音翻译质量信息；根据多个多媒体文件的所述质量信息，确定所述翻译模型的质量信息。

第十五实施例

与上述的多媒体文件播放***相对应，本申请还提供一种多媒体文件播放控制方法，该方法的执行主体包括但不限于客户端。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的多媒体文件播放方法，可包括如下步骤：

步骤1：针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流，向服务端发送所述音频流。

在本实施例中，用户观看、收听多媒体文件的原因包括想要学***。在这种情况下，可能不需要“所听既所见”的实时字幕效果，因为这种显示方式将影响用户锻炼听力水平。为了满足用户的这种需求，本申请实施例提供的所述方法可控制译文(语音翻译文本)字幕的显示，实现延时显示译文字幕的效果，从而达到帮助用户进行语言学习的目的。

所述服务端可通过语音翻译模型，确定所述语音翻译文本，向客户端回送所述语音翻译文本。

步骤2：确定语音翻译文本的显示延时时长信息。

所述显示延时时长，包括显示译文字幕的第二时间与播放所述音频流的第一时间之间的时间差值，如所述显示延时时长为0.1秒，则在播放音频流0.1秒后再显示相应的译文字幕。

在一个示例中，所述显示延时时长可采用如下方式确定：根据用户听力水平信息，确定所述时长信息。

例如，如果用户听力水平为剑桥英语FCE，所述多媒体文件的听力水平为剑桥英语KET，则用户听力水平超过文件听力水平，则可显示延时时长设置的短些，如1毫秒等，实现“所听既所见”的实时字幕效果，以便于用户快速检查自己对于听到的信息的理解是否正确。此外，也可以不设置显示延时时长，不显示译文字幕，使得用户不被字幕打扰。

再例如，如果用户听力水平为剑桥英语KET，所述多媒体文件的听力水平为剑桥英语FCE，则用户听力水平达不到文件听力水平，则显示延时时长可以设置的稍长一些，如设置为5秒或10秒等，实现较为明显的字幕延迟显示效果，以便于给用户充分的时间去想听到的内容的含义。另外，也可以是设置为很短的显示延时时长，帮助用户快速学习，提高学习效率。

所述用户听力水平，可以时预先设置好的信息，如10秒；也可以是本次观看时用户输入的信息，如5秒；还可以是根据用户跟读情况由设备自动调整的信息，如用户跟读速度慢，表示用户听力水平稍差。

步骤3：根据所述时长信息，在播放器中显示服务端回送的所述音频流的语音翻译文本。

在一个示例中，可以是播放一段音频就暂停一段时间，在暂停播放时显示已播放的一段音频的译文字幕。也就是说，播一段停一会儿，如播放1分钟停10秒钟，这样既给了用户思考时间，又避免再播放后面音频时显示前面音频译文，影响用户学习。

在一个示例中，所述方法还可包括如下步骤：若语音听力难度超过用户听力水平，则暂停播放所述多媒体文件，并反复播放已播放文件片段；根据反复播放次数，调整所述时长信息。采用这种处理方式，使得用户可反复观看收听超过其水平的原文段落；因此，可以有效提升用户学习效果。

所述反复播放次数，可以是固定次数，也可以是实时调整的次数。例如，可根据用户跟读情况由设备自动调整反复播放，如用户跟读速度慢，则要增加仿佛播放次数，如果用户跟读的非常流利，则可继续播放下一段。

具体实施时，可以是反复播放次数越大，则显示延时时长越小，如第10次播放时的显示延时时长，可低于第5次播放时的显示延时时长，当然也可以是相反的规则设置，具体规则可根据实际需求确定。

在一个示例中，所述方法还可包括如下步骤：若所述音频流的原文包括用户源语言词表中不包括的词，则反复播放所述音频流。例如，用户源语言此表中不包括professional这个词，则可在这个词处暂停播放后续音频，反复播放该词。具体实施时，可以在开始反复播放时同步显示译文“专业的”，随着反复播放次数的增加，可延时显示译文，直至不显示译文。采用这种处理方式，使得帮助用户反复学习重点词；因此，可以有效提升学习效果。

在一个示例中，所述反复播放所述音频流，可包括如下步骤：确定跟读时长信息；根据跟读时长信息，确定相邻两次音频流的播放时间间隔。例如，可通过摄像头、麦克风采集用户跟读情况，确定跟读时长，通常跟读时间越长，则表示用户还没有较好掌握，需要暂时时间长一点，给用户充足时间去跟读。

在一个示例中，所述方法还可包括如下步骤：采集用户跟读语音数据，如通过麦克风采集用户语音；根据所述跟读语音数据，确定跟读得分，如跟读时间短、且跟读声波与标准声波接近，则跟读得分越高；根据跟读得分，确定所述音频流的反复播放次数。例如，跟读得分越高，则反复播放次数越少等等。采用这种处理方式，使得帮助用户反复学习重点段落；因此，可以有效提升学习效果。

在一个示例中，所述方法还可包括如下步骤：截取所述多媒体文件中语音听力难度超过用户听力水平的文件片段；存储所述文件片段，以便于反复播放所述文件片段。采用这种处理方式，使得用户可随时反复收听其不熟悉的音频段落，实现复读功能；因此，可以有效提升语言学习效果。

从上述实施例可见，本申请实施例提供的所述多媒体文件播放控制方法，通过针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流，向服务端发送所述音频流；确定语音翻译文本的显示延时时长信息；根据所述时长信息，在播放器中显示服务端回送的所述音频流的语音翻译文本；这种处理方式，使得可控制译文字幕的显示，可实现延时显示译文字幕的效果，也可实现所见即所得的字幕显示效果；因此，可以有效提升用户体验，满足用户语言学习要求，提升用户语言学习效果。

第十六实施例

与上述的多媒体文件播放***相对应，本申请还提供一种多媒体文件播放***。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供的多媒体文件播放***，可包括：服务端和客户端。其中，客户端，用于针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流；向服务端发送所述音频流；以及，在播放器中播放服务端回送的所述音频流的目标语言的语音数据；服务端，用于通过语音翻译模型，确定所述语音翻译文本；通过语音合成模型，确定所述目标语言的语音数据；向客户端回送所述目标语言的语音数据。

例如，用户正在播放英文演讲视频(原文为英语)，同时还想听到其母语以外的其它语言的对应语音，如母语为汉语，还想听该演讲的德语语音，这样用户就可以根据英文演讲视频的内容学习德语，或者是对照英语和德语学习两种语言。

再例如，用户正在播放一部新上映的英文电影，用户的母语为汉语，想听这部电影的中文语音，这样用户就可以更加舒适的观看影片。

具体实施时，所述语言合成模型可采用较为成熟的现有技术，将译文转化为语音。由于语言合成模型可采用较为成熟的现有技术，因此此处不再赘述。

从上述实施例可见，本申请实施例提供的所述多媒体文件播放***，通过客户端针对播放器当前播放的多媒体文件，提取与播放进度对应的音频流；向服务端发送所述音频流；以及，在播放器中播放服务端回送的所述音频流的目标语言的语音数据；服务端通过语音翻译模型，确定所述语音翻译文本；通过语音合成模型，确定所述目标语言的语音数据；向客户端回送所述目标语言的语音数据；这种处理方式，使得将源语言的语音转换为目标语言的语音，播放给用户听；因此，可以有效满足用户的收听需求，可以有效提升用户体验。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种多媒体文件播放***，其特征在于，包括：

2.一种多媒体文件播放方法，其特征在于，包括：

向服务端发送所述音频流；

在播放器中显示服务端回送的所述音频流的语音翻译文本。

3.根据权利要求2所述的方法，其特征在于，

所述播放器包括浏览器播放器；

所述提取与播放进度对应的音频流，包括：

通过浏览器播放器的数据流捕捉模块，获取所述音频流。

4.根据权利要求2所述的方法，其特征在于，

所述音频流包括毫秒级时长的音频流。

5.根据权利要求2所述的方法，其特征在于，

所述方法还包括：

对所述音频流执行压缩处理；

所述向服务端发送所述音频流，包括：

将压缩后的音频流发送至所述服务端。

6.根据权利要求5所述的方法，其特征在于，所述对所述音频流执行压缩处理，采用以下方式的至少一种：

对所述音频流执行降采样处理；

7.根据权利要求6所述的方法，其特征在于，所述对所述音频流执行降采样处理，包括：

确定降采样率；

根据所述降采样率，对所述音频流执行降采样处理。

8.根据权利要求5所述的方法，其特征在于，

所述播放器包括浏览器播放器；

所述对所述音频流执行压缩处理，包括：

根据所述音频流，创建音频输入节点；

通过音频处理程序，对所述音频流执行压缩处理。

9.根据权利要求2所述的方法，其特征在于，

所述提取与播放进度对应的音频流，包括：

提取待播放的音频流；

10.根据权利要求2所述的方法，其特征在于，还包括：

11.一种多媒体文件播放方法，其特征在于，包括：

通过语音翻译模型，确定所述音频流的语音翻译文本；

12.一种多媒体文件播放装置，其特征在于，包括：

音频流发送单元，用于向服务端发送所述音频流；

13.一种电子设备，其特征在于，包括：

处理器；以及

14.一种多媒体文件播放装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括：

处理器；以及

16.一种语音翻译模型质量评估***，其特征在于，包括：

17.一种语音翻译模型质量评估方法，其特征在于，包括：

18.一种语音翻译模型质量评估方法，其特征在于，包括：

在播放器中显示服务端回送的所述音频流的语音翻译文本；

19.一种多媒体文件播放控制方法，其特征在于，包括：

确定语音翻译文本的显示延时时长信息；

20.根据权利要求19所述的方法，其特征在于，所述确定语音翻译文本的显示延时时长信息，包括：

根据用户听力水平信息，确定所述时长信息。

21.根据权利要求19所述的方法，其特征在于，还包括：

根据反复播放次数，调整所述时长信息。

22.根据权利要求19所述的方法，其特征在于，还包括：

23.根据权利要求22所述的方法，其特征在于，所述反复播放所述音频流，包括：

确定跟读时长信息；

根据跟读时长信息，确定相邻两次音频流的播放时间间隔。

24.根据权利要求19所述的方法，其特征在于，还包括：

采集用户跟读语音数据；

根据所述跟读语音数据，确定跟读得分；

根据跟读得分，确定所述音频流的反复播放次数。

25.根据权利要求19所述的方法，其特征在于，还包括：

存储所述文件片段，以便于反复播放所述文件片段。

26.一种多媒体文件播放***，其特征在于，包括：

27.一种多媒体文件播放方法，其特征在于，包括：

向服务端发送所述音频流；

28.一种多媒体文件播放方法，其特征在于，包括：

通过语音翻译模型，确定所述语音翻译文本；

通过语音合成模型，确定所述目标语言的语音数据；

向客户端回送所述目标语言的语音数据。