CN113726750B

CN113726750B - 语音实时翻译方法、装置和存储介质

Info

Publication number: CN113726750B
Application number: CN202110948361.9A
Authority: CN
Inventors: 马泽芳; 王光全; 冯立华; 马瑞涛; 程粹茹
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-06-30
Anticipated expiration: 2041-08-18
Also published as: CN113726750A

Abstract

本申请提供一种语音实时翻译方法、装置和存储介质，涉及通信领域，能够提供远程终端的实时翻译，翻译灵活、简单。该方法包括：响应于主叫终端的呼叫请求，为主叫终端和被叫终端预留媒体资源；在主叫终端和被叫终端通话时，若主叫终端的第一签约语言类型和被叫终端的第二签约语言类型不同，则通过预留媒体资源获取主叫终端的第一语音媒体流和被叫终端的第二语音媒体流；根据第一语音媒体流确定第二签约语言类型对应的第一目标语音媒体流，并根据第二语音媒体流确定第一签约语言类型对应的第二目标语音媒体流；将第一目标语音媒体流发送给被叫终端，并将第二目标语音媒体流发送给主叫终端。

Description

语音实时翻译方法、装置和存储介质

技术领域

本申请涉及通信领域，尤其涉及一种语音实时翻译方法、装置和存储介质。

背景技术

随着社会国际化的发展，国际间的交流越来越多，跨地域的远程通信也越来越多。对于不同国家间人员的交流，在双方使用不同语言时，通常依靠翻译终端来实现。

目前的翻译终端通常是特制的翻译终端，或是在通信终端内安装翻译软件，这种翻译终端一般需要特制的终端或相应的翻译软件，无法实现对远程通信场景下的实时翻译。

发明内容

本申请的提供一种语音实时翻译方法、装置和存储介质，能够提供远程终端的实时翻译，翻译灵活、简单。

为达到上述目的，本申请的采用如下技术方案：

第一方面，提供一种语音实时翻译方法，包括：响应于主叫终端的呼叫请求，为主叫终端和被叫终端预留媒体资源；在主叫终端和被叫终端通话时，若主叫终端的第一签约语言类型和被叫终端的第二签约语言类型不同，则通过预留媒体资源获取主叫终端的第一语音媒体流和被叫终端的第二语音媒体流；根据第一语音媒体流确定第二签约语言类型对应的第一目标语音媒体流，并根据第二语音媒体流确定第一签约语言类型对应的第二目标语音媒体流；将第一目标语音媒体流发送给被叫终端，并将第二目标语音媒体流发送给主叫终端。

结合第一方面，一种可能的实现方式中，在主叫终端和被叫终端通话时，上述方法还包括：确定主叫终端的第一签约语言类型和被叫终端的第二签约语言类型。

结合第一方面，一种可能的实现方式中，上述根据第一语音媒体流确定第二签约语言类型对应的第一目标语音媒体流，并根据第二语音媒体流确定第一签约语言类型对应的第二目标语音媒体流，包括：确定第一语音媒体流对应的第一语音文本，以及第二语音媒体流对应的第二语音文本；根据第一语音文本确定第二签约语言类型对应的第一译文文本，并根据第二语音文本确定第一签约语言类型对应的第二译文文本；确定第一译文文本对应的第一目标语音媒体流，以及第二译文文本对应的第二目标语音媒体流。

结合第一方面，一种可能的实现方式中，将第一目标语音媒体流发送给被叫终端，并将第二语音媒体流发送给主叫终端时，上述方法还包括：将第一语音媒体流发送给被叫终端，将第二语音媒体流发送给主叫终端。

第二方面，提供一种语音实时翻译装置，包括：资源预留模块，用于响应于主叫终端的呼叫请求，为主叫终端和被叫终端预留媒体资源；在主叫终端和被叫终端通话时，获取模块，用于在主叫终端的第一签约语言类型和被叫终端的第二签约语言类型不同时，通过预留媒体资源获取主叫终端的第一语音媒体流和被叫终端的第二语音媒体流；翻译模块，用于根据获取模块获取的第一语音媒体流确定第二签约语言类型对应的第一目标语音媒体流，并根据获取模块获取的第二语音媒体流确定第一签约语言类型对应的第二目标语音媒体流；发送模块，用于将翻译模块确定的第一目标语音媒体流发送给被叫终端，并将翻译模块确定的第二目标语音媒体流发送给主叫终端。

结合第二方面，一种可能的实现方式中，上述装置还包括语言确定模块；语言确定模块，用于确定主叫终端的第一签约语言类型和被叫终端的第二签约语言类型。

结合第二方面，一种可能的实现方式中，上述翻译模块包括音文转换子模块、文本转换子模块和文音转换子模块；音文转换子模块，用于确定第一语音媒体流对应的第一语音文本，以及第二语音媒体流对应的第二语音文本；文本转换子模块，用于根据第一语音文本确定第二签约语言类型对应的第一译文文本，并根据第二语音文本确定第一签约语言类型对应的第二译文文本；文音转换子模块，用于确定第一译文文本对应的第一目标语音媒体流，以及第二译文文本对应的第二目标语音媒体流。

结合第二方面，一种可能的实现方式中，将第一目标语音媒体流发送给被叫终端，并将第二目标语音媒体流发送给主叫终端时，发送模块，还用于将第一语音媒体流发送给被叫终端，将第二语音媒体流发送给主叫终端。

第三方面，提供一种语音实时翻译服务器，包括：信令处理模块、数据签约模块、媒体处理模块和翻译接口模块；信令处理模块，用于与语音网络***通信，并指示媒体处理模块为终端预留媒体资源；数据签约模块，用于存储终端的签约语言类型；数据签约模块，还用于在主叫终端和被叫终端的签约语言类型不同时，指示媒体处理模块获取主叫终端和被叫终端的语音媒体流；媒体处理模块，还用于将主叫终端和被叫终端的语音媒体流传输至翻译接口模块；翻译接口模块，用于对外提供语音媒体流及语音媒体流对应的签约语言类型。

结合第三方面，一种可能的实现方式中，信令处理模块，还用于对语音网络***传输的信令进行转换；媒体处理模块，还用于对终端的语音媒体流进行编码转换。

结合第三方面，一种可能的实现方式中，上述服务器还包括语音识别模块、文本翻译模块和语音转换模块；语音识别模块，用于从翻译接口模块获取语音媒体流，并将语音媒体流识别为语音文本；文本翻译模块，用于将语音文本转换为译文文本；译文文本为终端对端的签约语言类型对应的文本；语音转换模块，用于将译文文本转换为翻译语音媒体流；媒体处理模块，还用于通过翻译接口模块获取翻译语音媒体流，并将翻译语音媒体流传输至对应的终端。

结合第三方面，一种可能的实现方式中，上述服务器还包括开通模块和话单模块；开通模块，用于为终端开通语音实时翻译业务，并将终端对应的签约数据存储至数据签约模块；话单模块，用于根据数据签约模块生成的话单记录生成话单。

结合第三方面，一种可能的实现方式中，上述语音网络***为互联网协议多媒体子***IMS网络。

第四方面，提供一种语音实时翻译装置，包括存储器、处理器、总线和通信接口；存储器用于存储计算机执行指令，处理器与存储器通过总线连接；当语音实时翻译装置运行时，处理器执行存储器存储的计算机执行指令，以使语音实时翻译装置执行如第一方面提供的语音实时翻译方法。

第五方面，提供一种计算机可读存储介质，计算机可读存储介质包括计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行如第一方面提供的语音实时翻译方法。

本申请提供的语音实时翻译方法中，语音实时翻译装置可以为主叫终端和被叫终端预留媒体资源，以使得主叫终端和被叫终端的语音媒体流可以通过语音实时翻译装置提供的媒体资源进行传输；在后续主叫终端和被叫终端通话时，主叫终端和被叫终端间的语音媒体流可以通过语音实时翻译装置提供的媒体资源进行传输，并分别对主叫终端和被叫终端的语音媒体流进行翻译，并将翻译后的目标语音媒体流传输至对应的终端。本申请中，语音实时翻译装置可以对主叫终端和被叫终端之间的语音媒体流进行实时翻译，不需要特制的终端或翻译软件，能够实现远程终端的实时翻译，且翻译方式灵活。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音实时翻译服务器的结构示意图之一；

图2为本申请实施例提供的一种语音实时翻译服务器的结构示意图之二；

图3为本申请实施例提供的一种语音实时翻译服务器的结构示意图之三；

图4为本申请实施例提供的一种语音实时翻译架构的示意图；

图5为本申请实施例提供的一种语音实时翻译方法的流程示意图之一；

图6为本申请实施例提供的一种主被叫终端的会话建立流程示意图之一；

图7为本申请实施例提供的一种主被叫终端的会话建立流程示意图之二；

图8为本申请实施例提供的一种语音实时翻译服务器对语音媒体流的采集流程示意图；

图9为本申请实施例提供的一种语音实时翻译服务器对语音媒体流的翻译流程示意图之一；

图10为本申请实施例提供的一种语音实时翻译方法的流程示意图之二；

图11为本申请实施例提供的一种语音实时翻译服务器对语音媒体流的翻译流程示意图之二；

图12为本申请实施例提供的一种语音实时翻译服务器对语音媒体流的翻译流程示意图之三；

图13为本申请实施例提供的一种语音实时翻译装置的结构示意图；

图14为本申请实施例提供的又一种语音实时翻译装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。

由于目前不同人员之间的翻译通常是依靠翻译软件或翻译终端实现的，这种翻译方式限制了不同地区间人员的远程翻译活动。

针对上述问题，如图1所示，本申请实施例提供一种语音实时翻译服务器01，语音实时翻译服务器01包括信令处理模块011、数据签约模块012、媒体处理模块013和翻译接口模块014。

一种可能的实现方式中，信令处理模块011，用于与语音网络***通信，并指示媒体处理模块013为终端预留媒体资源。

数据签约模块012，用于存储终端的签约语言类型。

数据签约模块012，还用于在主叫终端和被叫终端的签约语言类型不同时，指示媒体处理模块013获取主叫终端和被叫终端的语音媒体流。这里媒体处理模块013对语音媒体流的采集可以通过媒体传输协议实现，如媒体传输协议可以为实时传输协议(real-timetransport protocol，RTP)或实时传输控制协议(real-time transport controlprotocol，RTCP)。

媒体处理模块013，还用于将主叫终端和被叫终端的语音媒体流传输至翻译接口模块014。

翻译接口模块014，用于对外提供语音媒体流及语音媒体流对应的签约语言类型。

具体地，在终端开通实时翻译业务时，终端对应的签约数据可以存储在数据签约模块012，签约数据包括终端用户使用的语言类型，如终端用户使用中文，则该签约数据内终端的签约数据指示其签约语言为中文。

在主叫终端通过语音网络***向被叫终端发起呼叫请求时，语音网络***可以与信令处理模块011建立通信，从而完成主叫终端与被叫终端之间的会话流程。在信令处理模块011为主叫终端和被叫终端建立会话流程时，可以与媒体处理模块013交互信令，为主叫终端和被叫终端在媒体处理模块013上预留媒体资源。

主叫终端和被叫终端通话时，媒体处理模块013可以分别通过为主叫终端和被叫终端预留的媒体资源采集对应的终端的语音媒体流，而通过翻译接口模块014将这些语音媒体流传输至相应的翻译模块，实现对语音媒体流的实时翻译。当然，在翻译接口模块对外提供语音媒体流时，还可以指示语音媒体流对应的签约语言类型，以将主叫终端和被叫终端对应的语音媒体流识别为对应签约语言类型的文本。

一些实施例中，由于媒体处理模块013用于处理终端的语音媒体流，而媒体处理模块013能够同时处理的媒体资源是有限的，因此为了避免多个终端同时使用媒体处理模块013传输媒体资源时，造成网络拥塞，无法对部分语音媒体进行实时翻译，因此语音实时翻译服务器01可以包括多个媒体处理模块013，以满足更多终端的语音实时翻译需求。

另一种可能的实现方式中，信令处理模块011，还用于对语音网络***传输的信令进行转换。

媒体处理模块013，还用于对终端的语音媒体流进行编码转换。

一些实施例中，上述的语音网络***可以为互联网协议多媒体子***(internetprotocol multimedia subsystem，IMS)网络。当然，语音网络***还可以为基于互联网的语音通话***，如基于互联网的语音通话***可以为通话类应用程序，通过该通话类应用程序可以实现语音通话。

具体地，在语音网络***为IMS网络时，其对应的互联网协议(internetprotocol，IP)语音控制协议信令可以为会话初始协议(session initiation protocol，SIP)信令传输消息，而语音实时翻译服务器01内部各模块之间可以通过其他信令传输消息，此时信令处理模块011还可以对IMS网络传输的SIP信令进行协议转换，使得对应的信令消息可以被语音实时翻译服务器01识别。当然，上述的IP语音控制还可以为信令控制面的私有协议，这里不做限定。

由于终端对应的语音媒体流可以由其他翻译模块进行翻译，这里语音媒体流的格式可以为脉冲编码调制(pulse code modulation，PCM)、动态影像专家压缩标准音频层面3(moving picture experts group audio layer III，MP3)等语音格式，而翻译模块可以识别的音频格式可能为其他语音格式，此时媒体处理模块013可以将采集的语音媒体流的音频格式转换为翻译模块可以识别的音频格式。

一种可能的实现方式中，由于在翻译模块翻译语音媒体流的过程中，可能出现语音媒体流对应的文本，而该文本在翻译模块无法识别时，媒体处理模块013还可以转换该文本的文本格式，使翻译模块能够识别相应的文本。

一些实施例中，如图2所示，语音实时翻译服务器01还包括语音识别模块015、文本翻译模块016和语音转换模块017。

语音识别模块015，用于从翻译接口模块014获取语音媒体流，并将语音媒体流识别为语音文本。

文本翻译模块016，用于将语音文本转换为译文文本；译文文本为终端对端的签约语言类型对应的文本。

语音转换模块017，用于将译文文本转换为翻译语音媒体流。

媒体处理模块013，还用于通过翻译接口模块014获取翻译语音媒体流，并将翻译语音媒体流传输至对应的终端。

具体地，这里的语音识别模块015、文本翻译模块016和语音转换模块017可以是语音实时翻译服务器01内部的模块，也可以是第三方服务商提供的；一种可能的实现方式中，这三个模块可以由同一个第三方服务商提供，也可以由不同的第三方服务商提供。

一些实施例中，如图3所示，语音实时翻译服务器01还包括开通模块018和话单模块019；

开通模块018，用于为终端开通语音实时翻译业务，并将终端对应的签约数据存储至数据签约模块012；

话单模块019，用于根据数据签约模块012生成的话单记录生成话单。

具体地，上述的开通模块018可以与移动运营商的业务支撑***(businesssupport system，BSS)连接，以为终端开通实时翻译业务。话单模块019则可以与移动运营商的计费***连接，实现对终端的计费。

如图4所示，本申请实施例提供一种语音实时翻译架构，该架构包括语音实时翻译服务器10、终端对应的IMS网络11、多媒体电话应用服务器(multi media telephonyapplication server，MMTel AS)12。

其中，语音实时翻译服务器10的功能可以参照上述图3中的语音实时翻译服务器，这里不再赘述。

IMS网络11包括代理呼叫会话控制功能(proxy-call session control funtion，P-CSCF)网元：提供代理功能，用于接收终端的业务请求并进行转发；询问呼叫会话控制功能(interrogating-call session control funtion，I-CSCF)网元：提供域内服务器节点分配和路由查询功能；服务呼叫会话控制功能(serving-call session control funtion，S-CSCF)网元：负责终端的注册鉴权和会话控制；以及媒体网关控制功能(media gatewaycontrol function，MGCF)网元：提供IMS网络与公共交换电话网络(public switchedtelephone network，PSTN)或电路交换(circuit switched，CS)域的控制面交互。

其中，会话边界控制(session border control，SBC)网元是核心网与IP接入网及其他IP核心网的交界处的功能实体，用于连接包括SIP和普通用户综合接入设备(integrated access device，IAD)在内的终端与IMS核心网，确保两者之间的信息出入安全控制，实现防火墙与地址转换功能。MMTel AS12：提供多媒体电话基本业务和补充业务。

上述IMS网络11、MMTel AS12为通信领域通用网络设备，上述内容仅简述了其部分功能，具体功能可以参照本领域惯用技术，这里不再赘述。

终端接入IMS网络11之后，可以通过IMS网络11与语音实时翻译服务器10交互，实现对终端语音媒体流的翻译。进一步的，终端对应的IMS网络11可以与其他IMS网络、PSTN或CS域连接，实现移动终端之间的语音实时翻译，以及移动终端与固定终端之间的语音实时翻译。当然，在实现移动终端与固定终端间的语音实时翻译时，上述图3所示的语音实时翻译服务器中的数据签约模块可以同时存储移动终端和固定终端的语言类型信息。

基于上述的语音实时翻译服务器及语音实时翻译架构，本申请实施例提供一种语音实时翻译方法，应用于上述的语音实时翻译服务器，如图5所示，该方法包括S21-S24。

S21、响应于主叫终端的呼叫请求，语音实时翻译服务器为主叫终端和被叫终端预留媒体资源。

作为一种可能的实现方式，语音实时翻译服务器为IMS网络内一种新增的应用服务器，这里语音实时翻译服务器为主叫终端和被叫终端预留媒体资源，以使得主叫终端可以通过语音实时翻译服务器对应的预留媒体资源传输语音媒体流，同样的，被叫终端也可以通过语音实时翻译服务器对应的预留媒体资源传输语音媒体流。

语音实时翻译服务器为主叫终端和被叫终端预留媒体资源的流程，可以是IMS会话流程的建立流程，区别在于本申请实施例在IMS会话流程内添加了语音实时翻译服务器预留媒体资源的流程。

进一步的，由于语音实时翻译服务器包括多个模块，因此，这里语音实时翻译服务器为主叫终端和被叫终端预留媒体资源的流程可以如图6所示，主叫终端通过主叫IMS网络发起呼叫请求，即主叫终端向主叫IMS网络发送INVITE信令，区别在于本申请中主叫IMS网络将该INVITE信令转发至语音实时翻译服务器内的信令处理模块。

信令处理模块对该INVITE信令进行协议转换之后，可以向媒体处理模块发送媒体资源预留请求，以使得媒体处理模块为主叫终端预留媒体资源。

媒体处理模块为主叫终端预留媒体资源之后，可以向信令处理模块返回媒体资源预留成功消息，指示主叫终端的媒体资源已预留成功；此时，信令处理模块可以将协议转换后的INVITE信令发送给被叫IMS网络，以使得被叫IMS网络可以将该转换后的INVITE信令转发给被叫终端；此时，被叫终端可以预留媒体资源，用于建立与主叫终端间的语音会话。

被叫终端预留媒体资源之后，可以通过被叫IMS网络向信令处理模块返回183临时响应消息；此时，信令处理模块即可以根据183临时响应消息向媒体处理模块再次发送媒体资源预留请求，以使得媒体处理模块为被叫终端预留媒体资源。

媒体处理模块为被叫终端预留媒体资源之后，可以向信令处理模块返回媒体资源预留成功消息，指示被叫终端的媒体资源已预留成功；此时，信令处理模块可以通过主叫IMS网络向主叫终端返回183临时响应消息。

主叫终端接收183临时响应消息之后，可以通过主叫IMS网络、信令处理模块和被叫IMS网络向被叫终端发送PRACK消息，该PRACK消息的作用为：为保证被叫终端了解主叫终端已经收到其发送的183临时响应消息；被叫终端接收PRACK消息之后，即可以以同样的流程向主叫终端返回200OK消息，用于对PRACK消息进行确认回复。主叫终端接收200OK消息之后，即可以预留媒体资源，用于建立与被叫终端间的语音会话。

上述主叫终端和被叫终端之间会话流程的建立，是被叫终端处于空闲态。

一些实施例中，在被叫终端处于非空闲态时，如图7所示，上述流程之后，主叫终端可以通过主叫IMS网络、信令处理模块和被叫IMS网络向被叫终端发送UPDATE信令，更新被叫终端的状态；在被叫终端由非空闲态转变为空闲态时，可以以同样的方式向主叫终端返回180响应消息，指示被叫终端处于空闲态。

一些实施例中，语音实时翻译服务器内的信令协议可以与IMS网络的信令协议相同，此时信令处理模块不再需要对INVITE信令进行协议转换，而对该INVITE信令转发。

一些实施例中，在上述流程中，若被叫终端处于非空闲态，则被叫终端可以向主叫终端透传录音通知，该录音通知可以通过被叫IMS网络、信令处理模块和主叫IMS网络透传，录音通知可以为彩铃等。

需要说明的是，这里预留的媒体资源为保证主叫终端和被叫终端所协商的媒体会话可以建立，空口为主叫终端和被叫终端分配媒体资源之前，无法确保主叫终端和被叫终端之间的媒体会话建立成功。

上述实施例中涉及的INVITE信令、183临时响应消息、PRACK消息、200OK消息、UPDATE信令和180响应消息均为会话建立流程中的通用信令，这里不再具体赘述。

S22、在主叫终端和被叫终端通话时，若主叫终端的第一签约语言和被叫终端的第二签约语言不同，则语音实时翻译服务器通过预留媒体资源获取主叫终端的第一语音媒体流和被叫终端的第二语音媒体流。

作为一种可能的实现方式，在上述会话流程建立完成之后，若被叫终端摘机，则主叫终端可以开始与被叫终端通话。此时主叫终端和被叫终端之间的通话流程如图8所示：

被叫终端摘机之后，向主叫终端返回200OK消息，指示被叫终端已摘机。这里200OK消息的传输可以参照上述S21中200OK消息的传输。

被叫终端摘机，接通主叫终端与被叫终端之间的通话之后，信令处理模块向数据签约模块发送语音翻译业务指示消息，该语音翻译业务指示消息可以包括主叫终端和被叫终端的终端标识，如主叫终端的国际移动用户识别码(international mobile subscriberidentity，IMSI)，以及被叫终端的IMSI；数据签约模块根据主叫终端的IMSI和被叫终端的IMSI查询内部的签约数据，即可以确定主叫终端的签约语言类型，以及被叫终端的签约语言类型。上述语音翻译业务指示消息还可以指示主叫终端和被叫终端的呼叫建立成功。

在数据签约模块确定主叫终端和被叫终端的签约语言类型不同时，可以向翻译接口模块发送翻译业务启动消息，该翻译业务启动消息可以指示启动语音实时翻译业务；翻译接口模块接收翻译业务启动消息之后，可以向媒体处理模块发送语音采集指示消息，以指示媒体处理模块采集主叫终端和被叫终端的语音媒体流。当然，另一种可能的实现方式中，数据签约模块还可以将翻译业务启动消息发送给媒体处理模块，指示媒体处理模块采集主叫终端和被叫终端的语音媒体流。

媒体处理模块接收语音采集指示消息之后，即可以采集主叫终端的第一语音媒体流，以及被叫终端的第二语音媒体流。这里媒体处理模块对第一语音媒体流和第二语音媒体流的采集，可以分别通过其为主叫终端和被叫终端预留的媒体资源实现。

S23、语音实时翻译服务器根据第一语音媒体流确定第二签约语言类型对应的第一目标语音媒体流，并根据第二语音媒体流确定第一签约语言类型对应的第二目标语音媒体流。

S24、语音实时翻译服务器将第一目标语音媒体流发送给被叫终端，并将第二目标语音媒体流发送给主叫终端。

作为一种可能的实现方式，在S22中语音实时翻译服务器获取第一语音媒体流和第二语音媒体流之后，即可以将第一语音媒体流翻译为被叫终端的第二签约语言类型对应的第一目标语音媒体流，将第二语音媒体流翻译为主叫终端的第一签约语言类型对应的第二目标语音媒体流。

语音实时翻译服务器确定翻译后的第一目标语音媒体流和第二目标语音媒体流后，即可以将其发送给对应的主叫终端或被叫终端。

需要说明的是，语音实时翻译服务器对语音媒体流的翻译可以通过内部的翻译软件实现，也可以通过第三方的翻译软件实现。

如图9所示，在翻译软件通过翻译接口模块获取相应终端的语音媒体流之后，即可以将其翻译为目标语音媒体流，并通过翻译接口模块将目标语音媒体流发送给媒体处理模块，由媒体处理模块将相应的目标语音媒体流发送给对应的终端，如将第一目标语音媒体流发送给被叫终端，将第二目标语音媒体流发送给主叫终端。

一些实施例中，由于语音实时翻译服务器内存储了终端的签约数据，因此在语音实时翻译服务器为主叫终端和被叫终端建立会话连接之后，可以根据内部的签约数据确定终端的签约语言类型，即在主叫终端和被叫终端通话时，语音实时翻译服务器可以根据内部的签约数据确定主叫终端的第一签约语言类型和被叫终端的第二签约语言类型。

在第一签约语言类型和第二签约语言类型不同时，执行上述步骤S22；在第一签约语言类型和第二签约语言类型相同时，则语音实时翻译服务器不再启动语音实时翻译业务，此时主叫终端的第一语音媒体流和被叫终端的第二语音媒体流通过对应的IMS网络传输，不再由媒体处理模块传输。

一些实施例中，结合图5，如图10所示，上述步骤S23具体包括S231-S233。

S231、语音实时翻译服务器确定第一语音媒体流对应的第一语音文本，以及第二语音媒体流对应的第二语音文本。

作为一种可能的实现方式，这里第一语音文本和第二语音文本的确定可以由上述的语音识别模块实现，具体如图11所示。

翻译接口模块可以向语音识别模块发送语音识别消息，一种可能的实现方式中，该语音识别消息可以包括第一语音识别消息和第二语音识别消息，第一语音识别消息包括第一语音媒体流，第二语音识别消息包括第二语音媒体流。

语音识别模块接收语音识别消息之后，即可以将其内的第一语音媒体流识别为第一语音文本，将第二语音媒体流识别为第二语音文本。

S232、语音实时翻译服务器根据第一语音文本确定第二签约语言对应的第一译文文本，并根据第二语音文本确定第一签约语言对应的第二译文文本。

作为一种可能的实现方式，在语音识别模块确定第一语音文本和第二语音文本之后，如图11所示，语音识别模块可以将第一语音文本和第二语音文本通过译文请求消息发送给文本翻译模块，由文本翻译模块将这些语音文本确定为译文文本。

一种可能的实现方式中，译文请求消息可以包括第一译文请求消息和第二译文请求消息，第一译文请求消息可以包括第一语音文本，第二译文请求消息可以包括第二语音文本。

由于语音实时翻译服务器内存储了终端的签约数据，且媒体处理模块已经确定了主叫终端和被叫终端的签约语言类型，因此译文请求消息内可以包括译文指示信息，用于指示将主叫终端(被叫终端)的语音文本确定为对端的签约语言类型的语音文本。如将主叫终端的第一语音文本确定为被叫终端的第二签约语言对应的第一译文文本。

示例性的，若主叫终端的第一签约语言类型为中文，被叫终端的第二签约语言类型为英文，则主叫终端对应的第一译文请求消息内的译文指示信息可以为zh-en，指示将中文类型的第一语音文本确定为英文类型的第一译文文本。

若主叫终端的第一签约语言类型为中文，被叫终端的第二签约语言类型为英文，则被叫终端对应的第二译文请求消息内的译文指示信息可以为en-zh，指示将英文类型的第二语音文本确定为中文类型的第二译文文本。

一些实施例中，第一语音文本和第二语音文本可以由语音识别模块发送给文本翻译模块，也可以通过翻译接口模块传输给文本翻译模块。

S233、语音实时翻译服务器确定第一译文文本对应的第一目标语音媒体流，以及第二译文文本对应的第二目标语音媒体流。

作为一种可能的实现方式，如图11所示，文本翻译模块确定第一译文文本和第二译文文本之后，可以通过文音翻译指示消息将第一译文文本和第二译文文本传输给语音转换模块，以使得语音转换模块将第一译文文本确定为被叫终端的签约语言类型对应的第一目标语音媒体流，将第二译文文本确定为主叫终端的签约语言类型对应的第二目标语言媒体流。

一种可能的实现方式中，文音翻译指示消息可以包括第一文音翻译指示消息和第二文音翻译指示消息，第一文音翻译指示消息可以包括第一译文文本，第二文音翻译指示消息可以包括第二译文文本。

一些实施例中，第一译文文本和第二译文文本可以由文本翻译模块发送给语音转换模块，也可以通过翻译接口模块传输给语音转换模块。

一些实施例中，将第一目标语音媒体流发送给被叫终端，并将第二目标语音媒体流发送给主叫终端时，上述方法还包括：

将第一语音媒体流发送给被叫终端，将第二语音媒体流发送给主叫终端。

作为一种可能的实现方式，在媒体处理模块将目标语音媒体流发送给相应的终端时，可以将语音媒体流发送给对端。例如，将第一语音媒体流发送给被叫终端，将第二语音媒体流发送给主叫终端。被叫终端接收第一语音媒体流和第一目标语音媒体流之后，可以优先播放第一语音媒体流，再播放第一目标语音媒体流；同样的，在主叫终端接收第二语音媒体流和第二目标语音媒体流之后，也可以优先播放第二语音媒体流，再播放第二目标语音媒体流。

这里将主叫终端和被叫终端的语音媒体流发送给对端，是由于语音实时翻译服务器翻译语音媒体流时，可能需要一定的时延，因此这里可以将语音媒体流也发送给对端，避免对端用户的空等，提高用户使用体验。当然，这里也可以仅将目标语音媒体流发送给相应的终端，本申请实施例不做限定。

一些实施例中，上述图11所示的语音实时翻译服务器对语音媒体流的翻译流程仅为一种示例性的，另一种示例中，上述的IMS网络还可以为其他语音网络***，如基于互联网的通话类应用。此时，基于该语音网络***实现的语音媒体流翻译流程可以如图12所示。

主叫终端和被叫终端通过主叫语音网络***、信令处理模块和被叫语音网络***建立呼叫请求，该呼叫请求的建立过程可以参照上述图11所示的会话建立流程。

在语音实时翻译服务器为主叫终端和被叫终端预留媒体资源，并建立两者间的呼叫之后，可以启动主叫终端和被叫终端之间的语音翻译流程，此时，主叫终端和被叫终端间的语音翻译流程可以参照图11所示的语音翻译流程，这里不再赘述。

需要说明的是，在图12所示的语音网络***为IMS网络时，其对应的呼叫建立流程可以参照图11的IMS网络的会话建立流程，这里不再赘述。当然，在语音网络***为其他网络时，即可以参照图12所示的语音翻译流程实现主叫终端与被叫终端间的语音实时翻译，具体流程可以是参照本领域惯用的技术手段。

本申请实施例提供的语音实时翻译方法中，语音实时翻译装置可以为主叫终端和被叫终端预留媒体资源，以使得主叫终端和被叫终端的语音媒体流可以通过语音实时翻译装置提供的媒体资源进行传输；在后续主叫终端和被叫终端通话时，主叫终端和被叫终端间的语音媒体流可以通过语音实时翻译装置提供的媒体资源进行传输，并分别对主叫终端和被叫终端的语音媒体流进行翻译，并将翻译后的目标语音媒体流传输至对应的终端。本申请实施例中，语音实时翻译装置可以对主叫终端和被叫终端之间的语音媒体流进行实时翻译，不需要特制的终端或翻译软件，能够实现远程终端的实时翻译，且翻译方式灵活。

如图13所示，本申请实施例提供一种语音实时翻译装置30，该语音实时翻译装置30可以为上述语音实时翻译服务器内的装置。如图13所示，语音实时翻译装置30包括：资源预留模块301、获取模块302、翻译模块303、语言确定模块304和发送模块305。

资源预留模块301，用于响应于主叫终端的呼叫请求，为主叫终端和被叫终端预留媒体资源。

在主叫终端和被叫终端通话时，获取模块302，用于在主叫终端的第一签约语言类型和被叫终端的第二签约语言类型不同时，通过预留媒体资源获取主叫终端的第一语音媒体流和被叫终端的第二语音媒体流。

翻译模块303，用于根据获取模块302获取的第一语音媒体流确定第二签约语言类型对应的第一目标语音媒体流，并根据获取模块302获取的第二语音媒体流确定第一签约语言类型对应的第二目标语音媒体流。

发送模块305，用于将翻译模块303确定的第一目标语音媒体流发送给被叫终端，并将翻译模块303确定的第二目标语音媒体流发送给主叫终端。

一些实施例中，上述语言确定模块304，用于确定主叫终端的第一签约语言类型和被叫终端的第二签约语言类型。

一些实施例中，翻译模块303包括音文转换子模块3031、文本转换子模块3032和文音转换子模块3033。

音文转换子模块3031，用于确定第一语音媒体流对应的第一语音文本，以及第二语音媒体流对应的第二语音文本。

文本转换子模块3032，用于根据音文转换子模块3031确定的第一语音文本确定第二签约语言类型对应的第一译文文本，并根据音文转换子模块3031确定的第二语音文本确定第一签约语言类型对应的第二译文文本。

文音转换子模块3033，用于确定文本转换子模块3032确定的第一译文文本对应的第一目标语音媒体流，以及第二译文文本对应的第二目标语音媒体流。

一些实施例中，将第一目标语音媒体流发送给被叫终端，并将第二目标语音媒体流发送给主叫终端时，发送模块305，还用于将第一语音媒体流发送给被叫终端，将第二语音媒体流发送给主叫终端。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

参照图14所示，本申请实施例还提供另一种语音实时翻译装置，包括存储器41、处理器42、总线43和通信接口44；存储器41用于存储计算机执行指令，处理器42与存储器41通过总线43连接；当语音实时翻译装置运行时，处理器42执行存储器41存储的计算机执行指令，以使语音实时翻译装置执行如上述实施例提供的语音实时翻译方法。作为一个示例，结合图13，语音实时翻译装置中的资源预留模块301、获取模块302、翻译模块303、语言确定模块304和发送模块305实现的功能与图14中的处理器42的功能相同。

在具体的实现中，作为一种实施例，处理器42(42-1和42-2)可以包括一个或多个CPU，例如图14中所示的CPU0和CPU1。且作为一种实施例，语音实时翻译装置可以包括多个处理器42，例如图14中所示的处理器42-1和处理器42-2。这些处理器42中的每一个CPU可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器42可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器41可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器41可以是独立存在，通过总线43与处理器42相连接。存储器41也可以和处理器42集成在一起。

在具体的实现中，存储器41，用于存储本申请中的数据和执行本申请的软件程序对应的计算机执行指令。处理器42可以通过运行或执行存储在存储器41内的软件程序，以及调用存储在存储器41内的数据，语音实时翻译装置的各种功能。

通信接口44，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如控制***、无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。通信接口44可以包括接收单元实现接收功能，以及发送单元实现发送功能。

总线43，可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component interconnect，PCI)总线或扩展工业标准体系结构(extended industry standard architecture，EISA)总线等。该总线43可以分为地址总线、数据总线、控制总线等。为便于表示，图14中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质包括计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行如上述实施例提供的语音实时翻译方法。

本申请实施例还提供一种计算机程序，该计算机程序可直接加载到存储器中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述实施例提供的语音实时翻译方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音实时翻译方法，其特征在于，所述方法应用于语音实时翻译服务器，所述方法包括：

响应于主叫终端的呼叫请求，为所述主叫终端和被叫终端预留媒体资源；

在所述主叫终端和所述被叫终端通话时，根据所述主叫终端的国际移动用户识别码和所述被叫终端的国际移动用户识别码查询内部的签约数据，以确定所述主叫终端的第一签约语言类型和所述被叫终端的第二签约语言类型；

若确定所述主叫终端的第一签约语言类型和所述被叫终端的第二签约语言类型不同，则通过所述预留媒体资源获取所述主叫终端的第一语音媒体流和所述被叫终端的第二语音媒体流；

根据所述第一语音媒体流确定所述第二签约语言类型对应的第一目标语音媒体流，并根据所述第二语音媒体流确定所述第一签约语言类型对应的第二目标语音媒体流；

将所述第一目标语音媒体流发送给所述被叫终端，并将所述第二目标语音媒体流发送给所述主叫终端。

2.根据权利要求1所述的语音实时翻译方法，其特征在于，所述根据所述第一语音媒体流确定所述第二签约语言类型对应的第一目标语音媒体流，并根据所述第二语音媒体流确定所述第一签约语言类型对应的第二目标语音媒体流，包括：

确定所述第一语音媒体流对应的第一语音文本，以及所述第二语音媒体流对应的第二语音文本；

根据所述第一语音文本确定所述第二签约语言类型对应的第一译文文本，并根据所述第二语音文本确定所述第一签约语言类型对应的第二译文文本；

确定所述第一译文文本对应的第一目标语音媒体流，以及所述第二译文文本对应的第二目标语音媒体流。

3.根据权利要求2所述的语音实时翻译方法，其特征在于，所述将所述第一目标语音媒体流发送给所述被叫终端，并将所述第二语音媒体流发送给所述主叫终端时，所述方法还包括：

将所述第一语音媒体流发送给所述被叫终端，将所述第二语音媒体流发送给所述主叫终端。

4.一种语音实时翻译装置，其特征在于，包括：

资源预留模块，用于响应于主叫终端的呼叫请求，为所述主叫终端和被叫终端预留媒体资源；

在所述主叫终端和所述被叫终端通话时，语言确定模块，用于根据所述主叫终端的国际移动用户识别码和所述被叫终端的国际移动用户识别码查询内部的签约数据，以确定所述主叫终端的第一签约语言类型和所述被叫终端的第二签约语言类型；

获取模块，用于在确定所述主叫终端的第一签约语言类型和所述被叫终端的第二签约语言类型不同时，通过所述预留媒体资源获取所述主叫终端的第一语音媒体流和所述被叫终端的第二语音媒体流；

翻译模块，用于根据所述获取模块获取的所述第一语音媒体流确定所述第二签约语言类型对应的第一目标语音媒体流，并根据所述获取模块获取的所述第二语音媒体流确定所述第一签约语言类型对应的第二目标语音媒体流；

发送模块，用于将所述翻译模块确定的所述第一目标语音媒体流发送给所述被叫终端，并将所述翻译模块确定的所述第二目标语音媒体流发送给所述主叫终端。

5.根据权利要求4所述的语音实时翻译装置，其特征在于，所述翻译模块包括音文转换子模块、文本转换子模块和文音转换子模块；

所述音文转换子模块，用于确定所述第一语音媒体流对应的第一语音文本，以及所述第二语音媒体流对应的第二语音文本；

所述文本转换子模块，用于根据所述音文转换子模块确定的所述第一语音文本确定所述第二签约语言类型对应的第一译文文本，并根据所述音文转换子模块确定的所述第二语音文本确定所述第一签约语言类型对应的第二译文文本；

所述文音转换子模块，用于确定所述文本转换子模块确定的所述第一译文文本对应的第一目标语音媒体流，以及所述第二译文文本对应的第二目标语音媒体流。

6.根据权利要求5所述的语音实时翻译装置，其特征在于，所述发送模块将所述第一目标语音媒体流发送给所述被叫终端，并将所述第二目标语音媒体流发送给所述主叫终端时，所述发送模块，还用于将所述第一语音媒体流发送给所述被叫终端，将所述第二语音媒体流发送给所述主叫终端。

7.一种语音实时翻译服务器，其特征在于，包括：信令处理模块、数据签约模块、媒体处理模块和翻译接口模块；

所述信令处理模块，用于与语音网络***通信，并指示所述媒体处理模块为终端预留媒体资源；所述终端包括主叫终端和被叫终端；

所述数据签约模块，用于根据所述主叫终端的国际移动用户识别码和所述被叫终端的国际移动用户识别码查询内部的签约数据查询存储终端的签约语言类型；

所述数据签约模块，还用于在确定主叫终端和被叫终端的签约语言类型不同时，指示所述媒体处理模块获取所述主叫终端和所述被叫终端的语音媒体流；

所述媒体处理模块，还用于将所述主叫终端和所述被叫终端的语音媒体流传输至所述翻译接口模块；

所述翻译接口模块，用于对外提供所述语音媒体流及所述语音媒体流对应的签约语言类型。

8.根据权利要求7所述的语音实时翻译服务器，其特征在于，所述信令处理模块，还用于对所述语音网络***传输的信令进行转换；

所述媒体处理模块，还用于对所述终端的语音媒体流进行编码转换。

9.根据权利要求8所述的语音实时翻译服务器，其特征在于，所述服务器还包括语音识别模块、文本翻译模块和语音转换模块；

所述语音识别模块，用于从所述翻译接口模块获取所述语音媒体流，并将所述语音媒体流识别为语音文本；

所述文本翻译模块，用于将所述语音文本转换为译文文本；所述译文文本为所述终端对端的签约语言类型对应的文本；

所述语音转换模块，用于将所述译文文本转换为翻译语音媒体流；

所述媒体处理模块，还用于通过所述翻译接口模块获取所述翻译语音媒体流，并将所述翻译语音媒体流传输至对应的终端。

10.根据权利要求9所述的语音实时翻译服务器，其特征在于，所述服务器还包括开通模块和话单模块；

所述开通模块，用于为所述终端开通语音实时翻译业务，并将所述终端对应的签约数据存储至所述数据签约模块；

所述话单模块，用于根据所述数据签约模块生成的话单记录生成话单。

11.根据权利要求10所述的语音实时翻译服务器，其特征在于，所述语音网络***为互联网协议多媒体子***IMS网络。

12.一种语音实时翻译装置，其特征在于，包括存储器、处理器、总线和通信接口；所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接；当所述语音实时翻译装置运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述语音实时翻译装置执行如权利要求1-3任一项所述的语音实时翻译方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机执行指令，当所述计算机执行指令在计算机上运行时，使得所述计算机执行如权利要求1-3任一项所述的语音实时翻译方法。