CN107992485A

CN107992485A - 一种同声传译方法及装置

Info

Publication number: CN107992485A
Application number: CN201711207834.XA
Authority: CN
Inventors: 刘欢; 刘晓博
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-05-04

Abstract

本发明实施例提供一种同声传译方法和装置，所述方法包括：采集源语言语音数据；获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果；其中，所述语音翻译结果由自然人语音合成得到，所述目标语音与所述源语言属于不同语种。本发明实施例可以实现自动语音识别与翻译，降低了人力成本，提高了翻译结果的准确性和完整性，语音翻译结果具有自然人语音特征，有效改善听觉体验。

Description

一种同声传译方法及装置

技术领域

本发明实施例涉及计算机技术领域，具体涉及一种同声传译方法及装置。

背景技术

目前，越来越多的场景需要用到同声传译技术。传统的同声传译技术是发言人A进行源语言的发言，由翻译人员B将其翻译成目标语言输出。但是，这种方式，需要额外的翻译人员进行翻译，无法实现自动的语音识别与翻译处理。由于人工翻译可能会造成词语的疏漏或翻译错误，翻译结果的完整性、准确性均较差因此，现有技术存在的同声传译方法存在成本高、翻译完整性、准确性差缺陷。

发明内容

本发明实施例提供了一种同声传译方法及装置，旨在解决现有技术同声传译方法存在的成本高、翻译完整性、准确性差的技术问题。

为此，本发明实施例提供如下技术方案：

第一方面，本发明实施例提供了一种同声传译方法，包括：采集源语言语音数据；获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果；其中，所述语音翻译结果由自然人语音合成得到，所述目标语音与所述源语言属于不同语种。

第二方面，本发明实施例提供了一种同声传译装置，包括：采集单元，用于采集源语言语音数据；获取单元，用于获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果；其中，所述语音翻译结果由自然人语音合成得到，所述目标语音与所述源语言属于不同语种。

第三方面，本发明实施例提供了一种用于同声传译的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：采集源语言语音数据；获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果；其中，所述语音翻译结果由自然人语音合成得到，所述目标语音与所述源语言属于不同语种。

第四方面，本发明实施例提供了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如第一方面所示的同声传译方法。

本发明实施例提供的同声传译方法及装置，可以采集源语言语音数据，获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果。其中，所述语音翻译结果由自然人语音合成得到，所述目标语音与所述源语言属于不同语种。不同于现有技术无法人工翻译的方式，本发明实施例提供的方法可以实现自动语音识别与翻译，降低了人力成本，提高了效率，有效提高了翻译结果的完整性和准确性。此外，由于获取的语音翻译结果由自然人语音合成得到，使得听众的听觉感受更为自然、亲切，显著提高了同声传译的质量，改善了听觉体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的同声传译方法流程图；

图2为本发明另一实施例提供的同声传译方法流程图；

图3为本发明一实施例提供的同声传译装置示意图；

图4是根据一示例性实施例示出的一种用同声传译装置的框图；

图5是根据一示例性实施例示出的服务器的框图。

具体实施方式

本发明实施例提供了一种同声传译方法及装置，可以实现自动语音识别与翻译，降低了人力成本，提高了翻译结果的准确性和完整性，语音翻译结果具有自然人语音特征，有效改善听觉体验。

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面将结合附图1至附图2对本发明示例性实施例示出的同声传译方法进行介绍。

参见图1，为本发明一实施例提供的同声传译方法流程图。如图1所示，可以包括：

S101，采集源语言语音数据。

具体实现时，可以通过麦克风等音频采集单元采集源语言语音数据。所述源语言数据具体可以为待翻译为目标语言的数据。举例说明，用户在会议上使用中文发言，期望得到英文为目标语言的同声传译结果。客户端可以通过用户使用的麦克风采集源语言语音数据。在采集语音数据之前或之后，用户还可以通过用户界面选择需要翻译为的目标语言，翻译结果使用目标语言表示。一般地，源语言与目标语言属于不同语种。

S102，获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果。

在一些实施方式中，不仅可以获取并输出语音翻译结果，还可以获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的文本翻译结果。当然，还可以获取并输出所述源语言语音数据的识别结果。

在一些实施方式中，可以同时采集两路以上音频数据，并分别输出对两路以上音频数据的语音翻译结果。其中，所述采集源语言语音数据包括：采集至少两个源语言语音数据，所述至少两个源语言语音数据的来源和语音特征不同；所述获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果包括：分别获取并输出与所述至少两个源语言语音数据的识别结果对应的、以目标语言表示的至少两个语音翻译结果。其中，所述语音特征包括音色特征和风格特征。举例说明，在会议和沙龙场景，可能会出现男女对话，可以分别采集男女对话的音频数据，并分别输出女声的英文合成语音翻译结果以及男声的英文合成语音翻译结果。

在一些实施方式中，所述语音翻译结果由自然人语音合成得到，所述目标语音与所述源语言属于不同语种。例如，所述语音翻译结果可以具有目标音频的音色特征和/或风格特征。具体地，可以响应于用户针对目标音色类型和/或目标风格类型的选择或切换操作，确定与该选择或切换操作对应的目标音色类型和/或目标风格类型，获取与所述目标音色和/或目标风格对应的目标音频的音色特征和/或风格特征。所述获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果包括：获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的、与目标音色和/或目标风格对应的合成语音翻译结果；所述合成语音翻译结果具有与目标音色对应的音色特征，和/或，所述合成语音翻译结果具有与目标风格对应的风格特征。

举例说明，可以提供用户界面，供用户自行选择合成的音效。合成的音效可以包括合成的音色类型，和/或风格类型。音色类型例如可以包括甜美型女声、童声、沧桑型男声、成熟型男声等。对应的，音色特征一般包括频谱特征、能量特征等。一般地，风格特征用于表征一个人的说话风格、说话特点或者语言表现力。在本发明实施例中，风格特征一般是指与时长和韵律起伏相关性较高的时长韵律特征、基频特征、能量特征中的至少一种。所述时长韵律特征一般包括某个字/词的时长、停顿、是否重音等特征。

在合成语音翻译结果时，一般利用与所述识别结果对应的文本翻译结果、目标音频合成得到。具体地，可以根据所述文本翻译结果确定文本特征数据，根据目标音频的音色特征和/或风格特征与所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果。

在一些实施方式中，所述语音翻译结果具有源语言数据的音色特征。具体地，，可以对源语言语音数据进行识别，并得到与识别结果对应的语音翻译结果。其中，该语音翻译结果根据所述源语言语音数据以及与所述识别结果对应的文本翻译结果合成得到；所述文本翻译结果以目标语言表示，所述目标语言与所述源语言属于不同语种；所述语音翻译结果至少具有所述源语言语音数据的音色特征。

在一种实现方式中，可以获取具有源语言语音数据的发言人的音色特征、以目标语言呈现的语音翻译结果，从而达到“同声”的翻译结果。具体地，根据所述源语言语音数据以及与所述识别结果对应的文本翻译结果合成得到语音翻译结果包括：

(1)根据所述文本翻译结果确定文本特征数据。

需要说明的是，在采集源语言语音数据后，可以对该语音数据进行语音识别处理，得到语音识别结果。进一步地，对该语音识别结果进行翻译，得到以目标语言表示的文本翻译结果。根据该文本翻译结果确定文本特征数据。具体实现时，对于给定的任意文本，可以通过文本分析获取文本特征数据。本发明对获取文本特征数据的方式不进行限定，可以采用现有技术的方法而进行。

(2)获取所述源语言语音数据的音色特征。

其中，所述源语言语音数据的音色特征一般包括该语音数据的频谱特征、基频特征等。

(3)根据所述源语言语音数据的音色特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果。

在一种可能的实现方式中，可以根据源语言语音数据的频谱特征和/或基频特征、所述文本特征数据进行语音合成，得到合成语音数据。该合成语音数据具有源语言语音数据的发言人的音色特征、但以目标语言呈现。举例说明，用户A使用中文说了一句话“你好啊”，得到的合成语音为英文语音“hello”,且该英文语音具有用户A的音色特征。

在另一种可能的实现方式中，还可以获取所述源语言数据的风格特征。所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种。一般地，风格特征用于表征一个人的说话风格、说话特点或者语言表现力。在本发明实施例中，风格特征一般是指与时长和韵律起伏相关性较高的时长韵律特征、基频特征、能量特征中的至少一种。所述时长韵律特征一般包括某个字/词的时长、停顿、是否重音等特征。

相应地，所述根据所述源语言语音数据的音色特征和所述文本特征数据进行语音合成，得到目标语言的语音翻译结果包括：根据所述源语言语音数据的音色特征、所述源语言数据的风格特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果；所述语音翻译结果具有所述源语言语音数据的音色特征和风格特征。在这一实现中，语音翻译结果不仅具有源语言语音数据发言人的音色特征，还具有源语言语音数据发言人的风格特征。这样，实现了“同声色”“同画风”的同传翻译。

在一些可能的实现方式中，还可以获取目标风格音频的风格特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种；所述目标风格音频与目标语言对应。例如，源语言是中文，目标风格音频是英文的，而且具有一定的风格特征，例如特朗普的说话风格。

相应地，所述根据所述源语言语音数据的音色特征和所述文本特征数据进行语音合成，得到目标语言的语音翻译结果包括：根据所述源语言语音数据的音色特征、所述目标风格音频的风格特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果；所述语音翻译结果具有所述源语言语音数据的音色特征和所述目标风格音频的风格特征。也就是说，在这一实现中，语音翻译结果保留了源语言发言人的音色，但具有目标语言的另一发言人的风格特征，使得语音翻译结果更加符合目标语言听众的习惯，从而实现了“同声色”“不同画风”的同传翻译。

在一些实施方式中，响应于用户针对目标风格的选择或切换操作，确定与该选择或切换操作对应的目标风格，获取与所述目标风格对应的目标风格音频的风格特征。举例说明，可以提供若干风格供用户选择或者切换。

在一些实施方式中，所述根据所述源语言语音数据的音色特征、所述目标风格音频的风格特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果包括以下实现步骤：

A、根据所述文本特征数据、所述目标风格音频的时长韵律特征、所述源语言语音数据的音色特征得到所述源语言语音数据的声学特征数据。

在一些可能的实施方式中，所述根据所述文本特征数据、所述目标风格音频的时长韵律特征、所述源语言语音数据的音色特征得到所述源语言语音数据的声学特征包括：根据所述目标风格音频的时长韵律特征确定目标时长；根据所述文本特征数据、所述目标时长、所述源语言语音数据的音色特征得到所述源语言语音数据的声学特征数据。在这一实现方式中，根据目标风格音频的时长韵律特征确定了目标时长，取代了现有技术使用源语言语音数据预测时长的方式。之后，再根据文本特征数据、所述目标时长、所述源语言语音数据的音色特征得到所述源语言语音数据的声学特征数据。

在一些可能的实施方式中，所述根据所述文本特征数据、所述目标风格音频的时长韵律特征、所述源语言语音数据的音色特征得到所述源语言语音数据的声学特征包括：根据所述文本特征数据、所述源语言语音数据的时长特征得到预测时长；根据所述预测时长与目标时长进行线性插值处理，得到插值后的时长特征；所述目标时长根据所述目标风格音频数据的时长韵律特征确定；根据所述文本特征数据、所述插值后的时长特征、所述源语言语音数据的音色特征得到所述源语言语音数据的声学特征数据。需要说明的是，在合成拖长音时，可能会出现合成效果不稳定的情况。为了改善这一情况，可以根据源语言语音数据的时长特征、该文本数据得到预测时长，根据目标风格音频数据的时长韵律特征确定目标时长。根据所述预测时长与目标时长进行线性插值处理，得到插值后的时长特征，利用差值后的时长特征以及源语言语音数据的音色特征得到声学特征数据。

B、将所述目标风格音频的基频特征和/或能量特征与所述源语言语音数据的声学特征数据进行融合，得到融合后的声学特征数据。

具体实现时，可以将目标风格音频的基频特征和/或能量特征与所述源语言语音数据的声学特征数据中的基频特征和/或能量特征分别进行特征融合，得到融合后的声学特征数据。

其中，特征融合算法可以是非常灵活的，下面为其中一种示例：

S_tr(n)＝(T(n)*S_mean/T_mean)*w+S(n)*(1-w),where 0≤w≤1.0

其中，S_tr(n)为特征融合后的第n帧基频(或能量)特征，S(n)为合成时源说活人第n帧预测的基频(或能量)特征，T(n)为提取的目标说活人第n帧预测的基频(或能量)特征，S_mean表示源说话人音库的特征均值，T_mean表示目标说话人音频对应的特征均值，w表示融合系数。

在一些实施方式中，若采用预测时长和目标时长线性插值的方式得到时长特征，则在步骤B后，还包括：在得到融合后的声学特征数据后，对融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与所述目标时长一致。

C、将所述声学特征数据转换成语音波形，得到具有目标风格音频的风格特征、源语言语音数据的音色特征的合成语音数据。

不同于前一种实施方式根据目标风格音频的时长韵律特征融合得到源音频的声学特征的方式，在另一些实施方式中，可以根据源音频的时长特征得到预测时长，根据预测时长以及目标风格音频的其他风格特征得到融合后的声学特征，再对该声学特征进行差值，以减少拖长音的影响。

具体地，所述根据所述源语言语音数据的音色特征、所述目标风格音频的风格特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果包括：

A′，根据所述文本特征数据、所述源语言语音数据的音色特征和时长特征得到所述源语言语音数据的声学特征数据。

在这一实现方式中，可以根据文本特征数据、源语言语音数据的时长特征得到预测时长，根据所述预测时长、源语言语音数据的音色特征得到声学特征数据。

B′，将所述目标风格音频的基频特征和/或能量特征与所述源语言语音数据的声学特征数据进行融合，得到融合后的声学特征数据。

C′，对融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与目标时长一致。所述目标时长根据所述目标风格音频数据的时长韵律特征确定。

D′，将处理后的声学特征数据转换成语音波形，得到具有目标风格音频的风格特征、源语言语音数据的音色特征的合成语音数据。

在一些实施方式中，为了去除源语言语音数据中的源发言人的风格关联性，可以去除源语言语音数据的状态信息。在合成语音数据时，可以根据所述文本特征数据、目标风格音频的风格特征以及去除状态信息的源语言语音数据的音色特征进行语音合成，得到合成语音数据。

在本发明实施例中，可以将目标风格音频的风格特征融合到源语言语音数据中，使得合成后的语音更具有韵律特征，更具有表现力，有效提高了语音合成的质量。

需要说明的是，本发明实施例不限制具体地执行主体，上述步骤可以由客户端执行，也可以由服务器执行，也可以部分由客户端执行，部分由服务器执行。

为了便于本领域技术人员更清楚地理解本发明在具体场景下的实施方式，下面以一个具体示例对本发明实施方式进行介绍。需要说明的是，该具体示例仅为使得本领域技术人员更清楚地了解本发明，但本发明的实施方式不限于该具体示例。

S201，客户端采集源语言语音数据。

具体实现时，客户端运行后不需要用户手动操作，发言人只要说出“开始同传”即可以开启识别翻译功能，即开始执行S202。

S202,客户端将所述源语言语音数据进行序列化处理，获得序列化的源语言语音数据。

S203，客户端将序列化的源语言语音数据发送到服务器。

S204，服务器对接收的序列化的源语言进行反序列化处理。

S205，服务器对源语言语音数据进行语音识别，得到语言识别结果。

S206，服务器对语音识别结果进行翻译处理，得到文本翻译结果。

S207，服务器利用文本翻译结果和源语言语音数据得到合成语音翻译结果。

具体实现可以参照图1所示的方法。

S208，服务器将合成语音翻译结果、识别结果发送到客户端。

S209，客户端输出所述合成语音翻译结果。

客户端可以语音的方式输出该合成语音翻译结果。

下面对本发明实施例提供的方法对应的装置和设备进行介绍。

参见图3，为本发明一实施例提供的同声传译装置示意图。

一种同声传译装置300，包括：

采集单元301，用于采集源语言语音数据。其中，所述采集单元301的具体实现可以参照图1所示实施例的步骤101而实现。

获取单元302，用于获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果；其中，所述语音翻译结果由自然人语音合成得到，所述目标语音与所述源语言属于不同语种。其中，所述获取单元302的具体实现可以参照图1所示实施例的步骤102而实现。

在一些实施方式中，所述装置还包括：

文本输出单元，用于获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的文本翻译结果；和/或，

识别结果输出单元，用于获取并输出所述源语言语音数据的识别结果。

在一些实施方式中，所述采集单元具体用于：采集至少两个源语言语音数据，所述至少两个源语言语音数据的来源和语音特征不同；

所述获取单元具体用于：

分别获取并输出与所述至少两个源语言语音数据的识别结果对应的、以目标语言表示的至少两个语音翻译结果。

在一些实施方式中，所述装置还包括：

确定单元，用于响应于用户针对目标音色类型和/或目标风格类型的选择或切换操作，确定与该选择或切换操作对应的目标音色类型和/或目标风格类型，获取与所述目标音色和/或目标风格对应的目标音频的音色特征和/或风格特征；

所述获取单元具体用于：

获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的、与目标音色和/或目标风格对应的合成语音翻译结果；所述合成语音翻译结果具有与目标音色对应的音色特征，和/或，所述合成语音翻译结果具有与目标风格对应的风格特征。

在一些实施方式中，所述获取单元具体用于：

获取并输出具有源语言语音数据的音色特征的语音翻译结果，所述语音翻译结果根据所述源语言语音数据以及与所述识别结果对应的文本翻译结果合成得到；所述文本翻译结果以目标语言表示。

在一些实现方式中，所述获取单元包括：

文本特征数据确定单元，用于根据所述文本翻译结果确定文本特征数据；

音色特征确定单元，用于获取所述源语言语音数据的音色特征；

语音合成单元，用于根据所述源语言语音数据的音色特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果。

在一些实施方式中，所述装置还包括：

第一风格特征确定单元，用于获取所述源语言数据的风格特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种；

所述语音合成单元具体包括：

第一语音合成单元，用于根据所述源语言语音数据的音色特征、所述源语言数据的风格特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果；所述语音翻译结果具有所述源语言语音数据的音色特征和风格特征。

在一些实施方式中，所述装置还包括：

第二风格特征确定单元，用于获取目标风格音频的风格特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种；所述目标风格音频与目标语言对应；

所述语音合成单元具体包括：

第二语音合成单元，用于根据所述源语言语音数据的音色特征、所述目标风格音频的风格特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果；所述语音翻译结果具有所述源语言语音数据的音色特征和所述目标风格音频的风格特征。

在一些实施方式中，所述第二语音合成单元包括：

第一融合单元，用于根据所述文本特征数据、所述目标风格音频的时长韵律特征、所述源语言语音数据的音色特征得到所述源语言语音数据的声学特征数据；

第二融合单元，用于将所述目标风格音频的基频特征和/或能量特征与所述源语言语音数据的声学特征数据进行融合，得到融合后的声学特征数据；

第一转换单元，用于将所述声学特征数据转换成语音波形，得到具有目标风格音频的风格特征、源语言语音数据的音色特征的合成语音数据。

在一些实施方式中，所述第二语音合成单元包括：

声学特征预测单元，用于根据所述文本特征数据、所述源语言语音数据的音色特征和时长特征得到所述源语言语音数据的声学特征数据；

第三融合单元，用于将所述目标风格音频的基频特征和/或能量特征与所述源语言语音数据的声学特征数据进行融合，得到融合后的声学特征数据；

特征插值单元，用于对融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与目标时长一致；所述目标时长根据所述目标风格音频数据的时长韵律特征确定；

第二转换单元，用于将处理后的声学特征数据转换成语音波形，得到具有目标风格音频的风格特征、所述源语言语音数据的音色特征的合成语音数据。

其中，本发明装置各单元或模块的设置可以参照图1至图2所示的方法而实现，在此不赘述。

参见图4，为根据一示例性实施例示出的一种用于同声传译装置的框图。参见图4，为根据一示例性实施例示出的一种用于同声传译装置的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理部件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理***，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到设备400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件414经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件414还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

具体地，本发明实施例提供了一种同声传译装置400，包括有存储器404，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器404中，且经配置以由一个或者一个以上处理器420执行所述一个或者一个以上程序包含用于进行以下操作的指令：采集源语言语音数据；获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果；其中，所述语音翻译结果由自然人语音合成得到，所述目标语音与所述源语言属于不同语种。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的文本翻译结果；和/或，获取并输出所述源语言语音数据的识别结果。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：采集至少两个源语言语音数据，所述至少两个源语言语音数据的来源和语音特征不同；分别获取并输出与所述至少两个源语言语音数据的识别结果对应的、以目标语言表示的至少两个语音翻译结果。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：响应于用户针对目标音色类型和/或目标风格类型的选择或切换操作，确定与该选择或切换操作对应的目标音色类型和/或目标风格类型，获取与所述目标音色和/或目标风格对应的目标音频的音色特征和/或风格特征；获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的、与目标音色和/或目标风格对应的合成语音翻译结果；所述合成语音翻译结果具有与目标音色对应的音色特征，和/或，所述合成语音翻译结果具有与目标风格对应的风格特征。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取并输出具有源语言语音数据的音色特征的语音翻译结果，所述语音翻译结果根据所述源语言语音数据以及与所述识别结果对应的文本翻译结果合成得到；所述文本翻译结果以目标语言表示。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：根据所述文本翻译结果确定文本特征数据；获取所述源语言语音数据的音色特征；根据所述源语言语音数据的音色特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取所述源语言数据的风格特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种；根据所述源语言语音数据的音色特征、所述源语言数据的风格特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果；所述语音翻译结果具有所述源语言语音数据的音色特征和风格特征。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取目标风格音频的风格特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种；所述目标风格音频与目标语言对应；根据所述源语言语音数据的音色特征、所述目标风格音频的风格特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果；所述语音翻译结果具有所述源语言语音数据的音色特征和所述目标风格音频的风格特征。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：根据所述文本特征数据、所述目标风格音频的时长韵律特征、所述源语言语音数据的音色特征得到所述源语言语音数据的声学特征数据；将所述目标风格音频的基频特征和/或能量特征与所述源语言语音数据的声学特征数据进行融合，得到融合后的声学特征数据；将所述声学特征数据转换成语音波形，得到具有目标风格音频的风格特征、源语言语音数据的音色特征的合成语音数据。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：根据所述文本特征数据、所述源语言语音数据的音色特征和时长特征得到所述源语言语音数据的声学特征数据；将所述目标风格音频的基频特征和/或能量特征与所述源语言语音数据的声学特征数据进行融合，得到融合后的声学特征数据；对融合后的声学特征数据进行线性插值处理，使得所述融合后的声学特征数据的时长与目标时长一致；所述目标时长根据所述目标风格音频数据的时长韵律特征确定；将处理后的声学特征数据转换成语音波形，得到具有目标风格音频的风格特征、所述源语言语音数据的音色特征的合成语音数据。

进一步地，所述处理器420具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令：响应于用户针对目标风格的选择或切换操作，确定与该选择或切换操作对应的目标风格，获取与所述目标风格对应的目标风格音频的风格特征。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种机器可读介质，例如该机器可读介质可以为非临时性计算机可读存储介质，当所述介质中的指令由装置(终端或者服务器)的处理器执行时，使得装置能够执行一种同声传译方法，所述方法包括：采集源语言语音数据；获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果；其中，所述语音翻译结果由自然人语音合成得到，所述目标语音与所述源语言属于不同语种。

图5是本发明实施例中服务器的结构示意图。该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，一个或一个以上键盘556，和/或，一个或一个以上操作***541，例如Windows ServerTM，Mac OSXTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种同声传译方法，其特征在于，包括：

采集源语言语音数据；

获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果；

其中，所述语音翻译结果由自然人语音合成得到，所述目标语音与所述源语言属于不同语种。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的文本翻译结果；和/或，

获取并输出所述源语言语音数据的识别结果。

3.根据权利要求1所述的方法，其特征在于，所述采集源语言语音数据包括：

采集至少两个源语言语音数据，所述至少两个源语言语音数据的来源和语音特征不同；

所述获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于用户针对目标音色类型和/或目标风格类型的选择或切换操作，确定与该选择或切换操作对应的目标音色类型和/或目标风格类型，获取与所述目标音色和/或目标风格对应的目标音频的音色特征和/或风格特征；

5.根据权利要求1所述的方法，其特征在于，所述语音翻译结果具有所述源语言语音数据的音色特征，所述语音翻译结果根据所述源语言语音数据以及与所述识别结果对应的文本翻译结果合成得到；所述文本翻译结果以目标语言表示。

6.根据权利要求1所述的方法，其特征在于，根据所述源语言语音数据以及与所述识别结果对应的文本翻译结果合成得到语音翻译结果包括：

根据所述文本翻译结果确定文本特征数据；

获取所述源语言语音数据的音色特征；

根据所述源语言语音数据的音色特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取所述源语言数据的风格特征；所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种；

所述根据所述源语言语音数据的音色特征和所述文本特征数据进行语音合成，得到目标语言的语音翻译结果包括：

根据所述源语言语音数据的音色特征、所述源语言数据的风格特征和所述文本特征数据进行语音合成，得到合成语音数据作为语音翻译结果；所述语音翻译结果具有所述源语言语音数据的音色特征和风格特征。

8.一种同声传译装置，其特征在于，包括：

采集单元，用于采集源语言语音数据；

获取单元，用于获取并输出与所述源语言语音数据的识别结果对应的、以目标语言表示的语音翻译结果；其中，所述语音翻译结果由自然人语音合成得到，所述目标语音与所述源语言属于不同语种。

9.一种用于同声传译的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

采集源语言语音数据；

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的同声传译方法。