CN106649290A

CN106649290A - 语音翻译方法及***

Info

Publication number: CN106649290A
Application number: CN201611190280.2A
Authority: CN
Inventors: 蒋化冰; 马晨星; 张俊杰; 谭舟; 王振超; 梁兰; 徐志强; 严婷; 郦莉
Original assignee: Shanghai Muye Robot Technology Co Ltd
Current assignee: Shanghai Muye Robot Technology Co Ltd
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2017-05-10

Abstract

本申请实施例提供一种语音翻译方法及***。语音翻译方法包括：捕获第一用户的脸部图像；根据脸部图像与各人种之间的匹配度，确定候选人种；根据候选人种使用的语种，设置输入语种为第一语种；将第一用户以第一语种输入的语音信号，翻译为第二语种的内容，第二语种为输出语种。本申请实施例可以自动设置输入语种，有利于提高语音翻译的效率。

Description

语音翻译方法及***

技术领域

本申请涉及互联网技术领域，尤其涉及一种语音翻译方法及***。

背景技术

近年来随着语音处理和自然语言处理的发展，出现了语音翻译技术。在不同语种的交流中，语音翻译技术可以将一语种的语音信号翻译成另一语种的语音信号。

在语音翻译过程中，需要明确输入使用的语种和输出使用的语种，以便于进行语音翻译。但是，不同用户进行输入使用的语种可能不同，故需要输入用户手动设置进行语音输入使用的语种，以便于进行语音翻译。这种语音翻译的效率较低。

发明内容

本申请的多个方面提供一种语音翻译方法及***，用以提高语音翻译效率。

本申请实施例提供一种语音翻译方法，包括：

捕获第一用户的脸部图像；

根据所述脸部图像与各人种之间的匹配度，确定候选人种；

根据所述候选人种使用的语种，设置输入语种为第一语种；

将所述第一用户以所述第一语种输入的语音信号，翻译为第二语种的内容，所述第二语种为输出语种。

在一可选实施方式中，所述根据所述脸部图像与各人种之间的匹配度，确定候选人种，包括：

从所述脸部图像中，提取多个脸部特征；

根据所述多个脸部特征与各人种脸部特征之间的相似度，获得所述脸部图像与各人种之间的匹配度。

在一可选实施方式中，所述根据所述候选人种使用的语种，设置输入语种为第一语种，包括：

按照与所述脸部图像的匹配度由高到低的顺序，顺序展示所述候选人种使用的语种；

响应于所述第一用户选择语种的操作，确定所述候选人种使用的语种中被选择的语种作为所述第一语种；

设置所述输入语种为所述第一语种。

在一可选实施方式中，所述将所述第一用户以所述第一语种输入的语音信号，翻译为第二语种的内容，包括：

将所述第一用户以所述第一语种输入的语音信号，识别为所述第一语种的文本信号；

将所述第一语种的文本信号上传至服务端，以供所述服务端将所述第一语种的文本信号翻译为所述第二语种的文本信号；

接收所述服务端返回的所述第二语种的文本信号，并将所述第二语种的文本信号，语音合成为所述第二语种的语音信号。

在一可选实施方式中，所述将所述第一用户以所述第一语种输入的语音信号，识别为所述第一语种的文本信号之前，还包括：

在语音输入界面上，展示语音输入图标；

响应于所述第一用户对所述语音输入图标的点击操作，启动语音识别功能。

在一可选实施方式中，所述方法还包括：

向第二用户的客户端发送通知消息，以指示所述第二用户的客户端将其输出语种设置为所述第一语种；所述第二用户是所述第一用户的互动用户。

在一可选实施方式中，所述方法还包括：

所述第二用户的客户端根据所述通知消息，设置其输出语种为所述第一语种，并将所述第二用户以所述第二语种输入的语音信号，翻译为所述第一语种的内容。

在一可选实施方式中，所述第二用户的客户端将所述第二用户以所述第二语种输入的语音信号，翻译为所述第一语种的内容，包括：

所述第二用户的客户端将所述第二用户以所述第二语种输入的语音信号，识别为所述第二语种的文本信号；

所述第二用户的客户端将所述第二语种的文本信号上传至服务端，以供所述服务端将所述第二语种的文本信号翻译为所述第一语种的文本信号；

所述第二用户的客户端接收所述服务端返回的所述第一语种的文本信号，并将所述第一语种的文本信号，语音合成为所述第一语种的语音信号。

本申请实施例还提供一种语音翻译***，包括：第一用户的客户端以及服务端；

所述第一用户的客户端，用于捕获第一用户的脸部图像；根据所述脸部图像与各人种之间的匹配度，确定候选人种，根据所述候选人种使用的语种，设置输入语种为第一语种；将所述第一用户以所述第一语种输入的语音信号的相关信息上传至所述服务端，并根据所述服务端返回的翻译结果，输出第二语种的内容，所述第二语种为所述第一用户的客户端的输出语种；

所述服务端，用于翻译所述第一用户以所述第一语种输入的语音信号的相关信息，并将所述翻译结果返回给所述第一用户的客户端。

在一可选实施方式中，所述***还包括：第二用户的客户端；

所述第一用户的客户端还用于：向所述第二用户的客户端发送通知消息，以指示所述第二用户的客户端将其输出语种设置为所述第一语种；

所述第二用户的客户端，用于根据所述通知消息，设置其输出语种为所述第一语种，并将第二用户以所述第二语种输入的语音信号，翻译为所述第一语种的内容；所述第二用户是所述第一用户的互动用户。

在本申请实施例中，通过捕获用户的脸部图像，根据捕获到的脸部图像与各人种之间的匹配度，确定候选人种，根据候选人种使用的语种，设置输入语种为第一语种，进而将用户以第一语种输入的语音信号，翻译为第二语种的内容，完成语音翻译。在本申请实施例的语音翻译过程中，无需用户手动设置输入语种，可基于用户的脸部图像自动设置输入语种，输入语种的设置效率较高，进而有利于提高语音翻译效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一实施例提供的语音翻译方法的流程示意图；

图2为本申请另一实施例提供的语音翻译方法的流程示意图；

图3为本申请又一实施例提供的语音翻译方法的流程示意图；

图4为本申请又一实施例提供的语音翻译***的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一实施例提供的语音翻译方法的流程示意图。如图1所示，所述方法包括：

101、捕获第一用户的脸部图像。

102、根据所述脸部图像与各人种之间的匹配度，确定候选人种。

103、根据所述候选人种使用的语种，设置输入语种为第一语种。

104、将第一用户以第一语种输入的语音信号，翻译为第二语种的内容，所述第二语种为输出语种。

在一些应用场景中，第一用户需要与其它用户(例如第二用户)进行互动。第一用户与第二用户可能使用不同的语种，故需要将第一用户的语音信号转换为第二用户可以理解的内容。

第一用户的客户端需要将第一用户输入的语音信号翻译为第二用户能够理解的内容。其中，第一用户的客户端可运行于第一用户的终端设备上，具有语音翻译功能。

第一用户的客户端对第一用户的语音信号进行翻译的过程如下：

参见步骤101，第一用户的客户端捕获第一用户的脸部图像。可选的，第一用户的客户端可调用第一用户的终端设备上的拍摄模块(例如相机***)侦测第一用户的脸部，当侦测到满足预设条件的脸部区域时，对侦测到的脸部区域进行静态拍摄或动态截图，以获得第一用户的脸部图像。根据应用场景的不同，上述预设条件可能有所不同。例如，当侦测到第一用户的脸部占据镜头面积的百分比达到设定百分比时，对占据镜头的脸部区域进行静态拍摄或动态截图，以获得第一用户的脸部图像。

继续参见步骤102，第一用户的客户端根据第一用户的脸部图像与各人种之间的匹配度，确定候选人种。其中，候选人种是指第一用户可能属于的人种，例如可能是美国、日本、中国等。候选人种可以是一个或多个。

在一可选实施方式中，可以预先存储各人种的脸部特征。基于此，确定候选人种的步骤，可以为：从第一用户的脸部图像中，提取多个脸部特征；根据所提取的多个脸部特征与各人种脸部特征之间的相似度，获得脸部图像与各人种之间的匹配度。

例如，以第一人种为例，获取第一用户的脸部图像与第一人种之间的匹配度的步骤，可以为：对所提取的多个脸部特征与第一人种的脸部特征之间的相似度进行加权求和，以获得第一用户的脸部图像与第一人种之间的匹配度。第一人种可以是任意人种。所述多个脸部特征可以包括但不限于：脸部宽度、脸部高度、五官之间的距离、头发颜色、人脸肤色等。

可选的，在一应用示例中，各人种的脸部特征存储于服务端。基于此，第一用户的客户端可以向服务端发送访问请求，以访问服务端存储的各人种的脸部特征，并计算所提取的多个脸部特征与各人种脸部特征之间的相似度，基于获得的相似度计算脸部图像与各人种之间的匹配度。

可选的，在另一应用示例中，第一用户的客户端可以在本地保存各人种的脸部特征。基于此，第一用户的客户端可以访问本地保存的各人种的脸部特征，并计算所提取的多个脸部特征与各人种脸部特征之间的相似度，基于获得的相似度计算脸部图像与各人种之间的匹配度。

继续参见步骤103，如果第一用户属于某个人种，那么第一用户很大程度上会说其所属人种使用的语种。因此，在确定第一用户可能属于的候选人种之后，可以根据候选人种使用的语种，设置输入语种为第一语种。其中，第一语种是候选人种使用的语种中的一种，例如可能是日语、英语、汉语或俄语等。

在一可选实施方式中，考虑到候选人种可能为多个，为便于第一用户从中选择使用的输入语种，第一用户的客户端可按照各人种与第一用户的脸部图像的匹配度由高到低的顺序，顺序展示候选人种使用的语种，以供第一用户从中选择；对第一用户来说，可以从中选择进行语音输入使用的语种，即选择第一语种。对第一用户的客户端来说，可响应于第一用户选择语种的操作，确定候选人种使用的语种中被选择的语种作为第一语种，将输入语种设置为第一语种。

举例说明，假设根据第一用户的脸部图像与各人种之间的匹配度，确定第一用户可能是英国人或日本人，并且第一用户的脸部图像与英国人的匹配度为90％，第一用户的脸部图像与日本人的匹配度为85％，可以向第一用户顺序展示英语、日语以及其它，以供用户选择。如果第一用户选择英语或日语，则可以将英语或日语作为第一语种。如果第一用户不选择英语或日语，则可以通过其它选项，选择其它语种，例如汉语、俄语或葡萄牙语等作为第一语种。

在确定第一用户选择的语种，即第一语种之后，第一用户的客户端可以将输入语种设置为第一语种，这意味着第一用户会以第一语种进行语音输入。

继续参见步骤104，第一用户的客户端侦听第一用户以第一语种输入的语音信号，将第一用户以第一语种输入的语音信号翻译为第二语种的内容。其中，第二语种是输出语种，优选为第二用户可以理解的语种。

可选的，可以预先设置第二语种为输出语种。例如，第二用户的客户端可以默认设置第二语种为输出语种。或者，可由第二用户设置第二用户的客户端的输出语种为第二语种。其中，第二用户可以通过其客户端(后续简称为第二用户的客户端)设置第一用户的客户端的输出语种为第二语种。

在本实施例中，并不限定第二语种的内容的实现形式，例如第二语种的内容可以是语音信号，也可以是非语音信号(例如文本数据)。

在一可选实施方式中，上述第二语种的内容为语音信号，即需要将第一用户以第一语种输入的语音信号翻译为第二语种的语音信号。基于此，第一用户的客户端可以基于语音识别(Automatic Speech Recognition，ASR)技术，将第一用户以第一语种输入的语音信号，识别为第一语种的文本信号；将第一语种的文本信号上传至服务端，以供服务端将第一语种的文本信号翻译为第二语种的文本信号；接收服务端返回的第二语种的文本信号，并基于语音合成(TextToSpeech，TTS)技术将第二语种的文本信号，语音合成为第二语种的语音信号。

进一步，在第一用户的客户端将第一用户以第一语种输入的语音信号，识别为第一语种的文本信号之前，第一用户的客户端可以向第一用户展示语音输入界面，在语音输入界面上，展示语音输入图标，例如可以是麦克风图标，以便于第一用户启动ASR功能。对第一用户来说，可以点击语音输入图标启动第一用户的客户端的ASR功能。相应地，第一用户的客户端响应于第一用户对语音输入图标的点击操作，启动ASR功能，以便于将第一用户以第一语种输入的语音信号，识别为第一语种的文本信号。

在本实施例中，通过捕获用户的脸部图像，根据捕获到的脸部图像与各人种之间的匹配度，确定候选人种，根据候选人种使用的语种，设置输入语种为第一语种，实现输入语种的自动设置，无需用户手动设置输入语种，输入语种的设置效率较高，进而将用户以第一语种输入的语音信号，翻译为第二语种的内容，完成语音翻译，有利于提高整个语音翻译过程的效率。

在实际应用中，第一用户需要与第二用户互动，这意味着除了需要将第一用户的语音信号翻译为第二用户可以理解的内容之外，也需要将第二用户的语音学信号翻译为第一用户可以理解的内容。对第二用户来说，需要设置其客户端的输出语种为第一用户使用的语种，即第一语种。对第二用户来说，可以通过手动设置其客户端的输出语种为第一语种，但效率相对较低，尤其是在第二用户频繁面对不同用户的情况下，需要频繁更改其输出语种，效率较低的问题会更加明显。针对该问题，本申请另一实施例提供的语音翻译方法给出一种解决方案。如图2所示，所述语音翻译方法包括：

201、第一用户的客户端捕获第一用户的脸部图像。

202、第一用户的客户端根据所述脸部图像与各人种之间的匹配度，确定候选人种。

203、第一用户的客户端根据所述候选人种使用的语种，设置输入语种为第一语种。

204、第一用户的客户端向第二用户的客户端发送通知消息，以指示第二用户的客户端将其输出语种设置为第一语种，第二用户是第一用户的互动用户。

205、第一用户的客户端将第一用户以第一语种输入的语音信号，翻译为第二语种的内容，所述第二语种为输出语种。

206、第二用户的客户端根据所述通知消息，设置其输出语种为第一语种。

207、第二用户的客户端将第二用户以第二语种输入的语音信号，翻译为第一语种的内容。

在本实施例中，第一用户需要与第二用户进行语音交流。例如，在国际型购物商场中，消费者需要与商场中的服务人员进行语音交流，不同消费者所说语种不同，服务人员需要面向说不同语言的消费者提供服务。消费者可以作为本实施例中的第一用户，商场中的服务人员可作为本实施例中的第二用户。又例如，在机场环境中，旅游者经常需要与机场的柜台人员进行语音交流，例如咨询事情，柜台人员需要面向说不同语言的游客提供服务。游客可以作为本实施例中的第一用户，柜台人员可以作为本实施例中的第二用户。

在上述各种应用场景中，第一用户的客户端需要将第一用户输入的语音信号翻译为第二用户能够理解的内容。第一用户的客户端可运行于第一用户的终端设备上，具有语音翻译功能。相应地，第二用户的客户端需要将第二用户输入的语音信号翻译为第一用户能够理解的内容。第二用户的客户端可运行于第二用户的终端设备上，具有语音翻译功能。

关于第一用户的客户端将第一用户输入的语音信号翻译为第二用户能够理解的内容的过程，可参见图1所示实施例的描述，在此不再赘述。

在本实施例中，第一用户的客户端在将其输入语种设置为第一语种之后，还向第二用户的客户端发送通知消息，以指示第二用户的客户端将其输出语种设置为第一语种。相应地，第二用户的客户端接收第一用户的客户端发送的通知消息，并根据所述通知消息设置其输出语种为第一语种，实现输出语种的自动设置，无需第二用户手动设置，输出语种的设置效率较高，有利于提高整个语音翻译过程的效率。之后，第二用户的客户端侦听第二用户以第二语种输入的语音信号，将第二用户以第二语种输入的语音信号，翻译为第一语种的内容。其中，第一语种是第一用户能够理解的语种，第二语种是第二用户能够理解的语种。

可选的，第二用户的客户端可以预先设置第二语种为其输入语种。例如，第二用户的客户端可以默认设置第二语种为输入语种。或者，可由第二用户手动设置其客户端的输入语种为第二语种。或者，第二用户的客户端可以采用类似第一用户的客户端设置其输入语种的方式。具体的，第二用户的客户端可以捕获第二用户的脸部图像；根据所述脸部图像与各人种之间的匹配度，确定候选人种；根据候选人种使用的语种，设置输入语种为第二语种。

在本实施例中，并不限定第一语种的内容的实现形式，例如第一语种的内容可以是语音信号，也可以是非语音信号(例如文本数据)。

在一可选实施方式中，上述第一语种的内容为语音信号，即需要将第二用户以第二语种输入的语音信号翻译为第一语种的语音信号。基于此，第二用户的客户端可以基于ASR技术，将第二用户以第二语种输入的语音信号，识别为第二语种的文本信号；将第二语种的文本信号上传至服务端，以供服务端将第二语种的文本信号翻译为第一语种的文本信号；接收服务端返回的第一语种的文本信号，并基于TTS技术将第一语种的文本信号，语音合成为第一语种的语音信号。

进一步，在第二用户的客户端将第二用户以第二语种输入的语音信号，识别为第二语种的文本信号之前，第二用户的客户端可以向第二用户展示语音输入界面，在语音输入界面上，展示语音输入图标，例如可以是麦克风图标，以便于第二用户启动ASR功能。对第二用户来说，可以点击语音输入图标启动第二用户的客户端的ASR功能。相应地，第二用户的客户端响应于第二用户对语音输入图标的点击操作，启动ASR功能，以便于将第二用户以第二语种输入的语音信号，识别为第二语种的文本信号。

在本实施例中，在第一用户与第二用户进行语音交流的过程中，第一用户的客户端通过捕获第一用户的脸部图像，根据捕获到的脸部图像设置其输入语种为第一语种，以便于将第一用户输入的语音信号，翻译为第二用户能够理解的内容，在该过程中实现了输入语种的自动设置，无需用户手动设置输入语种，输入语种的设置效率较高；另外，第一用户的客户端向第二用户的客户端发送通知消息，以指示第二用户的客户端将其输出语种设置为第一语种，以便于第二用户的客户端将第二用户输入的语音信号翻译为第一用户能够理解的内容，在该过程中实现了输出语种的自动设置，无需用户手动设置输出语种，输出语种的设置效率较高，进而提高了整个语音翻译过程的效率。

以旅游场景为例，将旅客的终端记为终端A，将柜台人员的终端记为终端B，具有翻译功能的应用(简称为翻译应用)分别安装于终端A和终端B上，旅游场景中语音翻译方法的流程如图3所示，包括：

31、柜台人员通过终端B预先设置终端A上的翻译应用的输出语种为第二语种，即柜台人员可以理解的语种，如汉语。

32、终端A上的翻译应用调用终端A的相机***侦测到有人脸靠近，当侦测到人脸占据镜头面积达到设定百分比时，静态拍摄或动态截图，以获得旅客的脸部图像。

33、终端A上的翻译应用将旅客的脸部图像上传至服务端，在服务端将脸部图像中的脸部特征与各人种的脸部特征进行比对，以确定旅客可能属于的人种。

脸部特征包括头发颜色、五官之间的距离、脸部宽度、高度等。

34、根据旅客与旅客可能属于的人种的匹配度由高到低的顺序，在终端A上的翻译应用的界面上依次显示旅客可能属于的人种使用的语种，以供旅客选择。例如，依次显示的语种包括日语、英语等。

35、终端A上的翻译应用响应于旅客的选择语种的操作，将翻译应用的输入语种设置为旅客选择的语种，即第一语种。

36、终端A上的翻译应用向终端B上的翻译应用发送通知消息，以指示终端B上的翻译应用将其输出语种设置为第一语种。

37、终端A上的翻译应用在其界面上向旅客展示麦克风图标，以供旅客起送ASR功能，并响应于旅客点击麦克风图标的操作启动ASR功能。

38、终端A上的翻译应用将旅客以第一语种输入的语音信号进行ASR处理，以获得第一语种的文本信号，将第一语种的文本信号上传至服务端以供服务端翻译为第二语种的文本信号并返回，获得第二语种的文本信号。

39、终端A上的翻译应用对第二语种的文本信号进行TTS处理，以获得第二语种的语音信号，并面向柜台人员输出第二语种的语音信号。

40、柜台人员预先设置其终端B上的翻译应用的输入语种为第二语种，即柜台人员使用的语种。

可选的，柜台人员可以手动设置终端B上的翻译应用的输入语种为第二语种。或者，柜台人员可采用类似步骤32-35描述的方式设置其输入语种为第二语种。

41、终端B上的翻译应用通过网络接收终端A上的翻译应用发送的通知消息，基于所述通知消息将其输出语种设置为第一语种，即旅客使用的语种。

42、终端B上的翻译应用在其界面上显示麦克风图标，以供柜台人员启动ASR功能，并响应于柜台人员点击麦克风图标的操作启动ASR功能。

43、终端B上的翻译应用将柜台人员以第二语种输入的语音信号进行ASR处理，以获得第二语种的文本信号，将第二语种的文本信号上传至服务端以供服务端翻译为第一语种的文本信号并返回，获得第一语种的文本信号。

44、终端B上的翻译应用对第一语种的文本信号进行TTS处理，以获得第一语种的语音信号，并面向旅客输出第一语种的语音信号。

经过上述步骤完成完整的即时语音互动翻译过程。其中，步驟31和步驟40在初始设置完成之后可不必再设定。

当有新的旅客时，可重复执行上述步骤32-39描述的动作，完成旅客一侧的语音翻译；对柜台人员来说，可重复执行步骤41-44描述的动作，完成柜台人员一侧的语音翻译。

若同一旅客多次与柜台人员进行语音交流，则只需重复执行步骤37-39描述的动作，即可完成旅客一侧的语音翻译；对柜台人员来说，可重复执行步骤42-44描述的动作，完成柜台人员一侧的语音翻译。

在本实施例中，在柜台人员与旅客进行语音交流的过程中，通过捕获旅客的脸部图像即可设置翻译应用的输入语种，实现了输入语种的自动设置，无需用户手动设置输入语种，输入语种的设置效率较高；另外，柜台人员一侧只需根据旅客一侧发送的通知消息即可设置其输出语种，实现了输出语种的自动设置，无需用户手动设置输出语种，输出语种的设置效率较高，进而提高了整个语音翻译过程的效率。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤104的执行主体可以为设备A；又比如，步骤101和102的执行主体可以为设备A，步骤103和104的执行主体可以为设备B；等等。

图4为本申请又一实施例提供的语音翻译***的结构示意图。如图4所示，该***包括：第一用户的客户端401以及服务端402。

第一用户的客户端401，用于捕获第一用户的脸部图像；根据脸部图像与各人种之间的匹配度，确定候选人种，根据候选人种使用的语种，设置输入语种为第一语种；将第一用户以第一语种输入的语音信号的相关信息上传至服务端402，并根据服务端402返回的翻译结果，输出第二语种的内容，所述第二语种为第一用户的客户端401的输出语种。

服务端402，用于翻译第一用户以第一语种输入的语音信号的相关信息，并将翻译结果返回给第一用户的客户端401。

可选的，第一用户的客户端401可以直接将第一用户以第一语种输入的语音信号上传至服务端402。或者，

第一用户的客户端401可以将第一用户以第一语种输入的语音信号进行ASR处理，获得第一语种的文本信号，将第一语种的文本信号上传至服务端402。相应地，服务端402可以将第一语种的文本信号翻译为第二语种的文本信号并返回给第一用户的客户端401。

关于第一用户的客户端401将第一用户以第一语种输入的语音信号，翻译为第二语种的内容的过程，可参见前述实施例中的相应描述，在此不再赘述。

其中，第一用户的客户端401与服务端402之间可以是无线或有线网络连接。在本实施例中，若第一用户的客户端401通过移动网络与服务端402通信连接，该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax等中的任意一种。在本实施例中，若第一用户的客户端401通过近距离无线网络与服务端402通信连接，该无线网络可以是Wi-Fi、蓝牙、红外等中的任意一种。

进一步，如图4所示，所述语音翻译***还包括：第二用户的客户端403。

第一用户的客户端401还用于：向第二用户的客户端403发送通知消息，以指示第二用户的客户端403将其输出语种设置为第一语种。

第二用户的客户端403，用于根据通知消息，设置其输出语种为第一语种，并将第二用户以第二语种输入的语音信号，翻译为第一语种的内容；第二用户是第一用户的互动用户。

进一步，第二用户的客户端403还用于：将第二用户以第二语种输入的语音信号，翻译为第一语种的内容。

关于第二用户的客户端403将第二用户以第二语种输入的语音信号，翻译为第一语种的内容的过程，可参见前述实施例中的相应描述，在此不再赘述。

在本实施例中，在第一用户与第二用户进行语音交流的过程中，通过捕获旅客的脸部图像即可设置翻译应用的输入语种，实现了输入语种的自动设置，无需用户手动设置输入语种，输入语种的设置效率较高；另外，第二用户一侧只需根据第一用户一侧发送的通知消息即可设置其输出语种，实现了输出语种的自动设置，无需用户手动设置输出语种，输出语种的设置效率较高，进而提高了整个语音翻译过程的效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音翻译方法，其特征在于，包括：

捕获第一用户的脸部图像；

根据所述脸部图像与各人种之间的匹配度，确定候选人种；

根据所述候选人种使用的语种，设置输入语种为第一语种；

2.根据权利要求1所述的方法，其特征在于，所述根据所述脸部图像与各人种之间的匹配度，确定候选人种，包括：

从所述脸部图像中，提取多个脸部特征；

3.根据权利要求1所述的方法，其特征在于，所述根据所述候选人种使用的语种，设置输入语种为第一语种，包括：

设置所述输入语种为所述第一语种。

4.根据权利要求1所述的方法，其特征在于，所述将所述第一用户以所述第一语种输入的语音信号，翻译为第二语种的内容，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第一用户以所述第一语种输入的语音信号，识别为所述第一语种的文本信号之前，还包括：

在语音输入界面上，展示语音输入图标；

6.根据权利要求1-5任一项所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，所述第二用户的客户端将所述第二用户以所述第二语种输入的语音信号，翻译为所述第一语种的内容，包括：

9.一种语音翻译***，其特征在于，包括：第一用户的客户端以及服务端；

10.根据权利要求9所述的***，其特征在于，还包括：第二用户的客户端；