CN106156009A

CN106156009A - 语音翻译方法及装置

Info

Publication number: CN106156009A
Application number: CN201510172421.7A
Authority: CN
Inventors: 张丽竹
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-04-13
Filing date: 2015-04-13
Publication date: 2016-11-23
Also published as: WO2016165590A1

Abstract

本发明公开了一种语音翻译方法，包括步骤：在接收到第一语音数据时，提取所述第一语音数据的声纹特征；确定所提取的声纹特征对应的语言类别；在所提取的声纹特征对应的语言类别是第一语言时，获取预存的第二语言；将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。本发明还公开了一种语音翻译装置。本发明实现通过提取声纹特征准确区别不同语言，并自动将一种语言的语音转换成另一种语言的语音，进而提高沟通的有效性。

Description

语音翻译方法及装置

技术领域

本发明涉及语音翻译技术领域，尤其涉及语音翻译方法及装置。

背景技术

当与使用不同语言的人沟通时，为了直接的、有效的沟通交流，结合语音识别、翻译以及语音合成技术已能将一种语言的语音转换成另一种语言的语音，虽然目前语音识别技术已拥有对多数语言的识别模型，但是现有的语音翻译软件或设备在沟通前都需要用户手动切换源语言和目标语言来进行相应的语音识别和翻译，无法通过语音识别来准确区别不同语言，进而导致沟通效率低。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种语音翻译方法及装置，旨在解决现有的语音翻译软件或设备无法通过语音识别来准确区别不同语言，进而导致沟通效率低的问题。

为实现上述目的，本发明提供的一种语音翻译方法，包括步骤：

在接收到第一语音数据时，提取所述第一语音数据的声纹特征；

确定所提取的声纹特征对应的语言类别；

在所提取的声纹特征对应的语言类别是第一语言时，获取预存的第二语言；

将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。

优选地，所述确定所提取的声纹特征对应的语言类别的步骤包括：

判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配；

在所提取的声纹特征与预存的第一语言的声纹特征匹配时，确定所提取的声纹特征对应的语言类别是第一语言；

在所提取的声纹特征与预存的第一语言的声纹特征不匹配时，确定所提取的声纹特征对应的语言类别是第二语言。

优选地，所述将所述第一语音数据由第一语言转换成所述第二语言对应的第二语音数据的步骤包括：

根据第一语言将所述第一语音数据转换成所述第一语言对应的第一文本数据；

将所述第一文本数据翻译成所述第二语言对应的第二文本数据；

将所述第二文本数据合成第二语音数据。

优选地，所述将所述第一语音数据由第一语言转换成所述第二语言对应的第二语音数据的步骤之后，还包括：

输出所述第二语音数据。

优选地，所述在接收到第一语音数据时，提取所述第一语音数据的声纹特征的步骤之前，还包括：

接收第一语言和第二语言的设置指令；

根据所述设置指令提供语言类别的选择界面，以供用户选择第一语言和第二语言；

在所述用户选择第一语言和第二语言时，保存所述第一语言和第二语言；

提取所述第一语言对应语音数据的声纹特征，并保存所述声纹特征。

此外，为实现上述目的，本发明还提供一种语音翻译装置，包括：

提取模块，用于在接收到第一语音数据时，提取所述第一语音数据的声纹特征；

确定模块，用于确定所提取的声纹特征对应的语言类别；

获取模块，用于在所提取的声纹特征对应的语言类别是第一语言时，获取预存的第二语言；

转换模块，用于将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。

优选地，所述确定模块包括判断单元和确定单元，

所述判断单元，用于判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配；

所述确定单元，用于在所提取的声纹特征与预存的第一语言的声纹特征匹配时，确定所提取的声纹特征对应的语言类别是第一语言；还用于在所提取的声纹特征与预存的第一语言的声纹特征不匹配时，确定所提取的声纹特征对应的语言类别是第二语言。

优选地，所述转换模块包括转换单元、翻译单元和合成单元，

所述转换单元，用于根据第一语言将所述第一语音数据转换成所述第一语言对应的第一文本数据；

所述翻译单元，用于将所述第一文本数据翻译成所述第二语言对应的第二文本数据；

所述合成单元，用于将所述第二文本数据合成第二语音数据。

优选地，所述语音翻译装置还包括输出模块，用于输出所述第二语音数据。

优选地，所述语音翻译装置还包括接收模块、提供模块和保存模块，

所述接收模块，用于接收第一语言和第二语言的设置指令；

所述提供模块，用于根据所述设置指令提供语言类别的选择界面，以供用户选择第一语言和第二语言；

所述保存模块，用于在所述用户选择第一语言和第二语言时，保存所述第一语言和第二语言；还用于保存所述第一语言的声纹特征；

所述提取模块，还用于提取所述第一语言对应语音数据的声纹特征。

相对现有技术，本发明通过接收语音数据，提取所述语音数据对应的声纹特征，确定所提取的声纹特征对应的语言类别，在所提取的声纹特征对应的语言类别是第一语言时，获取预存的第二语言；将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。实现准确区别不同语言，并自动将一种语言的语音转换成另一种语言的语音，进而提高沟通的有效性。

附图说明

图1为本发明语音翻译方法的第一实施例的流程示意图；

图2为图1中步骤S40一实施例的细化流程示意图；

图3为本发明语音翻译方法的第二实施例的流程示意图；

图4为本发明语音翻译方法的第三实施例的流程示意图；

图5为本发明语音翻译装置的第一实施例的功能模块示意图；

图6为图5中确定模块一实施例的细化功能模块示意图；

图7为图5中转换模块一实施例的细化功能模块示意图；

图8为本发明语音翻译装置的第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：在接收到第一语音数据时，提取所述第一语音数据的声纹特征；确定所提取的声纹特征对应的语言类别；在所提取的声纹特征对应的语言类别是第一语言时，获取预存的第二语言；将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。有效避免现有的语音翻译软件或设备无法通过语音识别来准确区别不同语言，进而导致沟通效率低的问题。实现通过语音识别准确地区别不同语言，并自动将一种语言的语音转换成另一种语言的语音，进而提高沟通的有效性。

由于现有的语音翻译软件或设备无法通过语音识别来准确区别不同语言，进而导致沟通效率低。

基于上述问题，本发明提供一种语音翻译方法。

参照图1，图1为本发明语音翻译方法的第一实施例的流程示意图。

在一实施例中，所述语音翻译方法包括：

步骤S10，在接收到第一语音数据时，提取所述第一语音数据的声纹特征；

实时接收语音数据，对接收到的语音数据进行声纹特征提取，所述声纹特征的提取可以在会话过程中提取，可以根据选择语言的不同而侧重点不同，如语言中有方言或中、英文识别等，也可以侧重提取辨别说话人的口音、发音方式等。所述声纹特征的提取可以通过对所述第一语音数据进行预处理，所述预处理是对所述第一语音数据进行采样、量化、预加重和加窗等，将原始的第一语音数据转化成N维的特征矢量，从而提取到所述第一语音数据的声纹特征。所述接收第一语音数据的方式可以通过麦克风接收或蓝牙耳机接收等不限于其他接收方式。

步骤S20，确定所提取的声纹特征对应的语言类别；

根据提取到的声纹特征建立声纹模型，判断所述声纹模型是否与预存的语言类别的声纹模型匹配。所述声纹特征模型可以根据设置语言的不同，选择不同的声纹特征模型，适当增加与特定语种相关的某些声纹特征比重。

步骤S30，在所提取的声纹特征对应的语言类别是第一语言时，获取预存的第二语言；

判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配。在所提取的声纹特征与预存的第一语言的声纹特征匹配时，获取该对话场景中的另一种语音作为第二语言；在所提取的声纹特征与预存的第一语言的声纹特征不匹配时，判断所提取的声纹特征对应的语言类别是第二语言。以一中文和英文的对话场景为例，在所述对话场景中第一语言为中文，第二语言为英文，在提取语音数据的声纹特征后，判断所提取的声纹特征是否与预存的中文的声纹特征匹配。在所提取的声纹特征与预存的中文的声纹特征匹配时，判断所提取的声纹特征对应的语言类别是中文，那么所述对话场景中另一种语音即为英文。在所提取的声纹特征与预存的中文的声纹特征不匹配时，所述声纹特征对应的语言类别是英文，那么所述对话场景中另一种语音即为中文。

步骤S40，将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。

在确定第一语言和第二语言后，将所述第一语言、第二语言和第一语音数据传送到云端服务器，以供云端服务器对所述第一语音数据进行处理，根据第一语言将所述第一语音数据转换成第二语言对应的第二语音数据。对接收到的语音数据的处理也可以部分在云端服务器处理，部分在本地处理。

具体的，参考图2，将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据的过程可以是：

步骤S41，根据第一语言将所述第一语音数据转换成所述第一语言对应的第一文本数据；

步骤S42，将所述第一文本数据翻译成所述第二语言对应的第二文本数据；

步骤S43，将所述第二文本数据合成第二语音数据。

在本实施例中，以所述第一语言是中文，第二语言是英文为例，在获取中文、英文后，根据中文将所述中文语音数据转换成中文文本数据；将所述中文文本数据翻译成英文文本数据；可以在界面显示转换成的中文文本数据和英文文本数据，最后将所述英文文本数据合成英文语音数据。

本实施例在接收到第一语音数据时，提取所述第一语音数据的声纹特征；确定所提取的声纹特征对应的语言类别；在所提取的声纹特征对应的语言类别是第一语言时，获取预存的第二语言；将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。实现通过语音识别准确区别不同语言，并自动将一种语言的语音转换成另一种语言的语音，进而提高沟通的有效性。

参照图3，图3为本发明语音翻译方法的第二实施例的流程示意图。基于上述方法的第一实施例，所述步骤S20包括：

步骤S21，判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配；

步骤S22，在所提取的声纹特征与预存的第一语言的声纹特征匹配时，确定所提取的声纹特征对应的语言类别是第一语言；

步骤S23，在所提取的声纹特征与预存的第一语言的声纹特征不匹配时，确定所提取的声纹特征对应的语言类别是第二语言。

判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配，若所提取的声纹特征与预存的第一语言的声纹特征匹配，则所述第一语音数据对应的语言类别是第一语言，第二语言即为该对话场景中的另一种语音。否则，所述第一语音数据对应的语言类别为第二语言。在获取第一语言和第二语言时，显示所述第一语言和第二语言，以供用户辨别所述第一语言和第二语言是否有误。所述显示第一语言和第二语言的方式可以是语音播报当前第一语言和第二语言、高亮显示当前第一语言和第二语言等显示方式，根据用户的需要及/或***的性能设置。在用户辨别所述第一语言和第二语言有误时，接收重新设置第一语言和第二语言的指令；根据所述指令提供语言类别的选择界面，以供用户选择第一语言和第二语言；在所述用户选择第一语言和第二语言时，保存第一语言和第二语言。接收第一语言所对应的第一语音数据，并提取所述第一语音数据的声纹特征，保存所述第一语言的声纹特征。在保存所述声纹特征后，调整并更新原有的声纹特征。再次接收到语音数据时，提取所述语音数据的声纹特征，判断所述声纹特征是否与更新后的声纹特征匹配。

进一步，所述步骤S40之后，还包括：

步骤S50，输出所述第二语音数据。

所述输出所述第二语音数据可以直接通过扬声器输出或者耳机输出，根据用户的需要及/或***的性能设置。

本实施例通过判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配；在所提取的声纹特征与预存的第一语言的声纹特征匹配时，确定所述声纹特征对应的语言类别是第一语言。通过声纹特征确定所述声纹特征对应的语言类别，提高识别的准确性，进一步提高沟通的有效性。

参照图4，图4为本发明语音翻译方法的第三实施例的流程示意图。基于上述方法的第一实施例，所述步骤S10之前，还包括：

步骤S60，接收第一语言和第二语言的设置指令；

步骤S70，根据所述设置指令提供语言类别的选择界面，以供用户选择第一语言和第二语言；

步骤S80，在所述用户选择第一语言和第二语言时，保存所述第一语言和第二语言；

步骤S90，提取所述第一语言对应语音数据的声纹特征，并保存所述声纹特征。

接收第一语言和第二语言的设置指令可以在对话的起始阶段，在接收到第一语言和第二语言的设置指令时，根据所述设置指令提供语言类别的选择界面，以供用户选择第一语言和第二语言；在所述用户选择第一语言和第二语言时，保存第一语言和第二语言。也可以通过语音的方式来选择第一语言和第二语言，根据用户的需要及/或***的性能设置。在保存第一语言和第二语言后，接收所述第一语言对应的第一语音数据，提取所述第一语音数据的声纹特征，保存所述声纹特征。所述第一、第二语言可以是中文、英文等，也可以根据地域名称，例如广东、加拿大等，如果设置的是地域名称，可以本地预存地域名称与当地主要语言类别对应的声纹特征。

在本发明其他实施例中，所述语音翻译方法还可以是：在多语言会议下，例如，有A、B、C、D四种语言，在会议中，提供界面以供用户选择自己的语言，在用户选择自己的语言后，通过传输模块的蓝牙或Wi-Fi等传送到云端服务器。在云端服务器中预存A、B、C、D四种语言以及四种语言对应的声纹特征。在接收到语音数据时，提取所述语音数据的声纹特征，判断所提取的声纹特征是否与预存的语言类别的声纹特征匹配。以所提取的声纹特征与预存的A语言的声纹特征匹配为例，在所提取的声纹特征与预存的A语言的声纹特征匹配时，确定所提取的声纹特征对应的语言类别是A语言。从云端服务器中获取预存B、C、D三种语言，根据A语言将接收到的语音数据转换成A语言对应的A文本数据，再将A文本数据翻译成B文本数据、C文本数据、D文本数据，将B文本数据转换成B语音数据，C文本数据转换成C语音数据，D文本数据转换成D语音数据，最后通过传输模块的蓝牙或Wi-Fi等传送到使用B、C、D语言对应的用户的扬声器或耳机。有效避免现有的语音翻译软件或设备无法通过语音识别来准确区别不同语言，进而导致沟通效率低的问题。实现通过语音识别准确地区别不同语言，并自动将一种语言的语音转换成另一种语言的语音，进而提高沟通的有效性。

本实施例通过预存第一语言、第二语言以及第一语言的声纹特征，在接收到语音数据时，可以提取所述语音数据的声纹特征，根据第一语言的声纹特征与所述第一语言的对应关系可以确定所述声纹特征对应的语言类别，通过语音识别准确地区别不同语言，进而提高沟通的有效性。

上述第一至第三实施例的语音翻译方法的执行主体均可以为语音翻译设备或与语音翻译设备信号连接的翻译设备。更进一步地，该语音翻译方法可以由安装在语音翻译设备或设备上的客户端翻译程序实现，其中，所述语音翻译设备包括但不限于手机、pad、笔记本电脑等。

本发明进一步提供一种语音翻译装置。

参照图5，图5为本发明语音翻译装置的第一实施例的功能模块示意图。

在一实施例中，所述语音翻译装置包括：提取模块10、确定模块20、获取模块30和转换模块40。

提取模块10，用于在接收到第一语音数据时，提取所述第一语音数据的声纹特征；

确定模块20，用于确定所提取的声纹特征对应的语言类别；

具体的，参考图6，所述确定模块20包括判断单元21和确定单元22，

所述判断单元21，用于判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配；

所述确定单元22，用于在所提取的声纹特征与预存的第一语言的声纹特征匹配时，确定所提取的声纹特征对应的语言类别是第一语言；还用于在所提取的声纹特征与预存的第一语言的声纹特征不匹配时，确定所提取的声纹特征对应的语言类别是第二语言。

判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配，若所提取的声纹特征与预存的第一语言的声纹特征匹配，则所述第一语音数据对应的语言类别是第一语言，第二语言即为该对话场景中的另一种语音。否则，所述第一语音数据对应的语言类别为第二语言。在获取第一语言和第二语言时，显示所述第一语言和第二语言，以供用户辨别所述第一语言和第二语言是否有误。所述显示第一语言和第二语言的方式可以是语音播报当前第一语言和第二语言、高亮显示当前第一语言和第二语言等显示方式，根据用户的需要及/或***的性能设置。在用户辨别所述第一语言和第二语言有误时，接收重新设置第一语言和第二语言的指令；根据所述指令提供语言类别的选择界面，以供用户选择第一语言和第二语言；在所述用户选择第一语言和第二语言时，保存第一语言和第二语言。接收第一语言所对应的第一语音数据，并提取所述第一语音数据的声纹特征，保存所述声纹特征。在保存所述声纹特征后，调整并更新原有的声纹特征。再次接收到语音数据时，提取所述语音数据的声纹特征，判断所述声纹特征是否与更新后的声纹特征匹配。

获取模块30，用于在所提取的声纹特征对应的语言类别是第一语言时，获取预存的第二语言；

判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配。在所提取的声纹特征与预存的第一语言的声纹特征匹配时，获取该对话场景中的另一种语音作为第二语言；在所提取的声纹特征与预存的第一语言的声纹特征不匹配时，判断所提取的声纹特征对应的语言类别是第二语言。以一中文和英文的对话场景为例，在所述对话场景中第一语言为中文，第二语言为英文，在提取语音数据的声纹特征后，判断所提取的声纹特征是否与预存的中文的声纹特征匹配。在所提取的声纹特征与预存的中文的声纹特征匹配时，判断所提取的声纹特征对应的语言类别是中文，那么所述对话场景中另一种语音即为英文。在所提取的声纹特征与预存的中文的声纹特征不匹配时，所提取的声纹特征对应的语言类别是英文，那么所述对话场景中另一种语音即为中文。

转换模块40，用于将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。

具体的，参考图7，所述转换模块40包括转换单元41、翻译单元42和合成单元43，

所述转换单元41，用于根据第一语言将所述第一语音数据转换成所述第一语言对应的第一文本数据；

所述翻译单元42，用于将所述第一文本数据翻译成所述第二语言对应的第二文本数据；

所述合成单元43，用于将所述第二文本数据合成第二语音数据。

本实施例在接收到第一语音数据时，提取所述第一语音数据的声纹特征；确定所提取声纹特征对应的语言类别；在确定所提取声纹特征对应的语言类别是第一语言时，获取预存的第二语言；将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。实现通过语音识别准确区别不同语言，进而提高沟通的有效性。

参照图8，图8为本发明语音翻译装置的第二实施例的功能模块示意图。

基于上述第一实施例，本实施例所述语音翻译装置还包括输出模块50、接收模块60、提供模块70和保存模块80。

所述输出模块50，用于输出所述第二语音数据。

所述接收模块60，用于接收第一语言和第二语言的设置指令；

所述提供模块70，用于根据所述设置指令提供语言类别的选择界面，以供用户选择第一语言和第二语言；

所述保存模块80，用于在所述用户选择第一语言和第二语言时，保存所述第一语言和第二语言；还用于保存所述第一语言的声纹特征；

所述提取模块10，还用于提取第一语言对应语音数据的声纹特征。

本实施例通过预存第一语言、第二语言以及第一语言的声纹特征，在接收到语音数据时，可以提取所述语音数据的声纹特征，根据第一语言的声纹特征与所述第一语言的对应关系可以确定所述声纹特征对应的语言类别，准确的区别不同语言，提高沟通的有效性。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音翻译方法，其特征在于，包括步骤：

确定所提取的声纹特征对应的语言类别；

2.如权利要求1所述的语音翻译方法，其特征在于，所述确定所提取的声纹特征对应的语言类别的步骤包括：

3.如权利要求1所述的语音翻译方法，其特征在于，所述将所述第一语音数据由第一语言转换成所述第二语言对应的第二语音数据的步骤包括：

将所述第二文本数据合成第二语音数据。

4.如权利要求3所述的语音翻译方法，其特征在于，所述将所述第一语音数据由第一语言转换成所述第二语言对应的第二语音数据的步骤之后，还包括：

输出所述第二语音数据。

5.如权利要求1至4中任一项所述的语音翻译方法，其特征在于，所述在接收到第一语音数据时，提取所述第一语音数据的声纹特征的步骤之前，还包括：

接收第一语言和第二语言的设置指令；

提取所述第一语言对应语音数据的声纹特征，并保存所述第一语言的声纹特征。

6.一种语音翻译装置，其特征在于，包括：

确定模块，用于确定所提取的声纹特征对应的语言类别；

7.如权利要求6所述的语音翻译装置，其特征在于，所述确定模块包括判断单元和确定单元，

8.如权利要求6所述的语音翻译装置，其特征在于，所述转换模块包括转换单元、翻译单元和合成单元，

9.如权利要求6所述的语音翻译装置，其特征在于，所述语音翻译装置还包括输出模块，用于输出所述第二语音数据。

10.如权利要求6至9任一项所述的语音翻译装置，其特征在于，所述语音翻译装置还包括接收模块、提供模块和保存模块，

所述接收模块，用于接收第一语言和第二语言的设置指令；

所述提取模块，还用于提取第一语言对应语音数据的声纹特征。