CN106156009A - 语音翻译方法及装置 - Google Patents
语音翻译方法及装置 Download PDFInfo
- Publication number
- CN106156009A CN106156009A CN201510172421.7A CN201510172421A CN106156009A CN 106156009 A CN106156009 A CN 106156009A CN 201510172421 A CN201510172421 A CN 201510172421A CN 106156009 A CN106156009 A CN 106156009A
- Authority
- CN
- China
- Prior art keywords
- language
- vocal print
- print feature
- speech data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音翻译方法,包括步骤:在接收到第一语音数据时,提取所述第一语音数据的声纹特征;确定所提取的声纹特征对应的语言类别;在所提取的声纹特征对应的语言类别是第一语言时,获取预存的第二语言;将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。本发明还公开了一种语音翻译装置。本发明实现通过提取声纹特征准确区别不同语言,并自动将一种语言的语音转换成另一种语言的语音,进而提高沟通的有效性。
Description
技术领域
本发明涉及语音翻译技术领域,尤其涉及语音翻译方法及装置。
背景技术
当与使用不同语言的人沟通时,为了直接的、有效的沟通交流,结合语音识别、翻译以及语音合成技术已能将一种语言的语音转换成另一种语言的语音,虽然目前语音识别技术已拥有对多数语言的识别模型,但是现有的语音翻译软件或设备在沟通前都需要用户手动切换源语言和目标语言来进行相应的语音识别和翻译,无法通过语音识别来准确区别不同语言,进而导致沟通效率低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种语音翻译方法及装置,旨在解决现有的语音翻译软件或设备无法通过语音识别来准确区别不同语言,进而导致沟通效率低的问题。
为实现上述目的,本发明提供的一种语音翻译方法,包括步骤:
在接收到第一语音数据时,提取所述第一语音数据的声纹特征;
确定所提取的声纹特征对应的语言类别;
在所提取的声纹特征对应的语言类别是第一语言时,获取预存的第二语言;
将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。
优选地,所述确定所提取的声纹特征对应的语言类别的步骤包括:
判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配;
在所提取的声纹特征与预存的第一语言的声纹特征匹配时,确定所提取的声纹特征对应的语言类别是第一语言;
在所提取的声纹特征与预存的第一语言的声纹特征不匹配时,确定所提取的声纹特征对应的语言类别是第二语言。
优选地,所述将所述第一语音数据由第一语言转换成所述第二语言对应的第二语音数据的步骤包括:
根据第一语言将所述第一语音数据转换成所述第一语言对应的第一文本数据;
将所述第一文本数据翻译成所述第二语言对应的第二文本数据;
将所述第二文本数据合成第二语音数据。
优选地,所述将所述第一语音数据由第一语言转换成所述第二语言对应的第二语音数据的步骤之后,还包括:
输出所述第二语音数据。
优选地,所述在接收到第一语音数据时,提取所述第一语音数据的声纹特征的步骤之前,还包括:
接收第一语言和第二语言的设置指令;
根据所述设置指令提供语言类别的选择界面,以供用户选择第一语言和第二语言;
在所述用户选择第一语言和第二语言时,保存所述第一语言和第二语言;
提取所述第一语言对应语音数据的声纹特征,并保存所述声纹特征。
此外,为实现上述目的,本发明还提供一种语音翻译装置,包括:
提取模块,用于在接收到第一语音数据时,提取所述第一语音数据的声纹特征;
确定模块,用于确定所提取的声纹特征对应的语言类别;
获取模块,用于在所提取的声纹特征对应的语言类别是第一语言时,获取预存的第二语言;
转换模块,用于将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。
优选地,所述确定模块包括判断单元和确定单元,
所述判断单元,用于判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配;
所述确定单元,用于在所提取的声纹特征与预存的第一语言的声纹特征匹配时,确定所提取的声纹特征对应的语言类别是第一语言;还用于在所提取的声纹特征与预存的第一语言的声纹特征不匹配时,确定所提取的声纹特征对应的语言类别是第二语言。
优选地,所述转换模块包括转换单元、翻译单元和合成单元,
所述转换单元,用于根据第一语言将所述第一语音数据转换成所述第一语言对应的第一文本数据;
所述翻译单元,用于将所述第一文本数据翻译成所述第二语言对应的第二文本数据;
所述合成单元,用于将所述第二文本数据合成第二语音数据。
优选地,所述语音翻译装置还包括输出模块,用于输出所述第二语音数据。
优选地,所述语音翻译装置还包括接收模块、提供模块和保存模块,
所述接收模块,用于接收第一语言和第二语言的设置指令;
所述提供模块,用于根据所述设置指令提供语言类别的选择界面,以供用户选择第一语言和第二语言;
所述保存模块,用于在所述用户选择第一语言和第二语言时,保存所述第一语言和第二语言;还用于保存所述第一语言的声纹特征;
所述提取模块,还用于提取所述第一语言对应语音数据的声纹特征。
相对现有技术,本发明通过接收语音数据,提取所述语音数据对应的声纹特征,确定所提取的声纹特征对应的语言类别,在所提取的声纹特征对应的语言类别是第一语言时,获取预存的第二语言;将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。实现准确区别不同语言,并自动将一种语言的语音转换成另一种语言的语音,进而提高沟通的有效性。
附图说明
图1为本发明语音翻译方法的第一实施例的流程示意图;
图2为图1中步骤S40一实施例的细化流程示意图;
图3为本发明语音翻译方法的第二实施例的流程示意图;
图4为本发明语音翻译方法的第三实施例的流程示意图;
图5为本发明语音翻译装置的第一实施例的功能模块示意图;
图6为图5中确定模块一实施例的细化功能模块示意图;
图7为图5中转换模块一实施例的细化功能模块示意图;
图8为本发明语音翻译装置的第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:在接收到第一语音数据时,提取所述第一语音数据的声纹特征;确定所提取的声纹特征对应的语言类别;在所提取的声纹特征对应的语言类别是第一语言时,获取预存的第二语言;将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。有效避免现有的语音翻译软件或设备无法通过语音识别来准确区别不同语言,进而导致沟通效率低的问题。实现通过语音识别准确地区别不同语言,并自动将一种语言的语音转换成另一种语言的语音,进而提高沟通的有效性。
由于现有的语音翻译软件或设备无法通过语音识别来准确区别不同语言,进而导致沟通效率低。
基于上述问题,本发明提供一种语音翻译方法。
参照图1,图1为本发明语音翻译方法的第一实施例的流程示意图。
在一实施例中,所述语音翻译方法包括:
步骤S10,在接收到第一语音数据时,提取所述第一语音数据的声纹特征;
实时接收语音数据,对接收到的语音数据进行声纹特征提取,所述声纹特征的提取可以在会话过程中提取,可以根据选择语言的不同而侧重点不同,如语言中有方言或中、英文识别等,也可以侧重提取辨别说话人的口音、发音方式等。所述声纹特征的提取可以通过对所述第一语音数据进行预处理,所述预处理是对所述第一语音数据进行采样、量化、预加重和加窗等,将原始的第一语音数据转化成N维的特征矢量,从而提取到所述第一语音数据的声纹特征。所述接收第一语音数据的方式可以通过麦克风接收或蓝牙耳机接收等不限于其他接收方式。
步骤S20,确定所提取的声纹特征对应的语言类别;
根据提取到的声纹特征建立声纹模型,判断所述声纹模型是否与预存的语言类别的声纹模型匹配。所述声纹特征模型可以根据设置语言的不同,选择不同的声纹特征模型,适当增加与特定语种相关的某些声纹特征比重。
步骤S30,在所提取的声纹特征对应的语言类别是第一语言时,获取预存的第二语言;
判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配。在所提取的声纹特征与预存的第一语言的声纹特征匹配时,获取该对话场景中的另一种语音作为第二语言;在所提取的声纹特征与预存的第一语言的声纹特征不匹配时,判断所提取的声纹特征对应的语言类别是第二语言。以一中文和英文的对话场景为例,在所述对话场景中第一语言为中文,第二语言为英文,在提取语音数据的声纹特征后,判断所提取的声纹特征是否与预存的中文的声纹特征匹配。在所提取的声纹特征与预存的中文的声纹特征匹配时,判断所提取的声纹特征对应的语言类别是中文,那么所述对话场景中另一种语音即为英文。在所提取的声纹特征与预存的中文的声纹特征不匹配时,所述声纹特征对应的语言类别是英文,那么所述对话场景中另一种语音即为中文。
步骤S40,将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。
在确定第一语言和第二语言后,将所述第一语言、第二语言和第一语音数据传送到云端服务器,以供云端服务器对所述第一语音数据进行处理,根据第一语言将所述第一语音数据转换成第二语言对应的第二语音数据。对接收到的语音数据的处理也可以部分在云端服务器处理,部分在本地处理。
具体的,参考图2,将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据的过程可以是:
步骤S41,根据第一语言将所述第一语音数据转换成所述第一语言对应的第一文本数据;
步骤S42,将所述第一文本数据翻译成所述第二语言对应的第二文本数据;
步骤S43,将所述第二文本数据合成第二语音数据。
在本实施例中,以所述第一语言是中文,第二语言是英文为例,在获取中文、英文后,根据中文将所述中文语音数据转换成中文文本数据;将所述中文文本数据翻译成英文文本数据;可以在界面显示转换成的中文文本数据和英文文本数据,最后将所述英文文本数据合成英文语音数据。
本实施例在接收到第一语音数据时,提取所述第一语音数据的声纹特征;确定所提取的声纹特征对应的语言类别;在所提取的声纹特征对应的语言类别是第一语言时,获取预存的第二语言;将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。实现通过语音识别准确区别不同语言,并自动将一种语言的语音转换成另一种语言的语音,进而提高沟通的有效性。
参照图3,图3为本发明语音翻译方法的第二实施例的流程示意图。基于上述方法的第一实施例,所述步骤S20包括:
步骤S21,判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配;
步骤S22,在所提取的声纹特征与预存的第一语言的声纹特征匹配时,确定所提取的声纹特征对应的语言类别是第一语言;
步骤S23,在所提取的声纹特征与预存的第一语言的声纹特征不匹配时,确定所提取的声纹特征对应的语言类别是第二语言。
判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配,若所提取的声纹特征与预存的第一语言的声纹特征匹配,则所述第一语音数据对应的语言类别是第一语言,第二语言即为该对话场景中的另一种语音。否则,所述第一语音数据对应的语言类别为第二语言。在获取第一语言和第二语言时,显示所述第一语言和第二语言,以供用户辨别所述第一语言和第二语言是否有误。所述显示第一语言和第二语言的方式可以是语音播报当前第一语言和第二语言、高亮显示当前第一语言和第二语言等显示方式,根据用户的需要及/或***的性能设置。在用户辨别所述第一语言和第二语言有误时,接收重新设置第一语言和第二语言的指令;根据所述指令提供语言类别的选择界面,以供用户选择第一语言和第二语言;在所述用户选择第一语言和第二语言时,保存第一语言和第二语言。接收第一语言所对应的第一语音数据,并提取所述第一语音数据的声纹特征,保存所述第一语言的声纹特征。在保存所述声纹特征后,调整并更新原有的声纹特征。再次接收到语音数据时,提取所述语音数据的声纹特征,判断所述声纹特征是否与更新后的声纹特征匹配。
进一步,所述步骤S40之后,还包括:
步骤S50,输出所述第二语音数据。
所述输出所述第二语音数据可以直接通过扬声器输出或者耳机输出,根据用户的需要及/或***的性能设置。
本实施例通过判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配;在所提取的声纹特征与预存的第一语言的声纹特征匹配时,确定所述声纹特征对应的语言类别是第一语言。通过声纹特征确定所述声纹特征对应的语言类别,提高识别的准确性,进一步提高沟通的有效性。
参照图4,图4为本发明语音翻译方法的第三实施例的流程示意图。基于上述方法的第一实施例,所述步骤S10之前,还包括:
步骤S60,接收第一语言和第二语言的设置指令;
步骤S70,根据所述设置指令提供语言类别的选择界面,以供用户选择第一语言和第二语言;
步骤S80,在所述用户选择第一语言和第二语言时,保存所述第一语言和第二语言;
步骤S90,提取所述第一语言对应语音数据的声纹特征,并保存所述声纹特征。
接收第一语言和第二语言的设置指令可以在对话的起始阶段,在接收到第一语言和第二语言的设置指令时,根据所述设置指令提供语言类别的选择界面,以供用户选择第一语言和第二语言;在所述用户选择第一语言和第二语言时,保存第一语言和第二语言。也可以通过语音的方式来选择第一语言和第二语言,根据用户的需要及/或***的性能设置。在保存第一语言和第二语言后,接收所述第一语言对应的第一语音数据,提取所述第一语音数据的声纹特征,保存所述声纹特征。所述第一、第二语言可以是中文、英文等,也可以根据地域名称,例如广东、加拿大等,如果设置的是地域名称,可以本地预存地域名称与当地主要语言类别对应的声纹特征。
在本发明其他实施例中,所述语音翻译方法还可以是:在多语言会议下,例如,有A、B、C、D四种语言,在会议中,提供界面以供用户选择自己的语言,在用户选择自己的语言后,通过传输模块的蓝牙或Wi-Fi等传送到云端服务器。在云端服务器中预存A、B、C、D四种语言以及四种语言对应的声纹特征。在接收到语音数据时,提取所述语音数据的声纹特征,判断所提取的声纹特征是否与预存的语言类别的声纹特征匹配。以所提取的声纹特征与预存的A语言的声纹特征匹配为例,在所提取的声纹特征与预存的A语言的声纹特征匹配时,确定所提取的声纹特征对应的语言类别是A语言。从云端服务器中获取预存B、C、D三种语言,根据A语言将接收到的语音数据转换成A语言对应的A文本数据,再将A文本数据翻译成B文本数据、C文本数据、D文本数据,将B文本数据转换成B语音数据,C文本数据转换成C语音数据,D文本数据转换成D语音数据,最后通过传输模块的蓝牙或Wi-Fi等传送到使用B、C、D语言对应的用户的扬声器或耳机。有效避免现有的语音翻译软件或设备无法通过语音识别来准确区别不同语言,进而导致沟通效率低的问题。实现通过语音识别准确地区别不同语言,并自动将一种语言的语音转换成另一种语言的语音,进而提高沟通的有效性。
本实施例通过预存第一语言、第二语言以及第一语言的声纹特征,在接收到语音数据时,可以提取所述语音数据的声纹特征,根据第一语言的声纹特征与所述第一语言的对应关系可以确定所述声纹特征对应的语言类别,通过语音识别准确地区别不同语言,进而提高沟通的有效性。
上述第一至第三实施例的语音翻译方法的执行主体均可以为语音翻译设备或与语音翻译设备信号连接的翻译设备。更进一步地,该语音翻译方法可以由安装在语音翻译设备或设备上的客户端翻译程序实现,其中,所述语音翻译设备包括但不限于手机、pad、笔记本电脑等。
本发明进一步提供一种语音翻译装置。
参照图5,图5为本发明语音翻译装置的第一实施例的功能模块示意图。
在一实施例中,所述语音翻译装置包括:提取模块10、确定模块20、获取模块30和转换模块40。
提取模块10,用于在接收到第一语音数据时,提取所述第一语音数据的声纹特征;
实时接收语音数据,对接收到的语音数据进行声纹特征提取,所述声纹特征的提取可以在会话过程中提取,可以根据选择语言的不同而侧重点不同,如语言中有方言或中、英文识别等,也可以侧重提取辨别说话人的口音、发音方式等。所述声纹特征的提取可以通过对所述第一语音数据进行预处理,所述预处理是对所述第一语音数据进行采样、量化、预加重和加窗等,将原始的第一语音数据转化成N维的特征矢量,从而提取到所述第一语音数据的声纹特征。所述接收第一语音数据的方式可以通过麦克风接收或蓝牙耳机接收等不限于其他接收方式。
确定模块20,用于确定所提取的声纹特征对应的语言类别;
根据提取到的声纹特征建立声纹模型,判断所述声纹模型是否与预存的语言类别的声纹模型匹配。所述声纹特征模型可以根据设置语言的不同,选择不同的声纹特征模型,适当增加与特定语种相关的某些声纹特征比重。
具体的,参考图6,所述确定模块20包括判断单元21和确定单元22,
所述判断单元21,用于判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配;
所述确定单元22,用于在所提取的声纹特征与预存的第一语言的声纹特征匹配时,确定所提取的声纹特征对应的语言类别是第一语言;还用于在所提取的声纹特征与预存的第一语言的声纹特征不匹配时,确定所提取的声纹特征对应的语言类别是第二语言。
判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配,若所提取的声纹特征与预存的第一语言的声纹特征匹配,则所述第一语音数据对应的语言类别是第一语言,第二语言即为该对话场景中的另一种语音。否则,所述第一语音数据对应的语言类别为第二语言。在获取第一语言和第二语言时,显示所述第一语言和第二语言,以供用户辨别所述第一语言和第二语言是否有误。所述显示第一语言和第二语言的方式可以是语音播报当前第一语言和第二语言、高亮显示当前第一语言和第二语言等显示方式,根据用户的需要及/或***的性能设置。在用户辨别所述第一语言和第二语言有误时,接收重新设置第一语言和第二语言的指令;根据所述指令提供语言类别的选择界面,以供用户选择第一语言和第二语言;在所述用户选择第一语言和第二语言时,保存第一语言和第二语言。接收第一语言所对应的第一语音数据,并提取所述第一语音数据的声纹特征,保存所述声纹特征。在保存所述声纹特征后,调整并更新原有的声纹特征。再次接收到语音数据时,提取所述语音数据的声纹特征,判断所述声纹特征是否与更新后的声纹特征匹配。
获取模块30,用于在所提取的声纹特征对应的语言类别是第一语言时,获取预存的第二语言;
判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配。在所提取的声纹特征与预存的第一语言的声纹特征匹配时,获取该对话场景中的另一种语音作为第二语言;在所提取的声纹特征与预存的第一语言的声纹特征不匹配时,判断所提取的声纹特征对应的语言类别是第二语言。以一中文和英文的对话场景为例,在所述对话场景中第一语言为中文,第二语言为英文,在提取语音数据的声纹特征后,判断所提取的声纹特征是否与预存的中文的声纹特征匹配。在所提取的声纹特征与预存的中文的声纹特征匹配时,判断所提取的声纹特征对应的语言类别是中文,那么所述对话场景中另一种语音即为英文。在所提取的声纹特征与预存的中文的声纹特征不匹配时,所提取的声纹特征对应的语言类别是英文,那么所述对话场景中另一种语音即为中文。
转换模块40,用于将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。
在确定第一语言和第二语言后,将所述第一语言、第二语言和第一语音数据传送到云端服务器,以供云端服务器对所述第一语音数据进行处理,根据第一语言将所述第一语音数据转换成第二语言对应的第二语音数据。对接收到的语音数据的处理也可以部分在云端服务器处理,部分在本地处理。
具体的,参考图7,所述转换模块40包括转换单元41、翻译单元42和合成单元43,
所述转换单元41,用于根据第一语言将所述第一语音数据转换成所述第一语言对应的第一文本数据;
所述翻译单元42,用于将所述第一文本数据翻译成所述第二语言对应的第二文本数据;
所述合成单元43,用于将所述第二文本数据合成第二语音数据。
在本实施例中,以所述第一语言是中文,第二语言是英文为例,在获取中文、英文后,根据中文将所述中文语音数据转换成中文文本数据;将所述中文文本数据翻译成英文文本数据;可以在界面显示转换成的中文文本数据和英文文本数据,最后将所述英文文本数据合成英文语音数据。
本实施例在接收到第一语音数据时,提取所述第一语音数据的声纹特征;确定所提取声纹特征对应的语言类别;在确定所提取声纹特征对应的语言类别是第一语言时,获取预存的第二语言;将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。实现通过语音识别准确区别不同语言,进而提高沟通的有效性。
参照图8,图8为本发明语音翻译装置的第二实施例的功能模块示意图。
基于上述第一实施例,本实施例所述语音翻译装置还包括输出模块50、接收模块60、提供模块70和保存模块80。
所述输出模块50,用于输出所述第二语音数据。
所述输出所述第二语音数据可以直接通过扬声器输出或者耳机输出,根据用户的需要及/或***的性能设置。
所述接收模块60,用于接收第一语言和第二语言的设置指令;
所述提供模块70,用于根据所述设置指令提供语言类别的选择界面,以供用户选择第一语言和第二语言;
所述保存模块80,用于在所述用户选择第一语言和第二语言时,保存所述第一语言和第二语言;还用于保存所述第一语言的声纹特征;
所述提取模块10,还用于提取第一语言对应语音数据的声纹特征。
接收第一语言和第二语言的设置指令可以在对话的起始阶段,在接收到第一语言和第二语言的设置指令时,根据所述设置指令提供语言类别的选择界面,以供用户选择第一语言和第二语言;在所述用户选择第一语言和第二语言时,保存第一语言和第二语言。也可以通过语音的方式来选择第一语言和第二语言,根据用户的需要及/或***的性能设置。在保存第一语言和第二语言后,接收所述第一语言对应的第一语音数据,提取所述第一语音数据的声纹特征,保存所述声纹特征。所述第一、第二语言可以是中文、英文等,也可以根据地域名称,例如广东、加拿大等,如果设置的是地域名称,可以本地预存地域名称与当地主要语言类别对应的声纹特征。
在本发明其他实施例中,所述语音翻译方法还可以是:在多语言会议下,例如,有A、B、C、D四种语言,在会议中,提供界面以供用户选择自己的语言,在用户选择自己的语言后,通过传输模块的蓝牙或Wi-Fi等传送到云端服务器。在云端服务器中预存A、B、C、D四种语言以及四种语言对应的声纹特征。在接收到语音数据时,提取所述语音数据的声纹特征,判断所提取的声纹特征是否与预存的语言类别的声纹特征匹配。以所提取的声纹特征与预存的A语言的声纹特征匹配为例,在所提取的声纹特征与预存的A语言的声纹特征匹配时,确定所提取的声纹特征对应的语言类别是A语言。从云端服务器中获取预存B、C、D三种语言,根据A语言将接收到的语音数据转换成A语言对应的A文本数据,再将A文本数据翻译成B文本数据、C文本数据、D文本数据,将B文本数据转换成B语音数据,C文本数据转换成C语音数据,D文本数据转换成D语音数据,最后通过传输模块的蓝牙或Wi-Fi等传送到使用B、C、D语言对应的用户的扬声器或耳机。有效避免现有的语音翻译软件或设备无法通过语音识别来准确区别不同语言,进而导致沟通效率低的问题。实现通过语音识别准确地区别不同语言,并自动将一种语言的语音转换成另一种语言的语音,进而提高沟通的有效性。
本实施例通过预存第一语言、第二语言以及第一语言的声纹特征,在接收到语音数据时,可以提取所述语音数据的声纹特征,根据第一语言的声纹特征与所述第一语言的对应关系可以确定所述声纹特征对应的语言类别,准确的区别不同语言,提高沟通的有效性。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音翻译方法,其特征在于,包括步骤:
在接收到第一语音数据时,提取所述第一语音数据的声纹特征;
确定所提取的声纹特征对应的语言类别;
在所提取的声纹特征对应的语言类别是第一语言时,获取预存的第二语言;
将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。
2.如权利要求1所述的语音翻译方法,其特征在于,所述确定所提取的声纹特征对应的语言类别的步骤包括:
判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配;
在所提取的声纹特征与预存的第一语言的声纹特征匹配时,确定所提取的声纹特征对应的语言类别是第一语言;
在所提取的声纹特征与预存的第一语言的声纹特征不匹配时,确定所提取的声纹特征对应的语言类别是第二语言。
3.如权利要求1所述的语音翻译方法,其特征在于,所述将所述第一语音数据由第一语言转换成所述第二语言对应的第二语音数据的步骤包括:
根据第一语言将所述第一语音数据转换成所述第一语言对应的第一文本数据;
将所述第一文本数据翻译成所述第二语言对应的第二文本数据;
将所述第二文本数据合成第二语音数据。
4.如权利要求3所述的语音翻译方法,其特征在于,所述将所述第一语音数据由第一语言转换成所述第二语言对应的第二语音数据的步骤之后,还包括:
输出所述第二语音数据。
5.如权利要求1至4中任一项所述的语音翻译方法,其特征在于,所述在接收到第一语音数据时,提取所述第一语音数据的声纹特征的步骤之前,还包括:
接收第一语言和第二语言的设置指令;
根据所述设置指令提供语言类别的选择界面,以供用户选择第一语言和第二语言;
在所述用户选择第一语言和第二语言时,保存所述第一语言和第二语言;
提取所述第一语言对应语音数据的声纹特征,并保存所述第一语言的声纹特征。
6.一种语音翻译装置,其特征在于,包括:
提取模块,用于在接收到第一语音数据时,提取所述第一语音数据的声纹特征;
确定模块,用于确定所提取的声纹特征对应的语言类别;
获取模块,用于在所提取的声纹特征对应的语言类别是第一语言时,获取预存的第二语言;
转换模块,用于将所述第一语音数据由第一语言转换成第二语言对应的第二语音数据。
7.如权利要求6所述的语音翻译装置,其特征在于,所述确定模块包括判断单元和确定单元,
所述判断单元,用于判断所提取的声纹特征是否与预存的第一语言的声纹特征匹配;
所述确定单元,用于在所提取的声纹特征与预存的第一语言的声纹特征匹配时,确定所提取的声纹特征对应的语言类别是第一语言;还用于在所提取的声纹特征与预存的第一语言的声纹特征不匹配时,确定所提取的声纹特征对应的语言类别是第二语言。
8.如权利要求6所述的语音翻译装置,其特征在于,所述转换模块包括转换单元、翻译单元和合成单元,
所述转换单元,用于根据第一语言将所述第一语音数据转换成所述第一语言对应的第一文本数据;
所述翻译单元,用于将所述第一文本数据翻译成所述第二语言对应的第二文本数据;
所述合成单元,用于将所述第二文本数据合成第二语音数据。
9.如权利要求6所述的语音翻译装置,其特征在于,所述语音翻译装置还包括输出模块,用于输出所述第二语音数据。
10.如权利要求6至9任一项所述的语音翻译装置,其特征在于,所述语音翻译装置还包括接收模块、提供模块和保存模块,
所述接收模块,用于接收第一语言和第二语言的设置指令;
所述提供模块,用于根据所述设置指令提供语言类别的选择界面,以供用户选择第一语言和第二语言;
所述保存模块,用于在所述用户选择第一语言和第二语言时,保存所述第一语言和第二语言;还用于保存所述第一语言的声纹特征;
所述提取模块,还用于提取第一语言对应语音数据的声纹特征。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510172421.7A CN106156009A (zh) | 2015-04-13 | 2015-04-13 | 语音翻译方法及装置 |
PCT/CN2016/078895 WO2016165590A1 (zh) | 2015-04-13 | 2016-04-08 | 语音翻译方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510172421.7A CN106156009A (zh) | 2015-04-13 | 2015-04-13 | 语音翻译方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106156009A true CN106156009A (zh) | 2016-11-23 |
Family
ID=57125556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510172421.7A Pending CN106156009A (zh) | 2015-04-13 | 2015-04-13 | 语音翻译方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106156009A (zh) |
WO (1) | WO2016165590A1 (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107315740A (zh) * | 2017-01-20 | 2017-11-03 | 北京分音塔科技有限公司 | 一种实时语音互译装置 |
CN107749296A (zh) * | 2017-10-12 | 2018-03-02 | 深圳市沃特沃德股份有限公司 | 语音翻译方法和装置 |
CN107861955A (zh) * | 2017-11-14 | 2018-03-30 | 维沃移动通信有限公司 | 一种翻译方法和移动终端 |
CN107910004A (zh) * | 2017-11-10 | 2018-04-13 | 科大讯飞股份有限公司 | 语音翻译处理方法及装置 |
CN108281145A (zh) * | 2018-01-29 | 2018-07-13 | 南京地平线机器人技术有限公司 | 语音处理方法、语音处理装置和电子设备 |
CN108733656A (zh) * | 2017-04-14 | 2018-11-02 | 深圳市领芯者科技有限公司 | 语音翻译装置、***和方法 |
CN108966066A (zh) * | 2018-03-07 | 2018-12-07 | 深圳市哈尔马科技有限公司 | 一种基于无线耳机的实时翻译交互*** |
CN109005480A (zh) * | 2018-07-19 | 2018-12-14 | Oppo广东移动通信有限公司 | 信息处理方法及相关产品 |
CN109121123A (zh) * | 2018-07-03 | 2019-01-01 | Oppo广东移动通信有限公司 | 信息处理方法及相关产品 |
CN109147769A (zh) * | 2018-10-17 | 2019-01-04 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN109344415A (zh) * | 2018-12-13 | 2019-02-15 | 深圳市友杰智新科技有限公司 | 电子书智能语音朗读实现方法 |
WO2019075829A1 (zh) * | 2017-10-17 | 2019-04-25 | 深圳市沃特沃德股份有限公司 | 语音翻译方法、装置和翻译设备 |
WO2019104556A1 (zh) * | 2017-11-29 | 2019-06-06 | 深圳市沃特沃德股份有限公司 | 翻译方法及装置 |
WO2019165748A1 (zh) * | 2018-02-28 | 2019-09-06 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN110428813A (zh) * | 2019-07-23 | 2019-11-08 | 北京奇艺世纪科技有限公司 | 一种语音理解的方法、装置、电子设备及介质 |
CN110442881A (zh) * | 2019-08-06 | 2019-11-12 | 上海祥久智能科技有限公司 | 一种语音转换的信息处理方法和装置 |
CN110956950A (zh) * | 2019-12-02 | 2020-04-03 | 联想(北京)有限公司 | 一种数据处理方法、装置和电子设备 |
CN112989847A (zh) * | 2021-03-11 | 2021-06-18 | 读书郎教育科技有限公司 | 一种扫描笔的录音翻译***及方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239613B (zh) * | 2022-02-23 | 2022-08-02 | 阿里巴巴达摩院(杭州)科技有限公司 | 实时语音翻译方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894548A (zh) * | 2010-06-23 | 2010-11-24 | 清华大学 | 一种用于语种识别的建模方法及装置 |
CN202772966U (zh) * | 2012-09-03 | 2013-03-06 | 上海三旗通信科技股份有限公司 | 全球无障碍交流手机 |
CN103117059A (zh) * | 2012-12-27 | 2013-05-22 | 北京理工大学 | 一种基于张量分解的语音信号特征提取方法 |
CN103117061A (zh) * | 2013-02-05 | 2013-05-22 | 广东欧珀移动通信有限公司 | 一种基于语音的动物识别方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1334532A (zh) * | 2000-07-13 | 2002-02-06 | 白涛 | 全球通多语种自动语音同声翻译*** |
CN1602483A (zh) * | 2001-12-17 | 2005-03-30 | 内维尼·加雅拉特尼 | 进行多语种口述词语实时翻译的实时翻译装置与方法 |
JP2011128260A (ja) * | 2009-12-16 | 2011-06-30 | Nec Corp | 外国語会話支援装置、方法、プログラム、および電話端末装置 |
CN103838714A (zh) * | 2012-11-22 | 2014-06-04 | 北大方正集团有限公司 | 一种语音信息转换方法及装置 |
CN103309854A (zh) * | 2013-06-08 | 2013-09-18 | 开平市中铝实业有限公司 | 一种出租车翻译机*** |
-
2015
- 2015-04-13 CN CN201510172421.7A patent/CN106156009A/zh active Pending
-
2016
- 2016-04-08 WO PCT/CN2016/078895 patent/WO2016165590A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894548A (zh) * | 2010-06-23 | 2010-11-24 | 清华大学 | 一种用于语种识别的建模方法及装置 |
CN202772966U (zh) * | 2012-09-03 | 2013-03-06 | 上海三旗通信科技股份有限公司 | 全球无障碍交流手机 |
CN103117059A (zh) * | 2012-12-27 | 2013-05-22 | 北京理工大学 | 一种基于张量分解的语音信号特征提取方法 |
CN103117061A (zh) * | 2013-02-05 | 2013-05-22 | 广东欧珀移动通信有限公司 | 一种基于语音的动物识别方法及装置 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107315740A (zh) * | 2017-01-20 | 2017-11-03 | 北京分音塔科技有限公司 | 一种实时语音互译装置 |
CN108733656A (zh) * | 2017-04-14 | 2018-11-02 | 深圳市领芯者科技有限公司 | 语音翻译装置、***和方法 |
CN107749296A (zh) * | 2017-10-12 | 2018-03-02 | 深圳市沃特沃德股份有限公司 | 语音翻译方法和装置 |
WO2019075829A1 (zh) * | 2017-10-17 | 2019-04-25 | 深圳市沃特沃德股份有限公司 | 语音翻译方法、装置和翻译设备 |
CN107910004A (zh) * | 2017-11-10 | 2018-04-13 | 科大讯飞股份有限公司 | 语音翻译处理方法及装置 |
CN107861955A (zh) * | 2017-11-14 | 2018-03-30 | 维沃移动通信有限公司 | 一种翻译方法和移动终端 |
CN107861955B (zh) * | 2017-11-14 | 2021-09-28 | 维沃移动通信有限公司 | 一种翻译方法和移动终端 |
WO2019104556A1 (zh) * | 2017-11-29 | 2019-06-06 | 深圳市沃特沃德股份有限公司 | 翻译方法及装置 |
CN108281145A (zh) * | 2018-01-29 | 2018-07-13 | 南京地平线机器人技术有限公司 | 语音处理方法、语音处理装置和电子设备 |
CN108281145B (zh) * | 2018-01-29 | 2021-07-02 | 南京地平线机器人技术有限公司 | 语音处理方法、语音处理装置和电子设备 |
WO2019165748A1 (zh) * | 2018-02-28 | 2019-09-06 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN108966066A (zh) * | 2018-03-07 | 2018-12-07 | 深圳市哈尔马科技有限公司 | 一种基于无线耳机的实时翻译交互*** |
CN109121123A (zh) * | 2018-07-03 | 2019-01-01 | Oppo广东移动通信有限公司 | 信息处理方法及相关产品 |
EP3598435A1 (en) * | 2018-07-19 | 2020-01-22 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for processing information and electronic device |
WO2020015646A1 (en) * | 2018-07-19 | 2020-01-23 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for processing information and electronic device |
US10893365B2 (en) | 2018-07-19 | 2021-01-12 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for processing voice in electronic device and electronic device |
CN109005480A (zh) * | 2018-07-19 | 2018-12-14 | Oppo广东移动通信有限公司 | 信息处理方法及相关产品 |
CN109147769A (zh) * | 2018-10-17 | 2019-01-04 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN109344415A (zh) * | 2018-12-13 | 2019-02-15 | 深圳市友杰智新科技有限公司 | 电子书智能语音朗读实现方法 |
CN110428813A (zh) * | 2019-07-23 | 2019-11-08 | 北京奇艺世纪科技有限公司 | 一种语音理解的方法、装置、电子设备及介质 |
CN110428813B (zh) * | 2019-07-23 | 2022-04-22 | 北京奇艺世纪科技有限公司 | 一种语音理解的方法、装置、电子设备及介质 |
CN110442881A (zh) * | 2019-08-06 | 2019-11-12 | 上海祥久智能科技有限公司 | 一种语音转换的信息处理方法和装置 |
CN110956950A (zh) * | 2019-12-02 | 2020-04-03 | 联想(北京)有限公司 | 一种数据处理方法、装置和电子设备 |
CN112989847A (zh) * | 2021-03-11 | 2021-06-18 | 读书郎教育科技有限公司 | 一种扫描笔的录音翻译***及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2016165590A1 (zh) | 2016-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156009A (zh) | 语音翻译方法及装置 | |
CN111128126A (zh) | 多语种智能语音对话的方法及*** | |
WO2016101571A1 (zh) | 一种语音翻译方法、通讯方法及相关装置 | |
US10956480B2 (en) | System and method for generating dialogue graphs | |
CN105206272A (zh) | 语音传输控制方法及*** | |
CN105489221A (zh) | 一种语音识别方法及装置 | |
CN106453043A (zh) | 基于多语言转换的即时通信*** | |
CN104239394A (zh) | 包括显示装置和服务器的翻译***及其控制方法 | |
CN105120373A (zh) | 语音传输控制方法及*** | |
KR20200105259A (ko) | 전자 장치 및 전자 장치의 제어 방법 | |
CN105206273A (zh) | 语音传输控制方法及*** | |
CN108595412A (zh) | 纠错处理方法及装置、计算机设备及可读介质 | |
CN114064943A (zh) | 会议管理方法、装置、存储介质及电子设备 | |
KR20170010978A (ko) | 통화 내용 패턴 분석을 통한 보이스 피싱 방지 방법 및 장치 | |
CN104679737A (zh) | 基于移动终端的文本信息的翻译处理方法和移动终端 | |
CN111970295A (zh) | 基于多终端的通话事务管理方法及装置 | |
KR102621436B1 (ko) | 음성 합성 방법, 장치, 전자 기기 및 저장 매체 | |
CN109660672A (zh) | 语音类型的转换方法、设备及计算机可读存储介质 | |
CN116415597A (zh) | 语音翻译、同声传译方法 | |
CN113393844B (zh) | 一种语音质检的方法、装置及网络设备 | |
CN113643706B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
US20190279623A1 (en) | Method for speech recognition dictation and correction by spelling input, system and storage medium | |
KR102583434B1 (ko) | 음성 상담의 품질 평가 방법 및 시스템 | |
CN112002325B (zh) | 多语种语音交互方法和装置 | |
CN105118507B (zh) | 声控***及其控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161123 |
|
RJ01 | Rejection of invention patent application after publication |