CN107731232A - 语音翻译方法和装置 - Google Patents
语音翻译方法和装置 Download PDFInfo
- Publication number
- CN107731232A CN107731232A CN201710967364.0A CN201710967364A CN107731232A CN 107731232 A CN107731232 A CN 107731232A CN 201710967364 A CN201710967364 A CN 201710967364A CN 107731232 A CN107731232 A CN 107731232A
- Authority
- CN
- China
- Prior art keywords
- voice
- sex
- voice messaging
- vocal print
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000001755 vocal effect Effects 0.000 claims abstract description 92
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 65
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 65
- 238000000605 extraction Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 10
- 230000006854 communication Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明揭示了一种语音翻译方法和装置,所述方法包括以下步骤:识别原始的语音信息的语音性别;根据所述语音性别选择对应的语音合成声纹;根据选择的语音合成声纹对所述原始的语音信息进行翻译处理,以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致,实现了对语音性别的自适应。当男性说话时翻译出来的语音是男声,当女性说话时翻译出来的语音是女声,使得原始语音与翻译语音协调一致,大大增强了交流的真实感,提升了用户体验。
Description
技术领域
本发明涉及电子技术领域,特别是涉及到一种语音翻译方法和装置。
背景技术
目前,两个说不同语言的用户交流时,可以通过翻译设备进行翻译,从而实现无障碍交流。具体实现方式为:用户说话时按压一次翻译设备的特定按键,翻译设备则采集语音信息并进行翻译处理,用户说完一段话后再按压一次按键,翻译设备则输出翻译处理后的语音信息。
翻译设备翻译处理后的语音信息的语音性别是预先设定好的,用户可以设定为男声或者女声,一旦设定好后,无论说话的人是男性还是女性,翻译处理后的语音信息都是相同的语音性别。例如,当设定为男声后,如果说话的人是女性,翻译处理后的语音信息则为男声;当设定为女声后,如果说话的人是男性,翻译处理后的语音信息则为女声。
由此可见,现有技术中,翻译处理后的语音信息的语音性别与原始的语音信息的语音性别有可能不一致,导致原始语音和翻译语音不协调,使得用户听起来感觉很怪异,大大降低了交流的真实感,用户体验不佳。
发明内容
本发明的主要目的为提供一种语音翻译方法和装置,旨在解决翻译处理后的语音信息的语音性别与原始的语音信息的语音性别不一致的技术问题,增强交流的真实感,提升用户体验。
为达以上目的,本发明实施例提出一种语音翻译方法,所述方法包括以下步骤:
识别原始的语音信息的语音性别;
根据所述语音性别选择对应的语音合成声纹;
根据选择的语音合成声纹对所述原始的语音信息进行翻译处理,以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。
可选地,所述识别原始的语音信息的语音性别的步骤包括:
获取所述原始的语音信息的基音的频率;
比较所述基音的频率与门限值的大小;
当所述基音的频率小于或等于门限值时,识别所述原始的语音信息的语音性别为男声;
当所述基音的频率大于门限值时,识别所述原始的语音信息的语音性别为女声。
可选地,所述获取所述原始的语音信息的基音的频率的步骤包括:
以预设的采样频率对所述原始的语音信息连续采样M帧,M≥2;
对采集的语音帧进行基音频率特征提取;
根据提取的基音频率特征统计出所述原始的语音信息的基音的频率。
可选地,25≥M≤35。
可选地,所述语音帧的时长为20-30ms。
可选地,所述采样频率为8kHz。
可选地,所述门限值为180-220Hz。
可选地,所述根据选择的语音合成声纹对所述原始的语音信息进行翻译处理的步骤包括:
对所述原始的语音信息进行语音识别处理,得到原始语言的第一字符串;
对所述第一字符串进行文字翻译处理,得到目标语言的第二字符串;
利用选择的语音合成声纹对所述第二字符串进行语音合成处理,得到目标语言的语音信息。
可选地,所述识别原始的语音信息的语音性别的步骤包括:每当检测到一段语音信息开始时,则识别所述语音信息的语音性别。
可选地,所述语音合成声纹包括男声声纹和女声声纹,所述根据所述语音性别选择对应的语音合成声纹的步骤包括:
当所述语音性别为男声时,选择所述男声声纹;
当所述语音性别为女声时,选择所述女声声纹。
本发明实施例同时提出一种语音翻译装置,所述装置包括:
性别识别模块,用于识别原始的语音信息的语音性别;
声纹选择模块,用于根据所述语音性别选择对应的语音合成声纹;
翻译处理模块,用于根据选择的语音合成声纹对所述原始的语音信息进行翻译处理,以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。
可选地,所述性别识别模块包括:
获取单元,用于获取所述原始的语音信息的基音的频率;
比较单元,用于比较所述基音的频率与门限值的大小;
第一识别单元,用于当所述基音的频率小于或等于门限值时,确定所述原始的语音信息的语音性别为男声;
第二识别单元,用于当所述基音的频率大于门限值时,确定所述原始的语音信息的语音性别为女声。
可选地,所述获取单元包括:
采样子单元,用于以预设的采样频率对所述原始的语音信息连续采样M帧,M≥2;
提取子单元,用于对采集的语音帧进行基音频率特征提取;
统计子单元,用于根据提取的基音频率特征统计出所述原始的语音信息的基音的频率。
可选地,所述翻译处理模块包括:
第一处理单元,用于对所述原始的语音信息进行语音识别处理,得到原始语言的第一字符串;
第二处理单元,用于对所述第一字符串进行文字翻译处理,得到目标语言的第二字符串;
第三处理单元,用于利用选择的语音合成声纹对所述第二字符串进行语音合成处理,得到目标语言的语音信息。
可选地,所述性别识别模块用于:每当检测到一段语音信息开始时,则识别所述语音信息的语音性别。
可选地,所述语音合成声纹包括男声声纹和女声声纹,所述声纹选择模块包括:
第一选择单元,用于当所述语音性别为男声时,选择所述男声声纹;
第二选择单元,用于当所述语音性别为女声时,选择所述女声声纹。
本发明实施例还提出一种翻译设备,所述翻译设备包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行前述语音翻译方法。
本发明实施例所提供的一种语音翻译方法,通过识别出原始的语音信息的语音性别,再根据语音性别选择对应的语音合成声纹,最后根据选择的语音合成声纹对原始的语音信息进行翻译处理,从而使得翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致,实现了对语音性别的自适应。当男性说话时翻译出来的语音是男声,当女性说话时翻译出来的语音是女声,使得原始语音与翻译语音协调一致,大大增强了交流的真实感,提升了用户体验。
附图说明
图1是本发明的语音翻译方法一实施例的流程图;
图2是图1中步骤S11的具体流程图;
图3是本发明的语音翻译装置一实施例的模块示意图;
图4是图3中的性别识别模块的模块示意图;
图5是图4中的获取单元的模块示意图;
图6是图3中的声纹选择模块的模块示意图;
图7是图3中的翻译处理模块的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信***),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位***)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本技术领域技术人员可以理解,这里所使用的服务器,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,服务器、终端设备与WNS服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
本发明实施例的语音翻译方法和装置,可以应用于翻译设备,也可以应用于服务器。翻译设备可以是专门的翻译机,也可以是手机、平板等移动终端,还可以是个人电脑、笔记本电脑等计算机终端。参照图1,提出本发明的语音翻译方法一实施例,所述方法包括以下步骤:
S11、识别原始的语音信息的语音性别。
本发明实施例所述的原始的语音信息,即待翻译的语音信息。原始的语音信息可以是当场采集的语音信息,可以是存储于本地的语音信息,也可以是从其它设备获取的语音信息。
以应用于翻译设备为例,翻译设备可以通过麦克风采集用户发出的语音信息,该语音信息即为原始的语音信息。
以应用于服务器为例,服务器接收翻译设备发送的语音信息,该语音信息即为原始的语音信息。
在识别语音信息的语音性别时,可以以基音频率作为识别依据,通过性别识别算法来识别原始的语音信息的语音性别,所述性别识别算法如VQ(Vector Quantization,矢量量化)、HMM(Hidden Markov Model,隐马尔可夫模型)、SVM(Support Vector Machines,支持向量机)等。
如图2所示,可以通过以下方式识别原始的语音信息的语音性别,具体包括以下步骤:
S111、获取原始的语音信息的基音的频率。
具体的,首先以预设的采样频率对原始的语音信息连续采样M(M≥2)帧,然后对采集的语音帧进行基音频率特征提取,最后根据提取的基音频率特征统计出原始的语音信息的基音的频率。
采样频率可以选择8kHz,当然也可以选择其它的频率。M的取值范围优选25≥M≤35,例如取M=30,即连续采样30帧语音帧。每一个语音帧的时长优选为20-30ms。在统计基音的频率时,可以对采集的语音帧的基音频率求平均值,将平均值作为原始的语音信息的基音的频率。
S112、比较基音的频率与门限值的大小,判断基音的频率是否小于或等于门限值。当基音的频率小于或等于门限值时,进入步骤S113;当基音的频率大于门限值时,进入步骤S114。
男声的基音频率小于女声的基音频率,男声的基音频率分布范围一般介于0-200Hz之间,女声的基音频率分布范围一般介于200-500Hz之间,因此门限值可以设定为180-220Hz,如设定为200Hz。
S113、识别原始的语音信息的语音性别为男声。
S114、识别原始的语音信息的语音性别为女声。
本发明实施例所述的语音信息的语音性别包括男声和女声。当基音的频率小于或等于门限值时,则识别原始的语音信息的语音性别为男声。当基音的频率大于门限值时,则识别原始的语音信息的语音性别为女声。
本发明实施例中,每当检测到一段语音信息开始时,则识别一次语音信息的语音性别,以为每一段语音信息分别匹配对应的语音合成声纹,使得翻译处理后的每一段语音信息的语音性别与原始的每一段语音信息的语音性别均相一致。
在检测一段语音信息的开始和结束时,可以通过两段语音的时间间隔来确定,例如:当在预设时长内没有检测到语音信息时,则确定一段语音结束,当再次检测到语音信息时,则确定下一段语音开始。在检测语音信息时,可以通过语音活动检测(VAD,VoiceActivity Detection)技术来检测声音信号中是否包括语音信息。
当应用于翻译设备时,也可以通过检测特定按键是否被触发来检测一段语音信息的开始和结束,例如:当特定按键首次被触发时,则一段语音信息开始,当特定按键再次被触发时,则一段语音信息结束。
S12、根据原始的语音信息的语音性别选择对应的语音合成声纹。
本发明实施例中,预置了两种语音合成声纹,分别为男声声纹和女声声纹。当识别出原始的语音信息的语音性别为男声时,则选择男声声纹;当识别出原始的语音信息的语音性别为女声时,则选择女声声纹。
进一步地,男声声纹和女声声纹分别包括至少两个,每一个的基音频率不同,可以根据原始的语音信息的基音的频率选择对应的男声声纹或女声声纹。从而使得翻译处理后的语音信息与原始的语音信息的声纹更加吻合,进一步增强了交流的真实感。
S13、根据选择的语音合成声纹对原始的语音信息进行翻译处理。
本步骤S13中,根据选择的语音合成声纹对原始的语音信息进行翻译处理,使得翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致,增强了交流的真实感,提升了用户体验。
语音信息的翻译处理,主要包括语音识别、文字翻译、语音合成三个流程,具体的:首先对原始的语音信息进行语音识别处理,得到原始语言的第一字符串;对第一字符串进行文字翻译处理,得到目标语言的第二字符串;利用选择的语音合成声纹对第二字符串进行语音合成处理,得到目标语言的语音信息。
以应用于翻译设备为例。翻译设备可以在本地进行翻译处理,即对原始的语音信息依次执行语音识别、文字翻译、语音合成三个处理流程,得到目标语言的语音信息的码流。
翻译设备也可以通过服务器进行翻译处理。例如:翻译设备首先将原始的语音信息发送给语音识别服务器,语音识别服务器对原始的语音信息进行语音识别,识别出第一字符串并返回给翻译设备;翻译设备接收第一字符串,并将第一字符串发送给文字翻译服务器,文字翻译服务器对第一字符串进行文字翻译,翻译为目标语言的第二字符串并返回给翻译设备;翻译设备接收第二字符串,并将第二字符串和选择的语音合成声纹发送给语音合成服务器,语音合成服务器利用选择的语音合成声纹对第二字符串进行语音合成处理,得到目标语言的语音信息,并将目标语言的语音信息以码流的形式返回给翻译设备,翻译设备接收目标语言的语音信息的码流,获得翻译后的语音信息。
当然,在其它实施例中,翻译设备也可以将原始的语音信息和选择的语音合成声纹发送给一个服务器,该服务器直接对原始的语音信息进行语音识别和文字翻译处理,并利用选择的语音合成声纹进行语音合成,得到目标语言的语音信息的码流。
以应用于服务器为例。服务器对原始的语音信息依次执行语音识别、文字翻译、语音合成三个处理流程,得到目标语言的语音信息。并将目标语言的语音信息以码流的形式发送给翻译设备。
翻译设备获得翻译处理后的语音信息后,则输出该语音信息,例如,驱动扬声器输出该语音信息。由于输出的语音信息的语音性别与原始的语音信息的语音性别相一致,因此用户听起来感觉更加真实,提升了用户体验。
本发明实施例的语音翻译方法,通过识别出原始的语音信息的语音性别,再根据语音性别选择对应的语音合成声纹,最后根据选择的语音合成声纹对原始的语音信息进行翻译处理,从而使得翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致,实现了对语音性别的自适应。当男性说话时翻译出来的语音是男声,当女性说话时翻译出来的语音是女声,使得原始语音与翻译语音协调一致,大大增强了交流的真实感,提升了用户体验。
参照图3,提出本发明的语音翻译装置一实施例,所述装置包括性别识别模块10、声纹选择模块20和翻译处理模块30,其中:性别识别模块10,用于识别原始的语音信息的语音性别;声纹选择模块20,用于根据原始的语音性别选择对应的语音合成声纹;翻译处理模块30,用于根据选择的语音合成声纹对原始的语音信息进行翻译处理,以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。
本发明实施例所述的原始的语音信息,即待翻译的语音信息。原始的语音信息可以是当场采集的语音信息,可以是存储于本地的语音信息,也可以是从其它设备获取的语音信息。
以应用于翻译设备为例,翻译设备可以通过麦克风采集用户发出的语音信息,该语音信息即为原始的语音信息。
以应用于服务器为例,服务器接收翻译设备发送的语音信息,该语音信息即为原始的语音信息。
在识别语音信息的语音性别时,性别识别模块10可以以基音频率作为识别依据,通过性别识别算法来识别原始的语音信息的语音性别,所述性别识别算法如VQ、HMM、SVM等。
可选地,性别识别模块10如图4所示,包括获取单元11、比较单元12、第一识别单元13和第二识别单元14,其中:获取单元11,用于获取原始的语音信息的基音的频率;比较单元12,用于比较基音的频率与门限值的大小;第一识别单元13,用于当基音的频率小于或等于门限值时,确定原始的语音信息的语音性别为男声;第二识别单元14,用于当基音的频率大于门限值时,确定原始的语音信息的语音性别为女声。
如图5所示,获取单元11包括采样子单元111、提取子单元112和统计子单元113,其中:采样子单元111,用于以预设的采样频率对原始的语音信息连续采样M(M≥2)帧,;提取子单元112,用于对采集的语音帧进行基音频率特征提取;统计子单元113,用于根据提取的基音频率特征统计出原始的语音信息的基音的频率。
采样频率可以选择8kHz,当然也可以选择其它的频率。M的取值范围优选25≥M≤35,例如取M=30,即连续采样30帧语音帧。每一个语音帧的时长优选为20-30ms。在统计基音的频率时,统计子单元113可以对采集的语音帧的基音频率求平均值,将平均值作为原始的语音信息的基音的频率。
男声的基音频率小于女声的基音频率,男声的基音频率分布范围一般介于0-200Hz之间,女声的基音频率分布范围一般介于200-500Hz之间,因此门限值可以设定为180-220Hz,如设定为200Hz。
本发明实施例所述的语音信息的语音性别包括男声和女声。当基音的频率小于或等于门限值时,第一识别单元13则识别原始的语音信息的语音性别为男声。当基音的频率大于门限值时,第二识别单元14则识别原始的语音信息的语音性别为女声。
本发明实施例中,每当检测到一段语音信息开始时,性别识别单元则识别一次语音信息的语音性别,以为每一段语音信息分别匹配对应的语音合成声纹,使得翻译处理后的每一段语音信息的语音性别与原始的每一段语音信息的语音性别均相一致。
性别识别单元在检测一段语音信息的开始和结束时,可以通过两段语音的时间间隔来确定,例如:当在预设时长内没有检测到语音信息时,则确定一段语音结束,当再次检测到语音信息时,则确定下一段语音开始。在检测语音信息时,可以通过语音活动检测(VAD,Voice Activity Detection)技术来检测声音信号中是否包括语音信息。
当应用于翻译设备时,性别识别单元也可以通过检测特定按键是否被触发来检测一段语音信息的开始和结束,例如:当特定按键首次被触发时,则一段语音信息开始,当特定按键再次被触发时,则一段语音信息结束。
本发明实施例中,预置了两种语音合成声纹,分别为男声声纹和女声声纹。声纹选择模块20如图6所示,包括第一选择单元21和第二选择单元22,其中:第一选择单元21,用于当原始的语音信息的语音性别为男声时,则选择男声声纹;第二选择单元22,用于当原始的语音信息的语音性别为女声时,则选择女声声纹。
进一步地,男声声纹和女声声纹分别包括至少两个,每一个的基音频率不同,声纹选择模块20可以根据原始的语音信息的基音的频率选择对应的男声声纹或女声声纹。从而使得翻译处理后的语音信息与原始的语音信息的声纹更加吻合,进一步增强了真实感。
翻译处理模块30根据选择的语音合成声纹对原始的语音信息进行翻译处理,使得翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致,增强了真实感,提升了用户体验。
语音信息的翻译处理,主要包括语音识别、文字翻译、语音合成三个流程。如图7所示,翻译处理模块30包括第一处理单元31、第二处理单元32和第三处理单元33:第一处理单元31,用于对原始的语音信息进行语音识别处理,得到原始语言的第一字符串;第二处理单元32,用于对第一字符串进行文字翻译处理,得到目标语言的第二字符串;第三处理单元33,用于利用选择的语音合成声纹对第二字符串进行语音合成处理,得到目标语言的语音信息。
以应用于翻译设备为例。翻译处理模块30可以在翻译设备本地进行翻译处理,即对原始的语音信息依次执行语音识别、文字翻译、语音合成三个处理流程,得到目标语言的语音信息的码流。
翻译处理模块30也可以通过服务器进行翻译处理。例如:第一处理单元31首先将原始的语音信息发送给语音识别服务器,语音识别服务器对原始的语音信息进行语音识别,识别出第一字符串并返回给翻译设备;第二处理单元32接收第一字符串,并将第一字符串发送给文字翻译服务器,文字翻译服务器对第一字符串进行文字翻译,翻译为目标语言的第二字符串并返回给翻译设备;第三处理单元33接收第二字符串,并将第二字符串和选择的语音合成声纹发送给语音合成服务器,语音合成服务器利用选择的语音合成声纹对第二字符串进行语音合成处理,得到目标语言的语音信息,并将目标语言的语音信息以码流的形式返回给翻译设备,第三处理单元33接收目标语言的语音信息的码流,获得翻译后的语音信息。
当然,在其它实施例中,翻译处理模块30也可以将原始的语音信息和选择的语音合成声纹发送给一个服务器,该服务器直接对原始的语音信息进行语音识别和文字翻译处理,并利用选择的语音合成声纹进行语音合成,得到目标语言的语音信息的码流。
以应用于服务器为例。翻译处理模块30通过第一处理单元31、第二处理单元32和第三处理单元33对原始的语音信息依次执行语音识别、文字翻译、语音合成三个处理流程,得到目标语言的语音信息。并将目标语言的语音信息以码流的形式发送给翻译设备。
翻译设备获得翻译处理后的语音信息后,则输出该语音信息,例如,驱动扬声器输出该语音信息。由于输出的语音信息的语音性别与原始的语音信息的语音性别相一致,因此用户听起来感觉更加真实,提升了用户体验。
本发明实施例的语音翻译装置,通过识别出原始的语音信息的语音性别,再根据语音性别选择对应的语音合成声纹,最后根据选择的语音合成声纹对原始的语音信息进行翻译处理,从而使得翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致,实现了对语音性别的自适应。当男性说话时翻译出来的语音是男声,当女性说话时翻译出来的语音是女声,使得原始语音与翻译语音协调一致,大大增强了交流的真实感,提升了用户体验。
本发明实施例的语音翻译方法和装置尤其适用于翻译机,利用翻译机半双工数据传输的交互特点,在用户每说一句话时,则根据用户的语音信息识别出用户的性别,据此翻译出与用户的性别相一致的语音信息,从而增强交流的真实性,提升用户体验。
本发明同时提出一种翻译设备,所述翻译设备包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序,所述应用程序被配置为用于执行语音翻译方法。所述语音翻译方法包括以下步骤:识别原始的语音信息的语音性别;根据原始的语音信息的语音性别选择对应的语音合成声纹;根据选择的语音合成声纹对原始的语音信息进行翻译处理,以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。本实施例中所描述的语音翻译方法为本发明中上述实施例所涉及的语音翻译方法,在此不再赘述。
本领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音翻译方法,其特征在于,包括以下步骤:
识别原始的语音信息的语音性别;
根据所述语音性别选择对应的语音合成声纹;
根据选择的语音合成声纹对所述原始的语音信息进行翻译处理,以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。
2.根据权利要求1所述的语音翻译方法,其特征在于,所述识别原始的语音信息的语音性别的步骤包括:
获取所述原始的语音信息的基音的频率;
比较所述基音的频率与门限值的大小;
当所述基音的频率小于或等于门限值时,识别所述原始的语音信息的语音性别为男声;
当所述基音的频率大于门限值时,识别所述原始的语音信息的语音性别为女声。
3.根据权利要求2所述的语音翻译方法,其特征在于,所述获取所述原始的语音信息的基音的频率的步骤包括:
以预设的采样频率对所述原始的语音信息连续采样M帧,M≥2;
对采集的语音帧进行基音频率特征提取;
根据提取的基音频率特征统计出所述原始的语音信息的基音的频率。
4.根据权利要求1-3任一项所述的语音翻译方法,其特征在于,所述根据选择的语音合成声纹对所述原始的语音信息进行翻译处理的步骤包括:
对所述原始的语音信息进行语音识别处理,得到原始语言的第一字符串;
对所述第一字符串进行文字翻译处理,得到目标语言的第二字符串;
利用选择的语音合成声纹对所述第二字符串进行语音合成处理,得到目标语言的语音信息。
5.根据权利要求2或3所述的语音翻译方法,其特征在于,所述语音合成声纹包括男声声纹和女声声纹,所述根据所述语音性别选择对应的语音合成声纹的步骤包括:
当所述语音性别为男声时,选择所述男声声纹;
当所述语音性别为女声时,选择所述女声声纹。
6.一种语音翻译装置,其特征在于,包括:
性别识别模块,用于识别原始的语音信息的语音性别;
声纹选择模块,用于根据所述语音性别选择对应的语音合成声纹;
翻译处理模块,用于根据选择的语音合成声纹对所述原始的语音信息进行翻译处理,以使翻译处理后的语音信息的语音性别与原始的语音信息的语音性别相一致。
7.根据权利要求6所述的语音翻译装置,其特征在于,所述性别识别模块包括:
获取单元,用于获取所述原始的语音信息的基音的频率;
比较单元,用于比较所述基音的频率与门限值的大小;
第一识别单元,用于当所述基音的频率小于或等于门限值时,确定所述原始的语音信息的语音性别为男声;
第二识别单元,用于当所述基音的频率大于门限值时,确定所述原始的语音信息的语音性别为女声。
8.根据权利要求7所述的语音翻译装置,其特征在于,所述获取单元包括:
采样子单元,用于以预设的采样频率对所述原始的语音信息连续采样M帧,M≥2;
提取子单元,用于对采集的语音帧进行基音频率特征提取;
统计子单元,用于根据提取的基音频率特征统计出所述原始的语音信息的基音的频率。
9.根据权利要求6-8任一项所述的语音翻译装置,其特征在于,所述翻译处理模块包括:
第一处理单元,用于对所述原始的语音信息进行语音识别处理,得到原始语言的第一字符串;
第二处理单元,用于对所述第一字符串进行文字翻译处理,得到目标语言的第二字符串;
第三处理单元,用于利用选择的语音合成声纹对所述第二字符串进行语音合成处理,得到目标语言的语音信息。
10.根据权利要求7或8所述的语音翻译装置,其特征在于,所述语音合成声纹包括男声声纹和女声声纹,所述声纹选择模块包括:
第一选择单元,用于当所述语音性别为男声时,选择所述男声声纹;
第二选择单元,用于当所述语音性别为女声时,选择所述女声声纹。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710967364.0A CN107731232A (zh) | 2017-10-17 | 2017-10-17 | 语音翻译方法和装置 |
PCT/CN2017/111961 WO2019075829A1 (zh) | 2017-10-17 | 2017-11-20 | 语音翻译方法、装置和翻译设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710967364.0A CN107731232A (zh) | 2017-10-17 | 2017-10-17 | 语音翻译方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107731232A true CN107731232A (zh) | 2018-02-23 |
Family
ID=61211655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710967364.0A Pending CN107731232A (zh) | 2017-10-17 | 2017-10-17 | 语音翻译方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107731232A (zh) |
WO (1) | WO2019075829A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831436A (zh) * | 2018-06-12 | 2018-11-16 | 深圳市合言信息科技有限公司 | 一种模拟说话者情绪优化翻译后文本语音合成的方法 |
WO2019165748A1 (zh) * | 2018-02-28 | 2019-09-06 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN112201224A (zh) * | 2020-10-09 | 2021-01-08 | 北京分音塔科技有限公司 | 用于即时通话同声翻译的方法、设备及*** |
CN112614482A (zh) * | 2020-12-16 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 移动端外语翻译方法、***及存储介质 |
CN112989847A (zh) * | 2021-03-11 | 2021-06-18 | 读书郎教育科技有限公司 | 一种扫描笔的录音翻译***及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007003897A (ja) * | 2005-06-24 | 2007-01-11 | Toppan Printing Co Ltd | カラオケシステム、装置およびプログラム |
US20080059147A1 (en) * | 2006-09-01 | 2008-03-06 | International Business Machines Corporation | Methods and apparatus for context adaptation of speech-to-speech translation systems |
CN101175272A (zh) * | 2007-09-19 | 2008-05-07 | 中兴通讯股份有限公司 | 一种用声音读出文本短消息的方法 |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
KR20100068965A (ko) * | 2008-12-15 | 2010-06-24 | 한국전자통신연구원 | 자동 통역 장치 및 그 방법 |
JP2011197542A (ja) * | 2010-03-23 | 2011-10-06 | Mitsubishi Electric Corp | 韻律パターン生成装置 |
CN103956163A (zh) * | 2014-04-23 | 2014-07-30 | 成都零光量子科技有限公司 | 普通语音与加密语音的相互转换***及方法 |
CN105208194A (zh) * | 2015-08-17 | 2015-12-30 | 努比亚技术有限公司 | 语音播报装置及方法 |
CN105913854A (zh) * | 2016-04-15 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 语音信号级联处理方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9053096B2 (en) * | 2011-12-01 | 2015-06-09 | Elwha Llc | Language translation based on speaker-related information |
JP2013206253A (ja) * | 2012-03-29 | 2013-10-07 | Toshiba Corp | 機械翻訳装置、方法、およびプログラム |
CN103236259B (zh) * | 2013-03-22 | 2016-06-29 | 乐金电子研发中心(上海)有限公司 | 语音识别处理及反馈***、语音回复方法 |
CN103559180A (zh) * | 2013-10-12 | 2014-02-05 | 安波 | 交谈翻译机 |
CN106156009A (zh) * | 2015-04-13 | 2016-11-23 | 中兴通讯股份有限公司 | 语音翻译方法及装置 |
CN106528547A (zh) * | 2016-11-09 | 2017-03-22 | 王东宇 | 一种翻译机的翻译方法 |
-
2017
- 2017-10-17 CN CN201710967364.0A patent/CN107731232A/zh active Pending
- 2017-11-20 WO PCT/CN2017/111961 patent/WO2019075829A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007003897A (ja) * | 2005-06-24 | 2007-01-11 | Toppan Printing Co Ltd | カラオケシステム、装置およびプログラム |
US20080059147A1 (en) * | 2006-09-01 | 2008-03-06 | International Business Machines Corporation | Methods and apparatus for context adaptation of speech-to-speech translation systems |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
CN101175272A (zh) * | 2007-09-19 | 2008-05-07 | 中兴通讯股份有限公司 | 一种用声音读出文本短消息的方法 |
KR20100068965A (ko) * | 2008-12-15 | 2010-06-24 | 한국전자통신연구원 | 자동 통역 장치 및 그 방법 |
JP2011197542A (ja) * | 2010-03-23 | 2011-10-06 | Mitsubishi Electric Corp | 韻律パターン生成装置 |
CN103956163A (zh) * | 2014-04-23 | 2014-07-30 | 成都零光量子科技有限公司 | 普通语音与加密语音的相互转换***及方法 |
CN105208194A (zh) * | 2015-08-17 | 2015-12-30 | 努比亚技术有限公司 | 语音播报装置及方法 |
CN105913854A (zh) * | 2016-04-15 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 语音信号级联处理方法和装置 |
Non-Patent Citations (2)
Title |
---|
国家经贸委经济研究中心中国国际名牌协会: "《中国经济技术发展优秀文集》", 30 June 2003, 中国文史出版社 * |
陈力为 袁琦: "《语言工程》", 31 August 1997 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019165748A1 (zh) * | 2018-02-28 | 2019-09-06 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN108831436A (zh) * | 2018-06-12 | 2018-11-16 | 深圳市合言信息科技有限公司 | 一种模拟说话者情绪优化翻译后文本语音合成的方法 |
CN112201224A (zh) * | 2020-10-09 | 2021-01-08 | 北京分音塔科技有限公司 | 用于即时通话同声翻译的方法、设备及*** |
CN112614482A (zh) * | 2020-12-16 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 移动端外语翻译方法、***及存储介质 |
CN112989847A (zh) * | 2021-03-11 | 2021-06-18 | 读书郎教育科技有限公司 | 一种扫描笔的录音翻译***及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019075829A1 (zh) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107731232A (zh) | 语音翻译方法和装置 | |
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
US8510103B2 (en) | System and method for voice recognition | |
US9230547B2 (en) | Metadata extraction of non-transcribed video and audio streams | |
CN108305626A (zh) | 应用程序的语音控制方法和装置 | |
CN110049270A (zh) | 多人会议语音转写方法、装置、***、设备及存储介质 | |
US10181333B2 (en) | Intelligent truthfulness indicator association | |
CN110149805A (zh) | 双向语音翻译***、双向语音翻译方法和程序 | |
CN110069608A (zh) | 一种语音交互的方法、装置、设备和计算机存储介质 | |
CN107943914A (zh) | 语音信息处理方法和装置 | |
CN109801634A (zh) | 一种声纹特征的融合方法及装置 | |
CN107749296A (zh) | 语音翻译方法和装置 | |
WO2023222088A1 (zh) | 语音识别与分类方法和装置 | |
WO2020098523A1 (zh) | 一种语音识别方法、装置及计算设备 | |
CN107104994A (zh) | 语音识别方法、电子装置及语音识别*** | |
CN111883135A (zh) | 语音转写方法、装置和电子设备 | |
CN108628813A (zh) | 处理方法和装置、用于处理的装置 | |
CN111611358A (zh) | 信息交互方法、装置、电子设备及存储介质 | |
CN113948090B (zh) | 语音检测方法、会话记录产品及计算机存储介质 | |
CN108322770A (zh) | 视频节目识别方法、相关装置、设备和*** | |
CN113571044A (zh) | 语音信息处理方法、装置和电子设备 | |
CN107656923A (zh) | 语音翻译方法和装置 | |
CN112712793A (zh) | 语音交互下基于预训练模型的asr纠错方法及相关设备 | |
CN112269468A (zh) | 基于蓝牙、2.4g、wifi连接获取云端资讯的人机交互智能眼镜、方法及其平台 | |
CN111833907A (zh) | 一种人机交互方法与终端、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180223 |