CN110610720B - 一种数据处理方法、装置和用于数据处理的装置 - Google Patents
一种数据处理方法、装置和用于数据处理的装置 Download PDFInfo
- Publication number
- CN110610720B CN110610720B CN201910889063.XA CN201910889063A CN110610720B CN 110610720 B CN110610720 B CN 110610720B CN 201910889063 A CN201910889063 A CN 201910889063A CN 110610720 B CN110610720 B CN 110610720B
- Authority
- CN
- China
- Prior art keywords
- target
- acoustic model
- user
- determining
- source language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 32
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 abstract description 61
- 230000006854 communication Effects 0.000 abstract description 20
- 238000004891 communication Methods 0.000 abstract description 19
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 241000167854 Bourreria succulenta Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 235000019693 cherries Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括:接收目标用户输入的源语言语音;根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;根据所述目标声学模型,将所述源语言语音转换为目标语言语音;输出所述目标语言语音。本发明实施例可以增加翻译设备输出的目标语言语音所对应的说话者的辨识度,可以提高用户交流的效果。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法、装置和用于数据处理的装置。
背景技术
在日常生活中,经常出现使用不同语言的用户之间需要进行交流的情况,如果交流的双方用户听不懂对方的语言,可以通过翻译设备实现正常的交流。
具体地,翻译设备可以接收用户的语音,并且对接收的语音进行语音识别,将接收的语音转换为源语言文本,然后对源语言文本进行翻译,得到目标语言文本,最后将目标语言文本合成语音播报出来。
然而,目前翻译设备在翻译过程中,通常将目标语言文本合成固定音色的声音进行播报,也就是说,不同用户在使用同一个翻译设备进行交流的过程中,翻译设备将不同用户的语音都转换为相同音色的声音,这样,在交流过程中,用户难以辨识不同的说话者,不仅影响用户体验,而且也影响用户交流的效果。
发明内容
本发明实施例提供一种数据处理方法、装置和用于数据处理的装置,可以增加翻译设备输出的目标语言语音所对应的说话者的辨识度,可以提高用户交流的效果。
为了解决上述问题,本发明实施例公开了一种数据处理方法,所述方法包括:
接收目标用户输入的源语言语音;
根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;
根据所述目标声学模型,将所述源语言语音转换为目标语言语音;
输出所述目标语言语音。
另一方面,本发明实施例公开了一种数据处理装置,所述装置包括:
语音接收模块,用于接收目标用户输入的源语言语音;
模型确定模块,用于根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;
语音转换模块,用于根据所述目标声学模型,将所述源语言语音转换为目标语言语音;
语音输出模块,用于输出所述目标语言语音。再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收目标用户输入的源语言语音;
根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;
根据所述目标声学模型,将所述源语言语音转换为目标语言语音;
输出所述目标语言语音。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的数据处理方法。
本发明实施例包括以下优点:
本发明实施例的翻译设备在接收到目标用户输入的源语言语音之后,可以根据所述源语言语音,从预设的声学模型库中确定目标声学模型;进而可以根据所述目标声学模型,将所述源语言语音转换为目标语言语音,并且输出所述目标语言语音。由于所述声学模型库中包括不同音色特征对应的至少两个声学模型,因此翻译设备可以根据不同目标用户输入的源语言语音,确定不同的目标声学模型,而不同的目标声学模型具有不同的音色特征,因此可以增加翻译设备输出的目标语言语音所对应的说话者的辨识度,可以提高用户交流的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种数据处理方法实施例的步骤流程图;
图2是本发明的一种数据处理装置实施例的结构框图;
图3是本发明的一种用于数据处理的装置800的框图;及
图4是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例
参照图1,示出了本发明的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、接收目标用户输入的源语言语音;
步骤102、根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;
步骤103、根据所述目标声学模型,将所述源语言语音转换为目标语言语音;
步骤104、输出所述目标语言语音。
本发明实施例的数据处理方法可应用于翻译设备,所述目标用户指当前向翻译设备输入源语言语音的用户。所述源语言语音可以为翻译设备实时录制的语音,或者还可以为翻译设备本地保存的语音,或者还可以为翻译设备从网络下载或者通过网络传输接收到的语音等。
所述翻译设备可以将源语言语音翻译为目标语言语音,该目标语言语音符合目标声学模型的音色特征。假设源语言为中文、目标语言为英文,则翻译设备可以接收用户输入的中文语音,以及输出翻译后的英文语音,并且该英文语音符合目标声学模型的音色特征。当然,本发明实施例对所述源语言以及目标语言的种类不加以限制。
具体地,所述翻译设备在接收到所述目标用户输入的源语言语音之后,可以根据所述源语言语音,从预设的声学模型库中确定目标声学模型。
其中,所述声学模型库中可以包括不同音色特征对应的至少两个声学模型。音色是指不同的声音的频率表现在波形方面总是有与众不同的特性。可以把音色理解为声音的特征,由于每一个人的音色特征不同,因此每一个人发出的声音也不一样。
本发明实施例的所述声学模型库中的至少两个声学模型可以对应不同用户声音的音色特征。所述目标声学模型的音色特征可以与所述源语言语音的音色特征相同,也即,翻译设备接收到目标用户输入的源语言语音之后,可以按照目标用户的声音输出目标语言语音。或者,所述目标声学模型的音色特征还可以与所述源语言语音的音色特征不一致,例如,所述目标声学模型的音色特征可以为所述目标用户预设声音的音色特征,或者符合所述目标用户喜好的音色特征等。
本发明实施例的翻译设备根据所述目标声学模型,将所述源语言语音转换为目标语言语音的具体过程可以如下:首先,对目标用户输入的源语言语音进行语音识别处理,得到源语言文本;然后,对所述源语言文本进行翻译,得到目标语言文本;接下来,根据所述源语言语音,从预设的声学模型库中确定目标声学模型;最后,根据所述目标声学模型,对所述目标语言文本进行语音合成,得到目标语言语音。
由于所述声学模型库中包括不同音色特征对应的至少两个声学模型,使得翻译设备可以根据不同目标用户输入的源语言语音,确定不同的目标声学模型,而不同的目标声学模型具有不同的音色特征,因此可以增加翻译设备输出的目标语言语音所对应的说话者的辨识度,可以提高用户交流的效果。
可以理解,本发明实施例对所述翻译设备的具体形式不加以限制,所述翻译设备可以为翻译机,或者,所述翻译设备还可以为具有翻译功能的电子设备,所述电子设备包括但不限于:服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
在本发明的一种可选实施例中,所述根据所述源语言语音,从预设的声学模型库中确定目标声学模型,具体可以包括:
步骤S11、对所述目标用户输入的源语言语音进行声纹识别,确定所述源语言语音对应的声纹特征;
步骤S12、根据所述声纹特征,确定所述目标用户的用户身份;
步骤S13、从预设的声学模型库中确定所述用户身份对应的目标声学模型。
在本发明实施例中,可以预先建立与用户身份相对应的至少两个声学模型,并且根据已建立的声学模型以及声学模型和用户身份之间的对应关系,建立预设的声学模型库。在预设的声学模型库中,不同的声学模型对应不同的用户身份,且不同用户身份对应的声学模型具有不同的音色特征。
在具体应用中,由于不同用户的声音具有不同的声纹特征,因此,本发明实施例可以通过用户的声纹特征来标识用户身份。
这样,在翻译设备接收到目标用户输入的源语言语音之后,可以对所述源语言语音进行声纹识别,确定所述源语言语音对应的声纹特征,进而可以根据该声纹特征,从预设的声学模型库中确定该声纹特征对应的目标声学模型。
在实际应用中,有些用户在输入源语言语音之后,可能需要翻译设备输出的目标语言语音仍然可以保持自己的声音;而有些用户在输入源语言语音之后,可能需要翻译设备输出的目标语言语音可以是自己喜欢的声音,如某个明星的声音等。为了满足不同用户的多样化需求,本发明实施例可以提供如下两种获取目标声学模型的可选方案。
方案一
在方案一中,翻译设备在接收到目标用户的源语言语音之后,输出的目标语言语音与源语言语音的音色特征相匹配。在本发明的一种可选实施例中,所述从预设的声学模型库中确定所述用户身份对应的目标声学模型,具体可以包括:
根据所述目标用户的用户身份,从所述预设的声学模型库中确定第一目标声学模型;其中,所述第一目标声学模型的音色特征与所述目标用户的预置音色特征相匹配。
其中,所述预置音色特征指用户正常情况下发音的音色特征。在本发明实施例中,可以收集不同用户的声音数据,根据每一个用户的声音数据建立与用户身份相对应的声学模型,进而可以根据用户身份与声学模型之间的关系,建立声学模型库。
这样,在翻译设备接收到目标用户输入的源语言语音之后,可以对所述源语言语音进行声纹识别,确定所述源语言语音对应的声纹特征,进而可以根据所述声纹特征,确定所述目标用户的用户身份,并且从预设的声学模型库中确定所述用户身份对应的第一目标声学模型。
由于所述第一目标声学模型为根据所述目标用户的声音数据所建立,因此,第一目标声学模型的音色特征与所述目标用户的预置音色特征相匹配。根据所述第一目标声学模型,可以将所述源语言语音转换为与目标用户的预置音色特征相匹配的目标语言语音,也即可以保持目标用户的声音不变。
在本发明的一种可选实施例中,所述从所述预设的声学模型库中确定第一目标声学模型之后,所述方法还可以包括:
根据所述目标用户的当前音色特征,对所述第一目标声学模型进行修正,得到修正后的第一目标声学模型;其中,所述修正后的第一目标声学模型的音色特征与所述目标用户的当前音色特征相匹配;
所述根据所述目标声学模型,将所述源语言语音转换为目标语言语音,具体可以包括:根据所述修正后的第一目标声学模型,将所述源语言语音转换为目标语言语音。
在实际应用中,由于用户自身状态或者外界环境的改变,可能导致用户的音色特征发生变化。例如,用户在感冒的情况下,其音色特征可能和建立该用户的第一目标声学模型的预置音色特征不同。因此,本发明实施例在从所述预设的声学模型库中确定第一目标声学模型之后,还可以根据目标用户的当前音色特征,对所述第一目标声学模型进行修正,得到符合用户当前音色特征的修正后的第一目标声学模型,进而可以根据所述修正后的第一目标声学模型,将用户当前输入的源语言语音转换为目标语言语音,由此,使得翻译设备输出的目标语言语音可以随着用户的音色特征的改变而自动调整,与用户的当前音色特征保持一致。
本发明实施例可以收集不同用户的声音数据,建立声学模型库。在本发明的一种可选实施例中,所述方法还可以包括:
步骤S21、收集用户的声音数据;
步骤S22、对收集的声音数据按照声纹特征进行分类,得到不同用户的声纹特征对应的声音数据集合;
步骤S23、将所述声音数据集合中的声音数据作为训练样本,训练得到各声纹特征对应的声学模型;其中,不同声纹特征对应的声学模型包含不同的音色特征;
步骤S24、根据所述各声纹特征对应的声学模型,建立所述预设的声学模型库。
在本发明实施例中,所述声学模型库中的每一个声学模型对应不同用户声音的音色特征。因此,本发明实施例首先收集不同用户的声音数据。当然,本发明实施例对收集不同用户的声音数据的具体方式不加以限制。
例如,可以提前录制不同用户的声音数据,或者,从网络大数据中获取不同用户的声音数据等。
由于同一个翻译设备可以供多个用户使用,因此,本发明实施例可以在用户使用翻译设备的过程中,保存不同用户输入的源语言语音,将保存的源语言语音作为收集的不同用户的声音数据。
这样,本发明实施例可以实现在用户无感知的情况下,建立不同用户的声学模型。具体地,在未建立用户的声学模型的情况下,翻译设备可以提供默认的声学模型,该默认的声学模型具有默认的音色特征,此时,用户使用该翻译设备时,翻译设备可以输出默认音色特征的目标语言语音。
具体地,翻译设备在接收到用户输入的源语言语音时,可以对当前接收的源语言语音进行声纹识别,得到当前的声纹特征,进而可以将当前接收的源语言语音保存在当前的声纹特征所对应的声音数据集合中。从而可以将不同声纹特征的声音数据划分至不同的声音数据集合中,由此可以对收集的声音数据按照声纹特征进行分类,得到不同用户的声纹特征对应的声音数据集合,其中,不同声纹特征对应的声学模型对应不同用户声音的音色特征。
可选地,本发明实施例可以将收集的声音数据集合保存在翻译设备本地,由于声学模型的训练过程需要进行大量的计算,因此,本发明实施例可以在翻译设备有网络连接的情况下,将保存在本地的声音数据集合上传至服务器,在服务器训练得到不同用户的声学模型。
翻译设备可以将服务器中不同用户的声学模型下载到本地,以实现离线语音合成,或者,也可以直接通过服务器中的声学模型实现在线语音合成。
在翻译设备使用默认的声学模型对用户输入的源语言语音进行翻译的过程中,不断收集不同用户的声音数据,在某个用户的声音数据集合中的声音数据积累到满足训练声学模型条件的情况下,可以将该声音数据集合中的声音数据作为训练样本,训练得到该声音数据集合对应的声学模型。
需要说明的是,本发明实施例对所述声学模型的具体类型不加以限制,所述声学模型可以为神经网络模型。所述神经网络模型可以融合多种神经网络,所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套:CNN(Convolutional NeuralNetwork,卷积神经网络)、LSTM(LongShort-Term Memory,长短时记忆)网络、RNN(SimpleRecurrent Neural Network,循环神经网络)、注意力神经网络等。
可以理解,本发明实施例对所述声学模型的训练方法不加以限制。例如,可以收集某用户的声音数据,将该用户的声音数据作为训练样本,训练得到该用户的声学模型。或者,还可以在收集该用户的声音数据的过程中,保存该声音数据对应的文本信息,将该用户的声音数据以及该声音数据对应的文本信息作为训练样本,训练得到该用户的声学模型等。
在本发明的一种可选实施例中,所述根据所述源语言语音,从预设的声学模型库中确定目标声学模型,包括:
根据所述源语言语音的声纹特征,在预设的声学模型库中查找是否存在所述源语言语音的声纹特征对应的声学模型,若存在,则将所述源语言语音的声纹特征对应的声学模型作为所述目标声学模型。
在本发明实施例中,翻译设备在接收到目标用户输入的源语言语音之后,可以提取源语言语音的声纹特征,并且在预设的声学模型库中查找是否存在所述源语言语音的声纹特征对应的声学模型,如果存在,说明预设的声学模型库中已建立该目标用户的声学模型,则可以将查找得到的该声学模型作为目标声学模型。
如果预设的声学模型库中不存在所述源语言语音的声纹特征对应的声学模型,说明预设的声学模型库中还未建立该目标用户的声学模型,则可以使用默认的声学模型合成目标语言语音,并且将该目标用户当前输入的源语言语音保存到该目标用户的声纹特征所对应的声音数据集合中,以积累该目标用户的声音数据。
在该目标用户的声纹特征所对应的声音数据集合中的声音数据积累到一定程度之后,可以根据该声音数据集合中的声音数据建立该目标用户的声学模型,这样,在该目标用户再次使用该翻译设备时,可以使用该目标用户的声学模型合成目标语言语音,使得目标语言语音符合该目标用户声音的音色特征。
在本发明的一种可选实施例中,所述方法还可以包括:
步骤S31、保存所述目标用户输入的源语言语音,以更新所述目标用户的声纹特征对应的声音数据集合;
步骤S32、根据更新后的所述目标用户的声纹特征对应的声音数据集合,对所述目标用户的声纹特征对应的声学模型进行优化处理。
如果预设的声学模型库中已经建立目标用户的声学模型,翻译设备还可以保存所述目标用户输入的源语言语音,以更新所述目标用户的声纹特征对应的声音数据集合,进而可以根据更新后的所述目标用户的声纹特征对应的声音数据集合,对所述目标用户的声纹特征对应的声学模型进行优化处理。
具体地,可以将更新后的所述目标用户的声纹特征对应的声音数据集合中的声音数据作为训练样本,优化该目标用户的声纹特征对应的声学模型,使得优化后的声学模型的音色特征更加接近目标用户的音色特征。
由此,用户在首次使用翻译设备时,翻译设备输出的目标语言语音符合默认的音色特征,但是在用户不断使用该翻译设备的过程中,翻译设备可以逐步积累用户的声音数据,并且建立用户的声学模型,在建立用户的声学模型之后,翻译设备即可输出与源语言语音声音相同的目标语言语音,并且随着用户继续使用翻译设备,可以对用户的声学模型不断优化,使得翻译设备输出的目标语言语音与用户的音色特征更加接近。
方案二
在本发明的一种可选实施例中,所述从预设的声学模型库中确定所述用户身份对应的目标声学模型,具体可以包括:
步骤S41、根据所述目标用户的用户身份,确定所述目标用户的音色偏好;
步骤S42、根据所述音色偏好,从所述预设的声学模型库中确定第二目标声学模型;其中,所述第二目标声学模型的音色特征与所述目标用户的音色偏好相匹配。
在本发明实施例中,翻译设备在接收到目标用户输入的源语言语音之后,可以输出与源语言语音声音不一致的目标语言语音,以增加语音翻译的多样性和趣味性。
具体地,翻译设备可以根据目标用户的用户身份,确定所述目标用户的音色偏好。所述音色偏好可以为根据用户的预先设置所得到。例如,用户可以预先设置自己的音色偏好,将音色偏好设置为某个明星或者当红网络名人的音色,或者还可以将音色偏好设置为蜡笔小新、樱桃小丸子等卡通人物的音色等。或者,本发明实施例还可以根据用户的历史行为数据进行分析所得到用户的音色偏好。
本发明实施例根据所述目标用户的音色偏好,可以从所述预设的声学模型库中确定音色特征与所述目标用户的音色偏好相匹配的第二目标声学模型。
由此,通过本发明实施例,翻译设备可以根据目标用户的音色偏好,输出与目标用户的音色偏好相匹配的目标语言语音,该目标语言语音的音色特征可以与目标用户的音色特征相匹配,或者,该目标语言语音的音色特征可以与目标用户的音色特征不匹配,可以增加语音翻译的多样性和趣味性。
综上,本发明实施例的翻译设备在接收到目标用户输入的源语言语音之后,可以根据所述源语言语音,从预设的声学模型库中确定目标声学模型;进而可以根据所述目标声学模型,将所述源语言语音转换为目标语言语音,并且输出所述目标语言语音。由于所述声学模型库中包括不同音色特征对应的至少两个声学模型,因此翻译设备可以根据不同目标用户输入的源语言语音,确定不同的目标声学模型,而不同的目标声学模型具有不同的音色特征,因此可以增加翻译设备输出的目标语言语音所对应的说话者的辨识度,可以提高用户交流的效果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
装置实施例
参照图2,示出了本发明的一种数据处理装置实施例的结构框图,所述装置具体可以包括:
语音接收模块201,用于接收目标用户输入的源语言语音;
模型确定模块202,用于根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;
语音转换模块203,用于根据所述目标声学模型,将所述源语言语音转换为目标语言语音;
语音输出模块204,用于输出所述目标语言语音。
可选地,所述模型确定模块,包括:
声纹识别子模块,用于对所述目标用户输入的源语言语音进行声纹识别,确定所述源语言语音对应的声纹特征;
身份确定子模块,用于根据所述声纹特征,确定所述目标用户的用户身份;
模型确定子模块,用于从预设的声学模型库中确定所述用户身份对应的目标声学模型。
可选地,所述模型确定模块,具体用于:根据所述目标用户的用户身份,从所述预设的声学模型库中确定第一目标声学模型;其中,所述第一目标声学模型的音色特征与所述目标用户的预置音色特征相匹配。
可选地,所述装置还可以包括:
模型修正模块,用于根据所述目标用户的当前音色特征,对所述第一目标声学模型进行修正,得到修正后的第一目标声学模型;其中,所述修正后的第一目标声学模型的音色特征与所述目标用户的当前音色特征相匹配;
所述语音转换模块,具体用于根据所述修正后的第一目标声学模型,将所述源语言语音转换为目标语言语音。
可选地,所述模型确定模块,具体用于:根据所述目标用户的用户身份,确定所述目标用户的音色偏好;根据所述音色偏好,从所述预设的声学模型库中确定第二目标声学模型;其中,所述第二目标声学模型的音色特征与所述目标用户的音色偏好相匹配。
可选地,所述装置还包括:
数据收集模块,用于收集用户的声音数据;
数据划分模块,用于对收集的声音数据按照声纹特征进行分类,得到不同用户的声纹特征对应的声音数据集合;
模型训练模块,用于将所述声音数据集合中的声音数据作为训练样本,训练得到各声纹特征对应的声学模型;其中,不同声纹特征对应的声学模型包含不同的音色特征;
模型库建立模块,用于根据所述各声纹特征对应的声学模型,建立所述预设的声学模型库。
可选地,所述装置还包括:
数据保存模块,用于保存所述目标用户输入的源语言语音,以更新所述目标用户的声纹特征对应的声音数据集合;
模型优化模块,用于根据更新后的所述目标用户的声纹特征对应的声音数据集合,对所述目标用户的声纹特征对应的声学模型进行优化处理。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收目标用户输入的源语言语音;根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;根据所述目标声学模型,将所述源语言语音转换为目标语言语音;输出所述目标语言语音。
图3是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频信息处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图1所示的数据处理方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:接收目标用户输入的源语言语音;根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;根据所述目标声学模型,将所述源语言语音转换为目标语言语音;输出所述目标语言语音。
本发明实施例公开了A1、一种数据处理方法,包括:
接收目标用户输入的源语言语音;
根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;
根据所述目标声学模型,将所述源语言语音转换为目标语言语音;
输出所述目标语言语音。
A2、根据A1所述的方法,所述根据所述源语言语音,从预设的声学模型库中确定目标声学模型,包括:
对所述目标用户输入的源语言语音进行声纹识别,确定所述源语言语音对应的声纹特征;
根据所述声纹特征,确定所述目标用户的用户身份;
从预设的声学模型库中确定所述用户身份对应的目标声学模型。
A3、根据A2所述的方法,所述从预设的声学模型库中确定所述用户身份对应的目标声学模型,包括:
根据所述目标用户的用户身份,从所述预设的声学模型库中确定第一目标声学模型;其中,所述第一目标声学模型的音色特征与所述目标用户的预置音色特征相匹配。
A4、根据A3所述的方法,所述从所述预设的声学模型库中确定第一目标声学模型之后,所述方法还包括:
根据所述目标用户的当前音色特征,对所述第一目标声学模型进行修正,得到修正后的第一目标声学模型;其中,所述修正后的第一目标声学模型的音色特征与所述目标用户的当前音色特征相匹配;
所述根据所述目标声学模型,将所述源语言语音转换为目标语言语音,包括:
根据所述修正后的第一目标声学模型,将所述源语言语音转换为目标语言语音。
A5、根据A2所述的方法,所述从预设的声学模型库中确定所述用户身份对应的目标声学模型,包括:
根据所述目标用户的用户身份,确定所述目标用户的音色偏好;
根据所述音色偏好,从所述预设的声学模型库中确定第二目标声学模型;其中,所述第二目标声学模型的音色特征与所述目标用户的音色偏好相匹配。
A6、根据A1所述的方法,所述方法还包括:
收集用户的声音数据;
对收集的声音数据按照声纹特征进行分类,得到不同用户的声纹特征对应的声音数据集合;
将所述声音数据集合中的声音数据作为训练样本,训练得到各声纹特征对应的声学模型;其中,不同声纹特征对应的声学模型包含不同的音色特征;
根据所述各声纹特征对应的声学模型,建立所述预设的声学模型库。
A7、根据A6所述的方法,所述方法还包括:
保存所述目标用户输入的源语言语音,以更新所述目标用户的声纹特征对应的声音数据集合;
根据更新后的所述目标用户的声纹特征对应的声音数据集合,对所述目标用户的声纹特征对应的声学模型进行优化处理。
本发明实施例公开了B8、一种数据处理装置,包括:
语音接收模块,用于接收目标用户输入的源语言语音;
模型确定模块,用于根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;
语音转换模块,用于根据所述目标声学模型,将所述源语言语音转换为目标语言语音;
语音输出模块,用于输出所述目标语言语音。
B9、根据B8所述的装置,所述模型确定模块,包括:
声纹识别子模块,用于对所述目标用户输入的源语言语音进行声纹识别,确定所述源语言语音对应的声纹特征;
身份确定子模块,用于根据所述声纹特征,确定所述目标用户的用户身份;
模型确定子模块,用于从预设的声学模型库中确定所述用户身份对应的目标声学模型。
B10、根据B9所述的装置,所述模型确定模块,具体用于:根据所述目标用户的用户身份,从所述预设的声学模型库中确定第一目标声学模型;其中,所述第一目标声学模型的音色特征与所述目标用户的预置音色特征相匹配。
B11、根据B10所述的装置,所述装置还包括:
模型修正模块,用于根据所述目标用户的当前音色特征,对所述第一目标声学模型进行修正,得到修正后的第一目标声学模型;其中,所述修正后的第一目标声学模型的音色特征与所述目标用户的当前音色特征相匹配;
所述语音转换模块,具体用于根据所述修正后的第一目标声学模型,将所述源语言语音转换为目标语言语音。
B12、根据B9所述的装置,所述模型确定模块,具体用于:根据所述目标用户的用户身份,确定所述目标用户的音色偏好;根据所述音色偏好,从所述预设的声学模型库中确定第二目标声学模型;其中,所述第二目标声学模型的音色特征与所述目标用户的音色偏好相匹配。
B13、根据B8所述的装置,所述装置还包括:
数据收集模块,用于收集用户的声音数据;
数据划分模块,用于对收集的声音数据按照声纹特征进行分类,得到不同用户的声纹特征对应的声音数据集合;
模型训练模块,用于将所述声音数据集合中的声音数据作为训练样本,训练得到各声纹特征对应的声学模型;其中,不同声纹特征对应的声学模型包含不同的音色特征;
模型库建立模块,用于根据所述各声纹特征对应的声学模型,建立所述预设的声学模型库。
B14、根据B13所述的装置,所述装置还包括:
数据保存模块,用于保存所述目标用户输入的源语言语音,以更新所述目标用户的声纹特征对应的声音数据集合;
模型优化模块,用于根据更新后的所述目标用户的声纹特征对应的声音数据集合,对所述目标用户的声纹特征对应的声学模型进行优化处理。
本发明实施例公开了C15、一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收目标用户输入的源语言语音;
根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;
根据所述目标声学模型,将所述源语言语音转换为目标语言语音;
输出所述目标语言语音。
C16、根据C15所述的装置,所述根据所述源语言语音,从预设的声学模型库中确定目标声学模型,包括:
对所述目标用户输入的源语言语音进行声纹识别,确定所述源语言语音对应的声纹特征;
根据所述声纹特征,确定所述目标用户的用户身份;
从预设的声学模型库中确定所述用户身份对应的目标声学模型。
C17、根据C16所述的装置,所述从预设的声学模型库中确定所述用户身份对应的目标声学模型,包括:
根据所述目标用户的用户身份,从所述预设的声学模型库中确定第一目标声学模型;其中,所述第一目标声学模型的音色特征与所述目标用户的预置音色特征相匹配。
C18、根据C17所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
根据所述目标用户的当前音色特征,对所述第一目标声学模型进行修正,得到修正后的第一目标声学模型;其中,所述修正后的第一目标声学模型的音色特征与所述目标用户的当前音色特征相匹配;
所述根据所述目标声学模型,将所述源语言语音转换为目标语言语音,包括:
根据所述修正后的第一目标声学模型,将所述源语言语音转换为目标语言语音。
C19、根据C16所述的装置,所述从预设的声学模型库中确定所述用户身份对应的目标声学模型,包括:
根据所述目标用户的用户身份,确定所述目标用户的音色偏好;
根据所述音色偏好,从所述预设的声学模型库中确定第二目标声学模型;其中,所述第二目标声学模型的音色特征与所述目标用户的音色偏好相匹配。
C20、根据C15所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
收集用户的声音数据;
对收集的声音数据按照声纹特征进行分类,得到不同用户的声纹特征对应的声音数据集合;
将所述声音数据集合中的声音数据作为训练样本,训练得到各声纹特征对应的声学模型;其中,不同声纹特征对应的声学模型包含不同的音色特征;
根据所述各声纹特征对应的声学模型,建立所述预设的声学模型库。
C21、根据C20所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
保存所述目标用户输入的源语言语音,以更新所述目标用户的声纹特征对应的声音数据集合;
根据更新后的所述目标用户的声纹特征对应的声音数据集合,对所述目标用户的声纹特征对应的声学模型进行优化处理。
本发明实施例公开了D22、一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如A1至A7中一个或多个所述的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (19)
1.一种数据处理方法,其特征在于,所述方法包括:
接收目标用户输入的源语言语音;
根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;
根据所述目标声学模型,将所述源语言语音转换为目标语言语音;
输出所述目标语言语音;
所述根据所述源语言语音,从预设的声学模型库中确定目标声学模型,包括:
对所述目标用户输入的源语言语音进行声纹识别,确定所述源语言语音对应的声纹特征;
根据所述声纹特征,确定所述目标用户的用户身份;
从预设的声学模型库中确定所述用户身份对应的目标声学模型;
其中,所述预设的声学模型库中,不同的声学模型对应不同的用户身份,且不同用户身份对应的声学模型具有不同的音色特征。
2.根据权利要求1所述的方法,其特征在于,所述从预设的声学模型库中确定所述用户身份对应的目标声学模型,包括:
根据所述目标用户的用户身份,从所述预设的声学模型库中确定第一目标声学模型;其中,所述第一目标声学模型的音色特征与所述目标用户的预置音色特征相匹配。
3.根据权利要求2所述的方法,其特征在于,所述从所述预设的声学模型库中确定第一目标声学模型之后,所述方法还包括:
根据所述目标用户的当前音色特征,对所述第一目标声学模型进行修正,得到修正后的第一目标声学模型;其中,所述修正后的第一目标声学模型的音色特征与所述目标用户的当前音色特征相匹配;
所述根据所述目标声学模型,将所述源语言语音转换为目标语言语音,包括:
根据所述修正后的第一目标声学模型,将所述源语言语音转换为目标语言语音。
4.根据权利要求1所述的方法,其特征在于,所述从预设的声学模型库中确定所述用户身份对应的目标声学模型,包括:
根据所述目标用户的用户身份,确定所述目标用户的音色偏好;
根据所述音色偏好,从所述预设的声学模型库中确定第二目标声学模型;其中,所述第二目标声学模型的音色特征与所述目标用户的音色偏好相匹配。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
收集用户的声音数据;
对收集的声音数据按照声纹特征进行分类,得到不同用户的声纹特征对应的声音数据集合;
将所述声音数据集合中的声音数据作为训练样本,训练得到各声纹特征对应的声学模型;其中,不同声纹特征对应的声学模型包含不同的音色特征;
根据所述各声纹特征对应的声学模型,建立所述预设的声学模型库。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
保存所述目标用户输入的源语言语音,以更新所述目标用户的声纹特征对应的声音数据集合;
根据更新后的所述目标用户的声纹特征对应的声音数据集合,对所述目标用户的声纹特征对应的声学模型进行优化处理。
7.一种数据处理装置,其特征在于,所述装置包括:
语音接收模块,用于接收目标用户输入的源语言语音;
模型确定模块,用于根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;
语音转换模块,用于根据所述目标声学模型,将所述源语言语音转换为目标语言语音;
语音输出模块,用于输出所述目标语言语音;
所述模型确定模块,包括:
声纹识别子模块,用于对所述目标用户输入的源语言语音进行声纹识别,确定所述源语言语音对应的声纹特征;
身份确定子模块,用于根据所述声纹特征,确定所述目标用户的用户身份;
模型确定子模块,用于从预设的声学模型库中确定所述用户身份对应的目标声学模型;
其中,所述预设的声学模型库中,不同的声学模型对应不同的用户身份,且不同用户身份对应的声学模型具有不同的音色特征。
8.根据权利要求7所述的装置,其特征在于,所述模型确定模块,具体用于:根据所述目标用户的用户身份,从所述预设的声学模型库中确定第一目标声学模型;其中,所述第一目标声学模型的音色特征与所述目标用户的预置音色特征相匹配。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
模型修正模块,用于根据所述目标用户的当前音色特征,对所述第一目标声学模型进行修正,得到修正后的第一目标声学模型;其中,所述修正后的第一目标声学模型的音色特征与所述目标用户的当前音色特征相匹配;
所述语音转换模块,具体用于根据所述修正后的第一目标声学模型,将所述源语言语音转换为目标语言语音。
10.根据权利要求7所述的装置,其特征在于,所述模型确定模块,具体用于:根据所述目标用户的用户身份,确定所述目标用户的音色偏好;根据所述音色偏好,从所述预设的声学模型库中确定第二目标声学模型;其中,所述第二目标声学模型的音色特征与所述目标用户的音色偏好相匹配。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
数据收集模块,用于收集用户的声音数据;
数据划分模块,用于对收集的声音数据按照声纹特征进行分类,得到不同用户的声纹特征对应的声音数据集合;
模型训练模块,用于将所述声音数据集合中的声音数据作为训练样本,训练得到各声纹特征对应的声学模型;其中,不同声纹特征对应的声学模型包含不同的音色特征;
模型库建立模块,用于根据所述各声纹特征对应的声学模型,建立所述预设的声学模型库。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
数据保存模块,用于保存所述目标用户输入的源语言语音,以更新所述目标用户的声纹特征对应的声音数据集合;
模型优化模块,用于根据更新后的所述目标用户的声纹特征对应的声音数据集合,对所述目标用户的声纹特征对应的声学模型进行优化处理。
13.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收目标用户输入的源语言语音;
根据所述源语言语音,从预设的声学模型库中确定目标声学模型;其中,所述声学模型库中包括不同音色特征对应的至少两个声学模型;
根据所述目标声学模型,将所述源语言语音转换为目标语言语音;
输出所述目标语言语音;
对所述目标用户输入的源语言语音进行声纹识别,确定所述源语言语音对应的声纹特征;
根据所述声纹特征,确定所述目标用户的用户身份;
从预设的声学模型库中确定所述用户身份对应的目标声学模型;
其中,所述预设的声学模型库中,不同的声学模型对应不同的用户身份,且不同用户身份对应的声学模型具有不同的音色特征。
14.根据权利要求13所述的装置,其特征在于,所述从预设的声学模型库中确定所述用户身份对应的目标声学模型,包括:
根据所述目标用户的用户身份,从所述预设的声学模型库中确定第一目标声学模型;其中,所述第一目标声学模型的音色特征与所述目标用户的预置音色特征相匹配。
15.根据权利要求14所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
根据所述目标用户的当前音色特征,对所述第一目标声学模型进行修正,得到修正后的第一目标声学模型;其中,所述修正后的第一目标声学模型的音色特征与所述目标用户的当前音色特征相匹配;
所述根据所述目标声学模型,将所述源语言语音转换为目标语言语音,包括:
根据所述修正后的第一目标声学模型,将所述源语言语音转换为目标语言语音。
16.根据权利要求13所述的装置,其特征在于,所述从预设的声学模型库中确定所述用户身份对应的目标声学模型,包括:
根据所述目标用户的用户身份,确定所述目标用户的音色偏好;
根据所述音色偏好,从所述预设的声学模型库中确定第二目标声学模型;其中,所述第二目标声学模型的音色特征与所述目标用户的音色偏好相匹配。
17.根据权利要求13所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
收集用户的声音数据;
对收集的声音数据按照声纹特征进行分类,得到不同用户的声纹特征对应的声音数据集合;
将所述声音数据集合中的声音数据作为训练样本,训练得到各声纹特征对应的声学模型;其中,不同声纹特征对应的声学模型包含不同的音色特征;
根据所述各声纹特征对应的声学模型,建立所述预设的声学模型库。
18.根据权利要求17所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
保存所述目标用户输入的源语言语音,以更新所述目标用户的声纹特征对应的声音数据集合;
根据更新后的所述目标用户的声纹特征对应的声音数据集合,对所述目标用户的声纹特征对应的声学模型进行优化处理。
19.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至6中一个或多个所述的数据处理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910889063.XA CN110610720B (zh) | 2019-09-19 | 2019-09-19 | 一种数据处理方法、装置和用于数据处理的装置 |
PCT/CN2019/118119 WO2021051588A1 (zh) | 2019-09-19 | 2019-11-13 | 一种数据处理方法、装置和用于数据处理的装置 |
US16/698,750 US11354520B2 (en) | 2019-09-19 | 2019-11-27 | Data processing method and apparatus providing translation based on acoustic model, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910889063.XA CN110610720B (zh) | 2019-09-19 | 2019-09-19 | 一种数据处理方法、装置和用于数据处理的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110610720A CN110610720A (zh) | 2019-12-24 |
CN110610720B true CN110610720B (zh) | 2022-02-25 |
Family
ID=68891636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910889063.XA Active CN110610720B (zh) | 2019-09-19 | 2019-09-19 | 一种数据处理方法、装置和用于数据处理的装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11354520B2 (zh) |
CN (1) | CN110610720B (zh) |
WO (1) | WO2021051588A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539233A (zh) * | 2020-04-16 | 2021-10-22 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN113744431B (zh) * | 2020-05-14 | 2024-04-09 | 大富科技(安徽)股份有限公司 | 一种共享单车车锁控制装置、方法、设备及介质 |
CN112116904B (zh) * | 2020-11-20 | 2021-02-23 | 北京声智科技有限公司 | 语音转换方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011197124A (ja) * | 2010-03-17 | 2011-10-06 | Oki Electric Industry Co Ltd | データ作成システム及びプログラム |
WO2017197809A1 (zh) * | 2016-05-18 | 2017-11-23 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
CN107481736A (zh) * | 2017-08-14 | 2017-12-15 | 广东工业大学 | 一种声纹身份认证装置及其认证优化方法和*** |
CN107910008A (zh) * | 2017-11-13 | 2018-04-13 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
CN107992485A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种同声传译方法及装置 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN108537019A (zh) * | 2018-03-20 | 2018-09-14 | 努比亚技术有限公司 | 一种解锁方法及装置、存储介质 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666746B2 (en) * | 2004-05-13 | 2014-03-04 | At&T Intellectual Property Ii, L.P. | System and method for generating customized text-to-speech voices |
US7693719B2 (en) * | 2004-10-29 | 2010-04-06 | Microsoft Corporation | Providing personalized voice font for text-to-speech applications |
US7987244B1 (en) * | 2004-12-30 | 2011-07-26 | At&T Intellectual Property Ii, L.P. | Network repository for voice fonts |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
KR100998566B1 (ko) * | 2008-08-11 | 2010-12-07 | 엘지전자 주식회사 | 음성인식을 이용한 언어 번역 방법 및 장치 |
US8768702B2 (en) * | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US20110238407A1 (en) * | 2009-08-31 | 2011-09-29 | O3 Technologies, Llc | Systems and methods for speech-to-speech translation |
JP5545467B2 (ja) * | 2009-10-21 | 2014-07-09 | 独立行政法人情報通信研究機構 | 音声翻訳システム、制御装置、および情報処理方法 |
GB2489489B (en) * | 2011-03-30 | 2013-08-21 | Toshiba Res Europ Ltd | A speech processing system and method |
US9922641B1 (en) * | 2012-10-01 | 2018-03-20 | Google Llc | Cross-lingual speaker adaptation for multi-lingual speech synthesis |
KR101834546B1 (ko) * | 2013-08-28 | 2018-04-13 | 한국전자통신연구원 | 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법 |
EP3107089B1 (en) * | 2015-06-18 | 2021-03-31 | Airbus Operations GmbH | Speech recognition on board of an aircraft |
US20160379638A1 (en) * | 2015-06-26 | 2016-12-29 | Amazon Technologies, Inc. | Input speech quality matching |
KR102545764B1 (ko) * | 2016-04-01 | 2023-06-20 | 삼성전자주식회사 | 음성 번역을 위한 장치 및 방법 |
JP6615736B2 (ja) * | 2016-11-30 | 2019-12-04 | 日本電信電話株式会社 | 音声言語識別装置、その方法、及びプログラム |
CN108184032B (zh) * | 2016-12-07 | 2020-02-21 | ***通信有限公司研究院 | 一种客服***的服务方法及装置 |
KR102123059B1 (ko) * | 2017-05-12 | 2020-06-15 | 애플 인크. | 사용자-특정 음향 모델 |
CN109102810B (zh) * | 2017-06-21 | 2021-10-15 | 北京搜狗科技发展有限公司 | 声纹识别方法和装置 |
CN107945806B (zh) * | 2017-11-10 | 2022-03-08 | 北京小米移动软件有限公司 | 基于声音特征的用户识别方法及装置 |
US20200012724A1 (en) * | 2017-12-06 | 2020-01-09 | Sourcenext Corporation | Bidirectional speech translation system, bidirectional speech translation method and program |
CN108831436A (zh) * | 2018-06-12 | 2018-11-16 | 深圳市合言信息科技有限公司 | 一种模拟说话者情绪优化翻译后文本语音合成的方法 |
CN108922528B (zh) * | 2018-06-29 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 用于处理语音的方法和装置 |
US11195507B2 (en) * | 2018-10-04 | 2021-12-07 | Rovi Guides, Inc. | Translating between spoken languages with emotion in audio and video media streams |
US11068668B2 (en) * | 2018-10-25 | 2021-07-20 | Facebook Technologies, Llc | Natural language translation in augmented reality(AR) |
US11322148B2 (en) * | 2019-04-30 | 2022-05-03 | Microsoft Technology Licensing, Llc | Speaker attributed transcript generation |
CN110010120A (zh) * | 2019-05-05 | 2019-07-12 | 标贝(深圳)科技有限公司 | 模型管理和语音合成方法、装置和***及存储介质 |
US11094311B2 (en) * | 2019-05-14 | 2021-08-17 | Sony Corporation | Speech synthesizing devices and methods for mimicking voices of public figures |
-
2019
- 2019-09-19 CN CN201910889063.XA patent/CN110610720B/zh active Active
- 2019-11-13 WO PCT/CN2019/118119 patent/WO2021051588A1/zh active Application Filing
- 2019-11-27 US US16/698,750 patent/US11354520B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011197124A (ja) * | 2010-03-17 | 2011-10-06 | Oki Electric Industry Co Ltd | データ作成システム及びプログラム |
WO2017197809A1 (zh) * | 2016-05-18 | 2017-11-23 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
CN107481736A (zh) * | 2017-08-14 | 2017-12-15 | 广东工业大学 | 一种声纹身份认证装置及其认证优化方法和*** |
CN107910008A (zh) * | 2017-11-13 | 2018-04-13 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
CN107992485A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种同声传译方法及装置 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN108537019A (zh) * | 2018-03-20 | 2018-09-14 | 努比亚技术有限公司 | 一种解锁方法及装置、存储介质 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2021051588A1 (zh) | 2021-03-25 |
US20210089726A1 (en) | 2021-03-25 |
CN110610720A (zh) | 2019-12-24 |
US11354520B2 (en) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107705783B (zh) | 一种语音合成方法及装置 | |
CN110097890B (zh) | 一种语音处理方法、装置和用于语音处理的装置 | |
CN110634483B (zh) | 人机交互方法、装置、电子设备及存储介质 | |
CN107644646B (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
CN110610720B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN111583944A (zh) | 变声方法及装置 | |
CN107945806B (zh) | 基于声音特征的用户识别方法及装置 | |
CN111696553B (zh) | 一种语音处理方法、装置及可读介质 | |
CN104394265A (zh) | 基于移动智能终端的自动会话方法及装置 | |
CN113409764B (zh) | 一种语音合成方法、装置和用于语音合成的装置 | |
CN110990534B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN111326138A (zh) | 语音生成方法及装置 | |
CN109614470B (zh) | 回答信息的处理方法、装置、终端及可读存储介质 | |
WO2019101099A1 (zh) | 视频节目识别方法、设备、终端、***和存储介质 | |
CN112037756A (zh) | 语音处理方法、装置和介质 | |
CN105139848A (zh) | 数据转换方法和装置 | |
CN115273831A (zh) | 语音转换模型训练方法、语音转换方法和装置 | |
CN107437412B (zh) | 一种声学模型处理方法、语音合成方法、装置及相关设备 | |
CN113889070A (zh) | 一种语音合成方法、装置和用于语音合成的装置 | |
CN113923517B (zh) | 一种背景音乐生成方法、装置及电子设备 | |
CN113409765B (zh) | 一种语音合成方法、装置和用于语音合成的装置 | |
CN113345452B (zh) | 语音转换方法、语音转换模型的训练方法、装置和介质 | |
CN113115104B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN113726952A (zh) | 通话过程中的同声传译方法及装置、电子设备、存储介质 | |
CN113409766A (zh) | 一种识别方法、装置、用于识别的装置及语音合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |