CN111739547A - 语音匹配方法、装置、计算机设备和存储介质 - Google Patents
语音匹配方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111739547A CN111739547A CN202010719805.7A CN202010719805A CN111739547A CN 111739547 A CN111739547 A CN 111739547A CN 202010719805 A CN202010719805 A CN 202010719805A CN 111739547 A CN111739547 A CN 111739547A
- Authority
- CN
- China
- Prior art keywords
- voice
- voiceprint
- restored
- speech
- transformation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000009466 transformation Effects 0.000 claims abstract description 123
- 230000008859 change Effects 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims description 28
- 238000001914 filtration Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 description 14
- 238000012952 Resampling Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000010845 search algorithm Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本申请涉及一种语音匹配方法、装置、计算机设备和存储介质。所述方法包括:获取待匹配的变声语音;通过语音特征变换模型还原所述变声语音,得到还原语音;将嫌疑人的原始语音与所述还原语音进行声纹比对;当声纹比对的结果为不匹配时,调整所述语音特征变换模型中参数的参数值,并返回所述通过语音特征变换模型还原所述变声语音的步骤进行迭代,直至声纹比对的结果为匹配时停止迭代或者直至满足迭代停止条件时停止迭代;根据停止迭代时声纹比对的结果,确定所述变声语音和所述原始语音的匹配结果。采用本方法能够提高语音匹配的效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音匹配方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了变声技术,通过变声技术可以改变语音的信号特征,将说话人的语音变为变声语音。在某些场景下,例如在公安人员的办案过程中,需要对变声语音进行还原,并将还原后的语音和嫌疑人的原始语音进行匹配,以判断变声语音的说话者是否是嫌疑人。
传统技术中,在利用语音特征变换模型对变声语音进行还原以判断变声语音的说话者是否是嫌疑人时,对语音特征变换模型的几组典型的信号特征变换参数进行人工试错和微调,找到可以使还原语音与原始语音最接近的语音特征变换模型的参数。通过人工试错和微调对语音特征变换模型的参数进行调整,并根据调整后的语音特征变换模型对还原语音和原始语音进行匹配的方法,操作复杂、工作量大、效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高语音匹配的效率的语音匹配方法、装置、计算机设备和存储介质。
一种语音匹配方法,所述方法包括:
获取待匹配的变声语音;
通过语音特征变换模型还原所述变声语音,得到还原语音;
将嫌疑人的原始语音与所述还原语音进行声纹比对;
当声纹比对的结果为不匹配时,调整所述语音特征变换模型中参数的参数值,并返回所述通过语音特征变换模型还原所述变声语音的步骤进行迭代,直至声纹比对的结果为匹配时停止迭代或者直至满足迭代停止条件时停止迭代;
根据停止迭代时声纹比对的结果,确定所述变声语音和所述原始语音的匹配结果。
在一个实施例中,所述通过语音特征变换模型还原所述变声语音,得到还原语音之前,所述方法还包括:
确定语音特征变换模型的至少一种参数;所述至少一种参数表征至少一种用于还原变声语音的语音特征;
分别选取所述语音特征变换模型的参数的初始参数值;
根据所述语音特征变换模型的参数和所述参数的初始参数值建立语音特征变换模型。
在一个实施例中,所述将嫌疑人的原始语音与所述还原语音进行声纹比对,包括:
分别对嫌疑人的原始语音和所述还原语音进行高通滤波;
分别将已经过高通滤波的所述原始语音和所述还原语音进行分段处理;
将已经过分段处理的所述原始语音和所述还原语音进行声纹比对。
在一个实施例中,所述将嫌疑人的原始语音与所述还原语音进行声纹比对,包括:
获取所述原始语音的第一声纹特征和所述还原语音的第二声纹特征;
计算所述第一声纹特征和所述第二声纹特征的声纹比对得分;
当所述声纹比对得分高于或等于得分阈值,则声纹比对的结果为匹配;
当所述声纹比对得分低于得分阈值,则声纹比对的结果为不匹配。
在一个实施例中,所述调整所述语音特征变换模型中参数的参数值包括:
确定对所述语音特征变换模型中参数的参数值进行调整的目标区间;
在所述目标区间内查找使得所述还原语音与所述原始语音之间的声纹比对得分趋高的目标参数值;
将所述目标参数值确定为所述语音特征变换模型中的对应的所述参数的调整的参数值。
在一个实施例中,所述确定对所述语音特征变换模型中参数的参数值进行调整的目标区间,包括:
获取对所述参数的参数值进行调整的区间长度;
以所述语音特征变换模型中的所述参数当前的参数值为中心,并按照所述区间长度确定所述参数对应的目标区间。
在一个实施例中,所述获取所述原始语音的第一声纹特征和所述还原语音的第二声纹特征包括:
提取所述原始语音的帧级特征,并对所述原始语音的帧级特征进行运算得到所述原始语音的句子级特征;
根据所述原始语音的帧级特征和句子级特征得到所述第一声纹特征;
提取所述还原语音的帧级特征,并对所述还原语音的帧级特征进行运算得到所述还原语音的句子级特征;
根据所述还原语音的帧级特征和句子级特征得到所述第二声纹特征。
一种语音匹配装置,所述装置包括:
获取模块,用于获取待匹配的变声语音;
还原模块,用于通过语音特征变换模型还原所述变声语音,得到还原语音;
声纹比对模块,用于将嫌疑人的原始语音与所述还原语音进行声纹比对;
调整模块,当声纹比对的结果为不匹配时,用于调整所述语音特征变换模型中参数的参数值,并返回所述通过语音特征变换模型还原所述变声语音的步骤进行迭代,直至声纹比对的结果为匹配时停止迭代或者直至满足迭代停止条件时停止迭代;
确定模块,用于根据停止迭代时声纹比对的结果,确定所述变声语音和所述原始语音的匹配结果。
在一个实施例中,所述装置还包括:
所述确定模块,还用于确定语音特征变换模型的至少一种参数;所述至少一种参数表征至少一种用于还原变声语音的语音特征;
选取模块,用于分别选取所述语音特征变换模型的参数的初始参数值;
建立模块,用于根据所述语音特征变换模型的参数和所述参数的初始参数值建立语音特征变换模型。
在一个实施例中,所述声纹比对模块还用于:
分别对嫌疑人的原始语音和所述还原语音进行高通滤波;
分别将已经过高通滤波的所述原始语音和所述还原语音进行分段处理;
将已经过分段处理的所述原始语音和所述还原语音进行声纹比对。
在一个实施例中,所述声纹比对模块还用于:
获取所述原始语音的第一声纹特征和所述还原语音的第二声纹特征;
计算所述第一声纹特征和所述第二声纹特征的声纹比对得分;
当所述声纹比对得分高于或等于得分阈值,则声纹比对的结果为匹配;
当所述声纹比对得分低于得分阈值,则声纹比对的结果为不匹配。
在一个实施例中,所述调整模块还用于:
确定对所述语音特征变换模型中参数的参数值进行调整的目标区间;
在所述目标区间内查找使得所述还原语音与所述原始语音之间的声纹比对得分趋高的目标参数值;
将所述目标参数值确定为所述语音特征变换模型中的对应的所述参数的调整的参数值。
在一个实施例中,所述确定模块还用于:
获取对所述参数的参数值进行调整的区间长度;
以所述语音特征变换模型中的参数当前的参数值为中心,并按照所述区间长度确定所述参数对应的目标区间。
在一个实施例中,所述声纹比对模块还用于:
提取所述原始语音的帧级特征,并对所述原始语音的帧级特征进行运算得到所述原始语音的句子级特征;
根据所述原始语音的帧级特征和句子级特征得到所述第一声纹特征;
提取所述还原语音的帧级特征,并对所述还原语音的帧级特征进行运算得到所述还原语音的句子级特征;
根据所述还原语音的帧级特征和句子级特征得到所述第二声纹特征。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述语音匹配方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述语音匹配方法的步骤。
上述实施例中,计算机设备通过语音特征变换模型对待匹配的变声语音进行还原得到还原语音,并根据原始语音与还原语音的声纹比对的结果对语音特征变换模型中参数的参数值进行自动调整,最终确定还原语言和原始语音的匹配结果。计算机设备在对变声语音进行还原的过程中,通过自动调整语音特征变换模型中参数的参数值,能够快速的得到与原始语音最接近的还原语音,并根据与原始语音最接近的还原语音得到匹配结果,提高了语音匹配的效率。
附图说明
图1为一个实施例中语音匹配方法的流程示意图;
图2为一个实施例中获得变声语音的流程示意图;
图3为一个实施例中获得声纹比对的结果的流程示意图;
图4为另一个实施例中获得声纹比对的结果的流程示意图;
图5为一个实施例中语音匹配装置的结构框图;
图6为另一个实施例中语音匹配装置的结构框图;
图7为一个实施例中计算机设备的内部结构图;
图8为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语音匹配方法,计算机设备通过语音特征变换模型对获取的变声语音进行还原得到还原语音,并将还原语音和嫌疑人的原始语音进行声纹比对。当声纹比对的结果为不匹配时,调整语音特征变换模型中参数的参数值,并返回通过语音特征变换模型还原变声语音的步骤进行迭代,直至声纹比对的结果为匹配时停止迭代或者直至满足迭代停止条件时停止迭代。计算机设备根据停止迭代时声纹比对的结果,确定变声语音和原始语音是否匹配。其中,计算机设备可以是终端,也可以是服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图1所示,提供了一种语音匹配方法,以该方法应用于计算机设备为例进行说明,包括以下步骤:
S102,计算机设备获取待匹配的变声语音。
其中,变声语音是通过变声算法对语音中的语音特征进行改变后得到的。语音特征包括音段特征和超音段特征。音段特征反映了语音的音色特征,主要与发音器官的生理和物理特征有关,具有一定的稳定性,不易在短时间内发生改变,例如,音调、语速、共振峰等。超音段特征反映了语音的韵律特征,主要受到社会和心理的影响,具有不稳定性,包括语言的韵律、节奏、自然度等。
其中,表示一个参数为的变声函数。计算机设备通过函数输出的变声语音随着参数的改变而发生改变。可以包含一个参数(例如音调、音速、节奏或者共振峰等),也可以包含多个参数(例如,同时包含音调和音速,或者同时包含音调、韵律和共振峰等语音特征)。计算机设备可以通过的逆函数对变声语音进行还原,得到变声语音的还原语音。其中,的参数为,通过获取的参数值可以得到。
S104,计算机设备通过语音特征变换模型还原变声语音,得到还原语音。
其中,语音特征变换模型是计算机设备根据语音变声过程中涉及的语音特征建立的函数,其中是变声语音,可以包含一个参数(例如音调、音速、节奏或者共振峰等),也可以包含多个参数(例如,同时包含音调和音速,或者同时包含音调、韵律和共振峰等语音特征)。
在一个实施例中,计算机设备建立语音特征变换模型包括:确定语音特征变换模型的至少一种参数;至少一种参数表征至少一种用于还原变声语音的语音特征;分别选取语音特征变换模型的参数的初始参数值;根据语音特征变换模型的参数和参数的初始参数值建立语音特征变换模型。
在一个实施例中,计算机设备确定语音特征变换模型的参数为基音频率,用于表征还原语音的音调。
在一个实施例中,计算机设备确定语音特征变换模型的参数为重音个数、声音频率,分别用于表征还原语音的韵律和自然度语音特征。
在一个实施例中,计算机设备确定语音特征变换模型的参数为基音频率、共振峰频率、共振峰频带宽度和共振峰幅值,分别用于表征还原语音的音调和共振峰语音特征。在确定语音特征变换模型的参数后,计算机设备选取基音频率的初始值为200Hz,选取共振峰频率的初始值为1000Hz,选取共振峰频带宽度的初始值为500Hz,选取共振峰幅值的初始值为15dB。计算机设备通过将的参数设置为基音频率、共振峰频率、共振峰频带宽度和共振峰幅值并且根据选取的参数初始值建立语音特征变换模型。
S106,计算机设备将嫌疑人的原始语音与所述还原语音进行声纹比对。
其中,嫌疑人的原始语音是通过声音采集装置采集的被怀疑是待匹配的变声语音的说话人的语音。例如,如果公安人员怀疑变声语音的说话人是张三,则嫌疑人的原始语音是公安人员录制的张三的一段语音或几段语音。原始语音的内容可以和变声语音的内容相同,也可以和变声语音的内容不同。
计算机设备通过将嫌疑人的原始语音和还原语音进行声纹比对可以判断原始语音和还原语音是否匹配。
S108,当声纹比对的结果为不匹配时,计算机设备调整语音特征变换模型中参数的参数值,并返回通过语音特征变换模型还原变声语音的步骤进行迭代,直至声纹比对的结果为匹配时停止迭代或者直至满足迭代停止条件时停止迭代。
其中,迭代停止条件为计算机设备设置的终止迭代过程的条件。例如,迭代停止条件为迭代次数达到预设数值。或者迭代停止条件为预选范围内的参数值全部经过遍历。或者迭代停止条件为迭代后的还原语音和原始语音的声纹比对得分和迭代前的还原语音和原始语音的声纹比对得分的差值小于预设阈值。
计算机设备将利用语音特征变换模型得到的还原语音和嫌疑人的原始语音进行声纹比对,如果声纹比对的结果为不匹配时,根据匹配结果对语音特征变换模型中参数的参数值进行调整。计算机设备对语音特征变换模型的参数值进行调整之后,继续利用语音特征变换模型对变声语音进行还原,并且将还原语音和原始语音进行声纹比对,然后根据比对结果确定还原语音和变声语音的匹配结果或者继续对参数值进行调整,直至声纹比对的结果为匹配时或者直至满足迭代停止条件时停止对参数值进行调整。
S110,计算机设备根据停止迭代时声纹比对的结果,确定变声语音和所述原始语音的匹配结果。
如果通过停止迭代时的语音特征变换模型对变声语音进行还原得到的还原语音和原始语音的声纹比对结果为匹配,则计算机设备确定变声语音和原始语音匹配;如果满足了迭代停止条件,但是通过满足迭代停止条件时的语音特征变换模型对变声语音进行还原得到的还原语音和原始语音的声纹比对结果为不匹配,则计算机设备确定变声语音和原始语音不匹配。
上述实施例中,计算机设备通过语音特征变换模型对待匹配的变声语音进行还原得到还原语音,并根据原始语音与还原语音的声纹比对的结果对语音特征变换模型中参数的参数值进行自动调整,最终确定还原语言和原始语音的匹配结果。计算机设备在对变声语音进行还原的过程中,通过自动调整语音特征变换模型中参数的参数值,能够快速的得到与原始语音最接近的还原语音,并根据与原始语音最接近的还原语音得到匹配结果,提高了语音匹配的效率。
在一个实施例中,变声语音是通过改变正常语音的音调生成的。改变语音的音调也即改变语音的基音频率。计算机设备通过基于重采样的方法改变正常语音的基音频率获得改变音调的变声语音。如图2所示,计算机设备通过变调的方法获取变声语音的步骤如下:
S202,获取待变声的语音和变速因子Q/P。
S204,根据变速因子Q/P对待变声的语音进行变速处理,得到变速语音。
S206,根据获取的重采样因子P/Q对变速语音进行P倍上采样。
S208,根据获取的重采样因子对变速语音进行Q倍下采样,得到基音频率为正常语音的Q/P倍的变声语音。
对语音进行重采样可以实现语音频谱的拉伸或压缩,因此语音重采样前后采样频率的变化与基音频率的变化一致。设置重采样后的采样频率与原始采样频率的比值为P/Q,这里的P/Q为最简有理分式,P、Q分别为上采样和下采样的倍数。由于上下采样的倍数不同,经过P/Q倍重采样之后,语音的时长也变为原来的P/Q倍。所以为了保证语速的一致性,在对语音进行重采样之前对语音进行变速处理,将语音的速度变为原来的Q/P倍。
在一个实施例中,计算机设备将嫌疑人的原始语音与还原语音进行声纹比对,包括:分别对嫌疑人的原始语音和还原语音进行高通滤波;分别将已经过高通滤波的原始语音和还原语音进行分段处理;将已经过分段处理的原始语音和还原语音进行声纹比对。
其中,计算机设备分别对嫌疑人的原始语音和还原语音进行高通滤波的目的是对语音的高频分量进行预加重。由于语音的能量主要分布在低频段,而高频段能量较小,这样在高频段的输出信噪比就明显不足,从而导致高频部分的信息比较难获取。通过提升高频段,增加语音的高频分辨率,可以更好的提取原始语音和还原语音的声纹特征。
由于,语音是一种时序信号,在宏观上是不平稳的,但是语音的产生与发声器官的运动息息相关,由于发声器官的惯性运动,其状态变化速度相比于声音震动的速度要慢许多,因此可以认为在一段时间内,语音的声纹特征基本保持不变。所以计算机设备将原始语音和还原语音分成若干段,分别提取每一段的声纹特征。例如,计算机设备分别将原始语音和还原语音的每15ms、30ms或者40ms时长分成一段。
在一个实施例中,计算机设备将嫌疑人的原始语音与还原语音进行声纹比对,包括:获取原始语音的第一声纹特征和还原语音的第二声纹特征;计算第一声纹特征和第二声纹特征的声纹比对得分;当声纹比对得分高于或等于得分阈值,则声纹比对的结果为匹配;当声纹比对得分低于得分阈值,则声纹比对的结果为不匹配。
其中,声纹特征是能够表征说话人的语音特点的个性化的生理特征,且声纹特征具有唯一性。声纹特征包括:(1)与人类的生理学结构上的发音机制有关的特征,例如频谱、倒频谱、共振峰、基音频率、反射系数等;(2)与社会经济水平和受教育水平有关的词法特征,例如,说话人喜好用口语化的词来表达或者喜好用书面化的词来表达;(3)韵律、语速等特征。(4)语种、方言和口音特征。
计算机设备分别提取嫌疑人的原始语音的第一声纹特征与还原语音的第二声纹特征。常用的提取语音的声纹特征的方法有:Mel频率倒谱系数法、线性预测倒谱系数法、基于深度学习的声纹特征提取方法等。
计算机设备在获得第一声纹特征和第二声纹特征之后,通过计算获得第一声纹特征和第二声纹特征的声纹比对得分。常用的计算声纹比对得分的方法有I-Vector方法和X-Vector方法等。
计算机设备获取第一声纹特征和第二声纹特征的声纹比对得分,将声纹比对得分和得分阈值进行比对确定声纹比对的结果。例如,将声纹比对得分的满分设为100分,将得分阈值设为80分,当声纹比对得分高于或等于80分时,则声纹比对的结果为匹配;当声纹比对得分低于80分时,则声纹比对的结果为不匹配。
由于每个人的声纹特征都不相同,并且在成年以后,声纹特征保持长期稳定不变。即使讲话者故意模仿他人声音和语气,也无法做到使声纹特征相同。所以根据声纹特征能够快速确定原始语音和还原语音的匹配结果,并且匹配结果的正确率较高。
在一个实施例中,计算机设备利用声纹识别引擎提取原始语音的第一声纹特征与还原语音的第二声纹特征,并获得第一声纹特征和第二声纹特征的声纹比对得分。其中,声纹识别引擎中封装了提取声纹特征和计算声纹比对得分的算法。
计算机设备利用声纹识别引擎获得原始语音和还原语音的声纹比对的结果的流程如图3所示,包括以下步骤:
S302,获取原始语音和还原语音。
S304,将原始语音和还原语音输入声纹识别引擎。
S306,获取声纹识别引擎的输出的原始语音的第一声纹特征和还原语音的第二声纹特征的声纹比对得分。
S308,判断声纹比对得分是否高于或等于得分阈值,若声纹比对得分高于或等于得分阈值,则执行S310;若声纹比对得分低于得分阈值,则执行S312。
S310,确定声纹比对的结果为匹配。
S312,确定声纹比对的结果为不匹配。
S302至S312的具体内容可以参考上文所述的具体实现过程。
在一个实施例中,以语音特征变换模型中参数为音调为例,计算机设备对语音特征变换模型中音调的参数值进行调整,并确定变声语音和原始语音的匹配结果的流程如图4所示,包括如下步骤:
S402,获取语音特征变换模型中待调整的音调参数当前的参数值。
S404,确定目标区间,并在目标区间内查找音调的目标参数值。
S406,将目标参数值确定为语音特征变换模型中音调的参数值。
S408,通过语音特征变换模型还原变声语音的音调,得到还原语音。
S410,获取嫌疑人的原始语音的第一声纹特征和还原语音的第二声纹特征。
S412,计算第一声纹特征和第二声纹特征的声纹比对得分。
S414,判断声纹比对得分是否高于或等于得分阈值,如果声纹比对得分高于或等于得分阈值,则执行S416;如果声纹比对得分低于得分阈值,则执行S418。
S416,确定声纹比对的结果为匹配。
S418,判断是否满足迭代停止条件,如果满足迭代停止条件则执行S420;如果不满足迭代停止条件,则返回S404,重新确定目标区间,并在目标区间内查找音调的目标参数值。
S420,确定声纹比对的结果为不匹配。
S402至S420的具体内容可以参考上文所述的具体实现过程。
在一个实施例中,计算机设备调整语音特征变换模型中参数的参数值包括:确定对语音特征变换模型中参数的参数值进行调整的目标区间;在目标区间内查找使得还原语音与原始语音之间的声纹比对得分趋高的目标参数值;将目标参数值确定为语音特征变换模型中参数对应的参数值。
其中,计算机设备在目标区间内查找使得还原语音与原始语音之间的声纹比对得分趋高的目标参数值是根据查找算法在目标区间内按照预设的步长确定候选参数值,然后对于每一个候选参数值,计算机设备查找使声纹比对得分更高的参数值,直到遍历目标区间内的所有候选参数值。
在一个实施例中,计算机设备根据查找的结果按照预设的步长逐步缩小目标区间,使基于缩小后的目标区间中的参数值的平均值得到的声纹比对得分高于基于缩小前的目标区间中的参数值的平均值得到的声纹比对得分。直到目标区间长度小于预设的长度,然后选取目标区间的平均值作为目标参数值。
在一个实施例中,计算机设备按照预设的步长在目标区间内选取目标参数值的候选参数值。然后通过查找算法在候选参数值中查找使得还原语音与原始语音之间的声纹比对得分最高的目标参数值。在一个实施例中,计算机设备通过二分法查找算法在目标区间内查找使得还原语音与原始语音之间的声纹比对得分最高的目标参数值。
以语音特征变换模型中的参数为音调为例。计算机设备首先确定对的参数值进行调整的目标区间,也即调整后的参数的参数值在目标区间内。然后,计算机设备计算和的中间值,根据计算和,其中,。计算机设备用音调的参数值为和的语音特征变换模型对变声语音进行还原,分别得到还原语音和,其中,,。计算机设备分别计算、与原始语音的声纹比对得分。若与原始语音的声纹比对得分高于或等于与原始语音的声纹比对得分,则计算机设备在内继续用二分法查找使声纹比对得分更高的参数值;若与原始语音的声纹比对得分低于与原始语音的声纹比对得分,则计算机设备在内继续用二分法查找使声纹比对得分更高的参数值。
在另一个实施例中,计算机设备还可以通过顺序查找算法、分块查找算法、哈希表查找算法、二叉树查找算法等查找算法查找语音特征变换模型中参数的参数值。
在一个实施例中,计算机设备确定对语音特征变换模型中参数的参数值进行调整的目标区间,包括:获取对参数的参数值进行调整的区间长度;以语音特征变换模型中的参数当前的参数值为中心,并按照区间长度确定参数对应的目标区间。例如,以语音特征变换模型中的参数为音调为例,用基音频率表示音调,语音特征变换模型中当前的参数值为360Hz,计算机设备获取对的参数值进行调整的区间长度为200Hz。则计算机设备以360Hz为中心,在200Hz的区间长度内确定对进行调整的目标区间为 [260Hz,460Hz]。
在一个实施例中,计算机设备获取原始语音的第一声纹特征和还原语音的第二声纹特征包括:提取原始语音的帧级特征,并对原始语音的帧级特征进行运算得到原始语音的句子级特征;根据原始语音的帧级特征和句子级特征得到第一声纹特征;提取还原语音的帧级特征,并对还原语音的帧级特征进行运算得到还原语音的句子级特征;根据还原语音的帧级特征和句子级特征得到第二声纹特征。
其中,帧级特征包括具体帧上的语音特征和语音特征在帧之间的时序相关性。句子级特征是对帧级特征进行平均后得到的。
在一个实施例中,计算机设备将原始语音和还原语音输入神经网络,通过神经网络提取原始语音和还原语音的帧级特征,然后将帧级特征输入神经网络的统计层,通过神经网络的统计层计算帧级特征的均值和标准差,得到句子级特征。
由于原始语音和还原语音的语音信号是时序信号,在不同时刻提取出的特征不同,所以计算机设备通过提取原始语音和还原语音的帧级特征,可以获取原始语音和还原语音在不同帧上的特征信息和帧间的时序相关性,更精细的获取原始语音和还原语音的特征信息。然后再通过对帧级特征进行平均获得句子级特征。由于计算机设备获取的原始语音和还原语音声纹特征包括帧级特征和句子级特征,所以获取的声纹特征包括更全面的特征信息。
应该理解的是,虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种语音匹配装置,包括:获取模块502、还原模块504、声纹比对模块506、调整模块508和确定模块510,其中:
获取模块502,用于获取待匹配的变声语音;
还原模块504,用于通过语音特征变换模型还原变声语音,得到还原语音;
声纹比对模块506,用于将嫌疑人的原始语音与还原语音进行声纹比对;
调整模块508,当声纹比对的结果为不匹配时,用于调整语音特征变换模型中参数的参数值,并返回通过语音特征变换模型还原变声语音的步骤进行迭代,直至声纹比对的结果为匹配时停止迭代或者直至满足迭代停止条件时停止迭代;
确定模块510,用于根据停止迭代时声纹比对的结果,确定变声语音和原始语音的匹配结果。
上述实施例中,计算机设备通过语音特征变换模型对待匹配的变声语音进行还原得到还原语音,并根据原始语音与还原语音的声纹比对的结果对语音特征变换模型中参数的参数值进行自动调整,最终确定还原语言和原始语音的匹配结果。计算机设备在对变声语音进行还原的过程中,通过自动调整语音特征变换模型中参数的参数值,能够快速的得到与原始语音最接近的还原语音,并根据与原始语音最接近的还原语音得到匹配结果,提高了语音匹配的效率。
在一个实施例中,如图6所示,装置还包括:
确定模块510,还用于确定语音特征变换模型的至少一种参数;至少一种参数表征至少一种用于还原变声语音的语音特征;
选取模块512,用于分别选取语音特征变换模型的参数的初始参数值;
建立模块514,用于根据语音特征变换模型的参数和参数的初始参数值建立语音特征变换模型。
在一个实施例中,声纹比对模块506还用于:
分别对嫌疑人的原始语音和还原语音进行高通滤波;
分别将已经过高通滤波的原始语音和还原语音进行分段处理;
将已经过分段处理的原始语音和还原语音进行声纹比对。
在一个实施例中,声纹比对模块506还用于:
获取原始语音的第一声纹特征和还原语音的第二声纹特征;
计算第一声纹特征和第二声纹特征的声纹比对得分;
当声纹比对得分高于或等于得分阈值,则声纹比对的结果为匹配;
当声纹比对得分低于得分阈值,则声纹比对的结果为不匹配。
在一个实施例中,调整模块508还用于:
确定对语音特征变换模型中参数的参数值进行调整的目标区间;
在目标区间内查找使得还原语音与原始语音之间的声纹比对得分趋高的目标参数值;
将目标参数值确定为语音特征变换模型中的对应的所述参数的调整的参数值。
在一个实施例中,确定模块510还用于:
获取对参数的参数值进行调整的区间长度;
将语音特征变换模型中的参数当前的参数值为中心,并按照区间长度确定参数对应的目标区间。
在一个实施例中,声纹比对模块506还用于:
提取原始语音的帧级特征,并对原始语音的帧级特征进行运算得到原始语音的句子级特征;
根据原始语音的帧级特征和句子级特征得到第一声纹特征;
提取还原语音的帧级特征,并对还原语音的帧级特征进行运算得到还原语音的句子级特征;
根据还原语音的帧级特征和句子级特征得到第二声纹特征。
关于语音匹配装置的具体限定可以参见上文中对于语音匹配方法的限定,在此不再赘述。上述语音匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音匹配数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音匹配方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音匹配方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7和图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待匹配的变声语音;通过语音特征变换模型还原变声语音,得到还原语音;将嫌疑人的原始语音与还原语音进行声纹比对;当声纹比对的结果为不匹配时,调整语音特征变换模型中参数的参数值,并返回通过语音特征变换模型还原变声语音的步骤进行迭代,直至声纹比对的结果为匹配时停止迭代或者直至满足迭代停止条件时停止迭代;根据停止迭代时声纹比对的结果,确定变声语音和原始语音的匹配结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定语音特征变换模型的至少一种参数;至少一种参数表征至少一种用于还原变声语音的语音特征;分别选取语音特征变换模型的参数的初始参数值;根据语音特征变换模型的参数和参数的初始参数值建立语音特征变换模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别对嫌疑人的原始语音和还原语音进行高通滤波;分别将已经过高通滤波的原始语音和还原语音进行分段处理;将已经过分段处理的原始语音和还原语音进行声纹比对。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取原始语音的第一声纹特征和还原语音的第二声纹特征;计算第一声纹特征和第二声纹特征的声纹比对得分;当声纹比对得分高于或等于得分阈值,则声纹比对的结果为匹配;当声纹比对得分低于得分阈值,则声纹比对的结果为不匹配。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定对语音特征变换模型中参数的参数值进行调整的目标区间;在目标区间内查找使得还原语音与原始语音之间的声纹比对得分趋高的目标参数值;将目标参数值确定为语音特征变换模型中的对应的所述参数的调整的参数值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取对参数的参数值进行调整的区间长度;将语音特征变换模型中参数当前的参数值为中心,并按照区间长度确定参数对应的目标区间。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取原始语音的帧级特征,并对原始语音的帧级特征进行运算得到原始语音的句子级特征;根据原始语音的帧级特征和句子级特征得到第一声纹特征;提取还原语音的帧级特征,并对还原语音的帧级特征进行运算得到还原语音的句子级特征;根据还原语音的帧级特征和句子级特征得到第二声纹特征。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待匹配的变声语音;通过语音特征变换模型还原变声语音,得到还原语音;将嫌疑人的原始语音与还原语音进行声纹比对;当声纹比对的结果为不匹配时,调整语音特征变换模型中参数的参数值,并返回通过语音特征变换模型还原变声语音的步骤进行迭代,直至声纹比对的结果为匹配时停止迭代或者直至满足迭代停止条件时停止迭代;根据停止迭代时声纹比对的结果,确定变声语音和原始语音的匹配结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定语音特征变换模型的至少一种参数;至少一种参数表征至少一种用于还原变声语音的语音特征;分别选取语音特征变换模型的参数的初始参数值;根据语音特征变换模型的参数和参数的初始参数值建立语音特征变换模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对嫌疑人的原始语音和还原语音进行高通滤波;分别将已经过高通滤波的原始语音和还原语音进行分段处理;将已经过分段处理的原始语音和还原语音进行声纹比对。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取原始语音的第一声纹特征和还原语音的第二声纹特征;计算第一声纹特征和第二声纹特征的声纹比对得分;当声纹比对得分高于或等于得分阈值,则声纹比对的结果为匹配;当声纹比对得分低于得分阈值,则声纹比对的结果为不匹配。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定对语音特征变换模型中参数的参数值进行调整的目标区间;在目标区间内查找使得还原语音与原始语音之间的声纹比对得分趋高的目标参数值;将目标参数值确定为语音特征变换模型中的对应的所述参数的调整的参数值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取对参数的参数值进行调整的区间长度;将语音特征变换模型中的参数当前的参数值为中心,并按照区间长度确定参数对应的目标区间。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:提取原始语音的帧级特征,并对原始语音的帧级特征进行运算得到原始语音的句子级特征;根据原始语音的帧级特征和句子级特征得到第一声纹特征;提取还原语音的帧级特征,并对还原语音的帧级特征进行运算得到还原语音的句子级特征;根据还原语音的帧级特征和句子级特征得到第二声纹特征。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音匹配方法,其特征在于,所述方法包括:
获取待匹配的变声语音;
通过语音特征变换模型还原所述变声语音,得到还原语音;
将嫌疑人的原始语音与所述还原语音进行声纹比对;
当声纹比对的结果为不匹配时,调整所述语音特征变换模型中参数的参数值,并返回所述通过语音特征变换模型还原所述变声语音的步骤进行迭代,直至声纹比对的结果为匹配时停止迭代或者直至满足迭代停止条件时停止迭代;
根据停止迭代时声纹比对的结果,确定所述变声语音和所述原始语音的匹配结果。
2.根据权利要求1所述的方法,其特征在于,所述通过语音特征变换模型还原所述变声语音,得到还原语音之前,所述方法还包括:
确定所述语音特征变换模型的至少一种参数;所述至少一种参数表征至少一种用于还原所述变声语音的语音特征;
分别选取所述语音特征变换模型的参数的初始参数值;
根据所述语音特征变换模型的参数和所述参数的初始参数值建立语音特征变换模型。
3.根据权利要求1所述的方法,其特征在于,所述将嫌疑人的原始语音与所述还原语音进行声纹比对,包括:
分别对嫌疑人的原始语音和所述还原语音进行高通滤波;
分别将已经过高通滤波的所述原始语音和所述还原语音进行分段处理;
将已经过分段处理的所述原始语音和所述还原语音进行声纹比对。
4.根据权利要求1所述的方法,其特征在于,所述将嫌疑人的原始语音与所述还原语音进行声纹比对,包括:
获取所述原始语音的第一声纹特征和所述还原语音的第二声纹特征;
计算所述第一声纹特征和所述第二声纹特征的声纹比对得分;
当所述声纹比对得分高于或等于得分阈值,则声纹比对的结果为匹配;
当所述声纹比对得分低于所述得分阈值,则声纹比对的结果为不匹配。
5.根据权利要求4所述的方法,其特征在于,所述调整所述语音特征变换模型中参数的参数值包括:
确定对所述语音特征变换模型中参数的参数值进行调整的目标区间;
在所述目标区间内查找使得所述还原语音与所述原始语音之间的声纹比对得分趋高的目标参数值;
将所述目标参数值确定为所述语音特征变换模型中的对应的所述参数的调整的参数值。
6.根据权利要求5所述的方法,其特征在于,所述确定对所述语音特征变换模型中参数的参数值进行调整的目标区间,包括:
获取对所述参数的参数值进行调整的区间长度;
以所述语音特征变换模型中的所述参数当前的参数值为中心,并按照所述区间长度确定所述参数对应的目标区间。
7.根据权利要求4所述的方法,所述获取所述原始语音的第一声纹特征和所述还原语音的第二声纹特征包括:
提取所述原始语音的帧级特征,并对所述原始语音的帧级特征进行运算得到所述原始语音的句子级特征;
根据所述原始语音的帧级特征和句子级特征得到所述第一声纹特征;
提取所述还原语音的帧级特征,并对所述还原语音的帧级特征进行运算得到所述还原语音的句子级特征;
根据所述还原语音的帧级特征和句子级特征得到所述第二声纹特征。
8.一种语音匹配装置,其特征在于,所述装置包括:
获取模块,用于获取待匹配的变声语音;
还原模块,用于通过语音特征变换模型还原所述变声语音,得到还原语音;
声纹比对模块,用于将嫌疑人的原始语音与所述还原语音进行声纹比对;
调整模块,当声纹比对的结果为不匹配时,用于调整所述语音特征变换模型中参数的参数值,并返回所述通过语音特征变换模型还原所述变声语音的步骤进行迭代,直至声纹比对的结果为匹配时停止迭代或者直至满足迭代停止条件时停止迭代;
确定模块,用于根据停止迭代时声纹比对的结果,确定所述变声语音和所述原始语音的匹配结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010719805.7A CN111739547B (zh) | 2020-07-24 | 2020-07-24 | 语音匹配方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010719805.7A CN111739547B (zh) | 2020-07-24 | 2020-07-24 | 语音匹配方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111739547A true CN111739547A (zh) | 2020-10-02 |
CN111739547B CN111739547B (zh) | 2020-11-24 |
Family
ID=72657542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010719805.7A Active CN111739547B (zh) | 2020-07-24 | 2020-07-24 | 语音匹配方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739547B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002236666A (ja) * | 2001-02-09 | 2002-08-23 | Matsushita Electric Ind Co Ltd | 個人認証装置 |
US7412039B2 (en) * | 2004-04-23 | 2008-08-12 | International Business Machines Corporation | Method and system for verifying an attachment file within an e-mail |
CN103730121A (zh) * | 2013-12-24 | 2014-04-16 | 中山大学 | 一种伪装声音的识别方法及装置 |
CN108198574A (zh) * | 2017-12-29 | 2018-06-22 | 科大讯飞股份有限公司 | 变声检测方法及装置 |
CN109215680A (zh) * | 2018-08-16 | 2019-01-15 | 公安部第三研究所 | 一种基于卷积神经网络的语音还原方法 |
CN109616131A (zh) * | 2018-11-12 | 2019-04-12 | 南京南大电子智慧型服务机器人研究院有限公司 | 一种数字实时语音变音方法 |
CN110459242A (zh) * | 2019-08-21 | 2019-11-15 | 广州国音智能科技有限公司 | 变声检测方法、终端及计算机可读存储介质 |
CN110932960A (zh) * | 2019-11-04 | 2020-03-27 | 深圳市声扬科技有限公司 | 一种基于社交软件的防欺诈方法、服务器和*** |
-
2020
- 2020-07-24 CN CN202010719805.7A patent/CN111739547B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002236666A (ja) * | 2001-02-09 | 2002-08-23 | Matsushita Electric Ind Co Ltd | 個人認証装置 |
US7412039B2 (en) * | 2004-04-23 | 2008-08-12 | International Business Machines Corporation | Method and system for verifying an attachment file within an e-mail |
CN103730121A (zh) * | 2013-12-24 | 2014-04-16 | 中山大学 | 一种伪装声音的识别方法及装置 |
CN108198574A (zh) * | 2017-12-29 | 2018-06-22 | 科大讯飞股份有限公司 | 变声检测方法及装置 |
CN109215680A (zh) * | 2018-08-16 | 2019-01-15 | 公安部第三研究所 | 一种基于卷积神经网络的语音还原方法 |
CN109616131A (zh) * | 2018-11-12 | 2019-04-12 | 南京南大电子智慧型服务机器人研究院有限公司 | 一种数字实时语音变音方法 |
CN110459242A (zh) * | 2019-08-21 | 2019-11-15 | 广州国音智能科技有限公司 | 变声检测方法、终端及计算机可读存储介质 |
CN110932960A (zh) * | 2019-11-04 | 2020-03-27 | 深圳市声扬科技有限公司 | 一种基于社交软件的防欺诈方法、服务器和*** |
Also Published As
Publication number | Publication date |
---|---|
CN111739547B (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887582B2 (en) | Training and testing utterance-based frameworks | |
CN110136692B (zh) | 语音合成方法、装置、设备及存储介质 | |
US10650810B2 (en) | Determining phonetic relationships | |
US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
CN112289299B (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
WO2013020329A1 (zh) | 参数语音合成方法和*** | |
CN111508511A (zh) | 实时变声方法及装置 | |
CN112992109B (zh) | 辅助歌唱***、辅助歌唱方法及其非瞬时计算机可读取记录媒体 | |
US20230206896A1 (en) | Method and system for applying synthetic speech to speaker image | |
CN112735454A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
KR102528019B1 (ko) | 인공지능 기술에 기반한 음성 합성 시스템 | |
CN115148185A (zh) | 语音合成方法及装置、电子设备及存储介质 | |
CN111739547B (zh) | 语音匹配方法、装置、计算机设备和存储介质 | |
CN114708876B (zh) | 音频处理方法、装置、电子设备及存储介质 | |
CN115810341A (zh) | 音频合成方法、装置、设备以及介质 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN112992110B (zh) | 音频处理方法、装置、计算设备以及介质 | |
Cahyaningtyas et al. | Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN | |
CN114999440A (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
CN114822497A (zh) | 语音合成模型的训练及语音合成方法、装置、设备和介质 | |
US9928832B2 (en) | Method and apparatus for classifying lexical stress | |
Hsu et al. | Speaker-dependent model interpolation for statistical emotional speech synthesis | |
KR102503066B1 (ko) | 어텐션 얼라인먼트의 스코어를 이용하여 스펙트로그램의 품질을 평가하는 방법 및 음성 합성 시스템 | |
JP7079455B1 (ja) | 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |