CN110176242A - 一种音色的识别方法、装置、计算机设备和存储介质 - Google Patents
一种音色的识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110176242A CN110176242A CN201910621995.6A CN201910621995A CN110176242A CN 110176242 A CN110176242 A CN 110176242A CN 201910621995 A CN201910621995 A CN 201910621995A CN 110176242 A CN110176242 A CN 110176242A
- Authority
- CN
- China
- Prior art keywords
- frequency
- signal
- energy
- frequency point
- range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000001228 spectrum Methods 0.000 claims abstract description 47
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 230000005236 sound signal Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000000630 rising effect Effects 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000000366 juvenile effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 240000005385 Jasminum sambac Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明实施例提供了一种音色的识别方法、装置、计算机设备和存储介质,该方法包括:确定语音信号;将所述语音信号转换为频谱信号;计算所述频谱信号中频点的能量;根据所述频点的能量识别基音信号的频率;根据所述基音信号的频率确定所述语音信号的音色。由于基音与声带振动频率一致或相吻合,通过基音识别音色,可以保证音色的准确性,并且,基音检测的操作较为简便,可降低运算量,提高处理效率。
Description
技术领域
本发明实施例涉及音频处理的技术,尤其涉及一种音色的识别方法、装置、计算机设备和存储介质。
背景技术
音色,属于一种感官属性,使听者可以根据它判断出两个具有相同的响度和音高的音是不相似的。
目前,对语音信号进行音色的识别,通常是标记语音信号的音色,以及,提取语音信号的特征,如MFCC(Mel Frequency Cepstral Coefficient,梅尔倒谱系数),以此作为训练样本训练机器学习模型,如SVM(Support Vector Machine,指的是支持向量机),使用机器学习模型识别其他语音信号的音色。
但是,这种方式操作较为复杂,运算量大,处理效率较低。
发明内容
本发明实施例提供了一种音色的识别方法、装置、计算机设备和存储介质,以解决提取语音信号的特征训练机器学习模型识别音色,操作较为复杂、运算量大、处理效率较低的问题。
第一方面,本发明实施例提供了一种音色的识别方法,包括:
确定语音信号;
将所述语音信号转换为频谱信号;
计算所述频谱信号中频点的能量;
根据所述频点的能量识别基音信号的频率;
根据所述基音信号的频率确定所述语音信号的音色。
可选地,所述确定语音信号,包括:
接收音频文件;
将所述音频文件切分为多帧音频信号;
对所述音频信号添加窗函数;
对所述音频信号进行语音活动检测,以识别语音信号。
可选地,所述将所述语音信号转换为频谱信号,包括:
对所述语音信号进行傅里叶变换,获得频谱信号,其中,所述频谱信号中的频点以复数表示;
所述计算所述频谱信号中频点的能量,包括:
提取所述复数中的实部与虚部;
计算所述实部的平方与所述虚部的平方之间的和值;
对所述和值进行开方运算,获得所述频点的能量。
可选地,所述根据所述频点的能量识别基音信号的频率,包括:
查找所述能量满足预设的基音能量条件的频点,作为基音信号的基音频点;
将所述基音信号的基音频点转换为所述基音信号的频率。
可选地,所述基音能量条件包括如下的至少一种:
下一个频点的能量大于预设的能量阈值;
相邻频点的能量呈上升趋势;
能量所属的频点转换为在预设的人声频率范围内的频率。
可选地,所述查找所述能量满足预设的基音能量条件的频点,作为基音频点,包括:
查找所述能量满足预设的基音能量条件的频点,作为候选频点;
计算所述候选频点的平均值,作为基音频点。
可选地,所述将所述基音频点转换为基音信号的频率,包括:
确定所述基音频点的采样频率与数量;
计算所述采样频率与所述数量之间的比值,作为候选频率;
将所述基音频点乘以所述候选频率,获得基音信号的频率。
可选地,所述根据所述基音信号的频率确定所述语音信号的音色,包括:
确定所述基音信号的频率所属的频率范围;
基于所述频率范围确定所述语音信号的音色。
可选地,所述基于所述频率范围确定所述语音信号的音色,包括:
若所述频率范围为第一范围,则确定所述语音信号的音色为萝莉音;
若所述频率范围为第二范围,则确定所述语音信号的音色为少女音,其中,所述第一范围大于所述第二范围;
若所述频率范围为第三范围,则确定所述语音信号的音色为御姐音,其中,所述第二范围大于所述第三范围;
若所述频率范围为第四范围,则确定所述语音信号的音色为女王音,其中,所述第三范围大于所述第四范围;
若所述频率范围为第五范围,则确定所述语音信号的音色为少年音,其中,所述第四范围大于所述第五范围;
若所述频率范围为第六范围,则确定所述语音信号的音色为正太音,其中,所述第五范围大于所述第六范围;
若所述频率范围为第七范围,则确定所述语音信号的音色为青年音,其中,所述第六范围大于所述第七范围;
若所述频率范围为第八范围,则确定所述语音信号的音色为大叔音,其中,所述第七范围大于所述第八范围。
第二方面,本发明实施例还提供了一种音色的识别装置,包括:
语音信号确定模块,用于确定语音信号;
频谱信号转换模块,用于将所述语音信号转换为频谱信号;
能量计算模块,用于计算所述频谱信号中频点的能量;
频率识别模块,用于根据所述频点的能量识别基音信号的频率;
音色确定模块,用于根据所述基音信号的频率确定所述语音信号的音色。
可选地,所述语音信号确定模块包括:
音频文件接收子模块,用于接收音频文件;
音频信号切分子模块,用于将所述音频文件切分为多帧音频信号;
音频信号添加子模块,用于对所述音频信号添加窗函数;
语音活动检测子模块,用于对所述音频信号进行语音活动检测,以识别语音信号。
可选地,所述频谱信号转换模块包括:
傅里叶变换子模块,用于对所述语音信号进行傅里叶变换,获得频谱信号,其中,所述频谱信号中的频点以复数表示;
所述能量计算模块包括:
复数提取子模块,用于提取所述复数中的实部与虚部;
和值计算子模块,用于计算所述实部的平方与所述虚部的平方之间的和值;
开方运算子模块,用于对所述和值进行开方运算,获得所述频点的能量。
可选地,所述频率识别模块包括:
基音频点查找子模块,用于查找所述能量满足预设的基音能量条件的频点,作为基音信号的基音频点;
基音频点转换子模块,用于将所述基音信号的基音频点转换为所述基音信号的频率。
可选地,所述基音能量条件包括如下的至少一种:
下一个频点的能量大于预设的能量阈值;
相邻频点的能量呈上升趋势;
能量所属的频点转换为在预设的人声频率范围内的频率。
可选地,所述基音频点查找子模块包括:
候选频点查找单元,用于查找所述能量满足预设的基音能量条件的频点,作为候选频点;
平均值计算单元,用于计算所述候选频点的平均值,作为基音频点。
可选地,所述基音频点转换子模块包括:
参数确定单元,用于确定所述基音频点的采样频率与数量;
比值计算单元,用于计算所述采样频率与所述数量之间的比值,作为候选频率;
频率获得单元,用于将所述基音频点乘以所述候选频率,获得基音信号的频率。
可选地,所述音色确定模块包括:
频率范围归属子模块,用于确定所述基音信号的频率所属的频率范围;
频率范围确定子模块,用于基于所述频率范围确定所述语音信号的音色。
可选地,所述频率范围确定子模块包括:
第一范围确定单元,用于若所述频率范围为第一范围,则确定所述语音信号的音色为萝莉音;
第二范围确定单元,用于若所述频率范围为第二范围,则确定所述语音信号的音色为少女音,其中,所述第一范围大于所述第二范围;
第三范围确定单元,用于若所述频率范围为第三范围,则确定所述语音信号的音色为御姐音,其中,所述第二范围大于所述第三范围;
第四范围确定单元,用于若所述频率范围为第四范围,则确定所述语音信号的音色为女王音,其中,所述第三范围大于所述第四范围;
第五范围确定单元,用于若所述频率范围为第五范围,则确定所述语音信号的音色为少年音,其中,所述第四范围大于所述第五范围;
第六范围确定单元,用于若所述频率范围为第六范围,则确定所述语音信号的音色为正太音,其中,所述第五范围大于所述第六范围;
第七范围确定单元,用于若所述频率范围为第七范围,则确定所述语音信号的音色为青年音,其中,所述第六范围大于所述第七范围;
第八范围确定单元,用于若所述频率范围为第八范围,则确定所述语音信号的音色为大叔音,其中,所述第七范围大于所述第八范围。
第三方面,本发明实施例还提供了一种计算机设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面任一项所述的音色的识别方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的音色的识别方法的步骤。
在本发明实施例中,确定语音信号,将语音信号转换为频谱信号,计算频谱信号中频点的能量,根据频点的能量识别基音信号的频率,根据基音信号的频率确定语音信号的音色,由于基音与声带振动频率一致或相吻合,通过基音识别音色,可以保证音色的准确性,并且,基音检测的操作较为简便,可降低运算量,提高处理效率。
附图说明
图1为本发明实施例一提供的一种音色的识别方法的流程图;
图2为本发明实施例二提供的一种音色的识别装置的结构示意图;
图3为本发明实施例提供的一种计算机设备的结构示意图;
图4为本发明实施例提供的另一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种音色的识别方法的流程图,本实施例可适用于通过基音识别音色的情况,进一步而言,当发声体由于振动而发出声音时,声音一般可以分解为许多单纯的正弦波,也就是说所有的自然声音基本都是由许多频率不同的正弦波组成的,其中频率最低的正弦波即为基音,而其他频率较高的正弦波则为泛音。
该方法可以由音色的识别装置来执行,该音色的识别装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,服务器、工作站、移动终端(如手机、平板电脑、个人数字助理等)、智能穿戴设备(如智能手表、智能眼镜等)等。
如图1所示,该方法具体包括如下步骤:
步骤101、确定语音信号。
声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间,语音是声音的一种,它是由人的发生器官发出的、具有一定语法和意义的声音,语音的震动频率最高可达15kHz左右。
语音信号可以指携带有语音的数字信号。
在具体实现中,可以接收音频文件,如用户录制的语音数据、短视频,等等。
对音频文件进行分帧,从而将音频文件切分为多帧音频信号,每帧音频信号的长度可为50ms左右。
后续对语音信号转换为频谱信号,该频谱信号属于分析频谱,是实际频谱的近似。如果采样不合适,某一频率的信号能量会扩散到相邻频点上,出现频谱泄漏现象。
为了减少频谱泄漏,可对音频信号添加窗函数,例如,三角窗、汉宁窗(hanning)、汉明窗、高斯窗等。
对音频信号进行语音活动检测(Voice Activity Detection,VAD),以识别语音信号。
若某帧音频信号为语音信号,则对该帧音频信号进行基音检测,若某帧音频信号不为语音信号,则跳过该帧音频信号。
步骤102、将所述语音信号转换为频谱信号。
在本发明实施例中,将在时域下表示的样本音频信号,转换为频域下表示的频谱信号。
在具体实现中,可对语音信号进行傅里叶变换,获得频谱信号,该频谱信号中的频点以复数表示。
其中,傅里叶变换可以包括FT(Fourier Transformation,傅里叶变换)、FFT(FastFourier Transformation,快速傅里叶变换)等等。
步骤103、计算所述频谱信号中频点的能量。
在具体实现中,由于频谱信号中的频点以复数表示,则可以提取复数中的实部与虚部,计算实部的平方与虚部的平方之间的和值,对和值进行开方运算,获得频点的能量。
进一步而言,可以通过如下公式计算频谱信号中频点的能量:
其中,Ek为第k个频点的能量,傅里叶变换后第k个频点以复数表示,ak为所复数中的实部,bk为复数中的虚部。
假设每一帧语音信号中的频点数量为L个,则k的取值为1-L。
步骤104、根据所述频点的能量识别基音信号的频率。
在具体实现中,通过频点的能量进行基音检测,从而识别出基音信号的频率。
在本发明的一种优选实施例中,步骤104可以包括如下步骤:
S11、查找所述能量满足预设的基音能量条件的频点,作为基音信号的基音频点。
把频点的能量Ek保存到一个数组中,对该数组按以基音能量条件进行遍历,从而求得基音信号的基音频点。
在具体实现中,基音能量条件包括如下的至少一种:
1、下一个频点的能量大于预设的能量阈值
例如,Ek+1>30000,表示这个频点开始很可能是基音频点的位置。
2、相邻频点的能量呈上升趋势
例如,表示这个频点的能量是上升的。
3、能量所属的频点转换为在预设的人声频率范围内的频率。
例如,80Hz<k*fs/L<600Hz,其中,fs为采样频率,L为语音信号中的频点数量,80Hz为正常人声的频率下限,600Hz为正常人声的频率上限。
如果满足上述基音能量条件,则可以确认k为基音信号的基音频点。
当然,上述基音能量条件只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他基音能量条件,本发明实施例对此不加以限制。另外,除了上述基音能量条件外,本领域技术人员还可以根据实际需要采用其它基音能量条件,本发明实施例对此也不加以限制。
此外,可以进一步对基音信号的进行确认,将整个音频文件遍历基音能量条件,可以得到多个满足基音能量条件的频点,此时,可查找能量满足预设的基音能量条件的频点,作为候选频点,保存到数组中。
计算所述候选频点的平均值,作为基音频点。
S12、将所述基音信号的基音频点转换为所述基音信号的频率。
在具体实现中,可以确定基音频点的采样频率与数量,计算采样频率与述数量之间的比值,作为候选频率,将基音频点乘以候选频率,获得基音信号的频率。
进一步而言,可以通过如下公式计算基音信号的频率:
f=k*fs/L
其中,f为基音信号的频率,k为基音信号的频点(指频点的数值),fs为基音频点的采样频率,L为基音频点的数量。
需要说明的是,L均为同一取值,即每一帧语音信号的频点数量相同。
步骤105、根据所述基音信号的频率确定所述语音信号的音色。
针对不同基音信号的频率,则可以确认语音信号的音色。
在具体实现中,可以预先设置频率范围与音色之间的映射关系,因此,可确定基音信号的频率所属的频率范围,基于频率范围确定语音信号的音色。
一般而言,音色包括男音色(如大叔音,青年音,少年音,正太音等)、女音色(如萝莉音,御姐音,少女音,女王音等),男音色映射的频率范围低于女音色映射的频率范围。
在一个示例中,可以把音色分为以下类别:大叔音,青年音,少年音,正太音,萝莉音,御姐音,少女音,女王音。
在本示例中,若频率范围为第一范围,如f>400,则确定语音信号的音色为萝莉音。
若频率范围为第二范围,如320<f<400,则确定语音信号的音色为少女音,其中,第一范围大于第二范围;
若频率范围为第三范围,如250<f<320,则确定语音信号的音色为御姐音,其中,第二范围大于第三范围;
若频率范围为第四范围,如180<f<250,则确定语音信号的音色为女王音,其中,第三范围大于第四范围;
若频率范围为第五范围,如150<f<180,则确定语音信号的音色为少年音,其中,第四范围大于第五范围;
若频率范围为第六范围,如130<f<150,则确定语音信号的音色为正太音,其中,第五范围大于第六范围;
若频率范围为第七范围,如110<f<130,则确定语音信号的音色为青年音,其中,第六范围大于第七范围;
若频率范围为第八范围,如80<f<110,则确定语音信号的音色为大叔音,其中,第七范围大于第八范围。
需要说明的是,每个人的声音都有其音色的属性,音色可在一定的概率上表征年龄,但并不代表年龄。
当然,上述频率范围及其音色只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他频率范围及其音色,本发明实施例对此不加以限制。另外,除了上述频率范围及其音色外,本领域技术人员还可以根据实际需要采用其它频率范围及其音色,本发明实施例对此也不加以限制。
在本发明实施例中,确定语音信号,将语音信号转换为频谱信号,计算频谱信号中频点的能量,根据频点的能量识别基音信号的频率,根据基音信号的频率确定语音信号的音色,由于基音与声带振动频率一致或相吻合,通过基音识别音色,可以保证音色的准确性,并且,基音检测的操作较为简便,可降低运算量,提高处理效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例二
图2为本发明实施例二提供的一种音色的识别装置的结构示意图,该装置具体可以包括如下模块:
语音信号确定模块201,用于确定语音信号;
频谱信号转换模块202,用于将所述语音信号转换为频谱信号;
能量计算模块203,用于计算所述频谱信号中频点的能量;
频率识别模块204,用于根据所述频点的能量识别基音信号的频率;
音色确定模块205,用于根据所述基音信号的频率确定所述语音信号的音色。
在本发明的一种优选实施例中,所述语音信号确定模块201包括:
音频文件接收子模块,用于接收音频文件;
音频信号切分子模块,用于将所述音频文件切分为多帧音频信号;
音频信号添加子模块,用于对所述音频信号添加窗函数;
语音活动检测子模块,用于对所述音频信号进行语音活动检测,以识别语音信号。
在本发明的一种优选实施例中,所述频谱信号转换模块202包括:
傅里叶变换子模块,用于对所述语音信号进行傅里叶变换,获得频谱信号,其中,所述频谱信号中的频点以复数表示;
所述能量计算模块203包括:
复数提取子模块,用于提取所述复数中的实部与虚部;
和值计算子模块,用于计算所述实部的平方与所述虚部的平方之间的和值;
开方运算子模块,用于对所述和值进行开方运算,获得所述频点的能量。
在本发明的一种优选实施例中,所述频率识别模块204包括:
基音频点查找子模块,用于查找所述能量满足预设的基音能量条件的频点,作为基音信号的基音频点;
基音频点转换子模块,用于将所述基音信号的基音频点转换为所述基音信号的频率。
在本发明实施例的一种优选示例中,所述基音能量条件包括如下的至少一种:
下一个频点的能量大于预设的能量阈值;
相邻频点的能量呈上升趋势;
能量所属的频点转换为在预设的人声频率范围内的频率。
在本发明的一种优选实施例中,所述基音频点查找子模块包括:
候选频点查找单元,用于查找所述能量满足预设的基音能量条件的频点,作为候选频点;
平均值计算单元,用于计算所述候选频点的平均值,作为基音频点。
在本发明的一种优选实施例中,所述基音频点转换子模块包括:
参数确定单元,用于确定所述基音频点的采样频率与数量;
比值计算单元,用于计算所述采样频率与所述数量之间的比值,作为候选频率;
频率获得单元,用于将所述基音频点乘以所述候选频率,获得基音信号的频率。
在本发明的一种优选实施例中,所述音色确定模块205包括:
频率范围归属子模块,用于确定所述基音信号的频率所属的频率范围;
频率范围确定子模块,用于基于所述频率范围确定所述语音信号的音色。
在本发明实施例的一种优选示例中,所述频率范围确定子模块包括:
第一范围确定单元,用于若所述频率范围为第一范围,则确定所述语音信号的音色为萝莉音;
第二范围确定单元,用于若所述频率范围为第二范围,则确定所述语音信号的音色为少女音,其中,所述第一范围大于所述第二范围;
第三范围确定单元,用于若所述频率范围为第三范围,则确定所述语音信号的音色为御姐音,其中,所述第二范围大于所述第三范围;
第四范围确定单元,用于若所述频率范围为第四范围,则确定所述语音信号的音色为女王音,其中,所述第三范围大于所述第四范围;
第五范围确定单元,用于若所述频率范围为第五范围,则确定所述语音信号的音色为少年音,其中,所述第四范围大于所述第五范围;
第六范围确定单元,用于若所述频率范围为第六范围,则确定所述语音信号的音色为正太音,其中,所述第五范围大于所述第六范围;
第七范围确定单元,用于若所述频率范围为第七范围,则确定所述语音信号的音色为青年音,其中,所述第六范围大于所述第七范围;
第八范围确定单元,用于若所述频率范围为第八范围,则确定所述语音信号的音色为大叔音,其中,所述第七范围大于所述第八范围。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本发明实施例中,确定语音信号,将语音信号转换为频谱信号,计算频谱信号中频点的能量,根据频点的能量识别基音信号的频率,根据基音信号的频率确定语音信号的音色,由于基音与声带振动频率一致或相吻合,通过基音识别音色,可以保证音色的准确性,并且,基音检测的操作较为简便,可降低运算量,提高处理效率。
图3为本发明实施例提供的一种计算机设备的结构示意图。该计算机设备300包括服务器、工作站等,可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。
服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,一个或一个以上键盘356,和/或,一个或一个以上操作***341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
图4为本发明实施例提供的另一种计算机设备的结构示意图。
计算机设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,计算机设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
应理解的是,本发明实施例中,射频单元401可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器410处理;另外,将上行的数据发送给基站。通常,射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元401还可以通过无线通信***与网络和其他设备通信。
计算机设备通过网络模块402为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元403还可以提供与计算机设备400执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。
输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。
计算机设备400还包括至少一种传感器405,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度,接近传感器可在计算机设备400移动到耳边时,关闭显示面板4061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别计算机设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。
用户输入单元407可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器410,接收处理器410发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071,用户输入单元407还可以包括其他输入设备4072。具体地,其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板4071可覆盖在显示面板4061上,当触控面板4071检测到在其上或附近的触摸操作后,传送给处理器410以确定触摸事件的类型,随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中,触控面板4071与显示面板4061是作为两个独立的部件来实现计算机设备的输入和输出功能,但是在某些实施例中,可以将触控面板4071与显示面板4061集成而实现计算机设备的输入和输出功能,具体此处不做限定。
接口单元408为外部装置与计算机设备400连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到计算机设备400内的一个或多个元件或者可以用于在计算机设备400和外部装置之间传输数据。
存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器409可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器410是计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器409内的软件程序和/或模块,以及调用存储在存储器409内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。处理器410可包括一个或多个处理单元;优选的,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
计算机设备400还可以包括给各个部件供电的电源411(比如电池),优选的,电源411可以通过电源管理***与处理器410逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
另外,计算机设备400包括一些未示出的功能模块,在此不再赘述。
优选的,本发明实施例还提供一种计算机设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述音色的识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述音色的识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种音色的识别方法,其特征在于,包括:
确定语音信号;
将所述语音信号转换为频谱信号;
计算所述频谱信号中频点的能量;
根据所述频点的能量识别基音信号的频率;
根据所述基音信号的频率确定所述语音信号的音色。
2.根据权利要求1所述的方法,其特征在于,所述确定语音信号,包括:
接收音频文件;
将所述音频文件切分为多帧音频信号;
对所述音频信号添加窗函数;
对所述音频信号进行语音活动检测,以识别语音信号。
3.根据权利要求1所述的方法,其特征在于,
所述将所述语音信号转换为频谱信号,包括:
对所述语音信号进行傅里叶变换,获得频谱信号,其中,所述频谱信号中的频点以复数表示;
所述计算所述频谱信号中频点的能量,包括:
提取所述复数中的实部与虚部;
计算所述实部的平方与所述虚部的平方之间的和值;
对所述和值进行开方运算,获得所述频点的能量。
4.根据权利要求1或2或3所述的方法,其特征在于,所述根据所述频点的能量识别基音信号的频率,包括:
查找所述能量满足预设的基音能量条件的频点,作为基音信号的基音频点;
将所述基音信号的基音频点转换为所述基音信号的频率。
5.根据权利要求4所述的方法,其特征在于,所述基音能量条件包括如下的至少一种:
下一个频点的能量大于预设的能量阈值;
相邻频点的能量呈上升趋势;
能量所属的频点转换为在预设的人声频率范围内的频率。
6.根据权利要求4所述的方法,其特征在于,所述查找所述能量满足预设的基音能量条件的频点,作为基音频点,包括:
查找所述能量满足预设的基音能量条件的频点,作为候选频点;
计算所述候选频点的平均值,作为基音频点。
7.根据权利要求4所述的方法,其特征在于,所述将所述基音频点转换为基音信号的频率,包括:
确定所述基音频点的采样频率与数量;
计算所述采样频率与所述数量之间的比值,作为候选频率;
将所述基音频点乘以所述候选频率,获得基音信号的频率。
8.一种音色的识别装置,其特征在于,包括:
语音信号确定模块,用于确定语音信号;
频谱信号转换模块,用于将所述语音信号转换为频谱信号;
能量计算模块,用于计算所述频谱信号中频点的能量;
频率识别模块,用于根据所述频点的能量识别基音信号的频率;
音色确定模块,用于根据所述基音信号的频率确定所述语音信号的音色。
9.一种计算机设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的音色的识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的音色的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621995.6A CN110176242A (zh) | 2019-07-10 | 2019-07-10 | 一种音色的识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621995.6A CN110176242A (zh) | 2019-07-10 | 2019-07-10 | 一种音色的识别方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110176242A true CN110176242A (zh) | 2019-08-27 |
Family
ID=67699937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910621995.6A Pending CN110176242A (zh) | 2019-07-10 | 2019-07-10 | 一种音色的识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110176242A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826515A (zh) * | 2019-11-13 | 2020-02-21 | 三峡大学 | 一种闭合特质的歌唱音色检测装置 |
CN113113052A (zh) * | 2021-04-08 | 2021-07-13 | 深圳市品索科技有限公司 | 一种离散点的语音基音识别装置及计算机存储介质 |
CN115035910A (zh) * | 2022-04-29 | 2022-09-09 | 中国第一汽车股份有限公司 | 一种汽车微动开关类按键声音一致性评价与音色设计方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102842305A (zh) * | 2011-06-22 | 2012-12-26 | 华为技术有限公司 | 一种基音检测的方法和装置 |
WO2013168200A1 (ja) * | 2012-05-11 | 2013-11-14 | パイオニア株式会社 | 音声処理装置、再生装置、音声処理方法およびプログラム |
CN105575393A (zh) * | 2015-12-02 | 2016-05-11 | 中国传媒大学 | 一种基于人声音色的个性化点唱歌曲推荐方法 |
CN107170457A (zh) * | 2017-06-29 | 2017-09-15 | 深圳市泰衡诺科技有限公司 | 年龄识别方法、装置及终端 |
CN107833581A (zh) * | 2017-10-20 | 2018-03-23 | 广州酷狗计算机科技有限公司 | 一种提取声音的基音频率的方法、装置及可读存储介质 |
CN107958672A (zh) * | 2017-12-12 | 2018-04-24 | 广州酷狗计算机科技有限公司 | 获取基音波形数据的方法和装置 |
CN109360583A (zh) * | 2018-11-13 | 2019-02-19 | 无锡冰河计算机科技发展有限公司 | 一种音色评定方法和装置 |
-
2019
- 2019-07-10 CN CN201910621995.6A patent/CN110176242A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102842305A (zh) * | 2011-06-22 | 2012-12-26 | 华为技术有限公司 | 一种基音检测的方法和装置 |
WO2013168200A1 (ja) * | 2012-05-11 | 2013-11-14 | パイオニア株式会社 | 音声処理装置、再生装置、音声処理方法およびプログラム |
CN105575393A (zh) * | 2015-12-02 | 2016-05-11 | 中国传媒大学 | 一种基于人声音色的个性化点唱歌曲推荐方法 |
CN107170457A (zh) * | 2017-06-29 | 2017-09-15 | 深圳市泰衡诺科技有限公司 | 年龄识别方法、装置及终端 |
CN107833581A (zh) * | 2017-10-20 | 2018-03-23 | 广州酷狗计算机科技有限公司 | 一种提取声音的基音频率的方法、装置及可读存储介质 |
CN107958672A (zh) * | 2017-12-12 | 2018-04-24 | 广州酷狗计算机科技有限公司 | 获取基音波形数据的方法和装置 |
CN109360583A (zh) * | 2018-11-13 | 2019-02-19 | 无锡冰河计算机科技发展有限公司 | 一种音色评定方法和装置 |
Non-Patent Citations (1)
Title |
---|
傅柏忻: "《演技教程 表演心理学 最新修订版》", 31 October 2018 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826515A (zh) * | 2019-11-13 | 2020-02-21 | 三峡大学 | 一种闭合特质的歌唱音色检测装置 |
CN113113052A (zh) * | 2021-04-08 | 2021-07-13 | 深圳市品索科技有限公司 | 一种离散点的语音基音识别装置及计算机存储介质 |
CN113113052B (zh) * | 2021-04-08 | 2024-04-05 | 深圳市品索科技有限公司 | 一种离散点的语音基音识别装置及计算机存储介质 |
CN115035910A (zh) * | 2022-04-29 | 2022-09-09 | 中国第一汽车股份有限公司 | 一种汽车微动开关类按键声音一致性评价与音色设计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110544488B (zh) | 一种多人语音的分离方法和装置 | |
CN103578474B (zh) | 一种语音控制方法、装置和设备 | |
CN108735209A (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
CN109558512A (zh) | 一种基于音频的个性化推荐方法、装置和移动终端 | |
CN110096580B (zh) | 一种faq对话方法、装置及电子设备 | |
CN108511002B (zh) | 危险事件声音信号识别方法、终端和计算机可读存储介质 | |
CN110335620A (zh) | 一种噪声抑制方法、装置和移动终端 | |
CN107799125A (zh) | 一种语音识别方法、移动终端及计算机可读存储介质 | |
CN111524501B (zh) | 语音播放方法、装置、计算机设备及计算机可读存储介质 | |
CN109065060B (zh) | 一种语音唤醒方法及终端 | |
CN110176242A (zh) | 一种音色的识别方法、装置、计算机设备和存储介质 | |
CN111177180A (zh) | 一种数据查询方法、装置以及电子设备 | |
CN109308178A (zh) | 一种语音画图方法及其终端设备 | |
CN109754823A (zh) | 一种语音活动检测方法、移动终端 | |
CN107798107A (zh) | 歌曲推荐的方法和移动设备 | |
CN109040641A (zh) | 一种视频数据合成方法及装置 | |
CN108989558A (zh) | 终端通话的方法及装置 | |
CN110012172A (zh) | 一种来电处理方法及终端设备 | |
CN113220590A (zh) | 语音交互应用的自动化测试方法、装置、设备及介质 | |
CN110111795B (zh) | 一种语音处理方法及终端设备 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
CN109992753A (zh) | 一种翻译处理方法及终端设备 | |
CN109949809A (zh) | 一种语音控制方法及终端设备 | |
CN112382282B (zh) | 一种语音去噪处理方法、装置、电子设备及存储介质 | |
CN111292727B (zh) | 一种语音识别方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190827 |