CN113270111A - 一种基于音频数据的身高预测方法、装置、设备和介质 - Google Patents
一种基于音频数据的身高预测方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN113270111A CN113270111A CN202110536777.XA CN202110536777A CN113270111A CN 113270111 A CN113270111 A CN 113270111A CN 202110536777 A CN202110536777 A CN 202110536777A CN 113270111 A CN113270111 A CN 113270111A
- Authority
- CN
- China
- Prior art keywords
- audio data
- preset
- predicted
- inputting
- height prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000000203 mixture Substances 0.000 claims abstract description 91
- 238000012706 support-vector machine Methods 0.000 claims abstract description 79
- 239000013598 vector Substances 0.000 claims abstract description 78
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 6
- 238000013024 troubleshooting Methods 0.000 abstract 1
- 230000001755 vocal effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请公开了一种基于音频数据的身高预测方法、装置、设备和介质,用于提供一种通过声音数据进行身高预测的方法,为公安干警提供高效的线索排查手段。方法包括:获取待预测音频数据;提取待预测音频数据的梅尔频率倒谱系数特征;将梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将特征向量输入到预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种基于音频数据的身高预测方法、装置、设备和介质。
背景技术
随着生物设备技术作为新一代人工智能的重要领域,借助人体生理特征或行为特征进行身份识别重要的研究方向。近年来得益于云计算、大数据、物联网和深度学习等信息技术的快速发展,生物识别技术在基础理论、算法模型、创新应用等方面不断取得突破。
声纹,作为生物识别特征中的一个常用的特征,广泛应用于语音处理领域,通过声纹特征可以进行性别识别、年龄预测和身份识别等。在语音监控应用场景中,从音频数据中估计说话人员数据是生物特征证据生成的关键环节。而现有技术中没有提供一种通过声音数据进行身高预测的方法。因此,提供一种基于声音数据进行身高预测方法是本领域技术人员亟需解决的技术问题。
发明内容
本申请提供了一种基于音频数据的身高预测方法、装置、设备和介质,用于提供一种通过声音数据进行身高预测的方法。
有鉴于此,本申请第一方面提供了一种基于音频数据的身高预测方法,包括:
获取待预测音频数据;
提取所述待预测音频数据的梅尔频率倒谱系数特征;
将所述梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将所述特征向量输入到预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果。
可选的,所述提取所述待预测音频数据的梅尔频率倒谱系数特征,之后还包括:
对所述梅尔频率倒谱系数特征进行归一化处理。
可选的,所述预置高斯混合通用背景模型包括第一预置高斯混合通用背景模型和第二预置高斯混合通用背景模型,所述预置支持向量机回归模型包括第一预置支持向量机回归模型和第二预置支持向量机回归模型;
所述将所述梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将所述特征向量输入到预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果,之前还包括:
判断所述待预测音频数据中的人声的性别;
所述将所述梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将所述特征向量输入到预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果,包括:
当所述待预测音频数据中的人声的性别为女性时,将所述梅尔频率倒谱系数特征输入到所述第一预置高斯混合通用背景模型进行特征提取,得到第一特征向量,并将所述第一特征向量输入到所述第一预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果;
当所述待预测音频数据中的人声的性别为男性时,将所述梅尔频率倒谱系数特征输入到所述第二预置高斯混合通用背景模型进行特征提取,得到第二特征向量,并将所述第二特征向量输入到所述第二预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果。
可选的,所述预置高斯混合通用背景模型的配置过程为:
获取若干女性背景音频数据和男性背景音频数据,并通过所述女性音频数据和所述男性音频数据分别训练一个高斯混合通用背景模型,得到第一高斯混合通用背景模型和第二高斯混合通用背景模型;
获取待训练音频数据,并根据所述待训练音频数据中的人声性别进行划分,得到女性待训练音频数据和男性待训练音频数据,其中,所述待训练音频数据具有身高标签;
分别提取所述女性待训练音频数据和所述男性待训练音频数据的梅尔频率倒谱系数特征;
将所述女性待训练音频数据的梅尔频率倒谱系数特征输入到所述第一高斯混合通用背景模型进行训练,得到所述第一预置高斯混合通用背景模型;
将所述男性待训练音频数据的梅尔频率倒谱系数特征输入到所述第二高斯混合通用背景模型进行训练,得到所述第二预置高斯混合通用背景模型。
可选的,所述预置支持向量机回归模型的配置过程为:
将所述女性待训练音频数据的梅尔频率倒谱系数特征输入到所述第一高斯混合通用背景模型进行特征提取,得到所述女性待训练音频数据的特征向量;
将所述男性待训练音频数据的梅尔频率倒谱系数特征输入到所述第二高斯混合通用背景模型进行特征提取,得到所述男性待训练音频数据的特征向量;
将所述女性待训练音频数据的特征向量输入到第一支持向量机回归模型进行有监督训练,得到所述第一预置支持向量机回归模型;
将所述男性待训练音频数据的特征向量输入到第二支持向量机回归模型进行有监督训练,得到所述第二预置支持向量机回归模型。
本申请第二方面提供了一种基于音频数据的身高预测装置,包括:
获取单元,用于获取待预测音频数据;
特征提取单元,用于提取所述待预测音频数据的梅尔频率倒谱系数特征;
预测单元,用于将所述梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将所述特征向量输入到预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果。
可选的,还包括:
处理单元,用于对所述梅尔频率倒谱系数特征进行归一化处理。
可选的,所述预置高斯混合通用背景模型包括第一预置高斯混合通用背景模型和第二预置高斯混合通用背景模型,所述预置支持向量机回归模型包括第一预置支持向量机回归模型和第二预置支持向量机回归模型,所述装置还包括:
判断单元,用于判断所述待预测音频数据中的人声的性别;
所述预测单元具体用于:
当所述待预测音频数据中的人声的性别为女性时,将所述梅尔频率倒谱系数特征输入到所述第一预置高斯混合通用背景模型进行特征提取,得到第一特征向量,并将所述第一特征向量输入到所述第一预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果;
当所述待预测音频数据中的人声的性别为男性时,将所述梅尔频率倒谱系数特征输入到所述第二预置高斯混合通用背景模型进行特征提取,得到第二特征向量,并将所述第二特征向量输入到所述第二预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果。
本申请第三方面提供了一种基于音频数据的身高预测设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的基于音频数据的身高预测方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一种所述的基于音频数据的身高预测方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种基于音频数据的身高预测方法,包括:获取待预测音频数据;提取待预测音频数据的梅尔频率倒谱系数特征;将梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将特征向量输入到预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果。
本申请中,在获取到待预测音频数据后,提取梅尔频率倒谱系数特征,并将其输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,然后将特征向量输入到预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果,实现了通过声音数据进行身高预测的方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种基于音频数据的身高预测方法的一个流程示意图;
图2为本申请实施例提供的一种基于音频数据的身高预测方法的另一个流程示意图;
图3为本申请实施例提供的一种基于音频数据的身高预测装置的一个结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种基于音频数据的身高预测方法的一个实施例,包括:
步骤101、获取待预测音频数据。
每个人在说话过程中所蕴含的语音特征、声道特征和发音习惯几乎是独一无二的,通过对语音中所蕴含的能表征和标识说话人的语音特征建立声学模型,可以在说话人身份信息鉴定、身高、年龄等生物特性估计方面进行研究拓展。实验发现,身高越高的人下呼吸道通常更大,包括肺部也是,这种额外的空间就创造出了一种更低沉的声音,随着身高的增加,肺部气管底部发出的声音频率就会显著降低,所以高个子的人往往音调较低。因此,声音中包含有说话人语言内容、身份信息以及身高、年龄、性别、情绪等副语言信息,从而可以通过声音预测说话人身高。
本申请实施例通过音频采集设备、录音设备等来获取待预测音频数据。
步骤102、提取待预测音频数据的梅尔频率倒谱系数特征。
在获取到待预测音频数据后,提取待预测音频数据的梅尔频率倒谱系数特征(Mel-Frequency Cepstral Coefficient Features),在提取到梅尔频率倒谱系数特征后,还可以对其进行归一化处理。其中,梅尔频率倒谱系数特征的提取过程属于现有技术,在此不再进行赘述。
步骤103、将梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将特征向量输入到预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果。
本申请实施例将归一化后的梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将特征向量输入到预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果。
本申请中,在获取到待预测音频数据后,提取梅尔频率倒谱系数特征,并将其输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,然后将特征向量输入到预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果,实现了通过声音数据进行身高预测的方法。
以上为本申请提供的一种基于音频数据的身高预测方法的一个实施例,以下为本申请提供的一种基于音频数据的身高预测方法的另一个实施例。
步骤201、获取待预测音频数据。
步骤202、提取待预测音频数据的梅尔频率倒谱系数特征。
步骤201至202的具体过程与步骤101至102的具体过程一致,在此不再进行赘述。
步骤203、判断待预测音频数据中的人声的性别。
可以通过性别识别模型来判断待预测音频数据中的人声的性别,通过包含女性和男性音频数据来训练网络模型得到性别识别模型,进而通过该性别识别模型来检测待预测音频数据中的人声的性别。
步骤204、当待预测音频数据中的人声的性别为女性时,将梅尔频率倒谱系数特征输入到第一预置高斯混合通用背景模型进行特征提取,得到第一特征向量,并将第一特征向量输入到第一预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果。
步骤205、当待预测音频数据中的人声的性别为男性时,将梅尔频率倒谱系数特征输入到第二预置高斯混合通用背景模型进行特征提取,得到第二特征向量,并将第二特征向量输入到第二预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果。
本申请实施例中的预置高斯混合通用背景模型包括第一预置高斯混合通用背景模型和第二预置高斯混合通用背景模型,预置支持向量机回归模型包括第一预置支持向量机回归模型和第二预置支持向量机回归模型。
当待预测音频数据中的人声的性别为女性时,将梅尔频率倒谱系数特征输入到第一预置高斯混合通用背景模型进行特征提取,得到第一特征向量,并将第一特征向量输入到第一预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果。
当待预测音频数据中的人声的性别为男性时,将梅尔频率倒谱系数特征输入到第二预置高斯混合通用背景模型进行特征提取,得到第二特征向量,并将第二特征向量输入到第二预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果。
进一步,本申请实施例中的预置高斯混合通用背景模型的配置过程为:
A1、获取若干女性背景音频数据和男性背景音频数据,并通过女性音频数据和男性音频数据分别训练一个高斯混合通用背景模型,得到第一高斯混合通用背景模型和第二高斯混合通用背景模型;
本申请实施例中为了提高身高预测结果的准确性,对于男性和女性音频数据分别训练一个模型,以对男性和女性分别进行身高预测。获取若干女性背景音频数据和男性背景音频数据,并通过女性音频数据和男性音频数据分别训练一个高斯混合通用背景模型,得到第一高斯混合通用背景模型和第二高斯混合通用背景模型,其中,第一高斯混合通用背景模型和第二高斯混合通用背景模型的网络结构一致,只是训练后的网络参数不同。
本申请实施例通过女性背景音频数据和男性背景音频数据预先训练一个通用背景模型,再通过待训练音频数据进行针对性训练,可以弥补待训练音频数据的数据量不足的问题,以提高模型的泛化能力。
A2、获取待训练音频数据,并根据待训练音频数据中的人声性别进行划分,得到女性待训练音频数据和男性待训练音频数据,其中,待训练音频数据具有身高标签;
可以采集大量已知对象(包括男性和女性)的音频数据,然后对各音频数据进行身高标注,得到待训练音频数据。然后根据待训练音频数据中的人声性别进行划分,得到女性待训练音频数据和男性待训练音频数据。
A3、分别提取女性待训练音频数据和男性待训练音频数据的梅尔频率倒谱系数特征;
A4、将女性待训练音频数据的梅尔频率倒谱系数特征输入到第一高斯混合通用背景模型进行训练,得到第一预置高斯混合通用背景模型;
A5、将男性待训练音频数据的梅尔频率倒谱系数特征输入到第二高斯混合通用背景模型进行训练,得到第二预置高斯混合通用背景模型。
进一步,本申请实施例中的预置支持向量机回归模型的配置过程为:
B1、将女性待训练音频数据的梅尔频率倒谱系数特征输入到第一高斯混合通用背景模型进行特征提取,得到女性待训练音频数据的特征向量;
B2、将男性待训练音频数据的梅尔频率倒谱系数特征输入到第二高斯混合通用背景模型进行特征提取,得到男性待训练音频数据的特征向量;
B3、将女性待训练音频数据的特征向量输入到第一支持向量机回归模型进行有监督训练,得到第一预置支持向量机回归模型;
B4、将男性待训练音频数据的特征向量输入到第二支持向量机回归模型进行有监督训练,得到第二预置支持向量机回归模型。
在对支持向量机回归模型进行训练时,根据待训练音频数据对应的身高预测结果和真实身高计算损失值,并根据损失值对支持向量机回归模型进行参数更新,直至支持向量机回归模型收敛,得到训练好的支持向量机回归模型,将训练好的支持向量机回归模型作为预置支持向量机回归模型。
本申请实施例中,在获取到待预测音频数据后,提取梅尔频率倒谱系数特征,并将其输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,然后将特征向量输入到预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果,实现了通过声音数据进行身高预测的方法。
进一步,本申请实施例通过女性背景音频数据和男性背景音频数据预先训练一个通用背景模型,再通过待训练音频数据进行针对性训练,可以弥补待训练音频数据的数据量不足的问题,以提高模型的泛化能力;通过女性待训练音频数据和男性待训练音频数据分别训练一个支持向量机,以对男性和女性分开进行身高预测,有助于支持向量机有针对性的学习女性声纹特征和身高特征之间的映射关系,以及男性声纹特征与和身高特征之间的映射关系,有助于提高身高预测准确性。
以上为本申请提供的一种基于音频数据的身高预测方法的另一个实施例,以下为本申请提供的一种基于音频数据的身高预测装置的一个实施例。
请参考图3,本申请实施例提供的一种基于音频数据的身高预测装置,包括:
获取单元,用于获取待预测音频数据;
特征提取单元,用于提取待预测音频数据的梅尔频率倒谱系数特征;
预测单元,用于将梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将特征向量输入到预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果。
作为进一步地改进,还包括:
处理单元,用于对梅尔频率倒谱系数特征进行归一化处理。
作为进一步地改进,预置高斯混合通用背景模型包括第一预置高斯混合通用背景模型和第二预置高斯混合通用背景模型,预置支持向量机回归模型包括第一预置支持向量机回归模型和第二预置支持向量机回归模型,装置还包括:
判断单元,用于判断待预测音频数据中的人声的性别;
预测单元具体用于:
当待预测音频数据中的人声的性别为女性时,将梅尔频率倒谱系数特征输入到第一预置高斯混合通用背景模型进行特征提取,得到第一特征向量,并将第一特征向量输入到第一预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果;
当待预测音频数据中的人声的性别为男性时,将梅尔频率倒谱系数特征输入到第二预置高斯混合通用背景模型进行特征提取,得到第二特征向量,并将第二特征向量输入到第二预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果。
作为进一步地改进,预置高斯混合通用背景模型的配置过程为:
获取若干女性背景音频数据和男性背景音频数据,并通过女性音频数据和男性音频数据分别训练一个高斯混合通用背景模型,得到第一高斯混合通用背景模型和第二高斯混合通用背景模型;
获取待训练音频数据,并根据待训练音频数据中的人声性别进行划分,得到女性待训练音频数据和男性待训练音频数据,其中,待训练音频数据具有身高标签;
分别提取女性待训练音频数据和男性待训练音频数据的梅尔频率倒谱系数特征;
将女性待训练音频数据的梅尔频率倒谱系数特征输入到第一高斯混合通用背景模型进行训练,得到第一预置高斯混合通用背景模型;
将男性待训练音频数据的梅尔频率倒谱系数特征输入到第二高斯混合通用背景模型进行训练,得到第二预置高斯混合通用背景模型。
作为进一步地改进,预置支持向量机回归模型的配置过程为:
将女性待训练音频数据的梅尔频率倒谱系数特征输入到第一高斯混合通用背景模型进行特征提取,得到女性待训练音频数据的特征向量;
将男性待训练音频数据的梅尔频率倒谱系数特征输入到第二高斯混合通用背景模型进行特征提取,得到男性待训练音频数据的特征向量;
将女性待训练音频数据的特征向量输入到第一支持向量机回归模型进行有监督训练,得到第一预置支持向量机回归模型;
将男性待训练音频数据的特征向量输入到第二支持向量机回归模型进行有监督训练,得到第二预置支持向量机回归模型。
本申请实施例中,在获取到待预测音频数据后,提取梅尔频率倒谱系数特征,并将其输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,然后将特征向量输入到预置支持向量机回归模型进行身高预测,得到待预测音频数据对应的身高预测结果,实现了通过声音数据进行身高预测的方法。
进一步,本申请实施例通过女性背景音频数据和男性背景音频数据预先训练一个通用背景模型,再通过待训练音频数据进行针对性训练,可以弥补待训练音频数据的数据量不足的问题,以提高模型的泛化能力;通过女性待训练音频数据和男性待训练音频数据分别训练一个支持向量机,以对男性和女性分开进行身高预测,有助于支持向量机有针对性的学习女性声纹特征和身高特征之间的映射关系,以及男性声纹特征与和身高特征之间的映射关系,有助于提高身高预测准确性。
本申请实施例还提供了一种基于音频数据的身高预测设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述方法实施例中的基于音频数据的身高预测方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述方法实施例中的基于音频数据的身高预测方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:RandomAccess Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于音频数据的身高预测方法,其特征在于,包括:
获取待预测音频数据;
提取所述待预测音频数据的梅尔频率倒谱系数特征;
将所述梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将所述特征向量输入到预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果。
2.根据权利要求1所述的基于音频数据的身高预测方法,其特征在于,所述提取所述待预测音频数据的梅尔频率倒谱系数特征,之后还包括:
对所述梅尔频率倒谱系数特征进行归一化处理。
3.根据权利要求1所述的基于音频数据的身高预测方法,其特征在于,所述预置高斯混合通用背景模型包括第一预置高斯混合通用背景模型和第二预置高斯混合通用背景模型,所述预置支持向量机回归模型包括第一预置支持向量机回归模型和第二预置支持向量机回归模型;
所述将所述梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将所述特征向量输入到预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果,之前还包括:
判断所述待预测音频数据中的人声的性别;
所述将所述梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将所述特征向量输入到预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果,包括:
当所述待预测音频数据中的人声的性别为女性时,将所述梅尔频率倒谱系数特征输入到所述第一预置高斯混合通用背景模型进行特征提取,得到第一特征向量,并将所述第一特征向量输入到所述第一预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果;
当所述待预测音频数据中的人声的性别为男性时,将所述梅尔频率倒谱系数特征输入到所述第二预置高斯混合通用背景模型进行特征提取,得到第二特征向量,并将所述第二特征向量输入到所述第二预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果。
4.根据权利要求3所述的基于音频数据的身高预测方法,其特征在于,所述预置高斯混合通用背景模型的配置过程为:
获取若干女性背景音频数据和男性背景音频数据,并通过所述女性音频数据和所述男性音频数据分别训练一个高斯混合通用背景模型,得到第一高斯混合通用背景模型和第二高斯混合通用背景模型;
获取待训练音频数据,并根据所述待训练音频数据中的人声性别进行划分,得到女性待训练音频数据和男性待训练音频数据,其中,所述待训练音频数据具有身高标签;
分别提取所述女性待训练音频数据和所述男性待训练音频数据的梅尔频率倒谱系数特征;
将所述女性待训练音频数据的梅尔频率倒谱系数特征输入到所述第一高斯混合通用背景模型进行训练,得到所述第一预置高斯混合通用背景模型;
将所述男性待训练音频数据的梅尔频率倒谱系数特征输入到所述第二高斯混合通用背景模型进行训练,得到所述第二预置高斯混合通用背景模型。
5.根据权利要求4所述的基于音频数据的身高预测方法,其特征在于,所述预置支持向量机回归模型的配置过程为:
将所述女性待训练音频数据的梅尔频率倒谱系数特征输入到所述第一高斯混合通用背景模型进行特征提取,得到所述女性待训练音频数据的特征向量;
将所述男性待训练音频数据的梅尔频率倒谱系数特征输入到所述第二高斯混合通用背景模型进行特征提取,得到所述男性待训练音频数据的特征向量;
将所述女性待训练音频数据的特征向量输入到第一支持向量机回归模型进行有监督训练,得到所述第一预置支持向量机回归模型;
将所述男性待训练音频数据的特征向量输入到第二支持向量机回归模型进行有监督训练,得到所述第二预置支持向量机回归模型。
6.一种基于音频数据的身高预测装置,其特征在于,包括:
获取单元,用于获取待预测音频数据;
特征提取单元,用于提取所述待预测音频数据的梅尔频率倒谱系数特征;
预测单元,用于将所述梅尔频率倒谱系数特征输入到预置高斯混合通用背景模型进行特征提取,得到特征向量,并将所述特征向量输入到预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果。
7.根据权利要求6所述的基于音频数据的身高预测装置,其特征在于,还包括:
处理单元,用于对所述梅尔频率倒谱系数特征进行归一化处理。
8.根据权利要求6所述的基于音频数据的身高预测装置,其特征在于,所述预置高斯混合通用背景模型包括第一预置高斯混合通用背景模型和第二预置高斯混合通用背景模型,所述预置支持向量机回归模型包括第一预置支持向量机回归模型和第二预置支持向量机回归模型,所述装置还包括:
判断单元,用于判断所述待预测音频数据中的人声的性别;
所述预测单元具体用于:
当所述待预测音频数据中的人声的性别为女性时,将所述梅尔频率倒谱系数特征输入到所述第一预置高斯混合通用背景模型进行特征提取,得到第一特征向量,并将所述第一特征向量输入到所述第一预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果;
当所述待预测音频数据中的人声的性别为男性时,将所述梅尔频率倒谱系数特征输入到所述第二预置高斯混合通用背景模型进行特征提取,得到第二特征向量,并将所述第二特征向量输入到所述第二预置支持向量机回归模型进行身高预测,得到所述待预测音频数据对应的身高预测结果。
9.一种基于音频数据的身高预测设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的基于音频数据的身高预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-5任一项所述的基于音频数据的身高预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110536777.XA CN113270111A (zh) | 2021-05-17 | 2021-05-17 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110536777.XA CN113270111A (zh) | 2021-05-17 | 2021-05-17 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113270111A true CN113270111A (zh) | 2021-08-17 |
Family
ID=77231351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110536777.XA Pending CN113270111A (zh) | 2021-05-17 | 2021-05-17 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113270111A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178897A (zh) * | 2007-12-05 | 2008-05-14 | 浙江大学 | 利用基频包络剔除情感语音的说话人识别方法 |
KR20080077719A (ko) * | 2007-02-21 | 2008-08-26 | 인하대학교 산학협력단 | 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법 |
CN102034288A (zh) * | 2010-12-09 | 2011-04-27 | 江南大学 | 基于多生物特征识别的智能门禁*** |
CN102820033A (zh) * | 2012-08-17 | 2012-12-12 | 南京大学 | 一种声纹识别方法 |
CN102881284A (zh) * | 2012-09-03 | 2013-01-16 | 江苏大学 | 非特定人语音情感识别方法及*** |
CN107146615A (zh) * | 2017-05-16 | 2017-09-08 | 南京理工大学 | 基于匹配模型二次识别的语音识别方法及*** |
CN109446948A (zh) * | 2018-10-15 | 2019-03-08 | 西安交通大学 | 一种基于Android平台的人脸和语音多生物特征融合认证方法 |
CN109817246A (zh) * | 2019-02-27 | 2019-05-28 | 平安科技(深圳)有限公司 | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 |
CN111161713A (zh) * | 2019-12-20 | 2020-05-15 | 北京皮尔布莱尼软件有限公司 | 一种语音性别识别方法、装置及计算设备 |
-
2021
- 2021-05-17 CN CN202110536777.XA patent/CN113270111A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080077719A (ko) * | 2007-02-21 | 2008-08-26 | 인하대학교 산학협력단 | 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법 |
CN101178897A (zh) * | 2007-12-05 | 2008-05-14 | 浙江大学 | 利用基频包络剔除情感语音的说话人识别方法 |
CN102034288A (zh) * | 2010-12-09 | 2011-04-27 | 江南大学 | 基于多生物特征识别的智能门禁*** |
CN102820033A (zh) * | 2012-08-17 | 2012-12-12 | 南京大学 | 一种声纹识别方法 |
CN102881284A (zh) * | 2012-09-03 | 2013-01-16 | 江苏大学 | 非特定人语音情感识别方法及*** |
CN107146615A (zh) * | 2017-05-16 | 2017-09-08 | 南京理工大学 | 基于匹配模型二次识别的语音识别方法及*** |
CN109446948A (zh) * | 2018-10-15 | 2019-03-08 | 西安交通大学 | 一种基于Android平台的人脸和语音多生物特征融合认证方法 |
CN109817246A (zh) * | 2019-02-27 | 2019-05-28 | 平安科技(深圳)有限公司 | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 |
CN111161713A (zh) * | 2019-12-20 | 2020-05-15 | 北京皮尔布莱尼软件有限公司 | 一种语音性别识别方法、装置及计算设备 |
Non-Patent Citations (1)
Title |
---|
朱文锋等: "《中医诊断学》", 人民卫生出版社, pages: 115 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11538472B2 (en) | Processing speech signals in voice-based profiling | |
CN107610709B (zh) | 一种训练声纹识别模型的方法及*** | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN109859772B (zh) | 情绪识别方法、装置及计算机可读存储介质 | |
CN108305643B (zh) | 情感信息的确定方法和装置 | |
CN107481720B (zh) | 一种显式声纹识别方法及装置 | |
CN109817246A (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
CN108197115A (zh) | 智能交互方法、装置、计算机设备和计算机可读存储介质 | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
WO2021047319A1 (zh) | 基于语音的个人信用评估方法、装置、终端及存储介质 | |
CN113380271B (zh) | 情绪识别方法、***、设备及介质 | |
US20210020191A1 (en) | Methods and systems for voice profiling as a service | |
CN102404278A (zh) | 一种基于声纹识别的点歌***及其应用方法 | |
CN112735371B (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
Sethu et al. | Speech based emotion recognition | |
CN108711429A (zh) | 电子设备及设备控制方法 | |
CN111710337A (zh) | 语音数据的处理方法、装置、计算机可读介质及电子设备 | |
CN113990352B (zh) | 用户情绪识别与预测方法、装置、设备及存储介质 | |
CN111179940A (zh) | 一种语音识别方法、装置及计算设备 | |
CN113851136A (zh) | 基于聚类的说话人识别方法、装置、设备及存储介质 | |
CN114708869A (zh) | 语音交互方法、装置及电器 | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
CN112017690A (zh) | 一种音频处理方法、装置、设备和介质 | |
Kamińska et al. | Comparison of perceptual features efficiency for automatic identification of emotional states from speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |