CN112133311B - 说话人识别方法、相关设备及可读存储介质 - Google Patents

说话人识别方法、相关设备及可读存储介质 Download PDF

Info

Publication number
CN112133311B
CN112133311B CN202010986890.3A CN202010986890A CN112133311B CN 112133311 B CN112133311 B CN 112133311B CN 202010986890 A CN202010986890 A CN 202010986890A CN 112133311 B CN112133311 B CN 112133311B
Authority
CN
China
Prior art keywords
speaker
face image
face
training
identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010986890.3A
Other languages
English (en)
Other versions
CN112133311A (zh
Inventor
石周
高天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202010986890.3A priority Critical patent/CN112133311B/zh
Publication of CN112133311A publication Critical patent/CN112133311A/zh
Application granted granted Critical
Publication of CN112133311B publication Critical patent/CN112133311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种说话人识别方法、相关设备及可读存储介质,上述方案中,可以获取说话人的人脸图像和说话人的语音信号;然后,基于说话人的人脸图像,生成说话人的人脸身份特征;最后,基于说话人的语音信号,和,说话人的人脸身份特征,生成说话人的识别结果。由于说话人的人脸身份特征能够反映说话人的身份信息,在说话人的语音信号无法准确反映说话人的身份信息时,说话人的人脸身份特征能够补充说话人的身份信息,因此,同时基于说话人的语音信号,和,说话人的人脸身份特征对说话人进行识别,相对于仅基于说话人的语音信号对说话人识别,识别结果更为准确。

Description

说话人识别方法、相关设备及可读存储介质
技术领域
本申请涉及数据处理技术领域,更具体的说,是涉及一种说话人识别方法、相关设备及可读存储介质。
背景技术
随着智能识别技术的快速发展,越来越多的场景需要应用生物识别技术对说话人进行识别,例如,金融安全、国家安全、智能家居和行政司法等场景。声纹特征是基于说话人语音信号的音波频谱特征而提取的声学特征,能够反映说话人的身份信息,因此,目前多基于说话人的声纹特征对说话人进行识别。
但是,说话人的语音信号会受说话人所处环境、说话人生理状况等影响,导致说话人的语音信号具有各种各样的不确定性,导致说话人的声纹特征也具有各种各样的不确定性,进而影响对说话人识别的准确性。
因此,如何提升对说话人识别的准确性,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种说话人识别方法、相关设备及可读存储介质。具体方案如下:
一种说话人识别方法,包括:
获取说话人的人脸图像和所述说话人的语音信号;
基于所述说话人的人脸图像,生成所述说话人的人脸身份特征;
基于所述说话人的语音信号,和,所述说话人的人脸身份特征,生成所述说话人的识别结果。
可选地,所述基于所述说话人的人脸图像,生成所述说话人的人脸身份特征,包括:
利用人脸图像处理模型对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征。
可选地,所述人脸图像处理模型的训练过程,包括:
利用所述人脸图像处理模型的身份自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸身份特征;
利用所述人脸图像处理模型的解码重构模块,至少对所述训练人脸图像的人脸身份特征进行解码重构,得到与所述训练人脸图像对应的重构图像;
基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像,确定重构损失;
至少以所述重构损失作为损失函数,训练所述人脸图像处理模型。
可选地,所述人脸图像处理模型的训练过程,还包括:
利用所述人脸图像处理模型的姿态自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸姿态特征;
所述利用所述人脸图像处理模型的解码重构模块,至少对所述训练人脸图像的人脸身份特征进行解码重构,得到与所述训练人脸图像对应的重构图像,包括:
利用所述人脸图像处理模型的解码重构模块,对所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行解码重构,得到与所述训练人脸图像对应的重构图像。
可选地,所述输入的训练人脸图像的样本标签包括人脸姿态标签;
则所述人脸图像处理模型的训练过程,还包括:
基于所述训练人脸图像的人脸姿态标签,和,所述训练人脸图像的人脸姿态特征,确定姿态分类损失;
所述至少以所述重构损失作为损失函数,训练所述人脸图像处理模型,包括:
至少以所述重构损失和所述姿态分类损失作为损失函数,训练所述人脸图像处理模型。
可选地,所述输入的训练人脸图像的样本标签还包括人脸身份标签;
所述人脸图像处理模型的训练过程,还包括:
基于所述训练人脸图像的人脸身份标签,和,所述训练人脸图像的人脸姿态特征,确定对抗分类损失;
所述至少以所述重构损失作为损失函数,训练所述人脸图像处理模型,包括:
以所述重构损失和所述对抗分类损失作为损失函数,训练所述人脸图像处理模型。
可选地,所述利用人脸图像处理模型对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征,包括:
利用所述身份自编码模块,对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征。
可选地,所述基于所述说话人的语音信号,和,所述说话人的人脸身份特征,生成所述说话人的识别结果,包括:
利用说话人识别模型对所述说话人的语音信号,和,所述说话人的人脸身份特征进行识别,生成所述说话人的识别结果。
可选地,所述利用说话人识别模型对所述说话人的语音信号,和,所述说话人的人脸身份特征进行识别,生成所述说话人的识别结果,包括:
利用所述说话人识别模型的声纹特征提取模块,对所述说话人的语音信号进行特征提取,生成所述说话人的声纹特征;
利用所述说话人识别模型的特征融合模块,将所述说话人的人脸身份特征和所述说话人的声纹特征进行融合,生成所述说话人的身份特征;
利用所述说话人识别模型的识别模块,基于所述说话人的身份特征,生成所述说话人的识别结果。
一种说话人识别装置,包括:
获取单元,用于获取说话人的人脸图像和所述说话人的语音信号;
人脸图像处理单元,用于基于所述说话人的人脸图像,生成所述说话人的人脸身份特征;
说话人识别单元,用于基于所述说话人的语音信号,和,所述说话人的人脸身份特征,生成所述说话人的识别结果。
可选地,所述人脸图像处理单元,用于:
利用人脸图像处理模型对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征。
可选地,所述装置还包括人脸图像处理模型训练单元,用于:
利用所述人脸图像处理模型的身份自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸身份特征;
利用所述人脸图像处理模型的解码重构模块,至少对所述训练人脸图像的人脸身份特征进行解码重构,得到与所述训练人脸图像对应的重构图像;
基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像,确定重构损失;
至少以所述重构损失作为损失函数,训练所述人脸图像处理模型。
可选地,所述人脸图像处理模型训练单元,还用于:
利用所述人脸图像处理模型的姿态自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸姿态特征;
所述利用所述人脸图像处理模型的解码重构模块,至少对所述训练人脸图像的人脸身份特征进行解码重构,得到与所述训练人脸图像对应的重构图像,包括:
利用所述人脸图像处理模型的解码重构模块,对所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行解码重构,得到与所述训练人脸图像对应的重构图像。
可选地,所述输入的训练人脸图像的样本标签包括人脸姿态标签;
则所述人脸图像处理模型训练单元,还用于:
基于所述训练人脸图像的人脸姿态标签,和,所述训练人脸图像的人脸姿态特征,确定姿态分类损失;
所述至少以所述重构损失作为损失函数,训练所述人脸图像处理模型,包括:
至少以所述重构损失和所述姿态分类损失作为损失函数,训练所述人脸图像处理模型。
可选地,所述输入的训练人脸图像的样本标签还包括人脸身份标签;
所述人脸图像处理模型训练单元,还用于:
基于所述训练人脸图像的人脸身份标签,和,所述训练人脸图像的人脸姿态特征,确定对抗分类损失;
所述至少以所述重构损失作为损失函数,训练所述人脸图像处理模型,包括:
以所述重构损失和所述对抗分类损失作为损失函数,训练所述人脸图像处理模型。
可选地,所述人脸图像处理单元,具体用于:
利用所述身份自编码模块,对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征。
可选地,所述说话人识别单元,用于:
利用说话人识别模型对所述说话人的语音信号,和,所述说话人的人脸身份特征进行识别,生成所述说话人的识别结果。
可选地,所述说话人识别单元,具体用于:
利用所述说话人识别模型的声纹特征提取模块,对所述说话人的语音信号进行特征提取,生成所述说话人的声纹特征;
利用所述说话人识别模型的特征融合模块,将所述说话人的人脸身份特征和所述说话人的声纹特征进行融合,生成所述说话人的身份特征;
利用所述说话人识别模型的识别模块,基于所述说话人的身份特征,生成所述说话人的识别结果。
一种说话人识别设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的说话人识别方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的说话人识别方法的各个步骤。
借由上述技术方案,本申请公开了一种说话人识别方法、相关设备及可读存储介质,上述方案中,可以获取说话人的人脸图像和说话人的语音信号;然后,基于说话人的人脸图像,生成说话人的人脸身份特征;最后,基于说话人的语音信号,和,说话人的人脸身份特征,生成说话人的识别结果。由于说话人的人脸身份特征能够反映说话人的身份信息,在说话人的语音信号无法准确反映说话人的身份信息时,说话人的人脸身份特征能够补充说话人的身份信息,因此,同时基于说话人的语音信号,和,说话人的人脸身份特征对说话人进行识别,相对于仅基于说话人的语音信号对说话人识别,识别结果更为准确。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的说话人识别方法的流程示意图;
图2为本申请实施例公开的一种人脸图像处理模型的结构示意图;
图3为本申请实施例公开的另一种人脸图像处理模型的结构示意图;
图4为本申请实施例公开的另一种人脸图像处理模型的结构示意图;
图5为本申请实施例公开的另一种人脸图像处理模型的结构示意图;
图6为本申请实施例公开的一种说话人识别模型的结构示意图;
图7为本申请实施例公开的一种说话人识别装置结构示意图;
图8为本申请实施例提供的说话人识别设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的说话人识别方法进行介绍。
参照图1,图1为本申请实施例公开的说话人识别方法的流程示意图,该方法可以包括:
步骤S101:获取说话人的人脸图像和所述说话人的语音信号。
在本申请中,可以获取说话人的视频,从说话人的视频中获取说话人的人脸图像和说话人的语音信号。说话人的人脸图像可以为说话人的视频中包含说话人人脸的任意一帧图像,说话人的语音信号为说话人的视频中的说话人音频。
步骤S102:基于所述说话人的人脸图像,生成所述说话人的人脸身份特征。
在本申请中,可以利用人脸图像处理模型对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征。人脸身份特征是能够代表说话人的身份信息的较低维度的特征向量,比如,用于表征说话人的五官、说话人的脸部轮廓等的较低维度的特征向量。说话人的身份信息是能够指示说话人与其他人的区别的信息。人脸图像处理模型的详细内容将通过后面的实施例进行说明。
步骤S103:基于所述说话人的语音信号,和,所述说话人的人脸身份特征,生成所述说话人的识别结果。
在本申请中,可以利用说话人识别模型对所述说话人的语音信号,和,所述说话人的人脸身份特征进行识别,生成所述说话人的识别结果。说话人识别模型的详细内容将通过后面的实施例进行说明。
本实施例公开了一种说话人识别方法,该方法中,可以获取说话人的人脸图像和说话人的语音信号;然后,基于说话人的人脸图像,生成说话人的人脸身份特征;最后,基于说话人的语音信号,和,说话人的人脸身份特征,生成说话人的识别结果。由于说话人的人脸身份特征能够反映说话人的身份信息,在说话人的语音信号无法准确反映说话人的身份信息时,说话人的人脸身份特征能够补充说话人的身份信息,因此,同时基于说话人的语音信号,和,说话人的人脸身份特征对说话人进行识别,相对于仅基于说话人的语音信号对说话人识别,识别结果更为准确。
在本申请的另一个实施例中,对所述人脸图像处理模型的结构和训练过程进行了详细介绍,具体如下:
请参阅附图2,图2为本申请实施例公开的一种人脸图像处理模型的结构示意图,如图2所示,该人脸图像处理模型包括身份自编码模块和解码重构模块。
在本申请中,对图2所示的人脸图像处理模型的训练过程可以包括以下步骤:
步骤S201:利用所述人脸图像处理模型的身份自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸身份特征。
步骤S202:利用所述人脸图像处理模型的解码重构模块,对所述训练人脸图像的人脸身份特征进行解码重构,得到与所述训练人脸图像对应的重构图像。
在本申请中,解码重构模块可以包括解码单元和重构单元,将所述训练人脸图像的人脸身份特征通过解码单元和重构单元,即可得到与训练人脸图像尺寸一致的重构图像。
步骤S203:基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像,确定重构损失。
在本申请中,可以基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像的MSELoss(均方误差损失)、L1 Loss(平均绝对误差损失)或SSIMLoss(结构相似性损失),确定重构损失。
为便于理解,假设训练人脸图像为X,与训练人脸图像对应的重构图像为Xrec,则基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像的MSELoss,确定的重构损失Lrec具体为:
Figure BDA0002689563210000081
基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像的L1Loss,确定的重构损失Lrec具体为:Lrec=||X-Xrec||
基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像的SSIM Loss,确定的重构损失Lrec具体为:Lrec=1-SSIM(X,Xrec);其中,
Figure BDA0002689563210000082
μx
Figure BDA0002689563210000091
为图像X和Xrec的像素的均值,
Figure BDA0002689563210000092
为方差,
Figure BDA0002689563210000093
为协方差
步骤S204:以所述重构损失作为损失函数,训练所述人脸图像处理模型。
在本实施例中,人脸图像处理模型包括身份自编码模块和解码重构模块,在对该模型训练完毕后,即可利用该模型的身份自编码模块对说话人的人脸图像进行编码,得到说话人的人脸身份特征。但是,该模型在训练时,仅仅利用人脸图像处理模型的身份自编码模块,对输入的训练人脸图像进行编码,得到训练人脸图像的人脸身份特征,并利用人脸图像处理模型的解码重构模块,对训练人脸图像的人脸身份特征进行解码重构,得到与训练人脸图像对应的重构图像,然后,基于训练人脸图像,和,与训练人脸图像对应的重构图像,确定重构损失,最后基于重构损失训练得到人脸图像处理模型。但是,由于仅对训练人脸图像的人脸身份特征进行解码重构,得到与训练人脸图像对应的重构图像精度较低,导致训练得到的人脸图像处理模型的性能(如准确率、精度、召回率)较差。
为解决上述问题,本申请中公开了另一种人脸图像处理模型的结构及其训练方式,具体如下:
请参阅附图3,图3为本申请实施例公开的另一种人脸图像处理模型的结构示意图,如图3所示,该人脸图像处理模型包括姿态自编码模块、身份自编码模块和解码重构模块。
作为一种可实施方式,在本申请中,对图3所示的人脸图像处理模型的训练过程可以包括以下步骤:
步骤S301:利用所述人脸图像处理模型的姿态自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸姿态特征。
姿态自编码模块可以从训练人脸图像中提取出第一特征向量,该第一特征向量能够代表该训练人脸图像中人脸的姿态。
步骤S302:利用所述人脸图像处理模型的身份自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸身份特征。
身份自编码模块可以从训练人脸图像中提取出第二特征向量,该第二特征向量能够代表该训练人脸图像对应的说话人的身份,第二特征向量可以为人脸中五官的特征、人脸轮廓的特征等。
步骤S303:利用所述人脸图像处理模型的解码重构模块,对所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行解码重构,得到与所述训练人脸图像对应的重构图像。
在本申请中,解码重构模块可以包括解码单元和重构单元,将所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行拼接,得到拼接后的特征,将拼接后的特征输入解码单元,解码单元对拼接后的特征进行解码,得到解码后的特征,将解码后的特征输入重构单元,即可得到与训练人脸图像尺寸一致的重构图像。
步骤S304:基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像,确定重构损失。
该步骤可参见步骤S203的相关内容,此处不再赘述。
步骤S305:以所述重构损失作为损失函数,训练所述人脸图像处理模型。
在本步骤中,可以通过不断调整人脸图像处理模型中的参数,直至所述损失函数收敛,所述损失函数收敛后,则所述人脸图像处理模型训练完毕。
在本实施例中,人脸图像处理模型包括姿态自编码模块、身份自编码模块和解码重构模块。在训练时,不仅利用人脸图像处理模型的身份自编码模块,对输入的训练人脸图像进行编码,得到训练人脸图像的人脸身份特征,还利用人脸图像处理模型的姿态自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸姿态特征,并利用人脸图像处理模型的解码重构模块,对训练人脸图像的人脸身份特征和训练人脸图像的人脸姿态特征进行解码重构,得到与训练人脸图像对应的重构图像,使得重构图像精度更高,因此,基于训练人脸图像,和,与训练人脸图像对应的重构图像,确定重构损失,最后基于重构损失训练得到人脸图像处理模型,使得训练得到的人脸图像处理模型的性能有所改善。
但是,上述两个实施例中仅以重构损失作为损失函数,训练人脸图像处理模型,使得训练得到的人脸图像处理模型的性能仍然有所欠缺。
为解决上述问题,本申请实施例公开了另一种人脸图像处理模型及其训练方式,具体如下:
请参阅附图4,图4为本申请实施例公开的另一种人脸图像处理模型的结构示意图,如图4所示,该人脸图像处理模型包括姿态自编码模块、身份自编码模块和解码重构模块。
作为另一种可实施方式,所述输入的训练人脸图像的样本标签包括人脸姿态标签,姿态包括三种:{偏左,偏右,正面},则在本申请中,对图4所示的人脸图像处理模型的训练过程可以包括以下步骤:
步骤S401:利用所述人脸图像处理模型的姿态自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸姿态特征。
步骤S402:利用所述人脸图像处理模型的身份自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸身份特征。
步骤S403:利用所述人脸图像处理模型的解码重构模块,对所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行解码重构,得到与所述训练人脸图像对应的重构图像。
步骤S404:基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像,确定重构损失。
需要说明的是,步骤S401至步骤S404的具体实现可以参见步骤S301至步骤S304,此处不再赘述。
步骤S405:基于所述训练人脸图像的人脸姿态标签,和,所述训练人脸图像的人脸姿态特征,确定姿态分类损失。
在本申请中可以基于交叉熵损失函数确定所述训练人脸图像的人脸姿态标签,和,所述训练人脸图像的人脸姿态特征的姿态分类损失。
为便于理解,假设训练人脸图像的人脸姿态标签为ypos,训练人脸图像的人脸姿态特征为p,则所述训练人脸图像的人脸姿态标签,和,所述训练人脸图像的人脸姿态特征的姿态分类损失为Lpos-cls=CELoss(fpos-cls(p),ypos),其中,CEloss为交叉熵损失函数,fpos-cls(p)为训练人脸图像的人脸姿态特征为p的姿态分类结果。训练人脸图像的人脸姿态特征为p的姿态分类结果可以基于深度神经网络得到。
步骤S406:以所述重构损失和所述姿态分类损失作为损失函数,训练所述人脸图像处理模型。
作为一种可实施方式,人脸图像处理模型的损失函数可以为LF=Lrec+Lpos-cls,其中,Lrec为重构损失,Lpos-cls为姿态分类损失。
作为另一种可实施方式,人脸图像处理模型的损失函数也可以为
LF=αLrec+(1-α)Lpos-cls
其中,α为重构损失的权重,1-α为姿态分类损失的权重。
在本实施例中,以重构损失和姿态分类损失作为损失函数,训练得到的人脸图像处理模型,相对于仅以重构损失作为损失函数,训练得到的人脸图像处理模型,在性能上有所提升。
请参阅附图5,图5为本申请实施例公开的另一种人脸图像处理模型的结构示意图,如图5所示,该人脸图像处理模型包括姿态自编码模块、身份自编码模块和解码重构模块。
作为另一种可实施方式,所述输入的训练人脸图像的样本标签包括人脸姿态标签,和,人脸身份标签;姿态包括三种:{偏左,偏右,正面},则在本申请中,对图5所示的人脸图像处理模型的训练过程可以包括以下步骤:
步骤S501:利用所述人脸图像处理模型的姿态自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸姿态特征。
步骤S502:利用所述人脸图像处理模型的身份自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸身份特征;
步骤S503:利用所述人脸图像处理模型的解码重构模块,对所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行解码重构,得到与所述训练人脸图像对应的重构图像;
步骤S504:基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像,确定重构损失;
步骤S505:基于所述训练人脸图像的人脸姿态标签,和,所述训练人脸图像的人脸姿态特征,确定姿态分类损失;
需要说明的是,步骤S501至步骤S505的具体实现可以参见步骤S401至步骤S405,此处不再赘述。
步骤S506:基于所述训练人脸图像的人脸身份标签,和,所述训练人脸图像的人脸姿态特征,确定对抗分类损失;
在本申请中可以基于交叉熵损失函数确定所述训练人脸图像的人脸身份标签,和,所述训练人脸图像的人脸姿态特征的对抗分类损失。
为便于理解,假设训练人脸图像的人脸身份标签为yid,训练人脸图像的人脸姿态特征为p,则所述训练人脸图像的人脸身份标签,和,所述训练人脸图像的人脸姿态特征的对抗分类损失为Ladv-cls=-CELoss(fadv-cls(p),yid),其中,CEloss为交叉熵损失函数,fadv-cls(p)为训练人脸图像的人脸姿态特征为p的对抗分类结果。训练人脸图像的人脸姿态特征为p的对抗分类结果可以基于深度神经网络得到。
步骤S507:以所述重构损失、所述姿态分类损失和所述对抗分类损失作为损失函数,训练所述人脸图像处理模型。
作为一种可实施方式,人脸图像处理模型的损失函数可以为LF=Lrec+Lpos-cls+Ladv-cls,其中,Lrec为重构损失,Lpos-cls为姿态分类损失,Ladv-cls为对抗分类损失。
作为另一种可实施方式,人脸图像处理模型的损失函数也可以为LF=β1Lrec+β2Lpos-cls+β3Ladv-cls
其中,β1为重构损失的权重,β2为姿态分类损失的权重,β3为对抗分类损失的权重。
在本实施例中,以重构损失、姿态分类损失和对抗分类损失作为损失函数,训练得到的人脸图像处理模型,相对于仅以重构损失作为损失函数,训练得到的人脸图像处理模型,以及,以重构损失和姿态分类损失作为损失函数,训练得到的人脸图像处理模型,在性能上均有所提升。
需要说明的是,在本申请中,还可以以所述重构损失和所述对抗分类损失作为损失函数,训练所述人脸图像处理模型。
作为一种可实施方式,人脸图像处理模型的损失函数可以为LF=Lrec+Ladv-cls,其中,Lrec为重构损失,Ladv-cls为对抗分类损失。
作为另一种可实施方式,人脸图像处理模型的损失函数也可以为LF=γLrec+(1-γ)Ladv-cls
其中,γ为重构损失的权重,1-γ为对抗分类损失的权重。
在本实施例中,以重构损失和对抗分类损失作为损失函数,训练得到的人脸图像处理模型,相对于仅以重构损失作为损失函数,训练得到的人脸图像处理模型,在性能上也有所提升。
需要说明的是,基于图2至图5中任意一种人脸图像处理模型,在本申请中,所述利用人脸图像处理模型对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征,可以包括:利用所述身份自编码模块,对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征。
在本申请的另一个实施例中,对说话人识别模型的结构进行了介绍,请参阅附图6,图6为本申请实施例公开的一种说话人识别模型的结构示意图,如图6所示,该说话人识别模型可以包括声纹特征提取模块、特征融合模块和识别模块。
需要说明的是,说话人识别模型可以以训练说话人的语音信号和人脸身份特征为训练样本,以训练说话人的身份标签为样本标签,以交叉熵损失函数为目标函数训练得到。
基于图6所示的说话人识别模型,在本申请中,所述利用说话人识别模型对所述说话人的语音信号,和,所述说话人的人脸身份特征进行识别,生成所述说话人的识别结果的过程可以包括:
步骤S601:利用所述说话人识别模型的声纹特征提取模块,对所述说话人的语音信号进行特征提取,生成所述说话人的声纹特征。
在本申请中,所述说话人识别模型的声纹特征提取模块可以包括一个时延神经网络(TDNN,Time-Delay Neural Network)和一个池化层。该时延神经网络可以为多层(比如,5层)的时延神经网络。
在利用该声纹特征提取模块对说话人的语音信号进行特征提取时,具体可以利用该时延神经网络对说话人的语音信号的底层声学特征(如,短时傅里叶变换STFT特征)进行特征提取,得到时延神经网络输出的特征,池化层可以把时延神经网络输出的特征在时间维度计算一阶及二阶统计量,即均值和标准差,将均值和标准差拼接后作为说话人的声纹特征。
步骤S602:利用所述说话人识别模型的特征融合模块,将所述说话人的人脸身份特征和所述说话人的声纹特征进行融合,生成所述说话人的身份特征。
在本申请中,所述说话人识别模型的特征融合模块可以将所述说话人的人脸身份特征和所述说话人的声纹特征进行拼接,再通过全连接层,得出所述说话人的身份特征。
步骤S603:利用所述说话人识别模型的识别模块,基于所述说话人的身份特征,生成所述说话人的识别结果。
需要说明的是,说话人的识别结果可以为说话人的身份特征,也可以为基于说话人的身份特征在各种识别场景下确定的识别结果,比如,确定说话人是否为已确定说话人身份的目标说话人,确定说话人与另一说话人是否为同一说话人等,对此,本申请不进行任何限定。
下面对本申请实施例公开的说话人识别装置进行描述,下文描述的说话人识别装置与上文描述的说话人识别方法可相互对应参照。
参照图7,图7为本申请实施例公开的一种说话人识别装置结构示意图。如图7所示,该说话人识别装置可以包括:
获取单元11,用于获取说话人的人脸图像和所述说话人的语音信号;
人脸图像处理单元12,用于基于所述说话人的人脸图像,生成所述说话人的人脸身份特征;
说话人识别单元13,用于基于所述说话人的语音信号,和,所述说话人的人脸身份特征,生成所述说话人的识别结果。
可选地,所述人脸图像处理单元,用于:
利用人脸图像处理模型对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征。
可选地,所述装置还包括人脸图像处理模型训练单元,用于:
利用所述人脸图像处理模型的身份自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸身份特征;
利用所述人脸图像处理模型的解码重构模块,至少对所述训练人脸图像的人脸身份特征进行解码重构,得到与所述训练人脸图像对应的重构图像;
基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像,确定重构损失;
至少以所述重构损失作为损失函数,训练所述人脸图像处理模型。
可选地,所述人脸图像处理模型训练单元,还用于:
利用所述人脸图像处理模型的姿态自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸姿态特征;
所述利用所述人脸图像处理模型的解码重构模块,至少对所述训练人脸图像的人脸身份特征进行解码重构,得到与所述训练人脸图像对应的重构图像,包括:
利用所述人脸图像处理模型的解码重构模块,对所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行解码重构,得到与所述训练人脸图像对应的重构图像。
可选地,所述输入的训练人脸图像的样本标签包括人脸姿态标签;
则所述人脸图像处理模型训练单元,还用于:
基于所述训练人脸图像的人脸姿态标签,和,所述训练人脸图像的人脸姿态特征,确定姿态分类损失;
所述至少以所述重构损失作为损失函数,训练所述人脸图像处理模型,包括:
至少以所述重构损失和所述姿态分类损失作为损失函数,训练所述人脸图像处理模型。
可选地,所述输入的训练人脸图像的样本标签还包括人脸身份标签;
所述人脸图像处理模型训练单元,还用于:
基于所述训练人脸图像的人脸身份标签,和,所述训练人脸图像的人脸姿态特征,确定对抗分类损失;
所述至少以所述重构损失作为损失函数,训练所述人脸图像处理模型,包括:
以所述重构损失和所述对抗分类损失作为损失函数,训练所述人脸图像处理模型。
可选地,所述人脸图像处理单元,具体用于:
利用所述身份自编码模块,对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征。
可选地,所述说话人识别单元,用于:
利用说话人识别模型对所述说话人的语音信号,和,所述说话人的人脸身份特征进行识别,生成所述说话人的识别结果。
可选地,所述说话人识别单元,具体用于:
利用所述说话人识别模型的声纹特征提取模块,对所述说话人的语音信号进行特征提取,生成所述说话人的声纹特征;
利用所述说话人识别模型的特征融合模块,将所述说话人的人脸身份特征和所述说话人的声纹特征进行融合,生成所述说话人的身份特征;
利用所述说话人识别模型的识别模块,基于所述说话人的身份特征,生成所述说话人的识别结果。
参照图8,图8为本申请实施例提供的说话人识别设备的硬件结构框图,参照图8,说话人识别设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取说话人的人脸图像和所述说话人的语音信号;
基于所述说话人的人脸图像,生成所述说话人的人脸身份特征;
基于所述说话人的语音信号,和,所述说话人的人脸身份特征,生成所述说话人的识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取说话人的人脸图像和所述说话人的语音信号;
基于所述说话人的人脸图像,生成所述说话人的人脸身份特征;
基于所述说话人的语音信号,和,所述说话人的人脸身份特征,生成所述说话人的识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种说话人识别方法,其特征在于,包括:
获取说话人的人脸图像和所述说话人的语音信号;
基于所述说话人的人脸图像,利用人脸图像处理模型生成所述说话人的人脸身份特征;
利用说话人识别模型,基于所述说话人的语音信号,和,所述说话人的人脸身份特征,生成所述说话人的识别结果;
其中,所述说话人识别模型以训练说话人的语音信号和人脸身份特征为训练样本,以训练说话人的身份标签为样本标签,经预先训练得到;
其中,输入的训练人脸图像的样本标签包括人脸姿态标签和人脸身份标签;
则所述人脸图像处理模型的训练过程,包括:
利用人脸图像处理模型的身份自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸身份特征;
利用所述人脸图像处理模型的解码重构模块,至少对所述训练人脸图像的人脸身份特征进行解码重构,得到与所述训练人脸图像对应的重构图像;
基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像,确定重构损失;
基于训练人脸图像的人脸姿态标签,和,训练人脸图像的人脸姿态特征,确定姿态分类损失;
基于训练人脸图像的人脸身份标签,和,训练人脸图像的人脸姿态特征,确定对抗分类损失;
以所述重构损失、所述姿态分类损失和所述对抗分类损失作为损失函数,训练所述人脸图像处理模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述说话人的人脸图像,生成所述说话人的人脸身份特征,包括:
利用人脸图像处理模型对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征。
3.根据权利要求2所述的方法,其特征在于,所述人脸图像处理模型的训练过程,还包括:
利用所述人脸图像处理模型的姿态自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸姿态特征;
所述利用所述人脸图像处理模型的解码重构模块,至少对所述训练人脸图像的人脸身份特征进行解码重构,得到与所述训练人脸图像对应的重构图像,包括:
利用所述人脸图像处理模型的解码重构模块,对所述训练人脸图像的人脸身份特征和所述训练人脸图像的人脸姿态特征进行解码重构,得到与所述训练人脸图像对应的重构图像。
4.根据权利要求3所述的方法,其特征在于,所述利用人脸图像处理模型对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征,包括:
利用所述身份自编码模块,对所述说话人的人脸图像进行编码,生成所述说话人的人脸身份特征。
5.根据权利要求1所述的方法,其特征在于,所述利用说话人识别模型对所述说话人的语音信号,和,所述说话人的人脸身份特征进行识别,生成所述说话人的识别结果,包括:
利用所述说话人识别模型的声纹特征提取模块,对所述说话人的语音信号进行特征提取,生成所述说话人的声纹特征;
利用所述说话人识别模型的特征融合模块,将所述说话人的人脸身份特征和所述说话人的声纹特征进行融合,生成所述说话人的身份特征;
利用所述说话人识别模型的识别模块,基于所述说话人的身份特征,生成所述说话人的识别结果。
6.一种说话人识别装置,其特征在于,包括:
获取单元,用于获取说话人的人脸图像和所述说话人的语音信号;
人脸图像处理单元,用于基于所述说话人的人脸图像,利用人脸图像处理模型生成所述说话人的人脸身份特征;
说话人识别单元,用于利用说话人识别模型,基于所述说话人的语音信号,和,所述说话人的人脸身份特征,生成所述说话人的识别结果,其中,所述说话人识别模型以训练说话人的语音信号和人脸身份特征为训练样本,以训练说话人的身份标签为样本标签,经预先训练得到;
其中,输入的训练人脸图像的样本标签包括人脸姿态标签和人脸身份标签;
则所述人脸图像处理模型的训练过程,包括:
利用人脸图像处理模型的身份自编码模块,对输入的训练人脸图像进行编码,得到所述训练人脸图像的人脸身份特征;
利用所述人脸图像处理模型的解码重构模块,至少对所述训练人脸图像的人脸身份特征进行解码重构,得到与所述训练人脸图像对应的重构图像;
基于所述训练人脸图像,和,与所述训练人脸图像对应的重构图像,确定重构损失;
基于训练人脸图像的人脸姿态标签,和,训练人脸图像的人脸姿态特征,确定姿态分类损失;
基于训练人脸图像的人脸身份标签,和,训练人脸图像的人脸姿态特征,确定对抗分类损失;
以所述重构损失、所述姿态分类损失和所述对抗分类损失作为损失函数,训练所述人脸图像处理模型。
7.一种说话人识别设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至5中任一项所述的说话人识别方法的各个步骤。
8.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至5中任一项所述的说话人识别方法的各个步骤。
CN202010986890.3A 2020-09-18 2020-09-18 说话人识别方法、相关设备及可读存储介质 Active CN112133311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010986890.3A CN112133311B (zh) 2020-09-18 2020-09-18 说话人识别方法、相关设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010986890.3A CN112133311B (zh) 2020-09-18 2020-09-18 说话人识别方法、相关设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112133311A CN112133311A (zh) 2020-12-25
CN112133311B true CN112133311B (zh) 2023-01-17

Family

ID=73841418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010986890.3A Active CN112133311B (zh) 2020-09-18 2020-09-18 说话人识别方法、相关设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112133311B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6671391B1 (en) * 2000-05-26 2003-12-30 Microsoft Corp. Pose-adaptive face detection system and process
CN107871106A (zh) * 2016-09-26 2018-04-03 北京眼神科技有限公司 人脸检测方法和装置
CN108304829A (zh) * 2018-03-08 2018-07-20 北京旷视科技有限公司 人脸识别方法、装置及***
WO2020029356A1 (zh) * 2018-08-08 2020-02-13 杰创智能科技股份有限公司 一种基于生成对抗网络的脸部变化预测方法
CN111401456A (zh) * 2020-03-20 2020-07-10 杭州涂鸦信息技术有限公司 人脸姿态识别模型的训练方法及其***和装置
CN111539331A (zh) * 2020-04-23 2020-08-14 西安科技大学 一种基于脑机接口的视觉图像重建***

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404381A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 一种身份认证方法和装置
CN109685087B9 (zh) * 2017-10-18 2023-02-03 富士通株式会社 信息处理方法和装置以及信息检测方法
CN108399395A (zh) * 2018-03-13 2018-08-14 成都数智凌云科技有限公司 基于端到端深度神经网络的语音和人脸复合身份认证方法
CN109165829A (zh) * 2018-08-10 2019-01-08 佳讯飞鸿(北京)智能科技研究院有限公司 一种铁路值班人员交接班***及交接班方法
US11024002B2 (en) * 2019-03-14 2021-06-01 Intel Corporation Generating gaze corrected images using bidirectionally trained network
CN110569707A (zh) * 2019-06-25 2019-12-13 深圳和而泰家居在线网络科技有限公司 一种身份识别方法和电子设备
CN110298295A (zh) * 2019-06-26 2019-10-01 中国海洋大学 基于人脸识别的移动端在线学习监督方法
CN110363148A (zh) * 2019-07-16 2019-10-22 中用科技有限公司 一种人脸声纹特征融合验证的方法
CN111160110A (zh) * 2019-12-06 2020-05-15 北京工业大学 基于人脸特征和声纹特征识别主播的方法及装置
CN111243066B (zh) * 2020-01-09 2022-03-22 浙江大学 一种基于自监督学习与生成对抗机制的人脸表情迁移方法
CN111382684B (zh) * 2020-03-02 2022-09-06 中国科学技术大学 基于对抗学习的角度鲁棒的个性化人脸表情识别方法
CN111652049A (zh) * 2020-04-17 2020-09-11 北京三快在线科技有限公司 人脸图像处理模型训练方法、装置、电子设备及存储介质
CN111476216A (zh) * 2020-05-26 2020-07-31 上海眼控科技股份有限公司 人脸识别方法、装置、计算机设备和可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6671391B1 (en) * 2000-05-26 2003-12-30 Microsoft Corp. Pose-adaptive face detection system and process
CN107871106A (zh) * 2016-09-26 2018-04-03 北京眼神科技有限公司 人脸检测方法和装置
CN108304829A (zh) * 2018-03-08 2018-07-20 北京旷视科技有限公司 人脸识别方法、装置及***
WO2020029356A1 (zh) * 2018-08-08 2020-02-13 杰创智能科技股份有限公司 一种基于生成对抗网络的脸部变化预测方法
CN111401456A (zh) * 2020-03-20 2020-07-10 杭州涂鸦信息技术有限公司 人脸姿态识别模型的训练方法及其***和装置
CN111539331A (zh) * 2020-04-23 2020-08-14 西安科技大学 一种基于脑机接口的视觉图像重建***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-pose face recognition by dynamic loss weights;Yunuo Tao et al;《2017 4th International Conference on Systems and Informatics (ICSAI)》;20180108;全文 *
基于生成对抗网络的人像修复;袁琳君等;《计算机应用》;20191120(第03期);全文 *

Also Published As

Publication number Publication date
CN112133311A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN110909613B (zh) 视频人物识别方法、装置、存储介质与电子设备
WO2015180368A1 (zh) 一种半监督语音特征可变因素分解方法
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN110956957A (zh) 语音增强模型的训练方法及***
CN111009237A (zh) 语音识别方法、装置、电子设备及存储介质
CN109658921B (zh) 一种语音信号处理方法、设备及计算机可读存储介质
CN112967713B (zh) 一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质
CN112837669B (zh) 语音合成方法、装置及服务器
WO2022062800A1 (zh) 语音分离方法、电子设备、芯片及计算机可读存储介质
CN110136726A (zh) 一种语音性别的估计方法、装置、***及存储介质
CN113793591A (zh) 语音合成方法及相关装置和电子设备、存储介质
CN114581812B (zh) 视觉语言识别方法、装置、电子设备及存储介质
CN114283783A (zh) 语音合成方法、模型训练方法、设备及存储介质
CN109817223A (zh) 基于音频指纹的音素标记方法及装置
CN111414959B (zh) 图像识别方法、装置、计算机可读介质和电子设备
CN113689527B (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
CN112133311B (zh) 说话人识别方法、相关设备及可读存储介质
CN116844567A (zh) 一种基于多特征重建融合的深度合成音频检测方法及***
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN115565533A (zh) 语音识别方法、装置、设备及存储介质
CN113327578B (zh) 一种声学模型训练方法、装置、终端设备及存储介质
CN114283791A (zh) 一种基于高维声学特征的语音识别方法及模型训练方法
CN111048065A (zh) 文本纠错数据生成方法及相关装置
CN114495938B (zh) 音频识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant