CN109377984A - 一种基于ArcFace的语音识别方法及装置 - Google Patents

一种基于ArcFace的语音识别方法及装置 Download PDF

Info

Publication number
CN109377984A
CN109377984A CN201811400260.2A CN201811400260A CN109377984A CN 109377984 A CN109377984 A CN 109377984A CN 201811400260 A CN201811400260 A CN 201811400260A CN 109377984 A CN109377984 A CN 109377984A
Authority
CN
China
Prior art keywords
default
voice
identified
arcface
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811400260.2A
Other languages
English (en)
Other versions
CN109377984B (zh
Inventor
李鹏
吉瑞芳
蔡新元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wisdom And Technology Co Ltd
Original Assignee
Beijing Wisdom And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wisdom And Technology Co Ltd filed Critical Beijing Wisdom And Technology Co Ltd
Priority to CN201811400260.2A priority Critical patent/CN109377984B/zh
Publication of CN109377984A publication Critical patent/CN109377984A/zh
Application granted granted Critical
Publication of CN109377984B publication Critical patent/CN109377984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于ArcFace的语音识别方法及装置,所述方法包括:获取待识别语音,并提取所述待识别语音的低层帧级特征;根据所述低层帧级特征,提取身份特征向量;从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。所述装置执行上述方法。本发明实施例提供的方法及装置,能够准确地对各种类型的语音进行识别。

Description

一种基于ArcFace的语音识别方法及装置
技术领域
本发明实施例涉及语音处理技术领域,具体涉及一种基于ArcFace的语音识别方法及装置。
背景技术
随着数字音频数据的***式增长,通过语音识别技术,从而识别出说话人也逐渐受到越来越多的关注。
目前在说话人识别中应用最为广泛的i-vector***,其基于的GMM-UBM(混合高斯模型-背景模型模型)和GSV-SVM(高斯均值超向量-支持向量机模型)都是建立在统计模型理论上的,因此要求训练和测试语音必须达到一定的长度,否则识别准确性将大幅度下降。另一方面,虽然ArcFace在人脸识别领域得到了广泛的应用,但是,目前尚没有将ArcFace应用在语音识别领域的方法。
因此,如何避免上述缺陷,基于ArcFace准确地对各种类型的语音(包括长语音和短语音)进行识别,成为亟须解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种基于ArcFace的语音识别方法及装置。
第一方面,本发明实施例提供一种基于ArcFace的语音识别方法,所述方法包括:
获取待识别语音,并提取所述待识别语音的低层帧级特征;
根据所述低层帧级特征,提取身份特征向量;
从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;
根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
第二方面,本发明实施例提供一种基于ArcFace的语音识别装置,所述装置包括:
第一获取单元,用于获取待识别语音,并提取所述待识别语音的低层帧级特征;
提取单元,用于根据所述低层帧级特征,提取身份特征向量;
第二获取单元,用于从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;
识别单元,用于根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
获取待识别语音,并提取所述待识别语音的低层帧级特征;
根据所述低层帧级特征,提取身份特征向量;
从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;
根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
获取待识别语音,并提取所述待识别语音的低层帧级特征;
根据所述低层帧级特征,提取身份特征向量;
从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;
根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
本发明实施例提供的基于ArcFace的语音识别方法及装置,从预设语音库中获取与待识别语音对应的身份特征向量相似的目标身份特征向量,并根据预先基于ArcFace的算法表达式获取的预设损失函数进行训练的预设模型得出对应关系,进而获取目标身份信息,再将目标身份信息作为待识别语音的识别结果,能够准确地对各种类型的语音进行识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于ArcFace的语音识别方法流程示意图;
图2为本发明实施例基于ArcFace的语音识别装置结构示意图;
图3为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例基于ArcFace的语音识别方法流程示意图,如图1所示,本发明实施例提供的一种基于ArcFace的语音识别方法,包括以下步骤:
S101:获取待识别语音,并提取所述待识别语音的低层帧级特征。
具体的,装置获取待识别语音,并提取所述待识别语音的低层帧级特征。装置可以是执行本方法的服务器等,可以通过动圈式麦克风、电容式麦克风和微机电麦克风等设备采集同一说话人不同信道的语音,模拟实际语音环境。可以根据25ms的帧长和10ms的帧移,提取待识别语音的帧级特征,并采用VAD(语音活动检测)对上述帧级特征进行静音操作,获得低层帧级特征。低层帧级特征可以为Fbank特征,不作具体限定。
S102:根据所述低层帧级特征,提取身份特征向量。
具体的,装置根据所述低层帧级特征,提取身份特征向量。身份特征向量可以理解为标识说话人的特征向量,可以输入所述低层帧级特征至优化过的GRU模型,将所述优化过的GRU模型的输出结果作为所述身份特征向量。GRU(Gated Recurrent Unit)是LSTM变体,作为学习时序特征的模型,它在保持LSTM能很好地处理远距离依赖优点的同时,结构更加简单,计算更加高效。可以在GRU层前引入一个卷积层,以优化GRU模型,对光谱相关性建模的同时,降低特征在时域和频域的维度,加速模型计算。
S103:从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的。
具体的,装置从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的。可以采用最近邻分类器,计算身份特征向量与预设语音库中的预设身份特征向量之间的欧氏距离,将欧氏距离最小的预设身份特征向量确定为目标身份特征向量。预设身份信息可以理解为预设身份特征向量对应的说话人,即通过识别预设身份特征向量,预设模型识别出该预设身份特征向量对应哪一个说话人。本发明实施例不对预设模型作具体限定。基于ArcFace的算法表达式L3可以根据如下步骤获得:
对于输入的样本向量xi和其对应的标签yi(即对应哪个说话人),损失函数L1的定义如下:
其中,N为分批训练的样本子集(即分批输入装置的训练的样本总数的一部分),C为样本类别总数(即说话人的总数)、为表示样本向量xi所归属类的后验概率、fj表示样本向量xi所归属所有类的后验概率,可以表示如下:
其中,是全连接层的权重向量和偏置,是二者之间的夹角。
简化表达式,将设为0,通过L2归一化将设为1,则仅由样本向量xi和夹角决定:
对特征进行L2正则化可去除特征在超球面空间上的径向变异。将||xi||设为常数s,损失函数L2表示为:
由于软边界损失函数关注于正确分类,对分类错误情况缺少考虑。为解决这个问题,添加角边缘损失因子m,即在内引入m来在分类边界上增加边界约束,从而得到ArcFace的算法表达式L3
其中,属于范围[0,π-m]。
语音识别的目标是判断未知语音属于哪个说话人,假设语音所归属类的后验概率大于预设阈值t,而其所在其他类的后验概率fj均小于t。可表示如下:
在分类过程中,小于等于t,或者fj大于等于t,均为错分类情况,将损失定义为二者的差值。对于前者情况,设损失为L+,表示为:
同理,后者损失为L-,表示为:
为整体表示错分类损失函数,将L+和L-融合起来,引入最大边界项惩罚函数δy:
对于所有样本,最大边缘约束损失因子为:
总体来看,基于ArcFace得到预设损失函数L,即最大边缘余弦距离损失函数(maximum marginal cosine distance loss function,以下简称“MMCL”),定义如下:
其中,L是L3和Cmax_mar的加权和,表示如下:
L=L3+λCmax_mar
λ为权重系数,数值可选为0.1~10。
需要说明的是:由于本发明实施例引入的最大边缘约束损失因子Cmax_mar中包含有最大边界项惩罚函数δy,对于预测结果正确的情况(对应δy的表达式中的情况),使得δy=1;对于预测结果错误的情况(对应δy的表达式中的情况),使得δy=-1;即使得预设损失函数对预测结果的分辨能力更强,从而使得识别结果更加准确。
S104:根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
具体的,装置根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。举例说明如下:预设身份特征向量A与预设身份信息a之间存在对应关系,与待识别语音对应的身份特征向量为X,经过向量相似性比较方法,得出预设身份特征向量A是与身份特征向量为X相似的目标身份特征向量,从而确定预设身份信息a为目标身份信息,将该目标身份信息作为待识别语音的识别结果。在2s,3s,5s,8s四种语音长度条件下,本发明实施例MMCL分别与softmax和ArcFace的EER指标的对比结果如表1所示:
表1短语音说话人识别方法在不同时长下的识别性能
2s 3s 5s 8s
softmax 0.0643 0.0437 0.0363 0.0301
ArcFace 0.0602 0.0410 0.0307 0.0254
MMCL 0.0538 0.0385 0.0272 0.0215
由此可见,本发明实施例MMCL具有较小的EER误差,即能够对语音进行较准确地识别。
本发明实施例提供的基于ArcFace的语音识别方法,从预设语音库中获取与待识别语音对应的身份特征向量相似的目标身份特征向量,并根据预先基于ArcFace的算法表达式获取的预设损失函数进行训练的预设模型得出对应关系,进而获取目标身份信息,再将目标身份信息作为待识别语音的识别结果,能够准确地对各种类型的语音进行识别。
在上述实施例的基础上,所述预设损失函数包括最大边缘约束损失因子,所述最大边缘约束损失因子的表达式为:
其中,Cmax_mar为所述最大边缘约束损失因子、N为分批训练的样本子集、y为样本类别、C为样本类别总数、t为预设阈值、为大于所述预设阈值的表示样本向量所归属类的后验概率、δy为最大边界项惩罚函数。
具体的,装置中的所述最大边缘约束损失因子的表达式为:
其中,Cmax_mar为所述最大边缘约束损失因子、N为分批训练的样本子集、y为样本类别、C为样本类别总数、t为预设阈值、为大于所述预设阈值的表示样本向量所归属类的后验概率、δy为最大边界项惩罚函数。可参照上述实施例,不再赘述。
本发明实施例提供的基于ArcFace的语音识别方法,通过采用包括有最大边缘约束损失因子的预设损失函数对预设函数进行训练,进一步能够准确地对各种类型的语音进行识别。
在上述实施例的基础上,所述δy的表达式为:
其中,当j≠yi时,fj表示小于所述预设阈值的表示所述样本向量所归属其他类的后验概率。
具体的,装置中的所述δy的表达式为:
其中,当j≠yi时,fj表示小于所述预设阈值的表示所述样本向量所归属其他类的后验概率。可参照上述实施例,不再赘述。
本发明实施例提供的基于ArcFace的语音识别方法,通过具体的表达式计算最大边界项惩罚函数,进一步能够准确地对各种类型的语音进行识别。
在上述实施例的基础上,所述预设损失函数的表达式为:
L=L3+λCmax_mar
其中,L为所述预设损失函数、L3为基于ArcFace的算法表达式、λ为权重系数,数值为0.1~10。
具体的,装置中的所述预设损失函数的表达式为:
L=L3+λCmax_mar
其中,L为所述预设损失函数、L3为基于ArcFace的算法表达式、λ为权重系数,数值为0.1~10。可参照上述实施例,不再赘述。
本发明实施例提供的基于ArcFace的语音识别方法,通过具体的表达式计算预设损失函数,进一步能够准确地对各种类型的语音进行识别。
在上述实施例的基础上,所述根据所述低层帧级特征,提取身份特征向量,包括:
输入所述低层帧级特征至优化过的GRU模型,将所述优化过的GRU模型的输出结果作为所述身份特征向量。
具体的,装置输入所述低层帧级特征至优化过的GRU模型,将所述优化过的GRU模型的输出结果作为所述身份特征向量。可参照上述实施例,不再赘述。
本发明实施例提供的基于ArcFace的语音识别方法,通过将优化过的GRU模型的输出结果作为身份特征向量,能够保证该方法正常进行。
在上述实施例的基础上,所述优化过的GRU模型为设有卷积层的GRU模型。
具体的,装置中的所述优化过的GRU模型为设有卷积层的GRU模型。可参照上述实施例,不再赘述。
本发明实施例提供的基于ArcFace的语音识别方法,通过将优化过的GRU模型选为设有卷积层的GRU模型,能够提高GRU模型的运算效率,更快速地对各种类型的语音进行识别。
在上述实施例的基础上,所述低层帧级特征为Fbank特征。
具体的,装置中的所述低层帧级特征为Fbank特征。可参照上述实施例,不再赘述。
本发明实施例提供的基于ArcFace的语音识别方法,通过将低层帧级特征选为Fbank特征,能够保证该方法正常进行。
图2为本发明实施例基于ArcFace的语音识别装置结构示意图,如图2所示,本发明实施例提供了一种基于ArcFace的语音识别装置,包括第一获取单元201、提取单元202、第二获取单元203和识别单元204,其中:
第一获取单元201用于获取待识别语音,并提取所述待识别语音的低层帧级特征;提取单元202用于根据所述低层帧级特征,提取身份特征向量;第二获取单元203用于从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;识别单元204用于根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
具体的,第一获取单元201用于获取待识别语音,并提取所述待识别语音的低层帧级特征;提取单元202用于根据所述低层帧级特征,提取身份特征向量;第二获取单元203用于从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;识别单元204用于根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
本发明实施例提供的基于ArcFace的语音识别装置,从预设语音库中获取与待识别语音对应的身份特征向量相似的目标身份特征向量,并根据预先基于ArcFace的算法表达式获取的预设损失函数进行训练的预设模型得出对应关系,进而获取目标身份信息,再将目标身份信息作为待识别语音的识别结果,能够准确地对各种类型的语音进行识别。
本发明实施例提供的基于ArcFace的语音识别装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图3为本发明实施例提供的电子设备实体结构示意图,如图3所示,所述电子设备包括:处理器(processor)301、存储器(memory)302和总线303;
其中,所述处理器301、存储器302通过总线303完成相互间的通信;
所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取待识别语音,并提取所述待识别语音的低层帧级特征;根据所述低层帧级特征,提取身份特征向量;从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待识别语音,并提取所述待识别语音的低层帧级特征;根据所述低层帧级特征,提取身份特征向量;从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取待识别语音,并提取所述待识别语音的低层帧级特征;根据所述低层帧级特征,提取身份特征向量;从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的各实施例技术方案的范围。

Claims (10)

1.一种基于ArcFace的语音识别方法,其特征在于,包括:
获取待识别语音,并提取所述待识别语音的低层帧级特征;
根据所述低层帧级特征,提取身份特征向量;
从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;
根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述预设损失函数包括最大边缘约束损失因子,所述最大边缘约束损失因子的表达式为:
其中,Cmax_mar为所述最大边缘约束损失因子、N为分批训练的样本子集、y为样本类别、C为样本类别总数、t为预设阈值、fyi为大于所述预设阈值的表示样本向量所归属类的后验概率、δy为最大边界项惩罚函数。
3.根据权利要求2所述的方法,其特征在于,所述δy的表达式为:
其中,当j≠yi时,fj表示小于所述预设阈值的表示所述样本向量所归属其他类的后验概率。
4.根据权利要求2或3所述的方法,其特征在于,所述预设损失函数的表达式为:
L=L3+λCmax_mar
其中,L为所述预设损失函数、L3为基于ArcFace的算法表达式、λ为权重系数,数值为0.1~10。
5.根据权利要求1所述的方法,其特征在于,所述根据所述低层帧级特征,提取身份特征向量,包括:
输入所述低层帧级特征至优化过的GRU模型,将所述优化过的GRU模型的输出结果作为所述身份特征向量。
6.根据权利要求5所述的方法,其特征在于,所述优化过的GRU模型为设有卷积层的GRU模型。
7.根据权利要求1所述的方法,其特征在于,所述低层帧级特征为Fbank特征。
8.一种基于ArcFace的语音识别装置,其特征在于,包括:
第一获取单元,用于获取待识别语音,并提取所述待识别语音的低层帧级特征;
提取单元,用于根据所述低层帧级特征,提取身份特征向量;
第二获取单元,用于从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;
识别单元,用于根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201811400260.2A 2018-11-22 2018-11-22 一种基于ArcFace的语音识别方法及装置 Active CN109377984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811400260.2A CN109377984B (zh) 2018-11-22 2018-11-22 一种基于ArcFace的语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811400260.2A CN109377984B (zh) 2018-11-22 2018-11-22 一种基于ArcFace的语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN109377984A true CN109377984A (zh) 2019-02-22
CN109377984B CN109377984B (zh) 2022-05-03

Family

ID=65377103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811400260.2A Active CN109377984B (zh) 2018-11-22 2018-11-22 一种基于ArcFace的语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN109377984B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047468A (zh) * 2019-05-20 2019-07-23 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质
CN111582354A (zh) * 2020-04-30 2020-08-25 中国平安财产保险股份有限公司 图片识别方法、装置、设备及存储介质
CN112669827A (zh) * 2020-12-28 2021-04-16 清华大学 一种自动语音识别器的联合优化方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN105632502A (zh) * 2015-12-10 2016-06-01 江西师范大学 一种基于加权成对约束度量学习算法的说话人识别方法
CN105931646A (zh) * 2016-04-29 2016-09-07 江西师范大学 一种基于简单直接度量学习算法的说话人识别方法
CN106022380A (zh) * 2016-05-25 2016-10-12 中国科学院自动化研究所 基于深度学习的个体身份识别方法
US20180197547A1 (en) * 2017-01-10 2018-07-12 Fujitsu Limited Identity verification method and apparatus based on voiceprint
US20180261236A1 (en) * 2017-03-10 2018-09-13 Baidu Online Network Technology (Beijing) Co., Ltd. Speaker recognition method and apparatus, computer device and computer-readable medium

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN105632502A (zh) * 2015-12-10 2016-06-01 江西师范大学 一种基于加权成对约束度量学习算法的说话人识别方法
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN105931646A (zh) * 2016-04-29 2016-09-07 江西师范大学 一种基于简单直接度量学习算法的说话人识别方法
CN106022380A (zh) * 2016-05-25 2016-10-12 中国科学院自动化研究所 基于深度学习的个体身份识别方法
US20180197547A1 (en) * 2017-01-10 2018-07-12 Fujitsu Limited Identity verification method and apparatus based on voiceprint
US20180261236A1 (en) * 2017-03-10 2018-09-13 Baidu Online Network Technology (Beijing) Co., Ltd. Speaker recognition method and apparatus, computer device and computer-readable medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHEN, SHENG 等: "MobileFaceNets: Efficient CNNs for Accurate Real-Time Face Verification on Mobile Devices", 《13TH CHINESE CONFERENCE ON BIOMETRIC RECOGNITION (CCBR)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047468A (zh) * 2019-05-20 2019-07-23 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质
CN110047468B (zh) * 2019-05-20 2022-01-25 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质
CN111582354A (zh) * 2020-04-30 2020-08-25 中国平安财产保险股份有限公司 图片识别方法、装置、设备及存储介质
CN112669827A (zh) * 2020-12-28 2021-04-16 清华大学 一种自动语音识别器的联合优化方法及***
CN112669827B (zh) * 2020-12-28 2022-08-02 清华大学 一种自动语音识别器的联合优化方法及***

Also Published As

Publication number Publication date
CN109377984B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
Ittichaichareon et al. Speech recognition using MFCC
US7447338B2 (en) Method and system for face detection using pattern classifier
US20180197547A1 (en) Identity verification method and apparatus based on voiceprint
CN107221320A (zh) 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及***
Gosztolya et al. DNN-based feature extraction and classifier combination for child-directed speech, cold and snoring identification
CN111462729B (zh) 基于音素对数似然比和稀疏表征的快速语种识别方法
CN111583906B (zh) 一种语音会话的角色识别方法、装置及终端
CN109377984A (zh) 一种基于ArcFace的语音识别方法及装置
CN110287311B (zh) 文本分类方法及装置、存储介质、计算机设备
CN108520752A (zh) 一种声纹识别方法和装置
CN110910891A (zh) 基于长短时记忆神经网络的说话人分段标注方法及装置
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
CN109036385A (zh) 一种语音指令识别方法、装置及计算机存储介质
CN111401105B (zh) 一种视频表情识别方法、装置及设备
Ferrer et al. Spoken language recognition based on senone posteriors.
CN108831506A (zh) 基于gmm-bic的数字音频篡改点检测方法及***
CN109448756A (zh) 一种语音年龄识别方法及***
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
Venkatesan et al. Automatic language identification using machine learning techniques
CN115801374A (zh) 网络入侵数据分类方法、装置、电子设备及存储介质
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
Chen et al. Content-aware local variability vector for speaker verification with short utterance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant