CN114822562A - 声纹识别模型的训练方法、声纹识别方法及相关设备 - Google Patents

声纹识别模型的训练方法、声纹识别方法及相关设备 Download PDF

Info

Publication number
CN114822562A
CN114822562A CN202210173743.3A CN202210173743A CN114822562A CN 114822562 A CN114822562 A CN 114822562A CN 202210173743 A CN202210173743 A CN 202210173743A CN 114822562 A CN114822562 A CN 114822562A
Authority
CN
China
Prior art keywords
feature extraction
extraction network
voiceprint
network layer
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210173743.3A
Other languages
English (en)
Inventor
林伟伟
陈东鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Voiceai Technologies Co ltd
Original Assignee
Voiceai Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voiceai Technologies Co ltd filed Critical Voiceai Technologies Co ltd
Priority to CN202210173743.3A priority Critical patent/CN114822562A/zh
Publication of CN114822562A publication Critical patent/CN114822562A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种声纹识别模型的训练方法、声纹识别方法及相关设备包括:获取多个样本音频和声纹标签;声纹识别模型中的各特征提取网络层基于样本音频逐层进行特征提取,得到特征信息;由分类层根据特征信息进行声纹分类,得到样本声纹分类结果;根据样本声纹分类结果、样本音频对应的声纹标签、目标计算量和预设的损失函数,分别计算得到各特征提取网络层的损失值;根据各特征提取网络层的损失值,计算得到目标损失值;根据目标损失值反向调整声纹识别模型的参数,直至达到模型训练完成;实现在保证声纹识别的准确性的基础上,减少特征提取所需的计算量,进而,减少声纹识别所用的计算资源。

Description

声纹识别模型的训练方法、声纹识别方法及相关设备
技术领域
本申请涉及人工智能技术领域,更具体地,涉及一种声纹识别模型的训 练方法、声纹识别方法及相关设备。
背景技术
随着人工智能技术的发展,声纹识别的应用越来越广泛。相关技术中, 一般通过声纹识别模型来进行声纹识别,具体的,声纹识别模型包括用于 进行特征提取的多层特征提取网络层和用于进行分类的分类层,在该声纹 识别模型中,仅将最后一层特征提取网络层所提取到的特征信息输入到分 类层中进行分类,存在声纹识别的计算量较大的问题。
发明内容
鉴于上述问题,本申请提出了一种声纹识别模型的训练方法、声纹识别 方法及相关设备,以改善上述问题。
根据本申请实施例的一个方面,提供了一种声纹识别模型的训练方法, 声纹识别模型包括分类层和多层级联的特征提取网络层,方法包括:获取 样本集,样本集包括多个样本音频和各样本音频对应的声纹标签;对于各 样本音频,由声纹识别模型中的各特征提取网络层基于样本音频逐层进行 特征提取,得到各特征提取网络层输出的特征信息;由分类层分别根据各 特征提取网络层输出的特征信息进行声纹分类,得到各特征提取网络层所 输出特征信息对应的样本声纹分类结果;根据各特征提取网络层所输出特 征信息对应的样本声纹分类结果、样本音频对应的声纹标签、各特征提取 网络层对应的目标计算量和预设的损失函数,分别计算得到各特征提取网 络层针对样本音频的损失值;其中,一特征提取网络层对应的目标计算量 等于特征提取网络层的计算量与特征提取网络层之前的特征提取网络层的 计算量之和;根据各特征提取网络层针对样本音频的损失值,计算得到目标损失值;根据目标损失值反向调整声纹识别模型的参数,直至达到模型 训练结束条件。
根据本申请实施例的一个方面,提供了一种声纹识别方法,包括:获取 待识别的目标音频;将声纹识别模型中的首层特征提取网络层作为目标特 征提取网络层,将目标音频作为目标信息;声纹识别模型是按照如上述声 纹识别模型的训练方法训练得到的;由目标特征提取网络层对目标信息进 行特征提取,得到目标特征提取网络层输出的特征信息;由声纹识别模型 中的分类层根据目标特征提取网络层输出的特征信息进行声纹分类,得到 目标音频对应于各声纹类别的概率;根据目标音频对应于各声纹类别的概 率,确定最大概率;若最大概率大于设定的概率阈值,则将最大概率对应 的声纹类别作为目标音频的声纹识别结果。
根据本申请实施例的一个方面,提供了一种声纹识别模型的训练装置, 包括:样本获取模块,用于获取样本集,样本集包括多个样本音频和各样 本音频对应的声纹标签;特征提取模块,用于对于各样本音频,由声纹识 别模型中的各特征提取网络层基于样本音频逐层进行特征提取,得到各特 征提取网络层输出的特征信息;声纹分类模块,用于由分类层分别根据各 特征提取网络层输出的特征信息进行声纹分类,得到各特征提取网络层所 输出特征信息对应的样本声纹分类结果;损失值计算模块,用于根据各特 征提取网络层所输出特征信息对应的样本声纹分类结果、样本音频对应的 声纹标签、各特征提取网络层对应的目标计算量和预设的损失函数,分别 计算得到各特征提取网络层针对样本音频的损失值;其中,一特征提取网 络层对应的目标计算量等于特征提取网络层的计算量与特征提取网络层之 前的特征提取网络层的计算量之和;目标损失值计算模块,用于根据各特征提取网络层针对样本音频的损失值,计算得到目标损失值;模型调整模 块,用于根据目标损失值反向调整声纹识别模型的参数,直至达到模型训 练结束条件。
根据本申请实施例的一个方面,提供了一种声纹识别装置,包括:目标 音频获取模块,用于获取待识别的目标音频;特征提取模块,用于将声纹 识别模型中的首层特征提取网络层作为目标特征提取网络层,将目标音频 作为目标信息;声纹识别模型是按照如上的声纹识别模型的训练方法训练 得到的;特征输出模块,用于由目标特征提取网络层对目标信息进行特征 提取,得到目标特征提取网络层输出的特征信息;声纹分类模块,用于由声纹识别模型中的分类层根据目标特征提取网络层输出的特征信息进行声 纹分类,得到目标音频对应于各声纹类别的概率;最大概率确定模块,用 于根据目标音频对应于各声纹类别的概率,确定最大概率;声纹识别模块, 用于若最大概率大于设定的概率阈值,则将最大概率对应的声纹类别作为 目标音频的声纹识别结果。
根据本申请实施例的一个方面,提供了一种电子设备,包括:处理器; 存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行 时,实现如上声纹识别模型的训练方法以及声纹识别方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其 上存储有计算机可读指令,当计算机可读指令被处理器执行时,实现如上 声纹识别模型的训练方法以及声纹识别方法。
在本申请的方案中,在损失函数中引入了特征提取网络层对应的目标 计算量,并基于各特征提取网络层所输出的特征信息进行声纹分类,得到 各特征提取网络层针对样本音频所输出的特征信息对应的样本声纹识别结 果,而不只是将最后一层特征提取网络层所输出的特征信息进行声纹分类。 在此基础上,根据各特征提取网络层针对样本音频所输出的特征信息对应 的样本声纹识别结果、样本音频对应的声纹标签、和各特征提取网络层对 应的目标计算量,来计算各特征提取网络层针对所述样本音频的损失值。 特征提取网络层对应的目标计算量,反映了获得该特征提取网络层所输出 的特征信息所需要的计算资源的量。
对于声纹识别而言,所提取到特征信息所体现的声纹信息越多,则利 用该特征信息进行声纹分类,所得到的声纹分类结果的准确性越高。因此, 根据特征提取网络层针对样本音频所输出的特征信息对应的样本声纹识别 结果和样本音频对应的声纹标签,可以计算得到反映该特征提取网络层所 提取得到特征信息所体现的声纹信息的多少,进而反映该特征提取网络层 所提取到特征信息的准确性。
也就是说,根据各特征提取网络层针对样本音频所输出的特征信息对 应的样本声纹识别结果、样本音频对应的声纹标签、和各特征提取网络层 对应的目标计算量,来计算各特征提取网络层针对所述样本音频的损失值, 是同时考虑声纹识别的准确性和进行特征提取所需的计算量这两个因素的 影响所计算得到的。从而,利用根据各特征提取网络层针对所述样本音频 的损失值所计算得到的目标损失值,来反向调整声纹识别模型的参数,可 以使得训练后的声纹识别模型中的各特征提取网络层在保证声纹识别的准 确性和降低特征提取所用的计算量之间进行折中,从而,实现在保证声纹 识别的准确性的基础上,减少特征提取所需的计算量,进而,减少声纹识 别所用的计算资源。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中 所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提 下,还可以根据这些附图获得其他的附图。
图1示出了适于用来实现本申请实施例的电子设备的计算机***的结构 示意图。
图2示出了根据本申请一个实施例的声纹识别模型的训练方法的流程图。
图3是根据本申请一实施例示出的步骤220之前步骤的流程图。
图4示出了根据本申请一个实施例的声纹识别方法的流程图。
图5示出了根据本申请一个实施例的最后一层特征提取网络层进行声纹 识别的流程图。
图6是根据本申请一实施例示出的声纹识别模型的训练装置的框图。
图7是根据本申请一实施例示出的声纹识别装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够 以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实 施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达 给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或 更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实 施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术 方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装 置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者 操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体 相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件 模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或 微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作 /步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解, 而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实 际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或” 描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以 表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/” 一般表示前后关联对象是一种“或”的关系。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机 控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获 得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机 科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类 智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的 设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也 有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯 片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化 等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然 语言处理技术以及机器学习/深度学习等几大方向。
图1示出了适于用来实现本申请实施例的电子设备的计算机***的结构 示意图,如图1所示,作为一种存储介质的存储器1005中可以包括操作***、 数据存储模块、网络通信模块、用户接口模块以及电子程序。
在图1所示的电子设备中,网络接口1004主要用于与网络服务器进行数 据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的 处理器1001、存储器1005可以设置在电子设备中,所述电子设备通过处理 器1001调用存储器1005中存储的声纹识别模型的训练装置以及声纹识别装 置,并分别执行本申请实施例提供的声纹识别模型的训练方法以及声纹识别 方法。
处理器1001可以包括一个或者多个处理核。处理器1001利用各种接口 和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器 1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的 数据,执行电子设备的各种功能和处理数据。可选地,处理器1001可以采 用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器 1001可集成中央处理器(Central Processing Unit,CPU)、图形处理器 (Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。 其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显 示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述 调制解调器也可以不集成到处理器1001中,单独通过一块通信芯片进行实 现。
存储器1005可以包括随机存储器(Random Access Memory,RAM), 也可以包括只读存储器(Read-Only Memory)。存储器1005可用于存储指令、 程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据 区,其中,存储程序区可存储用于实现操作***的指令、用于实现至少一个 功能的指令(比如触控功能、报警功能等)、用于实现下述各个方法实施例 的指令等。存储数据区还可以存储电子设备在使用中所创建的数据(比如伪 装的响应命令、获取的进程状态)等。
本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限 定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部 件布置。
图2是根据本申请的一个实施例示出的声纹识别模型的训练方法的流程 图,该方法可以由具备处理能力的计算机设备执行,例如服务器、云服务器、 或者其他具备处理能力的终端设备等,在此不进行具体限定。所述声纹识别 模型包括分类层和多层级联的特征提取网络层,参照图2所示,该方法至少 包括步骤210至260,详细介绍如下:
步骤210,获取样本集,所述样本集包括多个样本音频和各所述样本音 频对应的声纹标签。
样本音频可以是对发声体进行音频采集获得。样本音频对应的声纹标 签用于指示该样本音频所来源的发声体,例如,若样本音频I是对用户A1 进行音频采集获得,则样本音频I对应的声纹标签用于指示该样本音频I的 发声体为用户A1。
步骤220,对于各样本音频,由所述声纹识别模型中的各特征提取网络 层基于所述样本音频逐层进行特征提取,得到各特征提取网络层输出的特 征信息。
特征提取网络层是指用于进行特征提取的神经网络层,该神经网络层 可以是卷积神经网络层、循环神经网络层、全连接神经网络层、长短时记 忆神经网络层、前馈神经网络层、池化神经网络层等,在此不进行具体限 定。
在本申请中,该声纹识别模型包括多层级联的特征提取网络层,其中, 不同的特征提取网络层可以是相同的类型的神经网络层,也可以是不同类 型的神经网络层,例如声纹识别模型中的各特征提取网络层均为卷积神经 网络层,又例如,声纹识别模型的部分特征提取网络层为卷积神经网络层, 部分特征提取网络层为全连接神经网络层。
样本音频进入声纹识别模型后,由首层特征提取网络层对样本音频进 行特征提取,得到样本音频的特征信息;之后,将第一层特征提取网络层 所输出的特征信息作为第二层特征提取网络层的输入,由第二层特征提取 网络层对首层特征提取网络层输出的特征信息再次进行特征提取,得到第 二层特征提取网络层针对样本音频输出的特征信息,之后,将第二层特征 提取网络层针对样本音频输出的特征信息输入到第三层特征提取网络层继 续进行特征提取,以此类推,实现对样本音频逐层进行特征提取。
各特征提取网络层针对样本音频所输出的特征信息用于表征样本音频 的音频特征,更进一步的,该特征信息用于反映样本音频的声纹。
可以理解的是,在声纹识别模型中,由于特征提取网络层是在之前的 特征提取网络层所输出的特征信息的基础上进一步进行特征提取,因此, 特征提取网络层对应的层数越深,则该特征提取网络层所输出的特征信息 包含样本音频的声纹信息更多,而且,所包含样本音频的声纹信息越准确。 但是各特征提取网络层所输出的特征信息是在其前的特征提取网络层进行 特征提取的基础上再次进行特征提取得到,因此,特征提取网络层对应的 层数越深,得到所对应的特征信息所需要的计算量越多。
步骤230,由所述分类层分别根据各特征提取网络层输出的特征信息进 行声纹分类,得到各特征提取网络层所输出特征信息对应的样本声纹分类 结果。
也就是说,在本申请中,各特征提取网络层针对样本音频所输出的特 征信息均需要进行声纹分类,而不只是将声纹识别模型中最后一层特征提 取网络层所输出的特征信息进行声纹分类。
分类层可以通过分类函数来进行声纹分类,其中,分类函数可以为 softmax函数、sigmoid函数等。分类函数,例如softmax函数,将各特征提 取网络层所输出的特征信息进行声纹分类,得到该样本音频对应于各声纹 类别的概率,并将最大概率对应的声纹类别作为该样本音频的样本声纹分 类结果。其中,一声纹类别用于标识一个发声体,例如,若发声体为人, 则不同声纹类别用于指示不同的用户。
步骤240,根据各特征提取网络层所输出特征信息对应的样本声纹分类 结果、所述样本音频对应的声纹标签、各特征提取网络层对应的目标计算 量和预设的损失函数,分别计算得到各特征提取网络层针对所述样本音频 的损失值;其中,一特征提取网络层对应的目标计算量等于所述特征提取 网络层的计算量与所述特征提取网络层之前的特征提取网络层的计算量之 和。
样本声纹分类结果是指由分类层对样本音频的特征信息进行声纹分类 所得到的声纹分类结果,该样本声纹分类结果指示了所预测到样本音频所 对应的发声用户。
具体的,各特征提取网络层对应的目标计算量可以按照图3所示的过程 计算得到。如图3所示,包括:
步骤102,获取为第1层至第i层特征提取网络层中各特征提取网络层 所分别设定的计算量信息;所述计算量信息用于指示所对应特征提取网络 层进行特征提取所需的计算量;其中,1≤i≤N,i为正整数,N为声纹识 别模型中特征提取网络层的总层数。
步骤104,将第1层至第i层特征提取网络层中全部特征提取网络层所 分别对应的计算量相加,得到所述第i层特征提取网络层对应的目标计算量。
在声纹识别模型中的各特征提取网络层进行特征提取所进行的计算一般 为矩阵运算,例如点积运算等,其可以进一步分解为加法、减法、乘法、除 法、求幂、指数运算等。在具体实施例中,可以将特征提取网络层的运算次 数来作为特征提取网络层的计算量,具体的,运算次数可以用FLOPs (FLoating-point Operations,浮点运算次数)衡量,一次浮点运算可以定义 为一次乘法运算和一次加法。在此基础上,可以根据各特征提取网络层所包括神经元的类型(例如全连接神经元、卷积神经元、池化神经元等),例如所 包括的神经元的数量以及特征提取网络层所进行的计算,来确定该特征提取 网络层进行特征提取所需的浮点运算次数。
可以理解的是,特征提取网络层中包括的神经元不同,特征提取网络层 进行特征提取所进行的计算也不相同,对应的,该特征提取网络层进行特征 提取所需的计算量也对应不同。进一步的,不同的特征提取网络层所包括神 经元的数量也存在差异,而神经元的数量决定了该特征提取网络层的输出的 维度,因此,特征提取层所包括神经元的数量也对应会影响该特征提取网络 层进行特征提取所需的计算量。
因此,在具体实施例中,可以根据特征提取网络层所包括神经元的类型、 以及所包括神经元的数量,来设定特征提取网络层进行特征提取所需要的计 算量。
举例来说,若一特征提取网络层为全连接神经网络层,全连接神经网络 层执行的计算为:
y=matmaul(x,W)+b; (公式1)
其中,x为该全连接神经网络层的输入信息(即上一特征提取网络层所 输出的特征信息);W为该全连接神经网络层的I×J的权重矩阵(其中,该 权重矩阵的维度是与该全连接神经网络层所包括全连接神经元的数量相关的); b是偏置矩阵;y为该全连接神经网络层的输出信息(即该全连接神经网络层 输出的特征信息)。可以理解的是,x的维度为I,y的维度为J。可以确定该 全连接神经网络层进行特征提取所需的浮点运算次数为(2I-1)×J。
在设定各特征提取网络层进行特征提取所需要的计算量的基础上,针对 各特征提取网络层,可以按照上述步骤102-步骤104的过程,计算得到各特 征提取网络层对应的目标计算量。
一特征提取网络层对应的目标计算量指示了获得该特征提取网络层所 输出的特征信息所需要的计算量。
在本申请中,针对声纹识别模型所设定的损失函数包括第一参数项和 第二参数项,其中,第一参数项用于表征样本音频的样本声纹识别结果与 该样本音频对应的声纹标签之间的差异程度,第二参数项用于表征用于获 得该样本声纹识别结果的特征信息所需要的计算量。
在具体实施例中,第一参数项可以是交叉熵损失函数、平方损失函数、 平均绝对值损失函数、Huber损失函数、对数损失函数等,在此不进行具体 限定。
第二参数项可以等于特征提取网络层对应的目标计算量,或者等于对 特征提取网络层对应的目标计算量进行处理后的值。对特征提取网络层对 应的目标计算量进行的处理可以是归一化处理,在此不进行具体限定。
综上所述,若用Z表示损失函数的函数值,K1表示第一参数向,K2 表示第二参数向,则可以表示为:
Z=t1*K1+t2*K2; (公式2)
其中,t1为第一参数项对应的权重系数,t2为第二参数项对应的权重 系数,t1和t2可根据实际需要设定。若K1为交叉熵损失函数,则
Figure BDA0003519628320000101
其中,yi为第i个样本音频对应的声纹标签,
Figure BDA0003519628320000102
为第i个样本音频对应 的样本声纹分类结果。
若K1为平方损失函数,则
Figure BDA0003519628320000111
若K1为平均绝对损失函数,则
Figure BDA0003519628320000112
在一些实施例中,K2可以等于特征提取网络层对应的目标计算量,还 可以等于一特征提取网络层对应的目标计算量与总计计算量的比值,其中, 总计计算量等于声纹识别模型中最后一层特征提取网络层对应的目标计算 量。
可以理解的是,第一参数项和第二参数项的取值范围可能存在差异。 在一些实施例中,如果第一参数项与第二参数项的取值范围的差异较大, 例如,若第一参数项的取值范围为0~1,第二参数项的取值范围为50~1000, 在该种情况下,如果直接将根据样本音频对应的声纹标签和样本音频对应 的样本声纹识别结果所得到的第一参数项的值和根据特征提取网络层对应 的目标计算量所计算得到的第二参数项的值直接相加,可以看出,此时相 加的结果受第二参数项的值的影响较大,受第一参数项的值到的影响较小, 或者可以近似认为不受第一参数项的值的影响。因此,为了避免出现该种 情况下,还可以进一步将第一参数项和第二参数项的取值范围变换到相同 的取值范围,或者相近的取值范围内。具体的,可以将取值较大的参数项 (第一参数项或者第二参数项)与第一指定数相除,以此来变换该参数项 的取值范围,例如,若取值较大的参数项为第二参数项,第一指定数可以是上文所提及的总计计算量;或者将取值较小的参数项与第二指定数相乘, 以变换该参数项的取值范围。
一特征提取网络层针对所述样本音频的损失值等于将该特征提取网络 层所输出特征信息对应的样本声纹分类结果、样本音频对应的声纹标签和 该特征提取网络层对应的目标计算量代入损失函数(例如上文中的公式2) 中,所计算得到损失函数的函数值。
请继续参阅图2,步骤250,根据各特征提取网络层针对所述样本音频 的损失值,计算得到目标损失值。
具体的,步骤250,包括:将所述声纹识别模型中全部特征提取网络 层针对所述样本音频的损失值相加,得到所述目标损失值。
步骤260,根据所述目标损失值反向调整所述声纹识别模型的参数,直 至达到模型训练结束条件。 具体的,可以设定损失值范围,若针对样本音频所计算得到的目标损失值 超出该损失值范围,则反向调整声纹识别模型的参数,然后基于调整参数 后的声纹识别模型,再次执行如上的步骤220-250,直至针对样本音频新计 算得到的目标损失值位于损失值范围;反之,若针对样本音频所计算得到 的目标损失值位于该损失值范围,则继续用下一样本音频来继续对该声纹 识别模型进行训练。
所调整的声纹识别模型的参数包括声纹识别模型中各特征提取网络层 的权重参数和分类层的权重参数中的至少一项。
模型训练结束条件可以是声纹识别模型的迭代次数达到设定的次数阈 值,也可以是声纹识别模型的声纹识别的准确率达到准确率阈值,当然, 还可以是其他的条件,在此不进行具体限定。
如上所描述,在声纹识别模型中,特征提取网络层的深度越深,其输 出的特征信息表征的声纹信息越多,而且所输出的特征信息用于进行声纹 特征分类的准确度越高,但是,获得所对应输出的特征信息所需要的计算 量越多。而相关技术中,为了保证声纹识别的准确度,一般是仅将声纹识 别模型中的最后一层的特征提取网络层所输出的特征信息输入到分类层进 行声纹分类,这样,由于每一次均需要全部的特征提取网络层进行特征提取,从而,导致按照该种方法进行声纹识别的计算量较大。
在本申请的方案中,在损失函数中引入了特征提取网络层对应的目标 计算量,并基于各特征提取网络层所输出的特征信息进行声纹分类,得到 各特征提取网络层针对样本音频所输出的特征信息对应的样本声纹识别结 果,而不只是将最后一层特征提取网络层所输出的特征信息进行声纹分类。 在此基础上,根据各特征提取网络层针对样本音频所输出的特征信息对应 的样本声纹识别结果、样本音频对应的声纹标签、和各特征提取网络层对 应的目标计算量,来计算各特征提取网络层针对所述样本音频的损失值。 特征提取网络层对应的目标计算量,反映了获得该特征提取网络层所输出 的特征信息所需要的计算资源的量。
对于声纹识别而言,所提取到特征信息所体现的声纹信息越多,则利 用该特征信息进行声纹分类,所得到的声纹分类结果的准确性越高。因此, 根据特征提取网络层针对样本音频所输出的特征信息对应的样本声纹识别 结果和样本音频对应的声纹标签,可以计算得到反映该特征提取网络层所 提取得到特征信息所体现的声纹信息的多少,进而反映该特征提取网络层 所提取到特征信息的准确性。
也就是说,根据各特征提取网络层针对样本音频所输出的特征信息对 应的样本声纹识别结果、样本音频对应的声纹标签、和各特征提取网络层 对应的目标计算量,来计算各特征提取网络层针对所述样本音频的损失值, 是同时考虑声纹识别的准确性和进行特征提取所需的计算量这两个因素的 影响所计算得到的。从而,利用根据各特征提取网络层针对所述样本音频 的损失值所计算得到的目标损失值,来反向调整声纹识别模型的参数,可 以使得训练后的声纹识别模型中的各特征提取网络层在保证声纹识别的准 确性和降低特征提取所用的计算量之间进行折中,从而,实现在保证声纹 识别的准确性的基础上,减少特征提取所需的计算量,进而,减少声纹识 别所用的计算资源。
图4是根据本申请的一个实施例示出的声纹识别方法的流程图,该方法 可以由具备处理能力的计算机设备执行,例如服务器、云服务器等,在此不 进行具体限定。参照图4所示,该方法至少包括步骤310至360,详细介绍 如下:
步骤310,获取待识别的目标音频。
目标音频泛指任一待用于进行声纹识别的音频。
步骤320,将声纹识别模型中的首层特征提取网络层作为目标特征提取 网络层,将所述目标音频作为目标信息;所述声纹识别模型是按照上述声纹 识别模型的训练方法的任一实施例训练得到的。
步骤330,由所述目标特征提取网络层对所述目标信息进行特征提取, 得到所述目标特征提取网络层输出的特征信息。
步骤340,由所述声纹识别模型中的分类层根据所述目标特征提取网络 层输出的特征信息进行声纹分类,得到所述目标音频对应于各声纹类别的 概率。
步骤350,根据所述目标音频对应于各声纹类别的概率,确定最大概率。
步骤360,若所述最大概率大于设定的概率阈值,则将所述最大概率对 应的声纹类别作为所述目标音频的声纹识别结果。
如上所描述,按照本申请所提供的声纹识别模型的训练方法进行训练 后的声纹识别模型中的各特征提取网络层能够在准确提取声纹特征和减少 计算量之间进行折中。在此基础上,在声纹识别模型进行具体应用过程中, 从声纹识别模型的首层特征提取网络层开始,将该首层特征提取网络层针 对目标音频所输出的特征信息输入到分类层中进行声纹分类,如果分类层 中所确定该目标音频对应于各声纹类别的概率中的最大概率大于设定的概 率阈值,表明,此时的目标音频对应为该最大概率对应的声纹类别的概率 较高,在此基础上,将最大概率对应的声纹类别作为所述目标音频的声纹 识别结果,而不需要声纹识别模型中首层特征提取网络层之后的特征提取 网络层继续进行特征提取,从而,相较于现有技术中仅将声纹识别模型中 的最后一层特征提取网络层所输出的特征信息用于声纹分类而言,本申请 的声纹识别方法可以大幅减少特征提取的计算量,从而,减少声纹识别所 用的计算资源,节省了计算资源。
在本申请的一些实施例中,步骤350之后,该方法还包括:若所述最 大概率不大于所述概率阈值,则将所述目标特征提取网络层的下一层特征 提取网络层作为新的目标特征提取网络层,将所述目标特征提取网络层所 输出的特征信息作为新的目标信息,并返回执行所述由所述目标特征提取 网络层对所述目标信息进行特征提取,得到所述目标特征提取网络层输出 的特征信息的步骤,直至重新得到的最大概率大于所述概率阈值,或者所述新的目标特征提取网络层为所述声纹识别模型中的最后一层特征提取网 络层。
也就是说,在针对首层特征提取网络层所输出的特征信息进行声纹分 类的基础上,如果最大概率不大于概率阈值,则继续将首层特征网络层输 出的特征信息输入到第二层特征提取网络层继续进行特征提取,然后将第 二层特征提取网络层输出的特征信息进行声纹分类,得到目标音频对应于 各声纹类别的概率,并确定最大概率,如果该最大概率大于概率阈值,则 将该最大概率对应的声纹类别作为该目标音频的声纹识别结果;反之,如 果最大概率不大于概率阈值,则将第二层特征提取网络层输出的特征信息 输入到第三特征提取网络层继续进行特征提取,以此类推,直至针对某一 特征提取网络层所输出的特征信息进行声纹分类所确定的最大概率大于概 率阈值,或者,当前输出特征信息的目标特征提取网络层为声纹识别模型 中的倒数第二层特征提取网络(即目标特征提取网络层的下一层特征提取 网络层为所述声纹识别模型中的最后一层特征提取网络层)。在本申请的一些实施例中,当所述新的目标特征提取网络层为所述声纹识别模型中的 最后一层特征提取网络层,参照图5所示,声纹识别方法还包括:
步骤372,获取所述声纹识别模型中的最后一层特征提取网络层输出的 特征信息。
步骤374,由所述分类层对所述最后一层特征提取网络层输出的特征信 息进行声纹分类,得到所述目标音频对应于各声纹类别的候选概率。
在本申请中,为便于区分,将分类层针对最后一层特征提取网络层输 出的特征信息进行声纹分类所得到目标音频对应于各声纹类别的概率称为 候选概率。
步骤376,根据目标音频对应于各声纹类别的候选概率,确定最大候选 概率。
最大候选概率是目标音频对应于各声纹类别的候选概率中的最大值。
步骤378,将所述最大候选概率对应的声纹类别作为所述目标音频的声 纹识别结果。
在本实施例中,如果针对声纹识别模型最后一层特征提取网络层之前 的特征特征提取网络层所输出的特征信息进行声纹分类,所对应的最大概 率均小于概率阈值,在获得最后一层特征提取网络层输出的特征信息,并 基于该最后一层特征提取网络层输出的特征信息进行声纹分类后,直接将 最大候选概率对应的声纹类别作为目标音频的声纹识别结果。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的方 法。对于本申请装置实施例中未披露的细节,请参照本申请上述方法实施例。
图6是根据本申请一实施例示出的声纹识别模型的训练装置的框图,如 图6所示,该声纹识别模型的训练装置包括:
样本获取模块410;用于获取样本集,所述样本集包括多个样本音频和 各所述样本音频对应的声纹标签;
特征提取模块420,用于对于各样本音频,由所述声纹识别模型中的各 特征提取网络层基于所述样本音频逐层进行特征提取,得到各特征提取网 络层输出的特征信息;
声纹分类模块430,用于由所述分类层分别根据各特征提取网络层输出 的特征信息进行声纹分类,得到各特征提取网络层所输出特征信息对应的 样本声纹分类结果;
损失值计算模块440,用于根据各特征提取网络层所输出特征信息对应 的样本声纹分类结果、所述样本音频对应的声纹标签、各特征提取网络层 对应的目标计算量和预设的损失函数,分别计算得到各特征提取网络层针 对所述样本音频的损失值;其中,一特征提取网络层对应的目标计算量等 于所述特征提取网络层的计算量与所述特征提取网络层之前的特征提取网 络层的计算量之和;
目标损失值计算模块450,用于根据各特征提取网络层针对所述样本音 频的损失值,计算得到目标损失值;
模型调整模块460,用于根据所述目标损失值反向调整所述声纹识别模 型的参数,直至达到模型训练结束条件。
在本申请的一些实施例中,目标损失值计算模块450,包括,目标损失 值获取模块,用于将所述声纹识别模型中全部特征提取网络层针对所述样 本音频的损失值相加,得到所述目标损失值。
在本申请的一些实施例中,所述声纹识别模型的训练装置还包括计算 量获取模块,用于获取为第1层至第i层特征提取网络层中各特征提取网络 层所分别设定的计算量信息;所述计算量信息用于指示所对应特征提取网 络层进行特征提取所需的计算量;其中,1≤i≤N,i为正整数,N为声纹 识别模型中特征提取网络层的总层数;目标计算量计算模块,用于将第1 层至第i层特征提取网络层中全部特征提取网络层所分别对应的计算量相加, 得到所述第i层特征提取网络层对应的目标计算量。
需要说明的是,本实施例中声纹识别模型的训练装置中各模块是与前述 实施例中声纹识别模型的训练方法中的各步骤一一对应,因此,本实施例的 具体实施方式可参照前述声纹识别模型的训练方法的实施方式,这里不再赘 述。
应当理解的是,以上仅为举例说明,对本申请的技术方案并不构成任何 限制,本领域的技术人员在实际应用中可以基于需要进行设置,此处不做限 制。
图7是根据本申请一实施例示出的声纹识别装置的框图,如图7所示, 该声纹识别装置包括:
目标音频获取模块510;用于获取待识别的目标音频;
特征提取模块520,用于将声纹识别模型中的首层特征提取网络层作为 目标特征提取网络层,将所述目标音频作为目标信息;所述声纹识别模型 是根据上述任一实施例中声纹识别模型的训练方法训练得到的;
特征输出模块530,用于由所述目标特征提取网络层对所述目标信息进 行特征提取,得到所述目标特征提取网络层输出的特征信息;
声纹分类模块540,用于由所述声纹识别模型中的分类层根据所述目标 特征提取网络层输出的特征信息进行声纹分类,得到所述目标音频对应于 各声纹类别的概率;
最大概率确定模块550,用于根据所述目标音频对应于各声纹类别的概 率,确定最大概率;
声纹识别模块560,用于若所述最大概率大于设定的概率阈值,则将所 述最大概率对应的声纹类别作为所述目标音频的声纹识别结果。
需要说明的是,本实施例中声纹识别装置中各模块是与前述实施例中声 纹识别方法中的各步骤一一对应,因此,本实施例的具体实施方式可参照前 述声纹识别方法的实施方式,这里不再赘述。
在本申请的一些实施例中,所述声纹识别装置还包括,最大概率判断 模块,用于若所述最大概率不大于所述概率阈值,则将所述目标特征提取 网络层的下一层特征提取网络层作为新的目标特征提取网络层,将所述目 标特征提取网络层所输出的特征信息作为新的目标信息,并返回执行所述 由所述目标特征提取网络层对所述目标信息进行特征提取,得到所述目标 特征提取网络层输出的特征信息的步骤,直至重新得到的最大概率大于所 述概率阈值,或者所述新的目标特征提取网络层为所述声纹识别模型中的 最后一层特征提取网络层。
在本申请的一些实施例中,所述新的目标特征提取网络层为所述声纹 识别模型中的最后一层特征提取网络层,所述声纹识别装置还包括,最后 层特征信息获取模块,用于获取所述声纹识别模型中的最后一层特征提取 网络层输出的特征信息;候选概率获取模块,用于由所述分类层对所述最 后一层特征提取网络层输出的特征信息进行声纹分类,得到所述目标音频 对应于各声纹类别的候选概率;最大候选概率确定模块,用于根据目标音 频对应于各声纹类别的候选概率,确定最大候选概率;声纹识别结果输出 模块,用于将所述最大候选概率对应的声纹类别作为所述目标音频的声纹 识别结果。
应当理解的是,以上仅为举例说明,对本申请的技术方案并不构成任何 限制,本领域的技术人员在实际应用中可以基于需要进行设置,此处不做限 制。
本申请还提供了一种计算机可读存储介质,其上存储有计算机可读指令, 当所述计算机可读指令被处理器执行时,实现上述任一方法实施例中的方法。
计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读 存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可 读存储介质包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤 的计算机可读指令的存储空间。这些计算机可读指令可以从一个或者多个计 算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。计算机 可读指令可以例如以适当形式进行压缩。
根据本申请实施例的一个方面,提供了计算机程序产品或计算机程序, 该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算 机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算 机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例 中的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模 块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式, 上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元 中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划 分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的 示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来 实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出 来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘, 移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人 计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的 方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想 到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适 应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括 本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确 结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所 附的权利要求来限制。

Claims (10)

1.一种声纹识别模型的训练方法,其特征在于,所述声纹识别模型包括分类层和多层级联的特征提取网络层,所述方法包括:
获取样本集,所述样本集包括多个样本音频和各所述样本音频对应的声纹标签;
对于各样本音频,由所述声纹识别模型中的各特征提取网络层基于所述样本音频逐层进行特征提取,得到各特征提取网络层输出的特征信息;
由所述分类层分别根据各特征提取网络层输出的特征信息进行声纹分类,得到各特征提取网络层所输出特征信息对应的样本声纹分类结果;
根据各特征提取网络层所输出特征信息对应的样本声纹分类结果、所述样本音频对应的声纹标签、各特征提取网络层对应的目标计算量和预设的损失函数,分别计算得到各特征提取网络层针对所述样本音频的损失值;其中,一特征提取网络层对应的目标计算量等于所述特征提取网络层的计算量与所述特征提取网络层之前的特征提取网络层的计算量之和;
根据各特征提取网络层针对所述样本音频的损失值,计算得到目标损失值;
根据所述目标损失值反向调整所述声纹识别模型的参数,直至达到模型训练结束条件。
2.根据权利要求1所述的方法,其特征在于,所述根据各特征提取网络层针对所述样本音频的损失值,计算得到目标损失值,包括:
将所述声纹识别模型中全部特征提取网络层针对所述样本音频的损失值相加,得到所述目标损失值。
3.根据权利要求1所述的方法,其特征在于,所述根据各特征提取网络层所输出特征信息对应的样本声纹分类结果、所述样本音频对应的声纹标签、各特征提取网络层对应的目标计算量和预设的损失函数,分别计算得到各特征提取网络层针对所述样本音频的损失值之前,所述方法还包括:
获取为第1层至第i层特征提取网络层中各特征提取网络层所分别设定的计算量信息;所述计算量信息用于指示所对应特征提取网络层进行特征提取所需的计算量;其中,1≤i≤N,i为正整数,N为声纹识别模型中特征提取网络层的总层数;
将第1层至第i层特征提取网络层中全部特征提取网络层所分别对应的计算量相加,得到所述第i层特征提取网络层对应的目标计算量。
4.一种声纹识别方法,其特征在于,包括:
获取待识别的目标音频;
将声纹识别模型中的首层特征提取网络层作为目标特征提取网络层,将所述目标音频作为目标信息;所述声纹识别模型是按照如权利要求1-3中任一项所述的方法训练得到的;
由所述目标特征提取网络层对所述目标信息进行特征提取,得到所述目标特征提取网络层输出的特征信息;
由所述声纹识别模型中的分类层根据所述目标特征提取网络层输出的特征信息进行声纹分类,得到所述目标音频对应于各声纹类别的概率;
根据所述目标音频对应于各声纹类别的概率,确定最大概率;
若所述最大概率大于设定的概率阈值,则将所述最大概率对应的声纹类别作为所述目标音频的声纹识别结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标音频对应于各声纹类别的概率,确定最大概率之后,所述方法还包括:
若所述最大概率不大于所述概率阈值,则将所述目标特征提取网络层的下一层特征提取网络层作为新的目标特征提取网络层,将所述目标特征提取网络层所输出的特征信息作为新的目标信息,并返回执行所述由所述目标特征提取网络层对所述目标信息进行特征提取,得到所述目标特征提取网络层输出的特征信息的步骤,直至重新得到的最大概率大于所述概率阈值,或者所述新的目标特征提取网络层为所述声纹识别模型中的最后一层特征提取网络层。
6.根据权利要求5所述的方法,其特征在于,所述新的目标特征提取网络层为所述声纹识别模型中的最后一层特征提取网络层,所述方法还包括:
获取所述声纹识别模型中的最后一层特征提取网络层输出的特征信息;
由所述分类层对所述最后一层特征提取网络层输出的特征信息进行声纹分类,得到所述目标音频对应于各声纹类别的候选概率;
根据目标音频对应于各声纹类别的候选概率,确定最大候选概率;
将所述最大候选概率对应的声纹类别作为所述目标音频的声纹识别结果。
7.一种声纹识别模型的训练装置,其特征在于,包括:
样本获取模块,用于获取样本集,所述样本集包括多个样本音频和各所述样本音频对应的声纹标签;
特征提取模块,用于对于各样本音频,由所述声纹识别模型中的各特征提取网络层基于所述样本音频逐层进行特征提取,得到各特征提取网络层输出的特征信息;
声纹分类模块,用于由所述分类层分别根据各特征提取网络层输出的特征信息进行声纹分类,得到各特征提取网络层所输出特征信息对应的样本声纹分类结果;
损失值计算模块,用于根据各特征提取网络层所输出特征信息对应的样本声纹分类结果、所述样本音频对应的声纹标签、各特征提取网络层对应的目标计算量和预设的损失函数,分别计算得到各特征提取网络层针对所述样本音频的损失值;其中,一特征提取网络层对应的目标计算量等于所述特征提取网络层的计算量与所述特征提取网络层之前的特征提取网络层的计算量之和;
目标损失值计算模块,用于根据各特征提取网络层针对所述样本音频的损失值,计算得到目标损失值;
模型调整模块,用于根据所述目标损失值反向调整所述声纹识别模型的参数,直至达到模型训练结束条件。
8.一种声纹识别装置,其特征在于,包括:
目标音频获取模块,用于获取待识别的目标音频;
特征提取模块,用于将声纹识别模型中的首层特征提取网络层作为目标特征提取网络层,将所述目标音频作为目标信息;所述声纹识别模型是按照如权利要求1-3中任一项所述的方法训练得到的;
特征输出模块,用于由所述目标特征提取网络层对所述目标信息进行特征提取,得到所述目标特征提取网络层输出的特征信息;
声纹分类模块,用于由所述声纹识别模型中的分类层根据所述目标特征提取网络层输出的特征信息进行声纹分类,得到所述目标音频对应于各声纹类别的概率;
最大概率确定模块,用于根据所述目标音频对应于各声纹类别的概率,确定最大概率;
声纹识别模块,用于若所述最大概率大于设定的概率阈值,则将所述最大概率对应的声纹类别作为所述目标音频的声纹识别结果。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1-6中任一项所述的方法。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-6中任一项所述的方法。
CN202210173743.3A 2022-02-24 2022-02-24 声纹识别模型的训练方法、声纹识别方法及相关设备 Pending CN114822562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210173743.3A CN114822562A (zh) 2022-02-24 2022-02-24 声纹识别模型的训练方法、声纹识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210173743.3A CN114822562A (zh) 2022-02-24 2022-02-24 声纹识别模型的训练方法、声纹识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN114822562A true CN114822562A (zh) 2022-07-29

Family

ID=82527173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210173743.3A Pending CN114822562A (zh) 2022-02-24 2022-02-24 声纹识别模型的训练方法、声纹识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN114822562A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189687A (zh) * 2023-04-27 2023-05-30 北京远鉴信息技术有限公司 一种声纹识别方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189687A (zh) * 2023-04-27 2023-05-30 北京远鉴信息技术有限公司 一种声纹识别方法、装置、电子设备及存储介质
CN116189687B (zh) * 2023-04-27 2023-07-21 北京远鉴信息技术有限公司 一种声纹识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112069319B (zh) 文本抽取方法、装置、计算机设备和可读存储介质
CN110728313B (zh) 一种用于意图分类识别的分类模型训练方法及装置
CN116663568B (zh) 基于优先级的关键任务识别***及其方法
EP3726435A1 (en) Deep neural network training method and apparatus, and computer device
CN113705628B (zh) 预训练模型的确定方法、装置、电子设备以及存储介质
CN111444956A (zh) 低负载信息预测方法、装置、计算机***及可读存储介质
CN113239702A (zh) 意图识别方法、装置、电子设备
CN115457982A (zh) 情感预测模型的预训练优化方法、装置、设备及介质
CN115761839A (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置
CN111160049A (zh) 文本翻译方法、装置、机器翻译***和存储介质
CN114822562A (zh) 声纹识别模型的训练方法、声纹识别方法及相关设备
CN113220828B (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
CN110889290B (zh) 文本编码方法和设备、文本编码有效性检验方法和设备
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
CN114036306B (zh) 模型训练方法、装置、计算机设备及计算机可读存储介质
CN116092101A (zh) 训练方法、图像识别方法、装置、设备及可读存储介质
CN113722477B (zh) 基于多任务学习的网民情绪识别方法、***及电子设备
CN115278757A (zh) 一种检测异常数据的方法、装置及电子设备
CN115455142A (zh) 文本检索方法、计算机设备和存储介质
CN115423091A (zh) 一种条件对抗神经网络训练方法、场景生成方法和***
CN111178630A (zh) 一种负荷预测方法及装置
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN110569331A (zh) 一种基于上下文的关联性预测方法、装置及存储设备
CN113408780B (zh) 汽车未来保值率预测方法、***、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination