CN106448685A - 一种基于音素信息的声纹认证***及方法 - Google Patents

一种基于音素信息的声纹认证***及方法 Download PDF

Info

Publication number
CN106448685A
CN106448685A CN201610880776.6A CN201610880776A CN106448685A CN 106448685 A CN106448685 A CN 106448685A CN 201610880776 A CN201610880776 A CN 201610880776A CN 106448685 A CN106448685 A CN 106448685A
Authority
CN
China
Prior art keywords
phoneme
numeric string
information
module
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610880776.6A
Other languages
English (en)
Other versions
CN106448685B (zh
Inventor
郑榕
张策
王黎明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanjian Information Technology Co Ltd
Original Assignee
Beijing Yuanjian Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanjian Technologies Co ltd filed Critical Beijing Yuanjian Technologies Co ltd
Priority to CN201610880776.6A priority Critical patent/CN106448685B/zh
Publication of CN106448685A publication Critical patent/CN106448685A/zh
Application granted granted Critical
Publication of CN106448685B publication Critical patent/CN106448685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于音素信息的声纹认证***及方法,***包括基于汉语普通话语音识别器的音素强制对齐模块、音素相关的模型创建模块和基于dropout策略的神经网络分类器模块;方法包括定义汉语普通话数字串声纹的十六个音素类别,显式利用数字串的各个发音类别信息;基于汉语普通话语音识别器,采用维特比强制对齐算法获取每个对应数字串文本内容的音素边界;采用文本无关算法建立音素相关模型;计算音素相关模型,得到分数向量。本发明的有益效果:本发明在实现音素信息切分、音素建模和音素相关模型区分能力分析的同时,提出了采用dropout策略的神经网络训练方法,解决了数字串音素缺失的问题,并提高了数字串声纹认证***的性能。

Description

一种基于音素信息的声纹认证***及方法
技术领域
本发明涉及声纹认证***技术领域,具体来说,涉及一种基于音素信息的声纹认证***及方法。
背景技术
生物特征识别是一种根据人体自身所固有的生理特征和行为特征来识别身份的技术,具有不易遗忘、防伪性能好、不易伪造或被盗、随身具备和随时随地可用等优点。随着互联网快速发展,传统身份认证技术手段越来越无法满足用户使用体验和安全能力的需求。简单易用的声纹识别技术,由于其阔的应用前景、巨大的社会效益和经济效益,已引起各行各业的广泛关注和高度重视。
声纹识别,又称说话人识别,是生物识别技术的一种。该技术通过语音波形中反映说话人生理和行为特征的语音参数,进而分辨出说话人身份。具有安全性高、数据采集方便等特点。
近年来,文本相关(Text-dependent)的说话人识别成为用户认证领域的热点。由于文本无关(Text-independent)说话人识别领域的重大进展,很多研究人员尝试将文本无关说话人识别算法应用到文本相关领域,例如数字串声纹识别。
在数字串认证条件下,有研究人员使用联合因子分析(Joint Factor Analysis,JFA)、高斯混合模型-干扰属性映射(Gaussian Mixture Model-Nuisance AttributeProjection,GMM-NAP)和隐马尔科夫模型-干扰属性映射(Hidden Markov Model-NuisanceAttribute Projection,HMM-NAP)进行比较。相比JFA而言,基于NAP的算法表现更好,原因在于训练JFA需要大量的带标记数据,而JFA矩阵的训练数据和数字串测试数据之间存在失配。
在文本无关说话人识别中,JFA和基于概率线性判别分析(Probabilistic LinearDiscriminant Analysis,PLDA)的总体方差建模因子(iVector)算法均依赖于大量的开发集数据。越来越多的工作致力于处理受限的领域内开发集数据向领域外应用数据的迁移问题,例如词汇差异的自适应和补偿算法。
通过安卓***(Android)和苹果***(iOS)的手机,录制并构造了包含536人的数字串语音集合。分为两种场景:global条件和rand-n条件。global条件表示注册和验证采用完全相同的数字串内容;rand-n条件表示每个数字串语音是长度为n的随机数字串,这在某些防录音攻击的应用***中比global条件更为安全。本发明中涉及如表1所示的三种注册/认证条件:固定全部数字密码、动态8位数字密码和动态6位数字密码。每种场景划分开发集和评测集。开发集用于训练全局背景模型(Universal Background Model,UBM)、总体方差建模矩阵(iVector T matrix)和线性区分分析矩阵(Linear Discriminant Analysis,LDA)等等。评测集的三种条件中,每人包含三条注册语音和一条测试语音,每条测试语音与所有说话人模型进行比对。
表1:密码数字的几种形式示例
表2为GMM-NAP和采用iVector的声纹认证***的等错误率(Equal Error Rate,EER)对比。结果表明,随着数字串长度的增加,声纹认证***的性能得到了明显地一致地提升。但GMM-NAP和iVector***均没有考虑音素(Phone/Phoneme)信息的利用,是基于文本无关声纹识别在文本相关场景下的直接应用。数字串声纹应用中,忽略音素信息或者没有音素信息的有效利用,将会限制文本无关识别算法在实际应用中的效果。
表2:GMM-NAP和iVector***在不同测试条件下的等错误率对比
固定全部数字密码 动态8位数字密码 动态6位数字密码
GMM-NAP 2.09% 2.64% 3.76%
iVector 1.87% 2.40% 3.32%
发明内容
本发明的目的在于提出一种基于音素信息的声纹认证***及方法,能够在实现音素信息切分、音素建模和音素相关(Phone-dependent)模型区分能力分析的同时,解决了数字串音素缺失的问题,并提高了数字串声纹认证***的性能。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于音素信息的声纹认证***,包括基于汉语普通话语音识别器的音素强制对齐模块、音素相关的模型创建模块和基于dropout策略的神经网络分类器模块;
所述基于汉语普通话语音识别器的音素强制对齐模块用于对数字串的十六个音素类别进行切分;
所述音素相关的模型创建模块用于建立音素相关模型,并分析每个音素相关模型对声纹认证的区分能力,刻画了说话人的区分特点,而不是词汇之间差异;
所述基于dropout策略的神经网络分类器模块用于融合音素相关模型的互补信息。
一种基于音素信息的声纹认证方法,包括如下步骤:
S01:定义汉语普通话数字串声纹的十六个音素类别,显式利用数字串的各个发音类别信息;
S02:基于汉语普通话语音识别器,采用维特比强制对齐算法获取每个对应数字串文本内容的音素边界,完成对语音内容的音素切分,即语音特征向量到音素的映射关系,得到属于音素的特征向量子集合,每个特征子集合可看作是独立的数据流进行后续处理;
S03:采用文本无关算法建立音素相关模型,音素相关的模型建立过程降低了每个音素相关模型的参数量,避免模型过训练;
S04:计算音素相关模型,得到分数向量。
进一步的,步骤S04中采用神经网络算法中的dropout策略训练后端融合分类器。
本发明的有益效果:
(1)本发明采用基于典型的汉语普通话语音识别器,采用维特比强制对齐算法获取每个对应数字串文本内容的音素边界,完成对语音内容的音素切分,相比于通常的基于动态时间规整(Dynamic Time Warping,DTW)等算法的切分效果更有优势;
(2)本发明对汉语普通话的数字串发音定义了十六个发音类别,避免所属音素类特征向量过少引起的模型过训练问题,建立了音素相关模型,并分析每个音素相关模型对声纹认证的区分能力,音素相关模型刻画了说话人的区分特点,而非词汇之间的差异;
(3)为了进一步提高音素相关模型的信息利用效果,并考虑到实际应用中认证语音只包含音素集合的部分内容,可能存在向量维度缺失的问题,采用dropout策略训练神经网络后端分类器,实现音素相关分数向量的融合判决,并明显提升了声纹认证的***性能。
附图说明
图1是本发明中基于音素相关的分数向量的后端分类器处理流程图;
图2是本发明中针对不同音素相关模型的等错误率的实验结果图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出将音素信息显式利用与神经网络分类相结合的数字串声纹认证方法,对于每条数字串语音,利用汉语普通话语音识别器的维特比强制对齐算法完成对语音内容的音素切分;降低音素相关模型的训练参数量,避免每个音素模型的训练语音特征较少可能引起的过训练问题,分析每个音素模型对声纹识别的区分能力;对音素相关模型的分数向量可能存在维数缺失的问题,采用神经网络算法中的dropout策略训练后端融合分类器,提高了音素相关信息的利用效果,进一步提升了数字串声纹认证的***性能。
表3给出了十个汉语普通话数字发音的音素表示。注意到,数字“1”有“y i”和“yao”两种发音,因此对应十个汉语普通话数字发音共有十六个音素。
表3:十个数字的汉语普通话发音音素
“固定全部数字密码”条件中,音素内容固定不变。“动态8位数字密码”和“动态6位数字密码”的音素内容也是已知的,因为数字文本通常基于后台***的随机算法推送或基于OTP动态口令(One-time Password)根据专门的算法生成。
基于汉语普通话语音识别***,采用维特比强制对齐算法获取每个对应文本内容的音素边界,完成对语音内容的音素切分,即语音特征向量到音素的映射。
因此,给定一段数字串语音的声学特征向量序列χ=x1,...,xT,可切分成离散的子集合χ1,...,χ16。其中x∈χi表示属于第i个音素的特征向量子集合。每个子集合可看作是独立的数据流进行后续处理。声纹注册阶段,十六个音素相关的模型(说话人s的第i个音素子集合)通过文本无关算法训练得到。需要说明的是,注册语音需要覆盖十个数字。本发明中,注册阶段使用三条数字串注册语音,保证每个人的注册语音中每个数字至少出现一遍。
声纹认证过程中,针对“固定全部数字密码”条件,获取十六维的分数向量ξ,可通过对分数向量ξ取平均值或者逻辑回归等方法训练后端分类器进行判决。然而对于“动态8位数字密码”和“动态6位数字密码”等rand-n条件,分数向量ξ可能存在缺失,因为测试语音只包含音素集合的部分内容。为了解决该问题,采用神经网络算法中的dropout策略,这是一种有效提升泛化能力的实现方法。
神经网络的dropout训练算法是标准的随机梯度下降(Standard StochasticGradient Descent),只是在前向计算过程中以一定概率γ随机忽略某些输入单元和隐层单元。只有激活单元参与反向传播(Back-propagation)和梯度计算。因为dropout并不用于识别,在训练过程中,对每层的输出进行重新调整:
其中δ(·),Wl和bl分别是激活函数,第l层的权重和第l层的偏置。bm是二元掩码(Binary mask)表示哪些维被剔除了,*表示向量乘法。
上述过程可看成一种有效的模型平均方法,即通过训练大量的共享权重的缺失向量得到的不同网络的平均表示。如图1所示,训练包含一个隐层的神经网络分类器。其中输入是分数向量,输出包含两个单元,分别代表目标认证类别和冒仿认证类别。针对“动态8位数字密码”和“动态6位数字密码”等rand-n条件下的向量维数缺失问题,对输入层以概率γ应用dropout策略进行网络训练。在验证阶段,计算如下的对数似然比作为***输出:
其中p(ξ|目标验证类)和p(ξ|冒仿验证类)是分数向量ξ的似然度。通过贝叶斯公式,似然度可转换为后验表示,
p(ξ|目标验证类)=p(目标验证类|ξ)p(ξ)/p(目标验证类)
p(ξ|冒仿验证类)=p(冒仿验证类|ξ)p(ξ)/p(冒仿验证类)
其中p(目标验证类|ξ)和p(冒仿验证类|ξ)是分数向量ξ通过网络前向计算得到的后验。p(目标验证类)和p(冒仿验证类)是从训练集合估计得到的目标验证类的先验和冒仿验证类的先验。p(ξ)与任何模型无关,可以在计算LLR过程中忽略。
首先分析每个音素模型对声纹识别的区分能力。考虑到每个音素模型的训练语音特征较少,为了避免过训练问题,减少了每个音素相关模型的训练参数量。图2给出了每个音素相关模型的等错误率对比。
从图2中可以看出,首先,在所有音素相关模型中,iVector都以较小幅度优于GMM-NAP模型。其次,性能最差的辅音“w”的EER数值是性能最好的元音“an”的EER的五倍左右。这个实验结果对实际应用具有指导作用,在线***可以限制推送性能不好的数字,例如“5[wu]”。
通过训练dropout神经网络后端分类器,对音素相关的分数向量进行融合输出。表4给出了音素相关模型使用不同后端分类器的等错误率对比。为了方便比较,这里也给出了对GMM-NAP和iVector***的音素相关分数取平均值的认证性能。分数平均公式如下:
表4:音素相关模型使用不同后端分类器的等错误率对比
从表4可以看出,本发明所述的基于音素信息显式利用和神经网络后端融合的算法可以有效的提升数字串声纹认证的***性能。相比于分数平均的结果,神经网络后端分类器的等错误率更低,性能更优。与表2的GMM-NAP和iVector结果对比,在三种不同注册/认证条件下,音素相关模型和神经网络后端分类器的算法均取得了约20%左右的相对EER下降。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于音素信息的声纹认证***,其特征在于,包括基于汉语普通话语音识别器的音素强制对齐模块、音素相关的模型创建模块和基于dropout策略的神经网络分类器模块;
所述基于汉语普通话语音识别器的音素强制对齐模块用于对数字串的十六个音素类别进行切分;
所述音素相关的模型创建模块用于建立音素相关模型,并分析每个音素相关模型对声纹认证的区分能力;
所述基于dropout策略的神经网络分类器模块用于融合音素相关模型的互补信息。
2.一种基于音素信息的声纹认证方法,其特征在于,包括如下步骤:
S01:定义汉语普通话数字串声纹的十六个音素类别,显式利用数字串的各个发音类别信息;
S02:基于汉语普通话语音识别器,采用维特比强制对齐算法获取每个对应数字串文本内容的音素边界,完成对语音内容的音素切分,得到属于音素的特征向量子集合;
S03:采用文本无关算法建立音素相关模型;
S04:计算音素相关模型,得到分数向量。
3.根据权利要求2所述的基于音素信息的声纹认证方法,其特征在于,步骤S04中采用神经网络算法中的dropout策略训练后端融合分类器。
CN201610880776.6A 2016-10-09 2016-10-09 一种基于音素信息的声纹认证***及方法 Active CN106448685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610880776.6A CN106448685B (zh) 2016-10-09 2016-10-09 一种基于音素信息的声纹认证***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610880776.6A CN106448685B (zh) 2016-10-09 2016-10-09 一种基于音素信息的声纹认证***及方法

Publications (2)

Publication Number Publication Date
CN106448685A true CN106448685A (zh) 2017-02-22
CN106448685B CN106448685B (zh) 2019-11-22

Family

ID=58172115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610880776.6A Active CN106448685B (zh) 2016-10-09 2016-10-09 一种基于音素信息的声纹认证***及方法

Country Status (1)

Country Link
CN (1) CN106448685B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108198574A (zh) * 2017-12-29 2018-06-22 科大讯飞股份有限公司 变声检测方法及装置
CN108648760A (zh) * 2018-04-17 2018-10-12 四川长虹电器股份有限公司 实时声纹辨识***与方法
CN109065023A (zh) * 2018-08-23 2018-12-21 广州势必可赢网络科技有限公司 一种语音鉴定方法、装置、设备及计算机可读存储介质
CN110111798A (zh) * 2019-04-29 2019-08-09 平安科技(深圳)有限公司 一种识别说话人的方法及终端
CN110689895A (zh) * 2019-09-06 2020-01-14 北京捷通华声科技股份有限公司 语音校验方法、装置、电子设备及可读存储介质
CN110875044A (zh) * 2018-08-30 2020-03-10 中国科学院声学研究所 一种基于字相关得分计算的说话人识别方法
CN111243603A (zh) * 2020-01-09 2020-06-05 厦门快商通科技股份有限公司 声纹识别方法、***、移动终端及存储介质
CN111341320A (zh) * 2020-02-28 2020-06-26 中国工商银行股份有限公司 短语语音的声纹识别方法及装置
CN111785284A (zh) * 2020-08-19 2020-10-16 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN114093371A (zh) * 2021-10-11 2022-02-25 浙江大学 基于神经网络生成模型的音素级声纹识别对抗样本构造***和方法
CN114299921A (zh) * 2021-12-07 2022-04-08 浙江大学 一种语音指令的声纹安全性评分方法和***
CN115831120A (zh) * 2023-02-03 2023-03-21 北京探境科技有限公司 语料数据采集方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033041A1 (en) * 2004-07-12 2007-02-08 Norton Jeffrey W Method of identifying a person based upon voice analysis
CN101467204A (zh) * 2005-05-27 2009-06-24 普提克斯科技股份有限公司 用于生物计量声纹认证的方法和***
CN204465555U (zh) * 2015-04-14 2015-07-08 时代亿宝(北京)科技有限公司 基于时间型动态口令的声纹认证装置
CN104834849A (zh) * 2015-04-14 2015-08-12 时代亿宝(北京)科技有限公司 基于声纹识别和人脸识别的双因素身份认证方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033041A1 (en) * 2004-07-12 2007-02-08 Norton Jeffrey W Method of identifying a person based upon voice analysis
CN101467204A (zh) * 2005-05-27 2009-06-24 普提克斯科技股份有限公司 用于生物计量声纹认证的方法和***
CN204465555U (zh) * 2015-04-14 2015-07-08 时代亿宝(北京)科技有限公司 基于时间型动态口令的声纹认证装置
CN104834849A (zh) * 2015-04-14 2015-08-12 时代亿宝(北京)科技有限公司 基于声纹识别和人脸识别的双因素身份认证方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张涛涛: "语音声纹密码验证技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108198574B (zh) * 2017-12-29 2020-12-08 科大讯飞股份有限公司 变声检测方法及装置
CN108198574A (zh) * 2017-12-29 2018-06-22 科大讯飞股份有限公司 变声检测方法及装置
CN108648760A (zh) * 2018-04-17 2018-10-12 四川长虹电器股份有限公司 实时声纹辨识***与方法
CN109065023A (zh) * 2018-08-23 2018-12-21 广州势必可赢网络科技有限公司 一种语音鉴定方法、装置、设备及计算机可读存储介质
CN110875044A (zh) * 2018-08-30 2020-03-10 中国科学院声学研究所 一种基于字相关得分计算的说话人识别方法
CN110875044B (zh) * 2018-08-30 2022-05-03 中国科学院声学研究所 一种基于字相关得分计算的说话人识别方法
CN110111798A (zh) * 2019-04-29 2019-08-09 平安科技(深圳)有限公司 一种识别说话人的方法及终端
CN110111798B (zh) * 2019-04-29 2023-05-05 平安科技(深圳)有限公司 一种识别说话人的方法、终端及计算机可读存储介质
CN110689895A (zh) * 2019-09-06 2020-01-14 北京捷通华声科技股份有限公司 语音校验方法、装置、电子设备及可读存储介质
CN111243603A (zh) * 2020-01-09 2020-06-05 厦门快商通科技股份有限公司 声纹识别方法、***、移动终端及存储介质
CN111341320A (zh) * 2020-02-28 2020-06-26 中国工商银行股份有限公司 短语语音的声纹识别方法及装置
CN111341320B (zh) * 2020-02-28 2023-04-14 中国工商银行股份有限公司 短语语音的声纹识别方法及装置
CN111785284A (zh) * 2020-08-19 2020-10-16 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN111785284B (zh) * 2020-08-19 2024-04-30 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN114093371A (zh) * 2021-10-11 2022-02-25 浙江大学 基于神经网络生成模型的音素级声纹识别对抗样本构造***和方法
CN114299921A (zh) * 2021-12-07 2022-04-08 浙江大学 一种语音指令的声纹安全性评分方法和***
CN114299921B (zh) * 2021-12-07 2022-11-18 浙江大学 一种语音指令的声纹安全性评分方法和***
CN115831120A (zh) * 2023-02-03 2023-03-21 北京探境科技有限公司 语料数据采集方法、装置、电子设备及可读存储介质
CN115831120B (zh) * 2023-02-03 2023-06-16 北京探境科技有限公司 语料数据采集方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN106448685B (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN106448685A (zh) 一种基于音素信息的声纹认证***及方法
KR101995547B1 (ko) 화자 검증을 위한 신경망들
KR101870093B1 (ko) 성문 인증 처리 방법 및 장치
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
Gomez-Alanis et al. On joint optimization of automatic speaker verification and anti-spoofing in the embedding space
ES2605779T3 (es) Reconocimiento de orador
US9075977B2 (en) System for using spoken utterances to provide access to authorized humans and automated agents
TWI527023B (zh) A voiceprint recognition method and apparatus
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
US20170236520A1 (en) Generating Models for Text-Dependent Speaker Verification
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN104765996B (zh) 声纹密码认证方法及***
CN104240706B (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
Mansour et al. Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms
CN104462912B (zh) 改进的生物密码安全
Lopez-Otero et al. Analysis of gender and identity issues in depression detection on de-identified speech
Wang et al. A network model of speaker identification with new feature extraction methods and asymmetric BLSTM
Wang et al. Automatic detection of speaker state: Lexical, prosodic, and phonetic approaches to level-of-interest and intoxication classification
CN105280181A (zh) 一种语种识别模型的训练方法及语种识别方法
Safavi et al. Fraud detection in voice-based identity authentication applications and services
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
Folorunso et al. A review of voice-base person identification: state-of-the-art
Chen et al. Speech emotion classification using acoustic features
Li et al. Cost‐Sensitive Learning for Emotion Robust Speaker Recognition
US6499012B1 (en) Method and apparatus for hierarchical training of speech models for use in speaker verification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: East Zone 9A, 9th Floor, Building 1, No. 158 West Fourth Ring North Road, Haidian District, Beijing, 100142

Patentee after: Beijing Yuan Jian Polytron Technologies Inc.

Address before: East Zone 9A, 9th Floor, Building 1, No. 158 West Fourth Ring North Road, Haidian District, Beijing, 100142

Patentee before: Beijing Yuanjian Technologies Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231010

Address after: No. 016, Xiaocuigezhuang Village, Gaolou Town, Sanhe City, Langfang City, Hebei Province, 065200

Patentee after: Liu Xuefeng

Address before: East Zone 9A, 9th Floor, Building 1, No. 158 West Fourth Ring North Road, Haidian District, Beijing, 100142

Patentee before: Beijing Yuan Jian Polytron Technologies Inc.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240218

Address after: Room 320, 3rd Floor, Building A, No. 119 West Fourth Ring North Road, Haidian District, Beijing, 100000

Patentee after: Beijing Yuanjian Information Technology Co.,Ltd.

Country or region after: China

Address before: No. 016, Xiaocuigezhuang Village, Gaolou Town, Sanhe City, Langfang City, Hebei Province, 065200

Patentee before: Liu Xuefeng

Country or region before: China