CN110197664B - 基于fmcw与特征表达迁移的声道用户验证方法及*** - Google Patents
基于fmcw与特征表达迁移的声道用户验证方法及*** Download PDFInfo
- Publication number
- CN110197664B CN110197664B CN201910586991.9A CN201910586991A CN110197664B CN 110197664 B CN110197664 B CN 110197664B CN 201910586991 A CN201910586991 A CN 201910586991A CN 110197664 B CN110197664 B CN 110197664B
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- sound channel
- user
- authentication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013508 migration Methods 0.000 title claims abstract description 15
- 230000005012 migration Effects 0.000 title claims abstract description 15
- 238000012795 verification Methods 0.000 title claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000001755 vocal effect Effects 0.000 claims description 23
- 239000012071 phase Substances 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 239000012073 inactive phase Substances 0.000 claims description 7
- 239000012072 active phase Substances 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005654 stationary process Effects 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种基于FMCW与特征表达迁移的声道用户验证方法,通过FMCW技术采集包含声道行为特征的调制语音信号,经预处理和特征提取后得到包含声道行为特征的频差序列,再由编解码神经网络将包含声道行为特征的频差序列迁移至语音特征并通过构建用户认证模型实现声道用户的注册和认证。本发明直接采用基于语音声纹的用户认证模型,其只需要少量的数据去取得令人满意的性能。
Description
技术领域
本发明涉及的是一种信息安全领域的技术,具体是一种基于调频连续波(FMCW)与特征表达迁移的声道用户认证方法及***。
背景技术
随着用户隐私信息在移动设备中的存储量的增加,用于移动设备的用户认证***吸引了越来越多人的注意力。已有的基于指纹、面部识别等技术的移动用户认证已经被广泛地部署在移动设备上。然而这些方法已经被证明会受到重播攻击,即使用***或提前录制的视频/图片等方式进行攻击。同时,这些方法也易受到周围环境的影响,如手指的状态,周围环境光的影响。作为一种自然且广泛存在的行为,说话行为被开发用于用户认证应用,并且近来得到了快速的发展。已有的基于说话行为的用户认证或利用语音中的声纹,或利用说话时的嘴部运动行为来提取用户的特异特征。然而这些方法都易受到监听与重播攻击。
发明内容
本发明针对现有基于说话行为的用户认证对监听与重播攻击的不足,提出一种基于FMCW与特征表达迁移的声道用户验证方法及***,将FMCW建模的声道行为特征迁移至语音的MFCC特征,从而直接采用基于语音声纹的用户认证模型,其只需要少量的数据去取得令人满意的性能。
本发明是通过以下技术方案实现的:
本发明涉及一种基于FMCW与特征表达迁移的声道用户验证方法,通过FMCW技术采集包含声道行为特征的调制语音信号,经预处理和特征提取后得到包含声道行为特征的频差序列,再由编解码神经网络将包含声道行为特征的频差序列迁移至语音特征并通过构建用户认证模型实现声道用户的注册和认证。
本发明涉及一种实现上述方法的***,包括:载波模块、信号采集模块、特征迁移模块以及语音认证模块,其中:载波模块针对声道并发射无线载波,信号采集模块接收无线载波调制后包含声道行为特征的调制语音信号,经预处理和特征提取后将声道行为特征输出至特征迁移模块,特征迁移模块将迁移后的语音特征输出至语音认证模块,语音认证模块根据语音特征进行用户注册及认证。
技术效果
与现有技术相比,本发明拓展了FMCW技术在距离测量上的应用,获得人说话时声道行为变化的特异模式,并进一步用于用户认证。基于迁移学习的方法主要作用是将FMCW建模出的声道行为特征迁移为语音的梅尔倒谱系数(MFCC)特征,从而直接利用成熟的基于语音特征的模型来进行用户认证。
附图说明
图1为本发明***示意图;
图2为FMCW技术示意图;
图3为信号分段示意图;
图4为绝对距离-相对距离转换示意图;
图5为编解码神经网络示意图;
图6为本发明总体性能示意图;
图7为本发明攻击抵御性能示意图;
图8为本发明用户体验性能示意图;
图9为本发明成功登录所需的说话次数示意图。
具体实施方式
如图1所示,本实施例具体实施过程包括:注册阶段与登录阶段。
①注册阶段:
1.1)用户在安静环境中口述预定义口令数次,同时用于注册的移动终端通过扬声器不断发出FMCW信号作为载波信号,并用麦克风接收由环境中各种物体反射的声波信号作为调制语音信号。
1.2)对接收到的声波信号进行预处理并取得说话状态信号,使用FMCW方法解调说话状态信号并从中提取出认证者的声道行为特征。
1.3)通过编解码神经网络将声道行为特征迁移至语音特征。
1.4)利用基于语音的用户认证模型构建用户认证模型以识别不同用户。
②登录阶段:
2.1)发射相同的FMCW信号并接收登录者口述口令的声波信号。
2.2)对声波信号进行预处理并提取出登录者的声道行为特征,经迁移至语音特征后输入至训练后的用户认证模型从而确认登录者身份。
如图2所示,本实施例中所采用的设计的FMCW信号为线性锯齿波,其参数包括锯齿波的频带和周期。
锯齿波的周期设计与人说话的时间相关。通常,一个人说话在一个大约20ms的短时间内被看作是一个静止过程。为了捕获这样一个静止过程,本实施例中设置锯齿波的周期为20ms。另一方面,锯齿波频段的设计则与声波感知所需的解析度有关。根据傅立叶转换理论,由声道反射的两个锯齿波被分离开当且仅当Δf>1/τ,其中:Δf是两个锯齿波的频差,τ是一个锯齿波的周期。基于FMCW原理可得其中:d是声道与移动终端之间的距离,B是锯齿波的频带,c是声波的传播速度。结合上式可得即频带越宽,FMCW能够取得的解析度越宽。同时,由于大部分人都无法听到16kHz以上的声音且移动设备上的声波装置一般只能取得48kHz的采样率,因此,本实施例中设置锯齿波的频带为16~24kHz。
如图3所示,所述的预处理是指:由于人说话的过程不是一个连续的过程,其中:会包含一个非激活阶段(不说话状态)在两个激活阶段之间。这样一个非激活阶段通常在300ms左右。鉴于在说话过程中频率在0.3~5kHz的语音信号在激活阶段和非激活阶段显示出明显的不同,本实施例利用在接收信号上计算移动方差来确定某个信号段是否处于激活阶段,即移动方差非零的信号段对应为激活阶段,移动方差为零的信号段对应为非激活阶段。
当区分激活和非激活阶段后,采用5kHz的低通滤波器和16kHz的高通滤波器来提取出语音信号和感知声道行为的锯齿波信号。
所述的包含声道行为特征的频差序列是指:利用FMCW技术从发射信号与接收信号的频差来测量出信号传播时间,进而计算出距离信息用于建模声道行为特征,具体包括:利用dechirp操作计算发射信号与接收信号的频差Δf,然后利用三角形相似性计算信号传播时间,即最后利用声波传播速度得到移动终端与声道的距离
由于该距离是移动终端到声道的绝对距离,因此一个稳定的模型需要用户每次使用时都保持一样的相对位置。本实施例中进一步将绝对距离转换为相对距离来松弛该要求:如图4所示,声道中任意两点A和B,本实施例中利用余弦定理得到由于移动终端与声道的距离通常比声道内两点的距离大很多,上述公式可松弛为 说明相对距离与声道中两点的距离是一一对应的,即相对距离描述声道行为的性质。因此本实施例中通过移动方差寻找非零元素,其对应到声道运动的信号部分,然后将所有的绝对距离减去拥有非零元素的最小绝对距离获得相对距离,最终得到包含声道行为特征的频差序列。
所述的频差序列优选采用编解码神经网络(EDNN)迁移至语音的梅尔倒谱系数(MFCC)特征,以便于采用成熟的基于语音的用户认证模型。
如图5所示,所述的编解码神经网络(EDNN)包括:两个卷积编码器和两个逆卷积解码器,其中:卷积编码器由卷积层和池化层构成,其先将输入的特征抽象为一些压缩表达的块,再由池化层进一步降低每个块内的特征维度;逆卷积解码器由逆池化层和逆卷积层构成,其分别执行池化层和卷积层的逆操作以重构特征,具体为:第一卷积编码器通过32个3*3维的卷积核将频差序列F抽象到声道级特征F’,第二卷积编码器通过64个3*3维的卷积核将声道级特征F’压缩到用户层特征U,第一逆卷积解码器通过64个3*3维的逆卷积核重构用户相关的语音特征M’,第二逆卷积解码器通过32个3*3维的逆卷积核来重构MFCC特征Mp。
所述的卷积编码器均采用ReLU激活函数以及2*2维的池化滤波器。
所述的EDNN模型的训练是指:对函数minDIF(M,Mp)=min||M-Mp||2+λΩweight进行优化,其中:Mp是EDNN迁移后的MFCC特征,M是输入的用户语音MFCC特征,‖·‖2是L2范数,Ωweight是参数的L2规范子,λ是Ωweight的系数,训练后的EDNN用于将迁移频差序列迁移为MFCC特征。
本实施例根据迁移后的MFCC特征,采用高斯混合模型-通用背景模型(GMM-UBM)建立用户认证模型,并应用该模型于用户认证与攻击者检测。
本实施例通过三个移动终端(三星S6,小米6,华为P10)上分别实施上述方法,具体为:设置移动终端的麦克风采样率设置为48kHz。实验在三个环境中执行,即实验室,餐厅,超市。在每个环境中,以10位志愿者vs2位攻击者。在每个实验中,每位志愿者随机挑选一个移动终端,并将麦克风正对着声道说话。设置移动终端到声道的距离在3~20cm之间,通过预定义6个口令用于注册和登录。10位合法用户分别说每个口令3次用于注册;所有志愿者在登录阶段说20次测试登录成功情况。
本实施例中首先比较本方法和已有的基于嘴部运动的用户认证(LipPass)和基于声纹的用户认证(微信)在3个环境下的性能不同。如图6所示,为用户认证的性能比较情况,可见本方法在实验室中的用户认证准确率高达93.8%,其与基于嘴部运动(92.8%)和基于声纹(94%)的用户认证相似。同时,本方法在3个不同环境下的性能差距很小,这远远超越了微信用户认证的性能表现。这意味着本方法在不同环境中取得很好的性能表现。
接着本实施例验证了本方法与其他用户认证方式在不同攻击场景下的表现情况。本实施例中设计了三种攻击方式:监听与重播攻击、合成攻击以及模仿攻击,其中监听与重播攻击是指一个攻击者提前录下用户的嘴部运动以及语音信号通过捕捉全向传播的声信号,然后向目标设备播放来攻击;合成攻击是指攻击者提前录下用户的语音信号,通过语音合成器生成一段拥有用户说话特征和特定内容的语音用于攻击;模仿攻击是指攻击者提前录下用户说话时的影像,然后模仿其说话方式来进行攻击。
本实施例比较了本方法与LipPass和微信在这三种攻击下的性能表现。如图7所示,为三种方式在不同攻击的错误接受率。可见本方法在三种攻击下的成功率均小于10%。而对于LipPass而言,监听与重播攻击能够达到57.3%的成功率。而对于微信来说,攻击的成功率更高了:对于监听与重播攻击还有合成攻击,其成功率都在60%以上。这说明本方法在攻击抵御方面远胜于已有的方法。
本实施例进一步衡量本方法的用户体验情况。如图8所示,为本方法的错误拒绝率。观察到在三个不同的环境中,其总体错误拒绝率均小于2%。在实验室环境中,本方法进一步在不同移动终端下均取得小于1%的错误拒绝率。该结果说明本方法能够提供一个很小的错误拒绝率并提供较好的用户体验。如图9所示,为本方法为了一次成功的登录用户所需的说话次数的累积概率分布(CDF)。观察到约82.7%的用户一次性登录成功,不需要多余的说话次数。同时,总体而言,超过95%的用户只需要说3次以内即可登录成功。该结果进一步的证明了本方法良好的用户体验。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (9)
1.一种基于FMCW与特征表达迁移的声道用户验证方法,其特征在于,通过FMCW技术采集包含声道行为特征的调制语音信号,经预处理和特征提取后得到包含声道行为特征的频差序列,再由编解码神经网络将包含声道行为特征的频差序列迁移至语音特征并通过构建用户认证模型实现声道用户的注册和认证;
所述的编解码神经网络包括:两个卷积编码器和两个逆卷积解码器,其中:卷积编码器由卷积层和池化层构成,其先将输入的特征抽象为一些压缩表达的块,再由池化层进一步降低每个块内的特征维度;逆卷积解码器由逆池化层和逆卷积层构成,其分别执行池化层和卷积层的逆操作以重构特征;
所述的频差序列采用编解码神经网络迁移至语音的梅尔倒谱系数;
2.根据权利要求1所述的验证方法,其特征是,所述的两个卷积编码器中的第一卷积编码器通过32个3*3维的卷积核将频差序列F抽象到声道级特征F’,第二卷积编码器通过64个3*3维的卷积核将声道级特征F’压缩到用户层特征U;
所述的两个逆卷积解码器中的第一逆卷积解码器通过64个3*3维的逆卷积核重构用户相关的语音特征M’,第二逆卷积解码器通过32个3*3维的逆卷积核来重构MFCC特征Mp。
3.根据权利要求1所述的验证方法,其特征是,所述的FMCW技术的发射信号为线性锯齿波,其参数包括锯齿波的频带和周期。
4.根据权利要求3所述的验证方法,其特征是,所述的频带为16~24kHz。
5.根据权利要求1所述的验证方法,其特征是,所述的预处理,利用在接收信号上计算移动方差的方式确定任一信号段是否处于激活阶段,即移动方差非零的信号段对应为激活阶段,移动方差为零的信号段对应为非激活阶段;
所述的信号段长度为300ms;
所述的激活阶段的信号段的频率为0.3~5kHz。
6.根据权利要求5所述的验证方法,其特征是,当区分激活和非激活阶段后,采用5kHz的低通滤波器和16kHz的高通滤波器来提取出语音信号和感知声道行为的锯齿波信号。
8.根据权利要求1所述的验证方法,其特征是,根据迁移后的MFCC特征,采用高斯混合模型-通用背景模型建立用户认证模型,并应用该模型于用户认证与攻击者检测。
9.一种实现权利要求1~8中任一所述方法的***,其特征在于,包括:载波模块、信号采集模块、特征迁移模块以及语音认证模块,其中:载波模块针对声道并发射无线载波,信号采集模块接收无线载波调制后包含声道行为特征的调制语音信号,经预处理和特征提取后将声道行为特征输出至特征迁移模块,特征迁移模块将迁移后的语音特征输出至语音认证模块,语音认证模块根据语音特征进行用户注册及认证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910586991.9A CN110197664B (zh) | 2019-07-02 | 2019-07-02 | 基于fmcw与特征表达迁移的声道用户验证方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910586991.9A CN110197664B (zh) | 2019-07-02 | 2019-07-02 | 基于fmcw与特征表达迁移的声道用户验证方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110197664A CN110197664A (zh) | 2019-09-03 |
CN110197664B true CN110197664B (zh) | 2020-01-21 |
Family
ID=67755660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910586991.9A Active CN110197664B (zh) | 2019-07-02 | 2019-07-02 | 基于fmcw与特征表达迁移的声道用户验证方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110197664B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1976327A1 (en) * | 2007-03-27 | 2008-10-01 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | Sensor system |
CN102221687A (zh) * | 2011-05-30 | 2011-10-19 | 北京理工大学 | 一种调频连续波引信定距***的差频信号频率检测方法 |
CN104237881A (zh) * | 2014-09-23 | 2014-12-24 | 南京理工大学 | Fmcw防碰撞雷达多目标检测与跟踪***及方法 |
CN108293172A (zh) * | 2015-10-08 | 2018-07-17 | 波尔特公司 | 用于追踪对象的到达角度定位*** |
CN109001720A (zh) * | 2017-05-30 | 2018-12-14 | 恩智浦有限公司 | 用于检测和测距的设备 |
CN109212499A (zh) * | 2017-07-07 | 2019-01-15 | 英飞凌科技股份有限公司 | 使用雷达传感器识别目标的***和方法 |
-
2019
- 2019-07-02 CN CN201910586991.9A patent/CN110197664B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1976327A1 (en) * | 2007-03-27 | 2008-10-01 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | Sensor system |
CN102221687A (zh) * | 2011-05-30 | 2011-10-19 | 北京理工大学 | 一种调频连续波引信定距***的差频信号频率检测方法 |
CN104237881A (zh) * | 2014-09-23 | 2014-12-24 | 南京理工大学 | Fmcw防碰撞雷达多目标检测与跟踪***及方法 |
CN108293172A (zh) * | 2015-10-08 | 2018-07-17 | 波尔特公司 | 用于追踪对象的到达角度定位*** |
CN109001720A (zh) * | 2017-05-30 | 2018-12-14 | 恩智浦有限公司 | 用于检测和测距的设备 |
CN109212499A (zh) * | 2017-07-07 | 2019-01-15 | 英飞凌科技股份有限公司 | 使用雷达传感器识别目标的***和方法 |
Non-Patent Citations (1)
Title |
---|
Detection and segmentation of fmcw radar signals based on the chirplet transform;Fabien Millioz et al.;《ICASSP 2011》;20110712;第1765-1768页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110197664A (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10373609B2 (en) | Voice recognition method and apparatus | |
Du et al. | Sirenattack: Generating adversarial audio for end-to-end acoustic systems | |
Hasan et al. | Speaker identification using mel frequency cepstral coefficients | |
Wang et al. | Secure your voice: An oral airflow-based continuous liveness detection for voice assistants | |
CN113488058B (zh) | 一种基于短语音的声纹识别方法 | |
US6990446B1 (en) | Method and apparatus using spectral addition for speaker recognition | |
CN105825857A (zh) | 基于声纹识别帮助失聪患者判断声音类别的方法 | |
CN109448732B (zh) | 一种数字串语音处理方法及装置 | |
Ahmed et al. | Towards more robust keyword spotting for voice assistants | |
CN110363148A (zh) | 一种人脸声纹特征融合验证的方法 | |
Luo et al. | PhyAug: Physics-directed data augmentation for deep sensing model transfer in cyber-physical systems | |
Guo et al. | Supervoice: Text-independent speaker verification using ultrasound energy in human speech | |
CN113823303A (zh) | 音频降噪方法、装置及计算机可读存储介质 | |
US20230395094A1 (en) | Speech processing method, computer storage medium, and electronic device | |
Chen et al. | Push the limit of adversarial example attack on speaker recognition in physical domain | |
CN110197664B (zh) | 基于fmcw与特征表达迁移的声道用户验证方法及*** | |
Isyanto et al. | Voice biometrics for Indonesian language users using algorithm of deep learning CNN residual and hybrid of DWT-MFCC extraction features | |
WO2018001125A1 (zh) | 一种音频识别方法和装置 | |
Nagaraja et al. | VoIPLoc: passive VoIP call provenance via acoustic side-channels | |
CN116978359A (zh) | 音素识别方法、装置、电子设备及存储介质 | |
Khaing et al. | Myanmar continuous speech recognition system based on DTW and HMM | |
CN104715756A (zh) | 音频数据的处理方法及装置 | |
Zhang et al. | Deep scattering spectra with deep neural networks for acoustic scene classification tasks | |
García-Navas et al. | A new system to detect coronavirus social distance violation | |
Hokking et al. | Speech recognition of different sampling rates using fractal code descriptor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |