CN112424860A - 重放攻击的检测 - Google Patents
重放攻击的检测 Download PDFInfo
- Publication number
- CN112424860A CN112424860A CN201980045601.5A CN201980045601A CN112424860A CN 112424860 A CN112424860 A CN 112424860A CN 201980045601 A CN201980045601 A CN 201980045601A CN 112424860 A CN112424860 A CN 112424860A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- spectrum
- speech
- identified
- amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title description 4
- 230000005236 sound signal Effects 0.000 claims abstract description 238
- 238000001228 spectrum Methods 0.000 claims abstract description 168
- 238000000034 method Methods 0.000 claims abstract description 82
- 230000001755 vocal effect Effects 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims description 62
- 230000000694 effects Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 4
- 238000002604 ultrasonography Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 11
- 238000005070 sampling Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 239000002184 metal Substances 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000005355 Hall effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephone Function (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
一种检测重放攻击的方法包括:接收表示言语的音频信号;识别存在于所述音频信号的至少一部分中的言语内容;获得关于所述音频信号中识别了言语内容的每个部分的频谱的信息;以及对于所述音频信号中识别了言语内容的每个部分:检索关于所述音频信号的预期频谱的信息;将所述音频信号中识别了言语内容的部分的频谱与相应的预期频谱进行比较;以及如果所述音频信号中识别了言语内容的所述部分的所述频谱与所述相应的预期频谱之间的差异的度量值超出阈值水平,则确定所述音频信号可能是由重放攻击引起的。
Description
技术领域
本文所描述的实施方案涉及用于检测语音生物识别***(voice biometricssystem)上的重放攻击的方法和设备。
背景技术
语音生物识别***正被广泛使用。在这种***中,用户通过在登记阶段提供其言语样本来训练***。在后续的使用中,***能够区分已登记用户与未注册的说话者。语音生物识别***原则上可用来控制对大范围的服务和***的访问。
恶意方试图打败语音生物识别***的一种方法是获得已登记用户的言语的录音,并且回放该录音,以试图冒充已登记用户并取得对原定仅限于已登记用户的服务的访问权限。
这称为重放攻击或称为欺骗攻击。
发明内容
根据本发明的一个方面,提供了一种检测重放攻击的方法,所述方法包括:
接收表示言语的音频信号;
识别存在于音频信号的至少一部分中的言语内容;
获得关于音频信号中识别了言语内容的每个部分的频谱的信息;
对于音频信号中识别了言语内容的每个部分,检索关于音频信号的预期频谱的信息;
将音频信号中识别了言语内容的部分的频谱与相应的预期频谱进行比较;以及
如果音频信号中识别了言语内容的部分的频谱与相应的预期频谱之间的差异的度量值超出阈值水平,则确定音频信号可能是由重放攻击引起的。
所述方法还可包括:
从接收到的音频信号中移除声道和/或噪声的影响;以及
当获得关于音频信号中识别了言语内容的每个部分的频谱的信息时,在移除声道和/或噪声的影响后使用所述音频信号。
识别存在于音频信号的至少一部分中的言语内容可包括识别至少一个测试声学类别。至少一个测试声学类别可包括一个或多个特定音素。至少一个测试声学类别可包括摩擦音,尤其是齿擦音;和/或可包括***音。
识别至少一个测试声学类别可包括识别测试声学类别在已知言语内容中的出现位置。已知言语内容可包括密码短语。
将音频信号中识别了言语内容的部分的频谱与相应的预期频谱进行比较可包括:
将音频信号中识别了言语内容的部分的频谱与在5kHz至20kHz范围内的频带中的相应预期频谱进行比较。
将音频信号中识别了言语内容的部分的频谱与相应的预期频谱进行比较可包括:
将音频信号中识别了言语内容的部分的频谱与在20Hz至200Hz范围内的频带中的相应预期频谱进行比较。
将音频信号中识别了言语内容的部分的频谱与相应的预期频谱进行比较可包括:
将音频信号中识别了言语内容的部分的频谱与在超声波频带中的相应预期频谱进行比较。
将音频信号的所识别部分与有关对应的测试声学类别的相应所检索信息进行比较可包括:
将音频信号的所识别部分的至少一个频带中的功率水平与音频信号的预期频谱的至少一个对应频带中的功率水平进行比较。
音频信号的所识别部分与有关对应测试声学类别的相应所检索信息之间的差异的度量值可包括大于1dB的功率差异。
所述方法还可包括:
对接收到的音频信号执行说话者识别过程;以及
对于每个测试声学类别,检索关于由所述说话者识别过程识别的说话者的音频信号的预期频谱的信息。
检索关于音频信号的预期频谱的信息的步骤可包括:识别音频信号中预期将出现至少一个特定声学类别的位置;并且将音频信号中识别了言语内容的部分的频谱与相应的预期频谱进行比较的步骤可包括:将所述所识别位置处的频谱与所述所识别位置处的预期频谱进行比较。
特定声学类别可包括至少一些摩擦音。
所述方法可包括确定在预期将出现摩擦音的所述位置处的频谱是否是摩擦音的特性。
识别音频信号中预期将出现至少一个特定声学类别的位置的步骤可包括:识别预定话语中至少一个特定声学类别出现的位置。
预定话语可包括密码短语。
根据本发明的另一方面,提供了一种用于检测重放攻击的***,所述***包括:
输入,其用于接收表示言语的音频信号;以及
处理器,其中所述处理器被配置用于:
识别存在于音频信号的至少一部分中的言语内容;
获得关于音频信号中识别了言语内容的每个部分的频谱的信息;
对于音频信号中识别了言语内容的每个部分,检索关于音频信号的预期频谱的信息;
将音频信号中识别了言语内容的部分的频谱与相应的预期频谱进行比较;以及
如果音频信号中识别了言语内容的部分的频谱与相应的预期频谱之间的差异的度量值超出阈值水平,则确定音频信号可能是由重放攻击引起的。
还提供了一种包括这种***的设备,其中所述设备包括以下中的一个:智能电话、平板计算机或膝上型计算机、游戏控制台、家庭控制***、家庭娱乐***、车载娱乐***或家用电器。
根据本发明的另一方面,提供了一种计算机程序产品,所述计算机程序产品包括有形的计算机可读介质,所述有形的计算机可读介质存储用于致使合适的经编程处理器执行第一方面的方法的代码。
根据第二方面,提供了一种检测重放攻击的方法,所述方法包括:
接收表示言语的音频信号;
识别音频信号中言语由摩擦音组成的至少一个部分;
获得关于在所述音频信号的所述至少一个部分期间以超声波频率存在的能量的量的信息;以及
基于关于以超声波频率存在的能量的量的所述信息而确定音频信号是否可能是由重放攻击引起的。
所述方法还可包括:
获得关于在音频信号中言语由浊音言语组成的第二部分期间以超声波频率存在的能量的量的信息;以及
基于关于以超声波频率存在的能量的量的所述信息并且基于关于在音频信号的第二部分期间以超声波频率存在的能量的量的所述信息,确定音频信号是否可能是由重放攻击引起的。
所述方法可包括:
基于在音频信号的所述至少一个部分期间以超声波频率存在的能量的量与在音频信号的第二部分期间以超声波频率存在的能量的量的比率,确定音频信号是否可能是由重放攻击引起的。
所述方法还可包括:
获得关于在所述音频信号的所述至少一个部分期间以可听频率存在的能量的量的信息;以及
基于关于在音频信号的所述至少一个部分期间以超声波频率存在的能量的量的所述信息并且基于关于在音频信号的所述至少一个部分期间以可听频率存在的能量的量的所述信息,确定音频信号是否可能是由重放攻击引起的。
所述方法可包括:
基于在音频信号的所述至少一个部分期间以超声波频率存在的能量的量与以可听频率存在的能量的量的比率,确定音频信号是否可能是由重放攻击引起的。
所述方法可包括:
计算在音频信号的所述至少一个部分期间以超声波频率存在的能量的量与以可听频率存在的能量的量的第一比率;
计算在音频信号中言语由浊音言语组成的第二部分期间以超声波频率存在的能量的量与在音频信号的第二部分期间以可听频率存在的能量的量的第二比率;以及
计算第一比率与第二比率的比率。
根据另一方面,提供了一种用于检测重放攻击的***,所述***包括:
输入,其用于接收表示言语的音频信号;以及
处理器,其中所述处理器被配置用于:
识别音频信号中言语由摩擦音组成的至少一个部分;
获得关于在所述音频信号的所述至少一个部分期间以超声波频率存在的能量的量的信息;以及
基于关于以超声波频率存在的能量的量的所述信息而确定音频信号是否可能是由重放攻击引起的。
还提供了一种包括这种***的设备,其中所述设备包括以下中的一个:智能电话、平板计算机或膝上型计算机、游戏控制台、家庭控制***、家庭娱乐***、车载娱乐***或家用电器。
根据另一方面,提供了一种计算机程序产品,所述计算机程序产品包括有形的计算机可读介质,所述有形的计算机可读介质存储用于致使合适的经编程处理器执行根据第二方面的方法的代码。
附图说明
为了更好地理解本发明,以及为了示出可如何落实本发明,现在将参考附图,在附图中:
图1示出了智能电话。
图2是示出智能电话的形式的示意图。
图3示出正在执行重放攻击的情形的示例。
图4是示出语音生物识别***中的功能块的框图。
图5是示出检测语音生物识别***上的重放攻击的方法的流程图。
图6示出图4的***的一部分。
图7至图9示出了在音频信号可能是由重放攻击引起的若干情形下音频信号的所识别部分与有关对应的测试声学类别的相应所检索信息之间的比较的示例。
具体实施方式
下面的描述阐述了根据本公开的示例实施方案。对于本领域普通技术人员而言,其他示例实施方案和实现方式将是显而易见的。此外,本领域普通技术人员将认识到,可使用各种等效技术代替以下讨论的实施方案或与以下讨论的实施方案结合,并且所有此类等效形式应被视为是本公开所涵盖的。
本文所描述的方法可在大范围的设备和***中实现,所述设备和***例如移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、远程控制器设备、玩具、机器或家庭自动化控制器或家用电器。然而,为了易于解释一个实施方案,将描述说明性示例,其中实现方式在智能电话中发生。
图1示出了智能电话10,所述智能电话具有用于检测环境声音的传声器12、12a和12b。在该示例中,传声器12当然用于检测握住智能电话10的用户的言语,而传声器12a、12b提供在智能电话10的侧面的上部部分上,并且因此在图1中不是清晰可见的。
智能电话10只是其中可执行本文所描述的方法的电子设备的一个示例。该方法可类似地在另一便携式电子设备中执行,所述电子设备诸如平板计算机或膝上型计算机、游戏控制台、家庭控制***、家庭娱乐***、车载娱乐***或家用电器。
图2是示出智能电话10的形式的示意图。
具体地,图2示出了智能电话10的各种互连部件。应当了解,智能电话10实际上将包含许多其他部件,但是以下描述对于理解本发明是足够的。
因此,图2示出了上面提及的传声器12。在某些实施方案中,智能电话10设置有多个传声器12、12a、12b等。
图2还示出了存储器14,所述存储器实际上可作为单个部件或作为多个部件提供。提供存储器14用于存储数据和程序指令。
图2还示出了处理器16,所述处理器实际上也可作为单个部件或作为多个部件提供。例如,处理器16的一个部件可为智能电话10的应用处理器。
图2还示出了收发器18,所述收发器被提供用于允许智能电话10与外部网络通信。例如,收发器18可包括用于通过WiFi局域网或通过蜂窝网络确立互联网连接的电路。
图2还示出了音频处理电路20,以用于视需要对由传声器12检测到的音频信号执行操作。例如,音频处理电路20可过滤音频信号或执行其他信号处理操作。
图2还示出了至少一个传感器22。在本发明的实施方案中,该传感器是用于检测磁场的磁场传感器。例如,传感器22可为霍尔效应传感器,其能够在三个正交方向上提供对磁场强度的单独测量结果。可使用的传感器的其他示例可包括陀螺仪传感器、加速计或可操作以确定电话取向的基于软件的传感器,其中此类基于软件的传感器可与诸如由苹果公司(Apple,Inc.)提供的FaceTimeTM***的软件程序组合操作。
在该实施方案中,智能电话10设置有语音生物识别功能性和控制功能性。因此,智能电话10能够响应于来自已登记用户的口头命令而执行各种功能。生物识别功能性能够区分来自已登记用户的口头命令和不同的人讲出的相同命令。因此,本发明的某些实施方案涉及具有某种语音可操作性的智能电话或另一便携式电子设备的操作,所述设备例如平板计算机或膝上型计算机、游戏控制台、家庭控制***、家庭娱乐***、车载娱乐***、家用电器等,其中在意在实施口头命令的设备中执行语音生物识别功能性。某些其他实施方案涉及在智能电话或其他设备上执行语音生物识别功能性的***,如果语音生物识别功能性能够确认说话者是已登记用户,则该智能电话或其他设备将命令传输到单独的设备。
在一些实施方案中,虽然在智能电话10或靠近用户定位的其他设备上执行语音生物识别功能性,但是使用收发器18将口头命令传输到远程言语辨识***,所述远程言语辨识***确定口头命令的含义。例如,言语辨识***可位于云计算环境中的一个或多个远程服务器上。然后,使基于口头命令的含义的信号返回到智能电话10或其他本地设备。在其他实施方案中,也将言语辨识***提供在智能电话10上。
蒙骗语音生物识别***的一种尝试是通过所谓的重放或欺骗攻击来播放已登记用户的语音的录音。
图3示出正在执行重放攻击的情形的示例。因此,在图3中,智能电话10设置有语音生物识别功能性。在该示例中,智能电话10至少临时地被具有另一智能电话30的攻击者占有。智能电话30已被用于录制智能电话10的已登记用户的语音。使智能电话30接近智能电话10的传声器入口12,并且回放已登记用户的语音的录音。如果语音生物识别***无法检测到它检测到的已登记用户的语音是录音,则攻击者将取得对原定只能由已登记用户访问的一项或多项服务的访问权限。
众所周知,由于大小约束,诸如智能电话30等智能电话通常设置有品质相对较低的扬声器。因此,通过这种扬声器回放的已登记用户的语音的录音与用户的语音并不完美匹配,并且这一事实可用于识别重放攻击。例如,扬声器可具有某些频率特性,并且如果可在由语音生物识别***接收的言语信号中检测到这些频率特性,则可认为该言语信号是由重放攻击引起的。
例如,在低于下限阈值频率的频率下,扬声器可能遭受低频滚降,因为低音响应受扬声器振膜大小的限制。下限阈值频率可为200Hz。在另一示例中,在高于上限阈值频率的频率下,扬声器可能遭受高频滚降。虽然品质良好的音频录制装备、放大器、扬声器等被设计成在可听频率范围(例如,至高约20kHz)中展现非常高的保真度,但是即使是高品质的音频***在其高于约20kHz的频率响应下通常也会展现出高衰减。由于一般人无法感知该频率范围内的声音,因此通常不值得让***设计人员提供此类声音的高保真录制和再现。
这些影响的大小将由扬声器的品质确定。例如,在高品质扬声器中,下限阈值频率和上限阈值频率应使得在人类通常可听见的频率范围内存在最小的低频滚降或高频滚降。然而,大小和成本约束意味着许多市售扬声器,诸如在诸如智能电话30等智能电话中提供的那些扬声器,确实在一定程度上遭受了这些影响。
因此,扬声器可能无法很好地再现超声波和/或近超声波频率。在这些情况下,如果检测到的言语信号的超声波和/或近超声波频率分量未达到“典型”言语所期望的功率水平,则这可能表明检测到的言语信号是由重放攻击引起的。
然而,并非所有言语都包含相同水平的超声波和/或近超声波频率分量。例如,一些辅音组,诸如摩擦音和***音,包含相对较高水平的超声波和近超声波频率。如果检测到的言语信号所涉及的言语在诸如这些声学类别的一个或多个声学类别中包含高于正常的言语量,所述声学类别包括的超声波和/或近超声波频率的分量相对较大,则在通过扬声器的降低了超声波和/或近超声波频率分量的水平的重放攻击的结果中,检测到的言语信号中的超声波和/或近超声波频率可能仍然以与“典型”言语中的这些频率将期望的功率水平类似的功率水平存在。因此,在这种情形下,***可能无法辨识言语信号可能是由重放攻击引起的。
如果可确定检测到的言语信号的声学类别以及所述声学类别的预期频率特性,则可能能够使用检测到的言语信号的频率特性更可靠地确定检测到的信号是否可能是由重放攻击引起的。
图4是示出语音生物识别***中的功能块的框图,而图5是示出检测语音生物识别***上的重放攻击的方法的流程图。
如图4中所示,传声器12(例如,智能电话10中的传声器中的一个)检测到声音,并且该声音被传递到初始处理块40。传声器12能够检测可听声音和在超声波范围中的声音。如本文所使用的,术语“超声”(和“超声波”)是指在可听频率范围的上部部分以及高于可听频率范围的声音。因此,术语“超声”(和“超声波”)是指频率高于约15kHz的声音。
初始处理块40可例如包括用于将从模拟传声器接收的信号转换成数字形式的模数转换器,并且还可包括用于存储信号的缓冲器。模数转换涉及以采样率对接收到的信号进行采样。必须选择足够高的采样率,以使所关注的任何频率分量都保留在数字信号中。例如,如下面更详细地描述的,本发明的一些实施方案涉及查看接收到的信号的超声波分量,例如在20kHz至30kHz的区域中。如从奈奎斯特采样定理众所周知的,数字信号的采样率至少应为信号的最高频率分量的两倍。因此,为了正确地对包含处于高达30kHz的频率的分量的信号进行采样,采样率至少应为60kHz。
典型的智能电话可能能够以高达192kHz(高到足以提供96kHz带宽)的采样率进行采样,并且因此可将采样率设置为适应预期频率分量的任何合适值。
如常规的,可将信号分成帧,例如具有10ms至100ms的持续时间。
因此,在图5的方法的步骤60中,接收表示言语的音频信号。
然后,可将接收到的表示言语的音频信号传递到频谱提取块42。频谱提取块42可被配置成获得接收到的音频信号的频谱。在一些示例中,频谱提取块42可被配置成获得接收到的音频信号的功率谱,而在一些其他示例中,频谱提取块42可被配置成获得接收到的音频信号的能谱。
在一些示例中,频谱提取块42可被配置成对接收到的音频信号执行快速傅里叶变换。快速傅里叶变换的结果表明在不同频率下存在于信号中的功率或能量。
在另一示例中,频谱提取块42可被配置成将几个带通滤波器应用于接收到的表示言语的音频信号。每个带通滤波器可仅允许在接收到的音频信号的特定频带内的信号通过。
然后,可将接收到的表示言语的音频信号以及由频谱提取块42获得的频谱传递到声道/噪声补偿块44。如将了解的,接收到的表示言语的音频信号可能受到声道性质的影响(这是指在用户的言语与由传声器生成的言语信号之间产生差异的任何因素改变)。接收到的表示言语的音频信号也可能会受到噪声的影响。声道/噪声补偿块44可被配置成从接收到的表示言语的音频信号中移除声道和/或噪声的影响,以获得接收到的表示言语的净化后的音频信号。下面更详细地描述了声道/噪声补偿块44的示例实施方案。
具体地,图6示出了声道/噪声补偿***,在英国专利申请第1719734.4号中更详细地描述了所述***。
在图6中,在输入70上接收到的信号被传递到浊音/清音检测块72,所述浊音/清音检测块确定接收到的信号何时表示浊音言语,以及何时表示清音言语。因此,浊音/清音检测块72输出音频信号的表示浊音言语的第一分量Sv和表示清音言语的第二分量Su。更具体地,在一些实施方案中,音频信号的表示浊音言语的第一分量Sv和表示清音言语的第二分量Su是言语的浊音分量和清音分量的平均频谱。平均频谱是指在多个帧上获得并平均化的言语的频谱。
在输入70上接收的信号也被传递到说话者辨识块74,所述说话者辨识块执行语音生物识别过程以从多个已登记说话者中识别出说话者。说话者辨识***中的登记过程通常涉及说话者提供言语样本,从言语样本中提取特定特征,并且将提取的特征用于形成说话者的言语的模型。在使用中,从言语样本中提取对应的特征,并将这些特征与先前获得的模型进行比较以获得说话者是先前登记的说话者的可能性的度量值。
在图6中示出的***中,一个或多个说话者模型被例如存储在数据库76中。基于说话者辨识块74的输出,选择一个或多个说话者模型。在该实施方案中,每个说话者模型包含已登记用户的浊音言语和清音言语的单独模型。更具体地,已登记用户的浊音言语的模型和清音言语的模型各自包括对应于多个频率的振幅值。
因此,浊音言语的模型可指示为Mv,其中Mv表示在选定频率中的每个频率下包括一个振幅值的矢量,而清音言语的模型可指示为Mu,其中Mu表示在选定频率中的每个频率下包括一个振幅值的矢量。
如将了解的,接收到的包含用户的言语的信号将受到声道性质的影响,这是指在用户的言语与由传声器生成的言语信号之间产生差异的任何因素改变,并且接收到的信号也将受到噪声的影响。
因此,假设在平均了接收到的信号以形成接收到的言语的第一分量和第二分量的时间段期间,声道和噪声是恒定的,则这些第一分量和第二分量可表达为:
Sv=αMv+n,并且
Su=αMu+n,
其中
α表示乘性干扰分量的频谱,在本文中称为声道,并且
n表示加性干扰分量的频谱,在本文中称为噪声。
因此,利用测量结果Sv和Su以及模型Mv和Mu,因此可在比较框78中对这两个等式求解以得到两个未知数α和n。
因此,出于说明性目的,
为了完整起见,应当注意的是,通过在多个频率下进行频谱测量,可在所述频率中的每个频率下有效地求解这两个等式。
替代地,通过在f个不同的频率下进行测量,等式Sv=αMv+n和Su=αMu+n可各自被视为要求解的f个不同的等式。
在这种情况下,在求解等式后,有用地,可对结果应用低通滤波器或统计滤波器(诸如Savitsky-Golay滤波器),以便获得声道和噪声特性的低通滤波版本。
作为替代示例,可使用最小二乘法来获得2f个不同等式的解。
因此,获得关于影响音频信号的声道和/或噪声的信息。
虽然上面已经描述了声道/噪声补偿块44的一个可能的实施方案,但是将了解,声道/噪声补偿块44可被配置成执行任何合适的方法以从接收到的音频信号中移除声道和/或噪声的影响。
另外,虽然如图4中示出的***包括声道/噪声补偿块44(并且如下所述,随后使用的是移除了声道和/或噪声的影响之后的音频信号),但是将了解,这是任选的,并且可直接使用接收到的音频信号而无需从接收到的音频信号中移除声道和/或噪声的影响。特别地,这可在已知声道近似理想的情形下或者在已知***处于背景噪声水平较低的环境中的情形下完成。
然后可从输入信号中移除声道和/或噪声的影响,并且然后可将声道/噪声补偿块44的输出传递给识别块46。识别块46可被配置成识别存在于接收到的音频信号的至少一部分中的言语内容。通常而言,这不仅仅涉及检测人类言语的存在,还意味着识别特定的言语内容。在一些实施方案中,识别块46被配置成识别接收到的音频信号中的至少一个测试声学类别,其中声学类别是属于同一广泛音素类别的音素集,诸如摩擦音、元音等。也就是说,识别块46可被配置成识别接收到的音频信号中包含一个或多个特定测试声学类别的部分。
至少一个测试声学类别可为包括某些频谱性质的声学类别。换句话说,可选择至少一个测试声学类别以提供跨特定频率范围的特定功率分布。例如,至少一个声学类别可包括相对较高水平的超声波和/或近超声波频率。
在一些示例中,至少一个测试声学类别可包括一个或多个特定音素。在一些示例中,测试声学类别可包括元音集。在其他示例中,测试声学类别可包括辅音集。例如,至少一个测试声学类别可包括摩擦音,并且更具体地,可包括齿擦音。在另一示例中,至少一个测试声学类别可包括***音。应当注意,由人类的声道生成的音频信号,特别是在清晰地发摩擦音音素和齿擦音音素时,在超声区域中包含大量能量,高于约20kHz,并且甚至超过30kHz。
识别块46可被配置成识别音频信号中表示至少一个测试声学类别的部分。在一些示例中,识别块46可被配置成识别音频信号中表示多个预选的测试声学类别中的一个测试声学类别的部分。在一些示例中,识别块46可在逐帧的基础上确定接收到的音频信号所对应的测试声学类别。例如,识别块46可确定接收到的帧的第一群组对应于摩擦音类别中的音素,并且接收到的帧的第二群组对应于***音类别中的音素。
声学类别的识别例如可由经训练的神经网络来执行。替代地,可通过诸如隐马尔可夫模型等众所周知的技术来执行对接收到的短语中包含的音素的识别。
在一些示例中,识别块46包括自动言语辨识块或与自动言语辨识块相关联,该自动言语辨识块可识别存在于接收到的音频信号的至少一部分中的言语内容。在识别了言语内容后,然后识别块46可例如识别接收到的音频信号中包含一个或多个特定测试声学类别的部分。
在一些示例中,识别块46包括对近超声频率中的能量的逐帧估计,其中具有最高能量的帧与摩擦音音素相关联,从而有效地创建摩擦音音素在短语中出现的时间图。与接收到的音频信号相关联的该时间图可与先前计算并存储在数据库48中的相似图对准。在依赖文本的语音生物识别中,在登记阶段期间当用户通过说出预定义的密码短语来创建其生物识别声纹时,可计算音素的预期时间映射。在独立于文本的语音生物识别中,在认证尝试期间可借助于应用于接收到的音频的音标解码器(或声学类别标识符)来获得映射。
例如,可使用诸如维特比算法或动态时间规整等技术来执行音素的预期时间映射与实际时间映射之间的对准。
信号中如此对准的部分的频谱可与对应的声学类别的频谱进行比较。此外,这些对准技术可提供接收到的信号中的摩擦音的时间图与预期时间图之间的距离的度量值。超出给定阈值的距离(意味着接收到的信号的超声分量与预期言语的高频音标内容不匹配)可能指示欺骗攻击。
例如,在方法的一些实施方案中,当应用于智能电话、智能扬声器等中时,通过已登记用户讲出预定密码短语来启动智能电话或智能扬声器,并且因此该设备能够辨识包含密码短语的音频信号。例如,密码短语可为“Hi助手”。
单词“Hi”中的元音声自然比许多元音包含更高的频率分量。类似地,齿擦音辅音包含相对大量的高频分量。结果是,识别块46可确定音频信号的哪些部分包含密码短语,即音频信号的哪些帧将包含具有高比例的高频分量的音素。实际上,可创建密码短语内的摩擦音音素和/或齿擦音音素的时间位置图。因此,可识别音频信号的这些部分中的特定言语内容。
例如,如果密码短语占据音频信号的1秒,则单词“Hi”中包含元音声的帧可能会出现在音频信号中的在例如音频信号的50毫秒至150毫秒之间的部分。类似地,单词“助手”中的齿擦音辅音可能会出现在音频信号中的在例如音频信号的550毫秒至850毫秒之间的部分。
因此,可识别在这些时间间隔期间出现的帧。
因此,在图5的方法中的步骤62中,识别存在于音频信号的至少一部分中的言语内容。
在如图4中示出的示例中,声道/噪声补偿块44的输出被传递到识别块46。然而,将了解的是,接收到的表示言语的音频信号可直接被传递到识别块46,而无需先前执行的用以移除声道和/或噪声的影响的任何处理。这可在已知声道近似理想的情形下发生,或者这可在已知***处于背景噪声水平非常低的环境中的情形下发生。
在如图4中示出的示例中,提取的频谱被传递到识别块46。然而,将了解的是,识别块46可以接收呈未处理的形式或保持在时域中(而不是在频域中)的形式的接收到的表示言语的音频信号,并从这种形式的接收到的音频信号中识别出存在于音频信号的至少一部分中的言语内容(例如,识别至少一个声学类别)。可使用经过适当训练的神经网络进行这种识别。
已经识别了言语内容后,获得关于音频信号中识别了特定言语内容的每个部分的频谱的信息。例如,尽管频谱提取块42可被配置成获取整个接收到的音频信号的频谱,但是第二频谱提取块47可被配置成获得接收到的音频信号中识别了所关注的特定言语内容的那些部分的频谱。例如,如上所述,可将信号中表示具有高比例的高频分量的特定言语内容的部分视为所关注的,并且第二频谱提取块47可被配置成获得接收到的音频中识别了该言语内容的帧的频谱。
识别块46可将识别出的言语内容的指示传输到数据库48。数据库48可接收识别出的言语内容的指示,并供应关于音频信号的预期频谱的对应所存储信息。例如,在相关言语内容包括一个或多个特定声学类别(例如,一个或多个音素)的情况下,数据库48可被配置成针对每个声学类别存储音频信号的对应于该声学类别的预期功率谱。然后,数据库48可被配置成针对每个声学类别检索音频信号的对应于该声学类别的预期能量谱。
因此,在图5的方法中的步骤66中,针对音频信号中识别了言语内容的每个部分,检索关于音频信号的对应部分的预期频谱的信息。
数据库48可针对音频信号中识别了言语内容的每个部分(也就是说,例如,针对每个识别出的测试声学类别),将检索到的关于音频信号的预期频谱的信息传输给比较块50。
比较块50还可接收来自第二频谱提取块47的接收到的音频信号中识别了该同一言语内容的帧的频谱(例如,包含至少一个测试声学类别的帧的频谱或每个频谱)。
然后,比较块50可将音频信号的接收到的所识别部分(表示至少一个测试声学类别)与接收到的有关对应测试声学类别的相应所检索信息进行比较。
在一些示例中,比较块50可将音频信号中的所识别部分的分量与在5kHz至20kHz范围内或在16kHz以上范围内的频带中的对应测试声学类别的相应所检索信息进行比较。如上所述,一些扬声器可能无法很好地再现超声波和/或近超声波频率。因此,包括具有相对较高水平的超声波和/或近超声波频率的测试声学类别的接收到的音频信号可能会被扬声器在这些频率下(例如,在5kHz至20kHz范围内的频带中,或在16kHz以上的频带中)不良地再现。因此,接收到的音频信号中表示测试声学类别的频谱可能与音频信号中表示测试声学类别的预期频谱显著不同,其中当接收到的音频信号是由重放攻击引起时,测试声学类别包括相对较高水平的超声波和/或近超声波频率。因此,为了能够使用该频带检测重放攻击,更可取的是使测试声学类别包括相对较高水平的超声波和/或近超声波频率,并且合适的声学类别可例如为摩擦音,诸如齿擦音和***音。
在一些示例中,比较块50可将音频信号的所识别部分的分量与在20Hz至200Hz的频带中的对应测试声学类别的相应所检索信息进行比较。一些扬声器可能无法很好地再现较低的频率(例如,在20Hz至200Hz频带内的频率)。因此,包括相对较高水平的这些频率的测试声学等级很可能在这些频率下被扬声器不良地再现。因此,接收到的音频信号中表示测试声学类别的频谱可能与音频信号中表示测试声学类别的预期频谱显著不同,其中当接收到的音频信号是由重放攻击引起时,测试声学类别包括相对较高水平的这些较低频率分量。因此,为了能够使用该频带检测重放攻击,更可取的是使测试声学类别包括在20Hz至200Hz频带中的相对较高水平的频率,并且合适的声学类别可例如为某些元音声。例如,在国际音标中由<u>和表示的高后圆唇元音和接近高后圆唇元音分别具有高水平的这些低频分量。
在国际音标中由<i>表示的高前不圆唇元音通常具有相对较低的第一共振峰频率F1和相对较高的第二共振峰频率F2,并且因此言语中包含这种元音声的部分具有在20Hz至200Hz频带中的相对较高水平的低频率和在5kHz至20kHz频带中的相对较高水平的高频率。因此,如果识别出言语中包含这种元音声的部分,则将这些部分的频谱与在20Hz至200Hz范围和5kHz至20kHz范围两者中的相应频带中的预期频谱进行比较是有用的。
在一些示例中,比较块50可将音频信号的所识别部分的频谱与有关对应测试声学类别的所检索到的预期频谱进行比较。
在一个示例中,比较块50可将音频信号的所识别部分与有关对应测试声学类别的相应所检索频谱进行比较,其中已经从对在频谱块42处接收到的音频信号执行的FFT获得音频信号的所述所识别部分。在另一示例中,比较块50可将音频信号的所识别部分与有关对应测试声学类别的相应所检索频谱进行比较,其中已经从如由频谱块42生成的带通式音频信号获得音频信号的所述所识别部分。
在一些示例中,比较块50可将音频信号的所识别部分的至少一个频带中的功率水平与音频信号的预期频谱的至少一个对应频带中的功率水平进行比较。在该示例中,音频信号的所识别部分与有关对应测试声学类别的相应所检索信息之间的差异的度量值可包括功率的差异。
如上面所解释的,当与有关对应测试声学类别的相应所检索信息在特定频率下(或在特定频率范围内)的功率水平进行比较时,音频信号的所识别部分在该频率下(或在该频率范围内)的功率水平的差异可指示音频信号可能是由重放攻击引起的。
在一些示例中,比较块可以比较可假设用于重放攻击的扬声器在其中将具有较差的频率响应的频带中的功率水平。比较块50可将音频信号的所识别部分在5kHz至20kHz的范围内的频带中的功率水平与音频信号的预期频谱在5kHz至20kHz频率范围内的同一频带中的功率水平进行比较。另外或替代地,比较块50可将音频信号的所识别部分在20Hz至200Hz范围内的频带中的功率水平与音频信号的预期频谱在20Hz至200Hz范围内的同一频带中的功率水平进行比较。另外或替代地,比较块50可将音频信号的所识别部分在20kHz至30kHz范围内的频带中的功率水平与音频信号的预期频谱在20kHz至30kHz频率范围内的同一频带中的功率水平进行比较。
因此,在图5的方法的步骤68中,将音频信号中识别了言语内容的部分的频谱与相应的预期频谱进行比较。
可将如由比较块50生成的比较传输到判定块52。判定块52可确定音频信号中识别了言语内容的部分的频谱与相应的预期频谱之间的差异的度量值是否超出阈值水平。如果差异的度量值超出阈值水平,则判定块52可确定音频信号可能是由重放攻击引起的。
因此,在图5的方法的步骤69中,如果音频信号中识别了言语内容的部分的频谱与相应的预期频谱之间的差异的度量值超出阈值水平,则确定音频信号可能是由重放攻击引起的。
在一些情形下,可能合乎需要的是在该方法的步骤66中检索关于表示特定测试声学类别的预期频谱的信息,其中该信息特定于个别说话者(而不是获得表示由多个说话者讲出的测试声学类别的频谱)。
因此,在一些实施方案中,***可对接收到的音频信号执行说话者识别过程。在一些示例中,在从数据库48中检索关于音频信号的预期频谱的信息之前,接收到的表示言语的音频信号可能会经历说话者识别过程。说话者识别过程可在图5的方法的前两个步骤之前或与之同时地执行。本领域技术人员将很好地理解说话者识别方法。
在识别出产生了接收到的表示言语的音频信号的说话者之后,也可将获得的说话者身份传递到数据库48。
在一些示例中,对应于存储在数据库48中的每个声学类别的预期频谱将表示如由一大群说话者讲出的声学类别。然而,在一些示例中,对应于存储在数据库48中的每个声学类别的预期频谱将表示如由特定个体讲出的声学类别。可能已经通过说话者识别过程识别出所述特定个体。
因此,对于每个测试声学类别,数据库48可检索关于通过所述说话者识别过程识别的说话者的音频信号的预期频谱的信息。
例如,***中可能有多个已登记用户,并且这多个已登记用户中的每个用户可能具有与其存储在数据库48内的言语相对应的模型。对于每个已登记用户,用户的对应模型可包括关于该用户的多个测试声学类别的音频信号的预期频谱的信息。
在***中有两个已登记用户的示例中,针对存储在数据库48中的每个测试声学类别可能存在两个预期频谱的信息,其中第一预期频谱对应于第一已登记用户,而第二已登记用户对应于第二已登记用户。说话者识别过程可识别两个已登记用户中的哪个用户产生了接收到的表示言语的音频信号。然后,说话者的身份可被数据库48用来检索关于对应于所识别的说话者的预期频谱(针对音频信号中的每个所识别的测试声学类别)的信息。然后,可将该“说话者特定的”所检索信息传递到比较块50并由比较块50以与上述基本上相同的方式使用。由于检索到的关于音频信号的预期频谱的信息将是“说话者特定的”,所以音频信号的所识别部分与有关对应测试声学类别的相应所检索信息之间的比较可能会更加准确(因为要比较的两条信息都是特定于该说话者的)。因此,音频信号可能是由重放攻击引起的这一确定可能会因此而更加准确。
图7、图8和图9示出了在音频信号可能是由重放攻击引起的若干情形下音频信号的所识别部分与有关对应的测试声学类别的相应所检索信息之间的比较的示例。在以下示例中,音频信号的表示至少一个测试声学类别的所识别部分是功率谱,并且有关对应的测试声学类别的相应所检索信息也是功率谱。
在图7、图8和图9中,接收到的信号的所识别频谱由实线指示,而已经从数据库中检索到的预期频谱由虚线指示。
在图7中,能够看出,在特定的第一频率(如由f1所指示)下,所识别频谱82和预期频谱84具有基本上类似的功率水平(如由P1所指示)。随着频率增加,预期频谱和所识别频谱将继续具有基本上类似的功率水平,直到达到特定的第二频率(如由f2所指示)为止。在该点处,预期频谱84保持在第一功率水平(如由P2所指示),而所识别频谱82的功率水平滚降至不同的第二功率水平(如由P3所指示)。如在所识别频谱82中见到但在有关该特定声学类别的预期频谱中未见到的在较高频率下功率水平的这种滚降可指示接收到的表示言语的音频信号可能是由重放攻击引起的。
例如,对于高于上限截止频率的频率,如果功率水平以相对恒定的速率(诸如6dB/倍频程)降低,则可确定接收到的表示言语的音频信号可能是由重放攻击引起的。上限截止频率可能在15kHz至25kHz的范围内。在图8中,能够看出,在特定的第一频率(如由f1所指示)下,所识别频谱86和预期频谱88具有显著不同的功率水平。所识别频谱86在f1下的功率水平(如由P1所指示)显著低于预期频谱88在f1下的功率水平(如由P3所指示)。随着频率增加,所识别频谱的功率水平逐渐增加,直到达到第二特定频率(如由f2所指示)为止。在频率f2下,所识别频谱86和预期频谱88的功率水平(如由P2所指示)基本上相同。如在所识别频谱中见到但在预期频谱中未见到的具有不断降低的频率的功率水平的这种“滚降”可指示接收到的表示言语的音频信号可能是由重放攻击引起的。
例如,对于低于下限截止频率的频率,如果功率水平以相对恒定的速率(诸如6dB/倍频程)降低,则可确定接收到的表示言语的音频信号可能是由重放攻击引起的。下限截止频率可能在20Hz至200Hz的范围内。
在图9中,能够看出,在低于特定的第一频率的频率(如由f1所指示)下,所识别频谱90和预期频谱92的功率水平基本上是相同的(如由P1所指示)。随着频率增加,所识别频谱90的功率水平开始偏离预期频谱92的功率水平。在该示例中,预期频谱的功率水平开始随着频率的增加而以大大快于所识别频谱的功率水平的速率降低。在第二特定频率(如由f2所指示)下,所识别频谱90的功率水平处于比预期频谱92的功率水平(如由P2所指示)低得多的功率水平(如由P3所指示)。所识别频谱与预期频谱之间在特定频率下的绝对功率水平的这种差异可指示接收到的表示言语的音频信号可能是由重放攻击引起的。在一些示例中,绝对功率水平的超出阈值水平的差异可指示重放攻击。例如,阈值水平可为1dB。因此,通过将来自已知声学类别的信号与特定于该相同声学类别的预期频谱进行比较,这允许以更可靠的方式识别可能由重放攻击引起的信号。
因此,如上面所提及的,一种检测诸如智能电话等录制和回放设备的局限性并因此检测何时检测到的言语信号可能是由回放攻击引起的方法是检查以超声波频率存在的能量的量。然而,以超声波频率存在的能量的预期量将取决于存在于言语中的音素。
因此,本文公开的一些方法涉及识别存在于音频信号的至少一部分中的言语内容,并且特别地涉及识别存在于言语中的一个或多个特定音素,并且然后获得关于音频信号的这些部分的频谱的信息。
这种方法的一个示例是,测量在包含摩擦音音素的每个帧期间(或更一般地,在包含清音言语的每个帧期间)以超声波频率存在的能量的平均量,并将该平均量与在包含浊音言语的每个帧期间以超声波频率存在的能量的平均量进行比较。
其中:
x1是言语现场感的度量值,
Eu(f)是在包含摩擦音音素的帧期间(或更一般地,在包含清音言语的帧期间)以超声波频率存在的能量的量的度量值,并且
Eu(v)是在包含浊音言语的帧期间以超声波频率存在的能量的量的度量值。
因此,可计算x1的值,并将该值与合适的阈值进行比较,以利用所需的置信度确定是否应将言语信号视为是由重放攻击引起的。
这种方法的另一示例是测量在包含摩擦音音素的每个帧期间(或更一般地,在包含清音言语的每个帧期间)存在于多个不同超声波频带中的能量的平均量,并将这些平均量与在包含浊音言语的帧期间存在于这些超声波频带中的能量的量进行比较。
其中:
x2(b)是通过跨多个频带计算以下比率而获得的值集合,
Eb(f)是在包含摩擦音音素的帧期间(或更一般地,在包含清音言语的帧期间)存在于几个超声波频带中的一个频带中的能量的量的度量值,并且
Eb(v)是在包含浊音言语的帧期间存在于几个超声波频带中的一个频带中的能量的量的度量值。
机器学习方法可能适用于确定计算出的值x2(b)是否指示现场言语,或者是否应将言语信号视为是由重放攻击引起的。
这种方法的另一示例是,测量在包含摩擦音音素的每个帧期间(或更一般地,在包含清音言语的每个帧期间)以超声波频率存在的能量的平均量,并将该平均量与在相同的帧期间存在于可听频带中的能量的量进行比较。
其中:
x3是言语现场感的度量值,
Eu(f)是在包含摩擦音音素的帧期间(或更具体地,在包含齿擦音音素的帧期间,或者更一般地,在包含清音言语的帧期间)以超声波频率存在的能量的量的度量值,并且
Ea(f)是在相同的帧期间存在于可听频带中的能量的量的度量值。
因此,可计算x3的值,并将该值与合适的阈值进行比较,以利用所需的置信度确定是否应将言语信号视为是由重放攻击引起的。
这种方法的另一示例是,测量在包含摩擦音音素的每个帧期间(或更一般地,在包含清音言语的每个帧期间)以超声波频率存在的能量的平均量,并将该平均量与在相同的帧期间存在于可听频带中的能量的量进行比较,并且还测量在包含浊音言语的帧期间以超声波频率存在的能量的量,并将该量与在相同的帧期间存在于可听频带中的能量的量进行比较,并且然后取两个比率的比率。
其中:
x4是言语现场感的度量值,
Eu(f)是在包含摩擦音音素的帧期间(或者更一般地,在包含清音言语的帧期间)以超声波频率存在的能量的量的度量值,
Ea(f)是在包含摩擦音音素的帧期间(或者更一般地,在包含清音言语的帧期间)存在于可听频带中的能量的量的度量值,
Eu(v)是在包含浊音言语的帧期间以超声波频率存在的能量的量的度量值,并且
Ea(v)是在包含浊音言语的帧期间存在于可听频带中的能量的量的度量值。
因此,可计算x4的值,并且可将该值与合适的阈值进行比较,以利用所需的置信度确定是否应将言语信号视为是由重放攻击引起的。
这种方法的另一示例是测量在包含摩擦音音素的每个帧期间(或更一般地,在包含清音言语的每个帧期间)以超声波频率存在的能量的平均量,并将该平均量与存在于不包含言语的帧中的能量的量进行比较,所述能量的量可被视为是超声波本底噪声。
其中:
x5是言语现场感的度量值,
Eu(f)是在包含摩擦音音素的帧期间(或者更一般地,在包含清音言语的帧期间)以超声波频率存在的能量的量的度量值,并且
Eu(n)是存在于非言语帧中的能量的量的度量值。
因此,可计算x5的值,并将该值与合适的阈值进行比较,以利用所需的置信度确定是否应将言语信号视为是由重放攻击引起的。
本领域技术人员将认识到,上述装置和方法的一些方面可体现为处理器控制代码,例如非易失性载体介质(诸如,磁盘、CD-ROM或DVD-ROM)、诸如只读存储器的经编程存储器(固件)或数据载体(诸如,光学或电气信号载体)上的处理器控制代码。对于许多应用,本发明的实施方案将在DSP(数字信号处理器)、ASIC(专用集成电路)或FPGA(现场可编程门阵列)上实现。因此,该代码可包括常规程序代码或微代码,或者例如用于设置或控制ASIC或FPGA的代码。该代码还可包括用于动态地配置可重配置装置(诸如,可重编程逻辑门阵列)的代码。类似地,该代码可包括用于诸如Verilog TM或VHDL(超高速集成电路硬件描述语言)等硬件描述语言的代码。如本领域技术人员将了解的,代码可分布在彼此通信的多个联接的部件之间。在适当的时候,还可使用在现场(可重新)编程的模拟阵列或类似设备上运行的代码来实现实施方案,以便配置模拟硬件。
应当注意,如本文所使用的,术语“模块”应用于指代可至少部分地由诸如自定义的电路等专用硬件部件来实现和/或至少部分地由一个或多个软件处理器或在合适的通用处理器等上运行的适当代码来实现的功能单元或块。模块本身可包括其他模块或功能单元。模块可由不必同位的多个部件或子模块来提供,并且可提供在不同的集成电路上和/或在不同的处理器上运行。
实施方案可在主机设备、尤其是诸如移动计算设备等便携式和/或电池供电的主机设备中实现,所述移动计算设备例如膝上型计算机或平板计算机、游戏控制台、远程控制设备、家庭自动化控制器或家用电器,包括家用温度或照明控制***、玩具、诸如机器人等机器、音频播放器、视频播放器或移动电话(例如智能电话)。
应当注意,上面提及的实施方案说明而不是限制本发明,并且本领域技术人员将能够设计许多替代实施方案而不脱离所附权利要求的范围。单词“包括”不排除权利要求中列出的要素或步骤之外的要素或步骤的存在,“一”或“一个”不排除多个,并且单个特征或其他单元可满足权利要求中阐述的几个单元的功能。权利要求中的任何附图标记或标签均不应被解释为限制其范围。
Claims (32)
1.一种检测重放攻击的方法,所述方法包括:
接收表示言语的音频信号;
识别存在于所述音频信号的至少一部分中的言语内容;
获得关于所述音频信号中识别了言语内容的每个部分的频谱的信息;以及
对于所述音频信号中识别了言语内容的每个部分:
检索关于所述音频信号的预期频谱的信息;
将所述音频信号中识别了言语内容的部分的所述频谱与相应的预期频谱进行比较;以及
如果所述音频信号中识别了言语内容的所述部分的所述频谱与所述相应的预期频谱之间的差异的度量值超出阈值水平,则确定所述音频信号可能是由重放攻击引起的。
2.根据权利要求1所述的方法,其包括:
从接收到的音频信号中移除声道和/或噪声的影响;以及
当获得关于所述音频信号中识别了言语内容的每个部分的所述频谱的所述信息时,在移除所述声道和/或噪声的影响后使用所述音频信号。
3.根据权利要求1所述的方法,其中识别存在于所述音频信号的至少一部分中的言语内容包括识别至少一个测试声学类别。
4.根据权利要求3所述的方法,其中所述至少一个测试声学类别包括一个或多个特定音素。
5.根据权利要求4所述的方法,其中所述至少一个测试声学类别包括摩擦音。
6.根据权利要求5所述的方法,其中所述至少一个测试声学类别包括齿擦音。
7.根据权利要求4所述的方法,其中所述至少一个测试声学类别包括***音。
8.根据权利要求3所述的方法,其中识别至少一个测试声学类别包括识别所述测试声学类别在已知言语内容中的出现位置。
9.根据权利要求8所述的方法,其中所述已知言语内容包括密码短语。
10.根据权利要求1所述的方法,其中将所述音频信号中识别了言语内容的部分的所述频谱与所述相应的预期频谱进行比较包括:
将所述音频信号中识别了言语内容的部分的所述频谱与在5kHz至20kHz范围内的频带中的所述相应的预期频谱进行比较。
11.根据权利要求1所述的方法,其中将所述音频信号中识别了言语内容的部分的所述频谱与所述相应的预期频谱进行比较包括:
将所述音频信号中识别了言语内容的部分的所述频谱与在20Hz至200Hz频带中的所述相应的预期频谱进行比较。
12.根据权利要求1所述的方法,其中将所述音频信号中识别了言语内容的部分的所述频谱与所述相应的预期频谱进行比较包括:
将所述音频信号中识别了言语内容的部分的所述频谱与在超声波频带中的所述相应的预期频谱进行比较。
13.根据权利要求1所述的方法,其中将所述音频信号的所识别部分与有关对应测试声学类别的相应所检索信息进行比较包括:
将所述音频信号的所述所识别部分的至少一个频带中的功率水平与所述音频信号的所述预期频谱的至少一个对应频带中的功率水平进行比较。
14.根据权利要求13所述的方法,其中所述音频信号的所述所识别部分与有关所述对应测试声学类别的所述相应所检索信息之间的差异的度量值包括大于1dB的功率差异。
15.根据权利要求1所述的方法,其还包括:
对接收到的音频信号执行说话者识别过程;以及
对于每个测试声学类别,检索关于由所述说话者识别过程识别的说话者的所述音频信号的预期频谱的信息。
16.根据权利要求1所述的方法,
其中检索关于所述音频信号的预期频谱的信息的步骤包括:识别所述音频信号中预期将出现至少一个特定声学类别的位置;并且
其中将所述音频信号中识别了言语内容的部分的所述频谱与所述相应的预期频谱进行比较的步骤包括:将所述所识别位置处的频谱与所述所识别位置处的预期频谱进行比较。
17.根据权利要求16所述的方法,其中所述特定声学类别包括至少一些摩擦音。
18.根据权利要求16和17所述的方法,其包括确定在预期将出现摩擦音的所述位置处的所述频谱是否是摩擦音的特性。
19.根据权利要求16、17或18所述的方法,其中识别所述音频信号中预期将出现至少一个特定声学类别的位置的步骤包括:识别预定话语中至少一个特定声学类别出现的位置。
20.根据权利要求19所述的方法,其中所述预定话语包括密码短语。
21.一种用于检测重放攻击的***,所述***包括:
输入,其用于接收表示言语的音频信号;以及
处理器,其中所述处理器被配置用于:
识别存在于所述音频信号的至少一部分中的言语内容;
获得关于所述音频信号中识别了言语内容的每个部分的频谱的信息;
对于所述音频信号中识别了言语内容的每个部分,检索关于所述音频信号的预期频谱的信息;
将所述音频信号中识别了言语内容的部分的所述频谱与相应的预期频谱进行比较;以及
如果所述音频信号中识别了言语内容的所述部分的所述频谱与所述相应的预期频谱之间的差异的度量值超出阈值水平,则确定所述音频信号可能是由重放攻击引起的。
22.一种包括权利要求21所述的***的设备,其中所述设备包括以下中的一个:智能电话、平板计算机或膝上型计算机、游戏控制台、家庭控制***、家庭娱乐***、车载娱乐***或家用电器。
23.一种计算机程序产品,其包括有形计算机可读介质,所述计算机可读介质存储用于致使合适的经编程处理器执行权利要求1所述的方法的代码。
24.一种检测重放攻击的方法,所述方法包括:
接收表示言语的音频信号;
识别所述音频信号中所述言语由摩擦音组成的至少一个部分;
获得关于在所述音频信号的所述至少一个部分期间以超声波频率存在的能量的量的信息;以及
基于关于以超声波频率存在的能量的所述量的所述信息,确定所述音频信号是否可能是由重放攻击引起的。
25.根据权利要求24所述的方法,其还包括:
获得关于在所述音频信号中所述言语由浊音言语组成的第二部分期间以超声波频率存在的能量的量的信息;以及
基于关于以超声波频率存在的能量的所述量的所述信息并且基于关于在所述音频信号的所述第二部分期间以超声波频率存在的能量的所述量的所述信息,确定所述音频信号是否可能是由重放攻击引起的。
26.根据权利要求25所述的方法,其包括:
基于在所述音频信号的所述至少一个部分期间以超声波频率存在的能量的所述量与在所述音频信号的所述第二部分期间以超声波频率存在的能量的所述量的比率,确定所述音频信号是否可能是由重放攻击引起的。
27.根据权利要求24、25或26所述的方法,其还包括:
获得关于在所述音频信号的所述至少一个部分期间以可听频率存在的能量的量的信息;以及
基于关于在所述音频信号的所述至少一个部分期间以超声波频率存在的能量的所述量的所述信息并且基于关于在所述音频信号的所述至少一个部分期间以可听频率存在的能量的所述量的所述信息,确定所述音频信号是否可能是由重放攻击引起的。
28.根据权利要求27所述的方法,其包括:
基于在所述音频信号的所述至少一个部分期间以超声波频率存在的能量的所述量与以可听频率存在的能量的所述量的比率,确定所述音频信号是否可能是由重放攻击引起的。
29.根据权利要求24至28中任一项所述的方法,其包括:
计算在所述音频信号的所述至少一个部分期间以超声波频率存在的能量的所述量与以可听频率存在的能量的所述量的第一比率;
计算在所述音频信号中所述言语由浊音言语组成的第二部分期间以超声波频率存在的能量的所述量与在所述音频信号的所述第二部分期间以可听频率存在的能量的所述量的第二比率;以及
计算所述第一比率与所述第二比率的比率。
30.一种用于检测重放攻击的***,所述***包括:
输入,其用于接收表示言语的音频信号;以及
处理器,其中所述处理器被配置用于:
识别所述音频信号中所述言语由摩擦音组成的至少一个部分;
获得关于在所述音频信号的所述至少一个部分期间以超声波频率存在的能量的量的信息;以及
基于关于以超声波频率存在的能量的所述量的所述信息,确定所述音频信号是否可能是由重放攻击引起的。
31.一种包括权利要求30所述的***的设备,其中所述设备包括以下中的一个:智能电话、平板计算机或膝上型计算机、游戏控制台、家庭控制***、家庭娱乐***、车载娱乐***或家用电器。
32.一种计算机程序产品,其包括有形计算机可读介质,所述计算机可读介质存储用于致使合适的经编程处理器执行权利要求24所述的方法的代码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/050,593 US10692490B2 (en) | 2018-07-31 | 2018-07-31 | Detection of replay attack |
US16/050,593 | 2018-07-31 | ||
PCT/GB2019/052143 WO2020025951A1 (en) | 2018-07-31 | 2019-07-31 | Detection of replay attack |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112424860A true CN112424860A (zh) | 2021-02-26 |
Family
ID=67551390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980045601.5A Pending CN112424860A (zh) | 2018-07-31 | 2019-07-31 | 重放攻击的检测 |
Country Status (5)
Country | Link |
---|---|
US (3) | US10692490B2 (zh) |
KR (1) | KR20210038871A (zh) |
CN (1) | CN112424860A (zh) |
GB (2) | GB2588040B (zh) |
WO (1) | WO2020025951A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744765A (zh) * | 2021-08-19 | 2021-12-03 | 深圳市新国都股份有限公司 | Pos机语音播报检测方法、装置及存储介质 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2578386B (en) | 2017-06-27 | 2021-12-01 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
JP7056340B2 (ja) * | 2018-04-12 | 2022-04-19 | 富士通株式会社 | 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置 |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11023570B2 (en) * | 2019-01-28 | 2021-06-01 | EMC IP Holding Company LLC | User authentication with acoustic fingerprinting |
KR102493866B1 (ko) * | 2020-02-20 | 2023-01-30 | 시러스 로직 인터내셔널 세미컨덕터 리미티드 | 디지털 마이크로폰을 가진 오디오 시스템 |
US11341974B2 (en) | 2020-05-21 | 2022-05-24 | Cirrus Logic, Inc. | Authenticating received speech |
US11721346B2 (en) | 2020-06-10 | 2023-08-08 | Cirrus Logic, Inc. | Authentication device |
US20230343359A1 (en) * | 2022-04-26 | 2023-10-26 | Cirrus Logic International Semiconductor Ltd. | Live speech detection |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5625747A (en) * | 1994-09-21 | 1997-04-29 | Lucent Technologies Inc. | Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping |
US20140288938A1 (en) * | 2011-11-04 | 2014-09-25 | Northeastern University | Systems and methods for enhancing place-of-articulation features in frequency-lowered speech |
EP2860706A2 (en) * | 2013-09-24 | 2015-04-15 | Agnitio S.L. | Anti-spoofing |
US20150206538A1 (en) * | 2014-01-17 | 2015-07-23 | Agnitio, S.L. | Tamper-resistant element for use in speaker recognition |
US20150269945A1 (en) * | 2014-03-24 | 2015-09-24 | Thomas Jason Taylor | Voice-key electronic commerce |
JP2016042162A (ja) * | 2014-08-19 | 2016-03-31 | 大学共同利用機関法人情報・システム研究機構 | 生体検知装置、生体検知方法及びプログラム |
CN106297772A (zh) * | 2016-08-24 | 2017-01-04 | 武汉大学 | 基于扬声器引入的语音信号失真特性的回放攻检测方法 |
GB2541466A (en) * | 2015-08-21 | 2017-02-22 | Validsoft Uk Ltd | Replay attack detection |
US20180040325A1 (en) * | 2016-08-03 | 2018-02-08 | Cirrus Logic International Semiconductor Ltd. | Speaker recognition |
US20180060557A1 (en) * | 2016-08-25 | 2018-03-01 | Nxp Usa, Inc. | Spoken pass-phrase suitability determination |
CN108039176A (zh) * | 2018-01-11 | 2018-05-15 | 广州势必可赢网络科技有限公司 | 一种防录音攻击的声纹认证方法、装置及门禁*** |
Family Cites Families (304)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1229725B (it) | 1989-05-15 | 1991-09-07 | Face Standard Ind | Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato |
US5568559A (en) | 1993-12-17 | 1996-10-22 | Canon Kabushiki Kaisha | Sound processing apparatus |
US5710866A (en) | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5787187A (en) | 1996-04-01 | 1998-07-28 | Sandia Corporation | Systems and methods for biometric identification using the acoustic properties of the ear canal |
US5838515A (en) | 1996-04-30 | 1998-11-17 | Quantum Corporation | PWM/linear driver for disk drive voice coil actuator |
WO1998034216A2 (en) | 1997-01-31 | 1998-08-06 | T-Netix, Inc. | System and method for detecting a recorded voice |
US6182037B1 (en) | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
US6229880B1 (en) | 1998-05-21 | 2001-05-08 | Bell Atlantic Network Services, Inc. | Methods and apparatus for efficiently providing a communication system with speech recognition capabilities |
JP3893763B2 (ja) | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
US6249237B1 (en) | 1998-10-09 | 2001-06-19 | Lsi Logic Corporation | System and method for bandpass shaping in an oversampling converter |
US6275806B1 (en) | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US7280970B2 (en) * | 1999-10-04 | 2007-10-09 | Beepcard Ltd. | Sonic/ultrasonic authentication device |
US7039951B1 (en) | 2000-06-06 | 2006-05-02 | International Business Machines Corporation | System and method for confidence based incremental access authentication |
JP2002143130A (ja) | 2000-11-08 | 2002-05-21 | Matsushita Electric Ind Co Ltd | 個人認証方法、および個人認証装置、およびこの装置を搭載した情報通信装置、および個人認証システム |
US7016833B2 (en) | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
US8812319B2 (en) | 2001-01-31 | 2014-08-19 | Ibiometrics, Inc. | Dynamic pass phrase security system (DPSS) |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
GB2375205A (en) | 2001-05-03 | 2002-11-06 | Orange Personal Comm Serv Ltd | Determining identity of a user |
US20020194003A1 (en) | 2001-06-05 | 2002-12-19 | Mozer Todd F. | Client-server security system and method |
DE60231617D1 (de) | 2001-06-19 | 2009-04-30 | Speech Sentinel Ltd | Sprecherverifikation |
JP2003058190A (ja) | 2001-08-09 | 2003-02-28 | Mitsubishi Heavy Ind Ltd | 個人認証方式 |
US7240007B2 (en) | 2001-12-13 | 2007-07-03 | Matsushita Electric Industrial Co., Ltd. | Speaker authentication by fusion of voiceprint match attempt results with additional information |
US8148989B2 (en) | 2002-03-11 | 2012-04-03 | Keith Kopp | Ferromagnetic detection enhancer compatible with magnetic resonance |
JP4195267B2 (ja) | 2002-03-14 | 2008-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、その音声認識方法及びプログラム |
JP2003271191A (ja) | 2002-03-15 | 2003-09-25 | Toshiba Corp | 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム |
US7337115B2 (en) | 2002-07-03 | 2008-02-26 | Verizon Corporate Services Group Inc. | Systems and methods for providing acoustic classification |
US7292977B2 (en) | 2002-10-17 | 2007-11-06 | Bbnt Solutions Llc | Systems and methods for providing online fast speaker adaptation in speech recognition |
JP4247002B2 (ja) | 2003-01-22 | 2009-04-02 | 富士通株式会社 | マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置 |
US7418392B1 (en) | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
US20060116874A1 (en) | 2003-10-24 | 2006-06-01 | Jonas Samuelsson | Noise-dependent postfiltering |
US7492913B2 (en) | 2003-12-16 | 2009-02-17 | Intel Corporation | Location aware directed audio |
US20050171774A1 (en) | 2004-01-30 | 2005-08-04 | Applebaum Ted H. | Features and techniques for speaker authentication |
JP4217646B2 (ja) | 2004-03-26 | 2009-02-04 | キヤノン株式会社 | 認証方法及び認証装置 |
EP1600791B1 (en) | 2004-05-26 | 2009-04-01 | Honda Research Institute Europe GmbH | Sound source localization based on binaural signals |
JP4359887B2 (ja) | 2004-06-23 | 2009-11-11 | 株式会社デンソー | 個人認証システム |
WO2006054205A1 (en) | 2004-11-16 | 2006-05-26 | Koninklijke Philips Electronics N.V. | Audio device for and method of determining biometric characteristincs of a user. |
US7529379B2 (en) | 2005-01-04 | 2009-05-05 | Motorola, Inc. | System and method for determining an in-ear acoustic response for confirming the identity of a user |
US20060171571A1 (en) | 2005-02-01 | 2006-08-03 | Chan Michael T | Systems and methods for quality-based fusion of multiple biometrics for authentication |
JP3906230B2 (ja) | 2005-03-11 | 2007-04-18 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7536304B2 (en) | 2005-05-27 | 2009-05-19 | Porticus, Inc. | Method and system for bio-metric voice print authentication |
US20070055517A1 (en) | 2005-08-30 | 2007-03-08 | Brian Spector | Multi-factor biometric authentication |
CN101437449B (zh) | 2005-09-22 | 2012-02-01 | 皇家飞利浦电子股份有限公司 | 用于声学外耳表征的方法和设备 |
US8458465B1 (en) | 2005-11-16 | 2013-06-04 | AT&T Intellectual Property II, L. P. | Biometric authentication |
US20070129941A1 (en) | 2005-12-01 | 2007-06-07 | Hitachi, Ltd. | Preprocessing system and method for reducing FRR in speaking recognition |
US8549318B2 (en) | 2006-02-13 | 2013-10-01 | Affirmed Technologies, Llc | Method and system for preventing unauthorized use of a vehicle by an operator of the vehicle |
DE602006010511D1 (de) | 2006-04-03 | 2009-12-31 | Voice Trust Ag | Sprecherauthentifizierung in digitalen Kommunikationsnetzen |
US7552467B2 (en) | 2006-04-24 | 2009-06-23 | Jeffrey Dean Lindsay | Security systems for protecting an asset |
US20070276658A1 (en) | 2006-05-23 | 2007-11-29 | Barry Grayson Douglass | Apparatus and Method for Detecting Speech Using Acoustic Signals Outside the Audible Frequency Range |
US20080040615A1 (en) | 2006-06-30 | 2008-02-14 | Electronic Plastics, Llc | Biometric embedded device |
US8760636B2 (en) | 2006-08-11 | 2014-06-24 | Thermo Scientific Portable Analytical Instruments Inc. | Object scanning and authentication |
US7372770B2 (en) | 2006-09-12 | 2008-05-13 | Mitsubishi Electric Research Laboratories, Inc. | Ultrasonic Doppler sensor for speech-based user interface |
EP2070231B1 (en) | 2006-10-03 | 2013-07-03 | Shazam Entertainment, Ltd. | Method for high throughput of identification of distributed broadcast content |
EP1928213B1 (en) | 2006-11-30 | 2012-08-01 | Harman Becker Automotive Systems GmbH | Headtracking system and method |
JP5012092B2 (ja) | 2007-03-02 | 2012-08-29 | 富士通株式会社 | 生体認証装置、生体認証プログラムおよび複合型生体認証方法 |
WO2008113024A1 (en) | 2007-03-14 | 2008-09-18 | Spectros Corporation | Metabolism-or biochemical-based anti-spoofing biometrics devices, systems, and methods |
US20080285813A1 (en) | 2007-05-14 | 2008-11-20 | Motorola, Inc. | Apparatus and recognition method for capturing ear biometric in wireless communication devices |
CN101589430B (zh) | 2007-08-10 | 2012-07-18 | 松下电器产业株式会社 | 声音分离装置、声音合成装置及音质变换装置 |
AU2015202397B2 (en) | 2007-09-24 | 2017-03-02 | Apple Inc. | Embedded authentication systems in an electronic device |
US20090105548A1 (en) | 2007-10-23 | 2009-04-23 | Bart Gary F | In-Ear Biometrics |
JP5141696B2 (ja) | 2008-02-22 | 2013-02-13 | 日本電気株式会社 | 生体認証装置、生体認証方法及び生体認証用プログラム |
US8150108B2 (en) | 2008-03-17 | 2012-04-03 | Ensign Holdings, Llc | Systems and methods of identification based on biometric parameters |
US8315876B2 (en) | 2008-05-09 | 2012-11-20 | Plantronics, Inc. | Headset wearer identity authentication with voice print or speech recognition |
US8380503B2 (en) | 2008-06-23 | 2013-02-19 | John Nicholas and Kristin Gross Trust | System and method for generating challenge items for CAPTCHAs |
US8793135B2 (en) | 2008-08-25 | 2014-07-29 | At&T Intellectual Property I, L.P. | System and method for auditory captchas |
US20100076770A1 (en) | 2008-09-23 | 2010-03-25 | Veeru Ramaswamy | System and Method for Improving the Performance of Voice Biometrics |
JP2010086328A (ja) | 2008-09-30 | 2010-04-15 | Yamaha Corp | 認証装置および携帯電話機 |
US8190437B2 (en) | 2008-10-24 | 2012-05-29 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8332223B2 (en) | 2008-10-24 | 2012-12-11 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8442824B2 (en) | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
US8762149B2 (en) | 2008-12-10 | 2014-06-24 | Marta Sánchez Asenjo | Method for verifying the identity of a speaker and related computer readable medium and computer |
US20150112682A1 (en) | 2008-12-10 | 2015-04-23 | Agnitio Sl | Method for verifying the identity of a speaker and related computer readable medium and computer |
US9767806B2 (en) | 2013-09-24 | 2017-09-19 | Cirrus Logic International Semiconductor Ltd. | Anti-spoofing |
US8997191B1 (en) | 2009-02-03 | 2015-03-31 | ServiceSource International, Inc. | Gradual template generation |
US8275622B2 (en) | 2009-02-06 | 2012-09-25 | Mitsubishi Electric Research Laboratories, Inc. | Ultrasonic doppler sensor for speaker recognition |
WO2010143393A1 (ja) | 2009-06-08 | 2010-12-16 | パナソニック株式会社 | 補聴器、中継器、補聴システム、補聴方法、プログラム、及び集積回路 |
US8130915B2 (en) | 2009-08-26 | 2012-03-06 | International Business Machines Corporation | Verification of user presence during an interactive voice response system session |
JP5397131B2 (ja) | 2009-09-29 | 2014-01-22 | 沖電気工業株式会社 | 音源方向推定装置及びプログラム |
CN101673544B (zh) | 2009-10-10 | 2012-07-04 | 上海电虹软件有限公司 | 一种基于声纹识别和定位跟踪的交叉监控方法和*** |
US20130024191A1 (en) | 2010-04-12 | 2013-01-24 | Freescale Semiconductor, Inc. | Audio communication device, method for outputting an audio signal, and communication system |
US8775179B2 (en) | 2010-05-06 | 2014-07-08 | Senam Consulting, Inc. | Speech-based speaker recognition systems and methods |
US10204625B2 (en) | 2010-06-07 | 2019-02-12 | Affectiva, Inc. | Audio analysis learning using video data |
US9118488B2 (en) | 2010-06-17 | 2015-08-25 | Aliphcom | System and method for controlling access to network services using biometric authentication |
US20110317848A1 (en) | 2010-06-23 | 2011-12-29 | Motorola, Inc. | Microphone Interference Detection Method and Apparatus |
US9064257B2 (en) | 2010-11-02 | 2015-06-23 | Homayoon Beigi | Mobile device transaction using multi-factor authentication |
US10042993B2 (en) | 2010-11-02 | 2018-08-07 | Homayoon Beigi | Access control through multifactor authentication with multimodal biometrics |
US9318114B2 (en) * | 2010-11-24 | 2016-04-19 | At&T Intellectual Property I, L.P. | System and method for generating challenge utterances for speaker verification |
US9354310B2 (en) | 2011-03-03 | 2016-05-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound |
US9049983B1 (en) | 2011-04-08 | 2015-06-09 | Amazon Technologies, Inc. | Ear recognition as device input |
US9646261B2 (en) | 2011-05-10 | 2017-05-09 | Nymi Inc. | Enabling continuous or instantaneous identity recognition of a large group of people based on physiological biometric signals obtained from members of a small group of people |
US8655796B2 (en) | 2011-06-17 | 2014-02-18 | Sanjay Udani | Methods and systems for recording verifiable documentation |
WO2012176199A1 (en) | 2011-06-22 | 2012-12-27 | Vocalzoom Systems Ltd | Method and system for identification of speech segments |
EP2546680B1 (en) | 2011-07-13 | 2014-06-04 | Sercel | Method and device for automatically detecting marine animals |
US8548803B2 (en) | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US9171548B2 (en) | 2011-08-19 | 2015-10-27 | The Boeing Company | Methods and systems for speaker identity verification |
CN102982804B (zh) | 2011-09-02 | 2017-05-03 | 杜比实验室特许公司 | 音频分类方法和*** |
US8768707B2 (en) | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
FR2984254B1 (fr) | 2011-12-16 | 2016-07-01 | Renault Sa | Controle de vehicules autonomes |
US8613066B1 (en) | 2011-12-30 | 2013-12-17 | Amazon Technologies, Inc. | Techniques for user authentication |
GB2499781A (en) | 2012-02-16 | 2013-09-04 | Ian Vince Mcloughlin | Acoustic information used to determine a user's mouth state which leads to operation of a voice activity detector |
US9042867B2 (en) | 2012-02-24 | 2015-05-26 | Agnitio S.L. | System and method for speaker recognition on mobile devices |
KR101971697B1 (ko) | 2012-02-24 | 2019-04-23 | 삼성전자주식회사 | 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치 |
CN105469805B (zh) | 2012-03-01 | 2018-01-12 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
WO2013131265A1 (en) | 2012-03-08 | 2013-09-12 | Nokia Corporation | A context-aware adaptive authentication method and apparatus |
US9857451B2 (en) | 2012-04-13 | 2018-01-02 | Qualcomm Incorporated | Systems and methods for mapping a source location |
US20130279724A1 (en) | 2012-04-19 | 2013-10-24 | Sony Computer Entertainment Inc. | Auto detection of headphone orientation |
US9013960B2 (en) | 2012-04-20 | 2015-04-21 | Symbol Technologies, Inc. | Orientation of an ultrasonic signal |
US8676579B2 (en) | 2012-04-30 | 2014-03-18 | Blackberry Limited | Dual microphone voice authentication for mobile device |
KR20130133629A (ko) | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9363670B2 (en) | 2012-08-27 | 2016-06-07 | Optio Labs, Inc. | Systems and methods for restricting access to network resources via in-location access point protocol |
EP2704052A1 (en) | 2012-08-28 | 2014-03-05 | Solink Corporation | Transaction verification system |
AU2013315343B2 (en) | 2012-09-11 | 2019-05-30 | Auraya Pty Ltd | Voice authentication system and method |
US9898723B2 (en) | 2012-12-19 | 2018-02-20 | Visa International Service Association | System and method for voice authentication |
US8856541B1 (en) * | 2013-01-10 | 2014-10-07 | Google Inc. | Liveness detection |
US10249306B2 (en) | 2013-01-17 | 2019-04-02 | Nec Corporation | Speaker identification device, speaker identification method, and recording medium |
WO2014116977A2 (en) | 2013-01-25 | 2014-07-31 | Qualcomm Incorporated | Adaptive observation of behavioral features on a mobile device |
CN103973441B (zh) | 2013-01-29 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 基于音视频的用户认证方法和装置 |
US9152869B2 (en) | 2013-02-26 | 2015-10-06 | Qtech Systems Inc. | Biometric authentication systems and methods |
CN104995865B (zh) | 2013-03-14 | 2018-06-08 | 英特尔公司 | 基于声音和/或面部辨识的服务提供 |
US9721086B2 (en) | 2013-03-15 | 2017-08-01 | Advanced Elemental Technologies, Inc. | Methods and systems for secure and reliable identity-based computing |
US9263055B2 (en) | 2013-04-10 | 2016-02-16 | Google Inc. | Systems and methods for three-dimensional audio CAPTCHA |
US9317736B1 (en) | 2013-05-08 | 2016-04-19 | Amazon Technologies, Inc. | Individual record verification based on features |
US9679053B2 (en) | 2013-05-20 | 2017-06-13 | The Nielsen Company (Us), Llc | Detecting media watermarks in magnetic field data |
EP2816554A3 (en) | 2013-05-28 | 2015-03-25 | Samsung Electronics Co., Ltd | Method of executing voice recognition of electronic device and electronic device using the same |
GB2515527B (en) | 2013-06-26 | 2016-08-31 | Cirrus Logic Int Semiconductor Ltd | Speech Recognition |
US9697831B2 (en) | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
CN105283836B (zh) | 2013-07-11 | 2019-06-04 | 英特尔公司 | 用于设备唤醒的设备、方法、装置及计算机可读存储介质 |
US9965608B2 (en) | 2013-07-18 | 2018-05-08 | Samsung Electronics Co., Ltd. | Biometrics-based authentication method and apparatus |
US9711148B1 (en) | 2013-07-18 | 2017-07-18 | Google Inc. | Dual model speaker identification |
CA2917708C (en) | 2013-07-25 | 2021-12-28 | Nymi Inc. | Preauthorized wearable biometric device, system and method for use thereof |
US9523764B2 (en) | 2013-08-01 | 2016-12-20 | Symbol Technologies, Llc | Detection of multipath and transmit level adaptation thereto for ultrasonic locationing |
CN104347067B (zh) * | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US10030878B2 (en) | 2013-08-21 | 2018-07-24 | Honeywell International Inc. | User interaction with building controller device using a remote server and a duplex connection |
WO2015030474A1 (ko) | 2013-08-26 | 2015-03-05 | 삼성전자 주식회사 | 음성 인식을 위한 전자 장치 및 방법 |
US9484036B2 (en) | 2013-08-28 | 2016-11-01 | Nuance Communications, Inc. | Method and apparatus for detecting synthesized speech |
US9865253B1 (en) * | 2013-09-03 | 2018-01-09 | VoiceCipher, Inc. | Synthetic speech discrimination systems and methods |
WO2015047032A1 (ko) | 2013-09-30 | 2015-04-02 | 삼성전자 주식회사 | 생체 신호에 기초하여 컨텐츠를 처리하는 방법, 및 그에 따른 디바이스 |
US20170049335A1 (en) | 2015-08-19 | 2017-02-23 | Logitech Europe, S.A. | Earphones with biometric sensors |
WO2015060867A1 (en) | 2013-10-25 | 2015-04-30 | Intel Corporation | Techniques for preventing voice replay attacks |
CN104143326B (zh) | 2013-12-03 | 2016-11-02 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
ES2907259T3 (es) | 2013-12-06 | 2022-04-22 | The Adt Security Corp | Aplicación activada por voz para dispositivos móviles |
US9530066B2 (en) | 2013-12-11 | 2016-12-27 | Descartes Biometrics, Inc | Ear-scan-based biometric authentication |
US20150168996A1 (en) | 2013-12-17 | 2015-06-18 | United Sciences, Llc | In-ear wearable computer |
US9390726B1 (en) | 2013-12-30 | 2016-07-12 | Google Inc. | Supplementing speech commands with gestures |
US9430629B1 (en) | 2014-01-24 | 2016-08-30 | Microstrategy Incorporated | Performing biometrics in uncontrolled environments |
WO2015117674A1 (en) | 2014-02-07 | 2015-08-13 | Huawei Technologies Co., Ltd. | Method for unlocking a mobile communication device and a device thereof |
KR101844516B1 (ko) | 2014-03-03 | 2018-04-02 | 삼성전자주식회사 | 컨텐츠 분석 방법 및 디바이스 |
US10248770B2 (en) | 2014-03-17 | 2019-04-02 | Sensory, Incorporated | Unobtrusive verification of user identity |
US10540979B2 (en) | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
WO2015163774A1 (en) | 2014-04-24 | 2015-10-29 | Igor Muttik | Methods and apparatus to enhance security of authentication |
US9412358B2 (en) | 2014-05-13 | 2016-08-09 | At&T Intellectual Property I, L.P. | System and method for data-driven socially customized models for language generation |
KR101598771B1 (ko) | 2014-06-11 | 2016-03-02 | 주식회사 슈프리마에이치큐 | 얼굴 인식 생체 인증 방법 및 장치 |
US9384738B2 (en) | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
KR102221676B1 (ko) | 2014-07-02 | 2021-03-02 | 삼성전자주식회사 | 자기장을 이용한 스피커 위치 검출 및 레벨 조절을 위한 사용자 단말 장치, 방법 및 오디오 시스템 |
EP3164865A1 (en) | 2014-07-04 | 2017-05-10 | Intel Corporation | Replay attack detection in automatic speaker verification systems |
US9613200B2 (en) | 2014-07-16 | 2017-04-04 | Descartes Biometrics, Inc. | Ear biometric capture, authentication, and identification method and system |
US9549273B2 (en) | 2014-08-28 | 2017-01-17 | Qualcomm Incorporated | Selective enabling of a component by a microphone circuit |
US9959863B2 (en) | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
US10008208B2 (en) | 2014-09-18 | 2018-06-26 | Nuance Communications, Inc. | Method and apparatus for performing speaker recognition |
US9548979B1 (en) | 2014-09-19 | 2017-01-17 | United Services Automobile Association (Usaa) | Systems and methods for authentication program enrollment |
US9794653B2 (en) | 2014-09-27 | 2017-10-17 | Valencell, Inc. | Methods and apparatus for improving signal quality in wearable biometric monitoring devices |
JP6303971B2 (ja) | 2014-10-17 | 2018-04-04 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
EP3016314B1 (en) | 2014-10-28 | 2016-11-09 | Akademia Gorniczo-Hutnicza im. Stanislawa Staszica w Krakowie | A system and a method for detecting recorded biometric information |
US9418656B2 (en) | 2014-10-29 | 2016-08-16 | Google Inc. | Multi-stage hotword detection |
US10262655B2 (en) | 2014-11-03 | 2019-04-16 | Microsoft Technology Licensing, Llc | Augmentation of key phrase user recognition |
US10318575B2 (en) | 2014-11-14 | 2019-06-11 | Zorroa Corporation | Systems and methods of building and using an image catalog |
US20160148012A1 (en) | 2014-11-19 | 2016-05-26 | Speechpro, Inc. | System, method and apparatus for voice biometric and interactive authentication |
WO2016090379A2 (en) | 2014-12-05 | 2016-06-09 | Texas State University | Detection of print-based spoofing attacks |
JP6394709B2 (ja) | 2014-12-11 | 2018-09-26 | 日本電気株式会社 | 話者識別装置および話者識別用の登録音声の特徴量登録方法 |
US9473851B2 (en) | 2014-12-22 | 2016-10-18 | Qualcomm Incorporated | Speaker protection circuit with improved accuracy |
GB201509483D0 (en) | 2014-12-23 | 2015-07-15 | Cirrus Logic Internat Uk Ltd | Feature extraction |
US9437193B2 (en) | 2015-01-21 | 2016-09-06 | Microsoft Technology Licensing, Llc | Environment adjusted speaker identification |
US9734410B2 (en) | 2015-01-23 | 2017-08-15 | Shindig, Inc. | Systems and methods for analyzing facial expressions within an online classroom to gauge participant attentiveness |
US9300801B1 (en) | 2015-01-30 | 2016-03-29 | Mattersight Corporation | Personality analysis of mono-recording system and methods |
US20170011406A1 (en) | 2015-02-10 | 2017-01-12 | NXT-ID, Inc. | Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction |
US9305155B1 (en) | 2015-02-12 | 2016-04-05 | United Services Automobile Association (Usaa) | Toggling biometric authentication |
US10476872B2 (en) | 2015-02-20 | 2019-11-12 | Sri International | Joint speaker authentication and key phrase identification |
US10305895B2 (en) | 2015-04-14 | 2019-05-28 | Blubox Security, Inc. | Multi-factor and multi-mode biometric physical access control device |
JP6596376B2 (ja) | 2015-04-22 | 2019-10-23 | パナソニック株式会社 | 話者識別方法及び話者識別装置 |
US10709388B2 (en) | 2015-05-08 | 2020-07-14 | Staton Techiya, Llc | Biometric, physiological or environmental monitoring using a closed chamber |
US20180292523A1 (en) | 2015-05-31 | 2018-10-11 | Sens4Care | Remote monitoring system of human activity |
US9641585B2 (en) | 2015-06-08 | 2017-05-02 | Cisco Technology, Inc. | Automated video editing based on activity in video conference |
AU2016278859B2 (en) | 2015-06-16 | 2019-07-18 | Jumio Corporation | Systems and methods for spoof detection and liveness analysis |
CN105185380B (zh) | 2015-06-24 | 2020-06-23 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
US10178301B1 (en) | 2015-06-25 | 2019-01-08 | Amazon Technologies, Inc. | User identification based on voice and face |
US10546183B2 (en) * | 2015-08-10 | 2020-01-28 | Yoti Holding Limited | Liveness detection |
US10277581B2 (en) | 2015-09-08 | 2019-04-30 | Oath, Inc. | Audio verification |
US10856068B2 (en) | 2015-09-16 | 2020-12-01 | Apple Inc. | Earbuds |
US9838775B2 (en) | 2015-09-16 | 2017-12-05 | Apple Inc. | Earbuds with biometric sensing |
WO2017055551A1 (en) | 2015-09-30 | 2017-04-06 | Koninklijke Philips N.V. | Ultrasound apparatus and method for determining a medical condition of a subject |
EP3156978A1 (en) | 2015-10-14 | 2017-04-19 | Samsung Electronics Polska Sp. z o.o. | A system and a method for secure speaker verification |
KR102405793B1 (ko) | 2015-10-15 | 2022-06-08 | 삼성전자 주식회사 | 음성 신호 인식 방법 및 이를 제공하는 전자 장치 |
CN107016999B (zh) | 2015-10-16 | 2022-06-14 | 谷歌有限责任公司 | 热词识别 |
US9613245B1 (en) | 2015-10-22 | 2017-04-04 | Motorola Mobility Llc | Device and method for authentication by a biometric sensor |
US10062388B2 (en) | 2015-10-22 | 2018-08-28 | Motorola Mobility Llc | Acoustic and surface vibration authentication |
CN105244031A (zh) | 2015-10-26 | 2016-01-13 | 北京锐安科技有限公司 | 说话人识别方法和装置 |
US10937407B2 (en) | 2015-10-26 | 2021-03-02 | Staton Techiya, Llc | Biometric, physiological or environmental monitoring using a closed chamber |
JP6324939B2 (ja) | 2015-11-05 | 2018-05-16 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置およびログイン制御方法 |
US20170150254A1 (en) | 2015-11-19 | 2017-05-25 | Vocalzoom Systems Ltd. | System, device, and method of sound isolation and signal enhancement |
US9691392B1 (en) | 2015-12-09 | 2017-06-27 | Uniphore Software Systems | System and method for improved audio consistency |
CN105933272A (zh) | 2015-12-30 | 2016-09-07 | ***股份有限公司 | 能够防止录音攻击的声纹认证方法、服务器、终端及*** |
CN105702263B (zh) | 2016-01-06 | 2019-08-30 | 清华大学 | 语音重放检测方法和装置 |
US9613640B1 (en) | 2016-01-14 | 2017-04-04 | Audyssey Laboratories, Inc. | Speech/music discrimination |
WO2017127646A1 (en) | 2016-01-22 | 2017-07-27 | Knowles Electronics, Llc | Shared secret voice authentication |
SG10201600561YA (en) | 2016-01-25 | 2017-08-30 | Mastercard Asia Pacific Pte Ltd | A Method For Facilitating A Transaction Using A Humanoid Robot |
DE102016000630A1 (de) | 2016-01-25 | 2017-07-27 | Boxine Gmbh | Spielzeug |
US11783524B2 (en) | 2016-02-10 | 2023-10-10 | Nitin Vats | Producing realistic talking face with expression using images text and voice |
US10262188B2 (en) | 2016-02-15 | 2019-04-16 | Qualcomm Incorporated | Liveness and spoof detection for ultrasonic fingerprint sensors |
US10372889B2 (en) | 2016-02-19 | 2019-08-06 | At&T Mobility Ii Llc | Event characteristic analysis for event input discrimination |
US20170256270A1 (en) | 2016-03-02 | 2017-09-07 | Motorola Mobility Llc | Voice Recognition Accuracy in High Noise Conditions |
US10476888B2 (en) | 2016-03-23 | 2019-11-12 | Georgia Tech Research Corporation | Systems and methods for using video for user and message authentication |
US9972322B2 (en) | 2016-03-29 | 2018-05-15 | Intel Corporation | Speaker recognition using adaptive thresholding |
US9706304B1 (en) | 2016-03-29 | 2017-07-11 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to control audio output for a particular ear of a user |
CN105938716B (zh) | 2016-03-30 | 2019-05-28 | 浙江大学 | 一种基于多精度拟合的样本复制语音自动检测方法 |
CN105913855B (zh) | 2016-04-11 | 2019-11-22 | 宁波大学 | 一种基于长窗比例因子的回放语音攻击检测算法 |
KR102501243B1 (ko) | 2016-04-12 | 2023-02-17 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
US10728659B2 (en) | 2016-05-02 | 2020-07-28 | Purifi Aps | Method of controlling loudspeaker diaphragm excursion |
US9984314B2 (en) | 2016-05-06 | 2018-05-29 | Microsoft Technology Licensing, Llc | Dynamic classifier selection based on class skew |
US20170347348A1 (en) | 2016-05-25 | 2017-11-30 | Smartear, Inc. | In-Ear Utility Device Having Information Sharing |
CA3025726A1 (en) | 2016-05-27 | 2017-11-30 | Bugatone Ltd. | Determining earpiece presence at a user ear |
CN109313902A (zh) | 2016-06-06 | 2019-02-05 | 思睿逻辑国际半导体有限公司 | 语音用户接口 |
US10635800B2 (en) | 2016-06-07 | 2020-04-28 | Vocalzoom Systems Ltd. | System, device, and method of voice-based user authentication utilizing a challenge |
CN105869630B (zh) | 2016-06-27 | 2019-08-02 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及*** |
US9960741B2 (en) | 2016-06-27 | 2018-05-01 | Dialog Semiconductor (Uk) Limited | High frequency common mode rejection technique for large dynamic common mode signals |
US10964329B2 (en) | 2016-07-11 | 2021-03-30 | FTR Labs Pty Ltd | Method and system for automatically diarising a sound recording |
US20180018300A1 (en) | 2016-07-16 | 2018-01-18 | Ron Zass | System and method for visually presenting auditory information |
KR20180013524A (ko) | 2016-07-29 | 2018-02-07 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 생체 정보 인증 방법 |
GB2552721A (en) | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Methods and apparatus for authentication in an electronic device |
US9892732B1 (en) | 2016-08-12 | 2018-02-13 | Paypal, Inc. | Location based voice recognition system |
US10079024B1 (en) | 2016-08-19 | 2018-09-18 | Amazon Technologies, Inc. | Detecting replay attacks in voice-based authentication |
US10223512B2 (en) | 2016-08-25 | 2019-03-05 | Sensory, Incorporated | Voice-based liveness verification |
US10460095B2 (en) | 2016-09-30 | 2019-10-29 | Bragi GmbH | Earpiece with biometric identifiers |
US10210723B2 (en) | 2016-10-17 | 2019-02-19 | At&T Intellectual Property I, L.P. | Wearable ultrasonic sensors with haptic signaling for blindside risk detection and notification |
US10198626B2 (en) | 2016-10-19 | 2019-02-05 | Snap Inc. | Neural networks for facial modeling |
US10678502B2 (en) | 2016-10-20 | 2020-06-09 | Qualcomm Incorporated | Systems and methods for in-ear control of remote devices |
JP2018074366A (ja) | 2016-10-28 | 2018-05-10 | 京セラ株式会社 | 電子機器、制御方法およびプログラム |
US20180146370A1 (en) * | 2016-11-22 | 2018-05-24 | Ashok Krishnaswamy | Method and apparatus for secured authentication using voice biometrics and watermarking |
CN106531172B (zh) | 2016-11-23 | 2019-06-14 | 湖北大学 | 基于环境噪声变化检测的说话人语音回放鉴别方法及*** |
KR102072235B1 (ko) | 2016-12-08 | 2020-02-03 | 한국전자통신연구원 | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 |
US10432623B2 (en) | 2016-12-16 | 2019-10-01 | Plantronics, Inc. | Companion out-of-band authentication |
US10497382B2 (en) | 2016-12-16 | 2019-12-03 | Google Llc | Associating faces with voices for speaker diarization within videos |
US11557290B2 (en) | 2016-12-19 | 2023-01-17 | Rovi Guides, Inc. | Systems and methods for distinguishing valid voice commands from false voice commands in an interactive media guidance application |
US10192553B1 (en) | 2016-12-20 | 2019-01-29 | Amazon Technologes, Inc. | Initiating device speech activity monitoring for communication sessions |
US10032451B1 (en) | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
US10237070B2 (en) | 2016-12-31 | 2019-03-19 | Nok Nok Labs, Inc. | System and method for sharing keys across authenticators |
US20180187969A1 (en) | 2017-01-03 | 2018-07-05 | Samsung Electronics Co., Ltd. | Refrigerator |
KR20180090507A (ko) | 2017-02-03 | 2018-08-13 | 삼성전자주식회사 | 생체 정보 인증을 위한 전자 장치 및 시스템 |
US10467509B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
US10360916B2 (en) | 2017-02-22 | 2019-07-23 | Plantronics, Inc. | Enhanced voiceprint authentication |
WO2018160943A1 (en) | 2017-03-03 | 2018-09-07 | Pindrop Security, Inc. | Method and apparatus for detecting spoofing conditions |
US9990926B1 (en) | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
US10764043B2 (en) * | 2017-04-05 | 2020-09-01 | University Of Florida Research Foundation, Incorporated | Identity and content authentication for phone calls |
US10347244B2 (en) | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
US10313782B2 (en) | 2017-05-04 | 2019-06-04 | Apple Inc. | Automatic speech recognition triggering system |
US10311870B2 (en) | 2017-05-10 | 2019-06-04 | Ecobee Inc. | Computerized device with voice command input capability |
DK179867B1 (en) | 2017-05-16 | 2019-08-06 | Apple Inc. | RECORDING AND SENDING EMOJI |
US10410634B2 (en) | 2017-05-18 | 2019-09-10 | Smartear, Inc. | Ear-borne audio device conversation recording and compressed data transmission |
WO2018213746A1 (en) | 2017-05-19 | 2018-11-22 | Plantronics, Inc. | Headset for acoustic authentication of a user |
US10210685B2 (en) | 2017-05-23 | 2019-02-19 | Mastercard International Incorporated | Voice biometric analysis systems and methods for verbal transactions conducted over a communications network |
KR102371313B1 (ko) | 2017-05-29 | 2022-03-08 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 |
US11354390B2 (en) | 2017-06-04 | 2022-06-07 | Apple Inc. | Biometric authentication with user input |
US10469946B2 (en) | 2017-06-06 | 2019-11-05 | Facebook Technologies, Llc | Over-ear speaker system for head-mounted display unit |
JP6677796B2 (ja) | 2017-06-13 | 2020-04-08 | ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド | 話者照合の方法、装置、及びシステム |
US10339935B2 (en) | 2017-06-19 | 2019-07-02 | Intel Corporation | Context-aware enrollment for text independent speaker recognition |
GB2578386B (en) | 2017-06-27 | 2021-12-01 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
JP7197259B2 (ja) | 2017-08-25 | 2022-12-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置およびプログラム |
JP7123540B2 (ja) | 2017-09-25 | 2022-08-23 | キヤノン株式会社 | 音声情報による入力を受け付ける情報処理端末、方法、その情報処理端末を含むシステム |
US10733987B1 (en) | 2017-09-26 | 2020-08-04 | Amazon Technologies, Inc. | System and methods for providing unplayed content |
US11769510B2 (en) | 2017-09-29 | 2023-09-26 | Cirrus Logic Inc. | Microphone authentication |
GB2567018B (en) | 2017-09-29 | 2020-04-01 | Cirrus Logic Int Semiconductor Ltd | Microphone authentication |
US10692492B2 (en) | 2017-09-29 | 2020-06-23 | Intel IP Corporation | Techniques for client-side speech domain detection using gyroscopic data and a system using the same |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2567703B (en) | 2017-10-20 | 2022-07-13 | Cirrus Logic Int Semiconductor Ltd | Secure voice biometric authentication |
US10515640B2 (en) | 2017-11-08 | 2019-12-24 | Intel Corporation | Generating dialogue based on verification scores |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US10733276B2 (en) | 2017-12-08 | 2020-08-04 | Cirrus Logic International Semiconductor Ltd. | Multi-microphone human talker detection |
NO344671B1 (en) | 2017-12-21 | 2020-03-02 | Elliptic Laboratories As | Contextual display |
US10573323B2 (en) | 2017-12-26 | 2020-02-25 | Intel Corporation | Speaker recognition based on vibration signals |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US10834365B2 (en) | 2018-02-08 | 2020-11-10 | Nortek Security & Control Llc | Audio-visual monitoring using a virtual assistant |
US11335079B2 (en) | 2018-03-05 | 2022-05-17 | Intel Corporation | Method and system of reflection suppression for image processing |
US10063542B1 (en) | 2018-03-16 | 2018-08-28 | Fmr Llc | Systems and methods for simultaneous voice and sound multifactor authentication |
US10878825B2 (en) | 2018-03-21 | 2020-12-29 | Cirrus Logic, Inc. | Biometric processes |
US10720166B2 (en) | 2018-04-09 | 2020-07-21 | Synaptics Incorporated | Voice biometrics systems and methods |
US10685075B2 (en) | 2018-04-11 | 2020-06-16 | Motorola Solutions, Inc. | System and method for tailoring an electronic digital assistant query as a function of captured multi-party voice dialog and an electronically stored multi-party voice-interaction template |
US11196669B2 (en) | 2018-05-17 | 2021-12-07 | At&T Intellectual Property I, L.P. | Network routing of media streams based upon semantic contents |
US11405386B2 (en) | 2018-05-31 | 2022-08-02 | Samsung Electronics Co., Ltd. | Electronic device for authenticating user and operating method thereof |
LU100813B1 (en) | 2018-06-05 | 2019-12-05 | Essence Smartcare Ltd | Identifying a location of a person |
US10904246B2 (en) | 2018-06-26 | 2021-01-26 | International Business Machines Corporation | Single channel input multi-factor authentication via separate processing pathways |
US10593336B2 (en) * | 2018-07-26 | 2020-03-17 | Accenture Global Solutions Limited | Machine learning for authenticating voice |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
-
2018
- 2018-07-31 US US16/050,593 patent/US10692490B2/en active Active
-
2019
- 2019-07-31 CN CN201980045601.5A patent/CN112424860A/zh active Pending
- 2019-07-31 GB GB2019144.1A patent/GB2588040B/en active Active
- 2019-07-31 US US17/261,786 patent/US20210256971A1/en active Pending
- 2019-07-31 WO PCT/GB2019/052143 patent/WO2020025951A1/en active Application Filing
- 2019-07-31 GB GB2202521.7A patent/GB2604747B/en active Active
- 2019-07-31 KR KR1020217000242A patent/KR20210038871A/ko unknown
-
2020
- 2020-05-07 US US16/869,176 patent/US11631402B2/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5625747A (en) * | 1994-09-21 | 1997-04-29 | Lucent Technologies Inc. | Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping |
US20140288938A1 (en) * | 2011-11-04 | 2014-09-25 | Northeastern University | Systems and methods for enhancing place-of-articulation features in frequency-lowered speech |
EP2860706A2 (en) * | 2013-09-24 | 2015-04-15 | Agnitio S.L. | Anti-spoofing |
US20150206538A1 (en) * | 2014-01-17 | 2015-07-23 | Agnitio, S.L. | Tamper-resistant element for use in speaker recognition |
US20150269945A1 (en) * | 2014-03-24 | 2015-09-24 | Thomas Jason Taylor | Voice-key electronic commerce |
JP2016042162A (ja) * | 2014-08-19 | 2016-03-31 | 大学共同利用機関法人情報・システム研究機構 | 生体検知装置、生体検知方法及びプログラム |
GB2541466A (en) * | 2015-08-21 | 2017-02-22 | Validsoft Uk Ltd | Replay attack detection |
US20180040325A1 (en) * | 2016-08-03 | 2018-02-08 | Cirrus Logic International Semiconductor Ltd. | Speaker recognition |
CN106297772A (zh) * | 2016-08-24 | 2017-01-04 | 武汉大学 | 基于扬声器引入的语音信号失真特性的回放攻检测方法 |
US20180060557A1 (en) * | 2016-08-25 | 2018-03-01 | Nxp Usa, Inc. | Spoken pass-phrase suitability determination |
CN108039176A (zh) * | 2018-01-11 | 2018-05-15 | 广州势必可赢网络科技有限公司 | 一种防录音攻击的声纹认证方法、装置及门禁*** |
Non-Patent Citations (1)
Title |
---|
LANTIAN LI ET AL: "A Study on Replay Attack and Anti-Spoofing for Automatic Speaker Verification", ARXIV, 7 June 2017 (2017-06-07), pages 1 - 5 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744765A (zh) * | 2021-08-19 | 2021-12-03 | 深圳市新国都股份有限公司 | Pos机语音播报检测方法、装置及存储介质 |
CN113744765B (zh) * | 2021-08-19 | 2023-12-29 | 深圳市新国都股份有限公司 | Pos机语音播报检测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
GB2604747B (en) | 2023-03-29 |
US10692490B2 (en) | 2020-06-23 |
GB2588040A (en) | 2021-04-14 |
WO2020025951A1 (en) | 2020-02-06 |
GB2588040B (en) | 2022-04-13 |
GB2604747A (en) | 2022-09-14 |
GB202019144D0 (en) | 2021-01-20 |
US20210256971A1 (en) | 2021-08-19 |
US20200043484A1 (en) | 2020-02-06 |
US11631402B2 (en) | 2023-04-18 |
GB202202521D0 (en) | 2022-04-13 |
KR20210038871A (ko) | 2021-04-08 |
US20200265834A1 (en) | 2020-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112424860A (zh) | 重放攻击的检测 | |
US11270707B2 (en) | Analysing speech signals | |
CN110832580B (zh) | 重放攻击的检测 | |
US12026241B2 (en) | Detection of replay attack | |
US11694695B2 (en) | Speaker identification | |
US20200227071A1 (en) | Analysing speech signals | |
US20200201970A1 (en) | Biometric user recognition | |
US20230290335A1 (en) | Detection of live speech | |
US10839810B2 (en) | Speaker enrollment | |
JP6480124B2 (ja) | 生体検知装置、生体検知方法及びプログラム | |
US10818298B2 (en) | Audio processing | |
US11074917B2 (en) | Speaker identification | |
CN111201570A (zh) | 分析话语信号 | |
CN111201568A (zh) | 现场性的检测 | |
CN107039046B (zh) | 一种基于特征融合的语音声效模式检测方法 | |
US20230343359A1 (en) | Live speech detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |