CN112017639B - 语音信号的检测方法、终端设备及存储介质 - Google Patents
语音信号的检测方法、终端设备及存储介质 Download PDFInfo
- Publication number
- CN112017639B CN112017639B CN202010953527.1A CN202010953527A CN112017639B CN 112017639 B CN112017639 B CN 112017639B CN 202010953527 A CN202010953527 A CN 202010953527A CN 112017639 B CN112017639 B CN 112017639B
- Authority
- CN
- China
- Prior art keywords
- signal
- frequency
- frequency domain
- preset
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 17
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims description 67
- 238000005070 sampling Methods 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 34
- 230000005484 gravity Effects 0.000 claims description 17
- 230000003595 spectral effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 210000003027 ear inner Anatomy 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 210000002751 lymph Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种语音信号的检测方法、终端设备及存储介质,包括:接收终端设备中的骨传导传感器检测到的时域信号,并获取时域信号中的时域特征;将时域信号转换为频域信号,并获取频域信号中的频域特征;在时域特征满足第一预设条件且频域特征满足第二预设条件时,判定骨传导传感器检测到语音信号。本发明根据骨传导传感器检测到的时域信号之间进行语音检测,并不用结合麦克风检测到的信号,使得语音检测更加简单,同时由于仅结合骨传导传感器进行语音识别,成本更低。
Description
技术领域
本发明涉及通信领域,尤其涉及一种语音信号的检测方法、终端设备及存储介质。
背景技术
近年来语音控制由于其便捷性受到广大用户的欢迎,而由于麦克风往往能够检测到语音以及噪音,在终端设备根据语音进行控制时会出现错误,往往通过麦克风以及骨传导传感器检测到的信号来同时识别接收到的信号是否为语音信号,该识别过程过于复杂。
发明内容
本发明的主要目的在于提供一种语音信号的检测方法、终端设备及存储介质,旨在简化语音的识别。
为实现上述目的,本发明提供一种语音信号的检测方法,所述语音信号的检测方法应用于终端设备,所述语音信号的检测方法包括:
接收终端设备中的骨传导传感器检测到的时域信号,并获取所述时域信号中的时域特征;
将所述时域信号转换为频域信号,并获取所述频域信号中的频域特征;
在所述时域特征满足第一预设条件且所述频域特征满足第二预设条件时,判定所述骨传导传感器检测到语音信号。
可选地,所述获取所述时域信号中的时域特征的步骤包括:
获取所述时域信号的短时过零率;
获取所述时域信号的基因周期,所述时域特征包括短时过零率和基因周期,所述第一预设条件包括所述短时过零率大于预设短时过零率,且所述基因周期大于第一预设基音周期小于第二预设基音周期;
所述获取所述频域信号中的频域特征的步骤包括:
获取所述频域信号的频谱重心,所述频域特征包括所述频谱重心,所述第二预设条件包括所述频谱重心大于预设频谱重心。
可选地,所述获取所述时域信号的短时过零率的步骤包括:
获取所述时域信号中各个相邻采样点的符号函数的差值,所述符号函数的参数为采样点的采样信号;
对各个所述差值求和得到所述短时过零率。
可选地,所述获取所述时域信号的基音周期的步骤包括:
按照预设周期在所述时域信号中进行采样得到采样信号,并获取采样信号预设时间间隔后的参考信号;
获取所述采样信号与所述参考信号的相似度,根据所述相似度确定所述基音周期。
可选地,所述获取所述频域信号的频谱重心的步骤包括:
获取所述频域信号中各个采样点的频率以及频谱能量,并获取每个所述采样的所述频率以及频谱能量的乘积;
对各个所述采样点对应的所述乘积求和以得到第一和值,并对各个所述采样点的频谱能量求和得到第二和值;
获取所述第一和值和所述第二和值的比值以得到所述频谱重心。
可选地,所述获取所述频域信号中的频域特征的步骤还包括:
获取所述频域信号的对数频谱能量;
获取所述频域信号的频谱能量比,所述频域特征还包括所述频域信号的对数频谱能量和频谱能量比,所述第二预设条件还包括所述对数频谱能量小于预设对数频谱能量且所述频谱能量比小于预设频谱能量比。
可选地,所述获取所述频域信号的频谱能量比的步骤还包括:
获取所述频域麦克信号在第一预设频段中各个子带的子频域麦克信号的幅值,根据所述幅值确定所述第一频谱能量;
获取所述频域麦克信号在第二预设频段中各个子带的子频域麦克信号的幅值,根据所述幅值确定所述第二频谱能量,所述第一预设频段中的最高频率小于所述第二预设频段中的最低频率;
获取所述第一频谱能量与所述第二频谱能量的比值,根据所述比值得到所述频谱能量比。
可选地,所述获取所述频域信号的对数频谱能量的步骤包括:
获取所述频域麦克信号在第三预设频段中各个子带的子频域麦克信号的幅值,根据所述幅值确定所述第三频谱能量;
对所述第三频谱能量取对数得到所述对数频谱能量。
此外,为实现上述目的,本发明还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音信号的检测程序,所述语音信号的检测程序被所述处理器执行如以上所述的语音信号的检测方法。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音信号的检测程序,所述语音信号的检测程序被处理器执行时实现如以上所述的语音信号的检测方法的步骤。
本发明提出的语音信号的检测方法、终端设备及存储介质,接收到终端设备中的骨传导传感器检测到的时域信号,并获取时域信号中的时域特征,将时域信号转换为频域信号,并获取频域信号中的频域特征,并在时域特征满足第一预设条件且频域特征满足第二预设条件时,判定骨传导传感器检测到语音信号,使得可以根据骨传导传感器检测到的时域信号之间进行语音检测,并不用结合麦克风检测到的信号,使得语音检测更加简单,同时由于仅结合骨传导传感器进行语音识别,成本更低。
附图说明
图1为本发明语音信号的检测方法涉及的终端设备的硬件架构示意图;
图2为本发明语音信号的检测方法的示例性一实施例的流程示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明语音信号的检测方法涉及的终端设备的硬件架构示意图。
如图1所示,本实施例涉及的终端设备,可为戴在头部的可穿戴设备,如耳机、眼镜以及VR设备等,本实施例中的终端设备包括存储器110、处理器130以及骨传导传感器120,存储器110可语音信号的检测程序。
本实施例中的终端设备为耳机时,终端设备还可包括麦克风,麦克风与处理器130连接。
存储器110中的语音信号的检测程序被处理器130执行时实现以下步骤:
接收终端设备中的骨传导传感器检测到的时域信号,并获取所述时域信号中的时域特征;
将所述时域信号转换为频域信号,并获取所述频域信号中的频域特征;
在所述时域特征满足第一预设条件且所述频域特征满足第二预设条件时,判定所述骨传导传感器检测到语音信号。
参照图2,图2为本发明语音信号的检测方法的示例性一实施例的流程示意图,在本实施例中,所述语音信号的检测方法包括:
步骤S10,接收终端设备中的骨传导传感器检测到的时域信号,并获取所述时域信号中的时域特征;
骨传导是一种声音传导方式,即将声音转化为不同频率的机械振动,通过人的颅骨、骨迷路、内耳淋巴液、螺旋器、听觉中枢来传递声波。相对于通过振膜产生声波的经典声音传导方式,骨传导省去了许多声波传递的步骤,能在嘈杂的环境中实现清晰的声音还原,而且声波也不会因为在空气中扩散而影响到他人。
音频信号包括清音和浊音,通过分辨清音和浊音可分辨信号属于语音还是噪音,在本实施例中的,时域特征可包括短时过零率和基音周期,短时过零率为每秒钟信号通过零值的次数,如果过零率高,语音信号就是清音,如果过零率第,语音信号属于浊音;而基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。
对应地,在时域特征包括短时过零率和基音周期时,获取所述时域信号中的时域特征的步骤包括:获取所述时域信号的短时过零率;获取所述时域信号的基音周期,所述时域特征包括短时过零率和基音周期。
对应的获取所述时域信号的短时过零率的步骤包括:
获取所述时域信号中各个相邻采样点的符号函数的差值,所述符号函数的参数为采样点的采样信号;
对各个所述差值的绝对值求和得到所述短时过零率。
短时过零率的计算公式可为:其中sgn为符号函数,sgn的取值可参考该公式/>其中,x(m)为采样得到的采样信号,Zn为短时过零率。
对应的获取所述时域信号的基音周期的步骤包括:
按照预设周期在所述时域信号中进行采样得到采样信号,并获取采样信号预设时间间隔后的参考信号;
获取所述采样信号与所述参考信号的相似度,根据所述相似度确定所述基音周期。可以理解的是,可将相似度中的最大相似度作为基音周期。
相似度的计算公式可为:Rm为相似度,基音周期的公式为:Pitch=max{Rm},Pitch为基音周期。
步骤S20,将所述时域信号转换为频域信号,并获取所述频域信号中的频域特征;
可通过快速傅里叶变换将时域信号转换为频域信号,时域信号的波形为时间与振幅的关系,频域信号为频率与振幅的关系。本实施例中的频域特征可包括频谱重心,对应地,获取所述频域信号的频谱重心的步骤包括:
获取所述频域信号中各个采样点的频率以及频谱能量,并获取每个所述采样的所述频率以及频谱能量的乘积;
对各个所述采样点对应的所述乘积求和以得到第一和值,并对各个所述采样点的频谱能量求和得到第二和值;
获取所述第一和值和所述第二和值的比值以得到所述频谱重心。
本实施例中的,频谱重心的计算公式为:
其中brightness为频谱重心,其中N为采样点的个数,N=128,f(k)为采样点的频率,E(k)为频谱能量,频谱能量的计算公式为E(k)=|Y(k)|2,Y(k)为频域信号的幅度。
步骤S30,在所述时域特征满足第一预设条件且所述频域特征满足第二预设条件时,判定所述骨传导传感器检测到语音信号。
在所述时域特征包括短时过零率和基音周期时,所述第一预设条件包括所述短时过零率大于预设短时过零率,且所述基音周期大于第一预设基音周期或者小于第二预设基音周期,该预设短时过零率可为0.6,第一预设基音周期可为94,所述第二预设基音周期可为8;对应地,在所述频域特征包括频谱重心时,第二预设条件包括所述频谱重心大于预设频谱重心,预设频谱重心可为3。
可以理解的是,频域特征还可包括对数频谱能量以及频谱能量比中的至少一个,对应地,获取所述频域信号中的频域特征的步骤还包括:
获取所述频域信号的对数频谱能量;
及/或,获取所述频域信号的频谱能量比,所述频域特征还包括所述频域信号的对数频谱能量和频谱能量比,所述第二预设条件还包括所述对数频谱能量小于预设对数频谱能量以及所述频谱能量比小于预设频谱能量比中的至少一个。
对应地,获取所述频域信号的频谱能量比的步骤包括:
获取所述频域麦克信号在第一预设频段中各个子带的子频域麦克信号的幅值,根据所述幅值确定所述第一频谱能量;
获取所述频域麦克信号在第二预设频段中各个子带的子频域麦克信号的幅值,根据所述幅值确定所述第二频谱能量,所述第一预设频段中的最高频率小于所述第二预设频段中的最低频率;
获取所述第一频谱能量与所述第二频谱能量的比值,根据所述比值得到所述频谱能量比。
将频域信号的128KHZ带宽分为128个子带,在128个子带中取第一预设频段为1~24,取第二预设频段为97~128,第一预设频段对应的第一频谱能量的计算公式可为:其中EL为第一频谱能量,第二预设频段对应的第二频谱能量的计算公式可为:/>其中EH为第二频谱能量,Y(k)为频域信号的幅度,频谱能量比的计算公式为/>为频谱能量比。
获取所述频域信号的对数频谱能量的步骤包括:
获取所述频域麦克信号在第三预设频段中各个子带的子频域麦克信号的幅值,根据所述幅值确定所述第三频谱能量;
对所述第三频谱能量取对数得到所述对数频谱能量。
将频域信号的128KHZ带宽分为128个子带,在128个子带中取第三预设频段为1~24,对应的对数频谱能量的计算公式为:
其中Y(k)为频域信号的幅度,Eg为对数频谱能量。
可以理解的是,在骨传导传感器检测到语音信号,可开启所述终端设备中的麦克风。也可在检测到语音信号时,执行其他预设的动作,该预设的动作可根据需求进行设定。
在本实施例中任一时域特征不满足第一预设条件或者任一所述频域特征不满足第二预设条件时,判定所述骨传导传感器未检测到语音信号。
本实施例中可设置检测标识,在通过骨传导麦克风检测到语音是将检测标识设为1,在通过骨传导麦克风未检测到语音时,将检测标识设置为0,根据检测标识可确定是否开启麦克风,在检测标识为1时,说明用户在说话,此时开启麦克风能耗较低,避免麦克风一直开启;同时由于检测到用户说话才开启麦克风使得通过麦克风采集的语音触发的动作更加准确。
本实施例公开的语音信号的检测方法,接收到终端设备中的骨传导传感器检测到的时域信号,并获取时域信号中的时域特征,将时域信号转换为频域信号,并获取频域信号中的频域特征,并在时域特征满足第一预设条件且频域特征满足第二预设条件时,判定骨传导传感器检测到语音信号,使得可以根据骨传导传感器检测到的时域信号之间进行语音检测,并不用结合麦克风检测到的信号,使得语音检测更加简单,同时由于仅结合骨传导传感器进行语音识别,成本更低。
本发明还提出一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音信号的检测程序,所述语音信号的检测程序被所述处理器执行如以上实施例所述的语音信号的检测方法。
本发明还提出一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音信号的检测程序,所述语音信号的检测程序被处理器执行时实现如以上实施例所述的语音信号的检测方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种语音信号的检测方法,其特征在于,所述语音信号的检测方法应用于终端设备,所述语音信号的检测方法包括:
接收终端设备中的骨传导传感器检测到的时域信号,并获取所述时域信号中的时域特征;
将所述时域信号转换为频域信号,并获取所述频域信号中的频域特征;
在所述时域特征满足第一预设条件且所述频域特征满足第二预设条件时,判定所述骨传导传感器检测到语音信号;
其中,所述获取所述频域信号中的频域特征的步骤还包括:
获取所述频域信号的对数频谱能量;
及/或,获取所述频域信号的频谱能量比,所述频域特征还包括所述频域信号的对数频谱能量和频谱能量比,所述第二预设条件还包括所述对数频谱能量小于预设对数频谱能量以及所述频谱能量比小于预设频谱能量比中的至少一个。
2.如权利要求1所述的语音信号的检测方法,其特征在于,所述获取所述时域信号中的时域特征的步骤包括:
获取所述时域信号的短时过零率;
获取所述时域信号的基音周期,所述时域特征包括短时过零率和基音周期,所述第一预设条件包括所述短时过零率大于预设短时过零率,且所述基音周期大于第一预设基音周期或者小于第二预设基音周期;
所述获取所述频域信号中的频域特征的步骤包括:
获取所述频域信号的频谱重心,所述频域特征包括所述频谱重心,所述第二预设条件包括所述频谱重心大于预设频谱重心。
3.如权利要求2所述的语音信号的检测方法,其特征在于,所述获取所述时域信号的短时过零率的步骤包括:
获取所述时域信号中各个相邻采样点的符号函数的差值,所述符号函数的参数为采样点的采样信号;
对各个所述差值的绝对值求和得到所述短时过零率。
4.如权利要求2所述的语音信号的检测方法,其特征在于,所述获取所述时域信号的基音周期的步骤包括:
按照预设周期在所述时域信号中进行采样得到采样信号,并获取采样信号预设时间间隔后的参考信号;
获取所述采样信号与所述参考信号的相似度,根据所述相似度确定所述基音周期。
5.如权利要求2所述的语音信号的检测方法,其特征在于,所述获取所述频域信号的频谱重心的步骤包括:
获取所述频域信号中各个采样点的频率以及频谱能量,并获取每个所述采样的所述频率以及频谱能量的乘积;
对各个所述采样点对应的所述乘积求和以得到第一和值,并对各个所述采样点的频谱能量求和得到第二和值;
获取所述第一和值和所述第二和值的比值以得到所述频谱重心。
6.如权利要求1所述的语音信号的检测方法,其特征在于,所述获取所述频域信号的频谱能量比的步骤包括:
获取频域麦克信号在第一预设频段中各个子带的子频域麦克信号的幅值,根据所述幅值确定所述第一频谱能量;
获取所述频域麦克信号在第二预设频段中各个子带的子频域麦克信号的幅值,根据所述幅值确定所述第二频谱能量,所述第一预设频段中的最高频率小于所述第二预设频段中的最低频率;
获取所述第一频谱能量与所述第二频谱能量的比值,根据所述比值得到所述频谱能量比。
7.如权利要求1所述的语音信号的检测方法,其特征在于,所述获取所述频域信号的对数频谱能量的步骤包括:
获取频域麦克信号在第三预设频段中各个子带的子频域麦克信号的幅值,根据所述幅值确定第三频谱能量;
对所述第三频谱能量取对数得到所述对数频谱能量。
8.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音信号的检测程序,所述语音信号的检测程序被所述处理器执行如权利要求1-7中任一项所述的语音信号的检测方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音信号的检测程序,所述语音信号的检测程序被处理器执行时实现如权利要求1至7中任一项所述的语音信号的检测方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010953527.1A CN112017639B (zh) | 2020-09-10 | 2020-09-10 | 语音信号的检测方法、终端设备及存储介质 |
US18/044,954 US20230360666A1 (en) | 2020-09-10 | 2020-10-29 | Voice signal detection method, terminal device and storage medium |
PCT/CN2020/124896 WO2022052246A1 (zh) | 2020-09-10 | 2020-10-29 | 语音信号的检测方法、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010953527.1A CN112017639B (zh) | 2020-09-10 | 2020-09-10 | 语音信号的检测方法、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112017639A CN112017639A (zh) | 2020-12-01 |
CN112017639B true CN112017639B (zh) | 2023-11-07 |
Family
ID=73522552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010953527.1A Active CN112017639B (zh) | 2020-09-10 | 2020-09-10 | 语音信号的检测方法、终端设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230360666A1 (zh) |
CN (1) | CN112017639B (zh) |
WO (1) | WO2022052246A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112951243A (zh) * | 2021-02-07 | 2021-06-11 | 深圳市汇顶科技股份有限公司 | 语音唤醒方法、装置、芯片、电子设备及存储介质 |
CN113470694A (zh) * | 2021-04-25 | 2021-10-01 | 重庆市科源能源技术发展有限公司 | 水轮机组遥听监测方法、装置和*** |
CN115290133A (zh) * | 2022-06-30 | 2022-11-04 | 苏州经贸职业技术学院 | 一种轻轨站台连接处轨道结构监测方法和*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101601088A (zh) * | 2007-09-11 | 2009-12-09 | 松下电器产业株式会社 | 声音判断装置、声音检测装置以及声音判断方法 |
CN102314884A (zh) * | 2011-08-16 | 2012-01-11 | 捷思锐科技(北京)有限公司 | 语音激活检测方法与装置 |
EP2562751A1 (en) * | 2011-08-22 | 2013-02-27 | Svox AG | Temporal interpolation of adjacent spectra |
CN104144377A (zh) * | 2013-05-09 | 2014-11-12 | Dsp集团有限公司 | 话音激活设备的低功率激活 |
CN111599345A (zh) * | 2020-04-03 | 2020-08-28 | 厦门快商通科技股份有限公司 | 语音识别算法评估方法、***、移动终端及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08265887A (ja) * | 1995-03-23 | 1996-10-11 | Mitsubishi Electric Corp | 骨伝導マイクおよび骨伝導イヤホンマイク |
CA2452945C (en) * | 2003-09-23 | 2016-05-10 | Mcmaster University | Binaural adaptive hearing system |
KR100724736B1 (ko) * | 2006-01-26 | 2007-06-04 | 삼성전자주식회사 | 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치 |
CN101399039B (zh) * | 2007-09-30 | 2011-05-11 | 华为技术有限公司 | 一种确定非噪声音频信号类别的方法及装置 |
CN106714023B (zh) * | 2016-12-27 | 2019-03-15 | 广东小天才科技有限公司 | 一种基于骨传导耳机的语音唤醒方法、***及骨传导耳机 |
-
2020
- 2020-09-10 CN CN202010953527.1A patent/CN112017639B/zh active Active
- 2020-10-29 US US18/044,954 patent/US20230360666A1/en active Pending
- 2020-10-29 WO PCT/CN2020/124896 patent/WO2022052246A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101601088A (zh) * | 2007-09-11 | 2009-12-09 | 松下电器产业株式会社 | 声音判断装置、声音检测装置以及声音判断方法 |
CN102314884A (zh) * | 2011-08-16 | 2012-01-11 | 捷思锐科技(北京)有限公司 | 语音激活检测方法与装置 |
EP2562751A1 (en) * | 2011-08-22 | 2013-02-27 | Svox AG | Temporal interpolation of adjacent spectra |
CN104144377A (zh) * | 2013-05-09 | 2014-11-12 | Dsp集团有限公司 | 话音激活设备的低功率激活 |
CN111599345A (zh) * | 2020-04-03 | 2020-08-28 | 厦门快商通科技股份有限公司 | 语音识别算法评估方法、***、移动终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112017639A (zh) | 2020-12-01 |
WO2022052246A1 (zh) | 2022-03-17 |
US20230360666A1 (en) | 2023-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112017639B (zh) | 语音信号的检测方法、终端设备及存储介质 | |
CN107945815B (zh) | 语音信号降噪方法及设备 | |
CN112767963B (zh) | 一种语音增强方法、装置、***及计算机可读存储介质 | |
JP4764995B2 (ja) | 雑音を含む音響信号の高品質化 | |
CN104954555B (zh) | 一种音量调节方法及*** | |
US20210256971A1 (en) | Detection of replay attack | |
CN113766073B (zh) | 会议***中的啸叫检测 | |
KR100643310B1 (ko) | 음성 데이터의 포먼트와 유사한 교란 신호를 출력하여송화자 음성을 차폐하는 방법 및 장치 | |
US20110046948A1 (en) | Automatic sound recognition based on binary time frequency units | |
CN105118522B (zh) | 噪声检测方法及装置 | |
KR101414233B1 (ko) | 음성 신호의 명료도를 향상시키는 장치 및 방법 | |
JP2014170132A (ja) | 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム | |
EP1913591B1 (en) | Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise | |
US8423357B2 (en) | System and method for biometric acoustic noise reduction | |
CN110400565A (zh) | 说话人识别方法、***及计算机可读存储介质 | |
KR20240108548A (ko) | 정규화를 통해 오디오 신호를 핑거프린팅하는 방법 및 장치 | |
CN109361995A (zh) | 一种电器设备的音量调节方法、装置、电器设备和介质 | |
JP6268916B2 (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
CN113593612B (zh) | 语音信号处理方法、设备、介质及计算机程序产品 | |
CN116980804B (zh) | 音量调整方法、装置、设备及可读存储介质 | |
JP6197367B2 (ja) | 通話装置及びマスキング音生成プログラム | |
WO2022068440A1 (zh) | 啸叫抑制方法、装置、计算机设备和存储介质 | |
US11922933B2 (en) | Voice processing device and voice processing method | |
WO2008075305A1 (en) | Method and apparatus to address source of lombard speech | |
CN112562717A (zh) | 啸叫检测方法、装置、存储介质、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |