CN115798520A - 语音检测的方法和装置、电子设备和存储介质 - Google Patents
语音检测的方法和装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115798520A CN115798520A CN202211399252.7A CN202211399252A CN115798520A CN 115798520 A CN115798520 A CN 115798520A CN 202211399252 A CN202211399252 A CN 202211399252A CN 115798520 A CN115798520 A CN 115798520A
- Authority
- CN
- China
- Prior art keywords
- model
- signal
- channel signal
- inputting
- detection result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000012549 training Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 7
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Circuit For Audible Band Transducer (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
Abstract
本申请提供了一种语音检测的方法和装置、电子设备和存储介质,其中,该方法包括:获取多通道信号,其中,多通道信号携带有当前信号类型;将多通道信号输入联合模型内,得到与信号类型相对应的语音检测结果,其中,联合模型包含第一模型和第二模型,第一模型用于将多通道信号处理为单通道信号,第二模型用于将单通道信号处理为语音检测结果。通过本申请,解决了相关技术中存在的不能成功检测到最低能量的语音,灵敏度低,在带噪环境下漏检率和虚检率较高的问题。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种语音检测的方法和装置、电子设备和存储介质。
背景技术
语音活动检测,英文为voice activity detection,简称VAD。VAD的作用是在一段音频中检测出语音。
当前主流的VAD通常都是基于单通道音频的,也就是说,主流的VAD方法,大部分情况下都只用到一个麦克风的音频信号,然后基于单通道音频信号进行语音检测。
而在现实生活中,设备上可能搭载了多个麦克风通道,这时仅使用单通道的VAD检测方法应用在远场语音交互场景中,将存在不能成功检测到最低能量的语音,灵敏度低,在带噪环境下漏检率和虚检率较高的问题。
因此,相关技术的单通道的VAD检测方法不能成功检测到最低能量的语音,灵敏度低,在带噪环境下漏检率和虚检率较高的问题。
发明内容
本申请提供了一种语音检测的方法和装置、电子设备和存储介质,以至少解决相关技术中存在不能成功检测到最低能量的语音,灵敏度低,在带噪环境下漏检率和虚检率较高的问题。
根据本申请实施例的一个方面,提供了一种语音检测的方法,该方法包括:
获取多通道信号,其中,所述多通道信号携带有当前信号类型;
将所述多通道信号输入联合模型内,得到与所述信号类型相对应的语音检测结果,其中,所述联合模型包含第一模型和第二模型,所述第一模型用于将所述多通道信号处理为单通道信号,所述第二模型用于将所述单通道信号处理为所述语音检测结果。
根据本申请实施例的另一个方面,还提供了一种语音检测的装置,该装置包括:
获取模块,用于获取多通道信号,其中,所述多通道信号携带有当前信号类型;
第一得到模块,用于将所述多通道信号输入联合模型内,得到与所述信号类型相对应的语音检测结果,其中,所述联合模型包含第一模型和第二模型,所述第一模型用于将所述多通道信号处理为单通道信号,所述第二模型用于将所述单通道信号处理为所述语音检测结果。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。
在本申请实施例中,采用对多通道信号处理的方式,通过获取多通道信号,其中,多通道信号携带有当前信号类型;将多通道信号输入联合模型内,得到与信号类型相对应的语音检测结果,其中,联合模型包含第一模型和第二模型,第一模型用于将多通道信号处理为单通道信号,第二模型用于将单通道信号处理为语音检测结果。由于本申请实施例获取的是多通道信号,同时将多通道信号输入包含第一模型和第二模型的联合模型内进行信号处理,这样得到的语音检测结果将比相关技术中的单通道音频检测精准度更高,能更好地检测到最低能量的语音,同时在带噪环境下提高成功检测率,从而可以实现漏检率和虚检率都更低的目的,进而解决了相关技术中存在的不能成功检测到最低能量的语音,灵敏度低,在带噪环境下漏检率和虚检率较高的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种可选的语音检测的方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的语音检测的方法的流程示意图;
图3是根据本申请实施例的一种可选的语音检测的装置的结构框图;
图4是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种语音检测的方法。可选地,在本实施例中,上述语音检测的方法可以应用于如图1所示的硬件环境中。如图1所示,终端102中可以包含有存储器104、处理器106和显示器108(可选部件)。终端102可以通过网络110与服务器112进行通信连接,该服务器112可用于为终端或终端上安装的客户端提供服务,可在服务器112上或独立于服务器112设置数据库114,用于为服务器112提供数据存储服务。此外,服务器112中可以运行有处理引擎116,该处理引擎116可以用于执行由服务器112所执行的步骤。
可选地,终端102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、PC(Personal Computer,个人计算机)机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI(Wireless Fidelity,无线保真)及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。
此外,在本实施例中,上述语音检测的方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述语音检测的方法中的各个操作可以集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,在本实施例中,上述语音检测的方法可以由服务器112来执行,也可以由终端102来执行,还可以是由服务器112和终端102共同执行。其中,终端102执行本申请实施例的语音检测的方法也可以是由安装在其上的客户端来执行。
以运行在麦克风设备服务器上为例,图2是根据本申请实施例的一种可选的语音检测的方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S201,获取多通道信号,其中,多通道信号携带有当前信号类型;
步骤S202,将多通道信号输入联合模型内,得到与信号类型相对应的语音检测结果,其中,联合模型包含第一模型和第二模型,第一模型用于将多通道信号处理为单通道信号,第二模型用于将单通道信号处理为语音检测结果。
可选地,在本申请实施例中可以利用麦克风阵列采集到多通道信号,其中,麦克风阵列采集到的多通道信号可以包含有当前的信号类型,比如音频类型或特征类型,之后将多通道信号输入到一训练好的联合模型内,然后联合模型输出与信号类型相对应的语音检测结果。
需要说明的是,这里的联合模型包含有第一模型和第二模型,第一模型用于将多通道信号处理为单通道信号,第二模型用于将单通道信号处理为语音检测结果,这样使用联合模型即可得到当前的语音检测结果。其中,第一模型可以为波束模型,主要用于将多通道信号处理为单通道信号,第二模型可以为VAD模型,主要用于对单通道信号进行处理得到语音检测结果。需要说明的是第一模型包括但不限于是波束模型,同样,第二模型包括但不限于是VAD模型。
在本申请实施例中,采用对多通道信号处理的方式,通过获取多通道信号,其中,多通道信号携带有当前信号类型;将多通道信号输入联合模型内,得到与信号类型相对应的语音检测结果,其中,联合模型包含第一模型和第二模型,第一模型用于将多通道信号处理为单通道信号,第二模型用于将单通道信号处理为语音检测结果。由于本申请实施例获取的是多通道信号,同时将多通道信号输入包含第一模型和第二模型的联合模型内进行信号处理,这样得到的语音检测结果将比相关技术中的单通道音频检测精准度更高,能更好地检测到最低能量的语音,同时在带噪环境下提高成功检测率,从而可以实现漏检率和虚检率都更低的目的,进而解决了相关技术中存在的不能成功检测到最低能量的语音,灵敏度低,在带噪环境下漏检率和虚检率较高的问题。
作为一种可选实施例,在将多通道信号输入联合模型内之前,方法还包括:
根据多通道信号得到信号影响指标,其中,信号影响指标用于影响语音检测结果的最终输出;
将信号影响指标和多通道信号作为输入信息,输入到联合模型内。
可选地,在麦克风阵列获取到多通道信号之后,可以通过麦克风阵列的一些方法计算出信号影响指标,该信号影响指标可以是一个信号得分,更进一步地,可以是一个信号干扰比;然后将该信号影响指标和多通道信号进行特征融合,然后将融合后的特征作为输入信号输入到联合模型中。
可以得知的是,由于本申请实施例将信号影响指标也作为了输入信息,所以其会与多通道信号一起影响语音检测结果的最终输出。
在本申请实施例中,将得到的信号影响指标作为输入信息的一部分,这样在输出语音检测结果时也会考虑到信号影响指标这一参数,进而精确语音检测输出结果。
作为一种可选实施例,将多通道信号输入联合模型内,得到与信号类型相对应的语音检测结果包括:
将多通道信号输入第一模型;
第一模型对多通道信号进行处理,得到单通道信号;
将单通道信号输入到第二模型;
第二模型对单通道信号进行处理,得到语音检测结果。
可选地,在将多通道信号输入第一模型之前,需要对第一模型完成训练,这时,可以获取第一训练数据集,其中,第一训练数据集中的所有训练数据均携带属于多个目标标签的标识,在对第一模型进行训练的过程是:假设当前共有两个目标标签,然后第一训练数据集也分为两个部分,这时将一部分带有第一目标标签的训练数据输入第一初始模型内,结合损失函数,然后得到属于第一目标标签的第一概率值,将另外一部分带有第二目标标签的训练数据输入第一初始模型内,结合损失函数,然后得到属于第二目标标签的第二概率值,如果第一概率值和第二概率值均小于或者等于设置的第一预设阈值的情况下,停止对第一初始模型的模型参数调整,得到第一模型,否则调整第一初始模型的模型参数,直到第一概率值和第二概率值均小于或者等于设置的第一预设阈值。
以上,在第一模型训练好之后,将多通道信号输入第一模型,第一模型对多通道信号进行处理,得到单通道信号。
紧接着需要将单通道信号输入到第二模型,这时,在输入第二模型之前,需要对第二模型完成训练,这时对第二模型的训练过程可以使用传统的二分类训练,比如,获取第二训练数据集,其中,第二训练数据集中的所有训练数据均携带属于第三目标标签的标识,该第三模型标签可以是0或者1;将第二训练数据集内的所有训练数据输入第二初始模型内,结合损失函数,得到属于第三目标标签的第三概率值;将第三概率值与提前设定的第二预设阈值进行比较,输出二分类的目标结果;将目标结果与第三目标标签进行比较;在目标结果与第三目标标签相一致的情况下,停止对第二初始模型的模型参数调整,得到第二模型,否则,调整第二初始模型的模型参数,直到输出的目标结果与第三目标标签相一致为止。
以上,在第二模型训练好之后,将单通道信号输入第二模型,第二模型对单通道信号进行处理,得到语音检测结果。
在本申请实施例中,将第一模型和第二模型进行联合优化训练,这样模型更容易收敛,性能更佳,得到的语音检测结果更准确,降低漏检和误检率。
作为一种可选实施例,信号类型包括音频;将多通道信号输入联合模型内,得到与信号类型相对应的语音检测结果包括:
在信号类型为音频的情况下,将多通道信号输入联合模型中;
每间隔预设个音频采样点,输出语音检测结果。
可选地,如果多通道信号的信号类型是音频,即输入是时域音频,将多通道信号输入联合模型中,这时联合模型每间隔预设个音频采样点,比如每2个音频采样点,输出语音检测结果。
作为一种可选实施例,信号类型包括特征;将多通道信号输入联合模型内,得到与信号类型相对应的语音检测结果包括:
在信号类型为特征的情况下,将多通道信号输入联合模型中,对多通道信号进行特征提取和特征变换,得到帧频特征;
每间隔预设个帧频特征,输出语音检测结果。
可选地,如果多通道信号的信号类型是特征,即输入是频域特征,将多通道信号输入联合模型中,这时联合模型每间隔预设个帧频特征,比如每2帧,输出语音检测结果。
作为一种可选实施例,在将多通道信号输入第一模型之后,方法还包括:
利用第一模型确定输入多通道信号时的空间信息;
在确定空间信息在预设时间段内发生变化的情况下,重新采集多通道信号。
可选地,在麦克风阵列采集到多通道信号后,将多通道信号输入第一模型,然后利用第一模型确定输入多通道信号时的空间信息,比如得到当前发出语音音频的方位角、俯仰角等,这时,如果发现空间信息在预设时间段(通常是较短的时间)内发生了较大变化,比如1秒内,这个空间信息发生了角度的变化,比如方位角从90度切换到了270度,说明当前很可能是从另外一个方位发出了音频,这时需要短暂地停止并重新采集多通道信号,开始新的一段语音活动检测。
在本申请实施例中,将空间信息结合到语音检测中,能够适应更多的语音检测场景,扩大适用面。
作为一种可选实施例,利用第一模型确定输入多通道信号时的空间信息包括:
利用第一模型确定多通道信号的入射方位;
根据入射方位确定目标对象的方位信息,并将方位信息作为输入多通道信号时的空间信息。
可选地,若当前麦克风阵列采集多通道信号时的场景为对话场景,这时可以利用第一模型检测到多通道信号的入射方位,再根据入射方位得到说话人(即目标对象)的方位信息,然后该目标对象的方位信息对应的就是输入多通道信号时的空间信息。
这时,方位角从90度切换到了270度时,就可以判断出这时候虽然还是有人在说话,但是大概率不是同一个人了,也就是换人了,这时可以重新采集多通道信号进行语音检测。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述语音检测的方法的语音检测的装置。图3是根据本申请实施例的一种可选的语音检测的装置的结构框图,如图3所示,该装置可以包括:
获取模块301,用于获取多通道信号,其中,多通道信号携带有当前信号类型;
第一得到模块302,用于将多通道信号输入联合模型内,得到与信号类型相对应的语音检测结果,其中,联合模型包含第一模型和第二模型,第一模型用于将多通道信号处理为单通道信号,第二模型用于将单通道信号处理为语音检测结果。
需要说明的是,该实施例中的获取模块301可以用于执行上述步骤S101,该实施例中的第一得到模块302可以用于执行上述步骤S102。
通过上述模块,获取的是多通道信号,同时将多通道信号输入包含第一模型和第二模型的联合模型内进行信号处理,这样得到的语音检测结果将比相关技术中的单通道音频检测精准度更高,能更好地检测到最低能量的语音,同时在带噪环境下提高成功检测率,从而可以实现漏检率和虚检率都更低的目的,进而解决了相关技术中存在的不能成功检测到最低能量的语音,灵敏度低,在带噪环境下漏检率和虚检率较高的问题。
作为一种可选的实施例,该装置还包括:
第二得到模块,用于在将多通道信号输入联合模型内之前,根据多通道信号得到信号影响指标,其中,信号影响指标用于影响语音检测结果的最终输出;
输入模块,用于将信号影响指标和多通道信号作为输入信息,输入到联合模型内。
作为一种可选的实施例,第一得到模块包括:
第一输入单元,用于将多通道信号输入第一模型;
第一得到单元,用于第一模型对多通道信号进行处理,得到单通道信号;
第二输入单元,用于将单通道信号输入到第二模型;
第二得到单元,用于第二模型对单通道信号进行处理,得到语音检测结果。
作为一种可选的实施例,信号类型包括音频;第一得到模块包括:
第三输入单元,用于在信号类型为音频的情况下,将多通道信号输入联合模型中;
第一输出单元,用于每间隔预设个音频采样点,输出语音检测结果。
作为一种可选的实施例,信号类型包括特征;第一得到模块包括:
处理单元,用于信号类型为特征的情况下,将多通道信号输入联合模型中,对多通道信号进行特征提取和特征变换,得到帧频特征;
第二输出单元,用于每间隔预设个帧频特征,输出语音检测结果。
作为一种可选的实施例,该装置还包括:
确定模块,用于在将多通道信号输入第一模型之后,利用第一模型确定输入多通道信号时的空间信息;
采集模块,用于在确定空间信息在预设时间段内发生变化的情况下,重新采集多通道信号。
作为一种可选的实施例,确定模块包括:
确定单元,用于利用第一模型确定多通道信号的入射方位;
设置单元,用于根据入射方位确定目标对象的方位信息,并将方位信息作为输入多通道信号时的空间信息。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述语音检测的方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图4是根据本申请实施例的一种可选的电子设备的结构框图,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401、通信接口402和存储器403通过通信总线404完成相互间的通信,其中,
存储器403,用于存储计算机程序;
处理器401,用于执行存储器403上所存放的计算机程序时,实现如下步骤:
获取多通道信号,其中,多通道信号携带有当前信号类型;
将多通道信号输入联合模型内,得到与信号类型相对应的语音检测结果,其中,联合模型包含第一模型和第二模型,第一模型用于将多通道信号处理为单通道信号,第二模型用于将单通道信号处理为语音检测结果。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图4所示,上述存储器403中可以但不限于包括上述语音检测的装置中的获取模块301、第一得到模块302。此外,还可以包括但不限于上述语音检测的装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,上述电子设备还包括:显示器,用于显示语音检测的结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图4所示的结构仅为示意,实施上述语音检测的方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图4其并不对上述电子设备的结构造成限定。例如,终端设备还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图4所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行语音检测的方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取多通道信号,其中,多通道信号携带有当前信号类型;
将多通道信号输入联合模型内,得到与信号类型相对应的语音检测结果,其中,联合模型包含第一模型和第二模型,第一模型用于将多通道信号处理为单通道信号,第二模型用于将单通道信号处理为语音检测结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一个实施例中的语音检测的方法步骤。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例语音检测的方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种语音检测的方法,其特征在于,所述方法包括:
获取多通道信号,其中,所述多通道信号携带有当前信号类型;
将所述多通道信号输入联合模型内,得到与所述信号类型相对应的语音检测结果,其中,所述联合模型包含第一模型和第二模型,所述第一模型用于将所述多通道信号处理为单通道信号,所述第二模型用于将所述单通道信号处理为所述语音检测结果。
2.根据权利要求1所述的方法,其特征在于,在所述将所述多通道信号输入联合模型内之前,所述方法还包括:
根据所述多通道信号得到信号影响指标,其中,所述信号影响指标用于影响所述语音检测结果的最终输出;
将所述信号影响指标和所述多通道信号作为输入信息,输入到所述联合模型内。
3.根据权利要求1所述的方法,其特征在于,所述将所述多通道信号输入联合模型内,得到与所述信号类型相对应的语音检测结果包括:
将所述多通道信号输入所述第一模型;
所述第一模型对所述多通道信号进行处理,得到所述单通道信号;
将所述单通道信号输入到所述第二模型;
所述第二模型对所述单通道信号进行处理,得到所述语音检测结果。
4.根据权利要求1所述的方法,其特征在于,所述信号类型包括音频;所述将所述多通道信号输入联合模型内,得到与所述信号类型相对应的语音检测结果包括:
在所述信号类型为所述音频的情况下,将所述多通道信号输入所述联合模型中;
每间隔预设个音频采样点,输出所述语音检测结果。
5.根据权利要求1所述的方法,其特征在于,所述信号类型包括特征;所述将所述多通道信号输入联合模型内,得到与所述信号类型相对应的语音检测结果包括:
在所述信号类型为所述特征的情况下,将所述多通道信号输入所述联合模型中,对所述多通道信号进行特征提取和特征变换,得到帧频特征;
每间隔预设个所述帧频特征,输出所述语音检测结果。
6.根据权利要求3所述的方法,其特征在于,在所述将所述多通道信号输入所述第一模型之后,所述方法还包括:
利用所述第一模型确定输入所述多通道信号时的空间信息;
在确定所述空间信息在预设时间段内发生变化的情况下,重新采集所述多通道信号。
7.根据权利要求6所述的方法,其特征在于,所述利用所述第一模型确定输入所述多通道信号时的空间信息包括:
利用所述第一模型确定所述多通道信号的入射方位;
根据所述入射方位确定目标对象的方位信息,并将所述方位信息作为输入所述多通道信号时的空间信息。
8.一种语音检测的装置,其特征在于,所述装置包括:
获取模块,用于获取多通道信号,其中,所述多通道信号携带有当前信号类型;
第一得到模块,用于将所述多通道信号输入联合模型内,得到与所述信号类型相对应的语音检测结果,其中,所述联合模型包含第一模型和第二模型,所述第一模型用于将所述多通道信号处理为单通道信号,所述第二模型用于将所述单通道信号处理为所述语音检测结果。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至7中任一项所述的方法步骤。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1至7中任一项中所述的方法步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211399252.7A CN115798520A (zh) | 2022-11-09 | 2022-11-09 | 语音检测的方法和装置、电子设备和存储介质 |
PCT/CN2023/130471 WO2024099359A1 (zh) | 2022-11-09 | 2023-11-08 | 语音检测的方法和装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211399252.7A CN115798520A (zh) | 2022-11-09 | 2022-11-09 | 语音检测的方法和装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115798520A true CN115798520A (zh) | 2023-03-14 |
Family
ID=85436364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211399252.7A Pending CN115798520A (zh) | 2022-11-09 | 2022-11-09 | 语音检测的方法和装置、电子设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115798520A (zh) |
WO (1) | WO2024099359A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024099359A1 (zh) * | 2022-11-09 | 2024-05-16 | 北京有竹居网络技术有限公司 | 语音检测的方法和装置、电子设备和存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9959887B2 (en) * | 2016-03-08 | 2018-05-01 | International Business Machines Corporation | Multi-pass speech activity detection strategy to improve automatic speech recognition |
CN110858476B (zh) * | 2018-08-24 | 2022-09-27 | 北京紫冬认知科技有限公司 | 一种基于麦克风阵列的声音采集方法及装置 |
CN113823273B (zh) * | 2021-07-23 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN113763936A (zh) * | 2021-09-03 | 2021-12-07 | 清华大学 | 一种基于语音提取的模型训练方法、装置及设备 |
CN114121042A (zh) * | 2021-11-30 | 2022-03-01 | 北京声智科技有限公司 | 免唤醒场景下的语音检测方法、装置及电子设备 |
CN114420108A (zh) * | 2022-02-16 | 2022-04-29 | 平安科技(深圳)有限公司 | 一种语音识别模型训练方法、装置、计算机设备及介质 |
CN114898736A (zh) * | 2022-03-30 | 2022-08-12 | 北京小米移动软件有限公司 | 语音信号识别方法、装置、电子设备和存储介质 |
CN115312068B (zh) * | 2022-07-14 | 2023-05-09 | 荣耀终端有限公司 | 语音控制方法、设备及存储介质 |
CN115798520A (zh) * | 2022-11-09 | 2023-03-14 | 北京有竹居网络技术有限公司 | 语音检测的方法和装置、电子设备和存储介质 |
-
2022
- 2022-11-09 CN CN202211399252.7A patent/CN115798520A/zh active Pending
-
2023
- 2023-11-08 WO PCT/CN2023/130471 patent/WO2024099359A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024099359A1 (zh) * | 2022-11-09 | 2024-05-16 | 北京有竹居网络技术有限公司 | 语音检测的方法和装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2024099359A1 (zh) | 2024-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961780B (zh) | 一种人机交互方法、装置、服务器和存储介质 | |
CN107591152B (zh) | 基于耳机的语音控制方法、装置及其设备 | |
CN109829432B (zh) | 用于生成信息的方法和装置 | |
CN109473104B (zh) | 语音识别网络延时优化方法及装置 | |
CN110534085B (zh) | 用于生成信息的方法和装置 | |
US11282514B2 (en) | Method and apparatus for recognizing voice | |
CN110428835B (zh) | 一种语音设备的调节方法、装置、存储介质及语音设备 | |
CN110610698B (zh) | 一种语音标注方法及装置 | |
KR20180025634A (ko) | 음성 인식 장치 및 방법 | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
CN108600559B (zh) | 静音模式的控制方法、装置、存储介质及电子设备 | |
CN109003607B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
WO2024099359A1 (zh) | 语音检测的方法和装置、电子设备和存储介质 | |
CN113555007B (zh) | 语音拼接点检测方法及存储介质 | |
CN109829431B (zh) | 用于生成信息的方法和装置 | |
CN113096692B (zh) | 语音检测方法及装置、设备、存储介质 | |
CN111933137B (zh) | 语音唤醒测试方法及装置、计算机可读介质和电子设备 | |
CN107071553B (zh) | 一种修改视频语音的方法、装置和计算机可读存储介质 | |
CN114863943B (zh) | 一种基于波束成形的环境噪声源自适应定位方法及装置 | |
CN113763968B (zh) | 用于识别语音的方法、装置、设备、介质和产品 | |
CN113889086A (zh) | 语音识别模型的训练方法、语音识别方法及相关装置 | |
CN113157582A (zh) | 测试脚本执行序列确定方法及装置 | |
CN112783799A (zh) | 软件守护测试方法及装置 | |
CN113505272A (zh) | 基于行为习惯的控制方法和装置、电子设备和存储介质 | |
CN111028860A (zh) | 音频数据处理方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |