CN111402873A - 语音信号处理方法、装置、设备及存储介质 - Google Patents

语音信号处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111402873A
CN111402873A CN202010115869.6A CN202010115869A CN111402873A CN 111402873 A CN111402873 A CN 111402873A CN 202010115869 A CN202010115869 A CN 202010115869A CN 111402873 A CN111402873 A CN 111402873A
Authority
CN
China
Prior art keywords
angle
trigonometric function
function value
voice signal
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010115869.6A
Other languages
English (en)
Other versions
CN111402873B (zh
Inventor
徐仁新
冯大航
陈孝良
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202010115869.6A priority Critical patent/CN111402873B/zh
Publication of CN111402873A publication Critical patent/CN111402873A/zh
Application granted granted Critical
Publication of CN111402873B publication Critical patent/CN111402873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种语音信号处理方法、装置、设备及存储介质,属于语音信号处理技术领域。所述方法包括:获取第一语音信号和第一角度,所述第一语音信号通过麦克风阵列采集得到,所述第一角度为期望通过所述麦克风阵列采集信号的角度;根据所述第一角度,确定第二角度范围,所述第二角度范围内的第二角度的三角函数值与所述第一角度的三角函数值之间的差值小于目标阈值;对所述第一语音信号中所述第二角度范围之外的信号进行抑制处理,得到第二语音信号;对所述第二语音信号进行识别,根据识别结果执行对应的操作。本申请可以提高语音识别的准确率。

Description

语音信号处理方法、装置、设备及存储介质
技术领域
本申请涉及语音信号处理技术领域,尤其涉及一种语音信号处理方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,智能电视、智能音箱等智能设备的使用越来越广泛,智能设备一般通过麦克风阵列采集语音信号,通过对语音信号进行识别,可以实现相应的功能。
相关技术中,智能设备一般直接对麦克风阵列采集到的语音信号进行识别,然而由于麦克风阵列采集的是各个方向上的语音信号,其中包括了非用户期望方向上的语音信号,由于这类语音信号的干扰,会影响语音信号的识别过程,导致语音识别的准确率较低,因此,亟需一种语音信号处理方法,提高语音识别的准确率。
发明内容
本申请实施例提供了一种语音信号处理方法、装置、设备及存储介质,可以提高语音识别的准确率。所述技术方案如下:
第一方面,提供一种语音信号处理方法,包括:
获取第一语音信号和第一角度,所述第一语音信号通过麦克风阵列采集得到,所述第一角度为期望通过所述麦克风阵列采集信号的角度;
根据所述第一角度,确定第二角度范围,所述第二角度范围内的第二角度的三角函数值与所述第一角度的三角函数值之间的差值小于目标阈值;
对所述第一语音信号中所述第二角度范围之外的信号进行抑制处理,得到第二语音信号;
对所述第二语音信号进行识别,根据识别结果执行对应的操作。
在一种可能实现方式中,所述对所述第一语音信号中所述第二角度范围之外的信号进行抑制处理,得到第二语音信号,包括:
根据所述第二角度范围,调整滤波器的参数,调整后的所述滤波器用于滤除所述第二角度范围之外的信号;
采用调整后的所述滤波器,对所述第一语音信号进行滤波处理,得到所述第二语音信号。
在一种可能实现方式中,所述对所述第二语音信号进行识别,根据识别结果执行对应的操作,包括:
对所述第二语音信号进行识别,得到所述第二语音信号对应的目标文本内容;
根据所述第二语音信号对应的目标文本内容,查询文本内容与操作指令之间的对应关系,得到所述目标文本内容对应的操作指令;
执行所述目标文本内容对应的操作指令。
在一种可能实现方式中,所述第一角度的获取过程包括下述任一项:
显示角度设置界面,获取在所述角度设置界面中输入的角度作为所述第一角度;
对所述第一语音信号进行声源定位,确定所述第一语音信号对应的语音声源的角度,将所述语音声源的角度作为所述第一角度。
在一种可能实现方式中,所述三角函数公式如下:
Figure BDA0002391474540000021
其中,所述x为角度,所述sin x为三角函数值。
在一种可能实现方式中,所述采用三角函数公式,获取所述第一角度的三角函数值,包括:
将所述第一角度的定点数对目标角度的定点数求余,得到第三角度;
当所述第三角度不小于0且不大于π/2时,采用所述三角函数公式,获取所述第三角度的三角函数值,将所述第三角度的三角函数值作为所述第一角度的三角函数值。
在一种可能实现方式中,所述将所述第一角度的定点数对目标角度的定点数求余,得到第三角度之后,所述方法还包括:
当所述第三角度小于0时,将所述第三角度加上2π,得到第四角度;
当所述第四角度不大于π/2时,采用所述三角函数公式,获取所述第四角度的三角函数值,将所述第四角度的三角函数值作为所述第一角度的三角函数值。
在一种可能实现方式中,所述当所述第三角度小于0时,将所述第三角度加上2π,得到第四角度之后,所述方法还包括:
当所述第四角度大于π时,设置目标标记的取值为1,将2π减去所述第四角度,得到第五角度;
当所述第五角度不大于π/2时,采用所述三角函数公式,获取所述第五角度的三角函数值,当所述目标标记的取值为1时,将所述第五角度的三角函数值取负数作为所述第一角度的三角函数值。
在一种可能实现方式中,所述将2π减去所述第四角度,得到第五角度之后,所述方法还包括:
当所述第五角度大于π/2时,将π减去所述第五角度,得到第六角度;
采用所述三角函数公式,获取所述第六角度的三角函数值,当所述目标标记的取值为1时,将所述第六角度的三角函数值取负数作为所述第一角度的三角函数值。
在一种可能实现方式中,所述当所述第三角度小于0时,将所述第三角度加上2π,得到第四角度之后,所述方法还包括:
当所述第四角度大于π/2且不大于π时,将π减去所述第四角度,得到第七角度;
采用所述三角函数公式,获取所述第七角度的三角函数值,将所述第七角度的三角函数值作为所述第一角度的三角函数值。
在一种可能实现方式中,所述将所述第一角度的定点数对目标角度的定点数求余,得到第三角度之后,所述方法还包括:
当所述第三角度不小于0且大于π时,设置目标标记的取值为1,将2π减去所述第三角度,得到第八角度;
当所述第八角度不大于π/2时,采用所述三角函数公式,获取所述第八角度的三角函数值,当所述目标标记的取值为1时,将所述第八角度的三角函数值取负数作为所述第一角度的三角函数值。
在一种可能实现方式中,所述将所述第一角度的定点数对目标角度的定点数求余,得到第三角度之后,所述方法还包括:
当所述第三角度大于π/2且不大于π时,将π减去所述第三角度,得到第九角度;
采用所述三角函数公式,获取所述第九角度的三角函数值,将所述第九角度的三角函数值作为所述第一角度的三角函数值。
第二方面,提供一种语音信号处理装置,包括:
获取模块,用于获取第一语音信号和第一角度,所述第一语音信号通过麦克风阵列采集得到,所述第一角度为期望通过所述麦克风阵列采集信号的角度;
确定模块,用于根据所述第一角度,确定第二角度范围,所述第二角度范围内的第二角度的三角函数值与所述第一角度的三角函数值之间的差值小于目标阈值;
处理模块,用于对所述第一语音信号中所述第二角度范围之外的信号进行抑制处理,得到第二语音信号;
识别模块,用于对所述第二语音信号进行识别,根据识别结果执行对应的操作。
在一种可能实现方式中,所述处理模块用于:
根据所述第二角度范围,调整滤波器的参数,调整后的所述滤波器用于滤除所述第二角度范围之外的信号;
采用调整后的所述滤波器,对所述第一语音信号进行滤波处理,得到所述第二语音信号。
在一种可能实现方式中,所述识别模块用于:
对所述第二语音信号进行识别,得到所述第二语音信号对应的目标文本内容;
根据所述第二语音信号对应的目标文本内容,查询文本内容与操作指令之间的对应关系,得到所述目标文本内容对应的操作指令;
执行所述目标文本内容对应的操作指令。
在一种可能实现方式中,所述获取模块用于执行下述任一项:
显示角度设置界面,获取在所述角度设置界面中输入的角度作为所述第一角度;
对所述第一语音信号进行声源定位,确定所述第一语音信号对应的语音声源的角度,将所述语音声源的角度作为所述第一角度。
在一种可能实现方式中,所述三角函数公式如下:
Figure BDA0002391474540000051
其中,所述x为角度,所述sin x为三角函数值。
在一种可能实现方式中,所述获取模块用于:
将所述第一角度的定点数对目标角度的定点数求余,得到第三角度;
当所述第三角度不小于0且不大于π/2时,采用所述三角函数公式,获取所述第三角度的三角函数值,将所述第三角度的三角函数值作为所述第一角度的三角函数值。
在一种可能实现方式中,所述获取模块还用于:
当所述第三角度小于0时,将所述第三角度加上2π,得到第四角度;
当所述第四角度不大于π/2时,采用所述三角函数公式,获取所述第四角度的三角函数值,将所述第四角度的三角函数值作为所述第一角度的三角函数值。
在一种可能实现方式中,所述获取模块还用于:
当所述第四角度大于π时,设置目标标记的取值为1,将2π减去所述第四角度,得到第五角度;
当所述第五角度不大于π/2时,采用所述三角函数公式,获取所述第五角度的三角函数值,当所述目标标记的取值为1时,将所述第五角度的三角函数值取负数作为所述第一角度的三角函数值。
在一种可能实现方式中,所述获取模块还用于:
当所述第五角度大于π/2时,将π减去所述第五角度,得到第六角度;
采用所述三角函数公式,获取所述第六角度的三角函数值,当所述目标标记的取值为1时,将所述第六角度的三角函数值取负数作为所述第一角度的三角函数值。
在一种可能实现方式中,所述获取模块还用于:
当所述第四角度大于π/2且不大于π时,将π减去所述第四角度,得到第七角度;
采用所述三角函数公式,获取所述第七角度的三角函数值,将所述第七角度的三角函数值作为所述第一角度的三角函数值。
在一种可能实现方式中,所述获取模块还用于:
当所述第三角度不小于0且大于π时,设置目标标记的取值为1,将2π减去所述第三角度,得到第八角度;
当所述第八角度不大于π/2时,采用所述三角函数公式,获取所述第八角度的三角函数值,当所述目标标记的取值为1时,将所述第八角度的三角函数值取负数作为所述第一角度的三角函数值。
在一种可能实现方式中,所述获取模块还用于:
当所述第三角度大于π/2且不大于π时,将π减去所述第三角度,得到第九角度;
采用所述三角函数公式,获取所述第九角度的三角函数值,将所述第九角度的三角函数值作为所述第一角度的三角函数值。
第三方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现第一方面任一种实现方式所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现第一方面任一种实现方式所述的方法步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过获取第一语音信号和第一角度后,根据第一角度,确定一个误差允许的第二角度范围,根据该第二角度范围,对第二角度范围之外的信号进行抑制处理后,再对语音信号进行识别,由于去除了期望角度以外的语音信号的干扰,可以提高语音识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音信号处理方法的流程图;
图2是本申请实施例提供的一种语音信号处理方法的流程图;
图3是本申请实施例提供的一种采用该三角函数公式获取三角函数值的流程图;
图4是本申请实施例提供的一种语音信号处理装置的结构示意图;
图5是本申请实施例提供的一种终端的结构示意图;
图6是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种语音信号处理方法的流程图。参见图1,该方法包括:
101、获取第一语音信号和第一角度,该第一语音信号通过麦克风阵列采集得到,该第一角度为期望通过该麦克风阵列采集信号的角度。
102、根据该第一角度,确定第二角度范围,该第二角度范围内的第二角度的三角函数值与该第一角度的三角函数值之间的差值小于目标阈值。
103、对该第一语音信号中该第二角度范围之外的信号进行抑制处理,得到第二语音信号。
104、对该第二语音信号进行识别,根据识别结果执行对应的操作。
在一种可能实现方式中,该对该第一语音信号中该第二角度范围之外的信号进行抑制处理,得到第二语音信号,包括:
根据该第二角度范围,调整滤波器的参数,调整后的该滤波器用于滤除该第二角度范围之外的信号;
采用调整后的该滤波器,对该第一语音信号进行滤波处理,得到该第二语音信号。
在一种可能实现方式中,该对该第二语音信号进行识别,根据识别结果执行对应的操作,包括:
对该第二语音信号进行识别,得到该第二语音信号对应的目标文本内容;
根据该第二语音信号对应的目标文本内容,查询文本内容与操作指令之间的对应关系,得到该目标文本内容对应的操作指令;
执行该目标文本内容对应的操作指令。
在一种可能实现方式中,该第一角度的获取过程包括下述任一项:
显示角度设置界面,获取在该角度设置界面中输入的角度作为该第一角度;
对该第一语音信号进行声源定位,确定该第一语音信号对应的语音声源的角度,将该语音声源的角度作为该第一角度。
本申请实施例提供的方法,通过获取第一语音信号和第一角度后,根据第一角度,确定一个误差允许的第二角度范围,根据该第二角度范围,对第二角度范围之外的信号进行抑制处理后,再对语音信号进行识别,由于去除了期望角度以外的语音信号的干扰,可以提高语音识别的准确率。
在一种可能实现方式中,该三角函数公式如下:
Figure BDA0002391474540000081
其中,该x为角度,该sin x为三角函数值。
在一种可能实现方式中,该采用三角函数公式,获取该第一角度的三角函数值,包括:
将该第一角度的定点数对目标角度的定点数求余,得到第三角度;
当该第三角度不小于0且不大于π/2时,采用该三角函数公式,获取该第三角度的三角函数值,将该第三角度的三角函数值作为该第一角度的三角函数值。
在一种可能实现方式中,该将该第一角度的定点数对目标角度的定点数求余,得到第三角度之后,该方法还包括:
当该第三角度小于0时,将该第三角度加上2π,得到第四角度;
当该第四角度不大于π/2时,采用该三角函数公式,获取该第四角度的三角函数值,将该第四角度的三角函数值作为该第一角度的三角函数值。
在一种可能实现方式中,该当该第三角度小于0时,将该第三角度加上2π,得到第四角度之后,该方法还包括:
当该第四角度大于π时,设置目标标记的取值为1,将2π减去该第四角度,得到第五角度;
当该第五角度不大于π/2时,采用该三角函数公式,获取该第五角度的三角函数值,当该目标标记的取值为1时,将该第五角度的三角函数值取负数作为该第一角度的三角函数值。
在一种可能实现方式中,该将2π减去该第四角度,得到第五角度之后,该方法还包括:
当该第五角度大于π/2时,将π减去该第五角度,得到第六角度;
采用该三角函数公式,获取该第六角度的三角函数值,当该目标标记的取值为1时,将该第六角度的三角函数值取负数作为该第一角度的三角函数值。
在一种可能实现方式中,该当该第三角度小于0时,将该第三角度加上2π,得到第四角度之后,该方法还包括:
当该第四角度大于π/2且不大于π时,将π减去该第四角度,得到第七角度;
采用该三角函数公式,获取该第七角度的三角函数值,将该第七角度的三角函数值作为该第一角度的三角函数值。
在一种可能实现方式中,该将该第一角度的定点数对目标角度的定点数求余,得到第三角度之后,该方法还包括:
当该第三角度不小于0且大于π时,设置目标标记的取值为1,将2π减去该第三角度,得到第八角度;
当该第八角度不大于π/2时,采用该三角函数公式,获取该第八角度的三角函数值,当该目标标记的取值为1时,将该第八角度的三角函数值取负数作为该第一角度的三角函数值。
在一种可能实现方式中,该将该第一角度的定点数对目标角度的定点数求余,得到第三角度之后,该方法还包括:
当该第三角度大于π/2且不大于π时,将π减去该第三角度,得到第九角度;
采用该三角函数公式,获取该第九角度的三角函数值,将该第九角度的三角函数值作为该第一角度的三角函数值。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图2是本申请实施例提供的一种语音信号处理方法的流程图。该方法由电子设备执行,参见图2,该方法包括:
201、电子设备获取第一语音信号和第一角度,该第一语音信号通过麦克风阵列采集得到,该第一角度为期望通过该麦克风阵列采集信号的角度。
针对第一语音信号的获取方式,电子设备可以通过麦克风阵列采集到第一语音信号,也可以接收其他设备发送的第一语音信号。
针对第一角度的获取方式,该第一角度的获取过程可以包括下述任一种实现方式:
第一种方式、显示角度设置界面,获取在该角度设置界面中输入的角度作为该第一角度。
电子设备可以提供一个角度设置界面,提示用户在该角度设置界面中输入用户期望通过麦克风阵列采集信号的角度,用户可以根据提示在该角度设置界面中设置角度,电子设备可以将用户设置的角度作为该第一角度。
该方式是该第一角度由用户在电子设备上进行设置,使得电子设备可以获取到用户设置的该第一角度。
第二种方式、对该第一语音信号进行声源定位,确定该第一语音信号对应的语音声源的角度,将该语音声源的角度作为该第一角度。
电子设备可以采用声源定位算法,对第一语音信号进行声源定位,确定语音声源的角度,该角度用于指示语音声源相对于麦克风阵列的角度。声源定位算法包括但不限于基于可控波束形成的声源定位算法、基于高分辨率谱估计的声源定位算法和基于到达时间差的声源定位算法,本申请实施例对此不做限定。
第一角度既可以由用户在电子设备上进行设置,也可以由电子设备进行声源定位得到,提高了获取第一角度的灵活性。
202、电子设备将该第一角度的定点数对目标角度的定点数求余,得到第三角度。
电子设备可以对第一角度进行定标,得到第一角度的定点数,对目标角度进行定标,得到目标角度的定点数。其中,该目标角度可以为2π。
例如,定标值Q=15,第一角度为π/2,目标角度为2π,则第一角度的定点数为(π/2)*215,目标角度的定点数为(2π)*215
电子设备可以将定点化的第一角度对定点化的目标角度求余,将得到的余数作为该第三角度。
203、当该第三角度不小于0且不大于π/2时,电子设备采用三角函数公式,获取该第三角度的三角函数值,将该第三角度的三角函数值作为该第一角度的三角函数值,该三角函数公式根据三角函数的泰勒级数展开公式转换得到。
其中,三角函数的泰勒级数展开公式可以如下:
Figure BDA0002391474540000111
在一种可能实现方式中,该三角函数公式如下:
Figure BDA0002391474540000112
其中,该x为角度,该sin x为三角函数值。
对于该三角函数公式的定点化计算,假若定标为Q,则可以根据Q值,首先将
Figure BDA0002391474540000113
的定点数计算出来,定点数的计算公式如下:
y=x*2Q
其中,x为浮点数,Q为定标值,y为定点数。例如,定标值Q=15,则
Figure BDA0002391474540000114
的定点数为
Figure BDA0002391474540000115
对于任一x,在采用上述三角函数公式计算该x的三角函数值时,可以将x2首先计算出来,代入上述三角函数公式的各处,不必重复计算,减少累乘误差,提高精度。
如果第三角度处于[0,π/2]的范围内,则电子设备可以采用该三角函数公式,计算该第三角度的三角函数值,将计算得到的三角函数值作为第一角度的三角函数值。
利用定点化的思想实现泰勒级数展开公式,通过改进泰勒级数展开公式,,全部转化为乘加计算,可以获取到较高精度的三角函数公式,该三角函数公式在实际计算中只有乘法和加法,处理器可以实现快速计算。利用上述处理后的公式,即可得到精度较高的计算结果。
步骤202和步骤203是采用三角函数公式,获取该第一角度的三角函数值的一种可能实现方式。该可能实现方式是针对第三角度不大于0且不大于π/2的情况,可以理解的是,该第三角度也可以存在其他情况,针对其他情况将在下面可能实现方式中进行说明,参见步骤a至步骤b,或步骤i至步骤j,或步骤k至步骤l。
在一种可能实现方式中,电子设备执行步骤202,得到第三角度之后,还可以执行下述步骤a至步骤b:
步骤a、当该第三角度小于0时,将该第三角度加上2π,得到第四角度。
通过该步骤a得到的第四角度处于[0,2π]的范围内。
步骤b、当该第四角度不大于π/2时,采用该三角函数公式,获取该第四角度的三角函数值,将该第四角度的三角函数值作为该第一角度的三角函数值。
当该第四角度不大于π/2时,也即是,该第四角度处于[0,π/2]的范围内时,电子设备可以采用步骤203中的三角函数公式,计算该第四角度的三角函数值,将计算得到的三角函数值作为第一角度的三角函数值。
步骤b是针对第四角度不大于π/2的情况,可以理解的是,该第四角度也可以存在其他情况,针对其他情况将在下面可能实现方式中进行说明,参见步骤c至步骤d,或步骤g至步骤h。
在一种可能实现方式中,电子设备执行步骤a,得到第四角度之后,还可以执行下述步骤c至步骤d:
步骤c、当该第四角度大于π时,设置目标标记的取值为1,将2π减去该第四角度,得到第五角度。
其中,该目标标记的默认值可以为0。通过该步骤c得到的第五角度处于[0,π]的范围内。
步骤d、当该第五角度不大于π/2时,采用该三角函数公式,获取该第五角度的三角函数值,当该目标标记的取值为1时,将该第五角度的三角函数值取负数作为该第一角度的三角函数值。
当该第五角度不大于π/2时,也即是,该第五角度处于[0,π/2]的范围内时,电子设备可以采用步骤203中的三角函数公式,计算该第五角度的三角函数值,如果目标标记的取值为1,则可以将计算得到的三角函数值取负数后作为第一角度的三角函数值。
步骤d是针对第五角度不大于π/2的情况,可以理解的是,该第五角度也可以存在其他情况,针对其他情况将在下面可能实现方式中进行说明,参见步骤e至步骤f。
在一种可能实现方式中,电子设备执行步骤c,得到第五角度之后,还可以执行下述步骤e至步骤f:
步骤e、当该第五角度大于π/2时,将π减去该第五角度,得到第六角度。
通过该步骤e得到的第六角度处于[0,π/2]的范围内。
步骤f、采用该三角函数公式,获取该第六角度的三角函数值,当该目标标记的取值为1时,将该第六角度的三角函数值取负数作为该第一角度的三角函数值。
电子设备可以采用步骤203中的三角函数公式,计算该第六角度的三角函数值,如果目标标记的取值为1,则可以将计算得到的三角函数值取负数后作为第一角度的三角函数值。
在一种可能实现方式中,在一种可能实现方式中,电子设备执行步骤a,得到第四角度之后,还可以执行下述步骤g至步骤h:
步骤g、当该第四角度大于π/2且不大于π时,将π减去该第四角度,得到第七角度。
通过该步骤g得到的第六角度处于[0,π/2]的范围内。
步骤h、采用该三角函数公式,获取该第七角度的三角函数值,将该第七角度的三角函数值作为该第一角度的三角函数值。
电子设备可以采用步骤203中的三角函数公式,计算该第七角度的三角函数值,将计算得到的三角函数值作为第一角度的三角函数值。
在一种可能实现方式中,电子设备执行步骤202,得到第三角度之后,还可以执行下述步骤i至步骤j:
步骤i、当该第三角度不小于0且大于π时,设置目标标记的取值为1,将2π减去该第三角度,得到第八角度。
通过该步骤i得到的第八角度处于[0,π]的范围内。
步骤j、当该第八角度不大于π/2时,采用该三角函数公式,获取该第八角度的三角函数值,当该目标标记的取值为1时,将该第八角度的三角函数值取负数作为该第一角度的三角函数值。
当该第八角度不大于π/2时,也即是,该第八角度处于[0,π/2]的范围内时,电子设备可以采用步骤203中的三角函数公式,计算该第八角度的三角函数值,如果目标标记的取值为1,则可以将计算得到的三角函数值取负数后作为第一角度的三角函数值。
在一种可能实现方式中,电子设备执行步骤202,得到第三角度之后,还可以执行下述步骤k至步骤l:
步骤k、当该第三角度大于π/2且不大于π时,将π减去该第三角度,得到第九角度;
通过该步骤k得到的第六角度处于[0,π/2]的范围内。
步骤l、采用该三角函数公式,获取该第九角度的三角函数值,将该第九角度的三角函数值作为该第一角度的三角函数值。
电子设备可以采用步骤203中三角函数公式,计算该第九角度的三角函数值,将计算得到的三角函数值作为第一角度的三角函数值。
为了便于更清楚的采用该三角函数公式获取三角函数值的流程,下面将结合图3,对该流程进行说明。参见图3,图3是本申请实施例提供的一种采用该三角函数公式获取三角函数值的流程图,如图3所示,图3中用x表示输入的角度,单位为弧度,用X表示对输入的角度处理后得到的角度。输入x后,将定点化的x对定点化的(2*pi)求余,其中,pi的取值为π,余数记为X,使得X在[-2*pi,2*pi]内,判断X是否小于0,若X小于0,则将X加上2*pi,确保X是在[0,2*pi]内,若X不小于0,则判断X是否大于pi,若X大于pi,则设置flag=1,将(2*pi)减去X,使X在[0,pi]内,若X不大于pi,则判断X是否大于pi/2,若X大于pi/2,则将pi-X,使X在[0,pi/2]内,若X不大于pi/2,则利用三角函数公式计算y=sin(x),若flag=1,则y=-y。
上述流程利用三角函数的周期性、对称性,将任意范围内的一个值转化为[0,pi/2]范围内的值。
204、电子设备根据该第一角度,确定第二角度范围,该第二角度范围内的第二角度的三角函数值与该第一角度的三角函数值之间的差值小于目标阈值。
其中,目标阈值是可以允许的偏差,如果小于该偏差,则是需要保留的信号,如果大于该偏差,则是需要抑制处理的信号。
电子设备在获取到第一角度的三角函数值后,可以根据第一角度的三角函数值,确定三角函数值与该第一角度的三角函数值之间的差值小于该目标阈值的各个第二角度,将该各个第二角度组成的角度范围作为该第二角度范围。第二角度的三角函数值的获取过程与第一角度的三角函数值的获取过程同理,此处不再赘述。
205、电子设备对该第一语音信号中该第二角度范围之外的信号进行抑制处理,得到第二语音信号。
信号的角度是指信号相对于麦克风阵列的角度,第二角度范围之外的信号可以是指相对于麦克风阵列的角度在第二角度范围之外的信号。
在一种可能实现方式中,该对该第一语音信号中该第二角度范围之外的信号进行抑制处理,得到第二语音信号,包括:根据该第二角度范围,调整滤波器的参数,调整后的该滤波器用于滤除该第二角度范围之外的信号;
采用调整后的该滤波器,对该第一语音信号进行滤波处理,得到该第二语音信号。
滤波器存在初始系数,电子设备在确定第二角度范围后,可以根据第二角度范围来调整滤波器的系数,使得调整后的滤波器可以滤除第二角度范围之外的信号。电子设备调整好滤波器的系数后,可以采用调整后的滤波器对第一语音信号进行滤波处理,过滤掉第二角度范围之外的干扰信号,得到第二角度范围内的语音信号,将其作为第二语音信号。
206、电子设备对该第二语音信号进行识别,根据识别结果执行对应的操作。
在一种可能实现方式中,该对该第二语音信号进行识别,根据识别结果执行对应的操作,包括:对该第二语音信号进行识别,得到该第二语音信号对应的目标文本内容;根据该第二语音信号对应的目标文本内容,查询文本内容与操作指令之间的对应关系,得到该目标文本内容对应的操作指令;执行该目标文本内容对应的操作指令。
电子设备可以采用ASR(Automatic Speech Recognition,自动语音识别)技术,对第二语音信号进行识别,将得到的文本内容作为该目标文本内容,然后查询该目标文本内容对应的操作指令后,执行对应的操作指令。在一些可能实施例中,电子设备在查询该目标文本内容对应的操作指令之前,可以先提取该目标文本内容的关键词,根据关键词查询文本内容与操作指令之间的对应关系,将包括该关键词的文本内容所对应的操作指令作为目标文本内容对应的操作指令。可以理解的是,该对应关系也可以是关键词与操作指令之间的对应关系,这样,电子设备在提取该目标文本内容的关键词后,可以根据关键词查询关键词与操作指令之间的对应关系,将查询到的操作指令作为目标文本内容对应的操作指令。
相关技术提供的技术方案需要定义三角函数计算表,若获取比较高的计算精度,表格需要占用比较大的内存空间,这对内存资源较为紧张的嵌入式处理器来说是一种资源浪费,且该表格一旦定义,计算精度也确定了,如果想要调整精度,需要重新定标,则需要重新定义表格,灵活性较差。
而本申请实施例提供的技术方案采用对泰勒级数改进得到的三角函数公式进行三角函数的定点化计算,可以求解任意范围内的三角函数,不仅可以提高精度,且无需定义表资源,可以极大节约嵌入式处理器上的宝贵的内存资源,且可以提高计算精度,且计算精度可以根据需要灵活调整。
下面对本申请的技术方案的应用场景进行示例说明:
在一个示例场景中,三角函数计算大量出现在软件初始化阶段。一旦周期性运行起来则不需要太多的三角函数计算,这时候采用泰勒级数展开公式是最优的选择。经典的双麦降噪等算法,在初始化时会根据不同的角度值进行一些矩阵的初始化,而且需要较高的精度。通过提高泰勒级数展开公式的级数项,可以非常容易获取较高的精度,并且可以计算任意范围的函数值。
在另一个示例场景中,在很多低功耗应用场景中,嵌入式处理器的硬件资源非常有限,内存往往比较小,利用泰勒级数展开公式可以极大节约宝贵的内存资源。通过将泰勒级数展开公式后经过调整可全部展开为整数乘加的形式,处理器可以快速计算;且函数规模较小,非常节约内存空间。
本申请实施例提供的方法,通过获取第一语音信号和第一角度后,根据第一角度,确定一个误差允许的第二角度范围,根据该第二角度范围,对第二角度范围之外的信号进行抑制处理后,再对语音信号进行识别,由于去除了期望角度以外的语音信号的干扰,可以提高语音识别的准确率。
其中,在根据第一角度确定第二角度范围时可以利用三角函数值,该三角函数值可以根据三角函数的泰勒级数展开公式转换得到的三角函数公式计算得到,可以提高计算精度,节约语音信号处理的内存资源。
图4是本申请实施例提供的一种语音信号处理装置的结构示意图。参照图4,该装置包括:
获取模块401,用于获取第一语音信号和第一角度,该第一语音信号通过麦克风阵列采集得到,该第一角度为期望通过该麦克风阵列采集信号的角度;
确定模块402,用于根据该第一角度,确定第二角度范围,该第二角度范围内的第二角度的三角函数值与该第一角度的三角函数值之间的差值小于目标阈值;
处理模块403,用于对该第一语音信号中该第二角度范围之外的信号进行抑制处理,得到第二语音信号;
识别模块404,用于对该第二语音信号进行识别,根据识别结果执行对应的操作。
在一种可能实现方式中,该处理模块403用于:
根据该第二角度范围,调整滤波器的参数,调整后的该滤波器用于滤除该第二角度范围之外的信号;
采用调整后的该滤波器,对该第一语音信号进行滤波处理,得到该第二语音信号。
在一种可能实现方式中,该识别模块404用于:
对该第二语音信号进行识别,得到该第二语音信号对应的目标文本内容;
根据该第二语音信号对应的目标文本内容,查询文本内容与操作指令之间的对应关系,得到该目标文本内容对应的操作指令;
执行该目标文本内容对应的操作指令。
在一种可能实现方式中,该获取模块401用于执行下述任一项:
显示角度设置界面,获取在该角度设置界面中输入的角度作为该第一角度;
对该第一语音信号进行声源定位,确定该第一语音信号对应的语音声源的角度,将该语音声源的角度作为该第一角度。
在一种可能实现方式中,该三角函数公式如下:
Figure BDA0002391474540000171
其中,该x为角度,该sin x为三角函数值。
在一种可能实现方式中,该获取模块401用于:
将该第一角度的定点数对目标角度的定点数求余,得到第三角度;
当该第三角度不小于0且不大于π/2时,采用该三角函数公式,获取该第三角度的三角函数值,将该第三角度的三角函数值作为该第一角度的三角函数值。
在一种可能实现方式中,该获取模块401还用于:
当该第三角度小于0时,将该第三角度加上2π,得到第四角度;
当该第四角度不大于π/2时,采用该三角函数公式,获取该第四角度的三角函数值,将该第四角度的三角函数值作为该第一角度的三角函数值。
在一种可能实现方式中,该获取模块401还用于:
当该第四角度大于π时,设置目标标记的取值为1,将2π减去该第四角度,得到第五角度;
当该第五角度不大于π/2时,采用该三角函数公式,获取该第五角度的三角函数值,当该目标标记的取值为1时,将该第五角度的三角函数值取负数作为该第一角度的三角函数值。
在一种可能实现方式中,该获取模块401还用于:
当该第五角度大于π/2时,将π减去该第五角度,得到第六角度;
采用该三角函数公式,获取该第六角度的三角函数值,当该目标标记的取值为1时,将该第六角度的三角函数值取负数作为该第一角度的三角函数值。
在一种可能实现方式中,该获取模块401还用于:
当该第四角度大于π/2且不大于π时,将π减去该第四角度,得到第七角度;
采用该三角函数公式,获取该第七角度的三角函数值,将该第七角度的三角函数值作为该第一角度的三角函数值。
在一种可能实现方式中,该获取模块401还用于:
当该第三角度不小于0且大于π时,设置目标标记的取值为1,将2π减去该第三角度,得到第八角度;
当该第八角度不大于π/2时,采用该三角函数公式,获取该第八角度的三角函数值,当该目标标记的取值为1时,将该第八角度的三角函数值取负数作为该第一角度的三角函数值。
在一种可能实现方式中,该获取模块401还用于:
当该第三角度大于π/2且不大于π时,将π减去该第三角度,得到第九角度;
采用该三角函数公式,获取该第九角度的三角函数值,将该第九角度的三角函数值作为该第一角度的三角函数值。
需要说明的是:上述实施例提供的语音信号处理装置在语音信号处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音信号处理装置与语音信号处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述实施例中的电子设备可以为终端,也可以为服务器。
图5是本申请实施例提供的一种终端的结构示意图。该终端500可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端500包括有:一个或多个处理器501和一个或多个存储器502。
处理器501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器501可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的语音信号处理方法。
在一些实施例中,终端500还可选包括有:***设备接口503和至少一个***设备。处理器501、存储器502和***设备接口503之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口503相连。具体地,***设备包括:射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。
***设备接口503可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器501和存储器502。在一些实施例中,处理器501、存储器502和***设备接口503被集成在同一芯片或电路板上;在一些其他实施例中,处理器501、存储器502和***设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路504包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路504还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏505用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时,显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时,显示屏505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏505可以为一个,设置终端500的前面板;在另一些实施例中,显示屏505可以为至少两个,分别设置在终端500的不同表面或呈折叠设计;在再一些实施例中,显示屏505可以是柔性显示屏,设置在终端500的弯曲表面上或折叠面上。甚至,显示屏505还可以设置成非矩形的不规则图形,也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件506用于采集图像或视频。可选地,摄像头组件506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器501进行处理,或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路507还可以包括耳机插孔。
定位组件508用于定位终端500的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。
电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于:加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。
加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号,控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器512可以检测终端500的机体方向及转动角度,陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时,可以检测用户对终端500的握持信号,由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时,由处理器501根据用户对显示屏505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器514用于采集用户的指纹,由处理器501根据指纹传感器514采集到的指纹识别用户的身份,或者,由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时,指纹传感器514可以与物理按键或厂商Logo集成在一起。
光学传感器515用于采集环境光强度。在一个实施例中,处理器501可以根据光学传感器515采集的环境光强度,控制显示屏505的显示亮度。具体地,当环境光强度较高时,调高显示屏505的显示亮度;当环境光强度较低时,调低显示屏505的显示亮度。在另一个实施例中,处理器501还可以根据光学传感器515采集的环境光强度,动态调整摄像头组件506的拍摄参数。
接近传感器516,也称距离传感器,通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中,当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时,由处理器501控制显示屏505从亮屏状态切换为息屏状态;当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时,由处理器501控制显示屏505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图5中示出的结构并不构成对终端500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图6是本申请实施例提供的一种服务器的结构示意图,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(central processing units,CPU)601和一个或多个存储器602,其中,该存储器602中存储有至少一条程序代码,该至少一条程序代码由该处理器601加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种存储有至少一条程序代码的计算机可读存储介质,例如存储有至少一条程序代码的存储器,上述至少一条程序代码由处理器加载并执行,以实现上述实施例中的语音信号处理方法。例如,该计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上该仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种语音信号处理方法,其特征在于,所述方法包括:
获取第一语音信号和第一角度,所述第一语音信号通过麦克风阵列采集得到,所述第一角度为期望通过所述麦克风阵列采集信号的角度;
根据所述第一角度,确定第二角度范围,所述第二角度范围内的第二角度的三角函数值与所述第一角度的三角函数值之间的差值小于目标阈值;
对所述第一语音信号中所述第二角度范围之外的信号进行抑制处理,得到第二语音信号;
对所述第二语音信号进行识别,根据识别结果执行对应的操作。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一语音信号中所述第二角度范围之外的信号进行抑制处理,得到第二语音信号,包括:
根据所述第二角度范围,调整滤波器的参数,调整后的所述滤波器用于滤除所述第二角度范围之外的信号;
采用调整后的所述滤波器,对所述第一语音信号进行滤波处理,得到所述第二语音信号。
3.根据权利要求1所述的方法,其特征在于,所述对所述第二语音信号进行识别,根据识别结果执行对应的操作,包括:
对所述第二语音信号进行识别,得到所述第二语音信号对应的目标文本内容;
根据所述第二语音信号对应的目标文本内容,查询文本内容与操作指令之间的对应关系,得到所述目标文本内容对应的操作指令;
执行所述目标文本内容对应的操作指令。
4.根据权利要求1所述的方法,其特征在于,所述第一角度的获取过程包括下述任一项:
显示角度设置界面,获取在所述角度设置界面中输入的角度作为所述第一角度;
对所述第一语音信号进行声源定位,确定所述第一语音信号对应的语音声源的角度,将所述语音声源的角度作为所述第一角度。
5.根据权利要求1所述的方法,其特征在于,所述第一角度的三角函数值的获取过程包括:
采用三角函数公式,获取所述第一角度的三角函数值,所述三角函数公式表示如下:
Figure FDA0002391474530000021
其中,所述x为角度,所述sin x为三角函数值。
6.根据权利要求5所述的方法,其特征在于,所述采用三角函数公式,获取所述第一角度的三角函数值,包括:
将所述第一角度的定点数对目标角度的定点数求余,得到第三角度;
当所述第三角度不小于0且不大于π/2时,采用所述三角函数公式,获取所述第三角度的三角函数值,将所述第三角度的三角函数值作为所述第一角度的三角函数值。
7.根据权利要求6所述的方法,其特征在于,所述将所述第一角度的定点数对目标角度的定点数求余,得到第三角度之后,所述方法还包括:
当所述第三角度小于0时,将所述第三角度加上2π,得到第四角度;
当所述第四角度不大于π/2时,采用所述三角函数公式,获取所述第四角度的三角函数值,将所述第四角度的三角函数值作为所述第一角度的三角函数值。
8.根据权利要求7所述的方法,其特征在于,所述当所述第三角度小于0时,将所述第三角度加上2π,得到第四角度之后,所述方法还包括:
当所述第四角度大于π时,设置目标标记的取值为1,将2π减去所述第四角度,得到第五角度;
当所述第五角度不大于π/2时,采用所述三角函数公式,获取所述第五角度的三角函数值,当所述目标标记的取值为1时,将所述第五角度的三角函数值取负数作为所述第一角度的三角函数值。
9.根据权利要求8所述的方法,其特征在于,所述将2π减去所述第四角度,得到第五角度之后,所述方法还包括:
当所述第五角度大于π/2时,将π减去所述第五角度,得到第六角度;
采用所述三角函数公式,获取所述第六角度的三角函数值,当所述目标标记的取值为1时,将所述第六角度的三角函数值取负数作为所述第一角度的三角函数值。
10.根据权利要求7所述的方法,其特征在于,所述当所述第三角度小于0时,将所述第三角度加上2π,得到第四角度之后,所述方法还包括:
当所述第四角度大于π/2且不大于π时,将π减去所述第四角度,得到第七角度;
采用所述三角函数公式,获取所述第七角度的三角函数值,将所述第七角度的三角函数值作为所述第一角度的三角函数值。
11.根据权利要求6所述的方法,其特征在于,所述将所述第一角度的定点数对目标角度的定点数求余,得到第三角度之后,所述方法还包括:
当所述第三角度不小于0且大于π时,设置目标标记的取值为1,将2π减去所述第三角度,得到第八角度;
当所述第八角度不大于π/2时,采用所述三角函数公式,获取所述第八角度的三角函数值,当所述目标标记的取值为1时,将所述第八角度的三角函数值取负数作为所述第一角度的三角函数值。
12.根据权利要求6所述的方法,其特征在于,所述将所述第一角度的定点数对目标角度的定点数求余,得到第三角度之后,所述方法还包括:
当所述第三角度大于π/2且不大于π时,将π减去所述第三角度,得到第九角度;
采用所述三角函数公式,获取所述第九角度的三角函数值,将所述第九角度的三角函数值作为所述第一角度的三角函数值。
13.一种语音信号处理装置,其特征在于,所述装置包括多个功能模块,所述多个功能模块用于执行权利要求1至权利要求12任一项所述的语音信号处理方法。
14.一种电子设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现如权利要求1至12任一项所述的语音信号处理方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至12任一项所述的语音信号处理方法。
CN202010115869.6A 2020-02-25 2020-02-25 语音信号处理方法、装置、设备及存储介质 Active CN111402873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010115869.6A CN111402873B (zh) 2020-02-25 2020-02-25 语音信号处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010115869.6A CN111402873B (zh) 2020-02-25 2020-02-25 语音信号处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111402873A true CN111402873A (zh) 2020-07-10
CN111402873B CN111402873B (zh) 2023-10-20

Family

ID=71413883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010115869.6A Active CN111402873B (zh) 2020-02-25 2020-02-25 语音信号处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111402873B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883160A (zh) * 2020-08-07 2020-11-03 上海茂声智能科技有限公司 一种定向麦克风阵列拾音降噪方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130083832A1 (en) * 2011-09-30 2013-04-04 Karsten Vandborg Sorensen Processing Signals
WO2018040726A1 (zh) * 2016-08-31 2018-03-08 深圳市中兴微电子技术有限公司 一种获取角度相关值的方法、装置及计算机存储介质
CN108986833A (zh) * 2018-08-21 2018-12-11 广州市保伦电子有限公司 基于麦克风阵列的拾音方法、***、电子设备及存储介质
US20190227771A1 (en) * 2018-01-24 2019-07-25 Fujitsu Limited Arithmetic processing device and control method for arithmetic processing device
CN110495185A (zh) * 2018-03-09 2019-11-22 深圳市汇顶科技股份有限公司 语音信号处理方法及装置
CN110517682A (zh) * 2019-09-02 2019-11-29 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN110767247A (zh) * 2019-10-29 2020-02-07 支付宝(杭州)信息技术有限公司 语音信号处理方法、声音采集装置和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130083832A1 (en) * 2011-09-30 2013-04-04 Karsten Vandborg Sorensen Processing Signals
WO2018040726A1 (zh) * 2016-08-31 2018-03-08 深圳市中兴微电子技术有限公司 一种获取角度相关值的方法、装置及计算机存储介质
US20190227771A1 (en) * 2018-01-24 2019-07-25 Fujitsu Limited Arithmetic processing device and control method for arithmetic processing device
CN110495185A (zh) * 2018-03-09 2019-11-22 深圳市汇顶科技股份有限公司 语音信号处理方法及装置
CN108986833A (zh) * 2018-08-21 2018-12-11 广州市保伦电子有限公司 基于麦克风阵列的拾音方法、***、电子设备及存储介质
CN110517682A (zh) * 2019-09-02 2019-11-29 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN110767247A (zh) * 2019-10-29 2020-02-07 支付宝(杭州)信息技术有限公司 语音信号处理方法、声音采集装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883160A (zh) * 2020-08-07 2020-11-03 上海茂声智能科技有限公司 一种定向麦克风阵列拾音降噪方法及装置
CN111883160B (zh) * 2020-08-07 2024-04-16 上海茂声智能科技有限公司 一种定向麦克风阵列拾音降噪方法及装置

Also Published As

Publication number Publication date
CN111402873B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN109800877B (zh) 神经网络的参数调整方法、装置及设备
CN109558837B (zh) 人脸关键点检测方法、装置及存储介质
CN110134744B (zh) 对地磁信息进行更新的方法、装置和***
CN111127509B (zh) 目标跟踪方法、装置和计算机可读存储介质
CN111754386B (zh) 图像区域屏蔽方法、装置、设备及存储介质
CN112261491B (zh) 视频时序标注方法、装置、电子设备及存储介质
CN109102811B (zh) 音频指纹的生成方法、装置及存储介质
CN112084811A (zh) 身份信息的确定方法、装置及存储介质
CN111860064B (zh) 基于视频的目标检测方法、装置、设备及存储介质
CN111402873B (zh) 语音信号处理方法、装置、设备及存储介质
CN111354378A (zh) 语音端点检测方法、装置、设备及计算机存储介质
CN110992954A (zh) 语音识别的方法、装置、设备及存储介质
CN111753606A (zh) 一种智能模型的升级方法及装置
CN111611414A (zh) 车辆检索方法、装置及存储介质
CN112329909B (zh) 生成神经网络模型的方法、装置及存储介质
CN114384466A (zh) 声源方向确定方法、装置、电子设备及存储介质
CN113592874B (zh) 图像显示方法、装置和计算机设备
CN112243083B (zh) 抓拍方法、装置及计算机存储介质
CN112990421B (zh) 优化深度学习网络的运行过程的方法、装置及存储介质
CN111723615B (zh) 对检测物图像进行检测物匹配判定的方法和装置
CN111757146B (zh) 视频拼接的方法、***及存储介质
CN110443841B (zh) 地面深度的测量方法、装置及***
CN111145723A (zh) 转换音频的方法、装置、设备以及存储介质
CN111127539A (zh) 视差确定方法、装置、计算机设备及存储介质
CN112135256A (zh) 移动轨迹的确定方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant