CN107146614B - 一种语音信号处理方法、装置及电子设备 - Google Patents

一种语音信号处理方法、装置及电子设备 Download PDF

Info

Publication number
CN107146614B
CN107146614B CN201710231244.4A CN201710231244A CN107146614B CN 107146614 B CN107146614 B CN 107146614B CN 201710231244 A CN201710231244 A CN 201710231244A CN 107146614 B CN107146614 B CN 107146614B
Authority
CN
China
Prior art keywords
sound source
user
voice signal
type
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710231244.4A
Other languages
English (en)
Other versions
CN107146614A (zh
Inventor
李福祥
李峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201710231244.4A priority Critical patent/CN107146614B/zh
Publication of CN107146614A publication Critical patent/CN107146614A/zh
Application granted granted Critical
Publication of CN107146614B publication Critical patent/CN107146614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

本发明实施例公开了一种语音信号处理方法、装置及电子设备,所述方法包括:在所述电子设备处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令;若为是,由睡眠状态切换至工作状态,并定位所接收到的语音信号的声源方位为用户声源方位;继续接收语音信号,并对继续接收到的语音信号中来源于用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号;响应用户语音信号对应的交互指令。电子设备对继续接收到的语音信号中用户声源方位以外的语音信号进行噪声抑制处理,获得的用户语音信号即为处于用户声源方位的用户发出的语音信号,因此可以进行正确的响应,提升用户体验。

Description

一种语音信号处理方法、装置及电子设备
技术领域
本发明涉及语音信号处理技术领域,特别是涉及一种语音信号处理方法、装置及电子设备。
背景技术
目前,市场上有越来越多的产品具有语音交互功能,例如智能音箱、机器人等电子设备。这些电子设备在接收到唤醒指令后,从待机状态切换至工作状态,并通过麦克风阵列接收语音信号,即进行拾音,进而可以对该语音信号进行识别和解析,从而响应该语音信号对应的交互指令。
上述具有语音交互功能的电子设备在接收到唤醒指令后,通过麦克风阵列接收周围环境中的各声源发出的语音信号,将这些语音信号中音量最大者对应的声源方位识别为用户声源方位,声音最大的语音信号也即被视为用户发出的语音信号,进而响应该语音信号对应的交互指令。
通常情况下,应用上述方式能够较佳的进行语音信号处理,但是如果用户周围存在一个或多个音量大于用户音量的发声对象,那么该具有语音交互功能的电子设备便会将接收到的语音信号中音量最大者对应的声源方位识别为用户声源方位,并对音量最大的语音信号进行识别和解析得到交互指令,进而会进行错误的响应,导致用户体验不佳。
发明内容
本发明实施例公开了一种语音信号处理方法、装置及电子设备,用以避免响应错误,提升用户体验。技术方案如下:
第一方面,本发明实施例提供了一种语音信号处理方法,应用于具有语音交互功能的电子设备,所述方法包括:
在所述电子设备处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令;
若为是,由睡眠状态切换至工作状态,并定位所接收到的语音信号的声源方位为用户声源方位;
继续接收语音信号,并对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号;
响应所述用户语音信号对应的交互指令。
可选的,所述对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号的步骤,包括:
对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,并对继续接收到的语音信号中来源于所述用户声源方位的语音信息号进行波束增强处理,获得所述用户语音信号。
可选的,所述方法还包括:
按照所述用户声源方位指示用户方位。
可选的,所述方法还包括:
判断从所述用户声源方位接收到的语音信号对应的交互指令是否为声源定位方式转换指令;
若为是,继续接收语音信号,将所接收到的语音信号中音量最大者对应的声源方位确定为用户声源方位,并将所接收到的语音信号中音量最大者确定为用户语音信号,响应所述用户语音信号对应的交互指令。
可选的,所述判断所接收到的语音信号对应的交互指令是否为唤醒指令的步骤,包括:
按照以下方式判断所接收的每一语音信号对应的交互指令是否为唤醒指令:
对目标语音信号进行过滤处理,滤除所述目标语音信号中频率属于预设频率段的语音信号,其中,所述目标语音信号为:所接收的一个语音信号;
判断过滤处理后的目标语音信号对应的交互指令是否为唤醒指令。
可选的,所述定位所接收到的语音信号的声源方位为用户声源方位的步骤,包括:
定位并记录所接收到的语音信号的声源方位,作为第二类声源方位;
根据第一类声源方位和所述第二类声源方位定位用户声源方位,其中,所述第一类声源方位为所述电子设备处于睡眠状态的情况下,定位并记录的所接收到的语音信号的声源方位,该语音信号对应的交互指令不为唤醒指令。
可选的,所述根据第一类声源方位和所述第二类声源方位定位用户声源方位的步骤,包括:
判断所述第二类声源方位中是否存在不属于所述第一类声源方位的声源方位;
若为是,将所述第二类声源方位中不属于所述第一类声源方位的声源方位定位为用户声源方位。
可选的,所述将所述第二类声源方位中不属于所述第一类声源方位的声源方位定位为用户声源方位的步骤,包括:
确定所述第二类声源方位中不属于第一类声源方位的声源方位的数量;
当所确定的数量大于1时,将不属于预设频率段的语音信号对应的声源方位,确定为所述用户声源方位。
可选的,所述将不属于所述预设频率段的语音信号对应的声源方位,确定为所述用户声源方位的步骤,包括:
确定不属于所述预设频率段的语音信号对应的声源方位的数量;
当所确定的数量大于1时,将所述不属于所述预设频率段的语音信号中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
可选的,在所述第二类声源方位均属于所述第一类声源方位的情况下,所述方法还包括:
判断处于同一声源方位的第一语音信号与第二语音信号的能量差值是否大于第二预设值,其中,所述第一语音信号为所述电子设备处于睡眠状态时接收到的语音信号,所述第二语音信号为所述电子设备处于工作状态时接收到的语音信号;
如果是,将该第二语音信号对应的第二类声源方位确定为所述用户声源方位。
可选的,在所述第二类声源方位均属于所述第一类声源方位的情况下,所述方法还包括:
将所述第二类声源方位中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
可选的,所述将所述第二类声源方位中不属于所述第一类声源方位的声源方位定位为用户声源方位的步骤,包括:
确定所述第二类声源方位中不属于所述第一类声源方位的声源方位为目标声源方位;
根据所述目标声源方位,确定目标范围[A,B],并将所述目标范围内的声源方位确定为所述用户声源方位,其中,A为所述目标声源方位与第一预设方位差值的差值,B为所述目标声源方位与第二预设方位差值的加和。
第二方面,本发明实施例还提供了一种语音信号处理装置,应用于具有语音交互功能的电子设备,所述装置包括:
唤醒指令判断模块,用于在所述电子设备处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令;
声源定位模块,用于在所接收到的语音信号对应的交互指令为唤醒指令的情况下,由睡眠状态切换至工作状态,并定位所接收到的语音信号的声源方位为用户声源方位;
用户语音信号获得模块,用于继续接收语音信号,并对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号;
第一交互指令响应模块,用于响应所述用户语音信号对应的交互指令。
可选的,所述用户语音信号获得模块包括:
用户语音信号获得子模块,用于对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,并对继续接收到的语音信号中来源于所述用户声源方位的语音信息号进行波束增强处理,获得所述用户语音信号。
可选的,所述装置还包括:
用户方位指示模块,用于按照所述用户声源方位指示用户方位。
可选的,所述装置还包括:
转换指令判断模块,用于判断从所述用户声源方位接收到的语音信号对应的交互指令是否为声源定位方式转换指令;
第二交互指令响应模块,用于在从所述用户声源方位接收到的语音信号对应的交互指令为声源定位方式转换指令的情况下,继续接收语音信号,将所接收到的语音信号中音量最大者对应的声源方位确定为用户声源方位,并将所接收到的语音信号中音量最大者确定为用户语音信号,响应所述用户语音信号对应的交互指令。
可选的,所述唤醒指令判断模块包括:
信号过滤子模块和指令判断子模块;
所述唤醒指令判断模块,具体用于通过所述信号过滤子模块和指令判断子模块判断所接收的每一语音信号对应的交互指令是否为唤醒指令;
所述信号过滤子模块,用于对目标语音信号进行过滤处理,滤除所述目标语音信号中频率属于预设频率段的语音信号,其中,所述目标语音信号为:所接收的一个语音信号;
所述指令判断子模块,用于判断过滤处理后的目标语音信号对应的交互指令是否为唤醒指令。
可选的,所述声源定位模块包括:
声源定位子模块,用于定位并记录所接收到的语音信号的声源方位,作为第二类声源方位;
用户声源方位确定子模块,用于根据第一类声源方位和所述第二类声源方位定位用户声源方位,其中,所述第一类声源方位为所述电子设备处于睡眠状态的情况下,定位并记录的所接收到的语音信号的声源方位,该语音信号对应的交互指令不为唤醒指令。
可选的,所述用户声源方位确定子模块包括:
判断单元,用于判断所述第二类声源方位中是否存在不属于所述第一类声源方位的声源方位;
用户声源方位确定单元,用于在所述第二类声源方位中存在不属于所述第一类声源方位的声源方位的情况下,将所述第二类声源方位中不属于所述第一类声源方位的声源方位定位为用户声源方位。
可选的,所述用户声源方位确定单元包括:
数量确定子单元,用于确定所述第二类声源方位中不属于第一类声源方位的声源方位的数量;
第一方位确定子单元,用于当所确定的数量大于1时,将不属于预设频率段的语音信号对应的声源方位,确定为所述用户声源方位。
可选的,所述第一方位确定子单元,具体用于确定不属于所述预设频率段的语音信号对应的声源方位的数量;当所确定的数量大于1时,将所述不属于所述预设频率段的语音信号中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
可选的,所述装置还包括:
能量差值判断模块,用于在所述第二类声源方位均属于所述第一类声源方位的情况下,判断处于同一声源方位的第一语音信号与第二语音信号的能量差值是否大于第二预设值,其中,所述第一语音信号为所述电子设备处于睡眠状态时接收到的语音信号,所述第二语音信号为所述电子设备处于工作状态时接收到的语音信号;如果是,将该第二语音信号对应的第二类声源方位确定为所述用户声源方位。
可选的,所述装置还包括:
波形比较模块,用于将所述第二类声源方位中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
可选的,所述用户声源方位确定子模块包括:
目标声源方位确定单元,用于确定所述第二类声源方位中不属于所述第一类声源方位的声源方位为目标声源方位;
第二方位确定单元,用于根据所述目标声源方位,确定目标范围[A,B],并将所述目标范围内的声源方位确定为所述用户声源方位,其中,A为所述目标声源方位与第一预设方位差值的差值,B为所述目标声源方位与第二预设方位差值的加和。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行上述的语音信号处理方法。
本发明实施例所提供的方案中,具有语音交互功能的电子设备在处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令,若为是,由睡眠状态切换至工作状态,并定位所接收到的语音信号的声源方位为用户声源方位,然后继续接收语音信号,并对继续接收到的语音信号中来源于用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号,进而响应用户语音信号对应的交互指令。电子设备将唤醒指令所对应的声源方位确定为用户声源方位,并对继续接收到的语音信号中该方位以外的语音信号进行噪声抑制处理,获得的用户语音信号即为处于用户声源方位的用户发出的语音信号,因此可以进行正确的响应,提升用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种语音信号处理方法的流程图;
图2为本发明实施例所提供的一种语音信号处理装置的结构示意图;
图3为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了避免响应错误,提升用户体验,本发明实施例提供了一种语音信号处理方法、装置及电子设备。
下面首先对本发明实施例所提供的一种语音信号处理方法进行介绍。
首先需要说明的是,本发明实施例所提供的一种语音信号处理方法可以应用于具有语音交互功能的电子设备(以下简称电子设备),例如,智能音箱、机器人等。该电子设备一般具有麦克风阵列,或与麦克风阵列建立通信连接,该通信连接可以为有线连接或无线连接,其中,无线连接可以为WIFI连接、蓝牙连接等。该麦克风阵列用于接收语音信号。
如图1所示,一种语音信号处理方法,应用于具有语音交互功能的电子设备,所述方法包括:
S101,在所述电子设备处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令,若为是,执行步骤S102;
从一定角度来讲,电子设备的状态可以划分为:睡眠状态和工作状态,当电子设备处于睡眠状态时,需通过接收唤醒指令唤醒电子设备,进而切换至工作状态。另外,当电子设备处于睡眠状态时,依然可以持续接收周围环境中的声源发出的语音信号,也就是,电子设备处于睡眠状态时,麦克风阵列依然工作。此时该电子设备可以接收语音信号,以确定是否接收到唤醒指令。
电子设备接收到一段语音信号后,即开始对接收到的这一段语音信号进行语音识别,判断所接收的这一段语音信号对应的交互指令是否为唤醒指令。具体的,如果这一段语音信号的语音识别结果中包括预设的唤醒词,那么该段语音信号对应的交互指令即为唤醒指令。也就是说,电子设备接收到语音信号后,可以对该语音信号进行语音识别,得到语音识别结果,进而便可以判断出该语音信号的语音识别结果中是否包括预设的唤醒词。
需要说明的是,电子设备接收到语音信号后,可以在本地进行语音信号的语音识别,得到语音识别结果,也可以将该语音信号发送至服务器,服务器接收到该语音信号后,便可以对该语音信号进行语音识别,得到语音识别结果,并将语音识别结果发送至电子设备,电子设备也就能获得该语音识别结果,进而,便可以判断该语音信号的语音识别结果中是否包括预设的唤醒词。
举例而言,如果预设的唤醒词为“小雅”,那么如果电子设备接收到的语音信号对应的语音识别结果中包括“小雅”两个字,那么该语音信号对应的交互指令即为唤醒指令;如果电子设备接收到的语音信号对应的语音识别结果中是不包括“小雅”两个字的其他语句,或者是不具有任何语义的语音信号,例如空调发出的语音信号,那么该语音信号对应的交互指令便不是唤醒指令。
S102,由睡眠状态切换至工作状态,并定位所接收到的语音信号的声源方位为用户声源方位;
电子设备判断出所接收到的语音信号对应的交互指令为唤醒指令时,说明此时用户发出了语音信号来唤醒电子设备,以使电子设备可以与用户进行语音交互,实现功能,电子设备便需要由睡眠状态切换至工作状态。
与此同时,电子设备可以定位所接收到的语音信号的声源方位,将该声源方位确定为用户声源方位。需要说明的是,语音信号的声源方位的定位方式可以采用时延预估法等声源定位方式,也就是说,可以根据语音信号到达麦克风阵列中各麦克风处的时间来定位语音信号的声源方位,在此不做具体限定及说明。
可以理解的是,如果电子设备判断出所接收到的语音信号所对应的交互指令不是唤醒指令时,那么便不会转换至工作状态,而是在睡眠状态下继续接收语音信号,并继续判断所接收到的语音信号对应的交互指令是否为唤醒指令。
S103,继续接收语音信号,并对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号;
确定了用户声源方位后,由于用户一般会继续发出语音信号,所以电子设备可以继续接收语音信号,并对继续接收到的语音信号中来源于用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号。
可以理解的是,由于用户声源方位以外的其他方位也可能存在声源,即噪声声源,这些噪声声源也可能会发出语音信号,电子设备也就会接收到这些噪声声源发出的语音信号,为了可以更好地接收用户所发出的语音信号,也就是来源于用户声源方位的语音信号,电子设备可以对来源于用户声源方位以外的语音信号进行噪声抑制处理,以减弱来源于用户声源方位以外的语音信号的能量,进而获得用户语音信号。
需要说明的是,上述噪声抑制处理可以采用现有的任意噪声抑制处理方式,例如可以为端点检测、噪声分离、频谱过滤等方式,只要能够达到将语音信号的能量进行减弱的目的即可,在此不做具体限定。
S104,响应所述用户语音信号对应的交互指令。
获得了用户语音信号后,电子设备便可以响应该用户语音信号对应的交互指令。电子设备可以通过语音播放等多种形式响应该交互指令,如果电子设备具有显示屏幕,那么也可以通过显示屏幕响应该交互指令,这都是合理的。
举例而言,如果用户语音信号对应的交互指令为播放某音乐,那么电子设备便可以获取本地保存的音乐资源,或者向服务器请求该音乐资源,进而进行播放。如果用户语音信号对应的交互指令为询问今天天气情况,那么电子设备便可以向服务器请求天气资源,进而用语音播放等形式将天气情况告知用户,进而完成交互指令的响应。
可见,本发明实施例所提供的方案中,具有语音交互功能的电子设备在处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令,若为是,由睡眠状态切换至工作状态,并定位所接收到的语音信号的声源方位为用户声源方位,然后继续接收语音信号,并对继续接收到的语音信号中来源于用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号,进而响应用户语音信号对应的交互指令。电子设备将唤醒指令所对应的声源方位确定为用户声源方位,并对继续接收到的语音信号中该方位以外的语音信号进行噪声抑制处理,获得的用户语音信号即为处于用户声源方位的用户发出的语音信号,因此可以进行正确的响应,提升用户体验。
作为本发明实施例的一种实施方式,所述对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号的步骤,可以包括:
对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,并对继续接收到的语音信号中来源于所述用户声源方位的语音信息号进行波束增强处理,获得所述用户语音信号。
为了使获得的用户语音信号更强,以便电子设备更准确地响应用户语音信号对应的交互指令,电子设备在对继续接收到的语音信号中来源于用户声源方位以外的语音信号进行噪声抑制处理的同时,还可以对继续接收到的语音信号中来源于用户声源方位的语音信息号进行波束增强处理,以增加来源于用户声源方位的语音信号的能量,这样电子设备可以将波束增强处理后的语音信号作为用户语音信号,对该用户语音信号进行更准确地识别及解析,得到正确的交互指令,进而,正确地响应该交互指令。
需要说明的是,上述波束增强处理可以采用现有的任意波束增强处理方式,例如可以为语音提取分离、对角加载算法、自适应波速形成等方式,只要能够达到将语音信号的能量进行增强的目的即可,在此不做具体限定。
作为本发明实施例的一种实施方式,上述方法还可以包括:
按照所述用户声源方位指示用户方位。
为了方便用户查看当前用户声源方位,电子设备可以按照用户声源方位指示用户方位。在一种实施方式中,电子设备可以采用指示灯的方式指示用户方位,例如,用户声源方位为45度方位,那么电子设备便可以在45度方位上点亮指示灯。在另一种实施方式中,如果电子设备具有显示屏幕,那么电子设备也可以在显示屏幕上显示用户声源方位,或者,在显示屏幕上显示指示灯,这都是合理的。在另一种实施方式中,如果电子设备为机器人等具有可活动部件的电子设备,那么电子设备也可以采用转动头部、挥动胳膊等方式来指示用户方位。
作为本发明实施例的一种实施方式,上述方法还可以包括:
判断从所述用户声源方位接收到的语音信号对应的交互指令是否为声源定位方式转换指令;若为是,继续接收语音信号,将所接收到的语音信号中音量最大者对应的声源方位确定为用户声源方位,并将所接收到的语音信号中音量最大者确定为用户语音信号,响应所述用户语音信号对应的交互指令。
由于电子设备的应用场景是可以变化的,当电子设备用于响应多个用户发出的交互指令时,为了更准确地的响应该多个用户发出的交互指令,电子设备在接收到来源于用户声源方位的语音信号时,可以判断该语音信号对应的交互指令是否为声源定位方式转换指令,如果是,那么说明用户发出了声源定位方式转换指令,来指示电子设备的应用场景改变了,那么电子设备便需要响应该声源定位方式转换指令,也就是转换声源定位的方式。
具体来说,如果该语音信号对应的交互指令为声源定位方式转换指令,那么电子设备便继续接收语音信号,同时转换声源定位的方式,转换后的声源定位方式即为:将所接收到的语音信号中音量最大者对应的声源方位确定为用户声源方位,可以理解的是,那么电子设备此时便可以将所接收到的语音信号中音量最大者确定为用户语音信号,进而,响应该用户语音信号对应的交互指令。这样,在处在不同方位的多个用户发出交互指令时,电子设备可以接收到每个用户发出的交互指令,而不是将一个固定的方位作为用户声源方位。
当然,在采用转换后的声源定位方式定位用户声源定位后,电子设备可以对继续接收到的语音信号中来源于用户声源方位以外的语音信号进行噪声抑制处理,也可以对继续接收到的语音信号中来源于用户声源方位的语音信息号进行波束增强处理,进而得到用户语音信号,这都是合理的。
由于电子设备判断所接收的每一语音信号对应的交互指令是否为唤醒指令的过程是一样的,所以,作为本发明实施例的一种实施方式,所述判断所接收到的语音信号对应的交互指令是否为唤醒指令的步骤,包括:
按照以下方式判断所接收的每一语音信号对应的交互指令是否为唤醒指令:
对目标语音信号进行过滤处理,滤除所述目标语音信号中频率属于预设频率段的语音信号,其中,所述目标语音信号为:所接收的一个语音信号;
判断过滤处理后的目标语音信号对应的交互指令是否为唤醒指令。
可以理解的是,电子设备所在的环境中可能存在多个声源,那么电子设备也就会接收到周围环境中的各声源发出的语音信号,例如,如果电子设备放置于家庭环境中,那么该电子设备可能接收到多个声源发出的语音信号,例如,电视机、电冰箱等家电设备发出的语音信号,或者窗外传来的语音信号等。这些声源所发出的语音信号中可能有一些语音信号的频率不属于人所发出的语音信号的频率范围,所以为了滤除该类语音信号,而更准确地定位用户声源方位,电子设备可以对接收到的每一语音信号进行过滤处理。
具体来说,人发出的声音的频率范围一般为100-20000Hz,那么不属于该频率范围内的语音信号即不是人所发出的语音信号,那么也就不可能是用户发出的语音信号,所以,为了有效去除一些不属于用户所发出的语音信号频率范围内的语音信号对定位用户声源方位的不良影响,在判断所接收的语音信号对应的交互指令是否为唤醒指令之前,电子设备可以对目标语音信号进行过滤处理,滤除目标语音信号中频率属于预设频率段的语音信号,然后再判断过滤处理后的目标语音信号对应的交互指令是否为唤醒指令,其中,该目标语音信号指代的是电子设备在睡眠状态下所接收的一个语音信号。
上述预设频率段可以为不属于人发出的声音频率范围内的一个或多个频率段,可以为低频频率段,例如,可以为0-100Hz;也可以为高频频率段,例如20000-40000Hz等,当然也可以包括低频频率段及高频频率段,这都是合理的。
在电子设备的使用环境中往往存在一些频率属于预设频率段的语音信号,例如一些低音音响设备,其所发出的语音信号的频率一般为几十赫兹,明显不属于人发出的语音信号的频率范围,所以采用上述过滤处理方式即可滤除该类语音信号,减少后续定位用户声源方位的工作量,同时使用户声源定位更加准确。
对于电子设备所在环境中存在多个声源的情况而言,作为本发明实施例的一种实施方式,所述定位所接收到的语音信号的声源方位为用户声源方位的步骤,包括:
定位并记录所接收到的语音信号的声源方位,作为第二类声源方位;
根据第一类声源方位和所述第二类声源方位定位用户声源方位,其中,所述第一类声源方位为所述电子设备处于睡眠状态的情况下,定位并记录的所接收到的语音信号的声源方位,该语音信号对应的交互指令不为唤醒指令。
在电子设备处于睡眠状态的情况下,判断出所接收到的语音信号未触发唤醒指令时,电子设备可以定位并记录该语音信号的声源方位,为了方便描述本发明实施例所提供的方案,将该语音信号的声源方位作为第一类声源方位。
由于此时电子设备处于睡眠状态,且所接收到的语音信号对应的交互指令不是唤醒指令,所以可以理解的是,此时电子设备接收到的语音信号是噪音声源发出的语音信号,并不是用户发出的语音信号,也就不会触发电子设备处理该语音信号,那么电子设备可以将这些语音信号的声源方位作为第一类声源方位记录下来,也就是作为噪音声源的方位记录下来,并继续接到语音信号。
当电子设备判断出所接收到的语音信号对应的交互指令为唤醒指令时,电子设备可以定位当前接收到的语音信号的声源方位,并将该声源方位作为第二类声源方位记录下来。
电子设备记录了上述第一类声源方位和第二类声源方位后,便可以根据该第一类声源方位和该第二类声源方位定位用户声源方位。电子设备在睡眠状态下接收到的语音信号可能是变化的,也就是说,随着时间的推移,可能有一些声源不再发出语音信号,而又可能会有一些之前未发出语音信号的声源发出语音信号。
例如,电子设备在睡眠状态下时,可能有电视、空调在发出语音信号,过了一段时间,电视可能被关闭,那么电视所对应的第一类声源方位也就不存在了,又过了一段时间,电脑可能被开启,播放音乐,那么在第一类声源方位中便出现了电脑所对应的声源方位。又例如,电子设备在睡眠状态下时,可能在某一时刻,一个人在某处发出了语音信号,但是该语音信号对应的交互指令不是唤醒指令,电子设备没有由睡眠状态切换至工作状态,那么电子设备在此时便会将该人所在的方位记录在第一类声源方位中,过了一段时间,该人不再发出语音信号,所以,第一类声源方位可能是随着时间而变化的。
由于电子设备由睡眠状态切换至工作状态的时刻之前较长时刻对应的第一类声源方位与第二类声源方位的差异性可能较大,那么为了更加简便且准确地定位用户声源方位,可以采用第二类声源方位和电子设备由睡眠状态切换至工作状态时刻之前预设时间段内的第一类声源方位,来确定用户目标声源方位。其中,该预设时间段可以由本领域技术人员根据电子设备的使用场景等实际因素确定,例如,可以为2秒、3秒或5秒等,在此不做具体限定。
在一种实施方式中,根据第一类声源方位和第二类声源方位定位用户声源方位的方式可以为:判断所述第二类声源方位中是否存在不属于所述第一类声源方位的声源方位;若为是,将第二类声源方位中不属于第一类声源方位的声源方位定位为用户声源方位。
可以理解的是,如果第二类声源方位中存在不属于第一类声源方位的声源方位,那么该第二类声源方位中不属于第一类声源方位的声源方位即为:在电子设备由睡眠状态切换至工作状态时所定位的,且不属于第一类声源方位的声源方位,那么便可以确定该声源方位为用户发出的对应的交互指令为唤醒指令的语音信号的声源方位,那么该声源方位即为用户声源方位。
举例而言,电子设备由睡眠状态切换至工作状态时刻之前预设时间段内的第一类声源方位为3个,分别为:0度、30度和90度方位,电子设备由睡眠状态切换至工作状态时,记录的第二声源方位为4个,分别为:0度、30度、60度和90度方位,显然,60度声源方位是在电子设备由睡眠状态切换至工作状态时新出现的一个声源方位,而此时电子设备刚好接收到了对应的交互指令为唤醒指令的语音信号,那么便可以确定该60度声源方位即为用户发出的对应的交互指令为唤醒指令的语音信号的声源方位,也就是用户声源方位。
作为本发明实施例的一种实施方式,所述将所述第二类声源方位中不属于所述第一类声源方位的声源方位定位为用户声源方位的步骤,可以包括:
确定所述第二类声源方位中不属于第一类声源方位的声源方位的数量;当所确定的数量大于1时,将不属于所述预设频率段的语音信号对应的声源方位,确定为所述用户声源方位。
在一些情况下,电子设备在接收到对应的交互指令为唤醒指令的语音信号的同时,可能存在另一个或多个声源方位不属于第一类声源方位的其他声源,这些其他声源也发出了语音信号,那么电子设备也就会接收到这些语音信号。例如,在用户发出对应的交互指令为唤醒指令的语音信号的同时,低音音响设备被开启,发出语音信号,那么电子设备便会接收到用户发出的语音信号和低音音响设备发出的语音信号,显然,这两个语音信号的声源方位均不属于第一类声源方位,所以,第二类声源方位中不属于第一类声源方位的声源方位的数量在此时便为多个。
在这种情况下,为了准确地定位用户声源方位,电子设备首先可以确定第二类声源方位中不属于第一类声源方位的声源方位的数量,如果所确定的数量大于1,说明此时第二类声源方位中不属于第一类声源方位的声源方位的数量是多个,那么电子设备便可以将不属于预设频率段的语音信号对应的声源方位确定为用户声源方位。
举例而言,在用户发出对应的交互指令为唤醒指令的语音信号的同时,低音音响设备被开启,发出语音信号,那么电子设备便会接收到用户发出的语音信号和低音音响设备发出的语音信号,电子设备可以确定第二类声源方位中不属于第一类声源方位的声源方位的数量为2,显然是大于1的,那么电子设备便可以将不属于预设频率段的语音信号对应的声源方位,确定为用户声源方位,由于低音音响设备发出的语音信号的频率属于一个固定的低频频率范围,那么将预设频率段设定为该低频频率范围,便可以准确地将低音音响设备所在的声源方位排除,进而,电子设备便可以准确地确定出用户声源方位。
作为本发明实施例的一种实施方式,所述将不属于所述预设频率段的语音信号对应的声源方位,确定为所述用户声源方位的步骤,可以包括:
确定不属于所述预设频率段的语音信号对应的声源方位的数量;当所确定的数量大于1时,将所述不属于所述预设频率段的语音信号中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
由于在一些情况下,不属于上述预设频率段的语音信号对应的声源方位的数量也可能是大于1的,也就是说,可能存在多个不属于上述预设频率段的语音信号对应的声源方位,那么此时为了准确确定用户声源方位,电子设备可以进一步通过语音信号的波形比较来确定用户声源方位。
可以理解的是,用户声源方位即为用户发出唤醒指令所对应的声源方位,那么上述预设波形即可以为唤醒词对应的语音信号的波形,这样,与该预设波形的相似度大于第一预设值的波形显然是与唤醒词对应的语音信号的波形相似度很高的波形,那么也就说明该语音信号对应的交互指令很可能就是唤醒指令,那么该语音信号的声源方位也就是用户声源方位。其中,第一预设值可以由本领域技术人员根据电子设备的使用场景中存在的声源所发出语音信号的波形特点等因素进行设定,在此不做具体限定。
例如,在用户发出对应的交互指令为唤醒指令的语音信号的同时,还有其他人发出语音信号,那么电子设备便会接收到用户发出的语音信号和其他人发出的语音信号,其他人发出的语音信号的频率也不属于预设频率段,电子设备可以确定不属于上述预设频率段的语音信号对应的声源方位的数量为多个,显然是大于1的,那么,电子设备便可以将这多个语音信号的波形与预设的唤醒词对应的波形进行比较,相似度高于第一预设值的语音信号的声源方位,也就是用户声源方位。可见,通过该语音信号波形比较方式可以更加准确地确定用户声源方位。
需要说明的是,在确定出第二类声源方位中不属于第一类声源方位的声源方位的数量大于1时,也可以先通过上述语音信号波形比较方式,将与预设波形相似度较高的波形对应的语音信号的声源方位确定出来,如果所确定出的数量仍然大于1,那么便可以进一步将不属于上述预设频率段的语音信号对应的声源方位,确定为所述用户声源方位,这也是合理的。
作为本发明实施例的一种实施方式,在所述第二类声源方位均属于所述第一类声源方位的情况下,上述方法还可以包括:
判断处于同一声源方位的第一语音信号与第二语音信号的能量差值是否大于第二预设值;如果是,将该第二语音信号对应的第二类声源方位确定为所述用户声源方位,其中,所述第一语音信号为所述电子设备处于睡眠状态时接收到的语音信号,所述第二语音信号为所述电子设备处于工作状态时接收到的语音信号。
由于用户发出对应的交互指令为唤醒指令的语音信号时,可能正处于与第一类声源方位中某个声源方位相同的方位上,那么此时电子设备定位出的第二类声源方位就会出现均属于第一类声源方位的情况,在这种情况下,为了能够准确定出用户声源方位,电子设备可以判断处于同一声源方位的第一语音信号与第二语音信号的能量差值是否大于第二预设值。其中,语音信号的能量可以由音量、频率、波形特征等来表征,在此不做具体限定。
需要说明的是,为了方便描述,上述第一语音信号指代的是电子设备处于睡眠状态时所接收到的语音信号,其对应的声源方位也就是第一类声源方位,上述第二语音信号指代的是电子设备处于工作状态时所接收到的语音信号,其对应的声源方位也就是第二类声源方位。进一步需要说明的是,上述第二预设值可以由本领域技术人员根据电子设备的使用场景中存在的声源所发出的语音信号的能量等因素进行设定,在此不做具体限定。
如果处于同一声源方位的第一语音信号与第二语音信号的能量差值大于第二预设值,那么说明第一语音信号与第二语音信号很可能不是同一个声源发出的语音信号。举例来说,如果第一语音信号与第二语音信号都是冰箱所发出的语音信号,那么二者的能量差值是非常小的,也就不会大于第二预设值;如果第一语音信号是冰箱所发出的语音信号,第二语音信号是用户发出的语音信号,那么二者的能量差值一般是比较大的,也就会大于第二预设值。所以当处于同一声源方位的第一语音信号与第二语音信号的能量差值大于第二预设值时,电子设备便可以将该第二语音信号对应的第二类声源方位确定为用户声源方位。
作为本发明实施例的一种实施方式,在所述第二类声源方位均属于所述第一类声源方位的情况下,上述方法还可以包括:
将所述第二类声源方位中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
在第二类声源方位均属于第一类声源方位的情况下,电子设备也可以通过语音信号波形比较的方式确定用户声源方位,具体实现方式与上述波形比较方式类似,相关之处可以参见上述波形比较方式部分的说明,在此不再赘述。
需要说明的是,如果上述处于同一声源方位的第一语音信号与第二语音信号的能量差值大于第二预设值的第二语音信号为多个,那么也可以进一步通过比较该多个第二语音信号的波形与预设波形的相似度来确定用户声源方位,具体实施方式可以参见上述语音信号波形比较方式部分的说明,在此不再赘述。
作为本发明实施例的一种实施方式,所述将所述第二类声源方位中不属于所述第一类声源方位的声源方位定位为用户声源方位的步骤,可以包括:
确定所述第二类声源方位中不属于所述第一类声源方位的声源方位为目标声源方位;
根据所述目标声源方位,确定目标范围[A,B],并将所述目标范围内的声源方位确定为所述用户声源方位,其中,A为所述目标声源方位与第一预设方位差值的差值,B为所述目标声源方位与第二预设方位差值的加和。
可以理解的是,用户在发出语音信号的过程中,可能会在小范围内改变自己所处的位置,那么其发出的语音信号的声源方位也就会随之变化,为了可以在这种情况下也能准确地进行语音信号地接收,电子设备可以将第二类声源方位中不属于第一类声源方位的声源方位确定为目标声源方位,然后根据该目标声源方位,确定目标范围[A,B],并将该目标范围内的声源方位确定为用户声源方位。
其中,A可以为目标声源方位与第一预设方位差值的差值,B可以为目标声源方位与第二预设方位差值的加和。该第一预设方位差值及第二预设方位差值可以相等,也可以不相等,其具体取值可以由本领域技术人员根据电子设备的使用场景及用户的活动情况进行设定,例如,可以为10度、15度、30度等,在此不做具体限定。
在一种实施方式中,第一预设方位差值与第二预设方位差值可以相等,例如,用户声源方位为60度方位,第一预设方位差值及第二预设方位差值均为30度,那么电子设备便可以将(60-30=30)度到(60+30=90)度范围内的声源方位确定为最终的用户声源方位。当然,在另一种实施方式中,第一预设方位差值与第二预设方位差值可以不相等,例如,用户声源方位为60度方位,第一预设方位差值为10度,第二预设方位差值为15度,那么电子设备便可以将(60-10=50)度到(60+15=75)度范围内的声源方位确定为最终的用户声源方位,这都是合理的。
相应于上述方法实施例,本发明实施例还提供了一种语音信号处理装置,下面对本发明实施例所提供的一种语音信号处理装置进行介绍。
如图2所示,一种语音信号处理装置,应用于具有语音交互功能的电子设备,所述装置包括:
唤醒指令判断模块210,用于在所述电子设备处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令;
声源定位模块220,用于在所接收到的语音信号对应的交互指令为唤醒指令的情况下,由睡眠状态切换至工作状态,并定位所接收到的语音信号的声源方位为用户声源方位;
用户语音信号获得模块230,用于继续接收语音信号,并对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号;
第一交互指令响应模块240,用于响应所述用户语音信号对应的交互指令。
可见,本发明实施例所提供的方案中,具有语音交互功能的电子设备在处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令,若为是,由睡眠状态切换至工作状态,并定位所接收到的语音信号的声源方位为用户声源方位,然后继续接收语音信号,并对继续接收到的语音信号中来源于用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号,进而响应用户语音信号对应的交互指令。电子设备将唤醒指令所对应的声源方位确定为用户声源方位,并对继续接收到的语音信号中该方位以外的语音信号进行噪声抑制处理,获得的用户语音信号即为处于用户声源方位的用户发出的语音信号,因此可以进行正确的响应,提升用户体验。
作为本发明实施例的一种实施方式,所述用户语音信号获得模块230可以包括:
用户语音信号获得子模块(图2中未示出),用于对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,并对继续接收到的语音信号中来源于所述用户声源方位的语音信息号进行波束增强处理,获得所述用户语音信号。
电子设备对继续接收到的语音信号中来源于用户声源方位的语音信息号进行波束增强处理,增加来源于用户声源方位的语音信息号的能量,这样电子设备可以将波束增强处理后的语音信号作为用户语音信号,对用户语音信号进行更准确地解析识别,得到正确的交互指令,进而,正确地响应该交互指令。
作为本发明实施例的一种实施方式,所述装置还可以包括:
用户方位指示模块(图2中未示出),用于按照所述用户声源方位指示用户方位。
电子设备可以按照用户声源方位指示用户方位,可以方便用户查看当前用户声源方位。
作为本发明实施例的一种实施方式,所述装置还可以包括:
转换指令判断模块(图2中未示出),用于判断从所述用户声源方位接收到的语音信号对应的交互指令是否为声源定位方式转换指令;
第二交互指令响应模块(图2中未示出),用于在从所述用户声源方位接收到的语音信号对应的交互指令为声源定位方式转换指令的情况下,继续接收语音信号,将所接收到的语音信号中音量最大者对应的声源方位确定为用户声源方位,并将所接收到的语音信号中音量最大者确定为用户语音信号,响应所述用户语音信号对应的交互指令。
电子设备在接收到来源于用户声源方位的语音信号时,可以判断该语音信号对应的交互指令是否为声源定位方式转换指令,如果是,那么说明用户发出了声源定位方式转换指令,来指示电子设备的应用场景改变了,那么电子设备便可以响应该声源定位方式转换指令,以响应多个用户发出的交互指令,并可以更准确地的响应该交互指令。
作为本发明实施例的一种实施方式,所述唤醒指令判断模块210可以包括:
信号过滤子模块(图2中未示出)和指令判断子模块(图2中未示出);
所述唤醒指令判断模块210,具体用于通过所述信号过滤子模块和指令判断子模块判断所接收的每一语音信号对应的交互指令是否为唤醒指令;
所述信号过滤子模块,用于对目标语音信号进行过滤处理,滤除所述目标语音信号中频率属于预设频率段的语音信号,其中,所述目标语音信号为:所接收的一个语音信号;
所述指令判断子模块,用于判断过滤处理后的目标语音信号对应的交互指令是否为唤醒指令。
在电子设备的使用环境中往往存在一些频率属于预设频率段的语音信号,例如一些低音音响设备,其所发出的语音信号的频率一般为几十赫兹,明显不属于人发出的语音信号的频率范围,所以采用上述过滤处理方式即可滤除该类语音信号,减少后续定位用户声源方位的工作量,同时使用户声源定位更加准确。
作为本发明实施例的一种实施方式,所述声源定位模块220可以包括:
声源定位子模块(图2中未示出),用于定位并记录所接收到的语音信号的声源方位,作为第二类声源方位;
用户声源方位确定子模块(图2中未示出),用于根据第一类声源方位和所述第二类声源方位定位用户声源方位,其中,所述第一类声源方位为所述电子设备处于睡眠状态的情况下,定位并记录的所接收到的语音信号的声源方位,该语音信号对应的交互指令不为唤醒指令。
在电子设备处于存在多个声源的环境中时,通过第一类声源方位和第二类声源方位可以准确定位用户声源方位。
作为本发明实施例的一种实施方式,所述用户声源方位确定子模块可以包括:
判断单元(图2中未示出),用于判断所述第二类声源方位中是否存在不属于所述第一类声源方位的声源方位;
用户声源方位确定单元(图2中未示出),用于在所述第二类声源方位中存在不属于所述第一类声源方位的声源方位的情况下,将所述第二类声源方位中不属于所述第一类声源方位的声源方位定位为用户声源方位。
由于第二类声源方位中不属于第一类声源方位的声源方位即为:在电子设备由睡眠状态切换至工作状态时所定位的,且不属于第一类声源方位的声源方位,那么便可以确定该声源方位为用户发出的对应的交互指令为唤醒指令的语音信号的声源方位,那么便可以准确定位用户声源方位。
作为本发明实施例的一种实施方式,所述用户声源方位确定单元可以包括:
数量确定子单元(图2中未示出),用于确定所述第二类声源方位中不属于第一类声源方位的声源方位的数量;
第一方位确定单元(图2中未示出),用于当所确定的数量大于1时,将不属于预设频率段的语音信号对应的声源方位,确定为所述用户声源方位。
由于低音音响等能够发出噪音的设备所发出的语音信号的频率一般属于一个固定的频率范围,那么将预设频率段设定为该固定频率范围,电子设备可以将不属于预设频率段的语音信号对应的声源方位,确定为用户声源方位,这样可以准确地将属于预设频率段的语音信号的声源方位排除,进而,电子设备便可以准确地确定出用户声源方位。
作为本发明实施例的一种实施方式,所述第一方位确定子单元,具体可以用于确定不属于所述预设频率段的语音信号对应的声源方位的数量;当所确定的数量大于1时,将所述不属于所述预设频率段的语音信号中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
通过将不属于预设频率段的语音信号中,波形与预设波形的相似度的判断,可以在不属于预设频率段的语音信号为多个时,准确定位用户声源方位。
作为本发明实施例的一种实施方式,所述装置还可以包括:
能量差值判断模块(图2中未示出),用于在所述第二类声源方位均属于所述第一类声源方位的情况下,判断处于同一声源方位的第一语音信号与第二语音信号的能量差值是否大于第二预设值,其中,所述第一语音信号为所述电子设备处于睡眠状态时接收到的语音信号,所述第二语音信号为所述电子设备处于工作状态时接收到的语音信号;如果是,将该第二语音信号对应的第二类声源方位确定为所述用户声源方位。
由于用户发出对应的交互指令为唤醒指令的语音信号时,可能正处于与第一类声源方位中某个声源方位相同的方位上,那么此时电子设备定位出的第二类声源方位就会出现均属于第一类声源方位的情况,在这种情况下,如果处于同一声源方位的第一语音信号与第二语音信号的能量差值大于第二预设值,那么说明第一语音信号与第二语音信号很可能不是同一个声源发出的语音信号。所以当处于同一声源方位的第一语音信号与第二语音信号的能量差值大于第二预设值时,电子设备便可以将该第二语音信号对应的第二类声源方位确定为用户声源方位。
作为本发明实施例的一种实施方式,所述装置还可以包括:
波形比较模块(图2中未示出),用于将所述第二类声源方位中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
通过将第二类声源方位对应的语音信号的波形与预设波形的相似度的判断,可以在第二类声源方位均属于第一类声源方位的情况下,准确定位用户声源方位。
作为本发明实施例的一种实施方式,所述用户声源方位确定子模块可以包括:
目标声源方位确定单元(图2中未示出),用于确定所述第二类声源方位中不属于所述第一类声源方位的声源方位为目标声源方位;
第二方位确定单元(图2中未示出),用于根据所述目标声源方位,确定目标范围[A,B],并将所述目标范围内的声源方位确定为所述用户声源方位,其中,A为所述目标声源方位与第一预设方位差值的差值,B为所述目标声源方位与第二预设方位差值的加和。
用户在发出语音信号的过程中,可能会在小范围内改变自己所处的位置,那么其发出的语音信号的声源方位也就会随之变化,采用上述用户声源方位确定方式,电子设备可以在这种情况下准确地进行语音信号地接收,进而进行准确地响应行为。
本发明实施例还提供了一种电子设备,下面对本发明实施例所提供的电子设备进行介绍。
如图3所示,一种电子设备,所述电子设备包括:
壳体301、处理器302、存储器303、电路板304和电源电路305,其中,电路板304安置在壳体301围成的空间内部,处理器302和存储器303设置在电路板304上;电源电路305,用于为电子设备的各个电路或器件供电;存储器303用于存储可执行程序代码;处理器302通过读取存储器303中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行上述方法实施例中所述的语音信号处理方法。
一种实现方式中,上述语音信号处理方法可以包括:
在所述电子设备处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令;
若为是,由睡眠状态切换至工作状态,并定位所接收到的语音信号的声源方位为用户声源方位;
继续接收语音信号,并对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号;
响应所述用户语音信号对应的交互指令。
上述语音信号处理方法的其他实现方式参见前述方法实施例部分的说明,这里不再赘述。
处理器302对上述步骤及上述语音信号处理方法的其他实现方式的具体执行过程以及处理器302通过运行可执行程序代码来进一步执行的过程,可以参见本发明实施例中图1及图2所示实施例的描述,在此不再赘述。
需要说明的是,该电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
可见,本发明实施例所提供的方案中,电子设备的处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,在处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令,若为是,由睡眠状态切换至工作状态,并定位所接收到的语音信号的声源方位为用户声源方位,然后继续接收语音信号,并对继续接收到的语音信号中来源于用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号,进而响应用户语音信号对应的交互指令。电子设备将唤醒指令所对应的声源方位确定为用户声源方位,并对继续接收到的语音信号中该方位以外的语音信号进行噪声抑制处理,获得的用户语音信号即为处于用户声源方位的用户发出的语音信号,因此可以进行正确的响应,提升用户体验。
对于电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (23)

1.一种语音信号处理方法,其特征在于,应用于具有语音交互功能的电子设备,所述方法包括:
在所述电子设备处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令;
若为是,由睡眠状态切换至工作状态,定位并记录所接收到的语音信号的声源方位,作为第二类声源方位;
根据所述第二类声源方位中是否存在不属于第一类声源方位的声源方位,定位用户声源方位,其中,所述第一类声源方位为所述电子设备处于睡眠状态的情况下,定位并记录的所接收到的语音信号的声源方位,该语音信号对应的交互指令不为唤醒指令;
继续接收语音信号,并对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号;
响应所述用户语音信号对应的交互指令。
2.如权利要求1所述的方法,其特征在于,所述对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号的步骤,包括:
对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,并对继续接收到的语音信号中来源于所述用户声源方位的语音信号进行波束增强处理,获得所述用户语音信号。
3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
按照所述用户声源方位指示用户方位。
4.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
判断从所述用户声源方位接收到的语音信号对应的交互指令是否为声源定位方式转换指令;
若为是,继续接收语音信号,将所接收到的语音信号中音量最大者对应的声源方位确定为用户声源方位,并将所接收到的语音信号中音量最大者确定为用户语音信号,响应所述用户语音信号对应的交互指令。
5.如权利要求1或2所述的方法,其特征在于,所述判断所接收到的语音信号对应的交互指令是否为唤醒指令的步骤,包括:
按照以下方式判断所接收的每一语音信号对应的交互指令是否为唤醒指令:
对目标语音信号进行过滤处理,滤除所述目标语音信号中频率属于预设频率段的语音信号,其中,所述目标语音信号为:所接收的一个语音信号;
判断过滤处理后的目标语音信号对应的交互指令是否为唤醒指令。
6.如权利要求1所述的方法,其特征在于,所述根据所述第二类声源方位中是否存在不属于第一类声源方位的声源方位,定位用户声源方位的步骤,包括:
若存在不属于所述第一类声源方位的声源方位,将所述第二类声源方位中不属于所述第一类声源方位的声源方位定位为用户声源方位。
7.如权利要求6所述的方法,其特征在于,所述将所述第二类声源方位中不属于所述第一类声源方位的声源方位定位为用户声源方位的步骤,包括:
确定所述第二类声源方位中不属于第一类声源方位的声源方位的数量;
当所确定的数量大于1时,将不属于预设频率段的语音信号对应的声源方位,确定为所述用户声源方位。
8.如权利要求7所述的方法,其特征在于,所述将不属于所述预设频率段的语音信号对应的声源方位,确定为所述用户声源方位的步骤,包括:
确定不属于所述预设频率段的语音信号对应的声源方位的数量;
当所确定的数量大于1时,将所述不属于所述预设频率段的语音信号中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
9.如权利要求1所述的方法,其特征在于,所述根据所述第二类声源方位中是否存在不属于第一类声源方位的声源方位,定位用户声源方位的步骤,包括:
在所述第二类声源方位均属于所述第一类声源方位的情况下,判断处于同一声源方位的第一语音信号与第二语音信号的能量差值是否大于第二预设值,其中,所述第一语音信号为所述电子设备处于睡眠状态时接收到的语音信号,所述第二语音信号为所述电子设备处于工作状态时接收到的语音信号;
如果是,将该第二语音信号对应的第二类声源方位确定为所述用户声源方位。
10.如权利要求1所述的方法,其特征在于,所述根据所述第二类声源方位中是否存在不属于第一类声源方位的声源方位,定位用户声源方位的步骤,包括:
在所述第二类声源方位均属于所述第一类声源方位的情况下,将所述第二类声源方位中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
11.如权利要求6所述的方法,其特征在于,所述将所述第二类声源方位中不属于所述第一类声源方位的声源方位定位为用户声源方位的步骤,包括:
确定所述第二类声源方位中不属于所述第一类声源方位的声源方位为目标声源方位;
根据所述目标声源方位,确定目标范围[A,B],并将所述目标范围内的声源方位确定为所述用户声源方位,其中,A为所述目标声源方位与第一预设方位差值的差值,B为所述目标声源方位与第二预设方位差值的加和。
12.一种语音信号处理装置,其特征在于,应用于具有语音交互功能的电子设备,所述装置包括:
唤醒指令判断模块,用于在所述电子设备处于睡眠状态情况下,接收语音信号,并判断所接收到的语音信号对应的交互指令是否为唤醒指令;
声源定位模块,用于在所接收到的语音信号对应的交互指令为唤醒指令的情况下,由睡眠状态切换至工作状态,并定位所接收到的语音信号的声源方位为用户声源方位;
用户语音信号获得模块,用于继续接收语音信号,并对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,获得用户语音信号;
第一交互指令响应模块,用于响应所述用户语音信号对应的交互指令;
所述声源定位模块包括:
声源定位子模块,用于定位并记录所接收到的语音信号的声源方位,作为第二类声源方位;
用户声源方位确定子模块,用于根据所述第二类声源方位中是否存在不属于第一类声源方位的声源方位,定位用户声源方位,其中,所述第一类声源方位为所述电子设备处于睡眠状态的情况下,定位并记录的所接收到的语音信号的声源方位,该语音信号对应的交互指令不为唤醒指令。
13.如权利要求12所述的装置,其特征在于,所述用户语音信号获得模块包括:
用户语音信号获得子模块,用于对继续接收到的语音信号中来源于所述用户声源方位以外的语音信号进行噪声抑制处理,并对继续接收到的语音信号中来源于所述用户声源方位的语音信号进行波束增强处理,获得所述用户语音信号。
14.如权利要求12或13所述的装置,其特征在于,所述装置还包括:
用户方位指示模块,用于按照所述用户声源方位指示用户方位。
15.如权利要求12或13所述的装置,其特征在于,所述装置还包括:
转换指令判断模块,用于判断从所述用户声源方位接收到的语音信号对应的交互指令是否为声源定位方式转换指令;
第二交互指令响应模块,用于在从所述用户声源方位接收到的语音信号对应的交互指令为声源定位方式转换指令的情况下,继续接收语音信号,将所接收到的语音信号中音量最大者对应的声源方位确定为用户声源方位,并将所接收到的语音信号中音量最大者确定为用户语音信号,响应所述用户语音信号对应的交互指令。
16.如权利要求12或13所述的装置,其特征在于,所述唤醒指令判断模块包括:
信号过滤子模块和指令判断子模块;
所述唤醒指令判断模块,具体用于通过所述信号过滤子模块和指令判断子模块判断所接收的每一语音信号对应的交互指令是否为唤醒指令;
所述信号过滤子模块,用于对目标语音信号进行过滤处理,滤除所述目标语音信号中频率属于预设频率段的语音信号,其中,所述目标语音信号为:所接收的一个语音信号;
所述指令判断子模块,用于判断过滤处理后的目标语音信号对应的交互指令是否为唤醒指令。
17.如权利要求12所述的装置,其特征在于,所述用户声源方位确定子模块包括:
用户声源方位确定单元,用于在所述第二类声源方位中存在不属于所述第一类声源方位的声源方位的情况下,将所述第二类声源方位中不属于所述第一类声源方位的声源方位定位为用户声源方位。
18.如权利要求17所述的装置,其特征在于,所述用户声源方位确定单元包括:
数量确定子单元,用于确定所述第二类声源方位中不属于第一类声源方位的声源方位的数量;
第一方位确定子单元,用于当所确定的数量大于1时,将不属于预设频率段的语音信号对应的声源方位,确定为所述用户声源方位。
19.如权利要求18所述的装置,其特征在于,
所述第一方位确定子单元,具体用于确定不属于所述预设频率段的语音信号对应的声源方位的数量;当所确定的数量大于1时,将所述不属于所述预设频率段的语音信号中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
20.如权利要求12所述的装置,其特征在于,所述用户声源方位确定子模块,还用于在所述第二类声源方位均属于所述第一类声源方位的情况下,判断处于同一声源方位的第一语音信号与第二语音信号的能量差值是否大于第二预设值,其中,所述第一语音信号为所述电子设备处于睡眠状态时接收到的语音信号,所述第二语音信号为所述电子设备处于工作状态时接收到的语音信号;如果是,将该第二语音信号对应的第二类声源方位确定为所述用户声源方位。
21.如权利要求12所述的装置,其特征在于,所述用户声源方位确定子模块,还用于在所述第二类声源方位均属于所述第一类声源方位的情况下,将所述第二类声源方位中,波形与预设波形的相似度大于第一预设值的语音信号对应的声源方位确定为所述用户声源方位。
22.如权利要求17所述的装置,其特征在于,所述用户声源方位确定单元包括:
目标声源方位确定单元,用于确定所述第二类声源方位中不属于所述第一类声源方位的声源方位为目标声源方位;
第二方位确定单元,用于根据所述目标声源方位,确定目标范围[A,B],并将所述目标范围内的声源方位确定为所述用户声源方位,其中,A为所述目标声源方位与第一预设方位差值的差值,B为所述目标声源方位与第二预设方位差值的加和。
23.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行权利要求1-11中任一项所述的语音信号处理方法。
CN201710231244.4A 2017-04-10 2017-04-10 一种语音信号处理方法、装置及电子设备 Active CN107146614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710231244.4A CN107146614B (zh) 2017-04-10 2017-04-10 一种语音信号处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710231244.4A CN107146614B (zh) 2017-04-10 2017-04-10 一种语音信号处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107146614A CN107146614A (zh) 2017-09-08
CN107146614B true CN107146614B (zh) 2020-11-06

Family

ID=59774608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710231244.4A Active CN107146614B (zh) 2017-04-10 2017-04-10 一种语音信号处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107146614B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN107895578B (zh) * 2017-11-15 2021-07-20 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN109961781B (zh) * 2017-12-22 2021-08-27 深圳市优必选科技有限公司 基于机器人的语音信息接收方法、***及终端设备
CN108231081A (zh) * 2017-12-29 2018-06-29 北京视觉世界科技有限公司 一种语音处理方法、装置、电子设备和存储介质
CN108231075A (zh) * 2017-12-29 2018-06-29 北京视觉世界科技有限公司 清洁设备的控制方法、装置、设备和存储介质
CN108470568B (zh) * 2018-01-22 2021-03-23 科大讯飞股份有限公司 智能设备控制方法及装置、存储介质、电子设备
CN110164426B (zh) * 2018-02-10 2021-10-26 佛山市顺德区美的电热电器制造有限公司 语音控制方法和计算机存储介质
CN108364648B (zh) * 2018-02-11 2021-08-03 北京百度网讯科技有限公司 用于获取音频信息的方法及装置
CN108733420B (zh) * 2018-03-21 2022-04-29 北京猎户星空科技有限公司 智能设备的唤醒方法、装置、智能设备和存储介质
CN108771491A (zh) * 2018-05-24 2018-11-09 宁波国盛电器有限公司 一种三明治机
CN108986833A (zh) * 2018-08-21 2018-12-11 广州市保伦电子有限公司 基于麦克风阵列的拾音方法、***、电子设备及存储介质
CN109087650B (zh) * 2018-10-24 2022-02-22 北京小米移动软件有限公司 语音唤醒方法及装置
CN110033773B (zh) * 2018-12-13 2021-09-14 蔚来(安徽)控股有限公司 用于车辆的语音识别方法、装置、***、设备以及车辆
CN111354336B (zh) * 2018-12-20 2023-12-19 美的集团股份有限公司 分布式语音交互方法、装置、***及家电设备
CN109830232A (zh) * 2019-01-11 2019-05-31 北京猎户星空科技有限公司 人机交互方法、装置和存储介质
CN109920443A (zh) * 2019-03-22 2019-06-21 网易有道信息技术(北京)有限公司 一种语音处理机器
CN110265011B (zh) * 2019-06-10 2020-10-23 龙马智芯(珠海横琴)科技有限公司 一种电子设备的交互方法及其电子设备
CN110428722A (zh) * 2019-08-07 2019-11-08 杭州任你说智能科技有限公司 一种基于智能语音交互技术的智能地球仪及其工作方法
CN112420063A (zh) * 2019-08-21 2021-02-26 华为技术有限公司 一种语音增强方法和装置
CN111128169A (zh) * 2019-12-30 2020-05-08 云知声智能科技股份有限公司 语音唤醒方法及装置
CN111326160A (zh) * 2020-03-11 2020-06-23 南京奥拓电子科技有限公司 一种纠正噪音文本的语音识别方法、***及存储介质
CN112309395A (zh) * 2020-09-17 2021-02-02 广汽蔚来新能源汽车科技有限公司 人机对话方法、装置、机器人、计算机设备和存储介质
CN115223548B (zh) * 2021-06-29 2023-03-14 达闼机器人股份有限公司 语音交互方法、语音交互设备及存储介质
CN114446300B (zh) * 2022-02-17 2023-03-24 北京百度网讯科技有限公司 多音区识别方法、装置、设备以及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2342164B (en) * 1998-10-01 2003-02-26 Roke Manor Research Improvements in or relating to sensor systems
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
JP2003270034A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音情報解析方法、装置、プログラム、および記録媒体
US6970796B2 (en) * 2004-03-01 2005-11-29 Microsoft Corporation System and method for improving the precision of localization estimates
CN1727911A (zh) * 2004-07-26 2006-02-01 松下电器产业株式会社 声控定位***及方法
CN102103200B (zh) * 2010-11-29 2012-12-05 清华大学 一种分布式非同步声传感器的声源空间定位方法
WO2015151130A1 (ja) * 2014-03-31 2015-10-08 パナソニックIpマネジメント株式会社 音声処理装置、音声処理システム、及び音声処理方法
CN104934033A (zh) * 2015-04-21 2015-09-23 深圳市锐曼智能装备有限公司 机器人的声源定位、唤醒识别的控制方法及其控制***
CN106303187B (zh) * 2015-05-11 2019-08-02 小米科技有限责任公司 语音信息的采集方法、装置及终端
CN106531179B (zh) * 2015-09-10 2019-08-20 中国科学院声学研究所 一种基于语义先验的选择性注意的多通道语音增强方法
CN106201424B (zh) * 2016-07-08 2019-10-01 北京甘为乐博科技有限公司 一种信息交互方法、装置及电子设备

Also Published As

Publication number Publication date
CN107146614A (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
CN107146614B (zh) 一种语音信号处理方法、装置及电子设备
CN107144819B (zh) 一种声源定位方法、装置及电子设备
CN106847298B (zh) 一种基于弥漫式语音交互的拾音方法和装置
CN105190746B (zh) 用于检测目标关键词的方法和设备
EP2945045B1 (en) Electronic device and method of playing music in electronic device
CN108962240A (zh) 一种基于耳机的语音控制方法及***
KR20160100765A (ko) 전자 장치 및 음성 인식 기능 운용 방법
CN108470571B (zh) 一种音频检测方法、装置及存储介质
CN104581221A (zh) 视频直播的方法和装置
CN109616135B (zh) 音频处理方法、装置及存储介质
CN106095387B (zh) 一种终端的音效设置方法及终端
CN110060680B (zh) 电子设备交互方法、装置、电子设备及存储介质
CN106940997B (zh) 一种向语音识别***发送语音信号的方法和装置
US20160360332A1 (en) Electronic device and method for controlling input and output by electronic device
CN107229629B (zh) 音频识别方法及装置
CN107993672B (zh) 频带扩展方法及装置
US20120197420A1 (en) Signal processing device, signal processing method, and program
CN109817241B (zh) 音频处理方法、装置及存储介质
KR20150103586A (ko) 음성 입력을 처리하는 방법 및 이를 수행하는 전자 장치
CN107146605B (zh) 一种语音识别方法、装置及电子设备
CN106250182B (zh) 一种文件处理方法、装置及电子设备
CN107680614B (zh) 音频信号处理方法、装置和存储介质
CN110097895B (zh) 一种纯音乐检测方法、装置及存储介质
CN109844857A (zh) 具有语音能力的便携式音频装置
CN109243488B (zh) 音频检测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant