CN113763945B - 一种语音唤醒方法、装置、设备及存储介质 - Google Patents

一种语音唤醒方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113763945B
CN113763945B CN202011595654.5A CN202011595654A CN113763945B CN 113763945 B CN113763945 B CN 113763945B CN 202011595654 A CN202011595654 A CN 202011595654A CN 113763945 B CN113763945 B CN 113763945B
Authority
CN
China
Prior art keywords
sound signal
voice
wake
low
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011595654.5A
Other languages
English (en)
Other versions
CN113763945A (zh
Inventor
于书涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202011595654.5A priority Critical patent/CN113763945B/zh
Publication of CN113763945A publication Critical patent/CN113763945A/zh
Application granted granted Critical
Publication of CN113763945B publication Critical patent/CN113763945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electric Clocks (AREA)
  • Toys (AREA)

Abstract

本发明实施例公开了一种语音唤醒方法、装置、设备及存储介质。获取通过内置的低频录音模块采集的低频声音信号,低频录音模块可以准确的采集低频声音信号,通过内置的回采电路采集的回采声音信号,回采电路准确可以准确的采集各频段的设备声音信号,以及通过内置的麦克风模块采集的原始声音信号,根据采集到的低频声音信号和设备声音信号,从原始声音信号中去除这两种信号,得到语音唤醒信号,通过提取语音唤醒信号对应的语音唤醒信息中的唤醒词,基于唤醒词执行唤醒操作,可以提高主控模块对唤醒词的识别精度,进而提高语音唤醒设备的唤醒率。

Description

一种语音唤醒方法、装置、设备及存储介质
技术领域
本发明实施例涉及语音交互技术,尤其涉及一种语音唤醒方法、装置、设 备及存储介质。
背景技术
随着语音识别技术的发展,语音交互技术逐渐成为一种流行的控制方式。 在进行语音交互时,需要将智能设备由睡眠状态激活至运行状态,即将语音唤 醒设备进行语音唤醒,语音唤醒的效果直接影响着语音交互体验。
目前,为了保证语音唤醒设备的唤醒率,语音唤醒设备使用麦克风(Mic) 阵列(如2Mic阵列、4Mic阵列或6Mic)收集外部声音信号,并将收集的声 音进行降噪、回声消除,进一步提取唤醒词,基于提取的唤醒词决定是否触发 智能设备执行唤醒动作。
在实现本发明的过程中,发现现有技术中至少存在如下问题:
语音唤醒设备的麦克风阵列实际收集的声音的频段为20Hz~8KHz,但是位 于低频段(20Hz~100Hz)的外部声音信号(如环境噪音信号、周围设备噪音信 号以及语音唤醒设备本身的噪音信号等)的频率响应(即幅频特征或相频特征) 存在较大的失真,低频段处失真度较大的外部声音信号影响降噪和回升消除等 处理,进而降低语音唤醒率,并影响用户使用体验。
发明内容
本发明实施例提供了一种语音唤醒方法、装置、设备及存储介质,以实现 提高语音唤醒设备的语音唤醒率的效果,进而提高用户使用体验。
第一方面,本发明实施例提供了一种语音唤醒方法,包括:
获取通过内置的低频录音模块采集的低频声音信号、通过内置的回采电路 采集的回采声音信号以及通过内置的麦克风模块采集的原始声音信号;
根据所述低频声音信号、所述回采声音信号以及所述原始声音信号,确定 语音唤醒信号;
提取所述语音唤醒信号对应的语音唤醒信息中的唤醒词,基于所述唤醒词 执行唤醒操作。
第二方面,本发明实施例还提供了一种语音唤醒设备,包括:
主控模块、低频录音模块、麦克风模块、回采电路以及输出模块;
其中,所述低频录音模块,用于采集低频声音信号,将所述低频声音信号 发送至主控模块;
所述麦克风模块,用于采集原始声音信号,将所述原始声音信号发送至所 述主控模块;
所述回采电路,用于采集语音唤醒设备发出的声音信号,将所述语音唤醒 设备发出的声音信号转化为回采声音信号,并将所述回采声音信号发送至所述 主控模块;
所述主控模块,用于根据所述低频声音信号、所述回采声音信号以及所述 原始声音信号,确定语音唤醒信号,并提取所述语音唤醒信号对应的语音唤醒 信息中的唤醒词,基于所述唤醒词执行唤醒操作;
所述输出模块,用于将执行唤醒操作对应的语音反馈信息进行播放。
第三方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质, 所述计算机可执行指令在由计算机处理器执行时实现如第一方面中任一项所述 的语音唤醒方法。
本实施例提供的技术方案,低频录音模块可以准确的采集低频声音信号, 回采电路准确可以准确的采集各频段的设备声音信号,根据采集到的低频声音 信号和设备声音信号,从原始声音信号中去除这两种信号,得到准确的语音唤 醒信号,通过提取语音唤醒信号对应的语音唤醒信息中的唤醒词,基于唤醒词 执行唤醒操作,可以提高主控模块对唤醒词的识别精度,进而提高语音唤醒设备的唤醒率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描 述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出 创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中为语音唤醒设备的麦克风模块的频率响应性能指标;
图2为现有技术中麦克风模块实际测试的频率响应曲线;
图3为现有技术中麦克风模块采集的语音唤醒设备的扬声器发出的声音失 真曲线;
图4为本发明实施例一提供的一种语音唤醒方法的流程图;
图5为本发明实施例一提供的低频录音模块的频率响应曲线;
图6为本发明实施例二提供的一种语音唤醒装置的结构示意图;
图7为本发明实施例三提供的一种语音唤醒设备的模块示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此 处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需 要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结 构。
语音唤醒设备基于采集到的声音信号执行唤醒操作时,通过麦克风模块采 集声音信号,并对采集到的声音信号进行处理,提取唤醒词,根据提取到的唤 醒词执行语音唤醒操作,采集到的声音信号包括各频段(例如20Hz~8KHz)的 语音唤醒信号、各频段的噪声信号以及各频段的设备声音信号。在实际测试时, 由于语音唤醒设备的自身硬件性能的限制,导致采集到的低频段的声音信号的频率响应的表现较差。如图1所示为语音唤醒设备的麦克风模块的频率响应性 能指标,图2所示为麦克风模块实际测试的频率响应曲线,对比图1和图2可 以看出,麦克风模块采集的低频段(例如20Hz~100Hz)的声音信号的频率响应的表现较差,所述低频段的声音信号包括低频段的设备声音信号和低频段的噪 声信号等,使麦克风模块无法将声音信号准确且真实的录入,影响语音唤醒设 备的主控模块对声音信号进行降噪和回声消除处理,进一步降低语音唤醒设备 的唤醒率,影响用户的使用体验。其中,所述低频段的噪声信号包括中央空调的运行噪音,水泵的运行噪音,风扇的运行噪音等。如图3所示为麦克风模块 采集的语音唤醒设备的扬声器发出的声音失真曲线,由图3可以看出,麦克风 模块采集的设备声音信号在低频段(例如20Hz~150Hz)范围内同样存在非常大 的失真,失真率高达12%以上。
实施例一
图4为本发明实施例一提供的一种语音唤醒方法的流程图,本实施例可适 用于基于采集到的低频声音信号、回采声音信号和原始声音信号唤醒智能音箱 的情况,同时也可以用于其他语音交互场景中,例如,通过声音控制智能家电 和移动终端等应用场景。该方法可以由语音唤醒装置来执行,该装置可以由软 件和/或硬件的方式来实现,集成于具有语音播放功能的设备中,例如,智能音 箱、智能家电或者移动终端等。本实施例以智能音箱为例进行解释。该方法具体包括以下步骤:
S110、获取通过内置的低频录音模块采集的低频声音信号、通过内置的回 采电路采集的回采声音信号以及通过内置的麦克风模块采集的原始声音音频信 号。
其中,所述低频录音模块指的是设置在智能音箱中采集低频声音信号的麦 克风。如图5所示为低频录音模块的频率响应曲线,由图5可以看出,低频录 音模块采集到的低频声音信号的频率响应曲线在低频段(例如20Hz~200Hz)表 现较好,可以将低频声音信号准确且真实的录入。所述低频录音模块可以是单 个麦克风(Mic),也可以是麦克风(Mic)阵列,例如,2Mic阵列、4Mic阵列或6Mic。可选地,低频录音模块可以是驻极体麦克风也可以是微型麦克风。 所述低频声音信号可以包括智能音箱所处环境的低频段(例如20Hz~200Hz)的 噪声信号和智能音箱自身发出的低频段的设备声音信号。
其中,所述回采电路指的是采集智能音箱发出的声音信号(即回采声音信 号)的电路,回采电路采集的各频段的设备声音信号(即在声音信号进入喇叭 前就进行收集)的失真率在0.1%以下,可以使设备声音信号完全被回采电路采 集,并使智能音箱区分智能音箱发出的声音信号和接收的外部声音信号。所述 回采声音信号包括智能音箱的各频段(例如20Hz~8kHz)的设备声音信号。可 选地,所述回采电路可以包括语音控制模块、音频处理模块和输出模块。语音 控制模块接收智能音箱发出的语音数据,并将该语音数据发送至音频处理模块; 音频处理模块,接收该语音数据并对该语音数据进行模数转换处理、增益处理以及音效处理;所述输出模块接收音频处理模块处理后的语音数据,并将处理 后的语音数据输出。其中,所述语音控制模块可以为主控模块(CPU),语音 控制模块接收语音信号并对语音信号进行识别;所述音频处理模块可以包括模 数转换器、功率放大器以及均衡器(EQ)等元器件,所述模数转换器用于对语音数据进行模数转换处理,所述功率放大器用于对语音信号进行增益处理,所 述EQ用于对语音信号的时域信号和频域信号进行均衡处理,以调节语音信号 的音效;所述输出模块可以包括扬声器、耳麦、耳机、小音箱或扩音器等音频 输出设备。通过回采电路,可以使设备声音信号进入输出模块之前就进行采集, 便于后续主控模块对采集的声音信号进行区分。
其中,所述麦克风模块指的是设置在智能音箱中采集各频段声音信号(即 原始声音信号)的麦克风,所述原始声音信号包括各频段(例如20Hz~8kHz) 的语音唤醒信号、低频段的噪声信号以及各频段的设备声音信号。所述麦克风 模块可以是单个麦克风(Mic),也可以是由相同规格的Mic阵列构成的线性或环形Mic阵列。
可以理解的是,低频录音模块、回采电路以及麦克风模块分别采集到低频 声音信号、回采声音信号以及原始声音信号之后,将低频声音信号、回采声音 信号以及原始声音信号发送至主控模块,主控模块获取上述声音信号,并对上 述声音信号进行处理,以根据处理结果执行对智能音箱的唤醒操作。
S120、根据低频声音信号、回采声音信号以及原始声音信号,确定语音唤 醒信号。
其中,所述语音唤醒信号指的是用户对智能音箱主动发出的声音信号。如 前述描述,所述原始声音信号包括各频段的语音唤醒信号、低频段的噪声信号 以及各频段的设备声音信号,原始声音信号被麦克风模块采集;所述回采声音 模块包括各频段的设备声音信号;所述低频声音信号包括低频段的噪声信号和 低频段的设备声音信号。设备声音信号几乎完全被回采电路采集,因此,低频声音信号几乎只包括低频段的噪声信号,原始声音信号包括各频段的语音唤醒 信号和低频段的噪声信号。基于此,可以根据低频声音信号对原始声音信号进 行降噪处理,并基于回采声音信号对降噪处理后原始声音信号进行回声消除,得到所述语音唤醒信号,以将原始声音信号中的低频声音信号和回采声音信号 去除,得到各频段的语音唤醒信号。
可选地,所述根据所述低频声音信号对所述原始声音信号进行降噪处理, 包括:基于所述低频声音信号的幅频特征和/或相频特征,确定降噪参数;基于 所述降噪参数,对所述述原始声音信号进行降噪处理。
可选地,所述基于所述回采声音信号对降噪处理后原始声音信号进行回声 消除,包括:基于所述回采声音信号的幅频特征和/或相频特征,确定回声消除 参数;基于所述回声消除参数对所述降噪处理后原始声音信号进行回声消除。
其中,降噪参数可以包括低频声音信号的相位区间参数和幅度区间参数。 具体地,确定低频声音信号的频率响应曲线,基于低频声音信号的频率响应曲 线,提取低频声音信号的降噪参数,并采用高斯滤波器等方式对原始声音信号 进行降噪处理。通过上述方式可以从原始声音信号中去除低频声音信号。
其中,所述回声消除参数可以包括回采声音信号的相位区间参数和幅度区 间参数。具体地,确定回采声音信号的频率响应曲线,基于回采声音信号的频 率响应曲线,提取回采声音信号的回声消除参数,并采用最小均方(LMS)自 适应滤波器、递推最小二乘(RLS)滤波器格型滤波器或无限冲激响应(IIR) 滤波器等方式对去除低频声音信号的原始音频信号进行回声消除,即将去除低频声音信号的原始音频信号中的回采声音信号去除,得到语音唤醒信号。
通过上述方式,智能音箱通过低频录音模块准确的采集低频声音信号,并 通过回采电路准确的采集各频段的设备声音信号,根据采集到的低频声音信号 和设备声音信号,从原始声音信号中去除这两种信号,得到准确的语音唤醒信 号,便于提高主控模块对唤醒词的正确判断,最终提高唤醒率。
S130、提取语音唤醒信号对应的语音唤醒信息中的唤醒词,基于唤醒词执 行唤醒操作。
其中,语音唤醒信息指的是用户对智能音箱的唤醒内容,所述唤醒词可以 是唤醒内容中的关键词,智能音箱的主控模块对提取语音唤醒信息的关键词, 并对关键词进行识别,确定关键词是否为唤醒词,以使主控模块根据识别结果 执行唤醒操作。
可选地,所述提取所述语音唤醒信号对应的语音唤醒信息中的唤醒词,包 括:提取所述语音唤醒信息的至少一个关键词;计算各关键词与预设的唤醒关 键词之间的相似度,如果所述相似度超过相似度阈值,将相似度大于相似度阈 值的关键词作为所述唤醒词。
本实施例中,主控模块可以基于动态时间规整(DTW)算法、支持向量机 (SVM)算法矢量量化(VQ)算法、隐马可夫模型(HMM)、高斯混合模型 (GMM)以及深度神经网络(DNN)等方式对语音唤醒信息进行语音识别,确 定至少一个关键词;将提取到的关键词与预设的唤醒关键词进行比对,确定各 关键词与预设的唤醒关键词之间的相似度,如果相似度大于相似度阈值,将该 关键词作为唤醒词,基于该唤醒词生成唤醒反馈信息,完成唤醒操作。
可选地,还可以将提取到的至少一个关键词输入至预先训练完成的唤醒词 识别模型,所述唤醒词识别模型可以基于至少一种语种的关键词和唤醒词训练 得到。所述唤醒词识别模型可以是全卷积网络、循环卷积网络、残差网络以及 逻辑回归模型等。
示例性地,语音唤醒信息为“小爱同学”,主控模块提取的关键词为“小爱 同学”,并将提取的关键词与唤醒关键词进行匹配,确定的唤醒词为“小爱”, 基于唤醒词生成唤醒反馈信息为“恩恩,在呢”或者“你说”等信息。
需要说明的是,所述语音唤醒信号还可以是对语音唤醒设备进行控制的语 音控制信号。例如,控制冰箱开启或关闭、控制手机的拍照等功能,以使用户 通过声音控制加点或手机。
本实施例提供的技术方案,低频录音模块可以准确的采集低频声音信号, 回采电路准确可以准确的采集各频段的设备声音信号,根据采集到的低频声音 信号和设备声音信号,从原始声音信号中去除这两种信号,得到准确的语音唤 醒信号,通过提取语音唤醒信号对应的语音唤醒信息中的唤醒词,基于唤醒词 执行唤醒操作,可以提高主控模块对唤醒词的识别精度,进而提高语音唤醒设备的唤醒率。
实施例二
图6为本发明实施例二提供的一种语音唤醒装置的结构示意图。参见图6 所示,该装置包括:信号获取模块210、语音唤醒信号确定模块220以及唤醒 操作执行模块230。
其中,信号获取模块210,用于获取通过内置的低频录音模块采集的低频 声音信号、通过内置的回采电路采集的回采声音信号以及通过内置的麦克风模 块采集的原始声音信号;
语音唤醒信号确定模块220,用于根据所述低频声音信号、所述回采声音 信号以及所述原始声音信号,确定语音唤醒信号;
唤醒操作执行模块230,用于提取所述语音唤醒信号对应的语音唤醒信息 中的唤醒词,基于所述唤醒词执行唤醒操作。
本实施例提供的技术方案,低频录音模块可以准确的采集低频声音信号, 回采电路准确可以准确的采集各频段的设备声音信号,根据采集到的低频声音 信号和设备声音信号,从原始声音信号中去除这两种信号,得到准确的语音唤 醒信号,通过提取语音唤醒信号对应的语音唤醒信息中的唤醒词,基于唤醒词 执行唤醒操作,可以提高主控模块对唤醒词的识别精度,进而提高语音唤醒设备的唤醒率。
在上述各技术方案的基础上,语音唤醒信号确定模块220还用于,根据所 述低频声音信号对所述原始声音信号进行降噪处理,并基于所述回采声音信号 对降噪处理后原始声音信号进行回声消除,得到所述语音唤醒信号。
在上述各技术方案的基础上,语音唤醒信号确定模块220还用于,基于所 述低频声音信号的幅频特征和/或相频特征,确定降噪参数;
基于所述降噪参数,对所述述原始声音信号进行降噪处理。
在上述各技术方案的基础上,语音唤醒信号确定模块220还用于,基于所 述回采声音信号的幅频特征和/或相频特征,确定回声消除参数;
基于所述回声消除参数对所述降噪处理后原始声音信号进行回声消除。
在上述各技术方案的基础上,唤醒操作执行模块230还用于,提取所述语 音唤醒信息的至少一个关键词;
计算各关键词与预设的唤醒关键词之间的相似度,如果所述相似度超过相 似度阈值,将相似度大于相似度阈值的关键词作为所述唤醒词。
在上述各技术方案的基础上,所述低频声音信号包括低频段的噪声信号和 低频段的设备声音信号,所述回采声音信号包括各频段的设备声音信号,所述 原始声音信号包括各频段的语音唤醒信号、低频段的噪声信号以及各频段的设 备声音信号。
实施例三
如图7所示为本发明实施例三提供的一种语音唤醒设备的模块示意图,该 语音唤醒设备1包括主控模块11、低频录音模块12、麦克风模块13、回采电 路14以及输出模块15。
其中,所述低频录音模块12,用于采集低频声音信号,将所述低频声音信 号发送至主控模块;
所述麦克风模块13,用于采集原始声音信号,将所述原始声音信号发送至 所述主控模块11;
所述回采电路14,用于采集语音唤醒设备1发出的声音信号,将所述语音 唤醒设备发出的声音信号转化为回采声音信号,并将所述回采声音信号发送至 所述主控模块11;
所述主控模块11,用于根据所述低频声音信号、所述回采声音信号以及所 述原始声音信号,确定语音唤醒信号,并提取所述语音唤醒信号对应的语音唤 醒信息中的唤醒词,基于所述唤醒词执行唤醒操作;
所述输出模块15,用于将执行唤醒操作对应的语音反馈信息进行播放。
可选地,所述输出模块15可以包括扬声器、耳麦、耳机、小音箱或扩音器 等音频输出设备。
如图7所示为低频录音模块12和麦克风模块13的安装位置示意图,所述 低频录音模块12和麦克风模块13可以设置在语音唤醒设备的同一水平面上。 所述语音唤醒设备包括智能音箱、智能家电以及移动终端。具体地,将低频录 音模块12和麦克风模块13焊接在语音唤醒设备的电路板的同一水平上,每两个麦克风模块13之间可以设置一个低频录音模块12,将每两个麦克风模块13 和低频录音模块12作为一组声音采集模块,基于至少一组声音采集模块采集低 频声音信号和原始声音信号。进一步地,所述语音唤醒设备1还包括:录音模 块16和放音模块17。其中,所述录音模块16,用于接收并放大所述低频声音 信号、所述回采声音信号以及所述原始声音信号,并将放大后的低频声音信号、所述回采声音信号以及所述原始声音信号发送至所述主控模块11;
所述放音模块17,用于放大执行语音唤醒操作对应的语音反馈信号,将放 大后的语音反馈信号发送至所述输出模块15,以使所述输出模块15播放所述语音反馈信号对应的语音反馈信息。
本实施例提供的技术方案,在麦克风模块的同一水平面上增加低频录音模 块,低频录音模块易于集成和安装,有利于推广应用,并通过低频录音模块准 确的采集低频声音信号,通过回采电路准确的采集各频段的设备声音信号,根据采集到的低频声音信号和设备声音信号,从原始声音信号中去除这两种信号, 得到准确的语音唤醒信号,通过提取语音唤醒信号对应的语音唤醒信息中的唤 醒词,基于唤醒词执行唤醒操作,可以提高主控模块对唤醒词的识别精度,进 而提高语音唤醒设备的唤醒率。
实施例四
本发明实施例四还提供了一种计算机可读存储介质,其上存储有计算机程 序,该程序被处理器执行时实现如本发明实施例所提供的一种语音唤醒方法, 该方法包括:
获取通过内置的低频录音模块采集的低频声音信号、通过内置的回采电路 采集的回采声音信号以及通过内置的麦克风模块采集的原始声音信号;
根据所述低频声音信号、所述回采声音信号以及所述原始声音信号,确定 语音唤醒信号;
提取所述语音唤醒信号对应的语音唤醒信息中的唤醒词,基于所述唤醒词 执行唤醒操作。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算 机程序不限于如上的方法操作,还可以执行本发明任意实施例所提供的一种语 音唤醒方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质 的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储 介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、 红外线、或半导体的***、***或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、 便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件 中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以 被指令执行***、***或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在低频声音信号、回采声音信号、原始声 音信号以及唤醒词等,其中承载了计算机可读的程序代码。这种传播的低频声 音信号、回采声音信号、原始声音信号以及唤醒词等形式。计算机可读的信号 介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读 介质可以发送、传播或者传输用于由指令执行***、***或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括—— 但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计 算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似 的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计 算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计 算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情 形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网 (WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服 务提供商来通过因特网连接)。
值得注意的是,上述语音唤醒装置的实施例中,所包括的各个模块只是按 照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能 即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制 本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员 会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进 行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽 然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以 上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种语音唤醒方法,其特征在于,包括:
获取通过内置的低频录音模块采集的低频声音信号、通过内置的回采电路采集的回采声音信号以及通过内置的麦克风模块采集的原始声音信号,其中,所述回采电路用于使设备声音信号进入音频输出设备之前进行采集;
根据所述低频声音信号、所述回采声音信号以及所述原始声音信号,确定语音唤醒信号;
提取所述语音唤醒信号对应的语音唤醒信息中的唤醒词,基于所述唤醒词执行唤醒操作;
所述低频声音信号包括低频段的噪声信号和低频段的设备声音信号,所述回采声音信号包括各频段的设备声音信号,所述原始声音信号包括各频段的语音唤醒信号、低频段的噪声信号以及各频段的设备声音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述低频声音信号、所述回采声音信号以及所述原始声音信号,确定语音唤醒信号,包括:
根据所述低频声音信号对所述原始声音信号进行降噪处理,并基于所述回采声音信号对降噪处理后原始声音信号进行回声消除,得到所述语音唤醒信号。
3.根据权利要求2所述的方法,其特征在于,所述根据所述低频声音信号对所述原始声音信号进行降噪处理,包括:
基于所述低频声音信号的幅频特征和/或相频特征,确定降噪参数;
基于所述降噪参数,对所述述原始声音信号进行降噪处理。
4.根据权利要求2所述的方法,其特征在于,所述基于所述回采声音信号对降噪处理后原始声音信号进行回声消除,包括:
基于所述回采声音信号的幅频特征和/或相频特征,确定回声消除参数;
基于所述回声消除参数对所述降噪处理后原始声音信号进行回声消除。
5.根据权利要求1所述的方法,其特征在于,所述提取所述语音唤醒信号对应的语音唤醒信息中的唤醒词,包括:
提取所述语音唤醒信息的至少一个关键词;
计算各关键词与预设的唤醒关键词之间的相似度,如果所述相似度超过相似度阈值,将相似度大于相似度阈值的关键词作为所述唤醒词。
6.一种语音唤醒装置,其特征在于,包括:
信号获取模块,用于获取通过内置的低频录音模块采集的低频声音信号、通过内置的回采电路采集的回采声音信号以及通过内置的麦克风模块采集的原始声音信号,其中,所述回采电路用于使设备声音信号进入音频输出设备之前进行采集;
语音唤醒信号确定模块,用于根据所述低频声音信号、所述回采声音信号以及所述原始声音信号,确定语音唤醒信号;
唤醒操作执行模块,用于提取所述语音唤醒信号对应的语音唤醒信息中的唤醒词,基于所述唤醒词执行唤醒操作;
所述低频声音信号包括低频段的噪声信号和低频段的设备声音信号,所述回采声音信号包括各频段的设备声音信号,所述原始声音信号包括各频段的语音唤醒信号、低频段的噪声信号以及各频段的设备声音信号。
7.一种语音唤醒设备,其特征在于,包括:
主控模块、低频录音模块、麦克风模块、回采电路以及输出模块;
其中,所述低频录音模块,用于采集低频声音信号,将所述低频声音信号发送至主控模块;
所述麦克风模块,用于采集原始声音信号,将所述原始声音信号发送至所述主控模块;
所述回采电路,用于采集语音唤醒设备发出的声音信号,将所述语音唤醒设备发出的声音信号转化为回采声音信号,并将所述回采声音信号发送至所述主控模块;所述回采电路用于使设备声音信号进入音频输出设备之前进行采集;
所述主控模块,用于根据所述低频声音信号、所述回采声音信号以及所述原始声音信号,确定语音唤醒信号,并提取所述语音唤醒信号对应的语音唤醒信息中的唤醒词,基于所述唤醒词执行唤醒操作;
所述输出模块,用于将执行唤醒操作对应的语音反馈信息进行播放;
所述低频声音信号包括低频段的噪声信号和低频段的设备声音信号,所述回采声音信号包括各频段的设备声音信号,所述原始声音信号包括各频段的语音唤醒信号、低频段的噪声信号以及各频段的设备声音信号。
8.根据权利要求7所述的语音唤醒设备,其特征在于,还包括:
录音模块和放音模块;
所述录音模块,用于接收并放大所述低频声音信号、所述回采声音信号以及所述原始声音信号,并将放大后的低频声音信号、所述回采声音信号以及所述原始声音信号发送至所述主控模块;
所述放音模块,用于放大执行语音唤醒操作对应的语音反馈信号,将放大后的语音反馈信号发送至所述输出模块,以使所述输出模块播放所述语音反馈信号对应的语音反馈信息。
9.根据权利要求7所述的语音唤醒设备,其特征在于,
所述低频录音模块与所述麦克风模块设置在所述语音唤醒设备的同一水平面上。
10.根据权利要求7所述的语音唤醒设备,其特征在于,
所述语音唤醒设备包括智能音箱、智能家电或移动终端。
11.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-5中任一项所述的语音唤醒方法。
CN202011595654.5A 2020-12-29 2020-12-29 一种语音唤醒方法、装置、设备及存储介质 Active CN113763945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011595654.5A CN113763945B (zh) 2020-12-29 2020-12-29 一种语音唤醒方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011595654.5A CN113763945B (zh) 2020-12-29 2020-12-29 一种语音唤醒方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113763945A CN113763945A (zh) 2021-12-07
CN113763945B true CN113763945B (zh) 2024-05-17

Family

ID=78786213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011595654.5A Active CN113763945B (zh) 2020-12-29 2020-12-29 一种语音唤醒方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113763945B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102595281A (zh) * 2011-01-14 2012-07-18 通用汽车环球科技运作有限责任公司 统一标准的麦克风预处理***和方法
WO2013175780A1 (ja) * 2012-05-22 2013-11-28 京セラ株式会社 電子機器、電子機器の制御方法
CN105448294A (zh) * 2015-12-09 2016-03-30 江苏天安智联科技股份有限公司 一种应用于车载设备的智能语音识别***
CN109040501A (zh) * 2018-09-10 2018-12-18 成都擎天树科技有限公司 一种改善voip通话质量的回声消除方法
CN109068215A (zh) * 2018-08-14 2018-12-21 歌尔科技有限公司 一种入耳式耳机的降噪方法、装置及入耳式耳机
CN208477912U (zh) * 2018-06-28 2019-02-05 山西智济电子科技有限公司 一种机车车载音频智能分析管理***
CN109360562A (zh) * 2018-12-07 2019-02-19 深圳创维-Rgb电子有限公司 回声消除方法、装置、介质以及语音唤醒方法和设备
CN110876106A (zh) * 2018-08-31 2020-03-10 北京京东尚科信息技术有限公司 电子设备、降噪方法、计算机***和介质
US10636435B1 (en) * 2018-12-22 2020-04-28 Microsemi Semiconductor (U.S.) Inc. Acoustic echo cancellation using low-frequency double talk detection
CN111916068A (zh) * 2019-05-07 2020-11-10 北京地平线机器人技术研发有限公司 音频检测方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001224099A (ja) * 2000-02-14 2001-08-17 Pioneer Electronic Corp オーディオシステムにおける音場補正方法
JP6069829B2 (ja) * 2011-12-08 2017-02-01 ソニー株式会社 耳孔装着型収音装置、信号処理装置、収音方法
CN106910500B (zh) * 2016-12-23 2020-04-17 北京小鸟听听科技有限公司 对带麦克风阵列的设备进行语音控制的方法及设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102595281A (zh) * 2011-01-14 2012-07-18 通用汽车环球科技运作有限责任公司 统一标准的麦克风预处理***和方法
WO2013175780A1 (ja) * 2012-05-22 2013-11-28 京セラ株式会社 電子機器、電子機器の制御方法
CN105448294A (zh) * 2015-12-09 2016-03-30 江苏天安智联科技股份有限公司 一种应用于车载设备的智能语音识别***
CN208477912U (zh) * 2018-06-28 2019-02-05 山西智济电子科技有限公司 一种机车车载音频智能分析管理***
CN109068215A (zh) * 2018-08-14 2018-12-21 歌尔科技有限公司 一种入耳式耳机的降噪方法、装置及入耳式耳机
CN110876106A (zh) * 2018-08-31 2020-03-10 北京京东尚科信息技术有限公司 电子设备、降噪方法、计算机***和介质
CN109040501A (zh) * 2018-09-10 2018-12-18 成都擎天树科技有限公司 一种改善voip通话质量的回声消除方法
CN109360562A (zh) * 2018-12-07 2019-02-19 深圳创维-Rgb电子有限公司 回声消除方法、装置、介质以及语音唤醒方法和设备
US10636435B1 (en) * 2018-12-22 2020-04-28 Microsemi Semiconductor (U.S.) Inc. Acoustic echo cancellation using low-frequency double talk detection
CN111916068A (zh) * 2019-05-07 2020-11-10 北京地平线机器人技术研发有限公司 音频检测方法和装置

Also Published As

Publication number Publication date
CN113763945A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN111883156B (zh) 音频处理方法、装置、电子设备及存储介质
CN112004177B (zh) 一种啸叫检测方法、麦克风音量调节方法及存储介质
WO2014117722A1 (zh) 语音处理方法、装置及终端设备
CN111128167B (zh) 一种远场语音唤醒方法、装置、电子产品及存储介质
CN104036771A (zh) 信号处理装置、信号处理方法和存储介质
KR20130054195A (ko) 자동 이득 제어
CN110931007B (zh) 语音识别方法及***
WO2023284402A1 (zh) 音频信号处理方法、***、装置、电子设备和存储介质
JP2020115206A (ja) システム及び方法
CN101233561B (zh) 通过根据背景噪声控制振动器的操作来增强移动通信设备中的语音可懂度
WO2022078351A1 (zh) 终端设备及其音频采集方法
US11290802B1 (en) Voice detection using hearable devices
CN112383855A (zh) 蓝牙耳机充电盒、录音方法及计算机可读存储介质
CN116312545B (zh) 多噪声环境下的语音识别***和方法
CN113763945B (zh) 一种语音唤醒方法、装置、设备及存储介质
CN114697782A (zh) 耳机风噪识别方法、装置及耳机
CN107370898B (zh) 铃音播放方法、终端及其存储介质
CN112235462A (zh) 语音调节方法、***、电子设备及计算机可读存储介质
CN111182416A (zh) 处理方法、装置及电子设备
JP2015070292A (ja) 集音・放音装置及び集音・放音プログラム
CN113744732A (zh) 设备唤醒相关方法、装置及故事机
CN112312258B (zh) 一种具有听力防护及听力补偿的智能耳机
JP2015070291A (ja) 集音・放音装置、音源分離ユニット及び音源分離プログラム
CN117392994B (zh) 一种音频信号处理方法、装置、设备及存储介质
CN107331404A (zh) 音视频的声音处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant