CN113744732A - 设备唤醒相关方法、装置及故事机 - Google Patents

设备唤醒相关方法、装置及故事机 Download PDF

Info

Publication number
CN113744732A
CN113744732A CN202010481877.2A CN202010481877A CN113744732A CN 113744732 A CN113744732 A CN 113744732A CN 202010481877 A CN202010481877 A CN 202010481877A CN 113744732 A CN113744732 A CN 113744732A
Authority
CN
China
Prior art keywords
voice
voice frame
frame
probability
filter coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010481877.2A
Other languages
English (en)
Inventor
刘章
田彪
李昀
王子腾
纳跃跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010481877.2A priority Critical patent/CN113744732A/zh
Publication of CN113744732A publication Critical patent/CN113744732A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了设备唤醒相关***、方法、装置及设备。其中,所述设备唤醒方法包括:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的当前语音帧识别唤醒词,以将设备调整至唤醒状态。采用这种处理方式,使得结合上一语音帧的唤醒反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的唤醒性能。

Description

设备唤醒相关方法、装置及故事机
技术领域
本申请涉及自动化控制技术领域,具体涉及设备唤醒***、方法和装置,语音会议纪要***、方法和装置,服务启动***、方法和装置,故事机,智能音箱,以及电子设备。
背景技术
近年来随着语音识别技术的进步,具有语音唤醒功能的智能故事机得到了广泛的应用。由于现有声学模型技术无法有效克服泡沫噪声和人声干扰的影响,在高度嘈杂人声干扰下,语音唤醒效果会急剧下降。
基于麦克风阵列信号处理技术可以大幅度提高信噪比和语音***的性能。波束形成是一类常用的阵列信号处理算法,具有计算量小,易部署等优点,适用于硬件性能有限的故事机。目前,波束形成技术主要需要语音活动检测(Voice Activity Detection,VAD)来区分噪声与目标声源来提供信息输入。
然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:传统的VAD在人声噪声下会失效,由此导致严重降低故事机在人声干扰噪声情况下的唤醒性能。综上所述,如何改进波束形成方案,以区分人声噪音和目标声源,从而提高故事机在高度嘈杂人声干扰下的唤醒性能,成为本领域技术人员迫切需要解决的技术问题。
发明内容
本申请提供设备唤醒方法,以解决现有技术存在的在高度嘈杂人声干扰下唤醒性能较低的问题。本申请另外提供设备唤醒***和装置,语音会议纪要***、方法和装置,服务启动***、方法和装置,故事机,智能音箱,以及电子设备。
本申请提供一种设备唤醒方法,包括:
确定上一个语音帧的唤醒词概率;
根据唤醒词概率和上一个语音帧,调整滤波系数;
根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据抑制人声噪音后的当前语音帧识别唤醒词,以将设备调整至唤醒状态。
可选的,所述确定上一个语音帧的唤醒词概率,包括:
根据调整前的滤波系数,对上一个语音帧执行语音增强处理;
确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率;
根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。
可选的,所述根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率,包括:
将最大的声学概率作为所述唤醒词概率。
可选的,还包括:
根据语音帧的采集时间,将各个语音帧顺序存储至缓存队列;
根据确定所述声学概率的处理时长,从所述缓存队列中读取上一个语音帧。
可选的,所述根据唤醒词概率和上一个语音帧,调整滤波系数,包括:
将唤醒词概率作为上一个语音帧的权重,确定目标协方差矩阵和噪声协方差矩阵;
通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。
可选的,所述上一个语音帧包括:与当前语音帧相邻的语音帧,或者,与当前语音帧不相邻的语音帧。
可选的,所述语音帧包括通过多个传声器采集的语音帧。
本申请还提供一种设备唤醒装置,包括:
唤醒词概率确定单元,用于确定上一个语音帧的唤醒词概率;
滤波系数调整单元,用于根据唤醒词概率和上一个语音帧,调整滤波系数;
人声噪音抑制单元,用于根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
唤醒单元,用于根据抑制人声噪音后的语音帧识别唤醒词,以将设备调整至唤醒状态。
可选的,所述唤醒词概率确定单元包括:
语音增强子单元,用于根据调整前的滤波系数,对上一个语音帧执行语音增强处理;
声学概率确定子单元,用于确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率;
唤醒词概率确定子单元,用于根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。
可选的,所述滤波系数调整单元包括:
加权子单元,用于将唤醒词概率作为上一个语音帧的权重,根据加权后的上一个语音帧,确定目标协方差矩阵和噪声协方差矩阵;
滤波系数确定子单元,用于通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。
本申请还提供一种故事机,包括:
处理器;以及
存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别唤醒词,以将故事机调整至唤醒状态。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别唤醒词,以将设备调整至唤醒状态。
可选的,所述设备包括:智能音箱,智能电视。
本申请还提供一种语音会议纪要方法,包括:
确定上一个语音帧的录音服务启动词概率;
根据启动词概率和上一个语音帧,调整滤波系数;
根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。
可选的,还包括:
滤除说话时长大于时长阈值的声源。
本申请还提供一种语音会议纪要装置,包括:
录音服务启动词概率确定单元,用于确定上一个语音帧的录音服务启动词概率;
滤波系数调整单元,用于根据启动词概率和上一个语音帧,调整滤波系数;
人声噪音抑制单元,用于根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
录音单元,用于根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。
本申请还提供一种智能音箱,包括:
处理器;以及
存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的录音服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的录音服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。
本申请还提供一种服务启动方法,包括:
确定上一个语音帧的目标服务启动词概率;
根据启动词概率和上一个语音帧,调整滤波系数;
根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务。
本申请还提供一种服务启动装置,包括:
服务启动词概率确定单元,用于确定上一个语音帧的目标服务启动词概率;
滤波系数调整单元,用于根据启动词概率和上一个语音帧,调整滤波系数;
人声噪音抑制单元,用于根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
服务启动单元,用于根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务。
本申请还提供一种智能音箱,包括:
处理器;以及
存储器,用于存储实现服务启动方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的目标服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储实现服务启动方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的目标服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务。
本申请还提供一种设备唤醒***,包括:
终端设备,用于接收服务端发送的终端设备采集的上一个语音帧的唤醒词概率,根据上一个语音帧和唤醒词概率,调整滤波系数;根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;若服务端根据抑制人声噪音后的当前语音帧识别出唤醒词,则终端设备调整至唤醒状态;
服务端,用于确定上一个语音帧的唤醒词概率;以及,根据抑制人声噪音后的当前语音帧,识别唤醒词。
本申请还提供一种设备唤醒方法,包括:
接收服务端发送的终端设备采集的上一个语音帧的唤醒词概率;
根据上一个语音帧和唤醒词概率,调整滤波系数;
根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
若服务端根据抑制人声噪音后的当前语音帧识别出唤醒词,则终端设备调整至唤醒状态。
本申请还提供一种设备唤醒方法,包括:
确定终端设备采集的上一个语音帧的唤醒词概率,将唤醒词概率回送至终端设备,以便于终端设备根据上一个语音帧和唤醒词概率,调整滤波系数,并根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据终端设备发送的抑制人声噪音后的当前语音帧,识别唤醒词;
通知终端设备识别出唤醒词,以便于终端设备调整至唤醒状态。
本申请还提供一种语音会议纪要***,包括:
终端设备,用于接收服务端发送的终端设备采集的上一个语音帧的录音服务启动词概率,根据上一个语音帧和启动词概率,调整滤波系数;根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动录音服务,以录制语音会议纪要;
服务端,用于接收终端设备发送的上一个语音帧,确定上一个语音帧的启动词概率;以及,接收终端设备发送的抑制人声噪音后的当前语音帧,根据抑制人声噪音后的当前语音帧,识别所述启动词。
本申请还提供一种语音会议纪要方法,包括:
接收服务端发送的终端设备采集的上一个语音帧的录音服务启动词概率;
根据上一个语音帧和启动词概率,调整滤波系数;
根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动录音服务,以录制语音会议纪要。
本申请还提供一种语音会议纪要方法,包括:
根据终端设备采集的上一个语音帧,确定上一个语音帧的录音服务启动词概率,将启动词概率回送至终端设备,以便于终端设备根据上一个语音帧和启动词概率,调整滤波系数,并根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据终端设备发送的抑制人声噪音后的当前语音帧,识别所述启动词;
通知终端设备识别出所述启动词,以便于启动终端设备的录音服务,以录制语音会议纪要。
本申请还提供一种服务启动***,包括:
终端设备,用于接收服务端发送的终端设备采集的上一个语音帧的目标服务启动词概率,根据上一个语音帧和启动词概率,调整滤波系数;根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动目标服务;
服务端,用于接收终端设备发送的上一个语音帧,确定上一个语音帧的启动词概率;以及,接收终端设备发送的抑制人声噪音后的当前语音帧,根据抑制人声噪音后的当前语音帧,识别所述启动词。
本申请还提供一种服务启动方法,包括:
接收服务端发送的终端设备采集的上一个语音帧的目标服务启动词概率;
根据上一个语音帧和启动词概率,调整滤波系数;
根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动目标服务。
本申请还提供一种服务启动方法,包括:
根据终端设备采集的上一个语音帧,确定上一个语音帧的目标服务启动词概率,将启动词概率回送至终端设备,以便于终端设备根据上一个语音帧和启动词概率,调整滤波系数,并根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据终端设备发送的抑制人声噪音后的当前语音帧,识别所述启动词;
通知终端设备识别出所述启动词,以便于启动终端设备的目标服务。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的设备唤醒方法,通过确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的当前语音帧识别唤醒词,以将设备调整至唤醒状态;这种处理方式,使得结合上一语音帧的唤醒反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的唤醒性能。
本申请实施例提供的语音会议纪要方法,通过确定上一个语音帧的录音服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要;这种处理方式,使得结合上一语音帧的录音服务启动反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的录音服务启动效果;因此,可以有效提升设备在高度嘈杂人声干扰下的录音服务启动性能。
本申请实施例提供的服务启动方法,通过确定上一个语音帧的目标服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务;这种处理方式,使得结合上一语音帧的服务启动反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的服务启动性能。
附图说明
图1本申请提供的一种设备唤醒方法的实施例的流程图;
图2本申请提供的一种设备唤醒方法的实施例的信号模型图;
图3本申请提供的一种设备唤醒方法的实施例的具体流程图;
图4本申请提供的一种设备唤醒方法的实施例的唤醒词概率确定示意图;
图5本申请提供的一种设备唤醒方法的实施例的波束形成示意图;
图6本申请提供的一种设备唤醒方法的实施例的具体流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了设备唤醒***、方法和装置,语音会议纪要***、方法和装置,服务启动***、方法和装置,故事机,智能音箱,以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。
第一实施例
请参考图1,其为本申请的设备唤醒方法的实施例的流程图。所述方法的执行主体包括但不限于智能故事机,也可以是其它具有唤醒功能的设备,如智能音箱、智能复读机等,本实施例以故事机为例,对所述方法进行说明。在本实施例中,所述方法可包括如下步骤:
步骤S101:确定上一个语音帧的唤醒词概率。
所述故事机具有语音唤醒功能,无需用户按键,直接通过语音即可唤醒故事机。所述故事机可通过多个传声器(麦克风阵列)采集语音数据,一段语音数据可包括多个语音帧,一个语音帧可以是一段10ms的语音数据,故事机可依次处理各个语音帧。
为了便于描述,本申请将正在进行降噪处理的一帧语音称为当前语音帧,可将该当前语音帧的前一时刻的一帧语音称为上一个语音帧,可将该当前语音帧的后一时刻的一帧语音称为下一个语音帧。所述上一个语音帧,可以是与当前语音帧相邻的语音帧,也可以是不与当前语音帧相邻、而是相隔n帧(如1帧或2帧)的语音帧。在上一个语音帧不与当前语音帧相邻的情况下,使得无需调整每一语音帧的滤波系数,这样就可以有效节约计算资源,提升唤醒效率。
所述唤醒词概率,可以是一帧语音中包括唤醒词相关的声学单元的概率。一个唤醒词(如天猫精灵故事机)通常涉及多个语音帧,每个语音帧中可能会包括唤醒词相关的声学单元,也可能会包括唤醒词无关的声学单元,还可能会同时包括唤醒词相关的声学单元和唤醒词无关的声学单元。
本申请实施例提供的方法,对当前语音帧进行降噪处理时,滤波系数与上一个语音帧的唤醒词概率的有关,也就是说,要结合上一个语音帧的唤醒词概率,确定当前语音帧的滤波系数。
请参考图2,其为本申请的设备唤醒方法的实施例的信号模型图。在本实施例中,故事机的降噪处理涉及以下模块:波束形成(PMWF)模块,滤波器模块,唤醒器模块,唤醒VAD模块,此外还可涉及一个缓存队列。由图2可见,故事机采集到的原始的多麦信号(mic in)进入***后,可同时送入滤波器模块和缓存队列。其中,滤波器通过滤波操作将mic in信号转化为增强后的信号(enhanced speech),再送入唤醒器。唤醒器输出相应唤醒信号给外部模块(如应用层面的模块),同时输出对应的声学信号(posteriors)给唤醒VAD模块,然后PMWF模块结合唤醒VAD和缓存队列吐出的对应原始音频信号来更新滤波器,如图中虚线所示,这里形成了一个反馈回路。
请参考图3,其为本申请的设备唤醒方法的实施例的具体流程图。在一个示例中,步骤S101可包括如下子步骤:
步骤S1011:根据调整前的滤波系数,对上一个语音帧执行语音增强处理。
本申请实施例提供的方法,对当前语音帧进行降噪处理时,滤波系数与上一个语音帧的唤醒词概率的有关,因此不同语音帧的滤波系数可能并不相同。将上一个语音帧的滤波系数称为调整前的滤波系数,将当前语音帧的滤波系数称为调整后的滤波系数。所述调整前的滤波系数,可以是根据该上一帧语音帧的前一个语音帧的唤醒词概率确定。
语音增强,是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。
具体实施时,可通过滤波器对上一个语音帧执行语音增强处理。滤波器通过滤波操作将上一个语音帧信号转化为增强后的信号。由于滤波器属于较为成熟的现有技术,因此此处不再赘述。
步骤S1013:确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率。
滤波器通过滤波操作将上一个语音帧信号转化为增强后的信号后,可将该增强的信号送入唤醒器,通过唤醒器确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率。
采用本申请实施例提供的方法,唤醒器识别到唤醒信号后,不仅可输出相应唤醒信号给外部模块,还会同时输出对应的声学信号给唤醒VAD模块。一帧语音可包括唤醒词相关声学单元,还可包括唤醒词无关声学单元,如唤醒词为“你好电视”,建模单元可能有ni,hao,dian,shi,wo,qu,na等,则ni,hao,dian,shi这四个为相关单元,wo,qu,na这三个为无关单元。在本实施例中,唤醒器可输出各个声学单元的声学概率给唤醒VAD模块。
在本实施例中,采用如图4所示的基于前馈神经网络(FSMN)的唤醒器。音频信号通过特征提取送入基于FSMN的唤醒模型,给出各个声学单元的概率。这里声学单元可分为唤醒词无关单元,和唤醒词相关单元。
FSMN是一种时序建模神经网络架构,可以有效利用历史和未来的输入信息,确定一帧语音中各个声学单元的声学概率;这种处理方式,具有较高的唤醒词识别准确度。具体实施时,也可以采用其它结构的唤醒器。由于唤醒器属于较为成熟的现有技术,因此此处不再赘述。
步骤S1015:根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。
唤醒器输出各个声学单元的声学概率给唤醒VAD模块后,唤醒VAD模块可根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。
在本实施例中,将所有唤醒词相关声学单元中声学概率的最大值,作为所述唤醒词概率。唤醒VAD模块将输入的声学模型打分通过以下公式转成唤醒词概率,Pt(Wi)表示t时刻第i个唤醒词相关单元的概率输出:
Figure BDA0002514109210000111
Wi∈唤醒词相关单元
具体实施时,也可以采用其它方式确定所述唤醒词概率,如求所有唤醒词相关声学单元的声学概率的平均值等等。
在确定上一个语音帧的唤醒词概率之后,就可以进入下一步,结合唤醒反馈,调整滤波系数。
步骤S103:根据唤醒词概率和上一个语音帧,调整滤波系数。
如图5所示,本申请实施例提供的方法,通过波束形成模块,根据上一个语音帧(多麦信号)的唤醒词概率和多麦信号,确定当前数据帧的滤波器系数。也就是说,当前数据帧的滤波器系数与上一个语音帧的唤醒词信息有关。然而,传统的波束形成模块,是通过传统VAD模块对当前数据帧进行语音活动检测,根据语音活动检测结果和当前数据帧的多麦信号,确定当前数据帧的滤波器系数,该系数与上一数据帧无关,更不会与上一数据帧的唤醒词信息无关,也没有所述唤醒词概率的概念。
请参考图6,其为本申请的设备唤醒方法的实施例的具体流程图。在本实施例中,步骤S103可包括如下子步骤:
步骤S1031:将唤醒词概率作为上一个语音帧的权重,确定目标协方差矩阵和噪声协方差矩阵。
步骤S1033:通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。
采用图6所示的处理方式,使得在计算目标协方差矩阵以及噪声协方差矩阵时,通过对上一个语音帧以其对应的唤醒词概率加权,并通过PMWF公式得到波束系数,从而增强目标声源的输出能量。
具体实施时,可采用如下pmwf公式进行滤波系数估计:
Figure BDA0002514109210000121
其中,Φs=E{p2xxH},Φn=E{(1-p)2xxH};p表示唤醒词概率;x为语音输入;E{}为求期望,可以通过平均值实现;tr{}是求矩阵的迹,即矩阵对角线之和;β为控制语音失真的参数。
在一个示例中,所述方法还可包括如下步骤:根据语音帧的采集时间,将各个语音帧顺序存储至如图2所示的缓存队列中;根据确定所述声学概率的处理时长,从所述缓存队列中读取上一个语音帧。采用这种处理方式,多麦信号通过图2中所示先入先出队列在时间上和唤醒VAD模块输出的唤醒词概率对齐后,一同输入到波束形成模块,由于唤醒词概率的计算在声学单元输出后即时进行,因此唤醒词概率输出延迟和唤醒词模型延迟相同,该延迟可由图4中FSMN模型roder控制,该延迟可以做到相对低的水平。
步骤S105:根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音。
由于调整后的滤波系数可增强目标声源的输出能量,因此根据该滤波系数对当前语音帧执行语音增强处理,就可以有效抑制当前语音帧中目标声源以外的人声噪音。
步骤S107:根据抑制人声噪音后的语音帧识别唤醒词,以将故事机调整至唤醒状态。
在抑制当前语音帧中目标声源以外的人声噪音后,就可以通过唤醒器,根据抑制人声噪音后的语音帧,识别唤醒词,在识别出唤醒词后,就可以将故事机调整至唤醒状态。
从上述实施例可见,本申请实施例提供的设备唤醒方法,通过确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别唤醒词,以将设备调整至唤醒状态;这种处理方式,使得结合上一语音帧的唤醒反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的唤醒性能。
第二实施例
在上述的实施例中,提供了一种设备唤醒方法,与之相对应的,本申请还提供一种设备唤醒装置。该装置是与上述方法的实施例相对应。
本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。本申请提供的一种设备唤醒装置包括:
唤醒词概率确定单元,用于确定上一个语音帧的唤醒词概率;
滤波系数调整单元,用于根据唤醒词概率和上一个语音帧,调整滤波系数;
人声噪音抑制单元,用于根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
唤醒单元,用于根据抑制人声噪音后的语音帧识别唤醒词,以将设备调整至唤醒状态。
在一个示例中,所述唤醒词概率确定单元包括:
语音增强子单元,用于根据调整前的滤波系数,对上一个语音帧执行语音增强处理;
声学概率确定子单元,用于确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率;
唤醒词概率确定子单元,用于根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。
在一个示例中,所述滤波系数调整单元包括:
加权子单元,用于将唤醒词概率作为上一个语音帧的权重,根据加权后的上一个语音帧,确定目标协方差矩阵和噪声协方差矩阵;
滤波系数确定子单元,用于通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。
第三实施例
本申请还提供一种故事机。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种故事机,该故事机包括:处理器和存储器;存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别唤醒词,以将故事机调整至唤醒状态。
第四实施例
本申请还提供一种电子设备实施例。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:处理器和存储器;存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别唤醒词,以将设备调整至唤醒状态。
第五实施例
在上述的实施例中,提供了一种设备唤醒方法,与之相对应的,本申请还提供一种设备唤醒***。该***是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种设备唤醒***包括:服务端和终端设备。
所述终端设备是具有唤醒功能的设备,如智能故事机、智能音箱、智能复读机等。
所述终端设备用于接收服务端发送的终端设备采集的上一个语音帧的唤醒词概率,根据上一个语音帧和唤醒词概率,调整滤波系数;根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;若服务端根据抑制人声噪音后的当前语音帧识别出唤醒词,则将终端设备调整至唤醒状态;相应的,服务端用于接收终端设备发送的上一个语音帧,确定上一个语音帧的唤醒词概率;以及,接收终端设备发送的抑制人声噪音后的当前语音帧,根据抑制人声噪音后的当前语音帧,识别唤醒词。
在本实施例中,终端设备可通过多个传声器(麦克风阵列)采集语音数据,终端设备可通过滤波器对每一个语音帧进行降噪处理,将处理后的语音帧发送至服务端;服务端通过唤醒器识别唤醒词,输出相应唤醒信号给外部模块,同时输出对应的声学信号给唤醒VAD模块,通过唤醒VAD模块确定该语音帧的唤醒词概率,将该概率发送回终端设备;终端设备根据该唤醒词概率和该语音帧,确定下一语音帧的滤波系数,根据该调整后的滤波系数,对采集的下一语音帧进行降噪处理。
由此可见,本实施例提供的所述***与实施例一提供的所述方法的不同之处包括:本实施例提供的***是由服务端进行唤醒词识别、及唤醒词概率确定的处理,这样就可进一步降低对终端设备的性能需求,并且可使用服务端实时更新的唤醒器;因此,可以有效降低终端设备的硬件成本,以及有效提升唤醒词识别准确度,从而有效提升设备唤醒性能。
从上述实施例可见,本申请实施例提供的设备唤醒***,通过终端设备将语音帧发送至服务端,由服务端确定上一个语音帧的唤醒词概率;终端设备根据该唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音,并将抑制人声噪音后的当前语音帧发送至服务端;由服务端根据抑制人声噪音后的当前语音帧识别唤醒词,若服务端识别出唤醒词,则终端设备调整至唤醒状态;这种处理方式,使得结合上一语音帧的唤醒反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的唤醒性能。
第六实施例
在上述的实施例中,提供了一种设备唤醒***,与之相对应的,本申请还提供一种设备唤醒方法,该方法的执行主体包括但不限于终端设备。该方法是与上述***的实施例相对应。本实施例与第五实施例内容相同的部分不再赘述,请参见实施例五中的相应部分。
本申请提供的一种设备唤醒方法包括如下步骤:
步骤1:接收服务端发送的终端设备采集的上一个语音帧的唤醒词概率;
步骤2:根据上一个语音帧和唤醒词概率,调整滤波系数;
步骤3:根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
步骤4:若服务端根据抑制人声噪音后的当前语音帧识别出唤醒词,则终端设备调整至唤醒状态。
第七实施例
在上述的实施例中,提供了一种设备唤醒***,与之相对应的,本申请还提供一种设备唤醒方法,该方法的执行主体包括但不限于服务端,也可以是能够实现所述方法的其它设备。该方法是与上述***的实施例相对应。本实施例与第五实施例内容相同的部分不再赘述,请参见实施例五中的相应部分。
本申请提供的一种设备唤醒方法包括如下步骤:
步骤1:确定终端设备采集的上一个语音帧的唤醒词概率,将唤醒词概率回送至终端设备,以便于终端设备根据上一个语音帧和唤醒词概率,调整滤波系数,并根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
步骤2:根据终端设备发送的抑制人声噪音后的当前语音帧,识别唤醒词;
步骤3:通知终端设备识别出唤醒词,以便于终端设备调整至唤醒状态。
第八实施例
在上述的实施例中,提供了一种设备唤醒方法,与之相对应的,本申请还提供一种语音会议纪要方法。下面首先对该方法相关的背景技术进行说明。
一种典型的录音场景是,会议室中正在召开多人会议,在会议主讲人讲话时,与会者或会议助理可随时通过语音方式开启终端设备的录音功能,对会议语音内容进行记录。终端设备中通常装载多个服务,如智能音箱中装载录音服务、点歌服务、IOT设备控制服务等,每个服务有相应的启动词,如录音服务的启动词为“天猫精灵,开始录音”、点歌服务的启动词为“我要点歌”等。终端设备响应用户语音指令并启动录音服务的方式是,从用户语音中识别录音服务的启动词,当识别出该服务的启动词时,自动开启录音服务。
在会场内高度嘈杂人声干扰下,为了确保准确启动录音服务,终端设备通常通过麦克风阵列信号处理技术,对发出录音服务启动语音指令的语音(目标声源)进行增强,抑制环境噪音和会场中的人声噪音,以便准确识别到录音服务启动词。在现有技术中,一种典型的麦克风阵列信号处理技术是波束形成技术,该技术主要采用语音活动检测(VoiceActivity Detection,VAD)方式,来区分噪声与目标声源来提供信息输入。
然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:传统的VAD在人声噪声下会失效,由此导致严重降低终端设备在人声干扰噪声情况下的录音服务启动性能。综上所述,如何改进波束形成方案,以提高终端设备在高度嘈杂人声干扰下的录音服务启动性能,成为本领域技术人员迫切需要解决的技术问题。
为了解决该问题,本申请还提供一种语音会议纪要方法。该方法的执行主体包括但不限于终端设备,如智能音箱、智能电视等。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音会议纪要方法包括如下步骤:
步骤1:确定上一个语音帧的录音服务启动词概率。
所述录音服务启动词概率,可以是一帧语音中包括录音服务启动词相关的声学单元的概率。一个录音服务启动词(如“天猫精灵,开始录音”)通常涉及多个语音帧,每个语音帧中可能会包括录音服务启动词相关的声学单元,也可能会包括录音服务启动词无关的声学单元,还可能会同时包括录音服务启动词相关的声学单元和录音服务启动词无关的声学单元。
本申请实施例提供的方法,对当前语音帧进行降噪处理时,滤波系数与上一个语音帧的录音服务启动词概率的有关,也就是说,要结合上一个语音帧的录音服务启动词概率,确定当前语音帧的滤波系数。
在一个示例中,步骤1可包括如下子步骤:
步骤1-1:根据调整前的滤波系数,对上一个语音帧执行语音增强处理。
本申请实施例提供的方法,对当前语音帧进行降噪处理时,滤波系数与上一个语音帧的录音服务启动词概率的有关,因此不同语音帧的滤波系数可能并不相同。将上一个语音帧的滤波系数称为调整前的滤波系数,将当前语音帧的滤波系数称为调整后的滤波系数。所述调整前的滤波系数,可以是根据该上一帧语音帧的前一个语音帧的录音服务启动词概率确定。
具体实施时,可通过滤波器对上一个语音帧执行语音增强处理。滤波器通过滤波操作将上一个语音帧信号转化为增强后的信号。
步骤1-3:确定语音增强后的上一个语音帧中录音服务启动词相关声学单元的声学概率。
滤波器通过滤波操作将上一个语音帧信号转化为增强后的信号后,可将该增强的信号送入服务启动器,通过服务启动器确定语音增强后的上一个语音帧中录音服务启动词相关声学单元的声学概率。
采用本申请实施例提供的方法,服务启动器识别到录音服务启动信号后,不仅可输出相应录音服务启动信号给外部模块,还会同时输出对应的声学信号给服务启动VAD模块。一帧语音可包括录音服务启动词相关声学单元,还可包括录音服务启动词无关声学单元。在本实施例中,服务启动器可输出各个声学单元的声学概率给服务启动VAD模块。
在本实施例中,采用基于前馈神经网络(FSMN)的服务启动器。音频信号通过特征提取送入基于FSMN的服务启动模型,给出各个声学单元的概率。这里声学单元可分为录音服务启动词无关单元,和录音服务启动词相关单元。
步骤1-5:根据所述录音服务启动词相关声学单元的声学概率,确定所述录音服务启动词概率。
服务启动器输出各个声学单元的声学概率给服务启动VAD模块后,服务启动VAD模块可根据所述录音服务启动词相关声学单元的声学概率,确定所述录音服务启动词概率。
在本实施例中,将所有录音服务启动词相关声学单元中声学概率的最大值,作为所述录音服务启动词概率。
在确定上一个语音帧的录音服务启动词概率之后,就可以进入下一步,结合录音服务启动反馈,调整滤波系数。
步骤2:根据启动词概率和上一个语音帧,调整滤波系数。
本申请实施例提供的方法,通过波束形成模块,根据上一个语音帧(多麦信号)的录音服务启动词概率和多麦信号,确定当前数据帧的滤波器系数。也就是说,当前数据帧的滤波器系数与上一个语音帧的录音服务启动词信息有关。然而,传统的波束形成模块,是通过传统VAD模块对当前数据帧进行语音活动检测,根据语音活动检测结果和当前数据帧的多麦信号,确定当前数据帧的滤波器系数,该系数与上一数据帧无关,更不会与上一数据帧的录音服务启动词信息无关,也没有所述录音服务启动词概率的概念。
在本实施例中,步骤2可包括如下子步骤:
步骤2-1:将录音服务启动词概率作为上一个语音帧的权重,确定目标协方差矩阵和噪声协方差矩阵。
步骤2-3:通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。
在一个示例中,使得在计算目标协方差矩阵以及噪声协方差矩阵时,通过对上一个语音帧以其对应的录音服务启动词概率加权,并通过PMWF公式得到波束系数,从而增强目标声源的输出能量。
在一个示例中,所述方法还可包括如下步骤:根据语音帧的采集时间,将各个语音帧顺序存储至缓存队列中;根据确定所述声学概率的处理时长,从所述缓存队列中读取上一个语音帧。采用这种处理方式,多麦信号通过先入先出队列在时间上和服务启动VAD模块输出的录音服务启动词概率对齐后,一同输入到波束形成模块,由于录音服务启动词概率的计算在声学单元输出后即时进行,因此录音服务启动词概率输出延迟和录音服务启动词模型延迟相同,该延迟可由FSMN模型roder控制,该延迟可以做到相对低的水平。
步骤3:根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音。
由于调整后的滤波系数可增强目标声源的输出能量,因此根据该滤波系数对当前语音帧执行语音增强处理,就可以有效抑制当前语音帧中目标声源以外的人声噪音。
步骤4:根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。
在抑制当前语音帧中目标声源以外的人声噪音后,就可以通过服务启动器,根据抑制人声噪音后的语音帧,识别录音服务启动词,在识别出录音服务启动词后,就可以开启终端设备的录音服务功能。
在一个示例中,会议主讲人通常会专注于讲话,由该主讲人发出录音服务开启语音指令的可能性较小,通常会由会议助理或者其他与会者发出录音服务开启语音指令,因此,对于录音服务开启而言,可将会议主讲人的语音作为人声噪音滤除掉;相应的,所述方法还可包括如下步骤:滤除说话时长大于时长阈值的声源。采用这种处理方式,可以有效提升录音服务启动的速度和准确度。
所述时长阈值可根据实际需求确定。具体实施时,可以是先确定各个声源的说话时长,如记录各种声纹的说话时长;然后,将说话时长大于时长阈值的声源作为人声噪音的声源,将该声源滤除。
从上述实施例可见,本申请实施例提供的语音会议纪要方法,通过确定上一个语音帧的录音服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要;这种处理方式,使得结合上一语音帧的录音服务启动反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的录音服务启动效果;因此,可以有效提升设备在高度嘈杂人声干扰下的录音服务启动性能。
第九实施例
在上述的实施例中,提供了一种语音会议纪要方法,与之相对应的,本申请还提供一种语音会议纪要***。该***是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种语音会议纪要***包括:服务端和终端设备。
所述终端设备是具有录音服务功能的设备,如智能音箱等。
所述终端设备用于接收服务端发送的终端设备采集的上一个语音帧的录音服务启动词概率,根据上一个语音帧和启动词概率,调整滤波系数;根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动录音服务,以录制语音会议纪要;相应的,服务端用于接收终端设备发送的上一个语音帧,确定上一个语音帧的启动词概率;以及,接收终端设备发送的抑制人声噪音后的当前语音帧,根据抑制人声噪音后的当前语音帧,识别所述启动词。
在本实施例中,终端设备可通过多个传声器(麦克风阵列)采集语音数据,终端设备可通过滤波器对每一个语音帧进行降噪处理,将处理后的语音帧发送至服务端;服务端通过服务启动器识别录音服务启动词,输出相应录音服务启动信号给外部模块,同时输出对应的声学信号给服务启动VAD模块,通过服务启动VAD模块确定该语音帧的录音服务启动词概率,将该概率发送回终端设备;终端设备根据该录音服务启动词概率和该语音帧,确定下一语音帧的滤波系数,根据该调整后的滤波系数,对采集的下一语音帧进行降噪处理。
由此可见,本实施例提供的所述***与实施例八提供的所述方法的不同之处包括:本实施例提供的***是由服务端进行录音服务启动词识别、及录音服务启动词概率确定的处理,这样就可进一步降低对终端设备的性能需求,并且可使用服务端实时更新的服务启动器;因此,可以有效降低终端设备的硬件成本,以及有效提升录音服务启动词识别准确度,从而有效提升设备录音服务启动性能。
从上述实施例可见,本申请实施例提供的语音会议纪要***,通过终端设备将语音帧发送至服务端,由服务端确定上一个语音帧的录音服务启动词概率;终端设备根据该录音服务启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音,并将抑制人声噪音后的当前语音帧发送至服务端;由服务端根据抑制人声噪音后的当前语音帧识别录音服务启动词,若服务端识别出录音服务启动词,则终端设备启动录音服务,以录制语音会议纪要;这种处理方式,使得结合上一语音帧的录音服务启动反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的录音服务启动性能。
第十实施例
在上述的实施例中,提供了一种语音会议纪要***,与之相对应的,本申请还提供一种语音会议纪要方法,该方法的执行主体包括但不限于终端设备。该方法是与上述***的实施例相对应。本实施例与第九实施例内容相同的部分不再赘述,请参见实施例九中的相应部分。
本申请提供的一种语音会议纪要方法包括如下步骤:
步骤1:接收服务端发送的终端设备采集的上一个语音帧的录音服务启动词概率;
步骤2:根据上一个语音帧和启动词概率,调整滤波系数;
步骤3:根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
步骤4:若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动录音服务,以录制语音会议纪要。
第十一实施例
在上述的实施例中,提供了一种语音会议纪要***,与之相对应的,本申请还提供一种语音会议纪要方法,该方法的执行主体包括但不限于服务端。该方法是与上述***的实施例相对应。本实施例与第九实施例内容相同的部分不再赘述,请参见实施例九中的相应部分。
本申请提供的一种语音会议纪要方法包括如下步骤:
步骤1:根据终端设备采集的上一个语音帧,确定上一个语音帧的录音服务启动词概率,将启动词概率回送至终端设备,以便于终端设备根据上一个语音帧和启动词概率,调整滤波系数,并根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
步骤2:根据终端设备发送的抑制人声噪音后的当前语音帧,识别所述启动词;
步骤3:通知终端设备识别出所述启动词,以便于启动终端设备的录音服务,以录制语音会议纪要。
第十二实施例
在上述的实施例中,提供了一种语音会议既要方法,与之相对应的,本申请还提供一种服务启动方法,该方法的执行主体包括但不限于终端设备,如智能音箱等。该方法是与上述方法的实施例相对应。本实施例与第八实施例内容相同的部分不再赘述,请参见实施例八中的相应部分。
本申请提供的一种服务启动方法包括如下步骤:
步骤1:确定上一个语音帧的目标服务启动词概率;
步骤2:根据启动词概率和上一个语音帧,调整滤波系数;
步骤3:根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
步骤4:根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务。
从上述实施例可见,本申请实施例提供的服务启动方法,通过确定上一个语音帧的目标服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务;这种处理方式,使得结合上一语音帧的服务启动反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的服务启动性能。
第十三实施例
在上述的实施例中,提供了一种服务启动方法,与之相对应的,本申请还提供一种服务启动***。该***是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种服务启动***包括:服务端和终端设备。
所述终端设备是具有唤醒功能的设备,如智能音箱等。
所述终端设备用于接收服务端发送的终端设备采集的上一个语音帧的目标服务启动词概率,根据上一个语音帧和启动词概率,调整滤波系数;根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动目标服务;相应的,服务端用于接收终端设备发送的上一个语音帧,确定上一个语音帧的启动词概率;以及,接收终端设备发送的抑制人声噪音后的当前语音帧,根据抑制人声噪音后的当前语音帧,识别所述启动词。
在本实施例中,终端设备可通过多个传声器(麦克风阵列)采集语音数据,终端设备可通过滤波器对每一个语音帧进行降噪处理,将处理后的语音帧发送至服务端;服务端通过服务启动器识别目标服务启动词,输出相应唤醒信号给外部模块,同时输出对应的声学信号给服务启动VAD模块,通过服务启动VAD模块确定该语音帧的目标服务启动词概率,将该概率发送回终端设备;终端设备根据该目标服务启动词概率和该语音帧,确定下一语音帧的滤波系数,根据该调整后的滤波系数,对采集的下一语音帧进行降噪处理。
由此可见,本实施例提供的所述***与实施例十二提供的所述方法的不同之处包括:本实施例提供的***是由服务端进行服务启动词识别、及服务启动词概率确定的处理,这样就可进一步降低对终端设备的性能需求,并且可使用服务端实时更新的服务启动器;因此,可以有效降低终端设备的硬件成本,以及有效提升服务启动词识别准确度,从而有效提升设备服务启动性能。
从上述实施例可见,本申请实施例提供的服务启动***,通过终端设备将语音帧发送至服务端,由服务端确定上一个语音帧的目标服务启动词概率;终端设备根据该目标服务启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音,并将抑制人声噪音后的当前语音帧发送至服务端;由服务端根据抑制人声噪音后的当前语音帧识别目标服务启动词,若服务端识别出目标服务启动词,则启动目标服务;这种处理方式,使得结合上一语音帧的唤醒反馈,更新波束形成滤波器系数,这样就可以区分目标语音和人声噪声,得到可靠的降噪效果;因此,可以有效提升设备在高度嘈杂人声干扰下的服务启动性能。
第十四实施例
在上述的实施例中,提供了一种服务启动***,与之相对应的,本申请还提供一种服务启动方法,该方法的执行主体包括但不限于终端设备。该方法是与上述***的实施例相对应。本实施例与第十三实施例内容相同的部分不再赘述,请参见实施例十三中的相应部分。
本申请提供的一种服务启动方法包括如下步骤:
步骤1:接收服务端发送的终端设备采集的上一个语音帧的目标服务启动词概率;
步骤2:根据上一个语音帧和启动词概率,调整滤波系数;
步骤3:根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
步骤4:若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动目标服务。
第十五实施例
在上述的实施例中,提供了一种服务启动***,与之相对应的,本申请还提供一种服务启动方法,该方法的执行主体包括但不限于终端设备。该方法是与上述***的实施例相对应。本实施例与第十三实施例内容相同的部分不再赘述,请参见实施例十三中的相应部分。
本申请提供的一种服务启动方法包括如下步骤:
步骤1:根据终端设备采集的上一个语音帧,确定上一个语音帧的目标服务启动词概率,将启动词概率回送至终端设备,以便于终端设备根据上一个语音帧和启动词概率,调整滤波系数,并根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
步骤2:根据终端设备发送的抑制人声噪音后的当前语音帧,识别所述启动词;
步骤3:通知终端设备识别出所述启动词,以便于启动终端设备的目标服务。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (30)

1.一种设备唤醒方法,其特征在于,包括:
确定上一个语音帧的唤醒词概率;
根据唤醒词概率和上一个语音帧,调整滤波系数;
根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据抑制人声噪音后的当前语音帧识别唤醒词,以将设备调整至唤醒状态。
2.根据权利要求1所述的方法,其特征在于,所述确定上一个语音帧的唤醒词概率,包括:
根据调整前的滤波系数,对上一个语音帧执行语音增强处理;
确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率;
根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率,包括:
将最大的声学概率作为所述唤醒词概率。
4.根据权利要求2所述的方法,其特征在于,还包括:
根据语音帧的采集时间,将各个语音帧顺序存储至缓存队列;
根据确定所述声学概率的处理时长,从所述缓存队列中读取上一个语音帧。
5.根据权利要求1所述的方法,其特征在于,所述根据唤醒词概率和上一个语音帧,调整滤波系数,包括:
将唤醒词概率作为上一个语音帧的权重,确定目标协方差矩阵和噪声协方差矩阵;
通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。
6.根据权利要求1所述的方法,其特征在于,
所述上一个语音帧包括:与当前语音帧相邻的语音帧,或者,与当前语音帧不相邻的语音帧。
7.根据权利要求1所述的方法,其特征在于,
所述语音帧包括通过多个传声器采集的语音帧。
8.一种设备唤醒装置,其特征在于,包括:
唤醒词概率确定单元,用于确定上一个语音帧的唤醒词概率;
滤波系数调整单元,用于根据唤醒词概率和上一个语音帧,调整滤波系数;
人声噪音抑制单元,用于根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
唤醒单元,用于根据抑制人声噪音后的语音帧识别唤醒词,以将设备调整至唤醒状态。
9.根据权利要求8所述的装置,其特征在于,所述唤醒词概率确定单元包括:
语音增强子单元,用于根据调整前的滤波系数,对上一个语音帧执行语音增强处理;
声学概率确定子单元,用于确定语音增强后的上一个语音帧中唤醒词相关声学单元的声学概率;
唤醒词概率确定子单元,用于根据所述唤醒词相关声学单元的声学概率,确定所述唤醒词概率。
10.根据权利要求8所述的装置,其特征在于,所述滤波系数调整单元包括:
加权子单元,用于将唤醒词概率作为上一个语音帧的权重,根据加权后的上一个语音帧,确定目标协方差矩阵和噪声协方差矩阵;
滤波系数确定子单元,用于通过波束形成算法,根据目标协方差矩阵和噪声协方差矩阵,确定所述调整后的滤波系数。
11.一种故事机,其特征在于,包括:
处理器;以及
存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别唤醒词,以将故事机调整至唤醒状态。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的唤醒词概率;根据唤醒词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别唤醒词,以将设备调整至唤醒状态。
13.一种语音会议纪要方法,其特征在于,包括:
确定上一个语音帧的录音服务启动词概率;
根据启动词概率和上一个语音帧,调整滤波系数;
根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。
14.根据权利要求13所述的方法,其特征在于,还包括:
滤除说话时长大于时长阈值的声源。
15.一种语音会议纪要装置,其特征在于,包括:
录音服务启动词概率确定单元,用于确定上一个语音帧的录音服务启动词概率;
滤波系数调整单元,用于根据启动词概率和上一个语音帧,调整滤波系数;
人声噪音抑制单元,用于根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
录音单元,用于根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。
16.一种智能音箱,其特征在于,包括:
处理器;以及
存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的录音服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。
17.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现设备唤醒方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的录音服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动录音服务,录制语音会议纪要。
18.一种服务启动方法,其特征在于,包括:
确定上一个语音帧的目标服务启动词概率;
根据启动词概率和上一个语音帧,调整滤波系数;
根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务。
19.一种服务启动装置,其特征在于,包括:
服务启动词概率确定单元,用于确定上一个语音帧的目标服务启动词概率;
滤波系数调整单元,用于根据启动词概率和上一个语音帧,调整滤波系数;
人声噪音抑制单元,用于根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
服务启动单元,用于根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务。
20.一种智能音箱,其特征在于,包括:
处理器;以及
存储器,用于存储实现服务启动方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的目标服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务。
21.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储实现服务启动方法的程序,该设备通电并通过所述处理器运行该方法的程序后,执行下述步骤:确定上一个语音帧的目标服务启动词概率;根据启动词概率和上一个语音帧,调整滤波系数;根据调整后的滤波系数,对当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;根据抑制人声噪音后的语音帧识别所述启动词,以启动目标服务。
22.一种设备唤醒***,其特征在于,包括:
终端设备,用于接收服务端发送的终端设备采集的上一个语音帧的唤醒词概率,根据上一个语音帧和唤醒词概率,调整滤波系数;根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;若服务端根据抑制人声噪音后的当前语音帧识别出唤醒词,则终端设备调整至唤醒状态;
服务端,用于确定上一个语音帧的唤醒词概率;以及,根据抑制人声噪音后的当前语音帧,识别唤醒词。
23.一种设备唤醒方法,其特征在于,包括:
接收服务端发送的终端设备采集的上一个语音帧的唤醒词概率;
根据上一个语音帧和唤醒词概率,调整滤波系数;
根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
若服务端根据抑制人声噪音后的当前语音帧识别出唤醒词,则终端设备调整至唤醒状态。
24.一种设备唤醒方法,其特征在于,包括:
确定终端设备采集的上一个语音帧的唤醒词概率,将唤醒词概率回送至终端设备,以便于终端设备根据上一个语音帧和唤醒词概率,调整滤波系数,并根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据终端设备发送的抑制人声噪音后的当前语音帧,识别唤醒词;
通知终端设备识别出唤醒词,以便于终端设备调整至唤醒状态。
25.一种语音会议纪要***,其特征在于,包括:
终端设备,用于接收服务端发送的终端设备采集的上一个语音帧的录音服务启动词概率,根据上一个语音帧和启动词概率,调整滤波系数;根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动录音服务,以录制语音会议纪要;
服务端,用于接收终端设备发送的上一个语音帧,确定上一个语音帧的启动词概率;以及,接收终端设备发送的抑制人声噪音后的当前语音帧,根据抑制人声噪音后的当前语音帧,识别所述启动词。
26.一种语音会议纪要方法,其特征在于,包括:
接收服务端发送的终端设备采集的上一个语音帧的录音服务启动词概率;
根据上一个语音帧和启动词概率,调整滤波系数;
根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动录音服务,以录制语音会议纪要。
27.一种语音会议纪要方法,其特征在于,包括:
根据终端设备采集的上一个语音帧,确定上一个语音帧的录音服务启动词概率,将启动词概率回送至终端设备,以便于终端设备根据上一个语音帧和启动词概率,调整滤波系数,并根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据终端设备发送的抑制人声噪音后的当前语音帧,识别所述启动词;
通知终端设备识别出所述启动词,以便于启动终端设备的录音服务,以录制语音会议纪要。
28.一种服务启动***,其特征在于,包括:
终端设备,用于接收服务端发送的终端设备采集的上一个语音帧的目标服务启动词概率,根据上一个语音帧和启动词概率,调整滤波系数;根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动目标服务;
服务端,用于接收终端设备发送的上一个语音帧,确定上一个语音帧的启动词概率;以及,接收终端设备发送的抑制人声噪音后的当前语音帧,根据抑制人声噪音后的当前语音帧,识别所述启动词。
29.一种服务启动方法,其特征在于,包括:
接收服务端发送的终端设备采集的上一个语音帧的目标服务启动词概率;
根据上一个语音帧和启动词概率,调整滤波系数;
根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
若服务端根据抑制人声噪音后的当前语音帧识别出所述启动词,则启动目标服务。
30.一种服务启动方法,其特征在于,包括:
根据终端设备采集的上一个语音帧,确定上一个语音帧的目标服务启动词概率,将启动词概率回送至终端设备,以便于终端设备根据上一个语音帧和启动词概率,调整滤波系数,并根据调整后的滤波系数,对终端设备采集的当前语音帧执行语音增强处理,以抑制当前语音帧中目标声源以外的人声噪音;
根据终端设备发送的抑制人声噪音后的当前语音帧,识别所述启动词;
通知终端设备识别出所述启动词,以便于启动终端设备的目标服务。
CN202010481877.2A 2020-05-28 2020-05-28 设备唤醒相关方法、装置及故事机 Pending CN113744732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010481877.2A CN113744732A (zh) 2020-05-28 2020-05-28 设备唤醒相关方法、装置及故事机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010481877.2A CN113744732A (zh) 2020-05-28 2020-05-28 设备唤醒相关方法、装置及故事机

Publications (1)

Publication Number Publication Date
CN113744732A true CN113744732A (zh) 2021-12-03

Family

ID=78727876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010481877.2A Pending CN113744732A (zh) 2020-05-28 2020-05-28 设备唤醒相关方法、装置及故事机

Country Status (1)

Country Link
CN (1) CN113744732A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331672A (zh) * 2022-10-13 2022-11-11 深圳市声扬科技有限公司 设备控制方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170148429A1 (en) * 2015-11-24 2017-05-25 Fujitsu Limited Keyword detector and keyword detection method
CN106940998A (zh) * 2015-12-31 2017-07-11 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
CN109427328A (zh) * 2017-08-28 2019-03-05 中国科学院声学研究所 一种基于滤波网络声学模型的多通道语音识别方法
CN110223708A (zh) * 2019-05-07 2019-09-10 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN110473539A (zh) * 2019-08-28 2019-11-19 苏州思必驰信息科技有限公司 提升语音唤醒性能的方法和装置
US20200105256A1 (en) * 2018-09-28 2020-04-02 Sonos, Inc. Systems and methods for selective wake word detection using neural network models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170148429A1 (en) * 2015-11-24 2017-05-25 Fujitsu Limited Keyword detector and keyword detection method
CN106940998A (zh) * 2015-12-31 2017-07-11 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
CN109427328A (zh) * 2017-08-28 2019-03-05 中国科学院声学研究所 一种基于滤波网络声学模型的多通道语音识别方法
US20200105256A1 (en) * 2018-09-28 2020-04-02 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
CN110223708A (zh) * 2019-05-07 2019-09-10 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN110473539A (zh) * 2019-08-28 2019-11-19 苏州思必驰信息科技有限公司 提升语音唤醒性能的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
边蓓蓓;张晓贤;: "多关键词离线语音唤醒模块的实现", 现代信息科技, no. 08, 25 April 2020 (2020-04-25), pages 30 - 31 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331672A (zh) * 2022-10-13 2022-11-11 深圳市声扬科技有限公司 设备控制方法、装置、电子设备及存储介质
CN115331672B (zh) * 2022-10-13 2023-01-06 深圳市声扬科技有限公司 设备控制方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11620983B2 (en) Speech recognition method, device, and computer-readable storage medium
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
TWI730584B (zh) 關鍵詞的檢測方法以及相關裝置
CN110556103B (zh) 音频信号处理方法、装置、***、设备和存储介质
US11502859B2 (en) Method and apparatus for waking up via speech
CN110021307B (zh) 音频校验方法、装置、存储介质及电子设备
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
WO2021022094A1 (en) Per-epoch data augmentation for training acoustic models
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
US11308946B2 (en) Methods and apparatus for ASR with embedded noise reduction
JP2020115206A (ja) システム及び方法
CN110660407B (zh) 一种音频处理方法及装置
CN110968353A (zh) 中央处理器的唤醒方法、装置、语音处理器以及用户设备
CN109192219B (zh) 基于关键词改进麦克风阵列远场拾音的方法
CN110689887B (zh) 音频校验方法、装置、存储介质及电子设备
CN113205803A (zh) 一种具有自适应降噪能力的语音识别方法及装置
CN112185408A (zh) 音频降噪方法、装置、电子设备以及存储介质
CN114944153A (zh) 一种物联网终端增强唤醒方法、装置及存储介质
CN109065026B (zh) 一种录音控制方法及装置
CN113744732A (zh) 设备唤醒相关方法、装置及故事机
US20230298609A1 (en) Generalized Automatic Speech Recognition for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation
CN114664303A (zh) 连续语音指令快速识别控制***
CN113936678A (zh) 目标语音的检测方法及装置、设备、存储介质
CN113066507B (zh) 端到端说话人分离方法、***及设备
CN113763945B (zh) 一种语音唤醒方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination