CN106448663B - 语音唤醒方法及语音交互装置 - Google Patents

语音唤醒方法及语音交互装置 Download PDF

Info

Publication number
CN106448663B
CN106448663B CN201610901706.4A CN201610901706A CN106448663B CN 106448663 B CN106448663 B CN 106448663B CN 201610901706 A CN201610901706 A CN 201610901706A CN 106448663 B CN106448663 B CN 106448663B
Authority
CN
China
Prior art keywords
voice
similarity
acoustic model
signal
awakening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610901706.4A
Other languages
English (en)
Other versions
CN106448663A (zh
Inventor
杨香斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Co Ltd
Original Assignee
Hisense Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Co Ltd filed Critical Hisense Co Ltd
Priority to CN201610901706.4A priority Critical patent/CN106448663B/zh
Publication of CN106448663A publication Critical patent/CN106448663A/zh
Application granted granted Critical
Publication of CN106448663B publication Critical patent/CN106448663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

本发明实施例提供一种语音唤醒方法及语音交互装置,其中,该方法包括:接收语音输入信号;根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值;若超过,则根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,若超过,则唤醒语音交互功能,其中,所述第二声学模型的准确度高于所述第一声学模型的准确度。本发明实施例提供的语音唤醒方法及语音交互装置能够兼顾低功耗功耗和低误唤醒率的需求。

Description

语音唤醒方法及语音交互装置
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音唤醒方法及语音交互装置。
背景技术
随着语音识别技术的飞速发展,语音交互的应用场景越来越普遍,智能电视,智能车载,智能家居,智能机器人都是语音交互应用的主要应用场景,同时由于人机交互对于用户体验的要求越来越高,人机语音对话的距离也越来越不局限于近讲(50cm以内)。现在通过多麦克风技术,已经能够实现3-5米内的远距离语音交互。
与此同时,远距离语音交互还存在一个问题,就是什么时候开始触发语音收音并且开始识别。目前的技术方案有两种,一种是用一颗低功耗芯片,一直通过麦克风阵列收音,做相应的信号处理后(信号增强,噪声抑制,回声消除),然后再做语音识别,判断用户是否说出唤醒词,如果说了,则通知主模块,开始收音并进行语音识别,还有一种方式是前端的模块只做信号处理,由主模块来一直收音,并做语音识别来判断用户是否说出唤醒词,但是这两种方式都有弊端,前一种方式由于前端处理模块要求低功耗,所以识别性能相对来说会较低,同时误唤醒率也会较高;而后一种方案的问题是主芯片模块需要一直全速运行,功耗会比较大,并且由于对主芯片模块的要求比较高,方案的成本也比较高。目前尚无兼顾功耗和误唤醒率的方案。
发明内容
本发明实施例提供一种语音唤醒方法及语音交互装置,用以解决现有技术无法兼顾功耗和误唤醒率的问题。
本发明实施例第一方面提供一种语音唤醒方法,该方法包括:
接收语音输入信号;
根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值;
若超过,则根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,其中,所述第二声学模型的准确度高于所述第一声学模型的准确度;
若超过,则唤醒语音交互功能。
本发明实施例第二方面提供一种语音交互装置,该装置包括:
接收模块,用于接收语音输入信号;
第一确定模块,用于根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值;
第二确定模块,用于在所述第一相似度超过所述第一预设阈值时,根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,其中,所述第二声学模型的准确度高于所述第一声学模型的准确度;
唤醒模块,用于当所述第二相似度超过第二预设阈值时,唤醒语音交互功能。
本发明实施例,首先通过准确度较低的第一声学模型对语音输入信号进行初步的语音唤醒识别,当识别出语音输入信号与预设的唤醒语音信号之间的相似度超过第一预设阈值时,再通过准确度较高第二声学模型对语音输入信号进行第二次语音唤醒识别,从而根据第二次识别的结果,确定是否唤醒语音交互功能。由于在第一次识别过程中,采用的是准确度较低的声学模型,因此,第一次识别过程中的功耗较低。而只有当第一次识别通过,即语音输入信号与预设的唤醒语音信号之间的相似度超过第一预设阈值时,才启用准确度较高的第二声学模型进行第二次唤醒识别。这样通过将准确度较低的声学模型和准确度较高的声学模型结合使用,避免了低准确度声学模型单独使用时,唤醒识别准确率较低,误唤醒率较高的问题,同时也能避免高准确度声学模型单独使用时,功耗较高的问题,进而达到了兼顾功耗和低误唤醒率的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的语音唤醒方法的流程示意图;
图2为本发明一实施例提供的语音交互装置的架构图;
图3为本发明一实施例提供的语音交互装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。
图1为本发明一实施例提供的语音唤醒方法的流程示意图,该方法可以由诸如智能电视,智能车载,智能家居,智能机器人等具有语音交互功能的语音交互装置来执行。如图1所示,本实施例提供的方法包括如下步骤:
步骤S101、接收语音输入信号。
实际应用中,语音交互装置可以通过设置在其上的麦克风阵列来接收用户或终端设备输入的语音信号,并在接收到语音信号后通过时间延迟补偿来确保接收到的语音信号的完整性,避免由于漏掉部分语音信号,而对唤醒判断造成影响。
进一步的,在获得完整的语音信号后通过对该语音信号进行预处理来获得本实施例所称的“语音输入信号”。具体的,在预处理过程中,至少要对语音信号进行噪声抑制处理、回声消除处理和声音增强处理,其中,上述处理与现有技术中语音处理过程类似,在这里不再赘述。
步骤S102、根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值,若未超过,则结束本次唤醒操作,若超过,则执行步骤S103。
其中,该第一预设阈值可以由用户根据实际需求自定义设置,也可以由终端设备默认设置,本发明实施例对此不作限定。
特别的,本实施例中提供的语音唤醒方法包括两次判别过程,其中,第一次判断过程,可以通过一DSP模块来执行。在第一次判断过程中,首先从步骤S101中获得的语音输入信号中,提取特征信号。例如,可以通过提取语音输入信号的梅尔频率倒谱系数的方式来获取特征信号,此过程与现有技术相同,在这里不再赘述。
进一步的,在实际应用中,可以在DSP模块中内置一个简单的声学模型,通过将该声学模型对上述获得的特征信号做解码处理,并采用最大似然比计算来判断特征信号和唤醒语音信号之间的相似度,其基本原理为,将特征信号中的每个特征点和声学模型里预设唤醒语音信号的每个特征点进行相似度比较,然后将所有的点综合得出一个极大似然值,公式为:
Figure BDA0001131945410000041
其中,xi是特征信号中第i个特征点的样本值,μ为模型中的值,θ为需要计算得出的极大似然值,通过这个极大似然值来计算当前语音输入信号与预设的唤醒语音信号之间的相似度。其中,当计算获得的相似度大于预设第一阈值时,则开启第二次唤醒判断,否则结束唤醒操作。本实施例中,DSP模块对语音输入信号进行第一次唤醒判断的过程与现有技术类似,这里不再赘述。
这里需要说明的是,由于第一次唤醒判断过程采用的是较简单的声学模型,因此,对DSP模块的要求较低,DSP模块的功耗较低。
当然上述仅为示例说明,而不是对本发明的唯一限定,例如,在实际应用中也可以采用数据包窗口DTW的方法来计算两段语音的相似度,但是其最大的问题是语音的发音风格不同会严重影响语音的识别率。
步骤S103、根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,若超过则唤醒语音交互功能,否则不唤醒。其中,所述第二声学模型的准确度高于所述第一声学模型的准确度。
本实施例中,第二次唤醒判断可以由一主芯片处理模块来执行。在经过第一次唤醒判断后,如果语音输入信号和预设的唤醒语音信号之间的相似度超过预设第一阈值,则激活主芯片处理模块,进而主芯片处理模块从DSP模块中获取上述特征信号,并根据其内置的准确度较高的声学模型(即第二声学模型)和上述获得的特征信号,确定语音输入信号与预设的唤醒语音信号之间的第二相似度。进一步的,在获得第二相似度后,将计算获得的第二相似度与第二预设阈值进行对比,当第二相似度超过第二预设阈值时,唤醒语音交互功能,否则不唤醒。
需要说明的是,在DSP模块未判断到语音输入信号和预设的唤醒语音信号之间的相似度超过预设第一阈值时,主芯片处理模块处于未激活状态,即主芯片处理模块处于低功耗工作状态或者休眠状态;当DSP模块判断到语音输入信号和预设的唤醒语音信号之间的相似度超过预设第一阈值时,DSP模块将该语音信号对应的特征信号发送给主芯片处理模块,进而激活主芯片处理模块。
特别的,在本实施例中,第二次唤醒判断的方法和第一次唤醒判断的方法不同,其不同在于:第二次唤醒判断会用复杂的相似度解码算法,如Vetebi,它是一种动态规划算法,能计算语音信号内容的前后状态关联关系,而第一次唤醒判断是静态的计算相似度方法,只计算每个采样点的最大似然值,同时两者的声学模型也不一样,DSP模块里用的是非常简单的,容易计算处理的简单声学模型,主芯片处理模块里用的是较复杂的,且精度较高的复杂声学模型。
举例来说,假设唤醒语音中的唤醒词是“Vidaa,Vidaa”,在DSP模块中的计算过程中,可以认为是将这段语音分解成256个采样点,然后通过最大似然值算法来综合比较这256个点中,声学模型里的值和采集进来的语音输入信号之间的最大似然值的重合概率,是一种静态的计算方法,比如可以认为只要这个概率达到70%,就认为用户有可能说了句”Vidaa Vidaa”;
然后启动第二次唤醒判断,主芯片处理模块会将语音输入信号和唤醒语音信号导入训练好的高精度、高鲁棒性的HMM声学模型,并用Veterbi算法来计算语音输入信号和唤醒语音信号之间的相似度,这种算法是动态的规划算法,是计算了语音信号中每个点和前后发音单元的转移概率,因为人说话时,每个词的发音都是连续的,这是由声带决定的,因此每个拼音或者因素发音特点局定了前后每个点的转移概率,这部分计算量较大,准确度也很高,因此,如果Veterbi计算出来的相似度超过第二预设阈值(比如90%),则认为是用户真正地说出了“Vidaa Vidaa”这句话。当然上述仅为示例说明,并不是对本发明的唯一限定。
这里需要说明的是,在本实施例中,第二次唤醒识别的目的是对语音输入信号进行较为精确的识别,避免误唤醒的发生。因此,在实际应用中,第二预设阈值的设置应大于或等于第一预设阈值。
本实施例,首先通过准确度较低的第一声学模型对语音输入信号进行初步的语音唤醒识别,当识别出语音输入信号与预设的唤醒语音信号之间的相似度超过第一预设阈值时,再通过准确度较高第二声学模型对语音输入信号进行第二次语音唤醒识别,从而根据第二次识别的结果,确定是否唤醒语音交互功能。由于在第一次识别过程中,采用的是准确度较低的声学模型,因此,第一次识别过程中的功耗较低。而只有当第一次识别通过,即语音输入信号与预设的唤醒语音信号之间的相似度超过第一预设阈值时,才启用准确度较高的第二声学模型进行第二次唤醒识别。这样通过将准确度较低的声学模型和准确度较高的声学模型结合使用,避免了低准确度声学模型单独使用时,唤醒识别准确率较低,误唤醒率较高的问题,同时也能避免高准确度声学模型单独使用时,功耗较高的问题,进而达到了兼顾功耗和低误唤醒率的目的。
图2为本发明一实施例提供的语音交互装置的架构图,如图2所示,图2中语音交互装置包括DSP模块和主芯片处理模块。其中,DSP模块中内置一较简单的声学模型(即准确度较低的声学模型),主芯片处理模块中内置有一准确度和鲁棒性较高的声学模型。且主芯片处理模块未被DSP模块触发时,处于低功耗的工作状态或者休眠状态,其中,优选的,当主芯片处理模块未被DSP模块触发时,主芯片处理模块处于休眠状态,可以最大限度的降低主芯片的功耗。
实际应用中,当麦克风阵列接收到语音输入信号后,DSP模块通过端点检测(voiceactivity detection,简称VAD)来判断是否有语音信号输入,比如可以采用现有的短时能量和短时过零率的算法,该算法在本实施例中的应用与在现有技术中的应用相同,这里不再赘述。端点检测完成后,需要进行一次时间延迟补偿,以确保语音输入信号的完整。在对语音输入信号进行信号处理之前,需要将这段语音输入信号完整保存下来,以备传送到云端服务器进行识别。信号处理部分至少包括噪声抑制处理、回声消除处理和声音增强处理。实际应用中,噪声抑制处理可以在多滤波器组合的基础上进行。回声消除处理和声音增强处理的执行方法与现有技术相同,在这里不再赘述。
进一步的,在完成上述信号处理之后,先从语音输入信号中提取特征信号,再根据DSP模块内的一个简单的声学模型,对提取获得的特征信号进行解码处理,并计算特征信号和预设的唤醒语音信号之间的相似度,当计算获得的相似度超过第一预设阈值时,则触发主芯片处理模块,进行再一次的唤醒判断,否则退出本次唤醒操作。这里需要说明的是,DSP模块,只是通过简单的声学模型做初步的唤醒判断,因此,DSP模块只要在低功耗的工作环境下即可。
进一步的,当主芯片处理模块被触发时,主芯片处理模块可以通过其与DSP模块之间的数据接口,获取DSP模块在第一唤醒判断过程中获得的特征信号,并根据其内置的准确度较高的声学模型和上述特征信号对语音输入信号进行第二次唤醒识别,这里主芯片处理模进行第二次唤醒识别的方法与DSP模块图1实施例中所示的第二次唤醒识别的方法相同,在这里不再赘述。
图2所示的架构,利用前端DSP模块的快速低功耗,对语音输入信号做初步的唤醒识别,同时利用DSP模块的计算资源,做了一次特征提取,为主芯片处理模块的第二次唤醒识别节省了计算资源,而主芯片处理模块在没有接收到DSP模块的触发信号之前,一直在低功耗模式运行,被触发后,则利用自身的高存储资源和高计算资源,以及DSP模块发送过来的特征信号,能快速高效地对语音输入信号进行唤醒识别,因此整个架构能够兼顾低功耗和高准确率。
图3为本发明一实施例提供的语音交互装置的结构示意图,如图3所示,本实施例提供的装置包括:
接收模块11,用于接收语音输入信号;
第一确定模块12,用于根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值;
第二确定模块13,用于在所述第一相似度超过所述第一预设阈值时,根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,其中,所述第二声学模型的准确度高于所述第一声学模型的准确度;
唤醒模块14,用于当所述第二相似度超过第二预设阈值时,唤醒语音交互功能。
其中,所述第二预设阈值大于或等于第一预设阈值。
所述第一确定模块12,包括:
获取子模块121,用于从所述语音输入信号中,提取特征信号;
第一确定子模块122,用于根据第一声学模型和所述特征信号,确定所述特征信号和预设的唤醒语音信号之间的第一极大似然值;
根据所述第一极大似然值,确定所述语音输入信号与预设的唤醒语音信号之间的第一相似度。
所述第二确定模块13,包括:
第二确定子模块131,用于
根据所述第二声学模型,确定所述特征信号中发音单元与其前和/或后发音单元之间的第一转移概率,以及对应的所述唤醒语音信号中发音单元与其前和/或后发音单元之间的第二转移概率;
根据所述第一转移概率和所述第二转移概率,确定所述特征信号和所述唤醒语音信号之间的第二相似度。
本实施例提供的语音交互装置,能够用于执行图1所示的方法,其具体的执行方式和有益效果与图1所示实施例类似,在这里不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种语音唤醒方法,其特征在于,包括:
接收语音输入信号;
根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值;
若超过,则根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,其中,所述第二声学模型的准确度高于所述第一声学模型的准确度;
若超过,则唤醒语音交互功能;
所述第一声学模型设置在DSP模块中,所述的第二声学模型设置在主芯片处理模块中。
2.根据权利要求1所述的方法,其特征在于,所述第二预设阈值大于所述第一预设阈值。
3.根据权利要求2所述的方法,其特征在于,所述根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,包括:
从所述语音输入信号中,提取特征信号;
根据第一声学模型和所述特征信号,确定所述特征信号和预设的唤醒语音信号之间的第一极大似然值;
根据所述第一极大似然值,确定所述语音输入信号与预设的唤醒语音信号之间的第一相似度。
4.根据权利要求3所述的方法,其特征在于,当所述第一相似度超过所述第一预设阈值时,所述根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,包括:
根据所述第二声学模型,确定所述特征信号中发音单元与其前和/或后发音单元之间的第一转移概率,以及对应的所述唤醒语音信号中发音单元与其前和/或后发音单元之间的第二转移概率;
根据所述第一转移概率和所述第二转移概率,确定所述特征信号和所述唤醒语音信号之间的第二相似度。
5.一种语音交互装置,其特征在于,包括:
麦克风阵列,用于接收语音输入信号;
DSP模块,用于根据第一声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第一相似度,并判断所述第一相似度是否超过第一预设阈值;
主芯片,用于在所述第一相似度超过所述第一预设阈值时,根据第二声学模型,确定所述语音输入信号和预设的唤醒语音信号之间的第二相似度,并判断所述第二相似度是否超过第二预设阈值,其中,所述第二声学模型的准确度高于所述第一声学模型的准确度;
唤醒模块,用于当所述第二相似度超过第二预设阈值时,唤醒语音交互功能。
6.根据权利要求5所述的装置,其特征在于所述第二预设阈值大于第一预设阈值。
7.根据权利要求6所述的装置,其特征在于,所述DSP模块,包括:
获取子模块,用于从所述语音输入信号中,提取特征信号;
第一确定子模块,用于根据第一声学模型和所述特征信号,确定所述特征信号和预设的唤醒语音信号之间的第一极大似然值;
根据所述第一极大似然值,确定所述语音输入信号与预设的唤醒语音信号之间的第一相似度。
8.根据权利要求7所述的装置,其特征在于,所述主芯片,包括:
第二确定子模块,用于根据所述第二声学模型,确定所述特征信号中发音单元与其前和/或后发音单元之间的第一转移概率,以及对应的所述唤醒语音信号中发音单元与其前和/或后发音单元之间的第二转移概率;
根据所述第一转移概率和所述第二转移概率,确定所述特征信号和所述唤醒语音信号之间的第二相似度。
CN201610901706.4A 2016-10-17 2016-10-17 语音唤醒方法及语音交互装置 Active CN106448663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610901706.4A CN106448663B (zh) 2016-10-17 2016-10-17 语音唤醒方法及语音交互装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610901706.4A CN106448663B (zh) 2016-10-17 2016-10-17 语音唤醒方法及语音交互装置

Publications (2)

Publication Number Publication Date
CN106448663A CN106448663A (zh) 2017-02-22
CN106448663B true CN106448663B (zh) 2020-10-23

Family

ID=58174603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610901706.4A Active CN106448663B (zh) 2016-10-17 2016-10-17 语音唤醒方法及语音交互装置

Country Status (1)

Country Link
CN (1) CN106448663B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI643123B (zh) 2017-05-02 2018-12-01 瑞昱半導體股份有限公司 具有語音喚醒功能的電子裝置及其操作方法
CN108235745B (zh) 2017-05-08 2021-01-08 深圳前海达闼云端智能科技有限公司 机器人唤醒方法、装置和机器人
CN108877788B (zh) * 2017-05-08 2021-06-11 瑞昱半导体股份有限公司 具有语音唤醒功能的电子装置及其操作方法
CN107239897A (zh) * 2017-05-31 2017-10-10 中南大学 一种人格职业类型测试方法及***
CN107396158A (zh) * 2017-08-21 2017-11-24 深圳创维-Rgb电子有限公司 一种声控交互装置、声控交互方法和电视机
CN107464565B (zh) * 2017-09-20 2020-08-04 百度在线网络技术(北京)有限公司 一种远场语音唤醒方法及设备
CN107680591A (zh) * 2017-09-21 2018-02-09 百度在线网络技术(北京)有限公司 基于车载终端的语音交互方法、装置及其设备
CN107742516B (zh) * 2017-09-29 2020-11-17 上海望潮数据科技有限公司 智能识别方法、机器人及计算机可读存储介质
CN107622770B (zh) * 2017-09-30 2021-03-16 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN107895573B (zh) * 2017-11-15 2021-08-24 百度在线网络技术(北京)有限公司 用于识别信息的方法及装置
CN108122563B (zh) * 2017-12-19 2021-03-30 北京声智科技有限公司 提高语音唤醒率及修正doa的方法
CN108198548B (zh) * 2018-01-25 2020-11-20 苏州奇梦者网络科技有限公司 一种语音唤醒方法及其***
CN110444193B (zh) 2018-01-31 2021-12-14 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN108564941B (zh) 2018-03-22 2020-06-02 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN108831477B (zh) * 2018-06-14 2021-07-09 出门问问信息科技有限公司 一种语音识别方法、装置、设备及存储介质
CN109215647A (zh) * 2018-08-30 2019-01-15 出门问问信息科技有限公司 语音唤醒方法、电子设备及非暂态计算机可读存储介质
CN109065046A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音唤醒的方法、装置、电子设备及计算机可读存储介质
CN110890087A (zh) * 2018-09-10 2020-03-17 北京嘉楠捷思信息技术有限公司 一种基于余弦相似度的语音识别方法和装置
CN109036428A (zh) * 2018-10-31 2018-12-18 广东小天才科技有限公司 一种语音唤醒设备、方法及计算机可读存储介质
CN112740321A (zh) * 2018-11-20 2021-04-30 深圳市欢太科技有限公司 唤醒设备的方法、装置、存储介质及电子设备
CN109360550B (zh) * 2018-12-07 2022-01-04 上海智臻智能网络科技股份有限公司 语音交互***的测试方法、装置、设备和存储介质
CN109785825B (zh) * 2018-12-29 2021-07-30 长虹美菱日电科技有限公司 一种语音识别的算法及储存介质、应用其的电器
CN109979438A (zh) * 2019-04-04 2019-07-05 Oppo广东移动通信有限公司 语音唤醒方法及电子设备
CN110534099B (zh) * 2019-09-03 2021-12-14 腾讯科技(深圳)有限公司 语音唤醒处理方法、装置、存储介质及电子设备
CN110570873B (zh) * 2019-09-12 2022-08-05 Oppo广东移动通信有限公司 声纹唤醒方法、装置、计算机设备以及存储介质
CN110534102B (zh) * 2019-09-19 2020-10-30 北京声智科技有限公司 一种语音唤醒方法、装置、设备及介质
CN110706691B (zh) * 2019-10-12 2021-02-09 出门问问信息科技有限公司 语音验证方法及装置、电子设备和计算机可读存储介质
CN110890093B (zh) * 2019-11-22 2024-02-09 腾讯科技(深圳)有限公司 一种基于人工智能的智能设备唤醒方法和装置
CN111161714B (zh) * 2019-12-25 2023-07-21 联想(北京)有限公司 一种语音信息处理方法、电子设备及存储介质
CN111831201A (zh) * 2020-05-25 2020-10-27 中国人民解放军陆军军医大学第二附属医院 一种骨髓细胞形态学自动检测人机交互***及其方法
CN112259085A (zh) * 2020-09-28 2021-01-22 上海声瀚信息科技有限公司 一种基于模型融合框架的两阶段语音唤醒算法
CN112885353B (zh) * 2021-01-26 2023-03-14 维沃移动通信有限公司 语音唤醒方法、装置及电子设备
CN113256937A (zh) * 2021-07-07 2021-08-13 常州分音塔科技有限公司 基于音频事件智能检测的智能家居看护方法及***
CN113593561A (zh) * 2021-07-29 2021-11-02 普强时代(珠海横琴)信息技术有限公司 基于多级触发机制的超低功耗唤醒方法及装置
CN113611304B (zh) * 2021-08-30 2024-02-06 深圳鱼亮科技有限公司 一种基于大屏语音唤醒识别降噪混合***及方法
CN113947855A (zh) * 2021-09-18 2022-01-18 中标慧安信息技术股份有限公司 一种基于语音识别的智能楼宇人员安全报警***
CN117012206B (zh) * 2023-10-07 2024-01-16 山东省智能机器人应用技术研究院 一种人机语音交互***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103811003A (zh) * 2012-11-13 2014-05-21 联想(北京)有限公司 一种语音识别方法以及电子设备
CN104143326A (zh) * 2013-12-03 2014-11-12 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
CN104599667A (zh) * 2015-01-16 2015-05-06 联想(北京)有限公司 信息处理方法及电子设备
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
CN103632666B (zh) * 2013-11-14 2016-09-28 华为技术有限公司 语音识别方法、语音识别设备和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103811003A (zh) * 2012-11-13 2014-05-21 联想(北京)有限公司 一种语音识别方法以及电子设备
CN104143326A (zh) * 2013-12-03 2014-11-12 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN104599667A (zh) * 2015-01-16 2015-05-06 联想(北京)有限公司 信息处理方法及电子设备

Also Published As

Publication number Publication date
CN106448663A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN106448663B (zh) 语音唤醒方法及语音交互装置
EP3522153B1 (en) Voice control system, wakeup method and wakeup apparatus therefor, electrical appliance and co-processor
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN105632486B (zh) 一种智能硬件的语音唤醒方法和装置
US9437186B1 (en) Enhanced endpoint detection for speech recognition
CN103971685B (zh) 语音命令识别方法和***
TWI802602B (zh) 用於語音喚醒(wov)關鍵詞註冊的處理器實現的方法和系統
US20180293974A1 (en) Spoken language understanding based on buffered keyword spotting and speech recognition
CN106653031A (zh) 语音唤醒方法及语音交互装置
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
CN105704298A (zh) 声音唤醒侦测装置与方法
US11308946B2 (en) Methods and apparatus for ASR with embedded noise reduction
CN111462756B (zh) 声纹识别方法、装置、电子设备及存储介质
CN111465980A (zh) 用于时延降低的自动语音辨识的得分趋势分析
CN107093422B (zh) 一种语音识别方法和语音识别***
CN110767231A (zh) 一种基于时延神经网络的声控设备唤醒词识别方法及装置
CN111091819A (zh) 语音识别装置和方法、语音交互***和方法
CN109697981B (zh) 一种语音交互方法、装置、设备及存储介质
CN111862943B (zh) 语音识别方法和装置、电子设备和存储介质
CN114120979A (zh) 语音识别模型的优化方法、训练方法、设备及介质
US10726829B2 (en) Performing speaker change detection and speaker recognition on a trigger phrase
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN113129904B (zh) 声纹判定方法、装置、***、设备和存储介质
CN115691478A (zh) 语音唤醒方法、装置、人机交互设备和存储介质
CN112908310A (zh) 一种智能电器中的语音指令识别方法及识别***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant