CN109243462A

CN109243462A - 一种语音唤醒方法及装置

Info

Publication number: CN109243462A
Application number: CN201811386838.3A
Authority: CN
Inventors: 林亚男
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2019-01-18

Abstract

本发明属于语音唤醒领域，公开了一种语音唤醒方法及装置，所述方法包括：对获取的当前输入语音进行语音特征提取；根据提取到的语音特征，确定当前输入语音中是否存在唤醒词；当确定当前输入语音中存在唤醒词时，发出灯效反馈；进一步判断当前输入语音中是否存在指令词；当判断当前输入语音中存在指令词时，识别所述指令词并执行。本发明将不同唤醒方式结合使用，实现一语直达唤醒方式和普通唤醒方式的结合，让用户与语音***进行交互的时候更加自然，在使用普通唤醒方式时反馈迅速，使用一语直达唤醒方式不会被反馈声音干扰，避免了二者结合时产生的问题。

Description

一种语音唤醒方法及装置

技术领域

本发明属于语音唤醒领域，特别涉及一种语音唤醒方法及装置。

背景技术

随着语音技术的发展，很多智能设备都可以通过语音与用户进行交互。智能设备的语音交互***通过对用户的语音进行识别，完成用户的指令。在传统的语音交互中，用户通常手动激活语音，比如按下录音键，才可以进行语音交互。为了使用户更加顺畅的切入语音，模拟在人与人交互的开始呼唤对方的行为，设计了语音唤醒功能。

目前，现有的语音唤醒方式主要为：在与智能设备进行语音交互之前，用户首先需要说唤醒词，唤醒词可以是针对智能设备预先设置的。语音交互***的唤醒模块对语音进行检测，提取语音特征，确定提取到的语音特征与预设的唤醒词的语音特征是否匹配，如果匹配，唤醒识别模块，对后续输入的语音指令进行语音识别和语义解析。例如：用户想要使用电视的语音交互***，指示电视转换到体育频道。首先用户需要说唤醒词，比如“你好电视”，唤醒模块检测到唤醒词后，激活识别模块。识别模块开始检测语音指令，此时，用户说“看体育频道”，识别模块识别语音指令，并根据指令将频道转换到体育频道。在完成指令识别后，识别模块关闭不再工作，如果用户想要再次发出指令，需要再次说唤醒词唤醒识别模块。

上述现有的语音唤醒方式中，由于用户在每次发出指令前，都需要进行语音唤醒，即需要先说唤醒词，再发出指令的语音，使得语音交互***完成一个指令操作后，需要重新进行关键词检测，浪费***资源：并且对于用户而言，每次发出指令之前，都需要说一次唤醒词，语音唤醒方式繁琐，用户体验较差。

针对这个缺陷谷歌推出了One-shot(一语直达)方式，但在唤醒方面也有缺陷，One-shot唤醒方式的不足在于语音***没有及时反馈，当用户说完一句话后可能没被识别出意图，需要重新说整句话，普通唤醒方式不足在于每次说指令都要说一句唤醒词，但优势在于有及时反馈。

普通唤醒方式和One-shot(一语直达)交互方式二者结合也会带来新的问题，如：用户说话时，语音***不能够很好的判断用户采用的哪种唤醒方式，导致用户用一语联控时，会被***的普通唤醒方式的及时反馈所打断(如：“我在“、”你说“)，体验很差。

发明内容

本发明的目的是提供一种语音唤醒方法及装置，通过灯效反馈替代语音反馈，避免打扰用户，让用户与语音***进行交互的时候更加自然。

本发明提供的技术方案如下：

本发明提供一种语音唤醒方法，包括：

对获取的当前输入语音进行语音特征提取；

根据提取到的语音特征，确定当前输入语音中是否存在唤醒词；

当确定当前输入语音中存在唤醒词时，发出灯效反馈；

进一步判断当前输入语音中是否存在指令词；

当判断当前输入语音中存在指令词时，识别所述指令词并执行。

优选的，所述方法还包括步骤：

预先构建关键词检测模型，所述关键词检测模型中的关键词至少包括预设的唤醒词和指令词。

优选的，所述方法还包括步骤：

当判断当前输入语音中不存在指令词时，进一步判断预设时间内是否接收到指令词；

当预设时间内未接收到指令词时，关闭灯效反馈。

优选的，所述步骤“当预设时间内未接收到包含指令词的语音时，关闭灯效反馈”还包括：

当预设时间内未接收到指令词时，发出语音提示信息；所述语音提示信息用于提示用户未输入指令。

优选的，所述方法还包括步骤：

当预设时间内接收到指令词时，识别所述指令词并执行。

本发明还公开了一种语音唤醒装置，包括上述语音唤醒方法，还包括：

语音特征提取单元，用于对获取的当前输入语音进行语音特征提取；

唤醒词检测单元，用于根据提取到的语音特征，确定当前输入语音中是否存在唤醒词；

灯效反馈单元，用于当确定当前输入语音中存在唤醒词时，发出灯效反馈；

指令词判断单元，用于进一步判断当前输入语音中是否存在指令词；

执行单元，用于当判断当前输入语音中存在指令词时，识别所述指令词并执行。

优选的，所述装置还包括：

关键词监测模型构建单元，用于预先构建关键词检测模型，所述关键词检测模型中的关键词至少包括预设的唤醒词和指令词。

优选的，所述指令词判断单元还用于进一步判断预设时间内是否接收到指令词；

所述灯效反馈单元还用于当所述指令词判断单元判断预设时间内未接收到指令词时，关闭灯效反馈。

优选的，所述装置还包括：

语音提示单元，用于当所述指令词判断单元判断预设时间内未接收到指令词时，发出语音提示信息；所述语音提示信息用于提示用户未输入指令。

优选的，所述执行单元还用于当所述指令词判断单元判断预设时间内接收到指令词时，识别所述指令词并执行。

与现有技术相比，本发明提供的一种具有以下有益效果：

1、本发明能够实现不同唤醒方式的结合，让用户与语音***进行交互的时候更加自然；

2、本发明通过增加灯效反馈，是用户在使用不同唤醒方式时不会被反馈声音干扰，避免了不同唤醒方式结合时产生的问题。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种语音唤醒方法及装置的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种语音唤醒方法方法的流程示意图；

图2是本发明又一种语音唤醒方法方法的流程示意图；

图3是本发明另一种语音唤醒方法方法的流程示意图；

图4是本发明再一种语音唤醒方法方法的流程示意图；

图5是本发明又又一种语音唤醒方法方法的流程示意图；

图6是本发明一种语音唤醒方法的完整工作流程图；

图7是本发明一种语音唤醒装置的结构示意框图；

图8是本发明又一种语音唤醒装置的结构示意框图；

图9是本发明另一种语音唤醒装置的结构示意框图；

附图标号说明：

100、语音特征提取单元，200、唤醒词检测单元，300、灯效反馈单元，400、指令词判断单元，500、执行单元，600、关键词监测模型构建单元，700、语音提示单元。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

本发明所述语音唤醒方法适用于普通唤醒方式与一语直达唤醒方式结合的场景。

具体的，普通唤醒方式为一问一答形式，用户发出唤醒词，需要设备反馈待机信息，然后才能开始交互，例如：

用户：你好小驰(唤醒词)！

设备：有什么可以帮您？(设备反馈，表示处于信息接收状态)

用户：我要去机场。

设备：开始为您导航去机场。

具体的，一语直达唤醒方式也称为One-shot(一语联控)方式，One-shot，采用“唤醒词+语音语义识别”一体化方式，实现唤醒词与语音操控之间零间隔、零延迟、无缝对接，摒弃传统的一问一答的形式，极大减少用户语音操控的步骤，实现信息反馈，化繁为简，实现简便操作。

One-shot的一大特点是识别唤醒与语义理解一体化，保证语音交互的统一性与连贯性，完成操控。One-shot功能可以一语即中，实现“唤醒词+语音语义识别”一体化，比如实现这样的交互：

用户：你好小驰，我要去机场。

设备：开始为您导航去机场。

普通唤醒方式和一语直达唤醒方式二者结合会产生问题，如：用户说话时，语音***不能够很好的判断用户采用的哪种唤醒方式，导致用户用一语直达唤醒方式时，会被***的普通唤醒方式的及时反馈所打断(如：“我在“、”你说“)，体验很差。因此，本发明提供了语音唤醒方法及装置，解决普通唤醒方式和一语直达唤醒方式二者结合产生的发生干扰问题。

根据本发明提供的一种实施例，如图1所示，一种语音唤醒方法，包括：

S1、对获取的当前输入语音进行语音特征提取；

具体的，带有语音交互功能的智能设备监听是否有语音输入。本步骤中，可以采用现有的声学模型评估对当前输入语音进行特征提取。其中，语音特征可以为频谱或倒谱系数。

S2、根据提取到的语音特征，按照预先构建的关键词检测模型，确定当前输入语音中是否存在唤醒词，所述关键词检测模型中的关键词至少包括预设的唤醒词；

本发明实施例中，在检测输入语音中是否存在唤醒词之前，首先要构建好关键词检测模型，具体构建关键词检测模型的方式如下：

一般的，用户如果想要使用语音交互功能，可以说预先设置的关键词，该关键词可以为唤醒词，也可以为指令词。其中，唤醒词是用来唤醒语音识别器的词组，唤醒词通常选用发声声母较多的词组，比如词组中包含以m、n、l、r等声母开头的汉字，因为发声声母存在声带振动，可以较好的与环境噪声区分开，具有较好的抗噪性，例如：唤醒词可以设置为“你好”或者“嗨”。

S3、当确定当前输入语音中存在唤醒词时，发出灯效反馈；

具体的，本发明实施例中灯效反馈可以为持续发出某种颜色的灯光或灯光闪烁的方式。

S4、当确定当前输入语音中存在唤醒词时，进一步判断当前输入语音中是否存在指令词；所述关键词检测模型中的关键词至少包括预设的指令词；

指令词是用来指示该智能设备执行相应操作的词组，指令词的特点是能反映该智能设备专有的功能，比如“导航到”是与具有导航功能的设备(例如汽车)高度相关的，“播放”通常是与具有多媒体功能的设备(例如电视和手机)高度相关的，指令词可以直接反映出用户的意图。语音特征可以为频谱或者倒谱系数等，每10毫秒可以从输入语音的信号中提取一帧语音特征向量。

由于从当前输入语音中检测到指令词时，该指令词并不一定标识用户所说的话是语音指令，也可能是当前输入语音中恰巧含有指令词，但用户的意图并非是该指令词。例如：用户说“葫芦岛航道”里面含有类似“导航到”的发音，但用户的真正意图并不是指示导航到某个目的地。其中，对当前输入语音进行语义解析可以采用现有技术中的方法，例如，可以采用基于模板匹配的方法，或者基于序列标注的方法，具体处理方式在此不再进行详细描述。

S5、当判断当前输入语音中存在指令词时，识别所述指令词并执行。

具体的，本发明实施例通过增加灯效反馈来替代现有技术中的反馈声音，能够避免不同唤醒方式结合使用时普通唤醒方式的反馈声音干扰到用户，让用户与语音***进行交互的时候更加自然。

本发明实施例中的语音唤醒方法可以应用在带有语音交互功能的智能设备上，例如：电视、手机、电脑、智能冰箱等。

根据本发明提供的又一种实施例，如图2所示，一种语音唤醒方法，包括：

S0、预先构建关键词检测模型，所述关键词检测模型中的关键词至少包括预设的唤醒词和指令词；

S1、对获取的当前输入语音进行语音特征提取；

S3、当确定当前输入语音中存在唤醒词时，发出灯效反馈；

本发明将不同唤醒方式结合使用，实现一语直达唤醒方式和普通唤醒方式的结合，让用户与语音***进行交互的时候更加自然，在使用普通唤醒方式时反馈迅速，使用一语直达唤醒方式不会被反馈声音干扰，避免了二者结合时产生的问题。

根据本发明提供的另一种实施例，如图3所示，一种语音唤醒方法，包括：

S1、对获取的当前输入语音进行语音特征提取；

S3、当确定当前输入语音中存在唤醒词时，发出灯效反馈；

S6、当判断当前输入语音中不存在指令词时，进一步判断预设时间内是否接收到指令词；

S7、当预设时间内未接收到指令词时，关闭灯效反馈。

具体的，本实施例中预设时间为根据实际使用情况自行设定的值，不作具体限定，可以结合语音交互***的响应时间以及对于用户体验感最好的时间间隔设置。本发明将不同唤醒方式结合使用，实现一语直达唤醒方式和普通唤醒方式的结合，让用户与语音***进行交互的时候更加自然，在使用普通唤醒方式时反馈迅速，使用一语直达唤醒方式不会被反馈声音干扰，避免了二者结合时产生的问题。

根据本发明提供的再一种实施例，如图4所示，一种语音唤醒方法，包括：

S1、对获取的当前输入语音进行语音特征提取；

S3、当确定当前输入语音中存在唤醒词时，发出灯效反馈；

具体的，本实施例中预设时间为根据实际使用情况自行设定的值，不作具体限定，可以结合语音交互***的响应时间以及对于用户体验感最好的时间间隔设置。

S71、当预设时间内未接收到指令词时，发出语音提示信息，所述语音提示信息用于提示用户未输入指令，并关闭灯效反馈。

具体的，当预设时间内未接收到指令词时，则在关闭灯效反馈之前提醒用户并未输入指令，以便给予用户及时反馈。

上述情况针对于在实际使用时会出现用户发出一段语音时，自认为已经说出了指令词，然而对于关键词检测模来说可能并不是指令词，如果语音交互***此时在预设时间内未接收到指令词，直接关闭灯效反馈，而此时用户自以为已经发出了指令词，还处于等待***处理指令的状态，那么直接关闭灯效反馈对于用户来说十分突兀，因此本实施例在关闭灯效反馈之前再发出语音提示信息，告知用户当前并未输入指令，然后提醒之后再关闭灯效反馈，让用户了解进行结束的原因，能够提升用户的体验感。

根据本发明提供的又又一种实施例，如图5所示，一种语音唤醒方法，包括：

S1、对获取的当前输入语音进行语音特征提取；

S3、当确定当前输入语音中存在唤醒词时，发出灯效反馈；

S8、当预设时间内接收到指令词时，识别所述指令词并执行。

图6为本发明一种语音唤醒方法的完整工作流程图。如图6所示，完整工作流程包括：

601预先构建关键词检测模型，所述关键词检测模型中的关键词至少包括预设的唤醒词和指令词；

602对获取的当前输入语音进行语音特征提取；

603根据提取到的语音特征，确定当前输入语音中是否存在唤醒词；

604当确定当前输入语音中存在唤醒词时，发出灯效反馈；

605进一步判断当前输入语音中是否存在指令词；

606当判断当前输入语音中存在指令词时，识别所述指令词并执行；

607当判断当前输入语音中不存在指令词时，进一步判断预设时间内是否接收到指令词；

608当预设时间内未接收到指令词时，发出语音提示信息，关闭灯效反馈；

609当预设时间内接收到指令词时，识别所述指令词并执行。

根据本发明提供的一种实施例，如图7所示，一种语音唤醒装置，包括上述语音唤醒方法，还包括：

语音特征提取单元100，用于对获取的当前输入语音进行语音特征提取；

具体的，语音特征提取单元100监听是否有语音输入。本步骤中，可以采用现有的声学模型评估对当前输入语音进行特征提取。其中，语音特征可以为频谱或倒谱系数。

唤醒词检测单元200，用于根据提取到的语音特征，按照预先构建的关键词检测模型，确定当前输入语音中是否存在唤醒词，所述关键词检测模型中的关键词至少包括预设的唤醒词；

具体的，本发明实施例中，在检测输入语音中是否存在唤醒词之前，首先要构建好关键词检测模型，具体构建关键词检测模型的方式如下：

灯效反馈单元300，用于当确定当前输入语音中存在唤醒词时，发出灯效反馈；

指令词判断单元400，用于当确定当前输入语音中存在唤醒词时，进一步判断当前输入语音中是否存在指令词；

具体的，指令词是用来指示该智能设备执行相应操作的词组，指令词的特点是能反映该智能设备专有的功能，比如“导航到”是与具有导航功能的设备(例如汽车)高度相关的，“播放”通常是与具有多媒体功能的设备(例如电视和手机)高度相关的，指令词可以直接反映出用户的意图。语音特征可以为频谱或者倒谱系数等，每10毫秒可以从输入语音的信号中提取一帧语音特征向量。

执行单元500，用于当判断当前输入语音中存在指令词时，识别所述指令词并执行。

具体的，本发明实施例通过增加灯效反馈来替代现有技术中的反馈声音，能够避免不同唤醒方式结合使用时普通唤醒方式的反馈声音干扰到用户，，让用户与语音***进行交互的时候更加自然。

本发明实施例中的语音唤醒装置可以为带有语音交互功能的智能设备，例如：电视、手机、电脑、智能冰箱等。

根据本发明提供的又一种实施例，如图8所示，一种语音唤醒装置，包括上述语音唤醒方法，还包括：

关键词监测模型构建单元600，用于预先构建关键词检测模型，所述关键词检测模型中的关键词至少包括预设的唤醒词和指令词；

优选的，所述指令词判断单元400还用于进一步判断预设时间内是否接收到指令词；

所述灯效反馈单元300还用于当所述指令词判断单元400判断预设时间内未接收到指令词时，关闭灯效反馈。

根据本发明提供的另一种实施例，如图9所示，一种语音唤醒装置，包括上述语音唤醒方法，还包括：

还包括语音提示单元700，用于当所述指令词判断单元400判断预设时间内未接收到指令词时，发出语音提示信息；所述语音提示信息用于提示用户未输入指令。

优选的，所述执行单元500还用于当所述指令词判断单元400判断预设时间内接收到指令词时，识别所述指令词并执行。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音唤醒方法，其特征在于，包括：

对获取的当前输入语音进行语音特征提取；

当确定当前输入语音中存在唤醒词时，发出灯效反馈；

进一步判断当前输入语音中是否存在指令词；

2.根据权利要求1所述的语音唤醒方法，其特征在于，所述方法还包括步骤：

3.根据权利要求1或2所述的语音唤醒方法，其特征在于，所述方法还包括步骤：

当预设时间内未接收到指令词时，关闭灯效反馈。

4.根据权利要求3所述的语音唤醒方法，其特征在于，所述步骤“当预设时间内未接收到包含指令词的语音时，关闭灯效反馈”还包括：

5.根据权利要求3所述的语音唤醒方法，其特征在于，所述方法还包括步骤：

当预设时间内接收到指令词时，识别所述指令词并执行。

6.一种语音唤醒装置，其特征在于，包括上述权利要求1-5任意一项所述的语音唤醒方法，还包括：

7.根据权利要求6所述的语音唤醒装置，其特征在于，所述装置还包括：

8.根据权利要求6或7所述的语音唤醒装置，其特征在于：

所述指令词判断单元还用于进一步判断预设时间内是否接收到指令词；

9.根据权利要求8所述的语音唤醒装置，其特征在于，所述装置还包括：

10.根据权利要求8所述的语音唤醒装置，其特征在于，所述执行单元还用于当所述指令词判断单元判断预设时间内接收到指令词时，识别所述指令词并执行。