CN112309383A

CN112309383A - 语音交互方法、装置及机顶盒

Info

Publication number: CN112309383A
Application number: CN201910710685.1A
Authority: CN
Inventors: 陈孝良; 高均波; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2021-02-02

Abstract

本公开提供了一种语音交互方法、装置及机顶盒，其语音交互方法包括：获取语音信号，对所获取语音信号进行信号处理，得到指令信息；接收指令信息，进行唤醒处理；对接收到的指令信息进行声纹识别，执行所述指令信息相应的操作。本公开能够实现对设备的智能控制，提高用户体验及设备的智能性。

Description

语音交互方法、装置及机顶盒

技术领域

本公开涉及智能设备领域，尤其涉及一种语音交互方法、装置及机顶盒。

背景技术

机顶盒是一个连接电视机与外部信号源的设备。它可以将压缩的数字信号转成电视内容，并在电视机上显示出来。信号可以来自有线电缆、卫星天线、宽带网络以及地面广播。机顶盒接收的内容除了模拟电视可以提供的图像、声音之外，更在于能够接收数字内容，包括电子节目指南、因特网网页、字幕等等，使用户能在现有电视机上观看数字电视节目，并可通过网络进行交互式数字化娱乐、教育和商业化活动。

目前机顶盒一般通过数据线与播放设备连接，启动时需要通过实体按键启动，难以满足用户对于电子设备智能性日益提高的需求。

发明内容

(一)要解决的技术问题

本公开提供了一种语音交互方法、装置及机顶盒，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面，提供了一种语音交互方法，用于机顶盒，所述语音交互方法包括：

获取语音信号，对所获取语音信号进行信号处理，得到指令信息；

接收指令信息，进行唤醒处理；

对接收到的指令信息进行声纹识别；执行所述指令信息相应的操作。

在本公开的一些实施例中，获取语音信号，对所获取语音信号进行信号处理，得到指令信息中包括：

获取语音信号，对数字信号进行消直流处理；

接收消直流处理后的数字信号，并进行滤波降噪处理；

接收滤波降噪处理后的数字信号，并进行信号自适应放大处理，得到指令信息。

在本公开的一些实施例中，接收指令信息，进行唤醒处理包括：

接收指令信息，进行语音预识别，根据语音预识别结果执行相关操作，包括；

经语音预识别，识别出所述指令信息，则执行所述指令；

经语音预识别，未识别出所述指令信息，则判断指令信息是否符合唤醒条件；不满足唤醒条件，则重新接收新的指令信息；

经语音预识别，未识别出所述指令信息，则判断指令信息是否符合唤醒条件；满足唤醒条件，则执行所述指令信息相应的操作。

在本公开的一些实施例中，接收指令信息，唤醒处理包括：

接收指令信息，判断指令信息是否符合唤醒条件，

指令信息不满足唤醒条件，则重新接收新的指令信息；

指令信息满足唤醒条件，则对接收到的指令信息进行声纹识别。

在本公开的一些实施例中，对接收到的指令信息进行声纹识别后，执行所述指令信息相应的操作前还包括：进入与声纹识别的结果相对应的用户模式。

在本公开的一些实施例中，所述声纹识别基于识别模型参数进行，包括：

预先建立识别模型参数；包括：

录入用户的声音，进行训练和学习；

根据训练和学习的结果，存储识别模型参数；

根据接收到的数字信号，进行识别模型参数匹配；

匹配成功，自动进入该识别模型参数对应的用户模式。

在本公开的一些实施例中，多个用户基于识别模型参数进行声纹识别，匹配成功后，进行分屏处理得到多个分屏窗口，各个所述分屏窗口分别进入该识别模型参数对应的用户模式。

在本公开的一些实施例中，所述语音预识别基于关键词进行，包括：

内置多个关键词；所述多个关键词包括唤醒词、常用指令信息和唤醒词与常用指令信息的组合；

识别到相应的关键词后，执行所述指令。

根据本公开的一个方面，还提供了一种语音交互装置，语音交互装置采集语音信号，进行语音处理后得到指令信息，并执行相应操作，所述语音交互装置包括：

语音采集模块，用于采集语音信号，并对语音信号进行信号处理后转换为数字信号；

语音处理模块，用于接收语音采集模块发送的数字信号，对数字信号进行语音处理得到指令信息，并执行指令信息相应的操作。

在本公开的一些实施例中，所述语音采集模块包括：

麦克风阵列，用于采集语音信号；所述麦克风阵列包括多个麦克风组，每个麦克风组包括两个麦克风；所述麦克风阵列为环形、矩形或线形中的任意一种或多种；

信号处理子模块，用于对采集到的语音信号进行信号处理得到数字信号；信号处理包括：消直流处理、降噪处理和自适应放大处理中的一种或多种。

在本公开的一些实施例中，所述语音处理模块包括：声纹识别处理子模块和语音唤醒处理子模块中的一个或多个。

根据本公开的一个方面，还提供了一种机顶盒，所述机顶盒与智能设备无线通信相连；所述机顶盒包括如上所述的语音交互装置。

(三)有益效果

从上述技术方案可以看出，本公开语音交互方法、装置及机顶盒至少具有以下有益效果其中之一或其中一部分：

(1)本公开提供的语音交互方法，利于实现用户语音的智能识别，提高用户体验。

(2)本公开通过语音预识别，使常用指令信息能够直接识别并执行，增强交互效果。

(3)本公开中基于识别模型参数进行声纹识别，进入相应的用户模式的方法，能够有效提高执行指令信息相应的操作反馈速度，增强交互效果。

(4)本公开中麦克风阵列进行语音采集，使用设备更加便携。

(5)本公开提供了多种声纹识别方式，使用户不再受限于使用形式，更加方便进行智能交互。

附图说明

图1为本公开提供的语音交互方法的示意图。

图2为本公开实施例语音交互装置中麦克风阵列与机顶盒的连接电路图。

具体实施方式

本公开提供了一种语音交互方法、装置及机顶盒，其语音交互方法包括：获取语音信号，对所获取语音信号进行信号处理，得到指令信息；接收指令信息，进行唤醒处理；对接收到的指令信息进行声纹识别；执行所述指令信息相应的操作。本公开能够实现对设备的智能控制，提高用户体验及设备的智能性。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

本公开某些实施例于后方将参照所附附图做更全面性地描述，其中一些但并非全部的实施例将被示出。实际上，本公开的各种实施例可以许多不同形式实现，而不应被解释为限于此数所阐述的实施例；相对地，提供这些实施例使得本公开满足适用的法律要求。

本公开提供了一种语音交互方法。图1为本公开提供的语音交互方法的示意图。如图1所示，本公开语音交互方法包括：步骤A：获取语音信号，对所获取语音信号进行信号处理，得到指令信息；步骤B：接收指令信息，进行唤醒处理；步骤C：对接收到的指令信息进行声纹识别；步骤D：执行所述指令信息相应的操作。

可选择的，在所述步骤A包括：

步骤A1：获取语音信号，对数字信号进行消直流处理。

步骤A2：接收消直流处理后的数字信号，并进行滤波降噪处理。

步骤A3：接收滤波降噪处理后的数字信号，并进行信号自适应放大处理，得到指令信息。

具体说明所述步骤B，并提供两种实施方式：

实施方式一

所述步骤B包括：

子步骤B1：接收指令信息，进行语音预识别。优选实施例中，语音预识别基于关键词进行，包括：

子分步骤B11：内置多个关键词；在本地内置的关键词包括唤醒词、常用指令信息以及唤醒词和常用指令信息的组合。这里常用指令信息优选用于机顶盒的控制指令。如语音预识别得到的指令信息为本地内置的常用指令信息，直接执行指令信息。此外本地内置的关键词还可以根据播放设备页面的操作以及机顶盒运行状态进行自适应调整。本领域技术人员应当清楚的是，现有本地内置的关键词一般仅设置唤醒词，只能够应对一些简单的指令信息进行识别，本公开提供的语音预识别方法，有效提高了语音交互性及指令处理速度，可以广泛应用于语音交互领域。

子分步骤B12：识别到相应的关键词后，执行所述指令。

子步骤B2：根据语音预识别情况执行不同的操作；

情况1：经语音预识别，可以识别所述指令信息的，执行所述指令；

情况2：经语音预识别，不可以识别所述指令信息的，判断是否符合唤醒条件，如果不满足唤醒条件，重新接收新的指令信息；

情况3：经语音预识别，不可以识别所述指令信息的，判断是否符合唤醒条件，如果满足唤醒条件，直接执行所述指令信息相应的操作。如果仅接收到唤醒词，则执行唤醒操作。

上述情况1-情况3具体可以选择通过将录音得到的指令信息上传至云端进行声纹识别，根据语音预识别情况接收操作指令。

如上所述，该实施方式中通过语音预识别，使常用指令信息能够直接识别并执行，增强交互效果。

实施方式二

所述步骤B包括：

子步骤B1’：接收指令信息，判断是否符合唤醒条件，如果不满足唤醒条件，重新接收新的指令信息；

子步骤B2’：如果满足唤醒条件，对接收到的指令信息进行声纹识别。子步骤B2’中声纹识别可以基于识别模型参数和基于关键词中的一种或多种进行。

这里还需要对语音预识别以及声纹识别进行补充说明，语音预识别需要一直处于运行状态，且语音预识别的识别范围一般需要小于声纹识别的范围。因此，语音预识别应用于识别常见指令以进行快速反馈，而由声纹识别对复杂指令进行识别，以实现合理配置。

至此，基于步骤B提供两种实施方式介绍完毕。

优选步骤C包括：对接收到的指令信息基于识别模型参数进行声纹识别，进入与指令信息相对应的用户模式，执行指令信息相应的操作。具体包括：

子步骤C1：预先建立识别模型参数；包括：

子分步骤C11：录入用户的声音，进行训练和学习；

子分步骤C12：根据训练和学习的结果，存储识别模型参数；

子步骤C2：根据接收到的数字信号，进行识别模型参数匹配；

子步骤C3：匹配成功，自动进入该识别模型参数对应的用户模式。

进一步地，当多个用户基于识别模型参数进行声纹识别时，匹配成功后，进行分屏处理得到多个分屏窗口，各个所述分屏窗口分别进入该识别模型参数对应的用户模式。这里提供一具体应用场景，多个用户同时或同一时间区间内对同一设备交互不同的指令信息时，需要进行分屏处理得到多个分屏窗口，各个所述分屏窗口分别进入该识别模型参数对应的用户模式，如家长看新闻，儿童看动画片等。这里还需要补充说明的是各个分屏窗口播放的声音可以通过用户设置进行调整。

基于预先建立的识别模型参数进行声纹识别，可直接进入相应的用户模式，执行指令信息，使得交互过程更加顺畅和个性化，适于在语音交互领域广泛推广。

此外本领域技术人员应该理解的是，为防止对其他设备进行误操作或误唤醒，还可以加设人声识别和设备识别。这里需要注意的是，如果是电视等家用设备，则一般不需要加设语音信息进行人声识别。

本公开还提供了一种语音交互装置，采集语音信号，进行语音处理后得到指令信息，并执行相应操作；所述语音交互装置包括：语音采集模块和语音处理模块。下面对各个模块进行详细说明。

语音采集模块，用于采集语音信号，并对语音信号进行信号处理后转换为数字信号。具体包括麦克风阵列和信号处理子模块。其中，

麦克风阵列，用于采集语音信号；所述麦克风阵列包括多个麦克风组，每个麦克风组包括两个麦克风；所述麦克风阵列为环形、矩形或线形中的任意一种或多种。

本公开还提供了一种机顶盒，所述机顶盒与其他智能设备无线通信相连；所述机顶盒包括如上述的语音交互装置。

在本公开的一个具体实施例中，如图2所示，提供了一种具有语音交互功能的OTT机顶盒。包括：语音采集模块和语音处理模块。语音采集模块中具体包括麦克风阵列和信号处理子模块。其中麦克风阵列通过PDM或I2S数据接口与机顶盒主板相连，麦克风阵列包括多个麦克风组，每个麦克风组包括两个麦克风，两个麦克风分别在时钟的高电平和低电平期间进行数据传输。语音处理模块，用于接收语音采集模块发送的数字信号，对数字信号进行语音处理得到指令信息，并执行指令信息相应的操作。

用户在使用时，对机顶盒发送语音信息，机顶盒接受用户语音唤醒信息，并对语音信息进行处理，判断是否唤醒机顶盒。这里为语音预识别。机顶盒唤醒后，接收用户指令信息。对接收的指令信息进行声纹识别，根据识别结果控制机顶盒进入相应用户模式，在不同的模式中，自动设置不同的音量、显示亮度、喜爱节目等。关于语音预识别及声纹识别的方式，可以包括基于识别模型参数进行或基于关键词进行两种形式，这里提供一种最优实施例具体说明如下。

基于关键词进行语音预识别。具体包括：内置多个关键词；识别到相应的关键词后，自动进入该关键词对应的用户模式。

基于识别模型参数进行声纹识别。具体包括：预先建立识别模型参数；根据接收到的数字信号，进行识别模型参数匹配；匹配成功，自动进入该识别模型参数对应的用户模式。进一步说明，预先建立识别模型参数时具体包括：录入用户的声音，进行训练和学习；根据训练和学习的结果，存储识别模型参数。

本公开还可进行智能设备联动，包括：将指令信息无线传输至执行设备进行处理。以下提供两个具体应用场景：

场景一：用于婴儿监护，将机顶盒放于婴儿房内，用于婴儿睡眠监护，当采集到婴儿哭声信号时，唤醒机顶盒，机顶盒可根据预设的处理模式，发送给父母的手机，或者手环设备，提示用户；机顶盒还可以接收用户手机等设备通过网络或蓝牙等发送的执行指令，如播放摇篮曲等。

场景二：当用户家里有陌生人进入时；根据陌生人发出的声音，判断为非法声音，向用户手机或者手环发送报警信息；

或者判断为非法声音时，启用家中摄像设备，机顶盒同步开始录音；还可以联动进一步进行判断是否非法，如果非法则直接报警或者向用户设备发送报警信息。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

依据以上描述，本领域技术人员应当对本公开语音交互方法、装置及机顶盒有了清楚的认识。

综上所述，本公开提供一种语音交互方法、装置及机顶盒，可有效提高用户智能化体验。可广泛应用于智能设备、智能家庭、语音交互等领域。

再者，单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。

说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词，以修饰相应的元件，其本身并不意味着该元件有任何的序数，也不代表某一元件与另一元件的顺序、或是制造方法上的顺序，该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种语音交互方法，其中，所述语音交互方法用于机顶盒，所述语音交互方法包括：

接收指令信息，进行唤醒处理；

对接收到的指令信息进行声纹识别，执行所述指令信息相应的操作。

2.根据权利要求1所述的语音交互方法，其中，获取语音信号，对所获取语音信号进行信号处理，得到指令信息中包括：

获取语音信号，对数字信号进行消直流处理；

接收消直流处理后的数字信号，并进行滤波降噪处理；

3.根据权利要求1所述的语音交互方法，其中，接收指令信息，进行唤醒处理包括：

经语音预识别，识别出所述指令信息，则执行所述指令；

4.根据权利要求1所述的语音交互方法，其中，接收指令信息，唤醒处理包括：

接收指令信息，判断指令信息是否符合唤醒条件，

指令信息不满足唤醒条件，则重新接收新的指令信息；

5.根据权利要求1所述的语音交互方法，其中，对接收到的指令信息进行声纹识别后，执行所述指令信息相应的操作前还包括：进入与声纹识别的结果相对应的用户模式。

6.根据权利要求5所述的语音交互方法，其中，所述声纹识别基于识别模型参数进行，包括：

预先建立识别模型参数；包括：

录入用户的声音，进行训练和学习；

根据训练和学习的结果，存储识别模型参数；

根据接收到的数字信号，进行识别模型参数匹配；

匹配成功，自动进入该识别模型参数对应的用户模式。

7.根据权利要求6所述的语音交互方法，其中，多个用户基于识别模型参数进行声纹识别，匹配成功后，进行分屏处理得到多个分屏窗口，各个所述分屏窗口分别进入该识别模型参数对应的用户模式。

8.根据权利要求3所述的语音交互方法，其中，

所述语音预识别基于关键词进行，包括：

识别到相应的关键词后，执行所述指令。

9.一种语音交互装置，其中，语音交互装置采集语音信号，进行语音处理后得到指令信息，并执行相应操作，所述语音交互装置包括：

语音处理模块，用于接收语音采集模块发送的数字信号，对数字信号进行语音处理得到指令信息，并执行指令信息相应的操作；所述语音处理模块包括：声纹识别处理子模块和语音唤醒处理子模块中的一个或多个。

10.根据权利要求9所述的语音交互装置，其中，所述语音采集模块包括：

11.一种机顶盒，其中，所述机顶盒与智能设备无线通信相连；所述机顶盒包括如权利要求9或10所述的语音交互装置。