CN108917283A

CN108917283A - 一种智能冰箱控制方法、***、智能冰箱和云端服务器

Info

Publication number: CN108917283A
Application number: CN201810763475.4A
Authority: CN
Inventors: 文俊
Original assignee: Sichuan Hongmei Intelligent Technology Co Ltd
Current assignee: Sichuan Hongmei Intelligent Technology Co Ltd
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2018-11-30

Abstract

本发明提供了一种智能冰箱控制方法、***、智能冰箱和云端服务器，应用于智能冰箱的方法，包括：接收用户输入的携带语音指令的语音信号；将所述语音信号转换为数字信号；从所述数字信号中提取出语音特征序列；将所述语音特征序列发送给外部云端服务器；接收并解析所述外部云端服务器根据所述语音特征序列发送的语义表示；按照解析后的所述语义表示执行操作。本方案能够提高用户使用体验。

Description

一种智能冰箱控制方法、***、智能冰箱和云端服务器

技术领域

本发明涉及智能家居技术领域，特别涉及一种智能冰箱控制方法、***、智能冰箱和云端服务器。

背景技术

随着移动互联网和人工智能的发展，智能家电已步入人们的生活，改变了人们的生活方式。冰箱作为家电领域的重要组成部分，必然向着智能方向发展。目前市场上的智能冰箱大多集成有冰箱控制功能、食材管理功能、菜谱搜索功能、影音功能等，而人们与冰箱上这些功能的交互方式显得尤为重要。

目前，用户与冰箱之间的语音交互多基于离线语音识别技术实现，即在冰箱本地存储语音命令词，语音识别在冰箱本地进行。

但是，由于智能冰箱本地存储能力有限，所以存储在智能冰箱本地的离线命令词数量受限。因此，离线语音识别针对某一功能的命令词固定单一，这要求用户说出的语音指令必须存在于本地的离线命令词中，否则不能被识别，从而导致用户使用体验差。

发明内容

本发明实施例提供了一种智能冰箱控制方法、***、智能冰箱和云端服务器，能够提高用户使用体验。

本发明实施例提供了一种智能冰箱控制方法，应用于智能冰箱，包括：

接收用户输入的携带语音指令的语音信号；

将所述语音信号转换为数字信号；

从所述数字信号中提取出语音特征序列；

将所述语音特征序列发送给外部云端服务器；

接收并解析所述外部云端服务器根据所述语音特征序列发送的语义表示；

按照解析后的所述语义表示执行操作。

优选地，在所述将所述语音信号转换为数字信号之后，在所述从所述数字信号中提取出语音特征序列之前，进一步包括：

按照预设的帧长和时间顺序，将所述数字信号划分为至少两帧数字信号；

从划分的每一帧数字信号中，检测作为所述语音指令的起始点的起始数字信号和作为所述语音指令的终止点的终止数字信号；

所述从所述数字信号中提取出语音特征序列，包括：

按照所述时间顺序，依次从所述起始数字信号至所述终止数字信号中的每一帧数字信号中提取出特征参数，并形成语音特征序列。

优选地，所述从划分的每一帧数字信号中，检测作为所述语音指令的起始点的起始数字信号和作为所述语音指令的终止点的终止数字信号，包括：

确定每一帧数字信号的短时能量值和过零率值；

将所述时间顺序的第一帧数字信号作为当前数字信号，执行：

S0：确定所述当前数字信号的所述短时能量值是否大于等于预设的第一能量阈值，如果是，执行S1，否则，执行S5；

S1：确定所述当前数字信号的所述过零率值是否大于等于预设的第一过零率阈值，如果是，确定所述当前数字信号作为所述语音指令的起始点的起始数字信号，并执行S2和S3，否则，执行S2和S0；

S2：按照所述时间顺序，将所述当前数字信号的下一帧数字信号作为当前数字信号；

S3：确定所述当前数字信号的所述短时能量值是否小于预设的第二能量阈值，如果是，执行S4，否则，执行S2和S3；

S4：确定所述当前数字信号的所述过零率值是否小于预设的第二过零率阈值，如果是，确定所述当前数字信号作为所述语音指令的终止点的终止数字信号，否则，执行S2和S3。

优选地，所述确定每一帧数字信号的短时能量值和过零率值，包括：

利用下述第一公式确定每一帧数字信号的短时能量值：

第一公式：

其中，X_i(m)表征传入值为m时的第i帧数字信号，E_i表征X_i(m)的短时能量值，N表征所述帧长；

利用下述第二公式确定每一帧数字信号的过零率值：

第二公式：

其中，sgn[]为符号函数，即：

其中，X_i(m)表征传入值为m时的第i帧数字信号，L_i表征X_i(m)的过零率值，N表征所述帧长。

优选地，在所述将所述语音信号转换为数字信号之后，进一步包括：

增强所述数字信号中的高频分量；

则，

所述从所述数字信号中提取出语音特征序列，包括：

从增强高频分量后的所述数字信号中提取出语音特征序列。

优选地，所述接收并解析所述外部云端服务器根据所述语音特征序列发送的语义表示，包括：

接收所述外部云端服务器根据语音特征序列发送的JavaScript对象简谱JSON数据包；

解析所述JSON数据包，获取所述JSON数据包中的语义表示。

优选地，在所述接收用户输入的携带语音指令的语音信号之后，在所述将所述语音信号转换为数字信号之前，进一步包括：

去除所述语音信号中的干扰信号，其中，所述干扰信号，包括：噪声信号和/或回声信号；

则，

所述将所述语音信号转换为数字信号，包括：

将去除干扰信号后的所述语音信号转换为数字信号。

第二方面，本发明实施例提供了一种智能冰箱控制方法，应用于云端服务器，包括：

预先存储至少一个命令词和至少一个语音模板，其中，所述语音模板，包括：至少一个所述命令词对应的至少一个语音特征参数；

接收外部智能冰箱发送的语音特征序列；

判断存储的所述语音模板中，是否存在对应于所述语音特征序列的近似模板；

如果是，从存储的所述命令词中确定所述近似模板对应的控制命令词；

分析所述控制命令词的语义，并获取所述控制命令词的语义表示，其中，所述语义表示，包括：所述控制命令词对应的领域、意图和词槽；

将所述语义表示发送给所述外部智能冰箱。

优选地，所述判断存储的所述语音模板中，是否存在对应于所述语音特征序列的近似模板，包括：

D0：确定未处理结合，将预设的模板顺序中的第一个语音模板作为当前语音模板，其中，所述未处理结合中包括至少一个所述语音模板；

D1：检测所述语音特征序列与所述当前语音模板的相似度，并将所述当前语音模板从所述未处理集合删除，执行D2；

D2：判断所述未处理集合中的语音模板的数量是否为0，如果是，执行D3，否则将所述模板顺序中所述当前语音模板的下一个语音模板作为当前语音模板，返回D1；

D3：确定与所述语音特征序列相似度最高的语音模板为近似模板，并执行所述从存储的所述命令词中确定所述近似模板对应的控制命令词。

优选地，所述将所述语义表示发送给所述外部智能冰箱，包括：

将所述语义表示封装为JSON数据包；

将所述JSON数据包发送给所述外部智能冰箱。

第三方面，本发明实施例提供了一种智能冰箱，包括：

通信处理单元，用于接收用户输入的携带语音指令的语音信号；将特征提取单元提取的所述语音特征序列发送给外部云端服务器；接收并解析所述外部云端服务器根据特征提取单元提取的所述语音特征序列发送的语义表示；

信号处理单元，用于将所述通信处理单元接收的所述语音信号转换为数字信号；

所述特征提取单元，用于从所述信号处理单元转换的所述数字信号中提取出语音特征序列；

控制单元，用于按照所述通信处理单元解析后的所述语义表示执行操作。

第四方面，本发明实施例提供了一种云端服务器，包括：

云端存储单元，用于预先存储至少一个命令词和所述至少一个命令词对应的语音模板，其中，所述语音模板包括所述命令词对应的语音特征参数；

云端交互单元，用于接收外部智能冰箱发送的语音特征序列；将云端处理单元获取的所述语义表示发送给所述外部智能冰箱；

所述云端处理单元，用于判断所述云端存储单元存储的所述语音模板中，是否存在对应于所述云端交互单元接收的所述语音特征序列的近似模板；如果是，从存储的所述命令词中确定所述近似模板对应的控制命令词；分析所述控制命令词的语义，并获取所述控制命令词的语义表示，其中，所述语义表示，包括：所述控制命令词对应的领域、意图和词槽。

第五方面，本发明实施例提供了一种智能冰箱控制***，包括：至少一个第三方面所述的智能冰箱和第四方面所述的云端服务器。

在本发明实施例中，智能冰箱在接收到携带语音指令的语音信号后无需进行语音识别，只需对语音信号进行预处理，即将语音信号转换为数字信号、以及从数字信号中提取出语音指令的语音特征序列，即可将语音特征序列发送给外部云端服务器处理，在接收到外部云端服务器发送的语义表示后，按照语义表示即可执行语音指令对应的执行操作，而智能冰箱无需在本地存储各个离线命令词，因此，不仅可以降低智能冰箱CPU和内存占用率，还可以避免因智能冰箱本地存储能力有限使得某一功能的命令词固定单一，导致的语音指令不在离线命令词中而不能被识别的情况，从而可以提高用户使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种智能冰箱控制方法的流程图；

图2是本发明一实施例提供的另一种智能冰箱控制方法的流程图；

图3是本发明一实施例提供的一种智能冰箱的结构示意图；

图4是本发明一实施例提供的一种云端服务器的结构示意图；

图5是本发明一实施例提供的一种智能冰箱控制***的结构示意图；

图6是本发明一实施例提供的另一种智能冰箱控制***的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种智能冰箱控制方法，应用于智能冰箱，包括：

步骤101：接收用户输入的携带语音指令的语音信号；

步骤102：将所述语音信号转换为数字信号；

步骤103：从所述数字信号中提取出语音特征序列；

步骤104：将所述语音特征序列发送给外部云端服务器；

步骤105：接收并解析所述外部云端服务器根据所述语音特征序列发送的语义表示；

步骤106：按照解析后的所述语义表示执行操作。

在本发明一实施例中，在所述将所述语音信号转换为数字信号之后，在所述从所述数字信号中提取出语音特征序列之前，进一步包括：

所述从所述数字信号中提取出语音特征序列，包括：

在本发明实施例中，智能冰箱按照预设的帧长和时间顺序，对数字信号进行分帧处理，可以避免数字信号的数据量过大而增加处理难度。而确定语音指令的起始点和终止点，不仅能在语音识别中减少数据的采集量，节约处理时间，还能排除无声段或噪音段的干扰，提高语音识别的性能。

在本发明一实施例中，所述从划分的每一帧数字信号中，检测作为所述语音指令的起始点的起始数字信号和作为所述语音指令的终止点的终止数字信号，包括：

确定每一帧数字信号的短时能量值和过零率值；

在本发明实施例中，智能冰箱通过确定每一帧数字信号的短时能量值和过零率值，可以将短时能量和过零率的优点相结合，用短时能量来检测数字信号中能量谱比较大的浊音，用过零率来区分清音和噪音，进而确定出语音指令的起始点和终止点，以使从起始点至终止点的每一帧数字信号中提取出语音特征序列，在减少数据的采集量、节约处理时间的同时，还能排除无声段或噪音段的干扰，提高语音识别的性能。

在本发明一实施例中，所述确定每一帧数字信号的短时能量值和过零率值，包括：

利用下述第一公式确定每一帧数字信号的短时能量值：

第一公式：

利用下述第二公式确定每一帧数字信号的过零率值：

第二公式：

其中，sgn[]为符号函数，即：

在本发明实施例中，智能冰箱通过在上述第一公式中和第二公式中录入对应的传入值m，即可确定出每一帧数字信号的短时能量值和过零率值，再通过各帧数字信号的短时能量值和过零率值，即可确定出语音指令的起止点，以使根据起止点从每一帧数字信号中确定出所需的数字信号。

为了提高语音识别的准确度，在本发明一实施例中，在所述将所述语音信号转换为数字信号之后，进一步包括：

增强所述数字信号中的高频分量；

则，

所述从所述数字信号中提取出语音特征序列，包括：

从增强高频分量后的所述数字信号中提取出语音特征序列。

在本发明实施例中，智能冰箱通过增强数字信号中的高频分量，即对数字信号进行预处理，以使数字信号的频谱变得平坦，移除频谱倾斜，来补偿数字信号受到发音***所抑制的高频部分，有助于提高数字信号的信噪比，以及去除生门激励和口鼻辐射的影响。

在本发明一实施例中，所述接收并解析所述外部云端服务器根据所述语音特征序列发送的语义表示，包括：

解析所述JSON数据包，获取所述JSON数据包中的语义表示。

在本发明实施例中，智能冰箱在接收到外部云端服务器发送的JSON数据包后，即可解析JSON数据包，并获取JSON数据包中语音指令对应的语义表示，以使按照语义表示执行操作。而外部云端服务器将语义表示封装成JSON数据包，不仅便于语义表示的传输，还便于智能冰箱的读取与解析。

在本发明一实施例中，在所述接收用户输入的携带语音指令的语音信号之后，在所述将所述语音信号转换为数字信号之前，进一步包括：

则，

所述将所述语音信号转换为数字信号，包括：

将去除干扰信号后的所述语音信号转换为数字信号。

在本发明实施例中，智能冰箱在接收到语音信号之后，需要利用麦克风阵列进行降噪处理和消除回声信号，以及过滤掉背景噪声，以使去掉语音信号中的干扰，使得语音信号中的语音命令识别更加准确。

如图2所示，本发明实施例提供了一种智能冰箱控制方法，应用于云端服务器，包括：

步骤201：预先存储至少一个命令词和至少一个语音模板，其中，所述语音模板，包括：至少一个所述命令词对应的至少一个语音特征参数；

步骤202：接收外部智能冰箱发送的语音特征序列；

步骤203：判断存储的所述语音模板中，是否存在对应于所述语音特征序列的近似模板；

步骤204：如果是，从存储的所述命令词中确定所述近似模板对应的控制命令词；

步骤205：分析所述控制命令词的语义，并获取所述控制命令词的语义表示，其中，所述语义表示，包括：所述控制命令词对应的领域、意图和词槽；

步骤206：将所述语义表示发送给所述外部智能冰箱。

在本发明实施例中，云端服务器通过预先存储至少一个命令词和至少一个命令词对应的语音模板，可以使得外部智能冰箱在接收到语音信号后无需进行语音识别，而是由云端服务器识别，从而可以减少外部智能冰箱CPU和内存的消耗；而云端服务器在接收到外部智能冰箱发送的语音特征序列后，可根据存储的各个语音模板确定对应于语音特征序列的近似模板，再根据近似模板即可确定出语音特征序列对应的控制命令词，再将控制命令词的语义表示发送给外部智能冰箱，外部智能冰箱即可按照语义表示执行操作。综上可见，由云端服务器对数字信号进行处理，可以避免因外部智能冰箱本地存储能力有限使得某一功能的命令词固定单一，导致的语音指令不在离线命令词中而不能被识别的情况，从而可以提高用户使用体验。

在本发明一实施例中，所述判断存储的所述语音模板中，是否存在对应于所述语音特征序列的近似模板，包括：

在本发明实施例中，云端服务器在确定对应于语音特征序列的近似模板时，需要检测语音特征序列与每一个语音模板的相似度，以使确定出与语音特征序列相似度最高的近似模板，再确定近似模板对应的控制命令词，即可得出识别结果。

在本发明一实施例中，所述将所述语义表示发送给所述外部智能冰箱，包括：

将所述语义表示封装为JSON数据包；

将所述JSON数据包发送给所述外部智能冰箱。

在本发明实施例中，云端服务器在获取到控制命令词的语义表示后，不是将语义表示直接发送给外部智能冰箱，而是需要将语义表示封装成JSON数据包返回给智能冰箱，以便于语义表示的传输，还便于外部智能冰箱的读取与解析。

如图3所示，本发明实施例提供了一种智能冰箱，包括：

通信处理单元301，用于接收用户输入的携带语音指令的语音信号；将特征提取单元303提取的所述语音特征序列发送给外部云端服务器；接收并解析所述外部云端服务器根据特征提取单元提取的所述语音特征序列发送的语义表示；

信号处理单元302，用于将所述通信处理单元301接收的所述语音信号转换为数字信号；

所述特征提取单元303，用于从所述信号处理单元302转换的所述数字信号中提取出语音特征序列；

控制单元304，用于按照所述通信处理单元301解析后的所述语义表示执行操作。

在本发明实施例中，通信处理单元在接收到携带语音指令的语音信号后无需进行语音识别，只需对语音信号进行预处理，即通过信号处理单元将语音信号转换为数字信号、以及通过特征提取单元从数字信号中提取出语音指令的语音特征序列，通信处理单元即可将语音特征序列发送给外部云端服务器处理，以使控制单元在通信处理单元接收到外部云端服务器发送的语义表示后，按照语义表示即可执行语音指令对应的执行操作，而智能冰箱无需在本地存储各个离线命令词，因此，不仅可以降低智能冰箱CPU和内存占用率，还可以避免因智能冰箱本地存储能力有限使得某一功能的命令词固定单一，导致的语音指令不在离线命令词中而不能被识别的情况，从而可以提高用户使用体验。

在本发明一实施例中，所述信号处理单元，进一步用于按照预设的帧长和时间顺序，将所述数字信号划分为至少两帧数字信号；从划分的每一帧数字信号中，检测作为所述语音指令的起始点的起始数字信号和作为所述语音指令的终止点的终止数字信号；

所述特征提取单元，用于按照所述时间顺序，依次从所述起始数字信号至所述终止数字信号中的每一帧数字信号中提取出特征参数，并形成语音特征序列。

在本发明一实施例中，所述信号处理单元，用于确定每一帧数字信号的短时能量值和过零率值；

在本发明一实施例中，所述信号处理单元，用于利用下述第一公式确定每一帧数字信号的短时能量值：

第一公式：

利用下述第二公式确定每一帧数字信号的过零率值：

第二公式：

其中，sgn[]为符号函数，即：

在本发明一实施例中，所述信号处理单元，进一步用于增强所述数字信号中的高频分量；

所述特征提取单元，用于从增强高频分量后的所述数字信号中提取出语音特征序列。

在本发明一实施例中，所述通信处理单元，用于接收所述外部云端服务器根据语音特征序列发送的JavaScript对象简谱JSON数据包；解析所述JSON数据包，获取所述JSON数据包中的语义表示。

在本发明一实施例中，所述信号处理单元，进一步用于去除所述语音信号中的干扰信号，其中，所述干扰信号，包括：噪声信号和/或回声信号；将去除干扰信号后的所述语音信号转换为数字信号。

如图4所示，本发明实施例提供了一种云端服务器，包括：

云端存储单元401，用于预先存储至少一个命令词和所述至少一个命令词对应的语音模板，其中，所述语音模板包括所述命令词对应的语音特征参数；

云端交互单元402，用于接收外部智能冰箱发送的语音特征序列；将云端处理单元403获取的所述语义表示发送给所述外部智能冰箱；

所述云端处理单元403，用于判断所述云端存储单元401存储的所述语音模板中，是否存在对应于所述云端交互单元402接收的所述语音特征序列的近似模板；如果是，从存储的所述命令词中确定所述近似模板对应的控制命令词；分析所述控制命令词的语义，并获取所述控制命令词的语义表示，其中，所述语义表示，包括：所述控制命令词对应的领域、意图和词槽。

在本发明实施例中，通过云端存储单元预先存储至少一个命令词和至少一个命令词对应的语音模板，可以使得外部智能冰箱在接收到语音信号后无需进行语音识别，而是由云端处理单元识别，从而可以减少外部智能冰箱CPU和内存的消耗；而云端交互单元在接收到外部智能冰箱发送的语音特征序列后，云端处理单元可根据云端存储单元存储的各个语音模板确定对应于语音特征序列的近似模板，再根据近似模板即可确定出语音特征序列对应的控制命令词，再通过云端交互单元将控制命令词的语义表示发送给外部智能冰箱，外部智能冰箱即可按照语义表示执行操作。综上可见，由云端服务器对语音信号进行处理，可以避免因外部智能冰箱本地存储能力有限使得某一功能的命令词固定单一，导致的语音指令不在离线命令词中而不能被识别的情况，从而可以提高用户使用体验。

如图5所示，本发明实施例提供了一种智能冰箱控制***，包括：至少一个图3中所述的智能冰箱501和图4中所述的云端服务器502。

在本发明实施例中，通过云端服务器预先存储至少一个命令词和至少一个命令词对应的语音模板，可以使得智能冰箱在接收到语音信号后无需进行语音识别，而是由云端服务器识别，从而可以减少智能冰箱CPU和内存的消耗；而云端服务器在获得语音指令的意图后，即获取相应的语义表示，再将语义表示发送给智能冰箱，智能冰箱即可按照语义表示执行相应的操作过程。而无需智能冰箱在本地各个离线命令词，因此，不仅可以降低智能冰箱CPU和内存占用率，还可以避免因智能冰箱本地存储能力有限使得某一功能的命令词固定单一，导致的语音指令不在离线命令词中而不能被识别的情况，从而可以提高用户使用体验。

为了更加清楚的说明本发明的技术方案及优点，下面以语音指令为“搜索刘某的忘情水”、云端服务器预先存储的命令词为“搜索”、“刘某”、“忘情水”、“烧茄子”、“做法”，以及带有命令词为“搜索”、“刘某”、“忘情水”语音特征参数的语音模板A和带有命令词为“搜索”、“烧茄子”、“做法”语音特征参数的语音模板B为例，对本发明实施例提供的一种智能冰箱控制***进行详细说明，如图6所示，具体可以包括以下步骤：

步骤601，智能冰箱接收用户输入的携带语音指令为搜索刘某的忘情水的语音信号。

具体地，用户如需与智能冰箱交互，只需输入所要执行的语音指令，智能冰箱即可接收到用户输入的携带语音指令的语音信号。

举例来说，智能冰箱接收用户输入的携带语音指令为“搜索刘某的忘情水”的语音信号；

步骤602，智能冰箱去除语音信号中的干扰信号，其中，干扰信号，包括：噪声信号和/或回声信号。

具体地，在接收到语音信号后，需要对语音信号进行处理，即利用麦克风阵列降噪、消除回声，以及运用软件功能过滤掉背景噪音，以使提高语音识别的准确性。

举例来说，利用麦克风阵列去除噪声信号和回声信号，并利用预设的软件过滤点语音信号中的背景噪声。

步骤603，智能冰箱将去除干扰信号后的语音信号转换为数字信号。

举例来说，智能冰箱在利用麦克风阵列降噪、消除回声，以及运用软件功能过滤掉背景噪音后，需要进行模/数转换处理，即将语音信号转换为数字信号，以便于数字化处理。

举例来说，智能冰箱将语音信号转换为数字信号。

步骤604，智能冰箱按照预设的帧长和时间顺序，将数字信号划分为至少两帧数字信号。

具体地，智能冰箱在将语音信号转换为数字信号后，不是将数字信号直接发送给云端服务器，而是需要先对数字信号进行预处理，即对数字信号进行分帧处理，将数字信号分为至少两帧数字信号，避免数字信号的信息量过大而增加处理难度。

举例来说，按照时间顺序和预设的帧长为20ms，将时长为2s的数字信号划分为100帧数字信号。

步骤605，智能冰箱从划分的每一帧数字信号中，检测作为语音指令的起始点的起始数字信号和作为语音指令的终止点的终止数字信号。

具体地，智能冰箱在对数字信号进行分帧处理后，需要进行信号端点检测，即检测语音指令的起始点和终止点，以使降低语音识别中数据的采集量，节约处理时间，还可以排除无声段或噪声段的干扰，提高语音识别的性能。

即：

确定每一帧数字信号的短时能量值和过零率值，执行：

S0：智能冰箱确定当前数字信号的短时能量值是否大于等于预设的第一能量阈值，如果是，执行S1，否则，执行S5。

S1：智能冰箱确定当前数字信号的过零率值是否大于等于预设的第一过零率阈值，如果是，确定当前数字信号作为语音指令的起始点的起始数字信号，并执行S2和S3，否则，执行S2和S0。

S2：智能冰箱按照时间顺序，将当前数字信号的下一帧数字信号作为当前数字信号。

S3：智能冰箱确定当前数字信号的短时能量值是否小于预设的第二能量阈值，如果是，执行S4，否则，执行S2和S3。

S4：智能冰箱确定当前数字信号的过零率值是否小于预设的第二过零率阈值，如果是，确定当前数字信号作为语音指令的终止点的终止数字信号，否则，执行S2和S3。

举例来说，分别计算100帧数字信号的短时能量值和过零率值；

当第10帧数字信号的短时能量值大于等于预设的第一能量阈值，且过零率阈值大于等于预设的第一过零率阈值时，即可确定第10帧数字信号为语音指令的起始点；

当第90帧数字信号的短时能量值小于预设的第二能量阈值，且过零率阈值小于预设的第二过零率阈值时，确定第90帧数字信号为语音指令的终止点。

步骤606，智能冰箱增强从起始数字信号至终止数字信号中的每一帧数字信号中的高频分量。

具体地，智能冰箱在检测出语音指令的起止点后，还需要进行预加重处理，即增强数字信号中的语音高频部分，使语音信号频谱变的平坦，进而实现提高语音识别准确度的目的。

举例来说，增强从第10帧数字信号至第90帧数字信号中的每一帧数字信号的高频分量。

步骤607，智能冰箱按照时间顺序，从增强高频分量后的每一帧数字信号中提取出特征参数形成语音特征序列，并将语音特征序列发送给云端服务器。

具体地，在对语音信号进行预处理后，即利用麦克风阵列降噪、消除回声、过滤掉背影噪音、模/数转换、语音分帧、信号端点检测和预加重处理后，即可从数字信号中提取出随时间变化的语音特征序列，以使从语音信号中提取出对识别有用的信息，去掉无关的冗余信息，再将语音特征序列发送给云端服务器，云端服务器即可进行语音识别处理。

举例来说，按照时间顺序，从增强高频分量后的第10帧数字信号至第90帧数字信号中的每一帧数字信号中提取出特征参数，并形成语音特征序列，并将语音特征序列发送给云端服务器。

步骤608，云端服务器接收智能冰箱发送的语音特征序列。

具体地，云端服务器在接收到智能冰箱发送的语音特征序列后，即可进行语音识别。

步骤609，云端服务器分别语音特征序列与语音模板A和语音模板B的相似度，并确定与语音特征序列相似度最高的语音模板为相似模板。

具体地，云端服务器执行：

D0：确定包括语音模板A和语音模板B的未处理结合，将预设的模板顺序中的第一个语音模板作为当前语音模板；

D1：云端服务器检测语音特征序列与当前语音模板的相似度，并将当前语音模板从未处理集合删除。

D2：云端服务器判断未处理集合中的语音模板的数量是否为0，如果是，执行D3，否则将模板顺序中语音模板B作为当前语音模板，返回D1。

D3：云端服务器确定与语音特征序列相似度最高的语音模板为近似模板，并执行所述从存储的所述命令词中确定所述近似模板对应的控制命令词。

综上可见，云端服务器通过检测语音特征序列与每一个语音模板的相似度，可以根据相似度确定与语音特征序列的对应的语音模板为近似模板，以使根据近似模板完成语音识别。

举例来说，预设的模板顺序为语音模板A、语音模板B；

云端服务器确定包括语音模板A和语音模板B的未处理结合，并按照模板顺序将语音模板A作为当前语音模板；

云端服务器检测语音特征序列与语音模板A的相似度为99％；

检测语音特征序列与语音模板A的相似度为0；

根据相似度可以确定语音模板A为相似模板。

步骤610，云端服务器从存储的命令词中确定近似模板对应的控制命令词。

具体地，云端服务器在确定出近似模板后，即可确定近似模板对应的各个命令词，即确定控制命令词，以使根据控制命令词完成语音识别。

举例来说，语音模板A对应的命令词为“搜索”、“刘某”、“忘情水”；

因此控制命令词为“搜索刘某忘情水”。

步骤611，云端服务器分析控制命令词的语义，并获取控制命令词的语义表示，其中，语义表示，包括：控制命令词对应的领域、意图和词槽。

具体地，云端服务器在确定出控制命令词后，需要进行语义理解，即通过语法、语义、语用的分析，确定领域、意图、和词槽，以使获取控制命令词的语义表示。

举例来说，云端服务器确定控制命令词“搜索刘某忘情水”的领域为“音乐”、意图为“搜索音乐”词槽为“刘某”和“忘情水”。

步骤612，云端服务器将语义表示封装为JSON数据包，并将JSON数据包发送给智能冰箱。

具体地，在确定出控制命令词的语义表示后，即可对语义表示封装为JSON数据包，以便于数据的传输，以及智能冰箱的读取与解析。

举例来说，云端服务器，将领域为“音乐”、意图为“搜索音乐”词槽为“刘某”和“忘情水”封装为JSON数据包，并将JSON数据包发送给智能冰箱。

步骤613，智能冰箱接收云端服务器发送的JSON数据包，解析并获取JSON数据包中的语义表示。

具体地，智能冰箱在接收到云端服务器发送的JSON数据包，经过解析即可分析出用户语音指令的意图，即获取JSON数据包的语义表示。

举例来说，智能冰箱接收云端服务器发送的JSON数据包，解析并获取领域为“音乐”、意图为“搜索音乐”词槽为“刘某”和“忘情水”的语义表示。

步骤614，智能冰箱按照获取的语义表示执行操作。

具体地，智能冰箱在获取到JSON数据包中的语义表示后，即可按照语义表示执行相应的操作过程。

举例来说，智能冰箱按照按照语义表示，执行搜索刘某的忘情水。

本发明各个实施例至少具有如下有益效果：

1、在本发明一实施例中，智能冰箱在接收到携带语音指令的语音信号后无需进行语音识别，只需对语音信号进行预处理，即将语音信号转换为数字信号、以及从数字信号中提取出语音指令的语音特征序列，即可将语音特征序列发送给外部云端服务器处理，在接收到外部云端服务器发送的语义表示后，按照语义表示即可执行语音指令对应的执行操作，而智能冰箱无需在本地存储各个离线命令词，因此，不仅可以降低智能冰箱CPU和内存占用率，还可以避免因智能冰箱本地存储能力有限使得某一功能的命令词固定单一，导致的语音指令不在离线命令词中而不能被识别的情况，从而可以提高用户使用体验。

2、在本发明一实施例中，智能冰箱按照预设的帧长和时间顺序，对数字信号进行分帧处理，可以避免数字信号的数据量过大而增加处理难度。而确定语音指令的起始点和终止点，不仅能在语音识别中减少数据的采集量，节约处理时间，还能排除无声段或噪音段的干扰，提高语音识别的性能。

3、在本发明一实施例中，智能冰箱通过确定每一帧数字信号的短时能量值和过零率值，可以将短时能量和过零率的优点相结合，用短时能量来检测数字信号中能量谱比较大的浊音，用过零率来区分清音和噪音，进而确定出语音指令的起始点和终止点，以使从起始点至终止点的每一帧数字信号中提取出语音特征序列，在减少数据的采集量、节约处理时间的同时，还能排除无声段或噪音段的干扰，提高语音识别的性能。

4、在本发明一实施例中，智能冰箱通过增强数字信号中的高频分量，即对数字信号进行预处理，以使数字信号的频谱变得平坦，移除频谱倾斜，来补偿数字信号受到发音***所抑制的高频部分，有助于提高数字信号的信噪比，以及去除生门激励和口鼻辐射的影响。

5、在本发明一实施例中，智能冰箱在接收到语音信号之后，需要利用麦克风阵列进行降噪处理和消除回声信号，以及过滤掉背景噪声，以使去掉语音信号中的干扰，使得语音信号中的语音命令识别更加准确。

6、在本发明一实施例中，云端服务器通过预先存储至少一个命令词和至少一个命令词对应的语音模板，可以使得外部智能冰箱在接收到语音信号后无需进行语音识别，而是由云端服务器识别，从而可以减少外部智能冰箱CPU和内存的消耗；而云端服务器在接收到外部智能冰箱发送的语音特征序列后，可根据存储的各个语音模板确定对应于语音特征序列的近似模板，再根据近似模板即可确定出语音特征序列对应的控制命令词，再将控制命令词的语义表示发送给外部智能冰箱，外部智能冰箱即可按照语义表示执行操作。综上可见，由云端服务器对数字信号进行处理，可以避免因外部智能冰箱本地存储能力有限使得某一功能的命令词固定单一，导致的语音指令不在离线命令词中而不能被识别的情况，从而可以提高用户使用体验。

7、在本发明一实施例中，云端服务器在获取到控制命令词的语义表示后，不是将语义表示直接发送给外部智能冰箱，而是需要将语义表示封装成JSON数据包返回给智能冰箱，以便于语义表示的传输，还便于外部智能冰箱的读取与解析。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个〃····〃”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种智能冰箱控制方法，其特征在于，应用于智能冰箱，包括：

接收用户输入的携带语音指令的语音信号；

将所述语音信号转换为数字信号；

从所述数字信号中提取出语音特征序列；

将所述语音特征序列发送给外部云端服务器；

按照解析后的所述语义表示执行操作。

2.根据权利要求1所述的方法，其特征在于，

在所述将所述语音信号转换为数字信号之后，在所述从所述数字信号中提取出语音特征序列之前，进一步包括：

所述从所述数字信号中提取出语音特征序列，包括：

3.根据权利要求2所述的方法，其特征在于，

所述从划分的每一帧数字信号中，检测作为所述语音指令的起始点的起始数字信号和作为所述语音指令的终止点的终止数字信号，包括：

确定每一帧数字信号的短时能量值和过零率值；

4.根据权利要求3所述的方法，其特征在于，

所述确定每一帧数字信号的短时能量值和过零率值，包括：

利用下述第一公式确定每一帧数字信号的短时能量值：

第一公式：

利用下述第二公式确定每一帧数字信号的过零率值：

第二公式：

其中，sgn[]为符号函数，即：

5.根据权利要求1至4中任一所述的方法，其特征在于，

在所述将所述语音信号转换为数字信号之后，进一步包括：

增强所述数字信号中的高频分量；

则，

所述从所述数字信号中提取出语音特征序列，包括：

从增强高频分量后的所述数字信号中提取出语音特征序列；

和/或

所述接收并解析所述外部云端服务器根据所述语音特征序列发送的语义表示，包括：

解析所述JSON数据包，获取所述JSON数据包中的语义表示；

和/或

在所述接收用户输入的携带语音指令的语音信号之后，在所述将所述语音信号转换为数字信号之前，进一步包括：

则，

所述将所述语音信号转换为数字信号，包括：

将去除干扰信号后的所述语音信号转换为数字信号。

6.一种智能冰箱控制方法，其特征在于，应用于云端服务器，包括：

接收外部智能冰箱发送的语音特征序列；

将所述语义表示发送给所述外部智能冰箱。

7.根据权利要求6所述的方法，其特征在于，

所述判断存储的所述语音模板中，是否存在对应于所述语音特征序列的近似模板，包括：

D3：确定与所述语音特征序列相似度最高的语音模板为近似模板，并执行所述从存储的所述命令词中确定所述近似模板对应的控制命令词；

和/或

所述将所述语义表示发送给所述外部智能冰箱，包括：

将所述语义表示封装为JSON数据包；

将所述JSON数据包发送给所述外部智能冰箱。

8.一种智能冰箱，其特征在于，包括：

9.一种云端服务器，其特征在于，包括：

10.一种智能冰箱控制***，其特征在于，包括：至少一个权利要求8所述的智能冰箱和权利要求9所述的云端服务器。