CN112543390B

CN112543390B - 一种幼儿智能音箱及其交互方法

Info

Publication number: CN112543390B
Application number: CN202011336049.6A
Authority: CN
Inventors: 岳莉亚; 胡沛; 韩璞; 韩凌; 杨植森
Original assignee: Nanyang Institute of Technology
Current assignee: Nanyang Institute of Technology
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2023-03-24
Anticipated expiration: 2040-11-25
Also published as: CN112543390A

Abstract

本发明提供了一种幼儿智能音箱及其交互方法，包括音箱本体，音箱本体内设置中央处理器、存储器和网络连接器，音箱本体的表面设置显示屏，中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块，存储器内设置存储模块，输出模块通过电路连接显示屏，智能控制模块电控连接语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块；语音采集模块用于成人语音信息的采集；幼儿声纹采集模块用于幼儿语音信号采集；唤醒模块用于语音唤醒智能音箱；输出模块用于响应用户指令，输出模块的输出内容包括声音和视频；智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加。

Description

一种幼儿智能音箱及其交互方法

技术领域

本发明涉及语音识别技术和人工智能技术领域，特别是一种幼儿智能音箱及其交互方法。

背景技术

随着人工智能技术的成熟和语音识别技术的发展，智能音箱已开始渗透到人们的日常生活当中。智能音箱不仅具备传统语音设备播放音频、视频功能，还具备了智能化、交互、控制等功能。目前市场流行的音箱具备了良好的交互性和智能性，但是对刚学会说话不久的幼儿体验效果差，比如唤醒词过长、不能正确识别幼儿指令等。

神经网络模拟人脑结构的思维功能，具有较强的自学习和联想功能，精度较高，人工干预少，对专家知识的利用也较少。典型的神经网络架构包含一个输入层、一个或多个隐藏层和一个输出层。元启发式算法由于能在多维搜索空间中找到全局解，在神经网络的参数训练中得到了广泛的应用。但是神经网络也存在着易陷入局部最优、精度低、学习速度慢等固有缺陷。现有智能音箱的处理器性能一般，数据处理能力差。

发明内容

本发明的目的是针对现有的技术存在上述问题，提出了一种通过改进算法优化神经网络参数，智能分辨成人唤醒或幼儿唤醒的幼儿智能音箱及其交互方法。

本发明的目的可通过下列技术方案来实现：幼儿智能音箱，包括音箱本体，所述音箱本体内设置中央处理器、存储器和网络连接器，所述音箱本体的表面设置显示屏，其特征在于，所述中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块，所述存储器内设置存储模块，所述输出模块通过电路连接所述显示屏，所述智能控制模块电控连接所述语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块；所述语音采集模块用于成人语音信息的采集，所述语音采集模块包含多个单人语音采集模块；所述幼儿声纹采集模块用于幼儿语音信号采集；所述唤醒模块用于语音唤醒智能音箱，所述唤醒模块包括成人唤醒模块和幼儿唤醒模块；所述存储模块用于存储成人语音识别信息、唤醒词、幼儿常用指令、幼儿历史浏览信息和缓存数据；所述输出模块用于响应用户指令，所述输出模块的输出内容包括声音和视频；所述智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加；网络连接器用于将智能设备连接互联网。

在上述的幼儿智能音箱中，多个所述单人语音采集模块具体包括第一成人管理员语音采集模块、第二成人管理员语音采集模块、第三成人管理员语音采集模块、第四成人管理员语音采集模块、第五成人管理员语音采集模块和第六成人管理员语音采集模块。

语音采集模块一共可以采集六个成年人(幼儿父母、爷爷奶奶、姥爷姥姥)的语音信息，并通过智能控制模块进行识别训练后，这六个成年人即可控制幼儿操纵智能音箱的权限。

幼儿智能音箱的交互方法，包括以下内容：

A、对成人语音识别的方法：

1)、输入成人样本语音；

2)、MFCC特征参数提取；

3)、构建神经网络模型；

4)、输入成人训练语音；

5)、MFCC特征参数提取；

6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练，其训练方法如下：

a、输入语音特征参数训练和测试数据；

b、归一化训练数据和测试数据；

c、构建神经网络；

d、调用compact灰狼算法；

e、将神经网络参数设置为训练好的参数；

f、通过归一化的训练数据构建神经网络；

g、神经网络预测并输出测试结果；

B、对幼儿语音识别的方法：

1)、输入幼儿样本语音；

2)、MFCC特征参数提取；

3)、构建神经网络模型；

4)、输入幼儿训练语音；

5)、MFCC特征参数提取；

a、输入语音特征参数训练和测试数据；

b、归一化训练数据和测试数据；

c、构建神经网络；

d、调用compact灰狼算法；

e、将神经网络参数设置为训练好的参数；

f、通过归一化的训练数据构建神经网络；

g、神经网络预测并输出测试结果。

在上述的幼儿智能音箱的交互中，compact灰狼算法，包括如下步骤：

1)、初始化相关参数，如最大迭代次数Max_iter＝500，位置上界ub＝1，位置下界lb＝0，随机生成灰狼位置Position；mu和sicma计算如式(1)和(2)所示：

mu＝zeros(3,dim)； (1)

sicma＝10*ones(3,dim)； (2)

mu和sicma表示高斯分布式的均值和方差，dim是搜索空间的维度，在此为优化的神经网络参数个数；

2)、初始化α，β，γ狼位置，计算如下式(3)-(5)：

Alpha_pos＝ub*generateIndividualR(mu(1),sicma(1))； (3)

Beta_pos＝ub*generateIndividualR(mu(2),sicma(2))； (4)

Delta_pos＝ub*generateIndividualR(mu(3),sicma(3))； (5)

generateIndividualR函数根据高斯分布式的均值和方差生成灰狼位置；

3)、generateIndividualR(mu,sicma)函数步骤计算如下式(6)-(9)：

r＝rand()； (6)

erfA＝erf((mu+1)/(sqrt(2)*sicma))； (7)

erfB＝erf((mu-1)/(sqrt(2)*sicma))； (8)

samplerand＝erfinv(-erfA-r*erfB+r*erfA)*sicma*sqrt(2)+mu； (9)

rand()生成一个[0，1]的随机变量；erf()是误差函数，它是高斯概率密度函数的积分；sqrt为求平方根函数；erfinv()表示逆误差函数；samplerand为函数返回值；

4)、调用目标函数如下式(10)，求出α，β，γ狼的目标函数值分别为Alpha_score，Beta_score和Delta_score；

n是神经网络训练样本数，y是训练样本标签，y'表示样本预测结果；

5)、求出灰狼下次移动到的位置，循环遍历灰狼的每个维度，更新如下式(11)-(15)：

a＝2-l*(2/Max_iter)； (11)

X1＝Alpha_pos(j)-(2*a*rand()-a)*abs(2*rand()*Alpha_pos(j)-Position(j))； (12)

X2＝Beta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Beta_pos(j)-Position(j))； (13)

X3＝Delta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Delta_pos(j)-Position(j))； (14)

Position(j)＝(X1+X2+X3)/3； (15)

l是当前迭代次数，j表示灰狼的第j个维度；a用来控制算法的全局和局部搜索能力；X1，X2和X3分别是α，β，γ狼对灰狼的吸引能力；abs()是绝对值函数；

6)、更新后的灰狼位置和α狼做对比，winner1为具有最好的目标函数值的狼，loser1为具有最差的目标函数值的狼；

7)、更新mu(1)和sicma(1)，遍历灰狼的每个维度，更新如下式(16)-(21)：

winner1(j)＝(winner1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (16)

loser1(j)＝(loser1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (17)

mut＝mu(1,j)； (18)

mu(1,j)＝mu(1,j)+(1/200)*(winner1(j)-loser1(j))； (19)

t＝sicma(1,j)^2+mut^2-mu(1,j)^2+(1/200)*(winner1(j)^2-loser1(j)^2)； (20)

8)、更新后的灰狼位置和β狼做对比，winner2为具有最好的目标函数值的狼，loser2为具有最差的目标函数值的狼；

9)、更新mu(2)和sicma(2)，遍历灰狼的每个维度，更新如下式(22)-(27)：

winner2(j)＝(winner2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (22)

loser2(j)＝(loser2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (23)

mut＝mu(1,j)； (24)

mu(2,j)＝mu(2,j)+(1/200)*(winner2(j)-loser2(j))； (25)

t＝sicma(2,j)^2+mut^2-mu(2,j)^2+(1/200)*(winner2(j)^2-loser2(j)^2)； (26)

10)、更新后的灰狼位置和γ狼做对比，winner3为具有最好的目标函数值的狼，loser3为具有最差的目标函数值的狼；

11)、更新mu(3)和sicma(3)，遍历灰狼的每个维度，更新如下式(28)-(33)：

winner3(j)＝(winner3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (28)

loser3(j)＝(loser3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (29)

mut＝mu(1,j)； (30)

mu(3,j)＝mu(3,j)+(1/200)*(winner3(j)-loser3(j))； (31)

t＝sicma(3,j)^2+mut^2-mu(3,j)^2+(1/200)*(winner3(j)^2-loser3(j)^2)； (32)

12)、循环结束，输出winner1，winner2和winner3的最优值。

与现有技术相比，本幼儿智能音箱及其交互方法具有以下优点：

本发明能够动态添加唤醒词，高效识别幼儿语音指令，智能控制幼儿访问智能音箱的权限，构建高效的神经网络语音训练模型，改进的compact灰狼算法能够在运算能力受限的嵌入式CPU中优化神经网络参数，避免神经网络陷入局部陷阱的问题，可以有效提高预测准确度，加快预测进程。

附图说明

图1为本发明的***图；

图2为本发明的成人语音识别流程框图；

图3为本发明的幼儿语音识别流程框图；

图4为本发明的神经网络语音识别训练流程图；

图5为本发明的神经网络架构图；

图6为本发明的改进compact灰狼算法流程图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

如图1所示，本幼儿智能音箱，包括音箱本体，音箱本体内设置中央处理器、存储器和网络连接器，音箱本体的表面设置显示屏，其特征在于，中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块，存储器内设置存储模块，输出模块通过电路连接显示屏，智能控制模块电控连接语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块；语音采集模块用于成人语音信息的采集，语音采集模块包含多个单人语音采集模块；幼儿声纹采集模块用于幼儿语音信号采集；唤醒模块用于语音唤醒智能音箱，唤醒模块包括成人唤醒模块和幼儿唤醒模块；存储模块用于存储成人语音识别信息、唤醒词、幼儿常用指令、幼儿历史浏览信息和缓存数据；输出模块用于响应用户指令，输出模块的输出内容包括声音和视频；智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加；网络连接器用于将智能设备连接互联网。

在上述的幼儿智能音箱中，多个单人语音采集模块具体包括第一成人管理员语音采集模块、第二成人管理员语音采集模块、第三成人管理员语音采集模块、第四成人管理员语音采集模块、第五成人管理员语音采集模块和第六成人管理员语音采集模块。

幼儿智能音箱的交互方法，包括以下内容：

如图2所示，A、对成人语音识别的方法：

1)、输入成人样本语音；

2)、MFCC特征参数提取；

3)、构建神经网络模型；

4)、输入成人训练语音；

5)、MFCC特征参数提取；

如图4所示，6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练，其训练方法如下：

a、输入语音特征参数训练和测试数据；

b、归一化训练数据和测试数据；

c、构建神经网络；(如图5所示)

d、调用compact灰狼算法；(如图6所示)

e、将神经网络参数设置为训练好的参数；

f、通过归一化的训练数据构建神经网络；

g、神经网络预测并输出测试结果；

如图3所示，B、对幼儿语音识别的方法：

1)、输入幼儿样本语音；

2)、MFCC特征参数提取；

3)、构建神经网络模型；

4)、输入幼儿训练语音；

5)、MFCC特征参数提取；

a、输入语音特征参数训练和测试数据；

b、归一化训练数据和测试数据；

c、构建神经网络；(如图5所示)

d、调用compact灰狼算法；(如图6所示)

e、将神经网络参数设置为训练好的参数；

f、通过归一化的训练数据构建神经网络；

g、神经网络预测并输出测试结果。

如图6所示，在上述的幼儿智能音箱的交互中，compact灰狼算法，包括如下步骤：

mu＝zeros(3,dim)； (1)

sicma＝10*ones(3,dim)； (2)

2)、初始化α，β，γ狼位置，计算如下式(3)-(5)：

Alpha_pos＝ub*generateIndividualR(mu(1),sicma(1))； (3)

Beta_pos＝ub*generateIndividualR(mu(2),sicma(2))； (4)

Delta_pos＝ub*generateIndividualR(mu(3),sicma(3))； (5)

3)、generateIndividualR(mu,sicma)函数步骤计算如下式(6)-(9)：

r＝rand()； (6)

erfA＝erf((mu+1)/(sqrt(2)*sicma))； (7)

erfB＝erf((mu-1)/(sqrt(2)*sicma))； (8)

samplerand＝erfinv(-erfA-r*erfB+r*erfA)*sicma*sqrt(2)+mu； (9)

rand()生成一个[0，1]的随机变量；erf()是误差函数，它是高斯概率密度函数的积分；sqrt()为求平方根函数；erfinv()表示逆误差函数；samplerand为函数返回值；

a＝2-l*(2/Max_iter)； (11)

X1＝Alpha_pos(j)-(2*a*rand()-a)*abs(2*rand()*Alpha_pos(j)-Position(j))； (12)

X2＝Beta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Beta_pos(j)-Position(j))； (13)

X3＝Delta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Delta_pos(j)-Position(j))； (14)

Position(j)＝(X1+X2+X3)/3； (15)

winner1(j)＝(winner1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (16)

loser1(j)＝(loser1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (17)

mut＝mu(1,j)； (18)

mu(1,j)＝mu(1,j)+(1/200)*(winner1(j)-loser1(j))； (19)

t＝sicma(1,j)^2+mut^2-mu(1,j)^2+(1/200)*(winner1(j)^2-loser1(j)^2)； (20)

winner2(j)＝(winner2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (22)

loser2(j)＝(loser2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (23)

mut＝mu(1,j)； (24)

mu(2,j)＝mu(2,j)+(1/200)*(winner2(j)-loser2(j))； (25)

t＝sicma(2,j)^2+mut^2-mu(2,j)^2+(1/200)*(winner2(j)^2-loser2(j)^2)； (26)

winner3(j)＝(winner3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (28)

loser3(j)＝(loser3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (29)

mut＝mu(1,j)； (30)

mu(3,j)＝mu(3,j)+(1/200)*(winner3(j)-loser3(j))； (31)

t＝sicma(3,j)^2+mut^2-mu(3,j)^2+(1/200)*(winner3(j)^2-loser3(j)^2)； (32)

12)、循环结束，输出winner1，winner2和winner3的最优值。

本发明能够动态添加唤醒词，高效识别幼儿语音指令，智能控制幼儿访问智能音箱的权限，构建高效的神经网络语音训练模型，改进的compact灰狼算法能够在运算能力受限的入式CPU中优化神经网络参数，避免神经网络陷入局部陷阱的问题，可以有效提高预测准确度，加快预测进程。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种幼儿智能音箱，包括音箱本体，所述音箱本体内设置中央处理器、存储器和网络连接器，所述音箱本体的表面设置显示屏，其特征在于，所述中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块，所述存储器内设置存储模块，所述输出模块通过电路连接所述显示屏，所述智能控制模块电控连接所述语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块；所述语音采集模块用于成人语音信息的采集，所述语音采集模块包含多个单人语音采集模块；所述幼儿声纹采集模块用于幼儿语音信号采集；所述唤醒模块用于语音唤醒智能音箱，所述唤醒模块包括成人唤醒模块和幼儿唤醒模块；所述存储模块用于存储成人语音识别信息、唤醒词、幼儿常用指令、幼儿历史浏览信息和缓存数据；所述输出模块用于响应用户指令，所述输出模块的输出内容包括声音和视频；所述智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加；网络连接器用于将智能设备连接互联网；

基于所述幼儿智能音箱的交互方法，包括以下内容：

A、对成人语音识别的方法：

1)、输入成人样本语音；

2)、MFCC特征参数提取；

3)、构建神经网络模型；

4)、输入成人训练语音；

5)、MFCC特征参数提取；

a、输入语音特征参数训练和测试数据；

b、归一化训练数据和测试数据；

c、构建神经网络；

d、调用compact灰狼算法；

e、将神经网络参数设置为训练好的参数；

f、通过归一化的训练数据构建神经网络；

g、神经网络预测并输出测试结果；

B、对幼儿语音识别的方法：

1)、输入幼儿样本语音；

2)、MFCC特征参数提取；

3)、构建神经网络模型；

4)、输入幼儿训练语音；

5)、MFCC特征参数提取；

a、输入语音特征参数训练和测试数据；

b、归一化训练数据和测试数据；

c、构建神经网络；

d、调用compact灰狼算法；

e、将神经网络参数设置为训练好的参数；

f、通过归一化的训练数据构建神经网络；

g、神经网络预测并输出测试结果。

2.如权利要求1所述的幼儿智能音箱，其特征在于，多个所述单人语音采集模块具体包括第一成人管理员语音采集模块、第二成人管理员语音采集模块、第三成人管理员语音采集模块、第四成人管理员语音采集模块、第五成人管理员语音采集模块和第六成人管理员语音采集模块。

3.如权利要求1所述的幼儿智能音箱，其特征在于，compact灰狼算法，包括如下步骤：

mu＝zeros(3,dim)； (1)

sicma＝10*ones(3,dim)； (2)

2)、初始化α，β，γ狼位置，计算如下式(3)-(5)：

Alpha_pos＝ub*generateIndividualR(mu(1),sicma(1))； (3)

Beta_pos＝ub*generateIndividualR(mu(2),sicma(2))； (4)

Delta_pos＝ub*generateIndividualR(mu(3),sicma(3))； (5)

3)、generateIndividualR(mu,sicma)函数步骤计算如下式(6)-(9)：

r＝rand()； (6)

erfA＝erf((mu+1)/(sqrt(2)*sicma))； (7)

erfB＝erf((mu-1)/(sqrt(2)*sicma))； (8)

samplerand＝erfinv(-erfA-r*erfB+r*erfA)*sicma*sqrt(2)+mu； (9)

a＝2-l*(2/Max_iter)； (11)

X1＝Alpha_pos(j)-(2*a*rand()-a)*abs(2*rand()*Alpha_pos(j)-Position(j))；(12)

X2＝Beta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Beta_pos(j)-Position(j))；(13)

X3＝Delta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Delta_pos(j)-Position(j))；(14)

Position(j)＝(X1+X2+X3)/3； (15)

winner1(j)＝(winner1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (16)

loser1(j)＝(loser1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (17)

mut＝mu(1,j)； (18)

mu(1,j)＝mu(1,j)+(1/200)*(winner1(j)-loser1(j))； (19)

t＝sicma(1,j)^2+mut^2-mu(1,j)^2+(1/200)*(winner1(j)^2-loser1(j)^2)； (20)

winner2(j)＝(winner2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (22)

loser2(j)＝(loser2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (23)

mut＝mu(1,j)； (24)

mu(2,j)＝mu(2,j)+(1/200)*(winner2(j)-loser2(j))； (25)

t＝sicma(2,j)^2+mut^2-mu(2,j)^2+(1/200)*(winner2(j)^2-loser2(j)^2)； (26)

winner3(j)＝(winner3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (28)

loser3(j)＝(loser3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2)； (29)

mut＝mu(1,j)； (30)

mu(3,j)＝mu(3,j)+(1/200)*(winner3(j)-loser3(j))； (31)

t＝sicma(3,j)^2+mut^2-mu(3,j)^2+(1/200)*(winner3(j)^2-loser3(j)^2)； (32)

12)、循环结束，输出winner1，winner2和winner3的最优值。