CN112543390B - 一种幼儿智能音箱及其交互方法 - Google Patents
一种幼儿智能音箱及其交互方法 Download PDFInfo
- Publication number
- CN112543390B CN112543390B CN202011336049.6A CN202011336049A CN112543390B CN 112543390 B CN112543390 B CN 112543390B CN 202011336049 A CN202011336049 A CN 202011336049A CN 112543390 B CN112543390 B CN 112543390B
- Authority
- CN
- China
- Prior art keywords
- wolf
- infant
- voice
- module
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000003993 interaction Effects 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000004044 response Effects 0.000 claims abstract description 4
- 241000282461 Canis lupus Species 0.000 claims description 77
- 238000013528 artificial neural network Methods 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 48
- 238000012360 testing method Methods 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 12
- 241000282421 Canidae Species 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/028—Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/023—Screens for loudspeakers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/02—Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Selective Calling Equipment (AREA)
Abstract
本发明提供了一种幼儿智能音箱及其交互方法,包括音箱本体,音箱本体内设置中央处理器、存储器和网络连接器,音箱本体的表面设置显示屏,中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块,存储器内设置存储模块,输出模块通过电路连接显示屏,智能控制模块电控连接语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块;语音采集模块用于成人语音信息的采集;幼儿声纹采集模块用于幼儿语音信号采集;唤醒模块用于语音唤醒智能音箱;输出模块用于响应用户指令,输出模块的输出内容包括声音和视频;智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加。
Description
技术领域
本发明涉及语音识别技术和人工智能技术领域,特别是一种幼儿智能音箱及其交互方法。
背景技术
随着人工智能技术的成熟和语音识别技术的发展,智能音箱已开始渗透到人们的日常生活当中。智能音箱不仅具备传统语音设备播放音频、视频功能,还具备了智能化、交互、控制等功能。目前市场流行的音箱具备了良好的交互性和智能性,但是对刚学会说话不久的幼儿体验效果差,比如唤醒词过长、不能正确识别幼儿指令等。
神经网络模拟人脑结构的思维功能,具有较强的自学习和联想功能,精度较高,人工干预少,对专家知识的利用也较少。典型的神经网络架构包含一个输入层、一个或多个隐藏层和一个输出层。元启发式算法由于能在多维搜索空间中找到全局解,在神经网络的参数训练中得到了广泛的应用。但是神经网络也存在着易陷入局部最优、精度低、学习速度慢等固有缺陷。现有智能音箱的处理器性能一般,数据处理能力差。
发明内容
本发明的目的是针对现有的技术存在上述问题,提出了一种通过改进算法优化神经网络参数,智能分辨成人唤醒或幼儿唤醒的幼儿智能音箱及其交互方法。
本发明的目的可通过下列技术方案来实现:幼儿智能音箱,包括音箱本体,所述音箱本体内设置中央处理器、存储器和网络连接器,所述音箱本体的表面设置显示屏,其特征在于,所述中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块,所述存储器内设置存储模块,所述输出模块通过电路连接所述显示屏,所述智能控制模块电控连接所述语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块;所述语音采集模块用于成人语音信息的采集,所述语音采集模块包含多个单人语音采集模块;所述幼儿声纹采集模块用于幼儿语音信号采集;所述唤醒模块用于语音唤醒智能音箱,所述唤醒模块包括成人唤醒模块和幼儿唤醒模块;所述存储模块用于存储成人语音识别信息、唤醒词、幼儿常用指令、幼儿历史浏览信息和缓存数据;所述输出模块用于响应用户指令,所述输出模块的输出内容包括声音和视频;所述智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加;网络连接器用于将智能设备连接互联网。
在上述的幼儿智能音箱中,多个所述单人语音采集模块具体包括第一成人管理员语音采集模块、第二成人管理员语音采集模块、第三成人管理员语音采集模块、第四成人管理员语音采集模块、第五成人管理员语音采集模块和第六成人管理员语音采集模块。
语音采集模块一共可以采集六个成年人(幼儿父母、爷爷奶奶、姥爷姥姥)的语音信息,并通过智能控制模块进行识别训练后,这六个成年人即可控制幼儿操纵智能音箱的权限。
幼儿智能音箱的交互方法,包括以下内容:
A、对成人语音识别的方法:
1)、输入成人样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入成人训练语音;
5)、MFCC特征参数提取;
6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;
d、调用compact灰狼算法;
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果;
B、对幼儿语音识别的方法:
1)、输入幼儿样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入幼儿训练语音;
5)、MFCC特征参数提取;
6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;
d、调用compact灰狼算法;
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果。
在上述的幼儿智能音箱的交互中,compact灰狼算法,包括如下步骤:
1)、初始化相关参数,如最大迭代次数Max_iter=500,位置上界ub=1,位置下界lb=0,随机生成灰狼位置Position;mu和sicma计算如式(1)和(2)所示:
mu=zeros(3,dim); (1)
sicma=10*ones(3,dim); (2)
mu和sicma表示高斯分布式的均值和方差,dim是搜索空间的维度,在此为优化的神经网络参数个数;
2)、初始化α,β,γ狼位置,计算如下式(3)-(5):
Alpha_pos=ub*generateIndividualR(mu(1),sicma(1)); (3)
Beta_pos=ub*generateIndividualR(mu(2),sicma(2)); (4)
Delta_pos=ub*generateIndividualR(mu(3),sicma(3)); (5)
generateIndividualR函数根据高斯分布式的均值和方差生成灰狼位置;
3)、generateIndividualR(mu,sicma)函数步骤计算如下式(6)-(9):
r=rand(); (6)
erfA=erf((mu+1)/(sqrt(2)*sicma)); (7)
erfB=erf((mu-1)/(sqrt(2)*sicma)); (8)
samplerand=erfinv(-erfA-r*erfB+r*erfA)*sicma*sqrt(2)+mu; (9)
rand()生成一个[0,1]的随机变量;erf()是误差函数,它是高斯概率密度函数的积分;sqrt为求平方根函数;erfinv()表示逆误差函数;samplerand为函数返回值;
4)、调用目标函数如下式(10),求出α,β,γ狼的目标函数值分别为Alpha_score,Beta_score和Delta_score;
n是神经网络训练样本数,y是训练样本标签,y'表示样本预测结果;
5)、求出灰狼下次移动到的位置,循环遍历灰狼的每个维度,更新如下式(11)-(15):
a=2-l*(2/Max_iter); (11)
X1=Alpha_pos(j)-(2*a*rand()-a)*abs(2*rand()*Alpha_pos(j)-Position(j)); (12)
X2=Beta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Beta_pos(j)-Position(j)); (13)
X3=Delta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Delta_pos(j)-Position(j)); (14)
Position(j)=(X1+X2+X3)/3; (15)
l是当前迭代次数,j表示灰狼的第j个维度;a用来控制算法的全局和局部搜索能力;X1,X2和X3分别是α,β,γ狼对灰狼的吸引能力;abs()是绝对值函数;
6)、更新后的灰狼位置和α狼做对比,winner1为具有最好的目标函数值的狼,loser1为具有最差的目标函数值的狼;
7)、更新mu(1)和sicma(1),遍历灰狼的每个维度,更新如下式(16)-(21):
winner1(j)=(winner1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (16)
loser1(j)=(loser1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (17)
mut=mu(1,j); (18)
mu(1,j)=mu(1,j)+(1/200)*(winner1(j)-loser1(j)); (19)
t=sicma(1,j)^2+mut^2-mu(1,j)^2+(1/200)*(winner1(j)^2-loser1(j)^2); (20)
8)、更新后的灰狼位置和β狼做对比,winner2为具有最好的目标函数值的狼,loser2为具有最差的目标函数值的狼;
9)、更新mu(2)和sicma(2),遍历灰狼的每个维度,更新如下式(22)-(27):
winner2(j)=(winner2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (22)
loser2(j)=(loser2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (23)
mut=mu(1,j); (24)
mu(2,j)=mu(2,j)+(1/200)*(winner2(j)-loser2(j)); (25)
t=sicma(2,j)^2+mut^2-mu(2,j)^2+(1/200)*(winner2(j)^2-loser2(j)^2); (26)
10)、更新后的灰狼位置和γ狼做对比,winner3为具有最好的目标函数值的狼,loser3为具有最差的目标函数值的狼;
11)、更新mu(3)和sicma(3),遍历灰狼的每个维度,更新如下式(28)-(33):
winner3(j)=(winner3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (28)
loser3(j)=(loser3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (29)
mut=mu(1,j); (30)
mu(3,j)=mu(3,j)+(1/200)*(winner3(j)-loser3(j)); (31)
t=sicma(3,j)^2+mut^2-mu(3,j)^2+(1/200)*(winner3(j)^2-loser3(j)^2); (32)
12)、循环结束,输出winner1,winner2和winner3的最优值。
与现有技术相比,本幼儿智能音箱及其交互方法具有以下优点:
本发明能够动态添加唤醒词,高效识别幼儿语音指令,智能控制幼儿访问智能音箱的权限,构建高效的神经网络语音训练模型,改进的compact灰狼算法能够在运算能力受限的嵌入式CPU中优化神经网络参数,避免神经网络陷入局部陷阱的问题,可以有效提高预测准确度,加快预测进程。
附图说明
图1为本发明的***图;
图2为本发明的成人语音识别流程框图;
图3为本发明的幼儿语音识别流程框图;
图4为本发明的神经网络语音识别训练流程图;
图5为本发明的神经网络架构图;
图6为本发明的改进compact灰狼算法流程图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
如图1所示,本幼儿智能音箱,包括音箱本体,音箱本体内设置中央处理器、存储器和网络连接器,音箱本体的表面设置显示屏,其特征在于,中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块,存储器内设置存储模块,输出模块通过电路连接显示屏,智能控制模块电控连接语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块;语音采集模块用于成人语音信息的采集,语音采集模块包含多个单人语音采集模块;幼儿声纹采集模块用于幼儿语音信号采集;唤醒模块用于语音唤醒智能音箱,唤醒模块包括成人唤醒模块和幼儿唤醒模块;存储模块用于存储成人语音识别信息、唤醒词、幼儿常用指令、幼儿历史浏览信息和缓存数据;输出模块用于响应用户指令,输出模块的输出内容包括声音和视频;智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加;网络连接器用于将智能设备连接互联网。
在上述的幼儿智能音箱中,多个单人语音采集模块具体包括第一成人管理员语音采集模块、第二成人管理员语音采集模块、第三成人管理员语音采集模块、第四成人管理员语音采集模块、第五成人管理员语音采集模块和第六成人管理员语音采集模块。
语音采集模块一共可以采集六个成年人(幼儿父母、爷爷奶奶、姥爷姥姥)的语音信息,并通过智能控制模块进行识别训练后,这六个成年人即可控制幼儿操纵智能音箱的权限。
幼儿智能音箱的交互方法,包括以下内容:
如图2所示,A、对成人语音识别的方法:
1)、输入成人样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入成人训练语音;
5)、MFCC特征参数提取;
如图4所示,6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;(如图5所示)
d、调用compact灰狼算法;(如图6所示)
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果;
如图3所示,B、对幼儿语音识别的方法:
1)、输入幼儿样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入幼儿训练语音;
5)、MFCC特征参数提取;
如图4所示,6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;(如图5所示)
d、调用compact灰狼算法;(如图6所示)
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果。
如图6所示,在上述的幼儿智能音箱的交互中,compact灰狼算法,包括如下步骤:
1)、初始化相关参数,如最大迭代次数Max_iter=500,位置上界ub=1,位置下界lb=0,随机生成灰狼位置Position;mu和sicma计算如式(1)和(2)所示:
mu=zeros(3,dim); (1)
sicma=10*ones(3,dim); (2)
mu和sicma表示高斯分布式的均值和方差,dim是搜索空间的维度,在此为优化的神经网络参数个数;
2)、初始化α,β,γ狼位置,计算如下式(3)-(5):
Alpha_pos=ub*generateIndividualR(mu(1),sicma(1)); (3)
Beta_pos=ub*generateIndividualR(mu(2),sicma(2)); (4)
Delta_pos=ub*generateIndividualR(mu(3),sicma(3)); (5)
generateIndividualR函数根据高斯分布式的均值和方差生成灰狼位置;
3)、generateIndividualR(mu,sicma)函数步骤计算如下式(6)-(9):
r=rand(); (6)
erfA=erf((mu+1)/(sqrt(2)*sicma)); (7)
erfB=erf((mu-1)/(sqrt(2)*sicma)); (8)
samplerand=erfinv(-erfA-r*erfB+r*erfA)*sicma*sqrt(2)+mu; (9)
rand()生成一个[0,1]的随机变量;erf()是误差函数,它是高斯概率密度函数的积分;sqrt()为求平方根函数;erfinv()表示逆误差函数;samplerand为函数返回值;
4)、调用目标函数如下式(10),求出α,β,γ狼的目标函数值分别为Alpha_score,Beta_score和Delta_score;
n是神经网络训练样本数,y是训练样本标签,y'表示样本预测结果;
5)、求出灰狼下次移动到的位置,循环遍历灰狼的每个维度,更新如下式(11)-(15):
a=2-l*(2/Max_iter); (11)
X1=Alpha_pos(j)-(2*a*rand()-a)*abs(2*rand()*Alpha_pos(j)-Position(j)); (12)
X2=Beta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Beta_pos(j)-Position(j)); (13)
X3=Delta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Delta_pos(j)-Position(j)); (14)
Position(j)=(X1+X2+X3)/3; (15)
l是当前迭代次数,j表示灰狼的第j个维度;a用来控制算法的全局和局部搜索能力;X1,X2和X3分别是α,β,γ狼对灰狼的吸引能力;abs()是绝对值函数;
6)、更新后的灰狼位置和α狼做对比,winner1为具有最好的目标函数值的狼,loser1为具有最差的目标函数值的狼;
7)、更新mu(1)和sicma(1),遍历灰狼的每个维度,更新如下式(16)-(21):
winner1(j)=(winner1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (16)
loser1(j)=(loser1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (17)
mut=mu(1,j); (18)
mu(1,j)=mu(1,j)+(1/200)*(winner1(j)-loser1(j)); (19)
t=sicma(1,j)^2+mut^2-mu(1,j)^2+(1/200)*(winner1(j)^2-loser1(j)^2); (20)
8)、更新后的灰狼位置和β狼做对比,winner2为具有最好的目标函数值的狼,loser2为具有最差的目标函数值的狼;
9)、更新mu(2)和sicma(2),遍历灰狼的每个维度,更新如下式(22)-(27):
winner2(j)=(winner2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (22)
loser2(j)=(loser2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (23)
mut=mu(1,j); (24)
mu(2,j)=mu(2,j)+(1/200)*(winner2(j)-loser2(j)); (25)
t=sicma(2,j)^2+mut^2-mu(2,j)^2+(1/200)*(winner2(j)^2-loser2(j)^2); (26)
10)、更新后的灰狼位置和γ狼做对比,winner3为具有最好的目标函数值的狼,loser3为具有最差的目标函数值的狼;
11)、更新mu(3)和sicma(3),遍历灰狼的每个维度,更新如下式(28)-(33):
winner3(j)=(winner3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (28)
loser3(j)=(loser3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (29)
mut=mu(1,j); (30)
mu(3,j)=mu(3,j)+(1/200)*(winner3(j)-loser3(j)); (31)
t=sicma(3,j)^2+mut^2-mu(3,j)^2+(1/200)*(winner3(j)^2-loser3(j)^2); (32)
12)、循环结束,输出winner1,winner2和winner3的最优值。
与现有技术相比,本幼儿智能音箱及其交互方法具有以下优点:
本发明能够动态添加唤醒词,高效识别幼儿语音指令,智能控制幼儿访问智能音箱的权限,构建高效的神经网络语音训练模型,改进的compact灰狼算法能够在运算能力受限的入式CPU中优化神经网络参数,避免神经网络陷入局部陷阱的问题,可以有效提高预测准确度,加快预测进程。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (3)
1.一种幼儿智能音箱,包括音箱本体,所述音箱本体内设置中央处理器、存储器和网络连接器,所述音箱本体的表面设置显示屏,其特征在于,所述中央处理器内设置语音采集模块、幼儿声纹采集模块、唤醒模块、输出模块和智能控制模块,所述存储器内设置存储模块,所述输出模块通过电路连接所述显示屏,所述智能控制模块电控连接所述语音采集模块、幼儿声纹采集模块、唤醒模块、存储模块和输出模块;所述语音采集模块用于成人语音信息的采集,所述语音采集模块包含多个单人语音采集模块;所述幼儿声纹采集模块用于幼儿语音信号采集;所述唤醒模块用于语音唤醒智能音箱,所述唤醒模块包括成人唤醒模块和幼儿唤醒模块;所述存储模块用于存储成人语音识别信息、唤醒词、幼儿常用指令、幼儿历史浏览信息和缓存数据;所述输出模块用于响应用户指令,所述输出模块的输出内容包括声音和视频;所述智能控制模块用于成人语音识别、幼儿语音识别、用户指令响应和幼儿唤醒词动态添加;网络连接器用于将智能设备连接互联网;
基于所述幼儿智能音箱的交互方法,包括以下内容:
A、对成人语音识别的方法:
1)、输入成人样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入成人训练语音;
5)、MFCC特征参数提取;
6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;
d、调用compact灰狼算法;
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果;
B、对幼儿语音识别的方法:
1)、输入幼儿样本语音;
2)、MFCC特征参数提取;
3)、构建神经网络模型;
4)、输入幼儿训练语音;
5)、MFCC特征参数提取;
6)、通过步骤3)构建好的神经网络模型进行神经网络语音识别训练,其训练方法如下:
a、输入语音特征参数训练和测试数据;
b、归一化训练数据和测试数据;
c、构建神经网络;
d、调用compact灰狼算法;
e、将神经网络参数设置为训练好的参数;
f、通过归一化的训练数据构建神经网络;
g、神经网络预测并输出测试结果。
2.如权利要求1所述的幼儿智能音箱,其特征在于,多个所述单人语音采集模块具体包括第一成人管理员语音采集模块、第二成人管理员语音采集模块、第三成人管理员语音采集模块、第四成人管理员语音采集模块、第五成人管理员语音采集模块和第六成人管理员语音采集模块。
3.如权利要求1所述的幼儿智能音箱,其特征在于,compact灰狼算法,包括如下步骤:
1)、初始化相关参数,如最大迭代次数Max_iter=500,位置上界ub=1,位置下界lb=0,随机生成灰狼位置Position;mu和sicma计算如式(1)和(2)所示:
mu=zeros(3,dim); (1)
sicma=10*ones(3,dim); (2)
mu和sicma表示高斯分布式的均值和方差,dim是搜索空间的维度,在此为优化的神经网络参数个数;
2)、初始化α,β,γ狼位置,计算如下式(3)-(5):
Alpha_pos=ub*generateIndividualR(mu(1),sicma(1)); (3)
Beta_pos=ub*generateIndividualR(mu(2),sicma(2)); (4)
Delta_pos=ub*generateIndividualR(mu(3),sicma(3)); (5)
generateIndividualR函数根据高斯分布式的均值和方差生成灰狼位置;
3)、generateIndividualR(mu,sicma)函数步骤计算如下式(6)-(9):
r=rand(); (6)
erfA=erf((mu+1)/(sqrt(2)*sicma)); (7)
erfB=erf((mu-1)/(sqrt(2)*sicma)); (8)
samplerand=erfinv(-erfA-r*erfB+r*erfA)*sicma*sqrt(2)+mu; (9)
rand()生成一个[0,1]的随机变量;erf()是误差函数,它是高斯概率密度函数的积分;sqrt为求平方根函数;erfinv()表示逆误差函数;samplerand为函数返回值;
4)、调用目标函数如下式(10),求出α,β,γ狼的目标函数值分别为Alpha_score,Beta_score和Delta_score;
n是神经网络训练样本数,y是训练样本标签,y'表示样本预测结果;
5)、求出灰狼下次移动到的位置,循环遍历灰狼的每个维度,更新如下式(11)-(15):
a=2-l*(2/Max_iter); (11)
X1=Alpha_pos(j)-(2*a*rand()-a)*abs(2*rand()*Alpha_pos(j)-Position(j));(12)
X2=Beta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Beta_pos(j)-Position(j));(13)
X3=Delta_pos(j)-(2*a*rand()-a)*abs(2*rand()*Delta_pos(j)-Position(j));(14)
Position(j)=(X1+X2+X3)/3; (15)
l是当前迭代次数,j表示灰狼的第j个维度;a用来控制算法的全局和局部搜索能力;X1,X2和X3分别是α,β,γ狼对灰狼的吸引能力;abs()是绝对值函数;
6)、更新后的灰狼位置和α狼做对比,winner1为具有最好的目标函数值的狼,loser1为具有最差的目标函数值的狼;
7)、更新mu(1)和sicma(1),遍历灰狼的每个维度,更新如下式(16)-(21):
winner1(j)=(winner1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (16)
loser1(j)=(loser1(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (17)
mut=mu(1,j); (18)
mu(1,j)=mu(1,j)+(1/200)*(winner1(j)-loser1(j)); (19)
t=sicma(1,j)^2+mut^2-mu(1,j)^2+(1/200)*(winner1(j)^2-loser1(j)^2); (20)
8)、更新后的灰狼位置和β狼做对比,winner2为具有最好的目标函数值的狼,loser2为具有最差的目标函数值的狼;
9)、更新mu(2)和sicma(2),遍历灰狼的每个维度,更新如下式(22)-(27):
winner2(j)=(winner2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (22)
loser2(j)=(loser2(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (23)
mut=mu(1,j); (24)
mu(2,j)=mu(2,j)+(1/200)*(winner2(j)-loser2(j)); (25)
t=sicma(2,j)^2+mut^2-mu(2,j)^2+(1/200)*(winner2(j)^2-loser2(j)^2); (26)
10)、更新后的灰狼位置和γ狼做对比,winner3为具有最好的目标函数值的狼,loser3为具有最差的目标函数值的狼;
11)、更新mu(3)和sicma(3),遍历灰狼的每个维度,更新如下式(28)-(33):
winner3(j)=(winner3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (28)
loser3(j)=(loser3(j)-(ub(j)+lb(j))/2)/((ub(j)-lb(j))/2); (29)
mut=mu(1,j); (30)
mu(3,j)=mu(3,j)+(1/200)*(winner3(j)-loser3(j)); (31)
t=sicma(3,j)^2+mut^2-mu(3,j)^2+(1/200)*(winner3(j)^2-loser3(j)^2); (32)
12)、循环结束,输出winner1,winner2和winner3的最优值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011336049.6A CN112543390B (zh) | 2020-11-25 | 2020-11-25 | 一种幼儿智能音箱及其交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011336049.6A CN112543390B (zh) | 2020-11-25 | 2020-11-25 | 一种幼儿智能音箱及其交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112543390A CN112543390A (zh) | 2021-03-23 |
CN112543390B true CN112543390B (zh) | 2023-03-24 |
Family
ID=75015144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011336049.6A Active CN112543390B (zh) | 2020-11-25 | 2020-11-25 | 一种幼儿智能音箱及其交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112543390B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019160396A2 (ko) * | 2019-04-11 | 2019-08-22 | 엘지전자 주식회사 | 안내 로봇 및 안내 로봇의 동작 방법 |
CN110534099A (zh) * | 2019-09-03 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
CN110696002A (zh) * | 2019-08-31 | 2020-01-17 | 左建 | 一种智能早教机器人 |
CN211063690U (zh) * | 2019-12-25 | 2020-07-21 | 安徽淘云科技有限公司 | 绘本识别设备 |
CN111638787A (zh) * | 2020-05-29 | 2020-09-08 | 百度在线网络技术(北京)有限公司 | 用于展示信息的方法和装置 |
CN111816188A (zh) * | 2020-06-23 | 2020-10-23 | 漳州龙文维克信息技术有限公司 | 用于智能机器人的人机语音交互方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10957325B2 (en) * | 2017-03-23 | 2021-03-23 | Hello Clover, Llc | Method and apparatus for speech interaction with children |
-
2020
- 2020-11-25 CN CN202011336049.6A patent/CN112543390B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019160396A2 (ko) * | 2019-04-11 | 2019-08-22 | 엘지전자 주식회사 | 안내 로봇 및 안내 로봇의 동작 방법 |
CN110696002A (zh) * | 2019-08-31 | 2020-01-17 | 左建 | 一种智能早教机器人 |
CN110534099A (zh) * | 2019-09-03 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
CN211063690U (zh) * | 2019-12-25 | 2020-07-21 | 安徽淘云科技有限公司 | 绘本识别设备 |
CN111638787A (zh) * | 2020-05-29 | 2020-09-08 | 百度在线网络技术(北京)有限公司 | 用于展示信息的方法和装置 |
CN111816188A (zh) * | 2020-06-23 | 2020-10-23 | 漳州龙文维克信息技术有限公司 | 用于智能机器人的人机语音交互方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112543390A (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、***及装置 | |
Zhang et al. | Cooperative learning and its application to emotion recognition from speech | |
CN110415686A (zh) | 语音处理方法、装置、介质、电子设备 | |
CN107221320A (zh) | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 | |
US20210174805A1 (en) | Voice user interface | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
CN115762536A (zh) | 一种基于桥接Transformer的小样本优化鸟声识别方法 | |
CN106601229A (zh) | 一种基于soc芯片的语音唤醒方法 | |
CN110211599A (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN116189681B (zh) | 一种智能语音交互***及方法 | |
CN110334243A (zh) | 基于多层时序池化的音频表示学习方法 | |
CN110634476A (zh) | 一种快速搭建鲁棒性声学模型的方法及*** | |
CN109452932A (zh) | 一种基于声音的体质辨识方法及设备 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
Lu et al. | Deep convolutional neural network with transfer learning for environmental sound classification | |
Li | A lightweight architecture for query-by-example keyword spotting on low-power iot devices | |
CN113571045A (zh) | 一种闽南语语音识别方法、***、设备及介质 | |
CN112543390B (zh) | 一种幼儿智能音箱及其交互方法 | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 | |
CN113707172B (zh) | 稀疏正交网络的单通道语音分离方法、***、计算机设备 | |
CN114792518A (zh) | 一种基于调度域技术的语音识别***及其方法、存储介质 | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
CN115221351A (zh) | 音频匹配方法、装置、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |