CN113077798A - 一种居家老人呼救设备 - Google Patents

一种居家老人呼救设备 Download PDF

Info

Publication number
CN113077798A
CN113077798A CN202110357389.5A CN202110357389A CN113077798A CN 113077798 A CN113077798 A CN 113077798A CN 202110357389 A CN202110357389 A CN 202110357389A CN 113077798 A CN113077798 A CN 113077798A
Authority
CN
China
Prior art keywords
voice
recognition model
voiceprint
model
microprocessor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110357389.5A
Other languages
English (en)
Other versions
CN113077798B (zh
Inventor
韩振华
薛海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Yunxin New Generation Information Technology Research Institute Co ltd
Original Assignee
Shanxi Yunxin New Generation Information Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Yunxin New Generation Information Technology Research Institute Co ltd filed Critical Shanxi Yunxin New Generation Information Technology Research Institute Co ltd
Priority to CN202110357389.5A priority Critical patent/CN113077798B/zh
Publication of CN113077798A publication Critical patent/CN113077798A/zh
Application granted granted Critical
Publication of CN113077798B publication Critical patent/CN113077798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种居家老人呼救设备,包括用于声纹、语音识别模型训练的服务器端、用于声纹、语音识别和拨打电话的客户端,客户端包括微处理器及与其连接的拾音设备、电话卡和扬声器,微处理器上部署维纳滤波器对语音信号进行降噪处理;服务器端训练完成的声纹、语音识别模型打包部署到客户端,采集目标用户语音信号,对客户端声纹识别模型进行参数微调,构成本地声纹、语音识别模型及运行环境;当语音信号输入本地声纹、语音识别模型,若声纹识别结果为目标用户,则进行语音识别,获取识别语音结果,微处理器执行对应的执行指令;否则不进行语音识别。本发明使用语音识别技术实现老人呼救,相比起传统的按键、打电话方法,更加便捷,人性化。

Description

一种居家老人呼救设备
技术领域
本发明涉及中文语音识别技术,具体涉及一种居家老人呼救设备。
背景技术
从现在到本世纪中叶是中国人口老龄化高速发展的时期,积极、科学、有效应对人口老龄化至关重要。到2022年左右,中国65岁以上人口将占到总人口的14%,由老龄化社会进入老龄社会。而居家养老是目前老人养老的主要模式,但对于高龄患病老人,在日常生活中往往会遇到突发的紧急情况,需要救助。目前的老人呼救设备多以按键或手机为主,需要手动操作,老人在遭遇紧急情况下,可能没有行动能力来手动操作,则亟需进行语音呼救。
目前,语音识别技术已经深入到生活的方方面面,如语音助手、语音检索、智能穿戴设备等应用。而作为***六种工作语言之一,已有17亿人以上使用中文作为日常交流的语言,中文语音识别应用领域广泛,具有很大的实用价值。当前,虽然有大量深度学习方法应用于中文语音识别领域,但语音识别方法在识别速度和识别精度上有很大的局限性,且过分依赖于高性能处理器,为了克服上述问题,将语音识别模型的训练过程与识别过程分离,分别在云端和客户端进行。
发明内容
针对现有技术中的不足,本发明提供一种基于龙芯派的居家老人呼救设备,通过在服务器端对声纹识别模型和语音识别模型进行训练,再将服务器端训练完成的模型和环境下载部署到以龙芯2K1000处理器基础的客户端,在客户端完成声纹模型参数微调和语音识别以及拨打电话功能。
为实现上述目的,本发明采用了以下技术方案:
一种居家老人呼救设备,包括用于部署声纹识别模型、语音识别模型训练环境及训练的服务器端、用于声纹识别、语音识别和拨打电话的客户端,所述客户端包括微处理器、拾音设备、电话卡和扬声器,所述拾音设备与微处理器的音频输入接口连接,将捕捉到的语音输入微处理器,所述微处理器上部署维纳滤波器,对接收到的语音信号进行降噪处理;所述电话卡和扬声器与微处理器音频输出接口连接,用以执行电话功能;所述服务器端训练完成的声纹识别模型、语音识别模型和训练环境打包部署到客户端的微处理器,采集经降噪处理的目标用户语音信号,对客户端声纹识别模型进行参数微调,录入目标用户声纹,从而构成本地声纹识别模型、本地语音识别模型及运行环境;经降噪处理的语音信号输入本地声纹识别模型和语音识别模型,根据声纹识别结果进行目标用户的判断,当声纹识别结果为目标用户,则将语音信号输入本地语音识别模型,获取识别语音结果,根据语音识别结果,微处理器执行对应的执行指令;当声纹识别结果为非目标用户,则不进行语音识别,微处理器控制扬声器发出用户不匹配的指令。
进一步地,所述客户端的微处理器为嵌入式龙芯2K1000处理器。
再进一步地,所述服务器端的声纹识别模型为基于GMM(高斯混合模型)的声纹识别模型,是通过以下步骤获取的:
步骤S1、语音提供者标注:将ST-CMDS数据中语音提供者的语音信号进行标注,对同一语音提供者的普通wav语音信号打上相同标签;
步骤S2、特征提取:将普通wav语音信号通过MFCC特征提取方法转换为卷积神经网络需要的二维频谱图像信号,即语音信号特征矩阵;
步骤S3、非目标用户声纹模型训练:将语音信号特征矩阵输入GMM(高斯混合模型)中,进行GMM模型的参数估计;
步骤S4、模型参数固定:基于最大似然估计算法,通过EM算法进行迭代,得到GMM模型的最优参数,将不同语音提供者的语音特征分簇。
更进一步地,所述客户端的本地声纹识别模型为基于GMM-UBM的声纹识别模型,是通过以下步骤获取的:
步骤K1:客户端部署GMM模型:将在服务器端经过非目标用户训练的GMM模型和运行环境部署到客户端。
步骤K2:目标用户语音信号录入:启动基于GMM的声纹识别模型,通过客户端拾音设备录入目标用户语音信号,存储为模型训练数据。
步骤K3:声纹识别模型参数微调:通过背景模型UBM,使用目标用户训练数据,利用最大后验概率算法,经过自适应训练,得到本地声纹识别模型。
步骤K4:本地声纹识别模型保存:在客户端保存训练完成的本地用户声纹模型。
更进一步地,所述服务器端的语音识别模型为基于卷积神经网络的语音识别模型,是通过以下步骤获取:
步骤Y1、特征提取:将ST-CMDS数据集中的普通wav语音信号通过MFCC特征提取方法转换为卷积神经网络需要的二维频谱图像信号,即语音信号特征矩阵;
步骤Y2、基于卷积神经网络的语音识别模型的构建:使用卷积神经网络对MFCC处理后的语音信号特征矩阵进行提取,建立语音识别模型;
步骤Y3、使用ST-CMDS数据集进行语音识别模型训练;随机将ST-CMDS数据集的80%划分为训练集,20%划分为测试集,重复五次,实验结果取五次实验平均值;经过验证,所述语音识别模型的准确率在0.95以上;
步骤Y4、语音识别模型的保存:在服务器端保存训练完成的语音识别模型。
更进一步地,所述ST-CMDS数据集中包含10万余条语音文件,语音文件数据内容为日常语音聊天和智能语音控制语句,语音提供者为855个。
更进一步地,所述MFCC特征由静态MFCC系数、动态差分参数、帧能量共同构成。
更进一步地,所述步骤Y2中的基于卷积神经网络的语音识别模型是由2层卷积层和5层全连接层组成,初始的输入尺寸为40*11*3,第二个卷积层的输入为第一个卷积层的输出,卷积核大小分别8*9*3、3*1*3,卷积核数分别为16、32,得到规格更小的语音信号特征矩阵;引入池化处理,简化卷积层的输出;经过全连接层,将最终语音信号特征与语料库匹配,得到语音的识别结果。
更进一步地,所述微处理器执行对应的执行指令,其执行指令中至少包括启动或关闭语音识别程序、拨打报警及急救电话功能,当语音识别模型识别的语音为启动语音识别程序的口令时,默认等待10s,之后若接收不到其它口令,则关闭语音识别程序;当语音识别模型识别的语音为报警口令时,则由微处理器通过电话卡和扬声器拨打报警电话与语音交流;当语音识别模型识别的语音为拨打急救电话口令时,则由微处理器通过电话卡和扬声器拨打急救电话与语音交流。
与现有技术相比,本发明具有以下有益效果:
1、本发明使用语音识别技术实现老人呼救,相比起传统的按键、打电话方法,更加便捷,人性化。
2、本发明使用声纹识别模型实现特定人员使用,防止无关人员操作,提高了安全性。
3、本发明将声纹识别模型、语音识别模型的训练过程与识别过程分离,降低了客户端对算力的要求,大幅度减小了本地硬件的成本。
3、本发明在通过客户端微调声纹识别模型参数,获取目标用户声纹,降低了客户端运算成本。
4、本发明在语音识别之前,进行降噪处理,提升信噪比,有力提升了识别的准确度。
5、本发明的客户端采用国产龙芯微处理器实现了语音识别的应用,具有很好的泛化能力。
6、本发明语音识别模型,可以实现高于80%的中文语音识别准确率,且识别速度较快,应用前景广泛。
附图说明
图1为本发明的一种居家老人呼救设备的整体流程图。
图2为本发明中MFCC特征提取流程图。
具体实施方式
下面结合附图并通过具体实施例来进一步说明本发明的技术方案。本领域技术人员应该明了,所述具体实施方式仅仅是帮助理解本发明,不应视为对本发明的具体限制。
如图1-2所示,一种居家老人呼救设备,包括用于部署声纹识别模型、语音识别模型训练环境及训练的服务器端、用于声纹识别、语音识别和拨打电话的客户端,所述客户端包括微处理器、拾音设备、电话卡和扬声器,所述拾音设备与微处理器的音频输入接口连接,将捕捉到的语音输入微处理器,所述微处理器上部署维纳滤波器,对接收到的语音信号进行降噪处理;所述电话卡和扬声器与微处理器音频输出接口连接,用以执行电话功能;所述服务器端训练完成的声纹识别模型、语音识别模型和训练环境打包部署到客户端的微处理器,采集经降噪处理的目标用户语音信号,对客户端声纹识别模型进行参数微调,录入目标用户声纹,从而构成本地声纹识别模型、本地语音识别模型及运行环境;经降噪处理的语音信号输入本地声纹识别模型和语音识别模型,根据声纹识别结果进行目标用户的判断,当声纹识别结果为目标用户,则将语音信号输入本地语音识别模型,获取识别语音结果,根据语音识别结果,微处理器执行对应的执行指令;当声纹识别结果为非目标用户,则不进行语音识别,微处理器控制扬声器发出用户不匹配的指令。本实施例中的拾音设备为麦克风,微处理器为嵌入式龙芯2K1000处理器。
微处理器执行指令中至少包括启动或关闭语音识别程序、拨打报警及急救电话功能,当语音识别模型识别的语音为启动语音识别程序的口令时,启动语音识别程序,默认等待10s,之后若接收不到其它口令,则关闭语音识别程序;当语音识别模型识别的语音为报警口令时,则由微处理器通过电话卡和扬声器拨打报警电话与语音交流;当语音识别模型识别的语音为拨打急救电话口令时,则由微处理器通过电话卡和扬声器拨打急救电话与语音交流。
在客户端进行声纹识别的流程为:拾音设备将捕捉到的语音信号经维纳滤波器降噪处理后将语音信号声纹录入,读取本地声纹识别模型,根据识别函数,通过对语音信号声纹进行识别,若声纹匹配目标用户声纹,则将语音信号输入到本地语音识别模型中,若不匹配,则扬声器发出口令“用户不匹配,无法使用”。
在客户端进行语音识别的流程为:经过声纹匹配的语音信号输入到本地语音识别模型,通过本地语音识别模型中的识别函数进行识别,得到识别结果,再将识别的语音与模型中的口令库匹配,当匹配为启动语音识别程序的口令时,如设置启动语音识别程序的口令为“你好龙芯”,2K1000处理器则启动语音识别程序,默认等待10s,之后若接收不到其它口令,则关闭语音识别程序;当识别的语音匹配为“请报警”语音后,则由微处理器通过电话卡和扬声器拨打报警电话与语音交流;当识别的语音匹配为“拨打急救电话”,则由微处理器通过电话卡和扬声器拨打急救电话与语音交流。
本实施例中,所述服务器端的声纹识别模型为基于GMM(高斯混合模型)的声纹识别模型,是通过以下步骤获取的:
步骤S1、语音提供者标注:将ST-CMDS数据中语音提供者的语音信号进行标注,对同一语音提供者的普通wav语音信号打上相同标签;
步骤S2、特征提取:将普通wav语音信号通过MFCC特征提取方法转换为卷积神经网络需要的二维频谱图像信号,即语音信号特征矩阵;
步骤S3、非目标用户声纹模型训练:将语音信号特征矩阵输入高斯混合模型GMM中,进行GMM模型的参数估计;
步骤S4、模型参数固定:基于最大似然估计算法,通过EM算法进行迭代,得到GMM模型的最优参数,将不同语音提供者的语音特征分簇。
所述服务器端的基于GMM的声纹训练模型由协方差矩阵、混合分量均值向量、混合权重共同组成。
本实施例中,所述客户端的目标用户声纹识别模型为基于GMM-UBM的声纹识别模型,是通过以下步骤获取的:
步骤K1、客户端部署GMM模型:将在服务器端经过非目标用户训练的基于GMM的声纹识别模型和运行环境部署到客户端;
步骤K2、目标用户语音信号录入:启动基于GMM的声纹识别模型,通过客户端拾音设备录入目标用户语音信号,存储为模型训练数据;
步骤K3、声纹识别模型参数微调:通过背景模型UBM,使用目标用户训练数据,利用最大后验概率算法,经过自适应训练,得到本地声纹识别模型;
步骤K4、本地声纹模型识别保存:在客户端保存训练完成的本地声纹识别模型。
本实施例中,所述服务器端的语音识别模型为基于卷积神经网络的语音识别模型,是通过以下步骤获取:
步骤Y1、特征提取:将ST-CMDS数据集中的普通wav语音信号通过MFCC特征提取方法转换为卷积神经网络需要的二维频谱图像信号,即语音信号特征矩阵;所述MFCC特征由静态MFCC系数、动态差分参数、帧能量共同构成。所述ST-CMDS数据集中包含10万余条语音文件,语音文件数据内容为日常语音聊天和智能语音控制语句,语音提供者为855个。
特征提取流程如图2所示:
预加重处理即将语音信号通过一个高通滤波器,提升高频部分,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,同时突出高频的共振峰。经分帧后,将每一帧乘以汉明窗以增加帧左端和右端的连续性。再将各帧进行快速傅立叶变换得到各帧的频谱,并对频谱取模平方得到语音信号的功率谱。
将功率谱通过一组Mel尺度的三角形滤波器组,对频谱进行平滑化,并消除谐波,突出语音的共振峰。每个滤波器输出经离散余弦变换得到MFCC系数,通过动态差分参数,最后得到语音信号特征。
步骤Y2、基于卷积神经网络的语音识别模型的构建:使用卷积神经网络对MFCC处理后的语音信号特征矩阵进行提取,建立基于卷积神经网络的语音识别模型;
所述基于卷积神经网络的语音识别模型是由2层卷积层和5层全连接层组成,初始的输入尺寸为40*11*3,第二个卷积层的输入为第一个卷积层的输出,卷积核大小分别8*9*3、3*1*3,卷积核数分别为16、32,得到规格更小的语音信号特征矩阵;引入池化处理,简化卷积层的输出;经过全连接层,将最终语音信号特征与语料库匹配,得到语音的识别结果。
步骤Y3、使用ST-CMDS数据集进行语音识别模型训练;随机将ST-CMDS数据集的80%划分为训练集,20%划分为测试集,重复五次,实验结果取五次实验平均值;经过验证,所述语音识别模型的准确率在0.95以上;
步骤Y4、语音识别模型的保存:在服务器端保存训练完成的语音识别模型。
本实施中的嵌入式处理器龙芯2K1000提供了包括USB、GMAC、SATA、PCIE在内的主流接口,可以满足多场景的产品化应用,也是进行国产化开发的入门级硬件的首选。该开发板的参数如下:
CPU:龙芯2K1000处理器;内存:板载2G DDR3,主频400Mhz;BIOS:8Mb spi FLASH;GPIO:2.54间距27个可配置GPIO插针排;网络:2个千兆自协商网口(2个标准接口);PCIE:1路X1夹板接口PCIE;Ejtag:1个EJTAG调试接口,可用于程序下载、单步调试;接口:3路USB2.0标准接口(TYPE A USB*2,MICro USB*1),2路CAN接口,4路串口(TTL*3,RS232*1);显示和音频接口:1路TYPE A HDMI接口,DVO接口适配飞凌嵌入式触摸屏,1路3.5mm标准音频输入/输出接口;存储:M2接口支持SSD硬盘;电源:12V 3A圆柱电源;尺寸:120mm*120mm。
软件环境:客户端安装Ubuntu或Centos或Loongnix***、python、tensorflow、keras、librosa、wav、PortAudio、sklearn支撑环境。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,可以根据本发明所提到的技术方案进行通同等替换或是改进。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护。

Claims (10)

1.一种居家老人呼救设备,其特征在于:包括用于部署声纹识别模型、语音识别模型训练环境及训练的服务器端、用于声纹识别、语音识别和拨打电话的客户端,所述客户端包括微处理器、拾音设备、电话卡和扬声器,所述拾音设备与微处理器的音频输入接口连接,将捕捉到的语音输入微处理器,所述微处理器上部署维纳滤波器,对接收到的语音信号进行降噪处理;所述电话卡和扬声器与微处理器音频输出接口连接,用以执行电话功能;所述服务器端训练完成的声纹识别模型、语音识别模型和训练环境打包部署到客户端的微处理器,采集经降噪处理的目标用户语音信号,对客户端声纹识别模型进行参数微调,录入目标用户声纹,从而构成本地声纹识别模型、本地语音识别模型及运行环境;经降噪处理的语音信号输入本地声纹识别模型和语音识别模型,根据声纹识别结果进行目标用户的判断,当声纹识别结果为目标用户,则将语音信号输入本地语音识别模型,获取识别语音结果,根据语音识别结果,微处理器执行对应的执行指令;当声纹识别结果为非目标用户,则不进行语音识别,微处理器控制扬声器发出用户不匹配的指令。
2.根据权利要求1所述的一种居家老人呼救设备,其特征在于:所述客户端的微处理器为嵌入式龙芯2K1000处理器。
3.根据权利要求1所述的一种居家老人呼救设备,其特征在于:所述服务器端的声纹识别模型为基于GMM(高斯混合模型)的声纹识别模型,是通过以下步骤获取的:
步骤S1、语音提供者标注:将ST-CMDS数据中语音提供者的语音信号进行标注,对同一语音提供者的普通wav语音信号打上相同标签;
步骤S2、特征提取:将普通wav语音信号通过MFCC特征提取方法转换为卷积神经网络需要的二维频谱图像信号,即语音信号特征矩阵;
步骤S3、非目标用户声纹模型训练:将语音信号特征矩阵输入高斯混合模型GMM中,进行GMM模型的参数估计;
步骤S4、模型参数固定:基于最大似然估计算法,通过EM算法进行迭代,得到GMM模型的最优参数,将不同语音提供者的语音特征分簇。
4.根据权利要求3所述的一种居家老人呼救设备,其特征在于:所述客户端的本地声纹识别模型为基于GMM-UBM的声纹识别模型,是通过以下步骤获取的:
步骤K1、客户端部署GMM模型:将在服务器端经过非目标用户训练的基于GMM的声纹识别模型和运行环境部署到客户端;
步骤K2、目标用户语音信号录入:启动基于GMM的声纹识别模型,通过客户端拾音设备录入目标用户语音信号,存储为模型训练数据;
步骤K3、声纹识别模型参数微调:通过背景模型UBM,使用目标用户训练数据,利用最大后验概率算法,经过自适应训练,得到本地声纹识别模型;
步骤K4、本地声纹模型识别保存:在客户端保存训练完成的本地声纹识别模型。
5.根据权利要求3所述的一种居家老人户呼救设备,其特征在于:所述服务器端的基于GMM的声纹训练模型由协方差矩阵、混合分量均值向量、混合权重共同组成。
6.根据权利要求1所述的一种居家老人呼救设备,其特征在于:所述服务器端的语音识别模型为基于卷积神经网络的语音识别模型,是通过以下步骤获取的:
步骤Y1、特征提取:将ST-CMDS数据集中的普通wav语音信号通过MFCC特征提取方法转换为卷积神经网络需要的二维频谱图像信号,即语音信号特征矩阵;
步骤Y2、基于卷积神经网络的语音识别模型的构建:使用卷积神经网络对MFCC处理后的语音信号特征矩阵进行提取,建立语音识别模型;
步骤Y3、使用ST-CMDS数据集进行语音识别模型训练;随机将ST-CMDS数据集的80%划分为训练集,20%划分为测试集,重复五次,实验结果取五次实验平均值;
步骤Y4、语音识别模型的保存:在服务器端保存训练完成的语音识别模型。
7.根据权利要求6所述的一种居家老人呼救设备,其特征在于:所述ST-CMDS数据集中包含10万余条语音文件,语音文件数据内容为日常语音聊天和智能语音控制语句,语音提供者为855个。
8.根据权利要求6所述的一种居家老人呼救设备,其特征在于:所述MFCC特征由静态MFCC系数、动态差分参数、帧能量共同构成。
9.根据权利要求6所述的一种居家老人呼救设备,其特征在于:所述步骤Y2中的基于卷积神经网络的语音识别模型是由2层卷积层和5层全连接层组成,初始的输入尺寸为40*11*3,第二个卷积层的输入为第一个卷积层的输出,卷积核大小分别8*9*3、3*1*3,卷积核数分别为16、32,得到规格更小的语音信号特征矩阵;引入池化处理,简化卷积层的输出;经过全连接层,将最终语音信号特征与语料库匹配,得到语音的识别结果。
10.根据权利要求1所述的一种居家老人呼救设备,其特征在于:所述微处理器执行对应的执行指令,其执行指令中至少包括启动或关闭语音识别程序、拨打报警及急救电话功能,当语音识别模型识别的语音为启动语音识别程序的口令时,默认等待10s,之后若接收不到其它口令,则关闭语音识别程序;当语音识别模型识别的语音为报警口令时,则由微处理器通过电话卡和扬声器拨打报警电话,进行语音交流;当语音识别模型识别的语音为拨打急救电话口令时,则由微处理器通过电话卡和扬声器拨打急救电话,进行语音交流。
CN202110357389.5A 2021-04-01 2021-04-01 一种居家老人呼救设备 Active CN113077798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110357389.5A CN113077798B (zh) 2021-04-01 2021-04-01 一种居家老人呼救设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110357389.5A CN113077798B (zh) 2021-04-01 2021-04-01 一种居家老人呼救设备

Publications (2)

Publication Number Publication Date
CN113077798A true CN113077798A (zh) 2021-07-06
CN113077798B CN113077798B (zh) 2022-11-22

Family

ID=76614667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110357389.5A Active CN113077798B (zh) 2021-04-01 2021-04-01 一种居家老人呼救设备

Country Status (1)

Country Link
CN (1) CN113077798B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694648A (zh) * 2022-02-22 2022-07-01 青岛海尔科技有限公司 设备的控制方法和装置、存储介质及电子装置
CN114898738A (zh) * 2022-04-27 2022-08-12 青岛海尔空调器有限总公司 家电设备语音交互方法、装置、家电设备及存储介质
CN116504246A (zh) * 2023-06-26 2023-07-28 深圳市矽昊智能科技有限公司 基于蓝牙设备的语音遥控方法、设备、存储介质及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及***
US20130325473A1 (en) * 2012-05-31 2013-12-05 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
CN104143326A (zh) * 2013-12-03 2014-11-12 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
CN104269016A (zh) * 2014-09-22 2015-01-07 北京奇艺世纪科技有限公司 一种报警方法及装置
CN108400912A (zh) * 2018-01-16 2018-08-14 珠海格力电器股份有限公司 一种用于电器的求助方法、装置、存储介质及电器
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
CN110148420A (zh) * 2019-06-30 2019-08-20 桂林电子科技大学 一种适用于噪声环境下的语音识别方法
CN110992609A (zh) * 2019-11-11 2020-04-10 云知声智能科技股份有限公司 一种基于声纹检测的自动呼救***及方法
CN112185395A (zh) * 2020-09-04 2021-01-05 哈尔滨工业大学(深圳) 一种基于差分隐私的联邦声纹识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及***
US20130325473A1 (en) * 2012-05-31 2013-12-05 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
CN104143326A (zh) * 2013-12-03 2014-11-12 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
CN104269016A (zh) * 2014-09-22 2015-01-07 北京奇艺世纪科技有限公司 一种报警方法及装置
CN108400912A (zh) * 2018-01-16 2018-08-14 珠海格力电器股份有限公司 一种用于电器的求助方法、装置、存储介质及电器
CN108777146A (zh) * 2018-05-31 2018-11-09 平安科技(深圳)有限公司 语音模型训练方法、说话人识别方法、装置、设备及介质
CN110148420A (zh) * 2019-06-30 2019-08-20 桂林电子科技大学 一种适用于噪声环境下的语音识别方法
CN110992609A (zh) * 2019-11-11 2020-04-10 云知声智能科技股份有限公司 一种基于声纹检测的自动呼救***及方法
CN112185395A (zh) * 2020-09-04 2021-01-05 哈尔滨工业大学(深圳) 一种基于差分隐私的联邦声纹识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MESSAOUD BENGHERABI,等: "A framework for a GMM-UBM based speaker verification and the need of a large arabic database", 《 2007 9TH INTERNATIONAL SYMPOSIUM ON SIGNAL PROCESSING AND ITS APPLICATIONS》 *
周国鑫 等: "基于GMM-UBM模型的说话人辨识研究", 《无线电工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694648A (zh) * 2022-02-22 2022-07-01 青岛海尔科技有限公司 设备的控制方法和装置、存储介质及电子装置
CN114898738A (zh) * 2022-04-27 2022-08-12 青岛海尔空调器有限总公司 家电设备语音交互方法、装置、家电设备及存储介质
CN116504246A (zh) * 2023-06-26 2023-07-28 深圳市矽昊智能科技有限公司 基于蓝牙设备的语音遥控方法、设备、存储介质及装置
CN116504246B (zh) * 2023-06-26 2023-11-24 深圳市矽昊智能科技有限公司 基于蓝牙设备的语音遥控方法、设备、存储介质及装置

Also Published As

Publication number Publication date
CN113077798B (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN113077798B (zh) 一种居家老人呼救设备
JP6393730B2 (ja) 音声識別方法および装置
CN103065631B (zh) 一种语音识别的方法、装置
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
US20220215853A1 (en) Audio signal processing method, model training method, and related apparatus
CN112562691B (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
CN109215665A (zh) 一种基于3d卷积神经网络的声纹识别方法
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
CN109256139A (zh) 一种基于Triplet-Loss的说话人识别方法
CN115602165B (zh) 基于金融***的数字员工智能***
CN110992940B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
Hou et al. Domain adversarial training for speech enhancement
CN113658596A (zh) 语意辨识方法与语意辨识装置
CN110197663A (zh) 一种控制方法、装置及电子设备
CN110364169A (zh) 声纹识别方法、装置、设备及计算机可读存储介质
CN107154996B (zh) 来电拦截方法、装置、存储介质及终端
CN113241059B (zh) 语音唤醒方法、装置、设备及存储介质
CN114387968A (zh) 语音解锁方法、装置、电子设备及存储介质
CN113889098A (zh) 命令词识别方法、装置、移动终端和可读存储介质
Jiang et al. A Speech Emotion Recognition Method Based on Improved Residual Network
Liu et al. Review of the anti-noise method in the speech recognition technology
CN114400009B (zh) 声纹识别方法、装置以及电子设备
TWI748587B (zh) 聲音事件偵測系統及方法
Wahile et al. Home Automation System Based on Speech Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant