CN1264107A - 语音识别残疾人环境控制*** - Google Patents

语音识别残疾人环境控制*** Download PDF

Info

Publication number
CN1264107A
CN1264107A CN00103360A CN00103360A CN1264107A CN 1264107 A CN1264107 A CN 1264107A CN 00103360 A CN00103360 A CN 00103360A CN 00103360 A CN00103360 A CN 00103360A CN 1264107 A CN1264107 A CN 1264107A
Authority
CN
China
Prior art keywords
unit
speech recognition
control
links
control system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00103360A
Other languages
English (en)
Other versions
CN1123861C (zh
Inventor
唐庆玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN00103360A priority Critical patent/CN1123861C/zh
Publication of CN1264107A publication Critical patent/CN1264107A/zh
Application granted granted Critical
Publication of CN1123861C publication Critical patent/CN1123861C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明属于电子仪器技术领域,包括多媒体电脑及与其并行接口相连的控制箱,预先储存在该电脑中的由学习模块和语音识别模块构成的***软件,所说的控制箱包括与电器设备相连的电器电源控制电路,与电话相连的电话控制电路,与电视机相连的电视机红外遥控电路。本发明可使残疾人只须通过说话来控制家用电器,使用方便,可使残疾人达到部分生活自理,减轻了家庭负担,有重大的社会意义,因此可推广应用,有一定的市场需求和经济效益。

Description

语音识别残疾人环境控制***
本发明属于电子仪器技术领域,特别涉及残疾人环境控制***的改进设计。
残疾人环境控制器可使高位截瘫残疾人利用身体上现存的某些能力进行操作,使其达到或接近正常人控制家用电器的能力。1998年本申清人研制成功了ECU-1型残疾人环境控制器,它是一种电子装置,其结构及工作原理如图1所示。该装置主要包括电器选择控制单元、控制信号监视器,与该控制单元一端相连的电视控制单元及红外控制器,与呼叫蜂鸣器相连的开关输出,与电灯、电扇等电器相连的电源输出;该控制单元另一端与气控开关、颌触按键开关、口棒按键开关三种控制开关相连。该装置采用这些特别设计的开关适用于高位截瘫残疾人接通或断开电灯、电扇、电视机等家用电器的电源,并能红外遥控电视机。
ECU-1型残疾人环境控制器的优点是电路简单,价格便宜,但对于重度残疾人来说仍显得不够方便,因为这种电子装置需要残疾人使用头部的运动动作来控制。
本发明的目的是为克服已有技术的不足之处,提出一种语音识别残疾人环境控制***,基于PC机控制,采用语音识别技术,能使残疾人通过说话发布命令就可开关电灯、电扇、看电视,不仅使用方便,还增加了接电话和打电话的控制功能。
本发明提出的一种语音识别残疾人环境控制***,其特征在于,多媒体电脑及与其并行接口相连的控制箱,预先储存在该电脑中的由学习模块和语音识别模块构成的***软件,所说的控制箱包括与电器设备相连的电器电源控制电路,与电话相连的电话控制电路,与电视机相连的电视机红外遥控电路之一种或一种以上。
所说的电器电源控制电路由驱动电路及与其相连的微型继电器组和中间继电器所组成;所说的电话控制电路由驱动电路及与其相连的微型继电器组所组成;所说的电视机红外遥控电路由驱动电路及与其相连的微型继电器组和红外遥控芯片所组成。所说的驱动电路由MC1413芯片构成。
所说的学习模块由依次相连的数据采集单元、切分音节单元、提取特征矢量单元、特征矢量分块单元及建立语音模板单元所组成。
所说的语音识别模块由依次相连的数据采集单元、切分音节单元、提取特征矢量单元、特征矢量分块单元、判别单元、噪声消除单元及判决输出单元所组成。
本发明的语音识别残疾人环境控制***可使残疾人只须通过说话来控制家用电器,较之通过按键开关的控制方法无疑是非常方便的,可使残疾人达到部分生活自理,减轻了家庭负担,有重大的社会意义,因此可推广应用,有一定的市场需求和经济效益。
附图简要说明:
图1为已有技术的结构及工作原理示意图。
图2为本发明的***硬件总体结构示意图。
图3为本发明的控制箱的电路原理框图。
图4为本发明的控制***软件学习模块程序流程图。
图5为本发明的控制***软件语音识别模块程序流程图。
图6为本发明的实施例的学习模块程序初始化及数据采集程序流程图。
图7为本发明实施例的wavePre函数程序流程图。
图8为本发明实施例的识别程序总流程图。
图9为本发明实施例的OnBufferReturn函数程序流程图。
图10为本发明实施例的Recognize函数程序流程图。
图11本发明实施的控制箱的电路原理图之一。
图12本发明实施例控制箱的电路原理图之二。
图13本发明实施例控制箱的电路原理图之三。
本发明的***硬件电路和软件及其实施例结合各附图详细说明如下:
本发明***硬件电路总体结构如图2所示,由PC586个人电脑(包括显示器)、声卡(包括麦克风、音箱)、控制箱组成。声卡插于PC机的扩展插槽中,声卡上接有麦克风和音箱。残疾人对着麦克风说话发布命令,声卡将语音采集为数据送PC机。PC机通过语音识别软件识别残疾人发布的命令,并通过显示器进行文字提示和通过声卡及音箱进行语言提示。PC机识别出命令类型后,向控制箱输出相应的控制码,以控制不同的功能(控制功能见“功能及主要技术指标”)。
本发明的控制箱电路结构及工作原理如图3所示。它由四部分电路组成:①PC机并行接口:②电器电源控制电路;③电话机控制电路;④电视机红外遥控电路。PC机并行接口分为三组,其中一组用来控制电器的电源,一组用来控制电话机,一组用来控制电视机。在PC机识别出语音命令类型后,由这三组并行接口输出相应的控制码。如果是电器电源的控制码,则该控制码通过驱动电路1驱动后,使微型继电器组1吸合,进而使中间继电器吸合,从而接通电器设备的电源。如果是电话的控制码,则该控制码通过驱动电路2驱动后,使微型继电器组2吸合,从而控制电话的拨号功能。如果是电视机的控制码,则该控制码通过驱动电路3驱动后,使微型继电器组3吸合,从而选择红外遥控芯片的某个功能,使电视机进入这个功能。
本发明的***软件分为学习模块和语音识别模块两大模块,这两个模块的软件程序流程图分别如图4和图5所示,两个模块有相同的部分。程序由Windows98下的VC++5.0语言编写。
学习模块是用于建立语音模板,其过程为:使用者发布一个命令,该模块先进行数据采集,然后切分音节、提取特征矢量、特征矢量分块,最后建立起语音模板。每一个命令都建立一个模板,这些模板用于语音识别时与未知的输入命令进行匹配判别。
语音识别模块是用于判别输入的命令是什么命令,并根据不同的命令,向接口输出不同的控制码。语音识别由语音数据采集、切分音节、提取特征矢量、特征矢量分块、判别、噪声消除及判决输出共7个程序部分组成。
各程序模块的功能、算法原理以及实施例程序流程图详细说明如下:
(1)学习模块
学习模块的功能是开辟一块可存储4秒语音数据的内存块记录,使用者对每个关键词发音(每个词5次)并进行录音(采集数据),然后调用特征矢量分析函数进行分析获取语音模板。录音时调用了Windows提供的低级录音控制函数wavein族函数,采样率为8kHz,精度为16bit。
学习模块的总流程图如图6所示。程序初始化调用OnInitDialog函数,其功能是完成界面上提示性语言的设置,并且装入用户词表。接着显示学习模块界面,等待用户输入。用户输入有四种:选择、确定、取消和示范,程序根据用户输入,分别转入各自的处理程序。若用户输入的是“选择”,则调用OnStart函数,进行录音准备。接着调用RecordWaveStart函数,RecordWaveStart函数的作用是启动录音过程,每录一次关键词,程序都要判断是否录完,若未录完,则继续录。若5次关键词全部录完,则调用OnRecordWaveStop函数。OnRecordWaveStop函数的功能是判断一下返回的内存块是否录满,如果没有录满,不作处理。如果返回的内存块是录满的,就调用wavePre函数。
wavePre函数的流程图如图7所示。其作用是对输入的语音进行音节切分、提取特征矢量以及特征矢量分块,并返回音节数量给OnRecordWaveStop函数。流程图开始首先求动态零位置和确定能频值域值,然后判断是否到了缓冲区的结尾。若未到,则转入寻找音节的起始位置。在寻找音节的起始位置时,先看语音数据的能频值是否超过了阈值,如果超过阈值就再向后看两帧,如果后两帧也超过阈值就认为第一次超过阈值时是音节的开始,否则视为噪声。在确定了一个音节的开始部分后继续向下寻找音节的结尾部分,判断的准则是能频值首次低于阈值。在寻找的过程中始终注意不要超出缓冲区的末尾。在找到了一个音节的开头和结尾后还要再判断这个音节的长度是否在允许的范围内(0.25~1秒),这样做的目的是为了去除噪声的干扰,这个程序过程叫做音节切分。若到了缓冲区的结尾,则转入进行提取特征矢量,用线性预测编码倒谱和差分倒谱作为特征矢量。最后进行特征矢量分块处理,即建立了一个语音模板。
在学习模块的总流程图中,当学习过程结束后,“确定”键才会变为有效,这时点击该键就会调用OnOK函数。OnOK函数程序判断当前用户的语音模板文件是否存在,如果不存在就将分块后的语音模板数据以当前用户名存盘;如果语音模板文件已存在,程序会询问操作者是要覆盖该文件还是新建一个用户。
在学习模块的总流程图中,OnCancel函数的作用是关闭声音输入设备、释放内存并关闭对话框。在学习中如果点击“取消”键就会调用OnCancel函数,中止学习过程。
(2)语音识别模块
识别模块是整个程序的主要工作部分,其总流程图如图8所示。识别模块和学习模块所用的多媒体函数差不多,所用的采样率和采样精度一样,但是在程序结构上要复杂得多。程序初始化时调用OnInitDialog函数,OnInitDialog函数的作用是分配一些在识别中用到的内存块,完成一些界面上提示性语言的设置,并且装入用户词表。然后显示识别模块界面,等待用户输入。用户输入有2个键:“选择”和“取消”。若点中“选择”键,则调用OnStart2函数,OnStart2函数完成一些识别前的准备工作。然后进入调用OnBufferReturn函数。“取消”键是在用户结束识别模块时调用的,它主要完成以下几项工作:关闭通讯端口、强制返回所有未返回的内存块、关闭波形输入设备和释放内存。
OnBufferReturn函数的流程图如图9所示。OnBufferReturn函数的作用是每次内存块从语音输入设备(声卡)返回时都会调用该函数。当第一次调用时,会测平均值和能频值阈值等参数,在屏幕上显示“请开始说话”并进行语音提示,然后将内存块传送给语音输入设备并开始采集语音数据。当第二次以后再调用OnBufferReturn函数时主要进行识别和对识别结果进行进一步的处理:如果返回的内存块数量不够5个,就不进行处理;如果返回的内存块数量已够5个,就将返回的内存块按时间顺序重新排队,并判断有没有语音输入。若无语音输入,则将当前的第一个内存块传送给语音输入设备并继续采集语音数据。若有语音输入,则调用Recognize函数进行语音识别。如果识别结果正确,则语音识别的结果要进行显示,并从并行接口输出控制码到控制箱。如果识别结果为“拒识(拒绝识别)”,则显示“拒识”,再提示进行下一次输入。
Recognize函数的流程图如图10所示。Recognize函数的功能是从一段连续的语音中切割出独立的音节,方法和程序流程与学习模块类似。当切分音节、提取特征矢量、特征矢量分块以后,用滑动模板法将输入的命令与语音模板进行比较,找出最接近的一个语音模板,并且用双阈值法对识别结果再进行筛选。在有识别结果的情况下,函数的返回值是识别结果;对于拒识情况和超出上阈值的情况返回值部为空。
本发明控制箱实施例的电路结合图11、12、13详细说明如下:
①PC机并行接口
控制箱采用PC机标准并行接口,通过连接器CN1接于PC机的任意一个空闲的并行接口上。由并行接口输出的8位数据,其中低6位为控制码,高2位为地址码。高2位地址码通过地址译码器U5(74LS138)进行地址译码,它的4位输出分别作为4个控制码接口U1、U2、U10、U11(74LS273)的片选信号。4个控制码接口采用“上电清0电路”(由R1、R4、C1、U4:B、U4:C组成)进行上电清0。当语音识别程序判断出操作者发出的命令后,由这4个控制码接口输出相应的控制码。
②电器电源控制电路
由U1控制码接口输出控制电源的控制码。U1的输出先由驱动器U6(MC1413)驱动后,去分别控制6个微型继电器RL0~RL5,然后RL0~RL5的常开触点控制中间继电器RL25~RL30,中间继电器的常开触点又接通220V电源,从而接通6种家用电器的220V电源。
③电视机红外遥控电路
由U2控制码接口输出控制电视机的控制码。U2的输出先由驱动器U7(MC1413)驱动后,去分别控制5个微型继电器RL6~RL10,然后RL6~RL10的常开触点S1~S6控制红外遥控芯片TC9012,由红外遥控芯片TC9012控制红外发光二极管L1,从而控制电视机的频道转换、音量加减及开关机。
④电话机控制电路
由U10、U11控制码接口输出控制电话机的控制码。U10、U11的输出先由驱动器U12、U13(MC1413)驱动后,去分别控制12个微型继电器RL11~RL22,然后RL11~RL22的常开触点key“0”~key“9”、key“G”、key“M”通过连接器CN2分别接通电话机的0~9十个数字键、挂机键及免提键。本实施例的功能及主要技术指标:
1.功能
语音识别残疾人环境控制***(Speech-recognition-based EnvironmentalControl System for the Disabled,SECS)是为残疾人设计的控制家用电器的电子装置。SECS-1型适合于高位截瘫(四肢全瘫)残疾人,通过语言发布命令,由计算机自动语音识别,判别命令的类型,然后通过控制电路控制家用电器(电灯、电扇、电视机等)的电源开关、红外遥控电视机任意选择频道、控制电话机打电话或接电话。
2.主要技术指标
主机:PC586,内存32MB,硬盘540MB,配有音卡、音箱及麦克风。
语音识别:最多可识别30个孤立词命令,与口音无关。识别正确、拒识时均有
          语音提示。识别率96%,拒识率4%,误识率0%。
电器控制:语音识别控制,最多可控制6个电器的电源开关,每路额定输出220V、
          5A,总额定输出220V、10A。
电视机控制:语音识别,红外遥控,红外遥控距离3米;
            控制内容为:频道+、频道-、音量+、音量-、开机、关机;
            电视机原有的红外遥控器仍可照常使用。
电话机控制:语音识别,有线控制,可控制免提、拨号(0~9)、挂机、重拨等功
            能,可拨打国际国内电话。电话机原有的功能仍可照常使用。
人机界面:具有屏幕显示和语音提示双重提示。

Claims (5)

1、一种语音识别残疾人环境控制***,其特征在于,包括多媒体电脑及与其并行接口相连的控制箱,预先储存在该电脑中的由学习模块和语音识别模块构成的***软件,所说的控制箱包括与电器设备相连的电器电源控制电路,与电话相连的电话控制电路,与电视机相连的电视机红外遥控电路之一种或一种以上。
2、如权利要求1所述的语音识别残疾人环境控制***,其特征在于,所说的电器电源控制电路由驱动电路及与其相连的微型继电器组和中间继电器所组成;所说的电话控制电路由驱动电路及与其相连的微型继电器组所组成;所说的电视机红外遥控电路由驱动电路及与其相连的微型继电器组和红外遥控芯片所组成。
3、如权利要求2所述的语音识别残疾人环境控制***,其特征在于,所说的驱动电路由MC1413芯片构成。
4、如权利要求1所述的语音识别残疾人环境控制***,其特征在于,所说的学习模块由依次相连的数据采集单元、切分音节单元、提取特征矢量单元、特征矢量分块单元及建立语音模板单元所组成。
5、如权利要求1所述的语音识别残疾人环境控制***,其特征在于,所说的语音识别模块由依次相连的数据采集单元、切分音节单元、提取特征矢量单元、特征矢量分块单元、判别单元、噪声消除单元及判决输出单元所组成。
CN00103360A 2000-05-12 2000-05-12 语音识别残疾人环境控制*** Expired - Fee Related CN1123861C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN00103360A CN1123861C (zh) 2000-05-12 2000-05-12 语音识别残疾人环境控制***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN00103360A CN1123861C (zh) 2000-05-12 2000-05-12 语音识别残疾人环境控制***

Publications (2)

Publication Number Publication Date
CN1264107A true CN1264107A (zh) 2000-08-23
CN1123861C CN1123861C (zh) 2003-10-08

Family

ID=4576922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00103360A Expired - Fee Related CN1123861C (zh) 2000-05-12 2000-05-12 语音识别残疾人环境控制***

Country Status (1)

Country Link
CN (1) CN1123861C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551490A (zh) * 2015-12-23 2016-05-04 中国电子科技集团公司第四十一研究所 一种电子测量仪器的智能语音交互***及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551490A (zh) * 2015-12-23 2016-05-04 中国电子科技集团公司第四十一研究所 一种电子测量仪器的智能语音交互***及方法
CN105551490B (zh) * 2015-12-23 2019-09-10 中国电子科技集团公司第四十一研究所 一种电子测量仪器的智能语音交互***及方法

Also Published As

Publication number Publication date
CN1123861C (zh) 2003-10-08

Similar Documents

Publication Publication Date Title
CN1238836C (zh) 在话音识别的说话者独立型和依赖型模式中组合dtw和hmm
US6519479B1 (en) Spoken user interface for speech-enabled devices
CN1249667C (zh) 声控服务
CN1454380A (zh) 具有多个话音识别引擎的话音识别***和方法
CN110689877A (zh) 一种语音结束端点检测方法及装置
EP2506252A3 (en) Topic specific models for text formatting and speech recognition
CN1301026C (zh) 移动终端语音电话本***
CN104731549A (zh) 一种基于鼠标的语音识别人机交互装置及其方法
CN104168353A (zh) 蓝牙耳机及其语音交互控制方法
CN1391210A (zh) 用于一种语言识别设备的训练或适配方法
US20050149337A1 (en) Automatic speech recognition to control integrated communication devices
CN1178203C (zh) 话音识别拒绝方法
CN1920945A (zh) 语音的声调轮廓的转换
CN1125437C (zh) 语音识别方法
CA2221913A1 (en) Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
CN101825953A (zh) 一种语音输入和拼音输入相结合的中文输入法产品
CN1165889C (zh) 话音拨号的方法和***
CN1123861C (zh) 语音识别残疾人环境控制***
CN1101025C (zh) 语音命令控制器的训练与识别方法
CN1267838C (zh) 一种语音检索方法及采用该方法的音像信息检索***
CN2681491Y (zh) 电视语音点播器
CN1450445A (zh) 可携式电子装置的语言跟读及发音矫正***与方法
CN108091336A (zh) 辅助练习普通话的智能机器人
CN114187915A (zh) 一种互动方法
TWI242729B (en) Speech database establishment and recognition method and system thereof

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee