CN106920553A - 一种语音识别控制***及其识别控制方法 - Google Patents

一种语音识别控制***及其识别控制方法 Download PDF

Info

Publication number
CN106920553A
CN106920553A CN201710279717.8A CN201710279717A CN106920553A CN 106920553 A CN106920553 A CN 106920553A CN 201710279717 A CN201710279717 A CN 201710279717A CN 106920553 A CN106920553 A CN 106920553A
Authority
CN
China
Prior art keywords
sound
exynos
development boards
speech recognition
stm32 single
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710279717.8A
Other languages
English (en)
Inventor
祁伟
陈仕铠
卢旭
袁飞
刘军
康慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN201710279717.8A priority Critical patent/CN106920553A/zh
Publication of CN106920553A publication Critical patent/CN106920553A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种语音识别控制***及其识别控制方法,该***包括拾音器、Exynos 4412开发板、讯飞语音云端以及STM32单片机。方法包括以下步骤:拾音器拾取外来声音并转成数字信号传入到Exynos 4412开发板;Exynos4412开发板把信息发送到讯飞语音云端上经过处理后的结果以json文本格式返回到Exynos 4412开发板上;而后Exynos 4412开发板将匹配结果进行分析并提取转化成关键字,然后以GB2312码的格式将信息传入到STM32单片机;最后STM32单片机进行任务匹配并执行匹配后的相应任务。该***和方法不但大大的减少了误识别的概率,而且适应性强,可以广泛嵌入生活中的小型机器里面。

Description

一种语音识别控制***及其识别控制方法
技术领域
本发明属于嵌入式的语音识别控制技术领域,具体是涉及一种语音识别控制***及其识别控制方法。
背景技术
语音识别控制技术应用广泛,尤其是在机器人控制领域,目前的语音识别控制的方法一般是首先录音过程采用Windows自带的API函数,通过录音程序获取需要识别的音频文件;然后将音频文件输入到讯飞语音识别函数接口中进行处理,输出与音频相对应的文本;再用Zigbee根据识别文本中的关键词来控制。该技术存在以下问题:1、该技术是基于Windows操作***上的,Windows操作***对硬件要求很大,不作为嵌入式***,无法嵌入到小型机器比如路由器等,因此适应性差,不能广泛使用;2、该项技术对识别文本关键词存在缺陷,误识别的概率比较大。
发明内容
本发明针对现有技术的不足,提供一种语音识别控制***及其识别控制方法;该***和方法不但大大的减少了误识别的概率,而且适应性强,可以广泛嵌入生活中的小型机器里面。
为了达到上述目的,本发明一种语音识别控制***,主要包括用于拾取外来声音并将该声音的模拟信号合成处理成数字信号的拾音器,作为主机处理来自拾音器声音数字信号的Exynos 4412开发板,用于将声音数字信号进行分析匹配并把结果转化为json文本格式的讯飞语音云端,以及作为控制处理器处理来自Exynos 4412开发板的信息并执行处理该信息后相应任务的STM32单片机;所述拾音器、Exynos 4412开发板以及STM32单片机依次通信连接,而讯飞语音云端则基于Exynos 4412开发板作为主机平台分别与拾音器、STM32单片机通信连接;所述操作***为Linux QT操作***,Exynos 4412开发板则作为该操作***的平台。
优选地,所述拾音器将声音的模拟信号传递到麦克风阵列模块XFM10412的DSP中合成处理成数字信号。
优选地,所述拾音器为由四个线性麦克风,底板滤波电路、接口电路,以及麦克风阵列模块组成。该麦克风阵列模块为科大讯飞的麦克风阵列模块XFM10412。
优选地,所述Exynos 4412开发板将来自讯飞语音云端的json文本格式的匹配结果进行分析并提取转化成关键字,然后以GB2312码的格式将信息用串口通信方式传入到STM32单片机,之后STM32单片机将以GB2312码的格式进行任务匹配并执行匹配后的相应任务,从而完成语音识别控制的功能。
一种语音识别控制***的识别控制方法,主要包括以下步骤:
首先,拾音器拾取外来声音并将该声音的模拟信号合成处理成数字信号后通过串口通信传入到Exynos 4412开发板;此时的拾音器作为从机,Exynos4412开发板则作为主机;
其次,Exynos4412开发板基于讯飞开发的语音识别应用程序在Linux QT操作***上执行,从拾音器传来的信息发送到讯飞语音云端上经过处理后的结果以json文本格式返回到操作***上;
第三,Exynos 4412开发板将来自讯飞语音云端的json文本格式的匹配结果进行分析并提取转化成关键字,然后以GB2312码的格式将信息用串口通信方式传入到STM32单片机;此时的STM32单片机作为从机,Exynos4412开发板则作为主机;
最后,STM32单片机将以GB2312码的格式进行任务匹配,之后再执行匹配后的相应任务,从而完成语音识别控制的功能。
优选地,所述拾音器为由四个线性麦克风,底板滤波电路、接口电路,以及麦克风阵列模块组成。该麦克风阵列模块为科大讯飞的麦克风阵列模块XFM10412。
与现有技术相比,本发明主要有以下优点:1、以Linux QT作为操作***平台,Linux QT操作***对硬件要求低,所以适应性好,应用范围广;2、结合讯飞语音成熟的技术在***本身多次过滤信息可以大大降低误识别率;3、以json文本关键字转化成GB2312码,并在STM32单片机以GB2312码匹配相应任务来完成控制,用此方法可以更精确的执行任务。
附图说明
图1为本发明语音识别控制***的组成框图;
图2为本发明语音识别控制***的算法流程图。
其中,1为拾音器,2为Exynos 4412开发板,3为讯飞语音云端,4为STM32单片机。
具体实施方式
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
参照图1和图2,本发明实施例一种语音识别控制***,主要包括用于拾取外来声音并将该声音的模拟信号合成处理成数字信号的拾音器1,作为主机处理来自拾音器1声音数字信号的Exynos 4412开发板2,用于将声音数字信号进行分析匹配并把结果转化为json文本格式以返回到操作***上的讯飞语音云端3,以及作为控制处理器处理来自Exynos4412开发板2的信息并执行处理该信息后相应任务的STM32单片机4;所述拾音器1、Exynos4412开发板2以及STM32单片机4依次通信连接,而讯飞语音云端3则基于Exynos 4412开发板2作为主机平台分别与拾音器1、STM32单片机3通信连接;所述操作***为Linux QT操作***,Exynos 4412开发板2则作为该操作***的平台。
所述拾音器1将声音的模拟信号传递到模块的DSP中合成处理成数字信号,所述拾音器1为由四个线性麦克风,底板滤波电路、接口电路,以及科大讯飞的麦克风阵列模块XFM10412组成。所述Exynos 4412开发板2将来自讯飞语音云端3的json文本格式的匹配结果进行分析并提取转化成关键字,然后以GB2312码的格式将信息用串口通信方式传入到STM32单片机4,之后STM32单片机4将以GB2312码的格式进行任务匹配并执行匹配后的相应任务,从而完成语音识别控制的功能。
参照图1和图2,一种语音识别控制***的识别控制方法,主要包括以下步骤:
首先,拾音器1拾取外来声音并将该声音的模拟信号合成处理成数字信号后通过串口通信传入到Exynos 4412开发板2;此时的拾音器1作为从机,Exynos4412开发板2则作为主机;
所述拾音器1为由四个线性麦克风,底板滤波电路、接口电路,以及科大讯飞的麦克风阵列模块XFM10412组成。该拾音器1将声音的模拟信号传递到模块的DSP中合成处理成数字信号。
其次,Exynos4412开发板2基于讯飞开发的语音识别应用程序在Linux QT操作***上执行,从拾音器1传来的信息发送到讯飞语音云端3上经过处理后的结果以json文本格式返回到操作***上;
第三,Exynos 4412开发板2将来自讯飞语音云端3的json文本格式的匹配结果进行分析并提取转化成关键字,然后以GB2312码的格式将信息用串口通信方式传入到STM32单片机4;此时的STM32单片机4作为从机,Exynos4412开发板2则作为主机;
最后,STM32单片机4将以GB2312码的格式进行任务匹配,之后再执行匹配后的相应任务,从而完成语音识别控制的功能。
本发明中的软件设计分为讯飞语音识别应用程序的设计、STM32单片机的控制程序设计、Linux QT操作***移植和驱动移植开发设计。其中讯飞语音识别应用程序设计是利用讯飞本身的接口函数进行开发,修改添加代码适合自己的要求,本项设计是把最原始语音识别全部文本结果以JSON格式提取出关键字,将原始语音识别可能带来的误识别结果进行多次过滤,大大降低误识别的机率,再加上讯飞云端计算的高正确率识别,总体语音识别的正确率可以做到99%。STM32单片机控制程序设计是编写串口通信功能代码和控制电机的代码。其中,这是通过GB2312码进行任务匹配后再控制相应电机做出相应动作;LinuxQT操作***移植和驱动移植开发设计是在Exynos4412开发板移植Linux QT操作***,由于移植完的***缺乏WIFI驱动和声卡驱动,需要根据WIFI芯片进行驱动开发,声卡驱动进行库移植等。
与现有技术相比,本发明主要有以下优点:1、以Linux QT作为操作***平台,Linux QT操作***对硬件要求低,所以适应性好,应用范围广;2、结合讯飞语音成熟的技术再***本身多次过滤信息可以大大降低误识别率;3、以json文本关键字转化成GB2312码,并在STM32单片机以GB2312码匹配相应任务来完成控制,用此方法可以更精确的执行任务。
以上已将本发明做一详细说明,但显而易见,本领域的技术人员可以进行各种改变和改进,而不背离所附权利要求书所限定的本发明的范围。

Claims (5)

1.一种语音识别控制***,其特征在于:主要包括用于拾取外来声音并将该声音的模拟信号合成处理成数字信号的拾音器,作为主机处理来自拾音器声音数字信号的Exynos4412开发板,用于将声音数字信号进行分析匹配并把结果转化为json文本格式的讯飞语音云端,以及作为控制处理器处理来自Exynos 4412开发板的信息并执行处理该信息后相应任务的STM32单片机;所述拾音器、Exynos 4412开发板以及STM32单片机依次通信连接,而讯飞语音云端则基于Exynos 4412开发板作为主机平台分别与拾音器、STM32单片机通信连接;所述操作***为Linux QT操作***,Exynos 4412开发板则作为该操作***的平台。
2.根据权利要求1所述的一种语音识别控制***,其特征在于:所述拾音器为由四个线性麦克风,底板滤波电路、接口电路,以及麦克风阵列模块组成。
3.根据权利要求1所述的一种语音识别控制***,其特征在于:所述Exynos 4412开发板将来自讯飞语音云端的json文本格式的匹配结果进行分析并提取转化成关键字,然后以GB2312码的格式将信息用串口通信方式传入到STM32单片机,之后STM32单片机将以GB2312码的格式进行任务匹配并执行匹配后的相应任务,从而完成语音识别控制的功能。
4.如权利要求1所述的一种语音识别控制***的识别控制方法,其特征在于,主要包括以下步骤:
首先,拾音器拾取外来声音并将该声音的模拟信号合成处理成数字信号后通过串口通信传入到Exynos 4412开发板;
其次,Exynos4412开发板基于讯飞开发的语音识别应用程序在Linux QT操作***上执行,从拾音器传来的信息发送到讯飞语音云端上经过处理后的结果以json文本格式返回到嵌入Linux QT操作***的Exynos 4412开发板上;
第三,Exynos 4412开发板将来自讯飞语音云端的json文本格式的匹配结果进行分析并提取转化成关键字,然后以GB2312码的格式将信息用串口通信方式传入到STM32单片机;
最后,STM32单片机将以GB2312码的格式进行任务匹配,之后再执行匹配后的相应任务,从而完成语音识别控制的功能。
5.根据权利要求4所述的一种语音识别控制方法,其特征在于:所述拾音器为由四个线性麦克风,底板滤波电路、接口电路,以及麦克风阵列模块组成。
CN201710279717.8A 2017-04-21 2017-04-21 一种语音识别控制***及其识别控制方法 Pending CN106920553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710279717.8A CN106920553A (zh) 2017-04-21 2017-04-21 一种语音识别控制***及其识别控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710279717.8A CN106920553A (zh) 2017-04-21 2017-04-21 一种语音识别控制***及其识别控制方法

Publications (1)

Publication Number Publication Date
CN106920553A true CN106920553A (zh) 2017-07-04

Family

ID=59567567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710279717.8A Pending CN106920553A (zh) 2017-04-21 2017-04-21 一种语音识别控制***及其识别控制方法

Country Status (1)

Country Link
CN (1) CN106920553A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637539A (zh) * 2019-01-29 2019-04-16 浪潮金融信息技术有限公司 一种基于科大讯飞不限时间的所见即所得的语音识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708863A (zh) * 2011-03-28 2012-10-03 德信互动科技(北京)有限公司 语音对话设备、***、及语音对话实现方法
CN103336788A (zh) * 2013-06-05 2013-10-02 上海交通大学 一种仿人机器人辅助的互联网信息获取方法及***
CN105446146A (zh) * 2015-11-19 2016-03-30 深圳创想未来机器人有限公司 基于语义分析的智能终端控制方法、***及智能终端
CN105491080A (zh) * 2014-09-16 2016-04-13 比亚迪股份有限公司 基于移动终端的车辆控制方法及***
CN205487330U (zh) * 2015-12-28 2016-08-17 天津天大天星智能物联技术有限公司 一种基于语音阵列的控制器
CN105895100A (zh) * 2016-06-29 2016-08-24 广东美的厨房电器制造有限公司 一种厨房语音控制装置、***和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708863A (zh) * 2011-03-28 2012-10-03 德信互动科技(北京)有限公司 语音对话设备、***、及语音对话实现方法
CN103336788A (zh) * 2013-06-05 2013-10-02 上海交通大学 一种仿人机器人辅助的互联网信息获取方法及***
CN105491080A (zh) * 2014-09-16 2016-04-13 比亚迪股份有限公司 基于移动终端的车辆控制方法及***
CN105446146A (zh) * 2015-11-19 2016-03-30 深圳创想未来机器人有限公司 基于语义分析的智能终端控制方法、***及智能终端
CN205487330U (zh) * 2015-12-28 2016-08-17 天津天大天星智能物联技术有限公司 一种基于语音阵列的控制器
CN105895100A (zh) * 2016-06-29 2016-08-24 广东美的厨房电器制造有限公司 一种厨房语音控制装置、***和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
严毓培等: "智能家居服务型机器人的设计与开发", 《电子世界》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637539A (zh) * 2019-01-29 2019-04-16 浪潮金融信息技术有限公司 一种基于科大讯飞不限时间的所见即所得的语音识别方法

Similar Documents

Publication Publication Date Title
CN101524594B (zh) 随节奏自主舞蹈的人形机器人
CN101923857A (zh) 一种人机交互的可扩展语音识别方法
CN103700370A (zh) 一种广播电视语音识别***方法及***
CN106126186A (zh) 一种多通道音频信号并行采集装置
CN109935226A (zh) 一种基于深度神经网络的远场语音识别增强***及方法
CN109389976A (zh) 智能家电设备控制方法、装置、智能家电设备及存储介质
CN103198829A (zh) 一种降低车内噪音提高语音识别率的方法、装置和设备
CN105261356A (zh) 一种语音识别***及方法
CN104123930A (zh) 喉音识别方法及装置
CN110349582A (zh) 显示装置与远场语音处理电路
CN108447483A (zh) 语音识别***
CN102890931A (zh) 提高语音识别率的方法
CN102671383A (zh) 基于声控的游戏实现装置和方法
CN106920553A (zh) 一种语音识别控制***及其识别控制方法
CN107818778A (zh) 一种基于智能语音鼠标的交互***
CN106328165A (zh) 一种机器人自身音源消除***
CN208538474U (zh) 语音识别***
CN110265014A (zh) 一种语音控制的方法、装置及翻译机
CN112420063A (zh) 一种语音增强方法和装置
CN110148407A (zh) 用于智能手环的语音控制方法
CN206209693U (zh) 一种多通道音频信号并行采集装置
CN204760038U (zh) 具有录音和文本记录功能的录音笔
CN205647914U (zh) 一种智能远控音响
CN102698434A (zh) 基于对话的游戏实现装置和方法
CN2862265Y (zh) 声控mp3播放器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170704

WD01 Invention patent application deemed withdrawn after publication