CN105845139A - 一种离线语音控制方法和装置 - Google Patents

一种离线语音控制方法和装置 Download PDF

Info

Publication number
CN105845139A
CN105845139A CN201610338393.6A CN201610338393A CN105845139A CN 105845139 A CN105845139 A CN 105845139A CN 201610338393 A CN201610338393 A CN 201610338393A CN 105845139 A CN105845139 A CN 105845139A
Authority
CN
China
Prior art keywords
syllable
characteristic information
matching result
institute
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610338393.6A
Other languages
English (en)
Other versions
CN105845139B (zh
Inventor
高振
张春梅
王迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North Minzu University
Original Assignee
North Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Minzu University filed Critical North Minzu University
Priority to CN201610338393.6A priority Critical patent/CN105845139B/zh
Publication of CN105845139A publication Critical patent/CN105845139A/zh
Application granted granted Critical
Publication of CN105845139B publication Critical patent/CN105845139B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供的离线语音控制方法和装置,属于语音控制技术领域,其中,所述方法包括:获取语音信息;对语音信息进行特征提取,得到特征信息;将特征信息与本地数据库进行模式匹配,得到匹配结果,其中,本地数据库为预先存储在本地的数据库;根据匹配结果执行对应的控制指令。本发明的离线语音控制方法和装置,通过预先把数据储存到用户终端的数据库,以实现用户终端在离线状态完成语音识别;满足用户在没有网络的环境下,仍然能够方便使用语音识别的技术。

Description

一种离线语音控制方法和装置
技术领域
本发明涉及语音控制技术领域,具体而言,涉及一种离线语音控制方法和装置。
背景技术
语音控制是信息技术领域重要的技术之一,并且随着科技的发展和进步,语音控制已经广泛应用到了我们的现实生活中。目前语音控制的现有技术中,语音识别均采用“云”端存储,并在“云”端进行语音识别的技术,因此语音控制需要依托于网络才能够实现。但现实生活工作中,在语音控制的各种使用环境,网络并不能完全覆盖;同时很多用户的流量具有限制,用户在使用语音控制时会担心流量增加导致使用费用的增长。因此完全依赖“云”端进行语音识别技术造成了用户的很大的不便。
发明内容
有鉴于此,本发明实施例的目的在于提供一种离线语音控制方法和装置,以实现在离线状态下完成语音的识别和控制。
本发明实施例提供的一种离线语音控制方法,包括:获取语音信息;对所述语音信息进行特征提取,得到特征信息;将所述特征信息与本地数据库进行模式匹配,得到匹配结果,其中,所述本地数据库为预先存储在本地的数据库;根据所述匹配结果执行对应的控制指令。
优选地,所述本地数据库包括声学模型和语言数据库;所述将所述特征信息与本地数据库进行模式匹配,得到匹配结果的步骤,包括:将所述特征信息与所述声学模型进行匹配,得到识别结果;将所述识别结果与所述语言数据库进行匹配,得到所述匹配结果。
优选地,所述将所述特征信息与所述声学模型进行匹配,得到识别结果的步骤包括:根据所述声学模型将所述特征信息拆分为多个音节;将所述识别结果与所述语言数据库进行匹配,得到匹配结果的步骤包括:根据所述语言数据库将每个所述音节转换为文字,将多个所述文字组合成多个词串,其中,每个所述词串的音节数量与所述特征信息的音节数量相同;获得每个所述词串的正确率,将所述正确率满足预设标准的词串判定为匹配结果。
优选地,获得每个所述词串的正确率,包括:按照所述词串的所有音节的排列顺序,获取所述词串中每个所述音节出现在排列在该音节之前的所有音节之后的概率;根据每个所述词串中所有音节的概率获得每个所述词串的正确率。
优选地,根据所述匹配结果执行对应的控制指令,包括:
根据所述匹配结果获得与所述匹配结果对应的控制指令,其中,所述控制指令用于控制相册执行与所述控制指令对应的操作;执行所述控制指令,将所述相册的执行结果显示。
本发明实施例提供的一种离线语音控制装置,包括:语音获取模块,用于获取语音信息;特征提取模块,用于对所述语音信息进行特征提取,得到特征信息;匹配模块,用于将所述特征信息与本地数据库进行模式匹配,得到匹配结果,其中,所述本地数据库为预先存储在本地的数据库;执行模块,用于根据所述匹配结果执行对应的控制指令。
优选地,所述本地数据库包括声学模型和语言数据库;所述匹配模块包括:声学子模块,用于将所述特征信息与所述声学模型进行匹配,得到识别结果;语言子模块,用于将所述识别结果与所述语言数据库进行匹配,得到所述匹配结果。
优选地,所述声学子模块具体用于:根据所述声学模型将所述特征信息拆分为多个音节;所述语言子模块用于:根据所述语言数据库将每个所述音节转换为文字,将多个所述文字组合成多个词串,其中,每个所述词串的音节数量与所述特征信息的音节数量相同;获得每个所述词串的正确率,将所述正确率满足预设标准的词串判定为匹配结果。
优选地,所述语言子模块具体用于:按照所述词串的所有音节的排列顺序,获取所述词串中每个所述音节出现在排列在该音节之前的所有音节之后的概率;根据每个所述词串中所有音节的概率获得每个所述词串的正确率。
优选地,所述执行模块具体用于:根据所述匹配结果获得与所述匹配结果对应的控制指令,其中,所述控制指令用于控制相册执行与所述控制指令对应的操作;执行所述控制指令,将所述相册的执行结果显示。
与现有技术相比,本发明的离线语音控制方法和装置通过预先把数据储存到用户终端的数据库,以实现用户终端在离线状态完成语音识别;满足用户在没有网络的环境下,仍然能够方便使用语音识别的技术。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明较佳实施例提供的计算机的方框示意图;
图2为本发明实施例提供的离线语音控制方法的流程图;
图3为本发明实施例提供的离线语音控制方法中模式匹配的步骤S300的方法流程图;
图4为本发明实施例应用于相册的初始状态界面示意图;
图5为本发明实施例应用于相册的打开状态界面示意图;
图6为本发明实施例应用于相册的使用状态界面示意图;
图7为本发明实施例应用于相册的关闭状态界面示意图;
图8为本发明实施例提供的离线语音控制装置的模块框图;
图9为图8的匹配模块的模块框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本发明实施例提供的离线语音控制方法和装置可应用于用户终端中,于本发明实施例中,用户终端优选为智能终端设备,例如可以包括智能手机、平板电脑、车载电脑、车载平板等等。
图1示出了一种可应用于本发明实施例的用户终端的结构框图。如图1所示,用户终端100包括:离线语音控制装置200、存储器101、存储控制器102,一个或多个(图中仅示出一个)处理器103、外设接口108、输入输出模块104、音频模块105、显示模块106、射频模块107等。
所述存储器101、存储控制器102,一个或多个(图中仅示出一个)处理器103、外设接口108、输入输出模块104、音频模块105、显示模块106、射频模块107各模块相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些模块相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器101可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器103中,或者由处理器103实现。
处理器103可能是一种集成电路芯片,具有信号的处理能力。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述外设接口108将各种输入/输入装置耦合至处理器以及存储器。在一些实施例中,外设接口108,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出模块104用于提供给用户输入数据实现用户与本地终端的交互。所述输入输出模块104可以是,但不限于,鼠标和键盘等。
音频模块105向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示模块106在所述本地终端与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示模块106可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
射频模块107用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。
可以理解,图1所示的结构仅为示意,用户终端100还可以包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参阅图2,是本发明较佳实施例提供的应用于图1所示的计算机的离线语音控制方法的流程图。所述的方法包括:步骤S100,客户端获取语音信息;步骤S200,客户端将获取到的语音信息进行特征提取,并得到特征信息;步骤S300,客户端将提取到的特征信息与预先存储在客户端的本地数据库进行模式匹配,得到匹配结果;其中,所述本地数据库为预先存储在本地的数据库,且匹配结果即是语音信息的识别结果;步骤S400,根据本地数据库的匹配结果执行对应的控制命令。下面将对本发明实施例提供的离线语音控制方法的具体流程进行详细阐述。
步骤S100,客户端获取语音信息。
当用户使用用户终端的离线语音识别功能时,用户开启安装在用户终端上的客户端,并开启语音监听开关。在开启语音监听开关后,客户端进入监听并准备获取语音信息的状态,此时客户端控制用户终端的语音接收设备进行语音监听。在开启语音监听开关后,用户发出语音信息;客户端通过用户终端的语音接收设备接收到用户的语音信息。
步骤S200,客户端将获取到的语音信息进行特征提取,并得到特征信息。
客户端获取到的语音信息中含有语音的指令信息和冗杂的环境音。在语音的识别过程中,冗杂的环境音对语音的识别是没有作用的;因此客户端需要将冗杂的环境音过滤掉,从而提取得到的语音特征为能够准确表达语音的指令信息。由于语音信息是一个时间和幅度都连续变化的语音模拟信号,而语音识别的过程是一个对语音信息进行数字化处理的过程,因此客户端需要将语音信息进行模/数转换。
在于本发明实施例中,所述语音的特征信息能够准确表达语音指令的信息,是指特征信息需要与环境音的音频信息进行区别。因此,可通过特征信息的音频信号特性与环境音的音频信号特性不同,进行语音信息中特征信息的提取。例如,特征信息的幅度或者振动频率与环境音的幅度或者振动频率明显不同,通过上述不同之处,能够将所述特征信息由语音信息内提取出。
优选地,当客户端获取到语音信息后,客户端提取语音的Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC),即也是提取语音的特征信息。需要说明的是,对语音信息进行特征提取的方法有多种,由于语音信息大多集中在低频部分,高频部分的语音信息易受到环境噪声干扰,所以MFCC参数强调语音的低频信息,从而突出了有利于识别的语音信息。因此在本发明第一实施例提供的离线语音识别方法中,优选采用提取分帧语音信息的MFCC特征。
在语音信息的特征提取过程中,客户端首先按照语音信息的输入顺序,将语音信息通过窗函数进行分帧处理。因此处理后的语音信息也就被分成了多个小段,每小段称为一帧。需要说明的是,由于在分帧时采用窗函数能够减少频谱能量泄漏,因此需采用截取函数对信号进行截断,在本发明提供的离线语音识别方法的第一实施例中,优选采用窗函数。语音信息在分帧后变成了多个小段,但语音信息的波形在时域上没有描述能力,因此将语音信息的波形通过傅里叶变换,将语音信息转换为频域的能量分布。通过不同的能量分布,就能代表不同的语音特性。把傅里叶变换后的语音信息的频谱通过三角滤波器进行卷积;且通过三角滤波器将语音信息的频谱进行平滑化和消除谐波,突显原先语音信息的共振峰,即也过滤掉了语音信息中冗杂音的信息。最后,再把滤波后语音信息进行离散余弦变换,从而得到MFCC参数。此时通过离散余弦变换把每一帧波形最终变成与其对应的一个特征向量,可以简单地理解为每个特征向量包含了对应这一帧语音的内容信息,将多个特征向量按照语音信息的输入顺序组合,即是语音的特征信息。
步骤S300,客户端将提取到的特征信息与预先存储在客户端的本地数据库进行模式匹配,得到匹配结果;其中,所述本地数据库为预先存储在本地的数据库,且匹配结果即是语音信息的识别结果。
在本地数据库中包括:声学模型和语言数据库,本发明实施例提供的离线语音控制方法的目的是把语音信息转换成文字信息。具体是输入一段语音信息,要找一个文字序列(由词或字组成),使得它与语音信号的匹配程度最高。因此,需要将语音信息提取到的特征信息与本地数据库进行匹配。
参阅图3,具体地,客户端将提取到的特征信息与预先存储在客户端的本地数据库进行模式匹配,得到匹配结果的步骤,具体包括:
步骤S310,客户端将特征信息与声学模型进行匹配,得到声学模型的识别结果。
所述声学模型存储有音节,每个音节对应一个特征信息,而特征信息包括多个特征向量,因此,音节是数据信息的体现。每个音节可以由多个特征向量构成,通过声学模型能够将特征信息拆分为多个音节。例如“放大”,“放”的音频数据对应一个音节,而“大”的音频数据也对应一个音节。
具体的实施方式为:
客户端通过声学模型的匹配,声学模型将特征信息拆分为多个音节。在本地数据库中,声学模型存储了多个用于和特征信息匹配的音节,而每个音节也是由多个特征向量组成的。由于每帧都是一个特征向量,即每帧都是一个状态值,因此整个特征信息是由多个状态值组成。假设特征信息有900帧,每帧对应1个状态值,每3个状态组合成一个音节,那么整段特征信息至少组合成300个音节。至少300个音节随机组成语音信息,那么语音信息就会得到许多无序的状态值节。
因此,在本发明实施例提供的离线语音控制方法中,通过sphinx引擎,在客户端将特征信息和声学模型匹配时,使用隐马尔可夫模型(HiddenMarkov Model,HMM)进行匹配。通过隐马尔可夫模型构建一个匹配网络,并从匹配网络中寻找与语音信息最匹配的路径。例如:匹配网络中只包含了“今天晴天”和“今天下雨”两个句子的状态路径,无论特征信息是什么,识别出的结果必然是这两个句子中的一句。因此,通过隐马尔可夫模型可快速并准确的对特征信息进行匹配。
客户端将特征信息和声学模型匹配,通过sphinx引擎搜索声学模型中音节的特征向量,将特征信息的特征向量通过回收算法与声学模型进行递归的依次检验。通过检验,再次将特征信息中的无用信息抛掉。再通过隐马尔可夫模型,将特征信息中的多个特征向量和声学模型中的音节进行匹配。通过声学模型的匹配,最终将特征信息拆分成了多个音节,而多个音节即是识别结果。需要说明的是,sphinx引擎的使用并不仅在回收算法时,而在整个声学模型匹配的过程中都会使用sphinx引擎。
步骤S320,客户端将声学模型得到的识别结果与语言数据库进行匹配,得到语音信息的匹配结果。
于本发明实施例中,通过特征信息声学模型匹配得到了多个音节;由于识别结果的音节是数字信息,因此需要将识别结果与语言数据库进行匹配。匹配的过程即是,通过匹配使语言信息具有音韵和语言逻辑。需要说明的是,音韵并不是数字信息,而是语音信息的本质读音。
具体的实施方式为:
在本发明实施例提供的离线语音控制方法中,语言数据库包括:语言模型和字典。而语言数据库是将声学模型匹配得到的多个音节转换为文字,并将文字组合成多个词串。
客户端通过声学模型匹配得到多个音节,但每个音节只是多个特征向量的组合,并不具有实际的音韵和语言逻辑。在本发明实施例提供的离线语音识别方法中,语言数据库中的字典中预先存储有多个语音指令中每个字的单个音韵。因此,将声学模型匹配得到的识别结果与语言数据库匹配时,字典将识别结果中的每个音节进行比对,比对成功后,字典将音节由数字信息转换为文字信息。通过字典对多个音节的比对和转换,识别结果的多个音节具有了音韵,并且是文字信息的状态,但此时识别结果的多个音节任不具有语言逻辑。因此,需要再将识别结果的多个音节和语言数据库中的语言模型进行匹配。
当识别结果和语言模型进行匹配时,语言模型获得每个词串的正确率,且客户端将正确率满足预设标准的词串判定为匹配结果。需要说明的是,由于通过字典比对和转换后的文字,并不具有语言逻辑;因此语言模型通过语言的逻辑关系,将文字组合成具有语言逻辑的词串。又由于,一段完整的语音信息可以是由多个词串组成,因此语言模型需要将多个词串进行语音逻辑的组合,即词串的组合过程也是正确率的计算。
在本发明实施例提供的离线语音控制方法中,语言模型通过Viterbi算法进行匹配,Viterbi算法将文字通过语言逻辑组合成了词串,但Viterbi算法只能得到单个词串的逻辑,即每个词串的最优解。当语音信息为多个词串的组成时,仅通过Viterbi算法便不能识别出语言信息,即语言信息中词串之间的语言逻辑便会出现错误。
因此在通过Viterbi算法之后,语言模型通过N-Gram模型的计算将多个词串进行语言逻辑的组合,从而识别出正确的语音信息。N-Gram模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。因此,N-Gram模型将多个词串按照语音信息的输入顺序进行排列,即多个词串的所有音节也是按照语音信息的输入顺序进行排列。需要说明的是,由于N-Gram模型是链式的计算,因此必须确定其开始计算的端点。而将多个词串按照语音信息的输入顺序进行排列即确定了N-Gram模型的计算端点。但端点后词串音节的排列顺序由N-Gram模型计算得到,并不一定等于初始排列顺序。
N-Gram模型获取词串中每个音节出现在排列在该音节之前的所有音节之后的概率,即每个音节的出现,只能通过该音节的前一个音节所具有的语言逻辑去计算该音节的出现概率。当N-Gram模型通过前一个音节的语言逻辑,计算前一个音节后面那个音节为何种音节时,前一个音节后面的那个音节出现情况都有至少一种。每种情况都因为语言逻辑具有不同的出现概率,选取出现概率最高的音节确定为后一个音节。
N-Gram模型的链式计算,通过前一个音节确定后一个音节,从而可以确定语音信息中所有的音节,并通过计算时的语言逻辑,把音节重新组合相互之间具有语言逻辑的词串。因此,通过语言模型匹配,从而识别出了语言信息,相互之间具有语言逻辑关系的词串便是离线语音的识别结果。
需要说明的是,词串的预设标准的正确率即是,组成该词串的所有音节最高出现概率的乘积,而整个语音信息的预设标准的正确率即是所有词串正确率的乘积。因此,当本发明实施例提供的离线语音控制方法中,正确的语音识别时,语音信息的识别正确率等于预设的正确率。
步骤S400,根据本地数据库的匹配结果执行对应的控制命令。
客户端将语言数据库的匹配结果的指令传用户终端的另一客户端中,由于另一客户端预设有对应匹配结果的执行指令,因此另一客户端根据自身对应匹配结果的执行指令,执行相应的操作。
参阅图4、图5、图6、图7,应用本发明实施例提供的离线语音控制方法控制相册。
参阅图4和图5,用户点击右上角的语音监听开关,使开关由关闭的状态转换为开启的状态。当语音监听开关为转换为开启状态后,用户终端再次提示用户是否确认打开语音监听开关。用户确认打开后,客户端进入监听并准备获取语音信息的状态,此时客户端控制用户终端的语音接收设备进行语音监听。
参阅图6,在开启语音监听开关后,用户发出“放大”的语音信息;客户端控制用户终端的语音接收设备接收到“放大”的语音信息,并且客户端将户终端的语音接收设备接收到“放大”语音信息进行获取。
由于“放大”这个语音信息在输入的时间端点不可能完全准确,因此在“放”之前、“大”之后以及“放”“大”之间都会具体一个环境的冗杂音,所以客户端需要将“放大”语音信息进行特征提取。客户端将“放大”语音信息进行分帧提取MFCC特征,由于过滤的冗杂音,提取后的“放大”为“放”和“大”分别对应的特征向量。
通过特征提取后,客户端将“放”和“大”分别对应的特征向量进行模式匹配,以便于客户端的语音识别。在声学模型匹配的过程中,声学模型将为“放”和“大”分别对应的特征向量再次进行回收算法和隐马尔可夫模型匹配后,得到“放”和“大”分别对应的音节,此时的“放”和“大”并不具备音韵和语言逻辑。客户端将“放”和“大”分别对应音节和字典进行比对,比对成功后,字典将“放”和“大”的特征向量转换为文字信息。此时“放”和“大”识别结果具有音韵,但任不具有语言逻辑。
客户端再将“放”和“大”进行语言模型匹配,通过Viterbi算法计算出“放”和“大”分别的语言逻辑。但此时“放”和“大”相互之间不具备语言逻辑,因此,如果此时输出结果,结果就可能为“大放”这个无效的指令。所以,通过N-Gram模型的语言逻辑,计算出“放大”这个语音信息的正确率并和预设正确率进行比对。若“放大”这个语音信息的正确率等于预设正确率,那么识别正确,否则便不能识别。
识别正确后,客户端将“放大”的语音识别结果输入相册的客户端中。相册的客户端将“放大”的语音识别结果进行解码,并且将“放大”和自身的数据库中的控制指令进行比对。当相册的客户端比对到和“放大”对应的控制指令时,相册客户端执行此控制指令放大相片。相册的客户端在相片放大到最大时,在界面产生“已经放到最大”的文字提示。
参阅图7,当用户使用完成时,用户点击右上角的语音监听开关,使开关由开启的状态转换为关闭的状态,此时语音监听开关关闭,无法进行离线语音识别。需要说明的是,语音识别的指令并不仅限于“放大”,其他指令在此就不做过多详细说明。
请参阅图8,是本发明实施例提供的应用于图1所示的计算机的离线语音控制装置200的示意图。所述的装置包括:语音获取模块210、特征提取模块220、匹配模块230和执行模块240。
下面将对发明实施例提供的离线语音控制装置的具体流程进行说明。
语音获取模块210用于获取语音信息。特征提取模块220用于对获取到的语音信息进行提取,得到特征信息。所述的特征信息即是,通过特征提取模块220过滤掉语音信息中对语音识别无用的冗杂音,最终得到能够识别的特征信息。
匹配模块230用于将所述特征信息与本地数据库进行模式匹配,得到匹配结果。由于在本地数据库中包括:声学模型和语言数据库,本发明实施例提供的离线语音控制装置的目的是把语音信息转换成文字信息。具体是输入一段语音信息,要找一个文字序列(由词或字组成),使得它与语音信号的匹配程度最高。因此,需要将语音信息提取到的特征信息与本地数据库进行匹配。
执行模块240,用于根据匹配结果获得与匹配结果对应的控制指令,其中,控制指令用于控制相册执行与控制指令对应的操作。在执行控制指令后,将相册的执行结果显示。
参阅图9,匹配模块230包括:声学子模块231和语言子模块232。
声学子模块231用于将所述特征信息与所述声学模型进行匹配,得到识别结果。
声学模型存储有音节,每个音节对应一个特征向量,而特征信息包括多个特征向量,因此,每个特征向量可以由多个音节构成。因此,通过声学模型能够将特征信息拆分为多个音节。
语言子模块232用于将所述识别结果与所述语言数据库进行匹配,得到匹配结果。
在本发明实施例提供的离线语音控制装置中,语言数据库包括:语言模型和字典。而语言数据库是将声学模型匹配得到的多个音节转换为文字,并将文字组合成多个词串。由于语言子模块232是将声学模型匹配得到的多个音节转换为文字的过程,因此每个词串的音节数量与特征信息的音节数量相同。
语言子模块232的过程中,语言子模块232按照词串所有音节的排列顺序,获取词串中每个音节出现在排列在该音节之前的所有音节之后的概率。根据每个词串中所有音节的概率获得每个所述词串的正确率,并将正确率满足预设标准的词串判定为匹配结果。
需要说明的是,词串的预设标准的正确率即是,组成该词串的所有音节最高出现概率的乘积,而整个语音信息的预设标准的正确率即是所有词串正确率的乘积。因此,当本发明实施例提供的离线语音控制方法中,正确的语音识别时,语音信息的识别正确率等于预设的正确率。
需要说明的是,由于所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
综上所述,通过将用户语音信息中提取出特征信息和预先存储在本地的数据库进行识别和控制,实现了离线语音的控制。与现有的语音控制技术相比,本发明实施例提供的离线语音控制方法和装置通过预先把数据储存到用户终端的数据库,以实现用户终端在离线状态完成语音识别;满足用户在没有网络的环境下,仍然能够方便使用语音识别的技术。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种离线语音控制方法,其特征在于,包括:
获取语音信息;
对所述语音信息进行特征提取,得到特征信息;
将所述特征信息与本地数据库进行模式匹配,得到匹配结果,其中,所述本地数据库为预先存储在本地的数据库;
根据所述匹配结果执行对应的控制指令。
2.根据权利要求1所述的方法,其特征在于,所述本地数据库包括声学模型和语言数据库;所述将所述特征信息与本地数据库进行模式匹配,得到匹配结果的步骤,包括:
将所述特征信息与所述声学模型进行匹配,得到识别结果;
将所述识别结果与所述语言数据库进行匹配,得到所述匹配结果。
3.根据权利要求2所述的方法,其特征在于:
所述将所述特征信息与所述声学模型进行匹配,得到识别结果的步骤包括:
根据所述声学模型将所述特征信息拆分为多个音节;
将所述识别结果与所述语言数据库进行匹配,得到匹配结果的步骤包括:
根据所述语言数据库将每个所述音节转换为文字,将多个所述文字组合成多个词串,其中,每个所述词串的音节数量与所述特征信息的音节数量相同;
获得每个所述词串的正确率,将所述正确率满足预设标准的词串判定为匹配结果。
4.根据权利要求3所述的方法,其特征在于,获得每个所述词串的正确率,包括:
按照所述词串的所有音节的排列顺序,获取所述词串中每个所述音节出现在排列在该音节之前的所有音节之后的概率;
根据每个所述词串中所有音节的概率获得每个所述词串的正确率。
5.根据权利要求1所述的方法,其特征在于,根据所述匹配结果执行对应的控制指令,包括:
根据所述匹配结果获得与所述匹配结果对应的控制指令,其中,所述控制指令用于控制相册执行与所述控制指令对应的操作;
执行所述控制指令,将所述相册的执行结果显示。
6.一种离线语音控制装置,其特征在于,包括:
语音获取模块,用于获取语音信息;
特征提取模块,用于对所述语音信息进行特征提取,得到特征信息;
匹配模块,用于将所述特征信息与本地数据库进行模式匹配,得到匹配结果,其中,所述本地数据库为预先存储在本地的数据库;
执行模块,用于根据所述匹配结果执行对应的控制指令。
7.根据权利要求6所述的装置,其特征在于,所述本地数据库包括声学模型和语言数据库;所述匹配模块包括:
声学子模块,用于将所述特征信息与所述声学模型进行匹配,得到识别结果;
语言子模块,用于将所述识别结果与所述语言数据库进行匹配,得到所述匹配结果。
8.根据权利要求7所述的装置,其特征在于,所述声学子模块具体用于:
根据所述声学模型将所述特征信息拆分为多个音节;
所述语言子模块用于:
根据所述语言数据库将每个所述音节转换为文字,将多个所述文字组合成多个词串,其中,每个所述词串的音节数量与所述特征信息的音节数量相同;
获得每个所述词串的正确率,将所述正确率满足预设标准的词串判定为匹配结果。
9.根据权利要求8所述的装置,其特征在于,所述语言子模块具体用于:
按照所述词串的所有音节的排列顺序,获取所述词串中每个所述音节出现在排列在该音节之前的所有音节之后的概率;
根据每个所述词串中所有音节的概率获得每个所述词串的正确率。
10.根据权利要求6所述的装置,其特征在于,所述执行模块具体用于:
根据所述匹配结果获得与所述匹配结果对应的控制指令,其中,所述控制指令用于控制相册执行与所述控制指令对应的操作;
执行所述控制指令,将所述相册的执行结果显示。
CN201610338393.6A 2016-05-20 2016-05-20 一种离线语音控制方法和装置 Expired - Fee Related CN105845139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610338393.6A CN105845139B (zh) 2016-05-20 2016-05-20 一种离线语音控制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610338393.6A CN105845139B (zh) 2016-05-20 2016-05-20 一种离线语音控制方法和装置

Publications (2)

Publication Number Publication Date
CN105845139A true CN105845139A (zh) 2016-08-10
CN105845139B CN105845139B (zh) 2020-06-16

Family

ID=56593935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610338393.6A Expired - Fee Related CN105845139B (zh) 2016-05-20 2016-05-20 一种离线语音控制方法和装置

Country Status (1)

Country Link
CN (1) CN105845139B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717853A (zh) * 2018-05-09 2018-10-30 深圳艾比仿生机器人科技有限公司 一种人机语音交互方法、装置及存储介质
CN108766441A (zh) * 2018-05-29 2018-11-06 广东声将军科技有限公司 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN109065044A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 唤醒词识别方法、装置、电子设备及计算机可读存储介质
CN110769111A (zh) * 2019-10-28 2020-02-07 珠海格力电器股份有限公司 一种降噪方法、***、存储介质以及终端
CN110970035A (zh) * 2019-12-06 2020-04-07 广州国音智能科技有限公司 单机语音识别方法、装置及计算机可读存储介质
CN111554292A (zh) * 2020-05-22 2020-08-18 广州三星通信技术研究有限公司 在移动终端中进行人机交互的方法及其装置
CN111787380A (zh) * 2020-07-06 2020-10-16 四川长虹网络科技有限责任公司 语音换台控制方法、装置和手持智能终端
CN112789561A (zh) * 2018-10-15 2021-05-11 美的集团股份有限公司 用于为电器定制便携式自然语言处理接口的***和方法
CN113793610A (zh) * 2021-09-10 2021-12-14 北京源来善尚科技有限公司 一种语音控制物业管理的方法、***、设备及介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1431650A (zh) * 2003-02-21 2003-07-23 清华大学 基于局部能量加权的抗噪声语音识别方法
CN1703923A (zh) * 2002-10-18 2005-11-30 中国科学院声学研究所 一种便携式数字移动通讯设备及其语音控制方法和***
CN101154385A (zh) * 2006-09-28 2008-04-02 北京远大超人机器人科技有限公司 机器人语音动作的控制方法及其所采用的控制***
CN101432801A (zh) * 2006-02-23 2009-05-13 日本电气株式会社 语音识别词典制作支持***、语音识别词典制作支持方法以及语音识别词典制作支持用程序
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机***
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
CN102970618A (zh) * 2012-11-26 2013-03-13 河海大学 基于音节识别的视频点播方法
CN103366736A (zh) * 2012-03-29 2013-10-23 北京中传天籁数字技术有限公司 语音声调的识别方法和装置
CN103514884A (zh) * 2012-06-26 2014-01-15 华为终端有限公司 通话音降噪方法及终端
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN103578465A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语音辨识方法及电子装置
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1703923A (zh) * 2002-10-18 2005-11-30 中国科学院声学研究所 一种便携式数字移动通讯设备及其语音控制方法和***
CN1431650A (zh) * 2003-02-21 2003-07-23 清华大学 基于局部能量加权的抗噪声语音识别方法
CN101432801A (zh) * 2006-02-23 2009-05-13 日本电气株式会社 语音识别词典制作支持***、语音识别词典制作支持方法以及语音识别词典制作支持用程序
CN101154385A (zh) * 2006-09-28 2008-04-02 北京远大超人机器人科技有限公司 机器人语音动作的控制方法及其所采用的控制***
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机***
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
CN103366736A (zh) * 2012-03-29 2013-10-23 北京中传天籁数字技术有限公司 语音声调的识别方法和装置
CN103514884A (zh) * 2012-06-26 2014-01-15 华为终端有限公司 通话音降噪方法及终端
CN102970618A (zh) * 2012-11-26 2013-03-13 河海大学 基于音节识别的视频点播方法
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN103578465A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语音辨识方法及电子装置
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717853A (zh) * 2018-05-09 2018-10-30 深圳艾比仿生机器人科技有限公司 一种人机语音交互方法、装置及存储介质
CN108766441A (zh) * 2018-05-29 2018-11-06 广东声将军科技有限公司 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN108766441B (zh) * 2018-05-29 2020-11-10 广东声将军科技有限公司 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN109065044A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 唤醒词识别方法、装置、电子设备及计算机可读存储介质
CN112789561A (zh) * 2018-10-15 2021-05-11 美的集团股份有限公司 用于为电器定制便携式自然语言处理接口的***和方法
CN112789561B (zh) * 2018-10-15 2022-04-05 美的集团股份有限公司 用于为电器定制便携式自然语言处理接口的***和方法
CN110769111A (zh) * 2019-10-28 2020-02-07 珠海格力电器股份有限公司 一种降噪方法、***、存储介质以及终端
CN110970035A (zh) * 2019-12-06 2020-04-07 广州国音智能科技有限公司 单机语音识别方法、装置及计算机可读存储介质
CN111554292A (zh) * 2020-05-22 2020-08-18 广州三星通信技术研究有限公司 在移动终端中进行人机交互的方法及其装置
CN111787380A (zh) * 2020-07-06 2020-10-16 四川长虹网络科技有限责任公司 语音换台控制方法、装置和手持智能终端
CN113793610A (zh) * 2021-09-10 2021-12-14 北京源来善尚科技有限公司 一种语音控制物业管理的方法、***、设备及介质

Also Published As

Publication number Publication date
CN105845139B (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN105845139A (zh) 一种离线语音控制方法和装置
Gupta et al. An analysis on LPC, RASTA and MFCC techniques in Automatic Speech recognition system
CN112562691B (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
CN107369439B (zh) 一种语音唤醒方法和装置
Chavan et al. An overview of speech recognition using HMM
CN108364662B (zh) 基于成对鉴别任务的语音情感识别方法与***
Thakur et al. Speech recognition using euclidean distance
JPS62231997A (ja) 音声認識システム及びその方法
CN109979428B (zh) 音频生成方法和装置、存储介质、电子设备
Ghule et al. Feature extraction techniques for speech recognition: A review
KR20200105589A (ko) 음성 감정 인식 방법 및 시스템
CN108346426A (zh) 语音识别装置以及语音识别方法
US20150348535A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN112185342A (zh) 语音转换与模型训练方法、装置和***及存储介质
Stanek et al. Algorithms for vowel recognition in fluent speech based on formant positions
Chadha et al. Optimal feature extraction and selection techniques for speech processing: A review
Devi et al. Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn
CN117219046A (zh) 一种交互语音情感控制方法及***
CN113421584A (zh) 音频降噪方法、装置、计算机设备及存储介质
JP2017520016A (ja) パラメトリック音声合成システムに基づく声門パルスモデルの励磁信号形成方法
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Bou-Ghazale et al. Duration and spectral based stress token generation for HMM speech recognition under stress
Omar et al. Feature fusion techniques based training MLP for speaker identification system
Mini et al. Feature vector selection of fusion of MFCC and SMRT coefficients for SVM classifier based speech recognition system
Koniaris et al. Selecting static and dynamic features using an advanced auditory model for speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200616

CF01 Termination of patent right due to non-payment of annual fee