CN106328167A - 一种智能语音识别机器人及控制*** - Google Patents
一种智能语音识别机器人及控制*** Download PDFInfo
- Publication number
- CN106328167A CN106328167A CN201610668701.1A CN201610668701A CN106328167A CN 106328167 A CN106328167 A CN 106328167A CN 201610668701 A CN201610668701 A CN 201610668701A CN 106328167 A CN106328167 A CN 106328167A
- Authority
- CN
- China
- Prior art keywords
- signal
- module
- acoustical signal
- sub
- acoustical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 130
- 238000000034 method Methods 0.000 claims description 67
- 230000009466 transformation Effects 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 27
- 238000009432 framing Methods 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 8
- 206010068319 Oropharyngeal pain Diseases 0.000 claims description 7
- 201000007100 Pharyngitis Diseases 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 7
- 230000000052 comparative effect Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 206010002953 Aphonia Diseases 0.000 description 3
- 238000007598 dipping method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/091—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种智能语音识别机器人及控制***,涉及机器人领域。其特征在于,所述***包括:声音采集装置、闪存、硬盘存储器、数字信号处理控制中心、显示装置和数据更新装置;所述声音采集装置信号连接于数字信号处理控制中心;所述数字信号处理控制中心分别信号连接于显示装置、闪存、硬盘存储器和数据更新装置。本发明具有识别准确、实时更新和结构简单等优点。
Description
技术领域
本发明涉及机器人领域,特别涉及一种智能语音识别机器人及控制***。
背景技术
随着生活水平的不断提高,卡拉OK练歌房在我国已经非常普遍。卡拉OK机的自动评分功能往往会引起一些人的兴趣,觉得机器能够自动评分是件挺神奇的事。但同时也会发现它有一个很大的缺点--评分不太准。本项目立足于近几年出现的一些数据处理和控制集成芯片,将一些语音信号处理的专用算法应用到评分***中来,以改进现行***,增强评分的准确性。
当这个想法被一个叫唐骏的中国留学生提出并付诸实践后,立即在日本引起了巨大的轰动。人们普遍都感到非常的新奇,都想尝试尝试这种有趣的机器,这就造就了第一个买下这项专利的三星公司的卡拉OK设备的销售量的飞涨,甚至有人评价说是这项发明挽救了当时处在市场危机中的三星公司。不过,过了一段时间人们发现这种机器有一种问题——评分不准。后来这项专利的发明者唐骏也公开表示,该***的评分效果不是很准确,演唱时只要尽力模仿唐骏的声音就一定能得到高分。
所以研发一种具备高识别能力和识别准确性的智能语音识别机器人及控制***就显得尤为重要。
发明内容
鉴于此,本发明提供了一种智能语音识别机器人及控制***,本发明具有识别准确、实时更新和结构简单等优点。
本发明采用的技术方案如下:
一种智能语音识别机器人,其特征在于,所述机器人包括:声音采集装置、闪存、硬盘存储器、数字信号处理控制中心、显示装置和数据更新装置;所述声音采集装置信号连接于数字信号处理控制中心;所述数字信号处理控制中心分别信号连接于显示装置、闪存和硬盘存储器;所述硬盘存储器信号连接于数据更新装置;所述数据更新装置信号连接于云端数据库。
采用上述技术方案,本发明的智能语音识别机器人能够实时采集到使用者的歌声,并对该歌声进行处理,针对处理后的结果和硬盘存储器中的样本声音进行比较和判断,最终对歌唱者的声音进行打分。
所述数字信号处理控制中心包括:分帧处理模块、判断模块、傅里叶变换模块和比较模块;所述分帧处理模块信号分别信号连接于声音采集装置、比较模块和判断模块;所述判断模块分别信号连接于傅里叶变换模块、闪存和硬盘存储器;所述傅里叶变换模块信号连接于比较模块;所述比较模块分别信号连接于显示装置分帧处理装置。
采用上述技术方案,数字信号处理控制中心对声音信号进行分帧处理后,将对分帧后的声音信号进行判断、傅里叶变换和比较处理。并根据判断模块的判断结果和比较模块的比较结果对声音信号进行打分,将打分结果发送至显示装置进行显示。
所述分帧处理模块,用于对采集到的声音信号进行分帧;所述判断模块,用于判断分帧处理后的声音信号是否协调;所述傅里叶变换模块,用于对判断模块处理后的信号进行傅里叶变换;所述比较模块,用于对傅里叶变换后的声音信号进行频域的比较。
所述分帧处理模块包括:分帧模块和判断模块;所述分帧模块分别信号连接于声音采集装置和判断模块,用于将声音信号进行分帧处理;所述判断模块信号连接于分帧模块,用于对分帧后的声音信号进行判断,判断其是否位于声音信号的最后一帧。
采用上述技术方案,分帧处理模块将对声音信号进行分帧处理。然后再针对每一帧的声音信号进行后续处理。可以对声音信号进行更高精度的识别和处理。
所述傅里叶变换模块包括:变换模块和幅度求取模块;所述变换模块分别信号连接于判断模块和幅度求取模块,用于对判断模块处理后的信号进行傅里叶变换处理;所述幅度求取模块分别信号连接于变换模块和比较模块,用于对傅里叶变换后的信号进行处理,求取该信号的短时平均幅度;所述比较模块,用于根据信号的短时平均幅度进行判断,判断其频域的幅度是否协调。
采用上述技术方案,傅里叶变换模块将对判断模块处理后的信号进行傅里叶变换,将时域的信号转换为频域的信号。再求取频域信号的幅度。
一种智能语音识别机器人的控制***,其特征在于,所述***运行包括以下步骤:
步骤1:机器人进行初始化;
步骤2:机器人中的声音采集装置开始采集声音信号;将采集到的声音信号发送给数字信号处理控制中心;
步骤3:数字信号处理控制中心接收到采集到的声音信号后,对声音信号进行处理,然后将处理后的声音信号存入闪存中;首先从硬盘存储器中获取声音样本;并对采集到的声音信号进行处理后和声音样本进行比较;将比较后的结果发送至显示装置进行显示;
步骤4:机器人在运行过程中从云端数据库中实时更新声音样本,将声音样本下载到硬盘存储器中。
采用上述技术方案,数字信号处理控制中心将对采集到的声音信号进行一系列的处理和操作,然后将处理后的声音信号存储进闪存中,再从硬盘存储器中调取样本,并将样本和处理后的声音信号进行对比,根据对比的结果得出分数,将分数发送给显示装置进行显示。
所述数字信号处理控制中心对采集到的声音信号进行处理的方法包括以下步骤:
步骤1:数字信号处理控制中心接收到声音采集装置采集到的声音信号后,分帧处理模块对声音信号进行分帧处理;将分帧处理后的每一帧声音信号发送至判断模块;
步骤2:判断模块对每一帧处理后的声音信号进行协调性判断;将判断结果进行保存后发送至傅里叶变换模块;
步骤3:傅里叶变换模块开始对声音信号进行傅里叶变换,将变换后的声音信号发送至比较模块;
步骤4:比较模块对傅里叶变换后的声音信号进行频域比较,将比较结果发送至闪存中进行暂存;
步骤5:分帧处理模块在处理声音信号时,会实时判断处理的是否是声音信号的最后一帧,如果是则调取闪存中的存储结果发送至显示装置进行显示;如果不是则继续执行步骤1。
采用上述技术方案,数字信号处理中心将采集到的声音信号进行分帧处理后,不仅要在时域进行能量求取,还要在频域对采集到的声音信号进行幅度求取。
所述判断模块对分帧处理后的声音信号进行协调性判断的方法包括以下步骤:
步骤1:求取分帧处理后的信号的短时能量,所述短时能量的求取方法采用如下公式:
,其中是声音信号在某一点的采样信号;
步骤2:根据求取出的短时能量区分出清音还是浊音信号;
步骤3:若分辨出是浊音信号,则从硬盘存储器中获取样本,同样提取声音信号在该点的采样,求取出短时能量;
步骤4:将浊音信号在该店的短时能量和样本在该点的短时能量进行对比,判断两者的差异,进而判断采集到的声音信号是否协调。
采用上述技术方案,因为语音一般由三部分组成:无音段、清音段和浊音段。无音段不存在语音信号,在背景噪声较低的情况下,幅度近似为零。清音信号的幅度很小,没有规律,类似于随机噪声。浊音信号幅度较大,波形的上下起伏近似呈现周期性,称之为准周期性。所以我们可以根据声音信号的短时能量判断出信号属于清音信号、浊音信号还是无音信号。
采用以上技术方案,本发明产生了以下有益效果:
1、识别准确:本发明的智能语音识别机器人,除了在时域对信号求取能量,针对该能量进行判断以外,还在频域针对信号的幅度进行求取和判断。根据两者的判断结果进行综合评判,将大大提高声音信号的识别准确性和评价的准确性。
2、实时更新:本发明的智能语音识别机器人,能够从云端实时获取最新的声音文件的样本,更新到本地的硬盘存储器中。保证了能够获取最新的声音样本,更加准确的评判使用者的歌声。
3、结构简单:本发明的智能语音识别机器人,整体结构简单。将核心处理部分都封装在数字信号处理控制中心中,外部的闪存、硬盘存储器、显示装置和声音采集装置的连接关系都一目了然。使得后期的维护和检修非常的方便,同时采用这种部件分离的方式,可以实现不同的厂商生产不同的组件,然后合并组装,降低了生产的成本。
附图说明
图1是本发明的一种智能语音识别机器人的***结构示意图。
图2是本发明的一种智能语音识别机器人的数字信号处理控制中心的结构示意图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
本发明实施例1中提供了一种智能语音识别机器人,***结构如图1所示:
声音采集装置、闪存、硬盘存储器、数字信号处理控制中心、显示装置和数据更新装置;所述声音采集装置信号连接于数字信号处理控制中心;所述数字信号处理控制中心分别信号连接于显示装置、闪存和硬盘存储器;所述硬盘存储器信号连接于数据更新装置;所述数据更新装置信号连接于云端数据库。
采用上述技术方案,本发明的智能语音识别机器人能够实时采集到使用者的歌声,并对该歌声进行处理,针对处理后的结果和硬盘存储器中的样本声音进行比较和判断,最终对歌唱者的声音进行打分。
所述数字信号处理控制中心包括:分帧处理模块、判断模块、傅里叶变换模块和比较模块;所述分帧处理模块信号分别信号连接于声音采集装置、比较模块和判断模块;所述判断模块分别信号连接于傅里叶变换模块、闪存和硬盘存储器;所述傅里叶变换模块信号连接于比较模块;所述比较模块分别信号连接于显示装置分帧处理装置。
采用上述技术方案,数字信号处理控制中心对声音信号进行分帧处理后,将对分帧后的声音信号进行判断、傅里叶变换和比较处理。并根据判断模块的判断结果和比较模块的比较结果对声音信号进行打分,将打分结果发送至显示装置进行显示。
所述分帧处理模块,用于对采集到的声音信号进行分帧;所述判断模块,用于判断分帧处理后的声音信号是否协调;所述傅里叶变换模块,用于对判断模块处理后的信号进行傅里叶变换;所述比较模块,用于对傅里叶变换后的声音信号进行频域的比较。
所述分帧处理模块包括:分帧模块和判断模块;所述分帧模块分别信号连接于声音采集装置和判断模块,用于将声音信号进行分帧处理;所述判断模块信号连接于分帧模块,用于对分帧后的声音信号进行判断,判断其是否位于声音信号的最后一帧。
采用上述技术方案,分帧处理模块将对声音信号进行分帧处理。然后再针对每一帧的声音信号进行后续处理。可以对声音信号进行更高精度的识别和处理。
所述傅里叶变换模块包括:变换模块和幅度求取模块;所述变换模块分别信号连接于判断模块和幅度求取模块,用于对判断模块处理后的信号进行傅里叶变换处理;所述幅度求取模块分别信号连接于变换模块和比较模块,用于对傅里叶变换后的信号进行处理,求取该信号的短时平均幅度;所述比较模块,用于根据信号的短时平均幅度进行判断,判断其频域的幅度是否协调。
采用上述技术方案,傅里叶变换模块将对判断模块处理后的信号进行傅里叶变换,将时域的信号转换为频域的信号。再求取频域信号的幅度。
本发明实施例2中提供了一种智能语音识别机器人的控制***:
一种智能语音识别机器人的控制***,其特征在于,所述方法包括以下步骤:
步骤1:机器人进行初始化;
步骤2:机器人中的声音采集装置开始采集声音信号;将采集到的声音信号发送给数字信号处理控制中心;
步骤3:数字信号处理控制中心接收到采集到的声音信号后,对声音信号进行处理,然后将处理后的声音信号存入闪存中;首先从硬盘存储器中获取声音样本;并对采集到的声音信号进行处理后和声音样本进行比较;将比较后的结果发送至显示装置进行显示;
步骤4:机器人在运行过程中从云端数据库中实时更新声音样本,将声音样本下载到硬盘存储器中。
采用上述技术方案,数字信号处理控制中心将对采集到的声音信号进行一系列的处理和操作,然后将处理后的声音信号存储进闪存中,再从硬盘存储器中调取样本,并将样本和处理后的声音信号进行对比,根据对比的结果得出分数,将分数发送给显示装置进行显示。
所述数字信号处理控制中心对采集到的声音信号进行处理的方法包括以下步骤:
步骤1:数字信号处理控制中心接收到声音采集装置采集到的声音信号后,分帧处理模块对声音信号进行分帧处理;将分帧处理后的每一帧声音信号发送至判断模块;
步骤2:判断模块对每一帧处理后的声音信号进行协调性判断;将判断结果进行保存后发送至傅里叶变换模块;
步骤3:傅里叶变换模块开始对声音信号进行傅里叶变换,将变换后的声音信号发送至比较模块;
步骤4:比较模块对傅里叶变换后的声音信号进行频域比较,将比较结果发送至闪存中进行暂存;
步骤5:分帧处理模块在处理声音信号时,会实时判断处理的是否是声音信号的最后一帧,如果是则调取闪存中的存储结果发送至显示装置进行显示;如果不是则继续执行步骤1。
采用上述技术方案,数字信号处理中心将采集到的声音信号进行分帧处理后,不仅要在时域进行能量求取,还要在频域对采集到的声音信号进行幅度求取。
所述判断模块对分帧处理后的声音信号进行协调性判断的方法包括以下步骤:
,其中是声音信号在某一点的采样信号;
步骤2:根据求取出的短时能量区分出清音还是浊音信号;
步骤3:若分辨出是浊音信号,则从硬盘存储器中获取样本,同样提取声音信号在该点的采样,求取出短时能量;
步骤4:将浊音信号在该店的短时能量和样本在该点的短时能量进行对比,判断两者的差异,进而判断采集到的声音信号是否协调。
采用上述技术方案,因为语音一般由三部分组成:无音段、清音段和浊音段。无音段不存在语音信号,在背景噪声较低的情况下,幅度近似为零。清音信号的幅度很小,没有规律,类似于随机噪声。浊音信号幅度较大,波形的上下起伏近似呈现周期性,称之为准周期性。所以我们可以根据声音信号的短时能量判断出信号属于清音信号、浊音信号还是无音信号。
本发明实施例3中提供了一种智能语音识别机器人及控制***,***结构图如图1所示:
声音采集装置、闪存、硬盘存储器、数字信号处理控制中心、显示装置和数据更新装置;所述声音采集装置信号连接于数字信号处理控制中心;所述数字信号处理控制中心分别信号连接于显示装置、闪存和硬盘存储器;所述硬盘存储器信号连接于数据更新装置;所述数据更新装置信号连接于云端数据库。
采用上述技术方案,本发明的智能语音识别机器人能够实时采集到使用者的歌声,并对该歌声进行处理,针对处理后的结果和硬盘存储器中的样本声音进行比较和判断,最终对歌唱者的声音进行打分。
所述数字信号处理控制中心包括:分帧处理模块、判断模块、傅里叶变换模块和比较模块;所述分帧处理模块信号分别信号连接于声音采集装置、比较模块和判断模块;所述判断模块分别信号连接于傅里叶变换模块、闪存和硬盘存储器;所述傅里叶变换模块信号连接于比较模块;所述比较模块分别信号连接于显示装置分帧处理装置。
采用上述技术方案,数字信号处理控制中心对声音信号进行分帧处理后,将对分帧后的声音信号进行判断、傅里叶变换和比较处理。并根据判断模块的判断结果和比较模块的比较结果对声音信号进行打分,将打分结果发送至显示装置进行显示。
所述分帧处理模块,用于对采集到的声音信号进行分帧;所述判断模块,用于判断分帧处理后的声音信号是否协调;所述傅里叶变换模块,用于对判断模块处理后的信号进行傅里叶变换;所述比较模块,用于对傅里叶变换后的声音信号进行频域的比较。
所述分帧处理模块包括:分帧模块和判断模块;所述分帧模块分别信号连接于声音采集装置和判断模块,用于将声音信号进行分帧处理;所述判断模块信号连接于分帧模块,用于对分帧后的声音信号进行判断,判断其是否位于声音信号的最后一帧。
采用上述技术方案,分帧处理模块将对声音信号进行分帧处理。然后再针对每一帧的声音信号进行后续处理。可以对声音信号进行更高精度的识别和处理。
所述傅里叶变换模块包括:变换模块和幅度求取模块;所述变换模块分别信号连接于判断模块和幅度求取模块,用于对判断模块处理后的信号进行傅里叶变换处理;所述幅度求取模块分别信号连接于变换模块和比较模块,用于对傅里叶变换后的信号进行处理,求取该信号的短时平均幅度;所述比较模块,用于根据信号的短时平均幅度进行判断,判断其频域的幅度是否协调。
采用上述技术方案,傅里叶变换模块将对判断模块处理后的信号进行傅里叶变换,将时域的信号转换为频域的信号。再求取频域信号的幅度。
一种智能语音识别机器人的控制***,其特征在于,所述方法包括以下步骤:
步骤1:机器人进行初始化;
步骤2:机器人中的声音采集装置开始采集声音信号;将采集到的声音信号发送给数字信号处理控制中心;
步骤3:数字信号处理控制中心接收到采集到的声音信号后,对声音信号进行处理,然后将处理后的声音信号存入闪存中;首先从硬盘存储器中获取声音样本;并对采集到的声音信号进行处理后和声音样本进行比较;将比较后的结果发送至显示装置进行显示;
步骤4:机器人在运行过程中从云端数据库中实时更新声音样本,将声音样本下载到硬盘存储器中。
采用上述技术方案,数字信号处理控制中心将对采集到的声音信号进行一系列的处理和操作,然后将处理后的声音信号存储进闪存中,再从硬盘存储器中调取样本,并将样本和处理后的声音信号进行对比,根据对比的结果得出分数,将分数发送给显示装置进行显示。
所述数字信号处理控制中心对采集到的声音信号进行处理的方法包括以下步骤:
步骤1:数字信号处理控制中心接收到声音采集装置采集到的声音信号后,分帧处理模块对声音信号进行分帧处理;将分帧处理后的每一帧声音信号发送至判断模块;
步骤2:判断模块对每一帧处理后的声音信号进行协调性判断;将判断结果进行保存后发送至傅里叶变换模块;
步骤3:傅里叶变换模块开始对声音信号进行傅里叶变换,将变换后的声音信号发送至比较模块;
步骤4:比较模块对傅里叶变换后的声音信号进行频域比较,将比较结果发送至闪存中进行暂存;
步骤5:分帧处理模块在处理声音信号时,会实时判断处理的是否是声音信号的最后一帧,如果是则调取闪存中的存储结果发送至显示装置进行显示;如果不是则继续执行步骤1。
采用上述技术方案,数字信号处理中心将采集到的声音信号进行分帧处理后,不仅要在时域进行能量求取,还要在频域对采集到的声音信号进行幅度求取。
所述判断模块对分帧处理后的声音信号进行协调性判断的方法包括以下步骤:
步骤1:求取分帧处理后的信号的短时能量,所述短时能量的求取方法采用如下公式:
,其中是声音信号在某一点的采样信号;
步骤2:根据求取出的短时能量区分出清音还是浊音信号;
步骤3:若分辨出是浊音信号,则从硬盘存储器中获取样本,同样提取声音信号在该点的采样,求取出短时能量;
步骤4:将浊音信号在该店的短时能量和样本在该点的短时能量进行对比,判断两者的差异,进而判断采集到的声音信号是否协调。
采用上述技术方案,因为语音一般由三部分组成:无音段、清音段和浊音段。无音段不存在语音信号,在背景噪声较低的情况下,幅度近似为零。清音信号的幅度很小,没有规律,类似于随机噪声。浊音信号幅度较大,波形的上下起伏近似呈现周期性,称之为准周期性。所以我们可以根据声音信号的短时能量判断出信号属于清音信号、浊音信号还是无音信号。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
Claims (8)
1.一种智能语音识别机器人,其特征在于,所述机器人包括:声音采集装置、闪存、硬盘存储器、数字信号处理控制中心、显示装置和数据更新装置;所述声音采集装置信号连接于数字信号处理控制中心;所述数字信号处理控制中心分别信号连接于显示装置、闪存和硬盘存储器;所述硬盘存储器信号连接于数据更新装置;所述数据更新装置信号连接于云端数据库。
2.如权利要求1所述的智能语音识别机器人,其特征在于,所述数字信号处理控制中心包括:分帧处理模块、判断模块、傅里叶变换模块和比较模块;所述分帧处理模块信号分别信号连接于声音采集装置、比较模块和判断模块;所述判断模块分别信号连接于傅里叶变换模块、闪存和硬盘存储器;所述傅里叶变换模块信号连接于比较模块;所述比较模块分别信号连接于显示装置分帧处理装置。
3.如权利要求2所述的智能语音识别机器人,其特征在于,所述分帧处理模块,用于对采集到的声音信号进行分帧;所述判断模块,用于判断分帧处理后的声音信号是否协调;所述傅里叶变换模块,用于对判断模块处理后的信号进行傅里叶变换;所述比较模块,用于对傅里叶变换后的声音信号进行频域的比较。
4.如权利要求3所述的智能语音识别机器人,其特征在于,所述分帧处理模块包括:分帧模块和判断模块;所述分帧模块分别信号连接于声音采集装置和判断模块,用于将声音信号进行分帧处理;所述判断模块信号连接于分帧模块,用于对分帧后的声音信号进行判断,判断其是否位于声音信号的最后一帧。
5.如权利要求4所述的智能语音识别机器人,其特征在于,所述傅里叶变换模块包括:变换模块和幅度求取模块;所述变换模块分别信号连接于判断模块和幅度求取模块,用于对判断模块处理后的信号进行傅里叶变换处理;所述幅度求取模块分别信号连接于变换模块和比较模块,用于对傅里叶变换后的信号进行处理,求取该信号的短时平均幅度;所述比较模块,用于根据信号的短时平均幅度进行判断,判断其频域的幅度是否协调。
6.一种基于权利要求1至5之一所述的智能语音识别机器人的智能语音识别机器人控制***的运行方法,其特征在于,所述方法包括以下步骤:
步骤1:机器人进行初始化;
步骤2:机器人中的声音采集装置开始采集声音信号;将采集到的声音信号发送给数字信号处理控制中心;
步骤3:数字信号处理控制中心接收到采集到的声音信号后,对声音信号进行处理,然后将处理后的声音信号存入闪存中;首先从硬盘存储器中获取声音样本;并对采集到的声音信号进行处理后和声音样本进行比较;将比较后的结果发送至显示装置进行显示;
步骤4:机器人在运行过程中从云端数据库中实时更新声音样本,将声音样本下载到硬盘存储器中。
7.如权利要求6所述的智能语音识别机器人控制方法,其特征在于,所述数字信号处理控制中心对采集到的声音信号进行处理的方法包括以下步骤:
步骤1:数字信号处理控制中心接收到声音采集装置采集到的声音信号后,分帧处理模块对声音信号进行分帧处理;将分帧处理后的每一帧声音信号发送至判断模块;
步骤2:判断模块对每一帧处理后的声音信号进行协调性判断;将判断结果进行保存后发送至傅里叶变换模块;
步骤3:傅里叶变换模块开始对声音信号进行傅里叶变换,将变换后的声音信号发送至比较模块;
步骤4:比较模块对傅里叶变换后的声音信号进行频域比较,将比较结果发送至闪存中进行暂存;
步骤5:分帧处理模块在处理声音信号时,会实时判断处理的是否是声音信号的最后一帧,如果是则调取闪存中的存储结果发送至显示装置进行显示;如果不是则继续执行步骤1。
8.如权利要求7所述的智能语音识别机器人控制方法,其特征在于,所述:所述判断模块对分帧处理后的声音信号进行协调性判断的方法包括以下步骤:
步骤1:求取分帧处理后的信号的短时能量,所述短时能量的求取方法采用如下公式:
,其中是声音信号在某一点的采样信号;
步骤2:根据求取出的短时能量区分出清音还是浊音信号;
步骤3:若分辨出是浊音信号,则从硬盘存储器中获取样本,同样提取声音信号在该点的采样,求取出短时能量;
步骤4:将浊音信号在该店的短时能量和样本在该点的短时能量进行对比,判断两者的差异,进而判断采集到的声音信号是否协调。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610668701.1A CN106328167A (zh) | 2016-08-16 | 2016-08-16 | 一种智能语音识别机器人及控制*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610668701.1A CN106328167A (zh) | 2016-08-16 | 2016-08-16 | 一种智能语音识别机器人及控制*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106328167A true CN106328167A (zh) | 2017-01-11 |
Family
ID=57740227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610668701.1A Pending CN106328167A (zh) | 2016-08-16 | 2016-08-16 | 一种智能语音识别机器人及控制*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106328167A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441865A (zh) * | 2007-11-19 | 2009-05-27 | 盛趣信息技术(上海)有限公司 | 演唱类游戏的评分方法及*** |
CN101567933A (zh) * | 2008-04-25 | 2009-10-28 | 乐金电子(中国)研究开发中心有限公司 | 卡拉ok手机及用于手机卡拉ok功能的数据处理方法 |
CN202454260U (zh) * | 2012-02-23 | 2012-09-26 | 华南理工大学 | 一种动态归一化数字特征的语音评分装置 |
CN103198838A (zh) * | 2013-03-29 | 2013-07-10 | 苏州皓泰视频技术有限公司 | 一种用于嵌入式***的异常声音监控方法和监控装置 |
CN104143342A (zh) * | 2013-05-15 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种清浊音判定方法、装置和语音合成*** |
CN104934032A (zh) * | 2014-03-17 | 2015-09-23 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
CN105139866A (zh) * | 2015-08-10 | 2015-12-09 | 泉州师范学院 | 南音的识别方法及装置 |
CN105374356A (zh) * | 2014-08-29 | 2016-03-02 | 株式会社理光 | 语音识别方法、语音评分方法、语音识别***及语音评分*** |
JP2016046695A (ja) * | 2014-08-25 | 2016-04-04 | 日本電信電話株式会社 | 音響品質評価装置、音響品質評価方法、およびプログラム |
-
2016
- 2016-08-16 CN CN201610668701.1A patent/CN106328167A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441865A (zh) * | 2007-11-19 | 2009-05-27 | 盛趣信息技术(上海)有限公司 | 演唱类游戏的评分方法及*** |
CN101567933A (zh) * | 2008-04-25 | 2009-10-28 | 乐金电子(中国)研究开发中心有限公司 | 卡拉ok手机及用于手机卡拉ok功能的数据处理方法 |
CN202454260U (zh) * | 2012-02-23 | 2012-09-26 | 华南理工大学 | 一种动态归一化数字特征的语音评分装置 |
CN103198838A (zh) * | 2013-03-29 | 2013-07-10 | 苏州皓泰视频技术有限公司 | 一种用于嵌入式***的异常声音监控方法和监控装置 |
CN104143342A (zh) * | 2013-05-15 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种清浊音判定方法、装置和语音合成*** |
CN104934032A (zh) * | 2014-03-17 | 2015-09-23 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
JP2016046695A (ja) * | 2014-08-25 | 2016-04-04 | 日本電信電話株式会社 | 音響品質評価装置、音響品質評価方法、およびプログラム |
CN105374356A (zh) * | 2014-08-29 | 2016-03-02 | 株式会社理光 | 语音识别方法、语音评分方法、语音识别***及语音评分*** |
CN105139866A (zh) * | 2015-08-10 | 2015-12-09 | 泉州师范学院 | 南音的识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105096940B (zh) | 用于进行语音识别的方法和装置 | |
CN105374356B (zh) | 语音识别方法、语音评分方法、语音识别***及语音评分*** | |
CN106205633B (zh) | 一种模仿、表演练习打分*** | |
CN103503060B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN103456301B (zh) | 一种基于环境声音的场景识别方法及装置及移动终端 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN109473123A (zh) | 语音活动检测方法及装置 | |
CN100397438C (zh) | 聋哑人汉语发音计算机辅助学习方法 | |
CN107767861A (zh) | 语音唤醒方法、***及智能终端 | |
CN103295575B (zh) | 一种语音识别方法和客户端 | |
CN101751919A (zh) | 一种汉语口语重音自动检测方法 | |
WO2016173132A1 (zh) | 语音识别方法、装置及用户设备 | |
CN105654944B (zh) | 一种融合了短时与长时特征建模的环境声识别方法及装置 | |
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
CN103680493A (zh) | 区分地域性口音的语音数据识别方法和装置 | |
CN105895080A (zh) | 语音识别模型训练方法、说话人类型识别方法及装置 | |
CN104347071B (zh) | 生成口语考试参***的方法及*** | |
CN104346389A (zh) | 口语考试半开放题型的评分方法及*** | |
CN109377981A (zh) | 音素对齐的方法及装置 | |
CN109102800A (zh) | 一种确定歌词显示数据的方法和装置 | |
CN102201237A (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
CN106782503A (zh) | 基于发音过程中生理信息的自动语音识别方法 | |
CN107767850A (zh) | 一种演唱评分方法及*** | |
CN110246489A (zh) | 用于儿童的语音识别方法及*** | |
CN110490428A (zh) | 空中交通管制工作质量评估方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170111 |