CN110534091A - 一种基于微服务器及智能语音识别的人车交互方法 - Google Patents
一种基于微服务器及智能语音识别的人车交互方法 Download PDFInfo
- Publication number
- CN110534091A CN110534091A CN201910758860.4A CN201910758860A CN110534091A CN 110534091 A CN110534091 A CN 110534091A CN 201910758860 A CN201910758860 A CN 201910758860A CN 110534091 A CN110534091 A CN 110534091A
- Authority
- CN
- China
- Prior art keywords
- audio data
- feature
- people
- voice
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000008909 emotion recognition Effects 0.000 claims abstract description 34
- 230000008451 emotion Effects 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 238000007635 classification algorithm Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000006870 function Effects 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于微服务器及智能语音识别的人车交互方法,通过获取用户输入的语音数据,对语音数据进行数据采集,生成音频数据,并对音频数据进行预处理以去除音频数据中的背景噪音,同时对音频数据进行特征提取,生成语音识别特征和情感识别特征,然后对语音识别特征和情感识别特征进行特征识别,生成语音内容和情感信息,最后根据语音内容和情感信息,在预设的规则数据库中进行查询,生成匹配分数最高的结果,并执行结果以进行人车交互,相比较于传统的人车交互方法本发明实施例更加的智能,并且还具有情感倾向分析的功能。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于微服务器及智能语音识别的人车交互方法。
背景技术
现有的人车交互方法,主要基于语音识别的语义分析,针对驾驶人发出的语音指令,进行指令分析,然后做出相应的反馈动作,其所采用的识别工具是基于传统关键词模型匹配的语音识别***,存储工具为传统关系型数据库,后台为传统MVC的单体服务架构。
然而现有的人车交互方法,由于忽略驾驶人当时的情感倾向分析,所以表现得不够智能化,不够人性化,传统关系型数据库的单机存储空间有限,想要进行海量数据存储太过困难,并且识别准确率不高、识别速度慢、词典维护麻烦,其使用的后台***庞大、维护麻烦、可扩展性差。
发明内容
本发明实施例的目的是提供一种基于微服务器及智能语音识别的人车交互方法,相比较于传统的人车交互方法本发明实施例更加的智能,并且还具有情感倾向分析的功能。
为实现上述目的,本发明实施例提供了一种基于微服务器及智能语音识别的人车交互方法,包括以下步骤:
获取用户输入的语音数据,对所述语音数据进行数据采集,生成音频数据;
对所述音频数据进行预处理以去除所述音频数据中的背景噪音,同时对所述音频数据进行特征提取,生成语音识别特征和情感识别特征;
对所述语音识别特征和所述情感识别特征进行特制识别,生成语音内容和情感信息;
根据所述语音内容和所述情感信息,在预设的规则数据库中进行查询,生成匹配分数最高的结果,并执行所述结果以进行人车交互。
进一步的,所述预处理包括:去噪、预加重、短时分析、分帧、加窗以及端点检测。
进一步的,所述对所述音频数据进行特征提取,生成语音识别特征和情感识别特征,具体为:
对所述音频数据进行梅尔频率倒谱系数(MFCC)提取,生成所述音频数据的梅尔频率倒谱系数(MFCC),并将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征;
通过GeMAPS特征集对所述音频数据进行情感特征提取,生成所述音频数据的GeMAPS特征集,并将所述音频数据的GeMAPS特征集作为情感识别特征。
进一步的,所述GeMAPS特征集包含62个特征,所述62个特征均为HSF特征,并且所述62个特征是由18个LLD特征计算得到。
进一步的,对所述音频数据进行梅尔频率倒谱系数(MFCC)提取,生成所述音频数据的梅尔频率倒谱系数(MFCC),并将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征,具体为:
对所述音频数据分帧加窗,并对每一帧做FFT,得到线性声谱图;
对线性声谱图应用梅尔滤波器后取log,得到log梅尔声谱图;
对所述log梅尔声谱图做DCT和离散余弦变换,保留结果中的第2个到第13个系数,并将得到的这12个系数作为所述音频数据的梅尔频率倒谱系数(MFCC),同时将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征。
进一步的,所述对所述语音识别特征和所述情感识别特征进行特制识别,生成语音内容和情感信息,具体为:
通过声学模型对所述语音识别特征的特征参数进行匹配,匹配生成所述语音的语音内容;
通过预设的SVM多分类算法对所述情感识别特征进行分类计算,得到所述语音的情感信息。
进一步的,所述情感信息为k类,包括高兴、愤怒、害怕、悲伤、惊奇以及中性。
进一步的,所述通过预设的SVM多分类算法对所述情感识别特征进行分类计算,具体为:
通过设计k(k-1)/2个SVM,在任意两个类别样本之间使用一个SVM进行分类,并将得票最多的类别作为最终类别。
进一步的,在对所述情感识别特征进行分类计算时,采用大数据Spark内存计算平台,以快速得到计算结果。
与现有技术相比,具有如下有益效果:
本发明实施例提供的基于微服务器及智能语音识别的人车交互方法,通过获取用户输入的语音数据,对语音数据进行数据采集,生成音频数据,并对音频数据进行预处理以去除音频数据中的背景噪音,同时对音频数据进行特征提取,生成语音识别特征和情感识别特征,然后对语音识别特征和情感识别特征进行特征识别,生成语音内容和情感信息,最后根据语音内容和情感信息,在预设的规则数据库中进行查询,生成匹配分数最高的结果,并执行结果以进行人车交互,相比较于传统的人车交互方法本发明实施例更加的智能,并且还具有情感倾向分析的功能。
附图说明
图1是本发明提供的基于微服务器及智能语音识别的人车交互方法的一个实施例的流程示意图;
图2是本发明提供的基于微服务器及智能语音识别的人车交互方法的一个实施例提供的人车交互***的架构图;
图3是本发明提供的基于微服务器及智能语音识别的人车交互方法的一个实施例的工作原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明提供的基于微服务器及智能语音识别的人车交互方法的一个实施例的结构示意图;本发明实施例提供一种基于微服务器及智能语音识别的人车交互方法,包括步骤S1-S4;
S1,获取用户输入的语音数据,对所述语音数据进行数据采集,生成音频数据。
基于HDFS分布式存储***能够存储PB级别的海量数据,具有高可用、高容错性、可扩展性的优点,在本实施例中,所有的这些原始语音数据存储在HDFS分布式文件***中。
S2,对所述音频数据进行预处理以去除所述音频数据中的背景噪音,同时对所述音频数据进行特征提取,生成语音识别特征和情感识别特征。
在本实施例中,所述预处理包括:去噪、预加重、短时分析、分帧、加窗以及端点检测;
具体的,去噪:当完成语音的输入后,就对噪声的进行预处理,使用自动切分程序切除语音中多余的非人为噪声,如过长的静音段、电流噪声;预加重:预加重的目的是提高高频部分,使信号的频谱变得平坦,以便于频谱分析或者声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行,但一般是在语音信号数字化之后;短时分析:语音信号从整体来看是随时间变化的,是一个非平稳过程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,这种运动对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音信号具有时变特性,但是在一个短时间范围内(一般认为在10-30ms)其特性基本保持相对稳定,即语音具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析;分帧:为了进行短时分析,将语音信号分为一段一段,其中每一段称为一帧,一般取10-30ms,为了使帧与帧之间平滑过渡,保持连续性,使用交叠分段的方法,可以想成一个指针p从头开始,截取一段头为p,长度为帧长的片段,然后指针p移动,移动的步长就称为帧移,每移动一次都截取一段,这样就得到很多帧;加窗:加窗就是用一定的窗函数w(n)w(n)来乘s(n)s(n),从而形成加窗语音信号sw(n)=s(n)*w(n)sw(n)=s(n)*w(n),常用的窗函数是矩形窗和汉明窗,用矩形窗其实就是不加窗,窗函数中有个N,指的是窗口长度(样本点个数),对应一帧,通常在8kHz取样频率下,N折中选择为80-160(即10-20ms持续时间);端点检测:从一段语音信号中准确地找出语音信号的起始点和结束点,它的目的是为了使有效的语音信号和无用的噪声信号得以分离。
在本实施例中,对所述音频数据进行特征提取,生成语音识别特征和情感识别特征,具体为:对所述音频数据进行梅尔频率倒谱系数(MFCC)提取,生成所述音频数据的梅尔频率倒谱系数(MFCC),并将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征;通过GeMAPS特征集对所述音频数据进行情感特征提取,生成所述音频数据的GeMAPS特征集,并将所述音频数据的GeMAPS特征集作为情感识别特征。
所述GeMAPS特征集包含62个特征,所述62个特征均为HSF特征,并且所述62个特征是由18个LLD特征计算得到。
需要说明的是,对所述音频数据进行梅尔频率倒谱系数(MFCC)提取,生成所述音频数据的梅尔频率倒谱系数(MFCC),并将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征,具体为:对所述音频数据分帧加窗,并对每一帧做FFT,得到线性声谱图;对线性声谱图应用梅尔滤波器后取log,得到log梅尔声谱图;对所述log梅尔声谱图做DCT和离散余弦变换,保留结果中的第2个到第13个系数,并将得到的这12个系数作为所述音频数据的梅尔频率倒谱系数(MFCC),同时将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征。
在本发明方法中,特征值提取的环节,分两个部分进行:语音特征提取和情感特征提取。
语音特征提取服务,采用的是梅尔频率倒谱系数(MFCC):采用梅尔频率倒谱系数(MFCC)提取能够反映语音信号特征的关键特征参数所形成的特征序列;提取梅尔频率倒谱系数(MFCC)的步骤:首先分帧加窗,然后对每一帧做FFT后得到(单帧)线性声谱图,对线性声谱图应用梅尔滤波器后然后取log得到log梅尔声谱图,然后对log滤波能量(log梅尔声谱)做DCT,离散余弦变换,然后保留第二个到第13个系数,得到的这12个系数就是MFCC。
情感特征提取服务,采用的是GeMAPS特征集:所述GeMAPS特征集总共62个特征,这62个都是HSF特征,是由18个LLD特征计算得到。其中,18个LLD特征包括6个频率相关特征,3个能量/振幅相关特征,9个谱特征。
基音F0的概念:基音,通常记作F0(F0一般也指基音频率),一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为泛音。
6个频率相关特征包括:Pitch(log F0,在半音频率尺度上计算,从27.5Hz开始);Jitter(单个连续基音周期内的偏差,偏差衡量的是观测变量与特定值的差,如果没有指明特定值通常使用的是变量的均值);前三个共振峰的中心频率,第一个共振峰的带宽。
3个能量/振幅的特征包括:Shimmer(相邻基音周期间振幅峰值之差),Loudness(从频谱中得到的声音强度的估计,可以根据能量来计算),HNR(Harmonics-to-noise)信噪比。
9个谱特征包括:Alpha Ratio(50-1000Hz的能量和除以1-5kHz的能量和),Hammarberg Index(0-2kHz的最强能量峰除以2-5kHz的最强能量峰),Spectral Slope 0-500Hz and 500-1500Hz(对线性功率谱的两个区域0-500Hz和500-1500Hz做线性回归得到的两个斜率),Formant 1,2,and 3relative energy(前三个共振峰的中心频率除以基音的谱峰能量),Harmonic difference H1-H2(第一个基音谐波H1的能量除以第二个基音谐波的能量),Harmonic difference H1-A3(第一个基音谐波H1的能量除以第三个共振峰范围内的最高谐波能量)。
对18个LLD做统计,计算的时候是对3帧语音做symmetric moving average。首先计算算术平均和coefficient of variation(计算标准差然后用算术平均规范化),得到36个统计特征。然后对loudness和pitch运算8个函数,20百分位,50百分位,80百分位,20到80百分位之间的range,上升/下降语音信号的斜率的均值和标准差。这样就得到16个统计特征。上面的函数都是对voiced regions(非零的F0)做的。对Alpha Ratio,HammarbergIndex,Spectral Slope 0-500Hz and 500-1500Hz做算术平均得到4个统计特征。另外还有6个时间特征,每秒loudness峰的个数,连续voiced regions(F0>0)的平均长度和标准差,unvoiced regions(F0=0)的平均长度和标准差,每秒voiced regions的个数,36+16+4+6得到62个特征。
S3,对所述语音识别特征和所述情感识别特征进行特征识别,生成语音内容和情感信息。
在本实施例中,步骤S3具体为:通过声学模型对所述语音识别特征的特征参数进行匹配,匹配生成所述语音的语音内容;通过预设的SVM多分类算法对所述情感识别特征进行分类计算,得到所述语音的情感信息。
作为本发明的优选实施例,所述情感信息为k类,包括高兴、愤怒、害怕、悲伤、惊奇以及中性。
在本实施例中,所述通过预设的SVM多分类算法对所述情感识别特征进行分类计算,具体为:通过设计k(k-1)/2个SVM,在任意两个类别样本之间使用一个SVM进行分类,并将得票最多的类别作为最终类别。
其中,在对所述情感识别特征进行分类计算时,采用大数据Spark内存计算平台,以快速得到计算结果。
需要说明的是,在本发明方法中,识别的环节包括两个环节:语音识别和情感识别。
根据提取出来的语音识别特征梅尔频率倒谱系数(MFCC),进行语音分类识别。语音识别原理:语音使用训练语音库的特征参数进行声学模型的训练,即是将待识别的语音的特征参数与声学模型进行匹配,识别出语音的内容。
其中,在本实施例中,语音识别使用改进的softmax多分类算法,softmax多分类原理如下:它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类。
softmax具体分类过程如下:
开始时输入语音a,经过softmax计算,得出语音内容的计算结果:听音乐,概率为85%;停车,概率为10%;看电影,概率为5%;这样就可以识别出语音的内容是:听音乐。
根据提取出来的情感识别特征GeMAPS特征集,进行情感识别。在本实施例中情感识别使用改进的SVM多分类算法:一对一法(one-versus-one,简称OVO SVMs或者pairwise)。
其中,SVM多分类原理如下:在任意两类样本之间设计一个SVM,因此k个类别的样本就需要设计k(k-1)/2个SVM。当对一个未知样本进行分类时,最后得票最多的类别即为该未知样本的类别。
具体的,SVM具体分类过程如下:
本本发明实施例中,有6类情感:高兴、愤怒、害怕、悲伤、惊奇、中性,分别记为:A,B,C,D,E,F。
在训练时构造(A,B)、(A,C)、(A,D)、(A,E)、(A,F)、(B,C)、(B,D)、(B,E)、(B,F)、(C,D)、(C,E)、(C,F)、(D,E)、(D,F)、(E,F)所对应的向量作为训练集,然后得到15个训练结果,在测试的时候,把对应的向量分别对15个结果进行测试,然后采取投票形式,最后得到一组结果。
投票是这样的:
开始:A=B=C=D=E=F=0;
(A,B)-classifier如果是A win,则A=A+1;otherwise,B=B+1;
(A,C)-classifier如果是A win,则A=A+1;otherwise,C=C+1;
...
(E,F)-classifier如果是E win,则E=E+1;otherwise,F=F+1;
The decision is the Max(A,B,C,D,E,F)。
这样就可以识别出语音的情感信息。
由于分类中的子分类集合比较多,计算量会比较大,所以采取大数据Spark内存计算平台平行计算,基于Spark分布式计算平台使用内存计算模型的先进技术,具有海量数据的计算能力,这样可以快速得到计算结果。
需要说明的是,训练和测试的情感数据库使用的是CASIA汉语情感数据库。
S4,根据所述语音内容和所述情感信息,在预设的规则数据库中进行查询,生成匹配分数最高的结果,并执行所述结果以进行人车交互。
通过事先制定好的内容和情感的推荐规则数据库,查询出匹配最高的结果,然后做出智能反馈,完成人车交互,其中,内容和情感的推荐规则数据库,存储的是和出行高度相关的内容。
请参见2,图2是本发明提供的基于微服务器及智能语音识别的人车交互方法的一个实施例提供的人车交互***的架构图,具体的,所述人车交互***通过微服务平台能够执行本发明提供的基于微服务器及智能语音识别的人车交互方法,并且通过将不同的步骤开发成一个个单个小型的但有业务功能的服务,其中每个服务都有自己的处理和轻量通讯机制,可以部署在单个或多个服务器上。
请继续参见图2,可以看到,人车交互***中的各个服务单元都是独立的,其中,语音输入服务的功能:接收语音数据,对语音数据采样;
数据预处理服务的功能:过滤掉背景噪音;
特征提取服务的功能:提取语音相关的特征,包括语音特征,情感特征;
语音识别服务的功能:识别语音的内容,即是说话人说了什么;
情感识别服务的功能:通过提取出来的特征,进行说话人的情感信息识别;
智能反馈服务的功能:通过识别出来的情感信息,提供智能反馈服务。
请参图2和图3,为了更好的说明本发明方法的工作原理,以下为本发明提供的基于微服务器及智能语音识别的人车交互方法的工作原理:首先,用户对人车交互***说出语音指令:我想听音乐;通过人车交互***中的语音输入服务器对这段语音进行数据采集,生成音频数据;然后人车交互***中的数据预处理服务对这段音频数据进行预处理:去掉背景噪音;再通过人车交互***中的语音特征提取服务提取出语音识别的相关特征列表,同时提取出情感识别的相关特征列表;然后通过人车交互***中的语音识别服务根据语音特征列表进行语音识别,识别出语音的内容,如:听音乐;同时情感识别服务根据情感特征列表,进行情感识别,识别出说话人的情感信息,如:愤怒;再通过人车交互***的智能反馈服务根据识别处理的语音内容、情感信息,做出智能的反馈结果,如:打开音乐播放器,给用户播放一首轻松欢快的音乐,舒缓心情,最后用户获得反馈信息,本次语音交互过程结束。
综上,本发明实施例提供的基于微服务器及智能语音识别的人车交互方法,通过获取用户输入的语音数据,对语音数据进行数据采集,生成音频数据,并对音频数据进行预处理以去除音频数据中的背景噪音,同时对音频数据进行特征提取,生成语音识别特征和情感识别特征,然后对语音识别特征和情感识别特征进行特征识别,生成语音内容和情感信息,最后根据语音内容和情感信息,在预设的规则数据库中进行查询,生成匹配分数最高的结果,并执行结果以进行人车交互,相比较于传统的人车交互方法本发明实施例更加的智能,并且还具有情感倾向分析的功能。
采用本发明提供的实施例,具有如下有益效果:
1.基于机器学习的语音识别准确率更高;
2.基于机器学习的语音识别识别速度更快;
3.具有情感倾向分析的功能,使交互更加智能;
4.基于分布式计算平台,可以实时处理海量数据;
5.基于分布式存储平台,鲁棒性高;
6.应用于***时,适用于各种出行场景;
7.应用于***时采用的微服务,运维简单;
8.应用于***时具备数据挖掘的功能;
9.应用于***时支持多种语言的输入;
10.应用于***时支持多种语言的输出。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (9)
1.一种基于微服务器及智能语音识别的人车交互方法,其特征在于,包括以下步骤:
获取用户输入的语音数据,对所述语音数据进行数据采集,生成音频数据;
对所述音频数据进行预处理以去除所述音频数据中的背景噪音,同时对所述音频数据进行特征提取,生成语音识别特征和情感识别特征;
对所述语音识别特征和所述情感识别特征进行特征识别,生成语音内容和情感信息;
根据所述语音内容和所述情感信息,在预设的规则数据库中进行查询,生成匹配分数最高的结果,并执行所述结果以进行人车交互。
2.如权利要求1所述的基于微服务器及智能语音识别的人车交互方法,其特征在于,所述预处理包括:去噪、预加重、短时分析、分帧、加窗以及端点检测。
3.如权利要求1所述的基于微服务器及智能语音识别的人车交互方法,其特征在于,所述对所述音频数据进行特征提取,生成语音识别特征和情感识别特征,具体为:
对所述音频数据进行梅尔频率倒谱系数(MFCC)提取,生成所述音频数据的梅尔频率倒谱系数(MFCC),并将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征;
通过GeMAPS特征集对所述音频数据进行情感特征提取,生成所述音频数据的GeMAPS特征集,并将所述音频数据的GeMAPS特征集作为情感识别特征。
4.如权利要求3所述的基于微服务器及智能语音识别的人车交互方法,其特征在于,所述GeMAPS特征集包含62个特征,所述62个特征均为HSF特征,并且所述62个特征是由18个LLD特征计算得到。
5.如权利要求3所述的基于微服务器及智能语音识别的人车交互方法,其特征在于,对所述音频数据进行梅尔频率倒谱系数(MFCC)提取,生成所述音频数据的梅尔频率倒谱系数(MFCC),并将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征,具体为:
对所述音频数据分帧加窗,并对每一帧做FFT,得到线性声谱图;
对线性声谱图应用梅尔滤波器后取log,得到log梅尔声谱图;
对所述log梅尔声谱图做DCT和离散余弦变换,保留结果中的第2个到第13个系数,并将得到的这12个系数作为所述音频数据的梅尔频率倒谱系数(MFCC),同时将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征。
6.如权利要求5所述的基于微服务器及智能语音识别的人车交互方法,其特征在于,所述对所述语音识别特征和所述情感识别特征进行特征识别,生成语音内容和情感信息,具体为:
通过声学模型对所述语音识别特征的特征参数进行匹配,匹配生成所述语音的语音内容;
通过预设的SVM多分类算法对所述情感识别特征进行分类计算,得到所述语音的情感信息。
7.如权利要求6所述的基于微服务器及智能语音识别的人车交互方法,其特征在于,所述情感信息为k类,包括高兴、愤怒、害怕、悲伤、惊奇以及中性。
8.如权利要求7所述的基于微服务器及智能语音识别的人车交互方法,其特征在于,所述通过预设的SVM多分类算法对所述情感识别特征进行分类计算,具体为:
通过设计k(k-1)/2个SVM,在任意两个类别样本之间使用一个SVM进行分类,并将得票最多的类别作为最终类别。
9.如权利要求8所述的基于微服务器及智能语音识别的人车交互方法,其特征在于,在对所述情感识别特征进行分类计算时,采用大数据Spark内存计算平台,以快速得到计算结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910758860.4A CN110534091A (zh) | 2019-08-16 | 2019-08-16 | 一种基于微服务器及智能语音识别的人车交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910758860.4A CN110534091A (zh) | 2019-08-16 | 2019-08-16 | 一种基于微服务器及智能语音识别的人车交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110534091A true CN110534091A (zh) | 2019-12-03 |
Family
ID=68663448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910758860.4A Pending CN110534091A (zh) | 2019-08-16 | 2019-08-16 | 一种基于微服务器及智能语音识别的人车交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110534091A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128178A (zh) * | 2019-12-31 | 2020-05-08 | 上海赫千电子科技有限公司 | 一种基于面部表情分析的语音识别方法 |
CN111785294A (zh) * | 2020-06-12 | 2020-10-16 | Oppo广东移动通信有限公司 | 音频检测方法及装置、终端、存储介质 |
CN111968622A (zh) * | 2020-08-18 | 2020-11-20 | 广州市优普科技有限公司 | 一种基于注意力机制的语音识别方法、***及装置 |
CN114141239A (zh) * | 2021-11-29 | 2022-03-04 | 江南大学 | 基于轻量级深度学习的语音短指令识别方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
CN106601231A (zh) * | 2016-12-22 | 2017-04-26 | 深圳市元征科技股份有限公司 | 车辆控制方法和装置 |
CN106803423A (zh) * | 2016-12-27 | 2017-06-06 | 智车优行科技(北京)有限公司 | 基于用户情绪状态的人机交互语音控制方法、装置及车辆 |
CN106874016A (zh) * | 2017-03-07 | 2017-06-20 | 长江大学 | 一种新型可定制的大数据平台架构方法 |
CN109712681A (zh) * | 2018-12-21 | 2019-05-03 | 河海大学常州校区 | 一种基于体征大数据的车载分析*** |
-
2019
- 2019-08-16 CN CN201910758860.4A patent/CN110534091A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
CN106601231A (zh) * | 2016-12-22 | 2017-04-26 | 深圳市元征科技股份有限公司 | 车辆控制方法和装置 |
CN106803423A (zh) * | 2016-12-27 | 2017-06-06 | 智车优行科技(北京)有限公司 | 基于用户情绪状态的人机交互语音控制方法、装置及车辆 |
CN106874016A (zh) * | 2017-03-07 | 2017-06-20 | 长江大学 | 一种新型可定制的大数据平台架构方法 |
CN109712681A (zh) * | 2018-12-21 | 2019-05-03 | 河海大学常州校区 | 一种基于体征大数据的车载分析*** |
Non-Patent Citations (1)
Title |
---|
FLORIAN EYBEN等: ""The geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing"", 《IEEE TRANSACTIONS ON AFFECTIVE COMPUTING》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128178A (zh) * | 2019-12-31 | 2020-05-08 | 上海赫千电子科技有限公司 | 一种基于面部表情分析的语音识别方法 |
CN111785294A (zh) * | 2020-06-12 | 2020-10-16 | Oppo广东移动通信有限公司 | 音频检测方法及装置、终端、存储介质 |
CN111785294B (zh) * | 2020-06-12 | 2024-04-02 | Oppo广东移动通信有限公司 | 音频检测方法及装置、终端、存储介质 |
CN111968622A (zh) * | 2020-08-18 | 2020-11-20 | 广州市优普科技有限公司 | 一种基于注意力机制的语音识别方法、***及装置 |
CN114141239A (zh) * | 2021-11-29 | 2022-03-04 | 江南大学 | 基于轻量级深度学习的语音短指令识别方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhavan et al. | Bagged support vector machines for emotion recognition from speech | |
CN101599271B (zh) | 一种数字音乐情感的识别方法 | |
CN110534091A (zh) | 一种基于微服务器及智能语音识别的人车交互方法 | |
Shaw et al. | Emotion recognition and classification in speech using artificial neural networks | |
EP2418643A1 (en) | Computer-implemented method and system for analysing digital speech data | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Yu et al. | Sparse cepstral codes and power scale for instrument identification | |
KR20200088263A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Kandali et al. | Vocal emotion recognition in five native languages of Assam using new wavelet features | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
CN108369803A (zh) | 用于形成基于声门脉冲模型的参数语音合成***的激励信号的方法 | |
Revathy et al. | Performance comparison of speaker and emotion recognition | |
Khanna et al. | Application of vector quantization in emotion recognition from human speech | |
Kadyan et al. | Prosody features based low resource Punjabi children ASR and T-NT classifier using data augmentation | |
Pratama et al. | Human vocal type classification using MFCC and convolutional neural network | |
Gaudani et al. | Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language | |
KR100766170B1 (ko) | 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
Bouchakour et al. | Noise-robust speech recognition in mobile network based on convolution neural networks | |
Płonkowski | Using bands of frequencies for vowel recognition for Polish language | |
Dharini et al. | CD-HMM Modeling for raga identification | |
Camarena-Ibarrola et al. | Speaker identification using entropygrams and convolutional neural networks | |
Bansod et al. | Speaker Recognition using Marathi (Varhadi) Language | |
Boonthong et al. | Fisher feature selection for emotion recognition | |
Fahmeeda et al. | Voice Based Gender Recognition Using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191203 |
|
RJ01 | Rejection of invention patent application after publication |