CN110534091A

CN110534091A - 一种基于微服务器及智能语音识别的人车交互方法

Info

Publication number: CN110534091A
Application number: CN201910758860.4A
Authority: CN
Inventors: 邱华礼; 孙一帅; 陈晶; 曹刚; 梁维新
Original assignee: Guangzhou Wilson Information Technology Co Ltd
Current assignee: Guangzhou Wilson Information Technology Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-12-03

Abstract

本发明公开了一种基于微服务器及智能语音识别的人车交互方法，通过获取用户输入的语音数据，对语音数据进行数据采集，生成音频数据，并对音频数据进行预处理以去除音频数据中的背景噪音，同时对音频数据进行特征提取，生成语音识别特征和情感识别特征，然后对语音识别特征和情感识别特征进行特征识别，生成语音内容和情感信息，最后根据语音内容和情感信息，在预设的规则数据库中进行查询，生成匹配分数最高的结果，并执行结果以进行人车交互，相比较于传统的人车交互方法本发明实施例更加的智能，并且还具有情感倾向分析的功能。

Description

一种基于微服务器及智能语音识别的人车交互方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于微服务器及智能语音识别的人车交互方法。

背景技术

现有的人车交互方法，主要基于语音识别的语义分析，针对驾驶人发出的语音指令，进行指令分析，然后做出相应的反馈动作，其所采用的识别工具是基于传统关键词模型匹配的语音识别***，存储工具为传统关系型数据库，后台为传统MVC的单体服务架构。

然而现有的人车交互方法，由于忽略驾驶人当时的情感倾向分析，所以表现得不够智能化，不够人性化，传统关系型数据库的单机存储空间有限，想要进行海量数据存储太过困难，并且识别准确率不高、识别速度慢、词典维护麻烦，其使用的后台***庞大、维护麻烦、可扩展性差。

发明内容

本发明实施例的目的是提供一种基于微服务器及智能语音识别的人车交互方法，相比较于传统的人车交互方法本发明实施例更加的智能，并且还具有情感倾向分析的功能。

为实现上述目的，本发明实施例提供了一种基于微服务器及智能语音识别的人车交互方法，包括以下步骤：

获取用户输入的语音数据，对所述语音数据进行数据采集，生成音频数据；

对所述音频数据进行预处理以去除所述音频数据中的背景噪音，同时对所述音频数据进行特征提取，生成语音识别特征和情感识别特征；

对所述语音识别特征和所述情感识别特征进行特制识别，生成语音内容和情感信息；

根据所述语音内容和所述情感信息，在预设的规则数据库中进行查询，生成匹配分数最高的结果，并执行所述结果以进行人车交互。

进一步的，所述预处理包括：去噪、预加重、短时分析、分帧、加窗以及端点检测。

进一步的，所述对所述音频数据进行特征提取，生成语音识别特征和情感识别特征，具体为：

对所述音频数据进行梅尔频率倒谱系数(MFCC)提取，生成所述音频数据的梅尔频率倒谱系数(MFCC)，并将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征；

通过GeMAPS特征集对所述音频数据进行情感特征提取，生成所述音频数据的GeMAPS特征集，并将所述音频数据的GeMAPS特征集作为情感识别特征。

进一步的，所述GeMAPS特征集包含62个特征，所述62个特征均为HSF特征，并且所述62个特征是由18个LLD特征计算得到。

进一步的，对所述音频数据进行梅尔频率倒谱系数(MFCC)提取，生成所述音频数据的梅尔频率倒谱系数(MFCC)，并将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征，具体为：

对所述音频数据分帧加窗，并对每一帧做FFT，得到线性声谱图；

对线性声谱图应用梅尔滤波器后取log，得到log梅尔声谱图；

对所述log梅尔声谱图做DCT和离散余弦变换，保留结果中的第2个到第13个系数，并将得到的这12个系数作为所述音频数据的梅尔频率倒谱系数(MFCC)，同时将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征。

进一步的，所述对所述语音识别特征和所述情感识别特征进行特制识别，生成语音内容和情感信息，具体为：

通过声学模型对所述语音识别特征的特征参数进行匹配，匹配生成所述语音的语音内容；

通过预设的SVM多分类算法对所述情感识别特征进行分类计算，得到所述语音的情感信息。

进一步的，所述情感信息为k类，包括高兴、愤怒、害怕、悲伤、惊奇以及中性。

进一步的，所述通过预设的SVM多分类算法对所述情感识别特征进行分类计算，具体为：

通过设计k(k-1)/2个SVM，在任意两个类别样本之间使用一个SVM进行分类，并将得票最多的类别作为最终类别。

进一步的，在对所述情感识别特征进行分类计算时，采用大数据Spark内存计算平台，以快速得到计算结果。

与现有技术相比，具有如下有益效果：

本发明实施例提供的基于微服务器及智能语音识别的人车交互方法，通过获取用户输入的语音数据，对语音数据进行数据采集，生成音频数据，并对音频数据进行预处理以去除音频数据中的背景噪音，同时对音频数据进行特征提取，生成语音识别特征和情感识别特征，然后对语音识别特征和情感识别特征进行特征识别，生成语音内容和情感信息，最后根据语音内容和情感信息，在预设的规则数据库中进行查询，生成匹配分数最高的结果，并执行结果以进行人车交互，相比较于传统的人车交互方法本发明实施例更加的智能，并且还具有情感倾向分析的功能。

附图说明

图1是本发明提供的基于微服务器及智能语音识别的人车交互方法的一个实施例的流程示意图；

图2是本发明提供的基于微服务器及智能语音识别的人车交互方法的一个实施例提供的人车交互***的架构图；

图3是本发明提供的基于微服务器及智能语音识别的人车交互方法的一个实施例的工作原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明提供的基于微服务器及智能语音识别的人车交互方法的一个实施例的结构示意图；本发明实施例提供一种基于微服务器及智能语音识别的人车交互方法，包括步骤S1-S4；

S1，获取用户输入的语音数据，对所述语音数据进行数据采集，生成音频数据。

基于HDFS分布式存储***能够存储PB级别的海量数据，具有高可用、高容错性、可扩展性的优点，在本实施例中，所有的这些原始语音数据存储在HDFS分布式文件***中。

S2，对所述音频数据进行预处理以去除所述音频数据中的背景噪音，同时对所述音频数据进行特征提取，生成语音识别特征和情感识别特征。

在本实施例中，所述预处理包括：去噪、预加重、短时分析、分帧、加窗以及端点检测；

具体的，去噪：当完成语音的输入后，就对噪声的进行预处理，使用自动切分程序切除语音中多余的非人为噪声，如过长的静音段、电流噪声；预加重：预加重的目的是提高高频部分，使信号的频谱变得平坦，以便于频谱分析或者声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行，但一般是在语音信号数字化之后；短时分析：语音信号从整体来看是随时间变化的，是一个非平稳过程，不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是，由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应，这种运动对于语音频率来说是非常缓慢的，所以从另一方面看，虽然语音信号具有时变特性，但是在一个短时间范围内(一般认为在10-30ms)其特性基本保持相对稳定，即语音具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上，即进行“短时分析；分帧：为了进行短时分析，将语音信号分为一段一段，其中每一段称为一帧，一般取10-30ms，为了使帧与帧之间平滑过渡，保持连续性，使用交叠分段的方法，可以想成一个指针p从头开始，截取一段头为p，长度为帧长的片段，然后指针p移动，移动的步长就称为帧移，每移动一次都截取一段，这样就得到很多帧；加窗：加窗就是用一定的窗函数w(n)w(n)来乘s(n)s(n)，从而形成加窗语音信号sw(n)＝s(n)*w(n)sw(n)＝s(n)*w(n)，常用的窗函数是矩形窗和汉明窗，用矩形窗其实就是不加窗，窗函数中有个N，指的是窗口长度(样本点个数)，对应一帧，通常在8kHz取样频率下，N折中选择为80-160(即10-20ms持续时间)；端点检测：从一段语音信号中准确地找出语音信号的起始点和结束点，它的目的是为了使有效的语音信号和无用的噪声信号得以分离。

在本实施例中，对所述音频数据进行特征提取，生成语音识别特征和情感识别特征，具体为：对所述音频数据进行梅尔频率倒谱系数(MFCC)提取，生成所述音频数据的梅尔频率倒谱系数(MFCC)，并将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征；通过GeMAPS特征集对所述音频数据进行情感特征提取，生成所述音频数据的GeMAPS特征集，并将所述音频数据的GeMAPS特征集作为情感识别特征。

所述GeMAPS特征集包含62个特征，所述62个特征均为HSF特征，并且所述62个特征是由18个LLD特征计算得到。

需要说明的是，对所述音频数据进行梅尔频率倒谱系数(MFCC)提取，生成所述音频数据的梅尔频率倒谱系数(MFCC)，并将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征，具体为：对所述音频数据分帧加窗，并对每一帧做FFT，得到线性声谱图；对线性声谱图应用梅尔滤波器后取log，得到log梅尔声谱图；对所述log梅尔声谱图做DCT和离散余弦变换，保留结果中的第2个到第13个系数，并将得到的这12个系数作为所述音频数据的梅尔频率倒谱系数(MFCC)，同时将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征。

在本发明方法中，特征值提取的环节，分两个部分进行：语音特征提取和情感特征提取。

语音特征提取服务，采用的是梅尔频率倒谱系数(MFCC)：采用梅尔频率倒谱系数(MFCC)提取能够反映语音信号特征的关键特征参数所形成的特征序列；提取梅尔频率倒谱系数(MFCC)的步骤：首先分帧加窗，然后对每一帧做FFT后得到(单帧)线性声谱图，对线性声谱图应用梅尔滤波器后然后取log得到log梅尔声谱图，然后对log滤波能量(log梅尔声谱)做DCT，离散余弦变换，然后保留第二个到第13个系数，得到的这12个系数就是MFCC。

情感特征提取服务，采用的是GeMAPS特征集：所述GeMAPS特征集总共62个特征，这62个都是HSF特征，是由18个LLD特征计算得到。其中，18个LLD特征包括6个频率相关特征，3个能量/振幅相关特征，9个谱特征。

基音F0的概念：基音，通常记作F0(F0一般也指基音频率)，一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，由它发出的音就是基音，其余为泛音。

6个频率相关特征包括：Pitch(log F0，在半音频率尺度上计算，从27.5Hz开始)；Jitter(单个连续基音周期内的偏差，偏差衡量的是观测变量与特定值的差，如果没有指明特定值通常使用的是变量的均值)；前三个共振峰的中心频率，第一个共振峰的带宽。

3个能量/振幅的特征包括：Shimmer(相邻基音周期间振幅峰值之差)，Loudness(从频谱中得到的声音强度的估计，可以根据能量来计算)，HNR(Harmonics-to-noise)信噪比。

9个谱特征包括：Alpha Ratio(50-1000Hz的能量和除以1-5kHz的能量和)，Hammarberg Index(0-2kHz的最强能量峰除以2-5kHz的最强能量峰)，Spectral Slope 0-500Hz and 500-1500Hz(对线性功率谱的两个区域0-500Hz和500-1500Hz做线性回归得到的两个斜率)，Formant 1,2,and 3relative energy(前三个共振峰的中心频率除以基音的谱峰能量)，Harmonic difference H1-H2(第一个基音谐波H1的能量除以第二个基音谐波的能量)，Harmonic difference H1-A3(第一个基音谐波H1的能量除以第三个共振峰范围内的最高谐波能量)。

对18个LLD做统计，计算的时候是对3帧语音做symmetric moving average。首先计算算术平均和coefficient of variation(计算标准差然后用算术平均规范化)，得到36个统计特征。然后对loudness和pitch运算8个函数，20百分位，50百分位，80百分位，20到80百分位之间的range，上升/下降语音信号的斜率的均值和标准差。这样就得到16个统计特征。上面的函数都是对voiced regions(非零的F0)做的。对Alpha Ratio，HammarbergIndex，Spectral Slope 0-500Hz and 500-1500Hz做算术平均得到4个统计特征。另外还有6个时间特征，每秒loudness峰的个数，连续voiced regions(F0>0)的平均长度和标准差，unvoiced regions(F0＝0)的平均长度和标准差，每秒voiced regions的个数，36+16+4+6得到62个特征。

S3，对所述语音识别特征和所述情感识别特征进行特征识别，生成语音内容和情感信息。

在本实施例中，步骤S3具体为：通过声学模型对所述语音识别特征的特征参数进行匹配，匹配生成所述语音的语音内容；通过预设的SVM多分类算法对所述情感识别特征进行分类计算，得到所述语音的情感信息。

作为本发明的优选实施例，所述情感信息为k类，包括高兴、愤怒、害怕、悲伤、惊奇以及中性。

在本实施例中，所述通过预设的SVM多分类算法对所述情感识别特征进行分类计算，具体为：通过设计k(k-1)/2个SVM，在任意两个类别样本之间使用一个SVM进行分类，并将得票最多的类别作为最终类别。

其中，在对所述情感识别特征进行分类计算时，采用大数据Spark内存计算平台，以快速得到计算结果。

需要说明的是，在本发明方法中，识别的环节包括两个环节：语音识别和情感识别。

根据提取出来的语音识别特征梅尔频率倒谱系数(MFCC)，进行语音分类识别。语音识别原理：语音使用训练语音库的特征参数进行声学模型的训练，即是将待识别的语音的特征参数与声学模型进行匹配，识别出语音的内容。

其中，在本实施例中，语音识别使用改进的softmax多分类算法，softmax多分类原理如下：它将多个神经元的输出，映射到(0,1)区间内，可以看成概率来理解，从而来进行多分类。

softmax具体分类过程如下：

开始时输入语音a，经过softmax计算，得出语音内容的计算结果：听音乐，概率为85％；停车，概率为10％；看电影，概率为5％；这样就可以识别出语音的内容是：听音乐。

根据提取出来的情感识别特征GeMAPS特征集，进行情感识别。在本实施例中情感识别使用改进的SVM多分类算法：一对一法(one-versus-one，简称OVO SVMs或者pairwise)。

其中，SVM多分类原理如下：在任意两类样本之间设计一个SVM，因此k个类别的样本就需要设计k(k-1)/2个SVM。当对一个未知样本进行分类时，最后得票最多的类别即为该未知样本的类别。

具体的，SVM具体分类过程如下：

本本发明实施例中，有6类情感：高兴、愤怒、害怕、悲伤、惊奇、中性，分别记为：A，B，C，D，E，F。

在训练时构造(A,B)、(A,C)、(A,D)、(A,E)、(A,F)、(B,C)、(B,D)、(B,E)、(B,F)、(C,D)、(C,E)、(C,F)、(D,E)、(D,F)、(E,F)所对应的向量作为训练集，然后得到15个训练结果，在测试的时候，把对应的向量分别对15个结果进行测试，然后采取投票形式，最后得到一组结果。

投票是这样的：

开始：A＝B＝C＝D＝E＝F＝0；

(A,B)-classifier如果是A win,则A＝A+1；otherwise,B＝B+1；

(A,C)-classifier如果是A win,则A＝A+1；otherwise,C＝C+1；

...

(E,F)-classifier如果是E win,则E＝E+1；otherwise,F＝F+1；

The decision is the Max(A,B,C,D,E,F)。

这样就可以识别出语音的情感信息。

由于分类中的子分类集合比较多，计算量会比较大，所以采取大数据Spark内存计算平台平行计算，基于Spark分布式计算平台使用内存计算模型的先进技术，具有海量数据的计算能力，这样可以快速得到计算结果。

需要说明的是，训练和测试的情感数据库使用的是CASIA汉语情感数据库。

S4，根据所述语音内容和所述情感信息，在预设的规则数据库中进行查询，生成匹配分数最高的结果，并执行所述结果以进行人车交互。

通过事先制定好的内容和情感的推荐规则数据库，查询出匹配最高的结果，然后做出智能反馈，完成人车交互，其中，内容和情感的推荐规则数据库，存储的是和出行高度相关的内容。

请参见2，图2是本发明提供的基于微服务器及智能语音识别的人车交互方法的一个实施例提供的人车交互***的架构图，具体的，所述人车交互***通过微服务平台能够执行本发明提供的基于微服务器及智能语音识别的人车交互方法，并且通过将不同的步骤开发成一个个单个小型的但有业务功能的服务，其中每个服务都有自己的处理和轻量通讯机制，可以部署在单个或多个服务器上。

请继续参见图2，可以看到，人车交互***中的各个服务单元都是独立的，其中，语音输入服务的功能：接收语音数据，对语音数据采样；

数据预处理服务的功能：过滤掉背景噪音；

特征提取服务的功能：提取语音相关的特征，包括语音特征，情感特征；

语音识别服务的功能：识别语音的内容，即是说话人说了什么；

情感识别服务的功能：通过提取出来的特征，进行说话人的情感信息识别；

智能反馈服务的功能：通过识别出来的情感信息，提供智能反馈服务。

请参图2和图3，为了更好的说明本发明方法的工作原理，以下为本发明提供的基于微服务器及智能语音识别的人车交互方法的工作原理：首先，用户对人车交互***说出语音指令：我想听音乐；通过人车交互***中的语音输入服务器对这段语音进行数据采集，生成音频数据；然后人车交互***中的数据预处理服务对这段音频数据进行预处理：去掉背景噪音；再通过人车交互***中的语音特征提取服务提取出语音识别的相关特征列表，同时提取出情感识别的相关特征列表；然后通过人车交互***中的语音识别服务根据语音特征列表进行语音识别，识别出语音的内容，如：听音乐；同时情感识别服务根据情感特征列表，进行情感识别，识别出说话人的情感信息，如：愤怒；再通过人车交互***的智能反馈服务根据识别处理的语音内容、情感信息，做出智能的反馈结果，如：打开音乐播放器，给用户播放一首轻松欢快的音乐，舒缓心情，最后用户获得反馈信息，本次语音交互过程结束。

综上，本发明实施例提供的基于微服务器及智能语音识别的人车交互方法，通过获取用户输入的语音数据，对语音数据进行数据采集，生成音频数据，并对音频数据进行预处理以去除音频数据中的背景噪音，同时对音频数据进行特征提取，生成语音识别特征和情感识别特征，然后对语音识别特征和情感识别特征进行特征识别，生成语音内容和情感信息，最后根据语音内容和情感信息，在预设的规则数据库中进行查询，生成匹配分数最高的结果，并执行结果以进行人车交互，相比较于传统的人车交互方法本发明实施例更加的智能，并且还具有情感倾向分析的功能。

采用本发明提供的实施例，具有如下有益效果：

1.基于机器学习的语音识别准确率更高；

2.基于机器学习的语音识别识别速度更快；

3.具有情感倾向分析的功能，使交互更加智能；

4.基于分布式计算平台，可以实时处理海量数据；

5.基于分布式存储平台，鲁棒性高；

6.应用于***时，适用于各种出行场景；

7.应用于***时采用的微服务，运维简单；

8.应用于***时具备数据挖掘的功能；

9.应用于***时支持多种语言的输入；

10.应用于***时支持多种语言的输出。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于微服务器及智能语音识别的人车交互方法，其特征在于，包括以下步骤：

对所述语音识别特征和所述情感识别特征进行特征识别，生成语音内容和情感信息；

2.如权利要求1所述的基于微服务器及智能语音识别的人车交互方法，其特征在于，所述预处理包括：去噪、预加重、短时分析、分帧、加窗以及端点检测。

3.如权利要求1所述的基于微服务器及智能语音识别的人车交互方法，其特征在于，所述对所述音频数据进行特征提取，生成语音识别特征和情感识别特征，具体为：

4.如权利要求3所述的基于微服务器及智能语音识别的人车交互方法，其特征在于，所述GeMAPS特征集包含62个特征，所述62个特征均为HSF特征，并且所述62个特征是由18个LLD特征计算得到。

5.如权利要求3所述的基于微服务器及智能语音识别的人车交互方法，其特征在于，对所述音频数据进行梅尔频率倒谱系数(MFCC)提取，生成所述音频数据的梅尔频率倒谱系数(MFCC)，并将所述音频数据的梅尔频率倒谱系数(MFCC)作为语音识别特征，具体为：

对线性声谱图应用梅尔滤波器后取log，得到log梅尔声谱图；

6.如权利要求5所述的基于微服务器及智能语音识别的人车交互方法，其特征在于，所述对所述语音识别特征和所述情感识别特征进行特征识别，生成语音内容和情感信息，具体为：

7.如权利要求6所述的基于微服务器及智能语音识别的人车交互方法，其特征在于，所述情感信息为k类，包括高兴、愤怒、害怕、悲伤、惊奇以及中性。

8.如权利要求7所述的基于微服务器及智能语音识别的人车交互方法，其特征在于，所述通过预设的SVM多分类算法对所述情感识别特征进行分类计算，具体为：

9.如权利要求8所述的基于微服务器及智能语音识别的人车交互方法，其特征在于，在对所述情感识别特征进行分类计算时，采用大数据Spark内存计算平台，以快速得到计算结果。