CN112116909A

CN112116909A - 语音识别方法、装置及***

Info

Publication number: CN112116909A
Application number: CN201910538919.9A
Authority: CN
Inventors: 董勤波; 周洪伟; 陈展
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2020-12-22

Abstract

本申请实施例提供一种语音识别方法、装置及***。本申请实施例通过根据待识别的目标语音信号对应的目标区域标识，确定与目标区域标识对应的目标语音识别引擎，利用目标语音识别引擎，对目标语音信号进行识别，得到识别结果，能够根据区域标识准确确定对应的语音识别引擎，并基于确定的语音识别引擎获得准确的语音识别结果，提高了语音识别的准确性。

Description

语音识别方法、装置及***

技术领域

本申请实施例涉及音频处理技术领域，尤其涉及一种语音识别方法、装置及***。

背景技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。

相关技术中，对所有用户使用相同的语音识别引擎识别语音内容。但是，由于不同区域的用户在口音上相差较大，因此，这种方式中语音识别的准确性较低。

发明内容

为克服相关技术中存在的问题，本申请实施例提供了一种语音识别方法、装置及***，以提高语音识别的准确性。

根据本申请实施例的第一方面，提供一种语音识别方法，所述方法包括：

根据待识别的目标语音信号对应的目标区域标识，确定与所述目标区域标识对应的目标语音识别引擎；

利用目标语音识别引擎，对所述目标语音信号进行识别，得到识别结果。根据本申请实施例的第二方面，提供一种语音识别装置，所述装置包括：

区域确定模块，用于根据待识别的目标语音信号对应的区域标识，确定目标用户所属的目标区域，所述目标用户为说出所述目标语音信号的用户；

内容识别模块，用于利用与所述目标区域对应的目标语音识别引擎，识别所述目标语音信号的内容。

根据本申请实施例的第三方面，提供一种语音识别***，包括麦克风、显示器和处理器：

所述麦克风，用于采集语音，并将所述语音转换为语音信号发送给所述处理器；

所述处理器，用于根据待识别的目标语音信号对应的目标区域标识，确定与所述目标区域标识对应的目标语音识别引擎，以及利用目标语音识别引擎，对所述目标语音信号进行识别，得到识别结果；

所述显示器，用于显示所述识别结果。

本申请实施例提供的技术方案可以包括以下有益效果：

本申请实施例通过根据待识别的目标语音信号对应的目标区域标识，确定与目标区域标识对应的目标语音识别引擎，利用目标语音识别引擎，对目标语音信号进行识别，得到识别结果，能够根据区域标识准确确定对应的语音识别引擎，并基于确定的语音识别引擎获得准确的语音识别结果，提高了语音识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本申请实施例提供的语音识别方法的流程示例图。

图2是本申请实施例提供的语音识别装置的功能方块图。

图3是本申请实施例提供的语音识别设备的一个硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。

在本申请实施例使用的术语是仅仅出于描述特定本申请实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在一些应用场景中，经常需要将人的语音转换为计算机可读的输入信息，例如将语音转换为文字。此时，可以利用本申请实施例提供的语音识别方法获得转换后的信息，例如文字。

例如，在一个示例性的应用场景中，用户将语音输入至手机中，手机将语音传送给具有语音识别功能的服务器，服务器利用本申请实施例提供的语音识别方法，将语音转换为文字信息，并将该文字信息发送给手机。

在其他实施例中，接收语音并将语音传送给服务器的终端也可以是车载设备、智能音箱等。

针对相关技术对于所有用户都使用相同的语音识别引擎识别语音内容，进而导致语音识别的准确性较差的情况，本申请实施例基于语音信号的区域标识确定对应的语音识别引擎，以对语音进行识别。由于区域标识与用户说话的口音或方言相关，因此能够准确确定对应的语音识别引擎，从而基于该语音识别引擎准确识别出用户的语音。

例如，用户甲说话的口音是浙江口音，用户乙说话的口音是四川口音，。相关技术会将用户甲和用户乙的语音信号用相同的语音识别引擎进行识别。本申请实施例提供的语音识别方法根据从用户甲的语音信号对应的区域标识，用浙江对应的语音识别引擎识别用户甲的语音，根据从用户乙的语音信号对应的区域标识，用四川对应的语音识别引擎识别用户乙的语音。对比可见，利用本申请实施例提供的语音识别方法得到的语音识别结果更加准确。

下面通过实施例对本申请实施例提供的语音识别方法进行说明。

图1是本申请实施例提供的语音识别方法的流程示例图。如图1所示，该方法可以包括：

S101，根据待识别的目标语音信号对应的目标区域标识，确定与目标区域标识对应的目标语音识别引擎。

S102，利用目标语音识别引擎，对目标语音信号进行识别，得到识别结果。

在步骤S101中，区域标识用于指示用户所属的区域。此处，“用户所属的区域”是指用户说话的口音或方言所属的区域，而不是指用户所在的位置属于哪个区域或者用户的户籍。也就是说，通过区域标识，可以获知用户说话的口音或方言所属的区域，而不用管用户当前在哪里或者用户是哪里人。

例如。假设用户丙当前所处位置属于云南，用户丙的户籍是上海，但用户丙说话的口音是广东口音。则用户丙说出的语音对应的区域标识是广东。

在本申请实施例中，区域标识可以使用任何能够唯一标识区域的信息表示。

在一个示例中，区域标识可以用区域名称表示。例如“上海”、“浙江”、“四川”等等。

在一个示例中，区域标识可以用区域简称表示。例如“沪”、“浙”、“川”等等。

本申请实施例中，每个区域标识对应一个语音识别引擎，不同区域标识对应不同语音识别引擎。

例如，以我国的每一个省份为一个区域，则每个省份对应一个区域标识，且对应一个语音识别引擎。每个语音识别引擎都与本区域的口音或方言相适应。

例如，浙江对应语音识别引擎1，四川对应语音识别引擎2，……如此，每一个省对应一个区域标识，且对应一个语音识别引擎。

在另一个示例中，可以将一种语言使用范围内的所有地区作为一个区域，这些区域共用一个区域标识。例如，说粤语的地区对应区域标识a和语音识别引擎1，说闽南语的地区对应区域标识b和语音识别引擎2，……如此，每种语言使用范围内的所有地区对应一个语音识别引擎。

通过步骤S101，根据目标区域标识可以准确确定用于识别目标语音信号的目标语音识别引擎，从而能够准确识别出目标语音信号的内容，该内容即为目标语音信号的识别结果。

在步骤S102中，由于识别结果是利用与目标区域标识对应的目标语音识别引擎得到的，因此识别结果的准确性高于相关技术中语音识别结果的准确性。

在一个示例性的实现过程中，目标区域标识的获取方式可以包括：

根据目标语音信号的语音特征信息，确定目标区域标识。

本实施例中，语音特征信息是从目标语音信号中提取的。语音特征信息能够准确反映人的语音特性，例如地区口音、方言等，从而根据该语音特性准确确定目标语音信号对应的目标区域标识。人的语音特性不因用户所在地理位置的变化而变化，因而通过语音特征信息能够准确确定目标区域标识，从而为准确选择语音识别引擎奠定基础。

语音特征信息通常用梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients，MFCC)表示。MFCC可以反映说话人的语音特性，该语音特性包含了说话人的口音信息。

人通过声道产生声音，声道的形状决定了人发出怎样的声音。声道的形状包括舌头，牙齿等。如果可以准确的知道声道的形状，那么就可以对产生的音素phoneme进行准确的描述。声道的形状在语音短时功率谱的包络中显示出来。而MFCC就是一种准确描述这个包络的一种特征。

在一个示例中，可以利用已训练的区域信息识别模型根据目标语音信号的语音特征信息识别出目标区域标识。区域信息识别模型可以是深度学习网络模型，例如卷积神经网络模型。

在训练区域信息识别模型时，可以将语音音频数据按照区域分成若干个数据集合，每个数据集合对应一个区域，每一个区域对应区域信息识别模型的一个输出节点。例如，以一个省份为一个区域(用区域标识表示)，34个省份共有34个区域，此时区域信息识别模型共有35个输出节点，前34个输出节点各自对应一个区域，第35个输出节点用来映射待分类语音音频数据没有找到合适的区域。

从目标用户的输入信息中获取目标区域标识。

例如，在一个示例中，用户通过手机输入需要识别的目标语音信号后，手机的界面可以显示一个文本输入框，用户在该文本输入框输入目标区域标识，例如“上海”或“沪”等文字，然后手机将用户输入的文本信息发送给用于识别语音的服务器。

在另一个示例中，用户通过手机输入需要识别的目标语音信号后，手机的界面可以显示一个区域标识列表，区域标识列表中显示了所有区域的区域标识，用户可以通过点击等方式在区域标识列表中选择目标区域标识，然后手机将用户选择的目标区域标识发送给用于识别语音的服务器。

从接收目标语音信号的目标终端本地的存储信息中，获取目标区域标识。

例如，在一个示例中，可以在手机中安装语音识别APP(应用程序)，该语音识别APP能够将用户说出的语音信号发送给远程的服务器进行语音识别，然后接收服务器返回的识别结果。在该语音识别APP中，可以设置一个操作选项“保存区域标识”，用户可以通过该操作选项输入区域标识并保存。此后，每次用户通过该语音识别APP说出语音信号时，该语音识别APP将语音信号和保存的区域标识一起发送给服务器。

根据接收目标语音信号的目标终端的定位信息，获取目标区域标识。

一般情况下，用户会在所属区域内活动。此时，根据用户发出目标语音信号的目标终端的定位信息，可以确定用户所在的区域，并以该区域的区域标识作为目标区域标识。

根据接收目标语音信号的目标终端的号码归属地，获取目标区域标识。

一般情况下，用户会在所属区域内办理手机号码，因此，通过目标终端的号码归属地可以判断出用户所属区域，并可以该区域作为目标区域标识。

需要说明的是，在一个应用场景中，可以设置上述的任意一种或多种目标区域标识的获取方式。

在一个示例性的实现过程中，根据目标语音信号的语音特征信息，确定目标区域标识，包括：将目标语音信号的语音特征信息输入至已训练的区域信息识别模型，以由区域信息识别模型依据输入的语音特征信息识别出目标区域标识，目标区域标识用于指示说出目标语音信号的目标用户所属的区域；

确定与目标区域标识对应的目标语音识别引擎，包括：从已训练的各区域的语音识别引擎中选择与目标区域标识对应的目标语音识别引擎；

利用目标语音识别引擎，对目标语音信号进行识别，得到识别结果，包括：将目标语音音频输入至目标语音识别引擎，以由目标语音识别引擎对输入的目标语音信号进行语音识别，得到识别结果。

需要说明的是，与语音识别引擎对应的区域标识，和区域信息识别模型的相应输出节点对应的区域标识相同。例如，以一个省份为一个区域时，与语音识别引擎对应的区域标识表示省份，区域信息识别模型的输出节点对应的区域标识也是省份。举例来说，北京对应区域信息识别模型的输出节点1，且北京对应语音识别引擎A1，语音识别引擎A1对应的区域标识和区域信息识别模型的输出节点1对应的区域标识均为北京；上海对应区域信息识别模型的输出节点2，且上海对应语音识别引擎A2，语音识别引擎A2对应的区域标识和区域信息识别模型的输出节点2对应的区域标识均为上海；广东对应区域信息识别模型的输出节点3，且广东对应语音识别引擎A3，语音识别引擎A3对应的区域标识和区域信息识别模型的输出节点3对应的区域标识均为广东……。这里，北京、上海、广东为区域标识。

在本示例中，由于目标语音识别引擎是与目标区域标识对应的语音识别引擎，而目标区域标识是基于语音特征信息识别出来，目标区域标识的识别准确率高，从而基于目标区域标识确定的目标语音识别引擎的确定准确率高，进而基于该目标语音识别引擎得到的目标语音信号的识别结果准确率高。

语音识别引擎可以为深度学习网络模型。

在训练语音识别引擎时，将训练数据按照所属区域进行分类，为每个区域建立一个训练数据集，针对每个区域，用该区域对应的训练数据集该区域的区域标识对应的语音识别引擎。

在一个示例性的实现过程中，语音特征信息通过以下步骤确定：

按照设定帧长m，设定帧移n对目标语音信号进行分帧，得到至少一个第一音频帧；

按照预设的窗函数对每一第一音频帧进行加窗操作，得到第二音频帧；

对每一第二音频帧进行预加重操作得到第三音频帧，所述预加重操作用于增加第二音频帧的高频特征的权重；

从各第三音频帧中提取目标语音信号的语音特征信息。

此处，帧长指每一帧语音信号的时长。帧移指相邻两帧的起始位置的时间差。

本示例通过将目标语音信号分为多个音频帧，将不平稳的整个目标语音信号转换为多个平稳的音频帧，以便从平稳的音频帧中提取出语音特征。

语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性(时长在10ms～30ms内可以认为语音信号近似不变)。由于提取语音特征的过程需要用到傅里叶变换，而傅里叶变换要求输入的信号为平稳信号，所以要对整段语音信号进行分帧处理。

分帧就是将整段语音信号截取为至少一个语音片段。在分帧时，分帧后所得的音频帧的时长一般不少于20ms，通常以1/2左右时长为帧移分帧。相邻两音频帧间具有重叠区域可以避免相邻两帧的变化过大。

在分帧后，每一音频帧的起始端和末尾端会出现不连续，分帧越多与原始语音信号的误差就越大。加窗的目的就是使分帧后的语音信号变得连续，使每一音频帧表现出周期函数的特征。

加窗操作就是将分帧后所得的每一音频帧的信号与一个窗函数相乘。

预加重就是将每一音频帧的信号在频域上面都乘以一个系数，这个系数与频率成正相关，频率越高，系数越大，频率越低，系数越小，所以高频信号的幅值会得到提升。

通过预加重操作，可以消除发声过程中声带和嘴唇造成的效应，来补偿语音信号受到发音***所压抑的高频部分。预加重还能够突显高频的共振峰。

提取语音特征的目的是获得待识别的目标语音信号中的有效数据，提取出的特征是MFCC。

在一个示例性的实现过程中，从各第三音频帧中提取目标语音信号的语音特征信息，包括：

对每一第三音频帧进行快速傅里叶变换(Fast Fourier Transform，FFT)，得到第一频谱；

对每一第一频谱进行三角滤波，得到第二频谱；

根据预设的梅尔倒谱系数MFCC与频谱的对应关系，确定各第二频谱对应的MFCC；将确定的各MFCC确定为语音特征信息。

信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。本示例通过FFT变换将时域信号转换为频域信号，以便提取出语音特征。

三角滤波是指利用Mel滤波器组对频谱进行过滤。

Mel滤波器组是对人耳频率选择特性的一种模拟滤波器。人耳之所以能从嘈杂的背景噪声中听到语音信号，其中一个原因是因为人的内膜基底膜对外来信号会产生调节作用。对不同的频率，在相应的临界带宽内的信号会引起基底膜上不同位置的振动。所以可以用带通滤波器组来模仿人耳听觉，从而减少噪声对语音的影响。临界带宽随着频率的变化而变化并与感知频率Mel频率的增长一致，在1000Hz以下，临界带宽近似线性分布，约为100Hz左右；在1000Hz以上临界带宽呈对数增长。频率关系如下面的公式(1)所示：

Mel(f)＝1127ln(1+f/700) (1)

根据临界带的划分，可以将频域划分成一系列三角形的滤波器组，这些三角形的滤波器组称为Mel频率滤波器组，滤波器组中的每个三角滤波器的跨度与在Mel标度上是相等的。滤波器的带宽覆盖0～1/2采样率的带宽。其中，第i个滤波器频率响应如下面的公式(2)、(3)、(4)、(5)所示：

H_i(k)＝0,k＜f[i-1] (2)

H_i(k)＝0,f[i+1]≤k (5)

其中，f[i]为三角滤波器的中心频率，满足如下的公式(6)：

Mel(f[i+1])-Mel(f[i-1])＝Mel(f[i])-Mel(f[i-1]) (6)

MFCC参数充分利用了人耳听觉原理和倒谱的解相关特性，且mel频率倒谱具有对卷积性信道失真进行补偿的能力。

然后进行余弦(DCT)变换，取前N维特征就得到MFCC特征

梅尔倒谱系数MFCC与频谱的对应关系如下面的公式(7)：

y_t＝DCT(log(Mel(fft(x_t)))) (7)

其中，x_t为频谱，y_t为MFCC的值。

在一个示例性的实现过程中，区域信息识别模型依据输入的语音特征信息识别出目标区域标识，可以包括：

区域信息识别模型依据输入的每一MFCC，识别出目标用户所属的参考区域；

从所有参考区域中选择满足预设要求的一个参考区域，满足预设要求的一个参考区域与剩下的其他参考区域中的至少一个参考区域相同；

将选择出的参考区域的区域标识确定为目标区域标识。

在一个示例中，满足预设要求的一个参考区域可以是所有参考区域中数量最多的参考区域。

举例说明。假设目标语音信号分帧后得到20个音频帧，其中15个音频帧的MFCC对应的区域识别结果是区域标识A，5个音频帧的MFCC对应的区域识别结果是区域标识B，则取数量最多的区域标识A作为目标区域标识。

分帧后的每一音频帧都对应一个MFCC，区域信息识别模型依据一个MFCC识别出一个区域的区域标识，因此，多个音频帧就会有多个区域标识识别结果。本示例在获得各个音频帧对应的区域标识识别结果后进行平滑处理，提高了区域标识判断的准确性。

在一个示例性的实现过程中，目标语音信号通过以下步骤得到：

将待识别的初始语音信号输入至已训练的语音端点检测(Voice ActivityDectection，VAD)模型，以由语音端点检测模型从输入的初始语音信号中定位出语音的起始点和终止点，并从初始语音信号中去除非语音信号，得到目标语音信号。

语音端点检测的主要任务是从语音中准确的定位出语音的起始点和终止点，也就是去掉语音中的非人声，如静音、噪声等，节约通信带宽，减小后端模型的计算量，特别是在嵌入式设备上，能够减小功耗。在噪声环境下，性能较好的VAD能够去掉语音中的噪声，减小后端模型对噪声语音的处理，能够提升语音识别的准确率。

在一个示例中，语音端点检测模型可以采用基于深度学习的神经网络模型。语音端点检测模型的输出节点为两个，一个输出节点用于输出语音信号，另外一个输出节点用于输出非语音信号。

在其他示例中，语音端点检测也可以采用传统的VAD方式，例如基于能量、过零率或者高斯模型的VAD。

在一个示例性的过程中，在步骤S101之前，还可以包括：

接收目标终端发送的目标语音信号；

在步骤S102之后，还可以包括：

将目标语音信号的识别结果返回给目标终端，以便目标终端将识别结果通知给用户。

例如，在一个示例中，目标终端可以通过显示目标语音信号对应的文字的方式将识别结果通知给用户。在另一个示例中，目标终端也可以通过播放目标语音信号对应的标准语音的方式将识别结果通知给用户。本实施例对于识别结果的形式以及目标终端向用户通知识别结果的方式均不作限定。

在一个示例性的过程中，语音识别方法还可以包括：

接收目标终端发送的所述目标用户的输入信息，所述输入信息中包括所述区域标识；或，

接收目标终端发送的所述目标终端本地的存储信息，所述存储信息中包括所述区域标识；或，

接收目标终端发送的所述目标终端的定位信息；或，

接收目标终端发送的所述目标终端的号码。

通过从目标终端接收的上述信息，服务器可以获取目标区域标识。服务器可以采用前述的任一种目标区域标识的获取方式获取目标区域标识。

图1所示实施例，通过根据待识别的目标语音信号对应的目标区域标识，确定与目标区域标识对应的目标语音识别引擎，利用目标语音识别引擎，对目标语音信号进行识别，得到识别结果，能够根据区域标识准确确定对应的语音识别引擎，并基于确定的语音识别引擎获得准确的语音识别结果，提高了语音识别的准确性。

基于上述的方法实施例，本申请实施例还提供了相应的装置、设备及存储介质实施例。

图2是本申请实施例提供的语音识别装置的功能方块图。如图2所示，本实施例中，装置可以包括：

区域确定模块210，用于根据待识别的目标语音信号对应的目标区域标识，确定与所述目标区域标识对应的目标语音识别引擎；

内容识别模块220，用于利用目标语音识别引擎，对所述目标语音信号进行识别，得到识别结果。

根据所述目标语音信号的语音特征信息，确定所述目标区域标识；或，

从所述目标用户的输入信息中获取所述目标区域标识；或，

从接收所述目标语音信号的目标终端本地的存储信息中，获取所述目标区域标识；或，

根据接收所述目标语音信号的目标终端的定位信息，获取所述目标区域标识；或，

根据接收所述目标语音信号的目标终端的号码归属地，获取所述目标区域标识。

在一个示例性的实现过程中，所述根据所述目标语音信号的语音特征信息，确定所述目标区域标识，包括：

将所述目标语音信号的语音特征信息输入至已训练的区域信息识别模型，以由所述区域信息识别模型依据输入的语音特征信息识别出目标区域标识，所述目标区域标识用于指示说出所述目标语音信号的目标用户所属的区域；

区域确定模块210具体用于：

从已训练的各区域的语音识别引擎中选择与所述目标区域标识对应的目标语音识别引擎；

内容识别模块220具体用于：

将所述目标语音音频输入至所述目标语音识别引擎，以由所述目标语音识别引擎对输入的目标语音信号进行语音识别，得到识别结果。

按照设定帧长m，设定帧移n对所述目标语音信号进行分帧，得到至少一个第一音频帧；

按照预设的窗函数对每一第一音频帧进行加窗操作得到第二音频帧；

从各第三音频帧中提取所述目标语音信号的语音特征信息。

在一个示例性的实现过程中，从各第三音频帧中提取所述目标语音信号的语音特征信息，包括：

对每一第三音频帧进行快速傅里叶变换，得到第一频谱；

对每一第一频谱进行三角滤波，得到第二频谱；

根据预设的梅尔倒谱系数MFCC与频谱的对应关系，确定各第二频谱对应的MFCC；将确定的各MFCC确定为所述语音特征信息。

在一个示例性的实现过程中，所述目标语音信号通过以下步骤得到：

将待识别的初始语音信号输入至已训练的语音端点检测模型，以由所述语音端点检测模型从输入的初始语音信号中定位出语音的起始点和终止点，并从初始语音信号中去除非语音信号，得到所述目标语音信号。

在一个示例性的实现过程中，所述区域信息识别模型依据输入的语音特征信息识别出目标用户所属的目标区域，包括：

所述区域信息识别模型依据输入的每一MFCC识别出所述目标用户所属的参考区域；

将选择出的参考区域确定为所述目标区域。

在一个示例性的实现过程中，语音识别方法还可以包括：

信号接收模块，用于接收目标终端发送的所述目标语音信号；

结果发送模块，用于将所述目标语音信号的识别结果返回给所述目标终端，以便所述目标终端将所述识别结果通知给用户。

在一个示例性的实现过程中，语音识别方法还可以包括：

输入信息接收模块，用于接收目标终端发送的所述目标用户的输入信息，所述输入信息中包括所述区域标识；或，

存储信息接收模块，用于接收目标终端发送的所述目标终端本地的存储信息，所述存储信息中包括所述区域标识；或，

定位信息接收模块，用于接收目标终端发送的所述目标终端的定位信息；或，

号码接收模块，用于接收目标终端发送的所述目标终端的号码。

本申请实施例还提供了一种语音识别设备。图3是本申请实施例提供的语音识别设备的一个硬件结构图。如图3所示，语音识别设备包括：内部总线301，以及通过内部总线连接的存储器302，处理器303和外部接口304，其中，

所述处理器303，用于读取存储器302上的机器可读指令，并执行所述指令以实现如下操作：

利用目标语音识别引擎，对所述目标语音信号进行识别，得到识别结果。

在一个示例性的实现过程中，所述目标区域标识的获取方式包括：

从所述目标用户的输入信息中获取所述目标区域标识；或，

所述确定与所述目标区域标识对应的目标语音识别引擎，包括：

所述利用目标语音识别引擎，对所述目标语音信号进行识别，得到识别结果，包括：

在一个示例性的实现过程中，所述语音特征信息通过以下步骤确定：

从各第三音频帧中提取所述目标语音信号的语音特征信息。

在一个示例性的实现过程中，所述从各第三音频帧中提取所述目标语音信号的语音特征信息，包括：

对每一第三音频帧进行快速傅里叶变换，得到第一频谱；

对每一第一频谱进行三角滤波，得到第二频谱；

对每一第三音频帧进行快速傅里叶变换，得到第一频谱；

对每一第一频谱进行三角滤波，得到第二频谱；

在一个示例性的实现过程中，所述处理器303还可以执行所述指令以实现如下操作：

接收目标终端发送的所述目标语音信号；

将所述目标语音信号的识别结果返回给所述目标终端，以便所述目标终端将所述识别结果通知给用户。

接收目标终端发送的所述目标终端的定位信息；或，

接收目标终端发送的所述目标终端的号码。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如下操作：

从所述目标用户的输入信息中获取所述目标区域标识；或，

从各第三音频帧中提取所述目标语音信号的语音特征信息。

对每一第三音频帧进行快速傅里叶变换，得到第一频谱；

对每一第一频谱进行三角滤波，得到第二频谱；

将选择出的参考区域确定为所述目标区域。

在一个示例性的实现过程中，所述程序被处理器执行时还实现如下操作：

接收目标终端发送的所述目标语音信号；

接收目标终端发送的所述目标终端的定位信息；或，

接收目标终端发送的所述目标终端的号码。

本申请实施例还提供一种语音识别***，该语音识别***包括麦克风、显示器和处理器，其中：

所述显示器，用于显示所述识别结果。

在一个示例性的实现过程中，

所述显示器，还用于显示区域标识，以便用户从显示的区域标识中选择目标区域标识；

所述处理器，具体用于根据所述用户选择的目标区域标识，确定与所述目标区域标识对应的目标语音识别引擎。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标区域标识的获取方式包括：

从所述目标用户的输入信息中获取所述目标区域标识；或，

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标语音信号的语音特征信息，确定所述目标区域标识，包括：

4.根据权利要求2所述的方法，其特征在于，所述语音特征信息通过以下步骤确定：

对每一第二音频帧进行预加重操作，得到第三音频帧，所述预加重操作用于增加第二音频帧的高频特征的权重；

从各第三音频帧中提取所述目标语音信号的语音特征信息。

5.根据权利要求4所述的方法，其特征在于，所述从各第三音频帧中提取所述目标语音信号的语音特征信息，包括：

对每一第三音频帧进行快速傅里叶变换，得到第一频谱；

对每一第一频谱进行三角滤波，得到第二频谱；

根据预设的梅尔倒谱系数MFCC与频谱的对应关系，确定各第二频谱对应的MFCC；

将确定的各MFCC确定为所述语音特征信息。

6.根据权利要求5所述的方法，其特征在于，所述区域信息识别模型依据输入的语音特征信息识别出目标用户所属的目标区域，包括：

将选择出的参考区域确定为所述目标区域。

7.根据权利要求1至6任一所述的方法，其特征在于，所述目标语音信号通过以下步骤得到：

8.根据权利要求1所述的方法，其特征在于，还包括：

接收目标终端发送的所述目标语音信号；

9.根据权利要求1所述的方法，其特征在于，还包括：

接收目标终端发送的所述目标终端的定位信息；或，

接收目标终端发送的所述目标终端的号码。

10.一种语音识别装置，其特征在于，所述装置包括：

区域确定模块，用于根据待识别的目标语音信号对应的目标区域标识，确定与所述目标区域标识对应的目标语音识别引擎；

内容识别模块，用于利用目标语音识别引擎，对所述目标语音信号进行识别，得到识别结果。

11.一种语音识别***，其特征在于，包括麦克风、显示器和处理器：

所述麦克风，用于采集语音，并将所述语音转换为语音信号发送给所述处理器；所述处理器，用于根据待识别的目标语音信号对应的目标区域标识，确定与所述目标区域标识对应的目标语音识别引擎，以及利用目标语音识别引擎，对所述目标语音信号进行识别，得到识别结果；

所述显示器，用于显示所述识别结果。

12.根据权利要求1所述的方法，其特征在于，

所述显示器，还用于显示区域标识，以便用户从显示的区域标识中选择目标区域标识；所述处理器，具体用于根据所述用户选择的目标区域标识，确定与所述目标区域标识对应的目标语音识别引擎。