CN111210829A

CN111210829A - 语音识别方法、装置、***、设备和计算机可读存储介质

Info

Publication number: CN111210829A
Application number: CN202010102418.9A
Authority: CN
Inventors: 荣康
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-05-29

Abstract

本申请涉及一种语音识别方法、装置、***、设备和计算机可读存储介质。所述方法包括：获取终端被唤醒时唤醒音频中的唤醒声纹特征；根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据；将所述语音识别反馈数据发送至所述终端，供所述终端呈现所述语音识别反馈数据。采用本方法，可避免非终端唤醒用户的音频误识别，进而有效降低非终端唤醒用户、噪音等非正常语音的误识别率，从而有效提高语音识别的准确率。

Description

语音识别方法、装置、***、设备和计算机可读存储介质

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音识别方法、装置、***、设备和计算机可读存储介质。

背景技术

随着语音处理技术的快速发展，全双工语音交互技术因其可实时预测人类即将说出的内容、实时生成回应，并控制对话节奏等特点，被越来越多地应用于长程语音交互场景。

传统技术中，涉及于全双工语音交互技术的语音识别方法，通常采用训练全双工语义抗噪模型的方式在云端识别出具体的噪音文本，进而将识别出的噪音文本进行屏蔽，以降低噪音误识别概率，但是该方法在应用于人声负责的公共场所等特殊场景时，极易将同一时刻说话的待识别用户语音与其他用户语音同时录入并错误识别，以致无法区别其中的有效音频信息。

因此，目前的语音识别方法存在语音识别准确率低的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语音识别准确率的语音识别方法、装置、***、设备和计算机可读存储介质。

一种语音识别方法，所述方法包括：

获取终端被唤醒时唤醒音频中的唤醒声纹特征；

根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据；

将所述语音识别反馈数据发送至所述终端，供所述终端呈现所述语音识别反馈数据。

一种语音识别方法，所述方法包括：

接收用户通过唤醒音频发起的语音识别请求；

响应于所述语音识别请求，确定所述唤醒音频中的唤醒词；

当所述唤醒音频中的唤醒词与预设唤醒词相匹配时，将所述唤醒音频发送至服务器；

接收对话音频，并将所述对话音频发送至所述服务器，供所述服务器根据所述对话音频中的对话声纹特征与所述唤醒音频中的唤醒声纹特征，获取语音识别反馈数据；

接收所述服务器的语音识别反馈数据。

一种语音识别装置，所述装置包括：

特征获取模块，用于获取终端被唤醒时唤醒音频中的唤醒声纹特征；

数据获取模块，用于根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据；

数据发送模块，用于将所述语音识别反馈数据发送至所述终端，供所述终端呈现所述语音识别反馈数据。

一种语音识别装置，所述装置包括：

识别请求接收模块，用于接收用户通过唤醒音频发起的语音识别请求；

识别请求响应模块，用于响应于所述语音识别请求，确定所述唤醒音频中的唤醒词；

唤醒音频发送模块，用于当所述唤醒音频中的唤醒词与预设唤醒词相匹配时，将所述唤醒音频发送至服务器；

对话音频发送模块，用于接收对话音频，并将所述对话音频发送至所述服务器，供所述服务器根据所述对话音频中的对话声纹特征与所述唤醒音频中的唤醒声纹特征，获取语音识别反馈数据；

反馈数据接收模块，用于接收所述服务器的语音识别反馈数据。

一种语音识别***，所述***包括：

服务器和终端；

所述终端，用于接收用户通过唤醒音频发起的语音识别请求后，响应于所述语音识别请求，确定所述唤醒音频中的唤醒词，进而当所述唤醒音频中的唤醒词与预设唤醒词相匹配时，将所述唤醒音频发送至所述服务器，同时接收对话音频，并将所述对话音频发送至所述服务器，以便接收所述服务器的语音识别反馈数据；

所述服务器，用于获取所述终端被唤醒时唤醒音频中的唤醒声纹特征，并根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据，最后将所述语音识别反馈数据发送至所述终端，供所述终端呈现所述语音识别反馈数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取终端被唤醒时唤醒音频中的唤醒声纹特征；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取终端被唤醒时唤醒音频中的唤醒声纹特征；

上述语音识别方法、装置、***、设备和计算机可读存储介质，通过获取终端被唤醒时唤醒音频中的唤醒声纹特征，可进一步根据唤醒声纹特征与终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据，以便将语音识别反馈数据发送至终端，供终端呈现语音识别反馈数据。采用本方法，可避免非终端唤醒用户的音频误识别，进而有效降低非终端唤醒用户、噪音等非正常语音的误识别率，从而有效提高语音识别的准确率。

附图说明

图1为一个实施例中语音识别方法的应用环境图；

图2为一个实施例中语音识别方法的流程示意图；

图3为一个实施例中唤醒声纹特征获取步骤的流程示意图；

图4为一个实施例中唤醒声纹特征提取步骤的流程示意图；

图5为一个实施例中语音识别反馈数据获取步骤的流程示意图；

图6为一个实施例中唤醒声纹标识确定步骤的流程示意图；

图7为一个实施例中用户注册声纹的流程时序图；

图8为另一个实施例中唤醒声纹标识确定步骤的流程示意图；

图9为又一个实施例中唤醒声纹标识确定步骤的流程示意图；

图10为一个实施例中分类器模型训练步骤的流程示意图；

图11为另一个实施例中语音识别反馈数据获取步骤的流程示意图；

图12为另一个实施例中语音识别方法的流程示意图；

图13为一个具体实施例中语音识别方法的流程示意图；

图14为一个实施例中多场景语音识别方法的示意图；

图15为一个实施例中语音识别装置的结构框图；

图16为另一个实施例中语音识别装置的结构框图；

图17为一个实施例中语音识别***的结构框图；

图18为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先需要说明的是，本申请所运用的语音技术(Speech Technology)，其关键技术有自动语音识别技术(ASR)、语音合成技术(TTS)以及声纹识别技术，用以让计算机能听、能看、能说、能感觉，不仅是未来人机交互的发展方向，也将成为未来最被看好的人机交互方式之一。

其次需要说明的是，本申请所提供的语音识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102在持续接收用户语音的同时，可将该语音通过网络发送至服务器104，以便服务器104在持续接收终端102所传输语音的同时，能够持续针对该语音进行语音识别，进而基于某些预设特征被有效识别的基础上，通过终端102与用户进行语音对话(用户所需信息的反馈)。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，网络包含但不限于：广域网、城域网或局域网。

在一个实施例中，如图2所示，提供了一种语音识别方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤202，获取终端被唤醒时唤醒音频中的唤醒声纹特征。

其中，音频可以是指人们能够听见并可存储于计算机中的声音信号，如说话声、歌声、乐器声以及噪音等。而唤醒音频可以是指具有特殊信息而能够触发终端102响应的声音唤醒信号。

其中，声纹可以是指携带有言语信息的声波频谱，声纹特征可以是指表征声波频谱的声纹标志信息，而唤醒声纹特征可以是指触发终端102响应的唤醒音频中的声纹唤醒特征。

具体地，终端102与服务器104通过网络建立了通信连接，服务器104进行语音识别之前，首先需获取由终端102发送的唤醒音频，该唤醒音频不仅具有能够触发终端102响应用户语音请求的特定信息，还具有用户的声纹特征，即所述唤醒声纹特征，服务器104获取终端102被唤醒时唤醒音频中的唤醒声纹特征，可将该唤醒声纹特征作为后续语音识别处理依据，实现利用声纹特征匹配用户身份的目的。

步骤204，根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据。

其中，对话音频可以是指终端102被唤醒后接收到的用户语音。

其中，对话声纹特征可以是指对话音频中用户的声纹特征。

其中，语音识别反馈数据可以是指针对对话音频中的文本信息查询待反馈的数据，例如，若对话音频中的文本信息为“今天天气怎么样”，则语音识别反馈数据可以是服务器104通过互联网查询到的天气数据，如温度、空气质量等。

具体地，为了提高语音识别的准确率，服务器104不仅需要获取到唤醒音频中的唤醒声纹特征，还需再获取终端102被唤醒后对话音频中的对话声纹特征，分析不同时间点下用户的声纹特征，即可确定当前与终端102进行语音交互的用户是否为之前触发终端102响应后续语音信息的用户，从而判定两个不同时间点与终端102进行语音交互的用户是否为同一人，又或者是在公共场所等包含众多人声或噪音的场景下，屏蔽非唤醒终端用户的语音或是噪音，仅仅响应于两次所采集声纹特征相匹配的用户的语音识别请求，查询获取该用户请求的语音识别反馈数据。

例如，服务器104分析确定当前的唤醒声纹特征与对话声纹特征相匹配，则可针对该对话音频中的信息“今天天气怎么样”进行查询，得到的天气数据即可作为该对话音频的语音识别反馈数据。

步骤206，将所述语音识别反馈数据发送至所述终端，供所述终端呈现所述语音识别反馈数据。

具体地，语音识别反馈数据可包括语音流和/或反馈数据，该语音流包含待播报的文本信息，例如，语音流中待播报的文本信息可以是天气预报的开场白信息，反馈数据可以是天气数据“温度、空气质量”等。

上述语音识别方法中，通过获取终端被唤醒时唤醒音频中的唤醒声纹特征，可进一步根据唤醒声纹特征与终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据，以便将语音识别反馈数据发送至终端，供终端呈现语音识别反馈数据。采用本方法，可避免非终端唤醒用户的音频误识别，进而有效降低非终端唤醒用户、噪音等非正常语音的误识别率，从而有效提高语音识别的准确率。

在一个实施例中，如图3所示，步骤202包括：

步骤302，获取终端被预设唤醒词唤醒时接收的唤醒音频。

其中，预设唤醒词可以是预先设置并存储于终端102中的、能够触发终端102响应后续指令的唤醒词，如智能语音设备出厂设置的唤醒词“叮当叮当”，又或是用户设置的唤醒词“悟空悟空”。

具体地，获取唤醒声纹特征之前，服务器104首先需获取终端102被预设唤醒词唤醒时接收的唤醒音频，针对满足预设唤醒词条件的唤醒音频，可进行唤醒声纹特征的有效提取，反之则无法获取到具有唤醒声纹特征的唤醒音频。

步骤304，提取所述唤醒音频中的用户声纹特征，作为所述唤醒声纹特征。

其中，用户声纹特征可以是指唤醒音频中语音用户的声纹特征。

具体地，满足预设唤醒词条件的唤醒音频，可进一步提取其中的用户声纹特征作为唤醒声纹特征。

本实施例中，通过对唤醒音频中用户声纹特征的提取，不仅能获取到相较于普通音频正确率更高的唤醒声纹特征，还能有效降低非正常语音的误识别率，从而有效提高语音识别的准确率。

在一个实施例中，如图4所示，步骤304包括：

步骤402，将所述唤醒音频进行分帧，得到至少一个唤醒音频帧。

步骤404，将所述至少一个唤醒音频帧进行加窗，得到至少一个唤醒加窗音频帧。

步骤406，提取所述至少一个唤醒加窗音频帧的梅尔频率倒谱系数，作为所述唤醒声纹特征。

其中，梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)是组成梅尔频率倒谱的系数，在声音处理领域中，梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。

具体地，获取一段唤醒音频后，需明确该音频中各个频率成分的分布，分析音频频率成分的分布可采用傅里叶变换工具，而具体操作即包括对唤醒音频进行分帧(如每20ms为一帧)后，利用可移动规定长度窗口函数的加权实现对分帧后的唤醒音频帧进行加窗，进而提取各个唤醒加窗音频帧的梅尔频率倒谱系数作为唤醒声纹特征。

更具体地，对唤醒音频进行分帧之前，可预先对唤醒音频进行端点检测，即从当前的唤醒音频中找出语音起始点和语音结束点，如采用双门限法进行端点检测。

本实施例中，通过对唤醒音频进行分帧加窗等处理，不仅有利于对语音信号的准确分析，进而提高语音识别率，且端点检测不仅可以减少计算量和缩短处理时间，还能排除无声段的噪声干扰、提高语音识别的准确率。

在一个实施例中，如图5所示，步骤204包括：

步骤502，确定所述唤醒声纹特征的唤醒声纹标识。

其中，唤醒声纹标识可以是指全局唯一的、能够表征用户身份的字符串，例如，12345、a23d4等。

具体地，确定唤醒声纹标识的方式可以包括多种，例如当服务器104预先存储有用户已注册的声纹标识，则可通过声纹特征匹配的方式，将唤醒声纹特征与预存的注册标识进行声纹特征匹配，以此确定当前唤醒声纹特征的唤醒声纹标识，又例如，当服务器104并未预先存储有用户已注册的声纹标识，或是无需用户在唤醒设备之前注册声纹，则可通过模型训练的方式，获取以唤醒声纹特征作为模型输入的模型输出结果，从而得到唤醒声纹标识。

步骤504，根据所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据。

具体地，根据唤醒声纹标识与对话声纹特征的匹配结果，可获取对话音频的语音识别反馈数据。

本实施例中，通过对唤醒声纹标识与对话声纹特征之间分析结果，判定语音识别反馈数据的获取，不仅提升计算效率，更能有效提高语音识别的准确率。

在一个实施例中，如图6所示，步骤502包括：

步骤602，根据所述唤醒声纹特征，在预存的至少一个注册声纹标识中确定唤醒声纹标识；所述至少一个注册声纹标识分别具有对应的注册声纹特征；所述唤醒声纹标识为与所述唤醒声纹特征相匹配的注册声纹特征的注册声纹标识。

其中，注册声纹标识可以是指已注册声纹的标识。

具体地，在实际应用场景中，用户触发终端102响应其指令之前，首先需注册其身份信息，利用每个人声纹不同的特点注册生成全局唯一的注册声纹标识，并存储于服务器104中的数据库，进而在后续用户唤醒终端102之时，将唤醒声纹特征与服务器104预存的至少一个注册声纹标识分别进行特征匹配，以此确定与唤醒声纹特征相匹配的注册声纹特征的注册声纹标识，即为唤醒声纹标识。

更具体地，用户注册声纹的流程可参阅图7。如图7所示，用户可按照指导依次向终端102提交具有预设唤醒词“叮当叮当”的唤醒音频，当用户第一次提交该唤醒音频后，服务器104对其进行语音识别，若识别到音频中的声纹特征已注册，则可生成已注册提示，并将该提示发送至终端102进行展示；若服务器104在用户第一次提交唤醒音频后未向终端102反馈已注册提示，则需持续接收用户所提交用于声纹注册的唤醒音频，直至达到预设提交次数后对用户所提交唤醒音频中的声纹特征进行模型训练计算，最终得到该用户的注册声纹标识并存储于数据库中。

本实施例中，通过预存的注册声纹标识确定唤醒声纹特征的唤醒声纹标识，能够快速确定唤醒音频的用户身份，更能有效提高语音识别的准确率。

在一个实施例中，如图8所示，步骤602包括：

步骤802，确定预存的至少一个注册声纹标识；所述至少一个注册声纹标识分别具有注册声纹特征。

步骤804，计算所述注册声纹特征与所述唤醒声纹特征的特征相似度。

步骤806，确定所述特征相似度达到预设相似度阈值且为最大值的注册声纹特征的注册声纹标识，作为所述唤醒声纹标识。

具体地，计算注册声纹特征与唤醒声纹特征之间特征相似度的算法存在多种，如闵科夫斯基距离、曼哈顿距离、欧氏距离、切比雪夫距离或余弦相似度算法等，计算所得相似度的取值范围可以表现为数值范围，如0-1、0-10等，也可以表现为百分比范围，如0-100％。

更具体地，若存在多个注册声纹特征，则将多个的注册声纹特征与唤醒声纹特征进行相似度分析，可得到多个的特征相似度，针对该多个的特征相似度，可利用预设相似度阈值进行初步筛选，若满足预设相似度阈值的特征相似度仍不止一个，则提取其中取值最大的特征相似度并确定其对应的注册声纹特征，作为唤醒声纹标识，由此，服务器104可利用预先注册的注册声纹标识确定当前唤醒终端102的用户的身份。

本实施例中，通过对注册声纹特征与唤醒声纹特征之间特征相似度的计算与筛选，从而确定唤醒声纹特征的唤醒声纹标识，能够提高语音识别的准确率。

在一个实施例中，如图9所示，步骤502包括：

步骤902，采用所述唤醒声纹特征训练声纹分类器。

步骤904，获取训练后的声纹分类器的最优结构数据，作为所述唤醒声纹标识。

其中，声纹分类器可包括高斯混合分类器(GMM)、卷积神经网络分类器(CNN)、循环神经网络分类器(RNN)、深度神经网络分类器(DNN)、支持向量机(SVM)中的至少一种。

具体地，本实施例提出可采用高斯混合分类器进行声纹特征分类训练，即可将唤醒声纹特征输入至高斯混合分类器中进行训练，得到训练后的声纹分类器的最优结构数据-高斯参数组，包括高斯分量参数向量(均值、标准层)，权值系数向量等，该高斯参数组即可表征一个唤醒声纹标识。

更具体地，若唤醒声纹特征实际为经过分帧加窗处理后的N帧梅尔频率倒谱系数组，则同样可将其输入至根据业务需求制定的声纹分类器中，用于获取唤醒声纹标识。

需要说明的是，本实施例中所涉及的分类器模型训练过程，在实际应用中的具体处理步骤可参阅图10，如图10所示，对声纹模型的训练目的在于获取提交唤醒音频的用户的声纹标识，该获取声纹标识的步骤可应用于前述实施例中注册声纹标识的获取，也可应用于无需提前注册声纹的语音交互场景，即当用户唤醒终端102时当即训练模型，声纹标识获取过程主要包括：(1)唤醒音频的输入：将预设数量的连续性唤醒音频输入至模型训练线程中；(2)音频预处理：对唤醒音频进行预处理，包括对其进行端点检测、分帧、加窗等操作；(3)声纹特征提取：对每一帧音频数据进行梅尔频率倒谱系数(MFCC)特征提取，得到声纹特征；(4)模型训练：按照机器分类模型进行训练：对N帧MFCC数组进行分析计算，得到GMM高斯参数组，该GMM高斯参数组即为声纹模型，表征得到声纹标识。

此外，图10中还包括声纹匹配结果获取过程，该过程主要用于两方面，其一为唤醒音频中唤醒音频特征与注册声纹标识的匹配子过程，该匹配子过程可确定唯一的一个与唤醒音频特征相匹配的唤醒音频标识，其二为对话音频中对话声纹特征与唤醒音频标识的匹配子过程，该匹配子过程可判定是否获取对话音频中用户所需的语音识别反馈数据。声纹匹配结果获取过程主要包括：(1)音频输入：唤醒音频的输入和/或对话音频的输入；(2)音频预处理：与训练过程中的预处理步骤一致，在此不再赘述；(3)声纹特征提取：与训练过程中的特征提取步骤一致，在此不再赘述；(4)声纹匹配模型匹配：采用GMM模型，将上一步提取的MFCC特征作为输入，使用GMM模型输出匹配结果(是/否)。

本实施例中，基于模型训练结果获取唤醒声纹特征的唤醒声纹标识，可有效提高语音识别的准确率。

在一个实施例中，如图11所示，步骤504包括：

步骤1102，通过预先采用所述唤醒声纹特征训练后的声纹分类器，将所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征进行匹配。

步骤1104，若所述唤醒声纹标识与所述对话声纹特征相匹配，则获取所述对话音频中对话文本的文本查询反馈数据，作为所述语音识别反馈数据。

具体地，若唤醒声纹标识与对话声纹特征相匹配，即模型输出匹配结果为“是”，则获取对话音频中对话文本的文本查询反馈数据，作为语音识别反馈数据；若唤醒声纹标识与对话声纹特征不匹配，即模型输出匹配结果为“否”，则生成声纹注册提示，并将该声纹注册提示发送至终端102，供终端102展示该声纹注册提示和/或播放声纹注册提示音，用以提示用户注册声纹。

更具体地，步骤1104具体还包括：若所述唤醒声纹标识与所述对话声纹特征相匹配，则基于所述对话音频中的语音识别文本获取对话结果，将所述对话结果进行语音合成，得到语音识别反馈数据；所述语音识别反馈数据包括语音流和/或识别反馈数据；所述语音流用于供终端102进行语音播放；所述识别反馈数据用于供终端102进行数据展示。

本实施例中，可避免非终端唤醒用户的音频误识别，进而有效降低非终端唤醒用户、噪音等非正常语音的误识别率，从而有效提高语音识别的准确率。

在一个实施例中，如图12所示，提供了另一种语音识别方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

步骤1202，接收用户通过唤醒音频发起的语音识别请求。

步骤1204，响应于所述语音识别请求，确定所述唤醒音频中的唤醒词。

步骤1206，当所述唤醒音频中的唤醒词与预设唤醒词相匹配时，将所述唤醒音频发送至服务器。

步骤1208，接收对话音频，并将所述对话音频发送至所述服务器，供所述服务器根据所述对话音频中的对话声纹特征与所述唤醒音频中的唤醒声纹特征，获取语音识别反馈数据。

步骤1210，接收所述服务器的语音识别反馈数据。

具体地，终端102待机状态中可接收用户通过唤醒音频发起的语音识别请求，进而响应于该语音识别请求分析识别确定唤醒音频中的唤醒词，再将该唤醒词与预设的至少一个预设唤醒词逐一进行匹配，若唤醒音频中的唤醒词匹配上预设唤醒词中的任意一个，则终端102将进一步发送该验证有效的唤醒音频至服务器104，供服务器104识别该唤醒音频，采集唤醒声纹特征。

与此同时，基于本申请采用全双工语音交互技术，终端102可在接收唤醒音频并等待服务器104反馈的同时，还可接收用户再次提交的对话音频，进而将该对话音频中的对话声纹特征与唤醒声纹特征(匹配到的唤醒声纹标识)进行匹配，服务器104匹配期间同样可通过其他服务识别对话音频的语音文本，即服务器104可利用多个服务多线程实时分析用户提交的音频。若服务器104分析得到对话声纹特征与唤醒声纹特征(唤醒声纹标识)相匹配，则可利用上述识别到的语音文本通过互联网请求用户所需的对话结果，进而该对话结果进行语音合成，得到可反馈至服务器104的语音识别反馈数据。

针对该语音识别反馈数据中所包括的语音流和/或识别反馈数据，终端102可对语音流进行语音播放、对识别反馈数据通过交互界面进行数据展示。

上述语音识别方法中，通过获取终端被唤醒时唤醒音频中的唤醒声纹特征，可进一步根据唤醒声纹特征与终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据，以便将语音识别反馈数据发送至终端，供终端呈现语音识别反馈数据。采用本方案，可避免非终端唤醒用户的音频误识别，进而有效降低非终端唤醒用户、噪音等非正常语音的误识别率，从而有效提高语音识别的准确率。

应该理解的是，虽然图2-6、8-9、11-12的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6、8-9、11-12中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本申请还提供一种应用场景，该应用场景应用上述的语音识别方法。具体地，结合图13说明该语音识别方法在该应用场景的应用如下：

如图13所示，该语音识别方法可应用于用户与智能语音设备之间的全双工语音交互场景，以图13所示的时序图为例进行说明，该场景具体包括以下步骤：(1301-1302)用户向智能语音设备提交具有预设唤醒词的唤醒音频后，智能语音设备将获取到的唤醒音频发送至云端；(1303-1305)云端调用语音识别服务采集唤醒音频的唤醒声纹特征，以使语音识别服务调用声纹服务将获取到的唤醒声纹特征与预存的至少一个注册声纹标识进行匹配，即判断用户当前提交的唤醒音频是否与智能语音设备预存的已注册声纹相匹配，若匹配则将匹配到的唤醒声纹标识反馈至语音识别服务；(1306-1308)用户向智能语音设备提交对话音频后，智能语音设备通过云端将该对话音频传输至语音识别服务；(1309-1310)语音识别服务可将识别出的对话声纹特征传输至声纹服务，与此同时，语音识别服务可识别出其语音文本“今天天气怎么样”，以使声纹服务将获取到的对话声纹特征与步骤(2)匹配到的唤醒声纹标识进行匹配，进而获取声纹服务反馈的匹配结果；(1311)语音识别服务若获取到匹配结果为“是”，则将其语音文本“今天天气怎么样”反馈至云端；若获取到匹配结果为“否”，则将空文本反馈至云端；(1312-1314)云端若获取到语音文本“今天天气怎么样”，则调用语义理解服务对语音文本进行识别，以获取语义理解服务反馈的数据，如天气数据和待播报文本，进而将待播报文本发送至语音合成服务，以使语音合成服务针对待播报文本进行语音合成后反馈合成好的语音流；(1315-1316)云端将获取到的语音流和天气数据发送至智能语音设备，以使智能语音设备播放该语音流，同时，通过交互界面展示天气数据。

本申请还另外提供一种应用场景，该应用场景应用上述的语音识别方法。具体地，结合图14说明该语音识别方法在该应用场景的应用如下：

(1)场景一(正常对话)：用户向智能语音设备提交具有预设唤醒词“叮当叮当”的唤醒音频后，智能语音设备将获取到的唤醒音频发送至云端；待云端获取到用户提交的对话音频“今天天气怎么样”，且识别到该对话音频中的声纹特征与唤醒音频中的声纹特征匹配一致，则可向智能语音设备反馈数据“今天天气很好，气温23度”。

(2)场景二(其他人说话误收音)：在理解场景一中全双工对话流程的基础上，若当前智能语音设备所接收音频“天气怎么样”的声纹ID与唤醒时的声纹ID不一致，则智能语音设备不做任何反馈。

(3)场景三(噪音误识别)：在理解场景一中全双工对话流程的基础上，若当前有噪音被智能语音设备误接收并识别，其声纹ID与唤醒时的声纹ID不一致，则智能语音设备不做任何反馈。

上述实施例分别解释了不同场景下语音识别方法的具体应用，采用本申请所提出的语音识别方法，可避免非终端唤醒用户的音频误识别，进而有效降低非终端唤醒用户、噪音等非正常语音的误识别率，从而有效提高语音识别的准确率。

在一个实施例中，如图15所示，提供了一种语音识别装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：特征获取模块1502、数据获取模块1504和数据发送模块1506，其中：

特征获取模块1502，用于获取终端被唤醒时唤醒音频中的唤醒声纹特征；

数据获取模块1504，用于根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据；

数据发送模块1506，用于将所述语音识别反馈数据发送至所述终端，供所述终端呈现所述语音识别反馈数据。

在一个实施例中，特征获取模块1502还用于获取终端被预设唤醒词唤醒时接收的唤醒音频；提取所述唤醒音频中的用户声纹特征，作为所述唤醒声纹特征。

在一个实施例中，特征获取模块1502还用于将所述唤醒音频进行分帧，得到至少一个唤醒音频帧；将所述至少一个唤醒音频帧进行加窗，得到至少一个唤醒加窗音频帧；提取所述至少一个唤醒加窗音频帧的梅尔频率倒谱系数，作为所述唤醒声纹特征。

在一个实施例中，数据获取模块1504还用于确定所述唤醒声纹特征的唤醒声纹标识；根据所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据。

在一个实施例中，数据获取模块1504还用于根据所述唤醒声纹特征，在预存的至少一个注册声纹标识中确定唤醒声纹标识；所述至少一个注册声纹标识分别具有对应的注册声纹特征；所述唤醒声纹标识为与所述唤醒声纹特征相匹配的注册声纹特征的注册声纹标识。

在一个实施例中，数据获取模块1504还用于确定预存的至少一个注册声纹标识；所述至少一个注册声纹标识分别具有注册声纹特征；计算所述注册声纹特征与所述唤醒声纹特征的特征相似度；确定所述特征相似度达到预设相似度阈值且为最大值的注册声纹特征的注册声纹标识，作为所述唤醒声纹标识。

在一个实施例中，数据获取模块1504还用于采用所述唤醒声纹特征训练声纹分类器；获取训练后的声纹分类器的最优结构数据，作为所述唤醒声纹标识。

在一个实施例中，数据获取模块1504还用于通过预先采用所述唤醒声纹特征训练后的声纹分类器，将所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征进行匹配；若所述唤醒声纹标识与所述对话声纹特征相匹配，则获取所述对话音频中对话文本的文本查询反馈数据，作为所述语音识别反馈数据。

在一个实施例中，如图16所示，提供了另一种语音识别装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：识别请求接收模块1602、识别请求响应模块1604、唤醒音频发送模块1606、对话音频发送模块1608和反馈数据接收模块1610，其中：

识别请求接收模块1602，用于接收用户通过唤醒音频发起的语音识别请求；

识别请求响应模块1604，用于响应于所述语音识别请求，确定所述唤醒音频中的唤醒词；

唤醒音频发送模块1606，用于当所述唤醒音频中的唤醒词与预设唤醒词相匹配时，将所述唤醒音频发送至服务器；

对话音频发送模块1608，用于接收对话音频，并将所述对话音频发送至所述服务器，供所述服务器根据所述对话音频中的对话声纹特征与所述唤醒音频中的唤醒声纹特征，获取语音识别反馈数据；

反馈数据接收模块1610，用于接收所述服务器的语音识别反馈数据。

关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图17所示，提供了另一种语音识别***，该***可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该***具体包括：终端1702和服务器1704；

所述终端1702，用于接收用户通过唤醒音频发起的语音识别请求后，响应于所述语音识别请求，确定所述唤醒音频中的唤醒词，进而当所述唤醒音频中的唤醒词与预设唤醒词相匹配时，将所述唤醒音频发送至所述服务器，同时接收对话音频，并将所述对话音频发送至所述服务器，以便接收所述服务器的语音识别反馈数据；

所述服务器1704，用于获取所述终端被唤醒时唤醒音频中的唤醒声纹特征，并根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据，最后将所述语音识别反馈数据发送至所述终端，供所述终端呈现所述语音识别反馈数据。

关于语音识别***的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。上述语音识别***中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图18所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频数据如声纹信息等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。

本领域技术人员可以理解，图18中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，所述方法包括：

获取终端被唤醒时唤醒音频中的唤醒声纹特征；

2.根据权利要求1所述的方法，其特征在于，所述获取终端被唤醒时唤醒音频中的唤醒声纹特征，包括：

获取终端被预设唤醒词唤醒时接收的唤醒音频；

提取所述唤醒音频中的用户声纹特征，作为所述唤醒声纹特征。

3.根据权利要求2所述的方法，其特征在于，所述提取所述唤醒音频中的用户声纹特征，作为所述唤醒声纹特征，包括：

将所述唤醒音频进行分帧，得到至少一个唤醒音频帧；

将所述至少一个唤醒音频帧进行加窗，得到至少一个唤醒加窗音频帧；

提取所述至少一个唤醒加窗音频帧的梅尔频率倒谱系数，作为所述唤醒声纹特征。

4.根据权利要求1所述的方法，其特征在于，所述根据所述唤醒声纹特征与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据，包括：

确定所述唤醒声纹特征的唤醒声纹标识；

根据所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据。

5.根据权利要求4所述的方法，其特征在于，所述确定所述唤醒声纹特征的唤醒声纹标识，包括：

根据所述唤醒声纹特征，在预存的至少一个注册声纹标识中确定唤醒声纹标识；所述至少一个注册声纹标识分别具有对应的注册声纹特征；所述唤醒声纹标识为与所述唤醒声纹特征相匹配的注册声纹特征的注册声纹标识。

6.根据权利要求5所述的方法，其特征在于，所述根据所述唤醒声纹特征，在预存的至少一个注册声纹标识中确定唤醒声纹标识，包括：

确定预存的至少一个注册声纹标识；所述至少一个注册声纹标识分别具有注册声纹特征；

计算所述注册声纹特征与所述唤醒声纹特征的特征相似度；

确定所述特征相似度达到预设相似度阈值且为最大值的注册声纹特征的注册声纹标识，作为所述唤醒声纹标识。

7.根据权利要求4所述的方法，其特征在于，所述确定所述唤醒声纹特征的唤醒声纹标识，包括：

采用所述唤醒声纹特征训练声纹分类器；

获取训练后的声纹分类器的最优结构数据，作为所述唤醒声纹标识。

8.根据权利要求4所述的方法，其特征在于，所述根据所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征，获取所述对话音频的语音识别反馈数据，包括：

通过预先采用所述唤醒声纹特征训练后的声纹分类器，将所述唤醒声纹标识与所述终端被唤醒后对话音频中的对话声纹特征进行匹配；

若所述唤醒声纹标识与所述对话声纹特征相匹配，则获取所述对话音频中对话文本的文本查询反馈数据，作为所述语音识别反馈数据。

9.根据权利要求7-8中任一项所述的方法，其特征在于，所述声纹分类器包括高斯混合分类器(GMM)、卷积神经网络分类器(CNN)、循环神经网络分类器(RNN)、深度神经网络分类器(DNN)、支持向量机(SVM)中的至少一种。

10.一种语音识别方法，所述方法包括：

接收用户通过唤醒音频发起的语音识别请求；

响应于所述语音识别请求，确定所述唤醒音频中的唤醒词；

接收所述服务器的语音识别反馈数据。

11.一种语音识别装置，其特征在于，所述装置包括：

12.一种语音识别装置，其特征在于，所述装置包括：

13.一种语音识别***，其特征在于，所述***包括：

服务器和终端；

14.一种语音识别设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。