CN113593566A

CN113593566A - 语音识别处理方法及***

Info

Publication number: CN113593566A
Application number: CN202110639813.5A
Authority: CN
Inventors: 马宪泉
Original assignee: Shenzhen Two Monkeys Technology Co ltd
Current assignee: Shenzhen Two Monkeys Technology Co ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-11-02

Abstract

本申请实施例提供一种语音识别处理方法及***，所述方法包括：终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音组对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音组对应的m个词的m个置信。本申请提供的技术方案具有准确率高的优点。

Description

语音识别处理方法及***

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音识别处理方法及***。

背景技术

语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

现有的语音识别技术对语音识别的准确度，尤其是多音词的识别准确度低，影响了用户的体验度。

发明内容

本申请实施例公开了一种语音识别处理方法，能够提高语音识别的准确率，进而提高用户的体验度。

本申请实施例第一方面提供一种语音识别处理方法，所述方法应用于终端设备，其中，所述方法包括如下步骤：

终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音组对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音组对应的m个词的m个置信率；

终端设备将每个发音中n个置信率中最高置信率对应的文字确定为第一文本内的文字信息，将每个发音中m个置信率中最高置信率对应的文字确定为第二文本内的文字信息；

终端设备将第一文本内的文字信息以及第二文本内的文字信息中相同音节进行比对确定文字内容不相同的音节为多音词音节，将文字内容相同的音节为同音词音节，若多音词音节为一个，提取一个多音词音节对应的n个词的n个置信率以及m个词的m个置信率，获取n个置信率中前x个置信率对应的x个词以及m个置信率中前x个置信率对应的x’个词，若x个词与x’个词具有相同的第一词，确定该第一词为一个多音词音节的正确词，将该正确词与同音词音节对应词组合起来得到该语音数据的正确文本。

第二方面，提供一种语音识别处理***，所述***包括：

采集单元，用于采集语音数据；

处理单元，用于终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音组对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音组对应的m个词的m个置信率；将每个发音中n个置信率中最高置信率对应的文字确定为第一文本内的文字信息，将每个发音中m个置信率中最高置信率对应的文字确定为第二文本内的文字信息；将第一文本内的文字信息以及第二文本内的文字信息中相同音节进行比对确定文字内容不相同的音节为多音词音节，将文字内容相同的音节为同音词音节，若多音词音节为一个，提取一个多音词音节对应的n个词的n个置信率以及m个词的m个置信率，获取n个置信率中前x个置信率对应的x个词以及m个置信率中前x个置信率对应的x’个词，若x个词与x’个词具有相同的第一词，确定该第一词为一个多音词音节的正确词，将该正确词与同音词音节对应词组合起来得到该语音数据的正确文本。

本申请实施例第三方面提供一种终端设备，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行第一方面所述的方法中的步骤的指令。

本申请实施例第四方面公开了一种计算机可读存储介质，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行第一方面所述的方法。

本申请实施例第五方面公开了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

本申请提供的技术方案终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音对应的m个词的m个置信率；终端设备将每个发音中n个置信率中最高置信率对应的文字确定为第一文本内的文字信息，将每个发音中m个置信率中最高置信率对应的文字确定为第二文本内的文字信息；终端设备将第一文本内的文字信息以及第二文本内的文字信息中相同音节进行比对确定文字内容不相同的音节为多音词音节，将文字内容相同的音节为同音词音节，若多音词音节为一个，提取一个多音词音节对应的n个词的n个置信率以及m个词的m个置信率，获取n个置信率中前x个置信率对应的x个词以及m个置信率中前x个置信率对应的x’个词，若x个词与x’个词具有相同的第一字，确定该第一字为一个多音词音节的正确文字，将该正确文字与同音词音节对应文字组合起来得到该语音数据的正确文本。这样能够提高多音词音节的文字的正确率。

附图说明

以下对本申请实施例用到的附图进行介绍。

图1是本申请实施例提供的一种终端设备的结构示意图；

图2是本申请实施例提供的一种语音识别处理方法的流程示意图；

图3是本申请实施例提供的一种语音识别处理***的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/“，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式，以实现设备间的通信，本申请实施例对此不做任何限定。

本申请实施例的终端设备是一种具有无线通信功能的设备，可以称为终端(terminal)、用户设备(user equipment，UE)、移动台(mobile station，MS)、移动终端(mobile terminal，MT)、接入终端设备、车载终端设备、工业控制终端设备、UE单元、UE站、移动站、远方站、远程终端设备、移动设备、UE终端设备、无线通信设备、UE代理或UE装置等。终端设备可以是固定的或者移动的。需要说明的是，终端设备可以支持至少一种无线通信技术，例如LTE、新空口(new radio，NR)等。例如，终端设备可以是手机(mobile phone)、平板电脑(pad)、台式机、笔记本电脑、一体机、车载终端、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medicalsurgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportationsafety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、蜂窝电话、无绳电话、会话启动协议(session initiation protocol，SIP)电话、无线本地环路(wireless local loop，WLL)站、个人数字助理(personal digitalassistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、可穿戴设备、未来移动通信网络中的终端设备或者未来演进的公共移动陆地网络(public land mobile network，PLMN)中的终端设备等。在本申请的一些实施例中，终端设备还可以是具有收发功能的装置，例如芯片***。其中，芯片***可以包括芯片，还可以包括其它分立器件。

参阅图1，图1提供了一种终端设备的结构示意图，如图1所示，该终端具体可以包括：处理器、存储器、通信单元、音频采集单元和总线，其中，处理器、存储器、通信单元、音频采集单元通过总线连接。

示例的，上述处理器可以包括通用处理器以及人工智能处理器，该人工智能处理器的具体结构本申请并不限定，例如可以采用思元270人工智能处理器，当然还可以采用其他的AI处理器。

上述音频采集单元具体可以为，麦克风或其他的音频采集设备。

通信单元可以用于为终端提供与外部设备通信的能力。通信单元可以包括模拟和数字输入-输出接口电路，和基于射频信号和/或光信号的无线通信电路。通信单元中的无线通信电路可以包括射频收发器电路、功率放大器电路、低噪声放大器、开关、滤波器和天线。举例来说，通信单元中的无线通信电路可以包括用于通过发射和接收近场耦合电磁信号来支持近场通信(Near Field Communication，NFC)的电路。例如，通信单元可以包括近场通信天线和近场通信收发器。通信单元还可以包括蜂窝电话收发器和天线，无线局域网收发器电路和天线等。

上述通信单元可以支持多种通信协议，例如5G、LTE等等移动通信协议，当然也可以支持如WIFI、蓝牙等短距离通信协议。

终端还可以进一步包括电池，电力管理电路和其它输入-输出单元。输入-输出单元可以包括按钮，操纵杆，显示屏等。

参阅图2，图2提供了一种语音识别处理方法，所述方法应用于如图1所示的终端设备，上述终端设备的具体结构可以如图1所示的，其中，所述方法包括如下步骤：

步骤S200、终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音组对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音组对应的m个词的m个置信率；

第一语音识别算法的每个发音组均具有n个置信率，第二语音识别算法的每个发音组均具有m个置信率。上述n、m均大于等于3的整数，m、n可以相等，也可以不相等。

步骤S201、终端设备将每个发音中n个置信率中最高置信率对应的文字确定为第一文本内的文字信息，将每个发音中m个置信率中最高置信率对应的文字确定为第二文本内的文字信息；

步骤S202、终端设备将第一文本内的文字信息以及第二文本内的文字信息中相同音节进行比对确定文字内容不相同的音节为多音词音节，将文字内容相同的音节为同音词音节，若多音词音节为一个，提取一个多音词音节对应的n个词的n个置信率以及m个词的m个置信率，获取n个置信率中前x个置信率对应的x个词以及m个置信率中前x个置信率对应的x’个词，若x个词与x’个词具有相同的第一词，确定该第一词为一个多音词音节的正确词，将该正确词与同音词音节对应词组合起来得到该语音数据的正确文本。

上述x，x’可以为大于等于2的整数，可以相同，也可以不相同。

本申请的技术方案的原理为，对于现有的语音识别方式具有很多中，例如基于LSTM的语音识别算法，又如基于RNN的语音识别算法，在实际语音识别中均具有比较好的准确率，但是对于多音词的识别率来说会降低很多，因此上述技术方案通过对多音词音节在两种不同的语音识别软件中所有的文字的置信率中前x个置信率是否具有相同的文字，若具有相同的文字，说明其准确的概率较高，因此能够提高多音词音节的准确率。

需要说明的，上述单音词音节并不表示该音节仅仅只对应一个字，在本申请中，单音词音节表示该音节在两种不同的识别方式输出的识别结果为同一个子对应的音节。

下面以一个实际的例子来说明，

例如原始的语音数据为：查找小芳的歌曲；通过第一种识别出的结果为：“查找小芳的歌曲”；第二种识别出的结果为：“查找小方的歌曲”；则确定该“xiaofang”为多音词音节，这里假设x以及x’均为2，则确定第一种识别出的前x个置信率对应的文字分别为：小芳(85％)、晓芳(20％)，第二种识别出的前x’个置信率对应的文字分别为：小方(50％)、小芳(40％)，则确定正确词可以为“小芳”。

示例的，上述方法还可以包括：

若x个词与x’个词不具有相同的词，终端设备确定该语音信息的第一身份，将第一文本内的文字信息与第二文本内的文字信息与第一身份的历史信息分别计算匹配度确定最高匹配度对应的文字信息(可以为第一文本内的文字信息或第二文本内的文字信息)确定为正确文本。

当然在实际应用中，上述多音词音节也可以多个，多个与一个的处理方式类似，只是逐一处理确定正确词即可。

下面以一个实际的例子来说明，

例如原始的语音数据为：查找小芳的歌曲；通过第一种识别出的结果为：“查找小芳的歌曲”；第二种识别出的结果为：“查找小方的歌曲”；则确定该“xiaofang”为多音词音节，这里假设x以及x’均为2，则确定第一种识别出的前x个置信率对应的文字分别为：小芳(85％)、晓芳(20％)，第二种识别出的前x’个置信率对应的文字分别为：小方(50％)、校方(40％)，其不具有相同的词，那么需要获取历史信息，若语音数据的历史信息包括“小芳的歌曲”，则确定该第一文本内的文字信息，反之，若语音数据的历史信息包括“小方的歌曲”，则确定该第二文本内的文字信息。

示例的，上述RNN语音识别方法的计算公式可以如下所示：

以t时刻为例：

S_t＝X_t×W+S_t-1×W

O_t＝f(S_t)

其中，W表示权值，X_t-1表示t-1时刻的输入层的输入数据，X_t表示t时刻的输入层的输入数据，S_t-1表示t-1时刻的隐层的输出结果，O_t-1表示t-1时刻的输出层的输出结果；

f表示激活函数，该激活函数包括但不限于：sigmoid函数、tanh函数等等。

当然在实际应用中，还可以使用其他的激活函数。

示例的，上述LSTM语音识别方法的计算公式具体可以包括：

LSTM可以分为忘记门、输入门、输出门，对应三个计算，其计算的公式如下：

忘记门，f_t＝σ(h_t-1*X_t+b_f)。

输入门：

i_t＝σ(h_t-1*X_t+b_i)

C’_t＝tanh(h_t-1*X_t+b_c)；

输出门：

O_t＝σ(h_t-1*X_t+b_O)；

h_t＝O_t*tanh(C_t)。

其中，C_t＝C_t-1*f_t+i_t*C’_t。

上述，b_f表示f_t函数的偏置，该数值为常量，同理，b_i、b_c、b_o分别表示对应公式的偏置；C_t-1表示上一时刻的t-1的cell(细胞或单元)输出值，h_t-1为上一时刻的输出值，X_t表示当前时刻t的输入数据。其中，σ表示sigmod函数，tanh表示tanh函数，其均为激活函数。O_t表示输出门的输出结果。

示例的，上述方法还可以包括：

终端设备生成与该正确文本对应的控制指令。

参阅图3，图3提供一种语音识别处理***，所述***包括：

采集单元301，用于采集语音数据；

处理单元302，用于终端设备采集语音数据，对语音数据采用第一语音识别算法确定语音数据中每个发音组对应n个词的n个置信率；采用第二语音识别算法确定语音数据中每个发音组对应的m个词的m个置信率；将每个发音中n个置信率中最高置信率对应的文字确定为第一文本内的文字信息，将每个发音中m个置信率中最高置信率对应的文字确定为第二文本内的文字信息；将第一文本内的文字信息以及第二文本内的文字信息中相同音节进行比对确定文字内容不相同的音节为多音词音节，将文字内容相同的音节为同音词音节，若多音词音节为一个，提取一个多音词音节对应的n个词的n个置信率以及m个词的m个置信率，获取n个置信率中前x个置信率对应的x个词以及m个置信率中前x个置信率对应的x’个词，若x个词与x’个词具有相同的第一词，确定该第一词为一个多音词音节的正确词，将该正确词与同音词音节对应词组合起来得到该语音数据的正确文本。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在网络设备上运行时，图2所示的方法流程得以实现。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在终端上运行时，图2所示的方法流程得以实现。

本申请实施例还提供一种终端，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行图2所示实施例的方法中的步骤的指令。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模板。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模板并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别处理方法，其特征在于，所述方法应用于终端设备，其中，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若x个词与x’个词不具有相同的词，终端设备确定该语音信息的第一身份，将第一文本内的文字信息与第二文本内的文字信息与第一身份的历史信息分别计算匹配度确定最高匹配度对应的文字信息确定为正确文本。

3.根据权利要求1所述的方法，其特征在于，

所述第一语音识别算法为LSTM语音识别算法，所述第二语音识别算法为RNN语音识别算法。

4.根据权利要求3所述的方法，其特征在于，所述RNN语音识别算法的计算公式包括：

S_t＝X_t×W+S_t-1×W

O_t＝f(S_t)

f表示激活函数。

5.根据权利要求4所述的方法，其特征在于，所述激活函数具体包括：

sigmoid函数或tanh函数

6.根据权利要求3所述的方法，其特征在于，所述LSTM语音识别算法的计算公式包括：

忘记门，f_t＝σ(h_t-1*X_t+b_f)。

输入门：

i_t＝σ(h_t-1*X_t+b_i)

C’_t＝tanh(h_t-1*X_t+b_c)；

输出门：

O_t＝σ(h_t-1*X_t+b_O)；

h_t＝O_t*tanh(C_t)。

其中，C_t＝C_t-1*f_t+i_t*C’_t；

其中，b_f表示f_t函数的偏置，b_i、b_c、b_o分别表示对应公式的偏置；C_t-1表示上一时刻的t-1的cell输出值，h_t-1为上一时刻的输出值，X_t表示当前时刻t的输入数据，σ表示sigmod函数，tanh表示tanh函数，O_t表示输出门的输出结果。

7.一种语音识别处理***，其特征在于，所述***包括：

采集单元，用于采集语音数据；

8.根据权利要求7所述的***，其特征在于，

9.一种终端设备，其特征在于，所述终端设备包括：处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-6任意一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-6任意一项所述的方法。