CN116343755A

CN116343755A - 领域自适应语音识别方法、装置、计算机设备及存储介质

Info

Publication number: CN116343755A
Application number: CN202310313176.1A
Authority: CN
Inventors: 赵梦原; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-06-27

Abstract

本发明公开了一种领域自适应语音识别方法、装置、计算机设备及存储介质，该方法包括：获取待识别语音数据；对所述待识别语音数据进行一次解码，获取多个候选识别结果，从多个候选识别结果中获取最优识别结果；根据所述最优识别结果进行领域判断，确定目标领域；采用所述目标领域对应的目标语言模型，对多个所述候选识别结果进行二次解码，获取目标识别结果。该方法采用目标领域对应的目标语言模型对多个候选识别结果进行二次解码，可适应用户多变的说话领域，提升多领域和跨领域识别时的准确性，提升语音识别的鲁棒性，提供更好的用户体验。

Description

领域自适应语音识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种领域自适应语音识别方法、装置、计算机设备及存储介质。

背景技术

语音识别技术已经广泛应用在很多场景中，并且取得了不错的效果。但是，由于人类语言和语音信号本身的复杂性，依赖目前的模型性能，语音识别***无法保证在任何场景中都取得很好的识别精度。现有的语音识别模型一般针对特征领域的语音识别结果较准确，如果要兼顾多个领域，甚至不限定语音领域时，其语音识别准确性就会大幅度下降。例如，金融领域的语音识别***对涉及到金融领域的语音，有很高的识别准确性，但对音乐、游戏或者其他领域的语音，语音识别准确性就会大幅下降。而在实际应用场景中，用户说话的内容所属领域往往是非常广泛的，用户在不同的时刻会说不同领域的内容，普通的语音识别***难以应对用户这种复杂的使用需求，影响用户体验。

发明内容

本发明实施例提供一种领域自适应语音识别方法、装置、计算机设备及存储介质，以解决多领域或跨领域语音识别准确性的问题。

一种领域自适应语音识别方法，包括：

获取待识别语音数据；

对所述待识别语音数据进行一次解码，获取多个候选识别结果，从多个所述候选识别结果中获取最优识别结果；

根据所述最优识别结果进行领域判断，确定目标领域；

采用所述目标领域对应的目标语言模型，对多个所述候选识别结果进行二次解码，获取目标识别结果。

一种领域自适应语音识别装置，包括：

待识别语音数据获取模块，用于获取待识别语音数据；

一次解码结果获取模块，用于对所述待识别语音数据进行一次解码，获取多个候选识别结果，从多个所述候选识别结果中获取最优识别结果；

目标领域确定模块，用于根据所述最优识别结果进行领域判断，确定目标领域；

目标识别结果获取模块，采用所述目标领域对应的目标语言模型，对多个所述候选识别结果进行二次解码，获取目标识别结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述领域自适应语音识别方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述领域自适应语音识别方法。

上述领域自适应语音识别方法、装置、计算机备及存储介质，采用目标领域对应的目标语言模型对多个候选识别结果进行二次解码，可使获得目标识别结果更加精确，更加符合实际；其中，根据待识别语音数据的最优识别结果，自动判断待识别语音数据的目标领域，以适应用户多变的说话领域，提升多领域和跨领域语音识别的准确性，提升了语音识别的鲁棒性，提供了更好的用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中领域自适应语音识别方法的一应用环境示意图；

图2是本发明一实施例中领域自适应语音识别方法的一流程图；

图3是本发明一实施例中领域自适应语音识别方法的另一流程图；

图4是本发明一实施例中领域自适应语音识别方法的另一流程图；

图5是本发明一实施例中领域自适应语音识别方法的另一流程图；

图6是本发明一实施例中领域自适应语音识别方法的另一流程图；

图7是本发明一实施例中领域自适应语音识别方法的另一流程图；

图8是本发明一实施例中领域自适应语音识别方法的另一流程图；

图9是本发明一实施例中领域自适应语音识别装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的领域自适应语音识别方法，该领域自适应语音识别方法可应用如图1所示的应用环境中。具体地，该领域自适应语音识别方法应用在领域自适应语音识别***中，该领域自适应语音识别***包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于实现领域自适应语音识别。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种领域自适应语音识别方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S201：获取待识别语音数据；

S202：对待识别语音数据进行一次解码，获取多个候选识别结果，从多个候选识别结果中获取最优识别结果；

S203：根据最优识别结果进行领域判断，确定目标领域；

S204：采用目标领域对应的目标语言模型，对多个候选识别结果进行二次解码，获取目标识别结果。

其中，待识别语音数据是指需要进行识别的语音数据，该待识别语音数据可以为多领域的语音数据或跨领域的语音数据，其内容可以涵盖各个领域。

作为一示例，步骤S201中，服务器可以获取待识别语音数据，该待识别语音数据可以为多领域的语音数据或者跨领域的语音数据。本示例中，服务器获取各个领域的待识别语音数据，作为后续一次解码的输入数据，保障后续一次解码的可行性。

其中，一次解码是指对待识别语音数据进行识别处理，获取多个语音识别结果的过程。候选识别结果是指对待识别语音数据进行一次解码后识别出的概率较大的多个识别结果，具体可理解为识别概率较大的多个识别路径或者多个原始识别句子。最优识别结果为多个候选识别结果中识别效果最好的一个识别结果。

作为一示例，步骤S202中，服务器对获取到待识别语音数据进行一次解码处理，获取多个候选识别结果，再从多个候选识别结果中获取最优识别结果。本示例中，对待识别语音数据进行一次解码时，首先使用声学模型对待识别语音数据进行处理，获取声学模型处理结果；随后使用通用语言模型对待识别语音数据进行处理，获取通用语言模型处理结果；选取声学模型处理结果和通用语言模型处理结果中识别效果较好的多个识别结果，作为多个候选识别结果；选取多个候选识别结果中识别效果最好的一个识别结果，作为最优识别结果。

本示例中，分别使用声学模型和通用语言模型对待识别语音数据进行处理，得到多个识别结果，选择识别效果较好的多个识别结果作为多个候选识别结果，保障了后续二次解码过程的输入数据更加符合实际，使二次解码结果更精确；从多个候选识别结果中，选取最好的一个识别结果，作为最优识别结果，以便后续利用最优识别结果进行领域判断，保障了领域判断的准确性，保证最终判断的目标领域更加精确，保障二次解码过程中使用的目标语言模型有针对性，有助于保障最终获取的目标识别结果的准确性。

作为一示例，步骤S203中，服务器根据最优识别结果，对待识别语音数据进行领域判断，获得待识别语音数据的目标领域。本示例中，服务器使用领域判断模型对输入的最优识别结果进行领域判断过程如下：将最优识别结果输入至领域判断模型中，输出最优识别结果对应各领域的概率值，选取概率值最大的领域作为目标领域。

本示例中，使用领域判断模型，根据最优识别结果判断得到目标领域，不但为二次解码提供可行性，而且保障了二次解码的精确性。

其中，目标语言模型是指目标领域对应的语言模型，可理解为利用目标领域对应的训练数据进行训练，所获取到的语言模型，该语言模型对目标领域的输入数据具有较高的识别精确性。二次解码是指对多个候选识别结果进行识别，得到目标识别结果的过程。

作为一示例，步骤S204中，服务器采用目标领域对应的目标语言模型，对多个候选识别结果进行二次解码，获取目标识别结果，具体过程为：在获取目标领域的基础上，服务器得到目标领域对应的目标语言模型，使用目标语言模型对多个候选识别结果进行识别，得到多个识别结果和每个识别结果对应的评分，选择评分最高的识别结果，作为目标识别结果。

本示例中，使用目标领域对应的目标语言模型对多个候选识别结果进行识别并评分，得到目标识别结果，由于目标语言模型对目标领域的输入数据识别结果较精确，因此，采用目标语言模型对多个候选识别结果进行识别，可使获得目标识别结果更加精确，更加符合实际。

本实施例所提供的领域自适应语音识别方法中，先对待识别语音数据进行一次解码，得到多个候选识别结果和最优识别结果，使后续对待识别语音数据进行领域判断具有可行性，并保障了二次解码过程的精确性，使目标识别结果更加符合实际；根据最优识别结果进行领域判断，确定目标领域，再采用目标领域对应的目标语言模型对多个候选识别结果进行二次解码，可使获得目标识别结果更加精确，更加符合实际。可理解地，根据待识别语音数据的最优识别结果，自动判断其说话的目标领域，以适应用户多变的说话领域，提升多领域和跨领域语音识别的准确性，提升了语音识别的鲁棒性、准确性和稳定性，提供了更好的用户体验。

在一实施例中，如图3所示，步骤S202，即对待识别语音数据进行一次解码，获取多个候选识别结果，从多个候选识别结果中获取最优识别结果，包括：

S301：采用声学模型对待识别语音数据进行解码处理，获取多个原始识别句子和每个原始识别句子对应的目标声学分值；

S302：采用通用语言模型对待识别语音数据进行解码处理，获取多个原始识别句子和每个原始识别句子对应的第一语言分值；

S303：根据多个原始识别句子对应的目标声学分值和第一语言分值进行处理，获取多个原始识别句子对应的第一识别分值；

S304：对多个原始识别句子对应的第一识别分值进行排序，将第一识别分值大的前N个原始识别句子，确定为多个候选识别结果，N≥2；

S305：从多个候选识别结果中，选取第一识别分值最大的一个原始识别句子，确定为最优识别结果。

作为一示例，步骤S301中，服务器使用声学模型对待识别语音数据进行解码处理，得到多个原始识别句子，同时，获得每个原始识别句子对应的分值，作为每个原始识别句子对应的目标声学分值。此处的目标声学分值可理解为声学模型识别输出的每个原始识别句子的分值。

本示例中，服务器采用声学模型对待识别语音数据进行解码处理，获取多个原始识别句子和每个原始识别句子对应的目标声学分值。例如，声学模型对某一待识别语音数据进行识别，得到X个原始识别句子，其中，X≥2，每一个原始识别句子均输出对应的目标声学分值。

作为一示例，步骤S302中，服务器使用通用语言模型对待识别语音数据进行解码处理，得到多个原始识别句子，同时，获得每个原始识别句子对应的分值，作为每个原始识别句子对应的第一语言分值。

在一实施例中，服务器采用通用语言模型对待识别语音数据进行解码处理，获取多个原始识别句子和每个原始识别句子对应的第一语言分值。例如，通用语言模型对某一待识别语音数据进行识别得到Y个原始识别句子，其中，Y≥2，每一个原始识别句子均输出对应的第一语言分值。此处的第一语言分值可理解为通用语言模型识别输出的每个原始识别句子的分值。

作为一示例，步骤S303中，服务器对多个原始识别句子对应的目标声学分值和第一语言分值进行融合处理，获取多个原始识别句子对应的分值，作为原始识别句子对应的第一识别分值。

在一实施例中，服务器根据多个原始识别句子对应的目标声学分值和第一语言分值进行融合处理，获取对应的第一识别分值。例如，声学模型对某一待识别语音数据进行识别，得到X个原始识别句子和对应的目标声学分值，其中，X≥2；通用语言模型对同一待识别语音数据进行识别，得到Y个原始识别句子和对应的第一语言分值，其中，Y≥2；在X个原始识别句子中，使用声学权重w₁对每个原始识别句子对应的目标声学分值进行加权，在Y个原始识别句子中，使用语言权重w₂对每个原始识别句子对应的第一语言分值进行加权，将上述两项加权进行求和，得到每个原始识别句子对应的第一识别分值，最终获取多个原始识别句子及其对应的第一识别分值。

作为一示例，步骤S304中，服务器对多个原始识别句子对应的第一识别分值进行排序，将第一识别分值较大的前N个原始识别句子，确定为多个候选识别结果，其中，N≥2。

在一实施例中，服务器将原始识别句子中第一识别分值大的前N个原始识别句子作为多个候选识别结果，其中，N≥2。例如，在获取多个原始识别句子对应的第一识别分值的基础上，选取前N个第一识别分值较大的原始识别句子，作为多个候选识别结果。

作为一示例，步骤S305中，服务器从多个候选识别结果中，选取第一识别分值最大的一个原始识别句子，确定为最优识别结果，具体是将多个候选识别结果中，第一识别分值最大的一个原始识别句子确定为最优识别结果。

在一实施例中，服务器将第一识别分值最大的一个原始识别句子，作为最优识别结果。例如，N个候选识别结果包括N个原始识别句子对应的第一识别分值，可从N个候选识别结果中，选择其中第一识别分值最大的一个原始识别句子，作为最优识别结果。

本实施例所提供的领域自适应语音识别方法中，分别使用声学模型和通用语言模型对待识别语音数据进行解码，得到多个原始识别句子，其中，声学模型可以对待识别语音数据中用户的口音进行识别，降低待识别语音数据中用户的口音对一次解码结果的影响；对声学模型的原始识别句子与通用语言模型的每个原始识别句子分别进行评分，并对评分进行融合，获得每个原始识别句子的第一识别分值，并对第一识别分值进行排序，将第一识别分值大的前N个原始识别句子作为多个候选识别结果，保障了后续二次解码过程的输入数据更加符合实际，使二次解码结果更精确；从多个候选识别结果中，选取第一识别分值最大的一个原始识别句子，作为最优识别结果，保障了后续领域判断的准确性，保证判断的目标领域更加精确的同时，更保障二次解码过程中使用的目标语言模型更准确。

在一实施例中，如图4所示，步骤S204，即采用目标领域对应的目标语言模型，对多个候选识别结果进行二次解码，获取目标识别结果，包括：

S401：采用目标领域对应的目标语言模型，对多个候选识别结果进行二次解码，获取多个候选识别句子和每个候选识别句子对应的第二语言分值；

S402：对每个候选识别句子对应的第二语言分值和目标声学分值进行处理，获取每个候选识别句子对应的第二识别分值；

S403：依据第二识别分值对多个候选识别句子进行排序，将第二识别分值最大的候选识别句子，确定为目标识别结果。

其中，候选识别结果包括候选识别句子和候选识别句子对应的目标声学分值。

作为一示例，步骤S401中，服务器将目标领域对应的语言模型确认为目标语言模型，使用目标语言模型对多个候选识别结果进行二次解码识别，得到多个候选识别句子和每个候选识别句子对应的分值，作为每个候选识别句子的第二语言分值。

在一实施例中，服务器使用目标语言模型对多个候选识别结果进行二次解码识别，得到多个候选识别句子和每个候选识别句子对应的第二语言分值。例如，在选取数量为N的多个候选识别结果的基础上，使用目标语言模型对多个候选识别结果进行二次解码识别，得到N个候选识别句子和每个候选识别句子对应的第二语言分值。

作为一示例，步骤S402中，服务器对每个候选识别句子对应的第二语言分值和目标声学分值进行融合处理，得到每个候选识别句子对应的第二识别分值。

在一实施例中，服务器对每个候选识别句子对应的第二语言分值和目标声学分值进行融合，得到每个候选识别句子对应的第二识别分值。本示例中，对N个候选识别句子对应的第二语言分值和目标声学分值进行融合，得到该N个候选识别句子对应的第二识别分值。例如，对N个候选识别结果对应的候选识别句子，使用声学权重w₁对每个候选识别句子对应的目标声学分值进行加权，使用语言权重w₂对每个候选识别句子对应的第二语言分值进行加权，将上述两项加权进行求和，得到每个候选识别句子对应的第二识别分值，最终获取N个候选识别句子对应的第二识别分值。

作为一示例，步骤S403中，服务器依据第二识别分值对多个候选识别句子进行排序，将第二识别分值最大的候选识别句子，确定为目标识别结果。在一实施例中，选取第二识别分值最大的候选识别句子作为待识别语音数据的目标识别结果。例如，在得到N个候选识别句子对应的第二识别分值的基础上，选取N个候选识别句子中第二识别分值最大的候选识别句子，作为目标识别结果。

本实施例所提供的领域自适应语音识别方法中，使用目标领域对应的目标语言模型对多个候选识别结果进行识别，保障获取到的多个候选识别句子和第二语言分值的识别准确性；将每个候选识别句子对应的第二语言分值与目标声学分值进行融合，得到第二识别分值，并选取最大第二识别分值对应的候选识别句子，作为待识别语音数据对应的目标识别结果，使获得的待识别语音数据的识别结果更加精确，更加符合实际。

在一实施例中，如图5所示，步骤S402，即对每个候选识别句子对应的第二语言分值和目标声学分值进行处理，获取每个候选识别句子对应的第二识别分值，包括：

S501：根据每个候选识别句子对应的第一语言分值和第二语言分值，确定每个候选识别句子对应的目标语言分值；

S502：对每个候选识别句子对应的目标语言分值和每个候选识别句子对应的目标声学分值进行处理，获取每个候选识别句子对应的第二识别分值。

其中，候选识别结果还包括候选识别句子对应的第一语言分值。

作为一示例，步骤S501中，服务器在采用目标领域对应的目标语言模型对多个候选识别结果进行二次解码，得到多个候选识别句子对应的第二语言分值后，可将多个候选识别句子对应的第二语言分值和步骤S302中得到的通用语言模型对多个候选识别句子对应的第一语言分值进行融合，得到每个候选识别句子对应的目标语言分值。可理解地，由于目标语言分值是基于通用语言模型输出的第一语言分值和目标语言模型输出的第二语言分值融合的分值，融合两个语言模型的识别结果，相比于单一语言模型的识别结果(即通用语言模型和目标语言模型的任一个)，可使目标语言分值更准确。

作为一示例，步骤S502中，服务器对每个候选识别句子对应的目标语言分值和每个候选识别句子对应的目标声学分值进行融合，获取每个候选识别句子对应的第二识别分值。例如，对N个候选识别结果对应的候选识别句子，使用声学权重w₁对每个候选识别句子对应的目标声学分值进行加权，使用语言权重w₂对每个候选识别句子对应的目标语言分值进行加权，将上述两项加权进行求和，得到每个候选识别句子对应的第二识别分值，最终获取N个候选识别句子对应的第二识别分值。可理解地，声学模型可以对待识别语音数据中用户的口音进行识别，根据声学模型的候选识别句子得到目标声学分值，将目标声学分值与目标语言分值进行融合，获取第二识别分值，由于在步骤S403中，选取第二识别分值最大的候选识别句子作为目标识别结果，因此，在获取第二识别分值时，将目标声学分值考虑在内，可降低待识别语音数据中用户的口音对目标识别结果的准确性的影响。

本实施例所提供的领域自适应语音识别方法中，获取每个候选识别句子对应的第二识别分值，使获取目标识别结果具有可行性。

在一实施例中，如图6所示，步骤S501，即根据每个候选识别句子对应的第一语言分值和第二语言分值，确定每个候选识别句子对应的目标语言分值，包括：

S601：获取第一语言分值对应的第一融合权重和第二语言分值对应的第二融合权重；

S602：根据第一语言分值、第一融合权重、第二语言分值和第二融合权重，获取每个候选识别句子对应的目标语言分值。

作为一示例，步骤S601中，服务器在获取每个候选识别句子对应的第一语言分值和第二语言分值的基础上，分别获取第一语言分值对应的第一融合权重和第二识别分值对应的第二融合权重。由于第一语言分值是基于通用语言模型识别的分值，而第二语言模型是基于目标领域对应的目标语言模型识别的分值，一般来说，根据最优识别结果确定目标领域后，目标语言模型的识别结果会高于通用语言模型的识别结果，因此，可设置第二融合权重大于第一融合权重，以使目标语言模型输出的第二语言分值有较高的权重。例如，第一融合权重可以设置为0.3，第二融合权重可以设置为0.7。

作为一示例，步骤S602中，服务器将第一语言分值和第二语言分值分别按第一融合权重和第二融合权重进行融合，获取每个候选识别句子对应的目标语言分值。

在一实施例中，对于每个候选识别句子，将第一融合权重对第一语言分值的加权与第二融合权重对第二语言分值的加权进行融合，得到每个候选识别句子对应的目标语言分值。例如，在得到N个候选识别句子对应的第一语言分值、第一融合权重、第二语言分值和第二融合权重之后，使用第一融合权重对每个候选识别句子对应的第一语言分值进行加权，使用第二融合权重对每个候选识别句子对应的第二语言分值进行加权，对上述两项加权进行求和，得到每个候选识别句子对应的目标语言分值，最终得到N个候选识别句子对应的目标语言分值。

本实施例所提供的领域自适应语音识别方法中，获取每个候选识别句子对应的目标语言分值，使获取第二识别分值具有可行性。

在另一实施例中，如图7所示，步骤S204，即采用目标领域对应的目标语言模型，对多个候选识别结果进行二次解码，获取目标识别结果，包括：

S701：采用目标领域对应的目标语言模型，对多个候选识别结果进行二次解码，获取多个候选识别句子和每个候选识别句子对应的第二语言分值；

S702：对每个候选识别句子对应的第二语言分值和第一识别分值进行处理，获取每个候选识别句子对应的第三识别分值；

S703：依据第三识别分值对多个候选识别句子进行排序，将第三识别分值最大的候选识别句子，确定为目标识别结果。

其中，候选识别结果包括候选识别句子和候选识别句子对应的第一识别分值。

作为一示例，步骤S701中，服务器采用目标领域对应的目标语言模型，对多个候选识别结果进行二次解码，获取多个候选识别句子和每个候选识别句子对应的第二语言分值。

在一实施例中，服务器在选取数量为N的多个候选识别结果的基础上，使用目标语言模型对多个候选识别结果进行二次解码识别，得到N个候选识别句子和每个候选识别句子对应的第二语言分值。

作为一示例，步骤S702中，服务器对每个候选识别句子对应的第二语言分值和第一识别分值进行融合处理，获取每个候选识别句子对应的第三识别分值。可理解地，在获取第三识别分值时，考虑一次解码后对目标声学分值和第一语言分值进行融合得到第一识别分值，再将得到的第一识别分值和二次解码得到的第二语言分值，可得到更为精确的第三识别分值，使后续根据第三识别分值获取的目标识别结果，更加符合待识别语音数据的实际情况。

在一实施例中，服务器对N个候选识别句子对应的第二语言分值和第一识别分值进行融合，得到该N个候选识别句子对应的第三识别分值。例如，对N个候选识别结果对应的候选识别句子，使用预设的权重w₃对每个候选识别句子对应的第一识别分值分值进行加权，使用预设的权重w₄对每个候选识别句子对应的第二语言分值进行加权，将上述两项加权进行求和，得到每个候选识别句子对应的第三识别分值，最终获取N个候选识别句子对应的第三识别分值。可理解地，将第一识别分值与第二语言分值进行融合，获取第三识别分值，就是同时对声学模型、通用语言模型和目标语言模型的识别效果进行评估，使获取到的第三识别分值更加精确。

作为一示例，步骤S703中，服务器依据第三识别分值对多个候选识别句子进行排序，将第三识别分值最大的候选识别句子，确定为目标识别结果。

在一实施例中，选取第三识别分值最大的候选识别句子作为待识别语音数据的目标识别结果。在得到N个候选识别句子对应的第三识别分值的基础上，选取N个候选识别句子中第三识别分值最大的候选识别句子，作为目标识别结果。

本实施例所提供的领域自适应语音识别方法中，使用目标领域对应的目标语言模型对多个候选识别结果进行识别，保障获取到的多个候选识别句子和第二语言分值的识别准确性；将每个候选识别句子对应的第二语言分值与第一识别分值进行融合，得到第三识别分值，并选取最大第三识别分值对应的候选识别句子，作为待识别语音数据对应的目标识别结果，使获得的待识别语音数据的识别结果更加精确，更加符合实际。

在一实施例中，如图8所示，步骤S203，即根据最优识别结果进行领域判断，确定目标领域，包括：

S801：采用词向量映射模型对最优识别结果进行空间映射，获取目标向量；

S802：采用神经网络模型对目标向量进行处理，确定多个配置领域对应的识别概率；

S803：将识别概率最大的配置领域，确定为目标领域。

其中，领域判断模型包括词向量映射模型和神经网络模型。词向量映射模型是用于将最优识别结果对应的原始识别句子转换为目标向量的模型。神经网络模型用于根据目标向量获取最优识别结果在不同配置领域对应的识别概率。

作为一示例，步骤S801中，服务器采用词向量映射模型对最优识别结果进行空间映射，将最优识别结果对应的原始识别句子转换为特定格式的向量，将该特定格式的向量作为目标向量。

在一实施例中，服务器采用word-embedding层这一词向量映射模型，将最优识别结果对应的原始识别句子转换为目标向量。该方法保障了后续通过神经网络获取识别概率的可行性。

作为一示例，步骤S802中，服务器使用神经网络模型对目标向量进行处理，即将目标向量输入至神经网络模型，通过神经网络模型内部多个配置领域的语言模型，分别对目标向量进行识别，输出得到最优识别结果在不同配置领域对应的识别概率。

在一实施例中，服务器采用LSTM层这一神经网络模型，对目标向量进行处理，具体使用LSTM层内部多个配置领域的语言模型，分别对目标向量进行识别经过两个全连接层后，输出各个配置领域对应的识别概率。可理解地，神经网络模型包括但不限于LSTM。

可理解地，在执行上述步骤之前，服务器需基于多个领域的训练数据，训练出多个配置领域的语言模型，其训练过程包括：

服务器将获取到的有领域标签的文本数据，输入至神经网络模型中，输出得到对应的领域标签，其中，有领域标签的文本数据可以是来自多个领域的文本数据。使用大量源自不同领域的有领域标签的文本数据进行训练，得到对应领域的语言模型，最终训练出多个配置领域的语言模型。例如，使用了有游戏领域标签的文本数据进行训练，得到的语言模型为游戏领域语言模型。在一实施例中，有领域标签的文本数据可以是语言模型训练语料，也可以是语音训练集的标注文本。

作为一示例，步骤S803中，服务器将识别概率最大的配置领域，确定为目标领域。例如，对最优识别结果进行领域识别，得到识别概率最大的配置领域中的某一类别的领域，则将该类别对应的领域作为目标领域。

本实施例所提供的领域自适应语音识别方法中，通过领域判断模型获取最优识别结果在多个配置领域对应的识别概率，选取识别概率最大的配置领域，确定为目标领域，可保障目标领域识别的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种领域自适应语音识别装置，该领域自适应语音识别装置与上述实施例中领域自适应语音识别方法一一对应。如图9所示，该领域自适应语音识别装置包括待识别语音数据获取模块901、一次解码结果获取模块902、目标领域确定模块903和目标识别结果获取模块904。各功能模块详细说明如下：

待识别语音数据获取模块901，用于获取待识别语音数据；

一次解码结果获取模块902，用于对待识别语音数据进行一次解码，获取多个候选识别结果，从多个候选识别结果中获取最优识别结果；

目标领域确定模块903，用于根据最优识别结果进行领域判断，确定目标领域；

目标识别结果获取模块904，采用目标领域对应的目标语言模型，对多个候选识别结果进行二次解码，获取目标识别结果。

在一实施例中，一次解码结果获取模块902包括：

目标声学分值获取子模块，采用声学模型对待识别语音数据进行解码处理，获取多个原始识别句子和每个原始识别句子对应的目标声学分值；

第一语言分值获取子模块，采用通用语言模型对待识别语音数据进行解码处理，获取多个原始识别句子和每个原始识别句子对应的第一语言分值；

第一识别分值获取子模块，用于根据多个原始识别句子对应的目标声学分值和第一语言分值进行处理，获取多个原始识别句子对应的第一识别分值；

候选识别结果确定子模块，用于将第一识别分值大的前N个原始识别句子，确定为多个候选识别结果，N≥2；

最优识别结果确定子模块，用于将第一识别分值最大的一个原始识别句子，确定为最优识别结果。

在一实施例中，目标领域确定模块903，包括：

目标向量获取子模块，采用词向量映射模型对最优识别结果进行空间映射，获取目标向量；

识别概率确定子模块，采用神经网络模型对目标向量进行处理，确定多个配置领域对应的识别概率；

目标领域确定子模块，用于将识别概率最大的配置领域，确定为目标领域。

在一实施例中，目标识别结果获取模块904，包括：

第二语言分值获取子模块，采用目标领域对应的目标语言模型，对多个候选识别结果进行二次解码，获取多个候选识别句子和每个候选识别句子对应的第二语言分值；其中，候选识别结果包括候选识别句子和候选识别句子对应的目标声学分值；

第二识别分值获取子模块，用于对每个候选识别句子对应的第二语言分值和目标声学分值进行处理，获取每个候选识别句子对应的第二识别分值；

目标识别结果确定子模块，用于将第二识别分值最大的候选识别句子，确定为目标识别结果。

在一实施例中，第二识别分值获取子模块，包括：

目标语言分值确定单元，用于根据每个候选识别句子对应的第一语言分值和第二语言分值，确定每个候选识别句子对应的目标语言分值；其中，候选识别结果还包括候选识别句子对应的第一语言分值；

第二识别分值获取单元，用于对每个候选识别句子对应的目标语言分值和每个候选识别句子对应的目标声学分值进行处理，获取每个候选识别句子对应的第二识别分值。

在一实施例中，目标语言分值确定单元，包括：

融合权重获取子单元，用于获取第一语言分值对应的第一融合权重和第二语言分值对应的第二融合权重；

目标语言分值获取子单元，用于根据第一语言分值、第一融合权重、第二语言分值和第二融合权重，获取每个候选识别句子对应的目标语言分值。

在另一实施例中，目标识别结果获取模块904，包括：

第二语言分值获取子模块，采用目标领域对应的目标语言模型，对多个候选识别结果进行二次解码，获取多个候选识别句子和每个候选识别句子对应的第二语言分值；

第三识别分值获取子模块，用于对每个候选识别句子对应的第二语言分值和第一识别分值进行处理，获取每个候选识别句子对应的第三识别分值；

目标识别结果确定子模块，用于依据第三识别分值对多个候选识别句子进行排序，将第三识别分值最大的候选识别句子，确定为目标识别结果。

关于领域自适应语音识别装置的具体限定可以参见上文中对于领域自适应语音识别方法的限定，在此不再赘述。上述领域自适应语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行领域自适应语音识别方法过程中采用或生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种领域自适应语音识别方法。

在一实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中领域自适应语音识别方法，例如图2所示S201-S204，或者图3至图8中所示，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现领域自适应语音识别装置这一实施例中的各模块/单元的功能，例如图9所示的待识别语音数据获取模块901、一次解码结果获取模块902、目标领域确定模块903和目标识别结果获取模块904的功能，为避免重复，这里不再赘述。

在一实施例中，提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中领域自适应语音识别方法，例如图2所示S201-S204，或者图3至图8中所示，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述领域自适应语音识别装置这一实施例中的各模块/单元的功能，例如图9所示的待识别语音数据获取模块901、一次解码结果获取模块902、目标领域确定模块903和目标识别结果获取模块904的功能，为避免重复，这里不再赘述。所述计算机可读存储介质可以是非易失性，也可以是易失性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种领域自适应语音识别方法，其特征在于，包括：

获取待识别语音数据；

根据所述最优识别结果进行领域判断，确定目标领域；

2.如权利要求1所述的领域自适应语音识别方法，其特征在于，所述对所述待识别语音数据进行一次解码，获取多个候选识别结果，从多个所述候选识别结果中获取最优识别结果，包括：

采用声学模型对所述待识别语音数据进行解码处理，获取多个原始识别句子和每个所述原始识别句子对应的目标声学分值；

采用通用语言模型对所述待识别语音数据进行解码处理，获取多个原始识别句子和每个所述原始识别句子对应的第一语言分值；

根据多个所述原始识别句子对应的目标声学分值和第一语言分值进行处理，获取多个所述原始识别句子对应的第一识别分值；

对多个所述原始识别句子对应的第一识别分值进行排序，将第一识别分值大的前N个原始识别句子，确定为多个候选识别结果，N≥2；

从多个所述候选识别结果中，选取第一识别分值最大的一个原始识别句子，确定为最优识别结果。

3.如权利要求2所述的领域自适应语音识别方法，其特征在于，所述候选识别结果包括候选识别句子和所述候选识别句子对应的目标声学分值；

所述采用所述目标领域对应的目标语言模型，对多个所述候选识别结果进行二次解码，获取目标识别结果，包括：

采用所述目标领域对应的目标语言模型，对多个所述候选识别结果进行二次解码，获取多个所述候选识别句子和每个所述候选识别句子对应的第二语言分值；

对每个所述候选识别句子对应的第二语言分值和所述目标声学分值进行处理，获取每个所述候选识别句子对应的第二识别分值；

依据所述第二识别分值对多个所述候选识别句子进行排序，将所述第二识别分值最大的候选识别句子，确定为目标识别结果。

4.如权利要求3所述的领域自适应语音识别方法，其特征在于，所述候选识别结果还包括所述候选识别句子对应的第一语言分值；

所述对每个所述候选识别句子对应的第二语言分值和所述目标声学分值进行处理，获取每个所述候选识别句子对应的第二识别分值，包括：

根据每个所述候选识别句子对应的第一语言分值和第二语言分值，确定每个所述候选识别句子对应的目标语言分值；

对每个所述候选识别句子对应的目标语言分值和每个所述候选识别句子对应的目标声学分值进行处理，获取每个所述候选识别句子对应的第二识别分值。

5.如权利要求4所述的领域自适应语音识别方法，其特征在于，所述根据每个所述候选识别句子对应的第一语言分值和第二语言分值，确定每个所述候选识别句子对应的目标语言分值，包括：

获取所述第一语言分值对应的第一融合权重和所述第二语言分值对应的第二融合权重；

根据所述第一语言分值、所述第一融合权重、所述第二语言分值和所述第二融合权重，获取每个所述候选识别句子对应的目标语言分值。

6.如权利要求2所述的领域自适应语音识别方法，其特征在于，所述候选识别结果包括候选识别句子和所述候选识别句子对应的第一识别分值；

对每个所述候选识别句子对应的第二语言分值和所述第一识别分值进行处理，获取每个所述候选识别句子对应的第三识别分值；

依据所述第三识别分值对多个所述候选识别句子进行排序，将所述第三识别分值最大的候选识别句子，确定为目标识别结果。

7.如权利要求1所述的领域自适应语音识别方法，其特征在于，所述根据所述最优识别结果进行领域判断，确定目标领域，包括：

采用词向量映射模型对所述最优识别结果进行空间映射，获取目标向量；

采用神经网络模型对所述目标向量进行处理，确定多个配置领域对应的识别概率；

将所述识别概率最大的配置领域，确定为目标领域。

8.一种领域自适应语音识别装置，其特征在于，包括：

待识别语音数据获取模块，用于获取待识别语音数据；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述领域自适应语音识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述领域自适应语音识别方法。