CN111222331A

CN111222331A - 辅助解码方法、装置、电子设备及可读存储介质

Info

Publication number: CN111222331A
Application number: CN201911418820.1A
Authority: CN
Inventors: 吴帅; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-02
Anticipated expiration: 2039-12-31
Also published as: CN111222331B

Abstract

本发明提供了一种辅助解码方法、装置、电子设备和可读存储介质。通过获取待解码语料，并通过解码器对待解码语料进行解码，得到多条候选文本以及每条候选文本的初始分数，再将多条候选文本分别输入原始语言模型，得到每条候选文本的原始分数，再对多条候选文本进行逆序处理，得到多条逆序文本，将多条逆序文本分别输入反向NGram模型，得到每条候选文本的反向分数，根据每条候选文本的原始分数和反向分数，得到每条候选文本的更新分数，将更新分数最高的候选文本确定为待解码语料的解码文本。通过使用反向NGram模型，配合原始语言模型，对解码后的候选文本的初始分数进行更新，能够较为快速地得到解码文本，且能够提高解码文本的精度。

Description

辅助解码方法、装置、电子设备及可读存储介质

技术领域

本发明涉及数据解码技术领域，尤其涉及一种辅助解码方法、装置、电子设备及可读存储介质。

背景技术

目前，随着信息产业的迅猛发展，每时每刻有大量数据产生，为了方便人类使用或储存这些数据，其中相当一部分需要转化成文本。因此，在广阔的市场前景下，相关解码(将数据转写成文本)技术应运而生。这些技术包括但不限于机器翻译、语音识别、光学字符识别、输入法和自动问答等。这些技术中，解码后转换的自然语言的准确度是市场应用的一个重要效果指标。此外，通常由于实时性，对于速度也有严苛的要求。在现有技术中，数据解码的精度较低且速度较慢。

发明内容

本发明实施例提供一种基于反向NGram的辅助解码方法，旨在提高数据解码时的精度和解码速度。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种基于反向NGram的辅助解码方法，所述方法包括：

获取待解码语料，通过解码器对所述待解码语料进行解码，得到多条候选文本以及每条候选文本的初始分数；

将所述多条候选文本分别输入原始语言模型，得到每条候选文本的原始分数；

将所述多条候选文本分别进行逆序处理，得到与所述多条候选文本相对应的多条逆序文本；

将所述多条逆序文本分别输入反向NGram模型，得到每条候选文本的反向分数；

根据所述每条候选文本的原始分数和反向分数，对每条文本的所述初始分数进行更新，得到每条候选文本的更新分数；

根据每条候选文本的更新分数，将更新分数最高的候选文本确定为所述待解码语料的解码文本。

可选地，所述方法还包括：

获取多条逆序文本样本，对待训练的反向NGram模型进行多轮训练，直至所述待训练的反向NGram模型输出的反向分数满足预设条件时，结束训练，得到所述反向NGram模型。

可选地，获取多条逆序文本样本，包括：

获取多条语料样本，对所述语料样本进行清洗，根据解码器中的词表，对多条清洗后的所述语料样本进行分词，得到多条分词后的文本样本；

将每条所述分词后的文本样本，以词为单位，进行逆序排列，得到多条逆序后的文本样本；

在每条所述逆序后的文本样本的两端添加句首符和句尾符，得到多条所述逆序文本样本。

可选地，所述候选文本为分词后的文本，且每条所述候选文本均包含句首符和句尾符，将所述多条候选文本分别输入原始语言模型，得到每条候选文本的原始分数，包括：

将所述多条候选文本分别输入原始语言模型，依次计算每条候选文本中每个词以及所述句尾符的概率，并根据每条候选文本中每个词以及句尾符的概率计算出每条候选文本的原始分数；

将所述多条逆序文本分别输入反向NGram模型，得到每条候选文本的反向分数，包括：

将所述多条候选文本分别输入反向NGram模型，依次计算每条逆序文本中每个词以及所述句首符的概率，并根据每条候选文本中每个词以及所述句首符的概率计算出每条候选文本的反向分数。

可选地，将所述多条候选文本分别进行逆序处理，得到与所述多条候选文本相对应的多条逆序文本，包括：

将每条所述分词后的候选文本，以词或句首符或句尾符为单位，进行逆序排列，得到多条逆序后的候选文本。

第二方面，本发明实施例提供了一种基于反向NGram的辅助解码装置，所述装置包括：

解码模块，用于获取待解码语料，通过解码器对所述待解码语料进行解码，得到多条候选文本以及每条候选文本的初始分数；

原始评分模块，用于将所述多条候选文本分别输入原始语言模型，得到每条候选文本的原始分数；

逆序模块，用于将所述多条候选文本分别进行逆序处理，得到与所述多条候选文本相对应的多条逆序文本；

反向评分模块，用于将所述多条逆序文本分别输入反向NGram模型，得到每条候选文本的反向分数；

分数更新模块，用于根据所述每条候选文本的原始分数和反向分数，对每条文本的所述初始分数进行更新，得到每条候选文本的更新分数；

确定模块，用于根据每条候选文本的更新分数，将更新分数最高的候选文本确定为所述待解码语料的解码文本。

可选地，所述装置还包括：

训练模块，用于获取多条逆序文本样本，对待训练的反向NGram模型进行多轮训练，直至所述待训练的反向NGram模型输出的反向分数满足预设条件时，结束训练，得到所述反向NGram模型。

可选地，所述训练模块，包括：

分词子模块，用于获取多条语料样本，对所述语料样本进行清洗，根据解码器中的词表，对多条清洗后的所述语料样本进行分词，得到多条分词后的文本样本；

第一逆序子模块，用于将每条所述分词后的文本样本，以词为单位，进行逆序排列，得到多条逆序后的文本样本；

添加子模块，用于在每条所述逆序后的文本样本的两端添加句首符和句尾符，得到多条所述逆序文本样本。

可选地，所述候选文本为分词后的文本，且每条所述候选文本均包含句首符和句尾符，所述原始评分模块，包括：

原始评分子模块，用于将所述多条候选文本分别输入原始语言模型，依次计算每条候选文本中每个词以及所述句尾符的概率，并根据每条候选文本中每个词以及句尾符的概率计算出每条候选文本的原始分数；

所述反向评分模块，包括：

反向评分子模块，用于将所述多条候选文本分别输入反向NGram模型，依次计算每条逆序文本中每个词以及所述句首符的概率，并根据每条候选文本中每个词以及所述句首符的概率计算出每条候选文本的反向分数。

第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时，实现上述第一方面所述的基于反向NGram的辅助解码方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述第一方面所述的基于反向NGram的辅助解码方法的步骤。

在本发明中，通过获取待解码语料，并通过解码器对待解码语料进行解码，得到多条候选文本以及每条候选文本的初始分数，再将多条候选文本分别输入原始语言模型，得到每条候选文本的原始分数，再对多条候选文本进行逆序处理，得到多条逆序文本，将多条逆序文本分别输入反向NGram模型，得到每条候选文本的反向分数，根据每条候选文本的原始分数和反向分数，对每条文本的初始分数进行更新，得到每条候选文本的更新分数，再根据每条候选文本的更新分数，将更新分数最高的候选文本确定为待解码语料的解码文本。通过使用反向NGram模型，配合原始语言模型，对解码后的候选文本的初始分数进行更新，能够较为快速地得到解码文本，且能够提高解码文本的精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一种基于反向NGram的辅助解码方法的步骤流程图；

图2是本发明实施例中一种逆序文本样本的获取方法的步骤流程图；

图3是本发明实施例中一种基于反向NGram的辅助解码装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，图1是本发明实施例中一种基于反向NGram的辅助解码方法的步骤流程图，如图1所示，所述方法包括：

步骤S101：获取待解码语料，通过解码器对所述待解码语料进行解码，得到多条候选文本以及每条候选文本的初始分数。

在本实施方式中，待解码语料可为音频流数据或者键盘流数据等，解码器能够将待解码语料解码为文本类语言。

在一种可行的实施方式中，待解码语料通过解码器解码后，得到多条候选文本，每条候选文本有相应的初始分数，且每条候选文本均为分词后的文本，每条候选文本均包含句首符和句尾符，其中，句首符为<BOS>，句尾符为<EOS>。

在本实施方式中，上述待解码语料通过解码器解码后，得到多条候选文本，例如，一段音频流数据的待解码语料，经过解码器解码后，得到的3条候选文本和对应的初始分数如下所示：

(S1)<BOS>维语识别的是<EOS>

(S2)<BOS>维语识别的事<EOS>

(S3)<BOS>尾羽识别的是<EOS>

其中，S1、S2和S3为初始分数。

步骤S102：将所述多条候选文本分别输入原始语言模型，得到每条候选文本的原始分数。

在一种可行的实施方式中，上述步骤S102具体包括：

将所述多条候选文本分别输入原始语言模型，依次计算每条候选文本中每个词以及所述句尾符的概率，并根据每条候选文本中每个词以及句尾符的概率计算出每条候选文本的原始分数。

在这种实施方式中，将得到的多条候选文本分别输入原始语言模型，原始语言模型只能够利用前文信息，依次计算每条候选文本中每个词及句尾符的概率，再根据每条候选文本中每个词以及句尾符的概率计算出每条候选文本的原始分数，计算原始分数的公式为：

其中，G_old为原始分数，ω是将概率转换为权重的函数，Π是连乘符号，p(＜EOS＞)为句尾符＜EOS＞的概率，p(w_i)为每条候选文本中词的概率，i为每个词的排序序号，i和n均为正整数，例如：

若候选文本为：

<BOS>维语识别的是<EOS>

<BOS>维语识别的事<EOS>

<BOS>尾羽识别的是<EOS>

ω取ln函数，则每条候选文本的原始分数为：

G¹ _old＝ln[p(＜EOS＞)p(维语)p(识别)p(的)p(是)]

G² _old＝ln[p(＜EOS＞)p(维语)p(识别)p(的)p(事)]

G³ _old＝ln[p(＜EOS＞)p(尾羽)p(识别)p(的)p(是)]

步骤S103：将所述多条候选文本分别进行逆序处理，得到与所述多条候选文本相对应的多条逆序文本。

在一种可行的实施方式中，步骤S103具体包括：

例如：逆序排列前的候选文本为：<BOS>维语识别的是<EOS>

逆序排列后对应的逆序文本为：<EOS>是的识别维语<BOS>

步骤S104：将所述多条逆序文本分别输入反向NGram模型，得到每条候选文本的反向分数。

在一种可行的实施方式中，步骤S104可具体包括：

在这种实施方式中，反向NGram模型中的N为在计算词的概率时使用的词或者句首符或句尾符的总个数，其中，词的概率的计算公式为：

q(w_i)＝q(w_i|w_i+1，w_i+2)

其中，q(w_i)为词的正向概率，i为词或句首符的排序序号。

例如，若逆序文本为：<EOS>人中国是我<BOS>，反向NGram模型中，若N取值为3，则每个词的概率计算方式为：

q(人)＝q(人|＜EoS＞)

q(中国)＝q(中国|＜EOS＞，人)

q(是)＝q(是|人，中国)

q(我)＝q(我|中国，是)

q(＜BOS＞)＝q(＜BOS＞|是，我)

若逆序文本为：<EOS>方案技术的发明本<BOS>，反向NGram模型中，N取值为5，则每个词的概率计算方式为：

q(方案)＝q(方案|＜EOS＞)

q(技术)＝q(技术|＜EOS＞，方案)

q(的)＝q(的|＜EOS＞，方案，技术)

q(发明)＝q(发明|＜EOS＞，方案，技术，的)

q(本)＝q(本|方案，技术，的，发明)

q(＜BOS＞)＝q(＜BOS＞|技术，的，发明，本)

在本实施方式中，反向分数的计算公式为：

其中，G_new为反向分数，ω是将概率转换为权重的函数，Π是连乘符号，p(＜BOS＞)为句首符＜BOS＞的反向概率，p(w_i)为每条候选文本中词的反向概率，i为每个词的排序序号，i和n均为正整数，例如：

逆序文本为：

<EOS>是的识别维语<BOS>

<EOS>事的识别维语<BOS>

<EOS>是的识别尾羽<BOS>

ω取ln函数，其对应的反向分数计算方式为：

G¹ _new＝ln[q(＜BOS＞)q(维语)q(识别)q(的)q(是)]

G² _new＝ln[q(＜BOS＞)q(维语)q(识别)q(的)q(事)]

G³ _new＝ln[q(＜BOS＞)q(尾羽)q(识别)q(的)q(是)]

其中，若反向NGram模型中，N取值为3，则G¹ _new中，

q(＜BOS＞)＝q(＜BOS＞|识别，维语)

q(维语)＝q(维语|的，识别)

q(识别)＝q(识别|是，的)q(的)＝q(的|＜EOS＞，是)

q(是)＝q(是|＜EOS＞)

G² _new和G³ _new中的词和句首符的反向概率和上述例子类似，此处不再详细举例。

步骤S105：根据所述每条候选文本的原始分数和反向分数，对每条文本的所述初始分数进行更新，得到每条候选文本的更新分数。

在本实施方式中，通过原始分数和反向分数对每条文本的初始分数进行更新，得到每条候选文本的更新分数，采用的更新公式为：

S′＝S+λ(G_new-G_old)

其中，S′为更新分数，S为初始分数，λ为反向更新权重，取值在0-1之间，G_new为反向分数，G_old为原始分数。

如：取λ＝0.5

S′₁＝S₁+0.5(G¹ _new-G¹ _old)

S′₂＝S₂+0.5(G² _new-G² _old)

S′₃＝S₃+0.5(G³ _new-G³ _old)

步骤S106：根据每条候选文本的更新分数，将更新分数最高的候选文本确定为所述待解码语料的解码文本。

在这种实施方式中，将更新分数最高的候选文本确定为所述待解码语料的解码文本，进行输出。

在一种可行的实施方式中，所述方法还包括：

在这种实施方式中，通过采用多条逆序文本样本对待训练的反向NGram模型进行多轮训练，从而得到反向NGram模型，以便于对逆序文本进行处理，得到对应的反向分数，NGram模型是目前最快的语言模型，能够提高辅助解码的速度。

请参考图2，图2是本发明实施例中一种逆序文本样本的获取方法的步骤流程图，如图2所示，在一种可行的实施方式中，获取多条逆序文本样本，可包括以下步骤：

步骤S201：获取多条语料样本，对所述语料样本进行清洗，根据解码器中的词表，对多条清洗后的所述语料样本进行分词，得到多条分词后的文本样本。

在这种实施方式中，先获取多条语料样本，语料样本为文本类，对语料样本进行清洗，去除待训练的反向NGram模型无法识别的符号等，再以解码器中的词表为分词基础，对清洗后的语料样本进行分词，得到分词后的文本样本。

例如，清洗后的语料样本为:我是中国人

分词后的文本样本为：我是中国人

步骤S202：将每条所述分词后的文本样本，以词为单位，进行逆序排列，得到多条逆序后的文本样本。

在本实施方式中，将每条分词后的文本样本以词为单位进行逆序排列，得到多条逆序后的文本样本，例如：

分词后的文本样本为：我是中国人

逆序后的文本样本为：人中国是我

步骤S203：在每条所述逆序后的文本样本的两端添加句首符和句尾符，得到多条所述逆序文本样本。

在本实施方式中，在每条逆序后的文本样本的句首添加句首符，在每条逆序后的文本样本的句尾添加句尾符，其中，句首和句尾是以逆序前的语序来定义的，例如：

逆序后的文本样本为：人中国是我

添加句首符和句尾符的逆序文本样本为：<EOS>人中国是我<BOS>。

请参考图3，图3是本发明实施例中一种基于反向NGram的辅助解码装置的示意图，如图3所示，所述装置包括：

解码模块301，用于获取待解码语料，通过解码器对所述待解码语料进行解码，得到多条候选文本以及每条候选文本的初始分数；

原始评分模块302，用于将所述多条候选文本分别输入原始语言模型，得到每条候选文本的原始分数；

逆序模块303，用于将所述多条候选文本分别进行逆序处理，得到与所述多条候选文本相对应的多条逆序文本；

反向评分模块304，用于将所述多条逆序文本分别输入反向NGram模型，得到每条候选文本的反向分数；

分数更新模块305，用于根据所述每条候选文本的原始分数和反向分数，对每条文本的所述初始分数进行更新，得到每条候选文本的更新分数；

确定模块306，用于根据每条候选文本的更新分数，将更新分数最高的候选文本确定为所述待解码语料的解码文本。

可选地，所述装置还包括：

可选地，所述训练模块，包括：

所述反向评分模块，包括：

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种基于反向NGram的辅助解码方法、装置、电子设备及可读存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于反向NGram的辅助解码方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，获取多条逆序文本样本，包括：

4.根据权利要求1所述的方法，其特征在于，所述候选文本为分词后的文本，且每条所述候选文本均包含句首符和句尾符，将所述多条候选文本分别输入原始语言模型，得到每条候选文本的原始分数，包括：

5.根据权利要求4所述的方法，其特征在于，将所述多条候选文本分别进行逆序处理，得到与所述多条候选文本相对应的多条逆序文本，包括：

6.一种基于反向NGram的辅助解码装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述训练模块，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至5中任一项所述的基于反向NGram的辅助解码方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至5中任一项所述的基于反向NGram的辅助解码方法的步骤。