CN110930993B

CN110930993B - 特定领域语言模型生成方法及语音数据标注***

Info

Publication number: CN110930993B
Application number: CN201811099240.6A
Authority: CN
Inventors: 孙珏; 李洁琼; 邵鹏
Original assignee: NIO Anhui Holding Co Ltd
Current assignee: NIO Holding Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2023-07-25
Anticipated expiration: 2038-09-20
Also published as: CN110930993A

Abstract

本发明涉及一种特定领域语言模型生成方法，包括：基于第一文本集建立第一语言模型；基于第一语言模型来进行特定领域的语料扩展，以获得第二文本集；基于第二文本集建立第二语言模型；针对第一文本集和第二文本集的重合词元，将重合词元在第一语言模型上的词概率与其在第二语言模型上的词概率进行插值运算，以建立第三语言模型。这种方法集成了通用语言模型的适用广度，以及特定领域中对专业词汇的识别精度的特征，有利于提高新语言模型的识别准确度和应用普适性。

Description

特定领域语言模型生成方法及语音数据标注***

技术领域

本发明涉及语音识别技术领域，更具体地说，涉及一种特定领域语言模型生成方法以及一种语音数据标注***。

背景技术

在语音识别研究领域，语料资源的标注以及信息的校对工作一直是困扰研究人员的难题。因为这样的工作通常涉及繁琐的人力操作，而并没有太多的专业性要求。一种缩减标注工作量的做法是，先将语音数据由已有的语音识别***识别为文本，如果识别出的文本和原始文本一致，就认为该条标注通过质检。

然而，人类语言博大精深，不同专业领域的人甚至无法理解对方在说什么。当文本标注库中的内容是关于一些特定的细分领域时，用一个规范的通用语言模型来进行语音识别，识别效果会大打折扣，也就会出现真实标注正确而识别错误的情况，无法给标注质检工作提供有效参考。

发明内容

本发明的目的在于提供一种特定领域语言模型的生成方法。

为实现上述目的，本发明提供如下各种技术方案。

一种特定领域语言模型生成方法，包括：a)、基于第一文本集建立第一语言模型；b)、基于第一语言模型来进行特定领域的语料扩展，以获得第二文本集；c)、基于第二文本集建立第二语言模型；以及d)、针对第一文本集和第二文本集的重合词元，将重合词元在第一语言模型上的词概率与其在第二语言模型上的词概率进行插值运算，以建立第三语言模型。

可选地，步骤b)具体包括：利用第一语言模型分别计算第一文本集中的各句子的困惑度；从困惑度不低于困惑度阈值的句子中提取出至少一条专业词汇；利用专业词汇来进行特定领域的语料扩展。

可选地，步骤d)具体包括：基于重合词元在第一语言模型上的词概率与其在第二语言模型上的词概率进行线性插值；其中，线性插值的插值因子至少基于如下项其中之一确定：验证文本集中的至少一个句子在第三语言模型上的困惑度与在第一语言模型上的困惑度之间的差异；测试文本集中的至少一个句子在第一语言模型上的困惑度的统计信息。

本发明另外提供一种语音数据标注方法，包括：获取语音数据集以及对应的标注文本集；基于标注文本集建立原始语言模型；基于原始语言模型来进行特定领域的语料扩展，以获得特定领域文本集；基于特定领域文本集建立特定领域语言模型；以及针对标注文本集和特定领域文本集的重合词元，将重合词元在原始语言模型上的词概率与其在特定领域语言模型上的词概率进行插值运算，以建立融合语言模型；利用融合语言模型对语音数据集进行语音识别。

可选地，进行特定领域的语料扩展包括：利用原始语言模型分别计算标注文本集中的各句子的困惑度；从困惑度不低于困惑度阈值的句子中提取出至少一条专业词汇；以专业词汇进行句式扩展来得到特定领域文本集。

可选地，进行插值运算包括：基于重合词元在原始语言模型上的词概率与其在融合语言模型上的词概率进行线性插值；其中，线性插值的插值因子至少基于如下项其中之一确定：验证文本集中的至少一个句子在融合语言模型上的困惑度与在原始语言模型上的困惑度之间的差异；测试文本集中的至少一个句子在原始语言模型上的困惑度的统计信息。

本发明还提供一种语言模型生成***，包括：第一模型建立单元，其基于第一文本集建立第一语言模型；语料扩展单元，其基于第一语言模型来进行特定领域的语料扩展，以获得第二文本集；第二模型建立单元，其基于第二文本集建立第二语言模型；以及模型融合单元，其针对第一文本集和第二文本集的重合词元，将重合词元在第一语言模型上的词概率与其在第二语言模型上的词概率进行插值运算，以建立第三语言模型。

本发明提供的特定领域语言模型生成方法，集成了通用语言模型的适用广度，以及特定领域中对专业词汇的识别精度的特征，有利于提高新语言模型的识别准确度和应用普适性。此外，由于充分考虑了特定领域的专业词汇，本发明提供的语音数据标注方法能够有效提高语音标注效率，降低技术人员的工作负荷以及人为错误出现的概率。

附图说明

图1示出本发明第一实施例提供的特定领域语言模型生成方法的流程示意图。

图2示出本发明第二实施例提供的语音数据标注方法的流程示意图。

图3示出本发明第四实施例提供的语音数据标注***的模块结构示意图。

具体实施方式

在以下描述中提出具体细节，以便提供对本发明的透彻理解。然而，本领域的技术人员将清楚地知道，即使没有这些具体细节也可实施本发明的实施例。在本发明中，可进行具体的数字引用，例如“第一元件”、“第二装置”等。但是，具体数字引用不应当被理解为必须服从于其字面顺序，而是应被理解为“第一元件”与“第二元件”不同。

本发明所提出的具体细节只是示范性的，具体细节可以变化，但仍然落入本发明的精神和范围之内。术语“耦合”定义为表示直接连接到组件或者经由另一个组件而间接连接到组件。

以下通过参照附图来描述适于实现本发明的方法、***和装置的优选实施例。虽然各实施例是针对元件的单个组合来描述，但是应理解，本发明包括所公开元件的所有可能组合。因此，如果一个实施例包括元件A、B和C，而第二实施例包括元件B和D，则本发明也应被认为包括A、B、C或D的其他剩余组合，即使没有明确公开。

如图1所示，本发明第一实施例提供一种特定领域语言模型生成方法，其包括如下步骤S10-S12-S14-S16。

步骤S10、基于第一文本集建立第一语言模型。

在该步骤中，利用一种通用语言模型，例如，Base语言模型，来对第一文本集进行分词、训练。现有的一些通用语言模型往往是基于统计语言模型，其是一个单词序列上的概率分布，对于一个给定长度为m的序列，它可以为整个序列产生一个概率P(w₁,w₂,...,w_m)。其实就是试图为句子或序列找到一个概率分布，它可以表示任意一个句子或序列出现的概率，通常采用条件概率来表征当前序列的概率与之前出现的n个序列相关。

第一语言模型可以视为将第一文本集用来训练通用语言模型的结果，是通用语言模型的一种特例。经训练后，与第一文本集来自于同一数据源的其他文本集也将能够使用第一语言模型进行识别。

上述第一文本集可以对应于一段语音数据的文本内容、或对应于语音音频流的识别文本，作为示例，其可以是语音数据集对应的标注文本集，如以下第二实施例中具体描述。

步骤S12、基于第一语言模型来进行特定领域的语料扩展。

在该步骤中，利用通用语言模型对第一文本集进行分词，即切分句子得到多个词语，归纳并提取句子中的中心词汇形成为专业词汇。提取专业词汇的方法，可以是统计的方式，也可以借助估计句子PPL的方式。句子的PPL表征的是句子在语言模型上的困惑度，PPL越低，模型对语料的预测越准确，反之则越模糊或不准确。

作为示例，将第一语言模型定义为：

对应的PPL按如下公式来计算：

在以上公式的基础上，利用第一语言模型计算第一文本集中的各句子的困惑度，并将困惑度不低于阈值或困惑度最高(此时，可视为困惑度阈值为各句子困惑度的最大值)的(一个或多个)句子提取出来，从这一个或多个提取的句子中进一步筛选至少一条专业词汇，这些都是通用语言模型容易识别出错的词汇，例如，它们在人们的日常生活中很少出现，因而在训练样本中出现概率很低。在本发明中，将这些词汇确定为专业词汇，它们往往来源于一些特定领域。

需要说明的是，本发明中，术语“特定领域”并不限定于某一个具体的技术领域，而是，其和提取出的专业词汇密切相关。举例来说，专业词汇为“漂移”，相应的“特定领域”可确定为赛车相关领域；专业词汇为“单挑”，相应的“特定领域”为竞技游戏相关领域。

在确定专业词汇之后，可以进行特定领域的语料扩展，以力图扩大识别该特定领域的文本所需的训练样本。特定领域的语料往往局限于一个狭小的范围，训练数据稀疏不足，从而无法训练完备的一个语言模型，因此，采用基于中心词来进行句子扩展的方式。基于中心词的语料扩展方法为：从现有的第一文本集中提取出专业词汇(待扩展的中心词)后，同时归纳出包含中心词的一些固定句式，例如：标注句子为“导航去XXX区”，其中“XXX区”为中心词，前后文相关的行为是“导航去”。用此句式扩展其他中心词，可得到一系列句子：导航去XXX/YYY/ZZZ，这些句子的组合构成第二文本集。通过中心词和不同句式进行组合，特定领域的文本语料可获得指数级增长。

步骤S14、基于第二文本集建立第二语言模型。

在该步骤S14之前已获得第二文本集，其包含了特定领域的文本语料。在文本语料足够的情况下，或者为了加强对该特定领域的词汇或句子的识别准确度，可以采用第二文本集的一部分(子集)来建立并训练第二语言模型，并利用第二文本集的另一部分来验证第二语言模型的识别结果。这种情况下，第二语言模型对该特定领域的词汇具有较高的识别准确度。

语言模型的训练过程为，对训练用句子首先作分词，用空格隔开每个单词，以此形成一批训练语料，使用训练工具作训练，得到输出的语言模型。训练语言模型可以采用一种现有的语言模型训练工具，例如，Srilm。

备选地，在建立第二语言模型时，不仅基于第二文本集，还基于第一文本集的至少一部分。在第二文本集并不足够庞大时，或者，在后续识别过程中发现有可能将普通词汇误识别为专业词汇，这时，则可选择利用第二文本集和第一文本集的部分或全部来合并形成一个合并文本集。随后，以合并文本集来建立并训练第二语言模型。这种情况下，第二语言模型既考虑了对普通词汇的识别，也考虑了对特定领域词汇的识别。

步骤S16、将重合词元在第一语言模型上的词概率与其在第二语言模型上的词概率进行插值运算。

虽然上面获得了第二语言模型，但是本发明并非试图将第二语言模型直接用于语音识别或语音标注，而是，对第一语言模型和第二语言模型进行插值运算，以生成第三语言模型。

具体来说，针对第一文本集和第二文本集的每个重合词元，将该重合词元在第一语言模型上的词概率与其在第二语言模型上的词概率进行线性插值，得到重合词元的插值后词概率。基于各个重合词元的插值后词概率和那些非重合词元在第一语言模型上或在第二语言模型上的词概率就可以形成第三语言模型。

线性插值可以按照如下公式来计算：

其中，P_static表示重合词元在第一语言模型上的词概率，P_cache表示重合词元在第二语言模型上的词概率。λ为插值过程中的融合参数。

为选择融合参数，可以设定测试文本集匹配的验证文本集，测试文本集与验证文本集都可来源于第一文本集、或者来源于第一文本集的数据源，观察验证文本集在融合前后的语言模型上的PPL的变化来确定融合参数λ。作为示例，可以基于验证文本集中的(一个或多个)句子在第三语言模型上的困惑度与这些句子在第一语言模型上的困惑度之差来确定融合参数λ。在具体实现时，可以为融合参数λ选择一个经验值，观察验证文本集中的(一个或多个)句子在融合后、在第三语言模型上的困惑度是否变小，若变小，则进一步减小λ(即，使得第二语言模型的权重增加)，再次观察融合后的验证文本集中的句子在第三语言模型上的困惑度是否变小，持续上述试探性的步骤，直到发现该困惑度的值不再变小时停止，这时对应的融合参数λ才是最终设定的融合参数。

备选地，也可以使用多份测试样本(来自于测试文本集)在第一语言模型上的PPL值来计算得出融合参数λ。作为一种示例，提取测试文本集中的多个句子，分别求取它们在第一语言模型上的PPL值，对这些PPL值求取均值，将该均值与PPL阈值之差设定为融合参数λ。作为另一示例，求取测试文本集中的多个句子在第一语言模型上的PPL值的方差，将该方差直接设定为融合参数λ。优选情况下，设定的融合参数λ可以进行自适应的调节，调节的目的是为了使验证文本集或测试文本集中的句子在第三语言模型上的困惑度为最小。

语言模型训练工具包Srilm中有如下工具，可以确定融合参数λ:compute-best-mix lambda＝"0.4,0.4,0.1,0.1"A_corpus.pplB_corpus.ppl C_corpus.pplD_corpus.ppl。

上述第一实施例提供的特定领域语言模型生成方法，对重合词元的概率进行插值运算，以使得验证样本在新生成的语言模型上的困惑度变小。这种方法集成了通用语言模型的适用广度，以及特定领域中对专业词汇的识别精度的特征，有利于提高新语言模型的识别准确度和应用普适性。

本发明第二实施例提供一种语音数据标注方法，其包括步骤S21-S26，如图2所示。

步骤S21、获取语音数据集以及与之对应的标注文本集。

步骤S22、基于标注文本集建立原始语言模型。

步骤S23、基于原始语言模型来进行特定领域的语料扩展，以获得特定领域文本集。

具体来说，语料扩展可以按照如下方式来执行：首先，利用原始语言模型分别计算标注文本集中的各句子的困惑度；其次，从困惑度不低于困惑度阈值的句子中提取出至少一条专业词汇；再次，以专业词汇进行句式扩展来得到特定领域文本集。

步骤S24、基于特定领域文本集建立特定领域语言模型。

步骤S25、针对标注文本集和特定领域文本集的重合词元，将重合词元在原始语言模型上的词概率与其在特定领域语言模型上的词概率进行插值运算，以建立融合语言模型。

步骤S26、利用融合语言模型对语音数据集进行语音识别。

作为示例，插值运算可以实现为一种线性插值的方式，例如，基于重合词元在原始语言模型上的词概率与其在融合语言模型上的词概率来进行线性插值。线性插值的插值因子即对应于上述第一实施例在插值过程中采用的融合参数λ。插值因子可以根据验证文本集中的至少一个句子在融合语言模型上的困惑度与在原始语言模型上的困惑度之间的差异来经试探性的方式而确定(第一方式)，也可以根据测试文本集中的至少一个句子在原始语言模型上的困惑度的统计信息来计算(第二方式)。优选情况下，插值因子先经第二方式确定一个初始值，再经第一方式进行自适应调节。

在上述步骤S26之后，语音识别的结果可以进一步用来对标注文本集进行质检。识别出的结果与标注文本集作对照，如果结果一致，则直接跳过该条标注的校对，如果有差异，则反馈给质检人员，由质检人员只做这部分标注的检查。这种方式可以大幅提高质检效率，还能有效地避免语音识别***本身的不足导致校对标注的错误。

应理解，在本发明所公开实施例的基础上，本领域技术人员有可能对上述第一实施例及第二实施例中的各个步骤进行简单组合、拆分、省略或以不同的顺序来执行，均应落入本发明的范围。

根据本发明的一些实施例，提供一种计算机可读存储介质，其上存储有一批机器可执行指令，这些机器可执行指令在由处理器执行时，将实现第一实施例或第二实施例所提供的方法。

根据本发明的一些实施例，还提供一种计算机控制设备，其包括存储器和处理器，其中，存储器上存储有计算机程序，处理器在执行该计算机程序时能够实现第一或第二实施例提供的方法。应理解到，存储器与处理器可以是独立的两个器件，彼此之间是电性连接的，从而处理器在工作时可以从存储器获得程序并运行程序。备选地，在一些示例中，存储器可以是处理器的一部分，也就是说处理器本身自带存储部。

本发明第三实施例提供一种语言模型生成***(附图未示出)，语言模型生成***包括第一模型建立单元、语料扩展单元、第二模型建立单元和模型融合单元。

其中，第一模型建立单元基于第一文本集来建立原始的第一语言模型。语料扩展单元与第一模型建立单元耦合，其基于第一语言模型来进行特定领域的语料扩展，以获得第二文本集。第二模型建立单元与语料扩展单元耦合，其基于第二文本集建立第二语言模型。

模型融合单元作为该***的核心单元与第一模型建立单元、第二模型建立单元分别耦合，其针对第一文本集和第二文本集之间的重合词元，将其在第一语言模型上的词概率与其在第二语言模型上的词概率进行插值运算，最终形成第三语言模型。由于充分考虑了特定领域的专业词汇，第三语言模型可以更准确地识别各种复杂的语音数据。

本发明第四实施例提供一种语音数据标注***，如图3所示，该语音数据标注***包括第一模型建立单元301、语料扩展单元302、第二模型建立单元303、模型融合单元304以及标注质检单元305。

第一模型建立单元301从外部数据源获得语音数据集以及对应的标注文本集，并基于标注文本集建立原始语言模型。

语料扩展单元302与第一模型建立单元301相耦合，其基于原始语言模型来进行特定领域的语料扩展，以获得特定领域文本集。语料扩展单元302也可以与外部数据源通信，以获得额外的关于特定领域的样本语音及对应的标注文本。

第二模型建立单元303与语料扩展单元302耦合，优选地，还与第一模型建立单元301耦合，其基于特定领域文本集，可选地还使用部分标注文本集，来建立特定领域语言模型。

模型融合单元304与第一模型建立单元301、第二模型建立单元303分别耦合，其针对标注文本集和特定领域文本集的重合词元，将该重合词元在原始语言模型上的词概率与其在特定领域语言模型上的词概率进行插值运算，以建立新的融合语言模型。其中，插值算法可以按照上述第一实施例中提供的线性插值。

标注质检单元305利用融合语言模型对语音数据集进行语音识别，并根据语音识别的结果来校订语音数据集所包含的标注文本集。标注质检单元305的输出还可以直接反馈到外部数据源中，从而改变标注文本集。

在本发明的一些实施例中，***的至少一部分可采用通信网络所连接的一组分布式计算装置来实现，或，基于“云”来实现。在这种***中，多个计算装置共同操作，以通过使用其共享资源来提供服务。

基于“云”的实现可提供一个或多个优点，包括：开放性、灵活性和可扩展性、可中心管理、可靠性、可缩放性、对计算资源所优化、具有聚合和分析跨多个用户的信息的能力、跨多个地理区域进行连接、以及将多个移动或数据网络运营商用于网络连通性的能力。

本发明还提供语音对话***，其执行上述第一实施例提供的特定领域语言模型生成方法，或者包括上述第三实施例提供的语言模型生成***。语音对话***在识别用户语音的基础上，还能够与用户进行对话、或响应用户指令来启动对其他设备的控制。备选地，一种语音对话***用于进行语音识别及语音标注，其能够执行第二实施例提供的语音数据标注方法，或包括第四实施例提供的语音数据标注***。本申请所提到的语音对话***可被用在智能机器人中，例如应用在车辆中语音交互装置、AI机器人等。

上述说明仅针对于本发明的优选实施例，并不在于限制本发明的保护范围。本领域技术人员可能作出各种变形设计，而不脱离本发明的思想及附随的权利要求。

Claims

1.一种特定领域语言模型生成方法，包括：

a)、基于第一文本集建立第一语言模型；

b)、基于所述第一语言模型来进行特定领域的语料扩展，以获得第二文本集；

c)、基于所述第二文本集建立第二语言模型；以及

d)、针对所述第一文本集和所述第二文本集的重合词元，将所述重合词元在所述第一语言模型上的词概率与其在所述第二语言模型上的词概率进行线性插值，以建立第三语言模型，所述线性插值的插值因子至少基于如下项其中之一确定：

验证文本集中的至少一个句子在所述第三语言模型上的困惑度与在所述第一语言模型上的困惑度之间的差异；

测试文本集中的至少一个句子在所述第一语言模型上的困惑度的统计信息。

2.根据权利要求1所述的方法，其特征在于，步骤a)具体包括：

利用一种通用语言模型对所述第一文本集中的句子进行分词。

3.根据权利要求1所述的方法，其特征在于，步骤b)具体包括：

利用所述第一语言模型分别计算所述第一文本集中的各句子的困惑度；

从困惑度不低于困惑度阈值的句子中提取出至少一条专业词汇；

利用所述专业词汇来进行所述特定领域的语料扩展。

4.根据权利要求1所述的方法，其特征在于，步骤c)具体包括：

将所述第一文本集的至少一部分和所述第二文本集合并，以生成合并文本集；

利用所述合并文本集来建立并训练所述第二语言模型。

5.一种语音数据标注方法，包括：

获取语音数据集以及对应的标注文本集；

基于所述标注文本集建立原始语言模型；

基于所述原始语言模型来进行特定领域的语料扩展，以获得特定领域文本集；

基于所述特定领域文本集建立特定领域语言模型；以及

针对所述标注文本集和所述特定领域文本集的重合词元，将所述重合词元在所述原始语言模型上的词概率与其在所述特定领域语言模型上的词概率进行线性插值，以建立融合语言模型；

利用所述融合语言模型对所述语音数据集进行语音识别，

其中，所述线性插值的插值因子至少基于如下项其中之一确定：

验证文本集中的至少一个句子在所述融合语言模型上的困惑度与在所述原始语言模型上的困惑度之间的差异；

测试文本集中的至少一个句子在所述原始语言模型上的困惑度的统计信息。

6.根据权利要求5所述的方法，其特征在于，所述进行特定领域的语料扩展包括：

利用所述原始语言模型分别计算所述标注文本集中的各句子的困惑度；

以所述专业词汇进行句式扩展来得到所述特定领域文本集。

7.根据权利要求5或6所述的方法，还包括：基于语音识别的结果来校订所述标注文本集。

8.一种计算机可读存储介质，其上存储有一批机器可执行指令，其中，所述机器可执行指令在由处理器执行时，将实现权利要求1-4中任一项所述的方法的步骤。

9.一种计算机控制设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的方法。

10.一种语言模型生成***，包括：

第一模型建立单元，其基于第一文本集建立第一语言模型；

语料扩展单元，其基于所述第一语言模型来进行特定领域的语料扩展，以获得第二文本集；

第二模型建立单元，其基于所述第二文本集建立第二语言模型；以及

模型融合单元，其针对所述第一文本集和所述第二文本集的重合词元，将所述重合词元在所述第一语言模型上的词概率与其在所述第二语言模型上的词概率进行线性插值，以建立第三语言模型，所述线性插值的插值因子至少基于如下项其中之一确定：

11.一种语音数据标注***，包括：

如权利要求10所述的***，用于从语音数据集对应的标注文本集来建立融合语言模型；

标注质检单元，其利用所述融合语言模型对所述语音数据集进行语音识别，并根据语音识别的结果来校订所述标注文本集。

12.一种语音对话***，其设置为执行如权利要求1到4中任意一项所述的特定领域语言模型生成方法和/或包括如权利要求10所述的语言模型生成***。

13.一种语音对话***，其设置为执行如权利要求5到7中任意一项所述的语音数据标注方法和/或包括如权利要求11所述的语音数据标注***。