WO2021031505A1

WO2021031505A1 - 音频标注的检错方法、装置、计算机设备和存储介质

Info

Publication number: WO2021031505A1
Application number: PCT/CN2019/130444
Authority: WO
Inventors: 付嘉懿; 石真
Original assignee: 深圳追一科技有限公司
Priority date: 2019-08-22
Filing date: 2019-12-31
Publication date: 2021-02-25
Also published as: CN110532522A

Abstract

一种音频标注的检错方法、装置、计算机设备和存储介质。所述方法包括：获取标注人员对音频数据进行标注后得到的标注文本(101)；对所述标注文本进行检错，当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时，生成检错信息(102)；对所述检错信息进行输出(103)。终端在标注人员对音频数据标注的过程中，如果检测到标注文本出现错误则生成检错信息，可以实时提醒标注人员，以便标注人员及时改正，因此提高了标注质量。

Description

音频标注的检错方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2019年08月22日提交中国专利局，申请号为2019107773431，申请名称为“音频标注的检错方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本发明中。

技术领域

本申请涉及文本处理技术领域，特别是涉及一种音频标注的检错方法、装置、计算机设备和存储介质。

背景技术

随着科技的发展，自动语音识别(Automatic Speech Recognition，ASR)技术逐渐应用到各个领域中。例如，在机器人客服与用户交互时，机器人客服接收用户输入的语音，采用深度学习模型将音频数据转换为文本数据，然后再对文本数据进行处理。

通常情况下，需要大量的训练样本才能训练出深度学习模型，而训练样本一般是由标注人员对音频数据进行文本标注，建立音频数据和文本数据之间的对应关系得到的。

但是，标注人员每天需要处理大量的音频数据，从事反复枯燥的标注工作容易出现标注错误的情况。即使有审核人员对标注结果进行审核，也有可能得到错误的训练样本，使得训练出的深度学习模型不够准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高标注质量的音频标注的检错方法、装置、计算机设备和存储介质。

第一方面，本发明实施例提供了一种音频标注的检错方法，该方法包括：

获取标注人员对音频数据进行标注后得到的标注文本；

对标注文本进行检错，当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时，生成检错信息；

对检错信息进行输出。

在其中一个实施例中，上述当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时，生成检错信息，包括：

对标注文本进行分词，得到标注文本包括的多个词语；

在预先建立的正确词表中分别查找标注文本包括的各个词语；

当通过查找确定标注文本包括的多个词语中存在错误词语时，基于错误词语生成检错信息；错误词语为未记录于正确词表中的词语。

在其中一个实施例中，上述基于错误词语生成检错信息，包括：

在正确词表中查找多个参考词语；参考词语与错误词语的编辑距离在预设编辑距离内，编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种；

生成包含多个参考词语的检错信息。

将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中，得到神经网络检错模型输出的第一词语序列对应的概率信息；概率信息用于指示词语序列正确的概率；

若第一词语序列对应的概率信息低于预设概率值，则生成检错信息。

在其中一个实施例中，上述若第一词语序列对应的概率信息低于预设概率值，则生成检错信息，包括：

在第一词语序列对应的概率信息低于预设概率值时，分别采用多个参考词语替换错误词语，得到多个第二词语序列；

分别将多个第二词语序列输入到神经网络检错模型中，得到各第二词语序列对应的概率信息；

根据参考词语与第二词语序列的对应关系和各第二词语序列对应的概率信息，生成包含多个参考词语的检错信息。

在其中一个实施例中，在上述得到神经网络检错模型输出的第一词语序列对应的概率信息之后，该方法还包括:

若第一词语序列对应的概率信息不低于预设概率值，则停止输出检错信息，并将错误词语添加到正确词表中。

通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列，得到与第一词语序列匹配的搜索结果；

若搜索结果的数量小于预设数量，则生成检错信息。

在其中一个实施例中，上述若搜索结果的数量小于预设数量，则生成检错信息，包括：

在搜索结果的数量小于预设数量时，从第一词语序列中删除错误词语，得到第三词语序列；

通过搜索引擎搜索第三词语序列，得到多个与第三词语序列同时出现的共现词语；

生成包含多个共现词语的检错信息。

在其中一个实施例中，在上述得到与第一词语序列匹配的搜索结果之后，该方法还包括：

若搜索结果的数量不小于预设数量，则停止输出检错信息，并将错误词语添加到正确词表中。

第二方面，本发明实施例提供了一种音频标注的检错装置，该装置包括：

标注文本获取模块，用于获取标注人员对音频数据进行标注后得到的标注文本；

检错模块，用于对标注文本进行检错，当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时，生成检错信息；

检错信息输出模块，用于对检错信息进行输出。

在其中一个实施例中，上述检错模块包括：

分词子模块，用于对标注文本进行分词，得到标注文本包括的多个词语；

词语查找子模块，用于在预先建立的正确词表中分别查找标注文本包括的各个词语；

第一检错信息生成子模块，用于当通过查找确定标注文本包括的多个词语中存在错误词语时，基于错误词语生成检错信息；错误词语为未记录于正确词表中的词语。

在其中一个实施例中，上述第一检错信息生成子模块，具体用于在正确词表中查找多个参考词语；参考词语与错误词语的编辑距离在预设编辑距离内，编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种；生成包含多个参考词语的检错信息。

在其中一个实施例中，上述检错模块包括：

概率信息输出子模块，用于将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中，得到神经网络检错模型输出的第一词语序列对应的概率信息；概率信息用于指示词语序列正确的概率；

第二检错信息生成子模块，用于若第一词语序列对应的概率信息低于预设概率值，则生成检错信息。

在其中一个实施例中，上述第二检错信息生成子模块，具体用于在第一词语序列对应的概率信息低于预设概率值时，分别采用多个参考词语替换错误词语，得到多个第二词语序列；分别将多个第二词语序列输入到神经网络检错模型中，得到各第二词语序列对应的概率信息；根据参考词语与第二词语序列的对应关系和各第二词语序列对应的概率信息，生成包含多个参考词语的检错信息。

在其中一个实施例中，该装置还包括:

第一停止输出模块，用于若第一词语序列对应的概率信息不低于预设概率值，则停止输出检错信息，并将错误词语添加到正确词表中。

在其中一个实施例中，上述检错模块包括：

搜索子模块，用于通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列，得到与第一词语序列匹配的搜索结果；

第三检错信息生成子模块，用于若搜索结果的数量小于预设数量，则生成检错信息。

在其中一个实施例中，上述第三检错信息生成子模块，具体用于在搜索结果的数量小于预设数量时，从第一词语序列中删除错误词语，得到第三词语序列；通过搜索引擎搜索第三词语序列，得到多个与第三词语序列同时出现的共现词语；生成包含多个共现词语的检错信息。

在其中一个实施例中，该装置还包括：

第二停止输出模块，用于若搜索结果的数量不小于预设数量，则停止输出检错信息，并将错误词语添加到正确词表中。

第三方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述方法中的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法中的步骤。

上述音频标注的检错方法、装置、计算机设备和存储介质，获取标注人员对音频数据进行标注后得到的标注文本；对标注文本进行检错，当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时，生成检错信息；对检错信息进行输出。通过本发明实施例，终端在标注人员对音频数据标注的过程中，对标注文本进行检错，如果出现错误则生成检错信息并提示标注人员，以便标注人员可以及时改正，从而提高了标注质量，进而提高了训练样本的质量。

附图说明

图1为一个实施例中音频标注的检错方法的应用环境图；

图2为一个实施例中音频标注的检错方法的流程示意图；

图3为一个实施例中当通过检错确定标注文本中出现错误时，生成检错信息步骤的流程示意图之一；

图4为一个实施例中当通过检错确定标注文本中出现错误时，生成检错信息步骤的流程示意图之二；

图5为一个实施例中当通过检错确定标注文本中出现错误时，生成检错信息步骤的流程示意图之三；

图6为另一个实施例中音频标注的检错方法的流程示意图；

图7为一个实施例中音频标注的检错装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施例方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请提供的音频标注的检错方法，可以应用于如图1所示的应用环境中。该应用环境包括终端01，标注人员通过终端01对音频数据进行标注。其中，终端01可以但不限于是各种个人计算机、笔记本电脑、智能衣服、平板电脑和便携式可穿戴设备。

在一个实施例中，如图2所示，提供了一种音频标注的检错方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤101，获取标注人员对音频数据进行标注后得到的标注文本。

本实施例中，标注人员对音频数据进行标注时，向终端中输入与音频数据对应的标注文本。具体地，终端检测到标注人员在文本框中输入标注文本，如果标注文本超过预设时长没有变化，则确定这段音频数据标注完成。

例如，标注人员在文本框中输入“它的衣服不见了”，这段标注文本超出500毫秒未发生变化，则得到与音频数据的对应的标注文本“它的衣服不见了”。本发明实施例对预设时长不作详细限定，可以根据实际情况进行设置。

步骤102，对标注文本进行检错，当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时，生成检错信息。

本实施例中，在获取到标注文本后，对标注文本进行检错。具体地，检查标注文本中是否有词语、语句出现错误。如果标注文本中的词语出现错误，或者标注文本中的语句出现错误，或者标注文本中的词语和语句均出现错误，则生成检错信息。

例如，获取到的标注文本为“它的衣服不见了”，对该标注文本进行检错，发现“它的”这个词语出现错误，则基于“它的”生成检错信息。其中，检错信息可以是提示将“它的”更换为“他的”或者“她的”。

步骤103，对检错信息进行输出。

本实施例中，在生成检错信息后，输出检错信息，以便在标注人员的标注过程中实时提醒标注人员。例如，在终端上显示“他的”和“她的”，以提示标注人员“它的”出现错误。本发明实施例对显示方式不作详细限定，可以根据实际情况进行设置。

上述音频标注的检错方法中，获取标注人员对音频数据进行标注后得到的标注文本；对标注文本进行检错，当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时，生成检错信息；对检错信息进行输出。通过本发明实施例，终端在标注人员对音频数据标注的过程中，对标注文本进行检错，如果出现错误则生成检错信息并提示标注人员，以便标注人员可以及时改正，从而提高了标注质量，进而提高了训练样本的质量。

在另一个实施例中，如图3所示，本实施例涉及的是当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时，生成检错信息的一种可选的过程。在上述图2所示实施例的基础上，上述步骤102具体可以包括以下步骤：

步骤201，对标注文本进行分词，得到标注文本包括的多个词语。

本实施例中，在对标注文本进行检错时，可以先对标注文本进行分词，得到标注文本包括的多个词语。例如，将“它的衣服不见了”分成“它的、衣服、不、见、了”。本发明实施例对分词方式不作详细限定，可以根据实际情况进行设置。

步骤202，在预先建立的正确词表中分别查找标注文本包括的各个词语。

本实施例中，在终端中可以预先设置语料库，语料库中存储有大量的语句、词语、词组等。在进行检错前，终端根据语料库建立正确词表。然后，在检错过程中，终端在对标注文本进行分词完毕后，从正确词表中查找标注文本包括的各个词语。例如，从正确词表中分别查找“它的”、“衣服”、“不”、“见”、“了”。

步骤203，当通过查找确定标注文本包括的多个词语中存在错误词语时，基于错误词语生成检错信息；错误词语为未记录于正确词表中的词语。

本实施例中，如果在正确词表中未查找到词语，则确定该词语为错误词语；然后，根据错误词语生成检错信息。例如，在正确词表中未查找到“它的”，则“它的”为错误词语，根据“它的”生成检错信息。

可选地，基于错误词语生成检错信息的步骤可以包括：在正确词表中查找多个参考词语；参考词语与错误词语的编辑距离在预设编辑距离内，编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种；生成包含多个参考词语的检错信息。

具体地，计算正确词表中各个词语与错误词语之间的编辑距离，如果一个词语与错误词语的编辑距离在预设编辑距离内，则将该词语确定为参考词语；如果多个词语与错误词语的编辑距离均在预设编辑距离内，则将多个词语均确定为参考词语。例如，预设编辑距离为3，错误词语为“它的”，正确词表中的“他的”与错误词语“它的”的编辑距离为1，则将“他的”确定为参考词语；正确词表中的“她的”与错误词语“它的”的编辑距离也为1，则将“她的”也确定为参考词语。得到参考词语后，生成包含多个参考词语的检错信息。例如，得到参考词语“他的”“她的”后，生成的检错信息包括“他的”“她的”。

或者，计算正确词表中各个词语与错误词语之间的编辑距离，根据编辑距离的大小对词表中的词语进行排序，选取编辑距离较小的预设个数的词语作为参考词语。例如，错误词语为“它的”，正确词表中“他的”和“她的”与错误词语“它的”之间的编辑距离均为1，正确词表中的“他们的”与错误词语“它的”之间的编辑距离为2；按照编辑距离的大小对“他的”、“她的”和“他们的”进行排序，从“他的”、“她的”和“他们的”中选取2个词语作为参考词语，则将“他的”、“她的”作为参考词语；从“他的”、“她的”和“他们的”中选取3个词语作为参考词语，则将“他的”、“她的”和“他们的”均作为参考词语。在得到参考词语后，生成包含多个参考词语的检错信息。例如，得到“他的”“她的”为参考词语后，生成的检错信息包括“他的”“她的”。

上述当确定标注文本出现错误时，生成检错信息的步骤中，对标注文本进行分词，得到标注文本包括的多个词语；在预先建立的正确词表中分别查找标注文本包括的各个词语；当通过查找确定标注文本包括的多个词语中存在错误词语时，基于错误词语生成检错信息；错误词语为未记录于正确词表中的词语。本发明实施例中，通过预先建立的正确词表确定标注文本中的错误词语，并根据正确词表确定参考词语，然后生成包括参考词语的检错信息。由于正确词表中包括了大量常用词语，可以使检错比较容易实现，并且还提供了可对错误词语进行替换的参考词语，如果标注人员对标注文本进行改正，也很容易操作。

在另一个实施例中，如图4所示，本实施例涉及的是当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时，生成检错信息的一种可选的过程。在上述图3所示实施例的基础上，还可以包括以下步骤：

步骤301，将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中，得到神经网络检错模型输出的第一词语序列对应的概率信息；概率信息用于指示词语序列正确的概率。

本实施例中，在生成包括多个参考词语的检错信息后，输出检错信息。如果标注人员并没有根据检错信息修改标注文本，则将第一词语序列输入到预先训练的神经网络检错模型，其中第一词语序列由标注文本包括的多个词语组成。之后，神经网络检错模型输出第一词语序列对应的概率信息，即输出第一词语序列正确的概率。

例如，将第一词语序列“它的、衣服、不、见、了”输入到神经网络检错模型中，神经网络检错模型输出第一词语序列对应的概率信息为0.93。其中，神经网络检错模型可以是双向循环神经网络(Bi-RNN)模型，本发明实施例对此不作详细限定，可以根据实际情况进行设置。

在得到第一词语序列的概率信息后，如果第一词语序列对应的概率信息低于预设概率值，则执行步骤302，如果第一词语序列对应的概率信息不低于预设概率值，则执行步骤303。

步骤302，若第一词语序列对应的概率信息低于预设概率值，则生成检错信息。

本实施例中，如果第一词语序列对应的概率信息低于预设概率值，则表明第一词语序列正确的概率较低。例如，第一词语序列“它的、衣服、不、见、了”对应的概率信息为0.93，低于预设概率值0.96，确定第一词语序列正确的概率较低。也即是说，标注人员未对标注文本进行修改，标注文本包括的多个词语中仍然存在错误，需要生成检错信息。

可选地，生成检错信息的步骤可以包括：在第一词语序列对应的概率信息低于预设概率值时，分别采用多个参考词语替换错误词语，得到多个第二词语序列；分别将多个第二词语序列输入到神经网络检错模型中，得到各第二词语序列对应的概率信息；根据参考词语与第二词语序列的对应关系和各第二词语序列对应的概率信息，生成包含多个参考词语的检错信息。

例如，第一词语序列“它的、衣服、不、见、了”对应的概率信息为0.93，低于预设概率值0.96，参考词语为“他的”和“她的”，则用“他的”替换“它的”得到一个第二词语序列“他的、衣服、不、见、了”，用“她的”替换“它的”得到另一个第二词语序列“她的、衣服、不、见、了”。然后，将“他的、衣服、不、见、了”输入到神经网络检错模型中，得到第二词语序列“他的、衣服、不、见、了”对应的概率信息为0.97；将 “她的、衣服、不、见、了”输入到神经网络检错模型中，得到第二词语序列“她的、衣服、不、见、了”对应的概率信息为0.98。根据概率信息的大小对两个第二词语序列进行排序，由于参考词语与第二词语序列具有对应关系，则对两个第二词语序列进行排序后，得到参考词语的顺序为“她的”和“他的”。最后，生成检错信息“她的”和“他的”。

步骤303，若第一词语序列对应的概率信息不低于预设概率值，则停止输出检错信息，并将错误词语添加到正确词表中。

本实施例中，如果第一词语序列对应的概率信息不低于预设概率值，表明第一词语序列正确的概率较高，也就是说标注人员未对标注文本进行修改的操作是正确的。此时，停止输出检错信息，并将错误词语添加到正确词表中。

例如，第一词语序列对应的概率信息为0.98，不低于预设概率值0.96，则停止输出检错信息“他的”和“她的”，并将错误词语“它的”添加到正确词表中，以便后续可以在正确词表中查找到词语“它的”。

上述当确定标注文本出现错误时，生成检错信息的步骤中，将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中，得到神经网络检错模型输出的第一词语序列对应的概率信息；若第一词语序列对应的概率信息低于预设概率值，则生成检错信息；若第一词语序列对应的概率信息不低于预设概率值，则停止输出检错信息，并将错误词语添加到正确词表中。通过本发明实施例，在根据正确词表得到错误词语和参考词语后，如果标注人员未对标注文本进行修改，则采用神经网络检错模型对标注文本再次进行检错，采用两级检错，可以提高检错的准确率，从而使标注文本更加准确。

在另一个实施例中，如图5所示，本实施例涉及的是当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时，生成检错信息的一种可选的过程。在上述图3所示实施例的基础上，还可以包括以下步骤：

步骤401，通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列，得到与第一词语序列匹配的搜索结果。

本实施例中，在生成包括多个参考词语的检错信息后，输出检错信息。如果标注人员并没有根据检错信息修改标注文本，可以通过搜索引擎搜索第一词语序列，其中第一词语序列是由标注文本包括的多个词语组成的。搜索引擎搜索出与第一词语序列完全匹配的搜索结果。

例如，通过搜索引擎搜索第一词语序列“它的、衣服、不、见、了”，得到完全匹配的搜索结果。本发明实施例对搜索引擎不作详细限定，可以根据实际情况进行设置。

如果搜索结果的数量小于预设数量，则执行步骤402；如果搜索结果的数量不小于预设数量，则执行步骤403。

步骤402，若搜索结果的数量小于预设数量，则生成检错信息。

本实施例中，如果搜索结果的数量小于预设数量，说明第一词语序列正确的概率较低，则生成检错信息。

可选地，生成检错信息的步骤可以包括：在搜索结果的数量小于预设数量时，从第一词语序列中删除错误词语，得到第三词语序列；通过搜索引擎搜索第三词语序列，得到多个与第三词语序列同时出现的共现词语；生成包含多个共现词语的检错信息。

例如，搜索结果的数量为30，小于预设数量50，则从第一词语序列中删除“它的”，得到第三词语序列“衣服、不、见、了”；然后通过搜索引擎搜索“衣服、不、见、了”，得到与“衣服、不、见、了”同时出现的共现词语“他的”、“她的”、“他们的”等，则生成包含“他的”、“她的”、“他们的”的检错信息。

步骤403，若搜索结果的数量不小于预设数量，则停止输出检错信息，并将错误词语添加到正确词表中。

本实施例中，如果搜索结果的数量不小于预设数量，表明第一词语序列正确的概率较高，此时停止输出检错信息，并将错误词语添加到正确词表中。例如，停止输出包含“他的”“她的”的检错信息，并将“它的”添加到正确词表中。

上述当确定标注文本出现错误时，通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列，得到与第一词语序列匹配的搜索结果；若搜索结果的数量小于预设数量，则生成检错信息；若搜索结果的数量不小于预设数量，则停止输出检错信息，并将错误词语添加到正确词表中。通过本发明实施例，在根据正确词表得到错误词语和参考词语后，如果标注人员未对标注文本进行修改，则采搜索引擎对标注文本再次进行检错，采用两级检错，可以提高检错的准确率，从而使标注文本更加准确。

在另一个实施例中，如图6所示，本实施例涉及的音频标注的检错方法的一种可选的过程。在上述实施例的基础上，具体可以包括以下步骤：

步骤501，获取标注人员对音频数据进行标注后得到的标注文本。

步骤502，对标注文本进行分词，得到标注文本包括的多个词语。

步骤503，在预先建立的正确词表中分别查找标注文本包括的各个词语。

步骤504，当通过查找确定标注文本包括的多个词语中存在错误词语时，基于错误词语生成检错信息；错误词语为未记录于正确词表中的词语。

可选地，在正确词表中查找多个参考词语；参考词语与错误词语的编辑距离在预设编辑距离内，编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种；生成包含多个参考词语的检错信息。

步骤505，对检错信息进行输出。

步骤506，将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中，得到神经网络检错模型输出的第一词语序列对应的概率信息；概率信息用于指示词语序列正确的概率。

本实施例中，如果第一词语序列对应的概率信息低于预设概率值，则执行步骤507；如果第一词语序列对应的概率信息不低于预设概率值，则执行步骤508。

步骤507，若第一词语序列对应的概率信息低于预设概率值，则生成检错信息。

可选地，在第一词语序列对应的概率信息低于预设概率值时，分别采用多个参考词语替换错误词语，得到多个第二词语序列；分别将多个第二词语序列输入到神经网络检错模型中，得到各第二词语序列对应的概率信息；根据参考词语与第二词语序列的对应关系和各第二词语序列对应的概率信息，生成包含多个参考词语的检错信息。

步骤508，若第一词语序列对应的概率信息不低于预设概率值，则停止输出检错信息，并将错误词语添加到正确词表中。

步骤509，通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列，得到与第一词语序列匹配的搜索结果。

本实施例中，如果搜索结果的数量小于预设数量，则执行步骤510；如果搜索结果的数量不小于预设数量，则执行步骤511。

步骤510，若搜索结果的数量小于预设数量，则生成检错信息。

可选地，若搜索结果的数量小于预设数量，则生成检错信息，包括：在搜索结果的数量小于预设数量时，从第一词语序列中删除错误词语，得到第三词语序列；通过搜索引擎搜索第三词语序列，得到多个与第三词语序列同时出现的共现词语；生成包含多个共现词语的检错信息。

步骤511，若搜索结果的数量不小于预设数量，则停止输出检错信息，并将错误词语添加到正确词表中。

上述音频标注的检错方法中，获取标注人员对音频数据进行标注后得到的标注文本；对标注文本进行分词，得到标注文本包括的多个词语；在预先建立的正确词表中分别查找标注文本包括的各个词语；当通过查找确定标注文本包括的多个词语中存在错误词语时，基于错误词语生成检错信息；对检错信息进行输出。如果标注人员未对标注文本进行修改，则将由标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中，得到神经网络检错模型输出的第一词语序列对应的概率信息；若第一词语序列对应的概率信息低于预设概率值，则生成检错信息；若第一词语序列对应的概率信息不低于预设概率值，则停止输出检错信息，并将错误词语添加到正确词表中。如果标注人员仍未对标注文本进行修改，则通过搜索引擎搜索由标注文本包括的多个词语组成的第一词语序列，得到与第一词语序列匹配的搜索结果；若搜索结果的数量小于预设数量，则生成检错信息；若搜索结果的数量不小于预设数量，则停止输出检错信息，并将错误词语添加到正确词表中。通过本发明实施例，采用三级检错，可以对标注人员进行多次提醒，提高检错的准确率，从而使标注文本更加准确，进而使深度学习模型更加准确。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种音频标注的检错装置，包括：

标注文本获取模块601，用于获取标注人员对音频数据进行标注后得到的标注文本；

检错模块602，用于对标注文本进行检错，当通过检错确定标注文本中的词语出现错误和标注文本中的语句出现错误中的至少一种时，生成检错信息；

检错信息输出模块603，用于对检错信息进行输出。

在其中一个实施例中，上述检错模块602包括：

在其中一个实施例中，该装置还包括:

在其中一个实施例中，上述检错模块602包括：

在其中一个实施例中，该装置还包括：

关于音频标注的检错装置的具体限定可以参见上文中对于音频标注的检错方法的限定，在此不再赘述。上述音频标注的检错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频标注的检错方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取标注人员对音频数据进行标注后得到的标注文本；

对检错信息进行输出。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对标注文本进行分词，得到标注文本包括的多个词语；

生成包含多个参考词语的检错信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤:

若搜索结果的数量小于预设数量，则生成检错信息。

生成包含多个共现词语的检错信息。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取标注人员对音频数据进行标注后得到的标注文本；

对检错信息进行输出。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

对标注文本进行分词，得到标注文本包括的多个词语；

生成包含多个参考词语的检错信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤:

若搜索结果的数量小于预设数量，则生成检错信息。

生成包含多个共现词语的检错信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种音频标注的检错方法，其特征在于，所述方法包括：

获取标注人员对音频数据进行标注后得到的标注文本；

对所述标注文本进行检错，当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时，生成检错信息；

对所述检错信息进行输出。
根据权利要求1所述的方法，其特征在于，所述当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时，生成检错信息，包括：

对所述标注文本进行分词，得到所述标注文本包括的多个词语；

在预先建立的正确词表中分别查找所述标注文本包括的各个词语；

当通过查找确定所述标注文本包括的多个词语中存在错误词语时，基于所述错误词语生成所述检错信息；所述错误词语为未记录于所述正确词表中的词语。
根据权利要求2所述的方法，其特征在于，所述基于所述错误词语生成所述检错信息，包括：

在所述正确词表中查找多个参考词语；所述参考词语与所述错误词语的编辑距离在预设编辑距离内，所述编辑距离包括拼音编辑距离以及词汇编辑距离中的至少一种；

生成包含多个所述参考词语的检错信息。
根据权利要求3所述的方法，其特征在于，所述当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时，生成检错信息，包括：

将由所述标注文本包括的多个词语组成的第一词语序列输入到预先训练的神经网络检错模型中，得到所述神经网络检错模型输出的所述第一词语序列对应的概率信息；所述概率信息用于指示词语序列正确的概率；

若所述第一词语序列对应的概率信息低于预设概率值，则生成所述检错信息。
根据权利要求4所述的方法，其特征在于，所述若所述第一词语序列对应的概率信息低于预设概率值，则生成所述检错信息，包括：

在所述第一词语序列对应的概率信息低于所述预设概率值时，分别采用多个所述参考词语替换所述错误词语，得到多个第二词语序列；

分别将多个所述第二词语序列输入到所述神经网络检错模型中，得到各所述第二词语序列对应的概率信息；

根据所述参考词语与所述第二词语序列的对应关系和各所述第二词语序列对应的概率信息，生成包含多个所述参考词语的检错信息。
根据权利要求4所述的方法，其特征在于，在所述得到所述神经网络检错模型输出的所述第一词语序列对应的概率信息之后，所述方法还包括:

若所述第一词语序列对应的概率信息不低于所述预设概率值，则停止输出所述检错信息，并将所述错误词语添加到所述正确词表中。
根据权利要求3或5所述的方法，其特征在于，所述当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时，生成检错信息，包括：

通过搜索引擎搜索由所述标注文本包括的多个词语组成的第一词语序列，得到与所述第一词语序列匹配的搜索结果；

若所述搜索结果的数量小于预设数量，则生成所述检错信息。
根据权利要求7所述的方法，其特征在于，所述若所述搜索结果的数量小于预设数量，则生成所述检错信息，包括：

在所述搜索结果的数量小于所述预设数量时，从所述第一词语序列中删除所述错误词语，得到第三词语序列；

通过所述搜索引擎搜索所述第三词语序列，得到多个与所述第三词语序列同时出现的共现词语；

生成包含多个所述共现词语的检错信息。
根据权利要求7所述的方法，其特征在于，在所述得到与所述第一词语序列匹配的搜索结果之后，所述方法还包括：

若所述搜索结果的数量不小于所述预设数量，则停止输出所述检错信息，并将所述错误词语添加到所述正确词表中。
一种音频标注的检错装置，其特征在于，所述装置包括：

标注文本获取模块，用于获取标注人员对音频数据进行标注后得到的标注文本；

检错模块，用于对所述标注文本进行检错，当通过检错确定所述标注文本中的词语出现错误和所述标注文本中的语句出现错误中的至少一种时，生成检错信息；

检错信息输出模块，用于对所述检错信息进行输出。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。