CN110427622A

CN110427622A - 语料标注的评估方法、装置及存储介质

Info

Publication number: CN110427622A
Application number: CN201910668462.3A
Authority: CN
Inventors: 童丽霞; 雷植程
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-08

Abstract

本申请涉及一种语料标注的评估方法、装置及存储介质，该语料标注的评估方法包括：从语料库中获取至少一条待评估语料、以及每条待评估语料的第一初始标注；根据待评估语料和语料库中剩余语料确定待评估语料的第一标注；利用已训练的分类模型确定待评估语料的第二标注；根据第一标注和第二标注，确定对应待评估语料的第一初始标注的评估结果，从而在进行人工语料复查时，能够根据评估结果选择标注准确性不高的语料进行复查，进而无需对语料库中所有语料进行一一复查，减少了语料标注人员的工作量，提高了语料复查效率。

Description

语料标注的评估方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种语料标注的评估方法、装置及存储介质。

背景技术

在智能客服***建设中，为了能较好的理解用户所描述的问题，一般会通过人工标注大量语料的方式来加强机器学习模型的理解能力。但是，由于不同的标注人员对同一业务的理解会存在偏差以及标注人员通常要完成较大的标注量，导致语料库中存在一定比例的标注错误语料。

因此，为了确保语料标注的准确性，需要对标注后的语料进行复查以将语料库中错误的语料检查出来，现有的技术方案主要为人工语料复查。

但是，当语料库中的语料不断增多时，人工复查很难遍历语料库中已有的语料去做参考，且耗时耗力。

发明内容

本申请实施例提供一种语料标注的评估方法、装置及存储介质，以减少人工语料复查的工作量，以及提高语料复查的效率。

本申请实施例提供了一种语料标注的评估方法，包括：

从语料库中获取至少一条待评估语料、以及每条所述待评估语料的第一初始标注；

根据所述待评估语料和所述语料库中剩余语料确定所述待评估语料的第一标注；

利用已训练的分类模型确定所述待评估语料的第二标注；

根据所述第一标注和第二标注，确定对应所述待评估语料的第一初始标注的评估结果。

其中，所述根据所述待评估语料和所述语料库中剩余语料确定所述待评估语料的第一标注，具体包括：

确定所述待评估语料与所述语料库中每条剩余语料之间的相似度；

根据所述相似度从所述剩余语料中确定相似语料；

获取所述相似语料的第二初始标注；

根据所述第二初始标注确定所述待评估语料的第一标注。

其中，所述确定所述待评估语料与所述语料库中每条剩余语料之间的相似度，具体包括：

确定每条所述待评估语料对应的第一词向量，以及确定所述语料库中每条剩余语料对应的第二词向量；

根据所述第一词向量确定对应的第一句子向量，并根据所述第二词向量确定对应的第二句子向量；

根据所述第一句子向量和第二句子向量计算对应的所述待评估语料和剩余语料之间的相似度。

其中，所述确定每条所述待评估语料对应的第一词向量，以及确定所述语料库中每条剩余语料对应的第二词向量，具体包括：

将每条所述待评估语料拆分成多个第一字符段，以及将所述语料库中每条剩余语料拆分成多个第二字符段；

根据所述第一字符段确定对应的第一关键词，并根据所述第二字符段确定对应的第二关键词；

根据所述第一关键词确定对应的第一词向量，并根据所述第二关键词确定对应的第二词向量。

其中，所述根据所述第二初始标注确定所述待评估语料的第一标注，具体包括：

将所述第二初始标注相同的所述相似语料归为一组，得到至少一个相似语料组；

统计每一所述相似语料组中相似语料的条数；

将所述条数最多的所述相似语料组对应的所述第二初始标注，作为所述待评估语料的第一标注。

其中，在所述利用已训练的分类模型确定所述待评估语料的第二标注之前，还包括：

获取语料样本集、以及所述语料样本集中每一语料样本的第三初始标注；

利用所述语料样本集和第三初始标注对预设的分类模型进行训练，得到所述已训练的分类模型。

其中，所述根据所述第一标注和第二标注，确定对应所述待评估语料的第一初始标注的评估结果，具体包括：

判断所述待评估语料的第一初始语料与对应的所述第一标注以及所述第二标注是否相同；

若所述待评估语料的第一初始语料与对应的所述第一标注和第二标注均相同，则将指示正确的结果作为所述待评估语料的第一初始标注的评估结果；

若所述待评估语料的第一初始语料与对应的所述第一标注或第二标注相同，则将指示疑似错误的结果作为所述待评估语料的第一初始标注的评估结果；

若所述待评估语料的第一初始语料与对应的所述第一标注和第二标注均不相同，则将指示高度可疑的结果作为所述待评估语料的第一初始标注的评估结果。

本申请实施例还提供了一种语料标注的评估装置，包括：

获取模块，用于从语料库中获取至少一条待评估语料、以及每条所述待评估语料的第一初始标注；

第一确定模块，用于根据所述待评估语料和所述语料库中剩余语料确定所述待评估语料的第一标注；

第二确定模块，用于利用已训练的分类模型确定所述待评估语料的第二标注；

第三确定模块，用于根据所述第一标注和第二标注，确定对应所述待评估语料的第一初始标注的评估结果。

其中，所述第一确定模块具体包括：

第一确定单元，用于确定所述待评估语料与所述语料库中每条剩余语料之间的相似度；

第二确定单元，用于根据所述相似度从所述剩余语料中确定相似语料；

获取单元，用于获取所述相似语料的第二初始标注；

第三确定单元，用于根据所述第二初始标注确定所述待评估语料的第一标注。

其中，所述第一确定单元，具体包括：

第一确定子单元，用于确定每条所述待评估语料对应的第一词向量，以及确定所述语料库中每条剩余语料对应的第二词向量；

第二确定子单元，用于根据所述第一词向量确定对应的第一句子向量，并根据所述第二词向量确定对应的第二句子向量；

计算子单元，用于根据所述第一句子向量和第二句子向量计算对应的所述待评估语料和剩余语料之间的相似度。

其中，所述第一确定子单元具体用于：

其中，所述第三确定单元具体用于：

统计每一所述相似语料组中相似语料的条数；

其中，所述语料标注的评估装置还包括第四确定模块，所述第四确定模块用于：

其中，所述第三确定模块具体用于：

本申请实施例还提供了一种计算机可读存储介质，所述存储介质中存储有多条指令，所述指令适于由处理器加载以执行上述任一项语料标注的评估方法。

本申请提供的语料标注的评估方法、装置及存储介质，通过从语料库中获取至少一条待评估语料、以及每条待评估语料的第一初始标注，之后根据该待评估语料和语料库中剩余语料确定该待评估语料的第一标注，并利用已训练的分类模型确定待评估语料的第二标注，接着根据第一标注和第二标注，确定对应待评估语料的第一初始标注的评估结果，从而在进行人工语料复查时，能够根据评估结果选择标注准确性不高的语料进行复查，进而无需对语料库中所有语料进行一一复查，减少了语料标注人员的工作量，提高了语料复查效率。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其它有益效果显而易见。

图1为本申请实施例提供的语料标注的评估***的场景示意图。

图2为本申请实施例提供的语料标注的评估方法的流程示意图。

图3为本申请实施例提供的S102的流程示意图。

图4为本申请实施例提供的S1024的执行流程示意图。

图5为本申请实施例提供的语料标注的评估方法的另一流程示意图。

图6为本申请实施例提供的语料标注的评估方法的另一流程示意图。

图7为本申请实施例提供的语料标注的评估装置的结构示意图。

图8为本申请实施例提供的第一确定模块120的结构示意图。

图9为本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种语料标注的评估方法、装置及存储介质。

请参阅图1，图1为本申请实施例提供的语料标注的评估***的场景示意图，该语料标注的评估***可以包括本申请实施例提供的任一种语料标注的评估装置，该语料标注的评估装置具体可以集成在服务器，比如智能客服***的后台服务器中。

该服务器可以从语料库中获取至少一条待评估语料、以及每条待评估语料的第一初始标注；根据待评估语料和语料库中剩余语料确定待评估语料的第一标注；利用已训练的分类模型确定待评估语料的第二标注；根据第一标注和第二标注，确定对应待评估语料的第一初始标注的评估结果。

其中，该语料库和已训练的分类模型可以存储于服务器中，该语料库可以包括若干条已标注语料，且该若干条已标注语料可以为属于同一应用领域的语料，比如客服聊天记录的对话语料，该语料库可以作为机器语言理解模型的训练语料库。其中，该语料库中的每一条已标注语料的标注对应为该已标注语料的第一初始标注，该第一初始标注可以是通过语料标注人员标注得到的，其准确性有待评估。

此外，该语料标注的评估***还可以包括安装有语料标注工具的客户端，该客户端可以是手机、平板电脑、台式电脑等终端，该客户端可以供用户查看待评估语料的第一初始标注的评估结果，进而便于用户对第一初始标注准确性不高的语料进行复查，并对其中第一初始标注错误的语料进行纠正。

譬如，在图1中，服务器会从语料库中获取待评估语料1“提现不了”及其第一初始标注“提现出错”、以及待评估语料2“信誉扣分到上限”及其第一初始标注“恢复信誉分”，根据待评估语料1和语料库中剩余语料确定待评估语料1的第一标注为“零钱提现失败”，并利用已训练的分类模型确定待评估语料1的第二标注为“零钱提现失败”，同样方法可以确定得到待评估语料2的第一标注和第二标注均为“恢复信誉分”，之后服务器根据待评估语料1的第一标注和第二标注，确定待评估语料1的第一初始标注的评估结果为“高度可疑”，同样方法可以确定得到待评估语料2的第一初始标注的评估结果为“正确”，接着，服务器还可以接收客户端关于待评估语料的第一初始标注的评估结果的查看请求，并根据该查看请求向客户端发送待评估语料的第一初始标注的评估结果。

如图2所示，图2是本申请实施例提供的语料标注的评估方法的流程示意图，该语料标注的评估方法具体流程可以如下：

S101.从语料库中获取至少一条待评估语料、以及每条待评估语料的第一初始标注。

其中，该语料库可以作为机器语言理解模型的训练语料库，包括若干条已标注语料，且该若干条已标注语料为属于同一应用领域或相近应用领域的语料，比如客户聊天记录的对话语料。现有技术中，该语料库中已标注语料的标注通常是由语料标注人员标注得到的，由于不同语料标注人员对同一语料的理解会存在偏差以及语料标注人员通常要完成较大的标注量，导致语料库中会存在一定比例的标注错误语料，因此，需要对该语料库中已标注语料的标注进行准确性评估，以将其中的标注错误语料检查出来，进而提高机器语言理解模型的训练效果。

在本实施例中，语料标注的评估装置可以从语料库中随机获取一条或多条已标注语料，以得到至少一条待评估语料，其中，待评估语料的第一初始标注可以为对应已标注语料的人工标注，其准确性有待评估。

S102.根据待评估语料和语料库中剩余语料确定待评估语料的第一标注。

其中，该语料库中剩余语料是指该语料库中除上述待评估语料之外的其他已标注语料。在本实施例中，语料标注的评估装置可以逐一计算一条待评估语料与该语料库中每条剩余语料的相似度，并将该剩余语料中与这条待评估语料的相似度较大的已标注语料作为这条待评估语料的相似语料集，然后根据该相似语料集确定这条待评估语料的第一标注。

具体地，如图3所示，上述S102可以具体包括：

S1021.确定待评估语料与语料库中每条剩余语料之间的相似度。

目前，计算语料相似度的方法主要包括编辑距离(Edit Distance)计算方法、杰卡德系数(Jaccard index)计算方法、词频(TF)计算方法、词频-逆文本频率(TF-IDF)计算方法和词向量(Word2Vec)计算方法等等。

其中，Word2Vec计算方法能够结合语料的语义信息进行计算，得到的语料相似度的准确性较高，因此，在本实施例中，语料标注的评估装置可以优选利用Word2Vec计算方法计算待评估语料与语料库中每条剩余语料之间的相似度。具体地，在利用Word2Vec计算方法计算语料相似度时，首先需要对语料进行分词，然后基于该语料的每一个分词对应得到词向量，之后可以将该语料的所有词向量相加并求平均，以得到该语料的句子向量，之后再通过计算两个语料的句子向量的夹角余弦值即可得到这两个语料的相似度。

在一个实施例中，上述S1021可以具体包括：

S1-1.确定每条待评估语料对应的第一词向量，以及确定语料库中每条剩余语料对应的第二词向量。

其中，上述S1-1可以具体包括：

S1-1-1.将每条待评估语料拆分成多个第一字符段，以及将语料库中每条剩余语料拆分成多个第二字符段。

其中，语料标注的评估装置可以采用结巴(jieba)等分词方法，对每条待评估语料以及语料库中每条剩余语料进行分词处理，以对应得到每条待评估语料的多个第一字符段、以及语料库中每条剩余语料的多个第二字符段。

S1-1-2.根据第一字符段确定对应的第一关键词，并根据第二字符段确定对应的第二关键词。

其中，通过对语料进行分词处理而得到的第一字符段和第二字符段中可能会存在一些停用词(比如“了”、“的”、“吧”等)和非文本字符(比如标点符号、特殊符号等)，并且这些停用词和非文本字符一般没有实在意义但使用频率却很高，因此，为了节省存储空间和提高机器学习的效率，可以对上述第一字符段和第二字符段进行去停用词和非文本字符的处理，以得到对应的第一关键词和第二关键词。

S1-1-3.根据第一关键词确定对应的第一词向量，并根据第二关键词确定对应的第二词向量。

其中，语料标注的评估装置可以利用已训练的word2vec词向量工具将每条待评估语料的第一关键词转换为对应的第一词向量，以及将语料库中每条剩余语料转换为对应的第二词向量。

S1-2.根据第一词向量确定对应的第一句子向量，并根据第二词向量确定对应的第二句子向量。

其中，语料标注的评估装置可以对每条待评估语料的第一词向量采用线性加权取平均值进行回归的方法构建出对应的第一句子向量，以及以同样的方法构建出对应的第二句子向量。

S1-3.根据第一句子向量和第二句子向量计算对应的待评估语料和剩余语料之间的相似度。

其中，可以通过计算第一句子向量和第二句子向量之间的余弦距离，确定对应的待评估语料与语料库中每条剩余语料之间的相似度。

S1022.根据相似度从剩余语料中确定相似语料。

对于每一条待评估语料，在计算得到该待评估语料与语料库中每条剩余语料的相似度后，语料标注的评估装置可以从上述剩余语料中选择相似度较大的已标注语料作为该待评估语料的相似语料。

S1023.获取相似语料的第二初始标注。

其中，该相似语料为上述语料库中的已标注语料，每一条相似语料的第二初始标注为对应已标注语料的标注，且具体可以为对应已标注语料的人工标注。

S1024.根据第二初始标注确定待评估语料的第一标注。

在本实施例中，对于每一条待评估语料，语料标注的评估装置可以基于该待评估语料的所有相似语料的第二初始标注确定该待评估语料的第一标注，其中，该待评估语料的第一标注和第一初始标注可能不同，也可能相同，并且，若二者不同，则说明该待评估语料的第一初始标注的准确性存在质疑，需要语料标注人员进行核查。

其中，上述S1024可以具体包括：

S2-1.将第二初始标注相同的相似语料归为一组，得到至少一个相似语料组。

例如，如图4所示，一条待评估语料的相似语料有10条，依次编号为X1-X10，其中，编号为X1、X2、X5、X7的相似语料的第二初始标注相同，均为L11，编号为X3、X6、X9的相似语料的第二初始标注相同，均为L12，编号为X4、X10的相似语料的第二初始标注相同，均为L13，编号为X8的相似语料的第二初始标注为L14，则可以将编号为X1、X2、X5、X7的相似语料归为第一相似语料组，编号为X3、X6、X9的相似语料归为第二相似语料组，编号为X4、X10的相似语料归为第三相似语料组，编号为X8的相似语料归为第四相似语料组，如此，能够得到四个相似语料组。

S2-2.统计每一相似语料组中相似语料的条数。

接着上一例子，上述第一、二、三和四相似语料组中相似语料的条数依次为4、3、2和1。

S2-3.将条数最多的相似语料组对应的第二初始标注，作为待评估语料的第一标注。

接着上一例子，如图4所示，拥有相似语料的条数最多的相似语料组为第一相似语料组，且该第一相似语料组对应的第二初始标注为L11，也即，上述待评估语料的第一标注为L11。

S103.利用已训练的分类模型确定待评估语料的第二标注。

在本实施例中，语料标注的评估装置可以将待评估语料逐条输入至该已训练的分类模型中，以对待评估语料进行再次标注，得到对应待评估语料的第二标注。其中，待评估语料的第二标注和第一初始标注可能不同，也可能相同，并且，若二者不同，则说明该待评估语料的第一初始标注的准确性存在质疑，需要语料标注人员进行核查。

具体地，为了得到上述已训练的分类模型，在上述S103之前，还可以包括：

步骤A.获取语料样本集、以及语料样本集中每一语料样本的第三初始标注。

在本实施例中，可以将上述语料库中的全部已标注语料作为语料样本，以得到语料样本集，其中，该语料样本集中每一语料样本的第三初始标注为对应已标注语料的标注，且具体可以为对应已标注语料的人工标注。

步骤B.利用语料样本集和第三初始标注对预设的分类模型进行训练，得到已训练的分类模型。

具体地，语料标注的评估装置可以先对语料样本集中每一语料样本进行特征提取，比如关键字提取或特征词提取，以构造对应语料样本的特征向量，然后基于该语料样本集中所有语料样本的特征向量和第三初始标注对上述预设的分类模型进行训练。

其中，上述预设的分类模型的训练过程可以用以下公式表示：

Ci＝f(Ti)；

其中，Ti为以特征向量表示的语料i，Ti为语料i的标注，f为分类模型。在训练阶段，已知若干对Ti和Ti，通过机器学习，可以总结出f。在本实施例中，可以采用独热(one-hot)编码、语言模型(n-gram)等方法对上述语料样本进行特征提取，以得到对应语料样本的特征向量，之后，可以采用支持向量机(SVM)等方法对上述语料样本的特征向量进行学习，以得到已训练的分类模型。

在得到已训练的分类模型之后，在上述S103中，即可利用该已训练的分类模型对待评估语料进行再次标注，以得到对应待评估语料的第二标注。在此过程中，与前面类似的，也需要先对待评估语料进行特征提取，以得到对应待评估语料的特征向量，然后，根据上述公式可知，此时的f和Ti已知，因此可以计算得到Ci，也即对应待评估语料的第二标注。

S104.根据第一标注和第二标注，确定对应待评估语料的第一初始标注的评估结果。

对于每一条待评估语料，其第一标注和第二标注相对于其第一初始标注，均为二次标注，且三者通过三种不同的标注方法得到，因此，能够利用第一标注和第二标注与对应待评估语料的第一初始标注的差异性，对待评估语料的第一初始标注的准确性进行评估。

具体地，如图5所示，上述S104可以具体包括：

S1041.判断待评估语料的第一初始语料与对应的第一标注以及第二标注是否相同，若均是，则执行S1042，若只有其中一个是，则执行S1043，若均否，则执行S1044。

S1042.将指示正确的结果作为待评估语料的第一初始标注的评估结果。

S1043.将指示疑似错误的结果作为待评估语料的第一初始标注的评估结果。

S1044：将指示高度可疑的结果作为待评估语料的第一初始标注的评估结果。

进一步地，在得到上述待评估语料的第一初始标注的评估结果之后，还可以将该待评估语料标记为已评估语料，并从语料库中获取至少一条未曾被评估的已标注语料作为待评估语料，然后再执行上述S102、S103和S104，如此循环直至语料库中所有已标注语料均被标记为已评估语料。

另外，在完成对语料库中所有已标注语料的标注准确性评估之后，用户还可以在语料标注复查的用户界面向语料标注的评估装置发送语料库中已标注语料的评估结果的查看请求，以使语料标注的评估装置能够根据该查看请求向上述用户界面发送评估结果。具体地，在语料标注人员对上述语料库中已标注语料进行复查时，可以选择性地仅对评估结果指示为“疑似错误”和“高度可疑”的语料进行核查，并对核查后确定为标注错误的语料进行标注纠正，从而，大大减少了语料标注复查的工作量，提高了语料标注复查的效率。

由上可知，本实施例提供的语料标注的评估方法，通过从语料库中获取至少一条待评估语料、以及每条待评估语料的第一初始标注，之后根据该待评估语料和语料库中剩余语料确定该待评估语料的第一标注，并利用已训练的分类模型确定待评估语料的第二标注，接着根据第一标注和第二标注，确定对应待评估语料的第一初始标注的评估结果，从而在进行人工语料复查时，能够根据评估结果选择标注准确性不高的语料进行复查，进而无需对语料库中所有语料进行一一复查，减少了语料标注人员的工作量，提高了语料复查效率。

如图6所示，图6是本申请实施例提供的语料标注的评估方法的另一流程示意图，该语料标注的评估方法具体流程可以如下：

S201.从语料库中获取至少一条待评估语料、以及每条待评估语料的第一初始标注。

例如，语料标注的评估装置可以从语料库中随机获取至少一条已标注语料作为待评估语料，或者也可以先将语料库中所有已标注语料分成多份，然后从中取一份已标注语料作为待评估语料。其中，待评估语料的第一初始标注可以为对应已标注语料的人工标注，其准确性有待评估。

S202.将每条待评估语料拆分成多个第一字符段，以及将语料库中每条剩余语料拆分成多个第二字符段。

例如，一条待评估语料a为“那样只能置顶一个公共号，我想把所有公共号整体置顶”，可以利用jieba分词方法对其进行分词处理，以得到多个第一字符段“那样”、“只能”、“置顶”、“一个”、“公共号”、“，”、“我”、“想”、“把”、“所有”、“公共号”、“整体”、以及“置顶”，其中，同样的方法也适用于语料库中每条剩余语料。

S203.根据第一字符段确定对应的第一关键词，并根据第二字符段确定对应的第二关键词。

接着上一例子，在对上述待评估语料a进行分词处理后得到的待评估语料a的多个第一字符段中，存在一些没有实际意义的停用词和非文本字符，比如“那样”、“一个”、“一起”等停用词，以及“，”标点符号。

在本实施例中，可以采用预设的停用词表对上述第一字符段和第二字符段进行去停用词处理，以去掉虚词、代词等，另外，还可以利用正则(Z ipf)表达式等方法对上述第一字符段和第二字符段中的非文本字符进行过滤，以得到对应的第一关键词和第二关键词。

S204.根据第一关键词确定对应的第一词向量，并根据第二关键词确定对应的第二词向量。

例如，语料标注的评估装置可以利用已训练的word2vec词向量工具结合语料的语义信息将每条待评估语料的第一关键词转换为对应的第一词向量，以及将语料库中每条剩余语料转换为对应的第二词向量。

S205.根据第一词向量确定对应的第一句子向量，并根据第二词向量确定对应的第二句子向量。

例如，对每条待评估语料的第一词向量可以采用线性加权取平均值进行回归构建对应的第一句子向量，对语料库中每条剩余语料的第二词向量同样也可以采用线性加权取平均值进行回归构建对应的第二句子向量。

S206.根据第一句子向量和第二句子向量计算对应的待评估语料和剩余语料之间的相似度。

例如，可以通过计算第一句子向量和第二句子向量之间的余弦距离，确定对应的待评估语料与语料库中每条剩余语料之间的相似度。

S207.根据相似度从剩余语料中确定相似语料。

例如，对于每一条待评估语料，可以将上述剩余语料中相似度大于预设阈值的已标注语料，作为对应待评估语料的相似语料。其中，在相似度的范围为0～1，且相似度越接近1，说明两个语料的相似度越高时，上述预设阈值可以0.8。

S208.获取相似语料的第二初始标注。

S209.根据第二初始标注确定待评估语料的第一标注。

本实施例中的S209的具体实施例方式可以参见上一方法实施例中S1024的具体实施方式，故在此不再赘述。

S210.根据第一关键词确定对应的特征向量。

例如，可以采用n-gram方法对每条待评估语料的第一关键词进行特征提取，以得到对应待评估语料的特征向量。其中，该第一关键词由对应的待评估语料依次经过分词、去停用词以及非文本字符过滤处理后得到，能够有效降低上述特征向量的维数，进而提高分类模型的分类效率。

另外，n-gram方法是从文本的第一字符处开始，每次移动的步长为1个字符，且每次取长度为n个字符的特征项，例如，对于“扣分上限”这四个字，以3-gram方法提取特征项如下：扣分上，分上限，由此可知，利用n-gram方法提取特征能够获取到上述第一关键词的前后信息，也即，待评估语料的语序信息。

S211.利用已训练的分类模型对特征向量进行分类，以得到对应待评估语料的第二标注。

在本实施例中，将待评估语料的特征向量输入至该已训练的分类模型中，即可输出得到对应待评估语料的第二标注。其中，该已训练的分类模型可以是利用上述语料库中所有已标注语料训练得到的。

S212.根据第一标注和第二标注，确定对应待评估语料的第一初始标注的评估结果。

在本实施例中，对于每一条待评估语料，其第一标注和第二标注相对于其第一初始标注，均为二次标注，且三者通过三种不同的标注方法得到，因此，能够利用第一标注和第二标注与对应待评估语料的第一初始标注的差异性，对待评估语料的第一初始标注的准确性进行评估。其中，上述S212的具体实施例方式可以参见上一方法实施例中S104的具体实施方式，故在此不再赘述。

另外，在执行上述S204至S209以得到待评估语料的第一标注的过程中，采用的是机器无监督学习方式，且考虑了语料的语义信息，而在执行S210和S211以得到待评估语料的第二标注的过程中，采用的是机器有监督学习方式，且考虑了语料的语序信息，如此，在对待评估语料的第一初始标注准确性评估过程中，将机器监督学习和机器无监督学习进行了有机结合，且充分考虑了语料的语义及语序信息，有利于提高上述评估结果的精确度。

在上述实施例所述方法的基础上，本实施例将从语料标注的评估装置的角度进一步进行描述，请参阅图7，图7具体描述了本申请实施例提供的语料标注的评估装置，其可以包括：获取模块110、第一确定模块120、第二确定模块130和第三确定模块140，其中：

(1)获取模块110

获取模块110，用于从语料库中获取至少一条待评估语料、以及每条待评估语料的第一初始标注。

其中，该语料库可以作为机器语言理解模型的训练语料库，包括若干条已标注语料，且该若干条已标注语料为属于同一应用领域或相近应用领域的语料，比如客户聊天记录的对话语料。在本实施例中，获取模块110可以从语料库中获取一条或多条已标注语料，以得到至少一条待评估语料，其中，待评估语料的第一初始标注可以为对应已标注语料的人工标注，其准确性有待评估。

(2)第一确定模块120

第一确定模块120，用于根据待评估语料和语料库中剩余语料确定待评估语料的第一标注。

在本实施例中，该语料库中剩余语料是指该语料库中除上述待评估语料之外的其他已标注语料。

其中，如图8所示，上述第一确定模块120可以具体包括：

(a)第一确定单元121，用于确定待评估语料与语料库中每条剩余语料之间的相似度。

目前，计算语料相似度的方法主要包括编辑距离(Edit Distance)计算方法、杰卡德系数(Jaccard index)计算方法、词频(TF)计算方法、词频-逆文本频率(TF-IDF)计算方法和词向量(Word2Vec)计算方法等等。其中，Word2Vec计算方法能够结合语料的语义信息进行计算，得到的语料相似度的准确性较高，因此，在本实施例中，第一确定单元121可以优选利用Word2Vec计算方法计算待评估语料与语料库中每条剩余语料之间的相似度。

在一个实施例中，该第一确定单元121可以具体包括：

(a1)第一确定子单元，用于确定每条待评估语料对应的第一词向量，以及确定语料库中每条剩余语料对应的第二词向量。

其中，第一确定子单元可以具体用于：

将每条待评估语料拆分成多个第一字符段，以及将语料库中每条剩余语料拆分成多个第二字符段；

根据第一字符段确定对应的第一关键词，并根据第二字符段确定对应的第二关键词；

根据第一关键词确定对应的第一词向量，并根据第二关键词确定对应的第二词向量。

(a2)第二确定子单元，用于根据第一词向量确定对应的第一句子向量，并根据第二词向量确定对应的第二句子向量。

其中，该第二确定子单元可以对每条待评估语料的第一词向量采用线性加权取平均值进行回归的方法构建出对应的第一句子向量，以及以同样的方法构建出对应的第二句子向量。

(a3)计算子单元，用于根据第一句子向量和第二句子向量计算对应的待评估语料和剩余语料之间的相似度。

其中，该计算子单元可以通过计算第一句子向量和第二句子向量之间的余弦距离，确定对应的待评估语料与语料库中每条剩余语料之间的相似度。

(b)第二确定单元122，用于根据相似度从剩余语料中确定相似语料。

对于每一条待评估语料，在计算得到该待评估语料与语料库中每条剩余语料的相似度后，第二确定单元122可以从上述剩余语料中选择相似度较大的已标注语料作为该待评估语料的相似语料。

(c)获取单元123，用于获取相似语料的第二初始标注。

(d)第三确定单元124，用于根据第二初始标注确定待评估语料的第一标注。

在本实施例中，对于每一条待评估语料，第三确定单元124可以基于该待评估语料的所有相似语料的第二初始标注确定该待评估语料的第一标注，其中，该待评估语料的第一标注和第一初始标注可能不同，也可能相同，并且，若二者不同，则说明该待评估语料的第一初始标注的准确性存在质疑，需要语料标注人员进行核查。

在一个实施例中，该第三确定单元124可以具体用于：

将第二初始标注相同的相似语料归为一组，得到至少一个相似语料组；

统计每一相似语料组中相似语料的条数；

将条数最多的相似语料组对应的第二初始标注，作为待评估语料的第一标注。

(3)第二确定模块130

第二确定模块130，用于利用已训练的分类模型确定待评估语料的第二标注。

在本实施例中，第二确定模块130可以将待评估语料逐条输入至该已训练的分类模型中，以对待评估语料进行再次标注，得到对应待评估语料的第二标注。其中，待评估语料的第二标注和第一初始标注可能不同，也可能相同，并且，若二者不同，则说明该待评估语料的第一初始标注的准确性存在质疑，需要语料标注人员进行核查。

其中，该已训练的分类模型可以是利用上述语料库中所有已标注语料训练得到的。

(4)第三确定模块140

第三确定模块140，用于根据第一标注和第二标注，确定对应待评估语料的第一初始标注的评估结果。

在本实施例中，对于每一条待评估语料，其第一标注和第二标注相对于其第一初始标注，均为二次标注，且三者通过三种不同的标注方法得到，因此，能够利用第一标注和第二标注与对应待评估语料的第一初始标注的差异性，对待评估语料的第一初始标注的准确性进行评估。

其中，第三确定模块140可以具体用于：

判断待评估语料的第一初始语料与对应的第一标注以及第二标注是否相同；

若待评估语料的第一初始语料与对应的第一标注和第二标注均相同，则将指示正确的结果作为待评估语料的第一初始标注的评估结果；

若待评估语料的第一初始语料与对应的第一标注或第二标注相同，则将指示疑似错误的结果作为待评估语料的第一初始标注的评估结果；

若待评估语料的第一初始语料与对应的第一标注和第二标注均不相同，则将指示高度可疑的结果作为待评估语料的第一初始标注的评估结果。

进一步地，上述语料标注的评估装置还可以包括第四确定模块，其中，第四确定模块可以具体用于：

获取语料样本集、以及语料样本集中每一语料样本的第三初始标注；

利用语料样本集和第三初始标注对预设的分类模型进行训练，得到已训练的分类模型。

具体地，该第四确定模块可以将上述语料库中的全部已标注语料作为语料样本，以得到语料样本集，其中，该语料样本集中每一语料样本的第三初始标注为对应已标注语料的标注，且具体可以为对应已标注语料的人工标注。并且，该第四确定模块还可以先对语料样本集中每一语料样本进行特征提取，比如关键字提取或特征词提取，以构造对应语料样本的特征向量，然后基于该语料样本集中所有语料样本的特征向量和第三初始标注对上述预设的分类模型进行训练。

Ci＝f(Ti)；

其中，Ti为以特征向量表示的语料i，Ti为语料i的标注，f为分类模型。在训练阶段，已知若干对Ti和Ti，通过机器学习，可以总结出f。在本实施例中，该第四确定模块可以采用独热(one-hot)编码、语言模型(n-gram)等方法对上述语料样本进行特征提取，以得到对应语料样本的特征向量，之后，可以采用支持向量机(SVM)等方法对上述语料样本的特征向量进行学习，以得到已训练的分类模型。

在得到已训练的分类模型之后，上述第二确定模块130即可利用该已训练的分类模型对待评估语料进行再次标注，以得到对应待评估语料的第二标注。在此过程中，与前面类似的，该第二确定模块130也需要先对待评估语料进行特征提取，以得到对应待评估语料的特征向量，然后，根据上述公式可知，此时的f和Ti已知，因此可以计算得到Ci，也即对应待评估语料的第二标注。

另外，在上述第三确定模块140得到上述待评估语料的第一初始标注的评估结果之后，还可以将该待评估语料标记为已评估语料，并触发上述获取模块110从语料库中获取至少一条未曾被评估的已标注语料作为待评估语料，然后再对该待评估语料的第一初始语料的准确性进行评估，如此循环直至语料库中所有已标注语料均被标记为已评估语料。

进一步地，在上述语料标注的评估装置完成对语料库中所有已标注语料的标注准确性评估之后，用户还可以在语料标注复查的用户界面向语料标注的评估装置发送语料库中已标注语料的评估结果的查看请求，以使语料标注的评估装置能够根据该查看请求向上述用户界面发送评估结果。具体地，在语料标注人员对上述语料库中已标注语料进行复查时，可以选择性地对评估结果指示为“疑似错误”和“高度可疑”的语料进行核查，并对核查后确定为标注错误的语料进行标注纠正，从而，大大减少了语料标注复查的工作量，提高了语料标注复查的效率。

具体实施时，以上各个子单元、单元和模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个子单元、单元和模块的具体实施可参见前面的方法实施例，在此不再赘述。

上述可知，本实施例提供的语料标注的评估装置，通过从语料库中获取至少一条待评估语料、以及每条待评估语料的第一初始标注，之后根据该待评估语料和语料库中剩余语料确定该待评估语料的第一标注，并利用已训练的分类模型确定待评估语料的第二标注，接着根据第一标注和第二标注，确定对应待评估语料的第一初始标注的评估结果，从而在进行人工语料复查时，能够根据评估结果选择标注准确性不高的语料进行复查，进而无需对语料库中所有语料进行一一复查，减少了语料标注人员的工作量，提高了语料复查效率。

相应的，本申请实施例还提供一种服务器，如图9所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency，RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解，图9中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

RF电路403可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器401处理；另外，将涉及上行的数据发送给基站。通常，RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路403还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GSM，Global System of Mobilecommunication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband CodeDivision Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

服务器还包括给各个部件供电的电源404(比如电池)，优选的，电源404可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元405，该输入单元405可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元405可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元405还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

该服务器还可包括显示单元406，该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元406可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器401以确定触摸事件的类型，随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图9中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

尽管未示出，服务器还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

从语料库中获取至少一条待评估语料、以及每条待评估语料的第一初始标注；

根据该待评估语料和语料库中剩余语料确定该待评估语料的第一标注；

利用已训练的分类模型确定待评估语料的第二标注；

根据第一标注和第二标注，确定对应待评估语料的第一初始标注的评估结果。

该服务器可以实现本申请实施例所提供的任一种语料标注的评估装置所能实现的有效效果，详见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

以上对本申请实施例所提供的一种语料标注的评估方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语料标注的评估方法，其特征在于，包括：

利用已训练的分类模型确定所述待评估语料的第二标注；

2.根据权利要求1所述的评估方法，其特征在于，所述根据所述待评估语料和所述语料库中剩余语料确定所述待评估语料的第一标注，具体包括：

根据所述相似度从所述剩余语料中确定相似语料；

获取所述相似语料的第二初始标注；

根据所述第二初始标注确定所述待评估语料的第一标注。

3.根据权利要求2所述的评估方法，其特征在于，所述确定所述待评估语料与所述语料库中每条剩余语料之间的相似度，具体包括：

4.根据权利要求3所述的评估方法，其特征在于，所述确定每条所述待评估语料对应的第一词向量，以及确定所述语料库中每条剩余语料对应的第二词向量，具体包括：

5.根据权利要求2所述的评估方法，其特征在于，所述根据所述第二初始标注确定所述待评估语料的第一标注，具体包括：

统计每一所述相似语料组中相似语料的条数；

6.根据权利要求1所述的评估方法，其特征在于，在所述利用已训练的分类模型确定所述待评估语料的第二标注之前，还包括：

7.根据权利要求1所述的评估方法，其特征在于，所述根据所述第一标注和第二标注，确定对应所述待评估语料的第一初始标注的评估结果，具体包括：

8.一种语料标注的评估装置，其特征在于，包括：

9.根据权利要求8所述的评估装置，其特征在于，所述第一确定模块具体包括：

获取单元，用于获取所述相似语料的第二初始标注；

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令，所述指令适于由处理器加载以执行权利要求1至7任一项所述的语料标注的评估方法。