CN113238947B

CN113238947B - 一种人机协同的对话评测方法及

Info

Publication number: CN113238947B
Application number: CN202110540797.4A
Authority: CN
Inventors: 任鹏杰; 宋晓萌; 田洪涛; 张仰君; 陈竹敏; 任昭春; 马军; 梁华盛
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2023-08-08
Anticipated expiration: 2041-05-18
Also published as: CN113238947A

Abstract

本公开提供了一种人机协同的对话***评测方法及***，包括：构建待评测对话***的对话样本数据集，其中，对所述对话样本数据集中预设数量的样本进行标注；针对评测数据集中的每条样本，利用置信度评测模型计算其机器评测置信度；采用回归随机森林模型计算每条样本的人力消耗，其中，所述人力消耗为每条样本标注花费的时间成本；利用整数线性规划算法，以最大化评测置信度和最小化人力消耗为目标进行优化，根据优化结果将对话样本数据集中的样本分配给人工和机器进行评测，完成对话***评测。所述方案基于机器和人工的可靠性与消耗，决定任务是分给机器还是人工，能够有效平衡对话***评测过程中的高效性和可靠性，提高测评效率。

Description

一种人机协同的对话***评测方法及***

技术领域

本公开属于对话***质量评测技术领域，尤其涉及一种人机协同的对话***评测方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

对话***作为新一代人机交互的媒介，旨在根据会话上下文或者相应应用场景，和人类进行流畅而有意义的对话。对话***已经应用到各行各业，实际场景下，每当***中有任意改动，都需要重新对整个***进行评测之后才可上线。考虑到时效、工作强度、用户体验等问题，整个评估过程需同时兼顾可靠性和高效性。

通常来说，对话***的评测可以包含多个方面，如表述的恰当性、内容相关性、情感表达的准确性等等。评测可以分为两种方式，机器自动评测和人力手工评测。首先，机器自动评测，便捷高效，但往往自动评测模型和人工评测的结果一致性较差，和人工评测相比，可靠性差。发明人发现，现有的一些基于训练的评测方法如ADEM，RUBER等，其评测结果虽然已经和人工结果有一定程度的相关性，但其实际效果依然不够可靠：在表述恰当性上，自动评测与人工评测的皮尔逊相关性系数为0.44，在内容相关度上为0.55。其次，人力手工评测，虽准确可靠但费时费力。实验证明，人工评测在恰当性、内容相关性、情感表达准确性等方面，都有非常高的可靠性，但人力消耗大效能低。因此，如何兼顾高效性和可靠性，以最少的人工消耗获取最可靠的评测结果，是当前急需解决的问题。

发明内容

本公开为了解决上述问题，提供了一种人机协同的对话***评测方法及***，所述方案通过将每一个对话评测任务建模为样本分配任务，基于机器和人工的可靠性与消耗，决定任务是分给机器还是人工，优化目标为最大化可靠性与最小化消耗，能够有效平衡对话***评测过程中的高效性和可靠性，提高测评效率。

根据本公开实施例的第一个方面，提供了一种人机协同的对话***评测方法，包括：

构建待评测对话***的对话样本数据集，其中，对所述对话样本数据集中预设数量的样本进行标注；

针对评测数据集中的每条样本，利用置信度评测模型计算其机器评测置信度；

采用回归随机森林模型计算每条样本的人力消耗，其中，所述人力消耗为每条样本标注花费的时间成本；

利用整数线性规划算法，以最大化评测置信度和最小化人力消耗为目标进行优化，根据优化结果将对话样本数据集中的样本分配给人工和机器进行评测，完成对话***评测。

进一步的，所述利用整数线性规划算法，将对话样本数据集中的样本分别分配给人工和机器进行评测，具体为：

将最大化评测置信度子目标和最小化人力消耗子目标进行加权融合，构建目标函数；

确定目标函数约束条件，包括分配给人工来评价的数据规模不大于预设数量，人工评测的置信度设置为1，机器评测的人力消耗设置为0；

通过优化求解所述目标函数，确定机器评测和人工评测的分配结果。

进一步的，所述采用回归随机森林模型计算每条样本的人力消耗，具体为：

基于评测数据集中的每条样本，提取其对话质量特征以及评测人特征；

基于提取到的相关特征，采用回归随机森林进行标注花费时间估计，利用估计的标注花费时间表示人力消耗。

进一步的，所述对话样本数据集中每条样本包括对话上下文以及待测评对话***模型生成的回复。

进一步的，所述置信度评测模型采用最大概率分类模型，通过预测样本中对话***模型生成的回复是否为恶意回复以及是否带有指定情感进行分类，并根据分类结果的概率作为机器评测置信度。

进一步的，所述置信度评测模型还可以采用信任得分模型进行计算，通过计算测试数据样本到未预测类别的豪斯多夫距离和数据样本到预测类别的豪斯多夫距离之间的比值，作为机器评测置信度。

进一步的，所述置信度评测模型还可以采用真实类概率模型进行计算，通过预训练的置信网络对测试数据样本的机器评测置信度进行估计。

根据本公开实施例的第二个方面，提供了一种人机协同的对话***评测***，包括：

数据集构建单元，其用于构建待评测对话***的对话样本数据集，其中，对所述对话样本数据集中预设数量的样本进行标注；

机器评测置信度计算单元，其用于针对评测数据集中的每条样本，利用最大概率分类模型计算其机器评测置信度；

人力消耗计算单元，其用于采用回归随机森林模型计算每条样本的人力消耗，其中，所述人力消耗为每条样本标注花费的时间成本；

评测样本分配单元，其用于利用整数线性规划算法，以最大化评测置信度和最小化人力消耗为目标进行优化，根据优化结果将对话样本数据集中的样本分配给人工和机器进行评测，完成对话***评测。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种人机协同的对话***评测方法。

根据本公开实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种人机协同的对话***评测方法。

与现有技术相比，本公开的有益效果是：

(1)本公开所述方案，通过将对话***评测，建模为样本分配任务，并将其视为一个优化问题，通过最大化机器评测的效率和最小化人工评测的人力消耗来解决，同时兼顾了评测的可靠性与高效性；其次，本公开提供了多种机器评测可靠性预测方式，主要是针对分类模型的置信度进行评估，可针对特定应用场景，选择合适的评测维度，如是否是恶意回复、是否带有特定情感等等，较好地完成评测。

(2)本公开所述方案提供了多种人力消耗评测中的特征提取方式，具有较大的可扩展性，可根据应用场景不同，拓展到更多维度，如在客服***中，可增加评测人是否有行业背景、对业务了解度等。本公开所述方法可应用至多个场景下，例如智能售后***、恶意差评鉴定等等，可提升用户使用体验，对工业界***具有非常高的应用价值。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例一中所述的人机协同的对话***评测方法执行结构示意图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种人机协同的对话***评测方法。

一种人机协同的对话***评测方法，包括：

具体的，为了便于理解，以下结合附图对本公开所述评测方法进行详细说明：

首先，本公开所述方案基于如下假设：

假设人力评测的可靠性为100％，机器评测的效率也是100％，那么只需预测出人工评测的人力消耗(效率)和机器评测的置信度(可靠性)即可。

如图1所示，本方法具体可分为三个功能模块，分别为对话样本分配模块(SAE，sample assignment execution),机器评测置信度预测模块(MCE，model confidenceestimation)和人力消耗评估模块(HEE，human confidence estimation)。假定有一个待评测的数据集其中，M表示该数据集的数据规模；C_i是对话上下文；/>是由对话***模型/>生成的回复，f_g为对话生成模型。该方法可以在最多只标注N条数据的条件下，且N远远小于M(N<<M)，可靠且高效地对M条数据完成评测。本公开所述方案具体包括：

(1)对话样本分配模块

在此模块中，对所有M条数据按照机器评测置信度和人力消耗进行分配，分配给人工或者机器来进行评测。该问题可通过整数线性规划(ILP，integer linear programming)来解决。

首先，定义一个决策变量z_i来标识对应数据是分配给人工还是机器来评测，用公式表示如下：

然后，定义整数线性规划的两个子目标，一个子目标是最大化整体的置信度，另一个子目标是最小化整体的消耗，将两个子目标加权合并为一个目标，用公式表示如下：

其中，是第i条数据的机器评测置信度，b_i是评测第i条数据的人工评测置信度，k_i是评测第i条数据的机器消耗，/>是评测第i条数据的人力消耗。且定义约束条件为：

b_i＝1,i＝1,...,M (3)

k_i＝0,i＝1,...,M

λ≥0

其中，第一个约束条件的含义是分配给人工来评价的数据规模需不大于N，第二个约束条件的含义是人工评测的置信度为1，第三个约束的含义是机器评测的人力消耗为0。

对话样本分配模块(SAE)对于每一个样本，接受机器评测置信度预测模型(MCE)的预测结果，和人力消耗评估模型(HEE)的预测结果，结合约束条件即公式(3)，最终找到最大评测置信度和最小人力评测消耗的最优解。

(2)机器评测置信度预测模块

此模块计算评测模型(本公开中f_c为基于BERT预训练的深度学习分类模型，/>为分类标签，如是否恶意回复分类标签、情感分类标签等)所产生的评测结果/>(本公开中为分类标签)的可信程度。具体实现步骤如下：(s1)分类模型训练：模型输入为对话数据和分类标签，其中对话数据包括对话的上下文和生成的对话；模型的输出为预测的分类标签。模型的主体部分为基于BERT预训练的深度学习分类模型，主要包括BERT微调层，神经网络层，softmax层。(s2)置信度预测：本公开基于三种实现方案预测分类模型预测标签的置信度，方案基于图像领域的置信度预测方法，并非本公开自定义。本公开首次将其与BERT预训练深度学习分类模型结合并将其应用到对话文本上。三种实现方案分别为最大类概率(MCP，maximum class probability)，信任得分(TS，trust score)和真实类概率(TCP，true class probability)。三种置信度预测方法适用于基于深度学习的分类模型，如卷积神经网络(CNN，convolutional neural network)分类模型。三种方案的优劣比较如下：(a)置信度估计效果比较:最强的为真实类概率方法，最弱的为最大类概率方法，信任得分居中；(b)模型的简易性比较：最简单易行的为最大类概率方法，其次为信任得分，真实类概率需要单独训练模型，相较更为复杂。

最大类概率(MCP)置信度由深度学习模型直接输出，为深度学习分类模型的softmax层输出的最大softmax值。用公式表示为：

示例性的，某一测试样本对应的分类模型softmax层输出为[0.1,0.3,0.6]，则该样本的最大类概率为0.6。

信任得分(TP)置信度根据样本与标签对应样本集合间的距离来计算。计算步骤如下：(s1)将训练数据和测试数据输入微调后的BERT预训练模型，输出训练数据和测试数据对应的词嵌入(embedding)特征；(s2)将训练数据的特征和标签，输入K-进邻算法模型(KNN)，输出为不同标签的特征高密度集合n为标签类别数；(s3)对于标签为k的测试样本，信任得分＝样本与h_k高密度集合的距离/该样本与非h_k的高密度集合的距离，用公式表示为:

其中，为真实类概率估计值，d为豪斯多夫距离(Hausdorff distance)。

示例性的，假设有两类分类标签1和2，某样本属于标签1，该样本与标签1集合的距离为0.6，与标签2集合的距离为0.5，则信任得分为0.6/0.5＝1.2。

真实类概率(TCP)置信度则是通过基于学习的方法来得到置信度估计值。

其中，模型的输入：对话数据和真实类概率，真实类概率为真实分类标签对应分类模型的softmax值，根据分类模型的softmax层输出计算。深度置信模型f_conf：模型为基于BERT预训练的深度学习模型，输入层为基于BERT预训练的词嵌入层，中间层采用非线性变换层神经网络，输出层为全连接层加上sigmoid函数。模型输出：预测的真实分类标签的概率值，为一个标量。整体步骤如下：(s1)基于分类模型，获取模型输入数据，包括对话数据和真实类概率；(s2)将输入数据输入深度置信模型，训练深度置信模型；(s3)深度置信模型预测真实类概率。

本公开中使用的深度置信网络f_conf，用公式表示为：

其中，f_g是生成模型，f_c是评测模型(本公开中为基于BERT预训练的深度学习分类模型)，为真实类概率预测值。定义训练时的loss，用公式表示为：

其中，是真实类概率目标值，/>为真实类概率预测值，θ为深度置信网络的参数。

示例性的，某一测试样本对应的分类模型softmax层输出为[0.1,0.3,0.6]，分类标签共有3类，真实分类标签为第2类，则最大类概率为0.3。根据分类模型算法，可以得出每个样本的最大类概率数值，所有样本的最大类概率目标向量为[0.4,0.2,…,0.3,0.7,0.8]，即对话数据通过BERT预训练模型后，得到对话数据的特征。将上述对话数据特征与最大类概率目标向量，输入深度置信网络中，进行训练，即可获得最小化损失函数L_conf的模型参数θ，模型训练完毕后，通过预测得到真实类概率预测值/>

(3)人力消耗评估模块

此模块用来评估人力消耗此处，使用时间成本即评测人标注花费时间来表示人力消耗。此模块是一个基于标注花费时间的人力消耗估计模型f_l，该模型采用回归随机森林实现，本方案的具体步骤为：(s1)根据特征提取函数h，提取可能影响人力消耗的两类特征，第一类特征为对话相关特征，第二类为评测人相关特征；(s2)将提取到的两类特征和标注花费时间的数据输入随机森林模型，进行模型训练；(s3)模型预测标注花费时间，即为人力消耗。用公式表示为：

其中，为输入，/>为输出，f_l为随机森林模型，h为两类特征提取函数。两类特征提取函数h根据特征的内涵进行定义，定义如下：第一类特征，为对话相关特征，包括：a.总语句数:根据对话涵盖的总语句数目计算；b.总词数：根据对话中的词语数目计算；c.对话的可读性分数，包括Flesch-Kincaid可读性分数和Dale–Chall可读性分数，根据对应的公式计算；d.对话的混淆度分数：基于BERT预训练语言模型，计算对话中的m个词组成的序列(n-gram)出现的概率；e.对话是否含有目标分类标签：根据分类模型的预测分类标签判断，含有目标分类标签则为1，不含有目标分类标签则为0。第二类特征，为评测人相关特征，包括：a.评测人评测能力测试得分：选取10个分类样本，要求评测人进行分类，分类正确得10分，错误得0分，计算总分；b.评测人既往任务通过率：评测人标注通过率。

实施例二：

本实施例的目的是提供一种人机协同的对话***评测***。

一种人机协同的对话***评测***，包括：

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述实施例提供的一种人机协同的对话***评测方法及***可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种人机协同的对话***评测方法，其特征在于，包括：

利用整数线性规划算法，以最大化评测置信度和最小化人力消耗为目标进行优化，根据优化结果将对话样本数据集中的样本分配给人工和机器进行评测，完成对话***评测；

所述利用整数线性规划算法，将对话样本数据集中的样本分别分配给人工和机器进行评测，具体为：

2.如权利要求1所述的一种人机协同的对话***评测方法，其特征在于，所述采用回归随机森林模型计算每条样本的人力消耗，具体为：

3.如权利要求1所述的一种人机协同的对话***评测方法，其特征在于，所述对话样本数据集中每条样本包括对话上下文以及待测评对话***模型生成的回复。

4.如权利要求1所述的一种人机协同的对话***评测方法，其特征在于，所述置信度评测模型采用最大概率分类模型，通过预测样本中对话***模型生成的回复是否为恶意回复以及是否带有指定情感进行分类，并根据分类结果的概率作为机器评测置信度。

5.如权利要求1所述的一种人机协同的对话***评测方法，其特征在于，所述置信度评测模型还可以采用信任得分模型进行计算，通过计算测试数据样本到未预测类别的豪斯多夫距离和数据样本到预测类别的豪斯多夫距离之间的比值，作为机器评测置信度。

6.如权利要求1所述的一种人机协同的对话***评测方法，其特征在于，所述置信度评测模型还可以采用真实类概率模型进行计算，通过预训练的置信网络对测试数据样本的机器评测置信度进行估计。

7.一种人机协同的对话***评测***，其特征在于，包括：

评测样本分配单元，其用于利用整数线性规划算法，以最大化评测置信度和最小化人力消耗为目标进行优化，根据优化结果将对话样本数据集中的样本分配给人工和机器进行评测，完成对话***评测；

8.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6任一项所述的一种人机协同的对话***评测方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述的一种人机协同的对话***评测方法。