CN109947924A

CN109947924A - 对话***训练数据构建方法、装置、电子设备及存储介质

Info

Publication number: CN109947924A
Application number: CN201910215916.1A
Authority: CN
Inventors: 韩磊; 张红阳; 陈雷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-06-28
Anticipated expiration: 2039-03-21
Also published as: CN109947924B

Abstract

本申请提出一种对话***训练数据构建方法、装置、电子设备及存储介质，其中，该方法包括：对对话***的历史使用数据进行统计处理，确定对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果；根据每个历史查询语句对应的查询频次及识别结果，从历史查询语句集中获取参考查询语句；判断全部参考查询语句的数量是否大于第一阈值；若是，则利用全部参考查询语句及全部参考查询语句对应的识别结果，构建对话***的训练数据集。由此，通过这种对话***训练数据构建方法，不仅节约了人工成本，提高了训练数据集的构建效率，而且进一步提高了对话***的准确性和可靠性。

Description

对话***训练数据构建方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种对话***训练数据构建方法、装置、电子设备及存储介质。

背景技术

随着机器学习技术的发展，特别是近年来神经网络的迅猛发展，有效的训练数据变得越来越重要，甚至被称为未来的“数据石油”。自然语言处理(Natural LanguageProcessing，简称NLP)领域的口语化理解(Spoken Language Understanding，简称SLU)任务，旨在解决人机对话中的语义理解问题，将口语对话(query)解析为意图(intent)和槽位(slot)这种结构化数据以便计算机处理。

相关技术中，机器学习技术是实现SLU任务的一种主要方法。通过机器学习技术实现SLU任务，需要大量且有效的训练数据来训练模型。目前，通常通过人工对数据进行标注，以构建训练数据。但是，这种通过人工方式对数据进行标注的方法，不仅成本高，而且效率低。

发明内容

本申请提出的对话***训练数据构建方法、装置、电子设备及存储介质，用于解决相关技术中，通过人工方式对数据进行标注以构建训练数据的方法，不仅成本高，而且效率低的问题。

本申请一方面实施例提出的对话***训练数据构建方法，包括：对对话***的历史使用数据进行统计处理，确定所述对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果；根据每个历史查询语句对应的查询频次及识别结果，从所述历史查询语句集中获取参考查询语句；判断全部参考查询语句的数量是否大于第一阈值；若是，则利用所述全部参考查询语句及所述全部参考查询语句对应的识别结果，构建所述对话***的训练数据集。

本申请另一方面实施例提出的对话***训练数据构建装置，包括：第一确定模块，用于对对话***的历史使用数据进行统计处理，确定所述对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果；第一获取模块，用于根据每个历史查询语句对应的查询频次及识别结果，从所述历史查询语句集中获取参考查询语句；第一判断模块，用于判断全部参考查询语句的数量是否大于第一阈值；构建模块，用于若是，则利用所述全部参考查询语句及所述全部参考查询语句对应的识别结果，构建所述对话***的训练数据集。

本申请再一方面实施例提出的电子设备，其包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如前所述的对话***训练数据构建方法。

本申请再一方面实施例提出的计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如前所述的对话***训练数据构建方法。

本申请又一方面实施例提出的计算机程序，该程序被处理器执行时，以实现本申请实施例所述的对话***训练数据构建方法。

本申请实施例提供的对话***训练数据构建方法、装置、电子设备、计算机可读存储介质及计算机程序，可以对对话***的历史使用数据进行统计处理，确定对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果并根据每个历史查询语句对应的查询频次及识别结果，从历史查询语句集中获取参考查询语句，进而在全部参考查询语句的数量大于第一阈值时，利用全部参考查询语句及全部参考查询语句对应的识别结果，构建对话***的训练数据集。由此，通过根据对话***的历史使用数据中各历史查询语句对应的查询频次及对应的识别结果，选取符合条件的历史查询语句，进而利用符合条件的各历史查询语句及其对应的识别结果构建训练数据集，从而实现了在构建训练数据集过程中，无需人工参与，不仅节约了人工成本，而且提高了训练数据集的构建效率，降低了模型训练的周期，并且由于构建的训练数据集更贴近对话***的使用需求，从而进一步提高了对话***的准确性和可靠性。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种对话***训练数据构建方法的流程示意图；

图2为本申请实施例所提供的另一种对话***训练数据构建方法的流程示意图；

图3为本申请实施例所提供的一种对话***训练数据构建装置的结构示意图；

图4为本申请实施例所提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的要素。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请实施例针对相关技术中，通过人工方式对数据进行标注以构建训练数据的方法，不仅成本高，而且效率低的问题，提出一种对话***训练数据构建方法。

本申请实施例提供的对话***训练数据构建方法，可以对对话***的历史使用数据进行统计处理，确定对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果并根据每个历史查询语句对应的查询频次及识别结果，从历史查询语句集中获取参考查询语句，进而在全部参考查询语句的数量大于第一阈值时，利用全部参考查询语句及全部参考查询语句对应的识别结果，构建对话***的训练数据集。由此，通过根据对话***的历史使用数据中各历史查询语句对应的查询频次及对应的识别结果，选取符合条件的历史查询语句，进而利用符合条件的各历史查询语句及其对应的识别结果构建训练数据集，从而实现了在构建训练数据集过程中，无需人工参与，不仅节约了人工成本，而且提高了训练数据集的构建效率，降低了模型训练的周期，并且由于构建的训练数据集更贴近对话***的使用需求，从而进一步提高了对话***的准确性和可靠性。

下面参考附图对本申请提供的对话***训练数据构建方法、装置、电子设备、存储介质及计算机程序进行详细描述。

图1为本申请实施例所提供的一种对话***训练数据构建方法的流程示意图。

如图1所示，该对话***训练数据构建方法，包括以下步骤：

步骤101，对对话***的历史使用数据进行统计处理，确定所述对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果。

其中，对话***的历史使用数据，可以是从对话***的日志数据中获取的；历史查询语句对应的识别结果，可以包括历史查询语句对应的对话意图、槽位等数据。

在本申请实施例中，可以对从对话***的日志数据中获取的历史使用数据进行统计处理，以确定历史使用数据中包括的各历史查询语句，以及各历史查询语句对应的识别结果，并利用确定的各历史查询语句及其对应的识别结果，构成历史查询语句集，进而对历史查询数据集中的各历史查询语句的数量进行统计，以确定每个历史查询语句对应的查询频次。

作为一种可能的实现方式，可以预设对对话***的历史使用数据进行统计处理的周期，以保证获取的历史使用数据的时效性，从而使得最终获得的训练数据集更加符合对话***当前的实际应用需求。比如，预设的周期可以是半年，一个月等。

实际使用时，对对话***的历史使用数据进行统计处理的周期，可以根据实际需要预设，本申请实施例对此不做限定。

步骤102，根据每个历史查询语句对应的查询频次及识别结果，从所述历史查询语句集中获取参考查询语句。

其中，参考查询语句，是指从历史查询语句集中获取的、查询频次及识别结果符合构建训练数据集要求的历史查询语句，用于构建训练数据集。

需要说明的是，在对话***中，查询语句的查询频次越高，对话***对查询语句的识别效果越好，即查询语句的查询频次越高，查询语句对应的识别结果越接近于用户的真正意图，识别准确率高。因此，可以将历史查询语句集中查询频次较高的历史查询语句，确定为参考查询语句。即在本申请实施例一种可能的实现形式中，上述步骤102，可以包括：

根据每个历史查询语句对应的查询频次，对所述历史查询语句集中各历史查询语句进行排序处理；

确定排序顺序位于预设范围内、且包含识别结果的历史查询语句，为参考查询语句。

作为一种可能的实现方式，由于查询频次越高的查询语句，对话***对其的识别效果越好，而且在通过对话***的历史查询语句构建训练数据集时，可以将历史查询语句对应的识别结果，作为历史查询语句的标注数据，因此，在本申请实施例一种可能的实现形式中，可以将历史查询语句集中对应的查询频次较高、且包含识别结果的历史查询语句，确定为参考查询语句。

具体的，可以首先根据历史查询语句集中每个历史查询语句的查询频次，对各历史查询语句进行排序处理，进而根据对各历史查询语句的排序结果，确定出排序顺序位于预设范围，且包含识别结果的各历史查询语句，并将确定出的各历史查询语句确定为参考查询语句。

举例来说，预设范围为前20％，根据对历史查询语句集中各历史查询语句的排序结果，确定历史查询语句1～1000的排序顺序位于前20％，而历史查询语句10与历史查询语句201未包含识别结果，则可以将历史查询语句1～9、11～200、202～1000，确定为参考查询语句。

需要说明的是，上述举例仅为示例性的，不能视为对本申请的限制。实际使用时，参考查询语句的排位顺序所在的预设范围，可以根据实际需要预设，本申请实施例对此不做限定。

进一步的，由于历史查询语句集中包含大量的历史查询语句，因此可能存在查询频次相同的历史查询语句，从而对历史查询语句的排序造成干扰，导致查询频次相同的多个历史查询语句无法正常排序。因此，在本申请实施例一种可能的实现形式中，还可以对查询频次相同的多个历史查询语句进行去重处理。

可选的，对查询频次相同的多个历史查询语句进行去重处理，可以是对查询频次相同的多个历史查询语句进行合并处理，以改变查询频次与多个历史查询语句的对应关系，即使得查询频次相同的多个历史查询语句与一个查询频次对应，从而使得对历史查询语句集中的各历史查询语句进行排序处理时，查询频次相同的多个历史查询语句的排序顺序相同。

步骤103，判断全部参考查询语句的数量是否大于第一阈值。

需要说明的是，在构建训练数据集时，训练数据集中的训练数据需要具有一定的规模，从而使得依据训练数据集训练出的模型更加可靠。因此，在本申请实施例一种可能的实现形式中，在确定出各参考查询语句之后，可以判断全部参考查询语句的数量是否可以达到构建训练数据集所需的训练数据的规模，即可以判断全部参考查询语句的数量是否大于第一阈值。

具体的，若全部参考查询语句的数量大于第一阈值，则可以确定获取的全部参考查询语句可以满足构建训练数据集所需的训练数据的规模；若全部参考查询语句的数量小于或等于第一阈值，则可以确定获取的全部参考查询语句未满足构建训练数据集所需的训练数据的规模，即可以继续从历史查询数据集中获取其他历史查询语句，扩充参考查询语句的规模，以满足构建训练数据集所需的训练数据的规模。

需要说明的是，实际使用时，全部参考查询语句的数量需要满足的第一阈值，可以根据实际需要及具体的模型类型等确定，本申请实施例对此不做限定。比如，第一阈值可以是1000。

步骤104，若是，则利用所述全部参考查询语句及所述全部参考查询语句对应的识别结果，构建所述对话***的训练数据集。

在本申请实施例中，若获取的全部参考查询语句的数量大于第一阈值，即全部参考查询语句的数量可以达到构建训练数据集所需的训练数据的规模，则可以直接利用全部参考查询语句及全部参考查询语句对应的识别结果，构建对话***的训练数据集。其中，参考查询语句对应的识别结果，可以作为该参考查询语句对应的标注信息。

在本申请一种可能的实现形式中，若全部参考查询语句的数量不大于第一阈值，还可以将确定的参考查询语句作为种子集合，从历史查询语句集中，继续获取其他历史查询语句与参考查询语句共同构建训练数据集。比如，可以根据历史查询语句集中其他历史查询语句与参考查询语句的语义相似度，以及其他历史查询语句对应的识别结果与参考查询语句对应的识别结果的语义相似度，从历史查询语句集中获取构建训练数据集的其他历史查询语句，以在满足训练数据集规模要求的同时，保证训练数据集的质量。

下面结合图2，对本申请实施例提供的对话***训练数据构建方法进行进一步说明。

图2为本申请实施例所提供的另一种对话***训练数据构建方法的流程示意图。

如图2所示，该对话***训练数据构建方法，包括以下步骤：

步骤201，对对话***的历史使用数据进行统计处理，确定所述对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果。

步骤202，根据每个历史查询语句对应的查询频次及识别结果，从所述历史查询语句集中获取参考查询语句。

步骤203，判断全部参考查询语句的数量是否大于第一阈值，若是，则执行步骤204；否则，执行步骤205。

步骤204，利用所述全部参考查询语句及所述全部参考查询语句对应的识别结果，构建所述对话***的训练数据集。

上述步骤201-204的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤205，根据每个参考查询语句与每个非参考查询语句的语义相似度、及参考查询语句对应的第一识别结果与非参考查询语句对应的第二识别结果间的匹配度，从非参考查询语句中获取补充查询语句。

在本申请实施例中，构建训练数据集时，训练数据集中的训练数据需要具有一定的规模，从而使得依据训练数据集训练出的模型更加可靠。因此，在本申请实施例一种可能的实现形式中，在确定出各参考查询语句之后，可以判断全部参考查询语句的数量是否可以达到构建训练数据集所需的训练数据的规模，即可以判断全部参考查询语句的数量是否大于第一阈值。

具体的，若全部参考查询语句的数量大于第一阈值，则可以确定获取的全部参考查询语句可以满足构建训练数据集所需的训练数据的规模，即可以直接利用获取的全部参考查询语句及全部参考查询语句对应的识别结果构建训练数据集；若全部参考查询语句的数量小于或等于第一阈值，则可以确定获取的全部参考查询语句未满足构建训练数据集所需的训练数据的规模，即可以继续从历史查询数据集中获取其他历史查询语句，扩充参考查询语句的规模，以满足构建训练数据集所需的训练数据的规模。

作为一种可能的实现方式，由于对话***对查询频次较高的查询语句的识别效果较好，对查询频次较低的查询语句的识别效果较差，而本申请实施例确定的参考查询语句均为历史查询语句集中查询频次最高的历史查询语句，因此，可以将确定的参考查询语句作为种子集合，对历史查询语句集中的非参考查询语句进行筛选，以从非参考查询语句中获取补充查询语句，以对构建训练数据集的查询语句进行扩充。

可选的，可以首先确定每个参考查询语句与历史查询语句集中每个非参考查询语句的语义相似度，以及每个参考查询预计对应的第一识别结果与每个非参考查询语句对应的第二识别结果的匹配度，进而根据每个参考查询语句与历史查询语句集中每个非参考查询语句的语义相似度，以及每个参考查询语句对应的第一识别结果与每个非参考查询语句对应的第二识别结果的匹配度，对历史查询语句集中的非参考查询数据进行筛选，以获取补充查询语句。

具体的，可以将与任一参考查询语句的语义相似且与该任一参考查询语句对应的对话意图的匹配的非参考查询语句，确定为补充查询语句。即在本申请实施例一种可能的实现形式中，上述步骤205，可以包括：

获取与任一参考查询语句的语义相似度大于第二阈值、且与所述任一参考查询语句的对话意图的匹配度大于第三阈值的非参考查询语句，为补充查询语句。

其中，查询语句的对话意图，可以包含在查询语句对应的识别结果中。需要说明的是，查询语句对应的识别结果，可以包括查询语句的对话意图，有时也可以包括查询语句的槽位。但是，由于有些查询语句对应的识别结果中，可以未包括查询语句的槽位，因此，在本申请实施例一种可能的实现形式中，参考查询语句对应的第一识别结果与非参考查询语句对应的第二识别结果的匹配度，可以是指参考查询语句的对话意图与非参考查询语句的对话意图的匹配度。

作为一种可能的实现方式，可以预设补充查询语句与参考查询语句的语义相似度的第二阈值，以及补充查询语句与参考查询语句的对话意图的匹配度的第三阈值，并在非参考查询语句与参考查询语句的语义相似度大于第二阈值时，确定非参考查询语句与该参考查询语句的语义相似，以及在非参考查询语句的对话意图与参考查询语句的对话意图的匹配度大于第三阈值时，确定非参考查询语句与参考查询语句的对话意图匹配。因此，在本申请实施例中，若非参考查询语句与任一参考查询语句的语义相似度大于第二阈值，且该非参考查询语句的对话意图与该任一参考查询语句的对话意图的匹配度大于第三阈值，则可以将该非参考查询语句确定为补充查询语句。

需要说明的是，非参考查询语句的对话意图与参考查询语句的对话意图的匹配度，可以非参考查询语句的对话意图与参考查询语句的对话意图的语义相似度。实际使用时，可以根据实际需要预设非参考查询语句的对话意图与参考查询语句的对话意图的匹配度的确定方式，本申请实施例对此不做限定。

进一步的，在确定出补充查询语句之后，还可以根据与补充查询语句的语义相似度大于第二阈值的参考查询语句对应的第一识别结果，对补充查询语句对应的第二识别结果进行归一化处理，以提高补充查询语句对应的识别结果的准确性，从而进一步提高构建的训练数据集中各训练数据对应的标注信息的准确性。即在本申请实施例一种可能的实现形式中，上述步骤205之后，还可以包括：

将匹配度大于第三阈值的第一识别结果及第二识别结果进行归一化处理。

作为一种可能的实现方式，由于参考查询语句对应的查询频次高于补充查询语句对应的查询频次，因此，参考查询语句对应的识别结果的准确度也高于补充查询语句对应的准确度。并且，在本申请实施例中，补充查询语句是根据与参考查询语句的语义相似度及非参考查询语句的匹配度，从非参考查询语句中筛选的，因此，可以认为补充查询语句与其对应的参考查询语句(与该补充查询语句的语义相似度大于第二阈值，且对话意图与该补充查询语句的对话意图大于第三阈值的参考查询语句)的语义及对话意图均相同，因此，可以利用与补充查询语句对应的参考查询语句的识别结果，对该补充查询语句的识别结果进行归一化处理，即将匹配度大于第三阈值的第一识别结果及第二识别结果进行归一化处理。可选的，可以将第二识别结果修改为第一识别结果。

步骤206，利用所述全部参考查询语句、全部参考查询语句对应的识别结果、全部补充查询语句及全部补充查询语句对应的识别结果，构建所述对话***的训练数据集。

在本申请实施例中，从历史查询语句集中获取到参考查询语句及补充查询语句之后，即可利用获取的全部参考查询语句、全部参考查询语句对应的识别结果、全部补充查询语句及全部补充查询语句对应的识别结果，构建对话***的训练数据集，并将参考查询语句对应的识别结果，确定为该参考查询语句对应的标注数据，以及将补充查询语句对应的识别结果，确定为该补充查询语句对应的标注数据，以利用每条查询语句及其对应的标注数据，构成训练数据集中的一条训练数据。

进一步的，为保证构建的训练数据集中训练数据的多样性及均衡性，提高利用构建的训练数据集训练生成的模型在各种场景中的识别准确率，还可以对构建的训练数据集中的各识别结果对应的查询语句进行均衡化处理。即在本申请实施例一种可能的实现形式中，上述步骤206之后，还可以包括：

确定所述训练数据集中包含的识别结果的数量及每种识别结果对应的查询语句的数量；

判断各识别结果对应的查询语句的数量间的差值是否均在预设范围内；

若否，则对所述训练数据集中的各识别结果对应的查询语句进行均衡处理，生成所述对话***更新后的训练数据集。

作为一种可能的实现方式，可以首先确定出训练数据集中包含的各识别结果，以及各识别结果分别对应的查询语句的数量，进而判断各识别结果对应的查询语句的数量间的差值是否均在预设范围内，若各识别结果对应的查询语句的数量间的差值均在预设范围内，即各识别结果对应的查询语句的数量相当，则可以确定当前训练数据集中各识别结果的比例关系持平，即训练数据集中的识别意图比例关系与实际生产环境中识别意图的比例关系一致，从而无需对训练数据集进行更新。

若存在对应的查询语句的数量与其他识别结果对应的查询语句的数量的差值不在预设范围内的识别结果，即该识别结果对应的查询语句的数量与其他识别结果对应的查询语句的数量相差较大，则可以确定当前训练数据集中各识别结果的比例关系不均衡，可能会对最终训练出的模型的识别准确性造成影响，或对模型的适用场景造成现在，则可以对训练数据集中各识别结果对应的查询语句进行均衡处理，生成对话***更新后的训练数据集，以使更新后的训练数据集中各识别结果的比例关系持平，从而改善最终训练出的模型的识别准确率，以及扩大模型的应用范围。

可选的，在对训练数据集中各识别结果对应的查询语句进行均衡处理时，可以识别结果对应的查询语句进行上采样，以对该识别结果对应的查询语句进行裁剪；或者，也可以对识别结果对应的查询语句进行下采样，以对该识别结果对应的查询语句进行扩充。

举例来说，若训练数据集中识别结果A对应的查询语句的数量远小于其他识别结果对应的查询语句的数量，即识别结果A对应的查询语句的数量与其他识别结果对应查询语句的数量的差值不在预设范围内，则可以对识别结果A对应的查询语句进行扩充，以使识别结果A对应的查询语句的数量与其他识别结果对应的查询语句的数量均衡；再比如，若训练数据集中各识别结果对应的查询语句的数量均符合要求，而识别结果B对应的查询语句的数量远大于其他识别结果对应的查询语句的数量，则可以对识别结果B对应的查询语句进行裁剪处理，以是识别结果B对应的查询语句的数量与其他识别结果对应的查询语句的数量均衡。

需要说明的是，各识别结果对应的查询语句的数量的差值所在的预设范围，可以根据实际需要预设，本申请实施例对此不做限定。

本申请实施例提供的对话***训练数据构建方法，可以对对话***的历史使用数据进行统计处理，确定对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果并根据每个历史查询语句对应的查询频次及识别结果，从历史查询语句集中获取参考查询语句，进而在全部参考查询语句的数量大于第一阈值时，利用全部参考查询语句及全部参考查询语句对应的识别结果，构建对话***的训练数据集，在全部参考查询语句的数量大于第一阈值时，根据每个参考查询语句与每个非参考查询语句的语义相似度、及参考查询语句对应的第一识别结果与非参考查询语句对应的第二识别结果间的匹配度，从非参考查询语句中获取补充查询语句，并利用全部参考查询语句、全部参考查询语句对应的识别结果、全部补充查询语句及全部补充查询语句对应的识别结果，构建对话***的训练数据集。由此，通过根据历史查询语句集中非参考查询语句与参考查询语句的语义相似度，及非参考查询语句对应的识别结果与参考查询结果对应的识别结果的匹配度，对构建训练数据集的查询语句进行扩充，从而不仅节约了人工成本，提高了训练数据集的构建效率，而且进一步提高了训练数据集的质量，以及对话***的准确性和可靠性。

为了实现上述实施例，本申请还提出一种对话***训练数据构建装置。

图3为本申请实施例提供的一种对话***训练数据构建装置的结构示意图。

如图3所示，该对话***训练数据构建装置30，包括：

第一确定模块31，用于对对话***的历史使用数据进行统计处理，确定所述对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果；

第一获取模块32，用于根据每个历史查询语句对应的查询频次及识别结果，从所述历史查询语句集中获取参考查询语句；

第一判断模块33，用于判断全部参考查询语句的数量是否大于第一阈值；

构建模块34，用于若是，则利用所述全部参考查询语句及所述全部参考查询语句对应的识别结果，构建所述对话***的训练数据集。

在实际使用时，本申请实施例提供的对话***训练数据构建装置，可以被配置在任意电子设备中，以执行前述对话***训练数据构建方法。

本申请实施例提供的对话***训练数据构建装置，可以对对话***的历史使用数据进行统计处理，确定对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果并根据每个历史查询语句对应的查询频次及识别结果，从历史查询语句集中获取参考查询语句，进而在全部参考查询语句的数量大于第一阈值时，利用全部参考查询语句及全部参考查询语句对应的识别结果，构建对话***的训练数据集。由此，通过根据对话***的历史使用数据中各历史查询语句对应的查询频次及对应的识别结果，选取符合条件的历史查询语句，进而利用符合条件的各历史查询语句及其对应的识别结果构建训练数据集，从而实现了在构建训练数据集过程中，无需人工参与，不仅节约了人工成本，而且提高了训练数据集的构建效率，降低了模型训练的周期，并且由于构建的训练数据集更贴近对话***的使用需求，从而进一步提高了对话***的准确性和可靠性。

在本申请一种可能的实现形式中，上述对话***训练数据构建装置30，还包括：

第二获取模块，用于若否，则根据每个参考查询语句与每个非参考查询语句的语义相似度、及参考查询语句对应的第一识别结果与非参考查询语句对应的第二识别结果间的匹配度，从非参考查询语句中获取补充查询语句；

相应的，上述构建模块34，包括：

构建单元，用于利用所述全部参考查询语句、全部参考查询语句对应的识别结果、全部补充查询语句及全部补充查询语句对应的识别结果，构建所述对话***的训练数据集。

进一步的，在本申请另一种可能的实现形式中，上述第二获取模块，包括：

获取单元，用于获取与任一参考查询语句的语义相似度大于第二阈值、且与所述任一参考查询语句的对话意图的匹配度大于第三阈值的非参考查询语句，为补充查询语句。

进一步的，在本申请再一种可能的实现形式中，上述对话***训练数据构建装置30，还包括：

第一处理模块，用于将匹配度大于第三阈值的第一识别结果及第二识别结果进行归一化处理。

进一步的，在本申请又一种可能的实现形式中，上述对话***训练数据构建装置30，还包括：

第二确定模块，用于确定所述训练数据集中包含的识别结果的数量及每种识别结果对应的查询语句的数量；

第二判断模块，用于判断各识别结果对应的查询语句的数量间的差值是否均在预设范围内；

第二处理模块，用于若否，则对所述训练数据集中的各识别结果对应的查询语句进行均衡处理，生成所述对话***更新后的训练数据集。

在本申请一种可能的实现形式中，上述第一获取模块32，包括：

排序单元，用于根据每个历史查询语句对应的查询频次，对所述历史查询语句集中各历史查询语句进行排序处理；

确定单元，用于确定排序顺序位于预设范围内、且包含识别结果的历史查询语句，为参考查询语句。

需要说明的是，前述对图1、图2所示的对话***训练数据构建方法实施例的解释说明也适用于该实施例的对话***训练数据构建装置30，此处不再赘述。

本申请实施例提供的对话***训练数据构建装置，可以对对话***的历史使用数据进行统计处理，确定对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果并根据每个历史查询语句对应的查询频次及识别结果，从历史查询语句集中获取参考查询语句，进而在全部参考查询语句的数量大于第一阈值时，利用全部参考查询语句及全部参考查询语句对应的识别结果，构建对话***的训练数据集，在全部参考查询语句的数量大于第一阈值时，根据每个参考查询语句与每个非参考查询语句的语义相似度、及参考查询语句对应的第一识别结果与非参考查询语句对应的第二识别结果间的匹配度，从非参考查询语句中获取补充查询语句，并利用全部参考查询语句、全部参考查询语句对应的识别结果、全部补充查询语句及全部补充查询语句对应的识别结果，构建对话***的训练数据集。由此，通过根据历史查询语句集中非参考查询语句与参考查询语句的语义相似度，及非参考查询语句对应的识别结果与参考查询结果对应的识别结果的匹配度，对构建训练数据集的查询语句进行扩充，从而不仅节约了人工成本，提高了训练数据集的构建效率，而且进一步提高了训练数据集的质量，以及对话***的准确性和可靠性。

为了实现上述实施例，本申请还提出一种电子设备。

图4为本发明一个实施例的电子设备的结构示意图。

如图4所示，上述电子设备200包括：

存储器210及处理器220，连接不同组件(包括存储器210和处理器220)的总线230，存储器210存储有计算机程序，当处理器220执行所述程序时实现本申请实施例所述的对话***训练数据构建方法。

总线230表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

电子设备200典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备200访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器210还可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)240和/或高速缓存存储器250。电子设备200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***260可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块270的程序/实用工具280，可以存储在例如存储器210中，这样的程序模块270包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本申请所描述的实施例中的功能和/或方法。

电子设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且，电子设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器293通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理器220通过运行存储在存储器210中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本申请实施例的对话***训练数据构建方法的解释说明，此处不再赘述。

本申请实施例提供的电子设备，可以执行如前所述的对话***训练数据构建方法，对对话***的历史使用数据进行统计处理，确定对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果并根据每个历史查询语句对应的查询频次及识别结果，从历史查询语句集中获取参考查询语句，进而在全部参考查询语句的数量大于第一阈值时，利用全部参考查询语句及全部参考查询语句对应的识别结果，构建对话***的训练数据集。由此，通过根据对话***的历史使用数据中各历史查询语句对应的查询频次及对应的识别结果，选取符合条件的历史查询语句，进而利用符合条件的各历史查询语句及其对应的识别结果构建训练数据集，从而实现了在构建训练数据集过程中，无需人工参与，不仅节约了人工成本，而且提高了训练数据集的构建效率，降低了模型训练的周期，并且由于构建的训练数据集更贴近对话***的使用需求，从而进一步提高了对话***的准确性和可靠性。

为了实现上述实施例，本申请还提出一种计算机可读存储介质。

其中，该计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，以实现本申请实施例所述的对话***训练数据构建方法。

为了实现上述实施例，本申请再一方面实施例提供一种计算机程序，该程序被处理器执行时，以实现本申请实施例所述的对话***训练数据构建方法。

一种可选实现形式中，本实施例可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种对话***训练数据构建方法，其特征在于，包括：

对对话***的历史使用数据进行统计处理，确定所述对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果；

根据每个历史查询语句对应的查询频次及识别结果，从所述历史查询语句集中获取参考查询语句；

判断全部参考查询语句的数量是否大于第一阈值；

若是，则利用所述全部参考查询语句及所述全部参考查询语句对应的识别结果，构建所述对话***的训练数据集。

2.如权利要求1所述的方法，其特征在于，所述判断全部参考查询语句的数量是否大于第一阈值之后，还包括：

若否，则根据每个参考查询语句与每个非参考查询语句的语义相似度、及参考查询语句对应的第一识别结果与非参考查询语句对应的第二识别结果间的匹配度，从非参考查询语句中获取补充查询语句；

所述构建所述对话***的训练数据集，包括：

利用所述全部参考查询语句、全部参考查询语句对应的识别结果、全部补充查询语句及全部补充查询语句对应的识别结果，构建所述对话***的训练数据集。

3.如权利要求2所述的方法，其特征在于，所述从非参考查询语句中获取补充查询语句，包括：

4.如权利要求2所述的方法，其特征在于，所述从非参考查询语句中获取补充查询语句之后，还包括：

5.如权利要求4所述的方法，其特征在于，所述构建所述对话***的训练数据集之后，还包括：

6.如权利要求1-5任一所述的方法，其特征在于，所述根据每个历史查询语句对应的查询频次及识别结果，从所述历史查询语句集中获取参考查询语句，包括：

7.一种对话***训练数据构建装置，其特征在于，包括：

第一确定模块，用于对对话***的历史使用数据进行统计处理，确定所述对话***对应的历史查询语句集、每个历史查询语句对应的查询频次及每个历史查询语句对应的识别结果；

第一获取模块，用于根据每个历史查询语句对应的查询频次及识别结果，从所述历史查询语句集中获取参考查询语句；

第一判断模块，用于判断全部参考查询语句的数量是否大于第一阈值；

构建模块，用于若是，则利用所述全部参考查询语句及所述全部参考查询语句对应的识别结果，构建所述对话***的训练数据集。

8.如权利要求7所述的装置，其特征在于，还包括：

所述构建模块，包括：

9.如权利要求8所述的装置，其特征在于，所述第二获取模块，包括：

10.如权利要求8所述的装置，其特征在于，还包括：

11.如权利要求10所述的装置，其特征在于，还包括：

12.如权利要求7-11任一所述的装置，其特征在于，所述第一获取模块，包括：

13.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一所述的对话***训练数据构建方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的对话***训练数据构建方法。