CN115495568A

CN115495568A - 一种对话模型的训练方法及装置、对话响应方法及装置

Info

Publication number: CN115495568A
Application number: CN202211441290.4A
Authority: CN
Inventors: 刘红丽; 李峰
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2022-12-20
Anticipated expiration: 2042-11-17
Also published as: CN115495568B; WO2024103609A1

Abstract

本发明公开了一种对话模型的训练方法，包括：利用通用对话数据集对原始对话模型进行训练，得到通用对话模型；获取预设的专业关键词组，根据专业关键词组对通用对话数据集进行数据筛选；利用筛选到的初始标注数据集对通用对话模型进行训练，得到初始专业对话模型；利用验证数据集和预设自然语言处理评价指标对初始专业对话模型进行验证，得到验证得分；判断验证得分是否大于预设得分阈值；若是，则将初始专业对话模型确定为目标专业对话模型。本发明使得训练出来的目标专业对话模型同时拥有通用性和专业性，提升了用户使用体验。本发明还公开了一种对话模型的训练装置、对话响应方法及装置、电子设备及计算机可读存储介质，具有相应技术效果。

Description

一种对话模型的训练方法及装置、对话响应方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种对话模型的训练方法及装置、对话响应方法及装置、电子设备及计算机可读存储介质。

背景技术

人机对话作为自然语言处理（Natural Language Processing，NLP）的一项基础应用，一直备受学术界和工业界的重视。随着人工智能技术的发展，基于生成式的对话模型越来越受欢迎，它们专门针对对话数据进行训练，在开放域对话获得了非常好的表现。但是从头开始训练对话大模型，需要大量的多类型对话数据作为训练语料，这需要的成本比较高，训练耗时长。

在专业的人机对话***中常常也会存在不同的聊天需求，包括：闲聊、常识问答以及专业问答等。如医疗机器人在与病人聊天过程中不仅要回答医疗专业知识，生活中常识问题也会涉及到，还要会闲聊排解病人的情绪。目前专业的对话模型大部分采用检索方式，其主要原理是语义匹配，即在知识库中找到用户提问的问题的答案。虽然技术已比较成熟，但太依赖于语料，知识片面、回复单一生硬，缺乏通用性和多样性，用户体验感差。

综上所述，如何有效地解决现有的对话响应方法回复单一生硬，缺乏通用性和多样性，用户体验感差等问题，是目前本领域技术人员急需解决的问题。

发明内容

本发明的目的是提供一种对话模型的训练方法，该方法使得训练出来的目标专业对话模型同时拥有通用性和专业性，提升了用户使用体验；本发明的另一目的是提供一种对话模型的训练装置、对话响应方法及装置、电子设备及计算机可读存储介质。

为解决上述技术问题，本发明提供如下技术方案：

一种对话模型的训练方法，包括：

利用预获取的通用对话数据集对原始对话模型进行训练，得到通用对话模型；

获取预设的专业关键词组，并根据所述专业关键词组对所述通用对话数据集进行数据筛选，将筛选得到的数据集确定为初始标注数据集；

利用所述初始标注数据集对所述通用对话模型进行训练，得到初始专业对话模型；

利用验证数据集和预设自然语言处理评价指标对所述初始专业对话模型进行验证操作，得到验证得分；

判断所述验证得分是否大于预设得分阈值；

若是，则将所述初始专业对话模型确定为目标专业对话模型。

在本发明的一种具体实施方式中，当确定所述验证得分小于等于所述预设得分阈值时，还包括：

利用所述初始专业对话模型针对预设未标记池中各样本数据生成对应的响应数据；

分别计算各所述响应数据对应的自动评估得分；

对各所述自动评估得分进行大小排序，从得分较小的一端选取预设数量个自动评估得分；

输出对选取得到的各所述自动评估得分对应的响应数据进行标注的标注提示信息；

根据标注结果对初始标注数据集进行更新，得到更新后标注数据集；

基于所述更新后标注数据集对所述初始专业对话模型进行训练，得到更新后专业对话模型；

利用所述验证数据集对所述更新后专业对话模型进行验证操作，得到验证得分，并重复执行所述判断所述验证得分是否大于预设得分阈值的步骤。

在本发明的一种具体实施方式中，在得到更新后标注数据集之后，还包括：

根据所述更新后标注数据集对所述预设未标记池进行更新操作。

在本发明的一种具体实施方式中，利用验证数据集和预设自然语言处理评价指标对所述初始专业对话模型进行验证操作，包括：

通过以下公式结合所述验证数据集、BLEU指标、ROUGE指标、PPL指标、DISTINCT指标对所述初始专业对话模型进行验证操作：

；

其中，

为所述初始专业对话模型在BLEU指标上的得分，

为所述初始专业对话模型在ROUGE指标上的得分，

为所述初始专业对话模型在PPL指标上的得分，采用PPL指标得分的倒数形式，

为所述初始专业对话模型在DISTINCT指标上的得分，

为验证得分。

在本发明的一种具体实施方式中，还包括所述初始专业对话模型在BLEU指标上的得分

的计算过程，所述初始专业对话模型在BLEU指标上的得分

的计算过程包括：

通过以下公式计算所述初始专业对话模型在BLEU指标上的得分

：

；

其中，

，

为机器译文的长度，

为最短的参考翻译句子的长度，

为n-gram的精确率，

为n-gram的权重，对于任意n都有

，BP 为惩罚因子。

在本发明的一种具体实施方式中，还包括所述初始专业对话模型在ROUGE指标上的得分

的计算过程，所述初始专业对话模型在ROUGE指标上的得分

的计算过程包括：

通过以下公式计算所述初始专业对话模型在ROUGE指标上的得分

：

；

其中，{参考译文}表示参考译文集合，

表示N个字的组合，

表示计算译文中N-gram的数目，公式的分母是统计在所有的参考译文中N-gram的个数，分子是统计所有参考译文与机器译文共有的N-gram个数。

在本发明的一种具体实施方式中，还包括所述初始专业对话模型在PPL指标上的得分

的计算过程，所述初始专业对话模型在PPL指标上的得分

的计算过程：

；

其中，

表示根据上文词语预测第i个词的概率，N代表句子长度。

在本发明的一种具体实施方式中，还包括所述初始专业对话模型在DISTINCT指标上的得分

的计算过程，所述初始专业对话模型在DISTINCT指标上的得分

的计算过程包括：

通过以下公式计算所述初始专业对话模型在DISTINCT指标上的得分

：

；

其中，

表示回复中不重复的ngram数量，

表示回复中ngram词语的总数量。

在本发明的一种具体实施方式中，在利用预获取的通用对话数据集对原始对话模型进行训练之前，还包括：

分别对所述通用对话数据集中的问答数据和闲聊数据进行过滤。

在本发明的一种具体实施方式中，利用预获取的通用对话数据集对原始对话模型进行训练，得到通用对话模型，包括：

将所述通用对话数据集输入至所述原始对话模型进行模型迭代训练；

获取当前迭代数和本轮迭代训练得到的损失标准差；

根据所述当前迭代数和所述损失标准差确定是否达到模型训练截止条件；

若是，则将本轮迭代训练得到的对话模型确定为所述通用对话模型。

在本发明的一种具体实施方式中，根据所述当前迭代数和所述损失标准差确定是否达到模型训练截止条件，包括：

判断所述当前迭代数是否大于第一预设值且所述损失标准差小于第二预设值。

在本发明的一种具体实施方式中，当确定所述当前迭代数大于所述第一预设值且所述损失标准差大于等于所述第二预设值时，还包括：

判断所述当前迭代数是否大于第三预设值；其中，所述第三预设值大于所述第一预设值；

若是，则执行所述将本轮迭代训练得到的对话模型确定为所述通用对话模型的步骤；

若否，则将所述通用对话数据集输入至本轮迭代训练得到的对话模型进行模型迭代训练，并重复执行所述获取当前迭代数和本轮迭代训练得到的损失标准差的步骤。

在本发明的一种具体实施方式中，根据所述专业关键词组对所述通用对话数据集进行数据筛选，包括：

利用DFA算法根据所述专业关键词组对所述通用对话数据集进行数据筛选。

一种对话响应方法，应用于包含如前训练得到的目标专业对话模型的对话***，包括：

接收待响应的目标提问语音；

利用基于对通用对话模型训练得到的目标专业对话模型生成所述目标提问语音对应的目标响应语音；

对所述目标响应语音进行输出操作。

在本发明的一种具体实施方式中，还包括：

当所述目标专业对话模型对所述目标提问语音响应失败时，基于预设检索算法从数据库中搜索相关答案；

对所述相关答案进行语音输出。

一种对话模型的训练装置，包括：

通用对话模型获得模块，用于利用预获取的通用对话数据集对原始对话模型进行训练，得到通用对话模型；

初始标注数据集确定模块，用于获取预设的专业关键词组，并根据所述专业关键词组对所述通用对话数据集进行数据筛选，将筛选得到的数据集确定为初始标注数据集；

初始专业对话模型获得模块，用于利用所述初始标注数据集对所述通用对话模型进行训练，得到初始专业对话模型；

验证得分获得模块，用于利用验证数据集和预设自然语言处理评价指标对所述初始专业对话模型进行验证操作，得到验证得分；

判断模块，用于判断所述验证得分是否大于预设得分阈值；

目标专业对话模型确定模块，用于当所述验证得分大于预设得分阈值时，将所述初始专业对话模型确定为目标专业对话模型。

一种对话响应装置，包括：

提问语音接收模块，用于接收待响应的目标提问语音；

响应语音生成模块，用于利用基于对通用对话模型训练得到的目标专业对话模型生成所述目标提问语音对应的目标响应语音；

响应语音输出模块，用于对所述目标响应语音进行输出操作。

一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如前所述对话模型的训练方法或对话响应方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述对话模型的训练方法或对话响应方法的步骤。

本发明所提供的对话模型的训练方法，利用预获取的通用对话数据集对原始对话模型进行训练，得到通用对话模型；获取预设的专业关键词组，并根据专业关键词组对通用对话数据集进行数据筛选，将筛选得到的数据集确定为初始标注数据集；利用初始标注数据集对通用对话模型进行训练，得到初始专业对话模型；利用验证数据集和预设自然语言处理评价指标对初始专业对话模型进行验证操作，得到验证得分；判断验证得分是否大于预设得分阈值；若是，则将初始专业对话模型确定为目标专业对话模型。

由上述技术方案可知，通过预先基于通用对话模型训练得到应用于特定对话场景的目标专业对话模型，大大减少了对数据量和计算力的需求，使得训练出来的目标专业对话模型同时拥有通用性和专业性，提升了用户使用体验。

相应的，本发明还提供了与上述对话模型的训练方法相对应的对话模型的训练装置、对话响应方法及装置、电子设备及计算机可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中对话模型的训练方法的一种实施流程图；

图2为本发明实施例中对话模型的训练方法的另一种实施流程图；

图3为本发明实施例中一种对话响应方法的实施流程图；

图4为本发明实施例中一种对话模型的训练装置的结构框图；

图5为本发明实施例中一种对话响应装置的结构框图；

图6为本发明实施例中一种电子设备的结构框图；

图7为本实施例提供的一种电子设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1为本发明实施例中对话模型的训练方法的一种实施流程图，该方法可以包括以下步骤：

S101：利用预获取的通用对话数据集对原始对话模型进行训练，得到通用对话模型。

预先在公开数据集中收集通用对话数据集，通用对话数据集可以分为问答和闲聊两大类。问答数据可以涉及常识、实事、母婴、医疗、法律、保险、航空、心理、中医以及疫情等多领域。闲聊数据可以包括微博讨论、电视剧对白、贴吧讨论、豆瓣评论、电商对话等多个数据集，可以涉及历史、电影、天气、娱乐、体育等日常生活的各种话题讨论。

构建通用对话数据集的具体示例如下：

词条解释类prompt格式为标题：“title”，文章：“text”。原始语料示例{"id"："0"，"url"：https：//xxx，"title"："经济学"，"text"："经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学……"}，按prompt格式组成后：标题：“经济学”，文章：“经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学……”。

问答类prompt格式：问：“title+desc”答：“answer”。原始语料示例{"qid"：0，"title"："AlphaGo只会下围棋吗，阿法狗能写小说吗"，"desc"："现在会不会有智能机器人能从事文学创作，<br>如果有，能写出什么水平的作品"，"answer"："AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的……"}，按prompt格式组成：问：“AlphaGo只会下围棋吗，阿法狗能写小说吗，现在会不会有智能机器人能从事文学创作，如果有，能写出什么水平的作品”答：“AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的……”。

阅读理解类prompt格式：context问：“question”答：“answer”。原始语料示例{"id"："0"，"context"："胆石症的治疗应区别不同情况分别处理，无症状胆囊结石可不作治疗，但应定期观察并注意良好的饮食习惯……，"，"question"："什么类型的胆囊结石可不作治疗"，"answer"，"无症状胆囊结石"}，按prompt格式组成后：胆石症的治疗应区别不同情况分别处理，无症状胆囊结石可不作治疗，但应定期观察并注意良好的饮食习惯……问：“什么类型的胆囊结石可不作治疗”答：“无症状胆囊结石”。

单轮或多轮对话类 prompt格式：对话：“dialog1”“dialog2”“dialog3” ……。按prompt格式组成后：对话：“怎么不直播了，我都看不到你人”“不播了”“可惜我这么喜欢你”……

利用预获取的通用对话数据集对原始对话模型进行训练，得到通用对话模型。

S102：获取预设的专业关键词组，并根据专业关键词组对通用对话数据集进行数据筛选，将筛选得到的数据集确定为初始标注数据集。

专业对话数据集一般由专家标记，虽然数据需求量远小于通用对话数据集，但是只靠专家标注的话也非常耗时耗力，因此预先设置专业关键词组。在利用通用对话数据集对原始对话模型进行训练，得到通用对话模型之后，获取预设的专业关键词组，并根据专业关键词组对通用对话数据集进行数据筛选，将筛选得到的数据集确定为初始标注数据集，记为

。通过设置专业关键词组从通用对话数据集中筛选得到初始标注数据集，相较于单纯的人工标注方法，较大地提升了专业对话数据集的生成效率。

在本发明的一种具体实施方式中，根据专业关键词组对通用对话数据集进行数据筛选，可以包括以下步骤：

当从通用对话数据集中筛选专业对话数据集时，利用DFA算法根据专业关键词组对通用对话数据集进行数据筛选。从而充分利用 DFA 算法可以实现高效的关键词匹配的同时，也可以实现敏感词过滤的优势。

本发明实施例采用DFA算法实现关键词匹配，从通用对话数据集中筛选出专业对话数据的流程可以包括以下步骤：

（1）专家提供专业关键词组；

（2）将专业关键词组通过建立嵌套字典的方式构建专业词链表（以一个特定字符‘\x00’作为结束）；

（3）遍历通用对话数据集中的每组对话，将其作为输入遍历专业词链表，如果遇到特定字符\x00，说明该组对话包含专业关键词，筛选出来。

专业对话数据虽然可以通过如上关键词匹配筛选出一部分，但是通常通用话数据集中涉及的专业对话有限，特别是一些偏门的专业，所以还是需要专家标注。专家标注的数据如涉及隐私，需添加脱敏处理（隐藏对话中姓名、手机号、邮箱等私密信息）。与构建通用对话数据集一样，将专业对话数据集按表1的prompt格式组成。

构建服务器专业对话数据集的具体示例如下：

如服务器智能客服属于多轮对话，对话内容：“您好，请问有什么可以帮您。”“status灯红就是跟电源有关是嘛，这个不影响服务器正常运行吧”“status是一个总的灯，机器有问题就会亮，建议把4路电都插上。”“现场没条件插4路电源，有没有办法不让status灯亮”“有，用指令，把电源策略刷成双电。”

S103：利用初始标注数据集对通用对话模型进行训练，得到初始专业对话模型。

在得到初始标注数据集之后，利用初始标注数据集

对通用对话模型进行训练，得到初始专业对话模型，记为

。

S104：利用验证数据集和预设自然语言处理评价指标对初始专业对话模型进行验证操作，得到验证得分。

在训练得到初始专业对话模型

之后，利用验证数据集和预设自然语言处理评价指标对初始专业对话模型进行验证操作，得到验证得分，记为

。通过验证得分预估初始专业对话模型对语音提问的响应性能。

S105：判断验证得分是否大于预设得分阈值，若是，则执行步骤S106，若否，则对初始专业对话模型继续训练。

预先设置得分阈值，在利用验证数据集和预设自然语言处理评价指标对初始专业对话模型进行验证操作之后，判断验证得分是否大于预设得分阈值，若是，则说明模型已经训练好，执行步骤S106，若否，则说明需要对初始专业对话模型继续训练。

S106：将初始专业对话模型确定为目标专业对话模型。

当确定验证得分大于预设得分阈值时，说明模型已经训练好，将初始专业对话模型确定为目标专业对话模型。还可以输出目标专业对话模型和当前所有专家标注数据集。通过根据预设得分阈值判别专业对话模型是否已训练完成，保证了训练得到的目标专业对话模型能够对提问语音有较好的答案生成能力。

参见图2，图2为本发明实施例中对话模型的训练方法的另一种实施流程图，该方法可以包括以下步骤：

S201：利用预获取的通用对话数据集对原始对话模型进行训练，得到通用对话模型。

在本发明的一种具体实施方式中，在步骤S201之前，该对话模型的训练方法还可以包括以下步骤：

分别对通用对话数据集中的问答数据和闲聊数据进行过滤。

在获取到通用对话数据集之后，分别对通用对话数据集中的问答数据和闲聊数据进行过滤。例如，由于问答数据集整体噪音较小，可以只进行简单过滤，包括去除包含敏感词的对话、去除不足

个字的对话、去除问题与答案相同的对话、去除语料中无意义字符等。由于闲聊数据集整体噪音较大，需进行严格过滤。采用的过滤方式包括去除包含敏感词的对话、去除不足

个字的对话、去除只有一句的对话、去除不包含中文字符的对话、删除广告对话、删除重复对话、去除语料中无意义字符等。通过利用经过滤后的通用对话数据集对原始对话模型进行训练，避免了无用数据的干扰，降低了模型训练复杂度，提升了模型训练效率，提升了训练得到的模型的准确性。

为了使训练效果更好，还可以将数据集按不同类别分别按一定的prompt（提示）格式组成，如下：

表1

通过固定的prompt格式，减少后续处理工作。

在本发明的一种具体实施方式中，步骤S201可以包括以下步骤：

步骤一：将通用对话数据集输入至原始对话模型进行模型迭代训练；

步骤二：获取当前迭代数和本轮迭代训练得到的损失标准差；

步骤三：根据当前迭代数和损失标准差确定是否达到模型训练截止条件，若是，则执行步骤四，若否，则执行步骤五；

步骤四：将本轮迭代训练得到的对话模型确定为通用对话模型；

步骤五：将通用对话数据集输入至本轮迭代训练得到的对话模型进行模型迭代训练，并返回执行步骤二。

为方便描述，可以将上述五个步骤结合起来进行说明。

利用通用对话数据集对原始对话模型进行训练得到通用对话模型的过程可以包括将通用对话数据集输入至原始对话模型进行模型迭代训练，获取当前迭代数和本轮迭代训练得到的损失标准差，根据当前迭代数和损失标准差确定是否达到模型训练截止条件，若是，则说明当前训练得到的模型已经能够对通用提问给出较好的语音响应，将本轮迭代训练得到的对话模型确定为通用对话模型，若否，则说明当前训练得到的模型还不能对通用提问给出较好的语音响应，将所述通用对话数据集输入至本轮迭代训练得到的对话模型进行模型迭代训练，并再次获取当前迭代数和本轮迭代训练得到的损失标准差，通过多次训练迭代，使得模型得到不断优化。

需要说明的是，模型训练截止条件可以根据实际情况进行设定和调整，本发明实施例对此不做限定，如可以设置为迭代次数上限，还可以设置为损失阈值。

在本发明的一种具体实施方式中，根据当前迭代数和损失标准差确定是否达到模型训练截止条件，可以包括以下步骤：

步骤三：判断当前迭代数是否大于第一预设值且损失标准差小于第二预设值，若是，则执行步骤四，若否，则当确定当前迭代数大于第一预设值且损失标准差大于等于第二预设值时，执行步骤五；

步骤五：判断当前迭代数是否大于第三预设值，若是，则返回执行步骤四，若否，则执行步骤六；

其中，第三预设值大于第一预设值；

步骤六：将通用对话数据集输入至本轮迭代训练得到的对话模型进行模型迭代训练，并返回执行步骤二。

为方便描述，可以将上述六个步骤结合起来进行说明。

预先设置模型训练中的超参数，超参数可以包括对迭代数

进行预训练得到的预训练最小迭代数

（即第一预设值）、损失标准差

的标准差阈值

（即第二预设值），损失标准差

表示最新十个迭代loss的标准差。在获取当前迭代数和本轮迭代训练得到的损失标准差之后，通过判断当前迭代数是否大于第一预设值且损失标准差小于第二预设值，即

，从而确定是否已经达到模型训练截止条件。通过结合当前迭代数和损失标准差进行模型训练阶段判定，保证了已对满足训练截止条件的模型进行了一定次数的迭代，提升了模型性能。

预先设置的模型训练中的超参数还可以包括对迭代数

进行预训练得到的预训练最大迭代数

（即第三预设值），第三预设值大于第一预设值，即

。当确定当前迭代数大于第一预设值且损失标准差大于等于第二预设值时，判断当前迭代数是否大于第三预设值，若是，则说明认为损失值下降缓慢，模型已训练至接近全局最优，将本轮迭代训练得到的对话模型确定为通用对话模型，若否，则说明需要对模型继续训练，将通用对话数据集输入至本轮迭代训练得到的对话模型进行模型迭代训练，并再次获取当前迭代数和本轮迭代训练得到的损失标准差，基于本轮迭代的数据判断是否达到模型训练截止条件，如此往复直到达到预设的模型训练截止条件，从而得到能够对通用提问语音进行良好响应的通用对话模型。

S202：获取预设的专业关键词组，并根据专业关键词组对通用对话数据集进行数据筛选，将筛选得到的数据集确定为初始标注数据集。

S203：利用初始标注数据集对通用对话模型进行训练，得到初始专业对话模型。

S204：利用验证数据集和预设自然语言处理评价指标对初始专业对话模型进行验证操作，得到验证得分。

在本发明的一种具体实施方式中，利用验证数据集和预设自然语言处理评价指标对初始专业对话模型进行验证操作，可以包括以下步骤：

通过以下公式结合验证数据集、BLEU指标、ROUGE指标、PPL指标、DISTINCT指标对初始专业对话模型进行验证操作：

；

其中，

为初始专业对话模型在BLEU指标上的得分，

为初始专业对话模型在ROUGE指标上的得分，

为初始专业对话模型在PPL指标上的得分，采用PPL指标得分的倒数形式，

为初始专业对话模型在DISTINCT指标上的得分，

为验证得分。

在对初始专业对话模型进行验证时，可以结合验证数据集、BLEU指标、ROUGE指标、PPL指标、DISTINCT指标对初始专业对话模型进行验证操作。如可以通过以下公式进行计算验证得分：

；

其中，

为初始专业对话模型在BLEU指标上的得分，

为初始专业对话模型在ROUGE指标上的得分，

越小说明模型生成效果越差，

初始专业对话模型在DISTINCT指标上的得分。

通过采用BLEU、ROUGE、PPL、DISTINCT四个指标综合评判模型在验证数据集上的表现。在保证模型生成的通顺性和多样性的同时，保证生成答案的精确率和召回率。

在本发明的一种具体实施方式中，该对话模型的训练方法还可以包括初始专业对话模型在BLEU指标上的得分

的计算过程，初始专业对话模型在BLEU指标上的得分

的计算过程可以包括可以步骤：

通过以下公式计算初始专业对话模型在BLEU指标上的得分

：

；

其中，

，

为机器译文的长度，

为最短的参考翻译句子的长度，

为n-gram的精确率，

为n-gram的权重，对于任意n都有

，BP 为惩罚因子。

BLEU的核心思想是比较候选译文和参考译文里的 n-gram 的重合程度，重合程度越高就认为译文质量越高。实践中，通常是取N=1~4，然后进行加权平均。

；

其中，

，

为机器译文的长度，

为最短的参考翻译句子的长度，

为n-gram的精确率，

为n-gram的权重，一般设为均匀权重，即对于任意n都有

。BP 为惩罚因子，如果译文的长度小于最短的参考译文，则BP小于1。BLEU的1-gram精确率表示译文忠于原文的程度，而其他n-gram表示翻译的流畅程度。

在本发明的一种具体实施方式中，该对话模型的训练方法还可以包括初始专业对话模型在ROUGE指标上的得分

的计算过程，初始专业对话模型在ROUGE指标上的得分

的计算过程可以包括：

通过以下公式计算初始专业对话模型在ROUGE指标上的得分

：

；

其中，{参考译文}表示参考译文集合，

表示N个字的组合，

ROUGE-N专注于召回率而非精度。查看有多少个参考译句中的n元词组出现在了输出之中。“N”指的是N-gram，其计算方式与BLEU类似，只是BLEU基于精确率，而ROUGE基于召回率。ROUGE-N主要统计N-gram上的召回率，对于N-gram，可以计算得到ROUGE-N分数，计算公式如下：

；

其中，{参考译文}表示参考译文集合，在实际应用中参考译文可能是多个。

表示N个字的组合，

表示计算译文中N-gram的数目。公式的分母是统计在所有的参考译文中N-gram的个数，而分子是统计所有参考译文与机器译文共有的N-gram个数。

在本发明的一种具体实施方式中，该对话模型的训练方法还可以包括初始专业对话模型在PPL指标上的得分

的计算过程，初始专业对话模型在PPL指标上的得分

的计算过程：

；

其中，

表示根据上文词语预测第i个词的概率，N代表句子长度。

PPL指的是语言模型中的perplexity，困惑度(Perplexity)是衡量一句话是否通顺的指标。定义为：

；

其中，

表示根据上文词语预测第i个词的概率，N代表句子长度。PPL值越小，说明模型生成的回复越自然、语句越通顺。通过PPL来评价回复质量，可以避免模型生成的回复有乱序、前后颠倒的情形。

在本发明的一种具体实施方式中，该方法还可以包括初始专业对话模型在DISTINCT指标上的得分

的计算过程，初始专业对话模型在DISTINCT指标上的得分

的计算过程包括：

通过以下公式计算初始专业对话模型在DISTINCT指标上的得分

：

；

其中，

表示回复中不重复的ngram数量，

表示回复中ngram词语的总数量。

Distinct评价指标判断机器回复的多样性，Distinct指标判断是否出现大量的通用性、重复性回复。Distinct的定义如下：

；

其中，

表示回复中不重复的ngram数量，

表示回复中ngram词语的总数量。

越大表示生成回复的多样性越高。

S205：判断验证得分是否大于预设得分阈值，若是，则执行步骤S106，若否，则执行步骤S207。

S206：将初始专业对话模型确定为目标专业对话模型。

S207：利用初始专业对话模型针对预设未标记池中各样本数据生成对应的响应数据。

当确定验证得分小于等于预设得分阈值时，说明需要对模型进行继续训练，利用初始专业对话模型

针对预设未标记池中各样本数据生成对应的响应数据。

S208：分别计算各响应数据对应的自动评估得分。

在利用初始专业对话模型针对预设未标记池中各样本数据生成对应的响应数据之后，分别计算各响应数据对应的自动评估得分。如可以根据PPL指标和Distinct指标计算各响应数据对应的自动评估得分，计算公式如下：

；

从而得到每个响应数据分别对应的自动评估得分。

S209：对各自动评估得分进行大小排序，从得分较小的一端选取预设数量个自动评估得分。

在分别计算得到各响应数据对应的自动评估得分之后，对各自动评估得分进行大小排序，从得分较小的一端选取预设数量个自动评估得分，如选择最低的N个

得分。

S210：输出对选取得到的各自动评估得分对应的响应数据进行标注的标注提示信息。

在从得分较小的一端选取预设数量个自动评估得分之后，输出对选取得到的各自动评估得分对应的响应数据进行标注的标注提示信息，从而提示对最低的N个

得分对应的响应数据进行专家标注。

S211：根据标注结果对初始标注数据集进行更新，得到更新后标注数据集。

在输出对选取得到的各自动评估得分对应的响应数据进行标注的标注提示信息之后，获取标注结果，根据标注结果对初始标注数据集进行更新，得到更新后标注数据集，从而实现对当前专业对话模型生成响应数据效果不好的数据的有效标注。

在本发明的一种具体实施方式中，在步骤S211之后，该对话模型的训练方法还可以包括以下步骤：

根据更新后标注数据集对预设未标记池进行更新操作。

在得到更新后标注数据集之后，根据更新后标注数据集对预设未标记池进行更新操作，从而实现对预设未标记池中未标记样本数据的及时更新。

S212：基于更新后标注数据集对初始专业对话模型进行训练，得到更新后专业对话模型。

在根据标注结果对初始标注数据集进行更新，得到更新后标注数据集之后，基于更新后标注数据集对初始专业对话模型进行训练，得到更新后专业对话模型。

本发明实施例通过采用主动学习的方式，尽可能减少了专家标注样本量，降低了对模型性能的影响。不断从预设未标记池中选择对模型性能提升最大的“困难样本”，提升了模型性能。

S213：利用验证数据集对更新后专业对话模型进行验证操作，得到验证得分，并返回执行步骤S205。

在基于更新后标注数据集对初始专业对话模型进行训练，得到更新后专业对话模型之后，利用验证数据集对更新后专业对话模型进行验证操作，得到验证得分，并返回执行判断验证得分是否大于预设得分阈值的步骤，如此往复直到计算得到的验证得分大于预设得分阈值，从而得到能够对接收到的提问语音进行良好响应的目标专业对话模型。

参见图3，图3为本发明实施例中一种对话响应方法的实施流程图，应用于包含如前训练得到的目标专业对话模型的对话***，该方法可以包括以下步骤：

S301：接收待响应的目标提问语音。

当用户需要进行情景对话时，向对话响应控制中心输出目标提问语音，对话响应控制中心接收待响应的目标提问语音。

对话响应控制中心可以为部署有对话模型的处理器。

目标提问语音可以为闲聊、常识问答以及专业问答等。

S302：利用基于对通用对话模型训练得到的目标专业对话模型生成目标提问语音对应的目标响应语音。

预先训练通用对话模型，如可以基于大模型在通用对话数据集上进行模型训练，获得通用对话模型，其中大模型可以是基于Transformer结构，适用于生成任务，诸如GPT（Generative Pre-Training）模型、BERT（Bidirectional Encoder Representation fromTransformers）模型等。再基于通用对话模型训练得到目标专业对话模型。在接收到待响应的目标提问语音之后，利用基于对通用对话模型训练得到的目标专业对话模型生成目标提问语音对应的目标响应语音。

通过在大模型的基础上进行再训练，大大减少了对数据量和计算力的需求，并且采用两阶段训练模型方式，使得训练出来的目标专业对话模型同时拥有通用性和专业性。

S303：对目标响应语音进行输出操作。

在利用基于对通用对话模型训练得到的目标专业对话模型生成目标提问语音对应的目标响应语音之后，对目标响应语音进行输出操作，从而实现对目标提问语音的响应。

由于模型训练过程相较于模型应用过程需要较多的资源，因此可以预先为模型训练过程分配较多的资源，为模型应用过程分配相对较少的资源。如可以预先划分8块及以上80G大小的GPU（Graphics Processing Unit，图像处理器）用于进行模型训练，划分1块及以上80G大小的GPU用于模型应用。

在本发明的一种具体实施方式中，该对话响应方法还可以包括以下步骤：

步骤一：当目标专业对话模型对目标提问语音响应失败时，基于预设检索算法从数据库中搜索相关答案；

步骤二：对相关答案进行语音输出。

为方便描述，可以将上述两个步骤结合起来进行说明。

本发明实施例预先设置兜底方案，利用专业数据集构建专业数据库，当目标专业对话模型对目标提问语音响应失败时，即当目标专业对话模型输出为空时，基于预设检索算法从数据库中搜索相关答案，对相关答案进行语音输出。从而优化专业对话模型应用流程，进一步保证用户提问语音不会落空，提升用户体验。

相应于上面的方法实施例，本发明还提供了一种对话模型的训练装置，下文描述的对话模型的训练装置与上文描述的对话模型的训练方法可相互对应参照。

参见图4，图4为本发明实施例中一种对话模型的训练装置的结构框图，该对话模型的训练装置可以包括：

通用对话模型获得模块41，用于利用预获取的通用对话数据集对原始对话模型进行训练，得到通用对话模型；

初始标注数据集确定模块42，用于获取预设的专业关键词组，并根据专业关键词组对通用对话数据集进行数据筛选，将筛选得到的数据集确定为初始标注数据集；

初始专业对话模型获得模块43，用于利用初始标注数据集对通用对话模型进行训练，得到初始专业对话模型；

验证得分获得模块44，用于利用验证数据集和预设自然语言处理评价指标对初始专业对话模型进行验证操作，得到验证得分；

判断模块45，用于判断验证得分是否大于预设得分阈值；

目标专业对话模型确定模块46，用于当验证得分大于预设得分阈值时，将初始专业对话模型确定为目标专业对话模型。

在本发明的一种具体实施方式中，该对话模型的训练装置还可以包括：

响应数据生成模块，用于当确定验证得分小于等于预设得分阈值时，利用初始专业对话模型针对预设未标记池中各样本数据生成对应的响应数据；

自动评估得分计算模块，用于分别计算各响应数据对应的自动评估得分；

自动评估得分选取模块，用于对各自动评估得分进行大小排序，从得分较小的一端选取预设数量个自动评估得分；

标注提示信息输出模块，用于输出对选取得到的各自动评估得分对应的响应数据进行标注的标注提示信息；

标注数据集更新模块，用于根据标注结果对初始标注数据集进行更新，得到更新后标注数据集；

专业对话模型更新模块，用于基于更新后标注数据集对初始专业对话模型进行训练，得到更新后专业对话模型；

重复执行模块，用于利用验证数据集对更新后专业对话模型进行验证操作，得到验证得分，并重复执行判断验证得分是否大于预设得分阈值的步骤。

未标记池更新模块，用于在得到更新后标注数据集之后，根据更新后标注数据集对预设未标记池进行更新操作。

在本发明的一种具体实施方式中，验证得分获得模块44，具体用于通过以下公式结合验证数据集、BLEU指标、ROUGE指标、PPL指标、DISTINCT指标对初始专业对话模型进行验证操作：

；

其中，

为初始专业对话模型在BLEU指标上的得分，

为初始专业对话模型在ROUGE指标上的得分，

为初始专业对话模型在DISTINCT指标上的得分，

为验证得分。

BLEU指标上的得分计算模块，用于通过以下公式计算初始专业对话模型在BLEU指标上的得分

：

；

其中，

，

为机器译文的长度，

为最短的参考翻译句子的长度，

为n-gram的精确率，

为n-gram的权重，对于任意n都有

，BP 为惩罚因子。

ROUGE指标上的得分计算模块，用于通过以下公式计算初始专业对话模型在ROUGE指标上的得分

：

；

其中，{参考译文}表示参考译文集合，

表示N个字的组合，

PPL指标上的得分计算模块，用于通过以下公式计算初始专业对话模型在PPL指标上的得分

：

；

其中，

表示根据上文词语预测第i个词的概率，N代表句子长度。

DISTINCT指标上的得分计算模块，用于通过以下公式计算初始专业对话模型在DISTINCT指标上的得分

：

；

其中，

表示回复中不重复的ngram数量，

表示回复中ngram词语的总数量。

数据过滤模块，用于在利用预获取的通用对话数据集对原始对话模型进行训练之前，分别对通用对话数据集中的问答数据和闲聊数据进行过滤。

在本发明的一种具体实施方式中，通用对话模型获得模块41包括：

迭代训练子模块，用于将通用对话数据集输入至原始对话模型进行模型迭代训练；

损失标准差获取子模块，用于获取当前迭代数和本轮迭代训练得到的损失标准差；

训练截止判断子模块，用于根据当前迭代数和损失标准差确定是否达到模型训练截止条件；

通用对话模型确定子模块，用于当根据当前迭代数和损失标准差确定达到模型训练截止条件时，将本轮迭代训练得到的对话模型确定为通用对话模型。

在本发明的一种具体实施方式中，训练截止判断子模块具体为判断当前迭代数是否大于第一预设值且损失标准差小于第二预设值的模块。

迭代数统计子模块，用于当确定当前迭代数大于第一预设值且损失标准差大于等于第二预设值时，判断当前迭代数是否大于第三预设值；其中，第三预设值大于第一预设值；

通用对话模型确定子模块，还用于当当前迭代数大于第三预设值时，将本轮迭代训练得到的对话模型确定为通用对话模型；

迭代训练子模块，还用于当当前迭代数小于等于第三预设值时，将通用对话数据集输入至本轮迭代训练得到的对话模型进行模型迭代训练，并重复执行获取当前迭代数和本轮迭代训练得到的损失标准差的步骤。

在本发明的一种具体实施方式中，初始标注数据集确定模块42具体为利用DFA算法根据专业关键词组对通用对话数据集进行数据筛选的模块。

相应于上面的方法实施例，本发明还提供了一种对话响应装置，下文描述的对话响应装置与上文描述的对话响应方法可相互对应参照。

参见图5，图5为本发明实施例中一种对话响应装置的结构框图，该对话响应装置可以包括：

提问语音接收模块51，用于接收待响应的目标提问语音；

响应语音生成模块52，用于利用基于对通用对话模型训练得到的目标专业对话模型生成目标提问语音对应的目标响应语音；

响应语音输出模块53，用于对目标响应语音进行输出操作。

在本发明的一种具体实施方式中，该对话响应装置还可以包括：

答案搜索模块，用于当目标专业对话模型对目标提问语音响应失败时，基于预设检索算法从数据库中搜索相关答案；

语音输出模块，用于对相关答案进行语音输出。

相应于上面的方法实施例，参见图6，图6为本发明所提供的电子设备的示意图，该设备可以包括：

存储器332，用于存储计算机程序；

处理器322，用于执行计算机程序时实现上述方法实施例的对话模型的训练方法或对话响应方法的步骤。

具体的，请参考图7，图7为本实施例提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括处理器（central processingunits，CPU）322（例如，一个或一个以上处理器）和存储器332，存储器332存储有一个或一个以上的计算机程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，处理器322可以设置为与存储器332通信，在电子设备301上执行存储器332中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作***341。

上文所描述的对话响应方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现如下步骤：

利用预获取的通用对话数据集对原始对话模型进行训练，得到通用对话模型；获取预设的专业关键词组，并根据专业关键词组对通用对话数据集进行数据筛选，将筛选得到的数据集确定为初始标注数据集；利用初始标注数据集对通用对话模型进行训练，得到初始专业对话模型；利用验证数据集和预设自然语言处理评价指标对初始专业对话模型进行验证操作，得到验证得分；判断验证得分是否大于预设得分阈值；若是，则将初始专业对话模型确定为目标专业对话模型；

或，

接收待响应的目标提问语音；利用基于对通用对话模型训练得到的目标专业对话模型生成目标提问语音对应的目标响应语音；对目标响应语音进行输出操作。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例，本发明在此不做赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、电子设备及计算机可读存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种对话模型的训练方法，其特征在于，包括：

判断所述验证得分是否大于预设得分阈值；

2.根据权利要求1所述的对话模型的训练方法，其特征在于，当确定所述验证得分小于等于所述预设得分阈值时，还包括：

分别计算各所述响应数据对应的自动评估得分；

3.根据权利要求2所述的对话模型的训练方法，其特征在于，在得到更新后标注数据集之后，还包括：

4.根据权利要求1所述的对话模型的训练方法，其特征在于，利用验证数据集和预设自然语言处理评价指标对所述初始专业对话模型进行验证操作，包括：

；

其中，

为所述初始专业对话模型在BLEU指标上的得分，

为所述初始专业对话模型在ROUGE指标上的得分，

为所述初始专业对话模型在DISTINCT指标上的得分，

为验证得分。

5.根据权利要求4所述的对话模型的训练方法，其特征在于，还包括所述初始专业对话模型在BLEU指标上的得分

的计算过程，所述初始专业对话模型在BLEU指标上的得分

的计算过程包括：

通过以下公式计算所述初始专业对话模型在BLEU指标上的得分

：

；

其中，

，

为机器译文的长度，

为最短的参考翻译句子的长度，

为n-gram的精确率，

为n-gram的权重，对于任意n都有

，BP 为惩罚因子。

6.根据权利要求4所述的对话模型的训练方法，其特征在于，还包括所述初始专业对话模型在ROUGE指标上的得分

的计算过程，所述初始专业对话模型在ROUGE指标上的得分

的计算过程包括：

：

；

其中，{参考译文}表示参考译文集合，

表示N个字的组合，

7.根据权利要求4所述的对话模型的训练方法，其特征在于，还包括所述初始专业对话模型在PPL指标上的得分

的计算过程，所述初始专业对话模型在PPL指标上的得分

的计算过程：

；

其中，

表示根据上文词语预测第i个词的概率，N代表句子长度。

8.根据权利要求4所述的对话模型的训练方法，其特征在于，还包括所述初始专业对话模型在DISTINCT指标上的得分

的计算过程，所述初始专业对话模型在DISTINCT指标上的得分

的计算过程包括：

：

；

其中，

表示回复中不重复的ngram数量，

表示回复中ngram词语的总数量。

9.根据权利要求1所述的对话模型的训练方法，其特征在于，在利用预获取的通用对话数据集对原始对话模型进行训练之前，还包括：

10.根据权利要求1所述的对话模型的训练方法，其特征在于，利用预获取的通用对话数据集对原始对话模型进行训练，得到通用对话模型，包括：

获取当前迭代数和本轮迭代训练得到的损失标准差；

11.根据权利要求10所述的对话模型的训练方法，其特征在于，根据所述当前迭代数和所述损失标准差确定是否达到模型训练截止条件，包括：

12.根据权利要求11所述的对话模型的训练方法，其特征在于，当确定所述当前迭代数大于所述第一预设值且所述损失标准差大于等于所述第二预设值时，还包括：

13.根据权利要求1所述的对话模型的训练方法，其特征在于，根据所述专业关键词组对所述通用对话数据集进行数据筛选，包括：

14.一种对话响应方法，其特征在于，应用于包含如权利要求1至13任一项训练得到的目标专业对话模型的对话***，包括：

接收待响应的目标提问语音；

对所述目标响应语音进行输出操作。

15.根据权利要求14所述的对话响应方法，其特征在于，还包括：

对所述相关答案进行语音输出。

16.一种对话模型的训练装置，其特征在于，包括：

判断模块，用于判断所述验证得分是否大于预设得分阈值；

17.一种对话响应装置，其特征在于，包括：

提问语音接收模块，用于接收待响应的目标提问语音；

18.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至13任一项所述对话模型的训练方法或权利要求14至15任一项所述对话响应方法的步骤。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至13任一项所述对话模型的训练方法或权利要求14至15任一项所述对话响应方法的步骤。