CN117556002A

CN117556002A - 一种用于对话大模型的多轮对话训练方法

Info

Publication number: CN117556002A
Application number: CN202311453002.1A
Authority: CN
Inventors: 展恩昊; 魏子重; 郭冬升; 张铮; 岳爱珍
Original assignee: Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong Inspur Science Research Institute Co Ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-02-13

Abstract

本发明提供一种用于对话大模型的多轮对话训练方法，属于人工智能领域，本发明通过数据增强技术对训练数据进行扩增，生成多样化的对话语料，以提高模型的泛化能力和避免过拟合问题；引入对话历史筛选机制，重点保留与当前对话相关的历史信息，去除无关或冗余的历史记录，以提高对话生成效率；利用预训练模型，将领域专业知识引入对话模型的训练，增强模型的知识问答能力和场景适应性。通过设计针对性的数据处理策略以及训练流程，实现对大模型的多轮对话能力的提升。

Description

一种用于对话大模型的多轮对话训练方法

技术领域

本发明涉及人工智能、大规模语言模型、对话大模型训练领域，尤其涉及一种用于对话大模型的多轮对话训练方法。

背景技术

在近年来，随着人工智能技术的迅猛发展，对话***成为人工智能领域中备受关注的研究方向。对话***的目标是使计算机能够像人类一样进行自然语言交流，从而实现智能化的对话和回答。这种技术在实际应用中具有广泛的潜力，可以用于智能客服、虚拟助手、自动问答***等领域，以提供更好的用户体验和服务质量。

然而，要构建一个高质量的对话***是具有挑战性的。通用对话大模型需要处理多样化的用户输入、理解复杂的语义结构、保持上下文的连贯性，并能够输出准确、流畅、有逻辑的回复。传统的基于规则或检索的对话***存在着受限于固定规则和知识库，难以适应复杂多变的真实场景的问题。

随着深度学习和自然语言处理的进步，基于神经网络的对话生成模型如Transformer和GPT等已经取得了显著的成果。这些模型能够自动学习语言特征和上下文信息，具有更好的灵活性和表现力。然而，对话大模型训练仍然面临一些挑战，例如数据稀缺问题、对话历史处理以及知识和场景适应性。大规模对话数据的标注成本高昂，尤其是多轮对话的数据。缺乏足够多样性的数据会影响模型的泛化能力和对复杂场景的适应性；多轮对话中的历史信息可能非常庞大，如何有效地利用这些信息是一个挑战；通用对话大模型可能缺乏特定领域的专业知识，导致在知识问答和特定场景下的表现有限。

因此，为了充分发挥对话大模型的潜力，有必要设计一种高效、有效地训练大规模对话模型的方法，以提高对话连贯性、流畅度、知识问答能力和场景适应性。

发明内容

为了解决以上技术问题，本发明提供了一种用于对话大模型的多轮对话训练方法。旨在提升中文对话大模型的回答质量，使其在应对各类场景的对话时能够更好的理解用户的需求并给出恰当的回答。通过对训练数据进行数据增强以及在训练和推理时采用一种对话历史的筛选机制，提高模型对当前场景的理解能力，同时使用专业知识对模型进行预训练来提高模型生成的内容质量，提高模型回答的可靠性。

本发明的技术方案是：

一种用于对话大模型的多轮对话训练方法，提出采用数据增强技术扩充训练数据，其特征在于采用数据增强技术对训练数据进行扩增，生成多样化的对话语料，以提高模型的泛化能力和避免过拟合问题。

引入一种对话历史筛选机制对训练数据进行处理，重点保留与当前对话相关的历史信息，去除无关或冗余的历史记录，以提高对话生成效率。

利用预训练模型，将领域专业知识引入对话模型的训练，增强模型的知识问答能力和场景适应性。

具体如下：

1.数据增强技术：本发明的数据增强技术采用了多种方法来丰富对话训练数据。通过对训练数据进行随机扰动，包括词语替换、***和删除等操作，可以产生更多样化的对话语料。例如，在一个特定的对话上下文中，将一个关键词替换为其同义词或近义词，能够生成具有相似语义但不同表达方式的对话句子。此外，随机***额外的对话片段，可以模拟不同场景下的对话情境，增加对话模型对不同场景的适应性。同时，通过随机删除部分词语，可以模拟用户信息不完整或不清楚的情况，从而提高对话模型的鲁棒性。通过这些数据增强方法，训练数据集中将包含更多多样化的对话样本，使得对话模型能够更好地应对各种用户输入情况，增强模型的泛化能力，避免过拟合问题。

2.对话历史筛选机制：在长对话的训练中，本发明的对话历史筛选机制有助于优化对话历史的处理。对话历史可能包含大量信息，但并不是所有历史信息都对当前轮的对话生成有帮助。因此，为了提高对话生成效率，本发明采用了一种筛选机制来选择与当前对话相关的历史信息。主要通过对话历史的关键词或主题进行匹配和筛选。对于每一轮对话，我们提取其中的关键词或主题，并与历史对话进行匹配。如果某一轮对话的关键词或主题在历史对话中出现，则保留该历史对话；反之，则将其去除。通过这种方式，我们可以保留与当前对话相关的历史信息，去除无关或冗余的历史记录，从而减轻模型的计算负担，提高对话生成效率。同时，通过去除无关或冗余的历史记录，还能避免模型受到无关信息的干扰，从而生成更准确、一致的回复。

3.知识引入与预训练模型：本发明的知识引入技术是为了增强对话模型的知识问答能力和场景适应性。外部知识库可以是特定领域的百科知识、行业术语、常见问题等。对话模型可以通过从外部知识库检索相关信息，从而为用户提供更准确、专业的回复。例如，在医疗领域的对话中，模型可以从医学知识库中获取有关疾病、症状和治疗方法的信息，从而提供更准确的医学建议。此外，预训练模型通过在大规模语料上进行预训练，学习到了丰富的语言知识和语义表示。将预训练模型引入对话训练中，可以使对话模型更好地理解语义和上下文，提高模型在对话连贯性和流畅度方面的表现。这样的技术组合使得对话模型更具有适应不同领域和复杂场景的能力，从而更好地满足用户的需求。

本发明的有益效果是

通过综合运用数据增强技术、对话历史筛选机制以及知识引入与预训练模型，这些技术点的互相协作使得对话模型在对话质量、表现能力和适应性方面都得到进一步提升，为用户提供更优质、智能化的交互体验。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种用于对话大模型的多轮对话训练方法，包括

1、数据预处理以及数据增强：数据的预处理过程主要分为对话历史筛选和数据增强。

1)对话历史筛选技术实施方式：在长对话的训练过程中，我们引入对话历史筛选机制，以优化对话历史的处理。具体而言，我们采用关键词对训练数据中的历史对话轮进行加权。对于每一轮对话，我们根据当前对话的内容进行关键词匹配，对历史对话轮次进行加权。赋予权重能够衡量历史对话轮次与当前对话的相关程度，从而使得与当前对话更相关的历史信息获得更高的加权分数，而与当前对话无关的历史信息获得较低的分数。

2)针对训练数据的数据增强，我们对训练数据采用了一系列文本扩增方法。首先，对于每个对话句子，我们通过同义词替换、近义词替换和词语***等操作来扩充数据集。我们使用预先构建的同义词库和相似词库，对句子中的词语进行替换，并在替换后的句子中***随机选取的对话片段。其次，我们还引入了词语删除技术，随机删除部分句子中的词语，模拟用户信息不完整或不清楚的输入情况。通过这些数据增强方法，我们有效地增加了训练数据量，丰富了数据的多样性，使得对话模型能够更好地应对各种用户输入情况，增强模型的泛化能力，避免过拟合问题。

2、知识背景预训练以及多轮对话训练：为了引入外部知识，我们在大规模的各类知识语料上对通用语言模型进行预训练，使其学习到丰富的语言知识和语义表示。经过这一步我们就得到了一个可以得到一个具备更深入知识体系的基座模型。然后就可以对该模型进行多轮对话能力训练了。在多轮对话模型的训练中，我们将预训练模型作为初始参数，使用上述调整好的历史对话数据进一步微调以适应特定的对话任务。整体流程如图1所示。通过这样的预训练和多轮对话训练方法，我们增强了对话模型的知识问答能力和场景适应性，使其在不同领域和复杂场景中表现更加优秀。

综上所述，本发明的具体实施方式涵盖了数据增强技术、对话历史筛选技术以及知识预训练模型技术等多个关键步骤。这些实施方式共同构成了高效、有效地训练通用对话大模型的方法。通过数据增强技术，丰富了训练数据，提高了模型的泛化能力和鲁棒性。通过对话历史筛选技术，优化了对话历史的处理，提高了对话生成效率和模型的实时性。通过知识引入与预训练模型技术，增强了对话模型的知识问答能力和场景适应性，使其能够更好地满足用户的需求。这些技术的融合使得本发明成为一种提升对话大模型性能的训练方法。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种用于对话大模型的多轮对话训练方法，其特征在于，

通过数据增强技术对训练数据进行扩增，生成多样化的对话语料，以提高模型的泛化能力和避免过拟合问题；

引入对话历史筛选机制，保留与当前对话相关的历史信息，去除无关或冗余的历史记录，以提高对话生成效率；

2.根据权利要求1所述的方法，其特征在于，

通过对训练数据进行随机扰动，包括词语替换、***和删除操作，以产生更多样化的对话语料。

3.根据权利要求2所述的方法，其特征在于，

此外，随机***额外的对话片段，以模拟不同场景下的对话情境，增加对话模型对不同场景的适应性。

4.根据权利要求3所述的方法，其特征在于，

通过随机删除部分词语，以模拟用户信息不完整或不清楚的情况，以提高对话模型的鲁棒性。

5.根据权利要求1所述的方法，其特征在于，

对话历史筛选机制，即通过对话历史的关键词或主题进行匹配和筛选。

6.根据权利要求5所述的方法，其特征在于，

对于每一轮对话，提取其中的关键词或主题，并与历史对话进行匹配；如果某一轮对话的关键词或主题在历史对话中出现，则保留该历史对话；反之，则将其去除。

7.根据权利要求1所述的方法，其特征在于，

领域专业知识可以是特定领域的百科知识、行业术语、常见问题；对话模型可通过从外部知识库检索相关信息。

8.根据权利要求7所述的方法，其特征在于，

预训练模型通过在大规模语料上进行预训练，学习语言知识和语义表示；将预训练模型引入对话训练中，使对话模型更好地理解语义和上下文，提高模型在对话连贯性和流畅度方面的表现。