CN118093834A

CN118093834A - 一种基于aigc大模型的语言处理问答***及方法

Info

Publication number: CN118093834A
Application number: CN202410479542.5A
Authority: CN
Inventors: 朱志强
Original assignee: Bonning Digital Technology Co ltd
Current assignee: Bonning Digital Technology Co ltd
Priority date: 2024-04-22
Filing date: 2024-04-22
Publication date: 2024-05-28
Anticipated expiration: 2044-04-22

Abstract

本发明涉及语言处理技术领域，具体涉及一种基于AIGC大模型的语言处理问答***及方法，包括以下步骤：接收用户输入的自然语言问题，并通过语法分析和语义理解技术提取关键信息；将提取的关键信息输入到基于AIGC的语言模型中，经过领域适应性增强处理，AIGC大模型根据输入信息和增强的领域知识生成系列答案候选；评估答案候选，以选取最优答案；将最优答案以自然语言的形式输出给用户。本发明，显著增强了AIGC大模型对特定领域问题的适应性和处理能力。这种适应性强化不仅提升了问答***在各个专业领域内的应用范围，还增强了其在面对新领域或冷门问题时的灵活性和准确性。

Description

一种基于AIGC大模型的语言处理问答***及方法

技术领域

本发明涉及语言处理技术领域，尤其涉及一种基于AIGC大模型的语言处理问答***及方法。

背景技术

在当前的技术背景下，人工智能和自然语言处理（NLP）领域已经取得了显著的进展，尤其是在语言理解和生成方面。AIGC（人工智能生成内容）技术，特别是大型预训练语言模型，已经在多种语言处理任务中展现出了强大的能力，这些模型能够理解复杂的语言结构、上下文含义以及执行多种基于语言的任务，如文本分类、情感分析、文本摘要和问答等。

尽管如此，现有的语言处理问答***仍面临着一些关键挑战。其中之一是如何有效地理解和回答那些涉及特定领域（如医疗、法律或科技等）的冷门问题，这些问题通常包含专业术语和复杂概念，需要***具备深入的领域知识和理解能力。此外，现有技术在生成的答案多样性、自然性和用户交互方面也存在局限性。

此外，尽管大模型具有广泛的知识覆盖范围，但它们在特定领域的适应性和灵活性方面仍然有限。例如，一个经过广泛数据训练的通用语言模型可能难以准确处理那些仅在特定专业领域中才会出现的冷门术语和问题。因此，提高模型在特定领域内的性能，以及提升答***性、相关性和自然性，成为了研究和发展的重点。

综上所述，虽然现有的AIGC技术和语言模型在处理广泛的语言任务方面取得了显著成就，但在特定领域问答、答案质量优化以及用户交互体验方面仍有待改进。因此，开发一种能够有效整合领域知识、提高答案生成质量，并优化用户交互的语言处理问答方法，对于推动语言处理技术的进一步发展具有重要意义。

发明内容

基于上述目的，本发明提供了一种基于AIGC大模型的语言处理问答***及方法。

一种基于AIGC大模型的语言处理问答方法，包括以下步骤：

S1：接收用户输入的自然语言问题，并通过语法分析和语义理解技术提取关键信息；

S2：将提取的关键信息输入到基于AIGC的语言模型中，经过领域适应性增强处理，AIGC大模型根据输入信息和增强的领域知识生成系列答案候选；

S3：评估答案候选，以选取最优答案；

S4：将最优答案以自然语言的形式输出给用户。

进一步的，所述S1具体包括：

S11，接收：通过用户界面接收用户输入的自然语言问题，该用户界面支持文本输入和语音输入两种模式；

S12，预处理：对用户输入的问题进行预处理，包括去除无关字符、纠正拼写错误、转换语音输入为文本（若初次是语音输入）；

S13，语法分析：利用自然语言处理技术对问题进行语法分析，识别句子结构，包括主语、谓语、宾语的句子成分；

S14，语义理解：通过深度学习模型和自然语言理解算法对问题进行语义分析，理解问题的意图和上下文含义；

S15，关键信息提取：基于语法分析和语义理解的结果，提取问题中的关键信息，关键信息包括：

关键词汇：问题中的主要名词、动词和形容词以及指代特定概念、对象或动作的词汇；

实体识别：问题中提及的具体实体，包括人名、地点、组织、日期；

关系和属性：问题中暗示的实体之间的关系以及相关的属性和特征；

问题类型：基于问题的结构和用词判断问题的类型，包括事实查询、解释请求还是操作指南。

进一步的，所述S2中的领域适应性增强处理具体包括：

S21：利用领域识别算法确定问题所属的具体领域，并提取与该具体领域相关的问题和术语库；

S22：通过与具体领域专家合作构建的领域特定知识图谱，将问题中的冷门术语和概念与图谱中的节点相匹配，以理解其深层含义和上下文关系；

S23：结合问题的上下文和领域知识图谱，对AIGC大模型进行实时调整，以增强模型对冷门问题和专业术语的处理能力；

S24：将调整后的问题表示和领域知识作为增强信息输入到基于AIGC的语言模型中，为生成更准确和专业的答案做准备。

进一步的，所述S21具体包括：

特征提取：从用户问题中提取语言特征，包括词频、词性标注、语义角色标注和上下文嵌入向量，这些特征能够综合反映问题的语言特性和深层语义；

领域特征向量化：将提取的特征转化为领域特征向量，其中每个维度代表与领域相关的语言特征的数值表达；

领域相似度计算：利用领域识别算法计算问题特征向量与预定义领域向量集(每个领域向量/>代表一个特定领域的特征向量)之间的相似度，相似度计算：/>；

其中，代表向量的点积，/>和/>分别是向量/>和/>的欧几里得范数；

领域确定:选择相似度最高的领域向量对应的领域作为问题所属的具体领域；

术语库提取：根据确定的领域，从数据库中提取与该领域相关的专业问题和术语库，包括领域内的关键术语、定义、常见问题及其解答信息。

进一步的，所述S22具体包括：

构建知识图谱：与领域专家合作，构建包含领域内重要概念、术语、实体及其相互关系的知识图谱，每个节点代表一个领域内的概念或实体，节点之间的边表示概念或实体之间的关系；

冷门术语识别：通过自然语言处理技术分析用户问题，识别出问题中的冷门术语和概念，冷门术语指在语料库中出现频率低，但在具体领域内具有具体意义的词汇；

术语图谱映射：将识别出的冷门术语和概念与知识图谱中的节点进行映射，映射过程采用基于语义相似度的匹配算法，考虑术语的语义特征和图谱节点的属性，以确定最佳匹配节点；

上下文关系解析：利用知识图谱中的边来解析问题中冷门术语和概念的上下文关系，通过分析与匹配节点相连的其他节点及其关系类型，揭示冷门术语在具体问题中的作用和意义；

深层含义理解：综合使用图谱的结构信息和术语的上下文关系，解析冷门术语和概念的深层含义。

进一步的，所述S23具体包括：

S231，上下文和领域知识整合：将问题的上下文信息和通过领域知识图谱获得的关于冷门术语及其相关概念的深层含义和关系整合成一个增强特征表示，增强特征表示包括问题的原始语义信息、具体领域深层知识；

S232，特征转换：使用自编码器算法将整合后的特征表示转换为适用于AIGC大模型的形式，编码器表示为：，其中，/>是输入特征，/>是编码器权重，/>是偏置项，/>是激活函数，/>是生成的隐藏层表示(即编码)；解码器表示为：，其中，/>是解码器权重，/>是偏置项，/>是激活函数，/>是重构的输入，自编码器的目标是最小化输入/>和重构输入/>之间的差异，使用损失函数：，训练自编码器最小化损失函数，学习到输入数据的压缩表示，压缩表示用于特征转换；

S233，模型调整：基于转换后的特征表示，对AIGC大模型的参数进行实时调整，调整过程采用迁移学习，让AIGC大模型适应当前问题的具体领域背景和语义要求，迁移学习过程为：

在源任务上预训练模型，学习源域数据的表示；

将预训练模型的一部分(如特征提取层)迁移到目标任务上；

在目标域数据上微调迁移的模型部分，同时保持或微调其他部分；

S234，增强的处理能力验证：通过预设的验证机制检验模型调整后对冷门问题和专业术语的处理能力是否得到明显增强，确保调整效果符合预期。

进一步的，所述S2中的AIGC大模型根据输入信息和增强的领域知识生成系列答案候选具体包括：

增强信息整合：将用户问题的调整后表示和领域知识整合为一个增强信息集，增强信息集包括调整后的问题特征、领域特定术语、概念及其相互关系；

上下文感知编码：利用编码器处理增强信息集，以捕捉问题的深层语义特征和领域知识之间的复杂关系，编码器输出一个综合问题上下文和领域知识的高维特征表示；

答案生成：将编码后的高维特征表示输入到AIGC大模型的解码器中，解码器利用高维特征表示，在考虑问题上下文和领域知识的基础上，通过序列生成机制生成系列答案候选。

进一步的，所述S3中，采用束搜索（Beam Search）评估答案候选，并且使生成的答案既多样化又高度相关，所述束搜索具体包括：

初始化：设定束宽，在解码开始时，初始化一个大小为/>的候选束(集合)，每个候选项包含仅有起始标记(如〈start>)的部分解序列；

迭代扩展：在每一步迭代中，对于束中的每个部分解序列，预测下一个词汇(或标记)及其概率，对于每个部分解，选择概率最高的个词汇，与该部分解结合，形成新的部分解序列；

计算分数：每个新生成的部分解序列的分数通过累加其构成词汇的对数概率来计算,公式如下：

，其中，/>是部分解序列，/>是序列中的第/>个词汇，/>是给定上文/>和上下文/>(即问题表示和领域知识)时，词汇/>的条件概率，/>是序列中词汇的数量；

选择保留：在每一步迭代后，从所有新生成的部分解序列中选择分数最高的个部分解，加入到束中，以供下一轮迭代扩展使用；

终止条件：迭代过程持续进行，直到达到预定义的最大长度，或者束中的部分解序列以结束标记(如〈end>)结尾；

从最终的束中选择分数最高的序列作为答案候选，在需要多个答案候选的情况下，选择排序靠前的序列。

进一步的，所述S4还包括根据答案的内容和类型，选择格式化方式、为答案添加上下文信息，在答案中高亮或强调关键信息，包括使用加粗、斜体或颜色变化来吸引用户注意到重要部分。

一种基于AIGC大模型的语言处理问答***，用于实现上述的一种基于AIGC大模型的语言处理问答方法，包括以下模块：

用户接口模块：负责接收用户输入的自然语言问题，并支持问题的文本和语音形式输入，该模块还负责将最终的答案以自然、用户友好的方式呈现给用户；

问题理解模块：使用自然语言处理技术对用户输入的问题进行语法分析和语义理解，提取问题的关键信息，包括关键词汇、实体、关系和问题类型；

领域适应性增强处理模块：包含领域识别子模块、领域知识图谱匹配子模块和领域适应性算法子模块，用于确定问题所属的具体领域，匹配领域知识图谱中的相关概念，并实时调整AIGC大模型；

答案生成模块：利用经过领域适应性增强处理后的AIGC大模型，根据问题的上下文和领域知识，生成系列答案候选，采用束搜索算法来优化答案生成过程；

答案评估和选择模块：通过综合评价答案候选，包括内容重叠度量、语义相似度度量、语言流畅度检查和语法正确性验证，以选取最优答案。

本发明的有益效果：

本发明，通过结合领域适应性增强处理和领域知识图谱，本方法能够精准地理解并回答涉及特定领域冷门问题和专业术语的查询，这一过程不仅增强了模型对问题深层含义的理解，还确保了答***性和高度相关性，从而满足专业领域用户的需求。

本发明，通过领域适应性增强处理，能够深入理解特定领域的冷门术语和复杂概念，确保了答案的专业性和准确性，这种深度理解使得***能够处理和回答那些传统语言模型难以准确捕捉的专业领域问题，利用领域知识图谱和实时调整机制，本方法显著增强了AIGC大模型对特定领域问题的适应性和处理能力。这种适应性强化不仅提升了问答***在各个专业领域内的应用范围，还增强了其在面对新领域或冷门问题时的灵活性和准确性。

本发明，通过束搜索算法，本方法能够在广泛的候选答案中精选出最优质的答案。这种选择机制基于答案的相关性和自然性进行综合评分，确保了最终呈现给用户的答案不仅与问题高度相关，而且语言表达流畅自然，束搜索算法通过在每一步中保留多个最优候选解，确保了答案的多样性。这种多样性对于处理具有多种可能答案的开放式问题尤为重要，能够提供更全面的信息，满足不同用户的需求。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程示意图；

图2为本发明实施例的***模块示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1所示，一种基于AIGC大模型的语言处理问答方法，包括以下步骤：

S3：评估答案候选，以选取最优答案；

S4：将最优答案以自然语言的形式输出给用户。

S1具体包括：

S2中的领域适应性增强处理具体包括：

将增强信息输入到基于AIGC的语言模型。

模型输入调整：根据AIGC语言模型的输入要求，将增强信息编码表示整合到模型的输入中，需要调整模型的输入层，以接受新的增强信息向量作为额外的输入。

上下文信息整合：在模型的解码阶段，使用增强信息作为额外的上下文信息来指导答案的生成，通过修改模型的注意力机制来实现，使模型在生成答案时考虑到增强信息提供的上下文和领域知识。

训练与微调：最后，需要在包含增强信息的数据集上对AIGC模型进行训练或微调，以适应新的输入格式和信息，确保模型能够有效地利用增强信息来生成更准确和相关的答案。

S21具体包括：

其中，代表向量的点积，/>和/>分别是向量/>和/>的欧几里得范数，该公式衡量了问题特征向量和各领域向量在向量空间中的夹角，夹角越小，相似度越高；

S22具体包括：

构建知识图谱：与领域专家合作，构建包含领域内重要概念、术语、实体及其相互关系的知识图谱，每个节点代表一个领域内的概念或实体，节点之间的边表示概念或实体之间的关系，如“是一种”、“属于”、“相关于”；

深层含义理解：综合使用图谱的结构信息和术语的上下文关系，解析冷门术语和概念的深层含义，帮助全面地理解问题，为生成准确和相关的***支持。

S23具体包括：

S232，特征转换：使用自编码器算法将整合后的特征表示转换为适用于AIGC大模型的形式，自编码器是一种无监督的神经网络，用于学习数据的有效编码。其基本结构包括一个编码器和一个解码器，编码器将输入数据转换成一个较低维度的编码，而解码器则试图从这个编码重构输入数据，编码器表示为：，其中，/>是输入特征，/>是编码器权重，/>是偏置项，/>是激活函数，/>是生成的隐藏层表示(即编码)；解码器表示为：，其中，/>是解码器权重，/>是偏置项，/>是激活函数，/>是重构的输入，自编码器的目标是最小化输入/>和重构输入/>之间的差异，使用损失函数：，训练自编码器最小化损失函数，学习到输入数据的压缩表示，压缩表示用于特征转换；

S233，模型调整：基于转换后的特征表示，对AIGC大模型的参数进行实时调整，调整过程采用迁移学习，让AIGC大模型适应当前问题的具体领域背景和语义要求，迁移学习是一种利用在一个任务上学到的知识来提高在另一个相关任务上的学习效果的技术。在迁移学习中，通常有一个源任务和一个目标任务，以及相应的源域数据集和目标域数据集，迁移学习过程为：

在源任务上预训练模型，学习源域数据的表示；

将预训练模型的一部分(如特征提取层)迁移到目标任务上；

验证机制采用交叉验证或模拟问题测试。

S2中的AIGC大模型根据输入信息和增强的领域知识生成系列答案候选具体包括：

答案生成：将编码后的高维特征表示输入到AIGC大模型的解码器中，解码器利用高维特征表示，在考虑问题上下文和领域知识的基础上，通过序列生成机制生成系列答案候选，解码器可以基于Transformer的结构，利用自注意力和交叉注意力机制来生成答案序列。

S3中，采用束搜索（Beam Search）评估答案候选，并且使生成的答案既多样化又高度相关，帮助避免生成高度重复的答案，同时确保答案的质量和相关性，对生成的答案候选进行后处理和优化，包括语法校正、语义一致性检查和领域知识验证，以提升答***性和专业性，束搜索具体包括：

S4还包括根据答案的内容和类型，选择格式化方式，例如，如果答案是一个列表（如步骤、选项等），则以列表形式呈现；如果***含日期、数字或特定数据，则确保这些信息的格式标准化且易于阅读；

为答案添加上下文信息，使用户即使没有看到完整的问答历史也能理解答案，这可能包括简短的问题复述、引入答案的背景信息或解释特定术语；

在答案中高亮或强调关键信息，包括使用加粗、斜体或颜色变化来吸引用户注意到重要部分。

如图2所示，一种基于AIGC大模型的语言处理问答***，用于实现上述的一种基于AIGC大模型的语言处理问答方法，包括以下模块：

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明旨在涵盖落入权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于AIGC大模型的语言处理问答方法，其特征在于，包括以下步骤：

S3：评估答案候选，以选取最优答案；

S4：将最优答案以自然语言的形式输出给用户。

2.根据权利要求1所述的一种基于AIGC大模型的语言处理问答方法，其特征在于，所述S1具体包括：

S12，预处理：对用户输入的问题进行预处理，包括去除无关字符、纠正拼写错误、转换语音输入为文本；

3.根据权利要求2所述的一种基于AIGC大模型的语言处理问答方法，其特征在于，所述S2中的领域适应性增强处理具体包括：

4.根据权利要求3所述的一种基于AIGC大模型的语言处理问答方法，其特征在于，所述S21具体包括：

特征提取：从用户问题中提取语言特征，包括词频、词性标注、语义角色标注和上下文嵌入向量；

领域相似度计算：利用领域识别算法计算问题特征向量与预定义领域向量集之间的相似度，相似度计算：/>；

5.根据权利要求4所述的一种基于AIGC大模型的语言处理问答方法，其特征在于，所述S22具体包括：

6.根据权利要求5所述的一种基于AIGC大模型的语言处理问答方法，其特征在于，所述S23具体包括：

S232，特征转换：使用自编码器算法将整合后的特征表示转换为适用于AIGC大模型的形式，编码器表示为：，其中，/>是输入特征，/>是编码器权重，/>是偏置项，是激活函数，/>是生成的隐藏层表示；解码器表示为：/>，其中，/>是解码器权重，/>是偏置项，/>是激活函数，/>是重构的输入，自编码器的目标是最小化输入和重构输入/>之间的差异，使用损失函数：/>，训练自编码器最小化损失函数，学习到输入数据的压缩表示，压缩表示用于特征转换；

在源任务上预训练模型，学习源域数据的表示；

将预训练模型的一部分迁移到目标任务上；

7.根据权利要求6所述的一种基于AIGC大模型的语言处理问答方法，其特征在于，所述S2中的AIGC大模型根据输入信息和增强的领域知识生成系列答案候选具体包括：

8.根据权利要求7所述的一种基于AIGC大模型的语言处理问答方法，其特征在于，所述S3中，采用束搜索评估答案候选，并且使生成的答案既多样化又高度相关，所述束搜索具体包括：

初始化：设定束宽，在解码开始时，初始化一个大小为/>的候选束，每个候选项包含仅有起始标记的部分解序列；

迭代扩展：在每一步迭代中，对于束中的每个部分解序列，预测下一个词汇及其概率，对于每个部分解，选择概率最高的个词汇，与该部分解结合，形成新的部分解序列；

，其中，/>是部分解序列，/>是序列中的第/>个词汇，/>是给定上文/>和上下文/>时，词汇/>的条件概率，/>是序列中词汇的数量；

终止条件：迭代过程持续进行，直到达到预定义的最大长度，或者束中的部分解序列以结束标记结尾；

9.根据权利要求1所述的一种基于AIGC大模型的语言处理问答方法，其特征在于，所述S4还包括根据答案的内容和类型，选择格式化方式、为答案添加上下文信息以及在答案中高亮或强调关键信息，包括使用加粗、斜体或颜色变化来吸引用户注意到重要部分。

10.一种基于AIGC大模型的语言处理问答***，用于实现如权利要求1-9任一项所述的一种基于AIGC大模型的语言处理问答方法，其特征在于，包括以下模块：

用户接口模块：负责接收用户输入的自然语言问题，并支持问题的文本和语音形式输入；