CN117520523A

CN117520523A - 数据处理方法、装置、设备及存储介质

Info

Publication number: CN117520523A
Application number: CN202311850606.XA
Authority: CN
Inventors: 刘黎思; 潘伟; 钟佳; 陈俊荣; 张璐
Original assignee: China Post Consumer Finance Co ltd
Current assignee: China Post Consumer Finance Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-02-06
Anticipated expiration: 2043-12-29
Also published as: CN117520523B

Abstract

本发明属于计算机领域，公开了一种数据处理方法、装置、设备及存储介质。包括：根据用户输入的待处理问答信息确定目标问题；对目标问题进行向量编码，得到目标向量；基于目标向量在预设向量数据库中进行检索，得到检索结果，根据检索结果的文本类型确定目标prompt模板，并将检索结果与目标prompt模板进行拼接，得到拼接结果；将拼接结果和待处理问答信息输入至预设大语言模型，得到问答结果。由于本发明是先进行向量检索，得到检索结果，再基于预设大语言模型得到问答结果，相对于现有的通过文本匹配得到搜索结果的方式，本发明通过预设大语言模型和向量检索得到的拼接结果确定问答结果，能够提供符合用户期望的问答结果。

Description

数据处理方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

现有的问题搜索的模式都是用户在输入框输入要搜索的问题，然后搜索引擎根据用户输入的内容在海量的网络数据中进行文本匹配，得到搜索结果并返回至用户，或者是基于pipeline模式实现用户的问答，上述方式通常使用预定义的规则和流程来处理用户输入的问题或信息，而不是真正理解问题的含义，得到的搜索结果与用户的期望不符，导致用户体验较差，无法得到满意的答案，因此，如何提高用户问答效率成为了亟待解决的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种数据处理方法、装置、设备及存储介质，旨在解决现有技术在用户进行问答时，由于不能准确理解用户的意图导致问答效率不高的技术问题。

为实现上述目的，本发明提供了一种数据处理方法，所述方法包括以下步骤：

获取用户输入的待处理问答信息，根据所述待处理问答信息确定目标问题；

对所述目标问题进行向量编码，得到所述目标问题对应的目标向量；

基于所述目标向量在预设向量数据库中进行检索，得到检索结果，所述检索结果包括文本片段和/或问答对；

根据所述检索结果的文本类型确定目标prompt模板，并将所述检索结果与所述目标prompt模板进行拼接，得到拼接结果；

将所述拼接结果和所述待处理问答信息输入至预设大语言模型，得到所述预设大语言模型输出的问答结果。

可选地，所述获取用户输入的待处理问答信息，根据所述待处理问答信息确定目标问题的步骤之前，还包括：

对预设知识文档进行文本拆分，得到所述预设知识文档对应的文本片段；

将所述文本片段与预设prompt模板进行拼接，得到文本片段拼接结果；

将所述文本片段拼接结果输入至预设大语言模型，以使所述预设大语言模型基于所述文本片段拼接结果生成问答对；

基于所述问答对构建预设向量数据库。

可选地，所述对预设知识文档进行文本拆分，得到所述预设知识文档对应的文本片段的步骤之后，还包括：

对所述文本片段进行向量编码，得到文本向量；

根据所述文本向量和所述问答对构建预设向量数据库。

可选地，所述对预设知识文档进行文本拆分，得到所述预设知识文档对应的文本片段的步骤，包括：

确定预设知识文档的文档结构；

根据所述文档结构确定所述预设知识文档的文档标题和正文段落；

基于预设句子边界检测算法对所述正文段落进行文本拆分，得到拆分结果；

根据所述拆分结果和所述文档标题确定所述预设知识文档对应的文本片段。

可选地，所述基于所述目标向量在预设向量数据库中进行检索，得到检索结果的步骤之后，还包括：

在所述检索结果中包含预设问答对时，确定所述预设问答对中的预设问题信息；

确定所述目标问题与所述预设问题信息中各个预设问题的文本相似度；

根据所述文本相似度从所述预设问题中选取第一问题；

对所述第一问题进行关键词提取和词性标注，得到标注结果；

根据所述标注结果确定所述第一问题与所述目标问题的语义相似度；

在所述语义相似度大于预设语义相似度阈值时，获取所述第一问题对应的问答对信息，并根据所述问答对信息确定问答结果。

可选地，所述获取用户输入的待处理问答信息，根据所述待处理问答信息确定目标问题的步骤，包括：

获取用户输入的待处理问答信息；

对所述待处理问答信息进行词频统计，得到词频统计结果；

对所述待处理问答信息进行词性分析，得到词性分析结果；

根据所述词频统计结果、所述词性分析结果以及所述待处理问答信息对应的语义信息确定目标问题。

可选地，所述将所述检索结果与目标prompt模板进行拼接，得到拼接结果的步骤，包括：

获取历史会话信息；

基于所述目标prompt模板对所述历史会话信息和所述检索结果进行拼接，得到拼接结果。

此外，为实现上述目的，本发明还提供一种数据处理装置，所述装置包括：

获取模块，用于获取用户输入的待处理问答信息，根据所述待处理问答信息确定目标问题；

向量编码模块，用于对所述目标问题进行向量编码，得到所述目标问题对应的目标向量；

检索模块，用于基于所述目标向量在预设向量数据库中进行检索，得到检索结果，所述检索结果包括文本片段和/或问答对；

拼接模块，用于根据所述检索结果的文本类型确定目标prompt模板，并将所述检索结果与所述目标prompt模板进行拼接，得到拼接结果；

预测模块，用于将所述拼接结果和所述待处理问答信息输入至预设大语言模型，得到所述预设大语言模型输出的问答结果。

此外，为实现上述目的，本发明还提出一种数据处理设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序配置为实现如上文所述的数据处理方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如上文所述的数据处理方法的步骤。

本发明获取用户输入的待处理问答信息，根据所述待处理问答信息确定目标问题；对所述目标问题进行向量编码，得到所述目标问题对应的目标向量；基于所述目标向量在预设向量数据库中进行检索，得到检索结果，所述检索结果包括文本片段和/或问答对；根据所述检索结果的文本类型确定目标prompt模板，并将所述检索结果与所述目标prompt模板进行拼接，得到拼接结果；将所述拼接结果和所述待处理问答信息输入至预设大语言模型，得到所述预设大语言模型输出的问答结果。由于本发明是先进行向量检索，得到检索结果，再基于预设大语言模型得到问答结果，相对于现有的通过计算文本相似度将得到的搜索结果作为问答结果的方式，本发明上述方式通过预设大语言模型和向量检索得到的拼接结果确定问答结果，能够提供符合用户期望的问答结果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的数据处理设备的结构示意图；

图2为本发明数据处理方法第一实施例的流程示意图；

图3为本发明数据处理方法第一实施例的文档结构示意图；

图4为本发明数据处理方法第二实施例的流程示意图；

图5为本发明数据处理方法第二实施例的具体实施示意图；

图6为本发明数据处理方法第三实施例的流程示意图；

图7为本发明数据处理装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的数据处理设备结构示意图。

如图1所示，该数据处理设备可以包括：处理器1001，例如中央处理器（CentralProcessing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（Wireless-Fidelity，WI-FI）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM），也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对数据处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及数据处理程序。

在图1所示的数据处理设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明数据处理设备中的处理器1001、存储器1005可以设置在数据处理设备中，所述数据处理设备通过处理器1001调用存储器1005中存储的数据处理程序，并执行本发明实施例提供的数据处理方法。

基于上述数据处理设备，本发明实施例提供了一种数据处理方法，参照图2，图2为本发明数据处理方法第一实施例的流程示意图。

本实施例中，所述数据处理方法包括以下步骤：

步骤S10：获取用户输入的待处理问答信息，根据所述待处理问答信息确定目标问题。

需要说明的是，本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备，例如手机、平板电脑、个人电脑等，或者是一种能够实现上述功能的电子设备或数据处理设备。以下以所述数据处理设备为例，对本实施例及下述各实施例进行说明。

需要说明的是，所述待处理问答信息可以是用户输入的要进行检索或问答的信息，例如“贷款注意事项”等。为了提高用户的问答效率，本实施例中不仅可以回答用户提出的待处理问答信息，还能够根据用户的反馈和回复进一步的进行追问和解答，这种多轮问答的设计能够提供更加个性化和深入的服务，有效地解决用户的问题和需求。因此，所述待处理问答信息还可包括用户的历史问答信息，历史问答信息包括用户输入的问题以及数据处理设备针对所述问题输出的问答结果。所述根据所述待处理问答信息确定目标问题可以是对所述待处理问答信息中的文本内容（即用户输入的问题）进行问题描述增强，得到目标问题，所述问题描述增强用于从用户输入的问题中提取满足用户需求的关键性问题。所述目标问题可以是对所述用户输入的问题进行问题描述增强后得到的更符合用户需求的问题。

应理解的是，所述对用户输入的问题进行问题描述增强可以是对所述用户输入的问题进行去噪等优化处理，例如，去除停用词、删除标点符号、使用正则表达式过滤掉一些无关信息，例如URL链接、电话号码等、使用文本分析工具去除一些无关信息等处理。还可以包括：提取关键信息：分析用户问题，从中提取出关键词汇和关键信息，这些关键信息可以帮助理解所述用户问题；补充上下文信息：尽可能多地了解用户问题所处的背景和环境，例如设备、操作***、应用程序版本等，这些信息有助于更好地诊断问题；明确问题的目标：了解用户的期望和目标，例如，用户的搜索意图；简明扼要：需要使用简练、明确的语言，避免使用过多的无意义词汇；避免描述偏见：避免使用带有负面情绪或偏见的语言，以影响解决问题的搜索结果。

进一步的，为了准确理解用户的问答意图，所述步骤S10，可包括：获取用户输入的待处理问答信息；

对所述待处理问答信息进行词频统计，得到词频统计结果；

对所述待处理问答信息进行词性分析，得到词性分析结果；

需要说明的是，所述对所述待处理问答信息进行词频统计，得到词频统计结果可以是统计所述待处理问答信息中各个字或词的出现频率。所述对所述待处理问答信息进行词性分析，得到词性分析结果可以是对所述待处理问答信息中的内容进行关键词提取，并确定提取出的关键词的词性，得到词性分析结果。所述根据所述词频统计结果、所述词性分析结果以及所述待处理问答信息对应的语义信息确定目标问题可以是根据所述语义信息确定用户输入待处理问答信息对应的问答意图，根据所述问答意图和所述待处理问答信息中各个词语的出现频率和词语的词性确定用户的侧重点，然后根据用户的语义信息和侧重点生成目标问题。例如，用户输入的待处理问答信息为：“有几种不同类型的贷款可以选择，例如抵押贷款、汽车贷款或个人贷款，选择哪一种贷款更好”通过对用户输入的待处理问答信息进行语义分析，可知用户是想搜索各种贷款的利弊，通过词频统计和词性分析可知，贷款和选择出现的频率较高，词性分别为名词和动词。则生成的目标问题可以是：“如何选择贷款类型？”。

在具体实施中，还可以通过预先训练的自然语言处理模型生成目标问题，具体的，将所述词频统计结果、所述词性分析结果以及所述待处理问答信息输入至自然语言处理模型，得到所述自然语言处理模型输出的目标问题。所述自然语言处理模型可以理解所述待处理问答信息的语义，并根据所述待处理问答信息的语义、所述词频统计结果和所述词性分析结果生成更加符合用户问答意图的目标问题。

步骤S20：对所述目标问题进行向量编码，得到所述目标问题对应的目标向量。

需要说明的是，所述对所述目标问题进行向量编码，得到所述目标问题对应的目标向量可以是将所述目标问题转换为向量表示，得到所述目标问题对应的目标向量。可以通过以下公式对所述目标问题进行向量编码：

其中，encode用于表征向量编码模型，text用于表征进行向量编码的内容，此处为目标问题，用于表征目标问题对应的目标向量。所述向量编码模型可以是词袋模型、词频-逆文档频率模型、单词-向量模型等用于文本向量化的模型，本实施例在此不加以限制。

步骤S30：基于所述目标向量在预设向量数据库中进行检索，得到检索结果，所述检索结果包括文本片段和/或问答对。

需要说明的是，所述预设向量数据库可以是预先根据预设的知识文档生成的向量知识库，存储有知识文档文本对应的向量表示以及根据知识文档生成的问答对。所述基于所述目标向量在预设向量数据库中进行检索可以是计算目标向量与所述预设向量数据库中存储的各个向量的相似性，可以通过欧几里得距离和余弦相似度等相似性计算算法确定目标向量与所述预设向量数据库中存储的各个向量的相似性，根据所述相似性将相似性大于预设相似性阈值的向量对应的内容作为所述检索结果。所述预设相似性阈值可以是预先设置的值。计算目标向量与所述预设向量数据库中存储的各个向量的相似性可参照以下公式：

其中，其中用于表征目标向量，score用于表征相似性得分，/>用于表征预设向量数据库中存储的各个向量，即预设向量数据库中存储的文本向量和问答对中的问题对应的问题向量，cos用于表征相似性计算算法。

步骤S40：根据所述检索结果的文本类型确定目标prompt模板，并将所述检索结果与所述目标prompt模板进行拼接，得到拼接结果；

需要说明的是，所述检索结果的文本类型包括标题和正文，标题又可根据知识文档的文档结构划分为文档标题、一级标题、二级标题等层次。所述目标prompt模板可以是对所述检索结果进行拼接的格式，例如，目标prompt模板可以是：

"""已知信息：{context}

根据上述已知信息，简洁和专业的来回答用户的问题。如果无法从中得到答案，请回答 “进一步询问，以获得详细信息” 或说“没有提供足够的相关信息”，不允许在答案中添加编造成分，答案请使用中文。问题是：{query}"""。

其中context为根据目标prompt模板对检索结果进行拼接的结果，query为待处理问答信息或目标问题。可参照图3，图3为本发明数据处理方法第一实施例的文档结构示意图，以图3的文档结构为例，context的拼接方式可以是：

1. 如果检索出来的是“正文段落1”的某一句，context则为：

context = 文档标题 + 一级标题1 + 二级标题1 + 正文段落1

2. 如果检索出来的是“二级标题1”，context则为：

context = 文档标题 + 二级标题1 + 正文段落1 + 正文段落2

3. 如果检索出来的是“一级标题1”，context则为：

context = 文档标题 + 一级标题1 + 二级标题1 + 二级标题2

4. 如果检索出来的是问答对，context则为：

context = 问题 + 答案

进一步的，为了提高用户体验感，根据用户问答的上下文信息得出更加准确的问答结果，所述将所述检索结果与目标prompt模板进行拼接，得到拼接结果的步骤，包括：获取历史会话信息；基于所述目标prompt模板对所述历史会话信息和所述检索结果进行拼接，得到拼接结果。

需要说明的是，所述历史会话信息可以包括用户历史输入的问题信息，可以包括用户输入的问题和对应的问答结果，若用户的历史会话信息较多，则可以在拼接时仅拼接历史会话信息中的问题，不拼接问答结果，以便更好的理解用户的问答意图，提供更加精准的问答结果。

步骤S50：将所述拼接结果和所述待处理问答信息输入至预设大语言模型，得到所述预设大语言模型输出的问答结果。

需要说明的是，所述预设大语言模型可以是预先通过样本数据进行训练得到的能够对输入的问题（即待处理问答信息）和拼接结果进行自然语言处理和深度学习，提供更加准确的问答结果的模型。可参照以下公式：

其中，用于表征所述预设大语言模型，input用于表征预设大语言模型的输入，output用于表征预设大语言模型的输出，即问答结果。

应理解的是，预设大语言模型利用了深度学习技术中的神经网络，通过大量的语料数据进行训练，从而能够学习到语言的结构、语法规则和语义信息。在用户输入文本之后，预设大语言模型首先会对文本进行分词和解析，将其转化成计算机可读的矢量形式，然后送入预训练的神经网络模型中进行推断。推断过程中预设大语言模型会根据用户输入的文本和之前的上下文，预测出最可能的下一步响应。这个预测过程是基于模型对大量语料数据的学习所得，因此可以在很大程度上还原人类自然语言表达的方式，并生成高度连贯和自然的响应文本。最后，预设大语言模型将生成的响应文本（即问答结果）返回给用户，完成一次对话交互。整个过程中，预设大语言模型还会不断地学习和优化，以提供更加准确和适合用户的回答。

本实施例获取用户输入的待处理问答信息，根据所述待处理问答信息确定目标问题；对所述目标问题进行向量编码，得到所述目标问题对应的目标向量；基于所述目标向量在预设向量数据库中进行检索，得到检索结果，所述检索结果包括文本片段和/或问答对；根据所述检索结果的文本类型确定目标prompt模板，并将所述检索结果与所述目标prompt模板进行拼接，得到拼接结果；将所述拼接结果和所述待处理问答信息输入至预设大语言模型，得到所述预设大语言模型输出的问答结果。由于本实施例是先进行向量检索，得到检索结果，再基于预设大语言模型得到问答结果，相对于现有的通过计算文本相似度将得到的搜索结果作为问答结果的方式，本实施例能够实现多轮对话，不仅可以回答用户提出的问题，还能够根据用户的反馈和回复进一步进行追问和解答。这种多轮问答的设计能够提供更加个性化和深入的服务，有效地解决用户的问题和需求。且本实施例使用预设大语言模型作为核心技术，通过模型的自然语言处理和深度学习能力，实现了更加智能化和高效化的用户问答服务。该模型可以学习和适应不同的语言和语境，提供更加准确和个性化的问答结果。

参考图4，图4为本发明数据处理方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S10之前，还包括：

步骤S001：对预设知识文档进行文本拆分，得到所述预设知识文档对应的文本片段。

需要说明的是，所述对预设知识文档进行文本拆分，得到所述预设知识文档对应的文本片段可以是将所述预设知识文档按照段落、章节、句子和/或行数进行拆分，得到拆分后的预设知识文档对应的文本片段。

进一步的，为了提高用户的问答效率，所述步骤S001，包括：确定预设知识文档的文档结构；

需要说明的是，一般情况下，一篇文档可以表示为如图3所示的树形结构，根节点为文章标题，下一层级是一级标题，最后叶子节点是文章的正文。所述确定预设知识文档的文档结构可以是确定所述预设知识文档的树形结构。所述预设句子边界检测算法可以是对正文段落进行划分的句子边界检测算法，例如，means算法、canny算法等，本实施例优选Punkt句子边界检测算法对正文段落进行文本划分，获得拆分结果。除了通过预设句子边界检测算法对正文段落进行句子划分之外，本实施例还可获取正文段落中的标点符号，然后根据标点符号进行句子划分，例如，在标点符号为“。”、“！”等时，进行分句，获得拆分结果。所述根据所述拆分结果和所述文档标题确定所述预设知识文档对应的文本片段可以是将所述拆分结果中的各个句子和文档标题中的各个标题作为所述预设知识文档对应的文本片段。

进一步的，为了提高用户的问答效率，所述步骤S001之后，还包括：对所述文本片段进行向量编码，得到文本向量；

根据所述文本向量和所述问答对构建预设向量数据库。

需要说明的是，所述对所述文本片段进行向量编码，得到文本向量可以是将所述文本片段转换为向量表示，得到文本片段对应的文本向量。编码步骤可参照上述对目标问题进行向量编码的步骤。在具体实施中，对于文章标题节点，可直接使用文章标题文本进行编码，例如：text=“文章标题”进行编码，对于子标题节点或者是正文部分节点，可以拼接父节点的文本内容和当前节点的文本内容进行编码，例如：对节点（一级标题1）进行向量编码，text=“文章标题，一级标题1”；对节点（二级标题1）进行向量编码，text=“文章标题，一级标题1，二级标题1”；对拆分结果对应的文本片段进行向量编码，text=“文章标题，一级标题1，二级标题1，文本片段”。所述根据所述文本向量和所述问答对构建预设向量数据库可以是将所述文本向量和所述问答对存储至数据库中，得到预设向量数据库。

步骤S002：将所述文本片段与预设prompt模板进行拼接，得到文本片段拼接结果。

需要说明的是，为了使预设大语言模型根据输入的文本片段生成问答对，需要将所述文本片段与预设prompt模板进行拼接，以提示预设大语言模型根据文本片段生成问答对。预设prompt模板可以包括预先设置的将所述文本片段输入至预设大语言模型的输入格式和提示信息。

步骤S003：将所述文本片段拼接结果输入至预设大语言模型，以使所述预设大语言模型基于所述文本片段拼接结果生成问答对。

在具体实施中，将所述文本片段拼接结果输入至预设大语言模型的输入可以是：请从下面的信息中生成多个问答对：

当考虑贷款时，有一些注意事项需要牢记。以下是一些常见的贷款注意事项：

1. 了解你的财务状况：在申请贷款之前，确保你对自己的财务状况有清晰的了解。计算你的收入、支出和债务，并确定你能够负担得起贷款还款。

2. 研究不同的贷款选项：了解不同类型的贷款，例如抵押贷款、汽车贷款或个人贷款，并比较它们的利率、还款期限和条件。选择最适合你需求的贷款类型。

3. 了解利率和费用：了解贷款的利率类型（固定利率或浮动利率）以及相关费用（如贷款手续费、利息、罚息等）。询问贷款机构关于所有与贷款相关的费用和条款。

这些是一些贷款时需要注意的主要事项。贷款是一项重要的金融决策，因此在做出决策之前，确保充分了解并考虑所有相关因素。如有需要，建议咨询专业的财务顾问。

所述预设大语言模型基于所述文本片段拼接结果生成的问答对可以是：

Q: 在考虑贷款时，需要注意哪些事项？

A: 以下是一些需要注意的事项：

1.了解你的财务状况。

2. 研究不同的贷款选项。

3. 了解利率和费用。

Q: 在申请贷款之前，为什么要了解自己的财务状况？

A: 在申请贷款之前了解自己的财务状况非常重要。这样你可以计算你的收入、支出和债务，确定自己是否能够负担得起贷款还款。

Q: 有哪些不同类型的贷款可以选择？

A: 有几种不同类型的贷款可以选择，例如抵押贷款、汽车贷款或个人贷款。每种类型的贷款都有不同的利率、还款期限和条件。

Q: 在选择贷款类型时应该考虑什么因素？

A: 在选择贷款类型时，你应该考虑利率、还款期限和条件。选择最适合你需求的贷款类型是非常重要的。

步骤S004：基于所述问答对构建预设向量数据库。

需要说明的是，所述基于所述问答对构建预设向量数据库可以是将所述问答对中的问题转换为向量表示，将所述问题对应的向量表示以及所述向量表示对应的问答对存储至数据库中，得到预设向量数据库。

在具体实施中，可参照图5，图5为本发明数据处理方法第二实施例的具体实施示意图；参照图5可知，本实施例中的完成步骤包括：对知识文档，即上文所述的预设知识文档，进行加载，然后拆分，得到文本片段，将所述文本片段转换为向量表示后进行存储，得到预设向量数据库，同时，还将得到的文本片段与prompt模板进行拼接，并将拼接结果输入至大语言模型中，得到大语言模型输出的问答对，将问答对中的问题转换为向量表示，存储至预设向量数据库中，有用户（即图中的客户）输入时，将用户输入的内容转换为向量表示，并在所述预设向量数据库中进行向量相似度检索，得到检索结果，即图5中的相关文本片段，将所述相关文本片段与目标prompt模板进行拼接，并将拼接结果输入至大语言模型中，得到大语言模型输出的答案信息。其中，若文本片段为依据句子划分，则为了大语言模型输出的问答对的完整性，在根据大语言模型生成问答对时，可将知识文档中的内容按照段落进行划分，将划分的段落作为所述文本片段输入至大语言模型中，以使大语言模型根据输入的内容生成问答对。

本实施例对预设知识文档进行文本拆分，得到所述预设知识文档对应的文本片段；将所述文本片段与预设prompt模板进行拼接，得到文本片段拼接结果；将所述文本片段拼接结果输入至预设大语言模型，以使所述预设大语言模型基于所述文本片段拼接结果生成问答对；基于所述问答对构建预设向量数据库。本实施例对预设知识文档进行文本拆分，并根据拆分后的内容构建预设向量数据库。在进行数据检索时，直接在预设向量数据库中进行检索，提高检索效率。

参考图6，图6为本发明数据处理方法第三实施例的流程示意图。

基于上述各实施例，在本实施例中，所述步骤S30之后，所述方法还包括：

步骤S301：在所述检索结果中包含预设问答对时，确定所述预设问答对中的预设问题信息。

在具体实施中，在完成向量检索后，判断检索结果中是否包含问答对，若包含，则确定检索结果中包含的问答对对应的问题和答案信息，即预设问题信息。在所述检索结果中不包含预设问答对时，执行所述根据所述检索结果的文本类型确定目标prompt模板，并将所述检索结果与所述目标prompt模板进行拼接的步骤。

步骤S302：确定所述目标问题与所述预设问题信息中各个预设问题的文本相似度。

需要说明的是，所述预设问题可以是所述预设问题信息中的问题。例如，预设问题信息包括：1，在申请贷款之前，为什么要了解自己的财务状况？

答案: 在申请贷款之前了解自己的财务状况非常重要。这样你可以计算你的收入、支出和债务，确定自己是否能够负担得起贷款还款。

2，有哪些不同类型的贷款可以选择？

答案: 有几种不同类型的贷款可以选择，例如抵押贷款、汽车贷款或个人贷款。每种类型的贷款都有不同的利率、还款期限和条件。

则所述预设问题可以是：“在申请贷款之前，为什么要了解自己的财务状况”和“有哪些不同类型的贷款可以选择”。

需要说明的是，所述确定所述目标问题与所述预设问题信息中各个预设问题的文本相似度可以是确定所述目标问题与所述预设问题中相同的字或词的数量，用所述相同的字或词的数量除所述目标问题与预设问题的字数的平均值，得到目标问题与预设问题的文本相似度。确定目标问题与预设问题的文本相似度也可以采用其他方式，本实施例在此不加以限制。

步骤S303：根据所述文本相似度从所述预设问题中选取第一问题。

需要说明的是，所述根据所述文本相似度从所述预设问题中选取第一问题可以是选取与所述目标问题的文本相似度最高的预设问题作为所述第一问题。

步骤S304：对所述第一问题进行关键词提取和词性标注，得到标注结果。

需要说明的是，所述对所述第一问题进行关键词提取和词性标注，得到标注结果可以是提取所述第一问题中的实词，得到实词集合，所述实词可以是能够单独充当句子成分，即有词汇意义和语法意义的词。一般包括：名词、动词、形容词、数词、量词、代词、状态词、区别词等。所述词性标注可以是对所述实词集合中的各个词进行词性标注，得到标注结果。

步骤S305：根据所述标注结果确定所述第一问题与所述目标问题的语义相似度。

需要说明的是，所述根据所述标注结果确定所述第一问题与所述目标问题的语义相似度可以是按照上述方式对所述目标问题也进行关键词提取和词性标注，得到目标标注结果，根据所述目标标注结果和所述第一问题对应的标注结果确定所述第一问题与所述目标问题的语义相似度。具体可以是对比所述标注结果和所述目标标注结果中的各个关键词是否相同，若相同，则判断所述关键词的词性是否相同，若所述第一问题与所述目标问题对应的实词集合相同，且实词集合中各个关键词对应的词性也相同，则判定所述第一问题与所述目标问题的语义相似度为100%。若所述第一问题与所述目标问题对应的实词集合部分相同，部分相同的实词集合中有部分关键词的词性相同，则根据实词相同的数量、词性相同的数量以及实词集合中的关键词数量评估所述第一问题与所述目标问题的语义相似度。

步骤S306：在所述语义相似度大于预设语义相似度阈值时，获取所述第一问题对应的问答对信息，并根据所述问答对信息确定问答结果。

需要说明的是，所述预设语义相似度阈值可以是预先设置的语义相似度。在所述语义相似度大于预设语义相似度阈值时，可以判定所述目标问题与所述第一问题相同。则获取所述第一问题对应的问答对信息，将所述问答对信息中的答案信息作为问答结果。

本实施例在所述检索结果中包含预设问答对时，确定所述预设问答对中的预设问题信息；确定所述目标问题与所述预设问题信息中各个预设问题的文本相似度；根据所述文本相似度从所述预设问题中选取第一问题；对所述第一问题进行关键词提取和词性标注，得到标注结果；根据所述标注结果确定所述第一问题与所述目标问题的语义相似度；在所述语义相似度大于预设语义相似度阈值时，获取所述第一问题对应的问答对信息，并根据所述问答对信息确定问答结果。本实施例在所述检索结果中包含预设问答对时，对比目标问题是否与所述预设问答对中的问题相同，若相同，则确定与所述目标问题相同的第一问题，确定所述第一问题对应的问答对信息，并根据所述问答对信息确定问答结果。能够快速且准确的得到所述目标问题的问答结果，提高用户体验感。

参照图7，图7为本发明数据处理装置第一实施例的结构框图。

如图7所示，本发明实施例提出的数据处理装置包括：

获取模块10，用于获取用户输入的待处理问答信息，根据所述待处理问答信息确定目标问题；

向量编码模块20，用于对所述目标问题进行向量编码，得到所述目标问题对应的目标向量；

检索模块30，用于基于所述目标向量在预设向量数据库中进行检索，得到检索结果，所述检索结果包括文本片段和/或问答对；

拼接模块40，用于根据所述检索结果的文本类型确定目标prompt模板，并将所述检索结果与所述目标prompt模板进行拼接，得到拼接结果；

预测模块50，用于将所述拼接结果和所述待处理问答信息输入至预设大语言模型，得到所述预设大语言模型输出的问答结果。

本实施例获取用户输入的待处理问答信息，根据所述待处理问答信息确定目标问题；对所述目标问题进行向量编码，得到所述目标问题对应的目标向量；基于所述目标向量在预设向量数据库中进行检索，得到检索结果，所述检索结果包括文本片段和/或问答对；根据所述检索结果的文本类型确定目标prompt模板，并将所述检索结果与所述目标prompt模板进行拼接，得到拼接结果；将所述拼接结果和所述待处理问答信息输入至预设大语言模型，得到所述预设大语言模型输出的问答结果。由于本实施例是先进行向量检索，得到检索结果，再基于预设大语言模型得到问答结果，相对于现有的通过计算文本相似度将得到的搜索结果作为问答结果的方式，本实施例上述方式通过预设大语言模型和向量检索得到的拼接结果确定问答结果，能够提供符合用户期望的问答结果。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的数据处理方法，此处不再赘述。

基于本发明上述数据处理装置第一实施例，提出本发明数据处理装置的第二实施例。

在本实施例中，所述获取模块10，还用于对预设知识文档进行文本拆分，得到所述预设知识文档对应的文本片段；

基于所述问答对构建预设向量数据库。

进一步的，所述获取模块10，还用于对所述文本片段进行向量编码，得到文本向量；

根据所述文本向量和所述问答对构建预设向量数据库。

进一步的，所述获取模块10，还用于确定预设知识文档的文档结构；

进一步的，所述检索模块30，还用于在所述检索结果中包含预设问答对时，确定所述预设问答对中的预设问题信息；

根据所述文本相似度从所述预设问题中选取第一问题；

进一步的，所述获取模块10，还用于获取用户输入的待处理问答信息；

对所述待处理问答信息进行词频统计，得到词频统计结果；

对所述待处理问答信息进行词性分析，得到词性分析结果；

进一步的，所述拼接模块40，还用于获取历史会话信息；

本发明数据处理装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如上文所述的数据处理方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据处理方法，其特征在于，所述数据处理方法包括以下步骤：

2.如权利要求1所述的数据处理方法，其特征在于，所述获取用户输入的待处理问答信息，根据所述待处理问答信息确定目标问题的步骤之前，还包括：

基于所述问答对构建预设向量数据库。

3.如权利要求2所述的数据处理方法，其特征在于，所述对预设知识文档进行文本拆分，得到所述预设知识文档对应的文本片段的步骤之后，还包括：

对所述文本片段进行向量编码，得到文本向量；

根据所述文本向量和所述问答对构建预设向量数据库。

4.如权利要求3所述的数据处理方法，其特征在于，所述对预设知识文档进行文本拆分，得到所述预设知识文档对应的文本片段的步骤，包括：

确定预设知识文档的文档结构；

5.如权利要求1-4任一项所述的数据处理方法，其特征在于，所述基于所述目标向量在预设向量数据库中进行检索，得到检索结果的步骤之后，还包括：

根据所述文本相似度从所述预设问题中选取第一问题；

6.如权利要求1-4任一项所述的数据处理方法，其特征在于，所述获取用户输入的待处理问答信息，根据所述待处理问答信息确定目标问题的步骤，包括：

获取用户输入的待处理问答信息；

对所述待处理问答信息进行词频统计，得到词频统计结果；

对所述待处理问答信息进行词性分析，得到词性分析结果；

7.如权利要求1-4任一项所述的数据处理方法，其特征在于，所述将所述检索结果与目标prompt模板进行拼接，得到拼接结果的步骤，包括：

获取历史会话信息；

8.一种数据处理装置，其特征在于，所述数据处理装置包括：

9.一种数据处理设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序，所述数据处理程序配置为实现如权利要求1至7中任一项所述的数据处理方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如权利要求1至7任一项所述的数据处理方法的步骤。