CN117763116A

CN117763116A - 一种面向用户问答的知识文本抽取方法及***

Info

Publication number: CN117763116A
Application number: CN202311804852.1A
Authority: CN
Inventors: 郭利荣; 李洪海; 梁晓丹; 李金漳
Original assignee: China Datacom Corp ltd
Current assignee: China Datacom Corp ltd
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-03-26
Anticipated expiration: 2043-12-26

Abstract

本发明公开了一种面向用户问答的知识文本抽取方法及***，包括以下步骤：构建知识文本数据库；针对用户提出的问题，在所述知识文本数据库中检索与所述问题相关的文本，并进行相似度排序，得到排序后相关文本；利用信息熵函数遍历计算所有所述排序后相关文本，得到所有排序后相关文本的信息熵；基于所有排序后相关文本的信息熵，利用得分判断函数遍历计算所有所述排序后相关文本的判断得分，确定所述判断得分最大时的第i个所述排序后相关文本，分割获取前i个所述排序后相关文本作为最佳文本；将所述最佳文本进行拼装，将拼装后的最佳文本作为回答输出给用户，实现了基于用户问题的最相关知识文档分割以及知识文本组合最优组合。

Description

一种面向用户问答的知识文本抽取方法及***

技术领域

本发明涉及人工智能技术领域，特别涉及一种面向用户问答的知识文本抽取方法及***。

背景技术

传统的文本分割算法，更加倾向于在没有外来数据的基础上，基于机器学习或者深度学习的方法实现文本分割，但是分割效果更多是倾向于文本分段等工作，但是在目前大模型外挂知识库的应用场景中，用户问题涉及的知识可能存在于文档中的不同位置，因此传统的文本分割算法不适用于目前的任务。

当前面向用户提问的大模型知识库搜索与文本分割的对话技术尚不成熟，模型的注意力窗口无法实现对文档的覆盖，在现有的基于用户问题的最相关知识文档分割过程中，容易出现错误累积，以及过长的文本导致模型出现长距离建模崩溃的问题。

因此，研究一种能避免在基于用户问题的最相关知识文档分割过程时，避免出现错误累积，以及过长的文本导致模型出现长距离建模崩溃的问题的知识文本抽取方法及***具有重要意义。

发明内容

本发明的目的在于提供一种面向用户问答的知识文本抽取方法及***，以避免在在基于用户问题的最相关知识文档分割过程时，容易出现错误累积，以及出现过长的文本时导致模型出现长距离建模崩溃的问题。

为了解决上述技术问题，在第一技术方案，本发明提供了一种面向用户问答的知识文本抽取方法，包括以下步骤：

构建知识文本数据库；

针对用户提出的问题，在所述知识文本数据库中检索与所述问题相关的文本，并进行相似度排序，得到排序后相关文本；

利用信息熵函数遍历计算所有所述排序后相关文本，得到所有排序后相关文本的信息熵；

基于所有排序后相关文本的信息熵，利用得分判断函数遍历计算所有所述排序后相关文本的判断得分，确定所述判断得分最大时的第i个所述排序后相关文本，分割获取前i个所述排序后相关文本作为最佳文本；

将所述最佳文本进行拼装，将拼装后的最佳文本作为回答输出给用户。

在第一技术方案的一些实施例中，所述信息熵函数，表示如下：

所述得分判断函数，表示如下：

上式中，f(F_i,F_i―1)为带惩罚的得分，f(F_i,F_i―1)表示为f(F_i,F_i―1)＝P(x)是指x₁在前i个排序后相关文本中出现的概率，F_i为第i个排序后相关文本的信息熵，STL_i为第i个排序后相关文本长度，STL_max为超参数，TQ_i为第i个排序后相关文本的混合得分。

在第一技术方案的一些实施例中，在所述构建知识文本数据库，这一过程中，具体包括以下步骤：收集知识文档，对所述知识文档进行向量化处理，并进行文本分割，得到分割后文本向量；利用卷积密度聚类算法对所述分割后文本向量进行聚类分析，得到聚类类簇集合；利用TextRank算法对所述聚类类簇集合进行类内排序，并储存构建为所述知识文本数据库。

在第一技术方案的一些实施例中，在利用改进的卷积密度聚类算法对所述分割后文本向量进行聚类分析，得到聚类类簇集合，这一步骤中，具体包括以下步骤：利用一维卷积方法对所述分割后文本向量进行降维卷积，得到降维卷积后文本向量；利用DBSCAN算法对所述降维卷积后文本向量进行聚类处理，得到所述聚类类簇集合。

在第一技术方案的一些实施例中，在针对用户提出的问题，在所述知识文本数据库中检索与所述问题相关的文本，并进行相似度排序，得到排序后相关文本，这一步骤中，具体包括以下步骤：针对用户提出的问题，在所述知识文本数据库中检索最匹配的知识文本；基于所述最匹配的知识文本在所述知识文本数据库筛选与所述知识文本相同文档相同类簇的语句段落集合；利用混合得分公式对所述语句段落集合进行排序，得到所述排序后相关文本。

在第一技术方案的一些实施例中，所述混合得分公式，表示如下：

上式中，TQ_i为混合得分，TRS_i为TextRank计算得分，QAS_i为提出的问题与排序后相关文本的相似度，max({TRS₁,…,TRS_n})为TextRank计算最高得分。

在第二技术方案，本发明提供了一种面向用户问答的知识文本抽取***，其特征在于，应用了权利要求1至权利要求6任一项所述的一种面向用户问答的知识文本抽取方法，包括：

构建模块，用于构建知识文本数据库；

检索模块，用于针对用户提出的问题，在所述知识文本数据库中检索与所述问题相关的文本，并进行相似度排序，得到排序后相关文本；

获取模块，用于利用信息熵函数遍历计算所有所述排序后相关文本，得到所有排序后相关文本的信息熵，并基于所有排序后相关文本的信息熵，利用得分判断函数遍历计算所有所述排序后相关文本的判断得分，确定所述判断得分最大时的第i个所述排序后相关文本，分割获取前i个所述排序后相关文本作为最佳文本；

拼装模块，用于将所述最佳文本进行拼装，将拼装后的最佳文本作为回答输出给用户。

本发明的较为突出的有益效果如下：

本方案引入了一种改进的边缘惩罚方法，将排序后相关文本的原始长度、排序后相关文本的信息熵和带惩罚的得分输入至得分判断函数，遍历计算所有排序后相关文本得到判断得分，当达到判断得分最优时的前i个排序后相关文本即就是当前用户提问的最佳知识文本分割获取，在采用此种设置方法后，一方面，相比传统的惩罚方法，往往依靠的是简单的引入超参数作为惩罚率设置，这是一种具有明显经验主义的行为，因此本发明引入了一种基于信息熵的做法来实现这一惩罚，基于信息熵方法度量增加文本前后文本的信息熵变化情况，来确保信息稳定性，当信息不稳定时进行及时的惩罚，能够避免错误累积；另一方面，能够避免层次复合的问题，若用户提问为子问题能够避免知识文本过长的情况，高效的利用模型可以理解和生成的最小意义单位。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明优选实施方式提供的整体步骤流程示意图；

图2是本发明优选实施方式提供的一维卷积方法过程示意图；

图3是本发明优选实施方式提供的构建知识文本数据库流程示意图；

图4是本发明优选实施方式提供的面对用户问答时的流程示意图。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述。

为了解决上述问题，本发明通过两大方向进行改进，一是通过Text2Vector和本专利改进的卷积密度聚类(Conv-DBSCAN)算法实现了基于用户问题的最相关知识文档分割；二是利用改进的边缘惩罚算法进行知识文本组合实现最优的组合效果，保证模型可以理解和生成的最小意义单位(token)的高效使用，具体提供了一种面向用户问答的知识文本抽取方法，请参照图1，包括以下步骤：

S1，构建知识文本数据库。

优选地，步骤S1具体包括以下步骤，整个构建过程可参见图3：

S10,收集知识文档，对知识文档进行向量化处理，并进行文本分割，得到分割后文本向量。

具体的，即当用户上传知识文档时，本专利将首先根据转义字符”\n”进行切片，通过Text2Vec模型，将文本(Text)映射(f)为一组向量(Vector)，将这个过程使用以下的公式1进行表达，本专利使用的Text2Vec模型，知识文本数据库如表1所示：

f(Text_n)→Vector_n―――(公式1)

表1：本专利使用的Text2Vec模型与知识文本数据库

模型名称	基础模型	知识文本数据库
			SBERT-Bert-Base	Bert-Base-Chinese	Chromadb 0.4.14

S11,利用卷积密度聚类算法对分割后文本向量进行聚类分析，得到聚类类簇集合，即通过文本向量化技术(Text2Vec)和正则表达式分割，将文本划分为若干段通文本向量化技术得到各段落文本的Embeddeding，在存储到知识文本数据库Chromadb前，本发明采用自主改进的卷积密度聚类(Conv-DCP)，将文本段落进行相关性分析，为具有相关关系的文档段落打上关系，实现了基于用户问题的最相关知识文档分割。

优选地，步骤S11具体包括以下步骤：

S110,利用一维卷积方法对分割后文本向量进行降维卷积，得到降维卷积后文本向量，在进行降维操作后，能避免文本向量如传统的密度聚类算法般出现维数灾难的可能，因为Text2Vec模型产出的词向量一般维度接近1000维，例如OpenAI的Embeddings的2代产品：text-embedding-ada-002，它最长的输入是8191个tokens，输出的维度是1536，因此传统的密度聚类算法会出现维数灾难的可能，所以本方案在使用密度聚类算法之前，对输入进行降维处理，能有效避免维数灾难出现的可能。

具体的，即在得到对应维度为W的文本向量Vector_n，引入一维卷积方法，卷积原理可见图2，定义卷积核的大小为F，步长为S，进行卷积操作后vector_n的向量维度变换为将所有文本进行卷积化操作后，使用编程语言中的元组tuple对保存原来的文本向量Vector_n和卷积后的文本向量vector_n，元组表达为tuple(Text_n，Vector_n，vector_n)。

其中，一维卷积方法公式如公式2表示：

Conv_F，S(Vector_n)＝vector_n---(公式2)

应当指出的是，Text2Vec模型产出的词向量一般维度接近1000维，例如OpenAI的Embeddings的2代产品：text-embedding-ada-002，它最长的输入是8191个tokens，输出的维度是1536，因此传统的密度聚类算法会出现维数灾难的可能，因此本方案在使用密度聚类算法之前，对输入进行降维处理。

S111，利用DBSCAN算法对降维卷积后文本向量进行聚类处理，得到聚类类簇集合，采用DBSCAN算法后，对比传统K-means聚类算法，不需要指定类簇，通过密度分布的方法，类簇划分不具有先见性，不受人的主观意志划分影响。

优选地，具体DBSCAN算法包括以下步骤：

首先，输入样本集D＝{vector₁，vector₂，...，vector_n}，领域半径∈，最小样本数MinPts至DBSCAN算法内。

DBSCAN步骤1，定义DBSCAN算法中的生成度量矩阵，指定度量为闵可夫斯基距离Minkowski；

X＝[x₁，x₂，...，x_n]，Y＝[y₁，y₂，...，y_n]

DBSCAN步骤2，初始化核心对象集合ω＝{}，初始化类别k＝0；

DBSCAN步骤3，遍历D中的元素，如果是核心对象，则将其加入对象集合ω；

DBSCAN步骤4，如果核心对象集合ω中元素都被访问，算法结束，否则转入4；

DBSCAN步骤5，如果核心对象集合ω中，随机选择一个未访问核心对象0，将0标记为已访问类别K，最后将0的∈邻域内的未访问数据存入种子集合Seeds中；

DBSCAN步骤6，如果：种子集合Seeds＝{}，则当前聚类簇C_k生成完毕，k＝k+1，存入结果结合C_result＝{C₁，C₂，...，C_m}跳到步骤3；

否则：种子集合Seeds中选择种子点Seed，标记为已访问，标记类别k，判断Seed是否为核心对象，若将Seed中未访问的种子点加入到种子集合中，则跳到步骤5。

最后输出聚类类簇集合C_result。

其中，上述的各项参数解释如下：

样本集D：指的是文档中按段落划分后向量化的集合{vector₁，vector₂，...，vector_n}；

领域半径∈：是指对于某一个数据点vector_n的∈领域，定义为N_∈(vector_n)＝{vector_n∈D|MinkoWski(vector_n，vector_q)＜∈}；

核心对象：即就是Text_n的∈领域内至少有MinPts个对象。

S12，利用TextRank算法对聚类类簇集合进行类内排序，并储存构建为知识文本数据库Chromadb。

其中，TextRank算法通过基于图的方法，将文档看作是一个句子的网络，在网络中的链接表示句子与句子之间的语义关系，首先定义用于计算句子相似度的余弦度量函数如下公式3：

Text_i＝[A₁，A₂，...，A_n]，Text_j＝[B₁，B₂，...，B_n]

迭代计算，V_i表达类簇内的第i个句子，初始化句子权重阻尼系数d，WS(V_j)表示上次迭代出的句子j的权重，使用T_rank＝{WS(V_i)}_{i＝1，..，n}表达TextRank计算得到的句子的权重集合。

通过迭代计算得到每个句子的权重并排序，存储到知识文本数据库Chromadb中，在数据库中数据按照下表方式进行存储：

表2：本专利知识文本数据库存储方式

上表中，Source_Text为用于存储向量化前的原始文本；TextRank_score为用于存储TextRank计算得到的句子权重；Class_Name为用于记录该句子的划分类簇；Doc_Name为用于记录该句子的文档。

总结上述S1构建知识文本数据库的过程，相比通过深度学习，本方法通过预聚类和预排序的方法，将用户提问和知识文档处理进行分离，实现了异步操作。

S2，针对用户提出的问题，在知识文本数据库中检索与问题相关的文本，并进行相似度排序，得到排序后相关文本。

优选地，步骤S2具体包括以下步骤，该过程可参见图4：

S20，针对用户提出的问题，在知识文本数据库中检索最匹配的知识文本。

具体的，当***接收到用户提出的问题时，利用Text2Vector模型，将用户提问Query进行向量化，然后在知识文本数据库Chromadb中进行搜索，搜索出最匹配的一条知识文本Text₀。

S21，基于最匹配的知识文本在知识文本数据库筛选与知识文本相同文档相同类簇的语句段落集合，即为筛选后的文本集合；

即通过获取该知识文本Text₀(最匹配的知识文本)的元数据，在数据库中筛选出与该记录存在相同文档相同类簇关系的其他语句段落集合，在数据库记录中取出原始的文本，使用记号T_Select进行表达。

S22，利用混合得分公式对筛选得出的语句段落集合进行排序，得到排序后相关文本。

其中，混合得分包含TextRank计算得分和提出的问题与排序后相关文本的相似度，相比传统的TextRank计算得分相比，通过计算TRS和QAS的乘积(见公式5)，引入了一个混合得分TQ对文本按TQ进行重新排序，避免传统TextRank较难表达用户问题与TRS得分最高的文本之间关系的问题。

混合得分公式，如表示如下：

上式中，TQ_i为混合得分，TRS_i为TextRank计算得分，QAS_i为提出的问题与排序后相关文本的相似度，max({TRS₁，...，TRS_n})为TextRank计算最高得分。

对于TextRank计算得分，通过TextRank计算得到的T_rank＝{WS(V_i)}_i＝_1，..，n进行排序，使用记号TRS表达。

对于QAS_i为提出的问题与排序后相关文本的相似度，并根据公式6计算用户提问与该类簇内所有知识文本的相似度QAS，但是在使用之前必须要将QAS归一化，因此有：

S3，利用信息熵函数(公式7)遍历计算所有排序后相关文本，得到所有排序后相关文本的信息熵，相比传统的惩罚方法，往往依靠的是简单的引入超参数作为惩罚率设置，这是一种具有明显经验主义的行为，因此本发明引入了一种基于信息熵的做法来实现这一惩罚，基于信息熵方法度量增加该文本前后的文本信息熵变化情况，来确保信息稳定性，当信息不稳定时进行及时的惩罚，能够避免错误累积。

其中，信息熵函数，表示如下：

上式中，P(x)是指x₁在前i个排序后相关文本中出现的概率，F_i为第i个排序后相关文本的信息熵。

S4，基于所有排序后相关文本的信息熵，利用得分判断函数(公式8)遍历计算所有排序后相关文本的判断得分，确定判断得分最大时的第i个排序后相关文本，分割获取前i个排序后相关文本作为最佳文本，在采用此种设置后，判断得分最大时的索引i，代表前i个文本具有语义丰富和最优化长度输入的特点，将前i个文本作为输入，高效利用模型可以理解和生成的最小意义单位(token)，避免过长的知识文本，避免导致模型长建模崩溃的同时实现信息的最大化富集，保障知识文档的有效性。

得分判断函数，表示如下：

上式中，f(F_i，F_i-1)为带惩罚的得分，f(F_i，F_i-1)表示为 STL_i为第i个排序后相关文本长度，STL_max为超参数，TQ_i为第i个排序后相关文本的混合得分。

S5，将最佳文本进行拼装，将拼装后的最佳文本作为回答输出给用户。

总结S2-S4部分，一、基于信息熵方法度量增加该文本前后的文本信息熵变化情况，来确保信息稳定性，当信息不稳定时进行及时的惩罚，能够避免错误累积；二、能够避免层次复合的问题，若用户提问为子问题能够避免知识文本过长的情况，高效的利用模型可以理解和生成的最小意义单位(token)；三、实现了信息的最大化富集，保障知识文档的有效性。

由上文可知本方案的基本方法，下文将给出应用了上文方法的一种面向用户问答的知识文本抽取***，包括：

构建模块，用于构建知识文本数据库；

检索模块，用于针对用户提出的问题，在知识文本数据库中检索与问题相关的文本，并进行相似度排序，得到排序后相关文本；

获取模块，用于利用信息熵函数遍历计算所有排序后相关文本，得到所有排序后相关文本的信息熵，并基于所有排序后相关文本的信息熵，利用得分判断函数遍历计算所有排序后相关文本的判断得分，确定判断得分最大时的第i个排序后相关文本，分割获取前i个排序后相关文本作为最佳文本；

拼装模块，用于将最佳文本进行拼装，将拼装后的最佳文本作为回答输出给用户。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种面向用户问答的知识文本抽取方法，其特征在于，包括以下步骤：

构建知识文本数据库；

2.根据权利要求1所述的面向用户问答的知识文本抽取方法，其特征在于，

所述信息熵函数，表示如下：

所述得分判断函数，表示如下：

上式中，f(F_i,F_i-1)为带惩罚的得分，f(F_i,F_i-1)表示为 P(x)是指x₁在前i个排序后相关文本中出现的概率，F_i为第i个排序后相关文本的信息熵，F_i-1为第i-1个排序后相关文本的信息熵，STL_i为第i个排序后相关文本长度，STL_max为超参数，TQ_i为第i个排序后相关文本的混合得分。

3.根据权利要求1所述的面向用户问答的知识文本抽取方法，其特征在于，在所述构建知识文本数据库，这一过程中，具体包括以下步骤：

收集知识文档，对所述知识文档进行向量化处理，并进行文本分割，得到分割后文本向量；

利用卷积密度聚类算法对所述分割后文本向量进行聚类分析，得到聚类类簇集合；

利用TextRank算法对所述聚类类簇集合进行类内排序，并储存构建为所述知识文本数据库。

4.根据权利要求3所述的面向用户问答的知识文本抽取方法，其特征在于，在利用卷积密度聚类算法对所述分割后文本向量进行聚类分析，得到聚类类簇集合，这一步骤中，具体包括以下步骤：

利用一维卷积方法对所述分割后文本向量进行降维卷积，得到降维卷积后文本向量；

利用DBSCAN算法对所述降维卷积后文本向量进行聚类处理，得到所述聚类类簇集合。

5.根据权利要求1所述的面向用户问答的知识文本抽取方法，其特征在于，在针对用户提出的问题，在所述知识文本数据库中检索与所述问题相关的文本，并进行相似度排序，得到排序后相关文本，这一步骤中，具体包括以下步骤：

针对用户提出的问题，在所述知识文本数据库中检索最匹配的知识文本；

基于所述最匹配的知识文本在所述知识文本数据库筛选与所述知识文本相同文档相同类簇的语句段落集合；

利用混合得分公式对所述语句段落集合进行排序，得到所述排序后相关文本。

6.根据权利要求5所述的面向用户问答的知识文本抽取方法，其特征在于，所述混合得分公式，表示如下：

7.一种面向用户问答的知识文本抽取***，其特征在于，应用了权利要求1至权利要求6任一项所述的一种面向用户问答的知识文本抽取方法，包括：

构建模块，用于构建知识文本数据库；