CN116578611B

CN116578611B - 一种孕育知识的知识管理方法和***

Info

Publication number: CN116578611B
Application number: CN202310555201.7A
Authority: CN
Inventors: 杨钢
Original assignee: Guangzhou Shengcheng Mother Network Technology Co ltd
Current assignee: Guangzhou Shengcheng Mother Network Technology Co ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-11-03
Anticipated expiration: 2043-05-16
Also published as: CN116578611A

Abstract

本发明涉及数据挖掘技术领域，尤其为一种孕育知识的知识管理方法和***，包括如下步骤：通过多渠道采集孕育知识数据；对采集的孕育知识数据进行预处理操作；对预处理完成后的孕育知识数据基于知识挖掘算法进行孕育知识数据的挖掘；对经过挖掘获取的孕育知识集进行搜索索引创建供用户查询。本发明通过对孕育数据进行收集、挖掘，获取不同孕育数据之间的联系，为用户提供隐性孕育知识的参考，得到隐含在孕育知识中的隐性孕育知识规则，提高孕育知识的科学性，并提高用户对孕育知识的认知；并生成决策树，便于孕育数据的归类和用户的查询，有助于提高优生优育质量，降低母婴患病概率。

Description

一种孕育知识的知识管理方法和***

技术领域

本发明涉及数据挖掘技术领域，尤其是一种孕育知识的知识管理方法和***。

背景技术

现在中国每年有1700万新生儿人口，而每年怀孕的人群还大于这个数字，如何让更多的人掌握正确的孕育知识与方法，以至如何根据每个人的所处环境与个体差异，进行个性化指导，使优生优育的质量不断提高，是每个家庭乃至社会需要不断解决的问题。

现有技术中，通过机器学习的方式对孕育知识基于相关性进行组织和优化，未对孕育知识中包含的隐性知识进行挖掘，无法为用户提供孕育知识隐性知识的参考，提高用户对孕育知识的认知。

发明内容

本发明的目的是通过提出一种孕育知识的知识管理方法和***，以解决上述背景技术中提出的缺陷。

本发明采用的技术方案如下：

提供一种孕育知识的知识管理方法，包括如下步骤：

S1：通过多渠道采集孕育知识数据；

S2：对采集的孕育知识数据进行预处理操作；

S3：对预处理完成后的孕育知识数据基于知识挖掘算法进行孕育知识数据的挖掘；

S4：对经过挖掘获取的孕育知识集进行搜索索引创建供用户查询。

作为本发明的一种优选技术方案：所述S1的多渠道采集孕育知识数据具体包括电脑端、移动设备端及手动采集的方式采集孕育知识数据。

作为本发明的一种优选技术方案：所述S2对获取的孕育知识数据进行整理、清洗，并将获取的孕育知识数据进行分词、去停词、去标点符号、大写变小写的词法分析操作后，形成由一系列词组成的孕育知识数据集。

作为本发明的一种优选技术方案：所述知识挖掘算法基于CART算法与改进的遗传算法相结合对孕育知识数据进行挖掘。

作为本发明的一种优选技术方案：所述CART算法具体如下：

设X₁,X₂,…,X_N表示孕育知识数据的某个样本中包含的N个属性，用Y表示属性所属类别，每个属性都有一个固定的输出值；选取孕育知识数据集中第j个属性X_j和属性X_j的取值z作为回归树的切分点，由此点将孕育知识数据集分割成X₁＝(j,z)＝{x|x(j)≤z}、X₂＝(j,z)＝{x|x(j)>z}两个区域，寻找最佳切分点X_j，即计算出平方差最小值的点：

其中，y₁表示区域X₁中的孕育知识数据x₁属性类别，c₁表示区域X₁中的孕育知识数据x₁的输出值，y₂表示区域X₂中的孕育知识数据x₂属性类别，c₂表示区域X₂中的孕育知识数据x₂的输出值；

采用递归的方式将孕育知识数据集的N维空间界分成互不重叠的矩形，通过计算基尼指数选定最佳的特征属性，并通过基尼指数决定该属性的最佳二值切分点；

设孕育知识数据集D有某一点属于第k类的概率为p_k，概率分布的基尼指数G(p)为：

在孕育数据孕育知识数据集D中确定属性F存在某一点f将孕育知识数据集划分为D₁和D₂两个区域D₁＝{(x,y)∈D|F(x)＝f}，D₂＝D，其中，x表示孕育知识数据，y表示孕育知识数据x的属性类别，F(x)＝f表示孕育知识数据为x时的取值为f，在属性F这一固定属性下，孕育知识数据集D的基尼指数G(D,F)为：

其中，G(D₁)表示孕育知识数据子集D₁的基尼指数，G(D₂)表示孕育知识数据子集D₂的基尼指数；

以孕育知识数据的信息增益作为适应度函数，生成决策树，所述适应度函数Gain(F)具体如下：

其中，p_i表示孕育知识数据集中有某一点属于第i类的概率，D_j表示以第j个属性孕育知识数据划分孕育知识数据集获取的孕育知识数据子集。

作为本发明的一种优选技术方案：所述决策树生成具体如下：

对孕育知识数据集进行编码生成初始种群，以孕育知识数据的信息增益作为适应度函数，对孕育知识数据进行知识挖掘和属性划分，计算种群个体适应度，以被选中的孕育知识数据作为主导种群，未被选择的孕育知识数据作为辅助种群，对主导种群个体进行自适应交叉操作和自适应变异操作，判断是否满足收敛条件，满足则结束，不满足则对辅助种群个体进行自适应交叉和自适应变异操作，增加迭代次数，重新返回计算个体适应度并执行后续步骤至收敛，即将孕育知识数据对应的种群个体按照属性划分为同一类。

作为本发明的一种优选技术方案：所述S3中的自适应交叉操作具体如下：

其中，p_a表示主导种群的交叉概率，p_a1和p_a2分别表示主导种群的最小交叉概率和最大交叉概率；p_b表示辅助种群的交叉概率，p_b1和p_b2分别表示辅助种群的最小交叉概率和最大交叉概率；f_ai、f_bi分别表示主导种群个体和辅助种群个体的适应度，f_a,max、f_b,max分别表示主导种群个体和辅助种群个体的适应度最大值，分别表示主导种群个体和辅助种群个体的适应度平均值；

所述S3中的自适应变异操作具体如下：

其中，p_A表示主导种群的变异概率，p_A1和p_A2分别表示主导种群的最小变异概率和最大变异概率；p_B表示辅助种群的变异概率，p_B1和p_B2分别表示辅助种群的最小变异概率和最大变异概率；f_Ai、f_Bi分别表示主导种群个体和辅助种群个体的适应度，f_A,max、f_B,max分别表示主导种群个体和辅助种群个体的适应度最大值，分别表示主导种群个体和辅助种群个体的适应度平均值。

作为本发明的一种优选技术方案：所述决策树生成后，设决策树的叶子节点数为L，损失函数δ(t)定义为：

δ(t)＝σ(t)+τ|L|

其中，σ(t)表示叶子节点t的预测误差，τ表示模型参数，|L|表示模型的复杂度；

计算每一个叶子节点的经验熵，从叶子节点开始往上递归遍历各个节点，判断删除某一叶节点后损失函数的值是否减少，如果减少，则将父节点作为新的叶子节点；遍历所有节点，直到判断完所有节点为止。

作为本发明的一种优选技术方案：所述S4中搜索索引的创建步骤如下：

S4.1：基于知识挖掘算法挖掘结果生成孕育知识集；

S4.2：创建查询语句；

S4.3：对进行词法分析形成一系列词；

S4.4：利用决策树进行搜索索引，获得与查询语句相关的索引知识，对知识进行交、差、并操作得到结果知识集；

S4.5：计算S4.4的结果知识与查询语句的相关性；

S4.6：根据相关性对查询结果进行排序输出。

提供一种孕育知识的知识管理***，包括：

知识采集模块：用于通过多渠道采集孕育知识；

知识预处理模块：用于对采集的孕育知识进行整理和清洗；

知识挖掘模块：用于预处理完成后的孕育知识基于知识挖掘算法进行孕育知识的挖掘；

索引创建模块：用于对孕育知识集进行搜索索引创建以供用户查询。

本发明提供的孕育知识的知识管理方法和***，与现有技术相比，其有益效果有：

本发明通过对孕育数据进行收集、挖掘，获取不同孕育数据之间的联系，为用户提供隐性孕育知识的参考，得到隐含在孕育知识中的隐性孕育知识规则，提高孕育知识的科学性，并提高用户对孕育知识的认知；并生成决策树，便于孕育数据的归类和用户的查询，有助于提高优生优育质量，降低母婴患病概率。

附图说明

图1为本发明优选实施例的方法流程图；

图2为本发明优选实施例中***框图。

图中各个标记的意义为：100、知识采集模块；200、知识预处理模块；300、知识挖掘模块；400、索引创建模块。

具体实施方式

需要说明的是，在不冲突的情况下，本实施例中的实施例及实施例中的特征可以相互组合，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明优选实施例提供了一种孕育知识的知识管理方法，包括如下步骤：

S1：通过多渠道采集孕育知识数据；

S2：对采集的孕育知识数据进行预处理操作；

所述S1的多渠道采集孕育知识数据具体包括电脑端、移动设备端及手动采集的方式采集孕育知识数据。

所述S2对获取的孕育知识数据进行整理、清洗，并将获取的孕育知识数据进行分词、去停词、去标点符号、大写变小写的词法分析操作后，形成由一系列词组成的孕育知识数据集。

所述知识挖掘算法基于CART算法与改进的遗传算法相结合对孕育知识数据进行挖掘。

所述CART算法具体如下：

所述决策树生成具体如下：

其中，

m是属性F的取值个数；

|D_j|和|D|分别表示子集D_j和总数据集D的大小。

通过使用信息增益率作为适应度函数，可以在一定程度上克服信息增益的缺陷，从而在生成决策树时更好地选择***属性。

其中，适应度函数Gain(F)信息增益在选择***属性时可能偏向于具有更多取值的属性，因为这样的属性往往能产生更多的分支，从而使得信息熵降低。但这并不意味着具有更多取值的属性一定是最佳***属性。为了解决这个问题，本实施例使用信息增益率对其进行改进。

信息增益率在计算过程中引入了一个属性的固有值作为归一化因子，降低了具有更多取值的属性的权重。具体定义如下：

所述S3中的自适应交叉操作具体如下：

所述S3中的自适应变异操作具体如下：

所述决策树生成后，设决策树的叶子节点数为L，损失函数δ(t)定义为：

δ(t)＝σ(t)+τ|L|

所述S4中搜索索引的创建步骤如下：

S4.1：基于知识挖掘算法挖掘结果生成孕育知识集；

S4.2：创建查询语句；

S4.3：对进行词法分析形成一系列词；

S4.5：计算S4.4的结果知识与查询语句的相关性；

S4.6：根据相关性对查询结果进行排序输出。

参照图2，提供一种孕育知识的知识管理***，包括：

知识采集模块100：用于通过多渠道采集孕育知识；

知识预处理模块200：用于对采集的孕育知识进行整理和清洗；

知识挖掘模块300：用于预处理完成后的孕育知识基于知识挖掘算法进行孕育知识的挖掘；

索引创建模块400：用于对孕育知识集进行搜索索引创建以供用户查询。

本实施例中，知识采集模块100通过电脑端，如网页、APP等，移动设备端，如手机端，智能手环等设备，以及手动采集的数据，如衣物等采集的孕育知识数据，其中孕育知识还包括母婴知识，对采集的各种孕育知识数据进行整理和清洗，知识预处理模块200将获取的孕育数据进行分词、去停词、去标点符号、大写变小写等词法分析操作后，形成由一系列词组成的孕育知识数据集。

知识挖掘模块300进行如下的孕育知识挖掘操作，设X₁,X₂,…,X₅₀表示孕育知识数据的某个样本中包含的50个属性，选取孕育知识数据集中第25个属性X₂₅和属性X₂₅的取值z作为回归树的切分点，由此点将孕育知识数据集分割成X₁＝(25,z)＝{x|x(25)≤z}、X₂＝(25,z)＝{x|x(25)>z}两个区域，寻找最佳切分点X₂₅，即计算出平方差最小值的点：

采用递归的方式将孕育知识数据集的50维空间界分成互不重叠的矩形，通过计算基尼指数选定最佳的特征属性，并通过基尼指数决定该属性的最佳二值切分点；

其中，p_i表示孕育知识数据集中有某一点属于第i类的概率，D₂₅表示以第25个属性孕育知识数据划分孕育知识数据集获取的孕育知识数据子集。

对孕育知识数据集进行编码生成初始种群，以孕育知识数据的信息增益作为适应度函数，对孕育知识数据进行属性划分，计算种群个体适应度，以被选中的孕育知识数据作为主导种群，未被选择的孕育知识数据作为辅助种群，对主导种群个体进行自适应交叉操作：

和自适应变异操作：

对孕育知识数据进行交叉和变异以进行孕育知识的挖掘。挖掘完成后判断是否满足收敛条件，满足则结束，不满足则对辅助种群个体进行自适应交叉和自适应变异操作，增加迭代次数，重新返回计算个体适应度并执行后续步骤至收敛，即将孕育知识数据对应的种群个体按照属性划分为同一类。

按照属性相同的孕育知识数据为一类进行决策树生成，决策树生成后，设决策树的叶子节点数为500，第150个叶子节点的损失函数δ(150)定义为：

δ(150)＝σ(150)+τ|L|

其中，σ(150)表示第150个叶子节点的预测误差，τ表示模型参数，|L|表示模型的复杂度；

计算每一个叶子节点的经验熵，从叶子节点开始往上递归遍历各个节点，判断删除某一叶节点后损失函数的值是否减少，如果减少，则将父节点作为新的叶子节点；遍历所有节点，直到判断完所有节点为止。至此决策树完成创建，并以此生成孕育知识集，索引创建模块400采集用户查询语句，对查询语句进行词法分析形成一系列词；利用决策树进行搜索索引，获得与查询语句相关的索引知识，对知识进行交、差、并操作得到结果知识集；计算结果知识与查询语句的相关性；根据相关性进行排序，按照相关性从高到低的顺序进行输出显示。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种孕育知识的知识管理方法，其特征在于：包括如下步骤：

S1：通过多渠道采集孕育知识数据；

S2：对采集的孕育知识数据进行预处理操作；

S4：对经过挖掘获取的孕育知识集进行搜索索引创建供用户查询；

所述知识挖掘算法基于CART算法与改进的遗传算法相结合对孕育知识数据进行挖掘；所述CART算法具体如下：

在孕育数据孕育知识数据集D中确定属性F存在某一点f将孕育知识数据集划分为D₁和D₂两个区域D₁＝{(x，y)∈D|F(x)＝f}，D₂＝D-D₁，其中，x表示孕育知识数据，y表示孕育知识数据x的属性类别，F(x)＝f表示孕育知识数据为x时的取值为f，在属性F这一固定属性下，孕育知识数据集D的基尼指数G(D，F)为：

其中，p_i表示孕育知识数据集中有某一点属于第i类的概率，D_j表示以第j个属性孕育知识数据划分孕育知识数据集获取的孕育知识数据子集；

所述决策树生成具体如下：

2.根据权利要求1所述的孕育知识的知识管理方法，其特征在于：所述S1的多渠道采集孕育知识数据具体包括电脑端、移动设备端及手动采集的方式采集孕育知识数据。

3.根据权利要求1所述的孕育知识的知识管理方法，其特征在于：所述S2对获取的孕育知识数据进行整理、清洗，并将获取的孕育知识数据进行分词、去停词、去标点符号、大写变小写的词法分析操作后，形成由一系列词组成的孕育知识数据集。

4.根据权利要求1所述的孕育知识的知识管理方法，其特征在于：所述S3中的自适应交叉操作具体如下：

所述S3中的自适应变异操作具体如下：

其中，p_A表示主导种群的变异概率，p_A1和p_A2分别表示主导种群的最小变异概率和最大变异概率；p_B表示辅助种群的变异概率，p_B1和p_B2分别表示辅助种群的最小变异概率和最大变异概率；f_Ai、f_Bi分别表示主导种群个体和辅助种群个体的适应度，f_A，max、f_B，max分别表示主导种群个体和辅助种群个体的适应度最大值，分别表示主导种群个体和辅助种群个体的适应度平均值。

5.根据权利要求4所述的孕育知识的知识管理方法，其特征在于：所述决策树生成后，设决策树的叶子节点数为L，损失函数δ(t)定义为：

δ(t)＝σ(t)+τ|L|

6.根据权利要求1所述的孕育知识的知识管理方法，其特征在于：所述S4中搜索索引的创建步骤如下：

S4.1：基于知识挖掘算法挖掘结果生成孕育知识集；

S4.2：创建查询语句；

S4.3：对进行词法分析形成一系列词；

S4.5：计算S4.4的结果知识与查询语句的相关性；

S4.6：根据相关性对查询结果进行排序输出。

7.一种孕育知识的知识管理***，基于权利要求1-6任意一项所述的孕育知识的知识管理方法，其特征在于：包括：

知识采集模块(100)：用于通过多渠道采集孕育知识；

知识预处理模块(200)：用于对采集的孕育知识进行整理和清洗；

知识挖掘模块(300)：用于预处理完成后的孕育知识基于知识挖掘算法进行孕育知识的挖掘；

索引创建模块(400)：用于对孕育知识集进行搜索索引创建以供用户查询。