CN116578611B - 一种孕育知识的知识管理方法和*** - Google Patents

一种孕育知识的知识管理方法和*** Download PDF

Info

Publication number
CN116578611B
CN116578611B CN202310555201.7A CN202310555201A CN116578611B CN 116578611 B CN116578611 B CN 116578611B CN 202310555201 A CN202310555201 A CN 202310555201A CN 116578611 B CN116578611 B CN 116578611B
Authority
CN
China
Prior art keywords
knowledge
inoculated
population
knowledge data
individuals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310555201.7A
Other languages
English (en)
Other versions
CN116578611A (zh
Inventor
杨钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shengcheng Mother Network Technology Co ltd
Original Assignee
Guangzhou Shengcheng Mother Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shengcheng Mother Network Technology Co ltd filed Critical Guangzhou Shengcheng Mother Network Technology Co ltd
Priority to CN202310555201.7A priority Critical patent/CN116578611B/zh
Publication of CN116578611A publication Critical patent/CN116578611A/zh
Application granted granted Critical
Publication of CN116578611B publication Critical patent/CN116578611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据挖掘技术领域,尤其为一种孕育知识的知识管理方法和***,包括如下步骤:通过多渠道采集孕育知识数据;对采集的孕育知识数据进行预处理操作;对预处理完成后的孕育知识数据基于知识挖掘算法进行孕育知识数据的挖掘;对经过挖掘获取的孕育知识集进行搜索索引创建供用户查询。本发明通过对孕育数据进行收集、挖掘,获取不同孕育数据之间的联系,为用户提供隐性孕育知识的参考,得到隐含在孕育知识中的隐性孕育知识规则,提高孕育知识的科学性,并提高用户对孕育知识的认知;并生成决策树,便于孕育数据的归类和用户的查询,有助于提高优生优育质量,降低母婴患病概率。

Description

一种孕育知识的知识管理方法和***
技术领域
本发明涉及数据挖掘技术领域,尤其是一种孕育知识的知识管理方法和***。
背景技术
现在中国每年有1700万新生儿人口,而每年怀孕的人群还大于这个数字,如何让更多的人掌握正确的孕育知识与方法,以至如何根据每个人的所处环境与个体差异,进行个性化指导,使优生优育的质量不断提高,是每个家庭乃至社会需要不断解决的问题。
现有技术中,通过机器学习的方式对孕育知识基于相关性进行组织和优化,未对孕育知识中包含的隐性知识进行挖掘,无法为用户提供孕育知识隐性知识的参考,提高用户对孕育知识的认知。
发明内容
本发明的目的是通过提出一种孕育知识的知识管理方法和***,以解决上述背景技术中提出的缺陷。
本发明采用的技术方案如下:
提供一种孕育知识的知识管理方法,包括如下步骤:
S1:通过多渠道采集孕育知识数据;
S2:对采集的孕育知识数据进行预处理操作;
S3:对预处理完成后的孕育知识数据基于知识挖掘算法进行孕育知识数据的挖掘;
S4:对经过挖掘获取的孕育知识集进行搜索索引创建供用户查询。
作为本发明的一种优选技术方案:所述S1的多渠道采集孕育知识数据具体包括电脑端、移动设备端及手动采集的方式采集孕育知识数据。
作为本发明的一种优选技术方案:所述S2对获取的孕育知识数据进行整理、清洗,并将获取的孕育知识数据进行分词、去停词、去标点符号、大写变小写的词法分析操作后,形成由一系列词组成的孕育知识数据集。
作为本发明的一种优选技术方案:所述知识挖掘算法基于CART算法与改进的遗传算法相结合对孕育知识数据进行挖掘。
作为本发明的一种优选技术方案:所述CART算法具体如下:
设X1,X2,…,XN表示孕育知识数据的某个样本中包含的N个属性,用Y表示属性所属类别,每个属性都有一个固定的输出值;选取孕育知识数据集中第j个属性Xj和属性Xj的取值z作为回归树的切分点,由此点将孕育知识数据集分割成X1=(j,z)={x|x(j)≤z}、X2=(j,z)={x|x(j)>z}两个区域,寻找最佳切分点Xj,即计算出平方差最小值的点:
其中,y1表示区域X1中的孕育知识数据x1属性类别,c1表示区域X1中的孕育知识数据x1的输出值,y2表示区域X2中的孕育知识数据x2属性类别,c2表示区域X2中的孕育知识数据x2的输出值;
采用递归的方式将孕育知识数据集的N维空间界分成互不重叠的矩形,通过计算基尼指数选定最佳的特征属性,并通过基尼指数决定该属性的最佳二值切分点;
设孕育知识数据集D有某一点属于第k类的概率为pk,概率分布的基尼指数G(p)为:
在孕育数据孕育知识数据集D中确定属性F存在某一点f将孕育知识数据集划分为D1和D2两个区域D1={(x,y)∈D|F(x)=f},D2=D,其中,x表示孕育知识数据,y表示孕育知识数据x的属性类别,F(x)=f表示孕育知识数据为x时的取值为f,在属性F这一固定属性下,孕育知识数据集D的基尼指数G(D,F)为:
其中,G(D1)表示孕育知识数据子集D1的基尼指数,G(D2)表示孕育知识数据子集D2的基尼指数;
以孕育知识数据的信息增益作为适应度函数,生成决策树,所述适应度函数Gain(F)具体如下:
其中,pi表示孕育知识数据集中有某一点属于第i类的概率,Dj表示以第j个属性孕育知识数据划分孕育知识数据集获取的孕育知识数据子集。
作为本发明的一种优选技术方案:所述决策树生成具体如下:
对孕育知识数据集进行编码生成初始种群,以孕育知识数据的信息增益作为适应度函数,对孕育知识数据进行知识挖掘和属性划分,计算种群个体适应度,以被选中的孕育知识数据作为主导种群,未被选择的孕育知识数据作为辅助种群,对主导种群个体进行自适应交叉操作和自适应变异操作,判断是否满足收敛条件,满足则结束,不满足则对辅助种群个体进行自适应交叉和自适应变异操作,增加迭代次数,重新返回计算个体适应度并执行后续步骤至收敛,即将孕育知识数据对应的种群个体按照属性划分为同一类。
作为本发明的一种优选技术方案:所述S3中的自适应交叉操作具体如下:
其中,pa表示主导种群的交叉概率,pa1和pa2分别表示主导种群的最小交叉概率和最大交叉概率;pb表示辅助种群的交叉概率,pb1和pb2分别表示辅助种群的最小交叉概率和最大交叉概率;fai、fbi分别表示主导种群个体和辅助种群个体的适应度,fa,max、fb,max分别表示主导种群个体和辅助种群个体的适应度最大值,分别表示主导种群个体和辅助种群个体的适应度平均值;
所述S3中的自适应变异操作具体如下:
其中,pA表示主导种群的变异概率,pA1和pA2分别表示主导种群的最小变异概率和最大变异概率;pB表示辅助种群的变异概率,pB1和pB2分别表示辅助种群的最小变异概率和最大变异概率;fAi、fBi分别表示主导种群个体和辅助种群个体的适应度,fA,max、fB,max分别表示主导种群个体和辅助种群个体的适应度最大值,分别表示主导种群个体和辅助种群个体的适应度平均值。
作为本发明的一种优选技术方案:所述决策树生成后,设决策树的叶子节点数为L,损失函数δ(t)定义为:
δ(t)=σ(t)+τ|L|
其中,σ(t)表示叶子节点t的预测误差,τ表示模型参数,|L|表示模型的复杂度;
计算每一个叶子节点的经验熵,从叶子节点开始往上递归遍历各个节点,判断删除某一叶节点后损失函数的值是否减少,如果减少,则将父节点作为新的叶子节点;遍历所有节点,直到判断完所有节点为止。
作为本发明的一种优选技术方案:所述S4中搜索索引的创建步骤如下:
S4.1:基于知识挖掘算法挖掘结果生成孕育知识集;
S4.2:创建查询语句;
S4.3:对进行词法分析形成一系列词;
S4.4:利用决策树进行搜索索引,获得与查询语句相关的索引知识,对知识进行交、差、并操作得到结果知识集;
S4.5:计算S4.4的结果知识与查询语句的相关性;
S4.6:根据相关性对查询结果进行排序输出。
提供一种孕育知识的知识管理***,包括:
知识采集模块:用于通过多渠道采集孕育知识;
知识预处理模块:用于对采集的孕育知识进行整理和清洗;
知识挖掘模块:用于预处理完成后的孕育知识基于知识挖掘算法进行孕育知识的挖掘;
索引创建模块:用于对孕育知识集进行搜索索引创建以供用户查询。
本发明提供的孕育知识的知识管理方法和***,与现有技术相比,其有益效果有:
本发明通过对孕育数据进行收集、挖掘,获取不同孕育数据之间的联系,为用户提供隐性孕育知识的参考,得到隐含在孕育知识中的隐性孕育知识规则,提高孕育知识的科学性,并提高用户对孕育知识的认知;并生成决策树,便于孕育数据的归类和用户的查询,有助于提高优生优育质量,降低母婴患病概率。
附图说明
图1为本发明优选实施例的方法流程图;
图2为本发明优选实施例中***框图。
图中各个标记的意义为:100、知识采集模块;200、知识预处理模块;300、知识挖掘模块;400、索引创建模块。
具体实施方式
需要说明的是,在不冲突的情况下,本实施例中的实施例及实施例中的特征可以相互组合,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,本发明优选实施例提供了一种孕育知识的知识管理方法,包括如下步骤:
S1:通过多渠道采集孕育知识数据;
S2:对采集的孕育知识数据进行预处理操作;
S3:对预处理完成后的孕育知识数据基于知识挖掘算法进行孕育知识数据的挖掘;
S4:对经过挖掘获取的孕育知识集进行搜索索引创建供用户查询。
所述S1的多渠道采集孕育知识数据具体包括电脑端、移动设备端及手动采集的方式采集孕育知识数据。
所述S2对获取的孕育知识数据进行整理、清洗,并将获取的孕育知识数据进行分词、去停词、去标点符号、大写变小写的词法分析操作后,形成由一系列词组成的孕育知识数据集。
所述知识挖掘算法基于CART算法与改进的遗传算法相结合对孕育知识数据进行挖掘。
所述CART算法具体如下:
设X1,X2,…,XN表示孕育知识数据的某个样本中包含的N个属性,用Y表示属性所属类别,每个属性都有一个固定的输出值;选取孕育知识数据集中第j个属性Xj和属性Xj的取值z作为回归树的切分点,由此点将孕育知识数据集分割成X1=(j,z)={x|x(j)≤z}、X2=(j,z)={x|x(j)>z}两个区域,寻找最佳切分点Xj,即计算出平方差最小值的点:
其中,y1表示区域X1中的孕育知识数据x1属性类别,c1表示区域X1中的孕育知识数据x1的输出值,y2表示区域X2中的孕育知识数据x2属性类别,c2表示区域X2中的孕育知识数据x2的输出值;
采用递归的方式将孕育知识数据集的N维空间界分成互不重叠的矩形,通过计算基尼指数选定最佳的特征属性,并通过基尼指数决定该属性的最佳二值切分点;
设孕育知识数据集D有某一点属于第k类的概率为pk,概率分布的基尼指数G(p)为:
在孕育数据孕育知识数据集D中确定属性F存在某一点f将孕育知识数据集划分为D1和D2两个区域D1={(x,y)∈D|F(x)=f},D2=D,其中,x表示孕育知识数据,y表示孕育知识数据x的属性类别,F(x)=f表示孕育知识数据为x时的取值为f,在属性F这一固定属性下,孕育知识数据集D的基尼指数G(D,F)为:
其中,G(D1)表示孕育知识数据子集D1的基尼指数,G(D2)表示孕育知识数据子集D2的基尼指数;
以孕育知识数据的信息增益作为适应度函数,生成决策树,所述适应度函数Gain(F)具体如下:
其中,pi表示孕育知识数据集中有某一点属于第i类的概率,Dj表示以第j个属性孕育知识数据划分孕育知识数据集获取的孕育知识数据子集。
所述决策树生成具体如下:
其中,
m是属性F的取值个数;
|Dj|和|D|分别表示子集Dj和总数据集D的大小。
通过使用信息增益率作为适应度函数,可以在一定程度上克服信息增益的缺陷,从而在生成决策树时更好地选择***属性。
对孕育知识数据集进行编码生成初始种群,以孕育知识数据的信息增益作为适应度函数,对孕育知识数据进行知识挖掘和属性划分,计算种群个体适应度,以被选中的孕育知识数据作为主导种群,未被选择的孕育知识数据作为辅助种群,对主导种群个体进行自适应交叉操作和自适应变异操作,判断是否满足收敛条件,满足则结束,不满足则对辅助种群个体进行自适应交叉和自适应变异操作,增加迭代次数,重新返回计算个体适应度并执行后续步骤至收敛,即将孕育知识数据对应的种群个体按照属性划分为同一类。
其中,适应度函数Gain(F)信息增益在选择***属性时可能偏向于具有更多取值的属性,因为这样的属性往往能产生更多的分支,从而使得信息熵降低。但这并不意味着具有更多取值的属性一定是最佳***属性。为了解决这个问题,本实施例使用信息增益率对其进行改进。
信息增益率在计算过程中引入了一个属性的固有值作为归一化因子,降低了具有更多取值的属性的权重。具体定义如下:
所述S3中的自适应交叉操作具体如下:
其中,pa表示主导种群的交叉概率,pa1和pa2分别表示主导种群的最小交叉概率和最大交叉概率;pb表示辅助种群的交叉概率,pb1和pb2分别表示辅助种群的最小交叉概率和最大交叉概率;fai、fbi分别表示主导种群个体和辅助种群个体的适应度,fa,max、fb,max分别表示主导种群个体和辅助种群个体的适应度最大值,分别表示主导种群个体和辅助种群个体的适应度平均值;
所述S3中的自适应变异操作具体如下:
其中,pA表示主导种群的变异概率,pA1和pA2分别表示主导种群的最小变异概率和最大变异概率;pB表示辅助种群的变异概率,pB1和pB2分别表示辅助种群的最小变异概率和最大变异概率;fAi、fBi分别表示主导种群个体和辅助种群个体的适应度,fA,max、fB,max分别表示主导种群个体和辅助种群个体的适应度最大值,分别表示主导种群个体和辅助种群个体的适应度平均值。
所述决策树生成后,设决策树的叶子节点数为L,损失函数δ(t)定义为:
δ(t)=σ(t)+τ|L|
其中,σ(t)表示叶子节点t的预测误差,τ表示模型参数,|L|表示模型的复杂度;
计算每一个叶子节点的经验熵,从叶子节点开始往上递归遍历各个节点,判断删除某一叶节点后损失函数的值是否减少,如果减少,则将父节点作为新的叶子节点;遍历所有节点,直到判断完所有节点为止。
所述S4中搜索索引的创建步骤如下:
S4.1:基于知识挖掘算法挖掘结果生成孕育知识集;
S4.2:创建查询语句;
S4.3:对进行词法分析形成一系列词;
S4.4:利用决策树进行搜索索引,获得与查询语句相关的索引知识,对知识进行交、差、并操作得到结果知识集;
S4.5:计算S4.4的结果知识与查询语句的相关性;
S4.6:根据相关性对查询结果进行排序输出。
参照图2,提供一种孕育知识的知识管理***,包括:
知识采集模块100:用于通过多渠道采集孕育知识;
知识预处理模块200:用于对采集的孕育知识进行整理和清洗;
知识挖掘模块300:用于预处理完成后的孕育知识基于知识挖掘算法进行孕育知识的挖掘;
索引创建模块400:用于对孕育知识集进行搜索索引创建以供用户查询。
本实施例中,知识采集模块100通过电脑端,如网页、APP等,移动设备端,如手机端,智能手环等设备,以及手动采集的数据,如衣物等采集的孕育知识数据,其中孕育知识还包括母婴知识,对采集的各种孕育知识数据进行整理和清洗,知识预处理模块200将获取的孕育数据进行分词、去停词、去标点符号、大写变小写等词法分析操作后,形成由一系列词组成的孕育知识数据集。
知识挖掘模块300进行如下的孕育知识挖掘操作,设X1,X2,…,X50表示孕育知识数据的某个样本中包含的50个属性,选取孕育知识数据集中第25个属性X25和属性X25的取值z作为回归树的切分点,由此点将孕育知识数据集分割成X1=(25,z)={x|x(25)≤z}、X2=(25,z)={x|x(25)>z}两个区域,寻找最佳切分点X25,即计算出平方差最小值的点:
其中,y1表示区域X1中的孕育知识数据x1属性类别,c1表示区域X1中的孕育知识数据x1的输出值,y2表示区域X2中的孕育知识数据x2属性类别,c2表示区域X2中的孕育知识数据x2的输出值;
采用递归的方式将孕育知识数据集的50维空间界分成互不重叠的矩形,通过计算基尼指数选定最佳的特征属性,并通过基尼指数决定该属性的最佳二值切分点;
设孕育知识数据集D有某一点属于第k类的概率为pk,概率分布的基尼指数G(p)为:
在孕育数据孕育知识数据集D中确定属性F存在某一点f将孕育知识数据集划分为D1和D2两个区域D1={(x,y)∈D|F(x)=f},D2=D,其中,x表示孕育知识数据,y表示孕育知识数据x的属性类别,F(x)=f表示孕育知识数据为x时的取值为f,在属性F这一固定属性下,孕育知识数据集D的基尼指数G(D,F)为:
其中,G(D1)表示孕育知识数据子集D1的基尼指数,G(D2)表示孕育知识数据子集D2的基尼指数;
以孕育知识数据的信息增益作为适应度函数,生成决策树,所述适应度函数Gain(F)具体如下:
其中,pi表示孕育知识数据集中有某一点属于第i类的概率,D25表示以第25个属性孕育知识数据划分孕育知识数据集获取的孕育知识数据子集。
对孕育知识数据集进行编码生成初始种群,以孕育知识数据的信息增益作为适应度函数,对孕育知识数据进行属性划分,计算种群个体适应度,以被选中的孕育知识数据作为主导种群,未被选择的孕育知识数据作为辅助种群,对主导种群个体进行自适应交叉操作:
其中,pa表示主导种群的交叉概率,pa1和pa2分别表示主导种群的最小交叉概率和最大交叉概率;pb表示辅助种群的交叉概率,pb1和pb2分别表示辅助种群的最小交叉概率和最大交叉概率;fai、fbi分别表示主导种群个体和辅助种群个体的适应度,fa,max、fb,max分别表示主导种群个体和辅助种群个体的适应度最大值,分别表示主导种群个体和辅助种群个体的适应度平均值;
和自适应变异操作:
其中,pA表示主导种群的变异概率,pA1和pA2分别表示主导种群的最小变异概率和最大变异概率;pB表示辅助种群的变异概率,pB1和pB2分别表示辅助种群的最小变异概率和最大变异概率;fAi、fBi分别表示主导种群个体和辅助种群个体的适应度,fA,max、fB,max分别表示主导种群个体和辅助种群个体的适应度最大值,分别表示主导种群个体和辅助种群个体的适应度平均值。
对孕育知识数据进行交叉和变异以进行孕育知识的挖掘。挖掘完成后判断是否满足收敛条件,满足则结束,不满足则对辅助种群个体进行自适应交叉和自适应变异操作,增加迭代次数,重新返回计算个体适应度并执行后续步骤至收敛,即将孕育知识数据对应的种群个体按照属性划分为同一类。
按照属性相同的孕育知识数据为一类进行决策树生成,决策树生成后,设决策树的叶子节点数为500,第150个叶子节点的损失函数δ(150)定义为:
δ(150)=σ(150)+τ|L|
其中,σ(150)表示第150个叶子节点的预测误差,τ表示模型参数,|L|表示模型的复杂度;
计算每一个叶子节点的经验熵,从叶子节点开始往上递归遍历各个节点,判断删除某一叶节点后损失函数的值是否减少,如果减少,则将父节点作为新的叶子节点;遍历所有节点,直到判断完所有节点为止。至此决策树完成创建,并以此生成孕育知识集,索引创建模块400采集用户查询语句,对查询语句进行词法分析形成一系列词;利用决策树进行搜索索引,获得与查询语句相关的索引知识,对知识进行交、差、并操作得到结果知识集;计算结果知识与查询语句的相关性;根据相关性进行排序,按照相关性从高到低的顺序进行输出显示。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种孕育知识的知识管理方法,其特征在于:包括如下步骤:
S1:通过多渠道采集孕育知识数据;
S2:对采集的孕育知识数据进行预处理操作;
S3:对预处理完成后的孕育知识数据基于知识挖掘算法进行孕育知识数据的挖掘;
S4:对经过挖掘获取的孕育知识集进行搜索索引创建供用户查询;
所述知识挖掘算法基于CART算法与改进的遗传算法相结合对孕育知识数据进行挖掘;所述CART算法具体如下:
采用递归的方式将孕育知识数据集的N维空间界分成互不重叠的矩形,通过计算基尼指数选定最佳的特征属性,并通过基尼指数决定该属性的最佳二值切分点;
设孕育知识数据集D有某一点属于第k类的概率为pk,概率分布的基尼指数G(p)为:
在孕育数据孕育知识数据集D中确定属性F存在某一点f将孕育知识数据集划分为D1和D2两个区域D1={(x,y)∈D|F(x)=f},D2=D-D1,其中,x表示孕育知识数据,y表示孕育知识数据x的属性类别,F(x)=f表示孕育知识数据为x时的取值为f,在属性F这一固定属性下,孕育知识数据集D的基尼指数G(D,F)为:
其中,G(D1)表示孕育知识数据子集D1的基尼指数,G(D2)表示孕育知识数据子集D2的基尼指数;
以孕育知识数据的信息增益作为适应度函数,生成决策树,所述适应度函数Gain(F)具体如下:
其中,pi表示孕育知识数据集中有某一点属于第i类的概率,Dj表示以第j个属性孕育知识数据划分孕育知识数据集获取的孕育知识数据子集;
所述决策树生成具体如下:
对孕育知识数据集进行编码生成初始种群,以孕育知识数据的信息增益作为适应度函数,对孕育知识数据进行知识挖掘和属性划分,计算种群个体适应度,以被选中的孕育知识数据作为主导种群,未被选择的孕育知识数据作为辅助种群,对主导种群个体进行自适应交叉操作和自适应变异操作,判断是否满足收敛条件,满足则结束,不满足则对辅助种群个体进行自适应交叉和自适应变异操作,增加迭代次数,重新返回计算个体适应度并执行后续步骤至收敛,即将孕育知识数据对应的种群个体按照属性划分为同一类。
2.根据权利要求1所述的孕育知识的知识管理方法,其特征在于:所述S1的多渠道采集孕育知识数据具体包括电脑端、移动设备端及手动采集的方式采集孕育知识数据。
3.根据权利要求1所述的孕育知识的知识管理方法,其特征在于:所述S2对获取的孕育知识数据进行整理、清洗,并将获取的孕育知识数据进行分词、去停词、去标点符号、大写变小写的词法分析操作后,形成由一系列词组成的孕育知识数据集。
4.根据权利要求1所述的孕育知识的知识管理方法,其特征在于:所述S3中的自适应交叉操作具体如下:
其中,pa表示主导种群的交叉概率,pa1和pa2分别表示主导种群的最小交叉概率和最大交叉概率;pb表示辅助种群的交叉概率,pb1和pb2分别表示辅助种群的最小交叉概率和最大交叉概率;fai、fbi分别表示主导种群个体和辅助种群个体的适应度,fa,max、fb,max分别表示主导种群个体和辅助种群个体的适应度最大值,分别表示主导种群个体和辅助种群个体的适应度平均值;
所述S3中的自适应变异操作具体如下:
其中,pA表示主导种群的变异概率,pA1和pA2分别表示主导种群的最小变异概率和最大变异概率;pB表示辅助种群的变异概率,pB1和pB2分别表示辅助种群的最小变异概率和最大变异概率;fAi、fBi分别表示主导种群个体和辅助种群个体的适应度,fA,max、fB,max分别表示主导种群个体和辅助种群个体的适应度最大值,分别表示主导种群个体和辅助种群个体的适应度平均值。
5.根据权利要求4所述的孕育知识的知识管理方法,其特征在于:所述决策树生成后,设决策树的叶子节点数为L,损失函数δ(t)定义为:
δ(t)=σ(t)+τ|L|
其中,σ(t)表示叶子节点t的预测误差,τ表示模型参数,|L|表示模型的复杂度;
计算每一个叶子节点的经验熵,从叶子节点开始往上递归遍历各个节点,判断删除某一叶节点后损失函数的值是否减少,如果减少,则将父节点作为新的叶子节点;遍历所有节点,直到判断完所有节点为止。
6.根据权利要求1所述的孕育知识的知识管理方法,其特征在于:所述S4中搜索索引的创建步骤如下:
S4.1:基于知识挖掘算法挖掘结果生成孕育知识集;
S4.2:创建查询语句;
S4.3:对进行词法分析形成一系列词;
S4.4:利用决策树进行搜索索引,获得与查询语句相关的索引知识,对知识进行交、差、并操作得到结果知识集;
S4.5:计算S4.4的结果知识与查询语句的相关性;
S4.6:根据相关性对查询结果进行排序输出。
7.一种孕育知识的知识管理***,基于权利要求1-6任意一项所述的孕育知识的知识管理方法,其特征在于:包括:
知识采集模块(100):用于通过多渠道采集孕育知识;
知识预处理模块(200):用于对采集的孕育知识进行整理和清洗;
知识挖掘模块(300):用于预处理完成后的孕育知识基于知识挖掘算法进行孕育知识的挖掘;
索引创建模块(400):用于对孕育知识集进行搜索索引创建以供用户查询。
CN202310555201.7A 2023-05-16 2023-05-16 一种孕育知识的知识管理方法和*** Active CN116578611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310555201.7A CN116578611B (zh) 2023-05-16 2023-05-16 一种孕育知识的知识管理方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310555201.7A CN116578611B (zh) 2023-05-16 2023-05-16 一种孕育知识的知识管理方法和***

Publications (2)

Publication Number Publication Date
CN116578611A CN116578611A (zh) 2023-08-11
CN116578611B true CN116578611B (zh) 2023-11-03

Family

ID=87537276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310555201.7A Active CN116578611B (zh) 2023-05-16 2023-05-16 一种孕育知识的知识管理方法和***

Country Status (1)

Country Link
CN (1) CN116578611B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763529A (zh) * 2010-01-14 2010-06-30 中山大学 基于遗传算法的粗糙集属性约简方法
CN106096641A (zh) * 2016-06-07 2016-11-09 南京邮电大学 一种基于遗传算法的多模态情感特征融合方法
CN106529666A (zh) * 2016-11-17 2017-03-22 衢州学院 控制参数自适应和策略自适应的差分进化算法
CN109902740A (zh) * 2019-02-27 2019-06-18 浙江理工大学 一种基于多算法融合并行的再学习工业控制入侵检测方法
CN110365648A (zh) * 2019-06-14 2019-10-22 东南大学 一种基于决策树的车载can总线异常检测方法
CN111813669A (zh) * 2020-07-04 2020-10-23 毛澄映 基于多目标群体智能的适应性随机测试用例生成方法
CN114185800A (zh) * 2021-12-16 2022-03-15 中国电信股份有限公司 基于遗传算法的测试用例生成方法、***、设备及介质
CN114373467A (zh) * 2022-01-11 2022-04-19 山东大学 一种基于三种群并行遗传算法的对抗性音频样本生成方法
CN114758023A (zh) * 2022-03-30 2022-07-15 桂林电子科技大学 一种自适应遗传算法的胃部电阻抗断层成像方法
CN115248592A (zh) * 2022-01-10 2022-10-28 齐齐哈尔大学 基于改进快速探索随机树的多机器人自主探索方法和***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7280986B2 (en) * 2004-02-09 2007-10-09 The Board Of Trustees Of The University Of Illinois Methods and program products for optimizing problem clustering
US11636200B2 (en) * 2018-06-11 2023-04-25 Palo Alto Research Center Incorporated System and method for remotely detecting an anomaly

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763529A (zh) * 2010-01-14 2010-06-30 中山大学 基于遗传算法的粗糙集属性约简方法
CN106096641A (zh) * 2016-06-07 2016-11-09 南京邮电大学 一种基于遗传算法的多模态情感特征融合方法
CN106529666A (zh) * 2016-11-17 2017-03-22 衢州学院 控制参数自适应和策略自适应的差分进化算法
CN109902740A (zh) * 2019-02-27 2019-06-18 浙江理工大学 一种基于多算法融合并行的再学习工业控制入侵检测方法
CN110365648A (zh) * 2019-06-14 2019-10-22 东南大学 一种基于决策树的车载can总线异常检测方法
CN111813669A (zh) * 2020-07-04 2020-10-23 毛澄映 基于多目标群体智能的适应性随机测试用例生成方法
CN114185800A (zh) * 2021-12-16 2022-03-15 中国电信股份有限公司 基于遗传算法的测试用例生成方法、***、设备及介质
CN115248592A (zh) * 2022-01-10 2022-10-28 齐齐哈尔大学 基于改进快速探索随机树的多机器人自主探索方法和***
CN114373467A (zh) * 2022-01-11 2022-04-19 山东大学 一种基于三种群并行遗传算法的对抗性音频样本生成方法
CN114758023A (zh) * 2022-03-30 2022-07-15 桂林电子科技大学 一种自适应遗传算法的胃部电阻抗断层成像方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Evolutionary feature construction using information Gain and Gini index;GeorgeD.Smith;《Genetic Programming》;379-388 *
基于CART算法的医疗隐性知识挖掘研究——以中医医案为例;马捷等;《情报科学》;第39卷(第6期);84-91 *
基于遗传规划算法的高维数据特征选择与特征构造方法研究;刘鹏莎;《中国优秀硕士论文全文数据库 医药卫生科技辑 》;E072-24 *

Also Published As

Publication number Publication date
CN116578611A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN111832289B (zh) 一种基于聚类和高斯lda的服务发现方法
CN113779272B (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN111340661B (zh) 一种基于图神经网络的应用题自动解题方法
CN117290489B (zh) 一种行业问答知识库快速构建方法与***
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN114741519A (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及***
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN117149974A (zh) 一种子图检索优化的知识图谱问答方法
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及***
CN116524960A (zh) 一种基于混合熵下采样和集成分类器的语音情感识别***
CN113742396B (zh) 一种对象学习行为模式的挖掘方法及装置
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及***
CN111597400A (zh) 基于寻路算法的计算机检索***及方法
CN116578611B (zh) 一种孕育知识的知识管理方法和***
CN116450704A (zh) 一种流程模型的自动化生成方法及生成装置
CN110502669A (zh) 基于n边dfs子图的轻量级无监督图表示学习方法及装置
CN112465054B (zh) 一种基于fcn的多变量时间序列数据分类方法
CN115712720A (zh) 一种基于知识图谱的降雨动态预警方法
CN114860952A (zh) 一种基于数据统计和知识指导的图拓扑学习方法及***
CN114238439A (zh) 一种基于联合嵌入的任务驱动关系型数据视图推荐方法
CN112818122A (zh) 一种面向对话文本的事件抽取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant