CN104123349B

CN104123349B - 一种基于相关性知识特征提取的方法

Info

Publication number: CN104123349B
Application number: CN201410324529.9A
Authority: CN
Inventors: 侯开虎; 朱栩颖; 杨维平; 陈婷; 钟昕怡
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2014-07-09
Filing date: 2014-07-09
Publication date: 2017-09-29
Anticipated expiration: 2034-07-09
Also published as: CN104123349A

Abstract

本发明涉及一种基于相关性知识特征提取的方法，属于工业工程领域。本发明首先针对一组信息的信息源分别得到每个信息源相对应的关键词；然后利用信息源所对应的关键词构建n行n列的关键词相互关系表；依据上述关键词相互关系表，按行进行查找，依次找出每一行中的关键词所对应的除自身以外评分最高的列中关键词作为自身最相关的关键词；根据找到的自身最相关的关键词的两两结合，形成新的信息源，直到关键词合并成统一的关键词为止。本发明通过关键词的概括与提取，可以更好地针对信息源作出判断；通过采用AHP“1～9”评分法提高了信息整合的精确性，对相互关系强烈的关键词进行合并，生成新的信息关键词，提高了信息整合的有效性。

Description

一种基于相关性知识特征提取的方法

技术领域

本发明涉及一种基于相关性知识特征提取的方法，属于工业工程领域。

背景技术

随着社会的发展与进步，我们已经进入到一个信息大***的时代，在多元、大量复杂的信息中提取有用的相关信息，是一个难点，也是一个重点。21世纪企业的成功越来越依赖于企业所拥有知识的质量，利用企业所拥有的知识为企业创造竞争优势和持续竞争优势对企业来说始终是一个挑战。知识来源越多，对我们利用知识的特征来进行知识的整合就越来越难，这是当前人们所研究的热点。

如何快速精确地定位相关有用信息的特征，并整合相关知识，在这一问题中：①没有针对相关知识***进行相关知识特征整合的方法设计；②没有采用AHP法中的“1～9”评分原理进行知识特征聚类的规则设计；③没有采用降维的思想对知识信息结构体进行设计；④没有设计过特征值相互关系表。

针对上述问题，本发明一种相关性知识特征提取的方法，该方法采用降维的思想，针对相关知识结构体中复杂、多元的信息进行了提取关键知识特征的方法设计。该方法通过设计特征值相互关系表以及基于AHP法中“1～9”的评分规则设计，为相关知识特征提取提供了一个有效的方法。

发明内容

本发明提供了一种基于相关性知识特征提取的方法，以用于解决如何快速准确的从相互独立的复杂信息中，提取并整合关键性的知识信息。

本发明的技术方案是：一种基于相关性知识特征提取的方法，首先针对一组信息的信息源分别得到每个信息源相对应的关键词；然后利用信息源所对应的关键词构建n行n列的关键词相互关系表；依据上述关键词相互关系表，按行进行查找，依次找出每一行中的关键词所对应的除自身以外评分最高的列中关键词作为自身最相关的关键词；根据找到的自身最相关的关键词的两两结合，形成新的信息源，直到关键词合并成统一的关键词为止。

所述方法的具体步骤如下：

Step1、针对一组信息中的n个信息源分别通过信息筛选与压缩的方式得到每个信息源相对应的关键词；

Step2、利用信息源所对应的关键词组成n行n列两两对应的关键词相互关系；接着采用AHP法中的“1～9”评分标准对两两对应的关键词相互关系进行两两比较评分，得到n×n个关键词相互关系强烈度；根据n×n个关键词相互关系强烈度构建n行n列的关键词相互关系表；

Step3、相关性的检验：采用AHP法中的“1～9”评分标准进行关键词相互关系评分后，对关键词相互关系进行相关性的检验：

如果关键词相互关系构成的关键词相互关系表中数据的每一行、每一列的分数不存在相同的情况，则不需重新进行打分比较；

如果关键词相互关系构成的关键词相互关系表中数据的每一行、每一列的分数存在相同的情况，则需重新进行打分比较；

Step4、依据上述关键词相互关系表，按行进行查找，依次找出每一行中的关键词所对应的除自身以外评分最高的列中关键词作为自身最相关的关键词；

Step5、通过步骤Step4中找到的自身最相关的关键词的两两结合，形成新的信息源；

Step6、针对步骤Step5中形成的新信息源重复执行步骤Step1～步骤Step5，直到关键词合并成统一的关键词为止。

所述相互关系强烈度由1至9依次增强；其中，系数越大为相互关系强烈度越强，系数越小为相互关系强烈度越弱。

所述步骤Step3中重新进行打分比较为根据需要确定评分中所有要保留的小数点后的位数。

所述统一的关键词为一组信息的关键知识点。

本发明的有益效果是：该方法在实际应用背景中具有较好的环境适应性；通过关键词的概括与提取，可以更好地针对信息源作出判断，通过设计关键词相互关系表，并采用AHP“1～9”评分法提高了信息整合的精确性，对相互关系强烈的关键词进行合并，生成新的信息关键词，提高了信息整合的有效性。

附图说明

图1为本发明的算法流程图。

具体实施方式

实施例1：如图1所示，一种基于相关性知识特征提取的方法，首先针对一组信息的信息源分别得到每个信息源相对应的关键词；然后利用信息源所对应的关键词构建n行n列的关键词相互关系表；依据上述关键词相互关系表，按行进行查找，依次找出每一行中的关键词所对应的除自身以外评分最高的列中关键词作为自身最相关的关键词；根据找到的自身最相关的关键词的两两结合，形成新的信息源，直到关键词合并成统一的关键词为止。

所述方法的具体步骤如下：

所述步骤Step3中重新进行打分比较为根据需要将关键词相互关系表中数据的每一行、每一列的分数存在相同情况的数据重新确定其相同评分中所有要保留的小数点后的位数。

所述统一的关键词为一组信息的关键知识点。

实施例2：如图1所示，一种基于相关性知识特征提取的方法，首先针对一组信息的信息源分别得到每个信息源相对应的关键词；然后利用信息源所对应的关键词构建n行n列的关键词相互关系表；依据上述关键词相互关系表，按行进行查找，依次找出每一行中的关键词所对应的除自身以外评分最高的列中关键词作为自身最相关的关键词；根据找到的自身最相关的关键词的两两结合，形成新的信息源，直到关键词合并成统一的关键词为止。

所述方法的具体步骤如下：

现有6条相关性知识的信息，利用本发明所述的相关知识特征提取的方法对这6条相关性知识的信息进行特征关系的提取与合并，该6条信息如下：

信息1：线性表是一种线性结构，它的特点是数据元素之间是一种线性关系，即数据元素一个接一个的排列；

信息2：栈是一种限制在表的一端进行***和删除的结构体，允许***、删除的这一端称为栈顶，另一个固定端称为栈底；

信息3：二叉树是树形结构的另一个重要类型，许多实际问题抽象出来的数据结构往往是二叉树的形式；

信息4：图形结构是一种比树形结构更为复杂的非线性结构，被用来描述各种复杂的数据结构，在实际生活中应用广泛；

信息5：顺序存储结构的主要优点是节省存储空间，因为分配给数据的存储单元全用存放结点的数据（不考虑C/C++语言中数组需指定大小的情况），结点之间的逻辑关系没有占用额外的存储空间；

信息6：链式存储又叫链接存储结构，在计算机中用一组任意的存储单元存储线性表的数据元素，它不要求逻辑上相邻的元素在物理位置上也相邻，因此它没有顺序存储结构所具有的弱点，但也同时失去了顺序表可随机存取的优点。

Step1、针对一组信息中的6个信息源分别通过信息筛选与压缩的方式得到每个信息源相对应的关键词；

具体为：

信息1的关键词（关键词1）：线性表

信息2的关键词（关键词2）：栈

信息3的关键词（关键词3）：二叉树

信息4的关键词（关键词4）：图形结构

信息5的关键词（关键词5）：顺序存储

信息6的关键词（关键词6）：链式存储

具体为：

具体为：所述表1中每一行、每一列的分数不存在相同的情况，则不需重新进行打分比较；

具体为：

1、关键词1（线性表）与关键词2（栈）的评分为7，仅次于关键词1（线性表）自身的评分9，即关键词1（线性表）的最相关关键词为关键词2（栈）；

2、关键词3（二叉树）与关键词4（图形结构）的评分为8，仅次于关键词3（二叉树）自身的评分9，即关键词3（二叉树）的最相关关键词为关键词4（图形结构）；

3、关键词5（顺序结构）与关键词6（链式存储）的评分为8，仅次于关键词5（顺序结构）自身的评分9，即关键词5（顺序结构）的最相关关键词为关键词6（链式存储）；

Step6、针对步骤Step5中形成的新信息源重复执行步骤Step1～步骤Step5，直到关键词合并成统一的关键词为止：

循环执行：

构建关键词：

1、线性表与栈：关键词A（线性结构）；

2、二叉树与图形结构：关键词B（非线性结构）；

3、顺序存储与图形存储：关键词C（数据的存储结构）；

构建相对应的关键词相互关系表：

依据上述关键词相互关系表，按行进行查找，依次找出每一行中的关键词所对应的除自身以外评分最高的列中关键词作为自身最相关的关键词：

1、关键词A（线性结构）与关键词B（非线性结构）的评分为6，仅次于关键词A（线性结构）自身的评分9，即关键词A（线性结构）的最相关关键词为关键词B（非线性结构）；

2、而关键词C（数据的存储结构）与关键词A（线性结构）的评分为4，但是关键词A（线性结构）与关键词B（非线性结构）的评分为6，所以关键词A（线性结构）的最相关关键词为关键词B（非线性结构），不是关键词C（数据的存储结构），关键词C（数据的存储结构）进入到下一个阶段；

构建关键词：

1、线性结构与非线性结构：关键词D（数据的逻辑结构）；

2、关键词C（数据的存储结构）；

至此，关键词D（数据的逻辑结构）与关键词C（数据的存储结构）即可得到该组信息的关键概念：数据结构。即数据结构为该组信息的关键知识点。

实施例3：如图1所示，一种基于相关性知识特征提取的方法，首先针对一组信息的信息源分别得到每个信息源相对应的关键词；然后利用信息源所对应的关键词构建n行n列的关键词相互关系表；依据上述关键词相互关系表，按行进行查找，依次找出每一行中的关键词所对应的除自身以外评分最高的列中关键词作为自身最相关的关键词；根据找到的自身最相关的关键词的两两结合，形成新的信息源，直到关键词合并成统一的关键词为止。

所述方法的具体步骤如下：

现有8条相关性知识的信息，利用本发明所述的相关知识特征提取的方法对这8条相关性知识的信息进行特征关系的提取与合并，要求在针对关键词相互关系表进行评价打分时，保留小数点后1位小数。该8条信息如下：

信息1：制造信息***的工程化开发模式把制造信息***的开发过程分为四个阶段来进行，这四个阶段为：***分析、***设计、***实施和***运行与维护。

信息2：人事信息资源管理***是企业员工管理的一个重要内容，当今社会人员流动越来越频繁，人事管理工作也变得越来越复杂，如果能够实现人事管理的自动化，无疑将给企业管理部门带来很大的方便。

信息3：品尚红酒初期的两千万很大程度投在了上游供应链***,包括进货、库存和仓储。

信息4：客户关系管理***是选择和管理有价值客户及其关系的一种商业策略，要求以客户为中心的商业哲学和企业文化来支持有效的市场营销、销售与服务流程。

信息5：此次广州市社会保障信息***政府机关事业单位信息管理***应用软件项目（招标编号：GZIT2006-ZB241）经评标委员会根据招标文件中的评审办法审议和综合评估。

信息6：电子商务***是保证以电子商务为基础的网上交易实现的体系。

信息7：专家***是一个智能计算机程序***，其内部含有大量的某个领域专家水平的知识与经验，能够利用人类专家的知识和解决问题的方法来处理该领域问题。

信息8：智能决策支持***是人工智能（AI，Artificial Intelligence）和DSS相结合，应用专家***（ES，Expert System）技术，使DSS能够更充分地应用人类的知识，如关于决策问题的描述性知识，决策过程中的过程性知识，求解问题的推理性知识，通过逻辑推理来帮助解决复杂的决策问题的辅助决策***。

Step1、针对一组信息中的8个信息源分别通过信息筛选与压缩的方式得到每个信息源相对应的关键词；

具体为：

信息1的关键词（关键词1）：制造信息***

信息2的关键词（关键词2）：人事信息资源管理***

信息3的关键词（关键词3）：上游供应链***

信息4的关键词（关键词4）：客户关系管理***

信息5的关键词（关键词5）：政府机关管理***

信息6的关键词（关键词6）：电子商务***

信息7的关键词（关键词7）：专家***

信息8的关键词（关键词8）：智能决策支持***

具体为：

具体为：按行进行查找，关键词3（上游供应链***）与关键词4（客户关系管理***）和关键词6（电子商务***）的评分均为7.5，不满足相关性一致性的标准，故针对关键词3（上游供应链***）与关键词4（客户关系管理***）和关键词6（电子商务***）的评分重新进行评分。即所述表3中第三行、第三列的分数不存在相同的情况，则需重新进行打分比较；

需针对相同评分的关键词进行打分的二级处理，即增加该相同评分关键词的一位小数，在该位小数上进行评分比较，以得到相关度最高的关键词；关键词3（上游供应链***）与关键词4（客户关系管理***）的评分为7.58；关键词3（上游供应链***）与关键词6（电子商务***）的评分为7.53。新的评分表如表4所示；其中表4的结果满足相关性检验。

具体为：

1、关键词1（制造信息***）与关键词2（人事信息资源管理***）的评分为8.2，仅次于关键词1（制造信息***）自身的评分9，即关键词1（制造信息***）的最相关关键词为关键词2（人事信息资源管理***）；

2、关键词3（上游供应链***）与关键词4（客户关系管理***）的评分为7.9，仅次于关键词3（上游供应链***）自身的评分9，即关键词3（上游供应链***）的最相关关键词为关键词4（客户关系管理***）；

3、关键词5（政府机关管理***）与关键词6（电子商务***）的评分为7.8，仅次于关键词5（政府机关管理***）自身的评分9，即关键词5（政府机关管理***）的最相关关键词为关键词6（电子商务***）；

4、关键词7（专家***）与关键词8（智能决策支持***）的评分为7.8，仅次于关键词7（专家***）自身的评分9，即关键词7（专家***）的最相关关键词为关键词8（智能决策支持***）；

循环执行：

构建关键词：

1、制造信息***与人事信息资源管理***：关键词A（职能信息***）；

2、上游供应链***与客户关系管理***：关键词B（流程信息***）；

3、政府机关管理***与电子商务***：关键词C（行业信息***）；

4、专家***与智能决策支持***：关键词D（决策支持***）；

依据上述关键词A、关键词B、关键词C、关键词D构建相对应的关键词相互关系表：

1、关键词A（职能信息***）与关键词B（流程信息***）的评分为6.4，仅次于关键词A（职能信息***）自身的评分9，即关键词A（职能信息***）的最相关关键词为关键词B（流程信息***）；

2、关键词C（行业信息***）与关键词D（决策支持***）的评分为6.8，仅次于关键词C（行业信息***）自身的评分9，即关键词C（行业信息***）的最相关关键词为关键词D（决策支持***）；

构建关键词：

1、关键词A（职能信息***）与关键词B（流程信息***）的关键词Ⅰ：面向对象管理信息***；

2、关键词C（行业信息***）与关键词D（决策支持***）的关键词Ⅱ：整体结构化管理信息***；

至此，关键词Ⅰ（面向对象管理信息***）与关键词Ⅱ（整体结构化管理信息***）可以结合成管理信息***这一关键知识点。即管理信息***为该组信息的关键知识点。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于相关性知识特征提取的方法，其特征在于：首先针对一组信息的信息源分别得到每个信息源相对应的关键词；然后利用信息源所对应的关键词构建n行n列的关键词相互关系表；依据上述关键词相互关系表，按行进行查找，依次找出每一行中的关键词所对应的除自身以外评分最高的列中关键词作为自身最相关的关键词；根据找到的自身最相关的关键词的两两结合，形成新的信息源，直到关键词合并成统一的关键词为止；

所述方法的具体步骤如下：

如果关键词相互关系构成的关键词相互关系表中每一行中的分数不存在相同的情况且每一列中的分数不存在相同的情况，则不需重新进行打分比较；

如果关键词相互关系构成的关键词相互关系表中每一行中的分数存在相同的情况且每一列中的分数存在相同的情况，则需重新进行打分比较；

2.根据权利要求1所述的基于相关性知识特征提取的方法，其特征在于：所述相互关系强烈度由1至9依次增强；其中，系数越大为相互关系强烈度越强，系数越小为相互关系强烈度越弱。

3.根据权利要求1所述的基于相关性知识特征提取的方法，其特征在于：所述步骤Step3中重新进行打分比较为根据需要将关键词相互关系表中每一行中的分数存在相同情况且每一列中的分数存在相同情况的数据重新确定其相同评分中所有要保留的小数点后的位数。

4.根据权利要求1所述的基于相关性知识特征提取的方法，其特征在于：所述统一的关键词为一组信息的关键知识点。