CN103106232A

CN103106232A - 制作知识地图的方法

Info

Publication number: CN103106232A
Application number: CN2012103830293A
Authority: CN
Inventors: 卢阳正; 陈振南; 魏裕珍
Original assignee: MING CHUAN UNIVERSITY
Current assignee: MING CHUAN UNIVERSITY
Priority date: 2011-10-11
Filing date: 2012-10-11
Publication date: 2013-05-15
Also published as: TW201316185A; TWI456412B

Abstract

本发明是提供一种制作知识地图的方法。该知识地图包含词汇(t)以及多个关联词汇，而该方法包含下列步骤：建立词汇关联知识集{(t,s_i,w_i)|i=1,…,n}，其中s_i代表与该词汇配对的关联词汇，w_i代表(t,s_i)的权重；提供使用者接口，以供查询该词汇；从该词汇关联知识集筛选出多个关联词汇共现配对；将该等关联词汇共现配对依K-means演算法分成多个群组；输出该知识地图，该知识地图以该词汇为中心，该等关联词汇以该等群组呈现；以及调整该知识地图的多个参数。

Description

制作知识地图的方法

技术领域

本发明是关于一种制作知识地图的方法，尤指一种制作广度与深度可供调整的知识地图的方法。

背景技术

知识地图(Knowledge Map)是一个广泛运用于知识经济与知识管理的工具。知识地图包括知识与地图两部分，其中知识是加值过的数据与信息，地图则是知识内容的可视化与图表化呈现模式。

关于知识地图的现有技术，中国台湾专利公开号200523782揭露了一种知识地图，该知识地图的概念是利用线条和图形来表现计划元素间的关系，而表现方式也则以环状图呈现。然而对于文章撰写工作者如记者来说，有兴趣的是不同词汇间连结的关系，通过了解不同词汇间连结的关系有利于新闻文章的撰写，因此该知识地图并无法一个以特定字符串的关联词数据库中进行查询，也无法提供一个以特定字符串相关的关联词网。另外，中国台湾专利公告号520484是使用一个图形接口树组件显示对象间的逻辑关联性，该树形图仅呈现上下关系，并无法呈现深度与广度，使用者也无法自行调整深度或广度的参数值，以呈现客制化的知识地图。

职是之故，发明人鉴于现有技术的缺失，乃经悉心试验与研究，并一本锲而不舍的精神，发明出本发明“制作知识地图的方法”，以下为本发明的简要说明。

发明内容

本发明是提供一种知识地图的制作方法，其特征在于使用者输入字符串时，再透过一个以特定字符串的关联词数据库来进行查询，以提供一个以特定字符串相关的关联词网。关联词网的产生在网络的深度与广度是由***就关联词的重要性依比率原则自动筛选。

本发明的一面向是提供一种制作知识地图的方法。该知识地图包含词汇(t)以及多个关联词汇，而该方法包含下列步骤：建立词汇关联知识集{(t,s_i,w_i)|i=1,…,n}，其中s_i代表与该词汇配对的关联词汇，w_i代表(t,s_i)的权重；提供使用者接口，以供查询该词汇；从该词汇关联知识集筛选出多个关联词汇共现配对；将该等关联词汇共现配对依K-means演算法分成多个群组；输出该知识地图，该知识地图以该词汇为中心，该等关联词汇以该等群组呈现；以及调整该知识地图的多个参数。

词汇共现配对的意涵指任一分句中任两中文词的组合，假设分句有n个中文词﹛w_i｜i=1,…,n﹜，则任两中文词的词汇共现配对以﹛(w_i,w_j)｜i＜j且i,j=1,…,n﹜表示。例如“发生跳票挤兑”分句，有三个中文词分别为“发生”、“跳票”、“挤兑”，则该分句的词汇共现配对包括（发生,跳票）、（发生,挤兑）、（跳票,挤兑）。

本发明的另一面向是提供一种制作知识地图的方法。该知识地图包含词汇(t)以及多个关联词汇，而该方法包含下列步骤：建立词汇关联知识集{(t,s_i,w_i)|i=1,…,n}，其中s_i代表与该词汇的关联词汇，w_i代表该等词汇共现配对(t,s_i)的权重；从该词汇关联知识集筛选出多个关联词汇共现配对；以及将该等关联词汇共现配对依K-means演算法分成多个群组。

本发明的又一面向是提供一种调整知识地图的方法。该知识地图具有广度a，该广度a代表词汇的分支度数目，而该方法包含下列步骤：由词汇关联知识集{(t,s_i,w_i)|i=1,…,n}输出该知识地图，其中t代表该词汇，s_i代表与该词汇配对的关联词汇，w_i代表(t,s_i)的权重；以及在满足w_i≥a的条件下，由使用者调整该广度a。

本发明的再一面向是提供知识地图，该知识地图具有可调整的深度b，该深度b代表词汇以及与该词汇配对的关联词汇延伸的层级数。

本发明的再一面向是提供知识地图，其是由词汇关联知识集{(t,s_i,w_i)|i=1,…,n}所衍生，其中t代表该词汇，s_i代表与该词汇配对的关联词汇，w_i代表(t,s_i)的权重，其中该知识地图具有广度a，该广度a代表词汇的分支度数目，且在满足w_i≥a的条件下，该广度a是可调整的。

为了易于说明，本发明得通过下述的实施例及附图而得到充分了解，并使得熟习本技术领域的人员据以完成之，然本发明的实施型态并不限制于下列实施例中。

附图说明

图1：本发明知识地图制作方法的流程图。

图2(a)(b)：本发明知识地图呈现方式。

主要组件符号说明

1、2、21、22、3、31、32、4、41、42、5、6、7、8 步骤

具体实施方式

请参阅图1，其是为本发明的知识地图的制作方法的流程图。制作知识地图，首先输入文件集(步骤1)，其数据来自于任一大型语料(corpus)，所谓语料是指为特定目的所搜集的文件资料。由于语词是中文语意的单位，因此所搜集的文件需进行前处理(步骤2)，以将文件分解成有意义的语词。前处理的工作分两部分，分别为分句切割(步骤21)及断词(步骤22)，其操作如表一至表三所示。分句切割(步骤21)是将文章内容的每一个句子进行拆解，拆解的方法是以标点符号，如“，”、“。”、“；”、“！”、“？”等作为拆解的标记符号。断词(步骤22)是将每一分句再进行语词的分割。

表一：原始文件数据：

表二：分句切割：

表三：断词：

以上为前处理的操作实例：

表四：词汇共现配对

接着依据前处理的结果，就每一分句的语词建立词汇关联知识集(步骤3)。词汇关联知识集(步骤3)的建立分成二部分，包括搜集词汇共现配对(步骤31)以及计算词汇共现配对权重(步骤32)。依据前处理的示范数据，表四为词汇共现配对的清单，在计算词汇共现配对权重方面，采用熵(entropy)。以熵模型产生权重，熵值权重法是引用熵值观念来求取各词汇共现配对间的相对权重。首先经由每一个词汇共现配对对各文件的频次值求算出的熵值，来说明该词汇共现配对对整个语料集所能传递(Transmit)的词汇共现配对信息的程度。在说明熵值计算步骤前，先定义文件词汇共现配对矩阵X_ij，如表五所示，其中D_i为语料集的第i篇文件，A_j为第j组词汇共现配对，假设D₁的文件名称为甲、D₂的文件名称为乙、D₃的文件名称为丙、D₄的文件名称为丁。矩阵内的数字表词汇共现配对在各文件出现次数，如第一组词汇共现配对(A₁)在文件名称为甲的出现次数共有75次。

表五：词汇共现配对矩阵X_ij

熵值权重计算步骤如下：

步骤一：计算词汇共现配对矩阵表中X_ij的接近程度d_ij。(本步骤即对第i篇文件第j组词汇共现配对进行正规化)。

步骤二：将d_ij转化成发生机率P_ij。

步骤三：由P_ij计算各准则的熵值e_j。

e_{j} = - k Σ_{i = 1}^{m} P_{ij} \ln P_{ij}

其中

k=1/ln(m)

i=1,2,3,…,m(文件)

j=1,2,3,…,n(词汇共现)

以表五的词汇共现配对矩阵X_ij为例，步骤一请见表六：

表六(a)：计算d_ij

d_ij

A₁

A₂

A₃

A₄

A₅

A₆

甲

75/75

15/27

20/21

35/65

9/9

3/8

乙

60/75

27/27

19/21

65/65

6/9

4/8

丙

54/75

20/27

21/21

45/65

7/9

3/8

丁

66/75

18/27

20/21

20/65

5/9

8/8

表六(b)：d_ij结果

d_ij	A₁	A₂	A₃	A₄	A₅	A₆
							甲	1.00	0.56	0.95	0.54	1	0.38
乙	0.80	1	0.90	1	0.67	0.50
							丙	0.72	0.74	1	0.69	0.78	0.38
丁	0.88	0.67	0.95	0.31	0.56	1
							合计	3.40	2.96	3.81	2.54	3.00	2.25

步骤二请见表七：

表七(a)：计算P_ij

P_ij

A₁

A₂

A₃

A₄

A₅

A₆

甲

1.00/3.40

0.56/2.96

0.95/3.81

0.54/2.54

1/3.00

0.38/2.25

乙

0.80/3.40

1/2.96

0.90/3.81

1/2.54

0.67/3.00

0.50/2.25

丙

0.72/3.40

0.74/2.96

1/3.81

0.69/2.54

0.78/3.00

0.38/2.25

丁

0.88/3.40

0.67/2.96

0.95/3.81

0.31/2.54

0.56/3.00

1/2.25

表七(b)：P_ij结果

P_ij	A₁	A₂	A₃	A₄	A₅	A₆
							甲	0.29	0.19	0.25	0.21	0.33	0.17
乙	0.24	0.34	0.24	0.39	0.22	0.22
							丙	0.21	0.25	0.26	0.27	0.26	0.17
丁	0.26	0.23	0.25	0.12	0.19	0.44

[0048] 步骤三请见表八：

表八(a)：计算P_ij ln P_ij

A₁

A₂

A₃

A₄

A₅

A₆

甲

0.29 ㏑ 0.29

0.19 ㏑ 0.19

0.25 ㏑ 0.25

0.21 ㏑ 0.21

0.33 ㏑ 0.33

0.17 ㏑ 0.17

乙

0.24 ㏑ 0.24

0.34 ㏑ 0.34

0.24 ㏑ 0.24

0.39 ㏑ 0.39

0.22 ㏑ 0.22

丙

0.21 ㏑ 0.21

0.25 ㏑ 0.25

0.26 ㏑ 0.26

0.27 ㏑ 0.27

0.26 ㏑ 0.26

0.17 ㏑ 0.17

丁

0.26 ㏑ 0.26

0.23 ㏑ 0.23

0.25 ㏑ 0.25

0.12 ㏑ 0.12

0.19 ㏑ 0.19

0.44 ㏑ 0.44

表八(b)：计算ej

表八(c)：e_j结果

	A₁	A₂	A₃	A₄	A₅	A₆
							e_j	0.9947	0.9829	0.9995	0.9421	0.9830	0.9319

最后各词汇共现配对的权重分别为A₁(0.9947)，A₂(0.9829)，A₃(0.9995)，A₄(0.9421)，A₅(0.9830)，A₆(0.9319)。

经由上述的计算，可建立数据库中所有词汇知识集的量化指标，并提供使用者查询某一词汇的关联词(步骤4)，在查询时使用者可输入完整的词汇(步骤41)或输入部分词汇(步骤42)，再搭配万用字符即可筛选具关联的词汇(步骤5)。筛选的准则是词汇共现知识集中若含有欲查询的词汇，则将该词汇共现抽出并依权重由大至小顺序排序。接着采用K-means分割式丛集技术(K-means演算法)将所筛选的词汇共现进行分群，使每群权重值相近。K-means分割式丛集技术的原理简述如下：

1.随机选K个词汇共现，每一个词汇共现均当成K组的初始质心﹙initial center ﹚。

2.将其它词汇共现分配至某个群组，此群组质心与其距离最近。

3.重新计算质心。

4.重复步骤2，直到不再重新分配词汇共现或利用条件函数收敛为止。

以{2,4,10,12,3,20,30,11,25},k=2为例，随机筛选2个质心m₁=3,m₂=4

经过4阶段处理后，原始集合{2,4,10,12,3,20,30,11,25}可分成两个群集K₁={2,3,4,10,11,12},K₂={20,30,25}，中间过程如下：

K₁={2,3},K₂={4,10,12,20,30,11,25},m₁=2.5,m₂=16

K₁={2,3,4},K₂={10,12,20,30,11,25},m₁=3,m₂=18

K₁={2,3,4,10},K₂={12,20,30,11,25},m₁=4.75,m₂=19.6

K₁={2,3,4,10,11,12},K₂={20,30,25},m₁=7,m₂=25

对一个词汇t，其所有潜在词汇共现配对假设有n个，以{(t,s_i,w_i)|i=1,…,n}表示，其中词汇s_i为词汇t的共现配对，w_i为(t,s_i)共现配对的权重，因权重值介于0与1之间，权重值愈大者表示配对间的词汇相关性愈高。在呈现词汇t的知识地图时，其呈现方式为一种图形结构，为避免图形的呈现内容过于庞杂与阅读困难，本发明提出二个参数，分别为“广度”(简称a)与“深度”(简称b)，来规范图形的呈现内容，其中a,b介于0与1之间。“广度”是指词汇t分支度，其分支度数目需满足w_i≥a。“深度”是指词汇与共现词汇s_i延伸的层级数，如(t,s_i),(s_i,u_k),(u_k,v_j)表示词汇t的深度为3。

欲查询某个词汇x的知识地图，须先输入词汇x，然后再以词汇x为中心，分别就“广度”与“深度”展开。图2(a)中的五边形形状，表示欲查询的词汇(如“成长”)，椭圆形形状为“成长”的广度，以图2(a)为例“成长”的广度展开后共有13个关联词，此为第一层深度。然后再依据此13个关联词分别逐一展开，此为第二层深度，如此递归延伸，可建置不同“广度”与“深度”的知识网。

在输出以查询词汇为中心的知识地图时，各关联词汇的呈现依据每一分群的属性给予不同颜色(步骤6)。图2(a)是以“成长”为例的知识地图，而图2(b)是当使用者点选图2中的“升值”时，显示出与“升值”的关联词汇。为使知识地图可弹性呈现词汇关联内容的宽广度，交互式的人机对话框的建置是有其必要性的，此人机对话框包含地图深广度参数可供调整(步骤7)。此对话框在广度的内定值为0(也即k=0)，深度的内定值为1，使用者可自行调整上述参数值，以呈现客制化的知识地图(步骤8)。

实施例：

1.一种制作知识地图的方法，该知识地图包含词汇(t)以及多个关联词汇，该方法包含下列步骤：

建立词汇关联知识集{(t,s_i,w_i)|i=1,…,n}，其中s_i代表与该词汇配对的关联词汇，w_i代表(t,s_i)的权重；

提供使用者接口，以供查询该词汇；

从该词汇关联知识集筛选出多个关联词汇共现配对；

将该等关联词汇共现配对依K-means演算法分成多个群组；

输出该知识地图，该知识地图以该词汇为中心，该等关联词汇以该等群组呈现；以及

调整该知识地图的多个参数。

2.根据实施例1所述的方法，其中w_i的值介于0至1，该等参数包含该知识地图的广度a与深度b，该广度a与该深度b的值介于0至1。

3.根据实施例1-2所述的方法，其中该广度a代表该词汇的分支度数目，该分支度数目满足w_i≥a，该深度b代表该词汇t与s_i延伸的层级数。

4.一种制作知识地图的方法，该知识地图包含词汇(t)以及多个关联词汇，该方法包含下列步骤：

建立词汇关联知识集{(t,s_i,w_i)|i=1,…,n}，其中s_i代表与该词汇的关联词汇，w_i代表该等词汇共现配对(t,s_i)的权重；

从该词汇关联知识集筛选出多个关联词汇共现配对；以及

将该等关联词汇共现配对依K-means演算法分成多个群组。

5.根据实施例4所述的方法，进一步包含下列步骤：

提供使用者接口，以供查询该词汇；

调整该知识地图的多个参数，其中该等参数包含广度a与深度b，该广度a与该深

度b的值介于0至1；以及

输出该知识地图，该知识地图以该词汇为中心，该等关联词汇以该等群组呈现。

6.根据实施例4-5所述的方法，其中w_i的值介于0至1，该等参数包含该知识地图的广度a与深度b，该广度a与该深度b的值介于0至1。

7.一种调整知识地图的方法，该知识地图具有广度a，该广度a代表词汇的分支度数目，该方法包含下列步骤：

由词汇关联知识集{(t,s_i,w_i)|i=1,…,n}输出该知识地图，其中t代表该词汇，s_i代表与该词汇配对的关联词汇，w_i代表(t,s_i)的权重；以及

在满足w_i≥a的条件下，由使用者调整该广度a。

8.根据实施例7所述的方法，该知识地图具有深度b，进一步包含下列步骤：其中该深度b代表该词汇t与s_i延伸的层级数。

9.知识地图，该知识地图具有可调整的深度b，该深度b代表词汇以及与该词汇配对的关联词汇延伸的层级数。

10.知识地图，其是由词汇关联知识集{(t,s_i,w_i)|i=1,…,n}所衍生，其中t代表该词汇，s_i代表与该词汇配对的关联词汇，w_i代表(t,s_i)的权重，其中该知识地图具有广度a，该广度a代表词汇的分支度数目，且在满足w_i≥a的条件下，该广度a是可调整的。

Claims

1.一种制作知识地图的方法，所述知识地图包含词汇(t)以及多个关联词汇，所述方法包含下列步骤：

建立词汇关联知识集{(t,s_i,w_i)|i=1,…,n}，其中s_i代表与所述词汇配对的关联词汇，w_i代表(t,s_i)的权重；

提供使用者接口，以供查询所述词汇；

从所述词汇关联知识集筛选出多个关联词汇共现配对；

将所述等关联词汇共现配对依K-means演算法分成多个群组；

输出所述知识地图，所述知识地图以所述词汇为中心，所述等关联词汇以所述等群组呈现；以及

调整所述知识地图的多个参数。

2.如权利要求1所述的方法，其中w_i的值介于0至1，所述等参数包含所述知识地图的广度a与深度b，所述广度a与所述深度b的值介于0至1。

3.如权利要求2所述的方法，其中所述广度a代表所述词汇的分支度数目，所述分支度数目满足w_i≥a，所述深度b代表所述词汇t与s_i延伸的层级数。

4.一种制作知识地图的方法，所述知识地图包含词汇(t)以及多个关联词汇，所述方法包含下列步骤：

建立词汇关联知识集{(t,s_i,w_i)|i=1,…,n}，其中s_i代表与所述词汇的关联词汇，w_i代表所述等词汇共现配对(t,s_i)的权重；

从所述词汇关联知识集筛选出多个关联词汇共现配对；以及

将所述等关联词汇共现配对依K-means演算法分成多个群组。

5.如权利要求4所述的方法，还包含下列步骤：

提供使用者接口，以供查询所述词汇；

调整所述知识地图的多个参数，其中所述等参数包含广度a与深度b，所述广度a与所述深度b的值介于0至1；以及

输出所述知识地图，所述知识地图以所述词汇为中心，所述等关联词汇以所述等群组呈现。

6.如权利要求5所述的方法，其中w_i的值介于0至1，所述等参数包含所述知识地图的广度a与深度b，所述广度a与所述深度b的值介于0至1。

7.一种调整知识地图的方法，所述知识地图具有广度a，所述广度a代表词汇的分支度数目，所述方法包含下列步骤：

由词汇关联知识集{(t,s_i,w_i)|i=1,…,n}输出所述知识地图，其中t代表所述词汇，s_i代表与所述词汇配对的关联词汇，w_i代表(t,s_i)的权重；以及

在满足w_i≥a的条件下，由使用者调整所述广度a。

8.如权利要求7所述的方法，所述知识地图具有深度b，进一步包含下列步骤：其中所述深度b代表所述词汇t与s_i延伸的层级数。

9.知识地图，所述知识地图具有可调整的深度b，所述深度b代表词汇以及与所述词汇配对的关联词汇延伸的层级数。

10.知识地图，其是由词汇关联知识集{(t,s_i,w_i)|i=1,…,n}所衍生，其中t代表所述词汇，s_i代表与所述词汇配对的关联词汇，w_i代表(t,s_i)的权重，其中所述知识地图具有广度a，所述广度a代表词汇的分支度数目，且在满足w_i≥a的条件下，所述广度a是可调整的。