CN109189939A

CN109189939A - 一种汉字语义知识图谱构建方法、装置、设备、存储介质

Info

Publication number: CN109189939A
Application number: CN201811029117.7A
Authority: CN
Inventors: 熊晶; 高峰; 史小松; 焦清局; 吴琴霞; 刘永革
Original assignee: Anyang Normal University
Current assignee: Anyang Normal University
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-01-11

Abstract

本发明公开了一种汉字语义知识图谱构建方法、***、设备、存储介质，属于汉语教育技术领域，该方法包括：建立原始汉字集C；将原始汉字集C进行分类，形成k个子集S_i，其中：i＝1,2,3...k；获取S_i中的每一个汉字s_ij∈S_i的配对字w_ij，若w_ij∈C，则建立s_ij与w_ij之间的关联关系，若则添加w_ij到汉字集C，并建立s_ij与w_ij之间的关联关系；计算c_i与c_k的语义相似度Sim(c_i,c_k),若Sim(c_i,c_k)大于设定的阈值时，则建立c_i与c_k之间的关联关系，其中：c_i∈C，c_k∈C，i≠k；将原始汉字集C中的所有汉字当作结点，将汉字之间的关联关系当作边，形成汉字语义知识图谱并输出。本发明示例的技术方案可快速的构建汉字知识图谱，避免了基于字形辨别学习汉字带来的种种问题。

Description

一种汉字语义知识图谱构建方法、装置、设备、存储介质

技术领域

本发明涉及汉语教育技术领域，具体地说是一种汉字语义知识图谱构建方法、装置、设备、存储介质。

背景技术

在汉语对外传播和小学生汉语教育中，对汉字的认识是最基本的要求。但是，目前的汉字学习方法中，初学者主要依靠汉字字形学习，在学习过程中往往碰到极大的障碍，如“肓”和“盲”，“粟”和“栗”等汉字，很难通过字形来掌握。如果在汉字学习中，融入汉字语义的理解，则可以大大提高学习效率，如“片”是和“木”相关的，其语义就是将“木”劈成两半。汉字之间都存在这样的语义关联关系，如果将具有语义关联是汉字连接在一起，形成一个庞大的知识图谱，汉字学习者则可以利用该知识图谱又快又好地掌握大量汉字。

然而，目前还没有好的构建汉字语义知识图谱的方法，给将汉字字义融入汉字学习的推广带来很大的限制。

发明内容

为了解决上述现有技术中存在的问题，本发明的目的在于提供一种汉字语义知识图谱构建方法、装置、设备、存储介质，能够方便快速的构建汉字语义知识图谱，使得学习者从语义上掌握和理解汉字，避免基于字形辨别学习汉字时对形近字辨认带来的障碍。

本发明所采用的技术方案为：

一方面，本发明提供了一种汉字语义知识图谱构建方法，包括以下步骤：

建立原始汉字集C；

将原始汉字集C进行分类，形成k个子集S_i，其中：

获取S_i中的每一个汉字s_ij∈S_i的配对字w_ij，若w_ij∈C，则建立s_ij与w_ij之间的关联关系，若则添加w_ij到汉字集C，并建立s_ij与w_ij之间的关联关系；

计算c_i与c_k的语义相似度Sim(c_i,c_k),若Sim(c_i,c_k)大于设定的阈值时，则建立c_i与c_k之间的关联关系，其中：c_i∈C，c_k∈C，i≠k；

将原始汉字集C中的所有汉字当作结点，将汉字之间的关联关系当作边，形成汉字语义知识图谱并输出。

进一步的，所述原始汉字集C包括4500～5500个使用频率最高的汉字。

进一步的，所述将原始汉字集C进行分类，包括：按照汉字的偏旁部首进行分类。

进一步的，所述获取S_i中的每一个汉字s_ij∈S_i的配对字w_ij，为通过HowNet的义项实例获取。

进一步的，所述计算c_i与c_k的语义相似度Sim(c_i,c_k),为利用HowNet计算。

进一步的，所述设定的阈值为0.25。

另一方面，本发明还提供了一种汉字语义知识图谱构建***，包括：

采集单元，配置用于建立原始汉字集C；

分类单元，配置用于将原始汉字集C进行分类，形成k个子集S_i，其中：

关联单元，配置用于获取S_i中的每一个汉字s_ij∈S_i的配对字w_ij，若w_ij∈C，则建立s_ij与w_ij之间的关联关系，若则添加w_ij到汉字集C，并建立s_ij与w_ij之间的关联关系；

运算单元，配置用于计算c_i与c_k的语义相似度Sim(c_i,c_k),若Sim(c_i,c_k)大于设定的阈值时，则建立c_i与c_k之间的关联关系，其中：c_i∈C，c_k∈C，i≠k；

输出单元，配置用于将原始汉字集C中的所有汉字当作结点，将汉字之间的关联关系当作边，形成汉字语义知识图谱并输出。

另一方面，本发明还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行本发明示例的任一种汉字语义知识图谱构建方法。

另一方面，本发明还提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现本发明示例的任一种汉字语义知识图谱构建方法。

与现有技术相比，本发明的有益效果为：

1、本发明示例的汉字语义知识图谱构建方法，通过科学合理的方法，快速构建常用汉字的汉字语义知识图谱，可以直观地显示相互关联的汉字，以这些关联汉字为知识群体，可以从语义上掌握和理解汉字，从而有效避免了基于字形辨别学习汉字的问题。

2、本发明示例的汉字语义知识图谱构建方法，原始汉字集为使用频率高的常用汉字组成，贴近汉语的日常生活，更容易掌握；而按偏旁部分进行分类一是因为偏旁部首本身包含语义，二是因为偏旁部首也是目前基于字形的汉字学习方法的基础，该分类方法更具科学合理性，提高学习效率。

3、本发明示例的汉字语义知识图谱构建方法，获取配对字、计算语义相似度等通过HowNet进行，HowNet是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库，通过HowNet来构建汉字语义知识图谱方便快捷。

4、本发明示例的汉字语义知识图谱构建方法，获取配对字通过HowNet进行，可以扩充汉字知识图谱的实体，获取更多实体之间的关联关系，从而得到更为丰富的语义信息；计算语义相似度等通过HowNet进行，可以直接量化两个汉字之间的语义关联程度，同时可以筛选出对汉字初学者有帮助的、具有语义关联性的汉字。

5、本发明示例的汉字语义知识图谱构建方法，阈值设定为0.25，对使用者的基础要求低，即使初学者也可以使用，适用范围广。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本发明实施例方法的步骤示意图；

图2为本发明实施例基于偏旁部首的初级汉字知识图谱；

图3为本发明实施例基于HowNet扩充后的汉字知识图谱。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本发明的一个实施例提供了一种汉字语义知识图谱构建方法，包括以下步骤：

S1：建立原始汉字集C；

S2：将原始汉字集C进行分类，形成k个子集S_i，其中：

S3：获取S_i中的每一个汉字s_ij∈S_i的配对字w_ij，若w_ij∈C，则建立s_ij与w_ij之间的关联关系，若则添加w_ij到汉字集C，并建立s_ij与w_ij之间的关联关系；

S4：计算c_i与c_k的语义相似度Sim(c_i,c_k),若Sim(c_i,c_k)大于设定的阈值时，则建立c_i与c_k之间的关联关系，其中：c_i∈C，c_k∈C，i≠k；

S5：将原始汉字集C中的所有汉字当作结点，将汉字之间的关联关系当作边，形成汉字语义知识图谱并输出。

S1中，原始汉字集C包括4500～5500个使用频率最高的汉字。本实施例中，选用5000个常用汉字，5000常用汉字最贴近汉语的日常生活，使用频率高，更容易掌握。

S2中，将原始汉字集C进行分类时，按照汉字的偏旁部首进行分类。按偏旁部分进行初步分类一是因为偏旁部首本身包含语义，二是因为偏旁部首也是目前基于字形的汉字学习方法的基础。基于偏旁部首的初级汉字知识图谱如图2所示。

S3中，所述获取S_i中的每一个汉字s_ij∈S_i的配对字w_ij，为通过HowNet的义项实例获取，例如：“打”的义项实例有“打饭”、“打球”等，可以扩充汉字知识图谱的实体，获取更多实体之间的关联关系，从而得到更为丰富的语义信息。应当注意的是，w_ij是通过s_ij获取的，但是它不一定是属于S_i，而是属于原始汉字集C。

S4中，所述计算c_i与c_k的语义相似度Sim(c_i,c_k),为利用HowNet计算。通过HowNet的相似度计算可以直接量化两个汉字之间的语义关联程度，同时可以筛选出对汉字初学者有帮助的、具有语义关联性的汉字。基于HowNet扩充后的汉字知识图谱如图3所示。

设定的阈值为0.25，低于0.25对汉字初学者的帮助不明显。

另一方面，本实施例还提供了一种汉字语义知识图谱构建***，包括：

采集单元，配置用于建立原始汉字集C；

另一方面，本实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行本实施例的汉字语义知识图谱构建方法。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

此外，本实施例还提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现本实施例的汉字语义知识图谱构建方法。该计算机可读存储介质可以是上述实施例中所述***或设备中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质，如硬盘、光盘、SD卡等。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

除说明书所述的技术特征外，其余技术特征为本领域技术人员的已知技术，为突出本发明的创新特点，其余技术特征在此不再赘述。

Claims

1.一种汉字语义知识图谱构建方法，其特征在于，包括以下步骤：

建立原始汉字集C；

将原始汉字集C进行分类，形成k个子集S_i，其中：

2.根据权利要求1所述的汉字语义知识图谱构建方法，其特征在于，所述原始汉字集C包括4500～5500个使用频率最高的汉字。

3.根据权利要求1所述的汉字语义知识图谱构建方法，其特征在于，所述将原始汉字集C进行分类，包括：按照汉字的偏旁部首进行分类。

4.根据权利要求1所述的汉字语义知识图谱构建方法，其特征在于，所述获取S_i中的每一个汉字s_ij∈S_i的配对字w_ij，为通过HowNet的义项实例获取。

5.根据权利要求1所述的汉字语义知识图谱构建方法，其特征在于，所述计算c_i与c_k的语义相似度Sim(c_i,c_k),为利用HowNet计算。

6.根据权利要求1所述的汉字语义知识图谱构建方法，其特征在于，所述设定的阈值为0.25。

7.一种汉字语义知识图谱构建***，其特征在于，包括：

采集单元，配置用于建立原始汉字集C；

8.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-6任一所述的汉字语义知识图谱构建方法。

9.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-6任一所述的汉字语义知识图谱构建方法。