CN109189939A - 一种汉字语义知识图谱构建方法、装置、设备、存储介质 - Google Patents
一种汉字语义知识图谱构建方法、装置、设备、存储介质 Download PDFInfo
- Publication number
- CN109189939A CN109189939A CN201811029117.7A CN201811029117A CN109189939A CN 109189939 A CN109189939 A CN 109189939A CN 201811029117 A CN201811029117 A CN 201811029117A CN 109189939 A CN109189939 A CN 109189939A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- knowledge mapping
- chinese
- incidence relation
- establish
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种汉字语义知识图谱构建方法、***、设备、存储介质,属于汉语教育技术领域,该方法包括:建立原始汉字集C;将原始汉字集C进行分类,形成k个子集Si,其中:i=1,2,3...k;获取Si中的每一个汉字sij∈Si的配对字wij,若wij∈C,则建立sij与wij之间的关联关系,若则添加wij到汉字集C,并建立sij与wij之间的关联关系;计算ci与ck的语义相似度Sim(ci,ck),若Sim(ci,ck)大于设定的阈值时,则建立ci与ck之间的关联关系,其中:ci∈C,ck∈C,i≠k;将原始汉字集C中的所有汉字当作结点,将汉字之间的关联关系当作边,形成汉字语义知识图谱并输出。本发明示例的技术方案可快速的构建汉字知识图谱,避免了基于字形辨别学习汉字带来的种种问题。
Description
技术领域
本发明涉及汉语教育技术领域,具体地说是一种汉字语义知识图谱构建方法、装置、设备、存储介质。
背景技术
在汉语对外传播和小学生汉语教育中,对汉字的认识是最基本的要求。但是,目前的汉字学习方法中,初学者主要依靠汉字字形学习,在学习过程中往往碰到极大的障碍,如“肓”和“盲”,“粟”和“栗”等汉字,很难通过字形来掌握。如果在汉字学习中,融入汉字语义的理解,则可以大大提高学习效率,如“片”是和“木”相关的,其语义就是将“木”劈成两半。汉字之间都存在这样的语义关联关系,如果将具有语义关联是汉字连接在一起,形成一个庞大的知识图谱,汉字学习者则可以利用该知识图谱又快又好地掌握大量汉字。
然而,目前还没有好的构建汉字语义知识图谱的方法,给将汉字字义融入汉字学习的推广带来很大的限制。
发明内容
为了解决上述现有技术中存在的问题,本发明的目的在于提供一种汉字语义知识图谱构建方法、装置、设备、存储介质,能够方便快速的构建汉字语义知识图谱,使得学习者从语义上掌握和理解汉字,避免基于字形辨别学习汉字时对形近字辨认带来的障碍。
本发明所采用的技术方案为:
一方面,本发明提供了一种汉字语义知识图谱构建方法,包括以下步骤:
建立原始汉字集C;
将原始汉字集C进行分类,形成k个子集Si,其中:
获取Si中的每一个汉字sij∈Si的配对字wij,若wij∈C,则建立sij与wij之间的关联关系,若则添加wij到汉字集C,并建立sij与wij之间的关联关系;
计算ci与ck的语义相似度Sim(ci,ck),若Sim(ci,ck)大于设定的阈值时,则建立ci与ck之间的关联关系,其中:ci∈C,ck∈C,i≠k;
将原始汉字集C中的所有汉字当作结点,将汉字之间的关联关系当作边,形成汉字语义知识图谱并输出。
进一步的,所述原始汉字集C包括4500~5500个使用频率最高的汉字。
进一步的,所述将原始汉字集C进行分类,包括:按照汉字的偏旁部首进行分类。
进一步的,所述获取Si中的每一个汉字sij∈Si的配对字wij,为通过HowNet的义项实例获取。
进一步的,所述计算ci与ck的语义相似度Sim(ci,ck),为利用HowNet计算。
进一步的,所述设定的阈值为0.25。
另一方面,本发明还提供了一种汉字语义知识图谱构建***,包括:
采集单元,配置用于建立原始汉字集C;
分类单元,配置用于将原始汉字集C进行分类,形成k个子集Si,其中:
关联单元,配置用于获取Si中的每一个汉字sij∈Si的配对字wij,若wij∈C,则建立sij与wij之间的关联关系,若则添加wij到汉字集C,并建立sij与wij之间的关联关系;
运算单元,配置用于计算ci与ck的语义相似度Sim(ci,ck),若Sim(ci,ck)大于设定的阈值时,则建立ci与ck之间的关联关系,其中:ci∈C,ck∈C,i≠k;
输出单元,配置用于将原始汉字集C中的所有汉字当作结点,将汉字之间的关联关系当作边,形成汉字语义知识图谱并输出。
另一方面,本发明还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本发明示例的任一种汉字语义知识图谱构建方法。
另一方面,本发明还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本发明示例的任一种汉字语义知识图谱构建方法。
与现有技术相比,本发明的有益效果为:
1、本发明示例的汉字语义知识图谱构建方法,通过科学合理的方法,快速构建常用汉字的汉字语义知识图谱,可以直观地显示相互关联的汉字,以这些关联汉字为知识群体,可以从语义上掌握和理解汉字,从而有效避免了基于字形辨别学习汉字的问题。
2、本发明示例的汉字语义知识图谱构建方法,原始汉字集为使用频率高的常用汉字组成,贴近汉语的日常生活,更容易掌握;而按偏旁部分进行分类一是因为偏旁部首本身包含语义,二是因为偏旁部首也是目前基于字形的汉字学习方法的基础,该分类方法更具科学合理性,提高学习效率。
3、本发明示例的汉字语义知识图谱构建方法,获取配对字、计算语义相似度等通过HowNet进行,HowNet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,通过HowNet来构建汉字语义知识图谱方便快捷。
4、本发明示例的汉字语义知识图谱构建方法,获取配对字通过HowNet进行,可以扩充汉字知识图谱的实体,获取更多实体之间的关联关系,从而得到更为丰富的语义信息;计算语义相似度等通过HowNet进行,可以直接量化两个汉字之间的语义关联程度,同时可以筛选出对汉字初学者有帮助的、具有语义关联性的汉字。
5、本发明示例的汉字语义知识图谱构建方法,阈值设定为0.25,对使用者的基础要求低,即使初学者也可以使用,适用范围广。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本发明实施例方法的步骤示意图;
图2为本发明实施例基于偏旁部首的初级汉字知识图谱;
图3为本发明实施例基于HowNet扩充后的汉字知识图谱。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,本发明的一个实施例提供了一种汉字语义知识图谱构建方法,包括以下步骤:
S1:建立原始汉字集C;
S2:将原始汉字集C进行分类,形成k个子集Si,其中:
S3:获取Si中的每一个汉字sij∈Si的配对字wij,若wij∈C,则建立sij与wij之间的关联关系,若则添加wij到汉字集C,并建立sij与wij之间的关联关系;
S4:计算ci与ck的语义相似度Sim(ci,ck),若Sim(ci,ck)大于设定的阈值时,则建立ci与ck之间的关联关系,其中:ci∈C,ck∈C,i≠k;
S5:将原始汉字集C中的所有汉字当作结点,将汉字之间的关联关系当作边,形成汉字语义知识图谱并输出。
S1中,原始汉字集C包括4500~5500个使用频率最高的汉字。本实施例中,选用5000个常用汉字,5000常用汉字最贴近汉语的日常生活,使用频率高,更容易掌握。
S2中,将原始汉字集C进行分类时,按照汉字的偏旁部首进行分类。按偏旁部分进行初步分类一是因为偏旁部首本身包含语义,二是因为偏旁部首也是目前基于字形的汉字学习方法的基础。基于偏旁部首的初级汉字知识图谱如图2所示。
S3中,所述获取Si中的每一个汉字sij∈Si的配对字wij,为通过HowNet的义项实例获取,例如:“打”的义项实例有“打饭”、“打球”等,可以扩充汉字知识图谱的实体,获取更多实体之间的关联关系,从而得到更为丰富的语义信息。应当注意的是,wij是通过sij获取的,但是它不一定是属于Si,而是属于原始汉字集C。
S4中,所述计算ci与ck的语义相似度Sim(ci,ck),为利用HowNet计算。通过HowNet的相似度计算可以直接量化两个汉字之间的语义关联程度,同时可以筛选出对汉字初学者有帮助的、具有语义关联性的汉字。基于HowNet扩充后的汉字知识图谱如图3所示。
设定的阈值为0.25,低于0.25对汉字初学者的帮助不明显。
另一方面,本实施例还提供了一种汉字语义知识图谱构建***,包括:
采集单元,配置用于建立原始汉字集C;
分类单元,配置用于将原始汉字集C进行分类,形成k个子集Si,其中:
关联单元,配置用于获取Si中的每一个汉字sij∈Si的配对字wij,若wij∈C,则建立sij与wij之间的关联关系,若则添加wij到汉字集C,并建立sij与wij之间的关联关系;
运算单元,配置用于计算ci与ck的语义相似度Sim(ci,ck),若Sim(ci,ck)大于设定的阈值时,则建立ci与ck之间的关联关系,其中:ci∈C,ck∈C,i≠k;
输出单元,配置用于将原始汉字集C中的所有汉字当作结点,将汉字之间的关联关系当作边,形成汉字语义知识图谱并输出。
另一方面,本实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本实施例的汉字语义知识图谱构建方法。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
此外,本实施例还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本实施例的汉字语义知识图谱构建方法。该计算机可读存储介质可以是上述实施例中所述***或设备中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质,如硬盘、光盘、SD卡等。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
除说明书所述的技术特征外,其余技术特征为本领域技术人员的已知技术,为突出本发明的创新特点,其余技术特征在此不再赘述。
Claims (9)
1.一种汉字语义知识图谱构建方法,其特征在于,包括以下步骤:
建立原始汉字集C;
将原始汉字集C进行分类,形成k个子集Si,其中:
获取Si中的每一个汉字sij∈Si的配对字wij,若wij∈C,则建立sij与wij之间的关联关系,若则添加wij到汉字集C,并建立sij与wij之间的关联关系;
计算ci与ck的语义相似度Sim(ci,ck),若Sim(ci,ck)大于设定的阈值时,则建立ci与ck之间的关联关系,其中:ci∈C,ck∈C,i≠k;
将原始汉字集C中的所有汉字当作结点,将汉字之间的关联关系当作边,形成汉字语义知识图谱并输出。
2.根据权利要求1所述的汉字语义知识图谱构建方法,其特征在于,所述原始汉字集C包括4500~5500个使用频率最高的汉字。
3.根据权利要求1所述的汉字语义知识图谱构建方法,其特征在于,所述将原始汉字集C进行分类,包括:按照汉字的偏旁部首进行分类。
4.根据权利要求1所述的汉字语义知识图谱构建方法,其特征在于,所述获取Si中的每一个汉字sij∈Si的配对字wij,为通过HowNet的义项实例获取。
5.根据权利要求1所述的汉字语义知识图谱构建方法,其特征在于,所述计算ci与ck的语义相似度Sim(ci,ck),为利用HowNet计算。
6.根据权利要求1所述的汉字语义知识图谱构建方法,其特征在于,所述设定的阈值为0.25。
7.一种汉字语义知识图谱构建***,其特征在于,包括:
采集单元,配置用于建立原始汉字集C;
分类单元,配置用于将原始汉字集C进行分类,形成k个子集Si,其中:
关联单元,配置用于获取Si中的每一个汉字sij∈Si的配对字wij,若wij∈C,则建立sij与wij之间的关联关系,若则添加wij到汉字集C,并建立sij与wij之间的关联关系;
运算单元,配置用于计算ci与ck的语义相似度Sim(ci,ck),若Sim(ci,ck)大于设定的阈值时,则建立ci与ck之间的关联关系,其中:ci∈C,ck∈C,i≠k;
输出单元,配置用于将原始汉字集C中的所有汉字当作结点,将汉字之间的关联关系当作边,形成汉字语义知识图谱并输出。
8.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-6任一所述的汉字语义知识图谱构建方法。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-6任一所述的汉字语义知识图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811029117.7A CN109189939A (zh) | 2018-09-05 | 2018-09-05 | 一种汉字语义知识图谱构建方法、装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811029117.7A CN109189939A (zh) | 2018-09-05 | 2018-09-05 | 一种汉字语义知识图谱构建方法、装置、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109189939A true CN109189939A (zh) | 2019-01-11 |
Family
ID=64914612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811029117.7A Pending CN109189939A (zh) | 2018-09-05 | 2018-09-05 | 一种汉字语义知识图谱构建方法、装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189939A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977233A (zh) * | 2019-03-15 | 2019-07-05 | 北京金山数字娱乐科技有限公司 | 一种成语知识图谱构建方法及装置 |
CN111611401A (zh) * | 2020-04-30 | 2020-09-01 | 北京师范大学 | 汉字构形***可视化的方法、***、装置及可读存储介质 |
CN111611400A (zh) * | 2020-04-30 | 2020-09-01 | 北京师范大学 | 训释系联***可视化的方法、***、装置及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462512A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于知识图谱的汉语信息搜索方法和装置 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及*** |
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
CN108376160A (zh) * | 2018-02-12 | 2018-08-07 | 北京大学 | 一种中文知识图谱构建方法和*** |
-
2018
- 2018-09-05 CN CN201811029117.7A patent/CN109189939A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462512A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于知识图谱的汉语信息搜索方法和装置 |
CN106844658A (zh) * | 2017-01-23 | 2017-06-13 | 中山大学 | 一种中文文本知识图谱自动构建方法及*** |
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
CN108376160A (zh) * | 2018-02-12 | 2018-08-07 | 北京大学 | 一种中文知识图谱构建方法和*** |
Non-Patent Citations (1)
Title |
---|
熊晶 等: "甲骨文知识图谱构建中的实体关系发现研究", 《计算机工程与科学》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977233A (zh) * | 2019-03-15 | 2019-07-05 | 北京金山数字娱乐科技有限公司 | 一种成语知识图谱构建方法及装置 |
CN111611401A (zh) * | 2020-04-30 | 2020-09-01 | 北京师范大学 | 汉字构形***可视化的方法、***、装置及可读存储介质 |
CN111611400A (zh) * | 2020-04-30 | 2020-09-01 | 北京师范大学 | 训释系联***可视化的方法、***、装置及可读存储介质 |
CN111611401B (zh) * | 2020-04-30 | 2024-04-02 | 北京师范大学 | 汉字构形***可视化的方法、***、装置及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106372061B (zh) | 基于语义的短文本相似度计算方法 | |
Rastegari et al. | Predictable dual-view hashing | |
Yin et al. | Robust text detection in natural scene images | |
Li et al. | Twiner: named entity recognition in targeted twitter stream | |
Zhang et al. | Automatic synonym extraction using Word2Vec and spectral clustering | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
Dodge et al. | Detecting visual text | |
Wang et al. | Facilitating image search with a scalable and compact semantic mapping | |
CN109189939A (zh) | 一种汉字语义知识图谱构建方法、装置、设备、存储介质 | |
CN104484666A (zh) | 一种基于人机交互的图像高级语义解析的方法 | |
WO2014179634A2 (en) | Hand-drawn sketch recognition | |
CN111460201A (zh) | 一种基于生成性对抗网络的模态一致性跨模态检索方法 | |
WO2013049529A1 (en) | Method and apparatus for unsupervised learning of multi-resolution user profile from text analysis | |
Niu et al. | Knowledge-based topic model for unsupervised object discovery and localization | |
Wang et al. | Representing document as dependency graph for document clustering | |
CN109508460A (zh) | 基于主题聚类的无监督作文跑题检测方法及*** | |
Qin et al. | Feature selection for text classification based on part of speech filter and synonym merge | |
CN112836027A (zh) | 用于确定文本相似度的方法、问答方法及问答*** | |
CN115775349A (zh) | 基于多模态融合的假新闻检测方法和装置 | |
Tian et al. | Automatic image annotation based on Gaussian mixture model considering cross-modal correlations | |
Li et al. | Bi-CMR: Bidirectional reinforcement guided hashing for effective cross-modal retrieval | |
CN113743079A (zh) | 一种基于共现实体交互图的文本相似度计算方法及装置 | |
Yu et al. | Learning cross-modal correlations by exploring inter-word semantics and stacked co-attention | |
Chifu et al. | Unsupervised aspect level sentiment analysis using self-organizing maps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190111 |