CN110347843A - 一种基于知识图谱的中文旅游领域知识服务平台构建方法 - Google Patents
一种基于知识图谱的中文旅游领域知识服务平台构建方法 Download PDFInfo
- Publication number
- CN110347843A CN110347843A CN201910621399.8A CN201910621399A CN110347843A CN 110347843 A CN110347843 A CN 110347843A CN 201910621399 A CN201910621399 A CN 201910621399A CN 110347843 A CN110347843 A CN 110347843A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- entity
- tour field
- attribute
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 238000013135 deep learning Methods 0.000 claims abstract description 9
- 238000007619 statistical method Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 46
- 230000008569 process Effects 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000013500 data storage Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims description 2
- 230000008439 repair process Effects 0.000 claims description 2
- 238000012706 support-vector machine Methods 0.000 claims description 2
- 239000002585 base Substances 0.000 description 15
- 230000008901 benefit Effects 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000013550 semantic technology Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种基于知识图谱的中文旅游领域知识服务平台构建方法,包括从现有的中文百科类知识库中获取结构化旅游知识、知识融合、爬取旅游网站页面数据,通过自定义属性匹配规则对实体Infobox属性进行知识补全、采用斯坦福本体建模工具Protégé构建旅游领域本体、利用D2RQ结合构建的旅游本体将数据转为RDF三元组格式得到旅游领域知识图谱、旅游知识库的Neo4j图数据库存储任务,其中知识融合任务包括使用改进后的深度学习知识表示模型BERT计算实体之间的语义相似度完成实体对齐、基于原则和统计方法进行属性融合、采用多数投票算法进行三元组融合子任务。本发明方便游客获取一站式综合***。
Description
技术领域
本发明属于计算机信息处理领域,具体涉及一种基于知识图谱的中文旅游领域知识服务平台构建方法,该方法融合了认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义web、数据挖掘与机器学***台的转变过程,从而改进用户的旅游体验、实现从信息服务到知识服务、传播旅游文化等目标。
背景技术
知识图谱以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
本体是知识图谱的知识表示基础,可以形式化表示为O={C,H,P,A,I},C为概念集合,像事务性概念和事件类概念,H是概念的上下文关系集合,也称为Taxonomy知识,P是属性集合,描述概念所具有的特征,A是规则集合,描述领域规则,I是实例集合,用来描述实体-属性-值。随着以深度学习为代表的表示学习的发展,面向知识图谱中实体和关系的表示学习也取得了重要的进展。知识表示学习将实体和关系表示为稠密的低维向量,实现了对实体和关系的分布式表示,可以高效地对实体和关系进行计算、缓解知识稀疏、有助于实现知识融合,成为了知识图谱知识融合和知识补全的重要方法。知识图谱分为通用知识图谱和领域知识图谱两类,通用知识图谱包括描写英语词汇层语义关系的WordNet,以构建本体的形式对知识条目进行组织的DBPedia,融合WordNet的概念层次结构和***大量实体数据的YAGO,使用群体智能方法建立的Freebase等,中文通用知识图谱研究可以追溯到采用人工编辑方式构建的HowNet项目,工业界有OpenKG.CN,百度知心,搜狗知立方等,学术界包括清华大学、上海交通大学和复旦大学利用百度百科、互动百科和中文***建立的大规模知识图谱XLore、Zhishi.me和CN-DBpedia。Google于2012年5月发布知识图谱项目,并以此为基础构建下一代智能化搜索引擎,标志着大规模知识在互联网语义搜索中的成功应用。
与通用知识图谱相比,领域知识图谱的构建研究相对较少,领域知识图谱又叫行业知识图谱或垂直知识图谱,面向某一特定领域,可看成是一个基于语义技术的行业知识库,因其基于行业数据构建,有着严格而丰富的数据模式,所以对该领域知识的深度、知识准确性有着更高的要求。英国大英博物馆通过结合语义技术对馆藏各类数据资源进行语义组织,通过语义细化、多媒体资源标注等方式提供知识服务;英国广播公司BBC[Kobilarovet al,2009]在其音乐、体育野生动物等板块定义了知识本体,将新闻转化为机器可读的信息源进行内容管理与报道自动生成。国内领域知识图谱技术的利用有上海图书馆借鉴美国国会数目框架BibFrame[Kroeger et al,2013]对家谱、名人、手稿等资源构建知识体系,打造家谱服务平台为研究者们提供古籍循证服务;中国农科院则聚焦于水稻细分领域,整合论文、专利、新闻等行业资源,构建水稻知识图谱,为科研工作者提供了行业专业知识服务平台。
我国旅游业信息化建设已经有30多年的历史,但是专门针对旅游领域的中文知识图谱还很缺少,严重阻碍了我国旅游文化的发展和传承。而且现有中文领域知识图谱存在面向不同领域的数据模式不同,应用需求也各不相同,没有一套通用的标准和规范来指导构建等问题。
综上所述,迫切需要构建基于知识图谱的中文旅游知识服务平台来组织、管理和利用食、宿、行、游、购、娱等海量旅游知识数据,方便游客获取一站式综合***,同时也更好地传播旅游文化,最终使旅游业从旅游信息服务走向旅游知识服务。
发明内容
本发明的目的在于针对上述现有技术中的问题,提供一种基于知识图谱的中文旅游领域知识服务平台构建方法,从现有的中文百科类知识库中获取结构化旅游知识、知识融合、爬取旅游网站页面数据,通过自定义属性匹配规则对实体Infobox属性进行知识补全、采用斯坦福本体建模工具Protégé构建旅游领域本体、利用D2RQ结合构建的旅游本体将数据转为RDF三元组格式得到旅游领域知识图谱、旅游知识库的Neo4j图数据库存储任务。
为了实现上述目的,本发明采用的技术方案包括以下步骤:
S1、知识获取:从现有的中文百科类知识库中获取结构化旅游知识;
S2、知识融合:先使用深度学习知识表示模型BERT计算实体之间的语义相似度完成实体对齐,再基于原则和统计方法进行属性融合,最后采用多数投票算法进行三元组融合;
S3、爬取旅游网站页面数据,通过属性匹配规则对实体Infobox属性进行知识补全;
S4、本体构建:采用斯坦福本体建模工具Protégé构建旅游领域本体;
S5、利用D2RQ结合旅游领域本体将数据转为RDF三元组格式得到旅游领域知识图谱;
S6、数据存储:将旅游领域知识图谱存储到Neo4j图数据库中;
S7、构建旅游知识服务平台。
所述的步骤S1具体通过以下过程来完成:从现有中文百科类知识库的分类下获取实体结构化知识,所述的中文百科类知识库包括Zhishi.me、CN-DBpedia,其分类包括“旅游”、“观光”、“游玩”,实体结构化知识包括景点、景区、古迹、城市、人物、文物,结构化知识当中的三元组数据包括实体名称、实体简介、实体Infobox属性、实体图片;
最终定义旅游领域实体的属性包括中文名称、开放时间、外文名称、门票价格、地理位置、年代、文保级别、建议游玩时长、适宜游玩季节、所属城市、价值、姓名、出生时间、去世时间、民族、别称、成就、作品、年代、国籍以及籍贯。
所述的步骤S2当中三部分的具体执行过程如下:
1)使用深度学习知识表示模型BERT计算实体之间的语义相似度完成实体对齐的步骤包括:首先,使用Google发布的BERT中文语言模型,通过在其fine-tuning微调阶段设置参数获取输出层的倒数第二层获得实体词向量;然后,根据获得的实体词向量计算不同实体之间的余弦距离,即语义相似度;最后,通过设置阈值,依据语义相似度达到实体对齐的目的;
2)基于原则和统计方法进行属性融合可以选用两种方法,一种方法为从现有中文百科知识库中获取旅游实体Infobox属性,通过使用Python语言编写规则以及统计不同知识库中的同一属性的不同名称表达,最终确定实体Infobox属性内容;另一种方法是将实体和属性看成三元组关系,归为关系抽取问题,通过支持向量机、文本挖掘算法进行属性融合;
3)采用多数投票算法进行三元组融合时,在实体对齐、属性融合后,对实体三元组中包含同一实体和属性的数据进行三元组融合,通过多数投票算法对每一个属性确定唯一属性值。
所述的步骤S3通过以下过程完成:爬取旅游网站页面和百度百科、互动百科、中文***数据,通过属性匹配规则对实体中属性知识缺失的部分进行知识补全。
所述的步骤S4通过以下过程完成:对旅游领域数据中的实体、属性、关系进行归纳总结,确定旅游领域的相关概念和类目的层次结构,定义实体属性和取值范围,并且根据以上知识进行建模汇总出旅游图谱schema模型,采用自顶向下的本体构建方法结合斯坦福大学的本体构建方法,使用本体建模工具Protégé构建完成旅游领域本体。
所述的步骤S5通过以下过程完成:根据W3C的RDB2RDF工作小组制定的R2RML标准,通过编辑和设置映射规则把数据库中的数据映射到自定义的旅游领域本体上,使用D2RQ工具,将关系型数据库中的旅游数据转换成RDF格式的数据,得到旅游领域知识图谱。
利用D2RQ结合构建的旅游领域本体将数据转为RDF三元组格式,得到旅游领域知识图谱通过以下过程实现:首先,将获取到三元组形式的结构化旅游知识通过设计对应的数据库表结构存储到关系型数据库中;其次,使用D2RQ工具,运行命令生成默认的映射文件,根据定义的旅游本体修改映射文件完成把数据库表映射到构建完成的旅游领域本体相应的类上;最后,使用D2RQ工具,运行命令将数据转为RDF格式从而得到旅游领域知识图谱。
所述的步骤S6通过以下过程完成:通过下载RDF导入Neo4j图数据库扩展jar包,修改Neo4j配置文件和创建命名空间前缀,使用命令行将RDF格式的旅游领域知识图谱导入到Neo4j图数据库,完成将旅游领域知识图谱存储到Neo4j图数据库中的过程。
所述步骤S7在旅游领域知识图谱存储完成基础上,后台使用Java编程语言和SpringMVC架构,前台使用JSP动态网页技术和D3.js数据驱动的可视化组件搭建旅游知识服务平台。
与现有技术相比,本发明通过使用改进后的深度学***台能够结合图挖掘计算和知识推理赋能旅游产业从信息服务走向知识服务。
附图说明
图1本发明构建方法的流程示意图;
图2本发明知识融合阶段实体对齐实现流程示意图;
图3本发明旅游知识图谱知识建模schema模型示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
参见图1,本发明基于知识图谱的中文旅游领域知识服务平台构建方法,包括以下步骤:
S1:知识获取:从现有的中文百科知识类知识库中获取结构化旅游知识;
从现有中文百科类知识库Zhishi.me、CN-DBpedia(其官网免费提供RDF三元组格式数据下载,数据包括百度百科、互动百科和中文***知识)的“旅游”、“观光”、“游玩”等分类下获取景点、景区、古迹、城市、人物、文物等实体结构化知识,结构化知识包括:实体名称、实体简介(Abstracts)、实体Infobox属性、实体图片等三元组数据。
最终定义旅游领域实体的属性包括:中文名称、开放时间、外文名称、门票价格、地理位置、年代、文保级别、建议游玩时长、适宜游玩季节、所属城市、价值、姓名、出生时间、去世时间、民族、别称、成就、作品、年代、国籍、籍贯。
S2:知识融合:知识融合过程包括三个部分,分别是使用改进后的深度学习知识表示模型BERT计算实体之间的语义相似度完成实体对齐,使用基于原则和统计方法进行属性融合和采用一种基于多数投票(Majority Voting)算法进行三元组融合。
1.使用改进后的深度学习知识表示模型BERT计算实体之间的语义相似度完成实体对齐;
本发明实体对齐实现过程如图2所示,首先,将S1过程中获取到的实体整理到文本文档中构成数据集,在Linux平台Tensorflow环境下使用Google发布的BERT中文语言模型作为服务(Server)端,在其微调(fine-tuning)阶段设置参数获取输出层的倒数第二层,在Windows平台的客户(Client)端获得实体词向量;其次,根据获得的实体词向量计算不同实体之间的余弦距离,即语义相似度;最后,依据语义相似度达到实体对齐的目的。
2.基于原则和统计方法进行属性融合;
从现有中文百科知识库中获取旅游实体Infobox属性,通过使用Python语言编写规则(正则表达式)和统计不同知识库中的同一属性的不同名称表达(比如:出生日期和出生时间),最终确定实体Infobox属性内容。例如:对于“灵谷寺”的“地理位置”属性值描述有中山陵以东约1.5千米处、南京市中山陵东面1.5公里处和江苏省南京市,根据精确性原则和大多数原则选择第二个作为属性值。
3.采用一种基于多数投票(Majority Voting)算法进行三元组融合;
在上述实体对齐,属性融合之后,对实体三元组中包含同一实体和属性的数据进行三元组融合,通过多数投票(Majority Voting)算法对每一个属性确定唯一属性值。例如:对“西安钟楼”实体中的“建筑年代”属性的属性值描述在百度百科、互动百科、中文***中分别是明洪武十七年(1384年)、明洪武十七年(1384年)、明,根据多数投票算法,我们最终确定唯一三元组数据(西安钟楼,建筑年代,明洪武十七年(1384年))。
S3:爬取旅游网站页面数据,通过自定义属性匹配规则对实体Infobox属性进行知识补全。爬取旅游网站页面和百度百科、互动百科、中文***文本数据,通过自定义属性匹配规则(正则表达式)对实体中属性知识缺失的部分进行知识补全。例如对景区的“地理位置”属性进行补全时的正则匹配模板为“(位于|坐落于|坐落在|位在)[^,|^。]+”,对人物的“别称”属性进行补全时的正则匹配模板为“(人称|俗称|原名|又名|亦名|亦称|笔名|化名)[^,|^。]+”。
S4:本体构建:采用斯坦福本体建模工具Protégé构建旅游领域本体
本发明通过对旅游领域数据中的实体(概念)、属性、关系进行归纳总结,确定了旅游领域的相关概念和类目的层次结构,定义了实体属性和取值范围,并且根据以上知识进行建模汇总出旅游图谱schema模型,接着采用自顶向下的本体构建方法结合斯坦福大学的本体构建“七步法”,使用本体建模工具Protégé构建完成旅游领域本体。具体顶层为旅游,确定三大二级类目:景区、城市、人物,二级类目下又包括:知道、交通方式、景区、饮食、住宿、娱乐、观光、学习;属性取值类型包括整数型(int),字符串(string)、日期型(date)等;实体之间的关系在原有的四种基本关系(part-of:局部与整体的关系、kind-of:父类与子类之间的关系、instance-of:类与实例之间的关系、attribute-of:类的属性,包括对象属性和数据属性)基础之上,根据旅游领域本体任务需要和具体特点定义了其他一些关系,具体包括以下情况:
1.birth-of:定义人物出生日期,可以用于推理人物的年龄以及问答;
2.time-of:定义建议游玩时长,是游客最为关切的问题之一;
3.specialties-of:定义本地特色美食推荐,可以用于问答和饮食语义搜索;
4.accprice-of:定义住宿价格,同样是游客最为关切的问题之一。
本发明的旅游图谱schema模型如图3所示,确定了旅游图谱schema三大二级类目:景区、城市、人物,以及三者之间的关系,展示了部分属性和属性值数据类型。
S5:利用D2RQ结合构建的旅游本体将数据转为RDF三元组格式得到旅游知识图谱。
本发明旅游领域知识图谱的获得具体通过以下过程实现:
根据W3C的RDB2RDF工作小组制定的R2RML标准,通过编辑和设置映射规则把数据库中的数据映射到自己定义的旅游领域本体上。数据库中的表名对应知识图谱中的概念,列名对应属性,列值对应属性值,表间约束对应关系。具体使用D2RQ工具,将关系型数据库中的旅游数据转换成RDF格式的数据,从而得到旅游领域知识图谱。其中利用D2RQ工具结合构建的旅游本体将数据转为RDF三元组格式得到旅游知识图谱通过以下过程实现:
首先,将获取到的(实体,属性,属性值)三元组形式的结构化旅游知识通过设计对应的数据库表结构存储到关系型数据库中;
其次,使用D2RQ工具,运行命令生成默认的映射文件,根据定义的旅游本体修改映射文件完成把数据库表映射到构建完成的旅游领域本体相应的类上;
最后,使用D2RQ工具,运行命令将数据转为RDF格式从而得到旅游领域知识图谱。
S6:将旅游知识库存储到Neo4j图数据库中。
本发明中旅游知识库存储到Neo4j图数据库中具体通过以下过程实现:
通过下载RDF导入Neo4j图数据库扩展jar包,修改Neo4j配置文件和创建命名空间前缀,在Neo4j控制台运行指令将RDF格式的旅游领域知识库导入到Neo4j图数据库,完成将旅游知识库存储到Neo4j图数据库中的过程。
S7:在旅游知识库存储完成基础上构建旅游知识服务平台。
本发明旅游知识服务平台的搭建具体通过以下过程实现:
在旅游知识库存储完成基础上后台使用Java编程语言和SpringMVC架构,前台使用JSP动态网页技术和D3.js数据驱动的可视化组件搭建旅游知识服务平台。
至此,一种基于知识图谱的中文旅游知识服务平台构建方法全部完成。
通过为互联网海量旅游数据添加语义(知识),使数据产生智慧,完成从数据到信息再到知识、最终到智能应用平台的转变过程,实现从信息服务到知识服务、传播旅游文化等目标。
需要说明的是,上述实施例提供的一种基于知识图谱的中文旅游知识服务平台构建方法,仅就上述各功能步骤进行举例说明,实际应用中可以根据需要而将上述步骤进行重新排列组合来完成相应的功能,具体实施例中引入细节的目的不是限制权利要求书的范围,而是帮助理解本发明所述方法。本发明所述技术领域中通常知识者凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,包括步骤:
S1、知识获取:从现有的中文百科类知识库中获取结构化旅游知识;
S2、知识融合:先使用深度学习知识表示模型BERT计算实体之间的语义相似度完成实体对齐,再基于原则和统计方法进行属性融合,最后采用多数投票算法进行三元组融合;
S3、爬取旅游网站页面数据,通过属性匹配规则对实体Infobox属性进行知识补全;
S4、本体构建:采用斯坦福本体建模工具Protégé构建旅游领域本体;
S5、利用D2RQ结合旅游领域本体将数据转为RDF三元组格式得到旅游领域知识图谱;
S6、数据存储:将旅游领域知识图谱存储到Neo4j图数据库中;
S7、构建旅游知识服务平台。
2.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S1具体通过以下过程来完成:从现有中文百科类知识库的分类下获取实体结构化知识,所述的中文百科类知识库包括Zhishi.me、CN-DBpedia,其分类包括“旅游”、“观光”、“游玩”,实体结构化知识包括景点、景区、古迹、城市、人物、文物,结构化知识当中的三元组数据包括实体名称、实体简介、实体Infobox属性、实体图片;
最终定义旅游领域实体的属性包括中文名称、开放时间、外文名称、门票价格、地理位置、年代、文保级别、建议游玩时长、适宜游玩季节、所属城市、价值、姓名、出生时间、去世时间、民族、别称、成就、作品、年代、国籍以及籍贯。
3.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S2当中三部分的具体执行过程如下:
1)使用深度学习知识表示模型BERT计算实体之间的语义相似度完成实体对齐的步骤包括:首先,使用Google发布的BERT中文语言模型,通过在其fine-tuning微调阶段设置参数获取输出层的倒数第二层获得实体词向量;然后,根据获得的实体词向量计算不同实体之间的余弦距离,即语义相似度;最后,通过设置阈值,依据语义相似度达到实体对齐的目的;
2)基于原则和统计方法进行属性融合可以选用两种方法,一种方法为从现有中文百科知识库中获取旅游实体Infobox属性,通过使用Python语言编写规则以及统计不同知识库中的同一属性的不同名称表达,最终确定实体Infobox属性内容;另一种方法是将实体和属性看成三元组关系,归为关系抽取问题,通过支持向量机、文本挖掘算法进行属性融合;
3)采用多数投票算法进行三元组融合时,在实体对齐、属性融合后,对实体三元组中包含同一实体和属性的数据进行三元组融合,通过多数投票算法对每一个属性确定唯一属性值。
4.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S3通过以下过程完成:爬取旅游网站页面和百度百科、互动百科、中文***数据,通过属性匹配规则对实体中属性知识缺失的部分进行知识补全。
5.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S4通过以下过程完成:对旅游领域数据中的实体、属性、关系进行归纳总结,确定旅游领域的相关概念和类目的层次结构,定义实体属性和取值范围,并且根据以上知识进行建模汇总出旅游图谱schema模型,采用自顶向下的本体构建方法结合斯坦福大学的本体构建方法,使用本体建模工具Protégé构建完成旅游领域本体。
6.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S5通过以下过程完成:根据W3C的RDB2RDF工作小组制定的R2RML标准,通过编辑和设置映射规则把数据库中的数据映射到自定义的旅游领域本体上,使用D2RQ工具,将关系型数据库中的旅游数据转换成RDF格式的数据,得到旅游领域知识图谱。
7.根据权利要求6所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,利用D2RQ结合构建的旅游领域本体将数据转为RDF三元组格式,得到旅游领域知识图谱通过以下过程实现:首先,将获取到三元组形式的结构化旅游知识通过设计对应的数据库表结构存储到关系型数据库中;其次,使用D2RQ工具,运行命令生成默认的映射文件,根据定义的旅游本体修改映射文件完成把数据库表映射到构建完成的旅游领域本体相应的类上;最后,使用D2RQ工具,运行命令将数据转为RDF格式从而得到旅游领域知识图谱。
8.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S6通过以下过程完成:通过下载RDF导入Neo4j图数据库扩展jar包,修改Neo4j配置文件和创建命名空间前缀,使用命令行将RDF格式的旅游领域知识图谱导入到Neo4j图数据库,完成将旅游领域知识图谱存储到Neo4j图数据库中的过程。
9.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,步骤S7在旅游领域知识图谱存储完成基础上,后台使用Java编程语言和SpringMVC架构,前台使用JSP动态网页技术和D3.js数据驱动的可视化组件搭建旅游知识服务平台。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621399.8A CN110347843B (zh) | 2019-07-10 | 2019-07-10 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910621399.8A CN110347843B (zh) | 2019-07-10 | 2019-07-10 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110347843A true CN110347843A (zh) | 2019-10-18 |
CN110347843B CN110347843B (zh) | 2022-04-15 |
Family
ID=68175783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910621399.8A Active CN110347843B (zh) | 2019-07-10 | 2019-07-10 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347843B (zh) |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN110928963A (zh) * | 2019-11-28 | 2020-03-27 | 西安理工大学 | 针对运维业务数据表的列级权限知识图谱构建方法 |
CN110990417A (zh) * | 2019-12-13 | 2020-04-10 | 陕西师范大学 | 基于众包的中文旅游领域知识服务平台知识库更新方法 |
CN111191050A (zh) * | 2020-01-03 | 2020-05-22 | 中国建设银行股份有限公司 | 知识图谱本体模型构建的方法和装置 |
CN111241835A (zh) * | 2019-11-15 | 2020-06-05 | 上海景域文化传播股份有限公司 | 基于游客画像的一机游景点游客知识嵌入方法及装置 |
CN111291132A (zh) * | 2020-01-14 | 2020-06-16 | 常州大学 | 面向智慧旅游的文物领域本体构建及分析方法 |
CN111324691A (zh) * | 2020-01-06 | 2020-06-23 | 大连民族大学 | 一种基于知识图谱的少数民族领域智能问答方法 |
CN111538847A (zh) * | 2020-04-16 | 2020-08-14 | 北方民族大学 | 一种宁夏水稻知识图谱构建方法 |
CN111753099A (zh) * | 2020-06-28 | 2020-10-09 | 中国农业科学院农业信息研究所 | 一种基于知识图谱增强档案实体关联度的方法及*** |
CN111753100A (zh) * | 2020-06-30 | 2020-10-09 | 广州小鹏车联网科技有限公司 | 一种针对车载应用的知识图谱生成方法和服务器 |
CN111832282A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN112100395A (zh) * | 2020-08-11 | 2020-12-18 | 淮阴工学院 | 一种专家合作可行性分析方法 |
CN112149423A (zh) * | 2020-10-16 | 2020-12-29 | 中国农业科学院农业信息研究所 | 一种面向领域实体关系联合抽取的语料标注方法及*** |
CN112182241A (zh) * | 2020-09-24 | 2021-01-05 | 四川大学 | 一种空管领域知识图谱的自动化构建方法 |
CN112199515A (zh) * | 2020-11-17 | 2021-01-08 | 西安交通大学 | 一种多形态知识图谱驱动的知识服务创新方法 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
CN112650855A (zh) * | 2020-12-26 | 2021-04-13 | 曙光信息产业股份有限公司 | 知识图谱工程化构建方法、装置、计算机设备和存储介质 |
CN112650821A (zh) * | 2021-01-20 | 2021-04-13 | 济南浪潮高新科技投资发展有限公司 | 一种融合Wikidata的实体对齐方法 |
CN112699248A (zh) * | 2020-12-24 | 2021-04-23 | 厦门市美亚柏科信息股份有限公司 | 一种知识本体构建方法、终端设备及存储介质 |
CN113065003A (zh) * | 2021-04-22 | 2021-07-02 | 国际关系学院 | 一种基于多指标的知识图谱生成方法 |
CN113190689A (zh) * | 2021-05-25 | 2021-07-30 | 广东电网有限责任公司广州供电局 | 一种电力安全知识图谱的构建方法、装置、设备和介质 |
CN113204652A (zh) * | 2021-07-05 | 2021-08-03 | 北京邮电大学 | 知识表示学习方法和装置 |
CN113392220A (zh) * | 2020-10-23 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种知识图谱生成方法、装置、计算机设备及存储介质 |
CN113407688A (zh) * | 2021-06-15 | 2021-09-17 | 西安理工大学 | 一种基于知识图谱的勘察规范智能问答***的建立方法 |
CN113468255A (zh) * | 2021-06-25 | 2021-10-01 | 西安电子科技大学 | 基于知识图谱的社会治安综合治理领域数据融合方法 |
CN113535986A (zh) * | 2021-09-02 | 2021-10-22 | 中国医学科学院医学信息研究所 | 一种应用于医学知识图谱的数据融合方法及装置 |
CN113821647A (zh) * | 2021-11-22 | 2021-12-21 | 山东捷瑞数字科技股份有限公司 | 一种工程机械行业知识图谱构建方法及*** |
CN113901238A (zh) * | 2021-12-07 | 2022-01-07 | 武大吉奥信息技术有限公司 | 一种城市体检指标知识图谱构建方法及*** |
CN114238653A (zh) * | 2021-12-08 | 2022-03-25 | 华东师范大学 | 一种编程教育知识图谱构建、补全与智能问答的方法 |
CN114328980A (zh) * | 2022-03-14 | 2022-04-12 | 来也科技(北京)有限公司 | 结合rpa及ai的知识图谱构建方法、装置、终端及存储介质 |
CN115269931A (zh) * | 2022-09-28 | 2022-11-01 | 深圳技术大学 | 基于业务驱动的轨道交通车站数据图谱***及其构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777274A (zh) * | 2016-06-16 | 2017-05-31 | 北京理工大学 | 一种中文旅游领域知识图谱构建方法及*** |
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
-
2019
- 2019-07-10 CN CN201910621399.8A patent/CN110347843B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777274A (zh) * | 2016-06-16 | 2017-05-31 | 北京理工大学 | 一种中文旅游领域知识图谱构建方法及*** |
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
Non-Patent Citations (1)
Title |
---|
贾中浩等: "旅游知识图谱特征学习的景点推荐", 《智能***学报》 * |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826316B (zh) * | 2019-11-06 | 2021-08-10 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN110826316A (zh) * | 2019-11-06 | 2020-02-21 | 北京交通大学 | 一种应用于裁判文书中敏感信息的识别方法 |
CN111241835A (zh) * | 2019-11-15 | 2020-06-05 | 上海景域文化传播股份有限公司 | 基于游客画像的一机游景点游客知识嵌入方法及装置 |
CN111241835B (zh) * | 2019-11-15 | 2021-12-14 | 上海景域文化传播股份有限公司 | 基于游客画像的一机游景点游客知识嵌入方法及装置 |
CN110928963A (zh) * | 2019-11-28 | 2020-03-27 | 西安理工大学 | 针对运维业务数据表的列级权限知识图谱构建方法 |
CN110928963B (zh) * | 2019-11-28 | 2023-10-24 | 西安理工大学 | 针对运维业务数据表的列级权限知识图谱构建方法 |
CN110990417A (zh) * | 2019-12-13 | 2020-04-10 | 陕西师范大学 | 基于众包的中文旅游领域知识服务平台知识库更新方法 |
CN111191050A (zh) * | 2020-01-03 | 2020-05-22 | 中国建设银行股份有限公司 | 知识图谱本体模型构建的方法和装置 |
CN111191050B (zh) * | 2020-01-03 | 2023-07-04 | 中国建设银行股份有限公司 | 知识图谱本体模型构建的方法和装置 |
CN111324691A (zh) * | 2020-01-06 | 2020-06-23 | 大连民族大学 | 一种基于知识图谱的少数民族领域智能问答方法 |
CN111291132A (zh) * | 2020-01-14 | 2020-06-16 | 常州大学 | 面向智慧旅游的文物领域本体构建及分析方法 |
CN111291132B (zh) * | 2020-01-14 | 2024-04-02 | 常州大学 | 面向智慧旅游的文物领域本体构建及分析方法 |
CN111538847A (zh) * | 2020-04-16 | 2020-08-14 | 北方民族大学 | 一种宁夏水稻知识图谱构建方法 |
CN111753099B (zh) * | 2020-06-28 | 2023-11-21 | 中国农业科学院农业信息研究所 | 一种基于知识图谱增强档案实体关联度的方法及*** |
CN111753099A (zh) * | 2020-06-28 | 2020-10-09 | 中国农业科学院农业信息研究所 | 一种基于知识图谱增强档案实体关联度的方法及*** |
CN111753100A (zh) * | 2020-06-30 | 2020-10-09 | 广州小鹏车联网科技有限公司 | 一种针对车载应用的知识图谱生成方法和服务器 |
CN111832282A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN112100395A (zh) * | 2020-08-11 | 2020-12-18 | 淮阴工学院 | 一种专家合作可行性分析方法 |
CN112100395B (zh) * | 2020-08-11 | 2024-03-29 | 淮阴工学院 | 一种专家合作可行性分析方法 |
CN112182241A (zh) * | 2020-09-24 | 2021-01-05 | 四川大学 | 一种空管领域知识图谱的自动化构建方法 |
CN112149423B (zh) * | 2020-10-16 | 2024-01-26 | 中国农业科学院农业信息研究所 | 一种面向领域实体关系联合抽取的语料标注方法及*** |
CN112149423A (zh) * | 2020-10-16 | 2020-12-29 | 中国农业科学院农业信息研究所 | 一种面向领域实体关系联合抽取的语料标注方法及*** |
CN113392220A (zh) * | 2020-10-23 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种知识图谱生成方法、装置、计算机设备及存储介质 |
CN113392220B (zh) * | 2020-10-23 | 2024-03-26 | 腾讯科技(深圳)有限公司 | 一种知识图谱生成方法、装置、计算机设备及存储介质 |
CN112199515A (zh) * | 2020-11-17 | 2021-01-08 | 西安交通大学 | 一种多形态知识图谱驱动的知识服务创新方法 |
CN112199515B (zh) * | 2020-11-17 | 2023-08-15 | 西安交通大学 | 一种多形态知识图谱驱动的知识服务创新方法 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
CN112612902B (zh) * | 2020-12-23 | 2023-07-14 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
CN112699248A (zh) * | 2020-12-24 | 2021-04-23 | 厦门市美亚柏科信息股份有限公司 | 一种知识本体构建方法、终端设备及存储介质 |
CN112699248B (zh) * | 2020-12-24 | 2022-09-16 | 厦门市美亚柏科信息股份有限公司 | 一种知识本体构建方法、终端设备及存储介质 |
CN112650855A (zh) * | 2020-12-26 | 2021-04-13 | 曙光信息产业股份有限公司 | 知识图谱工程化构建方法、装置、计算机设备和存储介质 |
CN112650855B (zh) * | 2020-12-26 | 2022-09-13 | 曙光信息产业股份有限公司 | 知识图谱工程化构建方法、装置、计算机设备和存储介质 |
CN112650821A (zh) * | 2021-01-20 | 2021-04-13 | 济南浪潮高新科技投资发展有限公司 | 一种融合Wikidata的实体对齐方法 |
CN113065003A (zh) * | 2021-04-22 | 2021-07-02 | 国际关系学院 | 一种基于多指标的知识图谱生成方法 |
CN113190689A (zh) * | 2021-05-25 | 2021-07-30 | 广东电网有限责任公司广州供电局 | 一种电力安全知识图谱的构建方法、装置、设备和介质 |
CN113190689B (zh) * | 2021-05-25 | 2023-04-18 | 广东电网有限责任公司广州供电局 | 一种电力安全知识图谱的构建方法、装置、设备和介质 |
CN113407688A (zh) * | 2021-06-15 | 2021-09-17 | 西安理工大学 | 一种基于知识图谱的勘察规范智能问答***的建立方法 |
CN113407688B (zh) * | 2021-06-15 | 2022-09-16 | 西安理工大学 | 一种基于知识图谱的勘察规范智能问答***的建立方法 |
CN113468255A (zh) * | 2021-06-25 | 2021-10-01 | 西安电子科技大学 | 基于知识图谱的社会治安综合治理领域数据融合方法 |
CN113204652A (zh) * | 2021-07-05 | 2021-08-03 | 北京邮电大学 | 知识表示学习方法和装置 |
CN113204652B (zh) * | 2021-07-05 | 2021-09-07 | 北京邮电大学 | 知识表示学习方法和装置 |
CN113535986A (zh) * | 2021-09-02 | 2021-10-22 | 中国医学科学院医学信息研究所 | 一种应用于医学知识图谱的数据融合方法及装置 |
CN113535986B (zh) * | 2021-09-02 | 2023-05-05 | 中国医学科学院医学信息研究所 | 一种应用于医学知识图谱的数据融合方法及装置 |
CN113821647B (zh) * | 2021-11-22 | 2022-02-22 | 山东捷瑞数字科技股份有限公司 | 一种工程机械行业知识图谱构建方法及*** |
CN113821647A (zh) * | 2021-11-22 | 2021-12-21 | 山东捷瑞数字科技股份有限公司 | 一种工程机械行业知识图谱构建方法及*** |
CN113901238A (zh) * | 2021-12-07 | 2022-01-07 | 武大吉奥信息技术有限公司 | 一种城市体检指标知识图谱构建方法及*** |
CN114238653A (zh) * | 2021-12-08 | 2022-03-25 | 华东师范大学 | 一种编程教育知识图谱构建、补全与智能问答的方法 |
CN114238653B (zh) * | 2021-12-08 | 2024-05-24 | 华东师范大学 | 一种编程教育知识图谱构建、补全与智能问答的方法 |
CN114328980A (zh) * | 2022-03-14 | 2022-04-12 | 来也科技(北京)有限公司 | 结合rpa及ai的知识图谱构建方法、装置、终端及存储介质 |
CN115269931A (zh) * | 2022-09-28 | 2022-11-01 | 深圳技术大学 | 基于业务驱动的轨道交通车站数据图谱***及其构建方法 |
CN115269931B (zh) * | 2022-09-28 | 2022-11-29 | 深圳技术大学 | 基于业务驱动的轨道交通车站数据图谱***及其构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110347843B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347843A (zh) | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 | |
CN107679661B (zh) | 一种基于知识图谱的个性化旅游路线规划方法 | |
Scheider et al. | Geo-analytical question-answering with GIS | |
Zeng et al. | Knowledge Organization Systems (KOS) in the Semantic Web: a multi-dimensional review | |
Stuckenschmidt et al. | Information sharing on the semantic web | |
CN109597855A (zh) | 基于大数据驱动的领域知识图谱构建方法及*** | |
CN109657074B (zh) | 基于地址树的新闻知识图谱构建方法 | |
CN107391706A (zh) | 一种基于移动互联网的城市旅游问答*** | |
CN110110173A (zh) | 搜索结果排名和呈现 | |
CN104903886A (zh) | 基于社交图谱信息的结构化搜索查询 | |
Abdelmoty et al. | A critical evaluation of ontology languages for geographic information retrieval on the Internet | |
CN109949174B (zh) | 一种异构社交网络用户实体锚链接识别方法 | |
CN109086434A (zh) | 一种基于主题图的知识聚合方法及*** | |
CN104765763B (zh) | 一种基于概念格的异构空间信息服务分类的语义匹配方法 | |
CN105608118B (zh) | 基于用户交互信息的结果推送方法 | |
Fonseca et al. | Automatic representation of geographical data from a semantic point of view through a new ontology and classification techniques | |
CN112069306B (zh) | 一种基于作者著作树和图神经网络的论文合作者推荐方法 | |
Liang | Intelligent Tourism Personalized Recommendation Based on Multi‐Fusion of Clustering Algorithms | |
Zhu et al. | Multiobjective sensor ontology matching technique with user preference metrics | |
Xie et al. | Construction of multimodal chinese tourism knowledge graph | |
CN116595139A (zh) | 一种基于多模态知识图谱的智能问答方法 | |
Tang et al. | Visual and language semantic hybrid enhancement and complementary for video description | |
Zeng et al. | Active recommendation of tourist attractions based on visitors interests and semantic relatedness | |
Zhao | A resource sharing system for music education using the entropy technology | |
Laddha et al. | Semantic tourism information retrieval interface |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |