CN110674313B - 一种基于用户日志动态更新知识图谱的方法 - Google Patents

一种基于用户日志动态更新知识图谱的方法 Download PDF

Info

Publication number
CN110674313B
CN110674313B CN201910893691.5A CN201910893691A CN110674313B CN 110674313 B CN110674313 B CN 110674313B CN 201910893691 A CN201910893691 A CN 201910893691A CN 110674313 B CN110674313 B CN 110674313B
Authority
CN
China
Prior art keywords
entity
entities
cold
knowledge graph
hot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910893691.5A
Other languages
English (en)
Other versions
CN110674313A (zh
Inventor
唐娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201910893691.5A priority Critical patent/CN110674313B/zh
Publication of CN110674313A publication Critical patent/CN110674313A/zh
Application granted granted Critical
Publication of CN110674313B publication Critical patent/CN110674313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户日志动态更新知识图谱的方法,包括:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;遍历用户的请求日志,基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型;并按照请求类别和实体类别分别统计访问量;根据实体访问量和现有的影视知识图谱,得到热门实体、冷门实体和缺失实体;从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新;将得到的缺失实体新增至知识图谱,以及清理冷门实体。本发明基于用户日志中确定需要更新的实体并进行更新,能有效减少处理的数据量。

Description

一种基于用户日志动态更新知识图谱的方法
技术领域
本发明涉及知识图谱技术领域,具体的说,是一种基于用户日志动态更新知识图谱的方法。
背景技术
传统的搜索引擎主要是基于关键字搜索相关网页,再由用户人工从一堆候选网页中寻找有用的信息,随着互联网技术的飞速发展,这种传统的搜索引擎已经日渐无法满足人们的需求,人们对搜索有了更高的期望。在此背景下,知识图谱也就应运而生了,它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,描述了真实世界中存在的各种实体和概念,及实体、概念之间的关联关系,从而改善了搜索结果。即随着时间的推移,知识图谱中的实体和关系都有可能发生变化,例如影视剧领域相关的新演员、新影片、新角色、演员间关系等等,因此需要对知识图谱中的知识进行不断更新。传统的知识图谱更新方法主要是对所有实体的信息全部进行更新,导致知识图谱更新周期较长,且部分不需要的实体也被频繁更新。
发明内容
本发明的目的在于提供一种基于用户日志动态更新知识图谱的方法,用于解决现有技术中现有知识图谱全网更新所存在的数据量大、无需更新的实体也被频繁更新的问题。
本发明通过下述技术方案解决上述问题:
一种基于用户日志动态更新知识图谱的方法,包括:
步骤A:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;
步骤B:遍历用户的请求日志,基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型;并按照请求类别和实体类别分别统计访问量,并记作实体集E1,
E1={(e1,t1,n11),(e1,t2,n12),(e2,t3,n23),…,(ei,tj,nij),…(en,tm,nnm)},其中三元组(ei,tj,nij)表示实体名为ei且实体类别为tj的实体的用户访问量nij
步骤C:根据实体访问量和现有的影视知识图谱,得到热门实体、冷门实体和缺失实体;
步骤D:从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;
步骤E:将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新;
步骤F:将得到的缺失实体新增至知识图谱,以及清理冷门实体。
进一步地,所述步骤C具体为:
设定热门阈值THRsp和冷门阈值THRunsp,令现有知识图谱中的实体集:
E2={(e1,t1),(e1,t2),(e2,t3),…,(ei,tj),…,(eh,tk)},其中二元组(ei,tj)表示实体名为ei且实体类别为tj的实体;
遍历所得到的实体集E1中的三元组(en,tm,nnm),判断:
若nij≥THRsp且(ei,tj)∈E2,则记该实体为热门实体;
若nij≤THRunsp且(ei,tj)∈E2,则记该实体为冷门实体;
若nij>THRunsp
Figure BDA0002209576320000021
则记该实体为缺失实体。
进一步地,所述步骤D具体为:
步骤D1:将缺失实体标记为待爬取,判断热门实体的实体类型,并根据预设规则将其标记为待爬取或者不爬取;
步骤D2:对标记为带爬取的实体,从垂直网站爬取实体信息;
步骤D3:将爬取的数据格式化,用于与知识图谱中已有数据匹配。
进一步地,所述步骤E具体为:
设定实体相似度阈值THRstm
计算实体属性值相似度的加权平均值作为实体的相似度,所述属性值包括用于区分不同实体的一个或者多个属性;
遍历获取的热门实体,计算其与现有知识图谱中实体的相似度;
选择相似度≥THRstm且相似度最大的实体作为该热门实体的匹配实体,并对匹配实体的属性值进行更新。
进一步地,所述步骤F中将缺失实体新增至知识图谱的步骤为:
将缺失实体与现有知识图谱中的实体进行匹配,如不存在匹配实体,曾将缺失实体新增至知识图谱,若已存在匹配实体,且实体的访问量≥THRsp,则对已有实体进行更新。
进一步地,所述步骤F中清理冷门实体的步骤为:对冷门实体增加标志其冷门的标记字段,若连续多次更新知识图谱时该实体均为冷门实体,则将该冷门实体从影视知识图谱中删除。
本发明与现有技术相比,具有以下优点及有益效果:
本发明基于用户使用电视过程中能体现用户真实需求的用户日志中,确定知识图谱中需要更新的实体并对相应实体进行更新,能有效减少知识图谱更新所需处理的数据量,也能兼顾用户的真实需求。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种基于用户日志动态更新知识图谱的方法,包括:
步骤A:用户日志的收集:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;
步骤B:基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型,可以使用Bi-LSTM+CRF模型(Bi-LSTM:Bi-directional Long Short-Term Memory,双向长短期记忆网络;CRF:Conditional Random Field,条件随机场)来进行命名实体标注;遍历用户的请求日志,并按照请求类别和实体类别分别统计访问量,并记作实体集E1,
E1={(e1,t1,n11),(e1,t2,n12),(e2,t3,n23),…,(ei,tj,nij),…,(en,tm,nnm)},其中三元组(ei,tj,nij)表示实体名为ei且实体类别为tj的实体的用户访问量nij
步骤C:根据实体访问量和现有的影视知识图谱,得到热门实体、冷门实体和缺失实体:
设定热门阈值THRsp和冷门阈值THRunsp,令现有知识图谱中的实体集:
E2={(e1,t1),(e1,t2),(e2,t3),,(ei,tj),…,(eh,tk)},其中二元组(ei,tj)表示实体名为ei且实体类别为tj的实体;
遍历所得到的实体集E1中的三元组(en,tm,nnm),判断:
若nij≥THRsp且(ei,tj)∈E2,则记该实体为热门实体;
若nij≤THRunsp且(ei,tj)∈E2,则记该实体为冷门实体;
若nij>THRunsp
Figure BDA0002209576320000041
则记该实体为缺失实体;
步骤D:从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;
步骤D1:将缺失实体标记为待爬取,判断热门实体的实体类型,并根据预设规则将其标记为待爬取或者不爬取;
步骤D2:对标记为带爬取的实体,从垂直网站爬取实体信息;
步骤D3:将爬取的数据格式化,用于与知识图谱中已有数据匹配;
步骤E:将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新:设定实体相似度阈值THRstm
计算实体属性值相似度的加权平均值作为实体的相似度,所述属性值包括用于区分不同实体的一个或者多个属性;
遍历获取的热门实体,计算其与现有知识图谱中实体的相似度;
选择相似度≥THRstm且相似度最大的实体作为该热门实体的匹配实体,并对匹配实体的属性值进行更新;
步骤F:将得到的缺失实体新增至知识图谱,以及清理冷门实体。
将缺失实体新增至知识图谱的步骤为:将缺失实体与现有知识图谱中的实体进行匹配,如不存在匹配实体,曾将缺失实体新增至知识图谱,若已存在匹配实体,且实体的访问量≥THRsp,则对已有实体进行更新。
清理冷门实体的步骤为:对冷门实体增加标志其冷门的标记字段,若连续多次更新知识图谱时该实体均为冷门实体,则将该冷门实体从影视知识图谱中删除。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (3)

1.一种基于用户日志动态更新知识图谱的方法,其特征在于,包括:
步骤A:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;
步骤B:遍历用户的请求日志,基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型;并按照请求类别和实体类别分别统计访问量,并记作实体集E1,
则E1={(e1,t1,n11),(e1,t2,n12),(e2,t3,n23),…,(ei,tj,nij),…(en,tm,nnm)},其中三元组(ei,tj,nij)表示实体名为ei且实体类别为tj的实体的用户访问量nij
步骤C:根据实体访问量和现有的影视知识图谱,得到热门实体、冷门实体和缺失实体;
步骤D:从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;
步骤E:将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新;
步骤F:将得到的缺失实体新增至知识图谱,以及清理冷门实体;
所述步骤C具体为:
设定热门阈值THRsp和冷门阈值THRunsp,令现有知识图谱中的实体集:
E2={(e1,t1),(e1,t2),(e2,t3),…,(ei,tj),…,(eh,tk)},其中二元组(ei,tj)表示实体名为ei且实体类别为tj的实体;
遍历所得到的实体集E1中的三元组(en,tm,nnm),判断:
若nij≥THRsp且(ei,tj)∈E2,则记该实体为热门实体;
若nij≤THRunsp且(ei,tj)∈E2,则记该实体为冷门实体;
若nij>THRunsp
Figure FDA0003902759720000011
则记该实体为缺失实体;
所述步骤D具体为:
步骤D1:将缺失实体标记为待爬取,判断热门实体的实体类型,并根据预设规则将其标记为待爬取或者不爬取;
步骤D2:对标记为待爬取的实体,从垂直网站爬取实体信息;
步骤D3:将爬取的数据格式化,用于与知识图谱中已有数据匹配;
所述步骤E具体为:
设定实体相似度阈值THRstm
计算实体属性值相似度的加权平均值作为实体的相似度,所述属性值包括用于区分不同实体的一个或者多个属性;
遍历获取的热门实体,计算其与现有知识图谱中实体的相似度;
选择相似度≥THRstm且相似度最大的实体作为该热门实体的匹配实体,并对匹配实体的属性值进行更新。
2.根据权利要求1所述的一种基于用户日志动态更新知识图谱的方法,其特征在于,所述步骤F中将缺失实体新增至知识图谱的步骤为:
将缺失实体与现有知识图谱中的实体进行匹配,如不存在匹配实体,曾将缺失实体新增至知识图谱,若已存在匹配实体,且实体的访问量≥THRsp,则对已有实体进行更新。
3.根据权利要求1所述的一种基于用户日志动态更新知识图谱的方法,其特征在于,所述步骤F中清理冷门实体的步骤为:对冷门实体增加标志其冷门的标记字段,若连续多次更新知识图谱时该实体均为冷门实体,则将该冷门实体从影视知识图谱中删除。
CN201910893691.5A 2019-09-20 2019-09-20 一种基于用户日志动态更新知识图谱的方法 Active CN110674313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910893691.5A CN110674313B (zh) 2019-09-20 2019-09-20 一种基于用户日志动态更新知识图谱的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910893691.5A CN110674313B (zh) 2019-09-20 2019-09-20 一种基于用户日志动态更新知识图谱的方法

Publications (2)

Publication Number Publication Date
CN110674313A CN110674313A (zh) 2020-01-10
CN110674313B true CN110674313B (zh) 2022-12-13

Family

ID=69077031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910893691.5A Active CN110674313B (zh) 2019-09-20 2019-09-20 一种基于用户日志动态更新知识图谱的方法

Country Status (1)

Country Link
CN (1) CN110674313B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579707B (zh) * 2020-12-08 2023-04-18 西安邮电大学 一种日志数据的知识图谱构建方法
CN114021028A (zh) * 2021-10-28 2022-02-08 四川启睿克科技有限公司 一种智能交互***中实体相对热度获取方法
CN114168608B (zh) * 2021-12-16 2022-07-15 中科雨辰科技有限公司 一种用于更新知识图谱的数据处理***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答***及方法
CN107807957A (zh) * 2017-09-30 2018-03-16 北京奇虎科技有限公司 实体库生成方法及装置
CN108920588A (zh) * 2018-06-26 2018-11-30 北京光年无限科技有限公司 一种用于人机交互的知识图谱更新方法及***
CN110019840A (zh) * 2018-07-20 2019-07-16 腾讯科技(深圳)有限公司 一种知识图谱中实体更新的方法、装置和服务器

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003227310A1 (en) * 2002-04-05 2003-10-20 Lisa Seeman Networked accessibility enhancer system
US20150169758A1 (en) * 2013-12-17 2015-06-18 Luigi ASSOM Multi-partite graph database
US20180366013A1 (en) * 2014-08-28 2018-12-20 Ideaphora India Private Limited System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
CN104484459B (zh) * 2014-12-29 2019-07-23 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
US20200226133A1 (en) * 2016-10-18 2020-07-16 Hithink Financial Services Inc. Knowledge map building system and method
CN106844603B (zh) * 2017-01-16 2021-05-11 竹间智能科技(上海)有限公司 实体热门度的计算方法及装置、应用方法及装置
CN107665252B (zh) * 2017-09-27 2020-08-25 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN107633084A (zh) * 2017-09-28 2018-01-26 武汉虹旭信息技术有限责任公司 基于自媒体的舆情管控***及其方法
CN109189942B (zh) * 2018-09-12 2021-07-09 山东大学 一种专利数据知识图谱的构建方法及装置
CN109597990B (zh) * 2018-11-22 2022-11-15 中国人民大学 一种社会热点与商品品类的匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答***及方法
CN107807957A (zh) * 2017-09-30 2018-03-16 北京奇虎科技有限公司 实体库生成方法及装置
CN108920588A (zh) * 2018-06-26 2018-11-30 北京光年无限科技有限公司 一种用于人机交互的知识图谱更新方法及***
CN110019840A (zh) * 2018-07-20 2019-07-16 腾讯科技(深圳)有限公司 一种知识图谱中实体更新的方法、装置和服务器

Also Published As

Publication number Publication date
CN110674313A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN105045875B (zh) 个性化信息检索方法及装置
CN110674313B (zh) 一种基于用户日志动态更新知识图谱的方法
CN107862027A (zh) 检索意图识别方法、装置、电子设备及可读存储介质
US20040141354A1 (en) Query string matching method and apparatus
US20100318537A1 (en) Providing knowledge content to users
CN112434169A (zh) 一种知识图谱的构建方法及其***和计算机设备
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN108287911B (zh) 一种基于约束化远程监督的关系抽取方法
CN109815386B (zh) 一种基于用户画像的构建方法、装置及存储介质
CN103886020B (zh) 一种房地产信息快速搜索方法
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN102855245A (zh) 一种用于确定图片相似度的方法与设备
TW202001621A (zh) 語料庫產生方法及裝置、人機互動處理方法及裝置
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN103136221B (zh) 一种生成需求模板的方法、需求识别的方法及其装置
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
CN111753151A (zh) 一种基于互联网用户行为的服务推荐方法
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN115329083A (zh) 文档分类方法、装置、计算机设备和存储介质
CN114153965A (zh) 一种结合内容和图谱的舆情事件推荐方法、***及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant