CN110245244A - 一种基于海量文本数据的人事关系知识图谱构建方法 - Google Patents

一种基于海量文本数据的人事关系知识图谱构建方法 Download PDF

Info

Publication number
CN110245244A
CN110245244A CN201910539129.2A CN201910539129A CN110245244A CN 110245244 A CN110245244 A CN 110245244A CN 201910539129 A CN201910539129 A CN 201910539129A CN 110245244 A CN110245244 A CN 110245244A
Authority
CN
China
Prior art keywords
entity
event
time
knowledge mapping
department
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910539129.2A
Other languages
English (en)
Inventor
吴漾
王鹏宇
郭仁超
方继宇
孔庆波
柳林溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN201910539129.2A priority Critical patent/CN110245244A/zh
Publication of CN110245244A publication Critical patent/CN110245244A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于海量文本数据的人事关系知识图谱构建方法,该方法包括步骤:解析海量word数据,提取所需文本内容;挖掘事件、人、部门及时间实体;计算实体距离,判断实体关系;数据***Neo4j构建知识图谱。本发明通过挖掘海量数据,得到人名实体、部门实体、事件实体和时间实体,通过计算实体之间的距离判断事件实体的所属是人还是部门,及时间,最后将发现的关系数据***Neo4j数据库,构建知识图谱,通过数据库构建的知识图谱,可以发现人与事的关系,人与人的关系。

Description

一种基于海量文本数据的人事关系知识图谱构建方法
技术领域
本发明属于人事关系提取技术领域,涉及一种基于海量文本数据的人事关系知识图谱构建方法。
背景技术
现有技术有实体发现算法,但是并没有事件实体的发现,没有事件,关联部门或人,还有时间的组合。
发明内容
本发明要解决的技术问题是:提供一种基于海量文本数据的人事关系知识图谱构建方法,以解决现有技术中存在的问题。
本发明采取的技术方案为:一种基于海量文本数据的人事关系知识图谱构建方法,该方法包括以下步骤:
(1)解析海量word数据,提取所需文本内容;
遍历所有文件,找到word文件,将word文件全部转化为html文件,解决加密word文档的麻烦,通过爬虫方式,提取所有的文本数据;
(2)挖掘事件、人、部门及时间实体;
通过结巴分词,添加自定义词库,标注人名为:per,部门名为:dep,通过正则表达式得到时间,加入专有名词库,例如:(信息管理***:sys),分词后专有名词前或后2个词,如果有动词v,则构成一个事件实体,例如:信息管理***的推广;
(3)计算实体距离,判断实体关系;
在一句话中,正则表达式匹配出一个时间实体,时间实体第一个字在这句话中的位置,这句话中如果出现多个事件实体,所有的事件实体的时间就这个时间实体,出现人名实体或部门实体,计算人名实体第一个字的位置与事件实体出现的第一个之间的距离,距离最小的就是事件实体的所属实体;
(4)数据***Neo4j构建知识图谱;
得到一个关系数据,关系数据包括事件实体、时间实体、人名实体或部门名实体,将关系数据***Neo4j数据库中,构建知识图谱。
本发明的有益效果:与现有技术相比,本发明通过挖掘海量数据,得到人名实体、部门实体、事件实体和时间实体,通过计算实体之间的距离判断事件实体的所属是人还是部门,及时间,最后将发现的关系数据***Neo4j数据库,构建知识图谱,通过数据库构建的知识图谱,可以发现人与事的关系,人与人的关系。
附图说明
图1为提取文本内容流程示意图;
图2为挖掘事件、人、部门及时间实体流程示意图;
图3为判断实体关系流程示意图;
图4为构建知识图谱流程示意图;
图5为实例图;
具体实施方式
下面结合附图及具体的实施例对本发明进行进一步介绍。
实施例1:如图1-5所示,一种基于海量文本数据的人事关系知识图谱构建方法,该方法包括以下步骤:
(1)解析海量word数据,提取所需文本内容;
遍历所有文件,找到word文件,将word文件全部转化为html文件,解决加密word文档的麻烦,通过爬虫方式,提取所有的文本数据,通过将稳步转化为,如图1所示;
(2)挖掘事件、人、部门及时间实体;
通过结巴分词,添加自定义词库,标注人名为:per,部门名为:dep,通过正则表达式得到时间,加入专有名词库,例如:(信息管理***:sys),分词后专有名词前或后2个词,如果有动词v,则构成一个事件实体,例如:信息管理***的推广,如图2所示;
(3)计算实体距离,判断实体关系;
在一句话中,正则表达式匹配出一个时间实体,时间实体第一个字在这句话中的位置,这句话中如果出现多个事件实体,所有的事件实体的时间就这个时间实体,出现人名实体或部门实体,计算人名实体第一个字的位置与事件实体出现的第一个之间的距离,距离最小的就是事件实体的所属实体,如图3所示;
(4)数据***Neo4j构建知识图谱;
得到一个关系数据,关系数据包括事件实体、时间实体、人名实体或部门名实体,将关系数据***Neo4j数据库中,构建知识图谱(首先定义图谱结构,然后根据图谱结构,将上面提取出来的各类实体,以特定的关系***图谱之中,特定关系指知识图谱的结构关系),如图4所示。
客户通过这个方法,可以查看构建一个日程的知识图谱,清晰的看到日程时间,人,部门等,还可以找人与人之间的关系,人与部门之间的关系,可以通过这个知识图谱,对新事件人员及部门的预测,推荐等等,如图5所示。
本发明通过挖掘海量文本数据,得到事件实体,人员实体,时间实体,部门实体,发现实体之间的关系,并将这样的关系实体***到Neo4j图数据库中,构建知识图谱。
本发明可以应用到搜索引擎,日程管理,人物关系查询。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (1)

1.一种基于海量文本数据的人事关系知识图谱构建方法,其特征在于:该方法包括以下步骤:
(1)解析海量word数据,提取所需文本内容;
遍历所有文件,找到word文件,将word文件全部转化为html文件,解决加密word文档的麻烦,通过爬虫方式,提取所有的文本数据;
(2)挖掘事件、人、部门及时间实体;
通过结巴分词,添加自定义词库,标注人名为:per,部门名为:dep,通过正则表达式得到时间,加入专有名词库,分词后专有名词前或后2个词,如果有动词v,则构成一个事件实体;
(3)计算实体距离,判断实体关系;
在一句话中,正则表达式匹配出一个时间实体,时间实体第一个字在这句话中的位置,这句话中如果出现多个事件实体,所有的事件实体的时间就这个时间实体,出现人名实体或部门实体,计算人名实体第一个字的位置与事件实体出现的第一个之间的距离,距离最小的就是事件实体的所属实体;
(4)数据***Neo4j构建知识图谱;
得到一个关系数据,关系数据包括事件实体、时间实体、人名实体或部门名实体,将关系数据***Neo4j数据库中,构建知识图谱。
CN201910539129.2A 2019-06-20 2019-06-20 一种基于海量文本数据的人事关系知识图谱构建方法 Pending CN110245244A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910539129.2A CN110245244A (zh) 2019-06-20 2019-06-20 一种基于海量文本数据的人事关系知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910539129.2A CN110245244A (zh) 2019-06-20 2019-06-20 一种基于海量文本数据的人事关系知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN110245244A true CN110245244A (zh) 2019-09-17

Family

ID=67888375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910539129.2A Pending CN110245244A (zh) 2019-06-20 2019-06-20 一种基于海量文本数据的人事关系知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN110245244A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368011A (zh) * 2020-03-03 2020-07-03 京东方科技集团股份有限公司 知识图谱构建方法及装置、计算机设备及介质
WO2023141900A1 (zh) * 2022-01-27 2023-08-03 基建通(三亚)国际科技有限公司 新闻图文类数据知识图谱的建立方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及***
CN108197269A (zh) * 2018-01-04 2018-06-22 北京金堤科技有限公司 一种动态关系图谱的生成方法、装置和用户终端
CN109754224A (zh) * 2018-12-29 2019-05-14 贵州小爱机器人科技有限公司 人事关系图谱构建方法、装置以及计算机存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197269A (zh) * 2018-01-04 2018-06-22 北京金堤科技有限公司 一种动态关系图谱的生成方法、装置和用户终端
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及***
CN109754224A (zh) * 2018-12-29 2019-05-14 贵州小爱机器人科技有限公司 人事关系图谱构建方法、装置以及计算机存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368011A (zh) * 2020-03-03 2020-07-03 京东方科技集团股份有限公司 知识图谱构建方法及装置、计算机设备及介质
CN111368011B (zh) * 2020-03-03 2023-10-13 京东方科技集团股份有限公司 知识图谱构建方法及装置、计算机设备及介质
WO2023141900A1 (zh) * 2022-01-27 2023-08-03 基建通(三亚)国际科技有限公司 新闻图文类数据知识图谱的建立方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Carley et al. AutoMap User's Guide 2013
JP5192036B2 (ja) 複数の信頼できるソースから収集された旅行アドバイスを統合して表示するシステムおよび方法
Bickel et al. Oceania, the Pacific Rim, and the theory of linguistic areas
US20090157382A1 (en) Decision-support expert system and methods for real-time exploitation of documents in non-english languages
CN104133916B (zh) 搜索结果信息组织方法和装置
CN106445920A (zh) 利用句义结构特征的句子相似度计算方法
Al-Jumaily et al. A real time Named Entity Recognition system for Arabic text mining
CN104462053A (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN103136189A (zh) 机密信息识别方法、信息处理装置和程序
CN110245244A (zh) 一种基于海量文本数据的人事关系知识图谱构建方法
Dohare et al. Unsupervised semantic abstractive summarization
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN104991909B (zh) 一种针对具体软件历史代码库的词库自动构建方法
de Diego et al. A visual framework for dynamic emotional web analysis
Bemmann et al. LanguageLogger: A mobile keyboard application for studying language use in everyday text communication in the wild
CN116701648A (zh) 基于规范标准映射知识图谱及schema设计方法
CN109684516A (zh) 一种基于公安大数据人物特定行为共现关系图谱生成方法
CHIU A stranger in the house: Foreign domestic helpers in Hong Kong
Ciaramella et al. Semantic maps of Twitter conversations
Dittrich et al. Analysing the usage of spatial prepositions in short messages
CN107783957B (zh) 本体创建方法和装置
Hiebel et al. Information integration in a mining landscape
Lee et al. Towards Personalized Annotation of Webpages for Efficient Screen-Reader Interaction
LAI Explore the taoism value by interpreting the culture of Liu-Ren in forms of contemporary art
de AR Gonçalves et al. Collaborative narratives for business rule elicitation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190917