CN113268602A - 一种组织知识图谱构建方法及装置 - Google Patents

一种组织知识图谱构建方法及装置 Download PDF

Info

Publication number
CN113268602A
CN113268602A CN202110333447.0A CN202110333447A CN113268602A CN 113268602 A CN113268602 A CN 113268602A CN 202110333447 A CN202110333447 A CN 202110333447A CN 113268602 A CN113268602 A CN 113268602A
Authority
CN
China
Prior art keywords
knowledge graph
organization
entities
entity
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110333447.0A
Other languages
English (en)
Inventor
何镝
钟依权
刘伟维
姜辉明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Rongsi Technology Co ltd
Original Assignee
Jiangxi Rongsi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Rongsi Technology Co ltd filed Critical Jiangxi Rongsi Technology Co ltd
Priority to CN202110333447.0A priority Critical patent/CN113268602A/zh
Publication of CN113268602A publication Critical patent/CN113268602A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术领域,尤其涉及一种组织知识图谱构建方法及装置。一种组织知识图谱构建方法,根据包括实体、属性和关系的数据信息,建立数据模型,根据建立的数据模型构建知识图谱,通过构建的知识图谱进行数据检索。利用齐普父省力法则,提取组织论文的高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱,使得知识图谱检索足够精准。

Description

一种组织知识图谱构建方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种组织知识图谱构建方法及装置。
背景技术
信息技术的发展不断推动着互联网技术的变革,搜索引擎由于使得用户寻找信息的范围缩小,已经成为人们查找海量信息不可或缺的工具。
论文的关键词是文章主要意思的集中体现与核心内容的提炼,根据齐普父省力法则,分析词频分布规律可以掌握该领域的研究热点和前言,通过关键词出现的次数可以找出高频关键词,通过关键词进行聚类合并探测突变关键词,可以把握组织知识的研究热点和发展前沿。
但是,在高频关键词中,很多的论文都会出现“组织的建设”或/和“组织”等不具有区别的关键词,这样导致知识图谱检索不够精准。
发明内容
为了克服现有技术存在的缺点,本发明提供一种组织知识图谱构建方法及装置,利用齐普父省力法则,提取组织论文的高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱。
为达此目的,本发明采用以下技术方案:
本发明提供了一种组织知识图谱构建方法,根据包括实体、属性和关系的数据信息,建立数据模型,根据建立的数据模型构建知识图谱,通过构建的知识图谱进行数据检索,所述实体包括高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱。
作为上述技术方案的进一步改进,对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除,再将同义的关键词合并为一个词。
作为上述技术方案的进一步改进,所述实体包括关键词实体、组织事件实体和单位实体;
其中,所述关键词实体包括“思想体系”、“非公有制企业”、“三大法宝”、“领导人”、“流动组员”、“廉政建设”、“领导小组”、“大学生组员”和“活动”;
所述组织事件实体包括活动事件、体育事件、和文化事件;
所述单位实体包括地方委员会、地方教育机关、地方党校和地方高校。
作为上述技术方案的进一步改进,所述实体包括以下一种或一种以上属性:
内容属性和主键属性;
其中,所述主键属性用于区分各实体,所述内容属性包括从所述数据信息提取的属性值;所述属性值包括以下一种或一种以上的属性信息:所属样本、地理位置、发生时间。
作为上述技术方案的进一步改进,所述关系包括职级关系和关键词词义关联关系。
本发明提供了一种基于组织知识图谱的构建装置,包括:
创建单元,用于创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系;
数据处理单元:对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除;
关键词融合单元:将同义的关键词合并为一个词。
本发明的有益效果为:利用齐普父省力法则,提取组织论文的高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱,使得知识图谱检索足够精准。
附图说明
图1为本实施例知识图谱的示意图。
图2为本实施例知识图谱构建装置的流程示意图
具体实施方式
现在将参照附图在下文中更全面地描述本发明,在附图中示出了本发明当前优选的实施方式。然而,本发明可以以许多不同的形式实施,并且不应被解释为限于本文所阐述的实施方式;而是为了透彻性和完整性而提供这些实施方式,并且这些实施方式将本发明的范围充分地传达给技术人员。
如图1所示,本实施例提供一种组织知识图谱构建方法,根据包括实体、属性和关系的数据信息,建立数据模型,根据建立的数据模型构建知识图谱,通过构建的知识图谱进行数据检索,所述实体包括高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱。
在本申请一个实施例中,对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除,再将同义的关键词合并为一个词。
在本申请一个实施例中,所述实体包括关键词实体、组织事件实体和单位实体;
其中,所述关键词实体包括“思想体系”、“非公有制企业”、“三大法宝”、“领导人”、“流动组员”、“廉政建设”、“领导小组”、“大学生组员”和“活动”;
所述组织事件实体包括活动事件、体育事件、和文化事件;
所述单位实体包括地方委员会、地方教育机关、地方党校和地方高校。
作为上述技术方案的进一步改进,所述实体包括以下一种或一种以上属性:
内容属性和主键属性;
其中,所述主键属性用于区分各实体,所述内容属性包括从所述数据信息提取的属性值;所述属性值包括以下一种或一种以上的属性信息:所属样本、地理位置、发生时间。
在本申请一个实施例中,所述关系包括职级关系和关键词词义关联关系。
在本申请一个实施例中,实体包括组织事件、高频关键词、论文样本、作者、所属单位,配合单位、上级单位。
在本申请一个实施例中,所述作者属性包括职级、年龄、姓名。
在本申请一个实施例中,所述组织事件属性包括地理位置、时间。
在本申请一个实施例中,所述所属单位属性包括地理位置、领导小组。
利用齐普父省力法则,提取组织论文的高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱。
本实施例还提供种基于组织知识图谱的构建装置,包括:
创建单元,用于创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系;
数据处理单元:对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除;
关键词融合单元:将同义的关键词合并为一个词。
在本申请实施例中,创建定义有至少一个实体及各实体对应的至少一个属性和至少一个关系的数据模型;针对各组织数据来源:采集当前医疗数据来源中的实体类字段内容、各属性类字段内容、各关系类字段内容,基于数据模型对采集到的各字段内容执行相应填充以构建出一知识图谱;针对构建出的各知识图谱:针对知识图谱中的关键词实体中的“组织的建设”或“组织”的高频关键词去除,再将同义的关键词合并为一个词,以便后续的检索。
以上所述实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种组织知识图谱构建方法,根据包括实体、属性和关系的数据信息,建立数据模型,根据建立的数据模型构建知识图谱,通过构建的知识图谱进行数据检索,其特征在于:
所述实体包括高频关键词,把高频关键词为“组织的建设”或“组织”的所述实体去除,再将高频关键词中的同义词的所述实体融合,得到所述知识图谱。
2.根据权利要求1所述的一种组织知识图谱构建方法,其特征在于:
对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除,再将同义的关键词合并为一个词。
3.根据权利要求2所述的一种组织知识图谱构建方法,其特征在于:
所述实体包括关键词实体、组织事件实体和单位实体;
其中,所述关键词实体包括“思想体系”、“非公有制企业”、“三大法宝”、“领导人”、“流动组员”、“廉政建设”、“领导小组”、“大学生组员”和“活动”;
所述组织事件实体包括活动事件、体育事件、和文化事件;
所述单位实体包括地方委员会、地方教育机关、地方党校和地方高校。
4.根据权利要求3所述的一种组织知识图谱构建方法,其特征在于,所述实体包括以下一种或一种以上属性:
内容属性和主键属性;
其中,所述主键属性用于区分各实体,所述内容属性包括从所述数据信息提取的属性值;所述属性值包括以下一种或一种以上的属性信息:所属样本、地理位置、发生时间。
5.根据权利要求3所述的一种组织知识图谱构建方法,其特征在于:
所述关系包括职级关系和关键词词义关联关系。
6.一种基于组织知识图谱的构建装置,其特征在于,包括:
创建单元,用于创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系;
数据处理单元:对预先确定的数据信息进行爬取,提取从中的高频关键词,把“组织的建设”或“组织”的高频关键词去除;
关键词融合单元:将同义的关键词合并为一个词。
CN202110333447.0A 2021-03-29 2021-03-29 一种组织知识图谱构建方法及装置 Pending CN113268602A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110333447.0A CN113268602A (zh) 2021-03-29 2021-03-29 一种组织知识图谱构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110333447.0A CN113268602A (zh) 2021-03-29 2021-03-29 一种组织知识图谱构建方法及装置

Publications (1)

Publication Number Publication Date
CN113268602A true CN113268602A (zh) 2021-08-17

Family

ID=77228355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110333447.0A Pending CN113268602A (zh) 2021-03-29 2021-03-29 一种组织知识图谱构建方法及装置

Country Status (1)

Country Link
CN (1) CN113268602A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及***
CN111737471A (zh) * 2020-06-28 2020-10-02 中国农业科学院农业信息研究所 一种基于知识图谱的档案管理模型构建方法及***
CN112069327A (zh) * 2020-09-04 2020-12-11 西南大学 一种在线教育课堂教学资源的知识图谱构建方法及***
CN112434169A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种知识图谱的构建方法及其***和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及***
CN111737471A (zh) * 2020-06-28 2020-10-02 中国农业科学院农业信息研究所 一种基于知识图谱的档案管理模型构建方法及***
CN112069327A (zh) * 2020-09-04 2020-12-11 西南大学 一种在线教育课堂教学资源的知识图谱构建方法及***
CN112434169A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种知识图谱的构建方法及其***和计算机设备

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN107220295B (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
Inzalkar et al. A survey on text mining-techniques and application
CN108305180B (zh) 一种好友推荐方法及装置
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
Elliott Survey of author name disambiguation: 2004 to 2010
CN111475625A (zh) 基于知识图谱的新闻稿件生成方法及***
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及***
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
Gong et al. Phrase-based hashtag recommendation for microblog posts.
CN116304308A (zh) 一种基于技术创新知识情境超网络的研发伙伴推荐方法
CN111966792A (zh) 一种文本处理方法、装置、电子设备及可读存储介质
CN112214615A (zh) 基于知识图谱的政策文件处理方法、装置和存储介质
CN116049376A (zh) 一种信创知识检索回复的方法、装置和***
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN113779983B (zh) 文本数据处理方法以及装置、存储介质、电子装置
CN113268602A (zh) 一种组织知识图谱构建方法及装置
CN115146030A (zh) 一种基于知识图谱的公务文书写作方法及***
Griazev et al. Web mining taxonomy
Tran et al. A named entity recognition approach for tweet streams using active learning
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Fuller et al. Structuring, recording, and analyzing historical networks in the china biographical database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210817