CN114428864A - 知识图谱的构建方法、装置、电子设备及介质 - Google Patents

知识图谱的构建方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN114428864A
CN114428864A CN202210337302.2A CN202210337302A CN114428864A CN 114428864 A CN114428864 A CN 114428864A CN 202210337302 A CN202210337302 A CN 202210337302A CN 114428864 A CN114428864 A CN 114428864A
Authority
CN
China
Prior art keywords
graph
enterprise
entity
knowledge graph
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210337302.2A
Other languages
English (en)
Inventor
段宏英
陈家银
张伟
陈曦
麻志毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Advanced Institute of Information Technology AIIT of Peking University
Priority to CN202210337302.2A priority Critical patent/CN114428864A/zh
Publication of CN114428864A publication Critical patent/CN114428864A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识图谱的构建方法、装置、电子设备及介质。通过应用本申请的技术方案,可以构建一个能够应用于所有传统制造业的知识图谱,其中包括招标数据、中标数据、联系信息数据以及企业经营范围数据的图谱数据,从而避免了相关技术中存在的,现有的行业图谱构建方法粒度较细以及覆盖面较窄进而导致识别准确率不高的问题。

Description

知识图谱的构建方法、装置、电子设备及介质
技术领域
本申请中涉及数据处理技术,尤其是一种知识图谱的构建方法、装置、电子设备及介质。
背景技术
大数据时代的崛起,以及人工智能的研究重心从感知智能过渡到认知智能的事实,推进了知识图谱的热兴。
其中,知识图谱是用图模型描述知识和建模关系的语义网络,作为认知智能的底层支撑,行业知识图谱对于AI赋能传统行业升级具有重大意义,同时在传统行业落地、产业智能化中发挥着重要的作用。
然而,现有的行业图谱构建方法粒度较细,这也导致覆盖面较窄,无法处理多场景的企业业务。
发明内容
本申请实施例提供一种知识图谱的构建方法、装置、电子设备及介质。用以解决相关技术中存在的,现有的行业图谱构建方法粒度较细以及覆盖面较窄进而导致识别准确率不高的问题。
其中,根据本申请实施例的一个方面,提供的一种知识图谱的构建方法,包括:
构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;
利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;
将所述样本实体集合输入到所述本体图中,得到初始知识图谱;
将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。
可选地,在基于本申请上述方法的另一个实施例中,所述构建本体图,包括:
构建用于所述反映用户类本体与对应企业类本体之间关联关系的子图谱层,其中所述用户类本体包括企业招投标联系人,所述企业类本体包括招标企业、招标组织以及代理机构;以及,
构建用于所述反映各个招标企业类本体之间关联关系的子图谱层,所述招标企业类本体包括招标企业/组织、代理机构、投标企业以及中标企业;以及,
构建用于所述各个企业联系方式的子图谱层;以及,
构建用于所述企业类本体、行业类本体与对应产品类本体之间关联关系的子图谱层,所述产品类本体包括上游产品本体、中游产品本体以及下游产品本体,所述行业类本体包括上游行业、中游行业以及下游行业。
可选地,在基于本申请上述方法的另一个实施例中,所述利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,包括:
若所述数据源对应于所述企业信息的招标数据以及中标数据,利用企业实体抽取模型抽取所述数据源中包括的招标企业、投标企业、中标企业、代理机构;以及,使用联系人信息抽取模型抽取招标联系用户、招标项目负责用户、代理机构联系用户,得到所述样本实体集合;
和/或,
若所述数据源对应于所述企业信息的企业经营范围数据,利用企业联系信息抽取模型抽取所述数据源中包括的企业实体,以及该企业对应的联系方式,得到所述样本实体集合;
和/或,
若所述数据源对应于所述企业信息的联系信息数据,利用深度学习模型抽取所述数据源中包括的产品实体,得到所述样本实体集合。
可选地,在基于本申请上述方法的另一个实施例中,所述将所述样本实体集合输入到所述本体图中,得到初始知识图谱,包括:
根据所述本体图的本体结构,将所述样本实体集合中的样本数据输入至所述本体图对应的结构中,得到所述初始知识图谱。
可选地,在基于本申请上述方法的另一个实施例中,在所述得到所述初始知识图谱之后,还包括:
对所述初始知识图谱进行质量评估,并在通过所述质量评估后,将所述初始知识图谱中的实体信息进行知识融合,其中所述质量评估对应于确定实体信息间的关系以及实体信息属性。
可选地,在基于本申请上述方法的另一个实施例中,所述将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,包括:
对所述初始知识图谱中的实体信息进行实体分解以及实体合并,得到所述待挖掘知识图谱,其中所述实体分解用于处理筛选出来的名称相同但含义不同的实体信息,所述实体合并用于处理筛选出来的含义相同但名称不同的实体信息。
可选地,在基于本申请上述方法的另一个实施例中,所述对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱,包括:
获取各个实体间的原有关系,并利用图模型将所述各个实体以及所述各个实体间的原有关系进行向量转换,实现对所述待挖掘知识图谱进行实体相互关系挖掘,得到所述目标知识图谱。
其中,根据本申请实施例的又一个方面,提供的一种知识图谱的构建装置,其特征在于,包括:
构建模块,被配置为构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;
生成模块,被配置为利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;
输入模块,被配置为将所述样本实体集合输入到所述本体图中,得到初始知识图谱;
所述生成模块,被配置为将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。
根据本申请实施例的又一个方面,提供的一种电子设备,包括:
存储器,用于存储可执行指令;以及
显示器,用于与所述存储器以执行所述可执行指令从而完成上述任一所述知识图谱的构建方法的操作。
根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述知识图谱的构建方法的操作。
本申请中,可以构建一个包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图,并利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合;将样本实体集合输入到本体图中,得到初始知识图谱;将初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。通过应用本申请的技术方案,可以构建一个能够应用于所有传统制造业的知识图谱,其中包括招标数据、中标数据、联系信息数据以及企业经营范围数据的图谱数据,从而避免了相关技术中存在的,现有的行业图谱构建方法粒度较细以及覆盖面较窄进而导致识别准确率不高的问题。
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请提出的一种知识图谱的构建方法示意图;
图2-图3为本申请提出的知识图谱的整体架构示意图;
图4为本申请提出的一种知识图谱的构建电子装置的结构示意图;
图5为本申请提出的一种知识图谱的构建电子设备的结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
需要说明的是,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
下面结合图1-图3来描述根据本申请示例性实施方式的用于进行知识图谱的构建方法。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请还提出一种知识图谱的构建方法、装置、电子设备及介质。
图1示意性地示出了根据本申请实施方式的一种知识图谱的构建方法的流程示意图。如图1所示,该方法包括:
S101构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图。
S102,利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种。
S103,将样本实体集合输入到本体图中,得到初始知识图谱。
S104,将初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。
相关技术中,大数据时代的崛起,以及人工智能的研究重心从感知智能过渡到认知智能的事实,推进了知识图谱的热兴。知识图谱是用图模型描述知识和建模关系的语义网络,作为认知智能的底层支撑,行业知识图谱对于AI赋能传统行业升级具有重大意义,同时在传统行业落地、产业智能化中发挥着重要的作用。
其中,知识图谱可以将海量结构化和非结构化的数据转化为网状知识结构,该网络中结点表示实体(entity)或概念(concept),边代表实体、概念之间的各种现实语义关系,这一过程实现了大数据到知识图谱实体、概念、关系的映射,转化后的结构化知识赋予机器理解数据的能力,基于此机器可以学习指定行业的高精度知识。
另外,知识图谱中的关系蕴含着巨大的价值,结合逻辑规则、统计学、深度学习,可赋予机器认知智能的“推理”能力,推理出实体或概念之间的隐含关系。根据知识图谱的覆盖面划分,包括通用知识图谱和行业知识图谱。行业知识图谱起步较晚,对准确度要求较高,有严格的具有行业意义的数据模式,模式层的构建需要大量行业知识,因此构建初期需要行业内的专家协助,大部分领域内的行业知识图谱目前都属于探索阶段。
目前相关学者沉淀的技术大多或是针对具体的某一个领域,例如包括针对金融领域构建知识图谱,或是没有考虑领域知识特性的粗粒度方法,例如包括提供了一个泛化的知识图谱构建方法,无法支撑知识图谱在赋能传统行业的业务落地。
进一步的,如图2-图3所示,首先,本申请中可以对全行业图谱的模式层进行本体建模,得到本体图。其次,基于本体图,以数据驱动的方式,集合多个实体识别模型针对多数据源进行实体抽取完成实体扩展,同时得到实体的并列关系和上下位关系。然后,利用实体分解和实体合并技术完成多源知识融合。
最后,则需要通过舍弃置信度较低的知识来保障图谱质量,此过程为质量评估阶段。最后得到初始知识图谱,并在后续基于初始知识图谱可以进行图计算挖掘新关系,完成图谱的知识推理与挖掘。对于推理的新关系再次进行质量评估,使用筛选的质量较高关系来增量更新初始知识图谱,最后得到目标知识图谱。
本申请中,可以构建一个包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图,并利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合;将样本实体集合输入到本体图中,得到初始知识图谱;将初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。通过应用本申请的技术方案,可以构建一个能够应用于所有传统制造业的知识图谱,其中包括招标数据、中标数据、联系信息数据以及企业经营范围数据的图谱数据,从而避免了相关技术中存在的,现有的行业图谱构建方法粒度较细以及覆盖面较窄进而导致识别准确率不高的问题。
可选地,在基于本申请上述方法的另一个实施例中,所述构建本体图,包括:
构建用于所述反映用户类本体与对应企业类本体之间关联关系的子图谱层,其中所述用户类本体包括企业招投标联系人,所述企业类本体包括招标企业、招标组织以及代理机构;以及,
构建用于所述反映各个招标企业类本体之间关联关系的子图谱层,所述招标企业类本体包括招标企业/组织、代理机构、投标企业以及中标企业;以及,
构建用于所述各个企业联系方式的子图谱层;以及,
构建用于所述企业类本体、行业类本体与对应产品类本体之间关联关系的子图谱层,所述产品类本体包括上游产品本体、中游产品本体以及下游产品本体,所述行业类本体包括上游行业、中游行业以及下游行业。
可选地,在基于本申请上述方法的另一个实施例中,所述利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,包括:
若所述数据源对应于所述企业信息的招标数据以及中标数据,利用企业实体抽取模型抽取所述数据源中包括的招标企业、投标企业、中标企业、代理机构;以及,使用联系人信息抽取模型抽取招标联系用户、招标项目负责用户、代理机构联系用户,得到所述样本实体集合;
和/或,
若所述数据源对应于所述企业信息的企业经营范围数据,利用企业联系信息抽取模型抽取所述数据源中包括的企业实体,以及该企业对应的联系方式,得到所述样本实体集合;
和/或,
若所述数据源对应于所述企业信息的联系信息数据,利用深度学习模型抽取所述数据源中包括的产品实体,得到所述样本实体集合。
可选地,在基于本申请上述方法的另一个实施例中,所述将所述样本实体集合输入到所述本体图中,得到初始知识图谱,包括:
根据所述本体图的本体结构,将所述样本实体集合中的样本数据输入至所述本体图对应的结构中,得到所述初始知识图谱。
可选地,在基于本申请上述方法的另一个实施例中,在所述得到所述初始知识图谱之后,还包括:
对所述初始知识图谱进行质量评估,并在通过所述质量评估后,将所述初始知识图谱中的实体信息进行知识融合,其中所述质量评估对应于确定实体信息间的关系以及实体信息属性。
可选地,在基于本申请上述方法的另一个实施例中,所述将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,包括:
对所述初始知识图谱中的实体信息进行实体分解以及实体合并,得到所述待挖掘知识图谱,其中所述实体分解用于处理筛选出来的名称相同但含义不同的实体信息,所述实体合并用于处理筛选出来的含义相同但名称不同的实体信息。
可选地,在基于本申请上述方法的另一个实施例中,所述对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱,包括:
获取各个实体间的原有关系,并利用图模型将所述各个实体以及所述各个实体间的原有关系进行向量转换,实现对所述待挖掘知识图谱进行实体相互关系挖掘,得到所述目标知识图谱。
进一步的,对于本申请中的构建本体图来说,可以包括如下步骤:
一种方式中,本申请对本体图建模包括四部分,分别是:招投标联系人子图谱层的本体构建、招投标上下游子图谱层的本体构建、企业联系方式子图谱层的本体构建、以产业链为导向的行业-企业-产品子图谱层的本体构建。
其中,对于招投标联系人子图谱层的本体构建来说,其可以包括企业/组织类本体三个:即招标企业、招标组织、代理机构。以及,包括人本体类三个:即招标项目负责人、招标联系人、代理联系人。以及,包括企业属性两个:电话、邮箱,其中,属性附属于招标项目负责人、招标联系人和代理联系人三个本体。需要说明的是,该子图谱包含一类关系:contact_in表示此联系用户在此企业任职,关联了人本体类和企业/组织本体类。
其中,对于招投标上下游子图谱本体构建来说,其可以包括招标企业/组织、代理机构、投标企业、中标企业四类本体。其中四类关系分别是:投标企业指向招标企业/组织的:tb关系表示投标企业曾经参与过该招标企业/组织的招标项目、中标企业指向招标企业/组织的:tw关系表示该中标企业曾经参与过该招标企业/组织的招标项目并中标、代理机构指向招标企业/组织的:ta关系表示该代理机构曾经代理过该招标企业/组织的招标项目、投标企业之间的:th关系表示两个投标企业共同投标过同一个招标企业/组织的招标项目。
其中,对于企业联系方式子图谱构建来说,其可以包括上游企业本体、中游企业本体、下游企业本体、招标企业/组织本体、代理机构本体、投标企业本体、中标企业本体,每个本体都有五个属性分别是电话、邮箱、QQ、wechat微信、website官网。
其中,对于以产业链导向的行业-企业-产品跨三领域的子图谱构建来说,其中企业类本体根据产业链划分为上游企业本体、中游企业本体、下游企业本体,产品类本体相应地划分为上游产品本体、中游产品本体、下游产品本体,行业类本体有上游行业、中游行业、下游行业。其中关系包括四类,分别是:上游企业本体指向中游企业本体、中游企业本体指向下游企业本体的:com_up_down关系,表示企业在产业链中的上下游关系;上游企业指向上游产品、中游企业指向中游产品、下游企业指向下游产品的:product关系,用来描述企业与企业经营范围的产品的事实;上游产品指向中游产品、中游产品指向下游产品的:material关系,表示原材料关系,例如产品A指向产品B,表示A是B的原材料;上游产品指向上游行业、中游产品指向中游行业、下游产品指向下游行业的:pro_indu关系,描述特定产品属于特定行业的事实;上游企业指向上游行业、中游企业指向中游行业、下游企业指向下游行业的:com_pro关系,表示该企业属于被指向行业。
进一步的,对于本申请提出的利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合的过程中,可以包括:
首先,本申请中的多数据源可以为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种。进一步的,对于本申请提出的利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合的过程中,可以针对不同的数据源使用不同的模型抽取实体。包括以下四部分的其中至少一种:
第一部分:
对招标数据使用企业实体抽取模型抽取招标企业、投标企业、中标企业、代理机构,使用联系人信息抽取模型抽取招标联系用户、招标项目负责用户、代理机构联系用户,进而得到该样本实体集合。
第二部分:
对中标数据使用和上述一致的企业实体抽取模型抽取招标企业和代理机构,以及和上述一致的联系人信息抽取模型抽取代理机构联系人、招标项目负责人、招标联系人,进而得到该样本实体集合。
第三部分:
若数据源对应于企业信息的联系信息数据,例如企业官网、电商平台等,使用企业联系信息抽取模型,抽取企业实体,以及该企业对应的电话、邮箱、QQ、wechat微信、website网站等属性,进而得到该样本实体集合。
第四部分:
若数据源对应于企业信息的企业经营范围数据,企业经营范围数据例如为企业官网、百度百科简介、各电商平台、垂直行业站点、财报等,使用深度学习模型抽取包含经营范围的句子然后抽取句子中包含的产品实体,进而得到该样本实体集合。
进一步的,若确定实体抽取完成,则可以根据建模的本体结构,给相应的实体指定本体结构中定义好的关系,以得到一个初始知识图谱。
一种方式中,对于得到初始知识图谱之后,需要对构建好的知识图谱进行质量评估,通过舍弃置信度较低的知识来保证知识图谱的质量。
进一步的,本申请对知识图谱进行质量评估的过程主要可以为以下三类:实体信息错误的上下位关系、实体信息属性有偏差、实体信息关系之间存在逻辑错误。
举例来说,比如企业实体A不会出现指向自己的投标关系环、如果A代理B,则不可能存在B代理A的事实、A和B都与电话p产生关系,则很大概率有一个关系不是事实。质量评估过程除了利用规则推理方法,还可以通过各个实体关系的置信度,来舍弃其中置信度较低的关系,保留置信度高的关系。
另外,由于行业知识图谱需要支撑数据决策等场景,所以对知识图谱的质量有较高要求,因此质量评估阶段在行业知识图谱构建过程中承担着较重要的角色,每经历一次图谱数据扩充都需要进行质量评估,严格把控图谱的质量才能保证知识图谱在基于大数据的智能决策分析、基于知识图谱的AI检索、智能推荐等行业应用中落地,真正实现为传统行业赋能。
一种方式中,本申请在将初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱的过程中,可以包括对初始知识图谱中的实体信息进行实体分解以及实体合并,具体为:
其中,实体分解的场景是一个命名实体在不同的上下文中表达不同的含义,利用实体分解技术可以将同名不同义的实体理解为正确的含义链接到正确的实体,例如“苹果”可以表示一种水果,也可以表示科技公司,实体分解可以根据上下文的含义将命名实体链接到正确的实体。
实体合并是指将文本中具有共指关系的实体聚合成一个实体,比如“十字对开冰箱”、“双开四门冰箱”、“十字四门冰箱”共同指代“十字对开四门冰箱”,需要利用规则及相应的实体合并算法将“十字对开冰箱”、“双开四门冰箱”、“十字四门冰箱”合并为实体“十字对开四门冰箱”。这样可以将来自多个数据源的企业实体、产品实体融合。
一种方式中,本申请在对待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱的过程中,可以包括:
获取各个实体间的原有关系,并利用图模型将所述各个实体以及所述各个实体间的原有关系进行向量转换,实现对所述待挖掘知识图谱进行实体相互关系挖掘,得到所述目标知识图谱。
具体的,比如存在企业实体A指向企业实体C的tb(投标)关系、企业实体B指向企业实体C的tb(投标)关系,那么可推理出企业A和企业B之间存在th(同行)关系的事实。比如存在企业实体A指向企业实体B的tw(中标)关系,则可以推理出企业实体A指向企业实体B的tb(投标)关系这一事实。
另外,还可以利用基于知识图谱表示学习的推理方法,如TransE,还可以利用图模型进行关系补全,如GCN、RGCN,这类方法是将实体和关系都表示为向量,通过向量之间的计算代替图的遍历和搜索来预测两实体之间存在的关系(即预测三元组的存在),这类方法的优势是实体和关系的向量表示包含了实体原有的语义信息,同时利用图谱结构完成知识推理与挖掘。
通过应用本申请的技术方案,可以构建一个能够应用于所有传统制造业的知识图谱,其中包括招标数据、中标数据、联系信息数据以及企业经营范围数据的图谱数据,从而避免了相关技术中存在的,现有的行业图谱构建方法粒度较细以及覆盖面较窄进而导致识别准确率不高的问题。
可选的,在本申请的另外一种实施方式中,如图4所示,本申请还提供一种知识图谱的构建装置。其中包括:
构建模块201,被配置为构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;
生成模块202,被配置为利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;
输入模块203,被配置为将所述样本实体集合输入到所述本体图中,得到初始知识图谱;
所述生成模块202,被配置为将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。
本申请中,可以构建本体图之后,利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合;将样本实体集合输入到本体图中,得到初始知识图谱;将初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。通过应用本申请的技术方案,可以构建一个能够应用于所有传统制造业的知识图谱,其中包括招标数据、中标数据、联系信息数据以及企业经营范围数据的图谱数据,从而避免了相关技术中存在的,现有的行业图谱构建方法粒度较细以及覆盖面较窄进而导致识别准确率不高的问题。
在本申请的另外一种实施方式中,构建模块201,被配置执行的步骤包括:
构建用于所述反映用户类本体与对应企业类本体之间关联关系的子图谱层,其中所述用户类本体包括企业招投标联系人,所述企业类本体包括招标企业、招标组织以及代理机构;以及,
构建用于所述反映各个招标企业类本体之间关联关系的子图谱层,所述招标企业类本体包括招标企业/组织、代理机构、投标企业以及中标企业;以及,
构建用于所述各个企业联系方式的子图谱层;以及,
构建用于所述企业类本体、行业类本体与对应产品类本体之间关联关系的子图谱层,所述产品类本体包括上游产品本体、中游产品本体以及下游产品本体,所述行业类本体包括上游行业、中游行业以及下游行业。
在本申请的另外一种实施方式中,构建模块201,被配置执行的步骤包括:
若所述数据源对应于所述企业信息的招标数据以及中标数据,利用企业实体抽取模型抽取所述数据源中包括的招标企业、投标企业、中标企业、代理机构;以及,使用联系人信息抽取模型抽取招标联系用户、招标项目负责用户、代理机构联系用户,得到所述样本实体集合;
和/或,
若所述数据源对应于所述企业信息的企业经营范围数据,利用企业联系信息抽取模型抽取所述数据源中包括的企业实体,以及该企业对应的联系方式,得到所述样本实体集合;
和/或,
若所述数据源对应于所述企业信息的联系信息数据,利用深度学习模型抽取所述数据源中包括的产品实体,得到所述样本实体集合。
在本申请的另外一种实施方式中,构建模块201,被配置执行的步骤包括:
根据所述本体图的本体结构,将所述样本实体集合中的样本数据输入至所述本体图对应的结构中,得到所述初始知识图谱。
在本申请的另外一种实施方式中,构建模块201,被配置执行的步骤包括:
对所述初始知识图谱进行质量评估,并在通过所述质量评估后,将所述初始知识图谱中的实体信息进行知识融合,其中所述质量评估对应于确定实体信息间的关系以及实体信息属性。
在本申请的另外一种实施方式中,构建模块201,被配置执行的步骤包括:
对所述初始知识图谱中的实体信息进行实体分解以及实体合并,得到所述待挖掘知识图谱,其中所述实体分解用于处理筛选出来的名称相同但含义不同的实体信息,所述实体合并用于处理筛选出来的含义相同但名称不同的实体信息。
在本申请的另外一种实施方式中,构建模块201,被配置执行的步骤包括:
获取各个实体间的原有关系,并利用图模型将所述各个实体以及所述各个实体间的原有关系进行向量转换,实现对所述待挖掘知识图谱进行实体相互关系挖掘,得到所述目标知识图谱。
图5是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如,电子设备300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备处理器执行以完成上述知识图谱的构建方法,该方法包括:构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;将所述样本实体集合输入到所述本体图中,得到初始知识图谱;将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种应用程序/计算机程序产品,包括一条或多条指令,该一条或多条指令可以由电子设备的处理器执行,以完成上述知识图谱的构建方法,该方法包括:构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;将所述样本实体集合输入到所述本体图中,得到初始知识图谱;将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。
本领域技术人员可以理解,示意图5仅仅是电子设备300的示例,并不构成对电子设备300的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备300还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,处理器302是电子设备300的控制中心,利用各种接口和线路连接整个电子设备300的各个部分。
存储器301可用于存储计算机可读指令,处理器302通过运行或执行存储在存储器301内的计算机可读指令或模块,以及调用存储在存储器301内的数据,实现电子设备300的各种功能。存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备300的使用所创建的数据等。此外,存储器301可以包括硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)或其他非易失性/易失性存储器件。
电子设备300集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种知识图谱的构建方法,其特征在于,包括:
构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;
利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;
将所述样本实体集合输入到所述本体图中,得到初始知识图谱;
将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。
2.如权利要求1所述的方法,其特征在于,所述构建本体图,包括:
构建用于所述反映用户类本体与对应企业类本体之间关联关系的子图谱层,其中所述用户类本体包括企业招投标联系人,所述企业类本体包括招标企业、招标组织以及代理机构;以及,
构建用于所述反映各个招标企业类本体之间关联关系的子图谱层,所述招标企业类本体包括招标企业/组织、代理机构、投标企业以及中标企业;以及,
构建用于所述各个企业联系方式的子图谱层;以及,
构建用于所述企业类本体、行业类本体与对应产品类本体之间关联关系的子图谱层,所述产品类本体包括上游产品本体、中游产品本体以及下游产品本体,所述行业类本体包括上游行业、中游行业以及下游行业。
3.如权利要求1所述的方法,其特征在于,所述利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,包括:
若所述数据源对应于所述企业信息的招标数据以及中标数据,利用企业实体抽取模型抽取所述数据源中包括的招标企业、投标企业、中标企业、代理机构;以及,使用联系人信息抽取模型抽取招标联系用户、招标项目负责用户、代理机构联系用户,得到所述样本实体集合;
和/或,
若所述数据源对应于所述企业信息的企业经营范围数据,利用企业联系信息抽取模型抽取所述数据源中包括的企业实体,以及该企业对应的联系方式,得到所述样本实体集合;
和/或,
若所述数据源对应于所述企业信息的联系信息数据,利用深度学习模型抽取所述数据源中包括的产品实体,得到所述样本实体集合。
4.如权利要求1或3所述的方法,其特征在于,所述将所述样本实体集合输入到所述本体图中,得到初始知识图谱,包括:
根据所述本体图的本体结构,将所述样本实体集合中的样本数据输入至所述本体图对应的结构中,得到所述初始知识图谱。
5.如权利要求4所述的方法,其特征在于,在所述得到所述初始知识图谱之后,还包括:
对所述初始知识图谱进行质量评估,并在通过所述质量评估后,将所述初始知识图谱中的实体信息进行知识融合,其中所述质量评估对应于确定实体信息间的关系以及实体信息属性。
6.如权利要求1所述的方法,其特征在于,所述将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,包括:
对所述初始知识图谱中的实体信息进行实体分解以及实体合并,得到所述待挖掘知识图谱,其中所述实体分解用于处理筛选出来的名称相同但含义不同的实体信息,所述实体合并用于处理筛选出来的含义相同但名称不同的实体信息。
7.如权利要求1所述的方法,其特征在于,所述对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱,包括:
获取各个实体间的原有关系,并利用图模型将所述各个实体以及所述各个实体间的原有关系进行向量转换,实现对所述待挖掘知识图谱进行实体相互关系挖掘,得到所述目标知识图谱。
8.一种知识图谱的构建装置,其特征在于,包括:
构建模块,被配置为构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;
生成模块,被配置为利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;
输入模块,被配置为将所述样本实体集合输入到所述本体图中,得到初始知识图谱;
所述生成模块,被配置为将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及,
处理器,用于与所述存储器执行所述可执行指令从而完成权利要求1-7中任一所述知识图谱的构建方法的操作。
10.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-7中任一所述知识图谱的构建方法的操作。
CN202210337302.2A 2022-04-01 2022-04-01 知识图谱的构建方法、装置、电子设备及介质 Pending CN114428864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210337302.2A CN114428864A (zh) 2022-04-01 2022-04-01 知识图谱的构建方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210337302.2A CN114428864A (zh) 2022-04-01 2022-04-01 知识图谱的构建方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN114428864A true CN114428864A (zh) 2022-05-03

Family

ID=81314392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210337302.2A Pending CN114428864A (zh) 2022-04-01 2022-04-01 知识图谱的构建方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN114428864A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881430A (zh) * 2023-09-07 2023-10-13 北京上奇数字科技有限公司 一种产业链识别方法、装置、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255034A (zh) * 2018-08-08 2019-01-22 数据地平线(广州)科技有限公司 一种基于产业链的行业知识图谱构建方法
CN110737774A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN112836019A (zh) * 2021-02-19 2021-05-25 中国科学院新疆理化技术研究所 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN113010688A (zh) * 2021-03-05 2021-06-22 北京信息科技大学 知识图谱构建方法、装置、设备及计算机可读存储介质
CN113392229A (zh) * 2021-08-13 2021-09-14 四川新龟科技有限公司 供应链关系构建和预测方法、装置、设备、存储介质
CN114254126A (zh) * 2021-12-21 2022-03-29 钛镕智能科技(苏州)有限公司 一种基于大数据的供应链知识图谱分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737774A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN109255034A (zh) * 2018-08-08 2019-01-22 数据地平线(广州)科技有限公司 一种基于产业链的行业知识图谱构建方法
CN112836019A (zh) * 2021-02-19 2021-05-25 中国科学院新疆理化技术研究所 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN113010688A (zh) * 2021-03-05 2021-06-22 北京信息科技大学 知识图谱构建方法、装置、设备及计算机可读存储介质
CN113392229A (zh) * 2021-08-13 2021-09-14 四川新龟科技有限公司 供应链关系构建和预测方法、装置、设备、存储介质
CN114254126A (zh) * 2021-12-21 2022-03-29 钛镕智能科技(苏州)有限公司 一种基于大数据的供应链知识图谱分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881430A (zh) * 2023-09-07 2023-10-13 北京上奇数字科技有限公司 一种产业链识别方法、装置、电子设备及可读存储介质
CN116881430B (zh) * 2023-09-07 2023-12-12 北京上奇数字科技有限公司 一种产业链识别方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110612525B (zh) 通过使用交流话语树启用修辞分析
Bharadiya A comparative study of business intelligence and artificial intelligence with big data analytics
CN113990495B (zh) 一种基于图神经网络的疾病诊断预测***
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答***
WO2021093821A1 (zh) 智能助理评价、推荐方法、***、终端及可读存储介质
CN112106056A (zh) 构造虚构的话语树来提高回答聚敛性问题的能力
CN110968701A (zh) 用于图神经网络的关系图谱建立方法以及装置、设备
CN111222681A (zh) 用于企业破产风险预测的数据处理方法以及装置、设备、存储介质
EP3746916A1 (en) Using communicative discourse trees to detect a request for an explanation
CN110674312B (zh) 构建知识图谱方法、装置、介质及电子设备
CN106407999A (zh) 结合规则来进行机器学习的方法及***
US20220253611A1 (en) Techniques for maintaining rhetorical flow
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
Seebacher Predictive intelligence for data-driven managers
Van Cranenburgh et al. Choice modelling in the age of machine learning
CN113672599A (zh) 通过创建领域知识图谱实现政务信息化项目建设管理的可视化辅助决策方法
CN114428864A (zh) 知识图谱的构建方法、装置、电子设备及介质
Liu et al. Text classification in tourism and hospitality–a deep learning perspective
CN111143573B (zh) 基于用户反馈信息进行知识图谱目标节点预测的方法
Addi et al. An ontology-based model for credit scoring knowledge in microfinance: Towards a better decision making
Goertzel et al. Real-World Reasoning: Toward Scalable, Uncertain Spatiotemporal, Contextual and Causal Inference
Vergara et al. A Schematic Review of Knowledge Reasoning Approaches Based on the Knowledge Graph
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
CN114902230A (zh) 改进的话语解析
Zhang et al. Business chatbots with deep learning technologies: State-of-the-art, taxonomies, and future research directions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220503