CN108182245A - 人对象属性分类知识图谱的构建方法及装置 - Google Patents

人对象属性分类知识图谱的构建方法及装置 Download PDF

Info

Publication number
CN108182245A
CN108182245A CN201711463823.8A CN201711463823A CN108182245A CN 108182245 A CN108182245 A CN 108182245A CN 201711463823 A CN201711463823 A CN 201711463823A CN 108182245 A CN108182245 A CN 108182245A
Authority
CN
China
Prior art keywords
concept
people
data
illustrative plates
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711463823.8A
Other languages
English (en)
Inventor
谢永恒
王梅
火莽
火一莽
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201711463823.8A priority Critical patent/CN108182245A/zh
Publication of CN108182245A publication Critical patent/CN108182245A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了人对象属性分类知识图谱的构建方法、装置、***及存储介质。该方法包括:获取人对象数据,对所述人对象数据进行概念抽取,确定所述人对象的至少一个概念;根据预设规则确定概念的属性分类和各概念间的关联关系;根据所述概念的属性分类和所述概念的关联关系构建人对象属性分类知识图谱。本发明实施例解决了人对象属性的分类混乱、信息不统一的问题,实现了自动建立人对象属性分类知识图谱,提高了人对象属性的概括的全面性和统一性。

Description

人对象属性分类知识图谱的构建方法及装置
技术领域
本发明实施例涉及大数据挖掘技术,尤其涉及人对象属性分类知识图谱的构建方法及装置。
背景技术
随着信息化的快速发展,各行各业都面临着大数据处理的问题,如何从大数据中通过数据挖掘、机器学习等关键技术,从大数据中提出有价值的信息,支撑面临日益复杂的业务需求,是各行各业亟待解决的问题。越来越多行业的研究对象已经逐渐聚焦于人对象的研究,研究人对象的本质、人对象的行为及各种爱好和习惯,以此来提高服务质量同时能够获得更大的商业价值。
描述一个人对象是一个复杂的过程,许多“以人为本”的行业,在刻画人对象时没有统一的规范,属性多少和属性的分类均是按照各自需求,在属性分类无法全面的概括人对象的各个方面的信息。同时随着科技的高速发展,云计算和云处理等新技术正在构建一个由信息构成的“镜像世界”,并将真实和虚拟两个世界的信息人完全统一起来。虚拟世界使人的活动空间从现实延伸到虚拟空间。但是虚拟空间的核心之一的人对象的信息杂乱无章,无法清晰的描述和管理人对象的信息。
发明内容
本发明实施例提供一种基于人对象属性分类知识图谱的构建方法及装置,实现了自动构建人对象属性分类知识图谱。
第一方面,本发明实施例提供了一种人对象属性分类知识图谱的构建方法,该方法包括:
获取人对象数据,对所述人对象数据进行概念抽取,确定所述人对象的至少一个概念;
根据预设规则确定概念的属性分类和各概念间的关联关系,并根据所述概念的属性分类和所述概念的关联关系构建人对象属性分类知识图谱。
第二方面,本发明实施例还提供了一种人对象属性分类知识图谱的构建装置,该装置包括:
概念抽取模块,用于获取人对象数据,对所述人对象数据进行概念抽取,确定所述人对象的至少一个概念;
概念信息确定模块,用于根据预设规则确定概念的属性分类和各概念间的关联关系;
知识图谱构建模块,用于根据所述概念的属性分类和所述概念的关联关系构建人对象属性分类知识图谱。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例提供的一种人对象属性分类知识图谱的构建方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例提供的一种人对象属性分类知识图谱的构建方法。
本发明实施例通过对人对象数据进行概念抽取,确定人对象的至少一个概念,根据预设规则确定概念的属性分类和各概念间的关联关系,并构建人对象属性分类知识图谱,解决了人对象属性的分类混乱、信息不统一的问题,实现了自动建立人对象属性分类知识图谱,提高了人对象属性的概括的全面性和统一性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种人对象属性分类知识图谱的构建方法的流程示意图;
图2是本发明实施例一提供的人对象知识库示意图;
图3是本发明实施例二提供的一种人对象属性分类知识图谱的构建方法的流程示意图;
图4是本发明实施例三提供的一种人对象属性分类知识图谱的构建方法的流程示意图;
图5是本发明实施例四提供的一种人对象属性分类知识图谱的构建装置的结构示意图;
图6是本发明实施例提供五的一种计算机设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例中的附图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是本发明实施例一提供的一种人对象属性分类知识图谱的构建方法的流程图。本实施例的技术方案可以适用于对人对象属性进行分类的情况。该方法可以由本发明实施例提供的人对象属性分类知识图谱的构建装置来执行,该装置可以采用软件和/或硬件的方式实现。该方法具体包括如下操作:
S110、获取人对象数据,对人对象数据进行概念抽取,确定人对象的至少一个概念。
其中,人对象数据指的是与人对象相关的数据,可选的,人对象数据为人对象的知识数据。可选的,人对象的知识数据可以是通过对开放域知识提取获得,其中开放域知识可以是国家标准和行业标准等,行业标准例如可以是但不限于金融行业标准、教育行业标准、医药行业标准、建筑行业标准、交通运输行业标准、服装行业标准、旅游行业标准和电子行业标准等。可选的,人对象的知识数据还可以是公司制定的规范和长期积累的专家知识中提取获得。企业的信息化过程中积累的企业内部和外部信息、企业中涉及领域的专家提供的知识,这些知识特点是逐渐积累并丰富,在短时间内不会经常变化。
可选的,根据人对象相关的关键字在网络数据或者云数据中抓取人对象的知识数据。
可选的,对人对象数据进行概念抽取,确定人对象的至少一个概念,包括:抽取人对象的知识数据中的概念词;对概念词进行概念加工,生成至少一个概念,其中概念加工至少包括对概念词对应的数据进行数据清洗和数据规范化。
本实施例中,抽取人对象的知识数据中的概念词可以是通过人工方式或者自动方式获取,其中人工对人对象的知识数据进行概念词抽取指的是对人对象的知识数据进行分析、综合、整理和归纳,得到预设格式的概念。自动对人对象的知识数据进行概念词抽取可以是将人对象的知识数据输入至机器学习模型中,根据机器学习模型的输出结果确定概念词。示例性的,机器学习模型可以是神经网络模型。
概念加工对概念抽取的数据机械能预处理的过程,预处理包括但不限于数据清洗和数据规范化,其中,数据清洗可以包括但不限于数据去重和数据降噪,用于提高数据质量,数据规范化指的是将不同格式的数据转换为预设格式。其中,不同概念对应的数据格式可以是不同的,示例性的,概念性别对应的数据格式可以是性别女为0,性别男为1,其他为2;概念手机号码的数据格式为在手机号码前添加+86。对数据进行数据清洗和规范化处理,消减数据维数,以便减少数据开采时需要考虑的特征数量和变量数量。
S120、根据预设规则确定概念的属性分类和各概念间的关联关系。
其中,预设规则可以是预先设置的,还可以是不断学的得到的,根据预设规则可确定每一个概念的属性和概念的关联关系,对属性进行分类可确定概念的属性分类。示例性的,预设概念可以是如下述所示:
规则1->P(关系1,概念1,概念2);
规则2->P(关系2,概念2,概念3);
规则3->P(关系3,概念1,概念3);
规则4->P(概念1,属性1-属性n,属性值1-属性值n);
规则5->P(概念2,属性1-属性n,属性值1-属性值n)。
其中,概念的关联关系指的是两个概念之间的关系,示例性的,参见表1,表1为概念关系的示例。
表1
概念关系 英文 说明
子类关系 is-a(kind-of) 表示父类与子类的关系
部分关系 part-of 表示整体与部分的关系
实例关系 instance-of 表示概念的实例与概念间的关系
属性关系 attribute-of 表示概念与属性关系
伴随关系 follow-of 表示两个概念同时出现
等价关系 equal-of 表示两个概念内容相同
S130、根据概念的属性分类和概念的关联关系构建人对象属性分类知识图谱。
其中,人对象属性分类知识图谱指的是显示人对象属性与结构关系的一系列各种不同的图形,用可视化技术描述人对象属性,挖掘、分析、构建、绘制和显示人对象属性及它们之间的相互联系。可选的,可以是预先设置有人对象属性的知识图谱框架,将概念的关联关系将概念的属性分类填充至知识图谱框架中,生成人对象属性分类知识图谱。
可选的,根据概念的关联关系确定知识图谱框架,并根据至少一个概念和概念的属性分类填充知识图谱框架,生成人对象属性分类知识图谱。
本实施例的技术方案,通过对人对象数据进行概念抽取,确定人对象的至少一个概念,根据预设规则确定概念的属性分类和各概念间的关联关系,并构建人对象属性分类知识图谱,解决了人对象属性的分类混乱、信息不统一的问题,实现了自动建立人对象属性分类知识图谱,提高了人对象属性的概括的全面性和统一性。
在上述实施例的基础上,在步骤S130之后,还可以包括:建立人对象知识库,其中,人对象知识库包括预设规则、标记数据和模型。其中,预设规则用于将概念以规则的形式表示和存储,标记数据指的是用于进行概念抽取的人对象数据,模型指的是用于概念加工和概念抽取的模型,包括但不限于语义分析模型、概念抽取模型、概念属性抽取模型和概念关系提取模型,示例性的,参见图2,图2是本发明实施例一提供的人对象知识库示意图。
需要说明的是,人对象知识库用于对新的人对象数据进行概念提取,可以是不断更新的,不断提高概念抽取的准确度。
实施例二
图3是本发明实施例二提供的一种人对象属性分类知识图谱的构建方法的流程图。本发明实施例在上述实施例的基础上,提供了确定人对象的至少一个概念的方法。
相应地,本实施例的方法包括:
S210、提取人对象的样本数据的数据结构和数据,其中,样本数据为结构化数据。
其中,人对象的样本数据为包含人对象的详细数据信息的结构化数据,示例性的,人对象的样本数据可以是数据表形式。人对象的样本数据可以是通过网络获取,还可以是通过公司存储的人对象的数据报表获取。
可选的,人对象的样本数据可以是根据人对象相关的关键字在网络数据或者云数据中抓取人对象的样本数据。其中,通过网络抓取生成人对象的样本数据集,包含大量的人对象的样本数据。
本实施例中,对人对象的样本数据进行数据提取,生成数据结构和数据,其中数据结构可以是数据表的表头,数据可以是数据表中的实体数据。
S220、对数据结构或数据进行概念抽取,生成人对象的至少一个概念。
本实施例中,可以是通过数据结构或数据两个维度进行概念抽取,生成人对象的至少一个概念。
可选的,对数据结构进行概念抽取,生成人对象的至少一个概念,包括:对数据结构的元数据进行聚类处理,根据聚类结果确定至少一个概念。
其中,元数据可以是数据表的标题或者表头,用于描述数据。聚类处理指的是将物理或抽象对象的集合分成由类似的对象组成的多个类,示例性的,可以是将手机号码和固定电话归为一类,将姓名和曾用名归为一类;将护照号和身份证号归为一类。
可选的,对数据结构进行概念抽取,还可以是对数据结构的元数据进行相似计算,将相似数值大于预设值的概念词归为一类。
可选的,根据对数据结构的聚类处理或相似性计算的分类结构,对分类后的元数据进行提取和合并,生成至少一个概念。
可选的,对数据进行概念抽取,生成人对象的至少一个概念,包括:将数据输入至机器学习模型,根据机器学习模块的输出结果至少一个概念。
本实施例中,机器学习模型为概念抽取模型,例如可以是神经网络模型。可选的,将数据输入至机器学习模型之前,对数据进行数据格式规范化处理,将数据转换为统一数据格式,概念抽取模型用于识别数据格式和数据内容,并对数据进行分类,将分类后的数据进行归纳,生成至少一个概念。
S230、根据预设规则确定概念的属性分类和各概念间的关联关系。
本实施例中,针对数据结构和数据两个维度,对应的预设规则可以是不同的。
可选的,步骤S230包括:
根据数据结构中的元数据确定概念的数据元组,其中,数据元组至少包括概念、概念属性和概念的关联关系。
数据元组指的是元数据的规则化描述,本实施例中,数据元组可以是三元组或五元组。其中三元组可以是包括概念、概念属性和概念的关联关系。
可选的,步骤S230包括:对机器学习模块的输出结果进行提取与合并,确定概念的属性分类,根据预设规则确定概念的关联关系。
本实施例中,通过对机器学习模块的输出结果进行提取与合并,获取概念和概念属性,并将属性相同的概念确定为同一分类中。可以是通过属性的关系确定对应的概念的关联关系,还可以是根据预先设置的预设规则确定概念的关联关系。
S240、根据概念的属性分类和概念的关联关系构建人对象属性分类知识图谱。
可选的,步骤S240,可以包括:
根据映射规则和至少一个概念构建人对象属性分类知识图谱,其中,映射规则包括将数据结构映射为知识图谱框架,将数据元组映射为实体,将属性分类映射为实体属性。本实施例中,通过数据结构映射生成知识图谱框架,其中知识图谱框架可以是树结构形式,还可以是调用预先设置的知识图谱框架。根据数据元组映射为实体,将属性分类映射为实体属性,生成人对象属性分类结构。
可选的,步骤S240还可以包括:根据概念的关联关系确定知识图谱框架,并根据至少一个概念和概念的属性分类填充知识图谱框架,生成人对象属性分类知识图谱。
本实施例,可以是根据概念的关联关系确定知识图谱框架,可以是调用预先设置的知识图谱框架,还可以是根据概念的关联关系对预先设置的知识图谱框架进行更新调整。
将至少一个概念和概念的属性分类填充知识图谱框架,生成人对象属性分类知识图谱。
本发明实施例的技术方案通过对人对象的样本数据的数据结构或数据进行概念提取,生成至少一个概念,确定概念属性分类和概念的关联关系,自动生成人对象属性分类知识图谱,实现了以样本数据为基础进行概念抽取,提高了概念的精度和人对象属性分类知识图谱的鲁棒性。
在上述实施例的基础上,还可以是将通过人对象的样本数据获得的概念、规则、样本数据和模型增加至人对象知识库中,对人对象知识库进行更新和丰富。
实施例三
图4是本发明实施例三提供的一种人对象属性分类知识图谱的构建方法的流程图,在上述实施例的基础上,对人对象属性分类知识图谱的构建提供的优化方法,相应地,本实施例的方法包括:
S310、抽取人对象的知识数据中的概念词。
S320、对概念词进行概念加工,生成至少一个概念,其中概念加工至少包括对概念词对应的数据进行数据清洗和数据规范化。
S330、根据预设规则确定概念的属性分类和各概念间的关联关系,并根据概念的属性分类和概念的关联关系构建人对象属性分类知识图谱。
S340、根据人对象的样本数据构建人对象属性分类的优化知识图谱。
本实施例中,根据人对象的样本数据构建人对象属性分类的优化知识图谱,可以是通过样本数据的数据结构和数据两个维度进行概念抽取,并根据预设知识图谱框架或者映射规则生成人对象属性分类的优化知识图谱。其中,人对象属性分类的优化知识图谱以人对象的样本数据为依据,准确度高,概括全面。
S350、根据优化知识图谱对人对象属性分类知识图谱进行校验和调整。
本实施例中,人对象属性分类知识图谱进行校验和调整包括,获取优化知识图谱与人对象属性分类知识图谱的差异,其中差异可以是但不限于概念的缺失、概念属性错误和属性分类错误,根据优化知识图谱对人对象属性分类知识图谱进行调整,其中调整包括增删改减。可选的,还可以是根据人对象属性分类知识图谱对优化知识图谱进行校验和调整。
需要说明的是,步骤S310-S330与步骤S340不存在时序关系,可以是同步执行,也可以是先执行步骤S340,再执行步骤S310-S330。
本发明实施例的技术方案通过人对象的知识数据和人对象的样本数据两个方面同时构建两个人对象属性分类知识图谱,并用任一人对象属性分类知识图谱对另一个人对象属性分类知识图谱进行校验和调整,提高了最终的人对象属性分类知识图谱的准确性。
在上述实施例的基础上,在构建人对象属性分类知识图谱之后,还包括:获取人对象的更新数据,根据所述更新数据确定调整信息;根据所述调整信息对所述人对象属性分类知识图谱进行更新,其中,所述调整信息包括对概念、概念属性以及概念关系的调整。
人对象的知识数据和人对象的样本数据具有时效性,根据预设间隔时间采集更新的人对象的知识数据和/或人对象的样本数据,通过对更新的人对象的知识数据和/或人对象的样本数据进行概念抽取,获取如下的至少一项:更新概念、更新概念属性和更新概念的管理关系,生成调整信息。根据调整信息对人对象属性分类知识图谱进行概念的增加、修改或删除,概念之间上下位关系,以及概念属性的更新。
本实施例中,对人对象属性分类知识图谱的更新还包括对实体的更新,其中,对实体的更新包括对增加、修改或更新实体,修改实体信息和属性值等。
本实施例中,通过定时采集更新的人对象数据,对人对象属性分类知识图谱进行更新,提高了人对象属性分类知识图谱的时效性和鲁棒性。
实施例四
图5是本发明实施例四提供的一种人对象属性分类知识图谱的构建装置的结构框图。该装置包括:
概念抽取模块410,用于获取人对象数据,对人对象数据进行概念抽取,确定人对象的至少一个概念;
概念信息确定模块420,用于根据预设规则确定概念的属性分类和各概念间的关联关系;
知识图谱构建模块430,用于根据概念的属性分类和概念的关联关系构建人对象属性分类知识图谱。
可选的,人对象数据为人对象的知识数据,相应的,概念抽取模块410具体用于:
抽取人对象的知识数据中的概念词;
对概念词进行概念加工,生成至少一个概念,其中概念加工至少包括对概念词对应的数据进行数据清洗和数据规范化。
可选的,人对象数据为人对象的样本数据,相应的,概念抽取模块410包括:
样本数据提取单元,提取人对象的样本数据的数据结构和数据,其中,样本数据为结构化数据;
概念抽取单元,对数据结构或数据进行概念抽取,生成人对象的至少一个概念。
可选的,概念抽取单元具体用于:
对数据结构的元数据进行聚类处理,根据聚类结果确定至少一个概念;或,
将数据输入至机器学习模型,根据机器学习模块的输出结果至少一个概念。
可选的,概念信息确定模块420具体用于:
根据数据结构中的元数据确定概念的数据元组,其中,数据元组至少包括概念、概念属性和概念的关联关系;或,
对机器学习模块的输出结果进行提取与合并,确定概念的属性分类,根据预设规则确定概念的关联关系。
可选的,知识图谱构建模块430具体用于:
根据映射规则和至少一个概念构建人对象属性分类知识图谱,其中,映射规则包括将数据结构映射为知识图谱框架,将数据元组映射为实体,将属性分类映射为实体属性;或,
根据概念的关联关系确定知识图谱框架,并根据至少一个概念和概念的属性分类填充知识图谱框架,生成人对象属性分类知识图谱。
可选的,装置还包括:
优化知识图谱构建模块,用于在根据人对象的知识数据构建人对象属性分类知识图谱之后,根据人对象的样本数据构建人对象属性分类的优化知识图谱;
知识图谱调整模块,用于根据优化知识图谱对人对象属性分类知识图谱进行校验和调整。
可选的,装置还包括:
调整信息确定模块,用于在构建人对象属性分类知识图谱之后,获取人对象的更新数据,根据更新数据确定调整信息;
知识图谱更新模块,用于根据调整信息对人对象属性分类知识图谱进行更新,其中,调整信息包括对概念、概念属性以及概念关系的调整。
本发明实施例所提供的人对象属性分类知识图谱的构建装置装置可执行本发明任意实施例所提供的人对象属性分类知识图谱的构建方法,具备执行方法相应的功能模块和有益效果。
实施例五
图6是本发明实施例五提供的一种计算机设备的结构示意图,该计算机设备包括:
一个或多个处理器510;
存储器520,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器510执行,使得所述一个或多个处理器510实现如本发明任意实施例提出的一种人对象属性分类知识图谱的构建方法。
图6中以一个处理器510为例;处理器510和存储器520可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的大数据查询方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的大数据查询方法。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
另外,根据计算机设备的不同形式,除了处理器510和存储器520,终端还可以包括其他模块或结构。
本实施例提出的计算机设备与本发明任意实施例提出的一种人对象属性分类知识图谱的构建方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见本发明实施例,并且本实施例与其具有相同的有益效果。
实施例六
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施提出的一种人对象属性分类知识图谱的构建方法。
本实施例提出的计算机可读存储介质与本发明任意实施例提出的一种人对象属性分类知识图谱的构建方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见本发明实施例,并且本实施例与其具有相同的有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种人对象属性分类知识图谱的构建方法,其特征在于,包括:
获取人对象数据,对所述人对象数据进行概念抽取,确定所述人对象的至少一个概念;
根据预设规则确定概念的属性分类和各概念间的关联关系;
根据所述概念的属性分类和所述概念的关联关系构建人对象属性分类知识图谱。
2.根据权利要求1所述的方法,其特征在于,人对象数据为人对象的知识数据,相应的,对所述人对象数据进行概念抽取,确定所述人对象的至少一个概念,包括:
抽取所述人对象的知识数据中的概念词;
对所述概念词进行概念加工,生成至少一个概念,其中概念加工至少包括对所述概念词对应的数据进行数据清洗和数据规范化。
3.根据权利要求1所述的方法,其特征在于,人对象数据为人对象的样本数据,相应的,对所述人对象数据进行概念抽取,确定所述人对象的至少一个概念,包括:
提取所述人对象的样本数据的数据结构和数据,其中,所述样本数据为结构化数据;
对所述数据结构或数据进行概念抽取,生成人对象的至少一个概念。
4.根据权利要求3所述的方法,其特征在于,对所述数据结构或数据进行概念抽取,生成人对象的至少一个概念,包括:
对所述数据结构的元数据进行聚类处理,根据聚类结果确定至少一个概念;或,
将所述数据输入至机器学习模型,根据所述机器学习模块的输出结果至少一个概念。
5.根据权利要求4所述的方法,其特征在于,根据预设规则确定概念的属性分类和各概念间的关联关系,包括:
根据所述数据结构中的元数据确定所述概念的数据元组,其中,所述数据元组至少包括所述概念、概念属性和概念的关联关系;或,
对所述机器学习模块的输出结果进行提取与合并,确定所述概念的属性分类,根据预设规则确定所述概念的关联关系。
6.根据权利要求5所述的方法,其特征在于,根据所述概念的属性分类和所述概念的关联关系构建人对象属性分类知识图谱,包括:
根据映射规则和所述至少一个概念构建人对象属性分类知识图谱,其中,映射规则包括将所述数据结构映射为知识图谱框架,将所述数据元组映射为实体,将属性分类映射为实体属性;或,
根据所述概念的关联关系确定知识图谱框架,并根据所述至少一个概念和所述概念的属性分类填充所述知识图谱框架,生成所述人对象属性分类知识图谱。
7.根据权利要求2所述的方法,其特征在于,在根据所述人对象的知识数据构建人对象属性分类知识图谱之后,还包括:
根据人对象的样本数据构建人对象属性分类的优化知识图谱;
根据所述优化知识图谱对所述人对象属性分类知识图谱进行校验和调整。
8.根据权利要求1-7任一所述的方法,其特征在于,在构建人对象属性分类知识图谱之后,还包括:
获取人对象的更新数据,根据所述更新数据确定调整信息;
根据所述调整信息对所述人对象属性分类知识图谱进行更新,其中,所述调整信息包括对概念、概念属性以及概念关系的调整。
9.一种人对象属性分类知识图谱的构建装置,其特征在于,包括:
概念抽取模块,用于获取人对象数据,对所述人对象数据进行概念抽取,确定所述人对象的至少一个概念;
概念信息确定模块,用于根据预设规则确定概念的属性分类和各概念间的关联关系;
知识图谱构建模块,用于根据所述概念的属性分类和所述概念的关联关系构建人对象属性分类知识图谱。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201711463823.8A 2017-12-28 2017-12-28 人对象属性分类知识图谱的构建方法及装置 Pending CN108182245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711463823.8A CN108182245A (zh) 2017-12-28 2017-12-28 人对象属性分类知识图谱的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711463823.8A CN108182245A (zh) 2017-12-28 2017-12-28 人对象属性分类知识图谱的构建方法及装置

Publications (1)

Publication Number Publication Date
CN108182245A true CN108182245A (zh) 2018-06-19

Family

ID=62548618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711463823.8A Pending CN108182245A (zh) 2017-12-28 2017-12-28 人对象属性分类知识图谱的构建方法及装置

Country Status (1)

Country Link
CN (1) CN108182245A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471947A (zh) * 2018-11-06 2019-03-15 北京锐安科技有限公司 一种数据的知识谱图构建方法、装置、设备及存储介质
CN109657074A (zh) * 2018-09-28 2019-04-19 北京信息科技大学 基于地址树的新闻知识图谱构建方法
CN109766454A (zh) * 2019-01-18 2019-05-17 国家电网有限公司 一种投资者分类方法、装置、设备及介质
CN109815343A (zh) * 2019-01-28 2019-05-28 北京百度网讯科技有限公司 获得知识图谱中的数据模型的方法、装置、设备和介质
CN109948911A (zh) * 2019-02-27 2019-06-28 北京邮电大学 一种计算网络产品信息安全风险的评估方法
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及***
CN110543573A (zh) * 2019-08-28 2019-12-06 珠海格力电器股份有限公司 一种基于知识图谱的垃圾分类方法及装置
CN110750649A (zh) * 2018-07-06 2020-02-04 中兴通讯股份有限公司 知识图谱构建及智能应答方法、装置、设备及存储介质
CN111046632A (zh) * 2019-11-29 2020-04-21 智器云南京信息科技有限公司 一种数据提取转换方法、***、存储介质及电子设备
CN111258995A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备
CN111737481A (zh) * 2019-10-10 2020-10-02 北京沃东天骏信息技术有限公司 知识图谱的降噪方法、装置、设备和存储介质
CN111984643A (zh) * 2020-06-29 2020-11-24 联想(北京)有限公司 一种知识图谱的构建方法、装置、知识图谱***及设备
WO2021012745A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备
CN112699909A (zh) * 2019-10-23 2021-04-23 中移物联网有限公司 信息识别方法、装置、电子设备及计算机可读存储介质
CN112765288A (zh) * 2021-02-05 2021-05-07 新华智云科技有限公司 知识图谱的构建方法及***、信息查询方法及***
CN115687932A (zh) * 2022-12-23 2023-02-03 阿里健康科技(中国)有限公司 多元组数据标注方法、模型训练方法、装置、设备和介质
CN117033527A (zh) * 2023-10-09 2023-11-10 之江实验室 一种知识图谱的构建方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN105574089A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、对象对比方法及装置
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置
CN107391677A (zh) * 2017-07-21 2017-11-24 深圳狗尾草智能科技有限公司 携带实体关系属性的中文通用知识图谱的生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN105574089A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、对象对比方法及装置
CN106156365A (zh) * 2016-08-03 2016-11-23 北京智能管家科技有限公司 一种知识图谱的生成方法及装置
CN107391677A (zh) * 2017-07-21 2017-11-24 深圳狗尾草智能科技有限公司 携带实体关系属性的中文通用知识图谱的生成方法及装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750649A (zh) * 2018-07-06 2020-02-04 中兴通讯股份有限公司 知识图谱构建及智能应答方法、装置、设备及存储介质
CN109657074A (zh) * 2018-09-28 2019-04-19 北京信息科技大学 基于地址树的新闻知识图谱构建方法
CN109657074B (zh) * 2018-09-28 2023-11-10 北京信息科技大学 基于地址树的新闻知识图谱构建方法
CN109471947A (zh) * 2018-11-06 2019-03-15 北京锐安科技有限公司 一种数据的知识谱图构建方法、装置、设备及存储介质
CN109766454A (zh) * 2019-01-18 2019-05-17 国家电网有限公司 一种投资者分类方法、装置、设备及介质
CN109815343B (zh) * 2019-01-28 2021-01-22 北京百度网讯科技有限公司 获得知识图谱中的数据模型的方法、装置、设备和介质
CN109815343A (zh) * 2019-01-28 2019-05-28 北京百度网讯科技有限公司 获得知识图谱中的数据模型的方法、装置、设备和介质
US11556812B2 (en) 2019-01-28 2023-01-17 Beijing Baidu Netcom Science Technology Co., Ltd. Method and device for acquiring data model in knowledge graph, and medium
CN109948911B (zh) * 2019-02-27 2021-03-19 北京邮电大学 一种计算网络产品信息安全风险的评估方法
CN109948911A (zh) * 2019-02-27 2019-06-28 北京邮电大学 一种计算网络产品信息安全风险的评估方法
CN110197280B (zh) * 2019-05-20 2021-08-06 中国银行股份有限公司 一种知识图谱构建方法、装置及***
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及***
WO2021012745A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备
CN110543573A (zh) * 2019-08-28 2019-12-06 珠海格力电器股份有限公司 一种基于知识图谱的垃圾分类方法及装置
CN111737481B (zh) * 2019-10-10 2024-03-01 北京沃东天骏信息技术有限公司 知识图谱的降噪方法、装置、设备和存储介质
CN111737481A (zh) * 2019-10-10 2020-10-02 北京沃东天骏信息技术有限公司 知识图谱的降噪方法、装置、设备和存储介质
CN112699909A (zh) * 2019-10-23 2021-04-23 中移物联网有限公司 信息识别方法、装置、电子设备及计算机可读存储介质
CN112699909B (zh) * 2019-10-23 2024-03-19 中移物联网有限公司 信息识别方法、装置、电子设备及计算机可读存储介质
CN111046632B (zh) * 2019-11-29 2023-11-10 智器云南京信息科技有限公司 一种数据提取转换方法、***、存储介质及电子设备
CN111046632A (zh) * 2019-11-29 2020-04-21 智器云南京信息科技有限公司 一种数据提取转换方法、***、存储介质及电子设备
CN111258995B (zh) * 2020-01-14 2022-11-11 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备
CN111258995A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备
CN111984643A (zh) * 2020-06-29 2020-11-24 联想(北京)有限公司 一种知识图谱的构建方法、装置、知识图谱***及设备
CN112765288A (zh) * 2021-02-05 2021-05-07 新华智云科技有限公司 知识图谱的构建方法及***、信息查询方法及***
CN115687932B (zh) * 2022-12-23 2023-03-28 阿里健康科技(中国)有限公司 多元组数据标注方法、模型训练方法、装置、设备和介质
CN115687932A (zh) * 2022-12-23 2023-02-03 阿里健康科技(中国)有限公司 多元组数据标注方法、模型训练方法、装置、设备和介质
CN117033527A (zh) * 2023-10-09 2023-11-10 之江实验室 一种知识图谱的构建方法、装置、存储介质及电子设备
CN117033527B (zh) * 2023-10-09 2024-01-30 之江实验室 一种知识图谱的构建方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN108182245A (zh) 人对象属性分类知识图谱的构建方法及装置
US20210165955A1 (en) Methods and systems for modeling complex taxonomies with natural language understanding
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和***
WO2021027595A1 (zh) 用户画像生成方法、装置、计算机设备和计算机可读存储介质
US9218568B2 (en) Disambiguating data using contextual and historical information
WO2013043160A1 (en) Text summarization
WO2019179010A1 (zh) 数据集获取方法、分类方法、装置、设备及存储介质
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
US20190197125A1 (en) Social analytics based on viral mentions and threading
CN112948575A (zh) 文本数据处理方法、装置和计算机可读存储介质
US20230244862A1 (en) Form processing method and apparatus, device, and storage medium
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111062490B (zh) 一种包含隐私数据的网络数据的处理、识别方法及装置
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN104102662A (zh) 一种用户兴趣偏好相似度确定方法及装置
CN116628228B (zh) 一种rpa流程推荐方法以及计算机可读存储介质
CN111159411B (zh) 一种融合知识图谱的文本立场分析方法、***及存储介质
CN110264311B (zh) 一种基于深度学习的商业推广信息精准推荐方法及***
CN114445043B (zh) 基于开放生态化云erp异质图用户需求精准发现方法及***
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN105095324A (zh) 用户分类装置、用户分类方法以及电子设备
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN113988878A (zh) 一种基于图数据库技术的反欺诈方法及***
CN113779248A (zh) 数据分类模型训练方法、数据处理方法及存储介质
CN112632284A (zh) 用于未标注文本数据集的信息抽取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180619

RJ01 Rejection of invention patent application after publication