CN110879843A - 基于机器学习的自适应知识图谱技术 - Google Patents

基于机器学习的自适应知识图谱技术 Download PDF

Info

Publication number
CN110879843A
CN110879843A CN201910722435.XA CN201910722435A CN110879843A CN 110879843 A CN110879843 A CN 110879843A CN 201910722435 A CN201910722435 A CN 201910722435A CN 110879843 A CN110879843 A CN 110879843A
Authority
CN
China
Prior art keywords
information
graph
feature vector
feature
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910722435.XA
Other languages
English (en)
Other versions
CN110879843B (zh
Inventor
赵继胜
吴宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fu Dian Intelligent Technology Co Ltd
Original Assignee
Shanghai Fu Dian Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fu Dian Intelligent Technology Co Ltd filed Critical Shanghai Fu Dian Intelligent Technology Co Ltd
Priority to CN201910722435.XA priority Critical patent/CN110879843B/zh
Publication of CN110879843A publication Critical patent/CN110879843A/zh
Application granted granted Critical
Publication of CN110879843B publication Critical patent/CN110879843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种以机器学习技术对多种信息建立索引和关联的知识图谱实现技术。本发明侧重于对以非结构化数据为主的信息进行特征判别,并结合信息关联,生成以信息关联为基础的图数据库***。不同于针对结构化信息的图数据库***,本项发明针对目前广泛出现在商业应用中的非结构化数据(如图像,音视频等)的提取与关联(参见附图)构成的挑战,以机器学习特征提取作为技术基础,并通过伴随数据改变而实现的自适应数据特征修正技术,构建出结构化与非结构化数据结合的以特征关联为基础的图数据库索引***,并以此实现知识图谱,从而实现对大规模数据的自动化知识图谱构建。该项技术可用广泛的应用于智能应用环境中的各种数据分析、查询场景。

Description

基于机器学习的自适应知识图谱技术
技术领域
本发明属于涉及信息技术领域,尤其是涉及通过机器学习技术构建知识图谱的技术。该技术使用深度神经网络对不同类型的非结构化数据进行特征提取,在此基础上以自适应方式对不断更新的知识库记录进行自适应信息关联,从而简化了信息采集和知识图谱构建的过程,可以对大规模数据进行自动化知识图谱构建。该项技术可用广泛的应用于智能应用环境中的各种数据分析、查询场景。该项技术可用广泛的应用于商业智能、智能信息检索和涉及智慧城市的自动信息关联等场景。
背景技术
知识图谱将信息以单体间关联的方式进行表达,因此知识图谱通常以图的形式表达(如附图3)。‘mike’与‘jason’之间的关系为‘师生’,此处‘mike’与‘jason’是信息单体,而‘师生’则是他们之间的信息关联。知识图谱作为智能***的基础已经广泛应用于各类场景,包括商业智能、智能投研等需要对不同类型知识点进行关联搜索的应用。随着应用场景和需求的不断发展,数据增量主要来自于不同类型的非结构化数据(例如两张图片之间的信息关联),因此对以非结构化数据为主信息库以自动化的方式生成知识关联(参见附图2),可以为构建商业智能平台提供更为便利的技术支撑,同时也是目前知识图谱***设计的技术难题。在图数据库中,信息单体间的关联通过单体间的标注实现。对于非结构化数据,特别是对具有极大相似特征的信息单体(例如‘mike’的不同照片均表达同一人物),可以相同的方式进行关联标注,这样可以避免对大量数据进行手工标注的工作量。同时,随着人工修改关联信息的内容和方式,对随后加入的信息单体间的自动化关联也会产生影响。
深度神经网络已经广泛应用于不同类型的人工智能数据判别和分析领域,在对非结构化数据处理方面页取得了良好的进展。特别是在自然语言处理方面,基于递归神经网络和其变体的神经网络技术已经可以很好的应用于语音识别和语音、文本特征提取。在图形图像领域,深度卷积网络和其变体已经广泛应用于智能安防、医疗健康等领域,对图片的特征提取已经取得了长足进步。
本项发明通过提供一种基于对非结构化数据进行特征提取(参见附图4),并以特征相似度对类似的信息施加相同的信息关联的自动化知识图谱构建技术。该项技术可以为智能应用***基础的知识图谱提供对非结构化数据的自动化管理,为数据采集和处理分类提供了极大的便利。为商业智能(产品推荐)和学术研究(相关信息检索和搜索)提供有效支持。
发明内容
本项发明设计了一种面向非结构化信息的自动化关联的技术,通过自动化关联,信息可以在有限的用户标注关联信息的基础上对后续输入的结构化/非结构化信息进行自动关联,形成知识图谱的自适应构建。具体包括:
1.提供对各种类型的非结构化信息进行自动化特征向量生成的能力,包括音频信息、视频信息、文本信息和图片信息;
2.通过对特征向量进行相似度比对,确定相似信息的能力;
3.对相似信息引入相同的信息关联标注。
面向非结构化信息关联的自适应知识图谱构建(参见附图1、5)包括如下步骤:
1.构建特征提取训练模型(参见附图4):
a.对于文本类型的特征提取模型:使用doc2vec技术在收集的文本素材上构建文本向量化模型;
b.对于图片类型的特征提取模型:收集图片和分类标注信息作为训练样本,通过resnet网络架构训练深度神经网络,并以训练好的网络的全连接层输出作为特征提取向量输出;
c.对于通过递归神经网络进行特征向量生成的音视频信息,通过以标签(通常采用音视频名称或作者)来表识训练数据集,建立基于递归神经网络的预测模型,再以训练好的递归神经网络模型的序列编码作为输出,即生成特征向量。
2.信息相似度比对***:
a.对每种非结构化数据构建以(特征向量,数据实体)为单元的特征向量数据表(参见附图7),该表通过特征向量进行排序;
b.新***的信息单体需要记录在特征向量数据表,并按照特征向量的排序***相应的位置;
c.并根据特征相似度检查相似信息的关联内容;
d.为新的信息单体建立与将相似信息的关联内容相同的信息关联;
3.自动建立信息关联:
a.在特征向量数据表中为新***数据查找相似信息;
b.提取相似信息的关联内容;
c.为新的信息单体建立与将相似信息的关联内容相同的信息关联。
本项发明的上述技术方案有益结果如下:
在商业智能、金融智能投研和学术信息收集等领域,需要针对海量的非结构化信息作自动化信息关联,以快速构建知识图谱。目前的技术局限于手工标注信息关联,对非结构化信息存在的大量相似性,手工操作无法满足对信息不断增长、及时更新知识图谱的需求。本项发明通过使用深度神经网络实现对非结构化信息的特征向量生成,结合特征向量的相似度比对,依据对相似的信息采用相同的信息关联的方式,实现在海量非结构化信息采集的同时,以自适应方式构建知识图谱的能力。本项发明为高效的收集数据同时,自动构建知识图,为商业智能提供了更为精确和便捷的以非结构化信息为主的知识图谱支持。为面向大规模的非结构化数据检索、信息推荐和分析,提供了高效的技术平台。
附图说明
图1知识图谱构建:人工标注vs.基于机器学习的自动标注
图2结构化/非结构化信息知识图谱
图3结构化信息知识图谱
图4多种非结构化信息的特征向量生成
图5通过Neo4J实现知识图谱
图6通过对Neo4J扩展特征提取和比对,实现非结构化信息知识图谱的自适应生成
图7特征向量数据表
具体实施方式
根据发明内容中所阐述的构建面向非结构化数据信息关联的分析技术框架,其具体实现如下几节所述:本项发明的知识图谱***由图数据库Neo4J(参见附图4)来实现,Neo4J是广泛应用的稳定的图数据引擎,支持结构化信息和非结构化信息。对自适应知识图谱的构建需要对Neo4J做如下几方面扩展(参见附图6):
a.非结构化信息的特征向量生成***(参见附图6);
b.管理各种非结构化信息的特征向量数据表(参见附图7),对每一种非结构化信息到对应的特征向量数据表的对应关系由特征向量管理表存储;
构建特征提取训练模型:
a.对音频类型的非机构和信息的特征向量表达能力:对音频信号通过递归神经网络网络实现编码,递归神经网络的结构为1000个输入单元,500个隐含神经元;
b.对文本类型的非结构化信息的特征提取和向量化表达,所用算法以doc2vec为基础,该算法是***词向量技术的扩展,通过采用针对宽采样窗体(采样宽度为200)来实现对文本信息的精确特征捕捉和特征向量生成;
c.对图片类型的非结构化信息的特征向量化表达能力:使用以残差网络resnet-50作为特征提取算法,通过其全连接层作为特征向量输出,特征向量长度设定为128;
d.对视频类型的非结构化信息的特征向量表达能力:视频信息的特征向量生成需要采用3中的基于图片的特征向量生成技术对从视频中定期截取的帧进行编码(生成特征向量,对于每一帧的特征向量长度设定为32,采样数量为128),再将向量集合通过递归神经网络网络实现再编码,从而生成视频信息对应的特征向量,用于编码的递归神经网络架构为4096个输入单元,800个隐含神经元。
训练数据:
a.对于文本类型的特征提取模型,需要收集文本素材作为训练数据集;
b.对于图片类型的特征提取模型,需要收集图片和分类标注信息作为训练样本;
c.对于通过递归神经网络进行特征向量生成的音视频信息,通过以标签(通常采用音视频名称或作者)来表识训练数据集。
信息相似度比对***:
a.对每种非结构化数据,在Neo4J中创建以(特征向量,数据实体)为单元的特征向量数据表,该表通过特征向量进行排序;
b.新***的信息单体需要记录在特征向量数据表,并按照特征向量的排序***相应的位置;
自动建立信息关联:
c.对新***的信息单体I,从对应的特征向量数据表中找到相似度最接近的k个信息单体[J0,J1,…Jk-1];
d.对于相似的信息单体[J0,J1,…Jk-1],收集其关联信息集合Rj;
e.为信息单体I添加Rj中所有的关联信息;
特征向量的排序按照标准的几何向量排序方式。
相似度比对方式为计算两个特征向量之间的KL散度数值,相似单体的数量k通常设置为3或5。

Claims (16)

1.基于机器学习的自适应知识图谱技术,包括:
本发明通过机器学习技术构建知识图谱的技术。该技术使用深度神经网络对不同类型的非结构化数据进行特征提取,在此基础上以自适应方式对不断更新的知识库记录进行自适应信息关联,从而简化了信息采集和知识图谱构建的过程,可以对大规模数据进行自动化知识图谱构建。该项技术可用广泛的应用于智能应用环境中的各种数据分析、查询场景。该项技术可用广泛的应用于商业智能、智能信息检索和涉及智慧城市的自动信息关联等场景。
本项发明设计了一种面向非结构化信息的自动化关联的技术,通过自动化关联,信息可以在有限的用户标注关联信息的基础上对后续输入的结构化/非结构化信息进行自动关联,形成知识图谱的自适应构建。具体包括:
A.提供对各种类型的非结构化信息进行自动化特征向量生成的能力,包括音频信息、视频信息、文本信息和图片信息;
B.通过对特征向量进行相似度比对,确定相似信息的能力;
C.对相似信息引入相同的信息关联标注。
2.根据权利要求1.基于机器学习的自适应知识图谱技术,其特征在于实现对面向非结构化信息的自动化关联的技术,通过自动化关联,信息可以在有限的用户标注关联信息的基础上对后续输入的结构化/非结构化信息进行自动关联,形成知识图谱的自适应构建。
3.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于通过对特征向量进行相似度比对,确定相似信息的能力。
4.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于对相似信息引入相同的信息关联标注。
5.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于对文本类型的非结构化信息的特征提取和向量化表达,所用算法以doc2vec为基础,该算法是***词向量技术的扩展,通过采用针对宽采样窗体(采样宽度为200)来实现对文本信息的精确特征捕捉和特征向量生成。
6.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于对音频类型的非机构和信息的特征向量表达能力:对音频信号通过递归神经网络网络实现编码,递归神经网络的结构为1000个输入单元,500个隐含神经元。
7.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于对图片类型的非结构化信息的特征向量化表达能力:使用以残差网络resnet-50作为特征提取算法,通过其全连接层作为特征向量输出,特征向量长度设定为128。
8.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于对视频类型的非结构化信息的特征向量表达能力:视频信息的特征向量生成需要采用3中的基于图片的特征向量生成技术对从视频中定期截取的帧进行编码(生成特征向量,对于每一帧的特征向量长度设定为32,采样数量为128),再将向量集合通过递归神经网络网络实现再编码,从而生成视频信息对应的特征向量,用于编码的递归神经网络架构为4096个输入单元,800个隐含神经元。
9.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于可以通过对已有的开源或商业版本图数据库***进行扩展来实现,所需扩展模块包括:基于机器学习的特征提取***、特征比对***(包括使用特征向量表来维护每一个信息单体和其特征向量的对应关系)。
10.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于在图数据库中提供用于管理各种非结构化信息的特征向量数据表,对每一种非结构化信息到对应的特征向量数据表的对应关系由特征向量管理表存储。
11.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于提供基于图数据库Neo4J的自适应知识图谱***实现。
12.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于对每种非结构化数据,在Neo4J中创建以(特征向量,数据实体)为单元的特征向量数据表,该表通过特征向量进行排序。
13.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于对向图数据库Neo4J中新***的信息单体,需要记录在特征向量数据表,并按照特征向量的排序***相应的位置。
14.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于对向图数据库Neo4J中新***的信息单体I,从对应的特征向量数据表中找到相似度最接近的k个信息单体,并收集其关联信息集合Rj,为信息单体I添加Rj中所有的关联信息,从而实现对信息单体I自动化标注。
15.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于特征向量的排序按照标准的几何向量排序方式。
16.根据权利要求1基于机器学习的自适应知识图谱技术,其特征在于相似度比对方式为计算两个特征向量之间的KL散度数值,相似单体的数量k通常设置为3或5。
CN201910722435.XA 2019-08-06 2019-08-06 基于机器学习的构建自适应知识图谱技术的方法 Active CN110879843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910722435.XA CN110879843B (zh) 2019-08-06 2019-08-06 基于机器学习的构建自适应知识图谱技术的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910722435.XA CN110879843B (zh) 2019-08-06 2019-08-06 基于机器学习的构建自适应知识图谱技术的方法

Publications (2)

Publication Number Publication Date
CN110879843A true CN110879843A (zh) 2020-03-13
CN110879843B CN110879843B (zh) 2020-08-04

Family

ID=69727426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910722435.XA Active CN110879843B (zh) 2019-08-06 2019-08-06 基于机器学习的构建自适应知识图谱技术的方法

Country Status (1)

Country Link
CN (1) CN110879843B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023130837A1 (zh) * 2022-01-10 2023-07-13 华南理工大学 面向科研应用的自动机器学***台及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047441A1 (en) * 2004-08-31 2006-03-02 Ramin Homayouni Semantic gene organizer
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
US9606988B2 (en) * 2014-11-04 2017-03-28 Xerox Corporation Predicting the quality of automatic translation of an entire document
CN106844723A (zh) * 2017-02-10 2017-06-13 厦门大学 基于问答***的医学知识库构建方法
CN106886572A (zh) * 2017-01-18 2017-06-23 中国人民解放军信息工程大学 基于Markov逻辑网的知识图谱关系类型推测方法及其装置
CN107944898A (zh) * 2016-10-13 2018-04-20 驰众信息技术(上海)有限公司 广告投放楼宇信息的自动发现与排序方法
CN109697233A (zh) * 2018-12-03 2019-04-30 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN109918478A (zh) * 2019-02-26 2019-06-21 北京悦图遥感科技发展有限公司 基于知识图谱获取地理产品数据的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047441A1 (en) * 2004-08-31 2006-03-02 Ramin Homayouni Semantic gene organizer
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
US9606988B2 (en) * 2014-11-04 2017-03-28 Xerox Corporation Predicting the quality of automatic translation of an entire document
CN107944898A (zh) * 2016-10-13 2018-04-20 驰众信息技术(上海)有限公司 广告投放楼宇信息的自动发现与排序方法
CN106886572A (zh) * 2017-01-18 2017-06-23 中国人民解放军信息工程大学 基于Markov逻辑网的知识图谱关系类型推测方法及其装置
CN106844723A (zh) * 2017-02-10 2017-06-13 厦门大学 基于问答***的医学知识库构建方法
CN109697233A (zh) * 2018-12-03 2019-04-30 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN109918478A (zh) * 2019-02-26 2019-06-21 北京悦图遥感科技发展有限公司 基于知识图谱获取地理产品数据的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023130837A1 (zh) * 2022-01-10 2023-07-13 华南理工大学 面向科研应用的自动机器学***台及装置

Also Published As

Publication number Publication date
CN110879843B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN111090987B (zh) 用于输出信息的方法和装置
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN106570708B (zh) 一种智能客服知识库的管理方法及***
CN110750656B (zh) 一种基于知识图谱的多媒体检测方法
CN108920544A (zh) 一种基于知识图谱的个性化职位推荐方法
CN111931061B (zh) 标签映射方法、装置、计算机设备及存储介质
CN113590850A (zh) 多媒体数据的搜索方法、装置、设备及存储介质
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和***及设备
CN107871158A (zh) 一种结合序列文本信息的知识图谱表示学习方法及装置
CN112528010B (zh) 知识推荐方法、装置、计算机设备及可读存储介质
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN102855317A (zh) 一种基于演示视频的多模式索引方法及***
CN112580362A (zh) 一种基于文本语义监督的视觉行为识别方法、***及计算机可读介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN117076693A (zh) 一种数字人教师多模态大语言模型预训练学科语料库的构建方法
CN114519397B (zh) 基于对比学习的实体链接模型的训练方法、装置、设备
CN115204156A (zh) 关键词提取方法及装置
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116150404A (zh) 一种基于联合学习的教育资源多模态知识图谱构建方法
CN107247709B (zh) 一种百科词条标签的优化方法及***
CN117216293A (zh) 一种多方式查询高校档案知识图谱构建方法及管理平台
CN110110218A (zh) 一种身份关联方法及终端
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及***
CN114329181A (zh) 一种题目推荐方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant