CN115292520A - 一种面向多源移动应用知识图谱构建方法 - Google Patents

一种面向多源移动应用知识图谱构建方法 Download PDF

Info

Publication number
CN115292520A
CN115292520A CN202211187813.7A CN202211187813A CN115292520A CN 115292520 A CN115292520 A CN 115292520A CN 202211187813 A CN202211187813 A CN 202211187813A CN 115292520 A CN115292520 A CN 115292520A
Authority
CN
China
Prior art keywords
app
entity
mobile application
entities
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211187813.7A
Other languages
English (en)
Other versions
CN115292520B (zh
Inventor
李炜卓
罗维柒
张浩魏
边宇阳
周文博
隋永波
季秋
高辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211187813.7A priority Critical patent/CN115292520B/zh
Publication of CN115292520A publication Critical patent/CN115292520A/zh
Application granted granted Critical
Publication of CN115292520B publication Critical patent/CN115292520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向多源移动应用知识图谱构建方法,基于获取的来自不同数据源的移动应用数据,生成三元组集合;对实体与关系进行编码,获得对应的向量表示;计算实体向量之间的相似度,将相似度超过设定阈值的向量表示所对应的实体确定为初始语义等价实体对,并确定种子集合;根据元规则从种子集合中推理出潜在语义等价实体对;计算潜在语义等价实体对成立的概率;将计算的概率与设定概率阈值比较,根据比较结果最终确定多源移动应用中实体之间的语义等价关系,进而获得多源移动应用知识图谱。本发明可以显著降低多源数据在知识图谱构建过程中实体语义等价关系的人工标注成本。

Description

一种面向多源移动应用知识图谱构建方法
技术领域
本发明属于知识工程中知识表示与处理领域,具体涉及一种在数据多源情况下,移动应用知识图谱构建方法。
背景技术
随着智能手机和移动设备的普及,移动应用(简称“APP”) 的数量迅速增长,为人们进行网上购物、教育、理财等诸多方面提供了诸多的便利。
然而,随着越来越多的APP被开发与发布,网络上也存在诸多含有恶意风险的APP,它们或传播不良信息、或侵犯用户隐私,甚至违反国家信息安全法令。对普通的网民来说,构建全面的移动应用知识库信息有助于用户查询和预防APP的欺诈;对网络安全分析人员来说,全面的移动应用知识图谱不仅可以帮助网络安全分析人员更加快速地找出潜在风险,也可以在一定程度上确保移动网络的安全。
尽管在相关领域的研究中,有DREBIN、AndroZoo++、AndroVault等移动应用知识库被学者提出。但这些知识库的构建仅聚焦于单一数据来源、整体数据量较少、属性不够全面等问题,从而无法全面地展示APP的信息。另一方面,已有的APP知识库重点聚焦在单个APP底层数据(如: 应用权限、应用隐私) 的分析上,导致此类方法在一定程度上缺少对APP之间的关联性分析,无法实现多源数据之间APP的共享与重用。为此,从多源数据中构建移动应用知识图谱,建立不同数据源之间APP的语义关联,对于APP的上层应用分析(如:风险预警、风险关联)有着十分重要。同时,它也能为知识工程与网络安全社区的研究提供高质量的数据资源。
发明内容
本发明旨在从多源数据中构建移动应用知识图谱,来获取低成本、高质量的移动应用知识图谱。
为实现该技术目的,本发明采用以下技术方案:
本发明提供一种面向多源移动应用知识图谱构建方法,包括:
基于获取的来自不同数据源的移动应用数据,生成三元组集合{(S o _app z , r,e)},其中S o _app z 对应头实体,S o _app z 定义为第o种数据来源编号为z的移动应用,r 对应关系,e对应尾实体;
分别对实体与关系进行编码,获得对应的向量表示;
利用余弦值计算实体向量之间的相似度,将相似度超过设定阈值的向量表示所对应的实体初步确定为实体的语义等价对;
根据初步确定的实体的语义等价对确定种子集合,根据元规则从所述种子集合中推理出潜在的实体或关系的语义等价对;
根据概率图模型计算潜在的实体或关系的语义等价对成立的概率;将计算的概率与设定概率阈值比较,根据比较结果最终确定多源移动应用中实体或关系之间的语义等价关系,进而获得多源移动应用知识图谱。
进一步地,分别对实体与关系进行编码,获得对应的向量表示,包括:
采用“主语谓语为宾语”的形式对每个三元组进行句子陈述表达,句子表示为:(S o _app z [SEP]r[SEP]为[SEP]e);其中[SEP]为分词符标识,“S o _app z ”、“r” 、“为”和“e”均看作是分词过程中的词块;
将句子作为输入,采用适配中文预训练模型BERT对分词获得的词块进行编码,获得每个三元组中“S o _app z ”、“r”和“e”的向量表示。
进一步地,对实体与关系进行编码的过程中,基于同义词词典将分词后词块中的名词或者形容词按照替换概率随机替换为其同义词,替换概率的计算公式如下:
Figure 115001DEST_PATH_IMAGE001
其中,t i 为句子中的词块,n w 为句子中词块的个数,j为词块的序号,w(t i )为替换句子中的词块t i 所带来的损失,exp(.)为幂指数函数。
进一步地,所述种子集合记为ES=AES⋃RES⋃EES,其中AES表示头实体的语义等价对集合,RES表示关系的语义等价对集合,EES表示尾实体的语义等价对集合;
所述元规则包括:
第1条规则R 1:对于三元组
Figure 751519DEST_PATH_IMAGE002
Figure 871660DEST_PATH_IMAGE003
,其中S i _app x 为第i种数据来源编号为x的移动应用,S i _r x 为第i种数据来源编号为x的移动应用所对应的关系,S i _e x 为第i种数据来源编号为x的移动应用所对应的尾实体;S j _app y 为第j种数据来源编号为y的移动应用;S j _ry表示第j种数据来源编号为y的移动应用所对应的关系,S j _ey表示为j种数据来源编号为y的移动应用所对应的尾实体;
如果S i _app x 与S j _app y 是头实体的语义等价对,即存在头实体的语义等价关系,表示为
Figure 960838DEST_PATH_IMAGE004
,S i _e x 与S j _e y 是尾实体的语义等价对,即存在尾实体的语义等价关系,表示为
Figure 224461DEST_PATH_IMAGE005
,那么S i _r x 与S j _r y 是关系的语义等价对即具有关系的语义等价关系
Figure 449906DEST_PATH_IMAGE006
的置信度为p;规则R 1表示为:
Figure 507991DEST_PATH_IMAGE007
第2条规则R 2 :对于三元组
Figure 818887DEST_PATH_IMAGE008
Figure 620621DEST_PATH_IMAGE009
,如果S i _app x 与S j _app y 存在头实体的语义等价关系,表示为
Figure 700572DEST_PATH_IMAGE010
,关系S i _r x 与S j _r y 存在关系的语义等价关系,表示为
Figure 54193DEST_PATH_IMAGE011
,那么S i _e x 与S j _e y 具有尾实体的语义等价关系
Figure 232146DEST_PATH_IMAGE012
的置信度为q;规则R 2表示为:
Figure 962204DEST_PATH_IMAGE013
第3条规则R 3 :对于三元组
Figure 506449DEST_PATH_IMAGE014
Figure 296551DEST_PATH_IMAGE015
,如果S i _r x 与S j _r y 存在关系的语义等价关系,表示为:
Figure 457405DEST_PATH_IMAGE016
;S i _e x 与S j _e y 存在尾实体的语义等价关系,表示为
Figure 459996DEST_PATH_IMAGE017
,那么S i _app x 与S j _app y 存在头实体的语义等价关系
Figure 514540DEST_PATH_IMAGE018
的置信度为l;规则R 3表示为:
Figure 350909DEST_PATH_IMAGE019
再进一步地,根据概率图模型计算潜在的实体或关系的语义等价对成立的概率,具体公式如下:
Figure 858113DEST_PATH_IMAGE020
Figure 303876DEST_PATH_IMAGE021
Figure 212926DEST_PATH_IMAGE022
其中,R i = T表示第i条规则满足触发条件,i∈{1,2,3},R i = F表示第i条规则不满足触发条件,λ 0表示原始语义等价实体对之间的相似度,
Figure 954617DEST_PATH_IMAGE023
表示第R i 条规则成立的概率,对应第i条规则R i 的置信度,K i 表示第i条规则R i 触发的次数,
Figure 214697DEST_PATH_IMAGE024
表示第i条规则R i 的概率分布,S 0为不同数据源实体语义等价或关系语义等价的初始概率;
Figure 700036DEST_PATH_IMAGE025
表示在第1条规则R 1、第2条规则R 2 第3条规则R 3与初始概率S 0条件下,不同数据源实体语义等价或关系语义等价不成立的概率,
Figure 463593DEST_PATH_IMAGE026
表示在第1条规则R 1、第2条规则R 2 第3条规则R 3与初始概率S 0下,不同数据源实体语义等价或关系语义等价成立的概率。
进一步地,根据初始语义等价实体对确定种子集合,包括:
基于根据相似度初步确定的实体的语义等价对以及利用字符串比较实体之间的字符长度获得的实体的等价对,确定种子集合。
进一步地,对实体与关系进行编码,获得向量表示,之后还包括:
利用知识图谱表示学习模型,更新头实体和尾实体的向量表示,基于更新后的向量表示,利用网络表示学习模型获得最终的实体向量表示。
再进一步地,预先对网络表示学习模型和知识图谱表示学习模型进行迭代混合表示学习,包括:
步骤201:对知识图谱表示学习模型进行训练,训练模型的损失函数如下:
Figure 500819DEST_PATH_IMAGE027
其中,k为迭代混合表示学习的循环次数,
Figure 123561DEST_PATH_IMAGE028
表示第k+1轮基于知识图谱表示学习模型的损失函数,
Figure 537225DEST_PATH_IMAGE029
表示通过负采样过程得到的负例三元组集合,所述负采样过程将三元组中的头实体h与尾实体e随机替换成头实体h'或者尾实体e'r对应关系,
Figure 529190DEST_PATH_IMAGE030
为折页损失函数,它是从x或者0中取两者的最大值,
Figure 2896DEST_PATH_IMAGE031
表示知识图谱表示学习模型在第k个次迭代三元组 (h,r,e)的得分函数;
Figure 847356DEST_PATH_IMAGE032
表示知识图谱表示学习模型在第k个次迭代更新头实体和尾实体后的三元组 (h',r,e')的得分函数;
步骤202:对于经过知识图谱表示学习训练后的三元组的向量表示,在网络表示学习模型训练中,头实体向量和尾实体向量被分别更新成网络表示学习模型中第k次迭代的节点v i 、节点v j 对应的向量表示,
Figure 533552DEST_PATH_IMAGE033
d为向量表示的维度,R d 表示维度为d的网络语义空间,网络表示学习的损失函数定义如下:
Figure 537280DEST_PATH_IMAGE034
Figure 526096DEST_PATH_IMAGE035
表示第k+1轮网络表示学习模型的损失函数,𝑉代表了网络表示学习模型的节点集合;
Figure 982485DEST_PATH_IMAGE036
表示节点
Figure 613317DEST_PATH_IMAGE037
的邻居节点的集合,
Figure 471552DEST_PATH_IMAGE038
表示在第𝑘次迭代中更新节点v i 、节点v j 的网络表示学习模型的得分函数;
步骤203:将学习得到节点v i 、节点v j 对应的向量表示作为第𝑘+1次知识图谱表示学习模型的头实体向量与尾实体向量,进行知识图谱表示学习模型的第𝑘+1轮训练;
根据拟定的迭代次数终止迭代混合表示学习,获得最终所有实体的向量表示。
进一步地,所述方法包括如下约束:
约束CS1:对于获得的头实体的语义等价对
Figure 660963DEST_PATH_IMAGE039
以及已知三元组表示
Figure 339069DEST_PATH_IMAGE040
Figure 632647DEST_PATH_IMAGE041
,在负采样过程,对上述两个三元组中对应头实体的S i _app x 与S j _app y 进行替换时,需将S i _app x 与S j _app y 作为负样例替换的情况排除;
约束CS2:对于获得的尾实体的语义等价对
Figure 220754DEST_PATH_IMAGE042
以及已知三元组表示
Figure 207165DEST_PATH_IMAGE040
Figure 247933DEST_PATH_IMAGE041
,在负采样过程,对上述两个三元组中对应尾实体的S i _e x S j _e y 进行替换时,需将S i _e x S j _e y 作为负样例的情况排除;其中S i _app x 为第i种数据来源编号为x的移动应用,S i _r x 为第i种数据来源编号为x的移动应用所对应的关系,S i _e x 为第i种数据来源编号为x的移动应用所对应的尾实体;S j _app y 为第j种数据来源编号为y的移动应用;S j _ry表示第j种数据来源编号为y的移动应用所对应的关系,S j _ey表示为j种数据来源编号为y的移动应用所对应的尾实体。
进一步地,利用余弦值计算实体向量之间的相似度,将相似度超过设定阈值的向量表示所对应的实体确定为初始语义等价实体对,包括:
步骤3.1:通过余弦值计算对应头实体的S i _app x 与S j _app y 之间的直接相似度
Figure 345202DEST_PATH_IMAGE043
,公式如下:
Figure 787816DEST_PATH_IMAGE044
其中,S i _app x 表示第i种数据来源编号为x的移动应用,S j _app y 表示第j种数据来源编号为y的移动应用,
Figure 679548DEST_PATH_IMAGE045
Figure 597826DEST_PATH_IMAGE046
分别为S i _app x 与S j _app y 的向量表示;
步骤3.2:结合尾实体的向量表示计算对应头实体的S i _app x 与S j _app y 之间的间接相似度
Figure 601249DEST_PATH_IMAGE047
,公式如下:
Figure 288582DEST_PATH_IMAGE048
Figure 226582DEST_PATH_IMAGE049
Figure 366576DEST_PATH_IMAGE050
其中第i种数据来源编号为x的移动应用S i _app x 所关联的尾实体的向量表示,记为:
Figure 946593DEST_PATH_IMAGE051
;第j种数据来源编号为y的移动应用S j _app y 所关联的尾实体的向量表示,记为:
Figure 488433DEST_PATH_IMAGE052
N、M为个数;
Figure 721968DEST_PATH_IMAGE053
为第i种数据来源编号为x的移动应用S i _app x 所关联的实体的间接向量表示;
Figure 224625DEST_PATH_IMAGE054
为第j种数据来源编号为y的移动应用S j _app y 所关联的实体的间接向量表示;
步骤3.3:将第i种数据来源编号为x的移动应用S i _app x 与第j种数据来源编号为y的移动应用S j _app y 之间的直接相似度与间接相似度进行加权,获得S i _app x 与S j _app y 之间的最终相似度
Figure 201808DEST_PATH_IMAGE055
,计算公式如下:
Figure 237635DEST_PATH_IMAGE056
其中,
Figure 642072DEST_PATH_IMAGE057
为直接相似度的权重,取值为[0,1]之间的实数值。
本发明所取得的有益技术效果:本发明利用相似度计算获得初始语义等价实体对,并进一步利用元规则来挖掘潜在的实体语义等价关系,并利用概率图模型根据概率图模型计算潜在语义等价实体对成立的概率,根据概率最终确定多源移动应用中实体之间的语义等价关系,降低了实体语义等价关系数据集计算的复杂度。有助于迁移到其它多领域多源知识图谱的构建过程中。本发明可以显著降低多源数据在知识图谱构建过程中实体语义等价关系的人工标注成本,可以生成高质量的结构化三元组与实体的等价关系,实现移动应用信息之间的共享与重用的价值。此外,本发明利用知识图谱表示学习与网络表示学习的混合训练模式可以进一步提高关联实体发现的精度。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明方法实施例的多源移动应用知识图谱构建方法的流程图;
图2是本发明方法实施例的基于知识图谱表示学习和网络表示的实体发现流程图;
图3是本发明方法实施例的基于概率图模型Noisy-or建模实体对齐的元规则。
具体实施方式
为进一步阐明本申请的技术方案,下面结合附图和具体实施方式,对本申请的实施方式作进一步地详细描述。应当指出的是,以下所述仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
实施例:多源移动应用知识图谱构建方法,包括以下步骤:
步骤1:基于获取的来自不同数据源的移动应用数据,生成三元组集合{(S o _app z ,r,e)},S o _app z 为唯一标识,其中S o _app z 对应头实体,S o _app z 定义为第o种数据来源编号为z的移动应用,r 对应关系,e对应尾实体;
步骤2:分别对实体与关系进行编码,获得对应的向量表示;
步骤3:利用余弦值计算实体向量之间的相似度,将相似度超过设定阈值的向量表示所对应的实体初步确定为实体的语义等价对;
步骤4:根据初步确定的实体的语义等价对确定种子集合,根据元规则从所述种子集合中推理出潜在的实体或关系的语义等价对;
根据概率图模型计算潜在的实体或关系的语义等价对成立的概率;将计算的概率与设定概率阈值比较,根据比较结果最终确定多源移动应用中实体或关系之间的语义等价关系,进而获得多源移动应用知识图谱。
具体实施例中,采用scrapy框架从各大应用商城中采集移动应用相关联的数据,定义各移动应用的名称形成一个应用名称列表。从百科中获取更全面的数据对移动应用的名称列表进行补充,其中名称列表S可由以下集合操作获得;
S={app z | S o _app z , o=1,2,…,O;z=1,2,..,Z};
对于第z个移动应用app z ,定义其在数据源o的唯一标识,记为S o _app z ,其中O为不同来源的个数,Z为每个数据源中移动应用的个数。
对采集的数据进行预处理,解析采集的数据类型,将分类好的结构化和非结构化的数据都转换成结构化的三元组集合,包括:
步骤1.1:解析收集移动应用对应数据源所关联的数据类型,将数据类型分为两类,即结构化数据、无结构化数据;
步骤1.2:解析结构化数据的属性类型,通常为应用商店中移动应用的属性标签(如:应用商城中APP的开发者、公司、语言、版本号、发布日期等)以及百科中移动应用中的infobox描述,可将这类数据直接转换为结构化的三元组形式,{(S o _app z , r,e)},其中S o _appz对应头实体,r为属性标签对应关系,e为属性标签r所对应的实体,对应三元组中的尾实体;
步骤1.3:解析无结构化数据的属性类型,通常为移动商店与百科中关于移动应用的文字简介或文本描述,采用命名实体识别技术来识别文本中的实体,再采用已拟定的关系来对识别的实体进行关系分类,最终形成一定量的三元组{(S o _app z , r’, e’)}来补全移动应用中结构化三元组信息, 其中S o _appz对应头实体,r’为拟定的关系,对应三元组中的关系,e’为拟定关系r对应的实体,对应三元组中的尾实体。
本实施例中,对实体与关系进行编码,获得它们对应的向量表示,包括:步骤2.1:根据不同的数据类型,将它们转换成预训练模型所需要的文本格式,对于结构化的三元组形式{(S o _app z , r, e)},采用“主语谓语为宾语”进行句子陈述表达:(S o _app z [SEP]r[SEP]为[SEP]e),其中[SEP]为分词符标识,“S o _app z ” 、“r” 、“为”、“e”均看作是分词过程中的词块,记为token。
对于无结构化数据的属性类型,采用分词工具将文本进行分词,为了提升分词的精度,可在分词工具中绑定人工定义词典。
步骤2.2:采用适配中文预训练模型BERT对分词后的token进行编码,获得所有token的向量表示。
进一步地,在其它实施例中,为了提高编码的效果和原句子序列预测的准确性,在编码过程中,基于同义词词典将分词后的名词或者形容词进行随机替换,替换概率的计算公式如下:
Figure 632024DEST_PATH_IMAGE058
其中,t i 为句子中的词块,n w 为句子中词块的个数,w(t i )为替换词块t i 所带来的损失,它的取值为[0,1],exp(.)为幂指数函数;
在具体实施例中,基于利用适配中文预训练模型BERT获得的向量表示,之后还包括:利用知识图谱表示学习模型,更新头实体和尾实体的向量表示,基于更新后的向量表示,利用网络表示学习模型获得最终的实体向量表示,所述最终的实体向量表示用于利用cosine余弦值计算实体向量之间的相似度。
采用知识图谱表示学习与网络表示学习的混合训练模式,将所有三元组进行混合迭代训练,如图2所示,具体包括:
步骤201:对于所有三元组,采用知识图谱表示学习模型进行训练,训练模型的损失函数如下:
Figure 412899DEST_PATH_IMAGE027
其中,k为迭代混合表示学习的循环次数,
Figure 663751DEST_PATH_IMAGE028
表示第k+1轮基于知识图谱表示学习模型的损失函数,
Figure 380035DEST_PATH_IMAGE029
表示通过负采样过程得到的负例三元组集合,所述负采样过程将三元组中的头实体h与尾实体e随机替换成头实体h'或者尾实体e'
Figure 981917DEST_PATH_IMAGE030
为折页损失函数,它是从x或者0中取两者的最大值,
Figure 176269DEST_PATH_IMAGE059
表示知识图谱表示学习模型在第k个次迭代三元组 (h,r,e)的得分函数;
Figure 547208DEST_PATH_IMAGE032
表示知识图谱表示学习模型在第k个次迭代更新头实体和尾实体后的三元组 (h',r,e')的得分函数;
步骤202:对于经过知识图谱表示学习训练后的三元组的向量表示,在网络表示学习模型训练中,头实体向量和尾实体向量被分别更新成网络表示学习模型中第k次迭代的节点v i ,v j 对应的向量表示,
Figure 293447DEST_PATH_IMAGE033
d为向量表示的维度,R d 表示维度为d的网络语义空间,网络表示学习的损失函数定义如下:
Figure 490948DEST_PATH_IMAGE034
其中,
Figure 20149DEST_PATH_IMAGE035
表示第k+1轮网络表示学习模型的损失函数,𝑉代表了网络表示学习模型的节点集合;
Figure 980015DEST_PATH_IMAGE036
表示节点
Figure 162735DEST_PATH_IMAGE037
的邻居节点的集合,
Figure 614576DEST_PATH_IMAGE038
表示在第𝑘次迭代中更新节点v i ,v j 的网络表示学习模型的得分函数;
步骤203:将学习得到节点v i ,v j 对应的向量表示作为第𝑘+1次知识图谱表示学习模型的头实体向量与尾实体向量,进行知识图谱表示学习模型的第𝑘+1轮训练;
根据拟定的迭代次数终止迭代混合表示学习,获得最终所有实体的向量表示。
具体实施例中,具体的知识图谱表示学习模型和网络表示学习模型可采用现有技术实现,其不是本申请的发明点,而且本申请无需限定模型的具体实现方法,因此不做赘述。
本实施例中,将步骤3称为“多源实体发现算法”;将步骤4称为“多源实体对齐算法”,如图1所示。在其它实施例中,为了增加移动应用之间相似度的可靠性,采用的实体发现算法包括:利用移动应用所关联的实体向量来间接计算移动应用之间的相似度,与直接相似度进行加权,最终获得移动应用之间的相似度;包括:
步骤3.1:通过余弦值计算对应头实体的S i _app x 与S j _app y 之间的直接相似度
Figure 275364DEST_PATH_IMAGE043
,公式如下:
Figure 230682DEST_PATH_IMAGE060
其中,S i _app x 表示第i种数据来源编号为x的移动应用,S j _app y 表示第j种数据来源编号为y的移动应用,
Figure 849882DEST_PATH_IMAGE045
Figure 21975DEST_PATH_IMAGE046
分别为S i _app x 与S j _app y 的向量表示;
步骤3.2:结合尾实体的向量表示计算对应头实体的S i _app x 与S j _app y 之间的间接相似度
Figure 220875DEST_PATH_IMAGE061
,公式如下:
Figure 420912DEST_PATH_IMAGE048
Figure 820801DEST_PATH_IMAGE062
Figure 840710DEST_PATH_IMAGE063
其中第i种数据来源编号为x的移动应用S i _app x 所关联的尾实体的向量表示,记为:
Figure 249825DEST_PATH_IMAGE051
;第j种数据来源编号为y的移动应用S j _app y 所关联的尾实体,记为
Figure 304369DEST_PATH_IMAGE064
N、M为个数;
Figure 875159DEST_PATH_IMAGE065
为第i种数据来源编号为x的移动应用S i _app x 所关联的实体的间接向量表示,
Figure 382363DEST_PATH_IMAGE066
为第j种数据来源编号为y的移动应用S j _app y 所关联的实体的间接向量表示;
步骤3.3:将第i种数据来源编号为x的移动应用S i _app x 与第j种数据来源编号为y的移动应用S j _app y 之间的直接相似度与间接相似度进行加权,获得S i _app x 与S j _app y 之间的最终相似度
Figure 454225DEST_PATH_IMAGE067
,计算公式如下:
Figure 743035DEST_PATH_IMAGE056
其中,
Figure 874940DEST_PATH_IMAGE057
为直接相似度的权重,取值为[0,1]之间的实数值。
本实施例中,将阈值筛选后的实体发现结果作为实体对齐算法的输入,从实体对齐算法中得到多源数据中实体之间的对应关系。
可选地,在多源实体发现算法中,从实体的语义层面,根据实体对应向量之间相似度获得初始语义等价对集合,从实体的语法层面,利用基于字符串长短距离的方法计算实体之间的语法相似度获得的语法等价对集合,将两者的结果进行互补,对语义等价对集合与语法等价对集合进行并集操作,确定初始的种子集合,能够提高实体发现的精度。
多源实体对齐算法具体包括:
步骤4.1:基于字符串相等算法获取不同数据源之间实体的语义等价对,同时,根据拟定阈值筛选出实体发现结果中高相似度的实体的等价对,将两者的结果经人工校验组成初始的语义等价对的种子集合,记为ES=AES⋃RES⋃EES,其中AES表示头实体的语义等价对集合,RES表示关系的语义等价对集合,EES表示尾实体的语义等价对集合;
步骤4.2:根据设计的元规则从AES、RES、EES来找出潜在实体或关系的语义等价对,所述元规则包括:
所述元规则包括:
第1条规则R 1:对于三元组
Figure 479227DEST_PATH_IMAGE068
Figure 354779DEST_PATH_IMAGE069
,其中S i _app x 为第i种数据来源编号为x的移动应用,S i _r x 为第i种数据来源编号为x的移动应用所对应的关系,S i _e x 为第i种数据来源编号为x的移动应用所对应的尾实体;S j _app y 为第j种数据来源编号为y的移动应用;S j _ry表示第j种数据来源编号为y的移动应用所对应的关系,S j _ey表示为j种数据来源编号为y的移动应用所对应的尾实体;
如果S i _app x 与S j _app y 存在头实体的语义等价关系,即头实体的语义等价对,表示为
Figure 259282DEST_PATH_IMAGE070
,S i _e x 与S j _e y 存在尾实体的语义等价关系,即尾实体的语义等价对,表示为
Figure 30928DEST_PATH_IMAGE005
,那么S i _r x 与S j _r y 具有关系的语义等价关系即关系的语义等价对
Figure 778305DEST_PATH_IMAGE006
的置信度为p;规则R 1表示为:
Figure 67335DEST_PATH_IMAGE007
第2条规则R 2 :对于三元组
Figure 950977DEST_PATH_IMAGE071
Figure 267427DEST_PATH_IMAGE072
,如果S i _app x 与S j _app y 存在头实体的语义等价关系,表示为
Figure 236520DEST_PATH_IMAGE010
,关系S i _r x 与S j _r y 存在关系的语义等价关系,表示为
Figure 329241DEST_PATH_IMAGE011
,那么S i _e x 与S j _e y 具有尾实体的语义等价关系
Figure 801810DEST_PATH_IMAGE012
的置信度为q
具体实施例中,可选地,同样利用余弦值计算关系向量之间的相似度,将相似度超过设定阈值的向量表示所对应的关系初步确定为关系的语义等价对。
规则R 2表示为:
Figure 446418DEST_PATH_IMAGE013
第3条规则R 3 :对于三元组
Figure 778174DEST_PATH_IMAGE073
Figure 533640DEST_PATH_IMAGE074
,如果S i _r x 与S j _r y 存在关系的语义等价关系,表示为:
Figure 267241DEST_PATH_IMAGE075
;S i _e x 与S j _e y 存在尾实体的语义等价关系,表示为
Figure 817171DEST_PATH_IMAGE017
,那么S i _app x 与S j _app y 存在头实体的语义等价关系
Figure 869178DEST_PATH_IMAGE018
的置信度为l;规则R 3表示为:
Figure 428335DEST_PATH_IMAGE019
步骤4.3:如图3所示,根据概率图模型计算潜在实体或关系的语义等价对成立的概率,具体公式如下:
Figure 875497DEST_PATH_IMAGE020
Figure 737274DEST_PATH_IMAGE021
Figure 168255DEST_PATH_IMAGE022
其中,R i = T表示第i条规则满足触发条件,i∈{1,2,3},R i = F表示第i条规则不满足触发条件,λ 0表示原始语义等价实体对之间的相似度,
Figure 875311DEST_PATH_IMAGE023
表示第R i 条规则成立的概率,对应第i条规则R i 的置信度,K i 表示第i条规则R i 触发的次数,
Figure 442559DEST_PATH_IMAGE024
表示第i条规则R i 的概率分布,S 0为不同数据源实体语义等价或关系语义等价的初始概率;
Figure 475237DEST_PATH_IMAGE025
表示在第1条规则R 1、第2条规则R 2 第3条规则R 3与初始概率S 0条件下,不同数据源实体语义等价或关系语义等价不成立的概率,
Figure 862356DEST_PATH_IMAGE026
表示在第1条规则R 1、第2条规则R 2 第3条规则R 3与初始概率S 0下,不同数据源实体语义等价或关系语义等价成立的概率。可选地,S 0为不同数据源实体语义等价的初始概率,即λ 0
步骤4.4:基于设计的三种等价关系的元规则计算不同数据源实体语义等价关系的成立的概率,并根据拟定的阈值进行筛选,获取最终语义等价实体对。
具体实施例中,所述面向多源移动应用知识图谱构建方法还包括:将多源实体对齐算法的结果作为多源实体发现算法的约束,从而使得实体发现算法与实体对齐算法实现相互补充与相互约束,最终完成算法的迭代,具体约束如下:
约束CS1:对于获得的头实体的语义等价关系
Figure 763316DEST_PATH_IMAGE039
以及已知三元组表示
Figure 824551DEST_PATH_IMAGE040
Figure 887185DEST_PATH_IMAGE041
,在负采样过程,对上述两个三元组中对应头实体的S i _app x 与S j _app y 进行替换时,需将S i _app x 与S j _app y 作为负样例替换的情况排除;
约束CS2:对于获得的尾实体的语义等价关系
Figure 902545DEST_PATH_IMAGE042
以及已知三元组表示
Figure 341617DEST_PATH_IMAGE040
Figure 758823DEST_PATH_IMAGE041
,在负采样过程,对上述两个三元组中对应尾实体的S i _e x S j _e y 进行替换时,需将S i _e x S j _e y 作为负样例的情况排除;其中S i _app x 为第i种数据来源编号为x的移动应用,S i _r x 为第i种数据来源编号为x的移动应用所对应的关系,S i _e x 为第i种数据来源编号为x的移动应用所对应的尾实体;S j _app y 为第j种数据来源编号为y的移动应用;S j _ry表示第j种数据来源编号为y的移动应用所对应的关系,S j _ey表示为j种数据来源编号为y的移动应用所对应的尾实体。
具体实施例中,可重复步骤3多源实体发现算法与步骤4的多源实体对齐算法的过程,直至无新增实体对出现,最终形成多源移动应用知识图谱。
以上实施例,基于设计的三种等价关系的元规则计算不同数据源初始语义等价实体对中实体语义等价关系的成立的概率,并根据拟定的阈值进行筛选,获取最终语义等价实体对。在其它的实施例中,可通过利用图像规则PR获取语义等价实体对,提实体对齐算法的精准度,包括:
将不同数据源的移动应用的图片标识进行向量表示,采用图片标识的灰度进行建模;
采用卷积神经网络对提取图像的灰度进行深度特征表示,利用图像匹配规则进行判断移动应用是否等价:
图像规则PR:
(S i _appx,图片标识,S i _Picx)∧(S j _appy,图片标识,S j _Picy) )∧Sim(S i _Picx,S j _Pict)≥δ⇒(S i _appx,S j _appy,≡);
其中S i _appx与S j _appy对应不同数据源i,j的移动应用,S i _Picx与S j _Picy对应移动应用S i _appx与S j _appy图片标识所关联的图像,“
Figure 257937DEST_PATH_IMAGE076
”为“语义等价”关系,
Figure 760594DEST_PATH_IMAGE077
表示图像匹配阈值,为[0,1]之间的实数值,若图像匹配的相似度大于设定的阈值,则移动应用S i _appx与S j _appy语义相等。
本发明联合实体发现与实体对齐的迭代策略可以显著降低多源数据在图谱构建过程中实体对应关系的人工标注成本,有助于扩展到其它领域的知识图谱构建过程中。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种面向多源移动应用知识图谱构建方法,其特征在于,包括:
基于获取的来自不同数据源的移动应用数据,生成三元组集合{(S o _app z , r,e)},其中S o _app z 对应头实体,S o _app z 定义为第o种数据来源编号为z的移动应用,r 对应关系,e对应尾实体;
分别对实体与关系进行编码,获得对应的向量表示;
利用余弦值计算实体向量之间的相似度,将相似度超过设定阈值的向量表示所对应的实体初步确定为实体的语义等价对;
根据初步确定的实体的语义等价对确定种子集合,根据元规则从所述种子集合中推理出潜在的实体或关系的语义等价对;
根据概率图模型计算潜在的实体或关系的语义等价对成立的概率;将计算的概率与设定概率阈值比较,根据比较结果最终确定多源移动应用中实体或关系之间的语义等价关系,进而获得多源移动应用知识图谱。
2.根据权利要求1所述的一种面向多源移动应用知识图谱构建方法,其特征在于,分别对实体与关系进行编码,获得对应的向量表示,包括:
采用“主语谓语为宾语”的形式对每个三元组进行句子陈述表达,句子表示为:(S o _app z [SEP]r[SEP]为[SEP]e);其中[SEP]为分词符标识,“S o _app z ”、“r” 、“为”和“e”均看作是分词过程中的词块;
将句子作为输入,采用适配中文预训练模型BERT对分词获得的词块进行编码,获得每个三元组中“S o _app z ”、“r”和“e”的向量表示。
3.根据权利要求1所述的一种面向多源移动应用知识图谱构建方法,其特征在于,对实体与关系进行编码的过程中,基于同义词词典将分词后词块中的名词或者形容词按照替换概率随机替换为其同义词,替换概率的计算公式如下:
Figure 424069DEST_PATH_IMAGE001
其中,t i 为句子中的词块,n w 为句子中词块的个数,j为词块的序号,w(t i )为替换句子中的词块t i 所带来的损失,exp(.)为幂指数函数。
4.根据权利要求1所述的一种面向多源移动应用知识图谱构建方法,其特征在于,所述种子集合记为ES=AES⋃RES⋃EES,其中AES表示头实体的语义等价对集合,RES表示关系的语义等价对集合,EES表示尾实体的语义等价对集合;
所述元规则包括:
第1条规则R 1:对于三元组
Figure 183952DEST_PATH_IMAGE002
Figure 760427DEST_PATH_IMAGE003
,其中S i _app x 为第i种数据来源编号为x的移动应用,S i _r x 为第i种数据来源编号为x的移动应用所对应的关系,S i _e x 为第i种数据来源编号为x的移动应用所对应的尾实体;S j _app y 为第j种数据来源编号为y的移动应用;S j _ry表示第j种数据来源编号为y的移动应用所对应的关系,S j _ey表示为j种数据来源编号为y的移动应用所对应的尾实体;
如果S i _app x 与S j _app y 是头实体的语义等价对,表示为
Figure 624478DEST_PATH_IMAGE004
,S i _e x 与S j _e y 是尾实体的语义等价对,表示为
Figure 783058DEST_PATH_IMAGE005
,那么S i _r x 与S j _r y 是关系的语义等价对
Figure 74362DEST_PATH_IMAGE006
的置信度为p;规则R 1表示为:
Figure 606974DEST_PATH_IMAGE007
第2条规则R 2 :对于三元组
Figure 399350DEST_PATH_IMAGE008
Figure 537070DEST_PATH_IMAGE009
,如果S i _app x 与S j _app y 是头实体的语义等价对,表示为
Figure 373177DEST_PATH_IMAGE010
,关系S i _r x 与S j _r y 是关系的语义等价对,表示为
Figure 330768DEST_PATH_IMAGE011
,那么S i _e x 与S j _e y 是尾实体的语义等价对
Figure 661256DEST_PATH_IMAGE012
的置信度为q;规则R 2表示为:
Figure 653482DEST_PATH_IMAGE013
第3条规则R 3 :对于三元组
Figure 348906DEST_PATH_IMAGE002
Figure 934739DEST_PATH_IMAGE014
,如果S i _r x 与S j _r y 是关系的语义等价对,表示为:
Figure 678704DEST_PATH_IMAGE015
;S i _e x 与S j _e y 是尾实体的语义等价对,表示为
Figure 915651DEST_PATH_IMAGE016
,那么S i _app x 与S j _app y 是头实体的语义等价对,
Figure 719658DEST_PATH_IMAGE017
的置信度为l;规则R 3表示为:
Figure 25744DEST_PATH_IMAGE018
5.根据权利要求4所述的一种面向多源移动应用知识图谱构建方法,其特征在于,根据概率图模型计算潜在的实体或关系的语义等价对成立的概率,具体公式如下:
Figure 573400DEST_PATH_IMAGE019
Figure 664853DEST_PATH_IMAGE020
Figure 905341DEST_PATH_IMAGE021
其中,R i = T表示第i条规则满足触发条件,i∈{1,2,3},R i = F表示第i条规则不满足触发条件,λ 0表示原始语义等价实体对之间的相似度,
Figure 121559DEST_PATH_IMAGE022
表示第R i 条规则成立的概率,对应第i条规则R i 的置信度,K i 表示第i条规则R i 触发的次数,
Figure 348272DEST_PATH_IMAGE023
表示第i条规则R i 的概率分布,S 0为不同数据源实体语义等价或关系语义等价的初始概率;
Figure 169597DEST_PATH_IMAGE024
表示在第1条规则R 1、第2条规则R 2 第3条规则R 3与初始概率S 0条件下,不同数据源实体语义等价或关系语义等价不成立的概率,
Figure 440042DEST_PATH_IMAGE025
表示在第1条规则R 1、第2条规则R 2 第3条规则R 3与初始概率S 0下,不同数据源实体语义等价或关系语义等价成立的概率。
6.根据权利要求1所述的一种面向多源移动应用知识图谱构建方法,其特征在于,根据初始语义等价实体对确定种子集合,包括:
基于根据相似度初步确定的实体的语义等价对以及利用字符串比较实体之间的字符长度获得的实体的语义等价对,确定种子集合。
7.根据权利要求1所述的一种面向多源移动应用知识图谱构建方法,其特征在于,对实体与关系进行编码,获得向量表示,之后还包括:
利用知识图谱表示学习模型,更新头实体和尾实体的向量表示,基于更新后的向量表示,利用网络表示学习模型获得最终的实体向量表示。
8.根据权利要求7所述的一种面向多源移动应用知识图谱构建方法,其特征在于,预先对网络表示学习模型和知识图谱表示学习模型进行迭代混合表示学习,包括:
步骤201:对知识图谱表示学习模型进行训练,训练模型的损失函数如下:
Figure 346818DEST_PATH_IMAGE026
其中,k为迭代混合表示学习的循环次数,
Figure 33014DEST_PATH_IMAGE027
表示第k+1轮基于知识图谱表示学习模型的损失函数,
Figure 342467DEST_PATH_IMAGE028
表示通过负采样过程得到的负例三元组集合,所述负采样过程将三元组中的头实体h与尾实体e随机替换成头实体h'或者尾实体e'
Figure 924758DEST_PATH_IMAGE029
为折页损失函数,它是从x或者0中取两者的最大值,
Figure 443464DEST_PATH_IMAGE030
表示知识图谱表示学习模型在第k个次迭代三元组 (h,r,e)的得分函数;
Figure 871035DEST_PATH_IMAGE031
表示知识图谱表示学习模型在第k个次迭代更新头实体和尾实体后的三元组 (h',r,e')的得分函数;
步骤202:对于经过知识图谱表示学习训练后的三元组的向量表示,在网络表示学习模型训练中,头实体向量和尾实体向量被分别更新成网络表示学习模型中第k次迭代的节点v i 、节点v j 对应的向量表示,
Figure 276739DEST_PATH_IMAGE032
d为向量表示的维度,R d 表示维度为d的网络语义空间,网络表示学习的损失函数定义如下:
Figure 29932DEST_PATH_IMAGE033
其中,
Figure 35934DEST_PATH_IMAGE034
表示第k+1轮网络表示学习模型的损失函数,𝑉代表了网络表示学习模型的节点集合;
Figure 329512DEST_PATH_IMAGE035
表示节点
Figure 979936DEST_PATH_IMAGE036
的邻居节点的集合,
Figure 746773DEST_PATH_IMAGE037
表示在第𝑘次迭代中更新节点v i 、节点v j 的网络表示学习模型的得分函数;
步骤203:将学习得到节点v i 、节点v j 对应的向量表示作为第𝑘+1次知识图谱表示学习模型的头实体向量与尾实体向量,进行知识图谱表示学习模型的第𝑘+1轮训练;
根据拟定的迭代次数终止迭代混合表示学习,获得最终所有实体的向量表示。
9.根据权利要求8所述的一种面向多源移动应用知识图谱构建方法,其特征在于,所述方法包括如下约束:
约束CS1:对于获得的头实体的语义等价对
Figure 115437DEST_PATH_IMAGE038
以及已知三元组表示
Figure 275023DEST_PATH_IMAGE039
Figure 45533DEST_PATH_IMAGE009
,在负采样过程,对上述两个三元组中对应头实体的S i _app x 与S j _app y 进行替换时,需将S i _app x 与S j _app y 作为负样例替换的情况排除;
约束CS2:对于获得的尾实体的语义等价对
Figure 671686DEST_PATH_IMAGE040
以及已知三元组表示
Figure 403013DEST_PATH_IMAGE039
Figure 976077DEST_PATH_IMAGE009
,在负采样过程,对上述两个三元组中对应尾实体的S i _e x S j _e y 进行替换时,需将S i _e x S j _e y 作为负样例的情况排除;其中S i _app x 为第i种数据来源编号为x的移动应用,S i _r x 为第i种数据来源编号为x的移动应用所对应的关系,S i _e x 为第i种数据来源编号为x的移动应用所对应的尾实体;S j _app y 为第j种数据来源编号为y的移动应用;S j _ry表示第j种数据来源编号为y的移动应用所对应的关系,S j _ey表示为j种数据来源编号为y的移动应用所对应的尾实体。
10.根据权利要求1所述的一种面向多源移动应用知识图谱构建方法,其特征在于,利用余弦值计算实体向量之间的相似度,将相似度超过设定阈值的向量表示所对应的实体确定为初始语义等价实体对,包括:
步骤3.1:通过余弦值计算对应头实体的S i _app x 与S j _app y 之间的直接相似度
Figure 460148DEST_PATH_IMAGE041
,公式如下:
Figure 522782DEST_PATH_IMAGE042
其中,S i _app x 表示第i种数据来源编号为x的移动应用,S j _app y 表示第j种数据来源编号为y的移动应用,
Figure 600459DEST_PATH_IMAGE043
Figure 616694DEST_PATH_IMAGE044
分别为S i _app x 与S j _app y 的向量表示;
步骤3.2:结合尾实体的向量表示计算对应头实体的S i _app x 与S j _app y 之间的间接相似度
Figure 96217DEST_PATH_IMAGE045
,公式如下:
Figure 392069DEST_PATH_IMAGE046
Figure 957043DEST_PATH_IMAGE047
Figure 934226DEST_PATH_IMAGE048
其中,第i种数据来源编号为x的移动应用S i _app x 所关联的尾实体的向量表示,记为:
Figure 143622DEST_PATH_IMAGE049
;第j种数据来源编号为y的移动应用S j _app y 所关联的尾实体的向量表示,记为
Figure 485741DEST_PATH_IMAGE050
N、M为个数;
Figure 662645DEST_PATH_IMAGE051
为第i种数据来源编号为x的移动应用S i _app x 所关联的实体的间接向量表示,
Figure 381202DEST_PATH_IMAGE052
为第j种数据来源编号为y的移动应用S j _app y 所关联的实体的间接向量表示;
步骤3.3:将第i种数据来源编号为x的移动应用S i _app x 与第j种数据来源编号为y的移动应用S j _app y 之间的直接相似度与间接相似度进行加权,获得S i _app x 与S j _app y 之间的最终相似度
Figure 632055DEST_PATH_IMAGE053
,计算公式如下:
Figure 784557DEST_PATH_IMAGE054
其中,
Figure 58543DEST_PATH_IMAGE055
为直接相似度的权重,取值为[0,1]之间的实数值。
CN202211187813.7A 2022-09-28 2022-09-28 一种面向多源移动应用知识图谱构建方法 Active CN115292520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211187813.7A CN115292520B (zh) 2022-09-28 2022-09-28 一种面向多源移动应用知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211187813.7A CN115292520B (zh) 2022-09-28 2022-09-28 一种面向多源移动应用知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN115292520A true CN115292520A (zh) 2022-11-04
CN115292520B CN115292520B (zh) 2023-02-03

Family

ID=83833596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211187813.7A Active CN115292520B (zh) 2022-09-28 2022-09-28 一种面向多源移动应用知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN115292520B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049148A (zh) * 2023-04-03 2023-05-02 中国科学院成都文献情报中心 一种元出版环境下领域元知识引擎的构建方法
CN116756327A (zh) * 2023-08-21 2023-09-15 天际友盟(珠海)科技有限公司 基于知识推断的威胁情报关系抽取方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160335544A1 (en) * 2015-05-12 2016-11-17 Claudia Bretschneider Method and Apparatus for Generating a Knowledge Data Model
CN109582761A (zh) * 2018-09-21 2019-04-05 浙江师范大学 一种基于网络平台的词语相似度的中文智能问答***方法
CN109992786A (zh) * 2019-04-09 2019-07-09 杭州电子科技大学 一种语义敏感的rdf知识图谱近似查询方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160335544A1 (en) * 2015-05-12 2016-11-17 Claudia Bretschneider Method and Apparatus for Generating a Knowledge Data Model
CN109582761A (zh) * 2018-09-21 2019-04-05 浙江师范大学 一种基于网络平台的词语相似度的中文智能问答***方法
CN109992786A (zh) * 2019-04-09 2019-07-09 杭州电子科技大学 一种语义敏感的rdf知识图谱近似查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
傅端康: "基于知识图谱的软件众包服务的语义搜索", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
胡盼盼: "《自然语言处理从入门到实战》", 30 April 2020, 中国铁道出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049148A (zh) * 2023-04-03 2023-05-02 中国科学院成都文献情报中心 一种元出版环境下领域元知识引擎的构建方法
CN116049148B (zh) * 2023-04-03 2023-07-18 中国科学院成都文献情报中心 一种元出版环境下领域元知识引擎的构建方法
CN116756327A (zh) * 2023-08-21 2023-09-15 天际友盟(珠海)科技有限公司 基于知识推断的威胁情报关系抽取方法、装置和电子设备
CN116756327B (zh) * 2023-08-21 2023-11-10 天际友盟(珠海)科技有限公司 基于知识推断的威胁情报关系抽取方法、装置和电子设备

Also Published As

Publication number Publication date
CN115292520B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN115292520B (zh) 一种面向多源移动应用知识图谱构建方法
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和***
CN116992005B (zh) 基于大模型及本地知识库的智能对话方法、***及设备
CN117033571A (zh) 知识问答***构建方法及***
US20240143644A1 (en) Event detection
Zhang et al. Multifeature named entity recognition in information security based on adversarial learning
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
Kathuria et al. Real time sentiment analysis on twitter data using deep learning (Keras)
CN116383399A (zh) 一种事件舆情风险预测方法及***
CN116304748A (zh) 一种文本相似度计算方法、***、设备及介质
CN115759254A (zh) 基于知识增强生成式语言模型的问答方法、***及介质
CN116303881A (zh) 一种基于自监督表示学习的企业单位地址匹配方法及装置
Pu et al. Lexical knowledge enhanced text matching via distilled word sense disambiguation
CN117807482A (zh) 海关报关单的分类方法、装置、设备及存储介质
Hao et al. A novel method using LSTM-RNN to generate smart contracts code templates for improved usability
CN113704393A (zh) 关键词提取方法、装置、设备及介质
Yang et al. CNN-based two-branch multi-scale feature extraction network for retrosynthesis prediction
CN115048929A (zh) 敏感文本监测方法及装置
Hu et al. Joint contrastive learning and belief rule base for named entity recognition in cybersecurity
CN114756679A (zh) 基于交谈注意力机制的中文医学文本实体关系联合抽取方法
Sultana et al. Fake News Detection Using Machine Learning Techniques
CN115757837B (zh) 知识图谱的置信度评估方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant