CN116450938A - 一种基于图谱的工单推荐实现方法及*** - Google Patents
一种基于图谱的工单推荐实现方法及*** Download PDFInfo
- Publication number
- CN116450938A CN116450938A CN202310367692.2A CN202310367692A CN116450938A CN 116450938 A CN116450938 A CN 116450938A CN 202310367692 A CN202310367692 A CN 202310367692A CN 116450938 A CN116450938 A CN 116450938A
- Authority
- CN
- China
- Prior art keywords
- recommendation
- knowledge graph
- vector
- map
- work order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 239000013598 vector Substances 0.000 claims description 63
- 230000006870 function Effects 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 8
- 238000007499 fusion processing Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 13
- 238000013499 data model Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 241000220225 Malus Species 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于图谱的工单推荐实现方法,属于人工智能技术领域;该方法包括:获取工单数据;根据工单数据,构建知识图谱;获取待推荐内容;根据知识图谱和待推荐内容进行推荐,得到推荐结果。本发明还公开一种基于图谱的工单推荐实现***。本发明对大数据的高效处理,适用于数据生成速度快、多源数据融合过程中引入更多的噪声和冗余的场景。本发明基于知识图谱的推荐***的准确度和效率更高,适用于使用了不同的数据集的复杂实际问题。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于图谱的工单推荐实现方法及***。
背景技术
随着市场经济的不断发展,人们对提高工作效率的需求越来越迫切,厂家对生产工单的管理也提出了更多要求。现有的工单管理***种类繁多,功能都包括有添加删除工单、查询检索工单、统计筛选、报表查询等;同时,可以通过用户编号、公司名称、用户名称等查询条件生成内容齐全的生产工单。
推荐功能作为一项已日渐融入人们生活中功能,运用在实际生产生活过程中可以显著提升各行各业的办事效率。但是现有的工单管理***大都没有包含推荐功能,并且推荐的精准度不高。
基于图谱的工单推荐的重点与难点如下:
1.对用户偏好的精准建模问题:
知识图谱可以融合多源异构信息,包括丰富的用户信息及用户与工单的交互信息;如何全面考虑用户与用户、用户与工单之间的联系,进一步提高推荐的准确度,是未来的研究重点。
2.对大数据的高效处理问题:
由于数据生成速度快,而且多源数据融合过程中引入了更多的噪声和冗余,使得传统推荐算法中采用的精确计算方式越来越难以应对,概率模型统计方法将可能发挥更为重要的作用。
3.推荐***的效用评价问题:
对传统推荐***的评价指标主要是准确度和效率,通常采用的方法有MAE、RMSE、关联度等。这些指标当然也可以用于基于知识图谱的推荐***,可以采用准确率和召回率来表征推荐***的准确度。然而,由于工单推荐***面临的实际问题较为复杂,相应地使用了不同的数据集,使得难以形成统一的效用评价标准。
4.如何通过深度挖掘和相关性知识发现提高推荐效果:
由于知识图谱本身的特点,相对于因果关系挖掘,其更适合于相关关系挖掘。
5.推荐***的可扩展性:
可扩展性一直是推荐***应用中面临的难点问题。在传统推荐***中,随着用户与项目数量的增加,会使得计算量显著增大。目前主要的解决方法有聚类、数据集缩减、降维等。在知识图谱中,用户之间、用户与项目之间随时随地的信息互动会产生大规模的数据集;将这些数据集融入知识图谱后会急剧增加计算复杂度。如何将用户之间产生的数据动态、快速地融入知识图谱并提高推荐***的可扩展性,是未来需要解决的难点问题。
6.社交网络信息的充分利用问题:
传统的推荐***假设用户之间是独立同分布的,忽略了用户之间的社会交互及联系。知识图谱中用户与用户、用户与工单、工单与工单之间都存在一定的联系,用户不再是单一的用户,需要进一步挖掘彼此之间的联系以发现更多的隐含信息。因此结合社交网络关系也是今后的一个研究重点。
发明内容
本发明的目的在于提供一种准确性及效率高的基于图谱的工单推荐实现方法。
为解决上述技术问题,本发明提供一种基于图谱的工单推荐实现方法,包括以下步骤:
获取工单数据;
根据工单数据,构建知识图谱;
获取待推荐内容;
根据知识图谱和待推荐内容进行推荐,得到推荐结果。
优选地,根据工单数据,构建知识图谱,具体包括以下步骤:
从工单数据中抽取实体和关系;
对实体进行消歧和对齐处理,得到处理后实体;
根据处理后实体和关系,构建知识图谱。
优选地,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
将知识图谱输入TransE模型中训练,得到训练后TransE模型;
将待推荐内容输入训练后TransE模型,输出推荐结果。
优选地,将知识图谱输入TransE模型中训练,得到训练后TransE模型,具体包括以下步骤:
通过知识图谱特征学习模型对知识图谱进行向量化处理,得到三元组;所述三元组包括head向量、relation向量和tail向量;
将head向量、relation向量和tail向量输入到TransE模型中进行训练,通过negative sampling算法不断调整head向量、relation向量和tail向量,使head向量加上relation向量与tail向量,得到训练后TransE模型。
优选地,negative sampling算法的损失函数如下:
其中:h′+l,t′为打破的三元组corrupted triplet,是随机替换头或尾实体得到;γ为正负三元组最大的距离margin;h为head向量;r为relation向量;t为tail向量;S为三元组。
优选地,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
将知识图谱作为异构的信息网络;
构造异构的信息网络中工单之间的基于元路径和元图的特征;得到构造后异构信息网络;
根据构造后异构信息网络对待推荐内容进行推荐,得到推荐结果。
优选地,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
根据知识图谱构建波纹网络;所述波纹网络包括中心业务以及多层波纹层;
确定所述多层波纹层对应的三元组向量;
根据所述多层波纹层对应的三元组向量对待推荐内容进行推荐,得到推荐结果。
优选地,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
获取知识图谱中的实体和关系;
根据知识图谱中的实体和关系,生成二部图;
根据待推荐内容,对二部图中的通过连接的边的每个节点打分,得到推荐结果。
本发明还提供一种基于图谱的工单推荐实现***,包括:
第一获取模块,用于获取工单数据;
构建模块,用于根据工单数据,构建知识图谱;
第二获取模块,用于获取待推荐内容;
推荐模块,用于根据知识图谱和待推荐内容进行推荐,得到推荐结果。
与现有技术相比,本发明的有益效果为:
本发明的知识图谱可以融合多源异构信息,包括丰富的用户信息及用户与工单的交互信息;全面考虑用户与用户、用户与工单之间的联系,进一步提高推荐的准确度。
本发明对大数据的高效处理,适用于数据生成速度快、多源数据融合过程中引入更多的噪声和冗余的场景。
本发明基于知识图谱的推荐***的准确度和效率更高,适用于使用了不同的数据集的复杂实际问题。
本发明基于知识图谱本身的特点,更适合于相关关系挖掘。通过从知识图谱中深度挖掘项目之间、用户之间、以及项目与用户间的深层次关系,获得更多的相关性结果,有助于为用户进行个性化推荐,在提高推荐结果多样性的同时保持较高的推荐准确性。
本发明将用户之间产生的数据动态、快速地融入知识图谱并提高推荐***的可扩展性。
本发明结合社交网络关系进行推荐,知识图谱中用户与用户、用户与工单、工单与工单之间都存在一定的联系,用户不再是单一的用户,进一步挖掘彼此之间的联系以发现更多的隐含信息。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细说明。
图1是数据采集与预处理的示意图;
图2是知识抽取的示意图;
图3是基于路径的推荐方法的流程示意图;
图4是Ripple Network网络兴趣传播模型示意图;
图5是知识图谱与推荐模型进行结合的流程示意图;
图6是依次训练的示意图;
图7是MKR框架的示意图;
图8是一种基于图谱的工单推荐实现方法的流程示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合附图对本发明做进一步的详细描述:
如图8所示,本发明公开一种基于图谱的工单推荐实现方法,包括以下步骤:
获取工单数据;
根据工单数据,构建知识图谱;
获取待推荐内容;
根据知识图谱和待推荐内容进行推荐,得到推荐结果。
优选地,根据工单数据,构建知识图谱,具体包括以下步骤:
从工单数据中抽取实体和关系;
对实体进行消歧和对齐处理,得到处理后实体;
根据处理后实体和关系,构建知识图谱。
优选地,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
将知识图谱输入TransE模型中训练,得到训练后TransE模型;
将待推荐内容输入训练后TransE模型,输出推荐结果。
优选地,将知识图谱输入TransE模型中训练,得到训练后TransE模型,具体包括以下步骤:
通过知识图谱特征学习模型对知识图谱进行向量化处理,得到三元组;所述三元组包括head向量、relation向量和tail向量;
将head向量、relation向量和tail向量输入到TransE模型中进行训练,通过negative sampling算法不断调整head向量、relation向量和tail向量,使head向量加上relation向量与tail向量,得到训练后TransE模型。
优选地,negative sampling算法的损失函数如下:
其中:h′+l,t′为打破的三元组corrupted triplet,是随机替换头或尾实体得到;γ为正负三元组最大的距离margin;h为head向量;r为relation向量;t为tail向量;S为三元组。
优选地,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
将知识图谱作为异构的信息网络;
构造异构的信息网络中工单之间的基于元路径和元图的特征;得到构造后异构信息网络;
根据构造后异构信息网络对待推荐内容进行推荐,得到推荐结果。
优选地,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
根据知识图谱构建波纹网络;所述波纹网络包括中心业务以及多层波纹层;
确定所述多层波纹层对应的三元组向量;
根据所述多层波纹层对应的三元组向量对待推荐内容进行推荐,得到推荐结果。
优选地,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
获取知识图谱中的实体和关系;
根据知识图谱中的实体和关系,生成二部图;
根据待推荐内容,对二部图中的通过连接的边的每个节点打分,得到推荐结果。
本发明还提供一种基于图谱的工单推荐实现***,包括:
第一获取模块,用于获取工单数据;
构建模块,用于根据工单数据,构建知识图谱;
第二获取模块,用于获取待推荐内容;
推荐模块,用于根据知识图谱和待推荐内容进行推荐,得到推荐结果。
为了更好的说明本发明的技术效果,本发明提供如下具体实施例说明上述技术流程:
实施例1、一种基于图谱的工单推荐实现方法:
1、工单知识图谱的建设过程:
工单知识图谱构建过程主要包括四个阶段:工单数据采集与预处理、行业工单信息抽取、行业知识融合、行业数据模型构建。信息抽取阶段旨在从异构数据源中自动抽取信息得到候选知识单元,相关技术有实体抽取、关系抽取、属性抽取。知识融合阶段的目的是消除概念的歧义,剔除冗余和错误概念,从而保证知识的质量,它包括实体链接和知识合并。比如苹果既可以代表水果也可以代表苹果公司,必须增加更多的描述信息来加以区别,用户的点击操作可以采用二进制量化表示。想要得到结构化、网络化的知识体系,还需要经历知识加工的过程。它包括三方面内容:本体构建、知识推理和质量评估。知识图谱的内容也需要与时俱进,因此需要不断的更新迭代。
1.1工单数据采集、清洗及预处理,如图1所示:
基于知识图谱的推荐***的实现首先是数据采集,包括用户信息、交互信息、项目信息、上下文信息等。其中,用户信息主要是用户注册信息、交互信息从日志中获取、上下文信息由用户自主录入或者通过传感器获取、项目信息从历史工单的结构信息和记录文本的上下文中获取。
1.2工单知识抽取,如图2所示:
信息抽取包含对结构化/半结构化/非结构化数据的相应处理,以及针对非结构化数据的实体/关系/属性等相关概念的抽取;由于这些数据来源不同,所以信息抽取中在面对结构化数据时,我们一般采取的方法是图映射和D2R转换。在面对半结构化的数据时我们一般利用包装器的方法。在面对纯文本信息时,直接采用信息抽取的方法。所有的数据在进行信息抽取时都包括实体,关系和属性三个要素。通过对信息的抽取过滤获得一系列高质量的知识元素,为知识图谱的构建奠定了良好的基础。
1.2.1实体抽取:
实体提取,也称为实体学习(named entity learning)或命名实体识别(namedentity recognition),是指从原始数据语料库中自动识别命名实体。因为在知识图谱中的知识元素都是由两个实体和一个关系组成的三元组,所以需要指出新抽取的事实是否具有某个实体的部分。目前,工单推荐场景根据实体提取方法,可将其分为四类:基于行业数据的提取,基于规则和字典的统计,基于统计机器学习和面向开放域的提取方法。基于行业垂直站点提取可以提取到某一特定领域的实体,是一种常见且基本的提取方法。基于规则和字典的方法通常是根据既有的规则来抽取实体,对专家知识的依赖性较高。基于统计机器学习方法主要通过机器学习中的监督学习与专家规则相结合来训练原始语料,进而使用训练后的模型识别实体。面向开放域的提取方法主要根据少量的数据去训练出模型,然后使用该模型去命名新的实体,适用于大型Web语料库。
1.2.2关系抽取:
实体抽取只是得到离散的实体存在,实体间的关联并没有建立起来,而关系抽取可以很好的解决实体语义链接的问题。实体之间通过关系进行关联,才能建立起网状的知识结构。常用的关系抽取方法有基于规则和模板的方法,基于统计机器学习的方法和面向开放域的方法。目前采用最多的抽取方法是基于统计机器习的方法。基于机器学习的关系抽取方法按照有无标注好的训练语料可分为有监督学习、无监督学习和弱监督学习方法。有监督学习的关系抽取方法是通过在标注完的训练数据集中学习模型,并用来学习同类型测试集的关系。根据处理语句方式的不同分为基于特征向量得到方法和基于核函数方法。无监督学习的关系抽取方法不需要己标注的语料支撑,可以自动的提取实体关系。它的过程包含了实体聚类和关系抽取。弱监督学习又称远程监督,它不要像有监督那样完全依赖标注的语料信息,也不像无监督那样完全不依赖标注的语料信息,而是通过少量的已标注的语料信息来来作为引子,来学习更多的无标注的语料的实体关系。
1.2.3属性抽取:
属性抽取的任务是从各种数据源中提取目标实体的属性内容,并为每个原始语义类构造属性列表。实体的属性可以看作是连接实体与属性值之间的关系。
1.3知识融合:
知识融合是将多个知识库中的知识进行整合,形成完整统一知识库的过程。在这个过程中,主要需要解决的问题就是实体对齐。不同的知识库对于同一个实体的描述,可能存在差异,通过知识融合,可以将不同知识库中的知识进行互补融合,形成全面、准确、完整的实体描述。知识融合过程中,主要涉及到的工作就是实体对齐,也包括关系对齐,属性对齐,可以通过相似度计算,聚合,聚类等技术来实现。
1.3.1实体消歧:
实体消歧可以通过练习上下文信息帮助实体消除一词多义的问题,聚类消歧是实体消歧中最常用的一种方法,其关键在于定义实体对象与指称项之间的相似性。常用的方法有:空间向量模型、语义模型、社会网络模型和百科知识模型。空间向量模型是将文本的词义信息用空间向量的方法来做处理,并以空间向量中求得的相似性来表达语义的相似性。语义模型与空间向量模型类似,不同之处在于它既包含了词袋模型,也包含了语义的一些特征。社会网络模型是以聚类的思想来运行的,在大环境中,某个指称项的具体含义将会由与它相关联的实体对象决定的。百科知识模型主要是通过像每个实体分配相应的单独网页,并提供指向其它实体的的超链接。它们通过对这些链接进行指称项之间的相似度计算。
1.3.2实体对齐:
实体对齐也称为实体匹配,它是异构数据源中的实体找到对应物理世界的同一实体的过程。通过判断两个及以上的实体是否为同一实体,将属于同一实体聚集在一起,它可以消除异构数据中的指代不明、异构冲突的问题,实现多个实体的对齐和融合。其中,对齐算法可以分为成对实体对齐和集体实体对齐。
1.4工单数据的应用模型设计与搭建:
知识图谱的数据整体上可以分为数据模型和具体数据,数据模型就是知识图谱的数据组织框架。对于行业知识图谱来说,行业术语、行业数据都相对比较清晰,可以采用自顶向下的方式来建设知识图谱,也就是先确定知识图谱的数据模型,然后,根据数据模型约定的框架,再补充数据,完成知识图谱的建设。
工单数据的应用模型设计与搭建,依据基础的参考模型,可以参照行业的相关数据标准,整合标准中对数据的要求,慢慢形成一个基础的数据模型,再根据实际收集的数据情况,来完善数据模型。也可以从公共知识图谱数据模型中抽取,将与行业有关的数据模型从公共知识图谱数据模型中提取出来,然后结合行业知识进行完善。
2、基于行业图谱的工单知识推荐的具体实现方法:
推荐***主要包括基于协同过滤的推荐***,基于内容的推荐***,以及混合推荐***。
协同过滤算法是从相似度度量出发,考虑物品或者用户之间的相似度进行推荐。
基于内容的推荐***则需要建模用户偏好和物品的特征,相比于协同过滤,基于内容的推荐模型在推荐时会考虑物品的特征。
基于协同过滤的方法容易遇到冷启动或者数据系数的问题,而混合推荐按***可以利用基于内容的推荐***中的用户与物品信息来缓解协同过滤算法的这一问题。
知识图谱可以用来表示实体之间的关系,如推荐***中工单与工单、用户与工单、用户与用户之间的关系。这些关系信息可以表示用户偏好与工单相似度等信息,将这些信息引入推荐***中可以显著缓解推荐***面临的冷启动与数据稀疏问题。
结合以下的具体实现方法,可以进一步有效提升与扩展基于知识图谱的工单推荐应用。
2.1基于文本嵌入的特征推荐方法:
基于文本嵌入的特征推荐方法,主要是从知识图谱中抽取一些用户和工单的属性作为特征,放入到传统模型中,本实施例中将采用TransE模型。
TransE的直观含义,就是TransE基于实体和关系的分布式向量表示,将每个三元组实例(head,relation,tail)中的关系relation看做从实体head到实体tail的翻译,通过不断调整h、r和t(head、relation和tail的向量),使(h+r)尽可能与t相等,即h+r=t。想让h+l≈t h+l≈t h+l≈t,如何设置损失函数是个关键。实际上表示学习都没有明显的监督信号,也就是不会明确告诉模型你学到的表示正不正确,那么想要快速收敛就得引入“相对”概念,即相对负例来说,正例的打分要更高,方法学名“negative sampling”。损失函数设计如下:
其中(h′,l,t′)称为corrupted triplet,是随机替换头或尾实体得到(非同时,其实也可以替换relation)。γ为margin。同时也是是SVM的soft margin损失函数,所以可以说,transE针对给定三元组进行二分类任务,其中负例是通过替换自行构造的,目标是使得最相近的正负例样本距离最大化。详细算法流程为:
其中距离度量方式有L1范数和L2范数两种。在测试时,以一个三元组为例,用语料中所有实体替换当前三元组的头实体计算距离d(h′+l,t),将结果按升序排序,用正确三元组的排名情况来评估学习效果(同理对尾实体这样做)。度量标准选择hits@10和meanrank,前者代表命中前10的次数/总查询次数,后者代表正确结果排名之和/总查询次数。
2.2基于图谱网络结构的元路径推荐方法,如图3所示:
该类方法将知识图谱视为一个异构的信息网络,然后构造工单之间的基于元路径和元图的特征。简单地说,元路径是连接两个实体的一条特定的路径,比如“产品a->活动套餐A->活动->活动套餐B->产品B”这条元路径可以连接两个产品,因此可以视为一种产品之间的潜在关系的方式。这类方法的优点是充分且直观地利用了知识图谱的网络结构,缺点是需要手动设计元路径,这在实践中难以到达最优。
2.3基于相似度指标统计的社群发现的推荐方法
模型解释:可以借助网络的各种统计指标来挖掘图网络中内部关系紧密的社群。该算法中,计算初始复杂关系网络中的边介数(所有节点之间的最短路径中经过该边的最短路径数)及Q值(模块度:常用的一种衡量网络社区划分质量的方法),去除边介数最高的边,重新计算当前网络的Q值,若Q值比原来的大,则将现在的Q值和网络分割情况进行更新,否则,进行下一次网络分割,重复直至网络分割完毕。
模块性是指连接网络内部节点的边所占的比例与另外一个随机网络中连接内部节点的边所占的比例的期望值相减得到的差值。
在无权网络中,Q函数表述为:
Q=∑(eii-ai 2)
eii表示对角线上的数值,给出了网络中连接某一社团内部各个节点在所有边的数目中所占的比例。ai表示每一行或每一列的和,即第i个社团中的节点相连的边在所有边中所占的比例。
在加权网络中,Q函数表述为:
式中,aij为网络邻接矩阵的元素,如果i和j两节点相连,则aij为边的权重,否则等于0;δ为隶属函数,当节点i和j属于同一个社团时,隶属函数为1,否则等于0;M=0.5∑aij为网络中边的权重之和。在网络划分结构固定,两节点的边随机连接时,节点间存在边的可能性为kikj/(2M),ki为节点i的点权,计算方法为对连通矩阵的第i行求和。
在实际的网络中,Q的值通常在0.3-0.7之间,Q的值越大,网络***的结果状态越好,Q值大于0.7的几率很小,Q值的上限是1,当越接近于1时,越能说明网络具有较强的聚类性质,即具有明显的社区结构。该算法的关键是计算网络中的边介数,最短路径边介数方法是一种最简单的边介数度量方法,一条边的边介数是指从某个源节点S出发通过该边的最短路径的数目,对所有可能的源节点,重复做同样的计算,并将得到的相对于各个不同的源节点的边介数相加,所得的累加和为该边相对于所有源节点的边介数。
分割后的每个社区中的节点相似度较高,通过寻找节点在分割后的社区中的分布,挖掘相似度较高的潜在节点簇。
2.4基于波纹网络的推荐方法
2.4.1、原理介绍,如图4所示:
模型的关键思想是兴趣传播:对于每个用户,波纹网络模型将其历史兴趣视为图谱中的种子集,然后沿着知识图谱的连接不断向外扩展用户兴趣,从而形成用户兴趣在知识图谱上的分布。这个过程就像波纹的传播一样,波纹的特点是它会随着层数的变大而逐渐衰减,该模型的特点也是如此。波纹网络模型最大的优势在于它可以自动地发现从用户历史点击过的工单到候选工单的可能路径,而不需要任何人工设计元路径或元图。
2.4.2、波纹网络传播模型详解:
定义1:相关实体
给定交互矩阵Y和知识图G,用户u的k跳相关实体集合为:
定义2:波纹集
用户u的k跳波纹集定义为从开始的知识三元组:
可以看到,波纹网络模型最终的预测值是通过项目特征和用户特征得到的,项目特征通过嵌入层可以直接得到,关键是用户特征的获取。用户特征是通过图中的矩形表示的向量相加得到的。
以第一个矩形表示的向量为例,来看一下具体是如何计算的:
第一个矩形表示的向量,需要使用的是1-hop的波纹集,对于集合中的每一个(h,r,t),会计算一个与项目特征的相关性,相关性计算公式如下:
最后通过加权所有t对应的embedding,就得到了第一个矩形表示的向量,表示用户兴趣经第一轮扩散后的结果:
接下来,重复上面的过程,假设一共H次,那么最终用户特征的结果为:
而最终的预测值计算如下:
波纹网络模型将用户u和项目v作为输入,并输出用户u单击项目v的预测概率。
2.5基于知识图谱节点的工单知识中心度计算的推荐方法
在协同过滤中,主要是将上述的用户和工单之间的关系表示成一个二维的矩阵(用户商品矩阵)。而在基于图的推荐算法中,将上述的关系表示成二部图的形式,为用户A推荐商品,实际上就是计算用户A对所有商品的感兴趣程度。
个性化排名算法对通过连接的边为每个节点打分,具体来讲,在个性化排名算法中,不区分用户和工单,因此上述的计算用户A对所有的工单的感兴趣的程度就变成了对用户A计算各个节点B,C,a,b,c,d的重要程度。具体实现过程为:
首先从一个顶点(即某一节点A)出发,以一定概率α往下一个节点游走,以1-α概率回到初始顶点A,足够长时间后,整幅图的概率分布会趋于一个稳定值,这个概率值即为该节点A对每个item的相关程度。
假定从A出发,一开始PR(A)=1,其余为0
第一步,A以1/2×α的概率分别向a、c游走:
PR(A)=1-a
第二步,A以1/2×α的概率分别向a、c游走,a以1/2×α概率分别向A、B游走,c以1/3×α概率分别向A、B、C游走:
以此类推可以得到每步的更新公式:
其中in(j)表示指向j的结点的集合,out(j)表示j指向的结点的集合,|out(j)|表示j指向的结点的数目,u表示初始的顶点,即需要推荐的节点。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块、模组或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元、模组或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。
所述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明的方法中限定的上述功能。需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的***、装置或器件,或者任意以上的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种基于图谱的工单推荐实现方法,其特征在于,包括以下步骤:
获取工单数据;
根据工单数据,构建知识图谱;
获取待推荐内容;
根据知识图谱和待推荐内容进行推荐,得到推荐结果。
2.根据权利要求1所述的基于图谱的工单推荐实现方法,其特征在于,根据工单数据,构建知识图谱,具体包括以下步骤:
从工单数据中抽取实体和关系;
对实体进行消歧和对齐处理,得到处理后实体;
根据处理后实体和关系,构建知识图谱。
3.根据权利要求1所述的基于图谱的工单推荐实现方法,其特征在于,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
将知识图谱输入TransE模型中训练,得到训练后TransE模型;
将待推荐内容输入训练后TransE模型,输出推荐结果。
4.根据权利要求3所述的基于图谱的工单推荐实现方法,其特征在于,将知识图谱输入TransE模型中训练,得到训练后TransE模型,具体包括以下步骤:
通过知识图谱特征学习模型对知识图谱进行向量化处理,得到三元组;所述三元组包括head向量、relation向量和tail向量;
将head向量、relation向量和tail向量输入到TransE模型中进行训练,通过negativesampling算法不断调整head向量、relation向量和tail向量,使head向量加上relation向量与tail向量,得到训练后TransE模型。
5.根据权利要求4所述的基于图谱的工单推荐实现方法,其特征在于,negativesampling算法的损失函数如下:
其中:h′+l,t′为打破的三元组corrupted triplet;γ为正负三元组最大的距离margin;h为head向量;r为relation向量;t为tail向量;S为三元组。
6.根据权利要求1所述的基于图谱的工单推荐实现方法,其特征在于,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
将知识图谱作为异构的信息网络;
构造异构的信息网络中工单之间的基于元路径和元图的特征;得到构造后异构信息网络;
根据构造后异构信息网络对待推荐内容进行推荐,得到推荐结果。
7.根据权利要求1所述的基于图谱的工单推荐实现方法,其特征在于,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
根据知识图谱构建波纹网络;所述波纹网络包括中心业务以及多层波纹层;
确定所述多层波纹层对应的三元组向量;
根据所述多层波纹层对应的三元组向量对待推荐内容进行推荐,得到推荐结果。
8.根据权利要求1所述的基于图谱的工单推荐实现方法,其特征在于,根据知识图谱和待推荐内容进行推荐,得到推荐结果,具体包括以下步骤:
获取知识图谱中的实体和关系;
根据知识图谱中的实体和关系,生成二部图;
根据待推荐内容,对二部图中的通过连接的边的每个节点打分,得到推荐结果。
9.一种基于图谱的工单推荐实现***,用于实现如权利要求1-8任一所述的基于图谱的工单推荐实现方法,其特征在于,包括:
第一获取模块,用于获取工单数据;
构建模块,用于根据工单数据,构建知识图谱;
第二获取模块,用于获取待推荐内容;
推荐模块,用于根据知识图谱和待推荐内容进行推荐,得到推荐结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310367692.2A CN116450938A (zh) | 2023-04-07 | 2023-04-07 | 一种基于图谱的工单推荐实现方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310367692.2A CN116450938A (zh) | 2023-04-07 | 2023-04-07 | 一种基于图谱的工单推荐实现方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116450938A true CN116450938A (zh) | 2023-07-18 |
Family
ID=87125005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310367692.2A Pending CN116450938A (zh) | 2023-04-07 | 2023-04-07 | 一种基于图谱的工单推荐实现方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450938A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719946A (zh) * | 2023-08-10 | 2023-09-08 | 中国电信股份有限公司 | 工单推荐方法、工单推荐装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488462A (zh) * | 2020-04-02 | 2020-08-04 | ***通信集团江苏有限公司 | 基于知识图谱的推荐方法、装置、设备及介质 |
CN111967972A (zh) * | 2020-08-18 | 2020-11-20 | 中国银行股份有限公司 | 理财产品推荐方法及装置 |
WO2021035635A1 (zh) * | 2019-08-29 | 2021-03-04 | 西门子(中国)有限公司 | 设备组构建方法与装置 |
CN113032618A (zh) * | 2021-03-26 | 2021-06-25 | 齐鲁工业大学 | 基于知识图谱的音乐推荐方法及*** |
CN114756762A (zh) * | 2022-06-13 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
CN114756694A (zh) * | 2022-06-16 | 2022-07-15 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于知识图谱的推荐***、推荐方法和相关设备 |
-
2023
- 2023-04-07 CN CN202310367692.2A patent/CN116450938A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021035635A1 (zh) * | 2019-08-29 | 2021-03-04 | 西门子(中国)有限公司 | 设备组构建方法与装置 |
CN111488462A (zh) * | 2020-04-02 | 2020-08-04 | ***通信集团江苏有限公司 | 基于知识图谱的推荐方法、装置、设备及介质 |
CN111967972A (zh) * | 2020-08-18 | 2020-11-20 | 中国银行股份有限公司 | 理财产品推荐方法及装置 |
CN113032618A (zh) * | 2021-03-26 | 2021-06-25 | 齐鲁工业大学 | 基于知识图谱的音乐推荐方法及*** |
CN114756762A (zh) * | 2022-06-13 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
CN114756694A (zh) * | 2022-06-16 | 2022-07-15 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于知识图谱的推荐***、推荐方法和相关设备 |
Non-Patent Citations (3)
Title |
---|
HUAN ZHAO等: "Meta-Graph Based Recommendation Fusion over Heterogeneous Information Networks", 《KDD 2017 RESEARCH PAPER》 * |
刘清等: "高效图推荐算法应用研究", 《软件导刊》, pages 116 - 117 * |
段大高等: "《社交媒体内容安全挖掘技术研究"十三五"科学技术专著丛书》", 31 December 2019, 北京邮电大学出版社, pages: 185 - 186 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719946A (zh) * | 2023-08-10 | 2023-09-08 | 中国电信股份有限公司 | 工单推荐方法、工单推荐装置、存储介质及电子设备 |
CN116719946B (zh) * | 2023-08-10 | 2023-11-28 | 中国电信股份有限公司 | 工单推荐方法、工单推荐装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Network representation learning: A survey | |
Yu et al. | AS-GCN: Adaptive semantic architecture of graph convolutional networks for text-rich networks | |
Ienco et al. | Parameter-less co-clustering for star-structured heterogeneous data | |
CN109992784B (zh) | 一种融合多模态信息的异构网络构建和距离度量方法 | |
CN107292097A (zh) | 基于特征组的特征选择方法、及中医主症选择方法 | |
Hu et al. | EGC: A novel event-oriented graph clustering framework for social media text | |
Zhang et al. | Multidimensional mining of massive text data | |
Xint et al. | Label incorporated graph neural networks for text classification | |
CN116450938A (zh) | 一种基于图谱的工单推荐实现方法及*** | |
Meng et al. | Concept-concept association information integration and multi-model collaboration for multimedia semantic concept detection | |
Chowdhury et al. | A survey on event and subevent detection from microblog data towards crisis management | |
Xing et al. | Mining semantic information in rumor detection via a deep visual perception based recurrent neural networks | |
Yu et al. | A graph attention network under probabilistic linguistic environment based on Bi-LSTM applied to film classification | |
Bu et al. | Unsupervised face-name association via commute distance | |
Liang et al. | The graph embedded topic model | |
Tommasel et al. | Short-text learning in social media: a review | |
Zhao et al. | Detecting fake reviews via dynamic multimode network | |
Akhgari et al. | Sem-TED: semantic twitter event detection and adapting with news stories | |
Van Le et al. | An efficient pretopological approach for document clustering | |
Chaki et al. | Pattern mining approaches used in social media data | |
CN113505600B (zh) | 一种基于语义概念空间的工业产业链的分布式索引方法 | |
Jia et al. | The overlapping community discovery algorithm based on the local interaction model | |
Liu | Application Optimization of University Aesthetic Education Resources Based on Few‐Shot Learning from the Perspective of Ecological Aesthetic Education | |
Liu | [Retracted] Rapid Classification and Analysis for E‐Commerce Goods Based on Multitask Learning | |
CN112765465B (zh) | 一种基于用户图谱的推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |