CN111201545A - 计算环境节点和边网络以优化数据身份解析 - Google Patents

计算环境节点和边网络以优化数据身份解析 Download PDF

Info

Publication number
CN111201545A
CN111201545A CN201880064344.5A CN201880064344A CN111201545A CN 111201545 A CN111201545 A CN 111201545A CN 201880064344 A CN201880064344 A CN 201880064344A CN 111201545 A CN111201545 A CN 111201545A
Authority
CN
China
Prior art keywords
graph
edge
path
aggregated
store
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880064344.5A
Other languages
English (en)
Inventor
M·C·哈吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LiveRamp Holdings Inc
Original Assignee
Acxiom LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Acxiom LLC filed Critical Acxiom LLC
Publication of CN111201545A publication Critical patent/CN111201545A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

一种***和方法,该***和方法利用数据集成输入例程从身份数据存储介质资源接收(诸)原始数据集,从每个数据集中生成边类型,并将来自每个数据集的边类型存储在第一临时存储介质中,图构建模块从该第一临时存储介质检索边类型并将它们组合以产生经汇总的边存储,对该经汇总的边存储的搜索被用来查找图分量路径。将当前路径与经汇总的边存储合并,以查找在经汇总的边存储中延伸每条路径的边,这些延伸的路径被存储在图分量表中,从该图分量表下载图路径的样本并构建图。电路分析引擎被用来执行电路分析,并且选择模块被用来选择性地修改电路分析和结果的范围。

Description

计算环境节点和边网络以优化数据身份解析
技术领域
本发明的领域是用于优化身份解析的度量和准确度(即,计算环境中归属于对象的记录与它们所表示的该对象准确地相关的准确度)的计算网络。
背景技术
身份解析是许多行业(包括例如市场营销支持服务)中的关键事项。市场营销数据库很多包含数亿个单独的记录或数据元素,并且尽管诸记录可能不包含正好相同的数据,但它们仍可能与同一对象相关联。例如,一个数据元素可以是名称,一个数据元素可以是电子邮件地址,而另一数据元素可以是移动电话号码。正确地将这些各种数字数据元素解析为与同一对象(在该情形中是一个人)相关联,并避免不归属于同一对象的数据元素的不正确关联,对于成功部署此类综合市场营销数据库而言是必要的。测量在这样的数据库中执行的解析过程的准确度的方法提供了对解析工作成功与否的洞察,并因此可以驱动改进的解析方法。给定此类数据库的巨大规模(通常包含数十亿个单独的数据元素),计算效率也具有很大的重要性,因为非高效的网络解决方案将无法在实际时间段内解析数据对象相关性。
通常,已知用于确定某些类型的数据表示之间的关系程度的图形化办法。Ray等人的美国专利申请公开号2017/0099525 A1教导了一种对跨与消费者相关联的多个设备向该消费者定位广告进行优化的图形化方法。为了执行此功能,构建了消费者图,其中消费者节点之间的边被用来表示消费者之间的相似度。另外,Liodden等人的美国专利申请公开第2015/0370814 A1号教导了一种确定跨多个设备的行为是否源自同一用户的方法。该方法使用设备图来将设备映射到图中的节点。
尽管图形化数据分析已在某些现有技术应用中被使用,但是测量大型综合数据库中的数据解析的准确度的能力尚未被达成。然而,本发明人已经认识到一种可以成功地利用电路分析技术来测量数据库内对象解析的准确度的方法和***的潜在优点,尤其是对于大规模综合数据库而言。
在此背景技术部分中提到的参考文献不被认为是关于本发明的现有技术。
发明内容
本发明涉及一种方法和***,该方法和***用于应用电路分析技术来测量数据库内对象解析的准确度,尤其但并非专门针对包含涉及数亿甚至数十亿个数据元素的记录的大规模综合数据库或数据库集。在各种实现中适合于本发明的这样的数据库的一个非限制性示例是市场营销数据库,其包含归属于个体、家庭或企业的数据元素。此类数据库可以从许多第三方提供商接收源数据元素。包括诸节点和连接这些节点的边的图被构建。节点表示归属于对象的数据元素。诸节点之间的连接(边)的强度与数据元素归属于同一对象的可能性成比例。例如,电话号码和电子邮件地址之间的边是该电子邮件和电话号码(数据元素)归属于同一个人(对象)的可能性的度量。连接的强度可以是在相同的两个节点之间的多条边的结果,诸如举例而言,当连接是从多个源导出的且每条边表示来自一个源的连接时。这等效于电路分析中的“并联”连接,并且在将这些边视作电阻器的情形中,多条连接边的强度是相加的。另外,可能存在诸节点之间的间接连接,其中存在按导致连接的顺序的一个或多个居间节点;在该情形中,链中的所有节点之间的最弱的边是连接强度的度量。这等效于电路分析中的“串联”连接。通过将这些类型的连接视作串联连接和并联连接,电路分析的基尔霍夫电路分析定律可适用于确定诸对象之间实体解析的准确度的度量。
尽管本文中所使用的示例涉及包含归属于特定对象类型的特定数据元素类型的特定数据库类型,但是本发明在其各种实现中并不限于这样的数据库、这些特定数据元素、或这些特定对象。
本发明的这些和其他特征、目标及优点将通过结合如以下描述的附图考虑以下对优选实施例和所附权利要求书的详细描述而变得更好理解:
附图说明
图1是根据本发明的一实现的图。
图2是根据本发明的一实现的图中的不同类型的连接的图解。
图3是根据本发明的一实现的图中的不同类型的路径的图解。
图4是根据本发明的一实现的从单个受众键(AK)开始的图的示例切片的图解。
图5是根据本发明的一实现的从图4的图切片计算得到的边得分的图解。
图6是解说具有自确证的结果与没有自确证的结果之间的相关性的图。
图7是利用本发明的一实现的计算环境内的数据流的示图。
图8是解说了电路分析原理的流图,该电路分析原理即为流入和流出给定节点的总流量必须总计为零(现有技术)。
图9是解说将电路分析和欧姆定律应用于计算净电导率的流图(现有技术)。
图10是解说本发明***的一个实施例的程序模块的示意图。
具体实施方式
下面将参考一种或多种具体实现来描述本发明;然而,应当理解,这些实现并不限于本发明,并且本发明的全部范围如将在针对本发明的本申请或后续申请中针对本发明的任何权利要求中所阐明的那样。
本发明可被描述为利用由一台或多台计算机执行的计算机可执行指令,诸如程序模块。这些程序模块包括例程、程序、对象、组件和数据结构,它们在计算环境中执行特定任务或实现特定数据类型,如本文中更全面地描述且如图10所示的那样。
在如本文中所描述的根据本发明的各实现的身份解析中,用于同一对象(例如,消费者)的不同标识符(例如,电子邮件、邮政地址、和电话号码)被连接在一起,并且数据采取图的形式,其中标识符是节点且它们之间的连接是边。需要用于确定每条边的质量的方法,以使得不正确的边可被消除。本文中所描述的各实现通过在选择节点上应用附加数据(例如,人口统计数据,诸如与电子邮件相关联的性别)、基于诸节点是否具有相同的这种值而在它们之间添加边、以及执行图的电路分析以计算每条边的质量得分来解决此问题。现在参考图10,数据被接收自身份数据源1,并通过数据集成输入例程2被集成到图中,该数据集成输入例程2从数据源1接收数据并将数据存储在临时存储区中以供图构建模块3进行处理,该图构建模块3构建图,其示例在下面描述。在由图构建模块3构建图并且在通过电导率输入例程5接收到电导率参数(例如,如下面描述的电导率计算常数)之际,电路分析引擎4被利用以执行诸节点之间的连接边的定性分析,如下面所描述。最后,用户通过使用结果选择模块6更改电路分析的参数和范围而具有选择性地确定目标结果的能力。
作为示例,考虑图1的图分量10,其包含两种类型的标识符。在此示例中,一种类型(被称为mPEL)是被用来表示匿名名称和邮政地址的内部标识符。另一种类型(被称为Cid)是因数据伙伴而异的标识符;换言之,其标识图中数据元素的源,以便区分各种源,如将在稍后使用。mPEL节点利用性别人口统计数据(当已知时)来被增强;这在图1中以F表示女性、M表示男性、U表示未知来解说。在性别已知的mPEL对之间创建边。所创建的人口统计边的权重取决于mPEL是相同性别还是不同性别。在示例图中,带有圆形端点的线表示一致,而带有菱形端点的线表示不一致。附加地,权重与标识符之间的边中的每一者相关联,这些标识符对应于来自第三方数据提供商的身份数据。
接下来,在计及每条边的确证数据的程度的情况下计算图内各条个体边的质量。例如,考虑图2和图3的示例所示的节点A和B之间的边。图2示出了连接的类型,而图3示出了路径的类型。图形12示出了来自单个第三方提供商的连接。如果附加的第三方提供商在这些节点之间也提供了相同的边,则身份解析可能对该边更有信心,如图形14中那样。此外,如果两个节点也都连接到第三节点C,则对A和B之间的边也可能更有信心,并因此在A和B之间存在间接连接,如图形16中那样。所有这些都由通过电路分析引擎4执行图的电路分析来完成,其中每条边被建模为电阻器,并且在与每条边相关联的一对节点之间的总有效电阻被计算。如在图2的图形14和图3的图形18中那样,两个节点之间的多个并联路径加在一起。串联路径受到路径内最低电导率边的限制,如在图2中的图形16和图3中的图形20的示例中的A-C-B连接中那样。
在更复杂的示例中,将在线图切片考虑作为图4的图切片22的示例,该图切片22包括以下类型的节点/标识符:个体维护的PEL(mPEL);家庭PEL(HH),其表示家庭的对象类型,而不是个体消费者;标识符web浏览器cookie(CK);移动设备标识符(MD,图4中未示出);以及IP地址(IP)。节点可以通过各种类型的边来连接,如下表1所示:
Figure BDA0002435332870000051
Figure BDA0002435332870000061
表1
图4示出了图切片22,该图切片22从受众中的单个记录开始,其被解说为示出受众键(AK)的菱形。如图切片22中所解说的边宽度与可能来自不同伙伴的观察次数在尺度上成比例。
为了计算一对节点之间的整体电导率,必须定义图中每条个体边的电导率。尽管用户可取决于所需的分析来定义每条个体边的电导率,但在特定实现中,下表2中所示的常数和缩放行为按照边类型来定义单条边的电导率。需要注意,那些具有线性缩放的边类型仍然至多只能每第三方数据源计入一次观察。例如,从只是一个第三方数据源观察到三次的cookie/PEL边在计算边电导率时仍仅计入作为一次观察。这些常数和缩放行为通过电导率输入例程5集成到电路分析引擎4中。
Figure BDA0002435332870000062
Figure BDA0002435332870000071
表2
使用表2中所示的常数,每个图分量被建模为电路,并且每条边的总电导率通过电路分析引擎4从中被计算出。每条边的总电导率在本文中被定义为边得分。图5将图4的图切片22的边得分示为图切片24。边宽度被渲染成与节点对之间的边得分成正比例。
在大得多的数据集中聚集超过250个图分量,可以获得不同类型的边和来自不同第三方提供商的边的边得分的分布。表3在一个示例中列出了每种边类型的聚合边得分:
Figure BDA0002435332870000072
表3
可以将中值边得分与单个边电导率常数进行比较。对于移动边,中值边得分等于单个边电导率,这表明不存在用于中值移动边的确证途径。相比而言,对于若干其他边类型,中值得分大约是单个边电导率的两倍,这表明存在确证这些边类型的其他边和间接途径。
在特定的说明性示例中,可以使用来自各个零售商(Retailer)的数据来进一步深入了解不同的离线SR受众的准确度,如下表中所列出:
Figure BDA0002435332870000073
Figure BDA0002435332870000081
表4存在跨受众的中值边得分的显著变化。对于一些受众,中值边得分仅为1.0,并因此不存在确证这些边的其他边/途径。相比而言,对于其他受众,中值边得分为3-4,表明存在确证这些边的大量其他边和途径。
继续利用说明性示例数据,表5中示出了用于标识cookie发布者(publisher)的聚合边得分:
Figure BDA0002435332870000091
Figure BDA0002435332870000101
表5
同样,可以看出,存在跨不同的第三方数据提供商的显著的变化。
使用结果选择模块6,用户具有基于一个或多个期望因素选择性地分析结果的能力。例如,在测量第三方数据提供商A的准确度时,可能不希望使用来自该数据提供商的数据,即,可能想要考虑移除自确证。表6示出了当自确证被移除之后边得分如何改变。
Figure BDA0002435332870000102
表6
对于所有边类型,此示例中至少50%的边不具有确证数据。这表明边的完全确证的显著部分涉及自确证数据。
再次在说明性示例中,由伙伴对“Offline SR(离线SR)”进行分解的结果如表7中所示:
Figure BDA0002435332870000111
表7
如图6的线性拟合图所示,在具有自确证的结果(原始结果)与没有自确证的结果之间存在线性相关。
在生产化时,本文中所提出的方法允许将得分指派给身份图内的每一条边。对于需要更高准确度的应用,可接着选择性地包括得分较高的边。此外,在某些实现中,在定义单个边电导率以供用作这些方法的输入时,可以使用来自实体解析服务(诸如来自Acxiom公司的AbiliTec服务)的节点/边得分。
这些计算是在联网计算机***中实现的,该联网计算机***允许身份图分量的样本的计算。图7解说了原始身份数据如何被转换成身份图分量以及这些组件的连通性如何被量化。该过程开始于如以若干种不同的文件格式存储在HDFS(分布式文件***)上的原始身份数据26。在物理或虚拟地在存储空间中分开的不同身份数据存储介质资源处,该数据可以包括像素服务器日志;移动数据导入;AbiliTec电子邮件/消费者链接文件;离线SR受众;以及PEL/家庭文件。身份数据通过数据集成输入例程2被集成到***中,该数据集成输入例程2从数据源1接收原始身份数据并将数据临时地存储在临时存储区中,其中图构建模块3使用原始数据来构建图以供分析。利用边生成工作流28,原始身份数据使用若干种不同的Hadoop工作流来被转换成公共边类型,每个数据源一种Hadoop工作流。特定的边生成工作流28被用于每种数据类型。例如,cookie标识和cookie观察边生成工作流可与像素服务器日志一起使用;移动标识和移动观察边生成工作流可与移动数据导入一起使用;PEL合并边生成工作流可以与AbiliTec电子邮件/消费者链接文件一起使用;离线SR边生成工作流可以与离线SR受众一起使用;并且PEL/家庭边生成工作流可以与PEL/家庭文件一起使用。所得到的边类型被写入临时存储30。不同的临时边存储使用Hadoop工作流在边合并工作流32处被一起合并成单个经汇总的边存储34。该工作流还对经汇总的边存储进行分区和排序,以使得在后续图搜索工作流中针对该存储的合并可以被高效地执行。Hadoop工作流被用来在基于深度优先搜索(DFS)的图分量搜索36处通过DFS查找图分量,并且结果被存储在图分量路径38中。
对于每个起始节点,该过程通过在文件递送服务40处迭代应用DFS来开始构建路径。在每个步骤中,当前路径与经汇总的边存储合并在一起,以查找延伸每个路径的边。在此实现中执行了DFS的五次迭代。接下来,来自同一源节点的不同图路径被组合在一起,以给出以每个起始节点为中心的图分量。所得到的图分量在临时存储42处被写入HDFS。例如,在一种实现中,图分量数据被递送至云存储服务(诸如Amazon S3)。此传递可以使用由LiveRamp公司(LiveRamp,Inc)提供的文件递送服务来执行。临时存储42处的Amazon S3数据接着使用SQL加载命令过程44被加载到Amazon Redshift表中以进行后续分析,其被实现为图分量表46。Python过程、图采样器48被用来从Redshift表46下载图路径的样本,并且该样本被写入图分量50处的数据分析机上的本地文件。Jupyter笔记本被用来使用本文中所描述的方法对图路径的样本执行电导率分析过程52。具体而言,在某些实现中,奇异值分解(SVD)被用来高效地求解与电路模型相对应的线性方程组。
在其他实现中,这些方法可以按比例放大并被应用于完整的实体解析图。
作为前述公开的背景,现在总体上可以如下描述电路计算。电导率(g)因欧姆定律而与电流(I)和电势差(电压,V)有关:
Figure BDA0002435332870000131
使用在电路分析中通常采用的水流模拟,电流类似于流速且电压等同于压力。如由图8所示的流图54所解说,在导体(即管道)网络中,流入和流出给定节点的总流量必须总计为零。
Figure BDA0002435332870000132
在此,索引从节点i通过边i,j流向节点j的电流。通过每条边的流量与电导率以及这两个节点之间的电压差(即压力)有关。
Figure BDA0002435332870000133
对于图内的每一个节点都存在这些等式之一,并且所有节点的方程组给出了线性方程系。
有必要计算节点i和节点j之间的净电导率,计及边i、j(如果它们之间存在边的话)和这两个节点之间的所有其他途径。为此,***在它们之间施加净电流,计算Vi和Vj之间的电势差,并接着使用欧姆定律计算净电导率*(其中*表示净电导率),如由图9所示的流图56图形地示出。
Figure BDA0002435332870000141
***接着通过求解线性方程系来求解以电压为单位的电势差(即,压力差)。
除非以其他方式说明,否则本文中所使用的所有技术和科学术语具有如本发明所属的本领域的普通技术人员共同理解的相同含义。本文中使用的所有术语应当以与上下文一致的尽可能最宽的方式来解释。当本文中使用编组时,该组中的所有个体成员以及该组中所有可能的组合和子组合均旨在被个体地包括在本公开中。本文中引用的所有参考都被通过援引纳入在此到不存在与本说明书的公开不一致的程度。如果在此表达范围,则该范围旨在涵盖和公开该范围内的所有子范围以及该范围内的所有特定点。
本发明已参考某些优选和替换实施例来描述,这些实施例旨在仅为示例性的而非旨在限制如所附权利要求书中阐述的本发明的整个范围。

Claims (12)

1.一种用于使用节点和边网络优化数据解析的计算***,包括:
a.多个身份数据存储介质资源,每个身份数据存储介质资源包括来自至少一个身份数据源的至少一个原始数据集;
b.数据集成输入例程,所述数据集成输入例程与所述多个身份数据存储介质资源通信,并在与存储用于执行所述数据集成输入例程的指令的非瞬态介质耦合的微处理器处执行,所述数据集成输入例程包括:
i.多个边生成工作流,其中每个边生成工作流被配置成从所述多个身份数据存储介质资源之一接收原始数据集,并从来自所述多个身份数据存储介质资源之一的每个原始数据集中生成边类型;以及
ii.第一临时存储介质,所述第一临时存储介质与所述多个边生成工作流通信,以接收并存储来自每个数据集的所述边类型;
c.图构建模块,所述图构建模块与所述数据集成输入例程通信并在存储用于执行所述图构建模块的指令的所述微处理器处执行,所述图构建模块包括:
i.边组合工作流,所述边组合工作流用于从每个数据集接收所述边类型,
并组合所述边类型以产生经汇总的边存储;
ii.经汇总的边存储介质,所述经汇总的边存储介质被配置成从所述边组合工作流接收所述经汇总的边存储;
iii.图分量搜索工作流,所述图分量搜索工作流与所述经汇总的边存储介质通信并被配置成接收所述经汇总的边存储并在所述经汇总的边存储中查找图分量路径;
iv.图分量路径存储介质,所述图分量路径存储介质被配置成从所述图分量搜索工作流接收所述图分量路径;
v.文件递送服务,所述文件递送服务与所述图分量路径存储介质通信并被配置成从所述图分量路径存储介质接收所述图分量路径,并将当前路径与所述经汇总的边存储合并,以在所述经汇总的边存储中查找延伸每条路径的边;
vi.第二临时存储,所述第二临时存储被配置成从所述文件递送服务接收在所述经汇总的边存储中延伸每条路径的所述边;
vii.SQL加载命令工作流,所述SQL加载命令工作流与副临时存储通信并被配置成加载在所述经汇总的边存储中延伸每条路径的所述边;
viii.图分量表存储介质,所述图分量表存储介质与所述SQL加载命令工作流通信并被配置成接收并存储在所述经汇总的边存储中延伸每条路径的所述边,并且将在所述经汇总的边中延伸每条路径的所述边存储在图分量表中;
ix.图采样器工作流,所述图采样器工作流与所述图分量表通信并被配置成从所述图分量表下载图路径的样本并创建图路径的样本;以及
x.图分量存储介质,所述图分量存储介质被配置成从所述图采样器工作流接收所述图路径的样本;以及
电路分析引擎,所述电路分析引擎与所述图构建模块通信并在存储用于执行所述电路分析引擎的指令的所述微处理器处执行,所述电路分析引擎包括与所述图分量存储介质通信的电导率分析工作流并被配置成从所述图采样器工作流接收所述图路径的样本,并对来自所述图采样器工作流的所述图路径的样本执行电导率分析。
2.根据权利要求1所述的***,其特征在于,所述多个身份数据存储介质资源中的至少一者包括多个原始数据集,并且所述多个边生成工作流中的不同的一者被配置成接收这些多个原始数据集中的每一者。
3.根据权利要求1所述的***,其特征在于,所述边组合工作流被进一步配置成对所述经汇总的边存储进行分区和排序。
4.根据权利要求1所述的***,其特征在于,所述文件递送服务被进一步配置成执行多次迭代,以便从所述图分量路径存储介质接收所述图分量路径,并且将当前路径与所述经汇总的边存储合并,以便查找在所述经汇总的边存储中延伸每条路径的边。
5.根据权利要求4所述的***,其特征在于,所述文件递送服务被配置成执行至少五次迭代,以便从所述图分量路径存储介质接收所述图分量路径,并且将当前路径与所述经汇总的边存储合并,以便查找在所述经汇总的边存储中延伸每条路径的边。
6.根据权利要求1所述的***,其特征在于,所述电导率分析工作流被配置成执行奇异值分解(SVD),以便高效地求解与从来自所述图采样器工作流的所述图路径的采样导出的电路模型相对应的线性方程组。
7.根据权利要求1所述的***,其特征在于,进一步包括电导率输入例程,所述电导率输入例程与所述电路分析引擎通信并在存储用于执行所述电导率输入例程的指令的所述微处理器处执行,所述电导率输入例程被配置成将电导率参数指派给所述图中的每条个体边,所述电导率参数中的每一者被配置成供所述电路分析引擎用来对来自所述图采样器工作流的所述图路径的样本执行所述电导率分析。
8.根据权利要求1所述的***,其特征在于,进一步包括结果选择模块,所述结果选择模块与所述电路分析引擎通信并在存储用于执行所述结果选择模块的指令的所述微处理器处执行,所述结果选择模块被配置成允许选择性地修改由所述电路分析引擎执行的所述电导率分析的范围。
9.一种用于使用节点和边网络优化数据解析的方法,所述方法包括以下步骤:
a.从多个身份数据源中的至少一者接收至少一个原始数据集;
b.从来自所述多个身份数据存储介质资源之一的每个原始数据集中生成边类型;
c.将来自每个数据集的所述边类型存储在第一临时存储介质中;
d.组合所述边类型以产生经汇总的边存储;
e.搜索所述经汇总的边存储以在所述经汇总的边存储中查找图分量路径;
f.将所述图分量路径存储在图分量路径存储介质中;
g.将当前路径与所述经汇总的边存储合并,以便在所述经汇总的边存储中查找延伸每条路径的边;
h.将在所述经汇总的边中延伸每条路径的所述边存储在图分量表中;
i.从所述图分量表下载图路径的样本;
j.创建图路径的样本;以及
k.对所述图路径的样本执行电导率分析。
10.根据权利要求9所述的方法,其特征在于,进一步包括将电导率参数指派给所述图中的每条个体边的步骤,所述电导率参数中的每一者被配置成用于对来自所述图采样器工作流的所述图路径的样本执行所述电导率分析。
11.根据权利要求9所述的方法,其特征在于,进一步包括选择性地修改由所述电路分析引擎执行的所述电导率分析的范围的步骤。
12.一种存储指令的计算机可读介质,当所述指令由计算机执行时,致使它:
a.从多个身份数据存储介质资源中的至少一者接收至少一个原始数据集;
b.从来自所述多个身份数据存储介质资源之一的每个原始数据集中生成边类型;
c.将来自每个数据集的所述边类型存储在第一临时存储介质中;
d.组合所述边类型以产生经汇总的边存储;
e.搜索所述经汇总的边存储以在所述经汇总的边存储中查找图分量路径;
f.将所述图分量路径存储在图分量路径存储介质中;
g.将当前路径与所述经汇总的边存储合并,以便在所述经汇总的边存储中查找延伸每条路径的边;
h.将在所述经汇总的边中延伸每条路径的所述边存储在图分量表中;
i.从所述图分量表下载图路径的样本;
j.创建图路径的样本;以及
k.对所述图路径的样本执行电导率分析。
CN201880064344.5A 2017-10-02 2018-09-12 计算环境节点和边网络以优化数据身份解析 Pending CN111201545A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762566741P 2017-10-02 2017-10-02
US62/566,741 2017-10-02
PCT/US2018/050584 WO2019070379A1 (en) 2017-10-02 2018-09-12 COMPUTER ENVIRONMENT NODE AND PERIPHERAL NETWORK FOR OPTIMIZING DATA IDENTIFICATION RESOLUTION

Publications (1)

Publication Number Publication Date
CN111201545A true CN111201545A (zh) 2020-05-26

Family

ID=65994652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880064344.5A Pending CN111201545A (zh) 2017-10-02 2018-09-12 计算环境节点和边网络以优化数据身份解析

Country Status (5)

Country Link
US (1) US11063834B2 (zh)
EP (1) EP3676785A1 (zh)
CN (1) CN111201545A (zh)
CA (1) CA3074024A1 (zh)
WO (1) WO2019070379A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3186623A1 (en) * 2020-06-09 2021-12-16 Liveramp, Inc. Graph data structure edge profiling in mapreduce computational framework

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6546378B1 (en) * 1997-04-24 2003-04-08 Bright Ideas, L.L.C. Signal interpretation engine
CN1431704A (zh) * 2003-02-28 2003-07-23 清华大学 基于等效电路的集成电路电源网络瞬态分析求解的方法
US20110047167A1 (en) * 2009-08-21 2011-02-24 International Business Machines, Corporation Determining entity relevance by relationships to other relevant entities
US20130204894A1 (en) * 2012-02-02 2013-08-08 Patrick Faith Multi-Source, Multi-Dimensional, Cross-Entity, Multimedia Analytical Model Sharing Database Platform Apparatuses, Methods and Systems
US20150370814A1 (en) * 2011-11-15 2015-12-24 Tapad, Inc. System and method for analyzing user device information
CN105825094A (zh) * 2015-01-26 2016-08-03 国际商业机器公司 管理从网络数据流量中发现的身份数据的方法和装置
US20160246901A1 (en) * 2015-02-24 2016-08-25 Ajay Kashyap Method and system for calculating affinity between entities using electrical circuit analogy
CN107004002A (zh) * 2014-12-02 2017-08-01 隆沙有限公司 根据结构化数据项的集合生成非结构化搜索查询
WO2017132073A1 (en) * 2016-01-25 2017-08-03 Quaero Signal matching for entity resolution

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672293B2 (en) 2009-01-12 2017-06-06 Namesforlife, Llc Systems and methods for automatically identifying and linking names in digital resources
US8396870B2 (en) * 2009-06-25 2013-03-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
US9996607B2 (en) * 2014-10-31 2018-06-12 International Business Machines Corporation Entity resolution between datasets
CN113473187B (zh) * 2015-07-24 2023-10-10 安普视频有限公司 广告投放的跨屏优化
US11675824B2 (en) 2015-10-05 2023-06-13 Yahoo Assets Llc Method and system for entity extraction and disambiguation

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6546378B1 (en) * 1997-04-24 2003-04-08 Bright Ideas, L.L.C. Signal interpretation engine
CN1431704A (zh) * 2003-02-28 2003-07-23 清华大学 基于等效电路的集成电路电源网络瞬态分析求解的方法
US20110047167A1 (en) * 2009-08-21 2011-02-24 International Business Machines, Corporation Determining entity relevance by relationships to other relevant entities
US20150370814A1 (en) * 2011-11-15 2015-12-24 Tapad, Inc. System and method for analyzing user device information
US20130204894A1 (en) * 2012-02-02 2013-08-08 Patrick Faith Multi-Source, Multi-Dimensional, Cross-Entity, Multimedia Analytical Model Sharing Database Platform Apparatuses, Methods and Systems
CN107004002A (zh) * 2014-12-02 2017-08-01 隆沙有限公司 根据结构化数据项的集合生成非结构化搜索查询
CN105825094A (zh) * 2015-01-26 2016-08-03 国际商业机器公司 管理从网络数据流量中发现的身份数据的方法和装置
US20160246901A1 (en) * 2015-02-24 2016-08-25 Ajay Kashyap Method and system for calculating affinity between entities using electrical circuit analogy
WO2017132073A1 (en) * 2016-01-25 2017-08-03 Quaero Signal matching for entity resolution

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
易流平,仇洪川: "层次化网络优化算法设计与实现" *

Also Published As

Publication number Publication date
US20200244537A1 (en) 2020-07-30
EP3676785A1 (en) 2020-07-08
US11063834B2 (en) 2021-07-13
WO2019070379A1 (en) 2019-04-11
CA3074024A1 (en) 2019-04-11

Similar Documents

Publication Publication Date Title
US10915508B2 (en) Data linking
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
CN107895038B (zh) 一种链路预测关系推荐方法及装置
US9489638B2 (en) Method and apparatus for propagating user preference information in a communications network
US20130268595A1 (en) Detecting communities in telecommunication networks
CN108229986B (zh) 信息点击预测中的特征构建方法、信息投放方法和装置
US20210149851A1 (en) Systems and methods for generating graph data structure objects with homomorphism
CN110162692B (zh) 用户标签确定方法、装置、计算机设备和存储介质
CN110909868A (zh) 基于图神经网络模型的节点表示方法和装置
US11809455B2 (en) Automatically generating user segments
WO2019019385A1 (zh) 跨平台数据匹配方法、装置、计算机设备和存储介质
CN104778237A (zh) 一种基于关键用户的个性化推荐方法和***
CN110880014A (zh) 数据处理方法、装置、计算机设备及存储介质
CN109710611A (zh) 存储表数据的方法、查询表数据的方法、装置及存储介质
CN114780606B (zh) 一种大数据挖掘方法及***
CN110378739B (zh) 一种数据流量匹配方法及装置
JP7092194B2 (ja) 情報処理装置、判定方法、及びプログラム
CN108416645B (zh) 一种针对用户的推荐方法、装置、存储介质和设备
CN111201545A (zh) 计算环境节点和边网络以优化数据身份解析
CN112100452A (zh) 数据处理的方法、装置、设备及计算机可读存储介质
US20160342899A1 (en) Collaborative filtering in directed graph
CN113553477B (zh) 一种图的拆分方法和装置
CN113221016A (zh) 资源推荐方法、装置、计算机设备及介质
Al-Zanbouri et al. Data-aware web service recommender system for energy-efficient data mining services
CN111836274B (zh) 一种业务处理的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200526

WD01 Invention patent application deemed withdrawn after publication