CN113704566B

CN113704566B - 识别号主体识别方法、存储介质和电子设备

Info

Publication number: CN113704566B
Application number: CN202111266763.7A
Authority: CN
Inventors: 杨悦; 李君阳; 马英楠
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-18
Anticipated expiration: 2041-10-29
Also published as: CN113704566A

Abstract

本公开实施例公开了一种识别号主体识别方法、存储介质和电子设备，其中，方法包括：接收待识别主体的第一用户识别号和第二用户识别号；基于识别关系图确定第一用户识别号和第二用户识别号之间的至少一条第一路径；基于识别关系图对应的元路径集合，确定至少一条第一路径对应的路径特征；将路径特征输入分类网络，基于分类网络输出的目标概率确定第一用户识别号和第二用户识别号是否为同一主体；本实施例通过构建路径特征体现了两个识别号之间的更多相关信息，提高了识别结果的准确性，通过分类网络对路径特征进行处理，以分类结果确定两个识别号是否为同一主体，实现快速准确的主体识别。

Description

识别号主体识别方法、存储介质和电子设备

技术领域

本公开涉及风险画像技术领域，尤其是一种识别号主体识别方法、存储介质和电子设备。

背景技术

标识符映射（Identifier-Mapping）是将不同来源的ID（用户、设备、手机号等）通过技术的手段识别为同一个对象或主体，将用户碎片化的行为、数据串联起来，消除数据孤岛，从而实现精准标识、精准定位、精准投放与推荐等。在风控领域目标是识别出B、C端用户背后的唯一主体，从而识别这些主体在***中的各类风险行为；但是，现有技术无法区分出不同ID是否归属于同一主体。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种识别号主体识别方法、存储介质和电子设备。

根据本公开实施例的一个方面，提供了一种识别号主体识别方法，包括：

接收待识别主体的第一用户识别号和第二用户识别号；

基于识别关系图确定所述第一用户识别号和所述第二用户识别号之间的至少一条第一路径；其中，所述识别关系图包括多个存在连接关系的节点，每个所述节点对应一个用户识别号；

基于所述识别关系图对应的元路径集合，确定所述至少一条第一路径对应的路径特征；其中，所述元路径集合中包括至少一条元路径，每条所述元路径中包括多个通过至少一种边关系类型连接的节点；

将所述路径特征输入分类网络，基于所述分类网络输出的目标概率确定所述第一用户识别号和所述第二用户识别号是否为同一主体。

可选地，所述基于所述识别关系图对应的元路径集合，确定所述至少一条第一路径对应的路径特征，包括：

确定所述至少一条第一路径中每条路径中包括的节点数量，和多个节点之间的至少一个边关系类型；

基于所述节点数量和所述至少一个边关系类型，从所述元路径集合中确定至少一条元路径；

基于所述确定的至少一条元路径，确定所述路径特征。

可选地，所述基于所述确定的至少一条元路径，确定所述路径特征，包括：

基于所述确定的至少一条元路径对应的至少一种边关系类型，确定每条所述元路径对应的至少一个权重值；其中，每条所述元路径对应至少一个权重值；

基于所述至少一个权重值，确定至少一条第二路径对应的至少一个向量编码；

基于所述至少一个向量编码确定所述路径特征。

可选地，所述基于所述至少一个权重值，确定至少一条第二路径对应的至少一个向量编码，包括：

响应于所述元路径对应的权重值的数量小于n，以0作为补充权重值，使每条所述元路径对应的权重值的数量为n，得到每条所述元路径对应的n个权重值；其中，所述n为所述元路径集合中的元路径包括的权重值的最大数量，所述n为大于1的整数；

将所述元路径对应的所述n个权重值，作为所述元路径对应的所述第二路径的向量编码。

可选地，在基于识别关系图确定所述第一用户识别号和所述第二用户识别号之间的至少一条第一路径之前，还包括：

获取多个已知属性的用户识别号和多个所述用户识别号之间的至少一次关联，以及所述至少一次关联对应的时间信息；

利用衰减函数对所述至少一次关联对应的时间信息进行处理，得到多个所述用户识别号之间的权重值；

以多个所述用户识别号作为节点，以多个所述权重值作为连接属性，建立所述识别关系图。

可选地，在基于所述识别关系图对应的元路径集合，确定所述至少一条第一路径对应的路径特征之前，还包括：

对所述识别关系图，以全局识别号对应的节点为起始节点，以n为搜索边数对所述识别关系图进行路径搜索，得到至少一条n阶路径；其中，n为大于1的整数；

基于所述至少一条n阶路径，确定所述元路径集合。

可选地，所述基于所述至少一条n阶路径，确定所述元路径集合，包括：

确定所述至少一条n阶路径中每条n阶路径中包括的n条边对应的边关系类型；

基于每条所述n阶路径对应的n个边关系类型对所述至少一条n阶路径进行去重操作，得到去重后的至少一条n阶元路径；

基于所述至少一条n阶元路径，构成所述元路径集合。

可选地，所述确定所述至少一条n阶路径中每条n阶路径中包括的n条边对应的边关系类型，包括：

针对所述n阶路径中包括的n条边中的每条边，确定所述边对应的两个节点对应的用户识别号的属性；

基于所述边对应的两个节点对应的用户识别号的属性，确定所述边对应的边关系类型。

可选地，在将所述路径特征输入分类网络，基于所述分类网络输出的目标概率确定所述第一用户识别号和所述第二用户识别号是否为同一主体之前，还包括：

基于训练数据集对所述分类网络进行训练；其中，所述训练数据集中包括至少一对已知是否为同一主体的训练识别号对。

可选地，所述基于训练数据集对所述分类网络进行训练，包括：

基于所述识别关系图确定所述训练识别号对对应的至少一条第三路径；

基于所述识别关系图对应的元路径集合，确定所述至少一条第三路径对应的预测路径特征；

将所述预测路径特征输入所述分类网络，输出表示所述训练识别号对中两个训练识别号之间是否为同一主体的预测结果；

基于所述预测结果和所述训练识别号对对应的是否为同一主体的已知标注，确定网络损失；

基于所述网络损失，监督所述分类网络的训练。

根据本公开实施例的另一方面，提供了一种识别号主体识别装置，包括：

识别号接收模块，用于接收待识别主体的第一用户识别号和第二用户识别号；

路径确定模块，用于基于识别关系图确定所述第一用户识别号和所述第二用户识别号之间的至少一条第一路径；其中，所述识别关系图包括多个存在连接关系的节点，每个所述节点对应一个用户识别号；

路径特征确定模块，用于基于所述识别关系图对应的元路径集合，确定所述至少一条第一路径对应的路径特征；其中，所述元路径集合中包括至少一条元路径，每条所述元路径中包括多个通过至少一种边关系类型连接的节点；

主体识别模块，用于将所述路径特征输入分类网络，基于所述分类网络输出的目标概率确定所述第一用户识别号和所述第二用户识别号是否为同一主体。

可选地，所述路径特征确定模块，包括：

边关系确定单元，用于确定所述至少一条第一路径中每条路径中包括的节点数量，和多个节点之间的至少一个边关系类型；

元路径确定单元，用于基于所述节点数量和所述至少一个边关系类型，从所述元路径集合中确定至少一条元路径；

特征确定单元，用于基于所述确定的至少一条元路径，确定所述路径特征。

可选地，所述特征确定单元，具体用于基于所述确定的至少一条元路径对应的至少一种边关系类型，确定每条所述元路径对应的至少一个权重值；其中，每条所述元路径对应至少一个权重值；基于所述至少一个权重值，确定至少一条第二路径对应的至少一个向量编码；基于所述至少一个向量编码确定所述路径特征。

可选地，所述特征确定单元在基于所述至少一个权重值，确定至少一条第二路径对应的至少一个向量编码时，用于响应于所述元路径对应的权重值的数量小于n，以0作为补充权重值，使每条所述元路径对应的权重值的数量为n，得到每条所述元路径对应的n个权重值；其中，所述n为所述元路径集合中的元路径包括的权重值的最大数量，所述n为大于1的整数；将所述元路径对应的所述n个权重值，作为所述元路径对应的所述第二路径的向量编码。

可选地，所述装置还包括：

图建立模块，用于获取多个已知属性的用户识别号和多个所述用户识别号之间的至少一次关联，以及所述至少一次关联对应的时间信息；利用衰减函数对所述至少一次关联对应的时间信息进行处理，得到多个所述用户识别号之间的权重值；以多个所述用户识别号作为节点，以多个所述权重值作为连接属性，建立所述识别关系图。

可选地，所述装置还包括：

元路径集合模块，用于对所述识别关系图，以全局识别号对应的节点为起始节点，以n为搜索边数对所述识别关系图进行路径搜索，得到至少一条n阶路径；其中，n为大于1的整数；基于所述至少一条n阶路径，确定所述元路径集合。

可选地，所述元路径集合模块在基于所述至少一条n阶路径，确定所述元路径集合时，用于确定所述至少一条n阶路径中每条n阶路径中包括的n条边对应的边关系类型；基于每条所述n阶路径对应的n个边关系类型对所述至少一条n阶路径进行去重操作，得到去重后的至少一条n阶元路径；基于所述至少一条n阶元路径，构成所述元路径集合。

可选地，所述元路径集合模块在确定所述至少一条n阶路径中每条n阶路径中包括的n条边对应的边关系类型时，用于针对所述n阶路径中包括的n条边中的每条边，确定所述边对应的两个节点对应的用户识别号的属性；基于所述边对应的两个节点对应的用户识别号的属性，确定所述边对应的边关系类型。

可选地，所述装置还包括：

网络训练模块，用于基于训练数据集对所述分类网络进行训练；其中，所述训练数据集中包括至少一对已知是否为同一主体的训练识别号对。

可选地，所述网络训练模块，具体用于基于所述识别关系图确定所述训练识别号对对应的至少一条第三路径；基于所述识别关系图对应的元路径集合，确定所述至少一条第三路径对应的预测路径特征；将所述预测路径特征输入所述分类网络，输出表示所述训练识别号对中两个训练识别号之间是否为同一主体的预测结果；基于所述预测结果和所述训练识别号对对应的是否为同一主体的已知标注，确定网络损失；基于所述网络损失，监督所述分类网络的训练。

根据本公开实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的识别号主体识别方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的识别号主体识别方法。

基于本公开上述实施例提供的一种识别号主体识别方法、存储介质和电子设备，接收待识别主体的第一用户识别号和第二用户识别号；基于识别关系图确定所述第一用户识别号和所述第二用户识别号之间的至少一条第一路径；其中，所述识别关系图包括多个存在连接关系的节点，每个所述节点对应一个用户识别号；基于所述识别关系图对应的元路径集合，确定所述至少一条第一路径对应的路径特征；其中，所述元路径集合中包括至少一条元路径，每条所述元路径中包括多个通过至少一种边关系类型连接的节点；将所述路径特征输入分类网络，基于所述分类网络输出的目标概率确定所述第一用户识别号和所述第二用户识别号是否为同一主体；本实施例通过路径搜索获得了两个识别号之间的至少一条第一路径，并基于至少一条第一路径确定路径特征，通过构建路径特征体现了两个识别号之间的更多相关信息，提高了识别结果的准确性，通过分类网络对路径特征进行处理，以分类结果确定两个识别号是否为同一主体，实现快速准确的主体识别。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的识别号主体识别方法的流程示意图；

图2是本公开图1所示的实施例中步骤106的一个流程示意图；

图3是本公开图2所示的实施例中步骤1063的一个流程示意图；

图4是本公开另一示例性实施例提供的识别号主体识别方法的部分流程示意图；

图5是本公开又一示例性实施例提供的识别号主体识别方法的部分流程示意图；

图6是本公开一示例性实施例提供的识别号主体识别方法中一示例性基于识别关系图确定路径特征的示意图；

图7是本公开一示例性实施例提供的识别号主体识别装置的结构示意图；

图8是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。本公开中所指数据可以包括文本、图像、视频等非结构化数据，也可以是结构化数据。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令（诸如程序模块）的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

示例性方法

图1是本公开一示例性实施例提供的识别号主体识别方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

步骤102，接收待识别主体的第一用户识别号和第二用户识别号。

可选地，本实施例中的用户识别号的属性（类别）可以包括但不限于：***类ID（B、C端注册用户等）、手机号类ID、设备类ID（广告标识符IDFA、无线网络WIFI、IP等）、生物类ID（人脸ID、声纹ID、身份证等）等。通过用户识别号的属性即可确定不同用户识别号之间的边关系类型。

步骤104，基于识别关系图确定第一用户识别号和第二用户识别号之间的至少一条第一路径。

其中，识别关系图包括多个存在连接关系的节点，每个节点对应一个用户识别号。

在一实施例中，在确定至少一条第一路径之前，基于多个存在连接关系的用户识别号建立识别关系图，在识别关系图中每个用户识别号作为一个节点，对于存在关联关系的节点通过边进行连接。***中的用户识别号之间可能没有直接关联，但可通过其他用户识别号或行为产生关联。

步骤106，基于识别关系图对应的元路径集合，确定至少一条第一路径对应的路径特征。

其中，元路径集合中包括至少一条元路径，每条元路径中包括多个通过至少一种边关系类型连接的节点。

本实施例中，通过元路径对不同边关系类型连接的节点构成的路径进行描述，每个元路径中包括的边关系类型的数量和/或类型不同，保证了通过元路径集合将设定长度的路径包括的边关系类型组合被全部包括，保证了在节点查找路径时，能获得相应的路径特征。

步骤108，将路径特征输入分类网络，基于分类网络输出的目标概率确定第一用户识别号和第二用户识别号是否为同一主体。

本实施例通过路径特征描述第一用户识别号和第二用户识别号之间的关系，并利用分类网络对路径特征进行处理，以确定第一用户识别号和第二用户识别号是否对应同一主体，提高了识别效率。

本实施例通过路径搜索获得了两个识别号之间的至少一条第一路径，并基于至少一条第一路径确定路径特征，通过构建路径特征体现了两个识别号之间的更多相关信息，提高了识别结果的准确性，通过分类网络对路径特征进行处理，以分类结果确定两个识别号是否为同一主体，实现快速准确的主体识别；可解释性强，且通过多度关联，可召回更多的ID。

如图2所示，在上述图1所示实施例的基础上，步骤106可包括如下步骤：

步骤1061，确定至少一条第一路径中每条路径中包括的节点数量，和多个节点之间的至少一个边关系类型。

可选地，第一用户识别号和第二用户识别号可能直接存在关联关系，和/或间接存在关联关系，不同的第一路径对应两个用户识别号不同的关联情况。

步骤1062，基于节点数量和至少一个边关系类型，从元路径集合中确定至少一条元路径。

本实施例中，通过每条路径包括的节点数量和节点之间的边关系类型可在元路径集合中查找到节点数量相同，并且边关系类型相同的元路径。

步骤1063，基于确定的至少一条元路径，确定路径特征。

可选地，元路径集合中的每条元路径中的每条边对应一个权重值，本实施例中以元路径对应的至少一个权重值对该元路径进行编码，得到每条第一路径对应的一组编码，由于不同的第一路径长度不同，本实施例可通过填充将至少一个第一路径对应的编码补齐为等长的多组编码；以等长的多组编码构成的向量作为本实施例中的路径特征，通过该路径特征体现了第一用户识别号与第二用户识别号之间所有的关联关系，使获得的识别结果更加准确；通过将路径转化为路径特征而非单边作为特征，通过根节点搜索来确定另一个节点而非穷举所有点两两关系，前置去除零连接和弱连接的关系，极大的减少了计算量。

如图3所示，在上述图2所示实施例的基础上，步骤1063可包括如下步骤：

步骤301，基于确定的至少一条元路径对应的至少一种边关系类型，确定每条元路径对应的至少一个权重值。

其中，每条元路径对应至少一个权重值。

本实施例中，在识别关系图中，可能存在同一元路径模式对应的路径实例有多条，对于这种情况，元路径对应的权重值，可以确定每个路径实例对应的权重值的乘积，再从多个路径实例中确定权重值的乘积最大的那条路径实例对应的至少一个权重值，作为该元路径对应的至少一个权重值；或者对多个路径实例对应的每个边关系类型对应的多个权重值计算乘积，以该乘积作为该边关系类型在该元路径中的权重值。

例如，对于模式

，可能存在一个手机号在多个不同的设备上被同一个客户使用过，对该种情景处理方式为：

，其中，

表示路径中关系的权重，rel表示路径中的关系，p表示一个路径实例，

表示p路径实例中包括的多个关系的权重连乘，meta-path表示元路径，p∈meta-path表示至少一个路径实例对应相同元路径，

表示对

取最大值，即两节点之间若存在相同元路径的不同路径实例，取路径实例中权重连乘值最大的那条实例作为该元路径的特征值；即对于同一模式有多条路径的情况，取关系权重乘积最大值的路径作为用于特征计算的路径，一方面便于后续特征构造，另一方面以特征强度最大的特征代替同一模式的，有效降低数据量；此外也可以根据实际应用场景采用关系权重乘积求和等方法来计算同模式多路径问题。

步骤302，基于至少一个权重值，确定至少一条第二路径对应的至少一个向量编码。

可选地，响应于所述元路径对应的权重值的数量小于n，以0作为补充权重值，使每条元路径对应的权重值的数量为n，得到每条元路径对应的n个权重值；其中，n为所述元路径集合中的元路径包括的权重值的最大数量，n为大于1的整数；

将元路径对应的n个权重值，作为元路径对应的第二路径的向量编码。

可选地，本实施例中的元路径集合是在识别关系图中以n阶搜索得到的，因此，元路径中包括的权重值的最大数量为n，为了使每条元路径对应的一组编码值等长，本实施例对权重值数据不足n的，进行补齐，例如，用零将权重值数量补齐到n个，即可得到每条元路径对应的包括n个元素的一组编码，该编码表现为一维向量；将搜索路径度数n作为特征构造的超参，n越大，路径越长关系表征越丰富。

步骤303，基于至少一个向量编码确定路径特征。

本实施例中，通过将至少一个一维的向量编码在纵向组合，得到横向包括n个元素，纵向对应第二路径数量个元素的矩阵，本实施例以该矩阵作为路径特征。

如图4所示，在上述图2所示实施例的基础上，在步骤104之前，还可以包括：

步骤401，获取多个已知属性的用户识别号和多个用户识别号之间的至少一次关联，以及至少一次关联对应的时间信息。

本实施例在获得每两个用户识别号之间的关联关系时，还获得关联对应的时间信息，用户识别号之间的关联存在强弱之分，并且可能会随时间出现或消失。

步骤402，利用衰减函数对至少一次关联对应的时间信息进行处理，得到多个用户识别号之间的权重值。

本实施例中，不同属性识别号可对应不同衰减函数，通过衰减函数表达了两个用户识别号之间的关联强度随着时间减弱，因此，对应的权重值也减小。如果两个ID（用户识别号）在很久之前产生过偶发次关联，但从此以后没有再次产生过任何关联，那么两者之间置信度应随着时间流逝会越来越低，满足牛顿冷却定律。因此根据ID之间关联的频率、时间，对于多次关联分别每次关联求出置信度，求和得到两个用户识别号之间的权重值；利用时间衰减函数拟合两者之间的置信度，可选地，一种时间衰减函数可以为以下公式（1）所示：

公式（1）；

其中，δ为衰减参数，其取值可以根据不同应用场景提取预设；x为关联距今时间值，例如，在一个示例中，计算后得到

；其中，

表示一个用户识别号，

表示

对应的属性（类型），

表示另一个用户识别号，

表示

对应的属性（类型），

表示两个用户识别号之间的权重值。

步骤403，以多个用户识别号作为节点，以多个权重值作为连接属性，建立识别关系图。

现有的ID识别方法没有考虑ID之间关联的变化，一次关联即当作事实，而现实场景中，存在借用他人设备登陆，或借用他人手机号注册等行为，在推荐领域为了扩充召回可以将这些手机号、设备归属于两个人，而在风控领域需要说清楚这些ID的真实所属，避免误伤。因此本实施例采用关联拟合时间衰减函数的方法，计算两两ID（用户识别号）关联的置信度，并将ID作为节点，置信度作为权重，构造ID图将ID关联起来；本公开实施例不同于ID事实强关联，对不同用户识别号的关联定义不同类型的关系，通过对关联时间以及频次做时间衰减处理，对ID关系描述更加详尽，此处权重越大代表关系越强，时间维度上越近；并且针对不同类型的ID的关系采用不同的衰减函数，使其更加符合真实数据分布，且不受限于不同业务场景的不同关系类型。

一个可选示例中，以获取的ID作为节点，ID类型作为节点的属性，记作V；将两两ID关联作为边，ID之间的权重值作为边的权重值，权重值及边的边关系类型R作为关系的属性，构造一个带权有向图

作为识别关系图，其中，G表示带权有向图，

和

表示图中的两个节点，rel表示两个节点之间的关系，V表示节点集合，R表示关系集合，实现将ID和ID关联起来。

如图5所示，在上述图2所示实施例的基础上，在执行步骤106之前，还可以包括：

步骤501，对识别关系图，以全局识别号对应的节点为起始节点，以n为搜索边数对识别关系图进行路径搜索，得到至少一条n阶路径。

其中，n为大于1的整数。

本实施例中，将识别关系图中的强ID，例如，生物类ID（身份证等）可作为全局识别号（简称GID）。

步骤502，基于至少一条n阶路径，确定元路径集合。

可选地，步骤502可以包括：

确定至少一条n阶路径中每条n阶路径中包括的n条边对应的边关系类型；

基于每条n阶路径对应的n个边关系类型对至少一条n阶路径进行去重操作，得到去重后的至少一条n阶元路径；

对搜索到的路径类型集合PT去重可获取到元路径集合

，保证每条元路径是不同类型路径的组合，作为特征模式，元路径集合的大小记为N。

基于至少一条n阶元路径，构成元路径集合。

本实施例中以GID为起点，通过n阶路径搜索带权图构造特征，其中，n的取值根据计算性能和业务场景设置，调整确定；此处限制为n阶的原因，一是广度优先搜索的时间复杂度可表示为O(k +e)，其中，k表示节点数量，e表示边的数量，即，时间复杂度与节点数量和边的数量成正比；当ID图中节点过多且关系复杂时，计算性能受限；二是随着路径度数增加，距起点距离越远，置信度越低。

可选地，在一个可选示例中，路径搜索及元路径特征确定的流程可参见图6：包括以下步骤：

a，首先，以GID为起点，任意非GID节点作为终点，进行广度优先搜索，搜索过程保留路径上的节点ID及路径类型

，路径类型表示包括的边的关联类型的组合，PT表示路径类型集合；用于构造路径模式；同时保留路径上关系的权重

，

表示一个路径实例，PW表示带权重的路径实例集合，如图6中src-v1-v2-dst表示一个PW。

b，确定每条元路径对应的至少一个权重值，可参照图3实施例中确定权重值的过程。

c，对于b中处理后的元路径可以得到起点到终点的所有路径及其对应的模式：

，每种路径模式最多对应一条路径实例。

由于起点到终点有多条路径，且路径长度不定长，但由于搜索时限制为n度搜索使得路径长度最大为n，因此对每条元路径进行填充，不满n度的路径将其权重填充0至n度；将元路径作为查找表，对(src,dst)之间的所有路径进行填充后再根据查找表进行独热编码转换，例如，对一可选示例提供的识别关系图建立元路径（meta-path），当n为4的(src,dst)的路径编码可表示为如下表1所示：

表1

可选地，确定至少一条n阶路径中每条n阶路径中包括的n条边对应的边关系类型，包括：

针对n阶路径中包括的n条边中的每条边，确定边对应的两个节点对应的用户识别号的属性；

基于边对应的两个节点对应的用户识别号的属性，确定边对应的边关系类型。

本实施例，边关系类型可基于该边连接的两个节点对应的用户识别号的属性确定，不同属性的节点的连接关系不同，例如，phoneOfCust（【客户】注册使用【手机号】）、sentInIMBy（【用户】IM中发送的【手机号】）、changePhoneOfEmployee（【用户】历史使用过的【手机号】）等。

在一些可选的实施例中，在执行步骤108之前，还可以包括：

基于训练数据集对分类网络进行训练。

其中，训练数据集中包括至少一对已知是否为同一主体的训练识别号对。

本实施例中，将已知是否为同一主体的训练识别号对作为样本，当属于同一主体时，可将分类概率记为1，不属于同一主体时，将分类概率记为0，以该已知分类概率作为监督训练分类网络，该分类网络，可以是二分类网络模型，网络结构可以为任意分类网络结构，可根据实际应用场景和复杂度进行选择；用训练好的分类网络对新样本进行预测，预测结果为两个用户识别号属于同一主体的概率，为一个0到1的概率值，当概率值大于设定阈值时，则认为两个用户识别号对应一个主体。

可选地，基于训练数据集对分类网络进行训练，包括：

基于识别关系图确定训练识别号对对应的至少一条第三路径；

基于识别关系图对应的元路径集合，确定至少一条第三路径对应的预测路径特征；

将预测路径特征输入分类网络，输出表示训练识别号对中两个训练识别号之间是否为同一主体的预测结果；

基于预测结果和训练识别号对对应的是否为同一主体的已知标注，确定网络损失；

基于网络损失，监督分类网络的训练。

本实施例中，基于时间衰减计算ID之间置信度构造的带权ID图，搜索两ID之间所有的带权路径，将路径集合通过同模式多路径处理、路径填充及独热编码转换，得到以起点终点作为样本的特征，作为二分类模型的输入，进行有监督学习训练一个分类网络；

本实施例采用图挖掘的技术，将两两ID之间的所有路径及路径上关系的权重作为特征，用分类网络来预测两ID背后是同一主体的概率。该方法可解释性强，且通过多度关联，可召回更多的ID。

本公开实施例提供的任一种识别号主体识别方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种识别号主体识别方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种识别号主体识别方法。下文不再赘述。

示例性装置

图7是本公开一示例性实施例提供的识别号主体识别装置的结构示意图。如图7所示装置包括：

识别号接收模块71，用于接收待识别主体的第一用户识别号和第二用户识别号；

路径确定模块72，用于基于识别关系图确定第一用户识别号和第二用户识别号之间的至少一条第一路径。

路径特征确定模块73，用于基于识别关系图对应的元路径集合，确定至少一条第一路径对应的路径特征。

主体识别模块74，用于将路径特征输入分类网络，基于分类网络输出的目标概率确定第一用户识别号和第二用户识别号是否为同一主体。

可选地，路径特征确定模块73，包括：

边关系确定单元，用于确定至少一条第一路径中每条路径中包括的节点数量，和多个节点之间的至少一个边关系类型；

元路径确定单元，用于基于节点数量和至少一个边关系类型，从元路径集合中确定至少一条元路径；

特征确定单元，用于基于确定的至少一条元路径，确定路径特征。

可选地，特征确定单元，具体用于基于确定的至少一条元路径对应的至少一种边关系类型，确定每条元路径对应的至少一个权重值；其中，每条元路径对应至少一个权重值；基于至少一个权重值，确定至少一条第二路径对应的至少一个向量编码；基于至少一个向量编码确定路径特征。

可选地，特征确定单元在基于至少一个权重值，确定至少一条第二路径对应的至少一个向量编码时，用于响应于所述元路径对应的权重值的数量小于n，以0作为补充权重值，使每条元路径对应的权重值的数量为n，得到每条元路径对应的n个权重值；其中，n为元路径集合中的元路径包括的权重值的最大数量，n为大于1的整数；将元路径对应的n个权重值，作为元路径对应的第二路径的向量编码。

可选地，本实施例提供的装置还包括：

图建立模块，用于获取多个已知属性的用户识别号和多个用户识别号之间的至少一次关联，以及至少一次关联对应的时间信息；利用衰减函数对至少一次关联对应的时间信息进行处理，得到多个用户识别号之间的权重值；以多个用户识别号作为节点，以多个权重值作为连接属性，建立识别关系图。

可选地，本实施例提供的装置还包括：

元路径集合模块，用于对识别关系图，以全局识别号对应的节点为起始节点，以n为搜索边数对识别关系图进行路径搜索，得到至少一条n阶路径；其中，n为大于1的整数；基于至少一条n阶路径，确定元路径集合。

可选地，元路径集合模块在基于至少一条n阶路径，确定元路径集合时，用于确定至少一条n阶路径中每条n阶路径中包括的n条边对应的边关系类型；基于每条n阶路径对应的n个边关系类型对至少一条n阶路径进行去重操作，得到去重后的至少一条n阶元路径；基于至少一条n阶元路径，构成元路径集合。

可选地，元路径集合模块在确定至少一条n阶路径中每条n阶路径中包括的n条边对应的边关系类型时，用于针对n阶路径中包括的n条边中的每条边，确定边对应的两个节点对应的用户识别号的属性；基于边对应的两个节点对应的用户识别号的属性，确定边对应的边关系类型。

可选地，本实施例提供的装置还包括：

网络训练模块，用于基于训练数据集对分类网络进行训练；其中，训练数据集中包括至少一对已知是否为同一主体的训练识别号对。

可选地，网络训练模块，具体用于基于识别关系图确定训练识别号对对应的至少一条第三路径；基于识别关系图对应的元路径集合，确定至少一条第三路径对应的预测路径特征；将预测路径特征输入分类网络，输出表示训练识别号对中两个训练识别号之间是否为同一主体的预测结果；基于预测结果和训练识别号对对应的是否为同一主体的已知标注，确定网络损失；基于网络损失，监督分类网络的训练。

示例性电子设备

下面，参考图8来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图8图示了根据本公开实施例的电子设备的框图。

如图8所示，电子设备80包括一个或多个处理器81和存储器82。

处理器81可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备80中的其他组件以执行期望的功能。

存储器82可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器81可以运行所述程序指令，以实现上文所述的本公开的各个实施例的识别号主体识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备80还可以包括：输入装置83和输出装置84，这些组件通过总线***和/或其他形式的连接机构（未示出）互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置83可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置83可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入装置83还可以包括例如键盘、鼠标等等。

该输出装置84可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置84可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备80中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备80还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的识别号主体识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的识别号主体识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种识别号主体识别方法，其特征在于，包括：

接收待识别主体的第一用户识别号和第二用户识别号；

基于所述识别关系图对应的元路径集合，确定所述至少一条第一路径对应的路径特征；包括：确定所述至少一条第一路径中每条路径中包括的节点数量，和多个节点之间的至少一个边关系类型；基于所述节点数量和所述至少一个边关系类型，从所述元路径集合中确定至少一条元路径；基于所述至少一条元路径，确定所述路径特征；其中，所述元路径集合中包括至少一条元路径，每条所述元路径中包括多个通过至少一种边关系类型连接的节点；

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少一条元路径，确定所述路径特征，包括：

基于所述至少一条元路径对应的至少一种边关系类型，确定每条所述元路径对应的至少一个权重值；其中，每条所述元路径对应至少一个权重值；

基于所述至少一个向量编码确定所述路径特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少一个权重值，确定至少一条第二路径对应的至少一个向量编码，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，在基于识别关系图确定所述第一用户识别号和所述第二用户识别号之间的至少一条第一路径之前，还包括：

5.根据权利要求1-3任一所述的方法，其特征在于，在基于所述识别关系图对应的元路径集合，确定所述至少一条第一路径对应的路径特征之前，还包括：

对所述识别关系图，以全局识别号对应的节点为起始节点，以n为搜索边数对所述识别关系图进行路径搜索，得到至少一条n阶路径；其中，n为大于等于1的整数；

基于所述至少一条n阶路径，确定所述元路径集合。

6.根据权利要求5所述的方法，其特征在于，所述基于所述至少一条n阶路径，确定所述元路径集合，包括：

基于所述至少一条n阶元路径，构成所述元路径集合。

7.根据权利要求6所述的方法，其特征在于，所述确定所述至少一条n阶路径中每条n阶路径中包括的n条边对应的边关系类型，包括：

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的识别号主体识别方法。

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的识别号主体识别方法。