CN110825717B

CN110825717B - 一种身份识别的数据归一方法、装置及介质

Info

Publication number: CN110825717B
Application number: CN201910959733.0A
Authority: CN
Inventors: 周成祖; 叶立震; 鄢小征; 林文楷; 魏超; 许琨
Original assignee: Guangzhou Public Security Bureau Network Police Detachment; Xiamen Meiya Pico Information Co Ltd
Current assignee: Guangzhou Public Security Bureau Network Police Detachment; Xiamen Meiya Pico Information Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2022-05-20
Anticipated expiration: 2039-10-10
Also published as: CN110825717A

Abstract

本发明提供了一种身份识别的数据归一方法、装置及介质，该方法首先构建对应的身份属性数据集；然后判断是否存在识别身份属性数据集的匹配规则，如果是，使用规则匹配方法对身份属性数据集进行识别，如果否，使用路径匹配方法对身份属性数据集进行识别；再对获得的识别结果中的至少两条数据记录进行可信度计算，如果可信度达到一定阈值，则将所述至少两条数据记录进行归一操作后保存在数据库中。本发明根据数据记录的不同特点，自适应的选择使用规则匹配算法还是使用路径匹配算法，能够快速将符合规则特征的身份归一化，还能够更全面将无明显一致特征的身份进行归一化，这种方法将极大提高身份归一的准确性，并提出了规则匹配算法及路径匹配算法。

Description

一种身份识别的数据归一方法、装置及介质

技术领域

本发明涉及计算机数据处理技术领域，特别是一种身份识别的数据归一方法、装置及存储介质。

背景技术

移动互联网时代，每天都会产生海量的数据，如现实生活中的住宿、驾车、出行等，虚拟世界中的即时通讯、第三方支付等；这些数据量大、无统一的标识特征，导致各类数据零散、无法关联，如何自动分析并将相关数据的身份进行归一化，成为提升海量数据分析能力和分析效率的工作难点。

由于数据随着各种应用类型的增加而不断增加，且无统一的标识特征，目前市场上现有的身份归一方法，主要通过人工配置的方式，对数据源间的关系一个个进行判断，这些技术无法满足现实中复杂的分析需求，其技术缺陷如下：

1)人工配置方式，需要耗费大量的业务研究时间，而且容易出现错、漏的情况，极大影响数据分析工作的效率和质量；

2)单一匹配规则：由于数据之间很多情况下无法只通过单一规则进行关联，导致最终能关联上的数据覆盖率不足，严重影响***的使用效果和用户体验。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种身份识别的数据归一方法，该方法包括：

提取步骤，从多个数据源中提取数据记录中包含的身份属性信息，构建对应的身份属性数据集；

判断步骤，判断是否存在识别身份属性数据集的匹配规则，如果是，使用规则匹配方法对身份属性数据集进行识别，如果否，使用路径匹配方法对身份属性数据集进行识别；

可信度计算步骤，对获得的识别结果中的至少两条数据记录进行可信度计算，如果可信度达到一定阈值，则将所述至少两条数据记录进行归一操作；

保存步骤，将归一操作后的数据记录及对应的可信度保存在数据库中。

更进一步地，所述构建对应的身份属性数据集的操作为：通过提取多个数据源包含的身份属性信息，构建身份属性数据集S，集合S包含n个子集合{S1，S2，…，Sn}，每个子集包含的数据项有：类型、账号、关联账号类型、关联账号、时段和来源ID，每个子集的数据项是以类型+账号为唯一性标识进行排重以过滤掉重复的数据。

更进一步地，所述使用规则匹配方法对身份属性数据集进行识别的操作为：

提取提取规则匹配库中的所有规则，构建规则数据集Sb，遍历身份属性数据集Si，如果Si的类型存在于Sb，则依据Si的账号进行比对，如果存在一致的两条数据记录，则生成新数据集Sc，数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重，然后，遍历数据集Sc，如果有相同来源ID1和来源ID2的不同记录，且不同记录间的规则ID存在关联，则将这些记录进行合并，并且根据Sb的权重叠加方式，得到最终的权重，更新数据集Sc，其中，1≦i≦n；

如果不存在一致的两条数据记录，则计算账号之间的相似度，如果所计算的相似度大于Sb的相似度，则生成新数据集Sc，数据集Sc的要素为两条数据记录的来源ID1、来源ID2、相似度、规则ID及权重，遍历数据集Sc，如果有相同来源ID1和来源ID2的不同记录，且不同记录间的规则ID又有关联，则将这些记录进行合并，并且根据Sb的权重叠加方式，得到最终的权重，更新数据集Sc。

更进一步地，所述使用路径匹配方法对身份属性数据集进行识别的操作为：

提取路径匹配库中的所有规则，构建路径数据集Sd，遍历身份属性数据集Si，如果Si的类型和关联账号类型存在于Sd，则依据Si的关联账号进行比对，如果存在一致的两条数据记录，则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重；

遍历数据集Sc，如果有相同来源ID1和来源ID2的不同记录，且不同记录间的规则ID又有关联，则将这些数据记录进行合并，并且根据Sd的权重叠加方式，得到最终的权重，更新数据集Sc。

更进一步地，所述规则匹配库包括以下属性字段：TypeId为类型Id，type为身份类型，similarity为账号相似度，weight为权重，correlateType为关联身份类型，superPosition为权重叠加方式，remark为备注，status为状态；

所述路径匹配库包括以下属性字段：roadId为路径Id，compareType为比较身份类型，correlateType为关联比较类型，superPosition为权重叠加方式，remark为备注，status为状态；

其中，superPosition＝1表示累加，superPosition＝2表示取最高值，superPosition＝3表示取最小值，status＝0表示不可用，status＝1表示可用。

本发明还提出了一种身份识别的数据归一装置，该装置包括：

提取单元，从多个数据源中提取数据记录中包含的身份属性信息，构建对应的身份属性数据集；

判断单元，判断是否存在识别身份属性数据集的匹配规则，如果是，使用规则匹配装置对身份属性数据集进行识别，如果否，使用路径匹配装置对身份属性数据集进行识别；

可信度计算单元，对获得的识别结果中的至少两条数据记录进行可信度计算，如果可信度达到一定阈值，则将所述至少两条数据记录进行归一操作；

保存单元，将归一操作后的数据记录及对应的可信度保存在数据库中。

更进一步地，所述使用规则匹配装置对身份属性数据集进行识别的操作为：

更进一步地，所述使用路径匹配装置对身份属性数据集进行识别的操作为：

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的身份识别的数据归一方法，首先从多个数据源中提取数据记录中包含的身份属性信息，构建对应的身份属性数据集；然后判断是否存在识别身份属性数据集的匹配规则，如果是，使用规则匹配方法对身份属性数据集进行识别，如果否，使用路径匹配方法对身份属性数据集进行识别；再对获得的识别结果中的至少两条数据记录进行可信度计算，如果可信度达到一定阈值，则将所述至少两条数据记录进行归一操作；最后将归一操作后的数据记录及对应的可信度保存在数据库中。本发明根据数据记录的不同特点，自适应的选择使用规则匹配算法还是使用路径匹配算法，能够快速将符合规则特征的身份归一化，还能够更全面将无明显一致特征的身份进行归一化，解决海量数据的身份归一不准不全的问题。且支持插件式的规则及路径比较定义，本发明通过遍历所有的规则和路径，通过多规则多路径的匹配算法，最终得到关联相似度，并根据关联相似度(即可信度)是否达到设置的阀值来判断是否为相同身份，这种方法将极大提高身份归一的准确性，并提出了具体的规则匹配算法及路径匹配算法。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种身份识别的数据归一方法的流程图。

图2是根据本发明的实施例的识别后的数据归一显示示意图。

图3是根据本发明的实施例的一种身份识别的数据归一装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种身份识别的数据归一方法，该方法包括：

提取步骤S101，从多个数据源中提取数据记录中包含的身份属性信息，构建对应的身份属性数据集。多个数据源包括人、事、物品、组织等等数据源。

判断步骤S102，判断是否存在识别身份属性数据集的匹配规则，如果是，使用规则匹配方法对身份属性数据集进行识别，如果否，使用路径匹配方法对身份属性数据集进行识别。其根据数据记录的不同特点，自适应的选择使用规则匹配算法还是使用路径匹配算法，能够快速将符合规则特征的身份归一化，在数据不具有相同的规则特征时，使用路径匹配算法能够更全面将无明显一致特征的身份进行归一化，解决了现有技术中无明显一致特征的数据记录的归一问题，这是本发明的重要发明点之一。

可信度计算步骤S103，对获得的识别结果中的至少两条数据记录进行可信度计算，如果可信度达到一定阈值，则将所述至少两条数据记录进行归一操作。

保存步骤S104，将归一操作后的数据记录及对应的可信度保存在数据库中。保存在数据库中数据可以供生成展示图所使用。

在一个实施例中，所述构建对应的身份属性数据集的操作为：通过提取多个数据源包含的身份属性信息，构建身份属性数据集S，集合S包含n个子集合{S1，S2，…，Sn}，每个子集包含的数据项有：类型、账号、关联账号类型、关联账号、时段和来源ID，每个子集的数据项是以类型+账号为唯一性标识进行排重以过滤掉重复的数据。

在一个实施例中，所述使用规则匹配方法对身份属性数据集进行识别的操作为：提取提取规则匹配库中的所有规则，构建规则数据集Sb，遍历身份属性数据集Si，如果Si的类型存在于Sb，则依据Si的账号进行比对，如果存在一致的两条数据记录，则生成新数据集Sc，数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重，然后，遍历数据集Sc，如果有相同来源ID1和来源ID2的不同记录，且不同记录间的规则ID存在关联，则将这些记录进行合并，并且根据Sb的权重叠加方式，得到最终的权重，更新数据集Sc，其中，1≦i≦n。例如两条数据，存在手机号码一致，权重为0.5，微信号码一致，权重为0.5，根据规则库，这两条记录的关联可信度为1；基本上可以确认是同一身份的两条不同记录。

在一个实施例中，所述使用路径匹配方法对身份属性数据集进行识别的操作为：

提取路径匹配库中的所有规则，构建路径数据集Sd，遍历身份属性数据集Si，如果Si的类型和关联账号类型存在于Sd，则依据Si的关联账号进行比对，如果存在一致的两条数据记录，则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重；例如两条数据，两把不同手机(号码不一致)，同时登录过同一个微信号，权重为0.5，同时两把手机又绑定同一个银行***，权重为0.5，根据规则库，这两条记录的关联可信度为1；基本上可以确认是两把手机同隶属于同一个人。

在一个实施例中，所述规则匹配库包括以下属性字段：TypeId为类型Id，type为身份类型，similarity为账号相似度，weight为权重，correlateType为关联身份类型，superPosition为权重叠加方式，remark为备注，status为状态；如表1所示。

属性名称	属性描述	备注
			TypeId	类型Id
type	身份类型
			similarity	账号相似度
weight	权重
			correlateType	关联身份类型
superPosition	权重叠加方式	1-累加，2-取最高值，3-取最小值
			remark	备注
status	状态	0-不可用，1-可用

表1

所述路径匹配库包括以下属性字段：roadId为路径Id，compareType为比较身份类型，correlateType为关联比较类型，superPosition为权重叠加方式，remark为备注，status为状态；如表2所示。

属性名称	属性描述	备注
			roadId	路径Id
compareType	比较身份类型	不同身份类型以,隔开
			correlateType	关联比较类型
superPosition	权重叠加方式	1-累加，2-取最高值，3-取最小值
			remark	备注
status	状态	0-不可用，1-可用

表2

在一个实施例中，对获得的识别结果中的至少两条数据记录进行可信度计算，可信度计算的规则是根据权重叠加方式superPosition的值将数据记录中的权重值进行相应的计算得到最终的权重值，判断其是否达到一定阈值，比如1，如果是则认为两条数据记录的身份相同。

在一个实施例中，规则匹配库及路径匹配库可以做成插件式，在软件需要时调用该插件即可，方便的软件设计，提高了软件设置的灵活度。

本方法通过规则匹配算法和路径匹配算法，可以自适应地分析出海量数据中不同来源记录的身份属性的相似度，进而将相似度达到一定阀值的身份进行归一处理，可以高效全面地梳理各数据源的关联关系，减少数据无法关联对数据分析工作的影响，提升分析效率，帮助工作人员全面分析数据、定位核心线索，并提出了具体的规则匹配算法及路径匹配算法，这是本发明的重要发明点之另一。

在本发明的一个实施例中，可以将不同数据源的数据归到同一账号下，并通过示意图的方式将用户所有相关的数据在电子屏展示出来，如图2所示，使用户能更直观、全面地进行数据分析。

图3示出了本发明的一种身份识别的数据归一装置，该装置包括：

提取单元301，从多个数据源中提取数据记录中包含的身份属性信息，构建对应的身份属性数据集。多个数据源包括人、事、物品、组织等等数据源。

判断单元302，判断是否存在识别身份属性数据集的匹配规则，如果是，使用规则匹配方法对身份属性数据集进行识别，如果否，使用路径匹配方法对身份属性数据集进行识别。其根据数据记录的不同特点，自适应的选择使用规则匹配算法还是使用路径匹配算法，能够快速将符合规则特征的身份归一化，在数据不具有相同的规则特征时，使用路径匹配算法能够更全面将无明显一致特征的身份进行归一化，解决了现有技术中无明显一致特征的数据记录的归一问题，这是本发明的重要发明点之一。

可信度计算单元303，对获得的识别结果中的至少两条数据记录进行可信度计算，如果可信度达到一定阈值，则将所述至少两条数据记录进行归一操作。

保存单元304，将归一操作后的数据记录及对应的可信度保存在数据库中。保存在数据库中数据可以供生成展示图所使用。

表1

表2

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种身份识别的数据归一方法，其特征在于，该方法包括：

保存步骤，将归一操作后的数据记录及对应的可信度保存在数据库中;

其中，所述使用规则匹配方法对身份属性数据集进行识别的操作为：

提取规则匹配库中的所有规则，构建规则数据集Sb，遍历身份属性数据集Si，如果Si的类型存在于Sb，则依据Si的账号进行比对，如果存在一致的两条数据记录，则生成新数据集Sc，数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重，然后，遍历数据集Sc，如果有相同来源ID1和来源ID2的不同记录，且不同记录间的规则ID存在关联，则将这些记录进行合并，并且根据Sb的权重叠加方式，得到最终的权重，更新数据集Sc，其中，1≦i≦n；

如果不存在一致的两条数据记录，则计算账号之间的相似度，如果所计算的相似度大于Sb的相似度，则生成新数据集Sc，数据集Sc的要素为两条数据记录的来源ID1、来源ID2、相似度、规则ID及权重，遍历数据集Sc，如果有相同来源ID1和来源ID2的不同记录，且不同记录间的规则ID又有关联，则将这些记录进行合并，并且根据Sb的权重叠加方式，得到最终的权重，更新数据集Sc；

所述使用路径匹配方法对身份属性数据集进行识别的操作为：

2.根据权利要求1所述的方法，其特征在于，所述构建对应的身份属性数据集的操作为：通过提取多个数据源包含的身份属性信息，构建身份属性数据集S，集合S包含n个子集合{S 1，S 2，…， Sn}，每个子集包含的数据项有：类型、账号、关联账号类型、关联账号、时段和来源ID，每个子集的数据项是以类型+账号为唯一性标识进行排重以过滤掉重复的数据。

3.根据权利要求2所述的方法，其特征在于，所述规则匹配库包括以下属性字段：TypeId为类型Id，type为身份类型，similarity为账号相似度，weight为权重，correlateType为关联身份类型，superPosition为权重叠加方式，remark为备注，status为状态；

其中，superPosition=1表示累加，superPosition=2表示取最高值，superPosition=3表示取最小值，status=0表示不可用，status=1表示可用。

4.一种身份识别的数据归一装置，其特征在于，该装置包括：

保存单元，将归一操作后的数据记录及对应的可信度保存在数据库中;

其中，所述使用规则匹配装置对身份属性数据集进行识别的操作为：

所述使用路径匹配装置对身份属性数据集进行识别的操作为：

5.根据权利要求4所述的装置，其特征在于，所述构建对应的身份属性数据集的操作为：通过提取多个数据源包含的身份属性信息，构建身份属性数据集S，集合S包含n个子集合{S 1，S 2，…， Sn}，每个子集包含的数据项有：类型、账号、关联账号类型、关联账号、时段和来源ID，每个子集的数据项是以类型+账号为唯一性标识进行排重以过滤掉重复的数据。

6.根据权利要求5所述的装置，其特征在于，所述规则匹配库包括以下属性字段：TypeId为类型Id，type为身份类型，similarity为账号相似度，weight为权重，correlateType为关联身份类型，superPosition为权重叠加方式，remark为备注，status为状态；

7.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行权利要求1-3之任一的方法。