CN110825717B - 一种身份识别的数据归一方法、装置及介质 - Google Patents

一种身份识别的数据归一方法、装置及介质 Download PDF

Info

Publication number
CN110825717B
CN110825717B CN201910959733.0A CN201910959733A CN110825717B CN 110825717 B CN110825717 B CN 110825717B CN 201910959733 A CN201910959733 A CN 201910959733A CN 110825717 B CN110825717 B CN 110825717B
Authority
CN
China
Prior art keywords
data set
data
records
rule
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910959733.0A
Other languages
English (en)
Other versions
CN110825717A (zh
Inventor
周成祖
叶立震
鄢小征
林文楷
魏超
许琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Public Security Bureau Network Police Detachment
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Guangzhou Public Security Bureau Network Police Detachment
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Public Security Bureau Network Police Detachment, Xiamen Meiya Pico Information Co Ltd filed Critical Guangzhou Public Security Bureau Network Police Detachment
Priority to CN201910959733.0A priority Critical patent/CN110825717B/zh
Publication of CN110825717A publication Critical patent/CN110825717A/zh
Application granted granted Critical
Publication of CN110825717B publication Critical patent/CN110825717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种身份识别的数据归一方法、装置及介质,该方法首先构建对应的身份属性数据集;然后判断是否存在识别身份属性数据集的匹配规则,如果是,使用规则匹配方法对身份属性数据集进行识别,如果否,使用路径匹配方法对身份属性数据集进行识别;再对获得的识别结果中的至少两条数据记录进行可信度计算,如果可信度达到一定阈值,则将所述至少两条数据记录进行归一操作后保存在数据库中。本发明根据数据记录的不同特点,自适应的选择使用规则匹配算法还是使用路径匹配算法,能够快速将符合规则特征的身份归一化,还能够更全面将无明显一致特征的身份进行归一化,这种方法将极大提高身份归一的准确性,并提出了规则匹配算法及路径匹配算法。

Description

一种身份识别的数据归一方法、装置及介质
技术领域
本发明涉及计算机数据处理技术领域,特别是一种身份识别的数据归一方法、装置及存储介质。
背景技术
移动互联网时代,每天都会产生海量的数据,如现实生活中的住宿、驾车、出行等,虚拟世界中的即时通讯、第三方支付等;这些数据量大、无统一的标识特征,导致各类数据零散、无法关联,如何自动分析并将相关数据的身份进行归一化,成为提升海量数据分析能力和分析效率的工作难点。
由于数据随着各种应用类型的增加而不断增加,且无统一的标识特征,目前市场上现有的身份归一方法,主要通过人工配置的方式,对数据源间的关系一个个进行判断,这些技术无法满足现实中复杂的分析需求,其技术缺陷如下:
1)人工配置方式,需要耗费大量的业务研究时间,而且容易出现错、漏的情况,极大影响数据分析工作的效率和质量;
2)单一匹配规则:由于数据之间很多情况下无法只通过单一规则进行关联,导致最终能关联上的数据覆盖率不足,严重影响***的使用效果和用户体验。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种身份识别的数据归一方法,该方法包括:
提取步骤,从多个数据源中提取数据记录中包含的身份属性信息,构建对应的身份属性数据集;
判断步骤,判断是否存在识别身份属性数据集的匹配规则,如果是,使用规则匹配方法对身份属性数据集进行识别,如果否,使用路径匹配方法对身份属性数据集进行识别;
可信度计算步骤,对获得的识别结果中的至少两条数据记录进行可信度计算,如果可信度达到一定阈值,则将所述至少两条数据记录进行归一操作;
保存步骤,将归一操作后的数据记录及对应的可信度保存在数据库中。
更进一步地,所述构建对应的身份属性数据集的操作为:通过提取多个数据源包含的身份属性信息,构建身份属性数据集S,集合S包含n个子集合{S1,S2,…,Sn},每个子集包含的数据项有:类型、账号、关联账号类型、关联账号、时段和来源ID,每个子集的数据项是以类型+账号为唯一性标识进行排重以过滤掉重复的数据。
更进一步地,所述使用规则匹配方法对身份属性数据集进行识别的操作为:
提取提取规则匹配库中的所有规则,构建规则数据集Sb,遍历身份属性数据集Si,如果Si的类型存在于Sb,则依据Si的账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重,然后,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID存在关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc,其中,1≦i≦n;
如果不存在一致的两条数据记录,则计算账号之间的相似度,如果所计算的相似度大于Sb的相似度,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、相似度、规则ID及权重,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc。
更进一步地,所述使用路径匹配方法对身份属性数据集进行识别的操作为:
提取路径匹配库中的所有规则,构建路径数据集Sd,遍历身份属性数据集Si,如果Si的类型和关联账号类型存在于Sd,则依据Si的关联账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重;
遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些数据记录进行合并,并且根据Sd的权重叠加方式,得到最终的权重,更新数据集Sc。
更进一步地,所述规则匹配库包括以下属性字段:TypeId为类型Id,type为身份类型,similarity为账号相似度,weight为权重,correlateType为关联身份类型,superPosition为权重叠加方式,remark为备注,status为状态;
所述路径匹配库包括以下属性字段:roadId为路径Id,compareType为比较身份类型,correlateType为关联比较类型,superPosition为权重叠加方式,remark为备注,status为状态;
其中,superPosition=1表示累加,superPosition=2表示取最高值,superPosition=3表示取最小值,status=0表示不可用,status=1表示可用。
本发明还提出了一种身份识别的数据归一装置,该装置包括:
提取单元,从多个数据源中提取数据记录中包含的身份属性信息,构建对应的身份属性数据集;
判断单元,判断是否存在识别身份属性数据集的匹配规则,如果是,使用规则匹配装置对身份属性数据集进行识别,如果否,使用路径匹配装置对身份属性数据集进行识别;
可信度计算单元,对获得的识别结果中的至少两条数据记录进行可信度计算,如果可信度达到一定阈值,则将所述至少两条数据记录进行归一操作;
保存单元,将归一操作后的数据记录及对应的可信度保存在数据库中。
更进一步地,所述构建对应的身份属性数据集的操作为:通过提取多个数据源包含的身份属性信息,构建身份属性数据集S,集合S包含n个子集合{S1,S2,…,Sn},每个子集包含的数据项有:类型、账号、关联账号类型、关联账号、时段和来源ID,每个子集的数据项是以类型+账号为唯一性标识进行排重以过滤掉重复的数据。
更进一步地,所述使用规则匹配装置对身份属性数据集进行识别的操作为:
提取提取规则匹配库中的所有规则,构建规则数据集Sb,遍历身份属性数据集Si,如果Si的类型存在于Sb,则依据Si的账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重,然后,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID存在关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc,其中,1≦i≦n;
如果不存在一致的两条数据记录,则计算账号之间的相似度,如果所计算的相似度大于Sb的相似度,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、相似度、规则ID及权重,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc。
更进一步地,所述使用路径匹配装置对身份属性数据集进行识别的操作为:
提取路径匹配库中的所有规则,构建路径数据集Sd,遍历身份属性数据集Si,如果Si的类型和关联账号类型存在于Sd,则依据Si的关联账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重;
遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些数据记录进行合并,并且根据Sd的权重叠加方式,得到最终的权重,更新数据集Sc。
更进一步地,所述规则匹配库包括以下属性字段:TypeId为类型Id,type为身份类型,similarity为账号相似度,weight为权重,correlateType为关联身份类型,superPosition为权重叠加方式,remark为备注,status为状态;
所述路径匹配库包括以下属性字段:roadId为路径Id,compareType为比较身份类型,correlateType为关联比较类型,superPosition为权重叠加方式,remark为备注,status为状态;
其中,superPosition=1表示累加,superPosition=2表示取最高值,superPosition=3表示取最小值,status=0表示不可用,status=1表示可用。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的身份识别的数据归一方法,首先从多个数据源中提取数据记录中包含的身份属性信息,构建对应的身份属性数据集;然后判断是否存在识别身份属性数据集的匹配规则,如果是,使用规则匹配方法对身份属性数据集进行识别,如果否,使用路径匹配方法对身份属性数据集进行识别;再对获得的识别结果中的至少两条数据记录进行可信度计算,如果可信度达到一定阈值,则将所述至少两条数据记录进行归一操作;最后将归一操作后的数据记录及对应的可信度保存在数据库中。本发明根据数据记录的不同特点,自适应的选择使用规则匹配算法还是使用路径匹配算法,能够快速将符合规则特征的身份归一化,还能够更全面将无明显一致特征的身份进行归一化,解决海量数据的身份归一不准不全的问题。且支持插件式的规则及路径比较定义,本发明通过遍历所有的规则和路径,通过多规则多路径的匹配算法,最终得到关联相似度,并根据关联相似度(即可信度)是否达到设置的阀值来判断是否为相同身份,这种方法将极大提高身份归一的准确性,并提出了具体的规则匹配算法及路径匹配算法。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种身份识别的数据归一方法的流程图。
图2是根据本发明的实施例的识别后的数据归一显示示意图。
图3是根据本发明的实施例的一种身份识别的数据归一装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种身份识别的数据归一方法,该方法包括:
提取步骤S101,从多个数据源中提取数据记录中包含的身份属性信息,构建对应的身份属性数据集。多个数据源包括人、事、物品、组织等等数据源。
判断步骤S102,判断是否存在识别身份属性数据集的匹配规则,如果是,使用规则匹配方法对身份属性数据集进行识别,如果否,使用路径匹配方法对身份属性数据集进行识别。其根据数据记录的不同特点,自适应的选择使用规则匹配算法还是使用路径匹配算法,能够快速将符合规则特征的身份归一化,在数据不具有相同的规则特征时,使用路径匹配算法能够更全面将无明显一致特征的身份进行归一化,解决了现有技术中无明显一致特征的数据记录的归一问题,这是本发明的重要发明点之一。
可信度计算步骤S103,对获得的识别结果中的至少两条数据记录进行可信度计算,如果可信度达到一定阈值,则将所述至少两条数据记录进行归一操作。
保存步骤S104,将归一操作后的数据记录及对应的可信度保存在数据库中。保存在数据库中数据可以供生成展示图所使用。
在一个实施例中,所述构建对应的身份属性数据集的操作为:通过提取多个数据源包含的身份属性信息,构建身份属性数据集S,集合S包含n个子集合{S1,S2,…,Sn},每个子集包含的数据项有:类型、账号、关联账号类型、关联账号、时段和来源ID,每个子集的数据项是以类型+账号为唯一性标识进行排重以过滤掉重复的数据。
在一个实施例中,所述使用规则匹配方法对身份属性数据集进行识别的操作为:提取提取规则匹配库中的所有规则,构建规则数据集Sb,遍历身份属性数据集Si,如果Si的类型存在于Sb,则依据Si的账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重,然后,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID存在关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc,其中,1≦i≦n。例如两条数据,存在手机号码一致,权重为0.5,微信号码一致,权重为0.5,根据规则库,这两条记录的关联可信度为1;基本上可以确认是同一身份的两条不同记录。
如果不存在一致的两条数据记录,则计算账号之间的相似度,如果所计算的相似度大于Sb的相似度,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、相似度、规则ID及权重,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc。
在一个实施例中,所述使用路径匹配方法对身份属性数据集进行识别的操作为:
提取路径匹配库中的所有规则,构建路径数据集Sd,遍历身份属性数据集Si,如果Si的类型和关联账号类型存在于Sd,则依据Si的关联账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重;例如两条数据,两把不同手机(号码不一致),同时登录过同一个微信号,权重为0.5,同时两把手机又绑定同一个银行***,权重为0.5,根据规则库,这两条记录的关联可信度为1;基本上可以确认是两把手机同隶属于同一个人。
遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些数据记录进行合并,并且根据Sd的权重叠加方式,得到最终的权重,更新数据集Sc。
在一个实施例中,所述规则匹配库包括以下属性字段:TypeId为类型Id,type为身份类型,similarity为账号相似度,weight为权重,correlateType为关联身份类型,superPosition为权重叠加方式,remark为备注,status为状态;如表1所示。
属性名称 属性描述 备注
TypeId 类型Id
type 身份类型
similarity 账号相似度
weight 权重
correlateType 关联身份类型
superPosition 权重叠加方式 1-累加,2-取最高值,3-取最小值
remark 备注
status 状态 0-不可用,1-可用
表1
所述路径匹配库包括以下属性字段:roadId为路径Id,compareType为比较身份类型,correlateType为关联比较类型,superPosition为权重叠加方式,remark为备注,status为状态;如表2所示。
属性名称 属性描述 备注
roadId 路径Id
compareType 比较身份类型 不同身份类型以,隔开
correlateType 关联比较类型
superPosition 权重叠加方式 1-累加,2-取最高值,3-取最小值
remark 备注
status 状态 0-不可用,1-可用
表2
其中,superPosition=1表示累加,superPosition=2表示取最高值,superPosition=3表示取最小值,status=0表示不可用,status=1表示可用。
在一个实施例中,对获得的识别结果中的至少两条数据记录进行可信度计算,可信度计算的规则是根据权重叠加方式superPosition的值将数据记录中的权重值进行相应的计算得到最终的权重值,判断其是否达到一定阈值,比如1,如果是则认为两条数据记录的身份相同。
在一个实施例中,规则匹配库及路径匹配库可以做成插件式,在软件需要时调用该插件即可,方便的软件设计,提高了软件设置的灵活度。
本方法通过规则匹配算法和路径匹配算法,可以自适应地分析出海量数据中不同来源记录的身份属性的相似度,进而将相似度达到一定阀值的身份进行归一处理,可以高效全面地梳理各数据源的关联关系,减少数据无法关联对数据分析工作的影响,提升分析效率,帮助工作人员全面分析数据、定位核心线索,并提出了具体的规则匹配算法及路径匹配算法,这是本发明的重要发明点之另一。
在本发明的一个实施例中,可以将不同数据源的数据归到同一账号下,并通过示意图的方式将用户所有相关的数据在电子屏展示出来,如图2所示,使用户能更直观、全面地进行数据分析。
图3示出了本发明的一种身份识别的数据归一装置,该装置包括:
提取单元301,从多个数据源中提取数据记录中包含的身份属性信息,构建对应的身份属性数据集。多个数据源包括人、事、物品、组织等等数据源。
判断单元302,判断是否存在识别身份属性数据集的匹配规则,如果是,使用规则匹配方法对身份属性数据集进行识别,如果否,使用路径匹配方法对身份属性数据集进行识别。其根据数据记录的不同特点,自适应的选择使用规则匹配算法还是使用路径匹配算法,能够快速将符合规则特征的身份归一化,在数据不具有相同的规则特征时,使用路径匹配算法能够更全面将无明显一致特征的身份进行归一化,解决了现有技术中无明显一致特征的数据记录的归一问题,这是本发明的重要发明点之一。
可信度计算单元303,对获得的识别结果中的至少两条数据记录进行可信度计算,如果可信度达到一定阈值,则将所述至少两条数据记录进行归一操作。
保存单元304,将归一操作后的数据记录及对应的可信度保存在数据库中。保存在数据库中数据可以供生成展示图所使用。
在一个实施例中,所述构建对应的身份属性数据集的操作为:通过提取多个数据源包含的身份属性信息,构建身份属性数据集S,集合S包含n个子集合{S1,S2,…,Sn},每个子集包含的数据项有:类型、账号、关联账号类型、关联账号、时段和来源ID,每个子集的数据项是以类型+账号为唯一性标识进行排重以过滤掉重复的数据。
在一个实施例中,所述使用规则匹配方法对身份属性数据集进行识别的操作为:提取提取规则匹配库中的所有规则,构建规则数据集Sb,遍历身份属性数据集Si,如果Si的类型存在于Sb,则依据Si的账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重,然后,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID存在关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc,其中,1≦i≦n。例如两条数据,存在手机号码一致,权重为0.5,微信号码一致,权重为0.5,根据规则库,这两条记录的关联可信度为1;基本上可以确认是同一身份的两条不同记录。
如果不存在一致的两条数据记录,则计算账号之间的相似度,如果所计算的相似度大于Sb的相似度,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、相似度、规则ID及权重,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc。
在一个实施例中,所述使用路径匹配方法对身份属性数据集进行识别的操作为:
提取路径匹配库中的所有规则,构建路径数据集Sd,遍历身份属性数据集Si,如果Si的类型和关联账号类型存在于Sd,则依据Si的关联账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重;例如两条数据,两把不同手机(号码不一致),同时登录过同一个微信号,权重为0.5,同时两把手机又绑定同一个银行***,权重为0.5,根据规则库,这两条记录的关联可信度为1;基本上可以确认是两把手机同隶属于同一个人。
遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些数据记录进行合并,并且根据Sd的权重叠加方式,得到最终的权重,更新数据集Sc。
在一个实施例中,所述规则匹配库包括以下属性字段:TypeId为类型Id,type为身份类型,similarity为账号相似度,weight为权重,correlateType为关联身份类型,superPosition为权重叠加方式,remark为备注,status为状态;如表1所示。
属性名称 属性描述 备注
TypeId 类型Id
type 身份类型
similarity 账号相似度
weight 权重
correlateType 关联身份类型
superPosition 权重叠加方式 1-累加,2-取最高值,3-取最小值
remark 备注
status 状态 0-不可用,1-可用
表1
所述路径匹配库包括以下属性字段:roadId为路径Id,compareType为比较身份类型,correlateType为关联比较类型,superPosition为权重叠加方式,remark为备注,status为状态;如表2所示。
属性名称 属性描述 备注
roadId 路径Id
compareType 比较身份类型 不同身份类型以,隔开
correlateType 关联比较类型
superPosition 权重叠加方式 1-累加,2-取最高值,3-取最小值
remark 备注
status 状态 0-不可用,1-可用
表2
其中,superPosition=1表示累加,superPosition=2表示取最高值,superPosition=3表示取最小值,status=0表示不可用,status=1表示可用。
在一个实施例中,对获得的识别结果中的至少两条数据记录进行可信度计算,可信度计算的规则是根据权重叠加方式superPosition的值将数据记录中的权重值进行相应的计算得到最终的权重值,判断其是否达到一定阈值,比如1,如果是则认为两条数据记录的身份相同。
在一个实施例中,规则匹配库及路径匹配库可以做成插件式,在软件需要时调用该插件即可,方便的软件设计,提高了软件设置的灵活度。
本方法通过规则匹配算法和路径匹配算法,可以自适应地分析出海量数据中不同来源记录的身份属性的相似度,进而将相似度达到一定阀值的身份进行归一处理,可以高效全面地梳理各数据源的关联关系,减少数据无法关联对数据分析工作的影响,提升分析效率,帮助工作人员全面分析数据、定位核心线索,并提出了具体的规则匹配算法及路径匹配算法,这是本发明的重要发明点之另一。
在本发明的一个实施例中,可以将不同数据源的数据归到同一账号下,并通过示意图的方式将用户所有相关的数据在电子屏展示出来,如图2所示,使用户能更直观、全面地进行数据分析。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种身份识别的数据归一方法,其特征在于,该方法包括:
提取步骤,从多个数据源中提取数据记录中包含的身份属性信息,构建对应的身份属性数据集;
判断步骤,判断是否存在识别身份属性数据集的匹配规则,如果是,使用规则匹配方法对身份属性数据集进行识别,如果否,使用路径匹配方法对身份属性数据集进行识别;
可信度计算步骤,对获得的识别结果中的至少两条数据记录进行可信度计算,如果可信度达到一定阈值,则将所述至少两条数据记录进行归一操作;
保存步骤,将归一操作后的数据记录及对应的可信度保存在数据库中;
其中,所述使用规则匹配方法对身份属性数据集进行识别的操作为:
提取规则匹配库中的所有规则,构建规则数据集Sb,遍历身份属性数据集Si,如果Si的类型存在于Sb,则依据Si的账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重,然后,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID存在关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc,其中,1≦i≦n;
如果不存在一致的两条数据记录,则计算账号之间的相似度,如果所计算的相似度大于Sb的相似度,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、相似度、规则ID及权重,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc;
所述使用路径匹配方法对身份属性数据集进行识别的操作为:
提取路径匹配库中的所有规则,构建路径数据集Sd,遍历身份属性数据集Si,如果Si的类型和关联账号类型存在于Sd,则依据Si的关联账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重;
遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些数据记录进行合并,并且根据Sd的权重叠加方式,得到最终的权重,更新数据集Sc。
2.根据权利要求1所述的方法,其特征在于,所述构建对应的身份属性数据集的操作为:通过提取多个数据源包含的身份属性信息,构建身份属性数据集S,集合S包含n个子集合{S 1,S 2,…, Sn},每个子集包含的数据项有:类型、账号、关联账号类型、关联账号、时段和来源ID,每个子集的数据项是以类型+账号为唯一性标识进行排重以过滤掉重复的数据。
3.根据权利要求2所述的方法,其特征在于,所述规则匹配库包括以下属性字段:TypeId为类型Id,type为身份类型,similarity为账号相似度,weight为权重,correlateType为关联身份类型,superPosition为权重叠加方式,remark为备注,status为状态;
所述路径匹配库包括以下属性字段:roadId为路径Id,compareType为比较身份类型,correlateType为关联比较类型,superPosition为权重叠加方式,remark为备注,status为状态;
其中,superPosition=1表示累加,superPosition=2表示取最高值,superPosition=3表示取最小值,status=0表示不可用,status=1表示可用。
4.一种身份识别的数据归一装置,其特征在于,该装置包括:
提取单元,从多个数据源中提取数据记录中包含的身份属性信息,构建对应的身份属性数据集;
判断单元,判断是否存在识别身份属性数据集的匹配规则,如果是,使用规则匹配装置对身份属性数据集进行识别,如果否,使用路径匹配装置对身份属性数据集进行识别;
可信度计算单元,对获得的识别结果中的至少两条数据记录进行可信度计算,如果可信度达到一定阈值,则将所述至少两条数据记录进行归一操作;
保存单元,将归一操作后的数据记录及对应的可信度保存在数据库中;
其中,所述使用规则匹配装置 对身份属性数据集进行识别的操作为:
提取规则匹配库中的所有规则,构建规则数据集Sb,遍历身份属性数据集Si,如果Si的类型存在于Sb,则依据Si的账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重,然后,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID存在关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc,其中,1≦i≦n;
如果不存在一致的两条数据记录,则计算账号之间的相似度,如果所计算的相似度大于Sb的相似度,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、相似度、规则ID及权重,遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些记录进行合并,并且根据Sb的权重叠加方式,得到最终的权重,更新数据集Sc;
所述使用路径匹配装置 对身份属性数据集进行识别的操作为:
提取路径匹配库中的所有规则,构建路径数据集Sd,遍历身份属性数据集Si,如果Si的类型和关联账号类型存在于Sd,则依据Si的关联账号进行比对,如果存在一致的两条数据记录,则生成新数据集Sc,数据集Sc的要素为两条数据记录的来源ID1、来源ID2、规则ID及权重;
遍历数据集Sc,如果有相同来源ID1和来源ID2的不同记录,且不同记录间的规则ID又有关联,则将这些数据记录进行合并,并且根据Sd的权重叠加方式,得到最终的权重,更新数据集Sc。
5.根据权利要求4所述的装置,其特征在于,所述构建对应的身份属性数据集的操作为:通过提取多个数据源包含的身份属性信息,构建身份属性数据集S,集合S包含n个子集合{S 1,S 2,…, Sn},每个子集包含的数据项有:类型、账号、关联账号类型、关联账号、时段和来源ID,每个子集的数据项是以类型+账号为唯一性标识进行排重以过滤掉重复的数据。
6.根据权利要求5所述的装置,其特征在于,所述规则匹配库包括以下属性字段:TypeId为类型Id,type为身份类型,similarity为账号相似度,weight为权重,correlateType为关联身份类型,superPosition为权重叠加方式,remark为备注,status为状态;
所述路径匹配库包括以下属性字段:roadId为路径Id,compareType为比较身份类型,correlateType为关联比较类型,superPosition为权重叠加方式,remark为备注,status为状态;
其中,superPosition=1表示累加,superPosition=2表示取最高值,superPosition=3表示取最小值,status=0表示不可用,status=1表示可用。
7.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-3之任一的方法。
CN201910959733.0A 2019-10-10 2019-10-10 一种身份识别的数据归一方法、装置及介质 Active CN110825717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910959733.0A CN110825717B (zh) 2019-10-10 2019-10-10 一种身份识别的数据归一方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910959733.0A CN110825717B (zh) 2019-10-10 2019-10-10 一种身份识别的数据归一方法、装置及介质

Publications (2)

Publication Number Publication Date
CN110825717A CN110825717A (zh) 2020-02-21
CN110825717B true CN110825717B (zh) 2022-05-20

Family

ID=69549082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910959733.0A Active CN110825717B (zh) 2019-10-10 2019-10-10 一种身份识别的数据归一方法、装置及介质

Country Status (1)

Country Link
CN (1) CN110825717B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111427916B (zh) * 2020-03-27 2023-08-18 北京明略软件***有限公司 一种数据模拟方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646110A (zh) * 2013-12-26 2014-03-19 中国人民银行征信中心 自然人基本身份信息匹配方法
CN105190595A (zh) * 2012-07-30 2015-12-23 阿德尔费克公司 唯一地识别网络连接实体
US9275125B1 (en) * 2014-07-14 2016-03-01 Zipscene LLC System for organizing data from a plurality of users to create individual user profiles
CN107784588A (zh) * 2016-09-12 2018-03-09 平安科技(深圳)有限公司 保险用户信息合并方法和装置
CN107862047A (zh) * 2017-11-08 2018-03-30 爱财科技有限公司 基于多个数据源的自然人数据处理方法和***
CN110246033A (zh) * 2019-06-21 2019-09-17 深圳前海微众银行股份有限公司 信贷风险监测方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN2014CH00917A (zh) * 2014-02-24 2015-08-28 Samsung R & D Inst India Bangalore Private Ltd

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105190595A (zh) * 2012-07-30 2015-12-23 阿德尔费克公司 唯一地识别网络连接实体
CN103646110A (zh) * 2013-12-26 2014-03-19 中国人民银行征信中心 自然人基本身份信息匹配方法
US9275125B1 (en) * 2014-07-14 2016-03-01 Zipscene LLC System for organizing data from a plurality of users to create individual user profiles
CN107784588A (zh) * 2016-09-12 2018-03-09 平安科技(深圳)有限公司 保险用户信息合并方法和装置
CN107862047A (zh) * 2017-11-08 2018-03-30 爱财科技有限公司 基于多个数据源的自然人数据处理方法和***
CN110246033A (zh) * 2019-06-21 2019-09-17 深圳前海微众银行股份有限公司 信贷风险监测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110825717A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
US10459888B2 (en) Method, apparatus and system for data analysis
CN111291816A (zh) 针对用户分类模型进行特征处理的方法及装置
CN110401779A (zh) 一种识别电话号码的方法、装置和计算机可读存储介质
CN110851675B (zh) 一种数据提取方法、装置及介质
CN110795471B (zh) 数据匹配的方法及装置、计算机可读存储介质、电子设备
CN107633257B (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
CN111428217A (zh) 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质
CN107644106A (zh) 自动挖掘业务中间人的方法、终端设备及存储介质
CN111091408A (zh) 用户识别模型创建方法、装置与识别方法、装置
CN111274390B (zh) 一种基于对话数据的情感原因确定方法及装置
CN112307297A (zh) 一种基于优先级规则的用户标识统一方法及***
CN110825717B (zh) 一种身份识别的数据归一方法、装置及介质
US11412063B2 (en) Method and apparatus for setting mobile device identifier
CN113254918B (zh) 信息处理方法、电子设备和计算机可读存储介质
CN113225580A (zh) 直播数据处理方法、装置、电子设备及介质
CN117252429A (zh) 风险用户的识别方法、装置、存储介质及电子设备
CN108460630B (zh) 基于用户数据进行分类分析的方法和装置
CN112182520A (zh) 非法账号的识别方法、装置、可读介质及电子设备
CN113254919B (zh) 异常设备识别方法、电子设备和计算机可读存储介质
CN109587248A (zh) 用户识别方法、装置、服务器及存储介质
CN106549914B (zh) 一种独立访问者的识别方法及装置
CN111291093B (zh) 用于确定业务应用的功能关联规则的方法及装置
CN114463011A (zh) 基于区块链的异常交易检测方法、装置、设备及存储介质
CN111984798A (zh) 图谱数据预处理方法及装置
CN111382343A (zh) 一种标签体系生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210621

Address after: 361000 unit 102-402, No.12, guanri Road, phase II, software park, Siming District, Xiamen City, Fujian Province

Applicant after: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Applicant after: Guangzhou Public Security Bureau Network Police Detachment

Address before: Unit 102-402, No. 12, guanri Road, phase II, Xiamen Software Park, Fujian Province, 361000

Applicant before: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

GR01 Patent grant
GR01 Patent grant