CN110968573B - 用户画像数据清洗方法及装置 - Google Patents

用户画像数据清洗方法及装置 Download PDF

Info

Publication number
CN110968573B
CN110968573B CN201811152445.6A CN201811152445A CN110968573B CN 110968573 B CN110968573 B CN 110968573B CN 201811152445 A CN201811152445 A CN 201811152445A CN 110968573 B CN110968573 B CN 110968573B
Authority
CN
China
Prior art keywords
user
encrypted
data
identification
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811152445.6A
Other languages
English (en)
Other versions
CN110968573A (zh
Inventor
钱佳
曹文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201811152445.6A priority Critical patent/CN110968573B/zh
Publication of CN110968573A publication Critical patent/CN110968573A/zh
Application granted granted Critical
Publication of CN110968573B publication Critical patent/CN110968573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开是关于用户画像数据清洗方法及装置。方法包括:获取以用户标识为关键字的第一用户画像数据;第一用户画像数据包括用户标识及加密后的设备标识;分别以各加密后的设备标识为关键字对第一用户画像数据进行拆分并重新聚合;将上述拆分并重新聚合的步骤迭代执行多次,得到各加密后的设备标识各自对应的值;根据各加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;目标设备标签对应于具有相同值的加密后的设备标识。本公开能够将属于同一用户设备的用户标识和设备标识有效关联,提高数据质量,提高信息推送的准确性和可靠性。

Description

用户画像数据清洗方法及装置
技术领域
本公开涉及数据存储技术领域,尤其涉及用户画像数据清洗方法及装置。
背景技术
目前在数据统计领域,因为统计的维度不同,一定会涉及到用户标识(id)和设备id这两种id的关联。目前行业中普遍的做法是提升数据采集质量,在原始数据阶段做好数据采集,但是怎样合理对两个id进行关联映射,并没有通用的常规处理方式。而推送面对海量的用户id数据和复杂的统计逻辑,需要在数据清洗和数据分析层面对不同id进行映射整合。
相关技术中,信息推送体系的关联关系是以用户标识作为关键字(Key)的,这就客观导致了无法从设备角度清洗数据,影响信息推送的准确性和可靠性。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种用户画像数据清洗方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种用户画像数据清洗方法,方法包括:
获取以用户标识为关键字的第一用户画像数据;所述第一用户画像数据包括所述用户标识及加密后的设备标识;
分别以各所述加密后的设备标识为关键字对所述第一用户画像数据进行拆分并重新聚合;
将上述拆分并重新聚合的步骤迭代执行多次,得到各所述加密后的设备标识各自对应的值;
根据各所述加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;所述目标设备标签对应于具有相同值的加密后的设备标识。
本公开的实施例提供的技术方案可以包括以下有益效果:该技术方案通过分别以各加密后的设备标识为关键字对第一用户画像数据进行拆分,打散第一用户画像数据中以用户标识为关键字的映射关系,聚合形成以加密后的设备标识为关键字的第二用户画像数据,将属于同一用户设备的用户标识和设备标识有效关联,提高数据质量,通过目标设备标签能够快速找到属于同一用户设备的所有用户标识和设备标识,提高信息推送的准确性和可靠性。
在一个实施例中,所述加密后的设备标识,包括:加密后的国际移动设备识别码imei、加密后的移动设备识别码meid、及加密后的媒体接入控制。
在一个实施例中,在所述分别以各所述加密后的设备标识为关键字对所述第一用户画像数据进行拆分并重新聚合之前,所述方法还包括:
识别出所述第一用户画像数据中包括非法数据格式的脏数据;
将所述脏数据从所述第一用户画像数据中过滤。
在一个实施例中,所述非法数据格式包括以下任一种类型或组合:
非法字符、用户标识为空、用户标识位数不正确、加密后的移动设备识别码位数缺失、或加密后的移动设备识别码为空。
在一个实施例中,所述第一用户画像数据,包括:新增的用户画像数据、及历史的用户画像数据。
根据本公开实施例的第二方面,提供一种用户画像数据清洗装置,装置包括:
获取模块,用于获取以用户标识为关键字的第一用户画像数据;所述第一用户画像数据包括所述用户标识及加密后的设备标识;
聚合模块,用于分别以各所述加密后的设备标识为关键字对所述第一用户画像数据进行拆分并重新聚合;
迭代模块,用于将上述拆分并重新聚合的步骤迭代执行多次,得到各所述加密后的设备标识各自对应的值;
生成模块,用于根据各所述加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;所述目标设备标签对应于具有相同值的加密后的设备标识。
在一个实施例中,所述加密后的设备标识,包括:加密后的国际移动设备识别码imei、加密后的移动设备识别码meid、及加密后的媒体接入控制。
在一个实施例中,所述装置还包括:
识别模块,用于识别出所述第一用户画像数据中包括非法数据格式的脏数据;
过滤模块,用于将所述脏数据从所述第一用户画像数据中过滤。
在一个实施例中,所述非法数据格式包括以下任一种类型或组合:
非法字符、用户标识为空、用户标识位数不正确、加密后的移动设备识别码位数缺失、或加密后的移动设备识别码为空。
在一个实施例中,所述第一用户画像数据,包括:新增的用户画像数据、及历史的用户画像数据。
根据本公开实施例的第三方面,提供一种用户画像数据清洗装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取以用户标识为关键字的第一用户画像数据;所述第一用户画像数据包括所述用户标识及加密后的设备标识;
分别以各所述加密后的设备标识为关键字对所述第一用户画像数据进行拆分并重新聚合;
将上述拆分并重新聚合的步骤迭代执行多次,得到各所述加密后的设备标识各自对应的值;
根据各所述加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;所述目标设备标签对应于具有相同值的加密后的设备标识。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述第一方面中任意一项所述方法实施例的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的用户画像数据清洗方法的流程图。
图2是根据一示例性实施例示出的用户画像数据清洗方法的流程图。
图3是根据一示例性实施例示出的用户画像数据清洗装置的框图。
图4是根据一示例性实施例示出的用户画像数据清洗装置的框图。
图5是根据一示例性实施例示出的用户画像数据清洗装置的框图。
图6是根据一示例性实施例示出的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,信息推送体系的关联关系是以用户标识作为关键字(Key)的,这就客观导致了无法从设备角度清洗数据,影响信息推送的准确性和可靠性。
为了解决上述问题,本公开实施例提供了一种用户画像数据清洗方法,方法包括:获取以用户标识为关键字的第一用户画像数据;第一用户画像数据包括用户标识及加密后的设备标识;分别以各加密后的设备标识为关键字对第一用户画像数据进行拆分并重新聚合;将上述拆分并重新聚合的步骤迭代执行多次,得到各加密后的设备标识各自对应的值;根据各加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;目标设备标签对应于具有相同值的加密后的设备标识。本公开实施例通过分别以各加密后的设备标识为关键字对第一用户画像数据进行拆分,打散第一用户画像数据中以用户标识为关键字的映射关系,聚合形成以加密后的设备标识为关键字的第二用户画像数据,将属于同一用户设备的用户标识和设备标识有效关联,提高数据质量,通过目标设备标签能够快速找到属于同一用户设备的所有用户标识和设备标识,提高信息推送的准确性和可靠性。
在上述分析的基础上,下面介绍本公开方法实施例。
图1是根据一示例性实施例示出的一种用户画像数据清洗方法的流程图;该方法的执行主体可以为服务器;如图1所示,该方法包括以下步骤101-104:
在步骤101中,获取以用户标识为关键字的第一用户画像数据;第一用户画像数据包括用户标识及加密后的设备标识。
示例的,第一用户画像数据包括:新增的用户画像数据、及历史的用户画像数据。加密后的设备标识包括:加密后的imei、加密后的移动设备识别码(meid,Mobile StationEquipment Identifier)、及加密后的媒体接入控制。例如,加密后的imei为imeiMd5,加密后的meid为meidMd5,加密后的媒体接入控制为macMd5。
示例的,历史的用户画像数据是以用户标识(UUID)为key存储的;历史的用户画像数据至少存储了UUID、imeiMd5、meidMd5及macMd5三个维度。可以每天将日志中新增的用户画像数据按照UUID为key存储起来,接着和历史的用户画像数据组合起来形成全部的以UUID为key的第一用户画像数据,第一用户画像数据包括UUID、imeiMd5、meid及macMd5。可选的,第一用户画像数据还可以包括国际移动用户识别码(IMSI,International MobileSubscriber Identification Number)。需要说明的是,处于用户隐私保护的原因,服务器不能直接采集设备的imei,只能采集加密的imei然后存储,例如imeiMd5。
在步骤102中,分别以各加密后的设备标识为关键字对第一用户画像数据进行拆分并重新聚合。
在步骤103中,将上述拆分并重新聚合的步骤迭代执行多次,得到各加密后的设备标识各自对应的值。
在一实施例中,迭代次数为两次以上,但本公开实施例不以此为限。示例地,通常双卡双待设备可能会有2个imeiMd5和1个meidMd5,因此,最多只需3轮聚合即可实现用户画像数据的数据存储形式的转变。参见表1至表7示出的聚合过程,其中,表1为以用户标识为关键字的第一用户画像数据。
表1
UUID(KEY) imeiMd5 macMd5
U1 M1 C1
U2 M1,M2 Null
U3 M2,M3 Null
首轮:进行打散,将每个维度都单独拆开,输出表2:
表2
imeiMd5/macMd5(KEY) 值(VALUE)
M1 <U1>,<M1>,<C1>
C1 <U1>,<M1>,<C1>
M1 <U2>,<M1,M2>,<>
M2 <U2>,<M1,M2>,<>
M2 <U3>,<M2,M3>,<>
M3 <U3>,<M2,M3>,<>
以加密后的设备标识为key进行聚合,输出表3:
表3
imeiMd5/macMd5(KEY) VALUE
M1 <U1,U2>,<M1,M2>,<C1>
C1 <U1>,<M1>,<C1>
M2 <U2,U3>,<M1,M2,M3>,<>
M3 <U3>,<M2,M3>,<>
第二轮:以每一行的imeiMd5或者macMd5为key进行打散,输出表4:
表4
imeiMd5/macMd5(KEY) VALUE
M1 <U1,U2>,<M1,M2>,<C1>
M2 <U1,U2>,<M1,M2>,<C1>
C1 <U1,U2>,<M1,M2>,<C1>
M1 <U1>,<M1>,<C1>
C1 <U1>,<M1>,<C1>
M1 <U2,U3>,<M1,M2,M3>,<>
M2 <U2,U3>,<M1,M2,M3>,<>
M3 <U2,U3>,<M1,M2,M3>,<>
M2 <U3>,<M2,M3>,<>
M3 <U3>,<M2,M3>,<>
以加密后的设备标识为key进行聚合,输出表5:
表5
imeiMd5/macMd5(KEY) VALUE
M1 <U1,U2,U3>,<M1,M2,M3>,<C1>
C1 <U1,U2>,<M1,M2>,<C1>
M2 <U1,U2,U3>,<M1,M2,M3>,<C1>
M3 <U2,U3>,<M1,M2,M3>,<>
第三轮:以每一行的imeiMd5或者macMd5为key进行打散,输出表6:
表6
Figure BDA0001818248340000071
Figure BDA0001818248340000081
以加密后的设备标识为key进行聚合,输出表7:
表7
imeiMd5/macMd5(KEY) VALUE
M1 <U1,U2,U3>,<M1,M2,M3>,<C1>
C1 <U1,U2,U3>,<M1,M2,M3>,<C1>
M2 <U1,U2,U3>,<M1,M2,M3>,<C1>
M3 <U1,U2,U3>,<M1,M2,M3>,<C1>
经过三轮的打散及聚合处理之后,表7中的设备ID(imeiMd5和macMd5)的VALUE都一致了,即M1、M2、M3及C1代表同一台设备,所以<U1,U2,U3>,<M1,M2,M3>,<C1>就是一个目标设备标签,代表同一台设备。
在步骤104中,根据各加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;目标设备标签对应于具有相同值的加密后的设备标识。
示例的,目标设备标签与具有相同值的加密后的设备标识建立一对多的映射关系。
本公开实施例提供的技术方案,通过分别以各加密后的设备标识为关键字对第一用户画像数据进行拆分,打散第一用户画像数据中以用户标识为关键字的映射关系,聚合形成以加密后的设备标识为关键字的第二用户画像数据,将属于同一用户设备的用户标识和设备标识有效关联,提高数据质量,通过目标设备标签能够快速找到属于同一用户设备的所有用户标识和设备标识,方便业务推送方进行更准确的设备定位,提高信息推送的准确性和可靠性。
图2是根据一示例性实施例示出的一种用户画像数据清洗方法的流程图。如图2所示,在图1所示实施例的基础上,本公开涉及的用户画像数据清洗方法可以包括以下步骤201-205:
在步骤201中,获取以用户标识为关键字的第一用户画像数据;第一用户画像数据包括用户标识及加密后的设备标识。
在步骤202中,识别出第一用户画像数据中包括非法数据格式的脏数据,将脏数据从第一用户画像数据中过滤。
示例的,非法数据格式包括以下任一种类型或组合:非法字符、用户标识为空、用户标识位数不正确、加密后的移动设备识别码位数缺失、或加密后的移动设备识别码为空。通常在待处理用户画像数据中包括大量的非法数据格式的脏数据。通过识别待处理用户画像数据中包括非法数据格式的第一脏数据,并将第一脏数据从待处理用户画像数据中过滤,得到第一用户画像数据。可选的,可以将这些脏数据单独抽取并存储起来,一方面可以用于后期问题排查及回溯,另一方面,积累的脏数据可以用于黑产识别等领域。
在步骤203中,分别以各加密后的设备标识为关键字对第一用户画像数据进行拆分并重新聚合。
在步骤204中,将上述拆分并重新聚合的步骤迭代执行多次,得到各加密后的设备标识各自对应的值。
在一实施例中,迭代次数为两次以上,但本公开实施例不以此为限。示例地,通常双卡双待设备可能会有2个imeiMd5和1个meidMd5,因此,最多只需3轮聚合即可实现用户画像数据的数据存储形式的转变。
在步骤205中,根据各加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;目标设备标签对应于具有相同值的加密后的设备标识。
本公开实施例提供的技术方案,通过过滤掉数据格式非法及移动设备识别码与机型的映射关系错误的脏数据,提高数据质量,提高信息推送的准确性和可靠性。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图3是根据一示例性实施例示出的一种用户画像数据清洗装置的框图;该装置可以采用各种方式来实施,例如在服务器中实施装置的全部组件,或者,在服务器侧以耦合的方式实施装置中的组件;该装置可以通过软件、硬件或者两者的结合实现上述本公开涉及的方法,如图3所示,该用户画像数据清洗装置包括:获取模块301、聚合模块302、迭代模块303及生成模块304,其中:
获取模块301被配置为获取以用户标识为关键字的第一用户画像数据;第一用户画像数据包括用户标识及加密后的设备标识;
聚合模块302被配置为分别以各加密后的设备标识为关键字对第一用户画像数据进行拆分并重新聚合;
迭代模块303被配置为将上述拆分并重新聚合的步骤迭代执行多次,得到各加密后的设备标识各自对应的值;
生成模块304被配置为根据各加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;目标设备标签对应于具有相同值的加密后的设备标识。
本公开实施例提供的装置能够用于执行图1所示实施例的技术方案,其执行方式和有益效果类似,此处不再赘述。
在一种可能的实施方式中,加密后的设备标识,包括:加密后的国际移动设备识别码imei、加密后的移动设备识别码meid、及加密后的媒体接入控制。
在一种可能的实施方式中,如图4所示,图3示出的用户画像数据清洗装置还可以包括:识别模块401及过滤模块402,其中:
识别模块401被配置为识别出第一用户画像数据中包括非法数据格式的脏数据;
过滤模块402被配置为将脏数据从第一用户画像数据中过滤。
在一种可能的实施方式中,非法数据格式包括以下任一种类型或组合:
非法字符、用户标识为空、用户标识位数不正确、加密后的移动设备识别码位数缺失、或加密后的移动设备识别码为空。
在一种可能的实施方式中,第一用户画像数据,包括:新增的用户画像数据、及历史的用户画像数据。
图5是根据一示例性实施例示出的一种用户画像数据清洗装置500的框图,用户画像数据清洗装置500适用于服务器,用户画像数据清洗装置500包括:
处理器501;
用于存储处理器可执行指令的存储器502;
其中,处理器501被配置为:
获取以用户标识为关键字的第一用户画像数据;第一用户画像数据包括用户标识及加密后的设备标识;
分别以各加密后的设备标识为关键字对第一用户画像数据进行拆分并重新聚合;
将上述拆分并重新聚合的步骤迭代执行多次,得到各加密后的设备标识各自对应的值;
根据各加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;目标设备标签对应于具有相同值的加密后的设备标识。
在一个实施例中,加密后的设备标识,包括:加密后的imei、加密后的meid、及加密后的媒体接入控制。
在一个实施例中,上述处理器501还可被配置为:
识别出第一用户画像数据中包括非法数据格式的脏数据;
将脏数据从第一用户画像数据中过滤。
在一个实施例中,非法数据格式包括以下任一种类型或组合:
非法字符、用户标识为空、用户标识位数不正确、加密后的移动设备识别码位数缺失、或加密后的移动设备识别码为空。
在一个实施例中,第一用户画像数据,包括:新增的用户画像数据、及历史的用户画像数据。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种装置的框图。例如,装置600可以被提供为一服务器。装置600包括处理组件602,其进一步包括一个或多个处理器,以及由存储器603所代表的存储器资源,用于存储可由处理组件602的执行的指令,例如应用程序。存储器603中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件602被配置为执行指令,以执行上述方法。
装置600还可以包括一个电源组件606被配置为执行装置600的电源管理,一个有线或无线网络接口605被配置为将装置600连接到网络,和一个输入输出(I/O)接口608。装置600可以操作基于存储在存储器603的操作***,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
一种非临时性计算机可读存储介质,当存储介质中的指令由装置600的处理器执行时,使得装置600能够执行如下方法:
获取以用户标识为关键字的第一用户画像数据;第一用户画像数据包括用户标识及加密后的设备标识;
分别以各加密后的设备标识为关键字对第一用户画像数据进行拆分并重新聚合;
将上述拆分并重新聚合的步骤迭代执行多次,得到各加密后的设备标识各自对应的值;
根据各加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;目标设备标签对应于具有相同值的加密后的设备标识。
在一个实施例中,加密后的设备标识,包括:加密后的imei、加密后的meid、及加密后的媒体接入控制。
在一个实施例中,在分别以各加密后的设备标识为关键字对第一用户画像数据进行拆分并重新聚合之前,方法还包括:
识别出第一用户画像数据中包括非法数据格式的脏数据;
将脏数据从第一用户画像数据中过滤。
在一个实施例中,非法数据格式包括以下任一种类型或组合:
非法字符、用户标识为空、用户标识位数不正确、加密后的移动设备识别码位数缺失、或加密后的移动设备识别码为空。
在一个实施例中,第一用户画像数据,包括:新增的用户画像数据、及历史的用户画像数据。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (12)

1.一种用户画像数据清洗方法,其特征在于,包括:
获取以用户标识为关键字的第一用户画像数据;所述第一用户画像数据包括所述用户标识及加密后的设备标识;
分别以各所述加密后的设备标识为关键字对所述第一用户画像数据进行拆分并重新聚合;
将上述拆分并重新聚合的步骤迭代执行多次,得到各所述加密后的设备标识各自对应的值;
根据各所述加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;所述目标设备标签对应于具有相同值的加密后的设备标识。
2.根据权利要求1所述的方法,其特征在于,所述加密后的设备标识,包括:加密后的国际移动设备识别码imei、加密后的移动设备识别码meid、及加密后的媒体接入控制macMd5。
3.根据权利要求1所述的方法,其特征在于,在所述分别以各所述加密后的设备标识为关键字对所述第一用户画像数据进行拆分并重新聚合之前,所述方法还包括:
识别出所述第一用户画像数据中包括非法数据格式的脏数据;
将所述脏数据从所述第一用户画像数据中过滤。
4.根据权利要求3所述的方法,其特征在于,所述非法数据格式包括以下任一种类型或组合:
非法字符、用户标识为空、用户标识位数不正确、加密后的移动设备识别码位数缺失、或加密后的移动设备识别码为空。
5.根据权利要求1所述的方法,其特征在于,所述第一用户画像数据,包括:新增的用户画像数据、及历史的用户画像数据。
6.一种用户画像数据清洗装置,其特征在于,包括:
获取模块,用于获取以用户标识为关键字的第一用户画像数据;所述第一用户画像数据包括所述用户标识及加密后的设备标识;
聚合模块,用于分别以各所述加密后的设备标识为关键字对所述第一用户画像数据进行拆分并重新聚合;
迭代模块,用于将上述拆分并重新聚合的步骤迭代执行多次,得到各所述加密后的设备标识各自对应的值;
生成模块,用于根据各所述加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;所述目标设备标签对应于具有相同值的加密后的设备标识。
7.根据权利要求6所述的装置,其特征在于,所述加密后的设备标识,包括:加密后的国际移动设备识别码imei、加密后的移动设备识别码meid、及加密后的媒体接入控制macMd5。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
识别模块,用于识别出所述第一用户画像数据中包括非法数据格式的脏数据;
过滤模块,用于将所述脏数据从所述第一用户画像数据中过滤。
9.根据权利要求8所述的装置,其特征在于,所述非法数据格式包括以下任一种类型或组合:
非法字符、用户标识为空、用户标识位数不正确、加密后的移动设备识别码位数缺失、或加密后的移动设备识别码为空。
10.根据权利要求6所述的装置,其特征在于,所述第一用户画像数据,包括:新增的用户画像数据、及历史的用户画像数据。
11.一种用户画像数据清洗装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取以用户标识为关键字的第一用户画像数据;所述第一用户画像数据包括所述用户标识及加密后的设备标识;
分别以各所述加密后的设备标识为关键字对所述第一用户画像数据进行拆分并重新聚合;
将上述拆分并重新聚合的步骤迭代执行多次,得到各所述加密后的设备标识各自对应的值;
根据各所述加密后的设备标识各自对应的值,生成以目标设备标签为关键字的第二用户画像数据;所述目标设备标签对应于具有相同值的加密后的设备标识。
12.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
CN201811152445.6A 2018-09-29 2018-09-29 用户画像数据清洗方法及装置 Active CN110968573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811152445.6A CN110968573B (zh) 2018-09-29 2018-09-29 用户画像数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811152445.6A CN110968573B (zh) 2018-09-29 2018-09-29 用户画像数据清洗方法及装置

Publications (2)

Publication Number Publication Date
CN110968573A CN110968573A (zh) 2020-04-07
CN110968573B true CN110968573B (zh) 2023-03-21

Family

ID=70028122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811152445.6A Active CN110968573B (zh) 2018-09-29 2018-09-29 用户画像数据清洗方法及装置

Country Status (1)

Country Link
CN (1) CN110968573B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101378596A (zh) * 2008-09-19 2009-03-04 华为技术有限公司 单用户跟踪方法、***和设备
CN103533530A (zh) * 2013-09-26 2014-01-22 林毅 一种跨设备的用户对应及用户追踪方法、***
CN104090886A (zh) * 2013-12-09 2014-10-08 深圳市腾讯计算机***有限公司 构建用户实时画像的方法及装置
CN104917605A (zh) * 2014-03-14 2015-09-16 华为技术有限公司 一种终端设备切换时密钥协商的方法和设备
CN107515915A (zh) * 2017-08-18 2017-12-26 晶赞广告(上海)有限公司 基于用户行为数据的用户标识关联方法
US10034153B1 (en) * 2015-11-19 2018-07-24 Securus Technologies, Inc. Creation and use of mobile communications device identities

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101378596A (zh) * 2008-09-19 2009-03-04 华为技术有限公司 单用户跟踪方法、***和设备
CN103533530A (zh) * 2013-09-26 2014-01-22 林毅 一种跨设备的用户对应及用户追踪方法、***
CN104090886A (zh) * 2013-12-09 2014-10-08 深圳市腾讯计算机***有限公司 构建用户实时画像的方法及装置
CN104917605A (zh) * 2014-03-14 2015-09-16 华为技术有限公司 一种终端设备切换时密钥协商的方法和设备
US10034153B1 (en) * 2015-11-19 2018-07-24 Securus Technologies, Inc. Creation and use of mobile communications device identities
CN107515915A (zh) * 2017-08-18 2017-12-26 晶赞广告(上海)有限公司 基于用户行为数据的用户标识关联方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
mining permission patterns for contrasting clean and malicious android applicaitons;Moonsamy等;《future generation computer systems》;20140101;122-132 *
一种身份和位置分离网络的接入认证方法;刘会博;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315(第3期);I136-811 *

Also Published As

Publication number Publication date
CN110968573A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN109257764B (zh) 用户画像数据处理方法及装置
CN106326219B (zh) 核对业务***数据的方法、装置及***
CN110347888B (zh) 订单数据的处理方法、装置及存储介质
CN108733698B (zh) 一种日志消息的处理方法及后台服务***
CN106649363A (zh) 数据查询方法及装置
CN111177481B (zh) 用户标识映射方法及装置
CN112988780A (zh) 数据校核方法和装置、存储介质及电子设备
CN116188033A (zh) 一种产品溯源方法、装置、电子设备以及存储介质
CN116521945A (zh) 用于区块链加密货币交易溯源的资金关联图构建方法及控制***
CN110968573B (zh) 用户画像数据清洗方法及装置
CN110929173A (zh) 同人识别方法、装置、设备及介质
CN110968572B (zh) 用户画像数据清洗方法及装置
CN106326249B (zh) 数据整合处理方法及装置
CN109299084B (zh) 用户画像数据过滤方法及装置
CN112487251A (zh) 一种用户id数据关联方法及装置
CN112148724B (zh) 一种设备标识处理方法、***、计算机设备及可读存储介质
CN105893445A (zh) 数据处理的方法、服务器和终端设备
CN110427558B (zh) 资源处理事件的推送方法及装置
CN110874387A (zh) 移动设备识别符共现关系稀疏图的构建方法及装置
CN106649352B (zh) 数据处理方法及装置
CN113760864A (zh) 数据模型的生成方法和装置
CN106469086B (zh) 事件处理方法和装置
CN113064929A (zh) 区块链中交易数据的查询方法、装置、设备及存储介质
CN113225368A (zh) 一种区块链交易方法、装置、电子设备及存储介质
CN112256689A (zh) 业务数据清洗方法、装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant