CN113094412A - 一种身份识别方法、装置、电子设备以及存储介质 - Google Patents

一种身份识别方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN113094412A
CN113094412A CN202110466053.2A CN202110466053A CN113094412A CN 113094412 A CN113094412 A CN 113094412A CN 202110466053 A CN202110466053 A CN 202110466053A CN 113094412 A CN113094412 A CN 113094412A
Authority
CN
China
Prior art keywords
user
users
user data
unknown
identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110466053.2A
Other languages
English (en)
Other versions
CN113094412B (zh
Inventor
黄章烽
刘权芳
江敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dtwave Technology Co ltd
Original Assignee
Hangzhou Dtwave Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dtwave Technology Co ltd filed Critical Hangzhou Dtwave Technology Co ltd
Priority to CN202110466053.2A priority Critical patent/CN113094412B/zh
Publication of CN113094412A publication Critical patent/CN113094412A/zh
Application granted granted Critical
Publication of CN113094412B publication Critical patent/CN113094412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种身份识别方法、装置、电子设备以及存储介质。该方法获取用户的多源数据并基于用户标识码将用户的多源数据进行汇总,得到每个用户的丰富多维的用户数据。然后基于所得到的用户数据的数据特征,使用多种识别模型来识别未知用户,并综合识别结果来确定未知用户的身份。可以提高识别的召回率和泛化能力。

Description

一种身份识别方法、装置、电子设备以及存储介质
技术领域
本申请涉及计算机技术,特别地涉及一种身份识别方法、装置、电子设备以及存储介质。
背景技术
在人群统计分析等场景中,需要通过分析一个区域内所有人员的相关数据,识别出特定身份的群体并做统计分析。
以特定身份是外卖员为例,现有技术针对外卖员的识别主要是利用传统机器学习或深度学习等模型识别出外卖员。这种方式的数据来源和识别模型都较为单一,识别结果不够理想。
发明内容
依据本申请的第一方面,提供了一种身份识别方法,包括:
从不同数据源获取用户和对应的用户数据,所述用户包括属于指定身份的已知用户和身份未知的未知用户,其中所述用户数据包括用户标识码;
针对所获取的用户中的任一用户,利用所述用户的用户标识码汇总所述用户的来自不同数据源的用户数据;以及
在汇总后的用户数据中,基于所述已知用户的用户数据的特征,识别出所述未知用户中的属于所述指定身份的用户。
依据本申请的第二方面,提供了一种身份识别装置,包括:
数据获取模块,用于从不同数据源获取用户和对应的用户数据,所述用户包括属于指定身份的已知用户和身份未知的未知用户,其中所述用户数据包括用户标识码;
数据汇总模块,用于针对所获取的用户中的任一用户,利用所述用户的用户标识码汇总所述用户的来自不同数据源的用户数据;以及
用户识别模块,用于在汇总后的用户数据中,基于所述已知用户的用户数据的特征,识别出所述未知用户中的属于所述指定身份的用户。
依据本申请的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法。
依据本申请的第四方面,提供一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令被计算机执行时能够执行如第一方面所述的方法。
本申请公开了一种身份识别方法、装置、电子设备以及存储介质。该方法获取用户的多源数据并基于用户标识码将用户的多源数据进行汇总,得到丰富多维的用户数据。然后基于所得到的用户数据的数据特征,使用多种识别模型来识别未知用户,并综合识别结果来确定未知用户的身份。可以提高识别的召回率和泛化能力。
附图说明
图1是本申请一示例性实施例示出的身份识别方法一种流程图;
图2是本申请一示例性实施例示出的数据汇总方法的一种流程图;
图3是本申请一示例性实施例示出的身份识别方法一种示意图;
图4是本申请一示例性实施例示出的身份识别装置一种示意图;
具体实施方式
现在将参照若干示例性实施例来论述本申请的内容。应当理解,论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本申请的内容,而不是暗示对本申请的范围的任何限制。
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。如本文中所使用的,术语“任务”可以指任何一种可执行单元,包括但不限于进程、线程、模块或其集合。
本申请的实施例提供了一种身份识别方法。参见图1,是根据一示例性实施例示出了一种数据质量监控方法的示意图,包括以下步骤S101~步骤S103。
步骤S101,从不同数据源获取用户和对应的用户数据,所述用户包括属于指定身份的已知用户和身份未知的未知用户,其中所述用户数据包括用户标识码;
采集用户的来自不同数据源的用户数据,该不同数据源的用户数据可以包括用户的通话、短信、轨迹、开户、常口、社交、搜索、即时通讯等数据。
以该指定身份是外卖员为例,属于指定身份的已知用户是已经被标注为外卖员身份的用户,身份未知的未知用户是待识别身份的用户。
步骤S102,针对所获取的用户中的任一用户,利用所述用户的用户标识码汇总所述用户的来自不同数据源的用户数据;
在一些实施例中,用户标识码可以是用户数据中的手机号/IMEI/IMSI/证件号/MAC等。
汇总所述用户的来自不同数据源的用户数据的具体步骤可以参见图2。首先,利用标识码将来自不同数据源的用户数据进行关联,得到关联数据。检查关联数据中是否有同一用户存在一卡多机、一机多卡、一卡多证的情况,若有,对这一用户进行数据扩展。检查关联数据是否有IMEI或MAC不正常的情况,若有,则对该不正常的IMEI或MAC进行数据矫正。
其中,如果两组用户数据中有指定数量的标识码相同,则可将这两组用户数据视为同一用户的用户数据,并汇总到同一用户下。
由于部分人的可能会有多张手机卡、多台使用设备以及多个证件号码等情况,需要利用标识码对用户数据进行多次迭代关联和扩展,才能得到与某个用户相关的所有数据。在一些实施例中,在进行数据扩展时,依据用户数据中的标识码中的一个或多个,判定用户是否具有一卡多机、一机多卡、一卡多证的情况,若有,则将用户的用户数据扩展至其标识码所对应的所有用户数据。
具体而言,对于一个用户来说,若存在另一用户所对应的另一用户数据与所述用户所对应的用户数据包含相同的IMSI和不同的IMEI,则判定所述用户和所述另一用户属于同一用户的一卡多机,将所述另一用户数据汇总到所述用户对应的用户数据中。
若存在另一用户所对应的另一用户数据与所述用户所对应的用户数据包含相同的IMEI和不同的IMSI,则判定所述用户和所述另一用户属于同一用户的一机多卡,将所述另一用户数据汇总到所述用户对应的用户数据中。
若存在另一用户所对应的另一用户数据与所述用户所对应的用户数据包含相同的IMSI和不同的证件号,则判定所述用户和所述另一用户属于同一用户的一卡多证,将所述另一用户数据汇总到所述用户对应的用户数据中。
以一机多卡情况进行举例说明:一用户持有一部手机设备,两张手机卡。来自数据源1的一组用户数据包括用户的通话数据,其中一张手机卡对应的第一IMSI和该手机设备对应的IMEI。来自数据源2的另一组用户数据包括用户的轨迹数据,另一张手机卡对应的第二IMSI和该手机设备对应的IMEI。这两组用户数据包含了相同的IMEI和不同的IMSI,说明这两组用户数据属于同一个用户,这个用户存在一机多卡情况。对该用户的用户数据进行数据扩展,将上述IMEI、第一IMEI、第二IMSI、通话数据和轨迹数据都置入这个用户的用户数据中。
由于山寨机等设备存在IMEI重复的情况,还需要对扩展后的用户数据进行数据矫正。具体而言,可以预设若干种IMEI或MAC的异常情况以及对应的矫正方式,在扩展后的用户数据中的IMEI或MAC符合预设的异常情况时,对应进行数据矫正。例如,同一IMEI能够关联上百手机号,则对应的数据矫正的方式是删除这类IMEI数据以避免引入噪声数据。或者有些IMEI的值存在异常(例如全为0),则对应的数据矫正方式是关联用户的其他标识码,基于其他标识码对应的用户数据中的IMEI来矫正该异常的IMEI值。在一些实施例中,可判断不同用户对应的用户数据是否包含相同的IMEI或MAC,若是,则对所述不同用户对应的用户数据进行数据矫正。
步骤S103,在汇总后的用户数据中,基于所述已知用户的用户数据的特征,识别出所述未知用户中的属于所述指定身份的用户。
已知用户的用户数据和未知用户的用户数据都具有一定的用户数据的特征,本步骤中基于已知用户的用户数据的特征,找出具有类似用户数据的特征的未知用户。
在一些实施例中,可以先对汇总后的用户数据进行数据清洗和数据预处理,然后构建用户数据的用户数据的特征,最后找出与已知用户具有类似用户数据的特征的未知用户。
数据清洗可以包括删除错误数据、去除重复数据、提取企业号码数据等操作。在一些实施例中,需要删除的错误数据包括用户个体相邻时间段内位移速度过大的数据、用户个体所在经纬度为(0,0)的数据、用户数据中的重要字段值为空的数据以及MAC地址为IPhone伪MAC地址的数据等。
数据预处理可以包括对用户数据进行的描述性统计分析(分析各个字段的最小值、最大值、均值、方差、标准差、众数、中位数、偏度等)。在描述性统计分析后,依据分析结果对超出正常统计范围的数据做矫正。同时,可以将用户数据中的经纬度转换为Geohash值方便后续的特征加工。
构建用户数据中的用户数据的特征时可以利用数据分析、挖掘等技术,从用户数据中提取出每个用户的多维度的特征及用户之间的关联关系。
具体而言,可以根据各类身份的用户(例如快递员、外卖员等)的业务特点,构造用户画像以及特征库。特征库中可以包括类别特征、连续特征、二值特征、时间特征以及嵌入特征。
类别特征可以是针对例如用户的归属、运营商、性别、证件类型、文化程度等字段做的类别编码。
连续特征可以包括用户联系过的号码数量、对端归属地数量、手机卡数量、设备数量、活动地区数量、每类(主叫、被叫、紧急)通话的次数与时长均值、总通话次数与时长均值、短信发送接收数量、不同短信内容类型统计等。
二值特征可以包括用户是否与外卖员联系过、是否停机、是否联系过境外号码等。
时间特征是将用户的通话、短信等数据以时间段为单位进行拆分后,所得到的用户的通话、短信等在各个时间段的特征。
嵌入特征可以是利用GNN模型训练用户的Geohash数据,生成每个Geohash的Embedding向量,最后将用户的Geohash的Embedding向量求和后的结果来表示成用户的一组特征。
在一些实施例中,识别所述未知用户中的属于所述指定身份的用户时,可以采用但不限于以下步骤(1-1)到步骤(1-2):
(1-1)根据所述已知用户的用户数据的特征,使用业务规则推导、模型预测和关系网络分析中的一种或多种方式识别出所述未知用户中的属于所述指定身份的用户;
(1-2)综合所述一种或多种方式所得到的识别结果以最终确定所述未知用户中的属于指定身份的用户。
本实施例中,获取用户的多源数据并基于用户标识码将用户的多源数据进行汇总、融合,得到丰富多维的用户数据。然后基于所得到的用户数据,融合多种识别模型的识别结果来识别未知用户的身份,可以提高识别的召回率和泛化能力。
参见图3,下面分别说明业务规则推导、模型预测和关系网络分析这三种识别模型的识别过程。
业务规则推导:获取基于已知用户的用户数据的特征提取出的指定身份的一条或多条识别条件,将所述未知用户中符合一条或多条识别条件的用户识别为指定身份的用户。
以指定身份是外卖员为例,首先分析外卖员的用户数据,根据外卖员的用户数据的特点加工出外卖员的业务规则。利用该业务规则作为识别条件,推导出未知用户中的外卖员。其中外卖员的业务规则举例如下:
1.日均通话量高于预定阈值。且每次通话时长短于预定阈值;
2.通话的对端号码经去重后,数量高于预定阈值;
3.短信内容中出现“外卖”字样;
4.活动轨迹固定在单一地区。即一天当中7位Geohash值不同的较多、4位Geohash值不同的少。
模型预测:使用已知用户的用户数据的特征构造训练样本,以训练身份识别模型。使用所述身份识别模型预测所述未知用户,以在所述未知用户中识别出属于所述指定身份的用户。
仍以外卖员为例,使用机器学习的方式学习已知是外卖员的用户的用户数据的特征,然后利用所得到的身份识别模型预测未知用户的身份。
身份识别模型可以是多分类模型。多分类模型例如可以是LightGBM。LightGBM通过leaf-wise算法来生长树,选取具有最大delta loss的叶节点来生长。当生长相同的叶子时,leaf-wise算法可以比level-wise算法减少更多的损失。
在模型的优化过程中,根据模型训练完的特征重要性的大小可以进一步优化模型效果。一方面适当地将重要性为0的特征删除;另一方面挖掘重要性高的特征,加工后再放入模型进行训练,如此反复迭代。
在超参调优上,可以使用Optuna自动调参框架进行参数调整,该框架的主要特性是:轻量级、平台无关,并行分布式优化,根据学习曲线预测剪枝。需要调优的参数可以包括:一棵树上的最大叶子数、树模型的最大深度、叶子节点中最少的数据量以及L1和L2。
关系网络分析:构造用户之间的关系网络,对所述关系网络进行分析以识别出所述未知用户中的属于所述指定身份的用户。
在一些实施例中,可以利用用户作为网络的节点、用户对应的用户数据的特征作为节点的属性、用户与用户之间直接的通联关系作为网络的边、通联的次数和时长作为网络的边的属性,构造出用户之间的关系网络。并以所述关系网络中的已知用户为原点,利用标签传播算法进行多次迭代,得到所述关系网络中的多个未知用户是所述指定身份的概率值,依据所述概率值确定未知用户中的指定身份的用户。
在一些实施例中,可以利用手机号作为网络的节点,代表一个个体。手机号对应的特征作为节点的属性。手机号与手机号直接的通联关系(通话/短信)作为网络的边。通联的次数和时长作为网络的边的属性。该网络中分布了已知的外卖员和其他人员以及未知的外卖员和其他人员。可以利用标签传播算法来找出网络中的各类人员。标签传播算法通过多次迭代后,网络中的每一个节点都有其可能的各类所属身份的概率值(例如节点1是外卖员的概率是0.3,是快递员的概率是0.2),取概率值最高的所属身份作为这个节点最终的识别结果,从而能够得到每个节点最终的识别结果。
综合以上业务规则推导、模型预测和关系网络分析的一种或多种识别结果,可以最终确定未知用户中的属于指定身份的用户。
相应于上述方法实施例,本申请实施例还提供一种身份识别装置,参见图4所示,所述装置可以包括:
数据获取模块,用于从不同数据源获取用户和对应的用户数据,所述用户包括属于指定身份的已知用户和身份未知的未知用户,其中所述用户数据包括用户标识码;
数据汇总模块,用于针对所获取的用户中的任一用户,利用所述用户的用户标识码汇总所述用户的来自不同数据源的用户数据;以及
用户识别模块,用于在汇总后的用户数据中,基于所述已知用户的用户数据的特征,识别出所述未知用户中的属于所述指定身份的用户。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例还提供一种电子设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述身份识别方法,所述方法包括:
从不同数据源获取用户和对应的用户数据,所述用户包括属于指定身份的已知用户和身份未知的未知用户,其中所述用户数据包括用户标识码;
针对所获取的用户中的任一用户,利用所述用户的用户标识码汇总所述用户的来自不同数据源的用户数据;以及
在汇总后的用户数据中,基于所述已知用户的用户数据的特征,识别出所述未知用户中的属于所述指定身份的用户。
本申请实施例还提供一种计算机可读介质,其上存储有计算机可读指令,所述指令被执行时可实施本申请各实施例的方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁存储设备存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
根据需要,本申请各实施例的***、方法和装置可以实现为纯粹的软件(例如用Java和SQL来编写的软件程序),也可以根据需要实现为纯粹的硬件(例如专用ASIC芯片或FPGA芯片),还可以实现为结合了软件和硬件的***(例如存储有固定代码的固件***或者带有通用存储器和处理器的***)。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
以上所述仅是本申请实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请实施例的保护范围。

Claims (24)

1.一种身份识别方法,包括:
从不同数据源获取用户和对应的用户数据,所述用户包括属于指定身份的已知用户和身份未知的未知用户,其中所述用户数据包括用户标识码;
针对所获取的用户中的任一用户,利用所述用户的用户标识码汇总所述用户的来自不同数据源的用户数据;以及
在汇总后的用户数据中,基于所述已知用户的用户数据的特征,识别出所述未知用户中的属于所述指定身份的用户。
2.根据权利要求1所述的方法,所述基于所述已知用户的用户数据的特征,识别出所述未知用户中的属于所述指定身份的用户的步骤,包括:
根据所述已知用户的用户数据的特征,使用业务规则推导、模型预测和关系网络分析中的一种或多种方式识别出所述未知用户中的属于所述指定身份的用户;
综合所述一种或多种方式所得到的识别结果以最终确定所述未知用户中的属于指定身份的用户。
3.根据权利要求2所述的方法,所述使用业务规则推导方式识别出未知用户中的属于所述指定身份的用户,包括:
获取基于所述已知用户的用户数据的特征提取出的,针对所述指定身份的识别条件,将所述未知用户中符合所述识别条件的用户识别为属于所述指定身份的用户。
4.根据权利要求3所述的方法,所述指定身份是外卖员,所述外卖员的识别条件包括以下一项或多项:
日均通话量高于预定阈值,且每次通话时长短于预定阈值;
通话的对端号码经去重后,数量高于预定阈值;
短信内容中出现“外卖”字样;
活动轨迹固定在单一地区。
5.根据权利要求2所述的方法,所述使用模型预测方式识别出所述未知用户中的属于所述指定身份的用户,包括:
使用已知用户的用户数据的特征构造训练样本,训练身份识别模型;
使用所述身份识别模型预测所述未知用户,以在所述未知用户中识别出属于所述指定身份的用户。
6.根据权利要求2所述的方法,所述使用关系网络分析方式识别出所述未知用户中的属于所述指定身份的用户,包括:
构造用户之间的关系网络,对所述关系网络进行分析以识别出所述未知用户中的属于所述指定身份的用户。
7.根据权利要求6所述的方法,所述用户之间的关系网络的构造方法,包括:
利用用户作为网络的节点、用户对应的用户数据的特征作为节点的属性、用户与用户之间直接的通联关系作为网络的边、通联的次数和时长作为网络的边的属性,构造出用户之间的关系网络。
8.根据权利要求7所述的方法,对所述关系网络进行分析以识别出指定身份的用户的步骤,包括:
以所述关系网络中的已知用户作为原点,利用标签传播算法进行多次迭代,分别得到所述关系网络中的多个未知用户属于所述指定身份的概率值,以确定所述多个未知用户中的属于所述指定身份的用户。
9.根据权利要求1所述的方法,所述用户标识码包括手机号、IMEI、IMSI、证件号和MAC中的一个或多个。
10.根据权利要求9所述的方法,所述利用所述用户的用户标识码汇总所述用户的来自不同数据源的用户数据的步骤,包括以下一项或多项:
若存在另一用户所对应的另一用户数据与所述用户所对应的用户数据包含相同的IMSI和不同的IMEI,则判定所述用户和所述另一用户属于同一用户的一卡多机,将所述另一用户数据汇总到所述用户对应的用户数据中;
若存在另一用户所对应的另一用户数据与所述用户所对应的用户数据包含相同的IMEI和不同的IMSI,则判定所述用户和所述另一用户属于同一用户的一机多卡,将所述另一用户数据汇总到所述用户对应的用户数据中;
若存在另一用户所对应的另一用户数据与所述用户所对应的用户数据包含相同的IMSI和不同的证件号,则判定所述用户和所述另一用户属于同一用户的一卡多证,将所述另一用户数据汇总到所述用户对应的用户数据中。
11.根据权利要求9所述的方法,所述利用所述用户的用户标识码汇总所述用户的来自不同数据源的用户数据的步骤,包括:
判断不同用户对应的用户数据是否包含相同的IMEI或MAC,若是,则对所述不同用户对应的用户数据进行数据矫正。
12.一种身份识别装置,包括:
数据获取模块,用于从不同数据源获取用户和对应的用户数据,所述用户包括属于指定身份的已知用户和身份未知的未知用户,其中所述用户数据包括用户标识码;
数据汇总模块,用于针对所获取的用户中的任一用户,利用所述用户的用户标识码汇总所述用户的来自不同数据源的用户数据;以及
用户识别模块,用于在汇总后的用户数据中,基于所述已知用户的用户数据的特征,识别出所述未知用户中的属于所述指定身份的用户。
13.根据权利要求12所述的装置,所述用户识别模块在基于所述已知用户的用户数据的特征,识别出所述未知用户中的属于所述指定身份的用户时,具体用于:
根据所述已知用户的用户数据的特征,使用业务规则推导、模型预测和关系网络分析中的一种或多种方式识别出所述未知用户中的属于所述指定身份的用户;
综合所述一种或多种方式所得到的识别结果以最终确定所述未知用户中的属于指定身份的用户。
14.根据权利要求13所述的装置,所述用户识别模块在使用业务规则推导方式识别出未知用户中的属于所述指定身份的用户时,具体用于:
获取基于所述已知用户的用户数据的特征提取出的,针对所述指定身份的识别条件,将所述未知用户中符合所述识别条件的用户识别为属于所述指定身份的用户。
15.根据权利要求14所述的装置,所述指定身份是外卖员,所述外卖员的识别条件包括以下一项或多项:
日均通话量高于预定阈值,且每次通话时长短于预定阈值;
通话的对端号码经去重后,数量高于预定阈值;
短信内容中出现“外卖”字样;
活动轨迹固定在单一地区。
16.根据权利要求13所述的装置,所述用户识别模块在使用模型预测方式识别出所述未知用户中的属于所述指定身份的用户时,具体用于:
使用已知用户的用户数据的特征构造训练样本,训练身份识别模型;
使用所述身份识别模型预测所述未知用户,以在所述未知用户中识别出属于所述指定身份的用户。
17.根据权利要求13所述的装置,所述用户识别模块在使用关系网络分析方式识别出所述未知用户中的属于所述指定身份的用户时,具体用于:
构造用户之间的关系网络,对所述关系网络进行分析以识别出所述未知用户中的属于所述指定身份的用户。
18.根据权利要求17所述的装置,所述用户识别模块在构造用户之间的关系网络时,具体用于:
利用用户作为网络的节点、用户对应的用户数据的特征作为节点的属性、用户与用户之间直接的通联关系作为网络的边、通联的次数和时长作为网络的边的属性,构造出用户之间的关系网络。
19.根据权利要求18所述的装置,所述用户识别模块在对所述关系网络进行分析以识别出指定身份的用户时,具体用于:
以所述关系网络中的已知用户为原点,利用标签传播算法进行多次迭代,分别得到所述关系网络中的多个未知用户属于所述指定身份的概率值,以确定所述多个未知用户中的属于所述指定身份的用户。
20.根据权利要求12所述的装置,所述用户标识码包括手机号、IMEI、IMSI、证件号和MAC中的一个或多个。
21.根据权利要求20所述的装置,所述数据汇总模块在利用所述用户的用户标识码汇总所述用户的来自不同数据源的用户数据时,具体用于执行以下一项或多项:
若存在另一用户所对应的另一用户数据与所述用户所对应的用户数据包含相同的IMSI和不同的IMEI,则判定所述用户和所述另一用户属于同一用户的一卡多机,将所述另一用户数据汇总到所述用户对应的用户数据中;
若存在另一用户所对应的另一用户数据与所述用户所对应的用户数据包含相同的IMEI和不同的IMSI,则判定所述用户和所述另一用户属于同一用户的一机多卡,将所述另一用户数据汇总到所述用户对应的用户数据中;
若存在另一用户所对应的另一用户数据与所述用户所对应的用户数据包含相同的IMSI和不同的证件号,则判定所述用户和所述另一用户属于同一用户的一卡多证,将所述另一用户数据汇总到所述用户对应的用户数据中。
22.根据权利要求20所述的装置,所述数据汇总模块在利用所述用户的用户标识码汇总所述用户的来自不同数据源的用户数据时,具体用于:
判断不同用户对应的用户数据是否包含相同的IMEI或MAC,若是,则对所述不同用户对应的用户数据进行数据矫正。
23.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法。
24.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令被计算机执行时能够执行如权利要求1-11中任一项所述的方法。
CN202110466053.2A 2021-04-28 2021-04-28 一种身份识别方法、装置、电子设备以及存储介质 Active CN113094412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110466053.2A CN113094412B (zh) 2021-04-28 2021-04-28 一种身份识别方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110466053.2A CN113094412B (zh) 2021-04-28 2021-04-28 一种身份识别方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN113094412A true CN113094412A (zh) 2021-07-09
CN113094412B CN113094412B (zh) 2022-12-23

Family

ID=76680584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110466053.2A Active CN113094412B (zh) 2021-04-28 2021-04-28 一种身份识别方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN113094412B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297323A (zh) * 2021-08-31 2022-04-08 北京九栖科技有限责任公司 一种一机多号识别方法、装置及其存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110047245A1 (en) * 2009-08-21 2011-02-24 Avaya Inc. Pushing identity information
CN109902747A (zh) * 2019-03-01 2019-06-18 成都农村商业银行股份有限公司 一种身份识别方法、装置、设备及计算机可读存储介质
CN110222790A (zh) * 2019-06-17 2019-09-10 南京中孚信息技术有限公司 用户身份识别方法、装置及服务器
CN110516422A (zh) * 2019-08-30 2019-11-29 北京字节跳动网络技术有限公司 用户身份的识别方法、装置、电子设备及存储介质
CN111221991A (zh) * 2019-11-06 2020-06-02 北京旷视科技有限公司 人员身份属性的确定方法、装置和电子设备
CN112380104A (zh) * 2020-11-19 2021-02-19 北京百度网讯科技有限公司 用户属性识别方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110047245A1 (en) * 2009-08-21 2011-02-24 Avaya Inc. Pushing identity information
CN109902747A (zh) * 2019-03-01 2019-06-18 成都农村商业银行股份有限公司 一种身份识别方法、装置、设备及计算机可读存储介质
CN110222790A (zh) * 2019-06-17 2019-09-10 南京中孚信息技术有限公司 用户身份识别方法、装置及服务器
CN110516422A (zh) * 2019-08-30 2019-11-29 北京字节跳动网络技术有限公司 用户身份的识别方法、装置、电子设备及存储介质
CN111221991A (zh) * 2019-11-06 2020-06-02 北京旷视科技有限公司 人员身份属性的确定方法、装置和电子设备
CN112380104A (zh) * 2020-11-19 2021-02-19 北京百度网讯科技有限公司 用户属性识别方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297323A (zh) * 2021-08-31 2022-04-08 北京九栖科技有限责任公司 一种一机多号识别方法、装置及其存储介质
CN114297323B (zh) * 2021-08-31 2023-05-09 北京九栖科技有限责任公司 一种一机多号识别方法、装置及其存储介质

Also Published As

Publication number Publication date
CN113094412B (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
CN106570014B (zh) 用于确定用户的家庭属性信息的方法与设备
CN107122369B (zh) 一种业务数据处理方法、装置和***
WO2017186090A1 (zh) 通信号码处理方法及装置
CN110033302B (zh) 恶意账户识别方法及装置
CN108768695B (zh) Kqi的问题定位方法及装置
CN110751042B (zh) 一种基于时间分区的人像与imsi信息关联方法及***
CN105045911B (zh) 一种用于用户进行标记的标签生成方法及设备
CN110727756A (zh) 时空轨迹数据的管理方法和装置
US11762879B2 (en) Information traceability method and system based on blockchain
CN111626754B (zh) 养卡用户识别方法及装置
CN113094412B (zh) 一种身份识别方法、装置、电子设备以及存储介质
CN113992340A (zh) 用户异常行为识别方法、装置、设备、存储介质和程序
CN112202663A (zh) 消息推送方法、装置、终端及介质
CN110933662B (zh) 一种基于数据挖掘的时空伴随关系分析方法和***
CN108076032B (zh) 一种异常行为用户识别方法及装置
CN110677269A (zh) 通信用户关系的确定方法、装置和计算机可读存储介质
CN110909263B (zh) 一种身份特征的伴随关系确定方法及装置
CN112199388A (zh) 陌电识别方法、装置、电子设备及存储介质
CN110765221A (zh) 时空轨迹数据的管理方法和装置
CN116303379A (zh) 一种数据处理方法、***及计算机储存介质
CN116016769A (zh) 一种欺诈团伙的识别方法、装置及可读存储介质
CN114239963A (zh) 有向图循环路径检测方法及装置
CN111860655B (zh) 用户的处理方法、装置和设备
CN112307075A (zh) 用户关系识别方法及装置
CN111242147A (zh) 一种亲密联系人和频繁活跃区域识别的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant