CN115379051A - 家庭用户的识别方法、装置及设备 - Google Patents
家庭用户的识别方法、装置及设备 Download PDFInfo
- Publication number
- CN115379051A CN115379051A CN202110536256.4A CN202110536256A CN115379051A CN 115379051 A CN115379051 A CN 115379051A CN 202110536256 A CN202110536256 A CN 202110536256A CN 115379051 A CN115379051 A CN 115379051A
- Authority
- CN
- China
- Prior art keywords
- user
- family
- users
- user group
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 68
- 230000002159 abnormal effect Effects 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42136—Administration or customisation of services
- H04M3/42153—Administration or customisation of services by subscriber
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2272—Subscriber line supervision circuits, e.g. call detection circuits
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种家庭用户的识别方法、装置及设备,所述方法包括获取用户群中每一用户的数据信息,根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组;根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,通过所述训练数据对家庭用户识别模型进行训练,得到训练后的家庭用户识别模型;根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组,实现了通过证件号码或账户号码来确定肯定属于同一家庭用户组的用户,再通过识别模型挖掘家庭用户组的数据特征,提高了家庭用户识别的准确率。
Description
技术领域
本发明实施例涉及移动通信技术领域,尤其涉及一种家庭用户的识别方法、装置及设备。
背景技术
随着信息技术和互联网的发展,个人客户市场和集团客户市场已经不能满足运营商对于业务的发展,家庭用户作为新兴的市场,成为了各大运营商业务收入中最为稳定的版块。
在一些技术中,在确定家庭用户组时仅仅基于现有的通话信息得到用户对,当检测到用户对的通话信息满足预设的规则时,则认为该组用户对为一组家庭用户。
然而,上述方法仅通过经验规则来判断一组用户对是否为一个家庭用户组,不能充分挖掘家庭用户的潜在行为习惯,无法准确识别家庭用户。
发明内容
本发明实施例提供一种家庭用户的识别方法、装置及设备,以提高识别家庭用户的准确性。
第一方面,本发明实施例提供一种家庭用户的识别方法,包括:
获取用户群中每一用户的数据信息,所述数据信息包括:用户注册信息和预设时间段内的通话信息;
根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组;
根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,通过所述训练数据对家庭用户识别模型进行训练,得到训练后的家庭用户识别模型;
根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组;其中,所述目标用户组包含不属于所述多个家庭用户组的用户。
可选的,根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组,包括:
比较用户群中任意两个用户的账户号码和/或证件号码是否相同,若相同,则将所述两个用户确定为一个家庭用户组,以得到多个家庭用户组;
根据所述多个家庭用户组生成多个非家庭用户组,其中,每一非家庭用户组包含从任意两个所述家庭用户组中各选择一个用户得到的用户组合。
可选的,根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,包括:
针对每一家庭用户组,将所述家庭用户组中两个用户的用户注册信息、预设时间段内的通话信息、亲密度系数以及是否使用同一融合产品确定为训练数据的第一输入数据;
针对每一非家庭用户组,将所述非家庭用户组中的两个用户的用户注册信息、预设时间段内的通话信息、亲密度系数以及是否使用同一融合产品确定为训练数据的第二输入数据;
将所述非家庭用户组的训练数据中的预设时间段内的通话信息不满足预设条件的训练数据剔除,其中,预设条件为通话次数或通话时长达到预设值。
可选的,根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组,包括:
将所述用户群中不属于所述多个家庭用户组的用户确定为目标用户,将任意两个目标用户确定为一个目标用户组,或者,将一个目标用户和家庭用户组中的一个用户确定为一个目标用户组,以得到多个目标用户组;
获取所述多个目标用户组的测试数据;
将所述多个目标用户组的测试数据输入训练后的家庭用户识别模型,得到所述目标用户组为家庭用户组的概率,当所述概率大于预设概率值时,则确定所述目标用户组为家庭用户组。
可选的,所述数据信息还包括:其他业务信息,根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合之前,还包括:
根据用户注册信息中的证件号码和其他业务信息筛选出所述用户群中的非正常用户和行业用户;
剔除所述用户群中的非正常用户和行业用户。
可选的,根据用户注册信息中的证件号码和其他业务信息筛选出所述用户群中的非正常用户和行业用户,包括:
针对每一证件号码,当所述证件号码对应的用户个数超过预设值时,则确定所述证件号码对应的用户为非正常用户;
当用户的其他业务信息包含行业信息时,则确定所述用户为行业用户。
第二方面,本发明实施例提供一种家庭用户的识别装置,包括:
获取模块,用于获取用户群中每一用户的数据信息,所述数据信息包括:用户注册信息和预设时间段内的通话信息;
生成模块,用于根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组;
模型确定模块,用于根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,通过所述训练数据对家庭用户识别模型进行训练,得到训练后的家庭用户识别模型;
识别模块,用于根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组;其中,所述目标用户组包含不属于所述多个家庭用户组的用户。
第三方面,本发明实施例提供一种家庭用户的识别设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的家庭用户的识别方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的家庭用户的识别方法。
第五方面,本发明实施例提供一种程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面任一项所述的家庭用户的识别方法。
本发明实施例提供的家庭用户的识别方法、装置及设备,该方法通过获取用户群中每一用户的数据信息,所述数据信息包括:用户注册信息和预设时间段内的通话信息;根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组;根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,通过所述训练数据对家庭用户识别模型进行训练,得到训练后的家庭用户识别模型;根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组;其中,所述目标用户组包含不属于所述多个家庭用户组的用户,实现了通过证件号码或账户号码来确定肯定属于同一家庭用户组的用户,再通过识别模型挖掘家庭用户组的数据特征,提高了家庭用户识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的家庭用户识别的应用场景示意图;
图2为本发明实施例提供的一种家庭用户识别方法的流程图;
图3为本发明实施例提供的家庭用户组和非家庭用户组的确定方法的流程示意图;
图4为本发明实施例提供的家庭用户组的训练数据和非家庭用户组的训练数据的确定方法的流程示意图;
图5为本发明实施例提供的确定目标用户组是否为家庭用户组的流程示意图;
图6为本发明实施例提供的家庭用户识别装置的结构示意图;
图7为本发明实施例提供的家庭用户识别设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为本发明实施例提供的家庭用户识别的应用场景示意图,如图1所示,当要识别用户群中的家庭用户时,先通过账户号码和或证件号码确定用户群中一定属于一个家庭用户组的人员,并组成家庭用户组,同时也可以得到非家庭用户组,使得用户群体可以分为家庭用户组的用户和其他用户,基于家庭用户组中用户的数据信息和非家庭用户组中用户的数据信息确定训练数据,得到家庭用户识别模型,最后利用家庭用户识别模型确定用户群中其他用户是否存在家庭用户。
在一些技术中,在家庭用户的识别中,通常是提取目标用户以及与目标用户进行通话的用户的通话数据,通过对每组用户对的通话数据进行检测,当满足预设的家庭通话规则时则确定该用户对为家庭用户,该方法中的家庭通话规则是人为确定的,主观性较大,对于一个用户来说不仅与家人通话还会与客户或外卖人员和快递人员通话,若仅依据通话数据则这些人员也会被认为可以与目标人员组成家庭用户,准确性较低。
基于上述问题,本申请实施例提供的家庭用户识别方法,基于家庭用户之间通常都会使用相同的账户号码或证件号码的特点,将用户群中的肯定属于家庭用户的人员筛选出来得到家庭用户组,同时也可以得到非家庭用户组,然后利用这些家庭用户组和非家庭用户组的数据信息作为训练数据去训练家庭用户识别模型,去深度发掘家庭用户组所具有的特征,再基于训练后的家庭用户识别模型去识别用户群中的其他用户是否为家庭用户,通过上述方法无需设置主观性较大的判断规则,具有较高的准确性。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本发明实施例提供的一种家庭用户识别的方法的流程示意图,本实施例的方法可以由家庭用户识别的装置执行,该装置可以以软件和/或硬件的形式设置在家庭用户识别的设备中。如图2所示,本实施例的方法,可以包括:
S201、获取用户群中每一用户的数据信息,所述数据信息包括:用户注册信息和预设时间段内的通话信息。
本实施例中,可以根据注册地址将属于同一地区的用户确定为用户群,还可以根据用户常驻地址将属于同一地区的用户确定为用户群。其中,需要注意的是,所述用户群还需要包括与用户群中每一用户存在通话关系但注册地址或常驻地址不属于同一地区的用户。
其中,用户注册信息包括用户的年龄、性别、手机号码、证件号码、关联的账户号码等信息。
通话信息包括预设时间段内的通话记录,包括通话时长、通话次数以及通话时的基站信息等。其中,预设时间段可以根据实际情况,将最近三个月或最近一个月确定为预设时间段。
其中,在获取数据信息时,需要获取用户群中每一用户的数据信息,以便基于所述数据信息确定用户群中的家庭用户。
S202、根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组。
其中,在获取用户群中每一用户的数据信息后,可以确定家庭用户组和非家庭用户组。具体的,可以根据用户注册信息中的证件号码和/或账户号码确定家庭用户组和非家庭用户组。
容易理解的,对于家庭用户组中的用户来说,通常都是各个用户的证件号码相同,或者,各个用户的账户号码相同,即多个用户产生的费用通过同一个账户号码来支付费用。因此,基于上述信息可以确定用户群中的家庭用户。
此外,对于一个家庭用户组中的用户与另一个家庭用户组中的用户必然不属于同一家庭用户。基于此,在确定家庭用户组后还可以进一步确定非家庭用户组。
此外,还可以根据历史采集的信息确定一部分家庭用户,如历史采集的信息可以为:用户预留的亲人手机号信息,工作人员上门提供维修服务时获取的用户手机号码等。
S203、根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,通过所述训练数据对家庭用户识别模型进行训练,得到训练后的家庭用户识别模型。
在本实施例中,在确定家庭用户组和非家庭用户组后,可以根据获取的数据信息,确定家庭用户识别模型的训练数据。其中,训练数据包括输入数据和输出数据,输入数据包括用户注册信息和预设时间段内的通话信息等,输出数据为设定的标签数据。
通过将家庭用户组的训练数据作为正样本,将非家庭用户组的训练数据作为负样本,将得到的正样本和负样本输入至家庭用户识别模型,得到训练后的家庭用户识别模型,其中,训练后的家庭用户识别模型能够识别任一用户组是否为家庭用户。
其中,所述家庭用户识别模型为机器学习中的监督学习方法,例如,可以采用GBDT(Gradient Boosting Decision Tree,梯度下降树)+LR(Logistic Regression,逻辑回归)融合方案,DeepFM(Deep Factorization Machines,深度因子分解机)、PNN(Product-basedNeural Network,概率神经网络)、AFM(Attentional Factorization Machines,注意因子分解机)等深度学习模型。上述深度学习模型可以很好的发掘用户组之间的数据特征关系。
S204、根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组;其中,所述目标用户组包含不属于所述多个家庭用户组的用户。
在本实施例中,在得到训练后的家庭用户识别模型后,可以将利用该模型去识别用户群中的目标用户组是否为家庭用户。其中,可以获取目标用户组中两个用户的数据信息,根据数据信息确定测试数据,根据将测试数据输入至训练后的家庭用户识别模型即可得到输出数据,根据输出数据可以确定所述目标用户组是否为家庭用户组。
本发明实施例提供的家庭用户的识别方法,通过获取用户群中每一用户的数据信息,所述数据信息包括:用户注册信息和预设时间段内的通话信息;根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组;根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,通过所述训练数据对家庭用户识别模型进行训练,得到训练后的家庭用户识别模型;根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组;其中,所述目标用户组包含不属于所述多个家庭用户组的用户,实现了通过证件号码或账户号码来确定肯定属于同一家庭用户组的用户,再通过识别模型挖掘家庭用户组的数据特征,提高了家庭用户识别的准确率。
图3为本发明实施例提供的家庭用户组和非家庭用户组的确定方法的流程示意图,如图3所示,对确定家庭用户组和非家庭用户组的过程进行详细说明。
可选的,根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组,包括:
S301、比较用户群中任意两个用户的账户号码和/或证件号码是否相同,若相同,则将所述两个用户确定为一个家庭用户组,以得到多个家庭用户组。
在本实施例中,在确定家庭用户组时,可以基于账户号码和/或证件号码来确定两个用户是否为一个家庭用户组,当两个用户的账户号码和/或证件号码相同时,表示所述两个用户为一个家庭用户组。其中,在确定家庭用户组后还可以为家庭用户组设置家庭唯一标识。
例如,对于用户群中任意的两个用户,若两个用户的账户号码相同,或者,证件号码相同时,则表示所述两个用户为一个家庭用户组。例如,若用户的数据格式为(用户编码,账户号码,证件号码)的格式,用户群中的四个用户的数据为(A1,B1,C1),(A2,B1,C2),(A3,B2,C1),(A4,B3,C3),则用户A1和用户A2具有相同的账户号码,用户A1与用户A2可以组成一个家庭用户组;用户A1和A3具有相同的证件号码,因此用户A1与用户A3可以组成一个家庭用户组。以及,由于用户A2与用户A3与A1均可以组成家庭用户组,则A1、A2、A3可以组成家庭用户组。其中用户A4不属于组成的家庭用户组,因此用户A4为其他用户,可以通过训练后的家庭用户识别模型确定用户A4是否属于某一家庭用户组。
其中,在确定家庭用户组后,若用户人数不为2,则可以将一个家庭用户组中的用户两两组合,得到多个家庭用户组,每个家庭用户组包含两个用户,便于后续确定家庭用户组的训练数据。例如,根据初步得到的由A1、A2、A3组成的家庭用户组可以得到3个家庭用户组,每个家庭用户组分别包括:用户A1和用户A2;用户A1和用户A3;用户A2和用户A3。
S302、根据所述多个家庭用户组生成多个非家庭用户组,其中,每一非家庭用户组包含从任意两个所述家庭用户组中各选择一个用户得到的用户组合。
在本实施例中,在得到家庭用户组后,还可以基于家庭用户组得到非家庭用户组,将属于不同家庭用户组的用户进行组合,则得到的组合肯定不会属于另一个家庭用户组,则其必然属于非家庭用户组。因此,对于包含两个用户的家庭用户组来说,仅需要通过在不同家庭用户组中挑选两个用户,就可以组合为非家庭用户组。
其中需要说明的是,任意两个家庭用户组中不存在相同的用户时,才可以各挑选一个用户,得到的用户组合为非家庭用户组。
上述方法基于相同的账户号码或证件号码可以准确的确定家庭用户组,进一步还可以准确确定非家庭用户组。
图4为本发明实施例提供的家庭用户组的训练数据和非家庭用户组的训练数据的确定方法的流程示意图。
根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,包括:
S401、针对每一家庭用户组,将所述家庭用户组中两个用户的用户注册信息、预设时间段内的通话信息、亲密度系数以及是否使用同一融合产品确定为训练数据的第一输入数据。
在本实施例中,基于上述确定家庭用户组和非家庭用户组的方法可知,每一个家庭用户组或非家庭用户组中均包括两个用户,分别称为本端用户和对端用户。
在构建训练数据时,需要确定正样本数据和负样本数据,其中,基于所述家庭用户组中的用户确定的训练数据为正样本数据,也就是第一输入数据。其中,第一输入数据包括本端用户与对端用户的相关信息,如手机号码,性别、年龄,在网时长等,还包括预设时间段内的通话信息,如三个月内的通话次数与通话时长,以及通话时所使用的基站,本端号码在预设时间内处于预设区域内的总通话次数与总通话时长,对端号码在预设时间内预设区域内的总通话次数与通话时长,本端号码与对端号码在预设时间段内的凌晨通话次数与通话时长,本端号码与对端号码常驻地的距离,本端号码是否夜间访问网络,对端号码是否夜间访问网络,本端号码与对端号码是否使用同一融合产品,如是否共享流量套餐或通话套餐;本端号码与对端号码的亲密度系数,其中,亲密度系数是基于通话信息,缴费信息等确定的。
此外,还需要确定第一输出数据,第一输出数据为标签数据,对于正样本数据设置标签数据为1。充分获取本端数据与对端数据的各维度的数据,可以深度挖掘家庭用户的数据特征。
S402、针对每一非家庭用户组,将所述非家庭用户组中的两个用户的用户注册信息、预设时间段内的通话信息、亲密度系数以及是否使用同一融合产品确定为训练数据的第二输入数据。
在本实施例中,还需要确定负样本数据,其中,基于所述非家庭用户组中的用户确定的训练数据为负样本数据,也就是第二输入数据。其中,第二输入数据包括本端用户与对端用户的相关信息。其中,第二输入数据包含的数据信息的类别与第一输入数据包含的数据信息的类别相同。第二输出数据为标签数据,对于负样本数据设置标签数据为0。
例如,家庭用户组包括四个,分别为用户A1和用户A2;用户A1和用户A3;用户A2和用户A3;用户B1和用户B2。非家庭用户组包括六个,分别为用户A1和用户B1;用户A1和用户B2;用户A2和用户B1;用户A2和用户B2;用户A3和用户B1;用户A3和用户B2。为了描述方便,忽略两个用户的其他相关信息,只给出本端手机号码、对端手机号码以及标签数据,生成训练数据的格式为(用户1号码,用户2号码,标签),具体为(A1,A2,1),(A1,A3,1),(A2,A3,1),(B1,B2,1),(A1,B1,0),(A1,B2,0),(A2,B1,0),(A2,B2,0),(A3,B1,0),(A3,B2,0)。
S403、将所述非家庭用户组的训练数据中的预设时间段内的通话信息不满足预设条件的训练数据剔除,其中,预设条件为通话次数或通话时长达到预设值。
在本实施例中,通过上述方法确定非家庭用户组时,当家庭用户组的数量远大于每一个家庭用户组中用户的数量时,则会造成负样本数量较大,正负样本数量相差较大的问题,产生数据不平衡,进而通过训练数据训练的家庭用户识别模型组则会产生预测效果差的问题,因此,需要解决正负样本数量相差较大的问题。
基于上述问题,在获取负样本数据后,判断所述负样本数据中本端号码与对端号码在预设时间段内的通话次数或通话时长,当通话次数或通话时长小于预设值的训练样本剔除,其中,调节预设值可以控制负样本的数量,当预设值的数量越大,剔除的负样本越多,从而解决正负样本数量相差较大的问题。
上述方法是在确定非家庭用户组之后,基于非家庭用户组的训练数据剔除部分训练数据,还可以是在确定非家庭用户组将满足一定条件的用户确定为非家庭用户组。例如,通过查询家庭用户组中每一个用户的通话记录,确定与该用户进行通话的用户,将所有与该用户不在同一家庭,并且在预设时间段内的通话次数或通话时长大于阈值的两个用户选出,组成非家庭用户组。
通过上述方法可以剔除通话次数较少或通话时长较短的用户所组成的非家庭用户组,提高家庭用户识别模型的预测准确度。
图5为本发明实施例提供的确定目标用户组是否为家庭用户组的流程示意图。
根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组,包括:
S501、将所述用户群中不属于所述多个家庭用户组的用户确定为目标用户,将任意两个目标用户确定为一个目标用户组,或者,将一个目标用户和家庭用户组中的一个用户确定为一个目标用户组,以得到多个目标用户组。
在本实施例中,在确定家庭用户识别模型后,可以采用训练后的家庭用户识别模型确定用户群体中的目标用户是否属于家庭用户组。具体的,可以先确定目标用户组,在确定目标用户组之前先确定目标用户,其中,目标用户为用户群中不属于家庭用户组的用户。在确定目标用户组时,可以将两个目标用户确定为一个目标用户组,或者,还可以将一个目标用户和一个家庭用户组中的一个用户确定为一个目标用户组。通过上述方法可以确定多个目标用户组。
S502、获取所述多个目标用户组的测试数据。
在本实施例中,在确定目标用户组后,还需要获取所述目标用户组的测试数据,其中,测试数据的确定方法与训练数据中输入数据的确定方法相同,即测试数据包含的数据信息的类别与第一输入数据包含的数据信息的类别相同,此处不再赘述。
S503、将所述多个目标用户组的测试数据输入训练后的家庭用户识别模型,得到所述目标用户组为家庭用户组的概率,当所述概率大于预设概率值时,则确定所述目标用户组为家庭用户组。
在确定目标用户组的测试数据后,还可以将测试数据输入至训练后的家庭用户识别模型,家庭用户识别模型可以对测试数据进行测试,并得到每一目标用户组为家庭用户组的概率。针对一个目标用户,获取包含该目标用户的所有目标用户组的概率值,确定所述概率值中数值最大的概率值,将所述数值最大的概率值与预设概率值比较,若大于所述预设概率值,则表示所述目标用户组为一个家庭用户组;若小于所述预设概率值,则表示所述目标用户为个人用户。
此外,在本实施例中,还可以剔除部分非正常用户和行业用户,以减少后续数据的运算量。
可选的,所述数据信息还包括:其他业务信息,根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合之前,还包括:
根据用户注册信息中的证件号码和其他业务信息筛选出所述用户群中的非正常用户和行业用户;剔除所述用户群中的非正常用户和行业用户。
其中,用户还包括很多非正常用户和行业用户,其中非正常用户可以基于同一证件号码申请多个手机号码,其多个手机号码的使用者均为该用户本人,而非不同用户,因此,需要剔除该部分用户。此外,行业用户是指用户所在单位为员工办理的手机号码,以方便员工之间的沟通,因此,该部分用户也不是家庭用户组,需要剔除该部分用户。
通过剔除非正常用户和行业用户可以减小处理的数据量,同时还可以提升识别的准确率。由于该部分用户不属于家庭用户,若将其当做家庭用户,并使用其数据训练家庭用户识别模型,则会造成训练后的家庭用户识别模型预测不准确的缺陷。
其中,根据用户注册信息中的证件号码和其他业务信息筛选出所述用户群中的非正常用户和行业用户,包括:
针对每一证件号码,当所述证件号码对应的用户个数超过预设值时,则确定所述证件号码对应的用户为非正常用户;当用户的其他业务信息包含行业信息时,则确定所述用户为行业用户。
在本实施例中,在确定非正常用户时,可以基于证件号码来确定,针对一个证件号码,确定其所对应的用户个数,若用户个数超过预设值则表示为非正常用户,如当一个证件号码对应的用户个数为5个时,则确定所述证件号码对应的用户为非正常用户。
其中,在确定行业用户时,可以基于其他业务信息来确定,其中当用户在注册手机号码时,若为行业用户,则会在其他业务信息中标注为行业用户。因此,通过查询其他业务信息中的行业信息即可确定用户是否为行业用户。
通过上述确定非正常用户和行业用户的方法可以方便且准确的确定非正常用户和行业用户。
图6为本发明实施例提供的家庭用户识别装置的结构示意图,如图6所示,所述装置60包括:
获取模块601,用于获取用户群中每一用户的数据信息,所述数据信息包括:用户注册信息和预设时间段内的通话信息;
生成模块602,用于根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组;
模型确定模块603,用于根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,通过所述训练数据对家庭用户识别模型进行训练,得到训练后的家庭用户识别模型;
识别模块604,用于根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组;其中,所述目标用户组包含不属于所述多个家庭用户组的用户。
可选的,所述生成模块602具体用于:
比较用户群中任意两个用户的账户号码和/或证件号码是否相同,若相同,则将所述两个用户确定为一个家庭用户组,以得到多个家庭用户组;
根据所述多个家庭用户组生成多个非家庭用户组,其中,每一非家庭用户组包含从任意两个所述家庭用户组中各选择一个用户得到的用户组合。
可选的,所述模型确定模块603在根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据时,具体用于:
针对每一家庭用户组,将所述家庭用户组中两个用户的用户注册信息、预设时间段内的通话信息、亲密度系数以及是否使用同一融合产品确定为训练数据的第一输入数据;
针对每一非家庭用户组,将所述非家庭用户组中的两个用户的用户注册信息、预设时间段内的通话信息、亲密度系数以及是否使用同一融合产品确定为训练数据的第二输入数据;
将所述非家庭用户组的训练数据中的预设时间段内的通话信息不满足预设条件的训练数据剔除,其中,预设条件为通话次数或通话时长达到预设值。
可选的,所述识别模块604具体用于:
将所述用户群中不属于所述多个家庭用户组的用户确定为目标用户,将任意两个目标用户确定为一个目标用户组,或者,将一个目标用户和家庭用户组中的一个用户确定为一个目标用户组,以得到多个目标用户组;
获取所述多个目标用户组的测试数据;
将所述多个目标用户组的测试数据输入训练后的家庭用户识别模型,得到所述目标用户组为家庭用户组的概率,当所述概率大于预设概率值时,则确定所述目标用户组为家庭用户组。
可选的,所述装置还包括筛选模块,所述筛选模块用于:
根据用户注册信息中的证件号码和其他业务信息筛选出所述用户群中的非正常用户和行业用户;
剔除所述用户群中的非正常用户和行业用户。
可选的,所述筛选模块在根据用户注册信息中的证件号码和其他业务信息筛选出所述用户群中的非正常用户和行业用户时,具体用于:
针对每一证件号码,当所述证件号码对应的用户个数超过预设值时,则确定所述证件号码对应的用户为非正常用户;
当用户的其他业务信息包含行业信息时,则确定所述用户为行业用户。
本发明实施例提供的家庭用户的识别装置,可以实现上述如图2、图3、图4和图5所示的实施例的家庭用户的识别方法,其实现原理和技术效果类似,此处不再赘述。
图7为本发明实施例提供的家庭用户识别设备的硬件结构示意图。如图7所示,本实施例提供的家庭用户识别设备70包括:至少一个处理器701和存储器702。其中,处理器701、存储器702通过总线703连接。
在具体实现过程中,至少一个处理器701执行所述存储器702存储的计算机执行指令,使得至少一个处理器701执行上述方法实施例中的家庭用户的识别方法。
处理器701的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图7所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述方法实施例的家庭用户的识别方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种家庭用户的识别方法,其特征在于,包括:
获取用户群中每一用户的数据信息,所述数据信息包括:用户注册信息和预设时间段内的通话信息;
根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组;
根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,通过所述训练数据对家庭用户识别模型进行训练,得到训练后的家庭用户识别模型;
根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组;其中,所述目标用户组包含不属于所述多个家庭用户组的用户。
2.根据权利要求1所述的方法,其特征在于,根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组,包括:
比较用户群中任意两个用户的账户号码和/或证件号码是否相同,若相同,则将所述两个用户确定为一个家庭用户组,以得到多个家庭用户组;
根据所述多个家庭用户组生成多个非家庭用户组,其中,每一非家庭用户组包含从任意两个所述家庭用户组中各选择一个用户得到的用户组合。
3.根据权利要求2所述的方法,其特征在于,根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,包括:
针对每一家庭用户组,将所述家庭用户组中两个用户的用户注册信息、预设时间段内的通话信息、亲密度系数以及是否使用同一融合产品确定为训练数据的第一输入数据;
针对每一非家庭用户组,将所述非家庭用户组中的两个用户的用户注册信息、预设时间段内的通话信息、亲密度系数以及是否使用同一融合产品确定为训练数据的第二输入数据;
将所述非家庭用户组的训练数据中的预设时间段内的通话信息不满足预设条件的训练数据剔除,其中,预设条件为通话次数或通话时长达到预设值。
4.根据权利要求2所述的方法,其特征在于,根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组,包括:
将所述用户群中不属于所述多个家庭用户组的用户确定为目标用户,将任意两个目标用户确定为一个目标用户组,或者,将一个目标用户和家庭用户组中的一个用户确定为一个目标用户组,以得到多个目标用户组;
获取所述多个目标用户组的测试数据;
将所述多个目标用户组的测试数据输入训练后的家庭用户识别模型,得到所述目标用户组为家庭用户组的概率,当所述概率大于预设概率值时,则确定所述目标用户组为家庭用户组。
5.根据权利要求1所述的方法,其特征在于,所述数据信息还包括:其他业务信息,根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合之前,还包括:
根据用户注册信息中的证件号码和其他业务信息筛选出所述用户群中的非正常用户和行业用户;
剔除所述用户群中的非正常用户和行业用户。
6.根据权利要求5所述的方法,其特征在于,根据用户注册信息中的证件号码和其他业务信息筛选出所述用户群中的非正常用户和行业用户,包括:
针对每一证件号码,当所述证件号码对应的用户个数超过预设值时,则确定所述证件号码对应的用户为非正常用户;
当用户的其他业务信息包含行业信息时,则确定所述用户为行业用户。
7.一种家庭用户的识别装置,其特征在于,包括:
获取模块,用于获取用户群中每一用户的数据信息,所述数据信息包括:用户注册信息和预设时间段内的通话信息;
生成模块,用于根据所述用户注册信息中的账户号码和/或证件号码将所述用户群中的多个用户进行组合,生成多个家庭用户组和多个非家庭用户组;
模型确定模块,用于根据用户注册信息和预设时间段内的通话信息生成所述多个家庭用户组和多个非家庭用户组的训练数据,通过所述训练数据对家庭用户识别模型进行训练,得到训练后的家庭用户识别模型;
识别模块,用于根据所述训练后的家庭用户识别模型识别所述用户群中的目标用户组是否为家庭用户组;其中,所述目标用户组包含不属于所述多个家庭用户组的用户。
8.一种家庭用户的识别设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的方法。
10.一种程序产品,其特征在于,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110536256.4A CN115379051A (zh) | 2021-05-17 | 2021-05-17 | 家庭用户的识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110536256.4A CN115379051A (zh) | 2021-05-17 | 2021-05-17 | 家庭用户的识别方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115379051A true CN115379051A (zh) | 2022-11-22 |
Family
ID=84058323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110536256.4A Pending CN115379051A (zh) | 2021-05-17 | 2021-05-17 | 家庭用户的识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115379051A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180336488A1 (en) * | 2017-05-17 | 2018-11-22 | Microsoft Technology Licensing, Llc | Machine Learning Based Family Relationship Inference |
CN109639478A (zh) * | 2018-12-07 | 2019-04-16 | ***通信集团江苏有限公司 | 识别存在家庭关系客户的方法、装置、设备及介质 |
CN109829485A (zh) * | 2019-01-08 | 2019-05-31 | 科大国创软件股份有限公司 | 一种基于移动通信数据的用户关系挖掘方法及*** |
CN110019996A (zh) * | 2017-12-11 | 2019-07-16 | ***通信集团广东有限公司 | 一种家庭关系识别方法和*** |
CN110337059A (zh) * | 2018-03-30 | 2019-10-15 | 中国联合网络通信集团有限公司 | 一种用户家庭关系的分析算法、服务器及网络*** |
CN110677446A (zh) * | 2018-07-03 | 2020-01-10 | 中移(杭州)信息技术有限公司 | 一种家庭群组用户的识别方法及装置 |
CN111275481A (zh) * | 2020-01-11 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 基于电子凭证的虚拟资源分配方法及装置、电子设备 |
CN111510368A (zh) * | 2019-01-31 | 2020-08-07 | ***通信有限公司研究院 | 家庭群组识别方法、装置、设备及计算机可读存储介质 |
CN111815375A (zh) * | 2020-09-04 | 2020-10-23 | 北京悠易网际科技发展有限公司 | 广告投放中的用户画像方法及装置 |
-
2021
- 2021-05-17 CN CN202110536256.4A patent/CN115379051A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180336488A1 (en) * | 2017-05-17 | 2018-11-22 | Microsoft Technology Licensing, Llc | Machine Learning Based Family Relationship Inference |
CN110019996A (zh) * | 2017-12-11 | 2019-07-16 | ***通信集团广东有限公司 | 一种家庭关系识别方法和*** |
CN110337059A (zh) * | 2018-03-30 | 2019-10-15 | 中国联合网络通信集团有限公司 | 一种用户家庭关系的分析算法、服务器及网络*** |
CN110677446A (zh) * | 2018-07-03 | 2020-01-10 | 中移(杭州)信息技术有限公司 | 一种家庭群组用户的识别方法及装置 |
CN109639478A (zh) * | 2018-12-07 | 2019-04-16 | ***通信集团江苏有限公司 | 识别存在家庭关系客户的方法、装置、设备及介质 |
CN109829485A (zh) * | 2019-01-08 | 2019-05-31 | 科大国创软件股份有限公司 | 一种基于移动通信数据的用户关系挖掘方法及*** |
CN111510368A (zh) * | 2019-01-31 | 2020-08-07 | ***通信有限公司研究院 | 家庭群组识别方法、装置、设备及计算机可读存储介质 |
CN111275481A (zh) * | 2020-01-11 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 基于电子凭证的虚拟资源分配方法及装置、电子设备 |
CN111815375A (zh) * | 2020-09-04 | 2020-10-23 | 北京悠易网际科技发展有限公司 | 广告投放中的用户画像方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063966B (zh) | 风险账户的识别方法和装置 | |
CN107248082B (zh) | 养卡识别方法及装置 | |
CN113383362B (zh) | 用户识别方法及相关产品 | |
CN109034583A (zh) | 异常交易识别方法、装置及电子设备 | |
CN112966865B (zh) | 携号转网预测方法、装置及设备 | |
CN111915156B (zh) | 基于用户价值的业务推送方法、电子设备及存储介质 | |
CN112927061B (zh) | 用户操作检测方法及程序产品 | |
CN110930218B (zh) | 一种识别欺诈客户的方法、装置及电子设备 | |
CN112651635A (zh) | 风险识别方法、装置、电子设备及存储介质 | |
CN111626754B (zh) | 养卡用户识别方法及装置 | |
CN111259207A (zh) | 短信的识别方法、装置及设备 | |
CN108076032B (zh) | 一种异常行为用户识别方法及装置 | |
CN107330709B (zh) | 确定目标对象的方法及装置 | |
CN111061948A (zh) | 一种用户标签推荐方法、装置、计算机设备及存储介质 | |
CN111104628A (zh) | 一种用户识别方法、装置、电子设备和存储介质 | |
CN113010785A (zh) | 用户推荐方法及设备 | |
CN110598090B (zh) | 兴趣标签的生成方法、装置、计算机设备和存储介质 | |
CN110070392B (zh) | 用户流失预警方法和装置 | |
CN115379051A (zh) | 家庭用户的识别方法、装置及设备 | |
CN114723554B (zh) | 异常账户识别方法及装置 | |
CN110880117A (zh) | 虚假业务识别方法、装置、设备和存储介质 | |
CN115130577A (zh) | 一种欺诈号码识别方法、装置及电子设备 | |
KR102296420B1 (ko) | 개인정보보호 정책서 분석 기반 개인정보 수집/활용자의 신뢰도 평가 방법 및 장치 | |
CN111105259B (zh) | 一种用户识别方法、装置、电子设备和存储介质 | |
CN108055661B (zh) | 基于通信网络的电话号码黑名单建立方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |