CN106570014A - 用于确定用户的家庭属性信息的方法与设备 - Google Patents

用于确定用户的家庭属性信息的方法与设备 Download PDF

Info

Publication number
CN106570014A
CN106570014A CN201510649771.8A CN201510649771A CN106570014A CN 106570014 A CN106570014 A CN 106570014A CN 201510649771 A CN201510649771 A CN 201510649771A CN 106570014 A CN106570014 A CN 106570014A
Authority
CN
China
Prior art keywords
information
user
equipment
family
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510649771.8A
Other languages
English (en)
Other versions
CN106570014B (zh
Inventor
吴保华
付登坡
甘云锋
黄耐寒
吕秀泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510649771.8A priority Critical patent/CN106570014B/zh
Publication of CN106570014A publication Critical patent/CN106570014A/zh
Application granted granted Critical
Publication of CN106570014B publication Critical patent/CN106570014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请的目的是提供一种用于确定用户的家庭属性信息的方法及设备。与现有技术相比,本申请通过获取样本数据,其中,样本数据包括样本用户与样本网络设备的关联信息,例如通信时间、通信频率、通信日期等,并对所述样本数据进行机器学习来确定对应的关联决策模型信息,并将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。其中,通过机器学习来确定对应的关联决策模型信息可以有效的提高用户家庭关联关系的识别率。

Description

用于确定用户的家庭属性信息的方法与设备
技术领域
本发明涉及计算机领域,尤其涉及一种用于确定用户的家庭属性信息的技术。
背景技术
随着家庭互联网技术的蓬勃发展,越来越多的业务以家庭为单位进行开展,所以识别出哪些用户来自同一家庭,对于解决家庭互联网精细数据化运营至关重要。
现有技术中,对于用户家庭识别方法主要通过电话座机与手机号的通信数据关系进行推断,这种方法存在着几个缺陷,例如,基于小样本数据建模容易过拟合,数据采集成本越来越高,无法把用户通信设备进行统一识别,不便于采用互联网行为特征进行扩展,家庭用户的覆盖率和识别率不高等。随着家庭互联网技术的发展,上述问题会越来越突出。
发明内容
本申请的目的是提供一种用于确定用户的家庭属性信息的方法与设备,以解决用户与对应网络设备所在的家庭是否具有家庭关联关系的问题。
根据本申请的一个方面,提供了一种用于确定用户的家庭属性信息的方法,其中,该方法包括:
获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;
通过对所述样本数据进行机器学习确定对应的关联决策模型信息;
将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。
根据本申请的另一方面,还提供了一种用于确定用户的家庭属性信息的设备,其中,该设备包括:
样本获取装置,用于获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;
模型确定装置,用于通过对所述样本数据进行机器学习确定对应的关联决策模型信息;
模型应用装置,用于将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。
与现有技术相比,本申请通过获取样本数据,其中,样本数据包括样本用户与样本网络设备的关联信息,例如通信时间、通信频率、通信日期等,并对所述样本数据进行机器学习来确定对应的关联决策模型信息,并将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。其中,通过机器学习来确定对应的关联决策模型信息可以有效的提高用户家庭关联关系的识别率。
而且,本申请还可以通过根据用户标识信息间的映射关系将同一个用户的不同用户标识信息所对应的通信记录信息归并为用一个用户的通信记录信息,并根据归并后的多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组。例如,通过将家庭用户所使用的通信设备进行统一映射,即把所述通信设备归一化为同一用户,有利于采用互联网的行为特征进行扩展。
此外,本申请还可以通过判断当两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,确定所述两个用户属于同一家庭,还可以根据目标家庭对应的目标网络设备确定所述目标家庭所包括的多个目标用户,并根据目标用户的画像信息确定所述目标家庭的家庭画像信息,从而可以根据所述家庭画像信息为所述目标家庭提供推荐信息,例如促销信息、广告信息等,有利于许多以家庭为单位的业务的开展。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种用于确定用户的家庭属性信息的方法流程图;
图2示出根据本申请一个优选实施例的一种用于确定用户的家庭属性信息的方法流程图;
图3示出根据本申请另一个方面的一种用于确定用户的家庭属性信息的设备示意图;
图4示出根据本申请一个优选实施例的用于确定用户的家庭属性信息的设备示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为更进一步阐述本申请所采取的技术手段及取得的效果,下面结合附图及较佳实施例,对本申请的技术方案,进行清楚和完整的描述。
参图1所示,展示了根据本申请的一个方面提供的一种用于确定用户的家庭属性信息的方法,其中,该方法包括:
S1获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;
S2通过对所述样本数据进行机器学习确定对应的关联决策模型信息;
S3将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。
在该实施例中,在所述步骤S1中,获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;具体地,其中的网络设备可以为使用户接入因特网的设备,例如,可包括路由器、建立无线接入点的设备等,那么样本网络设备便为其中用来作为样本的网络设备,以获得下述的关联决策模型;其中的样本用户与样本网络设备的关联信息包含样本用户与样本网络设备相关联的所有信息,也即样本用户接入样本网络设备的相关信息,例如样本用户接入样本网络设备的短时间内的时间分布(例如一天)、长时间内的时间分布(例如一个月)、频次等信息。
具体地,获取样本数据的方式可包括直接从本地设备获取已存在的样本数据,也可包括通过从采集的已确定关联关系的用户与网络设备的通信数据中提取样本数据等。
本领域的技术人员应当能够理解,上述步骤S1中获取样本数据的方式仅为举例,其他现有的或者今后可能出现的获取样本数据的方式如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用的方式包含于此。
继续在该实施例中,在所述步骤S2中,通过对所述样本数据进行机器学习确定对应的关联决策模型信息;具体地,其中的关联决策模型用于确定用户与网络设备是否具有关联关系,进一步地,所述关联决策模型可通过建立人工智能模型实现,例如,可以采用GBDT算法(gradient boosting decision tree),该算法是由多棵决策树组成,最终的分类结果是基于所有的结果累加起来的,例如,通过对样本数据运用GBDT算法不断进行机器学习训练,使输出的用户与网络设备的关联关系达到一定的准确率,从而确定对应的关联决策模型信息。
继续在该实施例中,在所述步骤S3中,将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。其中,所述使用记录信息包括用户与多个网络设备的通信信息等。所述家庭关联信息是指所述用户与所述网络设备对应的家庭是否具有关联关系。具体地,通过对所述使用记录信息进行提取,并将提取后的使用记录信息应用到步骤S2确定的关联决策模型信息,可以得到所述用户与所述网络设备对应的家庭是否具有关联关系,从而确定所述用户与所述网络设备对应的家庭的家庭关联信息。
优选地,其中,所述步骤S3包括:
S31(未示出)将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备的设备关联信息。
S32(未示出)当所述设备关联信息超过预定的关联阈值信息,确定所述用户与所述网络设备对应的家庭的家庭关联信息为关联。
具体地,在所述步骤S31中,所述用户与所述网络设备的设备关联信息可以用所述用户与所述网络设备的关联概率来表示。具体地,将用户关于网络设备的通信信息应用于所述关联决策模型信息,获得所述用户与与所述网络设备的关联概率,从而根据关联概率的大小确定所述用户与所述网络设备的设备关联信息,例如,所述用户为U、所述网络设备为路由器R,将用户U与路由器R的通信信息输入所述关联决策模型信息,获得用户U与路由器R的关联概率,通过关联概率的大小确定用户U与路由器R的是否关联。
具体地,在所述步骤S32中,所述关联阈值信息是所述的用户与所述网络设备的关联概率的阈值,该阈值是提前设定好的。具体地,通过将获得的所述用户与所述网络设备的关联概率与预定的关联概率阈值比较,当所述关联概率大于预定的关联概率阈值时,确定所述用户与所述网络设备对应的家庭的家庭关联信息为关联,例如,可以设定所述的用户与所述网络设备的关联概率的阈值为80%,当所述网络设备为路由器R、所述用户为U,若路由器R与用户U的关联概率大于80%时,确定用户U与路由器R所对应的家庭的家庭关联信息为关联。
优选地,该方法还包括:
S4当两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,确定所述两个用户属于同一家庭。
具体地,在所述步骤S4中,通过步骤S3分别获得所述两个用户与所述同一网络设备的关联概率,当所述两个用户与所述同一网络设备的关联概率都大于所述两个用户与同一网络设备的关联概率的阈值,即所述两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,确定所述两个用户属于同一家庭,例如,当所述网络设备为路由器R、关联概率的阈值为80%,用户U1和用户U2分别与路由器R的关联概率都大于80%时,确定用户U1和用户U2与路由器R所在的家庭关联,从而确定用户U1和用户U2属于同一个家庭。
优选地,该方法还包括:
S5(未示出)根据目标家庭对应的目标网络设备确定所述目标家庭所包括的多个目标用户,其中,所述目标用户与所述目标网络设备对应的家庭的家庭关联信息为关联。
具体地,在所述步骤S5中,每个目标家庭有多个目标用户,根据所述多个目标用户与所述目标网络设备对应的家庭的家庭关联信息为关联,从而确定所述目标家庭所包括的多个目标用户,例如,所述目标家庭对应的目标网络设备为路由器R,用户U1、U2、U3、U4与路由器R的关联概率都大于步骤S32所述的关联阈值信息,确定用户U1、U2、U3、U4与路由器R所在的家庭关联,从而确定用户U1、U2、U3、U4为所述目标家庭包括的多个目标用户。
更优选地,该方法还包括:
S6(未示出)根据所述目标用户的用户画像信息确定所述目标家庭的家庭画像信息;
S7(未示出)根据所述家庭画像信息为所述目标家庭提供推荐信息。
具体地,在步骤S6中,根据所述目标用户的用户画像信息确定所述目标家庭的家庭画像信息;其中的用户画像信息代表用户特征的各种信息集合,包括但不限于用户的性别、年龄、职业、教育背景、技能、爱好等等。其中的家庭画像信息代表家庭特征的各种信息集合,包括但不限于家庭背景、家庭爱好、家庭收入、家庭生活态度等等。根据所述目标用户的用户画像信息确定所述目标家庭的家庭画像信息的方式,可以通过分析所述目标用户的用户特征信息确定所述目标用户所在家庭的家庭特征信息。例如通过分析目标家庭用户喜爱运动,可以确定目标家庭的家庭爱好包括运动。
继续在该实施例中,在步骤S7中,根据所述家庭画像信息为所述目标家庭提供推荐信息;其中的推荐信息包括但不限于促销信息、广告信息、理财信息等等。根据所述家庭画像信息为所述目标家庭提供推荐信息的方式,可以根据家庭画像的若干家庭特征信息,例如,家庭爱好、家庭收入等,向所述目标家庭提供相匹配的推荐信息。具体地,例如所述目标家庭的家庭画像信息中的家庭爱好包括美食,那么可以向所述目标家庭推荐相匹配的美食信息。
优选地,所述样本数据包括正样本数据,其中,所述正样本数据包括样本用户与样本网络设备相关联的关联信息;
其中,参图2所示,所述步骤S1包括:
S11根据多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组;
S12基于预定规则从所述多个用户与通信设备关联组中筛选确定同一个用户对应的优选网络设备,并作为相关联的样本用户与样本网络设备记入所述正样本数据。
具体地,在步骤S11中,根据多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组;其中所述通信记录信息包括但不限于多个用户与不同网络设备的通信信息。具体地,根据多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组的方式,可以通过将多个用户与多个网络设备进行组合,例如,当网络设备为路由器,与用户U1和U2通信的路由器有R1、R2,那么可以建立如下关联组(U1_R1,x1,x2,x3...),(U1_R2,x1,x2,x3...),(U2_R1,x1,x2,x3...),(U2_R2,x1,x2,x3...),其中x1,x2,x3...表示用户与不同路由器的通信信息,其个数可以根据具体要求来设置。
具体地,在步骤S12中,基于预定规则从所述多个用户与通信设备关联组中筛选确定同一个用户对应的优选网络设备,并作为相关联的样本用户与样本网络设备记入所述正样本数据;其中,所述优选网络设备是与所述样本用户所在家庭最相关的网络设备。具体地,当网络设备为路由器,基于预定的规则从已建立的多个用户与路由器的关联组中确定同一个用户所在家庭最相关的路由器。例如,与用户U1和U2通信的路由器有R1、R2、R3,那么可以建立如下关联组(U1_R1,x1,x2,x3...),(U1_R2,x1,x2,x3...),(U1_R3,x1,x2,x3...)(U2_R1,x1,x2,x3...),(U2_R2,x1,x2,x3...),(U2_R3,x1,x2,x3...),基于预定的规则筛选出用户U1最相关的路由器为R1,用户U2最相关的路由器为R3,那么(U1_R1,x1,x2,x3...),(U2_R3,x1,x2,x3...)记入所述正样本数据。
更优选地,所述预定规则包括以下至少任一项:
所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于或等于预定的关联距离阈值信息;
所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息等于或大于预定的无关距离阈值信息;
所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息。
其中,筛选优选网络设备的规则可包括如下至少任一项:
(1)所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于或等于预定的关联距离阈值信息,其中,所述家庭位置信息确定的方式包括但不限于:根据支付关系数据确定,例如根据支付关系数据中的用户常用收货地址确定;根据位置关系数据确定,例如根据位置关系数据中的无线活动热点位置及无线活动时间等确定。其中,关联距离阈值信息是预先设定的关于优选网络设备的设备位置信息与所述同一个用户的家庭位置信息相关的信息的阈值。具体地,所述网络设备为路由器时,当路由器的位置信息与所述同一个用户的家庭位置信息间的距离信息小于或等于所述预先设定好的阈值时,确定该路由器为同一个用户所在家庭最相关的路由器,作为同一个用户对应的优选网络设备。例如,关联距离阈值信息设置为0.2公里,路由器R与用户U的家庭位置信息间的距离小于或等于0.2公里时,确定路由器R为用户U的优选网络设备。
(2)所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息等于或大于预定的无关距离阈值信息,其中,无关距离信息是预先设定的关于网络设备的设备位置信息与所述同一个用户的家庭位置信息不相关的信息的阈值。具体地,所述网络设备为路由器时,当路由器的位置信息与所述同一个用户的家庭位置信息间的距离信息等于或大于所述预先设定好的阈值时,确定该路由器为同一个用户所在家庭的不相关的路由器。例如,设定无关距离阈值信息为3公里,路由器R1、R2与同一个用户U的家庭位置信息间的距离信息大于或等于3公里,确定路由器R1、R2为用户U所在家庭的非优选的网络设备。
(3)所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息。具体地,所述网络设备为路由器时,所述与同一个用户所在家庭最相关的路由器与所述同一个用户的家庭位置信息间的距离信息小于所述同一个用户所使用的其他路由器设备位置信息与所述家庭位置信息间的距离信息。例如用户U的优选网络设备为路由器R1,非优选的网络设备为路由器R2、R3,则路由器R1与用户U的家庭位置信息间的距离小于路由器R2和R3与用户U的家庭位置信息间的距离。
更优选地,所述样本数据还包括负样本数据,其中,所述负样本数据包括样本用户与样本网络设备无关联的关联信息;
参图2所示,其中,所述步骤S1还包括:
S13根据所述同一个用户与所使用的其他通信设备间的累计通信量信息优选所述同一个用户对应的无关网络设备,并作为无关联的样本用户与样本网络设备记入所述负样本数据。
本领域技术人员可以理解,在确定该用户与该优选网络设备对应的正样本数据后,该用户与除该优选网络设备外的其他通信设备均不相关联,因此,可根据该用户与其他各通信设备的累计通信量从该(等)其他通信设备中优选出若干以作为该用户对应的无关网络设备,进而构建负样本数据以供机器学习使用。具体地,在所述步骤S13中,在确定该用户与该优选网络设备对应的正样本数据后,在除该优选网络设备外的其他通信设备中根据该用户与各通信设备的累计通信量信息优选出若干个其他通信设备,例如与该用户的累计通信量信息超过预定通信天数或预定通信时长的若干其他通信设备,或者与该用户的累计通信量信息最多的前N个通信设备,以作为该用户对应的无关网络设备,即该用户与每一个无关网络设备无关联;然后,将该用户与优选出的每一个无关网络设备作为无关联的样本数据记入负样本数据。例如,当其他网络设备为路由器R、累计通信量信息为通信天数,且预设通信天数阈值为10,当用户U与路由器R的通信天数大于或等于10时,确定路由器R为用户U的无关网络设备,并作为无关联的样本用户与样本网络设备记入所述负样本数据。
更优选地,所述用户与通信设备关联组中通信设备的通信用户数小于或等于家庭用户数阈值。
本领域技术人员可以理解,在实际应用场景中,家庭中使用的通信设备通常仅供较少的用户使用,而家庭以外的通信设备,例如咖啡店或图书馆中的通信设备通常有大量用户在使用,因此,在该实施例中,还可以通过家庭用户数阈值来预先过滤掉明显不属于在家庭中使用的通信设备,即所述用户与通信设备关联组中通信设备的通信用户数小于或等于家庭用户数阈值。在此,所述家庭用户数阈值包括所述家庭用户数的平均值或该平均值的一定倍数。具体地,例如,假设家庭用户数阈值为5,当路由器R1、R2、R3分别与5、2、10个不同用户建立了关联组,那么删除路由器R3对应的关联组,仅保留路由器R1、R2对应的关联组。
更优选地,该方法还包括:
S15(未示出)根据所述用户与通信设备关联组中通信设备所在地域的家庭人口普查信息确定所述家庭用户数阈值。
具体地,在所述步骤S15中,所述用户与通信设备关联组中通信设备所在地域的平均家庭用户数是不同的,根据家庭人口普查信息可以确定该地域的平均家庭用户数,并将该地域的平均家庭用户数或该平均家庭用户数的某个倍数作为所述家庭用户数阈值。例如,根据上海地区的人口普查信息,平均家庭用户数为3,那么上海地区可以设置家庭用户数阈值为3、6、9或12。
更优选地,所述步骤S11包括:
S111(未示出)根据用户标识信息间的映射关系将同一个用户的不同用户标识信息所对应的通信记录信息归并为同一个用户的通信记录信息。
S112(未示出)根据归并后的多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组。
具体地,在步骤S111中,所述用户标识信息包括但不限于同一用户所用通信设备的mac地址、imei号、imsi号,用户所注册应用端id等。所述映射关系是通过UUIC服务实现的。具体地,通过UUIC服务提供的映射关系,将同一用户所用的不同通信设备的mac地址、imei号、imsi号,用户所注册应用端id等映射为所述同一个用户,从而将不同通信设备所对应的通信记录信息归并为同一个用户的通信记录信息。例如,用户U所使用的移动设备有手机P1、P2,其中P1、P2的imei号分别为imei1和imei2,将手机P1与路由器R的通信记录(imei1,R)和手机P2与路由器R的通信记录(imei2,R)通过UUIC服务映射为用户与路由器的通信记录(U,R)。
具体地,在步骤S112中,根据归并后的多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组,例如用户U1有移动设备imei1和imei2,其中,所述移动设备imei1与路由器R1和路由器R2有通信记录(imei1,R1)和(imei1,R2),所述移动设备imei2与路由器R1和路由器R2有通信记录(imei2,R1)和(imei2,R2),通过UUIC服务将(imei1,R1)和(imei2,R1)映射为(U,R1),将(imei1,R2)和(imei2,R2)映射为(U,R2)。
更优选地,参图2所示,所述步骤S1还包括:
S14提取所述样本数据中的样本特征信息;
其中,所述步骤S2包括:
通过对所述样本数据及其中的样本特征信息进行机器学习确定对应的关联决策模型信息。
具体地,在所述步骤S14中,提取所述样本数据中的样本特征信息;其中所述样本特征信息包括网络设备自身特征信息、用户自身特征信息、用户与网络设备通信特征信息。例如当网路设备为路由器,所述样本特征信息包括路由器自身特征信息、用户自身特征信息、用户与路由器通信特征信息。所述路由器自身特征信息包括但不限于:路由器平均每天的通信用户数、与路由器发生通信的用户的总用户数、路由器工作日与周末通信用户数比、路由器不同时间段通信用户数比等等。所述用户自身特征信息包括但不限于:用户自身在周末或工作日与所有路由器的通信天数、用户自身在同一天不同时段与所有路由器的通信次数等等。所述用户与路由器通信特征信息包括但不限于:用户与路由器的通信天数、用户与路由器通信的最近日期、用户与路由器在工作日或周末通信的天数、用户与路由器在一天中的不同时段的通信天数、用户与路由器在每个星期的通信天数等等
具体地,在所述步骤S2中,通过对所述样本数据及其中的样本特征信息进行机器学习确定对应的关联决策模型信息。具体地,将样本数据及其中的样本特征信息组成训练集(R_U,x1,x2,x3,x4.....,label),其中,R_U表示用户U与网络设备R的关联组;x1,x2,x3,x4.....表示样本特征信息,其个数根据具体要求设定;label可取1或0,当为正样本时取1,负样本时取0。通过对训练集(R_U,x1,x2,x3,x4.....,label)进行机器学习确定对应的关联决策模型信息。
更更优选地,所述步骤S3包括:
S31(未示出)根据所述样本特征信息从用户关于网络设备的使用记录信息中提取预测特征信息;
S32(未示出)将所述预测特征信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。
具体地,在步骤S31中,根据所述样本特征信息从用户关于网络设备的使用记录信息中提取预测特征信息;其中所述预测特征信息是由用户与通信设备的关联组及特征信息组成,预测特征信息可表示为(R_U,x1,x2,x3,x4.....,-1),其中R_U表示用户与网络设备关联组,x1,x2,x3,x4.....表示预测特征信息包含的内容,具体地,预测特征信息包含的具体内容与样本特征信息相同,其具体内容已在前述实施例中列出,此处不再赘述。
具体地,在步骤S32中,将所述预测特征信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。具体地,通过将多个预测特征信息(R_U,x1,x2,x3,x4.....,-1)输入所述关联决策模型信息,获得网络设备R与用户U的关联概率,从而获得所述用户与所述网络设备对应的家庭的家庭关联信息。
与现有技术相比,本申请通过获取样本数据,其中,样本数据包括样本用户与样本网络设备的关联信息,例如通信时间、通信频率、通信日期等,并对所述样本数据进行机器学习来确定对应的关联决策模型信息,并将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。其中,通过机器学习来确定对应的关联决策模型信息可以有效的提高用户家庭关联关系的识别率。
而且,本申请还可以通过根据用户标识信息间的映射关系将同一个用户的不同用户标识信息所对应的通信记录信息归并为用一个用户的通信记录信息,并根据归并后的多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组。例如,通过将家庭用户所使用的通信设备进行统一映射,即把所述通信设备归一化为同一用户,有利于采用互联网的行为特征进行扩展。
此外,本申请还可以通过判断当两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,确定所述两个用户属于同一家庭,还可以根据目标家庭对应的目标网络设备确定所述目标家庭所包括的多个目标用户,并根据目标用户的画像信息确定所述目标家庭的家庭画像信息,从而可以根据所述家庭画像信息为所述目标家庭提供推荐信息,例如促销信息、广告信息等,有利于许多以家庭为单位的业务的开展。
参图3所示,展示了根据本申请的另一个方面提供的一种用于确定用户的家庭属性信息的设备1,其中,该设备包括:
样本获取装置11,获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;
模型确定装置12,通过对所述样本数据进行机器学习确定对应的关联决策模型信息;
模型应用装置13,将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。
在该实施例中,样本获取装置11获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;具体地,其中的网络设备可以为使用户接入因特网的设备,例如,可包括路由器、建立无线接入点的设备等,那么样本网络设备便为其中用来作为样本的网络设备,以获得下述的关联决策模型;其中的样本用户与样本网络设备的关联信息包含样本用户与样本网络设备相关联的所有信息,也即样本用户接入样本网络设备的相关信息,例如样本用户接入样本网络设备的短时间内的时间分布(例如一天)、长时间内的时间分布(例如一个月)、频次等信息。
具体地,获取样本数据的方式可包括直接从本地设备获取已存在的样本数据,也可包括通过从采集的已确定关联关系的用户与网络设备的通信数据中提取样本数据等。
本领域的技术人员应当能够理解,上述样本获取装置11获取样本数据的方式仅为举例,其他现有的或者今后可能出现的获取样本数据的方式如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用的方式包含于此。
继续在该实施例中,模型确定装置12通过对所述样本数据进行机器学习确定对应的关联决策模型信息;具体地,其中的关联决策模型用于确定用户与网络设备是否具有关联关系,进一步地,所述关联决策模型可通过建立人工智能模型实现,例如,可以采用GBDT算法,该算法是由多棵决策树组成,最终的分类结果是基于所有的结果累加起来的,例如,通过对样本数据运用GBDT算法不断进行机器学习训练,使输出的用户与网络设备的关联关系达到一定的准确率,从而确定对应的关联决策模型信息。
继续在该实施例中,模型应用装置13将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。其中,所述使用记录信息包括用户与多个网络设备的通信信息等。所述家庭关联信息是指所述用户与所述网络设备对应的家庭是否具有关联关系。具体地,通过对所述使用记录信息进行提取,并将提取后的使用记录信息应用到模型确定装置12确定的关联决策模型信息,可以得到所述用户与所述网络设备对应的家庭是否具有关联关系,从而确定所述用户与所述网络设备对应的家庭的家庭关联信息。
优选地,所述模型应用装置13包括:
设备关联信息获取单元(未示出),将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备的设备关联信息;
家庭关联信息确定单元(未示出),当所述设备关联信息超过预定的关联阈值信息,确定所述用户与所述网络设备对应的家庭的家庭关联信息为关联。
具体地,设备关联信息获取单元将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备的设备关联信息,其中,所述用户与所述网络设备的设备关联信息可以用所述用户与所述网络设备的关联概率来表示。具体地,将用户关于网络设备的通信信息应用于所述关联决策模型信息,获得所述用户与与所述网络设备的关联概率,从而根据关联概率的大小确定所述用户与所述网络设备的设备关联信息。例如所述用户为U、所述网络设备为路由器R,将用户U与路由器R的通信信息输入所述关联决策模型信息,获得用户U与路由器R的关联概率,通过关联概率的大小确定用户U与路由器R的是否关联。
具体地,当所述设备关联信息超过预定的关联阈值信息,家庭关联信息确定单元确定所述用户与所述网络设备对应的家庭的家庭关联信息为关联,其中,所述关联阈值信息是所述的用户与所述网络设备的关联概率的阈值,该阈值是提前设定好的。具体地,通过将获得的所述用户与所述网络设备的关联概率与预定的关联概率阈值比较,当所述关联概率大于预定的关联概率阈值时,确定所述用户与所述网络设备对应的家庭的家庭关联信息为关联。例如可以设定所述的用户与所述网络设备的关联概率的阈值为80%,当所述网络设备为路由器R、所述用户为U,若路由器R与用户U的关联概率大于80%时,确定用户U与路由器R所对应的家庭的家庭关联信息为关联。
优选地,该设备还包括:
相同家庭确定装置(未示出),当两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,确定所述两个用户属于同一家庭。
在该实施例中,当两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,相同家庭确定装置确定所述两个用户属于同一家庭,具体地,通过模型应用装置13分别获得所述两个用户与所述同一网络设备的关联概率,当所述两个用户与所述同一网络设备的关联概率都大于所述两个用户与同一网络设备的关联概率的阈值,即所述两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,确定所述两个用户属于同一家庭。例如,当所述网络设备为路由器R、关联概率的阈值为80%,用户U1和用户U2分别与路由器R的关联概率都大于80%时,确定用户U1和用户U2与路由器R所在的家庭关联,从而确定用户U1和用户U2属于同一个家庭。
优选地,该设备还包括:
家庭用户确定装置(未示出),根据目标家庭对应的目标网络设备确定所述目标家庭所包括的多个目标用户,其中,所述目标用户与所述目标网络设备对应的家庭的家庭关联信息为关联。
在该实施例中,家庭用户确定装置根据目标家庭对应的目标网络设备确定所述目标家庭所包括的多个目标用户,其中,所述目标用户与所述目标网络设备对应的家庭的家庭关联信息为关联,其中,每个目标家庭有多个目标用户,根据所述多个目标用户与所述目标网络设备对应的家庭的家庭关联信息为关联,从而确定所述目标家庭所包括的多个目标用户。例如所述目标家庭对应的目标网络设备为路由器R,用户U1、U2、U3、U4与路由器R的关联概率都大于前述的关联阈值信息,确定用户U1、U2、U3、U4与路由器R所在的家庭关联,从而确定用户U1、U2、U3、U4为所述目标家庭包括的多个目标用户。
更优选地,该设备还包括:
家庭画像确定装置(未示出),根据所述目标用户的用户画像信息确定所述目标家庭的家庭画像信息;
推荐信息提供装置(未示出),根据所述家庭画像信息为所述目标家庭提供推荐信息。
具体地,家庭画像确定装置根据所述目标用户的用户画像信息确定所述目标家庭的家庭画像信息;其中,用户画像信息代表用户特征的各种信息集合,包括但不限于用户的性别、年龄、职业、教育背景、技能、爱好等等。其中的家庭画像信息代表家庭特征的各种信息集合,包括但不限于家庭背景、家庭爱好、家庭收入、家庭生活态度等等。根据所述目标用户的用户画像信息确定所述目标家庭的家庭画像信息的方式,可以通过分析所述目标用户的用户特征信息确定所述目标用户所在家庭的家庭特征信息。例如通过分析目标家庭用户喜爱运动,可以确定目标家庭的家庭爱好包括运动。
继续在该实施例中,推荐信息提供装置根据所述家庭画像信息为所述目标家庭提供推荐信息;其中,推荐信息包括但不限于促销信息、广告信息、理财信息等等。根据所述家庭画像信息为所述目标家庭提供推荐信息的方式,可以根据家庭画像的若干家庭特征信息,例如家庭爱好、家庭收入等,向所述目标家庭提供相匹配的推荐信息。具体地,例如所述目标家庭的家庭画像信息中的家庭爱好包括美食,那么可以向所述目标家庭推荐相匹配的美食信息。
参图4所示,优选地,所述样本数据包括正样本数据,其中,所述正样本数据包括样本用户与样本网络设备相关联的关联信息;
其中,所述样本获取装置11包括:
关联组建立单元111,根据多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组;
正样本获取单元112,基于预定规则从所述多个用户与通信设备关联组中筛选确定同一个用户对应的优选网络设备,并作为相关联的样本用户与样本网络设备记入所述正样本数据。
具体地,关联组建立单元111根据多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组;其中,所述通信记录信息包括但不限于多个用户与不同网络设备的通信信息。具体地,根据多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组的方式,可以通过将多个用户与多个网络设备进行组合,例如当网络设备为路由器,与用户U1和U2通信的路由器有R1、R2,那么可以建立如下关联组(U1_R1,x1,x2,x3...),(U1_R2,x1,x2,x3...),(U2_R1,x1,x2,x3...),(U2_R2,x1,x2,x3...),其中x1,x2,x3...表示用户与不同路由器的通信信息,其个数可以根据具体要求来设置。
具体地,正样本获取单元112基于预定规则从所述多个用户与通信设备关联组中筛选确定同一个用户对应的优选网络设备,并作为相关联的样本用户与样本网络设备记入所述正样本数据;其中,所述优选网络设备是与所述样本用户所在家庭最相关的网络设备。具体地,当网络设备为路由器,基于预定的规则从已建立的多个用户与路由器的关联组中确定同一个用户所在家庭最相关的路由器。例如与用户U1和U2通信的路由器有R1、R2、R3,那么可以建立如下关联组(U1_R1,x1,x2,x3...),(U1_R2,x1,x2,x3...),(U1_R3,x1,x2,x3...)(U2_R1,x1,x2,x3...),(U2_R2,x1,x2,x3...),(U2_R3,x1,x2,x3...),基于预定的规则筛选出用户U1最相关的路由器为R1,用户U2最相关的路由器为R3,那么(U1_R1,x1,x2,x3...),(U2_R3,x1,x2,x3...)记入所述正样本数据。
更优选地,所述预定规则包括以下至少任一项:
所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于或等于预定的关联距离阈值信息;
所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息等于或大于预定的无关距离阈值信息;
所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息。
其中,筛选优选网络设备的规则可包括如下至少任一项:
(1)所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于或等于预定的关联距离阈值信息,其中,所述家庭位置信息确定的方式包括但不限于:根据支付关系数据确定,例如根据支付关系数据中的用户常用收货地址确定;根据位置关系数据确定,例如根据位置关系数据中的无线活动热点位置及无线活动时间等确定。
其中,关联距离阈值信息是预先设定的关于优选网络设备的设备位置信息与所述同一个用户的家庭位置信息相关的信息的阈值。具体地,所述网络设备为路由器时,当路由器的位置信息与所述同一个用户的家庭位置信息间的距离信息小于或等于所述预先设定好的阈值时,确定该路由器为同一个用户所在家庭最相关的路由器,作为同一个用户对应的优选网络设备。例如,关联距离阈值信息设置为0.2公里,路由器R与用户U的家庭位置信息间的距离小于或等于0.2公里时,确定路由器R为用户U的优选网络设备。
(2)所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息等于或大于预定的无关距离阈值信息,其中,无关距离信息是预先设定的关于网络设备的设备位置信息与所述同一个用户的家庭位置信息不相关的信息的阈值。具体地,所述网络设备为路由器时,当路由器的位置信息与所述同一个用户的家庭位置信息间的距离信息等于或大于所述预先设定好的阈值时,确定该路由器为同一个用户所在家庭的不相关的路由器。例如,设定无关距离阈值信息为3公里,路由器R1、R2与同一个用户U的家庭位置信息间的距离信息大于或等于3公里,确定路由器R1、R2为用户U所在家庭的非优选的网络设备。
(3)所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息。具体地,所述网络设备为路由器时,所述与同一个用户所在家庭最相关的路由器与所述同一个用户的家庭位置信息间的距离信息小于所述同一个用户所使用的其他路由器设备位置信息与所述家庭位置信息间的距离信息。例如用户U的优选网络设备为路由器R1,非优选的网络设备为路由器R2、R3,则路由器R1与用户U的家庭位置信息间的距离小于路由器R2和R3与用户U的家庭位置信息间的距离。
参图4所示,更优选地,所述样本数据还包括负样本数据,其中,所述负样本数据包括样本用户与样本网络设备无关联的关联信息;
其中,所述样本获取装置11还包括:
负样本获取单元113,根据所述同一个用户与所使用的其他通信设备间的累计通信量信息优选所述同一个用户对应的无关网络设备,并作为无关联的样本用户与样本网络设备记入所述负样本数据。
本领域技术人员可以理解,在确定该用户与该优选网络设备对应的正样本数据后,该用户与除该优选网络设备外的其他通信设备均不相关联,因此,可根据该用户与其他各通信设备的累计通信量从该(等)其他通信设备中优选出若干以作为该用户对应的无关网络设备,进而构建负样本数据以供机器学习使用。具体地,在确定该用户与该优选网络设备对应的正样本数据后,在除该优选网络设备外的其他通信设备中根据该用户与各通信设备的累计通信量信息优选出若干个其他通信设备,例如与该用户的累计通信量信息超过预定通信天数或预定通信时长的若干其他通信设备,或者与该用户的累计通信量信息最多的前N个通信设备,以作为该用户对应的无关网络设备,即该用户与每一个无关网络设备无关联;然后,将该用户与优选出的每一个无关网络设备作为无关联的样本数据记入负样本数据。例如,当其他网络设备为路由器R、累计通信量信息为通信天数,且预设通信天数阈值为10,当用户U与路由器R的通信天数大于或等于10时,确定路由器R为用户U的无关网络设备,并作为无关联的样本用户与样本网络设备记入所述负样本数据。
更优选地,所述用户与通信设备关联组中通信设备的通信用户数小于或等于家庭用户数阈值。
本领域技术人员可以理解,在实际应用场景中,家庭中使用的通信设备通常仅供较少的用户使用,而家庭以外的通信设备,例如咖啡店或图书馆中的通信设备通常有大量用户在使用,因此,在该实施例中,还可以通过家庭用户数阈值来预先过滤掉明显不属于在家庭中使用的通信设备,即所述用户与通信设备关联组中通信设备的通信用户数小于或等于家庭用户数阈值。在此,所述家庭用户数阈值包括所述家庭用户数的平均值或该平均值的一定倍数。具体地,例如,假设家庭用户数阈值为5,当路由器R1、R2、R3分别与5、2、10个不同用户建立了关联组,那么删除路由器R3对应的关联组,仅保留路由器R1、R2对应的关联组。
更优选地,该设备还包括:
用户数阈值确定装置(未示出),根据所述用户与通信设备关联组中通信设备所在地域的家庭人口普查信息确定所述家庭用户数阈值。
具体地,用户数阈值确定装置根据所述用户与通信设备关联组中通信设备所在地域的家庭人口普查信息确定所述家庭用户数阈值,其中,所述用户与通信设备关联组中通信设备所在地域的平均家庭用户数是不同的,根据家庭人口普查信息可以确定该地域的平均家庭用户数,并将该地域的平均家庭用户数或该平均家庭用户数的某个倍数作为所述家庭用户数阈值。例如,根据上海地区的人口普查信息,平均家庭用户数为3,那么上海地区可以设置家庭用户数阈值为3、6、9或12。
更优选地,所述关联组建立单元111包括:
通信记录信息归并子单元(未示出),根据用户标识信息间的映射关系将同一个用户的不同用户标识信息所对应的通信记录信息归并为用一个用户的通信记录信息;
关联组建立子单元(未示出),根据归并后的多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组。
具体地,通信记录信息归并子单元根据用户标识信息间的映射关系将同一个用户的不同用户标识信息所对应的通信记录信息归并为用一个用户的通信记录信息,其中,所述用户标识信息包括但不限于同一用户所用通信设备的mac地址、imei号、imsi号,用户所注册应用端id等。所述映射关系是通过UUIC服务实现的。具体地,通过UUIC服务提供的映射关系,将同一用户所用的不同通信设备的mac地址、imei号、imsi号,用户所注册应用端id等映射为所述同一个用户,从而将不同通信设备所对应的通信记录信息归并为同一个用户的通信记录信息。例如,用户U所使用的移动设备有手机P1、P2,其中P1、P2的imei号分别为imei1和imei2,将手机P1与路由器R的通信记录(imei1,R)和手机P2与路由器R的通信记录(imei2,R)通过UUIC服务映射为用户与路由器的通信记录(U,R)。
具体地,关联组建立子单元(未示出),根据归并后的多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组,例如用户U1有移动设备imei1和imei2,其中,所述移动设备imei1与路由器R1和路由器R2有通信记录(imei1,R1)和(imei1,R2),所述移动设备imei2与路由器R1和路由器R2有通信记录(imei2,R1)和(imei2,R2),通过UUIC服务将(imei1,R1)和(imei2,R1)映射为(U,R1),将(imei1,R2)和(imei2,R2)映射为(U,R2)。
参图4所示,更优选地,所述样本获取装置11还包括:
特征信息提取单元114,提取所述样本数据中的样本特征信息;
其中,所述模型确定装置12:
通过对所述样本数据及其中的样本特征信息进行机器学习确定对应的关联决策模型信息。
具体地,特征信息提取单元114提取所述样本数据中的样本特征信息,其中所述样本特征信息包括网络设备自身特征信息、用户自身特征信息、用户与网络设备通信特征信息。例如当网路设备为路由器,所述样本特征信息包括路由器自身特征信息、用户自身特征信息、用户与路由器通信特征信息。所述路由器自身特征信息包括但不限于:路由器平均每天的通信用户数、与路由器发生通信的用户的总用户数、路由器工作日与周末通信用户数比、路由器不同时间段通信用户数比等等。所述用户自身特征信息包括但不限于:用户自身在周末或工作日与所有路由器的通信天数、用户自身在同一天不同时段与所有路由器的通信次数等等。所述用户与路由器通信特征信息包括但不限于:用户与路由器的通信天数、用户与路由器通信的最近日期、用户与路由器在工作日或周末通信的天数、用户与路由器在一天中的不同时段的通信天数、用户与路由器在每个星期的通信天数等等
继续在该实施例中,所述模型确定装置12通过对所述样本数据及其中的样本特征信息进行机器学习确定对应的关联决策模型信息,具体地,将样本数据及其中的样本特征信息组成训练集(R_U,x1,x2,x3,x4.....,label),其中,R_U表示用户U与网络设备R的关联组;x1,x2,x3,x4.....表示样本特征信息,其个数根据具体要求设定;label可取1或0,当为正样本时取1,负样本时取0。通过对训练集(R_U,x1,x2,x3,x4.....,label)进行机器学习确定对应的关联决策模型信息。
更更优选地,所述模型应用装置13:
根据所述样本特征信息从用户关于网络设备的使用记录信息中提取预测特征信息;
将所述预测特征信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。
在该实施例中,所述模型应用装置13根据所述样本特征信息从用户关于网络设备的使用记录信息中提取预测特征信息;其中所述预测特征信息是由用户与通信设备的关联组及特征信息组成,预测特征信息可表示为(R_U,x1,x2,x3,x4.....,-1),其中R_U表示用户与网络设备关联组,x1,x2,x3,x4.....表示预测特征信息包含的内容,具体地,预测特征信息包含的具体内容与样本特征信息相同,其具体内容已在前述实施例中列出,此处不再赘述。
继续在该实施例中,所述模型应用装置13将所述预测特征信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。具体地,通过将多个预测特征信息(R_U,x1,x2,x3,x4.....,-1)输入所述关联决策模型信息,获得网络设备R与用户U的关联概率,从而获得所述用户与所述网络设备对应的家庭的家庭关联信息。
与现有技术相比,本申请通过获取样本数据,其中,样本数据包括样本用户与样本网络设备的关联信息,例如通信时间、通信频率、通信日期等,并对所述样本数据进行机器学习来确定对应的关联决策模型信息,并将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。其中,通过机器学习来确定对应的关联决策模型信息可以有效的提高用户家庭关联关系的识别率。
而且,本申请还可以通过根据用户标识信息间的映射关系将同一个用户的不同用户标识信息所对应的通信记录信息归并为用一个用户的通信记录信息,并根据归并后的多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组。例如,通过将家庭用户所使用的通信设备进行统一映射,即把所述通信设备归一化为同一用户,有利于采用互联网的行为特征进行扩展。
此外,本申请还可以通过判断当两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,确定所述两个用户属于同一家庭,还可以根据目标家庭对应的目标网络设备确定所述目标家庭所包括的多个目标用户,并根据目标用户的画像信息确定所述目标家庭的家庭画像信息,从而可以根据所述家庭画像信息为所述目标家庭提供推荐信息,例如促销信息、广告信息等,有利于许多以家庭为单位的业务的开展。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (26)

1.一种用于确定用户的家庭属性信息的方法,其中,该方法包括:
获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;
通过对所述样本数据进行机器学习确定对应的关联决策模型信息;
将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。
2.根据权利要求1所述的方法,其中,所述将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息包括:
将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备的设备关联信息;
当所述设备关联信息超过预定的关联阈值信息,确定所述用户与所述网络设备对应的家庭的家庭关联信息为关联。
3.根据权利要求1或2所述的方法,其中,该方法还包括:
当两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,确定所述两个用户属于同一家庭。
4.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
根据目标家庭对应的目标网络设备确定所述目标家庭所包括的多个目标用户,其中,所述目标用户与所述目标网络设备对应的家庭的家庭关联信息为关联。
5.根据权利要求4所述的方法,其中,该方法还包括:
根据所述目标用户的用户画像信息确定所述目标家庭的家庭画像信息;
根据所述家庭画像信息为所述目标家庭提供推荐信息。
6.根据权利要求1至5中任一项所述的方法,其中,所述样本数据包括正样本数据,其中,所述正样本数据包括样本用户与样本网络设备相关联的关联信息;
其中,所述获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息包括:
根据多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组;
基于预定规则从所述多个用户与通信设备关联组中筛选确定同一个用户对应的优选网络设备,并作为相关联的样本用户与样本网络设备记入所述正样本数据。
7.根据权利要求6所述的方法,其中,所述预定规则包括以下至少任一项:
所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于或等于预定的关联距离阈值信息;
所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息等于或大于预定的无关距离阈值信息;
所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息。
8.根据权利要求6或7所述的方法,其中,所述样本数据还包括负样本数据,其中,所述负样本数据包括样本用户与样本网络设备无关联的关联信息;
其中,所述获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息还包括:
根据所述同一个用户与所使用的其他通信设备间的累计通信量信息优选所述同一个用户对应的无关网络设备,并作为无关联的样本用户与样本网络设备记入所述负样本数据。
9.根据权利要求6至8中任一项所述的方法,其中,所述用户与通信设备关联组中通信设备的通信用户数小于或等于家庭用户数阈值。
10.根据权利要求9所述的方法,其中,该方法还包括:
根据所述用户与通信设备关联组中通信设备所在地域的家庭人口普查信息确定所述家庭用户数阈值。
11.根据权利要求6至10中任一项所述的方法,其中,所述根据多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组包括:
根据用户标识信息间的映射关系将同一个用户的不同用户标识信息所对应的通信记录信息归并为同一个用户的通信记录信息;
根据归并后的多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组。
12.根据权利要求6至11中任一项所述的方法,其中,所述获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息还包括:
提取所述样本数据中的样本特征信息;
其中,所述通过对所述样本数据进行机器学习确定对应的关联决策模型信息包括:
通过对所述样本数据及其中的样本特征信息进行机器学习确定对应的关联决策模型信息。
13.根据权利要求12所述的方法,其中,所述将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息包括:
根据所述样本特征信息从用户关于网络设备的使用记录信息中提取预测特征信息;
将所述预测特征信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。
14.一种用于确定用户的家庭属性信息的设备,其中,该设备包括:
样本获取装置,用于获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;
模型确定装置,用于通过对所述样本数据进行机器学习确定对应的关联决策模型信息;
模型应用装置,用于将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。
15.根据权利要求14所述的设备,其中,所述模型应用装置用于:
将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备的设备关联信息;
当所述设备关联信息超过预定的关联阈值信息,确定所述用户与所述网络设备对应的家庭的家庭关联信息为关联。
16.根据权利要求14或15所述的设备,其中,该设备还包括:
相同家庭确定装置,用于当两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,确定所述两个用户属于同一家庭。
17.根据权利要求14至16中任一项所述的设备,其中,该设备还包括:
家庭用户确定装置,用于根据目标家庭对应的目标网络设备确定所述目标家庭所包括的多个目标用户,其中,所述目标用户与所述目标网络设备对应的家庭的家庭关联信息为关联。
18.根据权利要求17所述的设备,其中,该设备还包括:
家庭画像确定装置,用于根据所述目标用户的用户画像信息确定所述目标家庭的家庭画像信息;
推荐信息提供装置,用于根据所述家庭画像信息为所述目标家庭提供推荐信息。
19.根据权利要求14至18中任一项所述的设备,其中,所述样本数据包括正样本数据,其中,所述正样本数据包括样本用户与样本网络设备相关联的关联信息;
其中,所述样本获取装置包括:
关联组建立单元,用于根据多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组;
正样本获取单元,用于基于预定规则从所述多个用户与通信设备关联组中筛选确定同一个用户对应的优选网络设备,并作为相关联的样本用户与样本网络设备记入所述正样本数据。
20.根据权利要求19所述的设备,其中,所述预定规则包括以下至少任一项:
所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于或等于预定的关联距离阈值信息;
所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息等于或大于预定的无关距离阈值信息;
所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息。
21.根据权利要求19或20所述的设备,其中,所述样本数据还包括负样本数据,其中,所述负样本数据包括样本用户与样本网络设备无关联的关联信息;
其中,所述样本获取装置还包括:
负样本获取单元,用于根据所述同一个用户与所使用的其他通信设备间的累计通信量信息优选所述同一个用户对应的无关网络设备,并作为无关联的样本用户与样本网络设备记入所述负样本数据。
22.根据权利要求19至21中任一项所述的设备,其中,所述用户与通信设备关联组中通信设备的通信用户数小于或等于家庭用户数阈值。
23.根据权利要求22所述的设备,其中,该设备还包括:
用户数阈值确定装置,用于根据所述用户与通信设备关联组中通信设备所在地域的家庭人口普查信息确定所述家庭用户数阈值。
24.根据权利要求19至23中任一项所述的设备,其中,所述关联组建立单元用于:
根据用户标识信息间的映射关系将同一个用户的不同用户标识信息所对应的通信记录信息归并为用一个用户的通信记录信息;
根据归并后的多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组。
25.根据权利要求19至24中任一项所述的设备,其中,所述样本获取装置还包括:
特征信息提取单元,用于提取所述样本数据中的样本特征信息;
其中,所述模型确定装置用于:
通过对所述样本数据及其中的样本特征信息进行机器学习确定对应的关联决策模型信息。
26.根据权利要求25所述的设备,其中,所述模型应用装置用于:
根据所述样本特征信息从用户关于网络设备的使用记录信息中提取预测特征信息;
将所述预测特征信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。
CN201510649771.8A 2015-10-09 2015-10-09 用于确定用户的家庭属性信息的方法与设备 Active CN106570014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510649771.8A CN106570014B (zh) 2015-10-09 2015-10-09 用于确定用户的家庭属性信息的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510649771.8A CN106570014B (zh) 2015-10-09 2015-10-09 用于确定用户的家庭属性信息的方法与设备

Publications (2)

Publication Number Publication Date
CN106570014A true CN106570014A (zh) 2017-04-19
CN106570014B CN106570014B (zh) 2020-09-25

Family

ID=58507703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510649771.8A Active CN106570014B (zh) 2015-10-09 2015-10-09 用于确定用户的家庭属性信息的方法与设备

Country Status (1)

Country Link
CN (1) CN106570014B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108769809A (zh) * 2018-05-28 2018-11-06 成都市极米科技有限公司 基于智能电视的家庭用户行为数据采集方法、装置及计算机可读存储介质
CN109717879A (zh) * 2017-10-31 2019-05-07 丰田自动车株式会社 状态推定***
CN110019996A (zh) * 2017-12-11 2019-07-16 ***通信集团广东有限公司 一种家庭关系识别方法和***
CN110163686A (zh) * 2019-05-27 2019-08-23 成都魔方城科技有限公司 基于消费者行为的预期消费画像方法及***
CN110324418A (zh) * 2019-07-01 2019-10-11 阿里巴巴集团控股有限公司 基于用户关系推送业务的方法和装置
CN110769457A (zh) * 2019-10-09 2020-02-07 深圳市酷开网络科技有限公司 家庭关系发现方法、服务器及计算机可读存储介质
CN111510368A (zh) * 2019-01-31 2020-08-07 ***通信有限公司研究院 家庭群组识别方法、装置、设备及计算机可读存储介质
CN113098741A (zh) * 2021-04-16 2021-07-09 深圳市炆石数据有限公司 家庭画像构建方法、***、存储介质及广告跨屏投放方法
CN113780605A (zh) * 2020-06-28 2021-12-10 京东城市(北京)数字科技有限公司 用于预测信息的方法和装置
CN113836361A (zh) * 2021-09-29 2021-12-24 平安科技(深圳)有限公司 家庭关系网络生成方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101841607A (zh) * 2010-04-28 2010-09-22 深圳天源迪科信息技术股份有限公司 获取固话与手机间家庭关联关系的方法
CN102541886A (zh) * 2010-12-20 2012-07-04 郝敬涛 一种识别用户群和用户之间关系的***和方法
CN103365893A (zh) * 2012-03-31 2013-10-23 百度在线网络技术(北京)有限公司 一种用于实现搜索用户的个体信息的方法和设备
CN104200657A (zh) * 2014-07-22 2014-12-10 杭州智诚惠通科技有限公司 一种基于视频和传感器的交通流量参数采集方法
CN104331502A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 针对快递员周边人群营销中快递员数据的识别方法
CN104883278A (zh) * 2014-09-28 2015-09-02 北京匡恩网络科技有限责任公司 一种利用机器学习对网络设备进行分类的方法
CN104954873A (zh) * 2014-03-26 2015-09-30 Tcl集团股份有限公司 一种智能电视视频定制方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101841607A (zh) * 2010-04-28 2010-09-22 深圳天源迪科信息技术股份有限公司 获取固话与手机间家庭关联关系的方法
CN102541886A (zh) * 2010-12-20 2012-07-04 郝敬涛 一种识别用户群和用户之间关系的***和方法
CN103365893A (zh) * 2012-03-31 2013-10-23 百度在线网络技术(北京)有限公司 一种用于实现搜索用户的个体信息的方法和设备
CN104954873A (zh) * 2014-03-26 2015-09-30 Tcl集团股份有限公司 一种智能电视视频定制方法及***
CN104200657A (zh) * 2014-07-22 2014-12-10 杭州智诚惠通科技有限公司 一种基于视频和传感器的交通流量参数采集方法
CN104883278A (zh) * 2014-09-28 2015-09-02 北京匡恩网络科技有限责任公司 一种利用机器学习对网络设备进行分类的方法
CN104331502A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 针对快递员周边人群营销中快递员数据的识别方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109717879A (zh) * 2017-10-31 2019-05-07 丰田自动车株式会社 状态推定***
CN109717879B (zh) * 2017-10-31 2021-09-24 丰田自动车株式会社 状态推定***
CN110019996A (zh) * 2017-12-11 2019-07-16 ***通信集团广东有限公司 一种家庭关系识别方法和***
CN108769809B (zh) * 2018-05-28 2021-06-29 成都极米科技股份有限公司 基于智能电视的家庭用户行为数据采集方法、装置及计算机可读存储介质
CN108769809A (zh) * 2018-05-28 2018-11-06 成都市极米科技有限公司 基于智能电视的家庭用户行为数据采集方法、装置及计算机可读存储介质
CN111510368A (zh) * 2019-01-31 2020-08-07 ***通信有限公司研究院 家庭群组识别方法、装置、设备及计算机可读存储介质
CN111510368B (zh) * 2019-01-31 2023-01-03 ***通信有限公司研究院 家庭群组识别方法、装置、设备及计算机可读存储介质
CN110163686A (zh) * 2019-05-27 2019-08-23 成都魔方城科技有限公司 基于消费者行为的预期消费画像方法及***
CN110324418B (zh) * 2019-07-01 2022-09-20 创新先进技术有限公司 基于用户关系推送业务的方法和装置
CN110324418A (zh) * 2019-07-01 2019-10-11 阿里巴巴集团控股有限公司 基于用户关系推送业务的方法和装置
CN110769457A (zh) * 2019-10-09 2020-02-07 深圳市酷开网络科技有限公司 家庭关系发现方法、服务器及计算机可读存储介质
CN110769457B (zh) * 2019-10-09 2022-10-28 深圳市酷开网络科技股份有限公司 家庭关系发现方法、服务器及计算机可读存储介质
CN113780605A (zh) * 2020-06-28 2021-12-10 京东城市(北京)数字科技有限公司 用于预测信息的方法和装置
CN113098741A (zh) * 2021-04-16 2021-07-09 深圳市炆石数据有限公司 家庭画像构建方法、***、存储介质及广告跨屏投放方法
CN113098741B (zh) * 2021-04-16 2022-07-12 深圳市炆石数据有限公司 家庭画像构建方法、***、存储介质及广告跨屏投放方法
CN113836361A (zh) * 2021-09-29 2021-12-24 平安科技(深圳)有限公司 家庭关系网络生成方法、装置、设备及存储介质
CN113836361B (zh) * 2021-09-29 2024-02-23 平安科技(深圳)有限公司 家庭关系网络生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106570014B (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN106570014A (zh) 用于确定用户的家庭属性信息的方法与设备
Vanhoof et al. Assessing the quality of home detection from mobile phone data for official statistics
Wang et al. Understanding travellers’ preferences for different types of trip destination based on mobile internet usage data
CN109640312B (zh) “黑卡”识别方法、电子设备及计算机可读取存储介质
US20150193543A1 (en) Interest profile of a user of a mobile application
CN109063966A (zh) 风险账户的识别方法和装置
US8255392B2 (en) Real time data collection system and method
CN105160173B (zh) 安全评估方法和装置
CN105976216A (zh) 广告效果评估方法、广告投放方法及装置
CN103189885B (zh) 服务器和信息管理方法
CN111148018B (zh) 基于通信数据识别定位区域价值的方法和装置
CN107592296A (zh) 垃圾账户的识别方法和装置
CN110796269B (zh) 一种生成模型的方法、装置、信息处理的方法及装置
CN105045911B (zh) 一种用于用户进行标记的标签生成方法及设备
CN107527240A (zh) 一种运营商行业产品口碑营销效果鉴定***及方法
Manley et al. New forms of data for understanding urban activity in developing countries
CN112925899B (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
CN109451334A (zh) 用户画像生成处理方法、装置及电子设备
CN107025246A (zh) 一种目标地理区域的识别方法和装置
CN112667869B (zh) 数据处理方法、设备、***及存储介质
CN107861993A (zh) 一种运行应用程序的数据处理方法和装置
CN110569418A (zh) 学历信息验证方法以及装置
CN116016769A (zh) 一种欺诈团伙的识别方法、装置及可读存储介质
CN113806555A (zh) 用于app的运营异常识别方法、***、装置及存储介质
CN112752256B (zh) 客户画像标签确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant