CN107025567A - 一种数据处理方法和装置 - Google Patents
一种数据处理方法和装置 Download PDFInfo
- Publication number
- CN107025567A CN107025567A CN201610069498.6A CN201610069498A CN107025567A CN 107025567 A CN107025567 A CN 107025567A CN 201610069498 A CN201610069498 A CN 201610069498A CN 107025567 A CN107025567 A CN 107025567A
- Authority
- CN
- China
- Prior art keywords
- termination
- similarity
- internet behavior
- sample
- behavior vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 230000003542 behavioural effect Effects 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000006399 behavior Effects 0.000 claims description 152
- 230000006870 function Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Educational Administration (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本文公布一种数据处理方法和装置,该方法包括:收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识ID;统计在该预设时间段内,与智能设备关联的终端ID访问各个预设网站的上网行为向量;分别计算终端ID的上网行为向量与各个样本的上网行为向量之间的第一相似度;根据计算出的第一相似度确定终端ID的身份类别。本申请实施例实现了更加快速、便捷的获知家庭的组成构架。
Description
技术领域
本申请涉及但不限于数据分析领域,尤指一种数据处理方法和装置。
背景技术
随着智能电视领域技术的日益渐进,电视设备也从传统电视变为如今具备操作***、具有平台特性的智能电视,智能电视逐渐成为每个家庭必备的娱乐设备。智能电视允许用户在欣赏普通电视节目的同时,自行安装和卸载各类应用软件以对其功能进行扩充,并具备通过网络回传用户数据的功能。
如今,随着多样化的网民属性估算技术的日趋成熟,家庭人口属性估算成为当务之急。准确的定位一个家庭的组成情况对于媒体的精准投放,广告主的商业营销方向,政府的监管及人口统计,人口大数据的分析有着至关重要的意义。而现有对家庭人口属性统计的方法仍然停留在人工走访调研的水平,此种做法费时费力,同时统计期限漫长。
发明内容
本申请提供了一种数据处理方法和装置,能够更加快速、便捷的获知家庭的组成构架。
为了达到本申请目的,本申请提供了一种数据处理方法,包括:
收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识ID;
统计在该预设时间段内,与智能设备关联的终端ID访问各个预设网站的上网行为向量;
分别计算终端ID的上网行为向量与各个样本的上网行为向量之间的第一相似度;
根据计算出的第一相似度确定终端ID的身份类别。
进一步地,当与该智能设备关联的终端ID是两个或者两个以上时,在所述统计所述与智能设备关联的终端ID的上网行为向量之后,在所述计算所述第一相似度之前,该方法还包括:
根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端ID进行分类。
进一步地,所述根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端ID进行分类包括:
分别计算与所述智能设备关联的终端ID中任意两个终端ID的上网行为向量之间的第二相似度;
判断计算出的第二相似度中是否存在大于或等于相似度阈值的第二相似度;
当判断出计算出的第二相似度中存在大于或等于相似度阈值的第二相似度时,将大于或等于相似度阈值的第二相似度中最大的第二相似度对应的两个终端ID分为相同类并计算分为相同类的终端ID的上网行为向量;
计算分类后的终端ID中任意两个终端ID的上网行为向量之间的第二相似度,直到计算出的第二相似度中不存在大于或等于相似度阈值的第二相似度。
进一步地,所述计算分为相同类的终端ID的上网行为向量包括:计算分为相同类的所述两个终端ID的上网行为向量的向量和值作为所述分为相同类的两个终端ID的上网行为向量。
进一步地,该方法之前还包括:收集并对应存储所述各个样本的上网行为向量以及各个样本的属性信息。
进一步地,所述根据计算出的第一相似度确定终端ID的身份类别包括:
分别确定各个分类后的终端ID的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为所述分类后的该终端ID的身份类别。
进一步地,当与该智能设备关联的终端ID是一个时,所述根据计算出的第一相似度确定终端ID的身份类别包括:
确定所述终端ID的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为所述终端ID的身份类别。
本申请还提供了一种数据处理装置,包括:确定模块、统计模块、计算模块和分类模块
确定模块,用于收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识ID;
统计模块,用于统计在该预设时间段内,与智能设备关联的终端ID访问各个预设网站的上网行为向量;
计算模块,用于分别计算终端ID的上网行为向量与各个样本的上网行为向量之间的第一相似度;
分类模块,用于根据计算出的第一相似度确定终端ID的身份类别。
进一步地,当与该智能设备关联的终端ID是两个或者两个以上时,该装置还包括处理模块,用于:根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端ID进行分类。
进一步地,所述处理模块,具体用于:
分别计算与所述智能设备关联的终端ID中任意两个终端ID的上网行为向量之间的第二相似度;
判断计算出的第二相似度中是否存在大于或等于相似度阈值的第二相似度;
当判断出计算出的第二相似度中存在大于或等于相似度阈值的第二相似度时,将大于或等于相似度阈值的第二相似度中最大的第二相似度对应的两个终端ID分为相同类并计算分类后的终端ID的上网行为向量;
计算分类后的终端ID中任意两个终端ID的上网行为向量之间的第二相似度,直到计算出的第二相似度中不存在大于或等于相似度阈值的第二相似度。
进一步地,所述处理模块计算分类后的终端ID的上网行为向量包括:计算分为相同类的所述两个终端ID的上网行为向量的向量和值作为所述分为相同类的两个终端ID的上网行为向量。
进一步地,该装置还包括存储模块,用于:收集并对应存储所述各个样本的上网行为向量以及各个样本的属性信息。
进一步地,所述分类模块,具体用于:
分别确定各个分类后的终端ID的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为所述分类后的该终端ID的身份类别。
进一步地,当与该智能设备关联的终端ID是一个时,所述分类模块,具体用于:
确定所述终端ID的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为所述终端ID的身份类别。
本申请技术方案包括:收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识ID;统计在该预设时间段内,与智能设备关联的终端ID访问各个预设网站的上网行为向量;分别计算终端ID的上网行为向量与各个样本的上网行为向量之间的第一相似度;根据计算出的第一相似度确定终端ID的身份类别。本申请技术方案实现了更加快速、便捷的获知家庭的组成构架。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例数据处理方法的流程图;
图2为本发明实施例数据处理装置的结构示意图。
具体实施方式
下文中将结合附图对本申请实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
发明人发现,智能电视不同于移动终端设备,由于绝大多数家庭都会使用智能电视且其具备不可移动性,因此,在一定程度上一台智能电视可以代表一户家庭,因此可以通过智能电视和与其关联的其它终端设备来确定家庭的组成构架(即家庭人口属性)。
图1为本发明实施例数据处理方法的流程图,如图1所示,包括:
步骤101:收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识(ID)。
其中,智能设备是智能电视;终端包括:手机、Pad、笔记本电脑等。
其中,智能设备的行为数据包括:智能设备的IP地址、智能卡ID、开机时间和关机时间。
其中,预设时间段可以为一个默认值,如为一个月,也可以为15天;也可以由管理员根据自身需求进行设定。
其中,按照收集的行为数据确定与该智能设备关联的终端ID包括:在该智能设备的开机时间到关机时间内查找与智能设备的IP地址相同的终端ID并记录查找到的次数;
获取大于或等于预设次数阈值的查找到的次数对应的与智能设备的IP地址相同的终端ID;
关联智能卡ID与获得的终端ID。
其中,预设次数阈值可以为一个默认值,如为5,也可以为3天;也可以由管理员根据自身需求进行设定。
步骤102:统计在该预设时间段内,与智能设备关联的终端ID访问各个预设网站的上网行为向量。
步骤102具体包括:
获取在该预设时间段内关联的终端ID的上网行为数据;
根据获得的上网行为数据统计与该智能设备关联的终端ID访问各个预设网站的上网行为向量。其中,上网行为数据包括:终端ID、访问网址和访问时间。
其中,上网行为向量包括终端ID访问各个预设网站的次数。需要说明的是上网行为向量的维度与预设网站的个数相等。
步骤103:分别计算终端ID的上网行为向量与各个样本的上网行为向量之间的第一相似度。
其中,按照公式(1)计算第一相似度:
其中,用户A(即终端ID可以看成A)的上网行为向量为(a1,...,aN),样本B的上网行为向量为(b1,...,bN)。
进一步地,当与该智能设备关联的终端ID是两个或者两个以上时,在步骤102之后,在步骤103之前,该方法还包括:
根据统计出的上网行为向量对与智能设备关联的两个或两个以上的终端ID进行分类。
其中,根据统计出的上网行为向量对与智能设备关联的两个或两个以上的终端ID进行分类包括:
分别计算与智能设备关联的终端ID中任意两个终端ID的上网行为向量之间的第二相似度;
判断计算出的第二相似度中是否存在大于或等于相似度阈值的第二相似度;
当判断出计算出的第二相似度中存在大于或等于相似度阈值的第二相似度时,将大于或等于相似度阈值的第二相似度中最大的第二相似度对应的两个终端ID分为相同类并计算分为相同类的终端ID的上网行为向量;
计算分类后的终端ID中任意两个终端ID的上网行为向量之间的第二相似度,直到计算出的第二相似度中不存在大于或等于相似度阈值的第二相似度。
其中,按照公式(2)计算任意两个终端ID的上网行为向量之间的第二
相似度:
其中,ID1和ID2分别为终端1的ID和终端2的ID,D1的上网行为向量为(f1,...,fN),ID2的上网行为向量为(y1,...,yN)。
其中,相似度阈值可以为一个默认值,如为0.8,也可以为0.6;也可以由管理员根据自身需求进行设定。
其中,计算分为相同类的终端ID的上网行为向量包括:计算分为相同类的两个终端ID的上网行为向量的向量和值作为分为相同类的两个终端ID的上网行为向量。
举例说明,假设分为相同类的两个终端ID分别为终端ID1和终端ID2,其中,终端ID1的上网行为向量为(f1,...,fN),终端ID2的上网行为向量为(y1,...,yN),则分为相同类的终端ID1和终端ID2可以合并成一个终端ID,其中合并后的终端ID可以在终端ID1和终端ID2中任选一个,也可以定义一个新的ID,则其上网行为向量为(f1+y1,...,fN+yN);具体的终端ID1的上网行为向量为(6,9,10,20,0,0…,0),终端ID2的上网行为向量为(4,7,12,19,0,0…,0),则合并后的终端ID的上网行为向量为(6,9,10,20,0,0…,0)+(4,7,12,19,0,0…,0)=(10,16,22,39,0,0…,0)。
步骤104:根据计算出的第一相似度确定终端ID的身份类别。
其中,当与该智能设备关联的终端ID是两个或者两个以上时,步骤104具体包括:
分别确定各个分类后的终端ID的第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的各个样本的上网行为向量以及各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为分类后的该终端ID的身份类别。
其中,当与该智能设备关联的终端ID是一个时,步骤104具体包括:确定终端ID的第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的各个样本的上网行为向量以及各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为终端ID的身份类别。
进一步地,当最大第一相似度有两个或两个以上时,确定终端ID的第一相似度中的最大第一相似度对应的样本的上网行为向量包括:选择两个或两个以上最大第一相似度中的任意一个最大第一相似度对应的样本的上网行为向量作为确定出的样本的上网行为向量。
进一步地,该方法之前还包括:收集并对应存储各个样本的上网行为向量以及各个样本的属性信息。
其中,样本的属性信息包括:年龄、性别、受教育程度和收入等。
本发明实施例中,通过计算与智能设备关联的终端ID的上网行为向量与各个样本的上网行为向量的第一相似度来确定终端ID的身份类别,实现了更加快速、便捷的获知家庭的组成构架。
下面结合具体实施例对本申请技术方案进行详细描述,本实施例中,以与该智能设备关联的终端ID是两个或者两个以上为例进行的阐述。
步骤一:选取1000个样本进行处理整合。
包括以下内容:每个人的年龄、性别、受教育程度、收入等属性以及使用的电子设备(或称为终端)ID。
步骤二:收集最近一个月内的智能电视的收视行为数据(或称为行为数据)以及手机和个人电脑等电子设备ID的上网行为数据。
其中,智能电视的收视行为数据包括智能电视设备ID,开机时间,关机时间,IP地址等。电子设备ID的上网行为数据包括电子设备ID,访问时间,访问网址等。
其中,假设判断智能电视设备ID与电子设备ID关联次数的阈值为5次,进行ID合并的相似度阈值为0.8.假设收集到下面的智能电视日志和手机和电脑等电子设备日志。
智能电视日志
2015-09-01-18-00-01,TVID1,162.105.20.10,开机
2015-09-01-20-00-05,TVID1,162.105.20.10,关机
2015-09-02-19-10-04,TVID1,162.105.20.12,开机
2015-09-02-22-00-01,TVID1,162.105.20.12,关机
……
电子设备上网日志
2015-09-01-18-20-11,id1,162.105.20.10,www.youku.com
2015-09-01-18-30-11,id1,162.105.20.10,www.sina.com
2015-09-02-20-20-13,id2,162.105.20.12,www.163.com
2015-09-02-21-10-15,id2,162.105.20.12,www.iqiyi.com
……
统计得到智能电视TVID1关联的所有设备ID包括id1,id2,id3,id4,id5,关联次数依次为10,3,15,18,2。假设过滤阈值为5,则智能电视TVID1关联的设备ID包括id1,id3,id4,假设id1,id3,id4的上网行为向量依次为:
id1,(3,4,5,0….,0)
id3,(3,4,4,0….,0)
id4,(0,0,10,0….,0)
步骤三:根据统计出的上网行为向量对两个或两个以上的终端ID进行分类合并。
根据公式(1)或公式(2)计算id1,id3,id4两两之间的相似度为:sim(id1,id3)=0.99,sim(id1,id4)=0.71,sim(id3,id4)=0.62。
由于id1和id3的相似度最大并且大于阈值0.8,将id1和id3合并,id簇{id1,id3}的上网行为向量为(6,8,9,0,…,0),重新计算{id1,id3}与id4的相似度为:sim({id1,id3},id4)=0.67。
由于,目前所有的相似度均小于0.8,因此ID合并结束。
步骤四:确定各个分类合并后的终端ID的身份类别。
假设所有样本的上网行为向量依次是:
Y1,(6,8,8,0,…,0)
Y2,(0,0,9,0,…,0)
……
计算{id1,id3}与每个样本户的相似度为:
假设{id1,id3}与其他998个样本的相似度分别为0.90,0.88,…,0.2;则{id1,id3}与Y1的相似度最高,将{id1,id3}归为Y1类,假设Y1是30岁的男性,则{id1,id3}标记为30岁的男性。类似可计算id4与所有样本的相似度,假设id4与Y2的相似度最高,Y2是28岁的女性,则id4标记为28岁的女性。由此推断出使用TVID1这个电视的家庭有两个人,分别是30岁的男性,28岁的女性。
图2为本发明实施例数据处理装置的结构示意图,如图2所示,包括:确定模块、统计模块、计算模块和分类模块。其中,
确定模块,用于收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识(ID)。
其中,智能设备的行为数据包括:智能设备的IP地址、智能卡ID、开机时间和关机时间。
其中,预设时间段可以为一个默认值,如为一个月,也可以为15天;也可以由管理员根据自身需求进行设定。
其中,确定模块按照收集的行为数据确定与该智能设备关联的终端ID包括:在该智能设备的开机时间到关机时间内查找与智能设备的IP地址相同的终端ID并记录查找到的次数;
获取大于或等于预设次数阈值的查找到的次数对应的与智能设备的IP地址相同的终端ID;
关联智能卡ID与获得的终端ID。
其中,预设次数阈值可以为一个默认值,如为5,也可以为3天;也可以由管理员根据自身需求进行设定。
统计模块,用于统计在该预设时间段内,与智能设备关联的终端ID访问各个预设网站的上网行为向量。
其中,统计模块,具体用于:获取在该预设时间段内关联的终端ID的上网行为数据;
根据获得的上网行为数据统计与该智能设备关联的终端ID访问各个预设网站的上网行为向量。其中,上网行为数据包括:终端ID、访问网址和访问时间。
其中,上网行为向量包括终端ID访问各个预设网站的次数。需要说明的是上网行为向量的维度与预设网站的个数相等。
计算模块,用于分别计算终端ID的上网行为向量与各个样本的上网行为向量之间的第一相似度。
其中,计算模块按照公式(1)计算第一相似度:
其中,用户A(即终端ID可以看成A)的上网行为向量为(a1,...,aN),样本B的上网行为向量为(b1,...,bN)。
分类模块,用于根据计算出的第一相似度确定终端ID的身份类别。
其中,当与该智能设备关联的终端ID是两个或者两个以上时,分类模块,具体用于:
分别确定各个分类后的终端ID的第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的各个样本的上网行为向量以及各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为分类后的该终端ID的身份类别。
其中,当与该智能设备关联的终端ID是一个时,分类模块,具体用于:
确定终端ID的第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的各个样本的上网行为向量以及各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为终端ID的身份类别。
进一步地,当与该智能设备关联的终端ID是两个或者两个以上时,该装置还包括处理模块,用于:根据统计出的上网行为向量对与智能设备关联的两个或两个以上的终端ID进行分类。
其中,处理模块,具体用于:
分别计算与智能设备关联的终端ID中任意两个终端ID的上网行为向量之间的第二相似度;
判断计算出的第二相似度中是否存在大于或等于相似度阈值的第二相似度;
当判断出计算出的第二相似度中存在大于或等于相似度阈值的第二相似度时,将大于或等于相似度阈值的第二相似度中最大的第二相似度对应的两个终端ID分为相同类并计算分类后的终端ID的上网行为向量;
计算分类后的终端ID中任意两个终端ID的上网行为向量之间的第二相似度,直到计算出的第二相似度中不存在大于或等于相似度阈值的第二相似度。
其中,处理模块按照公式(2)计算任意两个终端ID的上网行为向量之间的第二相似度:
其中,ID1和ID2分别为终端1的ID和终端2的ID,D1的上网行为向量为(f1,...,fN),ID2的上网行为向量为(y1,...,yN)。
其中,相似度阈值可以为一个默认值,如为0.8,也可以为0.6;也可以由管理员根据自身需求进行设定。
其中,处理模块计算分类后的终端ID的上网行为向量包括:计算分为相同类的两个终端ID的上网行为向量的向量和值作为分为相同类的两个终端ID的上网行为向量。
举例说明,假设分为相同类的两个终端ID分别为终端ID1和终端ID2,其中,终端ID1的上网行为向量为(f1,...,fN),终端ID2的上网行为向量为(y1,...,yN),则分为相同类的终端ID1和终端ID2可以合并成一个终端ID,其中合并后的终端ID可以在终端ID1和终端ID2中任选一个,也可以定义一个新的ID,则其上网行为向量为(f1+y1,...,fN+yN);具体的终端ID1的上网行为向量为(6,9,10,20,0,0…,0),终端ID2的上网行为向量为(4,7,12,19,0,0…,0),则合并后的终端ID的上网行为向量为(6,9,10,20,0,0…,0)+(4,7,12,19,0,0…,0)=(10,16,22,39,0,0…,0)。
进一步地,该装置还包括存储模块,用于:收集并对应存储各个样本的上网行为向量以及各个样本的属性信息。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (14)
1.一种数据处理方法,其特征在于,包括:
收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识ID;
统计在该预设时间段内,与智能设备关联的终端ID访问各个预设网站的上网行为向量;
分别计算终端ID的上网行为向量与各个样本的上网行为向量之间的第一相似度;
根据计算出的第一相似度确定终端ID的身份类别。
2.根据权利要求1所述的数据处理方法,其特征在于,当与该智能设备关联的终端ID是两个或者两个以上时,在所述统计所述与智能设备关联的终端ID的上网行为向量之后,在所述计算所述第一相似度之前,该方法还包括:
根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端ID进行分类。
3.根据权利要求2所述的数据处理方法,其特征在于,所述根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端ID进行分类包括:
分别计算与所述智能设备关联的终端ID中任意两个终端ID的上网行为向量之间的第二相似度;
判断计算出的第二相似度中是否存在大于或等于相似度阈值的第二相似度;
当判断出计算出的第二相似度中存在大于或等于相似度阈值的第二相似度时,将大于或等于相似度阈值的第二相似度中最大的第二相似度对应的两个终端ID分为相同类并计算分为相同类的终端ID的上网行为向量;
计算分类后的终端ID中任意两个终端ID的上网行为向量之间的第二相似度,直到计算出的第二相似度中不存在大于或等于相似度阈值的第二相似度。
4.根据权利要求3所述的数据处理方法,其特征在于,所述计算分为相同类的终端ID的上网行为向量包括:计算分为相同类的所述两个终端ID的上网行为向量的向量和值作为所述分为相同类的两个终端ID的上网行为向量。
5.根据权利要求1所述的数据处理方法,其特征在于,该方法之前还包括:收集并对应存储所述各个样本的上网行为向量以及各个样本的属性信息。
6.根据权利要求5所述的数据处理方法,其特征在于,所述根据计算出的第一相似度确定终端ID的身份类别包括:
分别确定各个分类后的终端ID的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为所述分类后的该终端ID的身份类别。
7.根据权利要求1所述的数据处理方法,其特征在于,当与该智能设备关联的终端ID是一个时,所述根据计算出的第一相似度确定终端ID的身份类别包括:
确定所述终端ID的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为所述终端ID的身份类别。
8.一种数据处理装置,其特征在于,包括:确定模块、统计模块、计算模块和分类模块
确定模块,用于收集预设时间段内的智能设备的行为数据并按照收集的行为数据确定与该智能设备关联的终端身份标识ID;
统计模块,用于统计在该预设时间段内,与智能设备关联的终端ID访问各个预设网站的上网行为向量;
计算模块,用于分别计算终端ID的上网行为向量与各个样本的上网行为向量之间的第一相似度;
分类模块,用于根据计算出的第一相似度确定终端ID的身份类别。
9.根据权利要求8所述的数据处理装置,其特征在于,当与该智能设备关联的终端ID是两个或者两个以上时,该装置还包括处理模块,用于:根据统计出的上网行为向量对与所述智能设备关联的两个或两个以上的终端ID进行分类。
10.根据权利要求9所述的数据处理装置,其特征在于,所述处理模块,具体用于:
分别计算与所述智能设备关联的终端ID中任意两个终端ID的上网行为向量之间的第二相似度;
判断计算出的第二相似度中是否存在大于或等于相似度阈值的第二相似度;
当判断出计算出的第二相似度中存在大于或等于相似度阈值的第二相似度时,将大于或等于相似度阈值的第二相似度中最大的第二相似度对应的两个终端ID分为相同类并计算分类后的终端ID的上网行为向量;
计算分类后的终端ID中任意两个终端ID的上网行为向量之间的第二相似度,直到计算出的第二相似度中不存在大于或等于相似度阈值的第二相似度。
11.根据权利要求10所述的数据处理装置,其特征在于,所述处理模块计算分类后的终端ID的上网行为向量包括:计算分为相同类的所述两个终端ID的上网行为向量的向量和值作为所述分为相同类的两个终端ID的上网行为向量。
12.根据权利要求8所述的数据处理装置,其特征在于,该装置还包括存储模块,用于:收集并对应存储所述各个样本的上网行为向量以及各个样本的属性信息。
13.根据权利要求12所述的数据处理装置,其特征在于,所述分类模块,具体用于:
分别确定各个分类后的终端ID的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为所述分类后的该终端ID的身份类别。
14.根据权利要求8所述的数据处理装置,其特征在于,当与该智能设备关联的终端ID是一个时,所述分类模块,具体用于:
确定所述终端ID的所述第一相似度中的最大第一相似度对应的样本的上网行为向量;
在对应存储的所述各个样本的上网行为向量以及所述各个样本的属性信息中查找与确定出的样本的上网行为向量对应的样本的属性信息;
将查找到的样本的属性信息作为所述终端ID的身份类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610069498.6A CN107025567A (zh) | 2016-02-01 | 2016-02-01 | 一种数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610069498.6A CN107025567A (zh) | 2016-02-01 | 2016-02-01 | 一种数据处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107025567A true CN107025567A (zh) | 2017-08-08 |
Family
ID=59524572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610069498.6A Pending CN107025567A (zh) | 2016-02-01 | 2016-02-01 | 一种数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107025567A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107979430A (zh) * | 2017-11-17 | 2018-05-01 | 国家无线电监测中心成都监测站 | 信号活跃度分类及管理*** |
CN109086834A (zh) * | 2018-08-23 | 2018-12-25 | 北京三快在线科技有限公司 | 字符识别方法、装置、电子设备及存储介质 |
CN110197235A (zh) * | 2019-06-28 | 2019-09-03 | 浙江大学城市学院 | 一种基于独特性注意力机制的人体活动识别方法 |
CN113098974A (zh) * | 2021-04-14 | 2021-07-09 | 每日互动股份有限公司 | 一种确定设备数量的方法、服务器及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156721A (zh) * | 2011-03-29 | 2011-08-17 | 张栋 | 基于标签的互联网视频广告精准投放方法 |
CN103914494A (zh) * | 2013-01-09 | 2014-07-09 | 北大方正集团有限公司 | 一种微博用户身份识别方法及*** |
CN103995907A (zh) * | 2014-06-13 | 2014-08-20 | 北京奇艺世纪科技有限公司 | 一种访问用户的确定方法 |
CN104902294A (zh) * | 2015-06-18 | 2015-09-09 | 北京酷云互动科技有限公司 | 一种用户特征信息的形成方法及其形成设备 |
CN105025115A (zh) * | 2014-04-29 | 2015-11-04 | 北京秒针信息咨询有限公司 | 一种生成集体宿舍ip库的方法和装置 |
-
2016
- 2016-02-01 CN CN201610069498.6A patent/CN107025567A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156721A (zh) * | 2011-03-29 | 2011-08-17 | 张栋 | 基于标签的互联网视频广告精准投放方法 |
CN103914494A (zh) * | 2013-01-09 | 2014-07-09 | 北大方正集团有限公司 | 一种微博用户身份识别方法及*** |
CN105025115A (zh) * | 2014-04-29 | 2015-11-04 | 北京秒针信息咨询有限公司 | 一种生成集体宿舍ip库的方法和装置 |
CN103995907A (zh) * | 2014-06-13 | 2014-08-20 | 北京奇艺世纪科技有限公司 | 一种访问用户的确定方法 |
CN104902294A (zh) * | 2015-06-18 | 2015-09-09 | 北京酷云互动科技有限公司 | 一种用户特征信息的形成方法及其形成设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107979430A (zh) * | 2017-11-17 | 2018-05-01 | 国家无线电监测中心成都监测站 | 信号活跃度分类及管理*** |
CN109086834A (zh) * | 2018-08-23 | 2018-12-25 | 北京三快在线科技有限公司 | 字符识别方法、装置、电子设备及存储介质 |
CN109086834B (zh) * | 2018-08-23 | 2021-03-02 | 北京三快在线科技有限公司 | 字符识别方法、装置、电子设备及存储介质 |
CN110197235A (zh) * | 2019-06-28 | 2019-09-03 | 浙江大学城市学院 | 一种基于独特性注意力机制的人体活动识别方法 |
CN110197235B (zh) * | 2019-06-28 | 2021-03-30 | 浙江大学城市学院 | 一种基于独特性注意力机制的人体活动识别方法 |
CN113098974A (zh) * | 2021-04-14 | 2021-07-09 | 每日互动股份有限公司 | 一种确定设备数量的方法、服务器及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107894998B (zh) | 视频推荐方法及装置 | |
CN105224699B (zh) | 一种新闻推荐方法及装置 | |
CN104573054B (zh) | 一种信息推送方法和设备 | |
CN107463605B (zh) | 低质新闻资源的识别方法及装置、计算机设备及可读介质 | |
CN107862022B (zh) | 文化资源推荐*** | |
CN106021362A (zh) | 查询式的图片特征表示的生成、图片搜索方法和装置 | |
WO2021027595A1 (zh) | 用户画像生成方法、装置、计算机设备和计算机可读存储介质 | |
CN106326391A (zh) | 多媒体资源推荐方法及装置 | |
CN107896153B (zh) | 一种基于移动用户上网行为的流量套餐推荐方法及装置 | |
CN112052387B (zh) | 一种内容推荐方法、装置和计算机可读存储介质 | |
CN106445963B (zh) | App平台的广告索引关键词自动生成方法和装置 | |
CN109409928A (zh) | 一种素材推荐方法、装置、存储介质、终端 | |
CN103678335A (zh) | 商品标识标签的方法、装置及商品导航的方法 | |
CN101577866A (zh) | 一种用户分类方法、广告投放方法及装置 | |
CN103577478A (zh) | 网页推送方法及*** | |
CN110737821B (zh) | 相似事件查询的方法、装置、存储介质和终端设备 | |
CN107025567A (zh) | 一种数据处理方法和装置 | |
CN105512300B (zh) | 信息过滤方法及*** | |
CN110475132A (zh) | 直播间类型识别方法、装置及数据处理设备 | |
JP4714710B2 (ja) | 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体 | |
CN106919588A (zh) | 一种应用程序搜索***及方法 | |
CN112035449A (zh) | 数据处理方法及装置、计算机设备、存储介质 | |
CN112733006B (zh) | 用户画像的生成方法、装置、设备及存储介质 | |
CN110020078B (zh) | 一种生成相关性映射字典及其验证相关性的方法和相关装置 | |
CN113902526B (zh) | 基于人工智能的产品推荐方法、装置和计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170808 |
|
RJ01 | Rejection of invention patent application after publication |