CN111080349A - 识别同一用户的多个设备的方法、装置、服务器及介质 - Google Patents

识别同一用户的多个设备的方法、装置、服务器及介质 Download PDF

Info

Publication number
CN111080349A
CN111080349A CN201911227587.9A CN201911227587A CN111080349A CN 111080349 A CN111080349 A CN 111080349A CN 201911227587 A CN201911227587 A CN 201911227587A CN 111080349 A CN111080349 A CN 111080349A
Authority
CN
China
Prior art keywords
cross
screen pair
sample
information
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911227587.9A
Other languages
English (en)
Other versions
CN111080349B (zh
Inventor
于沈新
童有军
李旸
王岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youyi Internet Technology Development Co Ltd
Original Assignee
Beijing Youyi Internet Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youyi Internet Technology Development Co Ltd filed Critical Beijing Youyi Internet Technology Development Co Ltd
Priority to CN201911227587.9A priority Critical patent/CN111080349B/zh
Publication of CN111080349A publication Critical patent/CN111080349A/zh
Application granted granted Critical
Publication of CN111080349B publication Critical patent/CN111080349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/44Program or device authentication
    • G06F21/445Program or device authentication by mutual authentication, e.g. between devices or programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供了一种识别同一用户的多个设备的方法、装置、服务器及存储介质,方法包括:基于设备标识信息、源IP地址和时间信息,将使用相同源IP地址进行网页访问的设备标识信息,两两组合,形成第一候选跨屏对;计算第一候选跨屏对内两个设备标识信息的行为相关性;获取行为相关性大于相关性阈值的各个第一候选跨屏对,作为各个第二候选跨屏对;将各个第二候选跨屏对内两个设备标识信息对应的目标网页信息,输入至跨屏对预测模型,获得是否为真实跨屏对的预测概率;获取预测概率大于目标跨屏对阈值的各个第二候选跨屏对,分别作为同一用户的多个设备。可见,应用本发明实施例,在没有用户账户信息的情况下,也能识别出同一用户的多个设备。

Description

识别同一用户的多个设备的方法、装置、服务器及介质
技术领域
本发明涉及互联网应用技术领域,特别是涉及一种识别同一用户的多个设备的方法、装置、业务服务器及存储介质。
背景技术
在电脑PC互联网时代,用户使用电脑在互联网上浏览和购物等。但随着当今技术的进步,已经是移动互联网时代,用户使用电脑、智能手机、平板电脑等移动设备上进行浏览和购物等。
目前,很多互联网应用***都会向用户推送一些广告信息,这些广告信息大都是由广告投放***,在接收到用户通过互联网应用***发送的广告请求后,进行投放。
广告投放的目标是人,由于广告请求是从不同的互联网应用***接收到的,广告投放***没有用户的账户信息,无法获知哪些电子设备是同一个用户的,在投放广告时,无法针对一个用户的多个电子设备进行广告投放。
同样的,除了广告投放***,其他没有账户体系的业务服务***也无法识别出一个用户的多个电子设备,不能为用户提供有针对性的业务服务。
因此,亟需一种在没有用户账户信息的情况下,识别同一用户的多个电子设备的方法,以便为用户提供有针对性的服务。
发明内容
本发明实施例的目的在于提供一种识别同一用户的多个设备的方法、装置、业务服务器及存储介质,以在没有用户账户信息的情况下,能识别出同一用户的多个电子设备。具体技术方案如下:
第一方面,本发明提供一种识别同一用户的多个设备的方法,应用于业务服务器,所述业务服务器与第三方网站服务器通信连接,所述方法包括:
获得多条用户行为数据,其中,每条用户行为数据,包含:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息;
基于所述每条用户行为数据中的设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的设备标识信息,两两组合,形成至少一个第一候选跨屏对;
计算每个第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性;
获取各个第一候选跨屏对中,所述行为相关性大于预设的相关性阈值的各个第一候选跨屏对,作为各个第二候选跨屏对;
分别将第二预设时间段内,各个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,输入预先训练好的跨屏对预测模型,获得跨屏对预测模型输出的是否为真实跨屏对的预测概率;所述跨屏对预测模型为预先根据样本的各个用户行为数据中的用户访问的第三方网站的目标网页信息,对初始跨屏对预测模型进行训练获得的;
获取各个第二候选跨屏对中,所述预测概率大于预设的目标跨屏对阈值的各个第二候选跨屏对,分别作为同一用户的多个设备。
可选的,所述设备标识信息,包括:用于标识计算机设备的,在用户访问所述第三方网站的目标网页信息时生成的Cookie信息,以及用于标识移动终端设备的,在用户访问所述第三方网站的目标网页信息时获得的移动终端设备标识信息;
所述基于所述每条用户行为数据中的设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将预设时间段内,使用相同源IP地址进行网页访问的设备标识信息,两两组合,形成至少一个第一候选跨屏对的步骤,包括:
基于所述每条用户行为数据中的Cookie信息或移动终端设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的Cookie信息和移动终端设备标识信息,两两组合,形成至少一个第一候选跨屏对。
可选的,所述计算每个第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性的步骤,包括:
根据每个第一候选跨屏对在各个用户行为数据中访问目标网页所使用的源IP地址和访问所述目标网页的时间信息,计算每个第一候选跨屏对的源IP地址杰卡德系数和时间杰卡德系数;
计算每个第一候选跨屏对在各个用户行为数据中,Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与Cookie信息的源IP地址的个数的比值作为第一IP参数、Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与移动终端设备标识信息的源IP地址的个数的比值作为第二IP参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与Cookie信息出现的日期个数的比值作为第一时间参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与移动终端设备标识信息出现的日期个数的比值作为第二时间参数;
将所述源IP地址杰卡德系数、所述时间杰卡德系数、所述第一IP参数、所述第二IP参数、所述第一时间参数和所述第二时间参数输入到预先训练好的线性预测模型,获得第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性;所述线性预测模型为预先用样本的样本源IP地址杰卡德系数、样本时间杰卡德系数、样本第一IP参数、样本第二IP参数、样本第一时间参数和样本第二时间参数对初始线性模型进行训练获得的。
可选的,所述初始跨屏对预测模型为FM模型或FFM模型;
所述分别将第二预设时间段内,各个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,输入预先训练好的跨屏对预测模型,获得跨屏对预测模型输出的是否为真实跨屏对的预测概率的步骤,包括:
将第二预设时间段内,每个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,按照预设的格式转换方式,转换为FM模型或FFM模型能够识别的格式的目标数据;
将每个第二候选跨屏对的目标数据输入到预先训练好的跨屏对预测模型;
获得跨屏对预测模型输出的是否为真实跨屏对的预测概率。
可选的,所述线性预测模型,采用如下步骤预先训练获得:
获取各个正确的样本跨屏对和各个错误的样本跨屏对;
获取预先保存的各个正确的样本跨屏对和各个错误的样本跨屏对的多条样本用户行为数据,其中,每条样本用户行为数据,包含:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息;
根据每个样本跨屏对在各个用户行为数据中访问目标网页所使用的源IP地址和访问所述目标网页的时间信息,计算每个样本跨屏对的样本源IP地址杰卡德系数和样本时间杰卡德系数;
计算每个样本跨屏对在各个用户行为数据中,Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与Cookie信息的源IP地址的个数的比值作为样本第一IP参数、Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与移动终端设备标识信息的源IP地址的个数的比值作为样本第二IP参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与Cookie信息出现的日期个数的比值作为样本第一时间参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与移动终端设备标识信息出现的日期个数的比值作为样本第二时间参数;
将所述每个正确的样本跨屏对和每个错误的样本跨屏对的样本源IP地址杰卡德系数、所述样本时间杰卡德系数、所述样本第一IP参数、所述样本第二IP参数、所述样本第一时间参数和所述样本第二时间参数输入到当前初始线性模型,获得每个样本跨屏对内两个设备标识信息对应的用户行为数据之间的样本跨屏对行为相关性;
根据所述样本跨屏对行为相关性、是否为跨屏对的真实结果和预设的损失函数计算损失值;
根据预设的损失函数的损失值判断当前初始线性模型是否收敛;
如果是,则确定当前初始线性模型为训练好的线性预测模型;如果否,则调整当前初始线性模型的模型参数,返回执行所述将所述每个正确的样本跨屏对和每个错误的样本跨屏对的样本源IP地址杰卡德系数、所述样本时间杰卡德系数、所述样本第一IP参数、所述样本第二IP参数、所述样本第一时间参数和所述样本第二时间参数输入到当前初始线性模型,获得每个样本跨屏对内两个设备标识信息对应的用户行为数据之间的样本跨屏对行为相关性的步骤。
可选的,所述跨屏对预测模型,采用如下步骤预先训练获得:
根据各个正确的样本跨屏对和各个错误的样本跨屏对的多条样本用户行为数据中的用户访问的第三方网站的目标网页信息,按照预设的格式转换方式,转换为FM模型或FFM模型能够识别的格式的样本目标数据;
将每个样本跨屏对的样本目标数据输入到当前初始跨屏对预测模型中;
获得所述当前初始跨屏对预测模型输出的是否为跨屏对的预测概率;
根据所述预测概率、各个样本跨屏对是否为跨屏对的真实结果和预设的损失函数计算损失值;
根据预设的损失函数的损失值判断所述当前初始跨屏对预测模型是否收敛;
如果是,则确定所述当前初始跨屏对预测模型为训练好的跨屏对预测模型;如果否,则调整所述当前初始跨屏对预测模型的模型参数,返回执行所述将每个样本跨屏对的样本目标数据输入到当前初始跨屏对预测模型中的步骤。
第二方面,本发明提供一种识别同一用户的多个设备的装置,应用于业务服务器,所述业务服务器与第三方网站服务器通信连接,所述装置包括:
用户行为数据获得单元,用于获得多条用户行为数据,其中,每条用户行为数据,包含:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息;
第一候选跨屏对形成单元,用于基于所述每条用户行为数据中的设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的设备标识信息,两两组合,形成至少一个第一候选跨屏对;
行为相关性计算单元,用于计算每个第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性;
第二候选跨屏对获取单元,用于获取各个第一候选跨屏对中,所述行为相关性大于预设的相关性阈值的各个第一候选跨屏对,作为各个第二候选跨屏对;
预测概率获得单元,用于分别将第二预设时间段内,各个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,输入预先训练好的跨屏对预测模型,获得跨屏对预测模型输出的是否为真实跨屏对的预测概率;所述跨屏对预测模型为预先根据样本的各个用户行为数据中的用户访问的第三方网站的目标网页信息,对初始跨屏对预测模型进行训练获得的;
同一用户的多个设备获取单元,用于获取各个第二候选跨屏对中,所述预测概率大于预设的目标跨屏对阈值的各个第二候选跨屏对,分别作为同一用户的多个设备。
可选的,所述设备标识信息,包括:用于标识计算机设备的,在用户访问所述第三方网站的目标网页信息时生成的Cookie信息,以及用于标识移动终端设备的,在用户访问所述第三方网站的目标网页信息时获得的移动终端设备标识信息;
所述第一候选跨屏对形成单元,具体用于:
基于所述每条用户行为数据中的Cookie信息或移动终端设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的Cookie信息和移动终端设备标识信息,两两组合,形成至少一个第一候选跨屏对。
第三方面,本发明提供了一种业务服务器,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一识别同一用户的多个设备的方法步骤。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行上述任一识别同一用户的多个设备方法的步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的识别同一用户的多个设备方法。
可见,本发明实施例中应用每条用户行为数据中包含的:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,最终识别出同一用户的多个设备。因此,应用本发明实施例,在没有用户账户信息的情况下,也能识别出同一用户的多个设备。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的识别同一用户的多个设备的方法,应用于业务服务器,所述业务服务器与第三方网站服务器通信连接的一种流程图;
图2为本发明实施例提供的识别同一用户的多个设备的方法,应用于业务服务器,所述业务服务器与第三方网站服务器通信连接的另一种流程图;
图3为本发明实施例提供的线性预测模型的一种训练流程图;
图4为本发明实施例提供的跨屏对预测模型的一种训练流程图;
图5为本发明实施例提供的识别同一用户的多个设备的装置,应用于业务服务器,所述业务服务器与第三方网站服务器通信连接的结构示意图;
图6为本发明实施例提供的业务服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了在没有用户账户信息的情况下,能识别出同一用户的多个电子设备,本发明实施例提供了一种识别同一用户的多个设备的方法、装置、业务服务器及存储介质。
参见图1,为本发明实施例提供的识别同一用户的多个设备的方法,应用于业务服务器,所述业务服务器与第三方网站服务器通信连接,如图1所示,该方法的具体处理流程可以包括:
步骤S101,获得多条用户行为数据,其中,每条用户行为数据,包含:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息。
可实施的,所述设备标识信息,包括:用于标识计算机设备的,在用户访问所述第三方网站的目标网页信息时生成的Cookie信息,以及用于标识移动终端设备的,在用户访问所述第三方网站的目标网页信息时获得的移动终端设备标识信息。
例如:如果业务服务器为广告投放***中的广告投放服务器,第三方网站可以是设置了广告位置的视频网站、新闻网站、直播网站或购物网站等等直接为用户提供服务的网站。
可实施的,当用户访问第三方网站的目标网页时,如果目标网页中包含未被占用的广告位置时,则第三方网站服务器会向各个广告投放服务器发送一条广告请求。该广告请求中,可以包含设备标识信息、用户访问的该第三方网站的目标网页信息、访问目标网页所使用的源IP地址和访问目标网页的时间信息。所述广告投放服务器接收到该条广告请求后,将该条广告请求中的数据记录到所述广告投放服务器中。
步骤S102,基于所述每条用户行为数据中的设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的设备标识信息,两两组合,形成至少一个第一候选跨屏对。
步骤S103,计算每个第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性。
步骤S104,获取各个第一候选跨屏对中,所述行为相关性大于预设的相关性阈值的各个第一候选跨屏对,作为各个第二候选跨屏对。
步骤S105,分别将第二预设时间段内,各个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,输入预先训练好的跨屏对预测模型,获得跨屏对预测模型输出的是否为真实跨屏对的预测概率。
所述跨屏对预测模型为预先根据样本的各个用户行为数据中的用户访问的第三方网站的目标网页信息,对初始跨屏对预测模型进行训练获得的。
步骤S106,获取各个第二候选跨屏对中,所述预测概率大于预设的目标跨屏对阈值的各个第二候选跨屏对,分别作为同一用户的多个设备。
可见,本实施例中应用每条用户行为数据中包含的:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,最终识别出同一用户的多个设备。因此,应用本发明实施例,在没有用户账户信息的情况下,也能识别出同一用户的多个设备。
图2为本发明实施例提供的识别同一用户的多个设备,应用于业务服务器,所述业务服务器与第三方网站服务器通信连接的方法的另一种流程图,如图2所示,包括:
步骤S201,获得多条用户行为数据,其中,每条用户行为数据,包含:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息;所述设备标识信息,包括:用于标识计算机设备的,在用户访问所述第三方网站的目标网页信息时生成的Cookie信息,以及用于标识移动终端设备的,在用户访问所述第三方网站的目标网页信息时获得的移动终端设备标识信息。
例如:当业务服务器是广告投放***中的广告投放服务器时,其将每次从第三方网站服务器接收到的广告请求中的用户行为数据保存至广告投放服务器的数据库表中。数据库表可以按时间先后顺序进行保存。
可实施的,一种数据库表的示例可以如表一所示:
表一
Figure BDA0002302673390000101
本实施例中,可以从该数据库中,获得多条用户行为数据。
可实施的,Cookie信息用于标识计算机设备;移动终端设备标识用于标识移动终端设备。可实施的,移动终端设备标识为Device ID,但是有的情况下,例如:某种型号的手机,可以通过权限设置,设置了权限禁止获取Device ID,这种情况下,就用Cookie信息标识该移动终端设备,但是在该用户行为数据中会标识出该Cookie信息标识的是移动终端设备。
步骤S202,基于所述每条用户行为数据中的Cookie信息或移动终端设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的Cookie信息和移动终端设备标识信息,两两组合,形成至少一个第一候选跨屏对。
可实施的,第一预设时间段可以为7天,可以将第一预设时间段中,每一天使用相同源IP地址进行网页访问的设备标识信息,两两组合,标注为每天的候选跨屏对;将第一预设时间段中,有多天都被标注为候选跨屏对的两个设备标识信息作为第一候选跨屏对。例如,在7天中有5天都被标注为候选跨屏对的两个设备标识信息作为第一候选跨屏对。
例如,在表一中,在日期1中,Cookie1和移动终端设备标识1都使用了IP2,则将Cookie1和移动终端设备标识1作为日期1的一个候选跨屏对;Cookie1和移动终端设备标识2都使用了IP3,则将Cookie1和移动终端设备标识2作为日期1的一个候选跨屏对;
在日期2中,Cookie1和移动终端设备标识1都使用了IP2,则将Cookie1和移动终端设备标识1作为日期2的一个候选跨屏对;
以此类推,获得每天的候选跨屏对,进而用上述方法获得第一候选跨屏对。
可实施的,有些情况下,例如,一个公司有很多员工可能会在各自的设备上,用同一个源IP地址上网,但是这些设备并不是同一个用户的。所以在本步骤之前,可以:计算一天中使用同一源IP地址上网的Cookie信息和移动终端设备标识信息的数量;如果该数量超过预设阈值,则将数量超过预设阈值的各个用户行为数据去除,基于剩余的每条用户行为数据中的Cookie信息或移动终端设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的Cookie信息和移动终端设备标识信息,两两组合,形成至少一个第一候选跨屏对。例如,如果一天中,使用IP1的Cookie信息和移动终端设备标识信息的总个数为100个,则舍掉这部分用户行为数据。用这种方式,将这种情况的数据剔除,使用的用户行为数据较准确,进而提高对同一用户的多个设备进行识别的准确率。
进一步的,可以计算各个第一候选跨屏对中的Cookie信息和移动终端设备标识信息在每天的各个用户行为数据中当天最后一次出现的时间与当天第一次出现的时间之差作为每天的上网时长;计算每个Cookie信息在预设天数中的上网时长之和与该Cookie信息在预设天数中出现的天数的比值作为第一比值,以及每个移动终端设备标识信息在预设天数中的上网时长之和与该移动终端设备标识信息在预设天数中出现的天数的比值作为第二比值;当第一候选跨屏对中的第一比值或第二比值大于预设的上网时长阈值时,将所述第一候选跨屏对作为数据错误跨屏对。
也就是分别计算Cookie信息和移动终端设备标识信息每天的上网时长,例如:Cookie信息在7天中出现5天,这5天中的上网时长之和为125,则第一比值为:125除以5等于25;移动终端设备标识信息在7天中出现6天,这6天中的上网时长之和为96,则第二比值为:96除以6等于16。上网时长阈值可以为20小时,本示例中,25大于20,则将数据错误跨屏对从第一候选跨屏对中剔除。用这种方式,可以将错误数据进一步剔除,进而获得的第一候选跨屏对为同一用户的设备可能性较大,提高了对跨屏对进行识别的准确率。
步骤S203,根据每个第一候选跨屏对在各个用户行为数据中访问目标网页所使用的源IP地址和访问所述目标网页的时间信息,计算每个第一候选跨屏对的源IP地址杰卡德系数和时间杰卡德系数。
可实施的,源IP地址杰卡德系数为:Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与,Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的并集中的源IP地址个数的比值。
源IP地址杰卡德系数公式具体为:
Figure BDA0002302673390000121
其中,Jip为源IP地址杰卡德系数。
例如:Cookie1和移动终端设备标识1为第一候选跨屏对。在28天中,Cookie1使用了IP1、IP2、IP3、IP4和IP8。移动终端设备标识1使用了IP1、IP2和IP9。因为交集为IP1和IP2,个数为2;并集为IP1、IP2、IP3、IP4、IP8和IP9,个数为6。则源IP地址杰卡德系数为:三分之一。
时间杰卡德系数为:Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期的数量与,Cookie信息出现的日期与移动终端设备标识信息出现的日期的并集中的日期的数量的比值。
时间杰卡德系数公式具体为:
Figure BDA0002302673390000122
其中,J时间为时间杰卡德系数。
例如:Cookie1和移动终端设备标识1为第一候选跨屏对。在28天中,Cookie1出现的日期为:第1、2、3、4、5、6、7和第11天,移动终端设备标识信息1出现的日期为:第1、2、3、5、6、8和第11天,则日期的交集为:第1、2、3、5、6和第11天,交集中的日期的数量为6个;日期的并集为:第1、2、3、4、5、6、7、8和第11天,为9个。则时间杰卡德系数为:6除以9等于三分之二。
步骤S204,计算每个第一候选跨屏对在各个用户行为数据中,Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与Cookie信息的源IP地址的个数的比值作为第一IP参数、Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与移动终端设备标识信息的源IP地址的个数的比值作为第二IP参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与Cookie信息出现的日期个数的比值作为第一时间参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与移动终端设备标识信息出现的日期个数的比值作为第二时间参数。
例如:Cookie1和移动终端设备标识1为第一候选跨屏对。在28天中,Cookie1使用了IP1、IP2、IP3、IP4和IP8,使用的IP地址的个数为5;移动终端设备标识1使用了IP1、IP2和IP9,使用的IP地址的个数为3。交集为IP1和IP2,个数为2。则第一IP参数为:2除以5等于五分之二;第二IP参数为:2除以3等于三分之二。
在28天中,Cookie1出现的日期为:第1、2、3、4、5、6、7和第11天,出现的日期的个数为8;移动终端设备标识信息1出现的日期为:第1、2、3、5、6、8和第11天,出现的日期的个数为7。则日期的交集为:第1、2、3、5、6和第11天,交集中的日期的数量为6个。则第一时间参数为:6除以8等于四分之三;第二时间参数为:6除以7等于七分之六。
步骤S205,将所述源IP地址杰卡德系数、所述时间杰卡德系数、所述第一IP参数、所述第二IP参数、所述第一时间参数和所述第二时间参数输入到预先训练好的线性预测模型,获得第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性。
所述线性预测模型为预先用样本的样本源IP地址杰卡德系数、样本时间杰卡德系数、样本第一IP参数、样本第二IP参数、样本第一时间参数和样本第二时间参数对初始线性模型进行训练获得的。
步骤S206,获取各个第一候选跨屏对中,所述行为相关性大于预设的相关性阈值的各个第一候选跨屏对,作为各个第二候选跨屏对。
步骤S207,将第二预设时间段内,每个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,按照预设的格式转换方式,转换为FM模型或FFM模型能够识别的格式的目标数据。
可实施的,第二预设时间段可以为7、14和28等天数。
可实施的,可以先按照特征映射关系表将目标网页信息转换为特征映射值,再将特征映射值转换为FM模型或FFM模型能够识别的格式的目标数据。可实施的,一种特征映射关系表的示例,如表二所示:
表二
目标网页 特征映射值
目标网页1 5
目标网页2 3
如表二所示,目标网页1转换为特征映射值后为“5”;目标网页2转换为特征映射值后为“3”。本表只是进行举例说明,特征映射关系表的具体形式不做限定。
可实施的,转换为特征映射值后,再转换为FM模型或FFM模型能够识别的Libsvm格式的数据。
步骤S208,将每个第二候选跨屏对的目标数据输入到预先训练好的跨屏对预测模型。
所述跨屏对预测模型为预先根据样本的各个用户行为数据中的用户访问的第三方网站的目标网页信息,对初始跨屏对预测模型进行训练获得的。
可实施的,所述初始跨屏对预测模型为FM模型或FFM模型。
步骤S209,获得跨屏对预测模型输出的是否为真实跨屏对的预测概率。
步骤S210,获取各个第二候选跨屏对中,所述预测概率大于预设的目标跨屏对阈值的各个第二候选跨屏对,分别作为同一用户的多个设备。
可实施的,目标跨屏对阈值可以为0.8、0.85和0.9等值。
可实施的,如果经过上述步骤确定出:Cookie1和移动终端设备标识1为同一用户的多个设备,Cookie1和移动终端设备标识2也为同一用户的多个设备,则表明Cookie1、移动终端设备标识1和移动终端设备标识2为同一用户的多个设备。
可见,应用本发明实施例,在没有用户账户信息的情况下,也能识别出同一用户的多个设备。
而且,在本发明实施例中,根据源IP地址获得第一候选跨屏对;基于线性预测模型获得每个第一候选跨屏对中的两个设备标识信息对应的用户行为数据之间的行为相关性,进一步对线性预测模型进行筛选,获得第二候选跨屏对;将每个第二候选跨屏对的用户行为数据中的用户访问的第三方网站的目标网页信息,输入到跨屏对预测模型,获得跨屏对预测模型输出的预测概率,进而对第二候选跨屏对进行筛选,获得同一用户的多个设备。用这种方式,逐层提高对跨屏对识别的准确率,获得的同一用户的多个设备的准确率较高。
可实施的,上述实施例提到的线性预测模型的训练流程可以参见图3。
如图3所示,为本发明实施例提供的线性预测模型的一种训练流程图,可以包括:
步骤S301,获取各个正确的样本跨屏对和各个错误的样本跨屏对。
可实施的,可以预先获得正确的样本跨屏对。对正确的样本跨屏对进行错误的组合,获得不是跨屏对的样本作为错误的样本跨屏对。
步骤S302,获取预先保存的各个正确的样本跨屏对和各个错误的样本跨屏对的多条样本用户行为数据,其中,每条样本用户行为数据,包含:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息。
步骤S303,根据每个样本跨屏对在各个用户行为数据中访问目标网页所使用的源IP地址和访问所述目标网页的时间信息,计算每个样本跨屏对的样本源IP地址杰卡德系数和样本时间杰卡德系数。
步骤S304,计算每个样本跨屏对在各个用户行为数据中,Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与Cookie信息的源IP地址的个数的比值作为样本第一IP参数、Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与移动终端设备标识信息的源IP地址的个数的比值作为样本第二IP参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与Cookie信息出现的日期个数的比值作为样本第一时间参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与移动终端设备标识信息出现的日期个数的比值作为样本第二时间参数。
步骤S305,将所述每个正确的样本跨屏对和每个错误的样本跨屏对的样本源IP地址杰卡德系数、所述样本时间杰卡德系数、所述样本第一IP参数、所述样本第二IP参数、所述样本第一时间参数和所述样本第二时间参数输入到当前初始线性模型,获得每个样本跨屏对内两个设备标识信息对应的用户行为数据之间的样本跨屏对行为相关性。
步骤S306,根据所述样本跨屏对行为相关性、是否为跨屏对的真实结果和预设的损失函数计算损失值。
步骤S307,根据预设的损失函数的损失值判断当前初始线性模型是否收敛。
可实施的,预设的损失函数具体可以为:
Figure BDA0002302673390000161
其中,yi为样本跨屏对是否为跨屏对的真实结果,y′i为预测的样本跨屏对行为相关性,n为样本跨屏对的个数,i表示第几个样本跨屏对,Loss为损失函数的值。
如果判断的结果为否,即当前初始线性模型未收敛,则执行步骤S308;如果判断的结果为是,即当前初始线性模型收敛,则执行步骤S309。
步骤S308,调整当前初始线性模型的模型参数。返回执行步骤S305。
可实施的,可以采用梯度下降法调整模型参数。
可实施的,所述当前初始线性模型的模型函数可以为:
y=ωx+b;
其中,x为输入到模型中的样本源IP地址杰卡德系数、样本时间杰卡德系数、样本第一IP参数、样本第二IP参数、样本第一时间参数和样本第二时间参数构成的向量;ω和b为待训练的模型参数,其中ω为:样本源IP地址杰卡德系数、样本时间杰卡德系数、样本第一IP参数、样本第二IP参数、样本第一时间参数和样本第二时间参数前的各个系数构成的向量;y为行为相关性。
步骤S309,确定当前初始线性模型为训练好的线性预测模型。
可见,应用本发明实施例,可以对初始线性模型进行训练,获得好的线性预测模型,预测出每个第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性,进而获得第二候选跨屏对。
可实施的,在图3所示的实施例中,已经获取了预先保存的各个正确的样本跨屏对和各个错误的样本跨屏对的多条样本用户行为数据,则上述实施例提到的线性预测模型的训练流程可以参见图4。
如图4所示,为本发明实施例提供的跨屏对预测模型的一种训练流程图,可以包括:
步骤S401,根据各个正确的样本跨屏对和各个错误的样本跨屏对的多条样本用户行为数据中的用户访问的第三方网站的目标网页信息,按照预设的格式转换方式,转换为FM模型或FFM模型能够识别的格式的样本目标数据。
步骤S402,将每个样本跨屏对的样本目标数据输入到当前初始跨屏对预测模型中。
可实施的,当前初始跨屏对预测模型为FM模型或FFM模型。
步骤S403,获得所述当前初始跨屏对预测模型输出的是否为跨屏对的预测概率。
步骤S404,根据所述预测概率、各个样本跨屏对是否为跨屏对的真实结果和预设的损失函数计算损失值。
可实施的,预设的损失函数可以为:
Figure BDA0002302673390000181
其中,yi为样本跨屏对是否为跨屏对的真实结果,y′i为预测概率,n为样本跨屏对的个数,i表示第几个样本跨屏对,Loss为损失函数的值。可实施的,也可以使用其他损失函数,在这里不做具体限定。
步骤S405,根据预设的损失函数的损失值判断所述当前初始跨屏对预测模型是否收敛。
如果判断的结果为否,即所述当前初始跨屏对预测模型未收敛,则执行步骤S406;如果判断的结果为是,即所述当前初始跨屏对预测模型收敛,则执行步骤S407。
步骤S406,调整所述当前初始跨屏对预测模型的模型参数。返回执行步骤S402。
可实施的,可以采用梯度下降法调整模型参数。
可实施的,所述当前初始跨屏对预测模型的模型函数可以为:
Figure BDA0002302673390000182
其中,w0、wi和(vi,vj)为待训练的模型参数;xi和xj为一个样本跨屏对的各个样本目标数据;其中i和j表示为这个样本跨屏对的第几个样本目标数据。
其中(vi,vj)为隐向量,表示两个多维向量vi和vj的点积。
步骤S407,确定所述当前初始跨屏对预测模型为训练好的跨屏对预测模型。
可见,应用本发明实施例,可以对FM或FFM模型进行训练,获得好的跨屏对预测模型,进而在没有用户账户信息的情况下,也能识别出同一用户的多个设备。
本发明实施例提供的识别同一用户的多个设备的装置,应用于业务服务器,所述业务服务器与第三方网站服务器通信连接的结构示意图,如图5所示,所述装置包括:
用户行为数据获得单元501,用于获得多条用户行为数据,其中,每条用户行为数据,包含:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息;
第一候选跨屏对形成单元502,用于基于所述每条用户行为数据中的设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的设备标识信息,两两组合,形成至少一个第一候选跨屏对;
行为相关性计算单元503,用于计算每个第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性;
第二候选跨屏对获取单元504,用于获取各个第一候选跨屏对中,所述行为相关性大于预设的相关性阈值的各个第一候选跨屏对,作为各个第二候选跨屏对;
预测概率获得单元505,用于分别将第二预设时间段内,各个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,输入预先训练好的跨屏对预测模型,获得跨屏对预测模型输出的是否为真实跨屏对的预测概率;所述跨屏对预测模型为预先根据样本的各个用户行为数据中的用户访问的第三方网站的目标网页信息,对初始跨屏对预测模型进行训练获得的;
同一用户的多个设备获取单元506,用于获取各个第二候选跨屏对中,所述预测概率大于预设的目标跨屏对阈值的各个第二候选跨屏对,分别作为同一用户的多个设备。
可选的,所述设备标识信息,包括:用于标识计算机设备的,在用户访问所述第三方网站的目标网页信息时生成的Cookie信息,以及用于标识移动终端设备的,在用户访问所述第三方网站的目标网页信息时获得的移动终端设备标识信息;
所述第一候选跨屏对形成单元,具体用于:
基于所述每条用户行为数据中的Cookie信息或移动终端设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的Cookie信息和移动终端设备标识信息,两两组合,形成至少一个第一候选跨屏对。
可见,应用本发明实施例,在没有用户账户信息的情况下,也能识别出同一用户的多个设备。
本发明实施例还提供了一种业务服务器,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
获得多条用户行为数据,其中,每条用户行为数据,包含:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息;
基于所述每条用户行为数据中的设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的设备标识信息,两两组合,形成至少一个第一候选跨屏对;
计算每个第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性;
获取各个第一候选跨屏对中,所述行为相关性大于预设的相关性阈值的各个第一候选跨屏对,作为各个第二候选跨屏对;
分别将第二预设时间段内,各个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,输入预先训练好的跨屏对预测模型,获得跨屏对预测模型输出的是否为真实跨屏对的预测概率;所述跨屏对预测模型为预先根据样本的各个用户行为数据中的用户访问的第三方网站的目标网页信息,对初始跨屏对预测模型进行训练获得的;
获取各个第二候选跨屏对中,所述预测概率大于预设的目标跨屏对阈值的各个第二候选跨屏对,分别作为同一用户的多个设备。
可见,应用本发明实施例,在没有用户账户信息的情况下,也能识别出同一用户的多个设备。
可实施的,业务服务器为电子设备。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一识别同一用户的多个设备的方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一识别同一用户的多个设备的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质及计算机程序产品等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种识别同一用户的多个设备的方法,其特征在于,应用于业务服务器,所述业务服务器与第三方网站服务器通信连接,所述方法包括:
获得多条用户行为数据,其中,每条用户行为数据,包含:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息;
基于所述每条用户行为数据中的设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的设备标识信息,两两组合,形成至少一个第一候选跨屏对;
计算每个第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性;
获取各个第一候选跨屏对中,所述行为相关性大于预设的相关性阈值的各个第一候选跨屏对,作为各个第二候选跨屏对;
分别将第二预设时间段内,各个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,输入预先训练好的跨屏对预测模型,获得跨屏对预测模型输出的是否为真实跨屏对的预测概率;所述跨屏对预测模型为预先根据样本的各个用户行为数据中的用户访问的第三方网站的目标网页信息,对初始跨屏对预测模型进行训练获得的;
获取各个第二候选跨屏对中,所述预测概率大于预设的目标跨屏对阈值的各个第二候选跨屏对,分别作为同一用户的多个设备。
2.根据权利要求1所述的方法,其特征在于,所述设备标识信息,包括:用于标识计算机设备的,在用户访问所述第三方网站的目标网页信息时生成的Cookie信息,以及用于标识移动终端设备的,在用户访问所述第三方网站的目标网页信息时获得的移动终端设备标识信息;
所述基于所述每条用户行为数据中的设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将预设时间段内,使用相同源IP地址进行网页访问的设备标识信息,两两组合,形成至少一个第一候选跨屏对的步骤,包括:
基于所述每条用户行为数据中的Cookie信息或移动终端设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的Cookie信息和移动终端设备标识信息,两两组合,形成至少一个第一候选跨屏对。
3.根据权利要求2所述的方法,其特征在于,所述计算每个第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性的步骤,包括:
根据每个第一候选跨屏对在各个用户行为数据中访问目标网页所使用的源IP地址和访问所述目标网页的时间信息,计算每个第一候选跨屏对的源IP地址杰卡德系数和时间杰卡德系数;
计算每个第一候选跨屏对在各个用户行为数据中,Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与Cookie信息的源IP地址的个数的比值作为第一IP参数、Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与移动终端设备标识信息的源IP地址的个数的比值作为第二IP参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与Cookie信息出现的日期个数的比值作为第一时间参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与移动终端设备标识信息出现的日期个数的比值作为第二时间参数;
将所述源IP地址杰卡德系数、所述时间杰卡德系数、所述第一IP参数、所述第二IP参数、所述第一时间参数和所述第二时间参数输入到预先训练好的线性预测模型,获得第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性;所述线性预测模型为预先用样本的样本源IP地址杰卡德系数、样本时间杰卡德系数、样本第一IP参数、样本第二IP参数、样本第一时间参数和样本第二时间参数对初始线性模型进行训练获得的。
4.根据权利要求3所述的方法,其特征在于,所述初始跨屏对预测模型为FM模型或FFM模型;
所述分别将第二预设时间段内,各个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,输入预先训练好的跨屏对预测模型,获得跨屏对预测模型输出的是否为真实跨屏对的预测概率的步骤,包括:
将第二预设时间段内,每个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,按照预设的格式转换方式,转换为FM模型或FFM模型能够识别的格式的目标数据;
将每个第二候选跨屏对的目标数据输入到预先训练好的跨屏对预测模型;
获得跨屏对预测模型输出的是否为真实跨屏对的预测概率。
5.根据权利要求4所述的方法,其特征在于,所述线性预测模型,采用如下步骤预先训练获得:
获取各个正确的样本跨屏对和各个错误的样本跨屏对;
获取预先保存的各个正确的样本跨屏对和各个错误的样本跨屏对的多条样本用户行为数据,其中,每条样本用户行为数据,包含:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息;
根据每个样本跨屏对在各个用户行为数据中访问目标网页所使用的源IP地址和访问所述目标网页的时间信息,计算每个样本跨屏对的样本源IP地址杰卡德系数和样本时间杰卡德系数;
计算每个样本跨屏对在各个用户行为数据中,Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与Cookie信息的源IP地址的个数的比值作为样本第一IP参数、Cookie信息的源IP地址和移动终端设备标识信息的源IP地址的交集中的源IP地址个数与移动终端设备标识信息的源IP地址的个数的比值作为样本第二IP参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与Cookie信息出现的日期个数的比值作为样本第一时间参数、Cookie信息出现的日期与移动终端设备标识信息出现的日期的交集中的日期个数与移动终端设备标识信息出现的日期个数的比值作为样本第二时间参数;
将所述每个正确的样本跨屏对和每个错误的样本跨屏对的样本源IP地址杰卡德系数、所述样本时间杰卡德系数、所述样本第一IP参数、所述样本第二IP参数、所述样本第一时间参数和所述样本第二时间参数输入到当前初始线性模型,获得每个样本跨屏对内两个设备标识信息对应的用户行为数据之间的样本跨屏对行为相关性;
根据所述样本跨屏对行为相关性、是否为跨屏对的真实结果和预设的损失函数计算损失值;
根据预设的损失函数的损失值判断当前初始线性模型是否收敛;
如果是,则确定当前初始线性模型为训练好的线性预测模型;如果否,则调整当前初始线性模型的模型参数,返回执行所述将所述每个正确的样本跨屏对和每个错误的样本跨屏对的样本源IP地址杰卡德系数、所述样本时间杰卡德系数、所述样本第一IP参数、所述样本第二IP参数、所述样本第一时间参数和所述样本第二时间参数输入到当前初始线性模型,获得每个样本跨屏对内两个设备标识信息对应的用户行为数据之间的样本跨屏对行为相关性的步骤。
6.根据权利要求5所述的方法,其特征在于,
所述跨屏对预测模型,采用如下步骤预先训练获得:
根据各个正确的样本跨屏对和各个错误的样本跨屏对的多条样本用户行为数据中的用户访问的第三方网站的目标网页信息,按照预设的格式转换方式,转换为FM模型或FFM模型能够识别的格式的样本目标数据;
将每个样本跨屏对的样本目标数据输入到当前初始跨屏对预测模型中;
获得所述当前初始跨屏对预测模型输出的是否为跨屏对的预测概率;
根据所述预测概率、各个样本跨屏对是否为跨屏对的真实结果和预设的损失函数计算损失值;
根据预设的损失函数的损失值判断所述当前初始跨屏对预测模型是否收敛;
如果是,则确定所述当前初始跨屏对预测模型为训练好的跨屏对预测模型;如果否,则调整所述当前初始跨屏对预测模型的模型参数,返回执行所述将每个样本跨屏对的样本目标数据输入到当前初始跨屏对预测模型中的步骤。
7.一种识别同一用户的多个设备的装置,其特征在于,应用于业务服务器,所述业务服务器与第三方网站服务器通信连接,所述装置包括:
用户行为数据获得单元,用于获得多条用户行为数据,其中,每条用户行为数据,包含:设备标识信息、用户访问的第三方网站的目标网页信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息;
第一候选跨屏对形成单元,用于基于所述每条用户行为数据中的设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的设备标识信息,两两组合,形成至少一个第一候选跨屏对;
行为相关性计算单元,用于计算每个第一候选跨屏对内两个设备标识信息对应的用户行为数据之间的行为相关性;
第二候选跨屏对获取单元,用于获取各个第一候选跨屏对中,所述行为相关性大于预设的相关性阈值的各个第一候选跨屏对,作为各个第二候选跨屏对;
预测概率获得单元,用于分别将第二预设时间段内,各个第二候选跨屏对内两个设备标识信息对应的用户行为数据中的用户访问的第三方网站的目标网页信息,输入预先训练好的跨屏对预测模型,获得跨屏对预测模型输出的是否为真实跨屏对的预测概率;所述跨屏对预测模型为预先根据样本的各个用户行为数据中的用户访问的第三方网站的目标网页信息,对初始跨屏对预测模型进行训练获得的;
同一用户的多个设备获取单元,用于获取各个第二候选跨屏对中,所述预测概率大于预设的目标跨屏对阈值的各个第二候选跨屏对,分别作为同一用户的多个设备。
8.根据权利要求7所述的装置,其特征在于,所述设备标识信息,包括:用于标识计算机设备的,在用户访问所述第三方网站的目标网页信息时生成的Cookie信息,以及用于标识移动终端设备的,在用户访问所述第三方网站的目标网页信息时获得的移动终端设备标识信息;
所述第一候选跨屏对形成单元,具体用于:
基于所述每条用户行为数据中的Cookie信息或移动终端设备标识信息、访问所述目标网页所使用的源IP地址和访问所述目标网页的时间信息,将第一预设时间段内,使用相同源IP地址进行网页访问的Cookie信息和移动终端设备标识信息,两两组合,形成至少一个第一候选跨屏对。
9.一种业务服务器,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN201911227587.9A 2019-12-04 2019-12-04 识别同一用户的多个设备的方法、装置、服务器及介质 Active CN111080349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911227587.9A CN111080349B (zh) 2019-12-04 2019-12-04 识别同一用户的多个设备的方法、装置、服务器及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911227587.9A CN111080349B (zh) 2019-12-04 2019-12-04 识别同一用户的多个设备的方法、装置、服务器及介质

Publications (2)

Publication Number Publication Date
CN111080349A true CN111080349A (zh) 2020-04-28
CN111080349B CN111080349B (zh) 2023-04-21

Family

ID=70312791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911227587.9A Active CN111080349B (zh) 2019-12-04 2019-12-04 识别同一用户的多个设备的方法、装置、服务器及介质

Country Status (1)

Country Link
CN (1) CN111080349B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559872A (zh) * 2020-12-21 2021-03-26 上海明略人工智能(集团)有限公司 设备间用户识别方法、***、计算机设备及存储介质
CN114491315A (zh) * 2022-02-08 2022-05-13 联想(北京)有限公司 一种信息处理方法、装置和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447148A (zh) * 2015-11-26 2016-03-30 上海晶赞科技发展有限公司 一种Cookie标识关联方法及装置
US20160162937A1 (en) * 2014-12-05 2016-06-09 Hitesh Chawla Method and system for identifying users across multiple communication devices
CN105677844A (zh) * 2016-01-06 2016-06-15 北京摩比万思科技有限公司 一种移动广告大数据的定向推送及用户跨屏识别方法
CN106445942A (zh) * 2015-08-05 2017-02-22 腾讯科技(北京)有限公司 一种用户跨屏识别方法和装置
US20170078415A1 (en) * 2015-09-15 2017-03-16 Yahoo! Inc. Identifying Users' Identity Through Tracking Common Activity
CN106528777A (zh) * 2016-10-27 2017-03-22 北京百分点信息科技有限公司 跨屏用户标识归一的方法及其***
US20170337588A1 (en) * 2016-04-19 2017-11-23 Anto Chittilappilly Cross-device message touchpoint attribution
CN108197190A (zh) * 2017-12-26 2018-06-22 北京秒针信息咨询有限公司 一种用户识别的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160162937A1 (en) * 2014-12-05 2016-06-09 Hitesh Chawla Method and system for identifying users across multiple communication devices
CN106445942A (zh) * 2015-08-05 2017-02-22 腾讯科技(北京)有限公司 一种用户跨屏识别方法和装置
US20170078415A1 (en) * 2015-09-15 2017-03-16 Yahoo! Inc. Identifying Users' Identity Through Tracking Common Activity
CN105447148A (zh) * 2015-11-26 2016-03-30 上海晶赞科技发展有限公司 一种Cookie标识关联方法及装置
CN105677844A (zh) * 2016-01-06 2016-06-15 北京摩比万思科技有限公司 一种移动广告大数据的定向推送及用户跨屏识别方法
US20170337588A1 (en) * 2016-04-19 2017-11-23 Anto Chittilappilly Cross-device message touchpoint attribution
CN106528777A (zh) * 2016-10-27 2017-03-22 北京百分点信息科技有限公司 跨屏用户标识归一的方法及其***
CN108197190A (zh) * 2017-12-26 2018-06-22 北京秒针信息咨询有限公司 一种用户识别的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559872A (zh) * 2020-12-21 2021-03-26 上海明略人工智能(集团)有限公司 设备间用户识别方法、***、计算机设备及存储介质
CN114491315A (zh) * 2022-02-08 2022-05-13 联想(北京)有限公司 一种信息处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN111080349B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN107885796B (zh) 信息推荐方法及装置、设备
US20140310691A1 (en) Method and device for testing multiple versions
CN108965951B (zh) 广告的播放方法及装置
CN108335131B (zh) 一种预估用户年龄段的方法、装置及电子设备
WO2016015444A1 (zh) 一种目标用户的确定方法、设备和网络服务器
CN111783810B (zh) 用于确定用户的属性信息的方法和装置
CN109165691B (zh) 用于识别作弊用户的模型的训练方法、装置及电子设备
CN110019382B (zh) 用户亲密度指数确定方法、装置、存储介质及电子设备
CN108062418B (zh) 一种数据搜索方法、装置及服务器
CN112669078A (zh) 一种行为预测模型训练方法、装置、设备及存储介质
CN111080349B (zh) 识别同一用户的多个设备的方法、装置、服务器及介质
CN108768743B (zh) 一种用户识别方法、装置及服务器
CN109151521B (zh) 一种用户原创值获取方法、装置、服务器及存储介质
JP2011227721A (ja) 関心抽出装置、関心抽出方法、及び関心抽出プログラム
CN111080374A (zh) 广告投放策略的测试方法、竞价服务器及广告投放***
CN112836128A (zh) 信息推荐方法、装置、设备和存储介质
CN110909258B (zh) 一种信息推荐方法、装置、设备及存储介质
CN114298326A (zh) 模型训练方法、装置及模型训练***
CN112883275B (zh) 一种直播间推荐方法、装置、服务器及介质
CN108647986B (zh) 一种目标用户确定方法、装置及电子设备
CN110996142B (zh) 视频召回方法及装置、电子设备及存储介质
CN111597380B (zh) 一种推荐视频确定方法、装置、电子设备及存储介质
CN113256330A (zh) 信息投放效果归因方法和装置
CN110442801B (zh) 一种目标事件的关注用户的确定方法及装置
WO2021048902A1 (ja) 学習モデル適用システム、学習モデル適用方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant