CN108305099B - 确定代购用户的方法及装置 - Google Patents

确定代购用户的方法及装置 Download PDF

Info

Publication number
CN108305099B
CN108305099B CN201810050530.5A CN201810050530A CN108305099B CN 108305099 B CN108305099 B CN 108305099B CN 201810050530 A CN201810050530 A CN 201810050530A CN 108305099 B CN108305099 B CN 108305099B
Authority
CN
China
Prior art keywords
users
user
determining
purchasing
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810050530.5A
Other languages
English (en)
Other versions
CN108305099A (zh
Inventor
董泽伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Nova Technology Singapore Holdings Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201810050530.5A priority Critical patent/CN108305099B/zh
Publication of CN108305099A publication Critical patent/CN108305099A/zh
Application granted granted Critical
Publication of CN108305099B publication Critical patent/CN108305099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书披露的实施例提供一种确定代购用户的方法。该方法包括:确定在预定时刻位于境外的多个用户,并根据多个用户和预先存储的代购用户样本集,确定标注用户和未标注用户。接着,确定标注用户和未标注用户中各个用户所对应的与出境相关的特征信息,并根据特征信息,通过基于半监督学习的算法确定多个用户中包括的代购用户。

Description

确定代购用户的方法及装置
技术领域
本说明书披露的多个实施例涉及互联网技术领域,尤其涉及一种确定代购用户的方法及装置。
背景技术
代购服务是指由代购商或者经常出入境的个人帮消费者购买所需商品。代购行业产生的原因包括:消费者在其所在地无法购买到所需商品,或者消费者所需商品在其所在地的价格比在境外的价格贵,或者消费者为了买到正品而希望从商品的原产地购买等。而代购人员可以根据消费者的需求(如,购买澳洲奶粉),定期去境外(如,澳洲)购买商品,然后通过快递寄送到境内或者直接携带到境内,在满足消费者需求的同时从中赚取差价。
代购人员在采购商品时往往会消费较大的金额,但目前尚不存在识别代购人员的方法,进而使得服务平台(如,支付平台)无法针对其用户中的代购人员提供个性化服务(如,推送国外商家优惠券等)。因此,需要提供一种可靠的方法,以识别出代购用户,从而为其提供个性化服务。
发明内容
本说明书描述了一种确定代购用户的方法及装置,通过确定在预定时刻位于境外的代购用户,从而为这些代购用户提供个性化服务。
第一方面,提供了一种确定代购用户的方法。该方法包括:
确定在预定时刻位于境外的多个用户;
根据所述多个用户和预先存储的代购用户样本集,确定标注用户和未标注用户;
确定所述标注用户和所述未标注用户中各个用户所对应的与出境相关的特征信息;
根据所述特征信息,通过基于半监督学习的算法确定所述多个用户中包括的代购用户。
在一种可能的实施方式中,所述确定在预定时刻位于境外的多个用户,包括:
获取用户在预定时刻的位置信息,根据所述位置信息确定该用户是否位于境外。
在一种可能的实施方式中,所述代购用户样本集至少基于预设时间段内样本用户的位置信息和交易记录而确定。
在一种可能的实施方式中,所述代购用户样本集还基于样本用户所提供的服务类别而确定。
在一种可能的实施方式中,所述确定标注用户和未标注用户,包括:
将所述代购用户样本集中的样本用户作为标注用户,并将所述多个用户作为未标注用户;或者,
将所述代购用户样本集中的样本用户作为标注用户,并将所述多个用户中未存在于代购用户样本集中的用户作为未标注用户;或者,
将所述多个用户中存在于所述代购用户样本集中的用户作为标注用户,并将所述多个用户中除所述标注用户以外的用户作为未标注用户。
在一种可能的实施方式中,所述特征信息包括单次出境的平均时长、出境的平均间隔时长、境外支付笔数、平均每笔的支付金额和与商家的交易频次中的至少一个。
在一种可能的实施方式中,所述通过基于半监督学习的算法确定所述多个用户中包括的代购用户,包括:
确定所述标注用户和所述未标注用户中任意两个用户之间的相似度;
根据所述相似度确定相应两个用户之间的传播概率;
根据所述传播概率,确定所述未标注用户中各个用户属于代购用户的概率。
在一种可能的实施方式中,所述特征信息为多个特征信息,所述确定所述标注用户和所述未标注用户中任意两个用户之间的相似度,包括:
根据所述多个特征信息中各个特征信息对应的特征分数和权重,采用加权求和的方式确定该用户的特征值;
根据任意两个用户的特征值,确定相应两个用户之间的相似度。
在一种可能的实施方式中,所述通过半监督学习的算法确定所述多个用户中包括的代购用户,还包括:
根据所述概率,将其中不小于预设阈值的概率所对应的未标注用户,作为所述代购用户。
第二方面,提供了一种确定代购用户的装置。该装置包括:
第一确定单元,用于确定在预定时刻位于境外的多个用户;
第二确定单元,用于根据所述多个用户和预先存储的代购用户样本集,确定标注用户和未标注用户;
第三确定单元,用于确定所述标注用户和所述未标注用户中各个用户所对应的与出境相关的特征信息;
第四确定单元,用于根据所述特征信息,通过基于半监督学习的算法确定所述多个用户中包括的代购用户。
在一种可能的实施方式中,第一确定的单元具体用于:
获取用户在预定时刻的位置信息,根据所述位置信息确定该用户是否位于境外。
在一种可能的实施方式中,所述第二确定单元中的代购用户样本集至少基于预设时间段内样本用户的位置信息和交易记录而确定。
在一种可能的实施方式中,所述第二确定单元中的代购用户样本集还基于样本用户所提供的服务类别而确定。
在一种可能的实施方式中,所述第二确定单元具体用于:
将所述代购用户样本集中的样本用户作为标注用户,并将所述多个用户作为未标注用户;或者,
将所述代购用户样本集中的样本用户作为标注用户,并将所述多个用户中未存在于代购用户样本集中的用户作为未标注用户;或者,
将所述多个用户中存在于所述代购用户样本集中的用户作为标注用户,并将所述多个用户中除所述标注用户以外的用户作为未标注用户。
在一种可能的实施方式中,所述第三确定单元确定的特征信息包括单次出境的平均时长、出境的平均间隔时长、境外支付笔数、平均每笔的支付金额和与商家的交易频次中的至少一个。
在一种可能的实施方式中,所述第四确定单元具体包括:
第一确定子单元,用于确定所述标注用户和所述未标注用户中任意两个用户之间的相似度;
第二确定子单元,用于根据所述相似度确定相应两个用户之间的传播概率;
第三确定子单元,用于根据所述传播概率,确定所述未标注用户中各个用户属于代购用户的概率。
在一种可能的实施方式中,所述第三确定单元确定的特征信息为多个特征信息,所述第一确定子单元具体用于:
根据所述多个特征信息中各个特征信息对应的特征分数和权重,采用加权求和的方式确定该用户的特征值;
根据任意两个用户的特征值,确定相应两个用户之间的相似度。
在一种可能的实施方式中,所述第四确定单元具体还包括:
处理子单元,用于根据所述概率,将其中不小于预设阈值的概率所对应的未标注用户,作为所述代购用户。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序。当所述计算机程序在计算机中执行时,令计算机执行上述第一方面中任一种实施方式提供的方法。
第四方面,提供了一种计算设备,包括存储器和处理器。所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述第一方面中任一种实施方式提供的方法。
在本说明书提供的一种确定代购用户的方法及装置中,首先,确定预定时刻位于境外的多个用户,并根据多个用户和预先存储的代购用户样本集确定标注用户和未标记用户。然后,确定标注用户和未标记用户中各个用户所对应的与出境相关的特征信息,再根据该特征信息,通过基于半监督学习的算法确定位于境外的多个用户中的代购用户,从而可以实现为这些代购用户提供个性化服务。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例提供的一种确定代购用户的方法应用场景示意图;
图2为本说明书披露的一个实施例提供的一种确定代购用户的方法流程图;
图3为本说明书披露的一个实施例提供的一种确定未标注用户中代购用户的方法流程图;
图4为本说明书披露的一个实施例提供的另一种确定代购用户的方法流程图;
图5为本说明书披露的一个实施例提供的一种确定代购用户的装置结构图。
具体实施方式
下面结合附图,对本说明书披露的多个实施例进行描述。
图1为本说明书披露的一个实施例提供的一种确定代购用户的方法应用场景示意图。当服务平台(如,支付宝应用平台)与商家(如,国外商家)需要针对在预定时间段(如,圣诞节期间)位于商家所在地的代购用户进行营销活动(如,推送指定商家的优惠券)时,可以采用本说明书实施例所披露的确定代购用户的方法。
首先,可以在预定时刻(例如,根据圣诞节确定的时刻:2017年12月25日00时00分)通过用户的终端获取多个位置信息(如,位置信息可以为经纬度信息),并根据多个位置信息确定此时位于境外的多个用户。接着,确定这些用户和预先存储的代购用户样本集(例如,代购用户样本集可以包括在代购平台开设有代购店铺、且交易活跃、且定期出国的用户)中各个用户所对应的与出境相关的特征信息(如,特征信息可以包括出境间隔时长、每次出境的平均时长、境外支付笔数等)。然后,基于各个用户所对应的特征信息,采用基于半监督学习的算法(如,标签传播算法),根据代购用户样本集中的样本用户确定位于境外的多个用户中所包括的代购用户。
在本说明书披露的多个实施例提供的确定代购用户的方法中,通过确定预定时刻位于境外的多个用户,以及确定所述多个用户和预先存储的代购用户样本集中各个用户所对应的与出境相关的特征信息,从而根据该特征信息,通过基于半监督学习的算法确定位于境外的多个用户中的代购用户,进而可以实现为这些代购用户提供个性化服务。
图2为本说明书披露的一个实施例提供的一种确定代购用户的方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者***或者装置,例如,如图1所示的服务器。如图2所示,所述方法具体包括:
步骤S210,确定在预定时刻位于境外的多个用户。
具体地,获取用户在预定时刻的位置信息,并根据该位置信息确定该用户是否位于境外。
在一个实施例中,预定时刻可以根据实际需要人为设定。在一个例子中,当需要确定节假日期间(如,圣诞节、元旦节)位于境外的代购用户时,可以据此对预定时刻进行设定。例如,将预定时刻设定为2017年12月24日17时00分,或者,将预定时刻设定为2018年1月1日00时00分。
在一个实施例中,获取的位置信息可以包括:通过基于位置的服务(LocationBased Service,简称LBS)从用户的终端采集的信息。LBS中包括多种定位方式,如全球定位***(Global Positioning System,简称GPS)定位、基站定位、无线保真(WirelessFidelity,简称WiFi)定位等。相应地,位置信息可以包括通过GPS定位或基站定位得到的经纬度数据,或者可以包括通过WiFi定位得到的WiFi指纹数据。
在一个实施例中,根据位置信息确定该用户是否位于境外,可以包括:获取该用户的注册地信息(如,所在国家的名称或所在国家的位置信息等),并根据该用户的注册地信息和位置信息(如,经纬度数据、WiFi指纹数据),确定该用户是否位于境外。在一个实施例中,可以将该用户的注册地信息和位置信息输入预先建立的模型中,根据输出结果确定该用户是否位于境外。更进一步地,针对位于境外的用户,输出结果中还可以包括该用户所在的国家或城市。
如此,在步骤S210中可以确定出在预定时刻位于境外的多个用户。进一步地,还可以确定出多个用户中各个用户所在的国家或城市。
步骤S220,根据确定出的多个用户和预先存储的代购用户样本集,确定标注用户和未标注用户。
具体地,可以将代购用户样本集中的样本用户作为标注用户,并将多个用户作为未标注用户。又或者,可以将代购用户样本集的样本用户作为标注用户,并将多个用户中不存于代购用户样本集中的用户作为未标注用户。再或者,可以将多个用户中存在于代购用户样本集中的用户作为标注用户,并将多个用户中除标注用户以外(也就是将多个用户中不存于代购用户样本集中)的用户作为未标注用户。
需要说明的是,代购用户样本集由***预先确定并存储。确定代购用户样本集的方式包括,基于预设时间段(如,最近一年)内样本用户的位置信息和交易记录而确定;或者,可以基于预设时间段内样本用户的位置信息、交易记录和用户所提供的服务类别(如,代购服务,且可以通过开设代购网店来提供)而确定。
在一个实施例中,代购用户样本集中可以包括个人代购用户,且个人代购用户可以基于预设时间段(如,2年)内用户的位置信息和交易记录(如,收款记录)而确定。在一个例子中,首先,可以根据获取的预设时间段内的交易记录,确定出收款记录的备注中明确标明“代购”字样的第一用户。然后,结合获取的预设时间段内的位置信息,将第一用户中具有此类收款记录(备注中标明“代购”字样的收款记录)的频次(如,45笔/月)高于第一阈值(30笔/月)、且出国频次(如,每个月去2次韩国)高于第二阈值(如,每个月出国一次)的用户,作为个人代购用户。
也就是说,可以将转账收款方中、在其收到转账款项的备注里明确标明“代购”字样、且该类收款的笔数(如,平均每月的笔数)较多、且周期性出境至某一个地区或国家的用户,定义为个人代购用户。
在另一个实施例中,代购用户样本集中可以包括网店代购用户,且商家代购用户可以基于预设时间段内(如,1年)用户的位置信息、交易记录和用户所提供的服务类别(如,用户所开设的代购网店的相关信息)而确定。
在一个例子中,网店代购用户可以通过以下步骤确定:首先,获取开设有代购网店的用户名单(也就是店铺卖家的名单)和代购网店的相关信息(如,成交量和售卖商品的发源地等)。其中用户名单可以包括在代购平台(如,全球购)开设店铺的用户和/或在综合商户平台(如,淘宝网)中开设代购网店(如,网店名称中包括“代购”的店铺)的用户。接着,根据用户名单中包括的各个用户的位置信息确定该用户周期性(如,每两周一次或每个月一次)出境所到达的地点,以及根据该用户的交易记录确定在境外支付金额超过第一阈值(如,5000元)的次数(如,40次)。然后,将用户名单中同时符合以下条件的用户作为代购平台用户:条件一是用户周期性出境所到达的地点(如,澳洲、韩国)包括其网店所售卖商品(如,奶粉)的发源地(如,澳洲),条件二是在境外进行大额交易(如,支付金额超过第一阈值的交易)的次数(如,40次)超过第二阈值(如,30次)。
也就是说,网店代购用户需要满足以下条件:一是开设有代购店铺且其店铺交易活跃,二是其周期性前往的境外地区或国家包括其店铺售卖商品的品牌发源地,三是在境外多次进行大额交易。
如此,可以预先确定出代购用户样本集,并在步骤S220中根据代购用户样本集和在步骤S210中确定的在境外的多个用户,确定出标注用户和未标注用户。
接着,在步骤S230,确定标注用户和未标注用户中各个用户所对应的与出境相关的特征信息。
具体地,特征信息可以包括用户出境的周期性特征和在境外消费的消费特征。其中,周期性特征可以包括单次出境的平均时长(如,2天)、出境的平均间隔时长(如,1个月)等,消费特征可以包括境外支付笔数(如,48笔)、平均每笔的支付金额(如,2万元)和与商家的交易频次(如,每次出境均与某家奶粉店交易一次)中的至少一个。
在一个实施例中,特征信息可以根据预定时期(如,最近一年)内获取的与用户出境相关的位置信息(如,经纬度信息)和支付信息(如,支付金额、商家名称、产品名称)确定。在一个例子中,可以根据预定时期内的位置信息,确定特征信息中包括的周期性特征(如,出境次数、单次出境的平均时长、出境的平均间隔时长等)。以及根据位置信息和支付信息确定特征信息中包括的消费特征(如,境外支付笔数、平均每笔的支付金额、与商家的交易频次等)。
在步骤S210中确定出在预定时刻位于境外的多个用户,以及在步骤S230中确定出特征信息后,接着,在步骤S240,根据特征信息,通过基于半监督学习的算法确定多个用户中包括的代购用户。
具体地,根据特征信息,通过基于半监督学习的算法确定未标注用户中包括的代购用户。然后,根据未标注用户中包括的代购用户确定多个用户中包括的代购用户。
在一个实施例中,根据未标注用户中包括的代购用户,确定多个用户中包括的代购用户,可以包括:如果在步骤S220中是将多个用户作为未标注用户,则多个用户中包括的代购用户即为未标注用户中包括的代购用户。如果在步骤S220中是将多个用户中未存在于代购用户样本集的用户作为未标注用户,则代购用户包括多个用户中存在于代购用户样本集的用户,以及未标注用户中包括的代购用户。
需要说明的是,半监督学习的基本思想是利用标注样本的标签信息去预测未标记样本的标签信息。相应地,在本说明书提供的多个实施例中,是通过基于半监督学习的算法,利用标注用户的特征信息,去预测未标注用户是否属于代购用户。且基于半监督学习的算法可以包括标签传播算法(Label Propagation,简称LPA)、以及正例和无标记样本学习(Learning from Positive and Unlabled Example,简称PU)等。
在LPA算法中,可以利用样本间的关系建立关系完全图模型,在完全图中,节点包括已标注和未标注数据,其边表示两个节点的相似度,节点的标签按相似度传递给其他节点,节点的相似度越大,标签越容易传播,最终完成对无标签样本的标签标注。
在一个实施例中,通过基于半监督学习的算法确定未标注用户中包括的代购用户,可以包括:通过LPA算法确定未标注用户中包括的代购用户,且具体可以包括以下步骤:
步骤S310,确定标注用户和未标注用户中任意两个用户之间的相似度。
如前所述,已经确定出各个用户所对应的与出境相关的特征信息。在一个实施例中,特征信息包含多个特征元素,多个特征元素构成一个特征向量。确定两个用户之间的相似度可以包括,确定两个用户对应的特征向量之间的相似度。特征向量之间的相似度可以通过多种方式计算,例如,在一个例子中,计算两个特征向量之间的距离,作为这两个向量的相似度,进而作为对应的两个用户之间的相似度。在另一例子中,计算两个特征向量之间的余弦相似度,作为对应的两个用户之间的相似度。
在另一实施例中,根据各个用户的特征信息确定各个用户的特征值,然后根据标注用户和未标注用户中任意两个用户的特征值,确定这两个用户之间的相似度。
在一个实施例中,步骤S230中确定出的各个用户的特征信息为多个特征信息,由此可以确定出其中各个特征信息所对应的特征分数和权重,进而采用加权求和的方式确定特征值。其中,各个特征信息所对应的特征分数和权重均可以根据预设规则(如,对代购用户进行特征分析后设置的规则)确定。
在一个例子中,某个用户的特征信息包括单次出境的平均时长(2天)、出境的平均间隔时长(1个月)、境外支付笔数(48笔)、平均每笔的支付金额(2万元)和与商家的交易频次(如,每次出境均与某家奶粉店交易一次)。相应地,可以假定根据预设规则确定出的与各个特征信息对应的特征分数为5、2、2、4、1,且对应的权重分别为0.3、0.2、0.3、0.2、0.1。由此,采用加权求和的方式可以得到该用户的特征值为3.4。
在一个实施例中,在确定特征值以后,可以通过构造相似矩阵的方式,确定任意两个用户之间相似度。其中相似矩阵是基于标注用户和未标注用户的特征值构建的一个图,图中每个节点为一个数据点(包含特征值的节点),任意两个节点之间的边表示二者的相似度。在一个例子,任意两个节点的相似度可以通过以下公式计算得出:
Figure DEST_PATH_IMAGE001
(1)
其中,
Figure 683592DEST_PATH_IMAGE002
表示节点
Figure DEST_PATH_IMAGE003
和节点
Figure 384873DEST_PATH_IMAGE004
的相似度;
Figure DEST_PATH_IMAGE005
Figure 535363DEST_PATH_IMAGE006
分别表示节点
Figure 178834DEST_PATH_IMAGE003
和节点
Figure 451684DEST_PATH_IMAGE004
的特征值;
Figure DEST_PATH_IMAGE007
表示超参数(超参数是预先定义的参数,例如,可以将其设置为0.3)。
步骤S320,根据相似度确定相应两个用户之间的传播概率。
具体地,节点之间通过二者之间的边进行标签的传播。边的权重(也就是二者之间的相似度)越大,表示两个节点越相似,从而标签就越容易传播过去。在一个实施例中,传播概率可以通过以下公式进行计算:
Figure 616823DEST_PATH_IMAGE008
(2)
式(2)中,
Figure DEST_PATH_IMAGE009
表示从节点
Figure DEST_PATH_IMAGE011
转移到节点
Figure DEST_PATH_IMAGE013
的概率;
Figure 508687DEST_PATH_IMAGE014
表示节点
Figure 6665DEST_PATH_IMAGE011
和节点
Figure 214530DEST_PATH_IMAGE013
的相似度;
Figure DEST_PATH_IMAGE015
表示节点
Figure 40535DEST_PATH_IMAGE011
和节点k的相似度,且
Figure 860723DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
表示节点的总个数。
步骤S330,根据传播概率,确定未标注用户中各个用户属于代购用户的概率。
具体地,根据传播概率构建概率转移矩阵
Figure 649425DEST_PATH_IMAGE018
,以及根据标注用户和未标注用户构建矩阵
Figure 529657DEST_PATH_IMAGE019
。其中,矩阵
Figure 905274DEST_PATH_IMAGE019
的构建过程如下:假设有
Figure 325891DEST_PATH_IMAGE020
个类、
Figure DEST_PATH_IMAGE021
个标注样本和
Figure 110045DEST_PATH_IMAGE022
个未标注样本。据此,定义一个
Figure DEST_PATH_IMAGE023
的标注矩阵
Figure 784347DEST_PATH_IMAGE024
和一个
Figure DEST_PATH_IMAGE025
的未标注矩阵
Figure 647261DEST_PATH_IMAGE026
,在上述矩阵中,第
Figure 809252DEST_PATH_IMAGE028
行表示第
Figure 808432DEST_PATH_IMAGE028
个样本的标签指示向量,即如果第
Figure 529001DEST_PATH_IMAGE028
个样本的类别是
Figure 941528DEST_PATH_IMAGE013
,那么该行的第
Figure 907210DEST_PATH_IMAGE013
个元素为1,其他为0。将矩阵
Figure DEST_PATH_IMAGE029
和矩阵
Figure 26475DEST_PATH_IMAGE030
合并可以得到一个
Figure DEST_PATH_IMAGE031
的矩阵
Figure 153831DEST_PATH_IMAGE032
,且
Figure DEST_PATH_IMAGE033
在一个实施例中,假设
Figure 489873DEST_PATH_IMAGE034
,也就是说其中一个类为代购用户,另一个类为非代购用户,标注用户为
Figure DEST_PATH_IMAGE035
个,未标注用户为
Figure 993666DEST_PATH_IMAGE022
个。据此,定义一个
Figure 233018DEST_PATH_IMAGE036
的标注矩阵
Figure DEST_PATH_IMAGE037
和一个
Figure 531275DEST_PATH_IMAGE038
的未标注矩阵
Figure DEST_PATH_IMAGE039
。其中,
Figure 354612DEST_PATH_IMAGE040
然后,将矩阵
Figure DEST_PATH_IMAGE041
和矩阵
Figure 662097DEST_PATH_IMAGE042
合并得到一个
Figure DEST_PATH_IMAGE043
的矩阵
Figure 490375DEST_PATH_IMAGE032
,并根据概率转移矩阵
Figure 287430DEST_PATH_IMAGE044
和矩阵
Figure DEST_PATH_IMAGE045
,执行以下过程:1)执行传播:
Figure 833949DEST_PATH_IMAGE046
;2)重置
Figure 7442DEST_PATH_IMAGE047
中标注用户的标签:
Figure 454341DEST_PATH_IMAGE048
;3)重复步骤1)和2)直到
Figure 359980DEST_PATH_IMAGE049
收敛。
根据收敛后的
Figure 456112DEST_PATH_IMAGE049
,可以得到未标注用户中各个用户属于代购用户的概率。
步骤S340,将不小于预设阈值的概率所对应的未标注用户,作为代购用户。
具体地,当未标注用户中各个用户所对应的概率不小于预设阈值时,将该未标注用户作为代购用户。在一个例子中,假定预设阈值为0.7,某个未标注用户属于代购用户的概率值为0.8,则可以将该未标注用户作为代购用户。在另一个例子中,假定预设阈值为0.7,某个未标注用户属于代购用户的概率值为0.6,则不将该未标注用户作为代购用户。
需要说明的是,预设阈值可以根据业务内容进行调整。在一个实施例中,业务内容包括有限数量的优惠券,则需要确定出相应数量的代购用户。据此,可以调整预设阈值。例如,需要确定出2000个代购用户,预设阈值的初始值设置为0.7时,确定出的代购用户的个数为3000。据此,可以提高预设阈值,比如将预设阈值的初始值设置为0.78时,可以确定出代购用户的个数为2000,与业务内容相吻合。
在一个实施例中,还可以采用正例和无标记样本学习(PU)方式,从多个用户中确定出代购用户。具体地,根据标注用户的特征信息,在未标注用户构成的未标注样本集 U中找出可靠的负样本集合RN。这可以通过贝叶斯算法,spy算法等方式来实现。 接着,利用标注用户集合和负样本集合RN通过迭代训练得到一个二元分类器。利用这个二元分类器,来将未标注用户分类为代购用户和非代购用户。
由上可知,在本说明书披露的多个实施例提供的确定代购用户的方法中,首先,确定预定时刻位于境外的多个用户,并根据多个用户和预先存储的代购用户样本集确定标注用户和未标记用户。然后,确定标注用户和未标记用户中各个用户所对应的与出境相关的特征信息,再根据该特征信息,通过基于半监督学习的算法确定位于境外的多个用户中的代购用户,从而可以实现为这些代购用户提供个性化服务。
下面,结合具体的应用场景,对本发明实施例提供的确定代购用户的方法进行介绍。如图4所示,所述方法包括以下步骤:
步骤S411,从天猫国际中获取全球购卖家。
步骤S412,从淘宝网中获取淘宝代购卖家。
步骤S413,根据支付宝转账记录确定代购转账用户。
步骤S420,根据全球购卖家、淘宝代购卖家和代购转账用户,确定代购用户样本集。
步骤S430,获取位于境外的用户LBS数据。
步骤S440,构建特征库,特征库中包括代购用户样本集和位于境外用户中各个用户的特征信息,特征信息包括LBS特征(如,出境次数、国家数、出境平均时长、出境间隔时间等)和境外当面付特征(如,支付笔数、支付金额等)。
步骤S450,根据特征库中的特征信息,采用半监督学习算法,确定位于境外的用户属于代购用户的概率值。
步骤S460,根据概率阈值,位于境外的用户中可能是代购的用户。
与上述确定代购用户的方法对应地,本说明书披露的多个实施例还提供一种确定代购用户的装置,如图5所示,该装置500包括:
第一确定单元510,用于确定在预定时刻位于境外的多个用户;
第二确定单元520,用于根据多个用户和预先存储的代购用户样本集,确定标注用户和未标注用户;
第三确定单元530,用于确定标注用户和未标注用户中各个用户所对应的与出境相关的特征信息;
第四确定单元540,用于根据特征信息,通过基于半监督学习的算法确定多个用户中包括的代购用户。
在一种可能的实施方式中,第一确定的单元具体用于:
获取用户在预定时刻的位置信息,根据位置信息确定该用户是否位于境外。
在一种可能的实施方式中,第二确定单元520中的代购用户样本集至少基于预设时间段内样本用户的位置信息和交易记录而确定。
在一种可能的实施方式中,第二确定单元520中的代购用户样本集还基于样本用户所提供的服务类别而确定。
在一种可能的实施方式中,第二确定单元520具体用于:
将代购用户样本集中的样本用户作为标注用户,并将多个用户作为未标注用户;或者,
将代购用户样本集中的样本用户作为标注用户,并将多个用户中未存在于代购用户样本集中的用户作为未标注用户;或者,
将多个用户中存在于代购用户样本集中的用户作为标注用户,并将多个用户中除标注用户以外的用户作为未标注用户。
在一种可能的实施方式中,第三确定单元530确定的特征信息包括单次出境的平均时长、出境的平均间隔时长、境外支付笔数、平均每笔的支付金额和与商家的交易频次中的至少一个。
在一种可能的实施方式中,第四确定单元540具体包括:
第一确定子单元541,用于确定标注用户和未标注用户中任意两个用户之间的相似度;
第二确定子单元542,用于根据相似度确定相应两个用户之间的传播概率;
第三确定子单元543,用于根据传播概率,确定未标注用户中各个用户属于代购用户的概率。
在一种可能的实施方式中,第三确定单元530确定的特征信息为多个特征信息,第一确定子单元541具体用于:
根据多个特征信息中各个特征信息对应的特征分数和权重,采用加权求和的方式确定该用户的特征值;
根据任意两个用户的特征值,确定相应两个用户之间的相似度。
在一种可能的实施方式中,第四确定单元540具体还包括:
处理子单元544,用于根据概率,将其中不小于预设阈值的概率所对应的未标注用户,作为代购用户。
由上可知,在本说明书披露的多个实施例提供的确定代购用户的装置中,第一确定单元510确定预定时刻位于境外的多个用户,第二确定的单元520根据多个用户和预先存储的代购用户样本集确定标注用户和未标记用户,第二确定的单元530确定标注用户和未标记用户中各个用户所对应的与出境相关的特征信息,第四确定的单元530根据该特征信息,通过基于半监督学习的算法确定位于境外的多个用户中的代购用户,从而可以实现为这些代购用户提供个性化服务。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书披露的多个实施例的具体实施方式而已,并不用于限定本说明书披露的多个实施例的保护范围,凡在本说明书披露的多个实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书披露的多个实施例的保护范围之内。

Claims (18)

1.一种确定代购用户的方法,其特征在于,包括:
确定在预定时刻位于境外的多个用户;
根据所述多个用户和预先存储的代购用户样本集,确定标注用户和未标注用户;
确定所述标注用户和所述未标注用户中各个用户所对应的与出境相关的特征信息;
根据所述特征信息,通过基于半监督学习的算法确定所述多个用户中包括的代购用户。
2.根据权利要求1所述的方法,其特征在于,所述确定在预定时刻位于境外的多个用户,包括:
获取用户在预定时刻的位置信息,根据所述位置信息确定该用户是否位于境外。
3.根据权利要求1所述的方法,其特征在于,所述代购用户样本集至少基于预设时间段内样本用户的位置信息和交易记录而确定。
4.根据权利要求3所述的方法,其特征在于,所述代购用户样本集还基于样本用户所提供的服务类别而确定。
5.根据权利要求1所述的方法,其特征在于,所述确定标注用户和未标注用户,包括:
将所述代购用户样本集中的样本用户作为标注用户,并将所述多个用户作为未标注用户;或者,
将所述代购用户样本集中的样本用户作为标注用户,并将所述多个用户中未存在于代购用户样本集中的用户作为未标注用户;或者,
将所述多个用户中存在于所述代购用户样本集中的用户作为标注用户,并将所述多个用户中除所述标注用户以外的用户作为未标注用户。
6.根据权利要求1所述的方法,其特征在于,所述特征信息包括单次出境的平均时长、出境的平均间隔时长、境外支付笔数、平均每笔的支付金额和与商家的交易频次中的至少一个。
7.根据权利要求1所述的方法,其特征在于,所述通过基于半监督学习的算法确定所述多个用户中包括的代购用户,包括:
确定所述标注用户和所述未标注用户中任意两个用户之间的相似度;
根据所述相似度确定相应两个用户之间的传播概率;
根据所述传播概率,确定所述未标注用户中各个用户属于代购用户的概率。
8.根据权利要求7所述的方法,其特征在于,所述特征信息为多个特征信息,所述确定所述标注用户和所述未标注用户中任意两个用户之间的相似度,包括:
根据所述多个特征信息中各个特征信息对应的特征分数和权重,采用加权求和的方式确定该用户的特征值;
根据任意两个用户的特征值,确定相应两个用户之间的相似度。
9.根据权利要求7所述的方法,其特征在于,通过半监督学习的算法确定所述多个用户中包括的代购用户,还包括:
根据所述概率,将其中不小于预设阈值的概率所对应的未标注用户,作为所述代购用户。
10.一种确定代购用户的装置,其特征在于,包括:
第一确定单元,用于确定在预定时刻位于境外的多个用户;
第二确定单元,用于根据所述多个用户和预先存储的代购用户样本集,确定标注用户和未标注用户;
第三确定单元,用于确定所述标注用户和所述未标注用户中各个用户所对应的与出境相关的特征信息;
第四确定单元,用于根据所述特征信息,通过基于半监督学习的算法确定所述多个用户中包括的代购用户。
11.根据权利要求10所述的装置,其特征在于,第一确定的单元具体用于:
获取用户在预定时刻的位置信息,根据所述位置信息确定该用户是否位于境外。
12.根据权利要求10所述的装置,其特征在于,所述第二确定单元中的代购用户样本集至少基于预设时间段内样本用户的位置信息和交易记录而确定。
13.根据权利要求12所述的装置,其特征在于,所述第二确定单元中的代购用户样本集还基于样本用户所提供的服务类别而确定。
14.根据权利要求10所述的装置,其特征在于,所述第二确定单元具体用于:
将所述代购用户样本集中的样本用户作为标注用户,并将所述多个用户作为未标注用户;或者,
将所述代购用户样本集中的样本用户作为标注用户,并将所述多个用户中未存在于代购用户样本集中的用户作为未标注用户;或者,
将所述多个用户中存在于所述代购用户样本集中的用户作为标注用户,并将所述多个用户中除所述标注用户以外的用户作为未标注用户。
15.根据权利要求10所述的装置,其特征在于,所述第三确定单元确定的特征信息包括单次出境的平均时长、出境的平均间隔时长、境外支付笔数、平均每笔的支付金额和与商家的交易频次中的至少一个。
16.根据权利要求10所述的装置,其特征在于,所述第四确定单元具体包括:
第一确定子单元,用于确定所述标注用户和所述未标注用户中任意两个用户之间的相似度;
第二确定子单元,用于根据所述相似度确定相应两个用户之间的传播概率;
第三确定子单元,用于根据所述传播概率,确定所述未标注用户中各个用户属于代购用户的概率。
17.根据权利要求16所述的装置,其特征在于,所述第三确定单元确定的特征信息为多个特征信息,所述第一确定子单元具体用于:
根据所述多个特征信息中各个特征信息对应的特征分数和权重,采用加权求和的方式确定该用户的特征值;
根据任意两个用户的特征值,确定相应两个用户之间的相似度。
18.根据权利要求16所述的装置,其特征在于,所述第四确定单元具体还包括:
处理子单元,用于根据所述概率,将其中不小于预设阈值的概率所对应的未标注用户,作为所述代购用户。
CN201810050530.5A 2018-01-18 2018-01-18 确定代购用户的方法及装置 Active CN108305099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810050530.5A CN108305099B (zh) 2018-01-18 2018-01-18 确定代购用户的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810050530.5A CN108305099B (zh) 2018-01-18 2018-01-18 确定代购用户的方法及装置

Publications (2)

Publication Number Publication Date
CN108305099A CN108305099A (zh) 2018-07-20
CN108305099B true CN108305099B (zh) 2021-11-19

Family

ID=62865594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810050530.5A Active CN108305099B (zh) 2018-01-18 2018-01-18 确定代购用户的方法及装置

Country Status (1)

Country Link
CN (1) CN108305099B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110009364B (zh) * 2019-01-08 2021-08-24 创新先进技术有限公司 一种行业识别模型确定方法和装置
CN113554438B (zh) * 2020-04-23 2023-12-05 北京京东振世信息技术有限公司 账号的识别方法、装置、电子设备及计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164428A (zh) * 2011-12-13 2013-06-19 富士通株式会社 确定微博与给定实体的相关性的方法和装置
CN104239335A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 特定用户信息获取方法及装置
CN106327227A (zh) * 2015-06-19 2017-01-11 北京航天在线网络科技有限公司 一种信息推荐***及信息推荐方法
CN107273454A (zh) * 2017-05-31 2017-10-20 北京京东尚科信息技术有限公司 用户数据分类方法、装置、服务器和计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164428A (zh) * 2011-12-13 2013-06-19 富士通株式会社 确定微博与给定实体的相关性的方法和装置
CN104239335A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 特定用户信息获取方法及装置
CN106327227A (zh) * 2015-06-19 2017-01-11 北京航天在线网络科技有限公司 一种信息推荐***及信息推荐方法
CN107273454A (zh) * 2017-05-31 2017-10-20 北京京东尚科信息技术有限公司 用户数据分类方法、装置、服务器和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
标签传播算法理论及其应用研究综述;张俊丽,常艳丽,师文;《计算机应用研究》;20130131;第21-25页 *

Also Published As

Publication number Publication date
CN108305099A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
WO2019196579A1 (zh) 智能券的发放方法、装置及利用智能券的核销方法、装置
Hsu et al. What drives purchase intention for paid mobile apps?–An expectation confirmation model with perceived value
US7970669B1 (en) Method and system for store-to-consumer transaction management
RU2507581C2 (ru) Обработка квитанции, принимаемой в наборе отправлений
CN108805615B (zh) 一种基于用户消费行为的优惠活动推送方法及***
US10776816B2 (en) System and method for building a targeted audience for an online advertising campaign
WO2020121862A1 (ja) 情報処理方法、情報処理装置及びプログラム
CN108305099B (zh) 确定代购用户的方法及装置
WO2018092333A1 (ja) 購買情報活用システム及び購買情報活用方法、及びプログラム
CN107833076A (zh) 一种营销信息推送方法及装置
Azis et al. The Effect of Trust and Price on Purchase Decisions Through Brand Image As Intervening Variables (Case Study of Shopee Users in Makassar City)
JP7078784B1 (ja) 提供装置、提供方法及び提供プログラム
CN111563798A (zh) 消费对象推荐方法和装置、电子设备
US20130110605A1 (en) Product recognition promotional offer matching
KR20160143186A (ko) 모바일 영수증 관리 장치 및 방법
US20160314466A1 (en) Systems and methods for roll-up payments augmented by price matching refunds
US9972027B1 (en) System and method of tracking the effectiveness of viewing resources on electronic devices in causing transaction activity to subsequently occur at a physical location associated with the resources
JP6910515B1 (ja) 分析装置、分析方法および分析プログラム
US20210201186A1 (en) Utilizing Machine Learning to Predict Information Corresponding to Merchant Offline Presence
CN111242633A (zh) 信息提示方法、装置、设备及介质
JP7427043B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP7258200B1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP7477679B2 (ja) 提供装置、提供方法及び提供プログラム
JP6910516B1 (ja) 分析装置、分析方法および分析プログラム
US20160148240A1 (en) System and Method that Rewards Vendors for Offering Nonpublished Coupons

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201020

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201020

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240206

Address after: Guohao Times City # 20-01, 128 Meizhi Road, Singapore

Patentee after: Advanced Nova Technology (Singapore) Holdings Ltd.

Country or region after: Singapore

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Innovative advanced technology Co.,Ltd.

Country or region before: United Kingdom

TR01 Transfer of patent right