CN110738538A - 识别相似物品的方法和装置 - Google Patents

识别相似物品的方法和装置 Download PDF

Info

Publication number
CN110738538A
CN110738538A CN201810791952.8A CN201810791952A CN110738538A CN 110738538 A CN110738538 A CN 110738538A CN 201810791952 A CN201810791952 A CN 201810791952A CN 110738538 A CN110738538 A CN 110738538A
Authority
CN
China
Prior art keywords
data
item
user
similar
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810791952.8A
Other languages
English (en)
Other versions
CN110738538B (zh
Inventor
余帅兵
王泉泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810791952.8A priority Critical patent/CN110738538B/zh
Publication of CN110738538A publication Critical patent/CN110738538A/zh
Application granted granted Critical
Publication of CN110738538B publication Critical patent/CN110738538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种识别相似物品的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合;对每个维度数据对应的相似物品集合进行运算以得到相似物品集。该实施方式能够及时根据多个维度的线上数据,精确、灵活、全面地自动化识别出相似的物品。

Description

识别相似物品的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种识别相似物品的方法和装置。
背景技术
在电商平台上存在着各种各样的商品,且同一种商品会有不同的品牌和商家。这些品牌商之间作为竞争对手,如何在激烈的市场竞争中获得更大的市场份额,其中一个重要基础就是要知己知彼,如何通过有效手段来识别相似商品、品牌和商家,以更好的进行商品对标和竞争分析,就成了品牌商关注的热点。
随着互联网技术的发展,对于线上的品牌商而言,通过对线上数据进行分析处理以得到需要的竞争商家信息是目前的主流发展趋势。无论是专业的数据公司(如尼尔森)或行业咨询公司GFK,还是线上网站、媒体、数据监测机构等,他们在获取数据并生成市场行业竞争分析报告时,一般都是基于网络爬虫抓取技术、数据采集和舆情监听技术,以及人工标注及经验识别等等,来得到线上品牌商的相关信息。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
目前线上品牌和商家识别相似性商品的过程需要耗费大量的人力、时间、资金,属于人工匹配,且了解到的相似性商品信息相对有限,不能够随着线上数据每日更新而进行灵活调整和监控。
发明内容
有鉴于此,本发明实施例提供一种识别相似物品的方法和装置,通过对与物品相关的多个维度的数据进行处理以确定不同维度数据对应的相似物品集合,然后,对确定的相似物品集合进行运算以得到相似物品集,从而能够及时根据多个维度的线上数据,精确、灵活、全面地自动化识别出相似的物品。
为实现上述目的,根据本发明实施例的一个方面,提供了一种识别相似物品的方法。
一种识别相似物品的方法,包括:对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合;对所述每个维度数据对应的相似物品集合进行运算以得到相似物品集。
可选地,所述不少于一个维度的数据包括用户维度数据;并且,对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合的步骤包括:根据所述用户维度数据得到用户在不同物品之间的转移概率,并根据所述转移概率生成转移概率矩阵,然后根据所述转移概率矩阵得到所述用户维度数据对应的相似物品集合。
可选地,根据所述用户维度数据得到用户在不同物品之间的转移概率的步骤包括:获取用户在预定时间段内的行为数据,所述行为数据包括第一行为记录和第二行为记录;根据所述第一行为记录获取用户对物品B的第一行为的行为次数S;从用户对物品B的第一行为对应的第二行为记录中,获取用户从物品A转移到物品B的转移次数T,其中,所述物品A为用户在对物品B执行第一行为之前,执行第二行为的最后一个非物品B的物品;将T/S作为用户由物品A转移到物品B的转移概率。
可选地,所述不少于一个维度的数据包括物品维度数据;并且,对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合的步骤包括:通过将所述物品维度数据中包括的物品的不少于一个维度的数据信息按照预定的维度顺序进行比对,以得到所述物品维度数据对应的相似物品集合。
可选地,所述不少于一个维度的数据包括销售维度数据;并且,对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合的步骤包括:对所述销售维度数据中包括的预定时间段内物品的销售量和销售金额进行运算以得到物品的综合销售指数,将与物品C的综合销售指数的差值在预定范围内的物品作为物品C的相似物品,从而确定所述销售维度数据对应的相似物品集合。
可选地,对所述每个维度数据对应的相似物品集合进行运算以得到相似物品集的步骤包括:对所述每个维度数据对应的相似物品集合进行取交集运算以得到相似物品集。
根据本发明实施例的另一方面,提供了一种识别相似物品的装置。
一种识别相似物品的装置,包括:集合确定模块,用于对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合;集合运算模块,用于对所述每个维度数据对应的相似物品集合进行运算以得到相似物品集。
可选地,所述不少于一个维度的数据包括用户维度数据;并且,所述集合确定模块还用于:根据所述用户维度数据得到用户在不同物品之间的转移概率,并根据所述转移概率生成转移概率矩阵,然后根据所述转移概率矩阵得到所述用户维度数据对应的相似物品集合。
可选地,所述集合确定模块还用于:获取用户在预定时间段内的行为数据,所述行为数据包括第一行为记录和第二行为记录;根据所述第一行为记录获取用户对物品B的第一行为的行为次数S;从用户对物品B的第一行为对应的第二行为记录中,获取用户从物品A转移到物品B的转移次数T,其中,所述物品A为用户在对物品B执行第一行为之前,执行第二行为的最后一个非物品B的物品;将T/S作为用户由物品A转移到物品B的转移概率。
可选地,所述不少于一个维度的数据包括物品维度数据;并且,所述集合确定模块还用于:通过将所述物品维度数据中包括的物品的不少于一个维度的数据信息按照预定的维度顺序进行比对,以得到所述物品维度数据对应的相似物品集合。
可选地,所述不少于一个维度的数据包括销售维度数据;并且,所述集合确定模块还用于:对所述销售维度数据中包括的预定时间段内物品的销售量和销售金额进行运算以得到物品的综合销售指数,将与物品C的综合销售指数的差值在预定范围内的物品作为物品C的相似物品,从而确定所述销售维度数据对应的相似物品集合。
可选地,所述集合运算模块还用于:对所述每个维度数据对应的相似物品集合进行取交集运算以得到相似物品集。
根据本发明实施例的又一方面,提供了一种识别相似物品的电子设备。
一种识别相似物品的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所提供的识别相似物品的方法。
根据本发明实施例的再一方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例所提供的识别相似物品的方法。
上述发明中的一个实施例具有如下优点或有益效果:通过对与物品相关的多个维度的数据进行处理以确定不同维度数据对应的相似物品集合,然后,对确定的相似物品集合进行运算以得到相似物品集,构建了一套可根据线上数据变化而自动实时调整计算的相似性识别模型,能够及时根据多个维度的线上数据,精确、灵活、全面地自动化识别出相似的物品,以及品牌和商家,从而大大节省了花费在对标工作上的时间和精力,并且可以实现从不同维度进行精细对标,为物品研发和改进的目标和策略的制定提供了数据支持。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的识别相似物品的方法的主要步骤示意图;
图2是根据本发明实施例的识别相似物品的装置的主要模块示意图;
图3是本发明实施例可以应用于其中的示例性***架构图;
图4是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
线上品牌和商家面临的市场竞争瞬息万变,单一依靠数据咨询公司提供的分析报告,或是人工专业经验,已经无法满足日常业务需求,无法响应市场变化速度。另外,线上品牌和商家在进行对标(所谓“对标”就是对比标杆找差距。推行对标管理,就是要把企业的目光紧紧盯住业界最好水平,明确自身与业界最佳的差距,从而指明了工作的总体方向。标杆除了是业界的最好水平以外,还可以将企业自身的最好水平也作为内部标杆,通过与自身相比较,可以增强自信,不断超越自我,从而能更有效地推动企业向业界最好水平靠齐)时,并不确切知道自己在每一个细分市场所面临的竞争对手是谁,颗粒度太粗,导致无法精细化进行监控和对标,更加导致目标和策略都不清晰。因此,如何能够在响应灵活多变的需求的同时,为线上品牌和商家节约每天花费在对标工作上的时间和精力,以及实现精细化对标,为线上品牌和商家更好地了解竞争对手,是目前亟待解决的问题。
为了解决上述的问题,本发明提供了一种识别相似物品的方法,通过构建一套可根据线上数据变化而自动实时调整计算的相似性识别模型,能够及时通过线上数据,精确、灵活、全面地自动化识别出相似的物品,以及品牌和商家。
图1是根据本发明实施例的识别相似物品的方法的主要步骤示意图。如图1所示,本发明实施例的识别相似物品的方法主要包括如下的步骤S101和步骤S102。
步骤S101:对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合。
在本发明的实施例中,为了能够更全面、精确地识别相似物品,故而从多角度来综合进行相似物品的识别,采集与物品相关的多个维度的数据,并对多维度的数据进行分析处理。具体地,本发明的实施例中以考虑与物品相关的用户维度数据、物品维度数据和销售维度数据共3个维度的数据为例,来介绍如何进行相似物品的识别。其中,对每个维度的数据进行处理分析时,对应的相似性判断逻辑也是不同的,例如分别是:
(1)用户维度数据的相似性判断逻辑:基于用户对不同物品的转移概率来判断物品的相似性;
(2)物品维度数据的相似性判断逻辑:基于物品的数据信息的重合度来判断物品的相似性;
(3)销售维度数据的相似性判断逻辑:基于物品的销售量和销售金额等来判断物品的相似性。
下面分别介绍本发明的实施例是如何通过对每个维度的数据进行处理,来确定每个维度数据对应的相似物品集合的。本发明的实施例中,以对电商平台的商品进行相似性识别为例,来介绍本发明的相似物品的识别方法。
(1)用户维度数据
通过获取用户的行为数据,例如用户在通过电商平台进行购物时的实际下单记录以及在商品详情页上的浏览访问路径记录等,然后对获取的行为数据进行分析,以得到用户在不同商品之间的转移概率,从而基于用户对不同商品的转移概率来判断商品的相似性。具体地,可以是由转移概率构成转移概率矩阵,然后将转移概率矩阵作为用户选择替代性模型,并基于用户选择替代性模型来判断商品的相似性。
其中,转移概率矩阵(Transition Probability Matrix)的各元素都是非负的,并且各行元素之和等于1,各元素用概率表示,在一定条件下可以发生互相转移。如用于市场决策时,矩阵中的元素是市场或顾客的保留、获得或失去的概率。转移概率矩阵有以下特征:
1)0≤p(i,j)≤1,表示第i行第j列的概率值;
2)
Figure BDA0001734439210000071
即矩阵中每一行转移概率之和等于1。
构成转移概率矩阵的元素是一个个的转移概率,也就是说,根据用户在不同商品之间的转移概率,即可构成转移概率矩阵。例如如下的转移概率矩阵R,其中的各个元素(P11、P12、…、Pmn等)均是用户在不同商品之间的转移概率:
根据上述内容可知,转移概率矩阵可以被频繁运用在对一个固定选择集内的用户的选择做出精确的衡量。因此,本申请的实施例中,借助于转移概率矩阵,在已知用户、已知商品的特定选择集中,可以对用户第1次到第N次的消费行为(下单行为)和浏览行为等进行规律的学习和识别,计算出用户在不同商品之间的转移概率。
其中,已知用户、已知商品的特定选择集可以通过以下方法得到:一种是在无输入的情况下通过对海量的用户订单进行聚类分析得到,例如:对于用户对一个品类下多个商品之间的特定选择,可以先从订单模型中抽取该品类的所有商品的用户订单数据,进一步通过一个用户的订单和浏览行为(在一个指定时间范围内)所关联的商品,得到特定选择集,以用于进行机器学习;一种是在有输入的情况下,根据用户的使用场景直接圈定特定的商品范围作为特定选择集,基于圈选数据进行机器学习。其中,品类是指消费者认为相关且可相互替代的一组特殊商品或服务。根据预定的对不同类别商品的划分方式可将商品划分为不同的品类,根据划分方式的颗粒度大小的不同,还可以将商品划分为不同级别的品类。
在得到已知用户、已知商品的特定选择集之后,即可对该特定选择集中的数据进行分析,通过对该特定选择集中的用户的消费行为(即:下单行为)和浏览行为等对应的行为数据进行规律的机器学习,即可得到用户在不同商品之间的转移概率,并由这些转移概率构成一个转移概率矩阵。在本发明的一个实施例中,用户在不同物品之间的转移概率可以根据以下步骤得到:首先,获取用户在预定时间段内的行为数据,行为数据包括第一行为记录和第二行为记录;之后,根据第一行为记录获取用户对物品B的第一行为的行为次数S;然后,从用户对物品B的第一行为对应的第二行为记录中,获取用户从物品A转移到物品B的转移次数T,其中,物品A为用户在对物品B执行第一行为之前,执行第二行为的最后一个非物品B的物品;最后将T/S作为用户由物品A转移到物品B的转移概率。其中,以电商行业为例,第一行为例如为下单行为、结算行为等,第二行为例如为搜索行为、浏览行为等。以物品B为例,假设选取的一段时间(例如:一个月)内多个用户的行为数据中,用户对物品B的总共下单次数为100次(即:S=100),根据这100次下单行为对应的浏览记录,可以知道用户在下单之前最后是由哪个物品转移过来的(例如:可根据会话的时间戳来进行判断),并统计得到用户由物品A转移到物品B的转移次数T=20。那么,该用户由物品A转移到物品B的转移概率即为20%。其中,用户在某次下单前可能浏览了很多个物品,而本发明仅关注用户在下单前浏览的下单物品的前一个物品。例如:用户某次下单购买了物品B,其下单前的浏览顺序可能是物品A→物品B→物品C→物品B→物品C→物品A→物品B,此时,仅需关注用户在下单购买物品B之前是由物品A转移到物品B的即可,且记录用户由物品A转移到物品B的转移次数为1次。
同样地,用户在不同物品之间的转移概率也可以是通过对用户在预定时间段内的行为数据进行机器学习,然后通过投票机制(例如:可基于多数投票算法、摩尔投票算法等现有的投票算法来实现)来得到用户由一个物品A转移到另一个物品B的转移概率。
具体地,在获取用户在不同商品之间的转移概率时,以一个用户在一段时间内的行为数据为例,根据该用户的登录标识可以获取该用户的行为数据,假设该用户在一个特定的品类下浏览过多个商品,并最终选择了一个商品进行下单。此时,将该用户对其浏览的所有商品的转移概率之和看作1,则可以计算不同商品在此次用户行为数据中的流量分布和理论购买的概率。之后,通过在该品类下,选择N(N为大于1的整数)个用户,并对每个用户的行为数据进行聚类分析,则可以找到N个用户在M(M为大于1的整数)次购物行为中,共同体现出的在不同物品之间转移的偏好,并根据转移的偏好情况进行概率计算。计算的结果即为不同物品之间的转移概率。
表1示出了根据用户在预定的一段时间内的行为数据得到的用户在不同物品之间的转移概率。
表1
Figure BDA0001734439210000101
在表1中,第一行和第一列分别标示用户浏览或下单的物品标识,其余行和列中的数据即为用户在不同物品之间的转移概率。以表1中的第二行数据为例,为用户由物品1本身及其他物品i(i=1,2,…,12)转移到物品1的转移概率。其中,假定用户在对物品1的100次下单行为中有69次是直接浏览了物品1本身即下单的,则用户由物品1转移到其本身的概率即为69%;假定用于在对物品1的100次下单行为中有14次是由物品3转移到物品1而下单的,则用户由物品3转移到物品1的概率即为14%。根据第二行中的数据,即可得到与物品1的相似度最高的预定个数(例如4个)的物品分别为物品3、物品4、物品5和物品2。亦即,得到的相似物品子集合为{物品1,物品3,物品4,物品5,物品2}。同样地,根据表1中其他行的数据,可得到与每个物品的相似度最高的预定个数的物品,并分别构成相似物品子集合。最后,将所有物品对应的相似物品子集合求并集,即可得到用户维度数据对应的相似物品集合(以下简称集合1)。
根据前面所述内容可以看出,本发明的实施例根据转移概率矩阵的特征,通过考虑用户下单、浏览等行为及用户浏览行为的过程等因素,对用户的行为数据进行机器学习和规律训练以得到用户在不同物品之间的转移概率,进而由转移概率构成了转移概率矩阵,然后将转移概率矩阵作为用户选择替代性模型,并基于用户选择替代性模型来判断商品的相似性。由于部分物品的重复购买率较低,在预定时间段内可用的重复购物次数数据量稀疏,无法支撑替代性的运算,但是从浏览行为数据来分析,即可获取更丰满的数据,从而可以有效弥补部分重复购买率较低物品的计算结果,使得模型更为精确,适用范围更广;通过将真实线上环境中的用户行为数据作为取样数据来进行分析,从而使得转移概率矩阵的数据取样更为方便,用户选择替代性模型适用范围更广;同时,本发明实施例的用户选择替代性模型还能够动态的衡量和量化用户的选择行为过程,并且更好地与物品进行关联。
另外,在使用真实线上环境中的用户行为数据作为取样数据进行分析之前,还可以预先对用户行为数据进行处理,以删除异常刷单数据或是购物路径明显偏离标准值的数据等等,以得到真实、有效、健康的用户行为数据。
在得到集合1之后,还可以根据集合1中的物品对应的品牌,来统计每个品牌对应的物品的数量,进而得到相似品牌。
(2)物品维度数据
物品维度数据主要包括物品的多个维度的数据信息,例如:物品的数据信息可以包括物品名称、描述、关键词、属性、属性值5个维度的数据。通过将物品的多个维度的数据信息按照预定的维度顺序进行比对,可以得到物品维度数据对应的相似物品集合。其中,在获取物品的多个维度的数据信息时可以限制获取在某个预定时间范围内的物品的多个维度的数据信息,以避免由于物品的更新换代而带来的数据不准确的情况。例如:可以选择最近1个月内牛奶的多个维度的数据信息作为物品维度数据,然后对具有不同物品标识(用于唯一标识一个物品,例如:商品的条码)的物品“牛奶”对应的多个维度的数据进行比对以得到物品维度数据对应的相似物品集合(以下简称集合2)。
具体地,以电商平台的商品为例,在判断两个商品是否相似时,按照物品名称、描述、关键词、属性、属性值的顺序进行比对,如果商品名称判定为一致,则认为这两个商品相似,无需再进行后续维度数据的判定。否则,如果商品名称判定为不一致,则接下来判断商品描述是否一致,如果一致,则认为这两个商品相似,后续不再继续进行其他维度数据的判定。如果不一致,则继续判断关键词是否一致,在判断关键词是否一致时,可以预设满足一致性的条件,例如:两个商品至少具备三个(关键词数量可以根据算法来进行优化调整)一致的关键词才能判定两个商品的关键词一致。如果两个商品的关键词一致,则认为这两个商品相似,否则继续判定属性和属性值是否一致。其中,在判断属性和属性值是否一致时,也可以预设满足一致性的条件,例如:两个商品至少具备五个相同的属性,且属性值对应相同,才能判定两个商品的属性和属性值一致。经过多层判断之后,即可得出两个商品是否相似。
其中,在判断物品的多个维度的数据信息是否一致时,可以将物品的多个维度的数据信息作为文本,通过对文本进行分词、再求分词后的每个词的特征向量,并计算特征向量之间的相似度,然后将满足相似度阈值的词作为相似词的方法,来判断物品的多个维度的数据信息是否一致。
根据本发明的一个实施例,在根据物品维度数据判断两个物品是否相似之后,还可以将相似的两个物品保存为一个相似物品对,然后,根据物品的品牌,统计每一个品牌对应的相似物品对的数量,进而得到不同品牌之间的相似性。在根据相似物品对的数量判断品牌的相似性时,具体的判断规则可以根据实际应用中用户关注的内容进行设定,例如,用户比较关注不同品牌之间的相似物品的数量,则可统计不同品牌之间的相似物品对的数量以确定相似品牌;又如,用户比较关注不同品牌之间的相似物品的占比,则可统计不同品牌之间的相似物品对的数量,并将相似物品对的数量与对应品牌的物品数量相除,以得到不同品牌之间的相似物品的占比,从而确定相似品牌。以通过统计不同品牌之间的相似物品对的数量来确定相似品牌为例:假设统计得到的不同品牌对应的相似物品对的数量如表2,品牌1和品牌2的相似物品对有24对,品牌1和品牌3的相似物品对有45对;品牌2和品牌1的相似物品对有24对,品牌2和品牌3的相似物品对有4对;品牌3和品牌1的相似物品对有45对,品牌3和品牌2的相似物品对有4对。由于品牌1和品牌3匹配到的相似物品对数最多,故而品牌1和品牌3互为相似品牌。
表2
品牌 1 2 3
1 80 24 45
2 24 100 4
3 45 4 70
(3)销售维度数据
销售维度数据主要包括销售量和销售金额两个维度的数据。对于电商平台来说,在同一个品类下,预定的时间段内不同的物品的销售量和销售金额也不同,可能会有很大的差异,也可能仅有细微的差异。而若两个物品为相似物品,那么这两个物品对应的销售量和销售金额应是很接近的,因此,通过对销售维度数据进行分析,也可以作为判断物品是否相似的依据。根据本发明的实施例,通过对预定时间段内物品的销售量和销售金额进行运算以得到物品的综合销售指数,将与物品C的综合销售指数的差值在预定范围内的物品作为物品C的相似物品,从而确定销售维度数据对应的相似物品集合。
具体地,在同一个品类下,可以通过对一段时间范围(例如:1个月或3个月等)内的销售维度数据(销售量、销售金额)进行统计计算以得到物品的综合销售指数,来判断两个物品是否相似。由于销售量和销售金额不在一个数量级,故可以结合其权重预先进行指数归一化处理,以把销售量和销售金额映射到0~1范围之内,使得数据处理更加便捷快速。其中,销售量和销售金额的权重可以根据需要进行设定,例如销售量占比50%,销售金额占比50%。在进行指数归一化处理时,例如可以通过离差标准化(max-min Normalization)等方法来将销售量和销售金额映射到0~1范围之内。
之后,根据归一化处理后的销售量和销售金额及其对应的权重,计算物品对应的综合销售指数,其中:综合销售指数=销售量*50%+销售额*50%。最后,通过比较两个物品的综合销售指数来判断物品是否相似。由于当综合销售指数越接近时,两个物品越相似,故而可以预设一个综合销售指数的差值范围。对于物品C来说,与其综合销售指数的差值在预设的差值范围内的物品即为物品C的相似物品,如此,即可根据销售维度数据得到对应的相似物品集合(以下简称集合3)。
同样地,在确定了集合3之后,还可以根据集合3中物品对应的品牌,来得到相似品牌。
根据前述的步骤S101即可得到每个维度数据对应的相似物品集合,分别为集合1、集合2和集合3。
步骤S102:对每个维度数据对应的相似物品集合进行运算以得到相似物品集。
在得到每个维度数据对应的相似物品集合后,可以通过对这几个相似物品集合进行取交集运算以得到相似物品集,即:集合1∩集合2∩集合3。另外,对每个维度数据对应的相似物品集合进行的运算不局限于取交集运算,还可以根据功能实现的需要设定为其他的集合运算,例如:取并集运算,等等。
根据本发明的实施例,在对每个维度数据对应的相似物品集合进行运算以得到物品对应的相似物品集时,还可以选择不同的时间范围(如:日、月、年等)进行动态查询和计算。由于选择不同的时间范围时,得到的相似物品集可能会发生变化,例如:以月为时间单位,假设对某个月的数据进行处理运算得到的物品1的相似物品集为{物品2、物品3、物品4},而对之后一个月的数据进行处理运算得到的物品1的相似物品集则可能会变成{物品3、物品4、物品5},因此为了反映这种动态变化,使运算得到的相似物品集最准确或最接近真实值,本发明支持动态查询和计算。
另外,根据本发明的实施例的技术方案,在实际应用过程中,可以选择某一个维度的数据进行分析处理以对相似物品进行简单识别,也可以选择多个维度的数据进行分析处理以对相似物品进行全面分析和识别,这依功能实现的需要而自行设定。对于多维度数据及其判断逻辑可以通过界面展示的方式呈现,以便用户能够有针对性地选择至少一个维度数据及其判断逻辑进行相似性判断。
根据上述的步骤S101和步骤S102,即可实现通过对与物品相关的多个维度的数据进行处理以确定不同维度数据对应的相似物品集合,然后,对确定的相似物品集合进行运算以得到相似物品集,从而能够及时根据多个维度的线上数据,精确、灵活、全面地自动化识别出相似的物品。
图2是根据本发明实施例的识别相似物品的装置的主要模块示意图。如图2所示,本发明实施例的识别相似物品的装置200主要包括集合确定模块201和集合运算模块202。
集合确定模块201用于对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合;
集合运算模块202用于对每个维度数据对应的相似物品集合进行运算以得到相似物品集。
根据本发明的一个实施例,不少于一个维度的数据可以包括用户维度数据;并且,集合确定模块201具体地还可以用于:
根据所述用户维度数据得到用户在不同物品之间的转移概率,并根据所述转移概率生成转移概率矩阵,然后根据转移概率矩阵得到用户维度数据对应的相似物品集合。
根据本发明的一个实施例,集合确定模块201还可以用于:
获取用户在预定时间段内的行为数据,行为数据包括第一行为记录和第二行为记录;
根据第一行为记录获取用户对物品B的第一行为的行为次数S;
从用户对物品B的第一行为对应的第二行为记录中,获取用户从物品A转移到物品B的转移次数T,其中,物品A为用户在对物品B执行第一行为之前,执行第二行为的最后一个非物品B的物品;
将T/S作为用户由物品A转移到物品B的转移概率。
根据本发明的另一个实施例,不少于一个维度的数据可以包括物品维度数据;并且,集合确定模块201具体地还可以用于:
通过将物品维度数据中包括的物品的不少于一个维度的数据信息按照预定的维度顺序进行比对,以得到物品维度数据对应的相似物品集合。
根据本发明的又一个实施例,不少于一个维度的数据可以包括销售维度数据;并且,集合确定模块201具体地还可以用于:
对预定时间段内物品的销售量和销售金额进行运算以得到物品的综合销售指数,将与物品C的综合销售指数的差值在预定范围内的物品作为物品C的相似物品,从而确定销售维度数据对应的相似物品集合。
根据本发明实施例的技术方案,集合运算模块201还可以用于:
对每个维度数据对应的相似物品集合进行取交集运算以得到相似物品集。
根据本发明实施例的技术方案,通过对与物品相关的多个维度的数据进行处理以确定不同维度数据对应的相似物品集合,然后,对确定的相似物品集合进行运算以得到相似物品集,构建了一套可根据线上数据变化而自动实时调整计算的相似性识别模型,能够及时根据多个维度的线上数据,精确、灵活、全面地自动化识别出相似的物品,以及品牌和商家,从而大大节省了花费在对标工作上的时间和精力,并且可以实现从不同维度进行精细对标,为物品研发和改进的目标和策略的制定提供了数据支持。
图3示出了可以应用本发明实施例的识别相似物品的方法或识别相似物品的装置的示例性***架构300。
如图3所示,***架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的识别相似物品的方法一般由服务器305执行,相应地,识别相似物品的装置一般设置于服务器305中。
应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图4,其示出了适于用来实现本发明实施例的终端设备或服务器的计算机***400的结构示意图。图4示出的终端设备或服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机***400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有***400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括集合确定模块和集合运算模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,集合确定模块还可以被描述为“用于对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合;对所述每个维度数据对应的相似物品集合进行运算以得到相似物品集。
根据本发明实施例的技术方案,通过对与物品相关的多个维度的数据进行处理以确定不同维度数据对应的相似物品集合,然后,对确定的相似物品集合进行运算以得到相似物品集,构建了一套可根据线上数据变化而自动实时调整计算的相似性识别模型,能够及时根据多个维度的线上数据,精确、灵活、全面地自动化识别出相似的物品,以及品牌和商家,从而大大节省了花费在对标工作上的时间和精力,并且可以实现从不同维度进行精细对标,为物品研发和改进的目标和策略的制定提供了数据支持。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种识别相似物品的方法,其特征在于,包括:
对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合;
对所述每个维度数据对应的相似物品集合进行运算以得到相似物品集。
2.根据权利要求1所述的方法,其特征在于,
所述不少于一个维度的数据包括用户维度数据;并且,
对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合的步骤包括:
根据所述用户维度数据得到用户在不同物品之间的转移概率,并根据所述转移概率生成转移概率矩阵,然后根据所述转移概率矩阵得到所述用户维度数据对应的相似物品集合。
3.根据权利要求2所述的方法,其特征在于,根据所述用户维度数据得到用户在不同物品之间的转移概率的步骤包括:
获取用户在预定时间段内的行为数据,所述行为数据包括第一行为记录和第二行为记录;
根据所述第一行为记录获取用户对物品B的第一行为的行为次数S;
从用户对物品B的第一行为对应的第二行为记录中,获取用户从物品A转移到物品B的转移次数T,其中,所述物品A为用户在对物品B执行第一行为之前,执行第二行为的最后一个非物品B的物品;
将T/S作为用户由物品A转移到物品B的转移概率。
4.根据权利要求1或2所述的方法,其特征在于,
所述不少于一个维度的数据包括物品维度数据;并且,
对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合的步骤包括:
通过将所述物品维度数据中包括的物品的不少于一个维度的数据信息按照预定的维度顺序进行比对,以得到所述物品维度数据对应的相似物品集合。
5.根据权利要求1所述的方法,其特征在于,
所述不少于一个维度的数据包括销售维度数据;并且,
对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合的步骤包括:
对所述销售维度数据中包括的预定时间段内物品的销售量和销售金额进行运算以得到物品的综合销售指数,将与物品C的综合销售指数的差值在预定范围内的物品作为物品C的相似物品,从而确定所述销售维度数据对应的相似物品集合。
6.根据权利要求1所述的方法,其特征在于,对所述每个维度数据对应的相似物品集合进行运算以得到相似物品集的步骤包括:
对所述每个维度数据对应的相似物品集合进行取交集运算以得到相似物品集。
7.一种识别相似物品的装置,其特征在于,包括:
集合确定模块,用于对不少于一个维度的数据进行处理,确定每个维度数据对应的相似物品集合;
集合运算模块,用于对所述每个维度数据对应的相似物品集合进行运算以得到相似物品集。
8.根据权利要求7所述的装置,其特征在于,
所述不少于一个维度的数据包括用户维度数据;并且,
所述集合确定模块还用于:
根据所述用户维度数据得到用户在不同物品之间的转移概率,并根据所述转移概率生成转移概率矩阵,然后根据所述转移概率矩阵得到所述用户维度数据对应的相似物品集合。
9.根据权利要求8所述的装置,其特征在于,所述集合确定模块还用于:
获取用户在预定时间段内的行为数据,所述行为数据包括第一行为记录和第二行为记录;
根据所述第一行为记录获取用户对物品B的第一行为的行为次数S;
从用户对物品B的第一行为对应的第二行为记录中,获取用户从物品A转移到物品B的转移次数T,其中,所述物品A为用户在对物品B执行第一行为之前,执行第二行为的最后一个非物品B的物品;
将T/S作为用户由物品A转移到物品B的转移概率。
10.根据权利要求7或8所述的装置,其特征在于,
所述不少于一个维度的数据包括物品维度数据;并且,
所述集合确定模块还用于:
通过将所述物品维度数据中包括的物品的不少于一个维度的数据信息按照预定的维度顺序进行比对,以得到所述物品维度数据对应的相似物品集合。
11.根据权利要求7所述的装置,其特征在于,
所述不少于一个维度的数据包括销售维度数据;并且,
所述集合确定模块还用于:
对所述销售维度数据中包括的预定时间段内物品的销售量和销售金额进行运算以得到物品的综合销售指数,将与物品C的综合销售指数的差值在预定范围内的物品作为物品C的相似物品,从而确定所述销售维度数据对应的相似物品集合。
12.根据权利要求7所述的装置,其特征在于,所述集合运算模块还用于:
对所述每个维度数据对应的相似物品集合进行取交集运算以得到相似物品集。
13.一种识别相似物品的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201810791952.8A 2018-07-18 2018-07-18 识别相似物品的方法和装置 Active CN110738538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810791952.8A CN110738538B (zh) 2018-07-18 2018-07-18 识别相似物品的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810791952.8A CN110738538B (zh) 2018-07-18 2018-07-18 识别相似物品的方法和装置

Publications (2)

Publication Number Publication Date
CN110738538A true CN110738538A (zh) 2020-01-31
CN110738538B CN110738538B (zh) 2024-05-24

Family

ID=69234970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810791952.8A Active CN110738538B (zh) 2018-07-18 2018-07-18 识别相似物品的方法和装置

Country Status (1)

Country Link
CN (1) CN110738538B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415195A (zh) * 2020-03-17 2020-07-14 京东数字科技控股有限公司 一种广告推荐方法、装置、终端设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102866992A (zh) * 2011-07-04 2013-01-09 阿里巴巴集团控股有限公司 一种在网页中显示产品信息的方法及装置
US20150127419A1 (en) * 2013-11-04 2015-05-07 Oracle International Corporation Item-to-item similarity generation
CN106651542A (zh) * 2016-12-31 2017-05-10 珠海市魅族科技有限公司 一种物品推荐的方法及装置
CN106815347A (zh) * 2017-01-13 2017-06-09 沈阳工学院 基于商品相似度的改进slope one协同过滤推荐算法
CN106897911A (zh) * 2017-01-10 2017-06-27 南京邮电大学 一种基于用户和物品的自适应个性化推荐方法
CN107066476A (zh) * 2016-12-13 2017-08-18 江苏途致信息科技有限公司 一种基于物品相似度的实时推荐方法
CN107193932A (zh) * 2017-05-18 2017-09-22 北京京东尚科信息技术有限公司 信息推送方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102866992A (zh) * 2011-07-04 2013-01-09 阿里巴巴集团控股有限公司 一种在网页中显示产品信息的方法及装置
US20150127419A1 (en) * 2013-11-04 2015-05-07 Oracle International Corporation Item-to-item similarity generation
CN107066476A (zh) * 2016-12-13 2017-08-18 江苏途致信息科技有限公司 一种基于物品相似度的实时推荐方法
CN106651542A (zh) * 2016-12-31 2017-05-10 珠海市魅族科技有限公司 一种物品推荐的方法及装置
CN106897911A (zh) * 2017-01-10 2017-06-27 南京邮电大学 一种基于用户和物品的自适应个性化推荐方法
CN106815347A (zh) * 2017-01-13 2017-06-09 沈阳工学院 基于商品相似度的改进slope one协同过滤推荐算法
CN107193932A (zh) * 2017-05-18 2017-09-22 北京京东尚科信息技术有限公司 信息推送方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415195A (zh) * 2020-03-17 2020-07-14 京东数字科技控股有限公司 一种广告推荐方法、装置、终端设备及存储介质
CN111415195B (zh) * 2020-03-17 2024-04-16 京东科技控股股份有限公司 一种广告推荐方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN110738538B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN107729937B (zh) 用于确定用户兴趣标签的方法及装置
US8694372B2 (en) Systems and methods for automatic control of marketing actions
WO2019072128A1 (zh) 对象识别方法及其***
US20200341954A1 (en) System, Method, and Computer Program Product for Monitoring and Improving Data Quality
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN116308684B (zh) 一种网购平台店铺信息推送方法及***
CN107679916A (zh) 用于获取用户兴趣度的方法及装置
CN111612385B (zh) 一种对待配送物品进行聚类的方法和装置
CN110895761A (zh) 一种售后服务申请信息的处理方法和装置
CN110827101B (zh) 一种店铺推荐的方法和装置
CN113450172A (zh) 一种商品推荐方法和装置
CN107357847B (zh) 数据处理方法及其装置
CN110738538B (zh) 识别相似物品的方法和装置
CN110599281A (zh) 一种确定目标店铺的方法和装置
CN110766431A (zh) 判断用户对优惠券是否敏感的方法和装置
CN114996579A (zh) 信息推送方法、装置、电子设备和计算机可读介质
CN113762994B (zh) 用户运营管理的方法和装置
CN114549125A (zh) 物品推荐方法及装置、电子设备和计算机可读存储介质
CN113313542B (zh) 一种推送频道页面的方法和装置
CN114092194A (zh) 一种产品推荐方法、装置、介质及设备
Bai A Hierarchical Model of E-Commerce Sellers Based on Data Mining.
CN113792952A (zh) 用于生成模型的方法和装置
CN113327145A (zh) 一种物品推荐方法和装置
CN112991033A (zh) 一种确定物品价值属性的方法和装置
CN110517055B (zh) 生成实体场所促销信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant