CN108171586A - 一种商品聚类方法及装置 - Google Patents

一种商品聚类方法及装置 Download PDF

Info

Publication number
CN108171586A
CN108171586A CN201810067423.3A CN201810067423A CN108171586A CN 108171586 A CN108171586 A CN 108171586A CN 201810067423 A CN201810067423 A CN 201810067423A CN 108171586 A CN108171586 A CN 108171586A
Authority
CN
China
Prior art keywords
commodity
clustered
end article
substrategy
commercial articles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810067423.3A
Other languages
English (en)
Inventor
孙勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Is Worth Buying A Polytron Technologies Inc
Original Assignee
Beijing Is Worth Buying A Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Is Worth Buying A Polytron Technologies Inc filed Critical Beijing Is Worth Buying A Polytron Technologies Inc
Priority to CN201810067423.3A priority Critical patent/CN108171586A/zh
Publication of CN108171586A publication Critical patent/CN108171586A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种商品聚类方法及装置,涉及电子商务和数据处理技术领域,该商品聚类方法包括:获取待聚类商品的目标商品标题;根据所述目标商品标题,生成与所述待聚类商品对应的目标唯一标识;将预设商品库中与所述目标唯一标识相匹配的目标商品聚为一类;其中,所述预设商品库中存储有来自于不同购物网站的各个商品的商品标题。可见,应用本发明进行商品聚类时,先获得待聚类商品的目标商品标题,然后生成与该待聚类商品对应的目标唯一标识,进而从预设商品库中匹配出目标商品,无需人工手动比对,实现了对商品库中对商品的自动聚类。

Description

一种商品聚类方法及装置
技术领域
本发明涉及电子商务和数据处理技术领域,特别涉及一种商品聚类方法及装置。
背景技术
导购网站,是一个向用户提供网购商品推荐的消费决策平台。为了向用户推荐高性价比的商品,现有技术中,网站运营人员往往需要人工手动比对某一商品在不同购物网站的价格。虽然,利用现有技术提供的方案可以得到具有高性价比的商品,但是,人工手动比对的方式,需要网站运营人员进行大量的重复且繁琐的工作,需要耗费较长时间。
发明内容
本发明实施例的目的在于提供一种商品聚类方法及装置,以实现对商品库中对商品的自动聚类。
为达到上述目的,本发明实施例公开了一种商品聚类方法,所述商品聚类方法包括:
获取待聚类商品的目标商品标题;
根据所述目标商品标题,生成与所述待聚类商品对应的目标唯一标识;
将预设商品库中与所述目标唯一标识相匹配的目标商品聚为一类;其中,所述预设商品库中存储有来自于不同购物网站的各个商品的商品标题。
优选的,所述目标商品标题中至少包括:由待聚类商品的型号和/或关键字信息,以及品牌共同构成的属性信息,所述关键字信息至少包括待聚类商品的类别关键字。
优选的,所述将预设商品库中与所述目标唯一标识相匹配的目标商品聚为一类,包括:
基于预设正则表达式,从预设商品库中粗选出与所述待聚类商品的类别关键字相匹配的候选商品集;
将所述候选商品集中与所述目标唯一标识相匹配的目标商品聚为一类。
优选的,所述根据所述目标商品标题,生成与所述待聚类商品对应的目标唯一标识,包括:
根据所述目标商品标题,确定所述待聚类商品所属的目标商品类别;
基于预设的商品类别和聚类策略之间的对应关系,确定与所述目标商品类别对应的目标聚类策略,其中,所述聚类策略中至少包括:获取型号子策略和/或获取关键字子策略,以及获取品牌子策略;
按照所述目标聚类策略,获取所述待聚类商品的属性信息;
根据所述待聚类商品的属性信息,生成与所述待聚类商品对应的目标唯一标识。
优选的,所述根据所述目标商品标题,确定所述待聚类商品所属的目标商品类别,包括:
按照预设的分词算法,对所述目标商品标题进行分词处理;
从分词结果中提取出所述待聚类商品的类别关键字;
根据所述类别关键字确定所述待聚类商品所属的目标商品类别。
优选的,所述聚类策略还包括:统一单位子策略;
所述按照所述目标聚类策略,获取所述待聚类商品的属性信息,包括:
按照所述获取型号子策略和/或所述获取关键字子策略,以及所述获取品牌子策略,分别获取所述待聚类商品的型号和/或关键字信息,以及品牌;其中,所述关键字信息中还包含所述待聚类商品的数量信息;
按照所述统一单位子策略,对所述数量信息进行单位统一处理。
优选的,所述聚类策略还包括:过滤类别关键字子策略;
所述确定所述待聚类商品所属的目标商品类别之前,还包括:
按照所述过滤类别关键字子策略,对所提取出的类别关键字进行过滤处理。
为达到上述目的,本发明实施例公开了一种商品聚类装置,所述商品聚类装置包括:
标题获取模块,用于获取待聚类商品的目标商品标题;
标识生成模块,用于根据所述目标商品标题,生成与所述待聚类商品对应的目标唯一标识;
聚类模块,用于将预设商品库中与所述目标唯一标识相匹配的目标商品聚为一类;其中,所述预设商品库中存储有来自于不同购物网站的各个商品的商品标题。
优选的,所述目标商品标题中至少包括:由待聚类商品的型号和关键字信息,以及品牌共同构成的属性信息,所述关键字信息至少包括待聚类商品的类别关键字。
优选的,所述聚类模块包括:
粗选子模块,用于基于预设正则表达式,从预设商品库中粗选出与所述待聚类商品的类别关键字相匹配的候选商品集;
匹配子模块,用于将所述候选商品集中与所述目标唯一标识相匹配的目标商品聚为一类。
可见,应用本发明进行商品聚类时,先获得待聚类商品的目标商品标题,然后生成与该待聚类商品对应的目标唯一标识,进而从预设商品库中匹配出目标商品,无需人工手动比对,实现了对商品库中对商品的自动聚类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种商品聚类方法的流程示意图;
图2为本发明实施例提供的一种商品聚类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为实现对商品库中对商品的自动聚类,本发明实施例提供了一种商品聚类方法及装置。
下面先对本发明实施例提供的商品聚类方法进行详细介绍。
如图1所示,为本发明实施例提供的一种商品聚类方法的流程示意图,所述商品聚类方法包括:
S101:获取待聚类商品的目标商品标题。
其中,所述目标商品标题中至少包括:由待聚类商品的型号和/或关键字信息,以及品牌共同构成的属性信息,所述关键字信息至少包括待聚类商品的类别关键字。
需要说明的是,品牌、型号、关键字信息为构成商品的属性信息的具体内容,对于不同类别的商品而言,属性信息的具体内容可以不同,具体的,有的商品的属性信息的内容可以是品牌和型号,即可以通过“品牌+型号”确认是否为同一商品,例如电视,当电视标题中的品牌和型号均相同,就可以认为是同一商品;有的商品的属性信息的内容可以是品牌和关键字信息,即可以通过“品牌+关键字信息”确认是否为同一商品,例如手机,当手机标题中的品牌和关键字信息(如手机容量、手机制式等)均相同,就可以认为是同一商品;当然,有的商品的属性信息的内容可以是品牌、型号和关键字信息,即需要通过“品牌+型号+关键字信息”才可以确认是否为同一商品。
S102:根据所述目标商品标题,生成与所述待聚类商品对应的目标唯一标识。
需要说明的是,这里提及的“目标唯一标识”是根据目标商品标题生成得到的,更准确的说,是根据标题中所包含的属性信息生成得到的,该目标唯一标识用于唯一标识该目标商品。
一种实现方式中,可以按照以下方式生成与所述待聚类商品对应的目标唯一标识:
A.据所述目标商品标题,确定所述待聚类商品所属的目标商品类别。
B.基于预设的商品类别和聚类策略之间的对应关系,确定与所述目标商品类别对应的目标聚类策略。
其中,所述聚类策略中至少包括:获取型号子策略和/或获取关键字子策略,以及获取品牌子策略。
C.按照所述目标聚类策略,获取所述待聚类商品的属性信息。
D.根据所述待聚类商品的属性信息,生成与所述待聚类商品对应的目标唯一标识。
需要说明的是,在判断来自不同购物网站的商品是否为同一商品时,若待聚类商品的类别不同,商品属性信息的具体内容也可以不同。优选的,本领域内的技术人员,可以预先针对不同类别的商品设置不同的聚类策略,从而可以有针对性地获取待聚类商品的属性信息的具体内容,对于通过“品牌+型号”或“品牌+关键字信息”的情况而言,减少了属性信息的内容,可见有利于提高商品聚类的效率。
还需要说明的是,上述提及的获取型号子策略用于获取商品的型号,获取关键字子策略用于获取商品的关键字信息,获取品牌子策略用于获取商品的品牌,也就是说,上述提及的目标聚类策略可以理解为由获取型号子策略和/或获取关键字子策略,以及获取品牌子策略构成的子策略集合,而该目标聚类策略中的子策略的设置需要由商品类别来决定。
更具体的,可以按照以下方式确定所述待聚类商品所属的目标商品类别:
A1.按照预设的分词算法,对所述目标商品标题进行分词处理。
A2.从分词结果中提取出所述待聚类商品的类别关键字。
A3.根据所述类别关键字确定所述待聚类商品所属的目标商品类别。
需要说明的是,这里提及的“预设的分词算法”可以是“盘古分词”算法,当然还可以是其他分词算法,本发明实施例并不需要对此进行限定,任何可能的实现方式均可以应用于本发明。
下面以一款海信电视商品为例进行说明,商品标题为“海信(Hisense)LED55EC520UA 55英寸VIDAA3 14核炫彩4K智能电视”。
具体的,这里的商品标题“海信(Hisense)LED55EC520UA 55英寸VIDAA3 14核炫彩4K智能电视”实际上是一个整体的语句,首先利用盘古分词算法对上述商品标题进行分词处理,并得到多个分词“海信”、“Hisense”、“LED55EC520UA”、“55”、“英寸”、“VIDAA3”、“14核”、“炫彩”、“4K”、“智能电视”;然后从所得到的分词结果中提取出该待聚类商品的类别关键字,如“智能电视”,然后根据该类别关键字确定该待聚类商品所属的目标商品类别为“电视”或“家电类”。需要说明的是,这里仅仅列举了确定待聚类商品所属的目标商品类别的一种具体方式,不应构成对本发明的限定。
进一步的,一种实现方式中,所述聚类策略还包括统一单位子策略。
所述按照所述目标聚类策略,获取所述待聚类商品的属性信息,包括:
(1)按照所述获取型号子策略和/或所述获取关键字子策略,以及所述获取品牌子策略,分别获取所述待聚类商品的型号和/或关键字信息,以及品牌。其中,所述关键字信息中还包含所述待聚类商品的数量信息。
(2)按照所述统一单位子策略,对所述数量信息进行单位统一处理。
可以理解的是,有些待聚类商品实际上是组合装商品,例如组合装电池,显然,组合装电池中电池的数量不同,整体商品的价格也不相同,因此不应将数量不同的组合装电池看作同一商品,因此,这种商品的关键字信息中还应该包含待聚类商品的数量信息。
仍然以组合装电池为例进行说明,来自第一购物网站的组合装电池的商品标题为“雷摄LEISE LST7AAA-40碳性电池7号AAA无汞环保型40粒”,来自第二购物网站的组合装电池的商品标题为“雷摄LEISE LST7AAA-40碳性电池7号AAA无汞环保型40颗”。根据预设的分词算法将商品标题进行分词处理后,可以获得来自第一购物网站和来自第二购物网站的组合装电池的数量信息为“40粒”、“40颗”。显然,在电池分类中“40粒”与“40颗”为同一含义。因此,本领域内的技术人员需要预先建立“粒”等于“颗”的映射关系,这样在提取出商品的数量信息之后,可以依据该统一单位子策略将单位“颗”替换为单位“粒”,进而可以判定来自第一购物网站和来自第二购物网站的组合装电池为同一商品。可见,提高了商品聚类的准确性。
进一步的,另一种实现方式中,所述聚类策略还包括:过滤类别关键字子策略。相应的,所述确定所述待聚类商品所属的目标商品类别之前,还包括:按照所述过滤类别关键字子策略,对所提取出的类别关键字进行过滤处理。
需要说明的是,对于某些待聚类商品而言,其商品标题中会出现一些干扰信息。以一款手机类商品为例进行说明,其商品标题为“Apple iPhone 5s(A1530)16G金色移动联通4G手机”。显然,手机类商品标题经常出现手机容量(“16G”)和通讯协议(“4G”),容易理解的是,手机容量是决定手机价格的关键信息。因此,为了避免后续利用关键字子策略获取关键字信息时,能获取到用于表示手机容量的“16G”,而不是用于表示手机通信协议的“4G”,所以需要将干扰信息“4G手机”从分词结果中过滤掉。可见,提高了商品聚类的准确性。
S103:将预设商品库中与所述目标唯一标识相匹配的目标商品聚为一类。
其中,所述预设商品库中存储有来自于不同购物网站的各个商品的商品标题。
优选的,该预设商品库中还可以存储各个商品的属性信息,实际应用中,在从分词结果中提取出所述待聚类商品的型号和/或关键字,以及品牌后,将所提取的属性信息的具体内容录入或更新至预设商品库中。
一种实现方式中,可以按照以下方式将目标商品聚为一类:
(1)基于预设正则表达式,从预设商品库中粗选出与所述待聚类商品的类别关键字相匹配的候选商品集。
(2)将所述候选商品集中与所述目标唯一标识相匹配的目标商品聚为一类。
需要说明的是,对于某些待聚类商品而言,其区别仅在于商品参数的不同,例如笔记本电脑的内存大小,以金士顿内存为例进行说明,其商品标题为“金士顿(Kingston)低电压版DDR3 1600 8GB笔记本内存”,其中“8GB”是需要利用正则表达式才能抓取到的关键字,因为此处可能是2GB、8GB、16GB和32GB等,而本领域内的技术人员可以利用表达式“%d+GB”来遍历预设商品库中的商品,从而可以先粗略地选出符合表达式的候选商品集,然后再依据目标唯一标识从候选商品中匹配出最终的目标商品并聚为一类。这样能够降低本领域内的程序开发工作量,同时还能够提高商品聚类的效率。
可见,应用本发明进行商品聚类时,先获得待聚类商品的目标商品标题,然后生成与该待聚类商品对应的目标唯一标识,进而从预设商品库中匹配出目标商品,无需人工手动比对,实现了对商品库中对商品的自动聚类。
下面对本发明实施例提供的商品聚类装置进行介绍。
如图2所示,为本发明实施例提供的一种商品聚类装置的结构示意图,所述商品聚类装置包括:
标题获取模块210,用于获取待聚类商品的目标商品标题。
标识生成模块220,用于根据所述目标商品标题,生成与所述待聚类商品对应的目标唯一标识。
聚类模块230,用于将预设商品库中与所述目标唯一标识相匹配的目标商品聚为一类。
其中,所述预设商品库中存储有来自于不同购物网站的各个商品的商品标题。
具体的,所述目标商品标题中至少包括:由待聚类商品的型号和关键字信息,以及品牌共同构成的属性信息,所述关键字信息至少包括待聚类商品的类别关键字。
一种实现方式中,所述聚类模块230包括:
粗选子模块,用于基于预设正则表达式,从预设商品库中粗选出与所述待聚类商品的类别关键字相匹配的候选商品集;
匹配子模块,用于将所述候选商品集中与所述目标唯一标识相匹配的目标商品聚为一类。
一种实现方式中,所述标识生成模块220,包括:
类别确定子模块,用于根据所述目标商品标题,确定所述待聚类商品所属的目标商品类别。
策略确定子模块,用于基于预设的商品类别和聚类策略之间的对应关系,确定与所述目标商品类别对应的目标聚类策略。其中,所述聚类策略中至少包括:获取型号子策略和/或获取关键字子策略,以及获取品牌子策略。
属性获取子模块,用于按照所述目标聚类策略,获取所述待聚类商品的属性信息。
标识生成子模块,用于根据所述待聚类商品的属性信息,生成与所述待聚类商品对应的目标唯一标识。
一种实现方式中,所述类别确定子模块,具体用于:按照预设的分词算法,对所述目标商品标题进行分词处理;从分词结果中提取出所述待聚类商品的类别关键字;根据所述类别关键字确定所述待聚类商品所属的目标商品类别。
进一步的,所述聚类策略还包括:统一单位子策略;相应的,所述属性获取子模块具体用于:
按照所述获取型号子策略和/或所述获取关键字子策略,以及所述获取品牌子策略,分别获取所述待聚类商品的型号和/或关键字信息,以及品牌;其中,所述关键字信息中还包含所述待聚类商品的数量信息;按照所述统一单位子策略,对所述数量信息进行单位统一处理。
进一步的,所述聚类策略还包括:过滤类别关键字子策略。相应的,还包括关键字过滤子模块,用于在确定所述待聚类商品所属的目标商品类别之前,按照所述过滤类别关键字子策略,对所提取出的类别关键字进行过滤处理。
可见,应用本发明进行商品聚类时,先获得待聚类商品的目标商品标题,然后生成与该待聚类商品对应的目标唯一标识,进而从预设商品库中匹配出目标商品,无需人工手动比对,实现了对商品库中对商品的自动聚类。
对于***或装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种商品聚类方法,其特征在于,所述商品聚类方法包括:
获取待聚类商品的目标商品标题;
根据所述目标商品标题,生成与所述待聚类商品对应的目标唯一标识;
将预设商品库中与所述目标唯一标识相匹配的目标商品聚为一类;其中,所述预设商品库中存储有来自于不同购物网站的各个商品的商品标题。
2.根据权利要求1所述的商品聚类方法,其特征在于,所述目标商品标题中至少包括:由待聚类商品的型号和/或关键字信息,以及品牌共同构成的属性信息,所述关键字信息至少包括待聚类商品的类别关键字。
3.根据权利要求2所述的商品聚类方法,其特征在于,所述将预设商品库中与所述目标唯一标识相匹配的目标商品聚为一类,包括:
基于预设正则表达式,从预设商品库中粗选出与所述待聚类商品的类别关键字相匹配的候选商品集;
将所述候选商品集中与所述目标唯一标识相匹配的目标商品聚为一类。
4.根据权利要求2所述的商品聚类方法,其特征在于,所述根据所述目标商品标题,生成与所述待聚类商品对应的目标唯一标识,包括:
根据所述目标商品标题,确定所述待聚类商品所属的目标商品类别;
基于预设的商品类别和聚类策略之间的对应关系,确定与所述目标商品类别对应的目标聚类策略,其中,所述聚类策略中至少包括:获取型号子策略和/或获取关键字子策略,以及获取品牌子策略;
按照所述目标聚类策略,获取所述待聚类商品的属性信息;
根据所述待聚类商品的属性信息,生成与所述待聚类商品对应的目标唯一标识。
5.根据权利要求4所述的商品聚类方法,其特征在于,所述根据所述目标商品标题,确定所述待聚类商品所属的目标商品类别,包括:
按照预设的分词算法,对所述目标商品标题进行分词处理;
从分词结果中提取出所述待聚类商品的类别关键字;
根据所述类别关键字确定所述待聚类商品所属的目标商品类别。
6.根据权利要求4所述的商品聚类方法,其特征在于,所述聚类策略还包括:统一单位子策略;
所述按照所述目标聚类策略,获取所述待聚类商品的属性信息,包括:
按照所述获取型号子策略和/或所述获取关键字子策略,以及所述获取品牌子策略,分别获取所述待聚类商品的型号和/或关键字信息,以及品牌;其中,所述关键字信息中还包含所述待聚类商品的数量信息;
按照所述统一单位子策略,对所述数量信息进行单位统一处理。
7.根据权利要求4所述的商品聚类方法,其特征在于,所述聚类策略还包括:过滤类别关键字子策略;
所述确定所述待聚类商品所属的目标商品类别之前,所述方法还包括:
按照所述过滤类别关键字子策略,对所提取出的类别关键字进行过滤处理。
8.一种商品聚类装置,其特征在于,所述商品聚类装置包括:
标题获取模块,用于获取待聚类商品的目标商品标题;
标识生成模块,用于根据所述目标商品标题,生成与所述待聚类商品对应的目标唯一标识;
聚类模块,用于将预设商品库中与所述目标唯一标识相匹配的目标商品聚为一类;其中,所述预设商品库中存储有来自于不同购物网站的各个商品的商品标题。
9.根据权利要求8所述的商品聚类装置,其特征在于,所述目标商品标题中至少包括:由待聚类商品的型号和关键字信息,以及品牌共同构成的属性信息,所述关键字信息至少包括待聚类商品的类别关键字。
10.根据权利要求9所述的商品聚类装置,其特征在于,所述聚类模块包括:
粗选子模块,用于基于预设正则表达式,从预设商品库中粗选出与所述待聚类商品的类别关键字相匹配的候选商品集;
匹配子模块,用于将所述候选商品集中与所述目标唯一标识相匹配的目标商品聚为一类。
CN201810067423.3A 2018-01-23 2018-01-23 一种商品聚类方法及装置 Pending CN108171586A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810067423.3A CN108171586A (zh) 2018-01-23 2018-01-23 一种商品聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810067423.3A CN108171586A (zh) 2018-01-23 2018-01-23 一种商品聚类方法及装置

Publications (1)

Publication Number Publication Date
CN108171586A true CN108171586A (zh) 2018-06-15

Family

ID=62515918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810067423.3A Pending CN108171586A (zh) 2018-01-23 2018-01-23 一种商品聚类方法及装置

Country Status (1)

Country Link
CN (1) CN108171586A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915391A (zh) * 2020-06-16 2020-11-10 北京迈格威科技有限公司 商品数据的处理方法、装置及电子设备
CN113298609A (zh) * 2021-01-27 2021-08-24 阿里巴巴集团控股有限公司 对象识别码处理方法、对象发布方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
US20130275269A1 (en) * 2012-04-11 2013-10-17 Alibaba Group Holding Limited Searching supplier information based on transaction platform
CN103559267A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种基于商品属性归一和聚类识别产品的方法
CN103778548A (zh) * 2012-10-19 2014-05-07 阿里巴巴集团控股有限公司 商品信息与关键词匹配方法、商品信息投放方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
US20130275269A1 (en) * 2012-04-11 2013-10-17 Alibaba Group Holding Limited Searching supplier information based on transaction platform
CN103778548A (zh) * 2012-10-19 2014-05-07 阿里巴巴集团控股有限公司 商品信息与关键词匹配方法、商品信息投放方法及装置
CN103559267A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种基于商品属性归一和聚类识别产品的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915391A (zh) * 2020-06-16 2020-11-10 北京迈格威科技有限公司 商品数据的处理方法、装置及电子设备
CN113298609A (zh) * 2021-01-27 2021-08-24 阿里巴巴集团控股有限公司 对象识别码处理方法、对象发布方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN107526807A (zh) 信息推荐方法及装置
CN105975641A (zh) 视频推荐方法及装置
CN104239373B (zh) 为文档添加标签的方法及装置
EP2697709A1 (en) Method and apparatus of determining product category information
CN104408163B (zh) 一种数据分级存储方法和装置
CN108319376B (zh) 一种优化商业词推广的输入联想推荐方法及装置
CN106294775A (zh) 内容推送方法及装置
CN104778222B (zh) 基于usb存储设备的媒体库建立及更新方法
CN103942712A (zh) 基于产品相似度的电子商务推荐***及其方法
CN103064852A (zh) 网站统计信息处理方法及***
CN110196904A (zh) 一种获取推荐信息的方法、装置及计算机可读存储介质
CN103699673B (zh) 一种移动终端的图片处理方法、装置和移动终端
CN107369058A (zh) 一种关联推荐方法及服务器
CN112559513A (zh) 链路数据存取方法、装置、存储介质、处理器及电子装置
CN103927673A (zh) 一种推荐业务信息的方法及装置
CN108846097A (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
WO2013017013A1 (zh) 一种电子商务平台商品分类方法和装置
CN107045700A (zh) 基于流式用户行为分析的产品推送方法和装置
CN107277115A (zh) 一种内容推送方法及装置
CN108171586A (zh) 一种商品聚类方法及装置
CN105574030A (zh) 一种信息搜索方法及装置
CN105389266B (zh) 一种数据管理方法及装置
CN109241410A (zh) 一种文章推荐方法和装置
CN103019575B (zh) 一种移动终端及其信息处理方法
CN104102662A (zh) 一种用户兴趣偏好相似度确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180615

RJ01 Rejection of invention patent application after publication