CN108280124B - 产品分类方法及装置,排行榜生成方法及装置,电子设备 - Google Patents

产品分类方法及装置,排行榜生成方法及装置,电子设备 Download PDF

Info

Publication number
CN108280124B
CN108280124B CN201711308314.8A CN201711308314A CN108280124B CN 108280124 B CN108280124 B CN 108280124B CN 201711308314 A CN201711308314 A CN 201711308314A CN 108280124 B CN108280124 B CN 108280124B
Authority
CN
China
Prior art keywords
word
product
classified
products
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711308314.8A
Other languages
English (en)
Other versions
CN108280124A (zh
Inventor
殷瑞娟
李雪琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201711308314.8A priority Critical patent/CN108280124B/zh
Publication of CN108280124A publication Critical patent/CN108280124A/zh
Application granted granted Critical
Publication of CN108280124B publication Critical patent/CN108280124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0629Directed, with specific intent or strategy for generating comparisons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种产品分类方法,属于计算机技术领域,解决现有技术中没有对全网产品进行横向分类管理,从而导致搜索、推荐或排行等应用的效率低下的问题。所述方法包括:基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合。本申请通过结合预设词库基于产品的名称对产品进行分类,可以对全网产品进行有效分类管理,提升推荐和搜索等应用的效率。

Description

产品分类方法及装置,排行榜生成方法及装置,电子设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种产品分类方法及装置,排行榜生成方法及装置,电子设备。
背景技术
随着互联网应用的扩展,网络数据量增长迅速,从产品的类别到商户、乃至类别内产品的名称,数量众多。如,餐饮领域的商户、菜品,休闲娱乐领域的商户、服务项目,服装领域的商户、衣服等。为了准确、快速的在众多产品中搜索到目标产品,现有技术中通常根据商户或产品的文本描述进行文本匹配,以搜索平台上的产品,用于对用户进行展示、推荐等。然后,由于网络平台上不同商户对同一产品的文本描述或商户对自身的文本描述不规范,不同商户的相同产品之间没有直接关联,产品的搜索结果对商户的依赖性较大,导致搜索、推荐或排行等应用无法高效执行。
可见,现有技术中的没有一种有效的对产品进行分类的方法,能够对全网产品进行横向管理,从而提高搜索或推荐等应用的效率。
发明内容
本申请提供一种产品分类方法,解决现有技术中没有对全网产品进行横向分类管理,从而导致搜索或推荐等应用的效率低下的问题。
为了解决上述问题,第一方面,本申请实施例提供了一种产品分类方法包括:
基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;
对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;
根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合。
第二方面,本申请实施例提供了一种产品分类装置,包括:
分词对确定模块,用于基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;
候选产品信息集合确定模块,用于对所述分词对确定模块确定的分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;
分类聚合模块,用于根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合。
第三方面,本申请实施例提供了一种排行榜生成方法,包括:
根据输入产品所属候选产品信息集合,确定所述输入产品的关联商户,其中,所述输入产品所属候选产品信息集合通过本申请实施例中所述的产品分类方法确定;
确定所述关联商户基于产品维度和商户维度的排行指标值;
根据预设加权系数对各所述维度的排行指标值进行加权运算,确定所述关联商户的综合排行指标;
基于所述综合排行指标对所述关联商户进行排序,输出商户排行榜。
第四方面,本申请实施例提供了一种排行榜生成装置,包括:
关联商户确定模块,用于根据输入产品所属候选产品信息集合,确定所述输入产品的关联商户,其中,所述输入产品所属候选产品信息集合通过本申请实施例中所述的产品分类方法确定;
单一维度排行指标值确定模块,用于确定所述关联商户确定模块确定的关联商户基于产品维度和商户维度的排行指标值;
综合排行指标确定模块,用于根据预设加权系数对各所述维度的排行指标值进行加权运算,确定所述关联商户的综合排行指标;
排行榜输出模块,用于基于所述综合排行指标对所述关联商户进行排序,输出商户排行榜。
第五方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的产品分类方法和排行榜生成方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的产品分类方法和排行榜生成方法的步骤。
本申请实施例公开的产品分类方法,通过基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合,解决了现有技术中没有对全网产品进行横向分类管理,从而导致搜索或推荐等应用的效率低下的问题。本申请通过结合预设词库基于产品的名称对产品进行分类,可以对全网产品进行有效分类管理,提升推荐和搜索等应用的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一产品分类方法流程图;
图2是本申请实施例二产品分类方法流程图;
图3是本申请实施例二一优选实施例的产品分类方法流程图;
图4是本申请实施例三的排行榜生成方法流程图;
图5是本申请实施例四的产品分类装置结构示意图之一;
图6是本申请实施例四的产品分类装置结构示意图之二;
图7是本申请实施例四的产品分类装置结构示意图之三;
图8是本申请实施例五的排行榜生成装置结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本实施例公开的一种产品分类方法,如图1所示,该方法包括:步骤110至步骤130。
步骤110,基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成。
首先,对于网络品台上待分类的产品的名称进行处理,例如,利用预设词库对待分类产品的名称进行分词,然后,根据得到的分词进一步建立核心词序列和规范化名称。
具体实施时,首先需要基于网络平台上的产品的名称构建预设词库。所述预设词库至少包括:核心词词库、分词词库。所述分词词库用于后续结合分词引擎对待分类产品的名称进行分词处理;所述核心词词库用于对分词处理后得到的分词进行筛选,选出其中可以用于标识产品名称的核心词。以网络平台上的产品为菜品举例,核心词词库中包括的分词可以为:菜品类分词、食材类分词、口味类分词、做法类分词等。用于构建预设词库的网络平台上的产品的名称,还包括该产品在实体商户中的名称。
在实际应用中,当需要对待分类产品进行分类时,首先通过分词引擎结合分词词库对每个待分类产品的名称进行分词处理,分别得到每个的待分类产品对应的一组候选分词;然后,通过核心词词库对每组候选分词分别进行筛选,得到每个待分类产品对应的一组核心词。具体实施时,将每组核心词按照预设顺序(如音序)进行排列,得到该待分类产品对应的产品名称核心词序列。同时,将每组核心词按照各分词在所述待分类产品的名称中出现的先后顺序进行排列,得到该待分类产品对应的规范化名称。最后,将每个待分类产品对应的待分类产品和规范化名称,组成该待分类产品对应的分词对。按照此方法,每个待分类产品都将对应一个分词对。
步骤120,对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合。
SPU(Standard Product Unit),即标准化产品单元,是产品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。通常,属性值、特性相同的产品就可以称为一个SPU,本申请实施例中称为“信息集合”。本申请通过对产品名称进行分析,提取产品名称中的特征,用于对产品进行分类。
通过基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,将得到每个待分类产品对应的分词对,即每个待分类产品的名称对应一个产品名称核心词序列和规范化名称分词对。具体实施时,多个待分类产品对应的分词对中的产品名称核心词序列可能相同,而规范化名称可能不同,即同一个产品名称核心词序列可能对应多个规范化名称,因此,需要进一步对规范化名称进行筛选,确定同一个产品名称核心词序列对应的多个规范化名称中覆盖产品数量最多的规范化名称,作为该产品名称核心词序列对应的最优规范化名称。同时,将该产品名称核心词序列对应的所有产品的数量总和作为该最优规范化名称覆盖的产品数量。
然后,对于每个待分类产品对应的最优规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合。具体实施时,预设条件可以为以下任意一项或组合:最优规范化名称对应的产品名称核心词序列中包括核心词词库中至少一个产品类分词或包括核心词词库中至少两个分词、存在于所述最优规范化名称同名的产品、该最优规范化名称覆盖的产品数量大于预设值。
步骤130,根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合。
候选产品信息集合选自于最优规范化名称,最优规范化名称又对应产品名称核心词序列,因此,根据待分类产品对应的产品名称核心词序列,可以进一步确定每个待分类产品对应的候选产品信息集合。具体实施时,多个待分类产品可能对应同一个产品名称核心词序列,而多个产品名称核心词序列可能对应一个候选产品信息集合,因此,多个待分类产品可能对应一个候选产品信息集合。即每个候选产品信息集合可能包括多个产品。
本申请实施例公开的产品分类方法,通过基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合,解决了现有技术中没有对全网产品进行横向分类管理,从而导致搜索或推荐等应用的效率低下的问题。本申请通过结合预设词库基于产品的名称对产品进行分类,可以对全网产品进行有效分类管理,提升推荐和搜索等应用的效率。
实施例二
如图2所示,本申请另一实施例公开的一种产品分类方法,包括:步骤210至步骤240。
本申请公开的产品分类方法适用于网络平台上的各种产品,如餐饮平台的菜品、娱乐平台的服务项目、服装平台的衣服、车辆交易平台的汽车等。本申请的实施例中,为了便于理解,以产品为菜品举例,具体说明产品分类方法的技术方案。
具体实施时,在对线上产品进行分类之前,首先需要基于线上或线下的产品,构建词库。即基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对之前,所述方法包括:构建预设词库。
步骤210,构建预设词库。
所述预设词库至少包括:分词词库、核心词词库,优选的,所述预设词库还包括:错别字词库和近义词词库中至少一项。本实施例中,以预设词库包括:分词词库、核心词词库、错别字词库和近义词词库为例,具体说明词库的构建过程,以及菜品分类方法的具体实施方案。
具体实施时,首先搜集全网商户线上和线下售卖的菜品信息,如菜品名称,不同商户售卖的同名菜品当作多条记录,将以上所有菜品名称记录作为语料,用于生成分词词库、核心词词库、错别字词库以及近义词词库。例如,语料包括:“麻辣小龙虾”、“干煸西兰花”、“招牌土豆烧牛腩”…,假设语料记录总数为M。
构建分词词库、核心词词库时,所述方法包括:对产品名称进行处理,确定候选分词集合;根据所述候选分词集合中分词的含义,选择相应分词加入分词词库和/或核心词词库。
首先,设置词长阈值,将所有语料中菜品名称中长度小于等于词长阈值的单字序列作为初筛候选分词,得到初筛候选分词集合。以一条语料为“招牌土豆烧牛腩”为例,初筛候选分词可以包括:“招牌”、“土豆”、“牛腩”、“烧牛腩”等。具体实施时,由于汉语2字或3字构成的词居多,具体实施时,词长阈值可以设置为3。
然后,计算每个初筛候选分词的新词指标,确定候选分词集合。具体实施时,初筛候选分词的新词指标包括:词频、左邻字信息熵、右邻字信息熵和紧密度系数。
具体实施时,初筛候选分词词频F可以为包含初筛候选分词的记录条数。
初筛候选分词的左邻字信息熵的确定方法为:统计紧邻在该初筛候选分词左侧的所有不同单字以及这些单字紧邻该初筛候选分词左侧出现的次数,记为{cL1,cL2,...,cLn};然后计算各单字的出现概率PL,得到概率集合{pL1,pL2,...,pLn},其中,
Figure BDA0001502456170000071
最后,根据信息熵计算公式
Figure BDA0001502456170000072
计算得到该初筛候选分词的左邻字信息熵。
初筛候选分词的右邻字信息熵的确定方法为:统计紧邻在该初筛候选分词右侧的所有不同单字以及这些单字紧邻该初筛候选分词右侧出现的次数,记为{cR1,cR2,...,cRn};然后计算各单字的出现概率PR,得到概率集合{pR1,pR2,...,pRn},其中,
Figure BDA0001502456170000073
最后,根据信息熵计算公式计算得到该初筛候选分词的右邻字信息熵。
初筛候选分词的紧密度系数的确定方法为:假设在该初筛候选分词的任意非开头或末尾位置对词进行一次切分,得到词a和词b,词a和词b同时出现的概率为p′=F(a)·F(b)/M2,其中,F(a)和F(b)分别表示词a和词b的词频,M为语料中记录总数。按照此方法,对某个初筛候选分词进行所有可能的切分,确定各种切分方式下得到的两个词在语料中同时出现的概率,并将最高概率记为max(p),则该初筛候选分词的紧密度系数的计算公式为:c(候选词)/(M·max(p))。
新词指标越大,该初筛候选分词是一个新词的概率越大。具体实施时,分别设置以上四个新词指标的阈值,只有当初筛候选分词的以上四个新词指标都满足设置的阈值时,才将该初筛候选分词加入候选分词集合。例如:词频阈值设置为大于等于100,左邻字和右邻字信息熵阈值设置为大于等于1.0,紧密度系数阈值设置为大于等于1.0。阈值的设置根据实际测试结果确定。
然后,根据所述候选分词集合中分词的含义,选择相应分词加入分词词库和/或核心词词库。分词词库中的分词只是用于保证分词准确率,不一定会在候选产品信息集合中进行保留。如“招牌奶茶”中的“招牌”,虽然是一个分词,但是不会保留在候选产品信息集合中。核心词词库用于对分词处理后得到的分词进行筛选,选出其中可以用于标识产品名称的核心词。以网络平台上的产品为菜品举例,核心词词库中包括的分词可以为:菜品类分词、食材类分词、口味类分词、做法类分词等。具体实施时,根据所述候选分词集合中分词的含义,选择相应分词加入分词词库和/或核心词词库。例如:“土豆”、“西兰花”等食材类分词将同时加入核心词词库和分词词库;“炒”、“干煸”等烹饪做法类分词将同时加入核心词词库和分词词库;“酸辣”、“麻辣”等口味类分词将同时加入核心词词库和分词词库;“招牌”、“传统”等没有具体菜品含义的分词将加入分词词库。
构建错别字词库时,所述方法还包括:根据预设错别字种子词、所述错别字种子词对应的易错拼音,确定产品名称中的错别词,组成错别字词库。
首先,获取预设错别字种子词以及其可能错误拼写的拼音。如错别字种子词“馄饨”,并提供可能的错误拼写拼音为“hundun”。与错别字种子词完全相同的拼音可不提供,***将会自动识别出错别字种子词的拼音,并将其作为可能错误拼写的拼音之一,例如,***将得到该错别字种子词对应的可能的错误拼写拼音为“huntun”和“hundun”,并形成错误拼写拼音集合。
然后,根据所述可能错误拼写的拼音生成错别字种子词对应的候选错别词关系。对每一组错别字种子词和错误拼写拼音的组合,在语料的所有记录中寻找拼音包含在所述错误拼写拼音集合的所有分词,作为该错别字种子词的候选错别词。仍以“馄饨”为例,拼音为“huntun”或“hundun”的非“馄饨”本身的词均是错别字种子词“馄饨”的候选错别词,如“混沌”。
之后,根据错别字种子词和候选错别词的左右邻字相似度,筛选候选错别词。对每一组错别字种子词和候选错别词,计算候选错别词与错别种子词的左右邻字相似度。具体实施时,左右邻字相似度可以为左邻字相似度和右邻字相似度之和。其中,左邻字相似度的确定方法为:设语料中错别字种子词的左邻字集合为L,语料中候选错别词的左邻字集合为L’,L’中的单字紧邻候选错别词左侧出现的元素个数为C,L’和L的交集中的单字紧邻候选错别词左侧出现的元素个数为C’,则左邻字相似度为C’/C;右邻字相似度的确定方法为:设语料中错别字种子词的右邻字集合为R,设语料中候选错别词的右邻字集合为R’,R’中的单字紧邻候选错别词右侧出现的元素个数为D,R’和R的交集中的单字紧邻候选错别词右侧出现的元素个数为D’,则右邻字相似度为D’/D。
具体实施时,可以设置左右邻字相似度阈值,如0.5,将左右邻字相似度大于等于所述左右邻字相似度阈值的候选错别词作为种子词的最终候选错别词。
最后,将筛选后的候选错别词和错别字种子词的对应关系加入错别字词库。
具体实施时,错别字词库由错别字种子词和候选错别词的对应关系组成,例如错别字词库中包括形式如“馄饨:混沌”的对应关系。
所述近义词词库可以包括通用字典中的近义词。所述近义词词库也可以包括用户惯用的近义词,如:“土豆”和“马铃薯”,“麻小”和“麻辣小龙虾”等。
具体实施时,分词词库、核心词词库、错别字词库、近义词词库可以根据具体应用场景设置其中包括的分词。例如,如果预设词库用于对车辆进行分类,则核心词词库中包括的分词可以为:“汽油”、“电动”等能源类分词,“越野”、“轿车”等车型类分词。
步骤220,基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成。
首先,对于网络品台上待分类的产品的名称进行处理,例如,利用预设词库对待分类产品的名称进行分词,然后,根据得到的分词进一步建立核心词序列和规范化名称。
在基于所述分词词库对待分类店菜品的名称进行分词处理,得到候选分词之前,还包括:对待分类店菜品的名称进行预处理。对待分类店菜品的名称进行预处理包括:对待分类菜品名称进行简繁转换和大小写转换,以统一菜品名称的编码形式。例如,预设词库中以简体字形式存储分词,则将待分类菜品名称中包含的繁体字统一转换为简体字。对待分类店菜品的名称进行预处理,还包括:通过所述错别字词库对所述待分类产品的名称进行错别字修正。具体实施时,可以采用词语匹配的方法搜索待分类店菜品的名称中是否包含所述错别字词库中的候选错别词,并将包含的候选错别词替换为错别字种子词。
然后,对预处理后的待分类菜品名称进行分词处理。具体实施时,基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,还包括:基于所述分词词库对待分类产品的名称进行分词处理,得到各待分类产品的名称中各自包含的候选分词。通过分词引擎结合预设的分词词库对每个待分类产品的名称进行分词处理,分别得到每个的待分类产品对应的一组候选分词。分词词库是根据具体应用场景构建的,作为对分词引擎中词库的补充,可以进一步提升分词的准确性。
对于分词后得到的候选分词,优选的,基于所述近义词词库对所述候选分词进行近义词转换,以规范产品名称的分词表示。例如,对于分词得到的“马铃薯”替换为近义词词库中的“土豆”。近义词替换后会提高单个信息集合关联的菜品数量,即提升单个信息集合的菜品聚合度。如:“炒马铃薯”和“炒土豆”就应该是一个信息集合,如果不进行替换,就会生成两个信息集合。通过近义词替换能够进一步提升分类的准确度。
然后,通过核心词词库对每组候选分词分别进行筛选,得到每个待分类产品对应的一组核心词。具体实施时,基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,还包括:将同时包含在所述核心词词库中的所述候选分词确定为相应待分类产品对应的核心分词;将各待分类产品对应的核心分词按照预设顺序进行排列,得到所述待分类产品各自对应的产品名称核心词序列;将各待分类产品对应的核心分词按照在所述待分类产品的名称中出现的顺序进行排列,得到所述待分类产品各自对应的规范化名称;将同一个待分类产品对应的所述产品名称核心词序列和所述规范化名称组成分词对。
本申请实施例中所述的分词由所述待分类产品对应的产品名称核心词序列和规范化名称组成,用于表示产品名称核心词序列和规范化名称的对应关系。具体实施时,分词对可以表示为<产品名称核心词序列,规范化名称>的形式,还可以表示为其他形式,本申请对分词对的具体表现形式不做限定。假设一个待分类菜品T的分词结果为候选分词T1={t1,t2,...,tn},将同时包含在所述核心词词库和T1中的所述候选分词确定为相应待分类菜品T对应的核心分词,表示为T2={t1,...,tm},T2包含于T1。然后,将筛选后的分词,如T2中的分词按照字典序升序排列,并使用连接符“;”连接,得到所述待分类产品T对应的产品名称核心词序列,将T2中的分词按照菜品名称中出现的原始顺序排列,得到规范化名称,继而得到<产品名称核心词序列,规范化名称>的分词对。以待分类菜品为“招牌土豆烧牛腩”举例,其候选分词为{“招牌”,“土豆”,“烧”,“牛腩”},经过核心词词库筛选后的得到的核心分词为{“土豆”,“烧”,“牛腩”},则产品名称核心词序列为“烧;牛腩;土豆”,规范化名称为“土豆烧牛腩”。待分类菜品为“招牌土豆烧牛腩”对应的分词对为<“烧;牛腩;土豆”,“土豆烧牛腩”>。
按照此方法,每个待分类产品都将对应一个分词对。
步骤230,对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合。
SPU(Standard Product Unit),即标准化产品单元,是产品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。通常,属性值、特性相同的产品就可以称为一个信息集合。本申请通过对产品名称进行分析,提取产品名称中的特征,用于对产品进行分类。具体实施时,对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合,包括:确定每个核心词序列对应的规范化名称中覆盖产品数量最多的规范化名称作为该核心词序列对应的最优规范化名称;选择符合预设条件的最优规范化名称,作为候选产品信息集合;其中,所述预设条件包括以下至少一种:所述最优规范化名称对应的核心词序列中包含核心词词库中的至少一个产品类分词或至少两个分词、存在与所述最优规范化名称同名的待分类产品、所述最优规范化名称覆盖产品数量大于预设数值;其中,所述最优规范化名称覆盖的产品数量为该最优规范化名称对应的核心词序列对应的所有产品的数量和。
通过基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,将得到每个待分类产品对应的分词对,即每个待分类产品的名称对应一个产品名称核心词序列和规范化名称分词对。具体实施时,多个待分类产品对应的分词对中的产品名称核心词序列可能相同,而规范化名称可能不同,即同一个产品名称核心词序列可能对应多个规范化名称,因此,需要进一步对规范化名称进行筛选。
具体实施时,统计所有<产品名称核心词序列,规范化名称>分词对覆盖的产品数。对于一个产品名称核心词序列,可能存在多个<产品名称核心词序列,规范化名称>分词对,即一个产品名称核心词序列可能对应多个规范化名称,选择其中覆盖产品品数最多的规范化名称作为该产品名称核心词序列的最优规范化名称,该最优规范化名称覆盖的产品数为该产品名称核心词序列覆盖产品总数。例如:待分类菜品“招牌土豆烧牛腩”和“牛腩烧土豆”均对应产品名称核心词序列“烧;牛腩;土豆”,却分别对应规范化名称“土豆烧牛腩”和“牛腩烧土豆”,假设“土豆烧牛腩”覆盖的菜品数比“牛腩烧土豆”覆盖的菜品数多,则取“土豆烧牛腩”作为产品名称核心词序列“烧;牛腩;土豆”的最优规范化名称,所有产品名称核心词序列为“烧;土豆;牛腩”的菜品的最优规范化名称为“土豆烧牛腩”。同时,将该产品名称核心词序列“烧;土豆;牛腩”对应的所有菜品的数量总和作为该最优规范化名称“土豆烧牛腩”覆盖的菜品数量。例如:待分类菜品中包括10条“招牌土豆烧牛腩”和5条“牛腩烧土豆”,则产品名称核心词序列为“烧;土豆;牛腩”对应的最优规范化名称为“土豆烧牛腩”覆盖的菜品数量为15。
然后,对于每个待分类产品对应的最优规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合。具体实施时,优选的,预设条件包括以下三个:第一,最优规范化名称对应的产品名称核心词序列中包括核心词词库中至少一个产品类分词或包括核心词词库中至少两个分词;第二,存在于所述最优规范化名称同名的产品;第三,该最优规范化名称覆盖的产品数量大于预设值,如10个。只有三个条件全部满足,才能将该最优规范化名称作为候选产品信息集合。
步骤240,根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合。
候选产品信息集合选自于最优规范化名称,最优规范化名称又对应产品名称核心词序列,因此,根据待分类产品对应的产品名称核心词序列,可以进一步确定每个待分类产品对应的候选产品信息集合。具体实施时,多个待分类产品可能对应同一个产品名称核心词序列,而多个产品名称核心词序列可能对应一个候选产品信息集合,因此,多个待分类产品可能对应一个候选产品信息集合。即每个候选产品信息集合可能包括多个产品。例如,候选产品信息集合“土豆烧牛腩”覆盖的菜品数量为15,对应的产品名称核心词序列为“烧;土豆;牛腩”。与该产品名称核心词序列对应的待分类菜品“招牌土豆烧牛腩”、“牛腩烧土豆”、“牛肉烧土豆”、“牛肉烧马铃薯”等都将聚合到候选产品信息集合土豆烧牛腩”类别下。
优选的,如图3所示,所述对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合的步骤之后,还包括:
步骤250,确定候选产品信息集合的层级关系。
具体实施时,所述确定候选产品信息集合的层级关系,包括:对于每个所述候选产品信息集合,根据后缀词长,逐级确定其父候选产品信息集合。
基于生成的候选产品信息集合,使用最长后缀法构造信息集合层级结构。对于每一个候选产品信息集合,逐级搜索其父信息集合。搜索所有是该候选产品信息集合的后缀的信息集合,将其中词长最长的候选产品信息集合作为该候选信息集合的根信息集合,如果一个信息集合不存在父信息集合,则该信息集合为根信息集合。以候选产品信息集合包括:“西红柿土豆烧牛腩”、“土豆烧牛腩”、“烧牛腩”为例,对于候选产品信息集合“西红柿土豆烧牛腩”,是候选产品信息集合是“西红柿土豆烧牛腩”的后缀的候选产品信息集合包括:“土豆烧牛腩”和“烧牛腩”,取其中词长最长的候选产品信息集合“土豆烧牛腩”作为候选产品信息集合“西红柿土豆烧牛腩”的父信息集合。对于候选产品信息集合“土豆烧牛腩”,候选产品信息集合“烧牛腩”是候选产品信息集合“土豆烧牛腩”的后缀,此时只有一个候选产品信息集合是“土豆烧牛腩”的后缀,则选择候选产品信息集合“烧牛腩”是“土豆烧牛腩”的父信息集合。对于候选产品信息集合“烧牛腩”,没有候选产品信息集合是“烧牛腩”的后缀,则候选产品信息集合“烧牛腩”是根信息集合。确定的候选产品信息集合的层级关系为,根信息集合为“烧牛腩”,其子信息集合为“土豆烧牛腩”,孙信息集合为“西红柿土豆烧牛腩”。
在将所述待分类产品聚合到相应候选产品信息集合之后,所述方法还包括:
步骤260,基于所述候选产品信息集合层级关系,对聚合到相应候选产品信息集合的所述待分类产品进行进一步聚合。
进一步的,根据确定的候选产品信息集合层级关系,对已经聚合到各候选产品信息集合类别的产品进行进一步聚合,将某一候选信息集合的子孙信息集合包括的产品聚合到该候选产品信息集合。例如,菜品“西红柿土豆烧牛腩”属于候选产品信息集合“土豆烧牛腩”,因此,将菜品“土豆烧牛腩”和其子信息集合中包括的菜品“西红柿土豆烧牛腩”都聚合到候选产品信息集合“土豆烧牛腩”。具体实施时,可以通过为每个待分类产品设置候选产品信息集合属性的方式标识各产品所属候选产品信息集合,以及包括的子孙信息集合。
本申请实施例公开的产品分类方法,通过构建预设词库,然后基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合,解决了现有技术中没有对全网产品进行横向分类管理,从而导致搜索或推荐等应用的效率低下的问题。本申请通过结合预设词库基于产品的名称对产品进行分类,可以对全网产品进行有效分类管理,提升推荐和搜索等应用的效率。
通过构建分词词库、核心词词库、错别字词库和近义词词库,并基于错别字词库和近义词词库对待分类产品进行预处理,可以进一步提升产品分类的准确性和扩大覆盖的产品名称范围。通过构建分词词库辅助分词引擎对待分类产品名称进行分词处理,可以进一步提升特定应用场景产品分类的准确性。通过将待分类产品名称进行分词,并规范化,然后将具有共同属性的产品聚合到同一类别,可以对全网不同商户的产品进行分类管理。进一步的,通过对分类后的产品生成信息集合层级关系,可以充分利用信息集合的层级关系完成信息集合与待分类产品的关系的聚合,提高单个信息集合的聚合度,在保证正确率的条件下增加信息集合所能找回的待分类产品数。
实施例三
如图4所示,本申请实施例公开的一种排行榜生成方法,包括:步骤410至步骤440。
步骤410,根据输入产品所属候选产品信息集合,确定所述输入产品的关联商户。
其中,所述输入产品所属候选产品信息集合通过实施例一和二中所述的产品分类方法确定。
本实施例中依然以输入产品为菜品为例,详细说明排行榜生成具体技术方案。
对于输入的产品,首先确定该产品的关联商户。具体实施时,确定输入产品的关联商户包括:确定所述输入产品所述候选产品信息集合及所述候选产品信息集合的子孙信息集合,作为所述输入产品的关联信息集合;确定所述关联信息集合包括的所有产品的关联商户。例如,当输入产品为菜品“招牌土豆烧牛腩”时,首先确定该菜品所属候选产品信息集合为“土豆烧牛腩”,并进一步确定信息集合“土豆烧牛腩”包括的子孙信息集合,如“西红柿土豆烧牛腩”;然后,确定候选产品信息集合“土豆烧牛腩”和“西红柿土豆烧牛腩”中包括的所有菜品;最后,确定售卖上述菜品的所有商户,作为确定该菜品的网络平台上售卖该菜品的所有商户,作为菜品“招牌土豆烧牛腩”的关联商户。
本实施例实施时,首先需要按照实施例一和实施例二中所公开的产品分类方法对线上产品进行分类,确定各产品所属候选产品信息集合以及所述候选产品信息集合包括的子孙信息集合。
步骤420,确定所述关联商户基于产品维度和商户维度的排行指标值。
之后,进一步确定所述关联商户基于产品维度的排行指标值和基于商户维度的排行指标值。商户维度的排行指标通常包括:商户点评量维度、商户口碑维度。产品维度通常包括:用户正向行为维度、推荐指数维度、产品数量维度等,进一步的,所述用户正向行为维度可以包括:推荐次数、浏览次数、分享次数、有用或点赞次数等任意一项或多项。
具体实施时,商户点评量维度体现商户综合的热度和人气。参与运算的样本量越大,数据越精准。具体实施时,可以采用以下公式计算商户点评量维度排行指标值C:
C=商户点评数总累计量*w1+商户点评数近n个月累计量*w2
其中,w1和w2分别表示商户点评总量和近期量的权重系数。具体实施时,各参数可以取如下值:n=3,w1=1,w2=2。
商户口碑维度体现商户在网友心中的认可程度,通常用商户星级和口味分表示。因为,即便命中菜品再好,顾客就餐的整体体验也要有所保障,毕竟大多用户到店就餐不会只点一道菜。商户口碑维度排行指标值S可以通过以下公式计算:
S=商户综合评分*w3+商户口味单项分*w4
其中,w3和w4分别表示不同因子的权重系数,具体实施时,参数取值可以为w3=1,w4=1。
确定所述关联商户基于产品维度的排行指标值,包括:根据所述关联商户下所述输入产品所在候选产品信息集合,以及所述候选产品信息集合的子孙信息集合中的产品信息,确定至少部分所述产品维度的排行指标值。
推荐指数维度体现出命中菜品在商户下是否是网友推荐菜中推荐次数靠前的必点菜品。即,与商户下的其他菜品相比,命中菜品在网友心中的相对认可度。推荐指数维度排行指标值I的计算方式可以为:
I=输入产品推荐次数/当前商户下排名第一的产品的推荐次数。当I=1时,说明当前菜品在该商户下排名第一,是力推菜品,其他条件相同的情况下,可靠性要高于排名第10的同类菜品。
用户正向行为维度体现该商户提供的命中菜品整体被认可度高。以用户正向行为维度为推荐次数举例,用户正向行为维度排行指标值R可以通过以下公式计算:
R=商户下隶属于输入产品关联信息集合的所有产品的推荐次数总和*w5+所有候选产品信息集合下产品近n个月推荐次数总和*w6
其中,输入产品关联信息集合为所述输入产品所在候选产品信息集合以及所述输入产品所在候选产品信息集合的子孙信息集合;w5和w6分别表示总量和近期推荐次数的权重系数,根据具体需要确定,例如各参数取值为n=3,w5=1,w6=1。
产品数量维度体现商户提供命中菜品的丰富度,具体实施时,产品数量维度排行指标值N可以通过以下公式计算:
N=商户下隶属于输入产品关联信息集合的所有产品数量和;
其中,输入产品关联信息集合为所述输入产品所在候选产品信息集合以及所述输入产品所在候选产品信息集合的子孙信息集合。
由于各排行指标值的取值范围不同,进一步的,在计算综合排行指标之前,需要将各指标值归一化在相同的区间范围,且确保各维度数据之间的数据离散性尽量保持一致。具体实施时,可以采用MinMax归一化方法,将各指标值归一化至[0,1]之间。例如:对用户正向行为维度排行指标值R取log后,进行MinMax归一化至[0,1]之间;对商户点评量维度排行指标值C取log后,进行MinMax归一化至[0,1]之间;对商户口碑维度排行指标值S采用MinMax归一化至[0,1]之间;推荐指数维度排行指标值I本身值域在[0,1]之间,无需进一步归一化;产品数量维度排行指标值N采用MinMax归一化至[0,1]之间。
步骤430,根据预设加权系数对各所述维度的排行指标值进行加权运算,确定所述关联商户的综合排行指标。
具体实施时,根据各维度排行指标值对目标排序的贡献影响程度,可以为不同度排行指标值设置相应的权重,然后,根据预设加权系数对各所述维度的排行指标值进行加权运算,如进行加权求和,获得所述待排序对象,即关联商户的综合排序指标。
步骤440,基于所述综合排行指标对所述关联商户进行排序,输出商户排行榜。
最后,基于所述综合排行指标对所述关联商户进行排序,例如按照综合排序指标由大到小的顺序,对关联商户进行排序,进而输出商户排行榜。
本申请实施例公开的排行榜生成方法,通过根据输入产品所属候选产品信息集合,确定所述输入产品的关联商户;确定所述关联商户基于产品维度和商户维度的排行指标值;根据预设加权系数对各所述维度的排行指标值进行加权运算,确定所述关联商户的综合排行指标;基于所述综合排行指标对所述关联商户进行排序,输出商户排行榜,可以有效解决现有技术中仅依靠商户信息生成排行榜时,存在的片面性、无法突出不同信息集合优劣的缺陷。现有技术中,对单个产品生成排行榜时,往往参考该产品所在商户的信息(比如浏览数、点评数和好评分数等),此种方法用商户的综合水平代表该商户下产品的水平,存在片面性、无法突出不同产品优劣的缺陷。而本申请实施例中,在生成排行榜时,兼顾参考商户维度因素参数的同时,着重考虑了产品维度的数据信息,达到了在排行榜中体现多种维度因素参数的目的,从而实现了排行榜多元化的技术效果,使得排序更可靠,更精准,更符合实际情况。
实施例四
本实施例公开的一种产品分类装置,如图5所示,所述装置包括:
分词对确定模块510,用于基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;
候选产品信息集合确定模块520,用于对所述分词对确定模块510确定的分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;
分类聚合模块530,用于根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合。
可选的,所述预设词库包括:分词词库、核心词词库,如图6所示,所述装置还包括:
词库构建模块500,用于对产品名称进行处理,确定候选分词集合;以及,根据所述候选分词集合中分词的含义,选择相应分词加入分词词库和/或核心词词库。
可选的,如图6所示,所述分词对确定模块510进一步包括:
候选分词确定单元5101,用于基于所述分词词库对待分类产品的名称进行分词处理,得到各待分类产品的名称中各自包含的候选分词;
核心分词确定单元5102,用于将同时包含在所述核心词词库中的所述候选分词确定为相应待分类产品对应的核心分词;
核心词序列确定单元5103,用于将各待分类产品对应的核心分词按照预设顺序进行排列,得到所述待分类产品各自对应的产品名称核心词序列;
规范化名称确定单元5104,用于将各待分类产品对应的核心分词按照在所述待分类产品的名称中出现的顺序进行排列,得到所述待分类产品各自对应的规范化名称;
分词对确定单元5105,用于将同一个待分类产品对应的所述产品名称核心词序列和所述规范化名称组成分词对。
可选的,所述预设词库还包括:错别字词库,如图6所示,所述词库构建模块500还用于:根据预设错别字种子词、所述错别字种子词对应的易错拼音,确定产品名称中的错别词,组成错别字词库。
所述分词对确定模块510还包括:
错别字修正单元5106,用于通过所述词库构建模块500构建的错别字词库对所述待分类产品的名称进行错别字修正。
可选的,所述预设词库还包括:近义词词库,所述分词对确定模块510还包括:
近义词转换单元5107,用于基于所述近义词词库对所述候选分词进行近义词转换,以规范产品名称的分词表示。
可选的,如图6所示,所述候选产品信息集合确定模块520包括:
最优规范化名称确定单元5201,用于确定每个核心词序列对应的规范化名称中覆盖产品数量最多的规范化名称作为该核心词序列对应的最优规范化名称;
候选产品信息集合确定单元5202,用于选择符合预设条件的最优规范化名称,作为候选产品信息集合;
其中,所述预设条件包括以下至少一种:所述最优规范化名称对应的核心词序列中包含核心词词库中的至少一个产品类分词或至少两个分词、存在与所述最优规范化名称同名的待分类产品、所述最优规范化名称覆盖产品数量大于预设数值;其中,所述最优规范化名称覆盖的产品数量为该最优规范化名称对应的核心词序列对应的所有产品的数量和。优选的,预设条件包括:所述最优规范化名称对应的核心词序列中包含核心词词库中的至少一个产品类分词或至少两个分词,且存在与所述最优规范化名称同名的待分类产品,且所述最优规范化名称覆盖产品数量大于预设数值。
可选的,如图7所示,所述装置还包括:
候选产品信息集合层级关系确定模块540,用于确定候选产品信息集合的层级关系;
再次聚合模块550,用于将所述待分类产品聚合到相应候选产品信息集合之后,基于所述候选产品信息集合层级关系,对聚合到相应候选产品信息集合的所述待分类产品进行进一步聚合。
可选的,所述候选产品信息集合层级关系确定模块540进一步用于:对于每个所述候选产品信息集合,根据后缀词长,逐级确定其父候选产品信息集合。
以上各模块的具体实施方式参见实施例一和实施例二的相关步骤,本实施例不再赘述。
本申请实施例公开的产品分类装置,通过构建预设词库,然后基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合,解决了现有技术中没有对全网产品进行横向分类管理,从而导致搜索或推荐等应用的效率低下的问题。本申请通过结合预设词库基于产品的名称对产品进行分类,可以对全网产品进行有效分类管理,提升推荐和搜索等应用的效率。
通过构建分词词库、核心词词库、错别字词库和近义词词库,并基于错别字词库和近义词词库对待分类产品进行预处理,可以进一步提升产品分类的准确性和扩大覆盖的产品名称范围。通过构建分词词库辅助分词引擎对待分类产品名称进行分词处理,可以进一步提升特定应用场景产品分类的准确性。通过将待分类产品名称进行分词,并规范化,然后将具有共同属性的产品聚合到同一类别,可以对全网不同商户的产品进行分类管理。进一步的,通过对分类后的产品设置信息集合层级属性,可以扩展产品的类别属性,扩展产品分类的应用场景。
实施例五
本实施例公开的一种排行榜生成装置,如图8所示,所述装置包括:
关联商户确定模块810,用于根据输入产品所属候选产品信息集合,确定所述输入产品的关联商户,其中,所述输入产品所属候选产品信息集合通过权利要求7所述的产品分类方法确定;
单一维度排行指标值确定模块820,用于确定所述关联商户确定模块810确定的关联商户基于产品维度和商户维度的排行指标值;
综合排行指标确定模块830,用于根据预设加权系数对各所述维度的排行指标值进行加权运算,确定所述关联商户的综合排行指标;
排行榜输出模块840,用于基于所述综合排行指标对所述关联商户进行排序,输出商户排行榜。
可选的,确定所述关联商户基于产品维度的排行指标值,包括:
根据所述关联商户下所述输入产品所在候选产品信息集合,以及所述候选产品信息集合的子孙信息集合中的产品信息,确定至少部分所述产品维度的排行指标值。
各模块的具体实施方式参见实施例三,本实施例不再赘述。
本申请实施例公开的排行榜生成装置,通过根据输入产品所属候选产品信息集合,确定所述输入产品的关联商户;确定所述关联商户基于产品维度和商户维度的排行指标值;根据预设加权系数对各所述维度的排行指标值进行加权运算,确定所述关联商户的综合排行指标;基于所述综合排行指标对所述关联商户进行排序,输出商户排行榜,可以有效解决现有技术中仅依靠商户信息生成排行榜时,存在的片面性、无法突出不同信息集合优劣的缺陷。现有技术中,对单个产品生成排行榜时,往往参考产品所在商户的信息(比如浏览数、点评数和好评分数等),此种方法用商户的综合水平代表该商户下产品的水平,存在片面性、无法突出不同产品优劣的缺陷。而本申请实施例中,在生成排行榜时,兼顾参考商户维度因素参数的同时,着重考虑了产品维度的数据信息,达到了在排行榜中体现多种维度因素参数的目的,从而实现了排行榜多元化的技术效果,使得排序更可靠,更精准,更符合实际情况。
相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例一和实施例二所述的产品分类方法或实施例三所述的排行榜生成方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一和实施例二所述的产品分类方法的步骤或实施例三所述的排行榜生成方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种产品分类方法及装置、排行榜生成方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims (22)

1.一种产品分类方法,其特征在于,包括:
基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;
对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;
根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合。
2.根据权利要求1所述的方法,其特征在于,所述预设词库包括:分词词库、核心词词库,所述基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对的步骤之前,还包括:
对产品名称进行处理,确定候选分词集合;
根据所述候选分词集合中分词的含义,选择相应分词加入分词词库和/或核心词词库。
3.根据权利要求2所述的方法,其特征在于,所述基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对的步骤,包括:
基于所述分词词库对待分类产品的名称进行分词处理,得到各待分类产品的名称中各自包含的候选分词;
将同时包含在所述核心词词库中的所述候选分词确定为相应待分类产品对应的核心分词;
将各待分类产品对应的核心分词按照预设顺序进行排列,得到所述待分类产品各自对应的产品名称核心词序列;
将各待分类产品对应的核心分词按照在所述待分类产品的名称中出现的顺序进行排列,得到所述待分类产品各自对应的规范化名称;
将同一个待分类产品对应的所述产品名称核心词序列和所述规范化名称组成分词对。
4.根据权利要求3所述的方法,其特征在于,所述预设词库还包括:错别字词库,所述基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对的步骤之前,还包括:
根据预设错别字种子词、所述错别字种子词对应的易错拼音,确定产品名称中的错别词,组成错别字词库;
所述基于所述分词词库对待分类产品的名称进行分词处理,得到各待分类产品的名称中各自包含的候选分词的步骤之前,还包括:
通过所述错别字词库对所述待分类产品的名称进行错别字修正。
5.根据权利要求3所述的方法,其特征在于,所述预设词库还包括:近义词词库,所述将同时包含在所述核心词词库中的候选分词确定为核心分词的步骤之前,还包括:
基于所述近义词词库对所述候选分词进行近义词转换,以规范产品名称的分词表示。
6.根据权利要求1所述的方法,其特征在于,所述对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合的步骤,包括:
确定每个核心词序列对应的规范化名称中覆盖产品数量最多的规范化名称作为该核心词序列对应的最优规范化名称;
选择符合预设条件的最优规范化名称,作为候选产品信息集合;
其中,所述预设条件包括以下至少一种:所述最优规范化名称对应的核心词序列中包含核心词词库中的至少一个产品类分词或至少两个分词、存在与所述最优规范化名称同名的待分类产品、所述最优规范化名称覆盖产品数量大于预设数值;其中,所述最优规范化名称覆盖的产品数量为该最优规范化名称对应的核心词序列对应的所有产品的数量和。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合的步骤之后,还包括:
确定候选产品信息集合的层级关系;
将所述待分类产品聚合到相应候选产品信息集合之后,还包括:
基于所述候选产品信息集合层级关系,对聚合到相应候选产品信息集合的所述待分类产品进行进一步聚合。
8.根据权利要求7所述的方法,其特征在于,所述确定候选产品信息集合的层级关系的步骤,包括:
对于每个所述候选产品信息集合,根据后缀词长,逐级确定其父候选产品信息集合。
9.一种排行榜生成方法,其特征在于,包括:
根据输入产品所属候选产品信息集合,确定所述输入产品的关联商户,其中,所述输入产品所属候选产品信息集合通过权利要求7所述的产品分类方法确定;
确定所述关联商户基于产品维度和商户维度的排行指标值;
根据预设加权系数对各所述维度的排行指标值进行加权运算,确定所述关联商户的综合排行指标;
基于所述综合排行指标对所述关联商户进行排序,输出商户排行榜。
10.根据权利要求9所述的方法,其特征在于,确定所述关联商户基于产品维度的排行指标值,包括:
根据所述关联商户下所述输入产品所在候选产品信息集合,以及所述候选产品信息集合的子孙信息集合中的产品信息,确定至少部分所述产品维度的排行指标值。
11.一种产品分类装置,其特征在于,包括:
分词对确定模块,用于基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;
候选产品信息集合确定模块,用于对所述分词对确定模块确定的分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;
分类聚合模块,用于根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合。
12.根据权利要求11所述的装置,其特征在于,所述预设词库包括:分词词库、核心词词库,所述装置还包括:
词库构建模块,用于对产品名称进行处理,确定候选分词集合;以及,根据所述候选分词集合中分词的含义,选择相应分词加入分词词库和/或核心词词库。
13.根据权利要求12所述的装置,其特征在于,所述分词对确定模块进一步包括:
候选分词确定单元,用于基于所述分词词库对待分类产品的名称进行分词处理,得到各待分类产品的名称中各自包含的候选分词;
核心分词确定单元,用于将同时包含在所述核心词词库中的所述候选分词确定为相应待分类产品对应的核心分词;
核心词序列确定单元,用于将各待分类产品对应的核心分词按照预设顺序进行排列,得到所述待分类产品各自对应的产品名称核心词序列;
规范化名称确定单元,用于将各待分类产品对应的核心分词按照在所述待分类产品的名称中出现的顺序进行排列,得到所述待分类产品各自对应的规范化名称;
分词对确定单元,用于将同一个待分类产品对应的所述产品名称核心词序列和所述规范化名称组成分词对。
14.根据权利要求13所述的装置,其特征在于,所述预设词库还包括:错别字词库,
所述词库构建模块,还用于根据预设错别字种子词、所述错别字种子词对应的易错拼音,确定产品名称中的错别词,组成错别字词库;
所述分词对确定模块还包括:
错别字修正单元,用于通过所述词库构建模块构建的错别字词库对所述待分类产品的名称进行错别字修正。
15.根据权利要求13所述的装置,其特征在于,所述预设词库还包括:近义词词库,所述分词对确定模块还包括:
近义词转换单元,用于基于所述近义词词库对所述候选分词进行近义词转换,以规范产品名称的分词表示。
16.根据权利要求11所述的装置,其特征在于,所述候选产品信息集合确定模块包括:
最优规范化名称确定单元,用于确定每个核心词序列对应的规范化名称中覆盖产品数量最多的规范化名称作为该核心词序列对应的最优规范化名称;
候选产品信息集合确定单元,用于选择符合预设条件的最优规范化名称,作为候选产品信息集合;
其中,所述预设条件包括以下至少一种:所述最优规范化名称对应的核心词序列中包含核心词词库中的至少一个产品类分词或至少两个分词、存在与所述最优规范化名称同名的待分类产品、所述最优规范化名称覆盖产品数量大于预设数值;其中,所述最优规范化名称覆盖的产品数量为该最优规范化名称对应的核心词序列对应的所有产品的数量和。
17.根据权利要求11至16任一项所述的装置,其特征在于,所述装置还包括:
候选产品信息集合层级关系确定模块,用于确定候选产品信息集合的层级关系;
再次聚合模块,用于将所述待分类产品聚合到相应候选产品信息集合之后,基于所述候选产品信息集合层级关系,对聚合到相应候选产品信息集合的所述待分类产品进行进一步聚合。
18.根据权利要求17所述的装置,其特征在于,所述候选产品信息集合层级关系确定模块进一步用于:
对于每个所述候选产品信息集合,根据后缀词长,逐级确定其父候选产品信息集合。
19.一种排行榜生成装置,其特征在于,包括:
关联商户确定模块,用于根据输入产品所属候选产品信息集合,确定所述输入产品的关联商户,其中,所述输入产品所属候选产品信息集合通过权利要求7所述的产品分类方法确定;
单一维度排行指标值确定模块,用于确定所述关联商户确定模块确定的关联商户基于产品维度和商户维度的排行指标值;
综合排行指标确定模块,用于根据预设加权系数对各所述维度的排行指标值进行加权运算,确定所述关联商户的综合排行指标;
排行榜输出模块,用于基于所述综合排行指标对所述关联商户进行排序,输出商户排行榜。
20.根据权利要求19所述的装置,其特征在于,确定所述关联商户基于产品维度的排行指标值,包括:
根据所述关联商户下所述输入产品所在候选产品信息集合,以及所述候选产品信息集合的子孙信息集合中的产品信息,确定至少部分所述产品维度的排行指标值。
21.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任意一项所述的产品分类方法或实现权利要求9或10所述的排行榜生成方法。
22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任意一项所述的产品分类方法的步骤或实现权利要求9或10所述的排行榜生成方法的步骤。
CN201711308314.8A 2017-12-11 2017-12-11 产品分类方法及装置,排行榜生成方法及装置,电子设备 Active CN108280124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711308314.8A CN108280124B (zh) 2017-12-11 2017-12-11 产品分类方法及装置,排行榜生成方法及装置,电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711308314.8A CN108280124B (zh) 2017-12-11 2017-12-11 产品分类方法及装置,排行榜生成方法及装置,电子设备

Publications (2)

Publication Number Publication Date
CN108280124A CN108280124A (zh) 2018-07-13
CN108280124B true CN108280124B (zh) 2020-12-04

Family

ID=62801569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711308314.8A Active CN108280124B (zh) 2017-12-11 2017-12-11 产品分类方法及装置,排行榜生成方法及装置,电子设备

Country Status (1)

Country Link
CN (1) CN108280124B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800769A (zh) * 2018-12-20 2019-05-24 平安科技(深圳)有限公司 产品分类控制方法、装置、计算机设备及存储介质
CN111858694A (zh) * 2019-04-29 2020-10-30 口口相传(北京)网络技术有限公司 菜品信息的识别方法及其装置
CN112835990A (zh) * 2019-11-22 2021-05-25 北京沃东天骏信息技术有限公司 一种识别方法和装置
CN110955727B (zh) * 2019-11-27 2020-07-14 上海乂学教育科技有限公司 学生作业自动记录***
CN111415328B (zh) * 2020-02-20 2023-07-11 北京三快在线科技有限公司 物品分析数据确定方法、装置、电子设备
CN113704363B (zh) * 2020-05-22 2024-04-30 百度在线网络技术(北京)有限公司 一种权重确定方法、装置、设备及存储介质
CN114444577A (zh) * 2021-12-31 2022-05-06 广州盖盟达工业品有限公司 一种产品自动分类方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104349273A (zh) * 2013-08-06 2015-02-11 腾讯科技(深圳)有限公司 获取商户信息的方法及装置
CN103778205B (zh) * 2014-01-13 2018-07-06 北京奇虎科技有限公司 一种基于互信息的商品分类方法和***
CN104063523B (zh) * 2014-07-21 2017-02-22 焦点科技股份有限公司 一种电子商务搜索评分与排名的方法及***
CN106682012B (zh) * 2015-11-06 2020-12-01 阿里巴巴集团控股有限公司 商品对象信息搜索方法及装置

Also Published As

Publication number Publication date
CN108280124A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN108280124B (zh) 产品分类方法及装置,排行榜生成方法及装置,电子设备
US10748164B2 (en) Analyzing sentiment in product reviews
CN108694647B (zh) 一种商户推荐理由的挖掘方法及装置,电子设备
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN103778214B (zh) 一种基于用户评论的商品属性聚类方法
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
JP5913736B2 (ja) キーワードの推薦
Gojali et al. Aspect based sentiment analysis for review rating prediction
CN112667899A (zh) 基于用户兴趣迁移的冷启动推荐方法、装置及存储设备
CN110334356B (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN106886518A (zh) 一种微博账号分类的方法
KR101100830B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
TW201423450A (zh) 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置
Chauhan et al. Research on product review analysis and spam review detection
US8428933B1 (en) Usage based query response
CN110134794B (zh) 一种实体画像的构建方法和装置
CN115129994A (zh) 商品推荐方法、装置、电子设备及可读存储介质
Zhang et al. A novel approach to recommender system based on aspect-level sentiment analysis
Zhao et al. Amazon fine food reviews with BERT model
Kang et al. A hybrid approach for paper recommendation
KR101976056B1 (ko) 추천 시스템 및 추천 방법
CN107908649B (zh) 一种文本分类的控制方法
CN111651590A (zh) 数据处理方法、装置、电子设备及存储介质
Hoiriyah et al. Lexicon-Based and Naive Bayes Sentiment Analysis for Recommending the Best Marketplace Selection as a Marketing Strategy for MSMEs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant