CN108694647B - 一种商户推荐理由的挖掘方法及装置,电子设备 - Google Patents

一种商户推荐理由的挖掘方法及装置,电子设备 Download PDF

Info

Publication number
CN108694647B
CN108694647B CN201810447255.0A CN201810447255A CN108694647B CN 108694647 B CN108694647 B CN 108694647B CN 201810447255 A CN201810447255 A CN 201810447255A CN 108694647 B CN108694647 B CN 108694647B
Authority
CN
China
Prior art keywords
recommendation reason
word
recommendation
reason
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810447255.0A
Other languages
English (en)
Other versions
CN108694647A (zh
Inventor
虞金花
苏婧
兰田
侯培旭
华镇
陈翀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201810447255.0A priority Critical patent/CN108694647B/zh
Publication of CN108694647A publication Critical patent/CN108694647A/zh
Application granted granted Critical
Publication of CN108694647B publication Critical patent/CN108694647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0217Discounts or incentives, e.g. coupons or rebates involving input on products or services in exchange for incentives or rewards
    • G06Q30/0218Discounts or incentives, e.g. coupons or rebates involving input on products or services in exchange for incentives or rewards based on score
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种商户推荐理由的挖掘方法,属于计算机技术领域,解决现有技术中挖掘的推荐理由不准确的问题。本申请公开的商户推荐理由的挖掘方法包括:基于目标商户的用户原创数据,确定候选推荐理由及所述候选推荐理由的特征向量;通过预设推荐理由分类模型,根据所述候选推荐理由的特征向量,确定优质候选推荐理由,以及,所述优质候选推荐理由的评价得分;基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分,构建所述目标商户的推荐理由池。本申请实施例公开的商户推荐理由的挖掘方法,有效提升了挖掘的推荐理由的准确性。

Description

一种商户推荐理由的挖掘方法及装置,电子设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种商户推荐理由的挖掘方法 及装置,电子设备。
背景技术
在搜索或推荐场景中,商户推荐理由是辅助用户决策的重要信息,现有 技术中挖掘商户推荐理由的方法主要有人工运营和规则匹配。其中,人工运 营需要大量的人力成本,量化成本颇高;而规则匹配虽然能够自动挖掘出推 荐理由,单大多基于文字匹配进行挖掘,推荐理由评价因素单一,挖掘出的 推荐理由不够准确。并且,模板固定,挖掘出的推荐理由比较单一,存在每 个用户看到的商户的推荐理由是一样的,以及同一用户在不同搜索或推荐场 景下看到的推荐理由也相同的问题,导致用户决策效率低下。
综上,现有技术中的商户推荐理由的挖掘方法至少存在挖掘的推荐理由 不准确的缺陷。
发明内容
本申请提供一种商户推荐理由的挖掘方法,解决现有技术中商户推荐理 由的挖掘方法存在的挖掘的推荐理由不准确的问题。
为了解决上述问题,第一方面,本申请实施例提供了一种商户推荐理由 的挖掘方法包括:
基于目标商户的用户原创数据,确定候选推荐理由及所述候选推荐理由 的特征向量;
通过预设推荐理由分类模型,根据所述候选推荐理由的特征向量,确定 优质候选推荐理由,以及,所述优质候选推荐理由的评价得分;
基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分,构建 所述目标商户的推荐理由池。
第二方面,本申请实施例提供了一种商户推荐理由的挖掘装置,包括:
候选推荐理由及特征向量确定模块,用于基于目标商户的用户原创数据, 确定候选推荐理由及所述候选推荐理由的特征向量;
候选推荐理由集评价得分确定模块,用于通过预设推荐理由分类模型, 根据所述候选推荐理由的特征向量,确定优质候选推荐理由,以及,所述优 质候选推荐理由的评价得分;
推荐理由池构建模块,用于基于所述优质候选推荐理由及所述优质候选 推荐理由的评价得分,构建所述目标商户的推荐理由池。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器 及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行 所述计算机程序时实现本申请实施例所述的商户推荐理由的挖掘方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有 计算机程序,该程序被处理器执行时本申请实施例公开的商户推荐理由的挖 掘方法的步骤。
本申请实施例公开的商户推荐理由的挖掘方法,通过基于目标商户的用 户原创数据,确定候选推荐理由及所述候选推荐理由的特征向量;通过预设 推荐理由分类模型,根据所述候选推荐理由的特征向量,确定优质候选推荐 理由,以及,所述优质候选推荐理由的评价得分;基于所述优质候选推荐理 由及所述优质候选推荐理由的评价得分,构建所述目标商户的推荐理由池, 解决了现有技术中挖掘的推荐理由不准确的问题。本申请实施例公开的商户 推荐理由的挖掘方法,通过基于用户原创数据挖掘候选推荐理由,进一步通过预先训练的分类模型计算候选推荐理由基于预设维度特征计算评价得分, 然后,根据评价得分确定优质候选推荐理由作为商户的推荐理由,避免了人 工运营引入的主观因素和规则匹配引入的单一性限制,有效提升了挖掘的推 荐理由的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图 仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造 性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一的商户推荐理由的挖掘方法流程图;
图2是本申请实施例二的商户推荐理由的挖掘方法流程图;
图3是本申请实施例三的商户推荐理由的挖掘装置的结构示意图之一;
图4是本申请实施例三的商户推荐理由的挖掘装置的结构示意图之二;
图5是本申请实施例三的商户推荐理由的挖掘装置的结构示意图之三。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是 全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创 造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本实施例公开的一种商户推荐理由的挖掘方法,如图1所示,该方法包 括:步骤110至步骤130。
步骤110,基于目标商户的用户原创数据,确定候选推荐理由及所述候 选推荐理由的特征向量。
具体实施时,从目标商户的用户原创数据中挖掘候选推荐理由。首先, 对目标商户的每一条用户原创数据进行数据处理,得到若干条子句,其中, 每条子句对应一条候选推荐理由。
进一步的,基于所述目标商户的用户原创数据,结合情感分析法和词频 筛选法等,对预设词库进行数据清洗,获得参考词库。所述参考词库包含正 面成语、程度词、高级评价词和普通评价词。
然后,基于所述参考词库,确定每条所述候选推荐理由的特征向量,作 为候选推荐理由的特征向量。例如,将每条候选推荐理由对应的子句中的词 语与所述参考词库中的词语进行匹配,并根据匹配结果对候选推荐理由的特 征向量的各维度进行赋值,最终获得挖掘到的每条候选推荐理由的特征向量。
步骤120,通过预设推荐理由分类模型,根据所述候选推荐理由的特征 向量,确定优质候选推荐理由,以及,所述优质候选推荐理由的评价得分。
本申请具体实施时,首先根据从用户原创数据中挖掘出的推荐理由训练 推荐理由分类模型。然后,在具体应用过程中,通过将候选推荐理由的特征 向量输入至预先训练的所述推荐理由分类模型,即可得到所述候选推荐理由 的评价得分,以及所述候选推荐理由是否为优质候选推荐理由。例如,当所 述候选推荐理由的评价得分大于等于0.5时,确定所述候选推荐理由为优质 候选推荐理由,当所述候选推荐理由的评价得分小于0.5时,确定所述候选 推荐理由为非优质候选推荐理由。
步骤130,基于所述优质候选推荐理由及所述优质候选推荐理由的评价 得分,构建所述目标商户的推荐理由池。
然后,进一步根据所述优质候选推荐理由中包括的实体词词频、所述优 质候选推荐理由的评价得分等信息,对挖掘到的优质候选推荐理由进行筛选, 将优质候选推荐理由中包括的实体词词频不满足预设条件的优质候选推荐 理由过滤掉。最后,对于保留的优质候选推荐理由,进一步根据每个实体词 对应的优质候选推荐理由的评价得分,选择某个或某组实体词对应的优质候 选推荐理由中评价得分最高的一条优质候选推荐理由,作为该实体词或该组 实体词对应的优质候选推荐理由,加入到所述目标商户的推荐理由池。
本申请实施例公开的商户推荐理由的挖掘方法,通过基于目标商户的用 户原创数据,确定候选推荐理由及所述候选推荐理由的特征向量;通过预设 推荐理由分类模型,根据所述候选推荐理由的特征向量,确定优质候选推荐 理由,以及,所述优质候选推荐理由的评价得分;基于所述优质候选推荐理 由及所述优质候选推荐理由的评价得分,构建所述目标商户的推荐理由池, 解决了现有技术中挖掘的推荐理由不准确的问题。本申请实施例公开的商户 推荐理由的挖掘方法,通过基于用户原创数据挖掘候选推荐理由,进一步通过预先训练的分类模型计算候选推荐理由基于预设维度特征计算评价得分, 然后,根据评价得分确定优质候选推荐理由作为商户的推荐理由,避免了人 工运营引入的主观因素和规则匹配引入的单一性限制,有效提升了挖掘的推 荐理由的准确性。
实施例二
本实施例公开的一种商户推荐理由的挖掘方法,如图2所示,该方法包 括:步骤210至步骤270。
步骤210,训练推荐理由分类模型。
本申请具体实施时,基于目标商户的用户原创数据,挖掘推荐理由的训 练样本,然后,基于训练样本训练推荐理由分类模型。其中,所述训练样本 设置有是否为优质推荐理由标签。
首先,对目标商户的用户原创数据进行数据处理,确定若干子句,每个 子句对应一条可能的推荐理由。
对目标商户的用户原创数据进行数据处理,确定若干条子句,包括:按 照预设规则对所述目标商户的用户原创数据进行数据清洗和切分,得到若干 子句,其中,所述预设规则包括以下至少一项:子句长度大于预设字符数、 删除包含连接词的子句、删除预设符号(如表情符号)。
具体实施时,可以提取最近一段时间(如一年)内平台所有营业商户的 UGC(UserGenerated Content)用户原创数据,根据除顿号外的标点符号 进行分句,然后对子句根据长度、特殊字符、连接词等进行过滤操作,得到 多条源数据。以用户原创数据为“菜品、口味和服务绝对够得上米其林标准, 但是店面太小了,楼梯也很窄……要是能宽敞点就完美了
Figure RE-GDA0001752407020000051
”这条UGC为 例,首先根据除顿号外的标点符号进行分句,得到4条子句:“菜品、口味 和服务绝对够得上米其林标准”、“但是店面太小了”、“楼梯也很窄”、 “要是能宽敞点就完美了
Figure RE-GDA0001752407020000052
”;然后,过滤掉表情符号等特殊字符,去掉 包含连接词“但是”的子句,并选择长度大于5的子句,最终得到两条源数 据“菜品、口味和服务绝对够得上米其林标准”和“要是能宽敞点就完美 了”。
具体实施时,根据每个商户的用户原创数据可以确定多条子句,每条子 句都可能作为一条推荐理由。用户原创数据格式复杂,内容繁多,通过对用 户原创数据进行清洗,筛除脏数据,能够提高训练的推荐理由分类模型的准 确性和提升挖掘的推荐理由的有效性。
进一步的,基于所述目标商户的用户原创数据,通过结合情感分析法和 词频筛选法对预设词库进行数据清洗,确定包含正面成语、程度词、高级评 价词和普通评价词的参考词库。
具体实施时,从每条子句中提取推荐理由特征时需要对子句进行句法分 析、文本特征提取等操作,需要根据正面成语、程度词、高级评价词和普通 评价词等确定每条子句的推荐理由特征。因此,为了提高提取的特征的准确 性,首先根据用户原创数据对通用词库进行清洗,得到适合本申请应用场景 的正面成语、程度词和评价词,并对评价词进行进一步区分,区分为:高级 评价词和普通评价词。
本申请实施例中所述的正面成语为:从好的、积极的一面去描述商户菜 品口味、环境、服务等信息的成语,如“恰到好处”、“物美价廉”等等。 本申请实施例中所述的正面程度词为:从好的、积极的一面去描述商户菜品 口味、环境、服务等信息的程度副词,如“尤其”、“不得了”等等。本申 请实施例中所述的正面评价词为:从好的、积极的一面去描述商户菜品口味、 环境、服务等信息的形容词。同时基于评价词的情感分将评价词分为高级评价词和普通评价词两类,例如,高级评价词包含“香醇”、“酥脆”等等, 普通评价词包含“新鲜”、“划算”等等。所述预设词库为包括正面成语、 程度词、评价词的通用词库。
具体实施时,首先,将预设词库中的成语、程度词、评价词分别和全量 UGC数据进行交叉判断,得到出现在全量UGC数据中的所有成语、程度词和 评价词,以及各词语出现的频次;然后,利用情感分析法得到出现在全量UGC 数据中的上述成语、程度词和评价词的情感分;最后,综合考虑词语的频次 和情感分,得到正面成语、程度词和评价词构成的词库,并将评价词分为高 级评价词和普通评价词两类。具体实施时,可以预设情感分和词频阈值,将 情感分高于预设情感分阈值或者频次高于预设词频阈值的在参考词库中予 以保留。
至此,得到包括:正面成语、程度词、高级评价词和普通评价词的词库, 作为提取源数据中推荐理由特征的参考词库。
具体实施时,本申请对进行预设词库清洗,以确定参考词库,和基于用 户原创数据进行数据处理,确定若干子句的具体执行顺序不做限定。
然后,基于所述参考词库,确定每条子句的特征向量,作为推荐理由特 征向量样本,并为每条推荐理由特征向量样本设置是否为优质推荐理由标签。
具体实施时,所述推荐理由的特征向量包括以下任意一个或多个维度: 句法结构、是否包含语气词、句子文本分、是否包含普通评价词、普通评价 词数量、是否包含高级评价词、高级评价词数量、是否包含程度词、程度词 数量、是否包含成语、成语数量、情感分、评论分、是否包含商户描述词、 商户描述词数量、商户描述词权重、是否存在实体、实体数量、实体词词频、 是否存在观点、观点数量、观点分。
为了得到优质的具有商户特色的推荐理由,本实施例中分别从句法、句 子质量、商户关联程度三个维度选择了22个子维度的特征,其中,句法反 映子句的组成部分及排列顺序是否合理,包含特征:句法结构、是否包含语 气词、文本分;句子质量反映子句语言描述是否生动具体、有画面感,包含 特征:是否包含普通评价词、普通评价词数量、是否包含高级评价词、高级 评价词数量、是否包含程度词、程度词数量、是否包含成语、成语数量、情感分、评论分;商户关联程度反映子句所描述的内容是否是商户特色,能否 吸引用户对商户产生强烈兴趣,包含特征:是否包含商户描述词、商户描述 词数量、商户描述词权重、是否存在实体、实体数量、实体词词频、是否存 在观点、观点数量、观点分。
下面分别对各个维度的特征含义和获取方法进行详细描述。
所述句法结构特征,表示句子句首的词性含义,0表示推荐菜,1表示 商户类目,2表示形容词,3表示名词,4表示动词,5表示其他词性。具体 实施时,可以通过对句子分词,然后判断句首词性确定句法结构特征的取值。
所述是否包含语气词特征,表示是否包含如下语气词:’呢','耶',' 咩','哦','喔','哟','嘛','呀',‘滴’,包含为1,不包含为0。
所述文本分特征,表示句子长度得分,位于0-1之间,值越大表示句子 长度越长。
所述是否包含普通评价词特征,表示当前条子句中是否包含普通评价词, 包含为1,不包含为0。
所述普通评价词数量特征,表示当前条子句中所包含的普通评价词的数 量。
所述是否包含高级评价词特征,表示当前条子句中是否包含高级评价词, 包含为1,不包含为0。
所述高级评价词数量特征,表示当前条子句中所包含的高级评价词的数 量。
所述是否包含程度词特征,表示当前条子句中是否包含程度词,包含为 1,不包含为0。
所述程度词数量特征,表示当前条子句中所包含的程度词的数量。
所述是否包含成语特征,表示当前条子句中是否包含成语,包含为1, 不包含为0。
所述成语数量特征,表示当前条子句中所包含的成语的数量。
具体实施时,所述是否包含普通评价词、普通评价词数量、是否包含高 级评价词、高级评价词数量、是否包含程度词、程度词数量、是否包含成语、 成语数量特征,通过将当前条子句中的词语分别与参考词库中的词语进行比 较,并进行个数统计确定。
所述情感分特征,表示当前条子句情感倾向性的定量表示,位于0-1之 间,值越大表示当前条子句情感越正面,通过调用预设的情感分析服务接口 获取。
所述评论分特征,表示综合当前条子句所在用户原创数据中的质量,如 是否优质评论、点击数、点赞数、跟评数、星级和评论发表时间得到的一个 分值,值越大表示该条子句质量越高。具体实施时,所述评论分通过公式:
reviewScore=(log(follows+hits+voteGoods+1)+isQuality*T+star*W)*timeScore 计算得到,其中,follows表示跟评数,hits表示点击数,voteGoods表示点赞数,isQuality表示是否是优质评论,T表示优质评论调节因子(例如取值为 30),star表示评论星级,W表示评论星级调节因子(例如取值为0.8),
timeScore表示时间衰减因子,通过公式timeScore=(3650-x)/3650获得,其 中,x表示评价发表时间距当前时间的天数。其中,是否优质评论、点击数、 点赞数、跟评数、评论星级和评价发表时间距当前时间的天数可以通过条用 已有服务接口获取。
所述是否包含商户描述词特征,表示子句中是否包含其所在商户的描述 词,是则为1,否则为0,其中,商户描述词是来源于商户下的原创数据且 与商户关联性较大的一些实体词,可以通过调用现有接口获得。
所述商户描述词数量特征,表示当前条子句中所包含商户描述词的数量。
所述商户描述词权重特征,表示商户描述词的词频值,若当前条子句中 存在多个商户描述词,则取最大词频值。
具体实施时,所述是否包含商户描述词、商户描述词数量、商户描述词 权重分特征,通过调用已有服务结构获得。
所述是否存在实体特征,表示当前条子句中是否包含实体词,包含为1, 不包含为0。
所述实体数量特征,表示当前条子句中所包含的实体词的数量。
具体实施时,所述实体词通过掉用预设服务获得。
所述实体词词频特征,表示当前条子句中实体词在所属商户的用户评论 中出现的频率。具体实施时,所述实体词词频为当前条子句中包括的各实体 词的词频的最大值。例如,如果一条子句中包括多个实体词ei,每个实体词 在所属商户的用户评论中出现的频率表示为Cei,则该条子句的实体词词频特 征entityTF通过公式
Figure BDA0001657538340000091
计算得到,i为大于1的整 数。
所述是否存在观点特征,表示当前条子句中是否包含观点,包含为1, 不包含为0。
所述观点数量特征,表示当前条子句中所包含的观点的数量。
所述观点分特征,表示观点重要性的定量化表示,位于0-1之间,值越 大表示观点越重要。
具体实施时,所述是否存在观点、观点数量、观点分特征,通过调用已 有服务结构获得。
以子句为“烤羊腿很新鲜”举例,其特征向量生成过程如下:
Figure BDA0001657538340000101
因此“烤羊腿很新鲜”这条子句对应的22维特征向量为:[1,0,1,1, 1,1,1,0,0,1,1,0,0,0.92,31.77,1,1,0,375,1,1,0.48,0.07]。
然后,为每条子句的特征向量设置推荐理由标签,例如标签为“1”表 示所述特征向量所述子句对应的推荐理由为优质推荐理由;标签为“0”表 示所述特征向量所述子句对应的推荐理由为非优质推荐理由。
通过从句法、句子质量、商户关联程度三个维度的一个子维度提取子句 的特征向量,即提取推荐理由的特征向量,通过考虑句子本身的质量、与商 户的关联性等问题,特征覆盖面广,挖掘出的推荐理由与商户关系密切。
最后,通过所述训练样本训练推荐理由分类模型。
具体实施时,每条训练样本至少包括样本标签和特征向量两个字段,其 中,样本标签用于标识该条样本是否对应优质推荐理由。以通过训练样本训 练随机森林分类模型举例,模型的训练过程实际上是训练样本各维度特征权 重的过程,推荐理由分类模型训练完成后,将得到推荐理由的特征向量每个 维度的最优权重。
步骤220,基于目标商户的用户原创数据,确定候选推荐理由及所述候 选推荐理由的特征向量。
当用户执行搜索或查询等操作时,搜索或查询应用或服务会根据用户输 入的关键词或查询词,为用户推荐相关商户。例如,当用户输入“烤羊腿”, 应用或服务会根据关键词“烤羊腿”向用户推荐“西贝莜面村”、“九十九顶 毡房”等商户。为了便于用户决策,应用或服务通常还会展示相应商户的推 荐理由。具体实施时,首先根据商户的品类、地点、服务、评论等信息构建 每个商户的推荐理由池,所述推荐理由池中包括至少一条推荐理由,所述推 荐理由是指对商户下的实体词进行生动具体的描述的一句话,从而通过所述 推荐理由达到吸引用户对商户产生兴趣。实体词可以为:产品、服务、环境 等商户信息的名称。
具体实施时,商户的推荐理由可以由应用或平台手动设置,或者根据点 击率、购买率、热度信息提取。优选的,基于目标商户的用户原创数据,确 定候选推荐理由。
具体实施时,通过对目标商户的用户原创数据进行数据处理,确定每条 用户原创数据包括的多个子句,每个子句对应一条候选推荐理由,即每个子 句可能对应一条候选推荐理由。然后,在基于预设参考词库确定每条子句的 特征向量作为候选推荐理由的特征向量。所述基于目标商户的用户原创数据, 确定候选推荐理由及所述候选推荐理由的特征向量,包括:对目标商户的用 户原创数据进行数据处理得到若干条子句,其中,每条子句对应一条候选推 荐理由;基于预设的参考词库,确定每条所述候选推荐理由的特征向量;所 述参考词库基于所述目标商户的用户原创数据,通过结合情感分析法和词频 筛选法对预设词库进行数据清洗获得;所述参考词库包含正面成语、程度词、 高级评价词和普通评价词。
其中,所述推荐理由的特征向量包括以下任意一个或多个维度:句法结 构、是否包含语气词、句子文本分、是否包含普通评价词、普通评价词数量、 是否包含高级评价词、高级评价词数量、是否包含程度词、程度词数量、是 否包含成语、成语数量、情感分、评论分、是否包含商户描述词、商户描述 词数量、商户描述词权重、是否存在实体、实体数量、实体词词频、是否存 在观点、观点数量、观点分。所述评论分通过公式: reviewScore=(log(follows+hits+voteGoods+1)+isQuality*T+star*W)*timeScore计算 得到,其中,follows表示跟评数,hits表示点击数,voteGoods表示点赞数, isQuality表示是否是优质评论,T表示优质评论调节因子,star表示评论星 级,W表示评论星级调节因子,timeScore表示时间衰减因子,通过公式
timeScore=(3650-x)/3650获得,其中,x表示评价发表时间距当前时间的 天数。
可选的,所述实体词词频为当前条子句中包括的各实体词的词频的最大 值。
基于目标商户的用户原创数据,确定候选推荐理由及所述候选推荐理由 的特征向量的具体实时方式,参见训练推荐理由分类模型时,基于目标商户 的用户原创数据,挖掘推荐理由的训练样本的具体实施方式,此处不再赘述。
具体实施时,可以在根据用户原创数据确定的推荐理由特征向量样本中 随机选择一部分作为训练样本,另一部分作为候选推荐理由。
步骤230,通过预设推荐理由分类模型,根据所述候选推荐理由的特征 向量,确定优质候选推荐理由,以及,所述优质候选推荐理由的评价得分。
将候选推荐理由输入至推荐理由分类模型,将得到所述候选推荐理由是 否为优质候选推荐理由,以及相应的评价得分。例如,将子句“烤羊腿很新 鲜”对应的候选推荐理由的特征向量[1,0,1,1,1,1,1,0,0,1,1,0, 0,0.92,31.77,1,1,0,375,1,1,0.48,0.07]输入至训练好的推荐理 由分类模型,输出结果为1,得分为0.89,则说明输入的推荐理由的特征向 量为优质候选推荐理由的特征向量,即“烤羊腿很新鲜”为优质候选推荐理 由,同时,确定“烤羊腿很新鲜”为优质候选推荐理由的得分为0.89。
具体实施时,只有优质候选推荐理由才可能用于构建目标商户的推荐理 由池。
步骤240,基于所述优质候选推荐理由及所述优质候选推荐理由的评价 得分,构建所述目标商户的推荐理由池。
具体实施时,可以通过调用现有服务的接口确定每个所述优质候选推荐 理由对应的实体词,然后对于每个目标商户,分别对从该目标商户的用户原 创数据中挖掘到的优质候选推荐理由执行评价和筛选操作,确定每个目标商 户的推荐理由和实体词的对应关系,并基于所述推荐理由和实体词的对应关 系构建该目标商户的推荐理由池。
具体实施时,所述基于所述优质候选推荐理由及所述优质候选推荐理由 的评价得分,构建所述目标商户的推荐理由池,包括:根据所述优质候选推 荐理由的特征向量中实体词词频特征值,筛选出实体词词频大于预设词频阈 值的优质候选推荐理由,作为所述目标商户的优质候选推荐理由;将对应同 一组实体词的优质候选推荐理由中,评价得分最高的一条优质候选推荐理由, 作为与所述同一组实体词对应的推荐理由,以确定每组实体词对应的推荐理 由;根据所述每组实体词对应的推荐理由,构建所述目标商户的推荐理由池。
具体实施时,首先,对于某个目标商户的子句中挖掘出的优质候选推荐 理由,根据推荐理由的特征向量中的实体词词频特征的取值,筛选出实体词 词频大于预设词频阈值的优质候选推荐理由,作为所述目标商户的优质候选 推荐理由。具体实施时,所述预设词频阈值FH通过以下公式确定: FH=max(entityTF1,...,entityTFn)*0.1,其中,entityTF1,...,entityTF为该目标商户的 优质候选推荐理由的特征向量的实体词词频特征值。
然后,对于包括相同实体词的所有优质候选推荐理由,选择其中评价得 分最高的一条优质候选推荐理由作为所述相同实体词对应的推荐理由。假设 某个商户A下的UGC经过分句和过滤操作后有5条子句“烤羊腿很新鲜”、 “烤羊腿外脆里嫩”、“羊腿烤好整只上桌的”、“服务好在定西路上算性 价比很高的店”和“这家店服务细心周到”,利用随机森林分类模型进行分 类得到分类结果为1的四条优质候选推荐理由“烤羊腿很新鲜”、“烤羊腿 外脆里嫩”、“服务好在定西路上算性价比很高的店”、“这家店服务细心 周到”,每条子句挖掘出的优质候选推荐理由评价得分分别为0.4、0.5、0.35 和0.32,其中“烤羊腿很新鲜”和“烤羊腿外脆里嫩”都是对实体词“烤羊 腿”进行描述的,也就是说“烤羊腿”这个实体词对应两个优质候选推荐理 由,为避免累赘,最后选取评价得分最高的优质候选推荐理由作为该实体词 对应的推荐理由,即“烤羊腿”最终对应的推荐理由为“烤羊腿外脆里嫩”。 “服务好在定西路上算性价比很高的店”和“这家店服务细心周到”是对 实体词“服务”和“店”进行描述的,同理选取评价得分最高的作为这组实 体词对应的推荐理由,即“服务好在定西路上算性价比很高的店”对应实体 词“服务”和“店”。
具体实施时,根据所述每组实体词对应的推荐理由,构建所述目标商户 的推荐理由池可以为:根据优质候选推荐理由的评价得分,选择评价得分最 高的预设数目(如前20个)的优质候选推荐理由和与所述预设数目的优质 候选推荐理由对应的实体词,构建所述目标商户的推荐理由池。通过结合实 体词词频和评价得分对优质候选推荐理由进行进一步筛选,可以提高目标商 户的推荐理由的有效性。
具体实施时,所述基于所述优质候选推荐理由及所述优质候选推荐理由 的评价得分,构建所述目标商户的推荐理由池之后,还包括:根据当前用户 的历史行为信息和实时行为信息,确定所述当前用户的用户特征向量;确定 目标商户的推荐理由池中每个推荐理由的特征向量,其中,所述目标商户为 根据所述当前用户的实时行为向所述当前用户推荐的商户;根据所述用户特 征向量和所述推荐理由的特征向量的相似度,确定所述商户的推荐理由。
步骤250,根据当前用户的历史行为信息和实时行为信息,确定所述当 前用户的用户特征向量。
所述根据当前用户的历史行为信息和实时行为信息,确定所述当前用户 的用户特征向量,包括:根据通过预设词向量模型获取的当前用户的历史行 为信息的关键词的词向量,确定当前用户的历史行为特征向量;以及,根据 通过所述预设词向量模型获取的所述当前用户的实时行为信息的关键词的 词向量,确定所述当前用户的实时行为特征向量;通过对所述历史行为特征 向量和实时行为特征向量进行加权求和,确定所述当前用户的用户特征向量, 其中,所述实时行为信息包括:行为意图和/或行为场景。
本申请实施例中的用户特征向量是根据描述当前用户的历史行为信息 和实时行为信息的关键词确定的。以当前用户输入查询词“蔬菜”,然后执 行搜索操作为例,根据查询词“蔬菜”可以获取用户历史行为信息中与查询 词“蔬菜”相关的历史行为信息,如与查询词“蔬菜”相关的点击、购买、 浏览、查询、评论等行为相关的信息,并提取上述信息中的关键词、时间、 词频等信息;然后,通过预先训练的词向量模型确定各关键词的词向量;最后,结合关键词对应的历史行为的时间、次数等信息确定所述关键词的词向 量的权重,通过对所述关键词的特征向量进行加权求和,就可以得到用户历 史行为特征向量。其中,与查询词“蔬菜”相关的关键词可以为用户原创数 据中的实体词、程度词、评价词等词语。例如,通过一条用户历史行为信息 “2017年10月购买蔬菜,蔬菜很新鲜”中,可以确定关键词“蔬菜”、“新 鲜”。
具体实施时,实时行为信息包括当前用户的:行为意图和/或行为场景 等信息。其中行为意图可以包括:关键词、频道等信息,行为场景可以为搜 索场景、查询场景,以及行为地点、时间等信息。通过提取描述实时行为信 息的关键词,然后,通过预先训练的词向量模型确定各关键词的词向量。仍 以当前用户输入查询词“蔬菜”,然后执行搜索操作为例,根据查询词“蔬 菜”,可以确定描述用户行为意图的关键词为“蔬菜”,通过预先训练的词向量模型确定行为意图的关键词“蔬菜”的特征向量。进一步的,当前用户处 于搜索场景,则将行为场景作为一个输入,同时输入关键词“蔬菜”,通过 预先训练的词向量模型确定行为场景的特征向量。具体实施时,行为意图特 征向量和行为场景特征向量根据关键词和用户实时行为的场景和预先训练 的词向量模型确定。例如,对于关键词“蔬菜”,当处于搜索场景时,行为 场景特征向量和行为意图特征向量可能相同,而当处于推荐场景时,行为场 景特征向量和行为意图特征向量则不同。
最后,通过对所述历史行为特征向量和实时行为特征向量进行加权求和, 确定所述当前用户的用户特征向量。具体实施时,可以通过公式 Vuser=WhisVhis+WqueryVquery+WsceneVscene确定用户特征向量Vuser,其中,Vhis为用户历史 行为特征向量,Whis为用户历史行为特征向量的权重,Vquery为行为意图特征 向量,Wquery为行为意图特征向量的权重,Vscene为行为场景特征特征向量,Wscene为行为场景特征向量的权重。本实施例中,实时行为特征向量包括行为场景 特征向量和行为意图特征向量。具体实施时,历史行为特征向量、行为场景特征向量和行为意图特征向量为通过同一个词向量模型得到的,因此,位于 相同的向量空间,可以进行计算。
由于行为意图特征向量Vquery是基于描述用户实时搜索行为信息的关键 词抽象出来的一个N维向量,行为场景特征向量Vscene是基于描述用户当前行 为所处的场景(搜索或推荐)信息抽象出来的一个N维向量,用户历史行为 特征向量是基于描述用户与当前行为相关的历史行为信息抽象出来的一个N 维向量,即用户特征向量综合考虑了用户的历史行为、实时意图和所处场景 信息,因此,得到的向量包含的信息更加全面。
具体实施时,计算用户特征向量的历史行为特征向量和实时行为特征向 量的权重,根据业务需求确定。例如,当用户处于搜索场景时,此时的场景 信息即为用户的搜索行为,因此不必再重复计算实时场景向量,即将行为场 景特征向量的权重Wscene设置为0,历史行为特征向量和行为意图特征向量的 权重根据测试效果进行调整。当用户处于推荐场景时,此时用户没有搜索行 为,因此将为行为意图特征向量的权重Wquery设置为0,历史行为特征向量和 行为场景特征向量的权重会根据测试效果进行调整。
步骤260,确定目标商户的推荐理由池中每个推荐理由的特征向量。
其中,所述目标商户为根据所述当前用户的实时行为向所述当前用户推 荐的商户。
具体实施时,所述确定目标商户的推荐理由池包括推荐理由和与所述推 荐理由对应的实体词,所述确定目标商户的推荐理由池中每个推荐理由的特 征向量,包括:根据目标商户推荐理由池中的推荐理由对应的实体词,通过 预设词向量模型获取所述实体词的特征向量,作为所述实体词对应的推荐理 由的特征向量。具体实施时,推荐理由池由推荐理由和所述推荐理由描述的 实体词组成。通过将某条推荐理由对应的实体词输入至预先训练的词向量模 型,可以获取所述实体词的特征向量,即所述实体词对应的推荐理由的特征 向量。
步骤270,根据所述用户特征向量和所述推荐理由的特征向量的相似度, 确定所述商户的推荐理由。
用户特征向量是根据描述用户实时行为和历史行为信息的关键词的词 向量确定的,商户的推荐理由的特征向量也是根据描述商户的推荐理由的实 体词的词向量确定的,并且,词向量是通过同一个词向量模型得到的,因此, 二者处于相同的向量空间,因此二者可以比较相似度。具体实施时,可以通 过用户特征向量和推荐理由的特征向量之间的余弦相似度,来表示所述用户 特征向量和推荐理由的特征向量之间的相似度。
当关键词相同或相似时,词向量也相同或相近。因此,当描述用户行为 的关键词与描述推荐理由的实体词相同或相近时,其对应的用户特征向量和 商户的推荐理由特征向量也是相似的。进一步的,根据用户特征向量和推荐 理由特征向量的相似度,可以确定相似的用户行为信息和商户的推荐理由, 从而挖掘出用户感兴趣的推荐理由。
举例而言,如果用户A经常搜索和购买“烤羊腿”,当用户A再次搜索 “烤羊腿”时确定的用户特征向量是基于“烤羊腿”相关的描述信息中提取 的关键词生成的,而关键词中必然包括“烤羊腿”。对于针对用户A的搜索 操作向用户推荐的目标商户B的推荐池中有多条推荐理由,其中,有“烤羊 腿很新鲜”的推荐理由,其对应的实体词为“烤羊腿”,那么,根据实体词 “烤羊腿”烤羊腿生成的推荐理由的特征向量必然相近,因为,用户特征向 量和推荐理由的特征向量都是基于关键词“烤羊腿”生成的。
本申请实施例公开的商户推荐理由的挖掘方法,通过基于目标商户的用 户原创数据,挖掘所述目标商户的推荐理由,构建所述目标商户的推荐理由 池,然后,在具体应用过程中,根据当前用户的历史行为信息和实时行为信 息,确定所述当前用户的用户特征向量;确定目标商户的推荐理由池中每个 推荐理由的特征向量,其中,所述目标商户为根据所述当前用户的实时行为 向所述当前用户推荐的商户;最后,根据所述用户特征向量和所述推荐理由 的特征向量的相似度,确定所述商户的推荐理由,解决了现有技术中挖掘的推荐理由不准确的问题。本申请实施例公开的商户推荐理由的挖掘方法,通 过结合用户的历史行为信息和实时行为信息确定用户特征向量,以实时变化 的条件去匹配商户的推荐理由,因此可以获得变化的、丰富的推荐理由。同 时,由于匹配条件是基于用户信息生成的,因此,对于不同用户会匹配到不 同的推荐理由,使得推荐理由更具有针对性,实现了推荐理由个性化展示, 减少了用户的决策成本,进一步改善了用户体验。
实施例三
本实施例公开的一种商户推荐理由的挖掘装置,如图3所示,所述装置 包括:
候选推荐理由及特征向量确定模块310,用于基于目标商户的用户原创 数据,确定候选推荐理由及所述候选推荐理由的特征向量;
候选推荐理由集评价得分确定模块320,用于通过预设推荐理由分类模 型,根据所述候选推荐理由的特征向量,确定优质候选推荐理由,以及,所 述优质候选推荐理由的评价得分;
推荐理由池构建模块330,用于基于所述优质候选推荐理由及所述优质 候选推荐理由的评价得分,构建所述目标商户的推荐理由池。
可选的,如图4所示,所述推荐理由池构建模块330,进一步包括:
筛选子模块3301,用于根据所述优质候选推荐理由的特征向量中实体词 词频特征值,筛选出实体词词频大于预设词频阈值的优质候选推荐理由,作 为所述目标商户的优质候选推荐理由;
合并子模块3302,用于将对应同一组实体词的优质候选推荐理由中,评 价得分最高的一条优质候选推荐理由,作为与所述同一组实体词对应的推荐 理由,以确定每组实体词对应的推荐理由;
推荐理由池构建子模块3303,用于根据所述每组实体词对应的推荐理由, 构建所述目标商户的推荐理由池。
可选的,如图4所示,所述候选推荐理由及特征向量确定模块310,进 一步包括:
候选推荐理由挖掘子模块3101,用于对目标商户的用户原创数据进行数 据处理得到若干条子句,其中,每条子句对应一条候选推荐理由;
候选推荐理由特征向量确定子模块3102,用于基于预设的参考词库,确 定每条所述候选推荐理由的特征向量;
所述参考词库基于所述目标商户的用户原创数据,通过结合情感分析法 和词频筛选法对预设词库进行数据清洗获得;所述参考词库包含正面成语、 程度词、高级评价词和普通评价词。
用户原创数据格式复杂,内容繁多,通过对用户原创数据进行清洗,筛 除脏数据,能够提高训练的推荐理由分类模型的准确性和提升挖掘的推荐理 由的有效性。用户原创数据进行数据处理通过对预设词库进行清洗,可以提 高提取的特征的准确性。可选的,所述推荐理由的特征向量包括以下任意一 个或多个维度:句法结构、是否包含语气词、句子文本分、是否包含普通评 价词、普通评价词数量、是否包含高级评价词、高级评价词数量、是否包含 程度词、程度词数量、是否包含成语、成语数量、情感分、评论分、是否包 含商户描述词、商户描述词数量、商户描述词权重、是否存在实体、实体数 量、实体词词频、是否存在观点、观点数量、观点分。
可选的,所述评论分通过公式:
reviewScore=(log(follows+hits+voteGoods+1)+isQuality*T+star*W)*timeScore 计算得到,其中,follows表示跟评数,hits表示点击数,voteGoods表示点赞数,isQuality表示是否是优质评论,T表示优质评论调节因子,star表示评 论星级,W表示评论星级调节因子,timeScore表示时间衰减因子,通过公式
timeScore=(3650-x)/3650获得,其中,x表示评价发表时间距当前时间的 天数。
可选的,所述实体词词频为当前条子句中包括的各实体词的词频的最大 值。
本申请实施例公开的商户推荐理由的挖掘装置,通过基于目标商户的用 户原创数据,确定候选推荐理由及所述候选推荐理由的特征向量;通过预设 推荐理由分类模型,根据所述候选推荐理由的特征向量,确定优质候选推荐 理由,以及,所述优质候选推荐理由的评价得分;基于所述优质候选推荐理 由及所述优质候选推荐理由的评价得分,构建所述目标商户的推荐理由池, 解决了现有技术中挖掘的推荐理由不准确的问题。本申请实施例公开的商户 推荐理由的挖掘方法,通过基于用户原创数据挖掘候选推荐理由,进一步通过预先训练的分类模型计算候选推荐理由基于预设维度特征计算评价得分, 然后,根据评价得分确定优质候选推荐理由作为商户的推荐理由,避免了人 工运营引入的主观因素和规则匹配引入的单一性限制,有效提升了挖掘的推 荐理由的准确性。
在本申请的另一个实施例中,可选的,如图5所示,所述装置还包括:
用户特征向量确定模块340,用于根据当前用户的历史行为信息和实时 行为信息,确定所述当前用户的用户特征向量;
推荐理由特征向量确定模块350,用于确定目标商户的推荐理由池中每 个推荐理由的推荐理由特征向量,其中,所述目标商户为根据所述当前用户 的实时行为向所述当前用户推荐的商户;
推荐理由挖掘模块360,用于根据所述用户特征向量确定模块确定的用 户特征向量和所述推荐理由特征向量确定模块确定的推荐理由特征向量的 相似度,确定所述商户的推荐理由。
可选的,所述推荐理由特征向量确定模块350,进一步用于:
根据目标商户推荐理由池中的推荐理由对应的实体词,通过预设词向量 模型获取所述实体词的特征向量,作为所述实体词对应的推荐理由的特征向 量。
可选的,所述用户特征向量确定模块340进一步用于:
根据通过预设词向量模型获取的当前用户的历史行为信息的关键词的 词向量,确定当前用户的历史行为特征向量;以及,根据通过所述预设词向 量模型获取的所述当前用户的实时行为信息的关键词的词向量,确定所述当 前用户的实时行为特征向量;
通过对所述历史行为特征向量和实时行为特征向量进行加权求和,确定 所述当前用户的用户特征向量;
其中,所述实时行为信息包括:行为意图和/或行为场景
用户历史行为特征向量是基于描述用户与当前行为相关的历史行为信 息抽象出来的一个多维向量,即用户特征向量综合考虑了用户的历史行为、 实时意图和所处场景信息,因此,得到的向量包含的信息更加全面。
本申请实施例公开的商户推荐理由的挖掘装置,通过基于目标商户的用 户原创数据,挖掘所述目标商户的推荐理由,构建每个所述目标商户的推荐 理由池,然后,在具体应用过程中,根据当前用户的历史行为信息和实时行 为信息,确定所述当前用户的用户特征向量;确定目标商户的推荐理由池中 每个推荐理由的推荐理由特征向量,其中,所述目标商户为根据所述当前用 户的实时行为向所述当前用户推荐的商户;最后,根据所述用户特征向量和 所述推荐理由特征向量的相似度,确定所述商户的推荐理由,解决了现有技术中挖掘的推荐理由不准确的问题。本申请实施例公开的商户推荐理由的挖 掘装置,通过结合用户的历史行为信息和实时行为信息确定用户特征向量, 以实时变化的条件去匹配商户的推荐理由,因此可以获得变化的、丰富的推 荐理由。同时,由于匹配条件是基于用户信息生成的,因此,对于不同用户 会匹配到不同的推荐理由,使得推荐理由更具有针对性,实现了推荐理由个 性化展示,减少了用户的决策成本,进一步改善了用户体验。
相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在 所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算 机程序时实现如本申请实施例一和实施例二所述的商户推荐理由的挖掘方 法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该 程序被处理器执行时实现如本申请实施例一和实施例二所述的商户推荐理 由的挖掘方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明 的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见 即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比 较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种商户推荐理由的挖掘方法及装置进行了详细 介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上 实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本 领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均 会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实 施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬 件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献 的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算 机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一 台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实 施例或者实施例的某些部分所述的方法。

Claims (18)

1.一种商户推荐理由的挖掘方法,其特征在于,包括:
基于目标商户的用户原创数据,确定候选推荐理由及所述候选推荐理由的特征向量;
通过预设推荐理由分类模型,根据所述候选推荐理由的特征向量,确定优质候选推荐理由,以及,所述优质候选推荐理由的评价得分;
基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分,构建所述目标商户的推荐理由池;
其中,在所述基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分,构建所述目标商户的推荐理由池的步骤之后,还包括:
根据当前用户的历史行为信息和实时行为信息,确定所述当前用户的用户特征向量;
确定目标商户的推荐理由池中每个推荐理由的特征向量,其中,所述目标商户为根据所述当前用户的实时行为向所述当前用户推荐的商户;
根据所述用户特征向量和所述推荐理由的特征向量的相似度,确定所述商户的推荐理由。
2.根据权利要求1所述的方法,其特征在于,所述基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分,构建所述目标商户的推荐理由池的步骤,包括:
根据所述优质候选推荐理由的特征向量中实体词词频特征值,筛选出实体词词频大于预设词频阈值的优质候选推荐理由,作为所述目标商户的优质候选推荐理由;
将对应同一组实体词的优质候选推荐理由中,评价得分最高的一条优质候选推荐理由,作为与所述同一组实体词对应的推荐理由,以确定每组实体词对应的推荐理由;
根据所述每组实体词对应的推荐理由,构建所述目标商户的推荐理由池。
3.根据权利要求1所述的方法,其特征在于,所述基于目标商户的用户原创数据,确定候选推荐理由及所述候选推荐理由的特征向量的步骤,包括:
对目标商户的用户原创数据进行数据处理得到若干条子句,其中,每条子句对应一条候选推荐理由;
基于预设的参考词库,确定每条所述候选推荐理由的特征向量;
所述参考词库基于所述目标商户的用户原创数据,通过结合情感分析法和词频筛选法对预设词库进行数据清洗获得;所述参考词库包含正面成语、程度词、高级评价词和普通评价词。
4.根据权利要求1所述的方法,其特征在于,所述推荐理由的特征向量包括以下任意一个或多个维度:句法结构、是否包含语气词、句子文本分、是否包含普通评价词、普通评价词数量、是否包含高级评价词、高级评价词数量、是否包含程度词、程度词数量、是否包含成语、成语数量、情感分、评论分、是否包含商户描述词、商户描述词数量、商户描述词权重、是否存在实体、实体数量、实体词词频、是否存在观点、观点数量、观点分。
5.根据权利要求4所述的方法,其特征在于,所述评论分通过公式:
reviewScore=(log(follows+hits+voteGoods+1)+isQuality*T+star*W)*timeScore计算得到,其中,follows表示跟评数,hits表示点击数,voteGoods表示点赞数,isQuality表示是否是优质评论,T表示优质评论调节因子,star表示评论星级,W表示评论星级调节因子,timeScore表示时间衰减因子,通过公式timeScore=(3650-x)/3650获得,其中,x表示评价发表时间距当前时间的天数。
6.根据权利要求4所述的方法,其特征在于,所述实体词词频为当前条子句中包括的各实体词的词频的最大值。
7.根据权利要求1所述的方法,其特征在于,所述确定目标商户的推荐理由池中每个推荐理由的特征向量的步骤,包括:
根据目标商户推荐理由池中的推荐理由对应的实体词,通过预设词向量模型获取所述实体词的特征向量,作为所述实体词对应的推荐理由的特征向量。
8.根据权利要求1所述的方法,其特征在于,所述根据当前用户的历史行为信息和实时行为信息,确定所述当前用户的用户特征向量的步骤,包括:
根据通过预设词向量模型获取的当前用户的历史行为信息的关键词的词向量,确定当前用户的历史行为特征向量;以及,根据通过所述预设词向量模型获取的所述当前用户的实时行为信息的关键词的词向量,确定所述当前用户的实时行为特征向量;
通过对所述历史行为特征向量和实时行为特征向量进行加权求和,确定所述当前用户的用户特征向量;
其中,所述实时行为信息包括:行为意图和/或行为场景。
9.一种商户推荐理由的挖掘装置,其特征在于,包括:
候选推荐理由及特征向量确定模块,用于基于目标商户的用户原创数据,确定候选推荐理由及所述候选推荐理由的特征向量;
候选推荐理由集评价得分确定模块,用于通过预设推荐理由分类模型,根据所述候选推荐理由的特征向量,确定优质候选推荐理由,以及,所述优质候选推荐理由的评价得分;
推荐理由池构建模块,用于基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分,构建所述目标商户的推荐理由池;
其中,所述装置还包括:
用户特征向量确定模块,用于根据当前用户的历史行为信息和实时行为信息,确定所述当前用户的用户特征向量;
推荐理由特征向量确定模块,用于确定目标商户的推荐理由池中每个推荐理由的推荐理由特征向量,其中,所述目标商户为根据所述当前用户的实时行为向所述当前用户推荐的商户;
推荐理由挖掘模块,用于根据所述用户特征向量确定模块确定的用户特征向量和所述推荐理由特征向量确定模块确定的推荐理由特征向量的相似度,确定所述商户的推荐理由。
10.根据权利要求9所述的装置,其特征在于,所述推荐理由池构建模块,进一步包括:
筛选子模块,用于根据所述优质候选推荐理由的特征向量中实体词词频特征值,筛选出实体词词频大于预设词频阈值的优质候选推荐理由,作为所述目标商户的优质候选推荐理由;
合并子模块,用于将对应同一组实体词的优质候选推荐理由中,评价得分最高的一条优质候选推荐理由,作为与所述同一组实体词对应的推荐理由,以确定每组实体词对应的推荐理由;
推荐理由池构建子模块,用于根据所述每组实体词对应的推荐理由,构建所述目标商户的推荐理由池。
11.根据权利要求9所述的装置,其特征在于,所述候选推荐理由及特征向量确定模块,进一步包括:
候选推荐理由挖掘子模块,用于对目标商户的用户原创数据进行数据处理得到若干条子句,其中,每条子句对应一条候选推荐理由;
候选推荐理由特征向量确定子模块,用于基于预设的参考词库,确定每条所述候选推荐理由的特征向量;
所述参考词库基于所述目标商户的用户原创数据,通过结合情感分析法和词频筛选法对预设词库进行数据清洗获得;所述参考词库包含正面成语、程度词、高级评价词和普通评价词。
12.根据权利要求9所述的装置,其特征在于,所述推荐理由的特征向量包括以下任意一个或多个维度:句法结构、是否包含语气词、句子文本分、是否包含普通评价词、普通评价词数量、是否包含高级评价词、高级评价词数量、是否包含程度词、程度词数量、是否包含成语、成语数量、情感分、评论分、是否包含商户描述词、商户描述词数量、商户描述词权重、是否存在实体、实体数量、实体词词频、是否存在观点、观点数量、观点分。
13.根据权利要求12所述的装置,其特征在于,所述评论分通过公式:
reviewScore=(log(follows+hits+voteGoods+1)+isQuality*T+star*W)*timeScore计算得到,其中,follows表示跟评数,hits表示点击数,voteGoods表示点赞数,isQuality表示是否是优质评论,T表示优质评论调节因子,star表示评论星级,W表示评论星级调节因子,timeScore表示时间衰减因子,通过公式timeScore=(3650-x)/3650获得,其中,x表示评价发表时间距当前时间的天数。
14.根据权利要求12所述的装置,其特征在于,所述实体词词频为当前条子句中包括的各实体词的词频的最大值。
15.根据权利要求9所述的装置,其特征在于,所述推荐理由特征向量确定模块,进一步用于:
根据目标商户推荐理由池中的推荐理由对应的实体词,通过预设词向量模型获取所述实体词的特征向量,作为所述实体词对应的推荐理由的特征向量。
16.根据权利要求9所述的装置,其特征在于,所述用户特征向量确定模块进一步用于:
根据通过预设词向量模型获取的当前用户的历史行为信息的关键词的词向量,确定当前用户的历史行为特征向量;以及,根据通过所述预设词向量模型获取的所述当前用户的实时行为信息的关键词的词向量,确定所述当前用户的实时行为特征向量;
通过对所述历史行为特征向量和实时行为特征向量进行加权求和,确定所述当前用户的用户特征向量;
其中,所述实时行为信息包括:行为意图和/或行为场景。
17.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任意一项所述的商户推荐理由的挖掘方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任意一项所述的商户推荐理由的挖掘方法的步骤。
CN201810447255.0A 2018-05-11 2018-05-11 一种商户推荐理由的挖掘方法及装置,电子设备 Active CN108694647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810447255.0A CN108694647B (zh) 2018-05-11 2018-05-11 一种商户推荐理由的挖掘方法及装置,电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810447255.0A CN108694647B (zh) 2018-05-11 2018-05-11 一种商户推荐理由的挖掘方法及装置,电子设备

Publications (2)

Publication Number Publication Date
CN108694647A CN108694647A (zh) 2018-10-23
CN108694647B true CN108694647B (zh) 2021-04-23

Family

ID=63847372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810447255.0A Active CN108694647B (zh) 2018-05-11 2018-05-11 一种商户推荐理由的挖掘方法及装置,电子设备

Country Status (1)

Country Link
CN (1) CN108694647B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7176443B2 (ja) * 2019-03-11 2022-11-22 トヨタ自動車株式会社 レコメンド文生成装置、レコメンド文生成方法、及びレコメンド文生成プログラム
CN109961357B (zh) * 2019-03-25 2021-09-03 上海拉扎斯信息科技有限公司 用户数据处理方法、装置、电子设备及存储介质
CN111831891A (zh) * 2019-04-18 2020-10-27 第四范式(北京)技术有限公司 物料推荐方法和***
CN110147499B (zh) * 2019-05-21 2021-09-14 智者四海(北京)技术有限公司 打标签方法、推荐方法及记录介质
CN110457460A (zh) * 2019-06-20 2019-11-15 拉扎斯网络科技(上海)有限公司 文本推荐方法、装置、服务器和存储介质
CN110852846A (zh) * 2019-11-11 2020-02-28 京东数字科技控股有限公司 用于推荐对象的处理方法及装置、电子设备、存储介质
CN111046138B (zh) * 2019-11-15 2023-06-27 北京三快在线科技有限公司 推荐理由生成方法、装置、电子设备及存储介质
CN111125544A (zh) * 2019-12-20 2020-05-08 腾讯数码(天津)有限公司 用户推荐方法及装置
CN113111264B (zh) * 2021-06-15 2021-09-07 深圳追一科技有限公司 界面内容显示方法、装置、电子设备及存储介质
CN113688335B (zh) * 2021-07-23 2023-09-01 北京三快在线科技有限公司 排序理由生成方法、装置、电子设备及存储介质
CN116740525B (zh) * 2023-08-16 2023-10-31 南京迅集科技有限公司 基于数据融合的智能制造质量管理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776568A (zh) * 2016-12-26 2017-05-31 成都康赛信息技术有限公司 基于用户评价的推荐理由生成方法
CN107944911A (zh) * 2017-11-18 2018-04-20 电子科技大学 一种基于文本分析的推荐***的推荐方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
CN103246672B (zh) * 2012-02-09 2016-06-08 中国科学技术大学 对用户进行个性化推荐的方法和装置
CN104572851B (zh) * 2014-12-16 2018-09-07 北京百度网讯科技有限公司 获取推荐信息的方法和装置
CN107577759B (zh) * 2017-09-01 2021-07-30 安徽广播电视大学 用户评论自动推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776568A (zh) * 2016-12-26 2017-05-31 成都康赛信息技术有限公司 基于用户评价的推荐理由生成方法
CN107944911A (zh) * 2017-11-18 2018-04-20 电子科技大学 一种基于文本分析的推荐***的推荐方法

Also Published As

Publication number Publication date
CN108694647A (zh) 2018-10-23

Similar Documents

Publication Publication Date Title
CN108694647B (zh) 一种商户推荐理由的挖掘方法及装置,电子设备
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
He et al. Trirank: Review-aware explainable recommendation by modeling aspects
US10282737B2 (en) Analyzing sentiment in product reviews
US9489688B2 (en) Method and system for recommending search phrases
CN106709040B (zh) 一种应用搜索方法和服务器
Raghavan et al. Review quality aware collaborative filtering
CN108280124B (zh) 产品分类方法及装置,排行榜生成方法及装置,电子设备
EP3189449A2 (en) Sentiment rating system and method
CN111400507B (zh) 实体匹配方法及其装置
CN107944911B (zh) 一种基于文本分析的推荐***的推荐方法
CN107544988A (zh) 一种获取舆情数据的方法和装置
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
CN107133282B (zh) 一种改进的基于双向传播的评价对象识别方法
CN111339439A (zh) 一种融合评论文本与时序效应的协同过滤推荐方法和装置
CN108733652B (zh) 基于机器学习的影评情感倾向性分析的测试方法
KR101712291B1 (ko) 오피니언 마이닝을 기반으로 한 사용자 맞춤형 명소 정보 추천 시스템 및 구동 방법
JP2022035314A (ja) 情報処理装置及びプログラム
CN109670922B (zh) 一种基于混合特征的线上图书价值发现方法
KR101074820B1 (ko) 인터넷을 활용한 추천 검색 시스템 및 그 방법
WO2019242453A1 (zh) 信息处理方法及装置、存储介质、电子装置
Chaurasiya et al. Improving performance of product recommendations using user reviews
CN117764669A (zh) 物品推荐方法、装置、设备、介质及产品
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识***
CN111625619B (zh) 查询省略方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant