CN108694647B

CN108694647B - 一种商户推荐理由的挖掘方法及装置，电子设备

Info

Publication number: CN108694647B
Application number: CN201810447255.0A
Authority: CN
Inventors: 虞金花; 苏婧; 兰田; 侯培旭; 华镇; 陈翀
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2021-04-23
Anticipated expiration: 2038-05-11
Also published as: CN108694647A

Abstract

本申请实施例公开了一种商户推荐理由的挖掘方法，属于计算机技术领域，解决现有技术中挖掘的推荐理由不准确的问题。本申请公开的商户推荐理由的挖掘方法包括：基于目标商户的用户原创数据，确定候选推荐理由及所述候选推荐理由的特征向量；通过预设推荐理由分类模型，根据所述候选推荐理由的特征向量，确定优质候选推荐理由，以及，所述优质候选推荐理由的评价得分；基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池。本申请实施例公开的商户推荐理由的挖掘方法，有效提升了挖掘的推荐理由的准确性。

Description

一种商户推荐理由的挖掘方法及装置，电子设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种商户推荐理由的挖掘方法及装置，电子设备。

背景技术

在搜索或推荐场景中，商户推荐理由是辅助用户决策的重要信息，现有技术中挖掘商户推荐理由的方法主要有人工运营和规则匹配。其中，人工运营需要大量的人力成本，量化成本颇高；而规则匹配虽然能够自动挖掘出推荐理由，单大多基于文字匹配进行挖掘，推荐理由评价因素单一，挖掘出的推荐理由不够准确。并且，模板固定，挖掘出的推荐理由比较单一，存在每个用户看到的商户的推荐理由是一样的，以及同一用户在不同搜索或推荐场景下看到的推荐理由也相同的问题，导致用户决策效率低下。

综上，现有技术中的商户推荐理由的挖掘方法至少存在挖掘的推荐理由不准确的缺陷。

发明内容

本申请提供一种商户推荐理由的挖掘方法，解决现有技术中商户推荐理由的挖掘方法存在的挖掘的推荐理由不准确的问题。

为了解决上述问题，第一方面，本申请实施例提供了一种商户推荐理由的挖掘方法包括：

基于目标商户的用户原创数据，确定候选推荐理由及所述候选推荐理由的特征向量；

通过预设推荐理由分类模型，根据所述候选推荐理由的特征向量，确定优质候选推荐理由，以及，所述优质候选推荐理由的评价得分；

基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池。

第二方面，本申请实施例提供了一种商户推荐理由的挖掘装置，包括：

候选推荐理由及特征向量确定模块，用于基于目标商户的用户原创数据，确定候选推荐理由及所述候选推荐理由的特征向量；

候选推荐理由集评价得分确定模块，用于通过预设推荐理由分类模型，根据所述候选推荐理由的特征向量，确定优质候选推荐理由，以及，所述优质候选推荐理由的评价得分；

推荐理由池构建模块，用于基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池。

第三方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的商户推荐理由的挖掘方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的商户推荐理由的挖掘方法的步骤。

本申请实施例公开的商户推荐理由的挖掘方法，通过基于目标商户的用户原创数据，确定候选推荐理由及所述候选推荐理由的特征向量；通过预设推荐理由分类模型，根据所述候选推荐理由的特征向量，确定优质候选推荐理由，以及，所述优质候选推荐理由的评价得分；基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池，解决了现有技术中挖掘的推荐理由不准确的问题。本申请实施例公开的商户推荐理由的挖掘方法，通过基于用户原创数据挖掘候选推荐理由，进一步通过预先训练的分类模型计算候选推荐理由基于预设维度特征计算评价得分，然后，根据评价得分确定优质候选推荐理由作为商户的推荐理由，避免了人工运营引入的主观因素和规则匹配引入的单一性限制，有效提升了挖掘的推荐理由的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一的商户推荐理由的挖掘方法流程图；

图2是本申请实施例二的商户推荐理由的挖掘方法流程图；

图3是本申请实施例三的商户推荐理由的挖掘装置的结构示意图之一；

图4是本申请实施例三的商户推荐理由的挖掘装置的结构示意图之二；

图5是本申请实施例三的商户推荐理由的挖掘装置的结构示意图之三。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本实施例公开的一种商户推荐理由的挖掘方法，如图1所示，该方法包括：步骤110至步骤130。

步骤110，基于目标商户的用户原创数据，确定候选推荐理由及所述候选推荐理由的特征向量。

具体实施时，从目标商户的用户原创数据中挖掘候选推荐理由。首先，对目标商户的每一条用户原创数据进行数据处理，得到若干条子句，其中，每条子句对应一条候选推荐理由。

进一步的，基于所述目标商户的用户原创数据，结合情感分析法和词频筛选法等，对预设词库进行数据清洗，获得参考词库。所述参考词库包含正面成语、程度词、高级评价词和普通评价词。

然后，基于所述参考词库，确定每条所述候选推荐理由的特征向量，作为候选推荐理由的特征向量。例如，将每条候选推荐理由对应的子句中的词语与所述参考词库中的词语进行匹配，并根据匹配结果对候选推荐理由的特征向量的各维度进行赋值，最终获得挖掘到的每条候选推荐理由的特征向量。

步骤120，通过预设推荐理由分类模型，根据所述候选推荐理由的特征向量，确定优质候选推荐理由，以及，所述优质候选推荐理由的评价得分。

本申请具体实施时，首先根据从用户原创数据中挖掘出的推荐理由训练推荐理由分类模型。然后，在具体应用过程中，通过将候选推荐理由的特征向量输入至预先训练的所述推荐理由分类模型，即可得到所述候选推荐理由的评价得分，以及所述候选推荐理由是否为优质候选推荐理由。例如，当所述候选推荐理由的评价得分大于等于0.5时，确定所述候选推荐理由为优质候选推荐理由，当所述候选推荐理由的评价得分小于0.5时，确定所述候选推荐理由为非优质候选推荐理由。

步骤130，基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池。

然后，进一步根据所述优质候选推荐理由中包括的实体词词频、所述优质候选推荐理由的评价得分等信息，对挖掘到的优质候选推荐理由进行筛选，将优质候选推荐理由中包括的实体词词频不满足预设条件的优质候选推荐理由过滤掉。最后，对于保留的优质候选推荐理由，进一步根据每个实体词对应的优质候选推荐理由的评价得分，选择某个或某组实体词对应的优质候选推荐理由中评价得分最高的一条优质候选推荐理由，作为该实体词或该组实体词对应的优质候选推荐理由，加入到所述目标商户的推荐理由池。

实施例二

本实施例公开的一种商户推荐理由的挖掘方法，如图2所示，该方法包括：步骤210至步骤270。

步骤210，训练推荐理由分类模型。

本申请具体实施时，基于目标商户的用户原创数据，挖掘推荐理由的训练样本，然后，基于训练样本训练推荐理由分类模型。其中，所述训练样本设置有是否为优质推荐理由标签。

首先，对目标商户的用户原创数据进行数据处理，确定若干子句，每个子句对应一条可能的推荐理由。

对目标商户的用户原创数据进行数据处理，确定若干条子句，包括：按照预设规则对所述目标商户的用户原创数据进行数据清洗和切分，得到若干子句，其中，所述预设规则包括以下至少一项：子句长度大于预设字符数、删除包含连接词的子句、删除预设符号(如表情符号)。

具体实施时，可以提取最近一段时间(如一年)内平台所有营业商户的 UGC(UserGenerated Content)用户原创数据，根据除顿号外的标点符号进行分句，然后对子句根据长度、特殊字符、连接词等进行过滤操作，得到多条源数据。以用户原创数据为“菜品、口味和服务绝对够得上米其林标准，但是店面太小了，楼梯也很窄……要是能宽敞点就完美了

”这条UGC为例，首先根据除顿号外的标点符号进行分句，得到4条子句：“菜品、口味和服务绝对够得上米其林标准”、“但是店面太小了”、“楼梯也很窄”、 “要是能宽敞点就完美了

”；然后，过滤掉表情符号等特殊字符，去掉包含连接词“但是”的子句，并选择长度大于5的子句，最终得到两条源数据“菜品、口味和服务绝对够得上米其林标准”和“要是能宽敞点就完美了”。

具体实施时，根据每个商户的用户原创数据可以确定多条子句，每条子句都可能作为一条推荐理由。用户原创数据格式复杂，内容繁多，通过对用户原创数据进行清洗，筛除脏数据，能够提高训练的推荐理由分类模型的准确性和提升挖掘的推荐理由的有效性。

进一步的，基于所述目标商户的用户原创数据，通过结合情感分析法和词频筛选法对预设词库进行数据清洗，确定包含正面成语、程度词、高级评价词和普通评价词的参考词库。

具体实施时，从每条子句中提取推荐理由特征时需要对子句进行句法分析、文本特征提取等操作，需要根据正面成语、程度词、高级评价词和普通评价词等确定每条子句的推荐理由特征。因此，为了提高提取的特征的准确性，首先根据用户原创数据对通用词库进行清洗，得到适合本申请应用场景的正面成语、程度词和评价词，并对评价词进行进一步区分，区分为：高级评价词和普通评价词。

本申请实施例中所述的正面成语为:从好的、积极的一面去描述商户菜品口味、环境、服务等信息的成语，如“恰到好处”、“物美价廉”等等。本申请实施例中所述的正面程度词为:从好的、积极的一面去描述商户菜品口味、环境、服务等信息的程度副词，如“尤其”、“不得了”等等。本申请实施例中所述的正面评价词为:从好的、积极的一面去描述商户菜品口味、环境、服务等信息的形容词。同时基于评价词的情感分将评价词分为高级评价词和普通评价词两类，例如，高级评价词包含“香醇”、“酥脆”等等，普通评价词包含“新鲜”、“划算”等等。所述预设词库为包括正面成语、程度词、评价词的通用词库。

具体实施时，首先，将预设词库中的成语、程度词、评价词分别和全量 UGC数据进行交叉判断，得到出现在全量UGC数据中的所有成语、程度词和评价词，以及各词语出现的频次；然后，利用情感分析法得到出现在全量UGC 数据中的上述成语、程度词和评价词的情感分；最后，综合考虑词语的频次和情感分，得到正面成语、程度词和评价词构成的词库，并将评价词分为高级评价词和普通评价词两类。具体实施时，可以预设情感分和词频阈值，将情感分高于预设情感分阈值或者频次高于预设词频阈值的在参考词库中予以保留。

至此，得到包括：正面成语、程度词、高级评价词和普通评价词的词库，作为提取源数据中推荐理由特征的参考词库。

具体实施时，本申请对进行预设词库清洗，以确定参考词库，和基于用户原创数据进行数据处理，确定若干子句的具体执行顺序不做限定。

然后，基于所述参考词库，确定每条子句的特征向量，作为推荐理由特征向量样本，并为每条推荐理由特征向量样本设置是否为优质推荐理由标签。

具体实施时，所述推荐理由的特征向量包括以下任意一个或多个维度：句法结构、是否包含语气词、句子文本分、是否包含普通评价词、普通评价词数量、是否包含高级评价词、高级评价词数量、是否包含程度词、程度词数量、是否包含成语、成语数量、情感分、评论分、是否包含商户描述词、商户描述词数量、商户描述词权重、是否存在实体、实体数量、实体词词频、是否存在观点、观点数量、观点分。

为了得到优质的具有商户特色的推荐理由，本实施例中分别从句法、句子质量、商户关联程度三个维度选择了22个子维度的特征，其中，句法反映子句的组成部分及排列顺序是否合理，包含特征：句法结构、是否包含语气词、文本分；句子质量反映子句语言描述是否生动具体、有画面感，包含特征：是否包含普通评价词、普通评价词数量、是否包含高级评价词、高级评价词数量、是否包含程度词、程度词数量、是否包含成语、成语数量、情感分、评论分；商户关联程度反映子句所描述的内容是否是商户特色，能否吸引用户对商户产生强烈兴趣，包含特征：是否包含商户描述词、商户描述词数量、商户描述词权重、是否存在实体、实体数量、实体词词频、是否存在观点、观点数量、观点分。

下面分别对各个维度的特征含义和获取方法进行详细描述。

所述句法结构特征，表示句子句首的词性含义，0表示推荐菜，1表示商户类目，2表示形容词，3表示名词，4表示动词，5表示其他词性。具体实施时，可以通过对句子分词，然后判断句首词性确定句法结构特征的取值。

所述是否包含语气词特征，表示是否包含如下语气词：’呢','耶',' 咩','哦','喔','哟','嘛','呀',‘滴’，包含为1，不包含为0。

所述文本分特征，表示句子长度得分，位于0-1之间，值越大表示句子长度越长。

所述是否包含普通评价词特征，表示当前条子句中是否包含普通评价词，包含为1，不包含为0。

所述普通评价词数量特征，表示当前条子句中所包含的普通评价词的数量。

所述是否包含高级评价词特征，表示当前条子句中是否包含高级评价词，包含为1，不包含为0。

所述高级评价词数量特征，表示当前条子句中所包含的高级评价词的数量。

所述是否包含程度词特征，表示当前条子句中是否包含程度词，包含为 1，不包含为0。

所述程度词数量特征，表示当前条子句中所包含的程度词的数量。

所述是否包含成语特征，表示当前条子句中是否包含成语，包含为1，不包含为0。

所述成语数量特征，表示当前条子句中所包含的成语的数量。

具体实施时，所述是否包含普通评价词、普通评价词数量、是否包含高级评价词、高级评价词数量、是否包含程度词、程度词数量、是否包含成语、成语数量特征，通过将当前条子句中的词语分别与参考词库中的词语进行比较，并进行个数统计确定。

所述情感分特征，表示当前条子句情感倾向性的定量表示，位于0-1之间，值越大表示当前条子句情感越正面，通过调用预设的情感分析服务接口获取。

所述评论分特征，表示综合当前条子句所在用户原创数据中的质量，如是否优质评论、点击数、点赞数、跟评数、星级和评论发表时间得到的一个分值，值越大表示该条子句质量越高。具体实施时，所述评论分通过公式：

reviewScore＝(log(follows+hits+voteGoods+1)+isQuality*T+star*W)*timeScore 计算得到，其中，follows表示跟评数，hits表示点击数，voteGoods表示点赞数，isQuality表示是否是优质评论，T表示优质评论调节因子(例如取值为 30)，star表示评论星级，W表示评论星级调节因子(例如取值为0.8)，

timeScore表示时间衰减因子，通过公式timeScore＝(3650-x)/3650获得，其中，x表示评价发表时间距当前时间的天数。其中，是否优质评论、点击数、点赞数、跟评数、评论星级和评价发表时间距当前时间的天数可以通过条用已有服务接口获取。

所述是否包含商户描述词特征，表示子句中是否包含其所在商户的描述词，是则为1，否则为0，其中，商户描述词是来源于商户下的原创数据且与商户关联性较大的一些实体词，可以通过调用现有接口获得。

所述商户描述词数量特征，表示当前条子句中所包含商户描述词的数量。

所述商户描述词权重特征，表示商户描述词的词频值，若当前条子句中存在多个商户描述词，则取最大词频值。

具体实施时，所述是否包含商户描述词、商户描述词数量、商户描述词权重分特征，通过调用已有服务结构获得。

所述是否存在实体特征，表示当前条子句中是否包含实体词，包含为1，不包含为0。

所述实体数量特征，表示当前条子句中所包含的实体词的数量。

具体实施时，所述实体词通过掉用预设服务获得。

所述实体词词频特征，表示当前条子句中实体词在所属商户的用户评论中出现的频率。具体实施时，所述实体词词频为当前条子句中包括的各实体词的词频的最大值。例如，如果一条子句中包括多个实体词ei，每个实体词在所属商户的用户评论中出现的频率表示为C_ei，则该条子句的实体词词频特征entityTF通过公式

计算得到，i为大于1的整数。

所述是否存在观点特征，表示当前条子句中是否包含观点，包含为1，不包含为0。

所述观点数量特征，表示当前条子句中所包含的观点的数量。

所述观点分特征，表示观点重要性的定量化表示，位于0-1之间，值越大表示观点越重要。

具体实施时，所述是否存在观点、观点数量、观点分特征，通过调用已有服务结构获得。

以子句为“烤羊腿很新鲜”举例，其特征向量生成过程如下：

因此“烤羊腿很新鲜”这条子句对应的22维特征向量为：[1,0,1,1, 1,1,1,0,0,1,1,0,0,0.92,31.77,1,1,0,375,1,1,0.48,0.07]。

然后，为每条子句的特征向量设置推荐理由标签，例如标签为“1”表示所述特征向量所述子句对应的推荐理由为优质推荐理由；标签为“0”表示所述特征向量所述子句对应的推荐理由为非优质推荐理由。

通过从句法、句子质量、商户关联程度三个维度的一个子维度提取子句的特征向量，即提取推荐理由的特征向量，通过考虑句子本身的质量、与商户的关联性等问题，特征覆盖面广，挖掘出的推荐理由与商户关系密切。

最后，通过所述训练样本训练推荐理由分类模型。

具体实施时，每条训练样本至少包括样本标签和特征向量两个字段，其中，样本标签用于标识该条样本是否对应优质推荐理由。以通过训练样本训练随机森林分类模型举例，模型的训练过程实际上是训练样本各维度特征权重的过程，推荐理由分类模型训练完成后，将得到推荐理由的特征向量每个维度的最优权重。

步骤220，基于目标商户的用户原创数据，确定候选推荐理由及所述候选推荐理由的特征向量。

当用户执行搜索或查询等操作时，搜索或查询应用或服务会根据用户输入的关键词或查询词，为用户推荐相关商户。例如，当用户输入“烤羊腿”，应用或服务会根据关键词“烤羊腿”向用户推荐“西贝莜面村”、“九十九顶毡房”等商户。为了便于用户决策，应用或服务通常还会展示相应商户的推荐理由。具体实施时，首先根据商户的品类、地点、服务、评论等信息构建每个商户的推荐理由池，所述推荐理由池中包括至少一条推荐理由，所述推荐理由是指对商户下的实体词进行生动具体的描述的一句话，从而通过所述推荐理由达到吸引用户对商户产生兴趣。实体词可以为：产品、服务、环境等商户信息的名称。

具体实施时，商户的推荐理由可以由应用或平台手动设置，或者根据点击率、购买率、热度信息提取。优选的，基于目标商户的用户原创数据，确定候选推荐理由。

具体实施时，通过对目标商户的用户原创数据进行数据处理，确定每条用户原创数据包括的多个子句，每个子句对应一条候选推荐理由，即每个子句可能对应一条候选推荐理由。然后，在基于预设参考词库确定每条子句的特征向量作为候选推荐理由的特征向量。所述基于目标商户的用户原创数据，确定候选推荐理由及所述候选推荐理由的特征向量，包括：对目标商户的用户原创数据进行数据处理得到若干条子句，其中，每条子句对应一条候选推荐理由；基于预设的参考词库，确定每条所述候选推荐理由的特征向量；所述参考词库基于所述目标商户的用户原创数据，通过结合情感分析法和词频筛选法对预设词库进行数据清洗获得；所述参考词库包含正面成语、程度词、高级评价词和普通评价词。

其中，所述推荐理由的特征向量包括以下任意一个或多个维度：句法结构、是否包含语气词、句子文本分、是否包含普通评价词、普通评价词数量、是否包含高级评价词、高级评价词数量、是否包含程度词、程度词数量、是否包含成语、成语数量、情感分、评论分、是否包含商户描述词、商户描述词数量、商户描述词权重、是否存在实体、实体数量、实体词词频、是否存在观点、观点数量、观点分。所述评论分通过公式： reviewScore＝(log(follows+hits+voteGoods+1)+isQuality*T+star*W)*timeScore计算得到，其中，follows表示跟评数，hits表示点击数，voteGoods表示点赞数， isQuality表示是否是优质评论，T表示优质评论调节因子，star表示评论星级，W表示评论星级调节因子，timeScore表示时间衰减因子，通过公式

timeScore＝(3650-x)/3650获得，其中，x表示评价发表时间距当前时间的天数。

可选的，所述实体词词频为当前条子句中包括的各实体词的词频的最大值。

基于目标商户的用户原创数据，确定候选推荐理由及所述候选推荐理由的特征向量的具体实时方式，参见训练推荐理由分类模型时，基于目标商户的用户原创数据，挖掘推荐理由的训练样本的具体实施方式，此处不再赘述。

具体实施时，可以在根据用户原创数据确定的推荐理由特征向量样本中随机选择一部分作为训练样本，另一部分作为候选推荐理由。

步骤230，通过预设推荐理由分类模型，根据所述候选推荐理由的特征向量，确定优质候选推荐理由，以及，所述优质候选推荐理由的评价得分。

将候选推荐理由输入至推荐理由分类模型，将得到所述候选推荐理由是否为优质候选推荐理由，以及相应的评价得分。例如，将子句“烤羊腿很新鲜”对应的候选推荐理由的特征向量[1,0,1,1,1,1,1,0,0,1,1,0, 0,0.92,31.77,1,1,0,375,1,1,0.48,0.07]输入至训练好的推荐理由分类模型，输出结果为1，得分为0.89，则说明输入的推荐理由的特征向量为优质候选推荐理由的特征向量，即“烤羊腿很新鲜”为优质候选推荐理由，同时，确定“烤羊腿很新鲜”为优质候选推荐理由的得分为0.89。

具体实施时，只有优质候选推荐理由才可能用于构建目标商户的推荐理由池。

步骤240，基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池。

具体实施时，可以通过调用现有服务的接口确定每个所述优质候选推荐理由对应的实体词，然后对于每个目标商户，分别对从该目标商户的用户原创数据中挖掘到的优质候选推荐理由执行评价和筛选操作，确定每个目标商户的推荐理由和实体词的对应关系，并基于所述推荐理由和实体词的对应关系构建该目标商户的推荐理由池。

具体实施时，所述基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池，包括：根据所述优质候选推荐理由的特征向量中实体词词频特征值，筛选出实体词词频大于预设词频阈值的优质候选推荐理由，作为所述目标商户的优质候选推荐理由；将对应同一组实体词的优质候选推荐理由中，评价得分最高的一条优质候选推荐理由，作为与所述同一组实体词对应的推荐理由，以确定每组实体词对应的推荐理由；根据所述每组实体词对应的推荐理由，构建所述目标商户的推荐理由池。

具体实施时，首先，对于某个目标商户的子句中挖掘出的优质候选推荐理由，根据推荐理由的特征向量中的实体词词频特征的取值，筛选出实体词词频大于预设词频阈值的优质候选推荐理由，作为所述目标商户的优质候选推荐理由。具体实施时，所述预设词频阈值FH通过以下公式确定： FH＝max(entityTF₁,...，entityTF_n)*0.1，其中，entityTF₁,...，entityTF为该目标商户的优质候选推荐理由的特征向量的实体词词频特征值。

然后，对于包括相同实体词的所有优质候选推荐理由，选择其中评价得分最高的一条优质候选推荐理由作为所述相同实体词对应的推荐理由。假设某个商户A下的UGC经过分句和过滤操作后有5条子句“烤羊腿很新鲜”、 “烤羊腿外脆里嫩”、“羊腿烤好整只上桌的”、“服务好在定西路上算性价比很高的店”和“这家店服务细心周到”，利用随机森林分类模型进行分类得到分类结果为1的四条优质候选推荐理由“烤羊腿很新鲜”、“烤羊腿外脆里嫩”、“服务好在定西路上算性价比很高的店”、“这家店服务细心周到”，每条子句挖掘出的优质候选推荐理由评价得分分别为0.4、0.5、0.35 和0.32，其中“烤羊腿很新鲜”和“烤羊腿外脆里嫩”都是对实体词“烤羊腿”进行描述的，也就是说“烤羊腿”这个实体词对应两个优质候选推荐理由，为避免累赘，最后选取评价得分最高的优质候选推荐理由作为该实体词对应的推荐理由，即“烤羊腿”最终对应的推荐理由为“烤羊腿外脆里嫩”。 “服务好在定西路上算性价比很高的店”和“这家店服务细心周到”是对实体词“服务”和“店”进行描述的，同理选取评价得分最高的作为这组实体词对应的推荐理由，即“服务好在定西路上算性价比很高的店”对应实体词“服务”和“店”。

具体实施时，根据所述每组实体词对应的推荐理由，构建所述目标商户的推荐理由池可以为：根据优质候选推荐理由的评价得分，选择评价得分最高的预设数目(如前20个)的优质候选推荐理由和与所述预设数目的优质候选推荐理由对应的实体词，构建所述目标商户的推荐理由池。通过结合实体词词频和评价得分对优质候选推荐理由进行进一步筛选，可以提高目标商户的推荐理由的有效性。

具体实施时，所述基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池之后，还包括：根据当前用户的历史行为信息和实时行为信息，确定所述当前用户的用户特征向量；确定目标商户的推荐理由池中每个推荐理由的特征向量，其中，所述目标商户为根据所述当前用户的实时行为向所述当前用户推荐的商户；根据所述用户特征向量和所述推荐理由的特征向量的相似度，确定所述商户的推荐理由。

步骤250，根据当前用户的历史行为信息和实时行为信息，确定所述当前用户的用户特征向量。

所述根据当前用户的历史行为信息和实时行为信息，确定所述当前用户的用户特征向量，包括：根据通过预设词向量模型获取的当前用户的历史行为信息的关键词的词向量，确定当前用户的历史行为特征向量；以及，根据通过所述预设词向量模型获取的所述当前用户的实时行为信息的关键词的词向量，确定所述当前用户的实时行为特征向量；通过对所述历史行为特征向量和实时行为特征向量进行加权求和，确定所述当前用户的用户特征向量，其中，所述实时行为信息包括：行为意图和/或行为场景。

本申请实施例中的用户特征向量是根据描述当前用户的历史行为信息和实时行为信息的关键词确定的。以当前用户输入查询词“蔬菜”，然后执行搜索操作为例，根据查询词“蔬菜”可以获取用户历史行为信息中与查询词“蔬菜”相关的历史行为信息，如与查询词“蔬菜”相关的点击、购买、浏览、查询、评论等行为相关的信息，并提取上述信息中的关键词、时间、词频等信息；然后，通过预先训练的词向量模型确定各关键词的词向量；最后，结合关键词对应的历史行为的时间、次数等信息确定所述关键词的词向量的权重，通过对所述关键词的特征向量进行加权求和，就可以得到用户历史行为特征向量。其中，与查询词“蔬菜”相关的关键词可以为用户原创数据中的实体词、程度词、评价词等词语。例如，通过一条用户历史行为信息 “2017年10月购买蔬菜，蔬菜很新鲜”中，可以确定关键词“蔬菜”、“新鲜”。

具体实施时，实时行为信息包括当前用户的：行为意图和/或行为场景等信息。其中行为意图可以包括：关键词、频道等信息，行为场景可以为搜索场景、查询场景，以及行为地点、时间等信息。通过提取描述实时行为信息的关键词，然后，通过预先训练的词向量模型确定各关键词的词向量。仍以当前用户输入查询词“蔬菜”，然后执行搜索操作为例，根据查询词“蔬菜”，可以确定描述用户行为意图的关键词为“蔬菜”，通过预先训练的词向量模型确定行为意图的关键词“蔬菜”的特征向量。进一步的，当前用户处于搜索场景，则将行为场景作为一个输入，同时输入关键词“蔬菜”，通过预先训练的词向量模型确定行为场景的特征向量。具体实施时，行为意图特征向量和行为场景特征向量根据关键词和用户实时行为的场景和预先训练的词向量模型确定。例如，对于关键词“蔬菜”，当处于搜索场景时，行为场景特征向量和行为意图特征向量可能相同，而当处于推荐场景时，行为场景特征向量和行为意图特征向量则不同。

最后，通过对所述历史行为特征向量和实时行为特征向量进行加权求和，确定所述当前用户的用户特征向量。具体实施时，可以通过公式 V_user＝W_hisV_his+W_queryV_query+W_sceneV_scene确定用户特征向量V_user，其中，V_his为用户历史行为特征向量，W_his为用户历史行为特征向量的权重，V_query为行为意图特征向量，W_query为行为意图特征向量的权重，V_scene为行为场景特征特征向量，W_scene为行为场景特征向量的权重。本实施例中，实时行为特征向量包括行为场景特征向量和行为意图特征向量。具体实施时，历史行为特征向量、行为场景特征向量和行为意图特征向量为通过同一个词向量模型得到的，因此，位于相同的向量空间，可以进行计算。

由于行为意图特征向量V_query是基于描述用户实时搜索行为信息的关键词抽象出来的一个N维向量，行为场景特征向量V_scene是基于描述用户当前行为所处的场景(搜索或推荐)信息抽象出来的一个N维向量，用户历史行为特征向量是基于描述用户与当前行为相关的历史行为信息抽象出来的一个N 维向量，即用户特征向量综合考虑了用户的历史行为、实时意图和所处场景信息，因此，得到的向量包含的信息更加全面。

具体实施时，计算用户特征向量的历史行为特征向量和实时行为特征向量的权重，根据业务需求确定。例如，当用户处于搜索场景时，此时的场景信息即为用户的搜索行为，因此不必再重复计算实时场景向量，即将行为场景特征向量的权重W_scene设置为0，历史行为特征向量和行为意图特征向量的权重根据测试效果进行调整。当用户处于推荐场景时，此时用户没有搜索行为，因此将为行为意图特征向量的权重W_query设置为0，历史行为特征向量和行为场景特征向量的权重会根据测试效果进行调整。

步骤260，确定目标商户的推荐理由池中每个推荐理由的特征向量。

其中，所述目标商户为根据所述当前用户的实时行为向所述当前用户推荐的商户。

具体实施时，所述确定目标商户的推荐理由池包括推荐理由和与所述推荐理由对应的实体词，所述确定目标商户的推荐理由池中每个推荐理由的特征向量，包括：根据目标商户推荐理由池中的推荐理由对应的实体词，通过预设词向量模型获取所述实体词的特征向量，作为所述实体词对应的推荐理由的特征向量。具体实施时，推荐理由池由推荐理由和所述推荐理由描述的实体词组成。通过将某条推荐理由对应的实体词输入至预先训练的词向量模型，可以获取所述实体词的特征向量，即所述实体词对应的推荐理由的特征向量。

步骤270，根据所述用户特征向量和所述推荐理由的特征向量的相似度，确定所述商户的推荐理由。

用户特征向量是根据描述用户实时行为和历史行为信息的关键词的词向量确定的，商户的推荐理由的特征向量也是根据描述商户的推荐理由的实体词的词向量确定的，并且，词向量是通过同一个词向量模型得到的，因此，二者处于相同的向量空间，因此二者可以比较相似度。具体实施时，可以通过用户特征向量和推荐理由的特征向量之间的余弦相似度，来表示所述用户特征向量和推荐理由的特征向量之间的相似度。

当关键词相同或相似时，词向量也相同或相近。因此，当描述用户行为的关键词与描述推荐理由的实体词相同或相近时，其对应的用户特征向量和商户的推荐理由特征向量也是相似的。进一步的，根据用户特征向量和推荐理由特征向量的相似度，可以确定相似的用户行为信息和商户的推荐理由，从而挖掘出用户感兴趣的推荐理由。

举例而言，如果用户A经常搜索和购买“烤羊腿”，当用户A再次搜索 “烤羊腿”时确定的用户特征向量是基于“烤羊腿”相关的描述信息中提取的关键词生成的，而关键词中必然包括“烤羊腿”。对于针对用户A的搜索操作向用户推荐的目标商户B的推荐池中有多条推荐理由，其中，有“烤羊腿很新鲜”的推荐理由，其对应的实体词为“烤羊腿”，那么，根据实体词 “烤羊腿”烤羊腿生成的推荐理由的特征向量必然相近，因为，用户特征向量和推荐理由的特征向量都是基于关键词“烤羊腿”生成的。

本申请实施例公开的商户推荐理由的挖掘方法，通过基于目标商户的用户原创数据，挖掘所述目标商户的推荐理由，构建所述目标商户的推荐理由池，然后，在具体应用过程中，根据当前用户的历史行为信息和实时行为信息，确定所述当前用户的用户特征向量；确定目标商户的推荐理由池中每个推荐理由的特征向量，其中，所述目标商户为根据所述当前用户的实时行为向所述当前用户推荐的商户；最后，根据所述用户特征向量和所述推荐理由的特征向量的相似度，确定所述商户的推荐理由，解决了现有技术中挖掘的推荐理由不准确的问题。本申请实施例公开的商户推荐理由的挖掘方法，通过结合用户的历史行为信息和实时行为信息确定用户特征向量，以实时变化的条件去匹配商户的推荐理由，因此可以获得变化的、丰富的推荐理由。同时，由于匹配条件是基于用户信息生成的，因此，对于不同用户会匹配到不同的推荐理由，使得推荐理由更具有针对性，实现了推荐理由个性化展示，减少了用户的决策成本，进一步改善了用户体验。

实施例三

本实施例公开的一种商户推荐理由的挖掘装置，如图3所示，所述装置包括：

候选推荐理由及特征向量确定模块310，用于基于目标商户的用户原创数据，确定候选推荐理由及所述候选推荐理由的特征向量；

候选推荐理由集评价得分确定模块320，用于通过预设推荐理由分类模型，根据所述候选推荐理由的特征向量，确定优质候选推荐理由，以及，所述优质候选推荐理由的评价得分；

推荐理由池构建模块330，用于基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池。

可选的，如图4所示，所述推荐理由池构建模块330，进一步包括：

筛选子模块3301，用于根据所述优质候选推荐理由的特征向量中实体词词频特征值，筛选出实体词词频大于预设词频阈值的优质候选推荐理由，作为所述目标商户的优质候选推荐理由；

合并子模块3302，用于将对应同一组实体词的优质候选推荐理由中，评价得分最高的一条优质候选推荐理由，作为与所述同一组实体词对应的推荐理由，以确定每组实体词对应的推荐理由；

推荐理由池构建子模块3303，用于根据所述每组实体词对应的推荐理由，构建所述目标商户的推荐理由池。

可选的，如图4所示，所述候选推荐理由及特征向量确定模块310，进一步包括：

候选推荐理由挖掘子模块3101，用于对目标商户的用户原创数据进行数据处理得到若干条子句，其中，每条子句对应一条候选推荐理由；

候选推荐理由特征向量确定子模块3102，用于基于预设的参考词库，确定每条所述候选推荐理由的特征向量；

所述参考词库基于所述目标商户的用户原创数据，通过结合情感分析法和词频筛选法对预设词库进行数据清洗获得；所述参考词库包含正面成语、程度词、高级评价词和普通评价词。

用户原创数据格式复杂，内容繁多，通过对用户原创数据进行清洗，筛除脏数据，能够提高训练的推荐理由分类模型的准确性和提升挖掘的推荐理由的有效性。用户原创数据进行数据处理通过对预设词库进行清洗，可以提高提取的特征的准确性。可选的，所述推荐理由的特征向量包括以下任意一个或多个维度：句法结构、是否包含语气词、句子文本分、是否包含普通评价词、普通评价词数量、是否包含高级评价词、高级评价词数量、是否包含程度词、程度词数量、是否包含成语、成语数量、情感分、评论分、是否包含商户描述词、商户描述词数量、商户描述词权重、是否存在实体、实体数量、实体词词频、是否存在观点、观点数量、观点分。

可选的，所述评论分通过公式：

reviewScore＝(log(follows+hits+voteGoods+1)+isQuality*T+star*W)*timeScore 计算得到，其中，follows表示跟评数，hits表示点击数，voteGoods表示点赞数，isQuality表示是否是优质评论，T表示优质评论调节因子，star表示评论星级，W表示评论星级调节因子，timeScore表示时间衰减因子，通过公式

本申请实施例公开的商户推荐理由的挖掘装置，通过基于目标商户的用户原创数据，确定候选推荐理由及所述候选推荐理由的特征向量；通过预设推荐理由分类模型，根据所述候选推荐理由的特征向量，确定优质候选推荐理由，以及，所述优质候选推荐理由的评价得分；基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池，解决了现有技术中挖掘的推荐理由不准确的问题。本申请实施例公开的商户推荐理由的挖掘方法，通过基于用户原创数据挖掘候选推荐理由，进一步通过预先训练的分类模型计算候选推荐理由基于预设维度特征计算评价得分，然后，根据评价得分确定优质候选推荐理由作为商户的推荐理由，避免了人工运营引入的主观因素和规则匹配引入的单一性限制，有效提升了挖掘的推荐理由的准确性。

在本申请的另一个实施例中，可选的，如图5所示，所述装置还包括：

用户特征向量确定模块340，用于根据当前用户的历史行为信息和实时行为信息，确定所述当前用户的用户特征向量；

推荐理由特征向量确定模块350，用于确定目标商户的推荐理由池中每个推荐理由的推荐理由特征向量，其中，所述目标商户为根据所述当前用户的实时行为向所述当前用户推荐的商户；

推荐理由挖掘模块360，用于根据所述用户特征向量确定模块确定的用户特征向量和所述推荐理由特征向量确定模块确定的推荐理由特征向量的相似度，确定所述商户的推荐理由。

可选的，所述推荐理由特征向量确定模块350，进一步用于：

根据目标商户推荐理由池中的推荐理由对应的实体词，通过预设词向量模型获取所述实体词的特征向量，作为所述实体词对应的推荐理由的特征向量。

可选的，所述用户特征向量确定模块340进一步用于：

根据通过预设词向量模型获取的当前用户的历史行为信息的关键词的词向量，确定当前用户的历史行为特征向量；以及，根据通过所述预设词向量模型获取的所述当前用户的实时行为信息的关键词的词向量，确定所述当前用户的实时行为特征向量；

通过对所述历史行为特征向量和实时行为特征向量进行加权求和，确定所述当前用户的用户特征向量；

其中，所述实时行为信息包括：行为意图和/或行为场景

用户历史行为特征向量是基于描述用户与当前行为相关的历史行为信息抽象出来的一个多维向量，即用户特征向量综合考虑了用户的历史行为、实时意图和所处场景信息，因此，得到的向量包含的信息更加全面。

本申请实施例公开的商户推荐理由的挖掘装置，通过基于目标商户的用户原创数据，挖掘所述目标商户的推荐理由，构建每个所述目标商户的推荐理由池，然后，在具体应用过程中，根据当前用户的历史行为信息和实时行为信息，确定所述当前用户的用户特征向量；确定目标商户的推荐理由池中每个推荐理由的推荐理由特征向量，其中，所述目标商户为根据所述当前用户的实时行为向所述当前用户推荐的商户；最后，根据所述用户特征向量和所述推荐理由特征向量的相似度，确定所述商户的推荐理由，解决了现有技术中挖掘的推荐理由不准确的问题。本申请实施例公开的商户推荐理由的挖掘装置，通过结合用户的历史行为信息和实时行为信息确定用户特征向量，以实时变化的条件去匹配商户的推荐理由，因此可以获得变化的、丰富的推荐理由。同时，由于匹配条件是基于用户信息生成的，因此，对于不同用户会匹配到不同的推荐理由，使得推荐理由更具有针对性，实现了推荐理由个性化展示，减少了用户的决策成本，进一步改善了用户体验。

相应的，本申请还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例一和实施例二所述的商户推荐理由的挖掘方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。

本申请还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一和实施例二所述的商户推荐理由的挖掘方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种商户推荐理由的挖掘方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

1.一种商户推荐理由的挖掘方法，其特征在于，包括：

基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池；

其中，在所述基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池的步骤之后，还包括：

根据当前用户的历史行为信息和实时行为信息，确定所述当前用户的用户特征向量；

确定目标商户的推荐理由池中每个推荐理由的特征向量，其中，所述目标商户为根据所述当前用户的实时行为向所述当前用户推荐的商户；

根据所述用户特征向量和所述推荐理由的特征向量的相似度，确定所述商户的推荐理由。

2.根据权利要求1所述的方法，其特征在于，所述基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池的步骤，包括：

根据所述优质候选推荐理由的特征向量中实体词词频特征值，筛选出实体词词频大于预设词频阈值的优质候选推荐理由，作为所述目标商户的优质候选推荐理由；

将对应同一组实体词的优质候选推荐理由中，评价得分最高的一条优质候选推荐理由，作为与所述同一组实体词对应的推荐理由，以确定每组实体词对应的推荐理由；

根据所述每组实体词对应的推荐理由，构建所述目标商户的推荐理由池。

3.根据权利要求1所述的方法，其特征在于，所述基于目标商户的用户原创数据，确定候选推荐理由及所述候选推荐理由的特征向量的步骤，包括：

对目标商户的用户原创数据进行数据处理得到若干条子句，其中，每条子句对应一条候选推荐理由；

基于预设的参考词库，确定每条所述候选推荐理由的特征向量；

4.根据权利要求1所述的方法，其特征在于，所述推荐理由的特征向量包括以下任意一个或多个维度：句法结构、是否包含语气词、句子文本分、是否包含普通评价词、普通评价词数量、是否包含高级评价词、高级评价词数量、是否包含程度词、程度词数量、是否包含成语、成语数量、情感分、评论分、是否包含商户描述词、商户描述词数量、商户描述词权重、是否存在实体、实体数量、实体词词频、是否存在观点、观点数量、观点分。

5.根据权利要求4所述的方法，其特征在于，所述评论分通过公式：

reviewScore＝(log(follows+hits+voteGoods+1)+isQuality*T+star*W)*timeScore计算得到，其中，follows表示跟评数，hits表示点击数，voteGoods表示点赞数，isQuality表示是否是优质评论，T表示优质评论调节因子，star表示评论星级，W表示评论星级调节因子，timeScore表示时间衰减因子，通过公式timeScore＝(3650-x)/3650获得，其中，x表示评价发表时间距当前时间的天数。

6.根据权利要求4所述的方法，其特征在于，所述实体词词频为当前条子句中包括的各实体词的词频的最大值。

7.根据权利要求1所述的方法，其特征在于，所述确定目标商户的推荐理由池中每个推荐理由的特征向量的步骤，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据当前用户的历史行为信息和实时行为信息，确定所述当前用户的用户特征向量的步骤，包括：

其中，所述实时行为信息包括：行为意图和/或行为场景。

9.一种商户推荐理由的挖掘装置，其特征在于，包括：

推荐理由池构建模块，用于基于所述优质候选推荐理由及所述优质候选推荐理由的评价得分，构建所述目标商户的推荐理由池；

其中，所述装置还包括：

用户特征向量确定模块，用于根据当前用户的历史行为信息和实时行为信息，确定所述当前用户的用户特征向量；

推荐理由特征向量确定模块，用于确定目标商户的推荐理由池中每个推荐理由的推荐理由特征向量，其中，所述目标商户为根据所述当前用户的实时行为向所述当前用户推荐的商户；

推荐理由挖掘模块，用于根据所述用户特征向量确定模块确定的用户特征向量和所述推荐理由特征向量确定模块确定的推荐理由特征向量的相似度，确定所述商户的推荐理由。

10.根据权利要求9所述的装置，其特征在于，所述推荐理由池构建模块，进一步包括：

筛选子模块，用于根据所述优质候选推荐理由的特征向量中实体词词频特征值，筛选出实体词词频大于预设词频阈值的优质候选推荐理由，作为所述目标商户的优质候选推荐理由；

合并子模块，用于将对应同一组实体词的优质候选推荐理由中，评价得分最高的一条优质候选推荐理由，作为与所述同一组实体词对应的推荐理由，以确定每组实体词对应的推荐理由；

推荐理由池构建子模块，用于根据所述每组实体词对应的推荐理由，构建所述目标商户的推荐理由池。

11.根据权利要求9所述的装置，其特征在于，所述候选推荐理由及特征向量确定模块，进一步包括：

候选推荐理由挖掘子模块，用于对目标商户的用户原创数据进行数据处理得到若干条子句，其中，每条子句对应一条候选推荐理由；

候选推荐理由特征向量确定子模块，用于基于预设的参考词库，确定每条所述候选推荐理由的特征向量；

12.根据权利要求9所述的装置，其特征在于，所述推荐理由的特征向量包括以下任意一个或多个维度：句法结构、是否包含语气词、句子文本分、是否包含普通评价词、普通评价词数量、是否包含高级评价词、高级评价词数量、是否包含程度词、程度词数量、是否包含成语、成语数量、情感分、评论分、是否包含商户描述词、商户描述词数量、商户描述词权重、是否存在实体、实体数量、实体词词频、是否存在观点、观点数量、观点分。

13.根据权利要求12所述的装置，其特征在于，所述评论分通过公式：

14.根据权利要求12所述的装置，其特征在于，所述实体词词频为当前条子句中包括的各实体词的词频的最大值。

15.根据权利要求9所述的装置，其特征在于，所述推荐理由特征向量确定模块，进一步用于：

16.根据权利要求9所述的装置，其特征在于，所述用户特征向量确定模块进一步用于：

其中，所述实时行为信息包括：行为意图和/或行为场景。

17.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任意一项所述的商户推荐理由的挖掘方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8任意一项所述的商户推荐理由的挖掘方法的步骤。