CN112949322A

CN112949322A - 线上文本评论驱动的电商意见挖掘推荐***

Info

Publication number: CN112949322A
Application number: CN202110462593.3A
Authority: CN
Inventors: 李蕊男; 王兴
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-06-11

Abstract

本发明提出的线上文本评论驱动的电商意见挖掘推荐***，基于相关关系规则挖掘的方法，对线上商品评论中的商品特征进行提取，根据提取的商品特征抽取对应的感情词，并通过感情词典的方法进行量化，得到消费者的商品特征‑感情对，改进协同过滤推荐算法，重新定义一种计算消费者之间近似指数的方法，基于商品特征，通过消费者对商品特征的关注指数和挑剔指数衡量量化消费者对商品特征的偏好程度，进而衡量量化不同消费者之间的近似指数。通过实验对比，从平均绝对误差的角度验证了本发明方法的有效性和先进性。不仅能给商家带来更多的消费者，创造出更大的经济效益，还能为消费者带来更好的购物体验。

Description

线上文本评论驱动的电商意见挖掘推荐***

技术领域

本发明涉及一种文本评论电商推荐***，特别涉及一种线上文本评论驱动的电商意见挖掘推荐***，属于电商意见挖掘推荐技术领域。

背景技术

近年来，随着计算机和网络技术的飞速发展，电子商务正改变着人们的日常生活，并逐步发展成为社会经济发展的重要力量。随着电商市场规模不断扩大，越来越多的行业也加入电商行列中，随之而来的不仅是日趋激烈的竞争，还有网络中过度膨胀的多样化信息。面对如此繁杂的信息，如何才能快速准确的从海量数据中找出所需要的商品，成为了人们最关心的话题，同时也已成为学术界和工业界亟待解决的难题。

电子商务行业中的信息和数据线性增长，这其中就包括大量消费者对购买商品的反馈信息，如评分以及包含消费者感情的线上评论。对于商家来说，可根据这些消费者反馈的评论信息来改进自己的商品和服务，并不断提升市场竞争力。另一方面，网络评论信息也可以帮助消费者更好的识别商品的优劣和更好的做出决策。随着各类电商网站线上评论的不断增加，以及线上评论结构化、自由文本格式的数据特性，消费者、商家如何才能快速准确的从浩瀚的数据海洋中寻找出所需要的信息，成为了人们最为关心的话题。

线上评论是消费者体验后对商品进行一种感情表达，一个新的消费者往往会通过线上评论作为是否购买商品的依据，久而久之，在电商平台上会出现大量的商品和评论数据。由于线上评论数据的快速增加，详细全面的查看商品的评论数据变得困难，识别出评论中类型不同的感情表达变得难上加难，电商网站也面临着一系列难题和挑战，对定制化推荐也提出了迫切需求。

目前国际上定制化推荐***的研发应用主要有：一是美国计算机协会ACM以专题形式对定制化推荐进行研发；二是Google等也尝试推出推荐算法，如通过搜索预测奥斯卡金像奖得主等；三是电子商务网站，如亚马逊推出的根据消费者以往的浏览和购买记录，为消费者提供推荐，帮助消费者获取新的商品信息，更好的方便消费者决策；四是Netflix电影推荐、Goodreads书籍推荐、YouTube视频推荐***等；五是社交网站中的好友推荐，如Facebook中的Like和Google中的“+1”等。国内定制化推荐***主要集中在淘宝、京东、拼多多等的关联规则推荐，Top-N推荐等随着电商行业的快速发展。电商平台规模越来越大，对定制化推荐的需求也在不断增加，定制化推荐***最主要的难题和挑战是如何提高推荐***的速度和效率，随着电商规模的的不断扩大，消费者规模和商品数量的线性增长，对现有定制化电子商务推荐***提出了一系列严峻考验。

在电商平台中，消费者对商品的数字评分只是一个综合的评价，很难体现出消费者对商品的真实态度，通过消费者对商品评价的分析可以更加准确的分析出消费者对商品的真实态度，这就需要对线上评论进行文本挖掘。针对目前商品特征提取，大多都采用人工定义和标注的方法，与工作量复杂的人工标注方法来说，自动提取更为智能和有效，能更好的反映出消费者之间的近似指数。

文本意见挖掘是指对包含消费者观点、喜好、感情等主观性文本进行分析挖掘，文本意见挖掘涉及到自然语言处理、数据挖掘和机器学习等多领域，意见挖掘是自然语言处理和数据挖掘领域的分支，是对互联网中线上评论信息提取、分析、处理、归纳和推理的技术。针对文本粒度不同，意见挖掘分为词语级、句子级、篇章级及多篇章节等分析层次。电商领域的文本意见挖掘主要是对线上商品评论进行意见挖掘，主要分为以下几个步骤：首先是提取出线上商品评论中所包括的商品特征，其次根据提取出的商品特征找到对应的感情词语，进而通过感情词典判别消费者对商品特征的感情倾向。

一个有效的电商推荐***不仅能给商家带来更多的消费者，创造出更大的经济效益，还能为消费者带来更好的购物体验，而如何构建一个快速响应、准确高效的为消费者提供定制化服务的电商网站也成为重大难题。现有技术针对消费者购买行为和评分作为识别消费者偏好和相似度的协同过滤推荐算法有较多的应用，但基于线上评论感情倾向性分析的协同过滤推荐算法的研发应用较少，也缺乏较好的成果。

现有技术没有高效的线上评论电商意见挖掘推荐方案，现有技术的难点和本发明解决的问题主要集中在以下方面：

第一，随着电商市场规模不断扩大，越来越多的行业也加入电商行列中，随之而来的不仅是日趋激烈的竞争，还有网络中过度膨胀的多样化信息，面对如此繁杂的信息，人们无法快速准确的从海量数据中找出所需要的商品，现有技术的协同过滤是通过购买行为和评分来表示消费者对商品的关注，但没有真实的表达消费者对商品的感情态度，无法真实、准确的反映出消费者对商品的态度，从而推荐的准确度可信度很低；

第二，在电商平台上会出现大量的商品和评论数据，由于线上评论数据的快速增加，详细全面的查看商品的评论数据变得困难，识别出评论中类型不同的感情表达变得难上加难，电商网站也面临着一系列难题和挑战，现有技术缺少构建一个快速响应准确高效的为消费者提供定制化服务的电商网站推荐***，现有技术的协同过滤推荐算法由于其自身的局限性，特别是在大数据背景下暴露出的冷启动、稀疏性、可扩展等问题，使得推荐***的效果并不满意，无法为消费者带来良好的购物体验；

第三，现有技术针对消费者购买行为和评分作为识别消费者偏好和相似度的协同过滤推荐算法有较多的应用，但基于线上评论感情倾向性分析的协同过滤推荐算法的研发应用较少，也缺乏较好的成果，现有技术中消费者对商品的数字评分只是一个综合的评价，没有足够的参考价值和实际意义，很难体现出消费者对商品的真实态度，无法准确的分析出消费者对商品的真实态度；

第四，针对电商领域中日益膨胀和过载的信息，构建实时响应、准确高效的为消费者提供定制化服务的电商推荐***的难题，现有技术无法在考虑消费者的购买行为的同时，结合消费者对商品的感情倾向，无法将消费者对商品的关注指数和挑剔指数相融合，无法全面的去衡量量化消费者之间的近似指数，从而导致电商产品推荐方法的准确度较低；

第五，由于电商中的线上评论并没有一定的规则和格式，消费者可根据自己的习惯和风格对商品进行评论，这会导致文本评论中出现多个不同的词汇描述商品的同一特征，现有技术不对这种同种商品特征的不同表达进行合并，最终得到的结果会出现较大偏差，不管是对商家还是消费者，都失去了吸引力与应用价值。

发明内容

针对现有技术的不足，本发明提出基于线上评论意见挖掘的推荐算法，并提出本发明中的二个难点：商品特征-感情对的提取和改进协同过滤推荐算法。本发明通过相关关系规则挖掘算法提取出线上评论中的商品特征，并抽取对应的感情词并数值化，构建出商品特征-感情对，提出基于消费者关注指数(购买行为)和挑剔指数(感情倾向)来判别量化消费者之间近似指数的改进协同过滤推荐算法，最后提出通过目标消费者对所推荐商品的兴趣指数判别推荐算法的优劣性，不管是对商家还是消费者，都有很大的吸引力与应用价值。

为达到以上技术效果，本发明所采用的技术方案如下：

线上文本评论驱动的电商意见挖掘推荐***，将线上文本评论中的意见挖掘和协同过滤推荐算法分别改进后融合构建模型，应用于定制化电商推荐***中，主要包括：首先基于相关关系规则挖掘法，对线上商品评论中的商品特征进行提取；然后根据提取的商品特征来抽取对应的感情词，并通过感情词典法加以数值化解析衡量，得到消费者的商品特征-感情对；改进协同过滤推荐算法，重新定义一种计算消费者之间近似指数的方法，基于商品特征，通过消费者对商品特征的关注指数和挑剔指数衡量分析消费者对商品特征的偏好程度，进而计算不同消费者之间的近似指数；

本发明提出通过对线上文本评论中消费者对商品特征的感情倾向去量化衡量消费者对商品的兴趣指数，进而判定消费者之间的近似指数，将消费者线上文本评论感情倾向性分析和协同过滤推荐算法改进后融合构建模型，根据消费者评论中所包含的大量有用的评论和感情信息，结合自然语言处理方法，构建基于消费者线上评论的商品推荐***，给消费者带来更加准确和有效的推荐和建议，更好的帮助消费者决策；

本发明通过消费者对商品特征的感情态度反映消费者对商品的喜欢与否，即通过消费者对商品的关注指数和感情态度共同衡量量化消费者的商品的偏好程度，基于线上商品评论意见挖掘的推荐***有两个核心点：一是通过对线上评论的意见挖掘，提取出其中的商品特征-感情对，二是改进协同过滤推荐算法；通过相关关系规则挖掘算法提取出线上评论中的商品特征，并抽取对应的感情词并数值化，构建出商品特征-感情对，提出基于消费者关注指数-购买行为和挑剔指数-感情倾向判别量化消费者之间近似指数的改进协同过滤推荐算法；

消费者对商品的兴趣指数包括对购买商品的兴趣指数和对推荐商品的兴趣指数：

消费者对购买商品的兴趣指数：t_vi衡量量化消费者v对商品i的兴趣程度，通过消费者v对商品i的评价中提取商品特征的评价的平均值衡量量化，计算方法如式9所示：

其中，M表示消费者v对商品i的评价中所提取的商品特征总数，1＜j＜M，stp_j_v表示消费者v对商品i的特征评价值；

消费者对推荐商品的兴趣指数：根据得到消费者与消费者之间的相似度，通过改进的协同过滤推荐算法，得到目标消费者的相似消费者集，进而向目标消费者推荐商品，消费者v对商品i的兴趣指数InR(v,i)为式10:

其中，C(v,W)表示和目标消费者v兴趣最接近的W个消费者的集合，M(i)表示购买并评论过商品i的消费者集合，C_vu是消费者v和消费者u之间的兴趣相似度，t_ui衡量量化消费者u对商品i的兴趣程度，W作为一个调节参数，表示选取W个与目标消费者兴趣最相似的消费者，然后向目标消费者推荐这W个消费者感兴趣的商品，W值是通过在实验中进行调整进而确定最优值。

线上文本评论驱动的电商意见挖掘推荐***，进一步的，商品特征-感情对的衡量量化：采取无监督学习方法，具体采用基于相关关系规则挖掘方法提取商品特征，并结合统计方法抽取感情词汇，从而实现特征-感情对的提取，完成线上评论中的商品特征和感情词的提取，商品特征-感情对提取分为数据集的前置处理、商品特征提取、特征过滤合并、感情词的抽取与数值化。

线上文本评论驱动的电商意见挖掘推荐***，进一步的，商品特征-感情对提取方法：商品特征-感情对的提取是从电商平台上的线上评论中提取出的商品特征，并抽取对应的感情态度，基于线上评论数据集中有较多的噪声数据，对数据集进行前置处理，找出并剔除掉噪声数据，本发明采用基于相关关系规则挖掘方法提取线上评论中的商品特征，根据提取出的商品特征，抽取出对应的感情词，并通过感情词典对其进行数值化，得到消费者的商品特征-感情对。

线上文本评论驱动的电商意见挖掘推荐***，进一步的，商品特征提取过程分为：数据集前置处理和相关关系规则挖掘，文本分词和词性标注的前置处理：

第1步，文本分词，通过程序把一句话拆分成一个单词集，本发明采用哈工大研发的LTP中文自然语言处理工具，在对文本意见挖掘时，都是针对粗粒度的句子级来分析，但对商品特征的意见挖掘中，商品特征都是词汇或短语形式，因此对语料进行分词；

第2步，去除停用词和符号，停用词不具有实际意义，为了提高效率，将其剔除；

第3步，词性标注，由于本发明提取线上评论中的商品特征，而商品特征都是由名词或名词性短语组成，故需要进行词性标注。

线上文本评论驱动的电商意见挖掘推荐***，进一步的，相关关系规则挖掘：相关关系规则挖掘是从海量的数据中挖掘出具有某种存在意义的关联关系，电商领域相关关系规则挖掘是找出顾客在商场所购商品之间的关联；

相关关系规则挖掘是在数据项目中找出所有的并发关系，关联规则是形如X→Y的蕴含表达式，其中X和Y是不相交的项集，关联规则用支持指数和置信指数衡量量化，支持指数是给定数据集中同时包含X和Y事务的比率，规则的支持指数表示规则在事务集合R中使用的频繁程度，设m是R中事务的数目，规则X→Y的支持指数计算方法如式1所示：

置信指数是在给定的数据集中，既包含X又包含Y的事务的数量占所有包含X的事务的比率，看作是条件概率Q_r(Y|X)的一个估算，置信指数计算方法如式2所示：

相关关系规则挖掘是找出给定数据集中满足最小支持指数和最小置信指数的所有规则，如果提前设定好最小支持指数和最小置信指数，无论它们的计算效率和空间需求的差别有多大，都应该找出同一个规则集合，具体方法分两步进行：

第一步，生成所有频繁项目集，生成满足最小支持指数的所有频繁项目集；

第二步，从频繁项目集中生成所有强关联规则：一个强关联规则必须同时满足大于最小支持指数Msup，同时满足大于最小置信指数Mconf的规则；

将关联规则算法应用到推荐***上，相关关系规则挖掘找出给定数据集中满足最小支持指数和最小置信指数的所有频繁项集，从线上评论数据集中提取到的关联规则形式为

其中X和Y为两个不同的商品特征，采用相关关系规则挖掘算法对线上评论中的名词特征进行提取，商品特征的长度不会超过2个短语，故提取出长度不超过2个词汇的频繁项集。

线上文本评论驱动的电商意见挖掘推荐***，进一步的，对噪声和重复候选特征进行过滤，剔除冗余的候选特征，合并类似的商品特征；

商品特征过滤：剔除噪声特征，过滤掉对结果产生负影响的候选特征，本发明采取二种噪声特征剔除规则：

规则一：剔除至少含有两个词语的候选商品特征，如果提取的候选商品特征中含有多个词汇，且其中的每两个词之间距离不超过3时，为紧密商品特征，如果对于紧密商品特征，整个线上评论数据集中含有紧密商品特征的句子个数小于2时，将此紧密商品特征剔除；

规则二：剔除只包含一个词语的候选商品特征，特征词的纯支持指数是指一个句子单独含有商品特征词或含有单独含有特征词词组的个数，当一个特征词的纯支持指数小于某个临界值时，则将其删除。

线上文本评论驱动的电商意见挖掘推荐***，进一步的，商品特征合并：语义相似度衡量量化两个词语之间的近似指数，商品特征提取会提取出两个或多个相类似的商品特征，需要进行合并，通过计算两个词语的语义相似度来计算近似指数，如果两个商品特征之间的近似指数大于某个设定的临界值时，就进行合并，采用基于语义词典的方法计算语义相似度，计算方法如式3所示：

其中，Dis(g₁，g₂)表示为2个特征词g₁，g₂之间的距离，如果g₁，g₂是义原词，则Dis(g₁，g₂)表示义原相似度，b是可调节参数，b的含义是当相似度为0.5时的词语距离值，当相似度Simi(g₁,g₂)大于临界值时，合并这两个商品特征，扫描提取出的商品特征，分别计算任意两个商品特征的相似度，当相似度大于提前给定的临界值时，进行特征的合并和替换，通过以上对提取出来的商品特征进行人工过滤和特征合并之后，选择具有代表性的若干个商品特征。

线上文本评论驱动的电商意见挖掘推荐***，进一步的，基于偏好程度衡量量化消费者相似性：构造出消费者的商品特征-感情对，通过计算得到消费者对商品特征的关注度和挑剔度，进而转化为消费者对商品特征的偏好度，最终改进协同过滤推荐算法，通过偏好程度来衡量量化消费者之间的近似指数；

计算消费者对商品的偏好程度，消费者对商品的偏好程度通过消费者对商品特征的评价表示，具体通过本发明提出的三项指标和两项规则表示：

三项指标：

第一指标，关注指数-Conc：衡量量化消费者对商品特征的关注程度，体现消费者是否对商品特征进行评价；

第二指标，挑剔指数-Pick：衡量量化消费者对商品特征的挑剔程度，体现消费者对商品特征的好评与否；

第三指标，偏好程度-Pref：衡量量化消费者对商品特征的偏好程度，由消费者对商品特征的关注指数和挑剔指数共同表示；

两项规则：

规则一：当消费者v对商品特征g_i的平均评价次数高于该特征的总平均评价次数时，即

则表明该消费者v对特征g_i的关注程度大于大部分消费者；

规则二：当消费者v对商品特征g_i的平均好评率低于该特征的总平均好评率时，即

则表明该消费者v对于特征g_i的挑剔程度高于大部分消费者，即该消费者v对此商品特征g_i要求较高，较为挑剔；

其中，T_i表示消费者v对某商品特征g_i的平均评价次数，

表示某商品特征g_i的总平均评价次数；F_i(v)表示消费者v对某商品特征g_i的平均好评率，

表示某商品特征g_i的总平均好评率。

线上文本评论驱动的电商意见挖掘推荐***，进一步的，关注指数和挑剔指数衡量量化：消费者v对商品特征g_i的关注指数Conc(v，g_i)，计算方法如式5所示：

其中，Count(v，g_i)表示消费者v对商品特征g_i的评论次数，count(v)表示消费者的总评论数量，M表示商品获得的评论总数，count(g_i)表示商品特征获得的评论总数；

消费者v对商品特征g_i的挑剔指数Pick(v，g_i)，计算方法如式6所示：

消费者v对商品特征g_i越挑剔，Pick(v，g_i)的值越大。

线上文本评论驱动的电商意见挖掘推荐***，进一步的，消费者对商品特征的偏好程度衡量量化：基于消费者v对商品特征g_i的关注指数和挑剔指数，得出消费者v对商品特征g_i的偏好程度，计算方法如式7所示：

Pref(v，g_i)＝Conc(v，g_i)×Pick(v，g_i) 式7

当Pref(v，g_i)＞0时，消费者v对商品特征g_i较为挑剔，且Pref(v，g_i)值越大，消费者u的要求越苛刻；当Pref(v，g_i)＜0时，则相反；

消费者近似指数衡量量化：根据消费者对商品特征的偏好程度来计算消费者之间的近似指数，将消费者v对商品特征的偏好程度表示为向量Q_v＝(q_v1，q_v2，......，q_vn)，其中q_vi表示消费者v对商品的第i个特征的偏好程度，采用向量空间余弦近似指数计算两个向量间相似度，消费者v和u之间的相似度Simi_vu表示为式8：

θ为向量空间夹角。

与现有技术相比，本发明的贡献和创新点在于：

第一，本发明提出将线上文本评论中的意见挖掘和协同过滤推荐算法相融合，并应用于定制化电子商务推荐***中的新思路和新模型，一是线上文本评论的意见挖掘，首先基于相关关系规则挖掘的方法，对线上商品评论中的商品特征进行提取，然后根据提取的商品特征来抽取对应的感情词，并通过感情词典的方法进行量化，最终得到消费者的商品特征-感情对；二是改进的协同过滤推荐算法，提出的推荐算法重新定义了一种方法来计算消费者之间的近似指数，基于商品特征，通过消费者对商品特征的关注指数和挑剔指数来衡量消费者对商品特征的偏好程度，进而通过偏好程度来计算不同消费者之间的近似指数；三是以消费者对商品的兴趣指数为标准，通过与随机推荐算法、基于消费者的协同过滤推荐算法的实验对比，从平均绝对误差的角度验证了本发明方法的有效性，***具有很强的可扩展性，具有很高的实用价值和广阔的应用前景；

第二，本发明的重要创新点在于对线上文本评论中的意见挖掘和协同过滤推荐算法等核心技术进行了大量研发改进，将两者相融合，应用于定制化电子商务推荐***中，更准确的衡量量化消费者之间的近似指数，为消费者提供更好的推荐服务；本发明定制化推荐***解决了信息膨胀和信息过载带来的问题，根据网络中的数据为消费者提供商品推荐的服务，为商家减少消费者流失提供了可能性，消费者更愿意访问提供定制化推荐服务的电子商务网站，一方面对商家来说，通过从网络中抓取关键数据并对其处理，使商家能发掘出潜在消费者，并为客户提供商品推荐，扩大消费者群体和减少客户流失，达到扩张销售范围的目标；另一方面对消费者来说，能够快速准确的通过定制化推荐***获取所需信息，进而享受到更好的购物体验。因此，不管是对商家还是消费者，都有很大的吸引力与应用价值；

第三，本发明将消费者线上文本评论感情倾向性分析和协同过滤推荐算法改进后融合构建模型，根据消费者评论中所包含的大量有用的评论和感情信息，结合自然语言处理方法，构建基于消费者线上评论的商品推荐***，给消费者带来更加准确和有效的推荐和建议，更好的帮助消费者决策，同时从信息粒度的角度，根据消费者对商品特征的偏好，解决数据稀疏性问题，通过消费者对商品的关注指数和感情态度共同衡量量化消费者的商品的偏好程度，更加真实、准确的反映出消费者对商品的态度，推荐的准确度可信度大幅提高；

第四，针对电商领域中日益膨胀和过载的信息，构建实时响应、准确高效的为消费者提供定制化服务的电商推荐***的难题，本发明提出将文本挖掘中线上对评论意见挖掘的方法和协同过滤推荐算法进行改进结合，从而使推荐的效果更准确，本发明提出的方法大幅提高了电商产品推荐效果，推荐效果优越是因为不仅考虑了消费者的购买行为，同时结合了消费者对商品的感情倾向，即将消费者对商品的关注指数和挑剔指数相融合，更加全面的去衡量量化消费者之间的近似指数，从而也就提高了电商产品推荐方法的准确度；

第五，将随机推荐算法以及基于消费者的协同过滤推荐算法，和本发明的方法进行实验对比、分析，证明了本发明提出的基于线上评论意见挖掘的电商产品推荐算法的有效性，验证了将消费者对商品购买行为和消费者对商品特征的感情倾向相融合能更加全面的区分消费者之间的近似指数，从而更好的向消费者进行商品推荐，并提高电子商务定制化推荐***的推荐效果，不仅能给商家带来更多的消费者，创造出更大的经济效益，还能为消费者带来更好的购物体验。

附图说明

图1是本发明的商品特征-情感对提取流程示意图。

图2是本发明商品特征-感情对的提取结果示意图。

图3是线上文本评论驱动的电商意见挖掘推荐***流程图。

具体实施方式

下面结合附图，对本发明提供的线上文本评论驱动的电商意见挖掘推荐***的技术方案进行进一步的描述，使本领域的技术人员能够更好的理解本发明并能予以实施。

互联网和电子商务的快速发展，激烈的竞争背后是过度膨胀的多样化信息，面对过载的信息，快速准确的从海量数据中找出所需商品，成为了电商领域最关心的话题，同时也已经成为亟待解决的一个难题，现有技术的协同过滤推荐算法由于其自身的局限性，特别是在大数据背景下暴露出的冷启动、稀疏性、可扩展等问题，使得推荐***的效果并不满意。

本发明针对当前定制化电商推荐***面临的主要问题和挑战，提出将线上文本评论中的意见挖掘和协同过滤推荐算法分别改进后融合构建模型，应用于定制化电商推荐***中，主要包括：首先基于相关关系规则挖掘法，对线上商品评论中的商品特征进行提取；然后根据提取的商品特征来抽取对应的感情词，并通过感情词典法加以数值化解析衡量，得到消费者的商品特征-感情对；通过消费者对商品特征的关注指数和挑剔指数衡量分析消费者对商品特征的偏好程度，进而计算不同消费者之间的近似指数。

消费者的感情表达更能反映出其真实感受，带有感情表达的线上文本评价比评分更能体现出对商品的真实体验和感受，本发明提出通过对线上文本评论中消费者对商品特征的感情倾向去量化衡量消费者对商品的兴趣指数，进而判定消费者之间的近似指数。

本发明将消费者线上文本评论感情倾向性分析和协同过滤推荐算法改进后融合构建模型，应用在电商推荐***，通过对文本评论的分析对商品的各方面进行详细而全面的理解，相反数字打分则没有足够的参考价值和实际意义。现如今的电商中消费者数量猛增，商品类别日益繁多，不同种类商品的特征也千差万别，例如手机有特征类别二这一特征，而电视机则有画面特征类别一这一特征，根据消费者评论中所包含的大量有用的评论和感情信息，结合自然语言处理方法，构建基于消费者线上评论的商品推荐***，就能给消费者带来更加准确和有效的推荐和建议，更好的帮助消费者决策，同时从信息粒度的角度，根据消费者对商品特征的偏好，解决数据稀疏性问题。

现有技术的协同过滤是通过购买行为和评分来表示消费者对商品的关注，但这并没有真实的表达消费者对商品的感情态度，本发明通过消费者对商品特征的感情态度反映消费者对商品的喜欢与否，即通过消费者对商品的关注指数和感情态度共同衡量量化消费者的商品的偏好程度，这种方法可以更加真实、准确的反映出消费者对商品的态度，从而使得推荐的准确度可信度大幅提高。

本发明提出的基于线上商品评论意见挖掘的推荐算法主要有两个难点：一是通过对线上评论的意见挖掘，提取出其中的商品特征-感情对；二是改进协同过滤推荐算法，本发明依次针对这两个问题进行分析探讨，并提出解决方案。

一、商品特征-感情对的衡量量化

基于信号理论，消费者购买商品时，往往由于信息的不对称，使得消费者不能通过商品的介绍来判别商品的特征类别一以及决定是否购买。这时，历史线上评论就成为了一种可以表示商品特征类别一的信号，这种信号更具有参考价值和实际意义。消费者通过历史线上评论获得更可靠的信息，而不是以商家介绍为导向。基于社会影响理论，线上评论不仅是商品特征类别一等信息的反馈，同时还传达了消费者群体共性规范。往往消费者为了降低风险，选择和大部分人群保持一致，这也就造就线上评论在很大程度上会影响消费者。打分不能很好的表示消费者对商品的喜好程度，相反带有消费者感情色彩的文本评论，不仅传达出消费者对商品的反馈信息，同时还能让消费者发现与其相类似的消费者群体。

为减少监督学习方法中人工标注的工作量，本发明采取无监督学习方法，具体采用基于相关关系规则挖掘方法提取商品特征，并结合统计方法抽取感情词汇，从而实现特征-感情对的提取，完成线上评论中的商品特征和感情词的提取。如图1所示，商品特征-感情对提取分为数据集的前置处理、商品特征提取、特征过滤合并、感情词的抽取与数值化。

(一)商品特征-感情对提取方法

商品特征-感情对的提取是从电商平台上的线上评论中提取出的商品特征，并抽取对应的感情态度，基于线上评论数据集中有较多的噪声数据，需要对数据集进行前置处理，找出并剔除掉噪声数据，本发明采用基于相关关系规则挖掘方法提取线上评论中的商品特征，根据提取出的商品特征，抽取出对应的感情词，并通过感情词典对其进行数值化，得到消费者的商品特征-感情对。

(二)商品特征-感情对提取过程

1.商品特征提取

商品特征提取过程分为：数据集前置处理和相关关系规则挖掘。

(1)文本分词和词性标注的前置处理

现如今在电商领域海量的文本评论数据背景下，通过对线上评论数据进行人工分析已经不大可能，这就需要一种能自动对评论数据进行分析的方法和工具。

第1步，文本分词，通过程序把一句话拆分成一个单词集，本发明采用哈工大研发的LTP中文自然语言处理工具，在对文本意见挖掘时，都是针对粗粒度的句子级来分析，但对商品特征的意见挖掘中，商品特征都是词汇或短语形式，因此对语料进行分词。

第2步，去除停用词和符号，停用词不具有实际意义，为了提高效率，将其剔除。

(2)相关关系规则挖掘

相关关系规则挖掘是从海量的数据中挖掘出具有某种存在意义的关联关系，电商领域相关关系规则挖掘是找出顾客在商场所购商品之间的关联。

关联规则是数据集中蕴含的重要规律，相关关系规则挖掘是数据挖掘中的根本任务，相关关系规则挖掘是在数据项目中找出所有的并发关系，关联规则是形如X→Y的蕴含表达式，其中X和Y是不相交的项集，关联规则用支持指数和置信指数衡量量化，支持指数是给定数据集中同时包含X和Y事务的比率，规则的支持指数表示规则在事务集合R中使用的频繁程度，设m是R中事务的数目，规则X→Y的支持指数计算方法如式1所示：

第二步，从频繁项目集中生成所有强关联规则：一个强关联规则必须同时满足大于最小支持指数Msup，同时满足大于最小置信指数Mconf的规则。

2.商品特征过滤合并

关联规则抽取出来的所有频繁项集并非通过都是商品的特征，里面会有一些对噪声特征和重复特征。本发明对噪声和重复候选特征进行过滤，剔除冗余的候选特征，合并类似的商品特征。

(1)商品特征过滤

剔除噪声特征，过滤掉对结果产生负影响的候选特征，本发明采取二种噪声特征剔除规则：

规则一：剔除至少含有两个词语的候选商品特征，如果提取的候选商品特征中含有多个词汇，且其中的每两个词之间距离不超过3时，为紧密商品特征，如果对于紧密商品特征，整个线上评论数据集中含有紧密商品特征的句子个数小于2时，将此紧密商品特征剔除。

(2)商品特征合并

由于电商中的线上评论并没有一定的规则和格式，消费者可根据自己的习惯和风格对商品进行评论，这会导致文本评论中出现多个不同的词汇描述商品的同一特征，如果不对这种同种商品特征的不同表达进行合并，最终得到的结果会出现较大偏差。

语义相似度衡量量化两个词语之间的近似指数，商品特征提取会提取出两个或多个相类似的商品特征，需要进行合并，通过计算两个词语的语义相似度来计算近似指数，如果两个商品特征之间的近似指数大于某个设定的临界值时，就进行合并，采用基于语义词典的方法计算语义相似度，计算方法如式3所示：

3.感情词抽取

通过观察消费者对线上评论中的表述方式，在商品特征的前后会出现一个表达消费者态度的感情词，且绝大部分的感情词都是形容词或副词。当商品特征词提取后，对一些特殊的感情词替换为常规的同义感情词，并对评论数据集中含有商品特征词的句子进行感情词抽取。

依次遍历消费者的线上评论记录，根据提取到的商品特征，结合感情词和特征词出现顺序的指定规则，获取商品特征对应的感情词，当感情词的前面有否定词修饰时，所要表达的感情极性会发生改变，通过统计感情词的前后否定词出现的次数分析消费者的真实感情，当为奇数个时，pola＝-1，当为偶数个时，pola＝1。

4.感情数值化

判断一个词汇的感情倾向通过判断修饰这个词汇的感情词语的极性，感情词典是包含感情色彩的词语、短语或者句子的集合，根据感情词典判断一个词汇的感情倾向，采用HowNet来对线上商品评论中的感情词进行感情倾向分析，通过计算感情词的褒贬值，进而判断出感情词的感情倾向，感情词的褒贬值范围在[-1，1]之间，当该值大于0时，该感情词倾向于褒义，当该值小于0时，该感情词倾向于贬义。

义原则是汉语中最小的、不能在被分割的单位，每个词语都是有一系列义原所组成，语义相似度衡量量化的是两个词语间的相似程度，通过计算感情词和基准词中褒贬词汇的语义相似度来判断感情词的褒贬倾向。

从HowNet中选取W对基准词来判断感情词的倾向，基准词形式为{positive₁,negative₁；positive₂,negative₂；……positive_m,negative_m}，用q_i表示基准词中的褒义词汇，m_i表示基准词中的贬义词汇，Orient(word)表示词汇word的感情倾向值，则词语word的感情倾向Orient(word)计算方法如式4所示：

其中Simi(q_i，word)是指词语word和基准词中褒义词汇q_i的语义相似度，Simi(m_i，word)是词语word和基准词中贬义词汇m_i的语义相似度，通过计算两者之间的差值和默认临界值0的大小关系，即可判定词语word的感情倾向，将商品特征-感情对中感情极性数值化，采用{-1,0,1}表示感情的贬义、中性和褒义。

5.构建商品特征-感情对

通过上面的几个步骤，提取出商品的特征，抽取出对应的感情词并数值化，便可对每个消费者构造出其所评价的商品特征-感情对，形式如下所示：消费者v对商品u的评论为A_uv＝{(“特征类别一”,“1”),(“特征类别二”,“-1”)}。

(三)商品特征-感情对提取结果

假设有三个消费者A、B、C，其中消费者A对商品x的评论为A_ax＝{("特征类别一","1"),("特征类别二","1")}，消费者A对商品y的评论为A_ay＝{("特征类别一","0"),("特征类别二","1"),("特征类别三","-1")}，消费者B对商品x的评论为A_bx＝{("特征类别一","1"),("特征类别二","0"),("特征类别三","-1")}，消费者B对商品y的评论为A_by＝{("特征类别一","1"),("特征类别三","1")}，消费者C对商品x的评论为A_cx＝{("特征类别二","1"),("特征类别三","1")}，消费者C对商品y的评论为A_cy＝{("特征类别二","1"),("特征类别三","1")}。

二、基于偏好程度衡量量化消费者相似性

评分信息不能真正传达消费者对商品的真实感情，采取新方式表示消费者对商品的偏好程度。本发明已经构造出消费者的商品特征-感情对，通过计算得到消费者对商品特征的关注度和挑剔度，进而转化为消费者对商品特征的偏好度，最终改进协同过滤推荐算法，通过偏好程度来衡量量化消费者之间的近似指数。

计算消费者对商品的偏好程度，更好的将商品推荐给每一个不同的消费者，消费者对商品的偏好程度通过消费者对商品特征的评价表示，具体通过本发明提出的三项指标和两项规则表示。

(1)三项指标：

第三指标，偏好程度-Pref：衡量量化消费者对商品特征的偏好程度，由消费者对商品特征的关注指数和挑剔指数共同表示。

(2)两项规则：

则表明该消费者v对特征g_i的关注程度大于大部分消费者；

则表明该消费者v对于特征g_i的挑剔程度高于大部分消费者，即该消费者v对此商品特征g_i要求较高，较为挑剔。

其中，T_i(v)表示消费者v对某商品特征g_i的平均评价次数，

表示某商品特征g_i的总平均好评率。

(一)关注指数和挑剔指数衡量量化

消费者v对商品特征g_i的关注指数Conc(v，g_i)，计算方法如式5所示：

消费者v对商品特征g_i越挑剔，Pick(v，g_i)的值越大。

(二)消费者对商品特征的偏好程度衡量量化

基于消费者v对商品特征g_i的关注指数和挑剔指数，得出消费者v对商品特征g_i的偏好程度，计算方法如式7所示：

Pref(v，g_i)＝Conc(v，g_i)×Pick(v，g_i) 式7

当Pref(v，g_i)＞0时，消费者v对商品特征g_i较为挑剔，且Pref(v，g_i)值越大，消费者u的要求越苛刻；当Pref(v，g_i)＜0时，则相反。

(三)消费者近似指数衡量量化

与基于消费者的协同过滤推荐算法不同的是，本发明采用的不是消费者对商品的购买行为，而是根据消费者对商品特征的偏好程度来计算消费者之间的近似指数，将消费者v对商品特征的偏好程度表示为向量Q_v＝(q_v1，q_v2，......，q_vn)，其中q_vi表示消费者v对商品的第i个特征的偏好程度，采用向量空间余弦近似指数计算两个向量间相似度，消费者v和u之间的相似度Simi_vu表示为式8：

θ为向量空间夹角。

三、消费者对商品的兴趣指数

(一)消费者对购买商品的兴趣指数

t_vi衡量量化消费者v对商品i的兴趣程度，本发明通过消费者v对商品i的评价中提取商品特征的评价的平均值衡量量化，计算方法如式9所示：

其中，M表示消费者v对商品i的评价中所提取的商品特征总数，1＜j＜M，stp_j_v表示消费者v对商品i的特征评价值。

(二)消费者对推荐商品的兴趣指数

根据得到消费者与消费者之间的相似度，通过改进的协同过滤推荐算法，得到目标消费者的相似消费者集，进而向目标消费者推荐商品，消费者v对商品i的兴趣指数InR(v,i)为式10:

(三)电商产品推荐

消费者对推荐商品兴趣指数的具体算法为：

与技术协同过滤推荐算法不同，本发明不是通过消费者对物品购买行为或评分记录来判断消费者之间的近似指数，而是根据消费者对商品特征的偏好程度(式7)，即通过关注指数(式5)和挑剔指数(式6)共同来衡量量化消费者之间的近似指数(式8)。同时，本发明对推荐效果的判定是以消费者对商品特征的兴趣指数为依据，如以上算法所示。

本发明利用爬虫程序抓取一定规模的电商线上文本评论数据集，通过观察和解析，数据集中存在一定的噪声数据，需要对数据集中的噪声数据进行清洗和剔除的前置处理操作，然后是本发明的关键：商品特征-感情对的提取和改进协同过滤推荐算法，对于商品特征-情感对的提取，实现过程是分别提取商品特征，并抽取相应的感情词并数值化，改进协同过滤推荐算法则提出一种衡量用户之间相似性的计量方式，通过用户对产品的关注指数和挑剔指数表示用户对商品的偏好程度和兴趣程度，进而判断用户之间的相似性，流程图如图3所示。

Claims

1.线上文本评论驱动的电商意见挖掘推荐***，其特征在于，将线上文本评论中的意见挖掘和协同过滤推荐算法分别改进后融合构建模型，应用于定制化电商推荐***中，主要包括：首先基于相关关系规则挖掘法，对线上商品评论中的商品特征进行提取；然后根据提取的商品特征来抽取对应的感情词，并通过感情词典法加以数值化解析衡量，得到消费者的商品特征-感情对；改进协同过滤推荐算法，重新定义一种计算消费者之间近似指数的方法，基于商品特征，通过消费者对商品特征的关注指数和挑剔指数衡量分析消费者对商品特征的偏好程度，进而计算不同消费者之间的近似指数；

2.根据权利要求1所述的线上文本评论驱动的电商意见挖掘推荐***，其特征在于，商品特征-感情对的衡量量化：采取无监督学习方法，具体采用基于相关关系规则挖掘方法提取商品特征，并结合统计方法抽取感情词汇，从而实现特征-感情对的提取，完成线上评论中的商品特征和感情词的提取，商品特征-感情对提取分为数据集的前置处理、商品特征提取、特征过滤合并、感情词的抽取与数值化。

3.根据权利要求1所述的线上文本评论驱动的电商意见挖掘推荐***，其特征在于，商品特征-感情对提取方法：商品特征-感情对的提取是从电商平台上的线上评论中提取出的商品特征，并抽取对应的感情态度，基于线上评论数据集中有较多的噪声数据，对数据集进行前置处理，找出并剔除掉噪声数据，本发明采用基于相关关系规则挖掘方法提取线上评论中的商品特征，根据提取出的商品特征，抽取出对应的感情词，并通过感情词典对其进行数值化，得到消费者的商品特征-感情对。

4.根据权利要求1所述的线上文本评论驱动的电商意见挖掘推荐***，其特征在于，商品特征提取过程分为：数据集前置处理和相关关系规则挖掘，文本分词和词性标注的前置处理：

5.根据权利要求4所述的线上文本评论驱动的电商意见挖掘推荐***，其特征在于，相关关系规则挖掘：相关关系规则挖掘是从海量的数据中挖掘出具有某种存在意义的关联关系，电商领域相关关系规则挖掘是找出顾客在商场所购商品之间的关联；

6.根据权利要求1所述的线上文本评论驱动的电商意见挖掘推荐***，其特征在于，对噪声和重复候选特征进行过滤，剔除冗余的候选特征，合并类似的商品特征；

7.根据权利要求6所述的线上文本评论驱动的电商意见挖掘推荐***，其特征在于，商品特征合并：语义相似度衡量量化两个词语之间的近似指数，商品特征提取会提取出两个或多个相类似的商品特征，需要进行合并，通过计算两个词语的语义相似度来计算近似指数，如果两个商品特征之间的近似指数大于某个设定的临界值时，就进行合并，采用基于语义词典的方法计算语义相似度，计算方法如式3所示：

8.根据权利要求1所述的线上文本评论驱动的电商意见挖掘推荐***，其特征在于，基于偏好程度衡量量化消费者相似性：构造出消费者的商品特征-感情对，通过计算得到消费者对商品特征的关注度和挑剔度，进而转化为消费者对商品特征的偏好度，最终改进协同过滤推荐算法，通过偏好程度来衡量量化消费者之间的近似指数；

三项指标：

两项规则：

则表明该消费者v对特征g_i的关注程度大于大部分消费者；

其中，T_i(v)表示消费者v对某商品特征g_i的平均评价次数，

表示某商品特征g_i的总平均评价次数；F_i(v)表示消费者v对某商品特征g_i的平均好评率，F_i表示某商品特征g_i的总平均好评率。

9.根据权利要求1所述的线上文本评论驱动的电商意见挖掘推荐***，其特征在于，关注指数和挑剔指数衡量量化：消费者v对商品特征g_i的关注指数Conc(v，g_i)，计算方法如式5所示：

消费者v对商品特征g_i越挑剔，Pick(v，g_i)的值越大。

10.根据权利要求1所述的线上文本评论驱动的电商意见挖掘推荐***，其特征在于，消费者对商品特征的偏好程度衡量量化：基于消费者v对商品特征g_i的关注指数和挑剔指数，得出消费者v对商品特征g_i的偏好程度，计算方法如式7所示：

Pref(v，g_i)＝Conc(v，g_i)×Pick(v，g_i) 式7

θ为向量空间夹角。