CN108648038B

CN108648038B - 一种基于子图挖掘的信用炒作与恶意评价识别方法

Info

Publication number: CN108648038B
Application number: CN201810335527.8A
Authority: CN
Inventors: 李建敦
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2022-01-14
Anticipated expiration: 2038-04-13
Also published as: CN108648038A

Abstract

本发明提供了一种基于子图挖掘的信用炒作与恶意评价识别方法，其特征在于，包括以下步骤：将对商品的评价划分为好评及差评；建立每个商品的半二类网络；对半二类网络进行分析。本发明基于在线商品评价，能够在海量评价数据集中，基于商品间的特定联系构建半二分类网络，并通过网络统计分析与子图挖掘实现信用炒作与恶意评价的识别。此方案对于规范电商平台的正常运营、促进商品公平竞争、为消费者提供正确的购物指引等都具有实践意义与应用价值。

Description

一种基于子图挖掘的信用炒作与恶意评价识别方法

技术领域

本发明面向在线商品的评价数据，旨在通过含多重连接的半二类网络建模与子图挖掘来识别不合理评价，包括信用炒作与恶意评价，从而规范商品易后反馈与商品推荐市场，促进互联网环境的公平公正化建设，属于网络节点发现或模式识别领域。

背景技术

目前已有多篇关于对信用炒作与恶意评价进行识别的方法。例如：申请号为CN201510314327.0的专利，利用信息传递技术扩大有效信用评分，降低虚假评价，让货主会员(为方便说明下文以货主会员A代称)得到更贴合自身需求的车辆会员(为方便说明下文以车辆会员C代称)信用状况。从平台数据库提取货主会员A的注册信息、交易信息和朋友圈信息等相关基本交互信息，挖掘货主会员A关于车辆会员C的直接信任圈，包括与车辆会员C发生过交易行为的货主会员A的朋友圈、与车辆会员C发生过交易行为的资历老信用等级高的大V货主(包括平台运货量大且稳定的大企业、高级会员等大会员货主)两类，这两类货主会员与货主会员A有着直接信任关系，他们的评价信息是货主会员A最具参考价值的信用信息。

申请号为CN201710889243.9的专利，公开了一种防刷单的方法，包括服务器和客户端，该方法应用于服务器。判断所述指定书籍的点击通过率与该书籍的近期购买量是否成正相关关系；若否，则确定所述异常行为属于刷单行为；若是，则确定所述异常行为不属于刷单行为。”

申请号为CN201710719176.6的专利，公开了以下技术方案：刷单行为是指书籍的作者或其他利益所得者通过聘人来刷指定书籍的点击量，提升该书籍所在书籍区块的点击通过率，进而使得排在较靠后的书籍区块的点击通过率比靠前的书籍区块的点击通过率高很多，从而使分布曲线的整体趋势与衰减类型的函数曲线的整体趋势不符。

申请号为CN201510555824.X的专利，公开了以下技术方案：根据软件的评论信息的相似度或信息增益，计算软件的评论信息的平均相似度或平均信息熵；根据同一类别的每个软件各自对应的平均相似度或平均信息熵，计算得到该同一类别的软件对应的概率统计分布参数；根据该同一类别的软件对应的概率统计分布参数设置同一类别的软件对应的判定阈值范围，该判定阈值范围是用于判定小概率事件的阈值范围；当待检测软件的评论信息的平均相似度或平均信息熵落入该待检测软件所属类别的软件对应的判定阈值范围时，则判定该待检测软件是刷好评推广作弊软件。

申请号为CN201710889243.9的专利、申请号为CN201510555824.X的专利以及申请号为CN201510555824.X的专利通过一到两个物理量的全局相关性或分布不同来甄别炒作评价。

申请号为CN201710520270.9的专利，公开了以下技术方案：本发明的目的在于克服现有技术的不足，提供能有效地避免刷单刷好评或恶意差评给评价排序带来的影响、利于用户在消费时对商品的质量有个较明确的认识、有助于电商平台对商户的管理、一定程度上保证出现在该平台上的商品质量、利于电商平台的健康发展的基于区块链的评价排序方法。

此专利通过改进评价方式，即去中心化、引入交易成本，来避免出现不实好评，其价值体现在防患阶段。

申请号为CN201610048237.6的专利公开了如下技术方案：根据时间窗win内的多次评价满意度，用户实体c_i对服务实体s_j的反馈可信度由以下公式得出：时间窗win内与用户实体c_i进行交易的服务实体集为：P＝{s₁,……,s_n}，用户实体c_i的最终评价可信度为：根据所有用户对服务的交易信任度能够得出此服务实体的信誉度，将之前求得的用户评价可信度作为相应的权重。

申请号为CN201510784757.9的专利公开了如下技术方案：根据商品类型树以及各个用户之间的交易商品信息计算每个信任情境组合的相似度；根据各个用户对各自交易商品的商品特征的评价信息计算每两个用户对共同交易伙伴的信任倾向之间的相似度；根据所述每一组信任情境的相似度以及所述每两个用户对共同交易伙伴的信任倾向之间的相似度计算每组潜在交易组合之间的间接信任度；根据所述每组潜在交易组合之间的间接信任度确定推荐关系；结合用户之间购买商品类型的相似性以及用户对商品的评价的相似性来考虑用户之间的推荐是否可信，能够抵恶意评价的欺骗攻击、降低信任风险以及提升推荐的个性化。

申请号为CN200810171773.0的专利公开了如下技术方案：将所有的针对一个评价对象的原始信用数据分为两个集合，其中，任意一个集合中的任意一个原始信用数据与同集合中的其他原始信用数据之间的差异不大于所述任意一个集合中的任意一个原始信用数据与另一个集合中的原始信用数据之间的差异；根据预先设置的规则，过滤掉其中一个集合中的所有原始信用数据，保留另一个集合中的所有原始信用数据。

申请号为CN201610048237.6的专利、申请号为CN200810171773.0的专利及申请号为CN200810171773.0的专利皆从评价数据入手，主要是通过设置信任函数来判定某差评是否是恶意的。

对比分析发现，现有技术主要从防范与甄别两个角度入手，而甄别的主要技术手段是分析评价文本并监测其信息增益，并以信息熵均值为阈值作过滤与识别。文本分析属于自然语言处理范畴，一般需要借助支持向量机(SVM)、深度学习等模型，可解释性差而复杂度高。

发明内容

本发明的目的是：降低对信用炒作与恶意评价进行识别的算法的复杂度，同时提高识别精度。

为了达到上述目的，本发明的技术方案是提供了一种基于子图挖掘的信用炒作与恶意评价识别方法，其特征在于，包括以下步骤：

第一步、将对商品的评价(五星或好中差三级)划分为好评G及差评B，第r位评价者对第i个商品的好评为E_irG，第r位评价者对第i个商品的差评为E_irB，将E_irG与E_irB分别赋值为不同的常数；

获得每个商品的同源商品、同类商品及互补商品；

第二步、建立所有评价者与商品的半二类网络，包括评价者节点及商品节点，依据评价者对同源商品、同类商品及互补商品的好评G及差评B，建立评价者节点及商品节点之间的连接；

第三步、对半二类网络进行分析，获得：第i个商品的期望评价E_i，E_i＝k∑_rE_irG+(1-k)∑_rE_irB，k为好评的权重；第i个商品的好评差评比R_i；第r位评价者的总体期望评价E_r，E_r＝k∑_iE_irG+(1-k)∑_iE_irB；第r位评价者的好评差评比R_r；第r位评价者对第i个商品的重复评价次数为C_ire，若：

1)给定第i个商品及其期望评价E_i，若第r位评价者给出评价e满足||E_i-e||>θ_i，θ_i为预先设定的阈值，则将第r位评价者判定为疑似不合理评价者；

2)给定第r位评价者及其对第i个商品的评价e，若C_ire>θ_ir，θ_ir为预先设定的阈值，则将为第r位评价者判定为疑似不合理评价者；

3)给定第r位评价者及其好评差评比R_r，若R_r>θ_r，θ_r为预先设定的阈值，则将为第r位评价者判定为疑似信用炒作者；

4)给定第r位评价者及其好评差评比R_r，若1/R_r>1/θ_r，θ_r为预先设定的阈值，则将为第r位评价者判定为疑似恶意评价者；

第四步、子图挖掘

1)对于判定为疑似信用炒作者的评价者，统计与该评价者有关的所有LGS型子图，LGS型子图为评价者节点对商品节点中当前商品及同源商品均作出好评G的L形连接关系的子图，若疑似信用炒作者评价过的商品的数量大于2，且其LGS型子图的个数大于θ_L时，θ_L为预先设定的阈值，将疑似信用炒作者判断为信用炒作者；

2)对于判定为疑似恶意评价者的评价者，统计与该评价者有关的所有LBA型子图，LBA型子图为评价者节点对商品节点中当前商品及同类商品均作出差评B的L形连接关系的子图，若疑似恶意评价者评价过的商品的数量大于2，且其LBA型子图的个数大于θ_L时，将疑似恶意评价者判断为恶意评价者；

3)对于判定为疑似不合理评价者的评价者，统计与该评价者有关的LGC型子图，LGC型子图为评价者节点对商品节点中同类商品及互补商品均作出好评G的L形连接关系的子图，若疑似不合理评价者评价过的商品的数量大于2，且其LGC型子图的个数大于θ_L时，将疑似不合理评价者判断为不合理评价者；

4)对于任意评价者，统计与该评价者有关的所有ΔGGS型子图，ΔGGS型子图为两个具有同源关系的商品同时被同一个评价者节点给予好评G的三角形子图，若ΔGGS型子图的个数大于θ_Δ时，θ_Δ为预先设定的阈值，将当前评价者判定为信用炒作者；

5)对于任意评价者，统计与该评价者有关的所有ΔBBA型子图，ΔBBA型子图为两个具有同类关系的商品同时被同一个评价者节点给予差评B的三角形子图，若ΔBBA型子图的个数大于θ_Δ时，将当前评价者判定为恶意评价者；

6)对于任意评价者，统计与该评价者有关的所有ΔGBA型子图，ΔGBA型子图为两个具有同类关系的商品同时被同一个评价者节点评价，其中一个为好评G，另外一个为差评B的三角形子图，若ΔGBA型子图的个数大于θ_Δ时，将当前评价者判定为信用炒作者兼恶意评价者。

优选地，在所述第四步中，判定疑似不合理评价者是否为不合理评价者时，仅统计疑似不合理评价者评价过的非人气商品的数量，若当前商品的所有评价者数量小于预先设定的阈值时，该商品即为非人气商品。

优选地，在所述第四步中，各子图的枚举与计数采用无共享类间连接机制，即同一连接(评价本身)如果被当作子图的一部分枚举过了，那么它将不会再被看作其他子图的一部分。

商品易后评价的质量与数量是吸引新买家的重要因素，也是电商平台上众多买家与产品开展公平竞争的有力保障。然而在利益驱动与海量数据的掩护下，不合理评价现象时有发生，严重扰乱了在线经营的正常秩序，妨害了互联网产业的健康发展，因此不合理评价识别具有重要的现实意义与产业价值。然而，考虑到商品及买家的多样性、网络的开放性、评价的自由度、评价数据的规模等，不合理评价识别是个颇具挑战的问题。

本发明立足离散粗评，而不是评价文本，即五星或好-中-差评，因此算法复杂度低；同时，为了提升识别精度，考察了不同商品间的异构相关性，来构建商品-评价者二类网络，并据此挖掘不良商家的多种炒作模式。

本发明具有如下特点：

1)基于商品与评价的二类网络建模。显然，商品与评价可通过二类网络建模。特别地，信用炒作的直接目的是提升评价规模与好评率，从而主观拔高自家商品形象，吸引更多的消费者，因此商品的生产商、经销商等是重要信息；另外，考虑到套餐式“蹭热度”的炒作可能，商品间的可替代与可搭配同样需要分别处理。因此，此二类网络是半二类网络，即连接不仅存在于类间，商品类内部亦含相关性连接。

2)面向半二类网络的信用炒作模式挖掘。信用炒作具有多种模式，比如抬高自己、诋毁同行、搭配热销等，因此信用炒作的识别可以通过局部上下文结构，即网络子图来定义与挖掘。

针对现有的不合理商品评价识别方法在可解释性与算法复杂性方面的不足，本发明主要通过以下几点来克服。

1)基于粗评的半二类网络建模。此举能够有效避开文本处理与分析的高昂开销，同时评价者对于商品的星级评价依然能够反映其对商品的喜好程度，更重要的是具有序关系的星级评价能更好反映出评价的异构性。同时，在二分类基础上补充商品间的特定相关性，如同源、竞争与互补等，对于不合理评价的揭示具有显著作用。

2)基于半二类网络的统计分析与子图挖掘。基于半二分类评价网络中的统计分析，可以掌握当前商品与评价的平均水平，结合网络局部子图的枚举，能够借评价上下文有效筛选出评价者评价时的不正当目的，如信用炒作与恶意评价等。

本发明基于在线商品评价，能够在海量评价数据集中，基于商品间的内在相关性构建半二类网络，并通过网络统计分析与子图挖掘实现信用炒作与恶意评价的识别。此方案对于规范电商平台的正常运营、促进商品公平竞争、为消费者提供正确的购物指引等都具有实践意义与应用价值。

附图说明

图1为含多重连接的半二类网络示意图；

图2(a)至图2(f)为相关子图，其中，图2(a)为LGS型子图，图2(b)为LBA型子图，图2(c)为LGC型子图，图2(d)为ΔGGS型子图，图2(e)为ΔGBA型子图，图2(f)为ΔBBA型子图；

图3(a)至图3(c)为LGC子图计数示例。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

不合理评价主要有信用炒作与恶意评价两种。前者的主要形式有自购自评、委托好评等买卖双方在非“真实”交易情况下形成的虚假好评；后者指以故意伤害为目的而给出“中评”或“差评”，可能是同行之间的恶意评价，也可能是评价者故意对商家做出威胁，或提出不合理的要求，如退款、降价等。本发明旨在通过半二类网络的建模与分析，面向两种不合理对评价做出鉴定，具体包括以下三个步骤。

步骤一、半二类网络建模：

在商品-评价者关系中，商品与评价者即两类不同的节点。他们具有“评价”关系，本发明只关心离散粗评，即五星或“好-中-差”三级评价。为了便于形式化处理，可以进一步地将评价以好评G及差评B来区分，比如四星(含)评价以上为好评G，其他为差评B。好评G赋值为1，差评B赋值为-1。需注意的是，评价本身以个体而非集聚方式存在，即如果同一评价者对同一商品多次评价，那么连接就是多重的，因此该网络是含多重连接的半二类网络。

同时，鉴于商品间的多种相关性，本发明提取其中最重要的三类关系，即同源S(如小米手机与小米电视)、同类A(如小米手机与华为手机)与互补C关系(手机与手机壳)。与离散评价数据类似，此三类关系在电商平台上得到了广泛采集，比如亚马逊。最终生成的半二类网络如图1所示，在半二类网络中，既有评价者对商品的评价关系，也有商品类别内部的异构相关性。

步骤二、网络分析：

建模完成后，对该半二类网络进行统计分析，以获取一般商品与常规评价者的期望，包括：第i个商品的期望评价E_i，E_i＝k∑_rE_irG+(1-k)∑_rE_irB，k为好评的权重；第i个商品的好评差评比R_i；第r位评价者的总体期望评价E_r，E_r＝k∑_iE_irG+(1-k)∑_iE_irB；第r位评价者的好评差评比R_r；第r位评价者对第i个商品的重复评价次数为C_ire，若：

2.1)给定第i个商品及其期望评价E_i，若第r位评价者对它的评价e满足||E_i-e||>θ_i，θ_i为预先设定的阈值，则将第r位评价者判定为疑似不合理评价者；

2.2)给定第r位评价者及其对第i个商品的评价e，若C_ire>θ_ir，θ_ir为预先设定的阈值，则将为第r位评价者判定为疑似不合理评价者；

2.3)给定第r位评价者及其好评差评比R_r，若R_r>θ_r，θ_r为预先设定的阈值，则将为第r位评价者判定为疑似信用炒作者；

2.4)给定第r位评价者及其好评差评比R_r，若1/R_r>1/θ_r，θ_r为预先设定的阈值，则将为第r位评价者判定为疑似恶意评价者。

步骤三、子图挖掘：

根据半二类网络的独特性，抽取仅由三个节点构成的网络子图共17种，其中6种与不合理评价识别相关，如图2(a)至图2(f)所示。接下来，就在首轮标记的基础上进行后续操作。

3.1)对于判定为疑似信用炒作者的评价者，统计与该评价者有关的所有LGS型子图，LGS型子图为评价者节点对商品节点中当前商品及同源商品均作出好评G的L形连接关系的子图，若疑似信用炒作者评价过的商品的数量大于2，且其LGS型子图的个数大于θ_L时，θ_L为预先设定的阈值，将疑似信用炒作者判断为信用炒作者。即当疑似信用炒作者对同源的商品广泛给予好评时，那么确定其为信用炒作者。

3.2)对于判定为疑似恶意评价者的评价者，统计与该评价者有关的所有LBA型子图，LBA型子图为评价者节点对商品节点中当前商品及同类商品均作出差评B的L形连接关系的子图，若疑似恶意评价者评价过的商品的数量大于2，且其LBA型子图的个数大于θ_L时，将疑似恶意评价者判断为恶意评价者。即当疑似恶意评价者对具有直接竞争关系的多个商品均给予差评时，暗示该评价者倾向于某个局外竞争商品，是通过故意贬低对手来实现的，那么确定其为恶意评价者。

3.3)对于判定为疑似不合理评价者的评价者，统计与该评价者有关的所有LGC型子图，LGC型子图为评价者节点对商品节点中同类商品及互补商品均作出好评G的L形连接关系的子图，若疑似不合理评价者评价过的商品的数量大于2，且其LGC型子图的个数大于θ_L时，将疑似不合理评价者判断为不合理评价者。即该评价者为低人气商品点赞次数过多，而此商品与某款人气高的商品具有互补或搭配关系时，判定其为信用炒作者。此处计算需注意，仅计算评价者对非人气商品的相对高评价，示例如图3(a)至图3(c)。其中，节点的大小表示节点的人气，可以通过评价者个数来定义。

3.4)对于任意评价者，统计与该评价者有关的所有ΔGGS型子图，ΔGGS型子图为两个具有同源关系的商品同时被同一个评价者节点给予好评G的三角形子图，若ΔGGS型子图的个数大于θΔ时，θΔ为预先设定的阈值，将当前评价者判定为信用炒作者。

3.5)对于任意评价者，统计与该评价者有关的所有ΔBBA型子图，ΔBBA型子图为两个具有同类关系的商品同时被同一个评价者节点给予差评B的三角形子图，若ΔBBA型子图的个数大于θΔ时，将当前评价者判定为恶意评价者；

3.6)对于任意评价者，统计与该评价者有关的所有ΔGBA型子图，ΔGBA型子图为两个具有同类关系的商品同时被同一个评价者节点评价，其中一个为好评G，另外一个为差评B的三角形子图，若ΔGBA型子图的个数大于θΔ时，将当前评价者判定为信用炒作者兼恶意评价者。

需要注意的是，当评价数据量较大时，网络子图的枚举与计数应采用无共享类间连接机制，以降低计算复杂度。

为了易于推广与应用，此处给出一则具体的实施例。给定商品评价模型见表1和表2，据此表主要完成网络分析与子图挖掘两个步骤。

表1半二类网络类间连接情况

评价者	商品	评价星级	归一化	重复次数
					1	I	5	G	2
2	I	5	G	5
					3	I	4	G	1
4	I	5	G	3
					5	I	5	G	8
5	I	3	B	1
					6	I	5	G	4
7	I	1	B	3
					8	I	3	B	1
9	I	5	G	2
					1	II	3	B	1
3	II	1	B	1
					5	II	1	B	1
7	II	5	G	5
					9	II	2	B	2
2	III	4	G	2
					4	III	5	G	9
6	III	5	G	6
					8	III	1	B	1

表2半二类网络类内连接情况

编号	商品	商品	关系
				#1	I	II	A
#2	II	III	C
				#3	I	III	S

按照方法要求，依次计算商品的期望评价E_i、好评差评比R_i，评价者总体期望评价E_r、好评差评比R_r等。其中好评与差评分别归一化为1和－1，好评的权重设为k＝0.4，评价距离阈值θ_i＝1，重复次数阈值θ_ir＝5，好评比阈值θ_r＝5。详细数据见表3。

表3网络统计分析

节点	期望评价	好评差评比	重复次数期望	不合理	信用炒作	恶意评价
							1	0.067	2	1.5			√
2	0.4	∞	3.5		√
							3	0.1	1	1			√
4	0.4	∞	6	√	√
							5	0.2	4	3.3			√
6	0.4	∞	5		√
							7	0.025	1.67	4			√
8	-0.6	0	1			√
							9	0.1	1	2			√
I	0.167	5	-	5、7、8	-	-
							II	-0.1	1	-	7	-	-
III	0.341	16	-	8	-	-

根据首轮标记规则，分别为评价者2、4和6添加疑似信用炒作标签，为评价者1、3、4、7、8和9添加疑似恶意评价标签，为评价者4、5、7和8添加疑似不合理评价标签。

针对半二类网络中的任意评价者进行子图枚举，相关结果如表4所示。

表4子图分布情况表

节点	不合理	信用炒作	恶意评价	LGS	LBA	LGC/人气	ΔGGS	ΔGBA	ΔBBA
										1		√	1		0	2	0
2		√		0			0	0	0
										3		√	1		0	1	0
4	√	√		0		6	0	0	0
										5	√	√	2	0	0	8	1
6		√		0			0	0	0
										7	√	√	3	0	0	15	0
8	√		√		1	0	0	0	0
										9		√	2		0	4	0

设阈值θ_L＝θ_Δ＝5，那么最终我们判定评价者4为信用炒作者，而评价者5和7均具有双重身份，即信用炒作者与恶意评价者兼而有之。对于识别结果的验证，可以通过评价文本的挖掘来实现。

Claims

1.一种基于子图挖掘的信用炒作与恶意评价识别方法，其特征在于，包括以下步骤：

第一步、将对商品的评价划分为好评G及差评B，第r位评价者对第i个商品的好评为E_irG，第r位评价者对第i个商品的差评为E_irB，将E_irG与E_irB分别赋值为不同的常数；

获得每个商品的同源商品、同类商品及互补商品；

第三步、对半二类网络进行分析，获得：第i个商品的期望评价E_i，E_i＝k∑_rE_irG+(1-k)∑_rE_irB，k为好评的权重；第r位评价者的总体期望评价E_r，E_r＝k∑_iE_irG+(1-k)∑_iE_irB；第r位评价者的好评差评比R_r；第r位评价者对第i个商品的重复评价次数为C_ire，若：

1)给定第i个商品及其期望评价E_i，若第r位评价者对第i个商品给出评价e满足||E_i-e||＞θ_i，θ_i为预先设定的阈值，则将第r位评价者判定为疑似不合理评价者；

2)若C_ire＞θ_ir，θ_ir为预先设定的重复次数阈值，则将为第r位评价者判定为疑似不合理评价者；

3)给定第r位评价者及其好评差评比R_r，若R_r＞θ_r，θ_r为预先设定的阈值，则将为第r位评价者判定为疑似信用炒作者；

4)给定第r位评价者及其好评差评比R_r，若1/R_r＞1/θ_r，θ_r为预先设定的阈值，则将为第r位评价者判定为疑似恶意评价者；

第四步、子图挖掘

2.如权利要求1所述的一种基于子图挖掘的信用炒作与恶意评价识别方法，其特征在于，在所述第四步中，判定疑似不合理评价者是否为不合理评价者时，仅统计疑似不合理评价者评价过的非人气商品的数量，若当前商品的所有评价者数量小于预先设定的阈值时，该商品即为非人气商品。

3.如权利要求1所述的一种基于子图挖掘的信用炒作与恶意评价识别方法，其特征在于，在所述第四步中，各子图的枚举与计数采用无共享类间连接机制。