【发明内容】
本申请的多个方面提供一种对象的属性信息的处理方法及装置,用以提高属性分析的可靠性。
本申请的一方面,提供一种对象的属性信息的处理方法,包括:
获取至少一个对象中每个对象的属性信息和所述每个对象的操作信息;
根据所述每个对象的属性信息和所述每个对象的操作信息,建立属性关系网络;其中,
所述属性关系网络由至少两个节点组成,每个节点对应一个属性信息;若两个节点对应的属性信息属于同一个对象,所述两个节点之间具有关联关系;所述关联关系的权重根据所述两个节点对应的属性信息所属的每个对象的操作信息,确定;
根据所述属性关系网络,选择至少一个属性信息,以作为属性组合。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述每个对象的属性信息和所述每个对象的操作信息,建立属性关系网络,包括:
根据所述每个对象的属性信息,确定对应的每个节点和所述每个节点之间的关联关系;
根据所述每个对象的操作信息,确定所述关联关系的权重;
根据所述每个节点、所述每个节点之间的关联关系和所述关联关系的权重,建立所述属性关系网络。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述每个对象的属性信息和所述每个对象的操作信息,建立属性关系网络,还包括:
若属性信息属于预先设置的可删除属性信息,删除所述属性信息对应的节点;
若关联关系的权重小于预先设置的权重阈值,删除所述关联关系;
若与节点具有关联关系的其他节点的数量之和小于预先设置的数量阈值,删除所述节点和所述节点与其他节点之间的关联关系。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述属性关系网络,选择至少一个属性信息,以作为属性组合,包括:
利用社团检测算法,将所述属性关系网络中的节点进行分组,以获得至少两个分组;其中,所述每个分组内的节点之间的紧密性大于所述每个分组内的节点与其他分组内的节点之间的紧密性;
利用骨干提取算法,删除所述至少两个分组中的至少一个关联关系;
若节点与任何节点之间都不存在关联关系,从所述节点所属的分组中删除所述节点。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用社团检测算法,将所述属性关系网络中的节点进行分组,以获得至少两个分组,包括:
将每个节点划分到一个分组,利用获得分组参数;其中,
Q为分组参数;
wi,j为节点i与节点j之间的关联关系的权重,节点j为所述属性关系网络中除了节点i之外的其他节点;
si为节点i的强度,
ci为节点i所属的分组,cj为节点j所属的分组,若ci=cj,则δ(ci,cj)=1;若ci≠cj,则δ(ci,cj)=0;
对每个节点i,分别将节点i与节点j进行合并操作,以划分到同一个分组,获得每次合并之后的分组参数的变化量ΔQ;
选择变化量ΔQ大于0且取值最大的分组结果,将所述分组结果中每个分组作为一个新的节点;其中,该新的节点与其他节点的关联关系的权重为对应的分组内所有节点与该其他节点的关联关系的权重之和;
反复执行所述合并操作,直到分组参数的变化量ΔQ小于或等于0为止,记录此时的分组结果,作为所述至少两个分组。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述操作信息包括点击信息、收藏信息和购买信息中的至少一项。
本申请的另一方面,提供一种对象的属性信息的处理装置,包括:
获取单元,用于获取至少一个对象中每个对象的属性信息和所述每个对象的操作信息;
建立单元,用于根据所述每个对象的属性信息和所述每个对象的操作信息,建立属性关系网络;其中,
所述属性关系网络由至少两个节点组成,每个节点对应一个属性信息;若两个节点对应的属性信息属于同一个对象,所述两个节点之间具有关联关系;所述关联关系的权重根据所述两个节点对应的属性信息所属的每个对象的操作信息,确定;
选择单元,用于根据所述属性关系网络,选择至少一个属性信息,以作为属性组合。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述建立单元,具体用于
根据所述每个对象的属性信息,确定对应的每个节点和所述每个节点之间的关联关系;
根据所述每个对象的操作信息,确定所述关联关系的权重;以及
根据所述每个节点、所述每个节点之间的关联关系和所述关联关系的权重,建立所述属性关系网络。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述建立单元,还用于
若属性信息属于预先设置的可删除属性信息,删除所述属性信息对应的节点;
若关联关系的权重小于预先设置的权重阈值,删除所述关联关系;
若与节点具有关联关系的其他节点的数量之和小于预先设置的数量阈值,删除所述节点和所述节点与其他节点之间的关联关系。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述选择单元,具体用于
利用社团检测算法,将所述属性关系网络中的节点进行分组,以获得至少两个分组;其中,所述每个分组内的节点之间的紧密性大于所述每个分组内的节点与其他分组内的节点之间的紧密性;
利用骨干提取算法,删除所述至少两个分组中的至少一个关联关系;
若节点与任何节点之间都不存在关联关系,从所述节点所属的分组中删除所述节点。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述选择单元,具体用于
将每个节点划分到一个分组,利用获得分组参数;其中,
Q为分组参数;
wi,j为节点i与节点j之间的关联关系的权重,节点j为所述属性关系网络中除了节点i之外的其他节点;
si为节点i的强度,
ci为节点i所属的分组,cj为节点j所属的分组,若ci=cj,则δ(ci,cj)=1;若ci≠cj,则δ(ci,cj)=0;
对每个节点i,分别将节点i与节点j进行合并操作,以划分到同一个分组,获得每次合并之后的分组参数的变化量ΔQ;
选择变化量ΔQ大于0且取值最大的分组结果,将所述分组结果中每个分组作为一个新的节点;其中,该新的节点与其他节点的关联关系的权重为对应的分组内所有节点与该其他节点的关联关系的权重之和;
反复执行所述合并操作,直到分组参数的变化量ΔQ小于或等于0为止,记录此时的分组结果,作为所述至少两个分组。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元所获取的所述操作信息包括点击信息、收藏信息和购买信息中的至少一项。
由上述技术方案可知,本申请实施例通过获取至少一个对象中每个对象的属性信息和所述每个对象的操作信息,进而根据所述每个对象的属性信息和所述每个对象的操作信息,建立属性关系网络,所述属性关系网络由至少两个节点组成,每个节点对应一个属性信息;若两个节点对应的属性信息属于同一个对象,所述两个节点之间具有关联关系,使得能够根据所述属性关系网络,选择至少一个属性信息,以作为属性组合,能够避免现有技术中单一属性的统计结果无法精确定位到具体的对象的问题,从而提高了属性分析的可靠性。
另外,采用本申请提供的技术方案,由于能够获取到网站当前的所有类别的对象的属性信息,因此,基于一个网站的所有类别的对象的属性信息所选择的属性组合,能够有效提高属性分析的覆盖率。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联图像的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对像是一种“或”的关系。
图1为本申请一实施例提供的对象的属性信息的处理方法的流程示意图,如图1所示。
101、获取至少一个对象中每个对象的属性信息和所述每个对象的操作信息。
可选地,在本实施例的一个可能的实现方式中,在101中,所获取的所述操作信息可以包括但不限于点击信息、收藏信息和购买信息中的至少一项,本申请实施例对此不进行特别限定。
例如,具体可以从数据库中提取指定时间内有过操作行为的对象列表,该对象列表可以包含以下几个字段:
对象的标识信息,例如,商品的商品标识product_ID;
对象的操作信息,例如,商品的销售数量product_num;
对象所属的类别,例如,商品的类别标识category_ID;
对象的属性信息,例如,商品的属性信息attribute1、attribute2、……、attributeN,其中,N为自然数。
102、根据所述每个对象的属性信息和所述每个对象的操作信息,建立属性关系网络。
其中,所述属性关系网络由至少两个节点组成,每个节点对应一个属性信息;若两个节点对应的属性信息属于同一个对象,所述两个节点之间具有关联关系;所述关联关系的权重根据所述两个节点对应的属性信息所属的每个对象的操作信息确定。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以根据所述每个对象的属性信息,确定对应的每个节点和所述每个节点之间的关联关系。这样,由于考虑了属性信息之间的关联关系,从而能够为属性分析提供更多的有效信息。
然后,根据所述每个对象的操作信息,确定所述关联关系的权重。具体地,若两个节点对应的属性信息不属于同一个对象,说明所述两个节点之间不具有关联关系,那么,对应的所述关联关系的权重则可以设置为0;若两个节点对应的属性信息属于同一个对象,说明所述两个节点之间具有关联关系,那么,对应的所述关联关系的权重则可以设置为大于0的数值。
至于关联信息的权重取值的大小,具体可以根据该关联关系所对应的两个节点所属的对象的操作信息确定。如果关联关系所对应的两个节点只属于一个对象,那么,该关联关系的权重可以只根据该对象的操作信息确定。例如,将关联关系的权重设置为对象的指定时间内的购买量。如果关联关系所对应的两个节点属于两个对象或两个以上对象,那么,该关联关系的权重可以根据全部对象的操作信息确定。例如,将关联关系的权重设置为全部对象的指定时间内的购买量之和。
最后,则可以根据所述每个节点、所述每个节点之间的关联关系和所述关联关系的权重,建立所述属性关系网络。
这样,这个无向、带权重(weight)的属性关系网络就建立好了。存储该属性关系网络的数据表可以如下:(attributeM,attributeN,weight),其中,N和M为互不相同的自然数。
可以理解的是,在属性关系网络的拓扑图中,具有关联关系的两个节点之间,可以用线连接起来,作为属性关系网络的一条边,不具有关联关系的两个节点之间,没有任何线,如图2所示。在图2中,节点A与节点B之间具有关联关系,节点A与节点C之间不具有关联关系,节点B与节点C之间具有关联关系。节点A与节点B可以互相称为对方的相邻节点,节点B与节点C可以互相称为对方的相邻节点。
可选地,在本实施例的一个可能的实现方式中,在102之后,或者在执行102的过程中,还可以进一步执行如下调整操作,以使得所建立的属性关系网络更加具有统计意义。
例如,调整节点操作,即若属性信息属于预先设置的可删除属性信息,删除所述属性信息对应的节点。如,型号、衣服的尺码。
或者,再例如,调整节点之间的关联关系操作,即若关联关系的权重小于预先设置的权重阈值,删除所述关联关系。
或者,再例如,调整节点操作和调整节点之间的关联关系操作,即若与节点具有关联关系的其他节点的数量之和小于预先设置的数量阈值,删除所述节点和所述节点与其他节点之间的关联关系。其中,与节点具有关联关系的其他节点的数量,还可以称为节点的度值。
可以理解的是,如果一个节点与其他节点之间的关联关系被删除之后,该节点与任一节点都不具有关联关系,那么,则可以将这个节点删除。也就是说,属性关系网络中不能存在孤立的节点,即属性关系网络中的任一节点至少与该属性关系网络中的任一其他节点具有关联关系。
103、根据所述属性关系网络,选择至少一个属性信息,以作为属性组合。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以利用社团检测算法,将所述属性关系网络中的节点进行分组,以获得至少两个分组;其中,所述每个分组内的节点之间的紧密性大于所述每个分组内的节点与其他分组内的节点之间的紧密性。
具体地,基于执行102所建立的属性关系网络,在初始状态下,将每个节点划分到一个分组,利用获得分组参数,记作Q。
其中,
Q为分组参数;
wi,j为节点i与节点j之间的关联关系的权重,节点j为所述属性关系网络中除了节点i之外的其他节点;
si为节点i的强度,
ci为节点i所属的分组,cj为节点j所属的分组,若ci=cj,则δ(ci,cj)=1;若ci≠cj,则δ(ci,cj)=0;
对每个节点i,分别将节点i与节点j进行合并操作,以划分到同一个分组,获得每次合并之后的分组参数的变化量ΔQ。
选择变化量ΔQ大于0且取值最大的分组结果,将所述分组结果中每个分组作为一个新的节点;其中,该新的节点与其他节点的关联关系的权重为对应的分组内所有节点与该其他节点的关联关系的权重之和。
反复执行所述合并操作,直到分组参数的变化量ΔQ小于或等于0为止,记录此时的分组结果,作为所述至少两个分组。
以商品为例,这种划分出来的社团结构即分组能够很好的表征属性信息之间的关联关系,隶属于一个分组的属性信息更容易同时用以描述一类商品,而属性信息之间的关联关系的权重,也量化了这类商品的操作信息所反映的相关内容,例如,热卖程度。
这种社团现象的形成原因有两类:
第一类是这些属性信息共同刻画描述了一种商品的风格,例如,dress这一商品类目下,Style:Sexy&Club、Silhouette:Sheath、Dresses Length:Above Knee&Mini三个属性信息被划分到一个分组中,因为这些词都描述了“性感裙子”这一品类的具体特征,并且销量数据中也验证了这类商品的热销。
第二类是这些属性信息共同反映了热卖商品的常见组成要素,例如,Waistline:Nature、Sleeve Length:Short、Sleeve Style:Puff Sleeve这三个属性的组合,销量数据显示这三个属性间的任意两两组合都取得了不错的销量,也就是拥有这些属性组合的商品更容易获得买家的青睐,这对于指导卖家补货、引导商品走向都具有实际意义。
需要说明的是,在属性信息的社团结构挖掘过程中,同一分组中的所有属性信息并不一定是完全两两相连的,这说明属性组合信息可以突破现有的商品局限,得到具有潜在关联关系的属性,对未来可能热卖的商品提供预测信息。
然后,利用骨干提取算法,删除所述至少两个分组中的至少一个关联关系。
为起到可操作的指导作用,需要对最终的属性信息的分组结果进行筛选,尽可能去除容易引起误导的内容,输出其中最确定的属性组合,并且限定每个属性组合中的属性信息的数量,使得结果具有普遍性和可操作性。
为达到上述目的,采用骨干提取算法对分组结果进行最终处理。骨干提取算法是基于这种具有社团结构的网络特性提出的一种网络精简算法。它能够根据网络中节点与边(即节点之间的关联关系)的统计特性及相互作用关系,分析得到具有重要统计意义的连接关系,从而去除网络中的次要连接关系,提取网络中的骨干部分,既保持原有网络的联通性和结构特性,又突出了网络中的重要连接关系。针对每个分组,采用骨干提取算法,具体可以执行如下操作:
操作一、设定一个节点数量阈值N*,以保证采用骨干提取算法之后,每个分组中的节点数量小于或等于节点数量阈值N*。当操作五输出的分组中的节点数量小于或等于节点数量阈值N*时,对该分组的筛选结束,进入下一个分组的筛选步骤。
操作二、设定一个异质系数阈值集合Ψ,该异质系数阈值集合Ψ中包含多个异质系数阈值α*。一般来说,异质系数阈值α*为较小的实数,例如,10-3、10-6、10-10等。针对每个异质系数阈值α*,可以执行操作三、操作四和操作五。为保证分组中的节点数量可达到满节点数量足阈值,异质系数阈值集合Ψ中所包含的异质系数阈值α*可以设定为由10-3向10-10递减。
操作三、利用获得每个节点在该节点的全部关联关系中的重要程度,记作pi,j;
其中,
pi,j为节点i在该节点i的全部关联关系中的重要程度;
wi,j为节点i与节点j之间的关联关系的权重,节点j为所述属性关系网络中除了节点i之外的其他节点;
si为节点i的强度,
操作四、根据每个节点在该节点的全部关联关系中的重要程度,利用获得关联关系的异质系数,记作αi,j。
其中,
αi,j为节点i与节点j之间的关联关系的异质系数;
k为节点i的度值,即与节点i具有关联关系的其他节点的数量。
操作五、根据关联关系的异质系数与异质系数阈值,对所述关联关系进行保留处理或删除处理。
具体地,若关联关系的异质系数小于或等于异质系数阈值,说明该关联关系是统计意义上相关边,应该予以保留;若关联关系的异质系数大于异质系数阈值,说明该关联关系不是统计意义上相关边,应该予以删除。由此可以知道,异质系数阈值越小,属性关系网络中所包含的边和节点的数量越少。
最后,若节点与任何节点之间都不存在关联关系,则可以从所述节点所属的分组中删除所述节点。
可以理解的是,如果一个节点与其他节点之间的关联关系被删除之后,该节点与任一节点都不具有关联关系,那么,则可以将这个节点删除。也就是说,属性关系网络中不能存在孤立的节点,即属性关系网络中的任一节点至少与该属性关系网络中的任一其他节点具有关联关系。
本实施例中,通过获取至少一个对象中每个对象的属性信息和所述每个对象的操作信息,进而根据所述每个对象的属性信息和所述每个对象的操作信息,建立属性关系网络,所述属性关系网络由至少两个节点组成,每个节点对应一个属性信息;若两个节点对应的属性信息属于同一个对象,所述两个节点之间具有关联关系,使得能够根据所述属性关系网络,选择至少一个属性信息,以作为属性组合,能够避免现有技术中单一属性的统计结果无法精确定位到具体的对象的问题,从而提高了属性分析的可靠性。
另外,采用本申请提供的技术方案,由于能够获取到网站当前的所有类别的对象的属性信息,因此,基于一个网站的所有类别的对象的属性信息所选择的属性组合,能够有效提高属性分析的覆盖率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图3为本申请另一实施例提供的对象的属性信息的处理装置的结构示意图,如图3所示。本实施例的对象的属性信息的处理装置可以包括获取单元31、建立单元32和选择单元33。其中,获取单元31,用于获取至少一个对象中每个对象的属性信息和所述每个对象的操作信息;建立单元32,用于根据所述每个对象的属性信息和所述每个对象的操作信息,建立属性关系网络;其中,所述属性关系网络由至少两个节点组成,每个节点对应一个属性信息;若两个节点对应的属性信息属于同一个对象,所述两个节点之间具有关联关系;所述关联关系的权重根据所述两个节点对应的属性信息所属的每个对象的操作信息,确定;选择单元33,用于根据所述属性关系网络,选择至少一个属性信息,以作为属性组合。
可选地,在本实施例的一个可能的实现方式中,所述获取单元31所获取的所述操作信息可以包括但不限于点击信息、收藏信息和购买信息中的至少一项,本申请实施例对此不进行特别限定。
例如,所述获取单元31具体可以从数据库中提取指定时间内有过操作行为的对象列表,该对象列表可以包含以下几个字段:
对象的标识信息,例如,商品的商品标识product_ID;
对象的操作信息,例如,商品的销售数量product_num;
对象所属的类别,例如,商品的类别标识category_ID;
对象的属性信息,例如,商品的属性信息attribute1、attribute2、……、attributeN,其中,N为自然数。
可选地,在本实施例的一个可能的实现方式中,所述建立单元32,具体用于根据所述每个对象的属性信息,确定对应的每个节点和所述每个节点之间的关联关系;根据所述每个对象的操作信息,确定所述关联关系的权重;以及根据所述每个节点、所述每个节点之间的关联关系和所述关联关系的权重,建立所述属性关系网络。这样,由于考虑了属性信息之间的关联关系,从而能够为属性分析提供了更多的有效信息。
具体地,若两个节点对应的属性信息不属于同一个对象,说明所述两个节点之间不具有关联关系,那么,对应的所述关联关系的权重则可以设置为0;若两个节点对应的属性信息属于同一个对象,说明所述两个节点之间具有关联关系,那么,对应的所述关联关系的权重则可以设置为大于0的数值。
至于关联信息的权重取值的大小,具体可以根据该关联关系所对应的两个节点所属的对象的操作信息,确定。如果关联关系所对应的两个节点只属于一个对象,那么,该关联关系的权重可以只根据该对象的操作信息确定。例如,将关联关系的权重设置为对象的指定时间内的购买量。如果关联关系所对应的两个节点属于两个对象或两个以上对象,那么,该关联关系的权重可以根据全部对象的操作信息确定。例如,将关联关系的权重设置为全部对象的指定时间内的购买量之和。
这样,这个无向、带权重(weight)的属性关系网络就建立好了。存储该属性关系网络的数据表可以如下:(attributeM,attributeN,weight),其中,N和M为互不相同的自然数。
可以理解的是,在属性关系网络的拓扑图中,具有关联关系的两个节点之间,可以用线连接起来,作为属性关系网络的一条边,不具有关联关系的两个节点之间,没有任何线,如图2所示。在图2中,节点A与节点B之间具有关联关系,节点A与节点C之间不具有关联关系,节点B与节点C之间具有关联关系。节点A与节点B可以互相称为对方的相邻节点,节点B与节点C可以互相称为对方的相邻节点。
可选地,在本实施例的一个可能的实现方式中,所述建立单元32,在执行对应的操作之后,或者在执行对应的操作过程中,还可以进一步执行如下调整操作,以使得所建立的属性关系网络更加具有统计意义。
例如,所述建立单元32还可以进一步用于若属性信息属于预先设置的可删除属性信息,删除所述属性信息对应的节点。如,型号、衣服的尺码。
或者,再例如,所述建立单元32还可以进一步用于若关联关系的权重小于预先设置的权重阈值,删除所述关联关系。
或者,再例如,所述建立单元32还可以进一步用于若与节点具有关联关系的其他节点的数量之和小于预先设置的数量阈值,删除所述节点和所述节点与其他节点之间的关联关系。其中,与节点具有关联关系的其他节点的数量,还可以称为节点的度值。
可以理解的是,如果一个节点与其他节点之间的关联关系被删除之后,该节点与任一节点都不具有关联关系,那么,则可以将这个节点删除。也就是说,属性关系网络中不能存在孤立的节点,即属性关系网络中的任一节点至少与该属性关系网络中的任一其他节点具有关联关系。
可选地,在本实施例的一个可能的实现方式中,所述选择单元33,具体可以用于利用社团检测算法,将所述属性关系网络中的节点进行分组,以获得至少两个分组;其中,所述每个分组内的节点之间的紧密性大于所述每个分组内的节点与其他分组内的节点之间的紧密性;利用骨干提取算法,删除所述至少两个分组中的至少一个关联关系;若节点与任何节点之间都不存在关联关系,从所述节点所属的分组中删除所述节点。
具体地,基于建立单元32所建立的属性关系网络,在初始状态下,所述选择单元33
具体可以用于将每个节点划分到一个分组,利用获得分组
参数,记作Q。
其中,
Q为分组参数;
wi,j为节点i与节点j之间的关联关系的权重,节点j为所述属性关系网络中除了节点i之外的其他节点;
si为节点i的强度,
ci为节点i所属的分组,cj为节点j所属的分组,若ci=cj,则δ(ci,cj)=1;若ci≠cj,则δ(ci,cj)=0;
对每个节点i,分别将节点i与节点j进行合并操作,以划分到同一个分组,获得每次合并之后的分组参数的变化量ΔQ;选择变化量ΔQ大于0且取值最大的分组结果,将所述分组结果中每个分组作为一个新的节点;其中,该新的节点与其他节点的关联关系的权重为对应的分组内所有节点与该其他节点的关联关系的权重之和;以及反复执行所述合并操作,直到分组参数的变化量ΔQ小于或等于0为止,记录此时的分组结果,作为所述至少两个分组。
以商品为例,这种划分出来的社团结构即分组能够很好的表征属性信息之间的关联关系,隶属于一个分组的属性信息更容易同时用以描述一类商品,而属性信息之间的关联关系的权重,也量化了这类商品的操作信息所反映的相关内容,例如,热卖程度。
这种社团现象的形成原因有两类:
第一类是这些属性信息共同刻画描述了一种商品的风格,例如,dress这一商品类目下,Style:Sexy&Club、Silhouette:Sheath、Dresses Length:Above Knee&Mini三个属性信息被划分到一个分组中,因为这些词都描述了“性感裙子”这一品类的具体特征,并且销量数据中也验证了这类商品的热销。
第二类是这些属性信息共同反映了热卖商品的常见组成要素,例如,Waistline:Nature、Sleeve Length:Short、Sleeve Style:Puff Sleeve这三个属性的组合,销量数据显示这三个属性间的任意两两组合都取得了不错的销量,也就是拥有这些属性组合的商品更容易获得买家的青睐,这对于指导卖家补货、引导商品走向都具有实际意义。
需要说明的是,在属性信息的社团结构挖掘过程中,同一分组中的所有属性信息并不一定是完全两两相连的,这说明属性组合信息可以突破现有的商品局限,得到具有潜在关联关系的属性,对未来可能热卖的商品提供预测信息。
为起到可操作的指导作用,需要对最终的属性信息的分组结果进行筛选,尽可能去除容易引起误导的内容,输出其中最确定的属性组合,并且限定每个属性组合中的属性信息的数量,使得结果具有普遍性和可操作性。为达到上述目的,所述选择单元33采用骨干提取算法对分组结果进行最终处理。骨干提取算法是基于这种具有社团结构的网络特性提出的一种网络精简算法。它能够根据网络中节点与边(即节点之间的关联关系)的统计特性及相互作用关系,分析得到具有重要统计意义的连接关系,从而去除网络中的次要连接关系,提取网络中的骨干部分,既保持原有网络的联通性和结构特性,又突出了网络中的重要连接关系。所述选择单元33可以针对每个分组,采用骨干提取算法,具体可以执行如下操作:
操作一、所述选择单元33设定一个节点数量阈值N*,以保证采用骨干提取算法之后,每个分组中的节点数量小于或等于节点数量阈值N*。当操作五输出的分组中的节点数量小于或等于节点数量阈值N*时,对该分组的筛选结束,进入下一个分组的筛选步骤。
操作二、所述选择单元33设定一个异质系数阈值集合Ψ,该异质系数阈值集合Ψ中包含多个异质系数阈值α*。一般来说,异质系数阈值α*为较小的实数,例如,10-3、10-6、10-10等。针对每个异质系数阈值α*,可以执行操作三、操作四和操作五。为保证分组中的节点数量可达到满节点数量足阈值,异质系数阈值集合Ψ中所包含的异质系数阈值α*可以设定为由10-3向10-10递减。
操作三、所述选择单元33利用获得每个节点在该节点的全部关联关系中的重要程度,记作pi,j;
其中,
pi,j为节点i在该节点i的全部关联关系中的重要程度;
wi,j为节点i与节点j之间的关联关系的权重,节点j为所述属性关系网络中除了节点i之外的其他节点;
si为节点i的强度,
操作四、所述选择单元33根据每个节点在该节点的全部关联关系中的重要程度,利用获得关联关系的异质系数,记作αi,j。
其中,
αi,j为节点i与节点j之间的关联关系的异质系数;
k为节点i的度值,即与节点i具有关联关系的其他节点的数量。
操作五、所述选择单元33根据关联关系的异质系数与异质系数阈值,对所述关联关系进行保留处理或删除处理。
具体地,若关联关系的异质系数小于或等于异质系数阈值,说明该关联关系是统计意义上相关边,应该予以保留;若关联关系的异质系数大于异质系数阈值,说明该关联关系不是统计意义上相关边,应该予以删除。由此可以知道,异质系数阈值越小,属性关系网络中所包含的边和节点的数量越少。
可以理解的是,如果一个节点与其他节点之间的关联关系被删除之后,该节点与任一节点都不具有关联关系,那么,则可以将这个节点删除。也就是说,属性关系网络中不能存在孤立的节点,即属性关系网络中的任一节点至少与该属性关系网络中的任一其他节点具有关联关系。
本实施例中,通过获取单元获取至少一个对象中每个对象的属性信息和所述每个对象的操作信息,进而由建立单元根据所述每个对象的属性信息和所述每个对象的操作信息,建立属性关系网络,所述属性关系网络由至少两个节点组成,每个节点对应一个属性信息;若两个节点对应的属性信息属于同一个对象,所述两个节点之间具有关联关系,使得选择单元能够根据所述属性关系网络,选择至少一个属性信息,以作为属性组合,能够避免现有技术中单一属性的统计结果无法精确定位到具体的对象的问题,从而提高了属性分析的可靠性。
另外,采用本申请提供的技术方案,由于能够获取到网站当前的所有类别的对象的属性信息,因此,基于一个网站的所有类别的对象的属性信息所选择的属性组合,能够有效提高属性分析的覆盖率。
可以理解的是,采用本申请提供的技术方案,所输出的属性组合,能够对网站的运营方、以及网站的用户起到一个指导作用。所建立的属性关系网络的节点是对象的属性信息,边是属性信息之间的关联关系,由于关联关系的权重由对象的操作信息决定,因此,可以根据指导需求来选择操作信息。
例如,如果需要进行备货、选货等指导,或者需要进行广告投放等指导,或者需要进行购买等指导,等,可以将操作信息设定为对象的购买信息即对象的销售信息。
或者,再例如,如果需要进行***等指导,可以将操作信息设定为对象的收藏信息。
或者,再例如,如果需要进行页面完善等指导,可以将操作信息设定为对象的点击信息。
本申请对操作信息的设置不进行特别限定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所展现或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元展现的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。