CN105320778B

CN105320778B - 一种适用于电子商务中文网站商品标签化的方法

Info

Publication number: CN105320778B
Application number: CN201510828440.0A
Authority: CN
Inventors: 沈华楠; 赵亮亮; 姜平; 何学勇
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2019-04-02
Anticipated expiration: 2035-11-25
Also published as: CN105320778A

Abstract

一种适用于电子商务中文网站产品标签化的方法，步骤包括分词词库的构建方法、标签采集的方法及标签标示商品的方法；所谓分词词库的构建方法，指基于对电子商务中文网站内各商品关键词在不同商品描述中的频次统计，保留频次大于3的商品关键词，并从中筛选出商品关键词字数小于等于5的关键词作为词库数据；所谓标签采集方法，指基于已构建的分词词库，通过逆向最大匹配分词算法对电子商务中文网站内所有商品名称进行分词处理；经最大逆向匹配算法的分词处理后，选取商品经分词处理后形成的最后一个词作为该商品的商品标签；最终，这些所有标签组成标签数据集合；标签标示商品的方法，指通过利用文本挖掘算法，寻找商品属性和标签之间的关系。

Description

一种适用于电子商务中文网站商品标签化的方法

技术领域

本发明属于计算机互联网领域，特别是涉及一种适用于电子商务中文网站商品标签化的方法。

背景技术

在电子商务中文网站中，用户利用关键词检索商品时，通常是直接检索商品的基本信息，然而由于网站内的商品信息多是由商家自己填写和维护，商家虽会按照网站的商品规则维护商品信息，但仍不能避免两类问题的出现：其一是商品信息作弊的问题，商家为了提供自家商品在商品搜索过程中的曝光率和出现频率，使发布的商品引人注目，使商品购买者能更多地搜索到发布的商品，他们在对商品描述时滥用品牌名称或与本商品不存在关联的关键词，从而导致商品购买者无法准确地找到需要的商品；其二是商品信息不全面的问题，商家在描述商品时遗漏商品描述的关键信息，包括商品标题、图片、描述等重要信息缺失，而信息缺失将导致用户做商品检索时，网站无法返回更多相关的商品检索结果。

针对商家作弊商品信息的问题，电子商务网站通常设定规则来解决，对那些不符合规则的作弊商品进行降权，然而规则存在一定程度的缺陷，严格的规则可能导致未作弊的商品降权；宽松的规则可能会使防作弊的效果不够明显；在解决商家填写信息不全的问题上，为保证尽可能多地召回相关产品，电子商务网站不惜牺牲检索质量而选择扩大检索商品信息的检索范围，即在多个商品信息字段上做匹配，有时甚至连“商品描述”这类数据量庞大但质量较差的字段都被选用，这种方式虽然能召回更多的商品，但召回的商品并不能令用户满意，进而导致流量大量流失。

发明内容

针对现有技术的不完善，本发明目的是，提供一种适用于电子商务中文网站商品标签化的方法，通过综合分析商品名称和商品属性的信息，提供与商品相关的标签对其标示，以完善电子商务中文网站中的商品信息。这些用以标示商品的标签数据将会在商品搜索过程中作为重要的检索字段参与检索，以保证在召回更多相关商品的同时，也能提升商品检索的准确率。

本发明的技术方案如下，一种适用于电子商务中文网站产品标签化的方法，其特征在于，具体步骤包括分词词库的构建方法、标签采集的方法及标签标示商品的方法；

所谓分词词库的构建方法，指基于对电子商务中文网站内各商品关键词在不同商品描述中的频次统计，保留频次大于3的商品关键词，并从中筛选出商品关键词字数小于等于5的关键词作为词库数据，当长度比较长的商品关键词包含多个短的关键词的时，这些长的词将不会入库；

所谓商品关键词，是指由商家通过网站后台***自由添加的词语，是商家对商品关键特征的描述；

特别地，考虑到电子商务中文网站内商品关键词通常由商品卖家添加，因而从这些关键词中选取简短精炼且高频出现的词列入分词词库中，能最大程度保证分词的准确性；

所谓标签采集方法，指基于已构建的分词词库，通过逆向最大匹配分词算法对电子商务中文网站内所有商品名称进行分词处理；经最大逆向匹配算法的分词处理后，按照汉语语法特点，即在“形容词+名词”的语句形式中，名词位于句末，进而选取商品经分词处理后形成的最后一个词作为该商品的商品标签；最终，这些所有标签组成标签数据集合；

所谓商品名称，是指由商家自行添加的一段对商品的简短文字描述；

所谓标签标示商品的方法，指通过利用文本挖掘算法，寻找商品属性和标签之间的关系。特别地，利用文本挖掘算法的前提是商品属性和标签都具备能体现两者关系且有代表性的内容作为判断依据。商品属性能多方位表明商品特征，如果标签也有自己的特征数据，通过比较两者在特征的相似性，即可确定商品属性和标签之间的相似关系。

进一步的，标签标示商品的方法具体包括的步骤有：

步骤1：标签特征的获取

在标签集合的基础上确定隶属每一个标签的特征信息。如果某个商品的标签出现在某个商品的商品名称中，则默认这个标签与该商品存在相关关系。

按照上述思路，首先筛选出包含某一特定标签词的商品名称，然后根据商品名称找到该商品的商品特征信息数据，统计出所有商品特征信息数据作为该标签的特征信息数据；特别地，商品特征信息数据来自于商品属性信息；

步骤2：判断商品和标签间的相似关系

基于某一标签的所有标签特征，分析每个标签特征的权重，评估每一个标签特征在所有标签的特征中的代表性，具体包括：

步骤2-1：分析每一个标签特征在标签集合的分布情况：如果一个标签特征集中于一个标签中，则默认该标签特征的代表性强；如果一个标签特征分布在多个标签中，则默认该标签特征的代表性不强；

步骤2-2：参照TF*IDF权重计算方法，针对代表性强的标签特征，做加权，权重为标签特征在该标签中出现的频次乘以初始权重；针对代表性弱的标签特征，做降权，权重为初始权重除以该标签在不同标签中出现的频次；标签特征在标签中的权重Boost_p可参照如下公式：

其中，count(p,t)表示标签特征p在标签t中出现的次数，size(t)表示标签t所包含的标签特征的个数，N表示标签集合中的标签总数，tags(p,t)表示包含标签特征p的标签t的个数。

步骤2-3：将标签的特征信息集合和商品的特征信息集合分别抽象成一个多维的空间向量，利用空间向量余弦相似性原理，通过计算两个空间向量间的相似度，判定商品和标签之间的相关关系；

步骤3：确定商品的相关标签

由于商品和标签之间的相关程度有高低好坏之分，因而标签和商品的相关程度系数值还不足直接将标签赋予商品，需通过设定合理阀值，筛选出两个空间向量间的相似度即商品和标签之间相关关系系数在阀值之上的标签作为商品的标签，阀值范围在0～1之间；阀值的设定可根据数据质量要求给出严格或宽松的值，若希望商品搜索过程更严格，阀值越接近1。此外，也可以取所有相关程度系数值的平均值作为阀值；

特别地，为更准确地选取商品的标签，可视情况控制每个商品的标签个数，并选择限定个数以内的最相关的标签作为商品标签。

商品属性信息代表了商品的若干特征，如果标签也有自己的特征数据，那么我们挖掘出两者在特征数据之间的关系就能知道商品和标签的关系。

本发明与现有技术相比，其有益效果：

(1)本发明利用商品关键词构建分词词库，实现基于网站内现有商品的关键特征对商品描述做分词处理，从而保证分词准确性，有利于在商品描述中精确地锁定商品名称；

(2)本发明通过辨识和确定标签的特征，将标签特征与商品特征进行相似度比较，从而确认商品名称的相似名称，为商品标示更丰富的标签，完善商品信息，有助于在搜索过程中提升搜索的召回率和准确率；

(3)本发明通过为电子商务网站内的商品找到实体标签和相关标签，在保证商品标签更具

客观性的同时，也能提高商品信息的可靠性；

附图说明

图1本发明实施例中一种适用于电子商务中文网站商品标签化方法的结构图；

图2本发明实施例中标签标示商品方法实现的流程图；

图3本发明实施例中判定商品和标签间相似关系方法实现的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明具体包括分词词库构建的方法、标签采集的方法及标签标示商品的方法；分词词库构建的方法用于对电子商务中文网站内的商品名称做分词处理；标签采集的方法用于根据商品名称为电子商务中文网站内的所有商品寻找与它相应的标签；标签标示商品的方法用于为电子商务中文网站内所有商品寻找与它存有相关关系的标签。所述商品名称是电子商务中文网站的商家用户对自己商品所做的简短文字描述。

以中国制造网中文站为例，一种适用于电子商务中文网站商品标签化的方法，包括分词词库的构建方法、标签采集的方法及标签标示商品的方法，参阅图1所示；

所谓分词词库的构建方法，指基于对电子商务中文网站内各商品关键词在不同商品描述中的频次统计，保留频次大于3的关键词，并从中筛选出关键词字数小于等于5的关键词作为词库数据，当长度比较长的关键词包含多个短的关键词的时，这些长的词将不会入库，比如：“电动自行车”，这个词包含“电动”和“自行车”两个短词，那么“电动自行车”这个词不会登录到分词词库中。

现有如下15件商品和商家为其添加的商品关键词：

经过统计，选择频数大于等于3的商品关键词进入分词词库，如下表所示：

关键词	频次统计
		丝印机	5

网印机	4
		全自动	7
丝网	4
		印刷机	6
车床	4
		多色	3
数控	3

所谓标签采集方法，指基于已构建的词库，通过逆向最大匹配分词算法对电子商务中文网站内所有商品名称进行分词处理；按照汉语语法特点，选取商品名称经分词处理后形成的最后一个词作为该商品的商品标签；最终，所有商品标签组成标签数据集合；

按照上述的实例，15件商品商品经分词后的结果和形成的商品标签如下：

所谓基于词库的逆向最大匹配分词算法，指对需要分词的语句从后往前反复扫描，每次扫描的短语最大长度是词库中长度最大的词的长度，当扫描的短语在词库中，则扫描到的位置就作为切分点，下次扫描从这个切分点开始往前继续扫描；如果扫描长度从最大到最小还没有找到在词库中，则扫描位置向前移动一位，这个位置作为新的切分点，然后继续扫描。下面是具体例子：

以商品名称“力超全自动薄膜开关丝印机”为例，现基于我们已经构建的词库进行分词：

步骤一：确认词库中长度最大的词是“丝印机”或者“全自动”等长度是3的词，所以扫描的长度从最大是3开始递减，最小扫描长度为2；

步骤二：从后往前开始扫描待分词语句，首先扫描到的三个字是“丝印机”，这三个字组成的词在词库中，所以“丝印机”前的这个位置作为切分点，语句变为“力超全自动薄膜开关/丝印机”；

步骤三：从上次扫描到的切分点开始继续扫描，首先扫描到的三个字是“膜开关”，这三个词组成的词不在词库中，所以扫描长度减1再次扫描，扫描到的两个字是“开关”，这两个字组成的词还是不在词库中，这个时候需要向前移动一位找到新的切分点，这个时候语句变为“力超全自动薄膜开/关/丝印机”；

步骤四：继续按照步骤二和步骤三的扫描切分，一直切分到最后，语句变为“力/超/全自动/薄/膜/开/关/丝印机”，然后停止退出；

经过上面四步，可以得到指定语句基于词库的分词结果。

所谓标签标示商品的方法，指通过利用文本挖掘算法，寻找商品和标签之间的关系。特别地，利用文本挖掘算法的前提是商品和标签都具备能体现两者关系且有代表性的内容作为判断依据。商品属性能多方位表明商品特征，如果标签也有自己的特征数据，通过比较两者在特征的相似性，即可确定商品和标签之间的相似关系。

参阅图2所示，标签标示商品的方法具体包括的步骤有：

步骤101：标签特征的获取

在标签集合的基础上确定隶属每一个标签的特征信息。如果某个标签出现在某个商品的名称中，则默认这个标签与该商品存在相关关系。

按照这个思路，首先筛选出包含某一特定标签词的商品名称，然后根据商品名称找到该商品的商品特征信息数据，统计出所有商品特征信息数据作为该标签的特征信息数据；特别地，商品特征信息数据来自于商品属性信息；

按照上述的例子，首先整理出15件商品和他们的商品属性，相应地，标签“丝印机”的标签特征包括：操作方式_全自动、印刷面_平面、印刷颜色_多色；标签“涂布机”的标签特征包括：印刷颜色_多色、操作方式_全自动、印刷面_平面；标签“网印机”的标签特征包括：印刷颜色_多色、品牌_冠达、操作方式_全自动、印刷面_平面；其他更具体如下表：

步骤102：判断商品和标签间的相似关系

基于某一特定标签的所有标签特征，分析每个标签特征的权重，评估每一个标签特征在所有标签特征中的代表性，具体包括：

步骤102-1：分析每一个标签特征在标签集合的分布情况：如果一个标签特征集中于同一个标签中，则默认该标签特征的代表性强；如果一个标签特征分布在多个标签中，则默认该标签特征的代表性不强；

为方便理解，选取标签“丝印机”、“网印机”和“车床”，并统计他们标签特征的出现的频次，如下表：

步骤102-2：参照TF*IDF权重计算方法，针对代表性强的标签特征，做加权，权重为标签特征在该标签中出现的频次乘以初始权重(初始权重按需要确定)；针对代表性弱的标签特征，做降权，权重为初始权重除以该标签在不同标签中出现的频次；标签特征在标签中的权重Boost_p可参照如下公式：

以下是标签“丝印机”、“网印机”和“车床”各自的特征属性的权重：

[Boost丝印机]_{(操作方式_全自动)}＝(3/7)*log(3/2)＝0.075

[Boost丝印机]_{(印刷面_平面)}＝(2/7)*log(3/2)＝0.050

[Boost丝印机]_{(印刷颜色_多色)}＝(2/7)*log(3/2)＝0.050

[Boost网印机]_{(印刷颜色_多色)}＝(3/11)*log(3/2)＝0.048

[Boost网印机]_{(操作方式_全自动)}＝(3/11)*log(3/2)＝0.048

[Boost网印机]_{(印刷面_平面)}＝(3/11)*log(3/2)＝0.048

[Boost网印机]_{(品牌_冠达)}＝(2/11)*log(3/2)＝0.032

[Boost车床]_{(安装形式_落地式)}＝(3/16)*log(3/1)＝0.089

[Boost车床]_{(精密度_精密)}＝(4/16)*log(3/1)＝0.119

[Boost车床]_{(布局形式_卧式)}＝(2/16)*log(3/1)＝0.060

[Boost车床]_{(自动化程度_自动)}＝(3/16)*log(3/1)＝0.089

[Boost车床]_{(刀架数量_双刀架数控车床)}＝(2/16)*log(3/1)＝0.060

[Boost车床]_{(控制方式_数控)}＝(2/16)*log(3/1)＝0.060

步骤102-3：将标签的特征信息集合和商品的特征信息集合分别抽象成一个多维的空间向量，以特征的权重值作为向量值，利用空间向量余弦相似性原理，通过计算两个空间向量间的相似度，判定商品和标签之间的相关关系；

依据相似度公式：

cos(力超全自动薄膜开关丝印机，标签(车床))＝0.0％

cos(双色全自动丝印机，标签(车床))＝0.0％

cos(网版涂布机，标签(车床))＝0.0％

cos(台励福数控冲床，标签(网印机))＝0.0％

cos(台励福数控冲床，标签(丝印机))＝0.0％

步骤103：确定商品的相关标签

由于商品和标签之间的相关程度有高低好坏之分，因而标签和商品的相关程度系数值还不足以直接将标签赋予商品，需通过设定合理阀值，筛选出相关程度系数在阀值之上的标签作为商品的标签；阀值的设定可根据数据质量要求给出严格或宽松的值，也可以取所有相关程度系数值的平均值作为阀值；

特别地，为更准确地选取商品的标签，可视情况控制每个商品的标签个数，并选择限定个数以内的最相关的标签作为商品标签；

商品属性信息代表了商品的若干特征，如果标签也有自己的特征数据，那么我们挖掘出两者在特征数据之间的关系就能知道商品和标签的关系；

按照上述步骤，我们得出了每个商品和标签之间的相似度，为了确保相关标签的质量，我们将阀值设置为90％，当商品和标签之间的相似度在90％以上，我们认为这个标签可以作为商品的一个标签使用，所以我们给“台励福数控冲床”打上“车床”的标签，给“网版涂布机”这个商品打上“丝印机”和“网印机”标签。在这种情况下，当用户搜索“丝印机”或者“网印机”的时候就能把“网版涂布机”这个商品召回来。通过本方法，我们可以给更多的商品打上相关的标签，从而提升商品信息的完善度，保证搜索的召回率。

所属领域的普通技术人员应当理解：以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于电子商务中文网站产品标签化的方法，其特征在于，具体步骤包括分词词库的构建方法、标签采集的方法及标签标示商品的方法；所谓分词词库的构建方法，指基于对电子商务中文网站内各商品关键词在不同商品描述中的频次统计，保留频次大于3的商品关键词，并从中筛选出商品关键词字数小于等于5的关键词作为词库数据，当长度比较长的商品关键词包含多个短的关键词的时，这些长的词将不会入库；

所谓商品关键词，是指由商家通过网站后台***自由添加的词语，是商家对商品关

键特征的描述；

考虑到电子商务中文网站内商品关键词通常由商品卖家添加，因而从这些关键词中选取简短精炼且高频出现的词列入分词词库中，能最大程度保证分词的准确性；

所谓标签采集方法，指基于已构建的分词词库，通过逆向最大匹配分词算法对电子商务中文网站内所有商品名称进行分词处理；经最大逆向匹配算法的分词处理后，按照汉语语法特点，即在“形容词+名词”的语句形式中，名词位于句末，进而选取商品经分词处理后形成的最后一个词作为该商品的商品标签；最终，这些所有标签组成标签数据集合；所谓商品名称，是指由商家自行添加的一段对商品的简短文字描述；所谓标签标示商品的方法，指通过利用文本挖掘算法，寻找商品属性和标签之间的关系；利用文本挖掘算法的前提是商品属性和标签都具备能体现两者关系且有代表性的内容作为判断依据；商品属性能多方位表明商品特征，如果标签也有自己的特征数据，通过比较两者在特征的相似性，即可确定商品属性和标签之间的相似关系；

标签标示商品的方法具体步骤：

步骤1：标签特征的获取；

在标签集合的基础上确定隶属每一个标签的特征信息；如果某个商品的标签出现在某个商品的商品名称中，则默认这个标签与该商品存在相关关系；

首先筛选出包含某一特定标签词的商品名称，然后根据商品名称找到该商品的商品特征信息数据，统计出所有商品特征信息数据作为该标签的特征信息数据；商品特征信息数据来自于商品属性信息；

步骤2：判断商品和标签间的相似关系，基于某一标签的所有标签特征，分析每个标签特征的权重，评估每一个标签特征在所有标签的特征中的代表性；

步骤3：确定商品的相关标签；

由于商品和标签之间的相关程度有高低好坏之分，因而标签和商品的相关程度系数值还不足直接将标签赋予商品，需通过设定合理阈值，筛选出两个空间向量间的相似度即商品和标签之间相关关系系数在阈值之上的标签作为商品的标签，阈值范围在0～1之间；阈值的设定根据数据质量要求给出严格或宽松的值，若希望商品搜索过程更严格，阈值越接近1；此外，也能取所有相关程度系数值的平均值作为阈值；

为更准确地选取商品的标签，视情况控制每个商品的标签个数，并选择限定个数以内的最相关的标签作为商品标签。

2.根据权利要求1所述的方法，其特征在于，步骤2中：判断商品和标签间的相似关系时，基于某一标签的所有标签特征，分析每个标签特征的权重，评估每一个标签特征在所有标签的特征中的代表性，具体包括：

步骤2-2：参照TF*IDF权重计算方法，针对代表性强的标签特征，做加权；针对代表性弱的标签特征，做降权；标签特征在标签中的权重Boostp参照如下公式：

其中，count(p,t)表示标签特征p在标签t中出现的次数，size(t)表示标签t所包含的标签特征的个数，N表示标签集合中的标签总数，tags(p,t)表示包含标签特征p的标签t的个数；

3.根据权利要求2所述的方法，其特征在于，在标签和商品关系的判断过程中，首先筛选出包含某个标签的商品名称，然后根据商品名称找到该商品的商品特征信息数据，统计出所有商品特征信息数据作为该标签的特征信息数据；所述商品特征信息数据来自于商品属性信息。