CN108536664A

CN108536664A - 商品领域的知识融合方法

Info

Publication number: CN108536664A
Application number: CN201710117723.3A
Authority: CN
Inventors: 杨静; 潘栋
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2018-09-14

Abstract

本发明提供了一种商品领域的知识融合方法，其中包括获取待处理的商品数据；采用Word2Vector方法将各个属性映射成具有多个维度的词向量；根据属性中属性值的词向量距离计算每两个属性之间的相似度；将相似度高于预设阈值的两个属性融合为同一类属性，得到属性融合后的商品数据集合。本发明提供了一种知识融合效果更好的知识融合方法，抓取了大量的商品数据进行训练，在对商品属性进行融合时，一方面大大减少了未登录词的出现，另一方面即使各别的属性值不存在，不会影响到该方法的运行，因此比传统的利用外部知识库的方法更加具有实用性；本方法不仅适用于电商领域的商品知识融合，也适用于其他领域的商品知识融合，从而提供基于知识的更好的服务。

Description

商品领域的知识融合方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种应用简便且知识融合效果更好的商品领域的知识融合方法。

背景技术

随着社会的发展，每天产生的大量数据，由于不同数据库，对于不同知识的表达不同，所以对于如何从不同数据库中发现相同的知识，变得十分重要。对于自动化或半自动化构建本体或分类树，有着重要的意义。人工进行知识融合，既花费人力又耗时。所以，对于从不同数据库中发现相同知识并非易事，这需要让计算机自动理解不同数据库中的知识，并发现它们之间的关系。

知识融合，是指发现异构数据库中相同概念的不同表达，它通过对分布式数据源和知识源进行组织和管理，结合应用需求对知识元素进行转化、集成和融合等处理，从而获取有价值或可用的新知识，同时对知识对象的结构和内涵进行优化，提供基于知识的服务。知识融合的研究对于分布式知识库环境中的知识共享、知识***的交互、集成和协同工作、知识服务质量的优化等方面具有一定的价值，特别对于研究基于知识内涵的知识发现以及新知识的创建、组织、评价和优化等方面具有相当重要的意义。

传统的知识融合方法主要利用了结构化或半结构化数据库，或利用外部知识库，如HowNet和WordNet，发现不同数据库中相同概念的不同表达。其中，HowNet中文名称为知网，是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。WordNet是由普林斯顿大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不光是把单词以字母顺序排列，而且按照单词的意义组成一个单词的网络。因此，HowNet和WordNet实际上是两种比较常用的外部数据库。

然而针对电商领域，由于属性值多由电商自己定义，很多词并没有被外部数据库录入，同时由于是同一商品类的属性，属性间的相关性较高，无法利用外部知识库发现相似的属性。所以目前亟需一种电商领域的知识融合方法。

发明内容

针对现有技术中的问题，本发明的目的在于提供一种商品领域的知识融合方法，只需抓取待处理的商品数据即可，应用简便，在对商品属性进行融合时，融合效果更好。

本发明实施例提供一种商品领域的知识融合方法，包括如下步骤：

获取待处理的商品数据，所述商品数据包括商品的属性和各个所述属性所对应的属性值；

采用Word2Vector方法将各个所述属性映射成具有多个维度的词向量，各个所述词向量与所对应的属性中的各个属性值一一对应；

根据每两个属性中属性值的词向量距离计算每两个属性之间的相似度；

将相似度高于预设阈值的两个属性融合为同一类属性，得到属性融合后的商品数据集合。

可选地，获取待处理的商品数据之后，还包括如下步骤：

对所述待处理的商品数据进行预处理，使得所述待处理的商品数据中的无语义文本具有上下文联系。

可选地，对所述待处理的商品数据进行预处理，包括如下步骤：

对所述待处理的商品数据进行属性值归并；

对属性值归并后的商品数据进行二值处理。

可选地，对所述待处理的商品数据进行属性值归并，包括如下步骤：

根据所述待处理的商品数据中各个所述属性的名称，将具有相同名称的属性所对应的属性值归并为一行。

可选地，对属性值归并后的商品数据进行二值处理，包括如下步骤：

对只包括肯定性和否定性两种属性值的属性进行处理，将该属性的肯定性属性值均替换为该属性的名称，将该属性的否定性属性值均替换为非字加上该属性的名称。

可选地，将各个所述属性映射成具有多个维度的词向量，包括如下步骤：

采用Word2Vector方法基于各个所述属性的上下文联系提取其各个属性值的词义特征，映射成具有多个维度的词向量，各个所述词向量与所对应的属性中的各个属性值一一对应。

可选地，根据如下公式计算每两个属性之间的相似度：

其中，属性A和属性B为所述待处理的商品数据中的两个属性，Dist(A,B)为属性A和属性B之间的相似度；

所述属性A中具有n个属性值，a_i为属性A的第i个属性值，且i∈(1,n)；

b_max(a_i)为所述属性B中与属性值a_i相似度最高的属性值；

dist(a_i,b_max(a_i))为属性值a_i与属性值b_max(a_i)的词向量距离。

可选地，根据每两个属性中属性值的词向量距离，以及所述属性中各个所述属性值的词频，计算得到每两个属性之间的相似度。

可选地，根据如下公式计算每两个属性之间的相似度：

b_max(a_i)为所述属性B中与属性值a_i相似度最高的属性值；

dist(a_i,b_max(a_i))为属性值a_i与属性值b_max(a_i)的词向量距离；

TF(a_i)为属性值a_i在所述属性A中的词频，TF(b_max(a_i))为属性值b_max(a_i)在所述属性B中的词频；

TF(A)为属性A中所有属性值的总词频，TF(B)为属性B中所有属性值的总词频。

可选地，将相似度高于预设阈值的两个属性融合为同一类属性，包括如下步骤：

将各个所述属性作为一个结点，并将相似度高于预设阈值的两个属性所对应的结点连接，形成属性关系图；

将所述属性关系图中相连接的结点所对应的属性融合为同一类属性。

可选地，获取待处理的商品数据，包括如下步骤：

从各个电商平台中抓取商品数据，所述待处理的商品数据包括商品的标题、商品的图片链接、商品的属性和各个所述属性所对应的属性值。

本发明所提供的商品领域的知识融合方法具有下列优点：

本发明提供了一种应用简便且知识融合效果更好的知识融合方法，随着电商领域的发展，各大电商的商品数据十分充足，在本方法只需要从各个电商平台中抓取商品数据即可，因此本方法具有易行性；本方法抓取了大量的商品数据进行训练，在对商品属性进行融合时，一方面大大减少了未登录词的出现，另一方面即使各别的属性值不存在，不会影响到该方法的运行，因此比传统的利用外部知识库的方法更加具有实用性；本方法在大量商品类别上进行实验，效果均好与其他方法，因此知识融合的有效性更强；本方法不仅适用于电商领域的商品知识融合，也适用于其他领域的商品知识融合，从而提供基于知识的更好的服务。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明的商品领域的知识融合方法的流程图；

图2是本发明一实施例的对所述待处理的商品数据进行预处理流程图；

图3是本发明一实施例的属性融合的流程图；

图4是本发明一实施例的商品领域的知识融合方法的详细流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

如图1所示，本发明实施例提供一种商品领域的知识融合方法，包括如下步骤：

S100：获取待处理的商品数据，所述商品数据包括商品的属性和各个所述属性所对应的属性值；

S200：采用Word2Vector方法将各个所述属性映射成具有多个维度的词向量，为各个所述属性寻求更深层次的特征表示，各个所述词向量与所对应的属性中的各个属性值一一对应；即各个所述属性是可以通过属性值来描述的，而属性值则可以采用Word2Vector映射成一个词向量；

S300：根据每两个属性中属性值的词向量距离计算每两个属性之间的相似度；由于属性值可以描述所对应的属性，因此不同的属性所对应的属性值之间的关系也可以一定程度地表征不同的属性之间的相似程度，因此通过每两个属性中属性值的词向量距离的计算和比较可以得到两个属性之间的相似度；

S400：将相似度高于预设阈值的两个属性融合为同一类属性，得到属性融合后的商品数据集合。

Word2Vector是一种依据上下文关系的词语语义(词义)特征提取方法，最先由Mikolov等于2013年初在谷歌公司的开源项目中提出。当文档作为信息检索的样本时，针对在不同文档中的每个词语，Word2Vector可以依据其上下文关系有效地提取其语义(即词义特征)，并以词向量的形式给出。

此处词向量指的是将每个词根据其语义表示为一个由数字表示的向量。词向量的距离可以用最传统的欧氏距离来衡量，也可以用cos夹角来衡量等，均属于本发明的保护范围之内。

由于词向量可以表示属性值的语义，因此可以通过属性值的词向量距离判断属性值的语义相似度，并进一步根据所包含的属性值之间的相似度来判断属性之间的相似度，而不必依赖外部数据库已有的定义。从而实现了在给定一个商品类别，使用计算机即可以自动对异构数据库的属性进行融合，挖掘出同一属性在不同数据库中的不同表达形式，避免了人工进行知识融合时耗费人力和时间。

所述待处理的商品数据还可以包括商品的标题、商品的图片链接等等其他表明商品信息或属性信息的数据。获取待处理的商品数据，可选地从各个电商平台中抓取商品数据，例如从京东、淘宝、天猫、一号店等电商平台的网站抓取电商的商品数据，对各大电商平台的商品数据进行融合处理。然而，本发明不仅限于对电商数据的属性融合，还可以应用于其他类别的商品数据的融合，例如人工录入的实体销售商品数据等等，均属于本发明的保护范围之内。

本实施例的商品领域的知识融合方法应用于电商的商品数据，通过分析电商数据，可以得到电商数据的四个重要特点：

(1)同一商品的属性之间存在着强相关性；

(2)商品数据主要以半结构化的方式存储；

(3)文本数据主要以词堆叠形成，不存在上下文联系；

(4)属性值可以用于描述所对应的属性。

如背景技术中所述，针对电商领域，由于属性值由电商自己定义，很多词并没有被外部数据库录入，同时由于是同一商品类的属性，属性间的相关性较高，外部数据库也往往无法完全录入电商的商品数据，因此采用外部数据库进行知识融合将存在很大的不确定性，从而造成知识融合的不准确。而本发明通过自动计算相似度，不必依赖外部数据库，可以直接进行知识融合。

本发明需要计算属性描述之间的相似度，来确定两个概念是否相似。由于电商数据不存在上下文关系，很难找出词与词之间的关系。为了从异构数据库中将相同概念的词进行融合，结合电商数据的四个特点，需要增强本文的上下文关系。

如图2所示，因此考虑到电商数据的特点，可选地，在获取待处理的商品数据之后，还包括如下步骤：

S110：对所述待处理的商品数据进行预处理，使得所述待处理的商品数据中的无语义文本具有上下文联系。

其中，对所述待处理的商品数据进行预处理，可以包括如下步骤：

S111：对所述待处理的商品数据进行属性值归并；

S112：对属性值归并后的商品数据进行二值处理。

对所述待处理的商品数据进行属性值归并，可以包括如下步骤：

根据所述待处理的商品数据中各个所述属性的名称，将具有相同名称的属性所对应的属性值归并为一行。此处是根据各个所述属性的名称对数据进行一个初步的融合，将具有相同名称的属性所对应的属性值融合在一起。

对属性值归并后的商品数据进行二值处理，可以包括如下步骤：

对只包括肯定性和否定性两种属性值的属性进行处理，将该属性的属性值均替换为该属性的名称。其中，只包括肯定性和否定性两种属性值的属性，即属性值只包含两种可能，例如“是”、“否”。虽然两个属性之间可能均存在“是”、“否”的属性值，如果只是通过属性值的语义判断，可能会判断其为相似，而其实际表达的意义却是不同的，这样会造成相似度的误判断，甚至可能会因为某一属性值的相似度而影响了整个属性之间相似度的判断。因此该实施例中为了保证属性融合的准确性，将该种属性值替换为属性的名称，避免引起混淆。此处属性值替换，即将肯定性的属性值替换成属性名称，否定性的属性值替换成“非”+属性名称，例如，属性-是否进口，属性值-“是”替换成“进口”，“否”替换成“非进口”。

将各个所述属性映射成具有多个维度的词向量，可以包括如下步骤：

采用Word2Vector方法基于各个所述属性的上下文联系提取其各个属性值的词义特征，映射成具有多个维度的词向量，各个所述词向量与所对应的属性中的各个属性值一一对应。此处可以将各个所述属性映射到K维向量空间，K一般是语言模型的超参数。

在获取各个所述属性所对应的词向量后，词向量的距离可以表示属性值之间语义上的相关性，因此可以根据如下公式计算每两个属性之间的相似度：

其中，属性A和属性B为所述待处理的商品数据中的两个属性，Dist(A,B)为属性A和属性B之间的相似度，此处两个属性A和B可以是所述待处理的商品数据中选择的任意两个属性，对其计算相似度，以确认是否融合；

计算a_i与属性B所有属性值的词向量距离即语义上的相似度，其中b_max(a_i)为所述属性B中与属性值a_i相似度最高的属性值；

dist(a_i,b_max(a_i))为属性值a_i与属性值b_max(a_i)的词向量距离。

然而，如果只基于属性值的词向量距离来计算两个属性之间的相似度，准确度会受到影响。这是因为有些属性包括的属性值比较单一，如是否进口，只包括进口与非进口两个属性值，这样会使得相似度因为某一个属性值的相似度而影响了整个属性之间的相似度。同时每个属性值在属性中的重要程度是不同的，因此可以利用属性值的词频以及词向量距离，来计算属性间的相似度。属性值的词频可以表示属性值对对应属性的重要性。

基于此，可以根据如下公式计算每两个属性之间的相似度：

其中，TF(a_i)为属性值a_i在所述属性A中的词频，TF(b_max(a_i))为属性值b_max(a_i)在所述属性B中的的词频；TF(A)为属性A中所有属性值的总词频，TF(B)为属性B中所有属性值的总词频。当size(A)或size(B)小于n时，以最高词频的属性值补充该属性的属性值。

通过结合属性值的词频和属性值词向量距离来计算相似度，充分利用了属性值对于属性的贡献以及属性值之间本身的相似度，得到更准确的相似度。即使很多属性值由电商自己定义而未被外部数据库录入，也可以根据公式(2)计算得到属性之间更准确的相似度，从而进行更准确的融合。通过对属性值的词频进行加权平均，相似度的计算更加客观。

在计算得到每两个属性之间的相似度之后，可以根据每两个属性之间的相似度的大小进行属性的融合。

如图3所示，可选地，将相似度高于预设阈值的两个属性融合为同一类属性，包括如下步骤：

S401：将各个所述属性作为一个结点，并将相似度高于预设阈值的两个属性所对应的结点连接，作为形成属性关系图，即相似度高于预设阈值的两个属性之间的连接线作为所述属性关系图中结点之间的边；

S402：将所述属性关系图中具有通路的结点所对应的属性融合，即将相连接的两个属性融合为同一类属性。

其中，所述预设阈值可以根据实际需要进行数值调整，例如对融合的属性的相似度要求比较高时，可以将预设阈值调大，即相似度很高的属性才会判定为同一类属性进行融合；如果对融合的属性的相似度要求比较低，可以将预设阈值降低，即相似度比较高的属性就会判定为同一类属性进行融合。

如图4所示，为本发明一最具体的实施例的商品领域的知识融合方法的详细流程图。该实施例中的知识融合方法主要包括文本训练和知识融合两部分。其中文本训练包括：

首先从商品类四个数据库获取待处理的商品数据；此处数据库数量仅为示例，在实际应用中，可以为一个或多个，均属于本发明的保护范围之内；

对待处理的商品数据进行文本预处理，文本预处理可以采用上述属性值归并和二值处理的方法，将无语义文本具有上下文联系，方便下一步进行词向量训练；在实际应用中，也可以采用其他文本预处理方式，或者在商品数据本身上下文联系性较好时，也可以不采用文本预处理，均属于本发明的保护范围之内；

文本训练好之后，知识融合的过程主要包括：

采用Word2Vector方法训练各个所述属性的具有多个维度的词向量；

根据预设阈值判断每两个属性是否相似，相似度的计算可以采用上述两种方式中的任意一种，仅采用词向量距离来判断，计算比较简单，比较省时间，但是准确度不强，采用词向量距离以及词频加权平均的方式来判断，计算相对有些复杂，但是考虑的方法更全面，准确度更强；

形成属性关系图，相似度大于预设阈值的两个属性之间进行连接形成属性关系图的边；

将属性关系图中存在通路的属性融合为同一类属性，得到属性融合后的商品数据集合。

采用本实施例的方法，将相似度高于预设阈值的两个属性进行融合后，即可以得到属性融合后的商品数据集合。因此，本发明的方法是通过相似度的计算来判断属性是否相似，并进一步根据判断的结果确定是否融合所对应的属性，从而无需依赖外部数据库，对于没有固定标准的电商领域更加适用。

本发明所提供的商品领域的知识融合方法具有下列优点：

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种商品领域的知识融合方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的商品领域的知识融合方法，其特征在于，获取待处理的商品数据之后，还包括如下步骤：

3.根据权利要求2所述的商品领域的知识融合方法，其特征在于，对所述待处理的商品数据进行预处理，包括如下步骤：

对所述待处理的商品数据进行属性值归并；

对属性值归并后的商品数据进行二值处理。

4.根据权利要求3所述的商品领域的知识融合方法，其特征在于，对所述待处理的商品数据进行属性值归并，包括如下步骤：

5.根据权利要求4所述的商品领域的知识融合方法，其特征在于，对属性值归并后的商品数据进行二值处理，包括如下步骤：

6.根据权利要求2所述的商品领域的知识融合方法，其特征在于，将各个所述属性映射成具有多个维度的词向量，包括如下步骤：

7.根据权利要求1所述的商品领域的知识融合方法，其特征在于，根据如下公式计算每两个属性之间的相似度：

b_max(a_i)为所述属性B中与属性值a_i相似度最高的属性值；

dist(a_i,b_max(a_i))为属性值a_i与属性值b_max(a_i)的词向量距离。

8.根据权利要求1所述的商品领域的知识融合方法，其特征在于，根据每两个属性中属性值的词向量距离，以及所述属性中各个所述属性值的词频，计算得到每两个属性之间的相似度。

9.根据权利要求8所述的商品领域的知识融合方法，其特征在于，根据如下公式计算每两个属性之间的相似度：

b_max(a_i)为所述属性B中与属性值a_i相似度最高的属性值；

dist(a_i,b_max(a_i))为属性值a_i与属性值b_max(a_i)的词向量距离；

10.根据权利要求1所述的商品领域的知识融合方法，其特征在于，将相似度高于预设阈值的两个属性融合为同一类属性，包括如下步骤：

11.根据权利要求1所述的商品领域的知识融合方法，其特征在于，获取待处理的商品数据，包括如下步骤：