CN108268883B

CN108268883B - 基于开放数据的移动端信息模板自构建***

Info

Publication number: CN108268883B
Application number: CN201611265749.4A
Authority: CN
Inventors: 胡洁琼; 毕舰水; 蔡鸿明; 姜丽红; 谢诚
Original assignee: Shanghai Jiaotong University
Current assignee: NANJING RUNCHAIN TECHNOLOGY Co.,Ltd.
Priority date: 2016-12-31
Filing date: 2016-12-31
Publication date: 2021-05-07
Anticipated expiration: 2036-12-31
Also published as: CN108268883A

Abstract

一种基于开放数据的移动端信息模板自构建***，包括：本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块，其中：本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库，图像识别模块根据开放数据和近义词词典生成图像训练集，图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集，信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板，本发明结合移动端输入图像和文字，结合领域本体，降低输入歧义，准确度高，基于领域本体自动生成产品的信息描述模板，整个流程不需要人工介入，易用性好且开放性强。

Description

基于开放数据的移动端信息模板自构建***

技术领域

本发明涉及的是一种信息检索领域的技术，具体是一种基于开放数据的移动端信息模板自构建***。

背景技术

随着电商平台井喷式的数量增长。产品需求具有模糊性、多样性、动态性等特点，企业需要准确地获取产品需求，规范产品需求表达方式，实现产品需求自适应。企业需要定制上架产品信息模版并对上架信息组织管理。

发明内容

本发明针对现有技术无法自动构建产品模板等缺陷，提出一种基于开放数据的移动端信息模板自构建***，采用基于概念和规则的匹配方法查找能实现特定产品需求的信息条目，降低需求的模糊性，自动形成产品的独有信息模板。同时，结合移动端获取图像信息灵活和便利的特点，能够显著降低输入歧义，提高准确度。

本发明是通过以下技术方案实现的：

本发明包括：本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块，其中：本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库，图像识别模块根据开放数据和近义词词典生成图像训练集，图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集，信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板。

所述的本体构建模块包括：属性提取器和概念融合器，其中：属性提取器调取开放数据并利用近义词词典进行分词并对分词结果过滤清洗得到领域概念和属性集合；概念融合器利用余弦相似度得到领域概念之间的相似度，再通过凝聚层级聚类算法得到层级概念领域本体知识库。

所述的图像识别器根据用户输入的图片和文字，采用SVM算法构建图像识别模型并对图像训练集分类识别后生成产品概念候选集。

所述的余弦相似度是指：

其中：w_jk为领域概念t_j在n维向量中第k维的取值，w_ik为领域概念t_i在n维向量中第k维的取值。

所述的相似性矩阵中的相似度采用similarity-flooding算法校正。

所述的信息模板生成模块包括：概念匹配器和信息模板构造器，其中：概念匹配器在层级概念领域本体知识库中查找产品概念对应的概念聚类，信息模板构造器利用共现分析理论统计对应的概念聚类中的属性，共现分析理论得到的概念间相关性程度得分即为两个概念共同出现的次数除以两个概念分别出现的次数，通过与概念相关联的概念的相关性程度得分(即重要性权重)排序，从而得到产品概念的信息描述模板。

本发明涉及一种根据上述***的信息描述模板实现方法，包括：离线阶段和在线阶段，其中：

离线阶段是指：本体构建模块提取开放数据中的属性集合，并对相似度大于阀值的产品概念进行融合，得到层级概念领域本体知识库；然后利用共现分析理论得到概念间的相关性程度，再通过图像识别模块通过开放数据中的图像构建出图像训练集，由图像识别器对输入图像中的概念识别得到产品概念候选集；

在线阶段是指：图像识别模块根据用户输入的图片和文字识别出产品概念，由信息模板生成模块利用存储的层级概念领域本体知识库进行概念匹配，得到该产品概念对应的信息描述模板。

技术效果

与现有技术相比，本发明结合移动端输入图像和文字，结合领域本体，降低输入歧义，准确度高，基于领域本体自动生成产品的信息描述模板，整个流程不需要人工介入，易用性好且开放性强。

附图说明

图1为本发明结构示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图1所示，本实施例包括：本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块，其中：本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库，图像识别模块根据开放数据和近义词词典生成图像训练集，图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集，信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板。

所述的开放数据包括但不限于：文件数据、数据库以及网页数据。

所述的属性集合中的集合表示表示采用一种用于描述Web资源的标记语言-资源描述框架(RDF)，一条陈述包含三个部分<主体，属性，客体>，通常被称为RDF三元组。主体是被描述的资源，用URI表示；客体表示主体在该属性上的取值，可以是另外一个资源(由URI表示)或者是文本；属性类型对应于谓语，属性值对应于宾语，即为客体。

所述的近义词词典通过对开放数据的处理得到。同一概念的不同实例即认为是对于这一概念的近义词，近义词词典是不同概念近义词的集合。

所述的概念融合器以领域概念为列属性集合为行构造初始矩阵，并利用余弦相似度计算任一两个领域概念之间的相似度得到相似性矩阵并设置阀值，再通过对相似性矩阵进行相似概念融合形成概念聚类，利用凝聚层级聚类算法将概念聚类生成聚类树从而得到树状的层级概念领域本体知识库。余弦相似度为

其中：w_jk为领域概念t_j在n维向量中第k维的取值，w_ik为领域概念t_i在n维向量中第k维的取值。相似性矩阵中的相似度采用similarity-flooding算法校正。

所述的阀值，即在进行相似概念融合形成概念聚类时，概念能否进行融合的判断标准。该阈值采用实验的方式得出，对数据设置不同的阈值进行聚类，选择聚类类间距离下降速度的拐点对应的阈值。

所述的凝聚层级聚类算法是指：获得每一个概念聚类后，将每一个概念聚类做为一个簇，每一步合并两个最接近的簇，合并的原则是分别取这两个簇的样本点，样本点之间的距离是所有不同类簇的样本点间欧几里得距离最近的，则认为这两个簇是相似并可合并。层层递进，合并这些原子类簇直至达到预期的类簇数目。本文中为合并成一个类作为终止条件，生成一颗完整的概念聚类树。

所述的信息模板生成模块包括：概念匹配器和信息模板构造器，其中：概念匹配器在层级概念领域本体知识库中查找产品概念对应的概念聚类，信息模板构造器利用共现分析理论统计对应的概念聚类中的属性，从而得到产品概念的信息描述模板。

离线阶段，本体构建模块提取开放数据中的属性集合，并对相似度大于阀值的产品概念进行融合，得到层级概念领域本体知识库。构建出层级概念领域本体知识库中包含的概念集合以及领域概念，并利用共现分析理论得到概念间的相关性程度，两个概念的相关性程度得分即为一个概念相对于另一个概念的重要性权重。图像识别模块提取开放数据中的图像，使用SIFT算法提取特征，构建图像训练集，并采用SVM算法构建图像识别模型，对输入图像中的概念识别得到产品概念候选集。

在线阶段，图像识别模块根据用户输入的图片和文字识别出产品概念，并识别出产品概念，而后信息模板生成模块利用存储的层级概念领域本体知识库进行概念匹配，得到该产品概念对应的信息描述模板。

与现有技术相比，本发明结合移动端输入图像和文字，结合领域本体，降低输入歧义，准确度较高，基于领域本体自动生成产品的信息描述模板，整个流程不需要人工接入，易用性好且开放性强。本发明侧重于不同概念的差异性，旨在构造基于产品需求差异化的信息模板。因此，在基于概念的本体构建和信息模板过滤条件方面，极大化相似概念聚类，并在该聚类中依据过滤条件，结合产品需求的差异性，构造差异性的信息模版，从而提高信息模板构造的准确度和效率。

Claims

1.一种基于开放数据的移动端信息模板自构建***，其特征在于，包括：本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块，其中：本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库，图像识别模块根据开放数据和近义词词典生成图像训练集，图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集，信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板。

2.根据权利要求1所述的基于开放数据的移动端信息模板自构建***，其特征是，所述的本体构建模块包括：属性提取器和概念融合器，其中：属性提取器调取开放数据并利用近义词词典进行分词并对分词结果过滤清洗得到领域概念和属性集合；概念融合器利用余弦相似度得到领域概念之间的相似度，再通过凝聚层级聚类算法得到树状的层级概念领域本体知识库。

3.根据权利要求2所述的基于开放数据的移动端信息模板自构建***，其特征是，所述的近义词词典通过对开放数据的处理得到。

4.根据权利要求1或2所述的基于开放数据的移动端信息模板自构建***，其特征是，所述层级概念领域本体知识库，通过概念融合器以领域概念为列，属性集合为行构造初始矩阵，并根据任意两个领域概念之间的余弦相似度得到相似性矩阵并设置阀值，再通过对相似性矩阵进行相似概念融合形成概念聚类，利用凝聚层级聚类算法将概念聚类生成聚类树，从而得到该层级概念领域本体知识库。

5.根据权利要求2或4所述的基于开放数据的移动端信息模板自构建***，其特征是，所述的余弦相似度是指：

6.根据权利要求2或4所述的基于开放数据的移动端信息模板自构建***，其特征是，所述的凝聚层级聚类算法是指：获得每一个概念聚类后，将每一个概念聚类做为一个簇，每一步合并两个最接近的簇，合并的原则是分别取这两个簇的样本点，样本点之间的距离是所有不同类簇的样本点间欧几里得距离最近的，则认为这两个簇是相似并可合并，层层递进，合并这些原子类簇直至达到预期的类簇数目，本文中为合并成一个类作为终止条件，生成一颗完整的概念聚类树。

7.根据权利要求1所述的基于开放数据的移动端信息模板自构建***，其特征是，所述的信息模板生成模块包括：概念匹配器和信息模板构造器，其中：概念匹配器在层级概念领域本体知识库中查找产品概念对应的概念聚类，信息模板构造器利用共现分析理论统计对应的概念聚类中的属性，从而得到产品概念的信息描述模板。

8.根据权利要求1所述的基于开放数据的移动端信息模板自构建***，其特征是，所述的图像识别器根据用户输入的图片和文字，采用SVM算法构建图像识别模型并对图像训练集分类识别后生成产品概念候选集。

9.一种根据上述任一权利要求所述***的信息描述模板实现方法，其特征在于，包括离线阶段和在线阶段，其中：