CN108268883B - 基于开放数据的移动端信息模板自构建*** - Google Patents

基于开放数据的移动端信息模板自构建*** Download PDF

Info

Publication number
CN108268883B
CN108268883B CN201611265749.4A CN201611265749A CN108268883B CN 108268883 B CN108268883 B CN 108268883B CN 201611265749 A CN201611265749 A CN 201611265749A CN 108268883 B CN108268883 B CN 108268883B
Authority
CN
China
Prior art keywords
concept
open data
concepts
information template
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611265749.4A
Other languages
English (en)
Other versions
CN108268883A (zh
Inventor
胡洁琼
毕舰水
蔡鸿明
姜丽红
谢诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING RUNCHAIN TECHNOLOGY Co.,Ltd.
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201611265749.4A priority Critical patent/CN108268883B/zh
Publication of CN108268883A publication Critical patent/CN108268883A/zh
Application granted granted Critical
Publication of CN108268883B publication Critical patent/CN108268883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

一种基于开放数据的移动端信息模板自构建***,包括:本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块,其中:本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库,图像识别模块根据开放数据和近义词词典生成图像训练集,图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集,信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板,本发明结合移动端输入图像和文字,结合领域本体,降低输入歧义,准确度高,基于领域本体自动生成产品的信息描述模板,整个流程不需要人工介入,易用性好且开放性强。

Description

基于开放数据的移动端信息模板自构建***
技术领域
本发明涉及的是一种信息检索领域的技术,具体是一种基于开放数据的移动端信息模板自构建***。
背景技术
随着电商平台井喷式的数量增长。产品需求具有模糊性、多样性、动态性等特点,企业需要准确地获取产品需求,规范产品需求表达方式,实现产品需求自适应。企业需要定制上架产品信息模版并对上架信息组织管理。
发明内容
本发明针对现有技术无法自动构建产品模板等缺陷,提出一种基于开放数据的移动端信息模板自构建***,采用基于概念和规则的匹配方法查找能实现特定产品需求的信息条目,降低需求的模糊性,自动形成产品的独有信息模板。同时,结合移动端获取图像信息灵活和便利的特点,能够显著降低输入歧义,提高准确度。
本发明是通过以下技术方案实现的:
本发明包括:本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块,其中:本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库,图像识别模块根据开放数据和近义词词典生成图像训练集,图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集,信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板。
所述的本体构建模块包括:属性提取器和概念融合器,其中:属性提取器调取开放数据并利用近义词词典进行分词并对分词结果过滤清洗得到领域概念和属性集合;概念融合器利用余弦相似度得到领域概念之间的相似度,再通过凝聚层级聚类算法得到层级概念领域本体知识库。
所述的图像识别器根据用户输入的图片和文字,采用SVM算法构建图像识别模型并对图像训练集分类识别后生成产品概念候选集。
所述的余弦相似度是指:
Figure BDA0001200608600000011
其中:wjk为领域概念tj在n维向量中第k维的取值,wik为领域概念ti在n维向量中第k维的取值。
所述的相似性矩阵中的相似度采用similarity-flooding算法校正。
所述的信息模板生成模块包括:概念匹配器和信息模板构造器,其中:概念匹配器在层级概念领域本体知识库中查找产品概念对应的概念聚类,信息模板构造器利用共现分析理论统计对应的概念聚类中的属性,共现分析理论得到的概念间相关性程度得分即为两个概念共同出现的次数除以两个概念分别出现的次数,通过与概念相关联的概念的相关性程度得分(即重要性权重)排序,从而得到产品概念的信息描述模板。
本发明涉及一种根据上述***的信息描述模板实现方法,包括:离线阶段和在线阶段,其中:
离线阶段是指:本体构建模块提取开放数据中的属性集合,并对相似度大于阀值的产品概念进行融合,得到层级概念领域本体知识库;然后利用共现分析理论得到概念间的相关性程度,再通过图像识别模块通过开放数据中的图像构建出图像训练集,由图像识别器对输入图像中的概念识别得到产品概念候选集;
在线阶段是指:图像识别模块根据用户输入的图片和文字识别出产品概念,由信息模板生成模块利用存储的层级概念领域本体知识库进行概念匹配,得到该产品概念对应的信息描述模板。
技术效果
与现有技术相比,本发明结合移动端输入图像和文字,结合领域本体,降低输入歧义,准确度高,基于领域本体自动生成产品的信息描述模板,整个流程不需要人工介入,易用性好且开放性强。
附图说明
图1为本发明结构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
如图1所示,本实施例包括:本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块,其中:本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库,图像识别模块根据开放数据和近义词词典生成图像训练集,图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集,信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板。
所述的开放数据包括但不限于:文件数据、数据库以及网页数据。
所述的本体构建模块包括:属性提取器和概念融合器,其中:属性提取器调取开放数据并利用近义词词典进行分词并对分词结果过滤清洗得到领域概念和属性集合;概念融合器利用余弦相似度得到领域概念之间的相似度,再通过凝聚层级聚类算法得到层级概念领域本体知识库。
所述的属性集合中的集合表示表示采用一种用于描述Web资源的标记语言-资源描述框架(RDF),一条陈述包含三个部分<主体,属性,客体>,通常被称为RDF三元组。主体是被描述的资源,用URI表示;客体表示主体在该属性上的取值,可以是另外一个资源(由URI表示)或者是文本;属性类型对应于谓语,属性值对应于宾语,即为客体。
所述的近义词词典通过对开放数据的处理得到。同一概念的不同实例即认为是对于这一概念的近义词,近义词词典是不同概念近义词的集合。
所述的概念融合器以领域概念为列属性集合为行构造初始矩阵,并利用余弦相似度计算任一两个领域概念之间的相似度得到相似性矩阵并设置阀值,再通过对相似性矩阵进行相似概念融合形成概念聚类,利用凝聚层级聚类算法将概念聚类生成聚类树从而得到树状的层级概念领域本体知识库。余弦相似度为
Figure BDA0001200608600000031
其中:wjk为领域概念tj在n维向量中第k维的取值,wik为领域概念ti在n维向量中第k维的取值。相似性矩阵中的相似度采用similarity-flooding算法校正。
所述的阀值,即在进行相似概念融合形成概念聚类时,概念能否进行融合的判断标准。该阈值采用实验的方式得出,对数据设置不同的阈值进行聚类,选择聚类类间距离下降速度的拐点对应的阈值。
所述的凝聚层级聚类算法是指:获得每一个概念聚类后,将每一个概念聚类做为一个簇,每一步合并两个最接近的簇,合并的原则是分别取这两个簇的样本点,样本点之间的距离是所有不同类簇的样本点间欧几里得距离最近的,则认为这两个簇是相似并可合并。层层递进,合并这些原子类簇直至达到预期的类簇数目。本文中为合并成一个类作为终止条件,生成一颗完整的概念聚类树。
所述的信息模板生成模块包括:概念匹配器和信息模板构造器,其中:概念匹配器在层级概念领域本体知识库中查找产品概念对应的概念聚类,信息模板构造器利用共现分析理论统计对应的概念聚类中的属性,从而得到产品概念的信息描述模板。
离线阶段,本体构建模块提取开放数据中的属性集合,并对相似度大于阀值的产品概念进行融合,得到层级概念领域本体知识库。构建出层级概念领域本体知识库中包含的概念集合以及领域概念,并利用共现分析理论得到概念间的相关性程度,两个概念的相关性程度得分即为一个概念相对于另一个概念的重要性权重。图像识别模块提取开放数据中的图像,使用SIFT算法提取特征,构建图像训练集,并采用SVM算法构建图像识别模型,对输入图像中的概念识别得到产品概念候选集。
在线阶段,图像识别模块根据用户输入的图片和文字识别出产品概念,并识别出产品概念,而后信息模板生成模块利用存储的层级概念领域本体知识库进行概念匹配,得到该产品概念对应的信息描述模板。
与现有技术相比,本发明结合移动端输入图像和文字,结合领域本体,降低输入歧义,准确度较高,基于领域本体自动生成产品的信息描述模板,整个流程不需要人工接入,易用性好且开放性强。本发明侧重于不同概念的差异性,旨在构造基于产品需求差异化的信息模板。因此,在基于概念的本体构建和信息模板过滤条件方面,极大化相似概念聚类,并在该聚类中依据过滤条件,结合产品需求的差异性,构造差异性的信息模版,从而提高信息模板构造的准确度和效率。

Claims (9)

1.一种基于开放数据的移动端信息模板自构建***,其特征在于,包括:本体构建模块、信息模板生成模块和带有图像识别器的图像识别模块,其中:本体构建模块根据开放数据生成近义词词典和层级概念领域本体知识库,图像识别模块根据开放数据和近义词词典生成图像训练集,图像识别器根据用户输入的图片和文字并调用图像训练集生成产品概念候选集,信息模板生成模块将产品概念候选集中产品概念在层级概念领域本体知识库中进行匹配获取该产品概念的信息描述模板。
2.根据权利要求1所述的基于开放数据的移动端信息模板自构建***,其特征是,所述的本体构建模块包括:属性提取器和概念融合器,其中:属性提取器调取开放数据并利用近义词词典进行分词并对分词结果过滤清洗得到领域概念和属性集合;概念融合器利用余弦相似度得到领域概念之间的相似度,再通过凝聚层级聚类算法得到树状的层级概念领域本体知识库。
3.根据权利要求2所述的基于开放数据的移动端信息模板自构建***,其特征是,所述的近义词词典通过对开放数据的处理得到。
4.根据权利要求1或2所述的基于开放数据的移动端信息模板自构建***,其特征是,所述层级概念领域本体知识库,通过概念融合器以领域概念为列,属性集合为行构造初始矩阵,并根据任意两个领域概念之间的余弦相似度得到相似性矩阵并设置阀值,再通过对相似性矩阵进行相似概念融合形成概念聚类,利用凝聚层级聚类算法将概念聚类生成聚类树,从而得到该层级概念领域本体知识库。
5.根据权利要求2或4所述的基于开放数据的移动端信息模板自构建***,其特征是,所述的余弦相似度是指:
Figure FDA0001200608590000011
其中:wjk为领域概念tj在n维向量中第k维的取值,wik为领域概念ti在n维向量中第k维的取值。
6.根据权利要求2或4所述的基于开放数据的移动端信息模板自构建***,其特征是,所述的凝聚层级聚类算法是指:获得每一个概念聚类后,将每一个概念聚类做为一个簇,每一步合并两个最接近的簇,合并的原则是分别取这两个簇的样本点,样本点之间的距离是所有不同类簇的样本点间欧几里得距离最近的,则认为这两个簇是相似并可合并,层层递进,合并这些原子类簇直至达到预期的类簇数目,本文中为合并成一个类作为终止条件,生成一颗完整的概念聚类树。
7.根据权利要求1所述的基于开放数据的移动端信息模板自构建***,其特征是,所述的信息模板生成模块包括:概念匹配器和信息模板构造器,其中:概念匹配器在层级概念领域本体知识库中查找产品概念对应的概念聚类,信息模板构造器利用共现分析理论统计对应的概念聚类中的属性,从而得到产品概念的信息描述模板。
8.根据权利要求1所述的基于开放数据的移动端信息模板自构建***,其特征是,所述的图像识别器根据用户输入的图片和文字,采用SVM算法构建图像识别模型并对图像训练集分类识别后生成产品概念候选集。
9.一种根据上述任一权利要求所述***的信息描述模板实现方法,其特征在于,包括离线阶段和在线阶段,其中:
离线阶段是指:本体构建模块提取开放数据中的属性集合,并对相似度大于阀值的产品概念进行融合,得到层级概念领域本体知识库;然后利用共现分析理论得到概念间的相关性程度,再通过图像识别模块通过开放数据中的图像构建出图像训练集,由图像识别器对输入图像中的概念识别得到产品概念候选集;
在线阶段是指:图像识别模块根据用户输入的图片和文字识别出产品概念,由信息模板生成模块利用存储的层级概念领域本体知识库进行概念匹配,得到该产品概念对应的信息描述模板。
CN201611265749.4A 2016-12-31 2016-12-31 基于开放数据的移动端信息模板自构建*** Active CN108268883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611265749.4A CN108268883B (zh) 2016-12-31 2016-12-31 基于开放数据的移动端信息模板自构建***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611265749.4A CN108268883B (zh) 2016-12-31 2016-12-31 基于开放数据的移动端信息模板自构建***

Publications (2)

Publication Number Publication Date
CN108268883A CN108268883A (zh) 2018-07-10
CN108268883B true CN108268883B (zh) 2021-05-07

Family

ID=62771072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611265749.4A Active CN108268883B (zh) 2016-12-31 2016-12-31 基于开放数据的移动端信息模板自构建***

Country Status (1)

Country Link
CN (1) CN108268883B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635119B (zh) * 2018-10-25 2023-08-04 同济大学 一种基于本体融合的工业大数据集成***
US11514321B1 (en) * 2020-06-12 2022-11-29 Amazon Technologies, Inc. Artificial intelligence system using unsupervised transfer learning for intra-cluster analysis
CN113222018B (zh) * 2021-05-13 2022-06-28 郑州大学 一种图像分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999640B (zh) * 2013-01-09 2016-03-09 公安部第三研究所 基于语义推理和结构化描述的视频与图像检索***及方法
KR102160844B1 (ko) * 2013-02-25 2020-09-28 패트릭 순-시옹 링크 연관 분석 시스템들 및 방법들
CN104133913B (zh) * 2014-08-07 2017-06-16 中国科学技术大学 一种基于视频分析与搜索聚合的城市商铺信息库自动构建***及方法
CN105335431A (zh) * 2014-08-11 2016-02-17 青岛海尔智能家电科技有限公司 界面文件的处理方法及装置、控制消息的处理方法及装置
CN105045933B (zh) * 2015-09-08 2018-04-24 中国人民解放军海军工程大学 船舶装备维修保障信息关系数据库模式与本体间映射方法
CN106250382A (zh) * 2016-01-28 2016-12-21 新博卓畅技术(北京)有限公司 一种元数据管理引擎***及实现方法

Also Published As

Publication number Publication date
CN108268883A (zh) 2018-07-10

Similar Documents

Publication Publication Date Title
Devika et al. Sentiment analysis: a comparative study on different approaches
CN106649715B (zh) 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
Guo et al. Online early-late fusion based on adaptive hmm for sign language recognition
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
Wang et al. Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval
WO2014179634A2 (en) Hand-drawn sketch recognition
TW201824027A (zh) 字串驗證方法、字串擴充方法與驗證模型訓練方法
Arrish et al. Shape-based plagiarism detection for flowchart figures in texts
CN108268883B (zh) 基于开放数据的移动端信息模板自构建***
CN109213853A (zh) 一种基于cca算法的中文社区问答跨模态检索方法
CN105760875B (zh) 基于随机森林算法的判别二进制图像特征相似实现方法
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
Gurung et al. A study on Topic Identification using K means clustering algorithm: Big vs. Small Documents
Al-Tameemi et al. Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data
Li et al. Self-supervised learning-based weight adaptive hashing for fast cross-modal retrieval
CN105975643B (zh) 一种基于文本索引的实时图像检索方法
CN116562280A (zh) 一种基于通用信息抽取的文献分析***及方法
CN114298020B (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Devis et al. Sketch based image retrieval using transfer learning
Tian et al. Research on image classification based on a combination of text and visual features
KR101400548B1 (ko) 문서의 자동 학습 장치와 이를 이용한 문서 자동 학습 방법, 문서의 자동 분류 장치와 이를 이용한 문서 자동 분류 방법
CN113191381B (zh) 一种基于交叉知识的图像零次分类模型及其分类方法
CN114972884A (zh) 一种基于多模态事件本体的图像事件识别方法
Su et al. Cross-modality based celebrity face naming for news image collections
Xu et al. Estimating similarity of rich internet pages using visual information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220610

Address after: Room 1011, West Building 2, No. 168, software Avenue, Yuhuatai District, Nanjing, Jiangsu 210000

Patentee after: NANJING RUNCHAIN TECHNOLOGY Co.,Ltd.

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Patentee before: SHANGHAI JIAO TONG University