CN103377216A - 产品信息库的构建方法及*** - Google Patents

产品信息库的构建方法及*** Download PDF

Info

Publication number
CN103377216A
CN103377216A CN2012101211161A CN201210121116A CN103377216A CN 103377216 A CN103377216 A CN 103377216A CN 2012101211161 A CN2012101211161 A CN 2012101211161A CN 201210121116 A CN201210121116 A CN 201210121116A CN 103377216 A CN103377216 A CN 103377216A
Authority
CN
China
Prior art keywords
product
classification
word
keyword
industry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101211161A
Other languages
English (en)
Inventor
苏公雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou bigger Network Technology Co. Ltd.
Original Assignee
SUZHOU YINJIAO INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU YINJIAO INFORMATION TECHNOLOGY Co Ltd filed Critical SUZHOU YINJIAO INFORMATION TECHNOLOGY Co Ltd
Priority to CN2012101211161A priority Critical patent/CN103377216A/zh
Publication of CN103377216A publication Critical patent/CN103377216A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示了一种产品信息库的构建方法,其包括如下步骤:S1、定义标准产品分类表;S2、将行业内各厂商的产品分别映射到所述产品分类表中相应节点;S3、获取所述节点的产品关键词,并根据所述产品关键词确定与所述节点对应的产品标签。本发明通过对行业内不同厂商的产品分类信息进行分类映射及标签集合,分拣效率高,且成本较低,在用户进行相关类别产品信息查阅时,可以更加快捷地进行查找,查找结果更加准确,减小了网络带宽。

Description

产品信息库的构建方法及***
技术领域
本发明涉及信息分类技术领域,尤其涉及一种产品信息库的构建方法及***。
背景技术
目前,专业技术行业的供应厂商有几千个,行业的产品有几千万之多,而每个厂商的产品分类是不同的,且来自不同厂商的不同产品之间可能存在着多种关联关系,比如替代、配套使用、参考设计等,对这些产品进行科学合理的聚类对于行业用户检索所需要的产品和技术信息非常重要,同时这些关系的确立可以为查询某产品的用户提供最高度关联的增值信息。然而,要整理的海量产品来自于几千家分类和定义不同的厂商,采用人工分拣的方式效率较低、成本较高,几乎不可能实现。
发明内容
本发明的目的在于提供一种产品信息库的构建方法。
相应地,本发明的目的还在于提供一种应用上述方法的产品信息库的构建***。
为实现上述发明目的之一,本发明采用的技术方案如下:一种产品信息库的构建方法,其包括如下步骤:
S1、定义标准产品分类表;
S2、将行业内各厂商的产品分别映射到所述产品分类表中相应节点;
S3、获取所述节点的产品关键词,并根据所述产品关键词确定与所述节点对应的产品标签。
作为本发明的进一步改进,所述S1步骤具体包括:
搜集行业内各厂商的产品分类表;
将所述产品分类表按照相似度进行聚合;
将聚合产品分类表合并简化,以获取所述标准分类表。
作为本发明的进一步改进,所述S2步骤具体包括:
将行业内多个厂商的产品分类映射到所述产品分类表中相应节点,并生成与厂商相匹配的多个映射表。
作为本发明的进一步改进,所述S3步骤具体包括:
对各个节点中所有产品信息进行分词,并对分词后获得的字或词按照出现频率从高到低进行排序;
根据排序后的结果,选取预设数量的字或词作为产品关键词;
根据所述产品关键词确定与所述节点对应的产品标签。
作为本发明的进一步改进,所述产品信息包括产品名称、应用信息、产品摘要。
相应地,为实现上述另一发明目的,本发明提供的一种产品信息库的构建***,该***包括:
分类表定义单元、用于定义标准产品分类表;
产品映射单元、用于将行业内各厂商的产品分别映射到所述产品分类表中相应节点;
标签获取单元、用于获取所述节点的产品关键词,并根据所述产品关键词确定与所述节点对应的产品标签。
作为本发明的进一步改进,所述分类表定义单元具体用于:
搜集行业内各厂商的产品分类表;
将所述产品分类表按照相似度进行聚合;
将聚合产品分类表合并简化,以获取所述标准分类表。
作为本发明的进一步改进,所述产品映射单元具体用于:
将行业内多个厂商的产品分类映射到所述产品分类表中相应节点,并生成与厂商相匹配的多个映射表。
作为本发明的进一步改进,所述标签获取单元具体用于:
对各个节点中所有产品信息进行分词,并对分词后获得的字或词按照出现频率从高到低进行排序;
根据排序后的结果,选取预设数量的字或词作为产品关键词;
根据所述产品关键词确定与所述节点对应的产品标签。
作为本发明的进一步改进,所述产品信息包括产品名称、应用信息、产品摘要。
与现有技术相比,本发明通过对行业内不同厂商的产品分类信息进行分类映射及标签集合,分拣效率高,且成本较低。 
附图说明
图1是本发明具体实施方式中产品信息库的构建方法的基本流程图;
图2是本发明具体实施方式中产品聚类工作流程图;
图3是本发明具体实施方式中S1步骤的具体步骤流程图;
图4是本发明具体实施方式中S3步骤的具体步骤流程图;
图5是本发明具体实施方式中产品信息库的构建***的单元示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
结合图1和图2所示,本发明具体实施方式中,一种产品信息库的构建方法,该方法包括如下步骤:
S1、定义标准产品分类表;产品分类表为包括多个节点的树结构,每个节点对应于某种类别的产品(产品信息包括产品描述、产品名称、摘要、以及应用信息等),此标准产品分类表为在现有各厂商的分类基础上合并简化的结果。
S2、将行业内各厂商的产品分别映射到所述产品分类表中相应节点; 
在本实施方式中,优选地,所述S2步骤具体包括:
将行业内多个厂商的产品分类映射到所述产品分类表中相应节点,并生成与厂商相匹配的多个映射表。图2所示的为厂商n的产品分类映射到标准分类表中后的映射表。
S3、获取所述节点的产品关键词,并根据所述产品关键词确定与所述节点对应的产品标签。优选地,产品标签可为多个,具体数目根据该节点下的产品来设定。通过设定好的产品标签集,在不断完善上述产品信息库中过程中,对未入库的产品进行分类时,只需在该产品的产品信息(产品名称、应用信息、产品摘要等)中确立产品关键字或词,并将其与标准分类表中所有节点的产品标签进行匹配,若匹配到与其关键词相似或相同的产品标签,那便可认定该产品是隶属于此标签相对应的节点下。
参图3所示,优选地,在本实施方式中,上述步骤S1具体可分为以下步骤:
S11、搜集行业内各厂商的产品分类表;优选地,通过互联网访问各厂商的官方网站进行搜集其产品分类表。
S12、将所述产品分类表按照相似度进行聚合;其中,对搜集的各厂商的分类表进行最大相似度匹配,并按照相似度的高低对产品分类进行排序,比如,某产品分类1包括产品分类11和产品分类12,那么如果在所有的厂商中,按照相似度进行排序后,若厂商中将产品分类1中细分为产品分类11和产品分类12占大多数,则认定此分类为标准分类。还例如,产品分类1的名称得确定,也是通过最大相似度来从所有厂商的命名中提取出使用最多的名称。
S13、将聚合产品分类表合并简化,以获取所述标准分类表。在本实施方式中,比如,厂商1的分类表中包括产品分类1,产品分类1还细分为产品分类11、产品分类12以及产品分类13;而厂商2的分类表中包括产品分类1,但产品分类1还细分为产品分类11、产品分类12以及产品分类14,那么通过本发明的合并简化后,在标准分类表中产品分类1便可细分为产品分类11、产品分类12、产品分类13以及产品分类14,以上仅为示范性合并简化的方法,在本发明另一实施方式中,假设产品分类13和产品分类14属于不同的类别,但若这两种分类可概括为产品分类15,那么上述合并简化后,产品分类1便可细分为产品分类11、产品分类12、产品分类15。合并简化的方式还需视具体情况而定,在此,申请人不再一一列举。
需指明的是,上述合并简化以及节点相似度的判断,特殊情况还可通过专业人员的判断,并不是完全依靠自动化地完成所述产品标准分类表的制定。
参图4所示,在本实施方式中,优选地,所述S3步骤具体包括:
S31、对各个节点中所有产品信息进行分词,并对分词后获得的字或词按照出现频率从高到低进行排序;可根据产品信息进行相应地中文分词、或者英文分词的方式,其中,产品信息中出现频度越高,越符合本节点的定义。
S32、根据排序后的结果,选取预设数量的字或词作为产品关键词;假设针对该节点,发现出现频度在10以上的词或字有20个,那便可设定该节点的产品关键词的数目位20,在本发明其他实施方式,产品关键词的预设数量也不受限制,完全可视情况而定。
S33、根据所述产品关键词确定与所述节点对应的产品标签。本发明将获取的所有产品关键词整合在一起以作为产品标签,并将该产品标签与本产品节点关联在一起。
接下来,请参图5所示,本发明具体实施方式中,一种产品信息库的构建***,该***包括:
分类表定义单元10、用于定义标准产品分类表;产品分类表为包括多个节点的树结构,每个节点对应于某种类别的产品(产品信息包括产品描述、产品名称、摘要、以及应用信息等),此标准产品分类表为在现有各厂商的分类基础上合并简化的结果。
产品映射单元20、用于将行业内各厂商的产品分别映射到所述产品分类表中相应节点; 
在本实施方式中,优选地,所述产品映射单元20具体用于:
将行业内多个厂商的产品分类映射到所述产品分类表中相应节点,并生成与厂商相匹配的多个映射表。
标签获取单元30、用于获取所述节点的产品关键词,并根据所述产品关键词确定与所述节点对应的产品标签。优选地,产品标签可为多个,具体数目根据该节点下的产品来设定。通过设定好的产品标签集,在不断完善上述产品信息库中过程中,对未入库的产品进行分类时,只需在该产品的产品信息(产品名称、应用信息、产品摘要等)中确立产品关键字或词,并将其与标准分类表中所有节点的产品标签进行匹配,若匹配到与其关键词相似或相同的产品标签,那便可认定该产品是隶属于此标签相对应的节点下。
优选地,在本实施方式中,上述分类表定义单元10具体地:
用于搜集行业内各厂商的产品分类表;优选地,通过互联网访问各厂商的官方网站进行搜集其产品分类表。
用于将所述产品分类表按照相似度进行聚合; 
用于将聚合产品分类表合并简化,以获取所述标准分类表。合并简化的方式还需视具体情况而定,在此,申请人不再一一列举。
在本实施方式中,优选地,所述标签获取单元30具体地:
用于对各个节点中所有产品信息进行分词,并对分词后获得的字或词按照出现频率从高到低进行排序;可根据产品信息进行相应地中文分词、或者英文分词的方式,其中,产品信息中出现频度越高,越符合本节点的定义。
用于根据排序后的结果,选取预设数量的字或词作为产品关键词;假设针对该节点,发现出现频度在10以上的词或字有20个,那便可设定该节点的产品关键词的数目位20,在本发明其他实施方式,产品关键词的预设数量也不受限制,完全可视情况而定。
用于根据所述产品关键词确定与所述节点对应的产品标签。本发明将获取的所有产品关键词整合在一起以作为产品标签,并将该产品标签与本产品节点关联在一起。
综上所述,通过本发明提供的上述方法及***,该技术可对行业内不同厂商的产品分类信息进行分类映射及标签集合,分拣效率高,因大大避免了人工分类带来的人力成本,故成本较低。此标准分类表的制定也是集各家所长,所有也使得产品分类更加准确,此外,在用户进行相关类别产品信息查阅时,可以更加快捷地进行查找,查找结果更加准确,并且,用户输入产品关键词后,搜索引擎直接在合并简化后的产品分类库中进行检索,从而也避免了通过海量检索各家厂商所带来的网络带宽。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种产品信息库的构建方法,其特征在于,该方法包括如下步骤:
S1、定义标准产品分类表;
S2、将行业内各厂商的产品分别映射到所述产品分类表中相应节点;
S3、获取所述节点的产品关键词,并根据所述产品关键词确定与所述节点对应的产品标签。
2.根据权利要求1所述的方法,其特征在于,所述S1步骤具体包括:
搜集行业内各厂商的产品分类表;
将所述产品分类表按照相似度进行聚合;
将聚合产品分类表合并简化,以获取所述标准分类表。
3.根据权利要求1所述的方法,其特征在于,所述S2步骤具体包括:
将行业内多个厂商的产品分类映射到所述产品分类表中相应节点,并生成与厂商相匹配的多个映射表。
4.根据权利要求1所述的方法,其特征在于,所述S3步骤具体包括:
对各个节点中所有产品信息进行分词,并对分词后获得的字或词按照出现频率从高到低进行排序;
根据排序后的结果,选取预设数量的字或词作为产品关键词;
根据所述产品关键词确定与所述节点对应的产品标签。
5.根据权利要求4所述的方法,其特征在于,所述产品信息包括产品名称、应用信息、产品摘要。
6.一种产品信息库的构建***,其特征在于,该***包括:
分类表定义单元、用于定义标准产品分类表;
产品映射单元、用于将行业内各厂商的产品分别映射到所述产品分类表中相应节点;
标签获取单元、用于获取所述节点的产品关键词,并根据所述产品关键词确定与所述节点对应的产品标签。
7.根据权利要求6所述的***,其特征在于,所述分类表定义单元具体用于:
搜集行业内各厂商的产品分类表;
将所述产品分类表按照相似度进行聚合;
将聚合产品分类表合并简化,以获取所述标准分类表。
8.根据权利要求6所述的***,其特征在于,所述产品映射单元具体用于:
将行业内多个厂商的产品分类映射到所述产品分类表中相应节点,并生成与厂商相匹配的多个映射表。
9.根据权利要求6所述的***,其特征在于,所述标签获取单元具体用于:
对各个节点中所有产品信息进行分词,并对分词后获得的字或词按照出现频率从高到低进行排序;
根据排序后的结果,选取预设数量的字或词作为产品关键词;
根据所述产品关键词确定与所述节点对应的产品标签。
10.根据权利要求9所述的***,其特征在于,所述产品信息包括产品名称、应用信息、产品摘要。
CN2012101211161A 2012-04-24 2012-04-24 产品信息库的构建方法及*** Pending CN103377216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101211161A CN103377216A (zh) 2012-04-24 2012-04-24 产品信息库的构建方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101211161A CN103377216A (zh) 2012-04-24 2012-04-24 产品信息库的构建方法及***

Publications (1)

Publication Number Publication Date
CN103377216A true CN103377216A (zh) 2013-10-30

Family

ID=49462342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101211161A Pending CN103377216A (zh) 2012-04-24 2012-04-24 产品信息库的构建方法及***

Country Status (1)

Country Link
CN (1) CN103377216A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818487A (zh) * 2016-09-12 2018-03-20 阿里巴巴集团控股有限公司 一种产品信息处理方法、装置、设备及客户端
CN108647201A (zh) * 2018-04-04 2018-10-12 卓望数码技术(深圳)有限公司 一种基于移动应用的分类识别方法及***
CN111814937A (zh) * 2020-06-28 2020-10-23 宁波心维标签制品有限公司 一种防伪标签生成及打印方法
CN112711666A (zh) * 2021-03-26 2021-04-27 武汉优品楚鼎科技有限公司 期货标签抽取方法及装置
CN114925255A (zh) * 2022-05-07 2022-08-19 深圳市艾特智能科技有限公司 产品功能的动态显示方法、***、可读存储介质及计算机

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0704810A1 (en) * 1994-09-30 1996-04-03 Hitachi, Ltd. Method and apparatus for classifying document information
CN1920831A (zh) * 2006-09-18 2007-02-28 阿里巴巴公司 一种在互联网上管理对象信息的方法及***
CN101639857A (zh) * 2009-04-30 2010-02-03 腾讯科技(深圳)有限公司 构建知识问答分享平台的方法、装置及***
CN201654779U (zh) * 2009-04-22 2010-11-24 同方知网(北京)技术有限公司 学术文献自动分类***
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0704810A1 (en) * 1994-09-30 1996-04-03 Hitachi, Ltd. Method and apparatus for classifying document information
CN1920831A (zh) * 2006-09-18 2007-02-28 阿里巴巴公司 一种在互联网上管理对象信息的方法及***
CN201654779U (zh) * 2009-04-22 2010-11-24 同方知网(北京)技术有限公司 学术文献自动分类***
CN101639857A (zh) * 2009-04-30 2010-02-03 腾讯科技(深圳)有限公司 构建知识问答分享平台的方法、装置及***
CN102193936A (zh) * 2010-03-09 2011-09-21 阿里巴巴集团控股有限公司 一种数据分类的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818487A (zh) * 2016-09-12 2018-03-20 阿里巴巴集团控股有限公司 一种产品信息处理方法、装置、设备及客户端
CN108647201A (zh) * 2018-04-04 2018-10-12 卓望数码技术(深圳)有限公司 一种基于移动应用的分类识别方法及***
CN111814937A (zh) * 2020-06-28 2020-10-23 宁波心维标签制品有限公司 一种防伪标签生成及打印方法
CN112711666A (zh) * 2021-03-26 2021-04-27 武汉优品楚鼎科技有限公司 期货标签抽取方法及装置
CN114925255A (zh) * 2022-05-07 2022-08-19 深圳市艾特智能科技有限公司 产品功能的动态显示方法、***、可读存储介质及计算机

Similar Documents

Publication Publication Date Title
CN102982076B (zh) 基于语义标签库的多维度内容标注方法
CN103106199B (zh) 文本检索方法和装置
CN108647276B (zh) 一种搜索方法
CN104375992A (zh) 一种地址匹配的方法和装置
CN105335479B (zh) 一种基于sql的文本数据统计实现方法
CN103473238B (zh) 配送地址定位***及方法
US20170109358A1 (en) Method and system of determining enterprise content specific taxonomies and surrogate tags
CN102479223A (zh) 数据查询方法及***
CN103377249A (zh) 关键词投放方法及***
CN103377216A (zh) 产品信息库的构建方法及***
CN102279894A (zh) 基于语义的查找、集成和提供评论信息的方法及搜索***
CN102541529A (zh) 一种查询页面生成装置和方法
CN103034663A (zh) 一种信息搜索方法和设备
CN103258029A (zh) 信息检索方法及***
CN105787025A (zh) 网络平台公共账号分类方法及装置
CN106682145A (zh) 一种企业信息的处理方法、服务器及客户端
CN101719135A (zh) 一种政务资源目录控制***及方法
CN104537341A (zh) 人脸图片信息获取方法和装置
CN103064880A (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和***
CN104750496A (zh) 一种模型变更影响度自动检查方法
CN104021125A (zh) 一种搜索引擎排序的方法、***以及一种搜索引擎
CN109800416A (zh) 一种电力设备名称识别方法
CN101339560B (zh) 一种搜索系列性数据的方法、装置及一种搜索引擎***
CN104216979A (zh) 中文工艺专利自动分类***及利用该***进行专利分类的方法
CN102999637A (zh) 根据文件特征码为文件自动添加文件标签的方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SUZHOU BIGE NETWORK TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: SUZHOU YINJIAO INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20150401

TA01 Transfer of patent application right

Effective date of registration: 20150401

Address after: Dongping street Suzhou Industrial Park in Jiangsu province 215000 Australia Shunchang No. 270 building 3A unit

Applicant after: Suzhou bigger Network Technology Co. Ltd.

Address before: Suzhou City, Jiangsu Province, Suzhou Industrial Park 215000 Xinghu Street No. 328 Creative Industry Park Building 2 room B701

Applicant before: Suzhou Yinjiao Information Technology Co., Ltd.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131030