CN101937444A

CN101937444A - 一种面向纺织原料基于语义的数据搜索引擎

Info

Publication number: CN101937444A
Application number: CN2010101603775A
Authority: CN
Inventors: 吕瑞宝; 闫红桥; 沈霞锋
Original assignee: SHAOXING YIQI INFORMATIONAL TECHNOLOGY Co Ltd
Current assignee: SHAOXING YIQI INFORMATIONAL TECHNOLOGY Co Ltd
Priority date: 2010-04-30
Filing date: 2010-04-30
Publication date: 2011-01-05

Abstract

一种面向纺织原料基于语义的数据搜索引擎，软件本身包括三大部份：客户端操作界面，基于语义的搜索引擎，市场行为数据仓库。1)基于语义的搜索引擎：采用基于元数据文件的语义检索方式实现搜索引擎模式2)智能比对：本项目设定了信息的配对功能，使用者发布一条自己的产品信息即可同时智能寻找与之匹配的求购信息。3)基于动态的纺织原料基础数据仓库和市场行为数据仓库：采用多元统计分析、预测分析、决策分析等方法和专家***技术，为企业在定价、生产、销售、仓储中提供市场行为的分析服务。

Description

一种面向纺织原料基于语义的数据搜索引擎

技术领域

本发明涉及电子与信息领域计算机软件，具体说是涉及一种面向纺织原料基于语义的数据搜索引擎，特别适用于纺织企业信息交互。

背景技术

近年来，随着大量新的电子商务模式产生，部分企业针对纺织业的供求状况，致力于研究网上撮合交易，网上超市，及会员制的买卖信息交易。和国外相对成熟的电子商务比较，尚存在一定的差距。究其原因：

一是国内部分中小企业领导人使用计算机的普及率较低，使人对网络的虚拟存在产生一定的疑惑；

二是国家尚未出台明确的电子商务政策法规，网上违规操作屡有曝光，在一定程度上限制了电子商务的发展速度。但随着我国电子商务政策的日趋完善，政府又明确提倡要大力发展电子商务，大批新的交易平台及方法应运而生，不过目前多数产品均类似于B to B的形式，以交换有偿信息模式居多，部分则以中介模式参与实际的企业之间的交易，以返利点盈利。这些形式都导致了客户无法快捷地找到相应信息。即便在互联网上发布的信息但由于没有科学完整的定义信息标题内容，即便是搜索引擎也无法查到自己想要的信息内容，存在信息的失漏。而且市场上流通的软件操作大都需要一定的计算机基础，不少潜在的客户想用却不会操作，导致普及率受到影响。

发明内容

本发明的目的在于克服上述现有技术的缺陷，开发一种内容专业化(纺织材料领域)的软件，突破传统的文字输入形式，以选项形式定义产品标题，使搜索更加快捷、全面；设定了信息的配对功能，使用者发布一条自己的产品信息即可同时智能寻找与之匹配的求购信息。

本发明是通过下述技术方案得以实现的：一种面向纺织原料基于语义的数据搜索引擎装置，其特征在于：包括三大部份：客户端操作界面，基于语义的搜索引擎，市场行为数据仓库。

基于语义的数据搜索软件，包括硬件和软件两大部分，硬件部分包括服务器和设置在各职能部门部分的客户端，通过总线联接成局域网络，或组建成以太网络。

软件部分包括：

***采用asp+delphi语言进行开发，其中核心部分是由asp语言开发，登陆界面框架是delphi开发的，另外***配置日志处理模块采用java语言开发。可选择一個以上資料库进行资料库获取。具有夸资料库的索引浏览、Hyperlink显示、资料排序能力。

本发明还提供一种面向纺织原料基于语义的数据搜索引擎方法，其特征在于，包括以下步骤：

(1)、从元数据文档存储区读取文档信息；

(2)、利用筛选器过滤元数据文档中的格式信息和非文字信息，生成文字串和属性/值对，并把它传递给索引引擎；

(3)、对提取的字符串进行反向索引：即记录包含搜索词的文档的信息、出现次数以及搜索闻在文档中的相关位置；就是说将习惯思维的对应关系：“文件号”对“文件中所有关键词”，利用倒排索引把这个关系倒过来，变成：“关键词”对“拥有该关键同的所有文件号”，即某个查询词在某些文件中出现过；反向索引可以应用统计和概率公式，以便快速计算文档的相关性；

(4)、根据搜索词对搜索到的元数据集按照特定算法进行排序，把最相关的文档放在最前面，提高搜索的准确性：经过对轻纺原料数据库共享数据进行长期的分析总结，项目内部制定自己的数据权重分析方法，采用的排序算法以此为基础，并结合搜索引擎排序算法常用的PageRank，也就是链接分析算法得到的。

本发明的有益效果是，可以利用基于语义的搜索和服务引擎，通过***的自动抓取有用信息，生成一个强大的数据仓库。使用户能非常方便快捷的检索到所需信息，克服了原有软件不支持模糊查询，受到用户的一致好评。

附图说明

图1为本发明的流程框架图。

图2为本搜索***的搜索界面形式(部分)。

图3读取的XML关键词字符串

图4字符串进行分词后的效果图

图5倒排索引的索引结构

图6元数据节点列表

图7针对特定节点提取出的关键词

图8元数据搜索引擎入口

具体实施方式

过去由于思路和技术的局限性，要实现针对XML模式的全文检索方式是一个难题。为了实现针对元数据的查询检索，***采取了借助数据库搜索技术的方法来实现元数据的查询。首先分析用户查询元数据时最感兴趣且最容易使用的元数据节点，将这些节点作为数据表字段，提取每个元数据中该节点的属性值作为字段值。同时将元数据文件采用大文件的方式直接存储在数据库中，提供网络发布，便于用户查看。用这种方式，也可以满足一部分用户对于数据检索的需求，但是很明显，这种方式存在很多不足之处。

首先，在提取元数据信息时，不能保证***提取的字段能满足用户的查询需要。其次，从XML文档中提取信息保存到数据库中的过程不但需要代码实现，还必然需要人工配合，无形中浪费了资源，影响了效率。第三，数据库搜索本身有很多局限性。比如，数据库检索的效率非常地下，会消耗大量硬件资源，无法完成全文检索(可以用SQL的单子索引功能最简单的完成索引功能实现低级的全文索引)，无法高亮显示检索词，也不能对结果集按照相关性进行结果排序。

根据上述原因，必然需要改变以前这种基于数据库的搜索方式，采用新的模式实现面向纺织原料数据搜索引擎。提出采用基于元数据文件的语义检索方式实现搜索引擎如图片所示，

过去为了达到搜索元数据信息的目的，我们把以文件形式存储的元数据文件人工提取出部分信息转换到数据库中储存，这种方式存在很多弊端。而现在结合基于文件的语义搜索方法，可以实现直接对元数据文件进行搜索，从而达到查找数据的最终目的。搜索引擎的设计考虑到用户有不同需求和不同查询条件，因此为元数据的搜索引擎提供两种入口：全文搜索和针对元数据节点元素的搜索。

全文搜索是一种对用户最为方便的搜索方式，对于用户而言，只要知道关于这个数据的任何一点信息，都能通过全文搜索引擎查找到需要的数据。元数据全文搜索引肇的建立就是利用全文搜索的这一特性，方便用户在海量的轻纺原料数据库信息共享数据中根据其无数据的描述信息来快速查找需求的数据。简单的查询通常是文本查询，在元数据的每个文档中搜索每个(或所有)查询词。但是如果单纯只是打开并扫描每个文档，寻找每个查询词，那会因为处理杏询时打开每个文档并搜索查询词而浪费不少时间，影响搜索效率。

因此，元数据的全文搜索的实现方法是，根据XML文件格式的标准，采用信息获取技术提出每个文档中的真实信息来建立索引，并用一种便于检索的方法保存索引。那么处理查询时就不用扫描每个文档了，而是采用反向索引相互比较元数据，并选择与查询最有关联的元数据。这样，全文搜索就能以文本形式的元数据为主要处理对象，基于全文标引，使用特殊分类来进行检索。

索引XML代码片断，代码如下：

<？xml version＝″1.0″encoding＝″utf-8″standalone＝″yes″？>

<p_class_list>

<p_class name＝″天然原料″>

<p_c>

<product_name>产品中文名称全称</product_name>

<product_Specification>规格</product_Specification>

<product_price>价格</product_price>

<product_company>生产企业</product_company>

<Main_function>主要功能</Main_function>

<product_Performance>性能</product_Performance>

<Technical_parameters>技术参数</Technical_parameters>

</p_c>

***采用的检索算法属于索引检索，即用空间换取时间，对要检索的文件、字符流进行全文索引。在检索的时候对索引进行快速的检索，得到检索位置，这个位置记录检索词出现的文件路径或者某个关键词。因为对于每一个切分出来的词组项，这种索引可以列出包含它的文档。这就是文档与项自然联系的倒置，也就是倒排索引。

1)从元数据文档存储区读取文档信息。

2)利用筛选器过滤元数据文档中的格式信息和非文字信息，生成文字串和属性/值对，并把它传递给索引引擎，如图3即是相对于上文中所示的轻纺原料数据库元数据文件格式进行了筛选，过滤了无用信息后得到的元数据关键词。

3)对提取的字符串进行反向索引。也就是记录包含搜索词的文档的信息、出现次数以及搜索闻在文档中的相关位置。就是说将习惯思维的对应关系：“文件号”对“文件中所有关键词”，利用倒排索引把这个关系倒过来，变成：“关键词”对“拥有该关键同的所有文件号”，即某个查询词在某些文件中出现过。反向索引可以应用统计和概率公式，以便快速计算文档的相关性。对2)中得到的字符串进行分词后的效果如图4所示。除了记录关键词在哪些元数据文件中出现还不够，我们还需要知道关键词在出现次数和出现的位置，这样就可以在显示查询结果时对于关键词进行高亮(例如，关键词字体变红或者加粗)处理，并且节约索引空间，提高查询效率。关键词的索引结果如表1所示(假设有两个编号为1和2的元数据文件)：图5说明“中国”这个关键词在元数据文件2中出现过3次，出现位置分别为第5，16和22个关键词。

4)根据搜索词对搜索到的元数据集按照特定算法进行排序，把最相关的文档放在最前面，提高搜索的准确性。经过对轻纺原料数据库共享数据进行长期的分析总结，项目内部制定了自己的数据权重分析方法。采用的排序算法就是以此为基础，并结合搜索引擎排序算法常用的PageRank，也就是链接分析算法(被引用的最多的数据就是最重要的数据)得到的。

全文搜索方式虽然包含的信息量最为丰富，但同时也必然带来一定的弊端。由于用户搜索时对数据的了解太少，必然会造成搜索后返回大量的结果集，即使有排序算法的帮助，***效率还是必然要受到一定影响。基于特定节点搜索的设计就是为了更好地避免这个问题，有针对性地进行搜索，必然会提高搜索效率和准确性。

已经提到过，面向纺织原料信息共享元数据标准规定把元数据分为两级。一级元数据是惟一标识一个数据集(数据集、数据集系列、要素和属性)所需要的最少的元数据实体和元素。这说明按照标准生成的每个元数据文件必然包含一级元数据中规定的必选元素。也就是说，有一些元素可以惟一表示一个数据集。面向纺织原料信息共享元数据标准方案中规定的一级元数据中的必选元素如图6所示(只列出部分)。

根据上述轻纺原料数据库-级元数据节点的特点，我们以轻纺原料数据库元数据标准中规定的一级元数据作为特定节点，对基于全文的数据搜索功能进行扩展，增加特定节点搜索功能。

本***通过代码实现对文件中任意特定节点的属性值的获取。如果用户针对“技术参数”这一特定节点进行索引，那么图7中对元数据关键词的过滤就会以此为基础，将与“技术参数”无关的信息全部过滤，减少了大量无关信息，如图4所示。那么，与图2比较，显而易见的。对少量数据进行索引和搜索，其效率必然大大高于对全文信息的搜索。特定节点的搜索与全文搜索的索引模式几乎相同，关键的区别在于对元数据文件中的有效信息的获取。

运行实例

因此，如果有针对性的对这种特定节点进行索引，并提供给用户搜索接口，就会大大减少干扰结果集的数量，提高搜索的有效性。考虑到***用户的搜索习惯和对数据的了解情况，目前***中实现的是为用户提供数据集名称、摘要以及负责单位这三个特定节点元素的检索。

中国轻纺原料网中的轻纺原料元数据量约为1,000,000条。如上所述，***根据不同的检索需要，可以对元数据进行不同的索引，设立元数据全文检索、数据集名称检索、数据集摘要检索以及数据集提交单位检索四个入口。

由于引擎包含了中文分析器，因此元数据的查询可以输入中文或英文作为查询词进行检索，含有该关键词的中文或英文都将被显示出来。在结果集中，查询词会高亮显示，让用户可以快速清晰地找到搜索词。

引擎也可以基于多关键词进行检索。例如，用户希望检索轻纺行情的内容，同时还希望检索报价的内容，只需要输入这两个查询词，并用空格隔开，就可以获得检索结果。

从中可以明显看出全文搜索和针对节点搜索的不同，以“氨纶”为检索词，全文搜索返回22条记录，节点搜索返回5条记录。节点搜索的结果更有针对性，排除了很多无用的结果集，不用翻页就能找到用户需要的数据，而全文搜索适用的范围更加广泛，二者各有其优势。

Claims

1.一种面向纺织原料基于语义的数据搜索引擎装置，其特征在于：包括三大部份：客户端操作界面，基于语义的搜索引擎，市场行为数据仓库。

2.一种面向纺织原料基于语义的数据搜索引擎方法，其特征在于，包括以下步骤：

(1)、从元数据文档存储区读取文档信息；