CN103177122B

CN103177122B - 一种基于同义词的个人桌面文件搜索方法

Info

Publication number: CN103177122B
Application number: CN201310128267.4A
Authority: CN
Inventors: 李玉坤; 赵喜燕; 赵德新
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2013-04-15
Filing date: 2013-04-15
Publication date: 2017-04-26
Anticipated expiration: 2033-04-15
Also published as: CN103177122A

Abstract

一种基于同义词的个人文件搜索方法。该方法通过现有的分词工具将数据集中的文件名进行分词，分词后，利用在线词典网站进行同义词的匹配，利用网页爬取技术将在线词典网站返回的该词语的同义词以及近义词信息抽取出来得到用户个性化的同义词表；然后基于输入的关键词，利用字符串匹配方法，并且结合对应的同义词表，将包含搜索词或其同义词的文件作为搜索结果返回，并基于用户对于文件名所含词语的偏好度来排序。本发明将个人桌面文件与同义词结合起来，针对个人数据管理中文件的查询问题，提出以上解决方案，该方法具有简洁实用、容易实现的特性，同时还可以大大减少用户的文件搜索时间，便于用户查询个人桌面文件，提高文件的召回率以及准确率。

Description

一种基于同义词的个人桌面文件搜索方法

技术领域

本发明涉及个人信息管理领域，尤其是涉及一种基于同义词的个人文件搜索方法。

背景技术

数字化技术和web的发展使人们每天处理的信息量剧增，而人的注意力和能够用在数据管理上的时间却是基本不变的，因此个人数据空间管理日益成为一个重要的研究问题。个人信息管理的广义定义就是既包括了对个人记忆信息的管理，也包括对外部信息的管理。随着信息技术的发展，信息资源的种类、形式越来越多，原先用于传统纸质信息的方法不再适用，需要从搜集、整理、组织、检索等方面探究信息管理自动化的方法。同时，在当下，个人电脑的普及大大增强了人们处理和管理信息的能力。个人信息管理在很多学科领域得到了发展，包括人机交互、数据库管理、信息检索、信息科学等。

目前，人们常用的个人桌面文件检索方法具有一定的局限性。随着现代信息技术和互联网的发展，信息呈海量增长，另一方面，存储装备的价格变得更低，用户更加倾向于购买大容量的存储设备以存储更多的个人数据，但是用户想要在这海量的数据中搜索自己有用的信息，需要花费很长的时间。

基于文件***的资源浏览器是目前人们管理及查询个人桌面文件最常使用的方式。人们通过目录结构进行浏览，找到所需要的数据文件。这种方法有以下局限性：对于一些很长时间没有使用的文件，用户往往不能回忆起文件存放的准确位置，可能需要进行多次尝试才能找到所需要的文件，从而浪费时间。有时甚至无法找到所需要的文件。

桌面搜索也是目前经常使用的一种查找个人桌面文件的方法。例如谷歌、微软等都有自己的桌面搜索工具。桌面搜索技术的核心是通过对桌面文件建立全文索引，从而支持用户通过关键字搜索需要的文件。这种方法有以下局限性：一是在查找一些很长时间没有使用的文件时，用户往往不能准确回忆起所需要的关键字；二是这种方式不能支持一些基于同义词的查询；三是全文索引也往往导致比较低的效率。

现有的个人数据查询方法具有各自的局限性。行为学研究表明：主体对客体的记忆具有一定的规律性。这种规律性表现在很多方面。例如，主体对文件名的记忆会随着时间逐渐减弱；对于长时间没有访问的文件实体，用户往往不记得它的存储位置，而只是模糊的记得它的文件名中包含的某个关键词等，现在的桌面搜索工具只是根据字符串匹配的方式进行查询，并且有些桌面搜索工具(如微软的桌面搜索工具)需要在整个文件***(包括***的安装文件)中进行查询。这种查询方式不仅要花费更长的查询时间，并且与搜索关键词相似的文件名并没有查询出来。

基于同义词对文件进行检索可以提高查询效率和召回率，本发明就是针对这一问题。

发明内容

本发明目的是克服现有技术存在的上述问题，提出一种基于同义词的个人文件搜索方法，本发明是基于通过发明人研发的一个原型***对用户桌面行为进行监控，搜集大量数据并进行分析后提出的，主要针对解决用户对于长时间没有访问的文件，因记不清其存储位置和准确的关键字信息而无法有效查询的问题。比如当用户需要查询一篇以前阅读过并存储在个人计算机上的关于索引的文章时，由于该用户当初命名文件的时候可能使用用“论文”、“文章”，也可能使用英文Paper或Article。用户在需要查询这篇文章的时候，就需要利用几个关键字进行多次尝试，从而耽误很多时间。因此基于同义词的查询，可以解决这个问题。

本发明针对个人计算机中文件的管理问题，在基于关键字查询的基础上，考虑查询关键字的同义词关系，使得传统的桌面搜索工具基于字符串匹配查询时，扩展其字符串的匹配范围，本发明提供的基于同义词的个人文件搜索方法具体步骤包括：

第1，通过现有的分词工具将通过原型***搜集的数据集中的文件名进行分词，同时将分词后的那些没有实际意义的、包含数字的词语过滤掉，然后将文件名与其对应的词语存入数据库，作为用户的词语列表(如图6中的表A)；

第2，文件名经过分词后，进行同义词的匹配，在进行同义词的匹配时，我们利用一个在线词典网站进行操作；

第2.1遍历所有的词语，对于每一个词语，将其作为在线词典网站的搜索词；

第2.2该网站会返回一个关于此词语的一个查询结果网页，其包含了该词语的基本释义、同义词、近义词、反义词等信息，利用网页爬取技术将该词语的同义词以及近义词信息爬取下来；

第2.3对于爬取出来的同义词、近义词中的每一个词语，去遍历该用户的分词后的词语列表(如图6中的表A)，如果词语列表中包含有这些爬取出来的词语，那么就可以将其作为一对有关系的词语，存入数据库，作为同义词表(如图6中的表B)；

第3，基于输入的关键词，利用字符串匹配方法，并且结合对应的同义词进行查询；

第3.1输入要查询桌面文件的一个关键词K；

第3.2在图6中的表B中进行查询，查询此关键词的对应同义词集合S；

第3.3将该关键词和查到的同义词作为一个查询文档的查询关键词，作为集合SK；

第3.4遍历集合SK中的每一个词语，在用户的词语列表(如图6中的表A)查询其对应的文件名；

第3.5返回查询结果(如图10所示)。

本发明的优点和有益效果：

本发明将个人桌面文件与同义词结合起来，针对个人数据管理中文件的查询问题，提出解决方案，该方法具有独特的创造性，该方法既可以集成到现有的桌面搜索引擎等个人信息管理工具，也可以将该技术用于元搜索引擎中。

本发明方法新颖，具有简洁实用、容易实现的特性，同时还可以大大减少用户的文件搜索时间，便于用户查询个人桌面文件，提高文件的召回率以及准确率。

附图说明

图1是本发明基于同义词的个人文件搜索方法的方框图；

图2是本发明的文件名分词步骤的具体流程图；

图3是本发明的构建同义词图步骤的具体流程图；

图4是本发明的查询步骤的具体流程图；

图5是本发明所用到的数据集中用户的一部分数据的展示图；

图6是针对图5中的文件名进行分词后的结果(表A)，并存储其相应同义词的数据表(表B)；

图7是针对图5中文件名分词后的词语进行词语偏好度的计算结果图；

图8是针对图7所构建的同义词图；

图9是文件名分词后的词语以及次数统计；

图10是实施例中的搜索结果。

为了更全面地理解本发明及其优点，下面结合附图及具体实施例对本发明做进一步详细地说明。

具体实施方式

本发明涉及的几个概念

个人桌面文件(Personal Desktop File)：

个人桌面文件是指个人电脑中用户访问的文件，不包括***文件，例如，一篇文档，一个图片等都可以看作是个人桌面文件。

个人桌面词典(Personal Desktop Vocabulary)：

个人桌面词典是指包含在个人桌面文件中文件名的词语集合，除了那些包括数字，没有实际意义的词语。

词语偏好程度(Word Preference Degree)：

词语偏好程度是指在整个个人桌面文件的文件名的命名中，词语的使用次数。

桌面同义词图(Desktop Synonym Graph)：

桌面同义词图的结点指的是个人桌面文件的文件名经过分词后的词语以及通过在线词典网站查询的同义词，桌面同义词图的边指的是两个结点是同义词关系。

文件关键字向量(File Keyword Vector)：

文件关键字向量指的是一个文件的文件名包含的词语所组成的向量。

实施例1

下面我们以一个例子来说明基于同义词的个人文件搜索方法，并且对以上概念进行实例的说明。

第一，文件名分词

对于图5中的文件集合，我们经过分词工具后，可以得到文件名对应的各个词语，同时我们也可以统计出其出现的次数，如图9所示，这表示了一个用户的个人桌面词典。

例如：基于图5所示的用户的部分个人桌面文件，我们可以对其中的文件名进行分词，那么分词后的结果如图6中的表A所示，每一个文件名对应其包括的每一个词语。

第二，构建关键词同义词图

由图9中的词语，通过在线词典网站，可以得到其同义词，并且经过查询图6中表A，是否存在此同义词，如果存在，可以将其存入数据库，如图6中的表B。

根据如下公式，可以计算出个人桌面词典中的每一个词语的词语偏好程度，其中公式中的分母指的是同义词组中的词语的总个数，而分子wi.Times指的是同义词组中的每一个同义词的个数，如图7所示。

根据图9所得到的个人桌面词典，我们可以构建桌面同义词图，如图8所示，此图中去掉了那些没有同义词的词语，只保留有同义词的词语。

此处，我们以“A paper on indexing dataspace.pdf”文件为例，paper，indexing，以及dataspace存在于我们的个人桌面词典中，同时我们也可以算出他们的词语偏好度：(paper，0.40)，(indexing，0.50)，(dataspace，0.50)，比如同义词组(paper，article，论文)，在整个用户词语列表中出现的次数分别为2,1,2，因此paper的偏好度为因此我们得到文件关键词向量为(indexing,dataspace,paper)，即按每个词语的词语偏好度来排序。

第三，查询

1.如果用户需要查询关键词为“article”的文章，用户输入“article”后，首先会在如图6中的表B中查询其同义词，找到其同义词“paper”和“论文”；

2.利用字符串匹配方法，在图6中的表A中查询文件名中包含“article”，“paper”和“论文”的文件，此时会返回结果五个文件，因为这五个文件的文件名中包含了上述三个词语中的一个；

3.根据用户对词语的偏好度对这些文件进行排序，得到结果，如图10所示；

通过上述可知，本发明方法新颖，具有简洁实用、容易实现的特性，同时还可以大大减少用户的文件搜索时间，便于用户查询个人桌面文件，提高文件的召回率以及准确率。

对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此，具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此，在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下，可对其做出各种修改。

Claims

1.一种基于同义词的个人桌面文件搜索方法，其特征在于该方法包括：

第1，通过现有的分词工具将通过原型***搜集的数据集中的文件名进行分词，同时将分词后的那些没有实际意义的、包含数字的词语过滤掉，然后将文件名与其对应的词语存入数据库，作为用户的词语列表；

第2，文件名经过分词后，利用一个在线词典网站进行同义词的匹配；

第2.2该网站会返回一个关于此词语的一个查询结果网页，该网页包含了该词语的基本释义、同义词、近义词、反义词信息，利用网页爬取技术将该词语的同义词以及近义词信息爬取下来；

第2.3对于爬取出来的同义词、近义词中的每一个词语，去遍历该用户分词后的词语列表，如果词语列表中包含有这些爬取出来的词语，那么就将搜索词与其同义词作为一对有关系的词语存入数据库，作为同义词表；

第3.1输入要查询桌面文件的一个关键词K；

第3.2在数据库的同义词表中进行查询，查询该关键词的对应同义词集合S；

第3.4遍历集合SK中的每一个词语，在数据库的用户词语列表中查询对应的文件名；

第3.5返回查询结果。