CN103838876A - 使用拼音检索文件的文件检索方法及*** - Google Patents

使用拼音检索文件的文件检索方法及*** Download PDF

Info

Publication number
CN103838876A
CN103838876A CN201410116225.3A CN201410116225A CN103838876A CN 103838876 A CN103838876 A CN 103838876A CN 201410116225 A CN201410116225 A CN 201410116225A CN 103838876 A CN103838876 A CN 103838876A
Authority
CN
China
Prior art keywords
file
document
index
retrieval
filename
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410116225.3A
Other languages
English (en)
Other versions
CN103838876B (zh
Inventor
刘焱青
贺旺喜
张熠转
陈凌轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN201410116225.3A priority Critical patent/CN103838876B/zh
Publication of CN103838876A publication Critical patent/CN103838876A/zh
Application granted granted Critical
Publication of CN103838876B publication Critical patent/CN103838876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文件检索***及使用拼音检索文件的方法,该方法包括以下步骤:逐个扫描文件***中的文件,将文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,并与文件名全名、文件全路径和所属文件***名生成一条文件索引记录,形成文件索引;根据检索关键词和用户检索意愿从文件索引中检索到与之匹配的文件索引记录,执行相应的操作,用户检索意愿方式为基于拼音首字母、拼音全拼或文件名全名检索;本发明,将文件***中的文件通过拼音首字母,拼音全拼和文件全名形式生成文件索引,用户检索时直接将输入的关键词在生成的文件索引中进行检索,可以避免对输入关键词进行翻译的过程,并且有效减少一些不必要的检索过程,提高检索效率。

Description

使用拼音检索文件的文件检索方法及***
技术领域
本发明涉及文件检索,具体涉及使用拼音检索文件的文件检索方法及***。
背景技术
在文件检索***中,如果本地文件***中包含有多种语言的文件,通常的作法是除了通过输入关键词检索文件***中匹配的文件外,还需要通过将输入关键词中的拼音字母翻译成中文汉字形成一个或多个与之相匹配的新关键词,再次检索文件***中匹配的文件,累积检索出来的结果为用户最终检索结果,从而实现在全名检索文件的基础上实现拼音检索文件的功能。
然而,由于许多汉字都存在多音字,并且汉字拼音有四个声调,因此同一个汉字拼音可能有4种不同的多音字,这样,把用字母输入的关键词当作拼音翻译成中文汉字后,用户输入的一个关键词就有可能被翻译成一个或多个汉字关键词,特别是翻译拼音首字母形式的关键词,在通过这些关键词对文件***中的文件进行检索。这样翻译生成的关键词,其中翻译生成的关键词会存在很多冗余搜索(因为文件***中根本不存在这样的文件),而且这样将耗费很长的检索时间完成检索,从而使检索效率低下。
发明内容
本发明所要解决的技术问题是的问题。
为了解决上述技术问题,本发明所采用的技术方案是提供一种使用拼音检索文件的方法,包括以下步骤:
步骤A10:逐个扫描文件***中的文件,并将扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,然后将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件***名生成一条文件索引记录,形成文件索引;一条文件索引记录的格式如图4、图5中右部分所示。
步骤A20:在检索内容栏中输入待检索的文件名并选择检索意愿方式,所述用户检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索;
步骤A30、根据所述检索关键词和所述用户检索意愿从所述文件索引中检索到与之匹配的文件索引记录;
步骤A40、显示检索结果,并根据用户的操作对检索到的所述文件索引记录执行相应的操作。
在上述方法中,根据用户检索意愿对所有与关键词匹配的文件索引记录进行优先排序。
在上述方法中,根据检索关键词,只检索与检索意愿相关的文件索引记录。
在上述方法中,还包括文件索进行引实时更新,具体步骤如下:
实时或定时扫描与检测文件***的文件和文件变更;
根据文件***的文件和文件变更情况,实时更新文件索引,对于新增的文件***,对该文件***中的文件进行逐个扫描,对扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名、文件全路径以及所属文件***名生成文件索引记录,更新到文件索引中;对于移除的文件***,直接删除文件索引中对应该文件***名的所有文件索引记录;对于新增文件或更改文件名的文件,将该文件的文件名翻译成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名新增一条索引记录到文件索中;对于删除的文件,根据删除文件的文件名删除对应的文件索引记录。
本发明还提供了一种文件检索***,包括索引生成装置和检索装置;
所述索引生成装置包括扫描单元、翻译服务单元和索引生成单元,所述扫描单元逐个扫描文件***中的文件;所述翻译服务单元将扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串;所述索引生成单元将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件***名生成一条文件索引记录,形成文件索引;
所述检索装置包括输入单元、文件检索单元和检索结果输出单元,用户通过所述输入单元输入待检索的文件名以及检索意愿方式,所述用户检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索;所述文件检索单元根据所述检索关键词和所述用户检索意愿从所述文件索引中检索到与之匹配的文件索引记录;所述检索结果输出单元显示检索到的文件索引记录。
在上述文件检索***,所述索引生成装置上还设有还包括文件***监测单元和索引管理单元,所述文件***监测单元实时或定时监测文件***的变更以及文件***中的文件变更,并发出相应的变更请求,所述索引管理单元根据所述变更请求实时更新文件索引中的相关文件索引记录。
本发明,将文件***中的文件通过拼音首字母,拼音全拼和文件全名形式生成文件索引,用户检索时直接将输入的关键词在生成的文件索引中进行检索,可以避免对输入关键词进行翻译的过程,并且有效减少一些不必要的检索过程,提高检索效率。
附图说明
图1为本发明中文件检索***的示意图;
图2为本发明中汉字拼音库的示意图;
图3为用户输入的待检索文件名关键词示例图;
图4为对图3所示的示例按照拼音全拼形式检索出的结果示例图;
图5为对图3所示的示例按照拼音首字母形式检索出的结果示例图;
图6为本发明提供的使用拼音检索文件的方法流程图;
图7为本发明文件索引存储格式示意图。
具体实施方式
下面结合附图对本发明做出详细的说明。
如图1所示,本发明提供的文件检索***包括索引生成装置10和检索装置20,其中,索引生成装置10用于扫描文件***中的文件并生成索引文件,检索装置20用于使用关键词进行文件检索。
索引生成装置10包括扫描单元11、翻译服务单元12和索引生成单元13,同时该索引生成装置10上还保存有与每个汉字对应的拼音全拼、拼音首字母和使用频率的汉字拼音库16。如图2所示,汉字拼音库16中以每个汉字为一条记录,记录包含汉字的中文字、拼音全拼、拼音首字母和使用频率。其中使用频率分为三种,0代表一般字,1代表常用字,2代表最常用的百家姓。
扫描单元11用于逐个扫描文件***中的文件,获得文件名全名、文件全路径和所属文件***名。
翻译服务单元12用于将扫描单元11扫描得到的文件名,依据汉字拼音库16逐一翻译生成拼音首字母形式和拼音全拼形式的字符串。将汉字翻译成拼音时,如果该汉字为多音字,则生成的结果是与该汉字对应的每个多音字拼音的组合汉字拼音库。
如图3~图5所示,文件名字符串“abc丁么-2013.txt”中丁字和么字都是多音字,按照拼音全拼翻译,则会翻译出如图4所示的8种文件名字符串结果;按照拼音首字母翻译,则会翻译出如图5所示的4中文件名字符串结果。
索引生成单元13用于将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件***名生成一条文件索引记录,形成文件索引30。
检索装置20包括输入单元21、文件检索单元22和检索结果输出单元23。
输入单元21用于使用者输入关键词和设置用户意愿,例如鼠标或键盘等,用户通过输入单元21输入待检索的文件名以及检索意愿方式,用户检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索。
文件检索单元22根据用户输入的一个或一个以上的关键词和用户检索意愿从文件索引中检索到与之匹配的文件索引记录。
检索结果输出单元23用于显示检索到的文件索引记录,向使用者显示检索处理的结果,可以是显示器或打印机等设备。
此外,图中虽没有表示,但检索装置20包括用于存储信息的存储单元,用于存储文件检索程序和相关文件数据。
本发明中,索引生成装置10上还设有文件***监测单元14和索引管理单元14,文件***监测单元14采用实时或定时的模式监测文件***的变更以及文件***中的文件变更(包括新增和删除文件,以及修改文件名),文件索引管理单元15用于对文件***监测单元14发出的文件***及文件变更请求进行处理,根据处理结果更新文件索引中相关文件索引记录。例如:
文件***监测单元14发现文件检索***所在的终端***或者电脑pc***接入新的文件***(包括外置USB存储器、内置或外置硬盘或内置ROM存储器等)时,通过文件索引管理单元15通知扫描单元11,对该文件***中的文件进行逐个扫描,并对扫描到的文件名逐一通过翻译服务单元12进行翻译生成拼音首字母形式和拼音全拼形式的字符串,通过索引生成单元13将其结合文件名全名、文件全路径以及所属文件***名生成文件索引记录,更新到文件索引中,实现文件索引的更新;
文件***监测单元14发现文件检索***所在的终端***或者电脑pc***移除部分文件***时,通知文件索引管理单元15直接删除文件索引中对应该文件***名(即文件索引中所属文件***名字段)的所有文件索引记录,实现文件索引的更新;
文件***监测单元14获取到用户对文件***某个文件进行删除时,通知文件索引管理单元15需要更新文件索引,直接删除文件索引中该文件所对应的文件索引记录;
文件***监测单元14获取到用户在文件***新增文件,通知文件索引管理单元15需要更新文件索引,将该文件的文件名通过翻译服务单元12将其翻译成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名新增一条索引记录到文件索中。
文件***监测单元14获取到用户修改文件名时,则将新修改的文件名通过翻译服务单元12翻译成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名更新到文件索引中该文件名原名所对应的文件索引记录。
在此基础上,本发明还提供了一种使用拼音检索文件的方法,如图6所示,该方法包括以下步骤:
步骤A10:逐个扫描文件***中的文件,并将扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件***名生成一条文件索引记录,形成文件索引;
步骤A20:在检索内容栏中输入待检索的文件名并选择检索意愿方式,所述用户检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索。以机顶盒为例,用户通过访问机顶盒的本地文件检索界面,在检索内容栏输入待检索的文件名,在用户检索意愿设置项中勾选检索方式,并点击检索按钮进行文件检索。
步骤A30、根据用户输入的检索关键词和检索意愿从文件索引中检索到与之匹配的文件索引记录。
可以根据检索关键词将所有与之匹配的文件索引全部提取出来,再将检索出来的文件索引结果根据用户检索意愿进行优先排序(即用户检索意愿优先显示在结果前面),也可以根据检索关键词只检索用户检索意愿相关的文件索引并提取出来。检索方式支持基于文件名、基于拼音首字母或基于拼音全拼的全词或全词部分内容的模糊查询。
文件索引如图7所示,例如:文件名为“abc丁么-2013.mp3”的索引内容包括文件全名、文件所属文件***名、文件全路径、编码类型以及对应编码类型的文件名。其中编码类型包括文件名全名、拼音全拼形式文件名和拼音首字母形式文件名。
步骤A40、显示检索结果,并根据用户的操作对检索到的所述文件索引记录执行相应的操作,如点选文件进行播放、修改文件名、删除文件等。该步骤中,检索结果以汉字拼音库的形式通过显示装置展示给用户,显示装置是指用于显示机顶盒内容的电视机或显示器等设备。
上述方法中,还包括文件索引的实时更新,鉴于该部分内容之前已经详细介绍,在此不再赘述。
本发明不局限于上述最佳实施方式,任何人应该得知在本发明的启示下作出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。

Claims (6)

1.使用拼音检索文件的方法,其特征在于,包括以下步骤:
步骤A10:逐个扫描文件***中的文件,并将扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件***名生成一条文件索引记录,形成文件索引;
步骤A20:在检索内容栏中输入待检索的文件名并选择检索意愿方式,所述用户检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索;
步骤A30、根据所述检索关键词和所述用户检索意愿从所述文件索引中检索到与之匹配的文件索引记录;
步骤A40、显示检索结果,并根据用户的操作对检索到的所述文件索引记录执行相应的操作。
2.如权利要求1所述的方法,其特征在于,根据用户检索意愿对所有与关键词匹配的文件索引记录进行优先排序。
3.如权利要求1所述的方法,其特征在于,根据检索关键词,只检索与检索意愿相关的文件索引记录。
4.如权利要求1所述的方法,其特征在于,还包括文件索进行引实时更新,具体步骤如下:
实时或定时扫描与检测文件***的文件和文件变更;
根据文件***的文件和文件变更情况,实时更新文件索引,对于新增的文件***,对该文件***中的文件进行逐个扫描,对扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名、文件全路径以及所属文件***名生成文件索引记录,更新到文件索引中;对于移除的文件***,直接删除文件索引中对应该文件***名的所有文件索引记录;对于新增文件或更改文件名的文件,将该文件的文件名翻译成拼音首字母形式和拼音全拼形式的字符串,并结合文件名全名新增一条索引记录到文件索中;对于删除的文件,根据删除文件的文件名删除对应的文件索引记录。
5.文件检索***,其特征在于,包括索引生成装置和检索装置;
所述索引生成装置包括扫描单元、翻译服务单元和索引生成单元,所述扫描单元逐个扫描文件***中的文件;所述翻译服务单元将扫描到的文件名逐一翻译生成拼音首字母形式和拼音全拼形式的字符串;所述索引生成单元将每一个文件对应的拼音首字母字符串、拼音全拼字符串以及文件名全名、文件全路径和所属文件***名生成一条文件索引记录,形成文件索引;
所述检索装置包括输入单元、文件检索单元和检索结果输出单元,用户通过所述输入单元输入待检索的文件名以及检索意愿方式,所述用户检索意愿方式为基于拼音首字母、基于拼音全拼或基于文件名全名用户检索;所述文件检索单元根据所述检索关键词和所述用户检索意愿从所述文件索引中检索到与之匹配的文件索引记录;所述检索结果输出单元显示检索到的文件索引记录。
6.如权利要求5所述的文件检索***,其特征在于,所述索引生成装置上还设有还包括文件***监测单元和索引管理单元,所述文件***监测单元实时或定时监测文件***的变更以及文件***中的文件变更,并发出相应的变更请求,所述索引管理单元根据所述变更请求实时更新文件索引中的相关文件索引记录。
CN201410116225.3A 2014-03-27 2014-03-27 使用拼音检索文件的文件检索方法及*** Active CN103838876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410116225.3A CN103838876B (zh) 2014-03-27 2014-03-27 使用拼音检索文件的文件检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410116225.3A CN103838876B (zh) 2014-03-27 2014-03-27 使用拼音检索文件的文件检索方法及***

Publications (2)

Publication Number Publication Date
CN103838876A true CN103838876A (zh) 2014-06-04
CN103838876B CN103838876B (zh) 2017-06-20

Family

ID=50802372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410116225.3A Active CN103838876B (zh) 2014-03-27 2014-03-27 使用拼音检索文件的文件检索方法及***

Country Status (1)

Country Link
CN (1) CN103838876B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915458A (zh) * 2015-07-02 2015-09-16 广东欧珀移动通信有限公司 一种在用户搜索应用时自动联想的方法、***及移动终端
CN106055121A (zh) * 2016-05-21 2016-10-26 乐视控股(北京)有限公司 输入法、信息搜索方法及***
CN107220390A (zh) * 2017-07-26 2017-09-29 山东浪潮商用***有限公司 一种创建中文名称索引的方法及装置
WO2018103585A1 (zh) * 2016-12-07 2018-06-14 潘岩 一种对网页信息条文排序的方法及装置
CN112000620A (zh) * 2020-08-14 2020-11-27 深圳市绿联科技有限公司 文件搜索方法、装置及设备
CN112445830A (zh) * 2020-11-26 2021-03-05 湖南智慧政务区块链科技有限公司 一种基于区块链技术的数据分析***

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108281144B (zh) * 2018-01-23 2020-12-08 浙江国视科技有限公司 一种语音识别方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6169999B1 (en) * 1997-05-30 2001-01-02 Matsushita Electric Industrial Co., Ltd. Dictionary and index creating system and document retrieval system
CN101344394A (zh) * 2008-09-02 2009-01-14 凯立德欣技术(深圳)有限公司 导航***及导航***的信息点检索方法
CN101593191A (zh) * 2008-05-29 2009-12-02 国络多媒体有限公司 数据库的索引建立方法、数据库搜寻方法与***
CN102236706A (zh) * 2011-06-17 2011-11-09 浙江大学 一种海量中文文件名快速模糊拼音查询方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6169999B1 (en) * 1997-05-30 2001-01-02 Matsushita Electric Industrial Co., Ltd. Dictionary and index creating system and document retrieval system
CN101593191A (zh) * 2008-05-29 2009-12-02 国络多媒体有限公司 数据库的索引建立方法、数据库搜寻方法与***
CN101344394A (zh) * 2008-09-02 2009-01-14 凯立德欣技术(深圳)有限公司 导航***及导航***的信息点检索方法
CN102236706A (zh) * 2011-06-17 2011-11-09 浙江大学 一种海量中文文件名快速模糊拼音查询方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915458A (zh) * 2015-07-02 2015-09-16 广东欧珀移动通信有限公司 一种在用户搜索应用时自动联想的方法、***及移动终端
CN104915458B (zh) * 2015-07-02 2019-04-05 Oppo广东移动通信有限公司 一种在用户搜索应用时自动联想的方法、***及移动终端
CN106055121A (zh) * 2016-05-21 2016-10-26 乐视控股(北京)有限公司 输入法、信息搜索方法及***
WO2018103585A1 (zh) * 2016-12-07 2018-06-14 潘岩 一种对网页信息条文排序的方法及装置
CN107220390A (zh) * 2017-07-26 2017-09-29 山东浪潮商用***有限公司 一种创建中文名称索引的方法及装置
CN112000620A (zh) * 2020-08-14 2020-11-27 深圳市绿联科技有限公司 文件搜索方法、装置及设备
CN112445830A (zh) * 2020-11-26 2021-03-05 湖南智慧政务区块链科技有限公司 一种基于区块链技术的数据分析***
CN112445830B (zh) * 2020-11-26 2024-05-14 湖南智慧政务区块链科技有限公司 一种基于区块链技术的数据分析***

Also Published As

Publication number Publication date
CN103838876B (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN103838876A (zh) 使用拼音检索文件的文件检索方法及***
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
JP5346279B2 (ja) 検索による注釈付与
JP5437557B2 (ja) 検索処理方法及び検索システム
CN101794307A (zh) 基于互联网分词思想的车载导航poi搜索引擎
US10031907B2 (en) Context-based text auto completion
US20040133566A1 (en) Data searching apparatus capable of searching with improved accuracy
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN102968469B (zh) 一种应用索引建立方法和***、应用检索方法和***
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN102622371B (zh) 一种历史关联库***及其实现方法和电子学习设备
US20120162244A1 (en) Image search color sketch filtering
CN107844493B (zh) 一种文件关联方法及***
WO2020056977A1 (zh) 知识点推送方法、装置及计算机可读存储介质
CN105389344A (zh) 一种自助式查新方法及***
CN102971729A (zh) 将可操作属性归于描述个人身份的数据
US20190188647A1 (en) Multiple element job classification
CN103177039A (zh) 一种数据处理方法及装置
KR101234795B1 (ko) 컨텐츠 브라우징 장치 및 방법
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
JP2011133928A (ja) 記憶装置に記憶してある文書ファイルを検索する検索装置、検索システム、検索方法及びコンピュータプログラム
CN114391142A (zh) 使用结构化和非结构化数据的解析查询
CN105426490A (zh) 一种基于树形结构的索引方法
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant