CN102346741A - 根据输入关键词产生衍生关键词的资料检索***及其方法 - Google Patents

根据输入关键词产生衍生关键词的资料检索***及其方法 Download PDF

Info

Publication number
CN102346741A
CN102346741A CN2010102441068A CN201010244106A CN102346741A CN 102346741 A CN102346741 A CN 102346741A CN 2010102441068 A CN2010102441068 A CN 2010102441068A CN 201010244106 A CN201010244106 A CN 201010244106A CN 102346741 A CN102346741 A CN 102346741A
Authority
CN
China
Prior art keywords
keyword
index
dictionary
algorithm
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102441068A
Other languages
English (en)
Inventor
邱全成
徐胡晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN2010102441068A priority Critical patent/CN102346741A/zh
Publication of CN102346741A publication Critical patent/CN102346741A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种根据输入关键词产生衍生关键词的资料检索***及其方法,其具有根据输入的查询字串至词库比对出至少一关键词,并根据至少一关键词产生衍生关键词,并以已输入关键词及衍生关键词同步检索资料项的技术手段,借此可以达成提高资料检索结果的资料完整性的技术功效。

Description

根据输入关键词产生衍生关键词的资料检索***及其方法
技术领域
本发明涉及一种资料***及其方法,特别系指一种根据输入的关键词产生衍生关键词的资料检索***及其方法。
背景技术
资料检索是一种接收关键词后,根据关键词至资料库中检索包含关键词的资料项的技术,普遍应用于网页搜寻引擎、电子或线上词典以及各种大型资料库的资料搜寻上。以往的资料检索,其是通过先接收使用者输入的关键词,接着比对资料项中是否具有关键词,若有则将包含关键词的资料项撷取出来,借此,使用者可以快速的从大量的资料项中过滤出部分资料项。
然而,在以往进行资料检索的过程中,虽可检索出包含关键词的资料项,但并无法根据关键词衍生搜寻出其他的可能关联资料项。举例来说,假设使用者欲搜寻具有花与花瓶的资料项时,输入关键词“花”及“花瓶”即可检索出具有其中一个关键词或是两个关键词皆包含的资料项。但是,当使用者希望借由“花”及“花瓶”的衍生关联性搜寻出与“花盆”相关的资料项时,必须自行输入“花盆”这个关键词,才能搜寻出包含“花盆”的资料项,而无法根据“花”及“花瓶”的关联性衍生“花盆”这个关键词进行检索。
虽然目前可以在使用者输入关键词时提示以往经常被拿来搜寻的关键词组,但这些作为提示的关键词组通常是必须被经常搜寻才能够成为提示的关键词组,当关键词之间具有关联性但却非经常被用来搜寻时,便无法检索到与已输入关键词有关联性但不包含已输入关键词的资料项,产生了无法全面性的将与已输入关键词相关的资料项完整地撷取出来的问题。举前述的例子而言,即输入“花”及“花瓶”,虽能撷取出包含“花”及“花瓶”作为关键词的资料项,但却无法撷取出仅包含“花盆”这个关键词的资料项。
综上所述,可知现有技术中长期以来一直存在资料检索结果的资料完整性不佳的问题,因此有必要提出改进的技术手段,来解决此一问题。
发明内容
有鉴于现有技术存在的问题,本发明遂公开一种根据关键词衍生关联性词汇的词库检索***及其方法,其中:
本发明所公开的根据关键词衍生关联性词汇的词库检索***,其包含:资料库,预先储存有至少一笔资料项;词库,预先储存有至少关键词,其中各关键词更对应有至少一索引;接收模块,用以接收输入的查询字串;比对撷取模块,用以于接收模块接收到查询字串后根据查询字串至词库中比对出至少一第一关键词,并至词库撷取各第一关键词对应的至少一索引并进行比对,其中:当至少一第一关键词存在有至少一个相同的索引时,至词库撷取出具有相同索引的至少一第二关键词,并以所有第一关键词及所有第二关键词撷取资料库的资料项;及当至少一第一关键词不存在有相同索引时,根据文字关联性演算法取得至少一第三关键词,并以所有第一关键词及所有第三关键词撷取资料库的资料项;及显示模块,用以显示撷取的资料项。
所述的根据关键词衍生关联性词汇的词库检索***,其中所述的至少一索引系为各关键词的词性及词义分类。此外文字关联性演算法系为最长共同连续字串演算法或文字合并演算法,当为最长共同连续字串演算法时,所述的比对撷取模块更包含以演算出的最长共同连续字串结合至少一万用字元至词库撷取出至少一第三关键词,当为文字合并演算法时,所述的比对撷取模块更包含以演算出的至少一结合字作为第三关键词。
本发明所公开的根据输入关键词产生衍生关键词的资料检索方法,其包含步骤:预先建立储存有至少一笔资料项的资料库;预先建立储存有至少一关键词的词库,其中各关键词更对应有至少一索引;接收输入的查询字串并根据查询字串至词库比对出至少一第一关键词;至词库撷取各第一关键词对应的至少一索引进行比对,其中:当至少一第一关键词存在有至少一个相同的索引时,至词库撷取出具有相同索引的至少一第二关键词,并以所有第一关键词及所有第二关键词撷取该资料库的资料项;及当至少一第一关键词不存在有相同索引时,根据文字关联性演算法取得至少一第三关键词,并以所有第一关键词及所有第三关键词撷取资料库的资料项;及显示撷取的资料项。
所述的根据输入关键词产生衍生关键词的资料检索方法,其中所述的至少一索引系为各关键词的词性及词义分类。此外文字关联性演算法系为最长共同连续字串演算法或文字合并演算法,当为最长共同连续字串演算法时,所述的方法更包含以演算出的最长共同连续字串结合至少一万用字元至词库撷取出至少一第三关键词,当为文字合并演算法时,所述的方法更包含以演算出的至少一结合字作为第三关键词。
本发明所公开的***与方法如上,与现有技术之间的差异在于本发明具有根据输入的查询字串至词库比对出至少一关键词,并根据至少一关键词产生衍生关键词,并以已输入关键词及衍生关键词同步检索资料项的技术手段。
通过上述的技术手段,本发明可以达成提高资料检索结果的资料完整性的技术功效。
附图说明
图1为本发明根据输入关键词产生衍生关键词的资料检索***的方块图。
图2为本发明根据输入关键词产生衍生关键词的资料检索方法的流程图。
图3为本发明实施例以具相同索引的关键词检索资料的示意图。
图4为本发明实施例不具相同索引时检索资料的示意图。
【主要元件符号说明】
101  资料库
102  词库
103  接收模块
104  比对撷取模块
105  显示模块
301  资料库
302  词库
303  第一关键词
304  关键词与索引对应示意
305  索引
306  第二关键词
401  第一关键词
402  关键词与索引对应示意
403  索引
404  第三关键词
具体实施方式
以下将配合图式及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
首先,请先参考图1,为本发明根据输入关键词产生衍生关键词的资料检索***的方块图,其包含资料库101、词库102、接收模块103、比对撷取模块104及显示模块105。
资料库101,预先储存有至少一笔资料项。资料库101中储存的资料项可以是搜寻引擎的网页资料项、电子词典的词汇资料项、档案***的文件资料项或其他可以通过关键字撷取的资料项,由于可储存的资料项种类系依据应用领域有所差异,在此则不针对资料库101中资料项的形式加以限定。
词库102,预先储存有至少一关键词,其中各关键词更对应有至少一索引。在词库102当中储存的每一关键词,实际上相当于一个词汇资料项,而各关键词所对应的至少一索引系为各关键词的词性及词义分类。举例来说,假设有一关键词为“连线”,则其所预先建立的索引可以是“名词”或“动词”等词性,以及“网络”、“通讯”、“拓蹼”、“几何”...等与“连线”的词义相关的词义分类。然在此所举的例子仅用以说明关键词所建立的索引是用以关联各个关键词之间的关联性,然实际上其词性定义方式和词义分类方式则不以此为限。
接收模块103,负责接收输入的查询字串。
比对撷取模块104,负责于接收模块103接收到使用者输入的查询字串后,根据查询字串至词库102比对出至少一第一关键词。需要特别说明的是,第一关键词是自使用者输入的查询字串中撷取出来的,例如使用者输入了“阳光,空气,水”的查询字串,比对撷取模块104至词库102当中比对,将可产生“阳光”、“空气”、“水”等第一关键词。接着,比对撷取模块104将根据第一关键词至词库102当中撷取各第一关键词对应的所有索引进行比对。当各第一关键词中具有至少一个相同的索引时,至词库102中撷取出同样具有该索引的关键词作为第二关键词,并以所有第一关键词及所有第二关键词至资料库101当中撷取对应的资料项。举例来说,假设使用者输入了关键词“连线”及“拨接”,其中“连线”及“拨接”同样都具有索引“通讯”及“网络”,假设关键词“无线电”具有索引“通讯”,而关键词“光纤”具有索引“网络”、则此时以“无线电”及“光纤”作为第二关键词,并以所有第一关键词“连线”及“拨接”,以及所有第二关键词“无线电”及“光纤”至资料库101当中撷取包含第一关键词及第二关键词的资料项。当各第一关键词的间不具有相同索引时,则执行一文字关联性演算法取得至少一第三关键词,并以所有第一关键词及所有第三关键词至资料库101当中撷取资料项。
需要特别说明的是,文字关联性演算法可以是最长共同连续字串演算法或文字合并演算法。最长共同连续字串演算法指的是将多个关键词中具有最长相同部分的连续文字撷取出来,举例来说,假设使用者输入了关键词“remark”跟“reply”,则可将最长相同部分“re”的连续文字撷取出来。将最长相同部分的连续字串撷取出来后,比对撷取模块104将根据最长相同部分的连续字串结合至少一个万用字元至词库102当中撷取出至少一个第三关键词。同样举前述的例子来说,“re”可结合一个万用字元“$”形成“re$”,再到词库102当中撷取出“replace”、“response”...等作为第三关键词。虽然在此万用字元是以“$”为例进行说明,但实际上的万用字元则可利用任意特殊符号或字元来达成同样效果,并不以所举例的形式为限。
文字合并演算法,指的是依据语言的结合规则将多个关键词组合为至少一个结合字,接着到词库102当中比对是否存在该结合字,若存在则以该结合字作为第三关键词。举例来说,假设使用者输入的是“breakfast”和“lunch”,则根据文字合并演算法可结合出“breakfastlunch”、“brunch”、“breaklunch”...等至少一个结合字,由于至词库102中比对仅存在“brunch”这个关键词,此时则以“brunch”这个结合字作为第三关键词。然前述虽以“breakfastlunch”、“brunch”、“breaklunch”...说明结合出结合字的方式,但仅用以说明举例,实际上结合出结合字的方式则不以此为限。
借此,本发明的根据输入关键词产生衍生关键词的资料检索***可以通过使用者输入的关键词产生衍生关键词,再根据已输入关键词跟衍生关键词检索资料项,可以全面性的检索出与已输入关键词具有一定关联性但不包含已输入关键词的资料项,提高检索结果资料的完整性。
接下来,请参考图2,为根据输入关键词产生衍生关键词的资料检索方法的流程图,将搭配一应用有本发明的英汉双向电子词典的词汇资料项检索过程作为实施例来说明本发明的详细实施方式。
首先,请同时参考图3,***起始运作前预先建立储存有至少一笔资料项的资料库301(步骤201)。于本实施例中,资料库301中将预先储存有至少一笔词汇资料项,其中各词汇资料项当中至少包含词汇解释、词汇例句、词汇用法、同义词、反义词、形似词...等与词汇相关的资料内容。接着,预先建立储存有至少一关键词的词库302(步骤202)。与资料库301不同的是,词库302当中存放的关键词是作为检索词汇资料项的依据,各关键词对应有至少一个索引,这些索引是依据关键词的词性及词义分类建立的。举例来说,假设有一关键词为“连线”,则其所预先建立的索引可以是“名词”或“动词”等词性,以及“网络”、“通讯”、“拓蹼”、“几何”...等与“连线”的词义相关的词义分类。借由这些索引,可以建立各个关键词之间的关联性。
接着,接收输入的查询字串并根据查询字串至词库比对出至少一第一关键词303(步骤203,假设比对出的第一关键词是“apple”、“banana”及“orange”,则***将至词库撷取各第一关键词对应的至少一索引305并进行比对(步骤204)。比对时,首先将比对至少一第一关键词是否存在至少一个相同索引(步骤205)。假设“apple”、“banana”及“orange”同样具有相同索引“fruit”,则此时***将至词库撷取出具有相同索引“fruit”的至少一第二关键词306,如:“pineapple”、“grape”、“kiwi”...等,并以所有第一关键词303及所有第二关键词306撷取资料库301的资料项(步骤206a)。
再请同时参考图4,若使用者已输入的第一关键词401之间不具有相同索引,例如:第一关键字为“obtain”、“pertain”及“contain”比对至少一索引403后假设皆不具有相同索引时,则此时根据文字关联性演算法取得至少一第三关键词404并以所有第一关键词401及所有第三关键词404撷取资料库的资料项(步骤206b)。
需要说明的是,文字关联性演算法文字关联性演算法可以是最长共同连续字串演算法或文字合并演算法。最长共同连续字串演算法指的是将多个关键词中具有最长相同部分的连续文字撷取出来,假设第一关键字401为“obtain”、“pertain”及“contain”,则可将“tain”撷取出来,并配合一个万用字元如“*”形成“*tain”,并至词库中撷取出“retain”、“attain”...等具有“tain”的第三关键词404。
文字关联性演算法也可以是文字合并演算法,即依据语言的结合规则将多个关键词组合为至少一个结合字,接着到词库当中比对是否存在该结合字,若存在则以该结合字作为第三关键词。举例来说,假设使用者输入的是“breakfast”和“lunch”,则根据文字合并演算法可结合出“breakfastlunch”、“brunch”、“breaklunch”...等至少一个结合字,由于至词库中比对仅存在“brunch”这个关键词,此时则以“brunch”这个结合字作为第三关键词。
当***根据第一关键词及第二关键词或是根据第一关键词及第三关键词将资料项撷取出来后,再显示撷取的资料项(步骤207)。
综上所述,可知本发明与现有技术之间的差异在于具有根据输入的查询字串至词库比对出至少一关键词,并根据至少一关键词产生衍生关键词,并以已输入关键词及衍生关键词同步检索资料项的技术手段,借由此一技术手段可以解决现有技术所存在的问题,进而达成提高资料检索结果的资料完整性的技术功效。
虽然本发明所公开的实施方式如上,惟所述的内容并非用以直接限定本发明的专利保护范围。任何本发明所属技术领域中普通技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作些许的更动。本发明的专利保护范围,仍须以所附的权利要求书所界定者为准。

Claims (10)

1.一种根据输入关键词产生衍生关键词的资料检索***,其特征在于,其包含:
一资料库,预先储存有至少一笔资料项;
一词库,预先储存有至少一关键词,其中各该关键词更对应有至少一索引;
一接收模块,用以接收输入的一查询字串;
一比对撷取模块,用以于该接收模块接收到该查询字串后根据该查询字串至该词库中比对出至少一第一关键词,并至该词库撷取各该第一关键词对应的该至少一索引并进行比对,其中:
当该至少一第一关键词存在有至少一个相同的索引时,至该词库撷取出具有该索引的至少一第二关键词,并以该至少一第一关键词及该至少一第二关键词撷取该资料库的资料项;及
当该至少一第一关键词不存在有相同索引时,根据一文字关联性演算法取得至少一第三关键词,并以该至少一第一关键词及该至少一第三关键词撷取该资料库的资料项;及
一显示模块,用以显示撷取的该些资料项。
2.如权利要求1所述的根据输入关键词产生衍生关键词的资料检索***,其特征在于,该至少一索引系为各该关键词的词性及词义分类。
3.如权利要求1所述的根据输入关键词产生衍生关键词的资料检索***,其特征在于,该文字关联性演算法系为一最长共同连续字串演算法或一文字合并演算法。
4.如权利要求3所述的根据输入关键词产生衍生关键词的资料检索***,其特征在于,该当该文字关联性演算法系为最长共同连续字串演算法时,该比对撷取模块更包含以演算出的最长共同连续字串结合至少一万用字元至该词库撷取出该至少一第三关键词。
5.如权利要求3所述的根据输入关键词产生衍生关键词的资料检索***,其特征在于,当该文字关联性演算法为该文字合并演算法时,该比对撷取模块更包含以演算出的至少一结合字作为第三关键词。
6.一种根据输入关键词产生衍生关键词的资料检索方法,其特征在于,其包含下列步骤:
预先建立储存有至少一笔资料项的一资料库;
预先建立储存有至少一关键词的一词库,其中各该关键词更对应有至少一索引;
接收输入的一查询字串并根据该查询字串至该词库比对出至少一第一关键词;
至该词库撷取各该第一关键词对应的该至少一索引进行比对,其中:
当该至少一第一关键词存在有至少一个相同的索引时,至该词库撷取出具有该索引的至少一第二关键词,并以该至少一第一关键词及该至少一第二关键词撷取该资料库的资料项;及
当该至少一第一关键词不存在有相同索引时,根据一文字关联性演算法取得至少一第三关键词,并以该至少一第一关键词及该至少一第三关键词撷取该资料库的资料项;及
显示撷取的该些资料项。
7.如权利要求6所述的根据输入关键词产生衍生关键词的资料检索方法,其特征在于,该至少一索引系为各该关键词的词性及词义分类。
8.如权利要求6所述的根据输入关键词产生衍生关键词的资料检索方法,其特征在于,该文字关联性演算法系为一最长共同连续字串演算法或一文字合并演算法。
9.如权利要求8所述的根据输入关键词产生衍生关键词的资料检索方法,其特征在于,当该文字关联性演算法系为最长共同连续字串演算法时,该方法更包含以演算出的最长共同连续字串结合至少一万用字元至该词库撷取出该至少一第三关键词。
10.如权利要求8所述的根据输入关键词产生衍生关键词的资料检索方法,其特征在于,当该文字关联性演算法为该文字合并演算法时,该方法更包含以演算出的至少一结合字作为第三关键词。
CN2010102441068A 2010-07-28 2010-07-28 根据输入关键词产生衍生关键词的资料检索***及其方法 Pending CN102346741A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102441068A CN102346741A (zh) 2010-07-28 2010-07-28 根据输入关键词产生衍生关键词的资料检索***及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102441068A CN102346741A (zh) 2010-07-28 2010-07-28 根据输入关键词产生衍生关键词的资料检索***及其方法

Publications (1)

Publication Number Publication Date
CN102346741A true CN102346741A (zh) 2012-02-08

Family

ID=45545426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102441068A Pending CN102346741A (zh) 2010-07-28 2010-07-28 根据输入关键词产生衍生关键词的资料检索***及其方法

Country Status (1)

Country Link
CN (1) CN102346741A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765829A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种信息检索方法及装置
CN104765834A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种信息搜索方法及装置
CN109918987A (zh) * 2018-12-29 2019-06-21 中国电子科技集团公司信息科学研究院 一种视频字幕关键词识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4775956A (en) * 1984-01-30 1988-10-04 Hitachi, Ltd. Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
EP0378848A2 (en) * 1989-01-19 1990-07-25 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval
CN101359339A (zh) * 2008-09-23 2009-02-04 无敌科技(西安)有限公司 一种关键词自动扩展查询方法及其装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4775956A (en) * 1984-01-30 1988-10-04 Hitachi, Ltd. Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
EP0378848A2 (en) * 1989-01-19 1990-07-25 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval
CN101359339A (zh) * 2008-09-23 2009-02-04 无敌科技(西安)有限公司 一种关键词自动扩展查询方法及其装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765829A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种信息检索方法及装置
CN104765834A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种信息搜索方法及装置
CN104765829B (zh) * 2015-04-13 2018-06-19 天脉聚源(北京)传媒科技有限公司 一种信息检索方法及装置
CN104765834B (zh) * 2015-04-13 2019-01-18 天脉聚源(北京)传媒科技有限公司 一种信息搜索方法及装置
CN109918987A (zh) * 2018-12-29 2019-06-21 中国电子科技集团公司信息科学研究院 一种视频字幕关键词识别方法及装置
CN109918987B (zh) * 2018-12-29 2021-05-14 中国电子科技集团公司信息科学研究院 一种视频字幕关键词识别方法及装置

Similar Documents

Publication Publication Date Title
CN102063476B (zh) 视频搜索方法及***
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN101458708A (zh) 检索结果聚类方法及装置
CN103678576A (zh) 基于动态语义分析的全文检索***
JP2009512923A5 (zh)
CN106155999A (zh) 自然语言语义理解方法及***
CN102880723A (zh) 一种识别用户检索意图的搜索方法和***
CN105912527A (zh) 根据自然语言输出答案的方法、装置及***
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
CN102750949A (zh) 语音识别方法和装置
CN105468790B (zh) 一种评论信息检索方法和装置
CN106205613B (zh) 一种导航语音识别方法及***
CN103500579A (zh) 语音识别方法、装置及***
CN103383699A (zh) 字符串检索方法及***
CN103871402A (zh) 语言模型训练***、语音识别***及相应方法
CN102346741A (zh) 根据输入关键词产生衍生关键词的资料检索***及其方法
CN105138663A (zh) 词库查询方法及装置
CN102866781B (zh) 一种音字转换方法和***
CN103246436A (zh) 菜单项查找方法及***
CN100456293C (zh) 一种信息快捷搜索客户端、***及方法
CN102122296B (zh) 检索结果聚类方法及装置
US20120072443A1 (en) Data searching system and method for generating derivative keywords according to input keywords
CN103514287A (zh) 一种构建索引树的方法、汉语词汇搜索的方法及相关装置
CN106951511A (zh) 一种文本聚类方法及装置
CN101833556B (zh) 文件内容管理***及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120208