CN103514217A - 检索应用中检索条件的关联提示处理方法及*** - Google Patents
检索应用中检索条件的关联提示处理方法及*** Download PDFInfo
- Publication number
- CN103514217A CN103514217A CN201210221725.4A CN201210221725A CN103514217A CN 103514217 A CN103514217 A CN 103514217A CN 201210221725 A CN201210221725 A CN 201210221725A CN 103514217 A CN103514217 A CN 103514217A
- Authority
- CN
- China
- Prior art keywords
- word portion
- index
- cue
- word
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种检索应用中检索条件的关联提示处理方法和***,该关联提示处理方法和***,均通过增加建立提示词库对应的词部数据库以及词部数据库的索引,使得计算机***通过索引查询的方式从词部数据库中查询到目标词部具备了索引基础,进而整个提示处理过程中涉及的匹配对比均通过检索查找处理而完成,摆脱了对提示词库中各个提示词存储单元进行逐一比对匹配查找的查找处理方式,即使提示词库包含的提示词数据量巨大,计算机***也能够通过索引查找处理方式历经为数不多的数次对比而获得检索条件的关联提示词提示给用户,从而在本质上提升了计算机***对检索应用中检索条件的关联提示处理效率和响应速度,给用户带来更好的使用体验。
Description
技术领域
本发明涉及计算机通信网络技术和检索应用技术领域,具体涉及一种检索应用中检索条件的关联提示处理方法及***。
背景技术
伴随着计算机信息时代的不断发展和进步,搜索引擎不管是在互联网检索应用领域还是在企业内部的检索应用领域都得到了广泛的应用,搜索引擎除了拥有根据用户输入的检索条件返回与之相关结果的基本功能外,搜索引擎的一些智能化功能也在不断的涌现,例如对检索条件的关联提示功能就是搜索引擎在检索应用中的主要智能化功能之一。
检索应用中对检索条件的关联提示功能,其功能在于,在用户输入检索条件时,若作为检索条件的条件字符串相匹配于检索应用中备用的提示词的部分字符,则将相匹配的各个提示词作为关联提示词提示给用户,供用户选择作为新的检索条件;这样以来,例如用户在输入预期的一个地名、一个短语或者一个英文单词等作为检索条件的过程中,当用户输入预期的地名、短语或者英文单词中的部分字符时,***便能够自动地将该部分字符可能匹配的地名、短语或者英文单词关联提示给用户,从而让用户在尚未完全输入之前就能够更快的选择到预期的检索条件,进行需要检索操作。当然,该功能的实现需要预先建立一个提示词库,用于存储检索应用中备用的提示词。
索引技术已经成为检索应用中的一种主要技术,计算机通信网络技术以及检索应用技术领域的技术人员都知道,如果要从一个数据库中查找一个数据存储单元所记录的数据,相比于对数据库中各个数据存储单元进行逐一比对查找而言,通过索引查找获得数据检索结果所需的比对次数要远少于前者,因此索引查找能够更快的从数据库中获得数据检索结果,因此在现有技术中常规的计算机***中通常都会设计自动为已有的数据量建立索引,以提升***从已有数据库中获得数据检索结果的响应速度。例如在检索应用中对检索条件的关联提示功能中,由于需要预先建立一个提示词库,因此按照常规的***设计也会自动建立提示词库的索引,以提升从提示词库中查找提取出提示词的处理速度;然而,常规的***设计中并没有建立提示词库相关的其它索引功能,当用户输入的检索条件为提示词库中备用的提示词的部分字符时,要从提示词库中查找到与所述部分字符相匹配的提示词作为关联提示词,通常只能将所述部分字符加上通配符后形成模糊匹配词条,将该模糊匹配词条与提示词库中各个提示词存储单元进行逐一比对匹配查找,在提示词库包含的提示词数据量巨大的情况下,通过这样逐一比对匹配查找的方式确定与所述部分字符相匹配的提示词,其需要经历的比对次数非常之多,耗时也非常长,虽然在成功确定相匹配的提示词之后,对提示词的提取处理通过索引查找得以快速完成,但用户获得关联提示结果的整体响应速度则因为匹配查找过程的耗时而受到大幅影响,从而大大降低了用户对检索条件关联提示功能的使用体验感。
由此可见,如何进一步提升检索条件关联提示功能的响应速度,已经成为提升检索应用服务质量一个重要方面,然而现有技术中对此的相关研究和报道却比较贫乏。
发明内容
针对现有技术中存在的上述不足,本发明的目的在于提供一种检索应用中检索条件的关联提示处理方法,以提升计算机***对检索应用中检索条件的关联提示处理效率和响应速度,给用户带来更好的使用体验。
为实现上述目的,本发明采用了如下技术手段:
一种检索应用中检索条件的关联提示处理方法,其特征在于,预先建立提示词库对应的词部数据库,通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部并记录于所述词部数据库中,建立所述词部数据库的索引;每一个词部是由其对应的提示词中部分字符所构成的一个字符串;在用户输入检索条件时,获取作为检索条件的条件字符串并计算其索引值,通过词部数据库的索引查找到词部数据库中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,将每一个关联词部对应的提示词分别作为关联提示词提示给用户。
上述的检索应用中检索条件的关联提示处理方法中,作为一种优选方案,所述“通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部”之中,对提示词库中任一个字符数为两个以上的提示词进行词部拆分处理具体为:获取该提示词的字符数Nx,则Nx≥2,令预设的字符参数n的取值分别为从1到Nx-1的整数;对于字符参数n的每一个取值,取该提示词中前n个字符所构成的一个字符串作为该提示词对应的一个词部;由此获得该提示词对应的Nx-1个词部,对该提示词的词部拆分处理完成。
上述的检索应用中检索条件的关联提示处理方法中,作为一种优选方案,所述“建立所述词部数据库的索引”具体为:将词部数据库中具有相同字符数的各个词部列队为一个词部索引列,将词部索引列中单个词部的字符数作为该词部索引列的列标识ID,并计算词部索引列中各个词部的索引值,建立词部索引列对应的列索引;由此,将词部数据库中的所有词部列队为多个词部索引列,并建立得到各个词部索引列对应的列索引,各个词部索引列对应的列索引的集合即作为词部数据库的索引。
上述的检索应用中检索条件的关联提示处理方法中,作为一种优选方案,在用户输入检索条件时,所述“获取作为检索条件的条件字符串并计算其索引值,通过词部数据库的索引查找到词部数据库中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,将每一个关联词部所对应的提示词分别作为关联提示词提示给用户”的具体处理包括如下步骤:
c1)获取作为检索条件的条件字符串,并计算所述条件字符串的索引值;
c2)判断各个词部索引列的列标识ID中是否存在与所述条件字符串的字符数相等的列标识ID;若存在,则执行步骤c3;若不存在,则判定当前未获得关联提示词;
c3)将具有与所述条件字符串的字符数相等的列标识ID的一个词部索引列作为关联对象索引列,通过关联对象索引列对应的列索引查找判断所述关联对象索引列中是否存在与所述条件字符串具有相同索引值的词部;若存在,则执行步骤c4;若不存在,则判定当前未获得关联提示词;
c4)将所述关联对象索引列中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,进而将每一个关联词部所对应的提示词分别作为关联提示词提示给用户。
上述的检索应用中检索条件的关联提示处理方法中,作为一种优选方案,所述词部数据库的索引中各个词部的索引值为相应词部的哈希值;所述条件字符串的索引值为该条件字符串的哈希值。
相应地,本发明还提供了一种能够实现上述检索应用中检索条件的关联提示处理方法的关联提示处理***;为此,本发明采用了如下的技术手段:
一种检索应用中检索条件的关联提示处理***,该***包括提示词库、词部数据库建立模块、词部处理模块、索引建立模块和关联提示处理模块;所述提示词库用于记录提示词;所述词部数据库建立模块用于建立提示词库对应的词部数据库;所述词部处理模块用于通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部并记录于所述词部数据库中;每一个词部是由其对应的提示词中部分字符所构成的一个字符串;所述索引建立模块用于建立所述词部数据库的索引;所述关联提示处理模块用于在用户输入检索条件时,获取作为检索条件的条件字符串并计算其索引值,通过词部数据库的索引查找到词部数据库中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,将每一个关联词部所对应的提示词分别作为关联提示词提示给用户。
上述的检索应用中检索条件的关联提示处理***中,作为一种优选方案,所述词部处理模块包括词部拆分处理单元和词部记录处理单元;所述词部拆分处理单元用于通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部;其中,对提示词库中任一个字符数为两个以上的提示词进行词部拆分处理具体为:获取该提示词的字符数Nx,则Nx≥2,令预设的字符参数n的取值分别为从1到Nx-1的整数;对于字符参数n的每一个取值,取该提示词中前n个字符所构成的一个字符串作为该提示词对应的一个词部;由此获得该提示词对应的Nx-1个词部,对该提示词的词部拆分处理完成;所述词部记录处理单元将提示词库中字符数为两个以上的提示词对应的各个词部记录于所述词部数据库中。
上述的检索应用中检索条件的关联提示处理***中,作为一种优选方案,索引建立模块包括词部列队处理单元、列标识处理单元和列索引建立单元;所述词部列队处理单元用于将词部数据库中具有相同字符数的各个词部列队为一个词部索引列;由此,将词部数据库中的所有词部列队为多个词部索引列;所述列标识处理单元用于分别将每一个词部索引列中单个词部的字符数作为相应词部索引列的列标识ID;所述列索引建立单元用于计算每一个词部索引列中各个词部的索引值,分别建立每一个词部索引列对应的列索引。
上述的检索应用中检索条件的关联提示处理***中,作为一种优选方案,所述关联提示处理模块包括检索条件索引值计算单元、关联对象索引列判断单元、关联词部判断单元和关联提示词提示单元;所述检索条件索引值计算单元用于获取作为检索条件的条件字符串,并计算所述条件字符串的索引值;所述关联对象索引列判断单元用于判断各个词部索引列的列标识ID中是否存在与所述条件字符串的字符数相等的列标识ID;若存在,则触发运行关联词部判断单元;若不存在,则判定当前未获得关联提示词;所述关联词部判断单元用于将具有与所述条件字符串的字符数相等的列标识ID的一个词部索引列作为关联对象索引列,通过关联对象索引列对应的列索引查找判断所述关联对象索引列中是否存在与所述条件字符串具有相同索引值的词部;若存在,则触发运行关联提示词提示单元;若不存在,则判定当前未获得关联提示词;所述关联提示词提示单元用于将所述关联对象索引列中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,进而将每一个关联词部所对应的提示词分别作为关联提示词提示给用户。
相比于现有技术,本发明具有如下有益效果:
1、本发明检索应用中检索条件的关联提示处理方法和***,通过增加建立提示词库对应的词部数据库以及词部数据库的索引,使得计算机***通过索引查询的方式从词部数据库中查询到目标词部具备了索引基础,首先保证了计算机***从词部数据库中查询到目标词部的处理效率和响应速度;而词部数据库中记录的词部,正是由其在提示词库中对应提示词的部分字符所构成,因此,如果用户输入的作为检索条件的条件字符串与词部数据库中某一个或某几个词部相一致,计算机***便能够通过词部数据库的索引查找快速地匹配得到与所述条件字符串相一致的某一个或某几个词部作为关联词部,再根据每一个关联词部与提示词库中提示词的对应关系快速获得相对应的关联提示词提示给用户,由此摆脱了对提示词库中各个提示词存储单元进行逐一比对匹配查找的查找处理方式;即使提示词库包含的提示词数据量巨大,计算机***也能够通过索引查找处理方式历经为数不多的数次对比而获得检索条件的关联提示词提示给用户,从而在本质上提升了计算机***对检索应用中检索条件的关联提示处理效率和响应速度。
2、在本发明检索应用中检索条件的关联提示处理方法和***中,还提供了一种优选的词部拆分处理方案,通过该词部拆分处理方案对提示词进行词部拆分处理,由字符数为Nx的提示词可对应地拆分获得Nx-1个词部,且该Nx-1个词部涵盖了提示词的Nx-1种前n个字符的排序输入情况,使得词部数据库所包含的词部尽可能地包含了用户最为普遍的检索条件输入习惯的各种情形,保证了词部数据库具备较高的关联覆盖准确率,有助于进一步提高词部数据库的利用率;并且,该优选的词部拆分处理方案具有较规则的拆分处理规律,能够方便的通过计算机编程实现计算机***自动化词部拆分处理。
3、在本发明检索应用中检索条件的关联提示处理方法和***中,还提供了一种优选的词部数据库索引建立方案,并且还伴随影响了后期对关联词部索引查找处理的具体过程;与对整个词部数据库直接建立整体索引相比,该优选的词部数据库索引建立方案将词部数据库中的所有词部列队为多个词部索引列,并建立得到各个词部索引列对应的列索引;在后期对关联词部的索引查找处理过程中,通过列定位后确定的关联对象索引列仅为词部数据库包含的若干个词部索引列之中的一个,该关联对象索引列所包含的词部数量必然少于整个词部数据库所包含词部数量,因此与对整个词部数据库直接建立整体索引后进行索引查询相比,对该关联对象索引列对应的列索引进行索引查询所经历的对比次数必然会更少,从而有助于更进一步的提升关联提示的整体响应速度。
附图说明
图1为本发明实施例一中检索条件的关联提示处理方法的流程框图;
图2为本发明实施例一中采用优选词部拆分处理方案对提示词库中任一个字符数为两个以上的提示词进行词部拆分处理的流程框图;
图3为本发明实施例一中优选词部数据库索引建立方案的流程框图;
图4为本发明实施例一中,在图3所述词部数据库索引建立方案的情况下,针对用户输入的检索条件执行关联提示处理操作的流程框图;
图5为本发明检索应用中检索条件的关联提示处理***的***框架图。
具体实施方式
在现有技术中,之所以计算机***对检索应用中检索条件的关联提示功能的整体响应速度较慢,主要原因在于,计算机***在从提示词库中对比匹配查找检索条件的关联提示词的过程中,没有能够摆脱对提示词库中各个提示词存储单元进行逐一比对匹配查找的查找处理方式,使其对比匹配次数在提示词库包含的提示词数据量巨大的情况下急剧增加,处理效率低,耗时长,严重影响了计算机***对检索应用中检索条件的关联提示整体响应速度。针对这一问题,本发明提出一种检索应用中检索条件的关联提示处理方法,与现有技术中的检索条件关联提示功能处理方式不同,本发明方法预先建立提示词库对应的词部数据库,通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部并记录于所述词部数据库中,建立所述词部数据库的索引;每一个词部是由其对应的提示词中部分字符所构成的一个字符串;在用户输入检索条件时,获取作为检索条件的条件字符串并计算其索引值,通过词部数据库的索引查找到词部数据库中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,将每一个关联词部对应的提示词分别作为关联提示词提示给用户。可以看到,本发明检索应用中检索条件的关联提示处理方法中,通过增加建立提示词库对应的词部数据库以及词部数据库的索引,使得计算机***通过索引查询的方式从词部数据库中查询到目标词部具备了索引基础,首先保证了计算机***从词部数据库中查询到目标词部的处理效率和响应速度;而词部数据库中记录的词部,正是由其在提示词库中对应提示词的部分字符所构成,因此,如果用户输入的作为检索条件的条件字符串与词部数据库中某一个或某几个词部相一致,计算机***便能够通过词部数据库的索引查找快速地匹配得到与所述条件字符串相一致的某一个或某几个词部作为关联词部,再根据每一个关联词部与提示词库中提示词的对应关系快速获得相对应的关联提示词提示给用户,由此摆脱了对提示词库中各个提示词存储单元进行逐一比对匹配查找的查找处理方式;即使提示词库包含的提示词数据量巨大,计算机***也能够通过索引查找处理方式历经为数不多的数次对比而获得检索条件的关联提示词提示给用户,从而在本质上提升了计算机***对检索应用中检索条件的关联提示处理效率和响应速度。在本发明检索应用中检索条件的关联提示处理方法中,之所以针对提示词库中字符数为两个以上的提示词进行词部拆分处理,原因在于,对于检索应用中检索条件的关联提示功能而言,仅有一个字符的提示词不需要再进行关联提示,因此没有必要对其处理获得词部,从而有助于减少词部数据库中不必要的数据记录,减少词部数据库的冗余,提高词部数据库的利用率。当然,在没有特殊说明的情况下,本领域技术人员都理解,同一技术方法的前后步骤中,每次计算索引值所采用的索引值算法为同一索引值算法;本发明的关联提示处理方法也是如此。
在本发明检索应用中检索条件的关联提示处理方法中,多方面因素对关联提示的关联覆盖准确率以及关联提示响应速度还存在着密切联系。一方面,对提示词进行词部拆分处理获得词部的具体拆分方式,可以根据实际的检索应用的实际业务服务环境而定;例如,对提示词拆分获得的词部,可以是由其对应提示词中随机提取的部分字符所构成,可以是由其对应提示词中具有指定字符特征的一个或几个字符所构成(例如指定为大写英文字符),还可以是由其对应提示词中指定位置的一个或几个字符所构成(例如指定位置靠前、居中或靠后的字符),等等;而不同词部拆分处理方式所形成的词部数据库,其包含的词部与用户的检索条件输入习惯之间的关联覆盖准确率不尽相同,可以通过选择较为优化的词部拆分处理方案来提升词部数据库的关联覆盖准确率。另一方面,词部数据库的索引建立设计方式,也是可以根据实际的检索应用的实际业务服务环境而确定的,不同技术人员所掌握和偏好的索引设计方案可能各有不同;但不同的索引设计方案,其索引查找处理过程中的对比次数则不尽相同,可以通过选择较为优化的索引设计方案尽可能减少索引查找处理过程中的对比次数,进而更进一步的提升关联提示响应速度。这些因素对关联覆盖准确率以及关联提示响应速度的密切联系,使得本发明的关联提示处理方法存在更深入的检索应用服务质量提升空间。下面就通过实施例,对本发明可能存在的更深入的技术效果做进一步讨论和说明。
实施例一:
例如在我国国内地区天气预报业务服务的检索应用中,用户需要先检索其需要查询天气预报的省、市、自治区地名以及县级地名,如果以我国国内各省、市、自治区地名以及县级地名作为备用的地名提示词建立提示词库,那么提示词库中的提示词数量将达到数万个。提示词库的具体形式可以表示为表1所示:
表1:
因仅作为形式表示,表1所示的提示词库仅罗列了有限的几个地名提示词,其它地名提示词省略表示。
如果采用现有技术中的关联提示方式,由于计算机***仅针对提示词库自身建立有索引,若用户输入的检索条件暂时为条件字符串“湖”时,计算机***无法直接从提示词库中索引查找条件字符串“湖”,因此只能将条件字符串“湖”加上通配符“%”后形成模糊匹配词条“湖%”,将该模糊匹配词条与提示词库中数万个提示词存储单元进行逐一比对匹配查找,对比匹配次数将达到数万次,最终才能确定条件字符串“湖”匹配到提示词库中“湖北省”、“湖南省”等关联提示词,然后提示给用户选择。用户从输入检索条件“湖”到获得关联提示词“湖北省”、“湖南省”等,期间的响应时间可能达到秒级,甚至数秒,响应速度和用户体验效果都非常差。
针对于此,本实施例采用本发明方法对该天气预报业务服务的检索应用中提供的检索条件关联提示处理功能加以改进,改变其对检索条件的关联提示处理方法。本实施例所采用的关联提示处理方法,其流程如图1所示,具体处理步骤如下:
S1)预先建立提示词库对应的词部数据库。
该步骤用于在计算机***中为词部数据库指定分配一个数据存储空间,同时建立了词部数据库与提示词库之间的库对应关系。
S2)通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部并记录于所述词部数据库中;每一个词部是由其对应的提示词中部分字符所构成的一个字符串。
该步骤用于度提示词进行词部拆分处理获得对应的词部,并将获得的各词部记录于词部数据库中,同时建立了各词部与其对应提示词之间的对应指向关系。考虑到提升词部数据库所包含的词部与用户的检索条件输入习惯之间的关联覆盖准确率,在本实施例中,步骤S2采用了一种优选的词部拆分处理实施方案,该优选的词部拆分处理实施方案之中,对提示词库中任一个字符数为两个以上的提示词进行词部拆分处理流程如图2所示,具体为:
s21)获取该提示词的字符数Nx,则Nx≥2,令预设的字符参数n的取值分别为从1到Nx-1的整数;
s22)对于字符参数n的每一个取值,取该提示词中前n个字符所构成的一个字符串作为该提示词对应的一个词部;由此获得该提示词对应的Nx-1个词部,对该提示词的词部拆分处理完成。
按上述词部拆分处理方案对提示词库中字符数为两个以上的提示词均进行词部拆分处理之后,则将提示词库中字符数为两个以上的提示词对应的各个词部记录于所述词部数据库中,步骤S2则处理完成。
因为用户在输入地名时,最为普遍的输入习惯是顺序地输入地名的各个字符;因此,本实施例中优选采用的词部拆分处理方案,由字符数为Nx的提示词可对应地拆分获得Nx-1个词部,且该Nx-1个词部涵盖了提示词的Nx-1种前n个字符的排序输入情况。就本实施例而言,例如,对于提示词库中的地名提示词“黑龙江省”,其字符数为4个,所拆分获得对应的3个词部分别为“黑”、“黑龙”和“黑龙江”;对于提示词库中的地名提示词“湖北省”,其字符数为3个,所拆分获得对应的2个词部分别为“湖”和“湖北”;对于提示词库中的地名提示词“湖南省”,其字符数为3个,所拆分获得对应的2个词部分别为“湖”和“湖南”;对于提示词库中的地名提示词“宁夏回族自治区”,其字符数为7个,所拆分获得对应的6个词部分别为“宁”、“宁夏”、“宁夏回”、“宁夏回族”、“宁夏回族自”和“宁夏回族自治”;等等。由此可见,该优选的词部拆分处理方案,使得词部数据库所包含的词部尽可能地包含了用户最为普遍的检索条件输入习惯的各种情形,保证了词部数据库具备较高的关联覆盖准确率,有助于进一步提高词部数据库的利用率;并且,该优选的词部拆分处理方案具有较规则的拆分处理规律,能够方便的通过计算机编程实现计算机***自动化词部拆分处理。
S3)建立所述词部数据库的索引;
该步骤用于针对词部数据库建立其专用的索引,使得计算机***通过索引查询的方式从词部数据库中查询到目标词部具备了索引基础。而词部数据库的索引建立方案,又直接影响了后期对关联词部索引查找处理过程中的对比次数;考虑到尽可能减少后期索引查找处理过程的对比次数,更进一步的提升关联提示响应速度,在本实施例中,步骤S3采用了一种优选的词部数据库索引建立实施方案,该优选的词部数据库索引建立方案的流程如图3所示,具体为:
s31)将词部数据库中具有相同字符数的各个词部列队为一个词部索引列,将词部索引列中单个词部的字符数作为该词部索引列的列标识ID,并计算词部索引列中各个词部的索引值,建立词部索引列对应的列索引;
s32)通过反复执行步骤s21,将词部数据库中的所有词部列队为多个词部索引列,并建立得到各个词部索引列对应的列索引,各个词部索引列对应的列索引的集合即作为词部数据库的索引。
对于本实施例而言,由此获得的词部索引列的列队情况及其各个词部分别与提示词库中各个地名提示词的对应指向关系通过表2加以表示:
表2:
因仅作为形式表示,表2所示的词部索引列的列队情况仅罗列了词部索引列中有限的几个词部,其它词部省略表示;表2中,符号“RID”表示词部索引列的列标识ID,符号“&”表示词部索引列中的词部与地名提示词之间的对应指向关系。该优选的词部数据库索引建立方案,一方面的优势在于,其具有较规则的索引建立规律,能够方便的通过计算机编程实现计算机***自动化建立索引;另一方面,与对整个词部数据库直接建立整体索引相比,该优选的词部数据库索引建立方案将词部数据库中的所有词部列队为多个词部索引列,并建立得到各个词部索引列对应的列索引,使得后期对关联词部索引查找处理过程中能够通过列定位进一步减少对比次数,从而更进一步的提升关联提示响应速度,这一方面的效果将在后续的处理步骤中得以更具体的体现。
S4)在用户输入检索条件时,获取作为检索条件的条件字符串并计算其索引值,通过词部数据库的索引查找到词部数据库中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,将每一个关联词部对应的提示词分别作为关联提示词提示给用户。
该步骤用于针对用户输入的检索条件执行关联提示处理操作。步骤S4中的具体处理过程将随着步骤S3中所采用词部数据库索引建立方案的不同而有所不同;例如,若基于本实施例中步骤S3中优选的词部数据库索引建立方案,该步骤S4中的处理流程如图4所示,具体为:
s41)获取作为检索条件的条件字符串,并计算所述条件字符串的索引值;
s42)判断各个词部索引列的列标识ID中是否存在与所述条件字符串的字符数相等的列标识ID;若存在,则执行步骤s43;若不存在,则判定当前未获得关联提示词;
s43)将具有与所述条件字符串的字符数相等的列标识ID的一个词部索引列作为关联对象索引列,通过关联对象索引列对应的列索引查找判断所述关联对象索引列中是否存在与所述条件字符串具有相同索引值的词部;若存在,则执行步骤s44;若不存在,则判定当前未获得关联提示词;
s44)将所述关联对象索引列中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,进而将每一个关联词部所对应的提示词分别作为关联提示词提示给用户。
就本实施例而言,例如,若用户输入的检索条件暂时为条件字符串“湖”时,计算机***通过获取作为检索条件的条件字符串“湖”,计算其索引值,并通过判断得知条件字符串“湖”字符数为1个,则将列标识ID的值等于1(即RID=1)的词部索引列作为关联对象索引列,即相当于在词部数据库中进行了列定位;然后,再通过关联对象索引列对应的列索引查找到具有相同索引值的词部“湖”至少有两个,将之分别作为关联词部,此次索引查找处理过程中,由于关联对象索引列仅为词部数据库包含的若干个词部索引列之中的一个,该关联对象索引列所包含的词部数量必然少于整个词部数据库所包含词部数量,因此与对整个词部数据库直接建立整体索引后进行索引查询相比,对该关联对象索引列对应的列索引进行索引查询所经历的对比次数必然会更少,从而有助于更进一步的提升关联提示的整体响应速度;最后,通过每一个关联词部“湖”各自与提示词之间的对应指向关系,获得至少两个关联提示词,分别为“湖北”和“湖南”,从而将“湖北”、“湖南”等关联提示词提示给用户选择。采用本发明的关联提示处理方法,由于整个提示处理过程中涉及的匹配对比均通过检索查找处理而完成,摆脱了对提示词库中各个提示词存储单元进行逐一比对匹配查找的查找处理方式,因此用户从输入检索条件“湖”到获得关联提示词“湖北省”、“湖南省”等,期间的响应时间只需要几十微秒,甚至几微秒,响应速度非常理想,对于用户而言则感受到输入检索条件后其关联提示词便得以立即呈现,具有非常良好的用户体验效果。
当然,本发明检索应用中检索条件的关联提示处理方法不仅仅局限应用于天气预报业务服务的检索应用中,对于任意服务业务类型而言,只要其中需要用到检索应用,例如文献数据库短语词汇检索、英文词典的英文词检索、互联网络的关键信息检索、企业内部的联系人检索等等,则其检索应用中检索条件的关联提示处理均可以采用本发明方法实现。至于本发明方法中计算索引值所采用的具体算法,可以根据检索应用的具体服务业务环境选用现有技术中常用的索引值算法。作为较优方案的考虑,建议采用哈希算法计算本发明方法中涉及的索引值,即所述词部数据库的索引中各个词部的索引值优选为相应词部的哈希值;所述条件字符串的索引值优选为该条件字符串的哈希值;之所以把哈希算法作为优选,是因为哈希算法将任意长度字符串的二进制值(字符串在计算机***中均体现为二进制值)均映射为固定长度的较小二进制值,即哈希值,并且哈希值针对相同字符串的值唯一性非常好,值长度也比较短,且运算稳定性好、运算处理时间短,对于提升本发明关联提示处理方法的处理效率和响应速度也有一定的帮助。
实施例二:
对应的,本发明还提供了一种检索应用中检索条件的关联提示处理***,用以实现本发明检索应用中检索条件的关联提示处理方法。该检索应用中检索条件的关联提示处理***如图5所示,主要包括提示词库10、词部数据库建立模块20、词部处理模块30、索引建立模块40和关联提示处理模块50;提示词库10用于记录提示词;词部数据库建立模块20用于建立提示词库对应的词部数据库;词部处理模块30用于通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部并记录于所述词部数据库中,每一个词部是由其对应的提示词中部分字符所构成的一个字符串;索引建立模块40用于建立所述词部数据库的索引;关联提示处理模块50用于在用户输入检索条件时,获取作为检索条件的条件字符串并计算其索引值,通过词部数据库的索引查找到词部数据库中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,将每一个关联词部所对应的提示词分别作为关联提示词提示给用户。这些模块均可以由本领域技术人员利用其掌握的计算机编程技术通过编程得以实现。
作为优选方案,词部处理模块30可以主要由词部拆分处理单元和词部记录处理单元构成;词部拆分处理单元用于通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部;其中,对提示词库中任一个字符数为两个以上的提示词进行词部拆分处理具体为:获取该提示词的字符数Nx,则Nx≥2,令预设的字符参数n的取值分别为从1到Nx-1的整数;对于字符参数n的每一个取值,取该提示词中前n个字符所构成的一个字符串作为该提示词对应的一个词部;由此获得该提示词对应的Nx-1个词部,对该提示词的词部拆分处理完成;词部记录处理单元将提示词库中字符数为两个以上的提示词对应的各个词部记录于所述词部数据库中。采用此优选方案编程构建词部处理模块30,即可以通过计算机自运行实现实施例一中所述优选的词部拆分处理方案,保证词部数据库具备较高的关联覆盖准确率,以助于进一步提高词部数据库的利用率。
作为优选方案,索引建立模块40可以主要由词部列队处理单元、列标识处理单元和列索引建立单元构成;词部列队处理单元用于将词部数据库中具有相同字符数的各个词部列队为一个词部索引列,由此,将词部数据库中的所有词部列队为多个词部索引列;列标识处理单元用于分别将每一个词部索引列中单个词部的字符数作为相应词部索引列的列标识ID;列索引建立单元用于计算每一个词部索引列中各个词部的索引值,分别建立每一个词部索引列对应的列索引。采用此优选方案编程构建索引建立模块40,即可以通过计算机自运行实现实施例一中所述优选的词部数据库索引建立方案。
进一步,基于上述索引建立模块40的优选方案,相应地,关联提示处理模块50则主要由检索条件索引值计算单元、关联对象索引列判断单元、关联词部判断单元和关联提示词提示单元构成;检索条件索引值计算单元用于获取作为检索条件的条件字符串,并计算所述条件字符串的索引值;关联对象索引列判断单元用于判断各个词部索引列的列标识ID中是否存在与所述条件字符串的字符数相等的列标识ID,若存在,则触发运行关联词部判断单元,若不存在,则判定当前未获得关联提示词;关联词部判断单元用于将具有与所述条件字符串的字符数相等的列标识ID的一个词部索引列作为关联对象索引列,通过关联对象索引列对应的列索引查找判断所述关联对象索引列中是否存在与所述条件字符串具有相同索引值的词部,若存在,则触发运行关联提示词提示单元,若不存在,则判定当前未获得关联提示词;关联提示词提示单元用于将所述关联对象索引列中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,进而将每一个关联词部所对应的提示词分别作为关联提示词提示给用户。采用此优选方案编程构建关联提示处理模块50,结合上述索引建立模块40的优选方案,使得对关联词部索引查找处理过程中能够通过列定位进一步减少对比次数,从而更进一步的提升关联提示的整体响应速度。
综合上述两个实施例的举例说明,可以看到,本发明检索应用中检索条件的关联提示处理方法和***,均通过增加建立提示词库对应的词部数据库以及词部数据库的索引,使得计算机***通过索引查询的方式从词部数据库中查询到目标词部具备了索引基础,进而整个提示处理过程中涉及的匹配对比均通过检索查找处理而完成,摆脱了对提示词库中各个提示词存储单元进行逐一比对匹配查找的查找处理方式,即使提示词库包含的提示词数据量巨大,计算机***也能够通过索引查找处理方式历经为数不多的数次对比而获得检索条件的关联提示词提示给用户,从而在本质上提升了计算机***对检索应用中检索条件的关联提示处理效率和响应速度;并且还可以通过进一步优化的词部拆分处理以及词部数据库索引建立处理,进一步的提升词部数据库的关联覆盖准确率以及关联提示响应速度,给用户带来更好的使用体验,从提升用户对检索应用产品的忠诚度。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种检索应用中检索条件的关联提示处理方法,其特征在于,预先建立提示词库对应的词部数据库,通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部并记录于所述词部数据库中,建立所述词部数据库的索引;每一个词部是由其对应的提示词中部分字符所构成的一个字符串;在用户输入检索条件时,获取作为检索条件的条件字符串并计算其索引值,通过词部数据库的索引查找到词部数据库中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,将每一个关联词部对应的提示词分别作为关联提示词提示给用户。
2.根据权利要求1所述的检索应用中检索条件的关联提示处理方法,其特征在于,所述“通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部”之中,对提示词库中任一个字符数为两个以上的提示词进行词部拆分处理具体为:获取该提示词的字符数Nx,则Nx≥2,令预设的字符参数n的取值分别为从1到Nx-1的整数;对于字符参数n的每一个取值,取该提示词中前n个字符所构成的一个字符串作为该提示词对应的一个词部;由此获得该提示词对应的Nx-1个词部,对该提示词的词部拆分处理完成。
3.根据权利要求1所述的检索应用中检索条件的关联提示处理方法,其特征在于,所述“建立所述词部数据库的索引”具体为:将词部数据库中具有相同字符数的各个词部列队为一个词部索引列,将词部索引列中单个词部的字符数作为该词部索引列的列标识ID,并计算词部索引列中各个词部的索引值,建立词部索引列对应的列索引;由此,将词部数据库中的所有词部列队为多个词部索引列,并建立得到各个词部索引列对应的列索引,各个词部索引列对应的列索引的集合即作为词部数据库的索引。
4.根据权利要求3所述的检索应用中检索条件的关联提示处理方法,其特征在于,在用户输入检索条件时,所述“获取作为检索条件的条件字符串并计算其索引值,通过词部数据库的索引查找到词部数据库中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,将每一个关联词部所对应的提示词分别作为关联提示词提示给用户”的具体处理包括如下步骤:
c1)获取作为检索条件的条件字符串,并计算所述条件字符串的索引值;
c2)判断各个词部索引列的列标识ID中是否存在与所述条件字符串的字符数相等的列标识ID;若存在,则执行步骤c3;若不存在,则判定当前未获得关联提示词;
c3)将具有与所述条件字符串的字符数相等的列标识ID的一个词部索引列作为关联对象索引列,通过关联对象索引列对应的列索引查找判断所述关联对象索引列中是否存在与所述条件字符串具有相同索引值的词部;若存在,则执行步骤c4;若不存在,则判定当前未获得关联提示词;
c4)将所述关联对象索引列中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,进而将每一个关联词部所对应的提示词分别作为关联提示词提示给用户。
5.根据权利要求1所述的检索应用中检索条件的关联提示处理方法,其特征在于,所述词部数据库的索引中各个词部的索引值为相应词部的哈希值;所述条件字符串的索引值为该条件字符串的哈希值。
6.一种检索应用中检索条件的关联提示处理***,其特征在于,该***包括提示词库、词部数据库建立模块、词部处理模块、索引建立模块和关联提示处理模块;
所述提示词库用于记录提示词;
所述词部数据库建立模块用于建立提示词库对应的词部数据库;
所述词部处理模块用于通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部并记录于所述词部数据库中;每一个词部是由其对应的提示词中部分字符所构成的一个字符串;
所述索引建立模块用于建立所述词部数据库的索引;
所述关联提示处理模块用于在用户输入检索条件时,获取作为检索条件的条件字符串并计算其索引值,通过词部数据库的索引查找到词部数据库中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,将每一个关联词部所对应的提示词分别作为关联提示词提示给用户。
7.根据权利要求6所述的检索应用中检索条件的关联提示处理***,其特征在于,所述词部处理模块包括词部拆分处理单元和词部记录处理单元;
所述词部拆分处理单元用于通过词部拆分处理获得提示词库中字符数为两个以上的提示词对应的各个词部;其中,对提示词库中任一个字符数为两个以上的提示词进行词部拆分处理具体为:获取该提示词的字符数Nx,则Nx≥2,令预设的字符参数n的取值分别为从1到Nx-1的整数;对于字符参数n的每一个取值,取该提示词中前n个字符所构成的一个字符串作为该提示词对应的一个词部;由此获得该提示词对应的Nx-1个词部,对该提示词的词部拆分处理完成;
所述词部记录处理单元将提示词库中字符数为两个以上的提示词对应的各个词部记录于所述词部数据库中。
8.根据权利要求6所述的检索应用中检索条件的关联提示处理***,其特征在于,索引建立模块包括词部列队处理单元、列标识处理单元和列索引建立单元;
所述词部列队处理单元用于将词部数据库中具有相同字符数的各个词部列队为一个词部索引列;由此,将词部数据库中的所有词部列队为多个词部索引列;
所述列标识处理单元用于分别将每一个词部索引列中单个词部的字符数作为相应词部索引列的列标识ID;
所述列索引建立单元用于计算每一个词部索引列中各个词部的索引值,分别建立每一个词部索引列对应的列索引。
9.根据权利要求8所述的检索应用中检索条件的关联提示处理***,其特征在于,所述关联提示处理模块包括检索条件索引值计算单元、关联对象索引列判断单元、关联词部判断单元和关联提示词提示单元;
所述检索条件索引值计算单元用于获取作为检索条件的条件字符串,并计算所述条件字符串的索引值;
所述关联对象索引列判断单元用于判断各个词部索引列的列标识ID中是否存在与所述条件字符串的字符数相等的列标识ID;若存在,则触发运行关联词部判断单元;若不存在,则判定当前未获得关联提示词;
所述关联词部判断单元用于将具有与所述条件字符串的字符数相等的列标识ID的一个词部索引列作为关联对象索引列,通过关联对象索引列对应的列索引查找判断所述关联对象索引列中是否存在与所述条件字符串具有相同索引值的词部;若存在,则触发运行关联提示词提示单元;若不存在,则判定当前未获得关联提示词;
所述关联提示词提示单元用于将所述关联对象索引列中每一个与所述条件字符串具有相同索引值的词部分别作为关联词部,进而将每一个关联词部所对应的提示词分别作为关联提示词提示给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210221725.4A CN103514217B (zh) | 2012-06-30 | 2012-06-30 | 检索应用中检索条件的关联提示处理方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210221725.4A CN103514217B (zh) | 2012-06-30 | 2012-06-30 | 检索应用中检索条件的关联提示处理方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103514217A true CN103514217A (zh) | 2014-01-15 |
CN103514217B CN103514217B (zh) | 2017-02-08 |
Family
ID=49896950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210221725.4A Active CN103514217B (zh) | 2012-06-30 | 2012-06-30 | 检索应用中检索条件的关联提示处理方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103514217B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169046A (zh) * | 2017-04-25 | 2017-09-15 | 广东网金控股股份有限公司 | 一种数据库索引查找方法、装置及用户终端 |
CN107844526A (zh) * | 2017-10-12 | 2018-03-27 | 广州艾媒数聚信息咨询股份有限公司 | 一种基于知识库的词汇关系链分析方法、***及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1940922A (zh) * | 2005-09-30 | 2007-04-04 | 腾讯科技(深圳)有限公司 | 一种提高搜索信息速度的方法及*** |
CN101662541A (zh) * | 2009-08-24 | 2010-03-03 | 宇龙计算机通信科技(深圳)有限公司 | 移动终端的联系人关联信息的提示方法、***及移动终端 |
WO2011024064A2 (en) * | 2009-08-31 | 2011-03-03 | Exalead S.A. | Trusted query system and method |
CN102411568A (zh) * | 2010-09-20 | 2012-04-11 | 苏州同程旅游网络科技有限公司 | 基于旅游业特征词库的中文分词方法 |
-
2012
- 2012-06-30 CN CN201210221725.4A patent/CN103514217B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1940922A (zh) * | 2005-09-30 | 2007-04-04 | 腾讯科技(深圳)有限公司 | 一种提高搜索信息速度的方法及*** |
CN101662541A (zh) * | 2009-08-24 | 2010-03-03 | 宇龙计算机通信科技(深圳)有限公司 | 移动终端的联系人关联信息的提示方法、***及移动终端 |
WO2011024064A2 (en) * | 2009-08-31 | 2011-03-03 | Exalead S.A. | Trusted query system and method |
CN102411568A (zh) * | 2010-09-20 | 2012-04-11 | 苏州同程旅游网络科技有限公司 | 基于旅游业特征词库的中文分词方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169046A (zh) * | 2017-04-25 | 2017-09-15 | 广东网金控股股份有限公司 | 一种数据库索引查找方法、装置及用户终端 |
CN107844526A (zh) * | 2017-10-12 | 2018-03-27 | 广州艾媒数聚信息咨询股份有限公司 | 一种基于知识库的词汇关系链分析方法、***及装置 |
CN107844526B (zh) * | 2017-10-12 | 2022-04-01 | 广州艾媒数聚信息咨询股份有限公司 | 一种基于知识库的词汇关系链分析方法、***及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103514217B (zh) | 2017-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038183B (zh) | 结构化实体收录方法、装置、服务器和存储介质 | |
WO2016037519A1 (zh) | 一种输入方法、装置及电子设备 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
CN105917327A (zh) | 用于将文本输入到电子设备中的***和方法 | |
Huang et al. | Hgamn: Heterogeneous graph attention matching network for multilingual poi retrieval at *** maps | |
CN106598965B (zh) | 一种基于地址信息的账户映射方法及装置 | |
CN103514236A (zh) | 检索应用中基于拼音的检索条件纠错提示处理方法 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN105209858B (zh) | 企业场所数据的非确定性消岐和匹配 | |
CN104252484A (zh) | 一种拼音纠错方法及*** | |
CN101158957A (zh) | 互联网热点主题相关性挖掘方法 | |
CN102867049B (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
CN103914570A (zh) | 基于字符串相似度算法的智能客服搜索方法与*** | |
US20190087466A1 (en) | System and method for utilizing memory efficient data structures for emoji suggestions | |
CN104462105A (zh) | 中文分词方法、装置和服务器 | |
CN104281275B (zh) | 一种英文的输入方法和装置 | |
CN104360993A (zh) | 一种从文本提取所需内容的方法 | |
CN106155998B (zh) | 一种数据处理方法及装置 | |
CN113505190B (zh) | 地址信息修正方法、装置、计算机设备和存储介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN112015865B (zh) | 基于分词的全称匹配搜索方法、装置、设备及存储介质 | |
CN103514217A (zh) | 检索应用中检索条件的关联提示处理方法及*** | |
CN110704698B (zh) | 一种非结构化海量网络安全数据的关联及查询方法 | |
CN102981607B (zh) | 以预定义顺序排列文本项的计算机实现的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200605 Address after: Room 502-1, floor 5, building 2, courtyard 10, KEGU 1st Street, economic development zone, Daxing District, Beijing 100081 Patentee after: Singularity Xinyuan International Technology Development (Beijing) Co.,Ltd. Address before: The 401121 northern New District of Chongqing municipality Mount Huangshan Road 5 south of Mercury Technology Building 1 floor office No. 3 Patentee before: A-MEDIA COMMUNICATION TECH Co.,Ltd. |
|
TR01 | Transfer of patent right |