CN101770478A - 数据检索方法、数据检索引擎及嵌入式终端 - Google Patents

数据检索方法、数据检索引擎及嵌入式终端 Download PDF

Info

Publication number
CN101770478A
CN101770478A CN200810240889A CN200810240889A CN101770478A CN 101770478 A CN101770478 A CN 101770478A CN 200810240889 A CN200810240889 A CN 200810240889A CN 200810240889 A CN200810240889 A CN 200810240889A CN 101770478 A CN101770478 A CN 101770478A
Authority
CN
China
Prior art keywords
chinese character
data
target data
participle
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810240889A
Other languages
English (en)
Other versions
CN101770478B (zh
Inventor
吴跃进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Autonavi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Autonavi Information Technology Co Ltd filed Critical Autonavi Information Technology Co Ltd
Priority to CN 200810240889 priority Critical patent/CN101770478B/zh
Publication of CN101770478A publication Critical patent/CN101770478A/zh
Application granted granted Critical
Publication of CN101770478B publication Critical patent/CN101770478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种数据检索方法,该方法包括:步骤一、接收用户输入的一个汉字,若所述汉字不是用户当前输入的第一个汉字,而是第N个汉字,N≥2,则进入步骤二;步骤二、从预先获取到的第N-1检索结果集中,读取分词子集合及其所属目标数据;步骤三、判断所述第N个汉字与所述分词子集合中分词的首字是否相同,如果相同,则进入步骤四;步骤四、将所述步骤二读取出的目标数据及分词子集合对应保存在第N检索结果集中。相应的,本发明还提供了实现上述方法的数据检索引擎,以及设置有所述数据检索引擎的嵌入式终端。采用本发明提供的数据检索技术能够实现从海量目标数据集内快速、准确地检索到目标数据。

Description

数据检索方法、数据检索引擎及嵌入式终端
技术领域
本发明涉及数据检索技术领域,尤其涉及一种数据检索方法、数据检索引擎及嵌入式终端。
背景技术
20世纪80年代中后期以后,随着计算机处理能力的大大提高及使用的逐步普及,数据检索技术的研究进入了一个快速发展的黄金期,各种数据检索技术及实用化***不断涌现。比如,文本检索技术,该技术改进和应用了三种流行的数据检索模型:布尔模型、概率模型和向量空间模型。
发明人在对现有的文本检索技术研究和实践过程中,发现当用户输入的汉字序列中汉字的相邻关系与目标数据不相符时,由于现有的文本检索技术采用将汉字序列的内容与目标数据的内容进行匹配的方式,检索目标数据,而没有从汉字序列的语义对检索到的目标数据加以分析,从而无法保证从海量目标数据集内快速、准确地检索到目标数据。
发明内容
本发明实施例要解决的技术问题是提供一种数据检索方法、数据检索引擎及嵌入式终端,能够实现从海量目标数据集内准确地检索到目标数据。
为解决上述技术问题,本发明的目的是通过以下技术方案实现的:
本发明实施例提供了一种数据检索方法,该方法包括:
步骤一、接收用户输入的一个汉字,若所述汉字不是用户当前输入的第一个汉字,而是第N个汉字,N≥2,则进入步骤二;
步骤二、从预先获取到的第N-1检索结果集中,读取分词子集合及其所属目标数据;
步骤三、判断所述第N个汉字与所述分词子集合中分词的首字是否相同,如果相同,则进入步骤四;
步骤四、将所述步骤二读取出的目标数据及分词子集合对应保存在第N检索结果集中。
相应的,本发明实施例还提供了一种数据检索引擎,该数据检索引擎包括:
汉字接收单元,用于接收用户输入的一个汉字;
汉字顺序判断单元,若判断得到所述汉字接收的汉字不是用户当前输入的第一个汉字,而是第N个汉字,N≥2,则触发所述检索结果读取单元;
所述检索结果读取单元,用于从预先获取到的第N-1检索结果集,读取分词子集合及其所属目标数据;
第一汉字匹配单元,用于判断所述第N个汉字与所述检索结果读取单元读取出的分词子集合中分词的首字是否相同,如果相同,则触发第N检索结果保存单元;
所述第N检索结果保存单元,用于将所述检索结果读取单元读取出的目标数据及分词子集合对应保存在第N检索结果集中。
相应的,本发明实施例还提供了一种嵌入式终端,包括:前文已述的任一一个数据检索引擎。
上述技术方案具有如下有益效果:
本发明实施例提供了一种数据检索技术,该技术在接收到用户输入的汉字后,先判断该汉字是不是用户当前输入的第一个汉字,如果不是第一个汉字,则从预先获取到的第N-1检索结果集,读取分词子集合及其所属目标数据,然后,判断所述第N个汉字与所述分词子集合中分词的首字是否相同,如果相同,则将所述步骤二读取出的目标数据及分词子集合对应保存在第N检索结果集中。由于该技术采用将用户输入的汉字与分词子集合中分词的首字进行匹配的方式,从预先获取到的第N-1检索结果集中获取更准确的目标数据,从而实现了从海量目标数据集内快速、准确地检索到目标数据。
附图说明
图1为本发明第一实施例提供的数据检索方法流程图;
图2为本发明第二实施例提供的数据检索方法流程图;
图3为本发明第三实施例提供的多级检索索引构建方法流程图;
图4为本发明实施例提供的一级检索索引数据簇集示意图;
图5为本发明实施例提供的二级检索索引数据集示意图;
图6为本发明第四实施例提供数据检索引擎组成示意图。
具体实施方式
为使本发明实施例的目的、技术方案、及优点更加清楚明白,以下参照附图对本发明实施例提供的技术方案进行详细说明。
本发明第一实施例提供了一种数据检索方法,请参见图1,该方法包括如下步骤:
步骤101:接收用户输入的一个汉字Chword,若所述汉字Chword不是用户当前输入的第一个汉字,而是第N个汉字,N≥2,则进入步骤102;
步骤102:从预先获取到的第N-1检索结果集中,读取分词子集合及其所属目标数据;
步骤103:判断所述第N个汉字与所述分词子集合中分词的首字是否相同,如果相同,则进入步骤105,如果不同,则进入步骤104;
步骤104:判断所述第N个汉字与所述分词集合中的第N个汉字是否相同,如果相同,则进入步骤105,如果不同,则返回步骤102;
步骤105:将所述步骤二读取出的目标数据及分词子集合对应保存在第N检索结果集中。
以上为本发明实施例提供的数据检索方法,由于该方法采用将用户输入的汉字与分词子集合中分词的首字进行匹配的方式,从预先获取到的第N-1检索结果集中获取更准确的目标数据,从而实现了从海量目标数据集内准确地检索到目标数据。并且本发明第一实施例提供的数据检索方法可以称为跨词检索方法,所谓跨词检索是在用户输入的汉字序列内各个汉字的相邻关系与目标数据不相符时,检索目标数据,或者说是,在用户输入的汉字序列在目标数据中不连续且跨越若干个具有自身语义的词语(或短语)时,检索目标数据。
分析本发明第一实施例提供的数据检索方法可知,如果用户连续输入了2个汉字,则上述方法是在第一检索结果集的基础上采用图1所示方法,得到第二检索结果集。由此可见,想要得到第二检索结果集需要预先获得第一检索结果集,因此,本发明第二实施例还提供了一种数据检索方法,该方法用于获取所述第一检索结果集,但是获取第一检索结果集的方法不限于本发明第二实施例提供的方法。
请参见图2,为本发明第二实施例提供的数据检索方法流程图,包括:
步骤20l:接收用户输入的汉字Chword
步骤202:判断汉字Chword是否为用户当前(在检索框中)输入的第一个汉字,如果是,则进入步骤203,如果否,则进入所述步骤102;
在实际应用中,一次数据检索完成后,会清空与检索过程相关的所有数据,因此,判断汉字Chword是否为用户当前在检索的第一个汉字可以采用如下方法:
判断缓存中是否有与检索过程相关的数据,如果没有,则说明用户当前在检索框输入的汉字是用户当前在检索框中输入的第一个汉字,如果有,则说明用户当前在检索框输入的汉字不是用户当前在检索框输入的第一个汉字。
步骤203:解析汉字Chword的汉语拼音SpellCh(拼音SpellCh);
步骤204:从拼音SpellCh中提取首字母Cen和韵母Ren
步骤205:从预置的二级检索索引数据集或者
Figure G2008102408895D0000041
映射表中,获取首字母Cen在一级检索索引数据簇集中的起始位置偏移量
Figure G2008102408895D0000042
步骤206:在预置的一级检索索引数据簇集中,从起始位置偏移量
Figure G2008102408895D0000043
对应的位置开始,查找首字母Cen和韵母Ren组合对应的一级检索索引数据簇在一级检索引数据簇集中的起始位置偏移量
Figure G2008102408895D0000044
和截止位置偏移量
Figure G2008102408895D0000045
其中,首字母Cen和韵母Ren组合对应的一级检索索引数据簇在一级检索引数据簇集中的截止位置偏移量
Figure G2008102408895D0000046
是紧跟在Cen和Ren组合之后的另一首字母和韵母组合对应的一级检索索引数据簇在一级检索索引数据簇集中的起始位置偏移量,或是该起始位置偏移量减1。
步骤207:从起始位置偏移量
Figure G2008102408895D0000051
对应的位置开始,从预置的一级检索索引数据簇集内逐条读取一级检索索引,该一级检索索引中包括:分词子集合及其所属目标数据在预置的目标数据集中的起始位置偏移量;
步骤208:判断步骤207读取出分词子集合的第一个汉字是否与所述第一个汉字相同,如果相同,则进入步骤209,如果否,则进入步骤211;
步骤209:从步骤207读取出的一级检索索引内读取出目标数据在预置的目标数据集中的起始位置偏移量;
步骤210:在目标数据集中,从步骤209读取出的起始位置偏移量对应的位置读取一条目标数据,将该目标数据及步骤207读取出的一级检索索引中的分词子集合对应保存在第一检索结果集中,进入步骤211;
步骤211:在步骤207读取出的一级检索索引在一级检索索引数据簇集中的起始位置偏移量上加1,判断加1后的起始位置偏移量是小于截止位置偏移量
Figure G2008102408895D0000052
还是大于或等于截止位置偏移量
Figure G2008102408895D0000053
如果是小于,则返回步骤207,如果是大于或等于,则进入步骤212:
步骤212:输出第一检索结果集data中的目标数据。
以上为本发明第二实施例提供的数据检索方法,该方法能够根据用户当前输入的第一个汉字,得到第一检索结果数据集。在得到第一检索结果数据集后,如果用户不再输入汉字,则第一检索结果集中的目标数据将作为最终检索结果呈现在用户面前,如果用户继续输入了第二个汉字、第三个汉字、.......、第N个汉字,则后台会启动本发明第一实施例提供的数据检索方法,将根据第二个汉字,第三个汉字、......、第N个汉字,检索得到的目标数据不断呈现在用户面前,但最终呈现在用户面前的检索结果是根据用户输入的最后一个汉字,检索得到的目标数据。
此处需要说明,在实际应用中,可以采用各种方式触发本发明第二实施例提供的数据检索方法。第一种方式是:当用户输入第一个汉字后,后台检索程序即开始检索数据,也就是说,后台程序一旦接收到用户当前输入的第一个汉字,即开始检索数据。第二种方式是:用户先输入完整的汉字序列,然后由用户手动触发后台检索程序检索数据,此时,本发明第二实施例提供的方法也是对汉字序列中的逐个汉字进行处理。
分析本发明第二实施例提供的数据检索方法可知,在获取第一检索结果集时,预先构建多级检索索引。以下将结合附图对本发明实施例提供的多级检索索引构建方法进行详细介绍。
请参见图3,为本发明第三实施例提供的多级检索索引构建方法,该方法包括如下步骤:
步骤301:对预置的目标数据集内每条目标数据进行分词处理,获得每条目标数据的分词集合;
在实际应用中,可以采用正向/逆向最大匹配分词法对目标数据集中的每条目标数据进行分词处理,得到没有冗余性的分词集合,所述没有冗余性的分词集合是指分词集合中的每个分词相互独立,分词首尾相接后组成了分词前的目标数据,且没有多余的汉字。比如,对“北京市海淀区人民法院”进行正向最大匹配分词处理,得到没有冗余性的分词集合中包括四个独立的分词“北京市”“海淀区”“人民”“法院”。
步骤302:解析目标数据集内每条目标数据的每个汉字的拼音;
其中,解析目标数据集内每条目标数据的每个汉字的拼音的过程具体包括:从目标数据集内逐条读取目标数据,获取当前读取出的目标数据的每个汉字的汉字码,再根据简体中文字符集(GB2312)或者国标码(GBK)内记录的汉字码与拼音之间的映射关系,得到汉字的拼音。
比如,“北”的汉字码为“B1B1”,在GB2312中“B1B1”对应的拼音是“bei”;“京”的汉字码为“BEA9”,在GB2312中,“BEA9”对应的拼音是“jing”。因此,根据GB2312内记录的汉字码与拼音的映射关系,解析得到的“北”“京”的拼音分别为“bei”“jing”。
步骤303:从步骤302得到的拼音中提取出该拼音的首个字母(首字母)和韵母;
在拼音内,拼音有以下三种构成形式:
1、拼音由声母与韵母共同组成,且声母只有一个字母;
2、拼音由声母与韵母共同组成,且声母有两个字母;
3、拼音只有韵母,而没有声母。
在本发明实施例中,从拼音中提取出的首字母是该拼音的声母的首字母,具体的:当拼音由声母和韵母共同组成,且声母只有一个字母时,从该拼音中提取出的首字母就是该拼音的声母;当拼音由声母和韵母组成,且声母有两个字母时,从该拼音中提取出的首字母就是该拼音的声母的首字母;当该拼音只有韵母,而没有声母时,从该拼音中只能提取出韵母而没有首字母。
在拼音构造原理中还有一个重要的特点是:声母与韵母的首字母绝不相同,且共有23个声母(如,b、m、d、n、g、h、q、zh、sh、z、s、、p、f、t、l、k、j、x、ch、r、c、w),34个韵母(如,a、o、e...uang、iong、uan)。根据拼音构造原理,本发明实施例提供的从拼音中提取拼音首字母与韵母的过程具体包括:
第一步,判断拼音的首字母是否为23个声母的首字母(即b、m、d、......、r、c、w)之一,如果是,则进入第二步,如果否,则说明该拼音只有韵母,且整个拼音就是韵母,因此,只能从该拼音中提取出韵母,而没有首字母;
第二步,判断拼音的第二个字母是否为字符‘h’,
如果是,说明该拼音的声母属于复合声母(即ch、sh、zh中任一),该拼音的前两个字母为声母,前两个字母后的所有字母构成了该拼音的韵母,则从该拼音中提取出第一个字母作为该拼音的首字母,并提取该拼音第二个字母后的所有字母作为该拼音的韵母;
如果否,说明该拼音的首字母是声母,首字母后的所有字母构成了该拼音的韵母,则从该拼音中提取出首字母,并提取出首字母后的所有字母作为该拼音的韵母。
比如,“北”的拼音为“bei”,该拼音的首字母为“b”,韵母为“ei”;“市”的拼音为“shi”,该拼音的首字母为“s”,韵母为“i”。
步骤304:根据每条目标数据的分词集合,获取该目标数据的分词子集合,分词子集合的个数等于分词集合中分词的个数;
假设一条目标数据的分词集合为<wi,wi+1,…,wn-1,wn>|1≤i≤n>,则分词子集合CWi为:
CWi={<wi,wi+1,…,wn-1,wn>|1≤i≤n},n为分词集合内分词个数。
步骤305:在上述每个分词子集合中加入所属目标数据在目标数据集内的起始位置偏移量,得到该目标数据的一级检索索引;
步骤306:将步骤305得到的一级检索索引保存到该一级检索索引内第一个汉字的拼音的首字母与韵母组合对应的一级检索索引数据簇中;
以前文所述“北京市海淀区人民法院”对应的分词集合为例说明步骤304至步骤306。
“北京市海淀区人民法院”的分词集合包括四个独立的分词“北京市”,“海淀区”,“人民”,“法院”,由此可以得到四个分词子集合:<北京市;海淀区;人民;法院>,<海淀区;人民;法院>,<人民;法院>,<法院>,其中“;”用于分隔每个分词;上述四个分词子集合所属的目标数据“北京市海淀区人民法院”在目标数据集内的起始位置偏移量为1348,将1348加入上述四个分词子集合中,得到“北京市海淀区人民法院”的四个一级检索索引:<北京市;海淀区;人民;法院,1348>,<海淀区;人民;法院,1348>,<人民;法院,1348>,<法院,1348>;将<北京市;海淀区;人民;法院,1348>保存在“北”的拼音的首字母“b”与韵母“ei”组合对应的一级检索索引数据簇中,其他三个一级检索索引则分别保存到“海”,“人”,“法”的拼音的首字母和韵母的组合“h+ai”,“r+en”,“f+a”对应的一级检索索引数据簇中。
步骤307:获取26个英文字母(a,b,c,...,x,y,z)在一级检索索引数据簇集中的起始位置偏移量
Figure G2008102408895D0000081
所述一级检索索引数据簇集是指前文所述一级检索索引数据簇构成的集合;
请参见图4,为一级检索索引数据簇集示意图。
步骤308:将26英文字母及其在一级检索索引数据簇集的起始位置偏移量对应保存,得到二级检索索引数据集。
进一步,为了提高获取26个英文字母在一级检索索引数据簇集内的起始位置偏移量的速度,可以在步骤308后进一步执行如下步骤:
读取二级检索索引数据集内所有的数据内容,构建paris(C,
Figure G2008102408895D0000091
)映射表,其中,字符C表示26个英文字母,变量
Figure G2008102408895D0000092
表示26个英文字母在一级检索索引数据簇集内的起始位置偏移量。
请参见图5,为二级检索索引数据集示意图。以上示意图仅为更清楚的说明本发明提供的方法,不应视为对本发明的限制。
以上介绍了本发明实施例提供各种方法的实现方式,以下结合附图对本发明实施例数据检索引擎进行详细介绍。
请参见图6,为本发明第四实施例提供的数据检索引擎组成示意图,该所述数据检索引擎包括:
汉字接收单元601,用于接收用户输入的一个汉字;
汉字顺序判断单元602,若判断得到所述汉字接收的汉字不是用户当前输入的第一个汉字,而是第N个汉字,N≥2,则触发检索结果读取单元603;
检索结果读取单元603,用于从预先获取到的第N-1检索结果集,读取分词子集合及其所属目标数据;
第一汉字匹配单元604,用于判断所述第N个汉字与所述检索结果读取单元603读取出的分词子集合中分词的首字是否相同,如果不相同,则触发第二汉字匹配单元605,如果相同,则触发第N检索结果保存单元606,
第二汉字匹配单元605,判断所述第N个汉字与所述分词子集合中的第N个汉字是否相同,如果相同,则触发第N检索结果保存单元606,如果不同,则触发所述检索结果读取单元603;
第N检索结果保存单元606,用于将所述检索结果读取单元读取出的目标数据及分词子集合对应保存在第N检索结果集中。
以上是本发明第四实施例提供的数据检索引擎,分析上述装置可知在采用上述装置时需要预先获取到第一检索结果集,为此,上述装置可以进一步包括:第一拼音解析单元,第一字母提取单元,第一起始位置偏移量获取单元,一级检索索引数据簇查找单元,一级检索索引读取单元,第三汉字匹配单元,第一检索结果获取单元;
当汉字顺序判断单元602判断得到所述汉字接收的汉字是用户当前输入的第一个汉字时,触发第一拼音解析单元;
第一拼音解析单元,用于解析所述第一个汉字的拼音;
第一字母提取单元,用于从所述第一拼音解析单元解析得到的拼音中提取出首字母和韵母;
第一起始位置偏移量获取单元,用于从预置二级检索索引数据集中,获取所述首字母在预置的一级检索索引数据簇集中的第一起始位置偏移量;
一级检索索引数据簇查找单元,用于在预置的一级检索索引数据簇集中,从所述第一起始位置偏移量对应的位置开始,查找所述首字母和韵母组合对应的一级检索索引数据簇;
一级检索索引读取单元,用于从所述一级检索索引数据簇查找单元查找到的一级检索索引数据簇中,读取一级检索索引,所述一级检索索引中包括:分词子集合及其所属目标数据在预置的目标数据集合中的第二起始位置偏移量;
第三汉字匹配单元,用于判断所述第一个汉字与所述分词子集合中的第一个汉字是否相同,如果相同,则触发第一检索结果获取单元,如果不同,则触发一级检索索引读取单元;
第一检索结果获取单元,用于从所述一级检索索引读取单元读取出的一级检索索引中获取所述第二起始位置偏移量及所述分词子集合,在所述目标数据集中,从所述第二起始位置偏移量对应的位置读取一条目标数据,并将所述目标数据及分词子集合对应保存在第一检索结果集中。
由上述获取第一检索结果集的过程可知,需要预先构建多级检索索引,为此上述数据检索引擎可以进一步包括如下单元:
分词集合获取单元,用于对所述目标数据集中的目标数据进行分词处理,获得目标数据的分词集合;
目标数据拼音解析单元,用于解析构成所述目标数据的每个汉字的拼音;
在实际应用中,所述目标数据拼音解析单元可以用以下几个功能模块实现:
汉字码获取单元,用于获取构成所述目标数据的每个汉字的汉字码;
拼音解析单元,用于根据简体中文字符集或者国标码内记录的汉字码与拼音之间的映射关系,得到所述汉字的拼音。
目标数据字母提取单元,用于从所述目标数据拼音解析单元解析出的拼音中提取出首字母和韵母;
在实际应用中,所述目标数据字母提取单元可以采用如下功能模块实现:
首字母类型判断单元,用于判断所述拼音的首字母是否为23个声母的首字母中的一个,如果不是,则触发第一字母提取单元,如果是,则触发字符‘h’判断单元;
所述第一字母提取单元,用于从所述拼音中提取出韵母,首字母为空;
所述字符‘h’判断单元,用于判断所述拼音的第二个字母是否为字符‘h’,如果是,则触发第二字母提取单元,如果否,则触发第三字母提取单元;
所述第二字母提取单元,用于提取所述拼音的第一个字母作为其首字母,并提取第二个字母后的所有字母作为其韵母;
所述第三字母提取单元,用于提取所述拼音的第一个字母作为其首字母,并提取所述首字母后的所有字母作为其韵母。
分词子集合获取单元,用于根据每个目标数据的所述分词集合,获取所述目标数据的分词子集合,所述分词子集合的个数等于所述分词集合中分词的个数;
一级检索索引数据簇获取单元,用于获取所述目标数据在所述目标数据集内的第二起始位置偏移量,将所述第二起始位置偏移量加入所述分词子集合获取单元获取到的分词子集合中,得到所述目标数据的一级检索索引,并将所述一级检索索引保存到所述分词子集合中第一个汉字的拼音的首字母与韵母组合对应的一级检索索引数据簇中;
二级检索索引数据集获取单元,用于获取26个英文字母在一级检索索引数据簇集中的第一起始位置偏移量,并将所述26英文字母及其第一起始位置偏移量对应保存在二级检索索引数据集中。
本发明实施例还提供了一种嵌入式终端,该终端包括前文已述的数据检索引擎。所述嵌入式终端可以是PDA、导航仪、手机等终端。
以上对本发明所提供的一种数据检索方法、数据检索引擎及嵌入式终端进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种数据检索方法,其特征在于,所述方法包括:
步骤一、接收用户输入的一个汉字,若所述汉字不是用户当前输入的第一个汉字,而是第N个汉字,N≥2,则进入步骤二;
步骤二、从预先获取到的第N-1检索结果集中,读取分词子集合及其所属目标数据;
步骤三、判断所述第N个汉字与所述分词子集合中分词的首字是否相同,如果相同,则进入步骤四;
步骤四、将所述步骤二读取出的目标数据及分词子集合对应保存在第N检索结果集中。
2.如权利要求1所述的方法,其特征在于,若所述第N个汉字与所述分词子集合中分词的首字都不相同,则所述方法进一步包括:
判断所述第N个汉字与所述分词字集合中的第N个汉字是否相同,如果相同,则进入所述步骤四。
3.如权利要求1或2所述的方法,其特征在于,若用户输入的汉字是用户当前输入的第一个汉字,则所述方法进一步包括:
解析所述第一个汉字的拼音;
从所述拼音中提取出首字母和韵母;
从预置二级检索索引数据集中,获取所述首字母在预置的一级检索索引数据簇集中的第一起始位置偏移量;
在预置的一级检索索引数据簇集中,从所述第一起始位置偏移量对应的位置开始,查找所述首字母和韵母组合对应的一级检索索引数据簇;
从所述一级检索索引数据簇中,读取一级检索索引,所述一级检索索引中包括:分词子集合及其所属目标数据在预置的目标数据集合中的第二起始位置偏移量;
判断所述第一个汉字与所述分词子集合中的第一个汉字是否相同,如果相同,则从所述一级检索索引中获取所述第二起始位置偏移量及所述分词子集合;
在所述目标数据集中,从所述第二起始位置偏移量对应的位置读取一条目标数据,并将所述目标数据及分词子集合对应保存在第一检索结果集中。
4.如权利要求3所述的方法,其特征在于,所述方法进一步包括:
对所述目标数据集中的目标数据进行分词处理,获得目标数据的分词集合;
解析构成所述目标数据的每个汉字的拼音,并从所述拼音中提取出首字母和韵母;
根据每个目标数据的所述分词集合,获取所述目标数据的分词子集合,所述分词子集合的个数等于所述分词集合中分词的个数;
获取所述目标数据在所述目标数据集内的第二起始位置偏移量;
将所述第二起始位置偏移量加入所述分词子集合,得到所述目标数据的一级检索索引,并将所述一级检索索引保存到所述分词子集合中第一个汉字的拼音的首字母与韵母组合对应的一级检索索引数据簇中;
获取26个英文字母在一级检索索引数据簇集中的第一起始位置偏移量;
将26英文字母及其第一起始位置偏移量对应保存在二级检索索引数据集中。
5.如权利要求4所述的方法,其特征在于,所述解析构成所述目标数据的每个汉字的拼音具体包括;
获取构成所述目标数据的每个汉字的汉字码;
根据简体中文字符集或者国标码内记录的汉字码与拼音之间的映射关系,得到所述汉字的拼音。
6.如权利要求4所述的方法,其特征在于,所述从所述拼音中提取出首字母和韵母具体包括:
判断所述拼音的首字母是否为23个声母的首字母中的一个,
如果不是,说明所述拼音只有韵母,则从所述拼音中提取出韵母,首字母为空;
如果是,则判断所述拼音的第二个字母是否为字符‘h’,如果是,则提取所述拼音的第一个字母作为其首字母,并提取第二个字母后的所有字母作为其韵母;如果否,则提取所述拼音的第一个字母作为其首字母,并提取所述首字母后的所有字母作为其韵母。
7.如权利要求4所述的方法,其特征在于,
若目标数据的分词集合为<wi,wi+1,…,wn-1,wn>|1≤i≤n>,分词子集合为CWi,则所述分词子集合具体为:CWi={<wi,wi+1,…,wn-1,wn>|1≤i≤n}。
8.一种数据检索引擎,其特征在于,所述数据检索引擎包括:
汉字接收单元,用于接收用户输入的一个汉字;
汉字顺序判断单元,若判断得到所述汉字接收的汉字不是用户当前输入的第一个汉字,而是第N个汉字,N≥2,则触发检索结果读取单元;
所述检索结果读取单元,用于从预先获取到的第N-1检索结果集,读取分词子集合及其所属目标数据;
第一汉字匹配单元,用于判断所述第N个汉字与所述检索结果读取单元读取出的分词子集合中分词的首字是否相同,如果相同,则触发第N检索结果保存单元;
所述第N检索结果保存单元,用于将所述检索结果读取单元读取出的目标数据及分词子集合对应保存在第N检索结果集中。
9.如权利要求8所述的数据检索引擎,其特征在于,所述数据检索引擎进一步包括:第二汉字匹配单元;
所述第一汉字匹配单元,若判断得到所述第N个汉字与所述检索结果读取单元读取出的分词子集合中分词的首字都不相同,则触发所述第二汉字匹配单元;
所述第二汉字匹配单元,用于判断所述第N个汉字与所述分词集合中的第N个汉字是否相同,如果相同,则触发所述第N检索结果保存单元。
10.如权利要求8或9所述的数据检索引擎,其特征在于,所述数据检索引擎进一步包括:第一拼音解析单元,第一字母提取单元,第一起始位置偏移量获取单元,一级检索索引数据簇查找单元,一级检索索引读取单元,第三汉字匹配单元,第一检索结果获取单元;
所述汉字顺序判断单元,若判断得到所述汉字接收的汉字是用户当前输入的第一个汉字,则触发所述第一拼音解析单元;
所述第一拼音解析单元,用于解析所述第一个汉字的拼音;
所述第一字母提取单元,用于从所述第一拼音解析单元解析得到的拼音中提取出首字母和韵母;
所述第一起始位置偏移量获取单元,用于从预置二级检索索引数据集中,获取所述首字母在预置的一级检索索引数据簇集中的第一起始位置偏移量;
所述一级检索索引数据簇查找单元,用于在预置的一级检索索引数据簇集中,从所述第一起始位置偏移量对应的位置开始,查找所述首字母和韵母组合对应的一级检索索引数据簇;
所述一级检索索引读取单元,用于从所述一级检索索引数据簇查找单元查找到的一级检索索引数据簇中,读取一级检索索引,所述一级检索索引中包括:分词子集合及其所属目标数据在预置的目标数据集合中的第二起始位置偏移量;
所述第三汉字匹配单元,用于判断所述第一个汉字与所述分词子集合中的第一个汉字是否相同,如果相同,则触发所述第一检索结果获取单元;
所述第一检索结果获取单元,用于从所述一级检索索引读取单元读取出的一级检索索引中获取所述第二起始位置偏移量及所述分词子集合;在所述目标数据集中,从所述第二起始位置偏移量对应的位置读取一条目标数据,并将所述目标数据及分词子集合对应保存在第一检索结果集中。
11.如权利要求10所述的数据检索引擎,其特征在于,所述数据检索引擎进一步包括:
分词集合获取单元,用于对所述目标数据集中的目标数据进行分词处理,获得目标数据的分词集合;
目标数据拼音解析单元,用于解析构成所述目标数据的每个汉字的拼音;
目标数据字母提取单元,用于从所述目标数据拼音解析单元解析出的拼音中提取出首字母和韵母;
分词子集合获取单元,用于根据每个目标数据的所述分词集合,获取所述目标数据的分词子集合,所述分词子集合的个数等于所述分词集合中分词的个数;
一级检索索引数据簇获取单元,用于获取所述目标数据在所述目标数据集内的第二起始位置偏移量,将所述第二起始位置偏移量加入所述分词子集合获取单元获取到的分词子集合中,得到所述目标数据的一级检索索引,并将所述一级检索索引保存到所述分词子集合中第一个汉字的拼音的首字母与韵母组合对应的一级检索索引数据簇中;
二级检索索引数据集获取单元,用于获取26个英文字母在一级检索索引数据簇集中的第一起始位置偏移量,并将所述26英文字母及其第一起始位置偏移量对应保存在二级检索索引数据集中。
12.如权利要求11所述的数据检索引擎,其特征在于,所述目标数据拼音解析单元具体包括;
汉字码获取单元,用于获取构成所述目标数据的每个汉字的汉字码;
拼音解析单元,用于根据简体中文字符集或者国标码内记录的汉字码与拼音之间的映射关系,得到所述汉字的拼音。
13.如权利要求11所述的数据检索引擎,其特征在于,所述目标数据字母提取单元具体包括:
首字母类型判断单元,用于判断所述拼音的首字母是否为23个声母的首字母中的一个,如果不是,则触发第一字母提取单元,如果是,则触发字符‘h’判断单元;
所述第一字母提取单元,用于从所述拼音中提取出韵母,首字母为空;
所述字符‘h’判断单元,用于判断所述拼音的第二个字母是否为字符‘h’,如果是,则触发第二字母提取单元,如果否,则触发第三字母提取单元;
所述第二字母提取单元,用于提取所述拼音的第一个字母作为其首字母,并提取第二个字母后的所有字母作为其韵母;
所述第三字母提取单元,用于提取所述拼音的第一个字母作为其首字母,并提取所述首字母后的所有字母作为其韵母。
14.一种嵌入式终端,其特征在于,包括:权利要求8至权利要求13所述的任一一个数据检索引擎。
CN 200810240889 2008-12-26 2008-12-26 数据检索方法、数据检索装置及嵌入式终端 Active CN101770478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810240889 CN101770478B (zh) 2008-12-26 2008-12-26 数据检索方法、数据检索装置及嵌入式终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810240889 CN101770478B (zh) 2008-12-26 2008-12-26 数据检索方法、数据检索装置及嵌入式终端

Publications (2)

Publication Number Publication Date
CN101770478A true CN101770478A (zh) 2010-07-07
CN101770478B CN101770478B (zh) 2013-04-24

Family

ID=42503343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810240889 Active CN101770478B (zh) 2008-12-26 2008-12-26 数据检索方法、数据检索装置及嵌入式终端

Country Status (1)

Country Link
CN (1) CN101770478B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528420A (zh) * 2015-12-07 2016-04-27 北京金山安全软件有限公司 文字编码和译码方法、装置及电子设备
CN111859091A (zh) * 2020-07-21 2020-10-30 山东省科院易达科技咨询有限公司 一种基于人工智能的搜索结果的聚合方法及装置
CN112817966A (zh) * 2020-07-24 2021-05-18 腾讯科技(深圳)有限公司 数据检索方法、装置、电子设备以及存储介质
CN117875267A (zh) * 2024-03-11 2024-04-12 江西曼荼罗软件有限公司 一种汉字转拼音的方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040015498A1 (en) * 2000-09-29 2004-01-22 Giovanni Rabaioli Method for accessing a storage unit during the search for substrings, and a corresponding storage unit
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及***
CN101246478A (zh) * 2007-02-14 2008-08-20 高德软件有限公司 信息存储及检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040015498A1 (en) * 2000-09-29 2004-01-22 Giovanni Rabaioli Method for accessing a storage unit during the search for substrings, and a corresponding storage unit
CN101246478A (zh) * 2007-02-14 2008-08-20 高德软件有限公司 信息存储及检索方法
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528420A (zh) * 2015-12-07 2016-04-27 北京金山安全软件有限公司 文字编码和译码方法、装置及电子设备
CN111859091A (zh) * 2020-07-21 2020-10-30 山东省科院易达科技咨询有限公司 一种基于人工智能的搜索结果的聚合方法及装置
CN112817966A (zh) * 2020-07-24 2021-05-18 腾讯科技(深圳)有限公司 数据检索方法、装置、电子设备以及存储介质
CN112817966B (zh) * 2020-07-24 2023-10-13 腾讯科技(深圳)有限公司 数据检索方法、装置、电子设备以及存储介质
CN117875267A (zh) * 2024-03-11 2024-04-12 江西曼荼罗软件有限公司 一种汉字转拼音的方法及***
CN117875267B (zh) * 2024-03-11 2024-05-24 江西曼荼罗软件有限公司 一种汉字转拼音的方法及***

Also Published As

Publication number Publication date
CN101770478B (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN107463666B (zh) 一种基于文本内容的敏感词过滤方法
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
CN104142915B (zh) 一种添加标点的方法和***
KR101465769B1 (ko) 사전 단어 및 어구 판정
CN101315622B (zh) 检测文件相似度的***及方法
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN101950285A (zh) 利用统计学方法对汉字的本国语读音串转换***及其方法
CN104252484A (zh) 一种拼音纠错方法及***
CN110879834B (zh) 一种基于循环卷积网络的观点检索***及其观点检索方法
Samih et al. An arabic-moroccan darija code-switched corpus
CN103955450A (zh) 一种新词自动提取方法
CN104298365A (zh) 字符输入设备以及字符输入方法
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN101770478B (zh) 数据检索方法、数据检索装置及嵌入式终端
CN104252542A (zh) 一种基于词库的动态规划中文分词方法
CN102033891B (zh) 中文信息检索方法、中文信息检索装置
CN101539433A (zh) 导航***中拼音首字母加声调检索的方法及装置
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN101599075B (zh) 汉语缩略语处理方法和装置
CN105573981A (zh) 一种提取中文人名地名的方法及装置
CN102737017B (zh) 一种提取页面主题的方法和装置
CN101436205A (zh) 通过释义查询单字的方法与装置
CN108595584B (zh) 一种基于数字标记的汉字输出方法和***
CN111538805A (zh) 一种基于深度学习和规则引擎的文本信息抽取方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200511

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing city Haidian District No. three Suzhou Street Daheng Technology Building South 16 floor room 2

Patentee before: AUTONAVI INFORMATION TECHNOLOGY Co.,Ltd.