CN101201837A

CN101201837A - 股票、图像及其它非纯文字文件高速搜索***

Info

Publication number: CN101201837A
Application number: CNA2007101049725A
Authority: CN
Inventors: 谭思哲
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-05-24
Filing date: 2007-05-10
Publication date: 2008-06-18

Abstract

本发明涉及一种非纯文字文件搜索***，其可在大规模数据资源中搜索股票文件或图像文件等非纯文字文件。非纯文字文件首先被分割成一系列时间单元或图元阵，每个时间单元或图元和一系列预定的特征模式匹配与比对，以生成一系列能代表文件局部或整体特征的命名令牌。这样，非纯文字文件就有了一个命名令牌集合的表达形式。当所有文件的令牌汇集成一个令牌总集合后，通过文字搜索方法搜索命名令牌的逻辑组合，就可以有效、***地搜索原非纯文字文件。

Description

股票、图像及其它非纯文字文件高速搜索***

技术领域

本发明涉及一种文件搜索***和方法，尤其是一种可高速搜索含图像的文件、股市数据，及其它非纯文字文件的搜索***和方法。

背景技术

近年来，文字信息搜索技术，尤其是基于互联网的文字信息搜索技术的发展已远远领先于非纯文字信息搜索技术。非纯文字信息包括应用于物理、医疗、地质、地理、科学工程等领域的图像，以及主要通过曲线表示的股市信息。和含有一系列字符/文字的文字信息不同，非纯文字信息是N维空间M个测量标量的一组或多组观测数值的组合信息，其中M、N为整数。

对于文字信息而言，一个文字文件由一系列由字符/文字定义的词汇组成，这些词汇可以是一般的词汇，也可以是一些具有特定含义的词汇，如电子邮件地址、日期、数量和互联网统一资源定位地址等。

对于非纯文字信息，如股市信息而言，和一个股票相关的数据包含股价和交易量，一般通过一组以时间为自变量的曲线表示。文字搜索技术可以从数据资源或互联网上快速搜索到用户感兴趣的文字文件，但是现在还没有可从数据资源中有效、***地搜索和特定股票相关的非纯文字股市信息的方法，更不用说在互联网上有效、***地搜索非纯文字股市信息的方法。

现有技术已经揭示了多种股市分析和预测方法，如于2000年1月4日公告的美国专利第6,012,042号，其揭示了一种将股票的时间序列数据和非时间序列数据转换为一个统一库存格式，并用于股市分析的方法。又如于2005年2月8日公告的美国专利第6,853,991号，其揭示了一种基于模糊逻辑的股市预测方法。再如于2005年5月31日公告的美国专利号第6,901,383号，其揭示了另一种根据历史交易数据制定股票购买指数，以进行股市预测的方法。

但是，上述搜索***和方法均不能有效、***地搜索非纯文字股市信息，尤其是股票曲线。换句话说，据作者所知，至今还没有一种可以象搜索文字文件一样在数据资源或互联网上有效、***地搜索非纯文字股票数据的方法。

非纯文字信息包括图像，如照片和图片等，图像通常以二维空间上的一组或多组测量数值表示。图片可以是照相机拍摄的一般彩色照片、X光照片，也可以是红外照片、超声波照片等。

同样的，至今也没有一种有效、***的搜索方法，可以从大量图像文件(如各种图片)的某一个图像文件(如人脸)中搜索一个特定目标图像(如眼睛)，更不用说在互联网上搜索一幅图像了。

一些现有搜索方法可以从图像文件中搜索信息，但是效率和精度不佳。如于1991年4月23日公告的美国专利第5,010,581号，其揭示了一种使用非图像搜索代码搜索图像文件的方法。又如于1998年5月5日公告的美国专利第5,748,805号和于2002年5月28日公告的美国专利第6,396,951号，其分别揭示了一种通过搜索文字文件的一个图像，例如文字文件的扫描图像，来搜索文字文件的方法。通过光学字符阅读器(OCR)的读取，图像被解读成具有类似于文字的信息。

但是，据作者所知，至今也没有一种可以象搜索文字文件一样在数据资源或互联网上有效、***地搜索图像文件的方法。

一般来说，非纯文字信息含有多个N维空间M度量的数据。前述股票数据含有一维时间空间的多个度量值，如各种股价和成交量等。彩色图片是红、绿、蓝三色，通常以R、G、B标示，在图片的二维空间(长和宽)上的分布。据作者所知，至今还没有一种有效、***的方法，可以高速搜索任意N维空间M度量数据所产生的非纯文字文件。

从计算难度角度来看，在一个N²像素的图像文件中搜索一个M²像素的目标图像(M、N可以为任意整数，且N＞M)，需要进行M²×N²次运算。如果数据资源中含有k个文件，就需要进行k×M²×N²次运算。类似地，如果在n维空间检索k个文件，就需要进行k×Mⁿ×Nⁿ次运算，运算量随着文件尺寸的增长成指数增长。

另一方面，在数据资源或互联网上搜索文字文件的方法，在业界已经众所周知，且被广泛用于以词汇、词组为检索词的搜索引擎中。理论上来说，一种基本的文字文件搜索方法由以下步骤组成：

●一个含有多个文字文件的数据资源，如文件1，文件2，文件3，文件4，...，文件n，这些文件可以自互联网或其他数据资源收集。

●每个文件由一系列词汇或字符串组成，如文件2可以含有″...He is a computerscience professor at XYZ University.You may contact him at [email protected]...″。

●把每个文件分解(业界又称为令牌化过程(tokenizing))，生成一个令牌(token)集合，如文件2的令牌可以包括：computer，science，professor，xyz，university，contact，[email protected]，computer science，computer science professor，xyz university等。

●把所有文件的令牌汇集成一个令牌的总集合，通过建立词汇到文件的索引，编辑一个含有特定令牌的文件清单。每个令牌都有自己对应的清单，如令牌词汇“university”的文件清单可以为：文件2、文件3、文件6、文件15和文件22，令牌词汇“[email protected]”的文件清单可以为：文件2和文件25，等等。

●当搜索一个目标语句时，目标语句也同样要令牌化，文字搜索即从令牌总集合的索引中搜索目标语句生成令牌的语法组合。例如，如果目标语句中含有令牌词汇“university”，搜索引擎就会返回相匹配的文件清单：文件2、文件3、文件6、文件15和文件22；如果目标语句含有令牌词汇“university”和令牌词汇“[email protected]”的逻辑与组合(″university″AND″[email protected]″)，搜索引擎就会返回相匹配的文件清单：文件2，依此类推。

●返回匹配的文件将按匹配度依次显示，匹配度由文件中令牌词汇出现的频率、令牌词汇在文件中的位置和区域等因素决定。

●显示匹配文件时，可以对匹配的令牌------目标关键词进行加黑等标记处理。

现有基于令牌化处理的文字文件搜索方法的主要优点在于：其是线形过程，不含复杂的指数计算，因此可以有效、体统地进行搜索。

总之，文字文件的搜索方法是***、有效的线形过程，但这些方法不能直接应用于非纯文字文件的搜索。据作者所知，目前非纯文字文件的搜索方法都包括复杂的指数运算，尚无搜索方法可在数据资源或互联网上有效、***地搜索股票文件、图像文件或其它非纯文字文件。

发明内容

本发明提供了一种非纯文字文件的高速搜索方法，其可用于对目标股票进行有效、***的搜索，也可用于对图像文件进行有效、***的定位搜索。

根据本发明的一个实施方式，一种非纯文字文件的搜索方法包括：把非纯文字文件输入一个令牌生成器(tokenizer)，以产生一系列能代表该文件局部或整体特征的令牌(token)，每个令牌取一个能代表其特征的名字。因为非纯文字文件是通过一个命名令牌集合表示的，所以通过用文字搜索引擎搜索令牌的名字即可实现对原非纯文字文件的搜索。

相对而言，文字文件的搜索是以字符或词汇作为令牌，而非纯文字文件的搜索则是以非纯文字文件的局部或整体特性，如股市事件、特殊的图像特征等作为令牌。

因此，可以对非纯文字文件进行“哪种股票在2005年经历了大崩溃？”，“哪张卫星图片显示了一座大桥？”等搜索。

附图说明

为了让本发明的发明目的、特征和优点明显易懂，现在结合具体实施方式和附图，对本发明进行进一步详细说明，其中：

图1所示为根据本发明的一个实施方式，一种可有效、***地对股票文件令牌化(tokenizing)的***的逻辑流程图。

图2所示为图1中股票文件22的示意图，其包括随时间变化的开市价曲线、最高价曲线、最低价曲线、收市价曲线和成交额曲线。

图3所示为根据本发明的一个实施方式，一种可有效、***地搜索股票文件的***的逻辑流程图。

图4所示为根据本发明的一个实施方式，一种可有效、***地对图像文件令牌化(tokenizing)的***的逻辑流程图。

图5所示为如何将图4中的图像40分割成一个规则的图元阵的示意图，其中每个图元包含一定数目的像素。

图6所示为根据本发明的一个实施方式，一种可有效、***地搜索图像文件的***的逻辑流程图。

具体实施方式一

下面结合图1至3中所示的一种股票文件搜索***，详细说明本发明的一个最佳实施方式，本发明的其它实施方式将随后介绍。

股市数据包括各个已交易股票的各项信息。例如，假设我们感兴趣的股票包括XYZ、ABC、DE、FGH、IJKL等，股票XYZ的信息可能包括文字信息和非纯文字信息。文字信息包括公司的基本状况，如创立时间、地址、官员姓名，以及定期公布或不定期公布的财政报告、新闻发布等，这部分文字信息可以直接通过本领域技术人员已知的文字搜索引擎进行搜索。

另一方面，非纯文字信息包括股票每天的开市价曲线、最高价曲线、最低价曲线、收市价曲线和交易量曲线等各种股票曲线，请参照图2。由于这部分非纯文字信息是通过曲线表示的，所以一般不能直接用文字搜索引擎有效地进行搜索。

图1和图3所示为本发明股票搜索***的一个最佳实施方式，这一***是以计算机软件形式实现。也就是说，图1和图3给出了本发明股票搜索***的一个实施方式的流程示意图。通过软件处理储存于同一台计算机的数据或文件，或储存于通过互联网、局域网连接的其他区域的数据或文件，来完成搜索。

股票的搜索***可以用来搜索具有预定目标特征的一种或多种股票，并标定出相应的发生时间段。目标特征可以是参数式的，也可以是时间式的或事件式的。例如，用户可能要搜索2005年大跌过的所有股票，图1和图3所示的股票搜索***就会输出符合这一搜索目标的股票清单，如ABC、FGH、XYZ等。因为需要搜索的数据并非文字格式，所以搜索的目标语句不能象可以通过文字搜索引擎搜索到的“哪些股票的开市价是37美元？”那样简单。

图1：令牌化过程

图1所示为非纯文字股票文件搜索的第一个步骤，股票的令牌化(tokenizing)过程：首先，收集一批股票文件，以形成一个被搜索股票文件集合20，股票文件可以收集自互联网或其他数据资源。图示文件1位于顶部，其他文件位于文件1的下面或后面，股票文件集合20中的文件将被顺序处理。图1显示了股票文件22，记为股票文件i，是怎样被令牌化处理的：文件22首先被分成一个时间单元系列24，时间单元系列24下面还要详细说明；时间单元系列24中的各个时间单元，如时间单元26(时间单元i)，被依次输送至令牌生成器28(tokenizer)。

和文字文件搜索引擎中的令牌生成器类似，股票令牌生成器28将从被处理的各股票文件中生成一系列令牌。文字文件搜索引擎中的令牌化过程已为本领域技术人员熟知的技术，现在将详细说明非纯文字文件的令牌化过程。

令牌生成器28将输入的股票文件22对应的时间单元26和一组预定的股票模式30，包括股票模式1、股票模式2、股票模式j和股票模式m进行对比和匹配。每个股票模式代表不同的股票特性，如股价上涨、股价下跌、股价在峰值、股价在谷底等。

当令牌生成器28发现输入时间单元26和股票模式1一致时，就会在此输入时间单元26生成一个股票模式1的股票令牌34。非纯文字文件搜索的股票令牌34和文字文件搜索的令牌相类似，在纯文字文件搜索中，令牌一般只是一个单词或单词的组合；而在非纯文字文件搜索中，令牌不仅通过一个单词或名字表示，而且具有其特定的特性。例如，股票令牌“上涨”不仅有可用于搜索的令牌名字“上涨”，而且还具有股票在时间单元上涨了多少等特性。换句话说，单词或名字“上涨”仅是股票令牌34的代表符号，股价上涨事件才是股票令牌34的属性和内涵。

一个股票模式是用来从股票文件中找出某个目标股票模式的参考模式，也称股票特征抽象、抽取模式。如果文件中某处记载的股票模式和一个给定的股票模式相匹配，就会生成一个对应该股票模式的令牌。因此，一个股票模式代表了在文件中发现的某个模式、某个事件或某个属性。如一个股票模式可以代表文件中记载的股价上涨事件(“上涨”(″up″))、股价下跌事件(“下跌”(″down″))，股价在峰值事件(“峰值”(″peak″))等。

每个股票令牌34都有一个名字，如“上涨”(″up″)，“下跌”(″down″)和“峰值”(″peak″)等。换言之，每个股票令牌34都有一个文字名字。在上述例子中，令牌的名字可以简单为“up”，以显示股价上涨的属性。事实上，在搜索过程中，令牌的名字可以是任何词汇或字符串，这些令牌名字完全可以象文字搜索的令牌名字一样被文字搜索引擎所接受。例如，即使“上涨”令牌(″up″)的名字被换为“你好”(″hello″)，它还是具有股价上涨的属性。

然后，令牌生成器28会重复将输入时间单元26和股票模式2、股票模式j，...，股票模式m进行匹配和分析。如果令牌生成器28发现输入时间单元26和任一股票模式一致时，就会输出一个对应此股票模式的令牌，如令牌“上涨”、令牌“下跌”和令牌“峰值”等，时间单元系列24中的其他时间单元也同样需要进行令牌化过程。

因此，股票文件22就会转化成为一个股票令牌集合36，股票文件集合20中的所有股票文件都进行令牌化过程，并转换成各自对应的令牌。最后，把自股票文件集合20所得的各个股票令牌36汇集成一个股票令牌总集合37。对股票令牌总集合37的令牌名字进行索引后，就可以用类似搜索文字文件的搜索引擎进行搜索，股票令牌集合36中的股票令牌34和文字搜索引擎中的令牌类似。

图2：股票文件

为了更好地理解上述实施方式，现结合一个具体的股票搜索实例来详细说明本发明的股票搜索***，每支股票在数据资源都中通过一个相应的非纯文字文件表示。图1所示的股票文件22，如股票XYZ，包含一组显示该股票开市价、最高价、最低价、收市价和日交易量随时间变化的曲线，如图2所示。

如前所述，股票文件首先被分解成一系列时间单元24(图1)。由于股票文件包含多个时间曲线(图2)，这些时间曲线可以按时间轴分割成一系列时间段，每个时间段为一个时间单元，每个时间段或时间单元有多组曲线。时间单元系列24中的一个时间单元26(时间单元i)可以为任一与搜索目的、精度相一致的时间单位，如小时、天、周、月、年，或者其它更长或更短的时间单位。

为演示起见，列出数据于下表，其中每个时间单元为表中的一行：

股票名	数据位置	日期	开市价	最高价	最低价	收市价	成交额
股票名	数据位置	日期	开市价	最高价	最低价	收市价	成交额		......
XYZ	39	20060323	37.15	37.35	36.67	37.20	20794		......
XYZ	39	20060323	37.15	37.35	36.67	37.20	20794	XYZ	77	20060324	37.10	37.5	37.05	37.43	17853
XYZ	117	20060327	37.12	37.13	36.68	36.68	20197	XYZ	77	20060324	37.10	37.5	37.05	37.43	17853
XYZ	117	20060327	37.12	37.13	36.68	36.68	20197	XYZ	157	20060328	36.65	36.73	36.21	36.27	20066
XYZ	199	20060329	36.29	37.08	36.29	36.96	27279	XYZ	157	20060328	36.65	36.73	36.21	36.27	20066
XYZ	199	20060329	36.29	37.08	36.29	36.96	27279		......

每一时间单元(或行)对应一个股票交易日，并通过二进制位置标示于文件中，上表中每一行是当天(时间单元26)对应的股票数据。第一列为股票的名字“XYZ”，也就是股票文件的名字，第二列为时间单元26在股票文件22中的二进制字节位置，第三列为时间单元26相应的交易日，第四、五、六、七、八列分别为交易日当天的开市价、最高价、最低价、收市价和交易量。

为了演示股票模式30的生成，我们仅以图2所示的股票XYZ的收市价曲线为例进行说明。需要说明的是，任意一个股票曲线或股票曲线的组合都可以用来生成股票模式30。根据股票搜索目的和精度要求，我们定义一组股票模式30如下表：

模式名称	模式生成令牌的条件
模式名称	模式生成令牌的条件	上涨(″up″)	股价日变化为正
下跌(″down″)	股价日变化为负	上涨(″up″)	股价日变化为正
下跌(″down″)	股价日变化为负	峰值(″peak″)	令牌“下跌”跟在令牌“上涨”之后
山谷(″valley″)	令牌“上涨”跟在令牌“下跌”之后	峰值(″peak″)	令牌“下跌”跟在令牌“上涨”之后
山谷(″valley″)	令牌“上涨”跟在令牌“下跌”之后	大跌(″crash″)	连续5个以上“下跌”
跌信号(″downsignal″)	“上涨”与“山峰”的重合部分	大跌(″crash″)	连续5个以上“下跌”
跌信号(″downsignal″)	“上涨”与“山峰”的重合部分	涨2％以上(″up2％plus″)	日上涨超过2％

上表的每一行定义了一个股票模式和其具有的属性，左列为股票模式的名字，右列为股票模式的属性。右列实际上也显示了股票模式，是定义一个股票模式的参照模式。

例如，第二行显示了一个“上涨”(″up″)的股票令牌，它表示当天的收市价高于前一交易日的收市价。即在第二行的右栏，如果当天的收市价减去前天的收市价的值大于零时，“股价日变化为正”的值为“是”或“1”。

同理，第三行所示为一个下跌”(″down″)的股票令牌，如果当天的股票收市价低于前一交易日的收市价，股票模式就会相应生成一个“下跌”(″down″)的股票令牌。

如第四行，如果第一天的股票模式为“上涨”，而第二天的股票模式为“下跌”，则会生成了一个“峰值”(″peak″)的股票令牌，“峰值”(″peak″)股票令牌横跨至少两个时间单元。

如第五行，如果第一天的股票模式为“下跌”，而第二天的股票模式为“上涨”，则会生成一个“山谷”(″valley″)的股票令牌，“山谷”(″valley″)股票令牌横跨至少两个时间单元。

如第六行，如果从当天开始连续出现至少五个“下跌”股票模式，则会生成一个“大跌”(″crash″)的股票令牌，“大跌”(″crash″)股票令牌横跨至少四个时间单元。

如第七行，如果同一天同时出现了“上涨”股票模式和“下跌”股票模式，则会生成一个“跌信号”(″downsignal″)股票令牌。

如第八行，如果当天的收市价比前一天的收市价高出2％或以上，则会生成“涨2％以上”(″up2％plus″)的股票令牌。

依次类推。

需要注意的是，在股票搜索、分析和预测中，用户还可以根据自己的实际需要自行定义其他的股票令牌。

在令牌生成器28中，股票文件22的各个时间单元26和上表定义的各个股票模式30进行对比和匹配，并输出所生成的一组股票令牌36如下表所示：

(令牌名字、股票文件、数据起始位置、数据终止位置、令牌种类)
(令牌名字、股票文件、数据起始位置、数据终止位置、令牌种类)	(up，XYZ，39，77，type＝stocktoken)
(up2％plus，XYZ，39，77，type＝stocktoken)	(up，XYZ，39，77，type＝stocktoken)
(up2％plus，XYZ，39，77，type＝stocktoken)	(peak，XYZ，39，117，type＝stocktoken)
(downsignal，XYZ，39，77，type＝stocktoken)	(peak，XYZ，39，117，type＝stocktoken)
(downsignal，XYZ，39，77，type＝stocktoken)	(down，XYZ，77，117，type＝stocktoken)
(down，XYZ，117，157，type＝stocktoken)	(down，XYZ，77，117，type＝stocktoken)
(down，XYZ，117，157，type＝stocktoken)	(valley，XYZ，117，199，type＝stocktoken)
(up，XYZ，157，199，type＝stocktoken)	(valley，XYZ，117，199，type＝stocktoken)

表中每一行所示的股票令牌34都有一个文字名字，并携带了该令牌的有关信息：股票名字、在文件中的起始和终止位置，以及令牌的种类。

第二行所示为股票文件XYZ中发现的一个“上涨”(″up″)令牌，位于该股票文件的39字节到77字节之间，是一个股票类令牌。

第三行所示为股票文件XYZ中发现的一个“涨2％以上”(″up2％plus″)令牌，位于该股票文件的39字节到77字节之间，是一个股票类令牌。

第四行所示为股票文件XYZ中发现的一个“峰值”(″peak″)令牌，位于该股票文件的39字节到117字节之间，是一个股票类令牌。

依次类推。

这样，股票XYZ(文件22)被转换成一个股票令牌集合36。换句话说，上表所示的股票令牌集合36是股票文件XYZ的令牌表达形式。股票令牌集合36中的每一个股票令牌34都有一个有意义的文字名字，并携带了该股票令牌相关的信息：股票名字、在数据文件中此股票令牌的起始和终止位置，以及令牌种类，与文字搜索中所用的令牌很相似。

再如，有另一支股票文件ABC，经上述令牌化过程产生了另外一个股票令牌集合如下表：

(令牌名字、股票文件、数据起始位置、数据终止位置、令牌种类)
(令牌名字、股票文件、数据起始位置、数据终止位置、令牌种类)	(down，ABC，43，57，type＝stocktoken)
(down，ABC，57，76，type＝stocktoken)	(down，ABC，43，57，type＝stocktoken)
(down，ABC，57，76，type＝stocktoken)	(down，ABC，76，92，type＝stocktoken)
(down，ABC，92，117，type＝stocktoken)	(down，ABC，76，92，type＝stocktoken)
(down，ABC，92，117，type＝stocktoken)	(crash，ABC，43，117，type＝stocktoken)
(up，ABC，117，199，type＝stocktoken)	(crash，ABC，43，117，type＝stocktoken)

类似地，第二到第五行所示为股票文件ABC中发现的连续四个“下跌”(″down″)令牌，第一个“下跌”(″down″)令牌位于该文件的43字节到57字节之间，第二个“下跌”(″down″)令牌位于该文件的57字节到76字节之间，第三个“下跌”(″down″)令牌位于该文件的76字节到92字节之间，第四个“下跌”(″down″)令牌位于该文件的92字节到117字节之间，它们都是股票类令牌。

第六行所示为股票文件ABC中发现的一个“大跌”(″crash″)令牌，位于该股票文件的3字节到117字节之间，是一个股票类令牌。

第七行所示为股票文件ABC中发现的一个“上涨”(″up″)令牌，位于该股票文件的117字节到199字节之间，是一个股票类令牌。

在下一个步骤中，所有文件经令牌化过程所生成的股票令牌集合36汇集到一起形成一个股票令牌总集合37，如下表所示：

(令牌名字、股票文件、起始位置、数据终止位置、令牌种类)
(令牌名字、股票文件、起始位置、数据终止位置、令牌种类)	......
(up，XYZ，39，77，type＝stocktoken)	......
(up，XYZ，39，77，type＝stocktoken)	(up2％plus，XYZ，39，77，type＝stocktoken)
(peak，XYZ，39，117，type＝stocktoken)	(up2％plus，XYZ，39，77，type＝stocktoken)
(peak，XYZ，39，117，type＝stocktoken)	(downsignal，XYZ，39，77，type＝stocktoken)
(down，XYZ，77，117，type＝stocktoken)	(downsignal，XYZ，39，77，type＝stocktoken)
(down，XYZ，77，117，type＝stocktoken)	(down，XYZ，117，157，type＝stocktoken)
(valley，XYZ，117，199，type＝stocktoken)	(down，XYZ，117，157，type＝stocktoken)
(valley，XYZ，117，199，type＝stocktoken)	(up，XYZ，157，199，type＝stocktoken)
(down，ABC，43，57，type＝stocktoken)	(up，XYZ，157，199，type＝stocktoken)
(down，ABC，43，57，type＝stocktoken)	(down，ABC，57，76，type＝stocktoken)
(down，ABC，76，92，type＝stocktoken)	(down，ABC，57，76，type＝stocktoken)
(down，ABC，76，92，type＝stocktoken)	(down，ABC，92，117，type＝stocktoken)
(crash，ABC，43，117，type＝stocktoken)	(down，ABC，92，117，type＝stocktoken)
(crash，ABC，43，117，type＝stocktoken)	(up，ABC，117，199，type＝stocktoken)
......	(up，ABC，117，199，type＝stocktoken)

和前面两个令牌集合表一样，上表中每一行为一个令牌，每个令牌有个文字名字，比如“上涨”(″up″)，“涨2％以上”(″up2％plus″)，“峰值”(″peak″)，“跌信号”(″downsignal″)，“下跌”(″down″)，“山谷”(″valley″)，“大跌”(″crash″)等。因此，与在文字搜索引擎中搜索令牌类似，可以通过搜索名字来搜索一个令牌。而对本领域的普通技术人员来说，用文字搜索引擎搜索令牌已经是成熟的现有技术。

图3：搜索过程

图3所示为一种对图1令牌生成器28生成的股票令牌总集合37进行搜索的搜索过程。如果用户以文字形式给出搜索目标39：“大跌”(″crash″)，本发明的股票搜索方法就会在令牌总集合37中搜索目标词″crash″，令牌总集合37中所有名为″crash″(“大跌”)的令牌(上表中第十五行)可以通过文字搜索引擎搜索出来。含有“大跌”(″crash″)令牌的股票文件ABC作为输出45被显示出来，股票文件ABC中的″crash″(“大跌”)令牌可以被加黑标示。

除了文字形式的搜索目标39，还可以输入非纯文字形式的搜索目标41。此时，和图1所示的股票文件的令牌化过程一样，非纯文字形式的搜索目标41必须经过令牌化过程43，以产生一个令牌或令牌集合。随后，在令牌总集合37中搜索搜索目标41令牌名字的语意集合，以生成多个不同匹配度的匹配文件。如果发现的匹配文件不止一个，则根据匹配度输出匹配文件。

下表列举了几个搜索目标及其相应的搜索结果：

如果搜索目标为″crash″(“大跌”)，则输出为股票文件ABC，且相匹配的令牌在股票文件ABC中的起始位置是43字节。

如果搜索目标为“峰值”(″peak″)，则输出为股票文件XYZ，且相匹配的令牌在股票文件XYZ中的起始位置是39字节。

如果搜索目标为“下跌”(″down″)，则输出为股票文件ABC和股票文件XYZ。股票文件XYZ中有两个相匹配的令牌，其在股票文件中的起始位置分别为77字节和117字节。股票文件ABC中有四个相匹配的令牌，其在股票文件中的起始位置分别为43字节、57字节、76字节和92字节。

依此类推。

显然，经过图1所示的令牌化过程，股票文件类非纯文字文件通过令牌总集合表示，此令牌总集合的搜索特性和纯文字文件令牌总集合的搜索特性相似。因此，如前述实施方式中的实例所示，可以通过文字搜索引擎有效、***地搜索股票文件类非纯文字文件。此搜索过程是线性过程，无需复杂的指数运算。

具体实施方式二

图1至3描述了一种根据本发明的非纯文字股票文件的搜索***，图4至6则描述了一种根据本发明的图像文件搜索***，图像文件搜索通过计算机软件程序来实现。图4和图6所示为本发明图像文件搜索***一个实施方式的计算机程序流程图，其通过软件处理储存于同一台计算机的数据或文件，或储存于通过互联网、局域网连接的其他区域的数据或文件，来完成搜索。

图1和图4所示分别为股票文件和图像文件的令牌化(tokenizing)过程：在图1中，含有多条如图2所示时间曲线的股票文件被分解成一系列时间单元；而在图4中，图像文件被分解成图5所示的图元阵。

本发明的图像搜索***可用于搜索含有某特定图像特征或模式的一个或多个图像：如用户可能想找出哪些图片(图像文件)含有某特定的地标，如金门大桥。用户的搜索问询输入可以是“金门大桥照片的全部或一部分”，图4和图6所示的图像搜索***将按步骤输出那些含有金门大桥的图像文件。

又如，假设我们收集了数百万张卫星照片，然后从中随机抽出一张剪碎，并选择其中的一张碎图片作为搜索目标图像，本发明图4和图6所示的图像搜索***可以按步骤从数百万张照片中找出碎图片所属的那张照片，并具体定位出照片的哪一部分是搜索目标图像。

图4：令牌化过程

图4所示为本发明图像搜索***对图像文件的令牌化(tokenizing)进程：首先，收集一组图像文件，以形成被搜索图像文件集合38。这些图像文件可以收集自互联网，也可以收集自其他数据资源。图像文件1位于顶部，其他图像文件位于图像文件1的下面或后面，图像文件集合38中的每个图像文件将被顺序处理。图4显示了一个图像文件40，记为图像文件i，是怎样被令牌化处理的：图像文件40首先被分解成红、绿、蓝三个分层，每个分层再被分割成图元阵42，每个图元为一矩形，并按其座标位置(i，j)标识。每个图元也相应有红、绿、蓝三个分层，图元中每个像素有红、绿、蓝三个颜色值。

图元阵42中的每一个图元，如图元44或(i，j)，将被分别输入图像令牌生成器46(tokenizer)。和文字搜索引擎中的令牌生成器的操作类似，对于每一个图像文件，图像令牌生成器46都将生成一组图像令牌，每个令牌有一代表其特征的名字。

图像令牌生成器46把输入图元i，j和一组根据我们搜索目的和精度事先定义的图像特征模式48，如图像特征模式1、图像特征模式2、图像特征模式j和图像特征模式m，进行匹配和分析。每个图像特征模式代表图像不同的特征或模式，如可以是人面部的眼睛图像。

如果图像令牌生成器46发现输入图元44或i，j和图像特征模式1一致，它将对应此图元生成一个图像令牌52。每个图像令牌按事先定义的命名规律赋予一个名字，名字必须是字符串，可以很长，代表着相应图像特征模式对此图元的抽象表达。因此，图像令牌是原图像的一个令牌表达形式，其可以被文字搜索引擎兼容，并能借助于文字搜索***对原图像文件进行有效的搜索。

非纯文字图像文件搜索中的图像令牌和文字文件搜索中的令牌类似，在文字文件搜索中，一个令牌的名字一般是一个单词或单词组合；而在非纯文字图像文件搜索中，图像令牌的名字不仅要表达出生成此令牌的图像特征模式，还要表达出该令牌的属性。例如为了方便随后讨论的搜索，一个图像令牌的名字可以是″R70_G20_B60″，它表示图像令牌生成器46以图元的三个颜色的三个平均值组合来命名令牌，即红色平均值在70到79之间，绿色平均值在20到29之间，蓝色平均值在60到69之间。

如上所述，图像特征模式是用来在图像文件中匹配、生成图像令牌的参照模式。如果图像文件的一部分和一个给定的图像特征模式匹配，相应的图像令牌就会自该图像文件中生成出来。因此，图像令牌实际上就是一个能反映、表达图像的某种模式、某个特征、或某种参数的令牌，如上面的图像令牌″R70_G20_B60″就表达了该图元的三色浓度。

每一个图像令牌都会被给予一个有意义的名字，即每一个图像令牌都有一个文字名字。在上述例子中，图像令牌的名字″R70_G20_B60″表示了该图元红色平均值在70到79之间，绿色平均值在20到29之间，蓝色平均值在60到69之间。事实上，和搜索过程中使用的文字令牌一样，只要能反映对相应图像特征模式的匹配程度，图像令牌的名字可以为任意字符名字，文字搜索引擎都能对其进行有效的索引和搜索。

随后，图像令牌生成器46再将输入图元44或i，j重复地和图像特征模式2、图像特征模式j、...、图像特征模式m进行匹配和分析。如果输入图元44或i，j和某一图像特征匹配，就会相应输出一个图像特征令牌，如图像令牌“R90_G210_B60”、图像令牌“R80_G140_B160”等。对图像文件40的每一个图元重复上述令牌化过程，就会产生更多的图像令牌。

相应地，图像文件40实际上转化成一个图像令牌集合54。对被搜索图像文件集合38中的所有文件进行令牌化处理，并转化成各自的图像令牌。最后，将自所有图像文件38得到的图像令牌54汇集成一个图像令牌总集合55，并用和已知文字文件搜索类似的文字搜索引擎对此图像令牌总集合55进行索引和搜索。

图5：图元阵

为了更好地理解图4所示的图像文件令牌化过程，下面将给出一个图像文件搜索的具体实施方式。例如，图像文件40为一盆花卉的照片(未图示)，在随后的描述中将该图像文件命名为“Flower”。

图像文件“Flower”首先被分解成图5所示的等尺寸、小方格样图元阵，每个图元进一步包含了一定数量的像素。例如，一个图元有5×5个像素，此5×5个像素的红色值如下表所示：

36	148	220	84	56
36	148	220	84	56	44	180	228	124	22
34	44	124	44	0	44	180	228	124	22
34	44	124	44	0	30	123	127	12	12
12	12	110	12	12	30	123	127	12	12

上表所示为前面讨论的图元44或i，j的示例，此表有5行5列，共25格。每一格对应图元44或i，j的一个像素，图元44或i，j共有25个像素，每个方格中的数字是该像素的红色值。

可以单独或综合使用各种图像特征抽取、抽象方法，以定义一组和搜索对象、目的与精度相一致的图像特征模式48(图4)。例如，可以仅仅用图元中全部像素颜色的平均值作为图元的特征，上表所示图元红颜色的平均值是74。

举例来说，图像特征模式系列48中的一个图像特征模式可以定义为图元的红、绿、蓝三个颜色的三个平均值组合。如果红、绿、蓝三色的三个平均值分别是74、23和66，那么与此图像特征模式相匹配的图元就可以相应地命名为“R74_G23_B66”。

此外，需要适当考虑公差，以避免两个差别很小的图元产生完全不同的令牌(即完全不同的令牌名字)。最简单的方法是舍弃像素颜色值的个位，只取其十位以上的数字。例如，不直接用“R74_G23_B66”作为图元令牌的名字，而是用其经过公差转换的形式“R70_G20_B60”作为图元令牌的名字。“R70_G20_B60”表示此图元的红色平均值在70到79之间，绿色平均值在20到29之间，蓝色平均值在60到69之间，依此类推。

通过将图像文件的每个图元和预定图像特征模式48的对比和匹配，图像令牌生成器46会输出如下表所示的图像令牌集合54：

(令牌名字、图像文件、位置行座标、位置列座标、令牌种类)
(令牌名字、图像文件、位置行座标、位置列座标、令牌种类)	(R70_G20_B60，Flower，1，1，type＝imagetoken)
(R70_G30_B60，Flower，1，2，type＝imagetoken)	(R70_G20_B60，Flower，1，1，type＝imagetoken)
(R70_G30_B60，Flower，1，2，type＝imagetoken)	(R75_G23_B66，Flower，1，3，type＝imagetoken)
...	(R75_G23_B66，Flower，1，3，type＝imagetoken)

表中每一行为一个图像令牌，每个图像令牌有一个文字名字，并含有图像文件名字、相应图元在图像中的位置行坐标和位置列坐标，以及令牌种类等信息。第一项是令牌的名字，如“R70_G20_B60”；第二项是令牌“R70_G20_B60”所在图像文件的名字，如“Flower”；随后两项是图元的位置行坐标和位置列坐标，如1，1，其反映了图元在图像文件“Flower”中的德分格座标(第一行、第一列)；最后一项“imagetoken”表示令牌“R70_G20_B60”是一个图像令牌，以和文字令牌等其它令牌相区别。

和股票令牌不同，图像令牌的字符名字无需方便人读，因为图像搜索是图像到图像的搜索，且被搜索的目标图像也同样要进行图元化和令牌化处理。随后，所有文件的图像令牌汇集成一个图像令牌总集合55。实际上，真正被搜索的是目标图像所产生的图像令牌的逻辑组合。也就是说，同样的图若参考原点对应，所产生的图像令牌也是一致的，这使得用文字搜索方法进行图像到图像的搜索变成了可能。

如果使用复杂的图像特征抽取、抽象方法，或需要表达的图元特征的信息很多，图像令牌的字符名字可以很长，如“babacbgbfaaabbgabacaasggc”。在计算机技术中，再长的字符名字都可以转换成一个32字节的HASH值。因此，转换后，图像令牌的名字为32字节或小于32字节。

例如，假设所列举的图像文件“Flower”被分成了4×5的图元阵。为方便说明，进一步假设经过令牌化处理后，每个图元都只产生了一个前述三色三均值组合的图像令牌。在实际应用中，一个图元通常可以生成许多图像令牌，一个图像令牌也可以跨多个图元。

经过令牌化处理之后，所列举的图像文件“Flower”就转换成一个如下表所示的词表形式。词表和图元阵的行、列相对应，词表中的每个方格对应一个图元，方格中的字符名字为由三色三均值组合所产生的图像令牌名字，如“R70_G20_B60”：

R70_G20_B60	R70_G30_B60	R80_G20_B50	R70_G20_B90
R70_G20_B60	R70_G30_B60	R80_G20_B50	R70_G20_B90	R80_G120_B50	R80_G210_B90	R100_G30_B60	R70_G120_B150
R90_G130_B60	R70_G200_B80	R80_G20_B70	R80_G140_B160	R80_G120_B50	R80_G210_B90	R100_G30_B60	R70_G120_B150
R90_G130_B60	R70_G200_B80	R80_G20_B70	R80_G140_B160	R170_G120_B70	R90_G210_B60	R70_G30_B60	R80_G110_B190
R30_G20_B160	R70_G220_B60	R80_G20_B10	R70_G210_B90	R170_G120_B70	R90_G210_B60	R70_G30_B60	R80_G110_B190

上表中的每一行可以看成是一个由四个单词组成的句子，例如，第一句有“R70_G20_B60”、“R70_G30_B60”、“R80_G20_B50”和“R70_G20_B90”四个单词。第二句正好位于第一句之下，即第二句的第一、第二、第三和第四个单词必须正好分别对应位于第一句的第一、第二、第三和第四个单词之下，以此类推。

上表已不再是图像，但它以文字表格的形式代表原图像文件“Flower”，以方便用文字搜索方法去索引和搜索图像文件。换句话说，非纯文字图像文件已经被转换成能代表其主要图像特征的纯文字、文表形式的文字文件。

把大量图像文件生成的所有文表文件汇集成图像令牌总集合55，通过和文字文件搜索类似的搜索引擎，即可以有效、***地进行图像文件的索引和搜索。文字搜索引擎使用的软件已是成熟的现有技术，在此不再赘述。

图6：搜索过程

图6所示为根据本发明一个实施方式的图像搜索过程，假设图像搜索询问的输入目标图像57是图像文件“Flower”的一部分，称为局部图像“Partial_Flower”。再进一步假设此目标图象“Partial_Flower”为一个2×2的图元阵，搜索的目的就是在大量已令牌化和索引的图像文件中找出所有包含目标图像“Partial_Flower”的图像，并且标定出此目标图像在这些图像中的具***置。

如前所述，图像搜索的目标图像也要被图元化和令牌化。把图像搜索询问的目标图像57经图4所示令牌化59后，搜索询问的目标图像57的每个图元就有了一个图像令牌。每个图像令牌有一个字符名字，如“R70_G200_B80”，搜索询问或目标图像57“Partial_Flower”被转化成下表：

R70_G200_B80	R80_G20_B70
R70_G200_B80	R80_G20_B70	R90_G210_B60	R70_G30_B60

需要注意的是，图像搜索询问目标已不再是一个图像，而是转换成每格都有一令牌文字名字的词表。换句话说，搜索询问现在已转换成两个句子，每个句子由两个词组成，第一句是“R70_G200_B80”和“R80_G20_B70”，第二句是“R90_G210_B60”和“R70_G30_B60”。每句一行，上下两句的单词需要严格对齐。

有了上述搜索目标图像57的文字词表表达形式，图像搜索就变成了通常的文字搜索。即从已令牌化和索引的被搜索图像的图像令牌集合55中找出所有包含目标图像57的令牌名字的词表，并根据匹配度找到相匹配的图像文件。

也就是说，文字搜索引擎在被搜索图像令牌化生成的文字词表的索引中搜索两个目标句子，两个目标句子均含有两个单词，第一句是：

R70_G200_B80

R80_G20_B70

第二句是：

R90_G210_B60

R70_G30_B60

第二句必须位于第一句所在行的下一行，且上下两句的各个单词要严格对齐，搜索结果如下表所示：

问询目标	搜索结果
问询目标	搜索结果	“Partial_Flower”	document＝“Flower”，(top-left corner)position＝Cell 3，2
	...	“Partial_Flower”	document＝“Flower”，(top-left corner)position＝Cell 3，2

表中显示，作为搜索输出61，大量图像文件集合中的图象文件“Flower”的图元3，2处含有搜索目标图像“Partial_Flower”，目标图像“Partial_Flower”位于图像文件“Flower”左上角的图元3，2处。可以让程序返回图像文件“Flower”，并把目标图像“Partial_Flower”在图像文件“Flower”中的位置加黑标示。如果搜索发现多个匹配文件，可以根据匹配度优先显示高匹配度的图像文件。

显然，根据本发明的一个实施方式，经过令牌化(tokenizing)过程后，可以使用文字搜索引擎有效、***地搜索图像文件等非纯文字文件。图像搜索只涉及有效、***的线性过程，无需复杂的指数运算。

由于搜索目标图像和被搜索的图像文件是相互独立的，所以有图元对应的问题，即在搜索目标图像“Partial_Flower”中选择一个合适的参考原点，称(x0，y0)，以将搜索目标图像划分成图元分格并和图像文件“Flower”匹配。在图示实施方式中，参考原点(x0，y0)为左上角图元左上角的第一个像素。显然，一般只会有一个参考原点(x0，y0)能耦合被搜索的图像文件“Flower”的图元分格，使得我们能够搜索出图像文件“Flower”。

参考原点(x0，y0)的选择是一试凑的过程，每个参考原点(x0，y0)的试凑其实是小规模的按试凑参考原点(x0，y0)产生数个图元，经令牌化和索引后再去搜索。一个不合理的参考原点(x0，y0)会很快被否定，因为它生成的图元很可能根本不存在于被搜索的索引中。即使在最差的情况下，试凑次数也不会超过一个图元所含有的像素数，5×5的图元最多需要25次试凑。

此外，先进的文字搜索引擎在查验、分析搜索目标令牌后，能够建议一些有效的、保证在索引中存在的令牌名字，并尽量和用户预定的目标询问匹配，可用于控制图像令牌名字的公差。

结论、变更和权利保护范围：

综上所述，本发明的搜索***和方法可以有效、***地搜索非纯文字文件，非纯文字文件经过令牌化过程后变成一个命名令牌的集合。

本发明提供了一种可用于股市分析和预测的有效、***的股票文件搜索***，以及一种可自数据资源中有效、***地搜索图像文件的图像搜索***。此外，本发明的搜索***还可推广应用于有效、***地搜索N维空M个度量所产生的资料和文件。

前述非纯文字股票文件和图像文件还可以包含文字信息，图像文件的文字信息包括标题、作者、时间、图像的索引等。

如前所述，前面列举的股票文件是多个度量值(开市价、最高价、最低价、收市价和成交额)相对于一维时间轴的曲线，列举的图像文件是红色、绿色、蓝色三个颜色值相对于二维平面的图像。理论上来说，任意N维空间的M个度量值的非纯文字文件都可以经令牌化过程生成一个命名令牌的集合，并可以通过文字搜索引擎进行搜索。对于本领域的普通技术人员而言，文字搜索引擎已是广泛应用的现有技术。根据本发明的一个实施方式，通过使用目标令牌名字或其语义逻辑组合，可以在数据资源或互联网上有效、***地逻辑搜索出N维空间的M个度量值生成的非纯文字文件。

尽管上述描述中详细揭示了许多具体特征，但这些具体特征仅仅是为了方便说明和理解本发明的具体实施方式，并非用以限定本发明。

需要说明的是，本发明还可以有多种变更。本发明的搜索***可用于物理、医疗、地质、地理，以及其他科学工程应用领域。本领域的普通技术人员在理解上述说明和描述以后，在不脱离本发明的精神和范围内，实践中完全可以定义和使用其他非纯文字文件的令牌化模式。例如，可以不采用红、绿、蓝三个颜色平均值为图像模式来代表一个图元，而是采用红、绿、蓝三色的三个坡面来代表一个图元。令牌可以记为″n108_12″，表示由北到南的坡度为负108(北端和南端像素颜色值之差为108)、由西到东的坡度为12(西端和东端像素颜色值之差为12)。其他例子还包括，计算图元中的指示条纹、计算图元中的峰谷等特征。通常，在图像搜索过程中，用户可以根据自己的搜索对象、搜索目的和精度来选择图像特征抽取、抽象方法，以定义令牌化过程的图像特征模式或图像特征模式组合。

因此，本发明的权利保护范围应由本发明的权利要求和其等同所界定，而并非由上述具体实施方式所决定。

Claims

1.一个可有效、***地搜索含非纯文字信息的股票文件的搜索方法，其包括：

(一)收集一组股票文件，以形成一个被搜索股票文件的集合；

(二)把被搜索股票文件集合中的每个股票文件分割成一系列时间单元；

(三)定义一组和搜索对象、目的与精度相一致的非纯文字股票特征模式；

(四)通过股票文件的时间单元和股票特征模式的匹配和分析，对股票文件进行令牌化处理，以生成对应各时间单元的股票特征模式令牌，每个令牌以股票特征模式的名字命名；

(五)把股票文件生成的所有令牌汇集成一个令牌集合，此令牌集合就是该股票文件的令牌表达形式；

(六)把所有被搜索股票文件生成的令牌汇集为一个令牌总集合；

(七)通过在股票令牌总集合中搜索搜索目标或搜索目标的逻辑组合，在股票文件集合中搜索和搜索目标或搜索目标的逻辑组合有相同令牌名字的股票文件，以生成一系列具有不同匹配度的匹配文件；

(八)按匹配度排列所搜索到的股票文件，并在所搜索到的股票文件中标出搜索目标所在的位置。

2.根据权利要求1所述的搜索方法，其特征在于：所述股票文件来自各种数据资源。

3.根据权利要求1所述的搜索方法，其特征在于：所述股票文件直接来自互联网或收集自互联网、局域网。

4.根据权利要求1所述的搜索方法，其特征在于：所述股票文件的时间单元是按时间化分的，如小时、天、周、月、年等。

5.根据权利要求1所述的搜索方法，其特征在于：所述股票文件同时含有文字信息。

6.一种可有效、***地搜索含非纯文字信息的图像文件的搜索方法，其包括：

(一)收集一组图像文件，以形成一个被搜索图像文件的集合；

(二)把被搜索图像文件集合中的每个图像文件分割成一个图元阵；

(三)定义一组和搜索对象、目的与精度相一致的非纯文字图像特征模式；

(四)通过图元阵中的每个图元和每个图像特征模式的匹配和分析，对图像文件进行令牌化处理，以生成对应各图元的图像特征模式令牌，每个令牌都有一个能表达其特征的文字名字；

(五)把所有被搜索图像文件所生成的令牌汇集为一个令牌总集合；

(六)提供一个搜索目标图像，并将搜索目标图像分割成一个图元阵；

(七)通过目标图像的图元阵中的每个图元和每个图像特征模式的匹配和分析，对目标图像进行令牌化处理，以生成对应目标图像各图元的图像特征模式令牌，每个令牌都有一个能表达其特征的文字名字；

(八)通过在令牌总集合中搜索目标图像的令牌名，在被搜索图像文件集合中搜索与搜索目标图像的令牌名字和位置排列相同的图像文件，并生成一系列具有不同匹配度的匹配文件；

(九)按匹配度排列所搜索到的图像文件，并在所搜索到的图像文件中标出搜索目标图像的位置。

7.根据利要求6所述的搜索方法，其特征在于：所述图像文件来自各种数据资源。

8.根据权利要求6所述的搜索方法，其特征在于：所述图像文件直接来自互联网或收集自互联网、局域网。

9.根据权利要求6所述的搜索方法，其特征在于：所述图像文件的图元为一个含有一组像素的长方格。

10.根据权利要求6所述的搜索方法，其特征在于：所述图像文件同时包括文字信息。

11.一种可有效、***地搜索非纯文字文件的搜索方法，其包括：

(一)收集一组非纯文字文件，以形成一个被搜索的非纯文字文件的集合；

(二)把被搜索文件集合中的每个非纯文字文件分割成组成单元；

(三)定义一组与搜索对象、目的和精度一致的非纯文字特征模式；

(四)通过非纯文字文件的组成单元和非纯文字特征模式的匹配和分析，对非纯文字文件进行令牌化处理，以生成一个令牌总集合，每个令牌都起一个能表达其特征的文字名字；

(五)通过在令牌总集合中搜索搜索目标令牌，在非纯文字文件集合中搜索和搜索目标令牌或搜索目标令牌的逻辑组合具有相同令牌的非纯文字文件，以生成一组具有不同匹配度的匹配文件；

(六)按匹配分数排列所搜索到的非纯文字文件，并在所搜索到的文件中标出搜索目标所在的位置。

12.根据权利要求11所述的搜索方法，其特征在于：所述非纯文字文件来自各种数据源。

13.根据权利要求11所述的搜索方法，其特征在于：所述非纯文字文件直接来自互联网或收集自互联网、局域网。

14.根据权利要求11所述的搜索方法，其特征在于：所述非纯文字文件为股票文件、图像文件或任一N维空间M个度量所产生的文件。

15.一种将非纯文字文件通过令牌化处理转换为令牌集合的方法，其包括：

(一)将非纯文字文件分割多个组成单元；

(二)定义一组与搜索对象、目的和精度一致的非纯文字特征模式，也称特征抽象、抽取模式；

(三)把每个特征模式与每个文件的组成单元进行匹配和分析，并对应文件的组成单元和非纯文字特征模式生成一个令牌，每个令牌都起一个能代表其特征的文字名字；

(四)把所生成的所有令牌汇集成一个令牌集合。

16.根据权利要求15所述的方法，其特征在于：所述组成单元是按时间切割的。

17.根据权利要求15所述的方法，其特征在于：所述组成单元为一个图像的图元阵。

18.根据权利要求15所述的方法，其特征在于：所述非纯文字文件来自各种数据源。

19.根据权利要求15所述的方法，其特征在于：所述非纯文字文件直接来自互联网或收集自互联网、局域网。

20.根据权利要求15所述的方法，其特征在于：所述非纯文字文件可以是股票文件、图像文件或任一N维空间M个度量所产生的文件。

21.一种可有效、***地搜索多个非纯文字文件的搜索方法，其包括：

(一)以文件令牌集合的形式表示各个非纯文字文件，每个文件令牌都有一个文字名字；

(二)提供一个非纯文字搜索目标，并以搜索目标令牌或搜索目标令牌的逻辑组合表示搜索目标，每个搜索目标令牌都起一个文字名字；

(三)通过用搜索目标令牌的名字搜索文件令牌的名字，实现对非纯文字文件的搜索。

22.根据权利要求21所述的搜索方法，其特征在于：所述搜索方法进一步包括提供一文字搜索目标，并通过用该文字搜索目标搜索所述文件令牌的名字，以搜索所述文件。