CN1896997A - 字符串检索装置及使计算机执行字符串检索方法的程序 - Google Patents
字符串检索装置及使计算机执行字符串检索方法的程序 Download PDFInfo
- Publication number
- CN1896997A CN1896997A CNA2006101055257A CN200610105525A CN1896997A CN 1896997 A CN1896997 A CN 1896997A CN A2006101055257 A CNA2006101055257 A CN A2006101055257A CN 200610105525 A CN200610105525 A CN 200610105525A CN 1896997 A CN1896997 A CN 1896997A
- Authority
- CN
- China
- Prior art keywords
- literal
- keyword
- text data
- character string
- consistent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
字符串检索装置,在从涉及文字的文本数据中,抽出由字符串构成的关键词,具备:输入关键词的输入装置(101);将输入的关键词和文本数据进行对照,判定关键词和文本数据的一致的检索窗设定部(103);检索处理部(104);按照由构成关键词的文字数以上的所定的数的文字构成的检索字符串,判定关键词和文本数据的一致。另外,对象文字选出部(102)预先选出判定和文本数据的一致而使用的关键词的一部分文字。提供在规模比较小的、简易的结构中,即使在OCR的读取中有误识别时,也能根据抽出的文本信息,适当地检索字符串的字符串检索装置。
Description
技术领域
[0001]
本发明涉及字符串检索装置及使计算机执行字符串检索方法的程序,特别涉及从用扫描器等文档读取装置获得的文本信息中抽出与关键词一致的语句的字符串检索装置及使计算机执行字符串检索方法的程序。
背景技术
[0002]
现在,读取OCR(Optical Character Reader)等的印刷品、将该信息电子数据化的机器正在普及。这种电子数据,被作为图象数据生成。因此,在检索电子数据的文字时,需要进行文字识别图象数据的处理,抽出文本数据,作为透明数据或作为检索用数据嵌入图象数据中。
[0003]
但是,文字识别的识别率,受到读取对象的图象的质量及读取状况等的影响。关于这一点,使用图9加以讲述。图9(a)是表示有污垢A的读取对象的图象的图形。图9(b)是表示用OCR读取图9(a)所示的图象时的文档的识别状态的图形。图9(c)是为了讲述在(b)所示的识别状态中产生的问题而绘制的图形。
[0004]
图9(a)所示的图象,具有文档块904和文档块903,在各文档块中,有4行字符串。在这种图象中,如果在文档块904上有污垢A,OCR就往往如图9(b)所示的那样,将文档块904的1行作为别的行误识别。在图9(b)中所示的例子中,文档块904的第1行被识别为第1行和第5行,第2行被识别为第2行和第6行,第3行被识别为第4行和第7行。
[0005]
发生行的误识别后,如图9(c)所示,在应该用箭头a表示的顺序识别本来的字符串的地方,有可能以用箭头b表示的顺序识别。这时,当然不能抽出正确的文本信息。因此,使用抽出的文本信息检索字符串时,就容易产生不能命中与关键词一致的字符串或者命中与关键词不同的字符串的问题。
[0006]
作为提高字符串检索的精度的现有技术,例如可以列举专利文献1。专利文献1公布了如下技术:检索关键词包含的文字,抽出检索的结果获得的文字的位置。然后,根据该位置的信息,推定关键词位置,进而通过和文字图案对照等,进行检索。
【专利文献1】特开2001-337993号公报
[0007]
可是,专利文献1的技术,为了关键词检索而需要的计算量比较大,不适合在软件执行资源有限的简易的机器中应用。就是说,从由N文字构成的文档中,使用m个文字抽出关键词文字时,需要m×N的计算量(假设几乎都没有命中)。
而且,在专利文献1的发明中,进而根据抽出的关键词文字,特定文字的区域,判定该区域有无关键词。因此,在文字数多的文档中,使用多个文字进行检索时,专利文献1的技术在特定文字区域的之前的处理中,用于计算的负荷已经很大。
发明内容
[0008]
本发明就是针对这一点研制的,其目的在于提供在软件执行资源比较小的、简易的结构中,即使在OCR的读取中有误识别时,也能根据抽出的文本信息,适当地检索字符串,特别是没有漏检的字符串检索装置及使计算机执行字符串检索方法的程序。
[0009]
为了解决上述课题,本发明的字符串检索装置,其特征在于,是从涉及文字的文本数据中,抽出由字符串构成的关键词的字符串检索装置,具备:关键词输入单元,该单元输入关键词;关键词一致判定单元,该单元对所述关键词输入单元输入的关键词和文本数据进行对照,判定关键词和文本数据一致;所述关键词一致判定单元,按照由构成关键词的文字数以上的所定的数的文字构成的检索字符串,判定关键词和文本数据的一致。
[0010]
采用这种发明后,因为按照由构成关键词的文字数以上的所定的数的文字构成的检索字符串判定关键词和文本数据的一致,所以即使在检索字符串中有不能够判读的地方,也能防止以该处为界,将检索字符串误识别为不连续的字符串,能够将检索字符串识别为连续的字符串。因此,在OCR的读取中,对字符串包含的文字有误识别时,也能根据抽出的文本信息,适当地检索字符串。
[0011]
另外,本发明的字符串检索装置,其特征在于:具备文字选出单元,该单元选出构成关键词的文字中的一部分;所述关键词一致判定单元,只将所述文字选出单元选出的文字与检索字符串包含的文本数据进行对照,判定关键词和文本数据的一致。
采用这种发明后,因为将构成关键词的文字中选出的一部分文字与检索字符串包含的文本数据进行对照,所以与例如将构成关键词的所有的文字和文本数据进行对照的结构相比,计算涉及的负荷变小,能够提供适合在软件执行资源比较小的、简易的机器中应用的字符串检索装置。
[0012]
另外,因为将构成关键词的文字中的一部分文字与检索字符串包含的文本数据进行对照,判定关键词和文本数据的一致,所以即使检索字符串包含的文本数据的全体和关键词不一致时,也能够判定和关键词一致。因此,能够提供防止漏检的有效的字符串检索装置。
[0013]
另外,本发明的字符串检索装置,其特征在于:文本数据是读取文字图象后生成的数据时,所述文字选出单元,根据在文字图象的读取时正确地识别文字的概率,选出判定文本数据和关键词的一致而使用的所述一部分文字。
采用这种发明后,能够从检索的对象中将正确识别的可能性低的文字除外。因此,能够减少发生关键词误检的可能性,还能减少关键词检索的计算量
[0014]
另外,本发明的字符串检索装置,其特征在于:所述关键词一致判定单元,在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串;使抽出的文字,在文本数据中,以连续的顺序各错开1个文字。
采用这种发明后,文本数据的各文字被多次检索,能够在减少漏检的同时,提高检索的可靠性。
[0015]
另外,本发明的字符串检索装置,其特征在于:所述关键词一致判定单元,在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串;使抽出的文字,在文本数据中以连续的顺序而且各错开所定的数。
采用这种发明后,减少文本数据的各文字的检索次数,在使检索有效化的同时,还能缩短检索时间。
[0016]
另外,本发明的字符串检索装置,其特征在于:所述关键词一致判定单元,使用文本数据中的文字的尺寸、描绘文本数据表示的文字的位置中的至少一个,决定为了生成检索字符串的文字的抽出范围。
采用这种发明后,能够适当判定为了生成检索字符串的文字的抽出范围,进而能够毫无遗漏地抽出检索文字。
[0017]
另外,使计算机执行字符串检索方法的程序,其特征在于,是使计算机执行从涉及文字的文本数据中,抽出由字符串构成的关键词的字符串检索方法的程序,具备:在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串的字符串生成步骤;抽出输入的关键词的文字中的一部分,只将抽出的文字与在所述字符串生成步骤中生成的检索字符串进行对照,判定关键词和文本数据的一致的关键词一致判定步骤。
[0018]
采用这种发明后,因为按照构成关键词的文字数以上的所定的数的文字组成的检索字符串判定关键词和文本数据的一致,所以在检索字符串中存在不能判读的部位时,也能防止以该部位为界将检索字符串误识别为不连续的字符串,能够将检索字符串识别成1串字符串。因此,在OCR的读取中出现对被字符串包含的文字的误识别时,也能根据抽出的文本信息适当检索字符串。
[0019]
另外,由于将关键词的一部分文字和被检索字符串包含的文本数据对照,所以与例如将构成关键词的文字都和文本数据对照的结构相比,能够减少涉及计算的负荷,能够提供使计算机执行适合于软件执行资源规模较小的简易的结构的字符串检索方法的程序。
附图说明
图1是为了讲述本发明的一种实施方式的字符串检索装置而绘制的功能方框图。
图2是为了讲述图1所示的检索窗设定部生成检索字符串的情况而绘制的图形。
图3是为了讲述使计算机执行本实施方式的字符串检索方法的程序而绘制的流程图。
图4是为了讲述图3所示的选出检索文字组的处理而绘制的流程图。
图5是为了讲述图3所示的决定文字窗长的处理而绘制的流程图。
图6是为了讲述图3所示的检索窗设定的处理而绘制的流程图。
图7是为了讲述图3所示的检索匹配判定的处理而绘制的流程图。
图8是为了讲述图3所示的窗口移位的处理而绘制的流程图。
图9是为了讲述文字识别的识别率受到读取对象的图象质量及读取的状况等的影响而绘制的说明图。
具体实施方式
[0020]
下面,参照附图,讲述本发明涉及的字符串检索装置及使计算机执行字符串检索方法的程序的实施方式。
图1是为了讲述本发明的一种实施方式的字符串检索装置而绘制的功能方框图。在本实施方式中,在作为电子书等利用的电子文档的放映器(也记作“电子纸”)中,应用字符串检索装置。
[0021]
另外,在本实施方式中,从被OCR等读取的文档的图象数据中,抽出文本信息后,暂时保存到卡媒体108等中。而且,将保存的文本信息读入电子纸并且显示。然后,用户将关键词输入电子纸,能够检索、抽出和输入电子纸的关键词一致的字符串。
[0022]
图1所示的字符串检索装置,是从涉及文字的文本数据中,抽出由字符串构成的关键词的字符串检索装置。字符串检索装置,由下述部件构成:输入关键词的输入装置101;将输入的关键词和文本数据对照,判定关键词和文本数据的一致的字符串检索部100;显示字符串检索部100的检索结果的检索结果显示部106构成。此外,在电子纸中应用字符串检索装置的本实施方式中,将检索结果显示部106作为由记忆性液晶构成的显示器组成。
[0023]
字符串检索部100,按照由构成关键词的文字数以上的所定数的文字构成的各检索字符串,判定关键词与文本数据的一致。另外,检索处理部104,在该判定中,将构成关键词的文字中的一部分文字,与检索字符串中包含的文本数据进行对照。
另外,字符串检索部100,具备检索窗设定部103和检索处理部104。检索窗设定部103,为了以检索字符串为单位,对一致判定对象文字与文本数据是否一致进行判定,而在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串;检索处理部104,判定(检索)一致判定对象文字与检索字符串中包含的文本数据是否一致。并且,字符串检索部100,还具备直到检索结果显示部106显示检索结果为止,暂时保存检索结果的检索结果保持部105。
[0024]
检索结果,作为与检索文字相一致(命中)的文本数据的显示位置而获得。文本数据的显示位置,例如使命中的文本数据与其它的文本数据在检索结果显示部106中的显示颜色不同等方法显示。
另外,本实施方式的字符串检索部100,具备作为文字选出单元发挥作用的对象文字选出部102,由对象文字选出部102选出在文本数据与关键词的一致判定中所使用的文字。在本实施方式中,如前所述,由OCR等读取文字的图象,生成文本数据。因此,对象文字选出部102根据在文字读取时适当地识别文字的概率(识别准确度),决定在判定中使用的文字(一致判定对象文字)。
[0025]
为了实现这种结构,在本实施方式中,表示文字的识别准确度的数据——文字识别准确度表107,保存在电子纸中,对象文字选出部102参照文字识别准确度表107,判定关键词的识别准确度。然后,只使用关键词中识别准确度为所定的临界值以上的一致判定对象文字,检索与关键词一致的字符串。
[0026]
图2是为了讲述检索窗设定部103生成检索字符串而绘制的图形。在图2的示例中,从包含“我国的专利为先申请制”的文字的文本数据中,检索关键词“专利”的文字。在本实施方式中,关键词“专利”中,只将“专”作为一致判定对象文字,没有将“利”作为一致判定对象文字。
这时,检索窗判定部103,作为冗余量,给关键词“专利”附加一个文字的量,将检索字符串的文字数设定成3个文字。在本实施方式中,将这种设定记作“窗口设定”。
[0027]
另外,如图2(a)~(h)所示,检索窗设定部103将作为检索文字而抽出的文字,在文本数据中,以连续的顺序,错开一个文字,依次设定窗口。此外,具体的说,窗口设定是指在电子纸具备的存储器中,设定只记忆检索字符串的文字数的文字的区域,将该区域记忆的文字错开一个字地从图中的左方向右方进行的文字变更。此外,文本数据是竖排版时,窗口设定则将存储器的区域记忆的文字错开一个字地从上向下地进行文字变更。
[0028]
在图2的示例中,一致判定对象文字——“专”的文字,被(b)所示的检索字符串包含。详细的说,对于检索候补文字“专”的一个文字而言,检索窗中的命中文字数是1(100%的关键词文字命中),所以得出关键词“专利”命中的结论,这时检索处理部104,将“专”的文字位置作为命中位置,存入、记忆到检索结果保持部105中。接着,检索窗判定部103,如(c)所示,设定窗口。这时也因为检索字符串包含“专”的文字,所以检索处理部104将“专”的文字的位置作为命中位置,存入检索结果保持部105中。但因为先前已经在该位置保存了,所以实际上并不进行保存处理。
[0029]
进而,检索窗判定部103,如(d)所示,设定窗口。这时也因为检索字符串包含“专”的文字,所以检索处理部104将“专”的文字的位置作为命中位置,存入检索结果保持部105中。可是,同样因为先前已经在该位置保存了,所以实际上并不进行保存处理。然后,如(e)所示,设定了窗口时,因为检索字符串不包含一致判定对象文字,所以检索处理部104不进行命中检出。
[0030]
另外,有更多的一致判定对象文字时,还可以在判定命中了的文字的种类是所定数以上时,判定为关键词命中。
如图2所示,各错开一个文字设定检索窗时,本实施方式使出现尽管有一致判定对象文字却不能作为命中检出、即所谓漏检的可能性变低。
[0031]
另外,本实施方式并不局限于各错开一个文字来设定检索窗的结构。例如,作为检索字符串抽出的文字,既可以在文本数据中以连续的顺序而且各错开所定的数,也可以当在5个字的检索窗中只命中字符串的最后的2个文字,且因检索对象文字是4文字而在该窗口设定中没能检索命中时,可以将下一个窗口设定(窗口错开)前进3个文字,来实现窗口的高速移动。这样,本实施方式能够减少为了检索而进行的计算量,进一步减少涉及检索处理的资源的负荷,进而能够使用软件资源小型的装置进行文字检索。
[0032]
图3是为了讲述以上介绍的本实施方式的使计算机执行字符串检索方法的程序而绘制的流程图。在该程序中,首先,操作人员使用输入装置101,输入需要检索的关键词(S301)。对象文字选出部102参照文字识别准确度表107,从关键词中选出检索使用的文字组(S302)。
[0033]
接着,检索窗设定部103在包含选出的文字组的关键词的文字数中,添加冗余量等后,决定文字窗长(S303)。然后,将决定文字窗长与文本数据32加以对照,读入文字窗长的文字,设定检索窗(S304)。
检索处理部104,以设定检索窗为单位,进行检索匹配判定(S305)。然后,每当对一个窗口而言的检索匹配判定结束时,判定对所有的文档的检索匹配判定是否结束(S306)。判定的结果,对所有的文档的检索匹配判定尚未结束时(S306:No),在步骤S304中,移动设定的窗口(S308),再度设定检索窗(S304)。
[0034]
另外,对所有的文档的检索匹配判定结束时(S306:Yes),输出检索结果,结束处理(S307)。
图4是为了讲述图3所示的步骤S302的选出检索文字组的处理而绘制的流程图。在选出检索文字组的处理中,对象文字选出部102将输入的关键词的文字数设定成kwd_num(S401)。在图2的示例中,因为关键词是“专利”,所以kwd_num被设定成2。
[0035]
接着,对象文字选出部102,作为处理开始的设定,编制变量i=0(S402);作为变量Keychar_num=0(S403),进而编制排列Keychar_idx(S404)。然后,从文字识别准确度表107中求出关键词中第i个文字的识别准确度,与预先设定的识别准确度的临界值进行比较。
然后,判断识别准确度是否在临界值以上(S405),在临界值以下(S405:No)时,将i增加1(S408)。加1后的i小于Keychar_num时(S409:Yes),再次将第i个文字的识别准确度与临界值进行比较。另外kwd_num不大于i时(S409:No),结束处理。
[0036]
另一方面,在步骤(S405)中,判断第i个文字的识别准确度在临界值以上时(S405:Yes),将i设定成排列Keychar_idx(S406)。接着,将Keychar_num增加1后(S407),将i增加1(S408)。
在这种处理中,如果关键词——“专利”的“专”这个字的识别准确度是临界值(例如80%)以上,“利”这个字的识别准确度是临界值以下,那么在步骤S405中,首先判断“专”这个字的识别准确度是临界值以上。因此,设定成被编制的排列Keychar_idx[0]=0、Keychar_num为1。进而,i被设定成1,因1小于kwd_num的2,进而比较“利”这个字的识别准确度与临界值。
[0037]
在下面的处理中,因为“利”这个字的识别准确度是临界值以下,所以只有i被增加1而成为2。然后,由于2不小于kwd_num,所以结束处理。此外,识别准确度是临界值以上的文字——“专”,是本实施方式中的一致判定对象文字。另外,识别准确度是临界值以下的文字——“利”,是本实施方式中的一致判定对象外文字。
[0038]
图5是为了讲述图3的步骤303所示的文字窗长决定的处理而绘制的流程图。检索窗设定部103,首先将文字宽度冗余量设定成变量margin(S501)。此外,文字宽度冗余量,既可以预先被检索窗设定部103设定,也可以由用户任意设定。
进而,检索窗设定部103利用步骤S502所示的运算式,设定被关键词文字数相加的冗余量,决定成为检索窗的文字数(Window_size)(S502)。
[0039]
在这里,以将图2所示的“专利”作为关键词时为例,讲述决定Window_size的步骤。在该例中,将文字宽度冗余量固定成1。根据图4的流程图,Keychar_num是1。另外,由于关键词“专利”中的“专”的位置是0,所以Keychar_idx[0]是0。利用步骤S502所示的运算式计算该值后,可以得到以下结果。
[0040]
Window_size=(Keychar_idx[Keychar_num-1]+margin)
-(Keychar_idx[0]-margin)+1
=(0+1)-(0-1)+1=3
图6是为了讲述图3的步骤304所示的检索窗设定的处理而绘制的流程图。检索窗设定部103,在作为工作区域等动作的未图示的存储器上,编制Window_size量的文字数的记忆区域(Window排列)(S601)。然后,从成为检索对象的文档的文本信息的前头行开始,依次抽出Window_size量的文字数(S602)。此外,所谓“Window排列”,相当于本实施方式中所说的检索窗。
[0041]
接着,检索窗设定部103判定读入Window排列的文字数,是否达到Window_size量的文字数(S603)。该判断结果为读入的文字数达到Window_size量的文字数时(S603:No),将读入Window排列的文字数作为变量serched_token_size(S607)。
[0042]
另一方面,在步骤S603中,判断读入Window排列的文字数小于Window_size量的文字数时(S603:Yes),检索是否存在成为检索候补的下一行(S604)。然后,在有成为检索候补的下一行时(S605:Yes),从下一行的前头起,依次将文字读入Window排列(S606)。另外,没有下一行时(S605:No),将读入Window排列的文字数作为变量serched_token_size(S607)。
[0043]
图7是为了讲述图3的步骤305所示的检索匹配判定的处理而绘制的流程图。检索处理部104,为了进行检索匹配判定,首先设定成变量char_match_num=0(S701)、变量i=0(S702)、变量j=0(S703)。此外,char_match_num,是表示判定文档中的文字和一致判定对象文字一致的次数的变量。
[0044]
接着,检索处理部104判断读入Window排列的文字(Window排列要素)中,第j+1行的文字与第Keychar_idx[i]+1行的文字是否一致(S704)。两者一致时(S704:Yes),暂时保存一致的文字在文本数据中的位置(S705)。然后,将char_match_num增加1(S706)。
[0045]
接着,检索处理部104,将i增加1(S709),并判断增加1后的i是否达到Keychar_num、即是否达到一致判定对象文字的数量(S710)。判断的结果,j的值小于读入Window排列的文字数时(S710:Yes),将j的值再次设定成0(S703),调查第j+1个文字与第Keychar_idx[i]+1行的文字是否一致(S704)。
[0046]
另外,在步骤S701中,判断j的值达到读入Window排列的文字数时(S710:No),求出用char_match_num/Keychar_num表示的一致的概率。然后,得到0.8以上的概率时(S711:Yes),作为该检索窗与关键词匹配,将变量match设定成1(S712)。进而,统一保存暂时保存的文本的位置(S713)。这时,在与已经保存的文本位置重复时,不必保存。
[0047]
另外,在步骤S711的运算中,没有得到0.8以上的概率时(S711:No),作为检索窗不与关键词匹配,将变量match设定成0(S713)。
图8是为了讲述图3的步骤308所示的窗口移动的处理而绘制的流程图。经过图7所示的处理,结束一个检索窗的匹配判定后,检索处理部104如图2所示,使检索窗移动一个文字的量后,判定关键词与文档的一致。因此,检索处理部104首先清除读入Window排列的文字(S801)。
[0048]
接着,在作为现在检索的对象的行中,检索处理部104变更设定,以便能够从上次读入Window排列的文字的检索窗的前头文字的下一个文字开始,抽出Window_size量的文字(S802)。将抽出的文字,读入Window排列(S803)。然后,判定读入的文字数,是否达到Window_size量的文字数(S804)。该判断结果为读入的文字数达到Window_size量的文字数时(S804:No),将读入Window排列的文字数作为变量serched_token_size(S808)。
[0049]
另外,判断读入的文字数小于Window_size量的文字数时(S804:Yes),检索是否存在充当下一行的文字组(S806)。然后,在有下一行时从下一行的前头起,将文字读入Window排列的空闲区域(S401:Yes)。另外,没有下一行时将读入Window排列的文字数作为变量serched_token_size(S808)。
[0050]
在步骤S802中,为上次读入Window排列的文字的检索窗的前头文字的下一个文字。但考虑到上次的检索结果·特别是不一致的文字的位置,Window排列的前头文字位置计算可以跳过它们后进行。就是说,上次的Window的状态,是图2的(a)时,可以跳过用窗口设定的文字没有命中关键词文字的文字后,进行将下一个窗口设定作为(d)那样的计算。采用上述计算后,初始状态是(b)时,也同样可以将下一个窗口状态作为(d)。
[0051]
另外,在步骤S805中,寻找下一行的候补之际,作为继图9(b)第1行之后的行的候补,可以进行除了第2行外,还包含第5行的处理。这样,如图9所示,可以进行难以依存于起因于读取失真及污垢错误产生的区域识别错误的检索,提高命中率。例如,如果文档数据中包含文本行的位置信息,则在从左向右看的语言体系的横排版文档时的下一行候补,可以将位于行位置的下位置的第2行和位于右位置的第5行作为候补。
[0052]
进而,本实施方式,在以上讲述的处理的基础上,检索窗设定部103还能够使用文本数据中的文字的尺寸、和描绘文本数据表示的文字的位置中的至少一个,决定为了生成检索字符串的文字的抽出范围。
就是说,考虑到文字尺寸后,就根据文字的尺寸和行距,判断图9所示的第1行和第5行的间隔是否是1、2文字左右。而且,是1、2文字左右时,作为下一行候补,采用第5行。另外,和下一行的间隔是2行以上时,可以判断该行是被其它的段落包含的行。
[0053]
这种处理,是根据段落等文档的区块与区块之间,通常空开区块内的1行以上的间隔后描绘的情况进行的。就是说,在1、2行左右的间隔不存在文字时,在本实施方式中,认为该间隔不是文档的区块的分割,而是受到污垢等的影响而不能进行文字识别的结果。
综上所述,本实施方式由于能够使窗口的范围内包含关键词以上的文字,所以能够将因为区域误识别而遗漏的文字及被污垢A遮盖的文字,进而本来是一个文字却被OCR等误识别为多个文字的文字,也作为检索的对象。此外,关键词中附加的文字数,最好可以按照扫描器的能力及OCR的能力变更。
[0054]
另外,考虑到文字描绘的位置时,例如可以将多行中的行端的文字的描绘开始或者结束的位置齐全的范围,看作文档的1个区块。这种处理,是根据区块开始行大多将首行缩进的情况进行的。
Claims (7)
1、一种字符串检索装置,其特征在于,从涉及文字的文本数据中,抽出由字符串构成的关键词,
所述字符串检索装置具备:关键词输入单元,该单元输入关键词;和
关键词一致判定单元,该单元对由所述关键词输入单元输入的关键词与文本数据进行对照,判定关键词与文本数据是否一致,
所述关键词一致判定单元,以每个由构成关键词的文字数以上的所定的数的文字所构成的检索字符串为单位,判定关键词与文本数据是否一致。
2、如权利要求1所述的字符串检索装置,其特征在于:具备文字选出单元,该单元选出构成关键词的文字中的一部分;
所述关键词一致判定单元,只将所述文字选出单元选出的文字与检索字符串中包含的文本数据进行对照,判定关键词与文本数据是否一致。
3、如权利要求2所述的字符串检索装置,其特征在于:当文本数据是读取文字图象后生成的数据时,
所述文字选出单元,根据在文字图象的读取时正确地识别文字的概率,选出在文本数据与关键词的一致判定中使用的所述一部分文字。
4、如权利要求1~3任一项所述的字符串检索装置,其特征在于:所述关键词一致判定单元,在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串;使抽出的文字,在文本数据中,以连续的顺序各错开1个文字。
5、如权利要求1~3任一项所述的字符串检索装置,其特征在于:所述关键词一致判定单元,在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串;使抽出的文字,在文本数据中以连续的顺序而且各错开所定的数。
6、如权利要求4或5所述的字符串检索装置,其特征在于:所述关键词一致判定单元,使用文本数据中的文字的尺寸和描绘文本数据表示的文字的位置中的至少一个,决定用于生成检索字符串的文字的抽出范围。
7、一种使计算机执行字符串检索方法的程序,其特征在于,使计算机执行从涉及文字的文本数据中,抽出由字符串构成的关键词的字符串检索方法,
具备:在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串的字符串生成步骤;和
抽出所输入的关键词的文字中的一部分,并只将抽出的文字与在所述字符串生成步骤中生成的检索字符串进行对照,判定关键词与文本数据是否一致的关键词一致判定步骤。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005205810 | 2005-07-14 | ||
JP2005-205810 | 2005-07-14 | ||
JP2005205810 | 2005-07-14 | ||
JP2006162376A JP4470913B2 (ja) | 2005-07-14 | 2006-06-12 | 文字列検索装置およびプログラム |
JP2006162376 | 2006-06-12 | ||
JP2006-162376 | 2006-06-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1896997A true CN1896997A (zh) | 2007-01-17 |
CN1896997B CN1896997B (zh) | 2010-05-26 |
Family
ID=37662845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101055257A Expired - Fee Related CN1896997B (zh) | 2005-07-14 | 2006-07-14 | 字符串检索装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7756872B2 (zh) |
JP (1) | JP4470913B2 (zh) |
CN (1) | CN1896997B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414450A (zh) * | 2019-07-31 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 关键词检测方法、装置、存储介质及电子设备 |
CN111539240A (zh) * | 2019-01-22 | 2020-08-14 | 富士施乐株式会社 | 信息处理装置、储存介质及信息处理方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7264240B2 (ja) * | 2019-04-19 | 2023-04-25 | 日本電気株式会社 | 順序同型照合装置、順序同型照合方法、及び、プログラム |
WO2022019275A1 (ja) * | 2020-07-22 | 2022-01-27 | 昭和電工株式会社 | 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法 |
WO2022059556A1 (ja) * | 2020-09-16 | 2022-03-24 | 昭和電工株式会社 | 文書検索装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5051947A (en) * | 1985-12-10 | 1991-09-24 | Trw Inc. | High-speed single-pass textual search processor for locating exact and inexact matches of a search pattern in a textual stream |
JPH04104367A (ja) | 1990-08-23 | 1992-04-06 | Mitsubishi Electric Corp | ファイルシステム |
JP3400151B2 (ja) * | 1994-12-08 | 2003-04-28 | 株式会社東芝 | 文字列領域抽出装置および方法 |
US5819261A (en) * | 1995-03-28 | 1998-10-06 | Canon Kabushiki Kaisha | Method and apparatus for extracting a keyword from scheduling data using the keyword for searching the schedule data file |
US6035268A (en) * | 1996-08-22 | 2000-03-07 | Lernout & Hauspie Speech Products N.V. | Method and apparatus for breaking words in a stream of text |
US6671404B1 (en) * | 1997-02-14 | 2003-12-30 | Hewlett-Packard Development Company, L.P. | Method and apparatus for recognizing patterns |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
US6272456B1 (en) * | 1998-03-19 | 2001-08-07 | Microsoft Corporation | System and method for identifying the language of written text having a plurality of different length n-gram profiles |
JP2000305935A (ja) | 1999-04-19 | 2000-11-02 | Mitsubishi Electric Corp | 文書ファイリング装置 |
JP3803219B2 (ja) * | 1999-12-14 | 2006-08-02 | 三菱電機株式会社 | 全文検索装置及び全文検索方法 |
JP3917349B2 (ja) | 2000-05-30 | 2007-05-23 | 富士通株式会社 | 文字認識結果を利用して情報を検索する検索装置および方法 |
CA2465707A1 (en) | 2001-11-14 | 2003-05-22 | Jam Corporation | Information search support apparatus, computer program, medium containing the program |
US7003516B2 (en) * | 2002-07-03 | 2006-02-21 | Word Data Corp. | Text representation and method |
-
2006
- 2006-06-12 JP JP2006162376A patent/JP4470913B2/ja not_active Expired - Fee Related
- 2006-07-11 US US11/483,624 patent/US7756872B2/en not_active Expired - Fee Related
- 2006-07-14 CN CN2006101055257A patent/CN1896997B/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539240A (zh) * | 2019-01-22 | 2020-08-14 | 富士施乐株式会社 | 信息处理装置、储存介质及信息处理方法 |
CN110414450A (zh) * | 2019-07-31 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 关键词检测方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP4470913B2 (ja) | 2010-06-02 |
US20070016567A1 (en) | 2007-01-18 |
US7756872B2 (en) | 2010-07-13 |
JP2007048272A (ja) | 2007-02-22 |
CN1896997B (zh) | 2010-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1269069C (zh) | 字符识别装置及方法 | |
CN1320485C (zh) | 图像检索装置和图像检索装置的关键词赋予方法 | |
CN1139884C (zh) | 信息处理方法和装置 | |
CN1218274C (zh) | 在线手写文字模式识别编辑装置及方法 | |
CN1158627C (zh) | 用于字符识别的方法和装置 | |
CN1248138C (zh) | 图像处理方法与图像处理*** | |
CN1801139A (zh) | 句子显示方法和信息处理*** | |
CN1215432C (zh) | 帐票识别方法 | |
CN1991865A (zh) | 从复杂背景文档图像提取文本的装置、方法、程序及介质 | |
CN1258894A (zh) | 用于识别字符的装置和方法 | |
CN1945599A (zh) | 图像处理装置,图像处理方法和计算机程序产品 | |
CN1670723A (zh) | 改进的拼写检查***和方法 | |
CN1338703A (zh) | 用于从多值图象提取划线的设备 | |
CN1834992A (zh) | 检测文档图像中的字符的方向 | |
CN1752991A (zh) | 文字识别装置、文字识别方法及文字识别程序 | |
CN100337231C (zh) | 结构化文档处理器和结构化文档处理方法 | |
CN1896997A (zh) | 字符串检索装置及使计算机执行字符串检索方法的程序 | |
CN1141666C (zh) | 利用标准笔划识别输入字符的在线字符识别*** | |
CN1700201A (zh) | 图像处理装置、图像处理***、图像处理方法 | |
CN1573800A (zh) | 图像识别装置和方法以及图像识别装置的示教装置和方法 | |
CN1174338C (zh) | 字符识别方法 | |
CN1173283C (zh) | 文献图象处理装置和方法 | |
CN1324524C (zh) | 应用程序间的数据链接支持方法 | |
CN1107280C (zh) | 中英文表单的识别***及识别方法 | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100526 Termination date: 20170714 |
|
CF01 | Termination of patent right due to non-payment of annual fee |