CN1097794C - 实时辅助***及方法 - Google Patents

实时辅助***及方法 Download PDF

Info

Publication number
CN1097794C
CN1097794C CN98104230A CN98104230A CN1097794C CN 1097794 C CN1097794 C CN 1097794C CN 98104230 A CN98104230 A CN 98104230A CN 98104230 A CN98104230 A CN 98104230A CN 1097794 C CN1097794 C CN 1097794C
Authority
CN
China
Prior art keywords
real
input information
time
memory block
supplementary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN98104230A
Other languages
English (en)
Other versions
CN1186988A (zh
Inventor
张桐瑞
陈玄同
林光信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN98104230A priority Critical patent/CN1097794C/zh
Publication of CN1186988A publication Critical patent/CN1186988A/zh
Application granted granted Critical
Publication of CN1097794C publication Critical patent/CN1097794C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种实时辅助***,包括:一输入截取部,截取所述输入信息;一辅助数据库,其每笔辅助信息是依预定顺序存储于有多个存储区块的存储区块中;一索引部,有多个关键字,分别对应存储区块,关键字以每一存储区块中特定位置的信息间的最小识分单位设定,以区分存储区块内所存储的信息;一检索操作部,按输入信息检索该索引部以得到对应的关键字,按该对应关键字检索对应存储区块以输出对应输入信息的辅助信息;一同步输出部,同步输出对应输入信息的辅助信息。

Description

实时辅助***及方法
本发明涉及一种实时辅助***及方法,特别涉及一种计算机***中使用的线上实时辅助***及方法,其利用文字截取技术以取得一输入信息,并用快速信息检索的技术将检索到的相关辅助信息与输入信息同步输出。
目前各种应用软件的文字处理部分主要是针对使用者的母语而设计,因此,总会碰到语言沟通的问题。也就是说,一旦使用者需要使用两种或两种以上的语言,如中文及英文时,就难免会发生语言障碍的问题。遗憾的是,由于这类软件着重在文字方面的处理,也就很少顾及提供实时辅助这方面的问题。
为克服此问题,市面上目前出现一种所谓线上字典的软件,用来在使用者以外语阅读或写作时,提供辅助检索及查询的服务。并且,其查询方式主要是在硬磁盘中建立一个辅助数据库,然后,再以特殊的字串(如ab,dis,uni)做为辅助数据库的索引项进行查询。
不过,这种软件要能在输入同时进行线上实时的检索或查询,而又不让使用者感到任何延滞,其对于数据库检索的速度要求是非常高的。也因此,目前在任何有文字输入的软件中,都还不能在输入文字的同时对输入文字提供诸如相近字的示、拼法检查、实时翻译等辅助功能。并且,多数软件中的拼写检查功能,如微软的WORD或其他线上字典,更必须离线(OFF-LINE)后才能实现单词替换的。
为此,本发明的主要目的就是提供一种实时辅助***,其可以实时、线上地提供使用者诸如相近词提示、拼字检查、实时翻译等辅助功能,并让使用者感受不到延滞。
本发明的另一个目的就是提供一种实时辅助***,它是将多笔辅助信息以不定长度的方式,依序存储在存储单元中的各个磁区中做为辅助数据库,并且,每一个磁区仅存放整数笔辅助信息。因此,索引表中可以各磁区的第一笔辅助信息做为其关键字,并使这些关键字直接对应于辅助信息的实际位址,免除公知索引表中的指标空间,并确保对应辅助信息的取得最多只须读取一次硬磁盘。
本发明的又一个目的就是提供一种实时辅助***,其可以免去公知索引表中的指标空间,使索引表所占的存储器空间减小,并使检索的效率增加。同时,搭配文字截取的技术,可达到线上实时的多语辅助功能。
所以,为达到上述及其他目的,本发明提出一种实时辅助***,用以在对一输入信息进行文书处理时同步进行检索。所说***包括:一输入截取单元,用以截取所述输入信息;一辅助数据库,存储在一存储装置中,所述存储装置具有多个存储区块,所述辅助数据库的每笔辅助信息是依一预定顺序且不中断地存储在所述存储区块中;一索引部,具有多个关键字,分别对应于所述辅助数据库所存储的所述存储区块,所述关键字是根据每一存储区块中特定位置的信息间,所具有的最小识别单位而设定,藉以区分所述存储区块内所存储的信息;一检索操作部,根据所述输入信息检索该索引部以得到一对应的关键字,并根据该对应的关键字检索对应的存储区块以输出一对应所述输入信息的辅助信息;以及一同步输出部,同步输出对应所述输入信息的辅助信息。
另外,本发明的实时辅助***还可包括一缓冲区,用以暂存该输入信息中的文字字符,并依据输入信息中的功能键字符处理该文字字符,以随时与该输入信息的内容相同。
此外,本发明也提供一种实时辅助的处理方法,用以在对一输入信息进行文书处理时同步进行检索。该方法包括:提供一辅助数据库,存储于一第一存储装置中,所述存储装置具有多个存储区块,所述信息部的每笔信息是依一预定顺序且不中断地存储于所述存储区块;提供一索引部,存储于一第二存储装置中,其具有多个关键字,分别对应于所述辅助数据库所存储的所述存储区块,所述关键字是根据每一存储区块中特定位置的信息间,所具有的最小识别单位而设定;截取上述输入信息;以及根据所述输入信息检索该索引部以得到一对应的关键字,及根据该对应的关键字检索对应的存储区块以同步输出一对应所述输入信息的辅助信息。
为让本发明的所述和其他目的、特征、和优点能更明显易懂,下文特举一较佳实施例,并配合所示附图,作详细说明如下:
图1是本发明的实时辅助***的硬磁盘结构图。
图2是本发明实时辅助***的***方块图。
图3是本发明实时辅助***中形成辅助数据库的流程图。
图4是本发明实时辅助***中形成索引表的流程图。
图5是本发明实时辅助***的存储单元中辅助数据库的存储示意图。
图6A是本发明实时辅助***应于在实时翻译时的使用界面图。
图6B是本发明实时辅助***应用在相近词提示时的使用界面图。
图6C是本发明实时辅助***应用在即时拼写检查时的使用界面图。
参见图1,此为本发明实时辅助***的硬磁盘结构图。如图中所示,实时辅助***主要是适用在一计算机***10中,其包括:一中央处理单元12;一存储单元,如硬磁盘16;一随机存取存储器14;一输入单元,如鼠标18及键盘20;一输出单元,如显示器22;以及一用来提供电力的电源供应器24。
当计算机***10开始执行一文书处理的步骤,如以WORD或其他编辑器(图中未示)处理一文件时,中央处理单元12首先将硬磁盘16中有关欲处理的文件与文书处理时所需的索引部分暂存在随机存取存储器14中以达到较快的速度(因为硬磁盘16的处理速度要比随机存取存储器14的速度为慢)。然后,根据输入单元,如鼠标18及键盘20所输入的文字字符或特殊键字符以进行相对应的处理及运算。至于处理及运算后的结果则经由输出单元,如显示器22输出或者是存储在随机存取存储器14及存储单元,如硬磁盘16中。
而本发明的实时辅助***则是在存储单元,如硬磁盘16是预先形成一个由多笔辅助信息组成的辅助数据库及其对应的索引表。因此,当进行文书处理的运作时,如以WORD或其他编辑器处理一文件时,实时辅助***便可以利用文字截取技术截取来自输入单元,如鼠标18与键盘20的的输入信息。输入信息包括文字字符,如单字节文字、双字节文字及功能键字符,如***键或删除键。并根据输入信息在索引表中找到对应的关键字,及在对应的磁区中找到所要的辅助信息。其步骤大致如下:
首先,在一存储装置,如硬磁盘16中储存多笔辅助信息以形成一辅助数据库。其中,存储装置,如硬磁盘16则是由多个存储区块,如磁区所组成,且每一个存储区块中存放整数笔辅助信息(即不跨磁区存储同一笔辅助信息)。例如:先将辅助信息以不定长度的方式,依序存储于存储单元,如硬磁盘16的各个磁区中。而当某一个磁区剩余的空间不足以容纳下一笔辅助信息时,将剩余空间补齐(如补零),并且将下一笔辅助信息存储于下一个磁区中。
这种存储方式主要的目的是不会有跨磁区的辅助信息、可以快速找到辅助信息的磁区、可以使所有信息在磁区进行的查询中被完整得到,以达到读取一笔辅助信息只需读取一个磁区。
接着,根据辅助数据库中特定位置所存储的信息,如上述各磁区中存放的第一笔信息形成一索引表。在本发明中,由于索引表乃是依照磁区大小的整数倍规划的,因此只要得到辅助信息在辅助数据库的相对位置,辅助信息的实际位址便可以直接以此位置乘以磁区大小再偏移索引头大小得到,而不需额外的指标。
然后,截取输入单元,如鼠标18及键盘20的输入信息。输入信息包括文字字符,如单字节文字、双字节文字及功能键字符,如***键、删除键。而截取输入单元便根据所述存储单元中形成的索引表,在辅助数据库中找到对应的辅助信息,以及与输入信息同步输出至输出单元,如显示器22。
并且,为使辅助数据库的搜寻及查询能够更加快速,以满足实时线上的要求,在本发明中,辅助数据库及索引表乃是以特殊的方式存储于计算机***10中,其详述如后。
参照图2,此为本发明实时辅助***的***方块图。其中,实时辅助***主要包括:一输入截取单元30;一缓冲区32;一检索处理单元34;以及一同步输出单元36。并且,检索处理单元34还包括:一辅助数据库38、一索引表46及一检索器40。
在本实施例中,计算机***10的操作***42是用来接受来自输入单元48,如鼠标18或键盘20的输入信息,包括文字字符,如单字节文字、双字符组文字,及功能键字符,如***键或删除键。并且截取的文字字符或功能键字符送至文书处理器44进行处理。而输入截取单元30则是位于该操作***42及该文书处理器44之间,用以在文书处理器44执行的同时,截取来自输入单元,如鼠标18或键盘20的各种字符信号。在本实施例中,输入截取单元30的目的是对功能键(因为不希望本程序对原应用有影响,所以应有对自定义功能热键的截取)、单字节文字、双字节文字进行截取。
而缓冲区32则是接收来自输入截取单元30的字符信号,判断该些字符信号的类型及意义(如单字节文字、双字节文字、特殊功能键)及进行对应的处理及转换,用以使其中的文字与目前屏幕上正在处理的文字是一致的。在这个步骤中,缓冲区32可以是一个存储缓冲区,用来暂存输入截取单元30所截取到的文字字符,如单字节文字及双字节文字,并且根据截取到的功能键字符对其中信息进行处理更新,以使缓冲区32中的文字与输入单元30所提供的文字一致。
另外,检索处理单元34中则包括一检索器40,一辅助数据库38,以及一索引表46。检索处理单元34主要的目的是用来接收缓冲区32所暂存的文字,并根据索引表46以在辅助数据库38中找到对应的辅助信息输出。辅助数据库38存储在硬磁盘16中,占据多个磁区。而多笔对应不同文字的辅助信息则依序存储其中,使每一磁区只存储完整笔数的辅助信息(如上述)。
参照图3,此为本发明实时辅助***中形成辅助数据库的流程图。在本实施例中,首先将对应各文字的辅助信息50经过信息处理(步骤52)。然后再以不定长度的方式将辅助信息存储于硬磁盘16的各个磁区中,每个磁区后段的剩余不足以存储下一笔辅助信息的空间时则补齐(如补零),如步骤54、56所示,用以形成一辅助数据库38。
图5中是本发明实时辅助***的存储单元中辅助数据库的存储示意图。由图中可知,辅助数据库占据硬磁盘16的n个磁区,其分别具有一定长度的存储空间,如512个字节。而各个文字所对应的辅助信息则以不定长度的方式,依序存储于各个磁区中。并且,每一个磁区后段的剩余不足以存储下一笔辅助信息的空间均补齐或补零,如此,便可确保每一笔辅助信息均存储在同一个磁区内,以使索引表的建立可以根据磁区而予以简化,并使读取一笔辅助信息只需读取一次硬磁盘。
而索引表46(如图2所示)则是在辅助数据库38形成时,同时形成于硬磁盘16中,由多个关键字所组成。索引表46的主要目的是在所述辅助数据库中搜寻对应输入文字的辅助信息。又,在本发明的实时辅助***中,索引表46中的关键字乃是由辅助数据库38的各磁区中所存放的第一笔辅助信息取一既定长度所依序组成,而既定长度乃是各磁区中存储的第一笔信息间的最小识别字符长度。所述辅助数据库与所述索引部构成一个数据库结构。
参照图4,此为本发明实时辅助***中形成索引表的流程图。首先,步骤60是依序比较相邻磁区的第一个辅助信息。步骤62则是找出可辨识的最短字串做为索引项。接着,找出索引项中的最长索引项的字符长度(步骤64),并依序将各索引项补齐至最长索引项的长度(步骤66),以形成一索引表46,由对应的关键字所组成。
下面将以两个例子说明索引表的形成,及无指标式的检索方法。
<例1>.确定最短索引关键字的例子
若辅助数据库在硬磁盘16中占有十个磁区的空间,且每个磁区中存储的第一笔辅助信息分别为abcdefghij、abdefghijk、abcefghijk、aabcdefghi、abceghijkp、abcehijklm、acdefghijk、abbcdefghi、acdfghijkl、abddefghij、
因为如果取关键字长度为4,则上述第3,5,6项的关键字均为abce,无法区别。故应取关键字长度为5。则所述各项关键字变为abced、abdef、abcef、aabcd、abceg、abceh、abdef、abbcd、acdfg、abdde,各项均不同。故索引表可以各项前5个字母做为关键字,使索引表减小一半。
<例2>.无指针检索信息的例子
若最大索引号为10,每个索引项对应一个磁区。
10个索引项依次为:
abcde、cdefg、fghij、hijkl、jklmn、lmnop、nopqr、qrstu、stuvw、vwxyz
且待索引的文字为like
首先经折半检索,找出小于like并与其最接近的索引项jklmn,即为索引项第5项,则立即可知要找的文字信息是存储在第5磁区中。
经由上述两个例子,在采用改良的关键字和不设指针等两项设计后,索引文件的长度变得很小,一个包含十二万字汇的辅助数据库的索引表只要不大于60KB的存储器容量。
而在实际应用的时候,首先将数据库的索引文件全部读入随机存取存储器,并随时在随机存取存储器中保存目前磁区的内容。这样,当实时信息处理程序发出检索要求时,首先在随机存取存储器中查询,若找不到则再查索引文件,以取得对应于硬磁盘指定磁区,并将其中内容读入随机存取存储器中。因为一个磁区可容纳的字汇有限,用比较法即可立即得到查询目标,并输出结果。这样可保证检索时读取磁区的次数不大于1。
另外,检索器40(图2所示)则是接收来自缓冲区32所暂存的文字字符,如单字节文字或双字节文字,并根据索引表46及辅助数据库38以输出对应的一辅助信息。而同步输出单元36(如图2中所示)的主要目的则是接收检索器40所输出的辅助信息,以与输入的文字同步输出。
综上所述,本发明的实时辅助***不但可以达到线上实时的效果,更可以藉改良的辅助数据库使其索引表中省去指标的空间(十二万字的相关辅助信息仅需60K的索引表)并确保能够读取一次便得到搜寻的辅助信息。另外,其可以增加检索的效率,使用户在486机器上,以300字速度输入文字时,也无法感觉到延滞。并且,实时辅助***的检索方法还可以做为相近字检索,拼字检查或实时翻译等其他应用。
如图6A、6B、6C所示,其中是图示本发明实时辅助***应用于实时翻译、相近词提示、即时拼写检查时的使用界面图。由上所述,由于本发明的索引部分已经过特殊处理,并且可以透过有效减少对应随机存取存储器的占用而得到较佳的检索速度。因此,使用者可以在线上即时得到想要的辅助信息,并且感觉不到任何时间的延迟。
虽然本发明已以较佳实施例揭露如上,但其并非用以限定本发明,本领域所属的技术人员,在不脱离本发明的精神和范围内,当可做更动与润饰,因此本发明的保护范围应以权利要求所界定的范围为准。

Claims (21)

1.一种实时辅助***,用以在对一输入信息进行文书处理时同步进行检索,其包括:
一输入截取部,用以截取所述输入信息;
一辅助数据库,存储于一存储装置,所述存储装置具有多个存储区块,所述辅助数据库的每笔辅助信息是依一预定顺序存储在所述存储区块中;
一索引部,具有多个关键字,分别对应于所述辅助数据库所存储的所述存储区块,所述关键字是根据每一存储区块中特定位置的信息间,所具有的最小识别单位而设定,以区分所述存储区决内所存储的信息;
一检索操作部,根据所述输入信息检索该索引部以得到一对应的关键字,及根据该对应的关键字检索对应的存储区块以输出一对应所述输入信息的辅助信息;以及
一同步输出部,同步输出对应所述信息的辅助信息。
2.如权利要求1所述的实时辅助***,其中所述输入截取部是通过所述文书处理所执行的操作***,进行输入信息的截取。
3.如权利要求1所述的实时辅助***,其中所述辅助数据库是一双语字典数据库。
4.如权利要求1所述的实时辅助***,其中所述存储装置是一硬磁盘。
5.如权利要求4所述的实时辅助***,其中所述存储区块是所述硬磁盘机中一特定数量的磁区。
6.如权利要求1所述的实时辅助***,其中所述索引部是存储于一随机存取存储器中。
7.如权利要求1所述的实时辅助***,其中所述关键字是每一存储区块中第一笔辅助信息之间的最小识别单位。
8.如权利要求1所述的实时辅助***,其中所述最小识别单位是每一存储区块的辅助信息间,依照字典排列顺序所得的最小可识别字符长度。
9.如权利要求1所述的实时辅助***,其中所述输入信息是包括一文字字符。
10.如权利要求9所述的实时辅助***,其中所述输入信息还包括一功能键字符。
11.如权利要求10所述的实时辅助***,其中还包括一缓冲区,用以存储所述输入信息中的文字字符,并根据所述输入信息中的功能键字符,使该缓冲区中的内容与该输入信息一致。
12.一种实时辅助的方法,用以在对一输入信息进行文书处理时同步进行检索,该方法包括:
提供一辅助数据库,存储于一第一存储装置中,所述存储装置具有多个存储区块,所述数据库的每笔信息是依一预定顺序且不中断地存储于所述存储区块;
提供一索引部,存储于一第二存储装置,其具有多个关键字,分别对应于所述辅助数据库所存储的所述存储区块,所述关键字是根据每一存储区块中特定位置的信息间所具有的最小识别单位而设定;
截取所述输入信息;以及
根据所述输入信息检索该索引部以得到一对应的关键字,及根据该对应的关键字检索对应的存储区块以同步输出一对应所述输入信息的辅助信息。
13.如权利要求12所述的实时辅助方法,其中截取所述输入信息的步骤是利用通过所述文书处理所执行的操作***,进行输入信息的截取。
14.如权利要求12所述的实时辅助方法,其中所述第一存储装置是一硬磁盘。
15.如权利要求12所述的实时辅助方法,其中所述第二存储装置是一随机存取存储器。
16.如权利要求12所述的实时辅助方法,其中所述关键字是利用每一存储区块中每一笔辅助信息之间的最小识别单位来设定。
17.如权利要求12所述的实时辅助方法,其中所述最小识别单位是每一存储区块的辅助信息间,根据字典排列顺序所得到的最小可识别字符长度来设定。
18.如权利要求12所述的实时辅助方法,其中所述输入信息包括一文字字符。
19.如权利要求18所述的实时辅助方法,其中所述输入信息还包括一功能键字符。
20.如权利要求19所述的实时辅助方法,其中所述输入信息包括一功能键字符。
21.如权利要求20所述的实时辅助方法,其中还包括一暂存所述输入信息的文字字符,并根据所述输入信息的功能键字符维护所述缓冲区的内容以与所述输入信息一致的步骤。
CN98104230A 1998-01-14 1998-01-14 实时辅助***及方法 Expired - Fee Related CN1097794C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN98104230A CN1097794C (zh) 1998-01-14 1998-01-14 实时辅助***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN98104230A CN1097794C (zh) 1998-01-14 1998-01-14 实时辅助***及方法

Publications (2)

Publication Number Publication Date
CN1186988A CN1186988A (zh) 1998-07-08
CN1097794C true CN1097794C (zh) 2003-01-01

Family

ID=5218194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN98104230A Expired - Fee Related CN1097794C (zh) 1998-01-14 1998-01-14 实时辅助***及方法

Country Status (1)

Country Link
CN (1) CN1097794C (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0357370A2 (en) * 1988-09-02 1990-03-07 Sharp Kabushiki Kaisha Computer assisted language translating machine

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0357370A2 (en) * 1988-09-02 1990-03-07 Sharp Kabushiki Kaisha Computer assisted language translating machine

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数据结构 1992.6.1 严蔚敏等,清华大学出版社 *

Also Published As

Publication number Publication date
CN1186988A (zh) 1998-07-08

Similar Documents

Publication Publication Date Title
US7337165B2 (en) Method and system for processing a text search query in a collection of documents
US9619565B1 (en) Generating content snippets using a tokenspace repository
EP1779273B1 (en) Multi-stage query processing system and method for use with tokenspace repository
CN1292371C (zh) 倒排索引存储方法、倒排索引机制以及在线更新的方法
US6212525B1 (en) Hash-based system and method with primary and secondary hash functions for rapidly identifying the existence and location of an item in a file
JP3581652B2 (ja) データ検索システムと方法およびサーチ・エンジンにおけるその使用
US7783655B2 (en) Processing data records
US6070158A (en) Real-time document collection search engine with phrase indexing
US5995962A (en) Sort system for merging database entries
US7984036B2 (en) Processing a text search query in a collection of documents
US6567816B1 (en) Method, system, and program for extracting data from database records using dynamic code
US20020073068A1 (en) System and method for rapidly identifying the existence and location of an item in a file
US20100145918A1 (en) Systems and methods for indexing content for fast and scalable retrieval
WO1998039715A9 (en) System and method for rapidly identifying the existence and location of an item in a file
Williams et al. What's Next? Index Structures for Efficient Phrase Querying.
JPH10240766A (ja) 情報検索方法および情報検索装置
US6625592B1 (en) System and method for hash scanning of shared memory interfaces
CN103064847A (zh) 索引装置、索引方法、检索装置、检索方法和检索***
US20040143574A1 (en) System and method for creating a data file for use in searching a database
CN1097794C (zh) 实时辅助***及方法
JP2007133682A (ja) 全文検索システム、及び、その全文検索方法
JPH06348757A (ja) 文書検索装置および方法
JP2001202388A (ja) フルテキストサーチ方法および装置
Meyer Large Scale Multi-Type Inverted List Indexing
KR20020067161A (ko) 문서 색인 시스템 및 그 방법

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030101

Termination date: 20110114