CN1356652A - 用于诸如作为词转换***的字典的数据库编制方法 - Google Patents
用于诸如作为词转换***的字典的数据库编制方法 Download PDFInfo
- Publication number
- CN1356652A CN1356652A CN01142478A CN01142478A CN1356652A CN 1356652 A CN1356652 A CN 1356652A CN 01142478 A CN01142478 A CN 01142478A CN 01142478 A CN01142478 A CN 01142478A CN 1356652 A CN1356652 A CN 1356652A
- Authority
- CN
- China
- Prior art keywords
- database
- information
- word information
- extracted
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
从源信息提取字符(或字母)信息,从字符信息提取词信息,用词信息编制数据库。因此,所编制的数据库适用于用户的技术领域或用户为之感兴趣的领域。
Description
本申请涉及2000年12月1日申请的2000-366729号和2001年8月14日申请的2001-245895号两个日本专利,据此本应用要求受巴黎公约保护,此处引入两个专利的内容作为参考。
发明背景
1.发明领域
本发明涉及适合于编制,例如用于假名-汉字转换***或罗马字字符-汉字转换***的字典的数据库的数据库编制方法和装置,用计算机执行的数据库编制处理程序以及记录用计算机执行的数据库编制处理程序的计算机可读记录介质。
2.相关技术描述
通常在假名-汉字转换或罗马字字符-汉字转换***中(以下称作汉字转换***)采用,例如,个人计算机或文件编制装置(所谓的字处理器),将来自键盘或类似设备的输入信号,例如,转换成假名或罗马字符编码,将对应于这些编码的假名字符或罗马字字符的字符影像显示在显示设备的显示屏上,或者将一个或多个接连的假名编码或罗马字字符序列转换成(日本)汉字并将其与这些汉字编码相对应的汉字-字符影像加以显示。顺便指出,术语“假名-汉字转换”是指将假名编码变换成汉字编码,而术语“罗马字字符-汉字转换”是指将罗马字字符编码变换成汉字编码。
而且,上述汉字转换***通常是用字典数据库提供的,在这里已经将一个假名字符和字之间的对应表加以储存,同时将字典数据库这样配置,使之自动地或按照用户的指令执行从一个或多个接连的假名字符到字的转换。顺便指出,上述所说的“字”是由多个汉字字符结合,汉字字符和假名结合,多个片假名字符或诸如此类所构成的。
预先为汉字转换***准备的原始字典数据库是已经由,例如,假名-汉字或罗马字字符-汉字转换软件供应商或类似供应者准备和编制的。而且,许多这种字典数据库其配置可容许添加新字和对字更新,或者根据字的使用频率自动定转换的优先级。
但是,为了有意地将一个新字加入字典数据库,要求用户工作或操作,例如,用户他/她本身要从字典数据库内搜索他/她所希望的汉字字符或假名字符,通过将这些字符相结合以生成一个字,同时他/她发出指令用以将所生成的字添加和登记到字典数据库,或者发出指令对字典数据库更新。
而且,为了有意识地变化转换优先级,用户他/她必须完成像将假名字符转换成字这样的输入操作或工作,例如,多次操作。
如上面所提到的,在通常的汉字转换***内,要求用户手工进行多种复杂的操作或步骤以完成新字添加,现有字的更新或转换优先级的有意地设定,所有这些都将使效益明显降低。
发明概述
考虑到上述这类问题,提出了本发明。因此本发明的目的是提供一种数据库编制方法和数据库编制装置,一种用计算机执行的数据库编制处理程序以及一种储存有由计算机执行的数据库编制处理程序的计算可读记录介质,采用这种数据库编制方法和数据库编制装置,可以用一种简化的方式容易完成将新字添加到,例如汉字转换***的字典的数据库和更新字典数据库或转换优先级的设定而无需用户进行任何复杂的操作或工作。
在本发明中,字符信息是从源信息提取的,词信息是从字符信息提取的,而数据库是由词信息编制的。
在本发明中,字符信息是从一个预定网站上检索的网页和此后浏览的网页中的至少一个网页提取的,或者是从诸如电子邮件信息或图像信号的源信息中提取的,词信息是从该字符信息提取的,而数据库是由词信息编制而成的,所以可以实现向字典数据库添加新字和字典数据库更新或转换优先级设定而无需用户进行任何复杂的操作。
结合附图将对本发明的演示性实施方案加以描述,本发明的其他的和进一步的目的和特点在理解这些演示性实施方案之后将变得更加明显,或者将会在随后的权利要求中表明,而此处没有提及的各种优点将会呈现在实际中采用本发明的本专业领域的技术人员面前。
附图简述
图1是方块图,用以表明执行按本发明一种实施方案的字典数据库编制程序的个人计算机主要部分的配置。
图2是表示本实施方案字典数据库编制程序基本配置的概念图。
图3是表示包括本实施方案的字典数据库编制程序的假名-汉字和罗马字字符-汉字转换应用程序的配置概念图。
图4是表明在本实施方案的字典数据库编制程序内的处理流程图。
优先实施方案详述
参照附图,将对本发明的不同的实施方案加以阐述。注意到,相同的或相似的参考号码适用于全部附图中的相同的或相似的部件和元素,因而对相同的或类似的部件和元素的阐述将加以省略或简化。
本发明实施方案概述
本发明的一种实施方案的字典数据库编制装置是一种用于编制字典数据库的装置,这种装置用于,例如,假名-汉字和罗马字字符-汉字转换***,此字符(或字母)信息是从,例如,取自外部的源信息提取的,字是从字符信息提取的,而字典数据库的更新和向字典数据库添加和登记字以及诸如此类是利用被提取的字实现的,所以可以简单易行地完成便于使用的字典数据库的编制。
这里,考虑了将对用户感兴趣的领域或属于用户本身技术领域的许多字包括在字符信息中,这种字符信息是通过如下途径获取的:互联网搜索或浏览的,或用户他/她进行的电子邮件通信得到的字符信息,利用诸如字符识别这样的途径或诸如此类从诸如电视信号或视频信号,或扫描书或杂志提取的图像信号中得到的字符信息,或从诸如CD-ROM或DVD-ROM不同类型记录介质所得到的字符信息。而且也考虑了当用户利用假名-汉字和罗马字字符-汉字转换***准备或产生,例如,一个文件时,他/她使用对他/她感兴趣的领域或他/她本身的技术领域的那些字的可能性是高的(利用字的频率是高的)。
从上可见,在按照本发明的该实施方案的字典数据库编制装置内,字是从字符(或字母)信息提取的,这些字符信息包括从诸如互联网搜索,浏览或电子邮件得到的字符信息,从电视信号或诸如此类或从被扫描的图像得到的字符信息,或从CD-ROM或诸如此类得到的字符信息,所提取的字被添加和登记到,例如,在假名-汉字和罗马字字符-汉字转换***中已经准备好了的原始字典数据库上并且按照被提取的字将数据库更新,而像转换优先级的推进这种处理则是依被提取的字实施的。
即是说,根据本发明的该实施方案,被提取的字被添加和登记到字典数据库或将字典数据库更新并对所提取的字实行优先级转换设定,所以可以简单易行地编制便于使用的一种字典数据库而无需用户像在传统的技术中那样进行复杂的手工操作。而且,根据本发明的这种实施方案,特别是当需要编制包括用片假名字符表示的外语的字典数据库时,本发明是十分有用的。顺便指出,本实施方案的字典数据库编制装置不仅仅适用于将字添加和登记到现数据库和将数据库更新的情况,同时也适用于新编制字典数据库的情况。
本实施方案配置的示意图。
图1是作为一种实施方案的装置的配置示意图,用于对字典数据库编制执行处理程序(以下称为字典数据库编制程序)。顺便指出,当本发明的字典数据库编制程序,例如,由个人计算机执行时,图1所示仅为所采用的主要部分的配置。
在图1中,存储部件15包括,例如,硬盘和它的驱动。除操作***以外,储存在上述硬盘内的各种程序16包括完成本实施方案的字典数据库编制处理的字典数据库编制程序(下面讨论),或者,例如,实现假名-汉字和罗马字字符-汉字转换***的假名-汉字和罗马字字符-汉字转换程序,完成对所谓的互联网的连接和浏览的浏览程序,用于准备和发送/接收电子邮件的电邮程序,捕获诸如视频信号和电视信号的各种图像信号的捕获程序,用于从用平头扫描仪或诸如此类读出的图像数据,例如在上面方式中捕获的图像信号或类似数据中进行字符识别以实现对字符数据的转换的字符识别程序,以及用于从诸如CD-ROM或DVD-ROM不同记录介质和其他各种数据片17提取数据的程序。顺便指出,本实施方案的字典数据库编制程序也可以包括在其他程序内,如假名-汉字和罗马字字符-汉字转换程序或类似程序之中。
原始字典数据库18(初始字典数据库)是这样一种字典数据库,它是由供应商提供的并已准备了,例如,假名-汉字和罗马字字符-汉字转换软件,或类似的软件,同时它还允许添加新字和更新和/或根据字的使用频率自动设置转换优先级。顺便指出,字典数据库18可以是从另外的假名-汉字和罗马字字符-汉字转换软件获取的,而不是由供应商提供的,但它具备有假名-汉字和罗马字字符-汉字转换软件,字典数据库可以和本实施方案的字典数据库编制程序一起提供或者单独提供。
通信部件10是通信设备,用于外部数据通信,如连接到模拟公用电话线的调制解调器,连接到闭路电视网的电缆调制解调器,连接到ISDN(综合业务数字网)的终端适配器(终端适配器;TA),或类似的器件。通信I/F部件11是接口设备,用于执行协议转换以允许在上述通信部件10和内部总线(BUS)之间进行数据发送/接收。在本实施方案中,上述通信部件10和通信I/F部件11允许对所谓的互联网的连接,搜索和浏览,以及电子邮件的发送/接收。
外部装备25是这样一些装备,如平头扫描仪,TV调谐器,磁带录相机,视频盘回放机,数字照相机,摄像机,接收卫星广播的BS调谐器,连接到通信卫星线路的CS调谐器以及诸如此类。外部装备I/F部件26是接口设备,用于将从外部装备25提供的信号馈送给转换装置。
输入部件20是输入设备,如键盘,鼠标和触摸盘。用户I/F部件19是接口设备,用于将来自输入部件20的信号供给转换装置。
驱动部件22是驱动设备或驱动单元,它至少可以从,例如,CD-ROM或DVD-ROM,诸如软盘的盘介质和诸如卡的半导体存储器或类似设备上读取数据。驱动I/F部件21是接口设备,用于将来自驱动部件22的信号提供给转换装置。
显示部件24是显示设备,诸如CRT(阴极射线管)或液晶显示屏。显示驱动部件23是驱动设备,用于显示和驱动显示部件24。
CPU 12依据储存在储存部件15的操作***程序和上面程序16控制图1中所示个人计算机的所有操作。
ROM 13包括可重写非-易失性存储器,如闪烁存储器,它可以储存图1中所示个人计算机的BIOS(基本输入/输出***)和各种初始设定值。RAM是用应用程序或从储存部件15的硬盘读取的类似程序装载的,RAM 14用作CPU 12的工作RAM。
在图1所示的这种配置中,CPU 12通过执行从储存部件15读出的并已储存在RAM 14内的应用程序之一的本实施方案的字典数据库编制程序完成这样一些处理,如编制字典数据库,向字典数据库添加和登记新字,更新字典数据库以及设定转换优先级和诸如此类。
本实施方案的字典数据库编制程序配置示意图
字典数据库编制程序基本配置
下面将解释适合于本实施方案的CPU 12执行字典数据库编制处理的实用程序(字典数据库编制程序)的配置。
本实施方案的字典数据库编制程序可以是记录在像DVD-ROM或CD-ROM一类光盘,半导体存储器或类似记录介质上的程序,或者是可以通过通信线下载的程序,并且这种程序具备有,例如,如图2所示的数据配置。顺便指出,图2中所示的数据配置从概念上代表本实施方案字典数据库编制程序的基本配置,因而它并不代表实际的程序配置。
如图2所示,本实施方案的字典数据库编制程序是作为一个程序部件30提供的,它包括图1中CPU执行的程序,至少带有字符信息处理程序32,标志管理程序33,字典管理程序34和用户输入信息管理程序35。
字符信息处理程序32是这样一种程序,它从在上述互联网搜索或浏览,电子邮件中得到的页提取字符信息,或提取包括在电视信号或类似信号,用扫描或类似方法经字符识别技术得到的图像信号内的字符信息,或提取包括在用上述CD-ROM或类似介质得到的数据中的字符信息,然后从上述这些字符信息中提取字。
上述标志管理程序33是一种程序,用于执行标志管理,以防止,例如,字符信息通过相继向在上述方式中提取的相应字符信息片添加单个标志而以重复的方式被提取,或者通过测量相同字符信息的提取次数而得到重复频率。顺便指出,在这种实施方案中,通过利用标志而避免了相同字符信息的重复提取。
上述字典管理程序34是一种程序,用于完成如将字添加和登记到字典数据库,字典数据库更新,依据字的使用频率设定转换优先级或诸如此类的字典管理。
上述用户输入信息管理程序35是一种程序,当一条有关是否向字典数据库添加和登记字或更新字典数据库的指令应当执行时它管理用户输入信息,或者在诸如用户的输入是字的读取,而将要读取的信息使之与该字相对应的情况下它管理用户输入信息。
假名-汉字和罗马字字符-汉字转换程序应用实例
图2中的实例表示字典数据库编制程序单元的基本配置。但是,当本实施方案的字典数据库编制程序包括在,例如,假名-汉字和罗马字字符-汉字转换程序中时,就要考虑数据配置,例如,如图3中所示的那样。顺便指出,图3中所示的数据配置只是从概念上展示如图2中所示实例那样的应用程序,但它并不代表实际的程序配置。
图3中所示的假名-汉字和罗马字字符-汉字转换应用程序40具有汉字转换程序区41和像图2中所示的程序区那样的本实施方案的字典数据编制程序区42,以及用于假名-汉字和罗马字字符-汉字转换的数据区43。顺便指出,因为字典数据库编制程序42与图2中所示的程序区31相似,所以省略对它的解释。而且,汉字转换程序区41很大程度上与称之为字处理器的文件准备软件相似。
上述数据区43包括含有假名编码,罗马字字符编码,汉字编码和其他用于假名-汉字和罗马字字符-汉字转换的编码的编码数据44,和用于表示假名字符和字之间对应表的字典数据库的字典数据45。
此处,由,例如,上述CD-ROM,DVD-ROM或诸如此类所提供的字典数据45,即紧跟汉字-假名和罗马字字符-汉字转换应用程序40之后安装在本实施方案中个人计算机内的字典数据45是作为原有初始字典数据库而预先准备的。
本实施方案的字典数据库编制程序执行时的处理流程
此后将参照图4中所示流程对图2和图3中所示的本实施方案的字典数据库编制程序30或42中的处理流程加以解释。顺便指出,以下解释的流程的实现是以构成本实施方案的字典数据库编制程序的相应程序操作于CPU 12为前题的。
在图4中所示的本实施方案的字典数据库编制程序中,在步骤S1的处理中,首先文件信息处理程序32提取诸如互联网搜索或浏览页,电子邮件,电视信号和扫描图像信号,储存在像硬盘驱动或CD-ROM或DVD-ROM驱动,半导体存储器件的各种储存设备(或内置或后装的记录介质)中的数据文件的信息作为源信息,然后在S2的处理中从取来的信息中提取字符信息。例如,在从互联网搜索或浏览页提取字符信息时是从HTML(超文本掩模语言)文件的文字区提取字符信息。又例如,在从图像信号提取字符信息时是用,例如,字符识别处理或诸如此类技术提取字符信息。而且,储存在上述存储设备或记录介质中的数据文件可以由用户默认,也可以不默认(即可以随意搜索)。
下面,作为步骤S3,标志管理程序33将标志加到所提取的相应的字符信息片。随后,在步骤S4中,标志管理程序33决定是否将“1”设定到标志有关的相应字符信息片,而在步骤S14中标志被设定为“1”的字符信息片则被舍弃。顺便指出,在这种实施方案中,为什么将重复的字符信息片以这种方式舍弃,其原因就是为了减少步骤S5和随后的处理。
另一方面,对于标志未设定为“1”(标志为“0”)的字符信息片串,字符信息处理程序32将字符信息片串化解成相应的字以便像步骤S5那样将它们提取。
随后,如步骤6,字典管理程序34检验所提取的字是否存在于现有字典数据库内。在步骤6中,如果确认在现有数据库中不存在该字,则在步骤S7中字典管理程序34将所提取的字设定到被添加的字上,并且登记到该字典数据库。另一方面,当现有字典数据库中已存在有该字时,则在步骤S8中字典管理程序34将现有的字典数据库用该字更新,同时仅舍弃不具备转换最高优先级的字。顺便指出,为什么以这种方式仅将不具备转换最高优先级的字舍弃,其原因就是防止根据将用户使用情况已经加上转换最高优先级的字被所提取的字改变。
然后,如步骤S9所示,字典管理程序34根据由用户输入信息管理程序35管理的用户输入信息判断用户是否授权整体地改变字典数据库。此时,当判断被确认之后,字典数据库编制程序的处理向前推进到步骤S10,但是,当判断为否时,字典数据库编制程序向前推进至步骤S11。
在步骤S10,字典管理程序34利用上述字将字典数据库更新。另一方面,当字典数据库编制程序推进至步骤S11后,用户输入信息管理程序35进行处理,使要求更新授权的确认信息显示在上面显示部件24上,然后在步骤S12判断用户是否已经给予更新授权。在步骤S12,当用户已经给予更新授权后,字典数据库编制程序的处理推进至步骤S13,但是,当没有给予更新授权时,在步骤S14内字典数据库编制程序将该字舍弃。
当处理推进到步骤S13后,用户输入信息管理程序35判断是否这种输入,例如,就是由用户已经完成的读取该字。在步骤S13,当用户的输入没有执行时,字典数据库编制程序的处理推进至步骤S10,但是,当用户输入信息已经执行时,字典数据库编制程序的处理推进至步骤S15。
当处理从步骤13推进至步骤S10后,字典管理程序34用该字将字典数据库更新。
而且,当处理推进至步骤15后,字典管理程序34将诸如从用户输入信息管理程序35传递来的“读取”或诸如此类的输入数据和该字相互关联以完成字典数据库的更新。
实施方案结论
如上所述,根据本实施方案,可以简单易行地生成包括有关用户感兴趣的领域或用户本身的技术领域的字的字典数据库。而且,例如,当将本实施方案应用到罗马字字符-汉字转换***时,可以实现一种十分便捷的***。
进一步而言,在本发明中,对从源信息提取的相应字符按顺序和单个地用标志设定,因而可以根据设定标志判断是否要求从源信息提取字符信息。而且,所提取的词信息用现有数据库中的词信息加以检验。当所提取的词信息不存在于现有的数据库时,所提取的词信息被添加和登记到现有数据库。当现有的数据库内存在有所提取的词信息时,只有当所提取的词信息与现有数据库中具备最高优先级的词信息不相同的情况下才将现有的数据库更新。
即是说,根据本发明,源信息至少是用户在预定通信网上搜索和随后浏览的页之一,或者是用户用于发送/接收的电子邮件,而字符信息和词信息则是从源信息提取的,所以数据库是由所提取的词信息和字符信息编制而成的。因此,所编制的数据库适合于用户的技术领域和用户感兴趣的领域。而且,因为数据库的编制是自动或半自动进行的,所以用户无需为了编制数据库而人工进行诸如添加或登记字的工作。
顺便指出,已经对本发明应用到,例如,个人计算机的实施方案做了解释,但是,本发明适用于便携式信息终端或PDA,如带文件制备功能的便携式电话,具备通信或信息输入功能的文件制备设备(所谓的字处理机),具备通信或信息输入功能和文件制备功能的家用游戏设备,或诸如此类。而且,在上述的解释中,在主要应用到假名-汉字和罗马字字符-汉字转换***的本发明的地方已经采用了本实施方案。但是,本发明当然不仅仅适用于汉字转换***本身,而且是一种单用于字典数据库编制的***。
进一步而言,在上述实施方案中,已经对将罗马字字符转换成汉字的日本假名-汉字转换和罗马字字符-汉字转换做了解释。但是,本发明可适用于其他语言***,例如,中文罗马字字符-汉字转换***,罗马字字符-朝鲜文字母转换***,罗马字字符-***字字符转换***,以及诸如此类。但是,本发明适用于为英文,法文,德文或诸如此类编制字字典数据库,或者为上述文字编制拼写检查的字典数据库。尤其是,当把本发明应用到为拼写检查的字典数据库时,也可以在对拼写检查的字典数据库内在转换到正确的拼写选项时将变更优先级加以更新。
Claims (37)
1.数据库编制方法,包括步骤:
从源信息提取字符信息;
从字符信息提取词信息;
根据词信息编制数据库。
2.根据权利要求1的数据库编制方法,进一步包括步骤:
从预定通信网上搜索的页和此后浏览的页中取回至少一页作为源信息。
3.根据权利要求1的数据库编制方法,进一步包括步骤:
取回电子邮件信息作为源信息。
4.根据权利要求1的数据库编制方法,进一步包括步骤:
取回图像信息作为源信息;和
通过字符识别从图像信号提取字符信息。
5.根据权利要求1的数据库编制方法,进一步包括步骤:
取回已经储存在存储设备或记录介质内的数据文件作为源信息。
6.根据权利要求1的数据库编制方法,进一步包括步骤:
对从源信息提取的相应的字符信息片按顺序和单个地设定标志。
7.根据权利要求6的数据库编制方法,进一步包括步骤:
判断是否根据已经设定的标志完成了从源信息提取字符信息。
8.根据权利要求1,数据库的编制方法进一步包括步骤:
将所提取的词信息跟现有数据库内的词信息相校验;并且
在所提取的词信息在现有数据库内不存在的情形下,将所提取的词信息添加和登记到现有数据库。
9.根据权利要求8的数据库编制方法,进一步包括步骤:
在所提取的词信息存在于现有数据库的情形下,判断现有的词信息是否跟具有最高优先级的词信息相同;并且
在所提取的词信息跟具有最高优先级的词信息不相同的情形下,根据所提取的词信息将现有的数据库更新。
10.根据权利要求8的数据库编制方法,进一步包括步骤:
判断现有的数据库是否容许改变;并且
仅在现有的数据库容许改变的情形下,改变现有的数据库。
11.根据权利要求10的数据库编制方法,进一步包括步骤:
在改变现有数据库时,判断存在/不存在变更确认设定;并且
在已经进行了变更确认设定的情形下,产生预定确认消息。
12.根据权利要求1的数据库编制方法,进一步包括步骤:
将所提取的词信息的读取同该词信息相互关联以编制数据库。
13.数据库编制装置,包括:
从源信息提取字符信息的字符信息提取部件;
从字符信息提取词信息的词信息提取部件;和
从词信息编制数据库的编制部件。
14.根据权利要求13的数据库编制装置,进一步包括:
连接到预定通信网的连接部件;和
源信息提取部件,它从预定通信网上搜索的页和此后浏览的页中取回至少一页作为源信息。
15.根据权利要求13的数据库编制装置,进一步包括:
源信息提取部件,它取回电子邮件信息作为源信息。
16.根据权利要求13的数据库编制装置,进一步包括:
源信息提取部件,它提取图像信号作为源信息,并且,其中字符信息提取部件通过字符识别从图像信号提取字符信息。
17.根据权利要求13的数据库编制装置,进一步包括:
源信息提取部件,它取回储存在存储设备或记录介质内的数据文件作为源信息。
18.根据权利要求13的数据库编制装置,进一步包括:
标志设定部件,它按顺序和单个地将标志设定到从源信息提取的相应字符信息片上。
19.根据权利要求18的数据库编制装置,进一步包括:
判断部件,它根据已经设定的标志判断是否实施从源信息提取字符信息。
20.根据权利要求13的数据库编制装置,
其中编制部件将所提取的词信息同现有数据库中的词信息相校验,当所提取的词信息在现有数据库中不存在时,将所提取的词信息添加和登记到现有数据库内。
21.根据权利要求20的数据库编制装置,
其中在所提取的词信息存在于现有数据库的情形下,编制部件进一步判断所提取的词信息是否跟在现有数据库内具备已经被设定的最高优先级的词信息相同,并且当所提取的词信息和具备最高优先级的词信息不相同时,依照所提取的词信息将现有的数据库更新。
22.根据权利要求20的数据库编制装置,
其中编制部件判断是否容许改变现有数据库,并且仅在现有数据库容许改变的情形下对现有数据库进行变更。
23.根据权利要求22的数据库编制装置,进一步包括:
变更确认部件,当改变现有数据库时它判断是否存在/不存在变更确认设定;并且与变更确认设定已经完成后,产生预定确认消息。
24.根据权利要求13的数据库编制装置,
其中编制部件将所提取的词信息的读取同词信息相互关联以编制数据库。
25.记录计算机执行的数据库编制处理程序的计算机可读记录介质,
数据库编制处理程序包括步骤:
从数据库提取字符信息;
从字符信息提取词信息;和
从词信息编制数据库。
26.如权利要求25的记录计算机执行的数据库编制处理程序的计算机可读记录介质
数据库编制处理程序,进一步包括步骤:
从预定通信网上搜索的页和随后浏览的页取回至少一页作为源信息。
27.如权利要求25的记录计算机执行的数据库编制处理程序的计算机可读记录介质
数据库编制处理程序,进一步包括步骤:
取回电子邮件信息作为源信息。
28.如权利要求25的记录计算机执行的数据库编制处理程序的计算机可读记录介质
数据库编制处理程序,进一步包括步骤:
取回图像信号作为源信息;和
通过字符识别从图像信息提取字符信息。
29.如权利要求25的记录计算机执行的数据库编制处理程序的计算机可读记录介质
数据库编制处理程序,进一步包括步骤:
取储存在存储设备或记录介质中的数据文件作为源信息。
30.如权利要求25的记录计算机执行的数据库编制处理程序的计算机可读记录介质
数据库编制处理程序,进一步包括步骤:
对从源信息提取的相应的字符信息片按顺序和单个地设定标志。
31.如权利要求30的记录计算机执行的数据库编制处理程序的计算机可读记录介质
数据库编制处理程序,进一步包括步骤:
判断是否根据已经设定的标志完成了从源信息提取字符信息。
32.如权利要求25的记录计算机执行的数据库编制处理程序的计算机可读记录介质
编制数据库的方法,进一步包括步骤:
将所提取的词信息同现有数据库中的词信息相校验;并且当所提取的词信息不存于现有数据库中时,将所提取的词信息添加和登记到现有的数据库。
33.如权利要求32的记录计算机执行的数据库编制处理程序的计算机可读记录介质
编制数据库的方法,进一步包括步骤:
当所提取的词信息存在于现有数据库内时,判断是否现有的词信息跟具有最高优先级的词信息相同;并且
当所提取的词信息跟具有最高优先级的词信息不相同时,按照所提取的词信息将现有的数据库更新。
34.如权利要求32的记录计算机执行的数据库编制处理程序的计算机可读记录介质
编制数据库的方法,进一步包括步骤:
判断是否容许对现有数据库进行改变;并且
仅当现有的数据库容许这种改变时,对现有数据库进行变更。
35.如权利要求34的记录计算机执行的数据库编制处理程序的计算机可读记录介质
数据库编制处理程序,进一步包括步骤:
当对现有数据库进行改变时,判断存在/不存在变更确认设定;并且
在已经进行这种变更确认设定后,发生预定确认消息。
36.如权利要求25的记录计算机执行的数据库编制处理程序的计算机可读记录介质
编制数据库的方法,进一步包括步骤:
将所提取的词信息的读取同词信息互相关联以编制数据库。
37.由计算机执行的数据库编制处理程序,包括步骤:
从数据库提取字符信息;
从字符信息提取词信息;和
从词信息编制数据库。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000366729 | 2000-12-01 | ||
JP366729/00 | 2000-12-01 | ||
JP245895/01 | 2001-08-14 | ||
JP2001245895A JP3669627B2 (ja) | 2000-12-01 | 2001-08-14 | データベース構築方法及び装置、コンピュータに実行させるためのデータベース構築処理プログラム及びコンピュータに実行させるためのデータベース構築処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1356652A true CN1356652A (zh) | 2002-07-03 |
Family
ID=26605057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN01142478A Pending CN1356652A (zh) | 2000-12-01 | 2001-11-30 | 用于诸如作为词转换***的字典的数据库编制方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6961464B2 (zh) |
EP (1) | EP1211615A3 (zh) |
JP (1) | JP3669627B2 (zh) |
KR (1) | KR20020043158A (zh) |
CN (1) | CN1356652A (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7289956B2 (en) * | 2003-05-27 | 2007-10-30 | Microsoft Corporation | System and method for user modeling to enhance named entity recognition |
KR100687734B1 (ko) * | 2004-12-14 | 2007-02-27 | 한국전자통신연구원 | 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법 |
JP2007193438A (ja) * | 2006-01-17 | 2007-08-02 | Casio Comput Co Ltd | 電子辞書装置及び検索制御プログラム |
JP2009099056A (ja) * | 2007-10-18 | 2009-05-07 | Panasonic Corp | 文字列受信装置、文字列転送装置、文字列送受信システム、コンテンツ受信端末向けシステムlsi、名簿共有システム、名簿共有方法およびコンテンツ推薦方法 |
KR101100848B1 (ko) * | 2010-04-30 | 2012-01-02 | 정규홍 | 어휘 데이터베이스를 생성하는 방법 및 그 어휘 데이터베이스를 저장하는 컴퓨터 판독가능 매체 |
US9852124B2 (en) * | 2015-09-02 | 2017-12-26 | International Business Machines Corporation | Dynamic portmanteau word semantic identification |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03268062A (ja) * | 1990-03-19 | 1991-11-28 | Fujitsu Ltd | 機械翻訳電子メール装置における私用単語の登録装置 |
US5497319A (en) * | 1990-12-31 | 1996-03-05 | Trans-Link International Corp. | Machine translation and telecommunications system |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
JPH10269224A (ja) * | 1997-03-27 | 1998-10-09 | Sumitomo Metal Ind Ltd | 電子辞書作成支援システム及び電子辞書作成支援方法 |
JPH1196177A (ja) * | 1997-09-22 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 |
JP2000148748A (ja) | 1998-11-13 | 2000-05-30 | Nec Corp | 仮名漢字変換及び画像検索表示システム |
JP2000227923A (ja) | 1999-02-08 | 2000-08-15 | Mitsubishi Electric Corp | 情報検索システム |
-
2001
- 2001-08-14 JP JP2001245895A patent/JP3669627B2/ja not_active Expired - Fee Related
- 2001-10-08 EP EP01308590A patent/EP1211615A3/en not_active Withdrawn
- 2001-10-12 KR KR1020010063047A patent/KR20020043158A/ko not_active Application Discontinuation
- 2001-10-22 US US10/039,546 patent/US6961464B2/en not_active Expired - Lifetime
- 2001-11-30 CN CN01142478A patent/CN1356652A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP1211615A2 (en) | 2002-06-05 |
US6961464B2 (en) | 2005-11-01 |
KR20020043158A (ko) | 2002-06-08 |
JP2002229999A (ja) | 2002-08-16 |
JP3669627B2 (ja) | 2005-07-13 |
US20020118876A1 (en) | 2002-08-29 |
EP1211615A3 (en) | 2004-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8271512B2 (en) | Presenting digitized content on a network using a cross-linked layer of electronic documents derived from a relational database | |
US20010053252A1 (en) | Method of knowledge management and information retrieval utilizing natural characteristics of published documents as an index method to a digital content store | |
US20100316302A1 (en) | Adaptive Image Maps | |
US8565526B2 (en) | Method and system for converting image text documents in bit-mapped formats to searchable text and for searching the searchable text | |
US9785707B2 (en) | Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text | |
US7738702B2 (en) | Image processing apparatus and image processing method capable of executing high-performance processing without transmitting a large amount of image data to outside of the image processing apparatus during the processing | |
JPH02284196A (ja) | キヤラクタ・データとデジタル・イメージのマージのための方法、装置、及びシステム並びにフオーム作成方法 | |
CN101373468A (zh) | 一种加载词库的方法、字符输入的方法和输入法*** | |
JPH11345201A (ja) | 情報提供システム及び情報提供ネットワークシステム | |
WO2001061517A1 (en) | System and method for converting information on paper forms to electronic data | |
CN1838148A (zh) | 电子设备和记录介质 | |
CN110659310A (zh) | 一种车辆信息的智能搜索方法 | |
US20010002471A1 (en) | System and program for processing special characters used in dynamic documents | |
US20060167899A1 (en) | Meta-data generating apparatus | |
JPH08147446A (ja) | 電子ファイリング装置 | |
US7379596B2 (en) | System and method for personalization of handwriting recognition | |
CN1356652A (zh) | 用于诸如作为词转换***的字典的数据库编制方法 | |
US7286722B2 (en) | Memo image managing apparatus, memo image managing system and memo image managing method | |
CN1371043A (zh) | 数码操作*** | |
CN101741922B (zh) | 一种少数民族文字域名的注册服务器和方法 | |
CN1809250A (zh) | 产生自动化布线宏的***及其方法 | |
CN1496062A (zh) | 网络中智能信息处理的方法和*** | |
CN1462966A (zh) | 简繁体中文内码转换方法以及*** | |
Hwang et al. | I-WAP: an intelligent WAP site management system | |
CN1196314C (zh) | 元信息处理 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |