CN100361493C - 文档处理装置和文档处理方法 - Google Patents

文档处理装置和文档处理方法 Download PDF

Info

Publication number
CN100361493C
CN100361493C CNB2005100554130A CN200510055413A CN100361493C CN 100361493 C CN100361493 C CN 100361493C CN B2005100554130 A CNB2005100554130 A CN B2005100554130A CN 200510055413 A CN200510055413 A CN 200510055413A CN 100361493 C CN100361493 C CN 100361493C
Authority
CN
China
Prior art keywords
data
document
project
name data
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100554130A
Other languages
English (en)
Other versions
CN1738352A (zh
Inventor
佐藤直子
田川昌俊
田宗道弘
伊藤笃
田代洁
增市博
刘绍明
石川恭辅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN1738352A publication Critical patent/CN1738352A/zh
Application granted granted Critical
Publication of CN100361493C publication Critical patent/CN100361493C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文档处理装置、文档处理方法及记录其程序的存储介质。本发明提供的文档处理装置包括:输入单元,用于输入与文档的页面的图像相对应的页面图像数据;提取单元,其分析所述输入单元输入的页面图像数据,确定与该页面图像数据相对应的文档中包含的每个项目的内容,并提取项目数据,所述项目数据是表示所述内容的字符串;产生单元,用于连接由提取单元提取的项目数据并产生名称数据,所述名称数据是表示将被附加于所述文档的名称的字符串;和写入单元,其将所述产生单元产生的名称数据与由输入单元输入的页面图像数据相关联并将所述名称数据和页面图像数据写入存储器。

Description

文档处理装置和文档处理方法
技术领域
本发明涉及用于对纸件文档进行数字化并进行存储的技术,更加具体地说涉及这样的对纸件文档进行数字化和存储的技术,其为每篇纸件文档附加唯一的名称。
背景技术
纸件文档(此后也称作“文档”)是用于传播和记录信息的重要介质,但其具有的问题包括需要用于存储的空间例如档案库。此外,当将信息记录在纸件文档中并进行存储时,如果日后需要记录在那些纸件文档中的信息,则必须在存储于文档库和类似地方的多个纸件文档中找出记录有期望信息的纸件文档。换句话说,从操作效率角度考虑,在纸件文档中记录和存储信息是不理想的。
在这样的背景下,对纸件文档进行数字化和存储就变得非常普遍。具体地,使用扫描仪或类似装置读取与纸件文档中的图像相对应的图像、将与每个纸件文档的图像相应的图像数据(之后称作“页面图像数据”)转换成文件并将这些文件存储在类似硬盘的存储设备中已经变得非常普遍。
然而,当将文件写入到类似硬盘的设备时,需要为每个文件附加一个唯一的名称(此后也称作“文件名”),该过程一般是如下进行的。可根据用户预先指定的信息(例如,使用键盘或类似装置输入的信息,或者手工输入的信息)确定文件名,可使用缺省的字符串加序列号例如“Scan1,Scan2,……”或者使用表示扫描日期或时间的字符串来产生文件名。
然而,如果用户被迫预先确定文件名,则这将出现这样的问题:当对大量纸件文档成批数字化时将给用户带来非常大的负担。另一方面,如果使用序列号、日期等自动产生文件名,则即使在对大量纸件文档进行数字化时也将不会出现该问题。然而,因为以这种方式附加的文件名并不表示(例如)与所述文件相对应的纸件文档的内容,所以在日后检索包含所需信息的文件时会发生需要检查每个文件的内容这样的极大不便。
发明内容
本发明就是鉴于上面的情形做出的,并提供了一种这样的技术,其允许根据其内容为纸件文档附加名称,而且在对纸件文档进行数字化和保存时不会给用户带来负担。
为了解决上述问题,本发明提供了一种文档处理装置,该文档处理装置包括:输入单元,其用于输入与文档的页面的图像相对应的页面图像数据;分析单元,其分析通过所述输入单元输入的所述页面图像数据,并产生表示所述文档的页面的文本数据;提取单元,其从由分析单元产生的所述文本数据中提取预定的项目数据,所述项目数据是字符串;产生单元,其用于链接由提取单元提取的项目数据并产生名称数据,所述名称数据是表示将被附加于所述文档上的名称的字符串;和写入单元,其将由产生单元产生的名称数据和由输入单元输入的页面图像数据相关联并将名称数据和页面图像数据写入存储器。
根据该文档处理装置,与文档中的页面的图像相对应的页面图像数据和与所述文档的内容相对应的名称数据被彼此关联并被写入到所述存储装置。
本发明还提供了一种文档处理方法,该文档处理方法包括:输入与文档的页面的图像相对应的页面图像数据;分析输入的页面图像数据以产生表示所述文档的页面的文本数据;确定与所分析的页面图像数据相对应的文档中包含的每个项目的内容;从所述文本数据中提取预定的项目数据,所述项目数据是表示所确定的内容的字符串;通过链接所提取的项目数据产生名称数据,所述名称数据是表示将被附加于所述文档的名称的字符串;和将所产生的名称数据与输入的页面图像数据彼此相关联地写入第一存储器。
附图说明
下面将根据附图详细说明本发明的实施例,在附图中:
图1为表示根据本发明第一实施例的配有文档处理装置110的文档数字化***的整体结构的一个示例的方框图;
图2为表示文档处理装置110的硬件结构的一个示例的示图;
图3为表示通过文档处理装置110的控制单元200按照纸件文档数字化软件执行的纸件文档数字化处理的流程的流程图;
图4为表示由文档处理装置110提取的项目数据和根据该项目数据产生的名称数据之间的关系的表;
图5为表示通过文档处理装置的控制单元200按照第二变型例执行的纸件文档数字化处理的流程的流程图;
图6为表示按照第二变型例的文档处理装置的非易失性存储单元220b中的目录结构的一个示例的视图;
图7表示存储在根据第三变型例的文档处理装置的非易失性存储单元220b中的重要性等级表的一个示例;
图8为表示由根据第三变型例的文档处理装置的控制单元200执行的纸件文档数字化处理的流程的流程图;
图9表示存储在根据第四变型例的文档处理装置的非易失性存储单元220b中的项目列表的一个示例;
图10为表示由依据第四变型例的文档处理装置的控制单元200执行的纸件文档数字化处理的流程的流程图。
具体实施方式
下面将参照附图说明根据本发明的实施例。
A:结构
图1为表示根据本发明第一实施例的配有文档处理装置110的文档数字化***10的结构的一个示例的方框图。图1中的图像读取装置120例如是配有ADF(自动文档进给器)或其它类型的自动纸张进给机构的扫描仪装置,其一次一页地读取设置在ADF中的纸件文档并将与读取的图像相应的页面图像数据通过通信线路130(例如LAN(局域网))传送给文档处理装置110。注意,虽然在本实施例中描述了通信线路130为LAN这样一种情况,当然它也可以包括WAN(广域网)、互联网,等等。还应注意,虽然在本实施例中描述了将文档处理装置110和图像读取装置120构造为单独的硬件部件,但它们当然也可以构造为单个的硬件部件。在这样一个实施例中,通信线路130为连接单个硬件部件内的文档处理装置110和图像读取装置120的内部总线。
图1中的文档处理装置110用于将从图像读取装置120传送来的页面图像数据转换成文件、对文件附加唯一的名称、并存储和积累文件,其具有如图2所示的结构。如图2所示,文档处理装置110包括控制单元200、通信接口单元210、存储单元220和总线230,所述总线230用于在这些组成部件之间对数据的传送和接收起媒介作用。
控制单元200例如是CPU(中央处理单元),其通过执行存储在下述的存储单元220中的各种软件程序来控制文档处理装置110的各个单元。通信接口单元210通过通信线路130与图像读取装置120相连接,并通过通信线路130接收从图像读取装置120发送的页面图像数据并将它传送给控制单元200。换句话说,通信接口单元210用作用于输入从页面读取装置120发送的页面图像数据的输入单元。
如图2所示,存储单元220包括易失性存储单元220a和非易失性存储单元220b。易失性存储单元220a例如是RAM(随机存取存储器),并被用作控制单元200的工作区域,所述控制单元按照后文将描述的各种软件程序进行操作,所述易失性存储单元220a用作暂时存储从通信接口单元210传送来的页面图像数据的缓冲器。相反,非易失性存储单元220b例如是硬盘,其将页面图像数据转换成文件,并存储和积聚那些文件。注意,在本实施例中描述了输入给文档处理装置110的页面图像数据被写入到设置在文档处理装置110中的存储单元这样一种情况,但也能够将页面图像数据逐个文档地转换成文件,并将那些文件写入到与文档处理装置110分立的存储装置上。使控制单元200实现根据本实施例的文档处理装置110的指定功能的软件被存储在非易失性存储单元220b中。存储在非易失性存储单元220b中的软件的示例包括使控制单元200能够实现操作***(“OS”)的OS软件和纸件文档数字化软件。纸件文档数字化软件为这样的软件:其根据页面图像数据的内容产生表示附加给包括与页面图像数据相应的页面的纸件文档的名称的名称数据,将该名称数据和该页面图像数据相关联,并使控制单元200将其写入到非易失性存储单元200b中。下面说明通过执行这些软件程序提供给控制单元200的功能。
当文档处理装置110的电源(未示出)开启时,控制单元200首先从非易失性存储单元220b读取OS软件。当根据OS软件进行操作并实现OS时,控制单元200被提供了控制文档处理装置110的各个单元的功能,从非易失性存储单元220b读取其它软件并执行的功能等等。根据本实施例,只要OS软件的执行完成并且OS被实现时,控制单元200就从非易失性存储单元220b读取纸件文档数字化软件并执行它。图3为表示根据纸件文档数字化软件操作的控制单元200执行的纸件文档数字化处理的流程的流程图。如图3所示,为按照纸件文档数字化软件操作的控制单元200提供了下述三个功能。
第一个功能是用于分析通过通信接口单元210输入的并存储在易失性存储单元220a中的页面图像数据的内容并以字符串的形式提取项目数据,所述字符串表示与所述页面图像数据相应的页面中所列举的每个项目的内容。第二个功能是产生功能,用于将通过提取功能提取的项目数据链接起来并以表示附加给页面图像数据的名称的字符串的形式产生名称数据。第三个功能是存储功能,用于将产生功能产生的名称数据与页面图像数据相关联并将它们写入非易失性存储单元220b来存储该名称数据和该页面数据。
如上所述,根据本实施例的文档处理装置的硬件机构与普通计算机装置的结构相同,并且控制单元200根据存储在非易失性存储单元220b中的各种软件程序所进行的操作实现了根据本发明的文档处理装置的特定功能。因此,虽然在本实施例中描述的是使用软件模块实现根据本发明的文档处理装置的特定功能这样一种情况,但也可以使用提供这些功能的硬件模块来构造根据本发明的文档处理装置。具体地,可通过使用实现下述单元的功能的硬件模块,并如图3中所示的流程图所示地联合各硬件协同操作来构造根据本发明的文档处理装置:输入单元,页面图像数据被从图像读取装置120输入到所述输入单元中;提取单元,所述提取单元用于提供提取功能;产生单元,所述产生单元用于提供产生功能;和写入单元,所述写入单元使由产生单元产生的名称数据与输入给输入单元的页面图像数据相关联并将其写入硬盘或其它存储装置。
B:操作
下面将参照附图说明用于说明文档处理装置110的特征特性的那些操作。
首先,当用户在图像读取装置120的ADF上放置纸件文档并执行预定的操作(例如按下设置在图像读取装置120的操作单元上的开始按扭)时,与纸件文档中的页面相对应的图像就被图像读取装置120读取,并且通过通信线路130将与该页面的图像相应的页面图像数据从图像读取装置120发送给文档处理装置110。
当通过通信接口单元210输入了页面图像数据时,文档处理装置110的控制单元200通过以页面图像数据输入的顺序将其写入易失性存储单元220a来存储该页面图像数据,直到纸件文档中的所有页面的页面图像数据都被输入。一旦输入了所有页面的页面图像数据,控制单元200根据图3中所示的流程图通过产生表示将被附加给纸件文档的名称的名称数据、使该名称数据与存储在易失性存储单元220a中的页面图像数据相关联并将其写入到非易失性存储单元220b来数字化所述纸件文档。下面参照图3说明由控制单元200执行的操作。
图3为表示由控制单元200执行的纸件文档数字化处理的流程的流程图。如图3所示,控制单元200通过执行语言分析、版面分析(layoutanalysis)或类似操作来分析存储在易失性存储单元220a中的所有页面图像数据的内容,然后提取表示与页面图像数据相对应的页面中包含的每个项目的内容的项目数据(步骤SA1)。下面是对输入了旅行费用清单的纸件文档(此后称作“文档A”)的一个页面相应的页面图像数据(此后称作“页面图像数据A“)并且提取了图4A中所示的项目数据的情况的说明。
接着,控制单元200将在步骤SA1中提取的项目数据链接起来并产生表示将附加给文档A的名称的名称数据(步骤SA2)。根据本实施例,因为图4A中所示的项目数据已经在步骤SA1中进行了提取,所以对于文档A,在步骤SA2产生图4B中所示的名称数据。
然后,控制单元200将页面图像数据A与在步骤SA2中产生的名称数据相关联并将其写入非易失性存储单元220b来存储数据(步骤SA3)。具体地说,控制单元200将页面图像数据A写入非易失性存储单元220b的空闲区域,与此同时将名称数据与写入了页面图像数据A的区域的开始地址或表示开始地址的数据(例如i-节点号)相关联,并将名称数据和开始地址写入到预定的管理文件(例如路径文件或i-节点表)中,由此存储该页面图像数据。注意,虽然在本操作示例中说明了将被数字化的纸件文档包括一个页面的情况,但在将被数字化的纸件文档包括多个页面的情况下,在被数字化之后,对应于多个页面的页面图像数据被写入空闲区域中也是可能的。
如上所述,利用根据本实施例的文档处理装置110,在用户没有执行任何特殊操作的情况下,就能使与纸件文档中的页面相应的页面图像数据和与纸件文档的内容相应的名称数据相关联地存储起来。根据本实施例的文档处理装置110具有这样的效果:在数字化和保存纸件文档时,它能够对文档进行数字化并根据文档内容对其附加名称,同时减小用户的负担。
C:变型例
上面详细说明了本发明的一个实施例,但是当然能够如下所述地添加变化。
(C-1)第一变型例
上面的实施例描述了在图像读取装置120的ADF中放置单一纸件文档的情况。然而,也可以在ADF中设置多个纸件文档,附加与多个纸件文档中的每一个的内容相应的名称,并对这些文档进行数字化。这可通过让文档处理装置110检测每个纸件文档之间的边界并在检测到边界之前对存储在易失性存储单元220a中的纸件文档进行数字化处理(参见图3)来实现。使文档处理装置110检测文档边界的方法的示例包括***表示文档之间的文档边界的预定页(此后称作“边界页”)并根据那个边界页上的图像来检测文档边界的检测文档边界的方法,以及表示最后页面的标记被附加至每个文档最后页面上的空白处并通过检测与那个标记相应的图像来检测文档边界的检测文档边界的方法。
(C-2)第二变型例
在上述的实施例中,描述了通过页面图像数据分析获得的所有项目数据都被链接并且产生表示附加给页面图像数据的名称的名称数据这样一种情况。然而,也可以在排除了页面图像数据分析获得的项目数据中的表示代表与页面图像数据相应的文档的类型的项目内容的项目数据(此后称作“类型数据”)之后产生名称数据。这可通过预先在存储单元220中存储类型数据、与此同时使控制单元200执行如图5中所示的纸件文档数字化处理而不是图3中所示的纸件文档数字化处理来实现。
图5中所示的纸件文档数字化处理与图3中所示的纸件文档数字化处理的不同之处在于:在步骤SB1中,将在步骤SA1中提取的项目数据中的与类型数据相匹配的项目数据排除之后才执行步骤SA2中的处理并产生名称数据。下面对此进行详细说明,在图5的步骤SB1中,控制单元200为在步骤SA1中提取的每个项目数据确定它是否与存储在非易失性存储单元220b中的类型数据相匹配并删除相匹配的项目数据。这使得能够在排除与类型数据相匹配的项目数据之后产生名称数据。
在排除与类型数据相匹配的项目数据之后产生名称数据的原因如下。相同类型的文档总是包括相同的类型数据,所以在名称数据中包括这种类型数据并不会对辨别特性起作用。此外,这种类型数据一般用作文件夹名,用于在根据类型进行分类和存储文档时执行相关的分类,如图6所示,所以在名称数据中包括这种类型数据是多余的。该变型例具有这样的效果,即其能够排除对鉴别相同类型的文档之间的特性不起作用的项目数据并产生无冗余的名称数据。
(C-3)第三变型例
在上述的实施例中,描述了链接由页面图像数据分析获得的所有项目数据并且产生表示附加给页面图像数据的名称的名称数据。然而,因为每个OS一般都预先提供有关于可附加给文件的名称的字符数量(字节数)的上限值,所以在通过链接项目数据产生名称数据时当然能够预先确定进行链接的项目数据单元的数量。更加具体地说,可以确定文档中的每个项目的重要等级,并且通过按照重要性等级的升序或降序仅仅链接预定数量的重要性等级的通过页面图像数据分析所获得的项目数据单元来产生名称数据。这可如下地实现。
首先,将图7中所示的重要性等级表存储在文档处理装置的非易失性存储单元220b中。表示文档中的项目的重要性等级的重要性等级数据针对每个项目存储在重要性等级表中,并且重要性等级数据值越高,那个项目就越重要。注意,在本实施例中描述了在非易失性存储单元220b中预先存储一个重要性等级表这样一种情况,但是当然也能够针对不同类型的文档存储不同的重要性等级表。一个原因是对于不同类型的文档,即使相同项目也可以有不同的重要性等级。
如果使控制单元200执行图8中所示的纸件文档数字化处理,而不是图3中所示的纸件文档数字化处理,那么通过仅仅按照重要性等级降序地链接页面图像数据分析所获得的预定数量的项目数据单元来产生名称数据。图8中的流程图和图3中的流程图的不同之处在于:提供步骤SC1,用于从在步骤SA1提取的项目数据中仅选择预定数量的表示具有高重要性等级的项目内容的项目数据单元,并且通过在上述的步骤SA2中链接在步骤SC1中选择的项目数据来产生名称数据。该过程的更详细的描述是,在图7的步骤SC1中,控制单元200查阅存储在重要性等级表(参见图7)中的内容,对在步骤SA1中提取的每个项目数据单元指定与该项目数据单元相应的项目的重要等级,并按照从最高重要性等级开始的顺序提取仅预定数量的项目数据单元。例如,如果预定的数量是3,那么按照从最高重要性开始的顺序链接三项数据单元来产生名称数据,所以如果提取了图4A中所示的项目数据,那么就产生了图7B中所示的名称数据。注意本变型例已经特意描述了这样一种情况,其中按照从相应项目的最高重要性等级开始的顺序提取了在步骤SA1中提取的项目数据单元中的仅预定数量的项目数据单元,但是当然也可以按照从相应项目的最低重要性等级开始的顺序对预定数量的项目数据单元进行提取。如此做使得可通过按照从最低重要性等级开始的顺序链接在上面的步骤SA1中提取的项目数据单元中的仅预定数量的项目数据单元来产生名称数据。
(C-4)第四变型例
在上面的实施例中,描述了未预先将页面图像数据存储在文档处理装置110的非易失性存储单元220b中的情况。然而,当然能够将页面图像数据附加地写入到已经写入页面图像数据的非易失性存储单元220b中。然而,在这种情况下,需要确保已经存储在非易失性存储单元220b中的页面图像数据的名称与新存储的页面数据的名称不同,这可通过如下地修改上述实施例中所述的文档处理装置来实现。
首先,图9中所示的项目列表与每个页面图像数据相关联并被存储在非易失性存储单元220b中。该项目列表与表示对应于该项目列表的页面图像数据相对应的文档中的项目的数据(例如表示那个项目的名称的字符串:下面称作为“项目识别符”)相对应地存储了这样的数据,该数据用于表明用以表示由项目识别符指示的项目的内容的项目数据是否已经用于产生名称数据,该数据例如为值为0或1的标记(此后称之为使用状态标记)。例如,在图9所示的项目列表中,其使用状态标记值为0的项目识别符表明与这些项目标识符的内容相关联的项目数据未被用于产生名称数据。换句话说,通过查阅在项目列表中存储的内容,能够知道对应于与项目列表相关联的页面图像数据的文档中的哪些项或这些项的哪些内容在页面图像数据的名称中有所反映。
图10为表示由根据该变型例的文档处理装置的控制单元200执行的纸件文档数字化处理的流程的流程图。图10中所示的纸件文档数字化处理与图3中所示的纸件文档数字化处理的不同之处在于:执行了用于判断在步骤SA2产生的名称数据是否与已经存储在非易失性存储单元220b中的名称数据相匹配的处理(图10:步骤SD1),以及当步骤SD1中的判断结果为“是”时执行用于重新生成在步骤SA2中产生的名称数据的处理(图10:步骤SD2)。
下面更加详细地描述该过程。在图10的步骤SD2中,控制单元200查阅项目列表,该项目列表与在步骤SD1中被判断为匹配的名称数据相关联地存储在非易失性存储单元220b中,并指出还未被用于产生该名称数据的项(此后称之为“未使用项”)。接着,控制单元200通过只链接在步骤SA1提取的项目数据中的表示未使用项的内容的项目数据来重新生成名称数据。这使得即使在页面图像数据已经存储在非易失性存储单元220b中的情况下也能够避免多次附加相同的名称。注意,在本变型例中,表述了仅使用与未使用项目相对应的项目数据来重新生成名称数据的情况,但也能够通过将与未使用项目相应的项目数据加入到已产生的名称数据中来重新生成名称数据,或者通过用与未使用项目相对应的部分项目数据代替用于产生该名称数据的部分项目数据来重新生成名称数据。换句话说,任何事都是可能的,只要使用与未使用项目相应的项目数据来重新生成名称数据和产生与现有的名称数据不同的名称数据。在本变型例中,已经描述了这样一种情况,其中表示将被附加于新存储的页面图像数据的名称的名称数据被重新生成,但也可以更新存储在非易失性存储器220b中的名称数据(即,表示附加于已经存储在非易失性存储单元220b中的页面图像数据的名称的名称数据)。
(C-5)第五变型例
在上述的实施例中,描述了这样一种情况,即其中用于使控制单元200实现根据本发明的文档处理装置的特定功能的软件被预先存储在非易失性存储单元220b中。然而,当然也能够将所述软件存储在计算机可读的存储介质中,例如CD-ROM(光盘-只读存储器)和DVD(数字万用盘),并使用该存储介质将所述软件安装到普通的计算机装置中。其具有这样的效果,即其能够使普通计算机装置用作根据本发明的文档处理装置。
如上所述,本发明提供了一种文档处理装置,该文档处理装置包括:用于输入与文档的页面的图像相对应的页面图像数据的输入单元;分析单元,其分析通过所述输入单元输入的所述页面图像数据,并产生表示所述文档的页面的文本数据;提取单元,其从由所述分析单元产生的所述文本数据中提取预定的项目数据,所述项目数据是字符串;产生单元,其用于链接由提取单元提取的项目数据并产生名称数据,所述名称数据是表示将被附加于所述文档的名称的字符串;和写入单元,其将通过产生单元产生的名称数据与通过输入单元输入的页面图像数据相关联并将该名称数据和该页面图像数据写入存储器。
根据该文档处理装置,与文档中的页面的图像相对应的页面图像数据和与所述文档的内容相对应的名称数据被彼此关联并被写入到所述存储装置。
根据本发明的另一个实施例,所述文档处理装置进一步包括存储类型数据的类型数据存储器,所述类型数据为表示文档类型的字符串,并且所述产生单元从由提取单元提取的项目数据中排除与存储在类型数据存储器中的类型数据相匹配的项目数据来产生名称数据。根据该实施例,名称数据是在排除类型数据之后产生的,所述类型数据为在相同类型的文档中共同列举的并且是在将这些文档与其它类型的文档分类时所使用的项目的项目数据。其具有这样的效果,即其能够从名称数据中排除在相同类型的文档中所共同包含的项目的项目数据,或者换句话说,能够在排除缺少关于这些相同类型文档的差别特性的项目数据之后产生名称数据。
根据另一个实施例,所述文档处理装置进一步包括:重要数据存储器,其用于存储表示在文档中出现的每个项目的重要等级的重要性等级数据,并且所述产生单元根据存储在重要性等级数据存储器中的重要性等级数据为与项目数据对应的每个项目指定重要性等级,并通过按照重要性等级升序或降序链接预定数量的项目数据来产生名称数据。根据本实施例,产生了反映文档中包含的每个项目的重要性等级的名称数据。其具有这样的效果,即通过查阅与页面图像数据相关存储的名称数据能够知道在与页面图像数据相对应的文档中列举的内容的重要性等级,并且还可以防止增加名称数据的数据长度。
根据另一个实施例,所述文档处理装置还包括:名称数据存储器,用于存储由所述产生单元为所述文档产生的名称数据和列举文档的每个页面中包含的项目的项目列表,所述名称数据和项目列表与对应于文档页面的页面图像数据相关联地存储;如果根据由输入单元输入的页面图像数据产生的名称数据与存储在名称数据存储器中的其它名称数据相匹配,则所述产生单元根据与所述其它名称数据相关联的并被存储在名称数据存储器中的项目列表指定表示未使用项目的内容的项目数据,所述表示未使用项目的内容的项目数据为由所述提取单元提取的且在产生所述其它名称数据时未被使用的项目数据,并且所述产生单元使用与所述未使用项目相对应的项目数据重新生成所述其它名称数据。该实施例具有这样的效果,即其能够确保被存储的新页面图像数据所附加的名称数据与附加给其页面图像数据已经存储在存储单元中的其它文档的名称数据不同,或者换句话说,能够避免附加给文档的名称数据产生重复。
根据另一实施例,所述文档处理装置进一步包括:名称数据存储器,用于存储由所述产生单元为所述文档产生的名称数据和列举文档的每个页面中包含的项目的项目列表,所述名称数据和项目列表与对应于文档页面的页面图像数据相关联地存储;识别单元,用于识别由产生单元产生的名称数据是否为与存储在名称数据存储器中的任何一个名称数据相匹配的重复名称数据;确定单元,用于在所述由产生单元产生的名称数据已经被识别单元识别为是重复名称数据的情况下,根据与所述由产生单元产生的名称数据相关联地存储在名称数据存储器中的项目列表确定未使用项目,所述未使用项目是在产生所述名称数据时未使用的项目;和重写单元,用于以使用由确定单元确定的未使用项的项目数据产生的新名称数据重写已经由识别单元将其识别为是重复名称数据的所述由产生单元产生的名称数据。本实施例也具有这样的效果,即其能够没有失败地避免在附加给文档的名称数据中产生重复。
此外,本发明还提供了一种文档处理方法,该文档处理方法包括:输入与文档的页面的图像相对应的页面图像数据;分析输入的页面图像数据以产生表示所述文档的页面的文本数据;从所述文本数据中提取预定的项目数据,所述项目数据是字符串;通过链接所提取的项目数据产生名称数据,所述名称数据是表示将被附加于所述文档的名称的字符串;和将产生的名称数据与输入的页面图像数据彼此相关联地写入第一存储器。
根据另一个实施例,所述文档处理方法进一步包括存储类型数据,所述类型数据为表示类型数据存储器中的文档类型的字符串,并且在产生名称数据时,不使用与存储在类型数据存储器中的类型数据相匹配的项目数据。
根据另一个实施例,所述文档处理方法进一步包括:在重要性等级数据存储器中存储重要性等级数据,所述重要性等级数据表示文档中出现的每个项目的重要性等级,并且在产生名称数据时,根据存储在重要性等级数据存储器中的重要性等级数据确定与项目数据对应的每个项目的重要性等级,并按照重要性等级升序或降序链接预定数量的项目数据。
根据另一个实施例,所述文档处理方法还包括:在名称数据存储器中存储为所述文档产生的名称数据和列举文档的每个页面中包含的项目的项目列表,所述名称数据和项目列表与对应于文档页面的页面图像数据相关联地存储;并且如果根据输入的页面图像数据产生的名称数据与存储在名称数据存储器中的其它名称数据相匹配,则根据与所述其它名称数据相关联的并被存储在名称数据存储器中的项目列表确定其它项目数据,所述其它项目数据是提取的项目数据并且表示在产生所述其它名称数据时未被使用的项目,并使用与所述未被使用的项目相对应的所述其它项目数据重新生成所述其它名称数据。
根据另一实施例,所述文档处理方法进一步包括:在名称数据存储器中存储为所述文档产生的名称数据和列举文档的每个页面中包含的项目的项目列表,所述名称数据和项目列表与对应于文档页面的页面图像数据相关联地存储;确定所产生的名称数据是否为与存储在名称数据存储器中的任何一个名称数据相匹配的重复名称数据;当确定所述所产生的名称数据为重复名称数据时,根据与所述所产生的名称数据相关联地存储在名称数据存储器中的项目列表确定未使用项目,这种未使用项目是在产生所述名称数据时未使用的项目;和用使用被确定为未使用项目的项目数据产生的新名称数据重写已经被确定为是重复名称数据的所述所产生的名称数据。
为了解释和说明的目的,前面已经给出了本发明的实施例的说明。但这些实施例并不是穷举的,也不是用于将本发明限制在所公开的精确形式。很明显,许多修改和变化对于本领域技术人员将是显而易见的。所述各实施例是被选择说明的,以最好地解释本发明的原理及其实际应用,以便由此能够使本领域技术人员理解本发明的各个实施例及其各种修改,以适合于特定的预期应用,本发明的范围由下述的权利要求及其等同所限定。
本申请要求于2004年8月19日申请的日本专利申请第2004-239479号的优先权,其全部内容通过引用而被并入本文中。

Claims (10)

1.一种文档处理装置,该文档处理装置包括:
输入单元,其用于输入与文档的页面的图像相对应的页面图像数据;
分析单元,其分析通过所述输入单元输入的所述页面图像数据,并产生表示所述文档的页面的文本数据;
提取单元,其从由所述分析单元产生的所述文本数据中提取预定的项目数据,所述项目数据是字符串;
产生单元,其用于链接由所述提取单元提取的项目数据并产生名称数据,所述名称数据是表示将被附加于所述文档的名称的字符串;和
写入单元,其将通过所述产生单元产生的名称数据与通过输入单元输入的页面图像数据相关联并将所述名称数据和页面图像数据写入存储器。
2.根据权利要求1所述的文档处理装置,进一步包括:
类型数据存储器,其用于存储类型数据,所述类型数据为表示文档类型的字符串;
其中所述产生单元使用所述提取单元提取的项目数据中的与存储在所述类型数据存储器中的类型数据相匹配的项目数据之外的项目数据来产生名称数据。
3.根据权利要求1所述的文档处理装置,进一步包括:
重要性等级数据存储器,其用于存储表示在文档中出现的每个项目的重要性等级的重要性等级数据;
其中所述产生单元根据存储在所述重要性等级数据存储器中的重要性等级数据为与项目数据对应的每个项目指定重要性等级,并通过按照重要性等级的升序或降序链接预定数量的项目数据来产生名称数据。
4.根据权利要求1所述的文档处理装置,还包括:
名称数据存储器,用于存储由所述产生单元为所述文档产生的名称数据和列举所述文档的每个页面中包含的项目的项目列表,所述名称数据和项目列表与对应于文档的页面的页面图像数据相关联地存储;
其中,如果根据通过输入单元输入的页面图像数据产生的名称数据与存储在名称数据存储器中的其它名称数据相匹配,则所述产生单元根据与所述其它名称数据相关联的并被存储在名称数据存储器中的项目列表确定表示未使用项目的内容的项目数据,所述表示未使用项目的内容的项目数据为由所述提取单元提取的且是在产生所述其它名称数据时未被使用的项目数据,并且所述产生单元使用与所述未使用项目相对应的项目数据重新生成所述其它名称数据。
5.根据权利要求1所述的文档处理装置,进一步包括:
名称数据存储器,用于存储由所述产生单元为所述文档产生的名称数据和列举文档的每个页面中包含的项目的项目列表,所述名称数据和项目列表与对应于文档页面的页面图像数据相关联地存储;
识别单元,用于识别由产生单元产生的名称数据是否是与存储在名称数据存储器中的任何一个名称数据相匹配的重复名称数据;
确定单元,用于在所述由产生单元产生的名称数据已经被所述识别单元识别为是重复名称数据的情况下,根据与所述由产生单元产生的名称数据相关联地存储在名称数据存储器中的项目列表确定未使用项目,所述未使用项目是在产生名称数据时未使用的项目;和
重写单元,用于用使用由所述确定单元确定的未使用项目的项目数据产生的新的名称数据来重写已经由识别单元将其识别为是重复名称数据的所述由产生单元产生的名称数据。
6.一种文档处理方法,该文档处理方法包括:
输入与文档的页面的图像相对应的页面图像数据;
分析输入的页面图像数据以产生表示所述文档的页面的文本数据;
从所述文本数据中提取预定的项目数据,所述项目数据是字符串;
通过链接所提取的项目数据产生名称数据,所述名称数据是表示将被附加于所述文档的名称的字符串;和
将所产生的名称数据与输入的页面图像数据彼此相关联地写入第一存储器。
7.根据权利要求6所述的文档处理方法,进一步包括:
存储类型数据,所述类型数据为表示类型数据存储器中的文档类型的字符串;
其中,在产生所述名称数据时,不使用与存储在类型数据存储器中的类型数据相匹配的项目数据。
8.根据权利要求6所述的文档处理方法,进一步包括:
在重要性等级数据存储器中存储重要性等级数据,所述重要性等级数据表示文档中出现的每个项目的重要性等级;
其中在产生名称数据时,根据存储在重要性等级数据存储器中的重要性等级数据确定与项目数据对应的每个项目的重要性等级,并按照重要性等级的升序或降序链接预定数量的项目数据。
9.根据权利要求6所述的文档处理方法,还包括:
在名称数据存储器中存储为所述文档产生的名称数据和列举文档的每个页面中包含的项目的项目列表,所述名称数据和项目列表与对应于文档页面的页面图像数据相关联地存储;
其中,如果根据输入的页面图像数据产生的名称数据与存储在名称数据存储器中的其它名称数据相匹配,则根据与所述其它名称数据相关联的并被存储在名称数据存储器中的项目列表确定其它项目数据,所述其它项目数据是提取的项目数据并且表示在产生所述其它名称数据时未被使用的项目,并且使用与所述未被使用的项目相对应的所述其它项目数据重新生成所述其它名称数据。
10.根据权利要求6所述的文档处理方法,进一步包括:
在名称数据存储器中存储为所述文档产生的名称数据和列举所述文档的每个页面中包含的项目的项目列表,所述名称数据和项目列表与对应于文档页面的页面图像数据相关联地存储;
确定所产生的名称数据是否是与存储在名称数据存储器中的任何一个名称数据相匹配的重复名称数据;
当确定所述所产生的名称数据为重复名称数据时,根据与所述所产生的名称数据相关联地存储在名称数据存储器中的项目列表确定未使用项目,所述未使用项目是在产生所述名称数据时未使用的项目;和
用使用所确定的未使用项目的项目数据产生的新名称数据来重写已经被确定为是重复名称数据的所述所产生的名称数据。
CNB2005100554130A 2004-08-19 2005-03-17 文档处理装置和文档处理方法 Expired - Fee Related CN100361493C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004239479 2004-08-19
JP2004239479A JP2006059075A (ja) 2004-08-19 2004-08-19 文書処理装置およびプログラム

Publications (2)

Publication Number Publication Date
CN1738352A CN1738352A (zh) 2006-02-22
CN100361493C true CN100361493C (zh) 2008-01-09

Family

ID=35909340

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100554130A Expired - Fee Related CN100361493C (zh) 2004-08-19 2005-03-17 文档处理装置和文档处理方法

Country Status (3)

Country Link
US (1) US20060039045A1 (zh)
JP (1) JP2006059075A (zh)
CN (1) CN100361493C (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502789B2 (en) * 2005-12-15 2009-03-10 Microsoft Corporation Identifying important news reports from news home pages
JP4645498B2 (ja) * 2006-03-27 2011-03-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2008090758A (ja) * 2006-10-04 2008-04-17 Fuji Xerox Co Ltd 情報処理システムおよび情報処理プログラム
US8185452B2 (en) * 2006-12-19 2012-05-22 Fuji Xerox Co., Ltd. Document processing system and computer readable medium
JP2008160760A (ja) * 2006-12-26 2008-07-10 Fuji Xerox Co Ltd 文書処理システムおよび文書処理指示装置および文書処理プログラム
CN101226595B (zh) * 2007-01-15 2012-05-23 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101226596B (zh) * 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
JP2008234592A (ja) * 2007-03-23 2008-10-02 Fuji Xerox Co Ltd 情報処理システム、画像入力表示システム、画像入力システム、情報処理プログラム、画像入力表示プログラム及び画像入力プログラム
US8073256B2 (en) * 2007-11-15 2011-12-06 Canon Kabushiki Kaisha Image processing apparatus and method therefor
JP2009169536A (ja) * 2008-01-11 2009-07-30 Ricoh Co Ltd 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
JP4517310B2 (ja) * 2008-03-27 2010-08-04 ソニー株式会社 撮像装置、文字情報関連付け方法及び文字情報関連付けプログラム
US20130124193A1 (en) * 2011-11-15 2013-05-16 Business Objects Software Limited System and Method Implementing a Text Analysis Service
US10127196B2 (en) 2013-04-02 2018-11-13 3M Innovative Properties Company Systems and methods for managing notes
CN105264544A (zh) * 2013-04-02 2016-01-20 3M创新有限公司 用于管理便条的***和方法
EP2981932B1 (en) * 2013-04-02 2018-11-14 3M Innovative Properties Company Systems and methods for note recognition
EP3020000B1 (en) * 2013-07-09 2022-04-27 3M Innovative Properties Company Systems and methods for note content extraction and management using segmented notes
US9047509B2 (en) 2013-10-16 2015-06-02 3M Innovative Properties Company Note recognition and association based on grouping indicators
TWI638273B (zh) 2013-10-16 2018-10-11 3M新設資產公司 用於重疊實體便箋之便箋辨識
WO2015057793A1 (en) 2013-10-16 2015-04-23 3M Innovative Properties Company Multi-color channel detection for note recognition and management
TWI653571B (zh) 2013-10-16 2019-03-11 3M新設資產公司 用於處理數位便箋之方法、電腦系統、非暫時性電腦可讀取媒體及計算裝置
US9274693B2 (en) 2013-10-16 2016-03-01 3M Innovative Properties Company Editing digital notes representing physical notes
WO2015057804A1 (en) 2013-10-16 2015-04-23 3M Innovative Properties Company Organizing digital notes on a user interface
US20150220800A1 (en) * 2014-01-31 2015-08-06 3M Innovative Properties Company Note capture, recognition, and management with hints on a user interface
US9292186B2 (en) 2014-01-31 2016-03-22 3M Innovative Properties Company Note capture and recognition with manual assist
US9690528B1 (en) * 2016-03-30 2017-06-27 Konica Minolta Laboratory U.S.A., Inc. Automatically editing print job based on state of the document to be printed
CN109993619B (zh) * 2017-12-29 2022-09-30 北京京东尚科信息技术有限公司 数据处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161350A (ja) * 1994-12-02 1996-06-21 Canon Inc 電子ファイリング方法および装置
JPH08212331A (ja) * 1995-01-31 1996-08-20 Canon Inc 電子ファイリング方法及び電子ファイリング装置
GB2360417A (en) * 2000-02-11 2001-09-19 Hewlett Packard Co Automatic assignment of a filename to a scanned document
JP2002074321A (ja) * 2000-09-04 2002-03-15 Funai Electric Co Ltd 画像読取装置及びその制御方法
JP2004140551A (ja) * 2002-10-17 2004-05-13 Ricoh Co Ltd ネットワーク画像通信装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01251229A (ja) * 1988-03-31 1989-10-06 Toshiba Corp キーワード抽出方式
US5202982A (en) * 1990-03-27 1993-04-13 Sun Microsystems, Inc. Method and apparatus for the naming of database component files to avoid duplication of files
JPH08166959A (ja) * 1994-12-12 1996-06-25 Canon Inc 画像処理方法
JPH11120183A (ja) * 1997-10-08 1999-04-30 Ntt Data Corp キーワード抽出方法及び装置
US6263121B1 (en) * 1998-09-16 2001-07-17 Canon Kabushiki Kaisha Archival and retrieval of similar documents
JP2000134441A (ja) * 1998-10-27 2000-05-12 Canon Inc 画像通信装置及び前記装置における通信制御方法
JP3862588B2 (ja) * 2002-04-11 2006-12-27 キヤノン株式会社 通信装置及びその制御方法
US7143114B2 (en) * 2002-04-18 2006-11-28 Hewlett-Packard Development Company, L.P. Automatic renaming of files during file management
JP2004213616A (ja) * 2002-12-16 2004-07-29 Konica Minolta Holdings Inc データ管理構造書換プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161350A (ja) * 1994-12-02 1996-06-21 Canon Inc 電子ファイリング方法および装置
JPH08212331A (ja) * 1995-01-31 1996-08-20 Canon Inc 電子ファイリング方法及び電子ファイリング装置
GB2360417A (en) * 2000-02-11 2001-09-19 Hewlett Packard Co Automatic assignment of a filename to a scanned document
JP2002074321A (ja) * 2000-09-04 2002-03-15 Funai Electric Co Ltd 画像読取装置及びその制御方法
JP2004140551A (ja) * 2002-10-17 2004-05-13 Ricoh Co Ltd ネットワーク画像通信装置

Also Published As

Publication number Publication date
CN1738352A (zh) 2006-02-22
US20060039045A1 (en) 2006-02-23
JP2006059075A (ja) 2006-03-02

Similar Documents

Publication Publication Date Title
CN100361493C (zh) 文档处理装置和文档处理方法
CN100447805C (zh) 文档处理装置和文档处理方法
US9542380B2 (en) Generating financial data documents using templates
CN100478947C (zh) 文档信息处理设备及文档信息处理方法
CN100444164C (zh) 信息处理装置、文档检索方法
US9087101B2 (en) Document management techniques to account for user-specific patterns in document metadata
CN103873719B (zh) 文档处理设备、图像处理装置和文档处理方法
CN101539947B (zh) 用于存储具有部分图像的文档的信息处理装置
CN1749990B (zh) 图像处理装置和记录了实现该装置功能的程序的记录介质
US20100281353A1 (en) Automated Annotating Hyperlinker
CN100461173C (zh) 电子归档***和电子归档方法
JP2006178946A (ja) ワークブックを表現するためのファイルフォーマット、方法およびコンピュータプログラム製品
RU2005139787A (ru) Форматы файлов, способы и программные продукты для представления документов
KR100912288B1 (ko) 문서 내 목차정보를 이용한 검색 시스템
Wah et al. Building data warehouse
CN101388018A (zh) 电脑辅助设计文件的管理方法
JP4879193B2 (ja) システムログ管理支援装置およびシステムログ管理支援方法
CN102419758A (zh) 数据处理***及方法
US20070260974A1 (en) System and method for assigning a disposition to a document through information flow knowledge
CN106126555A (zh) 一种文件管理方法及文件***
CN111400259B (zh) 一种目录内容的遍历方法
JP4887726B2 (ja) 構造化文書のデータ処理方法、データ処理プログラム、およびデータ処理装置
CN110264034A (zh) 一种基于互联网的档案管理应用平台及其使用方法
CN107741956A (zh) 一种基于web容器配置文件的日志搜索方法
CN111160870A (zh) 一种专利文件生成方法、装置、***和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080109

Termination date: 20170317