JP5508953B2 - 文書処理装置及びプログラム - Google Patents
文書処理装置及びプログラム Download PDFInfo
- Publication number
- JP5508953B2 JP5508953B2 JP2010146739A JP2010146739A JP5508953B2 JP 5508953 B2 JP5508953 B2 JP 5508953B2 JP 2010146739 A JP2010146739 A JP 2010146739A JP 2010146739 A JP2010146739 A JP 2010146739A JP 5508953 B2 JP5508953 B2 JP 5508953B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- character string
- word
- information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 138
- 238000000034 method Methods 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 35
- 238000012790 confirmation Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/163—Handling of whitespace
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
(1)抽出されたメタデータに空白文字を再挿入する際に、直感的には、下記の方法により元文書から「単語の区切り」を調べられるように思われる。
プレーンテキストやワード等の編集用アプリケーションで作成した元文書には空白文字があるため、空白文字の箇所をデータとして保持しておき、図3Aに示すように、元文書で空白文字があった場所を「単語の区切り」とする。
オフィス文書作成ソフトウェアの保存形式、閲覧ソフトウェアの保存形式、印刷用データファイルなどでは、文字列オブジェクトの形で文書記載内容を保持している(文字列オブジェクトは、一つまたは複数の文字を含む)。そこで、元文書のデータ構造を参照し、図3Bに示すように、文字が保持されるオブジェクトが切り替わる時点を「単語の区切り」とする。
図3Cに示すように、文字の位置が離れている場所を「単語の区切り」とする。
図3D及びEに示すように、単語辞書を用意して文字列とのマッチングを行い、辞書登録語の境界を「単語の区切り」とする。
図5は、本実施形態による業務文書処理装置(文書処理装置)の概略的構成を示す機能ブロック図である。業務文書処理装置50は、データを表示するための表示装置500と、文書DB501と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード502と、マウスなどのポインティングデバイス503と、必要な演算処理及び制御処理などを行う中央処理装置504と、中央処理装置504での処理に必要なプログラムを格納するプログラムメモリ505と、中央処理装置504での処理に必要なデータを格納するデータメモリ506と、文字列オブジェクトを処理した結果であるメタデータを格納するメタデータDB530と、を有している。
図6は、データメモリ506に含まれる文書情報515、文字情報516、及び文字列オブジェクト情報517のデータ構造を示す図である。
続いて、以上のように構成された本実施形態の業務文書処理装置において行われる処理について説明する。図8は、業務文書処理装置において行われるメタデータ抽出・登録処理の概要を説明するためのフローチャートである。
図9は、図8の空白文字をメタデータへ再挿入する処理(ステップ802)の詳細について説明するためのフローチャートである。
図10は、図9の二つの文字が同じ単語に含まれるかどうか判定する処理(ステップ905)の詳細について説明するためのフローチャートである。
図11及び12は、図8の結果の表示処理(ステップ803)において結果が表示される画面例を示す図である。
なお、本明細書では、文書のメタデータを単語ごとに空白文字で区切られた形で出力するための場合について述べた。英語の文書から全文データを単語ごとに空白で区切られた形で出力するための処理についても同様である。
本発明の実施形態では、英語の表記ルールを用いて、英語文書中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする。ここで、表記ルールとは、オックスフォードルールやシカゴマニュアル等、文章を作成する上で規範的なスタイルを規定したルールをいうものである。このようにすることにより、英語特有の表記方法に則った空白の有無を判断することができるようになる。なお、実施形態では、英語を例にして説明しているが、表記方法が特殊で、単語と単語の間に空白文字が存在する言語であればどのような言語にも本発明は適用することが可能である。
501・・・文書DB
502・・・キーボード
503・・・ポインティングデバイス
504・・・中央処理装置
505・・・プログラムメモリ
506・・・データメモリ
530・・・メタデータDB
Claims (8)
- 単語の区切りに空白文字が存在する言語で作成された文章を含む文書に所定の処理を実行し、処理結果を管理する文書処理装置であって、
前記処理結果を登録するための登録用データベースと、
前記文章を構成する単語と空白文字の有無の情報を含む元文書を読み込んで得られる元文書情報を格納する文書データベースと、
前記言語における文字或いは単語と記号との間の表記ルールに基づいて、前記文章に含まれる隣接する二つの文字が同一の単語に含まれるか否か判定する単語区切り判定処理部と、
前記単語区切り判定処理部による処理結果を表示装置に表示する表示処理部と、
入力指示に応答して、前記単語区切り判定処理部による処理結果を前記登録用データベースに登録する登録処理部と、
前記文章から前記空白文字を無視してメタデータを抽出する処理を行うメタデータ抽出処理部と、を有し、
前記単語区切り判定処理部は、前記隣接する二つの文字が同一の単語に含まれるか否かについての判定結果を用いて、前記抽出したメタデータに前記空白文字を再挿入し、
前記登録処理部は、前記空白文字が再挿入されたメタデータを、前記単語区切り判定処理部による処理結果として前記登録用データベースに登録することを特徴とする文書処理装置。 - 請求項1において、
前記単語区切り判定処理部は、前記表記ルールに基づいた判定処理によって前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記元文書情報を参照して、前記隣接する二つの文字間に空白文字を挟むか否か確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする文書処理装置。 - 請求項2において、
さらに、文字列の識別子と文字列オブジェクトの特徴を含む文字列オブジェクト情報と、前記文字列の各文字がどの文字列に含まれるかを示す文字情報と、を格納するメモリを含み、
前記単語区切り判定処理部は、前記元文書情報を参照しても前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記文字列オブジェクト情報及び前記文字情報を参照して、前記隣接する二つの文字が同じ文字列オブジェクトに含まれるかどうか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする文書処理装置。 - 請求項3において、
前記文字列オブジェクト情報は、さらに、それぞれの文字列の位置情報を含み、
前記単語区切り判定処理部は、前記文字列オブジェクト情報及び前記文字情報を参照しても前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記それぞれの文字列の位置情報を参照して、前記文字列オブジェクトの間隔が空いているか近接しているか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定することを特徴とする文書処理装置。 - コンピュータを、単語の区切りに空白文字が存在する言語で作成された文章を含む文書に所定の処理を実行し、処理結果を管理する文書処理装置として機能させるためのプログラムであって、
前記コンピュータには、前記文章を構成する単語と空白文字の有無の情報を含む元文書を読み込んで得られる元文書情報を格納する文書データベースが接続されており、
前記コンピュータに、前記言語における文字或いは単語と記号との間の表記ルールに基づいて、前記文章に含まれる隣接する二つの文字が同一の単語に含まれるか否か判定する単語区切り判定処理を実行させるためのプログラムコードと、
前記単語区切り判定処理の結果を表示装置に表示させるためのプログラムコードと、
前記コンピュータに、入力指示に応答して、前記単語区切り判定処理の結果を登録用データベースに登録させるためのプログラムコードと、
前記コンピュータに、前記文章から前記空白文字を無視してメタデータを抽出するメタデータ抽出処理を実行させるプログラムコードと、を有し、
前記単語区切り判定処理を実行するためのプログラムコードは、前記コンピュータに、前記隣接する二つの文字が同一の単語に含まれるか否かについての判定結果を用いて、前記抽出したメタデータに前記空白文字を再挿入する処理を実行させるためのプログラムコードを含み、
前記登録用データベースに登録させるためのプログラムコードは、前記コンピュータに、前記空白文字が再挿入されたメタデータを、前記単語区切り判定処理部による処理結果として前記登録用データベースに登録させるためのプログラムコードを含むことを特徴とするプログラム。 - 請求項5において、
前記単語区切り判定処理を実行するためのプログラムコードは、前記表記ルールに基づいた判定処理によって前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記元文書情報を参照して、前記隣接する二つの文字間に空白文字を挟むか否か確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する処理を、前記コンピュータに実行させるためのプログラムコードを含むことを特徴とするプログラム。 - 請求項6において、
前記コンピュータは、さらに、文字列の識別子と文字列オブジェクトの特徴を含む文字列オブジェクト情報と、前記文字列の各文字がどの文字列に含まれるかを示す文字情報と、を格納するメモリを含み、
前記単語区切り判定処理を実行するためのプログラムコードは、前記元文書情報を参照しても前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記文字列オブジェクト情報及び前記文字情報を参照して、前記隣接する二つの文字が同じ文字列オブジェクトに含まれるかどうか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する処理を、前記コンピュータに実行させるためのプログラムコードを含むことを特徴とするプログラム。 - 請求項7において、
前記文字列オブジェクト情報は、さらに、それぞれの文字列の位置情報を含み、
前記単語区切り判定処理を実行するためのプログラムコードは、前記文字列オブジェクト情報及び前記文字情報を参照しても前記隣接する二つの文字が同一の単語に含まれると断定できないときに、前記それぞれの文字列の位置情報を参照して、前記文字列オブジェクトの間隔が空いているか近接しているか確認し、当該確認結果に基づいて、前記文章中の隣接する二つの文字が同じ単語に含まれるかどうか判定する処理を、前記コンピュータに実行させることを特徴とするプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010146739A JP5508953B2 (ja) | 2010-06-28 | 2010-06-28 | 文書処理装置及びプログラム |
PCT/JP2011/064749 WO2012002357A1 (ja) | 2010-06-28 | 2011-06-28 | 文書処理装置及びプログラム |
US13/696,881 US8959049B2 (en) | 2010-06-28 | 2011-06-28 | Document processing device and program |
EP11800821.8A EP2565798A4 (en) | 2010-06-28 | 2011-06-28 | Document processing device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010146739A JP5508953B2 (ja) | 2010-06-28 | 2010-06-28 | 文書処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012008965A JP2012008965A (ja) | 2012-01-12 |
JP5508953B2 true JP5508953B2 (ja) | 2014-06-04 |
Family
ID=45402064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010146739A Active JP5508953B2 (ja) | 2010-06-28 | 2010-06-28 | 文書処理装置及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US8959049B2 (ja) |
EP (1) | EP2565798A4 (ja) |
JP (1) | JP5508953B2 (ja) |
WO (1) | WO2012002357A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102009060800A1 (de) | 2009-06-18 | 2011-06-09 | Varta Microbattery Gmbh | Knopfzelle mit Wickelelektrode und Verfahren zu ihrer Herstellung |
USD715818S1 (en) * | 2011-12-28 | 2014-10-21 | Target Brands, Inc. | Display screen with graphical user interface |
USD705790S1 (en) | 2011-12-28 | 2014-05-27 | Target Brands, Inc. | Display screen with graphical user interface |
USD705792S1 (en) | 2011-12-28 | 2014-05-27 | Target Brands, Inc. | Display screen with graphical user interface |
JP2015207134A (ja) * | 2014-04-21 | 2015-11-19 | 村田機械株式会社 | 工作機械、プログラム編集方法、及び制御プログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4914704A (en) * | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
JPS6274181A (ja) * | 1985-09-27 | 1987-04-04 | Sony Corp | 文字認識装置 |
US4887212A (en) * | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
US4991094A (en) * | 1989-04-26 | 1991-02-05 | International Business Machines Corporation | Method for language-independent text tokenization using a character categorization |
JPH07117961B2 (ja) * | 1990-01-12 | 1995-12-18 | 株式会社日立製作所 | 文献データ登録方法 |
JPH06348911A (ja) * | 1993-06-07 | 1994-12-22 | Matsushita Electric Ind Co Ltd | 英文字認識装置 |
JP3425834B2 (ja) | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
JPH09237320A (ja) * | 1996-03-04 | 1997-09-09 | Fuji Electric Co Ltd | 文書フォーマットの復元方法 |
JPH11184894A (ja) | 1997-10-07 | 1999-07-09 | Ricoh Co Ltd | 論理要素抽出方法および記録媒体 |
JP3636941B2 (ja) * | 1999-07-19 | 2005-04-06 | 松下電器産業株式会社 | 情報検索方法と情報検索装置 |
JP3425408B2 (ja) | 2000-05-31 | 2003-07-14 | 株式会社東芝 | 文書読取装置 |
JP5248845B2 (ja) * | 2006-12-13 | 2013-07-31 | キヤノン株式会社 | 文書処理装置、文書処理方法、プログラムおよび記憶媒体 |
-
2010
- 2010-06-28 JP JP2010146739A patent/JP5508953B2/ja active Active
-
2011
- 2011-06-28 WO PCT/JP2011/064749 patent/WO2012002357A1/ja active Application Filing
- 2011-06-28 EP EP11800821.8A patent/EP2565798A4/en not_active Withdrawn
- 2011-06-28 US US13/696,881 patent/US8959049B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012008965A (ja) | 2012-01-12 |
EP2565798A4 (en) | 2018-01-03 |
EP2565798A1 (en) | 2013-03-06 |
US8959049B2 (en) | 2015-02-17 |
US20130091091A1 (en) | 2013-04-11 |
WO2012002357A1 (ja) | 2012-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bansal et al. | Segmentation of touching and fused Devanagari characters | |
US5960448A (en) | System and method for displaying a graphically enhanced view of a region of a document image in which the enhanced view is correlated with text derived from the document image | |
CN102117269B (zh) | 对文档进行数字化的装置及方法 | |
US9256798B2 (en) | Document alteration based on native text analysis and OCR | |
JP4461769B2 (ja) | 文書検索・閲覧手法及び文書検索・閲覧装置 | |
US20060285746A1 (en) | Computer assisted document analysis | |
EP2354966A2 (en) | System and method for visual document comparison using localized two-dimensional visual fingerprints | |
US20100303356A1 (en) | Method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images | |
JP5508953B2 (ja) | 文書処理装置及びプログラム | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
US20060190684A1 (en) | Reverse value attribute extraction | |
JP2007058605A (ja) | 文書管理システム | |
US20060290964A1 (en) | Image processing system and image processing method, and computer program | |
US9049400B2 (en) | Image processing apparatus, and image processing method and program | |
US20070071278A1 (en) | Method and computer-readable medium for shuffling an asian document image | |
US8116567B2 (en) | Digitizing documents | |
CN116127916B (zh) | 一种动态添加水印的方法和装置 | |
JP2011028568A (ja) | 文書データ処理装置 | |
CN114579796A (zh) | 机器阅读理解方法及装置 | |
CN112287742B (zh) | 文件中的流程图解析方法及装置、计算设备、存储介质 | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
KR20100115048A (ko) | 복사 문서 판별 시스템 및 그 방법 | |
US8923625B2 (en) | Original image searching device, original image searching method, and computer readable medium | |
CN113449763A (zh) | 信息处理装置以及记录媒体 | |
Lacasta et al. | Tracing the origins of incunabula through the automatic identification of fonts in digitised documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140324 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5508953 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |