JP5248845B2 - 文書処理装置、文書処理方法、プログラムおよび記憶媒体 - Google Patents
文書処理装置、文書処理方法、プログラムおよび記憶媒体 Download PDFInfo
- Publication number
- JP5248845B2 JP5248845B2 JP2007303735A JP2007303735A JP5248845B2 JP 5248845 B2 JP5248845 B2 JP 5248845B2 JP 2007303735 A JP2007303735 A JP 2007303735A JP 2007303735 A JP2007303735 A JP 2007303735A JP 5248845 B2 JP5248845 B2 JP 5248845B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- blank
- characters
- space
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/163—Handling of whitespace
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Description
図1Aは、本実施形態の文書処理装置の構成例を示すブロック図である。
図2は、本実施形態の文書処理装置における文書処理S200の手順例を示すフローチャートである。
以下に、上記図2のフローチャートの各ステップの詳細手順例に従い、各処理を詳細に説明する。
図3は、ステップS203における、文書内の各行の均等割付判断の詳細手順を示すフローチャートである。図4Aおよび図4Bの均等割付判断例を元に説明する。図4Aは英語文書(欧文)の例、図4Bは日本語文書(和文)の例である。
(1)各段落に含まれる各行の右端位置がほぼ同じ位置である。
(2)1行目の左端位置と、その他の行の左端位置との差が所定範囲内(字下げの距離内)に収まる。
(3)各行の文字スペーシング量の分布に基づいて、各行の文字スペーシング量の値が1つまたは2つである。(ただし、所定誤差内の文字スペーシング量は、同じ文字スペーシング量であるとして扱う。)
の条件を満たす段落の場合、当該段落に含まれる行を均等割付された行として判定する。
図5は、図2のステップS204における見出しの判断の詳細手順を示すフローチャートである。
図7は、図2のステップS207における空白文字幅の取得の詳細手順を示すフローチャートである。
(1)直前の文字が2バイトコードの場合は、Ws = Wp(全角)、Ws = Wp/2(半角)とする。
(2)直前の文字が1バイトコードのプロポーショナルフォントの場合は、Ws =(直前の文字のem値)/4 とする(em値とは日本語(和文)フォントの全角文字幅に値する文字幅情報)。
(3)直前の文字が1バイトコードの固定ピッチフォントの場合は、Ws =(直前の文字のem値)とする。
図2のステップS208の文字スペーシングの取得について、図8のフローチャートに従って説明する。図9A及び図9Bは、文字スペーシング量Δに関しての概略図である。例えば、図9Aでは、「This」の"s"と、「is」の"i"との間の文字スペーシング量Δを求める場合を示している。図9Bでは、「あき」の"き"と、「あり」の"あ"との間の文字スペーシング量Δを求める場合を示している。
次に、ステップS802で、1つ前の対象文字間があるか判定する。ある場合は、ステップS803に進む。ない場合は、ステップS804に進む。
Δpreを求めた後、文字スペーシングの取得処理を終了して、図2のステップS209に進む。
Δpre ← Δpost (ΔpreをΔpostで代用)
Δpreを求めた後、文字スペーシングの取得処理を終了して、図2のステップS209に進む。
図10は、図2のステップS209の空白・タブ判定の詳細な手順例を示すフローチャートである。
Ws × 0.9 ≦ (Δ- Δpre × 2) ≦ Ws × 1.1 を満たすか判定する。
図10のステップS1006の均等割り付け用の空白判定の詳細を、図11のフローチャートに従って説明する。
(標準の行の幅)=(各文字の幅の合計)
(補正した空白文字幅)=(空白文字幅Ws)×(行の幅)÷(標準の行の幅)
(空白文字幅Ws)を(補正した空白文字幅)に置き換える。
Ws × 0.9≦ (Δ - Δpre × 2) ≦ Ws × 1.1 を満たすか判定する。満たす場合は、ステップS1103に進み、空白1個と判定し対象文字間に挿入して、空白判定処理を終了する。満たさない場合は、ステップS1105に進み、空白なしと判定して、空白判定処理を終了する。
図10のステップS1007の見出し用の空白判定の説明を、図12のフローチャートに従って説明する。
X´= aX + bY
Y´= cX + dY
で表現される。
Δ=(文字の開始位置)−(前の文字の終了位置)
Δpreは、すでに座標変換されているのでそのままの値を使用する。
Ws × 0.9≦ (Δ - Δpre × 2) ≦ Ws × 1.1 を満たすか判定する。満たす場合は、ステップS1203に進み、空白1個と判定し対象文字間に挿入して、空白判定処理を終了する。満たさない場合は、ステップS1205に進み、空白なしと判定して、空白判定処理を終了する。
図10のステップS1016、S1018のタブ判定/複数空白判定の内のタブ判定の説明を、図13のフローチャートに従って、図14A(欧文)及び図14B(和文)のタブ判定例を参照して説明する。
図13のステップS1303、S1310, S1317における複数空白判定に関して、図15のフローチャートに従って、図16を参照して説明する。
Ws × 0.8 ≦ (Δ - (N+1) × Δpre) / N ≦ Ws × 1.2 を満たすか判定する。
尚、上記実施形態では、文書レイアウトを保持した文書としてPDFの例を示したが、PDLやHTMLなどでも同様な効果を得ることができる。
Claims (10)
- レイアウト情報を含む文書から文字列を抽出する文字抽出手段と、
前記文字抽出手段で抽出された文字列が見出しであるか否かを、前記文書に記述されている見出しタグと文字の大きさと行間スペースとに基づいて判断する見出し判断手段と、
空白文字の文字幅情報を取得する文字幅取得手段と、
前記文字抽出手段で抽出した文字列と前記レイアウト情報とに基づいて、各文字間のスペーシング量を取得するスペーシング量取得手段と、
前記スペーシング量取得手段で取得した前記各文字間のスペーシング量と前記文字幅取得手段で取得した空白文字の文字幅情報とに基づいて、前記各文字間に空白文字が含まれるべきか判定し、空白文字が含まれるべきであると判定された文字間に空白文字コードを挿入する挿入手段と、を有し、
前記見出し判断手段により前記抽出された文字列が見出しであると判断された場合、前記挿入手段は、前記文字幅取得手段で取得した前記空白文字の文字幅情報を修正し、当該見出しであると判断された文字列の各文字間のスペーシング量と当該修正された空白文字の文字幅情報とに基づいて、当該見出しであると判断された文字列の各文字間に空白文字が含まれるべきかを判断し、空白文字が含まれるべきであると判断された文字間に空白文字コードを挿入する、
ことを特徴とする文書処理装置。 - 前記挿入手段は、前記スペーシング量取得手段で取得した前記各文字間のスペーシング量と前記文字幅取得手段で取得した空白文字の文字幅情報とに基づいて、前記各文字間に空白文字またはタブが含まれるべきか判定し、空白文字またはタブが含まれるべきであると判断された文字間に空白文字コードまたはタブコードを挿入することを特徴とする請求項1に記載の文書処理装置。
- 更に、前記抽出された文字列が、均等割付されているか否かを判断する均等割付判断手段を有し、
前記均等割付判断手段により前記抽出された文字列が均等割付けされていると判断された場合、前記挿入手段は、前記文字幅取得手段で取得した前記空白文字の文字幅情報を修正し、前記均等割付けされていると判断された文字列の各文字間のスペーシング量と当該修正された空白文字の文字幅情報とに基づいて、前記均等割付けされていると判断された文字列の各文字間に空白文字が含まれるべきか判定し、空白文字が含まれるべきであると判定された文字間に空白文字コードを挿入する、
ことを特徴とする請求項1に記載の文書処理装置。 - 前記挿入手段は、前記各文字間の直前の文字が欧文であるか和文であるかに応じて、前記空白文字コードを挿入するか否かの判断に用いる条件を変更することを特徴とする請求項1に記載の文書処理装置。
- 前記空白文字コードが挿入された文字列に対して、完全一致単語検索及び/又はフレーズ検索を行なう検索手段、を更に有することを特徴とする請求項1に記載の文書処理装置。
- 前記文字幅取得手段は、前記空白文字の文字幅情報を、前記文書内に含まれているフォントの空白文字の文字幅情報、あるいは文書処理装置に格納されているフォントの空白文字の文字幅情報、あるいは外部デバイスに格納されているフォントの空白文字の文字幅情報から取得することを特徴とする請求項1に記載の文書処理装置。
- 前記文字幅取得手段は、前記空白文字の文字幅情報をフォントから取得できなかった場合、直前の文字の文字幅に基づいて前記空白文字の文字幅情報を取得することを特徴とする請求項6に記載の文書処理装置。
- レイアウト情報を含む文書から文字列を抽出する文字抽出ステップと、
前記文字抽出ステップで抽出された文字列が見出しであるか否かを、前記文書に記述されている見出しタグと文字の大きさと行間スペースとに基づいて判断する見出し判断ステップと、
空白文字の文字幅情報を取得する文字幅取得ステップと、
前記文字抽出ステップで抽出した文字列と前記レイアウト情報とに基づいて、各文字間のスペーシング量を取得するスペーシング量取得ステップと、
前記スペーシング量取得ステップで取得した前記各文字間のスペーシング量と前記文字幅取得ステップで取得した空白文字の文字幅情報とに基づいて、前記各文字間に空白文字が含まれるべきか判定し、空白文字が含まれるべきであると判定された文字間に空白文字コードを挿入する挿入ステップと、を有し、
前記見出し判断ステップにより前記抽出された文字列が見出しであると判断された場合、前記挿入ステップは、前記文字幅取得ステップで取得した前記空白文字の文字幅情報を修正し、当該見出しであると判断された文字列の各文字間のスペーシング量と当該修正された空白文字の文字幅情報とに基づいて、当該見出しであると判断された文字列の各文字間に空白文字が含まれるべきかを判断し、空白文字が含まれるべきであると判断された文字間に空白文字コードを挿入する、
ことを特徴とする文書処理方法。 - レイアウト情報を含む文書から文字列を抽出する文字抽出ステップと、
前記文字抽出ステップで抽出された文字列が見出しであるか否かを、前記文書に記述されている見出しタグと文字の大きさと行間スペースとに基づいて判断する見出し判断ステップと、
空白文字の文字幅情報を取得する文字幅取得ステップと、
前記文字抽出ステップで抽出した文字列と前記レイアウト情報とに基づいて、各文字間のスペーシング量を取得するスペーシング量取得ステップと、
前記スペーシング量取得ステップで取得した前記各文字間のスペーシング量と前記文字幅取得ステップで取得した空白文字の文字幅情報とに基づいて、前記各文字間に空白文字が含まれるべきか判定し、空白文字が含まれるべきであると判定された文字間に空白文字コードを挿入する挿入ステップと、をコンピュータに実行させ、
前記見出し判断ステップにより前記抽出された文字列が見出しであると判断された場合、前記挿入ステップは、前記文字幅取得ステップで取得した前記空白文字の文字幅情報を修正し、当該見出しであると判断された文字列の各文字間のスペーシング量と当該修正された空白文字の文字幅情報とに基づいて、当該見出しであると判断された文字列の各文字間に空白文字が含まれるべきかを判断し、空白文字が含まれるべきであると判断された文字間に空白文字コードを挿入する、
ことを特徴とするプログラム。 - 請求項9に記載のプログラムを格納したコンピュータ読取可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007303735A JP5248845B2 (ja) | 2006-12-13 | 2007-11-22 | 文書処理装置、文書処理方法、プログラムおよび記憶媒体 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006336371 | 2006-12-13 | ||
JP2006336371 | 2006-12-13 | ||
JP2007303735A JP5248845B2 (ja) | 2006-12-13 | 2007-11-22 | 文書処理装置、文書処理方法、プログラムおよび記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008171400A JP2008171400A (ja) | 2008-07-24 |
JP5248845B2 true JP5248845B2 (ja) | 2013-07-31 |
Family
ID=39526770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007303735A Active JP5248845B2 (ja) | 2006-12-13 | 2007-11-22 | 文書処理装置、文書処理方法、プログラムおよび記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8225200B2 (ja) |
JP (1) | JP5248845B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5508953B2 (ja) * | 2010-06-28 | 2014-06-04 | 株式会社日立ソリューションズ | 文書処理装置及びプログラム |
US9734132B1 (en) * | 2011-12-20 | 2017-08-15 | Amazon Technologies, Inc. | Alignment and reflow of displayed character images |
CN103176956B (zh) * | 2011-12-21 | 2016-08-03 | 北大方正集团有限公司 | 用于提取文档结构的方法和装置 |
US8850350B2 (en) | 2012-10-16 | 2014-09-30 | Google Inc. | Partial gesture text entry |
US8843845B2 (en) | 2012-10-16 | 2014-09-23 | Google Inc. | Multi-gesture text input prediction |
US8819574B2 (en) * | 2012-10-22 | 2014-08-26 | Google Inc. | Space prediction for text input |
US8832589B2 (en) | 2013-01-15 | 2014-09-09 | Google Inc. | Touch keyboard using language and spatial models |
CN104516868B (zh) * | 2013-09-30 | 2018-03-06 | 北大方正集团有限公司 | 一种版面空格的流式还原方法与*** |
JP6528927B2 (ja) * | 2014-08-20 | 2019-06-12 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
KR102280985B1 (ko) | 2014-11-26 | 2021-07-26 | 삼성전자주식회사 | 화면 구성 방법, 전자 장치 및 저장 매체 |
JP6425022B2 (ja) * | 2015-01-14 | 2018-11-21 | ブラザー工業株式会社 | テープ印字装置 |
CN111026924A (zh) * | 2019-03-11 | 2020-04-17 | 广东小天才科技有限公司 | 一种待搜索内容的获取方法及电子设备 |
JP7371558B2 (ja) * | 2020-03-31 | 2023-10-31 | ブラザー工業株式会社 | 印刷装置、印刷方法及びプログラム |
JP2023006605A (ja) * | 2021-06-30 | 2023-01-18 | キヤノン株式会社 | 画像形成装置、画像形成装置の制御方法、及びプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2915175B2 (ja) * | 1990-10-01 | 1999-07-05 | 株式会社エフ・エフ・シー | 単語間スペース検出方法 |
JPH0567237A (ja) | 1991-05-13 | 1993-03-19 | Hitachi Eng Co Ltd | 空白認識方法、空白認識装置、文字認識装置、英日翻 訳装置 |
JPH0727776A (ja) * | 1993-07-08 | 1995-01-31 | Toshiba Corp | 回転検出方法 |
EP0702322B1 (en) * | 1994-09-12 | 2002-02-13 | Adobe Systems Inc. | Method and apparatus for identifying words described in a portable electronic document |
ATE373274T1 (de) * | 2005-07-01 | 2007-09-15 | Pdflib Gmbh | Verfahren zur identifizierung von wörtern in einem elektronischen dokument |
US7827484B2 (en) * | 2005-09-02 | 2010-11-02 | Xerox Corporation | Text correction for PDF converters |
-
2007
- 2007-11-22 JP JP2007303735A patent/JP5248845B2/ja active Active
- 2007-12-07 US US11/952,895 patent/US8225200B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US8225200B2 (en) | 2012-07-17 |
US20080144062A1 (en) | 2008-06-19 |
JP2008171400A (ja) | 2008-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5248845B2 (ja) | 文書処理装置、文書処理方法、プログラムおよび記憶媒体 | |
US6533822B2 (en) | Creating summaries along with indicators, and automatically positioned tabs | |
KR100578188B1 (ko) | 문자인식 장치 및 방법 | |
US7219052B2 (en) | Document based character ambiguity resolution | |
US20060218484A1 (en) | Document editing method, document editing device, and storage medium | |
US20060217959A1 (en) | Translation processing method, document processing device and storage medium storing program | |
JPH077410B2 (ja) | 文書レイアウト方法 | |
US20240104290A1 (en) | Device dependent rendering of pdf content including multiple articles and a table of contents | |
JP6589704B2 (ja) | 文境界推定装置、方法およびプログラム | |
US9075776B2 (en) | Document processing apparatus, document processing method, and program | |
CN113138725A (zh) | 信息处理装置及计算机可读取记录媒体 | |
US11842141B2 (en) | Device dependent rendering of PDF content | |
JP2763227B2 (ja) | 書式決定方法 | |
JPH0668748B2 (ja) | 文書整形方法 | |
JP2680540B2 (ja) | 文書レイアウト方法 | |
JP2829264B2 (ja) | 文書レイアウト方法 | |
JPS62245366A (ja) | 文書処理装置 | |
US10417312B2 (en) | Information added document preparation device, non-transitory computer-readable recording medium and information added document preparation method for selecting a format for adding information to a document to satisfy a layout condition | |
JP2682570B2 (ja) | 文書レイアウト方法 | |
JPH07141366A (ja) | 文書作成装置及び注釈付き文書作成方法 | |
JP2010176364A (ja) | 文書処理装置 | |
JPH09146947A (ja) | 文字領域の順序付け方法及び装置 | |
JPH04199261A (ja) | 文書出力装置 | |
JP2004038756A (ja) | 文書変換方法および文書変換装置 | |
JPH11328171A (ja) | 文書処理装置及び文書処理方法及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120806 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130411 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5248845 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |