JP2006349836A - 文書処理装置 - Google Patents

文書処理装置 Download PDF

Info

Publication number
JP2006349836A
JP2006349836A JP2005173914A JP2005173914A JP2006349836A JP 2006349836 A JP2006349836 A JP 2006349836A JP 2005173914 A JP2005173914 A JP 2005173914A JP 2005173914 A JP2005173914 A JP 2005173914A JP 2006349836 A JP2006349836 A JP 2006349836A
Authority
JP
Japan
Prior art keywords
word
additional information
translation
text data
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005173914A
Other languages
English (en)
Inventor
Michihiro Tamune
道弘 田宗
Masatoshi Tagawa
昌俊 田川
Kiyoshi Tashiro
潔 田代
Hiroshi Masuichi
博 増市
Atsushi Ito
篤 伊藤
Naoko Sato
直子 佐藤
Kyosuke Ishikawa
恭輔 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005173914A priority Critical patent/JP2006349836A/ja
Publication of JP2006349836A publication Critical patent/JP2006349836A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 教材を用いた外国語学習において、学習者が辞書を引く手間を省き、学習者の学習効率を向上させることのできる技術を提供する。
【解決手段】 複合機1の制御部11は、単語翻訳指示が入力されたことを検知すると、画像読取部13を制御して入力原稿の画像を光学的に読み取らせ、原稿の内容を表す画像データを生成する。続けて、制御部11は、画像データに対して所定の文字認識処理を行ってテキストデータを生成するとともに、テキストデータの文字の区切りを認識して単語を特定する。そして、複合機1の制御部11は、それぞれの単語の難易度と翻訳レベルとをそれぞれ比較することによって、単語の発音記号や翻訳単語等の付加情報を付与するか否かを判定し、付加情報を付与すると判定された単語に対して付加情報を付与し、画像形成部14を制御して印刷出力させる。
【選択図】 図2

Description

本発明は、単語の発音記号や単語の翻訳単語等の付加情報を文書に付与する技術に関する。
従来、外国語を学習するための教材として、その外国語で記された本や雑誌、または教科書等が用いられている。例えば中国語を学習する者は、中国語の教科書や中国語で記された本や雑誌等を教材として中国語を学習する。
ところで、教科書や雑誌等の教材は、その教材を使用する者にとっては、読み方や意味が不明な単語(以下、未知単語とする)が用いられている場合が多い。そのような場合、学習者は、未知単語の読み方や意味をいちいち辞書等で調べつつその教材を読み進めることになる。教材に用いられている未知単語が多いほど、辞書を引く作業に多くの手間と時間が費やされることになり、その分、教材の内容を理解するといった実質的な学習時間が減少してしまうという問題がある。また、辞書を引く度に教材を読み進める作業が中断されてしまい、学習者の学習効率が低下してしまうという問題が発生する。
上述した問題を回避するために、例えば全単語に発音記号(読み方)やその単語の翻訳単語(単語の意味)が付与されている教材を用いることが考えられる。または、外国語で記された教材を光学的に読み取って電子化し、文字認識を行った上で自動翻訳を行う装置(例えば、特許文献1参照)を用いて教材を翻訳し、その翻訳結果から単語の意味を参照しつつ教材を読み進めることも考えられる。全単語に発音記号や翻訳単語が付与された教材や、自動翻訳を行う装置を用いれば、学習者は、未知単語をいちいち辞書等で調べることなく教材を読み進めることが可能である。
特開平8−006948号公報
しかしながら、全単語に発音記号等が付与されている教材の場合は、既知・未知単語の区別なく全ての単語に発音記号等が付されているため、学習者にとって必要ない多数の情報(既知単語の発音記号)が教材に含まれてしまうことになり、教材が学習者にとって煩雑になり、読み難くなってしまうという問題がある。また、自動翻訳装置を用いる場合は、教材の翻訳結果を学習者が確認できてしまうため、学習者の語学力の向上率が低下してしまうという問題がある。
本発明は上述した背景に鑑みてなされたものであり、その目的は、教材を用いた外国語学習において、単語の発音記号や翻訳単語等の付加情報を教材に付与することによって、学習者が辞書を引く手間を省き、学習者の学習効率を向上させることのできる技術を提供することにある。
上記課題を達成するために、本発明は、単語とその単語の付加情報およびその単語の難易度とを対応付けて記憶する記憶手段と、入力原稿を光学的に読み取り画像データを生成する画像読取手段と、前記画像読取手段により生成された画像データから文字の内容を表すテキストデータを生成するテキストデータ生成手段と、前記テキストデータの文字列の区切りを認識して単語を特定する単語特定手段と、前記単語特定手段によって特定された複数の単語の各々に対して、当該単語の出現頻度を認識するとともに、当該単語と一致するものを前記記憶手段から検索し、検索されたものと対応する前記難易度を前記記憶手段から読み出して、各単語の前記難易度と前記出現頻度とに基づいて翻訳レベルを特定する翻訳レベル特定手段と、前記単語特定手段によって特定された各々の単語と一致するものを前記記憶手段から検索し、検索されたものと対応する難易度と、前記翻訳レベルとを比較することによって前記付加情報を付与するか否かを判定する翻訳単語判定手段と、前記翻訳単語判定手段によって前記付加情報を付与すると判定された単語について、当該単語と対応する付加情報を前記記憶手段から読み出し、読み出した付加情報を出力する付加情報出力手段とを備えることを特徴とする文書処理装置を提供する。
また、本発明は、単語とその単語の付加情報およびその単語の難易度とを対応付けて記憶する記憶手段と、入力原稿を光学的に読み取り画像データを生成する画像読取手段と、前記画像読取手段により生成された画像データから文字の内容を表すテキストデータを生成するテキストデータ生成手段と、前記テキストデータの文字列の区切りを認識して単語を特定する単語特定手段と、翻訳レベルが入力される翻訳レベル入力手段と、前記単語特定手段によって特定された各々の単語と一致するものを前記記憶手段から検索し、検索されたものと対応する難易度と、前記翻訳レベルとを比較することによって前記付加情報を付与するか否かを判定する翻訳単語判定手段と、前記翻訳単語判定手段によって前記付加情報を付与すると判定された単語について、当該単語と対応する付加情報を前記記憶手段から読み出し、読み出した付加情報を出力する付加情報出力手段とを備えることを特徴とする文書処理装置を提供する。
本発明の好ましい態様において、前記画像データに対してレイアウト解析を行って、特定の単語が記された特定単語領域を特定するレイアウト解析手段と、前記レイアウト解析手段によって特定された特定単語領域に記されている特定単語を抽出する特定単語抽出手段とを備え、前記翻訳単語判定手段は、前記単語特定手段によって特定された各々の単語に対して、前記特定単語抽出手段によって抽出された特定単語については前記付加情報を付与しないと判定し、前記特定単語抽出手段によって抽出されていない単語については、その単語と一致するものを前記記憶手段から検索し、検索されたものと対応する難易度と、前記翻訳レベルとを比較することによって前記付加情報を付与するか否かを判定するようにしてもよい。
また、本発明の別の好ましい態様において、前記翻訳単語判定手段によって前記付加情報を付与すると判定された単語について、当該単語と対応する付加情報を前記記憶手段から読み出し、読み出した付加情報を前記テキストデータに付与する付加情報付与手段を備え、前記付加情報出力手段に代えて、前記付加情報付与手段によって付加情報が付与されたテキストデータを出力する出力手段を備えるようにしてもよい。
また、本発明の更に好ましい態様において、前記付加情報は、前記単語の発音記号または当該単語の翻訳単語の少なくともいずれか一方であるようにしてもよい。
本発明によれば、教材を用いた外国語学習において、単語の発音記号や翻訳単語等の付加情報を教材に付与することによって、学習者が辞書を引く手間を省き、学習者の学習効率を向上させることが可能となる。
本発明の第1実施形態を説明する。まず、本実施形態において用いる主要な用語を定義しておく。「原稿」の語は、情報が文字の綴りとして記されている用紙を意味するものとして用いる。また、「付加情報」の語は、単語の発音記号や翻訳単語(単語の翻訳結果)を称するものとして用いる。また、「新出単語(特定単語)」の語は、ある語学教材において新規に用いられる単語または重要な単語であり、その付加情報が教材に記されている単語を意味するものとして用いる。
図1に、本実施形態で用いる原稿の一例を示す。この原稿は、例えば中国語の教科書等の一部であり、中国語の語学教材として用いられる原稿である。図示のように、この原稿は、一枚の用紙にパラグラフA、パラグラフBが中国語で記されている。また、パラグラフBには、パラグラフAで用いられている新出単語(特定単語)とその付加情報とが対応付けて記されている。学習者は、パラグラフBを参照することによって、各新出単語の付加情報(発音記号や翻訳単語)を認識することができるようになっている。
<A:構成>
次に、本発明の実施形態である複合機の構成について、図2を参照しつつ説明する。図において、1は、原稿を光学的に読み取って電子化するスキャナ機能を備えた複合機である。11は、例えばCPU(Central Processing Unit)等の演算装置を備えた制御部である。12は、RAM(Random Access Memory)やROM(Read Only Memory)、ハードディスク等で構成され、制御プログラム等の各種プログラムを記憶する記憶部である。複合機1の制御部11は、記憶部12に記憶されているプログラムを読み出して実行することにより、バス17を介して複合機1の各部を制御する。
13は、入力原稿を光学的に走査してその画像を読み取る画像読取部である。この画像読取部13は、原稿が載置される原稿載置部を備えており、この原稿載置部に載置された原稿を光学的に走査してその画像を読み取り、2値のビットマップデータである画像データを生成する。14は、画像データを用紙に印刷することによって出力する画像形成部である。画像形成部14は、制御部11によって供給される画像データに基づいて図示せぬ感光体ドラム上に像光を照射して表面に静電電位の差による潜像を形成し、この潜像をトナーの選択的な付着によってトナー像とし、そのトナー像を用紙に転写および定着させることによって用紙に画像を形成する。
15は、例えば液晶ディスプレイ等で構成され、制御部11からの制御信号に従ってユーザへのメッセージや作業状況を示す画像などを表示する表示部である。16は、テンキー、スタートボタン、ストップボタン、液晶ディスプレイ上に設置されたタッチパネル等で構成され、ユーザの操作入力およびその時の表示画面に応じた信号を出力する操作部である。ユーザは表示部15に表示された画像やメッセージを見ながら操作部16を操作することにより、複合機1に対して指示入力を行うことができる。
記憶部12には、単語テーブルTBLと新出単語領域インデックスリストL1と新出単語リストL2とが記憶されている。単語テーブルTBLは、制御部11が後述する単語翻訳処理(付加情報付与処理)を行う際に、単語に付加情報を付与するか否かを判定するために用いられるテーブルである。この単語テーブルTBLは、図3に示すように、「単語」と「等級」と「付加情報」との各項目が互いに関連付けられて記憶されている。これらの項目のうち、「単語」には、中国語の単語が記憶されている。「等級」の項目には、単語の難易度が、例えば0〜10の数値等によって表された情報が記憶されている。図3に示す例においては、「在」という単語の場合は、対応する「等級」の項目に「3」が記憶されており、この単語の難易度が「3」であることがこのテーブルに基づいて判断できるようになっている。「付加情報」の項目には、当該単語と対応する「発音記号」と「翻訳単語」とが記憶されている。「発音記号」の項目には、当該単語の発音記号を示す情報が記憶され、「翻訳単語」の項目には、当該単語を所定の言語に翻訳した結果を示す情報が記憶されている。
新出単語領域インデックスリストL1は、語学教材などにおいて、新出単語のリストが記載されている領域であることを示す見出し語(以下、インデックスという)としてよく用いられる単語のリストである。例えば、日本語教材であれば「新出単語」や「新しい単語」、「新たに学ぶ単語」などという見出し語の下に新出単語のリストが記載されていることが多い。英語教材であれば「New words」などという見出し語の下に新出単語のリストが記載されていることが多い。新出単語領域インデックスリストL1に登録されている単語はこれらの見出し語(インデックス)であり、複合機1の制御部11は、ある文字領域のインデックスをこの新出単語領域インデックスリストL1から検索し、一致するものがある場合はその文字領域が新出単語領域であると判定する。
新出単語リストL2は、後述する新出単語領域から新出単語を抽出する処理を制御部11が行う際に生成する新出単語のリストである。複合機1の制御部11は、ある単語が新出単語であるか否かを判定する際に、この新出単語リストL2からその単語を検索し、一致するものがあるか否かによって判定を行う。
<B:動作>
次に、本実施形態の動作について説明する。まず、複合機1のユーザは、操作部16を操作して複合機1に単語翻訳指示(付加情報付与指示)を入力する。具体的には、ユーザは、単語翻訳処理の対象となる原稿を画像読取部13の原稿載置部に載置し、表示部15に表示されるメニュー画面を見ながら操作部16を操作することにより、複合機1に単語翻訳指示を入力する。単語翻訳指示は、翻訳元の言語、翻訳先の言語、翻訳レベルなど、処理に必要なパラメータを含んでいる。なお、ここで入力される翻訳レベルは、例えば1〜10の数値等によって、その難易度が表現される情報であり、前述の単語テーブルTBLの「等級」の項目に記憶されているものと同じ数値範囲によって、その難易度が表現されている。
図4は、複合機1の制御部11の処理を示すフローチャートである。制御部11は、単語翻訳指示が入力されたことを検知すると(ステップS1;YES)、原稿の画像読取を行う(ステップS2)。すなわち、制御部11は、画像読取部13を制御して入力原稿の画像を光学的に読み取らせ、原稿の内容をビットマップとして表す画像データを生成する。続けて、制御部11は、画像データに対し所定のアルゴリズムを用いてレイアウト解析等を行い、文字領域の画像データを切り出す(ステップS3)。具体的には、画像データを所定の領域に分割し、各領域の種別(文字、図等)を判定する。例えば図1に示す原稿が読み取られた場合には、このステップS3に示す処理によって、パラグラフAとパラグラフBとが、文字領域の画像データとして切り出されることになる。
次に、制御部11は、文字領域の画像データに対して所定の文字認識処理を行って、文字の内容を表すテキストデータを生成する(ステップS4)。続けて、制御部11は、生成されたテキストデータに対して自然言語処理等を行ってテキストデータの文字列の区切りを認識し、テキストデータを単語に分割することによってテキストデータに含まれる単語を特定し、そのテキストデータに含まれる単語の単語リストを生成する(ステップS5)。
続けて、制御部11は、ステップS3で切り出されたそれぞれの文字領域について、その領域のインデックスを特定する(ステップS6)。図1に示す例においては、パラグラフAのインデックスは図1のIDX1の領域に記されている単語であり、パラグラフBのインデックスはIDX2の領域に記されている単語であると特定される。
次に、制御部11は、ステップS3のレイアウト解析の結果とそれぞれの領域のインデックスを参照して、読み取った画像データに新出単語領域(特定単語領域)があるか否かを判定する(ステップS7)。具体的には、それぞれの領域のインデックスを、新出単語領域インデックスリストL1から検索し、一致するものがある場合はその文字領域が新出単語領域であると判定する。新出単語領域があると判定された場合は(ステップS7;YES)、新出単語領域から新出単語を抽出し、新出単語リストL2を生成することによって新出単語を特定する(ステップS8)。ステップS7において、新出単語領域がないと判定された場合は(ステップS7;NO)、ステップS8に示す新出単語の特定処理を行わず、ステップS9以降の処理に進む。
次に、制御部11は、テキストデータから抽出された各単語について、付加情報を付与するか否かの判定を行う。具体的には、まず、ステップS5で生成された単語リストから単語を読み出し(ステップS9)、その単語を新出単語リストL2から検索し、一致するものがあるか否かによって、その単語が新出単語であるか否かを判定する(ステップS10)。その単語と一致するものが新出単語リストL2から検索された場合、すなわちその単語が新出単語であると判定された場合は(ステップS10;YES)、制御部11はその単語の付加情報を付与する必要がないと判断し、ステップS13の処理に進んで次の単語の判定処理に進む。新出単語でない場合は(ステップS10;NO)、その単語を単語テーブルTBLから検索し、検索されたものと対応する「等級」の項目を読み出す。そして、読み出した等級と、操作部16から入力された翻訳レベルとを比較することによって、付加情報を付与するか否かを判定する。具体的には、本実施形態においては、この等級と翻訳レベルとは同じ数値範囲で表現されているため、その単語の等級(難易度)が、翻訳レベル以下であるか否かを判定し(ステップS11)、翻訳レベル以下であると判定された場合は(ステップS11;YES)、付加情報を付与する必要がないと判断し、ステップS13の処理に進む。その単語の等級が翻訳レベルよりも高いと判定された場合は(ステップS11;NO)、付加情報を付与する必要があると判断し、単語の付加情報を単語テーブルTBLから読み出して、単語に付加情報を付与し(ステップS12)、ステップS13の処理に進んで次の単語の判定処理に進む。単語リストに記憶されたすべての単語について判定が終わっていない場合は(ステップS13;NO)、ステップS9の処理に戻って次の単語の判定処理を行い、単語リストに記憶された全ての単語について判定処理を終えると(ステップS13;YES)、ステップS14以降の処理に進む。このようにして翻訳レベルよりも難易度の高い単語について、その単語の付加情報がテキストデータに付与されることになる。
上述したステップS9からステップS13に示した判定処理について、その具体的な判定内容を、図3に示した単語テーブルTBLを参照しつつ以下に説明する。なお、以下の説明においては、操作部16から入力された翻訳レベルが「2」であったと仮定する。また、複合機1が読み込んだ原稿には、「文化」、「一」、「在」という単語が記されており、「文化」という単語は新出単語領域、すなわち図1のパラグラフBの領域に記された新出単語であり、「一」と「在」という単語は新出単語ではないと仮定する。この場合、「文化」という単語は、新出単語であるために、ステップS10の判定が「YES」となり、付加情報は付与されない。一方、「一」という単語は、新出単語ではないため、ステップS10の判定が「NO」となり、ステップS11の処理に進む。ここで、複合機1の制御部11は、記憶部12に記憶されている単語テーブルTBLを参照し、この単語と対応する等級を読み出す。この単語と対応して記憶されている等級は「1」であるため、ステップS11の処理において、制御部11は、単語の難易度が翻訳レベルより以下であると判定し、付加情報を付与しないと判定する。さらに、「在」という単語は、進出単語ではないため、ステップS10の判定が「NO」となり、ステップS11の処理に進む。ここで、制御部11は、記憶部12に記憶されている単語テーブルTBLを参照し、この単語と対応する等級を読み出す。この単語と対応して記憶されている等級は「3」であるため、制御部11は、ステップS11の処理において、単語の難易度が翻訳レベルよりも高いと判定し、ステップS12の処理に進んでテキストデータに付加情報を付与する。
全ての単語について上述した判定処理が行われると、制御部11は、付加情報が付与されたテキストデータを画像データに変換し、画像形成部14によって印刷出力する(ステップS14)。
図5は、出力される画像データの一例を示す図である。図示のように、パラグラフAに記されている単語のうちの、一部の単語について、その単語の下部に発音記号Cが、出力される画像データの右上部分に翻訳単語Dがそれぞれ付与されて出力される。
以上説明したように本実施形態によれば、単語の発音記号や翻訳単語等の付加情報を教材(原稿)に付与(追記)することによって、学習者が未知単語の意味等を調べるために辞書を引く手間を省き、学習者の学習効率を向上させることが可能となる。また、操作部16から入力される翻訳レベルとそれぞれの単語の難易度とを比較することによってその単語に付加情報を付与するか否かを判定し、翻訳レベルよりも難易度の低い単語には付加情報を付与しないようにすることによって、学習者にとって必要ない情報(既知単語の発音記号や翻訳単語)は付さず、ユーザの所望するレベル(難易度)以上の単語についてのみ付加情報を付与することができ、教材(原稿)が煩雑になることを防ぐことができる。
また、学習者の所望する単語の発音記号や翻訳単語等の付加情報についてのみ付するため、学習者は教材のすべての翻訳結果を得るわけではなく、そのため、学習者の学習効果を低下させるという懸念もない。
なお、上述した実施形態においては、複合機1が読み取る入力原稿として、中国語の教科書を用いるようにしたが、複合機1が読み取る入力原稿はこれに限定されるものではなく、教科書以外の本や雑誌、新聞等、任意の原稿を用いることが可能である。雑誌等を入力原稿として用いる場合であっても、複合機1の制御部11は、その原稿に含まれる単語の難易度と翻訳レベルとを比較して付加情報を付与するか否かを判定することによって、ユーザの所望するレベル(難易度)以上の単語についてのみ付加情報を付与することができる。
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態では、学習者が複合機1の操作部16を用いて単語翻訳処理の翻訳レベルを入力するようにし、複合機1の制御部11は、入力された翻訳レベルとそれぞれの単語の難易度とを比較することによって単語翻訳処理(付加情報付与処理)を行うようにしたが、翻訳レベルを学習者が入力するようにせず、複合機1が、テキストデータに含まれる単語の出現頻度に基づいて翻訳レベルを特定するようにしてもよい。その一例について以下に説明する。
上述した実施形態の図4に示したステップS5の処理において、制御部11は、単語リストを生成する際に、テキストデータから特定された単語と、その単語の出現頻度とを対応付けて単語リストに記憶するようにする。図6は、本変形例で生成される単語リストのデータ構成を示す図である。図において、「単語」の項目には、テキストデータから特定された単語が記憶され、「出現頻度」の項目には、その単語のテキストデータにおける出現頻度が記憶される。例えば、図6に示す例においては、「文化」という単語がそのテキストデータに「3」回出現したことが示されている。
複合機1の制御部11は、単語リストに記憶されたそれぞれの単語の出現頻度と、単語テーブルTBLを参照することによって得られるその単語の難易度とに基づいて翻訳レベルを特定する。この特定方法としては、例えば難易度の高い順にその難易度と対応する単語の出現頻度を判定していき、出現頻度が所定率以上である場合に、その難易度がその原稿の翻訳レベルであると特定するようにする。なお、この特定方法はこれに限定されるものではなく、設計等に応じて変更可能である。
このようにすれば、学習者が翻訳レベルを複合機1に入力することなく、複合機が翻訳レベルを自動的に判定し、判定された翻訳レベルに基づいて単語翻訳処理を行うことが可能となる。
(2)上述の実施形態では、原稿を読み込んでその画像データを生成した複合機1が、単語の難易度(等級)と翻訳レベルとを比較することによって付加情報を付与するか否かを判定するようになっていた。これに対し、通信ネットワークで接続された2以上の複数の装置が上記実施形態に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の複合機1を実現させるようにしてもよい。その一例について図7を参照しつつ以下に説明する。図において、1´は、複合機100とサーバ装置200とが通信ネットワークで接続された文書処理システムである。この文書処理システム1´においては、上記実施形態における複合機1の画像読取部13と画像形成部14に相当する機能を複合機100が実装し、付加情報を付与するか否かの判定処理や単語翻訳処理(付加情報付与処理)等の処理回路をサーバ装置200が実装するようにする。この文書処理システム1´においては、複合機100がサーバ装置200に付加情報を付与するか否かの判定結果や付加すべき付加情報を、通信ネットワークを介して問い合わせるようにすればよい。
(3)上述した実施形態では、単語翻訳処理の結果を用紙に印刷出力するようにしたが、出力方法はこれに限らず、パーソナルコンピュータ等の他の装置とデータの授受を行うための通信部を複合機1に搭載し、複合機1の制御部11がその通信部を介して他の装置に処理結果を送信することによって出力するようにしてもよい。また、複合機1にディスプレイデバイスを搭載し、文書画面をそのディスプレイデバイスに表示させるようにしてもよい。
また、上述した実施形態では、複合機1の制御部11は、付加情報をテキストデータに付与(追記)して、付加情報が付与されたテキストデータを画像データに変換して画像形成部14によって印刷出力させるようにしたが、付加情報が付与されたテキストデータを出力せず、付加情報のみを出力するようにしてもよい。
(4)上述した実施形態では、中国語で記された教材(原稿)に対して、英語の単語翻訳処理を行うようにしたが、翻訳元と翻訳先の言語はこれに限定されるものではなく、本発明は任意の言語について実施することが可能である。他の言語について実施する場合は、上述した実施形態における単語テーブルTBLの「単語」の項目に翻訳元言語の単語を記憶させ、「翻訳単語」の項目に、その単語と対応する翻訳先言語の翻訳単語を記憶させておくようにすればよい。
(5)上述した実施形態では、テキストデータから特定された単語が新出単語であるか否かを判定する方法として、新出単語領域(特定単語領域)に含まれる新出単語(特定単語)の新出単語リストを生成し、その単語が新出単語リストに記憶されているか否かを判定することによって、その単語が新出単語であるか否かを判定するようにしたが、新出単語であるか否かの判定方法はこれに限定されるものではなく、例えば、単語リストに新出単語であるか否かを示す情報を記憶する項目を設けるようにし、その項目を参照することによって新出単語であるか否かを判定するようにしてもよい。または、新出単語領域から抽出された新出単語を、単語リストから削除するようにし、単語リストに残った(単語リストから削除されなかった)単語が新出単語でないと判定するようにしてもよく、いずれの方法を採用するかは設計等に応じて変更可能である。
(6)上述した実施形態では、単語の付加情報の付与(追記)方法として、図5に例示したように、単語の下部に発音記号Cを、出力される画像データの右上部分に翻訳単語Dをそれぞれ付与するようにしたが、付与方法はこれに限定されるものではなく、学習者がその付加情報を確認できる方法であればどのようなものであってもよい。例えば、図8の(a)に示すように、単語とその付加情報とを引き出し線でつなぐことによって付与するようにしてもよく、または、図8の(b)に示すように、付加情報を付与する単語に注釈符号Eを付与し、読み込んだ原稿の文字領域以外の領域または読み込んだ原稿とは別の用紙に別途付加情報Fを追記して出力するようにしてもよい。
本発明の実施形態に係る原稿の一例を示す図である。 同実施形態に係る複合機の構成を示すブロック図である。 同実施形態に係る単語テーブルのデータ構成を示す図である。 同実施形態の複合機の処理を示すフローチャートである。 同実施形態の複合機が出力する画像データの一例を示す図である。 本発明の変形例に係る単語リストのデータ構成を示す図である。 本発明の変形例に係る文書処理システムの構成を示すブロック図である。 付加情報が付与された画像データの一例を示す図である。
符号の説明
1…複合機、11…制御部、12…記憶部、13…画像読取部、14…画像形成部、15…表示部、16…操作部、17…バス。

Claims (5)

  1. 単語とその単語の付加情報およびその単語の難易度とを対応付けて記憶する記憶手段と、
    入力原稿を光学的に読み取り画像データを生成する画像読取手段と、
    前記画像読取手段により生成された画像データから文字の内容を表すテキストデータを生成するテキストデータ生成手段と、
    前記テキストデータの文字列の区切りを認識して単語を特定する単語特定手段と、
    前記単語特定手段によって特定された複数の単語の各々に対して、当該単語の出現頻度を認識するとともに、当該単語と一致するものを前記記憶手段から検索し、検索されたものと対応する前記難易度を前記記憶手段から読み出して、各単語の前記難易度と前記出現頻度とに基づいて翻訳レベルを特定する翻訳レベル特定手段と、
    前記単語特定手段によって特定された各々の単語と一致するものを前記記憶手段から検索し、検索されたものと対応する難易度と、前記翻訳レベルとを比較することによって前記付加情報を付与するか否かを判定する翻訳単語判定手段と、
    前記翻訳単語判定手段によって前記付加情報を付与すると判定された単語について、当該単語と対応する付加情報を前記記憶手段から読み出し、読み出した付加情報を出力する付加情報出力手段と
    を備えることを特徴とする文書処理装置。
  2. 単語とその単語の付加情報およびその単語の難易度とを対応付けて記憶する記憶手段と、
    入力原稿を光学的に読み取り画像データを生成する画像読取手段と、
    前記画像読取手段により生成された画像データから文字の内容を表すテキストデータを生成するテキストデータ生成手段と、
    前記テキストデータの文字列の区切りを認識して単語を特定する単語特定手段と、
    翻訳レベルが入力される翻訳レベル入力手段と、
    前記単語特定手段によって特定された各々の単語と一致するものを前記記憶手段から検索し、検索されたものと対応する難易度と、前記翻訳レベルとを比較することによって前記付加情報を付与するか否かを判定する翻訳単語判定手段と、
    前記翻訳単語判定手段によって前記付加情報を付与すると判定された単語について、当該単語と対応する付加情報を前記記憶手段から読み出し、読み出した付加情報を出力する付加情報出力手段と
    を備えることを特徴とする文書処理装置。
  3. 前記画像データに対してレイアウト解析を行って、特定の単語が記された特定単語領域を特定するレイアウト解析手段と、
    前記レイアウト解析手段によって特定された特定単語領域に記されている特定単語を抽出する特定単語抽出手段とを備え、
    前記翻訳単語判定手段は、前記単語特定手段によって特定された各々の単語に対して、前記特定単語抽出手段によって抽出された特定単語については前記付加情報を付与しないと判定し、前記特定単語抽出手段によって抽出されていない単語については、その単語と一致するものを前記記憶手段から検索し、検索されたものと対応する難易度と、前記翻訳レベルとを比較することによって前記付加情報を付与するか否かを判定する
    ことを特徴とする請求項1または2に記載の文書処理装置。
  4. 前記翻訳単語判定手段によって前記付加情報を付与すると判定された単語について、当該単語と対応する付加情報を前記記憶手段から読み出し、読み出した付加情報を前記テキストデータに付与する付加情報付与手段
    を備え、
    前記付加情報出力手段に代えて、
    前記付加情報付与手段によって付加情報が付与されたテキストデータを出力する出力手段
    を備えることを特徴とする請求項1または2に記載の文書処理装置。
  5. 前記付加情報は、前記単語の発音記号または当該単語の翻訳単語の少なくともいずれか一方であることを特徴とする請求項1乃至4のいずれかに記載の文書処理装置。
JP2005173914A 2005-06-14 2005-06-14 文書処理装置 Pending JP2006349836A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005173914A JP2006349836A (ja) 2005-06-14 2005-06-14 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005173914A JP2006349836A (ja) 2005-06-14 2005-06-14 文書処理装置

Publications (1)

Publication Number Publication Date
JP2006349836A true JP2006349836A (ja) 2006-12-28

Family

ID=37645796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005173914A Pending JP2006349836A (ja) 2005-06-14 2005-06-14 文書処理装置

Country Status (1)

Country Link
JP (1) JP2006349836A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019040159A (ja) * 2017-08-29 2019-03-14 京セラ株式会社 電子機器、充電台、コミュニケーションシステム、方法、およびプログラム
US11568276B1 (en) 2021-08-25 2023-01-31 International Business Machines Corporation Adaptive document understanding

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019040159A (ja) * 2017-08-29 2019-03-14 京セラ株式会社 電子機器、充電台、コミュニケーションシステム、方法、およびプログラム
US11386894B2 (en) 2017-08-29 2022-07-12 Kyocera Corporation Electronic device, charging stand, communication system, method, and program
US11568276B1 (en) 2021-08-25 2023-01-31 International Business Machines Corporation Adaptive document understanding

Similar Documents

Publication Publication Date Title
JP7159608B2 (ja) 操作画面の表示装置、画像処理装置及びプログラム
US8630852B2 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
JP3038079B2 (ja) 自動翻訳装置
JP2006350664A (ja) 文書処理装置
JP2006276914A (ja) 翻訳処理方法、文書処理装置およびプログラム
JP2013097446A (ja) 情報出力装置、情報出力方法、及びコンピュータプログラム
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
US9529792B2 (en) Glossary management device, glossary management system, and recording medium for glossary generation
JP5430312B2 (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
JP2003209643A (ja) 画像処理装置
JP2006276903A (ja) 文書処理装置
JP2006349836A (ja) 文書処理装置
JP6593259B2 (ja) 電子機器
JP2007011683A (ja) 文書管理支援装置
JP4797507B2 (ja) 翻訳装置、翻訳システムおよびプログラム
JP2006262152A (ja) 画像形成方法、画像形成装置およびプログラム
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JP2017083920A (ja) 印刷装置
JP2007004429A (ja) 文書処理装置
JP5742279B2 (ja) 指示書実行装置、指示書実行プログラム、及び画像形成システム
JP2928515B2 (ja) 訳語出力装置
JP3971764B2 (ja) 画像形成装置
JP2021128618A (ja) 表示装置、及びプログラム
JP3347482B2 (ja) かな漢字変換装置
JP5961656B2 (ja) 文書管理装置および文書管理プログラム