JP2006350664A

JP2006350664A - 文書処理装置

Info

Publication number: JP2006350664A
Application number: JP2005175615A
Authority: JP
Inventors: Shoichi Tateno; 昌一舘野; Kei Tanaka; 圭田中; Kotaro Nakamura; 浩太郎中村; Takashi Nagao; 隆長尾; Masayoshi Sakakibara; 正義榊原; Shinu Ho; 新宇彭; Teruka Saito; 照花斎藤; Toshiya Koyama; 俊哉小山
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-06-15
Filing date: 2005-06-15
Publication date: 2006-12-28
Also published as: US20060285748A1

Abstract

【課題】ユーザが翻訳先言語を入力しなくても翻訳先言語を判定して翻訳処理を行う技術を提供する。
【解決手段】複合機１の制御部１１は、翻訳指示が入力されたことを検知すると、画像読取部１３を制御して載置された文書および特定画像の画像読取を行い、文書と特定画像との内容を表す画像データを生成する。そして、文字領域の画像データと特定画像領域の画像データとを切り出し、文書領域の画像データからテキストデータを生成して言語を特定する。続けて、制御部１１は、特定画像領域の画像データと、照合画像テーブルＴＢＬに記憶されている照合画像データとを照合し、その一致度に基づいて翻訳先言語を特定する。制御部１１は、テキストデータの言語が翻訳元言語であり、特定画像データから特定された言語が翻訳先言語であると判断し、テキストデータを、翻訳元言語から翻訳先言語に翻訳する。
【選択図】図２

Description

本発明は、文書をある言語から他の言語に翻訳する技術に関する。

近年、文書をある言語から他の言語に変換する翻訳装置が使用されている。特に、翻訳元の文書（原稿）が紙文書で提供された場合に、紙文書を光学的に読み取って電子化し、文字認識を行った上で自動翻訳を行う装置が開発されている（例えば、特許文献１）。
特開平８−００６９４８号公報

上述したような自動翻訳を行う装置を使用する場合、ユーザは、翻訳元の言語や翻訳先の言語をその装置に入力（または選択）することによって言語を指定する必要がある。このような入力操作は複雑である場合が多く、例えばユーザがその装置を日常的に使用していない場合などは、その入力操作に手間がかかりユーザの作業効率が低下するという問題がある。このような問題に対応するために、ユーザに操作入力を促すメッセージなどを液晶ディスプレイ等に表示する装置が開発されているが、この場合でも、例えば日本語でメッセージが表示される場合は、日本語を理解できないユーザは表示されるメッセージの意味を理解することができず、入力操作を行うことが困難であるという問題があった。

本発明は上述した背景に鑑みてなされたものであり、その目的は、ユーザが翻訳先の言語を入力することなく、翻訳先の言語を判定して翻訳処理を行う技術を提供することである。

上記課題を達成するために、本発明は、シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、前記画像データから、活字文字が記されている活字領域の画像データと、手書文字が記されている手書領域の画像データとを切り出す領域分離手段と、前記活字領域の画像データから、当該活字領域内にある活字文字の内容を表す活字テキストデータを取得する活字テキストデータ取得手段と、前記手書領域の画像データから、当該手書領域内にある手書文字の内容を表す手書テキストデータを取得する手書テキストデータ取得手段と、前記活字テキストデータの言語を特定する活字言語特定手段と、前記手書テキストデータの言語を特定する手書言語特定手段と、前記活字テキストデータを、前記活字言語特定手段によって特定された言語から、手書言語特定手段によって特定された言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、前記翻訳テキストデータを出力する出力手段とを備えることを特徴とする文書処理装置を提供する。
この文書処理装置によれば、文書から活字文字が記された領域の画像データと手書文字が記された領域の画像データとを分離し、分離された画像データの各々からテキストデータを個別に取得するようになっている。そして、それらのテキストデータの各々に対して言語を特定することによって、翻訳元言語と翻訳先言語とを特定できるようになっている。

また、本発明は、シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、前記画像データから、文字が記されている文字領域の画像データと、言語を特定する特定画像が形成されている特定画像領域の特定画像データとを切り出す領域分離手段と、前記文字領域の画像データから、当該文字領域内にある文字の内容を表すテキストデータを取得するテキストデータ取得手段と、前記テキストデータの言語を特定する文字言語特定手段と、前記特定画像領域の特定画像データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、前記翻訳テキストデータを出力する出力手段とを備えることを特徴とする文書処理装置を提供する。
この文書処理装置によれば、言語を特定する特定画像が形成された領域の画像データと文字が記された領域の画像データとを分離し、特定画像の画像データから翻訳先言語を特定するとともに、文字が記された領域の画像データからテキストデータを取得し、そのテキストデータの言語を特定するようになっている。つまり、テキストデータから翻訳元言語を、特定画像の画像データから翻訳先言語をそれぞれ特定できるようになっている。

また、本発明は、シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、言語を特定する特定画像を走査し、前記特定画像の内容をビットマップとして表す特定画像データを取得する特定画像読取手段と、前記画像データから、文字の内容を表すテキストデータを取得するテキストデータ取得手段と、前記テキストデータの言語を特定する文字言語特定手段と、前記特定画像データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、前記翻訳テキストデータを出力する出力手段とを備えることを特徴とする文書処理装置を提供する。
この文書処理装置によれば、特定画像の画像データから翻訳先言語を特定するとともに、文書の画像データからテキストデータを取得し、そのテキストデータの言語を特定するようになっている。つまり、テキストデータから翻訳元言語を、特定画像の画像データから翻訳先言語をそれぞれ特定できるようになっている。
本発明の好ましい態様において、複数の照合画像データを記憶する記憶手段を備え、前記翻訳先言語特定手段は、前記特定画像データを前記記憶手段に記憶された照合画像データと照合し、その一致度に基づいて翻訳先言語を特定するようにしてもよい。
また、本発明の更に好ましい態様において、前記照合画像データは、パスポート、紙幣、硬貨、バーコードの少なくともいずれか一つの画像を示す画像データであるようにしてもよい。

また、本発明は、シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、前記画像データから、文字の内容を表すテキストデータを取得するテキストデータ取得手段と、前記テキストデータの言語を特定する文字言語特定手段と、音声を集音して音声データを生成する音声入力手段と、前記音声データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、前記翻訳テキストデータを出力する出力手段とを備えることを特徴とする文書処理装置を提供する。
この文書処理装置によれば、文書の画像データからテキストデータを取得し、そのテキストデータの言語を特定するとともに、集音された音声の音声データから翻訳先言語を特定するようになっている。テキストデータから翻訳元言語を、音声データから翻訳先言語をそれぞれ特定できるようになっている。

本発明によれば、ユーザが翻訳先の言語を入力することなく、翻訳先の言語を判定して翻訳処理を行うことが可能となる。

（第１実施形態）
本発明の第１実施形態を説明する。まず、本実施形態において用いる主要な用語を定義しておく。「活字文字」の語は、ゴシック体、明朝体といったような特定のタイプフェースの字形を転写して得られる文字を意味し、「手書文字」の語は、活字文字以外の文字を意味するものとして用いる。更に、「文書」の語は、情報が文字の綴りとして記されているシート状媒体（例えば、用紙等）を意味するものとして用いる。また、活字文字によって記されている箇所を閲覧した者がその取扱や校正内容などを追記した手書文字を「アノテーション」と呼ぶ。

図１は、アノテーションが追記された状態の文書の一例を示す図である。同図に示す文書は、一枚の用紙に、パラグラフＡ、パラグラフＢが活字文字によって記されており、更に、手書文字によるアノテーションＣが追記されている。

次に、図２に示すブロック図を参照しながら、本実施形態である複合機１の構成について説明する。複合機１は、文書を光学的に読み取って電子化するスキャナ機能を備えた装置である。図において、１１は、例えばＣＰＵ（Central Processing Unit）等の演算装置を備えた制御部である。１２は、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）、ハードディスク等で構成されており、制御プログラムや翻訳プログラム等の各種プログラムを記憶する記憶部である。制御部１１は、記憶部１２に記憶されているプログラムを読み出して実行することにより、バス１８を介して複合機１の各部を制御する。

１３は、文書を光学的に走査してその画像を読み取る画像読取部である。この画像読取部１３は、文書が載置される載置部を備えており、この載置部に載置された文書を光学的に走査してその画像を読み取り、２値のビットマップデータである画像データを生成する。１４は、画像データを用紙に印刷する画像形成部である。画像形成部１４は、制御部１１によって供給される画像データに基づいて図示せぬ感光体ドラム上に像光を照射して表面に静電電位の差による潜像を形成し、この潜像をトナーの選択的な付着によってトナー像とし、そのトナー像を転写および定着して用紙に画像を形成する。

１５は、例えば液晶ディスプレイ等で構成され、制御部１１からの制御信号に従ってユーザへのメッセージや作業状況を示す画像などを表示する表示部である。１６は、テンキー，スタートボタン，ストップボタン，液晶ディスプレイ上に設置されたタッチパネル等で構成され、ユーザの操作入力およびその時の表示画面に応じた信号を出力する操作部であり、ユーザは操作部１６を操作することにより、複合機１に対して指示入力を行うことができる。１７は、各種通信装置等を備える通信部であり、制御部１１の制御の下、他の装置とのデータの授受を行う。

次に、本実施形態の動作について説明する。まず、複合機１のユーザは、操作部１６を操作して翻訳指示を入力する。具体的には、ユーザは、翻訳処理の対象となる文書を画像読取部１３の載置部に載置し、操作部１６を操作することにより、複合機１に翻訳指示を入力する。

図３は、複合機１の制御部１１が行う処理を示すフローチャートである。複合機１の制御部１１は、翻訳指示が入力されたことを検知すると（ステップＳ１；ＹＥＳ）、文書の画像読取を行う（ステップＳ２）。すなわち、制御部１１は、画像読取部１３を制御して文書の画像を光学的に読み取らせ、ビットマップの画像データを生成する。

次に、制御部１１は、生成した画像データから、活字文字が記されている領域（以下、「活字領域」と呼ぶ）の画像データと手書文字が記された領域（以下、「手書領域」と呼ぶ）の画像データとを切り出し、活字領域の画像データと手書領域の画像データとを分離する（ステップＳ３）。
画像データの切り出しは以下のように行われる。まず、文書の画像データによって表される各画素を横方向に走査し、隣り合う２つの文字の間の距離、即ち、連続する白画素の並びの幅が、所定値Ｘよりも小さかったとき、それらの連続する白画素を黒画素に置き換える。この所定値Ｘは、隣にある文字との距離として想定される値と概ね一致させる。同様に、各画素を縦方向にも走査し、連続する白画素の並びの幅が所定値Ｙよりも小さかったとき、それらの連続する白画素を黒画素に置き換える。この所定値Ｙは、文字行の間隔として想定される値と概ね一致させる。この結果、黒画素で塗り潰された領域が形成される。図４は、図１の文書に上述の置き換え処理を施した状態を示すものである。この図では、黒画素で塗り潰された領域Ｌ１乃至Ｌ３が形成されている。
黒画素で塗り潰された領域が形成されると、今度は、各領域が活字領域か手書領域かの判定に移る。この判定では、まず処理対象となる注目領域を特定し、特定された領域内において置き換えられていた黒画素を白画素に戻し、元の描画内容を復元する。そして、その領域内の画素を横方向に走査し、連続する白画素のピッチのばらつきの程度が所定値よりも小さいか否か判定する。一般に、活字文字が記された領域であれば隣り合う２つの文字の間隔は概ね一定となるため、連続する白画素のピッチのばらつきの程度が所定値よりも小さくなる。一方で、手書文字が記された領域であれば隣り合う文字２つの間隔は一定とならないため、連続する白画素のピッチのばらつきの程度が所定値よりも大きくなる。図４に示したＬ１乃至Ｌ３の領域にかかる判定を施した場合、Ｌ１とＬ３の領域は活字領域であるとの判定結果が下され、Ｌ２の領域は手書領域であるとの判定結果が下されることになる。

図３の説明に戻る。次に、制御部１１は、活字領域の画像データから活字文字の内容を表す活字テキストデータを生成する（ステップＳ４）。このステップにおける活字テキストデータの取得は以下のように行われる。まず、画像データから文字の画像を一文字ずつ切り出して正規化する。そして、正規化した画像と予め辞書として準備された文字の形状とをいわゆるパターンマッチング手法によって比較し、類似度が最も高い文字の文字コードを認識結果として出力する。

続けて、制御部１１は、手書領域の画像データから手書文字の内容を表す手書テキストデータを生成する（ステップＳ５）。このステップにおける手書テキストデータの取得は以下のように行われる。まず、画像データから文字の画像を一文字ずつ切り出して正規化する。そして、正規化した画像から文字の各構成要素の特徴を抽出し、それら抽出した特徴と予め辞書として準備された特徴データとを比較することで、文字の各構成要素を確定させる。更に、確定した構成要素を元のように組み立てて得られた文字の文字コードを出力する。

次に、制御部１１は、活字テキストデータの言語を特定する（ステップＳ６）。具体的には、制御部１１は、予め辞書として準備された各言語に固有な単語が、この活字テキストデータに含まれているかどうかを検索し、検索された単語の言語がその活字テキストデータの言語であると特定する。続けて、手書テキストデータについても、同様にして言語を特定する（ステップＳ７）。

制御部１１は、活字テキストデータの言語が翻訳元言語であり、手書テキストデータの言語が翻訳先言語であると判断し、活字テキストデータを翻訳元言語から翻訳先言語に翻訳して翻訳テキストデータを生成する（ステップＳ８）。そして、活字テキストデータの翻訳結果を示す翻訳テキストデータと手書テキストデータとを画像形成部１４によって用紙に印刷出力する（ステップＳ９）。

以上説明した本実施形態によれば、アノテーションが追記された文書を読み込んだ複合機１が、その文書から活字文字が記された領域の画像データと手書文字が記された領域の画像データとを分離し、分離された画像データの各々からテキストデータを個別に取得するようになっている。そして、それらのテキストデータに対して言語判定処理を各々行い、翻訳元言語と翻訳先言語とを特定できるようになっている。このようにすることによって、複合機１のユーザは、翻訳元言語や翻訳先言語を複合機１に入力しなくても、翻訳指示を入力するという簡単な操作を行うだけで、所望する言語に翻訳された翻訳結果を得ることができる。

（第２実施形態）
本発明の第２実施形態を説明する。本実施形態である複合機１のハードウェア構成は、記憶部１２に照合画像テーブルＴＢＬ（図２に点線で図示）を記憶している点を除いて第１実施形態と同様である。

図５に、照合画像テーブルＴＢＬのデータ構造を示す。このテーブルには、制御部１１が翻訳先言語を判断する際に利用されるテーブルである。図５に示すように、照合画像テーブルＴＢＬには、「言語種別」と「照合画像データ」の各項目が互いに関連付けられて記憶されている。これらの項目のうち、「言語種別」には、例えば日本語や英語等の言語を一意に識別できる識別情報が記憶されている。「照合画像データ」には、言語種別と対応する国のパスポート（旅券）の画像データが照合画像データとして記憶されている。本実施形態における複合機１の制御部１１は、画像読取部１３によって読み取られた画像データを、照合画像テーブルＴＢＬに記憶されている照合画像データと照合し、その一致度に基づいて翻訳先言語を特定する。この特定処理は、例えばＳＶＭ（サポートベクトルマシン）アルゴリズム等を用いて行われる。

続けて、本実施形態の動作を説明する。まず、複合機１のユーザは、操作部１６を操作して翻訳指示を入力する。具体的には、ユーザは、翻訳処理の対象となる文書とともに、自身のパスポート（特定画像）を画像読取部１３の載置部に載置し、操作部１６を操作することにより、複合機１に翻訳指示を入力する。

図６は、複合機１の制御部１１が行う処理を示すフローチャートである。複合機１の制御部１１は、翻訳指示が入力されたことを検知すると（ステップＳ１１；ＹＥＳ）、画像読取部１３を制御して載置された文書およびパスポート画像の画像読取を行い、文書とパスポート画像との内容をビットマップとして表す画像データを生成する（ステップＳ１２）。図７は、画像読取部１３によって読み取られる画像の一例を示す図である。同図に示す例においては、パラグラフＡ、パラグラフＢが記された文書とパスポート画像Ｄとが読み取られることになる。

次に、制御部１１は、画像データに対し所定のアルゴリズムを用いてレイアウト解析等を行い、文字領域の画像データとパスポート画像領域（特定画像領域）の画像データとを切り出す（ステップＳ１３）。具体的には、画像データを所定の領域に分割し、各領域の種別（文字、図等）を判定する。図７に示した例においては、パラグラフＡとパラグラフＢが記された領域が文字領域であると判定され、パスポート画像Ｄの領域が特定画像領域であると判定される。

次に、制御部１１は、文字領域の画像データからテキストデータを生成し（ステップＳ１４）、生成したテキストデータの言語を特定する（ステップＳ１５）。これらの処理は第１実施形態と同様にして行う。続けて、制御部１１は、ステップＳ１３で切り出された特定画像領域の画像データと、照合画像テーブルＴＢＬに記憶されているパスポート画像データとを照合し、その一致度に基づいて翻訳先言語を特定する（ステップＳ１６）。

制御部１１は、テキストデータの言語が翻訳元言語であり、パスポート画像データ（特定画像データ）から特定された言語が翻訳先言語であると判断し、テキストデータを、翻訳元言語から翻訳先言語に翻訳し、翻訳テキストデータを生成する（ステップＳ１７）。そして、テキストデータの翻訳結果を示す翻訳テキストデータを画像形成部１４によって用紙に印刷出力する（ステップＳ１８）。

以上説明した本実施形態によれば、文書と言語を特定する特定画像（パスポート画像）とを読み込んだ複合機１が、文字が記された領域の画像データと特定画像が形成された領域の画像データとを分離し、特定画像の画像データから翻訳先言語を特定するとともに、文字が記された領域の画像データからテキストデータを取得し、そのテキストデータの言語を特定するようになっている。つまり、テキストデータから翻訳元言語を、特定画像の画像データから翻訳先言語をそれぞれ特定できるようになっている。このようにすることによって、複合機１のユーザは、翻訳元言語や翻訳先言語を複合機１に入力しなくても、翻訳指示を入力するという簡単な操作を行うだけで、所望する言語に翻訳された翻訳結果を得ることができ、ユーザの作業効率を向上させることが可能となる。

（第３実施形態）
本発明の第３実施形態を説明する。本実施形態である複合機１のハードウェア構成は、マイクロフォン１９（図２に点線で図示）を備えている点を除いて第１実施形態と同様である。マイクロフォン１９は、音声を集音する音声入力装置であり、本実施形態においては、複合機１の制御部１１は、このマイクロフォン１９で集音した音声に対してＡ／Ｄ変換等の処理を行い、デジタル形式の音声データを生成する。

次に、本実施形態の動作について説明する。まず、複合機１のユーザは、複合機１の操作部１６を操作して翻訳指示を入力する。具体的には、ユーザは、翻訳処理の対象となる文書を複合機１の画像読取部１３の載置部に載置して操作部１６を操作することにより、複合機１に翻訳指示を入力するとともに、マイクロフォン１９に対して翻訳先言語で音声を発音する。

図８は、複合機１の制御部１１が行う処理を示すフローチャートである。複合機１の制御部１１は、翻訳指示が入力されたことを検知すると（ステップＳ２１；ＹＥＳ）、まず、マイクロフォン１９で集音された音声からデジタル形式の音声データを生成し、記憶部２２に記憶させる（ステップＳ２２）。次に、文書の画像読取を行ってビットマップの画像データを生成し（ステップＳ２３）、読み取った画像データから文字の内容を表すテキストデータを生成する（ステップＳ２４）。そして、テキストデータから言語を特定する（ステップＳ２５）。

次に、ステップＳ２２で生成した音声データの言語を特定する（ステップＳ２６）。この判定は、以下のようにして行われる。制御部２１は、予め辞書として準備された各言語に固有な単語が、この音声データに含まれているかどうかを検索し、検索された単語を有する言語がその音声データの言語であると特定する。ここで各言語に固有な単語として予め辞書として準備する単語は、例えば英語の場合は「and」、「I」、「we」といった単語あるいは接続詞や接頭語など、頻繁に使用される単語が望ましい。

制御部１１は、テキストデータの言語が翻訳元言語であり、音声データから特定された言語が翻訳先言語であると判断し、テキストデータを、翻訳元言語から翻訳先言語に翻訳し、翻訳テキストデータを生成する（ステップＳ２７）。そして、テキストデータの翻訳結果を示す翻訳テキストデータを画像形成部１４によって用紙に印刷出力する（ステップＳ２８）。

以上説明した本実施形態によれば、文書の画像データからテキストデータを取得し、そのテキストデータの言語を特定するとともに、集音された音声を表す音声データから翻訳先言語を特定するようになっている。このようにすることによって、複合機１のユーザは、翻訳元言語や翻訳先言語を複合機１に入力しなくても、翻訳指示および音声を入力するという簡単な操作を行うだけで、所望する言語に翻訳された翻訳結果を得ることができ、ユーザの作業効率を向上させることが可能となる。

（第４実施形態）
本発明の第４実施形態を説明する。図９は、本実施形態に係るシステムの構成を示すブロック図である。図示のように、このシステムは、複合機１と、音声レコーダ２と、コンピュータ装置３から構成される。本実施形態における複合機１のハードウェア構成は、第１実施形態と同様である。そのため、以下の説明においては第１実施形態と同様の符号を用いることとし、その詳細な説明を省略する。

次に、図１０に示すブロック図を参照しながら、音声レコーダ２の構成について説明する。音声レコーダ２は、音声を集音してデジタルの音声データを生成する装置である。図において、２１は、例えばＣＰＵ等の演算装置を備えた制御部である。２２は、ＲＡＭやＲＯＭ、ハードディスク等で構成される記憶部であり、制御部２１は、記憶部２２に記憶されているプログラムを読み出して実行することにより、バス２８を介して音声レコーダ２の各部を制御する。２３は、音声を集音するマイクロフォンである。制御部２１は、マイクロフォン２３で集音した音声に対してＡ／Ｄ変換等の処理を行い、デジタル形式の音声データを生成する。

２５は、制御部２１からの制御信号に従ってユーザへのメッセージや作業状況を示す画面などを表示する表示部である。２６は、スタートボタン，ストップボタン等で構成され、ユーザの操作入力およびその時の表示画面に応じた信号を出力する操作部である。ユーザは表示部２５に表示された画像やメッセージを見ながら操作部２６を操作することにより、音声レコーダ２に対して指示入力を行うことができる。２７は、各種通信装置等を有する通信部であり、制御部２１の制御の下、複合機１とのデータの授受を行う。

２４は、バーコードを用紙に印字して出力するバーコード出力部である。制御部２１は、音声データを所定のアルゴリズムで解析して言語を特定し、特定された言語を示す情報をバーコードに変換する。バーコード出力部２４は、制御部２１の制御の下、このバーコードを用紙に印字して出力する。

続けて、図１１に示すブロック図を参照しながら、コンピュータ装置３の構成について説明する。コンピュータ装置３は、図１１に示すように、バス３８を介して装置全体の動作を制御する制御部３１、ＲＡＭやＲＯＭ、ハードディスク等で構成される記憶部３２のほかに、コンピュータディスプレイ等の表示部３５、マウスやキーボード等の操作部３６、音声を出力する音声出力部３３、通信部３７などを備えている。

次に、本実施形態の動作について説明する。なお、以下の説明では、文書を閲覧したユーザがその取扱や構成内容などを発音した音声を示す音声データを「音声アノテーション」と呼ぶこととする。

まず、音声レコーダ２が音声アノテーションを生成する動作について、図１２のフローチャートを参照しつつ説明する。まず、ユーザは、音声レコーダ２の操作部２６を操作して音声の録音開始指示を入力する。音声レコーダ２の制御部２１は、録音開始指示が入力されたことを検知すると（ステップＳ３１；ＹＥＳ）、マイクロフォン２３を介して音声を集音させ、デジタル形式の音声データの生成を開始する（ステップＳ３２）。次に、録音終了指示が入力されたことを検知すると（ステップＳ３３；ＹＥＳ）、制御部２１は音声データの生成を終了する（ステップＳ３４）。ここで生成された音声データが、後に説明する複合機１の処理で音声アノテーションとして用いられることになる。続けて、音声レコーダ２の制御部２１は、生成した音声アノテーションの言語を特定する（ステップＳ３５）。この判定は、以下のようにして行われる。制御部２１は、予め辞書として準備された各言語に固有な単語が、この音声アノテーションに含まれているかどうかを検索し、検索された単語を有する言語がその音声アノテーションの言語であると特定する。

言語を特定すると、音声レコーダ２の制御部２１は、特定した言語とその音声アノテーションのＩＤ（識別情報）とを含む情報をバーコードに変換し、そのバーコードをバーコード出力部２４によって紙に印字出力させる（ステップＳ３６）。

以上の処理によって音声アノテーションと音声アノテーションを示すバーコードとが生成される。音声レコーダ２のユーザは、出力されたバーコードを文書の所望の位置に添付する。図１３は、バーコードが添付された文書の一例を示す図である。同図に示す文書は、一枚の用紙に、パラグラフＡ、パラグラフＢが文字によって記されており、更に音声アノテーションと対応するバーコードＥが添付されている。

次に、複合機１の動作について説明する。まず、複合機１のユーザは、複合機１の操作部１６および音声レコーダ２の操作部２６を操作して翻訳指示を入力する。具体的には、ユーザは、音声レコーダ２の操作部２６を操作することにより、音声アノテーションを複合機１へ送信させる旨の送信指示を入力するとともに、翻訳処理の対象となる文書を複合機１の画像読取部１３の載置部に載置して操作部１６を操作することにより、複合機１に翻訳指示を入力する。

図１４は、複合機１の制御部１１が行う処理を示すフローチャートである。図１１に示す制御部１１の処理が、第２実施形態における図６に示すそれと異なる点は、翻訳先言語を特定する処理（ステップＳ１６に示した処理）において、特定画像データとしてパスポート画像ではなくバーコードを用いて言語を特定する点と、音声アノテーションを翻訳テキストデータにリンク付けして送信出力する点であり、それ以外の処理（ステップＳ１１〜ステップＳ１５，ステップＳ１７）の処理については、第２実施形態と同様である。そのため、以下の説明では、その相違点のみを説明し、第２実施形態と同様の処理については同じ符号を用いてその説明を省略する。

第２実施形態においては、図６のステップＳ１３で切り出された特定画像領域の画像データと、照合画像データテーブルＴＢＬに記憶されているパスポート画像データとを照合し、その一致度に基づいて翻訳先言語を特定するようにしたが（図６のステップＳ１６参照）、本実施形態においては、バーコード（特定画像データ）を所定のアルゴリズムで解析することによって、翻訳先言語を特定する（ステップＳ１６´）。

続けて、制御部１１は、テキストデータの言語が翻訳元言語であり、バーコード（特定画像データ）から特定された言語が翻訳先言語であると判断し、テキストデータを、翻訳元言語から翻訳先言語に翻訳して翻訳テキストデータを生成する（ステップＳ１７）。次に、音声レコーダ２から受信した音声アノテーションを翻訳テキストデータにリンク付けし（ステップＳ１９）、通信部１７を介してコンピュータ装置３に送信することによって出力する（ステップＳ１８´）。以上のようにして音声アノテーションが付与された翻訳テキストデータがコンピュータ装置３に送信されることになる。

次に、ユーザは、コンピュータ装置３を操作して、複合機１から受信した翻訳テキストデータを表示部３５に表示させる。コンピュータ装置３の制御部３１は、翻訳テキストデータを表示させる旨の命令が入力されたことを検知すると、翻訳テキストデータを表示部３５に表示させる。
図１５は、コンピュータ装置３の表示部３５に表示される画面の一例を示す図である。図示のように、表示領域Ａ´と表示領域Ｂ´には翻訳データが表示され、領域Ｅ´には音声アノテーションが付与されていることを示す情報（例えば、文字やアイコン等）が表示される。ユーザは、コンピュータ装置３の表示部３５に表示される画面を参照することによって、その翻訳結果を確認することができる。また、ユーザが、領域Ｅ´にマウスポインタを移動し左クリックする操作を行うと、コンピュータ装置３の制御部３１は、その領域Ｅ´に表示されている情報と対応する音声アノテーションを音声出力部３３によって音声出力させる。

以上説明したように本実施形態によれば、文書と言語を特定する特定画像（バーコード）とを読み込んだ複合機が、文字が記された領域の画像データと特定画像が形成された領域の画像データとを分離し、特定画像の画像データから翻訳先言語を特定するとともに、文字が記された領域の画像データからテキストデータを取得し、そのテキストデータの言語を特定するようになっている。つまり、テキストデータから翻訳元言語を、特定画像の画像データから翻訳先言語をそれぞれ特定できるようになっている。このようにすることによって、複合機１のユーザは、翻訳元言語や翻訳先言語を複合機１に入力しなくても、翻訳指示を入力するという簡単な操作を行うだけで、所望する言語に翻訳された翻訳結果を得ることができ、ユーザの作業効率を向上させることが可能となる。

なお、上述した実施形態においては、１つのバーコードが付与された文書を翻訳する動作について説明したが、例えば図１３の点線Ｆで示すように、付与されるバーコードの数が２以上の複数であっても勿論よい。複数のバーコードが付与された場合であっても、複合機１の制御部１１は、上述に説明した処理と同様の処理を行うことによって、バーコードから翻訳先言語を特定しその言語に翻訳する処理を行う。

（変形例）
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述の第１実施形態では、文書を読み込んでその画像データを生成した複合機１が、手書領域と活字領域の画像データを各々切り出し、それらの画像データからテキストデータを取得して翻訳処理を行うようになっていた。これに対し、通信ネットワークで接続された２以上の複数の装置が上記実施形態に係る機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の複合機１を実現させるようにしてもよい。その一例について図１６を参照しつつ以下に説明する。図において、１´は、画像形成装置１００とコンピュータ装置２００とが通信ネットワークで接続された文書処理システムである。この文書処理システム１´においては、第１実施形態における複合機１の画像読取部１３と画像形成部１４に相当する機能を画像形成装置１００が実装し、手書領域と活字領域の切り出しや画像データからテキストデータの生成処理、翻訳処理等をコンピュータ装置２００が実装する。
また、第２乃至第４実施形態についても同様であり、通信ネットワークで接続された２以上の複数の装置が当該実施形態に係る機能を分担するようにし、それら複数の装置を備えるシステムが当該実施形態の複合機１を実現するようにしてもよい。例えば、第２実施形態においては、照合画像テーブルＴＢＬを記憶する専用のサーバ装置を複合機と別途設けるようにし、複合機がそのサーバ装置に言語の特定結果を問い合わせるようにしてもよい。

（２）また、上述した第１乃至第３実施形態では、翻訳結果を示す翻訳テキストデータを用紙に印刷出力するようにしたが、翻訳テキストデータの出力方法はこれに限らず、複合機１の制御部１１が通信部１７を介してパーソナルコンピュータ等の他の装置に翻訳テキストデータを送信することによって出力するようにしてもよい。また、複合機１にディスプレイデバイスを搭載し、文書画面をそのディスプレイデバイスに表示させるようにしてもよい。

（３）上記第１実施形態における画像データから活字領域の画像データと手書領域の画像データとを切り出す際における活字領域と手書領域の分離を、上記実施形態に示した以外の手法により実現してもよい。例えば、注目領域内にある各文字のストロークの平均的太さを検出し、この太さを示す値が予め設定された閾値よりも大きい場合に活字文字を記した領域であると判定するようにしてもよい。また、注目領域内にある各文字の直線成分と非直線成分とを定量化し、直線成分の非直線成分に占める割合が所定の閾値より大きい場合に活字文字を記した領域であると判定するようにしてもよい。要するに、活字文字が記されている活字領域の画像データと、手書文字が記されている手書領域の画像データとを所定のアルゴリズムに基づいて切り出すようにすればよい。

（４）また、上記第１乃至第４実施形態においては、各言語に固有な単語が含まれているかどうかを検索することによってテキストデータの言語を特定するようにしたが、言語の特定方法はこれに限定されるものではなく、言語を好適に特定できる手法であればどのようなものであってもよい。また、第３乃至４実施形態における音声データの言語の特定方法についても同様であり、言語を好適に特定できる手法であればどのようなものであってもよい。

（５）なお、上述した第２または第４の実施形態においては、翻訳先言語を特定するための特定画像としてパスポート画像およびバーコードを用いたが、特定画像をパスポート画像またはバーコードに限定するものではなく、例えば、紙幣や硬貨など、言語が特定できるものであればどのようなものであってもよい。特定画像として紙幣を用いる場合は、照合画像テーブルＴＢＬの「照合画像データ」に、言語種別と対応する国の紙幣の画像データを記憶させておく。そして、ユーザは、翻訳指示を入力する際に、翻訳処理の対象となる文書とともに、翻訳先言語と対応する国の紙幣を画像読取部１３の載置部に載置するようにすればよい。
また、特定画像は、これ以外でも、例えばロゴマークやパターン画像等であってもよい。特定画像としてロゴマークやバーコード等を用いる場合であっても、上記実施形態と同様に照合画像テーブルＴＢＬに照合用の画像データを記憶させておき、画像データのマッチング等によって翻訳先言語を特定するか、またはそれらのパターン画像等を解析するための所定のアルゴリズムを用いて翻訳先言語を特定するようにすればよい。

（６）上記第２実施形態においては、複合機１は、文書と言語を特定する特定画像とを同時に走査し、生成した画像データから文字領域の画像データと特定画像領域の画像データとを切り出すようにしたが、文書と特定画像とを別々に走査するようにし、文書の画像データと特定画像の画像データとを別々に生成するようにしてもよい。例えば、パスポート等の特定画像を入力する特定画像用の画像入力部（載置部）を文書用の画像入力部（載置部）とは別途設け、ユーザが特定画像用の画像入力部から特定画像を入力するようにしてもよい。

本発明の第１実施形態に係るアノテーションが追記された状態の文書を示す図である。同実施形態の複合機の構成を示すブロック図である。同実施形態の複合機の処理を示すフローチャートである。同実施形態の黒画素への置き換えを行った状態を示す図である。本発明の第２実施形態に係る照合画像テーブルのデータ構成を示す図である。同実施形態の複合機の処理を示すフローチャートである。同実施形態で読み取られる画像の一例を示す図である。本発明の第３実施形態の複合機の処理を示すフローチャートである。本発明の第４実施形態に係るシステムの構成を示すブロック図である。同実施形態の音声レコーダの構成を示すブロック図である。同実施形態のコンピュータ装置の構成を示すブロック図である。同実施形態の音声レコーダの処理を示すフローチャートである。同実施形態に係るバーコードが付与された状態の文書を示す図である。同実施形態の複合機の処理を示すフローチャートである。同実施形態のコンピュータ装置に表示される画面の一例を示す図である。本発明の変形例に係るシステムの構成を示すブロック図である。

符号の説明

１…複合機、１１，２１，３１…制御部、１２，２２，３２…記憶部、１３…画像読取部、１４…画像形成部、１５，２５，３５…表示部、１６，２６，３６…操作部、１７，２７，３７…通信部、１８，２８，３８…バス、１９，２３…マイクロフォン、２…音声レコーダ、２４…バーコード出力部、３…コンピュータ装置、３３…音声出力部。

Claims

シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、
前記画像データから、活字文字が記されている活字領域の画像データと、手書文字が記されている手書領域の画像データとを切り出す領域分離手段と、
前記活字領域の画像データから、当該活字領域内にある活字文字の内容を表す活字テキストデータを取得する活字テキストデータ取得手段と、
前記手書領域の画像データから、当該手書領域内にある手書文字の内容を表す手書テキストデータを取得する手書テキストデータ取得手段と、
前記活字テキストデータの言語を特定する活字言語特定手段と、
前記手書テキストデータの言語を特定する手書言語特定手段と、
前記活字テキストデータを、前記活字言語特定手段によって特定された言語から、手書言語特定手段によって特定された言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、
前記翻訳テキストデータを出力する出力手段と
を備えることを特徴とする文書処理装置。
シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、
前記画像データから、文字が記されている文字領域の画像データと、言語を特定する特定画像が形成されている特定画像領域の特定画像データとを切り出す領域分離手段と、
前記文字領域の画像データから、当該文字領域内にある文字の内容を表すテキストデータを取得するテキストデータ取得手段と、
前記テキストデータの言語を特定する文字言語特定手段と、
前記特定画像領域の特定画像データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、
前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、
前記翻訳テキストデータを出力する出力手段と
を備えることを特徴とする文書処理装置。
シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、
言語を特定する特定画像を走査し、前記特定画像の内容をビットマップとして表す特定画像データを取得する特定画像読取手段と、
前記画像データから、文字の内容を表すテキストデータを取得するテキストデータ取得手段と、
前記テキストデータの言語を特定する文字言語特定手段と、
前記特定画像データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、
前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、
前記翻訳テキストデータを出力する出力手段と
を備えることを特徴とする文書処理装置。
複数の照合画像データを記憶する記憶手段を備え、
前記翻訳先言語特定手段は、前記特定画像データを前記記憶手段に記憶された照合画像データと照合し、その一致度に基づいて翻訳先言語を特定する
ことを特徴とする請求項２または３記載の文書処理装置。
前記照合画像データは、パスポート、紙幣、硬貨、バーコードの少なくともいずれか一つの画像を示す画像データである
ことを特徴とする請求項４記載の文書処理装置。
シート状媒体から画像を読み取り、前記画像をビットマップとして表す画像データを取得する画像読取手段と、
前記画像データから、文字の内容を表すテキストデータを取得するテキストデータ取得手段と、
前記テキストデータの言語を特定する文字言語特定手段と、
音声を集音して音声データを生成する音声入力手段と、
前記音声データを所定のアルゴリズムで解析して翻訳先言語を特定する翻訳先言語特定手段と、
前記テキストデータを、前記文字言語特定手段によって特定された言語から、前記翻訳先言語に翻訳して翻訳テキストデータを生成する翻訳処理手段と、
前記翻訳テキストデータを出力する出力手段と
を備えることを特徴とする文書処理装置。