WO2015136692A1

WO2015136692A1 - 電子イメージ文書編集システム

Info

Publication number: WO2015136692A1
Application number: PCT/JP2014/056927
Authority: WO
Inventors: 久雄間瀬; 義行小林; 新庄　広; 竜治嶺; 高橋　寿一
Original assignee: 株式会社日立製作所
Priority date: 2014-03-14
Filing date: 2014-03-14
Publication date: 2015-09-17
Also published as: JPWO2015136692A1

Abstract

　電子イメージ文書編集システムは、電子イメージ文書の入力を受け付け、入力された電子イメージ文書中の、複数種別の文字における１以上の文字からなる前記文字列を認識し、認識した文字列が文字列判定基準を満たす場合、認識した文字列が編集対象文字列であると判定する。文字列判定基準は、認識した文字列が、第１閾値（第１閾値は２以上の整数）以上の文字からなる第１判定基準と、認識した文字列が、複数種別の一部である第１種別群の文字における第２閾値（第２閾値は２以上の整数）以上の文字からなる部分文字列を含む第２判定基準と、認識した文字列が複数種別の一部である第２種別群における文字を含む第３判定基準と、認識した文字列が内容語を含む第４判定基準のうち、少なくとも１つの判定基準を含む。

Description

電子イメージ文書編集システム

　本発明は、電子イメージ文書編集システムに関する。

　複数の人が協調して一つの業務を迅速かつ的確に遂行するためには、業務の遂行に必要な情報を含む編集された文書を、共有することが望ましい。文書の編集は、文書の新規作成、既存文書の更新（追加、修正、削除等）、文書中の文字情報の校正、及び当該文字情報の翻訳等を含む。

　昨今の情報化社会の進展により、誰でも、文書内の文字情報がコード化された電子文書を容易に編集することが可能となった。しかし、紙文書をスキャンした電子イメージ文書や、電子文書をイメージデータとして保存した電子イメージ文書のように、文書内の文字情報がコード化されていない文書が、数多く存在する。

　例えば、電力・電機製品のような、ライフサイクルの長い製品の設計開発においては、過去の製品の設計文書が電子イメージ文書の形式でしか、残っていない場合が多い。当該設計文書の一部を変更したり、当該設計文書中の文字を翻訳して海外の設計部署と設計情報を共有したりする場合、電子イメージ文書である当該設計文書から文字列を認識し、当該認識した文字列を編集しなければならない。

　本技術の背景分野として、特開平９－２２３１４７号公報（特許文献１）がある。この公報には、「スキャナ部１により読み取られた原稿画像データは、認識処理が設定された場合、画像処理部３を経て認識処理部１０２に入力され、文字認識が行われる。そして、１行中に認識された単語総数中の訳語が存在した数（ヒット数）を所定数行記憶し、注目行及び前後の行のヒット数が所定数以下の場合、または認識された単語の文字コードが文字以外または同じコードが所定回連続している等のある設定されたパターンに合致するか否かを判定し、１行中に認識された単語総数中の１行中の前記パターン合致数の割合が所定値以上の場合に注目行を作画することをやめることにより、余分な出力を抑える。」と記載されている（要約参照）。

特開平９－２２３１４７号公報

　例えば、特許明細書本文や論文のように、文字が一箇所に連続して記載されている電子イメージ文書においては、利用者は当該電子イメージ文書中の文字の記載箇所や記載量を容易かつ正確に把握することができる。しかし、例えば、設計図面のように文字情報が文書内に分散して記載され、かつ、図（非文字情報）と文字情報が混在していて、文字情報の記載箇所を目視で識別しづらいような場合、利用者は、文字情報の記載箇所や記載量を容易かつ正確に把握することが困難となる。

　電子イメージ文書の編集を行うシステム（以下、電子イメージ文書編集システムと呼ぶ）が、電子イメージ文書中の文字情報を編集するためには、まず文字認識処理を行う必要がある。即ち、電子イメージ文書編集システムは、電子イメージ文書中の文字情報が記載されている領域を特定し、当該領域に記載されている文字内容を特定する処理を行う必要がある。

　もし、文字認識処理の認識精度が１００％であれば、電子イメージ文書編集システムは、電子イメージ文書中の文字情報の記載箇所や記載量を正確に特定できる。しかし実際には、電子イメージ文書編集システムは、文字認識処理において、スキャンされる紙の質や、電子イメージの解像度、記載文字のフォントの種類やサイズ等に起因した誤認識を起こす。

　なお、当該誤認識には、文字情報が非文字情報として認識される場合（漏れ）、非文字情報が文字情報として認識される場合（ノイズ）、及び文字情報が文字情報として認識されているが、当該文字情報の内容が正しく認識されていない場合（認識誤り）がある。電子イメージ文書編集システムが、図（非文字情報）と文字情報が混在する設計図面のような文書に対して文字認識処理を行う場合、図面の断片を文字として誤認識することにより生じるノイズ文字列が、文字認識結果内に多くみられる。

　特許文献１に記載の技術は、文字認識処理の結果、認識した文字列及びその翻訳結果（訳語検索結果）に所定のルールを適用し、ルールが合致した場合に、認識された文字列及びその翻訳結果を出力しない。特許文献１で言及されているルールは下記の２つである。第１のルールは、「１行中に認識された単語総数中の訳語が存在した数（ヒット数）を所定数行記憶し、注目行及び前後の行のヒット数が所定数以下の場合、注目行を作画することをやめる」というものである。

　また、第２のルールは、「認識された単語の文字コードが文字以外または同じコードが所定回連続している等のある設定されたパターンに合致するか否かを判定し、１行中に認識された単語総数中の１行中の前記パターン合致数の割合が所定値以上の場合、注目行を作画することをやめる」というものである。

　電子イメージ文書編集システムが、設計図面に対して文字認識処理を行った結果、認識されるノイズ文字列は、例えば、漢字、平仮名、片仮名、数字、アルファベット、記号等から構成される１文字以上の文字列である。特許文献１に記載の技術が、第２のルールを用いた場合、ノイズ文字列を高精度に識別できず、結果として多くのノイズ文字列が作画対象となる。

　また、特許文献１に記載の技術は、第１のルールを用いた場合、認識文字列が作画対象文字列であるか否かを識別するために、翻訳結果（訳語検索結果）を用いる。つまり、特許文献１に記載の技術は、第１のルールを用いた場合、訳語を出力しない文字列に対しても翻訳処理を行う必要があり、処理負担が増大する。また、第１のルールを、例えば、翻訳以外の編集作業を目的とする電子イメージ文書編集システム適用する場合、本来の編集作業に必要としない翻訳機能を電子イメージ文書編集システムに搭載しなければならず、費用負担が増大する。

　そこで本発明は、電子イメージ文書中の認識した文字列からノイズ文字列を高精度に特定し、除去することを目的とする。また、本発明は、文字列の編集処理を行うことなく、認識した文字列からノイズ文字列を特定することを目的とする。

　上記課題を解決するために本発明は、例えば、以下のような構成を採用する。電子イメージ文書から認識された文字列を編集する、電子イメージ文書編集システムであって、プロセッサと記憶装置とを含み、前記記憶装置は、１以上の文字からなる文字列が編集対象文字列か否かを判定する基準である１以上の文字列判定基準を保持し、前記プロセッサは、電子イメージ文書の入力を受け付け、前記入力された電子イメージ文書中の、複数種別の文字における１以上の文字からなる文字列を認識し、前記認識した文字列が前記文字列判定基準を満たす場合、前記認識した文字列が編集対象文字列であると判定し、前記文字列判定基準は、前記認識した文字列が、第１閾値（前記第１閾値は２以上の整数）以上の文字からなる第１判定基準と、前記認識した文字列が、前記複数種別の一部である第１種別群の文字における第２閾値（前記第２閾値は２以上の整数）以上の文字からなる部分文字列を含む第２判定基準と、前記認識した文字列が前記複数種別の一部である第２種別群における文字を含む第３判定基準と、前記認識した文字列が内容語を含む第４判定基準のうち、少なくとも１つの判定基準を含む電子イメージ文書編集システム。

　本発明の一態様によれば、電子イメージ文書の中から文字認識処理によって認識した文字列から、ノイズ文字列を高精度に特定できる。また、本発明の一態様によれば、認識した文字列に対して編集処理を行わなくても、認識した文字列からノイズ文字列を高精度に特定することができる。

電子イメージ文書編集システムのシステム構成例を示す。電子イメージ文書編集システムのハードウェア構成例を示す。入力電子イメージ文書データの例を示す。翻訳処理後の電子イメージ文書データの例を示す。文字認識処理前の電子イメージ文書データの例を示す。文字認識処理後の電子イメージ文書データの例を示す。文字列判定基準の第１の例を示す。文字列判定基準の第２の例を示す。文字列判定基準の第３の例を示す。文字列情報テーブルの例を示す。Ｊｕｄｇｅの値が合致項目数である場合における、文字列判定部による文字列判定処理フローチャート例を示す。Ｊｕｄｇｅの値が合致項目の重み和である場合における、文字列判定部による文字列判定処理フローチャート例を示す。翻訳対象文字列と判定された文字列の一覧出力画面の例を示す。文字列判定基準の変更画面の例を示す。文字列判定基準変更後に翻訳処理を再実行した出力画面の例を示す。

　以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。各図において共通の構成については同一の参照符号が付されている。

　本実施例の電子イメージ文書編集システムは、設計図面の電子イメージ文書の入力を受け付け、入力された電子イメージ文書に対して編集処理を行う。本実施例の電子イメージ文書編集システムは、編集処理の一例として、電子イメージ文書中に記載されている日本語文字列を英語文字列に翻訳する作業を支援する。本実施例における文字列は、１以上の文字からなる。

　具体的には、電子イメージ文書編集システムは、設計図面等の電子イメージ文書を文字認識して、文字列が記載されている箇所の候補を抽出する。電子イメージ文書編集システムは、後述する文字列判定処理によって、文字列が記載されている箇所の候補の中から、実際に文字列が記載されている箇所を特定する。

　電子イメージ文書編集システムは、特定した文字列のうち日本語文字列に対して翻訳処理を行い、当該日本語文字列の訳語候補を提示する。電子イメージ文書編集システムは、利用者によって選択された訳語に対する訳語オブジェクトを生成し、訳語オブジェクトのレイアウトを修正して、文書上の適切な位置に貼り付ける。

　本実施例では、設計図面を入力電子イメージ文書の一例としているが、例えば、電子イメージ化されている文章や、論文等に含まれる電子イメージ図表を入力電子イメージ文書としてもよい。また、電子イメージ文書編集システムは、本実施例において、主に日本語文字列を認識し、認識した日本語文字列を英語文字列に翻訳する作業について説明しているが、原語及び訳語の言語について特に制約はない。さらに本実施例では、文書を翻訳する作業について述べているが、文書更新や文書校正等の他の編集作業にも適用可能である。

　図１は、本実施例の電子イメージ文書編集システムの構成例を示す。電子イメージ文書編集システムは、入力処理部１、出力処理部２、文字認識処理部４、文字列判定部７、翻訳処理部１０、訳語オブジェクト生成部１３、訳語オブジェクト編集部１４、及び文字列情報管理部１６を含む。上述した各部はプログラムである。

　また、電子イメージ文書編集システムは、翻訳対象イメージ文書３、文字認識辞書５、文字認識結果付き翻訳対象イメージ文書６、文字列判定基準８、文字列情報テーブル９、翻訳辞書１１、訳語候補テーブル１２、文字認識結果・翻訳結果付きイメージ文書１５、及び単語・文字辞書１７を含む。

　入力処理部１は、キーボードやマウス、タッチパネル、タッチペン等の入力手段を介して利用者から指定又は指示される、各種データや操作を受け付ける。入力処理部１は、具体的なデータ又は操作指示の一例として、翻訳対象となる電子イメージ文書の選択、文字認識実行指示、文字列判定基準の内容変更、翻訳対象となる文字列の指定、訳語の選択及び入力、訳語オブジェクトの編集等を受け付ける。

　出力処理部２は、ディスプレイ等の出力手段を介して利用者に各種データや処理結果を出力する。出力処理部２は、具体的なデータ又は処理結果の一例として、翻訳対象となるイメージ文書、文字認識結果が付いた翻訳対象となるイメージ文書、文字列判定基準、翻訳対象となる文字列情報の一覧、訳語候補、文字認識結果及び翻訳結果が付いたイメージ文書等を出力する。

　利用者は、本実施例の電子イメージ文書編集システムを利用するにあたり、まず電子イメージ文書編集システムに入力された電子イメージ文書から翻訳対象となる電子イメージ文書を選択する。選択された電子イメージ文書の内容は、ディスプレイ等を介して利用者に表示されるとともに、翻訳対象イメージ文書３に格納される。

　続いて、利用者は文字認識の実行を指示する。文字認識処理部４は、翻訳対象イメージ文書３から電子イメージ文書データを取り出し、個々の文字に関するデータや文字認識に係るルール等を格納した文字認識辞書５を参照して、当該電子イメージ文書中の文字認識を行う。

　文字認識処理は、文字列領域の特定処理、文字列領域からの文字の切り出し処理、切り出した文字の認識処理を含む。なお、既に、文字認識処理に用いられる多くの文字認識アルゴリズムが広く知られているため、文字認識処理についての説明を省略する。なお、文字認識処理部４は、どのような文字認識アルゴリズムを用いて、文字認識処理を行ってもよい。

　文字認識処理部４によって認識された文字列は、当該文字列の記載箇所（文書イメージにおける座標位置）とともに、文字列情報テーブル９に格納される。また、認識された文字列は、翻訳対象イメージ文書３の文書の記載箇所に埋め込まれた形で、文字認識結果付き翻訳対象イメージ文書６に格納される。

　文字列判定部７は、文字認識処理部４によって認識された文字列を解析して、認識された文字列が翻訳対象文字列であるか否かを判定する。文字列判定部７は、文字の一覧や属性、及び単語の見出しや属性等が格納された単語・文字辞書１７を参照して文字列を解析する。文字列判定部７は、文字列判定基準８に格納された文字列判定基準項目等を参照して、認識された文字列が翻訳対象文字列であるか否かを判定する。なお、文字列判定部７による処理及び文字列判定基準８についての詳細は後述する。文字列判定部７による判定結果は、文字列情報テーブル９に格納される。

　続いて、利用者は表示されている文字認識結果付き翻訳対象イメージ文書６を見て、文字列に相当する記載箇所をマウスやタッチペン等を介して指定し、翻訳の実行を指示する。利用者による当該記載箇所の指定方法として、例えば、当該記載箇所のクリック、当該記載箇所のドラッグ、及び当該記載箇所を含む範囲の矩形選択等があるが、どのような方法を用いてもよい。

　翻訳処理部１０は、利用者が指定した記載箇所（座標）に対応する文字列を文字列情報テーブル９から取り出す。翻訳処理部１０は、翻訳辞書１１を参照して、当該文字列に対応する訳語候補を抽出し、利用者に提示する。本実施例において、翻訳処理部１０は、文字列と翻訳辞書とを照合して訳語を検索しているが、当該文字列を形態素解析して単語に分割し、個々の単語に対して翻訳辞書１１から訳語を検索して提示してもよい。また、翻訳処理部１０は、当該文字列を機械翻訳システムに渡して、当該機械翻訳システムによる翻訳結果を提示してもよい。

　なお、多くの翻訳辞書検索アルゴリズム及び機械翻訳アルゴリズムが広く知られているため、これらを用いた翻訳処理についての説明を省略する。本実施例の電子イメージ文書編集システムは、翻訳処理を行う際に、どのような翻訳辞書検索アルゴリズム及び機械翻訳アルゴリズムを用いてもよい。翻訳結果は、訳語候補テーブル１２に格納される。訳語候補テーブル１２は、日本語文字列と訳語候補との対応関係を一時的に格納する。

　訳語オブジェクト生成部１３は、訳語候補テーブル１２に格納された訳語候補を出力処理部２に送信し、出力処理部２は受信した訳語候補を利用者に提示する。利用者は提示された訳語候補の中から正しい訳語を選択する。提示された訳語候補の中に正しい訳語がない場合、利用者はキーボード等から正しい訳語を直接入力する。また、文字認識された文字列に誤りがある場合、利用者は認識された文字列を修正して翻訳の再実行を指示する。利用者は、再度提示された訳語候補から正しい訳語を選択する。

　利用者が正しい訳語を入力又は選択することで訳語が確定すると、訳語オブジェクト生成部１３は、訳語テキスト文字列からなる訳語オブジェクトを生成し、翻訳対象イメージ文書３の上に表示する。また、文字列情報管理部１６は、修正された文字列及び確定した翻訳結果を、文字列情報テーブル９に格納する。

　訳語オブジェクト編集部１４は、表示された訳語オブジェクトのオブジェクトサイズやテキストのフォントサイズ等を調整し、文書上の適切な位置に移動して貼り付ける作業を、利用者に促すための編集処理を行う。なお、例えば、訳語オブジェクト編集部１４は、翻訳前後の文字列長等に従って、訳語オブジェクトのオブジェクトサイズやテキストのフォントサイズ等を自動調整してもよい。利用者が編集結果の保存を指示すると、その時点での電子イメージ文書データが文字認識結果・翻訳結果付きイメージ文書１５に格納される。

　文字列情報管理部１６は、翻訳対象の文字列及び当該文字列の翻訳処理状況等を管理する。具体的には、文字列情報管理部１６は、文字列情報テーブル９を解析して、電子イメージ文書内の翻訳対象文字列の数や文字数を算出し、保持する。また、文字列情報管理部１６は、訳語オブジェクト生成部１３及び訳語オブジェクト編集部１４と連携して、個々の翻訳対象文字列の翻訳が完了しているか否か等の編集作業状況を管理する。

　文字列情報管理部１６は、訳語オブジェクト編集部１４から訳語オブジェクトが所定の座標の上に貼り付けられた旨の情報を受信すると、当該座標に対応する翻訳対象文字列の翻訳作業が終了したとみなす。このとき、文字列情報管理部１６は、文字列情報テーブル９の後述する翻訳作業完了フラグに１を格納する。電子イメージ文書編集システムは、文字列情報管理部１６による翻訳作業管理によって、ある時点で翻訳作業がどこまで完了しているかを管理できるとともに、利用者に翻訳作業状況を提示することができる。

　図２は、本実施例の電子イメージ文書編集システムのハードウェア構成例を示す。電子イメージ文書編集システムは、処理装置５０、入力装置３０、出力装置４０、及び記憶装置６０を含み、ネットワーク９０に接続されている。

　処理装置５０は、プログラムに従って動作するプロセッサ及び／又は論理回路を含み、データの入力／出力、読み込み／書き込みを行い、さらに、図１に示した各プログラムを実行する。プログラムはプロセッサによって実行されることで、定められた処理を記憶装置及び通信ポート（通信デバイス）を用いながら行う。従って、本実施形態及び他の実施形態においてプログラムを主語とする説明は、プロセッサを主語とした説明でもよい。若しくは、プログラムが実行する処理は、そのプログラムが動作する計算機及び計算機システムが行う処理である。

　プロセッサは、プログラムに従って動作することによって、所定の機能を実現する機能部として動作する。例えば、プロセッサは、文字認識処理プログラムに従って動作することで文字認識処理部４として機能し、文字列判定プログラムに従って動作することで文字列判定部７として機能する。他のプログラムについても同様である。さらに、プロセッサは、各プログラムが実行する複数の処理のそれぞれを実現する機能部としても動作する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

　入力装置３０は、利用者からの操作内容又はデータの入力を受け付けるデバイスである。入力装置３０は、キーボード３１及びマウス３２を含む。なお、入力装置３０は、キーボード３１、マウス３２に代えて、又は加えて、タッチペン、タッチパネル等を含んでもよい。

　出力装置４０は、計算処理結果等を利用者に出力するデバイスである。出力装置４０は出力モニタ４１を含む。電子イメージ文書編集システムは、入出力データを別の計算機とやりとりする場合、ネットワーク９０を介して入出力データを送受信する。

　記憶装置６０は、図１に示したプログラム及びデータを格納する。記憶装置６０は、プログラムが実行される際に処理装置５０によって生成される処理データを一時的に格納するワーキングエリア６１を含む。

　また、記憶装置６０は、図１に示した各データをそれぞれ格納するエリアである、翻訳対象イメージ文書格納エリア６２、文字認識辞書格納エリア６４、文字認識結果付き翻訳対象イメージ文書格納エリア６５、文字列判定基準格納エリア６７、文字列情報テーブル格納エリア６８、翻訳辞書格納エリア７０、訳語候補テーブル格納エリア７１、文字認識結果・翻訳結果付きイメージ文書格納エリア７４、及び単語・文字辞書格納エリア７５を含む。

　また、記憶装置６０は、図１に示した各部をそれぞれ格納するエリアである、文字認識処理部格納エリア６３、文字列判定部格納エリア６６、翻訳処理部格納エリア６９、訳語オブジェクト生成部格納エリア７２、及び訳語オブジェクト編集部格納エリア７３を含む。

　図２において電子イメージ文書編集システムは、全てのデータ及び処理が１つの計算機内に集約されている構成となっているが、データ及び処理を複数の計算機に分散して配置する構成としてもよい。例えば、文字認識処理部４及び文字認識辞書５を格納した別の計算機である文字認識サーバと、文字認識以外の機能を担う計算機とが、ネットワーク９０を介して、互いにデータをやりとりしてもよい。同様に、例えば、翻訳処理部１０及び翻訳辞書１１を格納した別の計算機である翻訳サーバと、翻訳以外の機能を担う計算機とが、ネットワーク９０を介して、互いにデータをやりとりしてもよい。

　図３Ａは、翻訳前の入力電子イメージ文書の一例を示す。ここでは、説明の都合により、電子イメージ文書の一例として簡単な電気回路図を用いているが、実際は、電子イメージ文書編集システムには、大量の文字情報や非文字情報である図情報を含む図面が入力されることが多い。翻訳前の電子イメージ文書３０１中の電気回路図は、６Ｖ乾電池、豆電球、トランジスタ、及び抵抗を含む回路を示す。電気回路図内の各記号の近傍に、当該各記号の内容及び説明を表す文字列が記載されている。つまり、文字情報と、回路を表す記号や配線などの非文字情報とが、当該電気回路図内に混在している。

　図３Ｂは、電子イメージ文書編集システムによって、翻訳された図３Ａの電子イメージ文書の一例を示す。図３Ｂにおいて、翻訳後の電子イメージ文書３０２内の図（非文字除法）の部分は編集されず、図３Ａの内容がそのまま表示され、日本語文字列だけが英語に翻訳されている。また、「１００Ω」、「６Ｖ」のように、日本語及び英語において表記及び意味が共通である文字列については翻訳されず、翻訳前の電子イメージ文書３０１内の内容がそのまま表示される。なお、例えば、翻訳前の日本語と翻訳後の英語との文字列長が大きく異なる場合には、利用者は、翻訳語の電子イメージ文書に対して、文字フォントを調整したり、改行を加えて複数行にしたり、記載位置を調整したりするなどの編集処理を行ってもよい。

　図４Ａは、電子イメージ文書編集システムによる文字認識前の電子イメージ文書の一例を示す。文字認識前の電子イメージ文書４０１は、図３Ａに記載された翻訳前の電子イメージ文書３０１と同一である。

　図４Ｂは、電子イメージ文書編集システムによる、図４Ａの電子イメージ文書に対する文字認識結果の一例を示す。文字認識結果４０２内の文字列は、当該文字列の記載箇所（座標）に対応付けられている。図４Ｂでは説明の都合により、文字認識結果を文書データに上書きして表示しているが、実際は、文字認識結果として得られた文字列は、文書データの裏に配置され、利用者には見えない。

　文字認識結果４０２内の、文字列「抵抗１００Ω」、「抵抗２００Ω」、「豆電球」、及び「乾電池６Ｖ」は正しく文字認識されている。しかし、文字列「ＮＰＮトランジスタ」は、「ＮＰＮトランシスタ」と一文字だけ（「ジ」が「シ」と）誤認識されている。また、文字列「入力の変化を増幅」のうち、部分文字列「入力」が「入刀」に、部分文字列「変化」が「変イヒ」に、部分文字列「）」が「｝」に、それぞれ誤認識されている。なお、長さｎの文字列における部分文字列とは、当該文字列のｉ文字目からｊ文字目まで（１≦ｉ≦ｊ≦ｎ）の連続する文字列である。

　さらに、文字認識結果４０２内の、豆電球の回路記号が文字列「てＷ」、ＮＰＮトランジスタの回路記号が文字列「六」、抵抗の回路記号が文字列「－ＶＶ－」、乾電池の回路記号が文字列「州」として、それぞれ認識されている。これらの認識文字列は全て、非文字情報が文字情報として誤認識されたノイズ文字列である。

　図５Ａは、文字列判定基準８の第１の例を示す。文字列判定基準８は、複数の判定基準項目を含む。各判定基準項目は、判定基準項目を識別するＩＤ５０１、判定基準項目の具体的な内容を記載した判定基準項目内容５０２、各判定基準項目の重要度（信頼性）を表す重み値５０３、及び当該判定基準項目を適用するか否かを１／０で表す適用フラグ５０４を含む。また、文字列判定基準８は、１以上の判定基準項目を用いた判定方法を規定する判定方法５０５を含む。

　判定基準項目内容５０２は、文字列判定部７が認識可能な変数を用いて記述される。Ｓ＿ｌｅｎｇｔｈは文字列を構成する文字数を表す。Ｃ＿ｔｙｐｅは文字列を構成する文字の種別を表し、例えば、漢字（ｋａｎｊｉ）、平仮名（ｈｉｒａｇａｎａ）、片仮名（ｋａｔａｋａｎａ）、記号（ｓｙｍｂｏｌ）、数詞接尾語（ｎ＿ｓｕｆｆｉｘ）、数字（ｎｕｍｅｒａｌ）、アルファベット（ａｌｐｈａｂｅｔ）、非常用漢字（ｎｏｎ＿ｊ＿ｋａｎｊｉ）等、文字認識処理部４が認識する文字の種別の値を持つ。本実施例において、文字認識処理部４は、原語及び訳語に用いられる文字を認識する。

　なお、数字（ｎｕｍｅｒａｌ）は、アラビア数字を示すものとしてもよいし、アラビア数字以外の数字（例えばローマ数字、ギリシャ数字等）を含む数字を示すものとしてよい。また、数詞接尾語は、助数詞の一例であり、助数詞のうち接尾語である語を表す。なお、助数詞は計量単位を含む概念である。

　なお、文字認識処理部４は、認識した各文字の種別を１つに特定する。例えば、文字「Ａ」の種別は、アルファベット、又は電流の単位を表す数詞接尾語（アンペア）である可能性がある。文字認識処理部４は、例えば、文字「Ａ」の前後の文字との関係等から、文字「Ａ」の種別を１つに特定する。Ｃ＿ｔｙｐｅ＿ｓｅｑは、Ｃ＿ｔｙｐｅで規定された文字が連続する文字数を表す。Ｃ＿ｗｏｒｄは、文字列中に含まれる自立語の数を表す。

　判定基準項目Ｒｕｌｅ＿１は、「認識文字列を構成する文字数が２文字以上である」ことを表す。なお、Ｒｕｌｅ＿１中の数値２は、３以上の整数であってもよい。文字数の少ない文字列は、単語を構成する可能性が低いため、ノイズ文字列である可能性が高い。文字列判定部７は、Ｒｕｌｅ＿１を認識文字列に適用することにより、このようなノイズ文字列を編集対象文字列から除外することができる。

　また、文字列判定部７は、形態素解析を行うことなく、さらに各種辞書を参照することもなく、文字列中の文字数をカウントすることにより、Ｒｕｌｅ＿１を用いた判定処理を行うことができる。従って、文字列判定部７は、Ｒｕｌｅ＿１を用いた判定処理を高速で行うことができる。

　なお、ノイズ文字列の多くは、１文字の文字列である。また、編集対象とすべき文字列は、多くの２文字の文字列を含む。従って、文字列判定部７は、２文字以上の文字列を編集対象とする本実施例のＲｕｌｅ＿１を用いた判定を行うことで、多くのノイズ文字列を除去し、さらに編集すべき文字列であるにも関わらず、編集対象とみなされなくなる文字列を減少させることができる。なお、文字列判定部７は、原語が日本語以外である場合においても、認識文字列に対して上述のＲｕｌｅ＿１をそのまま適用することができる。

　判定基準項目Ｒｕｌｅ＿２は、「認識文字列が、漢字、平仮名、又は片仮名が２文字以上連続する部分文字列を含む」ことを表す。なお、Ｒｕｌｅ＿２中の数値２は、３以上の整数であってもよい。所定種別の文字が一定文字数以上連続する部分文字列を含まない文字列は、ノイズ文字列である可能性が高い。また、当該所定種別を漢字、平仮名又は片仮名としたＲｕｌｅ＿２を満たさない文字列は、日本語（原語）の単語である部分文字列を含まない可能性が高いため、特にノイズ文字列である可能性が高い。文字列判定部７は、Ｒｕｌｅ＿２を認識文字列に適用することにより、このようなノイズ文字列を編集対象から除外することができる。

　また、文字列判定部７は、形態素解析を行うことなく、さらに各種辞書を参照することもなく、文字列を構成する文字の種別の判別及び文字列中の文字数のカウントを行うことでＲｕｌｅ＿２を用いた判定処理を行うことができる。従って、文字列判定部７は、Ｒｕｌｅ＿２を用いた判定処理を高速で行うことができる。

　なお、ノイズ文字列の多くは、漢字、平仮名、又は片仮名が２文字以上連続する部分文字列を含まない文字列である。また、編集対象とすべき文字列は、漢字、平仮名、又は片仮名が２文字連続する部分文字列を含む文字列であって、漢字、平仮名、又は片仮名が３文字以上連続する部分文字列を含まない文字列、を数多く含む。従って、文字列判定部７は、２文字以上の文字列を編集対象とする本実施例のＲｕｌｅ＿２を用いた判定を行うことで、多くのノイズ文字列を除去し、さらに編集すべき文字列であるにも関わらず、編集対象とみなされなくなる文字列を減少させることができる。

　なお、Ｒｕｌｅ＿２を、例えば、「認識文字列が、文字認識処理部４が認識する文字の種別の一部である第１種別群における文字が２文字以上連続する部分文字列を含む」としてもよい。なお、本実施例において種別群とは、１又は複数の種別を表す。従って、Ｒｕｌｅ＿２において、例えば、第１種別群を、平仮名、又は片仮名とすることができる。また、この場合においてもＲｕｌｅ＿２中の数値２は３以上の整数であってもよい。

　原語が英語である場合、Ｒｕｌｅ＿２は、例えば、「認識文字列が、アルファベットが２文字以上連続する部分文字列を含む」とすることができる。また、原語が中国語である場合、Ｒｕｌｅ＿２は、例えば、「認識文字列が、漢字が２文字以上連続する部分文字列を含む」とすることができる。

　判定基準項目Ｒｕｌｅ＿３は、「認識文字列が、記号、数詞接尾語、数字、アルファベット、及び非常用漢字以外の文字を１文字以上含む」ことを表す。認識文字列が所定種別以外の文字を１文字以上含まない文字列は、ノイズ文字列である可能性が高い。また、当該所定種別を、記号、数詞接尾語、数字、アルファベット、及び非常用漢字以外としたＲｕｌｅ＿３を満たさない文字列は、日本語（原語）の単語でない可能性が高いため、特にノイズ文字列である可能性が高い。文字列判定部７は、Ｒｕｌｅ＿３を認識文字列に適用することにより、このようなノイズ文字列を編集対象から除外することができる。

　なお、Ｒｕｌｅ＿３を、例えば、「認識文字列が、文字認識処理部４が認識する文字の種別の一部である第２種別群における文字を１文字以上含む」としてもよい。原語が英語である場合、Ｒｕｌｅ＿３は、例えば、「認識文字列が、記号、助数詞、数字、漢字、平仮名、片仮名、及び非常用漢字以外の文字を１文字以上含む」とすることができる。また、原語が中国語である場合、Ｒｕｌｅ＿３は、例えば、「認識文字列が、記号、助数詞、数字、平仮名、片仮名、アルファベット、及び非常用漢字以外の文字を１文字以上含む」とすることができる。

　判定基準項目Ｒｕｌｅ＿４は、「認識文字列が、自立語を１語以上含む」ことを表す。自立語を含まない文字列は、言葉としての内容を持たない文字列であるため、ノイズ文字列である可能性が高い。文字列判定部７は、Ｒｕｌｅ＿４を認識文字列に適用することにより、当該ノイズ文字列を編集対象から除外することができる。

　なお、Ｒｕｌｅ＿３は、例えば、「認識文字列が、内容語を１語以上含む」としてもよい。内容語とは、例えば、名詞、動詞、及び形容詞等のように、単独で文法的役割以外の特定の意味内容を持つ単語である。自立語は、日本語における内容語の一例である。

　なお、本実施例の電子イメージ文書編集システムは、判定基準項目Ｒｕｌｅ＿１～Ｒｕｌｅ＿４を用いて判定を行う際に、編集結果に係る情報を用いないため、認識した文字列に対して編集処理を行わなくても、認識文字列が編集対象文字列であるか否かを判定することができる。

　本実施例の電子イメージ文書編集システムは、２種類の判定方法５０５を提供する。図５Ａは、判定方法５０５として、合致した判定基準項目の数によって判定する方法（Ｎｕｍ＿ｏｆ＿ｉｔｅｍｓ）が指定されていることを表す。また、図５Ａにおける判定基準項目数の閾値（Ｎｕｍ＿ｏｆ＿ｉｔｅｍｓ＿ｔｈｒｅｓｈｏｌｄ）は３である。

　即ち、判定方法５０５は、認識文字列が適用対象である（適用フラグ５０４が１である）４種類の判定基準項目のうち、３種類以上の判定基準項目を満たす場合、文字列判定部７が、当該認識文字列を翻訳対象文字列と判定することを示す。また、判定方法５０５は、認識文字列が当該判定基準項目のうち、２種類以下の判定基準項目しか満たさない場合、文字列判定部７が、当該認識文字列を翻訳対象文字列でないと判定することを示す。

　図５Ｂは、文字列判定基準８の第２の例を示す。判定方法５０５は、判定基準項目数の閾値（Ｎｕｍ＿ｏｆ＿ｉｔｅｍｓ＿ｔｈｒｅｓｈｏｌｄ）が２であることを示す。即ち、判定方法５０５は、認識文字列が、適用対象である（適用フラグ５０４が１である）２種類の判定基準項目の全てを満たす場合のみ、文字列判定部７が当該認識文字列を翻訳対象文字列と判定する、ＡＮＤ判定であることを示す。また、例えば、判定基準項目数の閾値を１とすれば、判定方法５０５は、認識文字列が当該２種類の判定基準項目のいずれかを満たす場合に、文字列判定部７が当該認識文字列を翻訳対象文字列と判定する、ＯＲ判定であることを示す。

　図５Ｃは、文字列判定基準８の第３の例を示す。判定方法５０５は、合致した判定基準項目の持つ重み値５０３の総和によって、認識文字列が翻訳対象文字列であるか否かを判定する方法（Ｓｕｍ＿ｏｆ＿ｗｅｉｇｈｔｓ）が指定されていることを示す。

　また、判定方法５０５における、重み和の閾値（Ｓｕｍ＿ｏｆ＿ｗｅｉｇｈｔｓ＿ｔｈｒｅｓｈｏｌｄ）が３．０である。即ち、判定方法５０５は、適用対象である（適用フラグ５０４が１である）４種類の判定基準項目のうち、認識文字列が満たす項目の重み値の総和が３．０以上の場合、文字列判定部７が当該認識文字列を翻訳対象文字列と判定することを示す。また、判定方法５０５は、当該重み値の総和が３．０未満の場合、文字列判定部７が、当該認識文字列を翻訳対象文字列でないと判定することを示す。

　なお、図５Ｃにおいて、重み値を全て１．０とした場合、重み和の閾値を判定基準項目数の閾値と読み替えれば、図５Ｃを用いた判定は、図５Ａで示した合致項目数による判定と同様である。つまり合致項目数による判定は、重み値による判定の一例である。

　なお、利用者は、文字列判定基準８の内容を変更することができる。即ち、利用者は、適用する判定基準項目を選別したり、パラメータや閾値等を追加、削除、又は変更したりすることができる。文字列判定基準８の内容の変更についての詳細は後述する。

　図６は、文字列情報テーブル９の一例を示す。文字列情報テーブル９は、文字列判定部７による判定結果及び翻訳処理部１０による翻訳結果に係るデータ等を保持する。ここでは、電子イメージ文書編集システムが、図４Ａの入力文書に対して文字認識処理部４及び文字列判定部７による処理を実行した結果を保持する文字列情報テーブル９を示す。

　文字列情報テーブル９は、認識文字列６０１、記載位置６０２、判定基準照合結果６０７、翻訳対象フラグ６１０、修正文字列６１１、翻訳文字列６１２、及び翻訳状況フラグ６１３を含む。

　認識文字列６０１は、文字認識処理部４によって認識された文字列を保持する。記載位置６０２は、認識文字列６０１が表示される矩形領域の情報を保持する。記載位置６０２は、認識文字列６０１が表示される矩形領域の左上の頂点の座標である左上Ｘ座標６０３及び左上Ｙ座標６０４と、当該矩形領域の右下の頂点の座標である右下Ｘ座標６０５及び右下Ｙ座標６０６と、を含む。

　判定基準照合結果６０７は、文字列判定部７での判定基準の照合結果を保持する。判定基準照合結果６０７は、判定基準項目毎の照合結果を保持する列と、合致した判定基準項目の数を保持する合致数６０８と、合致した判定基準項目の持つ重み値の総和を保持する重み総和６０９と、を含む。

　翻訳対象フラグ６１０は、認識文字列６０１が翻訳対象文字列であるか否かを識別するフラグである。翻訳対象フラグ６１０は、図５Ａ又は図５Ｂに示した文字列判定基準８のように、認識文字列が翻訳対象であるか否かを、合致項目数によって判定する場合、合致数６０８が閾値以上であれば１を、合致数が閾値未満であれば０を保持する。翻訳対象フラグ６１０は、図５Ｃに示した文字列判定基準８のように、認識文字列が翻訳対象であるか否かを合致した項目の重み和で判定する場合、重み総和６０９が閾値以上であれば１を保持し、重み総和６０９が閾値未満であれば０を保持する。

　修正文字列６１１は、翻訳対象フラグ６１０が１である認識文字列６０１に誤りがある場合に、利用者によって修正された文字列を保持する。翻訳文字列６１２は、認識文字列６０１又は修正文字列６１１に対する翻訳結果を保持する。翻訳状況フラグ６１３は、翻訳対象フラグ６１０が１である、認識文字列６０１又は修正文字列６１１の翻訳作業が終了したか否かを識別するフラグである。翻訳状況フラグ６１３は、翻訳文字列６１２に翻訳結果が保持されている場合に１を、保持されていない場合に０を保持し、認識文字列６０１が翻訳対象外の場合にＮＵＬＬとなる。

　図６において、認識文字列「抵抗１００Ω」は、座標（１６０，３０）を左上頂点、座標（３００，５０）を右下頂点とする矩形領域内に記載されている。また、認識文字列「抵抗１００Ω」は、合致数６０８が４．０であり、閾値（＝３）以上である（又は重み総和６０９が４．０であり、閾値（＝３．０）以上である）ことから、文字列判定部７によって翻訳対象文字列と判定される。従って、認識文字列「抵抗１００Ω」における翻訳対象フラグ６１０は、１を保持する。

　また、文字認識結果も正しいことから翻訳処理部１０は、認識文字列「抵抗１００Ω」を「Ｒｅｓｉｓｔｏｒ　１００Ω」と翻訳し、翻訳結果を翻訳文字列６１２に格納する。翻訳処理部１０による認識文字列「抵抗１００Ω」の翻訳が完了しているため、対応する翻訳状況フラグ６１３は１を保持する。

　認識文字列「ＮＰＮトランシスタ」は、座標（２５０，２５０）を左上頂点、座標（３９０，２７０）を右下頂点とする矩形領域内に記載されている。認識文字列「ＮＰＮトランシスタ」は、合致数６０８が３．０であり、閾値（＝３）以上である（又は重み総和６０９が３．５であり、閾値（＝３．０）以上である）ことから、文字列判定部７によって翻訳対象文字列と判定される。従って、認識文字列「ＮＰＮトランシスタ」における翻訳対象フラグ６１０は１を保持する。

　ただし、認識文字列「ＮＰＮトランシスタ」は、文字認識結果が誤っている。利用者が認識文字列「ＮＰＮトランシスタ」を「ＮＰＮトランジスタ」に修正する入力を行った場合、訳語オブジェクト生成部１３は、当該修正結果を修正文字列６１１に格納する。翻訳処理部１０は、修正文字列「ＮＰＮトランジスタ」を翻訳し、当該翻訳結果を、翻訳文字列６１２に格納する。翻訳処理部１０による修正文字列「ＮＰＮトランジスタ」の翻訳が完了しているため、対応する翻訳状況フラグ６１３は１を保持する。

　認識文字列「てＷ」は、座標（１６０，２４０）左上頂点、座標（２００，２６０）右下頂点とする矩形領域内に記載されている。しかし、認識文字列「てＷ」は、合致数６０８が２であり、閾値（＝３）未満である（又は重み総和６０９が２．５であり、閾値（＝３．０）未満である）ことから、文字列判定部７によって翻訳対象文字列ではないと判定される。従って、対応する翻訳対象フラグ６１０は０を保持する。その結果、翻訳処理部１０は認識文字列「てＷ」に対する翻訳作業を行わない。

　認識文字列「乾電池６Ｖ」は、座標（３３５，４１０）を左上頂点、座標（４６０，４３０）を右下頂点とする矩形領域内に記載されている。認識文字列「乾電池６Ｖ」は、合致数６０８が４であり、閾値（＝３）以上である（又は重み総和６０９が４．０であり、閾値（＝３．０）以上である）ことから、文字列判定部７によって、翻訳対象文字列と判定される。従って、対応する翻訳対象フラグ６１０は１を保持する。ただし、この認識文字列「乾電池６Ｖ」に対する翻訳作業はまだ行われていない、即ち翻訳文字列６１２は翻訳結果を保持していないため、対応する翻訳状況フラグ６１３は０を保持する。

　以下、文字列判定部７による翻訳対象文字列判定処理について説明する。まず、文字列判定部７は、文字列判定基準８において規定されている判定方法をチェックする。即ち、文字列判定部７は、判定方法５０５の変数Ｊｕｄｇｅの値が合致項目数（Ｎｕｍ＿ｏｆ＿ｉｔｅｍｓ）であるか、合致項目の重み和（Ｓｕｍ＿ｏｆ＿ｗｅｉｇｈｔｓ）であるかをチェックする。Ｊｕｄｇｅの値が合致項目数である場合、文字列判定部７は、図７Ａに示す処理を行う。Ｊｕｄｇｅの値が合致項目の重み和である場合、文字列判定部７は、図７Ｂに示す処理を行う。

　図７Ａは、Ｊｕｄｇｅの値が合致項目数である場合における、文字列判定部７による翻訳対象文字列判定処理の一例を示す。文字列判定部７は、文字列判定基準８の判定方法５０５に規定された閾値Ｓ１の値を取得する（ステップ７０２）。即ち、文字列判定部７は、変数Ｎｕｍ＿ｏｆ＿ｉｔｅｍｓ＿ｔｈｒｅｓｈｏｌｄの値を閾値Ｓ１として保持する。次に、文字列判定部７は、文字列情報テーブル９に未判定の認識文字列があるか否かを判定する（ステップ７０３）。未判定の認識文字列がない場合は（ステップ７０３：Ｎｏ）、文字列判定部７は処理を終了する。

　未判定の認識文字列がある場合（ステップ７０３：Ｙｅｓ）、文字列判定部７は、当該認識文字列を解析する（ステップ７０４）。文字列判定部７は、当該解析において、単語・文字辞書１７を参照し、例えば、当該認識文字列を構成する文字数、当該認識文字列を構成する文字の種別、当該認識文字列に含まれる自立語等、判定基準項目内容５０２の判定に必要な情報を抽出する。

　次に、文字列判定部７は、認識文字列に対して未適用の判定基準項目内容５０２があるか否かを判定する（ステップ７０５）。未適用の判定基準項目内容５０２がある場合（ステップ７０５：Ｙｅｓ）、文字列判定部７は、未適用の判定基準項目内容５０２の照合を行い（ステップ７０６）、認識文字列が当該未適用の判定基準項目内容５０２に合致するか否かを判定する（ステップ７０７）。

　認識文字列が判定基準項目内容５０２に合致しない場合（ステップ７０７：Ｙｅｓ）、文字列判定部７は、文字列情報テーブル９の判定基準照合結果６０７の該当する判定基準項目に値０を格納し（ステップ７０８）、ステップ７０５に戻る。認識文字列が判定基準項目に合致する場合（ステップ７０５：Ｎｏ）、文字列判定部７は、文字列情報テーブル９の判定基準照合結果６０７の該当する判定基準項目に値１を格納し（ステップ７０９）、ステップ７０５に戻る。

　未適用の判定基準項目がない場合（ステップ７０５：Ｎｏ）、文字列判定部７は、文字列情報テーブル９の判定基準照合結果６０７に格納された判定基準項目毎の値を合計し、合計値を合致数６０８に格納する（ステップ７１０）。次に、文字列判定部７は、合致数６０８に格納された合計値がステップ７０２で取得した閾値Ｓ１以上であるか否かを判定する（ステップ７１１）。

　当該合計値が閾値Ｓ１以上でない場合（ステップ７１１：Ｎｏ）、文字列判定部７は、文字列情報テーブル９の当該認識文字列の翻訳対象フラグ６１０に値０を格納し（ステップ７１２）、ステップ７０３に戻る。当該合計値が閾値Ｓ１以上である場合（ステップ７１１：Ｙｅｓ）、文字列判定部７は、文字列情報テーブル９の当該認識文字列の翻訳対象フラグ６１０に値１を格納し（ステップ７１３）、ステップ７０３に戻る。

　図７Ｂは、Ｊｕｄｇｅの値が合致項目の重み和である場合における、文字列判定部７による翻訳対象文字列判定処理の一例を示す。文字列判定部７は、文字列判定基準８の判定方法５０５に規定された閾値Ｓ２の値を取得する（ステップ７１４）。即ち、文字列判定部７は、変数Ｓｕｍ＿ｏｆ＿ｗｅｉｇｈｔｓ＿ｔｈｒｅｓｈｏｌｄの値を閾値Ｓ２として保持する。次に、文字列判定部７は、文字列情報テーブル９に未判定の認識文字列があるか否かを判定する（ステップ７１５）。

　未判定の認識文字列がない場合（ステップ７１５：Ｎｏ）、文字列判定部７は処理を終了する。未判定の認識文字列がある場合は（ステップ７１５：Ｙｅｓ）、文字列判定部７は当該認識文字列を解析する（ステップ７１６）。当該解析は、ステップ７０４で行われた解析と同様であるため説明を省略する。

　次に、文字列判定部７は、認識文字列に対して未適用の判定基準項目内容５０２があるか否かを判定する（ステップ７１７）。未適用の判定基準項目内容５０２がある場合（ステップ７１７：Ｙｅｓ）、文字列判定部７は、未適用の判定基準項目内容５０２の照合を行い（ステップ７１８）、認識文字列が当該未適用の判定基準項目内容５０２に合致するか否かを判定する（ステップ７１９）。

　認識文字列が判定基準項目に合致しない場合（ステップ７１９：Ｎｏ）、文字列判定部７は、文字列情報テーブル９の判定基準照合結果６０７の該当する判定基準項目に値０を格納し（ステップ７２０）、ステップ７１７に戻る。認識文字列が判定基準項目に合致する場合（ステップ７１９：Ｙｅｓ）、文字列判定部７は、文字列情報テーブル９の判定基準照合結果６０７の該当する判定基準項目に、文字列判定基準８の該当する判定基準項目の重み値５０３を格納し（ステップ７２１）、ステップ７１７に戻る。

　ステップ７１７において、未適用の判定基準項目がない場合（ステップ７１７：Ｎｏ）、文字列判定部７は、文字列情報テーブル９の判定基準照合結果６０７に格納された判定基準項目毎の値を合計し、合計値を重み総和６０９に格納する（ステップ７２２）。次に、文字列判定部７は、重み総和６０９に格納された合計値がステップ７１４で取得した閾値Ｓ２以上であるか否かを判定する（ステップ７２３）。

　当該合計値が閾値Ｓ２以上でない場合（ステップ７２３：Ｎｏ）、文字列判定部７は、文字列情報テーブル９の当該認識文字列の翻訳対象フラグ６１０に値０を格納し（ステップ７２４）、ステップ７１５に戻る。当該合計値が閾値以上である場合（ステップ７２３：Ｙｅｓ）、文字列判定部７は、文字列情報テーブル９の当該認識文字列の翻訳対象フラグ６１０に値１を格納し（ステップ７２５）、ステップ７１５に戻る。

　図８は、翻訳対象文字列と判定された文字列の一覧出力画面の一例を示す。図８は、図６に示した文字列情報テーブル９のデータに基づいて出力表示された一覧出力画面を例示している。文字列一覧出力画面８００は、電子イメージ文書及び当該電子イメージ文書中の文字列の翻訳結果を出力する出力イメージサブ画面８０１と、翻訳対象文字列の一覧及び翻訳結果を出力する翻訳状況サブ画面８０２と、を含む。翻訳状況サブ画面８０２は、各文字列の翻訳作業状況を表示する状況８０３と、翻訳対象となる認識文字列である翻訳対象文字列８０４と、翻訳対象文字列８０４に対する翻訳結果８０５と、を含む。

　利用者は、状況８０３、翻訳対象文字列８０４、及び翻訳結果８０５の項目見出しのいずれかを選択することにより、選択した項目の値を降順又は昇順に並べ替えることができる。これにより、利用者は、例えば、まだ翻訳されていない文字列を容易に把握したり、同じ文字列の翻訳結果がばらついていないかを容易にチェックしたりすることができる。

　また、翻訳対象文字列８０４は、出力イメージサブ画面８０１における記載位置と連動している。利用者が、翻訳対象文字列８０４内の任意の文字列を指定すると、出力イメージサブ画面８０１は、当該指定した文字列の記載箇所を表示する。なお、文字列情報管理部１６は、文字列情報テーブル９の記載位置６０２を参照することにより、翻訳対象文字列８０４の文字列の記載位置を、取得する。このように、利用者は、翻訳状況サブ画面８０２において、翻訳対象となる文字列の一覧を参照でき、出力イメージサブ画面８０１と連動して表示できるため、電子イメー文書中の文字列に対する翻訳漏れを減少させることができる。

　また、翻訳状況サブ画面８０２は、翻訳対象となる文字列の個数及びトータルの文字数を上部に表示する。図８の例では、翻訳状況サブ画面８０２は、翻訳対象文字列の数が６個であり、トータルの文字数が４０文字であると表示している。これらの値は、文字列情報テーブル９において、翻訳対象フラグが１になっている認識文字列６０１から、文字列情報管理部１６によって算出される。利用者は、翻訳状況サブ画面８０２の表示から、電子イメージ文書の中に翻訳対象となる文字列の量がどのくらいあるかを、文字列の一覧とともに把握できるため、翻訳にかかる作業工数を容易に見積もることができる。

　図９は、文字列判定基準８の変更画面の一例を示す。利用者が、図８に示した判定基準変更ボタン８０６を押下すると、文字列判定基準８を変更する判定基準変更画面９００が表示される。利用者は、判定基準変更画面９００において、文字列判定基準８を構成する各判定基準項目について、その構成要素や値（判定基準変更画面９００中の〔　〕で囲まれた値）を変更することができる。図９は、図５Ａに示した文字列判定基準８の、閾値（Ｎｕｍ＿ｏｆ＿ｉｔｅｍｓ＿ｔｈｒｅｓｈｏｌｄ）９０２を３から４（即ち、認識文字列が４種類の基準項目すべてを満たす場合に、当該認識文字列が翻訳対象文字列と判定される）に変更した例を示す。

　利用者が判定基準変更内容入力後に更新ボタン９０３を押下すると、押下直前に判定基準変更画面９００に表示されていた内容が、文字列判定基準８に更新反映される。利用者がキャンセルボタン９０４を押下した場合、当該内容は文字列判定基準８に更新反映されない。

　図１０は、文字列判定基準８の変更後に翻訳処理を再実行した出力画面の一例を示す。利用者が、図９に例示した内容で文字列判定基準８を更新した後に、再表示ボタン８０７を押下すると、文字列判定部７は更新された文字列判定基準８を用いて判定処理を再実行し、再実行結果を文字列情報テーブル９に格納する。そして、再実行結果を格納した文字列情報テーブル９の情報に基づいて、翻訳状況サブ画面８０２が再表示される。

　図１０と図８とを比較すると、図１０では更新された判定基準に基づいて、認識文字列「ＮＰＮトランシスタ」が翻訳対象文字列とみなされなくなり、翻訳状況サブ画面８０２に出力表示される文字列から除外されている。また、認識文字列「ＮＰＮトランシスタ」が翻訳対象とみなされなくなったことにより、翻訳対象文字列数及び翻訳対象文字数の値も小さくなっている。

　このように、本実施例の電子イメージ文書編集システムは、文字列判定基準８の内容が更新可能であることにより、編集対象である電子イメージ文書に応じた文字列判定基準８を、利用者が選択することができ、ひいては編集対象文字列を高精度に抽出できるようになる。

　上述したように、本実施例の電子イメージ文書編集システムは、例えば、設計図面のように図（非文字情報）と文字情報が混在している電子イメージ文書の中から文字認識処理によって認識された文字情報のうち、編集対象となる文字情報を高精度に特定できる。その結果、利用者は、本実施例の電子イメージ文書編集システムを用いて、編集対象となる文字情報の記載箇所や記載量を容易かつ正確に把握することができ、ひいては編集作業の効率や品質を向上できる。

　なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

　また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記録装置、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

Claims

　電子イメージ文書から認識された文字列を編集する、電子イメージ文書編集システムであって、
　プロセッサと記憶装置とを含み、
　前記記憶装置は、１以上の文字からなる文字列が編集対象文字列か否かを判定する基準である１以上の文字列判定基準を保持し、
　前記プロセッサは、
　電子イメージ文書の入力を受け付け、
　前記入力された電子イメージ文書中の、複数種別の文字における１以上の文字からなる文字列を認識し、
　前記認識した文字列が前記文字列判定基準を満たす場合、前記認識した文字列が編集対象文字列であると判定し、
　前記文字列判定基準は、
　前記認識した文字列が、第１閾値（前記第１閾値は２以上の整数）以上の文字からなる第１判定基準と、
　前記認識した文字列が、前記複数種別の一部である第１種別群の文字における第２閾値（前記第２閾値は２以上の整数）以上の文字からなる部分文字列を含む第２判定基準と、
　前記認識した文字列が前記複数種別の一部である第２種別群における文字を含む第３判定基準と、
　前記認識した文字列が内容語を含む第４判定基準のうち、少なくとも１つの判定基準を含む電子イメージ文書編集システム。
　請求項１に記載の電子イメージ文書編集システムであって、
　前記記憶装置は、前記文字列判定基準のそれぞれに対応する重み値をさらに保持し、
　前記プロセッサは、
　前記認識した文字列が満たす文字列判定基準のそれぞれに対応する重み値の総和を算出し、
　前記重み値の総和が第３閾値以上である場合、前記認識した文字列が編集対象文字列であると判定する電子イメージ文書編集システム。
　請求項１に記載の電子イメージ文書編集システムであって、
　前記文字列判定基準は、前記第１判定基準と前記第２判定基準とを含み、
　前記プロセッサは、前記認識した文字列が前記第１判定基準と前記第２判定基準の双方を満たす場合、前記認識した文字列が編集対象文字列であると判定する電子イメージ文書編集システム。
　請求項１に記載の電子イメージ文書編集システムであって、
　前記第１閾値は２である電子イメージ文書編集システム。
　請求項１に記載の電子イメージ文書編集システムであって、
　前記第１種別群は、漢字、平仮名、及び片仮名から構成される電子イメージ文書編集システム。
　請求項１に記載の電子イメージ文書編集システムであって、
　前記第２閾値は２である電子イメージ文書編集システム。
　請求項１に記載の電子イメージ文書編集システムであって、
　前記第２種別群は、記号、数詞接尾語、数字、アルファベット、及び非常用漢字以外の種別から構成される電子イメージ文書編集システム。
　請求項１に記載の電子イメージ文書編集システムであって、
　前記内容語は、自立語である電子イメージ文書編集システム。
　請求項１に記載の電子イメージ文書編集システムであって、
　前記プロセッサは、
　前記編集対象文字列の一覧を前記入力された電子イメージ文書とともに出力する電子イメージ文書編集システム。
　請求項１に記載の電子イメージ文書編集システムであって、
　前記プロセッサは、前記編集対象文字列の総数、及び前記編集対象文字列の文字数の総和を出力する電子イメージ文書編集システム。
　請求項１に記載の電子イメージ文書編集システムであって、
　前記プロセッサは、
　前記文字列判定基準の変更の入力を受け付け、
　前記変更した文字列判定基準を前記記憶装置に格納し、
　前記認識した文字列が前記変更した文字列判定基準を満たす場合、前記認識した文字列が編集対象文字列であると判定する電子イメージ文書編集システム。
　電子イメージ文書から認識された文字列を編集する、電子イメージ文書編集システムが、１以上の文字からなる文字列が編集対象文字列であるか否かを判定する方法であって、
　前記電子イメージ文書編集システムは、１以上の文字からなる文字列が編集対象文字列か否かを判定する基準である１以上の文字列判定基準を保持し、
　前記方法は、
　電子イメージ文書の入力を受け付け、
　前記入力された電子イメージ文書中の、複数種別の文字における１以上の文字からなる文字列を認識し、
　前記認識した文字列が前記文字列判定基準を満たす場合、前記認識した文字列が編集対象文字列であると判定する、ことを含み、
　前記文字列判定基準は、
　前記認識した文字列が、第１閾値（前記第１閾値は２以上の整数）以上の文字からなる第１判定基準と、
　前記認識した文字列が、前記複数種別の一部である第１種別群の文字における第２閾値（前記第２閾値は２以上の整数）以上の文字からなる部分文字列を含む第２判定基準と、
　前記認識した文字列が前記複数種別の一部である第２種別群における文字を含む第３判定基準と、
　前記認識した文字列が内容語を含む第４判定基準のうち、少なくとも１つの判定基準を含む方法。
　電子イメージ文書から認識された文字列を編集する、電子イメージ文書編集システムにおいて実行されるプログラムであって、
　前記電子イメージ文書編集システムは、プロセッサと記憶装置とを含み、
　前記記憶装置は、１以上の文字からなる文字列が編集対象文字列か否かを判定する基準である１以上の文字列判定基準を保持し、
　前記プログラムは、
　電子イメージ文書の入力を受け付ける手順と、
　前記入力された電子イメージ文書中の、複数種別の文字における１以上の文字からなる文字列を認識する手順と、
　前記認識した文字列が前記文字列判定基準を満たす場合、前記認識した文字列が編集対象文字列であると判定する手順と、を前記プロセッサに実行させ、
　前記文字列判定基準は、
　前記認識した文字列が、第１閾値（前記第１閾値は２以上の整数）以上の文字からなる第１判定基準と、
　前記認識した文字列が、前記複数種別の一部である第１種別群の文字における第２閾値（前記第２閾値は２以上の整数）以上の文字からなる部分文字列を含む第２判定基準と、
　前記認識した文字列が前記複数種別の一部である第２種別群における文字を含む第３判定基準と、
　前記認識した文字列が内容語を含む第４判定基準のうち、少なくとも１つの判定基準を含むプログラム。