以下、図面を参照して、本実施形態に係る情報処理装置について詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術の範囲は、特許請求の範囲によって確定されるものであって、以下の個別の実施形態によって限定されるわけではない。
(第1の実施形態)
まず、第1の実施形態について説明する。
図1は、第1の実施形態に係る情報処理システムの構成の一例を示すものである。
図1に示すように、情報処理システムは、登録部1(情報処理装置)、格納部2を備える。また、登録部1および格納部2は有線もしくは無線のネットワーク6を介して互いに通信可能に接続されている。また、登録部1および格納部2はネットワーク6を介して病院内の各種システム(電子カルテシステム3、オーダリングシステム4、その他のシステム5)と通信可能に接続されている。なお、登録部1および格納部2は複数台あっても構わない。
登録部1について詳細に述べる。登録部1は例えばPC等の情報処理装置である。登録部1はUIデバイス101、CPU102、RAM103、通信IF104、UI表示部105、プログラム用記憶領域106およびデータ用記憶領域107を備える。
UIデバイス101はマウス、デジタイザおよびキーボード等の少なくとも1つを含むものであり、ユーザによる登録情報の確認、修正、送信のために用いられる。
CPU102はプログラム用記憶領域106からRAM103に読み込んだプログラムを解釈・実行することによって装置内の各種制御や計算、UIの表示が可能である。例えば、CPU102は、プログラムを実行することで図2に示すように、文書画像解析部110、候補領域設定部120、候補領域認識部130、抽出情報同定部140および登録部150として機能する。なお、登録部1が備えるCPU102およびRAM103は1つであってもよいし複数であってもよい。すなわち、少なくとも1以上の処理装置(CPU)と少なくとも1つの記憶装置(RAM)とが接続されており、少なくとも1以上の処理装置が少なくとも1以上の記憶装置に記憶されたプログラムを実行した場合に登録部1は上記の各部として機能する。
文書画像解析部110は図示しないスキャナにより得られた紙文書が電子化された文書画像を取得し、解析を行う。ここでスキャナによる電子化とは画像化と言い換えることができる。すなわち、文書画像は画像化された文書データの一例に相当する。なお、画像化された医療文書を医療文書データという。文書画像解析部110はスキャナにより得られた電子化された文書画像をスキャナから直接取得してもよいし、スキャナにより得られた文書画像が格納部2に保存されている場合には文書画像解析部110は格納部2から文書画像を取得することとしてもよい。
文書画像解析部110は、紙文書の電子化された文書画像のレイアウトを解析し、文字領域や写真領域の複数の領域に分割(領域分割)して領域を抽出する。すなわち、文書画像解析部110は画像化された文書データから複数の領域を抽出する第1抽出手段の一例に相当する。
なお、領域分割によって、文書画像解析部110は領域分割した各領域の座標および各領域が文字領域か写真領域かを示す属性情報を領域毎に取得する。文字領域か写真領域かを示す属性情報は既知の種々の手法により取得可能である。なお、紙文書を電子化する手段はスキャナに限定されるものではなく他の手段であってもよい。
候補領域設定部120は、文書解析部110により分割された領域から情報を抽出する対象となる候補領域を設定する。具体的には、候補領域設定部120は文字領域を候補領域として設定する。言い換えれば、候補領域設定部120は文書解析部110により分割された領域のうち写真領域は候補領域としない。なお、候補領域設定部120の処理を省略して、候補領域を設定することなく抽出情報同定部140により後述する辞書を用いて文書の種別等を同定することとしてもよい。候補領域設定部120の処理により文書の種別等を同定するまでの時間は短縮されるが、候補領域設定部120の処理を省略しても上述の効果を奏することが可能である。
候補領域認識部130は、候補領域設定部120により設定された候補領域の中身を認識する処理を行うことで文字認識情報を取得する。文字認識情報は候補領域の中身の認識結果である。
抽出情報同定部140は、候補領域認識部130の認識結果に基づいて候補領域から抽出対象領域を同定し、同定した領域の記載から基本情報を同定する。具体的には、抽出情報同定部140は予め作成された辞書等の知識を用いて候補領域から抽出対象領域を同定する。そして、抽出情報同定部140は、同定した領域から予め作成された辞書等の知識を用いて例えば文書の種別を同定する。辞書等の知識についての詳細は後述する。なお、辞書等の知識はRAM103に記憶されていてもよいしデータ記憶領域107に記憶されていてもよい。また辞書等の知識は登録部1が備える不図示のROMに記憶されることとしてもよい。
登録部150は、抽出情報同定部140によって同定された情報を用いて文書画像を所定の記憶手段に登録(記録)する。例えば、登録部150は抽出情報同定部140によって同定された紙文書の種別を文書画像と対応付けて登録情報10としてデータ記憶領域107等に登録する。なお、登録部150は登録情報10を格納部2に記憶することとしてもよい。
なお、上記の例ではCPU102が図2に示す各部として機能することとしているが、これに限定されるものではなくFPGAに上記の機能の少なくとも一部を持たせることとしてもよい。また、複数のCPUに上記の機能を分散させることとしてもよい。さらに、プログラム用記憶領域106は登録部1の内部に備えられることとしてもよいし登録部1の外部に備えられることとしてもよい。また、プログラム用記憶領域106は1つもメモリ等の記憶装置により構成されていてもよいし、複数の記憶装置により構成されることとしてもよい。
通信IF104はネットワーク6に繋がっており、登録部1と格納部2および病院内の各種サーバ3〜5との間の通信インタフェースである。
UI表示部105は装置の状態や画像情報や登録内容を表示するLEDや液晶パネル等である。
プログラム用記憶領域106およびデータ用記憶領域107は具体的にはハードディスクやフラッシュメモリである。但し、特定の記憶媒体に限定されるものではない。登録部1では、データ用記憶領域107に登録情報10が記憶される。なお、登録情報10は格納部2上に記憶されることとしても構わない。なお、登録部1の登録情報10を直接病院内のシステム(例えば、電子カルテシステム3)に関連付けて格納してもよい。
登録情報を格納部2に置かれる場合を想定し、格納部2について詳細に述べる。格納部2は少なくとも1以上のHDDまたはSSD等の記憶媒体であり、格納部2にはバインダプール20が記憶されている。バインダプール20にはバインダ201、202が含まれる。各バインダには医療文書が含まれている。すなわち、格納部2は医用文書をバインダという単位で管理する。なお、バインダプール20は病院内のシステム(例えば、電子カルテシステム3)に関連付けて記憶しても構わない。バインダプール20の中には、情報が使用しやすいように所定の規則で登録資料がバインダ毎に格納される。バインダのまとめ方として、例えば、患者毎に各種別の資料を保存してもよいし、種別毎に各資料を保存してもよい。例えば、登録部150は抽出情報同定部140によって同定された紙文書の種別に基づいて文書画像を含む登録情報を種別毎にバインダに記憶させることが可能である。
上述の構成で、情報処理システム全体で登録情報を参照する事が可能となる。
なお、ネットワーク6は、病院あるいは組織内で運用されるイントラネットであってもよいし、インターネットであってもよい。
なお、電子カルテシステム/オーダーシステムは、広く普及し良く知られている装置なので、ハードウェア構成例や動作フローの説明を省略する。
次に、本実施形態に係る情報処理システムによる情報処理方法の処理手順の一例について説明する。
図3は、第1の実施形態に係る情報処理装置による情報処理方法の処理手順の一例を示すフローチャートである。
まず、ステップS110において、文書画像解析部110は、図示しないスキャナにより得られた紙文書が電子化された文書画像を取得する。そして、文書画像解析部110は、紙文書の電子化された文書画像のレイアウトを解析し、文字領域や写真領域に分割(領域分割)する。尚、文書画像の領域分割方法として、例えば特開2002−314806公報で開示されている公知の方法等を使用することができる。
続いて、ステップS120において、候補領域設定部120は、上記文書画像の解析結果から抽出対象の候補となる領域を設定する。この処理の詳細については後述する。
続いて、ステップS130において、候補領域認識部130は、上記候補領域にある文字列を認識し、認識情報を記録する。認識情報として、文字列の認識結果および文字数、また、段落である場合の行数などが挙げられる。尚、認識処理は、公知の文字認識技術を用いることができる。
続いて、ステップS140において、情報処理装置の抽出情報同定部140は、上記候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象領域から基本情報を同定する。そして、情報処理装置の登録部150は、同定情報により文書画像を登録する。この処理の詳細については後述する。
次に、ステップS120における候補領域の設定処理について説明する。
図4は、第1の実施形態に係る図3のステップS120における候補領域の設定処理の手順の一例を示すフローチャートである。
先ず、ステップS1201において、文書画像解析部110による文書画像解析により取得される領域情報、即ち、各領域の位置を示す座標情報と、各領域が文字領域か写真領域を示す属性情報とを文書画像解析部110は候補領域設定部120に入力する。
続いて、ステップS1202では、候補領域設定部120は、属性情報に基づいて文書画像解析部110よって取得された領域が文字領域であるかどうかを判断する。文字領域であれば、ステップS1203で、候補領域設定部120は当該文字領域を候補領域として設定する。
続いて、ステップS1204では、候補領域設定部120は未処理の領域があるかどうかを判断します。まだ未処理の領域があれば、ステップS1202に入り、ステップS1202からステップS1204までの処理を繰り返して実行するが、未処理の領域がなければ、候補領域設定処理を終了する。
次に、ステップS140における抽出対象の同定処理について説明する。
図5は、第1の実施形態に係る図3のステップS140における抽出対象の同定処理の手順の一例を示すフローチャートである。
先ず、ステップS1401において、候補領域情報を候補領域設定部120および候補領域認識部130は抽出情報同定部140に入力する。候補領域情報には、候補領域設定部120により得られた候補領域の座標情報及び候補領域認識部130により得られた文字認識情報が含まれる。
続いて、ステップS1402からステップS1407において、抽出情報同定部140は候補領域の文字認識情報及び知識情報に基づいて抽出対象領域を同定し、抽出対象領域の中身を同定する。この部分について詳細に説明する。
先ず、ステップS1402では、抽出情報同定部140は処理対象となる候補領域に語尾辞書(図6における符号604参照)にある語尾があるかどうかを判断する。
語尾が候補領域にある場合、ステップS1403では、抽出情報同定部140は当該候補領域を抽出領域として同定する。すなわち、抽出情報同定部140は、複数の領域から第1の文字を含む領域を抽出する第2抽出手段の一例に相当する。また、語尾辞書に含まれる語尾は第1の文字または単語の一例に相当する。より具体的には第1の文字は複数の文字からなる単語の語尾である。また、語尾辞書に含まれる語尾は1文字としているがこれに限定されるものではなく複数の文字であってもよい。
そして、ステップS1404では、抽出情報同定部140は当該抽出領域から用語辞書(図6における符号605参照)にある用語を抽出する。ここで、用語辞書に含まれる用語は第1の文字とは異なる情報の一例に相当する。すなわち、抽出情報同定部140は、第2抽出手段によって抽出された領域か第1の文字とは異なる情報を抽出する第3抽出手段の一例に相当する。
そして、ステップS1405では、用語辞書と分類辞書(図6における符号606参照)の関係に基づき、抽出された用語により文書の種別を同定し、抽出対象の同定処理を終了させる。すなわち、抽出情報同定部140は第3抽出手段により抽出された情報を用いて文書データを分類する分類手段の一例に相当する。
なお、語尾辞書に含まれる語尾が候補領域にない場合、ステップS1406では、抽出情報同定部140は未処理の候補領域があるかどうかを判断する。未処理の候補領域があれば、上記ステップS1402からステップS1405までの処理を繰り返して実行する。未処理の候補領域がなければ、抽出情報同定部140は候補領域の中に種別に該当する領域がないとし、種別なしと判断する。
次に、本実施形態における抽出対象の同定処理の一例について辞書の内容を示しながらより詳細に説明する。
図6は、第1の実施形態に係るステップS120における候補領域の設定処理と、図5のステップS140における抽出対象の同定処理の一例を示す模式図である。
601は、ある文書画像に対する文書画像解析部110による解析の結果例である。文書画像は、枠に囲まれる領域毎に分割され、また、領域毎に文字領域か写真領域、或いは、その他の属性が付与される。
602は、文書画像の解析結果から候補領域設定部120によって得られた候補領域の設定結果例である。各候補領域は順番に領域番号、そして、座標情報が記録される。
603は、候補領域から抽出対象の同定処理の結果である。
本実施形態においては抽出対象の同定処理に用いる語尾辞書604、用語辞書605および分類辞書606が不図示のROMに記憶されている。語尾辞書604は、種別に含まれる共通の語尾を記録する。用語辞書605は種別に含まれる用語を記録する。例えば、用語辞書605は「問診」および「質問」という用語を含む。すなわち、用語辞書605は互いに異なる第1の参照用の文字と第2の参照用の文字とを含んでおり、用語辞書605を保持する不図示のROMは保持手段の一例に相当する。分類辞書606は種別に関わる分類を記録する。なお、上記の辞書はROM以外の記憶手段(プログラム記憶領域106、データ記憶領域107、格納部2など)に記憶されることとしてもよい。この場合、記憶手段が保持手段の一例に相当する。
候補領域の順番で処理する。候補領域認識部130により得られた候補領域01の文字認識情報には6語尾辞書04にある「書」という語尾が含まれるため、抽出情報同定部140は当該候補領域を抽出対象領域として同定する。
また、抽出情報同定部140は当該抽出対象領域には用語辞書605にある「説明」という用語が含まれると判断する。具体的には、抽出情報同定部140は用語辞書605に含まれる用語と抽出対象領域に含まれる文字とを比較し、比較結果が一致する場合には用語辞書605に含まれる用語が抽出対象領域から抽出されたと判断する。本実施例では抽出情報同定部140は「問診」という用語を抽出対象領域に含まれる文字と比較し、一致しない場合には用語辞書605の次の用語と抽出対象領域に含まれる文字との比較を行う。すなわち、第3抽出手段の一例である抽出情報同定部140は、第2抽出手段によって抽出された領域に含まれる文字と第1の参照用の文字とを比較し、比較結果が一致する場合には第1の参照用の文字に一致する文字を情報として抽出し、比較結果が一致しない場合には第2抽出手段によって抽出された領域に含まれる文字と第2の参照用の文字とを比較する。
抽出情報同定部140は用語辞書605から、「説明」という用語は「02」という「種別番号」と対応付けられると判断する。したがって、抽出情報同定部140は、分類辞書606に「02」と対応する「説明・同意書」という種別が抽出対象(紙文書)の文書種別であると決定する。そして、登録部150は「説明・同意書」という種別を文書画像と対応付けてデータ記憶領域107または格納部2に記録する。
上述の如く本実施形態は、文書画像における各領域の属性情報に基づき抽出対象の候補領域を設定し、候補領域の文字認識情報及び知識情報に基づき候補領域から抽出対象領域を同定し、紙文書の種別を取得するものである。しかしながら、本発明は上記の実施形態に限定されるものではなく、例えば医用文書(紙文書)から診療科情報や、患者情報(患者ID等の患者識別情報)などを抽出する場合は、抽出対象に応じて知識情報を置き換えればよい。患者IDは例えば数字である。
例えば、診療科情報抽出の場合、種別抽出用の語尾辞書を「科」などを含む診療科辞書にすればよい。さらに、用語辞書は「小児」、「皮膚」などの文言を含む辞書に変更すればよい。分類辞書は必須の構成ではないが、使用する場合には分類辞書についても同様に診療科で分類を行うよう種別を「小児科」、「皮膚科」などに変更すればよい。また、本実施形態では、知識を辞書という言葉で記述したが、辞書以外の呼び方をされるものであってもよい。なお、患者情報(患者ID等)などを抽出する場合には、種別抽出用の語尾辞書を「ID」、「番号」などを含む辞書にすればよい。この場合、「ID」等の文字は領域内の末尾ではなく先頭に存在する場合が多いが、本実施形態においては説明を簡単にするために語尾辞書という文言を用いている。なお、患者情報(患者ID等)などを抽出する場合には分類を行う必要がないため用語辞書等は不要である。なお診療科情報および患者情報(患者ID等)の抽出方法の詳細については後述の第5の実施形態で述べる。
また、本実施形態では、医用文書の種別抽出に、文書画像を管理しやすいために種別を図6に示す分類に分けたが、これに限定されるものではなくより細かく分類することとしてもよいし、より粗く分類することとしてもよい。なお各辞書に含まれる言葉や言葉の数も図6記載の内容に限定されるものではなく任意に変更可能である。
また、本実施形態では、種別抽出用の語尾辞書、用語辞書、分類辞書を例にしたが、辞書の名称は図6記載の名称以外であってもよいし、辞書の構成を図6とは異なる構成にしてもよい。例えば、図7に示すように、用語辞書に用語及び用語と種別の関連付けのみならず、語尾との関連付けも持つようにしてもよい。この場合、語尾が見つかれば、それと組み合わせ可能な用語が含まれるかどうかのみをチェックし用語を抽出すればよい。例えば、ステップS1402では、「書」という「101」番号の語尾が見つかった場合、ステップS1404では、当該領域から用語辞書に含まれる用語すべてを抽出する代わりに、「101」番号の語尾「書」と組み合わせることが可能な用語のみを抽出する。即ち、「問診」、「説明」等だけを抽出すれば良く(「質問」を抽出しようとする必要はない)、処理の高速化を図ることが可能となる。また、図6の例に示す601、602、603をまとめて辞書として持っていてもよい。すなわち、辞書の形態は上記の例に限定されるものではなく他の形態とすることとしてもよい。
また、本実施形態では、辞書を登録部1の内部に持たせることを例にしたが、登録部1の外部に辞書を持たせることとしてもよい。外部で定義して参照するようにしてもよい。また、本実施形態では、種別に該当する情報を見つからない文書画像において種別なしと出力するが、それ以外の出力、例えば、種別不明としてもよい。
以上、述べたように第1の実施形態によれば、紙文書から簡単に情報を自動抽出することができる。上記実施形態においてはバーコード等追加の情報を紙文書に付加する必要がないため、従来に比べて手間をかけずに文書種別等の情報を抽出することが可能となる。また、バーコード等の追加の情報を紙文書に付加する必要がないため未知のフォーマットの文書からも簡単に文書種別等の情報を抽出することが可能となる。すなわち、医用文書に人手を介する情報の付与作業が行われなくても、また、医用文書のフォーマットが予め分からなくても、文書種別等の情報を自動的に抽出できる。
また、上記実施形態においては語尾辞書を用いて抽出領域を同定しているため、全ての領域に対して用語辞書と照らし合わせる必要がなく文書種別等の情報を高速で抽出することが可能となる。また、「問診票」など種別そのものを示す言葉を文書画像から抽出する場合には、種別を示す言葉の多さから抽出に多くの時間がかかる虞がある。しかし、本実施形態によれば語尾と用語との組み合わせを用いているため「問診票」などの種別を示す用語を抽出する時間を短縮することが可能である。ここで、医療分野においては診療科および文書の種別は病院毎に様々な呼び名があるため、本実施形態を医療分野に用いることで顕著な効果を得ることができる。
なお、上記の例ではステップS1405において文書画像の種別を同定しているが、このステップは必須のものではなく、ステップS1404で処理を終了することとしてもよい。この場合、ステップS1404で抽出された用語を操作者が参照して分類を行うことができる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。
上述した第1の実施形態では、文書画像の解析結果から文字領域を抽出対象の候補領域として設定した。第2の実施形態では、文書画像の解析処理によって正しい塊の領域抽出ができていない場合に領域に併合するものである。
ここで、第2の実施形態に係る情報処理システムのハードウェア構成および情報処理装置の機能構成は、図1、2と同様であるため、その説明は省略する。
次に、本実施形態に係る情報処理方法の処理手順の一例について説明する。
図8は、第2の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。
まず、ステップS’210において、文書画像解析部110は、図示しないスキャナにより得られた紙文書が電子化された文書画像を取得する。そして、文書画像解析部110は、紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。本ステップはステップS110と同様である。
続いて、ステップS’220において、候補領域設定部120は、上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップS120と同様である。
続いて、ステップS’230において、候補領域設定部120は、上記候補領域を補正する。この処理についての詳細は後述する。
続いて、ステップS’240において、候補領域認識部130上記補正後の候補領域にある文字列を認識し、認識情報を記録する。本ステップはステップS130と同様である。
続いて、ステップS’250において、抽出情報同定部140は上記補正後の候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象中身を同定する。本ステップはステップS140と同様である。
次に、ステップS’230における候補領域の補正処理について説明する。
図9は第2の実施形態に係る図8のステップS’230における候補領域の補正処理の手順の一例を示すフローチャートである。
先ず、ステップS’2301において、ステップS’220で設定された候補領域を入力する。
続いて、ステップS’2302からステップS’2306では、上記候補領域から併合すべき領域を選択し、併合する。
ステップS’2302では、候補領域設定部120が処理対象となる二つの候補領域間の間隔は所定の閾値T1以下であるかどうかを判断する。すなわち、候補領域設定部120は隣り合う二つの候補領域間の間隔を閾値T1と比較する。ここで、閾値T1は第1の閾値の一例に相当する。
候補領域間の間隔は所定の閾値T1以下あれば、ステップS’2303では、候補領域設定部120が更に処理対象となる二つの候補領域にある文字サイズの差は所定の閾値T2以下であるかどうかを判断する。ここで、閾値T2は第2の閾値の一例に相当する。
候補領域にある文字サイズの差は所定の閾値T2以下であれば、ステップS’2304へ進む。ステップS’2304では、候補領域設定部120が更に処理対象となる一の候補領域に複数の文字が含まれている場合には、それらの文字間隔の差が所定の閾値T3以下であるかどうかを判断する。すなわち、一の候補領域に複数の文字が含まれていない場合にはステップS’2304は実行されないこととしてもよい。ここで、閾値T3は第3の閾値の一例に相当する。
候補領域にある文字の間隔の差は所定の閾値T3以下であれば、ステップS’2305では、当該二つの候補領域は併合すべき領域と判断し、ステップS’2306では、候補領域設定部120が当該二つの候補領域同士を併合し、候補領域の情報を更新する。すなわち、候補領域設定部120は、第1抽出手段により抽出された領域に関する情報に基づいて第1抽出手段により抽出された領域を併合する領域併合手段の一例に相当する。また、本実施例では第2抽出手段の一例に相当する抽出情報同定部140は、併合された領域から第1の文字または単語を含む領域を抽出することとなる。
続いて、ステップS’2307では、候補領域設定部120が未比較の領域があるかどうかを判断します。まだ未比較の領域があれば、ステップS’2302に入り、ステップS’2302からステップS’2306までの処理を繰り返して実行するが、未比較の領域がなければ、候補領域の補正処理を終了する。
次に、ステップS’230における候補領域の補正処理の一例について説明する。
図10は、本発明の第2の実施形態を示し、図8のステップS’230における候補領域の補正処理の一例を示す模式図である。
10001は、ある文書画像における候補領域の設定結果例である。「同」「意」「書」は離れているため、それぞれ独立な領域として抽出されている。
10002は、種別抽出の場合、10001から候補領域の補正処理の結果例である。10001の候補領域から領域の間隔が一定範囲T1以内、しかも、其々の領域にある文字サイズの差が一定範囲T2以内、其々の領域に複数の文字がある場合の文字列の間隔の差が一定範囲T3以内の候補領域を分断された領域として併合する。
本実施形態では、抽出対象の特性に基づき候補領域を補正し、意味のある領域にするものである。本実施形態では、候補領域の併合条件として候補領域間の間隔、候補領域にある文字サイズの差、候補領域にある文字列の間隔の差を用いたが、それ以外の条件を設定してもよい。また、候補領域が過統合場合の分割処理を例にしてもよい。なお、上記の実施例では候補領域の併合条件として候補領域間の間隔(すなわち候補領域の位置)、候補領域にある文字サイズの差、候補領域にある文字列の間隔の差の全てを用いたが、少なくとも1つを用いることとしてもよい。すなわち、領域を併合するために用いられる領域に関する情報は、第1抽出手段により抽出された領域の位置、第1抽出手段により抽出された領域に含まれる文字の少なくとも1つを示す情報である。
第2の実施形態によれば、意味のある領域の抽出ができ、情報抽出処理の精度を向上することが可能になる。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。
上述した第2の実施形態では、文書画像の解析結果により意味のある領域に補正する領域にするものであった。第3の実施形態では、抽出対象の特性に基づき、候補領域を絞るものである。
ここで、第3の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第3の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。
次に、本実施形態に係る情報処理方法の処理手順について説明する。
図11は、本発明の第3の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。
まず、ステップS210において、文書画像解析部110は紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。具体的な処理はステップS110と同様である。
続いて、ステップS220において、候補領域設定部120は上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップS120と同様である。
続いて、ステップS230において、候補領域認識部130は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップS130と同様である。
続いて、ステップS240において、抽出情報同定部140は抽出対象の特性に基づき、上記候補領域を絞る。この処理の詳細については後述する。
続いて、ステップS250において、抽出情報同定部140は上記候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象中身を同定する。具体的な処理はステップS140と同様である。
次に、ステップS240における候補領域の絞込み処理について説明する。候補領域の絞込み処理は、以下、候補領域のフィルタリング処理とも呼ぶ。
図12は、本発明の第3の実施形態を示し、図11のステップS240における候補領域の絞込み処理の手順の一例を示すフローチャートである。
先ず、ステップS2401において、候補領域設定部120はステップS220で設定された候補領域を抽出情報同定部140に入力する。
続いて、ステップS2402からステップS2404では、抽出情報同定部140は上記候補領域を絞る。種別抽出の場合、種別領域は文書画像の上から一定範囲以内にある可能性が高いこと及び種別領域は複数段落の文書内に存在する可能性は低いという特性を利用して候補領域の絞込み条件として設定する。ここで、複数段落は2以上の段落でもよいし3以上の段落であってもよい。また、一定範囲内とは例えば文書画像全体の上部1/3の範囲内である。なお、一定範囲は文書画像全体の上部1/2の範囲内であってもよいし他の範囲あってもよい。また、診療科抽出または患者情報抽出の場合には絞り込みの範囲を種別抽出の場合と異なる範囲にしてもよい。すなわち、抽出対象に応じて候補領域の絞りこみ条件を変更することとしてもよい。なお、候補領域を絞るためには上記の2つの条件を使用することとしてもよいし、どちらか一方の条件を使用することとしてもよい。また、上記2つの条件に文書画像の横方向における位置等の他の条件を加えることとしてもよい。
ステップS2402では、抽出情報同定部140は処理対象となる候補領域は所定の範囲以内にあるかどうかを判断する。所定の範囲以内にあれば、ステップ2403では、抽出情報同定部140は更に候補領域の行数は所定の閾値T以下であるかどうかを判断する。所定の閾値T以下であれば、ステップ2404では、当該候補領域を候補領域として残す。ここで、閾値Tは第4の閾値の一例に相当する。
ステップ2405では、所定の範囲以外にある候補領域あるいは候補領域内の文字の行数が所定の閾値T以上の候補領域を当該領域を候補領域から外す。これは文書画像の種別を示す情報は通常複数行の文書中に存在する可能性が低いことを利用したものである。上述のように、抽出情報同定部140は、第2抽出手段の処理対象とする領域を選択する領域選択手段の一例に相当する。
続いて、ステップS2406では、抽出情報同定部140は未処理の領域があるかどうかを判断します。まだ未処理の領域があれば、ステップS2402に入り、ステップS2402からステップS2405までの処理を繰り返して実行するが、未処理の領域がなければ、候補領域のフィルタリング処理を終了する。
次に、ステップS240における候補領域の絞込み処理の一例について説明する。
図13は、本発明の第3の実施形態を示し、図11のステップS240における候補領域の絞込み処理の一例を示す模式図である。
1001は、ある文書画像における候補領域の設定結果例である。枠に囲まれる領域は、候補領域として設定されるものである。
1002は、種別抽出の場合、1001から候補領域のフィルタリングの結果例である。1001の候補領域から位置が一定範囲以内にある、しかも、複数行ではない枠に囲まれる領域のみが残る。これらの候補領域は同定処理の対象領域になる。
本実施形態では、抽出対象の特性に基づき候補領域を絞り、残った候補領域から抽出対象を同定するものである。本実施形態では、種別抽出を例に、種別情報の特性に基づき候補領域のフィルタリングの条件を設定したが、それ以外の条件を設定してもよい。また、他の情報を抽出する場合、当該抽出情報の特性に応じてフィルタリングの条件を設定してもよい。本実施形態では候補領域の絞り込みのために、候補領域の位置(ステップS2402)および候補領域内の文字の行数(ステップS2403)を用いたが、少なくとも一つの情報を用いることとしてもよい。 第3の実施形態によれば、第1の実施形態による効果に加え、情報抽出処理の効率を向上することが可能になる。
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。
上述した第3の実施形態では、文書画像の解析結果から候補領域を設定し、抽出対象の特性に応じて候補領域をフィルタリングし、対象となる候補領域から抽出対象を同定するものであった。第4の実施形態では、対象となる候補領域において、抽出対象らしさの順番を付けて、その抽出対象らしさ順で抽出対象を同定していくものである。
ここで、第4の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第4の実施形態に係る情報処理システムの機能構成は、図1に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。
次に、本実施形態に係る情報処理方法の処理手順について説明する。
図14は、本発明の第4の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。
まず、ステップS310において、文書画像解析部110は紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。具体的な処理はステップS110と同様である。
続いて、ステップS320において、候補領域設定部120は上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップS120と同様である。
続いて、ステップS330において、候補領域認識部130は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップS130と同様である。
続いて、ステップS340において、抽出情報同定部140は抽出対象の特性に基づき、上記候補領域を絞る。具体的な処理はステップS240と同様である。
続いて、ステップS350において、抽出情報同定部140は処理対象となる候補領域において、抽出対象らしさを計算し、抽出対象らしさの順番を付ける。すなわち、候補領域に対して処理の優先度を付与する。すなわち、抽出情報同定部140は第1抽出手段により抽出された領域に対して優先度を付与する付与手段の一例に相当する。抽出対象らしさの順番を付与する処理の詳細について後述する。
続いて、ステップS360において、抽出情報同定部140は上記候補領域の認識結果及び知識情報に基づき、ステップS350で決められる抽出対象らしさの順で、抽出対象領域を同定し、抽出対象中身を同定する。具体的な処理はステップS140と同様である。
次に、ステップS350における候補領域の抽出対象らしさの計算処理方法について説明する。
文書の種別領域は基本的に文書画像のタイトルらしい領域に該当する。タイトルは基本的に文書の上に位置する、文字サイズが大きい、また、中心線に寄せるといった特徴を持つ。しかし、医用文書のフォーマットが多種多様なため、種別領域は必ずしも上述の特性を持つわけではない。ここで、これらの特性を用いて、以下の式で候補領域の種別らしさを総合的に求めるようにする。
種別らしさ=w1*{文字サイズ}+w2*{中心線との近さの逆数}+w3*{上部にある領域数の逆数}
ここで、W1、W2、W3は各要素の重み付けである。重要視される要素に高い数値の重みを付ける。ここで、「上部」とは例えば文書画像全体の上部1/3の範囲内を示すが、これに限定されるものではない。なお、式1に示した種別らしさを示す値は3つの項のうち少なくとも1つの項目を用いることとしてもよい。また、上部にある領域数を求めるためには候補領域の位置を利用する。すなわち付与手段の一例である抽出情報同定部140は、第1抽出手段により抽出された領域の位置および領域に含まれる文字の大きさの少なくとも1つに基づいて優先度を付与する。
なお、式1に示した種別らしさを示す値は3つの項により求められているが、4つ以上の項目を用いて種別らしさを算出することとしてもよい。また、例えば、上記種別らしさを示す値が大きい領域から抽出情報同定部140の処理対象とする。
本実施形態では、候補領域の抽出対象らしさ(優先度)を計算し、抽出対象らしさ順で抽出対象を同定するものであった。本実施形態では、種別抽出を例に、抽出対象らしさに関わる要素として文字サイズ、領域の位置、領域の数を用いたが、それ以外の特性を使ってもよい。
第4の実施形態によれば、第1、第3の実施形態による効果に加え、抽出対象領域の可能性の高い候補領域から処理することが可能になり、更に抽出処理の効率性を向上することができるようになる。
(第5の実施形態)
次に、第5の実施形態について説明する。
上述した第1、第2、第3及び第4の実施形態では、医用文書から種別情報を抽出する例を主として説明した。第5の実施形態では、医療文書から診療科情報、或いは、患者情報を抽出するものである。
ここで、第5の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第5の実施形態に係る情報処理システムの機能構成は、図1に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。さらに、第5の実施形態に係る情報処理方法の処理手順は、図3に示す第1の実施形態に係る情報処理方法のステップS140を除いて同様であるため、ステップS110〜130の説明を省略する。
種別抽出処理は基本的に種別領域の同定の後に、種別領域の中身による種別分類が必要なため、語尾情報による種別領域の同定、種別領域にある種別用語の抽出、種別同定の3ステップで処理される。診療科抽出は基本的に診療科名を抽出するためのものなので、診療科領域の同定、診療科領域にある診療科名の抽出の2ステップで処理する。患者情報の抽出は診療科抽出と同様である。
ここで、本実施形態のステップS140における診療科抽出の同定処理について説明する。
図15は、本発明の第5の実施形態を示し、図3のステップS140における診療科の抽出処理の手順の一例を示すフローチャートである。
先ず、ステップS4401では、候補領域設定部120は抽出情報同定部140に候補領域情報を入力する。
続いて、ステップS4402では、抽出情報同定部140は処理対象となる候補領域に診療科語尾辞書にある語尾があるかどうかを判断する。
語尾がある場合、ステップS4403では、抽出情報同定部140は当該候補領域を診療科領域として同定する。そして、ステップS4404では、抽出情報同定部140は当該領域に診療科用語辞書にある用語を診療科名として抽出する。
語尾がない場合、ステップS4405では、未処理の候補領域があるかどうかを判断する。未処理の候補領域があれば、上記ステップS4402からステップS4404までの処理を繰り返して実行する。未処理の候補領域がなければ、候補領域のなかから診療科に該当する領域がないとし、診療科情報がないと判断する。
本実施形態では、種別抽出の他、文書画像から診療科情報、或いは、患者情報を抽出するものであった。抽出対象に応じて、知識情報を置き換えればよい。
第5の実施形態によれば、第1、第2、第4の実施形態による効果に加え、種別情報以外の情報抽出も可能になる。
(第6の実施形態)
次に、第6の実施形態について説明する。
上述した第1、第2、第3、第4及び第5の実施形態では、種別、診療科、患者情報のうち1種類の情報のみを抽出する例を主として説明した。第6の実施形態では、文書画像から複数の情報を抽出する場合を説明する。
ここで、第6の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第6の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。
次に、本実施形態に係る情報処理システムによる情報処理方法の処理手順について説明する。
図16は、本発明の第6の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。
まず、ステップS510では、文書画像解析部110は紙文書の電子化された文書画像を分割する。具体的な処理はステップS110と同様である。
続いて、ステップS520では、候補領域設定部120は上記領域分割の結果から抽出対象の候補領域を設定する。具体的な処理はステップS120と同様である。
続いて、ステップS530では、候補領域認識部130は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップS130と同様である。
続いて、ステップS540では、抽出情報同定部140は、図17に示す情報を参照することで抽出対象が構造上の特性があるかどうかを判断する。
特性があると判断される場合、ステップS550では、抽出情報同定部140は抽出対象の特性に基づき候補領域を絞る。例えば、構造上の特性を有する種別情報を抽出する場合には抽出情報同定部140は候補領域を文書画像の上部に存在する候補領域に絞り込む。具体的な処理はステップS340と同様である。ここで、「上部」とは例えば文書画像全体の上部1/3の範囲内を示すが、これに限定されるものではない。
続いて、ステップS560では、抽出情報同定部140は図18に示す情報に基づいて抽出対象に応じて知識情報を切り替える。
続いて、ステップS570では、抽出情報同定部140は上記候補領域の認識結果及び知識情報に基づき抽出対象を同定する。具体的な処理はステップS140と同様である。なお、操作者が抽出対象を示す情報を登録部1に入力することで登録部1が抽出対象を把握できるようにしてもよいし、登録部1が所定の順序で抽出対象を自動的に切換えることで登録部1が抽出対象を把握することとしてもよい。
次に、抽出対象の構造上の特性有無、抽出対象の知識管理の一例について説明する。
図17は、本発明の第6の実施形態を示し、図16に関わる抽出対象の構造上の特性有無、抽出対象の知識管理の一例を示す模式図である。
1401は抽出対象の構造上の特性有無の管理表で、抽出対象は構造上の特性があるかどうかを記録するものである。種別情報は基本的に文書画像の上部にあるので、構造上の特性があるものとする。診療科情報と患者情報は文書画像のどこにも記述される可能性があるので、構造上の特性がないものとする。
1402は抽出対象の知識管理表で、抽出対象の抽出に必要な知識を管理するものである。種別抽出に種別抽出用の語尾辞書1、用語辞書1、更に分類に必要となる分類辞書1を用いる。診療科抽出に診療科抽出用の語尾辞書2、用語辞書2を用いる。患者情報抽出に患者情報抽出用の語尾辞書3を用いる。
本実施形態では、複数の情報を抽出する場合、抽出対象の情報に応じて構造情報による候補領域の設定処理、抽出対象の同定処理に用いる知識情報を切り替えて行うものである。また、本実施形態では、抽出対象は構造上に特性がある場合、抽出対象の構造上の特性に基づき候補領域の絞込み処理を行うが、更に抽出対象の構造上の特性に基づき抽出対象らしさを計算し順位付け処理を行ってもよい。また、本実施形態では、複数の抽出情報の知識を別々に管理するものであったが、知識をまとめて管理してもよい。
第6の実施形態によれば、第1、第2、第3、第5の実施形態による効果に加え、複数の情報を抽出する場合、情報の特性を考慮する情報抽出の効率化が実現可能になる。
なお、上述した第1、第2、第3、第4、第5及び第6の実施形態では、文書画像の解析結果から文字領域を抽出対象の候補領域として設定するであった。しかし、文字領域のみならず、所定範囲以内でその他の属性領域を抽出対象の候補領域として広く設定してもよい。また、上述した第1、第2、第3、第4及び第6の実施形態では、候補領域の文字認識及び知識に基づき抽出対象領域を同定し、抽出情報を同定するものであったが、候補領域の文字認識の結果を補正し、補正情報及び知識に基づき抽出対象を同定してもよい。
(第7の実施形態)
次に、第7の実施形態について説明する。
上述した第1、第2、第3、第4、第5及び第6の実施形態では、文書画像の解析により抽出対象となる情報を抽出するものであった。第7の実施形態では、院内システム(例えば、電子カルテシステム)に格納される診療情報及び文書画像の両方を解析し情報を抽出するものである。
ここで、第7の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第7の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。
次に、本実施形態に係る情報処理システムによる情報処理方法の処理手順について説明する。
図18は、本発明の第7の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。
まず、ステップS610では、抽出情報同定部140は文書画像から患者番号を抽出する。患者番号の抽出処理は上記第5の実施形態を使用することができる。
続いて、ステップS620では、抽出情報同定部140は電子カルテシステムから当該患者の関連情報を取り出す。関連情報は種別分類に関わるものとする。関連情報の詳細については後述する。
続いて、ステップS630では、抽出情報同定部140は種別分類の関連情報があるかどうかを確認する。関連情報があれば、ステップS640では、関連情報を用いて種別分類を絞る。関連情報がなければ、ステップS650に入る。
続いて、ステップS650では、種別分類から種別を同定する。種別の抽出処理は上記第1、第2、第4の実施形態の何れかを使用することができる。
次に、本実施形態に係る情報処理システムによる情報処理の一例について説明する。
図19は、本発明の第7の実施形態を示し、図18の情報処理の一例を示す模式図である。
1601は、電子カルテシステムにおける診療情報の構造情報の記述例である。基本情報に患者情報、診察日、初診か再診を含む。また、診療情報としてS(主訴)O(所見)A(検査)P(計画)が含まれる。
1602は、電子カルテの診療情報に含まれる種別分類に関わる関連情報例である。基本情報の中に、例えば、初診、或いは、再診といった用語が挙げられる。また、診療情報の中に、例えば、手術予定、或いは、入院治療といった用語が挙げられる。
1603は、本来種別抽出処理に用いる分類辞書である。
基本情報から種別分類に関わる用語を抽出し、種別分類候補を絞込む処理例では、先ず、1601から「初診」という関連情報が抽出される。「初診」の場合、文書画像が同意書や記録・報告などの種別の可能性がないので、それを種別候補から除外する。そして、「初診」と関連付け可能な種別番号「01」、「10」から種別を判定し、分類する。
また、診療情報から種別分類に関わる用語を抽出する場合は、上記と同様に、抽出される関連用語に対応する範囲の種別分類から文書画像の種別を同定する。
本実施形態では、電子カルテシステムから抽出情報と関連する内容を取り出し、抽出情報候補を絞るものである。本実施形態では、電子カルテシステムの利用を例にしたが、それ以外の関連システムと連携してもよい。また、本実施形態では、種別抽出に関連する情報を例に挙げたが、それ以外の関連情報を設定してもよい。また、本実施形態では、種別抽出を例に説明したが、診療科抽出、或いは、それ以外の情報抽出にしてもよい。さらに、本実施形態では、関連情報により種別分類候補を絞り、可能性のある種別分類から種別を同定するものであった。しかし、第1、第2、第3、第4、第5の実施例のように、種別分類を先に同定に、関連情報から絞った種別分類で抽出結果の確認を行う処理方法にしてもよい。
第7の実施形態によれば、第1、第2、第3、第4、第6の実施形態による効果に加え、関連システムと連携した情報抽出仕組みの実現が可能になる。
(第8の実施形態)
次に、第8の実施形態について説明する。
上述した第1、第2、第3、第4、第5、第6及び第7の実施形態では、医用向け非定型文書を対象に種別情報等を自動的に情報を抽出するものであった。第8の実施形態では、一般分野の非定型文書における情報抽出に関するものである。
例えば、銀行の場合は、口座開設をはじめ、融資取組や、住宅ローンなどの業務に関連するドキュメントとデータのキャプチャは、基本的は手作業で行うのが現状である。例えば、米ドル建ての外国送金の場合では、米国OFAC規制により、取引の関係当事者の所在地に禁止取引国、また、問題のある法人・個人等が含まれているかどうかを確認する作業は非常に手間がかかるため、業務の効率化のサポートが必要である。
ここで、業務効率の向上に、様々なフォーマットを有するドキュメントから必要な情報を自動的に抽出し、ドキュメントを分類する第8の実施形態として挙げる。第8の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第8の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。また、第3の実施形態に係る情報処理システムのハードウェア構成は、図2に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明も省略する。また、第8の実施形態に係る情報処理方法の処理手順は、図3に示す第1の実施形態に係る情報処理方法のステップS140を除いて同様であるため、ステップS110〜130の説明は省略する。
次に、ステップS140における知識に基づく抽出対象の同定処理について説明する。
図20は、本発明の第8の実施形態を示し、図3のステップS140における知識に基づく抽出対象を同定し、取引規制対象であるかどうかの確認作業支援の手順の一例を示すフローチャートである。
先ず、ステップS7401では、候補領域設定部120は候補領域情報を抽出情報同定部140に入力する。
続いて、抽出情報同定部140はステップS7402からステップS7406において、基本抽出項目内容に該当するかどうかをチェックし、取引規制対象の判断を行う。以下、詳細に説明する。
ステップS7402では、抽出情報同定部140は基本抽出項目nを取り出す。そして、ステップS7403では、基本抽出項目nに対応する中身mを取り出す。
そして、ステップS7404では、候補情報の中に、上記基本抽出項目nの中身mに該当するものがあるかどうかをチェックする。上記基本抽出項目nの中身mに該当するものがあれば、当該文書は更に精査する必要があると判断し、ステップS7407の処理に入る。上記基本抽出項目nの中身mに該当するものがなければ、ステップS7405に入り、基本項目nの中身をすべてチェックしたかどうかを確認する。まだ未チェックの中身があれば、ステップS7403に入り、ステップS7403からステップS7404までの処理を繰り返して実行する。基本抽出項目nの中身はすべてチェックする場合、ステップS7406では、基本抽出項目はすべてチェックしたかどうかを確認する。まだ未チェックの基本抽出項目があれば、ステップS7402に入り、ステップS7402からステップS7406までの処理を繰り返して実行する。すべでの基本抽出項目において、すべでの基本項目の中身に該当するものがなければ、ステップS7412に入り、本文書画像は規制対象外と判断する。
ステップS7407からステップS7413は、ステップS7404で基本抽出項目の中身に該当するものがある場合の精査処理である。以下、詳細に説明する。
ステップS7407では、抽出項目を取り出す。そして、ステップS7408では、抽出項目n’に対応する中身m’を取り出す。
そして、ステップS7409では、候補情報の中に、上記抽出項目n’の中身m’に該当するものがあるかどうかをチェックする。上記抽出項目n’の中身m’に該当するものがあれば、ステップS7413に入り、当該文書を規制対象と判断する。上記抽出項目n’の中身m’に該当するものがなければ、ステップS74010に入り、抽出項目n’の中身をすべてチェックしたかどうかを確認する。まだ未チェックの中身があれば、ステップS7408に入り、ステップS7408からステップS7409までの処理を繰り返して実行する。抽出項目nの中身はすべてチェックする場合、ステップS7411では、抽出項目はすべてチェックしたかどうかを確認する。まだ未チェックの抽出項目があれば、ステップS7407に入り、ステップS7407からステップS7411までの処理を繰り返して実行する。すべでの抽出項目において、すべでの抽出項目の中身に該当するものがなければ、ステップS7412に入り、本文書画像は規制対象外と判断する。
次に、本実施形態に係る情報処理システムによる情報処理の一例について説明する。
図21は、本発明の第8の実施形態を示し、図20の情報処理の一例を示す模式図である。
1801は、海外送金業務用の帳票例である。取引規制対象のチェック対象項目として、楕円で囲まれる送金通貨、国名、取引人が挙げられる。
1802は、取引規制対象のチェックに用いる知識例である。知識情報は、18030基本抽出項目、18040抽出項目、18031基本抽出項目に含む各項目の中身リスト、18041、18042抽出項目に含む各項目の中身リストから構成される。例えば、18030基本抽出項目01「送金通貨」の中身番号は「0101」で、内容は「USD」として設定される。また、例えば、18040抽出項目11「国名」に対応する中身リストが複数あり、順番にリストアップされる。また、日本語だけではなく、他言語での記述も対応付けて記録されている。
上記情報処理では、基本抽出項目として設定されている「送金通貨」「USD」に該当するものがあれば、精査対象とする。そして、更に抽出項目として設定されている取引禁止国名のリスト、または、抽出項目として設定されている問題のある法人・個人のリストに該当するかどうかをチェックする。
本実施形態では、金融業務の知識を利用し、金融帳票から自動的に情報抽出するものである。本実施形態では、金融業務の中に、海外送金業務を例にしたが、それ以外の文書画像関連の業務に適用してもよい。また、海外送金業務の自動化の例では、チェックする項目を基本抽出項目と抽出項目に分けて管理する例を挙げたが、まとめて管理してもよいし、それ以外の構造にしてもよい。
第8の実施形態によれば、ターゲットと設定される分野の情報抽出において、必要となる知識を置き換えて、本提案のアーキテクチャを適用すれば、医療以外の業務にも適用が可能になる。
上述した第1、第2、第3、第4、第5、第6、第7及び第8の実施形態では、スキャン文書画像から情報抽出するものであったが、カメラ撮影画像を情報抽出処理対象にしてもよい。その際に、カメラ入力画像用の画像補正処理を加えればよい。
(他の実施形態)
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録したコンピュータ可読の記憶媒体を、システムあるいは装置に供給することによっても、達成されることは言うまでもない。また、システムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される。また、プログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態が実現される場合も含まれることは言うまでもない。
なお、上記の複数の実施形態を組み合わせることとしてもよい。