JP6529254B2

JP6529254B2 - 情報処理装置、情報処理方法、プログラムおよび記憶媒体

Info

Publication number: JP6529254B2
Application number: JP2014263172A
Authority: JP
Inventors: 暁艶戴
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2019-06-12
Anticipated expiration: 2034-12-25
Also published as: JP2016122404A

Description

開示の技術は、情報処理装置、情報処理方法、プログラムおよび記憶媒体に関する。

電子カルテを中心に医療分野におけるＩＴ化が急速に進みつつある。一方、院内には依然として様々な紙媒体の診療情報が存在する。紙媒体の診療情報とは例えば、診療情報提供書、説明同意書類、入退院時の必要書類、診断書類といった診療関連の文書、また、オーダー伝票や、予約票、申込書といった事務手続き用の文書である。

紙媒体の診療情報（紙文書）と電子カルテ等の電子情報とが混在する環境において、電子情報だけではなく紙文書も迅速に検索・活用できることが望ましい。

そこで、紙文書の見読性を確保するため、紙文書をスキャナで電子化し、そして、紙文書の種類を示す種別情報、診療科情報、患者番号といった基本情報を人手によって登録し、電子システムに紐付けるワークフローが一般的に実施されている。しかし、病院で利用されている紙文書の種類は数千種類以上にも及ぶ場合があり、病院それぞれ独自の書式があるため、紙文書から上述の基本情報を登録する作業には膨大な時間と手間がかかる。

紙文書に含まれる基本情報の登録作業の省力化を図るものとして、特許文献１において、紙文書にバーコードを付加し、バーコードリーダによってバーコードを読み取ることで紙文書に含まれる基本情報を抽出・登録する方法が開示されている。

また、特許文献２においては、帳票から抽出したい文字列（帳票の発行元の名前）を記憶しておき、この文字列を帳票の認識結果と照合して帳票の認識を行うことが開示されている。

特許第５３５６９０５号特開２００１−３１２６９４号公報

しかしながら、特許文献１の方法では、大量の診療記録や問診票の各用紙を電子化するにあたって予めバーコードを紙文書に付与することが必要なため、人手を介する作業が煩雑で負荷が大きい。さらに特許文献２の方法では、抽出したい文字列全体と帳票の認識結果とを照合しているため、照合できなかった場合には所合できなかった文字とは異なる新たな文字列全体と認識結果とを過去と同様に照合する必要があるため帳票の認識に時間を要する。

開示の技術はこのような状況に鑑みてなされたものであり、紙文書からより簡単且つ迅速に情報を自動抽出することを目的の１つとする。

なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本件の他の目的の１つとして位置付けることができる。

開示の技術に係る情報処理装置は、画像化された医療文書データから複数の領域を抽出する第１抽出手段と、前記複数の領域から第１の文字を含む領域を抽出する第２抽出手段と、前記第２抽出手段によって抽出された領域から前記医療文書データの診療科情報を抽出する第３抽出手段と、を備え、前記第１の文字は「科」を含む。

開示の技術によれば画像化された紙文書から簡単且つ迅速に情報を自動抽出することができる。

第１の実施形態に係る情報処理システムの構成の一例を示す図である。第１実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。第１実施形態に係る情報処理装置の動作の一例を示すフローチャートである。第１の実施形態に係る図３のステップＳ１２０における候補領域の設定処理の手順の一例を示すフローチャートである。第１の実施形態に係る図３のステップＳ１４０における抽出対象の同定処理の手順の一例を示すフローチャートである。第１の実施形態に係る、図４のステップＳ１２０における候補領域の設定処理および図６のステップＳ１４０における抽出対象の同定処理の一例を示す模式図である。第１の実施形態に係る知識構成の一例を示す模式図である。第２の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。第２の実施形態に係る図８のステップＳ’２３０における候補領域の補正処理の手順の一例を示すフローチャートである。第２の実施形態に係る図８のステップＳ’２３０における候補領域の補正処理の一例を示す模式図である。第３の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。第３の実施形態に係る図１１のステップＳ２４０における候補領域の絞込み処理の手順の一例を示すフローチャートである。第３の実施形態に係る図１１のステップＳ２４０における候補領域の絞込み処理の一例を示す模式図である。第４の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。第５の実施形態に係る、図３のステップＳ１４０における診療科の抽出処理の手順の一例を示すフローチャートである。第６の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。第６の実施形態に係る図１６に関わる抽出対象の構造上の特性有無、抽出対象の知識管理の一例を示す模式図である。第７の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。第７の実施形態に係る図１７の情報処理の一例を示す模式図である。第８の実施形態に係る図３のステップＳ１４０における知識に基づく抽出対象を同定し、取引規制対象であるかどうかの確認作業支援の手順の一例を示すフローチャートである。第８の実施形態に係る図１９の情報処理の一例を示す模式図である。

以下、図面を参照して、本実施形態に係る情報処理装置について詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術の範囲は、特許請求の範囲によって確定されるものであって、以下の個別の実施形態によって限定されるわけではない。

（第１の実施形態）
まず、第１の実施形態について説明する。

図１は、第１の実施形態に係る情報処理システムの構成の一例を示すものである。

図１に示すように、情報処理システムは、登録部１（情報処理装置）、格納部２を備える。また、登録部１および格納部２は有線もしくは無線のネットワーク６を介して互いに通信可能に接続されている。また、登録部１および格納部２はネットワーク６を介して病院内の各種システム（電子カルテシステム３、オーダリングシステム４、その他のシステム５）と通信可能に接続されている。なお、登録部１および格納部２は複数台あっても構わない。

登録部１について詳細に述べる。登録部１は例えばＰＣ等の情報処理装置である。登録部１はＵＩデバイス１０１、ＣＰＵ１０２、ＲＡＭ１０３、通信ＩＦ１０４、ＵＩ表示部１０５、プログラム用記憶領域１０６およびデータ用記憶領域１０７を備える。

ＵＩデバイス１０１はマウス、デジタイザおよびキーボード等の少なくとも１つを含むものであり、ユーザによる登録情報の確認、修正、送信のために用いられる。

ＣＰＵ１０２はプログラム用記憶領域１０６からＲＡＭ１０３に読み込んだプログラムを解釈・実行することによって装置内の各種制御や計算、ＵＩの表示が可能である。例えば、ＣＰＵ１０２は、プログラムを実行することで図２に示すように、文書画像解析部１１０、候補領域設定部１２０、候補領域認識部１３０、抽出情報同定部１４０および登録部１５０として機能する。なお、登録部１が備えるＣＰＵ１０２およびＲＡＭ１０３は１つであってもよいし複数であってもよい。すなわち、少なくとも１以上の処理装置（ＣＰＵ）と少なくとも１つの記憶装置（ＲＡＭ）とが接続されており、少なくとも１以上の処理装置が少なくとも１以上の記憶装置に記憶されたプログラムを実行した場合に登録部１は上記の各部として機能する。

文書画像解析部１１０は図示しないスキャナにより得られた紙文書が電子化された文書画像を取得し、解析を行う。ここでスキャナによる電子化とは画像化と言い換えることができる。すなわち、文書画像は画像化された文書データの一例に相当する。なお、画像化された医療文書を医療文書データという。文書画像解析部１１０はスキャナにより得られた電子化された文書画像をスキャナから直接取得してもよいし、スキャナにより得られた文書画像が格納部２に保存されている場合には文書画像解析部１１０は格納部２から文書画像を取得することとしてもよい。

文書画像解析部１１０は、紙文書の電子化された文書画像のレイアウトを解析し、文字領域や写真領域の複数の領域に分割（領域分割）して領域を抽出する。すなわち、文書画像解析部１１０は画像化された文書データから複数の領域を抽出する第１抽出手段の一例に相当する。

なお、領域分割によって、文書画像解析部１１０は領域分割した各領域の座標および各領域が文字領域か写真領域かを示す属性情報を領域毎に取得する。文字領域か写真領域かを示す属性情報は既知の種々の手法により取得可能である。なお、紙文書を電子化する手段はスキャナに限定されるものではなく他の手段であってもよい。

候補領域設定部１２０は、文書解析部１１０により分割された領域から情報を抽出する対象となる候補領域を設定する。具体的には、候補領域設定部１２０は文字領域を候補領域として設定する。言い換えれば、候補領域設定部１２０は文書解析部１１０により分割された領域のうち写真領域は候補領域としない。なお、候補領域設定部１２０の処理を省略して、候補領域を設定することなく抽出情報同定部１４０により後述する辞書を用いて文書の種別等を同定することとしてもよい。候補領域設定部１２０の処理により文書の種別等を同定するまでの時間は短縮されるが、候補領域設定部１２０の処理を省略しても上述の効果を奏することが可能である。

候補領域認識部１３０は、候補領域設定部１２０により設定された候補領域の中身を認識する処理を行うことで文字認識情報を取得する。文字認識情報は候補領域の中身の認識結果である。

抽出情報同定部１４０は、候補領域認識部１３０の認識結果に基づいて候補領域から抽出対象領域を同定し、同定した領域の記載から基本情報を同定する。具体的には、抽出情報同定部１４０は予め作成された辞書等の知識を用いて候補領域から抽出対象領域を同定する。そして、抽出情報同定部１４０は、同定した領域から予め作成された辞書等の知識を用いて例えば文書の種別を同定する。辞書等の知識についての詳細は後述する。なお、辞書等の知識はＲＡＭ１０３に記憶されていてもよいしデータ記憶領域１０７に記憶されていてもよい。また辞書等の知識は登録部１が備える不図示のＲＯＭに記憶されることとしてもよい。

登録部１５０は、抽出情報同定部１４０によって同定された情報を用いて文書画像を所定の記憶手段に登録（記録）する。例えば、登録部１５０は抽出情報同定部１４０によって同定された紙文書の種別を文書画像と対応付けて登録情報１０としてデータ記憶領域１０７等に登録する。なお、登録部１５０は登録情報１０を格納部２に記憶することとしてもよい。

なお、上記の例ではＣＰＵ１０２が図２に示す各部として機能することとしているが、これに限定されるものではなくＦＰＧＡに上記の機能の少なくとも一部を持たせることとしてもよい。また、複数のＣＰＵに上記の機能を分散させることとしてもよい。さらに、プログラム用記憶領域１０６は登録部１の内部に備えられることとしてもよいし登録部１の外部に備えられることとしてもよい。また、プログラム用記憶領域１０６は１つもメモリ等の記憶装置により構成されていてもよいし、複数の記憶装置により構成されることとしてもよい。

通信ＩＦ１０４はネットワーク６に繋がっており、登録部１と格納部２および病院内の各種サーバ３〜５との間の通信インタフェースである。

ＵＩ表示部１０５は装置の状態や画像情報や登録内容を表示するＬＥＤや液晶パネル等である。

プログラム用記憶領域１０６およびデータ用記憶領域１０７は具体的にはハードディスクやフラッシュメモリである。但し、特定の記憶媒体に限定されるものではない。登録部１では、データ用記憶領域１０７に登録情報１０が記憶される。なお、登録情報１０は格納部２上に記憶されることとしても構わない。なお、登録部１の登録情報１０を直接病院内のシステム（例えば、電子カルテシステム３）に関連付けて格納してもよい。

登録情報を格納部２に置かれる場合を想定し、格納部２について詳細に述べる。格納部２は少なくとも１以上のＨＤＤまたはＳＳＤ等の記憶媒体であり、格納部２にはバインダプール２０が記憶されている。バインダプール２０にはバインダ２０１、２０２が含まれる。各バインダには医療文書が含まれている。すなわち、格納部２は医用文書をバインダという単位で管理する。なお、バインダプール２０は病院内のシステム（例えば、電子カルテシステム３）に関連付けて記憶しても構わない。バインダプール２０の中には、情報が使用しやすいように所定の規則で登録資料がバインダ毎に格納される。バインダのまとめ方として、例えば、患者毎に各種別の資料を保存してもよいし、種別毎に各資料を保存してもよい。例えば、登録部１５０は抽出情報同定部１４０によって同定された紙文書の種別に基づいて文書画像を含む登録情報を種別毎にバインダに記憶させることが可能である。

上述の構成で、情報処理システム全体で登録情報を参照する事が可能となる。

なお、ネットワーク６は、病院あるいは組織内で運用されるイントラネットであってもよいし、インターネットであってもよい。

なお、電子カルテシステム／オーダーシステムは、広く普及し良く知られている装置なので、ハードウェア構成例や動作フローの説明を省略する。

次に、本実施形態に係る情報処理システムによる情報処理方法の処理手順の一例について説明する。

図３は、第１の実施形態に係る情報処理装置による情報処理方法の処理手順の一例を示すフローチャートである。

まず、ステップＳ１１０において、文書画像解析部１１０は、図示しないスキャナにより得られた紙文書が電子化された文書画像を取得する。そして、文書画像解析部１１０は、紙文書の電子化された文書画像のレイアウトを解析し、文字領域や写真領域に分割（領域分割）する。尚、文書画像の領域分割方法として、例えば特開２００２−３１４８０６公報で開示されている公知の方法等を使用することができる。

続いて、ステップＳ１２０において、候補領域設定部１２０は、上記文書画像の解析結果から抽出対象の候補となる領域を設定する。この処理の詳細については後述する。

続いて、ステップＳ１３０において、候補領域認識部１３０は、上記候補領域にある文字列を認識し、認識情報を記録する。認識情報として、文字列の認識結果および文字数、また、段落である場合の行数などが挙げられる。尚、認識処理は、公知の文字認識技術を用いることができる。

続いて、ステップＳ１４０において、情報処理装置の抽出情報同定部１４０は、上記候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象領域から基本情報を同定する。そして、情報処理装置の登録部１５０は、同定情報により文書画像を登録する。この処理の詳細については後述する。

次に、ステップＳ１２０における候補領域の設定処理について説明する。

図４は、第１の実施形態に係る図３のステップＳ１２０における候補領域の設定処理の手順の一例を示すフローチャートである。

先ず、ステップＳ１２０１において、文書画像解析部１１０による文書画像解析により取得される領域情報、即ち、各領域の位置を示す座標情報と、各領域が文字領域か写真領域を示す属性情報とを文書画像解析部１１０は候補領域設定部１２０に入力する。

続いて、ステップＳ１２０２では、候補領域設定部１２０は、属性情報に基づいて文書画像解析部１１０よって取得された領域が文字領域であるかどうかを判断する。文字領域であれば、ステップＳ１２０３で、候補領域設定部１２０は当該文字領域を候補領域として設定する。

続いて、ステップＳ１２０４では、候補領域設定部１２０は未処理の領域があるかどうかを判断します。まだ未処理の領域があれば、ステップＳ１２０２に入り、ステップＳ１２０２からステップＳ１２０４までの処理を繰り返して実行するが、未処理の領域がなければ、候補領域設定処理を終了する。

次に、ステップＳ１４０における抽出対象の同定処理について説明する。

図５は、第１の実施形態に係る図３のステップＳ１４０における抽出対象の同定処理の手順の一例を示すフローチャートである。

先ず、ステップＳ１４０１において、候補領域情報を候補領域設定部１２０および候補領域認識部１３０は抽出情報同定部１４０に入力する。候補領域情報には、候補領域設定部１２０により得られた候補領域の座標情報及び候補領域認識部１３０により得られた文字認識情報が含まれる。

続いて、ステップＳ１４０２からステップＳ１４０７において、抽出情報同定部１４０は候補領域の文字認識情報及び知識情報に基づいて抽出対象領域を同定し、抽出対象領域の中身を同定する。この部分について詳細に説明する。

先ず、ステップＳ１４０２では、抽出情報同定部１４０は処理対象となる候補領域に語尾辞書（図６における符号６０４参照）にある語尾があるかどうかを判断する。

語尾が候補領域にある場合、ステップＳ１４０３では、抽出情報同定部１４０は当該候補領域を抽出領域として同定する。すなわち、抽出情報同定部１４０は、複数の領域から第１の文字を含む領域を抽出する第２抽出手段の一例に相当する。また、語尾辞書に含まれる語尾は第１の文字または単語の一例に相当する。より具体的には第１の文字は複数の文字からなる単語の語尾である。また、語尾辞書に含まれる語尾は１文字としているがこれに限定されるものではなく複数の文字であってもよい。

そして、ステップＳ１４０４では、抽出情報同定部１４０は当該抽出領域から用語辞書（図６における符号６０５参照）にある用語を抽出する。ここで、用語辞書に含まれる用語は第１の文字とは異なる情報の一例に相当する。すなわち、抽出情報同定部１４０は、第２抽出手段によって抽出された領域か第１の文字とは異なる情報を抽出する第３抽出手段の一例に相当する。

そして、ステップＳ１４０５では、用語辞書と分類辞書（図６における符号６０６参照）の関係に基づき、抽出された用語により文書の種別を同定し、抽出対象の同定処理を終了させる。すなわち、抽出情報同定部１４０は第３抽出手段により抽出された情報を用いて文書データを分類する分類手段の一例に相当する。

なお、語尾辞書に含まれる語尾が候補領域にない場合、ステップＳ１４０６では、抽出情報同定部１４０は未処理の候補領域があるかどうかを判断する。未処理の候補領域があれば、上記ステップＳ１４０２からステップＳ１４０５までの処理を繰り返して実行する。未処理の候補領域がなければ、抽出情報同定部１４０は候補領域の中に種別に該当する領域がないとし、種別なしと判断する。

次に、本実施形態における抽出対象の同定処理の一例について辞書の内容を示しながらより詳細に説明する。

図６は、第１の実施形態に係るステップＳ１２０における候補領域の設定処理と、図５のステップＳ１４０における抽出対象の同定処理の一例を示す模式図である。

６０１は、ある文書画像に対する文書画像解析部１１０による解析の結果例である。文書画像は、枠に囲まれる領域毎に分割され、また、領域毎に文字領域か写真領域、或いは、その他の属性が付与される。

６０２は、文書画像の解析結果から候補領域設定部１２０によって得られた候補領域の設定結果例である。各候補領域は順番に領域番号、そして、座標情報が記録される。

６０３は、候補領域から抽出対象の同定処理の結果である。

本実施形態においては抽出対象の同定処理に用いる語尾辞書６０４、用語辞書６０５および分類辞書６０６が不図示のＲＯＭに記憶されている。語尾辞書６０４は、種別に含まれる共通の語尾を記録する。用語辞書６０５は種別に含まれる用語を記録する。例えば、用語辞書６０５は「問診」および「質問」という用語を含む。すなわち、用語辞書６０５は互いに異なる第１の参照用の文字と第２の参照用の文字とを含んでおり、用語辞書６０５を保持する不図示のＲＯＭは保持手段の一例に相当する。分類辞書６０６は種別に関わる分類を記録する。なお、上記の辞書はＲＯＭ以外の記憶手段（プログラム記憶領域１０６、データ記憶領域１０７、格納部２など）に記憶されることとしてもよい。この場合、記憶手段が保持手段の一例に相当する。

候補領域の順番で処理する。候補領域認識部１３０により得られた候補領域０１の文字認識情報には６語尾辞書０４にある「書」という語尾が含まれるため、抽出情報同定部１４０は当該候補領域を抽出対象領域として同定する。

また、抽出情報同定部１４０は当該抽出対象領域には用語辞書６０５にある「説明」という用語が含まれると判断する。具体的には、抽出情報同定部１４０は用語辞書６０５に含まれる用語と抽出対象領域に含まれる文字とを比較し、比較結果が一致する場合には用語辞書６０５に含まれる用語が抽出対象領域から抽出されたと判断する。本実施例では抽出情報同定部１４０は「問診」という用語を抽出対象領域に含まれる文字と比較し、一致しない場合には用語辞書６０５の次の用語と抽出対象領域に含まれる文字との比較を行う。すなわち、第３抽出手段の一例である抽出情報同定部１４０は、第２抽出手段によって抽出された領域に含まれる文字と第１の参照用の文字とを比較し、比較結果が一致する場合には第１の参照用の文字に一致する文字を情報として抽出し、比較結果が一致しない場合には第２抽出手段によって抽出された領域に含まれる文字と第２の参照用の文字とを比較する。

抽出情報同定部１４０は用語辞書６０５から、「説明」という用語は「０２」という「種別番号」と対応付けられると判断する。したがって、抽出情報同定部１４０は、分類辞書６０６に「０２」と対応する「説明・同意書」という種別が抽出対象（紙文書）の文書種別であると決定する。そして、登録部１５０は「説明・同意書」という種別を文書画像と対応付けてデータ記憶領域１０７または格納部２に記録する。

上述の如く本実施形態は、文書画像における各領域の属性情報に基づき抽出対象の候補領域を設定し、候補領域の文字認識情報及び知識情報に基づき候補領域から抽出対象領域を同定し、紙文書の種別を取得するものである。しかしながら、本発明は上記の実施形態に限定されるものではなく、例えば医用文書（紙文書）から診療科情報や、患者情報（患者ＩＤ等の患者識別情報）などを抽出する場合は、抽出対象に応じて知識情報を置き換えればよい。患者ＩＤは例えば数字である。

例えば、診療科情報抽出の場合、種別抽出用の語尾辞書を「科」などを含む診療科辞書にすればよい。さらに、用語辞書は「小児」、「皮膚」などの文言を含む辞書に変更すればよい。分類辞書は必須の構成ではないが、使用する場合には分類辞書についても同様に診療科で分類を行うよう種別を「小児科」、「皮膚科」などに変更すればよい。また、本実施形態では、知識を辞書という言葉で記述したが、辞書以外の呼び方をされるものであってもよい。なお、患者情報（患者ＩＤ等）などを抽出する場合には、種別抽出用の語尾辞書を「ＩＤ」、「番号」などを含む辞書にすればよい。この場合、「ＩＤ」等の文字は領域内の末尾ではなく先頭に存在する場合が多いが、本実施形態においては説明を簡単にするために語尾辞書という文言を用いている。なお、患者情報（患者ＩＤ等）などを抽出する場合には分類を行う必要がないため用語辞書等は不要である。なお診療科情報および患者情報（患者ＩＤ等）の抽出方法の詳細については後述の第５の実施形態で述べる。

また、本実施形態では、医用文書の種別抽出に、文書画像を管理しやすいために種別を図６に示す分類に分けたが、これに限定されるものではなくより細かく分類することとしてもよいし、より粗く分類することとしてもよい。なお各辞書に含まれる言葉や言葉の数も図６記載の内容に限定されるものではなく任意に変更可能である。

また、本実施形態では、種別抽出用の語尾辞書、用語辞書、分類辞書を例にしたが、辞書の名称は図６記載の名称以外であってもよいし、辞書の構成を図６とは異なる構成にしてもよい。例えば、図７に示すように、用語辞書に用語及び用語と種別の関連付けのみならず、語尾との関連付けも持つようにしてもよい。この場合、語尾が見つかれば、それと組み合わせ可能な用語が含まれるかどうかのみをチェックし用語を抽出すればよい。例えば、ステップＳ１４０２では、「書」という「１０１」番号の語尾が見つかった場合、ステップＳ１４０４では、当該領域から用語辞書に含まれる用語すべてを抽出する代わりに、「１０１」番号の語尾「書」と組み合わせることが可能な用語のみを抽出する。即ち、「問診」、「説明」等だけを抽出すれば良く（「質問」を抽出しようとする必要はない）、処理の高速化を図ることが可能となる。また、図６の例に示す６０１、６０２、６０３をまとめて辞書として持っていてもよい。すなわち、辞書の形態は上記の例に限定されるものではなく他の形態とすることとしてもよい。

また、本実施形態では、辞書を登録部１の内部に持たせることを例にしたが、登録部１の外部に辞書を持たせることとしてもよい。外部で定義して参照するようにしてもよい。また、本実施形態では、種別に該当する情報を見つからない文書画像において種別なしと出力するが、それ以外の出力、例えば、種別不明としてもよい。

以上、述べたように第１の実施形態によれば、紙文書から簡単に情報を自動抽出することができる。上記実施形態においてはバーコード等追加の情報を紙文書に付加する必要がないため、従来に比べて手間をかけずに文書種別等の情報を抽出することが可能となる。また、バーコード等の追加の情報を紙文書に付加する必要がないため未知のフォーマットの文書からも簡単に文書種別等の情報を抽出することが可能となる。すなわち、医用文書に人手を介する情報の付与作業が行われなくても、また、医用文書のフォーマットが予め分からなくても、文書種別等の情報を自動的に抽出できる。

また、上記実施形態においては語尾辞書を用いて抽出領域を同定しているため、全ての領域に対して用語辞書と照らし合わせる必要がなく文書種別等の情報を高速で抽出することが可能となる。また、「問診票」など種別そのものを示す言葉を文書画像から抽出する場合には、種別を示す言葉の多さから抽出に多くの時間がかかる虞がある。しかし、本実施形態によれば語尾と用語との組み合わせを用いているため「問診票」などの種別を示す用語を抽出する時間を短縮することが可能である。ここで、医療分野においては診療科および文書の種別は病院毎に様々な呼び名があるため、本実施形態を医療分野に用いることで顕著な効果を得ることができる。

なお、上記の例ではステップＳ１４０５において文書画像の種別を同定しているが、このステップは必須のものではなく、ステップＳ１４０４で処理を終了することとしてもよい。この場合、ステップＳ１４０４で抽出された用語を操作者が参照して分類を行うことができる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。

上述した第１の実施形態では、文書画像の解析結果から文字領域を抽出対象の候補領域として設定した。第２の実施形態では、文書画像の解析処理によって正しい塊の領域抽出ができていない場合に領域に併合するものである。

ここで、第２の実施形態に係る情報処理システムのハードウェア構成および情報処理装置の機能構成は、図１、２と同様であるため、その説明は省略する。

次に、本実施形態に係る情報処理方法の処理手順の一例について説明する。

図８は、第２の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。

まず、ステップＳ’２１０において、文書画像解析部１１０は、図示しないスキャナにより得られた紙文書が電子化された文書画像を取得する。そして、文書画像解析部１１０は、紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。本ステップはステップＳ１１０と同様である。

続いて、ステップＳ’２２０において、候補領域設定部１２０は、上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップＳ１２０と同様である。

続いて、ステップＳ’２３０において、候補領域設定部１２０は、上記候補領域を補正する。この処理についての詳細は後述する。

続いて、ステップＳ’２４０において、候補領域認識部１３０上記補正後の候補領域にある文字列を認識し、認識情報を記録する。本ステップはステップＳ１３０と同様である。

続いて、ステップＳ’２５０において、抽出情報同定部１４０は上記補正後の候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象中身を同定する。本ステップはステップＳ１４０と同様である。

次に、ステップＳ’２３０における候補領域の補正処理について説明する。

図９は第２の実施形態に係る図８のステップＳ’２３０における候補領域の補正処理の手順の一例を示すフローチャートである。

先ず、ステップＳ’２３０１において、ステップＳ’２２０で設定された候補領域を入力する。

続いて、ステップＳ’２３０２からステップＳ’２３０６では、上記候補領域から併合すべき領域を選択し、併合する。

ステップＳ’２３０２では、候補領域設定部１２０が処理対象となる二つの候補領域間の間隔は所定の閾値Ｔ１以下であるかどうかを判断する。すなわち、候補領域設定部１２０は隣り合う二つの候補領域間の間隔を閾値Ｔ１と比較する。ここで、閾値Ｔ１は第１の閾値の一例に相当する。

候補領域間の間隔は所定の閾値Ｔ１以下あれば、ステップＳ’２３０３では、候補領域設定部１２０が更に処理対象となる二つの候補領域にある文字サイズの差は所定の閾値Ｔ２以下であるかどうかを判断する。ここで、閾値Ｔ２は第２の閾値の一例に相当する。

候補領域にある文字サイズの差は所定の閾値Ｔ２以下であれば、ステップＳ’２３０４へ進む。ステップＳ’２３０４では、候補領域設定部１２０が更に処理対象となる一の候補領域に複数の文字が含まれている場合には、それらの文字間隔の差が所定の閾値Ｔ３以下であるかどうかを判断する。すなわち、一の候補領域に複数の文字が含まれていない場合にはステップＳ’２３０４は実行されないこととしてもよい。ここで、閾値Ｔ３は第３の閾値の一例に相当する。

候補領域にある文字の間隔の差は所定の閾値Ｔ３以下であれば、ステップＳ’２３０５では、当該二つの候補領域は併合すべき領域と判断し、ステップＳ’２３０６では、候補領域設定部１２０が当該二つの候補領域同士を併合し、候補領域の情報を更新する。すなわち、候補領域設定部１２０は、第１抽出手段により抽出された領域に関する情報に基づいて第１抽出手段により抽出された領域を併合する領域併合手段の一例に相当する。また、本実施例では第２抽出手段の一例に相当する抽出情報同定部１４０は、併合された領域から第１の文字または単語を含む領域を抽出することとなる。

続いて、ステップＳ’２３０７では、候補領域設定部１２０が未比較の領域があるかどうかを判断します。まだ未比較の領域があれば、ステップＳ’２３０２に入り、ステップＳ’２３０２からステップＳ’２３０６までの処理を繰り返して実行するが、未比較の領域がなければ、候補領域の補正処理を終了する。

次に、ステップＳ’２３０における候補領域の補正処理の一例について説明する。

図１０は、本発明の第２の実施形態を示し、図８のステップＳ’２３０における候補領域の補正処理の一例を示す模式図である。

１０００１は、ある文書画像における候補領域の設定結果例である。「同」「意」「書」は離れているため、それぞれ独立な領域として抽出されている。

１０００２は、種別抽出の場合、１０００１から候補領域の補正処理の結果例である。１０００１の候補領域から領域の間隔が一定範囲Ｔ１以内、しかも、其々の領域にある文字サイズの差が一定範囲Ｔ２以内、其々の領域に複数の文字がある場合の文字列の間隔の差が一定範囲Ｔ３以内の候補領域を分断された領域として併合する。

本実施形態では、抽出対象の特性に基づき候補領域を補正し、意味のある領域にするものである。本実施形態では、候補領域の併合条件として候補領域間の間隔、候補領域にある文字サイズの差、候補領域にある文字列の間隔の差を用いたが、それ以外の条件を設定してもよい。また、候補領域が過統合場合の分割処理を例にしてもよい。なお、上記の実施例では候補領域の併合条件として候補領域間の間隔（すなわち候補領域の位置）、候補領域にある文字サイズの差、候補領域にある文字列の間隔の差の全てを用いたが、少なくとも１つを用いることとしてもよい。すなわち、領域を併合するために用いられる領域に関する情報は、第１抽出手段により抽出された領域の位置、第１抽出手段により抽出された領域に含まれる文字の少なくとも１つを示す情報である。

第２の実施形態によれば、意味のある領域の抽出ができ、情報抽出処理の精度を向上することが可能になる。

（第３の実施形態）
次に、本発明の第３の実施形態について説明する。

上述した第２の実施形態では、文書画像の解析結果により意味のある領域に補正する領域にするものであった。第３の実施形態では、抽出対象の特性に基づき、候補領域を絞るものである。

ここで、第３の実施形態に係る情報処理システムのハードウェア構成は、図１に示す第１の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第３の実施形態に係る情報処理システムの機能構成は、図２に示す第１の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。

次に、本実施形態に係る情報処理方法の処理手順について説明する。

図１１は、本発明の第３の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。

まず、ステップＳ２１０において、文書画像解析部１１０は紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。具体的な処理はステップＳ１１０と同様である。

続いて、ステップＳ２２０において、候補領域設定部１２０は上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップＳ１２０と同様である。

続いて、ステップＳ２３０において、候補領域認識部１３０は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップＳ１３０と同様である。

続いて、ステップＳ２４０において、抽出情報同定部１４０は抽出対象の特性に基づき、上記候補領域を絞る。この処理の詳細については後述する。

続いて、ステップＳ２５０において、抽出情報同定部１４０は上記候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象中身を同定する。具体的な処理はステップＳ１４０と同様である。

次に、ステップＳ２４０における候補領域の絞込み処理について説明する。候補領域の絞込み処理は、以下、候補領域のフィルタリング処理とも呼ぶ。

図１２は、本発明の第３の実施形態を示し、図１１のステップＳ２４０における候補領域の絞込み処理の手順の一例を示すフローチャートである。

先ず、ステップＳ２４０１において、候補領域設定部１２０はステップＳ２２０で設定された候補領域を抽出情報同定部１４０に入力する。

続いて、ステップＳ２４０２からステップＳ２４０４では、抽出情報同定部１４０は上記候補領域を絞る。種別抽出の場合、種別領域は文書画像の上から一定範囲以内にある可能性が高いこと及び種別領域は複数段落の文書内に存在する可能性は低いという特性を利用して候補領域の絞込み条件として設定する。ここで、複数段落は２以上の段落でもよいし３以上の段落であってもよい。また、一定範囲内とは例えば文書画像全体の上部１／３の範囲内である。なお、一定範囲は文書画像全体の上部１／２の範囲内であってもよいし他の範囲あってもよい。また、診療科抽出または患者情報抽出の場合には絞り込みの範囲を種別抽出の場合と異なる範囲にしてもよい。すなわち、抽出対象に応じて候補領域の絞りこみ条件を変更することとしてもよい。なお、候補領域を絞るためには上記の２つの条件を使用することとしてもよいし、どちらか一方の条件を使用することとしてもよい。また、上記２つの条件に文書画像の横方向における位置等の他の条件を加えることとしてもよい。

ステップＳ２４０２では、抽出情報同定部１４０は処理対象となる候補領域は所定の範囲以内にあるかどうかを判断する。所定の範囲以内にあれば、ステップ２４０３では、抽出情報同定部１４０は更に候補領域の行数は所定の閾値Ｔ以下であるかどうかを判断する。所定の閾値Ｔ以下であれば、ステップ２４０４では、当該候補領域を候補領域として残す。ここで、閾値Ｔは第４の閾値の一例に相当する。

ステップ２４０５では、所定の範囲以外にある候補領域あるいは候補領域内の文字の行数が所定の閾値Ｔ以上の候補領域を当該領域を候補領域から外す。これは文書画像の種別を示す情報は通常複数行の文書中に存在する可能性が低いことを利用したものである。上述のように、抽出情報同定部１４０は、第２抽出手段の処理対象とする領域を選択する領域選択手段の一例に相当する。

続いて、ステップＳ２４０６では、抽出情報同定部１４０は未処理の領域があるかどうかを判断します。まだ未処理の領域があれば、ステップＳ２４０２に入り、ステップＳ２４０２からステップＳ２４０５までの処理を繰り返して実行するが、未処理の領域がなければ、候補領域のフィルタリング処理を終了する。

次に、ステップＳ２４０における候補領域の絞込み処理の一例について説明する。

図１３は、本発明の第３の実施形態を示し、図１１のステップＳ２４０における候補領域の絞込み処理の一例を示す模式図である。

１００１は、ある文書画像における候補領域の設定結果例である。枠に囲まれる領域は、候補領域として設定されるものである。

１００２は、種別抽出の場合、１００１から候補領域のフィルタリングの結果例である。１００１の候補領域から位置が一定範囲以内にある、しかも、複数行ではない枠に囲まれる領域のみが残る。これらの候補領域は同定処理の対象領域になる。

本実施形態では、抽出対象の特性に基づき候補領域を絞り、残った候補領域から抽出対象を同定するものである。本実施形態では、種別抽出を例に、種別情報の特性に基づき候補領域のフィルタリングの条件を設定したが、それ以外の条件を設定してもよい。また、他の情報を抽出する場合、当該抽出情報の特性に応じてフィルタリングの条件を設定してもよい。本実施形態では候補領域の絞り込みのために、候補領域の位置（ステップＳ２４０２）および候補領域内の文字の行数（ステップＳ２４０３）を用いたが、少なくとも一つの情報を用いることとしてもよい。第３の実施形態によれば、第１の実施形態による効果に加え、情報抽出処理の効率を向上することが可能になる。

（第４の実施形態）
次に、本発明の第４の実施形態について説明する。

上述した第３の実施形態では、文書画像の解析結果から候補領域を設定し、抽出対象の特性に応じて候補領域をフィルタリングし、対象となる候補領域から抽出対象を同定するものであった。第４の実施形態では、対象となる候補領域において、抽出対象らしさの順番を付けて、その抽出対象らしさ順で抽出対象を同定していくものである。

ここで、第４の実施形態に係る情報処理システムのハードウェア構成は、図１に示す第１の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第４の実施形態に係る情報処理システムの機能構成は、図１に示す第１の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。

図１４は、本発明の第４の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。

まず、ステップＳ３１０において、文書画像解析部１１０は紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。具体的な処理はステップＳ１１０と同様である。

続いて、ステップＳ３２０において、候補領域設定部１２０は上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップＳ１２０と同様である。

続いて、ステップＳ３３０において、候補領域認識部１３０は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップＳ１３０と同様である。

続いて、ステップＳ３４０において、抽出情報同定部１４０は抽出対象の特性に基づき、上記候補領域を絞る。具体的な処理はステップＳ２４０と同様である。

続いて、ステップＳ３５０において、抽出情報同定部１４０は処理対象となる候補領域において、抽出対象らしさを計算し、抽出対象らしさの順番を付ける。すなわち、候補領域に対して処理の優先度を付与する。すなわち、抽出情報同定部１４０は第１抽出手段により抽出された領域に対して優先度を付与する付与手段の一例に相当する。抽出対象らしさの順番を付与する処理の詳細について後述する。

続いて、ステップＳ３６０において、抽出情報同定部１４０は上記候補領域の認識結果及び知識情報に基づき、ステップＳ３５０で決められる抽出対象らしさの順で、抽出対象領域を同定し、抽出対象中身を同定する。具体的な処理はステップＳ１４０と同様である。

次に、ステップＳ３５０における候補領域の抽出対象らしさの計算処理方法について説明する。

文書の種別領域は基本的に文書画像のタイトルらしい領域に該当する。タイトルは基本的に文書の上に位置する、文字サイズが大きい、また、中心線に寄せるといった特徴を持つ。しかし、医用文書のフォーマットが多種多様なため、種別領域は必ずしも上述の特性を持つわけではない。ここで、これらの特性を用いて、以下の式で候補領域の種別らしさを総合的に求めるようにする。
種別らしさ＝ｗ１＊｛文字サイズ｝＋ｗ２＊｛中心線との近さの逆数｝＋ｗ３＊｛上部にある領域数の逆数｝
ここで、Ｗ１、Ｗ２、Ｗ３は各要素の重み付けである。重要視される要素に高い数値の重みを付ける。ここで、「上部」とは例えば文書画像全体の上部１／３の範囲内を示すが、これに限定されるものではない。なお、式１に示した種別らしさを示す値は３つの項のうち少なくとも１つの項目を用いることとしてもよい。また、上部にある領域数を求めるためには候補領域の位置を利用する。すなわち付与手段の一例である抽出情報同定部１４０は、第１抽出手段により抽出された領域の位置および領域に含まれる文字の大きさの少なくとも１つに基づいて優先度を付与する。

なお、式１に示した種別らしさを示す値は３つの項により求められているが、４つ以上の項目を用いて種別らしさを算出することとしてもよい。また、例えば、上記種別らしさを示す値が大きい領域から抽出情報同定部１４０の処理対象とする。

本実施形態では、候補領域の抽出対象らしさ（優先度）を計算し、抽出対象らしさ順で抽出対象を同定するものであった。本実施形態では、種別抽出を例に、抽出対象らしさに関わる要素として文字サイズ、領域の位置、領域の数を用いたが、それ以外の特性を使ってもよい。

第４の実施形態によれば、第１、第３の実施形態による効果に加え、抽出対象領域の可能性の高い候補領域から処理することが可能になり、更に抽出処理の効率性を向上することができるようになる。

（第５の実施形態）
次に、第５の実施形態について説明する。

上述した第１、第２、第３及び第４の実施形態では、医用文書から種別情報を抽出する例を主として説明した。第５の実施形態では、医療文書から診療科情報、或いは、患者情報を抽出するものである。

ここで、第５の実施形態に係る情報処理システムのハードウェア構成は、図１に示す第１の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第５の実施形態に係る情報処理システムの機能構成は、図１に示す第１の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。さらに、第５の実施形態に係る情報処理方法の処理手順は、図３に示す第１の実施形態に係る情報処理方法のステップＳ１４０を除いて同様であるため、ステップＳ１１０〜１３０の説明を省略する。

種別抽出処理は基本的に種別領域の同定の後に、種別領域の中身による種別分類が必要なため、語尾情報による種別領域の同定、種別領域にある種別用語の抽出、種別同定の３ステップで処理される。診療科抽出は基本的に診療科名を抽出するためのものなので、診療科領域の同定、診療科領域にある診療科名の抽出の２ステップで処理する。患者情報の抽出は診療科抽出と同様である。

ここで、本実施形態のステップＳ１４０における診療科抽出の同定処理について説明する。

図１５は、本発明の第５の実施形態を示し、図３のステップＳ１４０における診療科の抽出処理の手順の一例を示すフローチャートである。

先ず、ステップＳ４４０１では、候補領域設定部１２０は抽出情報同定部１４０に候補領域情報を入力する。

続いて、ステップＳ４４０２では、抽出情報同定部１４０は処理対象となる候補領域に診療科語尾辞書にある語尾があるかどうかを判断する。

語尾がある場合、ステップＳ４４０３では、抽出情報同定部１４０は当該候補領域を診療科領域として同定する。そして、ステップＳ４４０４では、抽出情報同定部１４０は当該領域に診療科用語辞書にある用語を診療科名として抽出する。

語尾がない場合、ステップＳ４４０５では、未処理の候補領域があるかどうかを判断する。未処理の候補領域があれば、上記ステップＳ４４０２からステップＳ４４０４までの処理を繰り返して実行する。未処理の候補領域がなければ、候補領域のなかから診療科に該当する領域がないとし、診療科情報がないと判断する。

本実施形態では、種別抽出の他、文書画像から診療科情報、或いは、患者情報を抽出するものであった。抽出対象に応じて、知識情報を置き換えればよい。

第５の実施形態によれば、第１、第２、第４の実施形態による効果に加え、種別情報以外の情報抽出も可能になる。

（第６の実施形態）
次に、第６の実施形態について説明する。

上述した第１、第２、第３、第４及び第５の実施形態では、種別、診療科、患者情報のうち１種類の情報のみを抽出する例を主として説明した。第６の実施形態では、文書画像から複数の情報を抽出する場合を説明する。

ここで、第６の実施形態に係る情報処理システムのハードウェア構成は、図１に示す第１の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第６の実施形態に係る情報処理システムの機能構成は、図２に示す第１の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。

次に、本実施形態に係る情報処理システムによる情報処理方法の処理手順について説明する。

図１６は、本発明の第６の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。

まず、ステップＳ５１０では、文書画像解析部１１０は紙文書の電子化された文書画像を分割する。具体的な処理はステップＳ１１０と同様である。

続いて、ステップＳ５２０では、候補領域設定部１２０は上記領域分割の結果から抽出対象の候補領域を設定する。具体的な処理はステップＳ１２０と同様である。

続いて、ステップＳ５３０では、候補領域認識部１３０は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップＳ１３０と同様である。

続いて、ステップＳ５４０では、抽出情報同定部１４０は、図１７に示す情報を参照することで抽出対象が構造上の特性があるかどうかを判断する。

特性があると判断される場合、ステップＳ５５０では、抽出情報同定部１４０は抽出対象の特性に基づき候補領域を絞る。例えば、構造上の特性を有する種別情報を抽出する場合には抽出情報同定部１４０は候補領域を文書画像の上部に存在する候補領域に絞り込む。具体的な処理はステップＳ３４０と同様である。ここで、「上部」とは例えば文書画像全体の上部１／３の範囲内を示すが、これに限定されるものではない。

続いて、ステップＳ５６０では、抽出情報同定部１４０は図１８に示す情報に基づいて抽出対象に応じて知識情報を切り替える。

続いて、ステップＳ５７０では、抽出情報同定部１４０は上記候補領域の認識結果及び知識情報に基づき抽出対象を同定する。具体的な処理はステップＳ１４０と同様である。なお、操作者が抽出対象を示す情報を登録部１に入力することで登録部１が抽出対象を把握できるようにしてもよいし、登録部１が所定の順序で抽出対象を自動的に切換えることで登録部１が抽出対象を把握することとしてもよい。

次に、抽出対象の構造上の特性有無、抽出対象の知識管理の一例について説明する。

図１７は、本発明の第６の実施形態を示し、図１６に関わる抽出対象の構造上の特性有無、抽出対象の知識管理の一例を示す模式図である。

１４０１は抽出対象の構造上の特性有無の管理表で、抽出対象は構造上の特性があるかどうかを記録するものである。種別情報は基本的に文書画像の上部にあるので、構造上の特性があるものとする。診療科情報と患者情報は文書画像のどこにも記述される可能性があるので、構造上の特性がないものとする。

１４０２は抽出対象の知識管理表で、抽出対象の抽出に必要な知識を管理するものである。種別抽出に種別抽出用の語尾辞書１、用語辞書１、更に分類に必要となる分類辞書１を用いる。診療科抽出に診療科抽出用の語尾辞書２、用語辞書２を用いる。患者情報抽出に患者情報抽出用の語尾辞書３を用いる。

本実施形態では、複数の情報を抽出する場合、抽出対象の情報に応じて構造情報による候補領域の設定処理、抽出対象の同定処理に用いる知識情報を切り替えて行うものである。また、本実施形態では、抽出対象は構造上に特性がある場合、抽出対象の構造上の特性に基づき候補領域の絞込み処理を行うが、更に抽出対象の構造上の特性に基づき抽出対象らしさを計算し順位付け処理を行ってもよい。また、本実施形態では、複数の抽出情報の知識を別々に管理するものであったが、知識をまとめて管理してもよい。

第６の実施形態によれば、第１、第２、第３、第５の実施形態による効果に加え、複数の情報を抽出する場合、情報の特性を考慮する情報抽出の効率化が実現可能になる。

なお、上述した第１、第２、第３、第４、第５及び第６の実施形態では、文書画像の解析結果から文字領域を抽出対象の候補領域として設定するであった。しかし、文字領域のみならず、所定範囲以内でその他の属性領域を抽出対象の候補領域として広く設定してもよい。また、上述した第１、第２、第３、第４及び第６の実施形態では、候補領域の文字認識及び知識に基づき抽出対象領域を同定し、抽出情報を同定するものであったが、候補領域の文字認識の結果を補正し、補正情報及び知識に基づき抽出対象を同定してもよい。

（第７の実施形態）
次に、第７の実施形態について説明する。

上述した第１、第２、第３、第４、第５及び第６の実施形態では、文書画像の解析により抽出対象となる情報を抽出するものであった。第７の実施形態では、院内システム（例えば、電子カルテシステム）に格納される診療情報及び文書画像の両方を解析し情報を抽出するものである。

ここで、第７の実施形態に係る情報処理システムのハードウェア構成は、図１に示す第１の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第７の実施形態に係る情報処理システムの機能構成は、図２に示す第１の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。

図１８は、本発明の第７の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。

まず、ステップＳ６１０では、抽出情報同定部１４０は文書画像から患者番号を抽出する。患者番号の抽出処理は上記第５の実施形態を使用することができる。

続いて、ステップＳ６２０では、抽出情報同定部１４０は電子カルテシステムから当該患者の関連情報を取り出す。関連情報は種別分類に関わるものとする。関連情報の詳細については後述する。

続いて、ステップＳ６３０では、抽出情報同定部１４０は種別分類の関連情報があるかどうかを確認する。関連情報があれば、ステップＳ６４０では、関連情報を用いて種別分類を絞る。関連情報がなければ、ステップＳ６５０に入る。

続いて、ステップＳ６５０では、種別分類から種別を同定する。種別の抽出処理は上記第１、第２、第４の実施形態の何れかを使用することができる。

次に、本実施形態に係る情報処理システムによる情報処理の一例について説明する。

図１９は、本発明の第７の実施形態を示し、図１８の情報処理の一例を示す模式図である。

１６０１は、電子カルテシステムにおける診療情報の構造情報の記述例である。基本情報に患者情報、診察日、初診か再診を含む。また、診療情報としてＳ（主訴）Ｏ（所見）Ａ（検査）Ｐ（計画）が含まれる。

１６０２は、電子カルテの診療情報に含まれる種別分類に関わる関連情報例である。基本情報の中に、例えば、初診、或いは、再診といった用語が挙げられる。また、診療情報の中に、例えば、手術予定、或いは、入院治療といった用語が挙げられる。

１６０３は、本来種別抽出処理に用いる分類辞書である。

基本情報から種別分類に関わる用語を抽出し、種別分類候補を絞込む処理例では、先ず、１６０１から「初診」という関連情報が抽出される。「初診」の場合、文書画像が同意書や記録・報告などの種別の可能性がないので、それを種別候補から除外する。そして、「初診」と関連付け可能な種別番号「０１」、「１０」から種別を判定し、分類する。

また、診療情報から種別分類に関わる用語を抽出する場合は、上記と同様に、抽出される関連用語に対応する範囲の種別分類から文書画像の種別を同定する。

本実施形態では、電子カルテシステムから抽出情報と関連する内容を取り出し、抽出情報候補を絞るものである。本実施形態では、電子カルテシステムの利用を例にしたが、それ以外の関連システムと連携してもよい。また、本実施形態では、種別抽出に関連する情報を例に挙げたが、それ以外の関連情報を設定してもよい。また、本実施形態では、種別抽出を例に説明したが、診療科抽出、或いは、それ以外の情報抽出にしてもよい。さらに、本実施形態では、関連情報により種別分類候補を絞り、可能性のある種別分類から種別を同定するものであった。しかし、第１、第２、第３、第４、第５の実施例のように、種別分類を先に同定に、関連情報から絞った種別分類で抽出結果の確認を行う処理方法にしてもよい。

第７の実施形態によれば、第１、第２、第３、第４、第６の実施形態による効果に加え、関連システムと連携した情報抽出仕組みの実現が可能になる。

（第８の実施形態）
次に、第８の実施形態について説明する。

上述した第１、第２、第３、第４、第５、第６及び第７の実施形態では、医用向け非定型文書を対象に種別情報等を自動的に情報を抽出するものであった。第８の実施形態では、一般分野の非定型文書における情報抽出に関するものである。

例えば、銀行の場合は、口座開設をはじめ、融資取組や、住宅ローンなどの業務に関連するドキュメントとデータのキャプチャは、基本的は手作業で行うのが現状である。例えば、米ドル建ての外国送金の場合では、米国ＯＦＡＣ規制により、取引の関係当事者の所在地に禁止取引国、また、問題のある法人・個人等が含まれているかどうかを確認する作業は非常に手間がかかるため、業務の効率化のサポートが必要である。

ここで、業務効率の向上に、様々なフォーマットを有するドキュメントから必要な情報を自動的に抽出し、ドキュメントを分類する第８の実施形態として挙げる。第８の実施形態に係る情報処理システムのハードウェア構成は、図１に示す第１の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第８の実施形態に係る情報処理システムの機能構成は、図２に示す第１の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。また、第３の実施形態に係る情報処理システムのハードウェア構成は、図２に示す第１の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明も省略する。また、第８の実施形態に係る情報処理方法の処理手順は、図３に示す第１の実施形態に係る情報処理方法のステップＳ１４０を除いて同様であるため、ステップＳ１１０〜１３０の説明は省略する。

次に、ステップＳ１４０における知識に基づく抽出対象の同定処理について説明する。

図２０は、本発明の第８の実施形態を示し、図３のステップＳ１４０における知識に基づく抽出対象を同定し、取引規制対象であるかどうかの確認作業支援の手順の一例を示すフローチャートである。

先ず、ステップＳ７４０１では、候補領域設定部１２０は候補領域情報を抽出情報同定部１４０に入力する。

続いて、抽出情報同定部１４０はステップＳ７４０２からステップＳ７４０６において、基本抽出項目内容に該当するかどうかをチェックし、取引規制対象の判断を行う。以下、詳細に説明する。

ステップＳ７４０２では、抽出情報同定部１４０は基本抽出項目ｎを取り出す。そして、ステップＳ７４０３では、基本抽出項目ｎに対応する中身ｍを取り出す。

そして、ステップＳ７４０４では、候補情報の中に、上記基本抽出項目ｎの中身ｍに該当するものがあるかどうかをチェックする。上記基本抽出項目ｎの中身ｍに該当するものがあれば、当該文書は更に精査する必要があると判断し、ステップＳ７４０７の処理に入る。上記基本抽出項目ｎの中身ｍに該当するものがなければ、ステップＳ７４０５に入り、基本項目ｎの中身をすべてチェックしたかどうかを確認する。まだ未チェックの中身があれば、ステップＳ７４０３に入り、ステップＳ７４０３からステップＳ７４０４までの処理を繰り返して実行する。基本抽出項目ｎの中身はすべてチェックする場合、ステップＳ７４０６では、基本抽出項目はすべてチェックしたかどうかを確認する。まだ未チェックの基本抽出項目があれば、ステップＳ７４０２に入り、ステップＳ７４０２からステップＳ７４０６までの処理を繰り返して実行する。すべでの基本抽出項目において、すべでの基本項目の中身に該当するものがなければ、ステップＳ７４１２に入り、本文書画像は規制対象外と判断する。

ステップＳ７４０７からステップＳ７４１３は、ステップＳ７４０４で基本抽出項目の中身に該当するものがある場合の精査処理である。以下、詳細に説明する。

ステップＳ７４０７では、抽出項目を取り出す。そして、ステップＳ７４０８では、抽出項目ｎ’に対応する中身ｍ’を取り出す。

そして、ステップＳ７４０９では、候補情報の中に、上記抽出項目ｎ’の中身ｍ’に該当するものがあるかどうかをチェックする。上記抽出項目ｎ’の中身ｍ’に該当するものがあれば、ステップＳ７４１３に入り、当該文書を規制対象と判断する。上記抽出項目ｎ’の中身ｍ’に該当するものがなければ、ステップＳ７４０１０に入り、抽出項目ｎ’の中身をすべてチェックしたかどうかを確認する。まだ未チェックの中身があれば、ステップＳ７４０８に入り、ステップＳ７４０８からステップＳ７４０９までの処理を繰り返して実行する。抽出項目ｎの中身はすべてチェックする場合、ステップＳ７４１１では、抽出項目はすべてチェックしたかどうかを確認する。まだ未チェックの抽出項目があれば、ステップＳ７４０７に入り、ステップＳ７４０７からステップＳ７４１１までの処理を繰り返して実行する。すべでの抽出項目において、すべでの抽出項目の中身に該当するものがなければ、ステップＳ７４１２に入り、本文書画像は規制対象外と判断する。

図２１は、本発明の第８の実施形態を示し、図２０の情報処理の一例を示す模式図である。

１８０１は、海外送金業務用の帳票例である。取引規制対象のチェック対象項目として、楕円で囲まれる送金通貨、国名、取引人が挙げられる。

１８０２は、取引規制対象のチェックに用いる知識例である。知識情報は、１８０３０基本抽出項目、１８０４０抽出項目、１８０３１基本抽出項目に含む各項目の中身リスト、１８０４１、１８０４２抽出項目に含む各項目の中身リストから構成される。例えば、１８０３０基本抽出項目０１「送金通貨」の中身番号は「０１０１」で、内容は「ＵＳＤ」として設定される。また、例えば、１８０４０抽出項目１１「国名」に対応する中身リストが複数あり、順番にリストアップされる。また、日本語だけではなく、他言語での記述も対応付けて記録されている。

上記情報処理では、基本抽出項目として設定されている「送金通貨」「ＵＳＤ」に該当するものがあれば、精査対象とする。そして、更に抽出項目として設定されている取引禁止国名のリスト、または、抽出項目として設定されている問題のある法人・個人のリストに該当するかどうかをチェックする。

本実施形態では、金融業務の知識を利用し、金融帳票から自動的に情報抽出するものである。本実施形態では、金融業務の中に、海外送金業務を例にしたが、それ以外の文書画像関連の業務に適用してもよい。また、海外送金業務の自動化の例では、チェックする項目を基本抽出項目と抽出項目に分けて管理する例を挙げたが、まとめて管理してもよいし、それ以外の構造にしてもよい。

第８の実施形態によれば、ターゲットと設定される分野の情報抽出において、必要となる知識を置き換えて、本提案のアーキテクチャを適用すれば、医療以外の業務にも適用が可能になる。

上述した第１、第２、第３、第４、第５、第６、第７及び第８の実施形態では、スキャン文書画像から情報抽出するものであったが、カメラ撮影画像を情報抽出処理対象にしてもよい。その際に、カメラ入力画像用の画像補正処理を加えればよい。

（他の実施形態）
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録したコンピュータ可読の記憶媒体を、システムあるいは装置に供給することによっても、達成されることは言うまでもない。また、システムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。

この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される。また、プログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態が実現される場合も含まれることは言うまでもない。

なお、上記の複数の実施形態を組み合わせることとしてもよい。

１１０文書画像解析部
１２０候補領域設定部
１３０候補領域認識部
１４０抽出情報同定部
１５０登録部

Claims

画像化された医療文書データから複数の領域を抽出する第１抽出手段と、
前記複数の領域から第１の文字を含む領域を抽出する第２抽出手段と、
前記第２抽出手段によって抽出された領域から前記医療文書データの診療科情報を抽出する第３抽出手段と、
を備え、
前記第１の文字は「科」を含むことを特徴とする情報処理装置。
前記第３抽出手段により抽出された情報を用いて前記文書データを分類する分類手段を更に備えることを特徴とする請求項１記載の情報処理装置。
前記第１抽出手段により抽出された領域に関する情報に基づいて前記第２抽出手段の処理対象とする領域を選択する領域選択手段を更に備え、
前記第２抽出手段は、前記選択された領域から前記第１の文字を含む領域を抽出することを特徴とする請求項１または請求項２に記載の情報処理装置。
前記領域に関する情報は、前記第１抽出手段により抽出された領域の位置および前記第１抽出手段により抽出された領域に含まれる文字の少なくとも１つを示す情報であり、
前記領域選択手段は、前記文書データにおける所定の範囲にあり、且つ、含まれる文字の行数が第４の閾値以下の前記第１抽出手段により抽出された領域を選択することを特徴とする請求項３記載の情報処理装置。
前記第１抽出手段により抽出された領域に対して優先度を付与する付与手段を更に備え、
前記第２抽出手段は、前記優先度に基づいた順序で前記第１の文字を含む領域を抽出することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記付与手段は、前記第１抽出手段により抽出された領域の位置および前記領域に含まれる文字の大きさの少なくとも１つに基づいて優先度を付与することを特徴とする請求項５記載の情報処理装置。
前記分類手段は、前記医療文書データと同一患者の電子カルテから得られた情報および前記第３抽出手段により抽出された情報を用いて前記医療文書データを分類することを特徴とする請求項２記載の情報処理装置。
前記電子カルテから得られた情報は、初診か否かを示す情報であることを特徴とする請求項７記載の情報処理装置。
画像化された医療文書データから複数の領域を抽出する第１抽出工程と、
前記複数の領域から第１の文字を含む領域を抽出する第２抽出工程と、
前記第２抽出工程において抽出された領域から前記医療文書データの診療科情報を抽出する第３抽出工程と、
を備え、
前記第１の文字は「科」を含むことを特徴とする情報処理方法。
請求項９記載の各工程をコンピュータに実行させることを特徴とするプログラム。
請求項１０記載のプログラムを記憶した記憶媒体。