JP2006171969A - 文書処理装置 - Google Patents

文書処理装置 Download PDF

Info

Publication number
JP2006171969A
JP2006171969A JP2004361383A JP2004361383A JP2006171969A JP 2006171969 A JP2006171969 A JP 2006171969A JP 2004361383 A JP2004361383 A JP 2004361383A JP 2004361383 A JP2004361383 A JP 2004361383A JP 2006171969 A JP2006171969 A JP 2006171969A
Authority
JP
Japan
Prior art keywords
word
document processing
processing apparatus
words
thesaurus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004361383A
Other languages
English (en)
Inventor
Susumu Yasunaga
晋 安永
Yoichi Kawakami
洋一 川上
Toshiji Noro
利治 野呂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2004361383A priority Critical patent/JP2006171969A/ja
Publication of JP2006171969A publication Critical patent/JP2006171969A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】特定の属性を有するキーワードを出力可能な文書処理装置を提供する。
【解決手段】処理対象の医療レポートが入力されると、文書処理装置10は、まず、医療レポートを構成する文字列を形態素解析部11に与え、形態素解析部11が当該文字列を単語に分割して単語リストを生成する。そして、単語抽出部13が、シソーラス検索部12によって特定された単語リスト中の選択単語のシソーラスコードが抽出条件に適合するか否かを判定し、適合する場合、当該選択単語を抽出してキーワードとして出力する。
【選択図】図2

Description

本発明は、処理対象の文書を特徴づけるキーワードを出力する文書処理装置に関する。
従来より、文書の内容を特徴づけるキーワードを出力する文書処理装置が情報検索システム等で用いられている。当該文書処理装置においては、文書を構成する文字列を形態素解析により単語に分割して単語群を生成し、TF−IDF(Term Frequency - Inverse Document Frequency)値等の重み指標値が所定値以上の単語を当該単語群から抽出して文書のキーワードとしている(例えば、非特許文献1参照)。
なお、特許文献1には複合語の処理に関する技術が、特許文献2には漢字のルビ付けに関する技術が開示されている。
北 研二、他2名、「情報検索アルゴリズム」、初版、共立出版株式会社、2002年1月、p.27−49 特開平10−254882号公報 特開平11−232268号公報
しかし、従来の文書処理装置においては、特定の属性を有するキーワードを出力することが困難であり、これに起因して、キーワードの属性に基づいて文書を構造化することも困難であった。
本発明は、この問題を解決するためになされたもので、特定の属性を有するキーワードを出力可能な文書処理装置を提供することを目的とする。
上記課題を解決するため、請求項1の発明は、処理対象の文書を特徴づけるキーワードを出力する文書処理装置であって、単語を階層的に整理したシソーラスと、与えられた文字列を単語に分割して単語群を生成する分割手段と、前記分割手段により生成された単語群に含まれる単語について、前記シソーラスに対する検索を行い、前記シソーラスの階層構造上の位置である階層位置を特定する特定手段と、前記分割手段により生成された単語群から、前記特定手段により特定された階層位置が抽出条件に適合する単語を抽出する抽出手段とを備え、処理対象の文書が入力されると、処理対象の文書を構成する文字列を前記分割手段に与え、前記分割手段により生成された単語群から前記抽出手段が抽出した単語に基づくキーワードを出力する。
請求項2の発明は、請求項1に記載の文書処理装置において、キーワードとともに、キーワードの基礎となった単語の階層位置をキーワードの階層位置として出力する。
請求項3の発明は、請求項1または請求項2に記載の文書処理装置において、前記分割手段により生成された単語群に含まれる単語が接辞であるか否かを判定する判定手段をさらに備え、前記抽出手段により抽出された単語が、前記判定手段により接辞と判定された単語の語幹である場合、当該語幹に当該接辞を付加した派生語をキーワードとして出力する。
請求項4の発明は、請求項1または請求項2に記載の文書処理装置において、前記抽出手段により抽出された単語をキーワードとして出力する。
請求項5の発明は、請求項1ないし請求項4のいずれかに記載の文書処理装置において、前記分割手段が文字列を単語に分割する場合に参照する辞書を、複数の辞書の間で切り替え可能である。
請求項6の発明は、請求項1ないし請求項5のいずれかに記載の文書処理装置において、前記分割手段が、文書を単語に分割して生成した単語群に含まれる複合語をさらに単純語に分割し、前記特定手段が、前記複合語の階層位置を、前記シソーラスに含まれる前記単純語の階層位置のひとつ下の階層位置と特定する。
請求項7の発明は、請求項6に記載の文書処理装置において、前記分割手段が、文字列を単語に分割する場合に参照する辞書を、基本的な単語を含む基本辞書と、前記基本辞書よりも多くの単語を含む詳細辞書との間で切り替え可能であり、前記詳細辞書を参照して処理対象の文書を構成する文字列を単語に分割し、前記基本辞書を参照して前記複合語を前記単純語に分割する。
請求項8の発明は、請求項6または請求項7に記載の文書処理装置において、前記特定手段が、前記シソーラスに含まれる前記単純語が複数存在する場合に、前記複合語の階層位置を、前記シソーラスに含まれる前記単純語のうちで、前記複合語の中で最後方に位置する単純語の階層位置のひとつ下の階層位置と特定する。
請求項9の発明は、請求項1ないし請求項8のいずれかに記載の文書処理装置において、前記分割手段が文字列を単語に分割する場合に参照する辞書に異表記の対応の情報が保持されており、前記分割手段が、当該異表記の対応の情報を参照して、異表記語を同一の単語として処理する。
請求項10の発明は、請求項9に記載の文書処理装置において、前記抽出手段が、前記分割手段により同一の単語として処理された異表記語の表記を特定の表記に統一して抽出する。
請求項11の発明は、請求項1ないし請求項10のいずれかに記載の文書処理装置において、前記分割手段により生成された単語群に含まれる単語の重み指標値を算出し、前記特定手段が、所定値以上の重み指標値を有する単語のみ処理の対象とする。
請求項12の発明は、請求項1ないし請求項10のいずれかに記載の文書処理装置において、前記分割手段により生成された単語群に含まれる単語のうち、前記抽出手段により抽出されなかった単語を前記シソーラスに追加可能である。
請求項1ないし請求項12の発明によれば、特定の属性を有する単語を文書から抽出できるので、特定の属性を有する適切なキーワードを出力可能である。
請求項2の発明によれば、階層位置によって表現されるキーワードの属性を利用して文書の構造化が可能になる。
請求項3の発明によれば、接辞を付加した派生語をキーワードとして出力可能であるので、さらに適切なキーワードを出力可能である。
請求項5の発明によれば、辞書の切り替えにより、分割手段により生成される単語群を変化させ、抽出手段により抽出される単語も変化させることができる。これにより、辞書を適切に選択して適切なキーワードを出力可能となる。
請求項6ないし請求項8の発明によれば、シソーラスに含まれない複合語の階層位置を特定可能となるので、シソーラスに含まれない複合語に基づくキーワードを出力可能となる。
請求項7の発明によれば、シソーラスに複合語を追加しないで詳細辞書に複合語を追加しても、追加した複合語に基づくキーワードを出力可能であるので、辞書のメンテナンスを行う場合にシソーラスのメンテナンスを行う必要がない。
請求項8の発明によれば、日本語の特徴に基づいて階層位置が特定されるので、階層位置を適切に特定可能である。
請求項9または請求項10の発明によれば、異表記語を辞書に登録しなくても、分割手段が異表記語を含む文字列を適切に単語に分割可能であるので、辞書を簡略化可能である。
請求項10の発明によれば、表記が異なる同一単語が異なるキーワードとして出力されることを防止可能である。
請求項11の発明によれば、所定値以上の重み指標値を有する単語に基づくキーワードが出力されるので、文書を特徴づけないノイズがキーワードに含まれることが少なくなる。
請求項12の発明によれば、前記分割手段により生成された単語群に含まれる所望の単語をシソーラスに追加可能であるので、以降において所望の単語に基づくキーワードを出力可能となる。
{1 第1実施形態}
<1.1 構成>
<1.1.1 文書処理システムの全体構成>
図1は、本発明の第1実施形態に係る文書処理装置10を含む文書処理システム1の構成を示すブロック図である。
図1に示すように、文書処理システム1は、入力された文書を処理して文書データベース511へ格納する文書処理サーバ51と、文書処理サーバ51による処理の対象となる文書の入力端末となる文書入力クライアント52とを備える。文書処理サーバ51および文書入力クライアント52は、少なくともCPUおよびメモリを備えるコンピュータであり、ネットワークNにより通信可能に接続される。
文書処理サーバ51では、インストールされた文書処理プログラム512をコンピュータが実行することにより、文書処理装置10の機能が実現される。文書処理装置10は、入力された処理対象の文書を特徴づけるキーワードを出力する。文書処理装置10は、望ましくは、キーワードとともに、当該キーワードの属性の情報を出力し、この属性の情報を用いて文書を構造化する機能を有する。
文書入力クライアント52は、キーボードやポインティングデバイス等の入力装置521を用いて操作者が入力した文書を、ネットワークNを介して文書処理サーバ51へ送出する。
文書処理システム1においては、望ましくは、文書処理サーバ51にWWW(World Wide Web)サーバが実装され、文書入力クライアント52にWWWブラウザがインストールされる。そして、文書入力のためのGUI(Graphical User Interface)画面を記述したHTML(Hyper Text Markup Language)ソースを文書処理サーバ51から文書入力クライアント52へ転送することにより、文書入力クライアント52の表示装置(不図示)上に文書入力のためのGUI画面を表示させ、操作者へ文書入力環境を提供することが望ましい。ただし、この方法による操作者への文書入力環境の提供は必須ではなく、他の方法以外を用いてもよい。
なお、文書処理装置10が処理対象とする文書は制限されないが、以下では、医療従事者である医師が入力した医療レポートを処理対象とする文書処理装置を例として説明を進める。
<1.1.2 文書処理装置の構成>
以下では、第1実施形態に係る文書処理装置10の構成について、図2のブロック図を参照しながら説明する。
図2に示すように、文書処理装置10は、形態素解析部11と、シソーラス検索部12と、単語抽出部13とを備える。これらは、コンピュータが文書処理プログラム512を実行することにより実現される機能を表現した機能ブロックである。さらに、文書処理装置10は、単語が登録された形態素解析用の辞書15と、単語を階層的に整理したシソーラス19とを保持している。
ここで、シソーラス19の階層構造について、図3を参照しながら説明する。図3に例示するように、シソーラス19の階層構造における最上位の階層は大分類となっており、大分類の各々からは、第1階層、第2階層および第3階層に含まれる単語が順次分岐している。シソーラス19では、概念の上下関係に基づいて単語が体系化され、概念的に上位の単語(上位語)が階層構造上で上位に位置し、概念的に下位の単語(下位語)が階層構造上で下位に位置するように、単語が階層的に整理されている。例えば、ある大分類が「病気」を表す場合、その下層には、第1階層のノードに「消化器の病気」、第2階層のノードに「胃の病気」、第3階層のノードに「胃潰瘍」に係る単語が整理される。また、シソーラス19の階層構造上の位置(以下では、「階層位置」と略記する)は、所定の規則に従って与えられる記号であるシソーラスコードによって特定される。例えば、上述の「病気」「消化器の病気」「胃の病気」および「胃潰瘍」に係る単語の階層位置は、それぞれ、「A」「A-10」「A-10-20」および「A-10-20-30」というシソーラスコードによって特定される。ここで、「A」は大分類を特定する指標であり、「10」「20」および「30」等の数字は同一階層内の階層位置を示す指標である。また、ハイフン「-」は、階層間の移行を示す指標である。なお、シソーラス19においては、特定の単語が複数の上位語を有することも許容されているので、階層位置が複数のシソーラスコードによって特定されることもありうる。
続いて、形態素解析部11、シソーラス検索部12および単語抽出部13について説明する。
形態素解析部11は、与えられた文字列を、文字列の構成単位である単語(形態素)に分割して単語リスト(単語群)を生成する。形態素解析部11は、文字列を単語に分割する場合に、辞書15を参照し、辞書15に登録されている単語に基づいて形態素解析を行う。形態素解析部11により生成される単語リストに含まれる各単語は、辞書15に登録されている単語となっている。
シソーラス検索部12は、単語リストに含まれる単語について、シソーラス19に対する検索を行い、階層位置の一表現であるシソーラスコードを特定する。
単語抽出部13は、所定の抽出条件を参照して、単語リストから、シソーラス検索部12によって特定されたシソーラスコードが抽出条件に適合する単語を抽出する。そして、文書処理装置10では、単語抽出部13により抽出された単語が、そのままキーワードとして出力される。
第1実施形態に係る文書処理装置10は、入力された医療レポートを特徴づけるキーワードを出力するので、単語抽出部13における抽出条件は、「病気」に関係する単語を抽出できるように設定される。これは、図3に示されたシソーラス19の階層構造の例で言えば、「病気」という大分類に含まれる単語(図3の範囲RG1に含まれる単語)を抽出することを意味しており、シソーラスコードが「A」で始まる階層位置にある単語を抽出することを意味している。もちろん、文書処理装置10では、抽出条件を変化させることにより、出力するキーワードの属性を変化させることが可能である。例えば、文書処理装置10が処理対象とする文書を消化器医が入力した医療レポートに限定し、出力するキーワードも消化器の病気に関係する単語に限定する場合、「消化器の病気」に係る単語の下位語(図3の範囲RG2に含まれる単語)を単語抽出部13で抽出する、すなわち、シソーラスコードが「A-10」で始まる階層位置にある単語を単語抽出部13で抽出するようにすればよい。
さらに、文書処理装置10では、抽出条件をさらに複雑に設定することも可能であり、例えば、シソーラスコードが「A」で始まる階層位置にある単語は抽出するが、例外として、シソーラスコードが「A-20」で始まる階層位置にある単語は抽出対象から除外するという抽出条件も設定可能である。また、文書処理装置10では、抽出条件を複数設定することも可能であり、例えば、シソーラスコードが「A-10」で始まる階層位置にある単語を抽出するという抽出条件と、シソーラスコードが「A-30-10」で始まる階層位置にある単語を抽出するという抽出条件とを設定することもできる。
また、文書処理装置10は、望ましくは、キーワードのシソーラスコードすなわちキーワードの属性を利用して医療レポートを構造化し、しかる後に文書データベース511に格納する。この構造化の具体的態様は制限されないが、例えば、図4に示すように、医療レポートのURI(Uniform Resource Identifier)をリソース101、キーワードをリテラル102、シソーラスコードに基づいて決められる属性(ここでは、diagnosys)をプロパティ103として、RDF(Resource Description Framework)で叙述することにより、医療レポートを構造化可能である。このようなRDFによる構造化は、構造の動的変化に柔軟に対応可能であるので、入力される医療レポートの傾向に変化がある場合等にも柔軟に対応可能である。
<1.2 文書処理装置の動作>
以下では、第1実施形態に係る文書処理装置10の動作について、図5のフローチャートを参照しながら説明する。
図5に示すように、処理対象の医療レポートが入力されると、文書処理装置10は、まず、医療レポートを構成する文字列を形態素解析部11に与え(ステップS101)、形態素解析部11が当該文字列を単語に分割して単語リストを生成する(ステップS102)。
続くステップS103〜S108では、形態素解析部11が生成した単語リストに含まれる単語ごとに、キーワードの基礎となる単語としての抽出要否が判定される。
当該判定においては、まず、単語リストからひとつの単語を選択し(ステップS103)、シソーラス検索部12が、選択した単語(以下では、「選択単語」と略記する)について、シソーラス19に対する検索を行う(ステップS104)。続いて、選択単語がシソーラス19に含まれるか否かによって処理の分岐が行われ(ステップS105)、含まれる場合、ステップS106への移行が行われ、含まれない場合、ステップS108への移行が行われる。ステップS105により、シソーラス19に含まれない単語はキーワードとして出力されないことになる。
ステップS106では、単語抽出部13が、シソーラス検索部12によって特定された選択単語のシソーラスコードが抽出条件に適合するか否かを判定し、適合する場合、選択単語を抽出してキーワードとして出力するとともに、選択単語のシソーラスコードをキーワードのシソーラスコードとして出力し(ステップS107)、適合しない場合、ステップS108への移行が行われる。これにより、文書処理装置10は、単語リストから単語抽出部13が抽出した単語をキーワードとして出力するとともに、キーワードとなった単語のシソーラスコードをキーワードのシソーラスコードとして出力することになる。
ステップS108では、単語リストに含まれる全ての単語について、ステップS103〜S108の処理が完了したか否かにより処理の分岐が行われ、完了している場合、動作フローが終了し、完了していない場合、ステップS103へ戻り、別の単語を選択単語として再びステップS103〜S108の処理が行われる。
このような動作フローにより、例えば、「胃潰瘍の疑いがある」という医療レポートが文書処理装置10に入力されると、形態素解析部11は、「胃潰瘍」「の」「疑い」「が」「ある」の5単語からなる単語リストを生成する。続いて、シソーラス検索部12は、単語リストのうち、シソーラス19に含まれる単語についてシソーラスコードを特定し、単語抽出部13は、シソーラス検索部12が特定したシソーラスコードが抽出条件(例えば、シソーラスコードが「A」で始まるという抽出条件)に適合する「胃潰瘍」を抽出する。しかる後に、文書処理装置10は、「胃潰瘍の疑いがある」という医療レポートを特徴づけるキーワードとして「胃潰瘍」を出力する。さらに、文書処理装置10は、「胃潰瘍」というキーワードとともに、シソーラスコード「A-10-20-30」を出力する。
このような第1実施形態の文書処理装置10では、特定の階層位置を有する、すなわち、特定の属性を有する単語を医療レポートから抽出してキーワードとして出力可能であるので、特定の属性を有する適切なキーワードを出力可能である。
{2 第2実施形態}
本発明の第2実施形態に係る文書処理装置20は、第1実施形態に係る文書処理装置10と同様に、文書処理システム1に組み込まれている。このため、第1実施形態の文書処理システム1の全体構成についての説明は第2実施形態にも当てはまる。
しかし、文書処理装置20は、文書処理装置10と異なり、接頭語や接尾語等の接辞が付加された派生語をキーワードとして出力可能に構成されている。以下では、当該文書処理装置20の構成および動作について説明するが、文書処理装置10と同様の構成についての詳細説明は省略する。
<2.1 文書処理装置の構成>
以下では、第2実施形態に係る文書処理装置20の構成について、図6のブロック図を参照しながら説明する。
図6に示すように、文書処理装置20は、形態素解析部21と、シソーラス検索部22と、単語抽出部23と、接辞判定部24とを備える。これらは、コンピュータが文書処理プログラム512を実行することにより実現される機能を表現した機能ブロックである。さらに、文書処理装置20は、辞書25と、シソーラス29と、接辞が登録されたテーブル28とを保持している。ここで、形態素解析部21、シソーラス検索部22および単語抽出部23は、それぞれ、文書処理装置10の形態素解析部11、シソーラス検索部12および単語抽出部13に相当し、辞書25およびシソーラス29は、それぞれ、文書処理装置10の辞書15およびシソーラス19に相当する。
接辞判定部24は、テーブル28を参照して、単語リストに含まれる単語が接辞であるか否かを判定する。例えば、文書処理装置20では、接辞判定部24が、単語リストに含まれる各単語について、テーブル28に登録された接頭語(「左」「右」「上」「中」「下」等)を参照しながら、接頭語であるか否かを判定する。接辞判定部24により接辞と判定された単語は、シソーラス検索部22および単語抽出部23の処理対象から除外される。
そして、文書処理装置20では、単語抽出部23により抽出された単語が、接辞判定部24により接辞と判定された単語の語幹である場合、単語抽出部23により抽出された単語(語幹)に、接辞判定部24により接辞と判定された単語(接辞)を付加した派生語をキーワードとして出力する。例えば、文書処理装置20は、単語抽出部23により抽出された単語の直前の単語が、接辞判定部24により接頭語と判定されている場合、単語抽出部23により抽出された単語の前に当該接頭語を付加した派生語をキーワードとして出力する。または、文書処理装置20は、単語抽出部23により抽出された単語の直後の単語が、接辞判定部24により接尾語と判定されている場合、単語抽出部23により抽出された単語の後に当該接尾語を付加した派生語をキーワードとして出力する。
<2.2 文書処理装置の動作>
以下では、第2実施形態に係る文書処理装置20の動作について、図7および図8のフローチャートを参照しながら説明する。
文書処理装置20の動作は、文書処理装置10の動作と類似しており、図7および図8に示すステップS201〜S208は、図5のステップS101〜S108に相当する。ただし、文書処理装置20では、選択単語について、シソーラス29に対する検索を行う(ステップS204)のに先立って、選択単語が接辞であるか否かに基づいて処理の分岐を行う点(ステップS209);および(2)キーワードの出力(ステップS207,S212)に先立って、選択単語がステップS204で接辞と判定された単語の語幹であるか否かに基づいて処理の分岐を行う点(ステップS211)が、文書処理装置10と異なっている。
より詳しく説明すると、ステップS209では、選択単語が接辞であるか否かの判定が接辞判定部24で行われる。ステップS209において、選択単語が接辞と判定された場合、選択単語が接辞であるという情報が記憶され(ステップS210)、しかる後にステップS208への移行が行われ、接辞でないと判定された場合、ステップS204への移行が行われる。ステップS209の処理の分岐により、接辞判定部24が接辞と判定した単語は、シソーラス検索部22および単語抽出部23の処理対象から除外される。
一方、ステップS211では、選択単語が、ステップS209で接辞と判定された単語の語幹であるか否かによって処理の分岐が行われる。ステップS211において、選択単語が語幹である場合、選択単語を抽出し、接辞を付加した派生語をキーワードとして出力するとともに、選択単語のシソーラスコードをキーワードのシソーラスコードとして出力する(ステップS212)。一方、ステップS211において、選択単語が語幹でない場合、文書処理装置10と同様に、選択単語をキーワードとして出力するとともに、選択単語のシソーラスコードをキーワードのシソーラスコードとして出力する(ステップS207)。したがって、文書処理装置20では、選択単語が、ステップS209で判定された接辞の語幹である場合、選択単語そのものではなく、選択単語に基づく派生語をキーワードとして出力することになる。
このような動作フローにより、例えば、「右頚動脈に異常が見られる」という医療レポートが文書処理装置20に入力されると、形態素解析部21は、「右」「頚動脈」「に」「異常」「が」「見」「られる」の7単語からなる単語リストを生成する。続いて、接辞判定部24が「右」を接辞(接頭語)と判定し、シソーラス検索部22は、「右」を除外した「頚動脈」「に」「異常」「が」「見」「られる」のうち、シソーラス29に含まれる単語についてシソーラスコードを特定し、単語抽出部23は、シソーラス検索部22が特定したシソーラスコードが抽出条件に適合する「頚動脈」を抽出する。この「頚動脈」は、接辞判定部24が接頭語と判定した「右」の語幹であるので、文書処理装置20は、「右頚動脈に異常が見られる」という医療レポートを特徴づけるキーワードとして、「頚動脈」の頭に「右」を付加した「右頚動脈」を出力する。さらに、文書処理装置20は、「右頚動脈」というキーワードとともに、「頚動脈」のシソーラスコードを、「右頚動脈」のシソーラスコードとして出力する。
このような第2実施形態の文書処理装置20でも、文書処理装置10と同様に、特定の階層位置を有する、すなわち、特定の属性を有する単語に基づくキーワードを出力可能であるので、特定の属性を有する適切なキーワードを出力可能である。加えて、文書処理装置20は、接辞を付加した派生語をキーワードとして出力可能であるので、さらに適切なキーワードを出力可能である。
{3 第3実施形態}
本発明の第3実施形態に係る文書処理装置30は、第1実施形態に係る文書処理装置10と同様に、文書処理システム1に組み込まれている。このため、第1実施形態の文書処理システム1の全体構成についての説明は第3実施形態にも当てはまる。
しかし、文書処理装置30は、文書処理装置10と異なり、形態素解析部により生成された単語リストに含まれる単語がシソーラスに含まれない場合でも、当該単語に基づくキーワードを出力可能である。以下では、当該文書処理装置30の構成および動作について説明するが、文書処理装置10と同様の構成についての詳細説明は省略する。
<3.1 文書処理装置の構成>
以下では、第3実施形態に係る文書処理装置30の構成について、図9のブロック図を参照しながら説明する。
図9に示すように、文書処理装置30は、形態素解析部31と、シソーラス検索部32と、単語抽出部33とを備える。これらは、コンピュータが文書処理プログラム512を実行することにより実現される機能を表現した機能ブロックである。さらに、文書処理装置30は、基本辞書36と、詳細辞書37と、シソーラス39とを保持している。ここで、形態素解析部31、シソーラス検索部32および単語抽出部33は、それぞれ、文書処理装置10の形態素解析部11、シソーラス検索部12および単語抽出部13に相当し、シソーラス39は、文書処理装置10のシソーラス19に相当する。
文書処理装置30では、文書処理装置10と異なり、形態素解析部31が文字列を単語に分割する場合に参照する形態素解析用の辞書を、複数の辞書の間で切り替え可能である。より具体的には、形態素解析部31は、基本的な単語を含む基本辞書36と、基本辞書36よりも多くの単語を含む詳細辞書37とを切り替え可能である。この詳細辞書37には、基本辞書36に登録されている単語に加えて、多数の複合語(専門用語等)が登録されている。このように形態素解析部31が複数の辞書を切り替えて参照することを可能とすることにより、形態素解析部31により生成される単語リストを変化させ、単語抽出部33により抽出される単語を変化させることができる。これにより、辞書を適切に選択して適切なキーワードを出力することが可能となる。
<3.2 文書処理装置の動作>
以下では、第3実施形態に係る文書処理装置30の動作について、図10および図11のフローチャートを参照しながら説明する。
文書処理装置30の動作は、文書処理装置10の動作と類似しており、図10に示すステップS301〜S308は、図5のステップS101〜S108に相当している。ただし、文書処理装置30では、(1)ステップS302において形態素解析部31が参照する辞書が詳細辞書37となっている点;および(2)選択単語がシソーラス39に含まれない場合(ステップS305で”NO”)、選択単語のシソーラスコードの推定処理を行い(ステップS309)、しかる後にステップS308への移行が行われる点が、文書処理装置10と異なっている。
続いて、ステップS309のシソーラスコードの推定処理について、図11を参照しながら説明する。
図11に示すように、シソーラスコードの推定処理においては、最初に、形態素解析部31が、基本辞書36を参照して、選択単語をさらに単語に分割する(ステップS321)。先述したように、形態素解析部31が選択単語を含む単語リストを生成するときに参照した辞書は詳細辞書37であるので、選択単語は詳細辞書37にのみ登録されている複合語である場合がある。したがって、ステップS321においては、複合語である選択単語が、基本辞書36に登録されている基本的な単語からなる複数の単純語に分割される場合がある。例えば、詳細辞書37に「急性胃潰瘍」が登録されており、基本辞書36に「急性」「胃潰瘍」が登録されている場合、「急性胃潰瘍」という複合語の選択単語が、ステップS321において、「急性」「胃潰瘍」という2つの単純語に分割される場合がある。これは、形態素解析の処理結果すなわち生成する単語リストの具体的内容が、参照する辞書に登録されている単語(語彙)に依存していることによるものである。すなわち、詳細辞書37を参照して形態素解析を行うことにより得られた単語リストに含まれる単語が、基本辞書36を参照して形態素解析行うことにより、複数の単語の結合である複合語と判定される場合があることによるものである。
そこで、シソーラスコードの推定処理においては、ステップS322で、選択単語が複数の単純語に分割されたか否かに基づいて処理の分岐を行い、複数の単純語に分割された場合、シソーラス検索部32が、当該複数の単純語の各々について、シソーラス39に対する検索を行い(ステップS324)、複数の単純語のいずれかがシソーラス39に含まれる場合、ステップS325へ移行し、含まれない場合、シソーラスコードの推定処理を終了する。一方、ステップS322において、選択単語が複数の単純語に分割されなかった場合、シソーラスコードの推定処理を終了する。
ステップS325では、シソーラス検索部32が選択単語のシソーラスコードを推定する。例えば、選択単語「急性胃潰瘍」が、「急性」「胃潰瘍」の2つの単純語に分割され、そのうちのひとつである「胃潰瘍」がシソーラス39に含まれる場合、シソーラス検索部32は、複合語である選択単語「急性胃潰瘍」の階層位置を、単純語「胃潰瘍」の階層位置のひとつ下の階層位置であると推定(特定)する。そして、シソーラス検索部32は、「胃潰瘍」のシソーラスコードが「A-10-20-30」である場合、「急性胃潰瘍」のシソーラスコードを、ひとつ下の階層位置であることを示す「A-10-20-30-99」であると推定する。
また、上記例において、「急性」「胃潰瘍」の両方(一般的には複数の単純語)がシソーラス39に含まれる場合、シソーラス検索部32は、選択単語「急性胃潰瘍」の階層位置を、シソーラス39に含まれる「急性」「胃潰瘍」の中で最後方に位置する単純語「胃潰瘍」の階層位置のひとつ下の階層位置であると推定する。そして、シソーラス検索部32は、「胃潰瘍」のシソーラスコードが「A-10-20-30」である場合、「急性胃潰瘍」のシソーラスコードを、ひとつ下の階層位置であることを示す「A-10-20-30-99」であると推定する。複数の単純語がシソーラス39に含まれる場合のこのような処理は、前方の語が後方の語を修飾するという日本語の特徴に基づき、シソーラスコードを適切に特定可能とするために行われている。
ここで、再び、図11のフローチャートに戻って説明を行う。
ステップS325に続いて、推定したシソーラスコードが抽出条件に適合するか否かが判定され(ステップS326)、適合する場合、選択単語を抽出してキーワードとして出力するとともに、推定された選択単語のシソーラスコードをキーワードのシソーラスコードとして出力し(ステップS327)、しかる後に、シソーラスコードの推定処理の動作フローを終了する。一方、ステップS326において、シソーラスコードが抽出条件に適合しない場合、キーワードの出力は行わないで、シソーラスコードの推定処理の動作フローを終了する。
このような第3実施形態の文書処理装置30でも、特定の階層位置を有する、すなわち、特定の属性を有する単語を医療レポートから抽出してキーワードとして出力可能であるので、特定の属性を有する適切なキーワードを出力可能である。加えて、文書処理装置30では、シソーラス39に含まれない複合語の階層位置を特定可能となるので、シソーラス39に含まれない複合語に基づくキーワードを出力可能となる。さらに、これにより、シソーラス39に複合語を追加しないで詳細辞書37に複合語を追加しても、追加した複合語に基づくキーワードを出力可能であるので、辞書のメンテナンスを行う場合にシソーラス39のメンテナンスを行う必要がなく、辞書のメンテナンスが容易になる。
{4 第4実施形態}
本発明の第4実施形態に係る文書処理装置40は、第1実施形態に係る文書処理装置10と同様に、文書処理システム1に組み込まれている。このため、第1実施形態の文書処理システム1の全体構成についての説明は第4実施形態にも当てはまる。
しかし、文書処理装置40は、文書処理装置10と異なり、医療レポート中の異表記語の表記を統一してキーワードとして出力可能である。以下では、当該文書処理装置40の構成および動作について説明するが、文書処理装置10と同様の構成についての詳細説明は省略する。
<4.1 文書処理装置の構成>
以下では、第4実施形態に係る文書処理装置40の構成について、図12のブロック図を参照しながら説明する。
図12に示すように、文書処理装置40は、形態素解析部41と、シソーラス検索部42と、単語抽出部43とを備える。これらは、コンピュータが文書処理プログラム512を実行することにより実現される機能を表現した機能ブロックである。さらに、文書処理装置40は、辞書45と、シソーラス49とを保持している。ここで、形態素解析部41、シソーラス検索部42および単語抽出部43は、それぞれ、文書処理装置10の形態素解析部11、シソーラス検索部12および単語抽出部13に相当し、辞書45およびシソーラス49は、それぞれ、文書処理装置10の辞書15およびシソーラス19に相当する。
文書処理装置40では、文書処理装置10と異なり、形態素解析用の辞書45が、形態素解析の基礎となる単語の情報のみならず、異表記情報451も保持している。異表記情報451は、1文字または複数文字ごとに、漢字とその読み仮名とを対応させた情報であり、異表記の対応の情報となっている。例えば、異表記情報451は、「胃潰瘍」という単語で言えば、「胃」という漢字に「い」、「潰」という漢字に「かい」、「瘍」という漢字に「よう」という読み仮名を対応させた情報となっている。
また、文書処理装置40では、文書処理装置10と異なり、形態素解析部41は、文字列を単語に分割する場合に辞書45が保持している異表記情報451を参照し、異表記語を同一の単語として処理して形態素解析を行っている。例えば、形態素解析部41は、「胃潰瘍」「胃かいよう」「胃かい瘍」および「い潰瘍」等の異表記語を同一の単語として処理している。このように、辞書45が異表記情報451を保持し、形態素解析部41が当該異表記情報451を参照することにより、異表記語を辞書45に登録しなくても形態素解析部41が異表記語を含む文字列を適切に単語に分割可能であるので、辞書45を簡略化可能である。
なお、上述の例では、異表記情報451が、漢字とひらがなとを対応させた情報である例を示したが、漢字とカタカナとを対応させた情報や、新字体と旧字体とを対応させた情報であってもよい。
さらに、文書処理装置40では、文書処理装置10と異なり、シソーラス検索部42がシソーラス49に対する検索を行うのに先立って、異表記語の表記が特定の表記に変換される。例えば、形態素解析部41が生成した単語群に含まれる単語が「胃潰瘍」「胃かいよう」「胃かい瘍」「い潰瘍」のいずれであっても、シソーラス検索部42によるシソーラス49に対する検索は、「胃潰瘍」という特定の表記で行われる。
加えて、文書処理装置40では、単語抽出部43が抽出する単語における表記が特定の表記に統一される。例えば、形態素解析部41が生成した単語群に含まれる単語が、「胃潰瘍」「胃かいよう」「胃かい瘍」「い潰瘍」のいずれであっても、単語抽出部43が抽出する単語(キーワード)は「胃潰瘍」に統一して出力される。
<4.2 文書処理装置の動作>
以下では、第4実施形態に係る文書処理装置40の動作について、図13のフローチャートを参照しながら説明する。
文書処理装置40の動作は、文書処理装置10の動作と類似しており、図13に示すステップS401〜S408は、図5のステップS101〜S108に相当している。ただし、文書処理装置40では、形態素解析部41が生成した単語リストから選択単語を選択するのに先立って、表記を漢字表記に統一する処理を行う点(ステップS409)が、文書処理装置40と異なっている。
より詳しく説明すると、ステップS409では、異表記情報451に基づいて、単語リストに含まれる単語のかな表記を漢字表記に統一する処理が行われ、しかる後にステップS403への移行が行われる。これにより、先述したように、シソーラス検索部42によるシソーラス49に対する検索が漢字表記により行われるとともに、単語抽出部43が抽出する単語における表記が漢字表記に統一されることになる。
このような第4実施形態の文書処理装置40でも、特定の階層位置を有する、すなわち、特定の属性を有する単語を医療レポートから抽出してキーワードとして出力可能であるので、特定の属性を有する適切なキーワードを出力可能である。加えて、文書処理装置40では、表記が異なる同一単語を異なるキーワードとして出力することを防止可能である。
{5.変形例}
◎文書処理装置の処理対象について;
第1〜第4実施形態では、医療レポートを特徴づけるキーワードを文書処理装置10(20,30,40)が出力する例を示したが、医療レポート以外の医療に関する文書や、学術分野、産業分野および生活分野における各種文書を特徴づけるキーワードを出力するために文書処理装置10(20,30,40)が用いられることも妨げられない。
◎抽出条件について;
第1〜第4実施形態では、抽出条件が固定された場合を例示したが、抽出条件を可変に設定可能としてもよい。
◎重み指標値の利用について;
上述の第1〜第4実施形態では、シソーラス検索部12(22,32,42)は、形態素解析部11(21,31,41)が生成した単語リストの全ての単語についてシソーラス19(29,39,49)に対する検索を行ったが、単語リストに含まれる各単語についてTF−IDF(Term Frequency - Inverse Document Frequency)値等の重み指標値を算出し、当該重み指標値が所定位置以上の単語についてのみシソーラス19(29,39,49)に対する検索を行うようにしてもよい。なお、ここで言う「重み指標値」は、当該文書を特徴づける度合いを示すパラメータであればよく、TF−IDF値以外であってもよい。これにより、所定値以上の指標値を有する単語に基づくキーワードが出力されるので、文書を特徴づけないノイズがキーワードに含まれることが少なくなる。
◎シソーラスの編集について:
上述の第1〜第4実施形態では、シソーラス19(29,39,49)の編集については触れなかったが、形態素解析部11(21,31,41)により生成された単語リストに含まれる単語のうち、単語抽出部13(23,33,43)が抽出しなかった単語をシソーラス19(29,39,49)に追加できるようにしてもよい。この場合、抽出条件に含まれる最上位階層のひとつ下の階層に単語を追加することが望ましい。これにより、単語リストに含まれる所望の単語をシソーラスに追加可能であるので、以降において当該所望の単語に基づくキーワードを出力可能となる。
◎第1〜第4実施形態の組み合わせについて;
なお、上述の第1〜第4実施形態の技術を組みあせて文書処理装置に適用してもよい。
第1実施形態に係る文書処理装置10を含む文書処理システム1の構成を示すブロック図である。 第1実施形態に係る文書処理装置10の構成を示すブロック図である。 シソーラス19の階層構造の例を示す図である。 医療レポートの構造化の例を示す図である。 第1実施形態に係る文書処理装置10の動作を示すフローチャートである。 第2実施形態に係る文書処理装置20の構成を示すブロック図である。 第2実施形態に係る文書処理装置20の動作を示すフローチャートである。 第2実施形態に係る文書処理装置20の動作を示すフローチャートである。 第3実施形態に係る文書処理装置30の構成を示すブロック図である。 第3実施形態に係る文書処理装置30の動作を示すフローチャートである 第3実施形態に係る文書処理装置30の動作を示すフローチャートである。 第3実施形態に係る文書処理装置40の構成を示すブロック図である。 第4実施形態に係る文書処理装置40の動作を示すフローチャートである。
符号の説明
1 文書処理システム
10,20,30,40 文書処理装置
11,21,31,41 形態素解析部
12,22,32,42 シソーラス検索部
13,23,33,43 単語抽出部
15,25,45 辞書
19,29,39,49 シソーラス
36 基本辞書
37 詳細辞書

Claims (12)

  1. 処理対象の文書を特徴づけるキーワードを出力する文書処理装置であって、
    単語を階層的に整理したシソーラスと、
    与えられた文字列を単語に分割して単語群を生成する分割手段と、
    前記分割手段により生成された単語群に含まれる単語について、前記シソーラスに対する検索を行い、前記シソーラスの階層構造上の位置である階層位置を特定する特定手段と、
    前記分割手段により生成された単語群から、前記特定手段により特定された階層位置が抽出条件に適合する単語を抽出する抽出手段と、
    を備え、
    処理対象の文書が入力されると、処理対象の文書を構成する文字列を前記分割手段に与え、前記分割手段により生成された単語群から前記抽出手段が抽出した単語に基づくキーワードを出力することを特徴とする文書処理装置。
  2. 請求項1に記載の文書処理装置において、
    キーワードとともに、キーワードの基礎となった単語の階層位置をキーワードの階層位置として出力することを特徴とする文書処理装置。
  3. 請求項1または請求項2に記載の文書処理装置において、
    前記分割手段により生成された単語群に含まれる単語が接辞であるか否かを判定する判定手段をさらに備え、
    前記抽出手段により抽出された単語が、前記判定手段により接辞と判定された単語の語幹である場合、当該語幹に当該接辞を付加した派生語をキーワードとして出力することを特徴とする文書処理装置。
  4. 請求項1または請求項2に記載の文書処理装置において、
    前記抽出手段により抽出された単語をキーワードとして出力することを特徴とする文書処理装置。
  5. 請求項1ないし請求項4のいずれかに記載の文書処理装置において、
    前記分割手段が文字列を単語に分割する場合に参照する辞書を、複数の辞書の間で切り替え可能であることを特徴とする文書処理装置。
  6. 請求項1ないし請求項5のいずれかに記載の文書処理装置において、
    前記分割手段が、文書を単語に分割して生成した単語群に含まれる複合語をさらに単純語に分割し、
    前記特定手段が、前記複合語の階層位置を、前記シソーラスに含まれる前記単純語の階層位置のひとつ下の階層位置と特定することを特徴とする文書処理装置。
  7. 請求項6に記載の文書処理装置において、
    前記分割手段が、
    文字列を単語に分割する場合に参照する辞書を、基本的な単語を含む基本辞書と、前記基本辞書よりも多くの単語を含む詳細辞書との間で切り替え可能であり、
    前記詳細辞書を参照して処理対象の文書を構成する文字列を単語に分割し、前記基本辞書を参照して前記複合語を前記単純語に分割することを特徴とする文書処理装置。
  8. 請求項6または請求項7に記載の文書処理装置において、
    前記特定手段が、
    前記シソーラスに含まれる前記単純語が複数存在する場合に、
    前記複合語の階層位置を、前記シソーラスに含まれる前記単純語のうちで、前記複合語の中で最後方に位置する単純語の階層位置のひとつ下の階層位置と特定することを特徴とする文書処理装置。
  9. 請求項1ないし請求項8のいずれかに記載の文書処理装置において、
    前記分割手段が文字列を単語に分割する場合に参照する辞書に異表記の対応の情報が保持されており、
    前記分割手段が、当該異表記の対応の情報を参照して、異表記語を同一の単語として処理することを特徴とする文書処理装置。
  10. 請求項9に記載の文書処理装置において、
    前記抽出手段が、前記分割手段により同一の単語として処理された異表記語の表記を特定の表記に統一して抽出することを特徴とする文書処理装置。
  11. 請求項1ないし請求項10のいずれかに記載の文書処理装置において、
    前記分割手段により生成された単語群に含まれる単語の重み指標値を算出し、
    前記特定手段が、所定値以上の重み指標値を有する単語のみ処理の対象とすることを特徴とする文書処理装置。
  12. 請求項1ないし請求項10のいずれかに記載の文書処理装置において、
    前記分割手段により生成された単語群に含まれる単語のうち、前記抽出手段により抽出されなかった単語を前記シソーラスに追加可能であることを特徴とする文書処理装置。
JP2004361383A 2004-12-14 2004-12-14 文書処理装置 Pending JP2006171969A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004361383A JP2006171969A (ja) 2004-12-14 2004-12-14 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004361383A JP2006171969A (ja) 2004-12-14 2004-12-14 文書処理装置

Publications (1)

Publication Number Publication Date
JP2006171969A true JP2006171969A (ja) 2006-06-29

Family

ID=36672673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004361383A Pending JP2006171969A (ja) 2004-12-14 2004-12-14 文書処理装置

Country Status (1)

Country Link
JP (1) JP2006171969A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008052544A (ja) * 2006-08-25 2008-03-06 Konica Minolta Medical & Graphic Inc データベースシステム、プログラム、画像検索方法、及びレポート検索方法
EP3432161A1 (en) 2017-07-20 2019-01-23 Hitachi, Ltd. Information processing system and information processing method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008052544A (ja) * 2006-08-25 2008-03-06 Konica Minolta Medical & Graphic Inc データベースシステム、プログラム、画像検索方法、及びレポート検索方法
EP3432161A1 (en) 2017-07-20 2019-01-23 Hitachi, Ltd. Information processing system and information processing method
US11301441B2 (en) 2017-07-20 2022-04-12 Hitachi, Ltd. Information processing system and information processing method

Similar Documents

Publication Publication Date Title
JP4342575B2 (ja) キーワード提示のための装置、方法、及びプログラム
RU2696305C2 (ru) Браузинг изображений через интеллектуально проанализированные связанные гиперссылкой фрагменты текста
GB2492198A (en) Using a dynamically-generated content-level newsworthiness rating to provide content recommendations
WO2016121048A1 (ja) 文章生成装置及び方法
JP2007072646A (ja) 検索装置、検索方法およびプログラム
KR20150032164A (ko) 심층적 문서 분석에 기초한 능동적 지식 안내
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP2007219929A (ja) 感性評価システム及び方法
JP2007140603A (ja) アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム
JP5493779B2 (ja) 情報検索プログラム及び情報検索装置
KR20110035001A (ko) 키워드 시각화 장치 및 그 방법
JP2006178599A (ja) 文書検索装置および方法
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2006171969A (ja) 文書処理装置
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP6114090B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
JP2005316590A (ja) 情報検索装置
JP6235632B2 (ja) リアルタイム・ライティング支援装置
JP2011022809A (ja) 重要語抽出方法、装置、プログラム、記録媒体
JP2007026116A (ja) 概念検索システム及び概念検索方法
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP2015095180A (ja) 絞り込み検索のためのクエリ語の選択候補を明示するコンテンツ検索プログラム、装置及び方法
JP2011186692A (ja) 情報検索システムおよび情報検索方法