JP4877930B2 - 文書処理装置及び文書処理方法 - Google Patents

文書処理装置及び文書処理方法 Download PDF

Info

Publication number
JP4877930B2
JP4877930B2 JP2006078801A JP2006078801A JP4877930B2 JP 4877930 B2 JP4877930 B2 JP 4877930B2 JP 2006078801 A JP2006078801 A JP 2006078801A JP 2006078801 A JP2006078801 A JP 2006078801A JP 4877930 B2 JP4877930 B2 JP 4877930B2
Authority
JP
Japan
Prior art keywords
expression
concept
document
concept expression
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006078801A
Other languages
English (en)
Other versions
JP2007257149A (ja
Inventor
哲郎 長束
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2006078801A priority Critical patent/JP4877930B2/ja
Publication of JP2007257149A publication Critical patent/JP2007257149A/ja
Application granted granted Critical
Publication of JP4877930B2 publication Critical patent/JP4877930B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書処理装置及び文書処理方法に関するものである。
近年、大量の文書(テキスト、テキスト情報)の収集及び蓄積が可能となり、それらの情報を活用するためのテキスト処理技術、文書処理技術が開発されている。従来の文書処理技術としては、ユーザの意図に合った文書を検索する文書検索技術、大量の文書集合をいくつかの部分集合に分類する文書分類技術、文書あるいは文書集合から重要な語句を抽出するキーワード抽出技術、キーワード抽出技術に基づいた文書要約技術などがある。
最近ではアンケートデータやコールセンタデータなどの大量のテキストデータを分析することを目的としたテキストマイニング技術なども開発されている。こうした技術ではテキストデータを分析するために、テキストに含まれる概念や話題に基づいてカテゴリに分類し、新たなアイデアや知見を発見し、カテゴリに属するテキストの数を利用して統計的な傾向や関係を分析する。
こうしたテキストデータ分析技術として、言語解析情報に基づいた統計処理を行うことで分析を行うものがある。この際に問題となるのは、異なる表現(言葉)であるが意味が同じ表現を含むテキストの処理である。例えば、コールセンタデータの分析において、「顧客が怒っている」と言う内容を含むテキストデータを処理したい場合に、「怒る」という単語を含むテキストデータだけを処理するのではなく、「腹が立つ」、「頭にくる」、「立腹」、「癪に障る」、「怒髪天を突く」など異なる言葉であるが同じ意味の表現を含むテキストデータも同じ内容のテキストデータとして処理しなければならない。そうでなければ統計的な分析の精度や正確性などに問題が生じる。
異なる言葉であるが同じ意味を表す言葉に関する情報を扱うための技術として同義語辞書、関連語辞書、シソーラス辞書などがある。これらは単語や語句を意味的に分類し、体系付けたものである。前述のテキストデータ分析技術においても、シソーラス辞書やカテゴリ辞書を利用している。しかしながら、前述のテキストデータ分析技術で利用するシソーラス辞書やカテゴリ辞書はあくまで単語(あるいは複合語)間の関係を記述したものであり、「怒る」と同じ意味を表す表現として「腹が立つ」、「頭にくる」、「癪に障る」、「怒髪天を突く」といった、複数の単語により1つの意味を表す表現を記述して利用することはできなかった。そのために「ある内容を含むテキストデータの数」といった統計的数値に不正確さがあり、これらの情報を元に統計的分析を行った結果に関しても、その精度や正確性に問題がある。
これに対し、複数の単語で表される概念を扱うことができる概念表現方法が提案されている(例えば、特許文献1参照)。この概念表現方法を利用すると複数の単語で表されるフレーズも1つの概念表現として扱うことができる。この概念表現方法を用いてシソーラス辞書を構成すれば、「怒る」、「腹が立つ」、「頭にくる」、「立腹」、「癪に障る」、「怒髪天を突く」などの表現を同じ意味の概念表現であると記述することができ、前記問題を改善することが期待される。更に、前記概念表現方法を適用し、テキスト集合を分析する際に、ユーザが文書集合に含まれる概念表現を自由に探索し、必要な概念表現を用いて文書カテゴリを生成することを支援しているものがある(例えば、特許文献2参照)。また、前記概念表現方法を適用し、対象データをマルチフィールドデータに拡張すること、あるいは既存のカテゴリ定義の再利用を可能にしているものがある(例えば、特許文献3参照)。
特開2005−063030号公報 特開2004−334602号公報 特開2004−303198号公報
しかしながら、従来の文書処理装置及び文書処理方法においては、前述の概念表現方法を適用したシソーラス辞書に基づいて、同義表現や関連表現を検索し、複数の異なる概念表現を1つの概念表現として扱うと共に、ユーザの使い勝手に配慮してより実用的な文書処理を行う点について、更に改善の余地がある。
本発明は、従来の問題を解決するためになされたもので、複数の単語で表される概念を表現する概念表現方法を用い、概念間の意味的な関係を辞書として利用することができ、テキストデータ分析における統計分析の精度向上、あるいは文書検索の精度向上に好適な文書処理装置及び文書処理方法を提供することを目的とする。
本発明は、前記特許文献1に記載の概念表現方法により表現された概念により構成される概念表現シソーラス辞書をもち、概念表現シソーラス辞書に基づいて、同義表現や関連表現を検索し、複数の異なる概念表現を1つの概念表現として扱うようにしている。
請求項1に係る本発明の文書処理装置は、文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係に基づいて文書データを処理する文書処理装置であって、処理対象となる文書データの集合を取得する文書データ取得手段と、前記文書データ取得手段により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手段と、前記言語処理手段により抽出された概念表現を表示する概念表現表示手段と、前記文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶手段と、前記概念表現シソーラス辞書から概念表現を検索する辞書検索手段と、前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手段と、前記概念表現抽出手段により抽出された同義表現グループ概念表現を表示する概念表現表示手段と、を備えた構成を有している。
請求項2に係る本発明の文書処理装置は、請求項1において、前記文書データ取得手段により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手段と、前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手段と、前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手段と、を備えた構成を有している。
請求項に係る本発明の文書処理装置は、請求項1又は請求項2において、前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手段と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現表示手段と、を備え、前記辞書検索手段は、前記同義関連概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手段は、前記辞書検索手段の検索結果を表示するようにした構成を有している。
請求項に係る本発明の文書処理装置は、請求項1から請求項のいずれか1項において、前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手段と、前記拡張概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手段と、を備え、前記概念表現表示手段は、前記拡張概念表現検索手段の検索結果を表示するようにした構成を有している。
請求項に係る本発明の文書処理装置は、請求項2から請求項のいずれか1項において、前記文書カテゴリ生成手段により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手段を備えた構成を有している。
請求項6に係る本発明の文書処理方法は、文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係を登録した概念表現シソーラス辞書を用いて文書データを処理する文書処理装置の記憶部に記憶されているプログラムを実行することによりCPUが、処理対象となる文書データの集合を取得する文書データ取得手順と、前記文書データ取得手順により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手順と、前記言語処理手順により抽出された概念表現を表示する概念表現表示手順と、前記概念表現シソーラス辞書から概念表現を検索する辞書検索手順と、前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手順と、前記概念表現抽出手順により抽出された同義表現グループ概念表現を表示する概念表現表示手順と、を実行している。
請求項7に係る本発明の文書処理方法は、請求項6において、前記文書データ取得手順により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手順と、前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手順と、前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手順と、を実行している。
請求項8に係る本発明の文書処理方法は、請求項6又は請求項7において、前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手順と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現指定手順と、を実行し、前記辞書検索手順では、前記同義関連概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手順では、前記辞書検索手順の検索結果を表示している。
請求項9に係る本発明の文書処理方法は、請求項6から請求項8のいずれか1項において、前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手順と、前記拡張概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手順と、を実行し、前記概念表現表示手順では、前記拡張概念表現検索手順の検索結果を表示している。
請求項10に係る本発明の文書処理方法は、請求項7から請求項9のいずれか1項において、前記文書カテゴリ生成手順により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手順を実行している。
本発明は、処理対象となる文書データの集合を取得する文書データ取得手段と、前記文書データ取得手段により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手段と、前記言語処理手段により抽出された概念表現を表示する概念表現表示手段と、前記文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶手段と、前記概念表現シソーラス辞書から概念表現を検索する辞書検索手段と、を設けることにより、従来の単語間の意味的な関係ではなく、複数の単語で表される概念間の意味的な関係を概念表現シソーラス辞書として利用することができ、テキストデータ分析における統計分析の精度向上、あるいは文書検索の精度向上に好適であり、より実用的な文書処理装置を提供することができる。
以下、本発明の実施形態に係る文書処理装置及び文書処理方法について、図面を用いて説明する。
[概念表現方法]
本発明の実施形態に適用する係り受け解析及び概念表現の例を図1、図2、図3、図4に示す。ここで、図1は、文書処理における係り受け解析結果の例である。図2は、図1の文書データから生成することのできる概念表現の例である。図3は、基本単位間の関係を表す概念表現の例である。図4は、概念表現の拡張検索結果の例である。なお、前記概念表現については前記特許文献1に詳述されている。
前記特許文献1に記載の概念表現は、文書データ(テキストデータ)を言語解析した結果得られる文節あるいは文節間関係情報に基づいている。言語解析としては、例えば形態素解析、文節係り受け解析を利用することができる。形態素解析は文書データに含まれる単語を分析する。係り受け解析は、文書データに含まれる文節を解析し、文節間の関係として係りと受けの関係にある文節を解析する。例えば「ソフトウェアのインストールが正常に実行できない」という文書データを言語解析すると、図1のような情報を得ることができる。
図1において、「自」は自立語を、「付」は付属語を表す。自立語は動詞、形容詞、名詞などの品詞の単語であり、付属語とは助詞、助動詞などの品詞の単語である。通常文節は1個の自立語と、0又は1個以上の付属語で構成される。解析方法によっては、1文節に複数個の自立語が含まれるような結果を出すものもあるが、ここでは、文節にはかならず1個のみの自立語しか含まないように文節を生成する解析方法を利用するものとする。
概念表現は、概念表現の基本単位と基本単位間の関係表現により表現される。概念表現の基本単位は、トークン及び意図表現を利用して表現される。トークンはそれ自体で1つの意味をあらわす単語であり、自立語を利用することができる。例えば、図1では、「ソフトウェア」、「インストール」、「正常」、「実行」がトークンとなる。トークンの表現はトークンの表記を利用することもできるし、トークンの代表的表記に変換したものを利用することもできる。一方、意図表現とは、文節内の単語による意味の付加を表す表現であり、単語のある特定の表現パターンを抽出することで、その文節に付加されている意図を解析する。例えば、「〜ない(助動詞)」「〜ず(助動詞)」という表現は「打消」の意味を、「〜できる(補助動詞)」という表現は「可能」の意味を、「〜たい(助動詞)」という表現は「要望」の意味を、文節に対して付加しているとすることができる。例えば、図1の「実行できない」という文節から「可能」と「打消」の意図表現が抽出される。意図表現は例えば「(+打消)」「(+可能−打消)」というように表現することができる、ここで「+XX」はその意図表現が付加されていることを、「−XX」はその意図表現が付加されていないことを表している。
概念表現の基本単位は、トークンのみ、意図表現のみ、あるいはトークンと意図表現の組み合わせで表現される。このトークンと意図表現の組み合わせによる概念表現の基本単位は、例えば、図2における「概念表現7」の「「実行(+可能+打消)」に相当する。ここで、トークンと意図表現の組み合わせとは、ある文節に指定されたトークンが含まれていて、かつその文節に指定された意図表現が付加されていることを意味する。
基本単位間の関係は、基本単位間に意味的な強い関係があることを表す。この意味的な強い関係とは、基本的には係り受け関係にある文節に含まれることを表す。基本単位間の関係を「⇒」で表すものとすると、例えば、図2における「概念表現8」の「ソフトウェア⇒インストール」という概念表現は、係り受け関係にある2つの文節において係り文節に「ソフトウェア」が、受け文節に「インストール」がそれぞれ含まれていることを意味する(「ソフトウェアをインストールする」)。基本単位間の関係として文節係り受け関係を利用することで、一般に文書検索などで利用される単語の論理式「ソフトウェア&インストール」のように単に文書データ内の共起出現関係を指定するのではなく、基本単位が文書データ内で意味的に強い関係をもって出現していることを指定することができる。
文節係り受け関係は、ある文節が係り文節になる場合は受け文節は1つのみであるが、複数の係り文節が同じ1つの受け文節に係ることができる。例えば、図1の「文節4」は「文節2」と「文節3」の受け文節となっている。そのため、概念表現における基本単位間の関係の表現は複数の係り文節を持つ受け文節という文節間関係を表現する場合と、しない場合の2通りが可能である。
1)複数の係り文節を持つ受け文節という文節間関係を表現しない場合、概念表現は基本単位の単純な1次元のリスト表現となる。これは例えば、図3の「概念表現例1」に相当する。
2)複数の係り文節を持つ受け文節という文節間関係を表現する場合、概念表現は基本単位のツリー表現となる。これは例えば、図3の「概念表現例2」に相当する。
1)の場合、概念表現はユーザにとって簡単でわかりやすく、表現の拡張などの操作も行いやすいが、複雑な文節係り受け関係構造の表現ができない問題がある。2)の場合、複雑な文節係り受け関係構造も表現できるが、ユーザにとっては複雑でわかりにくく、操作も行いにくいと考えられる。1)、2)とも利用することができるが、以降の実施形態では、ユーザにとってわかりやすく操作もしやすい、1)の概念表現方法を用いて説明する。
更に、前述の概念表現に基づいて、指定された概念表現を拡張した概念表現を文書データから抽出する概念検索方法がある。例えば、図2における「概念表現9」の「インストール⇒実行」が指定された場合、「インストール⇒実行」が含まれる概念表現として図2における「概念表現10」から「概念表現12」、「概念表現17」から「概念表現20」を抽出し、図4に示す「拡張概念表現1」から「拡張概念表現7」とする。すなわち、図1の文書データに含まれる概念表現(図2に示す)から所望の基本単位を含む概念表現を拡張概念として抽出する。
[第1の実施形態]
本発明の第1の実施形態に係る文書処理装置を図5に示す。これは、前記特許文献1に記載の概念表現方法を適用した概念表現シソーラス辞書を備え、この概念表現シソーラス辞書に基づいて同義表現や関連表現を検索し、複数の異なる概念表現を1つの概念表現として扱うものである。
図5において、文書処理装置1は、言語処理部42における文書データ構造生成部430(図11に示す)により生成された文書データ構造を記憶する文書データ構造記憶部10と、言語処理部42における概念表現抽出部440(図11に示す)により抽出された概念表現に対してユニークな識別番号(ID)を付与し、例えば出現文書数、出現頻度の情報と共に記憶して管理する概念表現記憶部20と、前述の概念表現間の意味的な関係を表す概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶部30と、入力された文書データに対して各種処理を行う文書処理部40と、ユーザの操作に基づいて文書処理に関する指定を受け付けて入力する指定受付部50と、文書処理結果などを表示するためのディスプレイ60と、を有する構成である。
また、図5において、文書処理部40は、文書処理対象の文書データ(文書集合データ)を入力する文書データ取得部41と、概念表現の抽出及び拡張概念表現の検索を行う言語処理部42と、概念表現シソーラス辞書を用いて、指定された概念表現の同義表現や関連表現を検索する辞書検索部43と、例えば、辞書検索部43の検索結果をディスプレイ60に表示させる概念表現表示部44と、を有している。
ここで、文書データ取得部41は、文書集合データに対してユニークなIDを付与し、言語処理部42に渡す。なお、前記文書集合データは、ユーザの操作で入力するようにしてもよいし、電子ファイル、データベースに格納されているテキストをスキャナなどで読み込むようにしてもよい。
概念表現シソーラス辞書記憶部30は、概念表現シソーラス辞書を記憶して管理する。この概念表現シソーラス辞書は、前述した概念表現間の意味的な関係として例えば、同義、広義、狭義、関連、反義を表すことができるが、本実施形態では同義表現と関連表現を表す概念表現シソーラス辞書を利用する。同義表現とは、同じ意味を表す表現であり、例えば「怒る」という表現に対して、「憤る」「腹を立てる」、「頭に来る」、「癪に障る」などの表現を同義表現とすることができる。関連表現は、同じ意味ではないが意味的に関連する表現であり、例えば「怒る」という表現に対して、「笑う」、「泣く」、「驚く」、「喜ぶ」などの表現を関連表現とすることができる。
概念表現シソーラス辞書の構成要素を図6、図7、図8、図9に示す。概念表現シソーラス辞書では、概念を1つ以上の概念表現の基本単位のリストにより表現する。この表現は、図3における「概念表現例1」に相当する。また、概念表現の基本単位は、図6のように1つのトークン情報(表記、品詞)と、0又は1個以上の意図表現(意図タグ)リストと、を利用して表現される。図7に示すように、概念表現リストは、概念表現シソーラス辞書内で利用する概念表現と、この概念表現に付与された識別番号(概念表現ID)と、からなる。概念表現シソーラス辞書では、概念表現リストに基づいて概念表現を管理している。
また、概念表現シソーラス辞書には、同じ意味を表す同義表現のグループのリスト(同義表現グループリスト)が登録されている。図8に示すように、同義表現グループリストは、同義表現グループID、同義表現グループラベル、所属概念表現IDリストで構成されている。
また、概念表現シソーラス辞書には、関連表現リストが登録されている。図9に示すように、関連表現リストは、概念表現IDと、概念表現IDで指定される概念表現と意味的に関連する概念表現に付与された概念表現IDのリスト(関連概念表現IDリスト)と、同義表現グループIDで指定される概念表現と意味的に関連する同義表現グループに付与された同義表現グループIDのリスト(関連同義表現グループIDリスト)と、で構成されている。
概念表現シソーラス辞書記憶部30では、前述の意図表現リスト、概念表現リスト、同義表現グループリスト、関連表現リストに基づいて、概念表現シソーラス辞書における概念表現間の同義表現関係、関連表現関係の情報を管理している。
また、図5において、辞書検索部43は、指定受付部50を介して例えば「怒る」という概念表現が指定された場合、概念表現シソーラス辞書に登録された図7の概念表現リスト、図8の同義表現グループリスト、図9の関連表現リストに基づいて同義表現や関連表現を検索し、図10に示す同義表現(同義概念表現)及び関連表現(関連概念表現)を取得する。ここで、関連表現については、関連する概念表現だけでなく、関連する同義概念表現グループの情報を取得するようにしてもよい。
次に、言語処理部42の構成を図11に示す。
図11において、言語処理部42は、文書データに対して形態素解析と係り受け解析を行う言語解析部420と、言語解析部420の解析結果に基づいて文書データのデータ構造を変換する文書データ構造生成部430と、文書データ構造生成部430で生成したデータ構造を利用して文書データに含まれる概念表現を抽出する概念表現抽出部440と、指定された概念表現を拡張した概念表現を文書データから抽出する拡張概念表現検索部450と、を有している。
ここで、言語解析部420では、形態素解析を行う場合、文書データ集合の文書データに含まれる単語を解析する。また、係り受け解析を行う場合、文書データに含まれる文、文節を解析し、文節間の関係として係りと受けの関係にある文節を解析する。例えば、「ソフトウェアのインストールが正常に実行できない。」という文に対して形態素解析及び係り受け解析を行い、図1に示す解析結果を取得する。
文書データ構造生成部430では、言語解析部420の解析結果に基づいて各文書データを所定のデータ構造に変換する。ここでは、図12に示すように、「文書」、「文」、「文節」の木構造に変換している。また、データ構造の構成要素ごとに各種情報を付与する(図13に示す)。更に、図14に示すように、文書データに含まれる単語に対してユニークな識別子を付与した単語リストを生成する。ここで、文書データ構造生成部430は、単語リストの品詞情報や全体における出現頻度あるいは出現文書数を算出しておくこともできる。前記単語リスト、前記データ構造は、文書データ構造記憶部10が記憶して管理する。
図13に示すように、前記データ構造の構成要素としての「文書」(図13(a)に相当する)は、文書データに含まれる文IDリストを管理し、同じく「文」は自分の文IDと、自分の文に含まれる文節IDリストと、を管理する。同じく「文節」は自分の文節IDと、文節に含まれる単語の単語IDリストと、係り文節IDリストと、受け文節IDと、を管理する。ここで、単語IDは、図14の単語リストにおける単語IDである。係り文節IDリストは、当該文節を受けとする係り文節のIDである。前記例にもあるように、1つの受け文節に対して複数の文節が係り文節となり得るので、係り文節IDリストで管理する。受け文節IDは、当該文節が係り文節となる受け文節のIDである。係り文節は受け文節を1つしかとることができない。ここで、文節が管理する情報として、係り受けの関係の種類を保持することも可能である。例えば、連体修飾なのか連用修飾なのか、などである。また、文節を結ぶ助詞の種類により関係の種類を記述することもできる。
また、図13の意図タグリストは、単語あるいは文節に対して付加的な意味を表す意図タグのデータである。ここでは、文節内の付属語表現などから文書データ構造内の単語あるいは文節に対して付加的な意味を表す意図タグを付与する。この意図タグは、文節内の付属語などが特定の付加的な意味を表している場合に、その意味をタグとして文節に付加するものである。例えば、「打消」「要望」「可能」「疑問」の意味タグは、文節内に所定の単語が出現した場合にその文節に付加する。1つの文節に複数の意図タグがつくこともある。前記意図タグリストにおける意図タグIDの例を図15に示す。なお、概念表現では、例えば「(+打消+可能)」といった表現で意図タグをあらわす。意図タグは単独でも概念表現にもなるし、「実行(+可能+打消)」といったように単語に付加した形でも用いることができる。
また、図11において、概念表現抽出部440は、前記文書データ構造を利用して当該文書データに含まれる概念表現を抽出する際、前処理として予め特定のパターンの概念表現については、文書データに含まれる全種類を抽出しておき、抽出した全種類の情報を元にしてユーザが基本概念表現の探索を行えるようにする。ここでは、「1単語」、「2単語」、「3単語」、「1単語(+意図タグ)」、「意図タグ」の5種類について予め全種類を計算するものとする。概念表現の抽出の際には、その概念表現が出現する文書数、あるいは出現頻度も算出する。また、概念表現抽出部440は、概念表現シソーラス辞書の概念表現リストに登録されている概念表現も抽出し、その概念表現が出現する文書数、あるいは出現頻度も算出する。概念表現抽出部440により抽出された概念表現は、概念表現記憶部20に記憶する。なお、本実施形態で利用する概念表現の抽出方法は、前記特許文献1において詳述されている。
拡張概念表現検索部450は、概念表現記憶部20を利用し、ユーザが指定した概念表現に対して、トークンのみで構成される概念表現の基本単位を1つ追加するパターンの概念表現と、指定された概念表現の末端の概念表現の基本単位の意図タグを追加するパターンの概念表現と、を抽出する。例えば、図1の「ソフトウェアのインストールが正常に実行できない」という文書データについて、「インストール⇒実行」という概念表現が指定された場合、図4の「拡張概念表現1」から「拡張概念表現4」を抽出する。
また、拡張概念表現検索部450は、同義表現グループ概念表現を指定して拡張概念表現検索を行うこともできる(請求項5)。同義表現グループ概念表現が指定された場合、同義表現グループに所属する概念表現すべてについて拡張概念表現検索を行い、その情報を1つにまとめることで拡張検索を行う。例えば、対象概念表現として同義表現グループ概念表現「怒る(同義)」が指定された場合、所属概念表現である、「怒る」「憤る」「頭⇒来る」「癪⇒障る」「腹⇒立つ」について拡張概念表現検索を行う。
ここで、概念表現の基本単位を1つ追加する拡張検索の例を図16に示す。
図16において、(A)は、同義表現グループ概念表現の所属概念表現に対する拡張概念表現検索の結果である。(B)は、(A)の結果を追加した概念表現の基本単位の位置をトークンで並べ替えたものである。(C)は、同義表現グループ概念表現の所属概念表現を同義表現グループラベルで置き換えたものである。(D)は、(C)において同じ概念表現のものをまとめたものである。ここでは、拡張概念表現検索部450の拡張検索の結果として(D)を抽出する。なお、出現頻度が必要な場合は、同じ概念表現をまとめる際にそれぞれの出現頻度の和を計算する。
次に、指定された概念表現の末端の概念表現基本単位の意図タグを追加する拡張検索の例を図17に示す。
図17において、(A)は、同義表現グループ概念表現の所属概念表現に対する拡張概念表現検索の結果である。(B)は、(A)の結果を追加した意図タグで並べ替えたものである。(C)は、同義表現グループ概念表現の所属概念表現を同義表現グループラベルで置き換えたものである。(D)は、(C)において同じ概念表現のものをまとめたものである。ここでは、拡張概念表現検索部450の拡張検索の結果として(D)を抽出する。なお、出現頻度が必要な場合は、同じ概念表現をまとめる際にそれぞれの出現頻度の和を計算する。
更に、図16、図17の拡張検索を併せた場合の検索結果を図18に示す。
拡張概念表現検索部450は、前述のように概念表現の基本単位を1つ追加する拡張検索と、指定された概念表現の末端の概念表現基本単位の意図タグを追加する拡張検索と、を行い、双方の検索結果を合わせて図18の最終的な拡張概念表現の検索結果を取得する。
次に、概念表現抽出部440の構成を図19に示す。
図19において、概念表現抽出部440は、トークン抽出部441と、意図表現抽出部442と、概念表現基本単位間関係抽出部443と、概念表現生成部444と、概念表現基本単位生成部445と、を有している。概念表現基本単位生成部445は、トークン抽出部441と意図表現抽出部442からそれぞれ、トークンと意図表現を受け取り、これらに基づいて概念表現の基本単位を生成する。
ここで、概念表現生成部444は、概念表現シソーラス辞書の同義表現グループを1つの概念表現(同義表現グループ概念表現)として抽出し、概念表現記憶部20に登録する。この同義表現グループ概念表現は、対応する同義表現グループに所属する概念表現を1つに(同義表現グループラベルごとに)まとめたものであり、同義表現グループ概念表現の出現頻度は所属する概念表現の出現頻度の和(もしくは集合和)で表現している。例えば、図7の概念表現リスト、図8の同義表現グループリスト、図9の関連表現リストの情報に基づいて、図20に示す同義表現グループ概念表現を生成する。
以上のように構成された文書処理装置1について、図21を用いてその同義表現検索の手順を説明する。
文書処理部40において、辞書検索部43は、指定受付部50を介して指定された概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ(S101、S102)、登録されていれば概念表現IDを取得して(S103)、S104へ進み、登録されていなければ処理を終了する。
次いで、辞書検索部43は、S104で取得した同義表現グループIDに基づいて、同義表現グループリストに登録されている同義表現グループに対し、所属概念表現IDリストにS103で取得した概念表現IDを含むかどうかを調べ(S105)、含んでいたら同義表現グループIDを取得する(S106)。
この後、辞書検索部43は、同義表現グループリストに登録されているすべての同義表現グループに対して、S105、S106の処理を行う(S107、S108)
次に、前述のように構成された文書処理装置1について、図22を用いてその関連表現検索の手順を説明する。
文書処理部40において、辞書検索部43は、指定受付部50を介して指定された概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ(S201、S202)、登録されていれば概念表現IDを取得し(S203)、S204へ進み、登録されていなければ処理を終了する。
S204において、辞書検索部43は、関連表現リストにおいて、S203で取得した概念表現IDと同じ概念表現IDを探し、見つかったら、その概念表現IDに対応する関連概念表現IDリストと関連同義表現グループIDリストを取得する(S205、S206)。
次いで、辞書検索部43は、関連同義表現グループIDリストに未処理の関連同義表現グループIDがある場合には、関連同義表現グループIDに所属する概念表現IDを関連概念表現IDリストに追加する(S207、S208)。この後、関連同義表現グループIDリストのすべての同義表現グループに対してS206〜S208の処理が行われると、同義表現検索を終了する。
次に、前述のように構成された文書処理装置1について、図23を用いてその同義表現グループ概念表現の生成手順を説明する。
概念表現抽出部440において、概念表現生成部444は、概念表現シソーラス辞書の同義表現グループリストに登録されている1つの同義表現グループの所属概念表現IDリストを取得する(S301)。
次いで、概念表現生成部444は、その所属概念表現IDリストにある概念表現が、概念表現記憶部20に登録されているかを調べる(S302)。ここで、所属概念表現IDリストにある概念表現が1つ以上登録されていれば、その概念表現に対応する同義表現グループを同義表現グループ概念表現として概念表現記憶部20に登録する(S303)。
この後、概念表現生成部444は、S301からS303の処理を概念表現シソーラス辞書の同義表現グループリストに登録されているすべての同義表現グループに対して行う(S304)。
ここで、概念表現表示部44の概念表現表示例を図24から図26に示す。
概念表現表示部44は、指定受付部50を介して受け付け入力されたユーザの指定に基づいて、言語処理部42で抽出された概念表現をディスプレイ60の画面に表示させる。この画面において、ユーザは図24の基本概念表現ブラウザ61により、例えば抽出された概念表現を参照、あるいは拡張概念表現検索結果を参照することで概念表現を探索するようになっている。図24において、基本概念表現ブラウザ61には、基本概念表現表示領域65と、拡張概念表現表示領域66、67と、カテゴリリスト表示領域62と、ワークスペース63と、テキストブラウザ64と、が設定されている。基本概念表現表示領域65には、基本概念表現と、この基本概念表現が含まれている文書データの数を記す出現文書数と、この基本概念表現の品詞が表示される。拡張概念表現表示領域66、67には、基本概念表現表示領域65に表示される概念表現のうち、ユーザから指定された概念表現に基づいて生成された拡張概念表現が表示される。カテゴリリスト表示領域62、ワークスペース63には、文書カテゴリ生成部92(図29に示す)によって生成された文書カテゴリのカテゴリリストが表示される。ワークスペース63には、文書カテゴリがグラフィカル表示される。テキストブラウザ64には、文書カテゴリ生成部92によって生成された文書カテゴリに分配された文書データが表示される。また、対象カテゴリ指定の入力欄68に、ユーザの指定操作に基づいて対象となるカテゴリが入力されると、このカテゴリに所属する文書データで構成される文書集合に含まれる概念表現が表示される。また、概念表現表示部44は、ユーザの指定に基づいて、図25に示すように同義表現グループの概念表現としてラベルだけをディスプレイ60の画面に表示させる。同じく、図26に示すように同義表現グループのラベルと所属概念表現を表示する。
このような本発明の第1の実施形態に係る文書処理装置1によれば、文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係に基づいて文書データを処理する構成において、処理対象となる文書データの集合を取得する文書データ取得部41(文書データ取得手段に相当する)と、ここで取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理部42(言語処理手段に相当する)と、ここで抽出された概念表現を表示する概念表現表示部44及びディスプレイ60(概念表現表示手段に相当する)と、文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶部30(概念表現シソーラス辞書記憶手段に相当する)と、概念表現シソーラス辞書から概念表現を検索する辞書検索部43(辞書検索手段に相当する)と、を備えた構成を有している。この構成は、請求項1、請求項7に係る本発明の実施の一形態に相当する。
この構成により、従来の単語間の意味的な関係ではなく、複数の単語で表現される概念間の意味的な関係を概念表現シソーラス辞書として利用することができるので、テキストデータ分析における統計分析の精度向上、あるいは文書検索の精度向上に役立つ。例えば、言語処理部42により抽出された概念表現を、辞書検索部43が概念表現シソーラス辞書から検索することで、容易に同義の概念表現に係る文書を取得することができる。また、概念表現表示部44は、文書データから抽出された概念表現をディスプレイ60の画面に表示するので、ユーザは容易にその概念表現を確認することができ、使い勝手が向上する。
また、本実施形態によれば、概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出部440(概念表現抽出手段に相当する)と、概念表現抽出部440により抽出された同義表現グループ概念表現を表示する概念表現表示部44及びディスプレイ60(概念表現表示手段に相当する)と、を備えた構成を有している。この構成は、請求項3、請求項9に係る本発明の実施の一形態に相当する。
この構成により、同義表現グループに所属する概念表現に対応する文書の検索精度が高まる。また、概念表現表示部44は、同義表現グループ概念表現をディスプレイ60の画面に表示させるので、ユーザの使い勝手が向上する。
また、本実施形態によれば、概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための指定受付部50、概念表現表示部44及びディスプレイ60(拡張概念表現指定手段に相当する)と、この指定に基づいて、概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、処理対象となる文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索部450(拡張概念表現検索手段に相当する)と、を備え、概念表現表示部44は、拡張概念表現検索部450の検索結果をディスプレイ60の画面に表示させるようにした構成を有している。この構成は、請求項5、請求項11に係る本発明の実施の一形態に相当する。
この構成により、概念表現シソーラス辞書を用い、ユーザの指定に基づいて拡張概念表現検索を行い、更に拡張概念表現検索の結果をディスプレイ60の画面に表示させるので、ユーザの使い勝手が向上する。
なお、前述した実施形態では図示していないが、本発明の文書処理装置1をパーソナルコンピュータ(例えば、CPU、RAM、ROM、HDDなどの記憶部、通信部、液晶ディスプレイなどの表示部、キーボード、ポインティングデバイスなどの操作部を有する)で構成し、パーソナルコンピュータを前述の文書データ取得手段、言語処理手段、概念表現表示手段、概念表現シソーラス辞書記憶手段、辞書検索手段、概念表現抽出手段、拡張概念表現指定手段、拡張概念表現検索手段として機能させるようにしても同様の効果が得られるものである。また、図21から図23に示す処理手順、前述の文書データ取得手段、言語処理手段、概念表現表示手段、概念表現シソーラス辞書記憶手段、辞書検索手段、概念表現抽出手段、拡張概念表現指定手段、拡張概念表現検索手段の行う処理手順を前記パーソナルコンピュータに実行させるためのプログラムを前記記憶部に記憶するようにしてもよい。
[第2の実施形態]
次に、本発明の第2の実施形態に係る文書処理装置を図27に示す。これは、第1の実施形態とは、概念表現シソーラス辞書を用い、指定された概念表現の同義表現、関連表現を検索して検索結果を表示するようにした点が相異している。なお、第1の実施形態と同一構成には同一符号を付与して説明を一部省略する。
図27において、辞書検索結果表示部45は、指定受付部50を介して受け付け入力された、概念表現の指定に基づいて辞書検索部43により検索された前記概念表現の同義表現、関連表現をディスプレイ60の画面に表示させるものである。
ここで、辞書検索ダイアログ例を図28に示す。
例えば、ユーザの操作に基づいて指定受付部50を介し、ディスプレイ60に表示した関連表現検索画面70の検索対象概念表現の入力欄71に概念表現(例えば「怒る」)が入力され、更に検索ボタン72が指示入力されると、辞書検索部43は、前述したように概念表現シソーラス辞書から同義表現、関連表現を検索する。辞書検索結果表示部45は、辞書検索部43の検索結果に基づいて、所定の検索結果欄73、74に検索結果を表示させる。なお、図28(a)の関連表現検索画面70においては、関連表現検索結果の同義表現グループをラベルのみで表示している。また、図28(b)の関連表現検索画面70においては、関連表現検索結果の同義表現グループをラベルと所属概念表現で表示している。本実施形態に限らず、概念表現の指定は、ディスプレイ60に表示されている概念表現を選択することで指定するようにしてもよい。
このような本発明の第2の実施形態に係る文書処理装置1によれば、概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための指定受付部50、辞書検索結果表示部45及びディスプレイ60(同義関連概念表現指定手段に相当する)と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する辞書検索結果表示部45及びディスプレイ60(同義関連概念表現表示手段に相当する)と、を備え、辞書検索部43は、指定受付部50を介しての指定に基づいて、概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、辞書検索結果表示部45は、辞書検索部43の検索結果をディスプレイ60の画面に表示させるようにした構成を有している。この構成は、請求項4、請求項10に係る本発明の実施の一形態に相当する。
この構成により、ユーザに指定された概念表現の同義表現、関連表現を概念表現シソーラス辞書から検索し、ディスプレイ60の画面に表示するので、ユーザの使い勝手が向上する。
なお、前述した実施形態では図示していないが、本発明の文書処理装置1をパーソナルコンピュータ(例えば、CPU、RAM、ROM、HDDなどの記憶部、通信部、液晶ディスプレイなどの表示部、キーボード、ポインティングデバイスなどの操作部を有する)で構成し、パーソナルコンピュータを前述の同義関連概念表現指定手段、同義関連概念表現表示手段として機能させるようにしても同様の効果が得られるものである。
[第3の実施形態]
次に、本発明の第3の実施形態に係る文書処理装置を図29に示す。これは、第1の実施形態とは、例えば、文書カテゴリ生成部92によって文書カテゴリを生成し、生成した文書カテゴリを文書カテゴリ表示部94によって表示させるようにした点が相異している。なお、第1の実施形態と同一構成には同一符号を付与して説明を一部省略する。
ここで、文書カテゴリとは、所属文書の基準となるカテゴリ定義を持ち、定義に基づいて集められた文書をメンバーとする文書グループである。この文書カテゴリを文書カテゴリ記憶部80が記憶、管理するための情報を図30に示す。図30に示すように、文書カテゴリは、カテゴリID 、カテゴリ定義、所属文書IDリスト、所属文書数、カテゴリラベルによって管理されている。なお、カテゴリラベルはユーザに入力を求めるようにしてもよい。また、カテゴリ定義は、カテゴリID、所属文書IDリスト、所属文書数、カテゴリラベルとは別途管理している。
図29において、文書処理部40は、前述の文書カテゴリを生成する文書カテゴリ生成部92と、文書カテゴリ生成部92により生成された文書カテゴリをシソーラス辞書に登録する辞書登録部91と、文書カテゴリ生成部92により生成された文書カテゴリを記憶する文書カテゴリ記憶部80と、文書カテゴリ生成部92により生成された文書カテゴリをディスプレイ60に表示させる文書カテゴリ表示部94と、指定された概念表現を含む文書データを生成する文書データ生成部93と、文書データ生成部93により生成された文書データをディスプレイ60に表示させる文書データ表示部95と、を有している。
ここで、文書カテゴリ生成部92は、概念表現カテゴリ、複合カテゴリ、データID指定カテゴリの3種類の文書カテゴリを生成する。
まず、概念表現カテゴリは、概念表現を定義するカテゴリである。ユーザは、概念表現表示部44によってディスプレイ60に表示させた所定の画面から概念表現を指定し、文書カテゴリを生成することができる。例えば、前記所定の画面からカテゴリ化の操作がユーザにより行われ、指定受付部50を介して概念表現が指定入力された場合、文書カテゴリ生成部92は、指定された概念表現をカテゴリ定義とし、その概念表現を含むフィールドデータを持つ文書を所属メンバーとする文書カテゴリを生成する。文書カテゴリ生成部92は、文書データ構造記憶部10に記憶されている文書データ構造に基づいて、指定された概念表現を含む文書データを抽出し、その文書データを文書カテゴリの所属文書とする。
また、複合カテゴリは、既存のカテゴリの論理式を定義するカテゴリである。ユーザは、概念表現表示部44によってディスプレイ60に表示させた所定の画面に対し、所定の操作を行うことで複合カテゴリを作成することができる。例えば、ユーザが図24に示すカテゴリリスト62、ワークスペース63に対する操作を行い、既存のカテゴリの組み合わせを指定することで複合カテゴリを生成することができる。カテゴリの組み合わせは、既存カテゴリのカテゴリIDの論理演算式で表すことができる。本実施形態では、複合カテゴリとして、「複合ANDカテゴリ」、「複合ORカテゴリ」、「複合NOTカテゴリ」を生成することができるものとする。
複合ANDカテゴリは、指定されたカテゴリIDのANDをとるカテゴリである。例えば、「カテゴリ1」、「カテゴリ3」、「カテゴリ5」が指定されている場合、複合ANDカテゴリのカテゴリ定義は「1AND3AND5」となり、所属テキストは3つのカテゴリの所属テキスト集合の積集合となる。
複合ORカテゴリは、指定されたカテゴリIDのORをとるカテゴリである。例えば、
「カテゴリ1」、「カテゴリ3」、「カテゴリ5」が指定されている場合、複合ORカテゴリのカテゴリ定義は「1OR3OR5」となり、所属テキストは3つのカテゴリの所属テキスト集合の和集合となる。
複合NOTカテゴリは、指定されたカテゴリIDのNOTをとるカテゴリである。例えば、「カテゴリ1」、「カテゴリ3」、「カテゴリ5」が指定されている場合、複合NOTカテゴリのカテゴリ定義は「NOT(1OR3OR5)」となり、所属テキストは3つのカテゴリの所属テキスト集合の和集合の否定となる。
更に、データID指定カテゴリは、文書IDリストを定義するカテゴリである。本実施形態では、ユーザが任意に作成できるものではない。しかし、ユーザが文書IDを指定することでデータID指定カテゴリを生成できるようにしてもよい。但し、この場合、カテゴリ定義の再利用は同じ対象文書集合内でのみ有効であり、他の対照文書集合に対する再利用、再適用はできないようにする必要がある。すべての定義を再利用可能にするためには、データID指定カテゴリはユーザが作成できないようにした方がよい。
また、図29において、文書カテゴリ表示部94では、文書カテゴリ生成部92により生成された文書カテゴリを表示する場合、例えば、図24に示すカテゴリリスト62のようなリスト表示、あるいはワークスペース63のようなグラフィカル表示とする。
文書データ表示部95は、ユーザが指定した概念表現を含む文書データを表示する場合、例えば、ディスプレイ60の所定の画面上に図24に示すデータブラウザ64を表示させる。ここでは、言語処理部42の概念表現抽出部440が、文書データ構造記憶部10に記憶されている文書データ構造に基づいて、指定された概念表現を含む文書データを抽出し、文書データ表示部95がディスプレイ60画面上のデータブラウザ64に、概念表現抽出部440により抽出された文書データを表示させる。
また、文書データ表示部95は、文書カテゴリ表示部94がディスプレイ60に表示させた画面上でユーザが指定したカテゴリに属する文書を、ディスプレイ60の画面に表示させることができる。ここでは、文書データ生成部93が、文書カテゴリ記憶部80に記憶されているカテゴリ情報(図30に示す)に基づいて、所属文書IDリストから指定されたカテゴリ(カテゴリ定義)に属する文書IDを検出し、文書データ構造記憶部10に記憶されている文書データ構造に基づいて、検出した文書IDに対応する文書データを抽出する。文書データ表示部95は、文書データ生成部93により抽出された文書データをディスプレイ60画面上に表示させる。
以上のように構成された文書処理装置1について、図31を用いてその辞書登録の手順を説明する。ここでは、文書カテゴリのうち、複合OR文書カテゴリを概念表現シソーラス辞書に登録する場合を示す。
文書処理部40において、辞書登録部91は、指定受付部50を介して指定された、登録対象となる文書カテゴリを入力する(S401)。
次いで、辞書登録部91は、指定された文書カテゴリが複合ORカテゴリであるかを判断し(S402)、複合ORカテゴリでない場合は処理を終了する。ここで、指定された文書カテゴリが複合ORカテゴリである場合、辞書登録部91は、指定受付部50を介して指定された登録種別を入力する(S403)。
次いで、辞書登録部91は、指定された登録種別に基づいて、文書カテゴリを「関連表現」として登録するか、「同義表現」として登録するかを判断する(S404)。ここで、「同義表現」として登録する場合はS405に進み、「関連表現」として登録する場合にはS410に進む。
S405(同義表現登録)において、辞書登録部91は、対象文書カテゴリの構成メンバーであるカテゴリのうち、すべての基本概念表現カテゴリに対してカテゴリ定義である概念表現を取得し、概念表現シソーラス辞書において、取得した概念表現が含まれている同義表現グループを検索する。
次いで、辞書登録部91は、指定受付部50を介して指定された、登録対象となる同義表現グループの情報を入力する(S406)。更に、登録対象となる同義表現グループの指定に基づいて、辞書登録部91は、登録対象となる文書カテゴリの情報を、新規の同義表現グループとして登録するのか、それとも同義表現グループ検索で検索された既存の同義表現グループのどれか1つに登録するのかを判断する(S407)。ここで、新規の同義表現グループとして登録する場合は、新規同義表現グループ生成処理(S408)に進み、既存同義表現グループとして登録する場合には、同義表現登録処理(S409)に進む。
新規同義表現グループ生成処理(S408)において、辞書登録部91は、概念表現シソーラス辞書に新規同義語表現グループを作成する。この際、カテゴリラベルとして登録対象カテゴリのものを入力してもよいし、ユーザに指定させてもよい。所属概念表現IDリストには何も登録しない。
同義表現登録処理(S409)において、辞書登録部91は、登録対象となる文書カテゴリの構成メンバーであるカテゴリのうち、すべての基本概念表現カテゴリに対してカテゴリ定義である概念表現を取得し、取得した概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ、登録されていたらその概念表現IDを取得し、登録されていない概念表現にはユニークなIDを付与して新たに概念表現シソーラス辞書の概念表現リストに登録し、登録した概念表現IDを取得する。
更に、同義表現登録処理(S409)において、辞書登録部91は、登録対象となる同義表現グループの所属概念表現IDリストに、取得した概念表現IDを追加する。ここで、所属概念表現IDリストにIDの重複がある場合は、それを解消する。
また、文書カテゴリを「関連表現」として登録すると判断した場合(S404)、関連表現登録処理(S410)において、辞書登録部91は、登録対象となる文書カテゴリの構成メンバーであるカテゴリのうち、すべての基本概念表現カテゴリに対してカテゴリ定義である概念表現を取得し、取得した概念表現が概念表現シソーラス辞書の概念表現リストに登録されているかを調べ、登録されていたらその概念表現IDを取得し、登録されていない場合はその概念表現にユニークなIDを付与して概念表現シソーラス辞書の概念表現リストに登録し、登録した概念表現IDを取得する。
更に、関連表現登録処理(S410)において、辞書登録部91は、取得した概念表現IDすべてに対して、概念表現シソーラス辞書の関連表現リストの対応する概念表現IDの関連概念表現IDリストに、取得した概念表現IDのうち、自分を除いたすべての概念表現IDを追加する。ここで、関連概念表現IDリストにIDの重複がある場合は、それを解消する。
このような本発明の第3の実施形態に係る文書処理装置1によれば、文書データ取得部41により取得された文書データの集合に含まれる概念表現を指定するための指定受付部50及び概念表現表示部44(概念表現指定手段に相当する)と、ここで指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成部92(文書カテゴリ生成手段に相当する)と、文書カテゴリ生成部92により生成された文書カテゴリを表示する文書カテゴリ表示部94及びディスプレイ60(文書カテゴリ表示手段に相当する)と、を備えた構成を有している。この構成は、請求項2、請求項8に係る本発明の実施の一形態に相当する。
この構成により、ユーザは指定受付部50を介してディスプレイ60の画面上から所望のカテゴリ定義としての概念表現を指定し、このカテゴリ定義に基づいて生成された文書グループを前記画面上で確認することができるので、ユーザの使い勝手が向上する。
また、本実施形態によれば、文書カテゴリ生成部92により生成された文書カテゴリに基づいて、新たな概念表現を概念表現シソーラス辞書に登録する辞書登録部91(辞書登録手段に相当する)を備えた構成を有している。この構成は、請求項6、請求項12に係る本発明の実施の一形態に相当する。
この構成により、文書カテゴリ生成部92により生成された文書カテゴリの情報を概念表現シソーラス辞書に登録することができるので、この概念表現シソーラス辞書を用いたテキストデータ分析や文書検索の精度が向上する。
なお、前述した実施形態では図示していないが、本発明の文書処理装置1をパーソナルコンピュータ(例えば、CPU、RAM、ROM、HDDなどの記憶部、通信部、液晶ディスプレイなどの表示部、キーボード、ポインティングデバイスなどの操作部を有する)で構成し、パーソナルコンピュータを前述の概念表現指定手段、文書カテゴリ生成手段、文書カテゴリ表示手段、辞書登録手段として機能させるようにしても同様の効果が得られるものである。また、図31に示す処理手順、前述の概念表現指定手段、文書カテゴリ生成手段、文書カテゴリ表示手段、辞書登録手段の行う処理手順を前記パーソナルコンピュータに実行させるためのプログラムを前記記憶部に記憶するようにしてもよい。
本発明の第1の実施形態に係る係り受け解析結果を表す図である。 本発明の第1の実施形態に係る概念表現を表す図である。 本発明の第1の実施形態に係る概念表現の構成を説明する図である。 本発明の第1の実施形態に係る概念表現拡張検索を表す図である。 本発明の第1の実施形態に係る文書処理装置のブロック図である。 本発明の第1の実施形態に係る概念表現の基本単位の構成を説明する図である。 本発明の第1の実施形態に係る概念表現リストを表す図である。 本発明の第1の実施形態に係る同義表現グループリストを表す図である。 本発明の第1の実施形態に係る関連表現リストを表す図である。 本発明の第1の実施形態に係る同義表現及び関連表現を表す図である。 本発明の第1の実施形態に係る言語処理部の詳細を表すブロック図である。 本発明の第1の実施形態に係る文書データ構造を表す図である。 本発明の第1の実施形態に係る文書データ構造の構成要素が管理する情報を表す図である。 本発明の第1の実施形態に係る単語リストを表す図である。 本発明の第1の実施形態に係る意図タグリストを表す図である。 本発明の第1の実施形態に係る拡張概念表現検索(基本単位追加)を説明する図である。 本発明の第1の実施形態に係る拡張概念表現検索(意図タグ追加)を説明する図である。 本発明の第1の実施形態に係る拡張概念表現検索を表す図である。 本発明の第1の実施形態に係る概念表現抽出部の詳細を表すブロック図である。 本発明の第1の実施形態に係る同義表現グループの概念表現を表す図である。 本発明の第1の実施形態に係る同義表現検索処理のフローチャートである。 本発明の第1の実施形態に係る関連表現検索処理のフローチャートである。 本発明の第1の実施形態に係る同義表現グループ概念表現の生成処理のフローチャートである。 本発明の第1の実施形態に係る表示画面を表す図である。 本発明の第1の実施形態に係る概念表現(ラベルのみ)の表示画面を表す図である。 本発明の第1の実施形態に係る概念表現(ラベルと所属概念表現)の表示画面を表す図である。 本発明の第2の実施形態に係る文書処理装置のブロック図である。 本発明の第2の実施形態に係る辞書検索ダイアログを表す図である。 本発明の第3の実施形態に係る文書処理装置のブロック図である。 本発明の第3の実施形態に係るカテゴリ情報を表す図である。 本発明の第3の実施形態に係る辞書登録処理のフローチャートである。
符号の説明
1 文書処理装置
10 文書データ構造記憶部
20 概念表現記憶部
30 概念表現シソーラス辞書記憶部
40 文書処理部
41 文書データ取得部
42 言語処理部
43 辞書検索部
44 概念表現表示部
50 指定受付部
60 ディスプレイ

Claims (10)

  1. 文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係に基づいて文書データを処理する文書処理装置であって、
    処理対象となる文書データの集合を取得する文書データ取得手段と、
    前記文書データ取得手段により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手段と、
    前記言語処理手段により抽出された概念表現を表示する概念表現表示手段と、
    前記文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶手段と、
    前記概念表現シソーラス辞書から概念表現を検索する辞書検索手段と、
    前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手段と、
    前記概念表現抽出手段により抽出された同義表現グループ概念表現を表示する概念表現表示手段と、
    を備えたことを特徴とする文書処理装置。
  2. 請求項1に記載の文書処理装置において、
    前記文書データ取得手段により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手段と、
    前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手段と、
    前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手段と、
    を備えたことを特徴とする文書処理装置。
  3. 請求項1又は請求項2に記載の文書処理装置において、
    前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手段と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現表示手段と、を備え、
    前記辞書検索手段は、前記同義関連概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手段は、前記辞書検索手段の検索結果を表示するようにしたことを特徴とする文書処理装置。
  4. 請求項1から請求項3のいずれか1項に記載の文書処理装置において、
    前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手段と、前記拡張概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手段と、を備え、
    前記概念表現表示手段は、前記拡張概念表現検索手段の検索結果を表示するようにしたことを特徴とする文書処理装置。
  5. 請求項2から請求項4のいずれか1項に記載の文書処理装置において、
    前記文書カテゴリ生成手段により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手段を備えたことを特徴とする文書検索装置。
  6. 文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係を登録した概念表現シソーラス辞書を用いて文書データを処理する文書処理装置の記憶部に記憶されているプログラムを実行することによりCPUが、
    処理対象となる文書データの集合を取得する文書データ取得手順と、
    前記文書データ取得手順により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手順と、
    前記言語処理手順により抽出された概念表現を表示する概念表現表示手順と、
    前記概念表現シソーラス辞書から概念表現を検索する辞書検索手順と、
    前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手順と、
    前記概念表現抽出手順により抽出された同義表現グループ概念表現を表示する概念表現表示手順と、
    を実行することを特徴とする文書処理方法。
  7. 請求項6に記載の文書処理方法において、
    文書処理装置の記憶部に記憶されているプログラムを実行することによりCPUが、
    前記文書データ取得手順により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手順と、
    前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手順と、
    前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手順と、
    を実行することを特徴とする文書処理方法。
  8. 請求項6又は請求項7に記載の文書処理方法において、
    文書処理装置の記憶部に記憶されているプログラムを実行することによりCPUが、
    前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手順と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現指定手順と、を実行し、
    前記辞書検索手順では、前記同義関連概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手順では、前記辞書検索手順の検索結果を表示することを特徴とする文書処理方法。
  9. 請求項6から請求項8のいずれか1項に記載の文書処理方法において、
    文書処理装置の記憶部に記憶されているプログラムを実行することによりCPUが、
    前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手順と、前記拡張概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手順と、を実行し、
    前記概念表現表示手順では、前記拡張概念表現検索手順の検索結果を表示するようにしたことを特徴とする文書処理方法。
  10. 請求項7から請求項9のいずれか1項に記載の文書処理方法において、
    文書処理装置の記憶部に記憶されているプログラムを実行することによりCPUが、
    前記文書カテゴリ生成手順により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手順を実行することを特徴とする文書処理方法。
JP2006078801A 2006-03-22 2006-03-22 文書処理装置及び文書処理方法 Expired - Fee Related JP4877930B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006078801A JP4877930B2 (ja) 2006-03-22 2006-03-22 文書処理装置及び文書処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006078801A JP4877930B2 (ja) 2006-03-22 2006-03-22 文書処理装置及び文書処理方法

Publications (2)

Publication Number Publication Date
JP2007257149A JP2007257149A (ja) 2007-10-04
JP4877930B2 true JP4877930B2 (ja) 2012-02-15

Family

ID=38631364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006078801A Expired - Fee Related JP4877930B2 (ja) 2006-03-22 2006-03-22 文書処理装置及び文書処理方法

Country Status (1)

Country Link
JP (1) JP4877930B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5292322B2 (ja) * 2010-01-25 2013-09-18 日本電信電話株式会社 文書検索方法、文書検索装置、文書検索プログラム
JP5358481B2 (ja) * 2010-02-19 2013-12-04 日本電信電話株式会社 文書検索装置、文書検索方法、文書検索プログラム
JP5060601B2 (ja) * 2010-08-03 2012-10-31 株式会社東芝 文書分析装置およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3266586B2 (ja) * 1999-07-07 2002-03-18 インターナショナル・ビジネス・マシーンズ・コーポレーション データ分析システム
JP3925003B2 (ja) * 1999-09-29 2007-06-06 富士ゼロックス株式会社 文書処理装置および文書処理方法
JP2001147937A (ja) * 1999-11-22 2001-05-29 Toshiba Corp 業務支援システム
JP4585768B2 (ja) * 2003-03-18 2010-11-24 株式会社リコー 文書処理装置、文書処理方法および文書処理プログラム
JP4378106B2 (ja) * 2003-05-08 2009-12-02 株式会社リコー 文書検索装置、文書検索方法及びプログラム
JP2005063030A (ja) * 2003-08-08 2005-03-10 Ricoh Co Ltd 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体

Also Published As

Publication number Publication date
JP2007257149A (ja) 2007-10-04

Similar Documents

Publication Publication Date Title
Sawyer et al. Shallow knowledge as an aid to deep understanding in early phase requirements engineering
Mahmood et al. Query based information retrieval and knowledge extraction using Hadith datasets
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
CN115186050B (zh) 基于自然语言处理的选题推荐方法、***及相关设备
Nualart et al. How we draw texts: a review of approaches to text visualization and exploration
JP2011513810A (ja) 用語識別方法および装置
WO2008094970A9 (en) Method and apparatus for creating a tool for generating an index for a document
Ranwez et al. How ontology based information retrieval systems may benefit from lexical text analysis
Malik et al. Text mining life cycle for a spatial reading of Viet Thanh Nguyen's The Refugees (2017)
Wang et al. Mining key information of web pages: A method and its application
Belkebir et al. TALAA-ATSF: a global operation-based arabic text summarization framework
JP4877930B2 (ja) 文書処理装置及び文書処理方法
Angrosh et al. Context identification of sentences in research articles: Towards developing intelligent tools for the research community
Das et al. Emotion tracking on blogs-a case study for bengali
JP2007226843A (ja) 文書管理システム及び文書管理方法
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
Lama Clustering system based on text mining using the K-means algorithm: news headlines clustering
Moulay Lakhdar et al. Building an extractive Arabic text summarization using a hybrid approach
Rybak et al. Machine learning-enhanced text mining as a support tool for research on climate change: theoretical and technical considerations
Zaman et al. Knowledge Mapping for Research Papers
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Batista-Navarro et al. Construction of a Biodiversity Knowledge Repository using a Text Mining-based Framework.
Greene et al. Browsing publication data using tag clouds over concept lattices constructed by key-phrase extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees