JP4877930B2 - 文書処理装置及び文書処理方法 - Google Patents
文書処理装置及び文書処理方法 Download PDFInfo
- Publication number
- JP4877930B2 JP4877930B2 JP2006078801A JP2006078801A JP4877930B2 JP 4877930 B2 JP4877930 B2 JP 4877930B2 JP 2006078801 A JP2006078801 A JP 2006078801A JP 2006078801 A JP2006078801 A JP 2006078801A JP 4877930 B2 JP4877930 B2 JP 4877930B2
- Authority
- JP
- Japan
- Prior art keywords
- expression
- concept
- document
- concept expression
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の実施形態に適用する係り受け解析及び概念表現の例を図1、図2、図3、図4に示す。ここで、図1は、文書処理における係り受け解析結果の例である。図2は、図1の文書データから生成することのできる概念表現の例である。図3は、基本単位間の関係を表す概念表現の例である。図4は、概念表現の拡張検索結果の例である。なお、前記概念表現については前記特許文献1に詳述されている。
1)の場合、概念表現はユーザにとって簡単でわかりやすく、表現の拡張などの操作も行いやすいが、複雑な文節係り受け関係構造の表現ができない問題がある。2)の場合、複雑な文節係り受け関係構造も表現できるが、ユーザにとっては複雑でわかりにくく、操作も行いにくいと考えられる。1)、2)とも利用することができるが、以降の実施形態では、ユーザにとってわかりやすく操作もしやすい、1)の概念表現方法を用いて説明する。
本発明の第1の実施形態に係る文書処理装置を図5に示す。これは、前記特許文献1に記載の概念表現方法を適用した概念表現シソーラス辞書を備え、この概念表現シソーラス辞書に基づいて同義表現や関連表現を検索し、複数の異なる概念表現を1つの概念表現として扱うものである。
次に、前述のように構成された文書処理装置1について、図22を用いてその関連表現検索の手順を説明する。
この後、概念表現生成部444は、S301からS303の処理を概念表現シソーラス辞書の同義表現グループリストに登録されているすべての同義表現グループに対して行う(S304)。
次に、本発明の第2の実施形態に係る文書処理装置を図27に示す。これは、第1の実施形態とは、概念表現シソーラス辞書を用い、指定された概念表現の同義表現、関連表現を検索して検索結果を表示するようにした点が相異している。なお、第1の実施形態と同一構成には同一符号を付与して説明を一部省略する。
次に、本発明の第3の実施形態に係る文書処理装置を図29に示す。これは、第1の実施形態とは、例えば、文書カテゴリ生成部92によって文書カテゴリを生成し、生成した文書カテゴリを文書カテゴリ表示部94によって表示させるようにした点が相異している。なお、第1の実施形態と同一構成には同一符号を付与して説明を一部省略する。
「カテゴリ1」、「カテゴリ3」、「カテゴリ5」が指定されている場合、複合ORカテゴリのカテゴリ定義は「1OR3OR5」となり、所属テキストは3つのカテゴリの所属テキスト集合の和集合となる。
また、本実施形態によれば、文書カテゴリ生成部92により生成された文書カテゴリに基づいて、新たな概念表現を概念表現シソーラス辞書に登録する辞書登録部91(辞書登録手段に相当する)を備えた構成を有している。この構成は、請求項6、請求項12に係る本発明の実施の一形態に相当する。
10 文書データ構造記憶部
20 概念表現記憶部
30 概念表現シソーラス辞書記憶部
40 文書処理部
41 文書データ取得部
42 言語処理部
43 辞書検索部
44 概念表現表示部
50 指定受付部
60 ディスプレイ
Claims (10)
- 文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係に基づいて文書データを処理する文書処理装置であって、
処理対象となる文書データの集合を取得する文書データ取得手段と、
前記文書データ取得手段により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手段と、
前記言語処理手段により抽出された概念表現を表示する概念表現表示手段と、
前記文書に含まれる概念を表現した概念表現を登録する概念表現シソーラス辞書を記憶する概念表現シソーラス辞書記憶手段と、
前記概念表現シソーラス辞書から概念表現を検索する辞書検索手段と、
前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手段と、
前記概念表現抽出手段により抽出された同義表現グループ概念表現を表示する概念表現表示手段と、
を備えたことを特徴とする文書処理装置。 - 請求項1に記載の文書処理装置において、
前記文書データ取得手段により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手段と、
前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手段と、
前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手段と、
を備えたことを特徴とする文書処理装置。 - 請求項1又は請求項2に記載の文書処理装置において、
前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手段と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現表示手段と、を備え、
前記辞書検索手段は、前記同義関連概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手段は、前記辞書検索手段の検索結果を表示するようにしたことを特徴とする文書処理装置。 - 請求項1から請求項3のいずれか1項に記載の文書処理装置において、
前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手段と、前記拡張概念表現指定手段の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手段と、を備え、
前記概念表現表示手段は、前記拡張概念表現検索手段の検索結果を表示するようにしたことを特徴とする文書処理装置。 - 請求項2から請求項4のいずれか1項に記載の文書処理装置において、
前記文書カテゴリ生成手段により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手段を備えたことを特徴とする文書検索装置。 - 文書に含まれる文節情報から抽出されたトークンと意図表現の組み合わせで文書に含まれる概念を表現し、更に文節間の関係情報に基づいて複数の概念表現の関係を表現し、前記トークンと意図表現の組み合わせによる概念表現及び概念表現間の関係を登録した概念表現シソーラス辞書を用いて文書データを処理する文書処理装置の記憶部に記憶されているプログラムを実行することによりCPUが、
処理対象となる文書データの集合を取得する文書データ取得手順と、
前記文書データ取得手順により取得された文書データに対して言語解析処理を行い、文書データに含まれる概念表現を抽出する言語処理手順と、
前記言語処理手順により抽出された概念表現を表示する概念表現表示手順と、
前記概念表現シソーラス辞書から概念表現を検索する辞書検索手順と、
前記概念表現シソーラス辞書に登録されている同義の概念表現グループに基づいて一の概念表現を抽出する概念表現抽出手順と、
前記概念表現抽出手順により抽出された同義表現グループ概念表現を表示する概念表現表示手順と、
を実行することを特徴とする文書処理方法。 - 請求項6に記載の文書処理方法において、
文書処理装置の記憶部に記憶されているプログラムを実行することによりCPUが、
前記文書データ取得手順により取得された文書データの集合に含まれる概念表現を指定するための概念表現指定手順と、
前記概念表現指定手段により指定された概念表現をカテゴリ定義とし、文書データの集合から、前記カテゴリ定義に基づいて文書グループを生成し、文書カテゴリとする文書カテゴリ生成手順と、
前記文書カテゴリ生成手段により生成された文書カテゴリを表示する文書カテゴリ表示手順と、
を実行することを特徴とする文書処理方法。 - 請求項6又は請求項7に記載の文書処理方法において、
文書処理装置の記憶部に記憶されているプログラムを実行することによりCPUが、
前記概念表現シソーラス辞書に登録されている、同義の概念表現及び同義ではないが意味的に関連する概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための同義関連概念表現指定手順と、前記同義の概念表現及び前記関連する概念表現の検索結果を表示する同義関連概念表現指定手順と、を実行し、
前記辞書検索手順では、前記同義関連概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている前記同義の概念表現及び前記関連する概念表現を検索し、前記同義関連概念表現表示手順では、前記辞書検索手順の検索結果を表示することを特徴とする文書処理方法。 - 請求項6から請求項8のいずれか1項に記載の文書処理方法において、
文書処理装置の記憶部に記憶されているプログラムを実行することによりCPUが、
前記概念表現シソーラス辞書に登録されている概念表現を拡張した拡張概念表現を検索するために、文書データの集合に含まれる概念表現を指定するための拡張概念表現指定手順と、前記拡張概念表現指定手順の指定に基づいて、前記概念表現シソーラス辞書に登録されている指定された概念表現を検索して一の同義概念表現にまとめ、前記文書データの集合から前記一の同義概念表現を検索する拡張概念表現検索手順と、を実行し、
前記概念表現表示手順では、前記拡張概念表現検索手順の検索結果を表示するようにしたことを特徴とする文書処理方法。 - 請求項7から請求項9のいずれか1項に記載の文書処理方法において、
文書処理装置の記憶部に記憶されているプログラムを実行することによりCPUが、
前記文書カテゴリ生成手順により生成された文書カテゴリに基づいて、新たな概念表現を前記概念表現シソーラス辞書に登録する辞書登録手順を実行することを特徴とする文書処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006078801A JP4877930B2 (ja) | 2006-03-22 | 2006-03-22 | 文書処理装置及び文書処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006078801A JP4877930B2 (ja) | 2006-03-22 | 2006-03-22 | 文書処理装置及び文書処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007257149A JP2007257149A (ja) | 2007-10-04 |
JP4877930B2 true JP4877930B2 (ja) | 2012-02-15 |
Family
ID=38631364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006078801A Expired - Fee Related JP4877930B2 (ja) | 2006-03-22 | 2006-03-22 | 文書処理装置及び文書処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4877930B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5292322B2 (ja) * | 2010-01-25 | 2013-09-18 | 日本電信電話株式会社 | 文書検索方法、文書検索装置、文書検索プログラム |
JP5358481B2 (ja) * | 2010-02-19 | 2013-12-04 | 日本電信電話株式会社 | 文書検索装置、文書検索方法、文書検索プログラム |
JP5060601B2 (ja) * | 2010-08-03 | 2012-10-31 | 株式会社東芝 | 文書分析装置およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3266586B2 (ja) * | 1999-07-07 | 2002-03-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ分析システム |
JP3925003B2 (ja) * | 1999-09-29 | 2007-06-06 | 富士ゼロックス株式会社 | 文書処理装置および文書処理方法 |
JP2001147937A (ja) * | 1999-11-22 | 2001-05-29 | Toshiba Corp | 業務支援システム |
JP4585768B2 (ja) * | 2003-03-18 | 2010-11-24 | 株式会社リコー | 文書処理装置、文書処理方法および文書処理プログラム |
JP4378106B2 (ja) * | 2003-05-08 | 2009-12-02 | 株式会社リコー | 文書検索装置、文書検索方法及びプログラム |
JP2005063030A (ja) * | 2003-08-08 | 2005-03-10 | Ricoh Co Ltd | 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体 |
-
2006
- 2006-03-22 JP JP2006078801A patent/JP4877930B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007257149A (ja) | 2007-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sawyer et al. | Shallow knowledge as an aid to deep understanding in early phase requirements engineering | |
Mahmood et al. | Query based information retrieval and knowledge extraction using Hadith datasets | |
Jabbar et al. | An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach | |
CN115186050B (zh) | 基于自然语言处理的选题推荐方法、***及相关设备 | |
Nualart et al. | How we draw texts: a review of approaches to text visualization and exploration | |
JP2011513810A (ja) | 用語識別方法および装置 | |
WO2008094970A9 (en) | Method and apparatus for creating a tool for generating an index for a document | |
Ranwez et al. | How ontology based information retrieval systems may benefit from lexical text analysis | |
Malik et al. | Text mining life cycle for a spatial reading of Viet Thanh Nguyen's The Refugees (2017) | |
Wang et al. | Mining key information of web pages: A method and its application | |
Belkebir et al. | TALAA-ATSF: a global operation-based arabic text summarization framework | |
JP4877930B2 (ja) | 文書処理装置及び文書処理方法 | |
Angrosh et al. | Context identification of sentences in research articles: Towards developing intelligent tools for the research community | |
Das et al. | Emotion tracking on blogs-a case study for bengali | |
JP2007226843A (ja) | 文書管理システム及び文書管理方法 | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
JP2008197952A (ja) | テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体 | |
Lama | Clustering system based on text mining using the K-means algorithm: news headlines clustering | |
Moulay Lakhdar et al. | Building an extractive Arabic text summarization using a hybrid approach | |
Rybak et al. | Machine learning-enhanced text mining as a support tool for research on climate change: theoretical and technical considerations | |
Zaman et al. | Knowledge Mapping for Research Papers | |
JP2004220226A (ja) | 検索文書のための文書分類方法及び装置 | |
JP2007011892A (ja) | 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
Batista-Navarro et al. | Construction of a Biodiversity Knowledge Repository using a Text Mining-based Framework. | |
Greene et al. | Browsing publication data using tag clouds over concept lattices constructed by key-phrase extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111124 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |