JP4426893B2 - 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 - Google Patents
文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 Download PDFInfo
- Publication number
- JP4426893B2 JP4426893B2 JP2004119857A JP2004119857A JP4426893B2 JP 4426893 B2 JP4426893 B2 JP 4426893B2 JP 2004119857 A JP2004119857 A JP 2004119857A JP 2004119857 A JP2004119857 A JP 2004119857A JP 4426893 B2 JP4426893 B2 JP 4426893B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- scale expression
- document
- extracted
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1)尺度表現語に隣接して複合語を形成する語:
例えば、「・・熱膨張率が・・」という記述の場合、「率」が尺度表現語で、これに隣接する「熱」「膨張」が尺度表現関連語である。
(2)尺度表現語を修飾する単語:
例えば、「・・室内の温度を・・」の場合、「温度」が尺度表現語で、助詞「の」を伴って「温度」を連体修飾している「室内」が尺度表現関連語である。また、「・・回転する速度が・・」の場合、「速度」が尺度表現語で、「速度」を連体修飾している「回転する」の標準形「回転」が尺度表現関連語である。
(3)尺度表現語を含む文節が修飾する単語:
例えば、「・・温度を検出する・・」の場合、「温度」が尺度表現語で、文節「温度を」が連用修飾している「検出する」の標準形「検出」が尺度表現関連語である。
(1)キーワード品詞リスト171:
キーワードとして抽出される品詞が、普通名詞、サ変名詞、動詞、形容詞、接尾語のみであることを示している。
(2)尺度表現語種類172:
上述した尺度表現語および3種類の尺度表現関連語のうち、どれを用いるかを1/0のフラグで設定する。
(3)尺度表現語重み付与方法(対象属性)173:
尺度表現語に対して、どのような算出方法に基づいて重みを付与するのかを設定する。このパラメータは、重みを算出する演算が施される対象となる属性をTF903、IDF904、重み905のどれにするかを設定する。
(4)尺度表現語重み付与方法(算出方法)174:
尺度表現語に対して、どのような算出方法に基づいて重みを付与するのかを設定する。このパラメータは、上記「尺度表現語重み付与方法(付与対象)173」で指定された属性に対して、下記「尺度表現語重み付与方法(付与値)175」で設定された値を「加算する」か、「掛け合わせる」か、「置換する」のか、の3種類から一つを指定する。
(5)尺度表現語重み付与方法(付与値)175:
尺度表現語に対して、どのような算出方法に基づいて重みを付与するのかを設定する。このパラメータは、「尺度表現語重み付与方法(付与対象)173」で指定された属性に対して、上記「尺度表現語重み付与方法(付与方法)174」で指定された算出方法に基づいて重みを付与する際の値を設定する。図7では、尺度表現語の重み付与は、キーワードテーブル9(図5)に格納されたキーワードの属性のうちの「重み905」に対して、「値3」を「加算する」ように設定されている。
Claims (13)
- 利用者によって入力された入力テキストと、定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置と、前記記憶装置にアクセス可能な中央処理装置とを備えた計算機による、文書検索方法において、
前記中央処理装置が、前記記憶装置内の前記入力テキストを解析してキーワードを抽出するステップと、前記中央処理装置が、前記記憶装置内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するとともに、前記入力テキストにおいて、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語、前記抽出された尺度表現語を含む文節が修飾する語、の内の少なくとも1つに該当する語を尺度表現関連語として抽出するステップと、前記中央処理装置が、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するステップと、前記中央処理装置が、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記中央処理装置が、前記類似度の高い文書を検索結果として出力するステップとを備え、
前記重み算出ルールは、前記尺度表現語用の重み算出ルールと前記尺度表現関連語用の重み算出ルールとを含み、前記尺度表現語用の重み算出ルールおよび前記尺度表現関連語用の重み算出ルールには、重み算出の対象となる尺度表現語の種類と属性と重み算出方法と重みをどの程度付与するかを示す付与値とを含み、
前記キーワードの重みを付与するステップにおいて、前記中央処理装置が、前記記憶装置内の前記尺度表現語用の重み算出ルールに基づいて、前記抽出された尺度表現語の重みを付与し、前記尺度表現関連語用の重み算出ルールに基づいて、前記抽出された尺度表現関連語の重みを付与することを特徴とする文書検索方法。 - 請求項1に記載の文書検索方法において、
前記中央処理装置が、前記抽出された尺度表現語の内の少なくとも一つまたは全てを含む文書を前記記憶装置内の前記文書群から取得するステップをさらに備え、
前記類似度を算出するステップにおいて、前記中央処理装置が、前記取得された文書のみを対象として文書毎に類似度を算出することを特徴とする文書検索方法。 - 請求項1または請求項2に記載の文書検索方法において、前記キーワードを尺度表現語として抽出するのは、当該キーワードを含む文節が定量値を表す語または定量値を定性的に表す語を修飾しているか、定量値を表す語または定量値を定性的に表す語を含む文節が当該キーワードを修飾しているかのいずれかに該当する場合のみとすることを特徴とする文書検索方法。
- 請求項1から請求項3のいずれかに記載の文書検索方法において、前記計算機の入力装置が、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語および前記抽出された尺度表現語を含む文節が修飾する語の内のどれを前記尺度表現関連語として抽出するかの選択を、利用者から受け付けることを特徴とする文書検索方法。
- 請求項1から請求項4のいずれかに記載の文書検索方法において、前記計算機の入力装置が、前記記憶装置内の前記重み算出ルールを、利用者から受け付けることを特徴とする文書検索方法。
- 利用者によって入力された入力テキスト、定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワードとを記憶する記憶装置と、前記記憶装置にアクセス可能な中央処理装置とを備えた計算機による、文書検索方法において、
前記中央処理装置が、前記記憶装置内の前記入力テキストを解析してキーワードを抽出するステップと、前記中央処理装置が、前記記憶装置内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するステップと、前記中央処理装置が、前記抽出された尺度表現語の内の少なくとも一つまたは全てを含む文書を前記記憶装置内の前記文書群から取得するステップと、前記中央処理装置が、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するステップと、前記中央処理装置が、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記中央処理装置が、前記類似度の高い文書を検索結果として出力するステップとを備え、
前記類似度を算出するステップにおいて、前記中央処理装置が、前記取得された文書のみを対象として文書毎に類似度を算出することを特徴とする文書検索方法。 - 請求項1から請求項6のいずれかに記載の文書検索方法において、前記検索結果を出力するステップにおいて、前記中央処理装置が、前記抽出された尺度表現語が記述されている箇所を他と異なる態様とした形で、前記入力テキストを表示装置に表示させることを特徴とする文書検索方法。
- 請求項1から請求項6のいずれかに記載の文書検索方法において、前記検索結果を出力するステップにおいて、前記中央処理装置が、前記抽出された尺度表現語を他と異なる態様とした形で、前記入力テキストから抽出されたキーワード集合を表示装置に表示させることを特徴とする文書検索方法。
- 利用者によって入力された入力テキスト定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置にアクセス可能な中央処理装置に各ステップを実行させるための文書検索プログラムにおいて、
前記記憶装置内の前記入力テキストを解析してキーワードを抽出するとともに、前記記憶装置内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出し、さらに、前記入力テキストにおいて、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語、前記抽出された尺度表現語を含む文節が修飾する語、のうちの少なくとも1つに該当する語を尺度表現関連語として抽出するステップと、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するとともに、前記記憶装置内の前記尺度表現語用の重み算出ルールと前記尺度表現関連語用の重み算出ルールとを含む前記重み算出ルールであって、前記尺度表現語用の重み算出ルールおよび前記尺度表現関連語用の重み算出ルールには、重み算出の対象となる尺度表現語の種類と属性と重み算出方法と重みをどの程度付与するかを示す付与値とを含む前記重み算出ルールに基づいて、前記抽出された尺度表現語および尺度表現関連語の重みを付与するステップと、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップとを、前記中央処理装置に実行させ、
前記キーワードの重みを付与するステップにおいて、前記中央処理装置が、前記記憶装置内の前記尺度表現語用の重み算出ルールに基づいて、前記抽出された尺度表現語の重みを付与し、前記尺度表現関連語用の重み算出ルールに基づいて、前記抽出された尺度表現関連語の重みを付与することを特徴とする文書検索プログラム。 - 請求項9に記載の文書検索プログラムにおいて、前記キーワードを尺度表現語として抽出するのは、当該キーワードを含む文節が定量値を表す語または定量値を定性的に表す語を修飾しているか、定量値を表す語または定量値を定性的に表す語を含む文節が当該キーワードを修飾しているかのいずれかに該当する場合のみとすることを特徴とする文書検索プログラム。
- システムバスに接続された入出力手段、中央処理装置、メモリのワークエリアおよびメモリの格納エリアが接続された計算機を備える文書検索装置において、前記メモリの格納エリアには入力テキストを格納する入力テキスト、各単語に関する属性データが登録されている単語辞書、単語の品詞間の接続コストや文法ルールが定義されている文法辞書、キーワード候補から除外すべき語を定義する不要語辞書、定量値に関する語を定義する尺度表現語辞書、入力テキストから取得された単語を格納する単語テーブル、該単語テーブルに格納された単語の内キーワード候補から除外すべき語に該当しない語を格納するキーワードテーブル、検索対象となる文書を格納する文書データ、該文書データの検索のための文書データインデックス、検索結果を格納する検索結果データ、利用者が与える検索に関する各種の設定を格納するパラメータ設定データと検索のためのプログラム、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールを備える文書検索装置であって、
前記重み算出ルールには、前記尺度表現語用の重み算出ルールと前記尺度表現関連語用の重み算出ルールとを含み、前記尺度表現語用の重み算出ルールおよび前記尺度表現関連語用の重み算出ルールには、重み算出の対象となる尺度表現語の種類と属性と重み算出方法と重みをどの程度付与するかを示す付与値とを含み、
検索のためのプログラムは、利用者によって前記入力手段を介して入力されたテキストから前記メモリ内の前記単語辞書および前記文法辞書を参照して単語を取得して前記単語テーブルに格納するステップと、前記メモリ内の前記不要語辞書および前記パラメータ設定データを参照して前記単語テーブルからキーワードを抽出するとともに、前記メモリ内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するステップと、前記抽出されたキーワードの各々に対して前記尺度表現語用の重み算出ルールに基づいて、前記抽出された尺度表現語の重みを付与し、前記尺度表現関連語用の重み算出ルールに基づいて、前記抽出された尺度表現関連語の重みを付与して前記キーワードテーブルに格納するステップと、前記キーワードテーブル内の重み付きキーワードと、前記文書データの各々から予め抽出し前記文書データインデックスに格納した前記重み付きキーワードとを比較して文書データ毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップとを、前記中央処理装置に実行させることを特徴とする文書検索装置。 - 前記検索のためのプログラムが、前記メモリ内の前記入力テキストを解析してキーワードを抽出するとともに、前記メモリ内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出し、さらに、前記入力テキストにおいて、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語、前記抽出された尺度表現語を含む文節が修飾する語、のうちの少なくとも1つに該当する語を尺度表現関連語として抽出するステップと、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するとともに、前記メモリ内の前記重み算出ルールに基づいて、前記抽出された尺度表現語および尺度表現関連語の重みを付与するステップと、前記重み付きキーワードと、前記メモリ内の前記予め抽出した重み付きキーワードとを比較して文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップを、前記中央処理装置に実行させる請求項11記載の文書検索装置。
- 請求項11または請求項12に記載の文書検索装置において、前記文書検索のためのプログラムが、キーワードを尺度表現語として抽出するのは、当該キーワードを含む文節が定量値を表す語または定量値を定性的に表す語を修飾しているか、定量値を表す語または定量値を定性的に表す語を含む文節が当該キーワードを修飾しているかのいずれかに該当する場合のみとしたことを特徴とする文書検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004119857A JP4426893B2 (ja) | 2004-04-15 | 2004-04-15 | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004119857A JP4426893B2 (ja) | 2004-04-15 | 2004-04-15 | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005301855A JP2005301855A (ja) | 2005-10-27 |
JP4426893B2 true JP4426893B2 (ja) | 2010-03-03 |
Family
ID=35333277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004119857A Expired - Fee Related JP4426893B2 (ja) | 2004-04-15 | 2004-04-15 | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4426893B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009048130A1 (ja) * | 2007-10-12 | 2009-04-16 | Nec Corporation | 文書重要度算出システム、文書重要度算出方法およびプログラム |
JP2011039717A (ja) * | 2009-08-10 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法および情報検索プログラム |
JP5911492B2 (ja) * | 2011-08-05 | 2016-04-27 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報検索システム、方法、及びプログラム |
JP6131983B2 (ja) * | 2015-05-07 | 2017-05-24 | 富士通株式会社 | 情報検索装置、情報検索方法およびそのプログラム |
JP7413837B2 (ja) | 2020-02-28 | 2024-01-16 | ブラザー工業株式会社 | プログラム、情報処理装置及び情報処理システム |
-
2004
- 2004-04-15 JP JP2004119857A patent/JP4426893B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005301855A (ja) | 2005-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3691844B2 (ja) | 文書処理方法 | |
US7958128B2 (en) | Query-independent entity importance in books | |
JP3497172B2 (ja) | 自動文書分類システム | |
KR101219366B1 (ko) | 명백한 지리적 언급의 분류 | |
US10552467B2 (en) | System and method for language sensitive contextual searching | |
US20050021545A1 (en) | Very-large-scale automatic categorizer for Web content | |
US20080021891A1 (en) | Searching a document using relevance feedback | |
US8606779B2 (en) | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof | |
US20110258227A1 (en) | Method and system for searching documents | |
KR20070058685A (ko) | 문서 구조에 기초한 검색 결과의 표시 | |
CN111324771A (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
JP4426894B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JPH11102377A (ja) | データベースからドキュメントを検索する方法および装置 | |
JP5345987B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
US8195458B2 (en) | Open class noun classification | |
JP3743204B2 (ja) | データ分析支援方法および装置 | |
JP2004206391A (ja) | 文書情報分析装置 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP2003108571A (ja) | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070131 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090825 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4426893 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131218 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |