JP2007156739A - テキストからキーワードを検索する効率的なシステム、および、その方法 - Google Patents
テキストからキーワードを検索する効率的なシステム、および、その方法 Download PDFInfo
- Publication number
- JP2007156739A JP2007156739A JP2005349717A JP2005349717A JP2007156739A JP 2007156739 A JP2007156739 A JP 2007156739A JP 2005349717 A JP2005349717 A JP 2005349717A JP 2005349717 A JP2005349717 A JP 2005349717A JP 2007156739 A JP2007156739 A JP 2007156739A
- Authority
- JP
- Japan
- Prior art keywords
- texts
- keyword
- index
- text
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本発明のシステムは、それぞれのテキストの識別情報から当該テキストに含まれるキーワードのリストを指定する第1インデックスと、それぞれのキーワードの識別情報から当該キーワードを含むテキストのリストを指定する第2インデックスと、それぞれのキーワードを含むテキストの数とを記憶している。そして、テキスト検索条件の入力を受け付けると、第1インデックスによる検索時間の見積もり、および、第2インデックスによる検索時間の見積もりを算出して、第1インデックスおよび第2インデックスの何れを用いた検索がより高速であるかを判断する。そして、テキスト検索条件を満たすテキストにおいて、高い頻度で出現するキーワードをより高速であると判断されたインデックスによって検索する。
【選択図】図1
Description
Yu C, Philip G, Meng WY. Distributed top-n query processing with possibly uncooperative local systems, Proc. of the 29th Int'l Conf. on Very Large Data Bases. Berlin: Morgan Kaufmann Publishers, 2003. 117-128. Wei Wang, Jiong Yang, Richard Muntz: STING: A Statistical Information Grid Approach to Spatial Data Mining, Proceedings of the 23rd VLDB Conference, Athens, Greece, Aug 1997. Nasukawa, T. and Nagano, T. "Text analysis and knowledge mining system", IBM Systems Journal 40(4): 967-984 (2001).
これは、出現頻度順に配列されたキーワードの識別情報から、そのキーワードを含むテキストの識別情報のリストへの参照である。
(2)DOC_TO_KEYインデックス
これは、テキストの識別情報から、そのテキストに含まれるキーワードのリストへの参照である。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本実施例における検索システム10は、このようなキーワードの検索処理を、これまでよりも効率的に実行することを目的とする。
(1)対象ワードの数が多いために繰り返し処理の回数の上限値が大きい場合。
これは、入力されたカテゴリーが多くのキーワードを含む場合であり、「名詞」などのカテゴリーが典型例として挙げられる。
(2)S730による判断がNOとならずに、繰り返し処理の回数が対象ワードの数と同程度となる場合。
これは、入力されたカテゴリーが、含まれているテキスト数の略等しい多数のキーワードを含む場合である。例えば、製品に対する意見や要望を電話で受け付けるコールセンターにおいて、オペレータは、対応したお客様の名前とそのお客様の意見などをテキストに記録する。テキストは、対応したお客様毎に管理され、統計的な解析などによって、今後の製品改良などに活用される。このような例において、同一のお客様から複数の意見が寄せられることは稀であれば、お客様の名前と言うカテゴリーに属するキーワードは、この(2)の典型例となる。
本実施例に係る検索システム10は、以上のような検索環境を、キーワードの出現数の分布などによって予め判断して、第2インデックスを用いた検索が高速か否かを適切に判断する。以下、図8においてその処理について述べる。
Yi=1(Xi≧M)
Yi=0(Xi<M)
E(Y)=E(Σi=1,2,…,IYi)=Σi=1,2,…,IE(Yi)=Σi=1,2,…,IP(Xi≧M)
ランダムアクセス時間 + 1つのテキストに含まれるキーワードの数の平均値 × シーケンシャルアクセス時間
15 テキストDB
100 入力部
200 第1インデックス記憶部
210 ハッシュファイル
220 キーワードリストファイル
300 第2インデックス記憶部
310 サマリーファイル
320 ディストリビューションファイル
400 検索部
405 候補ワード記憶部
410 選択部
420 比較部
440 算出部
450 更新部
500 判断部
510 割合算出部
520 関数算出部
530 閾値算出部
540 第2検索時間算出部
550 第1検索時間算出部
900 情報処理装置
Claims (11)
- テキストからキーワードを検索するシステムであって、
それぞれのテキストの識別情報から当該テキストに含まれるキーワードのリストを指定する第1インデックスを記憶する第1インデックス記憶部と、
それぞれのキーワードの識別情報から当該キーワードを含むテキストのリストを指定する第2インデックスを、それぞれのキーワードを含むテキストの数に対応付けて記憶する第2インデックス記憶部と、
キーワードを検索する対象となるテキストの条件であるテキスト検索条件の入力を受け付ける入力部と、
検索対象となる複数の前記テキストのうち前記テキスト検索条件を満たすテキストの数、および、前記第2インデックスに対応して記憶された前記テキストの数に基づいて、前記第1インデックスによる検索時間の見積もり、および、前記第2インデックスによる検索時間の見積もりを算出して、前記第1インデックスおよび前記第2インデックスの何れを用いた検索がより高速であるかを判断する判断部と、
前記テキスト検索条件を満たすテキストにおいて、予め定められた基準よりも高い頻度で出現するキーワードを、より高速であると判断された前記インデックスによって検索して出力する検索部と
を備えるシステム。 - 当該システムは、複数のキーワードのうち、そのキーワードを含み、かつ前記テキスト検索条件を満たすテキストの数が多い方から、予め定められた基準個数のキーワードを選択した高頻度ワードを検索するものであり、
前記検索部は、前記第2インデックスにより検索する場合において、
前記高頻度ワードの候補となる候補ワードのそれぞれに対応付けて、当該候補ワードを含み、かつ前記テキスト検索条件を満たすテキストの数である候補ワード出現数を記憶している候補ワード記憶部と、
複数のキーワードのそれぞれを当該キーワードを含むテキストの数が大きい順に順次、前記高頻度ワードか否かを判断する対象となる対象ワードとして選択する選択部と、
前記対象ワードを含むテキストの数を前記第2インデックス記憶部から読み出し、読み出した当該テキストの数を前記候補ワード出現数と比較する比較部と、
読み出された当該テキストの数が、何れかの前記候補ワード出現数よりも大きいことを条件に、前記対象ワードを含むテキストのリストを前記第2インデックス記憶部から読み出し、読み出したリストのうち前記テキスト検索条件を満たすテキストの数を算出する算出部と、
算出されたテキストの数が、何れかの前記候補ワード出現数よりも大きいことを条件に、前記対象ワードおよび前記候補ワードの中から、含まれているテキストの数が多い方から前記基準個数を上限として新たな前記候補ワードとして選択して、前記候補ワード記憶部を更新する更新部と
を有し、前記選択部によって次に選択された前記対象ワードを含むテキストの数が、何れの前記候補ワード出現数よりも小さいことを条件に、前記候補ワード記憶部に記憶されたキーワードを前記高頻度ワードとして出力する
請求項1に記載のシステム。 - 前記判断部は、
検索の対象となる全てのテキストの中で前記テキスト検索条件を満たすテキストの占める割合を示す条件充足率を算出する割合算出部と、
各キーワードについて当該キーワードを含みかつ前記テキスト検索条件を満たすテキストの数を示す確率変数の確率分布を、前記条件充足率に基づいて近似的に算出し、算出された前記確率分布に基づいて、各キーワードの前記確率変数がある閾値以上となる確率の和を求める前記閾値の関数を算出する関数算出部と、
算出された前記関数の値が前記基準個数と略同一となる前記閾値を算出する閾値算出部と、
算出した前記閾値よりも多い数のテキストに含まれる各キーワードを含んでいるテキストの数を、前記第2インデックス記憶部に記憶された前記テキストの数に基づいて算出し、算出されたテキストの数と、所定のアクセス時間との積を、前記第2インデックスによる検索時間の見積もりとして算出する第2検索時間算出部と、
検索対象となる複数の前記テキストのうち前記テキスト検索条件を満たすテキストの数と、所定のアクセス時間との積を、前記第1インデックスによる検索時間の見積もりとして算出する第1検索時間算出部と
を有し、前記第2検索時間算出部によって算出された検索時間の見積もりが、前記第1検索時間算出部によって算出された検索時間の見積もりよりも小さいことを条件に、前記第2インデックスによる検索の方が高速と判断する
請求項2に記載のシステム。 - 前記関数算出部は、各キーワードについて、当該キーワードを含むテキストが前記テキスト検索条件を満たす確率を前記条件充足率によって近似することによって、前記確率変数の確率分布を二項分布として算出し、算出した前記確率分布に基づいて前記閾値の関数を算出する
請求項3に記載のシステム。 - 前記第1インデックス記憶部は、キーワードのカテゴリー毎に、それぞれのテキストの識別情報から当該テキストに含まれる当該カテゴリーのキーワードのリストを指定する第1インデックスを記憶し、
前記第2インデックス記憶部は、キーワードのカテゴリー毎に、当該カテゴリーに含まれるキーワードの前記第2インデックスと、当該カテゴリーに含まれるそれぞれのキーワードを含むテキストの数とを記憶し、
前記入力部は、更に、検索の対象となるキーワードのカテゴリーの入力を受け付け、
前記判断部は、入力された前記カテゴリーに対応する、それぞれのキーワードを含むテキストの数に基づいて、前記カテゴリーに対応する前記第1インデックスおよび前記カテゴリーに対応する前記第2インデックスの何れを用いた検索がより高速であるかを判断する
請求項1に記載のシステム。 - テキストからキーワードを検索するシステムであって、
それぞれのキーワードの識別情報から当該キーワードを含むテキストのリストを指定する第2インデックスを記憶する第2インデックス記憶部と、
キーワードを検索する対象となるテキストの条件であるテキスト検索条件の入力を受け付ける入力部と、
複数のキーワードのうち、そのキーワードを含み、かつ前記テキスト検索条件を満たすテキストの数が多い方から、予め定められた基準個数のキーワードを選択した高頻度ワードを検索して出力する検索部と
を備え、前記検索部は、
前記高頻度ワードの候補となる候補ワードのそれぞれに対応付けて、当該候補ワードを含み、かつ前記テキスト検索条件を満たすテキストの数である候補ワード出現数を記憶している候補ワード記憶部と、
複数のキーワードのそれぞれを当該キーワードを含むテキストの数が大きい順に順次、前記高頻度ワードか否かを判断する対象となる対象ワードとして選択する選択部と、
前記対象ワードを含むテキストの数を前記第2インデックス記憶部から読み出し、読み出した当該テキストの数を前記候補ワード出現数と比較する比較部と、
読み出された当該テキストの数が、何れかの前記候補ワード出現数よりも大きいことを条件に、前記対象ワードを含むテキストのリストを前記第2インデックス記憶部から読み出し、読み出したリストのうち前記テキスト検索条件を満たすテキストの数を算出する算出部と、
算出されたテキストの数が、何れかの前記候補ワード出現数よりも大きいことを条件に、前記対象ワードおよび前記候補ワードの中から、含まれているテキストの数が多い方から前記基準個数を上限として新たな前記候補ワードとして選択して、前記候補ワード記憶部を更新する更新部と
を有し、前記選択部によって次に選択された前記対象ワードを含むテキストの数が、何れの前記候補ワード出現数よりも小さいことを条件に、前記候補ワード記憶部に記憶されたキーワードを前記高頻度ワードとして出力するシステム。 - 前記第2インデックス記憶部は、前記第2インデックスに対応付けて、更に、それぞれのキーワードを含むテキストの数に対応付けて記憶し、
検索の対象となる全てのテキストの中で前記テキスト検索条件を満たすテキストの占める割合を示す条件充足率を算出する割合算出部と、
各キーワードについて当該キーワードを含みかつ前記テキスト検索条件を満たすテキストの数を示す確率変数の確率分布を、前記条件充足率に基づいて近似的に算出し、算出された前記確率分布に基づいて、各キーワードの前記確率変数がある閾値以上となる確率の和を求める前記閾値の関数を算出する関数算出部と、
算出された前記関数の値が前記基準個数と略同一となる前記閾値を算出する閾値算出部と、
算出した前記閾値よりも多い数のテキストに含まれる各キーワードを含んでいるテキストの数を、前記第2インデックス記憶部に記憶された前記テキストの数に基づいて算出し、算出されたテキストの数と、所定のアクセス時間との積を、前記第2インデックスによる検索時間の見積もりとして算出して出力する第2検索時間算出部と
を更に備える請求項6に記載のシステム。 - テキストからキーワードを検索するシステムを用いて前記キーワードを検索する方法であって、
前記システムは、
それぞれのテキストの識別情報から当該テキストに含まれるキーワードのリストを指定する第1インデックスを記憶する第1インデックス記憶部と、
それぞれのキーワードの識別情報から当該キーワードを含むテキストのリストを指定する第2インデックスを、それぞれのキーワードを含むテキストの数に対応付けて記憶する第2インデックス記憶部と
を有し、
キーワードを検索する対象となるテキストの条件であるテキスト検索条件の入力を受け付けるステップと、
検索対象となる複数の前記テキストのうち前記テキスト検索条件を満たすテキストの数、および、前記第2インデックスに対応して記憶された前記テキストの数に基づいて、前記第1インデックスによる検索時間の見積もり、および、前記第2インデックスによる検索時間の見積もりを算出して、前記第1インデックスおよび前記第2インデックスの何れを用いた検索がより高速であるかを判断するステップと、
前記テキスト検索条件を満たすテキストにおいて、予め定められた基準よりも高い頻度で出現するキーワードを、より高速であると判断された前記インデックスによって検索して出力するステップと
を備える方法。 - テキストからキーワードを検索するシステムとして、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
それぞれのテキストの識別情報から当該テキストに含まれるキーワードのリストを指定する第1インデックスを記憶する第1インデックス記憶部と、
それぞれのキーワードの識別情報から当該キーワードを含むテキストのリストを指定する第2インデックスを、それぞれのキーワードを含むテキストの数に対応付けて記憶する第2インデックス記憶部と、
キーワードを検索する対象となるテキストの条件であるテキスト検索条件の入力を受け付ける入力部と、
検索対象となる複数の前記テキストのうち前記テキスト検索条件を満たすテキストの数、および、前記第2インデックスに対応して記憶された前記テキストの数に基づいて、前記第1インデックスによる検索時間の見積もり、および、前記第2インデックスによる検索時間の見積もりを算出して、前記第1インデックスおよび前記第2インデックスの何れを用いた検索がより高速であるかを判断する判断部と、
前記テキスト検索条件を満たすテキストにおいて、予め定められた基準よりも高い頻度で出現するキーワードを、より高速であると判断された前記インデックスによって検索して出力する検索部と
して機能させるプログラム。 - テキストからキーワードを検索するシステムを用いて、前記キーワードを検索する方法であって、
前記システムは、それぞれのキーワードの識別情報から当該キーワードを含むテキストのリストを指定する第2インデックスを記憶する第2インデックス記憶部を有し、
キーワードを検索する対象となるテキストの条件であるテキスト検索条件の入力を受け付けるステップと、
複数のキーワードのうち、そのキーワードを含み、かつ前記テキスト検索条件を満たすテキストの数が多い方から、予め定められた基準個数のキーワードを選択した高頻度ワードを検索して出力するステップと
を備え、
前記システムは、前記高頻度ワードの候補となる候補ワードのそれぞれに対応付けて、当該候補ワードを含み、かつ前記テキスト検索条件を満たすテキストの数である候補ワード出現数を記憶している候補ワード記憶部を更に有し、
前記高頻度ワードを検索して出力するステップは、
複数のキーワードのそれぞれを当該キーワードを含むテキストの数が大きい順に順次、前記高頻度ワードか否かを判断する対象となる対象ワードとして選択するステップと、
前記対象ワードを含むテキストの数を前記第2インデックス記憶部から読み出し、読み出した当該テキストの数を前記候補ワード出現数と比較するステップと、
読み出された当該テキストの数が、何れかの前記候補ワード出現数よりも大きいことを条件に、前記対象ワードを含むテキストのリストを前記第2インデックス記憶部から読み出し、読み出したリストのうち前記テキスト検索条件を満たすテキストの数を算出するステップと、
算出されたテキストの数が、何れかの前記候補ワード出現数よりも大きいことを条件に、前記対象ワードおよび前記候補ワードの中から、含まれているテキストの数が多い方から前記基準個数を上限として新たな前記候補ワードとして選択して、前記候補ワード記憶部を更新するステップと
を有し、前記比較するステップにおいて比較の対象とされた、前記対象ワードを含むテキストの数が、何れの前記候補ワード出現数よりも小さいことを条件に、前記候補ワード記憶部に記憶されたキーワードを前記高頻度ワードとして出力する方法。 - テキストからキーワードを検索するシステムとして、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
それぞれのキーワードの識別情報から当該キーワードを含むテキストのリストを指定する第2インデックスを記憶する第2インデックス記憶部と、
キーワードを検索する対象となるテキストの条件であるテキスト検索条件の入力を受け付ける入力部と、
複数のキーワードのうち、そのキーワードを含み、かつ前記テキスト検索条件を満たすテキストの数が多い方から、予め定められた基準個数のキーワードを選択した高頻度ワードを検索して出力する検索部と
して機能させ、前記検索部は、
前記高頻度ワードの候補となる候補ワードのそれぞれに対応付けて、当該候補ワードを含み、かつ前記テキスト検索条件を満たすテキストの数である候補ワード出現数を記憶している候補ワード記憶部と、
複数のキーワードのそれぞれを当該キーワードを含むテキストの数が大きい順に順次、前記高頻度ワードか否かを判断する対象となる対象ワードとして選択する選択部と、
前記対象ワードを含むテキストの数を前記第2インデックス記憶部から読み出し、読み出した当該テキストの数を前記候補ワード出現数と比較する比較部と、
読み出された当該テキストの数が、何れかの前記候補ワード出現数よりも大きいことを条件に、前記対象ワードを含むテキストのリストを前記第2インデックス記憶部から読み出し、読み出したリストのうち前記テキスト検索条件を満たすテキストの数を算出する算出部と、
算出されたテキストの数が、何れかの前記候補ワード出現数よりも大きいことを条件に、前記対象ワードおよび前記候補ワードの中から、含まれているテキストの数が多い方から前記基準個数を上限として新たな前記候補ワードとして選択して、前記候補ワード記憶部を更新する更新部と
を有し、前記選択部によって次に選択された前記対象ワードを含むテキストの数が、何れの前記候補ワード出現数よりも小さいことを条件に、前記候補ワード記憶部に記憶されたキーワードを前記高頻度ワードとして出力する、プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005349717A JP4172801B2 (ja) | 2005-12-02 | 2005-12-02 | テキストからキーワードを検索する効率的なシステム、および、その方法 |
US11/555,790 US7584184B2 (en) | 2005-12-02 | 2006-11-02 | System of effectively searching text for keyword, and method thereof |
CNB2006101463951A CN100449546C (zh) | 2005-12-02 | 2006-11-13 | 搜索文本中关键词的***及其方法 |
KR1020060119819A KR100962923B1 (ko) | 2005-12-02 | 2006-11-30 | 텍스트에서 키워드를 효율적으로 검색하는 시스템 및 이의방법 |
US12/055,420 US7945552B2 (en) | 2005-12-02 | 2008-03-26 | System of effectively searching text for keyword, and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005349717A JP4172801B2 (ja) | 2005-12-02 | 2005-12-02 | テキストからキーワードを検索する効率的なシステム、および、その方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007156739A true JP2007156739A (ja) | 2007-06-21 |
JP4172801B2 JP4172801B2 (ja) | 2008-10-29 |
Family
ID=38125795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005349717A Expired - Fee Related JP4172801B2 (ja) | 2005-12-02 | 2005-12-02 | テキストからキーワードを検索する効率的なシステム、および、その方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US7584184B2 (ja) |
JP (1) | JP4172801B2 (ja) |
KR (1) | KR100962923B1 (ja) |
CN (1) | CN100449546C (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140546B2 (en) | 2008-06-06 | 2012-03-20 | International Business Machines Corporation | Computer system for performing aggregation of tree-structured data, and method and computer program product therefor |
US8190613B2 (en) | 2007-06-19 | 2012-05-29 | International Business Machines Corporation | System, method and program for creating index for database |
JP2016115288A (ja) * | 2014-12-17 | 2016-06-23 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | データを集計するシステム、方法およびプログラム |
US9471548B2 (en) | 2012-08-10 | 2016-10-18 | International Business Machines Corporation | Text processing method, system and computer program |
US10984005B2 (en) | 2016-10-05 | 2021-04-20 | Fujitsu Limited | Database search apparatus and method of searching databases |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007272463A (ja) * | 2006-03-30 | 2007-10-18 | Toshiba Corp | 情報検索装置、情報検索方法および情報検索プログラム |
US20080114733A1 (en) * | 2006-11-14 | 2008-05-15 | Microsoft Corporation | User-structured data table indexing |
JP5154832B2 (ja) * | 2007-04-27 | 2013-02-27 | 株式会社日立製作所 | 文書検索システム及び文書検索方法 |
JP4881219B2 (ja) * | 2007-05-10 | 2012-02-22 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
CN100462979C (zh) * | 2007-06-26 | 2009-02-18 | 腾讯科技(深圳)有限公司 | 分布式索引文件的检索方法、检索***及检索服务器 |
US8078454B2 (en) * | 2007-09-28 | 2011-12-13 | Microsoft Corporation | Two-pass hash extraction of text strings |
CN101876981B (zh) * | 2009-04-29 | 2015-09-23 | 阿里巴巴集团控股有限公司 | 一种构建知识库的方法及装置 |
JP5208058B2 (ja) * | 2009-06-17 | 2013-06-12 | キヤノン株式会社 | 検索システム、検索方法、及びプログラム |
US8326830B2 (en) * | 2009-10-06 | 2012-12-04 | Business Objects Software Limited | Pattern recognition in web search engine result pages |
WO2011074698A1 (ja) * | 2009-12-17 | 2011-06-23 | 日本電気株式会社 | テキストマイニングシステム、テキストマイニング方法および記録媒体 |
CN101944108A (zh) * | 2010-09-07 | 2011-01-12 | 深圳市彩讯科技有限公司 | 一种索引文件及索引文件建立方法 |
KR101169377B1 (ko) | 2010-09-27 | 2012-07-30 | 한국과학기술연구원 | 핫 토픽 이벤트 추출에 기반한 실시간 이벤트의 하이라이트 제공 시스템 및 이를 이용한 하이라이트 서비스 제공방법 |
WO2012083540A1 (en) * | 2010-12-23 | 2012-06-28 | Nokia Corporation | Method and apparatus for providing token-based classification of device information |
JP5679194B2 (ja) * | 2011-05-18 | 2015-03-04 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2013077272A (ja) * | 2011-09-30 | 2013-04-25 | Internatl Business Mach Corp <Ibm> | キーワードが出現する頻度順を求める方法、装置及びコンピュータプログラム |
CN103064840A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 索引装置、索引方法、检索装置、检索方法和检索*** |
CN103186618B (zh) * | 2011-12-30 | 2016-06-29 | 北京新媒传信科技有限公司 | 正确数据的获取方法和装置 |
CN104322139A (zh) * | 2012-09-20 | 2015-01-28 | 东莞宇龙通信科技有限公司 | 终端、服务器和信息推送方法 |
CN104239300B (zh) * | 2013-06-06 | 2017-10-20 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN105138523A (zh) * | 2014-05-30 | 2015-12-09 | 富士通株式会社 | 在文本中确定语义关键词的方法和装置 |
US10839441B2 (en) * | 2014-06-09 | 2020-11-17 | Ebay Inc. | Systems and methods to seed a search |
US9959351B2 (en) | 2014-06-09 | 2018-05-01 | Ebay Inc. | Systems and methods to identify values for a selected filter |
CN105653654B (zh) * | 2015-12-28 | 2021-11-30 | 上海瀚之友信息技术服务有限公司 | 一种抽奖资格索引***及方法 |
US10380142B2 (en) | 2016-11-28 | 2019-08-13 | Sap Se | Proxy views for extended monitoring of database systems |
US11321402B2 (en) * | 2017-05-05 | 2022-05-03 | Microsoft Technology Licensing, Llc. | Index storage across heterogenous storage devices |
WO2018212106A1 (ja) * | 2017-05-19 | 2018-11-22 | 学校法人神奈川大学 | 情報検索装置、検索用プログラム、データベースの更新方法、データベースの更新装置、データベース更新用プログラム |
CN107943892B (zh) * | 2017-11-16 | 2021-12-21 | 海信集团有限公司 | 一种视频中主要角色名称的确定方法及装置 |
US11327980B2 (en) | 2020-04-21 | 2022-05-10 | International Business Machines Corporation | Cached updatable top-k index |
CN116756325B (zh) * | 2023-08-17 | 2023-11-10 | 北京睿企信息科技有限公司 | 一种获取标签的数据处理*** |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01259418A (ja) | 1988-04-11 | 1989-10-17 | Hitachi Ltd | 文字列検索装置 |
JP2943447B2 (ja) * | 1991-01-30 | 1999-08-30 | 三菱電機株式会社 | テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置 |
US5375235A (en) * | 1991-11-05 | 1994-12-20 | Northern Telecom Limited | Method of indexing keywords for searching in a database recorded on an information recording medium |
US5745745A (en) * | 1994-06-29 | 1998-04-28 | Hitachi, Ltd. | Text search method and apparatus for structured documents |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
US6128613A (en) * | 1997-06-26 | 2000-10-03 | The Chinese University Of Hong Kong | Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words |
JP3607462B2 (ja) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
JPH11133919A (ja) | 1997-10-27 | 1999-05-21 | Advanced Display Inc | 液晶表示装置 |
US6654739B1 (en) * | 2000-01-31 | 2003-11-25 | International Business Machines Corporation | Lightweight document clustering |
CN1253814C (zh) * | 2000-08-04 | 2006-04-26 | 拓墣科技股份有限公司 | 数字文件关键特征的自动撷取方法 |
JP2003203089A (ja) | 2002-01-07 | 2003-07-18 | Nippon Telegr & Teleph Corp <Ntt> | Webページ検索方法およびWebページ検索装置、Webページ検索プログラム並びにそのプログラムを記録した記録媒体 |
JP2004240769A (ja) | 2003-02-06 | 2004-08-26 | Canon Inc | 情報検索装置 |
JP4634736B2 (ja) * | 2004-04-22 | 2011-02-16 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム |
-
2005
- 2005-12-02 JP JP2005349717A patent/JP4172801B2/ja not_active Expired - Fee Related
-
2006
- 2006-11-02 US US11/555,790 patent/US7584184B2/en not_active Expired - Fee Related
- 2006-11-13 CN CNB2006101463951A patent/CN100449546C/zh not_active Expired - Fee Related
- 2006-11-30 KR KR1020060119819A patent/KR100962923B1/ko not_active IP Right Cessation
-
2008
- 2008-03-26 US US12/055,420 patent/US7945552B2/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8190613B2 (en) | 2007-06-19 | 2012-05-29 | International Business Machines Corporation | System, method and program for creating index for database |
US8140546B2 (en) | 2008-06-06 | 2012-03-20 | International Business Machines Corporation | Computer system for performing aggregation of tree-structured data, and method and computer program product therefor |
US9471548B2 (en) | 2012-08-10 | 2016-10-18 | International Business Machines Corporation | Text processing method, system and computer program |
US9652526B2 (en) | 2012-08-10 | 2017-05-16 | International Business Machines Corporation | Text processing method, system and computer program |
US10353932B2 (en) | 2012-08-10 | 2019-07-16 | International Business Machines Corporation | Text processing method, system and computer program |
JP2016115288A (ja) * | 2014-12-17 | 2016-06-23 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | データを集計するシステム、方法およびプログラム |
US10733218B2 (en) | 2014-12-17 | 2020-08-04 | International Business Machines Corporation | System, method, and program for aggregating data |
US10984005B2 (en) | 2016-10-05 | 2021-04-20 | Fujitsu Limited | Database search apparatus and method of searching databases |
Also Published As
Publication number | Publication date |
---|---|
CN100449546C (zh) | 2009-01-07 |
KR20070058333A (ko) | 2007-06-08 |
KR100962923B1 (ko) | 2010-06-09 |
US20070136274A1 (en) | 2007-06-14 |
US7584184B2 (en) | 2009-09-01 |
US7945552B2 (en) | 2011-05-17 |
US20090030892A1 (en) | 2009-01-29 |
JP4172801B2 (ja) | 2008-10-29 |
CN1975729A (zh) | 2007-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4172801B2 (ja) | テキストからキーワードを検索する効率的なシステム、および、その方法 | |
US10795939B2 (en) | Query method and apparatus | |
US20240028837A1 (en) | Device and method for machine reading comprehension question and answer | |
KR100609253B1 (ko) | 언어 모델들에 기초한 정보 검색 및 음성 인식 | |
KR100544514B1 (ko) | 검색 쿼리 연관성 판단 방법 및 시스템 | |
US7769751B1 (en) | Method and apparatus for classifying documents based on user inputs | |
KR100522029B1 (ko) | 실시간 급상승 검색어 검출 방법 및 실시간 급상승 검색어검출 시스템 | |
US7769771B2 (en) | Searching a document using relevance feedback | |
JP4295062B2 (ja) | 反復マッチングを利用した画像検索方法及び装置 | |
KR100672277B1 (ko) | 개인화 검색 방법 및 검색 서버 | |
JP2015525929A (ja) | 検索品質を改善するための重みベースのステミング | |
JP2013516022A (ja) | 検索提案のクラスタ化及び提示 | |
CN110390094B (zh) | 对文档进行分类的方法、电子设备和计算机程序产品 | |
US7752216B2 (en) | Retrieval apparatus, retrieval method and retrieval program | |
US20060215298A1 (en) | Information presentation apparatus, and information presentation method and program for use therein | |
CN113660541A (zh) | 新闻视频的摘要生成方法及装置 | |
JP5226241B2 (ja) | タグを付与する方法 | |
JP2020129377A (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
US20060230036A1 (en) | Information processing apparatus, information processing method and program | |
JP2008077137A (ja) | ドキュメントデータを検索する方法、サーバ、およびプログラム | |
KR100795930B1 (ko) | 검색용 색인 기반 질의어 추천 방법 및 그 시스템 | |
JP2009282593A (ja) | コンテンツを検索する索引データを管理する方法、サーバ、およびプログラム | |
JP2002288189A (ja) | 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体 | |
JP3503506B2 (ja) | 情報検索方法、情報検索装置及び情報検索プログラムを記録した記録媒体 | |
JP2006185059A (ja) | コンテンツ管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080116 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20080130 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20080207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080318 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080805 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20080806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080811 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110822 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120822 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |