JP2009003541A - データベースのインデックス作成システム、方法及びプログラム - Google Patents
データベースのインデックス作成システム、方法及びプログラム Download PDFInfo
- Publication number
- JP2009003541A JP2009003541A JP2007161524A JP2007161524A JP2009003541A JP 2009003541 A JP2009003541 A JP 2009003541A JP 2007161524 A JP2007161524 A JP 2007161524A JP 2007161524 A JP2007161524 A JP 2007161524A JP 2009003541 A JP2009003541 A JP 2009003541A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document
- index
- partial
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 73
- 235000021439 fasting mimicking diet Nutrition 0.000 description 30
- 230000000875 corresponding effect Effects 0.000 description 24
- 238000005065 mining Methods 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000001174 ascending effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000020169 heat generation Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書集合を互いに共通部分のない部分集合に分解する。分割してできた部分集合内で出現するキーワードの集合につき、キーワードのハッシュ値をある固定の整数値で割った余りでグルーピングし、各グループに対するインデックス・ファイルを作成する。文書の各部分集合毎に用意されたインデックス・ファイルについて、同じグループ番号をもつもの同士をマージする。こうして、個々のグループ番号に対応する統合されたインデックス・ファイルが生成される。インデックス・ファイルは、グループ番号の個数だけ存在し、まだ、文書集合の全体に対応するインデックスになっていない。そこで次に、そのようなグループ番号の個数だけあるインデックス・ファイルをさらにマージして、文書集合の全体に対応するインデックス・ファイルが生成される。
【選択図】図6
Description
次に、上記で分割された各部分集合に対して、その部分集合内で出現するキーワードの集合を、キーワードのハッシュ値をある固定の整数値で割った余りでグルーピングし、これにより、各グループに対するインデックス・ファイルが作成される。この固定の整数値をグループ数と呼び、キーワードのハッシュ値を、そのグループ数で割った余りをグループ番号と呼ぶ。なお、グループ数は、文書集合の全体を分けた部分集合の数とは独立に、事前に決めておく。
次に、そのようにして文書の各部分集合毎に用意されたインデックス・ファイルについて、同じグループ番号をもつものどおしが、マージされる。これによって、個々のグループ番号に対応する統合されたインデックス・ファイルが生成される。しかし、そのようなインデックス・ファイルは、グループ番号の個数だけ存在し、まだ、文書集合の全体に対応するインデックスになっていない。そこで次に、そのようなグループ番号の個数だけあるインデックス・ファイルをさらにマージして、文書集合の全体に対応するインデックス・ファイルが生成される。
数式で書くと、h = hash(w) mod G となる。
Javaの記法では、h = hash(w) % G; である。
ここで使用するhash関数は、定義域が想定されるキーワードw全体に亘り、値が整数であるような任意のものでよい。例えば、これに限定されるものではないが、Javaで用意されている、HashCode()という関数を使用することができる。これは、下記のようなアルゴリズムで、長さnの文字列のハッシュ値を返す。
s[0]*31^(n-1) + s[1]*31^(n-2) + ... + s[n-1]
ここで、s[i] は文字列の i 番目の文字、n は文字列の長さ、^ はべき乗を示す。
、D = D1∪D2∪...∪Dk のように、分割される。
このとき、任意のi≠jにつき、Di∩Dj = Φである。
数学的に言うと、集合 Dが、D1,D2,...,Dkに、直和分割される、ということになる。
例えば、データベースが、1000000個の文書からなる、
すなわち、D = {1,2,...,1000000} とすると、これを20分割して、
D1 = {1,2,...,50000}
D2 = {50001,50002,...,100000}
D3 = {100001,100002,...,150000}
.......
D20 = {950001,950002,...,1000000} となる。この例では、1つの部分集合が50000の文書を含むように分割されるが、コンピュータの主記憶の容量や、上記キーワード・グループの個数Gに応じて、別の値を選ぶこともできる。また、この例では、等しい文書数の部分集合に分割しているが、等しくない文書数の部分集合に直和分割してもよい。
Claims (17)
- 記憶手段をもつコンピュータの処理によって、個々の文書にキーワードが関連付けられた、複数の文書からなるデータベースのインデックスを作成する方法であって、
前記データベースを、複数の部分文書集合に分割するステップと、
前記個々の部分文書集合の個々の文書に関して、該文書に関連付けられたキーワードのハッシュ値を特定の数で割った余りの数(以下、キーワード・グループ番号と呼ぶ)に基づきグループ分けするステップと、
前記部分文書集合の個々の文書を順次読み込んで、前記キーワード・グループ番号毎に第1の部分インデックス・ファイルを作成し、前記記憶手段に書き出すステップと、
前記第1の部分インデックス・ファイルを前記記憶手段から読み込んで、同一のキーワード・グループ番号をもつもの同士でマージすることにより、複数の第2の部分インデックス・ファイルを作成し、前記記憶手段に書き込むステップと、
前記複数の第2の部分インデックス・ファイルを前記記憶手段から読み込んで、マージすることにより、前記データベースに対応するインデックスを作成し、前記記憶手段に書き出すステップとを有する、
方法。 - 前記データベースの個々の文書及び前記キーワードにはそれぞれ、前記データベースを通して一意的な文書id及びキーワードidが付与される、請求項1に記載の方法。
- 前記第1の部分インデックス・ファイルが、キーワードidから文書idへのポインタを含むK2Dインデックスを有する、請求項2に記載の方法。
- 前記第1の部分インデックス・ファイルが、文書idからキーワードidへのポインタを含むD2Kインデックスを有する、請求項2に記載の方法。
- 前記キーワードと前記キーワードidの対応を示すKWインデックスを作成し、前記記憶手段に書き出すステップをさらに有する、請求項2に記載の方法。
- 前記KWインデックスは、前記部分文書集合の個々の文書を順次読み出して、前記キーワード・グループ番号毎に、前記データベースに対応する単一のインデックス・ファイルとして順次書き出される、請求項5に記載の方法。
- 記憶手段をもつコンピュータの処理によって、個々の文書にキーワードが関連付けられた、複数の文書からなるデータベースのインデックスを作成するために、
前記コンピュータをして、
前記データベースを、複数の部分文書集合に分割するステップと、
前記個々の部分文書集合の個々の文書に関して、該文書に関連付けられたキーワードのハッシュ値を特定の数で割った余りの数(以下、キーワード・グループ番号と呼ぶ)に基づきグループ分けするステップと、
前記部分文書集合の個々の文書を順次読み出して、前記キーワード・グループ番号毎に第1の部分インデックス・ファイルを作成し、前記記憶手段に書き出すステップと、
前記第1の部分インデックス・ファイルを前記記憶手段から読み込み、同一のキーワード・グループをもつもの同士でマージすることにより、複数の第2の部分インデックス・ファイルを作成し、前記記憶手段に書き出すステップと、
前記複数の第2の部分インデックス・ファイルを前記記憶手段から読み込み、マージすることにより、前記データベースに対応するインデックスを作成し、前記記憶手段に書き出すステップとを実行させる、
プログラム。 - 前記データベースの個々の文書及び前記キーワードにはそれぞれ、前記データベースを通して一意的な文書id及びキーワードidが付与される、請求項7に記載のプログラム。
- 前記第1の部分インデックス・ファイルが、キーワードidから文書idへのポインタを含むK2Dインデックスを有する、請求項8に記載のプログラム。
- 前記第1の部分インデックス・ファイルが、文書idからキーワードidへのポインタを含むD2Kインデックスを有する、請求項8に記載のプログラム。
- 前記キーワードと前記キーワードidの対応を示すKWインデックスを作成し、前記記憶手段に書き出すステップをさらに有する、請求項8に記載のプログラム。
- 前記KWインデックスは、前記部分文書集合の個々の文書を順次読み込んで、前記キーワード・グループ番号毎に、前記データベースに対応する単一のインデックス・ファイルとして順次書き出される、請求項11に記載のプログラム。
- 個々の文書にキーワードが関連付けられた、複数の文書からなるデータベースのインデックスを作成するためのシステムであって、
記憶手段と、
主記憶と、
前記データベースを、複数の部分文書集合に分割する手段と、
前記個々の部分文書集合の個々の文書に関して、該文書に関連付けられたキーワードのハッシュ値を特定の数で割った余りの数(以下、キーワード・グループ番号と呼ぶ)に基づきグループ分けする手段と、
前記部分文書集合の個々の文書を順次前記主記憶に読み込んで、前記キーワード・グループ番号毎に第1の部分インデックス・ファイルを作成し、前記記憶手段に書き出す手段と、
前記第1の部分インデックス・ファイルを前記記憶手段から前記主記憶に読み込み、同一のキーワード・グループをもつもの同士でマージすることにより、複数の第2の部分インデックス・ファイルを作成し、前記記憶手段に書き出す手段と、
前記複数の第2の部分インデックス・ファイルを前記記憶手段から前記主記憶に読み込みマージすることにより、前記データベースに対応するインデックスを作成し、前記記憶手段に書き出す手段とを有する、
システム。 - 前記データベースの個々の文書及び前記キーワードにはそれぞれ、前記データベースを通して一意的な文書id及びキーワードidが付与される、請求項13に記載のシステム。
- 前記第1の部分インデックス・ファイルが、キーワードidから文書idへのポインタを含むK2Dインデックスを有する、請求項14に記載のシステム。
- 前記第1の部分インデックス・ファイルが、文書idからキーワードidへのポインタを含むD2Kインデックスを有する、請求項14に記載のシステム。
- 前記キーワードと前記キーワードidの対応を示すKWインデックスを作成し、前記記憶手段に書き出すステップをさらに有する、請求項14に記載のシステム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007161524A JP4848317B2 (ja) | 2007-06-19 | 2007-06-19 | データベースのインデックス作成システム、方法及びプログラム |
US12/132,301 US8190613B2 (en) | 2007-06-19 | 2008-06-03 | System, method and program for creating index for database |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007161524A JP4848317B2 (ja) | 2007-06-19 | 2007-06-19 | データベースのインデックス作成システム、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009003541A true JP2009003541A (ja) | 2009-01-08 |
JP4848317B2 JP4848317B2 (ja) | 2011-12-28 |
Family
ID=40137572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007161524A Expired - Fee Related JP4848317B2 (ja) | 2007-06-19 | 2007-06-19 | データベースのインデックス作成システム、方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8190613B2 (ja) |
JP (1) | JP4848317B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010191962A (ja) * | 2009-02-13 | 2010-09-02 | Fujitsu Ltd | オントロジーの類似性行列の効率的な計算 |
JP2010262379A (ja) * | 2009-04-30 | 2010-11-18 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP2010266996A (ja) * | 2009-05-13 | 2010-11-25 | Hitachi Ltd | データベース処理方法、データベース処理システム及びデータベースサーバ |
JP2016177688A (ja) * | 2015-03-20 | 2016-10-06 | 株式会社東芝 | データ処理装置、データ処理方法およびコンピュータプログラム |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5594145B2 (ja) * | 2008-11-26 | 2014-09-24 | 日本電気株式会社 | 検索装置、検索方法、及びプログラム |
CN101546342B (zh) * | 2009-05-08 | 2012-07-04 | 阿里巴巴集团控股有限公司 | 实现搜索服务的方法与*** |
US20130024459A1 (en) * | 2011-07-20 | 2013-01-24 | Microsoft Corporation | Combining Full-Text Search and Queryable Fields in the Same Data Structure |
KR20130049111A (ko) * | 2011-11-03 | 2013-05-13 | 한국전자통신연구원 | 분산 처리를 이용한 포렌식 인덱스 방법 및 장치 |
US9256762B1 (en) * | 2011-12-20 | 2016-02-09 | Amazon Technologies, Inc. | Securing a remote database |
US8965921B2 (en) | 2012-06-06 | 2015-02-24 | Rackspace Us, Inc. | Data management and indexing across a distributed database |
US11416543B2 (en) * | 2016-09-07 | 2022-08-16 | International Business Machines Corporation | Exam prefetching based on subject anatomy |
US11189370B2 (en) * | 2016-09-07 | 2021-11-30 | International Business Machines Corporation | Exam prefetching based on subject anatomy |
CN106528510A (zh) * | 2016-11-18 | 2017-03-22 | 山东浪潮云服务信息科技有限公司 | 一种数据处理的方法及装置 |
US11409820B1 (en) | 2017-10-18 | 2022-08-09 | Comake, Inc. | Workflow relationship management and contextualization |
US11157505B2 (en) | 2017-10-18 | 2021-10-26 | Comake, Inc. | Dynamic presentation of searchable contextual actions and data |
US10762060B1 (en) | 2017-10-18 | 2020-09-01 | Comake, Inc. | Electronic file management |
US10970349B1 (en) | 2017-10-18 | 2021-04-06 | Comake, Inc. | Workflow relationship management and contextualization |
US11314692B1 (en) | 2017-10-18 | 2022-04-26 | Comake, Inc. | Workflow relationship management and contextualization |
US11182437B2 (en) * | 2017-10-26 | 2021-11-23 | International Business Machines Corporation | Hybrid processing of disjunctive and conjunctive conditions of a search query for a similarity search |
US11354270B2 (en) | 2020-03-09 | 2022-06-07 | Microsoft Technology Licensing, Llc | Searching for a hash string stored in an indexed array |
US11947512B2 (en) | 2022-02-22 | 2024-04-02 | Microsoft Technology Licensing, Llc | Feedback-based inverted index compression |
US11645231B1 (en) * | 2022-04-24 | 2023-05-09 | Morgan Stanley Services Group Inc. | Data indexing for distributed query execution and aggregation |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5742807A (en) * | 1995-05-31 | 1998-04-21 | Xerox Corporation | Indexing system using one-way hash for document service |
US5973692A (en) * | 1997-03-10 | 1999-10-26 | Knowlton; Kenneth Charles | System for the capture and indexing of graphical representations of files, information sources and the like |
US6553385B2 (en) * | 1998-09-01 | 2003-04-22 | International Business Machines Corporation | Architecture of a framework for information extraction from natural language documents |
US6321232B1 (en) * | 1998-12-18 | 2001-11-20 | Xerox Corporation | Method for creating a geometric hash tree in a document processing system |
JP3353829B2 (ja) | 1999-08-26 | 2002-12-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 膨大な文書データからの知識抽出方法、その装置及び媒体 |
US6757675B2 (en) * | 2000-07-24 | 2004-06-29 | The Regents Of The University Of California | Method and apparatus for indexing document content and content comparison with World Wide Web search service |
GB2368670A (en) * | 2000-11-03 | 2002-05-08 | Envisional Software Solutions | Data acquisition system |
JP2002251402A (ja) | 2001-02-26 | 2002-09-06 | Mitsubishi Electric Corp | 文書検索方法及び文書検索装置 |
JP4001283B2 (ja) * | 2003-02-12 | 2007-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 形態素解析装置および自然言語処理装置 |
JP2005246440A (ja) | 2004-03-04 | 2005-09-15 | Denso Corp | 溶接方法 |
US7672956B2 (en) * | 2005-04-29 | 2010-03-02 | International Business Machines Corporation | Method and system for providing a search index for an electronic messaging system based on message threads |
JP4172801B2 (ja) | 2005-12-02 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキストからキーワードを検索する効率的なシステム、および、その方法 |
-
2007
- 2007-06-19 JP JP2007161524A patent/JP4848317B2/ja not_active Expired - Fee Related
-
2008
- 2008-06-03 US US12/132,301 patent/US8190613B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010191962A (ja) * | 2009-02-13 | 2010-09-02 | Fujitsu Ltd | オントロジーの類似性行列の効率的な計算 |
JP2010262379A (ja) * | 2009-04-30 | 2010-11-18 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP2010266996A (ja) * | 2009-05-13 | 2010-11-25 | Hitachi Ltd | データベース処理方法、データベース処理システム及びデータベースサーバ |
JP2016177688A (ja) * | 2015-03-20 | 2016-10-06 | 株式会社東芝 | データ処理装置、データ処理方法およびコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US8190613B2 (en) | 2012-05-29 |
JP4848317B2 (ja) | 2011-12-28 |
US20080319987A1 (en) | 2008-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4848317B2 (ja) | データベースのインデックス作成システム、方法及びプログラム | |
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
JP5138046B2 (ja) | 検索システム、検索方法およびプログラム | |
US8027961B2 (en) | System and method for composite record keys ordered in a flat key space for a distributed database | |
CN111258966A (zh) | 一种数据去重方法、装置、设备及存储介质 | |
US10678820B2 (en) | System and method for computerized semantic indexing and searching | |
JP2009211263A (ja) | 情報検索システム、方法及びプログラム | |
Parmar et al. | Comparing linear search and binary search algorithms to search an element from a linear list implemented through static array, dynamic array and linked list | |
US8554696B2 (en) | Efficient computation of ontology affinity matrices | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
JP2009271819A (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
JPWO2018012413A1 (ja) | 類似データ検索装置、類似データ検索方法および記録媒体 | |
JP2007048318A (ja) | リレーショナルデータベースの処理方法およびリレーショナルデータベース処理装置 | |
JP5380566B2 (ja) | 言語処理装置、プログラムおよび方法 | |
JP5494066B2 (ja) | 検索装置、検索方法および検索プログラム | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム | |
JP5505207B2 (ja) | 情報検索装置、情報検索方法及び情報検索プログラム | |
US20240211454A1 (en) | Calculation device, calculation method, and recording medium | |
US11734244B2 (en) | Search method and search device | |
JP5472929B2 (ja) | 文書検索装置、文書検索方法及び文書検索プログラム | |
JP2018018279A (ja) | 文書検索装置及びプログラム | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム | |
JP4061283B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JPH08161351A (ja) | 単語番号置換方法,インデックス作成方法,文書検索方法及び文書検索装置 | |
Chang | An efficient hash-based searching for specimens in the museum's exhibit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090522 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20090522 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20090605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090907 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111017 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141021 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |