JP5475704B2 - Document search apparatus, document search method, and document search program - Google Patents

Document search apparatus, document search method, and document search program Download PDF

Info

Publication number
JP5475704B2
JP5475704B2 JP2011032319A JP2011032319A JP5475704B2 JP 5475704 B2 JP5475704 B2 JP 5475704B2 JP 2011032319 A JP2011032319 A JP 2011032319A JP 2011032319 A JP2011032319 A JP 2011032319A JP 5475704 B2 JP5475704 B2 JP 5475704B2
Authority
JP
Japan
Prior art keywords
search
document
score
query
margin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011032319A
Other languages
Japanese (ja)
Other versions
JP2012173796A (en
Inventor
良彦 数原
潤 鈴木
宜仁 安田
義昌 小池
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011032319A priority Critical patent/JP5475704B2/en
Publication of JP2012173796A publication Critical patent/JP2012173796A/en
Application granted granted Critical
Publication of JP5475704B2 publication Critical patent/JP5475704B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書の検索結果を提示する装置およびその方法に関するものである。   The present invention relates to an apparatus and a method for presenting document search results.

ウェブ検索システムのような検索システムにおいては、TF−IDF(Term Frequency−Inverse Document Frequency)のようなクエリ頻度に基づくスコアや、PageRankのようなリンク解析に基づくスコアなど、多数の要因(スコア要因と呼ぶ)を用いて最終的なランキングに用いる検索スコアを算出する(非特許文献1参照)。そして、算出された検索スコアの降順に並べることによって、ランキングを行った検索結果を提示する方法が広く用いられている。   In a search system such as a web search system, there are many factors (score factors such as a score based on a query frequency such as TF-IDF (Term Frequency-Inverse Document Frequency) and a score based on link analysis such as PageRank). The search score used for the final ranking is calculated (see Non-Patent Document 1). A method of presenting the search results obtained by ranking by arranging the calculated search scores in descending order is widely used.

ここで多数のスコア要因を入力として受け取り、検索スコアを出力する関数をランキング関数と呼ぶ。適合度の高いランキングを実現するために、人手によって作成した訓練データを用いて、ランキング関数を生成する技術がある(非特許文献2参照)。   Here, a function that receives a large number of score factors as input and outputs a search score is called a ranking function. There is a technique for generating a ranking function using training data created manually in order to realize ranking with a high degree of fitness (see Non-Patent Document 2).

非特許文献2では、訓練データを文書の順序ペアに落とし込み、順序ペアの誤りを最小化することで、適切にランキングを行うランキング関数を生成する。   In Non-Patent Document 2, a training function is dropped into an ordered pair of documents, and an order pair error is minimized to generate a ranking function that performs ranking appropriately.

尚、本発明の文書検索装置で利用する検索結果評価指標については、下記非特許文献3に記載されている。   The search result evaluation index used in the document search apparatus of the present invention is described in Non-Patent Document 3 below.

竹野浩、井上孝史、「分散型高速情報収集/全文検索システムInfoBee/Evangelist」、NTT R&D Vol.52 No.2 2003、pp.78−84。Hiroshi Takeno, Takashi Inoue, “Distributed high-speed information collection / full-text search system InfoBee / Evangelist”, NTT R & D Vol. 52 no. 2 2003, pp. 78-84. Thorsten Joachims,“Optimizing Search Engines using Clickthrough Data”,In Proceedings of the eighth ACM international conference on Knowledge Discovery and Data mining(KDD ’02),2002,pp.133−142.Thorsten Joachims, “Optimizing Search Engineers using Clickthrough Data”, In Proceedings of the height of the ACM International Conference on Knowledge. 133-142. Kalervo Jarvelin and Jaana Kekalainen,“Cumulated Gain−Based Evaluation of IR Techniques”,ACM Transactions on Information Systems,Vol.20,No.4,2002,pp.422−446.Kalervo Jarvelin and Jana Kekarainen, “Cumulated Gain-Based Evaluation of IR Techniques”, ACM Transactions on Information Systems, Vol. 20, no. 4, 2002, pp. 422-446.

従来技術では、特徴空間におけるマージン(順序の誤りに対する重要度)は全ての順序ペアに対して一定であった。このため、検索結果上位に来るべき文書や下位に存在すべき文書などを区別することなく、全ての順序ペアを等しく扱う(順序の全組合せに対してマージンの重要度が等しい)という問題があった。このため、特に検索結果上位を重視するような評価指標の観点において、高精度なランキングを実現するランキング関数を生成できないという課題がある。   In the prior art, the margin in the feature space (importance for order errors) is constant for all ordered pairs. For this reason, there is a problem in that all order pairs are handled equally (the importance of the margin is the same for all combinations of orders) without distinguishing between documents that should be higher in the search results and documents that should exist in the lower order. It was. For this reason, there is a problem that it is not possible to generate a ranking function that realizes a highly accurate ranking, particularly from the viewpoint of an evaluation index that places importance on the higher search results.

本発明は上記課題を解決するものであり、その目的は、ランキング関数生成の性能を向上し検索ランキングの精度向上を実現した、文書検索装置、方法、プログラムを提供することにある。 The present invention solves the above-described problems, and an object of the present invention is to provide a document search apparatus, method, and program that improve the performance of ranking function generation and improve the accuracy of search ranking.

上記課題を解決するための本発明の文書検索装置は、N個のクエリに対する文書の検索結果の適合度と、M次元の特徴表現とを有した訓練データが格納された訓練データデータベースと、前記訓練データを入力とし、各クエリにおける複数の異なる適合度の組合せを求め、該組合せの順序を変更したときの検索結果評価指標値の変更幅を求め、前記指標値の最大の変更幅を基準としてクエリ毎に適合度の組合せに対する重要度を表すマージンを求め、N個のクエリと、前記適合度の組合せと、前記求められたマージンとを有したマージンデータベースを構築するマージン生成手段と、前記訓練データデータベースおよびマージンデータベースの各データを入力とし、訓練データ中の相対的に高い適合度の文書を検索結果上位に提示させる検索スコアを出力するためのスコア要因重みを保持したランキングモデルを生成してランキングモデルデータベースを構築するランキング関数生成手段と、予めWebページから収集した文書を基に作成された文書インデクスが格納された文書インデクスデータベースと、入力された検索クエリに対する検索結果集合を前記文書インデクスデータベースから取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出するクエリ処理手段と、前記クエリ処理手段で算出されたスコア要因値行列と、前記ランキングモデルデータベースのデータを入力とし、前記入力された検索クエリに対応する前記ランキングモデルデータベース内のランキングモデルとしてのスコア要因重みと、前記スコア要因値行列とを積算して検索スコアベクトルを計算する検索スコア計算手段と、前記検索スコア計算手段により計算された検索スコアの降順に入力クエリに対する検索結果を提示する検索結果提示手段と、を備えたことを特徴としている。 Document retrieval apparatus of the present invention for solving the above problems, the fitness of the search result document for the N query, and training data database training data and a feature representation of the M-dimensional is stored, Using the training data as input, obtain a plurality of combinations of different fitness values in each query, obtain a change width of the search result evaluation index value when the order of the combination is changed, and use the maximum change width of the index value as a reference Margin generating means for obtaining a margin representing importance for a combination of goodness for each query, and constructing a margin database having N queries, the combination of goodness of fit, and the obtained margin; Retrieval in which training data database and margin database data are used as input, and documents with relatively high fitness in training data are presented at the top of the search results. A ranking function generating means for generating a ranking model holding a score factor weight for outputting a core and building a ranking model database, and a document storing a document index created based on a document collected in advance from a Web page An index database, query processing means for obtaining a search result set for the input search query from the document index database, and calculating a score factor value matrix from the search result set and a plurality of score factors; and the query processing means Using the calculated score factor value matrix and the data of the ranking model database as input, the score factor weight as a ranking model in the ranking model database corresponding to the input search query, and the score factor value matrix Accumulate and search score vector It is characterized by comprising a search score calculating means for calculating, and a search result display means for presenting a search result for the input query in descending order of the calculated search score by the search score calculating means.

本発明によれば、検索評価指標に基づいてそれぞれのクエリにおける適合性評価の各組み合わせに対して適切なマージンを設定することが可能となり、これにより、ランキング関数生成の性能を向上し、検索ランキングの精度向上を実現することができる。   According to the present invention, it is possible to set an appropriate margin for each combination of suitability evaluation in each query based on the search evaluation index, thereby improving the performance of ranking function generation and search ranking. Improvement in accuracy can be realized.

本発明の一実施形態例の文書検索装置全体の構成図。1 is a configuration diagram of an entire document search apparatus according to an embodiment of the present invention. 図1のランキングモデルDB104を作成するランキング関数生成装置の構成図。The block diagram of the ranking function production | generation apparatus which produces the ranking model DB104 of FIG. 図2のマージン生成機能部120の処理の流れを示すフローチャート。3 is a flowchart showing a processing flow of a margin generation function unit 120 in FIG. 図1の文書検索装置の処理の流れを示すフローチャート。3 is a flowchart showing a flow of processing of the document search apparatus in FIG. 1.

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。まず本発明の一実施形態例の全体構成の概要を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments. First, an overview of the overall configuration of an embodiment of the present invention will be described.

本実施形態例の文書検索装置100は、図1に示すように、予めWebページから収集した文書を基に作成された文書インデクスデータが格納された文書インデクスDB(データベース)101、ランキングモデルのデータが格納されたランキングモデルDB104、クエリ処理手段としてのクエリ処理部150、検索スコア計算手段としての検索スコア計算部160および検索結果提示手段としての検索結果提示部170を備えている。   As shown in FIG. 1, the document search apparatus 100 according to the present embodiment includes a document index DB (database) 101 in which document index data created based on a document collected in advance from a Web page is stored, ranking model data, and the like. Is stored in the ranking model DB 104, a query processing unit 150 as a query processing unit, a search score calculation unit 160 as a search score calculation unit, and a search result presentation unit 170 as a search result presentation unit.

図1のランキングモデルDB104は、図2に示すように、N個のクエリに対する文書の検索結果の適合度と、M次元の特徴表現とを有した訓練データDB102に格納されているデータに基づいて、ランキング関数生成装置110の処理によって構築される。   As shown in FIG. 2, the ranking model DB 104 in FIG. 1 is based on data stored in the training data DB 102 having the fitness of document search results for N queries and the M-dimensional feature expression. It is constructed by the processing of the ranking function generation device 110.

図2のランキング関数生成装置110は、訓練データDB102を入力とし、クエリ毎に文書の検索結果の適合度の組合せに対する重要度(マージン)を生成し、マージンDB103を構築するマージン生成機能部120と、訓練データDB102およびマージンDB103の各データに基づいてランキングモデルを生成してランキングモデルDB104を構築する、ランキング関数生成手段としてのランキング関数生成部130とを備えている。   The ranking function generation device 110 in FIG. 2 receives the training data DB 102 as an input, generates an importance (margin) for a combination of suitability of document search results for each query, and creates a margin DB 103 and a margin generation function unit 120 A ranking function generating unit 130 as a ranking function generating unit that generates a ranking model based on each data of the training data DB 102 and the margin DB 103 and constructs the ranking model DB 104.

前記マージン生成機能部120およびマージンDB103によってマージン生成手段としてのマージン生成部140を構成している。   The margin generation function unit 120 and the margin DB 103 constitute a margin generation unit 140 as margin generation means.

図1および図2に示す文書検索装置100は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置、出力装置、表示装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。   A document search apparatus 100 shown in FIGS. 1 and 2 is configured by a computer, for example, and is a normal computer hardware resource, for example, ROM, RAM, CPU, input device, output device, display device, communication interface, hard disk, recording medium And a driving device thereof.

このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、文書検索装置100は、図1、図2に示すように、文書インデクスDB101、訓練データDB102、マージンDB103、ランキングモデルDB104、ランキング関数生成部130、マージン生成部140、クエリ処理部150、検索スコア計算部160および検索結果提示部170を実装する。   As a result of the cooperation between the hardware resource and the software resource (OS, application, etc.), the document search apparatus 100 has a document index DB 101, a training data DB 102, a margin DB 103, and a ranking model DB 104 as shown in FIGS. The ranking function generation unit 130, the margin generation unit 140, the query processing unit 150, the search score calculation unit 160, and the search result presentation unit 170 are mounted.

前記文書インデクスDB101、訓練データDB102、マージンDB103、ランキングモデルDB104は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。   It is assumed that the document index DB 101, the training data DB 102, the margin DB 103, and the ranking model DB 104 are constructed in storage means / storage means such as a hard disk or RAM.

次に、上記のように構成された装置の詳細を説明する。   Next, details of the apparatus configured as described above will be described.

まず図2において、ランキング関数生成装置110は、訓練データDB102内の訓練データを入力として受け取り、ランキングモデルのデータを出力してランキングモデルDB104を構築する。   First, in FIG. 2, the ranking function generation device 110 receives the training data in the training data DB 102 as an input, outputs the ranking model data, and constructs the ranking model DB 104.

訓練データDB102のデータ構造の例を表1に示す。   An example of the data structure of the training data DB 102 is shown in Table 1.

Figure 0005475704
Figure 0005475704

表1において、それぞれの行が、あるクエリに対する検索結果文書の特徴表現と適合度を表している。適合度が大きい方が、当該クエリに対してより適切な結果であることを示している。適合度は、クエリと文書に対して付与されているため、たとえ同じ文書であっても、クエリによっては異なる適合度が付与されることがある。適合度は、例えば被験者が判断して付与した多段階(例えば5段階)の値を用いる。各文書はM次元の特徴表現で表され、x1,..,xMは当該文書の各次元の特徴量を表している。 In Table 1, each row represents the feature expression and the fitness of the search result document for a certain query. A higher matching score indicates a more appropriate result for the query. Since the matching level is given to the query and the document, different matching levels may be given depending on the query even for the same document. For example, a multi-level (for example, five levels) value determined and given by the subject is used as the fitness. Each document is represented by an M-dimensional feature representation, x 1 ,. . , X M represent feature quantities of each dimension of the document.

<マージン生成機能部120>
マージン生成機能部120は、訓練データDB102を受け取り、図3のステップS121〜S129に示す処理を行なってマージンDB103を出力する。マージンDB103のデータ構造の例を表2に示す。
<Margin Generation Function Unit 120>
The margin generation function unit 120 receives the training data DB 102, performs the processing shown in steps S121 to S129 in FIG. 3, and outputs the margin DB 103. An example of the data structure of the margin DB 103 is shown in Table 2.

Figure 0005475704
Figure 0005475704

表2では、各クエリにおいて、任意の適合度の組み合わせに対するマージンの値を表している。この例では適合度の降順に考え、上位は適合度がより高い値、下位は相対的に低い値とする。例えば表2の1行目の例は、クエリID1のクエリにおいて、適合度4の文書と適合度3の文書に対してどの程度のマージンを与えるかという情報を保持している。   Table 2 shows a margin value for an arbitrary combination of suitability in each query. In this example, the order of suitability is considered in descending order, and the higher order is a value with a higher degree of fit, and the lower order is a relatively low value. For example, the example of the first row in Table 2 holds information on how much margin is given to a document with a fitness level 4 and a document with a fitness level 3 in a query with a query ID 1.

まず図3のステップS121において、訓練データDB102から未処理のクエリqを選択する。   First, in step S121 of FIG. 3, an unprocessed query q is selected from the training data DB.

次にステップS122において、訓練データDB102の中からクエリIDがクエリqに該当するレコードを取得し、該当する文書を適合度順に並べたリストをπqとする。   Next, in step S122, a record in which the query ID corresponds to the query q is acquired from the training data DB 102, and a list in which the corresponding documents are arranged in the order of suitability is defined as πq.

次にステップS123において、クエリqの文書の適合度の集合Rを取得し、適合度の組み合わせRpair={ri,rj∈R|ri>rj}を算出する。ここでは、適合度の高い点数と低い点数の全ての組み合わせを求めている。 Next, in step S123, a set R of matching levels of documents of the query q is acquired, and a matching level combination R pair = {r i , r j εR | r i > r j } is calculated. Here, all combinations of scores with high and low scores are obtained.

次にステップS124において、Rpairから未処理の適合度ペアriとrjを取得する。 In step S124, unprocessed fitness pairs r i and r j are acquired from R pair .

次にステップS125では、πqにおいて、riの適合度を持つ文書の最上位とrjの最下位の文書を交換し、そのリストをπq′とする。ここで、例えばあるクエリに対する8文書が適合度の降順に並べられ、それぞれの適合度が(A,B,C,D,E,F,G,H)=(4,4,4,3,3,2,1,1)のように与えられている例を考える。この際、適合度4の最上位文書はAであり、適合度3の最下位文書はEである。そのため、この二つの文書を交換した文書とその適合度は、(E,B,C,D,A,F,G,H)=(3,4,4,3,4,2,1,1)となる。なお、検索結果評価指標は検索結果の位置とその適合度に対して決定されるため、異なる位置かつ同じ適合度の文書が交換されても値は変わらない。 Next, in step S125, at π q , the highest document of the documents having the fitness of r i and the lowest document of r j are exchanged, and the list is set to π q ′. Here, for example, eight documents corresponding to a certain query are arranged in descending order of suitability, and each suitability is (A, B, C, D, E, F, G, H) = (4, 4, 4, 3, Consider the example given as 3, 2, 1, 1). At this time, the highest level document with a fitness level of 4 is A, and the lowest level document with a fitness level of 3 is E. Therefore, a document obtained by exchanging these two documents and its relevance are (E, B, C, D, A, F, G, H) = (3,4, 4, 3, 4, 2, 1, 1 ) Since the search result evaluation index is determined with respect to the position of the search result and its relevance, the value does not change even if documents having different positions and the same relevance are exchanged.

予め与えられた検索結果指標、例えばNormalized Discounted Cumulative Gain(NDCG)の値にしたがって、評価指標の減少値ΔE(ri,rj)=Eval(πq)−Eval(πq′)を計算する(検索結果評価指標値の変更幅を求める)。尚前記NDCGは、非特許文献3の技術を用いて計算することができる。 A reduction value ΔE (r i , r j ) = Eval (π q ) −Eval (π q ′) of the evaluation index is calculated in accordance with a search result index given in advance, for example, a value of Normalized Discounted Cumulative Gain (NDCG). (Find the range of change of the search result evaluation index value). The NDCG can be calculated using the technique of Non-Patent Document 3.

次にステップS126において、未処理のri,rjがある場合にはステップS124に戻り、ない場合にはステップS127に進む。 Next, in step S126, if there are unprocessed r i and r j , the process returns to step S124, and if not, the process proceeds to step S127.

ステップS127では、検索結果指標の減少値そのままではマージンに不適切な値である可能性があるので、最大の減少値を示した組み合わせに対して、予め設定された最大マージンサイズEmaxを与える。すなわち、 In step S127, since the decrease value of the search result index may be an inappropriate value for the margin, a preset maximum margin size E max is given to the combination showing the maximum decrease value. That is,

Figure 0005475704
Figure 0005475704

を用いてスケールを計算する。   Use to calculate the scale.

次にステップS128において、クエリqにおける全ての適合度の組み合わせに対するマージンをマージンDB103に出力する。マージンはステップS127で計算したスケールをかけて(EscaleΔE(ri,rj))出力する。すなわち、[q,ri,rj,EscaleΔE(ri,rj)]という4つの情報から成るレコードをマージンDB103に出力する。 Next, in step S128, margins for all the combinations of matching levels in the query q are output to the margin DB 103. The margin is output with the scale calculated in step S127 (E scale ΔE (r i , r j )). That is, a record including four pieces of information [q, r i , r j , E scale ΔE (r i , r j )] is output to the margin DB 103.

次にステップS129において、未処理のクエリがある場合にはステップS121に戻り、そうでなければ処理を終了する。   Next, in step S129, if there is an unprocessed query, the process returns to step S121, and if not, the process ends.

上記のように、マージン生成機能部120の動作によって、それぞれのクエリにおける適合性評価の各組合せに対してマージンサイズを設定することが可能となる。   As described above, the margin size can be set for each combination of suitability evaluation in each query by the operation of the margin generation function unit 120.

<ランキング関数生成部130>
ランキング関数生成部130は、訓練データDB102と、マージンDB103を入力として受け取り、訓練データ中の相対的に高い適合度の文書が検索結果上位に提示されるように作用するスコア要因重みを保持したランキングモデルDB104を出力する。
<Ranking function generator 130>
The ranking function generation unit 130 receives the training data DB 102 and the margin DB 103 as inputs, and holds ranking factor weights that act so that documents with relatively high fitness in the training data are presented at the top of the search results. The model DB 104 is output.

ランキングモデルDB104のデータ構造の例を表3に示す。   An example of the data structure of the ranking model DB 104 is shown in Table 3.

Figure 0005475704
Figure 0005475704

ランキングモデルDB104は、生成されたランキングモデル、すなわちM次元の特徴表現に対する重み情報を保持しており、表3において、w1,.,wMはM次元の重みの値を表している。 The ranking model DB 104 holds weight information for the generated ranking model, that is, the M-dimensional feature expression. In Table 3, w 1 ,. , W M represent M-dimensional weight values.

ランキング関数生成部130は、入力で与えられた訓練データDB102を元に、相対的に高い適合度の文書が検索結果上位に提示されるような検索スコアを出力するため、重みベクトルwを生成するものである。   The ranking function generation unit 130 generates a weight vector w in order to output a search score such that a document with a relatively high relevance is presented at the top of the search result based on the training data DB 102 given as input. Is.

ランキング関数生成部130には、例えば非特許文献2の技術を用いることができる。ランキング関数生成部130で用いられる目的関数に、マージン生成機能部120によって生成されたマージンDB103を利用する。非特許文献2で用いられるヒンジ誤差にマージンを組み込むためには、下記式(1)のように誤差関数を設定する。   For the ranking function generation unit 130, for example, the technique of Non-Patent Document 2 can be used. The margin DB 103 generated by the margin generation function unit 120 is used as the objective function used by the ranking function generation unit 130. In order to incorporate a margin into the hinge error used in Non-Patent Document 2, an error function is set as in the following equation (1).

Figure 0005475704
Figure 0005475704

式(1)において、xq (1),xq (2)は、クエリqに対してそれぞれ異なる文書(1)と文書(2)の特徴表現ベクトルを表現している。E(relq(1),relq(2))は、文書(1)と文書(2)の適合度の組み合わせに対するマージンの大きさを表しており、マージンDB103から取得する。また、λは正則化パラメータであり、訓練データにどれだけフィットさせるかという調整する役割を持っている。λを大きな値に設定することによって、訓練データに対して過剰にフィットすることを抑える。λはあらかじめ値を設定しておく(例えば1.0)。 In Expression (1), x q (1) and x q (2) represent feature expression vectors of the document (1) and the document (2) that are different from each other for the query q. E (rel q (1), rel q (2)) represents the size of the margin for the combination of the matching degrees of the document (1) and the document (2), and is acquired from the margin DB 103. Further, λ is a regularization parameter and has a role of adjusting how much the training data is fit. Setting λ to a large value prevents excessive fitting to the training data. A value is set in advance for λ (for example, 1.0).

ここでrelq(i)がクエリqにおける文書iの適合度スコアを表している。また、zq (1),(2)は文書(1)の適合度スコアと文書(2)の適合度スコアの差を表し、zq (1),(2)≡sign(relq (1)−relq (2))にしたがって算出される。尚signは、値が正であれば1、負であれば−1、0であれば0を返す符号関数である。 Here, rel q (i) represents the fitness score of the document i in the query q. Z q (1), (2) represents the difference between the fitness score of document (1) and the fitness score of document (2), and z q (1), (2) ≡sign (rel q (1 ) -Rel q (2) ). The sign is a sign function that returns 1 if the value is positive, -1 if the value is negative, and 0 if the value is 0.

また、[・]+は、・が正の値を取る場合のみその値を返し、0未満の場合には常に0を返す演算である。 [·] + Is an operation that returns a value only when • takes a positive value, and always returns 0 when less than 0.

ここで   here

Figure 0005475704
Figure 0005475704

はxを引数として取る関数f(x)の最小値を取る際のxを返す関数である。 全クエリにおける全ての順序ペアについて、式(1)に示す誤差の合計が最小になるようにwを設定する。訓練データDB102を用いた、式(1)を誤差関数とする重みパラメータwの探索には、勾配法などの最適化手法を用いることが可能であり、これらを用いて重みパラメータを求める。   Is a function that returns x when taking the minimum value of the function f (x) that takes x as an argument. For all ordered pairs in all queries, w is set so that the sum of errors shown in Equation (1) is minimized. An optimization method such as a gradient method can be used to search for the weight parameter w using Equation (1) as an error function using the training data DB 102, and the weight parameter is obtained using these.

次に図1の文書検索装置100の詳細を図4のフローチャートとともに説明する。   Next, details of the document search apparatus 100 of FIG. 1 will be described with reference to the flowchart of FIG.

<クエリ処理部150>
クエリ処理部150は、検索クエリを入力として受け取り、該検索クエリを含む検索結果集合(文書)を文書インデクスDB101から取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出する(ステップS150)。
<Query processing unit 150>
The query processing unit 150 receives a search query as input, acquires a search result set (document) including the search query from the document index DB 101, and calculates a score factor value matrix using the search result set and a plurality of score factors. (Step S150).

具体的には、M個のスコア要因を用いて、文書インデクスDB101からN件の検索結果集合を取得した際、そのスコア要因値行列は、   Specifically, when N search result sets are acquired from the document index DB 101 using M score factors, the score factor value matrix is:

Figure 0005475704
Figure 0005475704

と表現する。ここで、Dのi行目がi番目の検索結果のスコア要因値を表している。例えば、d23は、2番目の文書に対する3番目のスコア要因値である。 It expresses. Here, the i-th row of D represents the score factor value of the i-th search result. For example, d 23 is the third score factor value for the second document.

<検索スコア計算部160>
検索スコア計算部160は、クエリ処理部150が出力したスコア要因値行列D、ランキングモデルDB104のデータおよび入力された検索クエリqinputを各々入力として受け取る。
<Search score calculation unit 160>
The search score calculation unit 160 receives the score factor value matrix D output from the query processing unit 150, the data of the ranking model DB 104, and the input search query q input as inputs.

検索スコア計算部160は、ランキングモデルDB104からスコア要因重みwを取得し、該スコア要因重みwとスコア要因値行列Dを元に検索スコアベクトルを計算する(ステップS160)。   The search score calculation unit 160 acquires the score factor weight w from the ranking model DB 104, and calculates a search score vector based on the score factor weight w and the score factor value matrix D (step S160).

検索ランキングに用いるための検索スコアベクトルsは、スコア要因値行列Dと、スコア要因重みwの積によって得られる。   The search score vector s for use in the search ranking is obtained by the product of the score factor value matrix D and the score factor weight w.

Figure 0005475704
Figure 0005475704

すなわちi番目の文書に対する検索スコアsiは、 That is, the search score s i for the i-th document is

Figure 0005475704
Figure 0005475704

によって算出する。   Calculated by

<検索結果提示部170>
検索結果提示部170は、前記算出された検索スコアベクトルsを受け取り、検索スコアsiの降順に、クエリに対する検索結果を提示する(表示、又はデータとして出力する)(ステップS170)。
<Search result presentation unit 170>
The search result presentation unit 170 receives the calculated search score vector s, and presents the search results for the query in the descending order of the search scores s i (displays or outputs as data) (step S170).

また、本実施形態のマージン生成機能を有するランキング関数生成装置を用いた文書検索装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態のマージン生成機能を有するランキング関数生成装置を用いた文書検索方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。   Further, some or all of the functions of each means in the document search apparatus using the ranking function generation apparatus having a margin generation function according to the present embodiment are configured by a computer program, and the program is executed using the computer. Needless to say, the invention can be realized, and the procedure in the document search method using the ranking function generation device having the margin generation function of the present embodiment can be configured by a computer program and the program can be executed by the computer. A program for realizing the functions of the computer is recorded on a computer-readable recording medium such as FD (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory). y) Recording on a memory card, CD (Compact Disk) -ROM, DVD (Digital Versatile Disk) -ROM, CD-R, CD-RW, HDD, removable disk, etc. for storage and distribution Is possible. It is also possible to provide the above program through a network such as the Internet or electronic mail.

100…文書検索装置
101…文書インデクスDB
102…訓練データDB
103…マージンDB
104…ランキングモデルDB
110…ランキング関数生成装置
120…マージン生成機能部
130…ランキング関数生成部
140…マージン生成部
150…クエリ処理部
160…検索スコア計算部
170…検索結果提示部
DESCRIPTION OF SYMBOLS 100 ... Document retrieval apparatus 101 ... Document index DB
102 ... Training data DB
103 ... Margin DB
104 ... Ranking model DB
DESCRIPTION OF SYMBOLS 110 ... Ranking function generation apparatus 120 ... Margin generation function part 130 ... Ranking function generation part 140 ... Margin generation part 150 ... Query processing part 160 ... Search score calculation part 170 ... Search result presentation part

Claims (3)

N個のクエリに対する文書の検索結果の適合度と、M次元の特徴表現とを有した訓練データが格納された訓練データデータベースと、
前記訓練データを入力とし、各クエリにおける複数の異なる適合度の組合せを求め、該組合せの順序を変更したときの検索結果評価指標値の変更幅を求め、前記指標値の最大の変更幅を基準としてクエリ毎に適合度の組合せに対する重要度を表すマージンを求め、N個のクエリと、前記適合度の組合せと、前記求められたマージンとを有したマージンデータベースを構築するマージン生成手段と、
前記訓練データデータベースおよびマージンデータベースの各データを入力とし、訓練データ中の相対的に高い適合度の文書を検索結果上位に提示させる検索スコアを出力するためのスコア要因重みを保持したランキングモデルを生成してランキングモデルデータベースを構築するランキング関数生成手段と、
予めWebページから収集した文書を基に作成された文書インデクスが格納された文書インデクスデータベースと、
入力された検索クエリに対する検索結果集合を前記文書インデクスデータベースから取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出するクエリ処理手段と、
前記クエリ処理手段で算出されたスコア要因値行列と、前記ランキングモデルデータベースのデータを入力とし、前記入力された検索クエリに対応する前記ランキングモデルデータベース内のランキングモデルとしてのスコア要因重みと、前記スコア要因値行列とを積算して検索スコアベクトルを計算する検索スコア計算手段と、
前記検索スコア計算手段により計算された検索スコアの降順に入力クエリに対する検索結果を提示する検索結果提示手段と、
を備えたことを特徴とする文書検索装置。
A training data database in which training data having a matching degree of a document search result with respect to N queries and an M-dimensional feature expression are stored;
Using the training data as input, obtain a plurality of combinations of different fitness values in each query, obtain a change width of the search result evaluation index value when the order of the combination is changed, and use the maximum change width of the index value as a reference Margin generating means for obtaining a margin representing importance for the combination of matching levels for each query, and constructing a margin database having N queries, the combination of matching levels, and the determined margin;
Using the training data database and the margin database as input, generate a ranking model that retains score factor weights for outputting a search score that causes a document with relatively high fitness in the training data to be presented at the top of the search results And a ranking function generation means for constructing a ranking model database,
A document index database in which a document index created based on a document collected in advance from a Web page is stored;
Query processing means for acquiring a search result set for the input search query from the document index database, and calculating a score factor value matrix from the search result set and a plurality of score factors;
The score factor value matrix calculated by the query processing means and the data of the ranking model database are input, the score factor weight as a ranking model in the ranking model database corresponding to the input search query, and the score A search score calculating means for calculating a search score vector by integrating the factor value matrix;
Search result presenting means for presenting search results for the input query in descending order of the search score calculated by the search score calculating means;
A document retrieval apparatus comprising:
文書検索装置のマージン生成手段が、N個のクエリに対する文書の検索結果の適合度と、M次元の特徴表現とを有した訓練データが格納された訓練データデータベース内の訓練データを入力とし、各クエリにおける複数の異なる適合度の組合せを求め、該組合せの順序を変更したときの検索結果評価指標値の変更幅を求め、前記指標値の最大の変更幅を基準としてクエリ毎に適合度の組合せに対する重要度を表すマージンを求め、N個のクエリと、前記適合度の組合せと、前記求められたマージンとを有したマージンデータベースを構築するマージン生成ステップと、
文書検索装置のランキング関数生成手段が、前記訓練データデータベースおよびマージンデータベースの各データを入力とし、訓練データ中の相対的に高い適合度の文書を検索結果上位に提示させる検索スコアを出力するためのスコア要因重みを保持したランキングモデルを生成してランキングモデルデータベースを構築するランキング関数生成ステップと、
文書検索装置のクエリ処理手段が、入力された検索クエリに対する検索結果集合を、予めWebページから収集した文書を基に作成された文書インデクスが格納された文書インデクスデータベースから取得し、該検索結果集合と複数のスコア要因とでスコア要因値行列を算出するクエリ処理ステップと、
文書検索装置の検索スコア計算手段が、前記クエリ処理手段で算出されたスコア要因値行列と、前記ランキングモデルデータベースのデータを入力とし、前記入力された検索クエリに対応する前記ランキングモデルデータベース内のランキングモデルとしてのスコア要因重みと、前記スコア要因値行列とを積算して検索スコアベクトルを計算する検索スコア計算ステップと、
文書検索装置の検索結果提示手段が、前記検索スコア計算手段により計算された検索スコアの降順に入力クエリに対する検索結果を提示する検索結果提示ステップと、
を備えたことを特徴とする文書検索方法。
The margin generation means of the document search apparatus receives training data in a training data database in which training data having a fitness of a document search result for N queries and an M-dimensional feature expression are stored, A combination of a plurality of different fitness values in a query is obtained, a change width of a search result evaluation index value when the order of the combinations is changed, and a combination of fitness levels for each query based on the maximum change width of the index value A margin generation step of obtaining a margin representing an importance level for the N, and constructing a margin database having N queries, a combination of the matching degrees, and the determined margin;
A ranking function generating means of the document search device receives each data of the training data database and the margin database as an input, and outputs a search score for causing a document with a relatively high fitness in the training data to be presented at the top of the search results. A ranking function generation step of generating a ranking model holding score factor weights and constructing a ranking model database;
The query processing means of the document search apparatus acquires a search result set for the input search query from a document index database in which a document index created based on a document previously collected from a Web page is stored, and the search result set And a query processing step for calculating a score factor value matrix with a plurality of score factors,
The search score calculation means of the document search device receives the score factor value matrix calculated by the query processing means and data of the ranking model database, and ranks in the ranking model database corresponding to the input search query A search score calculation step for calculating a search score vector by accumulating the score factor weight as a model and the score factor value matrix;
A search result presenting step in which the search result presenting means of the document search device presents the search result for the input query in descending order of the search score calculated by the search score calculating means;
A document search method characterized by comprising :
コンピュータを請求項1に記載の各手段として機能させる文書検索プログラム。 A document search program for causing a computer to function as each means according to claim 1 .
JP2011032319A 2011-02-17 2011-02-17 Document search apparatus, document search method, and document search program Expired - Fee Related JP5475704B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011032319A JP5475704B2 (en) 2011-02-17 2011-02-17 Document search apparatus, document search method, and document search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011032319A JP5475704B2 (en) 2011-02-17 2011-02-17 Document search apparatus, document search method, and document search program

Publications (2)

Publication Number Publication Date
JP2012173796A JP2012173796A (en) 2012-09-10
JP5475704B2 true JP5475704B2 (en) 2014-04-16

Family

ID=46976680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011032319A Expired - Fee Related JP5475704B2 (en) 2011-02-17 2011-02-17 Document search apparatus, document search method, and document search program

Country Status (1)

Country Link
JP (1) JP5475704B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10853428B2 (en) * 2017-07-14 2020-12-01 Facebook, Inc. Computing a ranked feature list for content distribution in a first categorization stage and second ranking stage via machine learning
CN117389954B (en) * 2023-12-13 2024-03-29 湖南汇智兴创科技有限公司 Online multi-version document content positioning method, device, equipment and medium

Also Published As

Publication number Publication date
JP2012173796A (en) 2012-09-10

Similar Documents

Publication Publication Date Title
KR102046096B1 (en) Resource efficient document search
US7953679B2 (en) Scalable indexing for layout based document retrieval and ranking
JP5755822B1 (en) Similarity calculation system, similarity calculation method, and program
JP2015522889A (en) Method and system for ranking search results, and method and system for optimizing ranking of search results
EP2774061A1 (en) Method and apparatus of ranking search results, and search method and apparatus
WO2006115260A1 (en) Device for automatically creating information analysis report, program for automatically creating information analysis report, and method for automatically creating information analysis report
JP5552448B2 (en) Retrieval expression generation device, retrieval system, and retrieval expression generation method
Valcarce et al. Additive smoothing for relevance-based language modelling of recommender systems
CN106372043B (en) A method of Documents Similarity is determined based on improved Jaccard coefficient
JP2017182724A (en) Item recommendation program, item recommendation method, and item recommendation apparatus
WO2020157728A1 (en) Search and ranking of records across different databases
CN110795613B (en) Commodity searching method, device and system and electronic equipment
JP2016018286A (en) Action type discrimination system, action type discrimination method, and action type discrimination program
WO2014034383A1 (en) Information processing device, record location information specification method, and information processing program
JP5048852B2 (en) Search device, search method, search program, and computer-readable recording medium storing the program
KR101710010B1 (en) Document summarization method considering relative characteristics in a document set and document summarization system using thereof
JP5475704B2 (en) Document search apparatus, document search method, and document search program
JP5010624B2 (en) Search device
US20150169725A1 (en) Clustering Queries For Image Search
JP5820784B2 (en) Search result output device, search result output method and program
CN110413763A (en) Searching order device automatically selects
JP2010128598A (en) Document retrieving device and method, program and recording medium with program recorded thereon
US20180068005A1 (en) Distributed computation of percentile statistics for multidimensional data sets
JP2018060379A (en) Searching means selecting program, searching means selecting method and searching means selecting device
JP5094915B2 (en) Search device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140206

R150 Certificate of patent or registration of utility model

Ref document number: 5475704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees