JP7464814B2

JP7464814B2 - 情報処理装置、制御方法、プログラム

Info

Publication number: JP7464814B2
Application number: JP2019198690A
Authority: JP
Inventors: 敬己下郡山
Original assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Current assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2024-04-10
Anticipated expiration: 2039-10-31
Also published as: JP2021071957A

Description

本発明は、データの特徴に応じた学習モデル選定の技術に関する。

従来からユーザに対して適切な検索結果を提示するため、検索条件と文書群に含まれる各文書に含まれるターム（形態素解析、Ｎ－Ｇｒａｍなど一定の基準で切り出した文字列）の関連性を統計値として算出する技術がある。これらの技術を類似検索などと呼ぶ（以下、本発明の説明において、当該技術を統一的に類似検索と呼ぶこととし、本願発明における後述の順位学習による検索とは区別することにする）。

また、学習データと検索対象となる文書群が類似する場合の特徴量を機械学習によりモデル化し、新たな検索条件が指定された場合に、当該学習モデルに基づきランキング調整をすることで、類似検索の精度を向上させる順位学習の技術がある。

順位学習には大量の学習データが必要であるが、学習データの収集は困難である。類似検索をシステムとして運用開始した後にユーザの検索ログから学習データを収集することも考えられるが、検索結果の評価にはユーザの負荷がかかることもあり、十分な量のログ収集が可能とは言い切れない。また運用開始前には、開発者がテスト用に作成した学習データなどに限定される。

特許文献１は、予め用意された回答（いわばＦＡＱの文書群）に対して、ユーザからの問い合わせに対して最も類似した質問（学習データの質問文）を見つけ、対応する回答を返す技術に対して、質問文が少ない場合でもトピック推定精度を高める技術を提供している。

具体的には、学習データの質問文に現れる単語に対して、対応する回答内の単語に置換することによって、学習データの質問文を拡張する、すなわち学習データの件数を増やしている。また拡充した質問文のうち不自然な質問文を除外するため、確率言語モデルを用いて質問文の存在確率を計算し、存在確率がある閾値を超える場合のみ学習データとして用いるとしている。

特開２０１７－３７５８８号公報

しかしながら、特許文献１の技術においては、確率言語モデルを用いて拡充された質問文が適切であるか否かを判定しているが、置換された単語はあくまで予め用意された回答に含まれるものであり、専門用語やある組織特有の用語が使用されている可能性がある。その場合、確率言語モデルでは事例が不足していて、質問文が適切に拡充されない場合も発生する。

さらに特許文献１の技術においては、学習データとして用いる質問文を拡充させることで学習効果を高めること目的である。しかしながら学習データの件数が増加すると学習に要する計算時間が膨大になり、実用的ではなくなってしまうことある。

本発明の目的は、データの検索時に適切な学習モデルを選択する技術を提供することである。

本発明は、学習モデルを管理する情報処理装置であって、検索条件に従って検索されたデータを分類したグループのうち、指定を受け付けたグループに含まれるデータを示す第１の特徴データを決定する決定手段と、前記決定された第１の特徴データと、学習モデルに関連付けられ、当該学習モデルの学習に用いられたデータを示す第２の特徴データとに従って、学習モデルを選定する選定手段と、を備えることを特徴とする。

本発明により、データの検索時に適切な学習モデルを選択する技術を提供することが可能となる。

本発明の実施形態に係る機能構成の一例を示す図である。本発明の実施形態に係る情報処理装置１００に適用可能なハードウェア構成の一例を示すブロック図である。本発明の実施形態に係わる検索条件の入力と検索結果から正解を指定するユーザインタフェースの一例である。本発明の実施形態に係わる類似検索の検索結果の一例である。本発明の実施形態に係る検索結果をクラスタリングした結果の一例である。本発明の実施形態に係わるクラスタリングを用いてドリルダウンした結果の一例である。本発明の実施形態に係る学習データ記憶部に登録された学習データの構造の一例である。本発明の実施形態に係る学習モデル生成の処理を説明するフローチャートの一例である。本発明の実施形態に係る学習データのグループ類似度とグループ化を説明する図の一例である。本発明の実施形態に係る学習モデルを記憶する際のデータ構造と検索時に選択されたクラスタの類似度計算を説明する図の一例である。本発明の実施形態に係る検索処理を説明するフローチャートの一例である。

本発明においては機械学習により従来型の文書の検索結果を、機械学習を利用して検索順位を改めて指定し直す。これを順位学習などと呼ぶ。特に本発明では説明の便宜上、事前に学習モデルを決定する処理を“学習モデルの生成”、実際にユーザなどの検索条件に基づく検索結果を、生成された学習モデルを用いて順位を指定し直す処理を“再ランク付け”と呼ぶことにする。

本発明の特徴は、次の３点にある。まず分類情報がない文書群に対して、後述の学習モデルを生成するために学習データをどのように記憶させるかということである。２点目に前記の学習データを元に、学習データとなる文書群をどのように一部に限定して学習モデルを生成するかである。３点目に検索時に動的にクラスタリングされた文書群の再ランク付けに際し、複数ある学習モデルの中から適切な学習モデルをいかに選択するかである。

以下、本発明の実施の形態を、図面を参照して詳細に説明する。

図１は、本発明の実施形態に係る機能構成の一例を示す図である。検索条件受付部１０１は、検索ユーザまたは他のプログラムから検索条件（文字列）を受け付けて、類似検索部１０２に送る。類似検索部１０２は、文書記憶部１２１を検索して検索条件に記載された条件にヒットした検索結果、すなわち文書一覧を取得する。この検索処理は単語の出現頻度などに基づき検索条件と文書の類似度を計算しその上位の文書を検索結果の文書一覧にする、など様々な周知の技術があり説明を省略する。

前記検索結果である文書一覧はクラスタリング部１０３に渡され、自然言語処理にて各文書の類似度に基づきクラスタに分割する。クラスタリングについても周知の技術であり説明を省略する。またクラスタリングでは、１つの文書を必ず１つのクラスタに分類する方式と、１つの文書が複数のクラスタに含まれることを許容する方式があるが、本願発明ではそのいずれを用いても良い。

表示部１０４は、前記クラスタを表示して例えばユーザにクラスタのうちの１つを選択させる。ユーザが選択したクラスタを受け付けて当該クラスタに分類された文書群（前記検索結果の文書一覧の一部）を表示する。その際に、学習モデル選択部１０５はユーザが選択したクラスタに応じて、学習モデル記憶部１２３から適切な学習モデルを選択し、当該学習モデルに従って前記文書群を再ランク付けして表示部１０４に表示する。

また前記表示部１０４でユーザが選択したクラスタに含まれる前記前記文書群から例えばユーザに１つの文書を選択させ、当該文書を前記検索条件に対する正解として学習データ登録部１０７に渡し、当該学習データ登録部１０７は学習データを構成して学習データ記憶部１２２に登録する。

学習モデル生成部１０８は、学習データ記憶部１２２に記憶された学習データを用いて再ランク付けのための学習モデルを生成する。全ての学習データを用いて１つの学習モデルを生成するのではなく、生成モデル決定部１０９は当該学習データが登録された際のクラスタに含まれる文書群に関する情報を用いて学習データをグループ化し、そのグループに基づいて学習モデル生成部１０８が当該グループ毎に学習モデルを生成する。

図２は、本発明の実施形態に係る情報処理装置１００に適用可能なハードウェア構成の一例を示すブロック図である。

図２に示すように、情報処理装置１００は、システムバス２０４を介してＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０３、入力コントローラ２０５、ビデオコントローラ２０６、メモリコントローラ２０７、通信Ｉ／Ｆコントローラ２０８等が接続された構成を採る。

ＣＰＵ２０１は、システムバス２０４に接続される各デバイスやコントローラを統括的に制御する。

また、ＲＯＭ２０３あるいは外部メモリ２１１には、ＣＰＵ２０１の制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や、各サーバあるいは各ＰＣが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。

ＲＡＭ２０２は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０３あるいは外部メモリ２１１からＲＡＭ２０２にロードし、ロードしたプログラムを実行することで各種動作を実現する。

また、入力コントローラ２０５は、キーボード（ＫＢ）２０９や不図示のマウス等のポインティングデバイス等からの入力を制御する。

ビデオコントローラ２０６は、ディスプレイ２１０等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。

メモリコントローラ２０７は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置（ハードディスク（ＨＤ））や、フレキシブルディスク（ＦＤ）、あるいは、ＰＣＭＣＩＡ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒＭｅｍｏｒｙＣａｒｄＩｎｔｅｒｎａｔｉｏｎａｌＡｓｓｏｃｉａｔｉｏｎ）カードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等の外部メモリ２１１へのアクセスを制御する。

通信Ｉ／Ｆコントローラ２０８は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ／ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）を用いた通信等が可能である。

尚、ＣＰＵ２０１は、例えばＲＡＭ２０２内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ディスプレイ２１０上に表示することが可能である。また、ＣＰＵ２０１は、ディスプレイ２１０上のマウスカーソル（図示しない）等によるユーザ指示を可能とする。

本発明を実現するための後述する各種プログラムは、外部メモリ２１１に記録されており、必要に応じてＲＡＭ２０２にロードされることによりＣＰＵ２０１によって実行されるものである。

次に図３から図６を用いて検索の概要を説明する。図３は、本発明の実施形態に係わる検索条件の入力と検索結果から正解を指定するユーザインタフェースの一例である。

条件検索入力画面３０１は、検索ユーザが質問文欄３１１に「大谷選手の打撃成績」を入力し、検索ボタン３１２を押下することで検索を開始する画面である。

検索ユーザが最終的に閲覧したい文書データの一覧を文書閲覧画面３０２で説明する。表示領域３２１に、文書のＩＤが”００２８”であること、タイトル、本文などが表示される。

また、検索ユーザが表示領域３２１に表示された文書を閲覧して、まさに自身が見たかった情報であると判断すれば、正解ボタン３２２を押下することで、学習データ記憶部１２２に登録させることができる。

しかし、文書ＩＤ”００２８”にたどり着くためには、まず図４の検索結果一覧４００が提示される。一般的に前記検索結果一覧４００が検索ユーザに提示されることが多いが、一部の商用システムには自動分類して、検索ユーザに提示する文書群を限定することがある。これは登録されている文書の数にもよるが、検索条件に対して数百件がヒットした場合に、検索ユーザが求める情報にたどり着くのは大変であり、何らかの方法で、例えば検索ユーザに再度何かの条件を指定させることで数十件に限定することで求める情報にたどり着きやすくするためである。

一つの方法として、検索条件にヒットした文書群をクラスタリングして、内容が類似する文書群をクラスタと呼ばれるグループとして提示する。検索ユーザはまず自身が得たい情報のクラスタを選択することで前述の通り確認する文書を一部に限定することになる。

図４の検索結果一覧には、例えば大谷一朗選手に関する情報であっても、高校時代、日本のプロ野球で活躍していた時代、さらにメジャーリーグでの成績などのクラスタに分かれると思われる。図５では、これらの分類がクラスタ一覧の例５０１として検索ユーザに提示される。

検索ユーザがクラスタ５０３の”メジャーリーグ”を選択すると、そのクラスタに分類された文書一覧（図６の６００）が表示される。図４の検索結果一覧４００では大谷一朗選手について様々な情報が含まれていたが、図６の文書一覧６００ではメジャーリーグでの活躍に関する記事だけが含まれるという例を示している。このように文書一覧を制限することで、検索ユーザが求める情報（図３の文書ＩＤ”００２８”）に容易にたどり着くことを可能とする。

また、クラスタリングは検索ユーザが指定する質問文（図３の３１１）にヒットする文書群が異なれば当然異なるグループに分類される。図５の５０２のように”アメリカでの野球”という質問文で検索すれば、大谷一朗選手に関する情報が集まるとは限らず、図４の例とは異なる文書がヒットする。さらにそれらの文書をクラスタリングすれば異なるクラスタが生成される。５０２の例では、メジャーリーグというクラスタ（５０４）が生成されているが、これは見出しは同じでも５０３とは全く異なる文書が多く含まれることになる。例えば、アメリカの野球の中でのメジャーリーグの位置づけ、大谷一朗選手以外の名選手の記録、などが含まれているなど考えられる。このように同じタイトルが付いていても”メジャーリーグ”というタイトルにはあまり意味はなく、それよりも同じクラスタに含まれる文書ＩＤにはどのようなものがあるか、といったリストがこれらのクラスタの言語的特徴を表すものとして重要になるのである。

図７は、本発明の実施形態に係る学習データの構造の一例である。順位学習において学習モデルを生成するための学習データは、例えば実際にユーザが検索した際に、ユーザの検索意図に一致した文書を指定することで得られるものである。従って、少なくともユーザの検索条件と、ユーザが選択した文書を特定するための情報がペアで登録される必要がある。学習データ７０１においては、それらは質問文７０３、正解文書ＩＤ７０４として格納される。

本発明における学習データ記憶部１２２に格納された学習データ７０１（ａ～ｆ）は、前記質問文７０３、正解文書ＩＤ７０４以外に、同一クラスタ文書ＩＤリスト７０５が格納されることを特徴とする。

例えば、「大谷選手の打撃成績」という検索条件を入力した検索ユーザが、クラスタ５０３の「メジャーリーグ」を選択したことを図６で示している。当該クラスタは、文書ＩＤとして”０００５”、”０００６”・・・、”００２８”を含んでいるため、学習データ７０１ａの同一クラスタ文書ＩＤリスト７０５にはこれらの文書ＩＤのリストがそのまま記載されている。

次に図８～図９を用いて、学習モデル生成の処理について説明する。図８は、本発明の実施形態に係る学習モデル生成の処理を説明するフローチャートの一例である。図８のフローチャートの各ステップは、情報処理装置１００上のＣＰＵ２０１で実行される。
＜実施形態１＞
ステップＳ８０１では、学習データ記憶部１２２に記憶された全ての学習データ群を読み込む。読み込んだデータを図９の学習データの文書ＩＤベクトル（例１）９０１に示す。このテーブルは図７と本質的に同じものであるが、文書ＩＤリストを一覧として表現した図７に対して、（例えば文書ＩＤが１～５００まであるとすれば）それぞれの文書ＩＤを１列にならべたベクトルとして表現している。ベクトルの各要素は、同一クラスタ文書ＩＤリスト７０５にその文書ＩＤが含まれる場合は”１”、含まれない場合は”０”としたものである。

ステップＳ８０２では、学習データ（９０１）の中で、正解文書ＩＤ（９１１）が同一のものを図９の学習データの文書ＩＤベクトル（例２）９０２のようにまとめる。例えば、正解文書ＩＤが”００２８”であるものは”Ｌ０００１”、”Ｌ０００３”の２つある。これらを９０２の１行目のようにまとめる。具体的には、学習データＩＤリスト９１６に、これら２つの学習データＩＤを列挙し、また９０１の文書ＩＤベクトルは、各ＩＤにあり（１）、なし（０）だけを示していたものを、合計で幾つあったかを表すようにする。例えば、文書ＩＤが”０００５”に相当する値は、９１４では”１”だが、９１７では”２”となっている。このように単純に合計するのはあくまで例であって様々な計算方法があることはいうまでもない。

ステップＳ８０３では、９０２の学習データをグループ化する。目的は、１つの学習モデルを生成する際に使用する学習データを決定することである。すなわち、文書内に何らかの分類情報が入っている場合には、正解文書ＩＤで示す文書内の分類情報が同一のものを集めて学習データをグループ化するなどが可能であるが、本願発明ではそのような分類情報を持たない、あるいは使用できない場合を想定しているため、図６のようにドリルダウンした際に、同じような文書群が含まれている学習データは、１つの学習モデルを生成するために使用するものと仮定している。

なお、ここで学習モデルをグループ化する方法としては、周知の技術としてベクトルのクラスタリングがある。図９の例２では、文書数に相当する５００次元のベクトルを相互に比較し、クラスタリングする技術である。また重複クラスタリングとして、同一のベクトルが複数のクラスタに含まれることを許容する技術もある。いずれにしてもこれらのベクトル群をクラスタに分ける技術であれば、どのような方式であっても良いことはいうまでもない。

これにより、前記の通り予め文書群に分類情報がない場合であっても、学習データを適切なグループに分けて複数の学習データを生成することが可能になる、という効果を得ることができる。グループ化した学習モデル群を図９のグループ９０３（ａ、ｂ）として例示する。

Ｓ８０４からＳ８０６の繰り返し処理は、Ｓ８０３でグループ化した学習データ群１つ１つに対する処理である。

Ｓ８０５は、グループ化した学習データ群（例えば図９の９０３ａ、９０３ｂ）の１つずつに着目し、当該学習データで学習モデルの生成を行う。順位学習の場合ＳＶＭ（サポートベクターマシン）などにより実現することが可能である。生成された学習モデルは、学習モデル記憶部１２３に格納する。

以上で図８のフローチャートによる本願発明における学習モデルの生成についての説明を完了する。

図１０は、本発明の実施形態に係る学習モデルを記憶する際のデータ構造と検索時に選択されたクラスタの類似度計算を説明する図の一例である。まず学習モデル記憶部１２３に格納された学習モデルについて説明する。本図では２つの学習モデルが格納されているものとする。

ＳＶＭ（サポートベクターマシン）などで生成された学習モデルの本体は、学習モデル記憶部１２３に格納されている。しかしながら、従来技術では、これらの学習モデルをどのような条件の下で利用するかという情報は含まれておらず、学習モデルを利用するアプリケーション（あるいはユーザ）が、複数ある学習モデルから使用すべきものを選択することになる。しかし、本願発明の前提として、文書群に分類情報に相当する情報が固定的に用意されておらず、また図５のクラスタも動的に生成されるため、どの学習モデルを利用すべきかは検索時に決定するしかない。

本願発明の特徴は、各々の学習モデルに関連づけて、その学習モデルがいかなる状況で使用されるかを示す学習モデルの言語的特徴１００３を含むことにある。

言語的特徴１００３の設定データ１００５の一例として、文書ＩＤベクトル（総和）で表した場合を示す。文書ＩＤベクトル（総和）１００６は、図９のグループ９０３ａに含まれる学習データの文書ＩＤベクトルを単純に総和したものである。つまり、この学習モデルを生成した際に用いた学習データでは、正解文書と同じクラスタに、どのような文書がどの程度出現したか、という傾向が記載されていることになる。類似検索や文書のクラスタリングでは、これは１種の言語的特徴を示すものであり、本願発明での当該学習モデルの言語的特徴である。

図１１は、本発明の実施形態に係る検索処理を説明するフローチャートの一例である。図１１のフローチャートの各ステップは、情報処理装置１００上のＣＰＵ２０１で実行される。

ステップＳ１１０１では、検索ユーザあるいはアプリケーションから検索条件を受け付け、ステップＳ１１０２では、文書記憶部１２１から当該検索条件にヒットする文書群を取得する。

ステップＳ１１０３では、ステップＳ１１０２で取得した文書群をクラスタリングする。この例が図５の５０１で、例えば３つのクラスタとなっている。

ステップＳ１１０４では、前記クラスタの一覧をユーザに提示し、ステップＳ１１０５では、提示されたクラスタの中からユーザが１つを選択する。すなわちドリルダウンする。検索ユーザは図５の５０１の中から"メジャーリーグ”というクラスタを選択したとする。

ステップＳ１１０６では、前記ユーザが選択したクラスタ（例では”メジャーリーグ”）に含まれる文書ＩＤリストをベクトルとして生成する。図１０の１００７（検索時に自動生成されたクラスタに含まれる文書ＩＤベクトル）が生成されたものである。次に１００１ａ～１００１ｂの文書ＩＤベクトル（総和）１００６の中で、１００７のベクトルと類似度が一番高いものを特定する。

しかしながら、一番類似度が高いものでも、学習モデルとして採用するのが不適切な場合がある。そこで、ステップＳ１１０７では、不図示の記憶部に記憶された閾値と比較し、ベクトルの類似度が閾値を超える学習モデルがない場合（ＮＯの場合）は学習モデルを用いずに、ステップＳ１１０２の類似検索結果のランキングをそのままユーザに提示するようにしても良い。適切な学習モデルがある場合には、ステップＳ１１０８において、ステップＳ１１０２の類似検索の結果を再ランク付けし、ステップＳ１１０９で検索結果としてユーザに提示する。

最後にステップＳ１１１０では、ユーザが提示された検索結果の中から１つの文書を、ユーザ自身の検索に対して適切な文書であった、と指定した場合にはそれを正解選択として受付け、ステップＳ１１１１にて新たな学習データとして学習データ記憶部１２２に登録する。この学習データは次回の学習モデル生成時に使われることになる。

以上で、図１１のフローチャートを用いて、クラスタリング及びドリルダウンから、適切な学習モデルを選択して、クラスタ内に出現した文書群を再ランク付けしてユーザに提示する処理についての説明を完了する。
＜実施形態２＞
他の実施形態について説明する。図８のフローチャートにおいては、ステップＳ８０２で同一の正解文書ＩＤをもつ学習データを１つにまとめたが、この処理を実施しなくても良い。

その場合には、同じ正解文書ＩＤを持つ学習データが異なる学習データのグループに含まれるようになる。正解となる文書が同一のものであっても、そもそものユーザの検索意図が異なれば、検索条件の言語的特徴も異なり、同一クラスタに含まれる他の文書ＩＤも全く異なる可能性もある。このような学習データを無理に１つにまとめて同一の学習データを生成するために用いる必要はなく、異なる学習モデルを生成するために用いることで、よりユーザの意図を反映した学習モデルが生成可能になるという効果を得ることができる。
＜実施形態３＞
図１０の例では学習モデルの言語的特徴１００３の設定データ１００５を文書ＩＤベクトル（総和）１００６としているが、クラスタの言語的特徴を表すものであれば、いかなるものでもよいのはいうまでもない。

例えば、対応する学習モデルを生成するために使用した学習モデルの”質問文”と、正解となる文書内のテキストから、特徴語（重要語など）を自然言語処理により取り出して、１００５に格納しても良い。

この場合、検索時にも検索ユーザが選択したクラスタに含まれる文書から特徴語を抽出して、１００５と比較しても良い。

また、単語そのものではなくても良い。周知の技術のモデルがある。”ＴｏｍａｓＭｉｋｏｌｏｖ，ＫａｉＣｈｅｎ，ａｎｄＪｅｆｆｒｅｙＤｅａｎ，Ｅｆｆｉｃｉｅｎｔｅｓｔｉｍａｔｉｏｎｏｆｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｉｎｖｅｃｔｏｒｓｐａｃｅ，ＣｏＲＲ，Ｖｏｌ．ａｂｓ／１３０１．３７８１，，２０１３”
この技術では、大量の文書内に出現する単語を例えば２００次元の素性ベクトルとして表すように学習する。さらに文書の内容は、それら素性ベクトルの和として考えることができる。従って、学習モデルの生成に関与した質問文やクラスタに含まれた文書群の特徴を素性ベクトルとして表し、また検索時には、ユーザが選択したクラスタに含まれる文書群から素性ベクトルを生成して、類似度を比較することも可能である。

これにより、単なる文書ＩＤで構成される数値のベクトルの類似度や、特徴語の類似度だけではなく、より意味的に類似した学習モデルを選択することが可能になるという効果が得られる。

クラスタに含まれる文書一覧を最適に再ランク付けするための学習モデルを選択するための方法であれば、いかなる素性を利用しても良いことはいうまでもない。

また、本実施例では文書を対象としたが、データとして検索、分類、評価が可能な画像等、様々な種類のデータにも適用可能である。

なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。

以上、いくつかの実施形態について示したが、本発明は、例えば、システム、装置、方法、コンピュータプログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

また、本発明におけるコンピュータプログラムは、図８、図１１に示すフローチャートの処理方法をコンピュータが実行可能なコンピュータプログラムであり、本発明の記憶媒体は図８、図１１の処理方法をコンピュータが実行可能なコンピュータプログラムが記憶されている。なお、本発明におけるコンピュータプログラムは図８、図１１の各装置の処理方法ごとのコンピュータプログラムであってもよい。

以上のように、前述した実施形態の機能を実現するコンピュータプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたコンピュータプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。

この場合、記録媒体から読み出されたコンピュータプログラム自体が本発明の新規な機能を実現することになり、そのコンピュータプログラムを記憶した記録媒体は本発明を構成することになる。

コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＥＥＰＲＯＭ、シリコンディスク、ソリッドステートドライブ等を用いることができる。

また、コンピュータが読み出したコンピュータプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのコンピュータプログラムの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたコンピュータプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのコンピュータプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にコンピュータプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのコンピュータプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

さらに、本発明を達成するためのコンピュータプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

１００情報処理装置
１０１検索条件受付部
１０２類似検索部
１０３クラスタリング部
１０４表示部
１０５学習モデル選択部
１０６再ランク付け部
１０７学習データ登録部
１０８学習モデル生成部
１０９生成モデル決定部
１２１文書記憶部
１２２学習データ記憶部
１２３学習モデル記憶部

Claims

学習モデルを管理する情報処理装置であって、
検索条件に従って検索されたデータを分類したグループのうち、指定を受け付けたグループに含まれるデータを示す第１の特徴データを決定する決定手段と、
前記決定された第１の特徴データと、学習モデルに関連付けられ、当該学習モデルの学習に用いられたデータを示す第２の特徴データとに従って、学習モデルを選定する選定手段と、
を備えることを特徴とする情報処理装置。
前記学習モデルは、検索されたデータを順位づける順位学習のための学習モデルであることを特徴とする請求項１に記載の情報処理装置。
前記検索条件に従って検索されたデータをグループに分類する分類手段と、
前記分類されたグループを提示してグループの指定を受け付ける受付手段とを更に備え、
前記決定手段は、前記指定を受け付けたグループに含まれるデータを示す第１の特徴データを決定することを特徴とする請求項１または２に記載の情報処理装置。
前記選定された学習モデルにより前記検索されたデータを表示制御する表示制御手段を備えることを特徴とする請求項１～３のいずれか１項に記載の情報処理装置。
前記第１の特徴データは、それぞれのデータが前記指定を受け付けたグループに分類されたかを示す値によるベクトルであり、前記第２の特徴データは、それぞれのデータが前記学習モデルの学習に用いられたかを示す値によるベクトルであることを特徴とする請求項１～４のいずれか１項に記載の情報処理装置。
学習モデルを管理する情報処理装置の制御方法であって、
決定手段が、検索条件に従って検索されたデータを分類したグループのうち、指定を受け付けたグループに含まれるデータを示す第１の特徴データを決定する決定ステップと、
選定手段が、前記決定された第１の特徴データと、学習モデルに関連付けられ、当該学習モデルの学習に用いられたデータを示す第２の特徴データとに従って、学習モデルを選定する選定ステップと、
を備えることを特徴とする情報処理装置の制御方法。
学習モデルを管理する情報処理装置で実行可能なプログラムであって、
前記情報処理装置を、
検索条件に従って検索されたデータを分類したグループのうち、指定を受け付けたグループに含まれるデータを示す第１の特徴データを決定する決定手段と、
前記決定された第１の特徴データと、学習モデルに関連付けられ、当該学習モデルの学習に用いられたデータを示す第２の特徴データとに従って、学習モデルを選定する選定手段と、
として機能させるためのプログラム。