JP2018509664A

JP2018509664A - モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体

Info

Publication number: JP2018509664A
Application number: JP2016572673A
Authority: JP
Inventors: ゾウ、ホンジアン; ファン、ガオリン
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2015-12-31
Filing date: 2016-06-01
Publication date: 2018-04-05
Anticipated expiration: 2036-06-01
Also published as: WO2017113592A1; CN105653701B; CN105653701A; JP6428795B2; US10565253B2; US20180210897A1

Abstract

本発明の実施例は、モデル生成方法は、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体を提供する。一方面で、本発明の実施例は、特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとすることによって、前記サンプルピクチャの文書に基づいて、文書クラスタを獲得し、さらに、前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得し、及び、前記文書特徴と前記視覚特徴に基づいて機械学習を行い、ピクチャでの文書に対する単語重み付けを実現するための第一回帰モデルと第一順序付けモデルを生成する。そのため、本発明の実施例で提供する技術案は、ピクチャの文書での各単語重み付け結果の正確性を向上でき、ピクチャ検索結果の正確性を向上できる。

Description

本出願は、出願日が２０１５年１２月３１日で、出願番号が２０１５１１０２５９７５．０で、発明名称が「モデル生成方法及装置、単語重み付け方法及び装置」である中国特許出願の優先権を要求する。
本発明は、インターネット利用技術分野に関し、特に、モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体に関する。

ピクチャ検索過程は、ユーザーが検索語を入力し、そしてピクチャ検索エンジンがピクチャ集合から検索語にマッチングするピクチャ検索結果を調べて、ピクチャ検索結果を順序付けてユーザーに提供することを含む。ピクチャ検索エンジンは、インターネットピクチャを調べる情報検索ツールである。現在、ピクチャ検索を行う時、ピクチャ検索エンジンは検索語と候補ピクチャの関連性を計算する必要があり、関連性を計算するには、主に検索語での各単語の重み及び各候補ピクチャの文書での各単語の重みに基づく。ここで、候補ピクチャの文書での各単語の重みは単語重み付け技術によって獲得する。このように、単語重み付けの効果は関連性計算に直接に影響し、さらにピクチャ検索結果の正確性に影響する。

従来技術では、ピクチャの文書が一般的に短いので、従来技術によりピクチャの単語重み付けを行う時には一般的にピクチャの短い文書に基づいて、文書での各単語に重み付けを行う。そのため、単語重み付け結果の正確性が低く、結果的にピクチャ検索結果の正確性を低下させてしまう。

このような状況に基づいて、本発明の実施例は、ピクチャの文書での各単語重み付け結果の正確性を向上させ、ピクチャ検索結果の正確性を向上させることができるモデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体を提供する。

本発明の実施例の一方面は、
特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとし、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得し、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得し、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成することを含むモデル生成方法を提供する。

前記の方面といずれの可能な実現方式によると、さらに一実現方式を提供するが、前記特定ピクチャと同じである他のピクチャを獲得するには、
前記特定ピクチャ及び各候補ピクチャのシグネチャを獲得し、
前記特定ピクチャ及び各候補ピクチャのシグネチャに基づいて、前記特定ピクチャと候補ピクチャ毎の類似度を獲得し、
類似度が予設の類似閾値以上である候補ピクチャを抽出して、前記特定ピクチャに同じである他のピクチャとすることを含む。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得する前に、前記方法は、さらに、
各サンプルピクチャの位置するステーション或いはページの権威的なデータ、各サンプルピクチャの位置するページの時間情報、各サンプルピクチャの位置するステーションのクリックデータ、各サンプルピクチャの文書の単語ベクトルから前記文書クラスタの単語ベクトルまでの距離における少なくとも一つに基づいて、前記文書クラスタにおいて各文書を選別して、選別した文書クラスタを獲得することを含む。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記文書特徴は、
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験的属性における少なくとも一つを含む。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記方法は、さらに、
前記第一回帰モデルを利用して、各サンプルピクチャの文書での各単語の回帰得点を獲得し、
前記第一順序付けモデルを利用して、各サンプルピクチャの文書での各単語の順序付け結果を獲得し、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得し、
前記回帰得点、前記順序付け結果と前記関連特徴に基づいて機械学習を行い、第二回帰モデルと第二順序付けモデルを生成することを含む。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記関連特徴は、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャのユーザー行為特徴、各ピクチャの品質特徴、及び各ピクチャの位置するステーション或いはページの権威的なデータにおける少なくとも一つを含む。

本発明の実施例の一側面によると、
特定ピクチャの文書に基づいて、前記モデル生成方法によって生成した第一回帰モデルを利用して前記文書での各単語の第一回帰得点を獲得し、
前記特定ピクチャの文書に基づいて、前記モデル生成方法によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得することを含む単語重み付け方法を提供する。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得するには、
前記第一回帰得点と前記第一順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算することを含む。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得するには、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記モデル生成方法によって生成した第二回帰モデルを利用して、前記特定ピクチャの文書での各単語の第二回帰得点を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記モデル生成方法によって生成した第二順序付けモデルを利用して、前記特定ピクチャの文書での各単語の第二順序付け結果を獲得し、
前記第二回帰得点と前記第二順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算することを含む。

本発明の実施例の一側面は、
特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとするピクチャ獲得手段と、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得する文書クラスタリング手段と、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得する第一特徴獲得手段と、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成する第一生成手段とを含むモデル生成装置を提供する。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記ピクチャ獲得手段は、具体的に、
前記特定ピクチャ及び各候補ピクチャのシグネチャを獲得し、
前記特定ピクチャ及び各候補ピクチャのシグネチャに基づいて、前記特定ピクチャと候補ピクチャ毎の類似度を獲得し、
類似度が予設の類似閾値以上である候補ピクチャを抽出して、前記特定ピクチャに同じである他のピクチャとすることに用いられる。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記装置は、さらに、
各サンプルピクチャの位置するステーション或いはページの権威的なデータ、各サンプルピクチャの位置するページの時間情報、各サンプルピクチャの位置するステーションのクリックデータ、各サンプルピクチャの文書の単語ベクトルから前記文書クラスタの単語ベクトルまでの距離における少なくとも一つに基づいて、前記文書クラスタにおいて各文書を選別して、選別した文書クラスタを獲得する文書処理手段を含む。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記文書特徴は、
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験属性における少なくとも一つを含む。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記装置は、さらに、
前記第一回帰モデルを利用して、各サンプルピクチャの文書での各単語の回帰得点を獲得する得点獲得手段と、
前記第一順序付けモデルを利用して、各サンプルピクチャの文書での各単語の順序付け結果を獲得する順序付け獲得手段と、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得する第二特徴獲得手段と、
前記回帰得点、前記順序付け結果と前記関連特徴に基づいて機械学習を行い、第二回帰モデルと第二順序付けモデルを生成する第二生成手段とを含む。

本発明の実施例の一側面は、
特定ピクチャの文書に基づいて、前記モデル生成装置によって生成した第一回帰モデルを利用して前記文書での各単語の第一回帰得点を獲得する得点獲得手段と、
前記特定ピクチャの文書に基づいて、前記モデル生成装置によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得する順序付け獲得手段と、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得する単語重み付け手段とを含む単語重み付け装置を提供する。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記単語重み付け手段は、具体的に、
前記第一回帰得点と前記第一順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算するに用いられる。

前記の技術的側面といずれか一つ以上の可能な実現方式によると、さらに一つの実現方式が提供され、前記単語重み付け手段は、さらに、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記モデル生成装置によって生成した第二回帰モデルを利用して、前記特定ピクチャの文書での各単語の第二回帰得点を獲得する得点獲得モジュールと、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記モデル生成装置によって生成した第二順序付けモデルを利用して、前記特定ピクチャの文書での各単語の第二順序付け結果を獲得する順序付け獲得モジュールと、
前記第二回帰得点と前記第二順序付け結果に基づいて、重み付け関数を利用して前記特定ピクチャの文書での各単語の重み付け得点を計算する単語重み付けモジュールとを含む。

以上の技術案によると、本発明の実施例は、以下の有益な効果を有している
本発明の実施例が提供する技術案によると、ピクチャの文書をクラスタリングして複数の文書を獲得し、さらにピクチャの文書クラスタに基づいて複数の特徴を抽出し、さらに複数の特徴に対して機械学習を行って必要なモデルを生成し、当該モデルはピクチャの文書での各単語に重み付けを行うことに用いられる。従来技術においてピクチャの文書が短いので単語重み付け結果の正確性が低い問題を解決して、本発明の実施例は、ピクチャの文書での各単語重み付け結果の正確性を向上でき、ピクチャ検索結果の正確性を向上させる。

本発明の実施例で提供するモデル生成方法の実施例のフローチャートである。本発明の実施例で提供する一部モデルと完全モデルを生成する例示図である。本発明の実施例で提供するピクチャの文書クラスタの例示図である。本発明の実施例で提供するモデル生成方法の第二実施例のフローチャートである。本発明の実施例で提供するクリック特徴を利用してモデルを生成する例示図である。本発明の実施例で提供する単語重み付け方法のフローチャートである。本発明の実施例で提供するモデル生成装置の実施例の機能ブロック図である。本発明の実施例で提供するモデル生成装置の第二実施例の機能ブロック図である。本発明の実施例で提供するモデル生成装置の第三実施例の機能ブロック図である。本発明の実施例で提供する単語重み付け装置の第一実施例の機能ブロック図である。本発明の実施例で提供する単語重み付け装置の第二実施例の機能ブロック図である。

本発明の目的、技術案及び利点をより明確にするために、以下では図面及び具体的な実施例を利用して本発明を詳細に記述する。
記述する実施例はただ本発明の一部実施例で、全部の実施例ではないことを明確にするべきである。本発明における実施例に基づいて、本分野の当業者が創造的な労働をしない前提で獲得する全部他の実施例は、本発明の保護する範囲に属する。

本発明の実施例で使用する用語はただ特定な実施例を記述するためのもので、本発明を制限するためのものではない。本発明の実施例と特許請求の範囲で使用した単数形式の「一種類」、「前記」及び「当該」は、文脈で明らかに単数だけを意味しない限り、複数の形式を含む。
また、本文で使用する用語「と／または」は、ただ関連対象の関連関係を表示するもので、三つの関係が可能である。例えば、Ａと／またはＢは、ただＡだけ存在する場合と、ＡとＢが同時に存在する場合と、ただＢだけ存在する場合の三つの可能性がある。また、本文で符号「／」は、一般に前後の関連対象が「または」の関係であることを示す。

本発明の実施例では、「第一」、「第二」等の修飾語を利用して回帰モデルを記述できるが、これらの回帰モデルはこれらの用語で言い表されるものに限定されない。これらの用語は、回帰モデルを互いに区分する目的だけに用いられる。例えば、本発明の実施例の範囲を離脱しない場合、第一回帰モデルは、第二回帰モデルとも呼ばれることができ、類似的に、第二回帰モデルも第一回帰モデルに呼ばれることができる。

文脈によって、ここで使用する単語「…と（れば）」は、「…時」又は「…と」または「確定すると」または「検出に従い」の意味に解釈できる。これと類似に、文脈によって、単語「…を確定すると」又は「（記述する条件又は事件）を検出すると」は、「…確定する時」又は「確定に従って」又は「（記述する条件又は事件）を検出した時」又は「（記述する条件又は事件）の検出に従い」に解釈できる。

第一実施例
本発明の実施例はモデル生成方法を提供する。図１を参照すると、図１は本発明の実施例で提供するモデル生成方法の実施例のフローチャートである。図に示すように、当該方法は、以下のステップを含む。

Ｓ１０１で、特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとする。
具体的に、ピクチャ検索とウェブページ検索の顕著な区別は、ピクチャの関連文書が一般的に短いことであるので、単語重み付けタスクにおいて短文書理解のための難問題にあたり、この難問題を解決する方法の一つとしては、重み付けタスクに前処理ステップを増加させる必要があり、ピクチャの文書をクラスタリングして、豊富で正確な文書を獲得することである。即ち、同一ピクチャの文書をクラスタリングし、クラスタリング結果を利用してピクチャの文書を互いに検証して、信頼でき且つ充分な文書を選別して、ピクチャの文書に基づく統計特徴の有効性を向上させる。

図２を参照すると、図２は本発明の実施例で提供する一部モデルと完全モデルを生成する例示図である。図に示すように、本発明の実施例は、ピクチャの文書クラスタリングを実現するために、先に特定ピクチャに基づいて、特定ピクチャと同じである他のピクチャを獲得し、そして特定ピクチャ及び特定ピクチャと同じである他のピクチャを本発明の実施例におけるサンプルピクチャとする。ここで、特定ピクチャの数量は一つ以上であってもよく、特定ピクチャと同じである他のピクチャの数量も一つ以上であってもよい。

例えば、特定ピクチャと同じである他のピクチャを獲得する方法は以下を含むがこれに限定されない。

先に、特定ピクチャの全部内容を利用或いは特定ピクチャの主な特徴を抽出して、前記特定ピクチャのシグネチャを獲得し、同じ方法を利用してピクチャ集合における各候補ピクチャのシグネチャを獲得する。そして、前記特定ピクチャのシグネチャ及び各候補ピクチャのシグネチャに基づいて、前記特定ピクチャと候補ピクチャ毎の類似度を獲得する。各類似度を予設の類似閾値と比較し、さらに類似度が予設の類似閾値の以上である候補画像を抽出し、類似度が予設の類似閾値の以上である候補画像を前記特定ピクチャに同じである他のピクチャとする。即ち、特定ピクチャのシグネチャとの類似度が類似閾値以上である他のピクチャを特定写真と同一ピクチャに属するとする。このようにして、特定ピクチャと同じである他のピクチャを獲得する。

Ｓ１０２で、前記サンプルピクチャの文書に基づいて、文書クラスタを獲得する。
具体的に、図２に示すように、獲得した特定ピクチャと同じである他のピクチャに対して、特定ピクチャの文書及び他のピクチャの文書をクラスタリングして、文書クラスタを獲得する。

特定ピクチャの文書或いは他のピクチャの文書は、ピクチャの位置するページのタイトル、マウスがピクチャを指示する時に表示する文書、ピクチャのタイトルとピクチャの位置するページでの文書における少なくとも一つを含むが、これらに限定されないことを理解できる。

文書クラスタにおいて各文書の出処が異なり、文書品質も異なり、あるページ、例えばブロック、フォーラムからのページには、文書と配置したピクチャとの関連性が低い場合が存在するので、文書クラスタについて選別を行わないとノイズが存在し、獲得した文書クラスタを直接に使用すると、モデルを生成する正確性を影響する可能性がある。

図３を参照すると、図３は本発明の実施例で提供するピクチャの文書クラスタの例示図である。図３に示すように、本発明の実施例で、文書クラスタから選別する方法は、各サンプルピクチャの位置するステーション或いはページの権威的なデータ、各サンプルピクチャの位置するページの時間情報、各サンプルピクチャの位置するステーションのクリックデータ、各サンプルピクチャの文書の単語ベクトルから前記文書クラスタの単語ベクトルまでの距離における少なくとも一つに基づいて、前記文書クラスタにおいて各文書を選別して、選別した文書クラスタを獲得することを含んでいてもよいが、これに限定されない。選別して得た文書クラスタにおいて各文書は優良な文書に属するとする。

例えば、各サンプルピクチャの位置するステーション或いはページの権威的なデータを計算し、各権威的なデータと予設の権威的な閾値と比較して、文書クラスタから権威的なデータが権威的な閾値より小さいサンプルピクチャの文書を削除する。

また、例えば、ブロック、フォーラム等のページは一般的に他の時間がより早いページにおけるピクチャを引用するので、各サンプルピクチャの位置するページの時間情報に基づいて、文書クラスタから時間が近いページからのサンプルピクチャの文書を削除し、文書クラスタに時間が早いページからのサンプルピクチャの文書を残させる。

また、例えば、各サンプルピクチャの位置するステーションのクリック回数を計算し、各クリック回数と予設の回数閾値と比較して、文書クラスタからクリック回数が回数閾値より小さいサンプルピクチャの文書を削除する。

また、例えば、それぞれ各サンプルピクチャの文書の単語ベクトルと前記文書クラスタの単語ベクトルとの距離を計算し、そして、計算した各距離を予設の距離閾値と比較して、文書クラスタから距離が距離閾値以上であるサンプルピクチャの文書を削除する。

Ｓ１０３で、前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得する。
具体的に、選別して得た文書クラスタに基づいて、文書特徴を獲得し、サンプルピクチャに基づいて視覚特徴を獲得する。

本発明の実施例で、図２と図３に示すように、前記文書特徴は、
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験属性における少なくとも一つを含んでいてもよい。

例えば、文書的分布特徴は、文書での各単語の文書クラスタにおいて各文書で出現する文書領域、文書での各単語の文書クラスタにおいて出現回数、文書での各単語の文書クラスタにおいて各文書での出現回数、文書での各単語の文書クラスタにおいて各文書での出現する時のオフセット量及び文書での各単語の異なる等級でのステーション或いはページ上の分布特徴を含んでいてもよいが、これらに限定されない。ここで、文書での各単語の異なる等級でのステーション或いはページ上の分布特徴は、文書での各単語の等級毎のページ或いはステーション上の出現回数、出現頻度、出現回数の出現回数最大値に対する比例、出現回数の出現回数平均値に対する比例等における少なくとも一つを含んでいてもよいが、これらに限定されない。

検索語ｑｕｅｒｙがｑで、ユーザーが当該検索語にマッチングする検索結果でピクチャｐをクリックすると、ｑをｐの文書のクリックｑｕｅｒｙ文書であるとし、ユーザーが同時にピクチャｒをクリックすると、ｒの文書をｐの文書の拡張クリック文書であるとする。例えば、前記文書のクリック特徴は、文書での各単語のクリックｑｕｅｒｙ文書及び拡張クリック文書での出現回数、出現頻度、出現回数の出現回数最大値に対する比例、出現回数の出現回数平均値に対する比例等を含んでいてもよいが、これらに限定されない。

例えば、文書での単語語義特徴は、文書での各単語の文書クラスタにおいて語義種類、例えば植物、動物或いはスター等を含んでいてもよいが、これらに限定されない。
例えば、文書を分離して、文書における各単語を獲得し、そして各単語で信頼度が信頼閾値の以上である若干の単語を獲得して、当該文書の主題語とする。
例えば、文書での単語の先験属性は、単語の逆文書頻度（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ、ＩＤＦ）データ、語義種類、共起語、同義語、類義語及び関連語等を含んでいてもよいが、これらに限定されない。一具体的な実現過程で、コーパス及び／またはユーザー行為ログから、単語の先験属性を調べることができる。

本発明の実施例で、前記視覚特徴とは、サンプルピクチャの視覚上の特徴であって、例えば、劉氏のコンサートピクチャにおいて、その視覚特徴は、「劉氏」、「コンサート」及び「スター」である。サンプルピクチャの内容及びユーザークリックログに対して機械学習を行って、サンプルピクチャの視覚特徴を獲得することができる。

Ｓ１０４で、前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成する。
具体的に、図２に示すように、文書特徴と視覚特徴を獲得してから、文書特徴と視覚特徴に基づいて機械学習を行って、第一回帰モデルと第一順序付けモデルを含む一部モデルを生成する。

第一回帰モデルは、ピクチャの文書での各単語の回帰得点を獲得するに用いられ、第一順序付けモデルは、ピクチャの文書での各単語の順序付け得点を獲得するに用いられ、当該順序付け得点は、当該ピクチャの文書での各単語互いの順序付けを確定するに用いられる。例えば、単語Ａ、単語Ｂ及び単語Ｃの順序付け得点が、それぞれ０．３、−１及び１．２であると、各単語の順序付けは、「単語Ｃ＞単語Ａ＞単語Ｂ」になる。

例えば、勾配ブースティング決定木（ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＤｅｃｉｓｉｏｎＴｒｅｅ、ＧＢＤＴ）アルゴリズムを利用して、文書特徴と視覚特徴に対して機械学習を行って、第一回帰モデルを生成してもよい。
また、例えば、勾配ブースティング順序付け（ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＲａｎｋ、ＧＢＲａｎｋ）アルゴリズムを利用し、文書特徴及び視覚特徴に対して機械学習を行って、第一順序付けモデルを生成する。

第二実施例
図４を参照すると、本発明の実施例で提供するモデル生成方法の第二実施例のフローチャートである。図に示すように、当該方法は、第一実施例でのモデル生成方法に基づき、当該モデル生成方法は、Ｓ１０４の後で、さらに、以下のステップを含む。

Ｓ１０５で、前記第一回帰モデルを利用して、各サンプルピクチャの文書での各単語の回帰得点を獲得する。

Ｓ１０６で、前記第一順序付けモデルに基づいて、各サンプルピクチャの文書での各単語の順序付け結果を獲得する。

Ｓ１０７で、各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得する。

Ｓ１０８で、前記回帰得点、前記順序付け結果と前記関連特徴に基づいて機械学習を行い、第二回帰モデルと第二順序付けモデルを生成する。

第一実施例で生成した第一回帰モデル及び第一順序付けモデルは、単語のピクチャの一文書での回帰得点及び単語のピクチャの一文書での各単語の順序付け位置のみを獲得でき、単語の異なるピクチャでの回帰得点及び異なるピクチャでの同一単語の順序付け位置を獲得しようとすると、一部モデルによってさらに第二回帰モデル及び第二順序付けモデルを含む完全モデルを生成する必要がる。

一具体的な実現過程で、図２に示すように、各サンプルピクチャの文書を第一回帰モデルに入力して、第一回帰モデルから当該文書での各単語の回帰得点を出力する。同じ理由によって、各サンプルピクチャの文書を第一順序付けモデルに入力し、第一順序付けモデルから当該文書での各単語の順序付け結果を出力してもよい。

本実施例で、さらに、各サンプルピクチャの文書での各単語を検索語ｑｕｅｒｙとしてピクチャ検索を行って、各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果を獲得する必要がある。そして、当該ピクチャ検索結果において各ピクチャの関連特徴を獲得する。

本実施例で、ピクチャの関連特徴は、各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャのユーザー行為特徴、各ピクチャの品質特徴、及び各ピクチャの位置するステーション或いはページの権威的なデータにおける少なくとも一つを含む。

例えば、ピクチャ的ユーザー行為特徴は、文書での単語を含み且つ重要度が特定閾値より大きい検索語にマッチングするピクチャ検索結果で、ピクチャのクリックデータを含んでいてもよいが、これに限定されない。例えば、クリックデータは、ピクチャのクリック回数、クリック頻度、クリック回数のクリック回数最大値に対する比例、クリック回数のクリック回数平均値に対する比例等を含んでいてもよい。

例えば、ピクチャの品質特徴は、ピクチャのサイズ、ピクチャの明瞭度、ピクチャが綺麗であるか否かを示すデータ（例えばｔｒｕｅ及びｆａｌｓｅ）、ピクチャのリンクがデッドリンクであるか否か、ピクチャのリンクが外部ステーションのリンクであるか否か等を含んでいてもよいが、これに限定されない。

例えば、ピクチャの位置するステーション或いはページの権威的なデータは、ピクチャの位置するステーション或いはページの権威的な絶対値、当該絶対値の絶対値最大値に対する比例等を含んでいてもよいが、これに限定されない。

一具体的な実現過程で、図２に示すように、各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得してから、各単語の回帰得点、各単語の順序付け結果及び各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴に基づいて、機械学習を行い、第二回帰モデル及び第二順序付けモデルを含む完全モデルを生成する。

第二回帰モデルは、同一単語が異なるピクチャの文書に対応する時の各回帰得点を獲得するに用いられ、第二順序付けモデルは、同一単語が異なるピクチャの文書に対応する時の順序付け得点を獲得するに用いられ、当該順序付け得点は、当該単語が異なるピクチャの文書に対応する時の順序付けに用いられる。例えば、文書Ａでの単語ｓ、文書Ｂでの単語ｓ、及び文書Ｃでの単語ｓ的順序付け得点がそれぞれ０．３、−１及び１．２であると、順序付けは、「文書Ｃでの単語ｓ＞文書Ａでの単語ｓ＞文書Ｂでの単語ｓ」になる。

例えば、ＧＢＤＴアルゴリズムを利用して、各単語の回帰得点、各単語の順序付け結果、及び各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果で各ピクチャの関連特徴に対して機械学習を行い、第二回帰モデルを生成する。

また、例えば、ＧＢＲａｎｋアルゴリズムを利用して、各単語の回帰得点、各単語の順序付け結果、及び各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果で各ピクチャの関連特徴に対して機械学習を行い、第二順序付けモデルを生成してもよい。

第三実施例
図５を参照すると、図５は本発明の実施例は、所提供クリック特徴を利用してモデルを生成する例示図である。図に示すように、当該利用クリック特徴生成モデルは、以下の過程を含んでいてもよい。

先に、ユーザークリックログから、単一単語である検索語ｑｕｅｒｙを含むユーザークリックログを選別する。

次に、選別したユーザークリックログに基づいて、クリック回数反転の検索語と対応する検索結果を選別して、候補データとする。また、検索結果のクリック情報に基づいて、検索結果を異なる等級に区分する。選別したクリック回数反転の検索語と対応する検索結果を利用して、異なる等級的検索結果に区分し、データ集合ｄａｔａ＿ａを得る。クリック回数反転の検索語と対応する検索結果とは、ある検索語ｑｕｅｒｙに対応する検索結果で、ある検索結果Ａのクッリク回数がその検索結果の前の他の検索結果のクリック回数より大きいと、ｑｕｅｒｙと検索結果Ａはクリック回数反転の検索語と対応する検索結果である。クリック回数反転が発生する検索結果の代表性がより大きいので、検索需要をより満足させることができる。

そして、検索システムの順序付け及び再度順序付ける時に使用する特徴に基づいて、候補データで一部特徴の差異が大きいデータのみを選別して、一部モデルで第一順序付けモデルを生成する時に使用する訓練データとし、選別したデータの品質が有する優れた性質は一部モデルで用いる特徴と緊密に関連する。同時に、異なる等級での検索結果は、一部モデルでの第一回帰モデルの訓練データを生成するためのものとしてもよく、これらの二つの訓練データは、一部訓練データ（ｔｒａｉｎ＿ｌｏｃａｌ）として記録してもよい。

続いて、ｔｒａｉｎ＿ｌｏｃａｌを利用して機械学習を行って、第一回帰モデル及び第一順序付けモデルを含む一部モデルを生成する。
そして、一部モデルを利用してｄａｔａ＿ａに対応する回帰得点及び順序付け結果を獲得し、回帰得点及び順序付け結果をデータ集合ｄａｔａ＿ａに追加して、データ集合ｄａｔａ＿ｂを獲得する。回帰得点及び順序付け結果に基づいて、重み付け関数を利用して、一部モデル得分を獲得する。

続いて、データ集合ｄａｔａ＿ａで候補データでの一部特徴の差異のみが小さいデータを選別し、一部特徴差異のみが小さいデータ、回帰得点及び順序付け結果を、完全モデルでの第二回帰モデル及び第二順序付けモデルの訓練データ、即ち全部訓練データｔｒａｉｎ＿ｇｌｏｂａｌとする。
そして、ｔｒａｉｎ＿ｇｌｏｂａｌを利用して機械学習を行い、第二回帰モデル及び第二順序付けモデルを含む完全モデルを生成する。

最後に、学んで得た一部モデル及び完全モデルを利用して、テスト集合でのテストピクチャの文書に重み付けを行い、テスト効果を評価する。

第四実施例
図６を参照すると、図６は本発明の実施例で提供する単語重み付け方法のフローチャートである。図に示すように、以下のステップを含む。

Ｓ６０１で、特定ピクチャの文書に基づいて、第一実施例に記載のモデル生成方法によって生成した第一回帰モデルを利用して、前記文書での各単語の第一回帰得点を獲得する。
具体的に、特定ピクチャの文書、特定ピクチャの文書特徴及び特定ピクチャの視覚特徴を第一実施例で生成した第一回帰モデルに入力し、第一回帰モデルが入力した情報に基づいて、当該特定ピクチャの文書での各単語の第一回帰得点を獲得する。

Ｓ６０２で、前記特定ピクチャの文書に基づいて、第一実施例に記載のモデル生成方法によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得する。
具体的に、特定ピクチャの文書、特定ピクチャの文書特徴及び特定ピクチャの視覚特徴を、第一実施例で生成した第一順序付けモデルに入力し、第一順序付けモデルが入力した情報に基づいて、当該特定ピクチャの文書での各単語の第一順序付け結果を獲得する。

Ｓ６０３で、前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得する。
具体的に、前記第一回帰得点及び前記第一順序付け結果を利用して、前記特定ピクチャの文書での各単語の重み付け得点を獲得する方法は、以下の二つの方法を含んでいてもよいが、これらに限定されない。

１．前記第一回帰得点と前記第一順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算する。ここで、重み付け関数を利用して、第一回帰得点及び第一順序付け結果のフィッテング結果を特定領域、例えば０〜１００内にマッピングさせる。

２．前記モデル生成方法でさらに第二回帰モデル及び第二順序付けモデルを生成すると、前記第一回帰得点と前記第一順序付け結果に基づいて、第二回帰モデルを利用して、前記特定ピクチャの文書での各単語の第二回帰得点を獲得し、前記第一回帰得点と前記第一順序付け結果に基づいて、第二順序付けモデルを利用して、前記特定ピクチャの文書での各単語の第二順序付け結果を獲得し、最後に、前記第二回帰得点と前記第二順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算する。

ここで、本発明の前記実施例で提供する技術案は、ピクチャの文書のみに利用するものではなく、インターネット上の他のネットワークソースの文書、例えば普通ページの文書、マルチメディアソースの文書等にも利用でき、本発明は、ピクチャの文書のみを例示して述べる。

本発明の実施例は、さらに前記方法の実施例で各ステップ及び方法の装置を実現できる実施例を提供する。

図７を参照すると、本発明の実施例で提供するモデル生成装置の実施例の機能ブロック図である。図に示すように、当該装置は、
特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとするピクチャ獲得手段７１と、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得する文書クラスタリング手段７２と、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得する第一特徴獲得手段７３と、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成する第一生成手段７４とを含む。

一具体的な実現過程で、前記ピクチャ獲得手段７１は、具体的に、
前記特定ピクチャ及び各候補ピクチャのシグネチャを獲得し、
前記特定ピクチャ及び各候補ピクチャのシグネチャに基づいて、前記特定ピクチャと候補ピクチャ毎の類似度を獲得し、
類似度が予設の類似閾値以上である候補ピクチャを抽出して、前記特定ピクチャに同じである他のピクチャとするに用いられる。

図８を参照すると、図８は本発明の実施例で提供するモデル生成装置の第二実施例の機能ブロック図である。図に示すように、当該装置は、さらに、
各サンプルピクチャの位置するステーション或いはページの権威的なデータ、各サンプルピクチャの位置するページの時間情報、各サンプルピクチャの位置するステーションのクリックデータ、各サンプルピクチャの文書の単語ベクトルから前記文書クラスタの単語ベクトルまでの距離における少なくとも一つに基づいて、前記文書クラスタにおいて各文書を選別して、選別した文書クラスタを獲得する文書処理手段７５を含む。

一具体的な実現過程で、前記文書特徴は、
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験属性における少なくとも一つを含む。

図９を参照すると、図９は本発明の実施例で提供するモデル生成装置の第三実施例の機能ブロック図である。図に示すように、当該装置は、さらに、
前記第一回帰モデルを利用して、各サンプルピクチャの文書での各単語の回帰得点を獲得する得点獲得手段７６と、
前記第一順序付けモデルを利用して、各サンプルピクチャの文書での各単語の順序付け結果を獲得する順序付け獲得手段７７と、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得する第二特徴獲得手段７８と、
前記回帰得点、前記順序付け結果と前記関連特徴に基づいて機械学習を行い、第二回帰モデルと第二順序付けモデルを生成する第二生成手段７９とを含む。

一具体的な実現過程で、前記関連特徴は、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャのユーザー行為特徴、各ピクチャの品質特徴、及び各ピクチャの位置するステーション或いはページの権威的なデータにおける少なくとも一つを含む。

図１０を参照すると、図１０は本発明の実施例で提供する単語重み付け装置の実施例の機能ブロック図である。図に示すように、当該装置は、
特定ピクチャの文書に基づいて、図７及び図８に示すモデル生成装置によって生成した第一回帰モデルを利用して、前記文書での各単語の第一回帰得点を獲得する得点獲得手段８０と、
前記特定ピクチャの文書に基づいて、図７及び図８に示すモデル生成装置によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得する順序付け獲得手段８１と、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得する単語重み付け手段８２とを含む。

一具体的な実現過程で、前記単語重み付け手段は、具体的に、
前記第一回帰得点と前記第一順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算するに用いられる。

図１１を参照すると、図１１は本発明の実施例で提供する単語重み付け装置の第二実施例の機能ブロック図である。図に示すように、前記単語重み付け手段８２は、さらに、
前記第一回帰得点と前記第一順序付け結果に基づいて、図９に示すモデル生成装置によって生成した第二回帰モデルを利用して、前記特定ピクチャの文書での各単語の第二回帰得点を獲得する得点獲得モジュール８２１と、
前記第一回帰得点と前記第一順序付け結果に基づいて、図９に示すモデル生成装置によって生成した第二順序付けモデルを利用して、前記特定ピクチャの文書での各単語の第二順序付け結果を獲得する順序付け獲得モジュール８２２と、
前記第二回帰得点と前記第二順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算する単語重み付けモジュール８２３とを含む。

本発明の実施例の技術案は、以下の有益効果を有する。
本発明の実施例は、特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとすることによって、前記サンプルピクチャの文書に基づいて、文書クラスタを獲得し、さらに、前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得し、及び、前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成し、第一回帰モデルと第一順序付けモデルはピクチャ中文書に対する単語重み付けを実現するに用いられる。

本発明の実施例で提供する技術案において、ピクチャの文書をクラスタリングして複数の文書を獲得し、さらにピクチャの文書クラスタに基づいて複数の特徴を獲得し、また複数の特徴に機械学習を行って、必要なモデルを生成し、当該モデルは、ピクチャの文書での各単語に重み付けを行うことに用いられてもよい。従来技術でピクチャの文書が一般的に短いので単語重み付け結果の正確性が低い問題を解決し、これによって、本発明の実施例は、ピクチャの文書での各単語重み付け結果の正確性を向上させ、ピクチャ検索結果の正確性向上させる。

所属分野の当業者であれば、記述の便利と簡潔のために、上述記述のシステム、装置と手段の具体的な動作過程は、前述方法の実施例における対応する過程を参照できることを理解すべきで、ここで重複に記述しない。

本発明で提供する幾つの実施例で開示したシステム、装置及び方法は、他の方式によって実現できるのは理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記手段の分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数の手段又はモジュールは結合でき又は他の一つのシステムに集積でき、またはある特徴は無視し、または実行しなくてもよい。また、示しまたは検討した互いの間の結合または直接に結合又は通信接続は、あるインタフェース、装置または手段の間接的な接合又は通信接続によるものであってもよく、電気的、機械または他の形式であってもよい。

前記で分離部材として説明した手段は、物理上で分離したものであってもよく物理上で分離しなかったものであってもよく、即ち、同一の位置にあってもよく、複数のネットワークユニットに分布されていてもよい。実際の必要に応じて本実施例における一部または全部の手段を選択して本実施例の方案の目的を実現してもよい。

また、本発明の各実施例における各機能手段は一つの処理モジュールに集積してもよく、各手段が物理上で単独に存在してもよく、二つ又は二つ以上の手段を一つの手段に集積してもよい。前記集積した手段は、ハードウェアの形式に実現してもよく、ハードウェアにソフトウェアの機能手段を結合する形式で実現してもよい。

上記のソフト機能手段の形式で実現した集積した手段は、一つのコンピュータが可読な記憶媒体に記憶してもよい。前記ソフト機能手段は一つの記憶媒体に記憶してもよく、複数の命令を含んで一つのコンピュータデバイス（パーソナルコンピュータ、サーバー、又はネットワークデバイス等）又は処理モジュール（ｐｒｏｃｅｓｓｏｒ）によって、本発明の各実施例の前記方法の一部のステップを実行させてもよい。前記記憶媒体は、Ｕディスク、ポータブルハードウェア、読み出し専用メノリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、ディスク又は光ディスク等の複数のプログラムコードを記憶できる媒体を含む。

前記はただ本発明の好ましい実施例で、本発明についての限定ではなく、本発明の主旨及び原則の範囲で実行したいずれの修正、等価置換、改良などは、全部本発明の保護する範囲に属すべきである。

Claims

特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとし、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得し、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得し、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成することを含むことを特徴とするモデル生成方法。
前記特定ピクチャと同じである他のピクチャを獲得するには、
前記特定ピクチャ及び各候補ピクチャのシグネチャを獲得し、
前記特定ピクチャ及び各候補ピクチャのシグネチャに基づいて、前記特定ピクチャと候補ピクチャ毎の類似度を獲得し、
類似度が予設の類似閾値以上である候補ピクチャを抽出して、前記特定ピクチャに同じである他のピクチャとすることを含む
ことを特徴とする請求項１に記載の方法。
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得する前に、前記方法は、さらに、
各サンプルピクチャの位置するステーション或いはページの権威的なデータ、各サンプルピクチャの位置するページの時間情報、各サンプルピクチャの位置するステーションのクリックデータ、各サンプルピクチャの文書の単語ベクトルから前記文書クラスタの単語ベクトルまでの距離における少なくとも一つに基づいて、前記文書クラスタにおいて各文書を選別して、選別した文書クラスタを獲得することを含む
ことを特徴とする請求項１に記載の方法。
前記文書特徴は、
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験属性における少なくとも一つを含む
ことを特徴とする請求項１に記載の方法。
前記方法は、さらに、
前記第一回帰モデルを利用して、各サンプルピクチャの文書での各単語の回帰得点を獲得し、
前記第一順序付けモデルを利用して、各サンプルピクチャの文書での各単語の順序付け結果を獲得し、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得し、
前記回帰得点、前記順序付け結果と前記関連特徴に基づいて機械学習を行い、第二回帰モデルと第二順序付けモデルを生成することを含む
ことを特徴とする請求項１に記載の方法。
前記関連特徴は、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャのユーザー行為特徴、各ピクチャの品質特徴、及び各ピクチャの位置するステーション或いはページの権威的なデータにおける少なくとも一つを含む
ことを特徴とする請求項５に記載の方法。
特定ピクチャの文書に基づいて、請求項１〜４の何れの一項に記載のモデル生成方法によって生成した第一回帰モデルを利用して前記文書での各単語の第一回帰得点を獲得し、
前記特定ピクチャの文書に基づいて、請求項１〜４の何れの一項に記載のモデル生成方法によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得することを含む
ことを特徴とする単語重み付け方法。
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得するには、
前記第一回帰得点と前記第一順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算することを含む
ことを特徴とする請求項７に記載の単語重み付け方法。
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得するには、
前記第一回帰得点と前記第一順序付け結果に基づいて、請求項５または６に記載のモデル生成方法によって生成した第二回帰モデルを利用して、前記特定ピクチャの文書での各単語の第二回帰得点を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、請求項５または６に記載のモデル生成方法によって生成した第二順序付けモデルを利用して、前記特定ピクチャの文書での各単語の第二順序付け結果を獲得し、
前記第二回帰得点と前記第二順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算することを含む
ことを特徴とする請求項７に記載の単語重み付け方法。
特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとするピクチャ獲得手段と、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得する文書クラスタリング手段と、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得する第一特徴獲得手段と、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成する第一生成手段とを含む
ことを特徴とするモデル生成装置。
前記ピクチャ獲得手段は、具体的に、
前記特定ピクチャ及び各候補ピクチャのシグネチャを獲得し、
前記特定ピクチャ及び各候補ピクチャのシグネチャに基づいて、前記特定ピクチャと候補ピクチャ毎の類似度を獲得し、
類似度が予設の類似閾値以上である候補ピクチャを抽出して、前記特定ピクチャに同じである他のピクチャとすることに用いられる
ことを特徴とする請求項１０に記載のモデル生成装置。
前記装置は、さらに、
各サンプルピクチャの位置するステーション或いはページの権威的なデータ、各サンプルピクチャの位置するページの時間情報、各サンプルピクチャの位置するステーションのクリックデータ、各サンプルピクチャの文書の単語ベクトルから前記文書クラスタの単語ベクトルまでの距離における少なくとも一つに基づいて、前記文書クラスタにおいて各文書を選別して、選別した文書クラスタを獲得する文書処理手段を含む
ことを特徴とする請求項１０に記載のモデル生成装置。
前記文書特徴は、
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験属性における少なくとも一つを含む
ことを特徴とする請求項１０に記載のモデル生成装置。
前記装置は、さらに、
前記第一回帰モデルを利用して、各サンプルピクチャの文書での各単語の回帰得点を獲得する得点獲得手段と、
前記第一順序付けモデルを利用して、各サンプルピクチャの文書での各単語の順序付け結果を獲得する順序付け獲得手段と、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得する第二特徴獲得手段と、
前記回帰得点、前記順序付け結果と前記関連特徴に基づいて機械学習を行い、第二回帰モデルと第二順序付けモデルを生成する第二生成手段とを含むことを
特徴とする請求項１０に記載のモデル生成装置。
前記関連特徴は、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャのユーザー行為特徴、各ピクチャの品質特徴、及び各ピクチャの位置するステーション或いはページの権威的なデータにおける少なくとも一つを含む
特徴とする請求項１４に記載のモデル生成装置。
特定ピクチャの文書に基づいて、請求項１０〜１３の何れの一項に記載の第一回帰モデルを利用して前記文書での各単語の第一回帰得点を獲得する得点獲得手段と、
前記特定ピクチャの文書に基づいて、請求項１０〜１３の何れの一項に記載のモデル生成装置によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得する順序付け獲得手段と、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得する単語重み付け手段とを含む
ことを特徴とする単語重み付け装置。
前記単語重み付け手段は、具体的に、
前記第一回帰得点と前記第一順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算するに用いられる
ことを特徴とする請求項１６に記載の装置。
前記単語重み付け手段は、さらに、
前記第一回帰得点と前記第一順序付け結果に基づいて、請求項１４または１５に記載の前記モデル生成装置によって生成した第二回帰モデルを利用して、前記特定ピクチャの文書での各単語の第二回帰得点を獲得する得点獲得モジュールと、
前記第一回帰得点と前記第一順序付け結果に基づいて、請求項１４または１５に記載のモデル生成装置によって生成した第二順序付けモデルを利用して、前記特定ピクチャの文書での各単語の第二順序付け結果を獲得する順序付け獲得モジュールと、
前記第二回帰得点と前記第二順序付け結果に基づいて、重み付け関数を利用して前記特定ピクチャの文書での各単語の重み付け得点を計算するに用いられる
ことを特徴とする請求項１６に記載の装置。
一つ又は複数のプロセッサーと、
メモリと、
一つ又は複数のプログラムを含むデバイスであって、前記一つ又は複数のプログラムは前記メモリに記憶されて、前記一つ又は複数のプロセッサーによって実行される時に、
特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとし、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得し、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得し、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成する
ことを特徴とするデバイス。
一つ又は複数のプロセッサーと、
メモリと、
一つ又は複数のプログラムを含むデバイスであって、前記一つ又は複数のプログラムは前記メモリに記憶されて、前記一つ又は複数のプロセッサーによって実行される時に、
特定ピクチャの文書に基づいて、請求項１〜４の何れの一項に記載のモデル生成方法によって生成した第一回帰モデルを利用して、前記文書での各単語の第一回帰得点を獲得し、
前記特定ピクチャの文書に基づいて、請求項１〜４の何れの一項に記載のモデル生成方法によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得する
ことを特徴とするデバイス。
コンピュータプログラムが符号化されているコンピュータ記憶媒体であって、前記プログラムは一つ又は複数のコンピュータによって実行される時に、前記一つ又は複数のコンピュータに、
特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとし、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得し、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得し、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成する操作を実行させる
ことを特徴とするコンピュータ記憶媒体。
コンピュータプログラムが符号化されているコンピュータ記憶媒体であって、前記プログラムは一つ又は複数のコンピュータによって実行される時に、前記一つ又は複数のコンピュータに、
特定ピクチャの文書に基づいて、請求項１〜４の何れの一項に記載のモデル生成方法によって生成した第一回帰モデルを利用して、前記文書での各単語の第一回帰得点を獲得し、
前記特定ピクチャの文書に基づいて、請求項１〜４の何れの一項に記載のモデル生成方法によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得する操作を実行させる
ことを特徴とするコンピュータ記憶媒体。