JP2018509664A - モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体 - Google Patents
モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体 Download PDFInfo
- Publication number
- JP2018509664A JP2018509664A JP2016572673A JP2016572673A JP2018509664A JP 2018509664 A JP2018509664 A JP 2018509664A JP 2016572673 A JP2016572673 A JP 2016572673A JP 2016572673 A JP2016572673 A JP 2016572673A JP 2018509664 A JP2018509664 A JP 2018509664A
- Authority
- JP
- Japan
- Prior art keywords
- document
- picture
- word
- ordering
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、インターネット利用技術分野に関し、特に、モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体に関する。
特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとし、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得し、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得し、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成することを含むモデル生成方法を提供する。
前記特定ピクチャ及び各候補ピクチャのシグネチャを獲得し、
前記特定ピクチャ及び各候補ピクチャのシグネチャに基づいて、前記特定ピクチャと候補ピクチャ毎の類似度を獲得し、
類似度が予設の類似閾値以上である候補ピクチャを抽出して、前記特定ピクチャに同じである他のピクチャとすることを含む。
各サンプルピクチャの位置するステーション或いはページの権威的なデータ、各サンプルピクチャの位置するページの時間情報、各サンプルピクチャの位置するステーションのクリックデータ、各サンプルピクチャの文書の単語ベクトルから前記文書クラスタの単語ベクトルまでの距離における少なくとも一つに基づいて、前記文書クラスタにおいて各文書を選別して、選別した文書クラスタを獲得することを含む。
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験的属性における少なくとも一つを含む。
前記第一回帰モデルを利用して、各サンプルピクチャの文書での各単語の回帰得点を獲得し、
前記第一順序付けモデルを利用して、各サンプルピクチャの文書での各単語の順序付け結果を獲得し、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得し、
前記回帰得点、前記順序付け結果と前記関連特徴に基づいて機械学習を行い、第二回帰モデルと第二順序付けモデルを生成することを含む。
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャのユーザー行為特徴、各ピクチャの品質特徴、及び各ピクチャの位置するステーション或いはページの権威的なデータにおける少なくとも一つを含む。
特定ピクチャの文書に基づいて、前記モデル生成方法によって生成した第一回帰モデルを利用して前記文書での各単語の第一回帰得点を獲得し、
前記特定ピクチャの文書に基づいて、前記モデル生成方法によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得することを含む単語重み付け方法を提供する。
前記第一回帰得点と前記第一順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算することを含む。
前記第一回帰得点と前記第一順序付け結果に基づいて、前記モデル生成方法によって生成した第二回帰モデルを利用して、前記特定ピクチャの文書での各単語の第二回帰得点を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記モデル生成方法によって生成した第二順序付けモデルを利用して、前記特定ピクチャの文書での各単語の第二順序付け結果を獲得し、
前記第二回帰得点と前記第二順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算することを含む。
特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとするピクチャ獲得手段と、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得する文書クラスタリング手段と、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得する第一特徴獲得手段と、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成する第一生成手段とを含むモデル生成装置を提供する。
前記特定ピクチャ及び各候補ピクチャのシグネチャを獲得し、
前記特定ピクチャ及び各候補ピクチャのシグネチャに基づいて、前記特定ピクチャと候補ピクチャ毎の類似度を獲得し、
類似度が予設の類似閾値以上である候補ピクチャを抽出して、前記特定ピクチャに同じである他のピクチャとすることに用いられる。
各サンプルピクチャの位置するステーション或いはページの権威的なデータ、各サンプルピクチャの位置するページの時間情報、各サンプルピクチャの位置するステーションのクリックデータ、各サンプルピクチャの文書の単語ベクトルから前記文書クラスタの単語ベクトルまでの距離における少なくとも一つに基づいて、前記文書クラスタにおいて各文書を選別して、選別した文書クラスタを獲得する文書処理手段を含む。
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験属性における少なくとも一つを含む。
前記第一回帰モデルを利用して、各サンプルピクチャの文書での各単語の回帰得点を獲得する得点獲得手段と、
前記第一順序付けモデルを利用して、各サンプルピクチャの文書での各単語の順序付け結果を獲得する順序付け獲得手段と、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得する第二特徴獲得手段と、
前記回帰得点、前記順序付け結果と前記関連特徴に基づいて機械学習を行い、第二回帰モデルと第二順序付けモデルを生成する第二生成手段とを含む。
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャのユーザー行為特徴、各ピクチャの品質特徴、及び各ピクチャの位置するステーション或いはページの権威的なデータにおける少なくとも一つを含む。
特定ピクチャの文書に基づいて、前記モデル生成装置によって生成した第一回帰モデルを利用して前記文書での各単語の第一回帰得点を獲得する得点獲得手段と、
前記特定ピクチャの文書に基づいて、前記モデル生成装置によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得する順序付け獲得手段と、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得する単語重み付け手段とを含む単語重み付け装置を提供する。
前記第一回帰得点と前記第一順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算するに用いられる。
前記第一回帰得点と前記第一順序付け結果に基づいて、前記モデル生成装置によって生成した第二回帰モデルを利用して、前記特定ピクチャの文書での各単語の第二回帰得点を獲得する得点獲得モジュールと、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記モデル生成装置によって生成した第二順序付けモデルを利用して、前記特定ピクチャの文書での各単語の第二順序付け結果を獲得する順序付け獲得モジュールと、
前記第二回帰得点と前記第二順序付け結果に基づいて、重み付け関数を利用して前記特定ピクチャの文書での各単語の重み付け得点を計算する単語重み付けモジュールとを含む。
本発明の実施例が提供する技術案によると、ピクチャの文書をクラスタリングして複数の文書を獲得し、さらにピクチャの文書クラスタに基づいて複数の特徴を抽出し、さらに複数の特徴に対して機械学習を行って必要なモデルを生成し、当該モデルはピクチャの文書での各単語に重み付けを行うことに用いられる。従来技術においてピクチャの文書が短いので単語重み付け結果の正確性が低い問題を解決して、本発明の実施例は、ピクチャの文書での各単語重み付け結果の正確性を向上でき、ピクチャ検索結果の正確性を向上させる。
記述する実施例はただ本発明の一部実施例で、全部の実施例ではないことを明確にするべきである。本発明における実施例に基づいて、本分野の当業者が創造的な労働をしない前提で獲得する全部他の実施例は、本発明の保護する範囲に属する。
また、本文で使用する用語「と/または」は、ただ関連対象の関連関係を表示するもので、三つの関係が可能である。例えば、Aと/またはBは、ただAだけ存在する場合と、AとBが同時に存在する場合と、ただBだけ存在する場合の三つの可能性がある。また、本文で符号「/」は、一般に前後の関連対象が「または」の関係であることを示す。
本発明の実施例はモデル生成方法を提供する。図1を参照すると、図1は本発明の実施例で提供するモデル生成方法の実施例のフローチャートである。図に示すように、当該方法は、以下のステップを含む。
具体的に、ピクチャ検索とウェブページ検索の顕著な区別は、ピクチャの関連文書が一般的に短いことであるので、単語重み付けタスクにおいて短文書理解のための難問題にあたり、この難問題を解決する方法の一つとしては、重み付けタスクに前処理ステップを増加させる必要があり、ピクチャの文書をクラスタリングして、豊富で正確な文書を獲得することである。即ち、同一ピクチャの文書をクラスタリングし、クラスタリング結果を利用してピクチャの文書を互いに検証して、信頼でき且つ充分な文書を選別して、ピクチャの文書に基づく統計特徴の有効性を向上させる。
具体的に、図2に示すように、獲得した特定ピクチャと同じである他のピクチャに対して、特定ピクチャの文書及び他のピクチャの文書をクラスタリングして、文書クラスタを獲得する。
具体的に、選別して得た文書クラスタに基づいて、文書特徴を獲得し、サンプルピクチャに基づいて視覚特徴を獲得する。
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験属性における少なくとも一つを含んでいてもよい。
例えば、文書を分離して、文書における各単語を獲得し、そして各単語で信頼度が信頼閾値の以上である若干の単語を獲得して、当該文書の主題語とする。
例えば、文書での単語の先験属性は、単語の逆文書頻度(Inverse Document Frequency、IDF)データ、語義種類、共起語、同義語、類義語及び関連語等を含んでいてもよいが、これらに限定されない。一具体的な実現過程で、コーパス及び/またはユーザー行為ログから、単語の先験属性を調べることができる。
具体的に、図2に示すように、文書特徴と視覚特徴を獲得してから、文書特徴と視覚特徴に基づいて機械学習を行って、第一回帰モデルと第一順序付けモデルを含む一部モデルを生成する。
また、例えば、勾配ブースティング順序付け(Gradient Boosting Rank、GBRank)アルゴリズムを利用し、文書特徴及び視覚特徴に対して機械学習を行って、第一順序付けモデルを生成する。
図4を参照すると、本発明の実施例で提供するモデル生成方法の第二実施例のフローチャートである。図に示すように、当該方法は、第一実施例でのモデル生成方法に基づき、当該モデル生成方法は、S104の後で、さらに、以下のステップを含む。
図5を参照すると、図5は本発明の実施例は、所提供クリック特徴を利用してモデルを生成する例示図である。図に示すように、当該利用クリック特徴生成モデルは、以下の過程を含んでいてもよい。
そして、一部モデルを利用してdata_aに対応する回帰得点及び順序付け結果を獲得し、回帰得点及び順序付け結果をデータ集合data_aに追加して、データ集合data_bを獲得する。回帰得点及び順序付け結果に基づいて、重み付け関数を利用して、一部モデル得分を獲得する。
そして、train_globalを利用して機械学習を行い、第二回帰モデル及び第二順序付けモデルを含む完全モデルを生成する。
図6を参照すると、図6は本発明の実施例で提供する単語重み付け方法のフローチャートである。図に示すように、以下のステップを含む。
具体的に、特定ピクチャの文書、特定ピクチャの文書特徴及び特定ピクチャの視覚特徴を第一実施例で生成した第一回帰モデルに入力し、第一回帰モデルが入力した情報に基づいて、当該特定ピクチャの文書での各単語の第一回帰得点を獲得する。
具体的に、特定ピクチャの文書、特定ピクチャの文書特徴及び特定ピクチャの視覚特徴を、第一実施例で生成した第一順序付けモデルに入力し、第一順序付けモデルが入力した情報に基づいて、当該特定ピクチャの文書での各単語の第一順序付け結果を獲得する。
具体的に、前記第一回帰得点及び前記第一順序付け結果を利用して、前記特定ピクチャの文書での各単語の重み付け得点を獲得する方法は、以下の二つの方法を含んでいてもよいが、これらに限定されない。
特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとするピクチャ獲得手段71と、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得する文書クラスタリング手段72と、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得する第一特徴獲得手段73と、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成する第一生成手段74とを含む。
前記特定ピクチャ及び各候補ピクチャのシグネチャを獲得し、
前記特定ピクチャ及び各候補ピクチャのシグネチャに基づいて、前記特定ピクチャと候補ピクチャ毎の類似度を獲得し、
類似度が予設の類似閾値以上である候補ピクチャを抽出して、前記特定ピクチャに同じである他のピクチャとするに用いられる。
各サンプルピクチャの位置するステーション或いはページの権威的なデータ、各サンプルピクチャの位置するページの時間情報、各サンプルピクチャの位置するステーションのクリックデータ、各サンプルピクチャの文書の単語ベクトルから前記文書クラスタの単語ベクトルまでの距離における少なくとも一つに基づいて、前記文書クラスタにおいて各文書を選別して、選別した文書クラスタを獲得する文書処理手段75を含む。
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験属性における少なくとも一つを含む。
前記第一回帰モデルを利用して、各サンプルピクチャの文書での各単語の回帰得点を獲得する得点獲得手段76と、
前記第一順序付けモデルを利用して、各サンプルピクチャの文書での各単語の順序付け結果を獲得する順序付け獲得手段77と、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得する第二特徴獲得手段78と、
前記回帰得点、前記順序付け結果と前記関連特徴に基づいて機械学習を行い、第二回帰モデルと第二順序付けモデルを生成する第二生成手段79とを含む。
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャのユーザー行為特徴、各ピクチャの品質特徴、及び各ピクチャの位置するステーション或いはページの権威的なデータにおける少なくとも一つを含む。
特定ピクチャの文書に基づいて、図7及び図8に示すモデル生成装置によって生成した第一回帰モデルを利用して、前記文書での各単語の第一回帰得点を獲得する得点獲得手段80と、
前記特定ピクチャの文書に基づいて、図7及び図8に示すモデル生成装置によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得する順序付け獲得手段81と、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得する単語重み付け手段82とを含む。
前記第一回帰得点と前記第一順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算するに用いられる。
前記第一回帰得点と前記第一順序付け結果に基づいて、図9に示すモデル生成装置によって生成した第二回帰モデルを利用して、前記特定ピクチャの文書での各単語の第二回帰得点を獲得する得点獲得モジュール821と、
前記第一回帰得点と前記第一順序付け結果に基づいて、図9に示すモデル生成装置によって生成した第二順序付けモデルを利用して、前記特定ピクチャの文書での各単語の第二順序付け結果を獲得する順序付け獲得モジュール822と、
前記第二回帰得点と前記第二順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算する単語重み付けモジュール823とを含む。
本発明の実施例は、特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとすることによって、前記サンプルピクチャの文書に基づいて、文書クラスタを獲得し、さらに、前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得し、及び、前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成し、第一回帰モデルと第一順序付けモデルはピクチャ中文書に対する単語重み付けを実現するに用いられる。
Claims (22)
- 特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとし、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得し、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得し、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成することを含むことを特徴とするモデル生成方法。 - 前記特定ピクチャと同じである他のピクチャを獲得するには、
前記特定ピクチャ及び各候補ピクチャのシグネチャを獲得し、
前記特定ピクチャ及び各候補ピクチャのシグネチャに基づいて、前記特定ピクチャと候補ピクチャ毎の類似度を獲得し、
類似度が予設の類似閾値以上である候補ピクチャを抽出して、前記特定ピクチャに同じである他のピクチャとすることを含む
ことを特徴とする請求項1に記載の方法。 - 前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得する前に、前記方法は、さらに、
各サンプルピクチャの位置するステーション或いはページの権威的なデータ、各サンプルピクチャの位置するページの時間情報、各サンプルピクチャの位置するステーションのクリックデータ、各サンプルピクチャの文書の単語ベクトルから前記文書クラスタの単語ベクトルまでの距離における少なくとも一つに基づいて、前記文書クラスタにおいて各文書を選別して、選別した文書クラスタを獲得することを含む
ことを特徴とする請求項1に記載の方法。 - 前記文書特徴は、
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験属性における少なくとも一つを含む
ことを特徴とする請求項1に記載の方法。 - 前記方法は、さらに、
前記第一回帰モデルを利用して、各サンプルピクチャの文書での各単語の回帰得点を獲得し、
前記第一順序付けモデルを利用して、各サンプルピクチャの文書での各単語の順序付け結果を獲得し、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得し、
前記回帰得点、前記順序付け結果と前記関連特徴に基づいて機械学習を行い、第二回帰モデルと第二順序付けモデルを生成することを含む
ことを特徴とする請求項1に記載の方法。 - 前記関連特徴は、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャのユーザー行為特徴、各ピクチャの品質特徴、及び各ピクチャの位置するステーション或いはページの権威的なデータにおける少なくとも一つを含む
ことを特徴とする請求項5に記載の方法。 - 特定ピクチャの文書に基づいて、請求項1〜4の何れの一項に記載のモデル生成方法によって生成した第一回帰モデルを利用して前記文書での各単語の第一回帰得点を獲得し、
前記特定ピクチャの文書に基づいて、請求項1〜4の何れの一項に記載のモデル生成方法によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得することを含む
ことを特徴とする単語重み付け方法。 - 前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得するには、
前記第一回帰得点と前記第一順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算することを含む
ことを特徴とする請求項7に記載の単語重み付け方法。 - 前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得するには、
前記第一回帰得点と前記第一順序付け結果に基づいて、請求項5または6に記載のモデル生成方法によって生成した第二回帰モデルを利用して、前記特定ピクチャの文書での各単語の第二回帰得点を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、請求項5または6に記載のモデル生成方法によって生成した第二順序付けモデルを利用して、前記特定ピクチャの文書での各単語の第二順序付け結果を獲得し、
前記第二回帰得点と前記第二順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算することを含む
ことを特徴とする請求項7に記載の単語重み付け方法。 - 特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとするピクチャ獲得手段と、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得する文書クラスタリング手段と、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得する第一特徴獲得手段と、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成する第一生成手段とを含む
ことを特徴とするモデル生成装置。 - 前記ピクチャ獲得手段は、具体的に、
前記特定ピクチャ及び各候補ピクチャのシグネチャを獲得し、
前記特定ピクチャ及び各候補ピクチャのシグネチャに基づいて、前記特定ピクチャと候補ピクチャ毎の類似度を獲得し、
類似度が予設の類似閾値以上である候補ピクチャを抽出して、前記特定ピクチャに同じである他のピクチャとすることに用いられる
ことを特徴とする請求項10に記載のモデル生成装置。 - 前記装置は、さらに、
各サンプルピクチャの位置するステーション或いはページの権威的なデータ、各サンプルピクチャの位置するページの時間情報、各サンプルピクチャの位置するステーションのクリックデータ、各サンプルピクチャの文書の単語ベクトルから前記文書クラスタの単語ベクトルまでの距離における少なくとも一つに基づいて、前記文書クラスタにおいて各文書を選別して、選別した文書クラスタを獲得する文書処理手段を含む
ことを特徴とする請求項10に記載のモデル生成装置。 - 前記文書特徴は、
前記文書クラスタにおいて各文書の分布特徴、
前記文書クラスタにおいて各文書のクリック特徴、
前記文書クラスタにおいて各文書での単語語義特徴、
前記文書クラスタにおいて各文書の主題語、及び、
前記文書クラスタにおいて各文書での単語の先験属性における少なくとも一つを含む
ことを特徴とする請求項10に記載のモデル生成装置。 - 前記装置は、さらに、
前記第一回帰モデルを利用して、各サンプルピクチャの文書での各単語の回帰得点を獲得する得点獲得手段と、
前記第一順序付けモデルを利用して、各サンプルピクチャの文書での各単語の順序付け結果を獲得する順序付け獲得手段と、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャの関連特徴を獲得する第二特徴獲得手段と、
前記回帰得点、前記順序付け結果と前記関連特徴に基づいて機械学習を行い、第二回帰モデルと第二順序付けモデルを生成する第二生成手段とを含むことを
特徴とする請求項10に記載のモデル生成装置。 - 前記関連特徴は、
各サンプルピクチャの文書での各単語にマッチングするピクチャ検索結果において各ピクチャのユーザー行為特徴、各ピクチャの品質特徴、及び各ピクチャの位置するステーション或いはページの権威的なデータにおける少なくとも一つを含む
特徴とする請求項14に記載のモデル生成装置。 - 特定ピクチャの文書に基づいて、請求項10〜13の何れの一項に記載の第一回帰モデルを利用して前記文書での各単語の第一回帰得点を獲得する得点獲得手段と、
前記特定ピクチャの文書に基づいて、請求項10〜13の何れの一項に記載のモデル生成装置によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得する順序付け獲得手段と、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得する単語重み付け手段とを含む
ことを特徴とする単語重み付け装置。 - 前記単語重み付け手段は、具体的に、
前記第一回帰得点と前記第一順序付け結果に基づいて、重み付け関数を利用して、前記特定ピクチャの文書での各単語の重み付け得点を計算するに用いられる
ことを特徴とする請求項16に記載の装置。 - 前記単語重み付け手段は、さらに、
前記第一回帰得点と前記第一順序付け結果に基づいて、請求項14または15に記載の前記モデル生成装置によって生成した第二回帰モデルを利用して、前記特定ピクチャの文書での各単語の第二回帰得点を獲得する得点獲得モジュールと、
前記第一回帰得点と前記第一順序付け結果に基づいて、請求項14または15に記載のモデル生成装置によって生成した第二順序付けモデルを利用して、前記特定ピクチャの文書での各単語の第二順序付け結果を獲得する順序付け獲得モジュールと、
前記第二回帰得点と前記第二順序付け結果に基づいて、重み付け関数を利用して前記特定ピクチャの文書での各単語の重み付け得点を計算するに用いられる
ことを特徴とする請求項16に記載の装置。 - 一つ又は複数のプロセッサーと、
メモリと、
一つ又は複数のプログラムを含むデバイスであって、前記一つ又は複数のプログラムは前記メモリに記憶されて、前記一つ又は複数のプロセッサーによって実行される時に、
特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとし、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得し、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得し、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成する
ことを特徴とするデバイス。 - 一つ又は複数のプロセッサーと、
メモリと、
一つ又は複数のプログラムを含むデバイスであって、前記一つ又は複数のプログラムは前記メモリに記憶されて、前記一つ又は複数のプロセッサーによって実行される時に、
特定ピクチャの文書に基づいて、請求項1〜4の何れの一項に記載のモデル生成方法によって生成した第一回帰モデルを利用して、前記文書での各単語の第一回帰得点を獲得し、
前記特定ピクチャの文書に基づいて、請求項1〜4の何れの一項に記載のモデル生成方法によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得する
ことを特徴とするデバイス。 - コンピュータプログラムが符号化されているコンピュータ記憶媒体であって、前記プログラムは一つ又は複数のコンピュータによって実行される時に、前記一つ又は複数のコンピュータに、
特定ピクチャと同じである他のピクチャを獲得し、前記特定ピクチャと前記他のピクチャをサンプルピクチャとし、
前記サンプルピクチャの文書に基づいて、文書クラスタを獲得し、
前記文書クラスタに基づいて文書特徴を獲得し、前記サンプルピクチャに基づいて視覚特徴を獲得し、
前記文書特徴と前記視覚特徴に基づいて機械学習を行い、第一回帰モデルと第一順序付けモデルを生成する操作を実行させる
ことを特徴とするコンピュータ記憶媒体。 - コンピュータプログラムが符号化されているコンピュータ記憶媒体であって、前記プログラムは一つ又は複数のコンピュータによって実行される時に、前記一つ又は複数のコンピュータに、
特定ピクチャの文書に基づいて、請求項1〜4の何れの一項に記載のモデル生成方法によって生成した第一回帰モデルを利用して、前記文書での各単語の第一回帰得点を獲得し、
前記特定ピクチャの文書に基づいて、請求項1〜4の何れの一項に記載のモデル生成方法によって生成した第一順序付けモデルを利用して、前記文書での各単語の第一順序付け結果を獲得し、
前記第一回帰得点と前記第一順序付け結果に基づいて、前記特定ピクチャの文書での各単語の重み付け得点を獲得する操作を実行させる
ことを特徴とするコンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511025975.0 | 2015-12-31 | ||
CN201511025975.0A CN105653701B (zh) | 2015-12-31 | 2015-12-31 | 模型生成方法及装置、词语赋权方法及装置 |
PCT/CN2016/084312 WO2017113592A1 (zh) | 2015-12-31 | 2016-06-01 | 模型生成方法、词语赋权方法、装置、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018509664A true JP2018509664A (ja) | 2018-04-05 |
JP6428795B2 JP6428795B2 (ja) | 2018-11-28 |
Family
ID=56490920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016572673A Active JP6428795B2 (ja) | 2015-12-31 | 2016-06-01 | モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10565253B2 (ja) |
JP (1) | JP6428795B2 (ja) |
CN (1) | CN105653701B (ja) |
WO (1) | WO2017113592A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254513A (zh) * | 2021-07-05 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 排序模型生成方法、排序方法、装置、电子设备 |
JP2021196722A (ja) * | 2020-06-10 | 2021-12-27 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919951B (zh) * | 2017-01-24 | 2020-04-21 | 杭州电子科技大学 | 一种基于点击与视觉融合的弱监督双线性深度学习方法 |
CN107992508B (zh) * | 2017-10-09 | 2021-11-30 | 北京知道未来信息技术有限公司 | 一种基于机器学习的中文邮件签名提取方法及*** |
CN110598200B (zh) * | 2018-06-13 | 2023-05-23 | 北京百度网讯科技有限公司 | 语义识别方法及装置 |
CN109032375B (zh) * | 2018-06-29 | 2022-07-19 | 北京百度网讯科技有限公司 | 候选文本排序方法、装置、设备及存储介质 |
CN110569429B (zh) * | 2019-08-08 | 2023-11-24 | 创新先进技术有限公司 | 一种内容选择模型的生成方法、装置和设备 |
CN112735413B (zh) * | 2020-12-25 | 2024-05-31 | 浙江大华技术股份有限公司 | 一种基于摄像装置的指令分析方法、电子设备和存储介质 |
CN113283115B (zh) * | 2021-06-11 | 2023-08-08 | 北京有竹居网络技术有限公司 | 图像模型生成方法、装置和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000048041A (ja) * | 1998-07-29 | 2000-02-18 | Matsushita Electric Ind Co Ltd | データ検索システム及びこれに用いる装置 |
JP2000353173A (ja) * | 1999-06-11 | 2000-12-19 | Hitachi Ltd | 文書付き画像の分類方法、分類装置および記録媒体 |
US20060026152A1 (en) * | 2004-07-13 | 2006-02-02 | Microsoft Corporation | Query-based snippet clustering for search result grouping |
JP2011221794A (ja) * | 2010-04-09 | 2011-11-04 | Kddi Corp | 画像選定装置 |
JP2013544397A (ja) * | 2010-11-05 | 2013-12-12 | 楽天株式会社 | キーワード抽出に関するシステム及び方法 |
JP2013545160A (ja) * | 2010-09-26 | 2013-12-19 | アリババ・グループ・ホールディング・リミテッド | 指定特性値を使用するターゲット単語の認識 |
JP2015197915A (ja) * | 2014-04-01 | 2015-11-09 | バイドゥ (チャイナ) カンパニー リミテッドBaidu (China) Co., Ltd. | 検索結果を提示する方法及び装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7716225B1 (en) * | 2004-06-17 | 2010-05-11 | Google Inc. | Ranking documents based on user behavior and/or feature data |
US7461073B2 (en) | 2006-02-14 | 2008-12-02 | Microsoft Corporation | Co-clustering objects of heterogeneous types |
US8078617B1 (en) * | 2009-01-20 | 2011-12-13 | Google Inc. | Model based ad targeting |
CN101582080B (zh) | 2009-06-22 | 2011-05-04 | 浙江大学 | 一种基于图像和文本相关性挖掘的Web图像聚类方法 |
US20110125743A1 (en) * | 2009-11-23 | 2011-05-26 | Nokia Corporation | Method and apparatus for providing a contextual model based upon user context data |
US9864817B2 (en) * | 2012-01-28 | 2018-01-09 | Microsoft Technology Licensing, Llc | Determination of relationships between collections of disparate media types |
US8880438B1 (en) * | 2012-02-15 | 2014-11-04 | Google Inc. | Determining content relevance |
CN102902821B (zh) * | 2012-11-01 | 2015-08-12 | 北京邮电大学 | 基于网络热点话题的图像高级语义标注、检索方法及装置 |
US9082047B2 (en) * | 2013-08-20 | 2015-07-14 | Xerox Corporation | Learning beautiful and ugly visual attributes |
CN103577537B (zh) * | 2013-09-24 | 2016-08-17 | 上海交通大学 | 面向图像分享网站图片的多重配对相似度确定方法 |
CN103810274B (zh) * | 2014-02-12 | 2017-03-29 | 北京联合大学 | 基于WordNet语义相似度的多特征图像标签排序方法 |
CN104077419B (zh) * | 2014-07-18 | 2018-05-01 | 合肥工业大学 | 结合语义与视觉信息的长查询图像检索重排序方法 |
CN104376105B (zh) * | 2014-11-26 | 2017-08-25 | 北京航空航天大学 | 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合***及方法 |
-
2015
- 2015-12-31 CN CN201511025975.0A patent/CN105653701B/zh active Active
-
2016
- 2016-06-01 JP JP2016572673A patent/JP6428795B2/ja active Active
- 2016-06-01 US US15/319,555 patent/US10565253B2/en active Active
- 2016-06-01 WO PCT/CN2016/084312 patent/WO2017113592A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000048041A (ja) * | 1998-07-29 | 2000-02-18 | Matsushita Electric Ind Co Ltd | データ検索システム及びこれに用いる装置 |
JP2000353173A (ja) * | 1999-06-11 | 2000-12-19 | Hitachi Ltd | 文書付き画像の分類方法、分類装置および記録媒体 |
US20060026152A1 (en) * | 2004-07-13 | 2006-02-02 | Microsoft Corporation | Query-based snippet clustering for search result grouping |
JP2011221794A (ja) * | 2010-04-09 | 2011-11-04 | Kddi Corp | 画像選定装置 |
JP2013545160A (ja) * | 2010-09-26 | 2013-12-19 | アリババ・グループ・ホールディング・リミテッド | 指定特性値を使用するターゲット単語の認識 |
JP2013544397A (ja) * | 2010-11-05 | 2013-12-12 | 楽天株式会社 | キーワード抽出に関するシステム及び方法 |
JP2015197915A (ja) * | 2014-04-01 | 2015-11-09 | バイドゥ (チャイナ) カンパニー リミテッドBaidu (China) Co., Ltd. | 検索結果を提示する方法及び装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021196722A (ja) * | 2020-06-10 | 2021-12-27 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN113254513A (zh) * | 2021-07-05 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 排序模型生成方法、排序方法、装置、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2017113592A1 (zh) | 2017-07-06 |
CN105653701B (zh) | 2019-01-15 |
CN105653701A (zh) | 2016-06-08 |
JP6428795B2 (ja) | 2018-11-28 |
US10565253B2 (en) | 2020-02-18 |
US20180210897A1 (en) | 2018-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6428795B2 (ja) | モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体 | |
CN108009228B (zh) | 一种内容标签的设置方法、装置及存储介质 | |
KR101721338B1 (ko) | 검색 엔진 및 그의 구현 방법 | |
US11238310B2 (en) | Training data acquisition method and device, server and storage medium | |
CN107193962B (zh) | 一种互联网推广信息的智能配图方法及装置 | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及*** | |
US8909563B1 (en) | Methods, systems, and programming for annotating an image including scoring using a plurality of trained classifiers corresponding to a plurality of clustered image groups associated with a set of weighted labels | |
WO2018050022A1 (zh) | 应用程序的推荐方法及服务器 | |
CN107862022B (zh) | 文化资源推荐*** | |
CN108268600B (zh) | 基于ai的非结构化数据管理方法及装置 | |
CN113836131B (zh) | 一种大数据清洗方法、装置、计算机设备及存储介质 | |
CN105740448B (zh) | 面向话题的多微博时序文摘方法 | |
US9552415B2 (en) | Category classification processing device and method | |
CN104537341A (zh) | 人脸图片信息获取方法和装置 | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
KR101638535B1 (ko) | 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체 | |
CN104572733A (zh) | 用户兴趣标签分类的方法及装置 | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
US10430473B2 (en) | Deep mining of network resource references | |
US20130332440A1 (en) | Refinements in Document Analysis | |
CN112446214A (zh) | 广告关键词的生成方法、装置、设备及存储介质 | |
Huang et al. | Tag refinement of micro-videos by learning from multiple data sources | |
JP2014074942A (ja) | 情報収集プログラム、情報収集方法および情報処理装置 | |
Xu et al. | Estimating similarity of rich internet pages using visual information | |
US11106737B2 (en) | Method and apparatus for providing search recommendation information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180320 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181002 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181015 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6428795 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |