JP2021182392A - 情報検索方法、装置、設備、記憶媒体、及びプログラム - Google Patents

情報検索方法、装置、設備、記憶媒体、及びプログラム Download PDF

Info

Publication number
JP2021182392A
JP2021182392A JP2021084776A JP2021084776A JP2021182392A JP 2021182392 A JP2021182392 A JP 2021182392A JP 2021084776 A JP2021084776 A JP 2021084776A JP 2021084776 A JP2021084776 A JP 2021084776A JP 2021182392 A JP2021182392 A JP 2021182392A
Authority
JP
Japan
Prior art keywords
search
target
node
target user
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021084776A
Other languages
English (en)
Other versions
JP7222022B2 (ja
Inventor
ワン シーチュン
Shijun Wang
アン チンチン
Jingjing An
ルー シューウェイ
Shuwei Lu
チュー ショアイ
Shuai Zhu
ワン チャオ
Chao Wang
チン ショウコー
Shouke Qin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021182392A publication Critical patent/JP2021182392A/ja
Application granted granted Critical
Publication of JP7222022B2 publication Critical patent/JP7222022B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】スマート検索、スマート推薦、深層学習等分野における情報検索方法、装置、設備、記憶媒体及びプログラムを提供する。【解決手段】方法は、ターゲットユーザーの特徴情報を決定することと、検索ネットワークの候補検索パスを取得することと、マッチングモデルを用いてターゲットユーザーの特徴情報と前記候補検索パスとのマッチング度合いを決定し、マッチング度合いに基づいて前記候補検索パスからターゲット検索パスを決定することと、ターゲット検索パスを用いて前記ターゲットユーザーにマッチングするターゲット検索結果を決定することと、を含む。ターゲット検索結果は、個別化推薦コンテンツとしてターゲットユーザーに推薦されてもよく、データベースにおける全ての推薦コンテンツがいずれも検索パスによって検索できるため、推薦結果の一般化が保証される。また、候補検索パスを選別することで、推薦速度を高めることができる。【選択図】図1

Description

本開示は、コンピュータ技術の分野に関し、特に、スマート検索、スマート推薦、深層学習等分野に関する。
オンライン個別化推薦システムはターゲットユーザーの好みに応じて個別化コンテンツを推薦することができ、約500ミリ秒以内に数百万のコンテンツライブラリから約10件のコンテンツを抽出してターゲットユーザーに表示する。
関連技術ではターゲットユーザーの履歴記録に基づいてデータベースから検索対象を決定するため、精度及び一般化能力が劣る欠点がある。
本開示は、情報検索方法、装置、設備及び記憶媒体を提供する。
本開示の第1態様では、ターゲットユーザーの特徴情報を決定することと、データベースにおいて候補検索結果を決定するための少なくとも1つの候補検索パスを取得することと、マッチングモデルを用いてターゲットユーザーの特徴情報と候補検索パスとのマッチング度合いを決定し、マッチング度合いに基づいて候補検索パスからターゲット検索パスを決定することと、ターゲット検索パスを用いてターゲットユーザーにマッチングするターゲット検索結果を決定することを含む情報検索方法を提供する。
本開示の第2態様では、ターゲットユーザーの特徴情報を決定するためのターゲットユーザー特徴情報決定モジュールと、候補検索パスはデータベースにおいて候補検索結果を決定するための少なくとも1つの候補検索パスを取得するための候補検索パス取得モジュールと、マッチングモデルを用いてターゲットユーザーの特徴情報と候補検索パスとのマッチング度合いを決定し、マッチング度合いに基づいて候補検索パスからターゲット検索パスを決定するためのターゲット検索パス決定モジュールと、ターゲット検索パスを用いてターゲットユーザーにマッチングするターゲット検索結果を決定するためのターゲット検索結果決定モジュールとを含む情報検索装置を提供する。
本開示の第3態様では、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続されるメモリとを備え、メモリには、少なくとも1つのプロセッサによって実行可能なコマンドが記憶されており、コマンドは、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに本開示のいずれかの実施形態に係る方法を実行させる、電子設備を提供する。
本開示の第4態様では、コンピュータコマンドが記憶されている非一時的なコンピュータ可読記憶媒体であって、コンピュータコマンドはコンピュータに本開示のいずれかの実施形態に係る方法を実行させる、非一時的なコンピュータ可読記憶媒体を提供する。
本開示の発明によれば、検索ネットワークを用いてターゲット検索結果を得るための複数の候補パスを計画する。マッチングモデルを用いて複数の候補検索パスについて分析・評価し、最終に、選別したターゲット検索パスを用いてターゲットユーザーとの相関性が最も高いターゲット検索結果を得る。検索ネットワークとマッチングモデルを用いるため、候補検索パスについて選別することができ、検索における一般化能力及び正確度を両立している。
なお、前述した内容が本開示の実施形態の重要な特徴を示すためではなく、本開示の範囲の限定にもならない。本開示の他の特徴は下記の説明から理解しやすくなる。
次に記載の各図面は本開示の理解を促すためのもので、本開示の限定にならない。
本開示による情報検索方法のフローチャートである。 本開示による検索ネットワークの模式図である。 本開示による検索ネットワーク的模式図である。 本開示によるターゲット検索パスの決定のフローチャートである。 本開示によるターゲット検索結果の決定のフローチャートである。 本開示によるマッチングモデルの模式図である。 本開示によるマッチングモデルのトレーニングと更新のフローチャートである。 本開示によるポジティブサンプル及びネガティブサンプルについてのトレースバックの模式図である。 本開示による検索ネットワークの構築のフローチャートである。 本開示の実施形態の情報検索方法を実現するシーンの模式図である。 本開示による情報検索装置の模式図である。 本開示の実施形態による情報検索方法を実現するための電子設備のブロック図である。
次に、図面を参照して本開示の例示的な実施形態を説明し、中には理解を促すために本開示の実施形態の様々な詳細が含まれるが、それが例示的なコンテンツに過ぎない。したがって、当業者が理解したように、本開示の範囲や趣旨から逸脱せずここに記載の実施形態に対し様々な変更や修正を行うことができる。また、次の説明では簡素化の観点上、周知の機能及び構造の説明は省略する。
図1に示すとおり、本開示は情報検索方法を提供し、ステップS101〜S104を含んでもよい。
S101で、ターゲットユーザーの特徴情報を決定する。
S102で、少なくとも1つの候補検索パスを取得し、候補検索パスはデータベースにおいて候補検索結果を決定するために用いられる。
S103で、マッチングモデルを用いてターゲットユーザーの特徴情報と候補検索パスとのマッチング度合いを決定し、マッチング度合いに基づいて候補検索パスからターゲット検索パスを決定する。
S104で、ターゲット検索パスを用いてターゲットユーザーにマッチングするターゲット検索結果を決定する。
前記方法はスマート設備のアプリケーションプログラムにおいて実現でき、例えば、ターゲットユーザーがアプリケーションプログラムにログインした後、ターゲットユーザーの特徴に基づいてデータベースにおいて自動検索を行って、ユーザーが興味を持つコンテンツをターゲット検索結果として決定し、ターゲットユーザーに表示してもよい。
ターゲットユーザーの特徴情報はターゲットユーザーの年齢、性別及びターゲットユーザーの閲覧ログから抽出した閲覧習慣等を含んでもよい。例えば、ターゲットユーザーAの特徴情報は、25歳の男性で、よく閲覧するのがスポーツビデオ及び映画関連のグラフィック情報ことを含む。ターゲットユーザーBの特徴情報は、40歳の男性で、毎日経済ニュースを閲覧することを含む。
前記スポーツビデオ、映画関連のグラフィック情報、経済ニュース等がデータベースに記憶されてもよい。複数の候補検索パスは検索ネットワークを構成してもよい。即ち、検索ネットワークは複数の候補検索パスを含んでもよく、候補検索パスごとに、最終的に少なくとも1つの候補検索結果を得る。検索ネットワークは検索のカバー率が100%になるよう、データベースにおいて検索してもよい。
検索ネットワークは少なくとも1つの検索木構造を含んでもよい。検索木構造の各枝は1つの候補検索パスに対応する。検索ネットワークにおいて各候補検索パスの根ノード、子ノード及び葉ノードは抽象度の異なる複数のレベルの検索結果であってもよい。例えば、根ノードはスポーツイベントであり、子ノードはサッカーであり、葉ノードは中国サッカーリーグ戦である。
また、検索ネットワークは単一の対象であってもよく、例えば、スポーツイベント、中国サッカーリーグ戦等である。
例えば、検索ネットワークが検索木構造である場合に、マッチングモデルは検索木構造におけるノードを分析して、ノードとターゲットユーザーとのマッチングスコアを得ることができる。当該マッチングスコアに基づいてノードを並べ替え、候補検索パスからターゲット検索パスを決定し、ターゲット検索パスに基づいてターゲットユーザーにマッチングするターゲット検索結果を決定することができる。
図2の例では、4つのレベルを含み、マッチングモデルが子ノードの第1レベルを評点する。サッカーノードのマッチングスコアが最高である場合に、サッカーノードを候補検索パスに決定し、他の検索パスを捨てる。さらに、マッチングモデルがサッカーノードの第2レベルの子ノードを評点し、このようにして、最終に成人国代表チーム及びクラブチームの2つの葉ノードをターゲット検索結果として決定する。
マッチングモデルはターゲットユーザーに基づいて異なるターゲット検索結果の操作履歴をトレーニングして得られてもよい。例えば、ターゲットユーザーがクリックしたターゲット検索結果をポジティブサンプルとする。ターゲットユーザーがクリックしなかったターゲット検索結果、及びターゲットユーザーに表示されない他の検索結果をネガティブサンプルとする。ターゲットユーザーのターゲット検索結果の閲覧時間長又は閲覧率をラベルとして、マッチングモデルをトレーニングする。
前記形態では、検索ネットワークを用いてターゲット検索結果を得るための複数の候補パスを計画する。マッチングモデルを用いて複数の候補検索パスについて分析・評価し、最終に、選別したターゲット検索パスを用いてターゲットユーザーの好みにマッチングするターゲット検索結果を得る。検索ネットワークとマッチングモデルを用いるため、候補検索パスについて選別することができ、検索における一般化能力及び正確度を両立している。
一実施形態では、候補検索パスは少なくとも1つの検索木構造を構成し、各検索木構造は複数のノードを含み、
各候補検索パスは検索木構造における根ノードから葉ノードまでのパスを含む。
図2に示すように、検索ネットワークはビームサーチ(Beam search)ネットワークであってもよく、本実施形態では、スポーツはビームサーチネットワークで抽象度が最高の根ノードである。サッカー、バスケットボール、eスポーツ等は抽象度が2番目に高い子ノードであり、このようにして、根ノード、子ノード及び葉ノードは抽象度の異なる検索結果にそれぞれ対応してもよい。
実際のシーンでは、抽象度の異なるノード(根ノード、子ノード、葉ノード)は特徴埋め込み(embedding)によって示してもよい。
図2の例では、スポーツイベント、エンターテインメント等が根ノードである。実際のシーンではこれに限定されない。実際のシーンでは、検索結果のタイプによってビームサーチネットワークを構築してもよい。例えば、候補検索ネットワークは、グラフィック検索結果、ビデオ検索結果、ショートビデオ検索結果等、複数のタイプを含んでもよい。ここで、ショートビデオ検索結果はネットユーザーが携帯電話等の設備で製作したショートビデオ及び/又はグラフィックス・インターチェンジ・フォーマット(GIF)形式のショートビデオ等を含んでもよい。
図3はグラフィック検索結果の例である。図3に示すように、グラフィック検索結果が根ノードであってもよい。当該根ノード以下に、第1レベルの子ノードはスポーツイベント、芸能ニュース等を含んでもよい。第1レベルの子ノード以下に、第2レベルの子ノード、第3レベルの子ノード等をさらに含み、最後は葉ノードである。図3ではスポーツイベント、芸能ニュースを挙げて説明するが、実際のシーンではこれに限定されない。
前記形態では、検索ネットワークは複数のレベルの検索結果を得ることができ、データベースにおける検索数量の確保を及び抽象度によって異なるレベルを確立することを両立しているため、検索速度を高めることができる。
図4に示すように、一実施形態では、ステップS103は、S1031〜S1033を含んでもよい。
S1031で、ターゲットユーザーの特徴情報のそれぞれが少なくとも1つの検索木構造のノードと特徴ペアを構成する。
S1032で、特徴ペアをそれぞれマッチングモデルに入力して、各特徴ペアのマッチングスコアを得、マッチングスコアが最も高い少なくとも1つの特徴ペアにおけるノードを選別する。
S1033で、選別されたノードが葉ノードである場合に、マッチングスコアに基づいて根ノードからノードまでのターゲット検索パスを決定する。
図3の候補検索結果の模式図では、例えば、グラフィック検索結果、ビデオ検索結果、ショートビデオ検索結果の3つの根ノードを含む。マッチングモデルを用いて3つの根ノードとターゲットユーザーとのマッチングスコアを決定してもよい。マッチングスコアによって並べ替え、スコア上位のN個の根ノードを選別してもよく、ここで、Nは正整数であり、例えば、1又は2である。
Nが1であり、且つスコアが最高の根ノードがグラフィック検索結果である場合に、検索ネットワークはグラフィック検索結果の根ノードに対応する子ノードのみに対してさらに検索するように設定してもよい。このようにして、検索対象の簡素化を実現できる。
同様に、マッチングモデルを用いて、グラフィック検索結果の根ノードの各子ノードとターゲットユーザーとのマッチングスコアを決定する。スコア上位のM個の子ノードを選別してもよい。ここで、Mの値は実際の状況に応じて決定することができ、例えば、MはNと同じ値である。図3の実施形態では、子ノードは3つのレベルを含み、ます第1レベルの各子ノードのマッチングスコアを決定する。例えば、スコア上位の第1レベルの子ノードのスポーツイベントを選別し、スポーツイベント以下の第2レベルの子ノードのみに対してさらに検索する。
図3で、最終的に国代表チーム及びクラブチーム等の葉ノードを得る。そのまま葉ノードをターゲット検索結果としてもよい。
一実施形態では、子ノードは3つのレベルに設定してもよい。この場合に、検索木構造は根ノード及び葉ノードを含め合計で5つのレベルである。異なるレベルの検索結果を選別することにより、検索数量を減らすことができ、データベースの数十万の検索数量と比べて、前記形態を用いると検索数量を数千に低減することができる。
即ち、前記形態では、選別したノードが葉ノードでない場合には、ターゲットユーザーの特徴情報と各ノードの子ノードがそれぞれ特徴ペアを構成し、特徴ペアを用いてマッチングモデルに入力するステップを繰り返し実行し、選別したノードが葉ノードである場合には、根ノードからノードまでのターゲット検索パスを決定する。前記形態では、マッチングモデルを用いて候補検索パスのノードを評点することにより、ターゲット検索パスを選別する。このようにして、候補検索結果の選別及び検索数量の低減を実現できる。
図5に示すように、一実施形態では、ステップS104は、S1041〜S1043を含んでもよい。
S1041で、ターゲット検索パスに基づいて少なくとも1つの候補検索結果を決定する。
S1042で、マッチングモデルを用いて少なくとも1つの候補検索結果における各候補検索結果とターゲットユーザーとのマッチングスコアを決定する。
S1043で、マッチングスコアに基づいて候補検索結果からターゲット検索結果を決定する。
ターゲット検索パスを用いて葉ノードに対応する少なくとも1つの候補検索結果を得た後、さらにマッチングモデルを用いて各葉ノードとターゲットユーザーとのマッチングスコアを決定して、スコア上位のS個の葉ノードを選別してもよい。S個の葉ノードに対応する検索結果をターゲット検索結果として決定する。
ここで、Sの値は実際の状況に応じて決定することができ、例えば、SはNと同じである。S、N、Mはいずれも正整数である。
前記形態では、複数の候補検索結果を得た後、ターゲットユーザーに最もマッチングする検索結果を選別してもよい。
一実施形態では、マッチングモデルは第1サブモデル、第2サブモデル、第3サブモデルを含んでもよい。
第1サブモデルは、ノードに対応する特徴情報を決定するように構成される。
第2サブモデルは、ノードに対応する特徴情報及びターゲットユーザーの特徴情報に基づいて、ターゲットユーザーのノードに対する興味度の予測値を生成するように構成される。
第3サブモデルは、興味度の予測値に基づいてマッチング度合いを得るように構成される。
図6に示すように、第1サブモデルは候補検索パスのノードを受信し、ノードの特徴情報を決定し、ノードの特徴情報及びターゲットユーザーの特徴情報を第2サブモデルに送信する。
第2サブモデルは特徴融合サブモデル、第1興味度サブモデル及び第2興味度サブモデルを含んでもよい。特徴融合サブモデルはノードの特徴情報とターゲットユーザーの特徴の融合計算を行うために用いられる。例えば、特徴情報の和を求める又は特徴情報のアダマール積(Hadamard Product)を求める等で融合計算を行い、融合計算結果を得てもよい。
融合後の特徴情報をそれぞれ第1興味度サブモデル及び第2興味度サブモデルに入力する。第1興味度サブモデル及び第2興味度サブモデルは畳み込みニューラルネットワークモデル又はディープニューラルネットワークモデル等であってもよい。融合後の特徴情報は融合計算結果、ノードの特徴情報及びターゲットユーザーの特徴情報を含んでもよい。
ここで、第1興味度サブモデルはクリック率を計算するモデルであってもよく、その出力結果は第1興味度の予測値である。第2興味度サブモデルは閲覧時間長を計算するモデルであってもよく、その出力結果は第2興味度の予測値である。即ち、本実施形態では、クリック率及び閲覧時間長で興味度を表現する。
また、興味度サブモデルを拡張してもよく、例えば、第3興味度サブモデルをさらに含んでもよく、第3興味度サブモデルは閲覧率を計算するモデルであってもよい。例えば、全長90分の映画を45分鑑賞した場合は、閲覧率は1/2である。あるいは、9ページの文書を3ページ閲覧した場合は、閲覧率は1/3である。
第3サブモデルは第1興味度の予測値及び第2興味度の予測値に正規化の計算を行って、ノードのスコアを得る。当該スコアは当該ノードとターゲットユーザーとのマッチング度合いを表す。
マッチングモデルをトレーニングする際は、ターゲットユーザーの特徴情報サンプルと各ノードの特徴情報サンプル、及びクリック率ラベルと閲覧時間長ラベルを用いてマッチングモデルをトレーニングしてもよい。このようにして、トレーニング後のマッチングモデルで評点機能を実現できる。
前記形態では、クリック率及び閲覧時間長等に基づいてトレーニングしたマッチングモデルで、より客観的なスコアを得ることができる。
一実施形態では、興味度は、クリック率、閲覧時間長、閲覧率のうちの少なくとも1つを含む。このようにして、より豊富な興味度指標を得ることができる。
図7に示すように、一実施形態では、ステップS701〜S703をさらに含んでもよい。
S701で、ターゲットユーザーのターゲット検索結果に対する興味度に基づいてポジティブサンプル及びネガティブサンプルを決定し、ポジティブサンプルはターゲットユーザーがクリックして閲覧した検索結果を含み、ネガティブサンプルは既に表示されたのにターゲットユーザーがクリックせず閲覧しなかった検索結果、及びランダムに取得した不表示の他の検索結果を含む。
S702で、候補検索パスを用いてポジティブサンプル及びネガティブサンプルに対応する各レベルのノードを決定する。
S703で、ポジティブサンプル、ネガティブサンプル、ポジティブサンプルに対応する各レベルのノード、及びネガティブサンプルに対応する各レベルのノードに基づいて、マッチングモデルをトレーニングして更新する。
ターゲット検索結果を最終的にアプリケーションプログラムの画面上にユーザーに表示するコンテンツとしてもよい。ターゲットユーザーのターゲット検索結果に対する興味度はターゲット検索結果をクリックしたかどうか、クリックしたターゲット検索結果の閲覧時間長又は閲覧率を含んでもよい。
図8に示すとおり、興味度によってポジティブサンプル及びネガティブサンプルを決定することができる。ポジティブサンプルはユーザーがクリックして閲覧したターゲット検索結果(図8のクリック有りポジティブ例に対応する)を含んでもよく、ネガティブサンプルは既に表示されたがユーザーがクリックせず閲覧しなかったターゲット検索結果(図8の表示有りクリック無しポジティブ例に対応する)、及びランダムに取得した不表示の他の検索結果(図8のランダムネガティブ例に対応する)を含んでもよい。
検索ネットワークにおいて、ポジティブサンプル及びネガティブサンプルについてトレースバックして、ポジティブサンプル及びネガティブサンプルに関連する複数のレベルの候補検索結果を得る。
ポジティブサンプルとネガティブサンプル、及びポジティブサンプルとネガティブサンプルに関連する複数のレベルの候補検索結果を用いてマッチングモデルをトレーニングすることにより、マッチングモデルの更新を実現する。
更新後のマッチングモデルを、時間レベルの粒度でオンライン検索サービスに送信してもよい。
前記形態では、検索ネットワークを用いてポジティブサンプル、ネガティブサンプルのトレースバックノードを得ることができる。ポジティブサンプル、ネガティブサンプル及び対応するトレースバックノードを用いてマッチングモデルをトレーニングして更新することにより、マッチングモデルの最適化を実現できる。
図9に示すとおり、候補検索パスの構築方法はS901〜S904を含んでもよい。
S901で、データベースにおいて、前記候補検索パスによって検索可能な検索結果とする全てのデータの初期特徴情報を決定する。
S902で、ターゲットユーザーの特徴情報に基づいて、マッチングモデルにより初期特徴情報を更新して、更新後の特徴情報を得る。
S903で、更新後の特徴情報にクラスタリングを行って、抽象度の異なる検索結果を得る。
S904で、抽象度の異なる検索結果を用いて候補検索パスを構築する。
データベースで全てのデータはリアルタイムに更新されるマルチメディアファイルであってもよく、例えば、グラフィックファイル、ビデオファイル、ショートビデオファイル等を含む。全てのデータの初期特徴情報を決定し、初期特徴情報はマルチメディアファイルの内容、ファイルの作成者、ファイルの表紙、ファイルラベル等から分析した特徴情報であってもよい。
ターゲットユーザーの特徴情報及び初期特徴情報をマッチングモデルに入力し、マッチングモデルを用いて前記2種類の特徴情報を互いに関連付けることで初期特徴情報を更新して、更新後の特徴情報を得る。
更新後の特徴情報にクラスタリングを行い、例えば、k平均クラスタリングアルゴリズム(k−means clustering algorithm)を用いて更新後の特徴情報にクラスタリングを行って、抽象度の異なる複数のレベルのデータを得ることができ、複数のレベルのデータは前記抽象度の異なる複数のレベルの検索結果である。抽象度の異なる複数のレベルのデータに基づいて検索木構造を構築して、例えば、図2又は図3に示す検索木構造を得る。
前記形態では、各候補検索結果とターゲットユーザーを関連付け、候補検索結果にクラスタリング処理を行って、抽象度の異なる複数のレベルの候補検索結果を得てもよい。これにより、検索結果が一層一般化されるとともに、検索速度も保証できる。
一実施形態では、ターゲット検索結果はターゲットユーザーに推薦される。
本開示の前記方法は個別化推薦システムに適用される。個別化推薦システムでは約500ミリ秒以内に数百万のデータベースからターゲットユーザーの好みに合う数千件のコンテンツを抽出した後、並べ替えや方法調整等により約10件のコンテンツを選別してユーザーに推薦することが要求される。
関連技術ではツインタワー構造を用いて推薦コンテンツを得る。ユーザーがクリックしたコンテンツに基づいてベクトル最近傍検索を行って推薦結果を選別する。例えば、ユーザーがAチームのサッカー試合選をクリックした場合に、個別化推薦システムはツインタワー構造を用いてデータベースにおいてベクトル最近傍検索を行って、Aチームのサッカー試合選との相関性が最も高い他のビデオ又はグラフィックを決定し、当該ユーザーに推薦する。情報を推薦することはできるが、ユーザーとコンテンツ特徴との非線形関係を表現するのが難しく、フィッティングに頼り過ぎるため、推薦効果が優れない恐れがある。
本開示の前記方法で個別化推薦を行う場合に、ユーザー特徴は性別、年齢、履歴データ等の様々な要素を含む。そのうち、履歴データはユーザーが推薦コンテンツをクリックしたかどうかを含むだけでなく、推薦コンテンツの閲覧時間長や閲覧率等からユーザーがクリックした推薦コンテンツをどれほど好むかも反映される。ユーザー特徴と各被推薦コンテンツを組み合わせてマッチングモデルに学習させることにより、トレーニング後のマッチングモデルが新たに出現する被推薦コンテンツについてマッチング・評点を行い、評点結果に基づいて推薦コンテンツを決定することができる。また、候補検索パスが根ノード、子ノード、葉ノードとして存在するため、マッチングモデルを利用すると候補パスの選別も実現できる。
ターゲット検索結果(推薦コンテンツ)を得た後、推薦コンテンツの更新時間、人気度に基づき、又は再びマッチングモデルを用いて評点する等の方法で並べ替え、最も高いいくつかの検索結果を選別してユーザーに推薦してもよい。
本開示の前記形態では、候補検索パスを選別する時に、数量と速度を両立している。言い換えれば、データベースにおける全ての推薦コンテンツがいずれも検索パスによって検索できるため、推薦結果の一般化が保証される。また、マッチングモデルに基づいて、検索パスにおいて根ノード、子ノードから葉ノードまで選別できるため、マッチング度合いの低い推薦結果が取り除かれる。これによって推薦速度が高められ、500ミリ秒の時間制限を満たす。
さらに、マッチングモデルによって各レベルのノードとユーザー特徴とで対応関係が確立されるため、推薦結果と過去のユーザー行為との相関性が薄められる。言い換えれば、ベクトル最近傍検索を用いるため過去のユーザー行為でのフィッティングに頼り過ぎることで推薦効果が優れない恐れが低減される。候補検索パスとマッチングモデルを組み合わせて情報推薦を行うと、履歴データとの相関性の強調が薄められ、ユーザーの個人情報、コンテンツに対するユーザーのクリック率及びユーザーの興味度が考慮に加わるため、個別化推薦システムの利用体験及び利用数量の明らかな成長がもたらされる。
図10に示すように、本開示は情報検索方法を提供し、以下のステップを含む。
ターゲットユーザーの要求に基づいて、ターゲットユーザーの特徴情報を決定する。ターゲットユーザーの要求はアプリケーション(APP)へのユーザーのログインであってもよいし、ユーザーによる表示フレッシュコマンド等であってもよい。
ターゲットユーザーの特徴情報をビームサーチ(Beam search)モデルに入力して、ターゲットユーザーの特徴情報と各第1レベルの子ノードのマッチングペア(user−node pair)を得る。図10で、葉ノードはitems/item、非葉ノードはnodeと記す。
マッチングモデルがマッチングペアに基づいて、各第1レベルの子ノードを評点する(user−node score)。スコア上位のM個の第1レベルの子ノードを残す。
ビームサーチネットワークがスコア上位のM個の第1レベルの子ノード以下を検索して、ターゲットユーザーの特徴情報とM個の第1レベルの子ノードの第2レベルの子ノードのマッチングペアを得る。マッチングモデルが、スコア上位のS個の葉ノードが決定するまで引き続きマッチングペアを評点する。スコア上位のS個の葉ノードをターゲット検索結果として、ターゲットユーザーに表示する。
同時に、ターゲットユーザーの履歴データに基づいてターゲットユーザーの特徴情報サンプルとターゲット検索結果サンプルのマッチングペア(user−itemサンプル)を決定する。ターゲットユーザーの特徴情報サンプルとターゲット検索結果サンプルのマッチングペアを検索ネットワークに送信し、検索ネットワークにおいてトレースバックしてターゲット検索結果サンプルに関連する複数のレベルの候補検索結果を得る。このようにして、ターゲットユーザーの特徴情報サンプルと複数のレベルの候補検索結果のマッチングペア(user−nodeサンプル)を決定することができる。ターゲットユーザーの特徴情報サンプルとターゲット検索結果サンプルのマッチングペア、及びターゲットユーザーの特徴情報サンプルと複数のレベルの候補検索結果のマッチングペアを用いてマッチングモデルをトレーニングする。
また、データベースにおける更新後のマルチメディアファイルに対して、マッチングモデルを用いてマルチメディアファイルとターゲットユーザーを関連付けて学習させてもよい。関連学習後にマルチメディアファイルの特徴情報を更新し、マルチメディアファイルの特徴情報にクラスタリングを行うと、ビームサーチネットワークを構築し、又は既存のビームサーチネットワークを更新することができる。
更新後のビームサーチネットワーク及びマッチングモデルを、1時間ごとにオンラインで展開してもよい。
図11に示すように、本開示の一実施形態では、情報検索装置を提供し、ターゲットユーザーの特徴情報を決定するためのターゲットユーザー特徴情報決定モジュール1101と、少なくとも1つの候補検索パスを取得するための候補検索パス取得モジュール1102であって、候補検索パスはデータベースにおいて候補検索結果を決定するために用いられる候補検索パス取得モジュール1102と、マッチングモデルを用いてターゲットユーザーの特徴情報と候補検索パスとのマッチング度合いを決定し、マッチング度合いに基づいて候補検索パスからターゲット検索パスを決定するためのターゲット検索パス決定モジュール1103と、ターゲット検索パスを用いてターゲットユーザーにマッチングするターゲット検索結果を決定するためのターゲット検索結果決定モジュール1104とを備えてもよい。
一実施形態では、候補検索パスは少なくとも1つの検索木構造を構成し、各検索木構造は複数のノードを含み、各候補検索パスは検索木構造における根ノードから葉ノードまでのパスを含む。
一実施形態では、ターゲット検索パス決定モジュール1103は、ターゲットユーザーの特徴情報のそれぞれが少なくとも1つの検索木構造のノードと特徴ペアを構成するための特徴ペア構築サブモジュールと、特徴ペアをそれぞれマッチングモデルに入力して、各特徴ペアのマッチングスコアを得、マッチングスコアが最も高い少なくとも1つの特徴ペアにおけるノードを選別するためのノード選別サブモジュールと、選別されたノードが葉ノードである場合に、マッチングスコアに基づいて根ノードからノードまでのターゲット検索パスを決定するためのターゲット検索パス決定実行サブモジュールとを備える。
一実施形態では、ターゲット検索結果決定モジュール1104は、ターゲット検索パスに基づいて少なくとも1つの候補検索結果を決定するための候補検索結果決定サブモジュールと、マッチングモデルを用いて少なくとも1つの候補検索結果における各候補検索結果とターゲットユーザーとのマッチングスコアを決定するためのマッチングスコア決定サブモジュールと、マッチングスコアに基づいて候補検索結果からターゲット検索結果を決定するためのターゲット検索結果決定実行サブモジュールとを備える。
一実施形態では、マッチングモデルは、第1サブモデルと、第2サブモデルと、第3サブモデルとを含み、第1サブモデルは、ノードに対応する特徴情報を決定するように構成され、第2サブモデルは、ノードに対応する特徴情報及びターゲットユーザーの特徴情報に基づいて、ターゲットユーザーのノードに対する興味度の予測値を生成するように構成され、第3サブモデルは、興味度の予測値に基づいてマッチング度合いを得るように構成される。
一実施形態では、興味度は、クリック率、閲覧時間長、閲覧率のうちの少なくとも1つを含む。
一実施形態では、当該装置は、ターゲットユーザーのターゲット検索結果に対する興味度に基づいてポジティブサンプル及びネガティブサンプルを決定するためのサンプル決定モジュールであって、ポジティブサンプルはターゲットユーザーがクリックして閲覧した検索結果を含み、ネガティブサンプルは既に表示されたがターゲットユーザーがクリックせず閲覧しなかった検索結果、及びランダムに取得した不表示の他の検索結果を含むサンプル決定モジュールと、候補検索パスを用いてポジティブサンプル及びネガティブサンプルに対応する各レベルのノードを決定するためのサンプルトレースバックモジュールと、ポジティブサンプル、ネガティブサンプル、ポジティブサンプルに対応する各レベルのノード、及びネガティブサンプルに対応する各レベルのノードに基づいて、マッチングモデルをトレーニングして更新するためのマッチングモデル更新モジュールとをさらに備える。
一実施形態では、当該装置は、データベースにおいて、前記候補検索パスによって検索可能な検索結果とする全てのデータの初期特徴情報を決定するデータ初期特徴情報決定モジュールと、ターゲットユーザーの特徴情報に基づいて、マッチングモデルにより初期特徴情報を更新して、更新後の特徴情報を得るための特徴情報更新モジュールと、更新後の特徴情報にクラスタリングを行って、抽象度の異なる検索結果を得るためのクラスタリングモジュールと、抽象度の異なる検索結果を用いて候補検索パスを構築するための検索ネットワーク構築モジュールとをさらに含む。
一実施形態では、ターゲット検索結果はターゲットユーザーに推薦される。
さらに、本開示の実施形態では、電子設備及び可読記憶媒体を提供する。
図12は、本開示の実施形態による情報検索方法を実現するための電子設備のブロック図である。電子設備としては、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、大型コンピュータ、他の適切なコンピュータなど、様々な形態のデジタルコンピュータであってもよい。また、パーソナルデジタルアシスタント、セルラーホン、スマートフォン、ウェアラブルデバイス、他の類似の計算設備など、様々な形態の移動設備であってもよい。本明細書に記載のコンポーネント、その接続関係、及びその機能は例示的なものに過ぎず、本開示の実施に関して本明細書に記載及び/又は主張された内容に限定を加えるためではない。
図12に示すとおり、当該電子設備は、1つ以上のプロセッサ1210と、メモリ1220と、各コンポーネントを接続するためのインタフェース(高速インタフェース及び低速インタフェース)とを含む。各コンポーネントは異なるバスによって互いに接続され、共通のマザーボードに取り付けられ、又は所望の方式で取り付けられてもよい。プロセッサは外部の入力/出力装置(例えば、インタフェースによって接続された表示設備)にGUIのグラフィック情報を表示するようにメモリに記憶されているコマンドなど、電子設備において実行されるコマンドを処理することができる。他の実施形態では、必要ならば、複数のプロセッサ及び/又は複数のバスと複数のメモリを複数のメモリと一緒に使用してもよい。同様に、複数の電子設備を接続させ、各設備が必要な操作の一部を提供するようにしてもよい(例えば、サーバーアレイ、1群のブレードサーバー、又はマルチプロセッサシステムとする)。図12では、例示的にプロセッサ1210が1つあるものである。
メモリ1220は、本開示に係る非一時的なコンピュータ可読記憶媒体である。前記メモリには、少なくとも1つのプロセッサが本開示に係る情報検索方法を実行するように、少なくとも1つのプロセッサによって実行可能なコマンドが記憶されている。本開示に係る非一時的なコンピュータ可読記憶媒体にはコンピュータコマンドが記憶されており、当該コンピュータコマンドはコンピュータに本開示に係る情報検索方法を実行させる。
メモリ1220は非一時的なコンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュール、例えば、本開示の実施形態に係る情報検索方法に対応するプログラムコマンド/モジュール(例えば、図11に示すターゲットユーザー特徴情報決定モジュール1101、候補検索パス取得モジュール1102、ターゲット検索パス決定モジュール1103及びターゲット検索結果決定モジュール1104)を記憶するために用いることができる。プロセッサ1210はメモリ1220に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを動作させることにより、サーバーの様々な機能及びデータ処理を実行し、即ち前記方法実施形態に係る情報検索方法を実現する。
メモリ1220はプログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は情報検索方法を実現するための電子設備の使用時に作成されたデータ等を記憶することができる。また、メモリ1220は高速ランダムアクセスメモリを含んでもよいし、非一時的メモリを含んでもよく、例えば、少なくとも1つの磁気ディスク記憶素子、フラッシュメモリ素子、又は他の非一時的固体記憶素子である。いくつかの実施形態では、任意選別でメモリ1220はプロセッサ1210に対して遠隔設置されたメモリを含み、当該遠隔メモリはネットワークを介して情報検索方法を実行する電子設備に接続されてもよい。前記ネットワークの例はインターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、その組み合わせを含むが、これに限定されない。
情報検索方法を実行する電子設備は、入力装置1230及び出力装置1240をさらに含んでもよい。プロセッサ1210、メモリ1220、入力装置1230及び出力装置1240はバス又は他の方式で接続されてもよく、図12では、例示的にバスによって接続されたものである。
入力装置1230は入力されたデジタル又は文字情報を受信し、情報検索方法を実行する電子設備のユーザー設定や機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、テンキー、マウス、トラックパッド、タッチパッド、インジケータスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック等入力装置である。出力装置1240は表示設備、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モーター)等を含んでもよい。当該表示設備は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、プラズマディスプレイを含むが、これに限定されない。いくつかの実施形態では、表示設備はタッチスクリーンであってもよい。
ここに記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路(ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はその組み合わせにおいて実施できる。前記実施形態は次のものを含んでもよい。1つ以上のコンピュータプログラムにおいて実施され、当該1つ以上のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び/又は解釈されてもよく、当該プログラマブルプロセッサは専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータ及びコマンドを受信し、且つデータ及びコマンドを当該記憶システム、当該少なくとも1つの入力装置及び当該少なくとも1つの出力装置に伝送することができる。
前記コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、コードともいう)にはプログラマブルプロセッサ用機械コマンドを含み、且つ高度なプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械言語を用いて前記コンピュータプログラムを実施することができる。本明細書で、用語「機械可読媒体」及び「コンピュータ可読媒体」とは機械コマンド及び/又はデータをプログラマブルプロセッサに提供するあらゆるコンピュータプログラム製品、設備、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))であり、機械可読信号としての機械コマンドを受信する機械可読媒体を含む。用語「機械可読信号」とは、機械コマンド及び/又はデータをプログラマブルプロセッサに提供するためのあらゆる信号である。
ユーザーとのインタラクションを実現するように、コンピュータにおいてここに記載のシステム及び技術を実現することができ、当該コンピュータは、ユーザーに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ))と、キーボードと、ポインティングデバイス(例えば、マウス又はトラックボール)を備え、ユーザーは当該キーボード及び当該ポインティングデバイスによってコンピュータに入力することができる。他にもユーザーとのインタラクションを実現するための装置がある。例えば、ユーザーへのフィードバックは感覚的なフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、触覚的なフィードバック)など任意の形態であってもよく、また任意の方式(声入力、音声入力、触覚入力)でユーザーの入力を受信することができる。
ここに記載のシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバー)、又は中間コンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザーインタフェース又はウェブブラウザーを備えるパソコンであって、ユーザーは当該グラフィカルユーザーインタフェース又は当該ウェブブラウザーによってここに記載のシステム及び技術の実施形態とインタラクションを行うことができる)、又は前記バックグラウンドコンポーネント、中間コンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施することができる。任意の方式又は媒体によるデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続させることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットを含む。
コンピュータシステムはクライアント及びサーバーを含んでもよい。クライアントとサーバーは一般に遠隔設置され、且つ通信ネットワークによって互いに接続される。コンピュータで実行されるクライアント−サーバー型配置のコンピュータプログラムによってクライアントとサーバーの関係を構成する。サーバーはクラウドサーバーであってもよく(クラウドコンピューティングサーバー、クラウドホストともいう)、クラウドコンピューティングサービスシステムではホストのようなものであり、従来の物理ホスト及び仮想専用サーバー(VPS)サービスでは管理が難しく、業務の拡張性が弱いという欠点を解消するために開発される。
なお、上記の様々なプロセスを踏まえて、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載の各ステップは同時に実行されてもよいし、順に実行されてもよいし、他の順番で実行されてもよく、本開示の技術的解決手段の効果を得られるものであれば、本明細書では特に限定しない。
上記のいくつかの実施形態は、本開示の保護範囲を限定するものと見なされない。当業者が理解したように、設計上の要件や他の要素に基づいて、様々な修正や、組み合わせ、置き換えを行うことができる。本開示の趣旨においてなされた修正、同等な置き換えや改善等は、いずれも本開示の保護範囲に含まれる。

Claims (21)

  1. ターゲットユーザーの特徴情報を決定することと、
    データベースにおいて候補検索結果を決定するための候補検索パスを、少なくとも1つ取得することと、
    マッチングモデルを用いて前記ターゲットユーザーの特徴情報と前記候補検索パスとのマッチング度合いを決定し、前記マッチング度合いに基づいて前記候補検索パスからターゲット検索パスを決定することと、
    前記ターゲット検索パスを用いて前記ターゲットユーザーにマッチングするターゲット検索結果を決定することとを含む、
    情報検索方法。
  2. 前記候補検索パスは、少なくとも1つの検索木構造を構成し、各検索木構造は、複数のノードを含み、
    各候補検索パスは、前記検索木構造における根ノードから葉ノードまでのパスを含む、
    請求項1に記載の情報検索方法。
  3. マッチングモデルを用いて前記ターゲットユーザーの特徴情報と前記候補検索パスとのマッチング度合いを決定し、前記マッチング度合いに基づいて前記候補検索パスからターゲット検索パスを決定することは、
    前記ターゲットユーザーの特徴情報のそれぞれが前記少なくとも1つの検索木構造のノードと特徴ペアを構成することと、
    特徴ペアをそれぞれ前記マッチングモデルに入力して、各特徴ペアのマッチングスコアを得、マッチングスコアが最も高い少なくとも1つの特徴ペアにおけるノードを選別することと、
    選別されたノードが葉ノードである場合に、前記マッチングスコアに基づいて根ノードから前記ノードまでのターゲット検索パスを決定することとを含む、
    請求項2に記載の情報検索方法。
  4. 前記ターゲット検索パスを用いて前記ターゲットユーザーにマッチングするターゲット検索結果を決定することは、
    前記ターゲット検索パスに基づいて少なくとも1つの候補検索結果を決定することと、
    前記マッチングモデルを用いて前記少なくとも1つの候補検索結果における各候補検索結果と前記ターゲットユーザーとのマッチングスコアを決定することと、
    前記マッチングスコアに基づいて前記候補検索結果からターゲット検索結果を決定することとを含む、
    請求項3に記載の情報検索方法。
  5. 前記マッチングモデルは、第1サブモデルと、第2サブモデルと、第3サブモデルとを含み、
    前記第1サブモデルは、前記ノードに対応する特徴情報を決定するように構成され、
    前記第2サブモデルは、前記ノードに対応する特徴情報及び前記ターゲットユーザーの特徴情報に基づいて、前記ターゲットユーザーの前記ノードに対する興味度の予測値を生成するように構成され、
    前記第3サブモデルは、前記興味度の予測値に基づいてマッチング度合いを得るように構成される、
    請求項2又は3に記載の情報検索方法。
  6. 前記興味度は、クリック率、閲覧時間長、閲覧率のうちの少なくとも1つを含む、
    請求項5に記載の情報検索方法。
  7. 前記情報検索方法は、
    前記ターゲットユーザーの前記ターゲット検索結果に対する興味度に基づいてポジティブサンプル及びネガティブサンプルを決定することと、
    前記候補検索パスを用いて前記ポジティブサンプル及びネガティブサンプルに対応する各レベルのノードを決定することと、
    前記ポジティブサンプル、ネガティブサンプル、ポジティブサンプルに対応する各レベルのノード、及びネガティブサンプルに対応する各レベルのノードに基づいて、前記マッチングモデルをトレーニングして更新することとをさらに含み、
    前記ポジティブサンプルは、前記ターゲットユーザーがクリックして閲覧した検索結果を含み、前記ネガティブサンプルは、既に表示されたのにもかかわらず前記ターゲットユーザーがクリックせず閲覧しなかった検索結果、及びランダムに取得した不表示の他の検索結果を含む、
    請求項2又は3に記載の情報検索方法。
  8. 前記候補検索パスの構築方法は、
    データベースにおいて、前記候補検索パスによって検索可能な検索結果とする全てのデータの初期特徴情報を決定することと、
    ターゲットユーザーの特徴情報に基づいて、前記マッチングモデルにより前記初期特徴情報を更新して、更新後の特徴情報を得ることと、
    前記更新後の特徴情報にクラスタリングを行って、抽象度の異なる検索結果を得ることと、
    前記抽象度の異なる検索結果を用いて候補検索パスを構築することとを含む、
    請求項2に記載の情報検索方法。
  9. 前記ターゲット検索結果は、前記ターゲットユーザーに推薦される、
    請求項1に記載の情報検索方法。
  10. ターゲットユーザーの特徴情報を決定するためのターゲットユーザー特徴情報決定モジュールと、
    データベースにおいて候補検索結果を決定するための候補検索パスを、少なくとも1つ取得するための候補検索パス取得モジュールと、
    マッチングモデルを用いて前記ターゲットユーザーの特徴情報と前記候補検索パスとのマッチング度合いを決定し、前記マッチング度合いに基づいて前記候補検索パスからターゲット検索パスを決定するためのターゲット検索パス決定モジュールと、
    前記ターゲット検索パスを用いて前記ターゲットユーザーにマッチングするターゲット検索結果を決定するためのターゲット検索結果決定モジュールとを備える、
    情報検索装置。
  11. 前記候補検索パスは、少なくとも1つの検索木構造を構成し、各検索木構造は、複数のノードを含み、
    各候補検索パスは、前記検索木構造における根ノードから葉ノードまでのパスを含む、
    請求項10に記載の情報検索装置。
  12. 前記ターゲット検索パス決定モジュールは、
    前記ターゲットユーザーの特徴情報のそれぞれが前記少なくとも1つの検索木構造のノードと特徴ペアを構成するための特徴ペア構築サブモジュールと、
    特徴ペアをそれぞれ前記マッチングモデルに入力して、各特徴ペアのマッチングスコアを得、マッチングスコアが最も高い少なくとも1つの特徴ペアにおけるノードを選別するためのノード選別サブモジュールと、
    選別されたノードが葉ノードである場合に、前記マッチングスコアに基づいて根ノードから前記ノードまでのターゲット検索パスを決定するためのターゲット検索パス決定実行サブモジュールとを備える、
    請求項11に記載の情報検索装置。
  13. 前記ターゲット検索結果決定モジュールは、
    前記ターゲット検索パスに基づいて少なくとも1つの候補検索結果を決定するための候補検索結果決定サブモジュールと、
    前記マッチングモデルを用いて前記少なくとも1つの候補検索結果における各候補検索結果と前記ターゲットユーザーとのマッチングスコアを決定するためのマッチングスコア決定サブモジュールと、
    前記マッチングスコアに基づいて前記候補検索結果からターゲット検索結果を決定するためのターゲット検索結果決定実行サブモジュールとを備える、
    請求項12に記載の情報検索装置。
  14. 前記マッチングモデルは、第1サブモデルと、第2サブモデルと、第3サブモデルとを含み、
    前記第1サブモデルは、前記ノードに対応する特徴情報を決定するように構成され、
    前記第2サブモデルは、前記ノードに対応する特徴情報及び前記ターゲットユーザーの特徴情報に基づいて、前記ターゲットユーザーの前記ノードに対する興味度の予測値を生成するように構成され、
    前記第3サブモデルは、前記興味度の予測値に基づいてマッチング度合いを得るように構成される、
    請求項11又は12に記載の情報検索装置。
  15. 前記興味度は、クリック率、閲覧時間長、閲覧率のうちの少なくとも1つを含む、
    請求項14に記載の情報検索装置。
  16. 前記情報検索装置は、
    前記ターゲットユーザーの前記ターゲット検索結果に対する興味度に基づいてポジティブサンプル及びネガティブサンプルを決定するためのサンプル決定モジュールと、
    前記候補検索パスを用いて前記ポジティブサンプル及びネガティブサンプルに対応する各レベルのノードを決定するためのサンプルトレースバックモジュールと、
    前記ポジティブサンプル、ネガティブサンプル、ポジティブサンプルに対応する各レベルのノード、及びネガティブサンプルに対応する各レベルのノードに基づいて、前記マッチングモデルをトレーニングして更新するためのマッチングモデル更新モジュールとをさらに備え、
    前記ポジティブサンプルは、前記ターゲットユーザーがクリックして閲覧した検索結果を含み、前記ネガティブサンプルは、既に表示されたのにもかかわらず前記ターゲットユーザーがクリックせず閲覧しなかった検索結果、及びランダムに取得した不表示の他の検索結果を含む、
    請求項11又は12に記載の情報検索装置。
  17. 前記情報検索装置は、
    データベースにおいて、前記候補検索パスによって検索可能な検索結果とする全てのデータの初期特徴情報を決定するためのデータ初期特徴情報決定モジュールと、
    ターゲットユーザーの特徴情報に基づいて、前記マッチングモデルにより前記初期特徴情報を更新して、更新後の特徴情報を得るための特徴情報更新モジュールと、
    前記更新後の特徴情報にクラスタリングを行って、抽象度の異なる検索結果を得るためのクラスタリングモジュールと、
    前記抽象度の異なる検索結果を用いて候補検索パスを構築するための検索ネットワーク構築モジュールとをさらに備える、
    請求項11に記載の情報検索装置。
  18. 前記ターゲット検索結果は、前記ターゲットユーザーに推薦される、
    請求項10に記載の情報検索装置。
  19. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されるメモリとを備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが記憶されており、前記コマンドは、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1〜9のいずれか1項に記載の情報検索方法を実行させる、
    電子設備。
  20. コンピュータに請求項1〜9のいずれか1項に記載の情報検索方法を実行させるコマンドが記憶されている非一時的なコンピュータ可読記憶媒体。
  21. コンピュータにおいて、プロセッサにより実行される場合に、請求項1〜9のいずれか1項に記載の情報検索方法を実現することを特徴とするプログラム。
JP2021084776A 2020-08-21 2021-05-19 情報検索方法、装置、設備、記憶媒体、及びプログラム Active JP7222022B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010851832.XA CN111984689B (zh) 2020-08-21 2020-08-21 信息检索的方法、装置、设备以及存储介质
CN202010851832.X 2020-08-21

Publications (2)

Publication Number Publication Date
JP2021182392A true JP2021182392A (ja) 2021-11-25
JP7222022B2 JP7222022B2 (ja) 2023-02-14

Family

ID=73443105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021084776A Active JP7222022B2 (ja) 2020-08-21 2021-05-19 情報検索方法、装置、設備、記憶媒体、及びプログラム

Country Status (5)

Country Link
US (1) US11714816B2 (ja)
EP (1) EP3819791A3 (ja)
JP (1) JP7222022B2 (ja)
KR (1) KR102526040B1 (ja)
CN (1) CN111984689B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818228B (zh) * 2021-01-29 2023-08-04 北京百度网讯科技有限公司 向用户推荐对象的方法、装置、设备和介质
CN113343147B (zh) * 2021-06-18 2024-01-19 北京百度网讯科技有限公司 信息处理方法、装置、设备、介质及程序产品
CN113553483A (zh) * 2021-07-02 2021-10-26 广联达科技股份有限公司 构件检索方法、装置、电子设备及可读存储介质
CN113407851B (zh) * 2021-07-15 2024-05-03 北京百度网讯科技有限公司 基于双塔模型的确定推荐信息的方法、装置、设备和介质
CN113609176B (zh) * 2021-08-06 2024-03-19 北京百度网讯科技有限公司 一种信息生成方法、装置、设备及存储介质
CN113641718B (zh) * 2021-08-12 2024-06-07 北京百度网讯科技有限公司 模型生成方法、搜索推荐方法、装置、设备和介质
CN113656467B (zh) * 2021-08-20 2023-07-25 北京百度网讯科技有限公司 搜索结果的排序方法、装置和电子设备
CN113449198B (zh) * 2021-08-31 2021-12-10 腾讯科技(深圳)有限公司 特征提取模型的训练方法、装置、设备及存储介质
CN113781236A (zh) * 2021-09-01 2021-12-10 深圳华云信息***有限公司 基金产品推荐方法、装置、电子设备及存储介质
CN113836417B (zh) * 2021-09-26 2024-07-19 北京爱奇艺科技有限公司 一种负样本的确定方法、装置、电子设备及存储介质
CN113704507B (zh) * 2021-10-26 2022-02-11 腾讯科技(深圳)有限公司 数据处理方法、计算机设备以及可读存储介质
CN114329189B (zh) * 2021-12-13 2022-10-14 北京五八信息技术有限公司 内容信息的推荐方法、装置、电子设备及可读介质
CN114428907B (zh) * 2022-01-27 2024-05-28 北京百度网讯科技有限公司 信息搜索方法、装置、电子设备及存储介质
CN114817725B (zh) * 2022-04-28 2022-10-14 杭州核新软件技术有限公司 一种行为决策逻辑识别方法及***
KR102452323B1 (ko) * 2022-05-31 2022-10-07 한화시스템(주) 다기능 콘솔의 메뉴 추천 장치 및 그 방법
CN114861071B (zh) * 2022-07-01 2022-10-18 北京百度网讯科技有限公司 对象推荐方法和装置
CN115329683B (zh) * 2022-10-17 2022-12-13 中国民航大学 航空行李在线装载规划方法、装置、设备及介质
CN117142156B (zh) * 2023-10-30 2024-02-13 深圳市金环宇电线电缆有限公司 基于自动定位的线缆码垛控制方法、装置、设备及介质
CN118152668B (zh) * 2024-05-10 2024-07-23 腾讯科技(深圳)有限公司 媒体信息处理方法及装置、设备、存储介质、程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008070959A (ja) * 2006-09-12 2008-03-27 Sony Corp 情報処理装置および方法、並びに、プログラム
JP2012238114A (ja) * 2011-05-10 2012-12-06 Nippon Telegr & Teleph Corp <Ntt> 興味推定装置、方法及びプログラム
US20120330939A1 (en) * 2011-06-22 2012-12-27 International Business Machines Corporation Using a dynamically-generated content-level newsworthiness rating to provide content recommendations
US20130290340A1 (en) * 2010-10-27 2013-10-31 Henri Jacques Suermondt Providing Control Over a Personalized Category of Information
JP2019053682A (ja) * 2017-09-19 2019-04-04 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019133565A (ja) * 2018-02-02 2019-08-08 日本放送協会 ニュース素材分類装置、プログラム及び学習モデル
JP2019168787A (ja) * 2018-03-22 2019-10-03 株式会社日立ソリューションズ 検索支援装置、検索支援方法、及び検索支援プログラム
JP2019219731A (ja) * 2018-06-15 2019-12-26 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664746B2 (en) * 2005-11-15 2010-02-16 Microsoft Corporation Personalized search and headlines
US7533096B2 (en) * 2006-07-12 2009-05-12 International Business Machines Corporation Computer-based method for finding similar objects using a taxonomy
CN101639831B (zh) * 2008-07-29 2012-09-05 华为技术有限公司 一种搜索方法、装置及***
JP2010267081A (ja) * 2009-05-14 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置及びプログラム
US9009177B2 (en) * 2009-09-25 2015-04-14 Microsoft Corporation Recommending points of interests in a region
US9239967B2 (en) * 2011-07-29 2016-01-19 Hewlett-Packard Development Company, L.P. Incremental image clustering
US9607077B2 (en) * 2011-11-01 2017-03-28 Yahoo! Inc. Method or system for recommending personalized content
CN103116588B (zh) * 2011-11-17 2017-07-04 深圳市世纪光速信息技术有限公司 一种个性化推荐方法及***
AU2013292323B2 (en) * 2012-07-20 2017-02-02 Intertrust Technologies Corporation Information targeting systems and methods
JP6003705B2 (ja) * 2013-02-14 2016-10-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US10102307B2 (en) * 2013-03-15 2018-10-16 Oath Inc. Method and system for multi-phase ranking for content personalization
CN105389718A (zh) * 2015-12-07 2016-03-09 深圳市天行家科技有限公司 一种汽车后服务推荐方法和***
CN108664515B (zh) 2017-03-31 2019-09-17 北京三快在线科技有限公司 一种搜索方法及装置,电子设备
CN107491534B (zh) * 2017-08-22 2020-11-20 北京百度网讯科技有限公司 信息处理方法和装置
CN110046276B (zh) 2019-04-19 2021-04-20 北京搜狗科技发展有限公司 一种语音中关键词的检索方法和装置
CN110659362A (zh) * 2019-09-17 2020-01-07 武汉鼎森电子科技有限公司 一种自动调节候选范围的推荐方法和***
CN110880124A (zh) 2019-09-29 2020-03-13 清华大学 转化率评估方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008070959A (ja) * 2006-09-12 2008-03-27 Sony Corp 情報処理装置および方法、並びに、プログラム
US20130290340A1 (en) * 2010-10-27 2013-10-31 Henri Jacques Suermondt Providing Control Over a Personalized Category of Information
JP2012238114A (ja) * 2011-05-10 2012-12-06 Nippon Telegr & Teleph Corp <Ntt> 興味推定装置、方法及びプログラム
US20120330939A1 (en) * 2011-06-22 2012-12-27 International Business Machines Corporation Using a dynamically-generated content-level newsworthiness rating to provide content recommendations
JP2019053682A (ja) * 2017-09-19 2019-04-04 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019133565A (ja) * 2018-02-02 2019-08-08 日本放送協会 ニュース素材分類装置、プログラム及び学習モデル
JP2019168787A (ja) * 2018-03-22 2019-10-03 株式会社日立ソリューションズ 検索支援装置、検索支援方法、及び検索支援プログラム
JP2019219731A (ja) * 2018-06-15 2019-12-26 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
KR20210040868A (ko) 2021-04-14
JP7222022B2 (ja) 2023-02-14
EP3819791A2 (en) 2021-05-12
US20210216561A1 (en) 2021-07-15
KR102526040B1 (ko) 2023-04-27
US11714816B2 (en) 2023-08-01
EP3819791A3 (en) 2021-10-06
CN111984689B (zh) 2023-07-25
CN111984689A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
JP7222022B2 (ja) 情報検索方法、装置、設備、記憶媒体、及びプログラム
JP7194163B2 (ja) マルチメディアリソースの推薦方法、マルチメディアリソースの推薦装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
JP7201730B2 (ja) 意図推薦方法、装置、機器及び記憶媒体
US11023441B2 (en) Distributed storage and processing of hierarchical data structures
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
US10535106B2 (en) Selecting user posts related to trending topics on online social networks
US20160357872A1 (en) Event networks and event view construction and display
IL256506A (en) Structured search queries that have changed on online social networks
JP2022023776A (ja) オンライン予測モデルのトレーニング方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
US11593343B1 (en) User interface structural clustering and analysis
CA2945275A1 (en) Natural-language rendering of structured search queries
CN112650907A (zh) 搜索词的推荐方法、目标模型的训练方法、装置及设备
CN102368262A (zh) 一种提供与查询序列相对应的搜索建议的方法与设备
US11126682B1 (en) Hyperlink based multimedia processing
CN112632403A (zh) 推荐模型的训练方法、推荐方法、装置、设备和介质
CN111563198B (zh) 一种物料召回方法、装置、设备及存储介质
CN111400456B (zh) 资讯推荐方法及装置
CN112052397B (zh) 用户特征生成方法、装置、电子设备及存储介质
US11843843B2 (en) Bullet screen key content jump method and bullet screen jump method
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
US10579630B2 (en) Content creation from extracted content
EP4371028A1 (en) Elucidated natural language artifact recombination with contextual awareness
CN111274497B (zh) 社区推荐及模型训练方法、装置、电子设备及存储介质
WO2023209691A1 (en) System and method for ranking recommendations in streaming platforms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230202

R150 Certificate of patent or registration of utility model

Ref document number: 7222022

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150