TW201520790A - 個性化資料搜尋方法和裝置 - Google Patents

個性化資料搜尋方法和裝置 Download PDF

Info

Publication number
TW201520790A
TW201520790A TW103110111A TW103110111A TW201520790A TW 201520790 A TW201520790 A TW 201520790A TW 103110111 A TW103110111 A TW 103110111A TW 103110111 A TW103110111 A TW 103110111A TW 201520790 A TW201520790 A TW 201520790A
Authority
TW
Taiwan
Prior art keywords
user
data
user behavior
feature
satisfaction
Prior art date
Application number
TW103110111A
Other languages
English (en)
Inventor
Xi Chen
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201520790A publication Critical patent/TW201520790A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申請關於一種個性化資料搜尋方法和裝置。該方法包括:對用戶行為資料中記錄的用戶行為進行機器學習,獲得用戶行為資料的滿意度;選擇用戶行為資料中的用戶的特徵和資料物件的特徵中的一項或多項特徵形成的特徵組合;根據特徵或特徵組合下的用戶行為資料的滿意度,進行個性化模型訓練,獲得特徵或特徵組合的個性化權重;根據特徵或特徵組合的個性化權重,對搜尋出的一個或多個資料物件進行排序以展示一個或多個資料物件。本申請結合以往的用戶行為資料訓練滿意度模型,進而訓練個性化模型,利用個性化模型對搜尋出的資料物件進行排序並展示。以此改進和提升了搜尋平臺的性能,提高了搜尋結果的準確性,為用戶輸出合理其符合其搜尋意圖的結果。

Description

個性化資料搜尋方法和裝置
本申請係關於資料搜尋領域,更具體地關於一種個性化資料搜尋方法和裝置。
網路中的資料量日益增加。資料搜尋引擎已經成為幫助用戶在海量資料物件中找到自己滿意資料物件的重要工具。資料搜尋引擎的使用方式多種多樣,用戶可以輸入一個查詢的關鍵字(查詢詞),在海量資料物件中篩選出與該查詢詞相匹配的搜尋結果(資料物件)。但是,無論如何使用資料搜尋引擎來搜尋資料物件,其關鍵技術都包含對搜尋出的搜尋結果中所有的資料物件進行排序的輸出處理。亦即是說,用戶輸入一個查詢詞後,透過搜尋找到對應的資料物件作為搜尋結果,並以一定的排序方式展示輸出這些搜尋結果。現有技術中,資料搜尋技術與用戶本身的差異或者用戶的特點無關,僅與查詢詞有關。也就是說對不同用戶使用同一個查詢詞,搜尋到的全部資料物件一致即搜尋結果完全一致,並且,對搜尋結果的輸出展示的排序方式相同,因而不同用戶採用同一查詢詞搜尋,最後 看到的搜尋結果相同。
如果,同一查詢詞搜尋出的搜尋結果以及搜尋結果的排序方式相同,則不能為不同特點的用戶,提供最合適、最準確的搜尋結果,如:不能向特定用戶提供,最符合該用戶希望的、透過其查詢詞在海量資料中找到的最準確的結果。從而,導致對於用戶來說,搜尋結果不準確、不滿意,搜尋平臺的性能弱、效率低,還需要用戶人工瀏覽數量龐大的搜尋結果,進而,使得後續用戶的瀏覽、訪問等用戶行為效率低,還使得對搜尋到的資料物件的用戶行為減少。其中用戶的特點即用戶在各個維度上的特徵,包括:用戶的性別、年齡、工作、偏好等。
針對上述情形個性化搜尋逐漸興起。所謂個性化搜尋,是指不同用戶能獲得不同的搜尋結果。具體說,不同用戶採用同一查詢詞做搜尋,所得到的搜尋結果,由於對應不同用戶,其會按照不同的排序方式輸出展示。這裡的排序方式,考慮了用戶在一個或多個維度上的特徵。而用戶的維度可以體現出用戶的個性。例如:性別維度,可以有男性、女性;年齡維度,可以有兒童、青年、中年、老年;網路訪問頻率維度,可以有高、中、低;帳號維度,可以有帳號A、帳號B,……;等等。另外,搜尋到的資料物件,在不同維度也有不同特點。例如:資料物件的類別可以作為維度之一,即類別維度。在類別維度上,資料物件的特徵可以有體育類、入文類,等等。由於不同用戶在某一維度上可能具有不同的特徵,相應地,用戶所偏愛 /關注的搜尋結果中的資料物件的特徵也不同。而用戶對其關注的資料物件可以透過用戶行為資料分析而得到,用戶行為資料可以包括與用戶對資料物件進行操作所產生的用戶行為有關的各種資料。例如:用戶對資料物件的點擊、瀏覽、交互等行為。個性化搜尋以用戶為出發點,根據用戶行為資料,結合用戶的特徵和資料物件的特徵對搜尋結果中的資料物件進行個性化排序,以滿足不同用戶對不同資料物件的需求。
現有的個性化搜尋,比如:主要以用戶對資料物件的交互為目標,對用戶行為、用戶在一個或多個維度上的特徵、資料物件在一個或多個維度上的特徵做訓練,得到用戶特徵的權重和/或資料物件的特徵的權重,再由該權重來預測用戶可能會對每個資料物件做交互的機率。該機率可以作為資料物件在排序時的排序分值。當根據用戶輸入的查詢詞進行搜尋時,對搜尋出的搜尋結果(一個或多個資料物件),按照每個資料物件的資料交互機率從大到小的順序,為用戶展示搜尋結果。但是,用戶不同的行為資料所體現的對資料物件的關注或偏好程度是不一樣的。例如,用戶點擊某一資料物件,獲取該資料物件的詳細資訊後就結束頁面訪問,沒有後續的對該資料物件的行為操作;而用戶點擊另一資料物件,獲取該資料物件的詳細資訊後執行了收藏該資料物件的操作;在這樣的例子中,用戶後一點擊的行為資料相較於前一點擊的行為資料更能表現用戶對資料物件的關注或偏好程度。在計算特徵組合的 權重時,只考慮“交互”這一種用戶行為按照資料交互的機率對作為搜尋結果的各個資料物件進行排序,而忽略了用戶的不同行為資料對用戶偏好或關注程度的影響,導致對搜尋結果的排序準確性不高的缺陷。從而需要改進搜尋平臺的個性化搜尋處理性能,以提高搜尋的輸出結果準確度,為用戶輸出最合理最符合其搜尋意圖的結果。
基於上述現有技術中個性化搜尋的缺陷,本申請的主要目的在於提供一種個性化資料搜尋方法和裝置,以改進個性化搜尋處理性能,從而最大限度為用戶提供符合其搜尋意圖的搜尋結果、提高搜尋平臺的輸出搜尋結果的準確度。
為了解決上述技術問題,本申請是透過以下技術方案來實現。
本申請提供了一種個性化資料搜尋方法,包括:根據對用戶行為資料中記錄的用戶對資料物件的用戶行為進行機器學習,以獲得每個用戶行為資料的滿意度;選擇該每個用戶行為資料中的用戶的特徵、以及該資料物件的特徵中的一項特徵或多項特徵形成的特徵組合;根據每個特徵或特徵組合下的用戶行為資料的滿意度,進行個性化模型訓練,並獲得每個特徵或特徵組合的個性化權重;根據該特徵或特徵組合的個性化權重,對根據用戶的搜尋請求中的查詢詞所搜尋出的一個或多個資料物件,進行排序,以 根據該排序展示該一個或多個資料物件。
其中,在該每個用戶行為資料中,至少記錄用戶、該用戶對資料物件的一種或多種用戶行為、該資料物件、以及該資料物件對應的查詢詞;根據對用戶行為資料中記錄的用戶對資料物件的用戶行為進行機器學習,包括:根據記錄的該一種或多種用戶行為中的每種用戶行為進行學習。
其中,根據對用戶行為資料中記錄的用戶對資料物件的用戶行為進行機器學習,以獲得該每個用戶行為資料的滿意度,包括:該學習,包括:訓練處理和預測處理;該訓練處理,包括:根據每個用戶行為資料記錄的一種或多種用戶行為中的每一種用戶行為,進行滿意度模型訓練,並確定每種用戶行為的滿意度權重;該預測處理,包括:根據每個用戶行為資料記錄的一種或多種用戶行為中的每種用戶行為的滿意度權重,預測每個用戶行為資料的滿意度。
其中,根據對用戶行為資料中記錄的用戶對資料物件的用戶行為進行機器學習,以獲得該每個用戶行為資料的滿意度,包括:根據每個用戶行為資料中記錄的用戶以及查詢詞,對該每個用戶行為資料的滿意度進行歸一化。
其中,選擇該每個用戶行為資料中的用戶的特徵、以及該資料物件的特徵中的一項特徵或多項特徵形成的特徵組合,包括:根據預先儲存的用戶的特徵、以及資料物件的特徵,獲得每個用戶行為資料中記錄的用戶的特徵,以 及記錄的資料物件的特徵;根據每個特徵或特徵組合下的用戶行為資料的滿意度,進行個性化模型訓練,並獲得每個特徵或特徵組合的個性化權重,包括:根據該每個用戶行為資料的滿意度,以及該每個用戶行為資料記錄的資料物件的特徵和用戶的特徵,訓練該每個資料物件的特徵針對該每個用戶特徵的個性化權重。
其中,根據該特徵或特徵組合的個性化權重,對根據用戶的搜尋請求中的查詢詞所搜尋出的一個或多個資料物件,進行排序,包括:基於用戶的搜尋請求獲得用戶的特徵,以及根據搜尋出的每個資料物件,獲得資料物件的特徵;透過查詢與該用戶的特徵和搜尋出的每個資料物件的特徵相對應的特徵組合的個性化權重,預測該每個資料物件的個性化分數;基於該每個資料物件的個性化分數,對該一個或多個資料物件進行排序。
本申請還提供了一種個性化資料搜尋裝置,包括:學習模組,用於根據對用戶行為資料中記錄的用戶對資料物件的用戶行為進行機器學習,以獲得每個用戶行為資料的滿意度;形成模組,用於選擇該每個用戶行為資料中的用戶的特徵、以及該資料物件的特徵中的一項特徵或多項特徵形成的特徵組合;訓練模組,用於根據每個特徵或特徵組合下的用戶行為資料的滿意度,進行個性化模型訓練,並獲得每個特徵或特徵組合的個性化權重;排序模組,用於根據該特徵或特徵組合的個性化權重,對根據用戶的搜尋請求中的查詢詞所搜尋出的一個或多個資料物件,進行 排序,以根據該排序展示該一個或多個資料物件。
其中,在該每個用戶行為資料中,至少記錄用戶、該用戶對資料物件的一種或多種用戶行為、該資料物件、以及該資料物件對應的查詢詞;該學習模組還被配置成:根據記錄的該一種或多種用戶行為中的每種用戶行為進行學習。
其中,該學習模組還包括:訓練處理單元和預測處理單元;該訓練處理單元,用於根據每個用戶行為資料記錄的一種或多種用戶行為中的每一種用戶行為,進行滿意度模型訓練,並確定每種用戶行為的滿意度權重;該預測處理單元,用於根據每個用戶行為資料記錄的一種或多種用戶行為中的每種用戶行為的滿意度權重,預測每個用戶行為資料的滿意度。
其中,該學習模組還被配置成:根據每個用戶行為資料中記錄的用戶以及查詢詞,對該每個用戶行為資料的滿意度進行歸一化。
其中,該形成模組還被配置成:根據預先儲存的用戶的特徵、以及資料物件的特徵,獲得每個用戶行為資料中記錄的用戶的特徵,以及記錄的資料物件的特徵;該訓練模組還被配置成:根據該每個用戶行為資料的滿意度,以及該每個用戶行為資料記錄的資料物件的特徵和用戶的特徵,訓練該每個資料物件的特徵針對該每個用戶特徵的個性化權重。
其中,該排序模組還被配置成:基於用戶的搜尋請求 獲得用戶的特徵,以及根據搜尋出的每個資料物件,獲得資料物件的特徵;透過查詢與該用戶的特徵和搜尋出的每個資料物件的特徵相對應的特徵組合的個性化權重,預測該每個資料物件的個性化分數;基於該每個資料物件的個性化分數,對該一個或多個資料物件進行排序。
與現有技術相比,根據本申請的技術方案具有以下有益效果:本申請結合以往的用戶行為資料及其記錄的用戶、資料物件、該用戶對該資料物件的一種或多種用戶行為,構建滿意度模型,進而形成個性化模型。以便在用戶進行資料搜尋時,利用個性化模型對搜尋出的一個或多個資料物件中每個資料物件進行個性化分數計算,按照每個資料物件的個性化分數,對所有的資料物件進行排序處理,以該排序處理得到的順序,展示這些作為搜尋結果的資料物件給用戶。以此改進和提升了搜尋平臺的性能,提高輸出給用戶的搜尋結果的準確性,為用戶輸出最合理最符合其搜尋意圖的結果。
300‧‧‧個性化資料搜尋裝置
310‧‧‧學習模組
320‧‧‧形成模組
330‧‧‧訓練模組
340‧‧‧排序模組
此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用於解釋本申請,並不構成對本申請的不當限定。在附圖中:圖1是根據本申請一實施例的個性化資料搜尋方法的 流程圖;圖2是根據本申請一實施例的個性化資料搜尋方法的滿意度模型訓練的流程圖;圖3是根據本申請一實施例的個性化資料搜尋裝置的結構圖。
本申請的主要思想在於,根據記錄的用戶行為資料,構建滿意度模型,以得到每一個用戶行為資料的滿意度。根據每一個用戶行為資料中對應的用戶在一個或多個維度上的特徵和資料物件在一個或多個維度上的特徵所組成的特徵組合,結合每個用戶行為資料的滿意度,構建個性化模型,以得到每個特徵組合的個性化權重。在基於用戶輸入的查詢詞進行資料搜尋時,對於搜尋出的一個或多個資料物件,可以根據每個特徵組合的個性化權重,匹配出該用戶的特徵和每個資料物件的特徵對應的個性化權重,並在此基礎上,可以計算該用戶搜尋出的每一個資料物件的個性化分數。根據每個資料物件的個性化分數對搜尋出的一個或多個資料物件進行排序,並按照排序結果進行展示。透過該方法可以提高輸出給用戶的搜尋結果的準確性,為用戶輸出最合理最符合其搜尋意圖的結果。
為使本申請的目的、技術方案和優點更加清楚,下面將結合本申請具體實施例及相應的附圖對本申請技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申 請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本申請保護的範圍。
本申請提供了一種搜尋結果排序方法。如圖1所示,圖1是根據本申請一實施例的個性化資料搜尋方法的流程圖。
在步驟S110處,根據對每個用戶行為資料中記錄的用戶對資料物件的每種用戶行為進行機器學習,以獲得每個用戶行為資料的滿意度。
其中,用戶行為是用戶對資料物件進行的行為(操作、動作),並且,用戶對資料物件的行為可以有多種,例如:點擊、瀏覽、收藏資料物件,瀏覽資料物件停留的時間,基於資料物件進行資料交互等多種不同的用戶行為;進一步的,資料交互這種用戶行為還可以細分為下載、付款等幾種行為。用戶透過搜尋請求獲得與搜尋請求中的查詢詞相匹配的一個或多個資料物件。一個或多個資料物件作為搜尋結果輸出給請求搜尋的用戶。
用戶行為資料,用於記錄用戶針對資料物件的一種或多種不同類型的用戶行為(即一種或多種用戶行為)。進一步地,在用戶行為資料中,可以記錄有:用戶、用戶對資料物件的一種或多種用戶行為、資料物件、以及資料物件對應的查詢詞等。伺服器採集的日誌檔中包括一條或多條日誌資料,該一條或多條日誌資料即可以為一個或多個用戶行為資料。一個用戶行為資料可以包括用戶從開始搜 尋資料物件,到搜尋出資料物件後,用戶針對該資料物件進行的一系列的用戶行為。
該學習可以包括:訓練處理和預測處理,用以獲得每個用戶行為資料的滿意度。用戶行為資料的滿意度,是該用戶行為資料中用戶對資料物件的滿意度,具體是指,在該用戶行為資料中,針對記錄的資料物件,記錄的用戶能夠實現指定的資料交互的機率。在電子商務系統中,指定的資料交互即系統期望用戶進行的資料交互,比如購買商品、付款操作等。換言之,該學習過程包括訓練滿意度模型以及利用滿意度模型預估/預測出每個用戶行為資料中用戶對資料物件的滿意度。
圖2是根據本申請一實施例的個性化資料搜尋方法的滿意度模型訓練的流程圖。
在步驟S210處,根據每個用戶行為資料中記錄的一種或多種用戶行為,進行滿意度模型訓練,並確定每種用戶行為的滿意度權重。步驟S210即為訓練處理。
在該訓練處理中,伺服器可以將用戶行為資料記錄中用戶的一系列相關行為(比如在一個session內的用戶操作)及行為特徵(比如行為次數、時間)作為訓練集的特徵(樣本特徵)。訓練目標是一系列相關行為中指定的一個行為。其中訓練集的用戶行為資料的滿意度可以預先標註,即是已知的。
基於訓練集中的特徵進行模型訓練,以獲得能夠正確預測用戶行為資料滿意度的模型即滿意度模型。對預想的 模型(規則)進行訓練,調整該模型中的參數,若透過該模型計算出的用戶行為資料的滿意度與該用戶行為資料預先標註的滿意度相匹配(比如誤差在設定範圍內)時,則該模型即為訓練得到的滿意度模型。
伺服器可以將用戶對資料物件執行的指定的資料交互作為滿意度模型訓練的目標。根據記錄的所有的用戶行為資料,進行滿意度模型訓練,並獲得每種用戶行為的滿意度權重。
具體地,訓練滿意度模型並獲得滿意度權重,可以包括選擇一個機器學習模型,並且透過已標註樣本集訓練獲得該模型中的一個或多個參數,其中每個參數對應一種用戶行為。利用已標註滿意度的用戶行為資料所包含一種或多種用戶行為及其特徵,即訓練集的特徵,訓練該模型,即驗證該模型預測出的用戶行為資料的滿意度是否準確,若預測的滿意度不準確,則對模型和/參數進行調整,直至該模型預測的滿意度準確為止。調整後的模型作為最終用於預測用戶行為資料滿意度的滿意度模型,其包含的參數作為對應的用戶行為的滿意度權重。
其中,用戶行為的滿意度權重(wm)可以用於反映,在實現訓練目標(比如完成指定的資料交互行為)的過程中所考察的用戶行為類型的重要性。該滿意度權重是滿意度模型中的參數。一個最簡單的例子,用戶行為類型的重要性可以表示為:在發生該種用戶行為的基礎上,成功實現訓練目標的比例。如:滿意度權重(wm)=在發生 用戶行為A的條件下實現訓練目標G的次數÷發生用戶行為A的總次數。用戶行為的滿意度權重越大說明實現訓練目標的可能性越大,用戶行為的滿意度權重越小說明實現訓練目標的可能性越小。
以網路購物這類需要海量資料搜尋的技術為例:當用戶進行網購時,用戶輸入一個查詢詞(query)後,可以看到商品列表,該商品列表即是搜尋出的一個或多個資料物件(商品)所組成的。用戶行為類型包括瀏覽商品列表,點擊某一商品,瀏覽商品的詳情頁,購買商品/成交(指定的資料交互行為)等行為。這一系列的用戶行為都將被記錄在日誌檔中。
進一步地,用於記錄用戶行為資料日誌檔,例如表1所示,但日誌檔不限於表1中的內容。
該日誌檔中包含4個用戶行為資料。用戶行為資料中記錄了序號、搜尋出的資料物件(商品A1、商品A2),輸入查詢詞的用戶(用戶U1、用戶U2),查詢詞(Q1、Q2),以及在一次搜尋中,用戶針對資料物件產生的用戶 行為的數量。其中,該日誌檔中記錄了展示、點擊、加入購物車、成交4種用戶行為,和每個用戶行為資料中的每種用戶行為的次數,如,展示數1次、點擊數1次、加入購物車數1次、成交數1次。用戶行為資料中的用戶行為的種類可以根據需要增加或減少。
在日誌檔中記錄了所有用戶行為資料,可以透過考察一種用戶行為最終實現目標的比例,來確定該種用戶行為的滿意度權重。可以將表1中表示資料交互的用戶行為“成交”作為滿意度模型訓練的目標,根據表1中列出的所有用戶行為資料,計算每種用戶行為(考察的用戶行為)在實現“成交”的過程中所體現的重要性。可以在日誌檔中提取出所有種類的用戶行為,如,提取表1中的用戶行為,包括展示、點擊、加入購物車、成交,共4種。根據提取出的用戶行為,將成交作為滿意度模型訓練目標,計算得出每種用戶行為的滿意度權重。
一個簡單的計算例子,表1中所示,展示商品(資料物件)的次數共計為4次,在展示商品的用戶中,實現成交的為2個,那麼展示的滿意度權重為0.5(2÷4=0.5)。點擊商品的次數為3次,在點擊商品的用戶中,實現成交的為2個,那麼點擊的滿意度權重為0.67(2÷30.67)。用戶將商品加入購物車的數量為1個,在將商品加入購物車的用戶中,實現成交的為1個,那麼加入購物車的滿意度權重為1(1÷1=1)。實現商品成交的次數為2,那麼成交的滿意度權重為1(2÷2=1)。
在一個實施例中,進行滿意度模型訓練,可以透過採用邏輯回歸、決策樹等方式來實現。比如以邏輯回歸、決策樹等構建待訓練的模型(規則),並進行訓練,如邏輯回歸模型訓練或決策樹模型訓練等,以獲得最終的滿意度模型,並得到每種用戶行為的滿意度權重。
在另一個實施例中,還可以抽取日誌檔中的一部分用戶行為資料作為訓練樣本進行滿意度模型訓練,並得到該部分用戶行為資料中每種用戶行為的滿意度權重。例如,在日誌檔中隨機抽取出一半(50%)的用戶行為資料,用以訓練每種用戶行為的滿意度權重。那麼可以在表1中隨機抽取出序號為1和序號為2的兩個用戶行為資料(50%),忽略未被抽取出的序號為3和序號為4的兩個用戶行為資料,基於抽取出的兩個用戶行為資料,得到每種用戶行為的滿意度權重。
在步驟S220處,根據滿意度模型及每種用戶行為的滿意度權重,預測每個用戶行為資料的滿意度。步驟S220即為預測處理。該預測處理為滿意度模型預測過程。
預測用戶行為資料的滿意度,即是預測該用戶行為資料中,用戶針對資料物件實現資料交互的機率。可以將實現資料交互的用戶行為資料作為滿意度數值最高的用戶行為資料。
具體而言,可以將用戶針對資料物件的一種或多種用戶行為,作為用戶行為鏈條,如點擊資料物件、瀏覽資料 物件的時間、針對資料物件進行資料交互等。進而可以根據用戶的用戶行為,來判斷用戶對資料物件的滿意/偏愛程度。用戶對資料物件的滿意/偏愛程度越高,實現資料交互的可能性越大。
預測用戶行為資料的滿意度,可以根據一種或多種用戶行為的滿意度權重和日誌檔記錄的用戶行為資料所包含一種或多種用戶行為,計算用戶行為資料的滿意度。
在一個實施例中,可以透過公式(1.1)計算表1中每個用戶行為資料的滿意度(PVR)。
其中,fm(fm1、fm2、……、fmn)是特徵量。fm特徵量可以是數值,在本申請的實施例中,fm特徵量是用戶行為資料中包含的一種或多種用戶行為中的每種用戶行為的數量(次數);wm(wm1、wm2、……wmn)用於表示每種用戶行為對應的滿意度權重。該公式(1.1)可以作為滿意度模型,滿意度權重作為該滿意度模型中的參數。
根據滿意度模型預測用戶行為資料的滿意度,以表1為例,表1中所列的用戶行為,展示行為的滿意度權重為0.5;點擊行為的滿意度權重為0.67;加入購物車的行為的滿意度權重為1;成交行為的滿意度權重為1。
透過公式(1.1)計算,可以得到:
序號為1的用戶行為資料的滿意度PRV1為:
序號為2的用戶行為資料的滿意度PRV2為:
序號為3的用戶行為資料的滿意度PRV3為:
序號為4的用戶行為資料的滿意度PRV4為:
由此,可以預測出日誌檔中記錄的每個用戶行為資料的滿意度。
進一步,在一個實施例中,根據用戶行為資料記錄的用戶和查詢詞,還可以對用戶行為資料的滿意度進行歸一化。該歸一化可以是根據用戶、查詢詞,對用戶行為資料的滿意度進行調整。以避免滿意度可能在不同查詢詞、不同用戶下產生的一些偏差。
具體而言,在日誌檔中,每個用戶行為資料都可以包括用戶和用戶所輸入的查詢詞。其中,與用戶相關的用戶行為資料可以反映出該用戶的個人偏好。例如,不同用戶的不同購物習慣,可以影響用戶對資料物件的滿意度。如:男性用戶決定購買商品的時間較短,進而對商品的滿意度較高。而女性用戶往往要逛很久才能決定是否要購買商品,進而對商品的滿意度較低。與同一查詢詞相關的用 戶行為資料也可以反映出該查詢詞的特點。例如,不同查詢詞可以反映出有不同的購物習慣,如:用戶輸入查詢詞“連衣裙”時,往往會逛很久才能決定是否進行購買。而用戶輸入查詢詞“甜美修身連衣裙”時,往往容易在較短時間內決定是否進行購買。所以,針對不同查詢詞、不同用戶,對每個用戶行為資料的滿意度進行歸一化,是為了消除不同查詢詞、不同用戶對用戶行為資料產生的影響。
對用戶行為資料的滿意度進行歸一化,可以透過公式(1.2)來實現。
PVR’=(PVR×PVR)÷(PVRq×PVRu) (1.2)
其中,PVR’是歸一化後的滿意度,PVR是原始預測的滿意度,PVRq是查詢詞q的平均滿意度(即包含查詢詞q的用戶行為資料的滿意度的平均值),PVRu是用戶u的平均滿意度(即用戶u的用戶行為資料的滿意度的平均值)。
以表1列出的4個用戶行為資料為例,對每個用戶行為資料的滿意度歸一化。其中,序號為1的用戶行為資料(用戶U1、查詢詞Q1)的滿意度為0.96,序號為2的用戶行為資料(用戶U2、查詢詞Q1)的滿意度PVR2為0.76,序號為3的用戶行為資料(用戶U1、查詢詞Q2)的滿意度PVR3為0.62,序號為4的用戶行為資料(用戶U1、查詢詞Q2)的滿意度PVR4為0.90。
PVRQ1=(0.96+0.76)÷2=0.86
PVRQ2=(0.62+0.90)÷2=0.76
PVRU1=(0.96+0.62+0.90)÷3=0.83
PVRU2=0.76÷1=0.76
那麼透過公式(1.2)計算得到:
用戶行為資料的滿意度PRV1,歸一化後為:PVR1’=(PVR1×PVR1)÷(PVRQ1×PVRU1)=(0.96×0.96)÷(0.86×0.83)=1.29
用戶行為資料的滿意度PRV2,歸一化後為:PVR2’=(PRV2×PRV2)÷(PVRQ1×PVRU2)=(0.76×0.76)÷(086×0.76)=0.88
用戶行為資料的滿意度PRV3,歸一化後為:PVR3’=(PRV3×PRV3)÷(PVRQ2×PVRU1)=(0.62×0.62)÷(0.76×0.83)=0.61
用戶行為資料的滿意度PRV4,歸一化後為:PVR4’=(PRV4×PRV4)÷(PVRQ2×PVRU1)=(0.90×0.90)÷(0.76×0.83)=1.28
在步驟S120處,從每個用戶行為資料中的用戶的特徵、以及用戶的一種或多種用戶行為所對應的資料物件的特徵中選擇一項特徵或多項特徵形成的特徵組合。
可以根據資料物件在一個或多個維度上的特徵和用戶在一個或多個維度上的特徵,形成特徵組合。
選擇的特徵也可以是單一特徵。在電子商務網站中,該資料物件為商品資訊。該單一特徵可以包括:商品的屬性(如:商品的價格、銷量、風格、品牌、類目等)、用戶的群體標籤(如:性別、年齡、職業、地域、購買力等)及查詢詞的屬性(如:查詢詞涉及的類目、品牌、風 格等)。
資料物件的維度,可以表示資料物件的屬性(個性化標籤)。資料物件的屬性值作為資料物件在其維度上的特徵。例如,當資料物件為商品時,商品的維度可以是商品的價格、銷量、風格、品牌、類目等。資料物件的風格維度的特徵可以是甜美、淑女等。用戶的維度,可以表示用戶的屬性(個性化標籤),用戶的屬性值作為用戶在其維度上的特徵。例如,用戶的維度可以包括性別、年齡、職業、所處的地域等等,用戶的性別維度的特徵可以是男性、女性。可以將資料物件的特徵和用戶的特徵進行組合,以得到特徵組合。例如:資料物件為足球,足球的特徵可以是體育、男性等,用戶的特徵可以是男性。那麼足球的特徵和用戶特徵進行組合,可以得到體育(足球的特徵)與男性(用戶特徵)的組合,可以得到男性(足球的特徵)和男性(用戶特徵)的組合。
資料物件可以預先儲存在伺服器側,可以透過對伺服器側的資料物件進行預先分析,獲得資料物件的特徵。如果用戶曾經訪問過伺服器或用戶在伺服器側已經預先註冊,這些用戶的訪問記錄或註冊記錄(資訊)等,將會在伺服器有所保留,在伺服器側,可以透過分析用戶的訪問記錄或註冊記錄而獲得用戶的維度特徵。根據預先儲存的用戶的特徵、以及資料物件的特徵,提取用戶行為資料中記錄的用戶的特徵,以及記錄的資料物件的特徵。
具體而言,在用戶行為資料中,記錄著用戶、資料物 件。如表1所示。所以,可以在伺服器側,在預先儲存的所有的資料物件的維度特徵和所有的用戶的維度特徵中,查詢出該用戶的用戶維度特徵和資料物件的維度特徵。
進一步地,可以為每一個用戶分配唯一的用戶ID,可以為每一個資料物件分配唯一的資料物件ID。預先儲存的資料物件的特徵與資料物件的資料物件ID對應,預先儲存的用戶的特徵與用戶的用戶ID對應。並且,用戶行為資料中記錄的用戶以用戶ID來代替,記錄的資料物件以資料物件ID來代替。將用戶行為資料中記錄的資料物件ID與預先儲存的所有資料物件ID進行匹配,進而獲得該資料物件ID對應的資料物件的特徵。將用戶行為資料中記錄的用戶ID與預先儲存的所有用戶的用戶ID進行匹配,進而獲得該用戶ID對應的用戶特徵。從而,可以獲得每個用戶行為資料記錄的資料物件的維度和用戶的維度。在一個實施例中,用戶輸入的查詢詞也可以具有特徵,查詢詞特徵可以用於表示查詢詞的屬性值。例如:查詢詞為足球,那麼足球的維度可以是體育,足球的特徵可以是男性等。
進一步地,可以將資料物件的特徵、用戶的特徵、查詢詞特徵進行組合,組合的形式可以包括將資料物件的特徵與用戶的特徵進行組合,將用戶的特徵與查詢詞特徵進行組合,將資料物件的特徵與查詢詞特徵進行組合,以及將資料物件的特徵、用戶特徵與查詢詞特徵三者進行組合。進而得到組合特徵。
在步驟S130處,根據每個特徵或特徵組合下的用戶行為資料的滿意度,進行個性化模型訓練,並獲得每個特徵或特徵組合的個性化權重。
個性化權重,可以用於反映每個特徵或特徵組合在提高用戶對資料物件的滿意度中的重要性。
某一特徵或特徵組合下的用戶行為資料是指具有該特徵或特徵組合的用戶行為資料。
使用每個特徵或特徵組合下的用戶行為資料的滿意度,進行個性化模型訓練,進而獲得每項特徵或特徵組合對用戶行為資料的滿意度的影響的權重(即特徵或特徵組合的個性化權重)。
根據用戶輸入的查詢詞可以搜尋出一個或多個資料物件,透過個性化模型可以預估/預測出每一個資料物件的個性化分數。
該個性化分數可以表示用戶對該資料物件的期望值。資料物件的期望值越高,表示用戶對該資料物件的關注度越高,資料物件的期望值越低,表示用戶對該資料物件的關注度越低。
個性化模型,還可以根據用戶的個性,對搜尋出的資料物件進行個性化分數計算,並根據分數對資料物件進行個性化排序。該個性化排序可以是將用戶關注度最高的資料物件排列在搜尋結果的隊首,將用戶不關注的資料物件排列在搜尋結果的隊尾。
可以利用日誌檔中記錄的用戶行為資料的滿意度或者 每個用戶行為資料歸一化後的滿意度為目標,以用戶行為資料中記錄的用戶和資料物件中的特徵或特徵組合作為訓練集中的特徵,進行個性化模型訓練。該訓練集中的用戶行為資料中記錄的資料物件的個性化分數已知(即可以預先標註)。基於訓練集中的特徵對預想的模型進行訓練,透過調整該模型中的參數,若透過該模型計算出的個性化分數與已知的個性化分數相匹配(比如相等或誤差在設定範圍內),則該能夠得出正確個性化分數的模型即為訓練得到的個性化模型。
下面將以特徵組合作為一種較佳的方式,來說明個性化模型訓練過程。
其中個性化模型中的包括個性化權重這一參數。例如:個性化權重,可以表示包含相同特徵組合的用戶行為資料的滿意度的平均值。如:在日誌檔中,包含4個用戶行為資料,分別是根據用戶U1輸入的查詢詞Q3搜尋出的商品A1、商品A2、商品A3、商品A4。查詢出用戶U1的用戶特徵,以及查詢出根據查詢詞Q3搜尋出的資料物件,商品A1、商品A2、商品A3、商品A4的特徵。根據用戶行為資料訓練滿意度模型,進而得到每個用戶行為資料的滿意度。如表2所示。用戶U1的用戶特徵為男,表示該用戶U1為男性用戶,根據查詢詞Q3搜尋出的資料物件為商品A1、商品A2、商品A3、商品A4,其中,商品A1的資料物件特徵為男性用品;商品A2的資料物件特徵為女性用品;商品A3的資料物件特徵為女性用品; 商品A4的資料物件特徵為男性用品。將用戶的特徵與資料物件的特徵進行組合,得到特徵組合。可以根據日誌檔中記錄的其他資料,如用戶行為資料中的每種用戶行為發生的次數,計算出每個用戶行為資料的滿意度。該步驟可以參照步驟S210-S220所描述的內容。此處為了便於描述個性化模型的訓練過程,直接將每種用戶行為的滿意度列於表2中,即序號為5的用戶行為資料的滿意度為0.5;序號為6的用戶行為資料的滿意度為0.6;序號為7的用戶行為資料的滿意度為2.4;序號為8的用戶行為資料的滿意度為1.5。表2中的滿意度也可以是每個用戶行為資料歸一化後的滿意度。
資料物件的特徵針對用戶特徵的個性化權重(wg),可以是特徵組合相同的用戶行為資料的滿意度的平均值。表2中列出的特徵組合包括:“男+男性用品”和“男+女性用品”。特徵組合為“男+男性用品”的個性化權重為1,是序號為5、8的用戶行為資料的滿意度的平均值 ((0.5+1.5)÷2=1),特徵組合為“男+女性用品”的個性化權重為1.5,是序號為6、7的用戶行為資料的滿意度的平均值((0.6+2.4)÷2=1.5)。
將最終獲得的每個資料物件的特徵針對每個用戶特徵的個性化權重(如表3所示)進行儲存,以在資料搜尋中,排序搜尋出的資料物件時使用。
訓練個性化模型,獲得資料物件的特徵針對用戶特徵的個性化權重,還可以透過邏輯回歸、決策樹等方式來實現。即,利用邏輯回歸演算法、決策樹訓練個性化模型,以獲得個性化權重。個性化權重例如是個性化模型中的參數。個性化模型和滿意度模型所採用的模型或演算法可以相同或不相同。
在步驟S140處,根據特徵或特徵組合的個性化權重,對根據用戶的搜尋請求中的查詢詞所搜尋出的一個或多個資料物件,進行排序,以根據排序展示一個或多個資料物件。
伺服器可以接收到用戶的搜尋請求,包含輸入的查詢 詞,根據該查詢詞,伺服器可以在海量資料物件中搜尋出與該查詢詞相匹配的多個資料物件。根據預先訓練個性化模型得到的特徵組合的個性化權重,可以對該多個資料物件進行個性化排序,以體現出用戶與用戶之間對資料物件不同的需求。
在預先儲存的用戶的特徵,以及資料物件的特徵中,獲得該用戶的特徵和搜尋出的每個資料物件的特徵。具體而言,用戶在發送查詢詞的同時,還可以攜帶用戶資料,該用戶資料可以包括:用戶ID。伺服器根據分析出的該用戶的用戶ID可以在預先儲存的、對應用戶ID的用戶特徵中,查詢出該用戶的用戶特徵。伺服器側可以根據與查詢詞相匹配的一個或多個資料物件的資料物件ID,在預先儲存的、對應資料物件ID的資料物件特徵中,查詢出每個相匹配的資料物件的特徵。
將用戶的用戶特徵和每個相匹配的資料物件的特徵,與預先訓練的資料物件的特徵針對用戶特徵的個性化權重進行匹配,以得到相匹配的資料物件的特徵針對用戶的用戶特徵的個性化權重。具體而言,將查詢出的用戶特徵,與查詢出的每個相匹配的資料物件的特徵進行組合,以得到查詢特徵組合。在已經儲存的資料物件的特徵針對用戶的特徵的個性化權重(儲存項,如表3)中,匹配出與查詢特徵組合具有相同特徵組合形式的儲存項,即儲存項中的資料物件的特徵和用戶特徵,和查詢出的用戶特徵和相匹配的資料物件的特徵相同。將該儲存項的個性化權重作 為相匹配的資料物件的特徵針對用戶特徵的個性化權重。
例如:用戶輸入的查詢詞為Q3,搜尋出商品A1、商品A2、商品A3、商品A4。用戶的用戶特徵為男,商品A1的資料物件的特徵為男性用品,商品A2的資料物件的特徵為女性用品,商品A3的資料物件的特徵為女性用品,商品A4的資料物件的特徵為男性用品。將用戶特徵與資料物件的特徵進行組合,得到“男+男性用品”、“男+女性用品”兩種組合特徵。透過對表2進行計算,可以得到並儲存個性化權重資料,即,“男+男性用品”的個性化權重為1,“男+女性用品”的個性化權重為1.5,如表3所示。所以,將本次數據搜尋得到的用戶特徵(男)與資料物件的特徵(商品A1:男性用品;商品A2:女性用品;商品A3:女性用品;商品A4:男性用品)的組合,得到兩種查詢特徵組合:“男+男性用品”、“男+女性用品”,將這兩種查詢特徵組合,與已儲存的個性化權重資料中的特徵組合進行匹配,可以得到查詢特徵組合“男+男性用品”的個性化權重為1,查詢特徵組合“男+女性用品”的個性化權重為1.5。
透過查詢與用戶的特徵和搜尋出的資料物件的特徵相對應的特徵組合的個性化權重,預測資料物件的個性化分數。基於該每個資料物件的個性化分數,對該一個或多個資料物件進行排序。
根據相匹配的資料物件的特徵針對用戶的用戶特徵的個性化權重,以及用戶的用戶特徵和相匹配的資料物件的 特徵,計算相匹配的資料物件的個性化分數S。資料物件的個性化分數可以用於表示用戶對該資料物件的期望值,即,在搜尋出的多個資料物件中,用戶對該資料物件的偏愛程度。
具體而言,計算每個相匹配的資料物件的個性化分數(S),可以透過公式1.3來實現。
其中,fg(fg1、fg2、……、fgm)用於表示在用戶行為資料中相同的資料物件的特徵與用戶特徵的組合(特徵組合)的數量;wg(wg1、wg2、……、wgm)用於表示資料物件的特徵針對用戶特徵的個性化權重。
該公式(1.3)可以作為個性化模型,個性化權重可以作為個性化模型中的參數。與訓練滿意度模型獲得滿意度權重的過程相似,可以透過訓練個性化模型,獲得該個性化權重。
根據個性化模型預測每個資料物件的個性化分數,以表3為例,根據用戶U1輸入的查詢詞Q3,搜尋出4個資料物件,商品A1、商品A2、商品A3、商品A4。序號5中的“男+男性用品”組合的數量為1,“男+男性用品”組合的個性化權重為1。序號6中“男+女性用品”組合的數量為1,“男+女性用品”組合的個性化權重為1.5。序號7中“男+女性用品”組合的數量為1,“男+女性用品”組合的個性化權重為1.5。序號8中的“男+男性用 品”組合的數量為1,“男+男性用品”組合的個性化權重為1。
那麼,根據公式(1.3)可以分別得到商品A1、商品A2、商品A3、商品A4的個性化分數。
商品A1的個性化分數:
商品A2的個性化分數:
商品A3的個性化分數:
商品A4的個性化分數:
在一個實施例中,對於每個資料物件的個性化分數可以進行平滑處理,該平滑處理,可以表示為將每個資料物件的個性化分數控制在限定的範圍之內。例如,將資料物件的個性化分數限定在0.5至0.8之間,則商品A1、商品A4的個性化分數(0.73)處於限定的範圍之內,符合要求。而商品A2和商品A3的個性化分數0.82處於限定的範圍之外,則可以將該個性化分數0.82平滑為限定範圍的之內,可以將該個性化分數0.82進行變更,變更為接近於該個性化分數0.82並且處於限定範圍內的個性化分數0.8。
基於每個相匹配的資料物件的個性化分數,對多個相匹配的資料物件進行排序。
例如:基於搜尋出的商品A1、商品A2、商品A3、商品A4的個性化分數(0.73、0.82、0.82、0.73),對商品A1、商品A2、商品A3、商品A4進行排序。
由於S5和S8相等都為0.73,S6和S7相等都為 0.82,即商品A1和商品A4的個性化分數相等、商品A2和商品A3的個性化分數相等,則可以在個性化分數相等的資料物件之間採用隨機的方式進行排序。可以得到排序結果商品A2、商品A3、商品A1、商品A4。
根據排序結果為用戶展示搜尋到的多個資料物件。例如:按照個性化分數從高到低的順序,展示搜尋出的多個資料物件。
本申請還提供了一種個性化資料搜尋裝置。如圖3所示,圖3是根據本申請一實施例的個性化資料搜尋裝置300的結構圖。
在該裝置300中,包括:學習模組310,形成模組320,訓練模組330,排序模組340。
學習模組310,可以用於根據對用戶行為資料中記錄的用戶對資料物件的用戶行為進行機器學習,以獲得每個用戶行為資料的滿意度。在每個用戶行為資料中,至少記錄用戶、用戶對資料物件的一種或多種用戶行為、資料物件、以及資料物件對應的查詢詞。
學習模組310還可以根據記錄的一種或多種用戶行為中的每種用戶行為進行學習。
學習模組310還可以包括:訓練處理單元(未示出)和預測處理單元(未示出)。訓練處理單元,可以用於根據每個用戶行為資料記錄的一種或多種用戶行為中的每一種用戶行為,進行滿意度模型訓練,並確定每種用戶行為的滿意度權重。該訓練處理單元的具體實現過程可以參照 步驟S210。預測處理單元,可以用於根據每個用戶行為資料記錄的一種或多種用戶行為中的每種用戶行為的滿意度權重,預測每個用戶行為資料的滿意度。該預測處理單元的具體實現過程可以參照步驟S220。
學習模組310還可以被配置成:根據每個用戶行為資料中記錄的用戶以及查詢詞,對每個用戶行為資料的滿意度進行歸一化。
該學習模組310的具體實現方式可以參照步驟S110。
形成模組320,可以用於選擇每個用戶行為資料中的用戶的特徵、以及資料物件的特徵中的一項特徵或多個項特徵形成的特徵組合。
形成模組320還可以被配置成:根據預先儲存的用戶的特徵、以及資料物件的特徵,獲得每個用戶行為資料中記錄的用戶的特徵,以及記錄的資料物件的特徵。
該形成模組320的具體實現方式可以參照步驟S120。
訓練模組330,用於根據每個特徵或特徵組合下的用戶行為資料的滿意度,進行個性化模型訓練,並獲得每個特徵或特徵組合的個性化權重。
訓練模組330還被配置成:根據每個用戶行為資料的滿意度,以及每個用戶行為資料記錄的資料物件的特徵和用戶的特徵,訓練每個資料物件的特徵針對每個特徵的個性化權重。
該訓練模組330的具體實現過程可以參照步驟S130。
排序模組340,用於根據特徵或特徵組合的個性化權重,對根據用戶的搜尋請求中的查詢詞所搜尋出的一個或多個資料物件,進行排序,以根據排序展示一個或多個資料物件。
排序模組340還被配置成:基於用戶的搜尋請求獲得用戶的特徵,以及根據搜尋出的每個資料物件,獲得資料物件的特徵;透過查詢與用戶的特徵和搜尋出的每個資料物件的特徵相對應的特徵組合的個性化權重,預測每個資料物件的個性化分數;基於每個資料物件的個性化分數,對一個或多個資料物件進行排序。
該排序模組340的具體實現過程可以參照步驟S140。
由於圖3所描述的本申請的裝置所包括的各個模組的具體實施方式與本申請的方法中的步驟的具體實施方式是相對應的,由於已經對圖1-圖2進行了詳細的描述,所以為了不模糊本申請,在此不再對各個模組的具體細節進行描述。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非揮發性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶 體是電腦可讀媒體的示例。
電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電子式可抹除程式化唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁片儲存或其他磁性儲存設備或任何其他非傳輸媒體,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀媒體不包括暫存電腦可讀媒體(transitory media),如調製的資料信號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本申請的實施例可提供為方 法、系統或電腦程式產品。因此,本申請可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本申請可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
以上所述僅為本申請的實施例而已,並不用於限制本申請。對於本領域技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本申請之申請專利範圍的範圍之內。

Claims (12)

  1. 一種個性化資料搜尋方法,其特徵在於,包括:根據對用戶行為資料中記錄的用戶對資料物件的用戶行為進行機器學習,以獲得每個用戶行為資料的滿意度;選擇該每個用戶行為資料中的用戶的特徵、以及該資料物件的特徵中的一項特徵或多項特徵形成的特徵組合;根據每個特徵或特徵組合下的用戶行為資料的滿意度,進行個性化模型訓練,並獲得每個特徵或特徵組合的個性化權重;根據該特徵或特徵組合的個性化權重,對根據用戶的搜尋請求中的查詢詞所搜尋出的一個或多個資料物件,進行排序,以根據該排序展示該一個或多個資料物件。
  2. 根據申請專利範圍第1項所述的方法,其中,在該每個用戶行為資料中,至少記錄用戶、該用戶對資料物件的一種或多種用戶行為、該資料物件、以及該資料物件對應的查詢詞;根據對用戶行為資料中記錄的用戶對資料物件的用戶行為進行機器學習,包括:根據記錄的該一種或多種用戶行為中的每種用戶行為進行學習。
  3. 根據申請專利範圍第1至2項之一所述的方法,其中,根據對用戶行為資料中記錄的用戶對資料物件的用戶行為進行機器學習,以獲得該每個用戶行為資料的滿意度,包括:該學習,包括:訓練處理和預測處理; 該訓練處理,包括:根據每個用戶行為資料記錄的一種或多種用戶行為中的每一種用戶行為,進行滿意度模型訓練,並確定每種用戶行為的滿意度權重;該預測處理,包括:根據每個用戶行為資料記錄的一種或多種用戶行為中的每種用戶行為的滿意度權重,預測每個用戶行為資料的滿意度。
  4. 根據申請專利範圍第2項所述的方法,其中,根據對用戶行為資料中記錄的用戶對資料物件的用戶行為進行機器學習,以獲得該每個用戶行為資料的滿意度,包括:根據每個用戶行為資料中記錄的用戶以及查詢詞,對該每個用戶行為資料的滿意度進行歸一化。
  5. 根據申請專利範圍第2項所述的方法,其中,選擇該每個用戶行為資料中的用戶的特徵、以及該資料物件的特徵中的一項特徵或多項特徵形成的特徵組合,包括:根據預先儲存的用戶的特徵、以及資料物件的特徵,獲得每個用戶行為資料中記錄的用戶的特徵,以及記錄的資料物件的特徵;根據每個特徵或特徵組合下的用戶行為資料的滿意度,進行個性化模型訓練,並獲得每個特徵或特徵組合的個性化權重,包括:根據該每個用戶行為資料的滿意度,以及該每個用戶行為資料記錄的資料物件的特徵和用戶的特徵,訓練該每個資料物件的特徵針對該每個用戶特徵的個性化權重。
  6. 根據申請專利範圍第1項所述的方法,其中,根據該特徵或特徵組合的個性化權重,對根據用戶的搜尋請求中的查詢詞所搜尋出的一個或多個資料物件,進行排序,包括:基於用戶的搜尋請求獲得用戶的特徵,以及根據搜尋出的每個資料物件,獲得資料物件的特徵;透過查詢與該用戶的特徵和搜尋出的每個資料物件的特徵相對應的特徵組合的個性化權重,預測該每個資料物件的個性化分數;基於該每個資料物件的個性化分數,對該一個或多個資料物件進行排序。
  7. 一種個性化資料搜尋裝置,其特徵在於,包括:學習模組,用於根據對用戶行為資料中記錄的用戶對資料物件的用戶行為進行機器學習,以獲得每個用戶行為資料的滿意度;形成模組,用於選擇該每個用戶行為資料中的用戶的特徵、以及該資料物件的特徵中的一項特徵或多項特徵形成的特徵組合;訓練模組,用於根據每個特徵或特徵組合下的用戶行為資料的滿意度,進行個性化模型訓練,並獲得每個特徵或特徵組合的個性化權重;及排序模組,用於根據該特徵或特徵組合的個性化權重,對根據用戶的搜尋請求中的查詢詞所搜尋出的一個或多個資料物件,進行排序,以根據該排序展示該一個或多 個資料物件。
  8. 根據申請專利範圍第7項所述的裝置,其中,在該每個用戶行為資料中,至少記錄用戶、該用戶對資料物件的一種或多種用戶行為、該資料物件、以及該資料物件對應的查詢詞;該學習模組還被配置成:根據記錄的該一種或多種用戶行為中的每種用戶行為進行學習。
  9. 根據申請專利範圍第7至8項之一所述的裝置,其中,該學習模組還包括:訓練處理單元和預測處理單元;該訓練處理單元,用於根據每個用戶行為資料記錄的一種或多種用戶行為中的每一種用戶行為,進行滿意度模型訓練,並確定每種用戶行為的滿意度權重;該預測處理單元,用於根據每個用戶行為資料記錄的一種或多種用戶行為中的每種用戶行為的滿意度權重,預測每個用戶行為資料的滿意度。
  10. 根據申請專利範圍第8項所述的裝置,其中,該學習模組還被配置成:根據每個用戶行為資料中記錄的用戶以及查詢詞,對該每個用戶行為資料的滿意度進行歸一化。
  11. 根據申請專利範圍第8項所述的裝置,其中,該形成模組還被配置成:根據預先儲存的用戶的特徵、以及資料物件的特徵,獲得每個用戶行為資料中記錄的用戶的特徵,以及記錄的資料物件的特徵; 該訓練模組還被配置成:根據該每個用戶行為資料的滿意度,以及該每個用戶行為資料記錄的資料物件的特徵和用戶的特徵,訓練該每個資料物件的特徵針對該每個用戶特徵的個性化權重。
  12. 根據申請專利範圍第7項所述的裝置,其中,該排序模組還被配置成:基於用戶的搜尋請求獲得用戶的特徵,以及根據搜尋出的每個資料物件,獲得資料物件的特徵;透過查詢與該用戶的特徵和搜尋出的每個資料物件的特徵相對應的特徵組合的個性化權重,預測該每個資料物件的個性化分數;基於該每個資料物件的個性化分數,對該一個或多個資料物件進行排序。
TW103110111A 2013-11-29 2014-03-18 個性化資料搜尋方法和裝置 TW201520790A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310628812.6A CN104679771B (zh) 2013-11-29 2013-11-29 一种个性化数据搜索方法和装置

Publications (1)

Publication Number Publication Date
TW201520790A true TW201520790A (zh) 2015-06-01

Family

ID=52146714

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103110111A TW201520790A (zh) 2013-11-29 2014-03-18 個性化資料搜尋方法和裝置

Country Status (4)

Country Link
US (1) US20150154508A1 (zh)
CN (1) CN104679771B (zh)
TW (1) TW201520790A (zh)
WO (1) WO2015081219A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI711934B (zh) * 2018-12-04 2020-12-01 開曼群島商創新先進技術有限公司 嵌入結果的解釋方法和裝置
US10956532B2 (en) 2019-02-20 2021-03-23 Advanced New Technologies Co., Ltd. Method and apparatus for displaying page to user through reinforcement learning

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037236B1 (en) * 2014-01-31 2021-06-15 Intuit Inc. Algorithm and models for creditworthiness based on user entered data within financial management application
CN105095357A (zh) * 2015-06-24 2015-11-25 百度在线网络技术(北京)有限公司 一种用于咨询数据处理的方法和装置
US10331752B2 (en) * 2015-07-21 2019-06-25 Oath Inc. Methods and systems for determining query date ranges
CN106445941A (zh) * 2015-08-05 2017-02-22 北京奇虎科技有限公司 一种网站提供对象的推荐方法和装置
CN105389714B (zh) * 2015-10-23 2022-07-05 北京慧辰资道资讯股份有限公司 一种从行为数据识别用户特性的方法
EP3188040B1 (en) * 2015-12-31 2021-05-05 Dassault Systèmes Retrieval of outcomes of precomputed models
EP3188039A1 (en) * 2015-12-31 2017-07-05 Dassault Systèmes Recommendations based on predictive model
EP3188038B1 (en) 2015-12-31 2020-11-04 Dassault Systèmes Evaluation of a training set
US11537791B1 (en) 2016-04-05 2022-12-27 Intellective Ai, Inc. Unusual score generators for a neuro-linguistic behavorial recognition system
US10657434B2 (en) 2016-04-05 2020-05-19 Intellective Ai, Inc. Anomaly score adjustment across anomaly generators
CN106095983B (zh) * 2016-06-20 2019-11-26 北京百度网讯科技有限公司 一种基于个性化深度神经网络的相似度确定方法及装置
CN106327266B (zh) * 2016-08-30 2021-05-25 北京京东尚科信息技术有限公司 数据挖掘方法及装置
TWI634499B (zh) * 2016-11-25 2018-09-01 財團法人工業技術研究院 資料分析方法、系統及非暫態電腦可讀取媒體
CN107506367B (zh) * 2017-07-03 2021-12-24 创新先进技术有限公司 确定应用展示内容的方法、装置及服务器
CN108932648A (zh) * 2017-07-24 2018-12-04 上海宏原信息科技有限公司 一种预测商品属性数据及训练其模型的方法和装置
CN110472645A (zh) * 2018-05-09 2019-11-19 北京京东尚科信息技术有限公司 一种选择目标对象的方法和装置
CN109189904A (zh) * 2018-08-10 2019-01-11 上海中彦信息科技股份有限公司 个性化搜索方法及***
CN111062736A (zh) * 2018-10-17 2020-04-24 百度在线网络技术(北京)有限公司 模型训练、线索排序方法、装置及设备
CN109299344B (zh) * 2018-10-26 2020-12-29 Oppo广东移动通信有限公司 排序模型的生成方法、搜索结果的排序方法、装置及设备
US11741191B1 (en) 2019-04-24 2023-08-29 Google Llc Privacy-sensitive training of user interaction prediction models
CN112017324A (zh) * 2019-05-31 2020-12-01 上海凌晗电子科技有限公司 一种驾驶信息实时交互***及方法
CN112085553A (zh) * 2019-06-12 2020-12-15 阿里巴巴集团控股有限公司 一种特定商品检测方法及装置
CN112990938A (zh) * 2019-12-17 2021-06-18 阿里巴巴集团控股有限公司 检测对象的方法、装置和***
EP4293662A1 (en) * 2022-06-17 2023-12-20 Samsung Electronics Co., Ltd. Method and system for personalising machine learning models

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106663A1 (en) * 2005-02-01 2007-05-10 Outland Research, Llc Methods and apparatus for using user personality type to improve the organization of documents retrieved in response to a search query
CA2624865C (en) * 2005-10-04 2016-09-20 Thomson Global Resources Systems, methods, and software for identifying relevant legal documents
US20070208730A1 (en) * 2006-03-02 2007-09-06 Microsoft Corporation Mining web search user behavior to enhance web search relevance
EP2438542A2 (en) * 2009-06-05 2012-04-11 West Services, Inc. Feature engineering and user behavior analysis
CN101996215B (zh) * 2009-08-27 2013-07-24 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和***
CN101894351A (zh) * 2010-08-09 2010-11-24 北京邮电大学 基于多智能Agent的旅游多媒体信息个性化服务***
US8924314B2 (en) * 2010-09-28 2014-12-30 Ebay Inc. Search result ranking using machine learning
US20120143789A1 (en) * 2010-12-01 2012-06-07 Microsoft Corporation Click model that accounts for a user's intent when placing a quiery in a search engine
CN102779193B (zh) * 2012-07-16 2015-05-13 哈尔滨工业大学 自适应个性化信息检索***及方法
CN103020289B (zh) * 2012-12-25 2015-08-05 浙江鸿程计算机***有限公司 一种基于日志挖掘的搜索引擎用户个性化需求提供方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI711934B (zh) * 2018-12-04 2020-12-01 開曼群島商創新先進技術有限公司 嵌入結果的解釋方法和裝置
US10956532B2 (en) 2019-02-20 2021-03-23 Advanced New Technologies Co., Ltd. Method and apparatus for displaying page to user through reinforcement learning

Also Published As

Publication number Publication date
CN104679771B (zh) 2018-09-18
CN104679771A (zh) 2015-06-03
WO2015081219A1 (en) 2015-06-04
US20150154508A1 (en) 2015-06-04

Similar Documents

Publication Publication Date Title
TW201520790A (zh) 個性化資料搜尋方法和裝置
TWI615724B (zh) 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置
CN104866474B (zh) 个性化数据搜索方法及装置
CN107833117B (zh) 一种考虑标签信息的贝叶斯个性化排序推荐方法
WO2018014759A1 (zh) 一种聚类数据表的展现方法、装置和***
US20130297382A1 (en) Network transaction platform and processing method thereof
CN111737418B (zh) 搜索词和商品的相关性预测方法、设备和存储介质
US11682060B2 (en) Methods and apparatuses for providing search results using embedding-based retrieval
CN107633416B (zh) 一种业务对象的推荐方法、装置和***
CN111429203A (zh) 基于用户行为数据的商品推荐方法和装置
KR20220121003A (ko) 상품 추천 서비스 제공 프로그램
CN114861079A (zh) 一种融合商品特征的协同过滤推荐方法和***
CN111639989B (zh) 商品推荐方法和可读存储介质
KR20220120986A (ko) 팬 커뮤니티를 연계한 굿즈 추천 템플릿 제공 프로그램을 기록한 기록매체
KR20220120998A (ko) Ai 학습을 통한 팬덤 선호도에 따른 굿즈 노출 순위가 결정된 굿즈 추천 제공 장치의 동작 방법
KR20220121013A (ko) Ai 학습을 통한 팬덤 선호도에 따른 굿즈 노출 순위가 결정된 굿즈 추천 서비스 제공 프로그램
KR101549188B1 (ko) 브랜드 이미지 측정장치 및 측정방법
JP6679705B1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN117035947B (zh) 基于大数据处理的农产品数据分析方法及云平台
KR20220120988A (ko) 팬덤 정보를 기반으로 맞춤형 상품을 추천하는 서비스 제공 장치의 동작 방법
KR20220120990A (ko) 팬덤 상품 추천 서비스 제공 장치
KR20220120985A (ko) 인공지능 기반 팬덤 정보 수집 및 굿즈 추천 서비스 제공 프로그램
KR20220120983A (ko) Ai를 기반으로 굿즈를 추천하는 프로그램 기록매체
KR20220120981A (ko) 굿즈 상품을 타깃으로 하는 분석기반 템플릿 추천 서비스 제공 장치 및 그 동작 방법
KR20220120984A (ko) 굿즈 분석 및 추천 시스템