TW201523302A - 資料搜尋處理方法及系統 - Google Patents

資料搜尋處理方法及系統 Download PDF

Info

Publication number
TW201523302A
TW201523302A TW103110116A TW103110116A TW201523302A TW 201523302 A TW201523302 A TW 201523302A TW 103110116 A TW103110116 A TW 103110116A TW 103110116 A TW103110116 A TW 103110116A TW 201523302 A TW201523302 A TW 201523302A
Authority
TW
Taiwan
Prior art keywords
search
attribute
query word
data object
data
Prior art date
Application number
TW103110116A
Other languages
English (en)
Inventor
Yong Wang
Xi Chen
Jian-Guo Lin
hai-hong Tang
an-xiang Zeng
Xiao-Yi Zeng
Chun-Xiang Pan
Yi Wang
Po Wang
Yang Gu
ying-hui Xu
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201523302A publication Critical patent/TW201523302A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明係關於一種資料搜尋處理方法及系統。該方法包括接收當前用戶發出的搜尋請求以獲取所述搜尋請求中包含的查詢詞;通過統計所述查詢詞對應的搜尋結果中的資料物件上發生的歷史操作資訊,選取資料物件的一項屬性作為指定屬性產生所述查詢詞對應的歷史操作資訊涉及的資料物件在所述指定屬性上的屬性值的概率分佈模型;由此可以利用所述概率分佈模型,計算當前用戶發出的搜尋請求對應的搜尋結果中的每一資料物件在指定屬性上的屬性值對應的概率以調整搜尋結果中的資料物件的輸出排序。從而改善資料搜尋的展示處理,提高搜尋到的資料物件排序展示的合理性以提供更準確的搜尋結果,進而降低用戶網路搜尋訪問的風險、提升搜尋平台的安全性、可信度。

Description

資料搜尋處理方法及系統
本發明係關於資料搜尋領域,更具體地關於一種資料搜尋處理方法及系統。
隨著網際網路基礎設施不斷完善和電腦網路技術的不斷普及,線上網路搜尋各類特定的資料資訊逐漸成為普通網民最常用的一種方式。當資料量非常龐大時,用戶可以在搜尋引擎的用戶介面上點擊選擇類目、或輸入搜尋查詢詞等,由搜尋引擎迅速找到自己想要的資料物件。
在搜尋引擎的用戶介面上,用戶輸入關鍵字或者選擇類目,搜尋引擎會返回搜尋到的包含一個或多個資料物件(搜尋結果)的展示列表。通常,每個資料物件的展示資訊中可以包括資料物件的一個或多個屬性及其屬性值以及其他參數等資訊。當搜尋引擎搜尋到資料物件後,可以依據資料物件的各個屬性及屬性值,對資料物件進行排序和展示。例如:資料物件可以包括身份標識ID、圖片、描述、標號等屬性,以及及對應的內容,即屬性值,如:ID的具體編號、具體的圖片內容、描述的具體內容和字數、 標號大小等。由此,搜尋引擎可以根據圖片多少、描述字數多少或者標號大小等對資料物件進行排序,並展示資料物件的圖片、描述、標號。通常,在展示出來的資料物件一個或多個屬性的屬性值中,往往有一個或幾個屬性對用戶的下一步的操作處理影響較大。比如,在期末考試成績搜尋引擎中,用戶會對搜尋到的某個學生的總成績這一屬性更關注。又比如,在商品搜尋引擎中,用戶往往會對搜尋得到某個商品物件的價格給予較多的關注。當用戶通過商品搜尋引擎搜尋得到商品物件的價格高低(屬性值)超出了真實的價格範圍時,用戶很可能會對搜尋結果產生質疑,從而放棄對搜尋結果的操作。尤其當一個網路搜尋平台中出現大量這樣的搜尋結果或者經常出現這樣的搜尋結果,可能引發用戶對當前搜尋平台的安全性、可信度等產生質疑等。尤其對於資料物件不是來自單一的、經過可信度和安全性驗證的提供方提供給搜尋平台的情形,則很可能給用戶造成資料物件的不真實、非法、甚至網路資料的安全隱患(如提供虛假的屬性值,引誘用戶選擇該資料物件而導致惡意程式的攻擊)等問題。
另外,現有技術中,為解決資料物件的某些屬性值的失真,有的網路搜尋平台通過人工對屬性值進行挖掘整理再展示給用戶,但很難確定這種整理的合理性;有的網路搜尋平台通過人工審核再展示給用戶,但對於海量的資料,這種方式難度高且效率低。
針對上述現有技術的缺陷,本發明提供改進後的一種資料搜尋處理方法及系統,以解決改善資料搜尋的展示處理,提高搜尋到的資料物件排序展示的合理性以提供更準確的搜尋結果,進而可以降低用戶網路搜尋訪問的風險的問題,以及進一步解決提升搜尋平台的安全性、可信度的問題。
根據本發明的一個方面,提供一種資料搜尋處理方法,包括:接收當前用戶發出的搜尋請求以獲取所述搜尋請求中包含的查詢詞;統計所述查詢詞對應的搜尋結果中的資料物件上發生的歷史操作資訊;選取所述資料物件的一項屬性作為指定屬性,產生所述查詢詞對應的歷史操作資訊涉及的資料物件在所述指定屬性上的屬性值的概率分佈模型;利用所述概率分佈模型,計算當前用戶發出的搜尋請求對應的搜尋結果中的每一資料物件在指定屬性上的屬性值對應的概率;使用所述概率調整搜尋結果中的資料物件的輸出排序。
根據本發明的另一個方面,提供一種資料搜尋處理系統,包括:搜尋前端、日誌收集器、資料分析平台、資料儲存系統、搜尋引擎;其中,搜尋前端接收當前用戶發出的搜尋請求以獲取所述搜尋請求中包含的查詢詞,並轉發當前用戶發出的搜尋請求給查詢分析器;日誌收集器,收集用戶在查詢詞對應的搜尋結果中的資料物件上的歷史操作資訊;資料分析平台,以資料物件的一項屬性作為指定 屬性,利用儲存的每一查詢詞對應的搜尋結果中的資料物件上的歷史操作資訊,產生與該查詢詞對應的歷史操作資訊涉及的資料物件在該指定屬性上的屬性值的概率分佈模型;搜尋引擎,根據該當前用戶發出的搜尋請求執行對應獲取的查詢詞的搜尋,並利用該概率分佈模型,計算該查詢詞的搜尋結果中的每一資料物件在指定屬性上的屬性值對應的概率,並使用所述概率調整搜尋結果中的資料物件的輸出排序。
根據本發明的又一個方面,提供一種資料搜尋處理方法,包括:收集用戶在各查詢詞對應的搜尋結果中的資料物件上的歷史操作資訊;以資料物件的一項屬性作為指定屬性,分別利用每一查詢詞對應的搜尋結果中的資料物件上的歷史操作資訊建立所述資料物件在指定屬性上的屬性值的概率分佈模型,並記錄該查詞與概率分佈模型對應關係;接收當前用戶發出的搜尋請求,獲取所述搜尋請求中包含的查詢詞;根據記錄的查詢詞與概率分佈模型的對應關係,確定所述搜尋請求中的查詢詞對應的概率分佈模型;使用所確定的概率分佈模型計算所述搜尋請求對應的搜尋結果中的每一資料物件在指定屬性上的屬性值對應的概率;使用至少所述概率調整所述搜尋請求對應的搜尋結果中的資料物件的排序。
本發明的方法及系統,對於能夠搜尋來自各種內容提供方的、非全部經過資料驗證的網路搜尋平台來說,可以有效降低用戶訪問到非法資料物件、受到惡意資料攻擊的 風險,還能保障搜尋平台的安全性、可信度,進而獲取用戶對平台的信任感。通過分析海量用戶的實際搜尋行為,對每個搜尋詞下大部分合理的屬性值進行數學建模,並在資料物件排序展示的環節把屬性值的合理性作為參考,使得不合理(非法、惡意)的資料物件展示排前的機會大大減少。進一步地,使用戶通過網路搜尋平台提交搜尋請求時,能自動獲取當前搜尋意圖下的合理屬性值作為參考,即搜尋結果的展示考慮了資料物件的屬性值的合理性,從而打壓不合理的資料物件避免其被提供給用戶,改善用戶的搜尋體驗,促進搜尋平台的良性發展。
此處所說明的圖式用來提供對本發明的進一步理解,構成本發明的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在圖式中:圖1為依據本發明的資料搜尋處理方法的一實施例的流程圖;圖2為依據本發明的方法中關於產生模型參數以及獲得對應查詢詞的模型參數的一實施例的流程圖;圖3為依據本發明的資料搜尋處理系統的一實施例的結構圖;以及圖4為依據本發明的方法中關於搜尋引擎計算排序分的一個實施例示意圖; 圖5為依據本發明的資料搜尋處理裝置的一實施例的示意圖。
本發明的主要思想在於,通過分析在海量用戶提交的海量的搜尋請求中,每個提交的搜尋請求所涉及的搜尋詞下的大部分/大多數用戶,對依據該搜尋詞獲得的搜尋結果進行的實際操作行為,構建與查詢詞相對應的參考用的概率分佈模型參數(概率分佈模型中包括概率分佈函數及模型參數等);將參考用的模型參數應用到當前用戶的資料物件的搜尋請求的搜尋結果展示處理中,由於該模型參數對合理性做了考慮,使得搜尋結果展示處理時,儘量將搜尋到的更準確有效(符合搜尋詞目標)、更合理、少風險的一個或多個資料物件的結果,展示在前面、而排擠不合理有風險的資料物件的結果在前面的展示,以便改善展示處理,提高展示合理性,降低用戶操作風險,提升搜尋平台的搜尋準確性、安全性和可信度,改善用戶搜尋體驗,促進搜尋平台良性發展。
為使本發明的目的、技術方案和優點更加清楚,下面將結合本發明具體實施例及相應的圖式對本發明技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
隨著網際網路基礎設施不斷完善和電腦網路技術的不斷普及,以線上網路購物的搜尋技術為例,由於商品量非常龐大,用戶需要通過用戶介面(用戶的搜尋介面)、借助商品搜尋引擎迅速找到自己想要的商品。在這樣的介面上,用戶輸入關鍵字或者是選擇類目,商品搜尋引擎即會返回一個商品展示列表。通常商品展示列表展示的商品資訊包括商品圖片,商品描述,商品價格等條目。某些商品資訊(條目)對用戶的影響尤其重要,比如商品價格。一個遠高於用戶期望的商品價格可能使用戶跳過該商品,並不再瀏覽該商品的詳情頁面,從而錯過用戶下單購買的機會。同樣,一個遠低於正常市場價的商品價格可能讓用戶對商品的真實性產生疑問。如果一個商品搜尋平台出現大量的類似現象,可能引發用戶對當前使用平台所售商品或安全性的質疑。尤其是獨立於搜尋平台外的第三方賣家,有可能故意設置不合理的商品價格,比如故意設置一個高價,以影響該商品在按價格排序時的排序;或者是賣家所售商品品質有問題(如仿貨),其遠低於市場價銷售,其安全性不能保證、其品質不可靠,但也可能由於價低而排序靠前。還有一些特定的商品的搜尋,比如某個具體款式的數碼相機的市場價比較確定。但更多查詢詞對應的商品,如“手機”,“連衣裙”等查詢詞對應的商品,並沒有一個固定的價格區間。對於這樣的查詢詞,難以指定一個合理的價格區間來在搜尋結果中排除具有不合理的價格設置的商品。因此,搜尋平台若要保證平台安全可靠以降低用 戶購買到惡意商品的風險,獲取用戶對平台的信任,提高搜尋效率(如自動挖掘每個查詢下的合理價格範圍)和展示處理效率(如利用這個價格範圍來改善商品展示的順序/排序),則需要改善商品搜尋結果的展示處理。下面將以商品搜尋為例說明本發明具體實現方式。
在本發明的實例中,用戶使用的網路搜尋平台提供商品搜尋的用戶介面並進行商品搜尋。用戶請求搜尋的資料物件可以是商品。用戶可以是通過電商網站搜尋商品的買家。用戶的搜尋請求可以是用戶在商品搜尋的用戶介面上通過輸入關鍵字或選擇類目來進行。資料物件的屬性可以是諸如商品圖片、商品描述以及商品價格等商品資訊。展示處理,可以是對搜尋到的資料物件依據其屬性進行排序的處理,比如,將商品按照商品價格進行排序處理後以列表等方式展示。用戶實際操作行為,可以是用戶對搜尋結果列表中的商品的選擇(如:點擊)操作。資料物件的提供者,可以是各個提供商品資訊的賣家。
下面先對可能用到的技術術語做簡要說明。
[名詞解釋]
Key-value系統,一種儲存系統,儲存的內容按照鍵(key)和值(value)存放,給定一個鍵,能迅速讀取對應的值。
Map-reduce:一種簡化並行運算的編程模型,是Google提供的通用的平行計算框架,方便在大規模集群 上(比如上千台伺服器)對海量資料(比如1T資料)做處理。
雙高斯概率模型:混合高斯模型的一個特例,混合高斯模型假設資料的分佈可能來自多個高斯分佈,每個高斯分佈的參數可以不同,並且每個高斯分佈可以有不同的先驗概率。
EM演算法:Expectation-maximization演算法的簡稱,針對一個統計模型,EM演算法可以通過迭代(疊代)計算找到最大化似然度的優化參數。
圖1示出了依據本發明的資料搜尋處理方法的一實施例的流程圖。圖3示出了實施圖1的方法的一種資料搜尋處理系統300的一個示例圖。圖1、圖3的實施方式,僅僅是採用本發明的方法,用戶通過搜尋平台在海量資料物件中進行搜尋的一種方式的例子,本發明的方法並不限於該實施例。
其中,資料搜尋處理系統300包括:搜尋前端310及搜尋後端320。搜尋前端310包括用戶介面3100。搜尋後端320包括查詢分析器3201、日誌收集器3204、搜尋引擎3203、資料儲存系統3202、分散式資料分析平台3205。
用戶介面3100實現與用戶之間交互,接收用戶發出的搜尋請求,並向用戶輸出搜尋結果。其中,搜尋前端可以將接收到的搜尋請求,傳送給搜尋後端320中的搜尋引擎3203。
搜尋前端310的用戶介面3100採集(獲取)用戶對搜 尋結果所進行的操作產生的資料,並將這些資料發送到搜尋後端320的日誌收集器3204。搜尋前端310的用戶介面3100還可以將用戶發出的搜尋請求傳送給搜尋後端320中的查詢分析器3201,以便對搜尋請求進行分析。
搜尋引擎3203根據用戶的搜尋請求,執行搜尋,並可以向搜尋前端310輸出搜尋結果。日誌收集器3204收集搜尋前端310獲取的用戶對搜尋結果的運算元據,並提供給分散式資料分析平台3205。
分散式資料分析平台3205對用戶的歷史操作資訊,包括對歷史操作資訊中的資料物件的指定屬性的屬性值、查詢詞Q等進行分析處理,並產生對應查詢詞Q的搜尋物件在指定屬性上的概率分佈模型,模型可以包括模型參數等。模型參數比如:均值參數、方差參數和先驗概率等參數,並且,將模型儲存到資料儲存系統3202。如果不考慮資料儲存系統3202的容量問題,該概率分佈模型還可以包括對模型參數做概率計算的概率分佈函數等。
查詢分析器3201訪問資料儲存系統3202,並根據資料儲存系統3202儲存的模型參數對當前搜尋請求進行分析,將分析後得到的資訊返回搜尋前端310。分析後的資訊與搜尋請求都可由搜尋前端310提供給搜尋引擎3203。
搜尋引擎3203根據當前搜尋請求獲取索結果,並根據分析後的資訊對搜尋結果調整後提供給搜尋前端310。搜尋前端310向用戶輸出調整後的搜尋結果。
系統300各個部分的具體處理方式將在下面方法的實施例的每個步驟中逐步描述。
在步驟S110,接收當前用戶發出的搜尋請求,獲取所述搜尋請求中包含的查詢詞。
該搜尋請求中,包含查詢詞Q。該搜尋請求是請求依據該查詢詞,搜尋當前用戶需要的對應該查詢詞的一個或多個資料物件。
具體地,當前用戶發出的搜尋請求經網路搜尋平台的搜尋前端310接收。比如:用戶可以通過在用戶的搜尋介面的輸入框中輸入關鍵字、或者選擇(如:點擊)搜尋介面上推薦的搜尋詞或類目,以請求搜尋資料物件。該搜尋請求由搜尋前端310傳送到網路搜尋平台的搜尋後端320。搜尋請求中可以包含查詢詞Q,即前述輸入的關鍵字或點擊的類目等資訊,隨搜尋請求傳遞到搜尋後端320。
以網購商品為例:網購用戶即買家,在商品搜尋用戶介面中,輸入商品名稱、或者選擇已經列出的商品類目等,即由介面接收當前用戶發出的商品搜尋請求。該商品搜尋請求中包含搜尋商品用的查詢詞Q(如輸入的商品名稱、點擊的商品類目等)。買家通過該商品搜尋請求中的查詢詞Q,希望請求搜尋到買家想要購買的一個或多個符合該查詢詞的商品即獲得資料物件。
在步驟S120,根據獲取的查詢詞,統計所述查詢詞對應的搜尋結果中的資料物件上發生的歷史操作資訊,選取所述資料物件的一項屬性作為指定屬性,產生所述查詢 詞對應的歷史操作資訊涉及的資料物件在所述指定屬性上的屬性值的概率分佈模型。
由此,可以從對應一個或多個查詢詞的一個或多個概率分佈模型中,獲取該查詢詞對應的概率分佈模型(模型參數)。
具體地,根據接收的當前用戶發出的搜尋請求,獲取所述搜尋請求中包含的查詢詞。比如,從搜尋前端310將當前的搜尋請求轉送到查詢分析器3201,將查詢詞提取出來。再根據該查詢詞,獲得對應該查詢詞的資料物件在指定屬性上的屬性值的概率分佈模型或概率分佈模型參數。
一種方式,可以統計分析該查詢詞對應的搜尋結果中的資料物件上發生的歷史操作資訊,選取所述資料物件的一項屬性作為指定屬性,產生所述查詢詞對應的歷史操作資訊涉及的資料物件在所述指定屬性上的屬性值的概率分佈模型。由此,根據查詢詞獲得了對應的概率分佈模型/模型參數,並可以以鍵-值對方式儲存(如:key-value儲存關係),或更新以往的鍵-值對(查詢詞和模型),進而還可以直接使用該模型/模型參數。
另一種方式,以往該查詢詞搜尋獲得資料物件,則統計當時在資料物件上發生的操作資訊,選取所述資料物件的一項屬性作為指定屬性,產生所述查詢詞對應的操作資訊涉及的資料物件在所述指定屬性上的屬性值的概率分佈模型,並儲存。以備本次來到的該查詢詞,可以直接從儲存的諸多 對應各個查詢詞的各個模型中,找到當前搜尋請求中的該查詢詞所對應的模型(或該模型參數)。當該查詢詞本次搜尋的資料物件上發生了操作資訊則更新對應的概率分佈模型。進而,還可以按照查詢詞與概率分佈模型以“鍵-值”對的對應關係記錄,如:key-value儲存關係。由當前查詢詞能確定當前搜尋請求中的查詢詞對應的概率分佈模型,比如,查詢分析器3201以查詢詞為key找到與key對應儲存在線上Key-value系統的value即模型(參數)。
例如:搜尋前端310在獲取用戶的搜尋請求後,可以先將該搜尋請求轉發到查詢分析器3201。查詢分析器3201對用戶的搜尋請求進行分析。該分析包括:根據該搜尋請求的查詢詞(Q),從資料儲存系統3202儲存的一個或多個模型中,獲取對應當前搜尋請求中的該查詢詞(Q)對應的模型。所述模型可以包括模型參數,並可以以參數集合表示。
另外,查詢分析器3201對用戶的搜尋請求進行的分析還可以包括:自動糾錯、同義詞改寫及類目預測等。
自動糾錯包括將搜尋請求中拼寫錯誤的查詢詞糾正為正確的查詢詞,比如將“諾基牙”糾錯改正為“諾基亞”。
同義詞改寫包括將搜尋請求的查詢詞使用另一同義詞替代,如“nokia”改寫成“諾基亞”中文。
類目預測包括預測查詢詞對應的資料物件所屬的類目。比如用戶輸入“蘋果”,有可能是水果裏的蘋果,也可 能是蘋果手機,兩者分別屬於“水果”和“手機”類目。通過類目預測處理可以得到查詢詞“蘋果”對應的資料物件屬於這兩個類目的概率分別為0.5、0.5。
其中,資料儲存系統3202可以採用Key-value系統3202,產生的各個模型儲存在資料儲存系統3202中。其中,使用用戶在當前的搜尋請求中的查詢詞所對應的搜尋結果中的資料物件上的歷史操作資訊,產生或建立對應該查詢詞的概率分佈模型。具體的,可以根據歷史操作資訊中的資料物件在指定屬性上的屬性值的統計分析,獲得所述的模型或者說最佳的模型參數。
以網購商品為例,買家可以通過輸入商品名稱、或者選擇已經列出的商品類目等資訊發起搜尋請求。這裏,搜尋請求包含賣家輸入的商品名稱或者選擇的商品類目等資訊。所述搜尋請求被轉發到搜尋系統320的查詢分析器3201。查詢分析器3201進行針對搜尋請求的分析處理。該分析主要是為了獲取當前搜尋請求涉及的商品對應的價格模型(即得到對應該商品的價格模型參數)。
下面將參考圖2中示出的,依據本發明的方法產生模型參數並獲得對應當前查詢詞的模型的一實施例的流程圖。以利用資料儲存系統Key-value系統3202儲存為例,模型(或模型參數/模型參數集合)產生後,將與查詢詞Q以“鍵-值”形式在key-value系統中儲存。此處僅為一例子,本發明的模型參數獲得方式不應被限於該例子。
根據歷史日誌,可以統計用戶在各查詢詞所對應的搜 尋結果中的資料物件上的歷史操作資訊。對於某一查詢詞,其對應的搜尋結果中的每個資料物件都包括一項或多項屬性,可以選取一項屬性作為指定屬性。利用用戶對資料物件的歷史操作資訊產生並儲存該查詢詞對應的搜尋結果中的資料物件在指定屬性上的屬性值的概率分佈模型(即概率模型或屬性模型)。所述概率分佈模型包括預先選定的概率分佈函數(比如高斯概率分佈)及模型參數。該模型可以由其參數集合表示,如:包括方差m、均值σ、先驗概率等的參數集合。
步驟S210中,收集用戶在各查詢詞對應的搜尋結果中的資料物件上的歷史操作資訊。
用戶可以通過搜尋請求中包含的查詢詞(Q),請求獲取與該查詢詞關聯的一個或多個資料物件。如果搜尋到一個或多個資料物件,則將搜尋到的資料物件作為搜尋結果輸出給發出搜尋請求的用戶。該用戶可以對這些結果進行操作,操作包括選擇某一資料物件等。獲取這些操作所產生的操作資訊,記錄在日誌中,隨著日誌的收集、儲存,逐步將用戶在該查詢詞對應的資料物件上的操作資訊收集起來作為歷史操作資訊。其中,搜尋到的資料物件包括有一項或多項屬性,不同資料物件在某一屬性中可能具有不同的屬性值。比如,商品在價格屬性上可能具有不同的價格數值(屬性值)。
具體地,搜尋引擎3203,可以根據用戶的搜尋請求中的查詢詞Q,執行用戶需要的一個或多個資料物件的搜 尋處理。並將搜尋到的對應該查詢詞的一個或多個資料物件作為搜尋結果通過用戶介面3100展示輸出給該用戶,比如,以列表形式進行展示,展示的每個資料物件包括一個或多個屬性以及對應的屬性值。如果該用戶對某些資料物件感興趣,比如希望對該資料物件進行更細節的瞭解,可以對這些結果執行操作,比如點擊某資料物件以便瀏覽其更多的資訊,則產生該查詢詞對應的資料物件上的用戶的操作資訊。操作資訊至少包括:該資料物件對應的查詢詞Q、該資料物件在指定屬性上的屬性值。操作資訊還可以包括用戶ID、操作發生時間等。而用戶的操作資訊,可以被用戶介面3100採集/獲取,記錄在日誌中,併發送給搜尋後端320的日誌收集器3204。日誌收集器3204收集這些操作資訊,這些操作資訊在後續處理中則作為歷史操作資訊。其中,日誌及其記錄的操作資訊等,可以儲存到分散式計算平台3205上。
以網購商品為例:搜尋引擎3203根據商品搜尋請求中的商品名稱等,對賣家提供的各種商品進行搜尋,以獲取在商品名稱中含有該查詢詞的一個或多個商品。搜尋引擎3203將依據商品名稱等,搜尋出的各個賣家提供的對應的商品,回饋給請求搜尋的買家。在這樣的實施例中,資料物件為商品資訊。所述資料物件包括商品的ID、商品圖片、商品的描述及商品價格等屬性值。搜尋到的商品按照商品價格或銷量排序,以列表形式展示給買家(比如載入到買家的瀏覽器端呈現,如圖4所示)。用戶如果對 展示的所有商品中的某個商品感興趣,點擊該商品瞭解詳情,由此,產生的點擊資料,如:該商品所對應的查詢詞Q、商品價格(標號大小)、點擊發生時間、該用戶ID、商品ID等屬性及其屬性值,作為點擊資訊被用戶介面3100採集,記錄於日誌中,日誌收集器3204收集傳送來的日誌(點擊資訊)並儲存。
步驟220中,選取資料物件的一項屬性作為指定屬性,利用每一查詢詞對應的搜尋結果中的資料物件上的歷史操作資訊,產生與每一查詢詞對應的搜尋結果中的資料物件在該指定屬性上的屬性值概率分佈模型,並獲得對應每一查詢詞的模型參數,並記錄查詢詞及模型的對應關係。
首先,可以對步驟S210收集的用戶的操作資訊進行分析處理,根據所述操作資訊建立模型。對用戶的操作資訊的分析處理可以是週期性的,即週期性分析處理:預先設定週期(預定週期),如週期為一個月,對該用戶在該預定週期內累積儲存的日誌進行分析處理。進一步,該分析處理可以由分散式計算平台3205完成。
其中,分析處理包括對操作信息進行預處理。可以通過平行計算,如map-reduce,對日誌中涉及的操作資訊等這類與操作有關的資料(海量資料)進行分析,確定操作資訊中的查詢詞Q,以及操作資訊中涉及的資料物件在指定屬性上的屬性值。並且,將每個查詢詞Q與用戶在該查詢詞下的操作資訊涉及的資料物件在指定屬性上的屬性值進 行彙聚,形成預定格式記錄。預定格式可以為:查詢詞Q:屬性值1、屬性值2......。比如,由查詢詞Q搜尋到N個資料物件,用戶對所述N個資料物件中的M個資料物件產生了點擊操作。其中,M個資料物件中,資料物件M1的指定屬性的屬性值為O1,資料物件M2的指定屬性的屬性值為O2,...資料物件Mm的指定屬性的屬性值為Om。N、M為大於等於0的整數,M小於等於N;Om表示屬性值,m,n為自然數。通過map-reduce平行計算,可以確定操作資訊中這些資料物件的指定屬性的屬性值O1,O2,...Om和查詢詞Q,進而,把查詢詞Q對應的屬性值彙聚起來,以形成前述的預定格式的記錄“Q:O1,O2,...Om”格式的記錄(簡稱Q-O格式)。這樣,可以將每個查詢詞Q對應的操作資訊中的資料物件的指定屬性的屬性值進行彙聚。如形成屬性值集合如{O1,O2,...Om},並優化屬性值集合等。
然後,可以根據操作資訊預處理後得到的預定格式的記錄,比如資料物件的指定屬性的屬性值及查詢詞的Q-O格式記錄,產生用戶在每個查詢詞下的操作資訊關聯的資料物件在指定屬性上的屬性值的概率分佈模型,即獲得對應每個查詢詞的最佳模型參數。可以通過模型擬合算法根據預定格式的記錄,產生或建立該模型。產生的模型將以鍵值對的形式(key-value形式)儲存到資料儲存系統中。進一步,該模型產生或建立的處理可以由分散式計算平台3205完成。
比如,可以對Q-O中的每個查詢詞Q對應的資料物件的指定屬性的屬性值O的對數空間,做雙高斯概率模型擬合,得到查詢詞Q相應的概率分佈模型,也即可以在該雙高斯概率模型擬合的過程中,利用EM演算法針對模型進行迭代計算找到最大化似然度的模型參數。再以該查詢詞Q為關鍵字key,根據該查詢詞Q對應的歷史操作資訊擬合得到的模型參數為值value,將所有查詢詞Q各自對應的模型參數,按照鍵值對“key-value”的形式儲存到線上Key-value系統裏3202。由此,查詢分析器3201就可以從Key-value系統3202中獲取對應一查詢詞的模型參數使用。
以網購商品為例:分散式計算平台對過去一個月累積的用戶點擊的商品的價格做分析處理,選取雙高斯概率模型對所述商品的價格進行擬合,得到價格模型,即獲得對應查詢詞的價格模型參數。具體地,分散式平台從累積一個月的日誌中,找出商品點擊價格(即,找出操作/點擊資料物件的“標號”屬性對應的資料),進行分析處理獲得Q-O格式的記錄,再產生價格模型獲得模型參數。下面將以雙高斯概率擬合算法為例,說明進行分析處理以及獲取最佳價格模型參數的處理流程。此處的實現流程僅為舉例,本發明不限於此例的處理流程。
第一,對累積的日誌中的資料做預處理如:(1)~(3)。
(1)可以在map-reduce平行計算框架下,聚合同一查 詢詞Q的日誌。先把每個查詢詞Q所對應的點擊價格,彙聚在一起,形成以下格式記錄,即用戶使用查詢詞Q搜尋到N個商品,有M個商品被點擊,商品的價格屬性中,具體這M個被點擊的商品的價格與查詢詞對應記錄如下:查詢詞Q:價格1,價格2,價格3,......(即“Q-O”格式的記錄),比如:“連衣裙”:100,120,111,150,180,230(2)獲得某查詢詞Q的商品點擊價格集合,確定對查詢詞Q進行價格模型計算。
根據過去一個月日誌的內容可知,由該Q-O格式的記錄,可以彙聚出某查詢詞Q下所有用戶點擊過的商品價格集合為S={p1,p2,p3,...pN},p代表價格,N為自然數。用|S|表示集合S的大小,這個例子中,|S|=N。當N小於一定閾值時,即小於一個預先設置的閾值時,可以設計為不對查詢詞Q計算價格模型,即數量少,不必專門計算其價格模型。例如,在實際應用中,該閾值可以取100,則如果N小於100,不對查詢詞Q計算價格模型,若N大於100,則對該查詢詞Q計算價格模型。
(3)進行價格過濾值計算,並由過濾值過濾最低價格和最高價格部分,得到新的點擊價格集合:
為進行過濾後的新的點擊價格集合,pi表示新的集合中,由集合S中過濾掉了5%的最高價格和5%的最低價格這類噪音資料後,剩餘的點擊價格元素,i為小於等於N的自然數。過濾方式得到,以降低數據噪音。其中:
(3-1)計算低價過濾閾值Pl,用來過濾一定範圍的最低價,比如5%的最低價,可以按照實際情形的經驗而預先設定。參見計算公式①。
依據經驗預先設定過濾掉的百分比,由於高斯分佈的重心在中間區域,可以剔除分佈邊緣的不合理的資料,這樣,模型能更好的捕捉到大部分用戶點擊的合理價格資料。
其中,該公式表示,找到一個最大的數值x,使得在原始集合S裏,大於等於這個值x的樣本pi的個數占總個數的比例不低於95%。Pl為低價過濾閾值,pi為原始集合S中的某個價格樣本,x為一臨時參量。該公式對應的是原始樣本分佈中低價位5%的閾值。例:原始點擊價格的集合S是{1,2,3,4,5,6,7,8,9,10},S個數有10個。如果需要找個閾值,使得大於等於這個閾值的樣本的個數占比不少於6個(也就是原始樣本的60%),這個閾值可以有多個,即4、3、2、1。閾值取4,大於等於4的樣本個數是6,符合條件,閾值取3,大於等於3的 樣本個數是7,也符合條件,等等。最後可以確定,符合條件的最大的閾值,則Pl=4。
(3-2)計算高價過濾閾值Ph,用來過濾一定範圍的最高價,例如,5%的最高價,可以根據經驗預先設定。參見計算公式②:
其中,與(3-2)類似,該公式表示,找到一個最小的數值x,使得在原始集合S裏,小於等於這個值x的樣本pi的個數占總個數的比例不低於95%。Ph為低價過濾閾值,pi為原始集合S中的某個樣本,x為一臨時參量。該公式對應的是原始樣本分佈中高價位元5%的閾值。
(3-3)由Pl、Ph,從原始樣本集合S中將符合條件的樣本pi形成新的點擊價格集合:
第二,根據預處理得到的集合進行雙高斯擬合運算。
(4)先對新的點擊價格集合裏所有樣本pi做如下log變化如公式③,以便得到新的樣本集合D={x 1 ,x 2 ,...,x N }:x i =log(p i +1)......③
pi是過濾後的樣本集合中的樣本,xi為新的樣本集 合D中的樣本,稱新樣本,過濾後的樣本集合的個數即集合大小,其中,i、N為自然數,且i小於等於N。
(5)然後,對該過濾後的點擊價格集合中,每個查詢詞Q下的各個價格元素pi,在對數空間上做雙高斯概率模型擬合,可以得到查詢詞Q相應的模型參數。比如,為便於計算,在log得到的新的集合D上做雙高斯擬合。具體地,可以先假設該樣本集合{x 1 ,x 2 ,...,x N },來自獨立採樣並一致符合如下概率分佈,參見公式④ p(x|π,m 1 1 ,m 2 2 )=π*G(x|m 1 1 )+(1-π)*G(x|m 2 2 ).....④
其中,公式④中的函數G為高斯概率分佈函數:
這個概率模型由兩個高斯成分組成,第一個高斯成分的均值為m1,方差為σ1,先驗概率為π,第二個高斯成分的均值和方差分別為m2和σ2。任意一個高斯分佈都有兩個參數,一個是均值m,一個是方差σ。m1,σ1是第一個高斯分佈的均值參數和方差參數,m2,σ2是第二個高斯分佈的均值參數和方差參數。其中,π是第一個高斯分佈的先驗概率,(1-π)是第二個高斯分佈的先驗概率。兩個先驗概率分別介於0到1之間,並且兩個先驗概率之和必須為1。這些參數都可以通過模型訓練等從樣本資料中求得。 這個例子中,採用{π,m 1 1 ,m 2 2 }表示雙高斯概率模型的參數。
其中,p()是一個概率分佈函數,例:p(x)=1/N,隨機變數x取值範圍限於{1,2,3...N},即x服從某種概率分佈,有N種取值的可能,且在每個值上的取值概率是均等的1/N。例如,本發明的網購搜尋展示例子中,該隨機變數x是指點擊價格。
給定一個樣本資料集合,可求解雙高斯分佈的參數。在本發明的例子中,可以從樣本集合D中求解雙高斯分佈參數。雙高斯擬合即是要找到這樣一組最佳參數,使得資料的似然度(likelihood)最大化。資料的似然度定義如下,參見公式⑤。為方便計算還可以計算似然度的log對數,即log-likelihood,參見公式⑥。
計算最佳參數,例如,還可以採用著名的Expectation-Maximization(EM)[1][3]迭代演算法,計算最佳參數值。
(a)初始化模型參數:π,m 1 1 ,m 2 2
其中π可以初始化為0.5,即在沒有任何先驗知識的情況下,假設兩個高斯分佈是等概率的。m1和m2可以從樣本D中隨機選擇兩個值,σ12可以分別初始化為1。並計算當前模型參數對應的log-likelihood,即公式⑥中似然度的log對數,為表述方便,也稱為loss:loss=log(L(D|π,m 1 1 ,m 2 2 ))
(b)迴圈執行以下兩步計算,即E步驟和M步驟:E步驟:計算每個樣本在兩個高斯成分上的權重,具體計算公式⑦為:
For i=1,2,...,N。N為自然數,表示集合D的大小|D|=N,i為對樣本的遍歷,每一步迭代都要遍歷所有樣本。
M步驟:為每個高斯成分計算新的模型參數和先驗概率參數,即
這裡,同理,其中,N為訓練 樣本集合D的大小,N1+N2=N,且wi1+wi2=1。結果 為介於0到1的數,表示第一個高斯成分的先驗概率,同 理是第二個高斯成分的先驗概率。由於wi1,wi2算出來 都不是整數,因而N1和N2是小於等於N的數值,且不一定為整數。
再計算出的新模型參數 new , , , , }對應的log-likelihood: 然後,再計算△=|loss-loss new |
前後兩次迭代計算即loss和lossnew兩次,每次都是在一個現有參數值的情況下計算得到一個新的參數值(以及對應的log-likelihood)。再把新計算的參數值當做現有值,再迭代計算下一個新的參數值,直到緊挨兩步的參數值對應的log-likehood差值△很小時停止,否則,就將新的模型參數 賦值給{π,m 1 1 ,m 2 2 },並重新回到E步驟。
在得到的損失差△小於給定閾值(預設閾值)或者迭代次數達到指定上限值時,迭代完畢。並將最後一次迭代得到的模型參數賦值給最終模型參數
迭代終止時得到的最終模型參數為,即為查詢詞Q相應的模型參數。
(6)此後,可以對每個查詢詞Q的相應的模型(價格模型)參數,採用查詢詞Q為鍵key,模型為值value,儲存到到線上key-value系統(“鍵-值”對系統)裏。即查詢詞Q為鍵key,價格模型(參數集合)為值value為key儲存。
在步驟S130,利用獲取的概率分佈模型,計算當前 用戶發送的搜尋請求對應的搜尋結果中的每一資料物件在指定屬性上的屬性值對應的概率。
其中,指定屬性可以是資料物件的一項屬性,在本發明的搜尋結果的排序計算中,被設置為資料物件的一個維度(特徵),而計算得到的對應的屬性值的概率即為一資料物件在該維度上的特徵值f。下面將在排序步驟S140中具體說明利用增設的維度上的特徵值f的排序展示的處理。可以參見圖4所示本發明的方法中涉及的搜尋引擎搜尋結果輸出處理的一個實施例的示意圖。該處理僅為一例子,本發明不限於該例子。
首先,將獲得的當前用戶發送的搜尋請求中查詢詞對應的概率分佈模型返回並與當前的搜尋請求結合,執行搜尋,以獲得搜尋結果。
具體如,在步驟120中,查詢分析器3201從線上的Key-Value系統中獲取了當前搜尋請求中涉及的查詢詞Q所對應的模型(即獲得了該查詢詞Q對應的模型參數)。查詢分析器3201就將這些資訊,一起返回給用戶網路搜尋平台的搜尋前端310。這裏,可以不必將查詢分析資訊輸出給用戶(即無需輸出顯示到搜尋前端310的搜尋用戶介面3100),而是返回到前端與暫存的搜尋請求相結合(如:結合其中的查詢詞Q),啟動或者觸發(促使)搜尋引擎3203進行搜尋,即二者結合後,向搜尋引擎3203提交查詢,以便進行條件搜尋。搜尋請求從搜尋前端310發送給搜尋系統320,一方面轉發到查詢分析器3201進行分析 以獲得分析後的資訊(模型、模型參數等);一方面還會繼續將這些資訊進行如圖2所示的累積、計算和分析,以便準備更新key-value系統中的內容。比如,當當前的搜尋請求被回應獲得資料物件提供給用戶後,用戶若對資料物件發生操作則新的操作資訊將被採集、收集、運算,更新模型參數,留待下次搜尋時使用;同時,還會暫存原始的搜尋請求在搜尋前端310,等待查詢分析器3201的返回的分析後的資訊,以便將暫存的原始搜尋請求(查詢詞Q)與得到的對應該查詢詞Q的模型、參數等進行結合,並提交給搜尋引擎3203,執行請求的搜尋。搜尋引擎3203根據搜尋請求中的查詢詞Q,執行搜尋,並獲得相應的一個或多個資料物件,作為待處理的搜尋結果返回。
一個較佳的搜尋處理方式,具體地,搜尋引擎3203會維護一個文檔索引的形式。文檔索引類似一本書籍後面附帶的單詞索引,對每個單詞,給出了包含了這個單詞的文檔(d)的ID列表,能按照某個單詞快速找到其對應的文檔集合,如一個或多個資料物件的集合(商品的集合)。直接查詢文檔索引就能得到候選文檔集合。由此,本發明中,對給定查詢Q,搜尋引擎3203可以先通過文檔索引方式獲取查詢詞Q下的候選文檔集,即一個或多個資料物件的集合。確定的該集合可以作為待處理輸出的搜尋結果。
以網購商品為例:搜尋系統320的查詢分析器3201將搜尋請求中的要查找的商品Q對應的價格模型(參數)等 資訊,返回到搜尋前端310,搜尋前端310將搜尋請求和模型參數等提交給搜尋引擎3203。執行對該商品Q對應的商品的搜尋,並返回待處理的搜尋結果。比如,搜尋引擎3203維護的一個商品索引對給定商品名稱Q,獲取查詢Q下的候選商品集合。
然後,使用所確定的概率分佈模型,計算當前用戶發送的搜尋請求所對應的搜尋結果中的每一資料物件在指定屬性上的屬性值對應的概率。
承上述較佳的處理方式,具體地,搜尋引擎3203會對該候選文檔集的每個文檔d(或者說:資料物件、商品)計算多個維度(特徵)的特徵值),如特徵提取器1取特徵值f1、特徵提取器2取特徵值f2、......、特徵提取器n提取特徵值fn。每個維度(特徵)是根據需要在搜尋平台預先設定的,用於進行搜尋結果輸出展示處理,如輸出排序處理以按處理後的順序進行展示。而每個維度特徵值都可以當做是一個和查詢詞Q和文檔(資料物件)d相關的函數映射。即f i =f i (Q,d)
使用找到的該查詢詞Q在資料物件指定屬性上的概率分佈模型(即該模型參數),針對由查詢詞Q搜尋到的每個資料物件d的指定屬性上的屬性值進行計算。該指定屬性可以作為新增的影響待輸出(候選)的一個或多個資料物件 d輸出展示順序的維度。根據每個資料物件d的該屬性上的屬性值以及該模型參數,可以通過函數得到屬性值概率即該維度的特徵值,如通過對應模型參數的概率分佈函數計算得到。
以網購商品為例:將商品的價格這一屬性作為新增的處理待輸出的搜尋到的各個商品的維度(特徵)。每個商品在價格這一維度上都有價格數值即屬性值。利用與商品搜尋的關鍵字Q對應的模型中各個模型參數,進行計算,如公式⑧,得到特徵值fprice
其中x表示當前商d的價格, Q , , , , }表示查詢Q對應的雙高斯價格模型參數。
在步驟S140,使用所述概率調整搜尋結果中的資料物件的排序。可以使用至少所述概率調整當前用戶的搜尋請求對應的搜尋結果中的資料物件的排序,進而按照該排序輸出展示搜尋結果中的資料物件。
經過搜尋引擎3203搜尋並返回的待處理的搜尋結果中,通過模型參數與每個資料物件的指定屬性上的屬性值結合計算,獲得了每個資料物件在該指定屬性上的屬性值的概率(參見步驟S130),則可以利用該概率進行排序處理(如:排序分運算),從而獲得每個資料物件的排序分值S(score),再以該分值大小排序輸出顯示資料物件的先後 次序。如通過搜尋前端310的用戶介面3100輸出展示搜尋結果給用戶。而當用戶對搜尋結果中的資料物件進行操作,則可以由步驟S210中的採集操作,收集其當前搜尋操作資訊,並由步驟S220中的模型產生操作,更新當前查詢詞的概率分佈模型,以待下次使用。
由此,可以基於查詢詞Q及其以往的模型參數,進一步對搜尋結果輸出處理實現調整或者說影響/改進,即影響輸出的優先次序或結果顯示的先後。在一定程度上,決定了更符合用戶期望的某些結果能夠優先排在前面輸出給用戶。可以由搜尋引擎3203在輸出結果處理過程中,調整其搜尋結果排序邏輯而實現。
其中,調整搜尋結果排序的邏輯可以根據排序分計算實現。同樣參見圖4。搜尋結果排序邏輯可以採用例如公式⑦,將提取的多種維度特徵(f1、f2、......fn)線性加權,得到一個資料物件在一個查詢詞Q下的排序分S(score),即分值。其中,n為自然數,α1,α2,...αn為每個特徵對應的權重。
S=S(Q,d)=α 1 *f 1 2 *f 2 +......+α n *f n ...⑦
分值S為最終排序分,而f1,f2,...fn,分別為該查詢詞Q對應的資料物件的不同維度(特徵)上的特徵值,維度可以由搜尋平台根據需要預先指定或設定,具有相應的特徵值,如步驟S130所述指定屬性(即維度特徵)上的屬 性值概率(即特徵值)。而特徵對應的權重α1,α2,...αn,可以根據查詢詞Q、搜尋平台等實際情形進行預先設置或獲取,例如,通過線上A/Btest[2]得到。特徵即維度都是由搜尋平台根據需要預先設定的,具有相應的特徵值(如指定屬性上的屬性值的概率)。
以網路商品搜尋顯示為例:查詢詞Q由多個單詞組成,第1維特徵可以是查詢詞Q在商品的文字描述裏出現的次數,第2維特徵可以是查詢商品文字描述的長度,第3維特徵可以是查詢商品所屬的類別和查詢詞所屬類別的匹配程度,等等。
根據當前搜尋請求中的查詢詞Q搜尋的資料物件,按照其指定屬性而調整搜尋結果輸出排序,即可以在搜尋結果的排序環節(邏輯)中增加一種特徵即由該指定屬性作為一個新的維度特徵,並獲得與之相關的權重等,以影響排序分值,S=S(Q,d)=α 1 *f 1 2 *f 2 +......+α n *f n new *f new ,其中αnew和fnew分別是新增的特徵權重和新增的特徵,搜尋結果的排序效果會因為新增的特徵而改變。
以網購商品為例:搜尋引擎的搜尋邏輯完成根據價格模型參數,對根據商品名稱Q搜尋到的商品排序以顯示輸出給用戶。該邏輯參見公式⑦。對候選集合的每個商品計算(即特徵提取器獲取)多個維度的特徵值,然後把多個特徵值線性加權,得到最終的排序分S。其中,f1,f2,...fn分別為該商品不同維度上特徵值,α12,...αn分別為對應的特徵權重。商品的特徵例如:銷量,商品賣家的信譽度, 查詢Q和商品文字描述的文字相關度。並且,若要根據商品價格改變輸出結果展示效果,則在搜尋排序環節新增一種特徵,即商品價格(指定的一屬性作為維度特徵),該特徵的計算方式見公式⑧,即每個商品價格多少(屬性值)的概率fnew=fprice作為特徵值。商品價格特徵對應的權重αnew通過線上A/Btest[2]得到。計算出每個商品的排序分S。
本發明還提供了一種資料搜尋處理裝置,如圖5給出的該裝置的一實施例示意圖。在該裝置500中,包括:接收單元510,接收當前用戶發出的搜尋請求。具體如步驟S110的處理。
分析單元520,從接收單元510轉發來的當前搜尋請求,基於搜尋請求中的查詢詞模型產生單元540產生的對應該查詢詞的概率分佈模型中,獲取該概率分佈模型,並提供給搜尋單元530。具體如步驟S120的處理。分析單元520包括:獲取單元5203,從當前的搜尋請求中獲取查詢詞,具體如步驟S1201;確定單元5204,根據獲取的查詢詞,找到對應儲存的概率分佈模型並提供給搜尋單元530,具體如步驟S1202。
搜尋單元530,根據來自分析單元520的模型和接收單元510的搜尋請求,執行搜尋,返回待處理的搜尋結果,利用模型計算搜尋結果中每個資料物件的指定屬性上的屬性值概率。具體如步驟S130。
輸出單元540,根據該概率調整搜尋結果的輸出排 序,以調整後計算的輸出順序將結果輸出給用戶。具體如步驟S140。
收集單元550,將通過搜尋請求搜尋到的一個或多個資料物件作為搜尋結果展示輸出給發出該請求的用戶,用戶會對資料物件進行操作,收集記錄了根據用戶對搜尋結果的操作所產生的操作資訊的日誌,並且,儲存收集到的一個或多個日誌。具體如步驟S210。
模型產生單元560,週期性分析處理儲存的日誌,根據日誌中涉及的歷史操作資訊,產生對應查詢詞的概率分佈模型(模型參數集合),確定最佳參數,與查詢詞對應地通過預定形式儲存。具體如步驟S220。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀介質中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀介質的示例。
電腦可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存介質的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體 (EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶、磁帶磁磁片儲存或其他磁性儲存設備或任何其他非傳輸介質,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀介質不包括暫存電腦可讀媒體(transitory media),如調製的資料信號和載波。
還需要說明的是,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句「包括一個......」限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本發明的實施例可提供為方法、系統或電腦程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁片記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
以上所述僅為本發明的實施例而已,並不用於限制本發明。對於本領域技術人員來說,本發明可以有各種更改 和變化。凡在本發明的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本發明的權利要求範圍之內。

Claims (11)

  1. 一種資料搜尋處理方法,其特徵在於,包括:接收當前用戶發出的搜尋請求以獲取所述搜尋請求中包含的查詢詞;統計所述查詢詞對應的搜尋結果中的資料物件上發生的歷史操作資訊;選取所述資料物件的一項屬性作為指定屬性,產生所述查詢詞對應的歷史操作資訊涉及的資料物件在所述指定屬性上的屬性值的概率分佈模型;利用所述概率分佈模型,計算當前用戶發出的搜尋請求對應的搜尋結果中的每一資料物件在指定屬性上的屬性值對應的概率;使用所述概率調整搜尋結果中的資料物件的輸出排序。
  2. 如申請專利範圍第1項所述的方法,其中,選取所述資料物件的一項屬性作為指定屬性,產生所述查詢詞對應的歷史操作資訊涉及的資料物件在所述指定屬性上的屬性值的概率分佈模型,包括:週期性地對收集的所述歷史操作資訊,進行預處理,確定歷史操作資訊中的查詢詞以及對應的資料物件的指定屬性上的屬性值,並形成查詢詞與該查詢詞相應的歷史操作資訊涉及的資料物件在該指定屬性上的屬性值的預定格式記錄;根據預定格式記錄中的屬性值,利用概率分佈模型擬 合算法,產生與預定格式記錄中的屬性值概率分佈模型,並以鍵值對方式儲存該查詢詞和所述概率分佈模型的對應關係。
  3. 如申請專利範圍第1項或第2項所述的方法,其中,使用所述概率調整搜尋結果中的資料物件的輸出排序,包括:以每個資料物件的所述概率作為排序邏輯的分值計算中的特徵值,計算每個資料物件的排序分值,將搜尋結果中的資料物件按照排序分值所指示的先後次序,顯示輸出到當前發出搜尋請求的用戶。
  4. 如申請專利範圍第1項所述的方法,其中,所述歷史操作資訊包括用戶操作涉及的資料物件對應的查詢詞及該資料物件在指定屬性上的屬性值。
  5. 如申請專利範圍第4項所述的方法,其中,所述概率分佈模型為雙高斯概率模型,所述產生所述查詢詞對應的歷史操作資訊涉及的資料物件在所述指定屬性上的屬性值的概率分佈模型包括:利用所述查詢詞對應的歷史操作資訊對所述概率分佈模型進行擬合,確定所述概率分佈模型的模型參數。
  6. 一種資料搜尋處理系統,其中,包括:搜尋前端、日誌收集器、資料分析平台、資料儲存系統、搜尋引擎;其中,搜尋前端接收當前用戶發出的搜尋請求以獲取所述搜尋請求中包含的查詢詞,並轉發當前用戶發出的搜尋請求 給查詢分析器;日誌收集器,收集用戶在查詢詞對應的搜尋結果中的資料物件上的歷史操作資訊,;資料分析平台,以資料物件的一項屬性作為指定屬性,利用儲存的每一查詢詞對應的搜尋結果中的資料物件上的歷史操作資訊,產生與該查詢詞對應的歷史操作資訊涉及的資料物件在該指定屬性上的屬性值的概率分佈模型;搜尋引擎,根據該當前用戶發出的搜尋請求執行對應獲取的查詢詞的搜尋,並利用該概率分佈模型,計算該查詢詞的搜尋結果中的每一資料物件在指定屬性上的屬性值對應的概率,並使用所述概率調整搜尋結果中的資料物件的輸出排序。
  7. 如申請專利範圍第6項所述的系統,其中,資料分析平台還包括:週期性地對收集的所述歷史操作資訊,進行預處理,確定歷史操作資訊中的查詢詞以及對應的資料物件的指定屬性上的屬性值,並形成查詢詞與相應的所有該指定屬性上的屬性值的預定格式記錄;根據預定格式記錄中的屬性值,利用概率分佈模型擬合算法,產生與預定格式記錄中的查詢詞對應的概率分佈模型,並以鍵值對方式儲存查詢詞和對應的概率分佈模型。
  8. 如申請專利範圍第1項所述的系統,其中,搜尋引 擎還包括:以每個資料物件的所述概率作為排序邏輯的分值計算中的特徵值,計算每個資料物件的排序分值,將搜尋結果中的資料物件按照排序分值所指示的先後次序,通過搜尋前端的用戶介面,顯示輸出給當前發出搜尋請求的用戶。
  9. 如申請專利範圍第6項所述的系統,其中,所述歷史操作資訊包括用戶操作涉及的資料物件對應的查詢詞及該資料物件在指定屬性上的屬性值。
  10. 如申請專利範圍第9項所述的系統,其中,所述概率分佈模型為雙高斯概率模型,所述產生所述查詢詞對應的歷史操作資訊涉及的資料物件在所述指定屬性上的屬性值的概率分佈模型包括:利用所述查詢詞對應的歷史操作資訊對所述概率分佈模型進行擬合,確定所述概率分佈模型的模型參數。
  11. 一種資料搜尋處理方法,其特徵在於,包括:收集用戶在各查詢詞對應的搜尋結果中的資料物件上的歷史操作資訊;以資料物件的一項屬性作為指定屬性,分別利用每一查詢詞對應的搜尋結果中的資料物件上的歷史操作資訊建立所述資料物件在指定屬性上的屬性值的概率分佈模型,並記錄該查詞與概率分佈模型對應關係;接收當前用戶發出的搜尋請求,獲取所述搜尋請求中包含的查詢詞;根據記錄的查詢詞與概率分佈模型的對應關係,確定 所述搜尋請求中的查詢詞對應的概率分佈模型;使用所確定的概率分佈模型計算所述搜尋請求對應的搜尋結果中的每一資料物件在指定屬性上的屬性值對應的概率;使用至少所述概率調整所述搜尋請求對應的搜尋結果中的資料物件的排序。
TW103110116A 2013-12-10 2014-03-18 資料搜尋處理方法及系統 TW201523302A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310674206.8A CN104699725B (zh) 2013-12-10 2013-12-10 数据搜索处理方法及***

Publications (1)

Publication Number Publication Date
TW201523302A true TW201523302A (zh) 2015-06-16

Family

ID=53271362

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103110116A TW201523302A (zh) 2013-12-10 2014-03-18 資料搜尋處理方法及系統

Country Status (5)

Country Link
US (1) US20150161139A1 (zh)
CN (1) CN104699725B (zh)
HK (1) HK1206833A1 (zh)
TW (1) TW201523302A (zh)
WO (1) WO2015089065A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI567577B (zh) * 2015-11-05 2017-01-21 英業達股份有限公司 解決方案搜尋系統之操作方法及解決方案搜尋系統

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6912528B2 (en) * 2000-01-18 2005-06-28 Gregg S. Homer Rechargeable media distribution and play system
US9626445B2 (en) * 2015-06-12 2017-04-18 Bublup, Inc. Search results modulator
US10878492B2 (en) * 2015-05-08 2020-12-29 Teachers Insurance & Annuity Association Of America Providing search-directed user interface for online banking applications
RU2632148C2 (ru) 2015-12-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Система и способ ранжирования результатов поиска
CN105787075A (zh) * 2016-03-02 2016-07-20 百度在线网络技术(北京)有限公司 一种基于数据挖掘的事件预测方法和装置
CN107229640A (zh) * 2016-03-24 2017-10-03 阿里巴巴集团控股有限公司 相似度处理方法、对象筛选方法和装置
CN110020101B (zh) * 2017-08-25 2023-09-12 淘宝(中国)软件有限公司 实时搜索场景的还原方法、装置和***
CN110020211B (zh) * 2017-10-23 2021-08-17 北京京东尚科信息技术有限公司 用户属性影响力的评估方法和装置
CN109814936A (zh) * 2017-11-20 2019-05-28 广东欧珀移动通信有限公司 应用程序预测模型建立、预加载方法、装置、介质及终端
CN110020157A (zh) * 2017-12-08 2019-07-16 北京京东尚科信息技术有限公司 数据处理方法、***、计算机***及存储介质
CN110110267B (zh) * 2018-01-25 2024-07-16 北京京东尚科信息技术有限公司 提取对象特征、搜索对象的方法和装置
US11074243B2 (en) * 2018-03-14 2021-07-27 Microsoft Technology Licensing, Llc Applying dynamic default values to fields in data objects
CN110703968A (zh) * 2018-07-09 2020-01-17 北京搜狗科技发展有限公司 一种搜索方法及相关装置
CN109191572B (zh) * 2018-07-27 2022-05-06 中国地质大学(武汉) 一种基于真值发现的三维地质模型寻优方法
US11023509B1 (en) * 2018-12-19 2021-06-01 Soundhound, Inc. Systems and methods for granularizing compound natural language queries
CN109857773B (zh) * 2018-12-21 2022-03-01 厦门市美亚柏科信息股份有限公司 一种自动分析服务号码的方法和装置
CN111435514B (zh) * 2019-01-15 2024-04-09 北京京东尚科信息技术有限公司 特征计算方法和装置、排序方法和设备、存储介质
CN110309110A (zh) * 2019-05-24 2019-10-08 深圳壹账通智能科技有限公司 一种大数据日志监控方法及装置、存储介质和计算机设备
CN110377830B (zh) * 2019-07-25 2022-03-29 拉扎斯网络科技(上海)有限公司 检索方法、装置、可读存储介质和电子设备
CN112700296B (zh) * 2019-10-23 2022-05-27 阿里巴巴集团控股有限公司 业务对象搜索/属性确定方法、装置、***及设备
CN110955814A (zh) * 2019-10-29 2020-04-03 哈尔滨师范大学 一种大数据智能搜索方法
US11263260B2 (en) * 2020-03-31 2022-03-01 Snap Inc. Searching and ranking modifiable videos in multimedia messaging application
CN112148838B (zh) * 2020-09-23 2024-04-19 北京中电普华信息技术有限公司 一种业务源对象提取方法与装置
US11947440B2 (en) * 2020-11-10 2024-04-02 Salesforce, Inc. Management of search features via declarative metadata
US11488223B1 (en) * 2021-03-30 2022-11-01 Amazon Technologies, Inc. Modification of user interface based on dynamically-ranked product attributes
CN114647636B (zh) * 2022-05-13 2022-08-12 杭银消费金融股份有限公司 大数据异常检测方法及***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US234972A (en) * 1880-11-30 William ennis
US88562A (en) * 1869-04-06 Improvement in neck-yokes
US6006218A (en) * 1997-02-28 1999-12-21 Microsoft Methods and apparatus for retrieving and/or processing retrieved information as a function of a user's estimated knowledge
US7363308B2 (en) * 2000-12-28 2008-04-22 Fair Isaac Corporation System and method for obtaining keyword descriptions of records from a large database
US7577655B2 (en) * 2003-09-16 2009-08-18 Google Inc. Systems and methods for improving the ranking of news articles
US7689585B2 (en) * 2004-04-15 2010-03-30 Microsoft Corporation Reinforced clustering of multi-type data objects for search term suggestion
US8688701B2 (en) * 2007-06-01 2014-04-01 Topsy Labs, Inc Ranking and selecting entities based on calculated reputation or influence scores
CN101256596B (zh) * 2008-03-28 2011-12-28 北京搜狗科技发展有限公司 一种站内导航的方法及***
CN102622417B (zh) * 2012-02-20 2016-08-31 北京搜狗信息服务有限公司 对信息记录进行排序的方法和装置
CN103034718B (zh) * 2012-12-12 2016-07-06 北京博雅立方科技有限公司 一种目标数据排序方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI567577B (zh) * 2015-11-05 2017-01-21 英業達股份有限公司 解決方案搜尋系統之操作方法及解決方案搜尋系統

Also Published As

Publication number Publication date
CN104699725B (zh) 2018-10-09
US20150161139A1 (en) 2015-06-11
WO2015089065A1 (en) 2015-06-18
HK1206833A1 (zh) 2016-01-15
CN104699725A (zh) 2015-06-10

Similar Documents

Publication Publication Date Title
TW201523302A (zh) 資料搜尋處理方法及系統
US11354584B2 (en) Systems and methods for trend aware self-correcting entity relationship extraction
JP6356744B2 (ja) ウェブサイト横断情報を表示する方法およびシステム
CN105989004B (zh) 一种信息投放的预处理方法和装置
US10095782B2 (en) Summarization of short comments
US10528907B2 (en) Automated categorization of products in a merchant catalog
CN105765573B (zh) 网站通信量优化方面的改进
WO2016101777A1 (zh) 用户兴趣数据分析和收集***及其方法
TW201423450A (zh) 基於電子資訊的關鍵字提取的資訊推送、搜尋方法及裝置
US20160012124A1 (en) Methods for automatic query translation
US9384278B2 (en) Methods and systems for assessing excessive accessory listings in search results
US9569545B2 (en) Enhancing product search engine results using user click history
WO2016019791A1 (zh) 一种网页的用户反馈的收集处理方法及装置
JP6560323B2 (ja) 判定装置、判定方法及び判定プログラム
US20160140173A1 (en) Systems and methods for representing search query rewrites
US9020962B2 (en) Interest expansion using a taxonomy
US20190087879A1 (en) Marketplace listing analysis systems and methods
CN110796505B (zh) 一种业务对象推荐方法以及装置
CN110490682B (zh) 分析商品属性的方法和装置
US20140324524A1 (en) Evolving a capped customer linkage model using genetic models
US20140324523A1 (en) Missing String Compensation In Capped Customer Linkage Model
US20150235281A1 (en) Categorizing data based on cross-category relevance
JP2017076376A (ja) 算出装置、算出方法および算出プログラム
JP6007300B1 (ja) 算出装置、算出方法および算出プログラム
CN118195783A (zh) 产品推荐方法、装置、设备、存储介质及程序产品