TWI483129B - Retrieval method and device - Google Patents

Retrieval method and device Download PDF

Info

Publication number
TWI483129B
TWI483129B TW099106791A TW99106791A TWI483129B TW I483129 B TWI483129 B TW I483129B TW 099106791 A TW099106791 A TW 099106791A TW 99106791 A TW99106791 A TW 99106791A TW I483129 B TWI483129 B TW I483129B
Authority
TW
Taiwan
Prior art keywords
query data
feature
current query
category
click
Prior art date
Application number
TW099106791A
Other languages
English (en)
Other versions
TW201131399A (en
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to TW099106791A priority Critical patent/TWI483129B/zh
Publication of TW201131399A publication Critical patent/TW201131399A/zh
Application granted granted Critical
Publication of TWI483129B publication Critical patent/TWI483129B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

檢索方法和裝置
本申請涉及網路資料處理領域,特別涉及一種檢索方法和裝置。
搜索引擎(Search engine)已經成為互聯網領域用戶獲得資訊的一種常用手段。從用戶的角度看,搜索引擎提供一個頁面,用戶在頁面輸入關鍵字語,提交給搜索引擎後,搜索引擎就會返回跟用戶輸入的內容相關的資訊。用戶輸入的關鍵字語可以成為查詢資料,即是用戶通過查詢資料來查詢自己感興趣的相關內容。其中,在電子商務領域,用戶輸入的查詢資料有一個對應的類目,例如,運動、娛樂等。
對於搜索引擎來講,如果能通過用戶的查詢資料,在進行檢索之前,準確識別查詢資料對應的類目,並在該類目中檢索查詢資料,則不僅準確的縮小了搜索範圍,還能夠更加準確地向用戶推薦相關產品。在現有技術中,有實現分類檢索方法主要採取查表的方式,即在後臺人工構建一個查詢資料與行業類目的映射表,例如表1。
例如,當用戶輸入的查詢資料為“電動自行車”,則搜索引擎首先將該查詢資料在該映射表中進行匹配,並將匹配獲取到的3個類目均返回給用戶端,那麼用戶就可以根據這3個類目進行選擇,從而由搜索引擎在自己感興趣的那一個類目中進行檢索,並接收搜索引擎返回的檢索結果。
從上述過程中可以看出,由於映射表中的查詢資料和對應的類目都是由人工制定的,因此能處理的查詢詞的範圍就受到映射表中查詢資料所屬類目多少的限制,只有用戶輸入的查詢詞必須與映射表中的查詢資料完全匹配,搜索引擎才能將搜索結果返回給用戶,因此現有技術中的這種檢索方法對於查詢資料的覆蓋率比較低;更進一步的,由於映射表中的查詢資料和對應的類目都是由人工制定的,因此,後續對映射表的維護成本較高,並且,如果行業類目一更改,原有映射表就會無效,可擴展性較差。上述過程還存在一個技術問題是,搜索引擎在獲取到與查詢資料匹配的類目後,先將該等類目傳輸給用戶端,然後在用戶端對該等類目做出選擇後才能進行相應的檢索,這無疑增大了搜索引擎伺服器與用戶端之間的資料傳輸量,增加了伺服器的負擔,降低了資料在網路中的傳輸速率。
總之,目前需要本領域技術人員迫切解決的一個技術問題就是:如何能夠創新的提出一種檢索方法,以解決現有技術中基於映射表進行檢索時,對用戶的查詢資料覆蓋率較低的問題,以及伺服器負擔過重、網路傳輸速率慢的問題。
本申請所要解決的技術問題是提供一種檢索方法,用以解決現有技術中基於映射表進行檢索時,對用戶的查詢資料覆蓋率較低的問題,更進一步的,還可以降低成本,優化可擴展性。
本申請還提供了一種檢索裝置,用以保證上述方法在實際中的實現及應用。
為了解決上述問題,本申請公開了一種檢索方法,包括:接收用戶端提交的當前查詢資料;提取所述當前查詢資料的總屬性特徵,所述屬性特徵用於計算所述當前查詢資料與每個類目的置信度;根據所述詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話總屬性特徵,計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度;向用戶端返回所述每個類目及對應的置信度;在用戶端根據所述置信度進行選擇的類目中對所述當前查詢資料進行檢索,並將檢索結果返回給用戶端。
本申請公開了一種檢索方法,包括:接收用戶端提交的當前查詢資料;提取所述當前查詢資料的總屬性特徵,所述屬性特徵用於計算所述當前查詢資料的置信度;根據所述總屬性特徵,計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度;在計算得到的最大的置信度對應的類目中,對所述當前查詢資料進行檢索,並將檢索結果返回給用戶端。
本申請公開了一種檢索裝置,包括:接收模組,用於接收用戶端提交的當前查詢資料;提取模組,用於提取所述當前查詢資料的總屬性特徵,所述屬性特徵用於計算所述當前查詢資料的置信度;計算獲取模組,用於根據所述總屬性特徵,計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度;返回模組,用於向用戶端返回所述每個類目及對應的置信度;第一檢索模組,用於在用戶端根據所述置信度進行選擇的類目中對所述當前查詢資料進行檢索。
本申請還提供了一種檢索裝置,該裝置包括:接收模組,用於接收用戶端提交的當前查詢資料;提取模組,用於提取所述當前查詢資料的總屬性特徵,所述屬性特徵用於計算所述當前查詢資料的置信度;計算獲取模組,用於根據所述總屬性特徵,計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度;第二檢索模組,用於在計算得到的最大的置信度對應的類目中,對所述當前查詢資料進行檢索。
與現有技術相比,本申請包括以下優點:
在本申請中,通過對當前查詢資料的總屬性特徵的提取,可以根據該總屬性特徵獲取到當前查詢資料屬於某一個類目的置信度,這樣對於每一個類目都有一個置信度與其對應,不管當前查詢資料之前有沒有出現過,都可以由條件機率模型計算出其歸屬於某一個類目的置信度。即便後臺映射表中沒有預先保存某個或某些類目,只要用戶根據搜索引擎伺服器返回的置信度選擇了某個類目,或者搜索引擎伺服器直接根據置信度最高的值對應類目對當前查詢資料進行檢索,就可以在提高當前查詢資料的覆蓋率的廣泛性的同時,在一定程度上減少搜索引擎伺服器的工作,提升搜索引擎伺服器的工作效率和性能,提高網路中資料傳輸的速率,同時也能增加用戶在資料查詢方面的搜索體驗。當然,實施本申請的任一產品並不一定需要同時達到以上所述的所有優點。
具體實施方式
下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本申請保護的範圍。
本申請可用於眾多通用或專用的計算裝置環境或配置中。例如:個人電腦、伺服器電腦、手持設備或可擕式設備、平板型設備、多處理器裝置、包括以上任何裝置或設備的分散式計算環境等等。
本申請可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式計算環境中實踐本申請,在這些分散式計算環境中,由通過通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中,程式模組可以位於包括存儲設備在內的本地和遠端電腦存儲媒體中。
本申請的主要思想之一可以包括,在搜索引擎接收到用戶端提交的當前查詢資料時,首先提取所述當前查詢資料的總屬性特徵,在具體實施例中,所述總屬性特徵可以包括:詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵;所述詞一級特徵為所述當前查詢資料中的關鍵字,所述句法特徵為所述當前查詢資料中的中心詞所對應的詞根,所述語義特徵為所述關鍵字對應的語義標籤,所述點擊特徵為所述當前查詢資料在預置的點擊日誌中對應的至少一個點擊類目,所述篩選特徵為所述當前查詢資料在預置的篩選日誌中對應的至少一個篩選類目,所述會話特徵用於表示在同一個會話中,所述當前查詢資料的前一個查詢對應的最優類目;根據所述詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵,計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度,並向用戶端返回所述每個類目及對應的置信度;最後在用戶端根據所述置信度進行選擇的類目中對所述當前查詢資料進行檢索。在本申請實施例中,在一定程度上減少了搜索引擎伺服器的工作,提升了搜索引擎伺服器的工作效率和性能,也能增加用戶在資料查詢方面的搜索體驗。並且,和現有技術相比,也能夠具有更廣泛的覆蓋率,因為不管當前查詢資料之前有沒有出現過,都可以由條件機率模型計算出其歸屬於某一個類目的置信度。
參考圖1,示出了本申請一種檢索方法實施例1的流程圖,可以包括以下步驟:
步驟101:搜索引擎伺服器通過瀏覽器接收用戶端提交的當前查詢資料。
在本申請實施例中,用戶端首先向搜索引擎提交當前輸入的查詢資料,其中,查詢資料可以任意。
步驟102:搜索引擎伺服器提取所述當前查詢資料的總屬性特徵,所述總屬性特徵用於計算當前查詢資料與每個類目之間的置信度。
在實際中,所述總屬性特徵具體可包括:詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵。
在本申請實施例中,所述當前查詢資料的一些特徵被提取出來用於後續條件機率的運算,所述當前查詢資料共需要提取六種特徵,所述詞一級特徵為所述當前查詢資料中的關鍵字,即是非停用詞對應的詞根被抽取為詞一級特徵;例如,當前查詢資料為“find Nokia N95 phones”時,所述詞一級的特徵包括:find、Nokia、N95和phone,如果是中文“查詢諾基亞手機”,則詞一級的特徵為:查詢、諾基亞和手機,具體實現時可以通過分詞器來獲取到當前查詢資料的關鍵字;所述句法特徵為所述當前查詢資料中的中心詞所對應的詞根,即是當前查詢資料中的句法級別的中心詞所對應的詞根被抽取為句法特徵,中心詞可以在一定程度上反映了當前查詢資料的意圖核心詞;例如,對於“find Nokia N95 phones”,中心詞為phones,則抽取詞根“phon”為句法特徵;所述語義特徵為所述關鍵字對應的語義標籤,所述當前查詢資料中的關鍵字所對應的詞根所對應的語義標籤被抽取為語義的特徵,在本申請實施例中所採用的語義標籤有:意動詞標籤(Action),用於標識該詞為一意願動詞;產品標籤(Product),用於標識該詞為某一產品詞;品牌標籤(Brand),用於標識該詞為某一品牌詞;型號標籤(Model),用於標識該詞為某一型號詞;其他標籤(Other),用於其他詞所對應的標籤;例如,對於“find Nokia N95 phones”,對應的語義特徵有“Action: find”,“Brand: Nokia”,“Model: N95”,和“Product: phon”。
所述點擊特徵為所述當前查詢資料在預置的點擊日誌中對應的至少一個點擊類目,所述預置的點擊日誌是在搜索引擎伺服器上保存的一個資料庫,用於保存用戶輸入查詢資料之後,所點擊的產品所屬的類目。例如,用戶輸入的查詢詞為“mp3”,在搜索引擎向用戶返回的結果中用戶點擊了某一個產品,與該產品相關的部分資訊有:標題為“Digital Mp3 Player”,With Lcd And Fm(IMC278A),可以參見圖2所示,為該產品資訊在網頁上的介面示意圖。其中,關鍵字為“mp3 player,music player”,該產品所屬的類目為“mp3 players”,即是對於查詢詞“mp3”來說,其點擊特徵為“mp3 players”。所述篩選特徵為所述當前查詢資料在預置的篩選日誌中對應的至少一個篩選類目;在電子商務網站中,例如“www.alibaba.com”,如果用戶輸入的查詢詞為mp3,則搜索引擎在返回搜索到的產品鏈結的同時,返回這些產品對應的類目(可以參見圖3所示,為對應類目的介面示意圖),以便用戶可以通過點擊這些類目的鏈結來定位所檢索的範圍;所述篩選日誌就用於保存用戶輸入的查詢詞和被點擊的類目的對應關係。所述會話特徵用於表示在同一個會話(Session)中,所述當前查詢資料的前一個查詢對應的最優類目;在一個有效的時間內,在同一個瀏覽器內的一系列的查詢行為屬於一個會話。即是用戶打開一個網頁之後,在未關這個網頁之前,就認為所輸入的查詢詞都屬於同一個瀏覽器。例如,一個會話中包含了三個查詢,按照時間先後次序為:“phone”、“Nokia phone”和“Nokia n95”;則“Nokia n95”的Session特徵為“Nokia phone”所對應的最好的分類類目,而“phone”的Session特徵為空(NULL)。
需要說明的是,不管所述當前查詢資料的總屬性特徵包括了幾個具體特徵,本領域技術人員都可以實現本發明的目的,因此,所述總屬性特徵包括的具體特徵的個數及其形式和內容不受本發明實施例的限制。
步驟103:搜索引擎伺服器根據所述總屬性特徵,計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度。
其中,根據步驟102中得到的當前查詢資料的特徵,可以認為是條件機率模型中的給定條件,而所述置信度為一個0~1之間的數值,用於表示在給定條件下某一件事發生的機率。因為條件機率的含義是求在一件事(條件)發生的前提下,另外一件事發生的機率,因此,本實施例中,當前查詢資料的詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵則被認為是條件,而對於某個類目計算出的置信度,則可以理解為當前查詢資料屬於該某個類目的機率是多少。因此可以看出,置信度越大,即是當前查詢資料越有可能屬於對應的某個類目。
優選情況下,可以採用最大熵模型來對具體的類目計算對應的置信度。還需要說明的是,本申請實施例在對每個類目計算置信度時,主要採用的是機器學習方法,因為該方法可以通過一定規模的訓練查詢資料,來類比用戶的查詢行為,計算獲取到查詢資料歸類於某一類目的機率。舉例來說,對於詞一級特徵來講,如果在訓練資料中有這樣的記錄“當前查詢資料中包括phon時,屬於電子類”,那麼對於當前查詢資料中的詞一級特徵“phon”來說,當計算置信度的類目為電子類時,則該電子類對應的置信度在計算時對應的詞一級特徵值就為1,當計算除了電子類之外的其他類目的置信度時,詞一級特徵值則為0。以此類推,可以根據訓練資料中的內容分別計算當前查詢資料中的詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵對應的值,並根據條件機率模型計算存在這些特徵值的情況下,當前查詢資料歸屬於某一類目的機率值。
步驟104:搜索引擎伺服器向用戶端返回所述每個類目及對應的置信度。
假設實際中的分類有40種,則需要對每一個類目都進行計算,在實際中,就計算出對應的40個置信度,搜索引擎伺服器分別將每個類目及對應的置信度返回給用戶,伺服器在返回這40個置信度的時候,可以優先進行排序,然後將排序後的置信度內容返回給用戶,以便於用戶根據自己所感興趣的類目定位檢索範圍,以更加精準的檢索到需要的產品資訊。
步驟105:搜索引擎伺服器在用戶端根據所述置信度進行選擇的類目中對所述當前查詢資料進行檢索,並將檢索結果返回至用戶端。
搜索引擎伺服器接收用戶選擇的類目資訊,並在後臺在所述選擇的類目範圍內檢索和當前查詢資料相關的資訊。在本實施例中,可以對用戶端提交的當前查詢資料進行特徵的提取,其中特徵涉及到當前查詢資料的詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵,根據這些特徵在訓練資料中進行匹配,從而得到表示匹配結果的特徵值,然後利用條件機率模型將所述特徵值計算出表示當前查詢資料屬於某一類目的置信度,從而在能夠將置信度和類目的對應關係返回至用戶端的基礎上,根據用戶端所選的類目再對當前查詢資料進行檢索,這樣就在一定程度上減少了搜索引擎伺服器的工作,提升了搜索引擎伺服器的工作效率和性能,也能增加用戶在資料查詢方面的搜索體驗。
參考圖4,示出了本申請一種檢索方法實施例2的流程圖,可以包括以下步驟:
步驟401:查詢分類器接收用戶端提交的當前查詢資料。
在本實施例中,可以構建查詢分類器,該查詢分類器可以對當前查詢資料提取相關的特徵,並根據提取的特徵計算類目對應的置信度,其中,所述查詢分類器可以採用軟體或硬體實現,可以作為搜索引擎伺服器新增的一項功能或者作為實體與搜索引擎伺服器相連。
步驟402:查詢分類器提取所述當前查詢資料的詞一級特徵。
本實施例中提取詞一級特徵和實施例1中的介紹一致。
步驟403:查詢分類器提取所述當前查詢資料的句法特徵。
在本實施例中,可以首先採用詞性標注工具對當前查詢資料標注每一個詞的詞性,例如:“phones”的詞性為nns,表示該詞為複數名詞;然後採用短語識別工具對當前查詢資料做短語識別,例如,當前查詢資料“find Nokia N95 phones”由兩個短語組成,分別是動詞短語“find”和名詞短語“Nokia N95 phoneS”;再通過規則從名詞短語中抽取出中心詞“phones”,最後通過詞根抽取工具,抽取“phones”的詞根為“phon”,其中,所述規則可以是例如“如果一個查詢詞只有一個名詞短語,則該名詞短語中最後一個名詞為中心詞”等預置的中心詞抽取方式。其中,詞性標注工具、短語識別工具和詞根抽取工具是目前已經開發並進行使用的工具。步驟404:查詢分類器提取所述當前查詢資料的語義特徵。
基於搜索引擎伺服器中保存的查詢日誌,可以將在電子商務網上發佈的產品資訊生成品牌名的表格,例如:品牌“Nokia”,還可以生成型號名的表格,例如:型號“N95”,同時生成基本的產品名的表格,例如:產品名“phone”。因此查詢分類器根據上述的各種表格可以對當前查詢資料的關鍵字分別標注出所含有的品牌,型號,產品名等等。然後抽取關鍵字的詞根作為語義特徵。
步驟405:查詢分類器提取所述當前查詢資料的點擊特徵。
查詢分類器直接從預置的點擊日誌中根據當前查詢資料和點擊特徵的對應關係,獲取到對應的點擊特徵即可。在實際應用中,不同的產品可能包含相同的類目資訊,對於同一個查詢詞用戶也可能會點擊多個產品對應的網頁鏈結,因此在點擊日誌中同一個查詢詞可能對應多個類目。而搜索引擎伺服器可以記錄用戶輸入的查詢詞,以及用戶在搜索引擎推薦的產品中都點擊了哪些產品的網頁鏈結,就記錄這些產品所述的不同類目,從而將查詢詞和類目之間建立對應關係,根據查詢詞、類目以及兩者的對應關係構建點擊日誌。
具體的,在預置的點擊日誌中,首先統計當前查詢資料在點擊日誌中對應的前n個頻率最高的類目(n的取值優選情況可以取為3),並把這n個類目作為點擊特徵;如果在點擊日誌中匹配不到當前查詢資料,則在點擊日誌中尋找一個與當前查詢資料最相近的查詢,並把最相近的查詢在點擊日誌中對應的前n個頻率最高的類目作為當前查詢資料的點擊特徵。在點擊日誌中,尋找與當前查詢資料的編輯距離最少的查詢資料作為最相近的查詢。所謂編輯距離是指兩個查詢資料經過***、刪除或者更改等操作後能夠相同所花費的操作的代價,代價越高則編輯距離越大,反之則編輯距離越小。
步驟406:查詢分類器提取所述當前查詢資料的篩選特徵。
查詢分類器直接從預置的篩選日誌中根據當前查詢資料和篩選特徵的對應關係,獲取到對應的篩選特徵即可。在實際應用中,對於同一個查詢詞搜索引擎也可以根據後臺的映射表從而推薦多個類目,因此在篩選日誌中同一個查詢詞可能對應多個類目。搜索引擎伺服器可以根據映射表中記錄的類目,以及與查詢詞之間的對應關係,從而生成篩選日誌。
具體的,在預置的篩選日誌中,統計一個查詢在篩選日誌中對應的前n(n的取值優選情況可以取為3)個頻率最高的類目,並把這n個類目作為篩選特徵;如果當前查詢資料在篩選日誌中沒有出現,則在篩選日誌中尋找一個與當前查詢資料最相近的查詢,並把最相近的查詢在篩選日誌中對應的前n個頻率最高的類目作為該查詢的篩選特徵。尋找與當前查詢資料的編輯距離最少的查詢資料作為最相近的查詢。所謂編輯距離是指兩個查詢資料經過***、刪除或者更改等操作後能夠相同所花費的操作的代價,代價越高則編輯距離越大,反之則編輯距離越小。
步驟407:查詢分類器提取所述當前查詢資料的會話特徵。
在電子商務領域中,一個Session一般圍繞同一個主題進行。在同一個Session內的查詢資料所屬的類目一般相同或者具有相關性。例如,在實際中一個Session包含了三個查詢,按照時間先後次序為:“phone”、“Nokia phone”和“Nokia n95”,這三個查詢可以反映用戶的查詢意圖,並且這三個查詢對應的所屬類目具有相關性。因此,會話特徵也可以從一定程度上反映當前查詢資料與其屬於某一個類別的可信程度。
步驟408:查詢分類器將所述詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵,作為條件機率模型的給定資訊。
假設某一個類目為C類,則當前查詢資料被劃分為該類目C的置信度就可以用如下方式表示:在給定相關資訊x的條件下,當前查詢資料確定屬於該類目C的後驗機率p(c is correct∣x)。其中,所述x代表的資訊即是給定資訊,在本實施例中為當前查詢資料的詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵。
步驟409:查詢分類器採用條件機率模型計算在所述給定資訊的情況下,所述當前查詢在每個類目下的後驗機率;並將所述後驗機率作為當前查詢資料的在該類目下的置信度。
條件機率模型可以訓練當前查詢資料所得到的特徵的權重,通過訓練得到的對應的特徵值和權重,來利用條件機率模型計算當前查詢資料被確定為某一類目的條件機率,即是置信度。
條件機率模型優選情況下可以選擇最大熵模型,其公式如下所示:
其中y{c is correct,c is incorrect};x是當前查詢資料所對應的給定資訊,在本實施例中包括:詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵;f j 是最大熵模型對應的特徵值,例如,即是當x為詞一級特徵時,如果在訓練資料中能夠匹配到“當前查詢資料的關鍵字包括phon時,所屬類目為C”,則特徵f j 在條件“當前查詢資料的關鍵字包括phon時”的值就為1,否則為0;λ j 是當前查詢資料的各個特徵對應的權重,可以通過模型訓練得到的;Z(x)是歸一化因數,也通過模型訓練得到。
在實際中,還可以採用線性回歸等機器學習模型來建立條件機率模型。在實際中,還可以採用支援向量機模型,雖然不是條件機率模型,但是計算的分值也可以用來作為置信度。
步驟4010:查詢分類器判斷所述計算獲取的置信度是否大於預置的第一閾值,如果是,則進入步驟4011,如果否,則進入步驟4012。
在計算獲取了當前查詢資料歸屬於所有類目的置信度之後,查詢分類可以預置第一閾值,例如,可以將第一閾值設置為0.5,當置信度大於0.5,則認為對應的該類目的可信程度較高。
步驟4011:記錄所述小於所述第一閾值的置信度,並當計算獲取的所有類目的置信度均小於所述第一閾值,則從所有置信度中直接獲取預定個數的相對較大的置信度以及對應的類目,進入步驟4013。
等到所有的置信度都已經判斷完畢,如果所有類目對應的置信度都不大於第一閾值,則查詢分類器直接可以對所有置信度按照從大到小進行排序,並獲取前預定個數的相對較大的置信度及其對應的類目。
步驟4012:查詢分類器獲取所述大於所述閾值的置信度以及所述置信度對應的類目。
步驟4013:查詢分類器向用戶端返回所述大於所述閾值的置信度及其對應的類目,或者返回所述預定個數的置信度及其對應的類目。
查詢分類器可以將所有大於第一閾值的置信度及其對應類目都返回給用戶端,根據置信度還可以從高至低排序展示;或者查詢分類器還可以會把前預定個數的(例如8個)置信度及其對應類目在用戶端上進行展示。
步驟4014:查詢分類器在用戶端根據所述置信度進行選擇的類目中對所述當前查詢資料進行檢索。
在本實施例中,可以利用現有的工具,例如分詞器、詞性標注工具等,這樣就降低了實施成本,並且對於基於條件機率的機器學習方法來講,其覆蓋率相對較高,不管當前查詢資料之前有沒有出現過,都可以由條件機率模型根據提取出的各種特徵得到所有可能相關的類目的置信度。這樣就比現有技術中的表格可以應用的更為廣泛,並且準確。
參考圖5,示出了本申請一種檢索方法實施例3的流程圖,本實施例可以理解為將本申請的檢索方法應用於實際中的一個具體例子,可以包括以下步驟:
步驟501:查詢分類器獲取用戶提交的當前查詢資料中的關鍵字。
本實施例中的查詢分類器需要集成分詞器,利用分詞器來獲取當前查詢資料中的關鍵字。當前查詢資料為“find Nokia N95 phones”時,例如對於類目C來說,如果f (x ,y )為1的條件包括:“當前查詢詞對應的類目為C,且查詢詞包括find時”、“當前查詢詞對應的類目為C,且查詢詞包括Nokia時”,以及“當前查詢詞對應的類目為C,且查詢詞包括N95時”,其他條件下f (x ,y )為0,那麼對於“find Nokia N95 phones”提取詞一級的特徵時,就認為f (x =find" ,find Nokia N95 phonesc)的值為1;同理,f(x=Nokia,“find Nokia N95 phones”□類目C)的值也為1,f(x=N95,“find Nokia N95 phones”□類目C)的值也為1,而f(x=phon,“find Nokia N95 phones”□類目C)的值為0。
步驟502:查詢分類器對所述當前查詢資料中的關鍵字進行詞性標注和短語識別。
在實際中,本實施例中的查詢分類器需要集成詞性標注工具、短語識別工具,以及詞根抽取工具。採用詞性標注工具標注每一個關鍵字的詞性,例如:當前查詢資料為“find Nokia N95 phones”時,關鍵字“phones”的詞性為nns,表示該詞為複數名詞;並且該當前查詢資料包括動詞短語“find”和名詞短語“Nokia N95 phones”。
步驟503:查詢分類器從前述標注和識別的結果中獲取所述當前查詢資料中的名詞短語,並抽取出所述名詞短語的中心詞。
查詢分類器找出名詞短語“Nokia N95 phones”中的中心詞“phones”。
步驟504:查詢分類器通過詞根抽取工具獲取所述中心詞的詞根。
最後通過詞根抽取工具,抽取“phones”的詞根為“phon”。
從步驟502至504為本實施例中獲取當前查詢資料的句法特徵的步驟。則對於“find Nokia N95 phones”,則當訓練資料中能夠匹配到關於當句法特徵為“phon”時,所述類目為C的資料,則認為“find Nokia N95 phones”的句法特徵的值為1,否則為0。當前查詢詞對應的類目為C,且查詢詞的中心詞的詞根為phon,那麼對於類目C的置信度計算時,就認為f(x=phon,“find Nokia N95 phones”口類目C)的值為1,其他情況下為0。步驟505:查詢分類器對所述當前查詢資料的關鍵字進行類型標識。
即是將當前查詢資料的關鍵字都標注上類型,例如,將“find”標注為意願動詞,將“Nokia”標注為品牌名,等等。
步驟506:查詢分類器根據所述類型標識獲取所述關鍵字的意動詞標籤、產品標籤、品牌標籤、型號標籤和/或其他標籤。
則對於“find Nokia N95 phones”,得到的語義特徵共有六個,即是:語義特徵有“Action: find”,“Brand: Nokia”,“Model: N95”,和“Product: phon”;其中,Action表明為意願動詞,意願動詞的類型標識可以根據後臺系統記錄的意願動詞表來獲取。
步驟505和506是在實際應用中獲取當前查詢資料的語義特徵的過程。
步驟507:查詢分類器判斷在預置的點擊日誌中是否存在所述當前查詢資料,所述點擊日誌用於保存查詢資料與點擊特徵的對應關係,如果是,則進入步驟508,如果否,則進入步驟509。
在檢索系統中,根據用戶輸入的當前查詢資料,搜索引擎伺服器會返回多個與當前查詢資料的相關產品鏈結。其中,點擊日誌中記錄了用戶在輸入查詢詞後,都點擊了哪些產品鏈結,以及該產品所屬的類目。其中,所述點擊日誌中還可以包括產品標題,產品的關鍵字等資訊。
步驟508:在預置的點擊日誌中獲取當前查詢資料對應的前預定個數的點擊類目;所述點擊類目為用戶在檢索該查詢資料之後點擊的相應產品所屬的類目。
例如,當前查詢資料為“find Nokia N95 phones”,對應的點擊特徵有“Click_Category_Top1: telecommunications”,“Click_Category_Top2: consumer electronics”,“Click_Category_Top3: computer hardware & software”,其中Topi(i=1,2,3)標識了該點擊特徵是屬於前第幾個點擊類目。所述Click_Category為點擊類目。
步驟509:查詢分類器在點擊日誌中查詢與所述當前查詢資料最接近的點擊查詢資料,所述點擊查詢資料與所述當前查詢資料的編輯距離在點擊日誌中最小;並將所述點擊查詢資料的對應的前預定個數的類目作為所述當前查詢資料的點擊特徵。
從步驟507至509為在實際應用中獲取當前查詢資料的點擊特徵的具體過程。
步驟5010:查詢分類器判斷在預置的篩選日誌中是否存在所述當前查詢資料,所述篩選日誌用於保存查詢資料與篩選特徵的對應關係,如果是,則進入步驟5011,如果否,則進入步驟5012。
步驟5011:查詢分類器在預置的篩選日誌中獲取當前查詢資料對應的前預定個數的篩選類目;所述篩選類目表示所述當前查詢資料在搜索引擎的映射表中所關聯的類目。
步驟5012:查詢分類器在篩選日誌中查詢與所述當前查詢資料最接近的篩選查詢資料,所述篩選查詢資料與所述當前查詢資料的編輯距離在篩選日誌中最小;並將所述篩選查詢資料的對應的前預定個數的類目作為所述當前查詢資料的篩選特徵。
從步驟5010到5012是在實際應用中獲取當前查詢資料的篩選特徵的具體過程。
步驟5013:在同一個會話中,查詢分類器獲取所述當前查詢資料的上一個查詢資料。
在本實施例中,查詢分類器則是查詢“find Nokia N95 phones“的上一個查詢資料。
步驟5014:查詢分類器獲取到所述上一個查詢資料對應的最優分類結果所屬的類目,並以所述最優分類結果所屬的類目為所述當前查詢資料的會話特徵。
例如,用戶以此輸入三個查詢q1 、q2 ,、和q3 。查詢分類器判定q1 對應的最優的類目為c1 。當查詢處理器在處理q2 的時候,對應的會話特徵即是上一個查詢資料對應的最優分類結果所屬的類目為c1
步驟5015:根據所述詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵,查詢分類器計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度。
其中,假設本實施例中,當前查詢資料的詞一級的特徵值分別為1、1、1和0,句法特徵為1和0,語義特徵為1、1、1、0和0,點擊特徵為0、0和1,篩選特徵為1、0和1,會話特徵為1,那麼根據最大熵模型的公式:
可以得到每一個類目對應的置信度的數值。步驟5016:查詢分類器向用戶端返回所述每個類目及對應的置信度。
查詢分類器在計算出置信度之後,將對應的類目和置信度的對應關係按照置信度的大小進行排序,從而返回給用戶端。
從上述步驟可以看出,所述查詢分類器可以獨立於搜索引擎伺服器存在,當在實際應用中的檢索系統需要進行查詢分類時,再集成查詢分類器到搜索引擎伺服器上。參考圖6所示,為查詢分類器輸入和輸入內容的結構示意圖。
步驟5017:搜索引擎伺服器在用戶端根據所述置信度進行選擇的類目中對所述當前查詢資料進行檢索。
對於前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請並不受所描述的動作順序的限制,因為依據本申請,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作和模組並不一定是本申請所必須的。
參考圖7,示出了本申請一種檢索方法實施例4的流程圖,可以包括以下步驟:
步驟701:接收用戶端提交的當前查詢資料.
步驟702:提取所述當前查詢資料的總屬性特徵,所述屬性特徵用於計算所述當前查詢資料的置信度。
步驟703:根據所述總屬性特徵,計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度。
在本實施例中,所述步驟701~703可以和前述的3個方法實施例中的執行過程保持一致,並且關於步驟701~703介紹可以參考前述3個方法實施例。
步驟704:在計算得到的最大的置信度對應的類目中,對所述當前查詢資料進行檢索。
在本實施例中,與方法實施例1不同的是,在計算獲取到當前查詢資料屬於每個類目的各個置信度之後,搜索引擎伺服器可以做一個判斷,即是在步驟703中計算得到的所有置信度中,獲取到最大的那個置信度對應的類目,然後在該類目中直接對所述當前查詢資料進行檢索。更進一步,再將檢索結果直接返回給用戶。
需要說明的是,此處,搜索引擎伺服器不僅可以根據最大的置信度進行檢索,還可以根據實際情況,或者後臺的記錄而選擇其中一個置信度對應的類目進行選擇,或者,滿足一定條件的多個置信度對應的多個類目都可以作為檢索當前查詢資料的範圍,本領域技術人對於本方案作出的一些變形也屬於本申請保護的範疇。
基於本實施例所述的方法,無需向用戶返回置信度及其對應的類目,而是直接根據最優選的結果進行檢索,這樣一般情況下,就能滿足用戶對於檢索結果的要求,同時無需後臺保存相應的映射表等來記載類目資訊,無論用戶的當前查詢資料有沒有出現過,都能夠找出其屬於某個類目的最大置信度,並將在該類目中的檢索作為最合理的檢索操作,在提高了對於查詢資料的覆蓋率的同時,無需搜索引擎先向用戶端傳輸匹配獲取的類目,減少了搜索引擎向用戶端傳輸的資料量,減輕了搜索引擎伺服器的負擔,提高了網路間資料的傳輸速率。
與上述本申請一種檢索方法實施例1所提供的方法相對應,參見圖8,本申請還提供了一種檢索裝置實施例1,在本實施例中,該裝置可以包括:
接收模組801,用於接收用戶端提交的當前查詢資料。
提取模組802,用於提取所述當前查詢資料的總屬性特徵,所述總屬性特徵用於計算所述當前查詢資料與各個類目之間的置信度。
在本申請實施例中,所述當前查詢資料的一些特徵被提取出來用於後續條件機率的運算,所述當前查詢資料共需要提取總屬性特徵,所述總屬性特徵在實際應用中優選的可以包括六種特徵,所述詞一級特徵為所述當前查詢資料中的關鍵字,即是非停用詞對應的詞根被抽取為詞一級特徵;具體實現時可以通過分詞器來獲取到當前查詢資料的關鍵字;所述句法特徵為所述當前查詢資料中的中心詞所對應的詞根,即是當前查詢資料中的句法級別的中心詞所對應的詞根被抽取為句法特徵,中心詞可以在一定程度上反映了當前查詢資料的意圖核心詞;所述語義特徵為所述關鍵字對應的語義標籤,所述當前查詢資料中的關鍵字所對應的詞根所對應的語義標籤被抽取為語義的特徵,在本申請實施例中所採用的語義標籤有:意動詞標籤(Action),用於標識該詞為一意願動詞;產品標籤(Product),用於標識該詞為某一產品詞;品牌標籤(Brand),用於標識該詞為某一品牌詞;型號標籤(Model),用於標識該詞為某一型號詞;其他標籤(Other),用於其他詞所對應的標籤。
所述點擊特徵為所述當前查詢資料在預置的點擊日誌中對應的至少一個點擊類目,所述預置的點擊日誌是在搜索引擎伺服器上保存的一個資料庫,用於保存用戶輸入查詢資料之後,所點擊的產品所屬的類目。所述篩選特徵為所述當前查詢資料在預置的篩選日誌中對應的至少一個篩選類目;所述篩選日誌就用於保存用戶輸入的查詢詞和被點擊的類目的對應關係。所述會話特徵用於表示在同一個會話(Session)中,所述當前查詢資料的前一個查詢對應的最優類目;在一個有效的時間內,在同一個瀏覽器內的一系列的查詢行為屬於一個會話。即是用戶打開一個網頁之後,在未關這個網頁之前,就認為所輸入的查詢詞都屬於同一個瀏覽器。
計算獲取模組803,用於根據所述總屬性特徵,計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度。
其中,根據得到的當前查詢資料的特徵,可以認為是條件機率模型中的給定條件,而所述置信度為一個0~1之間的數值,用於表示在給定條件下某一件事發生的機率。因為條件機率的含義是求在一件事(條件)發生的前提下,另外一件事發生的機率,因此,本實施例中,當前查詢資料的詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵則被認為是條件,而對於某個類目計算出的置信度,則可以理解為當前查詢資料屬於該某個類目的機率是多少。因此可以看出,置信度越大,即是當前查詢資料越有可能屬於對應的某個類目。
優選情況下,可以採用最大熵模型來對具體的類目計算對應的置信度。還需要說明的是,本申請實施例在對每個類目計算置信度時,主要採用的是機器學習方法,因為該方法可以通過一定規模的訓練查詢資料,來類比用戶的查詢行為,計算獲取到查詢資料歸類於某一類目的機率。可以根據條件機率模型計算存在這些特徵值的情況下,當前查詢資料歸屬於某一類目的機率值。
返回模組804,用於向用戶端返回所述每個類目及對應的置信度。
假設實際中的分類有40種,則需要對每一個類目都進行計算,在實際中,就計算出對應的40個置信度,搜索引擎伺服器分別將每個類目及對應的置信度返回給用戶,以便於用戶根據自己所感興趣的類目定位檢索範圍,以更加精准的檢索到需要的產品資訊。
第一檢索模組805,用於在用戶端根據所述置信度進行選擇的類目中對所述當前查詢資料進行檢索。
本實施例所述的裝置可以集成到搜索引擎的伺服器上,也可以單獨作為一個實體與搜索引擎伺服器相連,另外,需要說明的是,當本申請所述的方法採用軟體實現時,可以作為搜索引擎的伺服器新增的一個功能,也可以單獨編寫相應的程式,本申請不限定所述方法或裝置的實現方式。
本實施例中,所述裝置在能夠將置信度和類目的對應關係返回至用戶端的基礎上,根據用戶端所選的類目再對當前查詢資料進行檢索,這樣就在一定程度上減少了搜索引擎伺服器的工作,提升了搜索引擎伺服器的工作效率和性能,也能增加用戶在資料查詢方面的搜索體驗。
與上述本申請一種檢索方法實施例2所提供的方法相對應,參見圖9,本申請還提供了一種檢索裝置的優選實施例2,在本實施例中,該裝置具體可以包括:
接收模組801,用於接收用戶端提交的當前查詢資料。
提取模組802,用於提取所述當前查詢資料的詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵。
所述詞一級特徵為所述當前查詢資料中的關鍵字,所述句法特徵為所述當前查詢資料中的中心詞所對應的詞根,所述語義特徵為所述關鍵字對應的語義標籤,所述點擊特徵為所述當前查詢資料在預置的點擊日誌中對應的至少一個點擊類目,所述篩選特徵為所述當前查詢資料在預置的篩選日誌中對應的至少一個篩選類目,所述會話特徵用於表示在同一個會話中,所述當前查詢資料的前一個查詢對應的最優類目。
設置給定資訊子模組901,用於將所述詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵,作為條件機率模型的給定資訊。
計算置信度子模組902,用於採用條件機率模型計算在所述給定資訊的情況下,所述當前查詢在每個類目下的後驗機率;並將所述後驗機率作為當前查詢資料的在該類目下的置信度。
條件機率模型可以訓練當前查詢資料所得到的特徵的權重,通過訓練得到的對應的特徵值和權重,來利用條件機率模型計算當前查詢資料被確定為某一類目的條件機率,即是置信度。
條件機率模型優選情況下可以選擇最大熵模型,其公式如下所示:
其中y{c is correct,c is incorrect};x是當前查詢資料所對應的給定資訊,在本實施例中包括:詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵;f j 是最大熵模型對應的特徵值,例如,即是當x為詞一級特徵時,如果在訓練資料中能夠匹配到“當前查詢資料的關鍵字包括phone時,所屬類目為C”,則特徵f j 在條件“當前查詢資料的關鍵字包括phone時”的值就為1,否則為0;λ j 是當前查詢資料的各個特徵對應的權重,可以通過模型訓練得到的;Z(x)是歸一化因數,也通過模型訓練得到。
在實際中,還可以採用線性回歸或者支援向量機等方式來建立條件機率模型。
第一判斷模組903,用於判斷所述計算獲取的置信度是否大於預置的第一閾值。
在計算獲取了當前查詢資料歸屬於所有類目的置信度之後,查詢分類可以預置第一閾值,例如,可以將第一閾值設置為0.5,當置信度大於0.5,則認為對應的該類目的可信程度較高。
第一獲取模組904,用於當所述第一判斷模組的結果為是時,獲取所述大於所述閾值的置信度以及所述置信度對應的類目。
查詢分類器可以將所有大於第一閾值的置信度及其對應類目都返回給用戶端,根據置信度還可以從高至低排序展示;或者查詢分類器還可以會把前預定個數的(例如8個)置信度及其對應類目在用戶端上進行展示。
第二獲取模組905,用於當計算獲取的所有類目的置信度均小於所述第一閾值,則從所有置信度中直接獲取預定個數的相對較大的置信度以及對應的類目。
等到所有的置信度都已經判斷完畢,如果所有類目對應的置信度都不大於第一閾值,則查詢分類器直接可以對所有置信度按照從大到小進行排序,並獲取前預定個數的相對較大的置信度及其對應的類目。
則所述返回模組804,具體用於:向用戶返回所述大於所述閾值的置信度以及所述置信度對應的類目;或者向用戶端返回所述每個類目及對應的置信度。
第一檢索模組805,用於在用戶端根據所述置信度進行選擇的類目中對所述當前查詢資料進行檢索。
與上述本申請一種檢索方法實施例3所提供的方法相對應,參見圖10,本申請還提供了一種檢索裝置的優選實施例3,在本實施例中,該裝置具體可以包括:
接收模組801,用於接收用戶端提交的當前查詢資料。
標注識別子模組1001,用於對所述當前查詢資料中的關鍵字進行詞性標注和短語識別。
其中,進行詞性標注還可以由詞性標注工具來實現,短語識別還可以由短語識別工具來實現。
抽取中心詞子模組1002,用於從前述標注和識別的結果中獲取所述當前查詢資料中的名詞短語,並抽取出所述名詞短語的中心詞。
詞根抽取工具1003,用於獲取所述中心詞的詞根。
類型標識子模組1004,用於對所述當前查詢資料的關鍵字進行類型標識。
獲取標籤子模組1005,用於根據所述類型標識獲取所述關鍵字的意動詞標籤、產品標籤、品牌標籤、型號標籤和/或其他標籤。
第一判斷子模組1006,用於判斷在預置的點擊日誌中是否存在所述當前查詢資料,所述點擊日誌用於保存查詢資料與點擊特徵的對應關係。
第一獲取子模組1007,用於當所述第一判斷子模組的結果為是時,在預置的點擊日誌中獲取當前查詢資料對應的前預定個數的點擊類目;所述點擊類目為用戶在檢索該查詢資料之後點擊的相應產品所屬的類目。
第一查詢獲取子模組1008,用於當所述第一判斷子模組的結果為否時,在點擊日誌中查詢與所述當前查詢資料最接近的點擊查詢資料,所述點擊查詢資料與所述當前查詢資料的編輯距離在點擊日誌中最小;並將所述點擊查詢資料的對應的前預定個數的類目作為所述當前查詢資料的點擊特徵。
第二判斷子模組1009,用於判斷在預置的篩選日誌中是否存在所述當前查詢資料,所述篩選日誌用於保存查詢資料與篩選特徵的對應關係。
第二獲取子模組1010,用於當所述第二判斷子模組的結果為是時,在預置的篩選日誌中獲取當前查詢資料對應的前預定個數的篩選類目;所述篩選類目表示所述當前查詢資料在搜索引擎的映射表中所關聯的類目。
第二查詢獲取子模組1011,用於當所述第二判斷子模組的結果為否時,在篩選日誌中查詢與所述當前查詢資料最接近的篩選查詢資料,所述篩選查詢資料與所述當前查詢資料的編輯距離在篩選日誌中最小;並將所述篩選查詢資料的對應的前預定個數的類目作為所述當前查詢資料的篩選特徵。
第三獲取子模組1012,用於在同一個會話中,獲取所述當前查詢資料的上一個查詢資料;第四獲取子模組1013,用於獲取到所述上一個查詢資料對應的最優分類結果所屬的類目,並以所述最優分類結果所屬的類目為所述當前查詢資料的會話特徵。
計算獲取模組803,用於根據所述詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵,計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度;返回模組804,用於向用戶端返回所述每個類目及對應的置信度;第一檢索模組805,用於在用戶端根據所述置信度進行選擇的類目中對所述當前查詢資料進行檢索。
在本實施例中,可以利用現有的工具,例如分詞器、詞性標注工具等,這樣就降低了實施成本,並且對於基於條件機率的機器學習方法來講,其覆蓋率相對較高,不管當前查詢資料之前有沒有出現過,都可以由條件機率模型根據提取出的各種特徵得到所有可能相關的類目的置信度。這樣就比現有技術中的表格可以應用的更為廣泛,並且準確。
與上述本申請一種檢索方法實施例4所提供的方法相對應,參見圖11,本申請還提供了一種檢索裝置的優選實施例4,在本實施例中,該裝置具體可以包括:接收模組1101,用於接收用戶端提交的當前查詢資料;提取模組1102,用於提取所述當前查詢資料的總屬性特徵,所述屬性特徵用於計算所述當前查詢資料的置信度;計算獲取模組1103,用於根據所述總屬性特徵,計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度;第二檢索模組1104,用於在計算得到的最大的置信度對應的類目中,對所述當前查詢資料進行檢索。
在本實施例中,與裝置實施例1不同的是,在計算獲取模組1103計算獲取到當前查詢資料屬於每個類目的各個置信度之後,搜索引擎伺服器可以做一個判斷,即是在計算得到的所有置信度中,獲取到最大的那個置信度對應的類目,然後在該類目中直接對所述當前查詢資料進行檢索。更進一步,再將檢索結果直接返回給用戶。
基於本實施例所述的裝置,無需向用戶返回置信度及其對應的類目,而是直接根據最優選的結果進行檢索,這樣一般情況下,就能滿足用戶對於檢索結果的要求,同時無需後臺保存相應的映射表等來記載類目資訊,無論用戶的當前查詢資料有沒有出現過,都能夠找出其屬於某個類目的最大置信度,並將在該類目中的檢索作為最合理的檢索操作,在提高了對於查詢資料的覆蓋率的同時,優化了搜索引擎伺服器的性能,滿足了用戶不同的檢索需求。
與上述本申請一種檢索方法和裝置實施例相對應,本申請還提供了一種檢索系統的實施例,在本實施例中,該系統具體可以包括:
位於搜索引擎伺服器端的:
查詢分類器,所述查詢分類器包括:接收模組、提取模組、計算獲取模組和返回模組。
所述接收模組,用於接收用戶端提交的當前查詢資料。
所述提取模組,用於提取所述當前查詢資料的詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵。
所述計算獲取模組,用於根據所述詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵,計算獲取所述當前查詢資料與每個類目對應的置信度,所述置信度用於表示所述當前查詢資料屬於某一個類目的可信程度。
所述返回模組,用於向用戶端返回所述每個類目及對應的置信度。
第一檢索模組,用於在用戶端根據所述置信度進行選擇的類目中對所述當前查詢資料進行檢索。
需要說明的是,該系統還可以包括用戶端:用於通過瀏覽器接收用戶輸入的當前查詢資料並提交至搜索引擎伺服器。
需要說明的是,本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對於裝置類實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
以上對本申請所提供的一種檢索方法、裝置及系統進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
801...接收模組
802...提取模組
803...計算獲取模組
804...返回模組
805...第一檢索模組
901...設置給定資訊子模組
902...計算置信度子模組
903...第一判斷模組
904...第一獲取模組
905...第二獲取模組
1001...標注識別子模組
1002...抽取中心詞子模組
1003...詞根抽取工具
1004...類型標識子模組
1005...獲取標籤子模組
1006...第一判斷子模組
1007...第一獲取子模組
1008...第一查詢獲取子模組
1009...第二判斷子模組
1010...第二獲取子模組
1011...第二查詢獲取子模組
1012...第三獲取子模組
1013...第四獲取子模組
1101...接收模組
1102...提取模組
1103...計算獲取模組
1104...第二檢索模組
為了更清楚地說明本申請實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本申請的一種檢索方法實施例1的流程圖;
圖2是本申請中一種產品資訊的介面示意圖;
圖3是本申請中搜索引擎的返回的類目的介面示意圖;
圖4是本申請的一種檢索方法實施例2的流程圖;
圖5是本申請的一種檢索方法實施例3的流程圖;
圖6是本申請中查詢分類器輸入和輸入內容的結構示意圖;
圖7是本申請的一種檢索方法實施例四的流程圖;
圖8是本申請的一種檢索裝置實施例1的結構框圖;
圖9是本申請的一種檢索裝置實施例2的結構框圖;
圖10是本申請的一種檢索裝置實施例3的結構框圖;
圖11是本申請的一種檢索裝置實施例4的結構框圖。

Claims (15)

  1. 一種檢索方法,其特徵在於,該方法包括:接收用戶端提交的當前查詢資料;提取該當前查詢資料的總屬性特徵,該屬性特徵用於計算該當前查詢資料與每個類目的置信度;根據該總屬性特徵,計算獲取該當前查詢資料與每個類目對應的置信度,該置信度用於表示該當前查詢資料屬於某一個類目的可信程度;向用戶端返回該每個類目及對應的置信度;及在用戶端根據該置信度進行選擇的類目中對該當前查詢資料進行檢索,並將檢索結果返回給用戶端。
  2. 根據申請專利範圍第1項所述的方法,其中,該總屬性特徵具體包括:詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵;該詞一級特徵為該當前查詢資料中的關鍵字,該句法特徵為該當前查詢資料中的中心詞所對應的詞根,該語義特徵為該關鍵字對應的語義標籤,該點擊特徵為該當前查詢資料在預置的點擊日誌中對應的至少一個點擊類目,該篩選特徵為該當前查詢資料在預置的篩選日誌中對應的至少一個篩選類目,該會話特徵用於表示在同一個會話中,該當前查詢資料的前一個查詢對應的最優類目。
  3. 根據申請專利範圍第2項所述的方法,其中,根據 該詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵,計算獲取該當前查詢資料的類目及其對應的置信度,具體包括:將該詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵,作為條件機率模型的給定資訊;及採用條件機率模型計算在該給定資訊的情況下,該當前查詢在每個類目下的後驗機率;並將該後驗機率作為當前查詢資料的在該類目下的置信度。
  4. 根據申請專利範圍第2項所述的方法,其中,向用戶返回該每個類目及該每個類目對應的置信度之前,還包括:判斷該計算獲取的置信度是否大於預置的第一閾值;如果是,則獲取大於該閾值的置信度以及該置信度對應的類目;則向用戶返回該每個類目及該每個類目對應的置信度,具體包括:向用戶返回大於該閾值的置信度以及該置信度對應的類目。
  5. 根據申請專利範圍第4項所述的方法,其中,判斷該計算獲取的置信度是否大於預置的第一閾值之後,還包括:當計算獲取的所有類目的置信度均小於該第一閾值,則從所有置信度中直接獲取預定個數的相對較大的置信度以及對應的類目。
  6. 根據申請專利範圍第2項所述的方法,其中,提取該當前查詢資料的句法特徵,具體包括:對該當前查詢資料中的關鍵字進行詞性標注和短語識別;從前述標注和識別的結果中獲取該當前查詢資料中的名詞短語,並抽取出該名詞短語的中心詞;及透過詞根抽取工具獲取該中心詞的詞根。
  7. 根據申請專利範圍第2項所述的方法,其中,提取該當前查詢資料的語義特徵,具體包括:對該當前查詢資料的關鍵字進行類型標識;及根據該類型標識獲取該關鍵字的意動詞標籤、產品標籤、品牌標籤、型號標籤和/或其他標籤。
  8. 根據申請專利範圍第2項所述的方法,其中,提取該當前查詢資料的點擊特徵,具體包括:判斷在預置的點擊日誌中是否存在該當前查詢資料,該點擊日誌用於保存查詢資料與點擊特徵的對應關係;如果是,則在預置的點擊日誌中獲取當前查詢資料對應的前預定個數的點擊類目;該點擊類目為用戶在檢索該查詢資料之後點擊的相應產品所屬的類目;如果否,則在點擊日誌中查詢與該當前查詢資料最接近的點擊查詢資料,該點擊查詢資料與該當前查詢資料的編輯距離在點擊日誌中最小;並將該點擊查詢資料的對應的前預定個數的類目作為該當前查詢資料的點擊特徵。
  9. 根據申請專利範圍第2項所述的方法,其中,提取 該當前查詢資料的篩選特徵,具體包括:判斷在預置的篩選日誌中是否存在該當前查詢資料,該篩選日誌用於保存查詢資料與篩選特徵的對應關係;如果是,則在預置的篩選日誌中獲取當前查詢資料對應的前預定個數的篩選類目;該篩選類目表示該當前查詢資料在搜索引擎的映射表中所關聯的類目;如果否,則在篩選日誌中查詢與該當前查詢資料最接近的篩選查詢資料,該篩選查詢資料與該當前查詢資料的編輯距離在篩選日誌中最小;並將該篩選查詢資料的對應的前預定個數的類目作為該當前查詢資料的篩選特徵。
  10. 根據申請專利範圍第2項所述的方法,其中,提取該當前查詢資料的會話特徵,具體包括:在同一個會話中,獲取該當前查詢資料的上一個查詢資料;及獲取到該上一個查詢資料對應的最優分類結果所屬的類目,並以該最優分類結果所屬的類目為該當前查詢資料的會話特徵。
  11. 一種檢索方法,其特徵在於,該方法包括:接收用戶端提交的當前查詢資料;提取該當前查詢資料的總屬性特徵,該屬性特徵用於計算該當前查詢資料的置信度;根據該總屬性特徵,計算獲取該當前查詢資料與每個類目對應的置信度,該置信度用於表示該當前查詢資料屬於某一個類目的可信程度;及 在計算得到的最大的置信度對應的類目中,對該當前查詢資料進行檢索,並將檢索結果返回給用戶端。
  12. 一種檢索裝置,其特徵在於,該裝置包括:接收模組,用於接收用戶端提交的當前查詢資料;提取模組,用於提取該當前查詢資料的總屬性特徵,該屬性特徵用於計算該當前查詢資料的置信度;計算獲取模組,用於根據該總屬性特徵,計算獲取該當前查詢資料與每個類目對應的置信度,該置信度用於表示該當前查詢資料屬於某一個類目的可信程度;返回模組,用於向用戶端返回該每個類目及對應的置信度;及第一檢索模組,用於在用戶端根據該置信度進行選擇的類目中對該當前查詢資料進行檢索。
  13. 根據申請專利範圍第12項所述的裝置,其中,該提取模組具體用於提取該當前查詢資料的詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵;該詞一級特徵為該當前查詢資料中的關鍵字,該句法特徵為該當前查詢資料中的中心詞所對應的詞根,該語義特徵為該關鍵字對應的語義標籤,該點擊特徵為該當前查詢資料在預置的點擊日誌中對應的至少一個點擊類目,該篩選特徵為該當前查詢資料在預置的篩選日誌中對應的至少一個篩選類目,該會話特徵用於表示在同一個會話中,該當前查詢資料的前一個查詢對應的最優類目。
  14. 根據申請專利範圍第13項所述的裝置,其中,該計算獲取模組具體包括:設置給定資訊子模組,用於將該詞一級特徵、句法特徵、語義特徵、點擊特徵、篩選特徵和會話特徵,作為條件機率模型的給定資訊;及計算置信度子模組,用於採用條件機率模型計算在該給定資訊的情況下,該當前查詢在每個類目下的後驗機率;並將該後驗機率作為當前查詢資料的在該類目下的置信度。
  15. 一種檢索裝置,其特徵在於,該裝置包括:接收模組,用於接收用戶端提交的當前查詢資料;提取模組,用於提取該當前查詢資料的總屬性特徵,該屬性特徵用於計算該當前查詢資料的置信度;計算獲取模組,用於根據該總屬性特徵,計算獲取該當前查詢資料與每個類目對應的置信度,該置信度用於表示該當前查詢資料屬於某一個類目的可信程度;及第二檢索模組,用於在計算得到的最大的置信度對應的類目中,對該當前查詢資料進行檢索。
TW099106791A 2010-03-09 2010-03-09 Retrieval method and device TWI483129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW099106791A TWI483129B (zh) 2010-03-09 2010-03-09 Retrieval method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW099106791A TWI483129B (zh) 2010-03-09 2010-03-09 Retrieval method and device

Publications (2)

Publication Number Publication Date
TW201131399A TW201131399A (en) 2011-09-16
TWI483129B true TWI483129B (zh) 2015-05-01

Family

ID=50180362

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099106791A TWI483129B (zh) 2010-03-09 2010-03-09 Retrieval method and device

Country Status (1)

Country Link
TW (1) TWI483129B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577989B (zh) * 2012-07-30 2017-11-14 阿里巴巴集团控股有限公司 一种基于产品识别的信息分类方法及信息分类***
TWI595371B (zh) * 2016-12-22 2017-08-11 七法股份有限公司 法學資料搜尋系統、搜尋處理方法及電腦可讀取紀錄媒體

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336117B1 (en) * 1999-04-30 2002-01-01 International Business Machines Corporation Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine
US6782380B1 (en) * 2000-04-14 2004-08-24 David Victor Thede Method and system for indexing and searching contents of extensible mark-up language (XML) documents
TW200943277A (en) * 2008-04-07 2009-10-16 Mitac Int Corp Search methods and systems, and machine readable medium thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336117B1 (en) * 1999-04-30 2002-01-01 International Business Machines Corporation Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine
US6782380B1 (en) * 2000-04-14 2004-08-24 David Victor Thede Method and system for indexing and searching contents of extensible mark-up language (XML) documents
TW200943277A (en) * 2008-04-07 2009-10-16 Mitac Int Corp Search methods and systems, and machine readable medium thereof

Also Published As

Publication number Publication date
TW201131399A (en) 2011-09-16

Similar Documents

Publication Publication Date Title
US9846748B2 (en) Searching for information based on generic attributes of the query
US7984035B2 (en) Context-based document search
US8051080B2 (en) Contextual ranking of keywords using click data
CN103339623B (zh) 涉及因特网搜索的方法和设备
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
TWI544351B (zh) Extended query method and system
US8880512B2 (en) Method, apparatus and system, for rewriting search queries
US20130054569A1 (en) Vertical Search-Based Query Method, System and Apparatus
TWI549004B (zh) Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database
KR20140075428A (ko) 시맨틱 검색 키워드 추천 방법 및 시스템
CN105224555B (zh) 一种搜索的方法、装置和***
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质
TWI483129B (zh) Retrieval method and device
CN108509449B (zh) 一种信息处理的方法及服务器
JP2004348607A (ja) コンテンツ検索方法、コンテンツ検索システム、コンテンツ検索用プログラムおよびコンテンツ検索用プログラムが記録された記録媒体
JP6173958B2 (ja) 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法
Berlocher et al. TopicRank: bringing insight to users
CN107423298B (zh) 一种搜索方法和装置
Wang et al. Ontology-assisted deep Web source selection
CN105159899A (zh) 一种搜索的方法和装置
TWI423053B (zh) Domain Interpretation Data Retrieval Method and Its System
TWI474197B (zh) Information retrieval methods and systems
TWI484356B (zh) Retrieval methods, devices and systems
Ma et al. Using multi-categorization semantic analysis and personalization for semantic search
TW202223685A (zh) 知識圖譜聯想搜尋方法與其系統

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees