TWI486797B - Methods and devices for sorting search results - Google Patents

Methods and devices for sorting search results Download PDF

Info

Publication number
TWI486797B
TWI486797B TW099106782A TW99106782A TWI486797B TW I486797 B TWI486797 B TW I486797B TW 099106782 A TW099106782 A TW 099106782A TW 99106782 A TW99106782 A TW 99106782A TW I486797 B TWI486797 B TW I486797B
Authority
TW
Taiwan
Prior art keywords
word
string
weight
minimum
target
Prior art date
Application number
TW099106782A
Other languages
English (en)
Other versions
TW201131395A (en
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to TW099106782A priority Critical patent/TWI486797B/zh
Publication of TW201131395A publication Critical patent/TW201131395A/zh
Application granted granted Critical
Publication of TWI486797B publication Critical patent/TWI486797B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

對搜索結果進行排序的方法和裝置
本申請案係有關電腦資料處理技術領域,特別是指一種對搜索結果進行排序的方法和裝置。
在搜索引擎中,需要根據查詢字串的幾個詞在檢索結果(目標字串)中出現的位置距離來估計檢索結果與查詢字串的匹配程度,距離近的通常具有更高的匹配程度,因而獲得更加靠前的排名。例如查詢字串是“消毒機”,包含“消毒機”的檢索結果通常比“消毒工業洗衣機”更接近用戶的意圖,而後者又比“消毒設備、脫水器、烘乾機”更接近用戶的意圖,這都將影響檢索結果的排名。
計算查詢字串的多個詞語在目標字串中的距離的一種習知實現方式是最小滑動視窗,亦即,在目標字串中尋找一個長度儘量小的區間,該區間中包含查詢字串的每一個字和詞,用這個區間的長度來描述查詢詞語在目標字串中的遠近。例如查詢字串是“我|看|風景”,目標字串是“我|在|橋|上|看|風景|,|看|風景|的|人|在|橋|下|看|我|。”(豎線代表分詞結果)則最小滑動窗口是“我|在|橋|上|看|風景”,長度為6個詞語。
另一種計算詞語長度的方法是編輯距離,跟最小滑動窗口不一樣的是,它並不是計算單一字串的詞語長度,而是計算兩個字串間的差異部分的長度之和。例如“我和你”和“大和小”差異部分共兩個詞(第一和第三個詞),編輯距離為2。
目前,通常是根據長度或距離確定查詢字串和目標字串的匹配程度,也就是說,如果最小滑動窗口長度或編輯距離越小,則匹配程度越高,反之則匹配程度低。
然而在某些情況下,簡單的長度或距離並不能準確地反映匹配程度。例如查詢字串是“諾基亞電池”,檢索結果A是“諾基亞電池”,B是“諾基亞手機,贈送電池”,C是“諾基亞n73手機原裝電池”。按照簡單的距離計算,A的“諾基亞”和“電池”之間的距離為0,匹配程度最好;B和C的“諾基亞”和“電池”之間的距離都是3個詞,匹配程度都不夠好。但是實際上C的“n73手機”是跟“諾基亞”強烈相關的詞語,“原裝”也是跟“電池”強烈相關的詞語,雖然中間都是間隔了3個詞,但是C的匹配程度比B高很多。
考慮不同詞語在距離計算上的不同影響,前人已有一些研究,例如可以根據詞性(POS)來設定詞語權重。但是這種根據詞性來設定權重的方法,仍舊過於簡單,沒有涉及一個本質問題,就是查詢字串和目標字串語義是否相關,因而得到的長度或距離不能準確地反映出查詢字串和目標字串的匹配程度,亦即,不能保證和查詢字串語義相關的目標字串被排在前面。
本申請案提供一種對搜索結果進行排序的方法和裝置,透過查詢字串和目標字串的語義關聯度,能夠更準確地對目標字串進行排序,反映出各目標字串與查詢字串的匹配程度。
本申請案提供了一種對搜索結果進行排序的方法,包括:伺服器預先計算統計樣本中每兩個詞語之間的語義關聯權重,獲得並保存詞語權重表,所述方法還包括:伺服器接收用戶終端輸入的查詢字串,根據查詢字串而進行搜索並獲得目標字串;伺服器對所述查詢字串和目標字串分別進行分詞,將查詢字串的各分詞依次與目標字串的分詞兩兩組合;查詢詞語權重表,獲得每個分詞組合的權重值;及根據所述權重值而獲得加權詞語長度,根據所述加權詞語長度而對每個目標字串進行排序,並反饋給用戶終端。
其中,所述伺服器預先計算統計樣本中每兩個詞語之間的語義關聯權重,獲得詞語權重表的步驟包括:伺服器獲取統計樣本;從所述統計樣本中選取第一詞語和第二詞語,統計所述第一詞語和第二詞語在統計樣本中共同出現的次數C(第一詞語,第二詞語);統計第二詞語在統計樣本中出現的次數ΣC(Yi,第二詞語),其中,所述Yi代表每個跟第二詞語共同出現的詞語;計算所述第一詞語在第二詞語出現條件下的概率P( 第一詞語|第二詞語)=C(第一詞語,第二詞語)/ΣC(Yi,第二詞語);在查詢第二詞語時,取第一詞語與第二詞語的語義相關權重為W=1-P,其中,所述W為權重,所述P為第一詞語在第二詞語出現條件下的概率;及重複上述步驟,依次獲得所述統計樣本中每個詞語相對其他詞語的語義相關權重,獲得到詞語權重表。
其中,所述統計樣本的來源包括任何形式的文本或符號,所述文本包括網頁文本、用戶搜索日誌、及用戶點擊日誌。
其中,所述加權詞語長度為最小滑動窗口加權長度;根據所述權重值而獲得加權詞語長度對每個目標字串進行排序的步驟包括:分別取目標字串的各個分詞在查詢字串各分詞的權重最小值;或者,分別取查詢字串的各個分詞在目標字串各分詞的權重最小值;對各個目標字串,根據所述權重最小值分別計算最小滑動窗口加權長度;及比較各目標字串的最小滑動視窗加權長度,長度小則排序在前,反之,排序在後。
其中,計算每個目標字串的最小滑動視窗加權長度具體包括: 最小滑動窗口加權長度其中,W表示權重,Ti表示目標字串中的第i個的分詞,k、h分別表示目標字串最小滑動視窗的起始位置和結束位置,Qj表示查詢字串中的第j個分詞,m表示查詢字串分詞的個數。
本申請案還提供了一種對搜索結果進行排序的方法,伺服器預先計算統計樣本中每兩個詞語之間的語義關聯權重,獲得並保存詞語權重表,所述方法還包括:伺服器接收用戶終端輸入的查詢字串,根據查詢字串而進行搜索並獲得目標字串;伺服器對所述查詢字串和目標字串分別進行分詞;伺服器根據所述存詞語權重表,計算***的詞語相對查詢字串各分詞的權重最小值;伺服器根據所述存詞語權重表,計算刪除的詞語相對目標字串各分詞的權重最小值;及根據所述權重最小值計算總的編輯距離,根據所述總的編輯距離對每個目標字串進行排序,並反饋給用戶終端。
其中,所述根據所述詞語權重表,計算***的詞語相對查詢字串各分詞的權重最小值的步驟包括:根據詞語權重表,獲得***的詞語相對查詢字串各分詞的權重值;及計算***的詞語相對查詢字串各分詞的權重最小值為
其中,W表示權重,It 表示***字串中的第t個的分詞,n分別表示***分詞的個數,Qj表示查詢字串中的第j個分詞,m表示查詢字串分詞的個數。
其中,所述根據所述詞語權重表,計算刪除的詞語相對目標字串各分詞的權重最小值的步驟包括:根據詞語權重表,獲得刪除的詞語相對目標字串各分詞的權重值;計算刪除的詞語相對目標字串各分詞的權重最小值為
其中,W表示權重,Ti表示目標字串中的第i個的分詞,q表示目標字串分詞的個數,Dd 表示刪除詞語中的第d個分詞,p表示刪除分詞的個數。
其中,根據所述權重最小值計算總的編輯距離,對每個目標字串進行排序的步驟包括:對各個目標字串,分別確定總的編輯距離,所述總的編輯距離為:
W =WI +WD
其中,W 表示總的編輯距離,WI 表示***詞語相對查詢字串各分詞的權重最小值,WD 表示刪除詞語相對目標字串各分詞的權重最小值;及比較各目標字串的總的編輯距離,總的編輯距離小則排序在前,反之,排序在後。
其中,在計算總的編輯距離長度之前,還包括:計算替換詞語的編輯距離的權重最小值;根據所述權重最小值而計算總的編輯距離,確定查詢字串和目標字串的匹配程度的步驟包括:對各個目標字串,分別確定總的編輯距離,所述總的編輯距離為:W =WI +WD +WC
其中,W 表示總的編輯距離,WI 表示***詞語相對查詢字串各分詞的權重最小值,WD 表示刪除詞語相對目標字串各分詞的權重最小值,WC 表示替換詞語相對查詢字串和/或目標字串各分詞的權重最小值;及比較各目標字串的總的編輯距離,總的編輯距離小則排序在前,反之,排序在後。
其中,所述獲取替換詞語的編輯距離的權重最小值的方式包括:令替換詞語的編輯距離的權重最小值等於預設的固定值,或者,令替換詞語的編輯距離等於***詞語相對查詢字串各分詞的權重最小值與刪除詞語相對目標字串各分詞的權重最小值之和,或平均值,或兩者中的最大值。
本申請案還提供了一種對搜索結果進行排序的裝置,包括:詞語權重表獲取模組,用以計算統計樣本中每兩個詞語之間的語義關聯權重,獲得並保存詞語權重表;詞獲取模組,用以接收用戶終端輸入的查詢字串,根據查詢字串而進行搜索並獲得目標字串;分詞模組,用以在伺服器獲得查詢字串和目標字串後,對所述查詢字串和目標字串分別進行分詞; 組合模組,用以將查詢字串的各分詞依次與目標字串的分詞兩兩組合,查詢模組,用以查詢所述詞語權重表,獲得每個分詞組合的權重值;及匹配模組,用以根據所述權重值而獲得加權詞語長度,對每個目標字串進行排序,並反饋給用戶終端。
其中,所述詞語權重表獲取模組包括:樣本獲取模組,用以獲取統計樣本;
第一統計模組,用以從所述統計樣本中選取第一詞語和第二詞語,統計所述第一詞語和第二詞語在統計樣本中共同出現的次數C(第一詞語,第二詞語)
第二統計模組,用以統計第二詞語在統計樣本中出現的次數ΣC(Yi,第二詞語),其中,所述Yi代表每個跟第二詞語共同出現的詞語;概率計算模組,用以計算所述第一詞語在第二詞語出現條件下的概率P(第一詞語|第二詞語)=C(第一詞語,第二詞語)/ΣC(Yi,第二詞語)
權重計算模組,用以在查詢第二詞語時,取第一詞語與第二詞語的語義相關權重為W=1-P,其中,所述W為權重,所述P為第一詞語在第二詞語出現條件下的概率;及產生模組,用以獲得所述統計樣本中每個詞語相對其他詞語的語義相關權重後,產生詞語權重表。
其中,當所述加權詞語長度為最小滑動視窗加權長度時,所述匹配模組包括:權重最小值獲取模組,用以分別取目標字串的各個分詞在查詢字串各分詞的權重最小值;或者,分別取查詢字串的各個分詞在目標字串各分詞的權重最小值;第一計算模組,用以對各個目標字串,根據所述權重最小值分別計算最小滑動窗口加權長度;及排序模組,用以比較各目標字串的最小滑動視窗加權長度,長度小則排序在前,反之,排序在後。
本申請案還提供了一種對搜索結果進行排序的裝置,包括:詞語權重表獲取模組,用以計算統計樣本中每兩個詞語之間的語義關聯權重,以獲得並保存詞語權重表;詞獲取模組,用以接收用戶終端輸入的查詢字串,根據查詢字串而進行搜索並獲得目標字串;分詞模組,用以在伺服器獲得查詢字串和目標字串後,對所述查詢字串和目標字串分別進行分詞;第一權重最小值計算模組,用以計算***的詞語相對查詢字串各分詞的權重最小值;第二權重最小值計算模組,用以計算刪除的詞語相對目標字串各分詞的權重最小值;及匹配模組,用以根據所述權重最小值而計算總的編輯距離,對每個目標字串進行排序,並反饋給用戶終端。
其中,所述匹配模組包括:第一總編輯距離計算模組,用以對各個目標字串,分別確定總的編輯距離,所述總的編輯距離為:W =WI +WD 其中,W 表示總的編輯距離,WI 表示***詞語相對查詢字串各分詞的權重最小值,WD 表示刪除詞語相對目標字串各分詞的權重最小值;及排序模組,用以比較各目標字串的總的編輯距離,總的編輯距離小則排序在前,反之,排序在後。
其中,所述裝置還包括:第三權重最小值計算模組,用以在計算總的編輯距離長度之前,獲取替換詞語的編輯距離的權重最小值;所述匹配模組包括:第二總編輯距離計算模組,用以對各個目標字串,分別確定總的編輯距離,所述總的編輯距離為:W =WI +WD +WC 其中,W 表示總的編輯距離,WI 表示***詞語相對查詢字串各分詞的權重最小值,WD 表示刪除詞語相對目標字串各分詞的權重最小值,WC 表示替換詞語相對查詢字串和/或目標字串各分詞的權重最小值;及排序模組,用以比較各目標字串的總的編輯距離,總的編輯距離小則排序在前,反之,排序在後。
應用本申請案,相對於習知的簡單的詞語長度或距離的計算沒有考慮目標字串中的詞語跟查詢詞語的語義關聯程度,本申請案透過引入表示查詢字串和目標字串的語義關聯度的詞語權重,更準確地對目標字串進行排序,將與查詢字串語義相關的目標字串排在前面,反映出了各目標字串與查詢字串的匹配程度。在實際應用中應用簡單,且效果好。
下面將結合本申請案之實施例中的附圖,對本申請案之實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請案的一部分實施例,而不是全部的實施例。基於本申請案中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本申請案之保護的範圍。
本申請案在計算詞語距離或詞語長度中加入了語義因素,考慮了查詢字串和目標字串之間的語義關聯,更佳地衡量了查詢字串和目標字串的匹配程度,使得搜索引擎中的搜索結果可以得到更合理的排名。當然,本申請案可以應用在任何計算字串匹配度的地方,並不局限於搜索引擎。
由於本申請案考慮的字串之間的語義,因而需要每兩個詞語之間的語義關聯權重,下面首先說明如何獲得每兩個詞語之間的語義關聯權重,以獲得詞語權重表,參見圖1,具體包括如下步驟:步驟101,伺服器獲取統計樣本;該統計樣本的來源包括任何形式的文本或符號,其中,所述文本包括網頁文本、用戶搜索日誌、用戶點擊日誌等。
通常來說,如果統計樣本中第一詞語和第二詞語共同出現的次數越多,說明第一詞語和第二詞語越相關。例如,在文本中“諾基亞”和“手機”經常共同出現,或者用戶經常搜索“諾基亞”然後點擊了帶有“手機”的結果,都能在某種程度表示“諾基亞”和“手機”高度相關,因而如果用戶搜索“諾基亞”時,結果中含有“手機”對我們來說不是個意外。
步驟102,從統計樣本中選取第一詞語和第二詞語,統計所述第一詞語和第二詞語在統計樣本中共同出現的次數C(第一詞語,第二詞語);例如,統計“手機”和“諾基亞”的共現次數C(手機,諾基亞),並且於是可以得出,最後輸出所有詞語(在搜索每個詞語時)的權重。
步驟103,統計第二詞語在統計樣本中出現的次數ΣC(Yi,第二詞語),其中,所述Yi代表每個跟第二詞語共同出現的詞語;例如,統計“諾基亞”和其他詞語共現的總次數即“諾基亞”的出現總次數)ΣC(Yi,諾基亞),其中Yi代表每個跟“諾基亞”共現的詞語。
步驟104,計算第一詞語在第二詞語出現條件下的概率P(第一詞語|第二詞語)=C(第一詞語,第二詞語)/ΣC(Yi,第二詞語);例如,可以得到“手機”在“諾基亞”出現條件下的概率P(手機|諾基亞)=C(手機,諾基亞)/ΣC(Yi,諾基亞)。
步驟105,當查詢第二詞語時,取第一詞語與第二詞語的語義相關權重為W=1-P;其中,W為權重,P為第一詞語在第二詞語出現條件下的概率。
例如,取W=1-P作為查詢“諾基亞”時,“手機”和“諾基亞”的語義相關權重。
本例中權重採用的是1減去第一詞語在第二詞語出現下的條件概率,在其他實施例中也可以採用其他方式表示權重,如直接用P作為權重等等。
步驟106,判斷統計樣本中是否所有詞語都處理完畢,是則執行步驟107,否則重複上述步驟,依次獲得所述統計樣本中每個詞語相對其他詞語的語義相關權重,步驟107,輸出包含統計樣本中每個詞語相對其他詞語的語義相關權重,以獲得到詞語權重表。
例如,詞語權重表的其中一種可能的形式可以如表1所示:
需要說明的是,表1所示詞語權重表僅僅是一具體實施例,在實際應用中詞語權重表還可以有其他的表現形式,這裏,並不對詞語權重表的表現形式進行限定。
至此,獲得了詞語權重表,亦即獲得了在查詢第二詞語時第一詞語的權重。
需要說明的是,詞語權重的獲取可以使用任何方式,圖1所示僅為透過統計語言模型而獲得到的統計概率一具體實施例而已,在實際應用中還可以採用其他方式獲取,如任何自動計算或人工設定的方式,在此,並不對獲取詞語權重表的方式進行限定。
圖2是根據本申請案實施例的一種對搜索結果進行排序的方法流程圖,具體包括以下步驟:步驟201,伺服器獲得查詢字串和目標字串。
其中,查詢字串通常是用戶輸入的,目標字串通常是伺服器經檢索後得到的與查詢字串相關的字串,例如,查詢字串亦即用戶輸入的是“諾基亞電池”,伺服器檢索後獲得到的目標字串是A“諾基亞電池”,B“諾基亞手機,贈送電池”,C“諾基亞n73手機原裝電池”,則上述透過檢索而獲得到的A、B、C都是目標字串。本申請案實施例的目的就是判斷各目標字串(如檢索結構A、B、C)與查詢字串的匹配程度。也就是說,伺服器接收用戶終端輸入的查詢字串,根據查詢字串而進行搜索並獲得目標字串。
在本實施例中,以查詢字串為“諾基亞電池”,目標字串為C“諾基亞n73手機原裝電池”為例進行說明。對於目標字串A“諾基亞電池”和B“諾基亞手機,贈送電池”與目標字串C“諾基亞n73手機原裝電池”的處理過程基本相同,不再詳述。
步驟202,伺服器對所述查詢字串和目標字串分別進行分詞,獲得到構成查詢字串的分詞和構成目標字串的分詞。
這裏,令查詢字串為Q,目標字串為T,對查詢字串分詞後可得到Q1Q2...Qm,對目標字串分詞後可得到T1T2...Tn。在本實施例中,對查詢字串分詞以後得到:Q1Q2=諾基亞|電池,對目標字串分詞後得到T1T2T3T4T5=諾基亞|n73|手機|原裝|電池。
本申請案中的分詞可以是對字串任意方法的切分,可以分成語言意義上的詞,也可以是分成單字或字母、符號等等。
步驟203,將查詢字串的各分詞依次與目標字串的分詞兩兩組合,獲得到多個由一個查詢字串分詞和一個目標字串分詞所構成的分詞組合;具體上,獲得到(Ti,Q1)、(Ti,Q2)...(Ti,Qm)。
本實施例中得到的分詞組合包括:(T1,Q1)、(T1,Q2)、(T2,Q1)、(T2,Q2)、(T3,Q1)、(T3,Q2)、(T4,Q1)、(T4,Q2)、(T5,Q1)、(T5,Q2)。
步驟204,查詢詞語權重表,獲得每個分詞組合的權重值;這裏,令W表示權重,則根據權重表得到的每個分詞 組合的權重值為:W(T1,Q1)、W(T1,Q2)、W(T2,Q1)、W(T2,Q2)、W(T3,Q1)、W(T3,Q2)、W(T4,Q1)、W(T4,Q2)、W(T5,Q1)、W(T5,Q2)。
令W(T1,Q1)=W1 W(T1,Q2)=W1’
W(T2,Q1)=W2 W(T2,Q2)=W2’
W(T3,Q1))=W3 W(T3,Q2)=W3’
W(T4,Q1)=W4 W(T4,Q2)=W4’
W(T5,Q1)=W5 W(T5,Q2)=W5’
其中,若Ti在Q中,則取Wi=0,例如,T1為諾基亞,Q1也為諾基亞,則W(T1,Q1)=W1=0,同理,W(T5,Q2)=W5’=0。
步驟205,根據所述權重值而獲得加權詞語長度;在本實施例中,加權詞語長度為最小滑動視窗加權長度,此時,步驟205具體包括以下步驟:
i)分別獲取目標字串的各個分詞與查詢字串各分詞的權重最小值;或者,分別獲取查詢字串的各個分詞與目標字串各分詞的權重最小值;由於獲取目標字串的各個分詞與查詢字串各分詞的權重最小值和獲取查詢字串的各個分詞與目標字串各分詞的權重最小值的處理過程非常相似,下面僅以獲取目標字串的各個分詞與查詢字串各分詞的權重最小值為例進行說明。
具體到上述實施例,亦即需要獲取T1相對Q1和Q2的兩個權重中的最小值,T2相對Q1和Q2的兩個權重中的最小值,……這裏,假設W(T1,Q1)和W(T1,Q2)的權重最小值為W1,W(T2,Q1)和W(T2,Q2)的權重最小值為W2,W(T3,Q1)和W(T3,Q2)的權重最小值為W3,W(T4,Q1)和W(T4,Q2)的權重最小值為W4,W(T5,Q1)和W(T5,Q2)的權重最小值為W5’。
ii)對各個目標字串,根據所述權重最小值而分別計算最小滑動窗口加權長度;確定每個目標字串的最小滑動視窗加權長度具體包括:最小滑動窗口加權長度,其中,W表示權重,Ti表示目標字串中的第i個的分詞,k、h分別表示目標字串最小滑動視窗的起始位置和結束位置,Qj表示查詢字串中的第j個分詞,m表示查詢字串分詞的個數。
對於上述實施例,最小滑動窗口加權長度ΣWi=W1+W2+W3+W4+W5’重複上述步驟202至205,可以得到查詢字串相對各個目標字串的最小滑動視窗加權長度。
步驟206,根據所述加權詞語長度而確定查詢字串和目標字串的匹配程度,亦即根據所述加權詞語長度對每個目標字串進行排序,並反饋給用戶終端。
具體上,比較各目標字串的最小滑動視窗加權長度,所述長度越小則匹配程度越高,反之,匹配程度越低,也即長度越小則排序越靠前,反之,排序越靠後。
至此,確定了查詢字串與各目標字串之間的匹配程度。傳統的簡單的詞語長度的計算沒有考慮目標字串中的詞語跟查詢詞語的語義關聯程度,因而得到的詞語長度不能準確地反映查詢和目標的匹配程度。如“諾基亞電池”和“諾基亞n73手機原裝電池”,雖然長度差異很大,但是如果查詢詞語是“諾基亞電池”的情況下,兩者沒有很大實質區別。本申請案透過引入表示查詢字串和目標字串的語義關聯度的詞語權重,更準確地對目標字串進行排序,將與查詢字串語義相關的目標字串排在前面,反映出了各目標字串與查詢字串的匹配程度。在實際應用中應用簡單,且效果好。
圖3是根據本申請案實施例的另一種對搜索結果進行排序的方法流程圖,本實施例基於編輯距離計算查詢字串和目標字串之間的差異,其中,編輯距離是指從一個字串變化到另一個字串最少需要的基本操作次數,或理解為兩個字串差異部分的長度之和。通常的基本操作包括***一個字/詞,刪除一個字/詞,替換一個字/詞,或者其他根據需要而設的操作。例如從“我愛你”變化到“我不愛她”至少需要***一個“不”、將“你”替換成“她”兩次基本操作,因此兩者的編輯距離為2,同理,“隱形的翅膀”和“好吃的雞翅膀”編輯距離為3。圖3所示流程具體上包括以下步驟:步驟301,伺服器獲得查詢字串和目標字串。
其中,查詢字串通常是用戶輸入的,目標字串通常是伺服器經檢索後得到的與查詢字串相關的字串。例如,查詢字串是“諾基亞手機電池”,目標字串是“原裝諾基亞手機電池”和“諾基亞手機,贈送電池”。也就是說,伺服器接收用戶終端輸入的查詢字串,根據查詢字串進行搜索並獲得目標字串。
本申請案實施例的目的就是判斷各目標字串與查詢字串的匹配程度。
在本實施例中,以查詢字串為“諾基亞手機電池”,目標字串為“原裝諾基亞手機電池”為例進行說明。對於目標字串“諾基亞手機,贈送電池”,由於其與目標字串“原裝諾基亞手機電池”的處理過程基本相同,不再詳述。
步驟302,伺服器對所述查詢字串和目標字串分別進行分詞,得到構成查詢字串的分詞和構成目標字串的分詞。
這裏,令查詢字串為Q,目標字串為T,對查詢字串分詞後可得到Q1Q2...Qm,對目標字串分詞後可得到T1T2...Tn。在本實施例中,對查詢字串分詞以後得到:Q1Q2Q3=諾基亞|手機|電池,對目標字串分詞後得到T1T2T3=原裝|諾基亞|電池。
本申請案中的分詞可以是對字串任意方法的切分,可以分成語言意義上的詞,也可以是分成單字或字母、符號等等。
步驟303,伺服器根據所述詞語權重表,計算***的詞語相對查詢字串各分詞的權重最小值;具體上,根據詞語權重表,獲得***的詞語相對查詢字串各分詞的權重值,在本例中,***了“原裝”一詞,令***的詞為I,則可以得到***的詞語相對查詢字串各分詞的權重值:W(I1,Q1)、W(I1,Q2)、W(I1,Q3);計算***的詞語相對查詢字串各分詞的權重最小值為:
其中,W表示權重,It 表示***字串中的第t個的分詞,n分別表示***分詞的個數,Qj表示查詢字串中的第j個分詞,m表示查詢字串分詞的個數。
步驟304,根據詞語權重表,計算刪除的詞語相對目標字串各分詞的權重最小值;具體的,根據詞語權重表,獲得刪除的詞語相對目標字串各分詞的權重值,在本例中,刪除了“手機”一詞,令刪除的詞為D,則可以得到刪除的詞語相對目標字串各分詞的權重值:W(D1,T1)、W(D1,T2)、W(D1,T3);計算刪除的詞語相對查詢字串各分詞的權重最小值為
其中,W表示權重,Ti表示目標字串中的第i個的分詞,q表示目標字串分詞的個數,Dd 表示刪除詞語中的第d個分詞,p表示刪除分詞的個數。
步驟305,根據所述權重最小值計算總的編輯距離,確定查詢字串和目標字串的匹配程度,亦即根據所述總的編輯距離對每個目標字串進行排序,並反饋給用戶終端。
具體上,對各個目標字串,分別確定總的編輯距離,對於一個目標字串的總編輯距離為:
W =WI +WD
其中,W 表示總的編輯距離,WI 表示***詞語相對查詢字串各分詞的權重最小值,WD 表示刪除詞語相對目標字串各分詞的權重最小值;比較各目標字串的總的編輯距離,所述總的編輯距離越小則匹配程度越高,反之,匹配程度越低,也即總的編輯距離越小則排序越靠前,反之,排序越靠後。
至此,確定了查詢字串與各目標字串的匹配程度。傳統的簡單的詞語距離的計算沒有考慮目標字串中的詞語跟查詢詞語的語義關聯程度,因而得到的詞語距離不能準確地反映查詢和目標的匹配程度。本申請案透過引入表示查詢字串和目標字串的語義關聯度的詞語權重,更準確地對目標字串進行排序,將與查詢字串語義相關的目標字串排在前面,反映出了各目標字串與查詢字串的匹配程度。在實際應用中應用簡單,且效果好。
需要說明的是,對於圖3所示實施例,還存在詞語替換的情況,例如將“我和你”變為“我和他”時,其中的“你”可認為是被“他”替換,這裏,對詞語替換的情況可以做如下處理:方式一:將替換操作認為是增加和刪除操作的組合,亦即認為替換操作是不存在的,例如,將“我和你”變為“我和他”時,認為是刪除了“你”,增加了“他”,亦即所有的變換都是***和刪除操作,因而,應用圖3所示實施例可以很好的解決。
方式二,將替換操作視為除了***和刪除之外的第三種操作,例如,將“我和你”變為“我和他”時,認為是將“你”替換為“他”,此時,需要計算替換詞語的編輯距離的權重最小值,具體可以有兩種計算方法:a)替換詞語的編輯距離的權重最小值等於預設的固定值,如,令替換詞語的編輯距離的權重最小值固定的等於1;或者,b)令替換詞語的編輯距離等於***詞語相對查詢字串各分詞的權最小重值與刪除詞語相對目標字串各分詞的權重最小值之和,或者,令替換詞語的編輯距離等於***詞語相對查詢字字串各分詞的權重最小值與刪除詞語相對目標字串各分詞的權重最小值之和的平均值,或者,令替換詞語的編輯距離等於***詞語相對查詢字串各分詞的權重最小值與刪除詞語相對目標字串各分詞的權重最小值兩種中的最大值,或其他任意組合形式。
例如,替換詞語“他”的編輯距離=***的“他”相對查詢字串“我和你”的各分詞的權重最小值+刪除詞語“你”相對目標字串“我和他”各分詞的權重最小值;或者,替換詞語“他”的編輯距離=(***的“他”相對查詢字串“我和你”的各分詞的權重最小值+刪除詞語“你”相對目標字串“我和他”各分詞的權重最小值)/2。等等。
在方式二的情況下,步驟305具體包括:對各個目標字串,分別確定總的編輯距離,所述總的編輯距離為:
W =WI +WD +WC
其中,W 表示總的編輯距離,WI 表示***詞語相對查詢字串各分詞的權重最小值,WD 表示刪除詞語相對目標字串各分詞的權重最小值,WC 表示替換詞語相對查詢字串和/或目標字串各分詞的權重最小值;比較各目標字串的總的編輯距離,所述總的編輯距離越小則匹配程度越高,反之,匹配程度越低,也即總的編輯距離越小則排序越靠前,反之,排序越靠後。
需要說明的是,可以交錯地根據查詢字串和目標字串計算權重,如圖3所示實施例中,對於***的字串,根據查詢字串計算權重,對於刪除的字串,根據目標字串計算權重。
需要說明的是,對於圖2和圖3所示實施例,分詞可以是對字串任意方法的切分,可以分成語言意義上的詞,也可以是分成單字或字母、符號。
需要說明的是,對於圖2和圖3所示實施例,可以對權重進行任何形式的計算或變換,比如取對數等;也可以取目標詞語對各個查詢詞語的權重的最大值、平均值或其他形式的運算作為該詞的權重(加權長度)。
需要說明的是,對於圖2和圖3所示實施例,可以反過來將目標字串作為查詢字串,將查詢字串作為目標字串,不會產生本質區別。
需要說明的是,對於圖2和圖3所示實施例,詞語距離或長度的計算區間可以是整個字串或根據演算法選定的任意區間,如選定某字串中跟另一個字串差異的部分。
需要說明的是,匹配方法不一定要使用最小滑動窗口或編輯距離,可以是任何關於加權詞語距離或詞語長度的計算。
需要說明的是,本申請案並不局限應用於檢索系統如搜索引擎,也可以應用於任何計算兩個字串匹配程度的系統。
本申請案還揭示了一種對搜索結果進行排序的裝置,參見圖4,具體包括:詞語權重表獲取模組401,用以計算統計樣本中每兩個詞語之間的語義關聯權重,獲得並保存詞語權重表;詞獲取模組402,用以接收用戶終端輸入的查詢字串,根據查詢字串而進行搜索並獲得目標字串;分詞模組403,用以在伺服器獲得查詢字串和目標字串後,對所述查詢字串和目標字串分別進行分詞;組合模組404,用以將查詢字串的各分詞依次與目標字串的分詞兩兩組合;查詢模組405,用以查詢所述詞語權重表,獲得每個分詞組合的權重值;匹配模組406,用以根據所述權重值獲得加權詞語長度,對每個目標字串進行排序,並反饋給用戶終端。
上述詞語權重表獲取模組401可以具體包括:樣本獲取模組,用以獲取統計樣本;
第一統計模組,用以從所述統計樣本中選取第一詞語和第二詞語,統計所述第一詞語和第二詞語在統計樣本中共同出現的次數C(第一詞語,第二詞語)
第二統計模組,用以統計第二詞語在統計樣本中出現的次數ΣC(Yi,第二詞語),其中,所述Yi代表每個跟第二詞語共同出現的詞語;概率計算模組,用以計算所述第一詞語在第二詞語出現條件下的概率P(第一詞語|第二詞語)=C(第一詞語,第二詞語)/ΣC(Yi,第二詞語)
權重計算模組,用以在查詢第二詞語時,取第一詞語與第二詞語的語義相關權重為W=1-P,其中,所述W為權重,所述P為第一詞語在第二詞語出現條件下的概率;產生模組,用以獲得所述統計樣本中每個詞語相對其他詞語的語義相關權重後,產生詞語權重表。
當所述加權詞語長度為最小滑動視窗加權長度時,上述匹配模組405可以具體包括: 權重最小值獲取模組,用以分別取目標字串的各個分詞在查詢字串各分詞的權重最小值;或者,分別取查詢字串的各個分詞在目標字串各分詞的權重最小值;第一計算模組,用以對各個目標字串,根據所述權重最小值分別計算最小滑動窗口加權長度;排序模組,用以比較各目標字串的最小滑動視窗加權長度,長度小則排序在前,反之,排序在後,也即長度越小時判定匹配程度越高,反之,判定匹配程度越低。
應用圖4所示實施例,透過引入表示查詢字串和目標字串的語義關聯度的詞語權重,更準確地反映出了各目標字串與查詢字串的匹配程度。在實際應用中應用簡單,且效果好。
本申請案實施例還提供了一種對搜索結果進行排序的裝置,參見圖5,包括:詞語權重表獲取模組501,用以計算統計樣本中每兩個詞語之間的語義關聯權重,獲得並保存詞語權重表;詞獲取模組502,用以接收用戶終端輸入的查詢字串,根據查詢字串進行搜索並獲得目標字串;分詞模組503,用以在伺服器獲得查詢字串和目標字串後,對所述查詢字串和目標字串分別進行分詞;第一權重最小值計算模組504,用以計算***的詞語相對查詢字串各分詞的權重最小值;第二權重最小值計算模組505,用以計算刪除的詞語相對目標字串各分詞的權重最小值;匹配模組506,用以根據所述權重最小值計算總的編輯距離,對每個目標字串進行排序,並反饋給用戶終端。
上述匹配模組506可以具體包括:第一總編輯距離計算模組,用以對各個目標字串,分別確定總的編輯距離,所述總的編輯距離為:W =WI +WD 其中,W 表示總的編輯距離,WI 表示***詞語相對查詢字串各分詞的權重最小值,WD 表示刪除詞語相對目標字串各分詞的權重最小值;排序模組,用以比較各目標字串的總的編輯距離,總的編輯距離小則排序在前,反之,排序在後,也即總的編輯距離越小時判定匹配程度越高,反之,判定匹配程度越低。
圖5所述裝置還可以包括:第三權重最小值計算模組,用以在計算總的編輯距離長度之前,獲取替換詞語的編輯距離的權重最小值;此時,上述匹配模組505可以具體包括:第二總編輯距離計算模組,用以對各個目標字串,分別確定總的編輯距離,所述總的編輯距離為:W =WI +WD +WC 其中,W 表示總的編輯距離,WI 表示***詞語相對查詢字串各分詞的權重最小值,WD 表示刪除詞語相對目標字串各分詞的權重最小值,WC 表示替換詞語相對查詢字串和/或目標字串各分詞的權重最小值;排序模組,用以比較各目標字串的總的編輯距離,總的編輯距離小則排序在前,反之,排序在後,也即總的編輯距離越小時判定匹配程度越高,反之,判定匹配程度越低。
應用圖5所示裝置,透過引入表示查詢字串和目標字串的語義關聯度的詞語權重,更準確地反映出了各目標字串與查詢字串的匹配程度。在實際應用中應用簡單,且效果好。
需要說明的是,為了描述的方便,描述以上裝置時以功能分為各種模組分別描述。當然,在實施本申請案時可以把各模組的功能在同一個或多個軟體和/或硬體中實現。
需要說明的是,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
透過以上的實施方式的描述可知,本領域的技術人員可以清楚地瞭解到本申請案可借助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解,本申請案的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該電腦軟體產品可以儲存在儲存媒體中,如ROM/RAM、磁碟、光碟等,包括若干指令用以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)執行本申請案之各個實施例或者實施例的某些部分所述的方法。
本申請案可用於許多通用或專用的計算系統環境或配置中。例如:個人電腦、伺服器電腦、手持設備或攜帶型設備、平板型設備、多處理器系統、基於微處理器的系統、置頂盒、可編程的消費電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分散式計算環境等等。
本申請案可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地說,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式計算環境中實踐本申請案,在這些分散式計算環境中,由透過通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。
以上所述僅為本申請案的較佳實施例而已,並非用於限定本申請案的保護範圍。凡在本申請案的精神和原則之內所作的任何修改、等同替換、改進等,均包含在本申請案的保護範圍內。
401...詞語權重表獲取模組
402...詞獲取模組
403...分詞模組
404...組合模組
405...查詢模組
406...匹配模組
501...詞語權重表獲取模組
502...詞獲取模組
503...分詞模組
504...第一權重最小值計算模組
505...第二權重最小值計算模組
506...匹配模組
為了更清楚地說明本申請案之實施例中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請案的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是根據本申請案實施例的獲得詞語權重表的流程圖;
圖2是根據本申請案實施例的一種對搜索結果進行排序的方法流程圖;
圖3是根據本申請案實施例的另一種對搜索結果進行排序的方法流程圖;
圖4是根據本申請案實施例的一種對搜索結果進行排序的裝置示意圖;
圖5是根據本申請案實施例的另一種對搜索結果進行排序的裝置示意圖。

Claims (13)

  1. 一種對搜索結果進行排序的方法,其特徵在於,伺服器預先計算統計樣本中每兩個詞語之間的語義關聯權重,以獲得並保存詞語權重表,該方法還包括:該伺服器接收用戶終端輸入的查詢字串,根據該查詢字串而進行搜索並獲得目標字串;該伺服器對該查詢字串和該目標字串分別進行分詞,將該查詢字串的各分詞依次與該目標字串的分詞兩兩組合;查詢詞語權重表,以獲得每個分詞組合的權重值;及根據該權重值而獲得加權詞語長度,根據該加權詞語長度而對每個目標字串進行排序,並反饋給該用戶終端,其中,該加權詞語長度為最小滑動窗口加權長度;根據該權重值而獲得該加權詞語長度對每個目標字串進行排序的步驟包括:分別取該目標字串的各個分詞在該查詢字串各分詞的權重最小值;或者,分別取該查詢字串的各個分詞在該目標字串各分詞的權重最小值;對各個目標字串,根據該權重最小值分別計算該最小滑動窗口加權長度;及比較各目標字串的最小滑動視窗加權長度,長度小則排序在前,反之,排序在後,其中,計算每個目標字串的最小滑動視窗加權長度具體包括: 該最小滑動窗口加權長度其中,W表示權重,Ti表示該目標字串中的第i個的分詞,k、h分別表示該目標字串最小滑動視窗的起始位置和結束位置,Qj表示該查詢字串中的第j個分詞,m表示該查詢字串分詞的個數。
  2. 如申請專利範圍第1項所述的方法,其中,該伺服器預先計算統計樣本中每兩個詞語之間的語義關聯權重,以獲得詞語權重表的步驟包括:該伺服器獲取統計樣本;從該統計樣本中選取第一詞語和第二詞語,以統計該第一詞語和該第二詞語在該統計樣本中共同出現的次數C(第一詞語,第二詞語);統計該第二詞語在該統計樣本中出現的次數ΣC(Yi,第二詞語),其中,該Yi代表每個跟該第二詞語共同出現的詞語;計算該第一詞語在該第二詞語出現條件下的概率P(第一詞語|第二詞語)=C(第一詞語,第二詞語)/ΣC(Yi,第二詞語);在查詢該第二詞語時,取該第一詞語與該第二詞語的語義相關權重為W=1-P,其中,該W為權重,該P為該第一詞語在該第二詞語出現條件下的概率;及重複上述步驟,依次獲得該統計樣本中每個詞語相對其他詞語的語義相關權重,以獲得到詞語權重表。
  3. 如申請專利範圍第2項所述的方法,其中,該統計 樣本的來源包括任何形式的文本或符號,該文本包括網頁文本、用戶搜索日誌、及用戶點擊日誌。
  4. 一種對搜索結果進行排序的方法,其特徵在於,伺服器預先計算統計樣本中每兩個詞語之間的語義關聯權重,以獲得並保存詞語權重表,該方法還包括:該伺服器接收用戶終端輸入的查詢字串,根據該查詢字串而進行搜索並獲得目標字串;該伺服器對該查詢字串和該目標字串分別進行分詞;該伺服器根據該存詞語權重表,計算***的詞語相對該查詢字串各分詞的權重最小值;該伺服器根據該詞語權重表,計算刪除的詞語相對該目標字串各分詞的權重最小值;及根據該權重最小值而計算總的編輯距離,且根據該總的編輯距離而對每個目標字串進行排序,並反饋給該用戶終端,其中,該根據該詞語權重表,計算***的詞語相對該查詢字串各分詞的權重最小值的步驟包括:根據該詞語權重表,獲得***的詞語相對該查詢字串各分詞的權重值;及計算該***的詞語相對該查詢字串各分詞的權重最小值為 其中,W表示權重,It 表示***字串中的第t個的分詞,n分別表示***分詞的個數,Qj表示該查詢字串中的 第j個分詞,m表示該查詢字串分詞的個數。
  5. 如申請專利範圍第4項所述的方法,其中,該根據該詞語權重表,計算刪除的詞語相對該目標字串各分詞的權重最小值的步驟包括:根據該詞語權重表,獲得刪除的詞語相對該目標字串各分詞的權重值;及計算該刪除的詞語相對該目標字串各分詞的權重最小值為 其中,W表示權重,Ti表示該目標字串中的第i個的分詞,q表示該目標字串分詞的個數,Dd 表示該刪除詞語中的第d個分詞,p表示刪除分詞的個數。
  6. 如申請專利範圍第4項所述的方法,其中,根據該權重最小值而計算總的編輯距離,對每個目標字串進行排序的步驟包括:對各個目標字串,分別確定該總的編輯距離,該總的編輯距離為:W =WI +WD 其中,W 表示該總的編輯距離,WI 表示***詞語相對該查詢字串各分詞的權重最小值,WD 表示該刪除詞語相對該目標字串各分詞的權重最小值;及比較各目標字串的該總的編輯距離,該總的編輯距離小則排序在前,反之,排序在後。
  7. 如申請專利範圍第4項所述的方法,其中,在計算 該總的編輯距離長度之前,還包括:計算替換詞語的編輯距離的權重最小值;根據該權重最小值而計算該總的編輯距離,以確定該查詢字串和該目標字串的匹配程度的步驟包括:對各個目標字串,分別確定該總的編輯距離,該總的編輯距離為:W =WI +WD +WC 其中,W 表示該總的編輯距離,WI 表示***詞語相對該查詢字串各分詞的權重最小值,WD 表示該刪除詞語相對該目標字串各分詞的權重最小值,WC 表示該替換詞語相對該查詢字串和/或該目標字串各分詞的權重最小值;及比較各目標字串的該總的編輯距離,該總的編輯距離小則排序在前,反之,排序在後。
  8. 如申請專利範圍第7項所述的方法,其中,該計算替換詞語的編輯距離的權重最小值的方式包括:令該替換詞語的編輯距離的權重最小值等於預設的固定值,或者,令該替換詞語的編輯距離等於該***詞語相對該查詢字串各分詞的權重最小值與該刪除詞語相對該目標字串各分詞的權重最小值之和,或平均值,或兩者中的最大值。
  9. 一種對搜索結果進行排序的裝置,其特徵在於,包括:詞語權重表獲取模組,用以計算統計樣本中每兩個詞 語之間的語義關聯權重,獲得並保存詞語權重表;詞獲取模組,用以接收用戶終端輸入的查詢字串,根據該查詢字串而進行搜索並獲得目標字串;分詞模組,用以在伺服器獲得該查詢字串和該目標字串後,對該查詢字串和該目標字串分別進行分詞;組合模組,用以將該查詢字串的各分詞依次與該目標字串的分詞兩兩組合;查詢模組,用以查詢該詞語權重表,獲得每個分詞組合的權重值;及匹配模組,用以根據該權重值而獲得加權詞語長度,對每個目標字串進行排序,並反饋給該用戶終端,其中,當該加權詞語長度為最小滑動視窗加權長度時,該匹配模組包括:權重最小值獲取模組,用以分別取該目標字串的各個分詞在該查詢字串各分詞的權重最小值;或者,分別取該查詢字串的各個分詞在該目標字串各分詞的權重最小值;第一計算模組,用以對各個目標字串,根據該權重最小值而分別計算該最小滑動窗口加權長度;及排序模組,用以比較各目標字串的該最小滑動視窗加權長度,長度小則排序在前,反之,排序在後,其中,計算每個目標字串的最小滑動視窗加權長度具體包括: 該最小滑動窗口加權長度其中,W表示權重,Ti表示該目標字串中的第i個的分 詞,k、h分別表示該目標字串最小滑動視窗的起始位置和結束位置,Qj表示該查詢字串中的第j個分詞,m表示該查詢字串分詞的個數。
  10. 如申請專利範圍第9項所述的裝置,其中,該詞語權重表獲取模組包括:樣本獲取模組,用以獲取該統計樣本;第一統計模組,用以從該統計樣本中選取第一詞語和第二詞語,統計該第一詞語和該第二詞語在該統計樣本中共同出現的次數C(第一詞語,第二詞語)第二統計模組,用以統計該第二詞語在該統計樣本中出現的次數ΣC(Yi,第二詞語),其中,該Yi代表每個跟該第二詞語共同出現的詞語;概率計算模組,用以計算該第一詞語在該第二詞語出現條件下的概率P(第一詞語|第二詞語)=C(第一詞語,第二詞語)/ΣC(Yi,第二詞語)權重計算模組,用以在查詢該第二詞語時,取該第一詞語與該第二詞語的語義相關權重為W=1-P,其中,該W為權重,該P為該第一詞語在該第二詞語出現條件下的概率;及產生模組,用以獲得該統計樣本中每個詞語相對其他詞語的語義相關權重後,產生該詞語權重表。
  11. 一種對搜索結果進行排序的裝置,其特徵在於,包括:詞語權重表獲取模組,用以計算統計樣本中每兩個詞 語之間的語義關聯權重,獲得並保存詞語權重表;詞獲取模組,用以接收用戶終端輸入的查詢字串,根據該查詢字串而進行搜索並獲得目標字串;分詞模組,用以在伺服器獲得該查詢字串和該目標字串後,對該查詢字串和該目標字串分別進行分詞;第一權重最小值計算模組,用以計算***的詞語相對該查詢字串各分詞的權重最小值;第二權重最小值計算模組,用以計算刪除的詞語相對該目標字串各分詞的權重最小值;及匹配模組,用以根據該權重最小值計算總的編輯距離,對每個目標字串進行排序,並反饋給該用戶終端,其中,該根據該詞語權重表,計算***的詞語相對該查詢字串各分詞的權重最小值的步驟包括:根據該詞語權重表,獲得***的詞語相對該查詢字串各分詞的權重值;及計算該***的詞語相對該查詢字串各分詞的權重最小值為 其中,W表示權重,It 表示***字串中的第t個的分詞,n分別表示***分詞的個數,Qj表示該查詢字串中的第j個分詞,m表示該查詢字串分詞的個數。
  12. 如申請專利範圍第11項所述的裝置,其中,該匹配模組包括:第一總編輯距離計算模組,用以對各個目標字串,分 別確定該總的編輯距離,該總的編輯距離為:W =WI +WD 其中,W 表示該總的編輯距離,WI 表示該***詞語相對該查詢字串各分詞的權重最小值,WD 表示該刪除詞語相對該目標字串各分詞的權重最小值;及排序模組,用以比較各目標字串的該總的編輯距離,該總的編輯距離小則排序在前,反之,排序在後。
  13. 如申請專利範圍第11項所述的裝置,其中,該裝置還包括:第三權重最小值計算模組,用以在計算該總的編輯距離長度之前,獲取替換詞語的編輯距離的權重最小值;該匹配模組包括:第二總編輯距離計算模組,用以對各個目標字串,分別確定該總的編輯距離,該總的編輯距離為:W =WI +WD +WC 其中,W 表示該總的編輯距離,WI 表示該***詞語相對該查詢字串各分詞的權重最小值,WD 表示該刪除詞語相對該目標字串各分詞的權重最小值,WC 表示該替換詞語相對該查詢字串和/或該目標字串各分詞的權重最小值;及排序模組,用以比較各目標字串的該總的編輯距離,該總的編輯距離小則排序在前,反之,排序在後。
TW099106782A 2010-03-09 2010-03-09 Methods and devices for sorting search results TWI486797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW099106782A TWI486797B (zh) 2010-03-09 2010-03-09 Methods and devices for sorting search results

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW099106782A TWI486797B (zh) 2010-03-09 2010-03-09 Methods and devices for sorting search results

Publications (2)

Publication Number Publication Date
TW201131395A TW201131395A (en) 2011-09-16
TWI486797B true TWI486797B (zh) 2015-06-01

Family

ID=50180358

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099106782A TWI486797B (zh) 2010-03-09 2010-03-09 Methods and devices for sorting search results

Country Status (1)

Country Link
TW (1) TWI486797B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040141354A1 (en) * 2003-01-18 2004-07-22 Carnahan John M. Query string matching method and apparatus
WO2007149623A2 (en) * 2006-04-25 2007-12-27 Infovell, Inc. Full text query and search systems and method of use
US7398461B1 (en) * 2002-01-24 2008-07-08 Overture Services, Inc. Method for ranking web page search results
US20090100078A1 (en) * 2007-10-16 2009-04-16 Institute For Information Industry Method and system for constructing data tag based on a concept relation network
TW200928810A (en) * 2007-12-31 2009-07-01 Aletheia University Method for searching data
TW200945079A (en) * 2008-04-11 2009-11-01 Microsoft Corp Search results ranking using editing distance and document information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398461B1 (en) * 2002-01-24 2008-07-08 Overture Services, Inc. Method for ranking web page search results
US20040141354A1 (en) * 2003-01-18 2004-07-22 Carnahan John M. Query string matching method and apparatus
WO2007149623A2 (en) * 2006-04-25 2007-12-27 Infovell, Inc. Full text query and search systems and method of use
US20090100078A1 (en) * 2007-10-16 2009-04-16 Institute For Information Industry Method and system for constructing data tag based on a concept relation network
TW200928810A (en) * 2007-12-31 2009-07-01 Aletheia University Method for searching data
TW200945079A (en) * 2008-04-11 2009-11-01 Microsoft Corp Search results ranking using editing distance and document information

Also Published As

Publication number Publication date
TW201131395A (en) 2011-09-16

Similar Documents

Publication Publication Date Title
US9317591B2 (en) Ranking search results based on word weight
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
CN104199965B (zh) 一种语义信息检索方法
CN110019658B (zh) 检索项的生成方法及相关装置
CN110888990B (zh) 文本推荐方法、装置、设备及介质
US8560513B2 (en) Searching for information based on generic attributes of the query
WO2021120627A1 (zh) 数据搜索匹配方法、装置、计算机设备和存储介质
CN104133877B (zh) 软件标签的生成方法和装置
CN103678576A (zh) 基于动态语义分析的全文检索***
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
JP6355840B2 (ja) ストップワード識別方法および装置
CN112988969A (zh) 用于文本检索的方法、装置、设备以及存储介质
CN107102993B (zh) 一种用户诉求分析方法和装置
AU2009234120A1 (en) Search results ranking using editing distance and document information
WO2014085776A2 (en) Web search ranking
WO2011152925A2 (en) Detection of junk in search result ranking
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
Minkov et al. Improving graph-walk-based similarity with reranking: Case studies for personal information management
CN103226601B (zh) 一种图片搜索的方法和装置
US20070239735A1 (en) Systems and methods for predicting if a query is a name
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
US9195940B2 (en) Jabba-type override for correcting or improving output of a model
TWI486797B (zh) Methods and devices for sorting search results
Wu et al. A personalized intelligent web retrieval system based on the knowledge-base concept and latent semantic indexing model

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees