TWI722325B

TWI722325B - 對待評估樣本進行分類的方法、裝置、電腦可讀儲存介質及計算設備

Info

Publication number: TWI722325B
Application number: TW107135354A
Authority: TW
Inventors: 周書恆; 祝慧佳; 趙智源
Original assignee: 開曼群島商創新先進技術有限公司
Priority date: 2017-12-12
Filing date: 2018-10-08
Publication date: 2021-03-21
Also published as: WO2019114305A1; SG11202000863RA; TW201928771A; EP3644232B1; CN108197638A; CN108197638B; EP3644232A1; US20200210459A1; EP3644232A4

Abstract

本說明書實施例提供一種對待評估樣本進行分類的方法，該方法包括：獲取待評估樣本T，及其樣本特徵Ft；在分類樣本庫中選擇一定數目N個示例樣本；獲取待評估樣本T與N個示例樣本中各個示例樣本i的特徵相似度SIMi；獲取各個示例樣本i的樣本質量Qi；至少根據該特徵相似度SIMi和該樣本質量Qi的差值ri，確定待評估樣本T與各個示例樣本i的綜合相似度Si；根據綜合相似度Si，確定待評估樣本T是否屬於分類樣本庫的分類。還提供了對應的裝置。通過以上方法和裝置，可以更有效更準確地對待評估樣本進行分類。

Description

對待評估樣本進行分類的方法、裝置、電腦可讀儲存介質及計算設備

本說明書一個或多個實施例涉及電腦技術領域，尤其涉及樣本分類和識別。

隨著網際網路的升級，網路上每天產生各種各樣的資訊和內容。在許多情況下，需要對這些內容進行識別和分類。例如，許多網路平台每天產生大量的垃圾資訊，廣告資訊等。為了保障用戶體驗，需要對垃圾和廣告資訊進行識別和過濾。又例如，為了優化網路環境，還需要對網路平台中可能流通的色情、暴力或其他違反法律法規的內容進行識別和分類。

為了對網路內容進行識別和分類，常常採用建立分類樣本庫的方式。例如，可以針對廣告資訊建立廣告“黑樣本”庫，其中儲存收集的示例樣本，或稱為黑樣本。對於待評估的網路內容，將其與黑樣本庫中的黑樣本進行比較，根據比較的相似度來確定待評估的網路內容是否屬於同樣的分類，即是否也屬於廣告。

通常，樣本庫中包含大量的示例樣本，這些示例樣本往往通過人工方式採集，因此，示例樣本的質量參差不齊。有些示例樣本質量不高，泛化能力差，即使待評估內容與它相似度非常高，實際上也常常不屬於同樣的分類。這就為樣本的分類評估帶來了很大困難。

因此，需要改進的方案，更有效地對待評估內容和樣本進行評估和分類。

本說明書一個或多個實施例描述了一種方法和裝置，通過在評估過程中引入對示例樣本的樣本質量的考慮，更有效更準確地評估待評估樣本與示例樣本的相似度。

根據第一方面，提供了一種對待評估樣本進行分類的方法，包括：獲取待評估樣本T，以及該待評估樣本T的樣本特徵Ft；在分類樣本庫中選擇第一數目N個示例樣本；獲取該待評估樣本T與該N個示例樣本中各個示例樣本i的特徵相似度SIMi，其中該特徵相似度SIMi根據該待評估樣本T的樣本特徵Ft，以及該各個示例樣本i的樣本特徵Fi而確定；獲取該各個示例樣本i的樣本質量Qi；至少根據該特徵相似度SIMi和該樣本質量Qi的差值ri，確定該待評估樣本T與各個示例樣本i的綜合相似度Si；以及根據該綜合相似度Si，確定該待評估樣本T是否屬於該分類樣本庫的分類。

在一個實施例中，在分類樣本庫中選擇第一數目N個示例樣本包括：　　根據該待評估樣本T的樣本特徵Ft，以及該分類樣本庫中第二數目M個示例樣本的樣本特徵，計算該待評估樣本T與第二數目M個示例樣本中各示例樣本的特徵相似度，其中該第二數目M大於該第一數目N；　　根據該待評估樣本與該第二數目M個示例樣本中各示例樣本的特徵相似度，從該第二數目M個示例樣本中選擇該第一數目N個示例樣本。　　在一個實施例中，在分類樣本庫中選擇第一數目N個示例樣本包括：根據該分類樣本庫中各個樣本的該樣本質量的排序，從該分類樣本庫中選擇該第一數目N個示例樣本。　　根據一個實施例，該特徵相似度SIMi通過將該待評估樣本T的樣本特徵Ft與該各個示例樣本i的樣本特徵Fi之間的距離進行歸一化處理而確定。　　在一個實施例中，確定該待評估樣本T與各個示例樣本i的綜合相似度Si包括：將該綜合相似度Si確定為Si=a+b*ri*c，其中a+b=1，c為與樣本質量Qi相關的係數。　　在一個實施例中，在ri＞=0的情況下，c=1/(1-Qi)；在ri＜0的情況下，c=1/Qi。　　根據一個實施例，上述方法還包括：根據該待評估樣本T與各個示例樣本i的綜合相似度Si，確定該待評估樣本的總相似度分數。　　在一個實施例中，上述確定該待評估樣本的總相似度分數包括：　　如果存在至少一個ri＞=0，將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si中的最大值；　　否則，將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si中的最小值。　　在一個實施例中，上述確定該待評估樣本的總相似度分數包括：將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si的平均值。　　根據第二方面，提供一種對待評估樣本進行分類的裝置，包括：樣本獲取單元，配置為獲取待評估樣本T，以及該待評估樣本T的樣本特徵Ft；選擇單元，配置為在分類樣本庫中選擇第一數目N個示例樣本；第一獲取單元，配置為獲取該待評估樣本T與該N個示例樣本中各個示例樣本i的特徵相似度SIMi，其中該特徵相似度SIMi根據該待評估樣本T的樣本特徵Ft，以及該各個示例樣本i的樣本特徵Fi而確定；第二獲取單元，配置為獲取該各個示例樣本i的樣本質量Qi；處理單元，配置為至少根據該特徵相似度SIMi和該樣本質量Qi的差值ri，確定該待評估樣本T與各個示例樣本i的綜合相似度Si；分類單元，配置為根據該綜合相似度Si，確定該待評估樣本T是否屬於該分類樣本庫的分類。　　根據第三方面，提供了一種電腦可讀儲存介質，其上儲存有電腦程式，當該電腦程式在電腦中執行時，令電腦執行第一方面的方法。　　根據第四方面，提供了一種計算設備，包括記憶體和處理器，其特徵在於，該記憶體中儲存有可執行代碼，該處理器執行該可執行代碼時，實現第一方面的方法。　　通過本說明書實施例提供的方法及裝置，綜合考慮待評估樣本與示例樣本的特徵相似度以及示例樣本的樣本質量，來確定待評估樣本與示例樣本的綜合相似度，據此對待評估樣本進行分類，由此減小或避免了示例樣本質量不一對評估結果的不利影響，從而可以更有效更準確地確定待評估樣本的分類。

下面結合圖式，對本說明書提供的方案進行描述。　　圖1為本說明書披露的一個實施例的應用場景示意圖。在圖1中，處理平台一方面獲取待評估樣本，一方面從樣本庫中獲取示例樣本的資訊，該資訊包括示例樣本的樣本特徵以及示例樣本的樣本質量。然後處理平台根據待評估樣本與各個示例樣本的特徵相似度以及示例樣本的樣本質量，確定待評估樣本與示例樣本的綜合相似度。以上的處理平台可以是任何具有計算能力和處理能力的平台，例如伺服器。以上的樣本庫可以是為了進行樣本分類或識別，而採集和建立的樣本庫，其中包含多個示例樣本。儘管在圖1中，將樣本庫示出為儲存在獨立的資料庫中，但是可以理解，樣本庫也可以儲存在處理平台中。通過實施例中的評估方式，處理平台在確定待評估樣本與示例樣本的綜合相似度的過程中，綜合考慮了示例樣本的樣本質量，從而降低或避免了示例樣本的樣本質量不一對評估結果的影響。　　下面具體描述處理平台對待評估樣本進行分類的方法。圖2示出根據一個實施例的方法的流程圖。該流程的執行主體可以是圖1所示的具有計算能力的處理平台，例如伺服器。如圖2所示，方法包括以下步驟：步驟S21，獲取待評估樣本T，以及該待評估樣本T的樣本特徵Ft；步驟S22，從分類樣本庫中選擇第一數目N個示例樣本；步驟S23，獲取待評估樣本T與該第一數目N個示例樣本中各個示例樣本i的特徵相似度SIMi，其中該特徵相似度SIMi根據該待評估樣本T的樣本特徵Ft，以及該各個示例樣本i的樣本特徵Fi而確定；步驟S24，獲取各個示例樣本i的樣本質量Qi。其中該樣本質量Qi對應於這樣的相似度閾值，即，與該示例樣本i的特徵相似度超過該相似度閾值的歷史評估樣本以一定比例被確定為特定分類；步驟S25，至少根據該特徵相似度SIMi和該樣本質量Qi的差值ri，確定該待評估樣本T與各個示例樣本i的綜合相似度Si；步驟S26，根據該綜合相似度Si，確定該待評估樣本T是否屬於該分類樣本庫的分類。　　首先，在步驟S21，獲取待評估樣本T，以及該待評估樣本的樣本特徵Ft。可以理解，上述待評估樣本T可以是各種有待進行評估和分類的對象，例如一段文本，一張圖片，一段代碼等等。在一個實施例中，處理平台需要對網路中的各種上傳內容自動進行檢測、評估或分類，此時，獲取該待評估樣本T包括從網路中捕獲待評估樣本。例如，處理平台需要過濾網路中的廣告圖片，此時，就可以從網路中捕獲待評估的圖片樣本。在另一實施例中，獲取該待評估樣本T包括接收待評估樣本T，即處理平台對所接收的待評估樣本進行分析和評估。例如，手機通信系統在接收到一條簡訊之後，需要判別該簡訊是否為垃圾簡訊。在這樣的情況下，可以將該簡訊發送到用於進行簡訊分類的處理平台。處理平台進而對接收到的簡訊進行評估和分類。　　對於獲取的待評估樣本T，可以從中提取出其樣本特徵Ft。樣本特徵Ft是為了機器學習和分析，提取的用於標識不同樣本的一些特徵。現有技術中已經存在多種模型，對各種樣本進行特徵提取，從而實現對比分析。例如，對於圖片樣本而言，樣本特徵可以包括：像素數目，灰度均值，灰度中值，子區域數目，子區域面積，子區域灰度均值，等等。對於文本樣本而言，樣本特徵可以包括：文本中的詞，詞數目，詞頻等等。對於其他類型的樣本，存在相應的特徵提取方式。一般地，樣本特徵包括多項特徵元素，因此樣本特徵可以表示為由多項特徵元素構成的特徵向量：

，其中t_i 為待評估樣本的特徵元素。　　另一方面，在步驟S22，從分類樣本庫中選擇第一數目N個示例樣本。　　可以理解，分類樣本庫是為了進行樣本分類或對比識別，預先採集和建立的樣本庫，其中包含多個示例樣本。例如，廣告圖片樣本庫中包含大量的示例性廣告圖片，垃圾簡訊樣本庫中包含多條示例性垃圾簡訊。　　在一個實施例中，分類樣本庫中包含的示例樣本的數目較少，例如小於一定閾值(比如100個)，此時可以採用該樣本庫中全部的示例樣本進行後續步驟S23-S25的處理。也就是，步驟S22中的第一數目N即為分類樣本庫中全部示例樣本的數目。　　在另一實施例中，分類樣本庫中包含的示例樣本的數量較大，例如大於一定閾值(比如200個)，或者樣本庫中的示例樣本的內容並不集中，例如廣告圖片樣本庫中儲存的雖然都是廣告圖片，但是圖片內容有人有物有景，並不統一，在這樣的情況下，可以對分類樣本庫中的示例樣本進行篩選，從中確定出一定數目N的更有針對性的示例樣本，進行進一步處理。　　從分類樣本庫中確定出一定數目N個示例樣本可以通過多種方式來執行。圖3示出根據一個實施例的選擇一定數目的示例樣本的流程圖。如圖3所示，首先在步驟S31，獲取分類樣本庫中每個示例樣本i的樣本特徵Fi。可以理解，與待評估樣本對應地，示例樣本i的樣本特徵Fi可以類似地通過特徵向量來表示：

在步驟S32，根據待評估樣本T的樣本特徵Ft，以及每個示例樣本i的樣本特徵Fi，計算待評估樣本T與每個示例樣本i的特徵相似度SIMi。　　在一個實施例中，首先計算待評估樣本T與示例樣本i的距離di，對距離di進行歸一化而得到特徵相似度SIMi。可以理解，由於待評估樣本T和示例樣本i均可以表示為特徵向量的形式，因此，可以用各種算法計算兩個向量之間的距離作為上述距離di。例如，可以採用常規數學方法，計算待評估樣本T的特徵向量Ft和示例樣本i的特徵向量Fi之間的歐式距離，作為上述距離di。或者，還可以計算Ft和Fi之間的馬式距離、漢明距離等，作為待評估樣本T和示例樣本i之間的距離di。接著，可以對距離進行歸一化，而得到特徵相似度SIMi。在一個例子中，通過下式對距離進行歸一化：　　SIMi=1-di/100，　　從而使得SIMi在0到1之間。可以理解，還可以採用其他的歸一化方式。　　在一個實施例中，根據特徵向量Ft與特徵向量Fi之間的余弦相似度，確定待評估樣本T和示例特徵i之間的特徵相似度SIMi。該方式利用特徵向量Ft和特徵向量Fi之間的夾角的余弦值，直接確定出範圍在0到1之間的特徵相似度SIMi。本領域技術人員還可以根據需要，採取其他算法，基於待評估樣本T和示例特徵i各自的特徵向量，確定兩者之間的特徵相似度。　　由此，在步驟S32，計算了待評估樣本T與樣本庫中每個示例樣本i的特徵相似度SIMi。接著，在步驟S33，根據計算得到的各個特徵相似度SIMi，從分類樣本庫中選擇一定數目N個示例樣本。　　在一個實施例中，首先將待評估樣本T與所有示例樣本i的特徵相似度SIMi進行排序，根據排序結果，選擇N個示例樣本。　　在一個例子中，選擇與待評估樣本T的特徵相似度最高的N個示例樣本。例如，N可以為10個，或20個。當然，也可以選擇特徵相似度大小排序在預定區間，例如第5名到第15名，的示例樣本。選擇的方式可以根據需要而設定。　　在另一例子中，首先去除特徵相似度偏離預定範圍的異常數值，在去除異常數值之後的排序中，選擇特徵相似度最高的N個示例樣本。　　在又一實施例中，上述一定數目N預先並不確定。相應地，可以選擇特徵相似度在預定範圍的示例樣本作為選定的示例樣本。例如，可以預先設定一個閾值，對特徵相似度SIMi高於該閾值的示例樣本均進行選擇。　　如此，從分類樣本庫中選擇出一定數目的(N個)示例樣本，選擇出的示例樣本是分類樣本庫中與待評估樣本的特徵相似度較高的一些示例樣本，也就是與待評估樣本的特徵較為相似的一些示例樣本，因此針對性更強，更有利於後續處理結果的準確性。　　選擇示例樣本的過程還可以通過其他方式實現。圖4示出根據另一實施例的選擇一定數目的(第一數目N)示例樣本的流程圖。如圖4所示，首先在步驟S41，從分類樣本庫中選擇M個(第二數目)示例樣本，獲取該M個示例樣本中各示例樣本i的樣本特徵Fi。可以理解，第二數目M是初步選擇的示例樣本，數目M大於前述的第一數目N。在一個實施例中，從分類樣本庫中隨機選擇M個示例樣本，執行接下來的步驟。或者，從分類樣本庫中選擇最近被使用過的M個示例樣本，執行接下來的步驟。第二數目M也可以根據預定比例而確定，例如是分類樣本庫中所有示例樣本的總數目的50%。　　接著在步驟S42，根據待評估樣本T的樣本特徵Ft，以及選擇出的M個示例樣本中各示例樣本i的樣本特徵Fi，計算待評估樣本T與各示例樣本i的特徵相似度SIMi。該步驟中特徵相似度SIMi的計算方式可以參考對圖3中步驟S32的描述，在此不再贅述。　　然後在步驟S43，根據計算得到的各個特徵相似度SIMi，從M個示例樣本中進一步選擇出第一數目N個示例樣本。該步驟中根據特徵相似度SIMi的大小從更多示例樣本中選擇N個示例樣本的方式可以參考對圖3步驟S33的描述，在此不再贅述。　　對比圖4與圖3的實施例可以看到，圖4的實施例與圖3的不同在於，首先從分類樣本庫中初步選擇M個示例樣本，計算待評估樣本與這M個示例樣本的特徵相似度，然後根據特徵相似度的大小，從這M個示例樣本中進一步選擇出N個示例樣本。這特別適合於分類樣本庫中示例樣本數量及其龐大的情況。在這樣的情況下，計算分類樣本庫中每個示例樣本與待評估樣本的特徵相似度(步驟S32)的計算成本仍然偏大，此時可以採取圖4的實施例。　　在具體實踐中，最終選擇的N個示例樣本通常為幾十的量級，例如10個，20個，50個等。因此，在分類樣本庫的示例樣本數量在幾千數量級的情況下，可以採取圖3的實施例。而在分類樣本庫的示例樣本數量非常龐大，例如幾萬甚至幾十萬的情況下，為了加快處理速度，可以採取圖4實施例的方法，首先從中簡單地選擇一部分，即M個示例樣本，例如為幾千個或幾百個，然後根據特徵相似度從中進一步選擇出幾十個示例樣本用於後續進一步處理。　　圖5示出根據又一實施例的選擇一定數目的示例樣本的流程圖。如圖5所示，在步驟S51，獲取分類樣本庫中各個示例樣本i的樣本質量Qi。　　樣本質量Qi用於衡量一個示例樣本的泛化能力，它對應於這樣的相似度閾值，即，與該示例樣本i的特徵相似度超過該相似度閾值的歷史評估樣本以一定比例被確定為與分類樣本庫相同的分類。在一個例子中，與該示例樣本i的特徵相似度超過該相似度閾值的歷史評估樣本均被確定為與分類樣本庫相同的分類。因此，當待評估樣本與該示例樣本的特徵相似度超過Qi時，就有較大理由相信，待評估樣本與該示例樣本屬於同樣的分類。例如，對於垃圾簡訊樣本庫中的某個示例樣本，如果它的樣本質量為0.6，那就意味著，一旦待評估樣本與該示例樣本的特徵相似度超過0.6，就有較大概率相信該待評估樣本也是垃圾簡訊。又例如，對於廣告圖片樣本庫中的某個示例樣本，如果它的樣本質量為0.8，那就意味著，如果待評估樣本與該示例樣本的特徵相似度超過0.8，該待評估樣本有極大概率也是廣告圖片。一般來說，樣本質量Q值越低，該樣本的泛化能力越強。　　樣本質量Qi可以通過多種方式確定。在一個實施例中，採用人工標定的方式確定各個示例樣本的樣本質量，並將其儲存在分類樣本庫中。在另一實施例中，根據樣本評估分類的歷史資料確定樣本質量Qi。具體而言，獲取在之前的歷史記錄中，多個歷史評估樣本與某個示例樣本的特徵相似度，以及該多個歷史評估樣本的最終評估結果，據此確定該示例樣本的樣本質量。更具體地，可以將歷史記錄中，最終被認定為屬於同樣分類的歷史評估樣本中，與該示例樣本的特徵相似度的最低值，確定為該示例樣本的樣本質量。例如，對於示例樣本k，在歷史記錄中有5個歷史評估樣本分別與它進行過比對。假定對比的結果顯示，這5個歷史評估樣本與示例樣本k的特徵相似度分別為SIM1=0.8,SIM2=0.6,SIM3=0.4，SIM4=0.65,SIM5=0.7，最終這5個歷史評估樣本中，特徵相似度為0.6和0.4的歷史評估樣本被認為不屬於示例樣本k同樣的分類，其他歷史評估樣本被認為屬於同樣的分類。在這樣的情況下，可以認為該示例樣本k的樣本質量Q為0.65，即，屬於同樣分類的3個歷史評估樣本中，與示例樣本k的特徵相似度的最低值。　　在一個實施例中，在步驟S51，通過以上歷史記錄，計算分類樣本庫中各個示例樣本i的樣本質量Qi。在另一實施例中，樣本質量已經預先計算，儲存在樣本庫中。在步驟S51，讀取各個示例樣本i的樣本質量Qi。　　接著，在步驟S52，根據上述各個示例樣本i的樣本質量Qi的排序，從分類樣本庫中選擇一定數目N個示例樣本。在一個實施例中，從分類樣本庫中選擇樣本質量Qi值最低的N個示例樣本。在另一實施例中，N的值並沒有預先指定。此時，可以選擇樣本質量Qi的值低於一定閾值的所有示例樣本。通過這樣的方式，從分類樣本庫中選擇出泛化能力強的N個示例樣本用於進一步處理。　　除了圖3，圖4和圖5所示的方式之外，在閱讀本說明書的情況下，本領域技術人員還可以採用類似的其他方式，從分類樣本庫中選擇出第一數目N個示例樣本。由此，執行了圖2中的步驟S22。　　回到圖2，在選擇出N個示例樣本的基礎上，在步驟S23，獲取待評估樣本T與這N個示例樣本中各個示例樣本i的特徵相似度SIMi，其中該特徵相似度SIMi根據該待評估樣本T的樣本特徵Ft，以及該各個示例樣本i的樣本特徵Fi而確定。　　可以理解，如果採用圖3或圖4的方式選擇上述N個示例樣本，那麼在選擇過程中，已經計算得出待評估樣本T與全部示例樣本/M個示例樣本的特徵相似度SIMi。那麼相應地，在步驟S23，只需要從計算結果中讀取待評估樣本T與選擇出的N個示例樣本的特徵相似度。　　如果採取其他方式選擇上述N個示例樣本，那麼在步驟S23，根據待評估樣本T的樣本特徵Ft，以及選擇出的N個示例中各個示例樣本i的樣本特徵Fi，來計算待評估樣本T與各個示例樣本i的特徵相似度SIMi。計算的方式可以參考結合圖3步驟S32的描述，不再贅述。　　另一方面，在步驟S24，獲取所選擇出的N個示例樣本中各個示例樣本i的樣本質量Qi。　　可以理解，如果採用圖5的方式選擇上述N個示例樣本，那麼在選擇過程中，已經獲取到全部示例樣本的樣本質量。那麼相應地，在步驟S24，只需要從全部結果中讀取出所選擇的N個示例樣本的樣本質量。　　如果採取其他方式選擇上述N個示例樣本，那麼在步驟S24，獲取上述N個示例樣本的樣本質量。樣本質量的獲取方式可以參考結合圖5步驟S51的描述，在此不再贅述。　　在獲取了各個示例樣本i與待評估樣本的特徵相似度SIMi，以及各示例樣本i的樣本質量Qi的基礎上，在步驟S25，至少根據特徵相似度SIMi和樣本質量Qi的差值ri，確定待評估樣本T與各個示例樣本i的綜合相似度Si。　　在一個實施例中，將上述綜合相似度Si確定為Si=a+b*ri*c，其中a和b為常數，且a+b=1，c為與樣本質量Qi相關的係數。　　例如，在一個例子中，Si=0.8+0.2*ri/2Qi；　　在另一例子中，Si=0.7+0.3*ri/Qi。　　在一個實施例中，對於不同ri的取值，將參數c設為不同的值。例如，在ri＞=0的情況下，c=1/(1-Qi)；在ri＜0的情況下，c=1/Qi。　　在一個具體例子中，Si的計算形式如下：

在以上計算式中，在ri＞=0的情況下，令c=1/(1-Qi)，這一方面使得

不大於1，進而使得Si不大於1，另一方面，更好地衡量特徵相似度SIMi超出樣本質量Qi值的差值ri的作用。在Qi值本身比較高甚至接近1的情況下，差值ri的餘地(1-Qi)必然極小。此時應該考慮差值ri與其可能的餘地的比例而計算Si。而在ri＜0的情況下，可以將c直接設置為1/Qi，考慮差值ri與Qi的比例而計算Si。　　在以上計算綜合相似度的過程中，由於綜合考慮了示例樣本的樣本質量，以及特徵相似度與樣本質量的差值，因此得出的綜合相似度能夠更加客觀地反映待評估樣本與示例樣本屬於同樣分類的概率，而較少受到示例樣本的樣本質量的影響。例如，如果存在兩個示例樣本A和B，其樣本質量分別為Q_A =0.4，Q_B =0.8。假定待評估樣本T與示例樣本A和B的特徵相似度均為0.7。在這樣的情況下，如果僅考慮特徵相似度，那麼由於待評估樣本T與示例樣本A和B的特徵相似度相同，通常會認為，待評估樣本與兩個示例樣本要麼均相似，要麼均不相似。如果採用以上實施例的方法，例如採用式1的算法，可以得出待評估樣本與示例樣本A的綜合相似度S_A =0.95，與示例樣本B的綜合相似度S_B =0.8875。根據綜合相似度來評判，顯然待評估樣本與示例樣本A和B的相似程度是不同的。示例樣本A的樣本質量分值僅為0.4，待評估樣本與其特徵相似度已經遠遠超出了屬於同一分類的閾值要求，因此與該示例樣本A的綜合相似度明顯更高。因此，如此得出的綜合相似度能夠更加客觀地反映待評估樣本與示例樣本屬於同樣分類的概率。　　如此，在步驟S25，分別計算出待評估樣本T與N個示例樣本的綜合相似度。進一步地，在步驟S26，可以根據該綜合相似度Si，確定該待評估樣本T是否屬於該分類樣本庫的分類。　　在一個實施例中，對獲得的N個綜合相似度Si進行排序，確定其中的最大值，將該最大值與一預定閾值進行比較，如果高於該閾值，則認為待評估樣本T屬於與分類樣本庫相同的分類。　　在一個實施例中，根據待評估樣本T與N個示例樣本的N個綜合相似度，確定該待評估樣本的總相似度分數，根據該總相似度分數，確定該待評估樣本T是否屬於該分類樣本庫的分類。該總相似度分數用於衡量待評估樣本與整個示例樣本集合，或者與整個分類樣本庫的相似程度，以及屬於同樣分類的概率。　　在一個實施例中，對待評估樣本T與各個示例樣本i的各個綜合相似度SIMi求平均，將平均值作為上述總相似度分數。　　在另一實施例中，如果在N個示例樣本對應的N個差值ri中，存在至少一個ri大於或等於0，那麼將總相似度分數確定為，該待評估樣本T與N個示例樣本的綜合相似度中的最大值；否則，將該總相似度分數確定為，該待評估樣本T與N個示例樣本的綜合相似度中的最小值。　　由於總相似度分數全面考慮了各個示例樣本的樣本質量的差異，因此，只需要預先設定適當的總分數閾值，就可以對待評估樣本進行判斷。相應地在步驟S26中，將該總相似度分數與預設的總分數閾值進行比較，如果待評估樣本的總相似度分數高於預設的總分數閾值，那麼可以將該待評估樣本確定為屬於分類樣本庫的分類。例如，如果待評估樣本為接收的簡訊，只要它與垃圾簡訊樣本庫的總相似度分數高於預設閾值，就可以認為，該簡訊同樣屬於垃圾簡訊。　　通過以上實施例的方法，綜合考慮了待評估樣本與示例樣本的特徵相似度以及示例樣本的樣本質量來確定待評估樣本與示例樣本的綜合相似度，從而減小或避免了示例樣本質量不一對評估結果的不利影響。　　根據另一方面的實施例，本說明書還提供一種對待評估樣本進行分類的裝置。圖6示出根據一個實施例的分類裝置的示意方塊圖。如圖6所示，該分類裝置60包括：樣本獲取單元61，配置為獲取待評估樣本T，以及該待評估樣本T的樣本特徵Ft；選擇單元62，配置為在分類樣本庫中選擇第一數目N個示例樣本；第一獲取單元63，配置為獲取該待評估樣本T與該N個示例樣本中各個示例樣本i的特徵相似度SIMi，其中該特徵相似度SIMi根據該待評估樣本T的樣本特徵Ft，以及該各個示例樣本i的樣本特徵Fi而確定；第二獲取單元64，配置為獲取該各個示例樣本i的樣本質量Qi，其中該樣本質量Qi對應於這樣的相似度閾值，即，與該示例樣本i的特徵相似度超過該相似度閾值的歷史評估樣本以一定比例被確定為屬於該分類樣本庫的分類；處理單元65，配置為至少根據該特徵相似度SIMi和該樣本質量Qi的差值ri，確定該待評估樣本T與各個示例樣本i的綜合相似度Si，分類單元66，配置為根據該綜合相似度Si，確定該待評估樣本T是否屬於該分類樣本庫的分類。　　在一個實施例中，該選擇單元62包括(未示出)：計算子單元，配置為根據該待評估樣本T的樣本特徵Ft，以及該分類樣本庫中第二數目M個示例樣本的樣本特徵，計算該待評估樣本T與第二數目M個示例樣本中各示例樣本的特徵相似度，其中該第二數目M大於該第一數目N；以及選擇子單元，配置為根據該待評估樣本與該第二數目M個示例樣本中各示例樣本的特徵相似度，從該第二數目M個示例樣本中選擇該第一數目N個示例樣本。　　在一個實施例中，上述選擇子單元配置為：從該第二數目M個示例樣本中，選擇與該待評估樣本T的特徵相似度最高的第一數目N個示例樣本。　　根據一個實施例，該選擇單元62配置為：根據該分類樣本庫中各個樣本的該樣本質量的排序，從該分類樣本庫中選擇該第一數目N個示例樣本。　　在一個實施例中，上述特徵相似度SIMi通過將該待評估樣本T的樣本特徵Ft與該各個示例樣本i的樣本特徵Fi之間的距離進行歸一化處理而確定。　　根據一個實施例，該處理單元65配置為：將該綜合相似度Si確定為Si=a+b*ri*c，其中a+b=1，c為與樣本質量Qi相關的係數。　　在一個實施例中，在ri＞=0的情況下，c=1/(1-Qi)；在ri＜0的情況下，c=1/Qi。　　根據一個實施例，分類單元66配置為根據該待評估樣本T與各個示例樣本i的綜合相似度Si，確定該待評估樣本的總相似度分數，根據該總相似度分數，確定該待評估樣本T是否屬於該分類樣本庫的分類。　　在一個實施例中，分類單元66進一步配置為：　　如果存在至少一個ri＞=0，將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si中的最大值；　　否則，將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si中的最小值。　　在一個實施例中，分類單元66配置為：將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si的平均值。　　利用以上實施例的裝置，可以綜合考慮待評估樣本與示例樣本的特徵相似度以及示例樣本的樣本質量，來確定待評估樣本與示例樣本的綜合相似度，據此對待評估樣本進行分類，從而減小或避免了示例樣本質量不一對評估結果的不利影響。　　根據另一方面的實施例，還提供一種電腦可讀儲存介質，其上儲存有電腦程式，當該電腦程式在電腦中執行時，令電腦執行結合圖2至圖5所描述的方法。　　根據再一方面的實施例，還提供一種計算設備，包括記憶體和處理器，該記憶體中儲存有可執行代碼，該處理器執行該可執行代碼時，實現結合圖2至圖5該的方法。　　本領域技術人員應該可以意識到，在上述一個或多個示例中，本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時，可以將這些功能儲存在電腦可讀介質中或者作為電腦可讀介質上的一個或多個指令或代碼進行傳輸。　　以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用於限定本發明的保護範圍，凡在本發明的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本發明的保護範圍之內。

S21~S26‧‧‧步驟S31~S33‧‧‧步驟S41~S43‧‧‧步驟S51、S52‧‧‧步驟60‧‧‧分類裝置61‧‧‧樣本獲取單元62‧‧‧選擇單元63‧‧‧第一獲取單元64‧‧‧第二獲取單元65‧‧‧處理單元66‧‧‧分類單元

為了更清楚地說明本發明實施例的技術方案，下面將對實施例描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些圖式獲得其它的圖式。　　圖1示出本說明書披露的一個實施例的應用場景示意圖；　　圖2示出根據一個實施例的方法的流程圖；　　圖3示出根據一個實施例的選擇一定數目的示例樣本的流程圖；　　圖4示出根據另一實施例的選擇一定數目的示例樣本的流程圖；　　圖5示出根據又一實施例的選擇一定數目的示例樣本的流程圖；　　圖6示出根據一個實施例的分類裝置的示意方塊圖。

Claims

一種對待評估樣本進行分類的方法，其係用於對網路上的待評估樣本T進行識別和分類，該方法包括：獲取該待評估樣本T，以及該待評估樣本T的樣本特徵Ft；在分類樣本庫中選擇第一數目N個示例樣本；獲取該待評估樣本T與該N個示例樣本中各個示例樣本i的特徵相似度SIMi，其中該特徵相似度SIMi根據該待評估樣本T的樣本特徵Ft，以及該各個示例樣本i的樣本特徵Fi而確定；獲取該各個示例樣本i的樣本質量Qi；至少根據該特徵相似度SIMi和該樣本質量Qi的差值ri，確定該待評估樣本T與各個示例樣本i的綜合相似度Si；根據該綜合相似度Si，確定該待評估樣本T是否屬於該分類樣本庫的分類。
根據請求項1所述的方法，其中該在分類樣本庫中選擇第一數目N個示例樣本包括：根據該待評估樣本T的樣本特徵Ft，以及該分類樣本庫中第二數目M個示例樣本的樣本特徵，計算該待評估樣本T與第二數目M個示例樣本中各示例樣本的特徵相似度，其中該第二數目M大於該第一數目N；根據該待評估樣本與該第二數目M個示例樣本中各示例樣本的特徵相似度，從該第二數目M個示例樣本中選擇該第一數目N個示例樣本。
根據請求項2所述的方法，其中從該第二數目M個示例樣本中選擇該第一數目N個示例樣本包括：從該第二數目M個示例樣本中，選擇與該待評估樣本T的特徵相似度最高的第一數目N個示例樣本。
根據請求項1所述的方法，其中該在分類樣本庫中選擇第一數目N個示例樣本包括：根據該分類樣本庫中各個樣本的該樣本質量的排序，從該分類樣本庫中選擇該第一數目N個示例樣本。
根據請求項1所述的方法，該特徵相似度SIMi通過將該待評估樣本T的樣本特徵Ft與該各個示例樣本i的樣本特徵Fi之間的距離進行歸一化處理而確定。
根據請求項1所述的方法，其中確定該待評估樣本T與各個示例樣本i的綜合相似度Si包括：將該綜合相似度Si確定為Si=a+b*ri*c，其中a+b=1，a和b為常數，c為與樣本質量Qi相關的係數。
根據請求項6所述的方法，其中在ri>=0的情況下， c=1/(1-Qi)；在ri<0的情況下，c=1/Qi。
根據請求項1所述的方法，其中根據該綜合相似度Si，確定該待評估樣本T是否屬於該分類樣本庫的分類包括：根據該待評估樣本T與各個示例樣本i的綜合相似度Si，確定該待評估樣本的總相似度分數；根據該總相似度分數，確定該待評估樣本T是否屬於該分類樣本庫的分類。
根據請求項8所述的方法，其中確定該待評估樣本的總相似度分數包括：如果存在至少一個ri>=0，將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si中的最大值；否則，將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si中的最小值。
根據請求項8所述的方法，其中確定該待評估樣本的總相似度分數包括：將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si的平均值。
一種對待評估樣本進行分類的裝置，其係用於對網路上的待評估樣本T進行識別和分類，該裝置包括：樣本獲取單元，配置為獲取該待評估樣本T，以及該待評估樣本T的樣本特徵Ft；選擇單元，配置為在分類樣本庫中選擇第一數目N個示例樣本；第一獲取單元，配置為獲取該待評估樣本T與該N個示例樣本中各個示例樣本i的特徵相似度SIMi，其中該特徵相似度SIMi根據該待評估樣本T的樣本特徵Ft，以及該各個示例樣本i的樣本特徵Fi而確定；第二獲取單元，配置為獲取該各個示例樣本i的樣本質量Qi，其中該樣本質量Qi對應於這樣的相似度閾值，即，與該示例樣本i的特徵相似度超過該相似度閾值的待評估樣本會被確定為屬於該分類樣本庫的分類；處理單元，配置為至少根據該特徵相似度SIMi和該樣本質量Qi的差值ri，確定該待評估樣本T與各個示例樣本i的綜合相似度Si；分類單元，配置為根據該綜合相似度Si，確定該待評估樣本T是否屬於該分類樣本庫的分類。
根據請求項11所述的裝置，其中該選擇單元包括：計算子單元，配置為根據該待評估樣本T的樣本特徵Ft，以及該分類樣本庫中第二數目M個示例樣本的樣本特徵，計算該待評估樣本T與第二數目M個示例樣本中各示例樣本的特徵相似度，其中該第二數目M大於該第一數目N；選擇子單元，配置為根據該待評估樣本與該第二數目M個示例樣本中各示例樣本的特徵相似度，從該第二數目M個示例樣本中選擇該第一數目N個示例樣本。
根據請求項12所述的裝置，其中該選擇子單元配置為：從該第二數目M個示例樣本中，選擇與該待評估樣本T的特徵相似度最高的第一數目N個示例樣本。
根據請求項11所述的裝置，其中該選擇單元配置為：根據該分類樣本庫中各個樣本的該樣本質量的排序，從該分類樣本庫中選擇該第一數目N個示例樣本。
根據請求項11所述的裝置，其中該特徵相似度SIMi通過將該待評估樣本T的樣本特徵Ft與該各個示例樣本i的樣本特徵Fi之間的距離進行歸一化處理而確定。
根據請求項11所述的裝置，其中該處理單元配置為：將該綜合相似度Si確定為Si=a+b*ri*c，其中a+b=1，a和b為常數，c為與樣本質量Qi相關的係數。
根據請求項16所述的裝置，其中在ri>=0的情況下，c=1/(1-Qi)；在ri<0的情況下，c=1/Qi。
根據請求項11所述的裝置，其中該分類單元配置為：根據該待評估樣本T與各個示例樣本i的綜合相似度Si，確定該待評估樣本的總相似度分數；根據該總相似度分數，確定該待評估樣本T是否屬於該分類樣本庫的分類。
根據請求項18所述的裝置，其中該分類單元配置為：如果存在至少一個ri>=0，將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si中的最大值；否則，將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si中的最小值。
根據請求項18所述的裝置，其中該分類單元配置為：將該總相似度分數確定為，該待評估樣本T與各個示例樣本i的各個綜合相似度Si的平均值。
一種電腦可讀儲存介質，其上儲存有電腦程式，當該電腦程式在電腦中執行時，令電腦執行請求項1-10中任一項的所述的方法。
一種計算設備，包括記憶體和處理器，其特徵在於，該記憶體中儲存有可執行代碼，該處理器執行該可執行代碼時，實現請求項1-10中任一項所述的方法。