TWI726341B - 樣本屬性評估模型訓練方法、裝置、伺服器及儲存媒體 - Google Patents
樣本屬性評估模型訓練方法、裝置、伺服器及儲存媒體 Download PDFInfo
- Publication number
- TWI726341B TWI726341B TW108122547A TW108122547A TWI726341B TW I726341 B TWI726341 B TW I726341B TW 108122547 A TW108122547 A TW 108122547A TW 108122547 A TW108122547 A TW 108122547A TW I726341 B TWI726341 B TW I726341B
- Authority
- TW
- Taiwan
- Prior art keywords
- sample
- black
- community
- samples
- unknown
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本說明書實施例提供了一種樣本屬性評估方法,首先確定訓練樣本,該訓練樣本中僅包括少量已確認屬性的黑樣本,還有大部分未確認屬性的未知樣本。基於訓練樣本對應的關係圖,確定每個社區的黑樣本濃度,結合社區黑樣本濃度以及半監督機器學習演算法,即使黑樣本數量較少,本實施例中的方法也可以從未知樣本中挖掘潛在黑樣本,進而確定模型訓練所需要的白樣本,達到模型訓練要求,使得訓練出的模型能夠準確地對樣本是否屬於黑樣本的屬性進行評估。
Description
本說明書實施例涉及網際網路技術領域,尤其涉及一種樣本屬性評估模型訓練方法、裝置及伺服器。
隨著網際網路的快速發展,越來越多的業務可以通過網路實現,如線上支付、線上購物、線上保險理賠等網際網路業務。網際網路在給人們生活提供便利的同時,也帶來了風險。不法人員可能會進行電子業務詐欺,給其它使用者造成損失。對於龐大的業務樣本集而言,明確屬性為黑的風險黑樣本數量較少,大部分是未知屬性的樣本,由於業務詐欺資料樣本具有隱藏性,所以,為了能夠提升整體風控能力,亟需設計一種能夠基於少量已知黑樣本訓練得到能夠準確對未知樣本進行屬性評估的方案。
本說明書實施例提供及一種樣本屬性評估方法、裝置及伺服器。
第一態樣,本說明書實施例提供一種樣本屬性評估方法,包括:確定與訓練樣本對應的關係圖中每個社區的黑
樣本濃度,其中,所述訓練樣本包括黑樣本和未知樣本;基於所述每個社區的黑樣本濃度,確定每個所述未知樣本的白樣本抽樣概率,以每個所述未知樣本的白樣本抽樣概率進行抽樣,獲得白樣本;基於半監督機器學習演算法對所述黑樣本與所述白樣本進行訓練,獲得目標樣本屬性評估模型。
第二態樣,本說明書實施例提供一種樣本屬性評估模型訓練裝置,包括:第一確定單元,用於確定與訓練樣本對應的關係圖中每個社區的黑樣本濃度,其中,所述訓練樣本包括黑樣本和未知樣本;第二確定單元,用於基於所述每個社區的黑樣本濃度,確定每個所述未知樣本的白樣本抽樣概率,以每個所述未知樣本的白樣本抽樣概率進行抽樣,獲得白樣本;訓練單元,用於基半監督機器學習演算法對所述黑樣本與所述白樣本進行訓練,獲得目標樣本屬性評估模型。
第三態樣,本說明書實施例提供一種伺服器,包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式,所述處理器執行所述程式時實現上述任一項所述樣本屬性評估方法的步驟。
第四態樣,本說明書實施例提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現上述任一項所述樣本屬性評估方法的步驟。
本說明書實施例有益效果如下:本說明書實施例中,通過確定訓練樣本,該訓練樣本中僅包括少量已確認屬性的黑樣本,還有大部分未確認屬性的未知樣本。基於訓練樣本對應的關係圖,確定每個社區的黑樣本濃度,結合社區黑樣本濃度以及半監督機器學習演算法,即使已知黑樣本數量較少,本實施例中的方法也可以從未知樣本中挖掘潛在黑樣本,進而確定模型訓練所需要的白樣本,達到模型訓練要求,使得訓練出的模型能夠準確地對樣本是否屬於黑樣本的屬性進行評估。
為了更好的理解上述技術方案,下面通過圖式以及具體實施例對本說明書實施例的技術方案做詳細的說明,應當理解本說明書實施例以及實施例中的具體特徵是對本說明書實施例技術方案的詳細的說明,而不是對本說明書技術方案的限定,在不衝突的情況下,本說明書實施例以及實施例中的技術特徵可以相互組合。
請參見圖1,為本說明書實施例的樣本屬性評估應用場景示意圖。終端100位於使用者側,與網路側的伺服器200通信。使用者可通過終端100中的APP或網站產生即時事件,一些業務資料。伺服器200收集各個終端產生的即時事件,即可挑選出訓練樣本。本說明書實施例可應用於風險樣本識別或保險理賠中騙保樣本識別等風控場景,也可以應用於二分類的分類場景。
第一態樣,本說明書實施例提供一種樣本屬性評估方法,請參考圖2,包括步驟S201-S203。
S201:確定與訓練樣本對應的關係圖中每個社區的黑樣本濃度,其中,所述訓練樣本包括黑樣本和未知樣本;
S202:基於所述每個社區的黑樣本濃度,確定每個所述未知樣本的白樣本抽樣概率,以每個所述未知樣本的白樣本抽樣概率進行抽樣,獲得白樣本;
S203:基於半監督機器學習演算法對所述黑樣本與所述白樣本進行訓練,獲得目標樣本屬性評估模型。
具體的,在本實施例中,首先通過步驟S201確定訓練樣本,訓練樣本如前述所示,可以是各個終端側產生的業務資料,訓練樣本中包括已經標記好屬性的黑樣本,還包括未知屬性的未知樣本。例如:在保險理賠場景中,訓練樣本為申請理賠的使用者的相關資料,其中,確定騙保使用者對應的樣本為黑樣本,保險理賠場景中已定騙保事實的黑樣本較少,缺乏大量黑樣本標記,從而導致樣本屬性評估模型精准度大大折扣,如何解決這種場景下的模型訓練問題是非常重要工作。本實施例中的方法,可以結合樣本的社區屬性與半監督機器學習演算法,來從大量未知樣本中挖掘潛在的黑樣本,達到模型訓練所需要的黑樣本數量,過濾得到信任度較高的白樣本,訓練時確保了黑樣本和白樣本的純度,從而完成模型訓練,得到精度較高的樣本屬性評估模型。
進一步,再通過步驟S201確定與訓練樣本對應的關係圖中每個社區的黑樣本濃度。
具體的,在本實施例中,需要預先構建包括訓練樣本的關係圖。具體的,每個訓練樣本對應一個節點,構建的關係圖中可以僅包括訓練樣本對應的節點,還可以是全網節點對應的關係圖。
圖的構建過程可以是獲取各節點在預定時間段內的歷史事件,基於歷史事件,按預設構圖方法確定關係圖,採用預設社區發現演算法對關係圖中的節點進行社區劃分,其中,每個節點對應有該節點所屬的社區標籤。其中,預設時間段可以預先指定,預設構圖方法需要定義以下各個內容:節點的定義,邊的定義以及邊的權重值的定義。
本實施例也不限制具體的構圖規則。不同的場景、不同實現中可以採用不同的構圖規則。舉例而言,在保險理賠場景中,預設構圖方法可以是:以使用者為點,若在半年內兩個使用者有過金融交易(如:轉帳),則將兩個使用者連接起來,邊的權重可以是兩個使用者轉帳的次數。
具體的,在本實施例中,針對上述構建的關係圖上給運行一個或多個預設社區發現演算法,這樣,每一個點得到一個該節點所屬社區的社區標籤。預設社區探索方法可以是標籤傳播演算法(LPA,Label Propagation Algorithm),也可以是快速折疊演算法(FU,Fast Unfolding)等等,在此,本申請不做限制。
其中,標籤傳播演算法流程簡述如下:
Step1:圖上的每一個點都以自己點id作為自己的標籤;
Step2:每一個點都從自己的鄰居那獲取各鄰居標籤;
Step3:每一個點收到來自所有鄰居的標籤之後,將收到標籤中出現最多的作為自己的標籤(如果有權圖則是權重和最高的那個)。如果出現標籤數相同多的標籤,則在這些出現最多的標籤中任選一個作為自己的標籤;
Step4:將每個點上的標籤作為自己的社區標籤輸出。
Step3:重複Step2直到所有點都不發生變化;
Step4:將Step3得到的每一個社區當成點,重複Step2直到所有社區不發生變化;
Step5:將每個點上的標籤作為自己的社區標籤輸出。
在對關係圖劃分好社區後,即可計算得到每個社區的黑樣本濃度,每個社區的黑樣本濃度的確定方式包括但不限於以下三種:
第一種:確定每個社區中所有黑樣本對應節點在該社區總節點中的第一占比,將所述第一占比作為該社區的黑樣本濃度。
第二種:確定每個社區中所有黑樣本對應節點在所述關係圖中總節點中的第二占比,將所述第一占比作為該社區的黑樣本濃度。
第三種:確定每個社區中所有黑樣本對應節點在該社區總節點中的第三占比,以及該社區總節點在所述關係圖中的總節點中的第四占比,獲得所述第三占比與所述第四占比的加權平均值,將所述加權平均值作為該社區的黑樣本濃度。
具體的,在本實施例中,採用第一種方式,黑樣本濃度可以定義為社區內的黑樣本個數除以社區節點總數。例如:社區A內總共包括5個節點,其中,有一個節點是黑樣本對應的節點,這樣,可計算得到社區A的黑樣本濃度為1/5,該社區內所有節點的黑樣本濃度均為1/5。
當然,還可以通過整個關係圖規模,採用上述第二種方式定義。例如:社區A內總共包括5個節點,其中,有一個節點是黑樣本對應的節點,關係圖中包括10個節點,這樣,可計算得到社區A的黑樣本濃度為1/10,該社區內所有節點的黑樣本濃度均為1/10。
當然,可以結合社區規模以及黑樣本在社區中的占比兩個維度來設定,採用上述第三種方式定義。例如:社區A內總共包括5個節點,其中,有一個節點是黑樣本對應的節點,關係圖中包括10個節點,這樣,可計算得到社區A的黑樣本濃度為K1*1/5+K2*5/10,其中,K1與K2表示加權係數,可根據實際需要繼續進行設定,則該社區內所有節點的黑樣本濃度均為0.2K1+0.5k2。在具體實施過程中,黑樣本濃度的定義方式可根據實際需要進行設定,在此,本申請不做限制。
在確定好各個樣本的黑樣本濃度後,通過步驟S202,基於每個社區的黑樣本濃度,確定每個未知樣本的白樣本抽樣概率,以每個所述未知樣本的白樣本抽樣概率進行抽樣,獲得白樣本。
本實施例的方法,在從未知樣本中挖掘潛在黑樣本時,結合社區屬性,即使小部分未知樣本在當前時刻沒有體現出來黑樣本真實特徵,結合社區特性,進行深度挖掘,可以真實的擴大黑樣本比例,達到模型訓練要求。具體的,在本實施例中,針對訓練樣本中的每個未知樣本,可以根據該樣本的黑樣本濃度確定該樣本的白樣本抽樣概率。比如:如果未知樣本1位於社區A,該社區A的黑樣本濃度為1/5,所以,未知樣本1的黑樣本濃度為1/5,未知樣本1的白樣本抽樣概率P1=1-1/5=4/5。進一步,在初始的第一次訓練時,可以將每個未知樣本的白樣本抽樣概率設定為固定值。比如:有100個未知樣本,在第一次訓練時可將每個未知樣本的白樣本抽樣概率設定為1/100。在後續的多輪訓練中再結合未知樣本的黑樣本濃度確定該未知樣本的白樣本抽樣概率。
這樣,在確定好各個未知樣本的白樣本抽樣概率後,可以對未知樣本按各自的白樣本抽樣概率進行白樣本抽樣,確定抽取到的白樣本,然後,通過步驟S203結合已經標記屬性的黑樣本,基於半監督機器學習演算法對黑樣本與白樣本進行訓練,獲得樣本屬性評估模型。具體實現可包括如下步驟:
基於半監督機器學習演算法對黑樣本與白樣本進行訓練,獲得樣本屬性評估模型;
判斷樣本屬性評估模型是否滿足預設收斂條件;
如果否,更新每個社區的黑樣本濃度,基於更新後的每個社區的黑樣本濃度與半監督機器學習演算法繼續訓練,直至訓練得到的樣本屬性評估模型滿足預設收斂條件,將滿足預設收斂條件的樣本屬性評估模型作為目標樣本屬性評估模型。
本實施例中,採用半監督機器學習演算法包括半監督(Positive and Unlabeled Learning,正樣本和無標記學習)機器學習演算法,它是一種半監督學習的機器學習演算法,是指用於訓練機器學習模型的訓練樣本中,僅部分訓練樣本是有標記樣本,而其餘的訓練樣本為無標記樣本,利用無標記樣本來輔助有標記樣本的學習過程。應用於建模一方收集到的訓練樣本中只有少量有標記的黑樣本,其餘的樣本均為無標記的未知樣本,針對有標記的正樣本和無標記樣本的機器學習過程。
在構建好黑樣本和白樣本後,可以基於半監督機器學習演算法對這些訓練樣本進行訓練,來構建樣本屬性評估模型。對於半監督機器學習演算法而言,通常可以包含多種機器學習策略。例如:半監督機器學習演算法包含典型的機器學習策略,包括兩階段法(two-stage strategy)和代價敏感法(cost-sensitive strategy)兩類。所謂兩階段法,演算法首先基於已知的正樣本和無標記樣本,在無標記樣本中挖掘發現潛在的可靠負樣本,然後基於已知的正樣本和挖掘出來的可靠負樣本,將問題轉化為傳統的有監督的機器學習的過程,來訓練分類模型。
而對於代價敏感的策略而言,演算法假設無標記樣本中正樣本的比例極低,通過直接將無標記樣本看作負樣本對待,為正樣本設置一個相對於負樣本更高的代價敏感權重。例如,通常會在基於代價敏感的半監督機器學習演算法的目標方程中,為與正樣本對應的損失函數,設置一個更高的代價敏感權重。通過給正樣本設置更高的代價敏感權重,使得最終訓練出的分類模型分錯一個正樣本的代價遠遠大於分錯一個負樣本的代價,如此一來,可以直接通過利用正樣本和無標記樣本(當作負樣本)學習一個代價敏感的分類器,來對未知的樣本進行分類。在本實施例中,既可以基於代價敏感的半監督機器學習演算法對上述訓練樣本進行訓練,也可以採用兩階段法對上述訓練樣本進行訓練。在具體實施過程中,可根據需要進行設定,在此,本申請不做限制。
在本實施例中主要以兩階段的半監督機器學習演算法進行詳細介紹。以保險理賠場景為例,假設上述訓練樣本集中的黑樣本被標記為1,表示該樣本為已知的騙保的保險資料,白樣本標記為0,表示該訓練樣本對應保險資料是正常的。在對黑樣本和基於白樣本抽樣概率抽樣出的白樣本進行二分類模型訓練後,得到樣本屬性評估模型,然後再採用該樣本屬性評估模型對未知樣本進行評估,得到每個未知樣本被標記為黑樣本的黑樣本評分,該黑樣本評分為一個範圍在0~1的數值,表明未知樣本屬於黑樣本的概率。當然,還可以以其他方式定義黑樣本白樣本以及對應的黑樣本評分,在此,本申請不做限制。
按照這樣的方式對訓練樣本進行多輪訓練,每輪訓練後得到對應的樣本屬性評估模型,需要判斷該樣本屬性評估模型是否滿足預設收斂條件,如果模型收斂,則將該輪訓練得到的樣本屬性評估模型作為最終的目標樣本屬性評估模型。如果模型還沒有收斂,則更新每個未知樣本的黑樣本濃度後繼續按照前述方式進行訓練,直至訓練得到的模型達到收斂條件。
在本實施例中,判斷模型是否收斂可以通過如下步驟實現:
基於樣本屬性評估模型對每個未知樣本進行評估,獲得每個未知樣本的本輪屬性評估結果,共計獲得M個本輪屬性評估結果,M為未知樣本的個數;
基於M個本輪屬性評估結果與M個上一輪屬性評估結果,判斷樣本屬性評估模型是否滿足預設收斂條件。
其中,基於樣本屬性評估模型對每個未知樣本進行評估,獲得每個未知樣本的本輪屬性評估結果,包括:
基於樣本屬性評估模型對每個未知樣本進行評估,獲得每個未知樣本的黑樣本評分,如果黑樣本評分值大於預設分值,將該未知樣本的屬性資訊標記為黑樣本,其中,每個未知樣本的本輪屬性評估結果中包括該未知樣本的屬性資訊。
具體的,在本實施例中,在每輪訓練得到該輪訓練對應的樣本屬性評估模型,利用該模型對每個未知樣本的黑樣本評分,可以根據評分對該未知樣本進行標記。具體的,如果黑樣本評分值大於預設分值,將該未知樣本的屬性資訊標記為黑樣本。舉例來說,預設分值設定為0.8,未知樣本1的黑樣本評分為0.9,將該未知樣本1的屬性資訊標記為黑樣本。未知樣本2的黑樣本評分為0.4,將該未知樣本2的屬性資訊保持不變,還是未知屬性樣本。通過這樣的方式,可以確定出每個未知樣本在該輪訓練中的屬性評估結果,該評估結果中可包括該未知樣本在本輪訓練中的黑樣本評分和屬性資訊。未知樣本個數為M,則得到M個本輪屬性評估結果。
進而,還可獲得未知樣本在上一輪訓練對應的屬性評估結果,即M個上一輪屬性評估結果。通過M個本輪屬性評估結果與M個上一輪屬性評估結果,即可判斷樣本屬性評估模型是否滿足預設收斂條件,具體可通過如下步驟實現:
判斷每個未知樣本的本輪屬性評估結果中的屬性資訊與該未知樣本的上一輪屬性評估結果中的屬性資訊是否一致,如果是,表明本輪樣本屬性評估模型滿足預設收斂條件。
具體的,在本實施例中,通過M個上一輪屬性評估結果中每個評估結果中的屬性資訊,確定在上一輪訓練中被標記為黑樣本包括哪些未知樣本,以及通過M個本輪屬性評估結果中每個評估結果中的屬性資訊,確定在本輪訓練中被標記為黑樣本包括哪些未知樣本。如果上一輪被標記為黑樣本的未知樣本與本輪被標記為黑樣本的未知樣本一致,表明每個未知樣本的標記已經沒有變化,模型達到收斂。舉例而言,上一輪中訓練中未知樣本中的黑樣本包括未知樣本1、未知樣本2、未知樣本5、未知樣本10。本輪訓練中的黑樣本也包括未知樣本1、未知樣本2、未知樣本5、未知樣本10,表明未知樣本沒有變化,本輪訓練出的樣本屬性評估模型已達到收斂。將該輪訓練得到的樣本屬性評估模型作為目標樣本屬性評估模型。
進一步,判定模型是否達到收斂的預設收斂條件可以根據實際需要進行設定,上述示例只是具體實現的一種示例,並不對本申請構成限定。例如:還可以設定為如果上一輪被標記為黑樣本的未知樣本與本輪被標記為黑樣本的未知樣本一致的未知樣本數量占比達到預設占比,表明每個未知樣本的標記已經沒有變化,模型達到收斂。
進一步,如果確定本輪訓練得到的樣本屬性評估模型不滿足預設收斂條件,則表明模型還沒有收斂,需要進行下一輪訓練。在進行下一輪訓練之前,由於標記的黑樣本相對於上一輪訓練發生了變化,所以,需要根據標記的黑樣本對社區的黑樣本濃度進行更新,進而對每個未知樣本的黑樣本濃度進行更新,具體實現可包括如下步驟:
基於M個本輪屬性評估結果與M個上一輪屬性評估結果,確定屬性資訊發生變化的未知樣本;重新計算與屬性資訊發生變化的未知樣本對應的社區的黑樣本濃度。
具體的,在本實施例中,基於本輪訓練對應的每個未知樣本的屬性評估結果與上一輪訓練對應的每個未知樣本的屬性評估結果,可以定位出哪些未知樣本的屬性資訊發生變化,該變化可以是由黑樣本屬性變更為未知屬性,還可以是由未知屬性變更為黑樣本屬性。進而定位到產生屬性變化的未知樣本所在社區,重新計算該社區的黑樣本濃度,根據該社區更新後的黑樣本濃度,更新該社區對應節點的白樣本抽樣概率。舉例來說,社區A包括未知樣本1、未知樣本2、黑樣本1對應的節點。上一輪訓練中社區A中的所有節點屬性均為發生改變,社區A中每個節點對應的黑樣本濃度為1/3。此輪訓練中將未知樣本1標記為黑樣本,其餘節點屬性未發生變化,將社區A中每個節點對應的黑樣本濃度更新為2/3。這樣,未知樣本1、未知樣本2對應的白樣本抽樣概率均為1/3。
按照這樣的方式,可以更新未知節點的白樣本抽樣概率,然後重複執行前述按各個節點的白樣本抽樣概率的白樣本抽樣得到白樣本,結合抽樣得到的白樣本與已知黑樣本,基於半監督機器學習演算法進行下一輪的樣本屬性評估模型的訓練,直至訓練得到的樣本屬性評估模型達到上述預設收斂條件。
進而,通過前述方式訓練得到目標樣本屬性評估模型,可用該模型對新進樣本進行樣本屬性評估,確定新進樣本的評估結果,其中,評估結果中包括該新進樣的黑樣本評分和/或屬性資訊。具體的,本實施例中採用已知黑樣本和篩選出潛在黑樣本後的剩餘的信任度較高的白樣本進行模型訓練,得到的目標樣本屬性評估模型的評估精度較高,可以對新進樣本進行樣本屬性評估,評估結果可以包括前述的黑樣本評分,表明該新進樣本屬於黑樣本的概率。評估結果也可以包括該新進樣本的屬性資訊,例如:該新進樣本的黑樣本評分為0.9,大於預設分值0.8,確定該新進樣本的屬性資訊為黑樣本。通過該評估結果,相關人員即可及時獲知該新進樣本的屬性,及時進行風險調控。
進一步,在本實施例中,由於節點間的關係會隨著時間發生變化,所以,可以按照預設時間間隔對前述實施例中的關係圖進行更新,對更新後的關係圖重新進行社區劃分,得到對應社區的黑樣本濃度,重新進行樣本屬性評估模型的訓練,以使得模型能夠按預設時間間隔更新。
本實施例中的方法可以應用於保險理賠場景,訓練樣本為申請理賠人員的保險資料,黑樣本為已知的騙保人員的保險資料,通過前述方式獲得騙保評估模型,新進的申請理賠人員的相關保險資料輸入該騙保評估模型後即可得到該新進的申請理賠人員屬於騙保人員的評估得分或是否為騙保的屬性。這樣,保險公司相關人員就可以根據這樣的評估結果對疑似騙保人員進行後續相關審查,避免了不必要的財產損失。
第二態樣,基於同一發明構思,本說明書實施例提供一種樣本屬性評估模型訓練裝置,請參考圖3,包括:
第一確定單元301,用於確定與訓練樣本對應的關係圖中每個社區的黑樣本濃度,其中,所述訓練樣本包括黑樣本和未知樣本;
第二確定單元302,用於基於所述每個社區的黑樣本濃度,確定每個所述未知樣本的白樣本抽樣概率,以每個所述未知樣本的白樣本抽樣概率進行抽樣,獲得白樣本;
訓練單元303,用於基半監督機器學習演算法對所述黑樣本與所述白樣本進行訓練,獲得目標樣本屬性評估模型。
在一種可選實現方式中,所述訓練單元303具體用於:
基於半監督機器學習演算法對所述黑樣本與所述白樣本進行訓練,獲得樣本屬性評估模型;
判斷所述樣本屬性評估模型是否滿足預設收斂條件;
如果否,更新所述每個社區的黑樣本濃度,基於更新後的每個社區的黑樣本濃度與所述半監督機器學習演算法繼續訓練,直至訓練得到的樣本屬性評估模型滿足所述預設收斂條件,將滿足所述預設收斂條件的樣本屬性評估模型作為目標樣本屬性評估模型。
在一種可選實現方式中,所述訓練單元303具體用於:
基於所述樣本屬性評估模型對每個所述未知樣本進行評估,獲得每個所述未知樣本的本輪屬性評估結果,共計獲得M個本輪屬性評估結果,M為未知樣本的個數;
基於所述M個本輪屬性評估結果與M個上一輪屬性評估結果,判斷所述樣本屬性評估模型是否滿足預設收斂條件。
在一種可選實現方式中,所述訓練單元303具體用於:
基於所述樣本屬性評估模型對每個所述未知樣本進行評估,獲得每個所述未知樣本的黑樣本評分,如果黑樣本評分值大於預設分值,將該未知樣本的屬性資訊標記為黑樣本,其中,每個所述未知樣本的本輪屬性評估結果中包括該未知樣本的屬性資訊。
在一種可選實現方式中,所述訓練單元303具體用於:
判斷每個未知樣本的本輪屬性評估結果中的屬性資訊與該未知樣本的上一輪屬性評估結果中的屬性資訊是否一致,如果是,表明所述本輪樣本屬性評估模型滿足所述預設收斂條件。
在一種可選實現方式中,所述訓練單元303具體用於:
基於所述M個本輪屬性評估結果與M個上一輪屬性評估結果,確定屬性資訊發生變化的未知樣本;
重新計算與所述屬性資訊發生變化的未知樣本對應的社區的黑樣本濃度。
在一種可選實現方式中,所述裝置還包括評估單元,所述評估單元具體用於:
在所述將滿足所述預設收斂條件的樣本屬性評估模型作為目標樣本屬性評估模型之後,根據目標樣本屬性評估模型,對新進樣本進行評估,確定所述新進樣本的評估結果,其中,所述評估結果中包括該新進樣的黑樣本評分和/或屬性資訊。
在一種可選實現方式中,所述訓練樣本為申請理賠人員對應的保險資料,所述黑樣本為騙保人員對應保險資料。
在一種可選實現方式中,所述第一確定單元具體用於:
確定每個社區中所有黑樣本對應節點在該社區總節點中的第一占比,將所述第一占比作為該社區的黑樣本濃度;或
確定每個社區中所有黑樣本對應節點在所述關係圖中總節點中的第二占比,將所述第一占比作為該社區的黑樣本濃度;或
確定每個社區中所有黑樣本對應節點在該社區總節點中的第三占比,以及該社區總節點在所述關係圖中的總節點中的第四占比,獲得所述第三占比與所述第四占比的加權平均值,將所述加權平均值作為該社區的黑樣本濃度。
第三態樣,基於與前述實施例中樣本屬性評估方法同樣的發明構思,本發明還提供一種伺服器,如圖4所示,包括記憶體404、處理器402及儲存在記憶體404上並可在處理器402上運行的電腦程式,所述處理器402執行所述程式時實現前文所述樣本屬性評估方法的任一方法的步驟。
其中,在圖4中,匯流排架構(用匯流排400來代表),匯流排400可以包括任意數量的互聯的匯流排和橋,匯流排400將包括由處理器402代表的一個或多個處理器和記憶體404代表的記憶體的各種電路鏈接在一起。匯流排400還可以將諸如週邊設備、穩壓器和功率管理電路等之類的各種其他電路鏈接在一起,這些都是本領域所公知的,因此,本文不再對其進行進一步描述。匯流排界面406在匯流排400和接收器401和發送器403之間提供介面。接收器401和發送器403可以是同一個元件,即收發機,提供用於在傳輸媒體上與各種其他裝置通信的單元。處理器402負責管理匯流排400和通常的處理,而記憶體404可以被用於儲存處理器402在執行操作時所使用的資料。
第四態樣,基於與前述實施例中樣本屬性評估的發明構思,本發明還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現前文所述樣本屬性評估的方法的任一方法的步驟。
本說明書是參照根據本說明書實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可編程資料處理設備的處理器以產生一個機器,使得通過電腦或其他可編程資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的設備。
這些電腦程式指令也可儲存在能引導電腦或其他可編程資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令設備的製造品,該指令設備實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可編程資料處理設備上,使得在電腦或其他可編程設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
儘管已描述了本說明書的較佳實施例,但本領域內的技術人員一旦得知了基本進步性概念,則可對這些實施例作出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本說明書範圍的所有變更和修改。
顯然,本領域的技術人員可以對本說明書進行各種改動和變型而不脫離本說明書的精神和範圍。這樣,倘若本說明書的這些修改和變型屬於本說明書申請專利範圍及其等同技術的範圍之內,則本說明書也意圖包含這些改動和變型在內。
301:第一確定單元
302:第二確定單元
303:訓練單元
400:匯流排
401:接收器
402:處理器
403:發送器
404:記憶體
406:匯流排界面
圖1為本說明書實施例樣本屬性評估應用場景示意圖;
圖2為本說明書實施例第一態樣樣本屬性評估方法流程圖;
圖3為本說明書實施例第二態樣樣本屬性評估模型訓練裝置結構示意圖;
圖4為本說明書實施例第三態樣樣本屬性評估伺服器結構示意圖。
Claims (15)
- 一種樣本屬性模型訓練方法,包括:確定與訓練樣本對應的關係圖中每個社區的黑樣本濃度,其中,所述訓練樣本包括黑樣本和未知樣本;基於所述每個社區的黑樣本濃度,確定每個所述未知樣本的白樣本抽樣概率,以每個所述未知樣本的所述白樣本抽樣概率進行抽樣,獲得白樣本;基於半監督機器學習演算法對所述黑樣本與所述白樣本進行訓練,獲得樣本屬性評估模型;判斷所述樣本屬性評估模型是否滿足預設收斂條件;如果否,更新所述每個社區的黑樣本濃度,基於更新後的每個社區的黑樣本濃度與所述半監督機器學習演算法繼續訓練,直至訓練得到的所述樣本屬性評估模型滿足所述預設收斂條件,將滿足所述預設收斂條件的樣本屬性評估模型作為目標樣本屬性評估模型,其中所述判斷所述樣本屬性評估模型是否滿足預設收斂條件,包括:基於所述樣本屬性評估模型對每個所述未知樣本進行評估,獲得每個所述未知樣本的本輪屬性評估結果,共計獲得M個本輪屬性評估結果,M為所述未知樣本的個數;基於所述M個本輪屬性評估結果與M個上一輪屬性評估結果,判斷所述樣本屬性評估模型是否滿足預設收斂條件。
- 根據申請專利範圍第1項所述的方法,所述確定與訓練樣本對應的關係圖中每個社區的黑樣本濃度,包括:確定每個社區中所有黑樣本對應節點在社區總節點中的第一占比,將所述第一占比作為該社區的黑樣本濃度;或確定每個社區中所有黑樣本對應節點在所述關係圖中總節點中的第二占比,將所述第一占比作為該社區的黑樣本濃度;或確定每個社區中所有黑樣本對應節點在該社區總節點中的第三占比,以及該社區總節點在所述關係圖中的總節點中的第四占比,獲得所述第三占比與所述第四占比的加權平均值,將所述加權平均值作為該社區的黑樣本濃度。
- 根據申請專利範圍第3項所述的方法,所述基於所述樣本屬性評估模型對每個所述未知樣本進行評估,獲得每個所述未知樣本的本輪屬性評估結果,包括:所述基於所述樣本屬性評估模型對每個所述未知樣本進行評估,獲得每個所述未知樣本的黑樣本評分,如果黑樣本評分值大於預設分值,將該未知樣本的屬性資訊標記為黑樣本,其中,每個所述未知樣本的本輪屬性評估結果中包括該未知樣本的屬性資訊。
- 根據申請專利範圍第3項所述的方法,所述基於所述 M個本輪屬性評估結果與M個上一輪屬性評估結果,判斷所述樣本屬性評估模型是否滿足所述預設收斂條件,包括:判斷每個所述未知樣本的本輪屬性評估結果中的所述屬性資訊與該未知樣本的上一輪屬性評估結果中的屬性資訊是否一致,如果是,表明所述本輪樣本屬性評估模型滿足所述預設收斂條件。
- 根據申請專利範圍第3項所述的方法,所述更新所述每個社區的黑樣本濃度,包括:所述基於所述M個本輪屬性評估結果與M個上一輪屬性評估結果,確定所述屬性資訊發生變化的未知樣本;重新計算與所述屬性資訊發生變化的所述未知樣本對應的社區的黑樣本濃度。
- 根據申請專利範圍第1-5項中任一項所述的方法,所述訓練樣本為申請理賠人員對應的保險資料,所述黑樣本為騙保人員對應保險資料。
- 一種樣本屬性評估方法,包括:根據申請專利範圍第1-5項中任一項所述的方法訓練得到的目標樣本屬性評估模型,對新進樣本進行評估,確定所述新進樣本的評估結果,其中,所述評估結果中包括所述新進樣本的黑樣本評分和/或屬性資訊。
- 一種樣本屬性評估模型訓練裝置,包括:第一確定單元,用於確定與訓練樣本對應的關係圖中每個社區的黑樣本濃度,其中,所述訓練樣本包括黑樣本和未知樣本;第二確定單元,用於基於所述每個社區的黑樣本濃度,確定每個所述未知樣本的白樣本抽樣概率,以每個所述未知樣本的所述白樣本抽樣概率進行抽樣,獲得白樣本;訓練單元,用於基於半監督機器學習演算法對所述黑樣本與所述白樣本進行訓練,獲得樣本屬性評估模型;判斷所述樣本屬性評估模型是否滿足預設收斂條件;如果否,更新所述每個社區的黑樣本濃度,基於更新後的每個社區的黑樣本濃度與所述半監督機器學習演算法繼續訓練,直至訓練得到的所述樣本屬性評估模型滿足所述預設收斂條件,將滿足所述預設收斂條件的樣本屬性評估模型作為目標樣本屬性評估模型,其中所述訓練單元具體用於:基於所述樣本屬性評估模型對每個所述未知樣本進行評估,獲得每個所述未知樣本的本輪屬性評估結果,共計獲得M個本輪屬性評估結果,M為所述未知樣本的個數;基於所述M個本輪屬性評估結果與M個上一輪屬性評估結果,判斷所述樣本屬性評估模型是否滿足預設收斂條件。
- 根據申請專利範圍第8項所述的裝置,所述第一確定單元具體用於:確定每個社區中所有黑樣本對應節點在社區總節點中的第一占比,將所述第一占比作為該社區的黑樣本濃度;或確定每個社區中所有黑樣本對應節點在所述關係圖中總節點中的第二占比,將所述第一占比作為該社區的黑樣本濃度;或確定每個社區中所有黑樣本對應節點在該社區總節點中的第三占比,以及該社區總節點在所述關係圖中的總節點中的第四占比,獲得所述第三占比與所述第四占比的加權平均值,將所述加權平均值作為該社區的黑樣本濃度。
- 根據申請專利範圍第8項所述的裝置,所述訓練單元具體用於:基於所述樣本屬性評估模型對每個所述未知樣本進行評估,獲得每個所述未知樣本的黑樣本評分,如果黑樣本評分值大於預設分值,將該未知樣本的屬性資訊標記為黑樣本,其中,每個所述未知樣本的本輪屬性評估結果中包括該未知樣本的屬性資訊。
- 根據申請專利範圍第10項所述的裝置,所述訓練單元具體用於: 判斷每個所述未知樣本的本輪屬性評估結果中的所述屬性資訊與該未知樣本的上一輪屬性評估結果中的屬性資訊是否一致,如果是,表明所述本輪樣本屬性評估模型滿足所述預設收斂條件。
- 根據申請專利範圍第10項所述的裝置,所述訓練單元具體用於:所述基於所述M個本輪屬性評估結果與M個上一輪屬性評估結果,確定所述屬性資訊發生變化的未知樣本;重新計算與所述屬性資訊發生變化的所述未知樣本對應的社區的黑樣本濃度。
- 一種樣本屬性評估裝置,包括:評估單元,用於根據申請專利範圍第8-12項中任一項所述的裝置訓練得到的目標樣本屬性評估模型,對新進樣本進行評估,確定所述新進樣本的評估結果,其中,所述評估結果中包括所述新進樣本的黑樣本評分和/或屬性資訊。
- 一種伺服器,包括記憶體、處理器及儲存在記憶體上並可在所述處理器上運行的電腦程式,所述處理器執行所述程式時實現申請專利範圍第1-7項之任一項所述方法的步驟。
- 一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現申請專利範圍第1-7項之任一項所述方法的步驟。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811015607.1 | 2018-08-31 | ||
CN201811015607.1A CN109325525A (zh) | 2018-08-31 | 2018-08-31 | 样本属性评估模型训练方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202011285A TW202011285A (zh) | 2020-03-16 |
TWI726341B true TWI726341B (zh) | 2021-05-01 |
Family
ID=65263715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108122547A TWI726341B (zh) | 2018-08-31 | 2019-06-27 | 樣本屬性評估模型訓練方法、裝置、伺服器及儲存媒體 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN109325525A (zh) |
TW (1) | TWI726341B (zh) |
WO (1) | WO2020042795A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325525A (zh) * | 2018-08-31 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 样本属性评估模型训练方法、装置及服务器 |
CN110020670B (zh) * | 2019-03-07 | 2023-07-18 | 创新先进技术有限公司 | 一种模型迭代方法、装置及设备 |
CN110311902B (zh) * | 2019-06-21 | 2022-04-22 | 北京奇艺世纪科技有限公司 | 一种异常行为的识别方法、装置及电子设备 |
CN110335140B (zh) * | 2019-06-27 | 2021-09-24 | 上海淇馥信息技术有限公司 | 基于社交关系预测贷款黑中介的方法、装置、电子设备 |
CN110807643A (zh) * | 2019-10-11 | 2020-02-18 | 支付宝(杭州)信息技术有限公司 | 一种用户信任评估方法、装置及设备 |
US11775822B2 (en) * | 2020-05-28 | 2023-10-03 | Macronix International Co., Ltd. | Classification model training using diverse training source and inference engine using same |
CN111881289B (zh) * | 2020-06-10 | 2023-09-08 | 北京启明星辰信息安全技术有限公司 | 分类模型的训练方法、数据风险类别的检测方法及装置 |
CN111709833B (zh) * | 2020-06-16 | 2023-10-31 | 中国银行股份有限公司 | 用户信用的评估方法及装置 |
CN111931912A (zh) * | 2020-08-07 | 2020-11-13 | 北京推想科技有限公司 | 网络模型的训练方法及装置,电子设备及存储介质 |
CN112231929B (zh) * | 2020-11-02 | 2024-04-02 | 北京空间飞行器总体设计部 | 一种基于轨道参数的评估场景大样本生成方法 |
JP7062747B1 (ja) * | 2020-12-25 | 2022-05-06 | 楽天グループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN113343051B (zh) * | 2021-06-04 | 2024-04-16 | 全球能源互联网研究院有限公司 | 一种异常sql检测模型构建方法及检测方法 |
TWI771098B (zh) * | 2021-07-08 | 2022-07-11 | 國立陽明交通大學 | 路側單元之雷達系統之狀態之錯誤診斷系統及方法 |
CN113779150B (zh) * | 2021-09-14 | 2024-06-18 | 杭州数梦工场科技有限公司 | 一种数据质量评估方法及装置 |
CN116579651B (zh) * | 2023-05-11 | 2023-11-10 | 中国矿业报社 | 一种基于半监督学习的矿业项目评价方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120311030A1 (en) * | 2011-05-31 | 2012-12-06 | International Business Machines Corporation | Inferring User Interests Using Social Network Correlation and Attribute Correlation |
US20140172756A1 (en) * | 2012-12-17 | 2014-06-19 | International Business Machines Corporation | Question classification and feature mapping in a deep question answering system |
CN105468742A (zh) * | 2015-11-25 | 2016-04-06 | 小米科技有限责任公司 | 恶意订单识别方法及装置 |
CN107730262A (zh) * | 2017-10-23 | 2018-02-23 | 阿里巴巴集团控股有限公司 | 一种欺诈识别方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7983490B1 (en) * | 2007-12-20 | 2011-07-19 | Thomas Cecil Minter | Adaptive Bayes pattern recognition |
US9053391B2 (en) * | 2011-04-12 | 2015-06-09 | Sharp Laboratories Of America, Inc. | Supervised and semi-supervised online boosting algorithm in machine learning framework |
CN106960154A (zh) * | 2017-03-30 | 2017-07-18 | 兴华永恒(北京)科技有限责任公司 | 一种基于决策树模型的恶意程序动态识别方法 |
CN107273454B (zh) * | 2017-05-31 | 2020-11-03 | 北京京东尚科信息技术有限公司 | 用户数据分类方法、装置、服务器和计算机可读存储介质 |
CN107368892B (zh) * | 2017-06-07 | 2020-06-16 | 无锡小天鹅电器有限公司 | 基于机器学习的模型训练方法和装置 |
CN107798390B (zh) * | 2017-11-22 | 2023-03-21 | 创新先进技术有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
CN108334647A (zh) * | 2018-04-12 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 保险欺诈识别的数据处理方法、装置、设备及服务器 |
CN109325525A (zh) * | 2018-08-31 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 样本属性评估模型训练方法、装置及服务器 |
-
2018
- 2018-08-31 CN CN201811015607.1A patent/CN109325525A/zh active Pending
-
2019
- 2019-06-27 TW TW108122547A patent/TWI726341B/zh active
- 2019-07-17 WO PCT/CN2019/096287 patent/WO2020042795A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120311030A1 (en) * | 2011-05-31 | 2012-12-06 | International Business Machines Corporation | Inferring User Interests Using Social Network Correlation and Attribute Correlation |
US20140172756A1 (en) * | 2012-12-17 | 2014-06-19 | International Business Machines Corporation | Question classification and feature mapping in a deep question answering system |
CN105468742A (zh) * | 2015-11-25 | 2016-04-06 | 小米科技有限责任公司 | 恶意订单识别方法及装置 |
CN107730262A (zh) * | 2017-10-23 | 2018-02-23 | 阿里巴巴集团控股有限公司 | 一种欺诈识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
TW202011285A (zh) | 2020-03-16 |
CN109325525A (zh) | 2019-02-12 |
WO2020042795A1 (zh) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI726341B (zh) | 樣本屬性評估模型訓練方法、裝置、伺服器及儲存媒體 | |
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN110009174B (zh) | 风险识别模型训练方法、装置及服务器 | |
TW201947510A (zh) | 保險業務風險預測的處理方法、裝置及處理設備 | |
WO2020168851A1 (zh) | 行为识别 | |
Xu et al. | A hybrid autoregressive fractionally integrated moving average and nonlinear autoregressive neural network model for short-term traffic flow prediction | |
WO2020052168A1 (zh) | 反欺诈模型的生成及应用方法、装置、设备及存储介质 | |
CN110310114A (zh) | 对象分类方法、装置、服务器及存储介质 | |
Herasymovych et al. | Using reinforcement learning to optimize the acceptance threshold of a credit scoring model | |
WO2019019346A1 (zh) | 资产配置策略获取方法、装置、计算机设备和存储介质 | |
WO2023045691A1 (zh) | 对象识别方法、装置、电子设备及存储介质 | |
CN114202223A (zh) | 企业信用风险评分方法、装置、设备及存储介质 | |
CN112580733A (zh) | 分类模型的训练方法、装置、设备以及存储介质 | |
CN114830164A (zh) | 使用机器学习检测追加保证金通知的原因的方法和*** | |
CN113240177B (zh) | 训练预测模型的方法、预测方法、装置、电子设备及介质 | |
CN110889493A (zh) | 针对关系网络添加扰动的方法及装置 | |
US11551317B2 (en) | Property valuation model and visualization | |
CN117495548A (zh) | 一种风险预警方法、装置、设备及介质 | |
WO2023143570A1 (zh) | 一种连接关系预测方法及相关设备 | |
CN116307078A (zh) | 账户标签预测方法、装置、存储介质及电子设备 | |
CN116150429A (zh) | 异常对象识别方法、装置、计算设备以及存储介质 | |
CN115618065A (zh) | 一种数据处理方法及相关设备 | |
CN115099875A (zh) | 基于决策树模型的数据分类方法及相关设备 | |
CN112364258B (zh) | 基于图谱的推荐方法、***、存储介质及电子设备 | |
CN114676927A (zh) | 风险预测方法和装置、电子设备、计算机可读存储介质 |