TW201710993A

TW201710993A - 一種軟體推廣作弊的檢測方法、裝置及系統

Info

Publication number: TW201710993A
Application number: TW105107221A
Authority: TW
Inventors: Yu-Xiang Hu
Original assignee: Alibaba Group Services Ltd
Priority date: 2015-09-01
Filing date: 2016-03-09
Publication date: 2017-03-16
Also published as: JP2018528517A; CN106485507A; JP6874950B2; EP3345154A4; EP3345154A1; WO2017040574A1; US20170063913A1; US10243967B2; CN106485507B

Abstract

本申請提供了一種軟體推廣作弊的檢測方法、裝置及系統，本申請分別從“刷好評作弊”、“刷量作弊”角度提出了用於檢測軟體是否有作弊行為的技術方案，該技術方案是基於概率統計分佈原理分析同一類別的軟體的評論資訊的分佈情況，基於概率統計分佈中小概率事件原理，根據同一類軟體的評論資訊的概率統計分佈參數設置判定閾值範圍，當待檢測軟體的評論資訊的平均相似度或平均資訊熵落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，則判定該待檢測軟體是刷好評推廣作弊軟體。通過本申請，可以實現對軟體推廣作弊的自動檢測，說明使用者甄別軟體，能夠加強軟體下載安全防範。

Description

一種軟體推廣作弊的檢測方法、裝置及系統

本申請關於互聯網技術領域，特別是關於一種軟體推廣作弊的檢測方法、裝置及系統。

近年來隨著互聯網的發展，人們對於軟體的需求不斷擴大，軟體下載網站快速發展，比較知名的有太平洋下載中心，騰訊應用寶，360手機助手網，淘寶手機助手、pp助手等。這些網站的功能均是提供豐富的PC端或移動無線端軟體，方便使用者下載，安裝，升級及卸載。在這些網站上，使用者選擇軟體時一般會參考軟體的下載量及口碑，下載量高、好評多的軟體往往會被使用者優先下載，因此這兩個指標能夠極大影響用戶的選擇。部分軟體推廣者就利用這一點，通過一定非法手段進行刷好評操作和刷量操作，從而誤導更多人下載其推廣的軟體，造成較為惡劣的影響。目前尚無專門檢測軟體推廣作弊問題的技術方案。

為了解決上述技術問題，本申請實施例提供了一種軟體推廣作弊的檢測方法、裝置及系統，以實現對軟體推廣作弊的自動檢測，說明使用者甄別軟體，能夠加強軟體下載安全防範。

根據本申請的第一方面，本申請提供一種軟體推廣作弊的檢測方法，該方法包括：獲取平臺上軟體的評論資訊；根據軟體的評論資訊的相似度或資訊增益，計算軟體的評論資訊的平均相似度或平均資訊熵；根據同一類別的每個軟體各自對應的平均相似度或平均資訊熵，計算得到該同一類別的軟體對應的概率統計分佈參數；根據該同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍，該判定閾值範圍是用於判定小概率事件的閾值範圍；當待檢測軟體的評論資訊的平均相似度或平均資訊熵落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，則判定該待檢測軟體是刷好評推廣作弊軟體。

根據本申請的第二方面，本申請提供另一種軟體推廣作弊的檢測方法，該方法包括：獲取平臺上軟體的評論資訊和下載量；計算軟體的評論下載比，該評論下載比等於評論資訊總個數與下載量的比值；根據同一類別的軟體各自對應的評論下載比，計算得到該同一類別的軟體對應的概率統計分佈參數；根據同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍；該判定閾值範圍是用於判定小概率事件的閾值範圍；當待檢測軟體的評論下載比落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，則判定該待檢測軟體是刷量推廣作弊軟體。

根據本申請的協力廠商面，本申請提供了一種軟體推廣作弊的檢測裝置，該裝置包括：獲取單元，用於獲取平臺上軟體的評論資訊；第一計算單元，用於根據軟體的評論資訊的相似度或資訊增益，計算軟體的評論資訊的平均相似度或平均資訊熵；第二計算單元，用於根據同一類別的每個軟體各自對應的平均相似度或平均資訊熵，計算得到該同一類別的軟體對應的概率統計分佈參數；設置單元，用於根據該同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍，該判定閾值範圍是用於判定小概率事件的閾值範圍；判定單元，用於當待檢測軟體的評論資訊的平均相似度或平均資訊熵落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，則判定該待檢測軟體是刷好評推廣作弊軟體。

根據本申請的第四方面，本申請提供了另一種軟體推廣作弊的檢測裝置，該裝置包括：獲取單元，用於獲取平臺上軟體的評論資訊和下載量；第一計算單元，用於計算軟體的評論下載比，該評論下載比等於評論資訊總個數與下載量的比值；第二計算單元，用於根據同一類別的軟體各自對應的評論下載比，計算得到該同一類別的軟體對應的概率統計分佈參數；設置單元，用於根據同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍；該判定閾值範圍是用於判定小概率事件的閾值範圍；判定單元，用於當待檢測軟體的評論下載比落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，判定該待檢測軟體是刷量推廣作弊軟體。

根據本申請的第五方面，本申請提供了一種軟體推廣作弊的檢測系統，該系統包括：資料抓取裝置、資料儲存裝置、反作弊分析平臺，所述反作弊分析平臺包括：上述兩種軟體推廣作弊檢測裝置；所述資料抓取裝置，用於從平臺上抓取軟體的評論資訊和下載量；所述資料儲存裝置，用於儲存軟體的評論資訊和下載量；所述資料抓取裝置通過資料介面層與所述資料儲存裝置進行資料交互；所述資料儲存裝置通過資料介面層與所述反作弊分析平臺進行資料交互。

由上述實施例可以看出，與現有技術相比，本申請的優點在於：本申請分別從“刷好評作弊”和“刷量作弊”的角度提出了用於檢測軟體是否有作弊行為的技術方案。一方面從“刷好評作弊”的角度出發，基於概率統計分佈原理分析同一類別的軟體的評論資訊的分佈情況，主要是以軟體評論資訊的平均相似度或平均資訊熵作為概率統計分析的資料基礎，分析得到同一類軟體的評論資訊的概率統計分佈參數，然後基於概率統計分佈中小概率事件原理來設定該判定閾值範圍，使得該判定閾值範圍是用於判定小概率事件的閾值範圍，因此，當待檢測軟體的平均相似度或平均資訊熵落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，表明該待檢測軟體具有這些評論資訊的事件屬於小概率事件，判定該待檢測軟體是刷好評推廣作弊軟體。

另一方面從“刷量作弊”的角度出發，基於概率統計分佈原理分析同一類別的軟體的評論資訊的分佈情況，主要是以評論下載比作為概率統計分佈的資料基礎，分析得到同一類軟體的評論下載比的概率統計分佈參數，然後根據該概率統計分佈參數設置判定閾值範圍，主要是基於概率統計分佈中小概率事件原理來設定該判定閾值範圍，使得該判定閾值範圍是用於判定小概率事件的閾值範圍，因此，當待檢測軟體的評論下載比落入該判定閾值範圍時，表明該待檢測軟體具有這樣的評論下載比的事件屬於小概率事件，判定該待檢測軟體是刷量推廣作弊軟體。

本申請的技術方案，基於概率統計分佈和小概率事件的數學原理，以軟體的評論資訊、下載量這些實際資料為統計分析的資料基礎，能夠自我調整性的設置判定閾值範圍，能夠實現對軟體推廣作弊的自動檢測，說明使用者甄別軟體，能夠加強軟體下載安全防範。

101、102、103、104、105、201、202、203、204、205‧‧‧步驟

301、401‧‧‧獲取單元

302、402‧‧‧第一計算單元

303、403‧‧‧第二計算單元

304、404‧‧‧設置單元

305、405‧‧‧判定單元

501‧‧‧資料抓取裝置

502‧‧‧資料儲存裝置

503‧‧‧反作弊分析平臺

5031‧‧‧“刷好評”推廣作弊檢測裝置

5032‧‧‧“刷量”推廣作弊檢測裝置

為了更清楚地說明本申請實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。

圖1是本申請提供的一種軟體推廣作弊的檢測方法的流程圖；圖2是本申請提供的另一種軟體推廣作弊的檢測方法的流程圖；圖3是本申請提供的一種軟體推廣作弊的檢測裝置的結構圖；圖4是本申請提供的另一種軟體推廣作弊的檢測裝置的結構圖；圖5是本申請提供的一種軟體推廣作弊的檢測系統的結構圖。

為使本申請的上述目的、特徵和優點能夠更加明顯易懂，下面結合附圖對本申請實施例進行詳細描述。

方法實施例

請參閱圖1，圖1示意性地示出了本申請提供的一種軟體推廣作弊的檢測方法的流程圖，該方法可以由用戶機器執行，用戶機器可以是個人的PC機，也可以是各種類型的網站伺服器，例如Web伺服器，或者APP伺服器。該方法例如可以包括以下步驟：

步驟101：獲取平臺上軟體的評論資訊。

在本申請實施例中，平臺是指各個軟體推廣平臺或網站，可以利用爬蟲爬取平臺上軟體的下載頁面，具體的可以利用“Jsoup”定點爬取技術，將下載頁面上的特定資訊爬取出來，在本申請實施例中，主要用於爬取評論資訊，也被稱之為評語；由於網站上記錄使用者的評語是按照發表時間先後排序的，因此，爬取到評論資訊後，可以按照發表時間先後排序將其保存在資料庫中。

在實際應用中可以利用開源的mysql資料庫或postgresql資料庫，也可以利用其它資料庫。

步驟102：根據軟體的評論資訊的相似度或資訊增益，計算軟體的評論資訊的平均相似度或平均資訊熵。

下面對“根據軟體的評論資訊的相似度，計算軟體的評論資訊的平均相似度”的實現過程作解釋說明。具體的，可以包括以下三個步驟：對軟體的評論資訊進行分詞得到分詞向量，每個評論資訊對應有一個分詞向量；根據分詞向量和向量相似度的計算方法，計算軟體的第N條評論資訊相比在其前面的一條或者多條評論資訊的相似度，將最大相似度作為第N條評論資訊的相似度；所述N大於或等於1；以及按照求取均值的方式，根據評論資訊的相似度計算得到軟體的評論資訊的平均相似度。

關於上述步驟“根據分詞向量和向量相似度的計算方法，計算軟體的第N條評論資訊相比在其前面的一條或者多條評論資訊的相似度，將最大相似度作為第N條評論資訊的相似度”，具體的可以有一種幾種實現方式：

第一種實現方式是，根據分詞向量和向量相似度的計算方法，計算軟體的第N條評論資訊相比在其前面的N-1條評論資訊的相似度，將最大相似度作為第N條評論資訊的相似度。

可以看出：第一種實現方式是將每條評論資訊與其前面所有的評論資訊作對比計算相似度，遍歷性的處理，保證相似度的可靠性。

第二種實現方式是，根據分詞向量和向量相似度的計算方法，計算軟體的第N條評論資訊相比在其前面的抽樣評論資訊的相似度，將最大相似度作為第N條評論資訊的相似度，其中，抽樣評論資訊是指相似度小於預設閾值的評論資訊。

可以看出：第二種實現方式是針對相似度大小情況，抽樣出滿足代表性要求的評論資訊，僅需要將每條評論資訊與其前面的被抽樣的評論資訊作對比計算相似度，減小了計算量，無需全部遍歷性對比，由於這些被抽樣的評論資訊具有典型性和代表性，因此，這種方式是在保證相似度的可靠性的基礎上，減小計算量，以提高計算效率。

對於評論資訊個數較多的軟體，為了更快更高效的計算平均相似度，可以採用第二種實現方式，以評論抽樣的方法，抽樣的原則是取出有代表性的評論資訊，即相對於前面的所有評論，取出相似度較小的評論資訊，當評論資訊的相似度小於一定閾值時，可以抽取該評論資訊，而計算當前評論資訊的資訊熵時，僅需要和其前面被抽取的評論資訊作比較，計算對應的相似度。這樣通過抽樣的方式，減少了相似度的計算量，提高了平均相似度的計算效率。

為了進一步說明上述實現方式，下面以通過具體示例來說明。

第一種實現方式的示例，第一條評論資訊相似度為0(因為它前面沒有評論了)，第二條評論資訊相對第一條評論資訊的相似度為0.8，第三條評論資訊相對第一條評論資訊的相似度為0.5，相對第二條評論資訊的相似度為0.9，則取二者中最大的，即0.9。因此這三條評論的平均相似度為(0+0.8+0.9)/3=0.57，以此類推計算一個軟體下的所有評論的平均相似度，作為該軟體的評論資訊對應的平均相似度。

關於“計算相似度”的實現過程，可以採用IKAnalyzer、盤古分詞、Paoding等分詞工具，也可以採用基於語義依存的方法、基於詞典的方法等，將一條評論資訊分解為多個有意義的詞彙；即，對評論資訊作分詞處理得到分詞向量，一個評論資訊對應有一個分詞向量；在分詞的過程中，還可以對近義詞作一定的處理。分詞處理之後，再採用word2vec演算法，計算評論資訊中各詞彙的最大相似度，將計算得到的最大相似度作為該評論資訊的相似度。

第二種實現方式的示例，假設預設閾值為a=0.6，第一條評論資訊的相似度為0，0<a，因此抽取出第一條評論資訊。第二條評論資訊相對於第一條評論資訊的相似度為0.8，0.8>a，因此，第二條評論資訊就不被抽樣。在計算第三條評論資訊相對於前面的評論資訊的相似度時，僅需要和被抽樣的評論資訊進行對比，在這裡，也就僅需要和第一條評論資訊進行對比。假設第三條評論資訊對於第一條評論資訊的相似度為0.3，0.3<a，因此，第三條評論資訊也被抽樣，這樣，前三條評論資訊被抽樣出兩條，即第一條和第三條，以此類推，可以抽樣出滿足條件的評論資訊。這樣通過抽樣的方式，減少了資訊增益的計算量，提高了平均相似度的計算效率。

下面對步驟“所述根據軟體的評論資訊的資訊熵，計算軟體的評論資訊的平均資訊熵”的實現過程作解釋說明。具體的，可以包括以下兩個步驟：按照香農定理計算第N條評論資訊相比在其前面的一條或多條評論資訊的資訊增益，選取最小的資訊增益作為第N條評論資訊的資訊增益；所述N大於或等於1；以及，按照求取均值的方式，根據評論資訊的資訊增益計算得到軟體的評論資訊的平均資訊熵。

關於步驟“按照香農定理計算第N條評論資訊相比在其前面的一條或多條評論資訊的資訊增益，選取最小的資訊增益作為第N條評論資訊的資訊增益”，具體可以有以下兩種實現方式：

第一種實現方式是，按照香農定理計算第N條評論資訊相比在其前面的N-1條評論資訊的資訊增益，選取最小的資訊增益作為第N條評論資訊的資訊增益。

第二種實現方式是，按照香農定理計算第N條評論資訊相比在其前面的抽樣評論資訊的資訊增益，選取最小的資訊增益作為第N條評論資訊的資訊增益，其中，抽樣評論資訊是指資訊增益大於預設閾值的評論資訊。

對第二種實現方式進行舉例說明，假設預設閾值為b=0.2，第一條評論資訊的資訊增益為1，1>b，因此抽取出第一條評論資訊。第二條評論資訊相對於第一條評論資訊的資訊增益為0.1，0.1<b，因此，第二條評論資訊就不被抽樣。在計算第三條評論資訊相對於前面的評論資訊的資訊熵或相似度時，僅需要和被抽樣的評論資訊進行對比，在這裡，也就僅需要和第一條評論資訊進行對比。假設第三條評論資訊對於第一條評論資訊的資訊增益為0.3，0.3>b，因此，第三條評論資訊也被抽樣，這樣，前三條評論資訊被抽樣出兩條，即第一條和第三條，以此類推，可以抽樣出滿足條件的評論資訊。這樣通過抽樣的方式，減少了資訊增益的計算量，提高了平均資訊熵的計算效率。

步驟103：根據同一類別的每個軟體各自對應的平均相似度或平均資訊熵，計算得到該同一類別的軟體對應的概率統計分佈參數。

這個步驟主要是基於概率統計學的方法，分析同一類軟體的評論資訊中關於有效資訊的資料分佈情況。

軟體類別主要是根據軟體屬性的進行分類，如銀行應用類軟體、遊戲類軟體、購物類軟體、工具類軟體、即時通訊類軟體等等，當然，也可以從其他角度來對軟體進行分類。在本申請中對如何分類並不作具體限制，而是從用戶使用角度出發，關注同一類別的軟體的評論資訊的概率統計分佈情況。

該步驟主要是以平均相似度或平均資訊熵作為概率統計分佈的資料基礎，使得統計得到的分佈參數具有高度的自我調整性，能夠很好地適應於同一類別的軟體檢測環境中，使得檢測的可靠性較高。

該步驟在具體實現時，可以利用以下任意一種方式實現：

第一種方式是，將同一類別的每個軟體各自對應的平均相似度或平均資訊熵作為樣本，計算該樣本的期望和方差，將該樣本的期望和方差作為該同一類別的軟體對應的概率統計分佈參數。

第二種方式是，根據同一類別的軟體各自對應的平均相似度或平均資訊熵的資料分佈情況，選擇一種概率統計分佈類型；以及，針對該概率統計分佈類型擬合分佈得到該同一類別的軟體對應的概率統計分佈參數。

發明人發現：在樣本資料量較大的情況下，第二種方式的計算量相比第一種方式的計算量較大，因此，在這種情況下，為了節省計算量可以選擇第一種方式；如果在某些場景下，對分佈參數的精準性和可靠性有著嚴格要求，那麼在這些場景下，可以選擇第二種方式。

關於第二種方式中的“概率統計分佈類型”，可以通過分析樣本資料得到樣本資料分佈圖，根據分佈圖選擇對應的概率統計分佈類型。例如，從資料分佈圖可以看出資料分佈接近指數分佈，則可以選擇指數分佈類型；再例如，從資料分佈圖可以看出資料分佈接近泊松分佈，則可以選擇泊松分佈類型。在實際應用中對概率分佈類型不作限定，具體情況根據實際的樣本資料而定。

但，發明人通過研究發現，很多類別的軟體的評論資訊和評論下載比的分佈接近於正態分佈。因此，在選擇概率分佈類型時，可以直接選擇正態分佈，則針對正態分佈擬合分佈得到該同一類別的軟體對應的分佈參數，該分佈參數包括均值和標準差。

步驟104：根據該同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍，該判定閾值範圍是用於判定小概率事件的閾值範圍。

步驟105：當待檢測軟體的評論資訊的平均相似度或平均資訊熵落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，則判定該待檢測軟體是刷好評推廣作弊軟體。

這裡需要說明的是，如果判定閾值是根據同一類別的每個軟體各自對應的平均相似度計算得到該同一類別的軟體對應的概率統計分佈參數來設置的，則在實現步驟105時，就需要將待檢測軟體的評論資訊的平均相似度作為判斷因素，實現條件式判斷。

如果判定閾值是根據同一類別的每個軟體各自對應的平均資訊熵計算得到該同一類別的軟體對應的概率統計分佈參數來設置的，則在實現步驟105時，就需要將待檢測軟體的評論資訊的平均資訊熵作為判斷因素，實現條件式判斷。在概率統計學中，將概率很接近於0(概率很小)的事件稱之為小概率事件，但是具體概率小到何種程度才算是小概率，在本申請中對其不作具體規定，而是在不同的場合有不同的標準。例如，當步驟103選擇的是正態分佈，以每個軟體各自對應的平均資訊熵為資料基礎，計算得到的分佈參數包括均值和標準差，基於這些分佈參數可以設置對應的判斷閾值範圍。由於軟體的評論資訊的平均資訊熵越小，說明軟體評論資訊中的有效信息量越小，其越有刷好評的嫌疑，因此，結合正態分佈小概率事件的特徵，可以根據經驗值設置判定閾值範圍為(-∞，μ-1.96σ)其中μ是均值，σ是標準差。當然，也可以設置判定閾值範圍為(-∞，μ-σ)、(-∞，μ-2σ)、(-∞，μ-2.58σ)等；然後通過該判斷閾值範圍和軟體的評論資訊的平均資訊熵來判斷軟體是否為刷好評作弊軟體；當軟體的評論資訊的平均資訊熵落入該範圍時，則判定該軟體為刷好評作弊軟體。

當步驟103選擇的是正態分佈，以每個軟體各自對應的平均相似度為資料基礎，計算的到的分佈參數包括均值和標準差。由於軟體的評論資訊的平均相似度越大，說明軟體的評論資訊表達內容都類似，而正常軟體的評論資訊表達內容都差異較大，沒有規律，五花八門；這種情況，說明該軟體越有刷好評的嫌疑，因此，結合正態分佈小概率事件的特徵，可以根據經驗值設置判定閾值範圍為(μ+1.96σ，+∞)，其中μ是均值，σ是標準差。當然，也可以設置判定閾值範圍為(μ+σ，+∞)、(μ+1.96σ，+∞)、(μ+2σ，+∞)或(μ+2.58σ，+∞)(μ+3σ，+∞)等，然後通過該判斷閾值範圍和軟體的評論資訊的平均相似度來判斷軟體是否為刷好評作弊軟體；當軟體的評論資訊的平均相似度落入該範圍時，則判定該軟體為刷好評作弊軟體。

上述判定閾值範圍的設置主要取決於判定的嚴謹程度，具體範圍大小可以根據需求而定並不局限於上述幾個閾值範圍。

例如，當依據平均資訊熵計算得到概率統計分佈參數，基於該概率統計分佈參數設置的該類別的軟體對應的判定閾值範圍為(-∞，μ-1.96σ)，則當某個屬於該類別的軟體的評論資訊的平均資訊熵落入該範圍時，可以判定出這個軟體是“刷好評”推廣作弊軟體。

從上述本申請實施例可以看出，本申請從“刷好評作弊”的角度出發，基於概率統計分佈原理分析同一類別的軟體的評論資訊的分佈情況，主要是以軟體評論資訊的平均相似度或平均資訊熵作為概率統計分析的資料基礎，分析得到同一類軟體的評論資訊的概率統計分佈參數，然後根據該概率統計分佈參數設置判定閾值範圍，主要是基於概率統計分佈中小概率事件原理來設定該判定閾值範圍，使得該判定閾值範圍是用於判定小概率事件的閾值範圍，因此，當待檢測軟體的平均相似度或者平均資訊熵落入該待測軟體所屬類別的軟體對應的判定閾值範圍時，表明該待檢測軟體具有評論資訊的事件屬於小概率事件，就能夠判定該待檢測軟體是刷好評推廣作弊軟體。

另外，本申請還提供了一種軟體推廣作弊的檢測方法，該方法是從“刷量”推廣作弊的角度出發進行檢測。

請參閱圖2，圖2示意性地示出了本申請提供的一種軟體推廣作弊的檢測方法的流程圖，該方法可以由用戶機器執行，用戶機器可以是個人的PC機，也可以是各種類型的網站伺服器，例如Web伺服器，或者APP伺服器。該方法例如可以包括以下步驟：

步驟201：獲取平臺上軟體的評論資訊和下載量。

對於一般的網站，其推廣的軟體爬取點在HTML頁面中的標籤位置是固定的，因此，可以通過Jsoup工具分析HTML頁面標籤，提取下載量、評論資訊、評論量等。

在具體實現時，可以預先將軟體的評論資訊以資料表的形式、將軟體的下載量以資料表的形式分別儲存在資料庫中。本申請實施例在具體實現時，可以去資料庫中查找軟體對應的資料表，以獲取對應的評論資訊和下載量。這樣，避免對網站產生過多的訪問壓力。

步驟202：計算軟體的評論下載比，該評論下載比等於評論資訊總個數與下載量的比值。

發明人發現，單純的查看軟體的下載量大小，無法體現其真實性，容易發生誤判，且發明人發現對於軟體推廣者往往使用工具自動下載其推廣的軟體，短時間內會積累大量的下載量，但是評論資訊相對較少，這主要是因為一般的刷量軟體都不具備刷好評功能，都不會去撰寫評論資訊，因此導致評論下載比就會很小，基於這一基礎，發明人提出從評論下載比的角度來衡量下載量的真實性，去檢測軟體是否有刷量作弊行為。

步驟203：根據同一類別的軟體各自對應的評論下載比，計算得到該同一類別的軟體對應的概率統計分佈參數。

關於步驟203可以有以下幾種實現方式：

第一種實現方式是，將同一類別的每個軟體各自對應的評論下載比作為樣本，計算該樣本的期望和方差，將該樣本的期望和方差作為該同一類別的軟體對應的概率統計分佈參數。

第二種實現方式是，根據同一類別的軟體各自對應的評論下載比的資料分佈情況，選擇一種概率統計分佈類型；以及，針對該概率統計分佈類型擬合分佈得到該同一類別的軟體對應的概率統計分佈參數。

步驟204：根據同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍；該判定閾值範圍是用於判定小概率事件的閾值範圍。

關於判定閾值範圍設定部分可以參照上述實施例中的描述，兩者類似，此處不再贅述。

步驟205：當待檢測軟體的評論下載比落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，則判定該待檢測軟體是刷量推廣作弊軟體。

另外，發明人還提出，在檢測出軟體為刷量推廣作弊軟體之後，可以將檢測結果生成結果表，儲存在資料庫中，這樣，在使用者流覽軟體介面時，可以從結果表中查詢該軟體的檢測結果，以快速為用戶展示結果，說明使用者甄別軟體是否為推廣作弊軟體。

從上述本申請實施例可以看出，本申請從“刷量作弊”的角度出發，基於概率統計分佈原理分析同一類別的軟體的評論資訊的分佈情況，主要是以評論下載比作為概率統計分佈的資料基礎，分析得到同一類軟體的評論下載比的概率統計分佈參數，然後根據該概率統計分佈參數設置判定閾值範圍，主要是基於概率統計分佈中小概率事件原理來設定該判定閾值範圍，使得該判定閾值範圍是用於判定小概率事件的閾值範圍，因此，當待檢測軟體的評論下載比落入該判定閾值範圍時，表明該待檢測軟體具有這樣的評論下載比的事件屬於小概率事件，判定該待檢測軟體是刷量推廣作弊軟體。

裝置實施例

與上述軟體推廣作弊的檢測方法相對應，本申請實施例還提供了軟體推廣作弊的檢測裝置。請參閱圖3，圖3示意性地示出了本申請提供的一種軟體推廣作弊的檢測裝置的結構圖，該裝置用於檢測“刷好評”推廣作弊的軟體，該裝置可以包括獲取單元301、第一計算單元302、第二計算單元303、設置單元304和判定單元305。下面結合該裝置的工作原理進一步介紹其內部結構以及連接關係。

獲取單元301，用於獲取平臺上軟體的評論資訊；第一計算單元302，用於根據軟體的評論資訊的相似度或資訊增益，計算軟體的評論資訊的平均相似度或平均資訊熵；第二計算單元303，用於根據同一類別的每個軟體各自對應的平均相似度或平均資訊熵，計算得到該同一類別的軟體對應的概率統計分佈參數；設置單元304，用於根據該同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍，該判定閾值範圍是用於判定小概率事件的閾值範圍；判定單元305，用於當待檢測軟體的評論資訊的平均相似度或平均資訊熵落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，則判定該待檢測軟體是刷好評推廣作弊軟體。

可選的，所述第一計算單元，包括：分詞子單元，用於對軟體的評論資訊進行分詞得到分詞向量，每個評論資訊對應有一個分詞向量；相似度計算子單元，用於根據分詞向量和向量相似度的計算方法，計算軟體的第N條評論資訊相比在其前面的一條或者多條評論資訊的相似度，將最大相似度作為第N條評論資訊的相似度；所述N大於或等於1；平均相似度計算子單元，用於按照求取均值的方式，根據評論資訊的相似度計算得到軟體的評論資訊的平均相似度。

可選的，所述第一計算單元，包括：資訊增益計算子單元，用於按照香農定理計算第N條評論資訊相比在其前面的一條或多條評論資訊的資訊增益，選取最小的資訊增益作為第N條評論資訊的資訊增益；所述N大於或等於1；平均資訊熵計算子單元，用於按照求取均值的方式，根據評論資訊的資訊增益計算得到軟體的評論資訊的平均資訊熵。

可選的，所述第二計算單元，具體用於：將同一類別的每個軟體各自對應的平均相似度或平均資訊熵作為樣本，計算該樣本的期望和方差，將該樣本的期望和方差作為該同一類別的軟體對應的概率統計分佈參數。

可選的，所述第二計算單元，包括：選擇子單元，用於根據同一類別的軟體各自對應的平均相似度或平均資訊熵的資料分佈情況，選擇一種概率統計分佈類型；擬合子單元，用於針對該概率統計分佈類型擬合分佈得到該同一類別的軟體對應的概率統計分佈參數。

可選的，所述選擇子單元，具體用於根據同一類別的軟體各自對應的平均相似度或平均資訊熵的資料分佈情況，選擇正態分佈類型；則擬合子單元，具體用於針對正態分佈擬合分佈得到該同一類別的軟體對應的分佈參數，該分佈參數包括均值和標準差；則所述設置單元，具體用於根據同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍為(-∞，μ-σ)、(-∞，μ-1.96σ)、(-∞，μ-2σ)、(-∞，μ-2.58σ)、(μ+σ，+∞)、(μ+1.96σ，+∞)、(μ+2σ，+∞)或(μ+2.58σ，+∞)，其中μ是均值，σ是標準差。

另外，本申請提供了另一種軟體推廣作弊的檢測裝置，請參閱圖4，圖4示意性地示出了本申請提供的一種軟體推廣作弊的檢測裝置的結構圖，用於檢測“刷量”推廣作弊的軟體，該裝置可以包括獲取單元401、第一計算單元402、第二計算單元403、設置單元404和判定單元405。下面結合該裝置的工作原理進一步介紹其內部結構以及連接關係。

獲取單元401，用於獲取平臺上軟體的評論資訊和下載量；第一計算單元402，用於計算軟體的評論下載比，該評論下載比等於評論資訊總個數與下載量的比值；第二計算單元403，用於根據同一類別的軟體各自對應的評論下載比，計算得到該同一類別的軟體對應的概率統計分佈參數；設置單元404，用於根據同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍；該判定閾值範圍是用於判定小概率事件的閾值範圍；判定單元405，用於當待檢測軟體的評論下載比落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，判定該待檢測軟體是刷量推廣作弊軟體。

可選的，所述第二計算單元，具體用於：將同一類別的每個軟體各自對應的評論下載比作為樣本，計算該樣本的期望和方差，將該樣本的期望和方差作為該同一類別的軟體對應的概率統計分佈參數。

可選的，所述第二計算單元，包括：選擇子單元，用於根據同一類別的軟體各自對應的評論下載比的資料分佈情況，選擇一種概率統計分佈類型；分佈子單元，用於針對該概率統計分佈類型擬合分佈得到該同一類別的軟體對應的概率統計分佈參數。

從上述本申請實施例可以看出，本申請提供的裝置基於概率統計分佈和小概率事件的數學原理，以軟體的評論資訊、下載量這些實際資料為統計分析的資料基礎，能夠自我調整性的設置判定閾值範圍，能夠實現對軟體推廣作弊的自動檢測，說明使用者甄別軟體，能夠加強軟體下載安全防範。

另外，需要說明的是，在實際應用中，為了全面的檢測軟體是否為推廣作弊軟體，可以通過使用上述用於檢測“刷好評”和“刷量”推廣作弊的方法或裝置。

系統實施例

最後，本申請還提供了一種軟體推廣作弊的檢測系統，參見圖5，該系統包括：資料抓取裝置501、資料儲存裝置502、反作弊分析平臺503，資料抓取裝置、資料儲存裝置、反作弊分析平臺，所述反作弊分析平臺包括：上述兩個裝置實施例中的裝置，一個是用於檢測“刷好評”推廣作弊的檢測裝置5031和上述用於檢測“刷量”推廣作弊的檢測裝置5032；所述資料抓取裝置，用於從平臺上抓取軟體的評論資訊和下載量；所述資料儲存裝置，用於儲存軟體的評論資訊和下載量；所述資料抓取裝置通過資料介面層與所述資料儲存裝置進行資料交互；所述資料儲存裝置通過資料介面層與所述反作弊分析平臺進行資料交互。

在資料儲存系統中，下載量、評論資訊可以以資料表的形式進行儲存。

其中，上述用於檢測“刷好評”推廣作弊的檢測裝置5031可以參見圖3所示的裝置結構以及上文對應的描述；上述用於檢測“刷量”推廣作弊的檢測裝置5032可以參見圖4所示的裝置結構以及上文對應的描述。

可選的，資料介面層可以採用HIBERNAT ORM框架，可以遮罩底層資料庫操作，直接儲存含有資料的物件即可。

所述資料抓取裝置，可以包括：抓取引擎模組、抓取引擎管理模組、抓取點管理模組以及URL管理模組；其中，URL管理模組，用於配置待抓取的網站首碼；通過網站首碼能夠映射待爬取的全站軟體。

抓取點管理模組，用於配置軟體推廣的爬取點。一般對於網站而已，其推廣的軟體爬取點在HTML頁面中的標籤位置是固定的，這樣，就可以通過Joup工具或者其他爬取工具，獲取軟體詳情頁面的基本資訊，如下載量、評論資訊等。

抓取引擎管理模組，用於配置引擎狀態，如配置全量抓取所有軟體，或者配置分層抓取部分軟體，還可以配置抓取頻率等。

抓取引擎模組，用於根據抓取引擎管理模組的配置情況，抓取軟體的下載量、評論資訊。

另外，當用於檢測“刷好評”推廣作弊軟體的裝置5031、上述用於檢測“刷量”推廣作弊軟體的裝置5032，得到檢測結果之後，可以通過資料介面層將檢測結果儲存於資料儲存系統中，例如，可以將檢測結果儲存在結果表中。這樣，當使用者流覽軟體時，可以直接從資料儲存系統中查找對應的檢測結果，以說明用甄別軟體是否為推廣作弊軟體。

在該系統工作時，資料抓取裝置抓取軟體的評論資訊和下載量，儲存在資料儲存裝置中，而反作弊分析平臺從資料儲存裝置中獲取相應的資料，如可以按照網站類型、軟體類型來獲取一個網站下同一類別的軟體各自對應的下載量、評論資訊等，基於獲取的資訊，反作弊分析平臺檢測出軟體是否為推廣作弊軟體；反作弊分析平臺還可以通過資料介面層將檢測結果儲存於資料儲存裝置中，例如在資料儲存裝置中建立一個結果表，專門用於儲存檢測結果，該檢測結果能夠表徵軟體是否為推廣作弊軟體。

所述領域的技術人員可以清楚地瞭解到，為了描述的方便和簡潔，上述描述的系統、裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。

在本申請所提供的幾個實施例中，應該理解到，所揭露的系統、裝置和方法，可以通過其它的方式實現。例如，以上所描述到的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或元件可以結合或可以整合到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面，裝置或單元的間接耦合或通信連接，可以是電性、機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外，在本申請各個實施例中的各功能單元可以整合在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元整合在一個單元中。上述整合的單元既可以採用硬體的形式實現，可以採用軟體功能單元的形式實現。

需要說明的是，本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程，是可以通過電腦程式來指令相關的硬體來完成，所述的程式可儲存於一電腦可讀取儲存媒體中，該程式在執行時，可包括如上述各方法的實施例的流程。其中，所述的儲存媒體可為磁碟、光碟、唯讀儲存記憶體(Read-Only Memory,ROM)或隨機儲存記憶體(Random Access Memory,RAM)等。

以上對本申請所提供的軟體推廣作弊的檢測方法、裝置及系統進行了詳細介紹，本文中應用了具體實施例對本申請的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本申請的方法及其核心思想；同時，對於本領域的一般技術人員，依據本申請的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本申請的限制。

Claims

一種軟體推廣作弊的檢測方法，其特徵在於，該方法包括：獲取平臺上軟體的評論資訊；根據軟體的評論資訊的相似度或資訊增益，計算軟體的評論資訊的平均相似度或平均資訊熵；根據同一類別的每個軟體各自對應的平均相似度或平均資訊熵，計算得到該同一類別的軟體對應的概率統計分佈參數；根據該同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍，該判定閾值範圍是用於判定小概率事件的閾值範圍；當待檢測軟體的評論資訊的平均相似度或平均資訊熵落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，則判定該待檢測軟體是刷好評推廣作弊軟體。
如據申請專利範圍第1項所述的方法，其中，所述根據軟體的評論資訊的相似度，計算軟體的評論資訊的平均相似度，包括：對軟體的評論資訊進行分詞得到分詞向量，每個評論資訊對應有一個分詞向量；根據分詞向量和向量相似度的計算方法，計算軟體的第N條評論資訊相比在其前面的一條或者多條評論資訊的相似度，將最大相似度作為第N條評論資訊的相似度；所述N大於或等於1；按照求取均值的方式，根據評論資訊的相似度計算得到軟體的評論資訊的平均相似度。
如據申請專利範圍第1項所述的方法，其中，所述根據軟體的評論資訊的資訊熵，計算軟體的評論資訊的平均資訊熵，包括：按照香農定理計算第N條評論資訊相比在其前面的一條或多條評論資訊的資訊增益，選取最小的資訊增益作為第N條評論資訊的資訊增益；所述N大於或等於1；按照求取均值的方式，根據評論資訊的資訊增益計算得到軟體的評論資訊的平均資訊熵。
如據申請專利範圍第1項所述的方法，其中，所述根據同一類別的每個軟體各自對應的平均相似度或平均資訊熵，計算得到該同一類別的軟體對應的概率統計分佈參數，包括：將同一類別的每個軟體各自對應的平均相似度或平均資訊熵作為樣本，計算該樣本的期望和方差，將該樣本的期望和方差作為該同一類別的軟體對應的概率統計分佈參數。
如申請專利範圍第1項所述的方法，其中，所述根據同一類別的每個軟體各自對應的平均相似度或平均資訊熵，計算得到該同一類別的軟體對應的概率統計分佈參數，包括：根據同一類別的軟體各自對應的平均相似度或平均資訊熵的資料分佈情況，選擇一種概率統計分佈類型；針對該概率統計分佈類型擬合分佈得到該同一類別的軟體對應的概率統計分佈參數。
一種軟體推廣作弊的檢測方法，其特徵在於，該方法包括：獲取平臺上軟體的評論資訊和下載量；計算軟體的評論下載比，該評論下載比等於評論資訊總個數與下載量的比值；根據同一類別的軟體各自對應的評論下載比，計算得到該同一類別的軟體對應的概率統計分佈參數；根據同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍；該判定閾值範圍是用於判定小概率事件的閾值範圍；當待檢測軟體的評論下載比落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，則判定該待檢測軟體是刷量推廣作弊軟體。
如據申請專利範圍第6項所述的方法，其中，所述根據同一類別的軟體各自對應的評論下載比，計算得到該同一類別的軟體對應的概率統計分佈參數，包括：將同一類別的每個軟體各自對應的評論下載比作為樣本，計算該樣本的期望和方差，將該樣本的期望和方差作為該同一類別的軟體對應的概率統計分佈參數。
如據申請專利範圍第6項所述的方法，其中，所述根據同一類別的軟體各自對應的評論下載比，計算得到該同一類別的軟體對應的概率統計分佈參數，包括：根據同一類別的軟體各自對應的評論下載比的資料分佈情況，選擇一種概率統計分佈類型；針對該概率統計分佈類型擬合分佈得到該同一類別的軟體對應的概率統計分佈參數。
一種軟體推廣作弊的檢測裝置，其特徵在於，該裝置包括：獲取單元，用於獲取平臺上軟體的評論資訊；第一計算單元，用於根據軟體的評論資訊的相似度或資訊增益，計算軟體的評論資訊的平均相似度或平均資訊熵；第二計算單元，用於根據同一類別的每個軟體各自對應的平均相似度或平均資訊熵，計算得到該同一類別的軟體對應的概率統計分佈參數；設置單元，用於根據該同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍，該判定閾值範圍是用於判定小概率事件的閾值範圍；判定單元，用於當待檢測軟體的評論資訊的平均相似度或平均資訊熵落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，則判定該待檢測軟體是刷好評推廣作弊軟體。
如據申請專利範圍第9項所述的裝置，其中，所述第一計算單元，包括：分詞子單元，用於對軟體的評論資訊進行分詞得到分詞向量，每個評論資訊對應有一個分詞向量；相似度計算子單元，用於根據分詞向量和向量相似度的計算方法，計算軟體的第N條評論資訊相比在其前面的一條或者多條評論資訊的相似度，將最大相似度作為第N條評論資訊的相似度；所述N大於或等於1；平均相似度計算子單元，用於按照求取均值的方式，根據評論資訊的相似度計算得到軟體的評論資訊的平均相似度。
如據申請專利範圍第9項所述的裝置，其中，所述第一計算單元，包括：資訊增益計算子單元，用於按照香農定理計算第N條評論資訊相比在其前面的一條或多條評論資訊的資訊增益，選取最小的資訊增益作為第N條評論資訊的資訊增益；所述N大於或等於1；平均資訊熵計算子單元，用於按照求取均值的方式，根據評論資訊的資訊增益計算得到軟體的評論資訊的平均資訊熵。
如據申請專利範圍第9項所述的裝置，其中，所述第二計算單元，具體用於：將同一類別的每個軟體各自對應的平均相似度或平均資訊熵作為樣本，計算該樣本的期望和方差，將該樣本的期望和方差作為該同一類別的軟體對應的概率統計分佈參數。
一種軟體推廣作弊的檢測裝置，其特徵在於，該裝置包括：獲取單元，用於獲取平臺上軟體的評論資訊和下載量；第一計算單元，用於計算軟體的評論下載比，該評論下載比等於評論資訊總個數與下載量的比值；第二計算單元，用於根據同一類別的軟體各自對應的評論下載比，計算得到該同一類別的軟體對應的概率統計分佈參數；設置單元，用於根據同一類別的軟體對應的概率統計分佈參數設置同一類別的軟體對應的判定閾值範圍；該判定閾值範圍是用於判定小概率事件的閾值範圍；判定單元，用於當待檢測軟體的評論下載比落入該待檢測軟體所屬類別的軟體對應的判定閾值範圍時，判定該待檢測軟體是刷量推廣作弊軟體。
如據申請專利範圍第13項所述的裝置，其中，所述第二計算單元，具體用於：將同一類別的每個軟體各自對應的評論下載比作為樣本，計算該樣本的期望和方差，將該樣本的期望和方差作為該同一類別的軟體對應的概率統計分佈參數。
一種軟體推廣作弊的檢測系統，其特徵在於，該系統包括：資料抓取裝置、資料儲存裝置、反作弊分析平臺，所述反作弊分析平臺包括：申請專利範圍第9-12項中任一項所述的軟體推廣作弊檢測裝置和申請專利範圍第13-14項中任一項所述的軟體推廣作弊檢測裝置；所述資料抓取裝置，用於從平臺上抓取軟體的評論資訊和下載量；所述資料儲存裝置，用於儲存軟體的評論資訊和下載量；所述資料抓取裝置通過資料介面層與所述資料儲存裝置進行資料交互；所述資料儲存裝置通過資料介面層與所述反作弊分析平臺進行資料交互。