基於隱私資料保護的異常採集行為識別方法和裝置
本說明書關於電腦軟體技術領域,尤其關於一種基於隱私資料保護的異常採集行為識別方法、裝置及電子設備。
隨著移動互聯網技術的快速發展,應用程式的應用越來越廣泛,小程式等輕量應用由於其能夠被嵌入到第三方應用程式中,且無需下載安裝,隨時可用,也受到越來越廣泛的應用。然而,現有的小程式在被打開時,往往會採集用戶的隱私資料,且有些小程式還存在過度採集用戶隱私資料的情況。
目前,對於這種情況,往往需要運營人員在接到用戶對某一小程式的舉報的前提下,或者透過系統發現了存在異常採集行為的小程式之後,透過運營人員人工判別這些小程式是否存在過度採集用戶隱私資料的情況。因此,亟需一種針對小程式等輕量應用的異常採集行為的判別方法,以應對現有技術的上述問題。
本說明書實施例的目的是提供一種基於隱私資料保護的異常採集行為識別以及場景分類模型的訓練方法、裝置及電子設備,以避免小程式等輕量應用對用戶的隱私資料的過度採集情況。
為解決上述技術問題,本說明書實施例是這樣實現的:
第一態樣,提出了一種基於隱私資料保護的異常採集行為識別方法,包括:
獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單;
將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別;
基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。
第二態樣,提出了一種場景分類模型的訓練方法,包括:
獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤;
從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵;
基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,所述場景分類模型用於預測輕量應用的使用場景類別。
第三態樣,提出了一種基於隱私資料保護的異常採集行為識別裝置,包括:
獲取單元,獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單;
預測單元,將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別;
確定單元,基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。
第四態樣,提出了一種場景分類模型的訓練單元,包括:
資料獲取單元,獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤;
特徵提取單元,從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵;
模型訓練單元,基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,所述場景分類模型用於預測輕量應用的使用場景類別。
第五態樣,提出了一種電子設備,該電子設備包括:
處理器;以及
被安排成儲存電腦可執行指令的記憶體,所述可執行指令在被執行時使所述處理器執行以下操作:
獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單;
將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別;
基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。
第六態樣,提出了一種電腦可讀儲存媒體,所述電腦可讀儲存媒體儲存一個或多個程式,所述一個或多個程式當被包括多個應用程式的電子設備執行時,使得所述電子設備執行以下操作:
獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單;
將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別;
基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。
第七態樣,提出了一種電子設備,包括:
處理器;以及
被安排成儲存電腦可執行指令的記憶體,所述可執行指令在被執行時使所述處理器執行以下操作:
獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤;
從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵;
基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,所述場景分類模型用於預測輕量應用的使用場景類別。
第八態樣,提出了一種電腦可讀儲存媒體,所述電腦可讀儲存媒體儲存一個或多個程式,所述一個或多個程式當被包括多個應用程式的電子設備執行時,使得所述電子設備執行以下操作:
獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤;
從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵;
基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,所述場景分類模型用於預測輕量應用的使用場景類別。
由以上本說明書實施例提供的技術方案可見,本說明書實施例方案至少具備如下一種技術效果:
本說明書提供的一種或多個實施例,能夠獲取目標輕量應用的頁面內容資料、用戶行為資料和目標輕量應用申請採集的隱私資料清單,再將目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過場景分類模型預測目標輕量應用的使用場景類別,並能夠基於目標輕量應用的使用場景類別對應的可採集的隱私資料清單和目標輕量應用申請採集的隱私資料清單,確定目標輕量應用是否存在異常採集行為。將小程式等輕量應用的異常採集行為的識別由被動核查轉變為主動識別,且使用場景分類模型來識別使用場景類別,一方面提高了識別效率;另一方面保護了用戶的隱私,給用戶帶來更安心的服務體驗。
本說明書提供的一種或多個實施例,能夠獲取多個輕量應用的頁面內容資料、用戶行為資料以及多個輕量應用的使用場景標籤,再從這多個輕量應用的頁面內容資料和用戶行為資料中,並能夠基於多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。這樣再使用訓練得到的場景分類模型對小程式等輕量應用的使用場景進行識別,一方面能夠提高對小程式使用場景的識別效率,另一方面也節省了不必要的人力資源。
為使本說明書的目的、技術方案和優點更加清楚,下面將結合本說明書具體實施例及相應的附圖對本說明書中的技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本申請保護的範圍。
以下結合附圖,詳細說明本說明書各實施例提供的技術方案。
為避免小程式等輕量應用對用戶的隱私資料的過度採集情況,本說明書一個或多個實施例提供一種基於隱私資料保護的異常採集行為識別方法,能夠獲取目標輕量應用的頁面內容資料、用戶行為資料和目標輕量應用申請採集的隱私資料清單,再將目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過場景分類模型預測目標輕量應用的使用場景類別,並能夠基於目標輕量應用的使用場景類別對應的可採集的隱私資料清單和目標輕量應用申請採集的隱私資料清單,確定目標輕量應用是否存在異常採集行為。
這樣便將小程式等輕量應用的基於隱私資料保護的異常採集行為識別由被動核查轉變為主動識別,且使用場景分類模型來識別使用場景類別,一方面提高了識別效率;另一方面保護了用戶的隱私,給用戶帶來更安心的服務體驗。
應理解,本說明書實施例提供的基於隱私資料保護的異常採集行為識別方法的執行主體,可以但不限於伺服器、電腦等能夠被配置為執行本說明書實施例提供的該方法用戶終端中的至少一種,或者,該方法的執行主體,還可以是能夠執行該方法的用戶端本身。
為便於描述,下文以該方法的執行主體為能夠執行該方法的伺服器為例,對該方法的實施方式進行介紹。可以理解,該方法的執行主體為伺服器只是一種示例性的說明,並不應理解為對該方法的限定。
圖1是本說明書的一個實施例提供的一種基於隱私資料保護的異常採集行為識別方法的實施流程示意圖。圖1的方法可包括:
S110,獲取目標輕量應用的頁面內容資料、用戶行為資料和目標輕量應用申請採集的隱私資料清單;
其中,目標輕量應用具體可以包括快應用、小程式、H5應用等即用戶無需安裝即可使用的羽量級應用程式。
其中,目標輕量應用的頁面內容資料包括目標輕量應用的頁面中的文字資訊、實體類型以及對應的實體數量,該實體類型可以是頁面中的各種物體,比如貓、狗、房子、車等實體。目標輕量應用中的用戶行為資料包括用戶在目標輕量應用的頁面中的點擊、滑動、支付、轉發、輸入等行為資料、以及用戶所在的城市、用戶的學歷、年齡、職業等特徵資料。目標輕量應用申請採集的隱私資料清單具體可以是目標輕量應用在被用戶使用時,實際採集的用戶的隱私資料清單,比如可以包括用戶的身份證號、用戶的手機號碼、用戶的性別、用戶的頭像、暱稱等隱私資料。
S120,將目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過場景分類模型預測目標輕量應用的使用場景類別;
應理解,小程式等輕量應用在用戶打開使用時,往往會採集用戶的隱私資料,比如在聊天應用中打開購物類小程式時,則會提示用戶將為其提供採集用戶在該聊天應用中的頭像、暱稱、聯繫方式等隱私資料的許可權。通常情況下,用戶在打開小程式時,不會在意其打開的小程式是否會過度採集用戶的隱私資料,這就導致很多小程式可能存在過度採集用戶隱私資料的意圖,從而惡意利用或販賣用戶的隱私資料達到額外獲利的目的。
在這種情況下,為了避免用戶的隱私資料被過度採集和利用,本說明書一個或多個實施例,可預先基於多個輕量應用的頁面內容資料、用戶行為資料和這些輕量應用的使用場景標籤,訓練得到場景分類模型,透過場景分類模型預測目標輕量應用的使用場景類別,並基於目標輕量應用的使用場景類別對應的可採集的隱私資料清單和目標輕量應用申請採集的隱私資料清單,確定目標輕量應用是否存在異常採集行為。
S130,基於目標輕量應用的使用場景類別對應的可採集的隱私資料清單和目標輕量應用申請採集的隱私資料清單,確定目標輕量應用是否存在異常採集行為。
其中,輕量應用的使用場景類別可包括購物類使用場景、購買火車票的使用場景、共用單車類使用場景、學習工具類的使用場景,等等,通常不同使用場景類別的輕量應用需要採集的用戶隱私資料也會不同。比如購物類的輕量應用通常需要採集用戶的購物帳號、聯繫方式等隱私資料;購買火車票類的輕量應用則需要採集用戶的身份證號、購票帳號、聯繫方式等隱私資料;共用單車類輕量應用需要採集用戶的登錄帳號、聯繫方式等隱私資料;學習工具類的輕量應用可能只需要採集用戶的登錄帳號等隱私資料。
也就是說,依據不同使用場景類別的輕量應用實際申請採集的隱私資料清單、以及對應於不同使用場景類別的輕量應用可採集的隱私資料清單,便可以判斷出輕量應用是否存在過度採集用戶隱私資料的情況。
可選地,基於目標輕量應用申請採集的隱私資料清單和目標隱私資料獲取清單,確定目標輕量應用是否存在異常採集行為,包括:
若目標輕量應用申請採集的隱私資料清單和目標隱私資料獲取清單一致,則確定目標輕量應用不存在異常採集行為;
若目標輕量應用申請採集的隱私資料清單和目標隱私資料獲取清單不一致,則確定目標輕量應用存在異常採集行為。
可選地,為了避免目標輕量應用過度採集用戶的隱私資料,在確定目標輕量應用存在異常採集行為之後,該方法還包括:
攔截目標輕量應用的隱私資料發送請求。
以目標輕量應用為購物類輕量應用為例,這類輕量應用在被用戶打開並使用時,通常只需要採集用戶的購物帳號、聯繫方式、收貨位址等隱私資料資訊,顯然,在用戶進行購物時,通常情況下是不需要出示用戶本人的身份資訊的,比如身份證號碼。若該購物應用又額外採集了用戶的身份證號碼這一隱私資料,則可以在基於目標輕量應用申請採集的隱私資料清單和目標隱私資料獲取清單,確定目標輕量應用存在異常採集行為之後,攔截目標輕量應用針對其額外採集的隱私資料發送請求,或者攔截目標輕量應用的所有隱私資料的發送請求。
本說明書提供的一種或多個實施例,能夠獲取目標輕量應用的頁面內容資料、用戶行為資料和目標輕量應用申請採集的隱私資料清單,再將目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過場景分類模型預測目標輕量應用的使用場景類別,並能夠基於目標輕量應用的使用場景類別對應的可採集的隱私資料清單和目標輕量應用申請採集的隱私資料清單,確定目標輕量應用是否存在異常採集行為。將小程式等輕量應用的異常採集行為的識別由被動核查轉變為主動識別,且使用場景分類模型來識別使用場景類別,一方面提高了識別效率;另一方面保護了用戶的隱私,給用戶帶來更安心的服務體驗。
圖2是本說明書的一個實施例提供的一種場景分類模型的訓練方法的實施流程示意圖,包括:
S210,獲取多個輕量應用的頁面內容資料、用戶行為資料以及多個輕量應用的使用場景標籤;
其中,多個輕量應用的頁面內容資料包括這多個輕量應用的頁面中的文字資訊、實體類型以及對應的實體數量,該實體類型可以是頁面中的各種物體,比如貓、狗、房子、車等實體。多個輕量應用中的用戶行為資料包括多個用戶在這多個輕量應用的頁面中的點擊、滑動、支付、轉發、輸入等行為資料、以及這多個用戶所在的城市、用戶的學歷、年齡、職業等特徵資料。
多個輕量應用的使用場景標籤為場景分類模型訓練之前,透過人工或者機器打標的方式,對這多個輕量應用的使用場景標記對應的使用場景標籤,比如購物類、購票類、學習工具類等等使用場景標籤。
S220,從多個輕量應用的頁面內容資料和用戶行為資料中,提取多個輕量應用的使用場景特徵;
應理解,輕量應用的頁面內容資料中通常會包括文字類資料和圖像類資料,為便於從文字類資料和圖像類資料提取出對應的特徵資料,本說明書一個或多個實施例可將圖像類資料轉換為文字類資料,再將所有的文字類資料進行拼接得到一個文字欄位。具體地,從多個輕量應用的頁面內容資料和用戶行為資料中,提取多個輕量應用的使用場景特徵,包括:
從多個輕量應用的頁面內容資料中,分別獲取多個輕量應用的頁面中的多個文字資訊、以及多個輕量應用的頁面中的實體類型和數量;
分別將多個輕量應用的頁面中的多個文字資訊、以及多個輕量應用的頁面中的實體類型和數量進行拼接,得到多個輕量應用對應的多個文字欄位,其中,一個文字欄位中由對應的輕量應用中的多個文字資訊、實體類型的名稱和對應的實體數量拼接得到;
從多個輕量應用對應的多個文字欄位和用戶行為資料中,提取多個輕量應用的使用場景特徵。
可選地,從多個輕量應用對應的多個文字欄位和用戶行為資料中,提取多個輕量應用的使用場景特徵,包括:
分別對多個輕量應用對應的多個文字欄位進行資料預處理;
分別將資料預處理操作後的多個輕量應用對應的多個文字欄位,轉換為對應的多個詞向量;
從多個詞向量和所述多個輕量應用對應的用戶行為資料中,提取多個輕量應用的使用場景特徵;
其中,資料預處理操作包括剔除停用詞操作。
由於合併得到的多個文字欄位中通常會存在一些沒有實際意義的詞和符合,比如“的”、“即使”、“以便”這種連接詞,這些詞對場景分類過程沒有過多的價值和意義,這類詞還會增加分類的計算量,因此,本說明書一個或多個實施例,在將多個應用對應的多個文字欄位,轉換為對應的多個詞向量之前,還可以對這多個文字欄位進行剔除停用詞等資料預處理操作。
其中,分別將資料預處理操作後的多個輕量應用對應的多個文字欄位,轉換為對應的多個詞向量,具體可以使用語料訓練得到的詞向量字典,或者開源版本的詞向量字典,將資料預處理操作後的多個文字欄位換換為對應的多個詞向量。該詞向量字典中包括多個詞與詞向量之間的映射關係,一個詞向量對應於一組特徵向量。
其中,用戶行為資料對應的行為特徵資料可透過統計分析的方式得到。從多個輕量應用對應的多個文字欄位和用戶行為資料中,提取多個輕量應用的使用場景特徵,具體可以將多個文字欄位對應的多個詞向量和用戶行為資料對應的行為特徵資料進行合併,得到多個輕量應用的使用場景特徵。
可選地,為了避免遺漏輕量應用的頁面中的特徵,本說明書一個或多個實施例可基於多個輕量應用的頁面中的實體類型的名稱和對應的數量,將各個實體類型的名稱重複對應的數量的次數,再與輕量應用的頁面中的文字資訊進行拼接,得到各輕量應用的文字欄位。具體地,分別將多個輕量應用的頁面中的多個文字資訊、以及多個輕量應用的頁面中的實體類型和數量進行拼接,得到多個輕量應用對應的多個文字欄位,包括:
基於多個輕量應用的頁面中的實體類型的名稱和對應的數量,分別獲取與多個輕量應用的頁面中的實體類型相對應的文字欄位,一個輕量應用的頁面中的一個實體類型對應的文字欄位包括對應的數量的實體類型的名稱;
基於分別將多個輕量應用的頁面中的多個文字資訊、以及與多個輕量應用的頁面中的實體類型相對應的文字欄位進行拼接,得到多個輕量應用對應的多個文字欄位。
S230,基於多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,該場景分類模型用於預測輕量應用的使用場景類別。
可選地,基於多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,包括:
透過多分類模型基於多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。
其中,多分類模型具體可以包括xgboost模型,該xgboost模型具體是一種梯度提升樹模型的開源實現,能夠用於分類和回歸任務。
下面以輕量應用為小程式為例,並結合圖3所示的場景分類模型和場景分類模型的應用方法流程示意圖,對本說明書實施例提供的場景分類模型的訓練方法和基於隱私資料保護的異常採集行為識別方法進行詳細介紹,包括:
S301,獲取多個小程式的頁面內容資料,該頁面內容資料包括小程式頁面中顯示的文字資訊和圖像類資料,其中圖像類資料中包括小程式頁面中顯示的實體類型和對應的數量;
S302,獲取多個小程式的用戶行為資料,該用戶行為資料包括用戶對小程式頁面的點擊、滑動、跳轉、輸入、付款等行為資料;
S303,分別將這多個小程式的頁面中的多個文字資訊、以及多個小程式的頁面中的實體類型和數量進行拼接,得到多個小程式對應的多個文字欄位,並對這多個文字欄位進行剔除停用詞操作,以剔除這多個文字欄位中的冗餘資訊,再基於預先設置的詞向量字典將這多個文字欄位轉換為對應的多個詞向量;
其中,一個文字欄位中由對應的小程式中的多個文字資訊、實體類型的名稱和對應的實體數量拼接得到,詞向量字典中包括多個文字欄位與詞向量之間的對應關係,一個詞向量對應於一組特徵向量。
S304,基於多個小程式的用戶行為資料,構造對應的多個行為特徵資料;
具體可以基於多個小程式的用戶行為資料,統計分析得到用戶的平均操作頻次、操作時間段等特徵資料,以及用戶所在的城市、用戶的年齡、學歷職業等特徵資料。
S305,對這多個小程式的使用場景資料進行人工打標,得到這多個小程式的使用場景標籤,該使用場景標籤用於表徵小程式的使用場景類別相關的資訊;
S306,透過xgboost多分類模型基於多個小程式對應的多個詞向量和行為特徵資料,訓練得到場景分類模型;
S307,將目標小程式的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過場景分類模型預測目標小程式的使用場景類別;
S308,確定目標小程式的使用場景類別對應的隱私資料獲取清單;
S309,確定目標小程式申請採集的隱私資料清單;
S310,將目標小程式的使用場景類別對應的隱私資料獲取清單與其申請採集的隱私資料清單進行對比,判斷出目標小程式是否存在異常採集行為;
S311,若目標小程式的使用場景類別對應的隱私資料獲取清單與其申請採集的隱私資料清單不一致,則確定目標小程式存在異常採集行為,並攔截目標小程式的隱私資料發送請求。
以目標小程式為購物類的小程式為例,該目標小程式的使用場景類別對應的隱私資料清單包括用戶的手機號這一敏感資訊,而若該目標小程式申請採集的隱私資料清單還包括身份證號等敏感資訊時,則可以確定該目標小程式存在異常採集行為。在這種情況下,當目標小程式發送用戶的隱私資料時,則可以攔截該目標小程式的隱私資料發送請求,從而避免其對用戶的隱私資料的過度採集。
本說明書提供的一種或多個實施例,能夠獲取多個輕量應用的頁面內容資料、用戶行為資料以及多個輕量應用的使用場景標籤,再從這多個輕量應用的頁面內容資料和用戶行為資料中,並能夠基於多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。這樣再使用訓練得到的場景分類模型對小程式等輕量應用的使用場景進行識別,一方面能夠提高對小程式使用場景的識別效率,另一方面也節省了不必要的人力資源。
圖4是本說明書的一個實施例提供的一種基於隱私資料保護的異常採集行為識別裝置400的結構示意圖。請參考圖4,在一種軟體實施方式中,基於隱私資料保護的異常採集行為識別裝置400可包括:
獲取單元401,獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單;
預測單元402,將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別;
確定單元403,基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。
可選地,在一種實施方式中,所述確定單元403,用於:
若所述目標輕量應用申請採集的隱私資料清單和所述目標隱私資料獲取清單一致,則確定所述目標輕量應用不存在異常採集行為;
若所述目標輕量應用申請採集的隱私資料清單和所述目標隱私資料獲取清單不一致,則確定所述目標輕量應用存在異常採集行為。
可選地,在一種實施方式中,在所述確定單元403確定所述目標輕量應用存在異常採集行為之後,所述裝置還包括:
攔截單元404,攔截所述目標輕量應用的隱私資料發送請求。
基於隱私資料保護的異常採集行為識別裝置400能夠實現圖1的方法實施例的方法,具體可參考圖1所示實施例的基於隱私資料保護的異常採集行為識別方法,不再贅述。
圖5是本說明書的一個實施例提供的一種場景分類模型的訓練裝置500的結構示意圖。請參考圖5,在一種軟體實施方式中,場景分類模型的訓練裝置500可包括:
資料獲取單元501,獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤;
特徵提取單元502,從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵;
模型訓練單元503,基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型,所述場景分類模型用於預測輕量應用的使用場景類別。
可選地,在一種實施方式中,所述特徵提取單元502,用於:
從所述多個輕量應用的頁面內容資料中,分別獲取所述多個輕量應用的頁面中的多個文字資訊、以及所述多個輕量應用的頁面中的實體類型和數量;
分別將所述多個輕量應用的頁面中的多個文字資訊、以及所述多個輕量應用的頁面中的實體類型和數量進行拼接,得到所述多個輕量應用對應的多個文字欄位,其中,一個文字欄位中由對應的輕量應用中的多個文字資訊、實體類型的名稱和對應的實體數量拼接得到;
從所述多個輕量應用對應的多個文字欄位和用戶行為資料中,提取所述多個輕量應用的使用場景特徵。
可選地,在一種實施方式中,所述特徵提取單元502,用於:
分別對所述多個輕量應用對應的多個文字欄位進行資料預處理;
分別將所述資料預處理操作後的所述多個輕量應用對應的多個文字欄位,轉換為對應的多個詞向量;
從所述多個詞向量和所述多個輕量應用對應的用戶行為資料中,提取所述多個輕量應用的使用場景特徵;
其中,所述資料預處理操作包括剔除停用詞操作。
可選地,在一種實施方式中,所述特徵提取單元502,用於:
基於所述多個輕量應用的頁面中的實體類型的名稱和對應的數量,分別獲取與所述多個輕量應用的頁面中的實體類型相對應的文字欄位,一個輕量應用的頁面中的一個實體類型對應的文字欄位包括對應的數量的實體類型的名稱;
基於分別將所述多個輕量應用的頁面中的多個文字資訊、以及與所述多個輕量應用的頁面中的實體類型相對應的文字欄位進行拼接,得到所述多個輕量應用對應的多個文字欄位。
可選地,在一種實施方式中,所述模型訓練單元503,用於:
透過多分類模型基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。
場景分類模型的訓練裝置500能夠實現圖2~圖3的方法實施例的方法,具體可參考圖2~圖3所示實施例的場景分類模型的訓練方法,不再贅述。
圖6是本說明書的一個實施例電子設備的結構示意圖。請參考圖6,在硬體層面,該電子設備包括處理器,可選地還包括內部匯流排、網路介面、記憶體。其中,記憶體可能包含記憶體,例如高速隨機存取記憶體(Random-Access Memory,RAM),也可能還包括非易失性記憶體(non-volatile memory),例如至少1個磁碟記憶體等。當然,該電子設備還可能包括其他業務所需要的硬體。
處理器、網路介面和記憶體可以透過內部匯流排相互連接,該內部匯流排可以是ISA(Industry Standard Architecture,工業標準架構)匯流排、PCI(Peripheral Component Interconnect,外設部件互連標準)匯流排或EISA(Extended Industry Standard Architecture,延伸工業標準架構)匯流排等。所述匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。為便於表示,圖6中僅用一個雙向箭頭表示,但並不表示僅有一根匯流排或一種類型的匯流排。
記憶體,用於存放程式。具體地,程式可以包括程式碼,所述程式碼包括電腦操作指令。記憶體可以包括記憶體和非易失性記憶體,並向處理器提供指令和資料。
處理器從非易失性記憶體中讀取對應的電腦程式到記憶體中然後運行,在邏輯層面上形成基於隱私資料保護的異常採集行為識別裝置。處理器,執行記憶體所存放的程式,並具體用於執行以下操作:
獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單;
將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別;
基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。
上述如本說明書圖1~圖3所示實施例揭示的基於隱私資料保護的異常採集行為識別裝置執行的方法可以應用於處理器中,或者由處理器實現。處理器可能是一種積體電路晶片,具有信號的處理能力。在實現過程中,上述方法的各步驟可以透過處理器中的硬體的集成邏輯電路或者軟體形式的指令完成。上述的處理器可以是通用處理器,包括中央處理器(Central Processing Unit,CPU)、網路處理器(Network Processor,NP)等;還可以是數位訊號處理器(Digital Signal Processor,DSP)、專用積體電路(Application Specific Integrated Circuit,ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array,FPGA)或者其他可程式設計邏輯器件、分立閘或者電晶體邏輯器件、分立硬體元件。可以實現或者執行本說明書實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。結合本說明書實施例所公開的方法的步驟可以直接體現為硬體解碼處理器執行完成,或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體,快閃記憶體、唯讀記憶體,可程式設計唯讀記憶體或者電可讀寫可程式設計記憶體、暫存器等本領域成熟的儲存媒體中。該儲存媒體位於記憶體,處理器讀取記憶體中的資訊,結合其硬體完成上述方法的步驟。
該電子設備還可執行圖1的方法,並實現基於隱私資料保護的異常採集行為識別裝置在圖1所示實施例的功能,本說明書實施例在此不再贅述。
本說明書實施例還提出了一種電腦可讀儲存媒體,該電腦可讀儲存媒體儲存一個或多個程式,該一個或多個程式包括指令,該指令當被包括多個應用程式的可攜式電子設備執行時,能夠使該可攜式電子設備執行圖1所示實施例的方法,並具體用於執行以下操作:
獲取目標輕量應用的頁面內容資料、用戶行為資料和所述目標輕量應用申請採集的隱私資料清單;
將所述目標輕量應用的頁面內容資料和用戶行為資料作為場景分類模型的輸入,以透過所述場景分類模型預測所述目標輕量應用的使用場景類別;
基於所述目標輕量應用的使用場景類別對應的可採集的隱私資料清單和所述目標輕量應用申請採集的隱私資料清單,確定所述目標輕量應用是否存在異常採集行為。
當然,除了軟體實現方式之外,本說明書的電子設備並不排除其他實現方式,比如邏輯器件抑或軟硬體結合的方式等等,也就是說以下處理流程的執行主體並不限定於各個邏輯單元,也可以是硬體或邏輯器件。
圖7是本說明書的一個實施例電子設備的結構示意圖。請參考圖7,在硬體層面,該電子設備包括處理器,可選地還包括內部匯流排、網路介面、記憶體。其中,記憶體可能包含記憶體,例如高速隨機存取記憶體(Random-Access Memory,RAM),也可能還包括非易失性記憶體(non-volatile memory),例如至少1個磁碟記憶體等。當然,該電子設備還可能包括其他業務所需要的硬體。
處理器、網路介面和記憶體可以透過內部匯流排相互連接,該內部匯流排可以是ISA(Industry Standard Architecture,工業標準架構)匯流排、PCI(Peripheral Component Interconnect,外設部件互連標準)匯流排或EISA(Extended Industry Standard Architecture,延伸工業標準架構)匯流排等。所述匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。為便於表示,圖7中僅用一個雙向箭頭表示,但並不表示僅有一根匯流排或一種類型的匯流排。
記憶體,用於存放程式。具體地,程式可以包括程式碼,所述程式碼包括電腦操作指令。記憶體可以包括記憶體和非易失性記憶體,並向處理器提供指令和資料。
處理器從非易失性記憶體中讀取對應的電腦程式到記憶體中然後運行,在邏輯層面上形成場景分類模型的訓練裝置。處理器,執行記憶體所存放的程式,並具體用於執行以下操作:
獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤;
從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵;
基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。
上述如本說明書圖2和圖3所示實施例揭示的場景分類模型的訓練裝置執行的方法可以應用於處理器中,或者由處理器實現。處理器可能是一種積體電路晶片,具有信號的處理能力。在實現過程中,上述方法的各步驟可以透過處理器中的硬體的集成邏輯電路或者軟體形式的指令完成。上述的處理器可以是通用處理器,包括中央處理器(Central Processing Unit,CPU)、網路處理器(Network Processor,NP)等;還可以是數位訊號處理器(Digital Signal Processor,DSP)、專用積體電路(Application Specific Integrated Circuit,ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array,FPGA)或者其他可程式設計邏輯器件、分立閘或者電晶體邏輯器件、分立硬體元件。可以實現或者執行本說明書實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。結合本說明書實施例所公開的方法的步驟可以直接體現為硬體解碼處理器執行完成,或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體,快閃記憶體、唯讀記憶體,可程式設計唯讀記憶體或者電可讀寫可程式設計記憶體、暫存器等本領域成熟的儲存媒體中。該儲存媒體位於記憶體,處理器讀取記憶體中的資訊,結合其硬體完成上述方法的步驟。
該電子設備還可執行圖2和圖3的方法,並實現場景分類模型的訓練裝置在圖2和圖3所示實施例的功能,本說明書實施例在此不再贅述。
本說明書實施例還提出了一種電腦可讀儲存媒體,該電腦可讀儲存媒體儲存一個或多個程式,該一個或多個程式包括指令,該指令當被包括多個應用程式的可攜式電子設備執行時,能夠使該可攜式電子設備執行圖2所示實施例的方法,並具體用於執行以下操作:
獲取多個輕量應用的頁面內容資料、用戶行為資料以及所述多個輕量應用的使用場景標籤;
從所述多個輕量應用的頁面內容資料和用戶行為資料中,提取所述多個輕量應用的使用場景特徵;
基於所述多個輕量應用的使用場景特徵和對應的使用場景標籤,訓練得到場景分類模型。
當然,除了軟體實現方式之外,本說明書的電子設備並不排除其他實現方式,比如邏輯器件抑或軟硬體結合的方式等等,也就是說以下處理流程的執行主體並不限定於各個邏輯單元,也可以是硬體或邏輯器件。
上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多工處理和並行處理也是可以的或者可能是有利的。
總之,以上所述僅為本說明書的較佳實施例而已,並非用於限定本說明書的保護範圍。凡在本說明書的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本說明書的保護範圍之內。
上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的,電腦例如可以為個人電腦、膝上型電腦、行動電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。
電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀媒體不包括暫存電腦可讀媒體(transitory media),如調變的資料信號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
S110:方法步驟
S120:方法步驟
S130:方法步驟
S210:方法步驟
S220:方法步驟
S230:方法步驟
S301:方法步驟
S302:方法步驟
S303:方法步驟
S304:方法步驟
S305:方法步驟
S306:方法步驟
S307:方法步驟
S308:方法步驟
S309:方法步驟
S310:方法步驟
S311:方法步驟
400:異常採集行為識別裝置
401:獲取單元
402:預測單元
403:確定單元
500:場景分類模型的訓練裝置
501:資料獲取單元
502:特徵提取單元
503:模型訓練單元
為了更清楚地說明本說明書實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本說明書中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
[圖1]是本說明書的一個實施例提供的一種基於隱私資料保護的異常採集行為識別方法的實施流程示意圖。
[圖2]是本說明書的一個實施例提供的一種場景分類模型的訓練方法的實施流程示意圖。
[圖3]是本說明書的一個實施例提供的場景分類模型的訓練方法應用在一種實際場景中的流程示意圖。
[圖4]是本說明書的一個實施例提供的一種基於隱私資料保護的異常採集行為識別裝置的結構示意圖。
[圖5]是本說明書的一個實施例提供的一種場景分類模型的訓練裝置的結構示意圖。
[圖6]是本說明書的一個實施例提供的一種電子設備的結構示意圖。
[圖7]是本說明書的一個實施例提供的另一種電子設備的結構示意圖。