CN113034331A - 一种基于多模态融合的安卓赌博应用识别方法和*** - Google Patents

一种基于多模态融合的安卓赌博应用识别方法和*** Download PDF

Info

Publication number
CN113034331A
CN113034331A CN202110490157.7A CN202110490157A CN113034331A CN 113034331 A CN113034331 A CN 113034331A CN 202110490157 A CN202110490157 A CN 202110490157A CN 113034331 A CN113034331 A CN 113034331A
Authority
CN
China
Prior art keywords
android
gambling
application
model
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110490157.7A
Other languages
English (en)
Inventor
纪天啸
胡燕林
李致
闵宗茹
沈传年
杨�一
陈曲
徐彦婷
张超超
王心丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Branch Of National Computer Network And Information Security Management Center
Original Assignee
Shanghai Branch Of National Computer Network And Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Branch Of National Computer Network And Information Security Management Center filed Critical Shanghai Branch Of National Computer Network And Information Security Management Center
Priority to CN202110490157.7A priority Critical patent/CN113034331A/zh
Publication of CN113034331A publication Critical patent/CN113034331A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/34Betting or bookmaking, e.g. Internet betting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多模态融合的安卓赌博应用识别方法和***,属于安卓应用安全技术领域,该识别方法具体过程如下;(1)批量获取网站评论和赌博网站中安卓赌博应用下载线索信息;(2)通过在目标网站发现以APK结尾的应用下载链接,提取疑似安卓应用;(3)提取安卓应用安装包的包名、图标、证书、IP地址、URL域名和电子邮件地址;(4)通过多模态融合的安卓赌博应用识别模型,判定识别赌博应用包括图像模型、文本模型和Multihead Attention融合模型;(5)存储发现的安卓应用基本信息及应用安装包;本发明多模态识别模型能够精确地识别出安卓平台中的赌博应用,有利于减少网络赌博违法犯罪活动。

Description

一种基于多模态融合的安卓赌博应用识别方法和***
技术领域
本发明涉及安卓应用安全技术领域,尤其涉及一种基于多模态融合的安卓赌博应用识别方法和***。
背景技术
经检索,中国专利号CN108052523A公开了一种基于卷积神经网络的赌博网站识别方法和***,该发明虽然能通过卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站,但仅仅只能针对网站的图像特征进行训练识别;近年来,随着互联网和移动通信产业的飞速发展,网络赌博作为一种参与人数多、传播渠道广、涉案规模大的违法犯罪活动,在境内不断蔓延,导致大量资金外流,其衍生犯罪严重威胁我国社会安全;安卓(Android)移动应用作为网络赌博信息重要传播载体之一,具有平台开放、可以不通过官方或第三方应用商店安装等特点,大量安卓平台赌博应用选择直接在官方网站提供安装包或其他信息传播渠道提供下载链接的方式进行传播;当前,赌博应用作为有害应用之一,安卓平台有害应用分析主要聚焦恶意代码及行为安全等传统网络安全领域,对于应用内容有害发现及内容安全研究较少;因此,发明出一种基于多模态融合的安卓赌博应用识别方法和***变得尤为重要;
现有的安卓应用识别方法往往关注应用中的恶意代码及行为安全等网络安全方面问题,对于应用有害内容发现判别及内容信息安全研究较少,且内容安全相关的公开训练、测试数据集较少;此外,安卓赌博应用安装包中含有文本、图片、证书等大量多模态信息,已有的多模态融合方法不具有针对性;为此,我们提出一种基于多模态融合的安卓赌博应用识别方法和***。
发明内容
本发明的目的是为了解决现有技术中存在的缺陷,而提出的一种基于多模态融合的安卓赌博应用识别方法和***。
为了实现上述目的,本发明采用了如下技术方案:
一种基于多模态融合的安卓赌博应用识别方法,该识别方法具体过程如下:
(1)批量获取网站评论和赌博网站中安卓赌博应用下载线索信息;
(2)通过在目标网站发现以APK结尾的应用下载链接,提取疑似安卓应用;
(3)提取安卓应用安装包的包名、图标、证书、IP地址、URL域名和电子邮件地址;
(4)通过多模态融合的安卓赌博应用识别模型,判定识别赌博应用包括图像模型、文本模型和Multihead Attention融合模型;
(5)存储发现的安卓应用基本信息及应用安装包;
(6)前端展示安卓赌博已发现情况及安卓赌博应用新发现情况。
优选的,所述图像模型判定过程具体如下:
S1:使用VGGNet把图标图片映射为特征fI,其公式如下:
fI=CNNvgg(I) (1)
S2:把图标图片缩放为448*448像素,然后获取最后一层池化层的特征fI,其输出的维度为512*14*14,其中14*14是图片分割区域的数量,512是每个区域特征向量的维度;
S3:使用一个单层感知机把每个特征向量转换为一个与文本向量维度相同的新向量,其公式如下:
vI=tanh(WIfI+bI) (2)
式中:vI是一个矩阵,它的第i列是图片特征向量的区域i;
S4:使用18层或34层残差神经网络解决梯度消失问题。
优选的,所述残差神经网络由两个堆叠层building block组成,其结构如下:
H(x)=F(x,{Wi})+x (3)
式中:x与H(x)是building block的输入输出向量;F(x,{Wi})表示学习的残差映射;
其中:
F(x)=W2δ(W1x) (4)
式中:δ表示激活函数,W1表示第一个连接权值,W2表示第二个连接权值;
若维度x与F不匹配,可以使用线性映射W_s来进行维度匹配:
H(x)=F(x,{Wi})+Wδx (5)
通过具有快捷连接的前向神经网络来实现公式F(x)+x,快捷连接的由一个恒等映射来实现,输出将会被添加到堆叠层的最终输出中。
优选的,所述文本模型具体为LSTM,LSTM的基本结构是一个保留序列状态的记忆单元,在每一步中,LSTM单元获取一个输入词向量xt,更新记忆单元ct,然后输出一个隐藏状态ht;更新过程中使用了门机制;一个遗忘门ft控制从上一个状态的ct-1中保留多少信息;一个输入门it控制当前输入xt更新多少信息到记忆单元;输出门控制多少信息进入输出即隐藏状态,详细的更新过程如下:
it=σ(Wxixt+Whiht-1+bi) (6)
ft=σ(Wxfxt+Whfht-1+bf) (7)
ot=σ(Wxoxt+Whoht-1+bo) (8)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) (9)
ht=ottanh(ct) (10)
式中:i,f,o,c分别为输入门、遗忘门、输出门、记忆单元;
所述词向量xt作为LSTM的输入,其公式如下:
xt=Weqt,t∈{1,2,…T} (11)
ht=LSTM(xt),t∈{1,2,…T} (12)
式中:q=[q1,…,qT]表示文本,qt是位置t的单词的one-hot向量表示。
优选的,所述Multihead Attention融合模型具体为基于Attention机制的多模态融合模型,其将图片模型与文本模型输出的结果由一个注意力机制进行融合,该注意力机制计算过程如下:
(1)通过相似度来计算查询和每个键的权重,相似的函数使用点积;
(2)点积操作,其中因子
Figure BDA0003051616230000051
起到调节作用,使点积不至于太大;
(3)通过softmax函数对得到的权重进行标准化;
(4)通过相似度与相应键的值得到它们的加权和;
基于以上步骤,得到如下公式:
Figure BDA0003051616230000052
式中:Q为图片的特征向量,V,K为文本模型的输出。
优选的,所述多模态融合需经过一个全局平均池化层,其公式如下:
vgap=Global(v1,v2,…,vn) (14)
最后,把得到的vgap向量直接输入softmax层进行分类预测,预测的结果如下所示,
Figure BDA0003051616230000053
引入交叉熵函数的目的是为了评价模型,反映真实的类别y与预测的类别
Figure BDA0003051616230000054
之间的差距:
Figure BDA0003051616230000055
式中:i为索引数。
一种基于多模态融合的安卓赌博应用识别***,包括网络爬虫层、提取判别层、数据存储层和成果展示层;
其中,所述网络爬虫层用于爬取网站内容及评论信息中的安卓赌博应用线索,以及抓取和发现安卓应用下载地址;
所述提取判别层用于提取安卓应用基本信息,以及进行基于多模态融合的安卓平台赌博应用识别;
所述提取判别层用于存储识别后的安卓应用安装包,以及存储安卓应用信息;
所述成果展示层用于总体展示安卓赌博应用,以及展示安卓赌博应用新发现情况。
相比于现有技术,本发明的有益效果在于:
1、该基于多模态融合的安卓赌博应用识别方法,通过数据爬虫方法提取安卓平台应用安装包中包含大量不同模态的资源文件,如包名、图标、证书和字符串(IP地址、URL域名、电子邮件地址),然后通过图片模型和文本模型判别应用中图片和文本特征向量,有利于为后续多模态识别模型建立奠定基础;
2、该基于多模态融合的安卓赌博应用识别方法,通过将图片模型与文本模型得到的特征向量进行融合训练,形成多模态识别模型,其相较于传统单一特征的安卓赌博应用识别模型,该多模态识别模型识别范围更广,识别精度更高,从而有利于精确自动地识别出安卓平台中的赌博应用,进而有利于减少网络赌博违法犯罪活动。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明提出的一种人工智能眼病筛查服务方法的整体流程图;
图2为本发明提出的一种基于多模态融合的安卓赌博应用识别***的整体结构示意图;
图3为本发明图片模型的判定过程示意图;
图4为本发明残差神经网络结构的示意图;
图5为本发明Multihead Attention融合模型的融合过程示意图;
图6为本发明注意力机制计算过程的示意图;
图7为本发明ResNet-18模型预测结果的示意图;
图8为本发明ResNet-18预训练后的模型预测结果的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
参照图1-8,收集赌博类应用495个,其中训练集395个,验证集50个,测试集50个,从应用市场中爬取到446个非赌博正常应用,其中训练集346个,验证集50个,测试集50个,如下表所示:
训练集 验证集 测试集 总数
赌博类 395 50 50 495
非赌博类 346 50 50 446
通过提取应用中的文本信息可以获得的文本信息,如下表所示:
序号 域名
1 www.qhc25.com
2 agmbet.com
3 api.383game7a1.com
4 api.yjgame1.com
5 api.kgky8372.com
序号 部分应用内文本示例
1 盈盛国际、红包捕鱼、AG视讯…
2 四季彩、龙虎大战、神龙宝藏、炸金花…
3 乐博现金网、彩25、五万…
4 威尼斯人娱乐、百家乐…
5 永利国际娱乐城…
同时使用了收集到的10994条短文本作为文本模型的预训练数据,其中赌博文本为3425条,非赌博正常文本为7569条,如下表所示:
Figure BDA0003051616230000081
Figure BDA0003051616230000091
在训练时,首先需要对图片进行预处理,通过缩放、裁剪,再把像素从0到255变换到-1到1之间进行正则化;
本实施例提供一种基于多模态融合的安卓赌博应用识别方法,该识别方法具体过程如下:
(1)批量获取网站评论和赌博网站中安卓赌博应用下载线索信息;
(2)通过在目标网站发现以APK结尾的应用下载链接,提取疑似安卓应用;
(3)提取安卓应用安装包的包名、图标、证书、字符串(IP地址、URL域名、电子邮件地址)等信息,部分安卓应用信息提取示例如下:
Figure BDA0003051616230000092
Figure BDA0003051616230000101
(4)通过多模态融合的安卓赌博应用识别模型,判定识别赌博应用包括图像模型、文本模型和Multihead Attention融合模型;
(5)存储发现的安卓应用基本信息及应用安装包;
(6)前端展示安卓赌博已发现情况及安卓赌博应用新发现情况。
图像模型判定过程具体如下:
S1:使用VGGNet把图标图片映射为特征fI,其公式如下:
fI=CNNvgg(I) (1)
S2:把图标图片缩放为448*448像素,然后获取最后一层池化层的特征fI,其输出的维度为512*14*14,其中14*14是图片分割区域的数量,512是每个区域特征向量的维度;
S3:使用一个单层感知机把每个特征向量转换为一个与文本向量维度相同的新向量,其公式如下:
vI=tanh(WIfI+bI) (2)
式中:vI是一个矩阵,它的第i列是图片特征向量的区域i;
S4:使用18层或34层残差神经网络解决梯度消失问题。
残差神经网络由两个堆叠层building block组成,其结构如下:
H(x)=F(x,{Wi})+x (3)
式中:x与H(x)是building block的输入输出向量;F(x,{Wi})表示学习的残差映射;
其中:
F(x)=W2δ(W1x) (4)
式中:δ表示激活函数,W1表示第一个连接权值,W2表示第二个连接权值;
若维度x与F不匹配,可以使用线性映射W_s来进行维度匹配:
H(x)=F(x,{Wi})+Wδx (5)
通过具有快捷连接的前向神经网络来实现公式F(x)+x,快捷连接的由一个恒等映射来实现,输出将会被添加到堆叠层的最终输出中。
需要说明的是,文本模型具体为LSTM,LSTM的基本结构是一个保留序列状态的记忆单元,在每一步中,LSTM单元获取一个输入词向量xt,更新记忆单元ct,然后输出一个隐藏状态ht;更新过程中使用了门机制;一个遗忘门ft控制从上一个状态的ct-1中保留多少信息;一个输入门it控制当前输入xt更新多少信息到记忆单元;输出门控制多少信息进入输出即隐藏状态,详细的更新过程如下:
it=σ(Wxixt+Whiht-1+bi) (6)
ft=σ(Wxfxt+Whfht-1+bf) (7)
ot=σ(Wxoxt+Whoht-1+bo) (8)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) (9)
ht=ottanh(ct) (10)
式中:i,f,o,c分别为输入门、遗忘门、输出门、记忆单元;
词向量xt作为LSTM的输入,其公式如下:
xt=Weqt,t∈{1,2,…T} (11)
ht=LSTM(xt),t∈{1,2,…T} (12)
式中:q=[q1,…,qT]表示文本,qt是位置t的单词的one-hot向量表示。
需要说明的是,Multihead Attention融合模型具体为基于Attention机制的多模态融合模型,其将图片模型与文本模型输出的结果由一个注意力机制进行融合,该注意力机制计算过程如下:
(1)通过相似度来计算查询和每个键的权重,相似的函数使用点积;
(2)点积操作,其中因子
Figure BDA0003051616230000131
起到调节作用,使点积不至于太大;
(3)通过softmax函数对得到的权重进行标准化;
(4)通过相似度与相应键的值得到它们的加权和;
基于以上步骤,得到如下公式:
Figure BDA0003051616230000132
式中:Q为图片的特征向量,V,K为文本模型的输出。
多模态融合需经过一个全局平均池化层,其公式如下:
vgap=Global(v1,v2,…,vn) (14)
最后,把得到的vgap向量直接输入softmax层进行分类预测,预测的结果如下所示,
Figure BDA0003051616230000133
引入交叉熵函数的目的是为了评价模型,反映真实的类别y与预测的类别
Figure BDA0003051616230000134
之间的差距:
Figure BDA0003051616230000135
式中:i为索引数。
本实施例提供一种基于多模态融合的安卓赌博应用识别***,包括网络爬虫层、提取判别层、数据存储层和成果展示层;
其中,网络爬虫层用于爬取网站内容及评论信息中的安卓赌博应用线索,以及抓取和发现安卓应用下载地址;
提取判别层用于提取安卓应用基本信息,以及进行基于多模态融合的安卓平台赌博应用识别;
提取判别层用于存储识别后的安卓应用安装包,以及存储安卓应用信息;
成果展示层用于总体展示安卓赌博应用,以及展示安卓赌博应用新发现情况。
图片模型在测试集上的结果,如下表所示:
Model Precision Recall F1
CNN 0.61 0.86 0.71
ResNet-18 0.82 0.79 0.80
ResNet-34 0.78 0.77 0.77
CNN(Pre-training) 0.69 0.78 0.73
ResNet-18(Pre-training) 0.84 0.80 0.82
ResNet-34(Pre-training) 0.82 0.78 0.80
具体的,从图标识别结果来看ResNet网络要明显优于基本的CNN网络,即使经过预训练,基本CNN网络的识别效果提升也不大;值得注意的是,ResNet-34的模型效果反而要比ResNet-18的效果要差,但使用了预训练的模型后,模型效果有了很大提升,但仍要差于ResNet-18;
结合图7和图8所示,从对图片的预测结果来看,基本CNN模型虽然也能预测对大部分结果,但预测的概率只从训练前的百分之五十左右上升了百分之几,而ResNet模型的预测概率却能到百分之九十多。
文本模型在测试集上的结果,如下表所示:
Figure BDA0003051616230000141
Figure BDA0003051616230000151
具体的,可以看到LSTM对于基本RNN模型的效果有着明显的提升,经过其它赌博类短文本的预训练,基本RNN模型也有着很大提升,但效果仍要差于LSTM模型,所以在最终的模型中选用了进行预训练的LSTM文本模型,但文本模型的总体效果明显劣于图片模型。
融合模型在测试集上的结果,如下表所示:
Model Precision Recall F1
ResNet 0.84 0.80 0.82
LSTM 0.80 0.81 0.80
LSTM-ResNet-Concat 0.88 0.92 0.90
LSTM-ResNet-MHAT 0.90 0.93 0.91
在最终的多模态特征融合模型中,我们也对图片特征向量与文本特征向量进行进行连接操作再经过一个全连接层、全局平均池化层与softmax层进行分类预测,作为实验的基线模型进行对比;实验结果表明,在使用单一模态的特征时,模型可以学习出赌博有害应用与正常应用的不同,进行有效识别,使用多种模态的特征时,对模型的效果有着明显的提升,而Multihead Attention机制可以通过关注到图片中的部分区域,而不是全局图片引入的干扰,可以获得更优的结果,多于有害赌博应用的识别有极大的意义。
本发明的工作原理及使用流程:该基于多模态融合的安卓赌博应用识别***,在使用时,首先批量获取网站评论和赌博网站中安卓赌博应用下载线索信息;然后通过在目标网站发现以APK结尾的应用下载链接,提取疑似安卓应用;之后提取安卓应用安装包的包名、图标、证书、IP地址、URL域名和电子邮件地址;接着通过多模态融合的安卓赌博应用识别模型,判定识别赌博应用包括图像模型、文本模型和Multihead Attention融合模型;然后存储发现的安卓应用基本信息及应用安装包;最后前端展示安卓赌博已发现情况及安卓赌博应用新发现情况;本发明通过爬虫技术提取应用中的静态资源,如包名、图标、证书、字符串(IP地址、URL域名、电子邮件地址),之后运用Multihead Attention的多模态融合技术,把文字、图片等不同模态的特征相结合,构建多模态融合的安卓赌博应用识别模型,从而有利于精确自动地识别出安卓平台中的赌博应用。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于多模态融合的安卓赌博应用识别方法,其特征在于,该识别方法具体过程如下:
(1)批量获取网站评论和赌博网站中安卓赌博应用下载线索信息;
(2)通过在目标网站发现以APK结尾的应用下载链接,提取疑似安卓应用;
(3)提取安卓应用安装包的包名、图标、证书、IP地址、URL域名和电子邮件地址;
(4)通过多模态融合的安卓赌博应用识别模型,判定识别赌博应用包括图像模型、文本模型和Multihead Attention融合模型;
(5)存储发现的安卓应用基本信息及应用安装包;
(6)前端展示安卓赌博已发现情况及安卓赌博应用新发现情况。
2.根据权利要求1所述的一种基于多模态融合的安卓赌博应用识别方法,其特征在于,所述图像模型判定过程具体如下:
S1:使用VGGNet把图标图片映射为特征fI,其公式如下:
fI=CNNvgg(I) (1)
S2:把图标图片缩放为448*448像素,然后获取最后一层池化层的特征fI,其输出的维度为512*14*14,其中14*14是图片分割区域的数量,512是每个区域特征向量的维度;
S3:使用一个单层感知机把每个特征向量转换为一个与文本向量维度相同的新向量,其公式如下:
vI=tanh(WIfI+bI) (2)
式中:vI是一个矩阵,它的第i列是图片特征向量的区域i;
S4:使用18层或34层残差神经网络解决梯度消失问题。
3.根据权利要求2所述的一种基于多模态融合的安卓赌博应用识别方法,其特征在于,所述残差神经网络由两个堆叠层building block组成,其结构如下:
H(x)=F(x,{Wi})+x (3)
式中:x与H(x)是building block的输入输出向量;F(x,{Wi})表示学习的残差映射;
其中:
F(x)=W2δ(W1x) (4)
式中:δ表示激活函数,W1表示第一个连接权值,W2表示第二个连接权值;
若维度x与F不匹配,可以使用线性映射W_s来进行维度匹配:
H(x)=F(x,{Wi})+Wδx (5)
通过具有快捷连接的前向神经网络来实现公式F(x)+x,快捷连接的由一个恒等映射来实现,输出将会被添加到堆叠层的最终输出中。
4.根据权利要求1所述的一种基于多模态融合的安卓赌博应用识别方法,其特征在于,所述文本模型具体为LSTM,LSTM的基本结构是一个保留序列状态的记忆单元,在每一步中,LSTM单元获取一个输入词向量xt,更新记忆单元ct,然后输出一个隐藏状态ht;更新过程中使用了门机制;一个遗忘门ft控制从上一个状态的ct-1中保留多少信息;一个输入门it控制当前输入xt更新多少信息到记忆单元;输出门控制多少信息进入输出即隐藏状态,详细的更新过程如下:
it=σ(Wxixt+Whiht-1+bi) (6)
ft=σ(Wxfxt+Whfht-1+bf) (7)
ot=σ(Wxoxt+Whoht-1+bo) (8)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) (9)
ht=ottanh(ct) (10)
式中:i,f,o,c分别为输入门、遗忘门、输出门、记忆单元;
所述词向量xt作为LSTM的输入,其公式如下:
xt=Weqt,t∈{1,2,...T} (11)
ht=LSTM(xt),t∈{1,2,...T} (12)
式中:q=[q1,...,qT]表示文本,qt是位置t的单词的one-hot向量表示。
5.根据权利要求1所述的一种基于多模态融合的安卓赌博应用识别方法,其特征在于,所述Multihead Attention融合模型具体为基于Attention机制的多模态融合模型,其将图片模型与文本模型输出的结果由一个注意力机制进行融合,该注意力机制计算过程如下:
(1)通过相似度来计算查询和每个键的权重,相似的函数使用点积;
(2)点积操作,其中因了
Figure FDA0003051616220000041
起到调节作用,使点积不至于太大;
(3)通过softmax函数对得到的权重进行标准化;
(4)通过相似度与相应键的值得到它们的加权和;
基于以上步骤,得到如下公式:
Figure FDA0003051616220000042
式中:Q为图片的特征向量,V,K为文本模型的输出。
6.根据权利要求5所述的一种基于多模态融合的安卓赌博应用识别方法,其特征在于,所述多模态融合需经过一个全局平均池化层,其公式如下:
vgap=Global(v1,v2,...,vn) (14)
把得到的vgap向量直接输入softmax层进行分类预测,预测的结果如下所示,
Figure FDA0003051616220000043
引入交叉熵函数的目的是为了评价模型,反映真实的类别y与预测的类别
Figure FDA0003051616220000044
之间的差距:
Figure FDA0003051616220000045
式中:i为索引数。
7.一种基于多模态融合的安卓赌博应用识别***,其特征在于,包括网络爬虫层、提取判别层、数据存储层和成果展示层;
其中,所述网络爬虫层用于爬取网站内容及评论信息中的安卓赌博应用线索,以及抓取和发现安卓应用下载地址;
所述提取判别层用于提取安卓应用基本信息,以及进行基于多模态融合的安卓平台赌博应用识别;
所述提取判别层用于存储识别后的安卓应用安装包,以及存储安卓应用信息;
所述成果展示层用于总体展示安卓赌博应用,以及展示安卓赌博应用新发现情况。
CN202110490157.7A 2021-05-06 2021-05-06 一种基于多模态融合的安卓赌博应用识别方法和*** Pending CN113034331A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110490157.7A CN113034331A (zh) 2021-05-06 2021-05-06 一种基于多模态融合的安卓赌博应用识别方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110490157.7A CN113034331A (zh) 2021-05-06 2021-05-06 一种基于多模态融合的安卓赌博应用识别方法和***

Publications (1)

Publication Number Publication Date
CN113034331A true CN113034331A (zh) 2021-06-25

Family

ID=76455431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110490157.7A Pending CN113034331A (zh) 2021-05-06 2021-05-06 一种基于多模态融合的安卓赌博应用识别方法和***

Country Status (1)

Country Link
CN (1) CN113034331A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918949A (zh) * 2021-12-13 2022-01-11 北京赋乐科技有限公司 基于多模态融合的诈骗app的识别方法
CN114021651A (zh) * 2021-11-04 2022-02-08 桂林电子科技大学 一种基于深度学习的区块链违法信息感知方法
CN114140673A (zh) * 2022-02-07 2022-03-04 人民中科(济南)智能技术有限公司 一种违规图像识别方法、***及设备
CN114491529A (zh) * 2021-12-20 2022-05-13 西安电子科技大学 基于多模态神经网络的安卓恶意应用程序识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170102929A1 (en) * 2015-10-12 2017-04-13 Samsung Electronics Co., Ltd. System and Method to Reduce Storage Area Usage of Android Application
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和***
CN110619075A (zh) * 2018-06-04 2019-12-27 阿里巴巴集团控股有限公司 一种网页识别方法与设备
CN111310026A (zh) * 2020-01-17 2020-06-19 南京邮电大学 一种基于人工智能的涉黄涉恐监测方法
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法
CN112600834A (zh) * 2020-12-10 2021-04-02 同盾控股有限公司 内容安全识别方法及装置、存储介质和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170102929A1 (en) * 2015-10-12 2017-04-13 Samsung Electronics Co., Ltd. System and Method to Reduce Storage Area Usage of Android Application
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和***
CN110619075A (zh) * 2018-06-04 2019-12-27 阿里巴巴集团控股有限公司 一种网页识别方法与设备
CN112347244A (zh) * 2019-08-08 2021-02-09 四川大学 基于混合特征分析的涉黄、涉赌网站检测方法
CN111310026A (zh) * 2020-01-17 2020-06-19 南京邮电大学 一种基于人工智能的涉黄涉恐监测方法
CN111563551A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备
CN112600834A (zh) * 2020-12-10 2021-04-02 同盾控股有限公司 内容安全识别方法及装置、存储介质和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小崔: "Attention 之 Multi-Head Attention", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/172400219》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021651A (zh) * 2021-11-04 2022-02-08 桂林电子科技大学 一种基于深度学习的区块链违法信息感知方法
CN114021651B (zh) * 2021-11-04 2024-03-29 桂林电子科技大学 一种基于深度学习的区块链违法信息感知方法
CN113918949A (zh) * 2021-12-13 2022-01-11 北京赋乐科技有限公司 基于多模态融合的诈骗app的识别方法
CN114491529A (zh) * 2021-12-20 2022-05-13 西安电子科技大学 基于多模态神经网络的安卓恶意应用程序识别方法
CN114491529B (zh) * 2021-12-20 2024-05-17 西安电子科技大学 基于多模态神经网络的安卓恶意应用程序识别方法
CN114140673A (zh) * 2022-02-07 2022-03-04 人民中科(济南)智能技术有限公司 一种违规图像识别方法、***及设备

Similar Documents

Publication Publication Date Title
CN113034331A (zh) 一种基于多模态融合的安卓赌博应用识别方法和***
CN111680176B (zh) 基于注意力与双向特征融合的遥感图像检索方法及***
CN113486981B (zh) 基于多尺度特征注意力融合网络的rgb图像分类方法
CN112348117B (zh) 场景识别方法、装置、计算机设备和存储介质
CN111582397B (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
Mohan et al. Spoof net: syntactic patterns for identification of ominous online factors
CN107273416B (zh) 网页暗链检测方法、装置及计算机可读存储介质
CN110196945B (zh) 一种基于LSTM与LeNet融合的微博用户年龄预测方法
CN113422761B (zh) 基于对抗学习的恶意社交用户检测方法
CN113011889B (zh) 账号异常识别方法、***、装置、设备及介质
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN110737811A (zh) 应用分类方法、装置以及相关设备
CN113158554A (zh) 模型优化方法、装置、计算机设备及存储介质
CN114978624A (zh) 钓鱼网页检测方法、装置、设备及存储介质
CN115757991A (zh) 一种网页识别方法、装置、电子设备和存储介质
CN106503047A (zh) 一种基于卷积神经网络的图像爬虫优化方法
Li et al. An improved lightweight network architecture for identifying tobacco leaf maturity based on Deep learning
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
CN117235532B (zh) 一种基于M-Bert的恶意网站检测模型的训练及检测方法
CN114638984B (zh) 一种基于胶囊网络的恶意网站url检测方法
CN115129902B (zh) 媒体数据处理方法、装置、设备及存储介质
CN115757779A (zh) 基于深度学习模型的金融风险预警方法及装置
CN113255451B (zh) 遥感图像的变化检测方法、装置、电子设备及存储介质
CN111523034B (zh) 一种应用程序的处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210625