CN115688107A

CN115688107A - 一种涉诈app检测***和方法

Info

Publication number: CN115688107A
Application number: CN202211692329.XA
Authority: CN
Inventors: 周宇飞; 马洪晓; 胡铁; 熊瑛; 叶蕴芳; 潘淼
Original assignee: Aspire Technologies Shenzhen Ltd
Current assignee: Aspire Technologies Shenzhen Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-02-03
Anticipated expiration: 2042-12-28
Also published as: CN115688107B

Abstract

一种涉诈APP检测***或方法，用于检测运行在智能设备上应用APP是否涉诈，包括：反诈监测模块，反诈监测模块包括：特征数据信息监控模块、屏幕信息监控模块、结果输出模块；特征数据信息监控模块根据AndroidManifest信息、应用名称，找出第一级疑似涉诈APP，第一级疑似涉诈APP与白名单的正版APP签名证书对比分析，确定第二级疑似涉诈APP；对所述界面图像进行图像识别，提取文本信息，对所述文本信息进行分析，得出APP涉诈的可能性高低值；结果输出模块输出涉诈的可能性高的APP清单。通过将“AndrodManifest特征匹配＋应用名称相似度比较+白名单正版APP签名证书信息过滤”技术筛选疑似涉诈APP样本，再利用网页屏幕截图，通过OCR技术从截图中提取文本信息，通过算法研判是否涉诈网页。

Description

一种涉诈APP检测***和方法

技术领域

本申请属计算机安全技术领域，尤其涉及一种涉诈APP检测***和方法，该检测***可以是运行特定检测软件的智能手机或智能设备，也可以是特定专门用于检测涉诈APP的***。

背景技术

AndroidManifest.xml 是每个android程序中必需的文件。它位于整个项目的根目录，描述了package中暴露的组件（activities, services, 等等），他们各自的实现类，各种能被处理的数据和启动位置。除了能声明程序中的Activities, ContentProviders,Services, 和Intent Receivers，还能指定permissions和instrumentation（安全控制和测试）。

TF-IDF，Term Frequency-Inverse Document Frequency（词频－逆文档频度），主要用来估计一个词在一个文档中的重要程度。

近年来，利用APP进行诈骗已成为电信网络诈骗案件的主要犯罪手段之一。其中，网络兼职刷单、快速贷款等诈骗APP较多，特别是有一些仿冒各大银行和金融平台的APP具有较大迷惑性和欺骗性。

此类涉诈APP，通常使用“第三方移动应用快速开发平台框架代码+集成H5网站域名”实现，开发成本极低。与此同时，此类涉诈APP主要是通过集成的H5网站页面进行诈骗，几乎没有恶意静态代码，没有敏感权限，没有发送短信、读取通讯录等恶意行为，基于静态代码、动态行为分析的常见手机恶意应用检测技术无法有效识别此类涉诈APP。

目前，常见的手机恶意应用检测方法包括：基于静态代码分析方法（比如申请号为“202011536663.7”中国专利申请文件）、基于动态行为分析方法（比如申请号为“201310309568.7”中国专利申请文件）、基于静态代码与动态行为相结合的分析方法（比如申请号为“201910968202.8”中国专利申请文件）等。

基于静态代码分析的恶意移动应用检测技术存在如下缺陷：在检测“第三方移动应用快速开发平台框架代码+集成H5网站域名”的涉诈APP时，只能扫描到第三方移动应用快速开发平台的代码，而这种代码可能在使用同一移动应用快速开发平台的正常应用中存在，最终导致无法提取此类涉诈APP的恶意静态代码特征，无法对此类涉诈APP进行识别与检测。

基于动态行为分析的恶意移动应用检测技术存在如下缺陷：使用“第三方移动应用快速开发平台框架代码+集成H5网站域名”技术开发的涉诈APP，一般通过H5网页进行诈骗。比如虚假贷款诈骗APP，一般通过集成的虚假贷款H5网页诱导受害人上传个人敏感资料，然后以通过集成的聊天网页与受害人进行沟通，再以“贷款需要缴纳保证金”等借口诱导受害人转转付款。这种情况下，涉诈APP没有发送短信、窃取通讯录等恶意行为，最终导致基于动态行为分析的恶意移动应用检测技术无法对此类涉诈APP进行有效检测。

基于静态代码与动态行为相结合的恶意移动应用检测技术存在如下缺陷：在检测“第三方移动应用快速开发平台框架代码+集成H5网站域名”的涉诈APP时，无法提取到静态代码特征、动态行为特征，最终导致无法对此类涉诈APP进行有效检测。

发明内容

为了解决上述问题，本发明，通过将“AndrodManifest特征匹配＋应用名称相似度比较+白名单正版APP签名证书信息过滤”技术筛选疑似涉诈APP样本，再利用网页屏幕截图，通过OCR技术从截图中提取文本信息，通过算法研判是否涉诈网页文本，从而实现涉诈APP的自动化研判能力。

本申请解决上述技术问题的技术方案是一种涉诈APP检测***，用于检测运行在智能设备上应用APP是否涉诈，包括：反诈监测模块，反诈监测模块包括：特征数据信息监控模块、屏幕信息监控模块、结果输出模块；特征数据信息监控模块根据AndroidManifest信息和/或应用名称，找出第一级疑似涉诈APP，第一级疑似涉诈APP与白名单正版APP签名证书对比过滤，确定第二级疑似涉诈APP；屏幕信息监控模块对运行的第二级疑似涉诈APP截屏，获得APP运行的界面图像，对所述界面图像进行图像识别，提取文本信息，对所述文本信息进行分析，得出APP涉诈的可能性高低值；结果输出模块输出涉诈的可能性高的APP清单。

本申请解决上述技术问题的技术方案还可以包括Appium自动化测试框架，所述应用APP运行在所述Appium自动化测试框架中，反诈监测模块根据输入测试列表，对2个以上的应用APP进行测试；所述找出第一级疑似涉诈APP通过设定关键词筛选应用名称找出；第一级疑似涉诈APP与白名单的正版APP签名证书对比过滤，确定第二级疑似涉诈APP；所述文本信息进行分析算法包括TF-IDF、WORD2VEC或/和BERT。

本申请解决上述技术问题的技术方案还可以是屏幕信息监控模块包括截屏模块、图像识别分析模块，截屏模块对运行中的APP进行界面录制或截取，图像识别分析模块对获得的APP界面图像进行图像识别，截屏模块输出提示信息，提示信息可以是跳出窗口或浮动飘窗或固定的操作按钮，让用户手动操作屏幕截取。

本申请解决上述技术问题的技术方案还可以是图像识别分析模块包括文本信息提取模块、分词模块、涉诈网页TF-IDF特征词典模块、TF-IDF向量计算模块、分类机器学习模块；文本信息提取模块对图像识别后的信息进行处理，获得文本信息；分词模块对所述文本信息进行处理，获得词组；TF-IDF向量计算模块根据涉诈网页TF-IDF特征词典对所述词组进行TF-IDF向量计算，获得词组TF-IDF向量；分类机器学习模块对获得的词组TF-IDF向量进行处理，得出APP涉诈的可能性高低值。

本申请解决上述技术问题的技术方案还可以是涉诈网页TF-IDF特征词典模块通过网络服务器更新TF-IDF特征词典。

本申请解决上述技术问题的技术方案还可以是特征数据信息监控模块包括待测样本信息提取模块、白名单正版APP签名证书特征对比模块。

本申请解决上述技术问题的技术方案还可以是白名单正版APP签名证书特征对比模块通过网络服务器更新白名单数字证书特征。

本申请解决上述技术问题的技术方案还可以是一种涉诈APP检测方法，用于检测运行在智能设备上应用APP是否涉诈，包括：

步骤100：根据AndroidManifest信息、应用名称和/或签名证书，找出第一级疑似涉诈APP，第一级疑似涉诈APP与白名单正版APP签名证书对比分析，确定第二级疑似涉诈APP；

步骤200：运行第二级疑似涉诈APP，进行截屏获得APP运行的界面图像，对所述界面图像进行图像识别，提取文本信息，对所述文本信息进行分析，得出APP涉诈的可能性高低值，输出涉诈的可能性高的APP清单。

对于集中测试，可以输出涉诈的可能性高的APP清单。

本申请解决上述技术问题的技术方案还可以是上述步骤100包括：

步骤110：获取待检测样本的AndroidManifest信息和/或应用名称；

步骤120：获取待检测样本签名证书，签名证书信息中包括：所有者、生效开始时间、生效结束时间和/或序列号；

步骤130：基于AndroidManifest匹配规则特征库、应用名称匹配规则特征库，确定第一级疑似涉诈APP；

步骤140：根据白名单的正版APP签名证书对比过滤，排除白名单样本，确定第二级疑似涉诈APP。

本申请解决上述技术问题的技术方案还可以是步骤200包括：

步骤210：对运行的APP截屏，获得APP运行的界面图像；

步骤220：对所述界面图像进行图像识别，提取文本信息；

步骤230：对所述文本信息进行分词得到词组，对词组进行分析计算，得出APP涉诈的可能性高低值，所述分析算法包括TF-IDF、WORD2VEC或/和BERT。

步骤230还可以包括；

步骤231：根据涉诈网页TF-IDF特征词典对所述词组进行TF-IDF向量计算，获得词组TF-IDF向量；

步骤232：用分类机器学习，对获得的词组TF-IDF向量进行处理，得出APP涉诈的可能性高低值；

步骤233：输出涉诈的可能性高的APP清单。

一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述涉诈APP检测方法。

上述技术方案的技术效果之一是：通过对AndroidManifest信息、应用名称初步筛选出第一级疑似涉诈APP；用白名单正版APP签名证书排除正规的软件，获得第二级疑似涉诈APP，可以大幅度降低需要获得运行APP来获得界面图像的工作量，加快检测工作。

上述技术方案的技术效果之二是：让用户手动操作屏幕截取，通过用户允许或用户手动操作，反诈监测模块可以直接安装在用户手机或智能设备中，排除后台摄录用户手机界面的违法嫌疑。

上述技术方案的技术效果之三是：通过图像识别分析模块包括文本信息提取模块、分词模块，抽取了H5网页的信息，可以对H5网页类涉诈APP进行识别与检测。

上述技术方案的技术效果之四是：自动化测试框架，能够批量的测试APP。

上述技术方案的技术效果之五是：用白名单正版APP签名证书排除正规的软件，获得第二级疑似涉诈APP，可以大幅度降低需要获得APP运行的界面图像的工作量，加快检测工作。

上述技术方案的技术效果之六是：通过网络服务器更新TF-IDF特征词典，可以获得最新的特征词典，反诈监测模块可以实时针对最新的关键词汇。

上述技术方案的技术效果之七是：通过网络服务器更新白名单正版APP签名证书特征，可以及时排除正规的金融机构的APP。

附图说明

图1是一种涉诈APP检测***示意框图；

图2是包括Appium自动化测试框架的示意框图；

图3是反诈监测模块内部模块的示意框图；

图4是屏幕信息监控模块内部模块的示意图；

图5是图像识别分析模块内部模块的示意图

图6是特征数据信息监控模块内部模块的示意图

图7是一种涉诈APP检测方法流程示意图；

图8是确定第一级与第二级疑似涉诈APP流程示意图；

图9是截屏信息监控分析的流程示意图；

图10是TF-IDF算法的流程示意图。

具体实施方式

以下结合各附图对本申请内容做进一步详述。

需要说明的是，以下是本发明较佳实施例的说明，并不对本发明构成任何限制。本发明较佳实施例的说明只是作为本发明一般原理的说明。本申请中所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”，以及以***数字1、2、3等数字编号的技术特征，以及“A”“B”这样的编号，仅用于描述目的，只是为了说明的方便，并不代表时间或空间上的顺序关系；不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、以及以***数字1、2、3等数字编号的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“若干”的含义是两个或两个以上，除非另有明确具体的限定。

如图1，一种涉诈APP检测***，用于检测运行在智能设备上应用APP是否涉诈，包括：如图3，反诈监测模块包括：特征数据信息监控模块、屏幕信息监控模块、结果输出模块；

特征数据信息监控模块根据AndroidManifest信息和/或应用名称签名证书，找出第一级疑似涉诈APP；第一级疑似涉诈APP与白名单正版APP签名证书对比分析，确定第二级疑似涉诈APP；找出第一级疑似涉诈APP可以是通过设定关键词筛选找出。

屏幕信息监控模块对运行的第二级疑似涉诈APP截屏，获得APP运行的界面图像，对所述界面图像进行图像识别，提取文本信息，对所述文本信息进行分析，得出APP涉诈的可能性高低值；

结果输出模块输出涉诈的可能性高的APP清单。

经过图像识别后，获得APP运行界面的文字信息后，可以用多种方法来判断这些文字信息中，是否涉及引诱用户“贷款”，“借贷”的行为，比如采用“神经网络算法”“人工智能算法”等等，这些算法计算出来的结果，都是以可能性呈现，比如0~100%的可能性，对于可能性较高，比如高于80%，输出清单，由人工进行判别。

因为运行APP，获得APP的运行界面，需要的时间长，计算量大，不可能短时间将所有的APP进行测试，采用先用关键字，找出第一级疑似涉诈APP，通过白名单正版APP签名证书排除正规金融机构APP，大幅度地降低了需要图像识别处理来识别的APP数量，大幅度地提高了工作效率。

反诈监测模块可以是智能设备内嵌的软件模块，也可以是智能设备后期安装的应用APP，反诈监测模块运行的***权限较高，能够获得其它APP的信息和在其它APP运行时截取其他软件的运行界面。

也可以通过aapt工具获取待检测样本的AndroidManifest信息、应用名称，可以通过Keytool工具获取待检测样本的签名证书，***通过“aapt dump xmltree xxx.apkAndroidManifest.xml”命令，从待检查APK中获取AndroidManifest.xml信息。

***通过“aapt dump bading xxx.apk”命令，从待检查APK中获取应用名称信息（“application-label”）。

***通过“keytool -printcert -jarfile d:\18r8i6ic.apk”命令，从待检查APK中获取签名证书信息，包括所有者、生效开始时间、生效结束时间、学列号等。

基于AndroidManifest匹配规则特征库、应用名称匹配规则特征库、被仿冒企业APP原版数字证书特征库，比对待检测样本的AndroidManifest信息、应用名称信息筛选第一级涉诈APP样本。

安全专家梳理常见被仿冒企业的原版APP证书信息，录入到“被仿冒企业APP原版数字证书特征库”形成白名单样本。

***基于AndroidManifest匹配规则特征库、应用名称匹配规则特征库、被仿冒企业APP原版数字证书特征库，比对待检测样本的AndroidManifest信息、应用名称信息、签名证书信息，筛选疑似涉诈APP样本。其中，AndroidManifest信息采用关键字匹配，应用名称先过滤标点符号/特殊字符后（现网涉诈APP存在此类混入标点符号或特殊字符的情况，比如“京.东.金.条”）再采用正则表达式匹配，签名证书采用序列号匹配。如果待检测样本，同时命中了AndroidManifest匹配和应用名称匹配规则；然后对应的签名证书不存在于被仿冒企业APP原版数字证书特征库中，确定第二级疑似涉诈APP。

如图2，还包括Appium自动化测试框架，所述应用APP运行在所述Appium自动化测试框架中，反诈监测模块根据输入测试列表，对2个以上的应用APP进行测试。采用Appium自动化测试框架，可以对很多APP进行自动化启动运行，能够批量的测试APP，这种模式，可以应用在专门的涉诈检测工具上。自动化测试框架可以选用多种，能够自动驱动APP运行的测试软件，都可以选用。

通过对AndroidManifest信息和/或应用名称初步筛选出第一级疑似涉诈APP；用白名单正版APP签名证书对比过滤，除正规的软件，获得第二级疑似涉诈APP，可以大幅度降低需要获得APP运行的界面图像的工作量，加快检测工作，文本信息进行分析算法有多种选择，包括TF-IDF、WORD2VEC或/和BERT。

如图4，屏幕信息监控模块包括截屏模块、图像识别分析模块，截屏模块对运行中的APP进行界面录制或截取，图像识别分析模块对获得的APP界面图像进行图像识别，截屏模块输出提示信息，可以是跳出窗口或固定或浮动的控制按钮，让用户手动操作屏幕截取。

如果运行在用户的手机等智能设备上，要截屏，需要获得较高的权限，在截屏的时候，可以给出提示信息，提示用户，当前正在截取屏幕，或者跳出窗口，让用户手动操作截屏。通过用户允许或用户手动操作，反诈监测模块可以直接安装在用户手机或智能设备中。

如图5，图像识别分析模块包括文本信息提取模块、分词模块、涉诈网页TF-IDF特征词典模块、TF-IDF向量计算模块、分类机器学习模块；文本信息提取模块对图像识别后的信息进行处理，获得文本信息；分词模块对所述文本信息进行处理，获得词组；TF-IDF向量计算模块根据涉诈网页TF-IDF特征词典对所述词组进行TF-IDF向量计算，获得词组TF-IDF向量；分类机器学习模块对获得的词组TF-IDF向量进行处理，得出APP涉诈的可能性高低值。

如图5，涉诈网页TF-IDF特征词典模块通过网络服务器更新TF-IDF特征词典。

通过网络服务器更新TF-IDF特征词典，可以获得最新的特征词典，反诈监测模块可以实时针对最新的关键词汇。

如图6，所述特征数据信息监控模块包括待测样本信息提取模块、白名单正版APP签名证书特征对比模块。

如图6，所述白名单正版APP签名证书特征对比模块通过网络服务器更新白名单数字证书特征。

通过网络服务器更新白名单正版APP签名证书特征，可以排除正规的金融机构的APP。

如图7，一种涉诈APP检测方法，用于检测运行在智能设备上应用APP是否涉诈，包括：

步骤100：根据AndroidManifest信息、应用名称和/或签名证书，找出第一级疑似涉诈APP，第一级疑似涉诈APP与白名单对比分析，确定第二级疑似涉诈APP；

步骤200：运行第二级疑似涉诈APP，进行截屏，获得APP运行的界面图像，对所述界面图像进行图像识别，提取文本信息，对所述文本信息进行分析，得出APP涉诈的可能性高低值，输出涉诈的可能性高的APP清单。

如图8，步骤100包括：

步骤110：获取待检测样本的AndroidManifest信息和/或应用名称；

如图9，所述步骤200包括：

步骤210：对运行的APP截屏，获得APP运行的界面图像；

步骤220：对所述界面图像进行图像识别，提取文本信息；

步骤230：对所述文本信息进行分词得到词组，对词组进行分析计算，得出APP涉诈的可能性高低值，所述分析计算的算法包括TF-IDF、WORD2VEC或/和BERT。

步骤230包括：

步骤233：输出涉诈的可能性高的APP清单。

符号说明：

文档集：D={d1,d2,d3,..,dn}

nw,d：词w在文档d中出现的次数

{wd}：文档d中的所有词的集合

nw：包含词w的文档数目

步骤231中，词频 TF的计算公式如下

逆文档频率IDF计算公式

TF-IDF的计算公式为

步骤232中，基于已训练好的涉诈网页文本分类机器学习模型（采用的是linearSVC线性分类支持向量机【Support Vector Machine, SVM】监督学习算法），以截图文本TF-IDF向量为输入，研判待检测样本是否涉诈APP以及对应的类型。

TF-IDF向量作为输入，经过分类机器学习模型进行计算分类，可以获得样本涉诈的可能性程度，对于大于设定值的，输出涉诈APP列表，由人工做最后的判定。

一种可读存储介质，其上存储有计算机程序，该程序被处理器执行上述方法。

本发明虽然根据优选实施例和若干备选方案进行说明和描述，但发明不会被在本说明书中的特定描述所限制。其他另外的替代或等同组件也可以用于实践本发明。

Claims

1.一种涉诈APP检测***，用于检测运行在智能设备上应用APP是否涉诈，其特征在于包括：反诈监测模块，反诈监测模块包括：特征数据信息监控模块、屏幕信息监控模块、结果输出模块；

特征数据信息监控模块根据AndroidManifest信息和/或应用名称，找出第一级疑似涉诈APP；第一级疑似涉诈APP与白名单的正版APP签名证书对比过滤，确定第二级疑似涉诈APP；

结果输出模块输出涉诈的可能性高的APP清单。

2.根据权利要求1所述的涉诈APP检测***，其特征在于，还包括自动化测试框架，所述应用APP运行在所述自动化测试框架中，反诈监测模块根据输入测试列表，对2个以上的应用APP进行测试；所述找出第一级疑似涉诈APP通过设定关键词筛选应用名称找出；第一级疑似涉诈APP与白名单的正版APP签名证书对比过滤，确定第二级疑似涉诈APP；所述文本信息进行分析算法包括TF-IDF、WORD2VEC或/和BERT。

3.根据权利要求1所述的涉诈APP检测***，其特征在于，所述屏幕信息监控模块包括截屏模块、图像识别分析模块，截屏模块对运行中的APP进行界面录制或截取，图像识别分析模块对获得的APP界面图像进行图像识别，截屏模块输出提示信息，让用户手动操作屏幕截取。

4.根据权利要求3所述的涉诈APP检测***，其特征在于，所述图像识别分析模块包括文本信息提取模块、分词模块、涉诈网页TF-IDF特征词典模块、TF-IDF向量计算模块、分类机器学习模块；文本信息提取模块对图像识别后的信息进行处理，获得文本信息；分词模块对所述文本信息进行处理，获得词组；TF-IDF向量计算模块根据涉诈网页TF-IDF特征词典对所述词组进行TF-IDF向量计算，获得词组TF-IDF向量；分类机器学习模块对获得的词组TF-IDF向量进行处理，得出APP涉诈的可能性高低值。

5.根据权利要求4所述的涉诈APP检测***，其特征在于，所述涉诈网页TF-IDF特征词典模块通过网络服务器更新TF-IDF特征词典。

6.根据权利要求3所述的涉诈APP检测***，其特征在于，所述特征数据信息监控模块包括待测样本信息提取模块、白名单正版APP签名证书特征对比模块。

7.根据权利要求6所述的涉诈APP检测***，其特征在于，所述白名单正版APP签名证书特征对比模块通过网络服务器更新白名单正版APP签名证书特征。

8.一种涉诈APP检测方法，用于检测运行在智能设备上应用APP是否涉诈，其特征在于包括：

步骤100：根据AndroidManifest信息和/或应用名称，找出第一级疑似涉诈APP；第一级疑似涉诈APP与白名单正版APP签名证书对比过滤，确定第二级疑似涉诈APP；

步骤200：运行第二级疑似涉诈APP，进行截屏，获得APP运行的界面图像，对所述界面图像进行图像识别，提取文本信息，对所述文本信息进行分析，得出APP涉诈的可能性高低值。

9.根据权利要求8所述的涉诈APP检测方法，其特征在于，所述步骤100包括：

步骤110：获取待检测样本的AndroidManifest信息和/或应用名称；

10.根据权利要求8所述的涉诈APP检测方法，其特征在于，所述步骤200包括：

步骤210：对运行的APP截屏，获得APP运行的界面图像；

步骤220：对所述界面图像进行图像识别，提取文本信息；

11.根据权利要求10所述的涉诈APP检测方法，其特征在于，所述步骤230包括：

步骤231：根据涉诈网页TF-IDF特征词典，对所述词组进行TF-IDF向量计算，获得词组TF-IDF向量；

步骤233：输出涉诈的可能性高的APP清单。

12.一种可读存储介质，其上存储有计算机程序，其特征在于，

该程序被处理器执行时实现如权利要求8至11任意一项所述的涉诈APP检测方法。