CN117591119B - 一种海量apk源码特征提取及相似分析方法 - Google Patents

一种海量apk源码特征提取及相似分析方法 Download PDF

Info

Publication number
CN117591119B
CN117591119B CN202311441226.0A CN202311441226A CN117591119B CN 117591119 B CN117591119 B CN 117591119B CN 202311441226 A CN202311441226 A CN 202311441226A CN 117591119 B CN117591119 B CN 117591119B
Authority
CN
China
Prior art keywords
similarity
source code
apk
file
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311441226.0A
Other languages
English (en)
Other versions
CN117591119A (zh
Inventor
段东圣
侯炜
张露晨
佟玲玲
段运强
秦韬
李美燕
任博雅
鲁睿
张林波
孙旷怡
陈新兴
张绪川
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202311441226.0A priority Critical patent/CN117591119B/zh
Publication of CN117591119A publication Critical patent/CN117591119A/zh
Application granted granted Critical
Publication of CN117591119B publication Critical patent/CN117591119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/53Decompilation; Disassembly
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Stored Programmes (AREA)

Abstract

本发明涉及软件检测技术领域,公开了一种海量APK源码特征提取及相似分析方法,首先输入两个APK文件,通过源码解析反编译方法提取到APK包的AndroidManifest文件、本地化语言配置文件,提取到SMALI或JAVA源代码;再通过包名索引、启动类索引、固定目录识别方式,识别APK核心源码目录、第三方包目录、***资源目录,并生成源码树;再对核心源码目录中的文件进行分析,计算文件HASH,提取源码文件中字符串类声明特征表示作为加权特征;计算拟进行分析的两棵源码树结构的相似度情况,根据源码目录的类型对进行不同程度的相似度加权。本发明降低分析资源投入和时间消耗,提升源码相似分析的准确度,能够实现在大规模APK数据分析场景的高性能分析。

Description

一种海量APK源码特征提取及相似分析方法
技术领域
本发明涉及软件检测技术领域,具体为一种海量APK源码特征提取及相似分析方法。
背景技术
在APK(Android应用程序包文件)源码相似分析技术领域,近年来取得了显著的发展。具体包含以下几方面:
一、代码比对算法:开发了更加高效和准确的代码比对算法,用于比较和分析APK源码之间的相似性。这些算法能够识别不同版本的应用程序之间的差异,并识别重用的代码片段。(这个能否增加引用来源,论文或专利,下同)
二、代码克隆检测:克隆检测技术可以识别APK源码中的克隆代码片段,即重复的代码。这对于代码维护和重构非常重要,可以帮助开发人员减少重复劳动和改进代码质量。
三、特征提取和表示:研究人员已经提出了不同的特征提取和表示方法,用于捕捉APK源码中的相似特征。例如,使用AST(抽象语法树)表示代码结构,使用TF-IDF(词频-逆文档频率)表示代码中的关键字。
四、机器学习和深度学习:机器学习和深度学习技术被应用于APK源码相似分析中,以改进相似性匹配和检测的准确性。例如,可以使用卷积神经网络(CNN)或循环神经网络(RNN)来学习APK源码的表示和相似性。
现有相关技术:
根据程序源代码生成JSON格式的抽象语法树,然后根据抽象语法树中的词汇将抽象语法树映射成空间向量,最后,根据余弦相似度计算方法和所述空间向量,计算出用于表征源代码相似性的余弦相似度,从而能协助开发团队识别重复或相似逻辑的源代码,为代码重构、业务合并等场景的实施提供判断依据。
1)目前主要的APP源码相似分析算法一般通过AndroidManifest文件内容和源代码diff算法分析APP包及源码的相似度,通过反编译获取到APP所有的源码文件,遍历每一个源码文件通过diff算法逐行比对,也会对上下文内容进行关联识别,因此在这个过程中运算所占用计算资源较高、效率较慢,基于该相似分析的算法普遍适用于Git、SVN等内容管理场景,不适用海量APP分析场景。
2)当前主流的源代码相似度分析技术多为针对两个源代码文件的内容相似程度的对比,在实际业务应用中缺乏在海量APP中的便捷适用的条件。目前大多的源代码相似分析技术面向的主体都是两个源码文件,而APP本身是大量源码素材文件的组合包,因此主流的针对源代码相似分析的技术在该场景下难以直接便捷的运用;并且在APK包的相似分析过程中,由于加壳、混淆等技术会导致APP源码的文件命名、变量命名、业务逻辑产生变化,同一份源码经加壳、混淆输出后内容会发生变化,在通过逆向、脱壳等技术处理后较难还原到最原始状态,因此针对源码的相似分析技术,难以保证APP相似度分析结果输出的稳定性。针对上述问题,所以需要一种海量APK源码特征提取及相似分析方法。
发明内容
本发明的目的在于提供一种海量APK源码特征提取及相似分析方法。本发明通过提取APK的Manifest文件、构建APK包的目录结构及源码文件图谱,通过构建多维度对比算法,优化分析过程、增加特定项权重,降低分析资源投入和时间消耗,提升源码相似分析的准确度,能够实现在大规模APK数据分析场景的高性能分析。
本发明是这样实现的:
本发明提供一种海量APK源码特征提取及相似分析方法,具体按以下步骤执行:
S1:首先输入两个APK文件,通过源码解析反编译方法提取到APK包的AndroidManifest文件、本地化语言配置文件,提取到SMALI或JAVA源代码;通过源码解析反编译方法提取到APK包的AndroidManifest文件首先通过apktool、jadx现有APK解析工具对APK进行反编译,若在反编译过程中出现异常,则通过压缩包解压再基于安卓包体结构规范分析的方式对APK信息进行提取,最终输出反编译到smal i源码,并获取到AndroidManifest文件。
S2:通过包名索引、启动类索引、固定目录识别方式,识别APK核心源码目录、第三方包目录、***资源目录,并生成源码树;基于Android Studio主流IDE默认和社区共识的源码文件组织方式进行汇总构建目录特征集;通过包名和启动类结构逐层分析核心代码文件目录,通过包名的命名方式和启动类所在位置,分析核心代码目录;
S3:对核心源码目录中的文件进行分析,计算文件HASH,提取源码文件中字符串类声明特征表示作为加权特征;AndroidManifest文件包括APP名称、包名、权限、属性、服务声明,在步骤S3中,具体按以下步骤执行:
S3.1:首先,将输入的配置文件进行分词,将其按照属性或命名分割成一个个的词汇单元,并将不具备特定含义的符号或文字进行过滤;
S3.2:对于每个词汇单元,计算其哈希值,并将其与一个权重值相乘,权重值根据词汇的重要性或频率进行设置,进行特征提取;
S3.3:将每个词汇单元的特征向量进行合并,使用一个固定长度的向量来表示整个文本进行特征合并;
S3.4:计算SimHash:将合并后的特征向量进行加权汇总,对于每个特征向量的对应位置,如果该位置上的值大于0,则将其设为1;否则,将其设为-1,最终得到一个二进制的SimHash值;
S3.5:对比SIMHASH,比较不同文本的SimHash值,使用汉明距离来度量两个SimHash值的相似度。
其中源码的特征通过获取smal i或java源码中的变量和属性,基于获取变量的命名、类型、出现频次等三元素信息,汇总形成当前源码文件的特征表示词集。
针对源码特征表示的相似计算方法通过对比变量交集覆盖程度,并且计算变量出现频次和类型的一致性,若变量交集超过阈值70%,则认为当前源码特征表示为相似。
S4:计算拟进行分析的两棵源码树结构的相似度情况,根据源码目录的类型对进行不同程度的相似度加权,其中核心源码目录相似的权重+2、第三方包目录+1、***资源目录0;
S5:计算每棵树的末端节点源码文件,源码文件HASH一致的权重+2,源码文件特征表示相似的权重+1;具体按以下步骤执行:
S5.1:首先计算每棵树的末端节点源码文件的节点相似度权重;
S5.2:判断文件HASH是否相同,是则权重+2,否则权重+0;
S5.3:再判断文件特征表示是否相似,是则权重+1,否则权重+0;
S5.4:输出权重。
S6:计算两棵树的相似度情况,按照双向对比取平均数,生成源码树相似度,具体通过计算A树在B树中的覆盖率得出s1、计算B树在A树中的覆盖率得出s2,最后通过(s1+s2)/2计算输出目录结构相似度S,如式(1);
S7:通过SimHash算法分析的两个APP的AndroidManifest、本地化语言配置的相似程度,通过计算汉明距离输出相似度比例,如输入的两个APP为A和B,则AndroidManifest文件用C(Config)表示,即Ca和Cb,本地化语言配置用L(Language)表示,即La、Lb,通过对两个APP的AndroidManifest和语言配置文件计算,输出相似性属性SC和SL;如式(2)-式(3);
SC=similarity(simhash(Ca),simhash(Cb)) 式(2)
SL=similarity(simhash(La),simhash(Lb)) 式(3)
S8:最后将树结构相似度、AndroidManifest相似度、本地化语言配置相似度三个数据,按照比例x:y:z加权求和计算输出相似度,x、y、z是树结构相似度、AndroidManifest相似度、本地化语言配置相似度三项相似度的权重系数,该三个系数的设置应当依据三类相似度结果在最终的相似度计算过程中的重要度和参与度进行设定。通过加权求和计算最终的APP相似度S;如式(4);
进一步,本发明提供一种计算机可读存储介质,存储介质存储有计算机程序,所述计算机程序被主控制器执行时实现如上述中的任一项所述的方法。
与现有技术相比,本发明的有益效果是:
1、本发明通过提取APK的Manifest文件、构建APK包的目录结构及源码文件图谱,通过构建多维度对比算法,优化分析过程、增加特定项权重,降低分析资源投入和时间消耗,提升源码相似分析的准确度,能够实现在大规模APK数据分析场景的高性能分析。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还根据这些附图获得其他相关的附图。
图1是本发明的方法流程图;
图2是本发明的计算每棵树的末端节点的流程图;
图3是本发明的获取当前源码文件的变量名、类型、出现频次的代码操作图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1-3,一种海量APK源码特征提取及相似分析方法,S1:首先输入两个APK文件,通过源码解析反编译方法提取到APK包的AndroidManifest文件、本地化语言配置文件,提取到SMALI或JAVA源代码;通过源码解析反编译方法提取到APK包的AndroidManifest文件首先通过apktool、jadx现有APK解析工具对APK进行反编译,若在反编译过程中出现异常,则通过压缩包解压再基于安卓包体结构规范分析的方式对APK信息进行提取,最终输出反编译到smali源码,并获取到AndroidManifest文件。
S2:通过包名索引、启动类索引、固定目录识别方式,识别APK核心源码目录、第三方包目录、***资源目录,并生成源码树;基于Android Studio主流IDE默认和社区共识的源码文件组织方式进行汇总构建目录特征集;通过包名和启动类结构逐层分析核心代码文件目录,通过包名的命名方式和启动类所在位置,分析核心代码目录;
S3:对核心源码目录中的文件进行分析,计算文件HASH,提取源码文件中字符串类声明特征表示作为加权特征;AndroidManifest文件包括APP名称、包名、权限、属性、服务声明,在步骤S3中,具体按以下步骤执行:
S3.1:首先,将输入的配置文件进行分词,将其按照属性或命名分割成一个个的词汇单元,并将不具备特定含义的符号或文字进行过滤;
S3.2:对于每个词汇单元,计算其哈希值,并将其与一个权重值相乘,权重值根据词汇的重要性或频率进行设置,进行特征提取;
S3.3:将每个词汇单元的特征向量进行合并,使用一个固定长度的向量来表示整个文本进行特征合并;
S3.4:计算SimHash:将合并后的特征向量进行加权汇总,对于每个特征向量的对应位置,如果该位置上的值大于0,则将其设为1;否则,将其设为-1,最终得到一个二进制的SimHash值;
S3.5:对比SIMHASH,比较不同文本的SimHash值,使用汉明距离来度量两个SimHash值的相似度。
其中源码的特征通过获取smali或java源码中的变量和属性,基于获取变量的命名、类型、出现频次等三元素信息,汇总形成当前源码文件的特征表示词集。特征表示数据样例如表1:
表1特征表示数据样例
针对源码特征表示的相似计算方法通过对比变量交集覆盖程度,并且计算变量出现频次和类型的一致性,若变量交集超过阈值70%,则认为当前源码特征表示为相似。
S4:计算拟进行分析的两棵源码树结构的相似度情况,根据源码目录的类型对进行不同程度的相似度加权,其中核心源码目录相似的权重+2、第三方包目录+1、***资源目录0;
S5:计算每棵树的末端节点源码文件,源码文件HASH一致的权重+2,源码文件特征表示相似的权重+1;具体按以下步骤执行:
S5.1:首先计算每棵树的末端节点源码文件的节点相似度权重;
S5.2:判断文件HASH是否相同,是则权重+2,否则权重+0;
S5.3:再判断文件特征表示是否相似,是则权重+1,否则权重+0;
S5.4:输出权重。
S6:计算两棵树的相似度情况,按照双向对比取平均数,生成源码树相似度,具体通过计算A树在B树中的覆盖率得出s1、计算B树在A树中的覆盖率得出s2,最后通过(s1+s2)/2计算输出目录结构相似度S,如式(1);
S7:通过SimHash算法分析的两个APP的AndroidManifest、本地化语言配置的相似程度,通过计算汉明距离输出相似度比例,如输入的两个APP为A和B,则AndroidManifest文件用C(Config)表示,即Ca和Cb,本地化语言配置用L(Language)表示,即La、Lb,通过对两个APP的AndroidManifest和语言配置文件计算,输出相似性属性SC和SL;如式(2)-式(3);
SC=similarity(simhash(Ca),simhash(Cb)) 式(2)
SL=similarity(simhash(La),simhash(Lb)) 式(3)
S8:最后将树结构相似度、AndroidManifest相似度、本地化语言配置相似度三个数据,按照比例x:y:z加权求和计算输出相似度,x、y、z是树结构相似度、AndroidManifest相似度、本地化语言配置相似度三项相似度的权重系数,该三个系数的设置应当依据三类相似度结果在最终的相似度计算过程中的重要度和参与度进行设定。通过加权求和计算最终的APP相似度S;如式(4);
本实施例中,本发明提供一种计算机可读存储介质,存储介质存储有计算机程序,所述计算机程序被主控制器执行时实现如上述中的任一项所述的方法。
以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种海量APK源码特征提取及相似分析方法,其特征在于:具体按以下步骤执行:
S1:首先输入两个APK文件,通过源码解析反编译方法提取到APK包的AndroidManifest文件和本地化语言配置文件,提取到SMALI或JAVA源代码;
S2:通过包名索引、启动类索引和固定目录识别方式,识别APK核心源码目录、第三方包目录和***资源目录,并生成源码树;
S3:对核心源码目录中的文件进行分析,计算文件HASH,提取源码文件中字符串类声明特征表示作为加权特征;
S4:计算拟进行分析的两棵源码树结构的相似度情况,根据源码目录的类型进行不同程度的相似度加权,其中核心源码目录相似的权重+2、第三方包目录+1、***资源目录0;
S5:计算每棵树的末端节点源码文件,源码文件HASH一致的权重+2,源码文件特征表示相似的权重+1;
S6:计算两棵树的相似度情况,按照双向对比取平均数,生成源码树相似度,具体通过计算A树在B树中的覆盖率得出s1、计算B树在A树中的覆盖率得出s2,最后通过(s1+s2)/2计算输出树结构相似度ST,如式(1);
S7:通过SimHash算法分析的两个APP的AndroidManifestH和本地化语言配置的相似程度,通过计算汉明距离输出相似度比例,输出相似性属性SC和SL;如式(2)-式(3);
SC=similarity(simhash(Ca),simhash(Cb)) 式(2)
SL=similarity(simhash(La),simhash(Lb)) 式(3)
S8:最后将树结构相似度、AndroidManifest相似度、本地化语言配置相似度三个数据,按照比例x:y:z加权求和计算输出相似度、x、y、z是树结构相似度和AndroidManifest相似度、本地化语言配置相似度三项相似度的权重系数,通过加权求和计算最终的APP相似度S;如式(4);
2.根据权利要求1所述的一种海量APK源码特征提取及相似分析方法,其特征在于,在步骤S5中,具体按以下步骤执行:
S5.1:首先计算每棵树的末端节点源码文件的节点相似度权重;
S5.2:判断文件HASH是否相同,是则权重+2,否则权重+0;
S5.3:再判断文件特征表示是否相似,是则权重+1,否则权重+0;
S5.4:输出权重。
3.根据权利要求1所述的一种海量APK源码特征提取及相似分析方法,其特征在于,在步骤S1中,通过源码解析反编译方法提取到APK包的AndroidManifest文件首先通过apktool和jadx现有APK解析工具对APK进行反编译,若在反编译过程中出现异常,则通过压缩包解压再基于安卓包体结构规范分析的方式对APK信息进行提取,最终输出反编译到smali源码,并获取到AndroidManifest文件。
4.根据权利要求1所述的一种海量APK源码特征提取及相似分析方法,其特征在于,在步骤S2中,基于Android Studio主流IDE默认和社区共识的源码文件组织方式进行汇总构建目录特征集;通过包名和启动类结构逐层分析核心代码文件目录,通过包名的命名方式和启动类所在位置,分析核心代码目录。
5.根据权利要求1所述的一种海量APK源码特征提取及相似分析方法,其特征在于,AndroidManifest文件包括APP名称、包名、权限、属性和服务声明,在步骤S3中,具体按以下步骤执行:
S3.1:首先,将输入的配置文件进行分词,将其按照属性或命名分割成一个个的词汇单元,并将不具备特定含义的符号或文字进行过滤;
S3.2:对于每个词汇单元,计算其哈希值,并将其与一个权重值相乘,权重值根据词汇的重要性或频率进行设置,进行特征提取;
S3.3:将每个词汇单元的特征向量进行合并,使用一个固定长度的向量来表示整个文本进行特征合并;
S3.4:计算SimHash:将合并后的特征向量进行加权汇总,对于每个特征向量的对应位置,如果该位置上的值大于0,则将其设为1;否则,将其设为-1,最终得到一个二进制的SimHash值;
S3.5:对比SIMHASH,比较不同文本的SimHash值,使用汉明距离来度量两个SimHash值的相似度。
6.根据权利要求1所述的一种海量APK源码特征提取及相似分析方法,其特征在于,其中源码的特征通过获取smal i或java源码中的变量和属性,基于获取变量的命名、类型和出现频次三元素信息,汇总形成当前源码文件的特征表示词集。
7.根据权利要求6所述的一种海量APK源码特征提取及相似分析方法,其特征在于,针对源码特征表示的相似计算方法通过对比变量交集覆盖程度,并且计算变量出现频次和类型的一致性,若变量交集超过阈值70%,则认为当前源码特征表示为相似。
8.一种计算机可读存储介质,存储介质存储有计算机程序,其特征在于,所述计算机程序被主控制器执行时实现如上述权利要求1-7中的任一项所述的方法。
CN202311441226.0A 2023-11-01 2023-11-01 一种海量apk源码特征提取及相似分析方法 Active CN117591119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311441226.0A CN117591119B (zh) 2023-11-01 2023-11-01 一种海量apk源码特征提取及相似分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311441226.0A CN117591119B (zh) 2023-11-01 2023-11-01 一种海量apk源码特征提取及相似分析方法

Publications (2)

Publication Number Publication Date
CN117591119A CN117591119A (zh) 2024-02-23
CN117591119B true CN117591119B (zh) 2024-05-31

Family

ID=89909022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311441226.0A Active CN117591119B (zh) 2023-11-01 2023-11-01 一种海量apk源码特征提取及相似分析方法

Country Status (1)

Country Link
CN (1) CN117591119B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445834A (zh) * 2018-10-30 2019-03-08 北京计算机技术及应用研究所 基于抽象语法树的程序代码相似性快速比较方法
CN109800575A (zh) * 2018-12-06 2019-05-24 成都网安科技发展有限公司 一种Android应用程序的安全检测方法
CN110034921A (zh) * 2019-04-18 2019-07-19 成都信息工程大学 基于带权模糊hash的webshell检测方法
CN114995880A (zh) * 2022-05-23 2022-09-02 北京计算机技术及应用研究所 一种基于SimHash的二进制代码相似性比对方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445834A (zh) * 2018-10-30 2019-03-08 北京计算机技术及应用研究所 基于抽象语法树的程序代码相似性快速比较方法
CN109800575A (zh) * 2018-12-06 2019-05-24 成都网安科技发展有限公司 一种Android应用程序的安全检测方法
CN110034921A (zh) * 2019-04-18 2019-07-19 成都信息工程大学 基于带权模糊hash的webshell检测方法
CN114995880A (zh) * 2022-05-23 2022-09-02 北京计算机技术及应用研究所 一种基于SimHash的二进制代码相似性比对方法

Also Published As

Publication number Publication date
CN117591119A (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
US9003529B2 (en) Apparatus and method for identifying related code variants in binaries
US7076486B2 (en) Method and system for efficiently identifying differences between large files
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及***
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN116775497B (zh) 数据库测试用例生成需求描述编码方法
CN105260387A (zh) 一种面向海量事务数据库的关联规则分析方法
CN114817243A (zh) 数据库联合索引的建立方法、装置、设备及存储介质
CN109067708A (zh) 一种网页后门的检测方法、装置、设备及存储介质
CN109977977A (zh) 一种识别***的方法及对应装置
CN117591119B (zh) 一种海量apk源码特征提取及相似分析方法
CN110990834B (zh) 一种android恶意软件的静态检测方法、***及介质
CN107622201B (zh) 一种抗加固的Android平台克隆应用程序快速检测方法
CN113886520B (zh) 一种基于图神经网络的代码检索方法、***及计算机可读存储介质
CN116206239A (zh) 视频特征提取网络训练方法、装置、电子设备及存储介质
CN115794105A (zh) 一种微服务的提取方法、装置以及电子设备
CN116991412A (zh) 代码处理方法、装置、电子设备及存储介质
CN114297046A (zh) 基于日志的事件获取方法、装置、设备及介质
CN114118058A (zh) 基于句法特征和注意力机制相融合的情感分析***及方法
CN110334067B (zh) 一种稀疏矩阵压缩方法、装置、设备及存储介质
Neznanov et al. Analyzing Social Networks Services Using Formal Concept Analysis Research Toolbox.
CN117725555B (zh) 多源知识树的关联融合方法、装置、电子设备及存储介质
Grace et al. Efficiency calculation of mined web navigational patterns
CN117272123B (zh) 一种基于大模型的敏感数据处理方法、装置及存储介质
Zhang et al. C4. 5 Algorithm Based on the Sample Selection and Cosine Similarity
JP6783741B2 (ja) 距離測定装置、通信システム、作成装置及び距離測定プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant