CN114638303A - 一种应用软件组的获取方法、电子设备及可读存储介质 - Google Patents
一种应用软件组的获取方法、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN114638303A CN114638303A CN202210265568.0A CN202210265568A CN114638303A CN 114638303 A CN114638303 A CN 114638303A CN 202210265568 A CN202210265568 A CN 202210265568A CN 114638303 A CN114638303 A CN 114638303A
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- similarity
- list
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种应用软件组的获取方法、电子设备及可读存储介质,所述方法包括如下步骤:通过建立目标关系对的相似度列表且基于所述目标关系对的相似度列表,从所述目标关系对的相似度列表中目标阈值区间,并遍历所述目标关系对的相似度列表且当所述目标关系对的相似度列表中任一目标关系对相似度,将目标关系对的APK对应的应用软件,构建成应用软件组,本发明能够基于APK确定出异常APP,便于APP的归类,进而避免负面效果的发生,提高用户的使用安全性。
Description
技术领域
本发明涉及APK文件技术领域,特别涉及一种应用软件组的获取方法、电子设备及可读存储介质。
背景技术
随着电子产品的普及,大部分户端会安装了大量的APP便于生活或者工作等场景的使用,在安装APP时必然会下载安卓安装包(AndroidPackage,简称APK)。
当前,现有的APP分为多种类型,其中,缺少用于对用户产生负面效果的异常类型APP,例如,产生泄漏用户信息的APP或者恶意传播异常信息的APP等,现有的技术中对于APP类型大多数是基于用户使用后出现负面效果进行确定,无法避免负面效果的发生,影响到用户的使用安全,同时也无法对相同类型的APP进行归类,便于区别出异常类型APP,进而避免负面效果的发生,
同时,现有技术中无法APK将APP进行归类,进而确定出异常类型APP,避免负面效果的发生。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种应用软件组的获取方法、电子设备及可读存储介质,所述技术方案如下:
一方面,一种应用软件组的获取方法,所述方法包括如下步骤:
建立目标关系对的相似度列表且基于所述目标关系对的相似度列表,确定出阈值区间对应的第一数量列表E=(E1,E2,E3,……,Em),Eg是指相似度处于第g所述阈值区间内的目标关系对数量,g=1……m,m符合如下条件:K为预设的相似度阈值;
其中,所述方法还包括如下步骤建立目标关系对的相似度列表:
根据目标关系对列表,从N个APK文件对应的目标相似度列表中确定出每个目标关系对的相似度值,构建成目标关系对的相似度列表;
Tg符合如下条件:
当Tg≥预设的概率阈值T0时,确定Tg对应的阈值区间为目标阈值区间;
遍历所述目标关系对的相似度列表且当所述目标关系对的相似度列表中任一目标关系对相似度≥所述目标阈值区间中最大端点值时,将目标关系对的APK对应的应用软件,构建成应用软件组。
另一方面,一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述任一项所述应用软件组的获取方法。
另一方面,一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述任一项所述应用软件组的获取方法。
本发明提供的一种应用软件组的获取方法、电子设备及可读存储介质,具有如下技术效果:
本发明通过建立目标关系对的相似度列表且基于所述目标关系对的相似度列表,从所述目标关系对的相似度列表中目标阈值区间,并遍历所述目标关系对的相似度列表且当所述目标关系对的相似度列表中任一目标关系对相似度,将目标关系对的APK对应的应用软件,构建成应用软件组,本发明能够基于APK确定出异常APP,便于APP的归类,进而避免负面效果的发生,提高用户的使用安全性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种APP列表的构建方法的流程示意图;
图2是本发明实施例二提供的一种应用软件组的确定方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
如图1所示,本实施例一提供了一种APP列表的构建方法,所述方法包括如下步骤:
S101、获取APK列表A=(A1,A2,A3,……,AN),Ai是指第i个APK文件,i=2……N,N为APK文件数量。
具体地,所述APK文件是指将APK进行解析处理后生成的文本,本实施例中采取现有的任一解析处理方法,在此不再赘述。
S103、基于Ai,确定出Ai对应的目标特征向量B=(B1,B2,B3,……,BM),Bj是指第j个目标特征值,j=4……M,M为目标特征数量。
具体地,所述方法还包括如下步骤确定B:
对每个Ai进行特征处理,得到Ai对应的特征向量(Ai1,Ai2,Ai3,……,AiS),Aix是指第x个文本特征对应的特征值,x=4……S,S为文本特征数量,本实施例中对Ai的特征处理为现有技术中任一方法,在此不再赘述;
遍历N个Ai对应的特征向量且当Aix对应的第一概率F≥预设的第一概率阈值时,从每个Ai对应的特征向量中删除Aix对应的文本特征,构建出每个Ai对应的第一中间特征向量是指第y个中间特征值,y=4……Z,Z为中间特征数量,其中,F符合如下条件:
遍历N个Ai对应的第一中间特征向量且当目标数量≤预设的特征数量阈值时,是指在N个Ai对应的第一中间特征向量中数量,从每个Ai对应的第一中间特征向量中删除对应的文本特征,构建出每个Ai对应的目标特征向量B,其中,是指在N个Ai对应的第一中间特征向量中数量。
进一步地,所述文本特征的类型至少包括:权限特征、APP名称特征、APK包名特征和证书特征。
在一个具体的实施例中,所述方法还包括如下步骤确定Ai对应的特征向量:
判断任一所述文本特征的类型;
当所述文本特征的类型满足预设的特征类型时,确定所述文本特征对应的特征值为第一特征值,所述第一特征值是指需要进行归一化处理的特征值,优先地,第一特征值可采用现有技术中任一归一化处理,在此不再赘述。
当所述文本特征的类型未满足预设的特征类型时,确定所述文本特征对应的特征值为第二特征值,所述第二特征值是指无需进行归一化处理的特征值;
将所述第一特征值进行归一化处理后,得到所述第三特征值且基于所述第三特征值和所述第二特征值,构建出Ai对应的特征向量。
在一个具体的实施例中,所述方法还包括如下步骤构建每个Ai对应的目标特征向量B:
遍历N个Ai对应的第二中间特征向量且当第二中间特征向量中任一第二中间特征值对应的IV值≥预设的IV阈值时,从每个Ai对应的第二中间特征向量中删除第二中间特征值对应的文本特征,构建每个Ai对应的目标特征向量B。
具体地,所述第一概率阈值和第二概率阈值的范围为90~100%,优先地,所述第一概率阈值和第二概率阈值为90%。
S105、根据Ai对应的目标特征向量B和N-1个中间文件对应的目标特征向量,得到Ai对应的目标相似度列表Ci=(Ci1,Ci2,Ci3,……,CiN-1),Cir是指第r个中间文件对应的相似度值,r=1……N-1,以使得遍历Ci且当Cir≥预设的相似度阈值时,构建Ai对应的APP列表。
具体地,所述中间文件是指在A中除Ai之外的其他任意APK文件。
具体地,所述方法还包括如下步骤确定Cir:
获取第r个中间文件对应的目标特征向量Dr=(Dr1,Dr2,Dr3,……,DrM),Drj是指中间文件中第j个目标特征值且Drj对应的目标特征与Bj对应的目标特征一致;
基于每个Bj和对应的Drj,得到Bj对应的相似度Hrj且第r个中间文件构建出第r个中间文件对应的相似列表Hr=(Hr1,Hr2,Hr3,……,HrM);
根据Hr和Hr对应的权重列表Wr=(Wr1,Wr2,Wr3,……,WrM),得到Cir,其中,Cir符合如下条件:
具体地,所述方法中还包括权限特征对应的相似度的确定方法:
获取每一Ai的权限特征对应的向量修正值列表Vi=(Vi1,Vi2,……,Vis),其中,Vit是指Ai的权限特征中第t个等级对应一个向量修正值,t=1……s,s为Ai的权限特征的修正值等级数量;
根据Vi,得到Ai对应的相似度列表Ki=(Ki1,Ki2,……,KiN-1),从Vi对应的相似度列表中最大相似度值,作为Ai对应的目标相似度。
其中,Kix符合如下条件:
进一步地,Ai中其他文本特征的类型也可以采取权限特征的相同方法进行确定,或者Ai中任一Bj对应的相似度根据文本特征的类型进行确定,,能够根据对应的特征选择对应的相似度计算方法,保证相似度计算的准确性,有利于区别出异常类型APP,进而避免负面效果的发生,提高用户的使用安全性。
本发明获取APK列表且基于APK列表中任一APK,确定出APK对应的目标特征向量,其中,所述方法还包括如下步骤确定目标特征向量:对每个APK进行特征处理,得到APK对应的特征向量,遍历N个APK对应的特征向量且当APK对应的特征向量中任一特征值对应的第一概率不小于预设的第一概率阈值时,从每个APK对应的特征向量中删除此特征值对应的文本特征,构建出每个APK对应的第一中间特征向量,根据APK对应的目标特征向量和N-1个中间文件对应的目标特征向量,得到APK对应的目标相似度列表,以使得遍历目标相似度列表且当任一目标相似度不小于预设的相似度阈值时,构建APK对应的APP列表,能够有利于区别出异常类型APP,进而避免负面效果的发生,提高用户的使用安全性。
实施例二
如图2所示,实施例二还提供了一种应用软件组的确定方法,所述方法包括如下步骤:
S201、建立目标关系对的相似度列表且基于所述目标关系对的相似度列表,确定出阈值区间对应的第一数量列表E=(E1,E2,E3,……,Em),Eg是指相似度处于第g所述阈值区间内的目标关系对数量,g=1……m,m符合如下条件:K为预设的相似度阈值;
其中,所述方法还包括如下步骤建立目标关系对的相似度列表:
根据目标关系对列表,从N个APK文件对应的目标相似度列表中确定出每个目标关系对的相似度值,构建成目标关系对的相似度列表。
具体地,所述目标关系对是指不同APK文件之间建立的关系对。
具体地,所述阈值区间为将阈值范围进行划分生成的区间,其中,每个所述阈值区间的间距相等。
Tg符合如下条件:
S207、当Tg≥预设的概率阈值T0时,确定Tg对应的阈值区间为目标阈值区间。
S209、遍历所述目标关系对的相似度列表且当所述目标关系对的相似度列表中任一目标关系对相似度≥所述目标阈值区间中目标最大端点值时,将目标关系对的APK对应的应用软件,构建成应用软件组,其中,目标最大端点值是指目标阈值区间的两个端点中的目标最大端点值。
具体地,在S201步骤中,APK文件对应的目标相似度列表可以采取实施例一中S101-S105步骤进行获取,在此不再赘述。
本实施例二提供了一种应用软件组的确定方法,能够建立目标关系对的相似度列表且基于所述目标关系对的相似度列表,从所述目标关系对的相似度列表中目标阈值区间,并遍历所述目标关系对的相似度列表且当所述目标关系对的相似度列表中任一目标关系对相似度,将目标关系对的APK对应的应用软件,构建成应用软件组,能够基于APK确定出异常APP,便于APP的归类,进而避免负面效果的发生,提高用户的使用安全性。
本发明的实施例还提供了一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的应用软件组的获取方法。
本发明实施例的计算机设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如tPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MtD和UMPC设备等,例如tPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如tPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
本发明的实施例还提供了一种计算机可读存储介质,所述存储介质可设置于电子设备之中以保存用于实现方法实施例中一种应用软件组的获取方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的应用软件组的获取方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种应用软件组的获取方法,其特征在于,所述方法包括如下步骤:
建立目标关系对的相似度列表且基于所述目标关系对的相似度列表,确定出阈值区间对应的第一数量列表E=(E1,E2,E3,……,Em),Eg是指相似度处于第g所述阈值区间内的目标关系对数量,g=1……m,m符合如下条件:K为预设的相似度阈值;
其中,所述方法还包括如下步骤建立目标关系对的相似度列表:
根据目标关系对列表,从N个APK文件对应的目标相似度列表中确定出每个目标关系对的相似度值,构建成目标关系对的相似度列表;
Tg符合如下条件:
当Tg≥预设的概率阈值T0时,确定Tg对应的阈值区间为目标阈值区间;
遍历所述目标关系对的相似度列表且当所述目标关系对的相似度列表中任一目标关系对相似度≥所述目标阈值区间中最大端点值时,将目标关系对的APK对应的应用软件,构建成应用软件组。
2.根据权利要求1所述的一种应用软件组的获取方法,其特征在于,每个所述阈值区间的间距相等。
3.根据权利要求1所述的一种应用软件组的获取方法,其特征在于,所述方法还包括如下方法确定APK文件对应的目标相似度列表:
S201、获取APK列表A=(A1,A2,A3,……,AN),Ai是指第i个APK文件,i=2……N;
S203、基于Ai,确定出Ai对应的目标特征向量B=(B1,B2,B3,……,BM),Bj是指第j个目标特征值,j=4……M,M为目标特征数量,
其中,所述方法还包括如下步骤确定B:
对每个Ai进行特征处理,得到Ai对应的特征向量(Ai1,Ai2,Ai3,……,AiS),Aix是指第x个文本特征对应的特征值,x=4……S,S为文本特征数量;
遍历N个Ai对应的特征向量且当Aix对应的第一概率F≥预设的第一概率阈值时,从每个Ai对应的特征向量中删除Aix对应的文本特征,构建出每个Ai对应的第一中间特征向量 是指第y个中间特征值,y=4……Z,Z为中间特征数量,其中,F符合如下条件:
遍历N个Ai对应的第一中间特征向量且当目标数量 是指在N个Ai对应的第一中间特征向量中数量,从每个Ai对应的第一中间特征向量中删除对应的文本特征,构建出每个Ai对应的目标特征向量B,其中,是指在N个Ai对应的第一中间特征向量中数量;
S205、根据Ai对应的目标特征向量B和N-1个中间文件对应的目标特征向量,得到Ai对应的目标相似度列表Ci=(Ci1,Ci2,Ci3,……,CiN-1),Cir是指第r个中间文件对应的相似度值,r=1……N-1,以使得遍历Ci且当Cir≥预设的相似度阈值时,构建Ai对应的APP列表。
4.根据权利要求1所述的一种应用软件组的获取方法,其特征在于,所述APK文件是指将APK进行解析处理后生成的文本。
5.据权利要求1所述的一种应用软件组的获取方法,其特征在于,所述方法还包括如下步骤确定Ai对应的特征向量:
判断任一所述文本特征的类型;
当所述文本特征的类型满足预设的特征类型时,确定所述文本特征对应的特征值为第一特征值,所述第一特征值是指需要进行归一化处理的特征值;
当所述文本特征的类型未满足预设的特征类型时,确定所述文本特征对应的特征值为第二特征值,所述第二特征值是指无需进行归一化处理的特征值;
将所述第一特征值进行归一化处理后,得到所述第三特征值且基于所述第三特征值和所述第二特征值,构建出Ai对应的特征向量。
7.根据权利要求1所述的一种应用软件组的获取方法,其特征在于,所述中间文件是指在A中除Ai之外的其他任意APK文件。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~8中任一项所述的应用软件组的获取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~8任一项所述的应用软件组的获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210265568.0A CN114638303A (zh) | 2022-03-17 | 2022-03-17 | 一种应用软件组的获取方法、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210265568.0A CN114638303A (zh) | 2022-03-17 | 2022-03-17 | 一种应用软件组的获取方法、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114638303A true CN114638303A (zh) | 2022-06-17 |
Family
ID=81948815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210265568.0A Pending CN114638303A (zh) | 2022-03-17 | 2022-03-17 | 一种应用软件组的获取方法、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114638303A (zh) |
-
2022
- 2022-03-17 CN CN202210265568.0A patent/CN114638303A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111031017B (zh) | 一种异常业务账号识别方法、装置、服务器及存储介质 | |
CN105809471B (zh) | 一种获取用户属性的方法、装置及电子设备 | |
CN111260220B (zh) | 群控设备识别方法、装置、电子设备和存储介质 | |
CN108804918B (zh) | 安全性防御方法、装置、电子设备及存储介质 | |
CN109753561B (zh) | 一种自动回复的生成方法及装置 | |
CN115470318A (zh) | 客服问题处理方法及装置 | |
CN112052676B (zh) | 一种文本内容的处理方法、计算机设备及存储介质 | |
CN110740117B (zh) | 仿冒域名检测方法、装置、电子设备及存储介质 | |
CN112099870B (zh) | 文档处理方法、装置、电子设备及计算机可读存储介质 | |
CN111027065A (zh) | 一种勒索病毒识别方法、装置、电子设备及存储介质 | |
US20210360001A1 (en) | Cluster-based near-duplicate document detection | |
CN111966920A (zh) | 舆情传播的稳定条件的预测方法、装置及设备 | |
CN114638303A (zh) | 一种应用软件组的获取方法、电子设备及可读存储介质 | |
CN110737894B (zh) | 复合文档安全检测方法、装置、电子设备及存储介质 | |
CN113891323B (zh) | 一种基于WiFi的用户标签获取*** | |
CN114338102B (zh) | 安全检测方法、装置、电子设备及存储介质 | |
CN114626466A (zh) | 一种app列表的构建方法、电子设备及可读存储介质 | |
CN115935358A (zh) | 一种恶意软件识别方法、装置、电子设备及存储介质 | |
CN116366603A (zh) | 一种活跃IPv6地址的确定方法及装置 | |
CN115270161A (zh) | 基于加密插件的加密方法、装置及相关产品 | |
CN108509560B (zh) | 用户相似度获得方法和装置、设备、存储介质 | |
CN116244659B (zh) | 一种识别异常设备的数据处理方法、装置、设备及介质 | |
CN111966919A (zh) | 一种事件消息的处理方法、装置及设备 | |
CN113805892B (zh) | 一种异常apk的识别方法、电子设备及可读存储介质 | |
CN113805894A (zh) | 一种异常apk的识别方法、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |