CN113254918B - 信息处理方法、电子设备和计算机可读存储介质 - Google Patents
信息处理方法、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN113254918B CN113254918B CN202110792400.0A CN202110792400A CN113254918B CN 113254918 B CN113254918 B CN 113254918B CN 202110792400 A CN202110792400 A CN 202110792400A CN 113254918 B CN113254918 B CN 113254918B
- Authority
- CN
- China
- Prior art keywords
- information
- sample
- equipment
- feature information
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/44—Program or device authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种信息处理方法、电子设备和计算机可读存储介质,其中,该方法包括:获取样本设备的特征信息;基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理;以预处理后所述样本设备的特征信息为输入、以所述样本设备所属的设备类型为输出,训练异常设备识别模型,所述异常设备识别模型用于基于目标设备的特征信息确定所述目标设备是否属于异常设备。以上技术方案,可直接通过异常设备识别模型自动、快捷地识别目标设备是否为异常设备,对样本设备的特征信息进行扩充且通过多种筛选方式单独或组合用于扩充后的结果,以最终筛选出有效的特征信息用于模型训练,有助于提升模型分类结果的可靠性,快捷准确地识别异常设备。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息处理方法、电子设备和计算机可读存储介质。
背景技术
随着科技的发展,安全隐患也相应而生,手机等电子设备作为人们日常接触的工具,很有可能被用于非法领域或被置于对第三方的信息、财产安全具有威胁的不妥用途。然而,电子设备的数量庞大,仅通过人工方式无法对其可靠性进行详尽的检验。
因此,如何便捷地识别被用于非法领域或置于不妥用途的异常设备,成为目前亟待解决的技术问题。
发明内容
本发明实施例提供了一种信息处理方法、电子设备和计算机可读存储介质,旨在解决相关技术中异常设备识别缺乏便利性的技术问题。
第一方面,本发明实施例提供了一种信息处理方法,包括:获取样本设备的特征信息;基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理;以预处理后所述样本设备的特征信息为输入、以所述样本设备所属的设备类型为输出,训练异常设备识别模型,所述异常设备识别模型用于基于目标设备的特征信息确定所述目标设备是否属于异常设备;其中,所述基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理,包括:在所述样本设备的多种特征信息中选择至少两种特征信息进行组合,得到扩充信息;基于所述两种特征信息的特征值确定所述扩充信息的特征值;将所述扩充信息加入所述样本设备的特征信息中;在加入所述扩充信息后的所述特征信息中,以每个所述特征信息作为决策树的初始节点,确定每个所述特征信息的权重,其中,对于每个所述特征信息,所述权重为所述初始节点的初始增益与所述初始节点***所得多个叶节点之增益和的差值;对于每个所述特征信息,若所述特征信息的权重大于或等于指定权重,保留所述特征信息,否则,删除所述特征信息。
第二方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述第一方面中任一项所述的方法。
第三方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述第一方面中任一项所述的方法流程。
以上技术方案,针对相关技术中异常设备识别缺乏便利性的技术问题,可直接通过异常设备识别模型自动、快捷地识别目标设备是否为异常设备,对样本设备的特征信息进行扩充且通过多种筛选方式单独或组合用于扩充后的结果,以最终筛选出有效的特征信息用于模型训练,有助于提升模型分类结果的可靠性,快捷准确地识别异常设备。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本发明的一个实施例的信息处理方法的流程图。
具体实施方式
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
实施例一
根据本发明的一个实施例的异常设备识别方法的流程包括:
步骤102,获取目标设备的特征信息。
目标设备为待识别其是否为异常设备的电子设备,其特征信息示出了其实际情况,可用于判断其是否为异常设备。所述的异常设备为符合用户预设条件的电子设备。
具体地,所述目标设备的特征信息为在不同程度上与影响电子设备是否为异常设备有关的信息,优选地,包括但不限于:所述目标设备的所属用户信息、所述目标设备的APP活跃信息和所述目标设备的位置信息。
其中,目标设备的所属用户信息优选地包括但不限于目标设备所属用户的年龄、性别、职业、作息时间等信息,目标设备的所属用户信息可用包括但不限于字符串的方式进行展示。
目标设备的APP活跃信息优选地包括但不限于指定APP和/或随机APP、APP类型、APP安装列表、使用时长信息、使用频率信息、使用时间区间等有关APP的信息。另外,可选地,目标设备的APP活跃信息还可包括基于不同时间点的APP安装列表交叉所得的时间段内APP卸载列表。
目标设备的位置信息优选地包括但不限于目标设备通过SDK上报的不带时间戳或带有时间戳的位置信息等。
步骤104,基于所述目标设备的特征信息和异常设备识别模型,确定所述目标设备是否属于异常设备。
其中,所述异常设备识别模型是以样本设备的特征信息为输入、以所述样本设备所属的设备类型为输出训练所得,所述样本设备包括样本异常设备和样本非异常设备,样本设备所属的设备类型包括异常设备和非异常设备两者,那么,异常设备识别模型用于反映设备的特征信息与样本设备所属的设备类型的关联关系。因此,在获得目标设备的特征信息后,可基于获得的目标设备的特征信息以及这一关联关系,确定目标设备所属的设备类型是异常设备和非异常设备。
具体地,步骤104可包括:基于所述目标设备的特征信息和所述异常设备识别模型,确定所述目标设备的异常度,其中,当所述目标设备的异常度大于或等于指定数值时,确定所述目标设备属于异常设备。
异常设备识别模型可选为逻辑回归(Logistic Regression)分类模型,通过逻辑回归分类模型对目标设备的特征信息进行处理可得到目标设备的异常度,这一异常度用于反映目标设备被用于非法领域或置于不妥用途的概率。另外,设置有指定数值,该指定数值为目标设备是异常设备时所可能具有的最低异常度,因此,当所述目标设备的异常度大于或等于指定数值时,确定所述目标设备属于异常设备,反之,确定所述目标设备属于非异常设备。
可选地,异常度的取值在为[0,1]区间内,指定数值也是[0,1]区间内的指定值。
以上技术方案,可直接通过异常设备识别模型自动、快捷地识别目标设备是否为异常设备,在降低人工成本的同时也保证了识别结果的可靠性,有助于异常设备的快速检验,为与目标设备相关的信息、财产安全提供了保障。
在实施例一的基础上,训练所述异常设备识别模型的步骤包括:
步骤202,获取样本异常设备和样本非异常设备。
实际上,异常设备识别模型本质为分类模型,因此,在训练异常设备识别模型时,需要为其所涉及的每个分类都设置一定的样本。那么,本申请中涉及异常设备和非异常设备两个分类,即需要获取样本异常设备和样本非异常设备两种类型的样本来训练异常设备识别模型,以保证异常设备识别模型的分类结果的可靠性。
步骤204,多次在所述样本异常设备中选择占所述样本异常设备第一指定百分比的第一设备组,同时,多次在所述样本非异常设备中选择占所述样本非异常设备第二指定百分比的第二设备组。
若样本设备的数量巨大,直接以全部样本设备的特征信息进行模型训练,会产生巨大的计算量,耗时耗力。对此,可为样本异常设备的数量、样本非异常设备的数量或样本异常设备和样本非异常设备的总数量设置预设数量阈值,该预设数量阈值为样本异常设备的数量、样本非异常设备的数量或两者总数量多至影响模型参数训练的计算效率时的最低数量。
则在步骤204多次选择所述第一设备组和多次选择所述第二设备组之前,还包括:判断所述样本异常设备和所述样本非异常设备的总数量、所述样本异常设备的数量或者所述样本非异常设备的数量是否大于或等于预设数量阈值;若所述总数量、所述样本异常设备的数量或者所述样本非异常设备的数量大于或等于所述预设数量阈值,进入多次选择所述第一设备组和多次选择所述第二设备组的步骤。这样一来,可在样本设备数量巨大足以影响计算效率时通过减少单次训练时的样本数量来提升计算效率。
在一种可能的设计中,步骤204所述的多次选择所述第一设备组和多次选择所述第二设备组,可选为将样本异常设备划分为多组,每次选择一组作为所述第一设备组,以及将样本非异常设备划分为多组,每次选择一组作为所述第二设备组。
在另一种可能的设计中,步骤204所述的多次选择所述第一设备组和多次选择所述第二设备组,可选为在样本异常设备和样本非异常设备中进行多次随机选择,分别得到多组所述第一设备组和所述第二设备组。其中,多次随机选择可并行进行,以进一步节省时间成本,提升模型训练的效率。
步骤206,每次选择所述第一设备组和所述第二设备组后,基于当次选择的所述第一设备组和所述第二设备组,确定所述异常设备识别模型的备用模型参数。
对此,可在样本设备中多次选择部分样本异常设备和部分样本非异常设备作为对照组,降低单次模型训练的计算量,且为获得尽可能可靠的异常设备识别模型的模型参数,可在多次所得的模型参数中选择准确度最高的作为异常设备识别模型的目标模型参数。由此,既提升了模型训练的效率,也获得了更为可靠的模型参数。
在一种可能的设计中,用多组所述第一设备组和所述第二设备组分别进行模型参数训练,可并行进行,以进一步节省时间成本,提升模型训练的效率。比如,建立多个并行的线程,为每个线程分配一第一设备组和一第二设备组,在该线程中基于该第一设备组和该第二设备组确定备用模型参数。
优选地,可设置第一指定百分比和第二指定百分比均为10%,首次在全部样本异常设备中随机选择10%的样本异常设备、在全部样本非异常设备中随机选择10%的样本非异常设备,分别作为第一设备组和第二设备组。基于第一设备组和第二设备组训练得到异常设备识别模型的一组备用模型参数。得到一组备用模型参数后,再重新在全部样本异常设备中随机选择10%的样本异常设备、在全部样本非异常设备中随机选择10%的样本非异常设备,计算新的一组备用模型参数。直至得到十组备用模型参数,再于十组备用模型参数中确定异常设备识别模型最终的目标模型参数。
在一种可能的设计中,设置第一指定百分比/第二指定百分比与多次选择的总次数的乘积为指定数值。
具体来说,单次选择第一设备组和第二设备组时的指定百分比越高,即单次所选的第一设备组和第二设备组所涉及的样本设备在全部样本设备中的占比越高,其所得的备用模型参数准确性也越高。在所得的备用模型参数准确性较高的情况下,可相对减少备用模型参数的获取次数,以降低计算压力。而减少备用模型参数的获取次数即减少多次选择第一设备组和第二设备组的次数。由此可知,第一指定百分比/第二指定百分比与多次选择的总次数成反比,为减少计算压力和提升模型训练的效率,可设置第一指定百分比/第二指定百分比与多次选择的总次数的乘积为指定数值,通过所用的第一指定百分比/第二指定百分比和已知的指定数值来确定和控制多次选择的总次数。
可选地,第一指定百分比等于第二指定百分比,第一指定百分比/第二指定百分比与多次选择的总次数的乘积为1。
步骤208,在多次选择对应的多组所述备用模型参数中,选择准确度最高的备用模型参数作为所述异常设备识别模型的目标模型参数。
备用模型参数的准确度越高,其代入异常设备识别模型所得的分类结果的可靠性也就越高。具体地,步骤208包括:在所述样本异常设备中获取第三设备组,和在所述样本非异常设备中获取第四设备组;基于多次选择各自对应的所述备用模型参数,分别对所述第三设备组和所述第四设备组内的设备进行异常设备识别,得到多组识别结果;基于所述第三设备组、所述第四设备组和所述多组识别结果,分别确定每组识别结果的置信度,所述置信度示出了所述识别结果示出的设备类型与所述第三设备组、所述第四设备组内设备的实际设备类型的匹配程度;以所述识别结果的置信度作为所述识别结果对应的所述备用模型参数的准确度,选择所述准确度最高的备用模型参数作为所述异常设备识别模型的目标模型参数。
在一种可能的设计中,样本异常设备中第三设备组所占的百分比大于第一指定百分比,样本非异常设备中第四设备组所占的百分比大于第二指定百分比,这样,在样本异常设备和样本非异常设备中选择体量更大的样本,作为验证多组备用模型参数的依据。
在一种可能的设计中,所述第三设备组与任一所述第一设备组的样本设备重合率低于第一预定重合率,所述第四设备组与任一所述第二设备组的样本设备重合率低于第二预定重合率。第三设备组和第四设备组是作为验证备用模型参数是否准确可靠的对照组来使用的,若第三设备组和第一设备组包括大量相同的样本异常设备,第四设备组和第二设备组包括大量相同的样本非异常设备,将第三设备组和第四设备组验证用于验证与之重合度很高的第一设备组和第二设备组所得的备用模型参数,所得的验证结果不具有参考价值。因此,第三设备组与所对照的第一设备组不能过度重合,以及第四设备组与所对照的第二设备组也不能过度重合。对此,可设置第一预定重合率和第二预定重合率,第一预定重合率为第三设备组与所对照的第一设备组的重合程度足以使验证结果不可靠的最低重合率,第二预定重合率为第四设备组与所对照的第二设备组的重合程度足以使验证结果不可靠的最低重合率。
对于任一组备用模型参数,基于其对第三设备组和第四设备组内的设备进行分类,得到识别结果,该识别结果示出了检测得到的设备类型。而第三设备组和第四设备组内设备的实际设备类型是已知的,将识别结果与已知内容进行比较,即可得到两者的匹配程度,当然,该匹配程度越高,识别结果越可靠,即识别结果的置信度越高。
进一步地,以所述识别结果的置信度作为所述识别结果对应的所述备用模型参数的准确度,换言之,对于每一组备用模型参数,其准确度是由其对第三设备组和第四设备组的设备进行分类所得的识别结果之置信度决定的。最终,在多组备用模型参数中选择准确度最高的备用模型参数,作为所述异常设备识别模型的目标模型参数。
通过以上技术方案,相对于直接以全部样本设备的特征信息训练异常设备识别模型,可获得更为准确可靠的模型参数,从而使所得的异常设备识别模型的分类结果更具可靠性,提升了对异常设备的识别准确性。
实施例二
在实施例一的基础上,在以样本设备的特征信息作为输入样本训练异常设备识别模型的过程中,可对输入样本进行扩充,以增加样本体量,使所得的异常设备识别模型能够更加准确可靠地反映设备的特征信息与设备类型之间的关联关系。下面,如图1所示,根据本申请的一个实施例的信息处理方法,包括:
步骤302,获取样本设备的特征信息。
具体地,所述样本设备的特征信息为在不同程度上与影响电子设备是否为异常设备有关的信息,优选地,包括但不限于:所述样本设备的所属用户信息、所述样本设备的APP活跃信息和所述样本设备的位置信息。
其中,样本设备的所属用户信息优选地包括但不限于样本设备所属用户的年龄、性别、职业、作息时间等信息,样本设备的所属用户信息可用包括但不限于字符串的方式进行展示。
样本设备的APP活跃信息优选地包括但不限于指定APP和/或随机APP、APP类型、APP安装列表、使用时长信息、使用频率信息、使用时间区间等有关APP的信息。另外,可选地,样本设备的APP活跃信息还可包括基于不同时间点的APP安装列表交叉所得的时间段内APP卸载列表。
样本设备的位置信息优选地包括但不限于样本设备通过SDK上报的不带时间戳或带有时间戳的位置信息等。
步骤304,基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理。
步骤306,以预处理后所述样本设备的特征信息为输入、以所述样本设备所属的设备类型为输出,训练异常设备识别模型,所述异常设备识别模型用于基于目标设备的特征信息确定所述目标设备是否属于异常设备。
其中,步骤304所述的预定的样本扩充方式,包括对样本设备的特征信息依次进行种类扩充、决策树筛选和分箱筛选三步处理。
首先,对样本设备的特征信息进行种类扩充,具体来说,可通过组合不同种类的特征信息的方式,生成新种类的特征信息,以实现特征信息种类的扩充。可选地,在所述样本设备的多种特征信息中选择至少两种特征信息进行组合,得到扩充信息;基于所述两种特征信息的特征值确定所述扩充信息的特征值;将所述扩充信息加入所述样本设备的特征信息中。
在一种可能的设计中,样本设备的特征信息以数据表方式展示,比如,以样本设备的唯一识别标识作为行的标记,以每个样本设备的特征信息为一行,以特征信息的一个种类为一列。那么,每个样本设备在任一特征信息下都具有对应的位置,该位置可为特征值,也可能为空。
比如,样本设备为10000个,那么样本设备的特征信息的数据表具有10000行,每行的第一个列设置为该行的样本设备的唯一识别标识;设置特征信息包括:样本设备所属用户的年龄、性别、职业、样本设备是否安装有指定APP、样本设备是否安装过指定APP、指定APP的使用时长、指定APP的使用频率,则数据表的列对应上述样本设备的唯一识别标识和7种特征信息设置8列。
需要知晓,在实际场景中,样本设备的数量可基于实际需要进行任意设置,特征信息的种类可以多达几百甚至几千种,本申请上下文给出的数字仅为示例,而不作为实际限定。以及,本申请上下文的各示例中,数据表的行和列可基于实际需要进行对换,在此不做限制。
基于此,若在所述样本设备的多种特征信息中选择至少两种特征信息进行组合,得到扩充信息,扩充信息即生成新的列,那么该列下每个样本设备对应的位置可基于至少两种特征信息中每种特征信息的特征值求得。
在一种可能的设计中,可通过FM(Factorization Machine,因子分解机)算法将样本设备的多种特征信息分解为矩阵,矩阵的每个元素对应一种特征信息,那么,将矩阵的任两个元素交叉得到扩充信息。这里所述的交叉可选为相乘。
在另一种可能的设计中,也可以基于单项特征信息得到扩充信息。具体地,在一特征信息的数量级大于预定数量级时,对该特征信息进行log变换,得到对应的扩充信息,其中,预定数量级为特征信息便于计算的最大数量级,若特征信息的数量级大于预定数量级,说明其数量级过大,影响计算结果的准确性。最终,扩充信息的数量级低于该特征信息的数量级,换言之,通过log变换的方式可降低特征信息的数量级,以提升计算结果的准确性。
在再一种可能的设计中,可先检测每项特征信息的数量级是否大于预定数量级,若是,则对该特征信息进行log变换。在将所有特征信息的数量级均设置在便于计算的范围内后,通过FM算法将样本设备的多种特征信息分解为矩阵,矩阵的每个元素对应一种特征信息,那么,将矩阵的任两个元素交叉得到扩充信息。
在再一种可能的设计中,可先检测每项特征信息的数量级是否大于预定数量级,若是,则对该特征信息进行log变换。在将所有特征信息的数量级均设置在便于计算的范围内后,通过FM算法将样本设备的多种特征信息分解为矩阵,矩阵的每个元素对应一种特征信息,那么,将矩阵的任两个元素交叉得到扩充信息。接下来,再对任两个元素交叉得到的扩充信息进行数量级判断,从而进一步确定是否需要对该扩充信息进行log变换。
经过上述技术方案对特征信息进行扩充后,特征信息的种类之数量大量增加,远远大于特征信息的初始种类数量,因此,对扩充后的特征信息进行筛选,也是扩充过程中必不可少的一部分。
接下来,首先利用决策树进行初步筛选。每项特征信息作为决策树的一个具有初始增益的初始节点,其初始增益表示此项特征信息的信息量或者说信息价值。通过决策树的***功能,最终将初始节点***为多个叶节点,每个叶节点具有自身对应的增益,叶节点的增益表示叶节点的信息量或者说信息价值。
在决策树***过程中,一特征信息之初始节点的初始增益与其最终产生的多个叶节点的增益之和是不同的。初始增益与叶节点的增益之和的差值代表了决策树***过程中该特征信息的信息量/信息价值变化程度,这一变化程度越大,说明该特征信息的影响力越大,对后续所训练的模型的贡献越大。此时,可将特征信息的初始增益与叶节点的增益之和的差值设置为特征信息的权重,并设置初始权重,初始权重表示特征信息对后续所训练的模型具有足够贡献时其初始增益与叶节点的增益之和的最小差值。那么,在加入所述扩充信息后的所述特征信息中,以每个所述特征信息作为决策树的初始节点,确定每个所述特征信息的权重,其中,对于每个所述特征信息,所述权重为所述初始节点的初始增益与所述初始节点***所得多个叶节点之增益和的差值;对于每个所述特征信息,若所述特征信息的权重大于或等于指定权重,保留所述特征信息,否则,删除所述特征信息。
那么,若所述特征信息的权重大于或等于指定权重,说明该特征信息对后续所训练的模型具有足够贡献,换言之,对识别设备是否为异常设备具有足够贡献,需保留。反之,若此种类的特征信息的权重小于指定权重,说明该特征信息对后续所训练的模型不具有足够贡献,换言之,对识别设备是否为异常设备不具有足够贡献,可删除。
在完成决策树筛选后,对决策树筛选所得的特征信息再进行分箱筛选。
在一种可能的设计中,当特征信息为连续型数据时,对所述特征信息进行分箱筛选。对于任一为连续型数据的特征信息,将其数据划分为多个范围,例如,对于样本设备的所属用户的年龄这一特征信息,可基于实际需要,将对所需模型的影响力相同或相近的用户年龄划为一箱。如,划分0-25岁、26-35岁、36-45岁、45岁以上四箱,此时,可认定当用户处于0-25岁这一范围内的任意年龄时,如18岁的用户和22岁的用户,两者对应的样本设备在年龄这个维度上对异常设备识别模型的贡献相同或相近,进一步来说,在年龄以外的特征信息相同的情况下,对于异常设备识别模型来说,年龄为18岁的样本设备和年龄为22岁的样本设备没有差别。由此,可为每箱设置指定特征值,对于所有样本设备来说,相当于将其年龄这一列的特征值均替换为自身年龄所在箱对于的指定特征值。
另外,若特征信息中具有异常值,比如,一样本设备的年龄为1000,明显为不合理,若直接以1000为特征值进行计算,会导致计算结果不准确,最终影响所得模型的可靠性。通过分箱的方式,直接将其分配在45岁以上这一箱数据内,其特征值被替换为45岁以上这一箱所对应的指定特征值。由此,有效降低了异常值对模型训练效果的影响。
在完成以所述特征信息下的全部样本设备的特征值为自变量进行分箱后,并基于分箱结果中的正负样本差异值确定所述自变量是否具有单调性;在所述自变量具有单调性时,保留所述特征信息,否则,删除所述特征信息。
分箱结果中的正负样本差异值即WOE(Weight Of Evidence,证据权重),每个分箱均对应有正负样本差异值,正负样本差异值用于反映自身分箱里异常设备对应的特征值与非异常设备对应的特征值之间的差异性或者分割程度。分箱是以一种特征信息下的全部样本设备的特征值为自变量,当自变量具有单调性,即单调递增或者单调递减时,说明其变化遵循一定的规律,则该特征信息因其变化的规律性对识别设备是否为异常设备具有足够贡献。因此,当自变量具有单调性时,保留所述特征信息,否则,说明此种类的特征信息对识别设备是否为异常设备不具有足够贡献,可删除所述特征信息。
在分箱筛选中,对于每个所述特征信息,还可基于分箱结果中的所述正负样本差异值,确定预测能力值,所述预测能力值即IV(Information Value,信息价值),用于反映对所述自变量所对应的因变量的贡献水平,即一项特征信息对所需的异常设备识别模型的价值,而预定的预测能力值反映了自变量对其因变量的贡献水平对识别设备是否为异常设备具有足够贡献时的最低值。
若所述特征信息的预测能力值大于或等于预定的预测能力值,说明该种类的特征信息对识别设备是否为异常设备具有足够贡献,了保留所述特征信息,否则,删除所述特征信息。
综上,基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理的步骤主要包括:首先,通过对特征信息进行组合和/或变换来获得新的特征信息,从而扩充特征信息的种类;其次,通过决策树筛选对扩充后的大量特征信息进行初步筛选;第三,通过分箱方式对决策树筛选后的特征信息中为连续性数据的特征信息进行进一步处理,其具体处理方式包括:对特征信息进行分箱后将特征信息下的特征值替换为对应的箱的指定特征值、删除不具备单调性的特征信息、删除预测能力值不足的特征信息三个步骤。
另外,在所述基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理之前,还可以通过其他方式对特征信息进行初步筛选,或者在所述基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理之后,对筛选后的特征信息进行再度筛选。
在一种可能的设计中,对于任一样本设备,若所述样本设备的全部特征信息中内容为空的特征信息之数量大于或等于指定数量,删除所述样本设备的全部特征信息。即若任一样本设备对应的全部特征信息中为空的信息过多,则该样本设备因其特征信息过分缺失,无法作为有效样本,此时,应将该样本设备的全部特征信息删除。可选地,在表格内删除该样本设备所在的行。
在另一种可能的设计中,对于任一种特征信息,若其饱和度达到指定饱和度,在所有样本设备的全部特征信息中删除该特征信息,其中,所述饱和度为所有样本设备在该特征信息下的特征值中相同特征值的最大占比。
比如,若所有样本设备在用户性别这一特征信息下,90%均为女,那么,该模型分类可能多用于用户性别为女的实际场景,说明用户性别这一特征信息对模型分类的影响并不大,因此,可删除用户性别这一特征信息。可选地,在表格中将用户性别这一列删除。
在再一种可能的设计中,若任一样本设备的指定特征信息处于预设异常范围内,删除该样本设备的全部特征信息;或者若任一样本设备的指定特征信息处于预设异常范围内,删除所有样本设备的所述指定特征信息。也就是说,预设异常范围为触发对指定特征信息进行筛选时任一样本设备的指定特征信息之特征值所处的范围,若有样本设备的指定特征信息处于该预设异常范围,则触发对指定特征信息的筛选动作。
具体地,可删除该样本设备的全部特征信息,即删除指定特征信息之特征值处于预设异常范围的单个样本设备所在的行,也可以删除所有样本设备的所述指定特征信息,即删除指定特征信息所在的列。
本发明的一个实施例的电子设备,包括至少一个存储器;以及,与所述至少一个存储器通信连接的处理器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述任一实施例中所述的方案。因此,该电子设备具有和上述任一实施例中相同的技术效果,在此不再赘述。
本发明实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
另外,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一实施例中所述的方法流程。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,直接通过异常设备识别模型自动、快捷地识别目标设备是否为异常设备,对样本设备的特征信息进行扩充且通过多种筛选方式单独或组合用于扩充后的结果,以最终筛选出有效的特征信息用于模型训练,有助于提升模型分类结果的可靠性,快捷准确地识别异常设备。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (7)
1.一种信息处理方法,其特征在于,包括:
获取样本设备的特征信息;
基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理;
以预处理后所述样本设备的特征信息为输入、以所述样本设备所属的设备类型为输出,训练异常设备识别模型,所述异常设备识别模型用于基于目标设备的特征信息确定所述目标设备是否属于异常设备;
其中,所述基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理,包括:
在所述样本设备的多种特征信息中选择至少两种特征信息进行组合,得到扩充信息;
基于所述两种特征信息的特征值确定所述扩充信息的特征值;
将所述扩充信息加入所述样本设备的特征信息中;
在加入所述扩充信息后的所述特征信息中,以每个所述特征信息作为决策树的初始节点,确定每个所述特征信息的权重,其中,对于每个所述特征信息,所述权重为所述初始节点的初始增益与所述初始节点***所得多个叶节点之增益和的差值;
对于每个所述特征信息,若所述特征信息的权重大于或等于指定权重,保留所述特征信息,否则,删除所述特征信息;
在所述若所述特征信息的权重大于或等于指定权重,保留所述特征信息,否则,删除所述特征信息的步骤之后,对于每个所述特征信息,
以所述特征信息下的全部样本设备的特征值为自变量进行分箱,并基于分箱结果中的正负样本差异值确定所述自变量是否具有单调性;
在所述自变量具有单调性时,保留所述特征信息,否则,删除所述特征信息;
所述在所述样本设备的多种特征信息中选择至少两种特征信息进行组合,得到扩充信息的步骤,包括:
先检测每项特征信息的数量级是否大于预定数量级,若是,则对该特征信息进行log变换;在将所有特征信息的数量级均设置在便于计算的范围内后,通过FM算法将样本设备的多种特征信息分解为矩阵,矩阵的每个元素对应一种特征信息,将矩阵的任两个元素交叉得到扩充信息;再对任两个元素交叉得到的扩充信息进行数量级判断,确定是否需要对所述任两个元素交叉得到的扩充信息进行log变换。
2.根据权利要求1所述的信息处理方法,其特征在于,在所述基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理之前,还包括:
对于任一样本设备,若所述样本设备的全部特征信息中内容为空的特征信息之数量大于或等于指定数量,删除所述样本设备的全部特征信息。
3.根据权利要求1所述的信息处理方法,其特征在于,在所述基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理之前,还包括:
对于任一种特征信息,若其饱和度达到指定饱和度,在所有样本设备的全部特征信息中删除该特征信息,其中,所述饱和度为所有样本设备在该特征信息下的特征值中相同特征值的最大占比。
4.根据权利要求1所述的信息处理方法,其特征在于,在所述基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理之前,还包括:
若任一样本设备的指定特征信息处于预设异常范围内,删除该样本设备的全部特征信息;或者
若任一样本设备的指定特征信息处于预设异常范围内,删除所有样本设备的所述指定特征信息。
5.根据权利要求1所述的信息处理方法,其特征在于,所述基于预定的样本扩充方式,对所述样本设备的特征信息进行预处理,还包括:
对于每个所述特征信息,基于分箱结果中的所述正负样本差异值,确定预测能力值,所述预测能力值用于反映对所述自变量所对应的因变量的预测水平;
若所述特征信息的预测能力值大于或等于预定的预测能力值,保留所述特征信息,否则,删除所述特征信息。
6.一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1至5任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至5中任一项所述的方法流程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110792400.0A CN113254918B (zh) | 2021-07-14 | 2021-07-14 | 信息处理方法、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110792400.0A CN113254918B (zh) | 2021-07-14 | 2021-07-14 | 信息处理方法、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254918A CN113254918A (zh) | 2021-08-13 |
CN113254918B true CN113254918B (zh) | 2021-10-12 |
Family
ID=77191197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110792400.0A Active CN113254918B (zh) | 2021-07-14 | 2021-07-14 | 信息处理方法、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254918B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113891323B (zh) * | 2021-12-07 | 2022-03-18 | 杭州云信智策科技有限公司 | 一种基于WiFi的用户标签获取*** |
CN114334696B (zh) * | 2021-12-30 | 2024-03-05 | 中国电信股份有限公司 | 质量检测方法及装置、电子设备和计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108451508B (zh) * | 2018-04-28 | 2020-05-05 | 中国科学院自动化研究所 | 基于多层感知机的生物自发荧光三维成像方法 |
CN109583904B (zh) * | 2018-11-30 | 2023-04-07 | 深圳市腾讯计算机***有限公司 | 异常操作检测模型的训练方法、异常操作检测方法及装置 |
CN112118551B (zh) * | 2020-10-16 | 2022-09-09 | 同盾控股有限公司 | 设备风险识别方法及相关设备 |
CN112822220B (zh) * | 2021-03-04 | 2023-02-28 | 安天科技集团股份有限公司 | 一种面向多样本组合攻击的溯源方法和装置 |
-
2021
- 2021-07-14 CN CN202110792400.0A patent/CN113254918B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113254918A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254918B (zh) | 信息处理方法、电子设备和计算机可读存储介质 | |
CN110275965B (zh) | 假新闻检测方法、电子装置及计算机可读存储介质 | |
CN105787025B (zh) | 网络平台公共账号分类方法及装置 | |
CN108648000B (zh) | 对用户留存生命周期进行评估的方法及装置、电子设备 | |
CN109885597B (zh) | 基于机器学习的用户分群处理方法、装置及电子终端 | |
CN105354210A (zh) | 移动游戏支付账户行为数据处理方法和装置 | |
CN113505272B (zh) | 基于行为习惯的控制方法和装置、电子设备和存储介质 | |
CN111950622A (zh) | 基于人工智能的行为预测方法、装置、终端及存储介质 | |
CN113254919B (zh) | 异常设备识别方法、电子设备和计算机可读存储介质 | |
CN115174250A (zh) | 网络资产安全评估方法、装置、电子设备及存储介质 | |
CN112183052A (zh) | 一种文档重复度检测方法、装置、设备和介质 | |
CN110717787A (zh) | 一种用户的分类方法及装置 | |
CN110674632A (zh) | 一种确定安全级别的方法及装置、存储介质和设备 | |
CN111672128A (zh) | 基于本地保留时长识别的游戏商城游戏推荐方法及*** | |
CN115423600B (zh) | 数据筛选方法、装置、介质及电子设备 | |
CN113593546B (zh) | 终端设备唤醒方法和装置、存储介质及电子装置 | |
CN109213924B (zh) | 推广任务分配方法、装置和计算机设备 | |
CN111027065A (zh) | 一种勒索病毒识别方法、装置、电子设备及存储介质 | |
CN110717817A (zh) | 贷前审核方法及装置、电子设备和计算机可读存储介质 | |
CN106682985B (zh) | 一种金融诈骗识别方法和*** | |
CN114943479A (zh) | 业务事件的风险识别方法、装置、设备及计算机可读介质 | |
CN111625720B (zh) | 数据决策项目执行策略的确定方法、装置、设备和介质 | |
CN114817518A (zh) | 基于大数据档案识别的证照办理方法、***及介质 | |
CN114334696A (zh) | 质量检测方法及装置、电子设备和计算机可读存储介质 | |
CN110825717B (zh) | 一种身份识别的数据归一方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |