CN114169451A - 行为数据分类处理方法、装置、设备及存储介质 - Google Patents

行为数据分类处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114169451A
CN114169451A CN202111506939.1A CN202111506939A CN114169451A CN 114169451 A CN114169451 A CN 114169451A CN 202111506939 A CN202111506939 A CN 202111506939A CN 114169451 A CN114169451 A CN 114169451A
Authority
CN
China
Prior art keywords
data
user behavior
behavior data
historical user
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111506939.1A
Other languages
English (en)
Inventor
兰珣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111506939.1A priority Critical patent/CN114169451A/zh
Publication of CN114169451A publication Critical patent/CN114169451A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种行为数据分类处理方法、装置、设备及存储介质,涉及数据处理技术领域,该方法包括:接收第一客户端发送的用户行为数据,并根据所述用户行为数据确定目标数据;将所述目标数据输入训练好的随机森林模型,得到所述训练好的随机森林模型中各个分类树的结果;根据所述各个分类树的结果中异常结果占所有结果的比例,确定所述用户行为数据对应的分类结果;将所述分类结果发送至第二客户端以进行显示。本申请的方法,增加了对用户行为数据分类的准确性。

Description

行为数据分类处理方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种行为数据分类处理方法、装置、设备及存储介质。
背景技术
随着网络中网页和软件中可点击和可提交的内容越来越多,用户在网页和软件中的行为变得越发的不可预测,这容易导致出现安全问题。
目前,对容易导致安全问题的用户行为的分类和预分类通常是由人工进行的。
但是,由于用户行为种类庞大,人工对用户行为分类容易漏检或出错,导致出现分类准确性较低的问题。
发明内容
本申请提供一种行为数据分类处理方法、装置、设备及存储介质,用以解决人工分类准确性较低问题。
第一方面,本申请提供一种行为数据分类处理方法,包括:
接收第一客户端发送的用户行为数据,并根据用户行为数据确定目标数据;将目标数据输入训练好的随机森林模型,得到训练好的随机森林模型中各个分类树的结果;根据各个分类树的结果中异常结果占所有结果的比例,确定用户行为数据对应的分类结果;将分类结果发送至第二客户端以进行显示。
在一种可能的实现方式中,接收第一客户端发送的用户行为数据之前,还包括:获取历史用户行为数据;接收第三客户端发送的赋值信息,并根据赋值信息对历史用户行为数据进行赋值,得到赋值的历史用户行为数据,其中赋值的历史用户行为数据包括正常数据和异常数据;根据赋值的历史用户行为数据,确定标准历史用户行为数据;使用标准历史用户行为数据进行随机森林模型训练,得到训练好的随机森林模型。
在一种可能的实现方式中,根据赋值的历史用户行为数据,确定标准历史用户行为数据,包括:以所有异常数据为基础数据,计算得到新的异常数据,并将新的异常数据加入异常数据,直至异常数据的数据量达到赋值的历史用户行为数据的第一预设比例;将含有异常数据的数据量达到第一预设比例的赋值的历史用户行为数据确定为标准历史用户行为数据。
在一种可能的实现方式中,以所有异常数据为基础数据,计算得到新的异常数据,包括:以所有异常数据中任一异常数据作为基础数据,以所有异常数据中另一异常数据作为辅助数据,对基础数据和辅助数据进行差值,得到新的异常数据。
在一种可能的实现方式中,使用标准历史用户行为数据进行随机森林模型训练,得到训练好的随机森林模型,包括:在标准历史用户行为数据中有放回地抽取预设数量的数据作为训练集,将剩余未抽取到的数据作为测试集;使用训练集对初始的随机森林模型训练,得到待确定的随机森林模型;若将测试集输入待确定的随机森林模型得到的分类结果正确率小于第二预设比例,则重新执行根据赋值的历史用户行为数据,确定标准历史用户行为数据的步骤,并继续执行训练集与测试集的建立以及模型训练的步骤,直至得到的分类结果正确率超过第二预设比例时,得到训练好的随机森林模型。
第二方面,本申请提供一种行为数据分类处理装置,包括:
目标数据确定模块,用于接收第一客户端发送的用户行为数据,并根据用户行为数据确定目标数据;结果获得模块,用于将目标数据输入训练好的随机森林模型,得到训练好的随机森林模型中各个分类树的结果;分类结果获得模块,用于根据各个分类树的结果中异常结果占所有结果的比例,确定用户行为数据对应的分类结果;分类结果发送模块,用于将分类结果发送至第二客户端以进行显示。
在一种可能的实现方式中,行为数据分类处理装置,还包括:
行为数据获取模块,用于获取历史用户行为数据;赋值数据获得模块,用于接收第三客户端发送的赋值信息,并根据赋值信息对历史用户行为数据进行赋值,得到赋值的历史用户行为数据,其中赋值的历史用户行为数据包括正常数据和异常数据;标准数据确定模块,用于根据赋值的历史用户行为数据,确定标准历史用户行为数据;模型获得模块,用于使用标准历史用户行为数据进行随机森林模型训练,得到训练好的随机森林模型。
第三方面,本申请提供一种电子设备,包括:处理器,以及与处理器通信连接的存储器;存储器存储计算机执行指令;处理器执行存储器存储的计算机执行指令,以实现如上述第一方面的行为数据分类处理方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如上述第一方面的行为数据分类处理方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上述第一方面的行为数据分类处理方法。
本申请提供的行为数据分类处理方法、装置、设备及存储介质,通过将用户行为数据输入训练好的随机森林模型得到训练好的随机森林模型中所有分类树的结果,并按各个分类树的结果中异常结果占所有结果的比例确定分类结果,使训练好的随机森林模型不只用于输出是或否的两种结果,并且由于考虑了所有分类树的结果,可以对用户行为数据进行更精细的分类,从而提高分类准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的行为数据分类处理方法的应用场景示意图;
图2为本申请实施例提供的行为数据分类处理方法的流程示意图;
图3为本申请实施例提供的一种行为数据分类处理装置示意图一;
图4为本申请实施例提供的一种行为数据分类处理装置示意图二;
图5为本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
随着网络中软件和网站的不断增多,网民在网络中的自由度也越来越高,对于网络服务的提供商来说,网络服务的用户在网络中可提交的内容增多意味着用户在网络中的行为越发的不可预测,对服务产生的危害的风险也就越大。目前,将用户行为区分为正常操作和异常操作,可以通过人工进行排查,但是由于用户行为数量数庞大且路径各有不同,所以人工对用户行为分类容易出现漏检或将正常操作分类为异常操作的情况,分类准确性较低。
针对上述人工分类准确性较低的问题,本申请提供以下技术构思:通过将获得的用户行为数据输入随机森林模型,得到随机森林模型的每个分类树的结果,并使用随机森林模型的每个分类树的结果中异常结果占所有结果的比例来将用户行为数据进行分类,从而提高分类的准确性,解决上述分类准确性较低的问题。
本申请应用于对用户行为数据分类的场景中。本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
图1为本申请实施例提供的行为数据分类处理方法的应用场景示意图。如图1,该场景中,包括:第一客户端101、服务器102以及第二客户端103。
在具体实现过程中,第一客户端101用于采集用户行为数据,并将采集到的用户行为数据发送至服务器102。
服务器102用于将用户行为数据输入训练好的随机森林模型得到随机森林模型中各个分类树的结果,并根据随机森林模型中各个分类树的结果确定用户行为数据对应的分类结果,并将分类结果发送至第二客户端103。
第二客户端103用于接收分类结果并进行显示。
其中,第一客户端101可以是任何具有采集数据和发送数据功能的设备,包括但不限于计算机、服务器、平板、手机、掌上电脑(Personal Digital Assistant,PDA)以及笔记本等。而上述服务器102则可以利用具有更强大处理能力和更高安全性的一个服务器或多个服务器组成的集群来实现,在可能的情况下,还可以使用计算能力较强的计算机、笔记本电脑等进行替代。上述第二客户端103可以包括平板、手机、掌上电脑、连接显示器的电脑以及笔记本等。
上述第一客户端101、服务器102以及第二客户端103之间的连接方式可以是通过有线连接也可以通过无线网络连接,其中无线网络连接使用的网络可以包括各种类型的有线和无线网络,例如但不局限于:互联网、局域网、无线保真(Wireless Fidelity,WIFI)、无线局域网(Wireless Local Area Networks,WLAN)、蜂窝通信网络(通用分组无线服务技术(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、2G/3G/4G/5G蜂窝网络)、卫星通信网络等等。
可以理解的是,本申请实施例示意的结构并不构成对行为数据分类处理方法的具体限定。在本申请另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的行为数据分类处理方法的流程示意图。本申请实施例的执行主体可以是图1中的服务器102,也可以是电脑和/或手机等其他电子设备,本实施例对此不作特别限制。如图2所示,该方法包括:
S201:接收第一客户端发送的用户行为数据,并根据用户行为数据确定目标数据。
在本步骤中,用户行为数据可以是用户在第一客户端进行浏览、输入和/或点击等操作后产生的用户行为数据。根据用户行为数据确定目标数据可以是在用户行为数据中截取部分用户行为数据,得到截取后的用户行为数据,再对截取后的用户行为数据进行编码,得到目标数据。
例如,用户行为数据可以包括进入界面、进入界面时间、对连接的点击操作、对连接的点击操作发生的时间、请求动作、请求时间、各个行为的时间间隔、退出界面以及退出界面的时间等。截取部分用户行为数据可以是截取两次请求动作之间的所有动作,也可以是截取进入界面和退出界面之间的所有操作。对截取后的用户行为数据进行编码可以是对截取后的用户行为数据进行WOE(Weight of Evidence,证据权重)编码。
S202:将目标数据输入训练好的随机森林模型,得到训练好的随机森林模型中各个分类树的结果。
在本步骤中,训练好的随机森林模型中包含多个分类树,各个分类树的结果包括“行为正常”和“行为异常”。
S203:根据各个分类树的结果中异常结果占所有结果的比例,确定用户行为数据对应的分类结果。
在本步骤中,异常结果可以是上述步骤S202中的“行为异常”结果。
例如,可以将风险等级按异常结果占总结果的比例划分,例如0%至25%为无风险,25%至50%为低分险,50%至75%为中风险,75%至100%为高风险。具体的,若训练好的随机森林模型中包含100个分类树,其中30个为异常结果,则异常结果占总结果的比例为30%,可以将用户行为数据的分类结果确定为低风险,若训练好的随机森林模型中包含100个分类树,其中60个为异常结果,则异常结果占总结果的比例为60%,可以将用户行为数据的分类结果确定为中风险。上述风险等级的分类标准仅仅是示意性的,不作为对本申请实施例的限定,本领域技术人员在阅读本申请实施例后易于想到其他实现方式。
S204:将分类结果发送至第二客户端以进行显示。
在本步骤中,可以将步骤S203中得到的分类结果发送至第二客户端,第二客户端将分类结果在屏幕显示。
从上述实施例的描述可知,本申请实施例通过将用户行为数据输入训练好的随机森林模型得到训练好的随机森林模型中所有分类树的结果,并按各个分类树的结果中异常结果占所有结果的比例确定分类结果,使训练好的随机森林模型不只用于输出是或否的两种结果,并且由于考虑了所有分类树的结果,可以对用户行为数据进行更精细的分类,从而提高分类准确性。
在一种可能的实现方式中,在上述步骤S201接收第一客户端发送的用户行为数据之前,还包括:
S301:获取历史用户行为数据。
在本步骤中,获取历史用户行为数据可以是从数据采集设备处获取,其中数据采集设备可以包括服务器、计算机等,也可是在预设时间段内记录用户行为数据从而得到历史用户行为数据,其中记录用户行为数据可以是使用埋点的方式得到用户行为数据,并将得到的用户行为数据进行储存。
S302:接收第三客户端发送的赋值信息,并根据赋值信息对历史用户行为数据进行赋值,得到赋值的历史用户行为数据,其中赋值的历史用户行为数据包括正常数据和异常数据。
在本步骤中,对历史用户行为数据进行赋值可以包括将历史用户行为数据中的数据转换为相应的数值,还可以包括将历史用户行为数据对应的是否为异常数据的判断添加进历史用户行为数据中。
例如,将请求持续时间为30秒以内的请求时间数据转换为1,将请求持续时间为30秒至40秒的请求时间数据转换为2,将请求持续时间为40秒至60秒的请求时间数据转换为3,本申请对历史用户行为数据中的数据转换得到的数值不作具体限制。将历史用户行为数据对应的是否为异常数据的判断添加进历史用户行为数据中,可以包括在历史用户行为数据中添加“用户行为数据正常”或“用户行为数据异常”,其中“用户行为数据正常”也可以用“0”替代,“用户行为数据异常”也可以用“1”替代,还可以包括在历史用户行为数据中添加风险等级数据,例如“无风险”、“低风险”、“中风险”或“高风险”,风险等级数据也可以使用数字进行替代,例如数字形式的风险等级数据分别是“0”、“1”、“2”和“3”。
S303:根据赋值的历史用户行为数据,确定标准历史用户行为数据。
在本步骤中,确定标准历史用户行为数据可以包括使用smote方法增加赋值的历史用户行为数据中的异常数据,将增加异常数据后的赋值的历史用户行为数据作为标准历史用户行为数据。
例如,当前标准历史用户行为数据的总数据量为100,其中正常数据的数据量为90,异常数据的数据量为10,则使用smote方法增加异常数据,可将异常数据的数据量同样增加至90,则此时总数据量达到180。异常数据的增加量可以预先设置,达到总数据量的比例或达到预设数量后停止增加异常数据。
S304:使用标准历史用户行为数据进行随机森林模型训练,得到训练好的随机森林模型。
在本步骤中,进行随机森林模型训练可以包括采用不同的数据类型构建随机森林模型中的分类树,其中,数据类型是标准历史用户行为数据中的数据类型,例如请求时间以及请求对象等。
从上述实施例的描述可知,由于历史用户行为数据中异常数据较少,本申请实施例通过对历史用户行为数据赋值,并对赋值的历史用户行为数据中的异常数据进行增加得到标准历史用户行为数据,保障了训练得到的模型的准确性,从而进一步提高分类准确性。
在一种可能的实现方式中,上述步骤S303中根据赋值的历史用户行为数据,确定标准历史用户行为数据,包括:
S3031:以所有异常数据为基础数据,计算得到新的异常数据,并将新的异常数据加入异常数据,直至异常数据的数据量达到赋值的历史用户行为数据的第一预设比例。
在一种可能的实现方式中,以所有异常数据为基础数据,计算得到新的异常数据,具体包括:以所有异常数据中任一异常数据作为基础数据,以所有异常数据中另一异常数据作为辅助数据,对基础数据和辅助数据进行差值,得到新的异常数据。
在本步骤中,由于异常数据具有赋值,所以可以通过两个异常数据进行差值得到新的异常数据,其中,差值可以是对异常数据的每个数据类型差值,得到所有数据类型的差值结果,将所有差值结果组合即可得到新的异常数据。
具体例如,当前有10个异常数据,其中第一异常数据的内容包括:
第一请求操作1,第一请求时间30秒,第二请求操作2,第二请求时间10秒,退出操作0。
第二异常数据的内容包括:
第一请求操作1,第一请求时间20秒,第二请求操作2,第二请求时间5秒,退出操作0。
则可以对上述第一异常数据和第二异常数据进行差值,对第一请求时间进行差值的差值方法可以是以第一异常数据为基础数据,第二异常数据作为辅助数据,将第一异常数据和第二异常数据中同一数据类型的数据带入下式得到新的异常数据在同一数据类型的值:
xk=xi+(xi-xj
其中,xk表示新的异常数据在同一数据类型的值,xi表示第一异常数据在同一数据类型的值,xi表示第一异常数据在同一数据类型的值,γ表示0至1之间的随机数。
差值得到新的异常数据例如:
第一请求操作1,第一请求时间14秒,第二请求操作2,第二请求时间7秒,退出操作0。
在一种可能的实现方式中,以所有异常数据中任一异常数据作为基础数据,以异常数据中另一异常数据作为辅助数据,具体包括:根据任一异常数据中各种数据类型的值找到最接近的另一异常数据作为辅助数据。
S3032:将含有异常数据的数据量达到第一预设比例的赋值的历史用户行为数据确定为标准历史用户行为数据。
在本步骤中,在创建新的异常数据的同时,记录异常数据总量,当异常数据总量达到赋值的历史用户行为数据总量的第一预设比例时,停止创建新的异常数据,并将此时的赋值的历史用户行为数据确定为标准历史用户行为数据。
从上述实施例的描述可知,本申请实施例提供了一种增加异常数据的数据量的方法,通过增加异常数据的数据量可以有效缓解随机采样引起的过拟合问题,使训练得到的随机森林模型分类更加准确。
在一种可能的实现方式中,上述步骤S304中使用标准历史用户行为数据进行随机森林模型训练,得到训练好的随机森林模型,具体包括:
S3041:在标准历史用户行为数据中有放回地抽取预设数量的数据作为训练集,将剩余未抽取到的数据作为测试集。
在本步骤中,有放回地抽取预设数量的数据作为训练集,可以是在标准历史用户行为数据中抽取数据后不将该数据从标准历史用户行为数据中去除,后续抽取数据时仍有可能抽到该数据。
S3042:使用训练集对初始的随机森林模型训练,得到待确定的随机森林模型。
在本步骤中,可以预先设置分类树的数量再进行模型训练,默认分类树数量为可能的最大值。
S3043:若将测试集输入待确定的随机森林模型得到的分类结果正确率小于第二预设比例,则重新执行根据赋值的历史用户行为数据,确定标准历史用户行为数据的步骤,并继续执行训练集与测试集的建立以及模型训练的步骤,直至得到的分类结果正确率超过第二预设比例时,得到训练好的随机森林模型。
在本步骤中,分类结果可以包括风险等级,即“无风险”、“低风险”、“中风险”或“高风险”,还可以包括“用户行为数据正常”或“用户行为数据异常”。将得到的分类结果与测试集实际数据作比较即可确定分类是否正确。
从上述实施例的描述可知,本申请实施例提供了随机森林模型训练的具体方法,通过随机森林模型训练可以在没有随机森林模型的情况下建立随机森林模型。
图3为本申请实施例提供的一种行为数据分类处理装置示意图一。如图3所示,行为数据分类处理装置300包括目标数据确定模块301、结果获得模块302、分类结果获得模块303以及分类结果发送模块304。
目标数据确定模块301,用于接收第一客户端发送的用户行为数据,并根据用户行为数据确定目标数据。
结果获得模块302,用于将目标数据输入训练好的随机森林模型,得到训练好的随机森林模型中各个分类树的结果。
分类结果获得模块303,用于根据各个分类树的结果中异常结果占所有结果的比例,确定用户行为数据对应的分类结果。
分类结果发送模块304,用于将分类结果发送至第二客户端以进行显示。
图4为本申请实施例提供的一种行为数据分类处理装置示意图二。如图4所示,行为数据分类处理装置300还包括行为数据获取模块305、赋值数据获得模块306、标准数据确定模块307以及模型获得模块308。
行为数据获取模块305,用于获取历史用户行为数据。
赋值数据获得模块306,用于接收第三客户端发送的赋值信息,并根据赋值信息对历史用户行为数据进行赋值,得到赋值的历史用户行为数据,其中赋值的历史用户行为数据包括正常数据和异常数据。
标准数据确定模块307,用于根据赋值的历史用户行为数据,确定标准历史用户行为数据。
模型获得模块308,用于使用标准历史用户行为数据进行随机森林模型训练,得到训练好的随机森林模型。
继续参考图4。如图4所示,标准数据确定模块307,具体用于以所有异常数据为基础数据,计算得到新的异常数据,并将新的异常数据加入异常数据,直至异常数据的数据量达到赋值的历史用户行为数据的第一预设比例。将含有异常数据的数据量达到第一预设比例的赋值的历史用户行为数据确定为标准历史用户行为数据。
继续参考图4。如图4所示,标准数据确定模块307,还用于以所有异常数据中任一异常数据作为基础数据,以所有异常数据中另一异常数据作为辅助数据,对基础数据和辅助数据进行差值,得到新的异常数据。
继续参考图4。如图4所示,模型获得模块308,还用于在标准历史用户行为数据中有放回地抽取预设数量的数据作为训练集,将剩余未抽取到的数据作为测试集。使用训练集对初始的随机森林模型训练,得到待确定的随机森林模型。若将测试集输入待确定的随机森林模型得到的分类结果正确率小于第二预设比例,则重新执行根据赋值的历史用户行为数据,确定标准历史用户行为数据的步骤,并继续执行训练集与测试集的建立以及模型训练的步骤,直至得到的分类结果正确率超过第二预设比例时,得到训练好的随机森林模型。
图5为本申请实施例提供的一种电子设备的结构示意图。示例的,请参见图5所示,该电子设备500可以包括处理器501,以及与处理器501通信连接的存储器502。
存储器502存储计算机执行指令。
处理器501执行存储器502存储的计算机执行指令,以实现如上述任一实施例提供的数据分类处理方法。
可选地,存储器502既可以是独立的,也可以跟处理器501集成在一起。当存储器502是独立于处理器501之外的器件时,电子设备还可以包括:总线,用于连接存储器502和处理器501。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现上述任一实施例中的数据分类处理方法的技术方案,其实现原理以及有益效果与数据分类处理方法的实现原理及有益效果类似,可参见数据分类处理方法的实现原理及有益效果,此处不再进行赘述。
本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中的数据分类处理方法的技术方案,其实现原理以及有益效果与数据分类处理方法的实现原理及有益效果类似,可参见数据分类处理方法的实现原理及有益效果,此处不再进行赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种行为数据分类处理方法,其特征在于,应用于服务器,包括:
接收第一客户端发送的用户行为数据,并根据所述用户行为数据确定目标数据;
将所述目标数据输入训练好的随机森林模型,得到所述训练好的随机森林模型中各个分类树的结果;
根据所述各个分类树的结果中异常结果占所有结果的比例,确定所述用户行为数据对应的分类结果;
将所述分类结果发送至第二客户端以进行显示。
2.根据权利要求1所述的方法,其特征在于,所述接收第一客户端发送的用户行为数据之前,还包括:
获取历史用户行为数据;
接收第三客户端发送的赋值信息,并根据所述赋值信息对所述历史用户行为数据进行赋值,得到赋值的历史用户行为数据,其中所述赋值的历史用户行为数据包括正常数据和异常数据;
根据所述赋值的历史用户行为数据,确定标准历史用户行为数据;
使用所述标准历史用户行为数据进行随机森林模型训练,得到所述训练好的随机森林模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述赋值的历史用户行为数据,确定标准历史用户行为数据,包括:
以所有异常数据为基础数据,计算得到新的异常数据,并将所述新的异常数据加入所述异常数据,直至所述异常数据的数据量达到所述赋值的历史用户行为数据的第一预设比例;
将含有异常数据的数据量达到所述第一预设比例的赋值的历史用户行为数据确定为标准历史用户行为数据。
4.根据权利要求3所述的方法,其特征在于,所述以所有异常数据为基础数据,计算得到新的异常数据,包括:
以所述所有异常数据中任一异常数据作为基础数据,以所述所有异常数据中另一异常数据作为辅助数据,对所述基础数据和所述辅助数据进行差值,得到新的异常数据。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述使用所述标准历史用户行为数据进行随机森林模型训练,得到所述训练好的随机森林模型,包括:
在所述标准历史用户行为数据中有放回地抽取预设数量的数据作为训练集,将剩余未抽取到的数据作为测试集;
使用所述训练集对初始的随机森林模型训练,得到待确定的随机森林模型;
若将所述测试集输入所述待确定的随机森林模型得到的分类结果正确率小于第二预设比例,则重新执行所述根据所述赋值的历史用户行为数据,确定标准历史用户行为数据的步骤,并继续执行训练集与测试集的建立以及模型训练的步骤,直至得到的所述分类结果正确率超过第二预设比例时,得到所述训练好的随机森林模型。
6.一种行为数据分类处理装置,其特征在于,包括:
目标数据确定模块,用于接收第一客户端发送的用户行为数据,并根据所述用户行为数据确定目标数据;
结果获得模块,用于将所述目标数据输入训练好的随机森林模型,得到所述训练好的随机森林模型中各个分类树的结果;
分类结果获得模块,用于根据所述各个分类树的结果中异常结果占所有结果的比例,确定所述用户行为数据对应的分类结果;
分类结果发送模块,用于将所述分类结果发送至第二客户端以进行显示。
7.根据权利要求6所述的装置,其特征在于,还包括:
行为数据获取模块,用于获取历史用户行为数据;
赋值数据获得模块,用于接收第三客户端发送的赋值信息,并根据所述赋值信息对所述历史用户行为数据进行赋值,得到赋值的历史用户行为数据,其中所述赋值的历史用户行为数据包括正常数据和异常数据;
标准数据确定模块,用于根据所述赋值的历史用户行为数据,确定标准历史用户行为数据;
模型获得模块,用于使用所述标准历史用户行为数据进行随机森林模型训练,得到所述训练好的随机森林模型。
8.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至5中任一项所述的行为数据分类处理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5任一项所述的行为数据分类处理方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至5中任一项所述的行为数据分类处理方法。
CN202111506939.1A 2021-12-10 2021-12-10 行为数据分类处理方法、装置、设备及存储介质 Pending CN114169451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111506939.1A CN114169451A (zh) 2021-12-10 2021-12-10 行为数据分类处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111506939.1A CN114169451A (zh) 2021-12-10 2021-12-10 行为数据分类处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114169451A true CN114169451A (zh) 2022-03-11

Family

ID=80485595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111506939.1A Pending CN114169451A (zh) 2021-12-10 2021-12-10 行为数据分类处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114169451A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996769A (zh) * 2022-08-08 2022-09-02 西安晟昕科技发展有限公司 一种数据预处理和存储的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996769A (zh) * 2022-08-08 2022-09-02 西安晟昕科技发展有限公司 一种数据预处理和存储的方法

Similar Documents

Publication Publication Date Title
CN109345417B (zh) 基于身份认证的业务人员的在线考核方法及终端设备
CN108876464B (zh) 一种作弊行为检测方法、装置、服务设备及存储介质
CN110704677B (zh) 一种节目推荐方法、装置、可读存储介质及终端设备
CN110348471B (zh) 异常对象识别方法、装置、介质及电子设备
CN113268641B (zh) 基于大数据的用户数据处理方法及大数据服务器
CN114265740A (zh) 错误信息处理方法、装置、设备及存储介质
CN114169451A (zh) 行为数据分类处理方法、装置、设备及存储介质
CN112465565B (zh) 一种基于机器学习的用户画像预测的方法及装置
CN113010785A (zh) 用户推荐方法及设备
CN110728585A (zh) 核保方法、装置、设备及存储介质
CN110070383B (zh) 基于大数据分析的异常用户识别方法及装置
CN113032278B (zh) 应用程序的运行方式、终端设备的等级确认方法及装置
CN110297989B (zh) 异常检测的测试方法、装置、设备和介质
CN112416699A (zh) 指标数据收集方法及***
CN111263351A (zh) 业务处理方法、业务处理装置、电子设备及存储介质
CN112907395A (zh) 一种客户类型识别方法、装置及设备
CN113301597B (zh) 网络分析方法及设备
CN113905400B (zh) 网络优化处理方法、装置、电子设备及存储介质
CN111400174B (zh) 数据源的应用效能的确定方法、装置和服务器
CN112261484B (zh) 一种目标用户识别方法、装置、电子设备和存储介质
CN114265537B (zh) 数据中心监控***使用方式的展示方法及设备
CN113051128B (zh) 功耗检测方法、装置、电子设备及存储介质
CN114327377B (zh) 需求跟踪矩阵生成方法、装置、计算机设备及存储介质
CN110928788B (zh) 服务验证方法及设备
CN110648208B (zh) 群组识别方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination