CN111651500A - 用户身份识别方法、电子设备及存储介质 - Google Patents

用户身份识别方法、电子设备及存储介质 Download PDF

Info

Publication number
CN111651500A
CN111651500A CN202010476727.2A CN202010476727A CN111651500A CN 111651500 A CN111651500 A CN 111651500A CN 202010476727 A CN202010476727 A CN 202010476727A CN 111651500 A CN111651500 A CN 111651500A
Authority
CN
China
Prior art keywords
data
sample data
user
negative sample
positive sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010476727.2A
Other languages
English (en)
Inventor
张惠玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010476727.2A priority Critical patent/CN111651500A/zh
Publication of CN111651500A publication Critical patent/CN111651500A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种用户身份识别方法,所述用户身份识别方法包括:接收用户输入的携带有原始数据的个人申报请求;从所述原始数据中提取出符合申报要求的多个第一特征数据;对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据;将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中,获得每个所述融合模型的输出结果,其中,所述融合模型用于对个人申报请求的合法性进行二分类;根据多个所述输出结果,对所述个人申报请求进行合法性预测,以对所述用户进行身份识别。本发明还提供一种电子设备和存储介质。本发明能对用户的身份进行精准识别。

Description

用户身份识别方法、电子设备及存储介质
技术领域
本发明涉及智能终端技术领域,尤其涉及一种用户身份识别方法、电子设备及存储介质。
背景技术
目前,随着网络技术的发展和普及,各行各业的工作开展越来越离不开网络。通常,用户需要在网络上填写信息,提交相关资料,以使得信息通过网络进行传输。各行各业通过网络来实现信息的交互。
然而,由于网络的复杂性,用户在线提交各种类型的资料时,是无法对用户的身份(合法用户或非法用户)进行精准识别的,如果非法用户提交的资料在网络上进行传输,很容易造成不好的影响。
因此,如何对用户的身份进行精准识别是一个亟待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种用户身份识别方法、电子设备及存储介质,能够对用户的身份进行精准识别。
本发明的第一方面提供一种用户身份识别方法,所述用户身份识别方法包括:
接收用户输入的携带有原始数据的个人申报请求;
从所述原始数据中提取出符合申报要求的多个第一特征数据;
对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据;
将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中,获得每个所述融合模型的输出结果,其中,所述融合模型用于对个人申报请求的合法性进行二分类;
根据多个所述输出结果,对所述个人申报请求进行合法性预测,以对所述用户进行身份识别。
在一种可能的实现方式中,所述对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据包括:
确定所述个人申报请求所需请求的个人申报项目;
获取与所述个人申报项目匹配的关键指标参数;
基于所述关键指标参数,对多个所述第一特征数据进行挖掘,获得新增的与所述关键指标参数匹配的第二特征数据。
在一种可能的实现方式中,所述对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据包括:
对多个所述第一特征数据按照预设维度进行分类,获得多个维度的第一特征数据;
针对每个维度的所述第一特征数据,获取所述维度的数据挖掘算法;
根据所述数据挖掘算法,对所述维度的第一特征数据进行挖掘,获得新增的第二特征数据。
在一种可能的实现方式中,所述将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中,获得每个所述融合模型的输出结果包括:
将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中;
通过每个所述融合模型,根据多个所述第一特征数据和多个所第二特征数据,判断所述原始数据的有效性;
若所述原始数据有效,则输出用于表示个人申报请求合法的输出结果;或
若所述原始数据无效,则输出用于表示个人申报请求非法的输出结果。
在一种可能的实现方式中,所述根据多个所述输出结果,对所述个人申报请求进行合法性预测,以对所述用户进行身份识别包括:
判断多个所述输出结果中是否存在用于表示所述个人申报请求属于非法请求的输出结果;
若多个所述输出结果中存在用于表示所述个人申报请求属于非法请求的输出结果,确定所述用户为非法用户;
若多个所述输出结果中不存在用于表示所述个人申报请求属于非法请求的输出结果,确定所述用户为合法用户。
在一种可能的实现方式中,所述接收用户输入的携带有原始数据的个人申报请求之前,所述用户身份识别方法还包括:
获取合法用户的正样本数据以及非法用户的负样本数据;
判断所述正样本数据的数量与所述负样本数据的数量的比例值是否大于或等于预设阈值;
若所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,采用过采样负样本的策略,对所述负样本数据进行重复采样,以使得重复采样后的负样本数据的数量与所述正样本数据的数量保持一致;
将所述正样本数据以及重复采样后的负样本数据分别输入至多个不同类型的初始模型框架中进行训练,获得训练好的多个融合模型。
在一种可能的实现方式中,所述接收用户输入的携带有原始数据的个人申报请求之前,所述用户身份识别方法还包括:
获取合法用户的正样本数据以及非法用户的负样本数据;
判断所述正样本数据的数量与所述负样本数据的数量的比例值是否大于或等于预设阈值;
若所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,采用欠采样正样本的策略,对所述正样本数据进行随机采样,以使得随机采样后的正样本数据的数量与所述负样本数据的数量保持一致;
将随机采样后的正样本数据以及所述负样本数据分别输入至多个不同类型的初始模型框架中进行训练,获得训练好的多个融合模型。
在一种可能的实现方式中,所述接收用户输入的携带有原始数据的个人申报请求之前,所述用户身份识别方法还包括:
获取合法用户的正样本数据以及非法用户的负样本数据;
判断所述正样本数据的数量与所述负样本数据的数量的比例值是否大于或等于预设阈值;
若所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,根据所述正样本数据的数量与所述负样本数据的数量,确定正样本权重和负样本权重;
在多个不同类型的初始模型框架中设置所述正样本权重和所述负样本权重;
将所述正样本数据与所述负样本数据分别输入至设置权重后的多个初始模型框架中进行训练,获得训练好的多个融合模型。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的用户身份识别方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的用户身份识别方法。
由以上技术方案,本发明中,在接收到用户输入的原始数据之后,可以从原始数据中提取第一特征数据对第一特征数据进行挖掘,获得新增的第二特征数据,从而能够增加特征数据的数量,使得有足够的特征数据用于模型的检测,将第一特征数据和第二特征数据输入多个融合模型中,能够增加模型识别的准确性,从而能够精准地对用户的身份进行识别,提高识别的准确性。
附图说明
图1是本发明公开的一种用户身份识别方法的较佳实施例的流程图。
图2是本发明公开的一种用户身份识别装置的较佳实施例的功能模块图。
图3是本发明实现用户身份识别方法的较佳实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
图1是本发明公开的一种用户身份识别方法的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、接收用户输入的携带有原始数据的个人申报请求。
其中,该原始数据可以包括用户的个人基本信息(比如用户姓名、用户年龄)以及与所述个人申报请求匹配的申报信息,比如:个人申报请求用于请求申报个人津贴,则该申报信息可以是与个人津贴相关的资料;又比如:个人申报请求用于请求申报个人资格认证,则该申报信息可以是与个人资格认证相关的资料。
S12、从所述原始数据中提取出符合申报要求的多个第一特征数据。
其中,用户输入的原始数据可能有些是符合要求的,有些是不符合要求的,可以根据申报要求对原始数据进行一一筛选,从中提取出符合申报要求的第一特征数据。比如:个人申报请求用于请求申报个人津贴,符合要求的第一特征数据可以是个人从事的职业,工作所在地,个人的年收入,个人的开销等等数据。
可选的,可以对所述原始数据进行缺失值处理、异常值处理、转换数据类型、组合新变量以及数据标准化处理等。
S13、对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据。
由于用户输入的原始数据是有限的,而且提取出来的第一特征数据更是有限的。为了能够更精准的识别出用户的身份,需要基于有限的特征数据挖掘出更多隐含的特征数据。其中,可以直接对第一特征数据进行计算,获得所述原始数据中没有挖掘到的新信息,并作为新增的第二特征数据。或者,可以根据第一特征数据,通过网络爬虫技术,从网络上获取与第一特征数据相关的第二特征数据。
比如:第一特征数据为个人最近几个月的收入,可以进行均值计算,获得平均值作为第二特征数据,又比如:第一特征数据为个人从事的职业,工作所在地,可以从网络上挖掘并获取工作所在地所属的区域中,关于该职业的个人薪资范围以及平均薪资等数据作为第二特征数据。
需要说明的是,新增的第二特征数据属于第一特征数据中隐含的信息,可以通过对多个第一特征数据进行挖掘,以弥补第一特征数据的不足。
具体的,所述对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据包括:
确定所述个人申报请求所需请求的个人申报项目;
获取与所述个人申报项目匹配的关键指标参数;
基于所述关键指标参数,对多个所述第一特征数据进行挖掘,获得新增的与所述关键指标参数匹配的第二特征数据。
通常,针对个人申报项目,可以预设一些关键指标参数,用于衡量申报能否成功,比如个人申报项目为个人津贴,可以设置关键指标参数为个人的平均年收入,假设多个所述第一特征数据为近几年用户每年的年收入,则可以对多个所述第一特征数进行均值计算,获得用户近几年的平均年收入,并将平均年收入作为第二特征数据。
具体的,所述对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据包括:
对多个所述第一特征数据按照预设维度进行分类,获得多个维度的第一特征数据;
针对每个维度的所述第一特征数据,获取所述维度的数据挖掘算法;
根据所述数据挖掘算法,对所述维度的第一特征数据进行挖掘,获得新增的第二特征数据。
其中,可以预先设置多个预设维度,比如时间维度、区域维度等。假设多个所述第一特征数据中存在随时间变化的数据,比如用户最近几个月的数据,又假设多个所述第一特征数据中存在不同区域的数据,则可以分别按照预设维度对多个第一特征数据进行分类,并获取相应的数据挖掘算法,比如,时间维度的第一特征数据可以进行方差计算,区域维度的第一特征数据可以进行均值计算等等,并将计算后的结果作为新增的第二特征数据。
S14、将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中,获得每个所述融合模型的输出结果,其中,所述融合模型用于对个人申报请求的合法性进行二分类。
其中,每个融合模型的输出结果可以用二分类的标识来表示,比如标识“1”表示所述个人申报请求属于非法请求,所述用户为非法用户;标识“0”表示所述个人申报请求属于合法请求,所述用户为合法用户。
具体的,所述将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中,获得每个所述融合模型的输出结果包括:
将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中;
通过每个所述融合模型,根据多个所述第一特征数据和多个所第二特征数据,判断所述原始数据的有效性;
若所述原始数据有效,则输出用于表示个人申报请求合法的输出结果;或
若所述原始数据无效,则输出用于表示个人申报请求非法的输出结果。
其中,故意提供虚假资料、编造未曾发生的数据或者故意制造数据以及其他经权威机构认定为非法信息的数据均被认为是无效数据,相应的,个人申报请求也被认为是非法请求。
举例来说,假设第一特征数据为个人从事的职业,工作所在地、个人月收入、个人月开销等,经过挖掘,从网络上获取工作所在地所属的区域中,关于该职业的个人薪资范围、平均薪资、生活开销等数据作为第二特征数据,通过融合模型,将第一特征数据与第二特征数据进行比较,发现第一特征数据与第二特征数据严重不符,比如第一特征数据中的个人月收入远远超出了第二特征数据中的个人薪资范围,因此,可以表明第一特征数据对应的原始数据是无效的,反之,如果第一特征数据与第二特征数据相符合,表明第一特征数据对应的原始数据是有效的。
本案中,多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中后,由于每个融合模型的分析逻辑是不同的,因此,每个融合模型的输出结果肯能相同,也可能不同。如果任一个融合模型,根据多个所述第一特征数据和多个所述第二特征数据来分析,判断出所述第一特征数据不符合要求,则表明所述第一特征数据对应的原始数据也是不符合要求的,也即原始数据是无效的。
本案中,通过从原始数据中提取第一特征数据,同时,根据第一特征数据来挖掘第二特征数据,并结合融合模型的二分类判断,可以识别出原始数据的有效性,从而可以确定个人申报请求的合法性,能够有效地对提出个人申报请求的用户的身份的合法性进行推断。
作为一种可选的实施方式,步骤S11之前,所述用户身份识别方法还包括:
获取合法用户的正样本数据以及非法用户的负样本数据;
判断所述正样本数据的数量与所述负样本数据的数量的比例值是否大于或等于预设阈值;
若所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,采用过采样负样本的策略,对所述负样本数据进行重复采样,以使得重复采样后的负样本数据的数量与所述正样本数据的数量保持一致;
将所述正样本数据以及重复采样后的负样本数据分别输入至多个不同类型的初始模型框架中进行训练,获得训练好的多个融合模型。
在该可选的实施方式中,可以预先设置一个预设阈值,该预设阈值用于衡量正负样本数据的数量之间的均衡性。如果判断出所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,表明当前所述正样本数据的数量远远超过所述负样本数据的数量,即所述正样本数据的数量与所述负样本数据的数量呈现严重不平衡的状态。
可以采用过采样负样本的策略,使得二者的数量达到均衡。具体的,可以对所述负样本数据进行重复采样,即将所述负样本数据重复复制几份,以获得更多的负样本数据,使得重复采样后的负样本数据的数量与所述正样本数据的数量保持一致,这样,将所述正样本数据以及重复采样后的负样本数据分别输入至多个不同类型的初始模型框架中进行训练,就不会出现正负样本数量严重不均衡导致训练出的模型不精准的问题。
作为一种可选的实施方式,步骤S11之前,所述用户身份识别方法还包括:
获取合法用户的正样本数据以及非法用户的负样本数据;
判断所述正样本数据的数量与所述负样本数据的数量的比例值是否大于或等于预设阈值;
若所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,采用欠采样正样本的策略,对所述正样本数据进行随机采样,以使得随机采样后的正样本数据的数量与所述负样本数据的数量保持一致;
将随机采样后的正样本数据以及所述负样本数据分别输入至多个不同类型的初始模型框架中进行训练,获得训练好的多个融合模型。
在该可选的实施方式中,可以预先设置一个预设阈值,该预设阈值用于衡量正负样本数据的数量之间的均衡性。如果判断出所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,表明当前所述正样本数据的数量远远超过所述负样本数据的数量,即所述正样本数据的数量与所述负样本数据的数量呈现严重不平衡的状态。
可以采用欠采样正样本的策略,使得二者的数量达到均衡。具体的,可以对所述正样本数据进行随机采样,即从所述正样本数据中随机选择一部分数据,以减少正样本数据的数量,使得随机采样后的正样本数据的数量与所述负样本数据的数量保持一致,这样,将随机采样后的正样本数据以及负样本数据分别输入至多个不同类型的初始模型框架中进行训练,就不会出现正负样本数量严重不均衡导致训练出的模型不精准的问题。
作为一种可选的实施方式,步骤S11之前,所述用户身份识别方法还包括:
获取合法用户的正样本数据以及非法用户的负样本数据;
判断所述正样本数据的数量与所述负样本数据的数量的比例值是否大于或等于预设阈值;
若所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,根据所述正样本数据的数量与所述负样本数据的数量,确定正样本权重和负样本权重;
在多个不同类型的初始模型框架中设置所述正样本权重和所述负样本权重;
将所述正样本数据与所述负样本数据分别输入至设置权重后的多个初始模型框架中进行训练,获得训练好的多个融合模型。
在该可选的实施方式中,可以预先设置一个预设阈值,该预设阈值用于衡量正负样本数据的数量之间的均衡性。如果判断出所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,表明当前所述正样本数据的数量远远超过所述负样本数据的数量,即所述正样本数据的数量与所述负样本数据的数量呈现严重不平衡的状态。
由于正负样本数据的处理呈现严重不平衡的状态,因此,在进行模型训练时,需要根据所述正样本数据的数量与所述负样本数据的数量,在多个不同类型的初始模型框架的损失函数中设置正样本权重和负样本权重,具体的,如果所述正样本数据的数量远远大于所述负样本数据的数量,则在设置权重时,相应的,正样本权重的值会远远小于负样本权重的值,相反的,如果所述正样本数据的数量远远小于所述负样本数据的数量,则在设置权重时,相应的,正样本权重的值会远远大于负样本权重的值。通过这样的设置,可以在模型训练时,更好地贴合实际,使得最后训练出来的模型更加精准。
其中,多个不同类型的初始模型框架比如xgboost/gbdt/lr/scorecard,其中,gboost可自定义损失函数,只要函数一阶二阶可导,所以可以通过调整代价函数的形式、参数值,可以使得其在模型训练时对于不同样本类别的权重是不同的,gbdt同样可自定义损失函数,只要函数是一阶可导即可;lr逻辑回归算法一般选择的是对数损失函数;scorecard评分卡模型是对变量做了分箱处理后,本质上是线性回归模型,同样可选择不同的损失函数,比如平方损失、绝对损失等。
S15、根据多个所述输出结果,对所述个人申报请求进行合法性预测,以对所述用户进行身份识别。
具体的,所述根据多个所述输出结果,对所述个人申报请求进行合法性预测,以对所述用户进行身份识别包括:
判断多个所述输出结果中是否存在用于表示所述个人申报请求属于非法请求的输出结果;
若多个所述输出结果中存在用于表示所述个人申报请求属于非法请求的输出结果,确定所述用户为非法用户;
若多个所述输出结果中不存在用于表示所述个人申报请求属于非法请求的输出结果,确定所述用户为合法用户。
其中,多个所述输出结果中,如果存在一个输出结果表示所述个人申报请求属于非法请求,比如4个输出结果中,存在1个或2个或3个或4个输出结果表示所述个人申报请求属于非法请求,则可以确定所述用户为非法用户,反之,多个所述输出结果中,如果不存在表示所述个人申报请求属于非法请求,比如4个输出结果均表示所述个人申报请求属于合法请求,则可以确定所述用户为合法用户。
本案中,通过多个融合模型的多个输出结果,来对个人申报请求进行合法性预测,可以避免由于一个融合模型的缺陷而导致预测的误差,从而可以提高预测的准确性。
在图1所描述的方法流程中,在接收到用户输入的原始数据之后,可以从原始数据中提取第一特征数据对第一特征数据进行挖掘,获得新增的第二特征数据,从而能够增加特征数据的数量,使得有足够的特征数据用于模型的检测,将第一特征数据和第二特征数据输入多个融合模型中,能够增加模型识别的准确性,从而能够精准地对用户的身份进行识别,提高识别的准确性。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
图2是本发明公开的一种用户身份识别装置的较佳实施例的功能模块图。
在一些实施例中,所述用户身份识别装置运行于电子设备中。所述用户身份识别装置可以包括多个由程序代码段所组成的功能模块。所述用户身份识别装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的用户身份识别方法中的部分或全部步骤,具体请参考图1中的相关描述,在此不再赘述。
本实施例中,所述用户身份识别装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:接收模块201、提取模块202、挖掘模块203、输入模块204及预测模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
接收模块201,用于接收用户输入的携带有原始数据的个人申报请求。
提取模块202,用于从所述原始数据中提取出符合申报要求的多个第一特征数据。
挖掘模块203,用于对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据。
输入模块204,用于将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中,获得每个所述融合模型的输出结果,其中,所述融合模型用于对个人申报请求的合法性进行二分类。
预测模块205,用于根据多个所述输出结果,对所述个人申报请求进行合法性预测,以对所述用户进行身份识别。
在图2所描述的用户身份识别装置中,在接收到用户输入的原始数据之后,可以从原始数据中提取第一特征数据对第一特征数据进行挖掘,获得新增的第二特征数据,从而能够增加特征数据的数量,使得有足够的特征数据用于模型的检测,将第一特征数据和第二特征数据输入多个融合模型中,能够增加模型识别的准确性,从而能够精准地对用户的身份进行识别,提高识别的准确性。
图3是本发明实现用户身份识别方法的较佳实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。
本领域技术人员可以理解,图3所示的示意图仅仅是所述电子设备3的示例,并不构成对所述电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备等。
所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据)等。此外,存储器31可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
结合图1,所述电子设备3中的所述存储器31存储多个指令以实现一种用户身份识别方法,所述处理器32可执行所述多个指令从而实现:
接收用户输入的携带有原始数据的个人申报请求;
从所述原始数据中提取出符合申报要求的多个第一特征数据;
对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据;
将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中,获得每个所述融合模型的输出结果,其中,所述融合模型用于对个人申报请求的合法性进行二分类;
根据多个所述输出结果,对所述个人申报请求进行合法性预测,以对所述用户进行身份识别。
具体地,所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图3所描述的电子设备3中,在接收到用户输入的原始数据之后,可以从原始数据中提取第一特征数据对第一特征数据进行挖掘,获得新增的第二特征数据,从而能够增加特征数据的数量,使得有足够的特征数据用于模型的检测,将第一特征数据和第二特征数据输入多个融合模型中,能够增加模型识别的准确性,从而能够精准地对用户的身份进行识别,提高识别的准确性。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器以及只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种用户身份识别方法,其特征在于,所述用户身份识别方法包括:
接收用户输入的携带有原始数据的个人申报请求;
从所述原始数据中提取出符合申报要求的多个第一特征数据;
对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据;
将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中,获得每个所述融合模型的输出结果,其中,所述融合模型用于对个人申报请求的合法性进行二分类;
根据多个所述输出结果,对所述个人申报请求进行合法性预测,以对所述用户进行身份识别。
2.根据权利要求1所述的用户身份识别方法,其特征在于,所述对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据包括:
确定所述个人申报请求所需请求的个人申报项目;
获取与所述个人申报项目匹配的关键指标参数;
基于所述关键指标参数,对多个所述第一特征数据进行挖掘,获得新增的与所述关键指标参数匹配的第二特征数据。
3.根据权利要求1所述的用户身份识别方法,其特征在于,所述对多个所述第一特征数据进行挖掘,获得新增的多个第二特征数据包括:
对多个所述第一特征数据按照预设维度进行分类,获得多个维度的第一特征数据;
针对每个维度的所述第一特征数据,获取所述维度的数据挖掘算法;
根据所述数据挖掘算法,对所述维度的第一特征数据进行挖掘,获得新增的第二特征数据。
4.根据权利要求1所述的用户身份识别方法,其特征在于,所述将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中,获得每个所述融合模型的输出结果包括:
将多个所述第一特征数据以及多个所述第二特征数据输入至预先训练好的多个融合模型中;
通过每个所述融合模型,根据多个所述第一特征数据和多个所第二特征数据,判断所述原始数据的有效性;
若所述原始数据有效,则输出用于表示个人申报请求合法的输出结果;或
若所述原始数据无效,则输出用于表示个人申报请求非法的输出结果。
5.根据权利要求1所述的用户身份识别方法,其特征在于,所述根据多个所述输出结果,对所述个人申报请求进行合法性预测,以对所述用户进行身份识别包括:
判断多个所述输出结果中是否存在用于表示所述个人申报请求属于非法请求的输出结果;
若多个所述输出结果中存在用于表示所述个人申报请求属于非法请求的输出结果,确定所述用户为非法用户;
若多个所述输出结果中不存在用于表示所述个人申报请求属于非法请求的输出结果,确定所述用户为合法用户。
6.根据权利要求1至5中任一项所述的用户身份识别方法,其特征在于,所述接收用户输入的携带有原始数据的个人申报请求之前,所述用户身份识别方法还包括:
获取合法用户的正样本数据以及非法用户的负样本数据;
判断所述正样本数据的数量与所述负样本数据的数量的比例值是否大于或等于预设阈值;
若所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,采用过采样负样本的策略,对所述负样本数据进行重复采样,以使得重复采样后的负样本数据的数量与所述正样本数据的数量保持一致;
将所述正样本数据以及重复采样后的负样本数据分别输入至多个不同类型的初始模型框架中进行训练,获得训练好的多个融合模型。
7.根据权利要求1至5中任一项所述的用户身份识别方法,其特征在于,所述接收用户输入的携带有原始数据的个人申报请求之前,所述用户身份识别方法还包括:
获取合法用户的正样本数据以及非法用户的负样本数据;
判断所述正样本数据的数量与所述负样本数据的数量的比例值是否大于或等于预设阈值;
若所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,采用欠采样正样本的策略,对所述正样本数据进行随机采样,以使得随机采样后的正样本数据的数量与所述负样本数据的数量保持一致;
将随机采样后的正样本数据以及所述负样本数据分别输入至多个不同类型的初始模型框架中进行训练,获得训练好的多个融合模型。
8.根据权利要求1至5中任一项所述的用户身份识别方法,其特征在于,所述接收用户输入的携带有原始数据的个人申报请求之前,所述用户身份识别方法还包括:
获取合法用户的正样本数据以及非法用户的负样本数据;
判断所述正样本数据的数量与所述负样本数据的数量的比例值是否大于或等于预设阈值;
若所述正样本数据的数量与所述负样本数据的数量的比例值大于或等于预设阈值,根据所述正样本数据的数量与所述负样本数据的数量,确定正样本权重和负样本权重;
在多个不同类型的初始模型框架中设置所述正样本权重和所述负样本权重;
将所述正样本数据与所述负样本数据分别输入至设置权重后的多个初始模型框架中进行训练,获得训练好的多个融合模型。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至8中任意一项所述的用户身份识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任意一项所述的用户身份识别方法。
CN202010476727.2A 2020-05-29 2020-05-29 用户身份识别方法、电子设备及存储介质 Pending CN111651500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010476727.2A CN111651500A (zh) 2020-05-29 2020-05-29 用户身份识别方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010476727.2A CN111651500A (zh) 2020-05-29 2020-05-29 用户身份识别方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111651500A true CN111651500A (zh) 2020-09-11

Family

ID=72346875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010476727.2A Pending CN111651500A (zh) 2020-05-29 2020-05-29 用户身份识别方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111651500A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732846A (zh) * 2021-01-27 2021-04-30 深圳市科荣软件股份有限公司 水务运营分析***、方法、电子设备及存储介质
CN112784888A (zh) * 2021-01-12 2021-05-11 ***股份有限公司 用户识别方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784888A (zh) * 2021-01-12 2021-05-11 ***股份有限公司 用户识别方法、装置、设备及存储介质
CN112732846A (zh) * 2021-01-27 2021-04-30 深圳市科荣软件股份有限公司 水务运营分析***、方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112669138B (zh) 数据处理方法及相关设备
CN112181835B (zh) 自动化测试方法、装置、计算机设备及存储介质
CN111931047B (zh) 基于人工智能的黑产账号检测方法及相关装置
CN111651500A (zh) 用户身份识别方法、电子设备及存储介质
CN110764999A (zh) 自动化测试方法、装置、计算机装置及存储介质
CN111210321B (zh) 一种基于合同管理的风险预警方法及***
CN111783871A (zh) 基于有监督学习模型的异常数据识别方法及相关设备
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN112181482B (zh) 版本验证方法、装置、电子设备及存储介质
CN111784360B (zh) 一种基于网络链接回溯的反欺诈预测方法及***
CN117495544A (zh) 一种基于沙箱的风控评估方法、***、终端及存储介质
CN112966965A (zh) 进出口大数据的分析和决策方法、装置、设备及存储介质
CN112990868A (zh) 车辆保险自动赔付方法、***、设备及存储介质
CN112085611A (zh) 数据异步核验方法、装置、电子设备及存储介质
CN113763057A (zh) 用户身份画像的数据处理方法和装置
CN111242779A (zh) 金融数据特征选择和预测方法、装置、设备及存储介质
CN115577983A (zh) 基于区块链的企业任务匹配方法、服务器及存储介质
CN114595216A (zh) 数据校验方法、装置、存储介质及电子设备
CN112328779B (zh) 训练样本构建方法、装置、终端设备及存储介质
CN115037790A (zh) 异常注册识别方法、装置、设备及存储介质
CN114840668A (zh) 网络文本审核方法、电子设备及存储介质
CN106169158A (zh) 一种金融账户资产信息分析控制***及方法
CN110647454A (zh) 确定***用户访问信息的方法及装置
CN111612023A (zh) 一种分类模型构建方法及装置
CN114020687B (zh) 用户留存分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination