CN113761908B - 一种存量用户信息的处理方法和装置 - Google Patents
一种存量用户信息的处理方法和装置 Download PDFInfo
- Publication number
- CN113761908B CN113761908B CN202011355371.3A CN202011355371A CN113761908B CN 113761908 B CN113761908 B CN 113761908B CN 202011355371 A CN202011355371 A CN 202011355371A CN 113761908 B CN113761908 B CN 113761908B
- Authority
- CN
- China
- Prior art keywords
- stock
- user information
- user
- information
- stock user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012549 training Methods 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000003058 natural language processing Methods 0.000 claims abstract description 25
- 238000011156 evaluation Methods 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种存量用户信息的处理和装置,涉及计算机技术领域。该方法的一具体实施方式包括:响应于对存量用户信息的处理请求,采用自然语言处理算法和梯度提升树算法训练得到识别模型;获取存量用户信息调用识别模型对存量用户信息进行检测,得到存量用户信息中存在的目标词以及目标词等级,生成存量用户信息的等级集合;根据等级集合中的最高等级调用处理流程库中对应的流程对存量用户信息进行处理。该实施方式能够采用自然语言处理算法和梯度提升树算法训练得到识别模型,并调用该识别模型对存量用户信息进行检测,得到所述存量用户信息中存在的目标词以及目标词等级,进而调用相应的流程做出处理,对存量用户信息内容进行安全管控。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种存量用户信息的处理方法和装置。
背景技术
互联网***中的用户信息内容,需要从***层面进行内容安全治理,避免用户信息内容违反国家法律法规或侵犯他人权益。现有技术中,通常是使用固定的目标词库对用户新注册的信息或新发布的信息进行检测和处理。
在实现本发明过程中,现有技术中至少存在如下问题:
由于目标词库是固定的,故在对存量用户信息进行检测时几乎没有效果,进而无法对存量用户信息内容进行安全管控。
发明内容
有鉴于此,本发明实施例提供一种存量用户信息的处理方法和装置,能够采用自然语言处理算法和梯度提升树算法进行模型训练,得到能够识别出目标词以及目标词的扩展词的识别模型,并调用该识别模型对存量用户信息进行检测,得到所述存量用户信息中存在的目标词以及目标词等级,进而调用处理流程库中相应的流程做出处理,对存量用户信息内容进行安全管控。
为实现上述目的,根据本发明实施例的一个方面,提供了一种存量用户信息的处理方法,包括:
响应于对存量用户信息的处理请求,调取用户信息样本、样本特征、样本标签,采用算法和梯度提升树算法训练得到识别模型;
获取存量用户信息,调用所述识别模型对所述存量用户信息进行检测,得到所述存量用户信息中存在的目标词以及目标词等级,生成所述存量用户信息的等级集合;
根据等级集合中的最高等级,调用处理流程库中与所述最高等级对应的流程,对所述存量用户的权限配置信息进行更新。
可选地,所述调取用户信息样本、样本特征、样本标签,包括:
调取已知处理结果的用户信息历史数据,从中选取预设数量的历史用户信息,以作为所述用户信息样本;
将所述历史用户信息的特征作为所述样本特征;以及,将所述处理结果中的历史用户信息对应等级、历史用户信息中历史目标词等级,作为所述样本标签。
可选地,采用自然语言处理算法和梯度提升树算法训练得到识别模型,包括:
采用自然语言处理算法对所述历史用户信息进行分词处理,并基于调取到的舆情信息对分词处理得到的词进行语音、语义扩展,得到历史扩展词集合;
以所述历史用户信息、所述历史扩展词集合共同作为训练样本,根据所述训练样本、样本特征、样本标签,采用梯度提升树算法训练得到所述识别模型。
可选地,所述存量用户信息的等级集合包括:目标词、目标词等级、目标词所对应的存量用户信息、目标词所对应的存量用户的用户标识;
所述根据等级集合中的最高等级,调用处理流程库中与所述最高等级对应的流程,对所述存量用户的权限配置信息进行更新,包括:
对于同一用户标识,以存量用户信息中目标词的目标词等级中的最高等级,作为该存量用户信息的等级;以存量用户的所有存量用户信息的等级中的最高等级,作为该存量用户的等级;
调用处理流程库中与所述存量用户的等级对应的流程,对所述存量用户的权限配置信息进行更新。
可选地,所述调用处理流程库中与所述存量用户的等级对应的流程,对所述存量用户的权限配置信息进行更新,包括:
当存量用户的等级为高,对该存量用户的用户账号使用权限进行禁用处理,并通知该存量用户;
当存量用户的等级为中,对该存量用户的等级为中的用户信息的展示权限进行禁用处理,并通知该存量用户;
当存量用户的等级为低,对该存量用户的用户信息中等级为低的目标词的展示权限进行限制展示处理,并通知该存量用户;
其中,用户信息至少包括:用户注册信息、用户发布信息。
可选地,在调用所述识别模型对所述存量用户信息进行检测后,还包括:
根据得到的所述存量用户信息中存在的目标词以及目标词等级,以及检测过程中生成的扩展词以及扩展词等级,生成扩展目标词集合;
所述扩展目标词集合用于对新的用户注册信息或新的用户发布信息进行检测。
可选地,上述存量用户信息的处理方法还包括:
获取模型评估数据,根据所述模型评估数据对所述识别模型进行评估,生成第一评估结果;根据所述第一评估结果对所述识别模型进行优化;和/或,
在对所述存量用户的权限配置信息进行更新后,接收客户端发送的用户反馈信息,根据所述用户反馈信息生成第二评估结果;根据所述第二评估结果对所述识别模型进行优化。
根据本发明实施例的再一个方面,提供了一种存量用户信息的处理装置,包括:
训练模块,用于响应于对存量用户信息的处理请求,调取用户信息样本、样本特征、样本标签,采用自然语言处理算法和梯度提升树算法训练得到识别模型;
检测模块,用于获取存量用户信息,调用所述识别模型对所述存量用户信息进行检测,得到所述存量用户信息中存在的目标词以及目标词等级,生成所述存量用户信息的等级集合;
处理模块,用于根据等级集合中的最高等级,调用处理流程库中与所述最高等级对应的流程,对所述存量用户的权限配置信息进行更新。
可选地,所述调取用户信息样本、样本特征、样本标签,包括:
调取已知处理结果的用户信息历史数据,从中选取预设数量的历史用户信息,以作为所述用户信息样本;
将所述历史用户信息的特征作为所述样本特征;以及,将所述处理结果中的历史用户信息对应等级、历史用户信息中历史目标词等级,作为所述样本标签。
可选地,采用自然语言处理算法和梯度提升树算法训练得到识别模型,包括:
采用自然语言处理算法对所述历史用户信息进行分词处理,并基于调取到的舆情信息对分词处理得到的词进行语音、语义扩展,得到历史扩展词集合;
以所述历史用户信息、所述历史扩展词集合共同作为训练样本,根据所述训练样本、样本特征、样本标签,采用梯度提升树算法训练得到所述识别模型。
可选地,所述存量用户信息的等级集合包括:目标词、目标词等级、目标词所对应的存量用户信息、目标词所对应的存量用户的用户标识;
所述根据等级集合中的最高等级,调用处理流程库中与所述最高等级对应的流程,对所述存量用户的权限配置信息进行更新,包括:
对于同一用户标识,以存量用户信息中目标词的目标词等级中的最高等级,作为该存量用户信息的等级;以存量用户的所有存量用户信息的等级中的最高等级,作为该存量用户的等级;
调用处理流程库中与所述存量用户的等级对应的流程,对所述存量用户的权限配置信息进行更新。
可选地,所述调用处理流程库中与所述存量用户的等级对应的流程,对所述存量用户的权限配置信息进行更新,包括:
当存量用户的等级为高,对该存量用户的用户账号使用权限进行禁用处理,并通知该存量用户;
当存量用户的等级为中,对该存量用户的等级为中的用户信息的展示权限进行禁用处理,并通知该存量用户;
当存量用户的等级为低,对该存量用户的用户信息中等级为低的目标词的展示权限进行限制展示处理,并通知该存量用户;
其中,用户信息至少包括:用户注册信息、用户发布信息。
可选地,在调用所述识别模型对所述存量用户信息进行检测后,还包括:
根据得到的所述存量用户信息中存在的目标词以及目标词等级,以及检测过程中生成的扩展词以及扩展词等级,生成扩展目标词集合;
所述扩展目标词集合用于对新的用户注册信息或新的用户发布信息进行检测。
可选地,上述存量用户信息的处理装置还用于:
获取模型评估数据,根据所述模型评估数据对所述识别模型进行评估,生成第一评估结果;根据所述第一评估结果对所述识别模型进行优化;和/或,
在对所述存量用户的权限配置信息进行更新后,接收客户端发送的用户反馈信息,根据所述用户反馈信息生成第二评估结果;根据所述第二评估结果对所述识别模型进行优化。
根据本发明实施例的另一个方面,提供了一种存量用户信息的处理电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明提供的存量用户信息的处理方法。
根据本发明实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明提供的存量用户信息的处理方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用自然语言处理算法和梯度提升树算法进行模型训练,得到能够识别出目标词以及目标词的扩展词的识别模型,并调用该识别模型对存量用户信息进行检测进而做出相应处理;且对存量用户信息进行检测后还能得到扩展词集合,以用于对新的用户信息进行检测;所以克服了现有技术中无法对存量用户信息内容进行安全管控的问题、使用固定词库对用户信息安全管控效果不佳的技术问题;进而能够对存量用户信息内容进行安全管控,以及基于原有的固定词库和所得到的扩展词集合达到更好地管控新的用户信息的技术效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明第一实施例的一种存量用户信息的处理方法的主要流程的示意图;
图2是根据本发明第二实施例的一种存量用户信息的处理方法的流程的示意图;
图3是本发明实施例可以应用于其中的示例性***架构图;
图4是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明第一实施例的一种存量用户信息的处理方法的主要流程的示意图,如图1所示,包括:
步骤101、响应于对存量用户信息的处理请求,调取用户信息样本、样本特征、样本标签,采用自然语言处理算法和梯度提升树算法训练得到识别模型;
步骤102、获取存量用户信息,调用所述识别模型对所述存量用户信息进行检测,得到所述存量用户信息中存在的目标词以及目标词等级,生成所述存量用户信息的等级集合;
步骤103、根据等级集合中的最高等级,调用处理流程库中与所述最高等级对应的流程,对所述存量用户的权限配置信息进行更新。
用户信息可以是用户通过客户端向互联网发送的信息,如:用户注册的信息(如用户名、用户填写的住址信息等)、用户在平台上发布的信息(如用户在论坛发表的短句信息、文章信息,在某购物网站发表的评论信息、留言信息,网友群中的交流信息等);存量用户信息可以是当前在互联网中存留的用户信息;目标词可以是违反国家法律法规或侵犯他人权益的词,如通常认为的“敏感词”,或基于平台规定所不能展示出的词;目标词等级可以是预先设置的,可以用数字表示(如:0、1、2、3等),也可以用语言描述表示(如:无、低、中、高,又如:零级、一级、二级等),可以设置等级数越高则越需要被安全管控;所述流程库中可以存放预先设置好的对应于各等级的处理方法流程,可以将对应等级越高的处理方法设置为更严格的处理方法。
本发明实施例提供一种存量用户信息的处理方法和装置,能够采用自然语言处理算法和梯度提升树算法进行模型训练,得到能够识别出目标词以及目标词的扩展词的识别模型,并调用该识别模型对存量用户信息进行检测,得到所述存量用户信息中存在的目标词以及目标词等级,进而调用处理流程库中相应的流程做出处理,对存量用户信息内容进行安全管控。
在一些实施例中,所述调取用户信息样本、样本特征、样本标签,包括:
调取已知处理结果的用户信息历史数据,从中选取预设数量的历史用户信息,以作为所述用户信息样本;将所述历史用户信息的特征作为所述样本特征;以及,将所述处理结果中的历史用户信息对应等级、历史用户信息中历史目标词等级,作为所述样本标签。
进一步地,在一些实施例中,采用自然语言处理算法和梯度提升树算法训练得到识别模型,包括:
采用自然语言处理算法对所述历史用户信息进行分词处理,并基于调取到的舆情信息对分词处理得到的词进行语音、语义扩展,得到历史扩展词集合;以所述历史用户信息、所述历史扩展词集合共同作为训练样本,根据所述训练样本、样本特征、样本标签,采用梯度提升树算法训练得到所述识别模型。
所述特征可以是用于描述用户信息的,如:该条用户信息的变更频次,该条用户信息是否包含已知目标词、包含的已知目标词的数量或目标词等级,该条用户信息对应的用户账号是否存在安全管控记录,该条用户信息对应的用户账号是否从未发起过申诉请求等。样本特征可以是通过其他方式学***台规定获取到的,样本特征的选取还可以通过后续优化进行更新;舆情信息中可以包含舆论情况信息,也可以包括国家相关法规或网络平台规定的需要安全管控的信息类别;
采用自然语言处理算法可以对目标词进行语音、语义扩展,得到目标词的扩展词,该扩展词可以认为是和目标词在语音和/或语义上有一定关联的词;基于这种关联,在人们日常的语言使用中通常可以通过扩展词联想到其对应的目标词;所以,由于目标词是需要被安全管控的,因此对扩展词也需要进行安全管控,而现有技术中正是缺乏对于扩展词的安全管控。通过上述方法训练识别模型,可以使识别模型基于已有的样本、样本特征、样本标签以及舆情信息,根据输入的用户信息进行识别,输出用户信息中的目标词、目标词等级;此时识别出的用户信息中的目标词中,即可能存在由已知的目标词扩展得来的词,由此达到了对用户信息进行更全面的安全管控的效果。
在一些实施例中,所述存量用户信息的等级集合包括:目标词、目标词等级、目标词所对应的存量用户信息、目标词所对应的存量用户的用户标识;
所述根据等级集合中的最高等级,调用处理流程库中与所述最高等级对应的流程,对所述存量用户的权限配置信息进行更新,包括:
对于同一用户标识,以存量用户信息中目标词的目标词等级中的最高等级,作为该存量用户信息的等级;以存量用户的所有存量用户信息的等级中的最高等级,作为该存量用户的等级;调用处理流程库中与所述存量用户的等级对应的流程,对所述存量用户的权限配置信息进行更新。
进一步地,在一些实施例中,所述调用处理流程库中与所述存量用户的等级对应的流程,对所述存量用户的权限配置信息进行更新,包括:
当存量用户的等级为高,对该存量用户的用户账号使用权限进行禁用处理,并通知该存量用户;当存量用户的等级为中,对该存量用户的等级为中的用户信息的展示权限进行禁用处理,并通知该存量用户;当存量用户的等级为低,对该存量用户的用户信息中等级为低的目标词的展示权限进行限制展示处理,并通知该存量用户;
其中,用户信息至少包括:用户注册信息、用户发布信息。
对存量用户信息使用识别模型进行检测后,可以得到存量用户信息中存在的目标词以及目标词等级,以此生成存量用户信息的等级集合,可以通过上述方法根据等级集合确定出存量用户信息的等级、存量用户的等级;如:
对于用户标识A,其注册了用户账号A1;若存量用户A1曾发布信息B1和信息B2,经过检测确定了信息B1中存在目标词c和目标词d,且目标词c等级为1,目标词d等级为3,以及检测出信息B2中不含目标词;通过上述信息可以得出以下信息:存量用户信息B1的等级由目标词d的等级确定为3,存量用户信息B2的等级为0;存量用户A1的等级由存量用户信息B1的等级确定为3。
在处理流程中,当存量用户的等级为高,可以对高等级用户在人工审核后冻结其账号;当存量用户的等级为中,可以对中等级账号重置相应的用户信息;当存量用户的等级为低,可以对相应的用户信息用掩码进行展示。
在一些实际应用中,同一实际用户(自然人)可能存在多个用户标识(如:通过不同的验证信息注册了多个账号),这种情况下,可以对自然人设置等级:通过对自然人的识别,该自然人的等级与其所有的用户等级中最高的等级相同,对该自然人所注册的所有用户的权限配置信息,都根据该自然人等级所对应的流程进行更新。
在一些实施例中,在调用所述识别模型对所述存量用户信息进行检测后,还包括:
根据得到的所述存量用户信息中存在的目标词以及目标词等级,以及检测过程中生成的扩展词以及扩展词等级,生成扩展目标词集合;
所述扩展目标词集合用于对新的用户注册信息或新的用户发布信息进行检测。
根据本发明训练得到的识别模型,在对存量用户信息做检测的同时,还可以根据得到的所述存量用户信息中存在的目标词以及目标词等级,以及检测过程中生成的扩展词以及扩展词等级,生成扩展目标词集合,以用于对新的用户注册信息或新的用户发布信息进行检测。在一些实际应用中,扩展目标词集合也可以被其他***接口或其他网络平台进行调用,直接用于对其他信息进行安全管控的检测。
在一些实施例中,上述存量用户信息的处理方法还包括:
获取模型评估数据,根据所述模型评估数据对所述识别模型进行评估,生成第一评估结果;根据所述第一评估结果对所述识别模型进行优化;和/或,
在对所述存量用户的权限配置信息进行更新后,接收客户端发送的用户反馈信息,根据所述用户反馈信息生成第二评估结果;根据所述第二评估结果对所述识别模型进行优化。
通过上述方法可以对识别模型进行及时优化,以识别地更准确,得到更好的使用效果。
图2是根据本发明第三实施例的一种存量用户信息的处理装置200的主要模块的示意图,如图2所示,存量用户信息的处理装置200包括:
训练模块201,用于响应于对存量用户信息的处理请求,调取用户信息样本、样本特征、样本标签,采用自然语言处理算法和梯度提升树算法训练得到识别模型;
检测模块202,用于获取存量用户信息,调用所述识别模型对所述存量用户信息进行检测,得到所述存量用户信息中存在的目标词以及目标词等级,生成所述存量用户信息的等级集合;
处理模块203,用于根据等级集合中的最高等级,调用处理流程库中与所述最高等级对应的流程,对所述存量用户的权限配置信息进行更新。
用户信息可以是用户通过客户端向互联网发送的信息,如:用户注册的信息(如用户名、用户填写的住址信息等)、用户在平台上发布的信息(如用户在论坛发表的短句信息、文章信息,在某购物网站发表的评论信息、留言信息,网友群中的交流信息等);存量用户信息可以是当前在互联网中存留的用户信息;目标词可以是违反国家法律法规或侵犯他人权益的词,如通常认为的“敏感词”,或基于平台规定所不能展示出的词;目标词等级可以是预先设置的,可以用数字表示(如:0、1、2、3等),也可以用语言描述表示(如:无、低、中、高,又如:零级、一级、二级等),可以设置等级数越高则越需要被安全管控;所述流程库中可以存放预先设置好的对应于各等级的处理方法流程,可以将对应等级越高的处理方法设置为更严格的处理方法。
本发明实施例提供一种存量用户信息的处理方法和装置,能够采用自然语言处理算法和梯度提升树算法进行模型训练,得到能够识别出目标词以及目标词的扩展词的识别模型,并调用该识别模型对存量用户信息进行检测,得到所述存量用户信息中存在的目标词以及目标词等级,进而调用处理流程库中相应的流程做出处理,对存量用户信息内容进行安全管控。
在一些实施例中,所述调取用户信息样本、样本特征、样本标签,包括:
调取已知处理结果的用户信息历史数据,从中选取预设数量的历史用户信息,以作为所述用户信息样本;
将所述历史用户信息的特征作为所述样本特征;以及,将所述处理结果中的历史用户信息对应等级、历史用户信息中历史目标词等级,作为所述样本标签。
进一步地,在一些实施例中,采用自然语言处理算法和梯度提升树算法训练得到识别模型,包括:
采用自然语言处理算法对所述历史用户信息进行分词处理,并基于调取到的舆情信息对分词处理得到的词进行语音、语义扩展,得到历史扩展词集合;
以所述历史用户信息、所述历史扩展词集合共同作为训练样本,根据所述训练样本、样本特征、样本标签,采用梯度提升树算法训练得到所述识别模型。
所述特征可以是用于描述用户信息的,如:该条用户信息的变更频次,该条用户信息是否包含已知目标词、包含的已知目标词的数量或目标词等级,该条用户信息对应的用户账号是否存在安全管控记录,该条用户信息对应的用户账号是否从未发起过申诉请求等。样本特征可以是通过其他方式学***台规定获取到的,样本特征的选取还可以通过后续优化进行更新;舆情信息中可以包含舆论情况信息,也可以包括国家相关法规或网络平台规定的需要安全管控的信息类别;
采用自然语言处理算法可以对目标词进行语音、语义扩展,得到目标词的扩展词,该扩展词可以认为是和目标词在语音和/或语义上有一定关联的词;基于这种关联,在人们日常的语言使用中通常可以通过扩展词联想到其对应的目标词;所以,由于目标词是需要被安全管控的,因此对扩展词也需要进行安全管控,而现有技术中正是缺乏对于扩展词的安全管控。通过上述方法训练识别模型,可以使识别模型基于已有的样本、样本特征、样本标签以及舆情信息,根据输入的用户信息进行识别,输出用户信息中的目标词、目标词等级;此时识别出的用户信息中的目标词中,即可能存在由已知的目标词扩展得来的词,由此达到了对用户信息进行更全面的安全管控的效果。
在一些实施例中,所述存量用户信息的等级集合包括:目标词、目标词等级、目标词所对应的存量用户信息、目标词所对应的存量用户的用户标识;
所述根据等级集合中的最高等级,调用处理流程库中与所述最高等级对应的流程,对所述存量用户的权限配置信息进行更新,包括:
对于同一用户标识,以存量用户信息中目标词的目标词等级中的最高等级,作为该存量用户信息的等级;以存量用户的所有存量用户信息的等级中的最高等级,作为该存量用户的等级;
调用处理流程库中与所述存量用户的等级对应的流程,对所述存量用户的权限配置信息进行更新。
进一步地,在一些实施例中,所述调用处理流程库中与所述存量用户的等级对应的流程,对所述存量用户的权限配置信息进行更新,包括:
当存量用户的等级为高,对该存量用户的用户账号使用权限进行禁用处理,并通知该存量用户;
当存量用户的等级为中,对该存量用户的等级为中的用户信息的展示权限进行禁用处理,并通知该存量用户;
当存量用户的等级为低,对该存量用户的用户信息中等级为低的目标词的展示权限进行限制展示处理,并通知该存量用户;
其中,用户信息至少包括:用户注册信息、用户发布信息。
对存量用户信息使用识别模型进行检测后,可以得到存量用户信息中存在的目标词以及目标词等级,以此生成存量用户信息的等级集合,可以通过上述方法根据等级集合确定出存量用户信息的等级、存量用户的等级;如:
对于用户标识A,其注册了用户账号A1;若存量用户A1曾发布信息B1和信息B2,经过检测确定了信息B1中存在目标词c和目标词d,且目标词c等级为1,目标词d等级为3,以及检测出信息B2中不含目标词;通过上述信息可以得出以下信息:存量用户信息B1的等级由目标词d的等级确定为3,存量用户信息B2的等级为0;存量用户A1的等级由存量用户信息B1的等级确定为3。
在处理流程中,当存量用户的等级为高,可以对高等级用户在人工审核后冻结其账号;当存量用户的等级为中,可以对中等级账号重置相应的用户信息;当存量用户的等级为低,可以对相应的用户信息用掩码进行展示。
在一些实际应用中,同一实际用户(自然人)可能存在多个用户标识(如:通过不同的验证信息注册了多个账号),这种情况下,可以对自然人设置等级:通过对自然人的识别,该自然人的等级与其所有的用户等级中最高的等级相同,对该自然人所注册的所有用户的权限配置信息,都根据该自然人等级所对应的流程进行更新。
在一些实施例中,在调用所述识别模型对所述存量用户信息进行检测后,还包括:
根据得到的所述存量用户信息中存在的目标词以及目标词等级,以及检测过程中生成的扩展词以及扩展词等级,生成扩展目标词集合;
所述扩展目标词集合用于对新的用户注册信息或新的用户发布信息进行检测。
根据本发明训练得到的识别模型,可以在对存量用户信息做检测的同时,还可以根据得到的所述存量用户信息中存在的目标词以及目标词等级,以及检测过程中生成的扩展词以及扩展词等级,生成扩展目标词集合,以用于对新的用户注册信息或新的用户发布信息进行检测。在一些实际应用中,扩展目标词集合也可以被其他***接口或其他网络平台进行调用,直接用于对其他信息进行安全管控的检测。
在一些实施例中,上述存量用户信息的处理装置还用于:
获取模型评估数据,根据所述模型评估数据对所述识别模型进行评估,生成第一评估结果;根据所述第一评估结果对所述识别模型进行优化;和/或,
在对所述存量用户的权限配置信息进行更新后,接收客户端发送的用户反馈信息,根据所述用户反馈信息生成第二评估结果;根据所述第二评估结果对所述识别模型进行优化。
通过上述方法可以对识别模型进行及时优化,以识别地更准确,得到更好的使用效果。
图3示出了可以应用本发明实施例的存量用户信息的处理方法或存量用户信息的处理装置的示例性***架构300。
如图3所示,***架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种客户端应用,例如购物类应用、博客类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的用户信息检测请求等数据进行处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的存量用户信息的处理方法一般由服务器305执行,相应地,存量用户信息的处理装置一般设置于服务器305中。
应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图4,其示出了适于用来实现本发明实施例的终端设备的计算机***400的结构示意图。图4示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机***400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有***400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括训练模块、检测模块、处理模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:步骤101、响应于对存量用户信息的处理请求,调取用户信息样本、样本特征、样本标签,采用自然语言处理算法和梯度提升树算法训练得到识别模型;步骤102、获取存量用户信息,调用所述识别模型对所述存量用户信息进行检测,得到所述存量用户信息中存在的目标词以及目标词等级,生成所述存量用户信息的等级集合;步骤103、根据等级集合中的最高等级,调用处理流程库中与所述最高等级对应的流程,对所述存量用户的权限配置信息进行更新。
根据本发明实施例的技术方案,因为采用自然语言处理算法和梯度提升树算法进行模型训练,得到能够识别出目标词以及目标词的扩展词的识别模型,并调用该识别模型对存量用户信息进行检测进而做出相应处理;且对存量用户信息进行检测后还能得到扩展词集合,以用于对新的用户信息进行检测;所以克服了现有技术中无法对存量用户信息内容进行安全管控的问题、使用固定词库对用户信息安全管控效果不佳的技术问题;进而能够对存量用户信息内容进行安全管控,以及基于原有的固定词库和所得到的扩展词集合达到更好地管控新的用户信息的技术效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (9)
1.一种存量用户信息的处理方法,其特征在于,包括:
响应于对存量用户信息的处理请求,调取用户信息历史数据得到用户信息样本、样本特征、样本标签,采用自然语言处理算法和梯度提升树算法训练得到识别模型;
获取存量用户信息,调用所述识别模型对所述存量用户信息进行检测,得到所述存量用户信息中存在的目标词以及目标词等级,生成所述存量用户信息的等级集合;所述存量用户信息的等级集合包括:目标词、目标词等级、目标词所对应的存量用户信息、目标词所对应的存量用户的用户标识;
根据等级集合中的最高等级,调用处理流程库中与所述最高等级对应的流程,对所述存量用户的权限配置信息进行更新,包括:对于同一用户标识,以存量用户信息中目标词的目标词等级中的最高等级,作为该存量用户信息的等级;以存量用户的所有存量用户信息的等级中的最高等级,作为该存量用户的等级;调用处理流程库中与所述存量用户的等级对应的流程,对所述存量用户的权限配置信息进行更新。
2.根据权利要求1所述的方法,其特征在于,所述调取用户信息样本、样本特征、样本标签,包括:
调取已知处理结果的用户信息历史数据,从中选取预设数量的历史用户信息,以作为所述用户信息样本;
将所述历史用户信息的特征作为所述样本特征;以及,将所述处理结果中的历史用户信息对应等级、历史用户信息中历史目标词等级,作为所述样本标签。
3.根据权利要求2所述的方法,其特征在于,采用自然语言处理算法和梯度提升树算法训练得到识别模型,包括:
采用自然语言处理算法对所述历史用户信息进行分词处理,并基于调取到的舆情信息对分词处理得到的词进行语音、语义扩展,得到历史扩展词集合;
以所述历史用户信息、所述历史扩展词集合共同作为训练样本,根据所述训练样本、样本特征、样本标签,采用梯度提升树算法训练得到所述识别模型。
4.根据权利要求1所述的方法,其特征在于,所述调用处理流程库中与所述存量用户的等级对应的流程,对所述存量用户的权限配置信息进行更新,包括:
当存量用户的等级为高,对该存量用户的用户账号使用权限进行禁用处理,并通知该存量用户;
当存量用户的等级为中,对该存量用户的等级为中的用户信息的展示权限进行禁用处理,并通知该存量用户;
当存量用户的等级为低,对该存量用户的用户信息中等级为低的目标词的展示权限进行限制展示处理,并通知该存量用户;
其中,用户信息至少包括:用户注册信息、用户发布信息。
5.根据权利要求1-3任一所述的方法,其特征在于,在调用所述识别模型对所述存量用户信息进行检测后,还包括:
根据得到的所述存量用户信息中存在的目标词以及目标词等级,以及检测过程中生成的扩展词以及扩展词等级,生成扩展目标词集合;
所述扩展目标词集合用于对新的用户注册信息或新的用户发布信息进行检测。
6.根据权利要求1-3任一所述的方法,其特征在于,还包括:
获取模型评估数据,根据所述模型评估数据对所述识别模型进行评估,生成第一评估结果;根据所述第一评估结果对所述识别模型进行优化;和/或,
在对所述存量用户的权限配置信息进行更新后,接收客户端发送的用户反馈信息,根据所述用户反馈信息生成第二评估结果;根据所述第二评估结果对所述识别模型进行优化。
7.一种存量用户信息的处理装置,其特征在于,包括:
训练模块,用于响应于对存量用户信息的处理请求,调取用户信息历史数据得到用户信息样本、样本特征、样本标签,采用自然语言处理算法和梯度提升树算法训练得到识别模型;
检测模块,用于获取存量用户信息,调用所述识别模型对所述存量用户信息进行检测,得到所述存量用户信息中存在的目标词以及目标词等级,生成所述存量用户信息的等级集合;所述存量用户信息的等级集合包括:目标词、目标词等级、目标词所对应的存量用户信息、目标词所对应的存量用户的用户标识;
处理模块,用于根据等级集合中的最高等级,调用处理流程库中与所述最高等级对应的流程,对所述存量用户的权限配置信息进行更新,包括:对于同一用户标识,以存量用户信息中目标词的目标词等级中的最高等级,作为该存量用户信息的等级;以存量用户的所有存量用户信息的等级中的最高等级,作为该存量用户的等级;调用处理流程库中与所述存量用户的等级对应的流程,对所述存量用户的权限配置信息进行更新。
8.一种存量用户信息的处理电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011355371.3A CN113761908B (zh) | 2020-11-26 | 2020-11-26 | 一种存量用户信息的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011355371.3A CN113761908B (zh) | 2020-11-26 | 2020-11-26 | 一种存量用户信息的处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113761908A CN113761908A (zh) | 2021-12-07 |
CN113761908B true CN113761908B (zh) | 2024-06-18 |
Family
ID=78786087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011355371.3A Active CN113761908B (zh) | 2020-11-26 | 2020-11-26 | 一种存量用户信息的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761908B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034823A (zh) * | 2018-07-18 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 风险识别方法、装置及服务器 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886425A (zh) * | 2017-10-25 | 2018-04-06 | 上海壹账通金融科技有限公司 | 信贷评估方法、装置、设备及计算机可读存储介质 |
CN110275956A (zh) * | 2019-06-24 | 2019-09-24 | 成都数之联科技有限公司 | 一种人员识别方法及*** |
CN110458572B (zh) * | 2019-07-08 | 2023-11-24 | 创新先进技术有限公司 | 用户风险的确定方法和目标风险识别模型的建立方法 |
CN111046941B (zh) * | 2019-12-09 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 一种目标评论检测方法、装置、电子设备和存储介质 |
CN111104482A (zh) * | 2019-12-18 | 2020-05-05 | 北京百度网讯科技有限公司 | 数据处理方法和装置 |
-
2020
- 2020-11-26 CN CN202011355371.3A patent/CN113761908B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034823A (zh) * | 2018-07-18 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 风险识别方法、装置及服务器 |
Non-Patent Citations (1)
Title |
---|
基于梯度提升模型的行为式验证码人机识别;欧阳志友;孙孝魁;;信息网络安全;20170910(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113761908A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522751B (zh) | 访问权限控制方法、装置、电子设备及计算机可读介质 | |
CN110659657B (zh) | 训练模型的方法和装置 | |
CN108595448B (zh) | 信息推送方法和装置 | |
US11244153B2 (en) | Method and apparatus for processing information | |
JP2022533748A (ja) | 機密データ管理 | |
US11954173B2 (en) | Data processing method, electronic device and computer program product | |
CN112861529A (zh) | 错误码管理的方法和装置 | |
CN110705271B (zh) | 一种提供自然语言处理服务的***及方法 | |
CN107885872B (zh) | 用于生成信息的方法和装置 | |
CN113326375A (zh) | 舆情处理的方法、装置、电子设备和存储介质 | |
CN107634942B (zh) | 识别恶意请求的方法和装置 | |
CN105653360A (zh) | 一种用于跨应用取得功能的方法和*** | |
CN113761908B (zh) | 一种存量用户信息的处理方法和装置 | |
CN113761565A (zh) | 数据脱敏方法和装置 | |
CN116362216A (zh) | 表单数据处理的方法、装置、电子设备和存储介质 | |
CN115563942A (zh) | 一种合同生成方法、装置、电子设备及计算机可读介质 | |
CN114066603A (zh) | 贷后风险预警方法、装置、电子设备和计算机可读介质 | |
CN113469732A (zh) | 基于内容理解的审核方法、装置及电子设备 | |
CN113282724A (zh) | 一种智能客服的交互方法和装置 | |
CN110990528A (zh) | 一种问答方法、装置及电子设备 | |
CN113362097B (zh) | 一种用户确定方法和装置 | |
US20120330951A1 (en) | Providing accurate recipient lists by correlating tagged keywords to recipient lists | |
US8892709B2 (en) | Early generation of service requests | |
CN116450622B (zh) | 数据入库的方法、装置、设备和计算机可读介质 | |
CN112560462B (zh) | 事件抽取服务的生成方法、装置、服务器以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |