CN111191139A - 一种基于特征模型的刷子检测方法与*** - Google Patents

一种基于特征模型的刷子检测方法与*** Download PDF

Info

Publication number
CN111191139A
CN111191139A CN202010003255.9A CN202010003255A CN111191139A CN 111191139 A CN111191139 A CN 111191139A CN 202010003255 A CN202010003255 A CN 202010003255A CN 111191139 A CN111191139 A CN 111191139A
Authority
CN
China
Prior art keywords
data
brush
characteristic
model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010003255.9A
Other languages
English (en)
Inventor
王力
李一文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Yingke Mutual Entertainment Network Information Co Ltd
Original Assignee
Hunan Yingke Mutual Entertainment Network Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Yingke Mutual Entertainment Network Information Co Ltd filed Critical Hunan Yingke Mutual Entertainment Network Information Co Ltd
Priority to CN202010003255.9A priority Critical patent/CN111191139A/zh
Publication of CN111191139A publication Critical patent/CN111191139A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于特征模型的刷子检测方法,包括:类型检测,检测输入的数据类型,若为文本数据则进行文本检测;文本检测,获取文本数据,将文本数据去除无关信息,再将文本数据从中文、字母、数字维度上剖析,得出特征形式,将特征数据与模型库数据特征做匹配,匹配符合后输出UID数据。一种基于特征模型的刷子检测***,包括:类型检测模块,用于检测输入的数据类型,若为文本数据则进行文本检测;文本检测模块,用于获取文本数据,将文本数据去除无关信息,再将文本数据从中文、字母、数字维度上剖析,得出特征形式,将特征数据与模型库数据特征做匹配,匹配符合后输出UID数据。本发明能减少对刷子、羊毛党等所产生的内容的审核,加速审核效率。

Description

一种基于特征模型的刷子检测方法与***
技术领域
本发明涉及网络技术领域,特别是涉及一种基于特征模型的刷子检测方法与***。
背景技术
平台作为内容生产者的平台,当有大量的UGC(用户生成内容)产生时,为净化网络内容安全,需要内容进行对应的合法性审核,通过后才能在平台上流通。但是在黑产、羊毛党横行的前提下,大量的非重复但有一定规律性的内容产生,对平台内容审核造成了巨大的挑战,以至于当刷子来临时审核人手不够,造成任务积压。
前面的叙述在于提供一般的背景信息,并不一定构成现有技术。
发明内容
本发明的目的在于提供一种能对刷子进行初步识别的基于特征模型的刷子检测方法与***。
本发明提供一种基于特征模型的刷子检测方法,包括:类型检测,检测输入的数据类型,若为文本数据则进行文本检测;文本检测,获取文本数据,将文本数据去除无关信息,再将文本数据从中文、字母、数字维度上剖析,得出特征形式,将特征数据与模型库数据特征做匹配,匹配符合后输出UID数据。
进一步地,所述类型检测包括若为图片数据则进行图片检测;所述刷子检测方法还包括:图片检测,获得图片二进制数据,将数据下载到本地,使用感知算法生成特征hash值,将hash值与刷子hash库的hash对比,符合特征后输出UID数据。
进一步地,所述图片检测步骤中,设置hash阈值,当hash值与刷子hash库的hash对比的分数达到hash阈值,则认为符合特征。
进一步地,所述模型库的建构方法包括:获取文本特征,获取用户端提交的组样本数据;分析样本数据,得出样本的共同特征,将共同特征描述为刷子特征;将刷子特征存入模型库。
进一步地,所述将共同特征描述为刷子特征包括:当样本数据符合第一模型特征时,将第一模型特征作为刷子特征;当样本数据符合第二模型特征时,将第二模型特征作为刷子特征;所述第一模型特征是指对词组所有的词进行打散,分隔成单字,由此得出多个数组,随后取这多个数组中的共同交集,所得出的相同单字集合;所述第二模型特征是指对词组所有的词做字类型分析,通过对词组的中文个数、数组个数、字母个数所找到的共同特征点。
一种基于特征模型的刷子检测***,包括:类型检测模块,用于检测输入的数据类型,若为文本数据则进行文本检测;文本检测模块,用于获取文本数据,将文本数据去除无关信息,再将文本数据从中文、字母、数字维度上剖析,得出特征形式,将特征数据与模型库数据特征做匹配,匹配符合后输出UID数据。
进一步地,所述类型检测模块若检测到数据类型为图片数据则进行图片检测;所述刷子检测方法还包括:图片检测模块,用于获得图片二进制数据,将数据下载到本地,使用感知算法生成特征hash值,将hash值与刷子hash库的hash对比,符合特征后输出UID数据。
进一步地,所述图片检测模块中,设置hash阈值,当hash值与刷子hash库的hash对比的分数达到hash阈值,则认为符合特征。
进一步地,所述模型库的建构方法包括:获取文本特征,获取用户端提交的组样本数据;分析样本数据,得出样本的共同特征,将共同特征描述为刷子特征;将刷子特征存入模型库。
进一步地,所述将共同特征描述为刷子特征包括:当样本数据符合第一模型特征时,将第一模型特征作为刷子特征;当样本数据符合第二模型特征时,将第二模型特征作为刷子特征;所述第一模型特征是指对词组所有的词进行打散,分隔成单字,由此得出多个数组,随后取这多个数组中的共同交集,所得出的相同单字集合;所述第二模型特征是指对词组所有的词做字类型分析,通过对词组的中文个数、数组个数、字母个数所找到的共同特征点。
本发明提供的基于特征模型的刷子检测方法与***,通过将文本数据从中文、字母、数字维度上剖析,得出特征形式,将特征数据与模型库数据特征做匹配,以对刷子进行初步识别,从而能减少对刷子、羊毛党等所产生的内容的审核,加速审核效率。
附图说明
图1为本发明实施例刷子检测方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实施例中,基于特征模型的刷子检测方法,包括如下步骤:
类型检测,检测输入的数据(如任务库数据)的类型,判断是文本数据还是图片数据。若为文本数据则进行文本检测,若为图片数据则进行图片检测;
文本检测,获取文本数据,将文本数据去除将表情、符号等跟字面意思无关的无关信息,再将文本数据从中文、字母、数字维度上剖析,得出特征形式,将特征数据与模型库数据特征做匹配,匹配符合后输出UID(用户身份识别)数据。
图片检测,获得图片二进制数据,将数据下载到本地,使用感知算法生成特征hash值,将hash值与刷子hash库的hash对比(相识度比对),符合特征后输出UID数据。是否符合特征的判断方式可为:设置hash阈值,当hash值与刷子hash库的hash对比的分数达到hash阈值,则认为符合特征。
当然,在其它实施例中,也可以只检测文本数据,这时就不需要设置图片检测步骤。
本实施例中,模型库的建构方法包括:获取文本特征,获取用户端提交的组样本数据;分析样本数据,得出样本的共同特征,将共同特征描述为刷子特征;将刷子特征存入模型库。
将共同特征描述为刷子特征可为:当样本数据符合第一模型特征时,将第一模型特征作为刷子特征;当样本数据符合第二模型特征时,将第二模型特征作为刷子特征。
所述第一模型特征是指对词组所有的词进行打散,分隔成单字,由此得出多个数组,随后取这多个数组中的共同交集,所得出的相同单字集合。如["用户3735145832","用户5747134863","用户5977056607"]通过文本的分析,他们具有{"0":"用","1":"户","3":"7","5":"5","8":"5"}等相同字符。
所述第二模型特征是指对词组所有的词做字类型分析,通过对词组的中文个数、数组个数、字母个数所找到的共同特征点。如["荷心雪乖乖沕_83648","爵士豪侠心揇_66450","嘷花天喜双喜_53721"]通过对文本的分析,它们具有中文(6)数字(5)的特征。
本实施例中,基于特征模型的刷子检测***,包括:
类型检测模块,用于检测输入的数据类型,若为文本数据则进行文本检测,若为图片数据则进行图片检测;
文本检测模块,用于获取文本数据,将文本数据去除无关信息,再将文本数据从中文、字母、数字维度上剖析,得出特征形式,将特征数据与模型库数据特征做匹配,匹配符合后输出UID数据;
图片检测模块,用于获得图片二进制数据,将数据下载到本地,使用感知算法生成特征hash值,将hash值与刷子hash库的hash对比,符合特征后输出UID数据。
本实施例中,所述图片检测模块判断是否符合特征的方式为:设置hash阈值,当hash值与刷子hash库的hash对比的分数达到hash阈值,则认为符合特征。
同样,在其它实施例中,也可以只检测文本数据,这时就不需要包括图片检测模块。
本实施例中,所述模型库的建构方法包括:获取文本特征,获取用户端提交的组样本数据;分析样本数据,得出样本的共同特征,将共同特征描述为刷子特征;将刷子特征存入模型库。
本实施例中,所述将共同特征描述为刷子特征包括:当样本数据符合第一模型特征时,将第一模型特征作为刷子特征;当样本数据符合第二模型特征时,将第二模型特征作为刷子特征;所述第一模型特征是指对词组所有的词进行打散,分隔成单字,由此得出多个数组,随后取这多个数组中的共同交集,所得出的相同单字集合;所述第二模型特征是指对词组所有的词做字类型分析,通过对词组的中文个数、数组个数、字母个数所找到的共同特征点。
本实施例提供的基于特征模型的刷子检测方法与***,通过将文本数据从中文、字母、数字维度上剖析,得出特征形式,将特征数据与模型库数据特征做匹配,以对刷子进行初步识别,从而能减少对刷子、羊毛党等所产生的内容的审核,加速审核效率。
实现时,本实施例采用了B/S架构来构建***,模型库中,样本数据由一线审核人员发现并提交的形式完成,在模型匹配、任务隔离的方式上,均采用了异步处理方式,在不影响审核业务的情况下,由刷子检测***对任务进行清洗,实现了刷子的检测与隔离。主要工作流程如下:任务库由app服务产生,审核***将任务数据入库,一线人员在审核时,在样本递交端口,一线人员勾选3或3个以上的文本样本提交,提交后验证并生成模型库,刷子检测***读取模型库并对任务库的数据进行比对,文字数据由文字检测模块处理,图片数据由图片检测模块处理,特征模型匹配后写入刷子库,刷子隔离模块将读取刷子库的数据,将任务库数据删除,写入到刷子分区,完成刷子检测与隔离。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,除了包含所列的那些要素,而且还可包含没有明确列出的其他要素。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于特征模型的刷子检测方法,其特征在于,包括:类型检测,检测输入的数据类型,若为文本数据则进行文本检测;文本检测,获取文本数据,将文本数据去除无关信息,再将文本数据从中文、字母、数字维度上剖析,得出特征形式,将特征数据与模型库数据特征做匹配,匹配符合后输出UID数据。
2.如权利要求1所述的刷子检测方法,其特征在于,所述类型检测包括若为图片数据则进行图片检测;所述刷子检测方法还包括:图片检测,获得图片二进制数据,将数据下载到本地,使用感知算法生成特征hash值,将hash值与刷子hash库的hash对比,符合特征后输出UID数据。
3.如权利要求1所述的刷子检测方法,其特征在于,所述图片检测步骤中,设置hash阈值,当hash值与刷子hash库的hash对比的分数达到hash阈值,则认为符合特征。
4.如权利要求1所述的刷子检测方法,其特征在于,所述模型库的建构方法包括:获取文本特征,获取用户端提交的组样本数据;分析样本数据,得出样本的共同特征,将共同特征描述为刷子特征;将刷子特征存入模型库。
5.如权利要求4所述的刷子检测方法,其特征在于,所述将共同特征描述为刷子特征包括:当样本数据符合第一模型特征时,将第一模型特征作为刷子特征;当样本数据符合第二模型特征时,将第二模型特征作为刷子特征;所述第一模型特征是指对词组所有的词进行打散,分隔成单字,由此得出多个数组,随后取这多个数组中的共同交集,所得出的相同单字集合;所述第二模型特征是指对词组所有的词做字类型分析,通过对词组的中文个数、数组个数、字母个数所找到的共同特征点。
6.一种基于特征模型的刷子检测***,其特征在于,包括:类型检测模块,用于检测输入的数据类型,若为文本数据则进行文本检测;文本检测模块,用于获取文本数据,将文本数据去除无关信息,再将文本数据从中文、字母、数字维度上剖析,得出特征形式,将特征数据与模型库数据特征做匹配,匹配符合后输出UID数据。
7.如权利要求6所述的刷子检测***,其特征在于,所述类型检测模块若检测到数据类型为图片数据则进行图片检测;所述刷子检测方法还包括:图片检测模块,用于获得图片二进制数据,将数据下载到本地,使用感知算法生成特征hash值,将hash值与刷子hash库的hash对比,符合特征后输出UID数据。
8.如权利要求6所述的刷子检测***,其特征在于,所述图片检测模块中,设置hash阈值,当hash值与刷子hash库的hash对比的分数达到hash阈值,则认为符合特征。
9.如权利要求6所述的刷子检测***,其特征在于,所述模型库的建构方法包括:获取文本特征,获取用户端提交的组样本数据;分析样本数据,得出样本的共同特征,将共同特征描述为刷子特征;将刷子特征存入模型库。
10.如权利要求9所述的刷子检测***,其特征在于,所述将共同特征描述为刷子特征包括:当样本数据符合第一模型特征时,将第一模型特征作为刷子特征;当样本数据符合第二模型特征时,将第二模型特征作为刷子特征;所述第一模型特征是指对词组所有的词进行打散,分隔成单字,由此得出多个数组,随后取这多个数组中的共同交集,所得出的相同单字集合;所述第二模型特征是指对词组所有的词做字类型分析,通过对词组的中文个数、数组个数、字母个数所找到的共同特征点。
CN202010003255.9A 2020-01-02 2020-01-02 一种基于特征模型的刷子检测方法与*** Pending CN111191139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010003255.9A CN111191139A (zh) 2020-01-02 2020-01-02 一种基于特征模型的刷子检测方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010003255.9A CN111191139A (zh) 2020-01-02 2020-01-02 一种基于特征模型的刷子检测方法与***

Publications (1)

Publication Number Publication Date
CN111191139A true CN111191139A (zh) 2020-05-22

Family

ID=70708101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010003255.9A Pending CN111191139A (zh) 2020-01-02 2020-01-02 一种基于特征模型的刷子检测方法与***

Country Status (1)

Country Link
CN (1) CN111191139A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2275972A1 (en) * 2009-07-06 2011-01-19 Kaspersky Lab Zao System and method for identifying text-based spam in images
CN102200987A (zh) * 2011-01-27 2011-09-28 北京开心人信息技术有限公司 一种基于用户账号行为分析的查找马甲账号的方法及***
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法
CN108874777A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种文本反垃圾的方法及装置
CN109241379A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种跨模态检测网络水军的方法
CN110162620A (zh) * 2019-01-10 2019-08-23 腾讯科技(深圳)有限公司 黑产广告的检测方法、装置、服务器及存储介质
CN110569509A (zh) * 2019-09-12 2019-12-13 广州荔支网络技术有限公司 一种风险团伙识别的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2275972A1 (en) * 2009-07-06 2011-01-19 Kaspersky Lab Zao System and method for identifying text-based spam in images
CN102200987A (zh) * 2011-01-27 2011-09-28 北京开心人信息技术有限公司 一种基于用户账号行为分析的查找马甲账号的方法及***
CN102571484A (zh) * 2011-12-14 2012-07-11 上海交通大学 一种检测网络水军以及找到网络水军的方法
CN109241379A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种跨模态检测网络水军的方法
CN108874777A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种文本反垃圾的方法及装置
CN110162620A (zh) * 2019-01-10 2019-08-23 腾讯科技(深圳)有限公司 黑产广告的检测方法、装置、服务器及存储介质
CN110569509A (zh) * 2019-09-12 2019-12-13 广州荔支网络技术有限公司 一种风险团伙识别的方法及装置

Similar Documents

Publication Publication Date Title
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN106934275B (zh) 一种基于个人信息的口令强度评测方法
WO2021068843A1 (zh) 一种情绪识别方法及装置、电子设备和可读存储介质
EP2378475A1 (en) Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
CN113132368B (zh) 聊天数据的审核方法、装置及计算机设备
CN108550054B (zh) 一种内容质量评估方法、装置、设备和介质
CN113450147B (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN110851591A (zh) 一种裁判文书的质量评估方法、装置、设备及存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN114399379A (zh) 基于人工智能的催收行为识别方法、装置、设备及介质
CN110362826A (zh) 基于人工智能的期刊投稿方法、设备及可读存储介质
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN113468524B (zh) 基于rasp的机器学习模型安全检测方法
CN113326536A (zh) 应用程序的合规性判别方法和装置
CN114722199A (zh) 基于通话录音的风险识别方法、装置、计算机设备及介质
CN111200576A (zh) 一种基于机器学习实现恶意域名识别的方法
CN110955796B (zh) 一种基于笔录信息的案件特征信息提取方法及装置
CN111191139A (zh) 一种基于特征模型的刷子检测方法与***
CN115186095B (zh) 一种未成年人文本识别方法及装置
CN115314268A (zh) 基于流量指纹和行为的恶意加密流量检测方法和***
CN112163217B (zh) 恶意软件变种识别方法、装置、设备及计算机存储介质
CN114519343A (zh) 基于95598的重复来电预处理方法、装置、设备及存储介质
CN113934833A (zh) 训练数据的获取方法、装置、***及存储介质
JP6784975B2 (ja) 評価装置、評価方法、評価プログラムおよび評価システム
CN104038391A (zh) 一种垃圾邮件检测的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination