CN112464036B - 一种违规数据的审核方法及装置 - Google Patents

一种违规数据的审核方法及装置 Download PDF

Info

Publication number
CN112464036B
CN112464036B CN202011328482.5A CN202011328482A CN112464036B CN 112464036 B CN112464036 B CN 112464036B CN 202011328482 A CN202011328482 A CN 202011328482A CN 112464036 B CN112464036 B CN 112464036B
Authority
CN
China
Prior art keywords
auditing
data
content data
target
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011328482.5A
Other languages
English (en)
Other versions
CN112464036A (zh
Inventor
彭春晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xingyin Information Technology Wuhan Co ltd
Original Assignee
Xingyin Information Technology Wuhan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xingyin Information Technology Wuhan Co ltd filed Critical Xingyin Information Technology Wuhan Co ltd
Priority to CN202011328482.5A priority Critical patent/CN112464036B/zh
Publication of CN112464036A publication Critical patent/CN112464036A/zh
Application granted granted Critical
Publication of CN112464036B publication Critical patent/CN112464036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种违规数据的审核方法及装置,所述方法包括:当接收到对内容数据的审核请求时,获取所述内容数据的数据类型;选取与所述数据类型匹配的目标审核方法;基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据。上述的审核过程中,在接收到对内容数据的审核请求时,首先确定内容数据的数据类型,基于不同的数据类型选取对应的目标审核方法进行审核,对内容数据进行了进一步细分,提高了审核的准确性,避免出现违规数据漏审的情况。

Description

一种违规数据的审核方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种违规数据的审核方法及装置。
背景技术
如今伴随着互联网技术的飞速发展,各种网站或者品平台都可以实现用户端的内容数据的上传,因此,如何保障线上内容数据的合法合规,越来越重要,
现有的违规数据的审核主要基于机器审核,采用相同的审核模型进行审核,审核的准确率低,经常出现漏审违规数据的情况。
发明内容
有鉴于此,本发明提供一种违规数据的审核方法及装置,用以解决现有的违规数据的审核主要基于机器审核,采用相同的审核模型进行审核,审核的准确率低,经常出现漏审违规数据的情况的问题,具体方案如下:
一种违规数据的审核方法,包括:
当接收到对内容数据的审核请求时,获取所述内容数据的数据类型;
选取与所述数据类型匹配的目标审核方法;
基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据。
上述的方法,可选的,还包括:
在基于所述目标审核方法审核失败的情况下,将所述内容数据转入人工审核。
上述的方法,可选的,在所述数据类型为图片时,基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据,包括:
提取所述图片的各个第一特征;
基于目标审核模型对所述各个第一特征进行审核,得到第一审核结果,其中,所述目标审核模型基于faster R-cnn算法进行构建;
基于所述第一审核结果,判断所述图片中是否存在违规数据。
上述的方法,可选的,在所述数据类型为视频时,基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据,包括:
提取所述视频中的各个图片;
提取所述各个图片的各个第二特征;
基于目标审核模型对所述各个第二特征进行审核,得到第二审核结果;
基于所述第二审核结果,判断所述视频中是否存在违规数据。
上述的方法,可选的,在所述数据类型为文本时,预先构建违规关键词库,基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据,包括:
对所述文本进行分词,得到各个关键词;
将所述各个关键词与所述违规关键词库中的各个违规关键词进行比较,得到第三比较结果;
基于所述第三比较结果,判断所述文本中是否存在违规数据。
一种违规数据的审核装置,包括:
获取模块,用于当接收到对内容数据的审核请求时,获取所述内容数据的数据类型;
选取模块,用于选取与所述数据类型匹配的目标审核方法;
审核模块,用于基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据。
上述的装置,可选的,还包括:
转入模块,用于在基于所述目标审核方法审核失败的情况下,将所述内容数据转入人工审核。
上述的装置,可选的,在所述数据类型为图片时,所述审核模块包括:
第一提取单元,用于提取所述图片的各个第一特征;
第一审核单元,用于基于目标审核模型对所述各个第一特征进行审核,得到第一审核结果,其中,所述目标审核模型基于faster R-cnn算法进行构建;
第一判断单元,用于基于所述第一审核结果,判断所述图片中是否存在违规数据。
上述的装置,可选的,在所述数据类型为视频时,所述审核模块包括:
第二提取单元,用于提取所述视频中的各个图片;
第三提取单元,用于提取所述各个图片的各个第二特征;
第二审核单元,用于基于目标审核模型对所述各个第二特征进行审核,得到第二审核结果;
第二判断单元,用于基于所述第二审核结果,判断所述视频中是否存在违规数据。
上述的装置,可选的,在所述数据类型为文本时,预先构建违规关键词库,所述审核模块包括:
分词单元,用于对所述文本进行分词,得到各个关键词;
比较单元,用于将所述各个关键词与所述违规关键词库中的各个违规关键词进行比较,得到第三比较结果;
第三判断单元,用于基于所述第三比较结果,判断所述文本中是否存在违规数据。
与现有技术相比,本发明包括以下优点:
本发明公开了一种违规数据的审核方法及装置,所述方法包括:当接收到对内容数据的审核请求时,获取所述内容数据的数据类型;选取与所述数据类型匹配的目标审核方法;基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据。上述的审核过程中,在接收到对内容数据的审核请求时,首先确定内容数据的数据类型,基于不同的数据类型选取对应的目标审核方法进行审核,对内容数据进行了进一步细分,提高了审核的准确性,避免出现违规数据漏审的情况。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种违规数据收集方法流程图;
图2为本申请实施例公开的一种违规数据收集方法又一方法流程图;
图3为本申请实施例公开的一种违规数据的审核方法流程图;
图4为本申请实施例公开的一种违规数据的审核装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种违规数据的审核方法及装置,应用于对违规数据的审核过程中,为了进一步提高违规数据审核的准确性,优选的,预先对机器审核和人工审核审核准确性进行提升,提升过程如下:
预先收集各类线上违规数据,将收集到的违规数据灌入到机器审核或者人工审核的队列中,其中,所述违规数据可以为包括敏感词、涉暴、者违反国家法律法规和宣扬邪教和封建迷信等数据,本发明实施例中,对违规数据不进行具体限定,本发明实施例中,以所述违规数据图文或者视频的收集过程为例进行说明,具体的收集过程如图1所示,获取线上笔记,所述线上笔记包括图文&视频,将所述向上笔记转换为sit笔记,对所述sit笔记进行审核,筛选出所述sit笔记中的违规数据,筛选过程可以为人工审核或者其它优选的审核方式,本发明实施例中对具体的筛选过程不进行限定,针对所述sit笔记进行审核,拉取审核结果,判断是否审核完成,若未审核完成,返回继续审核,若审核完成,将满足要求的违规数据审核记录落库。
获取所述违规数据过程还可以通过同步压缩文件的方式,本发明实施例中,以同步压缩文件为金山同步压缩文件为例进行说明,具体的压缩过程如图2所示,首先获取金山同步压缩文件,对所述金山同步压缩文件进行解压,判断解压后的文件中包含的各个文件的文件类型,其中,所述文件类型的判断可以基于标识,所述标识用户区分不同的文件类型,将标识与文件类型预先建立关联关系,在所述解各个文件的指定位置获取标识,依据所述对应关系和标识确定文件的文件类型,本发明实施例中,所述文件类型包括图文笔记、视频笔记、笔记评论、用户头像、用户昵称和用户描述等多种类别,以所述文件类型为笔记、评论和用户资料为例进行说明,本发明实施例中,对文件类型的具体存在形式不进行限定,进一步的,创建笔记、创建评论和修改用户资料,对上述笔记、评论和用户资料进行审核,审核过程可以为人工审核或者其它优选的审核方式,本发明实施例中对具体的审核过程不进行限定,拉取审核结果,判断是否审核完成,若未审核完成,返回继续审核,若审核完成,将满足要求的违规数据审核记录落库。
本发明实施例中,将基于上述方法的违规数据灌入到人工审核和机器审核队列,人工审核队列中的数据进行人工审核,机器审核队列中的数据进行机器审核。
人工审核的过程如下:针对每个违规数据通过人工的方式进行审核,人工审核可以为多个审核人员同时进行审核也可以为一个审核人员进行审核,人工审核速度慢,容器出现漏审的情况,每间隔预设时长或者审核到预设数量时,统计预设时长或者预设数量的漏审率、人员漏审率和笔记漏审率等,本发明实施例中,对所述预设时长或者预设数量不进行具体限定,通过这一系列的漏审率数据,发现人审过程中存在的漏洞和不足,同时协助审核管理人员进行决策安排,针对性的对审核人员进行培训和提升,提高审核人员审核的准确率。
机器审核的审核过程如下:本发明实施例中,以违规数据的数据类型分别以图像、视频和文本形式存在为例进行说明,预先针对数据类型分配对应的审核方法,其中,审核方法的分配可以基于经验或者具体情况,本发明实施例中不进行具体限定。首先划分机器审核队列中的漏审数据的数据类型,基于数据类型将对应的漏审数据发送给对应的审核,每间隔预设时长或者审核到预设数量时,统计预设时长或者预设数量的漏审率、机审漏审率或者笔记漏审率等,本发明实施例中,对所述预设时长或者预设数量不进行具体限定,通过这一系列的漏审率数据,快速发现机审的漏洞和不足,以真正协助开发对机审模型进行优化。
针对机器审核和人工审核优化完成后,本发明提供了一种违规数据的审核方法,所述方法的执行流程如图3所示,包括步骤:
S101、当接收到对内容数据的审核请求时,获取所述内容数据的数据类型;
本发明实施例中,在接收到对内容数据的审核请求时,获取所述内容数据的标识,基于所述标识,确定所述内容数据的数据类型,其中,所述数据类型为视频、图片或者文本中的至少一个。
S102、选取与所述数据类型匹配的目标审核方法;
本发明实施例中,预先针对每一种类型分配与其对应的目标审核方法,本发明实施例中对具体的分配过程不进行限定。例如,若所述内容数据为图片,采用faster R-cnn算法进行审核,所述内容数据为视频,预先对视频进行分帧得到多个图片,采用采用fasterR-cnn算法进行审核,若所述内容数据为文本时,基于违规关键词库对所述内容数据进行审核。
S103、基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据。
本发明实施例中,在所述内容数据为图片时,基于目标审核模型对所述各个第一特征进行审核,得到第一审核结果,其中,所述目标审核模型基于faster R-cnn算法进行构建,所述Faster R-CNN由四个部分组成:卷积层、RPN网络
1)卷积层(conv layers),用于提取图片的特征,输入为整张图片,输出为提取出的特征称为feature maps。
2)RPN网络(Region Proposal Network),用于推荐候选区域,这个网络是用来代替之前的search selective的。输入为图片(因为这里RPN网络和FastR-CNN共用同一个CNN,所以这里输入也可以认为是featrue maps),输出为多个候选区域。
3)RoI pooling,将不同大小的输入转换为固定长度的输出,输入输出和Faste R-CNN中RoI pooling一样。
4)分类和回归,输出候选区域所属的类,和候选区域在图像中的精确位置。
本发明实施例中,候选区域所属的类可以为违规数据和非违规数据、或者预设的标识或者其他的分类方式,本发明实施例中,对具体的分类方式不进行限定,优选的,还可以输出所述图片中各个候选区域的位置。
本发明实施例中,若所述内容数据为视频时,首先对所述视频进行分帧处理,提取所述视频中的各个图片,例如,可以基于opencv将视频帧转成图片输出,由于一个视频包含的帧数过多,经常并不是需要它的全部帧转成图片,因此,可以设置每隔多少帧提取一次图片,本发明实施例中,对具体的提取形式不进行限定。
本发明实施例中,预先构建违规关键词库,其中,所述违规关键词中包含有各个被判定为违规的违规关键词,其中,所述违规关键词的选取基于经验或者具体的情况进行设定,本发明实施例中,对所述违规关键词的具体取值不进行限定,若所述内容数据为文本,对所述文本进行分词,得到各个关键词,其中,分析过程可以基于自然语言处理或者对应的分词工具实现,本发明实施例中,对具体的分词方法不进行限定。
将所述各个关键词与所述违规关键词库中的各个违规关键词进行比较,将存在对应违规关键词的文本判定为存在违规数据。
本发明实施例中,针对上述对视频和文本的审核过程,可以基于历史数据对目标审核模型不断的进行优化,针对上述文本的审核过程,可以所述违规关键词词每间隔预设时长或者其它优选触发条件进行更新,进一步保证审核结果的准确率。
本发明公开了一种违规数据的审核方法,包括:当接收到对内容数据的审核请求时,获取所述内容数据的数据类型;选取与所述数据类型匹配的目标审核方法;基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据。上述的审核过程中,在接收到对内容数据的审核请求时,首先确定内容数据的数据类型,基于不同的数据类型选取对应的目标审核方法进行审核,对内容数据进行了进一步细分,提高了审核的准确性,避免出现违规数据漏审的情况。
本发明实施例中,在基于所述目标审核方法审核失败的情况下,将所述内容数据转入人工审核,通过人工审核的方式实现对所述内容数据的审核,由于预先对人工审核的审核人员进行过培训,因此,即时基于人工审核,可以保证审核的准确率。
基于上述的一种违规数据的审核方法,本发明实施例中提供了一种违规数据的审核装置,所述审核装置的结构框图如图4所示,包括:
获取模块201、选取模块202和审核模块203。
其中,
所述获取模块201,用于当接收到对内容数据的审核请求时,获取所述内容数据的数据类型;
所述选取模块202,用于选取与所述数据类型匹配的目标审核方法;
所述审核模块203,用于基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据。
本发明公开了一种违规数据的审核装置,包括:当接收到对内容数据的审核请求时,获取所述内容数据的数据类型;选取与所述数据类型匹配的目标审核方法;基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据。上述的审核过程中,在接收到对内容数据的审核请求时,首先确定内容数据的数据类型,基于不同的数据类型选取对应的目标审核方法进行审核,对内容数据进行了进一步细分,提高了审核的准确性,避免出现违规数据漏审的情况。
本发明实施例中,所述审核装置还包括:转入模块204。
其中,
所述转入模块204,用于在基于所述目标审核方法审核失败的情况下,将所述内容数据转入人工审核。
本发明实施例中,在所述数据类型为图片时,所述审核模块203包括:
第一提取单元205、第一审核单元206和第一判断单元207。
其中,
所述第一提取单元205,用于提取所述图片的各个第一特征
所述第一审核单元206,用于基于目标审核模型对所述各个第一特征进行审核,得到第一审核结果,其中,所述目标审核模型基于faster R-cnn算法进行构建;
所述第一判断单元207,用于基于所述第一审核结果,判断所述图片中是否存在违规数据。
本发明实施例中,在所述数据类型为视频时,所述审核模块203包括:
第二提取单元208、第三提取单元209、第二审核单元210和第二判断单元211。
其中,
所述第二提取单元208,用于提取所述视频中的各个图片;
所述第三提取单元209,用于提取所述各个图片的各个第二特征;
所述第二审核单元210,用于基于目标审核模型对所述各个第二特征进行审核,得到第二审核结果;
所述第二判断单元211,用于基于所述第二审核结果,判断所述视频中是否存在违规数据。
本发明实施例中,在所述数据类型为文本时,预先构建违规关键词库,所述审核模块203包括:
分词单元212、比较单元213和第三判断单元214。
其中,
所述分词单元212,用于对所述文本进行分词,得到各个关键词;
所述比较单元213,用于将所述各个关键词与所述违规关键词库中的各个违规关键词进行比较,得到第三比较结果;
所述第三判断单元214,用于基于所述第三比较结果,判断所述文本中是否存在违规数据。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种违规数据的审核方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种违规数据的审核方法,其特征在于,包括:
当接收到对内容数据的审核请求时,获取所述内容数据的数据类型;
选取与所述数据类型匹配的目标审核方法;
基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据;
在所述数据类型为图片时,基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据,包括:
提取所述图片的各个第一特征;
基于目标审核模型对所述各个第一特征进行审核,得到第一审核结果,其中,所述目标审核模型基于faster R-cnn算法进行构建;
基于所述第一审核结果,判断所述图片中是否存在违规数据;
在所述数据类型为视频时,基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据,包括:
提取所述视频中的各个图片;
提取所述各个图片的各个第二特征;
基于目标审核模型对所述各个第二特征进行审核,得到第二审核结果;
基于所述第二审核结果,判断所述视频中是否存在违规数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
在基于所述目标审核方法审核失败的情况下,将所述内容数据转入人工审核。
3.根据权利要求1所述的方法,其特征在于,在所述数据类型为文本时,预先构建违规关键词库,基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据,包括:
对所述文本进行分词,得到各个关键词;
将所述各个关键词与所述违规关键词库中的各个违规关键词进行比较,得到第三比较结果;
基于所述第三比较结果,判断所述文本中是否存在违规数据。
4.一种违规数据的审核装置,其特征在于,包括:
获取模块,用于当接收到对内容数据的审核请求时,获取所述内容数据的数据类型;
选取模块,用于选取与所述数据类型匹配的目标审核方法;
审核模块,用于基于所述目标审核方法对所述内容数据进行审核,确定所述内容数据中是否存在违规数据;
所述审核模块具体包括:
第一提取单元,用于提取图片的各个第一特征;
第一审核单元,用于基于目标审核模型对所述各个第一特征进行审核,得到第一审核结果,其中,所述目标审核模型基于faster R-cnn算法进行构建;
第一判断单元,用于基于所述第一审核结果,判断所述图片中是否存在违规数据;
所述审核模块具体包括:
第二提取单元,用于提取视频中的各个图片;
第三提取单元,用于提取所述各个图片的各个第二特征;
第二审核单元,用于基于目标审核模型对所述各个第二特征进行审核,得到第二审核结果;
第二判断单元,用于基于所述第二审核结果,判断所述视频中是否存在违规数据。
5.根据权利要求4所述的装置,其特征在于,还包括:
转入模块,用于在基于所述目标审核方法审核失败的情况下,将所述内容数据转入人工审核。
6.根据权利要求4所述的装置,其特征在于,在所述数据类型为文本时,预先构建违规关键词库,所述审核模块包括:
分词单元,用于对所述文本进行分词,得到各个关键词;
比较单元,用于将所述各个关键词与所述违规关键词库中的各个违规关键词进行比较,得到第三比较结果;
第三判断单元,用于基于所述第三比较结果,判断所述文本中是否存在违规数据。
CN202011328482.5A 2020-11-24 2020-11-24 一种违规数据的审核方法及装置 Active CN112464036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011328482.5A CN112464036B (zh) 2020-11-24 2020-11-24 一种违规数据的审核方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011328482.5A CN112464036B (zh) 2020-11-24 2020-11-24 一种违规数据的审核方法及装置

Publications (2)

Publication Number Publication Date
CN112464036A CN112464036A (zh) 2021-03-09
CN112464036B true CN112464036B (zh) 2023-06-16

Family

ID=74799682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011328482.5A Active CN112464036B (zh) 2020-11-24 2020-11-24 一种违规数据的审核方法及装置

Country Status (1)

Country Link
CN (1) CN112464036B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850184A (zh) * 2021-09-22 2021-12-28 支付宝(杭州)信息技术有限公司 对视频内容进行检测的方法、装置、设备和可读介质
CN115660378A (zh) * 2022-12-05 2023-01-31 飞狐信息技术(天津)有限公司 一种审核数据的方法及装置
CN116204748A (zh) * 2022-12-28 2023-06-02 河北省气象服务中心(河北省气象影视中心) 一种数据处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145979A (zh) * 2018-08-15 2019-01-04 上海嵩恒网络科技股份有限公司 敏感图像鉴定方法及终端***
CN109753914A (zh) * 2018-12-28 2019-05-14 安徽清新互联信息科技有限公司 一种基于深度学习的车牌字符识别方法
CN109803152A (zh) * 2018-12-28 2019-05-24 广州华多网络科技有限公司 违规审核方法、装置、电子设备以及存储介质
CN110377900A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 网络内容发布的审核方法、装置、计算机设备及存储介质
CN110990631A (zh) * 2019-12-16 2020-04-10 腾讯科技(深圳)有限公司 视频筛选方法、装置、电子设备和存储介质
CN111414515A (zh) * 2020-03-17 2020-07-14 中国建设银行股份有限公司 一种资源审核方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024942A1 (en) * 2007-07-17 2009-01-22 Inference Data Llc Document Printing for a Web-Based Data Analysis and Document Review System

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145979A (zh) * 2018-08-15 2019-01-04 上海嵩恒网络科技股份有限公司 敏感图像鉴定方法及终端***
CN109753914A (zh) * 2018-12-28 2019-05-14 安徽清新互联信息科技有限公司 一种基于深度学习的车牌字符识别方法
CN109803152A (zh) * 2018-12-28 2019-05-24 广州华多网络科技有限公司 违规审核方法、装置、电子设备以及存储介质
CN110377900A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 网络内容发布的审核方法、装置、计算机设备及存储介质
CN110990631A (zh) * 2019-12-16 2020-04-10 腾讯科技(深圳)有限公司 视频筛选方法、装置、电子设备和存储介质
CN111414515A (zh) * 2020-03-17 2020-07-14 中国建设银行股份有限公司 一种资源审核方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用Azure内容审查器审查违规内容(上);挥墨的书童;《https://blog.51cto.com/shutong/2349406》;CSDN;20190212;全文 *

Also Published As

Publication number Publication date
CN112464036A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN112464036B (zh) 一种违规数据的审核方法及装置
TWI438637B (zh) 用於擷取及管理社群智慧資訊的系統及方法
CN110232149B (zh) 一种热点事件检测方法和***
CN107862022B (zh) 文化资源推荐***
CN107633380A (zh) 一种数据防泄漏***的任务审批方法和***
KR20180011254A (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
WO2019037195A1 (zh) 用户兴趣识别方法、装置及计算机可读存储介质
CN108874777A (zh) 一种文本反垃圾的方法及装置
CN104111925B (zh) 项目推荐方法和装置
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
US9256593B2 (en) Identifying product references in user-generated content
JP6428795B2 (ja) モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体
CN109815386B (zh) 一种基于用户画像的构建方法、装置及存储介质
KR102070197B1 (ko) 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법
US10387805B2 (en) System and method for ranking news feeds
CN109101551B (zh) 一种问答知识库的构建方法及装置
CN107491435A (zh) 基于计算机自动识别用户情感的方法及装置
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和***
US11036818B2 (en) Method and system for detecting graph based event in social networks
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
US20190258629A1 (en) Data mining method based on mixed-type data
CN107085568A (zh) 一种文本相似度判别方法及装置
US20150104065A1 (en) Apparatus and method for recognizing object in image
CN106446051A (zh) Eagle媒资深度搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant