CN112905812B - 媒体文件审核方法及*** - Google Patents

媒体文件审核方法及*** Download PDF

Info

Publication number
CN112905812B
CN112905812B CN202110136240.4A CN202110136240A CN112905812B CN 112905812 B CN112905812 B CN 112905812B CN 202110136240 A CN202110136240 A CN 202110136240A CN 112905812 B CN112905812 B CN 112905812B
Authority
CN
China
Prior art keywords
file
risk
checked
area
image file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110136240.4A
Other languages
English (en)
Other versions
CN112905812A (zh
Inventor
陈正男
谢赟
黄海清
韩欣
朱王芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Datatom Information Technology Co ltd
Original Assignee
Shanghai Datatom Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Datatom Information Technology Co ltd filed Critical Shanghai Datatom Information Technology Co ltd
Priority to CN202110136240.4A priority Critical patent/CN112905812B/zh
Publication of CN112905812A publication Critical patent/CN112905812A/zh
Application granted granted Critical
Publication of CN112905812B publication Critical patent/CN112905812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种媒体文件审核方法及***,该方法包括如下步骤:步骤1:分类收集待审核文件,所述待审核文件包括视频数据和图像数据;步骤2:将待审核文件进行迭代训练并取得目标检测模型;步骤3:通过目标检测模型将待审核文件进行检测处理,筛选出风险文件;步骤4:根据业务场景设置阈值,并基于阈值对风险文件进行过滤处理。本申请能够在大量的媒体文件中快速准确地发现存在内容安全隐患的文件,并有效的将风险文件进行拦截及执行相应操作。

Description

媒体文件审核方法及***
技术领域
本申请属于图像处理技术领域,具体来说涉及一种对媒体文件审核方法,以及实现 该方法的审核***。
背景技术
随着互联网的发展,用户在网络平台上传的媒体文件中,难免存在一部分不良信息, 对于相关应用和服务平台而言很容易因为以上安全隐患遭到下架关停等整改,从而使得业 务发展遭受巨大损失。因此,如何开发出一种对媒体的媒体文件审核方法,能够帮助平台 及时从海量的上传数据中筛选出不良信息的媒体文件,以保护应用平台和服务平台利益, 是本领域技术人员需要研究的方向。
发明内容
本发明的目的在于提供一种媒体文件审核方法,能够在大量的媒体文件中快速准确地 发现存在内容安全隐患的文件,并有效的将风险文件进行拦截及执行相应操作。
一种媒体文件审核方法,其包括如下步骤:
步骤1:分类收集待审核文件,所述待审核文件包括视频文件和图像文件;
步骤2:将待审核文件进行迭代训练并取得目标检测模型;
步骤3:通过目标检测模型将待审核文件进行检测处理,筛选出风险文件;
步骤4:将待审核文件进行过滤处理。
优选的,上述媒体文件审核方法中,步骤1包括:
步骤11:构建内容审核目录;
步骤12:基于内容审核目录将待审核文件进行分类收集;
步骤13:将待审核文件中的视频文件进行抽帧处理、将该视频文件转化为图像文件;
步骤14:对图像文件进行清洗和标注。所述清洗是指基于python脚本删除灰度图及四 维图;所述标注是指通过LabelImg在图像文件上标注审核类别目标的标签及坐标信息。
更优选的,上述媒体文件审核方法中,步骤2包括:
以YOLO v5目标检测模型将待审核文件进行迭代训练并取得目标检测模型。
进一步优选的,上述媒体文件审核方法中,步骤3包括:
步骤31:将图像文件输入所述目标检测模型中,训练后输出对应于各图像文件的风险 值;
步骤32:将步骤31所得风险值与预设的第一风险阈值进行比对,将高于第一风险阈值 的风险值所对应的图像文件打上风险标签。
更进一步优选的是,上述媒体文件审核方法中,步骤4包括:
步骤41:读取图像文件是否包含风险标签,若是则跳转至步骤42,若否进程结束;
步骤42:将图像文件对应的风险值与第二风险阈值进行比对,若该风险值高于第二风 险阈值,则跳转至步骤43,否则跳转至步骤44;
步骤43:若图像文件由待审核文件中的视频文件转化而成,删除该图像文件对应的视 频文件;否则删除该图像文件;
步骤44:计算图像文件的风险区域面积并将该风险区域面积与预存的面积阈值进行比 对,若风险区域面积大于面积阈值则跳转至步骤45;否则跳转至步骤46;
步骤45:对图像文件上的风险区域进行模糊处理;
步骤46:对图像文件上的风险区域进行遮挡处理。
为实现上述媒体文件审核方法,本申请还公开了一种媒体文件审核***。
该媒体文件审核***包括:采集模块,训练模块,检测模块和过滤模块;所述采集模 块用于分类收集待审核文件,所述待审核文件包括视频数据和图像数据;所述训练模块用 于将待审核文件进行迭代训练并取得目标检测模型;所述检测模块用于通过目标检测模型 将待审核文件进行检测处理,筛选出风险文件;所述过滤模块用于将待审核文件进行过滤 处理。
与现有技术相比,本申请能够在大量的媒体文件中快速准确地发现存在内容安全隐患 的文件,并通过过滤装置有效的将风险文件进行拦截及执行相应操作。
附图说明
下面结合附图与具体实施方式对本申请作进一步详细的说明:
图1为本发明的***结构框图;
图2为本发明的工作流程图;
图3为本发明中对待审核文件过滤处理的流程图;
图4为实施例1的输入图像;
图5为实施例1的输出图像;
图6为实施例2的输入图像;
图7为实施例2的输出图像;
图8为实施例3的输入图像。
具体实施方式
为了更清楚地说明本申请的技术方案,下面将结合实施例作进一步描述。
如图1所示:
一种媒体文件审核***,其包括:采集模块101,训练模块102,检测模块103和过滤模块104。所述采集模块101用于分类收集待审核文件,所述训练模块102用于将待审核文件进行迭代训练并取得目标检测模型;所述检测模块103用于通过目标检测模型将待审核文件进行检测处理,筛选出风险文件;所述过滤模块104用于将待审核文件进行过滤处理。
如图2-3所示,基于上述媒体文件审核***所实现的一种媒体文件审核方法,其包括 如下步骤:
步骤1:分类收集待审核文件,所述待审核文件包括视频文件和图像文件;
具体的,步骤1包括以下步骤:
步骤11:构建内容审核目录;
步骤12:基于内容审核目录将待审核文件进行分类收集;
步骤13:将待审核文件中的视频文件进行抽帧处理、将该视频文件转化为图像文件;
步骤14:对图像文件进行清洗和标注。所述清洗是指基于python脚本删除灰度图及四 维图;所述标注是指通过LabelImg在图像文件上标注审核类别目标的标签及坐标信息。
步骤2:将待审核文件进行迭代训练并取得目标检测模型;
具体的,以YOLO v5目标检测模型对图6所示图像的待审核文件进行迭代训练并取得目 标检测模型。
步骤3:通过目标检测模型将待审核文件进行检测处理,筛选出风险文件;
具体的,步骤3包括以下步骤:
步骤31:将待审核文件输入所述目标检测模型中,训练后输出对应于待审核文件的风 险值;
步骤32:将步骤31所得风险值与预设的第一风险阈值进行比对,将高于第一风险阈值 的风险值所对应的图像文件打上风险标签。
步骤4:对待审核文件进行过滤处理。
具体的,步骤4包括以下步骤:
步骤41:读取图像文件是否包含风险标签,若是则跳转至步骤42,若否进程结束;
步骤42:将待审核文件对应的风险值与第二风险阈值进行比对,若该风险值高于第二 风险阈值,则跳转至步骤43,否则跳转至步骤44;
步骤43:若图像文件由待审核文件中的视频文件转化而成,删除该图像文件对应的视 频文件;否则删除该图像文件;
步骤44:计算图像文件的风险区域面积并将该风险区域面积与预存的面积阈值进行比 对,若风险区域面积大于面积阈值则跳转至步骤45;否则跳转至步骤46;
步骤45:对图像文件上的风险区域进行模糊处理;
步骤46:对图像文件上的风险区域进行遮挡处理。
实施例1:
以图4所示图片为待审核文件、基于上述步骤进行审核:
设第一风险阈值为0.5,第二风险阈值为0.9,面积阈值设定为5000。
对图4完成检测后,模型输出:label(标签):gun、风险值C:0.75、坐标值(160, 75,240,135),由坐标值计算得出风险区域面积S:S=(240-160)*(135-75)=4800; 其中风险值0.75介于0.5和0.9之间,并且风险区域面积小于5000,对风险区域执行遮 挡处理:通过脚本文件将坐标(160,75)与(240,135)之间区域内的像素值修改为0; 其显示结果如图5所示。
实施例2:
以图6所示图片为待审核文件、基于上述步骤进行审核:
设第一风险阈值为0.5,第二风险阈值为0.9,面积阈值设定为5000。
对图6完成检测后,模型输出:label(标签):knife、风险值C:0.85、坐标值(150,30,210,175),由坐标值计算得出风险区域面积S:S=(210-150)*(175-30)=8700, 其中风险值0.85介于0.5和0.9之间,并且风险区域面积大于5000,对风险区域执行模 糊处理:通过脚本文件将坐标(150,30)与(210,175)区域内某个像素点一定范围邻域 内的所有点用邻域内左上像素点的颜色代替,即可模糊细节,其显示结果如图7所示。
实施例3:
以图8所示图片为待审核文件、基于上述步骤进行审核:
设第一风险阈值为0.5,第二风险阈值为0.9,面积阈值设定为5000。
对图8完成检测后,模型输出:label(标签):axe、风险值C:0.96、坐标值(20, 25,160,180),其中风险值大于0.9,对图片文件执行删除操作,故本图片文件输出为 空。
以上所述,仅为本申请的具体实施例,但本申请的保护范围并不局限于此,任何熟悉 本领域技术的技术人员在本申请公开的技术范围内,可轻易想到的变化或替换,都应涵盖 在本申请的保护范围之内。本申请的保护范围以权利要求书的保护范围为准。

Claims (4)

1.一种媒体文件审核方法,其特征在于,包括如下步骤:
步骤1:分类收集待审核文件;
步骤2:将待审核文件进行迭代训练并取得目标检测模型;
步骤3:通过目标检测模型将待审核文件进行检测处理,筛选出风险文件;
步骤4:将待审核文件进行过滤处理;
步骤3包括:
步骤31:将待审核文件输入所述目标检测模型中,训练后输出对应于待审核文件的风险值;
步骤32:将步骤31所得风险值与预设的第一风险阈值进行比对,将高于第一风险阈值的风险值所对应的图像文件打上风险标签;
步骤4包括:
步骤41:读取图像文件是否包含风险标签,若是则跳转至步骤42,若否进程结束;
步骤42:将待审核文件对应的风险值与第二风险阈值进行比对,若该风险值高于第二风险阈值,则跳转至步骤43,否则跳转至步骤44;
步骤43:若图像文件由待审核文件中的视频文件转化而成,删除该图像文件对应的视频文件;否则删除该图像文件;
步骤44:计算图像文件的风险区域面积并将该风险区域面积与预存的面积阈值进行比对,若风险区域面积大于面积阈值则跳转至步骤45;否则跳转至步骤46;
步骤45:对图像文件上的风险区域进行模糊处理;
步骤46:对图像文件上的风险区域进行遮挡处理。
2.如权利要求1所述媒体文件审核方法,其特征在于,步骤1包括:
步骤11:构建内容审核目录;
步骤12:基于内容审核目录将待审核文件进行分类收集;
步骤13:将待审核文件中的视频文件进行抽帧处理、将该视频文件转化为图像文件;
步骤14:将待审核文件进行清洗和标注。
3.如权利要求2所述媒体文件审核方法,其特征在于,步骤2包括:
以YOLO v5目标检测模型将待审核文件进行迭代训练并取得目标检测模型。
4.一种媒体文件审核***,其特征在于,包括:采集模块,训练模块,检测模块和过滤模块;
所述采集模块用于分类收集待审核文件,所述待审核文件包括视频数据和图像数据;
所述训练模块用于将待审核文件进行迭代训练并取得目标检测模型;
所述检测模块用于通过目标检测模型将待审核文件进行检测处理,筛选出风险文件;
所述过滤模块用于将待审核文件进行过滤处理;
所述检测模块筛选出风险文件时,包括以下步骤:
步骤31:将待审核文件输入所述目标检测模型中,训练后输出对应于待审核文件的风险值;
步骤32:将步骤31所得风险值与预设的第一风险阈值进行比对,将高于第一风险阈值的风险值所对应的图像文件打上风险标签;
所述过滤模块将待审核文件进行过滤处理时,包括以下步骤:
步骤41:读取图像文件是否包含风险标签,若是则跳转至步骤42,若否进程结束;
步骤42:将待审核文件对应的风险值与第二风险阈值进行比对,若该风险值高于第二风险阈值,则跳转至步骤43,否则跳转至步骤44;
步骤43:若图像文件由待审核文件中的视频文件转化而成,删除该图像文件对应的视频文件;否则删除该图像文件;
步骤44:计算图像文件的风险区域面积并将该风险区域面积与预存的面积阈值进行比对,若风险区域面积大于面积阈值则跳转至步骤45;否则跳转至步骤46;
步骤45:对图像文件上的风险区域进行模糊处理;
步骤46:对图像文件上的风险区域进行遮挡处理。
CN202110136240.4A 2021-02-01 2021-02-01 媒体文件审核方法及*** Active CN112905812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110136240.4A CN112905812B (zh) 2021-02-01 2021-02-01 媒体文件审核方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110136240.4A CN112905812B (zh) 2021-02-01 2021-02-01 媒体文件审核方法及***

Publications (2)

Publication Number Publication Date
CN112905812A CN112905812A (zh) 2021-06-04
CN112905812B true CN112905812B (zh) 2023-07-11

Family

ID=76120895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110136240.4A Active CN112905812B (zh) 2021-02-01 2021-02-01 媒体文件审核方法及***

Country Status (1)

Country Link
CN (1) CN112905812B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2827060A1 (fr) * 2001-07-05 2003-01-10 Eastman Kodak Co Procede d'identification du ciel dans une image et image obtenue grace a ce procede
CN101359329A (zh) * 2008-04-01 2009-02-04 北京恒金恒泰信息技术有限公司 基于浏览器的过滤色情软件插件
CN102592141A (zh) * 2012-01-04 2012-07-18 南京理工大学常熟研究院有限公司 一种对动态图像中人脸遮挡的方法
CN104598483A (zh) * 2013-11-01 2015-05-06 索尼公司 图片过滤方法、装置以及电子设备
US10109092B1 (en) * 2015-03-24 2018-10-23 Imagical LLC Automated text layout, color and other stylization on an image or video, and the tracking and application of user color preferences
CN108960782A (zh) * 2018-07-10 2018-12-07 北京木瓜移动科技股份有限公司 内容审核方法以及装置
CN110188627A (zh) * 2019-05-13 2019-08-30 睿视智觉(厦门)科技有限公司 一种人脸图像过滤方法及装置
CN110750656A (zh) * 2019-10-29 2020-02-04 上海德拓信息技术股份有限公司 一种基于知识图谱的多媒体检测方法
CN111460930A (zh) * 2020-03-17 2020-07-28 深圳市创维群欣安防科技股份有限公司 一种媒体文件安全审核的方法、存储介质及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0402576D0 (sv) * 2004-10-25 2004-10-25 Forskarpatent I Uppsala Ab Multispectral and hyperspectral imaging

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2827060A1 (fr) * 2001-07-05 2003-01-10 Eastman Kodak Co Procede d'identification du ciel dans une image et image obtenue grace a ce procede
CN101359329A (zh) * 2008-04-01 2009-02-04 北京恒金恒泰信息技术有限公司 基于浏览器的过滤色情软件插件
CN102592141A (zh) * 2012-01-04 2012-07-18 南京理工大学常熟研究院有限公司 一种对动态图像中人脸遮挡的方法
CN104598483A (zh) * 2013-11-01 2015-05-06 索尼公司 图片过滤方法、装置以及电子设备
WO2015063551A1 (en) * 2013-11-01 2015-05-07 Sony Corporation Method and apparatus for filtering pictures
US10109092B1 (en) * 2015-03-24 2018-10-23 Imagical LLC Automated text layout, color and other stylization on an image or video, and the tracking and application of user color preferences
CN108960782A (zh) * 2018-07-10 2018-12-07 北京木瓜移动科技股份有限公司 内容审核方法以及装置
CN110188627A (zh) * 2019-05-13 2019-08-30 睿视智觉(厦门)科技有限公司 一种人脸图像过滤方法及装置
CN110750656A (zh) * 2019-10-29 2020-02-04 上海德拓信息技术股份有限公司 一种基于知识图谱的多媒体检测方法
CN111460930A (zh) * 2020-03-17 2020-07-28 深圳市创维群欣安防科技股份有限公司 一种媒体文件安全审核的方法、存储介质及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Radiometric normalization, compositing, and quality control for satellite high resolution image mosaics over large areas;Yong Du等;《IEEE Transactions on Geoscience and Remote Sensing》;第39卷(第3期);第623-634页 *
基于比例特征的网络不良图像过滤算法研究;王景中等;《计算机工程与科学》;第38卷(第3期);第514-519页 *

Also Published As

Publication number Publication date
CN112905812A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN108229485B (zh) 用于测试用户界面的方法和装置
CN111008961B (zh) 一种输电线路设备缺陷检测方法及其***、设备、介质
US20130279758A1 (en) Method and system for robust tilt adjustment and cropping of license plate images
CN110717919A (zh) 图像处理方法、装置、介质和计算设备
CN111767228A (zh) 基于人工智能的界面测试方法、装置、设备和介质
CN114169381A (zh) 图像标注方法、装置、终端设备及存储介质
CN106202086A (zh) 一种图片处理、获取方法、装置及***
CN116052193B (zh) Rpa界面动态表格的拾取和匹配方法及***
Geng et al. An improved helmet detection method for YOLOv3 on an unbalanced dataset
AG Development of portable automatic number plate recognition (ANPR) system on Raspberry Pi
CN113435407A (zh) 一种输电***的小目标识别方法及装置
US20220375243A1 (en) Method, system, server, and storage medium for logistics management based on qr code
CN114782902A (zh) 石化气体泄露检测方法、***、设备及存储介质
Huang et al. Detecting shadows in high-resolution remote-sensing images of urban areas using spectral and spatial features
CN112052730A (zh) 一种3d动态人像识别监控设备及方法
CN110895811A (zh) 一种图像篡改检测方法和装置
Dong et al. Pavement crack detection based on point cloud data and data fusion
CN110569716A (zh) 一种货架图像翻拍检测方法
CN112905812B (zh) 媒体文件审核方法及***
CN110310341B (zh) 颜色算法中默认参数的生成方法、装置、设备和存储介质
CN112967166A (zh) 一种基于openCV的图片水印自动识别处理方法及***
CN114445751A (zh) 视频关键帧图像轮廓特征的提取方法和装置
CN114638304A (zh) 图像识别模型的训练方法、图像识别方法及装置
CN113554586A (zh) 像素异常的显著性自动评估
CN112232390A (zh) 一种高像素大图像的识别方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant