CN113111200B - 审核图片文件的方法、装置、电子设备和存储介质 - Google Patents

审核图片文件的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113111200B
CN113111200B CN202110385971.2A CN202110385971A CN113111200B CN 113111200 B CN113111200 B CN 113111200B CN 202110385971 A CN202110385971 A CN 202110385971A CN 113111200 B CN113111200 B CN 113111200B
Authority
CN
China
Prior art keywords
picture file
data
file
picture
auditing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110385971.2A
Other languages
English (en)
Other versions
CN113111200A (zh
Inventor
张欢
熊俊峰
王洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110385971.2A priority Critical patent/CN113111200B/zh
Publication of CN113111200A publication Critical patent/CN113111200A/zh
Application granted granted Critical
Publication of CN113111200B publication Critical patent/CN113111200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种审核图片文件的方法、装置、电子设备和存储介质,应用于计算机技术领域,具体应用于人工智能技术领域,可用于多媒体信息识别和多媒体信息审核场景下。审核图片文件的方法的具体实现方案为:获取待审核的图片文件;在确定图片文件为无损压缩文件的情况下,检测图片文件中是否包含流式数据;以及在检测到图片文件中包含流式数据的情况下,采用预定处理模型对流式数据进行审核,以确定图片文件是否异常。

Description

审核图片文件的方法、装置、电子设备和存储介质
技术领域
本公开涉及计算机技术领域,具体涉及人工智能技术领域,更具体地涉及一种可应用于多媒体信息识别和多媒体信息审核场景的审核图片文件的方法、装置、电子设备和存储介质。
背景技术
随着计算机技术的发展,多媒体数据的体现形式越来越多样化。若该多样化形式被一些特定用户不正当使用,例如用户利用该多样化形式在多媒体数据中隐藏异常数据以绕过各信息平台的审核,则可能会使得异常数据得到广泛传播,给社会风气带来较为负面的影响。
发明内容
提供了一种提高审核准确度的审核图片文件的方法、装置、设备和存储介质。
根据本公开的一个方面,提供了一种审核图片文件的方法,包括:获取待审核的图片文件;在确定图片文件为无损压缩文件的情况下,检测图片文件中是否包含流式数据;以及在检测到图片文件中包含流式数据的情况下,采用预定处理模型对流式数据进行审核,以确定图片文件是否异常。
根据本公开的另一个方面,提供了一种审核图片文件的装置,包括:文件获取模块,用于获取待审核的图片文件;数据检测模块,用于在确定图片文件为无损压缩文件的情况下,检测图片文件中是否包含流式数据;以及数据审核模块,用于在检测到图片文件中包含流式数据的情况下,采用预定处理模型对流式数据进行审核,以确定图片文件是否异常。
根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的审核图片文件的方法。
根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的审核图片文件的方法。
根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的审核图片文件的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的审核图片文件的方法和装置的应用场景示意图;
图2是根据本公开实施例的审核图片文件的方法的流程示意图;
图3是根据本公开实施例的审核图片文件的方法的原理示意图;
图4是根据本公开实施例的检测图片文件中是否包含流式数据的流程示意图;
图5是根据本公开实施例的采用预定审核模型对流式数据进行审核的原理示意图;
图6是根据本公开实施例的审核图片文件的装置的结构框图;以及
图7是用来实现本公开实施例的审核图片文件的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种审核图片文件的方法,该方法包括文件获取阶段、数据检测阶段和数据审核阶段。在文件获取阶段,获取待审核的图片文件。在数据检测阶段,在确定图片文件为无损压缩文件的情况下,检测图片文件中是否包含流式数据。在数据审核阶段,在检测到图片文件中包含流式数据的情况下,采用预定处理模型对流式数据进行审核,以确定图片文件是否异常。
以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
图1是根据本公开实施例的审核图片文件的方法和装置的应用场景示意图。
如图1所示,该应用场景100包括终端设备110和服务器130。终端设备110可以通过网络与服务器130通信连接,网络可以包括有线或无线通信链路。
根据本公开的实施例,终端设备110例如可以为能够提供用户交互界面且具有处理功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
示例性地,终端设备110例如可以安装有各种客户端应用,例如图片编辑类应用、搜索类应用、即时通信工具等(仅为示例)。用户例如可以通过图片编辑类应用生成图片文件120,以期望向搜索类应用等其他客户端应用提供可供检索的信息。用户例如可以使用终端设备110通过网络与服务器130交互,以将生成的图片文件120发送给服务器130,以供服务器130进行审核。
根据本公开的实施例,服务器130例如可以为向前述其他客户端应用的运行提供支持的后台管理服务器,或者可以与向其他客户端应用的运行提供支持的后台管理服务器通信的任意服务器。该服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
示例性地,服务器130可以对接收到的图片文件120进行审核,以确认该图片文件120是否为异常文件。若为非异常文件,则确定图片文件120通过审核。
示例性地,如图1所示,该应用场景100例如还可以包括数据库140。该数据库140中维护有向其他客户端应用提供的全量数据。在服务器130确认图片文件120通过审核时,例如还可以将图片文件120存入该数据库140,以对向其他客户端应用提供的数据进行补充。
示例性地,电子设备150例如可以通过访问数据库140,以从数据库140中的全量数据中搜索用户检索的数据。该电子设备150可以为服务器、智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
需要说明的是,本公开所提供的审核图片文件的方法可以由服务器130执行。相应地,本公开所提供的审核图片文件的装置可以设置于服务器130中。本公开所提供的审核图片文件的方法也可以由不同于服务器130且能够与服务器130通信的服务器或服务器集群执行。相应地,本公开所提供的审核图片文件的装置也可以设置于不同于服务器130且能够与服务器130通信的服务器或服务器集群中。
应该理解,图1中的终端设备、服务器、数据库和电子设备的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的终端设备、服务器、数据库和电子设备。
图2是根据本公开实施例的审核图片文件的方法的流程图。
如图2所示,该实施例的审核图片文件的方法200包括操作S210~操作S250。
在操作S210,获取待审核的图片文件。
根据本公开的实施例,该待审核的图片文件例如可以为JPEG、TIFF、RAW、BMP、GIF或PNG等格式的文件。可以理解的是,该待审核的图片文件的格式仅作为示例以利于理解本公开,本公开对此不做限定。
根据本公开的实施例,用户提供的待审核的文件例如可以包括多种类型的多媒体文件,该操作S210可以从该多媒体文件中挑选出图片文件,作为待审核的图片文件。在一实施例中,待审核的图片文件例如可以由用户通过用户生成内容(User Generated Content,UGC)平台发送给服务器,以供服务器进行审核。
在操作S220,判断图片文件是否为无损压缩文件。
根据本公开的实施例,可以根据图片文件的格式来确定图片文件是否为无损压缩文件。其中,无损压缩指使用压缩后的数据进行重构,重构后得到的数据与原来的数据完全相同。图片文件的格式可以根据图片文件的后缀名确定。
示例性地,若图片文件为PNG格式,则确定图片文件为无损压缩文件。这是由于PNG是一种采用无损压缩算法的位图格式。可以理解的是,PNG格式仅为无损压缩文件的一种存储格式,此处列举仅用于理解本公开。采用无损压缩算法得到的存储图片的格式均可以作为判定图片文件是否为无损压缩文件的依据。
在确定图片文件不是无损压缩文件的情况下,则执行操作S230。在确定图片文件为无损压缩文件的情况下,执行操作S240。
在操作S230,采用图片审核模型对图片文件中的图片进行审核。
根据本公开的实施例,图片审核模型例如可以为物体检测模型,用于检测图片文件中的图片是否包含异常物体。若包含异常物体,则确定图片文件未通过审核,若未包含异常物体,则确定图片文件通过审核。其中,物体检测模型可以为深度神经网络模型等,本公开对此不做限定。
在操作S240,检测图片文件中是否包含流式数据。根据本公开的实施例,可以通过对图片文件进行解码来确定图片文件中是否包含流式数据。该流式数据例如可以包括音频数据和/或视频数据等。
示例性地,可以根据图片文件的存储容量与图片尺寸来检测图片文件中是否隐藏有文件。例如,若图片文件中的图片尺寸为400像素*400像素,每个像素点占用4个字节(其中,R通道、G通道、B通道和alpha透明通道各占一个字节),则可以确定在未经压缩时,存储该图片文件中的图片所需的最大存储容量为400*400*4/1024=625KB。若图片文件的存储容量大于该最大存储容量,则可以确定该图片文件中包含流式数据。
在检测到图片文件中不包含流式数据的情况下,返回执行操作S230;在检测到图片文件中包含流式数据的情况下,执行操作S250。
在操作S250,采用预定处理模型对流式数据进行审核,以确定图片文件是否异常。
根据本公开的实施例,在图片文件中包含流式数据的情况下,可以对图片文件进行解析,从图片文件中提取出流式数据。随后采用预定处理模型来提取流式数据的特征,并根据提取的特征对该流式数据进行分类。分类结果可以指示流式数据是否为异常数据,若为异常数据,则可以确定图片文件异常。若分类结果指示流式数据为正常数据,则可以确定图片文件中未隐藏异常数据,在对图片文件中图片审核确定图片无异常时,即可使得图片文件经由各互联网平台被分享传播。其中,预定处理模型可以为卷积神经网络模型等能够用于进行目标检测的模型,以从流式数据中检测异常目标。在流式数据中包括异常目标的情况下,输出流式数据为异常数据的分类结果。可以理解的是,上述预定处理模型仅作为示例以利于理解本公开,本公开对此不做限定。
根据本公开的实施例,在检测到图片文件中包含流式数据时,还可以采用mplayer播放器等来播放图片文件,经由该mplayer播放器可以听到和看到图片文件隐藏的流式数据。从而根据播放结果来确定隐藏的流式数据是否有异常内容,若有异常内容,确定图片文件异常。可以理解的是,上述播放器仅作为示例以利于理解本公开,本公开可以采用任意的具有解码功能和播放功能的播放器来播放图片文件。
本公开实施例在获取到图片文件后,通过检测图片文件中是否包含流式数据,并在包含流式数据时对流式数据进行审核,可以对隐藏了流式数据的图片文件进行完整性的审核。相较于现有技术仅对图片文件中的图片进行审核的技术方案,可以有效避免隐藏异常数据的非异常图片的图片文件绕过审核平台,使得异常数据在网络中传播的情况,并因此可以提高审核准确性和传播数据的管理有效性,利于促进网络信息的安全健康传播,利于净化网络环境。
根据本公开的实施例,在检测图片文件中是否包含流式数据时,可以采用固件分析工具来对图片文件进行分析。该实施例通过固件分析工具的分析,可以得到图片文件中包含的数据类型。在得到数据类型后,根据该数据类型确定图片文件中是否包含流式数据。通过该方式,提高对流式数据的检测准确性。
示例性地,若分析得到的数据类型包括流式数据类型,则可以确定图片文件中包含流式数据。固件分析工具可以包括Binwalk等用于搜索给定二进制镜像文件以获取嵌入的文件和嵌入的代码的工具,该固件分析工具被设计为用于识别嵌入固件镜像内的文件和代码。
示例性地,若图片文件中仅包含图片数据,经由该固件分析工具分析得到的描述信息(Description)通常仅包括对图片大小等进行描述的一行描述信息。若该图片文件中包含流式数据,则经由该固件分析工具分析得到的描述信息还会包括对数据流(streamdata)的描述信息。因此,若固件分析工具分析得到的数据类型还包括数据流时,可以确定图片文件包含流式数据。
图3是根据本公开实施例的审核图片文件的方法的原理示意图。
根据本公开的实施例,可以通过对图片文件的二进制流进行分析,来确定图片文件是否为无损压缩文件。通常二进制流的前4个字节位置处的数据表示图片文件的存储格式,因此,可以通过对该前4个字节位置处的数据与预定的无损压缩格式的二进制码表示进行比对,来确定图片文件是否为无损压缩文件。
示例性地,如图3所示,该实施例的审核图片文件的方法300在获取到待审核的图片文件后,可以先对图片文件310进行转换,转换得到二进制文件320,即用二进制流来表示图片文件310。例如可以采用Base64等来实现图片文件与二进制文件之间的转换。在一实例中,图片文件转换得到的二进制流可以为“10001001 01010000...”。
在得到二进制文件后,可以先确定二进制文件中位于预定字节位置处的数据是否描述无损压缩格式的数据。该实施例可以维护有二进制数据表示的无损压缩格式列表。若该预定字节位置处的数据为属于无损压缩格式列表的数据,则确定位于预定字节位置处的数据描述无损压缩格式,并因此确定图片文件为无损压缩文件。其中,预定字节位置可以为二进制文件的前4个字节。可以理解的是,预定字节位置处的二进制码表示数据图片文件的存储格式,预定字节位置可以根据实际情况进行设定,本公开对此不做限定。
在一实施例中,在得到二进制文件后,如图3所示,还可以将二进制文件转换为十六进制文件330。相应地,无损压缩格式列表可以由十六进制表示。在得到十六进制文件后,可以将预定字节位置处的十六进制数据与无损压缩格式列表进行比对,从而确定图片文件是否为无损压缩文件。在一实例中,若十六进制文件的前4个字节处的数据为“89 50 4E 470D 0A 1A 0A”,则可以确定图片文件310的存储格式为PNG格式,并因此确定图片文件为无损压缩文件340。
图4是根据本公开实施例的检测图片文件中是否包含流式数据的流程示意图。
在实现本公开的过程中,发明人发现,在图片文件中包含流式数据时,图片文件的二进制流中通常会有特定标识符,该特定标识符用来指示解码器,且在使用该指示的解码器对图片文件进行解码时,可以解码得到流式数据。该实施例可以将该二进制流中的特定标识符作为判定图片文件中是否包含流式数据的依据。
示例性地,如图4所示,该实施例中,检测图片文件中是否包含流式数据的操作可以包括操作S441~操作S442。
在操作S441,将图片文件转换为二进制文件。该操作的实现方式与前文描述的基于Base64等来实现图片文件与二进制文件之间的转换的方法类似,在此不再赘述。
在操作S442,判断二进制文件中是否包括标识符。该标识符可以为与音频解码器和/或音频解码器相对应的标识符。
示例性地,该实施例可以维护有音频解码器的标识符和视频解码器的标识符的列表,作为标识符列表。在转换得到二进制文件后,可以将二进制文件中二进制码与标识符列表中的各标识符进行比对,若二进制文件中包含标识符列表中的某个标识符,则确定二进制文件包括与音频解码器和/或视频解码器相对应的标识符。
示例性地,标识符列表例如可以包括采用十六进制表示的标识符。该实施例在得到二进制文件后,还可以将二进制文件转换为十六进制文件,然后将十六进制文件中的十六进制码与标识符列表中的各标识符进行比对。在一实例中,若转换得到的十六进制文件中包含指示FFmpeg的十六进制码“46 46 6D 70 65 67”,则由于FFmpeg为用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序(即为音视频处理的开源软件),因此可以确定该十六进制码“46 46 6D 70 65 67”指示了音视频解码器。从而可以确定图片文件中包含流式数据。此种情况下,标识符可以为十六进制码“46 46 6D 70 65 67”的二进制表示。可以理解的是,上述标识符、音频解码器和视频解码器仅作为示例以利于理解本公开,本公开对此不做限定。
若通过操作S442确定二进制文件中包括标识符,则可以执行操作S443,确定图片文件中包含流式数据。
若通过操作S442确定二进制文件中不包括标识符,则可以确定图片文件中不包含流式数据。
根据本公开的实施例,在确定二进制文件中不包括标识符的情况下,例如还可以对图片文件的存储容量进行审核,来确定图片文件是否包含流式数据。以此避免标识符列表中维护的标识符不完整导致的流式数据检测准确性低的情况,从而进一步提高检测准确性。
示例性地,如图4所示,若通过操作S442确定二进制文件中不包括标识符,该实施例的检测图片文件中是否包含流式数据的操作还可以包括操作S444~操作S447。
在操作S444,确定图片文件中图片的尺寸和存储图片文件所需的储存容量。该实施例可以采用预先编写的JavaScript语句等来获取图片的尺寸和图片文件的存储容量。可以理解的是,上述获取尺寸和存储容量的方法仅作为示例以利于理解本公开,本公开对此不做限定。
在操作S445,基于图片的尺寸,确定存储图片所需的最大存储容量。该操作可以采用与前文描述的计算存储图片文件中的图片所需的最大存储容量的方法类似,在此不再赘述。
在操作S446,判断储存容量是否大于最大储存容量。
若储存容量大于最大存储容量,则执行操作S443,确定图片文件中包含流式数据。若储存容量不大于最大存储容量,则执行操作S447,确定图片文件中不包含流式数据。
可以理解的是,在确定图片文件中不包含流式数据时,还可以将该图片文件缓存至预定存储空间,以供审核人员进行人工审核。
图5是根据本公开实施例的采用预定审核模型对流式数据进行审核的原理示意图。
根据本公开的实施例,在流式数据包括多种类型的数据时,可以采用不同的处理模型分别处理不同类型的数据,以此提高审核精度。
示例性地,如图5所示,该实施例500在对流式数据进行审核时,可以先对图片文件510进行解码,得到该图片文件中包含的各类型的流式数据。解码时例如可以采用前述FFmpeg解码器等能够对多种类型的流式数据进行解码的任意工具。通过解码,可以将图片文件中不同类型的流式数据进行分离,得到与图片文件中流式数据类型的个数相等的至少一个流式数据。
在一实施例中,如图5所示,通过解码可以得到音频数据511和视频数据512。在解码得到至少一个流式数据后,可以根据流式数据的类型来选择匹配的处理模型,根据处理结果来确定图片文件是否异常。例如,采用音频处理模型520来对音频数据511进行处理,得到第一处理结果530。采用视频处理模型540来对视频数据512进行处理,得到第二处理结果550。最后将第一处理结果530和第二处理结果550作为判断依据,来判断图片文件510是否异常。例如,若音频数据和视频数据中的至少之一异常,则可以确定图片文件异常。
根据本公开的实施例,音频处理模型520例如可以为循环神经网络模型,第一处理结果530可以指示音频数据是否异常。例如,音频处理模型520可以具有先将音频数据转换为文本信息,随后对文本信息进行语义理解的功能,根据语义理解结果确定音频数据中是否包含异常音频,并依此输出音频数据是否异常的处理结果。该音频处理模型520的输出层例如可以基于二分类算法构建得到,以输出音频数据异常或音频数据正常的二分类结果。
示例性地,该音频处理模型520在对音频数据进行处理时,不仅可以识别音频数据中是否包含异常音频,还可以识别异常音频的异常类别。该异常类别为预先设定的多个类别中的一个。相应地,该第一处理结果例如还可以指示音频数据的异常类别。例如,第一处理结果包括指示异常的第一数据和指示音频数据的异常类别的第二数据。通过该方式,可以经由处理模型获得异常类别,便于后续对异常的图片文件进行分类存储,或者为审核人员后续的人工审核工作提供更为丰富的信息。
根据本公开的实施例,视频处理模型540例如可以为卷积神经网络模型,第二处理结果550可以指示视频数据是否异常。例如,视频处理模型540例如可以具有对视频帧进行特征提取,并基于提取的特征进行物体识别的功能,根据识别得到的物体是否包括异常物体来输出视频数据是否异常的处理结果。若包括异常物体,则输出的第二处理结果指示视频数据异常,否则输出的第二处理结果指示视频数据正常。
示例性地,该视频处理模型540在对视频数据进行处理时,不仅可以识别视频数据中是否包含异常物体,还可以识别该异常物体的异常类别。该异常类别为预先设定的多个类别中的一个。相应地,该第二处理结果例如还可以指示视频数据异常类别(即异常物体的异常类别)。例如,第二处理结果包括指示异常的第一数据和指示视频数据的异常类别的第二数据。通过该方式,可以经由处理模型获得异常类别,便于后续对异常的图片文件进行分类存储,或者为审核人员后续的人工审核工作提供更为丰富的信息。
基于上述审核图片文件的方法,本公开还提供了一种审核图片文件的装置,以下将结合图6对该装置进行详细描述。
图6是根据本公开实施例的审核图片文件的装置的结构框图。
如图6所示,该实施例的审核图片文件的装置600包括文件获取模块610、数据检测模块630和数据审核模块650。
文件获取模块610用于获取待审核的图片文件。在一实施例中,文件获取模块610可以用于执行前文描述的操作S210,在此不再赘述。
数据检测模块630用于在确定图片文件为无损压缩文件的情况下,检测图片文件中是否包含流式数据。在一实施例中,数据检测模块630可以用于执行前文描述的操作S240,在此不再赘述。
数据审核模块650用于在检测到图片文件中包含流式数据的情况下,采用预定处理模型对流式数据进行审核,以确定图片文件是否异常。在一实施例中,数据审核模块650可以用于执行前文描述的操作S250,在此不再赘述。
根据本公开的实施例,上述审核图片文件的装置600例如还可以包括文件转换模块和文件确定模块。文件转换模块用于将图片文件转换为二进制文件。文件确定模块用于在确定二进制文件中位于预定字节位置处的数据为用来表示无损压缩格式的数据的情况下,确定图片文件为无损压缩文件。
在一实施例中,上述数据检测模块630可以包括文件转换子模块和第一数据确定子模块,文件转换子模块用于将图片文件转换为二进制文件。第一数据确定子模块用于在确定二进制文件中包括与音频解码器和/或视频解码器相对应的标识符的情况下,确定图片文件中包含流式数据。
在一实施例中,上述数据检测模块630还可以包括第一容量确定子模块和第二容量确定子模块。第一容量确定子模块用于在确定二进制文件中不包括标识符的情况下,确定图片文件中图片的尺寸和存储图片文件所需的存储容量。第二容量确定子模块用于基于图片的尺寸,确定存储图片所需的最大储存容量。上述第一数据确定子模块还可以用于在储存容量大于最大储存容量的情况下,确定图片文件中包含流式数据。
在另一实施例中,上述数据检测模块630可以包括数据类型获取子模块和第二数据确定子模块。数据类型获取子模块用于采用固件分析工具分析图片文件,得到图片文件包含的数据类型。第二数据确定子模块用于在数据类型包括流式数据类型的情况下,确定图片文件中包含流式数据。
根据本公开的实施例,上述数据审核模块650可以包括文件解码子模块、第一处理子模块、第二处理子模块和异常确定子模块。文件解码子模块用于对图片文件进行解码,获得图片文件包含的音频数据和视频数据。第一处理子模块用于采用音频处理模型对音频数据进行处理,得到第一处理结果,该第一处理结果指示音频数据是否异常。第二处理子模块用于采用视频处理模型对视频数据进行处理,得到第二处理结果,该第二处理结果指示视频数据是否异常。异常确定子模块用于在音频数据和视频数据中至少之一异常的情况下,确定图片文件异常。
根据本公开的实施例,第一处理结果还指示音频数据的异常类别。第二处理结果还指示视频数据的异常类别。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7是用来实现本公开实施例的审核图片文件的方法的电子设备700的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如审核图片文件的方法。例如,在一些实施例中,审核图片文件的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时,可以执行上文描述的审核图片文件的方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行审核图片文件的方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种审核图片文件的方法,包括:
获取待审核的图片文件;
在确定所述图片文件为无损压缩文件的情况下,检测所述图片文件中是否包含流式数据;以及
在检测到所述图片文件中包含所述流式数据的情况下,采用预定处理模型对所述流式数据进行审核,以确定所述图片文件是否异常;
其中,所述方法还包括:在确定所述图片文件不是无损压缩文件或未检测到所述图片文件中包含所述流式数据的情况下,采用图片审核模型对所述图片文件中的图片进行审核。
2.根据权利要求1所述的方法,还包括:
将所述图片文件转换为二进制文件;以及
在确定所述二进制文件中位于预定字节位置处的数据为用来表示无损压缩格式的数据的情况下,确定所述图片文件为无损压缩文件。
3.根据权利要求1或2所述的方法,其中,检测所述图片文件中是否包含流式数据包括:
将所述图片文件转换为二进制文件;以及
在确定所述二进制文件中包括与音频解码器和/或视频解码器相对应的标识符的情况下,确定所述图片文件中包含流式数据。
4.根据权利要求3所述的方法,其中,检测所述图片文件中是否包含流式数据还包括:
在确定所述二进制文件中不包括所述标识符的情况下,确定所述图片文件中图片的尺寸和存储所述图片文件所需的储存容量;
基于所述图片的尺寸,确定存储所述图片所需的最大储存容量;以及
在所述储存容量大于所述最大储存容量的情况下,确定所述图片文件中包含流式数据。
5.根据权利要求1或2所述的方法,其中,检测所述图片文件中是否包含流式数据包括:
采用固件分析工具分析所述图片文件,得到所述图片文件包含的数据类型;以及
在所述数据类型包括流式数据类型的情况下,确定所述图片文件中包含流式数据。
6.根据权利要求1~5中任一项所述的方法,其中,所述采用预定处理模型对所述流式数据进行审核包括:
对所述图片文件进行解码,获得所述图片文件包含的音频数据和视频数据;
采用音频处理模型对所述音频数据进行处理,得到第一处理结果,所述第一处理结果指示所述音频数据是否异常;
采用视频处理模型对所述视频数据进行处理,得到第二处理结果,所述第二处理结果指示所述视频数据是否异常;以及
在所述音频数据和所述视频数据中至少之一异常的情况下,确定所述图片文件异常。
7.根据权利要求6所述的方法,其中,
所述第一处理结果还指示所述音频数据的异常类别;
所述第二处理结果还指示所述视频数据的异常类别。
8.一种审核图片文件的装置,包括:
文件获取模块,用于获取待审核的图片文件;
数据检测模块,用于在确定所述图片文件为无损压缩文件的情况下,检测所述图片文件中是否包含流式数据;以及
数据审核模块,用于在检测到所述图片文件中包含所述流式数据的情况下,采用预定处理模型对所述流式数据进行审核,以确定所述图片文件是否异常;
其中,所述数据审核模块还用于:在确定所述图片文件不是无损压缩文件或未检测到所述图片文件中包含所述流式数据的情况下,采用图片审核模型对所述图片文件中的图片进行审核。
9.根据权利要求8所述的装置,还包括:
文件转换模块,用于将所述图片文件转换为二进制文件;以及
文件确定模块,用于在确定所述二进制文件中位于预定字节位置处的数据为用来表示无损压缩格式的数据的情况下,确定所述图片文件为无损压缩文件。
10.根据权利要求8或9所述的装置,其中,所述数据检测模块包括:
文件转换子模块,用于将所述图片文件转换为二进制文件;以及
第一数据确定子模块,用于在确定所述二进制文件中包括与音频解码器和/或视频解码器相对应的标识符的情况下,确定所述图片文件中包含流式数据。
11.根据权利要求10所述的装置,其中,所述数据检测模块还包括:
第一容量确定子模块,用于在确定所述二进制文件中不包括所述标识符的情况下,确定所述图片文件中图片的尺寸和存储所述图片文件所需的储存容量;以及
第二容量确定子模块,用于基于所述图片的尺寸,确定存储所述图片所需的最大储存容量,
其中,所述第一数据确定子模块还用于在所述储存容量大于所述最大储存容量的情况下,确定所述图片文件中包含流式数据。
12.根据权利要求8或9所述的装置,其中,所述数据检测模块包括:
数据类型获取子模块,用于采用固件分析工具分析所述图片文件,得到所述图片文件包含的数据类型;以及
第二数据确定子模块,用于在所述数据类型包括流式数据类型的情况下,确定所述图片文件中包含流式数据。
13.根据权利要求8~12中任一项所述的装置,其中,所述数据审核模块包括:
文件解码子模块,用于对所述图片文件进行解码,获得所述图片文件包含的音频数据和视频数据;
第一处理子模块,用于采用音频处理模型对所述音频数据进行处理,得到第一处理结果,所述第一处理结果指示所述音频数据是否异常;
第二处理子模块,用于采用视频处理模型对所述视频数据进行处理,得到第二处理结果,所述第二处理结果指示所述视频数据是否异常;以及
异常确定子模块,用于在所述音频数据和所述视频数据中至少之一异常的情况下,确定所述图片文件异常。
14.根据权利要求13所述的装置,其中,
所述第一处理结果还指示所述音频数据的异常类别;
所述第二处理结果还指示所述视频数据的异常类别。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1~7中任一项所述的方法。
CN202110385971.2A 2021-04-09 2021-04-09 审核图片文件的方法、装置、电子设备和存储介质 Active CN113111200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110385971.2A CN113111200B (zh) 2021-04-09 2021-04-09 审核图片文件的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110385971.2A CN113111200B (zh) 2021-04-09 2021-04-09 审核图片文件的方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113111200A CN113111200A (zh) 2021-07-13
CN113111200B true CN113111200B (zh) 2024-05-24

Family

ID=76716059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110385971.2A Active CN113111200B (zh) 2021-04-09 2021-04-09 审核图片文件的方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113111200B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674246B (zh) * 2021-08-20 2023-09-01 百度在线网络技术(北京)有限公司 审核图片文件的方法、装置、电子设备和存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101184241A (zh) * 2007-12-03 2008-05-21 中兴通讯股份有限公司 一种图像自动检测的方法及装置
WO2009015422A1 (en) * 2007-07-30 2009-02-05 Michael Kefaloukos A computer-implemented security method and system
CN101882296A (zh) * 2010-05-07 2010-11-10 邹阿金 切比雪夫神经网络混沌数字水印信息隐藏方法
CN106101713A (zh) * 2016-07-06 2016-11-09 武汉大学 一种基于窗口最优校准的视频隐写分析方法
CN106845242A (zh) * 2016-08-26 2017-06-13 中国科学院信息工程研究所 一种基于is4软件特征的隐藏信息检测及提取方法
WO2018120946A1 (zh) * 2016-12-30 2018-07-05 广州虎牙信息科技有限公司 视频画面异常判断、装置及终端设备
CN108509775A (zh) * 2018-02-08 2018-09-07 暨南大学 一种基于机器学习的恶意png图像识别方法
CN109348211A (zh) * 2018-08-06 2019-02-15 中国科学院声学研究所 一种视频帧内帧间编码的通用信息隐藏检测方法
CN109785848A (zh) * 2019-01-28 2019-05-21 宁波大学 基于比例因子系数差值的aac双压缩音频检测方法
CN109817233A (zh) * 2019-01-25 2019-05-28 清华大学 基于层次注意力网络模型的语音流隐写分析方法及***
CN110909630A (zh) * 2019-11-06 2020-03-24 腾讯科技(深圳)有限公司 一种异常游戏视频检测方法和装置
WO2020078165A1 (zh) * 2018-10-15 2020-04-23 Oppo广东移动通信有限公司 视频处理方法、装置、电子设备及计算机可读介质
CN111309632A (zh) * 2020-03-20 2020-06-19 北京达佳互联信息技术有限公司 应用程序测试方法、装置、计算机设备及存储介质
CN111783644A (zh) * 2020-06-30 2020-10-16 百度在线网络技术(北京)有限公司 检测方法、装置、设备和计算机存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818136B1 (en) * 2003-02-05 2017-11-14 Steven M. Hoffberg System and method for determining contingent relevance
US8655801B2 (en) * 2005-10-26 2014-02-18 Cortica, Ltd. Computing device, a system and a method for parallel processing of data streams
US20120262545A1 (en) * 2011-04-18 2012-10-18 Paul Kerbiriou Method for coding and decoding a 3d video signal and corresponding devices
US11341235B2 (en) * 2019-02-21 2022-05-24 Raytheon Company Anomaly detection with adaptive auto grouping
US20210051122A1 (en) * 2019-08-15 2021-02-18 Rovi Guides, Inc. Systems and methods for pushing content

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009015422A1 (en) * 2007-07-30 2009-02-05 Michael Kefaloukos A computer-implemented security method and system
CN101184241A (zh) * 2007-12-03 2008-05-21 中兴通讯股份有限公司 一种图像自动检测的方法及装置
CN101882296A (zh) * 2010-05-07 2010-11-10 邹阿金 切比雪夫神经网络混沌数字水印信息隐藏方法
CN106101713A (zh) * 2016-07-06 2016-11-09 武汉大学 一种基于窗口最优校准的视频隐写分析方法
CN106845242A (zh) * 2016-08-26 2017-06-13 中国科学院信息工程研究所 一种基于is4软件特征的隐藏信息检测及提取方法
WO2018120946A1 (zh) * 2016-12-30 2018-07-05 广州虎牙信息科技有限公司 视频画面异常判断、装置及终端设备
CN108509775A (zh) * 2018-02-08 2018-09-07 暨南大学 一种基于机器学习的恶意png图像识别方法
CN109348211A (zh) * 2018-08-06 2019-02-15 中国科学院声学研究所 一种视频帧内帧间编码的通用信息隐藏检测方法
WO2020078165A1 (zh) * 2018-10-15 2020-04-23 Oppo广东移动通信有限公司 视频处理方法、装置、电子设备及计算机可读介质
CN109817233A (zh) * 2019-01-25 2019-05-28 清华大学 基于层次注意力网络模型的语音流隐写分析方法及***
CN109785848A (zh) * 2019-01-28 2019-05-21 宁波大学 基于比例因子系数差值的aac双压缩音频检测方法
CN110909630A (zh) * 2019-11-06 2020-03-24 腾讯科技(深圳)有限公司 一种异常游戏视频检测方法和装置
CN111309632A (zh) * 2020-03-20 2020-06-19 北京达佳互联信息技术有限公司 应用程序测试方法、装置、计算机设备及存储介质
CN111783644A (zh) * 2020-06-30 2020-10-16 百度在线网络技术(北京)有限公司 检测方法、装置、设备和计算机存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
图像信息隐藏检测及其在互联网监管中的应用;曹蓁;李建华;;微型电脑应用;20070320(第03期);全文 *
应用二值图像信息隐藏技术实现彩色图像中的安全隐写;刘春庆;梁光岚;王朔中;张新鹏;;应用科学学报;20070715(第04期);全文 *
数字图像重压缩检测研究综述;王志锋;朱琳;曾春艳;闵秋莎;夏丹;;计算机科学;20180915(第09期);全文 *

Also Published As

Publication number Publication date
CN113111200A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
KR102002024B1 (ko) 객체 라벨링 처리 방법 및 객체 관리 서버
WO2021218069A1 (zh) 基于场景动态配置的交互处理方法、装置、计算机设备
US20190188478A1 (en) Method and apparatus for obtaining video public opinions, computer device and storage medium
CN112861885A (zh) 图像识别方法、装置、电子设备及存储介质
CN111241496B (zh) 确定小程序特征向量的方法、装置和电子设备
CN113111200B (zh) 审核图片文件的方法、装置、电子设备和存储介质
US20130322686A1 (en) Profiling Activity Through Video Surveillance
CN112214770B (zh) 恶意样本的识别方法、装置、计算设备以及介质
CN112348615B (zh) 用于审核信息的方法和装置
CN110414625B (zh) 确定相似数据的方法、装置、电子设备及存储介质
CN111261157A (zh) 一种短视频的控制方法、装置、设备及存储介质
CN113590447B (zh) 埋点处理方法和装置
CN110674839B (zh) 异常用户识别方法、装置、存储介质及电子设备
CN115730104A (zh) 直播间处理方法、装置、设备及介质
CN108009233B (zh) 一种图像还原方法、装置、计算机设备及存储介质
CN113449506A (zh) 一种数据检测方法、装置、设备及可读存储介质
CN113674246B (zh) 审核图片文件的方法、装置、电子设备和存储介质
CN110909798A (zh) 一种多算法智能研判方法、***及服务器
CN116524394B (zh) 视频检测方法、装置、设备以及存储介质
CN114584616B (zh) 一种消息推送方法、装置、电子设备及存储介质
CN113408530B (zh) 一种图像识别方法、装置、设备以及存储介质
CN111967273B (zh) 对话管理***、方法和规则引擎设备
CN113722496B (zh) 一种三元组抽取方法、装置、可读存储介质及电子设备
CN114363627B (zh) 图像处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant