CN112153483A - 信息植入区域的检测方法、装置及电子设备 - Google Patents

信息植入区域的检测方法、装置及电子设备 Download PDF

Info

Publication number
CN112153483A
CN112153483A CN201910578322.7A CN201910578322A CN112153483A CN 112153483 A CN112153483 A CN 112153483A CN 201910578322 A CN201910578322 A CN 201910578322A CN 112153483 A CN112153483 A CN 112153483A
Authority
CN
China
Prior art keywords
target
implanted
video
candidate
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910578322.7A
Other languages
English (en)
Other versions
CN112153483B (zh
Inventor
生辉
黄东波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910578322.7A priority Critical patent/CN112153483B/zh
Priority to PCT/CN2020/097782 priority patent/WO2020259510A1/zh
Publication of CN112153483A publication Critical patent/CN112153483A/zh
Priority to US17/370,764 priority patent/US20210406549A1/en
Application granted granted Critical
Publication of CN112153483B publication Critical patent/CN112153483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26208Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints
    • H04N21/26241Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints involving the time of distribution, e.g. the best time of the day for inserting an advertisement or airing a children program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种信息植入区域的检测方法、装置及电子设备。该方法包括:获取待植入视频,对所述待植入视频进行切分以获取视频分片;获取所述视频分片中的目标帧,并对所述目标帧中的对象进行识别和分割,以获取与所述对象对应的标注信息;根据所述标注信息确定目标对象,并对所述目标对象进行聚类,以获取多个候选待植入区域;从所述候选待植入区域中确定目标候选待植入区域,并对所述目标候选待植入区域进行最大矩形搜索,以获取目标待植入区域。本发明能够实现自动检测视频中的广告位,避免了人工筛选标注,提高了视频广告植入效率,并提高了检测的精准度。

Description

信息植入区域的检测方法、装置及电子设备
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种信息植入区域的检测方法、信息植入区域的检测装置及电子设备。
背景技术
随着信息电子化的逐步成熟,电子媒体广告逐渐成为主要的广告传播形式,以视频广告为例,视频广告可以分为Video-In和Video-Out两种形式,Video-In即为植入广告,是一种软广告形式,在视频内的桌面、墙面、相框和广告牌的位置植入屏幕或者实物广告;Video-Out是一种场景弹窗广告,基于对视频图像中汽车、人脸、目标和场景的理解,展示与视频内容相关的弹窗广告。
目前,对于Video-In形式的视频广告,通常需要由专业设计人员全人工进行视频植入广告位的检索,导致耗费大量的人力和时间。
鉴于此,本领域亟需开发一种新的信息植入区域的检测方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的实施例提供了一种信息植入区域的检测方法、信息植入区域的检测装置及电子设备,进而至少在一定程度上可以减少设计人员人工筛选视频植入广告位所耗费的时间,减少了人工成本,提高了视频植入广告位的检测效率和生产效率。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的一个方面,提供了一种信息植入区域的检测方法,包括:获取待植入视频,对所述待植入视频进行切分以获取视频分片;获取所述视频分片中的目标帧,并对所述目标帧中的对象进行识别和分割,以获取与所述对象对应的标注信息;根据所述标注信息确定目标对象,并对所述目标对象进行聚类,以获取多个候选待植入区域;从所述候选待植入区域中确定目标候选待植入区域,并对所述目标候选待植入区域进行最大矩形搜索,以获取目标待植入区域。
根据本发明实施例的一个方面,提供了一种信息植入区域的检测装置,包括:镜头切分模块,用于获取待植入视频,对所述待植入视频进行切分以获取视频分片;对象标注模块,用于获取所述视频分片中的目标帧,并对所述目标帧中的对象进行识别和分割,以获取与所述对象对应的标注信息;聚类模块,用于根据所述标注信息确定目标对象,并对所述目标对象进行聚类,以获取多个候选待植入区域;区域搜索模块,用于从所述候选待植入区域中确定目标候选待植入区域,并对所述目标候选待植入区域进行最大矩形搜索,以获取目标待植入区域。
在本发明的一些实施例中,基于前述方案,所述检测装置还包括:编号发送模块,用于向服务器发送待植入视频获取请求,所述待植入视频获取请求包括带植入视频的视频编号;视频接收模块,用于接收所述服务器响应所述待植入视频获取请求返回的与所述视频编号对应的待植入视频。
在本发明的一些实施例中,基于前述方案,所述镜头切分模块包括:特征提取单元,用于从所述待植入视频中提取目标特征;相似度识别单元,用于对相邻图像帧进行相似度算法识别,并根据识别结果对所述待植入视频进行切分,以获取所述视频分片。
在本发明的一些实施例中,基于前述方案,所述对象标注模块包括:模型处理单元,用于将所述目标帧输入至实例分割模型中,通过所述实例分割模型对所述目标帧中的所述对象进行识别和分割,以获取所述标注信息。
在本发明的一些实施例中,基于前述方案,所述模型处理单元配置为:通过所述实例分割模型对所述目标帧进行预处理,并对预处理后的所述目标帧进行特征提取,以获得特征图像;在所述特征图像上确定多个候选感兴趣区域,对所述多个候选感兴趣区域进行分类和回归,以获取目标感兴趣区域;对所述目标感兴趣区域进行对准操作,以将所述目标帧中的像素与所述目标感兴趣区域的像素对准;对所述目标感兴趣区域进行分类、边框回归和掩码生成,以获取所述对象的标注信息。
在本发明的一些实施例中,基于前述方案,所述标注信息包括所述对象的分类信息、置信度、蒙版和标定框。
在本发明的一些实施例中,基于前述方案,所述聚类模块包括:目标对象确定单元,用于根据所述标注信息中的分类信息及蒙版的面积确定所述目标对象;聚类单元,用于对所述目标对象进行均值偏移处理,以对所述目标对象进行聚类,并获取所述多个候选待植入区域。
在本发明的一些实施例中,所述视频分片的数量为多个,各所述视频分片中包含一个或多个目标帧;基于前述方案,所述聚类模块还可以配置为:将各所述目标帧中所包含的对象的置信度分别与预设置信度阈值进行比较,保留各所述目标帧中置信度大于所述预设置信度阈值的对象;接着,删除不包含待植入对象的目标帧,所述待植入对象与所述目标对象的分类信息相同。
在本发明的一些实施例中,基于前述方案,所述聚类单元包括:范围确定单元,用于将所述目标对象中的任一像素点作为目标点,以所述目标点为圆心,根据预设半径确定目标范围;移动单元,用于根据所述目标点与所述目标范围中任一像素点之间的距离向量确定均值偏移向量,并根据所述均值偏移向量将所述目标点移动至所述均值偏移向量的终点;重复单元,用于将所述终点作为所述目标点,重复上述步骤,直至所述目标点的位置不再变化;像素集合确定单元,用于根据最终的目标点对应的像素点和所述预设半径范围内的像素点确定像素集合;比较单元,用于获取像素集合之间的距离,并将所述距离与预设距离阈值进行比较,以根据比较结果确定所述候选待植入区域。
在本发明的一些实施例中,基于前述方案,所述比较单元配置为:当所述距离小于或等于所述预设距离阈值时,将与所述距离对应的两个像素集合合并,以形成所述候选待植入区域;当所述距离大于所述预设距离阈值时,将与所述距离对应的两个像素集合分别作为所述候选待植入区域。
在本发明的一些实施例中,基于前述方案,所述区域搜索模块配置为:获取所述候选待植入区域中不包含非目标对象的候选待植入区域;计算所述不包含非目标对象的候选待植入区域的面积,并将面积最大的候选待植入区域作为所述目标候选待植入区域。
在本发明的一些实施例中,基于前述方案,所述检测装置还包括:滤波单元,用于对所述目标待植入区域进行均值滤波,以获取均匀光滑的目标待植入区域。
在本发明的一些实施例中,基于前述方案,所述区域搜索模块配置为:将所述目标待植入区域中的任一像素点作为基准点,根据所述基准点的像素值查找是否存在具有相同像素值的相邻像素点;若存在,则以所述相邻像素点为所述基准点,重复上述步骤,直至获取所有具有相同像素值的相邻像素点;将所述任一像素点作为顶点,根据所述顶点和所述相邻像素点形成矩形;计算所述矩形的面积,选取具有最大面积的目标矩形,并将所述目标矩形对应的区域作为所述目标待植入区域。
根据本发明实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的信息植入区域的检测方法。
在本发明的一些实施例所提供的技术方案中,首先对获取的待植入视频进行镜头切分以获取视频分片,接着从每个视频分片中确定目标帧,并对目标帧中的对象进行识别和分割,以获取与目标帧中所有对象对应的标注信息;然后根据标注信息确定目标对象,对目标对象进行聚类,以获取多个候选待植入区域;最后从候选待植入区域中确定目标候选待植入区域,并对目标候选待植入区域进行最大矩形搜索,以获取目标待植入区域。本发明的技术方案一方面能够实现自动检测视频中是否存在信息植入区域,避免了人工筛选标注,减少了人工成本;另一方面,能够大幅减少信息植入区域的检测时间,提高了视频广告的植入效率和精准度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本发明实施例的技术方案的示例性***架构的示意图;
图2A-2C示意性示出了相关技术中桌面场景植入的效果图;
图3示意性示出了根据本发明的一个实施例的信息植入区域的检测方法流程图;
图4示意性示出了根据本发明的一个实施例的切分待植入视频的流程示意图;
图5示意性示出了根据本发明的一个实施例的实例分割模型输出的对象标注信息;
图6示意性示出了根据本发明的一个实施例的对对象进行均值偏移处理的流程示意图;
图7示意性示出了根据本发明的一个实施例的对目标候选待植入区域进行最大矩形搜索的流程示意图;
图8A-8B示意性示出了根据本发明的一个实施例的消除孤岛噪声区域之前及之后的桌面结构示意图;
图9示意性示出了根据本发明的一个实施例的广告植入的流程示意图;
图10示意性示出了根据本发明的一个实施例的信息植入区域的检测装置的框图;
图11示出了适于用来实现本发明实施例的电子设备的计算机***的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本发明实施例的技术方案的示例性***架构的示意图。
如图1所示,***架构100可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端、网络和服务器的数目仅仅是示意性的。根据实际需要,可以具有任意数目的终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
在本发明的一个实施例中,终端设备101,也可以是终端设备102、103,通过网络104向服务器105发送待植入视频获取请求,该待植入视频获取请求包含待植入视频的视频编号,服务器105中存储有多个被编号的视频,通过将获取的视频编号与所有的视频编号进行匹配,即可获得与待植入视频获取请求中的视频编号对应的待植入视频,服务器105可以将匹配到的待植入视频通过网络104发送至终端设备101(也可以是终端设备102、103),终端设备接收到待植入视频后,对该待植入视频进行镜头切分以获取视频分片;接着从每个视频分片中获取其中的目标帧,并对目标帧中的对象进行识别、分割,以获取其中所有对象对应的标注信息,该标注信息包括对象的分类信息、置信度、蒙版和标定框等;然后终端设备101根据标注信息确定目标对象,并对目标对象进行聚类,以获取目标对象中的多个候选待植入区域;最后从多个候选待植入区域中确定目标候选待植入区域,通过对该目标候选待植入区域进行最大矩形搜索,即可获取目标待植入区域,该目标待植入区域即为信息植入区域,可用于进行视频广告植入。本发明实施例的技术方案一方面实现自动检测视频中是否存在信息植入区域,避免了人工筛选标注,减少了人工成本;另一方面,能够大幅减少信息植入区域的检测时间,提高了视频广告的植入效率;进一步地,通过在目标待植入区域中进行最大矩形搜索获取目标待植入区域,能够提高信息植入区域的检测精准度。
需要说明的是,本发明实施例所提供的信息植入区域的识别方法一般由终端设备执行,相应地,信息植入区域的识别装置一般设置于终端设备中。但是,在本发明的其它实施例中,也可以由服务器执行本发明实施例所提供的信息植入区域的检测方案。
在本领域的相关技术中,以采用Video-In的方式进行广告植入为例,为了在视频的内部植入实物、3D模型和平面广告等,一般会在桌面、墙面和相框位置进行植入,然后现有的视频植入广告位检索机制是由专业设计人员全人工实现的,并没有实现自动化。图2A-2C示出了桌面场景植入的效果图,如图2A所示,为原视频中的图像;通过检测桌面中的广告位,将实物植入到广告位中,如图2B所示,也可以将3D模型和海报同时植入到广告位中,如图2C所示。
但是,进行广告位植入机会的人工检索,一般而言,需要的时间为视频时长的1.5倍,对于视频广告植入方而言,这是非常耗时耗力的,严重影响了广告植入的效率,并且还会存在广告位的精准度低的缺陷,进一步影响了广告植入的效果。
鉴于相关技术中存在的问题,本发明实施例首先提出了一种信息植入区域的检测方法,本发明实施例中的信息植入区域的检测方法可以用于视频广告植入等等,以下以视频广告植入为例对本发明实施例的技术方案的实现细节进行详细阐述:
图3示意性示出了根据本发明的一个实施例的信息植入区域的检测方法的流程图,该信息植入区域的检测方法可以由终端设备来执行,该终端设备可以是图1中所示的终端设备。参照图3所示,该信息植入区域的检测方法至少包括步骤S310至步骤S340,详细介绍如下:
在步骤S310中,获取待植入视频,对所述待植入视频进行切分以获取视频分片。
在本发明的一个实施例中,视频广告植入是在已经制作完成的视频(即是待植入视频)中利用计算机视觉技术智能植入广告的新型技术***,用户可以通过在线搜索视频的方式获取待植入视频,也可以从终端设备101的视频文件夹或视频数据库中获取待植入视频,该待植入视频可以是任意格式的视频文件,如avi.,mp4.,rmvb.等等,本发明实施例对此不做具体限定。在本发明的实施例中,具体地可以通过终端设备101向服务器105发送待植入视频获取请求,该待植入视频获取请求包含待植入视频的视频编号,该视频编号具有任意的编号格式,例如以数字形式编号、英文字母+数字的形式进行编号,等等;服务器105对待植入视频获取请求进行解析得到该视频编号后可以将该视频编号与服务器中存储的所有视频的视频编号进行匹配,以获取与待植入视频获取请求中的视频编号对应的待植入视频;最后服务器105可以将匹配得到的待植入视频返回至终端设备101,以使终端设备101对待植入视频中的广告位进行检索。
在本发明的一个实施例中,接收到待植入视频后,可以对待植入视频进行切分,以获取构成待植入视频的视频分片。视频的基本结构是由帧、镜头、场景和视频节目构成的层次结构,其中帧是一幅静态图像,是组成视频的最小逻辑单元,将时间上连续的帧序列按等间隔连续播放,便形成动态视频;镜头是一台摄像机从开机到关机连续拍摄的帧序列,描绘一个事件或一个场面的一部分,不具有或具有较弱的语义信息,强调构成帧的视觉内容相似性;场景是语义相关的连续镜头,可以是相同对象的不同角度、不同技法拍摄,也可以是具有相同主题和事件的镜头组合,强调语义的相关性;视频节目包含一个完整的事件或故事,作为最高层的视频内容结构,它包括视频的组成关系以及对视频的摘要、语义和一般性描述等。为了有效识别信息植入区域,可以以镜头为处理单元,即将每个镜头作为一个视频分片,具体地,可以对待植入视频进行镜头切分,以将待植入视频切分为多个镜头,进而获取构成待植入视频的视频分片。
在本发明的一个实施例中,可以通过相似度算法识别对待植入视频进行切分,图4示出了切分待植入视频的流程示意图,如图4所示,在步骤S401中,从待植入视频中提取目标特征;在步骤S402中,对相邻图像帧中的目标特征进行相似度算法识别,并根据识别结果对待植入视频进行切分,以获取视频分片。在相似度算法识别时,可以将相邻两个图像帧中的每个像素进行相似度比对,但是由于图像中像素数量巨大,如果逐一比对像素的相似度需要占用大量资源,数据处理效率低,因此可以从待植入视频中提取目标特征,该目标特征可以是待植入视频所包含的图像帧中的多位特征,通过对相邻图像帧中的目标特征进行相似度算法识别以确定相邻镜头的分界图像帧。
在本发明的一个实施例中,步骤S402中对相邻图像帧中的目标特征进行相似度算法识别,并根据识别结果对待植入视频进行切分,以获取视频分片,具体可以根据以下流程进行计算:首先,计算相邻图像帧中的目标特征之间的距离,并根据距离进行相似度算法识别;该距离可以是欧式距离、余弦距离等等,以欧式距离为例,获取相邻图像帧中的目标特征之间的欧式距离后,可以将该欧式距离与预设距离阈值进行比较,判断相邻图像帧之间的相似度。当距离小于预设距离阈值时,判定相邻图像帧属于同一个视频分片;当距离大于或等于预设距离阈值时,判定相邻图像帧属于不同的视频分片。
在步骤S320中,获取所述视频分片中的目标帧,并对所述目标帧中的对象进行识别和分割,以获取与所述对象对应的标注信息。
在本发明的一个实施例中,在进行信息植入时,可以在镜头中具有典型性、代表性的帧里面进行植入,例如在关键帧或代表帧中植入信息可以提高植入效率,因此在切分完待植入视频后,可以从各个视频分片中确定一个或多个目标帧,通过对目标帧中的对象进行处理,以获取目标帧中可用于进行广告植入的目标待植入区域。
在本发明的一个实施例中,可以通过一个实例分割模型对目标帧中的对象进行识别和分割,用以对目标帧中的对象进行分类,获取与各个对象对应的标注信息。该实例分割模型可以对输入至其中的目标帧进行预处理,并对预处理后的目标帧进行卷积操作以提取特征,进而获取特征图像;接着可以通过候选区域生成网络对特征图像进行处理,获取多个候选感兴趣区域,并对该多个候选感兴趣区域进行分类和回归,以获取目标感兴趣区域;然后可以将目标感兴趣区域的像素与目标帧中该区域的像素进行对准;最后可以对目标感兴趣区域进行分类、边框回归和掩码生成等操作,以获取与目标帧中各对象对应的标注信息。
在本发明的一个实施例中,该实例分割模型具体可以是Mask R-CNN模型,当然也可以是其它具有对目标帧中的对象进行识别分割并标识的机器学习模型。通过实例分割模型对目标帧进行处理后,可以得到目标帧中各个对象所对应的标注信息,该标注信息可以包括对象的分类信息、置信度、蒙版和标定框,图5示出了实例分割模型输出的对象标注信息,如图5所示,在输入的目标帧中存在桌面和放置在桌面上的杯子,通过实例分割模型识别分割可以将桌面和杯子进行分割,并用不同颜色的蒙版和标注框进行标注,其中深色区域为桌面对应的蒙版,虚线框A为桌面对应的标注框,其对应的分类信息为table,置信度为0.990;浅色区域为杯子对应的蒙版,虚线框B为杯子对应的标注框,其对应的分类信息为cup,置信度为0.933。
在通过实例分割模型对目标帧进行处理之前,可以采集大量的图像帧作为训练样本对该实例分割模型进行训练,例如可以将一个或多个视频中的图像帧作为训练样本,通过将训练样本输入至待训练的实例分割模型,通过将该模型输出的标注信息与训练样本对应的标注信息进行对比,判断模型是否完成训练。
在步骤S330中,根据所述标注信息确定目标对象,并对所述目标对象进行聚类,以获取多个候选待植入区域。
在本发明的一个实施例中,在获取目标帧中的对象的标注信息后,可以根据标注信息获取目标对象,例如想要在桌面上进行广告植入,那么可以根据标注信息中的对象的分类信息获取分类为table(桌面)的对象,例如目标帧中存在一个或多个桌面,那么可以将该一个或多个桌面确定为目标对象,并从目标对象中确定目标待植入区域,也可以从该一个或多个桌面中选择一个作为目标对象,并从目标对象中确定目标待植入区域。
进一步的,为了提高广告植入的效果,并节省广告主的开销,可以仅在比较醒目的位置进行广告植入,这样就可以从多个待植入对象中确定一个目标对象,并对该目标对象进行聚类,以获取其中的多个候选待植入区域。在本发明的实施例中,可以根据标注信息中的蒙版的面积大小,从多个目标对象中确定用于植入的目标对象,具体地,选取面积最大的蒙版所对应的待植入对象作为目标对象,例如选取蒙版面积最大的桌面,该桌面即为目标帧中占据主要位置的桌面,如果在该桌面上进行广告植入,那么用户在观看视频时,便能够注意到该广告,提高了广告的用户触达率。
在本发明的一个实施例中,在根据标注信息获取目标对象之前,可以对目标帧中的对象进行筛选,具体地,可以将各个对象对应的置信度与预设置信度阈值进行比较,当对象的置信度大于预设置信度阈值时,将该对象保留,删除置信度小于或等于预设置信度阈值的对象。该预设置信度阈值可以根据实际需要进行设定,例如可以设定为0.5,这样可以只保留目标帧中置信度大于0.5的所有对象。进一步的,还可以对目标帧进行筛选,由于待植入视频可能包含多个视频分片,并且每个视频分片中可能包含一个或多个目标帧,但是并不是每个目标帧中都存在目标对象,因此可以删除不包含目标对象的目标帧,例如当确定目标对象为桌面时,那么可以删除不包含桌面的目标帧,只对包含桌面的目标帧中的广告位进行检测。
在本发明的一个实施例中,获取目标对象后,可以对目标对象进行聚类,以获取多个候选待植入区域,具体地,可以通过对目标对象进行均值偏移处理,以对对象进行聚类,图6示出了对对象进行均值偏移处理的流程示意图,如图6所示,在步骤S601中,将所述目标对象中的任一像素点作为目标点,以所述目标点为圆心,根据预设半径确定目标范围;在步骤S602中,根据所述目标点与所述目标范围中任一像素点之间的距离向量确定均值偏移向量,并根据所述均值偏移向量将所述目标点移动至所述均值偏移向量的终点;在步骤S603中,将所述终点作为所述目标点,重复步骤S601-S602,直至所述目标点的位置不再变化;在步骤S604中,根据最终的目标点对应的像素点和所述预设半径范围内的像素点确定像素集合;在步骤S605中,获取像素集合之间的距离,并将所述距离与预设距离阈值进行比较,以根据比较结果确定所述候选待植入区域。在根据像素集合之间的距离和预设距离阈值之间的比较结果确定候选待植入区域时,具体可以按照以下标准执行:当距离小于或等于预设距离阈值时,将与该距离对应的两个像素集合合并,以形成候选待植入区域;当距离大于预设距离阈值时,将与该距离对应的两个像素集合分别作为候选待植入区域。通过对目标对象进行均值偏移处理,可以获取目标对象中的多个连通区域,这些连通区域即为候选待植入区域,例如目标对象为桌面,通过针对桌面中的每一个像素进行均值偏移处理,可以获取多个连通区域,该些连通区域组成桌面,进一步的,该些连通区域都可以作为桌面中可用于广告植入的候选待植入区域。
在步骤S340中,从所述候选待植入区域中确定目标候选待植入区域,并对所述目标候选待植入区域进行最大矩形搜索,以获取目标待植入区域。
在本发明的一个实施例中,确定多个候选待植入区域后,可以对其进行筛选,以确定目标候选待植入区域,具体可以从多个候选待植入区域中选取不包含非目标对象的候选待植入区域,例如桌面上有手机、茶杯、花瓶等物件,为了保证广告植入的效果,可以将包含手机、茶杯、花瓶等物件的候选待植入区域舍弃,只保留不包含非目标对象的候选待植入区域;接着可以计算不包含非目标对象的候选待植入区域的面积,并从中选取面积最大的候选待植入区域作为目标候选待植入区域。通过上述操作,可以获取面积最优且区域空白的目标对象的核心空域。
在本发明的一个实施例中,由于目标候选待植入区域的形状可能存在不规则的情况,如果直接在该目标候选待植入区域进行广告植入可能会出现信息缺失的情况,因此在确定了目标候选待植入区域,即目标对象的核心空域之后,还需要对该目标候选待植入区域进行最大矩形搜索,才能确定用于广告植入的目标待植入区域。图7示出了对目标候选待植入区域进行最大矩形搜索的流程示意图,如图7所示,在步骤S701中,将所述目标待植入区域中的任一像素点作为基准点,根据所述基准点的像素值查找是否存在具有相同像素值的相邻像素点;例如目标待植入区域中像素的像素值为0或1,若某一像素点像素值为0,则以该像素点为基准点,寻找与该像素点相邻的具有像素值0的像素点,若某一像素点像素值为1,则以该像素点为基准点,寻找与该像素点相邻的具有像素值1的像素点若存在像素值为0的相邻像素点。在步骤S702中,若存在,则以所述相邻像素点为所述基准点,重复步骤S701,直至获取所有具有相同像素值的相邻像素点;例如存在与基准点相邻的像素点具有与基准点相同的像素值,则以该相邻像素点为基准点,继续向外扩展,判断是否存在与其具有相同像素值的相邻像素点,经过多次判断,即可获取所有具有相同像素值的相邻像素点。在步骤S703中,将所述任一像素点作为顶点,根据所述顶点和所述相邻像素点形成矩形;以首次作为基准点的像素点为顶点,根据该顶点和相邻像素点形成矩形,值得注意的是,该矩形中的像素点均具有相同的像素值,不包含具有不同像素值的像素点,并且该顶点可以是左顶点、右顶点等等,本发明实施例对此不做具体限定。在步骤S704中,计算所述矩形的面积,选取具有最大面积的目标矩形,并将所述目标矩形对应的区域作为所述目标待植入区域;通过步骤S703可以获取多个矩形,为了获取最优的信息植入区域,可以根据矩形的面积进行确定,具体地,可以计算各个矩形的面积,从中选取具有最大面积的目标矩形,并将该目标矩形对应的区域作为目标待植入区域,用于进行广告植入。
在本发明的一个实施例中,在目标待植入区域中可能会存在孤岛噪声区域,这些孤岛噪声区域主要是由目标对象的光影突变形成的,为了避免该些孤岛噪声区域对最大矩形搜索结果的影响,可以在对目标待植入区域进行最大矩形搜索之前,对目标待植入区域进行均值滤波处理,以获取均匀光滑的目标待植入区域。图8A-8B示出了消除孤岛噪声区域之前及之后的桌面结构示意图,如图8A所示,在桌面的核心空域存在一些孤岛噪声区域,如图中的细小的黑色区域所示;经过均值滤波处理后,该些细小的黑色区域被消除了,桌面核心空域变得均匀光滑,如图8B所示。
本发明实施例中的信息植入区域的检测方法可以用于对桌面中可用于广告植入的区域的检测,也可以用于对其它类似桌面的对象中的广告植入区域进行检测,例如可以对超市的收银台、公园中的长椅、跑步机的跑带等对象进行广告植入区域的检测。
以对超市收银台进行某品牌饮品的广告植入为例,图9示出了广告植入的流程示意图,如图9所示,在步骤S901中,对待植入视频进行切分获取视频分片,并从视频分片中获取目标帧;该目标帧为超市结账的场景;在步骤S902中,将目标帧输入至实例分割模型,以获取目标帧中所有对象的标注信息;在步骤S903中,根据对象的分类信息及对应的蒙版的面积确定目标对象;例如在目标帧中收银台对应的蒙版面积最大,因此可以将收银台作为目标对象;在步骤S904中,对目标对象进行均值偏移处理,以获取多个候选待植入区域;在步骤S905中,获取面积最大的不包含非目标对象的候选待植入区域,并将该候选待植入区域作为目标候选待植入区域;收银台上可能会存在显示器、广告展示牌等物体,为了确定收银台中的核心空域,可以对多个候选待植入区域进行筛选以获取目标候选待植入区域;在步骤S906中,对目标候选待植入区域进行均值滤波,以获取均匀光滑的目标候选待植入区域;在步骤S907中,在目标候选待植入区域中进行最大矩形搜索,以获取目标待植入区域;该目标待植入区域即为收银台上可以进行广告植入的空域,该目标待植入区域可以是收银台上靠近显示器的空域,也可以是收银台的靠近入口的角落,本发明实施例对此不做具体限定;在步骤S908中,将广告植入到该目标待植入区域;在植入某品牌饮品的广告时,该广告可以是饮品实体,也可以是包含有饮品宣传海报的3D模型,等等。
在本发明的一个实施例中,上述实施例描述了由终端设备执行信息植入区域的检测方法,同样的,该信息植入区域的检测方法还可以由服务器来执行,该服务器可以是专用于进行数据处理的服务器,相应地,在服务器中设置有实例分割模型,终端设备101接收到服务器105发送的待植入视频后,可以将该待植入视频发送至进行数据处理的服务器,服务器接收到待植入视频后,对该待植入视频进行镜头切分以获取视频分片;接着对视频分片中的目标帧进行识别和分割,以获取目标帧中对象的标注信息;然后根据标注信息确定目标对象,并对目标对象进行聚类,以获取多个候选待植入区域;最后从候选待植入区域中确定目标候选待植入区域,并对该目标待植入区域进行最大矩形搜索,以获取目标待植入区域,进而将目标待植入区域发送至终端设备101,以实现视频广告植入。
本发明实施例的技术方案通过实例分割模型对目标帧中的对象进行识别和分割,并结合蒙版内色块聚类和最大矩形搜索从目标对象中确定目标待植入区域,实现了自动化的植入广告位的检测,相对于原来人工需要的视频时长1.5倍的检测时间,本发明实施例的检测方法可以将时间压缩到0.2倍的视频时长,一方面减少了人工成本,另一方面提高了检测效率;另外本发明实施例的基于人工智能的信息植入区域的检测方法的检测精准度可达0.91,大大提高了广告位检测的精准度,避免了不同人工筛选确定的广告位不同的情况。
以下介绍本发明的装置实施例,可以用于执行本发明上述实施例中的信息植入区域的检测方法。对于本发明装置实施例中未披露的细节,请参照本发明上述的信息植入区域的检测方法的实施例。
图10示意性示出了根据本发明的一个实施例的信息植入区域的检测装置的框图。
参照图10所示,根据本发明的一个实施例的信息植入区域的检测装置1000,包括:镜头切分模块1001、对象标注模块1002、聚类模块1003和区域搜索模块1004。
其中,镜头切分模块1001,用于获取待植入视频,对所述待植入视频进行切分以获取视频分片;对象标注模块1002,用于获取所述视频分片中的目标帧,并对所述目标帧中的对象进行识别和分割,以获取与所述对象对应的标注信息;聚类模块1003,用于根据所述标注信息确定目标对象,并对所述目标对象进行聚类,以获取多个候选待植入区域;区域搜索模块1004,用于从所述候选待植入区域中确定目标候选待植入区域,并对所述目标待植入区域进行最大矩形搜索,以获取目标待植入区域。
在本发明的一个实施例中,所述检测装置1000还包括:编号发送模块,用于向服务器发送待植入视频获取请求,所述待植入视频获取请求包括带植入视频的视频编号;视频接收模块,用于接收所述服务器响应所述待植入视频获取请求返回的与所述视频编号对应的待植入视频。
在本发明的一个实施例中,所述镜头切分模块1001包括:特征提取单元,用于从所述待植入视频中提取目标特征;相似度识别单元,用于对相邻图像帧进行相似度算法识别,并根据识别结果对所述待植入视频进行切分,以获取所述视频分片。
在本发明的一个实施例中,所述对象标注模块1002包括:模型处理单元,用于将所述目标帧输入至实例分割模型中,通过所述实例分割模型对所述目标帧中的所述对象进行识别和分割,以获取所述标注信息。
在本发明的一个实施例中,所述模型处理单元配置为:通过所述实例分割模型对所述目标帧进行预处理,并对预处理后的所述目标帧进行特征提取,以获得特征图像;在所述特征图像上确定多个候选感兴趣区域,对所述多个候选感兴趣区域进行分类和回归,以获取目标感兴趣区域;对所述目标感兴趣区域进行对准操作,以将所述目标帧中的像素与所述目标感兴趣区域的像素对准;对所述目标感兴趣区域进行分类、边框回归和掩码生成,以获取所述对象的标注信息。
在本发明的一个实施例中,所述标注信息包括所述对象的分类信息、置信度、蒙版和标定框。
在本发明的一个实施例中,所述聚类模块1003包括:目标对象确定单元,用于根据所述标注信息中的分类信息及蒙版的面积确定所述目标对象;聚类单元,用于对所述目标对象进行均值偏移处理,以对所述目标对象进行聚类,并获取所述多个候选待植入区域。
在本发明的一个实施例中,所述视频分片的数量为多个,各所述视频分片中包含一个或多个目标帧;所述聚类模块1003还可以配置为:将各所述目标帧中所包含的对象的置信度分别与预设置信度阈值进行比较,保留各所述目标帧中置信度大于所述预设置信度阈值的对象;接着,删除不包含待植入对象的目标帧,所述待植入对象与所述目标对象的分类信息相同。
在本发明的一个实施例中,所述聚类单元包括:范围确定单元,用于将所述目标对象中的任一像素点作为目标点,以所述目标点为圆心,根据预设半径确定目标范围;移动单元,用于根据所述目标点与所述目标范围中任一像素点之间的距离向量确定均值偏移向量,并根据所述均值偏移向量将所述目标点移动至所述均值偏移向量的终点;重复单元,用于将所述终点作为所述目标点,重复上述步骤,直至所述目标点的位置不再变化;像素集合确定单元,用于根据最终的目标点对应的像素点和所述预设半径范围内的像素点确定像素集合;比较单元,用于获取像素集合之间的距离,并将所述距离与预设距离阈值进行比较,以根据比较结果确定所述候选待植入区域。
在本发明的一个实施例中,所述比较单元配置为:当所述距离小于或等于所述预设距离阈值时,将与所述距离对应的两个像素集合合并,以形成所述候选待植入区域;当所述距离大于所述预设距离阈值时,将与所述距离对应的两个像素集合分别作为所述候选待植入区域。
在本发明的一个实施例中,所述区域搜索模块1004配置为:获取所述候选待植入区域中不包含非目标对象的候选待植入区域;计算所述不包含非目标对象的候选待植入区域的面积,并将面积最大的候选待植入区域作为所述目标候选待植入区域。
在本发明的一个实施例中,所述检测装置还包括:滤波模块,用于对所述目标待植入区域进行均值滤波,以获取均匀光滑的目标待植入区域。
在本发明的一个实施例中,所述区域搜索模块1004配置为:将所述目标待植入区域中的任一像素点作为基准点,根据所述基准点的像素值查找是否存在具有相同像素值的相邻像素点;若存在,则以所述相邻像素点为所述基准点,重复上述步骤,直至获取所有具有相同像素值的相邻像素点;将所述任一像素点作为顶点,根据所述顶点和所述相邻像素点形成矩形;计算所述矩形的面积,选取具有最大面积的目标矩形,并将所述目标矩形对应的区域作为所述目标待植入区域。
图11示出了适于用来实现本发明实施例的电子设备的计算机***的结构示意图。
需要说明的是,图11示出的电子设备的计算机***1100仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图11所示,计算机***1100包括中央处理单元(Central Processing Unit,CPU)1101,其可以根据存储在只读存储器(Read-Only Memory,ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(Random Access Memory,RAM)1103中的程序而执行各种适当的动作和处理,实现上述实施例中所述的信息植入区域的检测方法。在RAM 1103中,还存储有***操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output,I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本发明的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本申请的***中限定的各种功能。
需要说明的是,本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (15)

1.一种信息植入区域的检测方法,其特征在于,包括:
获取待植入视频,对所述待植入视频进行切分以获取视频分片;
获取所述视频分片中的目标帧,并对所述目标帧中的对象进行识别和分割,以获取与所述对象对应的标注信息;
根据所述标注信息确定目标对象,并对所述目标对象进行聚类,以获取多个候选待植入区域;
从所述候选待植入区域中确定目标候选待植入区域,并对所述目标候选待植入区域进行最大矩形搜索,以获取目标待植入区域。
2.根据权利要求1所述的信息植入区域的检测方法,其特征在于,在获取待植入视频之前,所述方法还包括:
向服务器发送待植入视频获取请求,所述待植入视频获取请求包括待植入视频的视频编号;
接收所述服务器响应所述待植入视频获取请求返回的与所述视频编号对应的待植入视频。
3.根据权利要求1所述的信息植入区域的检测方法,其特征在于,获取待植入视频,对所述待植入视频进行切分以获取视频分片,包括:
从所述待植入视频中提取目标特征;
对相邻图像帧中的所述目标特征进行相似度算法识别,并根据识别结果对所述待植入视频进行切分,以获取所述视频分片。
4.根据权利要求1所述的信息植入区域的检测方法,其特征在于,获取所述视频分片中的目标帧,并对所述目标帧中的对象进行识别和分割,以获取与所述对象对应的标注信息,包括:
将所述目标帧输入至实例分割模型中,通过所述实例分割模型对所述目标帧中的对象进行识别和分割,以获取所述标注信息。
5.根据权利要求4所述的信息植入区域的检测方法,其特征在于,通过所述实例分割模型对所述目标帧中的对象进行识别和分割,包括:
通过所述实例分割模型对所述目标帧进行预处理,并对预处理后的所述目标帧进行特征提取,以获得特征图像;
在所述特征图像上确定多个候选感兴趣区域,对所述多个候选感兴趣区域进行分类和回归,以获取目标感兴趣区域;
对所述目标感兴趣区域进行对准操作,以将所述目标帧中的像素与所述目标感兴趣区域的像素对准;
对所述目标感兴趣区域进行分类、边框回归和掩码生成,以获取所述对象的标注信息。
6.根据权利要求1、4或5所述的信息植入区域的检测方法,所述标注信息包括所述对象的分类信息、置信度、蒙版和标定框。
7.根据权利要求6所述的信息植入区域的检测方法,其特征在于,根据所述标注信息确定目标对象,并对所述目标对象进行聚类,以获取多个候选待植入区域,包括:
根据所述标注信息中的分类信息及蒙版的面积确定所述目标对象;
对所述目标对象进行均值偏移处理,以对所述目标对象进行聚类,并获取所述多个候选待植入区域。
8.根据权利要求7所述的信息植入区域的检测方法,其特征在于,所述视频分片的数量为多个,各所述视频分片中包含一个或多个目标帧;
在根据所述标注信息中的分类信息及蒙版的面积确定所述目标对象之前,所述方法还包括:
将各所述目标帧中所包含的对象的置信度分别与预设置信度阈值进行比较,保留各所述目标帧中置信度大于所述预设置信度阈值的对象;
删除不包含待植入对象的目标帧,所述待植入对象与所述目标对象的分类信息相同。
9.根据权利要求7所述的信息植入区域的检测方法,其特征在于,对所述目标对象进行均值偏移处理,以对所述目标对象进行聚类,并获取所述多个候选待植入区域,包括:
将所述目标对象中的任一像素点作为目标点,以所述目标点为圆心,根据预设半径确定目标范围;
根据所述目标点与所述目标范围中任一像素点之间的距离向量确定均值偏移向量,并根据所述均值偏移向量将所述目标点移动至所述均值偏移向量的终点;
将所述终点作为所述目标点,重复上述步骤,直至所述目标点的位置不再变化;
根据最终的目标点对应的像素点和所述预设半径范围内的像素点确定像素集合;
获取像素集合之间的距离,并将所述距离与预设距离阈值进行比较,以根据比较结果确定所述候选待植入区域。
10.根据权利要求9所述的信息植入区域的检测方法,其特征在于,将所述距离与预设距离阈值进行比较,以根据比较结果确定所述候选待植入区域,包括:
当所述距离小于或等于所述预设距离阈值时,将与所述距离对应的两个像素集合合并,以形成所述候选待植入区域;
当所述距离大于所述预设距离阈值时,将与所述距离对应的两个像素集合分别作为所述候选待植入区域。
11.根据权利要求1所述的信息植入区域的检测方法,其特征在于,从所述候选待植入区域中确定目标候选待植入区域,包括:
获取所述候选待植入区域中不包含非目标对象的候选待植入区域;
计算所述不包含非目标对象的候选待植入区域的面积,并将面积最大的候选待植入区域作为所述目标候选待植入区域。
12.根据权利要求1所述的信息植入区域的检测方法,其特征在于,在对所述目标待植入区域进行最大矩形搜索之前,所述方法还包括:
对所述目标待植入区域进行均值滤波,以获取均匀光滑的目标待植入区域。
13.根据权利要求12所述的信息植入区域的检测方法,其特征在于,对所述目标待植入区域进行最大矩形搜索,以获取目标待植入区域,包括:
将所述目标待植入区域中的任一像素点作为基准点,根据所述基准点的像素值查找是否存在具有相同像素值的相邻像素点;
若存在,则以所述相邻像素点为所述基准点,重复上述步骤,直至获取所有具有相同像素值的相邻像素点;
将所述任一像素点作为顶点,根据所述顶点和所述相邻像素点形成矩形;
计算所述矩形的面积,选取具有最大面积的目标矩形,并将所述目标矩形对应的区域作为所述目标待植入区域。
14.一种信息植入区域的检测装置,其特征在于,包括:
镜头切分模块,用于获取待植入视频,对所述待植入视频进行切分以获取视频分片;
对象标注模块,用于获取所述视频分片中的目标帧,并对所述目标帧中的对象进行识别和分割,以获取与所述对象对应的标注信息;
聚类模块,用于根据所述标注信息确定目标对象,并对所述目标对象进行聚类,以获取多个候选待植入区域;
区域搜索模块,用于从所述候选待植入区域中确定目标候选待植入区域,并对所述目标待植入区域进行最大矩形搜索,以获取目标待植入区域。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至13中任一项所述的信息植入区域的检测方法。
CN201910578322.7A 2019-06-28 2019-06-28 信息植入区域的检测方法、装置及电子设备 Active CN112153483B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910578322.7A CN112153483B (zh) 2019-06-28 2019-06-28 信息植入区域的检测方法、装置及电子设备
PCT/CN2020/097782 WO2020259510A1 (zh) 2019-06-28 2020-06-23 信息植入区域的检测方法、装置、电子设备及存储介质
US17/370,764 US20210406549A1 (en) 2019-06-28 2021-07-08 Method and apparatus for detecting information insertion region, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910578322.7A CN112153483B (zh) 2019-06-28 2019-06-28 信息植入区域的检测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112153483A true CN112153483A (zh) 2020-12-29
CN112153483B CN112153483B (zh) 2022-05-13

Family

ID=73891682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910578322.7A Active CN112153483B (zh) 2019-06-28 2019-06-28 信息植入区域的检测方法、装置及电子设备

Country Status (3)

Country Link
US (1) US20210406549A1 (zh)
CN (1) CN112153483B (zh)
WO (1) WO2020259510A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112752151A (zh) * 2020-12-30 2021-05-04 湖南快乐阳光互动娱乐传媒有限公司 一种动态广告植入位置的检测方法及装置
CN113676775A (zh) * 2021-08-27 2021-11-19 苏州因塞德信息科技有限公司 一种利用人工智能在视频和游戏中进行广告植入的方法
CN113691835A (zh) * 2021-10-21 2021-11-23 星河视效科技(北京)有限公司 视频植入方法、装置、设备及计算机可读存储介质
CN116761037A (zh) * 2023-08-23 2023-09-15 星河视效科技(北京)有限公司 视频植入多媒体信息的方法、装置、设备及介质
CN116939293A (zh) * 2023-09-17 2023-10-24 世优(北京)科技有限公司 植入位置的检测方法、装置、存储介质及电子设备
WO2024104286A1 (zh) * 2022-11-14 2024-05-23 北京字跳网络技术有限公司 一种视频处理方法、装置、电子设备和存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115460456A (zh) * 2021-06-08 2022-12-09 微软技术许可有限责任公司 数字内容添加的目标区域提取
CN113269125B (zh) * 2021-06-10 2024-05-14 北京中科闻歌科技股份有限公司 一种人脸识别方法、装置、设备及存储介质
CN114708008A (zh) * 2021-12-30 2022-07-05 北京有竹居网络技术有限公司 一种推广内容处理方法、装置、设备、介质及产品
CN114449346B (zh) * 2022-02-14 2023-08-15 腾讯科技(深圳)有限公司 视频处理方法、装置、设备以及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621636A (zh) * 2008-06-30 2010-01-06 北京大学 基于视觉注意力模型的广告标志***和变换方法及***
CN103299610A (zh) * 2011-01-12 2013-09-11 华为技术有限公司 用于视频***的方法和设备
US8561106B1 (en) * 2007-12-21 2013-10-15 Google Inc. Video advertisement placement
CN105303163A (zh) * 2015-09-22 2016-02-03 深圳市华尊科技股份有限公司 一种目标检测的方法及检测装置
CN107343225A (zh) * 2016-08-19 2017-11-10 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和终端设备
CN107818302A (zh) * 2017-10-20 2018-03-20 中国科学院光电技术研究所 基于卷积神经网络的非刚性多尺度物体检测方法
CN109168034A (zh) * 2018-08-28 2019-01-08 百度在线网络技术(北京)有限公司 商品信息显示方法、装置、电子设备和可读存储介质
CN109308456A (zh) * 2018-08-31 2019-02-05 北京字节跳动网络技术有限公司 目标对象的信息确定方法、装置、设备及存储介质
CN109325502A (zh) * 2018-08-20 2019-02-12 杨学霖 基于视频渐进区域提取的共享单车停放检测方法和***
US20190075339A1 (en) * 2017-09-05 2019-03-07 Adobe Inc. Injecting targeted ads into videos
CN109886130A (zh) * 2019-01-24 2019-06-14 上海媒智科技有限公司 目标对象的确定方法、装置、存储介质和处理器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4253335B2 (ja) * 2006-07-13 2009-04-08 株式会社東芝 カーネル関数値を用いた、画像の平均値シフトによるフィルタリングとクラスタリングの方法及び装置
EP2187620B1 (en) * 2007-07-26 2014-12-24 Omron Corporation Digital image processing and enhancing system and method with function of removing noise
US9311550B2 (en) * 2013-03-06 2016-04-12 Samsung Electronics Co., Ltd. Device and method for image processing
CN105590312B (zh) * 2014-11-12 2018-05-18 株式会社理光 前景图像分割方法和装置
WO2017165538A1 (en) * 2016-03-22 2017-09-28 Uru, Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
US10275892B2 (en) * 2016-06-09 2019-04-30 Google Llc Multi-view scene segmentation and propagation
CN109302619A (zh) * 2018-09-18 2019-02-01 北京奇艺世纪科技有限公司 一种信息处理方法及装置
CN110458820A (zh) * 2019-08-06 2019-11-15 腾讯科技(深圳)有限公司 一种多媒体信息植入方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8561106B1 (en) * 2007-12-21 2013-10-15 Google Inc. Video advertisement placement
CN101621636A (zh) * 2008-06-30 2010-01-06 北京大学 基于视觉注意力模型的广告标志***和变换方法及***
CN103299610A (zh) * 2011-01-12 2013-09-11 华为技术有限公司 用于视频***的方法和设备
CN105303163A (zh) * 2015-09-22 2016-02-03 深圳市华尊科技股份有限公司 一种目标检测的方法及检测装置
CN107343225A (zh) * 2016-08-19 2017-11-10 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和终端设备
US20190075339A1 (en) * 2017-09-05 2019-03-07 Adobe Inc. Injecting targeted ads into videos
CN107818302A (zh) * 2017-10-20 2018-03-20 中国科学院光电技术研究所 基于卷积神经网络的非刚性多尺度物体检测方法
CN109325502A (zh) * 2018-08-20 2019-02-12 杨学霖 基于视频渐进区域提取的共享单车停放检测方法和***
CN109168034A (zh) * 2018-08-28 2019-01-08 百度在线网络技术(北京)有限公司 商品信息显示方法、装置、电子设备和可读存储介质
CN109308456A (zh) * 2018-08-31 2019-02-05 北京字节跳动网络技术有限公司 目标对象的信息确定方法、装置、设备及存储介质
CN109886130A (zh) * 2019-01-24 2019-06-14 上海媒智科技有限公司 目标对象的确定方法、装置、存储介质和处理器

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112752151A (zh) * 2020-12-30 2021-05-04 湖南快乐阳光互动娱乐传媒有限公司 一种动态广告植入位置的检测方法及装置
CN113676775A (zh) * 2021-08-27 2021-11-19 苏州因塞德信息科技有限公司 一种利用人工智能在视频和游戏中进行广告植入的方法
CN113691835A (zh) * 2021-10-21 2021-11-23 星河视效科技(北京)有限公司 视频植入方法、装置、设备及计算机可读存储介质
CN113691835B (zh) * 2021-10-21 2022-01-21 星河视效科技(北京)有限公司 视频植入方法、装置、设备及计算机可读存储介质
WO2024104286A1 (zh) * 2022-11-14 2024-05-23 北京字跳网络技术有限公司 一种视频处理方法、装置、电子设备和存储介质
CN116761037A (zh) * 2023-08-23 2023-09-15 星河视效科技(北京)有限公司 视频植入多媒体信息的方法、装置、设备及介质
CN116761037B (zh) * 2023-08-23 2023-11-03 星河视效科技(北京)有限公司 视频植入多媒体信息的方法、装置、设备及介质
CN116939293A (zh) * 2023-09-17 2023-10-24 世优(北京)科技有限公司 植入位置的检测方法、装置、存储介质及电子设备
CN116939293B (zh) * 2023-09-17 2023-11-17 世优(北京)科技有限公司 植入位置的检测方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
WO2020259510A1 (zh) 2020-12-30
US20210406549A1 (en) 2021-12-30
CN112153483B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN112153483B (zh) 信息植入区域的检测方法、装置及电子设备
US11288823B2 (en) Logo recognition in images and videos
US10522186B2 (en) Apparatus, systems, and methods for integrating digital media content
CN112101075B (zh) 信息植入区域的识别方法、装置、存储介质及电子设备
Gllavata et al. A robust algorithm for text detection in images
CN110390033B (zh) 图像分类模型的训练方法、装置、电子设备及存储介质
CN102334118B (zh) 基于用户兴趣学习的个性化广告推送方法与***
CN113010703B (zh) 一种信息推荐方法、装置、电子设备和存储介质
Anthimopoulos et al. Detection of artificial and scene text in images and video frames
CN112925905B (zh) 提取视频字幕的方法、装置、电子设备和存储介质
CN107135401A (zh) 关键帧选取方法及***
CN113761253A (zh) 视频标签确定方法、装置、设备及存储介质
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
CN112733666A (zh) 一种难例图像的搜集、及模型训练方法、设备及存储介质
Ghai et al. Comparative analysis of multi-scale wavelet decomposition and k-means clustering based text extraction
Zeeshan et al. A newly developed ground truth dataset for visual saliency in videos
Kim et al. Automatic color scheme extraction from movies
Dubey Edge based text detection for multi-purpose application
CN106066887A (zh) 一种广告序列图像快速检索和分析方法
Jiang et al. Video searching and fingerprint detection by using the image query and PlaceNet-based shot boundary detection method
CN110414471B (zh) 基于双模型的视频识别方法及***
Vu et al. Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering
CN113706636A (zh) 一种用于篡改图像识别的方法与装置
Paliwal et al. A survey on various text detection and extraction techniques from videos and images
CN111818364A (zh) 视频融合方法、***、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035342

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant