CN107341805A - 图像前背景分割及网络模型训练、图像处理方法和装置 - Google Patents

图像前背景分割及网络模型训练、图像处理方法和装置 Download PDF

Info

Publication number
CN107341805A
CN107341805A CN201610694814.9A CN201610694814A CN107341805A CN 107341805 A CN107341805 A CN 107341805A CN 201610694814 A CN201610694814 A CN 201610694814A CN 107341805 A CN107341805 A CN 107341805A
Authority
CN
China
Prior art keywords
image
convolutional neural
neural networks
characteristic vector
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610694814.9A
Other languages
English (en)
Other versions
CN107341805B (zh
Inventor
石建萍
栾青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201610694814.9A priority Critical patent/CN107341805B/zh
Priority to PCT/CN2017/098216 priority patent/WO2018033156A1/zh
Publication of CN107341805A publication Critical patent/CN107341805A/zh
Priority to US15/845,802 priority patent/US10580179B2/en
Application granted granted Critical
Publication of CN107341805B publication Critical patent/CN107341805B/zh
Priority to US16/709,551 priority patent/US10776970B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种图像前背景分割网络模型的训练、图像前背景分割及视频图像处理的方法、装置和终端设备,其中,图像前背景分割网络模型的训练方法包括:获取待训练的样本图像的特征向量;对特征向量进行卷积处理,获取特征向量卷积结果;对特征向量卷积结果进行放大处理;判断放大后的特征向量卷积结果是否满足收敛条件;若满足,则完成对用于分割图像前背景的卷积神经网络模型的训练;若不满足,则根据放大后的特征向量卷积结果调整卷积神经网络模型的参数并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至卷积结果满足收敛条件。通过本发明实施例,提高了卷积神经网络模型的训练效率,缩短了训练时间。

Description

图像前背景分割及网络模型训练、图像处理方法和装置
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种图像前背景分割网络模型的训练方法、装置和终端设备,一种图像前背景分割方法、装置和终端设备,以及,一种视频图像处理方法、装置和终端设备。
背景技术
卷积神经网络是用于计算机视觉和模式识别的一个重要的研究领域,它通过计算机仿照生物大脑思维启发进行类似人类对特定对象的信息处理。通过卷积神经网络,能够有效地进行对象检测和识别。随着互联网技术的发展,信息量的急剧增加,卷积神经网络被越来越广泛地应用于对象检测及识别领域,以从大量的信息中寻找出实际所需的信息。
目前,卷积神经网络需要采集大量的样本进行训练,以达到较为准确的预测效果。然而,目前的卷积神经网络训练过程复杂,加上训练样本数量的增加,造成训练时间长、训练成本高。
发明内容
本发明实施例提供了一种图像前背景分割网络模型的训练方案、一种图像前背景分割方案,以及,一种视频图像处理方案。
根据本发明实施例的一个方面,提供了一种图像前背景分割网络模型的训练方法,包括:获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;对所述特征向量进行卷积处理,获取特征向量卷积结果;对所述特征向量卷积结果进行放大处理;判断放大后的所述特征向量卷积结果是否满足收敛条件;若满足,则完成对用于分割图像前背景的卷积神经网络模型的训练;若不满足,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练方法,其中,对所述特征向量卷积结果进行放大处理包括:通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练方法,其中,对所述特征向量卷积结果进行放大处理包括:将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练方法,其中,判断放大后的所述特征向量卷积结果是否满足收敛条件包括:使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练方法,其中,所述方法还包括:获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;检验预测的前背景区域是否正确;若不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练方法,其中,使用所述测试样本图像对所述卷积神经网络模型进行再次训练,包括:从所述测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练方法,其中,获取待训练的样本图像的特征向量之前,还包括:将包括多帧样本图像的视频流输入所述卷积神经网络模型。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练方法,其中,将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,还包括:确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练方法,其中,所述卷积神经网络模型为全卷积神经网络模型。
根据本发明实施例的另一方面,还提供了一种图像前背景分割方法,包括:获取待检测的图像,其中,所述图像包括静态图像或视频中的图像;采用卷积神经网络检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息;其中,所述卷积神经网络采用如上任一所述的图像前背景分割网络模型的训练方法训练而得的卷积神经网络。
可选地,结合本发明实施例提供的任一种图像前背景分割方法,其中,所述视频中的图像为直播类视频中的图像。
可选地,结合本发明实施例提供的任一种图像前背景分割方法,其中,所述待检测的图像包括视频流中的多帧图像。
根据本发明实施例的又一方面,还提供了一种视频图像处理方法,包括:采用如上任一所述的图像前背景分割网络模型的训练方法训练而得的卷积神经网络检测视频图像,或者,采用如上任一所述的图像前背景分割方法检测视频图像,得到前背景检测结果;根据所述前背景检测结果在所述视频图像上展示业务对象。
可选地,结合本发明实施例提供的任一种视频图像处理方法,其中,根据所述前背景检测结果在所述视频图像上展示业务对象,包括:根据所述前背景检测结果确定所述视频图像中的背景区域;确定所述待展示的业务对象;在确定的所述背景区域采用计算机绘图方式绘制所述待展示的业务对象。
可选地,结合本发明实施例提供的任一种视频图像处理方法,其中,所述业务对象为包含有语义信息的特效;所述视频图像为直播类视频图像。
可选地,结合本发明实施例提供的任一种视频图像处理方法,其中,所述直播类视频图像的前景区域为人物所在的区域。
可选地,结合本发明实施例提供的任一种视频图像处理方法,其中,所述直播类视频图像的背景区域为除了人物所在的区域之外的至少局部区域。
可选地,结合本发明实施例提供的任一种视频图像处理方法,其中,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。
根据本发明实施例的再一方面,还提供了一种图像前背景分割网络模型的训练装置,包括:向量获取模块,用于获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;卷积获取模块,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;放大模块,用于对所述特征向量卷积结果进行放大处理;判断模块,用于判断放大后的所述特征向量卷积结果是否满足收敛条件;执行模块,用于若所述判断模块的判断结果为满足收敛条件,则完成对用于分割图像前背景的卷积神经网络模型的训练;若所述判断模块的判断结果为不满足收敛条件,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练装置,其中,所述放大模块,用于通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练装置,其中,所述放大模块,用于将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练装置,其中,所述判断模块,用于使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练装置,其中,所述装置还包括:预测模块,用于获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;检验模块,用于检验预测的前背景区域是否正确;再训练模块,用于若所述检验模块的检验结果为不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练装置,其中,所述再训练模块,用于若所述检验模块的检验结果为不正确,则从所述测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练装置,其中,所述装置还包括:视频流模块,用于在所述向量获取模块获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入所述卷积神经网络模型。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练装置,其中,所述视频流模块,还用于在将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。
可选地,结合本发明实施例提供的任一种图像前背景分割网络模型的训练装置,其中,所述卷积神经网络模型为全卷积神经网络模型。
根据本发明实施例的再一方面,还提供了一种图像前背景分割装置,包括:第一获取模块,用于获取待检测的图像,其中,所述图像包括静态图像或视频中的图像;第二获取模块,用于采用卷积神经网络检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息;其中,所述卷积神经网络采用如上任一所述的图像前背景分割网络模型的训练装置训练而得的卷积神经网络。
可选地,结合本发明实施例提供的任一种图像前背景分割装置,其中,所述视频中的图像为直播类视频中的图像。
可选地,结合本发明实施例提供的任一种图像前背景分割装置,其中,所述待检测的图像包括视频流中的多帧图像。
根据本发明实施例的又一方面,还提供了一种视频图像处理装置,包括:检测模块,用于采用如上任一所述的图像前背景分割网络模型的训练装置训练而得的卷积神经网络检测视频图像,或者,采用如上任一所述的图像前背景分割装置检测视频图像,得到前背景检测结果;展示模块,用于根据所述前背景检测结果在所述视频图像上展示业务对象。
可选地,结合本发明实施例提供的任一种视频图像处理装置,其中,所述展示模块,用于根据所述前背景检测结果确定所述视频图像中的背景区域;确定所述待展示的业务对象;在确定的所述背景区域采用计算机绘图方式绘制所述待展示的业务对象。
可选地,结合本发明实施例提供的任一种视频图像处理装置,其中,所述业务对象为包含有语义信息的特效;所述视频图像为直播类视频图像。
可选地,结合本发明实施例提供的任一种视频图像处理装置,其中,所述直播类视频图像的前景区域为人物所在的区域。
可选地,结合本发明实施例提供的任一种视频图像处理装置,其中,所述直播类视频图像的背景区域为除了人物所在的区域之外的至少局部区域。
可选地,结合本发明实施例提供的任一种视频图像处理装置,其中,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。
根据本发明实施例的又一方面,还提供了一种终端设备,包括:第一处理器、第一存储器、第一通信接口和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信接口通过所述第一通信总线完成相互间的通信;所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如上任一项所述的图像前背景分割网络模型的训练方法对应的操作。
根据本发明实施例的又一方面,还提供了一种终端设备,包括:第二处理器、第二存储器、第二通信接口和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信接口通过所述第二通信总线完成相互间的通信;所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如上任一项所述的图像前背景分割方法对应的操作。
根据本发明实施例的又一方面,还提供了一种终端设备,包括:第三处理器、第三存储器、第三通信接口和第三通信总线,所述第三处理器、所述第三存储器和所述第三通信接口通过所述第三通信总线完成相互间的通信;所述第三存储器用于存放至少一可执行指令,所述可执行指令使所述第三处理器执行如上任一项所述的视频图像处理方法对应的操作。
根据本发明实施例的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有:用于获取待训练的样本图像的特征向量的可执行指令,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;用于对所述特征向量进行卷积处理,获取特征向量卷积结果的可执行指令;用于对所述特征向量卷积结果进行放大处理的可执行指令;用于判断放大后的所述特征向量卷积结果是否满足收敛条件;若满足,则完成对用于分割图像前背景的卷积神经网络模型的训练;若不满足,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件的可执行指令。
根据本发明实施例的又一方面,还提供了另一种计算机可读存储介质,所述计算机可读存储介质存储有:用于获取待检测的图像的可执行指令,其中,所述图像包括静态图像或视频中的图像;用于采用卷积神经网络检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息的可执行指令;其中,所述卷积神经网络采用如上任一所述的图像前背景分割网络模型的训练方法训练而得的卷积神经网络。
根据本发明实施例的又一方面,还提供了再一种计算机可读存储介质,所述计算机可读存储介质存储有:用于采用如上任一所述的图像前背景分割网络模型的训练方法训练而得的卷积神经网络检测视频图像的可执行指令,或者,用于采用如上任一所述的图像前背景分割方法检测视频图像,得到前背景检测结果的可执行指令;用于根据所述前背景检测结果在所述视频图像上展示业务对象的可执行指令。
根据本发明实施例提供的技术方案,在进行图像前背景分割网络模型的训练时,对待训练的样本图像的特征向量进行卷积处理,在卷积处理后进行放大处理,进而对其进行判断,以根据判断结果确定卷积神经网络模型是否完成训练。通过放大卷积处理后的特征向量,有利于更精确地获得训练样本的像素级的处理结果,同时,通过对卷积处理后的特征向量的放大处理,卷积神经网络模型可以学习到一个较为准确的放大系数,基于该放大系数和放大后的特征向量,可以减少卷积神经网络模型的参数调整和计算量,降低卷积神经网络模型训练成本,提高训练效率,缩短训练时间。
基于此,若后续使用该训练完成的卷积神经网络模型进行图像的前背景分割或者视频图像处理,均可相应地提高前背景分割的效率和视频图像处理的效率。
附图说明
图1是根据本发明实施例一的一种图像前背景分割网络模型的训练方法的步骤流程图;
图2是根据本发明实施例二的一种图像前背景分割方法的步骤流程图;
图3是根据本发明实施例三的一种视频图像处理方法的步骤流程图;
图4是根据本发明实施例四的一种图像前背景分割网络模型的训练装置的结构框图;
图5是根据本发明实施例五的一种图像前背景分割装置的结构框图;
图6是根据本发明实施例六的一种视频图像处理装置的结构框图;
图7是根据本发明实施例七的一种终端设备的结构示意图;
图8是根据本发明实施例八的一种终端设备的结构示意图;
图9是根据本发明实施例九的一种终端设备的结构示意图。
具体实施方式
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
实施例一
参照图1,示出了根据本发明实施例一的一种图像前背景分割网络模型的训练方法的步骤流程图。
本实施例的图像前背景分割网络模型的训练方法包括以下步骤:
步骤S102:获取待训练的样本图像的特征向量。
其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像。也即,待训练的样本图像为已标注了前景区域和背景区域的样本图像。本发明实施例中,前景区域可以为图像主体所在区域,例如人物所在区域;背景区域可以为除了主体所在区域外的其它区域,可以是其它区域中的全部或者部分。
在一种优选的实施方式中,待训练的样本图像可以包括至少一个视频流的多帧样本图像。因此,在此方式中,在获取待训练的样本图像的特征向量之前,还需要将包括多帧样本图像的视频流输入卷积神经网络模型。在实现时,一种可行方式包括:先确定视频流的多个关键帧的图像为样本图像,对这些样本图像进行前景区域和背景区域的标注;在此基础上,将进行了标注的样本图像进行组合,再将组合后的包括多帧进行了标注的样本图像的视频流输入卷积神经网络模型。其中,对视频流抽取关键帧,并对抽取的关键帧进行标注均可以由本领域技术人员采用任意适当的方式实现,如通过均匀采样的方式抽取关键帧等。在抽取了关键帧后,可以结合视频上下文对抽取的关键帧标注区分前景和背景,得到精确的标注边界。将进行了标注后的样本图像作为待训练的样本图像,提取其特征向量。
由此可见,待训练的样本图像可以均为无关联的多张样本图像;也可以是其中一部分样本图像为无关联的样本图像,另一部分为一个视频流中的样本图像或者为多个视频流中的样本图像;也可以全部都为视频流中的样本图像。在使用视频流中的样本图像进行卷积神经网络模型训练时,可以在输入层同时输入一个视频流中的多张样本图像,通过同时输入视频流中的多张样本图像,能够使卷积神经网络模型得到视频上更加稳定的结果,同时通过视频流中的多张样本图像的并行计算,还可以有效提升卷积神经网络模型的计算效率。
此外,本步骤中,对特征向量的提取可以采用相关技术中的适当方式实现,本发明实施例在此不再赘述。
步骤S104:对所述特征向量进行卷积处理,获取特征向量卷积结果。
获取的特征向量卷积结果中包含有用于分辨视频图像的前景区域和背景区域的信息。
对特征向量的卷积处理次数可以根据实际需要进行设定,也即,卷积神经网络模型中,卷积层的层数根据实际需要进行设置,最终的特征向量卷积结果满足获得的特征能够足够表征区分前景和背景的标准(如交并比大于90%)即可。
卷积结果是对特征向量进行了特征提取后的结果,该结果能够有效表征视频图像中前景区域和背景区域的特征和分类。
步骤S106:对特征向量卷积结果进行放大处理。
一种可行方式中,对特征向量卷积结果的放大可以采用线性插值的方式,包括但不限于线性插值、双线性插值、三线性插值等。其中,具体的线性插值公式可以由本领域技术人员根据实际需要采用适当的公式,本发明实施例对此不作限制。优选地,可以通过对特征向量卷积结果进行双线性插值来放大特征向量卷积结果。通过对特征向量卷积结果进行放大处理,可以得到与用于训练的原始图像同样大小的输出图像,获得每一个像素点的特征信息,有利于更为精确地获得训练样本的像素级的处理结果,以更为精确地确定图像的前景区域和背景区域。同时,通过对卷积处理后的特征向量的放大处理,卷积神经网络模型可以学习到一个较为准确的放大系数,基于该放大系数和放大后的特征向量,可以减少卷积神经网络模型的参数调整和计算量,降低卷积神经网络模型训练成本,提高训练效率,缩短训练时间。
本实施例中,在获得特征向量卷积结果后,通过线性插值层对特征向量卷积结果进行双线性插值,以放大卷积处理后的图像特征,并得到的原始图像同样大小(图像长宽相同)的输出。需要说明的是,本发明实施例中对双线性插值的具体实现手段不作限制。
步骤S108:判断放大后的特征向量卷积结果是否满足收敛条件。
其中,收敛条件可以由本领域技术人员根据实际需求适当设定。当满足收敛条件时,可以认为卷积神经网络模型中的参数设置适当;当不能满足收敛条件时,可以认为卷积神经网络模型中的参数设置不适当,需要对其进行调整,该调整是一个迭代的过程,直至使用调整后的参数(如,卷积核的值、层间输出线性变化的权重,等等)对特征向量进行卷积处理的结果满足收敛条件。
本实施例中,在通过线性插值层对特征向量卷积结果进行放大后,在损失层使用损失函数该其进行计算,进而根据计算结果确定是否满足收敛条件。也即,使用设定的损失函数计算放大后的特征向量卷积结果和预定的标准输出特征向量的损失值;根据损失值判断放大后的特征向量卷积结果是否满足收敛条件。其中,损失层、损失函数和预定的标准输出特征向量均可以根据实际情况由本领域技术人员适当设定,如通过Softmax函数或者Logistic函数等。在获得损失值后,一种可行方式中,可以根据该损失值确定本次训练结果是否满足收敛条件,如该损失值是否小于或等于设定阈值;另一种可行方式中,可判断对该损失值的计算是否已达到设定次数,也即,在本次训练中对卷积神经网络模型的迭代训练次数是否已达到设定次数,如达到则满足收敛条件。其中,设定阈值可由本领域技术人员根据实际需要适当设置,本发明实施例对此不作限制。
需要说明的是,当输入的是视频流中的多帧图像时,损失层的损失函数也可以同时对该视频流中的多帧图像进行损失值计算,同时输出多帧的结果,使卷积神经网络在得到视频上更加稳定的结果的同时,通过多帧图像的并行计算,提升计算效率。
步骤S110:若满足收敛条件,则完成对卷积神经网络模型的训练;若不满足收敛条件,则根据放大后的特征向量卷积结果调整卷积神经网络模型的参数并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。
通过对卷积神经网络模型进行上述训练,卷积神经网络模型可以对视频图像的图像特征进行特征提取和分类,从而具有确定视频图像中的前景区域和背景区域的功能。在后续应用中,可以使用该卷积神经网络模型识别出视频图像中的前景区域和背景区域,进而在相应区域如背景区域展示业务对象。
为了使训练的结果更为精准,在一种优选的实施方式中,可以通过测试样本测试该训练出的卷积神经网络模型是否准确,进而根据测试结果决定使用该卷积神经网络模型还是对该卷积神经网络模型进行再训练。在此方式中,在完成了对卷积神经网络模型的初步训练后,还可以获取测试样本图像,使用训练后的卷积神经网络模型对测试样本图像进行前背景区域的预测,其中,测试样本图像为未进行任何标注的样本图像;进而,检验预测的前背景区域是否正确;若不正确,则使用测试样本对卷积神经网络模型进行再次训练;若正确,则可以确定使用该卷积神经网络模型进行视频图像的前背景确定,或者,为了使卷积神经网络模型更为精准,再获取其它测试样本图像进行测试;或者,使用与原训练样本图像不同的样本图像进行再次训练。
当通过测试样本检验到使用卷积神经网络模型预测的前背景区域不正确时,需要对该卷积神经网络模型进行再次训练。在一种再次训练方式中,可以仅使用从测试样本图像中获取的前背景区域预测不正确的样本图像作为再次训练使用的样本图像;然后,使用这些预测不正确的样本图像对卷积神经网络模型进行再次训练。这些进行再次训练的样本在用于首次训练前,进行了前背景信息的标注,如,在这些样本中标注出前景区域和背景区域。通过将预测不正确的样本作为一个新的样本图像集对卷积神经网络进行再训练,不仅使得训练更有针对性,也大大节约了训练成本。当然,不限于此,在实际使用中,也可以使用其它进行了前背景标注的样本图像进行训练。
此外,在一种优选方式中,训练的卷积神经网络模型为全卷积神经网络模型,与具有全连接层的卷积神经网络模型相比,采用全卷积神经网络模型所需的卷积层参数少,训练速度更快。
以下,以一个具体实例为例对本实施例中的卷积神经网络模型的结构进行简要说明如下:
(1)输入层
例如,可以输入待训练的样本图像的特征向量,该特征向量中包含有样本图像的背景区域的信息,或者,该特征向量中包含有样本图像的前景区域的信息和背景区域的信息。
(2)卷积层
//第一阶段,对待训练的样本图像的特征向量进行卷积处理,获得卷积结果。
2.<=1卷积层1_1(3x3x64)
3.<=2非线性响应ReLU层
4.<=3卷积层1_2(3x3x64)
5.<=4非线性响应ReLU层
6.<=5池化层(3x3/2)
7.<=6卷积层2_1(3x3x128)
8.<=7非线性响应ReLU层
9.<=8卷积层2_2(3x3x128)
10.<=9非线性响应ReLU层
11.<=10池化层(3x3/2)
12.<=11卷积层3_1(3x3x256)
13.<=12非线性响应ReLU层
14.<=13卷积层3_2(3x3x256)
15.<=14非线性响应ReLU层
16.<=15卷积层3_3(3x3x256)
17.<=16非线性响应ReLU层
18.<=17池化层(3x3/2)
19.<=18卷积层4_1(3x3x512)
20.<=19非线性响应ReLU层
21.<=20卷积层4_2(3x3x512)
22.<=21非线性响应ReLU层
23.<=22卷积层4_3(3x3x512)
24.<=23非线性响应ReLU层
25.<=24池化层(3x3/2)
26.<=25卷积层5_1(3x3x512)
27.<=26非线性响应ReLU层
28.<=27卷积层5_2(3x3x512)
29.<=28非线性响应ReLU层
30.<=29卷积层5_3(3x3x512)
31.<=30非线性响应ReLU层
//第二阶段,对第一阶段获得的卷积结果进行插值放大,并进行损失函数的计算。
32.<=31线性插值层
33.<=32损失层,进行损失函数的计算
(3)输出层:输出指示前景还是背景的二值图
需要说明的是:
第一,在通过前31层的处理获得特征向量后,线性插值层通过双线性插值法对前31层处理后的特征向量进行插值,以放大中间层特征,得到和训练的样本图像同样大小(图像长宽一样)的输出图像。
第二,本实施例中,33层的损失层采用Softmax函数进行处理。一种可行的Softmax函数如下:
其中,x表示输入的特征,j表示第j类别,y表示输出的类别,K表示总共类别数,k表示第k类别,Wj表示第j类别的分类参数,XT表示X向量的转置,P(y=j|x)表示给定输入x,预测为第j类的概率。
但不限于此,在实际使用中,本领域技术人员也可以采用其它Softmax函数,本发明实施例对此不作限制。
第三,上述卷积层对特征向量进行的处理是迭代多次进行的,每完成一次,就根据损失层计算出的结果调整卷积神经网络的网络参数(如卷积核的值、层间输出线性变化的权重,等等),基于参数调整后的网络再进行处理,迭代多次,直至满足收敛条件。
第四,本实施例中,收敛条件可以是对卷积神经网络模型进行迭代训练的次数达到最大迭代次数,如10000~20000次。
第五,上述卷积神经网络模型对于视频图像的学习,可以单帧视频图像输入,也可以通过多帧视频图像同时输入,同时输出多帧视频图像的结果。即第一层输入层可以输入一帧视频图像,也可以是一个视频流,这个视频流包含多帧视频图像。
同样,最后一层损失层,可以针对一帧视频图像计算损失函数,也可以对视频序列的多帧视频图像计算损失函数。
通过视频序列方式的训练和学习,可以使卷积神经网络模型得到视频上更加稳定的结果,同时通过多帧视频图像的并行计算,提升计算效率。
其中,可以通过修改输入层和输出层的feature map的大小实现多帧视频图像的同时输入和输出。
第六,上述卷积神经网络结构的说明中,2.<=1表明当前层为第二层,输入为第一层;卷积层后面括号为卷积层参数(3x3x64)表明卷积核大小为3x3,通道数为64;池化层后面括号(3x3/2)表明池化核大小为3x3,间隔为2。其它依此类推,不再赘述。
在上述卷积神经网络结构中,每个卷积层之后都有一个非线性响应单元,该非线性响应单元采用纠正线性单元ReLU(Rectified Linear Units),通过在卷积层后增加上述纠正线性单元,将卷积层的映射结果尽量稀疏,更接近人的视觉反应,从而使图像处理效果更好。
将卷积层的卷积核设为3x3,能更好的综合局部信息。
设定池化层(Max pooling)的步长stride,使上层特征在不增加计算量的前提下获得更大的视野,同时池化层的步长stride还有增强空间不变性的特征,即允许同样的输入出现在不同的图像位置上,而输出结果响应相同。
线性插值层可以将之前的特征放大到原图大小,得到每个像素的预测值。
综上所述,该全卷积神经网络模型的卷积层可以用于信息归纳和融合,最大池化层(Max pooling)主要进行高层信息的归纳,该卷积神经网络结构可以进行微调来适应不同的性能和效率的权衡。
但本领域技术人员应当明了的是,上述卷积核的大小、通道数、池化核的大小、间隔以及卷积层的层数数量均为示例性说明,在实际应用中,本领域技术人员可以根据实际需要进行适应性调整,本发明实施例对此不作限制。此外,本实施例中的卷积神经网络模型中的所有层的组合及参数都是可选的,可以任意组合。
通过本实施例中的卷积神经网络模型,实现了对图像中前背景区域的有效分割。
本实施例的图像前背景分割网络模型的训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:PC机、移动终端等。
通过本实施例的图像前背景分割网络模型的训练方法,在进行图像前背景分割网络模型的训练时,对待训练的样本图像的特征向量进行卷积处理,在卷积处理后进行放大处理,进而对其进行判断,以根据判断结果确定卷积神经网络模型是否完成训练。通过放大卷积处理后的特征向量,可以更精确地获得训练样本的每一个像素的处理结果,同时,通过对卷积处理后的特征向量的放大处理,卷积神经网络模型可以学习到一个较为准确的放大系数,基于该放大系数和放大后的特征向量,可以减少卷积神经网络模型的参数调整和计算量,降低卷积神经网络模型训练成本,提高训练效率,缩短训练时间。
基于此,若后续使用该训练完成的卷积神经网络模型进行图像的前背景分割或者视频图像处理,均可相应地提高前背景分割的效率和视频图像处理的效率。
实施例二
参照图2,示出了根据本发明实施例二的一种图像前背景分割方法的步骤流程图。
本实施例中,采用实施例一中示出的经过训练的图像前背景分割网络模型对图像进行检测,分割出图像的前背景。本实施例的图像前背景分割方法包括以下步骤:
步骤S202:获取待检测的图像。
其中,所述图像包括静态图像或视频中的图像。在一种可选方案中,视频中的图像为直播类视频中的图像。在另一种可选方案中,视频中的图像包括视频流中的多帧图像,因为视频流中的多帧图像存在较多的上下文关联,通过实施例一中示出的用于分割图像前背景的卷积神经网络模型,可以快速高效地对视频流中每帧图像的前背景进行检测。
步骤S204:采用卷积神经网络检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息。
其中,如上所述,本实施例中的卷积神经网络采用如实施例一中所述的方法训练而得的卷积神经网络。采用如实施例一中所述的卷积神经网络,以快速高效地分割图像的前景区域和背景区域。
本实施例的图像前背景分割网络模型的训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:PC机、移动终端等。
通过本实施例的图像前背景分割方法,一方面,采用实施例一中训练而得的卷积神经网络模型,该训练过程减少了卷积神经网络模型的参数调整和计算量,降低了卷积神经网络模型训练成本,提高训练效率,缩短训练时间;另一方面,将该训练完成的卷积神经网络模型应用于图像的前背景分割时,也可相应地提高前背景分割的效率。
实施例三
参照图3,示出了根据本发明实施例三的一种视频图像处理方法的步骤流程图。
本实施例的视频图像处理方法可以由任意具有数据采集、处理和传输功能的设备执行,包括但不限于移动终端和PC等。本实施例以移动终端为例,对本发明实施例提供的视频图像中的业务对象处理方法进行说明,其它设备可参照本实施例执行。
本实施例的视频图像处理方法包括以下步骤:
步骤S302:移动终端获取当前显示的视频图像。
本实施例中,以从直播应用中获取当前正在播放的视频的视频图像为例,并且,以对单张视频图像的处理为例,但本领域技术认员应当明了,对于其它获取视频图像的方式,以及对多张视频图像或视频流中的多帧图像均可参照本发明实施例进行视频图像处理。
步骤S304:移动终端使用具有图像前背景分割功能的卷积神经网络模型检测视频图像,得到视频图像的前背景检测结果。
本实施例中,可以采用如实施例一所示的方法训练而得的卷积神经网络检测视频图像,或者,采用如实施例二所示的方法检测视频图像,得到前背景检测结果,从而确定视频图像的前景区域和背景区域。具体的卷积神经网络训练过程和图像前背景分割过程可参照前述实施例一和二的相关部分,在此不再赘述。
步骤S306:移动终端根据前背景检测结果在视频图像上展示业务对象。
本实施例中,以在背景区域展示业务对象为例,对本发明实施例提供的视频图像处理方案进行说明。本领域技术人员应当明了,在前景区域或者同时在前景区域和背景区域展示业务对象均可参照本实施例实现。
当在背景区域展示业务对象时,先根据步骤S304获得的前背景检测结果确定视频图像中的背景区域;然后确定待展示的业务对象;再在确定的背景区域采用计算机绘图方式绘制待展示的业务对象。本实施例中,移动终端获取的视频图像为直播类视频图像,其前景区域为人物所在的区域,其背景区域为除了人物所在的区域之外的区域,可以为除了人物所在的区域之外的全部区域或部分区域(即至少局部区域)。
在背景区域绘制业务对象时,一种可行的方案包括:按照设定规则在背景区域绘制业务对象,如在背景区域的左上角、右上角、紧邻主体的左下角、紧邻主体的右下角等等,本领域技术人员可以根据实际需要适当设定业务对象在背景区域中的绘制位置。在另一种可行的方案中,可以使用具有确定业务对象展示位置的功能的卷积神经网络模型,确定背景区域中绘制业务对象的位置。
在后一种可行方案中,可以使用第三方提供的具有确定业务对象展示位置的功能的卷积神经网络模型,也可以预先训练具有该种功能的卷积神经网络模型。以下,对该卷积神经网络模型的训练进行说明。
该卷积神经网络模型的一种可行的训练方式包括以下过程:
(1)获取待训练的业务对象样本图像的特征向量。
其中,所述特征向量中至少包含有业务对象样本图像中的背景区域的特征向量,以及,业务对象的位置信息和/或置信度信息。
其中,业务对象的位置信息指示了业务对象的位置,可以是业务对象中心点的位置信息,也可以是业务对象所在区域的位置信息;业务对象的置信度信息指示了业务对象展示在当前位置时,能够达到的效果(如被关注或被点击或被观看)的概率,该概率可以根据对历史数据的统计分析结果设定,也可以根据仿真实验的结果设定,还可以根据人工经验进行设定。在实际应用中,可以根据实际需要,仅对业务对象的位置信息进行训练,也可以仅对业务对象的置信度信息进行训练,还可以对二者均进行训练。对二者均进行训练,能够使得训练后的卷积神经网络模型更为有效和精准地确定业务对象的位置信息和置信度信息,以便为业务对象的展示提供依据。
需要说明的是,本发明实施例中的业务对象样本图像中,对背景区域和业务对象均进行了标记。其中,业务对象可以被标注位置信息,或者置信度信息,或者二种信息都有。当然,在实际应用中,这些信息也可以通过其它途径获取。而通过预先在对业务对象进行相应信息的标注,可以有效节约数据处理的数据和交互次数,提高数据处理效率。
将进行了标注的业务对象样本图像作为训练样本,对其进行特征向量提取,获得的特征向量中既包含背景区域的信息,也包含有业务对象的位置信息和/或置信度信息。
对特征向量的提取可以采用相关技术中的适当方式实现,本发明实施例在此不再赘述。
(2)对所述特征向量进行卷积处理,获取特征向量卷积结果。
获取的特征向量卷积结果中包含有业务对象的位置信息和/或置信度信息,以及,背景区域的信息。
对特征向量的卷积处理次数可以根据实际需要进行设定,也即,卷积神经网络模型中,卷积层的层数根据实际需要进行设置,最终的特征向量卷积结果满足获得的特征能够足够表征区分前景和背景的标准(如交并比大于90%)即可。
卷积结果是对特征向量进行了特征提取后的结果,该结果能够有效表征视频图像中各相关对象的特征和分类。
本发明实施例中,当特征向量中既包含业务对象的位置信息,又包含业务对象的置信度信息时,也即,对业务对象的位置信息和置信度信息均进行了训练的情况下,该特征向量卷积结果在后续分别进行收敛条件判断时共享,无须进行重复处理和计算,减少了由数据处理引起的资源损耗,提高了数据处理速度和效率。
(3)判断特征向量卷积结果中对应的背景区域的信息,以及,业务对象的位置信息和/或置信度信息是否满足收敛条件。
其中,收敛条件由本领域技术人员根据实际需求适当设定。当信息满足收敛条件时,可以认为卷积神经网络模型中的参数设置适当;当信息不能满足收敛条件时,可以认为卷积神经网络模型中的参数设置不适当,需要对其进行调整,该调整是一个迭代的过程,直至使用调整后的参数对特征向量进行卷积处理的结果满足收敛条件。
一种可行方式中,针对业务对象的位置信息和/或置信度信息,收敛条件可以根据预设的标准位置和/或预设的标准置信度进行设定,如,将特征向量卷积结果中业务对象的位置信息指示的位置与该预设的标准位置之间的距离是否满足一定阈值作为业务对象的位置信息的收敛条件;将特征向量卷积结果中业务对象的置信度信息指示的置信度与该预设的标准置信度之间的差别是否满足一定阈值作为业务对象的置信度信息的收敛条件等。
其中,优选地,预设的标准位置可以是对待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置;预设的标准置信度可以是对待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。依据待训练的业务对象样本图像中的业务对象的位置和/或置信度设定标准位置和/或标准置信度,因样本图像为待训练样本且数据量庞大,因而设定的标准位置和标准置信度也更为客观和精确。
在具体进行特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件的判断时,一种可行的方式包括:
获取特征向量卷积结果中对应的业务对象的位置信息;使用第一损失函数,计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离;根据第一距离判断对应的业务对象的位置信息是否满足收敛条件;
和/或,
获取特征向量卷积结果中对应的业务对象的置信度信息;使用第二损失函数,计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离;根据第二距离判断对应的业务对象的置信度信息是否满足收敛条件。
在一种可选的实施方式中,第一损失函数可以为计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离的函数;和/或,第二损失函数可以为计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离的函数。采用欧式距离的方式,实现简单且能够有效指示收敛条件是否被满足。但不限于此,其它方式,如马式距离,巴式距离等也同样适用。
优选地,如前所述,预设的标准位置为对待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置;和/或,预设的标准置信度为对待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。
此外,本步骤中,对目标对象的信息的收敛条件以及对目标对象的信息是否满足收敛条件的判断均可由本领域技术人员根据实际情况,参照相关卷积神经网络模型的收敛条件设定,本发明实施例对此不作限制。例如,设置最大迭代次数如10000次,或者损失函数的损失值降到0.5以内
(4)若满足收敛条件,则完成对卷积神经网络模型的训练;若不满足收敛条件,则根据特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息,调整卷积神经网络模型的参数并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至迭代训练后的业务对象的位置信息和/或置信度信息满足收敛条件。
通过对卷积神经网络模型进行上述训练,卷积神经网络模型可以对基于背景区域进行展示的业务对象的展示位置进行特征提取和分类,从而具有确定业务对象在视频图像中的展示位置的功能。其中,当展示位置包括多个时,通过上述业务对象置信度的训练,卷积神经网络模型还可以确定出多个展示位置中的展示效果的优劣顺序,从而确定最优的展示位置。在后续应用中,当需要展示业务对象时,根据视频中的当前图像即可确定出有效的展示位置。
此外,在一种可选方案中,还可以先确定业务对象的类型;再根据业务对象的类型,在确定的背景区域绘制业务对象。例如,当业务对象的类型为文字类型时,可以根据设定的间隔在背景区域绘制业务对象以实现滚动显示所述文字类型的业务对象的效果。
另外,在对卷积神经网络模型进行上述训练之前,还可以预先对业务对象样本图像进行预处理,包括:获取多个业务对象样本图像,其中,每个业务对象样本图像中包含有业务对象的标注信息;根据标注信息确定业务对象的位置,判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值;将小于或等于设定阈值的业务对象对应的业务对象样本图像,确定为待训练的业务对象样本图像。其中,预设位置和设定阈值均可以由本领域技术人员采用任意适当方式进行适当设置,如根据数据统计分析结果或者相关距离计算公式或者人工经验等,本发明实施例对此不作限制。
在一种可行方式中,根据标注信息确定的业务对象的位置可以是业务对象的中心位置。在根据标注信息确定业务对象的位置,判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值时,可以根据标注信息确定业务对象的中心位置;进而判断该中心位置与预设位置的方差是否小于或等于设定阈值。
通过预先对业务对象样本图像进行预处理,可以过滤掉不符合条件的样本图像,以保证训练结果的准确性。
通过上述过程实现了卷积神经网络模型的训练,训练完成的该卷积神经网络模型可以用来确定业务对象在视频图像中的背景区域的展示位置。例如,在视频直播过程中,若主播点击业务对象指示进行业务对象展示时,在卷积神经网络模型获得了直播的视频图像中的背景区域后,可以指示出展示业务对象的最优位置如主播头部以上的背景区域的位置,进而移动终端控制直播应用在该位置展示业务对象;或者,在视频直播过程中,若主播点击业务对象指示进行业务对象展示时,卷积神经网络模型可以直接根据直播的视频图像中的背景区域确定业务对象的展示位置。
在本发明实施例中,可选地,业务对象包括但不限于:包含有语义信息的特效,如使用贴纸形式展示的广告或特效,如广告贴纸(使用贴纸形式展示的广告)或广告特效(使用特效如3D特效形式展示的广告)。但不限于此,其它形式的业务对象也同样适用本发明实施例提供的视频图像中的业务对象处理方案,如APP或其它应用的文字说明或介绍,或者一定形式的与视频观众交互的对象(如电子宠物)等。
其中,对业务对象的绘制可以通过适当的图形图像绘制或渲染等方式实现,包括但不限于:基于OpenGL图形绘制引擎进行绘制等。OpenGL定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口,其与硬件无关,可以方便地进行2D或3D图形图像的绘制。通过OpenGL,不仅可以实现2D效果如2D贴纸的绘制,还可以实现3D特效的绘制及粒子特效的绘制等等。
需要说明的是,随着互联网直播的兴起,越来越多的视频以直播的方式出现。这类视频具有场景简单、实时、因观众主要在手机等移动终端上观看而视频图像尺寸较小等特点。在此情况下,对于某些业务对象的投放如广告投放来说,一方面,由于移动终端的屏幕展示区域有限,如果以传统的固定位置放置广告,则会占用主要的用户体验区域,不仅容易引起用户反感,还可能导致直播的主播者丢失观众;另一方面,对于主播类直播应用,由于直播的即时性,传统的***固定时长的广告会明显打扰用户与主播交流的连贯性,影响用户观看体验;再一方面,由于直播的内容时长本来就较短,也给采用传统方式***固定时长的广告带来了困难。而通过业务对象投放广告,将广告投放与视频直播内容有效融合,方式灵活,效果生动,不仅不影响用户的直播观看体验,且提升了广告的投放效果。对于使用较小的显示屏幕进行业务对象展示,广告投放等场景尤其适用。
通过本实施例的视频图像处理方法,可以有效确定视频图像的背景区域,进而实现业务对象在视频图像中的背景区域的绘制和展示。当业务对象为包含有语义信息的特效如二维贴纸,可以使用该贴纸进行广告投放和展示,吸引观众观看,提升广告投放和展示趣味性,提高广告投放和展示效率。并且,业务对象展示与视频播放有效结合,无须额外的数据传输,节约了网络资源和客户端的***资源,也提高了业务对象的投放和展示效率和效果。
实施例四
参照图4,示出了根据本发明实施例四的一种图像前背景分割网络模型的训练装置的结构框图。
本实施例的图像前背景分割网络模型的训练装置包括:向量获取模块402,用于获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;卷积获取模块404,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;放大模块406,用于对特征向量卷积结果进行放大处理;判断模块408,用于判断放大后的特征向量卷积结果是否满足收敛条件;执行模块410,用于若判断模块408的判断结果为满足收敛条件,则完成对卷积神经网络模型的训练;若判断模块408的判断结果为不满足收敛条件,则根据放大后的特征向量卷积结果调整卷积神经网络模型的参数并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。
可选地,放大模块406用于通过对特征向量卷积结果进行双线性插值,放大特征向量卷积结果。
可选地,放大模块406用于将特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
可选地,判断模块408用于使用设定的损失函数计算放大后的特征微量卷积结果和预定的标准输出特征向量的损失值;根据损失值判断放大后的特征向量卷积结果是否满足收敛条件。
可选地,本实施例的图像前背景分割网络模型的训练装置还包括:预测模块412,用于获取测试样本图像,使用训练后的卷积神经网络模型对测试样本图像进行前背景区域的预测;检验模块414,用于检验预测的前背景区域是否正确;再训练模块416,用于若检验模块414的检验结果为不正确,则对卷积神经网络模型进行再次训练。
可选地,再训练模块416用于若检验模块414的检验结果为不正确,则从测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对卷积神经网络模型进行再次训练,其中,对卷积神经网络模型进行再次训练的预测不正确的样本图像包含有前景信息和背景信息。
可选地,本实施例的图像前背景分割网络模型的训练装置还包括:视频流模块418,用于在向量获取模块402获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入所述卷积神经网络模型。
可选地,视频流模块418,还用于在将包括多帧样本图像的视频流输入卷积神经网络模型之前,确定视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。
可选地,卷积神经网络模型为全卷积神经网络模型。
本实施例的图像前背景分割网络模型的训练装置用于实现前述多个方法实施例中相应的图像前背景分割网络模型的训练方法,并具有相应的方法实施例的有益效果,在此不再赘述。
此外,本实施例的图像前背景分割网络模型的训练装置可以设置于适当的终端设备中,包括但不限于移动终端、PC等。
实施例五
参照图5,示出了根据本发明实施例五的一种图像前背景分割装置的结构框图。
本实施例的图像前背景分割装置包括:第一获取模块502,用于获取待检测的图像,其中,所述图像包括静态图像或视频中的图像;第二获取模块504,用于采用卷积神经网络检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息;其中,所述卷积神经网络采用如实施例四中所述的装置训练而得的卷积神经网络。
可选地,视频中的图像为直播类视频中的图像。
可选地,待检测的图像包括视频流中的多帧图像。
本实施例的图像前背景分割装置用于实现前述多个方法实施例中相应的图像前背景分割方法,并具有相应的方法实施例的有益效果,在此不再赘述。
此外,本实施例的图像前背景分割装置可以设置于适当的终端设备中,包括但不限于移动终端、PC等。
实施例六
参照图6,示出了根据本发明实施例六的一种视频图像处理装置的结构框图。
本实施例的视频图像处理装置包括:检测模块602,用于采用如实施例四所述的装置训练而得的卷积神经网络检测视频图像,或者,采用如实施例五所述的装置检测视频图像,得到前背景检测结果;展示模块604,用于根据前背景检测结果在视频图像上展示业务对象。
可选地,展示模块604,用于根据前背景检测结果确定视频图像中的背景区域;确定待展示的业务对象;在确定的背景区域采用计算机绘图方式绘制待展示的业务对象。
可选地,业务对象为包含有语义信息的特效;视频图像为直播类视频图像。
可选地,直播类视频图像的前景区域为人物所在的区域。
可选地,直播类视频图像的背景区域为除了人物所在的区域之外的至少局部区域。
可选地,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。
本实施例的视频图像处理装置用于实现前述多个方法实施例中相应的视频图像处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。
此外,本实施例的视频图像处理装置可以设置于适当的终端设备中,包括但不限于移动终端、PC等。
实施例七
参照图7,示出了根据本发明实施例七的一种终端设备的结构示意图,本发明具体实施例并不对终端设备的具体实现做限定。
如图7所示,该终端设备可以包括:第一处理器(processor)702、第一通信接口(Communications Interface)704、第一存储器(memory)706、以及第一通信总线708。
其中:
第一处理器702、第一通信接口704、以及第一存储器706通过第一通信总线708完成相互间的通信。
第一通信接口704,用于与其它设备比如其它客户端或服务器等的网元通信。
第一处理器702,用于执行第一程序710,具体可以执行上述图像前背景分割网络模型的训练方法实施例中的相关步骤。
具体地,第一程序710可以包括程序代码,该程序代码包括计算机操作指令。
第一处理器710可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路,或者是图形处理器GPU(Graphics Processing Unit)。终端设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU,或者,一个或多个GPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个GPU。
第一存储器706,用于存放第一程序710。第一存储器706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
第一程序710具体可以用于使得第一处理器702执行以下操作:获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;对所述特征向量进行卷积处理,获取特征向量卷积结果;对特征向量卷积结果进行放大处理;判断放大后的特征向量卷积结果是否满足收敛条件;若满足,则完成对卷积神经网络模型的训练;若不满足,则根据放大后的特征向量卷积结果调整卷积神经网络模型的参数并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。
在一种可选的实施方式中,第一程序710还用于使得第一处理器702在对特征向量卷积结果进行放大处理时:通过对特征向量卷积结果进行双线性插值,放大特征向量卷积结果。
在一种可选的实施方式中,第一程序710还用于使得第一处理器702在对特征向量卷积结果进行放大处理时:将特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
在一种可选的实施方式中,第一程序710还用于使得第一处理器702在判断放大后的特征向量卷积结果是否满足收敛条件时:使用设定的损失函数计算放大后的特征向量卷积结果的损失值;根据所述损失值判断放大后的特征向量卷积结果是否满足收敛条件。
在一种可选的实施方式中,第一程序710还用于使得第一处理器702获取测试样本图像,使用训练后的卷积神经网络模型对测试样本图像进行前背景区域的预测;检验预测的前背景区域是否正确;若不正确,则对卷积神经网络模型进行再次训练。
在一种可选的实施方式中,第一程序710还用于使得第一处理器702在对卷积神经网络模型进行再次训练时:从测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对卷积神经网络模型进行再次训练,其中,对卷积神经网络模型进行再次训练的预测不正确的样本图像包含有前景信息和背景信息。
在一种可选的实施方式中,第一程序710还用于使得第一处理器702在获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入卷积神经网络模型。
在一种可选的实施方式中,第一程序710还用于使得第一处理器702在将包括多帧样本图像的视频流输入卷积神经网络模型之前,确定视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。
在一种可选的实施方式中,所述卷积神经网络模型为全卷积神经网络模型。
第一程序710中各步骤的具体实现可以参见上述图像前背景分割网络模型的训练实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的终端设备,在进行图像前背景分割网络模型的训练时,对待训练的样本图像的特征向量进行卷积处理,在卷积处理后进行放大处理,进而对其进行判断,以根据判断结果确定卷积神经网络模型是否完成训练。通过放大卷积处理后的特征向量,可以更精确地获得训练样本的每一个像素的处理结果,同时,通过对卷积处理后的特征向量的放大处理,卷积神经网络模型可以学习到一个较为准确的放大系数,基于该放大系数和放大后的特征向量,可以减少卷积神经网络模型的参数调整和计算量,降低卷积神经网络模型训练成本,提高训练效率,缩短训练时间。
实施例八
参照图8,示出了根据本发明实施例八的一种终端设备的结构示意图,本发明具体实施例并不对终端设备的具体实现做限定。
如图8所示,该终端设备可以包括:第二处理器(processor)802、第二通信接口(Communications Interface)804、第二存储器(memory)806、以及第二通信总线808。
其中:
第二处理器802、第二通信接口804、以及第二存储器806通过第二通信总线808完成相互间的通信。
第二通信接口804,用于与其它设备比如其它客户端或服务器等的网元通信。
第二处理器802,用于执行第二程序810,具体可以执行上述图像前背景分割网络模型的训练方法实施例中的相关步骤。
具体地,第二程序810可以包括程序代码,该程序代码包括计算机操作指令。
第二处理器810可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路,或者是图形处理器GPU(Graphics Processing Unit)。终端设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU,或者,一个或多个GPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个GPU。
第二存储器806,用于存放第二程序810。第二存储器806可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
第二程序810具体可以用于使得第二处理器802执行以下操作:获取待检测的图像,其中,所述图像包括静态图像或视频中的图像;采用卷积神经网络检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息;其中,所述卷积神经网络采用如实施例一所述的方法训练而得的卷积神经网络。
在一种可选的实施方式中,视频中的图像为直播类视频中的图像。
在一种可选的实施方式中,待检测的图像包括视频流中的多帧图像。
通过本实施例的终端设备,一方面,采用实施例一中训练而得的卷积神经网络模型,该训练过程减少了卷积神经网络模型的参数调整和计算量,降低了卷积神经网络模型训练成本,提高训练效率,缩短训练时间;另一方面,将该训练完成的卷积神经网络模型应用于图像的前背景分割时,也可相应地提高前背景分割的效率。
实施例九
参照图9,示出了根据本发明实施例八的一种终端设备的结构示意图,本发明具体实施例并不对终端设备的具体实现做限定。
如图9所示,该终端设备可以包括:第三处理器(processor)902、第三通信接口(Communications Interface)904、第三存储器(memory)906、以及第三通信总线908。
其中:
第三处理器902、第三通信接口904、以及第三存储器906通过第三通信总线908完成相互间的通信。
第三通信接口904,用于与其它设备比如其它客户端或服务器等的网元通信。
第三处理器902,用于执行第三程序910,具体可以执行上述图像前背景分割网络模型的训练方法实施例中的相关步骤。
具体地,第三程序910可以包括程序代码,该程序代码包括计算机操作指令。
第三处理器910可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路,或者是图形处理器GPU(Graphics Processing Unit)。终端设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU,或者,一个或多个GPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个GPU。
第三存储器906,用于存放第三程序910。第三存储器906可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
第三程序910具体可以用于使得第三处理器902执行以下操作:采用如实施例一所述的方法训练而得的卷积神经网络检测视频图像,或者,采用如实施例二所述的方法检测视频图像,得到前背景检测结果;根据前背景检测结果在视频图像上展示业务对象。
在一种可选的实施方式中,第三程序910还用于使得第三处理器902在根据前背景检测结果在所述视频图像上展示业务对象时:根据前背景检测结果确定视频图像中的背景区域;确定待展示的业务对象;在确定的背景区域采用计算机绘图方式绘制待展示的业务对象。
在一种可选的实施方式中,业务对象为包含有语义信息的特效;视频图像为直播类视频图像。
在一种可选的实施方式中,直播类视频图像的前景区域为人物所在的区域。
在一种可选的实施方式中,直播类视频图像的背景区域为除了人物所在的区域之外的至少局部区域。
在一种可选的实施方式中,业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。
通过本实施例的终端设备,可以有效确定视频图像的背景区域,进而实现业务对象在视频图像中的背景区域的绘制和展示。当业务对象为包含有语义信息的特效如二维贴纸,可以使用该贴纸进行广告投放和展示,吸引观众观看,提升广告投放和展示趣味性,提高广告投放和展示效率。并且,业务对象展示与视频播放有效结合,无须额外的数据传输,节约了网络资源和客户端的***资源,也提高了业务对象的投放和展示效率和效果。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
本发明实施例提供了A1、一种图像前背景分割网络模型的训练方法,包括:
获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;
对所述特征向量进行卷积处理,获取特征向量卷积结果;
对所述特征向量卷积结果进行放大处理;
判断放大后的所述特征向量卷积结果是否满足收敛条件;
若满足,则完成对用于分割图像前背景的卷积神经网络模型的训练;
若不满足,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
A2、根据A1所述的方法,其中,对所述特征向量卷积结果进行放大处理包括:
通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。
A3、根据A1或A2所述的方法,其中,对所述特征向量卷积结果进行放大处理包括:
将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
A4、根据A1-A3任一项所述的方法,其中,判断放大后的所述特征向量卷积结果是否满足收敛条件包括:
使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;
根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。
A5、根据A1-A4任一项所述的方法,其中,所述方法还包括:
获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;
检验预测的前背景区域是否正确;
若不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。
A6、根据A5所述的方法,其中,使用所述测试样本图像对所述卷积神经网络模型进行再次训练,包括:
从所述测试样本图像中获取前背景区域预测不正确的样本图像;
使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。
A7、根据A1-A6任一项所述的方法,其中,获取待训练的样本图像的特征向量之前,还包括:将包括多帧样本图像的视频流输入所述卷积神经网络模型。
A8、根据A7所述的方法,其中,将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,还包括:
确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。
A9、根据A1-A8任一项所述的方法,其中,所述卷积神经网络模型为全卷积神经网络模型。
本发明实施例还提供了B10、一种图像前背景分割方法,包括:
获取待检测的图像,其中,所述图像包括静态图像或视频中的图像;
采用卷积神经网络检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息;
其中,所述卷积神经网络采用如A1-A9任一所述的方法训练而得的卷积神经网络。
B11、根据B10所述的方法,其中,所述视频中的图像为直播类视频中的图像。
B12、根据B10或B11所述的方法,其中,所述待检测的图像包括视频流中的多帧图像。
本发明实施例还提供了C13、一种视频图像处理方法,包括:
采用如A1-A9任一所述的方法训练而得的卷积神经网络检测视频图像,或者,采用如B10-B12任一所述的方法检测视频图像,得到前背景检测结果;
根据所述前背景检测结果在所述视频图像上展示业务对象。
C14、根据C13所述的方法,其中,根据所述前背景检测结果在所述视频图像上展示业务对象,包括:
根据所述前背景检测结果确定所述视频图像中的背景区域;
确定所述待展示的业务对象;
在确定的所述背景区域采用计算机绘图方式绘制所述待展示的业务对象。
C15、根据C 13或C 14所述的方法,其中,所述业务对象为包含有语义信息的特效;所述视频图像为直播类视频图像。
C 16、根据C 15所述的方法,其中,所述直播类视频图像的前景区域为人物所在的区域。
C 17、根据C 15或C 16所述的方法,其中,所述直播类视频图像的背景区域为除了人物所在的区域之外的至少局部区域。
C 18、根据C 13-C 17任一所述的方法,其中,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。
本发明实施例还提供了D19、一种图像前背景分割网络模型的训练装置,包括:
向量获取模块,用于获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;
卷积获取模块,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;
放大模块,用于对所述特征向量卷积结果进行放大处理;
判断模块,用于判断放大后的所述特征向量卷积结果是否满足收敛条件;
执行模块,用于若所述判断模块的判断结果为满足收敛条件,则完成对用于分割图像前背景的卷积神经网络模型的训练;若所述判断模块的判断结果为不满足收敛条件,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
D20、根据D19所述的装置,其中,所述放大模块,用于通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。
D21、根据D19或D20所述的装置,其中,所述放大模块,用于将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
D22、根据D19-D21任一项所述的装置,其中,所述判断模块,用于使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。
D23、根据D19-D22任一项所述的装置,其中,所述装置还包括:
预测模块,用于获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;
检验模块,用于检验预测的前背景区域是否正确;
再训练模块,用于若所述检验模块的检验结果为不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。
D24、根据D23所述的装置,其中,所述再训练模块,用于若所述检验模块的检验结果为不正确,则从所述测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。
D25、根据D19-D24任一项所述的装置,其中,所述装置还包括:
视频流模块,用于在所述向量获取模块获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入所述卷积神经网络模型。
D26、根据D25所述的装置,其中,所述视频流模块,还用于在将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。
D27、根据D19-D26任一项所述的装置,其中,所述卷积神经网络模型为全卷积神经网络模型。
本发明实施例还提供了E28、一种图像前背景分割装置,包括:
第一获取模块,用于获取待检测的图像,其中,所述图像包括静态图像或视频中的图像;
第二获取模块,用于采用卷积神经网络检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息;
其中,所述卷积神经网络采用如D19-D27任一所述的装置训练而得的卷积神经网络。
E29、根据E28所述的装置,其中,所述视频中的图像为直播类视频中的图像。
E30、根据E28或E29所述的装置,其中,所述待检测的图像包括视频流中的多帧图像。
本发明实施例还提供了F31、一种视频图像处理装置,包括:
检测模块,用于采用如D19-D27任一所述的装置训练而得的卷积神经网络检测视频图像,或者,采用如E28-E30任一所述的装置检测视频图像,得到前背景检测结果;
展示模块,用于根据所述前背景检测结果在所述视频图像上展示业务对象。
F32、根据F31所述的装置,其中,所述展示模块,用于根据所述前背景检测结果确定所述视频图像中的背景区域;确定所述待展示的业务对象;在确定的所述背景区域采用计算机绘图方式绘制所述待展示的业务对象。
F33、根据F31或32所述的装置,其中,所述业务对象为包含有语义信息的特效;所述视频图像为直播类视频图像。
F34、根据F33所述的装置,其中,所述直播类视频图像的前景区域为人物所在的区域。
F35、根据F33或F34所述的装置,其中,所述直播类视频图像的背景区域为除了人物所在的区域之外的至少局部区域。
F36、根据F31-F35任一所述的装置,其中,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。
本发明实施例还提供了G37、一种终端设备,包括:第一处理器、第一存储器、第一通信接口和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信接口通过所述第一通信总线完成相互间的通信;
所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如A1-A9任一项所述的图像前背景分割网络模型的训练方法对应的操作。
本发明实施例还提供了H38、一种终端设备,包括:第二处理器、第二存储器、第二通信接口和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信接口通过所述第二通信总线完成相互间的通信;
所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如B10-B12任一项所述的图像前背景分割方法对应的操作。
本发明实施例还提供了I39、一种终端设备,包括:第三处理器、第三存储器、第三通信接口和第三通信总线,所述第三处理器、所述第三存储器和所述第三通信接口通过所述第三通信总线完成相互间的通信;
所述第三存储器用于存放至少一可执行指令,所述可执行指令使所述第三处理器执行如C13-C18任一项所述的视频图像处理方法对应的操作。

Claims (10)

1.一种图像前背景分割网络模型的训练方法,包括:
获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;
对所述特征向量进行卷积处理,获取特征向量卷积结果;
对所述特征向量卷积结果进行放大处理;
判断放大后的所述特征向量卷积结果是否满足收敛条件;
若满足,则完成对用于分割图像前背景的卷积神经网络模型的训练;
若不满足,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
2.根据权利要求1所述的方法,其中,对所述特征向量卷积结果进行放大处理包括:
通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。
3.一种图像前背景分割方法,包括:
获取待检测的图像,其中,所述图像包括静态图像或视频中的图像;
采用卷积神经网络检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息;
其中,所述卷积神经网络采用如权利要求1-2任一所述的方法训练而得的卷积神经网络。
4.一种视频图像处理方法,包括:
采用如权利要求1-2任一所述的方法训练而得的卷积神经网络检测视频图像,或者,采用如权利要求3所述的方法检测视频图像,得到前背景检测结果;
根据所述前背景检测结果在所述视频图像上展示业务对象。
5.一种图像前背景分割网络模型的训练装置,包括:
向量获取模块,用于获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;
卷积获取模块,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;
放大模块,用于对所述特征向量卷积结果进行放大处理;
判断模块,用于判断放大后的所述特征向量卷积结果是否满足收敛条件;
执行模块,用于若所述判断模块的判断结果为满足收敛条件,则完成对用于分割图像前背景的卷积神经网络模型的训练;若所述判断模块的判断结果为不满足收敛条件,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
6.一种图像前背景分割装置,包括:
第一获取模块,用于获取待检测的图像,其中,所述图像包括静态图像或视频中的图像;
第二获取模块,用于采用卷积神经网络检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息;
其中,所述卷积神经网络采用如权利要求5所述的装置训练而得的卷积神经网络。
7.一种视频图像处理装置,包括:
检测模块,用于采用如权利要求5所述的装置训练而得的卷积神经网络检测视频图像,或者,采用如权利要求6所述的装置检测视频图像,得到前背景检测结果;
展示模块,用于根据所述前背景检测结果在所述视频图像上展示业务对象。
8.一种终端设备,包括:第一处理器、第一存储器、第一通信接口和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信接口通过所述第一通信总线完成相互间的通信;
所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如权利要求1-2任一项所述的图像前背景分割网络模型的训练方法对应的操作。
9.一种终端设备,包括:第二处理器、第二存储器、第二通信接口和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信接口通过所述第二通信总线完成相互间的通信;
所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如权利要求3所述的图像前背景分割方法对应的操作。
10.一种终端设备,包括:第三处理器、第三存储器、第三通信接口和第三通信总线,所述第三处理器、所述第三存储器和所述第三通信接口通过所述第三通信总线完成相互间的通信;
所述第三存储器用于存放至少一可执行指令,所述可执行指令使所述第三处理器执行如权利要求4所述的视频图像处理方法对应的操作。
CN201610694814.9A 2016-08-19 2016-08-19 图像前背景分割及网络模型训练、图像处理方法和装置 Active CN107341805B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610694814.9A CN107341805B (zh) 2016-08-19 2016-08-19 图像前背景分割及网络模型训练、图像处理方法和装置
PCT/CN2017/098216 WO2018033156A1 (zh) 2016-08-19 2017-08-21 视频图像的处理方法、装置和电子设备
US15/845,802 US10580179B2 (en) 2016-08-19 2017-12-18 Method and apparatus for processing video image and electronic device
US16/709,551 US10776970B2 (en) 2016-08-19 2019-12-10 Method and apparatus for processing video image and computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610694814.9A CN107341805B (zh) 2016-08-19 2016-08-19 图像前背景分割及网络模型训练、图像处理方法和装置

Publications (2)

Publication Number Publication Date
CN107341805A true CN107341805A (zh) 2017-11-10
CN107341805B CN107341805B (zh) 2018-11-23

Family

ID=60223001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610694814.9A Active CN107341805B (zh) 2016-08-19 2016-08-19 图像前背景分割及网络模型训练、图像处理方法和装置

Country Status (1)

Country Link
CN (1) CN107341805B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886131A (zh) * 2017-11-24 2018-04-06 佛山科学技术学院 一种基于卷积神经网络检测电路板元器件极性方法和装置
CN108154518A (zh) * 2017-12-11 2018-06-12 广州华多网络科技有限公司 一种图像处理的方法、装置、存储介质及电子设备
CN108229344A (zh) * 2017-12-19 2018-06-29 深圳市商汤科技有限公司 图像处理方法和装置、电子设备、计算机程序和存储介质
CN108447064A (zh) * 2018-02-28 2018-08-24 苏宁易购集团股份有限公司 一种图片处理方法及装置
CN108764370A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN108921161A (zh) * 2018-06-08 2018-11-30 Oppo广东移动通信有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
CN108985221A (zh) * 2018-07-12 2018-12-11 广州视源电子科技股份有限公司 视频片段检测方法、装置、设备和存储介质
CN109141393A (zh) * 2018-07-02 2019-01-04 北京百度网讯科技有限公司 重定位方法、设备及存储介质
CN109146076A (zh) * 2018-08-13 2019-01-04 东软集团股份有限公司 模型生成方法及装置、数据处理方法及装置
CN109285178A (zh) * 2018-10-25 2019-01-29 北京达佳互联信息技术有限公司 图像分割方法、装置及存储介质
CN109299687A (zh) * 2018-09-18 2019-02-01 成都网阔信息技术股份有限公司 一种基于cnn的模糊异常视频识别方法
CN109325533A (zh) * 2018-09-18 2019-02-12 成都网阔信息技术股份有限公司 一种人工智能框架进行cnn迭代训练方法
CN109410169A (zh) * 2018-09-11 2019-03-01 广东智媒云图科技股份有限公司 一种图像背景干扰度的识别方法及装置
CN109640068A (zh) * 2018-10-31 2019-04-16 百度在线网络技术(北京)有限公司 视频帧的信息预测方法、装置、设备以及存储介质
CN109816035A (zh) * 2019-01-31 2019-05-28 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109960742A (zh) * 2019-02-18 2019-07-02 苏州科达科技股份有限公司 局部信息的搜索方法及装置
CN110009556A (zh) * 2018-01-05 2019-07-12 广东欧珀移动通信有限公司 图像背景虚化方法、装置、存储介质及电子设备
CN110263604A (zh) * 2018-05-14 2019-09-20 桂林远望智能通信科技有限公司 一种基于像素级别分离行人图片背景的方法及装置
CN110288607A (zh) * 2019-07-02 2019-09-27 数坤(北京)网络科技有限公司 分割网络的优化方法、***和计算机可读存储介质
CN110331551A (zh) * 2019-05-24 2019-10-15 珠海格力电器股份有限公司 洗衣机的洗涤控制方法、装置、计算机设备和存储介质
CN110648311A (zh) * 2019-09-03 2020-01-03 南开大学 一种基于多任务学习的痤疮图像病灶分割与计数网络模型
CN110675421A (zh) * 2019-08-30 2020-01-10 电子科技大学 基于少量标注框的深度图像协同分割方法
CN110909506A (zh) * 2018-09-10 2020-03-24 北京京东金融科技控股有限公司 平面设计物料生成的方法和装置
CN111260548A (zh) * 2018-11-30 2020-06-09 浙江宇视科技有限公司 基于深度学习的贴图方法及装置
CN111549486A (zh) * 2019-01-24 2020-08-18 珠海格力电器股份有限公司 一种洗涤剂用量确定方法、装置、存储介质及洗衣机
CN111626313A (zh) * 2019-02-28 2020-09-04 银河水滴科技(北京)有限公司 一种特征提取模型训练方法、图像处理方法及装置
CN111695381A (zh) * 2019-03-13 2020-09-22 杭州海康威视数字技术股份有限公司 一种文本特征提取方法、装置、电子设备及可读存储介质
CN112307908A (zh) * 2020-10-15 2021-02-02 武汉科技大学城市学院 一种视频语义提取方法及装置
CN112613891A (zh) * 2020-12-24 2021-04-06 支付宝(杭州)信息技术有限公司 一种店铺注册信息验证方法、装置及设备
CN112663277A (zh) * 2020-12-12 2021-04-16 上海电机学院 一种基于图像识别的洗衣***及控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927534A (zh) * 2014-04-26 2014-07-16 无锡信捷电气股份有限公司 一种基于卷积神经网络的喷码字符在线视觉检测方法
US20150213302A1 (en) * 2014-01-30 2015-07-30 Case Western Reserve University Automatic Detection Of Mitosis Using Handcrafted And Convolutional Neural Network Features

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213302A1 (en) * 2014-01-30 2015-07-30 Case Western Reserve University Automatic Detection Of Mitosis Using Handcrafted And Convolutional Neural Network Features
CN103927534A (zh) * 2014-04-26 2014-07-16 无锡信捷电气股份有限公司 一种基于卷积神经网络的喷码字符在线视觉检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JONATHAN LONG等: "Fully convolutional networks for semantic segmentation", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
郑云飞等: "深度卷积神经网络在图像分割中的应用", 《军事通信技术》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886131A (zh) * 2017-11-24 2018-04-06 佛山科学技术学院 一种基于卷积神经网络检测电路板元器件极性方法和装置
CN108154518A (zh) * 2017-12-11 2018-06-12 广州华多网络科技有限公司 一种图像处理的方法、装置、存储介质及电子设备
CN108154518B (zh) * 2017-12-11 2020-09-08 广州华多网络科技有限公司 一种图像处理的方法、装置、存储介质及电子设备
CN108229344A (zh) * 2017-12-19 2018-06-29 深圳市商汤科技有限公司 图像处理方法和装置、电子设备、计算机程序和存储介质
US11410277B2 (en) 2018-01-05 2022-08-09 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and device for blurring image background, storage medium and electronic apparatus
CN110009556A (zh) * 2018-01-05 2019-07-12 广东欧珀移动通信有限公司 图像背景虚化方法、装置、存储介质及电子设备
CN108447064A (zh) * 2018-02-28 2018-08-24 苏宁易购集团股份有限公司 一种图片处理方法及装置
CN110263604A (zh) * 2018-05-14 2019-09-20 桂林远望智能通信科技有限公司 一种基于像素级别分离行人图片背景的方法及装置
CN108921161B (zh) * 2018-06-08 2021-03-23 Oppo广东移动通信有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
CN108921161A (zh) * 2018-06-08 2018-11-30 Oppo广东移动通信有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
CN108764370A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN108764370B (zh) * 2018-06-08 2021-03-12 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN109141393A (zh) * 2018-07-02 2019-01-04 北京百度网讯科技有限公司 重定位方法、设备及存储介质
CN108985221A (zh) * 2018-07-12 2018-12-11 广州视源电子科技股份有限公司 视频片段检测方法、装置、设备和存储介质
CN109146076A (zh) * 2018-08-13 2019-01-04 东软集团股份有限公司 模型生成方法及装置、数据处理方法及装置
CN110909506A (zh) * 2018-09-10 2020-03-24 北京京东金融科技控股有限公司 平面设计物料生成的方法和装置
CN109410169B (zh) * 2018-09-11 2020-06-05 广东智媒云图科技股份有限公司 一种图像背景干扰度的识别方法及装置
CN109410169A (zh) * 2018-09-11 2019-03-01 广东智媒云图科技股份有限公司 一种图像背景干扰度的识别方法及装置
CN109325533A (zh) * 2018-09-18 2019-02-12 成都网阔信息技术股份有限公司 一种人工智能框架进行cnn迭代训练方法
CN109299687A (zh) * 2018-09-18 2019-02-01 成都网阔信息技术股份有限公司 一种基于cnn的模糊异常视频识别方法
CN109285178A (zh) * 2018-10-25 2019-01-29 北京达佳互联信息技术有限公司 图像分割方法、装置及存储介质
CN109640068A (zh) * 2018-10-31 2019-04-16 百度在线网络技术(北京)有限公司 视频帧的信息预测方法、装置、设备以及存储介质
CN111260548B (zh) * 2018-11-30 2023-07-21 浙江宇视科技有限公司 基于深度学习的贴图方法及装置
CN111260548A (zh) * 2018-11-30 2020-06-09 浙江宇视科技有限公司 基于深度学习的贴图方法及装置
CN111549486A (zh) * 2019-01-24 2020-08-18 珠海格力电器股份有限公司 一种洗涤剂用量确定方法、装置、存储介质及洗衣机
CN111549486B (zh) * 2019-01-24 2021-08-31 珠海格力电器股份有限公司 一种洗涤剂用量确定方法、装置、存储介质及洗衣机
CN109816035B (zh) * 2019-01-31 2022-10-11 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109816035A (zh) * 2019-01-31 2019-05-28 北京字节跳动网络技术有限公司 图像处理方法和装置
CN109960742A (zh) * 2019-02-18 2019-07-02 苏州科达科技股份有限公司 局部信息的搜索方法及装置
CN111626313A (zh) * 2019-02-28 2020-09-04 银河水滴科技(北京)有限公司 一种特征提取模型训练方法、图像处理方法及装置
CN111626313B (zh) * 2019-02-28 2023-06-02 银河水滴科技(北京)有限公司 一种特征提取模型训练方法、图像处理方法及装置
CN111695381A (zh) * 2019-03-13 2020-09-22 杭州海康威视数字技术股份有限公司 一种文本特征提取方法、装置、电子设备及可读存储介质
CN111695381B (zh) * 2019-03-13 2024-02-02 杭州海康威视数字技术股份有限公司 一种文本特征提取方法、装置、电子设备及可读存储介质
CN110331551A (zh) * 2019-05-24 2019-10-15 珠海格力电器股份有限公司 洗衣机的洗涤控制方法、装置、计算机设备和存储介质
CN110288607A (zh) * 2019-07-02 2019-09-27 数坤(北京)网络科技有限公司 分割网络的优化方法、***和计算机可读存储介质
CN110675421B (zh) * 2019-08-30 2022-03-15 电子科技大学 基于少量标注框的深度图像协同分割方法
CN110675421A (zh) * 2019-08-30 2020-01-10 电子科技大学 基于少量标注框的深度图像协同分割方法
CN110648311B (zh) * 2019-09-03 2023-04-18 南开大学 一种基于多任务学习的痤疮图像病灶分割与计数网络模型
CN110648311A (zh) * 2019-09-03 2020-01-03 南开大学 一种基于多任务学习的痤疮图像病灶分割与计数网络模型
CN112307908B (zh) * 2020-10-15 2022-07-26 武汉科技大学城市学院 一种视频语义提取方法及装置
CN112307908A (zh) * 2020-10-15 2021-02-02 武汉科技大学城市学院 一种视频语义提取方法及装置
CN112663277A (zh) * 2020-12-12 2021-04-16 上海电机学院 一种基于图像识别的洗衣***及控制方法
CN112613891A (zh) * 2020-12-24 2021-04-06 支付宝(杭州)信息技术有限公司 一种店铺注册信息验证方法、装置及设备
CN112613891B (zh) * 2020-12-24 2023-10-03 支付宝(杭州)信息技术有限公司 一种店铺注册信息验证方法、装置及设备

Also Published As

Publication number Publication date
CN107341805B (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN107341805A (zh) 图像前背景分割及网络模型训练、图像处理方法和装置
CN108122234B (zh) 卷积神经网络训练及视频处理方法、装置和电子设备
CN110378222B (zh) 一种输电线路防震锤目标检测与缺陷识别方法及装置
CN108197623A (zh) 用于检测目标的方法和装置
CN108229559B (zh) 服饰检测方法、装置、电子设备、程序和介质
CN104933428B (zh) 一种基于张量描述的人脸识别方法及装置
CN109598249B (zh) 服饰检测方法和装置、电子设备、存储介质
CN107341434A (zh) 视频图像的处理方法、装置和终端设备
CN107347166A (zh) 视频图像的处理方法、装置和终端设备
CN107347125A (zh) 视频图像的处理方法、装置和终端设备
CN108197326A (zh) 一种车辆检索方法及装置、电子设备、存储介质
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN107993250A (zh) 一种快速多目标行人追踪和分析方法及其智能装置
CN108235116A (zh) 特征传播方法和装置、电子设备、程序和介质
CN108491848A (zh) 基于深度信息的图像显著性检测方法和装置
CN107343225A (zh) 在视频图像中展示业务对象的方法、装置和终端设备
CN106326932A (zh) 一种基于神经网络的电力巡线图像自动识别方法、装置
CN106874913A (zh) 一种菜品检测方法
CN110147753A (zh) 一种检测图像中小物体的方法及装置
CN108549901A (zh) 一种基于深度学习的快速迭代目标检测方法
CN110298281A (zh) 视频结构化方法、装置、电子设备及存储介质
CN107948586A (zh) 基于视频拼接的跨区域运动目标检测方法和装置
CN109670517A (zh) 目标检测方法、装置、电子设备和目标检测模型
CN112598003A (zh) 基于数据扩充和全监督预处理的实时语义分割方法
CN106127210A (zh) 一种基于多特征的显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant