CN111598600A - 多媒体资讯推送方法及***、终端设备 - Google Patents

多媒体资讯推送方法及***、终端设备 Download PDF

Info

Publication number
CN111598600A
CN111598600A CN201910132779.5A CN201910132779A CN111598600A CN 111598600 A CN111598600 A CN 111598600A CN 201910132779 A CN201910132779 A CN 201910132779A CN 111598600 A CN111598600 A CN 111598600A
Authority
CN
China
Prior art keywords
attribute
image
face image
multimedia information
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910132779.5A
Other languages
English (en)
Inventor
方三勇
邱翰
王进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rainbow Software Co ltd
ArcSoft Corp Ltd
Original Assignee
Rainbow Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rainbow Software Co ltd filed Critical Rainbow Software Co ltd
Priority to CN201910132779.5A priority Critical patent/CN111598600A/zh
Publication of CN111598600A publication Critical patent/CN111598600A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0252Targeted advertisements based on events or environment, e.g. weather or festivals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Social Psychology (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种多媒体资讯推送方法及***、终端设备。其中,该方法通过获取人脸图像;分析所述人脸图像的属性,输出分析结果;根据所述分析结果将所述人脸图像进行分类,并确定所述目标类别;选择推送与所述目标类别对应的多媒体资讯,能够实现基于对人脸属性的分析,对实际接受对象进行分类,并根据分类结果对不同类型的受众群体进行精准的多媒体资讯推送,进而解决不能根据实际接受对象实时更新并精准推送多媒体资讯的技术问题。

Description

多媒体资讯推送方法及***、终端设备
技术领域
本发明涉及一种信息处理技术,具体而言,涉及一种多媒体资讯推送方法及***、终端设备。
背景技术
电子播放器是商家常用的信息推送工具。例如,装设在电梯、公共交通工具、导购机、跑步机等装置中的电子播放器、公共场所的电子播放器以及平板电脑、台式电脑、手机等电子设备的显示屏。
但是,目前商家推送的信息都是基于大数据或线下调研,通过预先分析目标对象的属性(包括年龄、性别、比例等),然后根据分析结果挑选合适的海报或视频并通过定期更新的方式向特定地区推送信息。
但是这种传统的方式,信息覆盖面窄,受众群体有限,并且在信息投放区域的目标对象出现调整时,商家也不能及时了解到,会导致目标对象与实际的接受对象不一致的情况,不能实现根据电子播放器前的实际接受对象实时更新信息,达不到期望的推送效果。
发明内容
本发明实施例提供了一种多媒体资讯推送方法及***、终端设备,以至少解决不能根据实际接受对象实时更新并精准推送多媒体资讯的技术问题。
根据本发明实施例的一个方面,提供了一种多媒体资讯推送方法,包括:获取人脸图像;分析所述人脸图像的属性,输出分析结果;根据所述分析结果将所述人脸图像进行分类,并确定所述目标类别;选择推送与所述目标类别对应的多媒体资讯。
进一步地,所述多媒体资讯推送方法通过图像捕获装置获取所述人脸图像,其中,所述图像捕获装置为独立的摄像装置或集成在电子设备上的摄像装置。
进一步地,所述获取人脸图像包括:检测当前获取的图像是否包含人脸;对包含人脸的图像标记检测框;对标记检测框的人脸图像进行质量评估;获取质量评估合格的人脸图像。
进一步地,所述人脸图像的属性包括下述至少之一:性别、年龄段、种族、具体年龄、表情。
进一步地,当所述人脸图像的属性包括种族属性时,先分析所述人脸图像的种族属性并将所述人脸图像按照不同种族分为多个种族类别,若所述人脸图像还包括除所述种族属性外的其它属性,则在每个种族类别下分析所述人脸图像的其它属性。
进一步地,当所述人脸图像的属性包括表情属性时,所述表情属性包括对所述多媒体资讯的关注度。
进一步地,采用多任务分类模型分析人脸图像的属性。
进一步地,当所述人脸图像的属性项数为N时,所述多任务分类模型包括N个输入层、M个小组层和N个输出支路,其中每个属性都有对应的输入层、小组层和输出支路,每个输出支路输出一种属性的分析结果,N和M为大于1的整数。
进一步地,当所述人脸图像的属性项数为N时,所述多任务分类模型包括1个输入层、至少1个小组层和N个输出支路,其中所述N个输出支路共用所述1个输入层和所述至少1个小组层,每个输出支路输出一种属性的分析结果,N为大于1的整数。
进一步地,当所述人脸图像的属性项数为N时,多任务分类模型包括1个输入层、至少1个小组层和M个输出支路,其中所述M个输出支路共用所述1个输入层和所述至少1个小组层,M个输出支路中的一个输出支路先输出N种属性中的一种属性(记为A属性)的分析结果,然后其余(M-1)个输出支路的每个输出支路根据A属性下的分类输出其余属性的分析结果,A属性下的分类数目为(M-1),N和M为大于1的整数。
进一步地,所述(M-1)个输出支路的每个输出支路包含(N-1)个输出层。
进一步地,所述分析人脸图像的属性,输出分析结果包括:对人脸图像做特征点定位,获得第一图像;根据标准图像对所述第一图像进行调整,获得第二图像;将所述第二图像输入所述多任务分类模型,分析所述第二图像的属性;输出所述分析结果。
进一步地,所述特征点包括下述至少之一:眼睛、鼻子、嘴巴、眉毛。
进一步地,采用ASM算法对所述人脸图像做特征点定位。
进一步地,所述根据标准图像对第一图像进行调整,获得第二图像包括:将所述第一图像中的特征点与所述标准图像中的特征点进行对齐;获得与所述标准图像相同尺寸的所述第二图像。
进一步地,所述标准图像为一张预先标记特征点的人脸图像,所述第一图像中的特征点数目与所述标准图像中的特征点数目相同。
进一步地,采用仿射变换对所述第一图像进行调整。
进一步地,对所述多任务分类模型进行训练,所述训练包括:获取大量样本图像,并对部分样本图像进行手动标记得到标记结果;将所述样本图像和所述标记结果输入多任务分类模型;分析所述样本图像的属性,获得样本分析结果;将所述样本分析结果与所述标记结果进行比较,确定损失函数;根据所述损失函数对所述多任务分类模型进行更新。
进一步地,将所述样本分析结果与标记结果进行比较,确定损失函数包括:将所述样本分析结果中的多个属性值与所述标记结果中对应的属性值分别进行比较,求出每个属性值的损失函数;再将所述多个属性值的损失函数加权求和,得到所述样本图像整体的损失函数。
进一步地,根据所述损失函数对所述多任务分类模型进行更新包括:根据所述损失函数调整所述多任务分类模型中每层的权重值,直至所述多任务分类模型的输出值与所述标记结果一致或保持最小差距不再变化,则完成更新。
根据本发明实施例的另一方面,还提供了一种多媒体资讯推送***,包括:图像捕获装置,被配置为获取人脸图像;图像分析装置,被配置为分析所述人脸图像的属性,输出分析结果,以及根据所述分析结果将所述人脸图像进行分类,并确定所述目标类别;播放装置,被配置为根据所述目标类别推送对应的多媒体资讯。
进一步地,所述图像捕获装置为独立的摄像装置或与播放装置集成在一个设备中的摄像装置。
进一步地,所述图像分析装置包括多任务分类模型,其中,当所述人脸图像的属性项数为N时,所述多任务分类模型包括N个输入层、M个小组层和N个输出支路,其中每个属性都有对应的输入层、小组层和输出支路,每个输出支路输出一种属性的分析结果;或者,所述多任务分类模型包括1个输入层、至少1个小组层和N个输出支路,其中所述N个输出支路共用所述1个输入层和所述至少1个小组层,每个输出支路输出一种属性的分析结果;或者,所述多任务分类模型包括1个输入层、至少1个小组层和M个输出支路,其中所述M个输出支路共用所述1个输入层和所述至少1个小组层,M个输出支路中的一个输出支路先输出N种属性中的一种属性(记为A属性)的分析结果,然后其余(M-1)个输出支路的每个输出支路根据A属性下的分类输出其余属性的分析结果,A属性下的分类数目为(M-1);N和M为大于1的整数。
根据本发明实施例的另一方面,还提供了一种终端设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项的多媒体信息推送方法。
根据本发明实施例的另一方面,还提供了一种存储介质,包括:存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项的多媒体信息推送方法。
在本发明实施例中,通过获取人脸图像;分析所述人脸图像的属性,输出分析结果;根据所述分析结果将所述人脸图像进行分类,并确定所述目标类别;选择推送与所述目标类别对应的多媒体资讯,能够实现基于对人脸属性的分析,对实际接受对象进行分类,并根据分类结果对不同类型的受众群体进行精准的多媒体资讯推送,进而解决不能根据实际接受对象实时更新并精准推送多媒体资讯的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1根据本发明实施例的一种可选的多媒体资讯推送方法的流程图;
图2是根据本发明实施例的一种可选的获取人脸图像方法的流程图;
图3是根据本发明实施例的一种可选的人脸属性分析方法的流程图;
图4是根据本发明实施例一种可选的多任务分类模型训练方法的流程图;
图5是根据本发明实施例一种可选的多媒体资讯推送***的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例基于对人脸属性的分析,对实际接受对象进行分类,并根据分类结果对不同类型的受众群体进行精准的多媒体资讯推送。对于企业来说,精准的多媒体资讯推送能够极大地提高效率,节省成本和资源;对于用户来说,精准的多媒体资讯推送能够向用户提供合适的资讯,避免用户被垃圾信息干扰,提高用户对资讯的接受度。
本发明实施例可以应用于具有摄像***和视频图像播放设备的场所的多媒体资讯推送,例如电梯、地铁、公交、出租车、超市、商场等,也可以应用于具有摄像***和视频图像播放设备的终端设备中,例如手机、平板电脑、台式电脑、跑步机、导购机等。
本发明实施例可以应用于针对不同类型的受众群体进行商业广告、教育资讯、广播信息、娱乐节目等各种多媒体资讯的推送。
下面说明本发明实施例的一种可选的多媒体资讯推送方法。需要说明的是,附图中的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
参考图1,是根据本发明实施例的一种可选的多媒体资讯推送方法的流程图。如图1所示,该方法包括以下步骤:
S10:获取人脸图像;
S12:分析人脸图像的属性,输出分析结果;
S14:根据分析结果将人脸图像进行分类,并确定目标类别;
S16:选择推送与目标类别对应的多媒体资讯。
在本发明实施例中,通过上述步骤,即通过获取人脸图像;分析人脸图像的属性,输出分析结果;根据分析结果将人脸图像进行分类,并确定目标类别;选择推送与目标类别对应的多媒体资讯,可以实现基于对人脸属性的分析,对实际接受对象进行实时分析,根据实际接受对象实时更新多媒体资讯,从而进行精准的多媒体资讯推送。
下面对上述各步骤进行详细说明。
步骤S10,获取人脸图像;
可选的,在本发明实施例中,可以通过图像捕获装置获取人脸图像,其中,图像捕获装置可以为独立的摄像装置或集成在电子设备上的摄像装置等,例如电梯、地铁、公交、超市、商场等公共场所中的监控探头,或者手机、平板电脑、台式电脑、导购机、跑步机等具有视频图像播放功能的电子设备上自带的摄像头等。
可选的,在本发明实施例中,人脸图像为灰度图像或彩色图像。优选的,当人脸图像为彩色图像时,利用颜色信息能够有效提升识别率,提高人脸属性分析的准确度。例如,当人脸图像为彩色图像时,人脸的肤色可作为分析种族属性的一个参数。
可选的,在本发明实施例中,人脸图像为平面图像,分析人脸图像的表观属性以获得分析结果。例如,实际年龄为40岁的人脸可能表观年龄为20-30岁。同样,性别、种族等也以表观属性作为分析结果。
可选的,在本发明实施例中,可以每隔预定数目帧,通过图像捕获装置获取视频帧图像,以降低视频帧图像的获取频率,优化计算资源。
步骤S12,分析人脸图像的属性,获得分析结果;
可选的,在本发明实施例中,人脸图像的属性包括下述至少之一:性别、年龄段、种族、具体年龄、表情。
可选的,在本发明实施例中,当所述人脸图像的属性包括表情属性时,所述表情属性包括对所述多媒体资讯的关注度。其中,对所述多媒体资讯的关注度可以通过确定人脸的目光朝向、关注时间、人脸倾斜角度等多种方式确定。
由于现有的电子播放器通常不能实时反映目标对象对其所输送的多媒体资讯的关注度,当目标对象不感兴趣时,依然继续推送,一方面会造成资源浪费,降低多媒体资讯的影响力,另一方面会引起目标对象的反感。通过分析实际接受对象对多媒体资讯的关注度,可以确定实际接受对象是否正在接收该多媒体资讯,如果是,则继续推送,如果实际接受对象不再关注该多媒体资讯,则停止或更新推送的多媒体资讯。在进行新一轮推送前,更新多媒体资讯的关注度。此外,通过分析实际接受对象对多媒体资讯的关注度还可以确定实际接受对象的人数,以进一步分析多媒体资讯的受欢迎程度。
可选的,在本发明实施例中,可以利用多任务分类模型分析人脸图像的属性。多任务分类模型可以包括输入层、小组层、输出支路。输入层用于接收人脸图像,小组层用于分析人脸图像的属性,输出支路用于输出分析结果。
当人脸图像的属性项数为N时,多任务分类模型的结构可以为多种形式,例如,第一种结构为:多任务分类模型包括N个输入层、M个小组层和N个输出支路,其中每个属性都有对应的输入层、小组层和输出支路,每个输出支路输出一种属性的分析结果,优选的,在M大于等于N的情况下,可以提高分析的准确率。又例如,第二种结构为:多任务分类模型包括1个输入层、至少1个小组层和N个输出支路,其中N个输出支路共用1个输入层和至少1个小组层,每个输出支路输出一种属性的分析结果。再例如,第三种结构为:多任务分类模型包括1个输入层、至少1个小组层和M个输出支路,其中M个输出支路共用1个输入层和至少1个小组层,M个输出支路中的一个输出支路先输出N种属性中的一种属性(记为A属性)的分析结果,然后其余(M-1)个输出支路的每个输出支路根据A属性下的分类输出其余属性的分析结果,A属性下的分类数目为(M-1);其中,N和M为大于1的整数。在此种结构中,(M-1)个输出支路的结构也存在多种形式,例如,(M-1)个输出支路中的每个输出支路可以包含(N-1)个输出层,每个输出层输出一种属性的分析结果。其中,第三种结构相较于第一种和第二种结构,具有更好的检测率。为简化说明,此处仅列举了三种示例性的结构,本领域技术人员还可以构建其它结构的多任务分类模型,以实现对人脸图像的属性分析,并获得分析结果。
可选的,在本发明实施例中,以多任务分类模型采用第三种结构为例,例如,当所述人脸图像的属性包括种族属性(即A属性)时,先分析所述人脸图像的种族属性并将所述人脸图像按照不同种族分为多个种族类别,若所述人脸图像还包括除所述种族属性外的其它属性,则在每个种族类别下分析所述人脸图像的其它属性。由于不同种族的人,其表观年龄、性别等其它属性与实际对比会存在较大的差异,通过先分析所述人脸图像的种族属性并将所述人脸图像按照不同种族分为多个种族类别,然后在每个种族类别下分析所述人脸图像的其它属性,可以提高分析结果的精度。
可选的,在本发明实施例中,以人脸图像的属性包含性别、种族、年龄段和具体年龄4种属性作为示例描述,对性别、年龄段、种族进行具体划分并设置标签。例如,将种族分为(黄种人,白种人,黑种人),性别分为(男,女),将年龄划分为7个年龄段(婴幼儿0-5岁,儿童6-15岁,青年16-25岁,成人26-35岁,中年36-48岁,中老年49-60岁,老年60+岁),并分别设置标签为种族(0,1,2),性别(0,1),年龄段(0,1,2,3,4,5,6)。对每一张人脸图像的种族、性别、年龄段和具体年龄进行分析,获得分析结果,例如,分析一张人脸图像的属性为黑种人,女性,青年16-25岁,具体年龄为23岁,则分析结果为(2,1,2,23)。
步骤S14,根据分析结果对人脸图像进行分类,并确定目标类别;
可选的,在本发明实施例中,以人脸图像的属性包含性别、种族、年龄段和具体年龄4种属性作为示例,可以根据分析结果中的性别和年龄段标签对人脸图像进行分类;种族、具体年龄可以作为辅助属性,在不同的应用场合,用以提高分类的精度。
可选的,在本发明实施例中,可以将占比最高的类别确定为目标类别。例如,按照性别和年龄段分类,如果人脸图像中占比最高的标签是(1,3),则确定目标类别为(1,3),对应为成人女性。
步骤S16,选择推送与目标类别对应的多媒体资讯;
可选的,在本发明实施例中,可以根据预设的人脸属性对多媒体资讯进行分类,然后选择推送与目标类别对应的多媒体资讯。具体地,每条多媒体资讯可以包含至少一个属性标签,当目标类别与某条多媒体资讯的其中一个属性标签对应时,即可推送该多媒体资讯。例如,如果目标类别为成人女性(1,3),可将与美容护肤相关的多媒体资讯的属性标签设置为(1,3)、(1,4),当标签(1,3)与目标类别匹配时,则可以选择推送与美容护肤的多媒体资讯。
可选的,多媒体资讯包括图片、视频、音频、文本等多种形式。
可选的,在本发明实施例中,可以通过播放装置推送与目标类别对应的多媒体资讯,其中,播放装置可以为独立的或集成在电子设备上的视频和/或音频播放器、显示屏等,例如电梯、地铁、公交、超市、商场等公共场所中,或者手机、平板电脑、台式电脑、导购机、跑步机等设备上自带的的视频和/或音频播放器、显示屏等。
通过上述步骤,可以基于对人脸属性的分析,对实际接受对象进行实时分析,实时更新多媒体资讯,实现精准的多媒体资讯推送。
下面将对上述步骤中的关键步骤S10和S12进行具体分析。
参考图2,是根据本发明实施例的一种可选的获取人脸图像方法的流程图。如图2所示,该方法包括以下步骤:
步骤S20,检测当前获取的图像是否包含人脸,对包含人脸的图像标记检测框;
在本发明实施例中,本步骤的目的是排除没有人脸的图像,通过标记检测框的方式筛选出包含人脸的图像,以减少人脸图像分析和分类的工作量,提高多媒体资讯的推送效率。
步骤S22,对标记检测框的人脸图像进行质量评估;
在本发明实施例中,可以将模糊、大角度、小尺寸、人脸检测框严重偏离、光照不足的人脸图像判定为质量不合格。对评估结果为不合格的人脸返回不合格状态,并停止检测。对评估结果为合格的人脸,则执行下一步骤。
步骤S26,获取质量评估合格的人脸图像;
通过上述步骤,可以对图像捕获装置获取的图像进行初步筛选,排除没有人脸的图像和质量评估不合格的人脸图像,以减少对人脸图像进行分析和分类的工作量,提高多媒体资讯的推送效率。
参考图3,是根据本发明实施例的一种可选的人脸属性分析方法的流程图。如图3所示,该方法包括以下步骤:
步骤S30,对人脸图像做特征点定位,获得第一图像;
可选的,在本发明实施例中,采用ASM算法做特征点定位,特征点包括下述至少之一:眼睛、鼻子、嘴巴、眉毛,将完成特征点定位的图像作为第一图像。
步骤S32,根据标准图像对第一图像进行调整,获得第二图像;
可选的,在本发明实施例中,步骤S32,根据标准图像对第一图像进行调整,获得第二图像包括:将第一图像中的特征点与标准图像中的特征点进行对齐;获得与标准图像相同尺寸的第二图像。其中,标准图像为一张预先标记特征点的人脸图像,用作对齐的标准;第一图像中的特征点数目与标准图像中的特征点数目相同。
可选的,在本发明实施例中,采用仿射变换(Affine Transform)对第一图像进行调整。仿射变换是一种空间直角坐标变换,是一种二维坐标到二维坐标之间的线性变换,能够保持二维图形的“平直性”(即变换后直线仍然为直线,圆弧也仍然为圆弧)和“平行性”(即保持变换前后二维图形的相对位置关系不变)。利用仿射变换对第一图像进行调整,主要是通过移动、缩放、翻转、旋转等一系列变换,将第一图像与标准图像中的特征点进行对齐,并获得与标准图像相同尺寸的第二图像。
步骤S34,将第二图像输入多任务分类模型,分析第二图像的属性;
可选的,在本发明实施例中,多任务分类模型可以为卷积神经网络(Convolutional Neural Networks,CNN)。卷积神经网络主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。卷积神经网络的特征检测层通过训练数据进行学习,可以避免显式的特征抽取。由于同一特征映射面上的神经元权值相同,卷积神经网络可以实现并行学习,其局部权值共享的特殊结构降低了网络的复杂性,布局更接近实际的生物神经网络,在语音识别和图像处理方面具有独特的优越性。此外,多维输入向量的图像可以直接输入卷积神经网络避免了特征提取和分类过程中数据重建的复杂度。
可选的,在本发明实施例中,卷积神经网络各层包括输入层、小组层和输出支路;其中,小组层包括卷积层、激活层;输出支路包括全连接层和输出层。除了输入层和输出层,中间各层输入均为前一层的输出,输出为下一层的输入。当然,本领域技术人员可知,输入层、小组层和输出支路内部的结构可以根据实际需要构建,例如,小组层还可以包含池化层和全连接层,而不限于上述结构。
可选的,在本发明实施例中,以多任务分类模型采用第三种结构,人脸图像的属性包含性别、种族、年龄段和具体年龄4种属性且多任务分类模型为卷积神经网络作为示例描述,卷积神经网络包括一个输入层、至少一个小组层和4个输出支路。其中,4个输出支路中有一个支路为种族分类器,其余3个输出支路分别对应种族属性下的不同分类(例如,黄种人、白种人和黑种人)。第二图像首先经过卷积神经网络的输入层、卷积层、激活层和种族分类器,以确定第二图像的种族属性,在确定种族属性后,再选择其余3个输出支路中对应的输出支路分析性别、年龄段和具体年龄这3个属性。例如,第二图像经过卷积神经网络的输入层、卷积层、激活层和种族分类器,确定第二图像的种族属性为黄种人,则选择与黄种人对应的输出支路进一步分析第二图像的性别、年龄段和具体年龄。
步骤S36,输出分析结果。
可选的,在本发明实施例中,以人脸图像的属性包含性别、种族、年龄段和具体年龄4种属性作为示例描述,对每一张第二图像的性别、年龄段、种族和具体年龄进行分析,获得分析结果,例如,分析一张第二图像的属性为黑种人,女性,青年16-25岁,具体年龄为23岁,则分析结果为(2,1,2,23)。
通过上述步骤,可以获得人脸图像的表观属性,并且可以实现通过一个多任务分类模型分析人脸图像的多个属性。
在本发明实施例中,多媒体资讯推送方法还可以包括预先对多任务分类模型进行训练。参考图4,是根据本发明实施例的一种可选的多任务分类模型训练方法的流程图。如图4所示,该方法包括以下步骤:
步骤S40,获取大量样本图像,并对部分样本图像进行手动标记得到标记结果;
可选的,在本发明实施例中,为了获得较好的多任务分类模型。可以收集大量不同环境下的样本图像,例如,具有不同场景、不同光照、不同分辨率、不同装饰的不同环境,并且样本图像在预设人脸图像的属性应是分布均匀的。例如,预设人脸图像的属性包含两种性别(男,女),7个年龄段(婴幼儿0-5岁,儿童6-15岁,青年16-25岁,成人26-35岁,中年36-48岁,中老年49-60岁,老年60+岁),3个种族(黄种人,白种人,黑种人)时,样本图像应涵盖上述各个属性且分布均匀,并且每个属性的样本数量足够大(例如,大于5000张)。
可选的,在本发明实施例中,可以对样本图像进行平移、旋转、缩放等变换,以扩充样本图像的数量,增强多任务分类模型的鲁棒性。
可选的,在本发明实施例中,为了减小后续步骤的计算量,可以通过眼睛点定位、平移、旋转、缩放等一系列变换,将样本图像统一裁剪成特定大小的图像。
可选的,在本发明实施例中,可以选择大量样本图像中质量较好的部分样本图像进行手动标记,作为多任务分类模型的训练基础,这样可以先训练一个粗糙的多任务分类模型,之后用该模型对其余未标记的样本图像进行标记,由此,可以在逐步增强多任务分类模型鲁棒性的同时减小手动标记的工作量。
步骤S42,将样本图像和标记结果输入多任务分类模型;
可选的,在本发明实施例中,多任务分类模型可以为卷积神经网络(Convolutional Neural Networks,CNN)。卷积神经网络各层包括输入层、小组层和输出支路;其中,小组层包括卷积层、激活层;输出支路包括全连接层和输出层。除了输入层和输出层,中间各层输入均为前一层的输出,输出为下一层的输入。在步骤S42中,将样本图像和标记结果输入卷积神经网络的输入层。
可选的,在本发明实施例中,在多任务分类模型采用前述第三种结构时,即多任务分类模型包括1个输入层、1个小组层和M个输出支路,其中M个输出支路共用输入层和小组层,M个输出支路中的一个输出支路先输出N种属性中的一种属性(记为A属性)的分析结果,然后其余(M-1)个输出支路的每个输出支路根据A属性下的分类输出其余属性的分析结果,A属性下的分类数目为(M-1)。以人脸图像的属性包含性别、种族、年龄段和具体年龄4种属性且多任务分类模型为卷积神经网络作为示例描述,卷积神经网络包括一个输入层、至少一个小组层和4个输出支路,其中小组层包括卷积层和激活层,输出支路包括全连接层和输出层。其中4个输出支路共用一个输入层、至少一个小组层,将种族属性作为A属性,4个输出支路中有一个支路为种族分类器,其余3个输出支路分别对应种族属性下的不同分类(例如,黄种人、白种人和黑种人)。首先输入全肤色(例如,包含黄种人、白种人和黑种人)的样本图像训练种族分类器;然后保持共用层的所有权重和种族分类器中的全连接层的参数不变,输入黄种人的样本图像进行训练黄种人对应的输出支路;之后保持共用层的所有权重、种族分类器中的全连接层参数和黄种人对应的输出支路中的全连接层参数不变,输入白种人的样本图像进行训练白种人对应的输出支路;最后保持共用层的所有权重、种族分类器中的全连接层参数、黄种人对应的输出支路中的全连接层参数和白种人对应的输出支路中的全连接层参数不变,输入黑种人的样本图像进行训练黑种人对应的输出支路。当然,根据上述示例的原理,本领域技术人员可以在不付出创造性劳动的情况下进行合理的变换(包括属性的替换和顺序的调整等),例如将性别属性作为A属性时,输出支路为2个,分别对应性别属性下的不同分类(例如,男,女),然后进行类似的训练,为简化说明,在此不再赘述。
步骤S44,分析样本图像的属性,获得样本分析结果;
可选的,在本发明实施例中,卷积神经网络的卷积层通过设置好的步长、卷积核尺寸、卷积核个数来提取样本图像的数据特征;激活层采用relu对卷积层输出的特征图进行非线性变化;全连接层连接激活层输出的所有特征图,通过权重将特征空间通过线性变换映射到标记空间,全连接后接Relu激活函数;输出层对全连接层输出的特征图进行分类和回归以获得输出值,例如,采用softmax函数作为年龄段、性别和种族的输出层函数,euclidean函数作为年龄值回归的输出层函数。由此,可实现样本图像的属性分析,并通过卷积神经网络的输出值获得样本分析结果。当然,本领域技术人员可知,在其它实施例中,卷积神经网络还可以包括池化层,通过设置好的步长、池化尺寸对前一层输出的特征图进行下采样。
步骤S46,将样本分析结果与标记结果进行比较,确定损失函数(cost function);
可选的,在本发明实施例中,将样本分析结果中的多个属性值与标记结果中对应的属性值分别进行比较,求出每个属性值的损失函数,再将多个属性值的损失函数加权求和,得到样本图像整体的损失函数。传统的神经网络模型一般只有一个属性,损失函数根据单个属性值与标记结果进行比较。本发明实施例中采用的多任务分类模型可以考虑多种属性,使所有属性的整体误差最小。因此,可以支持多种不同属性的组合。例如,年龄、性别、种族的损失函数分别为L_Age、L_Gender、L_Race,当需要输出年龄性别两种属性的时候,多任务分类模型的整体损失函数为L_All=a*L_Age+b*L_Gender;当需要输出年龄、性别、种族三种属性的时候,多任务分类模型的整体损失函数为L_All=a*L_Age+b*L_Gender+c*L_Race。如果加上年龄值属性,则多任务分类模型的整体损失函数为L_All=a*L_Age+b*L_Gender+c*L_Race+d*L_Agevalue。
步骤S48,根据损失函数对多任务分类模型进行更新。
可选的,在本发明实施例中,根据损失函数调整卷积神经网络中每层的权重值,使得卷积神经网络的输出值与标记结果的差距越来越小,直至卷积神经网络的输出值与标记结果一致或保持最小差距不再变化,则完成更新,最终得到所需要的卷积神经网络。
通过上述步骤,可以获得鲁棒性较好的多任务分类模型,并且能够对多种属性进行分析。
根据本发明实施例的另一方面,还提供了一种多媒体资讯推送***。如图5所示,是根据本发明实施例一种可选的多媒体资讯推送***的示意图,包括:图像捕获装置,被配置为获取人脸图像;图像分析装置,被配置为分析所述人脸图像的属性,输出分析结果,以及根据所述分析结果将所述人脸图像进行分类,并确定所述目标类别;播放装置,被配置为根据所述目标类别推送对应的多媒体资讯。
可选的,图像捕获装置为独立的摄像装置或与播放装置集成在一个设备中的摄像装置。
可选的,所述图像分析装置还被配置为:检测当前获取的图像是否包含人脸;对包含人脸的图像标记检测框;对标记检测框的人脸图像进行质量评估;获取质量评估合格的人脸图像。
可选的,所述人脸图像的属性包括下述至少之一:性别、年龄段、种族、具体年龄、表情。
可选的,当所述人脸图像的属性包括种族属性时,先分析所述人脸图像的种族属性并将所述人脸图像按照不同种族分为多个种族类别,若所述人脸图像还包括除所述种族属性外的其它属性,则在每个种族类别下分析所述人脸图像的其它属性。
可选的,当所述人脸图像的属性包括表情属性时,所述表情属性包括对所述多媒体资讯的关注度。
可选的,所述图像分析装置包括多任务分类模型,其中,当所述人脸图像的属性项数为N时,所述多任务分类模型包括N个输入层、M个小组层和N个输出支路,其中每个属性都有对应的输入层、小组层和输出支路,每个输出支路输出一种属性的分析结果,优选的,在M大于等于N的情况下,可以提高分析的准确率;或者,所述多任务分类模型包括1个输入层、至少1个小组层和N个输出支路,其中所述N个输出支路共用所述1个输入层和所述至少1个小组层,每个输出支路输出一种属性的分析结果;或者,所述多任务分类模型包括1个输入层、至少1个小组层和M个输出支路,其中所述M个输出支路共用所述1个输入层和所述至少1个小组层,M个输出支路中的一个输出支路先输出N种属性中的一种属性(记为A属性)的分析结果,然后其余(M-1)个输出支路的每个输出支路根据A属性下的分类输出其余属性的分析结果,A属性下的分类数目为(M-1);N和M为大于1的整数。
可选的,所述(M-1)个输出支路的每个输出支路包含(N-1)个输出层。
可选的,所述图像分析装置还被配置为:对人脸图像做特征点定位,获得第一图像;根据标准图像对所述第一图像进行调整,获得第二图像;将所述第二图像输入所述多任务分类模型,分析所述第二图像的属性;输出所述分析结果。
可选的,所述特征点包括下述至少之一:眼睛、鼻子、嘴巴、眉毛。
可选的,采用ASM算法对所述人脸图像做特征点定位。
可选的,所述图像分析装置还被配置为:将所述第一图像中的特征点与所述标准图像中的特征点进行对齐;获得与所述标准图像相同尺寸的所述第二图像。
可选的,所述标准图像为一张预先标记特征点的人脸图像,所述第一图像中的特征点数目与所述标准图像中的特征点数目相同。
可选的,采用仿射变换对所述第一图像进行调整。
可选的,所述图像分析装置还被配置为对所述多任务分类模型进行训练,所述训练包括:获取大量样本图像,并对部分样本图像进行手动标记得到标记结果;将所述样本图像和所述标记结果输入多任务分类模型;分析所述样本图像的属性,获得样本分析结果;将所述样本分析结果与所述标记结果进行比较,确定损失函数;根据所述损失函数对所述多任务分类模型进行更新。
可选的,将所述样本分析结果与标记结果进行比较,确定损失函数包括:将所述样本分析结果中的多个属性值与所述标记结果中对应的属性值分别进行比较,求出每个属性值的损失函数;再将所述多个属性值的损失函数加权求和,得到所述样本图像整体的损失函数。
可选的,根据所述损失函数对所述多任务分类模型进行更新包括:根据所述损失函数调整所述多任务分类模型中每层的权重值,直至所述多任务分类模型的输出值与所述标记结果一致或保持最小差距不再变化,则完成更新。
根据本发明实施例的另一方面,还提供了一种终端设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取人脸图像;分析所述人脸图像的属性,输出分析结果;根据所述分析结果将所述人脸图像进行分类,并确定所述目标类别;选择推送与所述目标类别对应的多媒体资讯。
可选的,通过图像捕获装置获取所述人脸图像,其中,所述图像捕获装置为独立的摄像装置或集成在电子设备上的摄像装置。
可选的,上述处理器执行程序时,还可以实现以下步骤:检测当前获取的图像是否包含人脸;对包含人脸的图像标记检测框;对标记检测框的人脸图像进行质量评估;获取质量评估合格的人脸图像。
可选的,所述人脸图像的属性包括下述至少之一:性别、年龄段、种族、具体年龄、表情。
可选的,当所述人脸图像的属性包括种族属性时,先分析所述人脸图像的种族属性并将所述人脸图像按照不同种族分为多个种族类别,若所述人脸图像还包括除所述种族属性外的其它属性,则在每个种族类别下分析所述人脸图像的其它属性。
可选的,当所述人脸图像的属性包括表情属性时,所述表情属性包括对所述多媒体资讯的关注度。
可选的,采用多任务分类模型分析人脸图像的属性。
可选的,当所述人脸图像的属性项数为N时,所述多任务分类模型包括N个输入层、M个小组层和N个输出支路,其中每个属性都有对应的输入层、小组层和输出支路,每个输出支路输出一种属性的分析结果,N和M为大于1的整数。
可选的,当所述人脸图像的属性项数为N时,所述多任务分类模型包括1个输入层、至少1个小组层和N个输出支路,其中所述N个输出支路共用所述1个输入层和所述至少1个小组层,每个输出支路输出一种属性的分析结果,N为大于1的整数。
可选的,当所述人脸图像的属性项数为N时,多任务分类模型包括1个输入层、至少1个小组层和M个输出支路,其中所述M个输出支路共用所述1个输入层和所述至少1个小组层,M个输出支路中的一个输出支路先输出N种属性中的一种属性(记为A属性)的分析结果,然后其余(M-1)个输出支路的每个输出支路根据A属性下的分类输出其余属性的分析结果,A属性下的分类数目为(M-1),N和M为大于1的整数。
可选的,所述(M-1)个输出支路的每个输出支路包含(N-1)个输出层。
可选的,所述分析人脸图像的属性,输出分析结果包括:对人脸图像做特征点定位,获得第一图像;根据标准图像对所述第一图像进行调整,获得第二图像;将所述第二图像输入所述多任务分类模型,分析所述第二图像的属性;输出所述分析结果。
可选的,所述特征点包括下述至少之一:眼睛、鼻子、嘴巴、眉毛。
可选的,采用ASM算法对所述人脸图像做特征点定位。
可选的,上述处理器执行程序时,还可以实现以下步骤:将所述第一图像中的特征点与所述标准图像中的特征点进行对齐;获得与所述标准图像相同尺寸的所述第二图像。
可选的,所述标准图像为一张预先标记特征点的人脸图像,所述第一图像中的特征点数目与所述标准图像中的特征点数目相同。
可选的,采用仿射变换对所述第一图像进行调整。
可选的,上述处理器执行程序时,还可以对所述多任务分类模型进行训练,所述训练包括:获取大量样本图像,并对部分样本图像进行手动标记得到标记结果;将所述样本图像和所述标记结果输入多任务分类模型;分析所述样本图像的属性,获得样本分析结果;将所述样本分析结果与所述标记结果进行比较,确定损失函数;根据所述损失函数对所述多任务分类模型进行更新。
可选的,将所述样本分析结果与标记结果进行比较,确定损失函数包括:将所述样本分析结果中的多个属性值与所述标记结果中对应的属性值分别进行比较,求出每个属性值的损失函数;再将所述多个属性值的损失函数加权求和,得到所述样本图像整体的损失函数。
可选的,根据所述损失函数对所述多任务分类模型进行更新包括:根据所述损失函数调整所述多任务分类模型中每层的权重值,直至所述多任务分类模型的输出值与所述标记结果一致或保持最小差距不再变化,则完成更新。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的多媒体信息推送方法。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取人脸图像;分析所述人脸图像的属性,输出分析结果;根据所述分析结果将所述人脸图像进行分类,并确定所述目标类别;选择推送与所述目标类别对应的多媒体资讯。
本领域技术人员可知,在不付出创造性劳动的情况下,上述对人脸图像的属性分析方法还可以用于对人体图像的属性分析,例如衣着、服饰、发型、身材等。多任务分类模型也可以采用除卷积神经网络以外的技术实现。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (25)

1.一种多媒体资讯推送方法,其特征在于,包括:
获取人脸图像;
分析所述人脸图像的属性,输出分析结果;
根据所述分析结果将所述人脸图像进行分类,并确定所述目标类别;
选择推送与所述目标类别对应的多媒体资讯。
2.根据权利要求1所述的多媒体资讯推送方法,其特征在于,通过图像捕获装置获取所述人脸图像,其中,所述图像捕获装置为独立的摄像装置或集成在电子设备上的摄像装置。
3.根据权利要求1所述的多媒体资讯推送方法,其特征在于,所述获取人脸图像包括:
检测当前获取的图像是否包含人脸;
对包含人脸的图像标记检测框;
对标记检测框的人脸图像进行质量评估;
获取质量评估合格的人脸图像。
4.根据权利要求1所述的多媒体资讯推送方法,其特征在于,所述人脸图像的属性包括下述至少之一:性别、年龄段、种族、具体年龄、表情。
5.根据权利要求4所述的多媒体资讯推送方法,其特征在于,当所述人脸图像的属性包括种族属性时,先分析所述人脸图像的种族属性并将所述人脸图像按照不同种族分为多个种族类别,若所述人脸图像还包括除所述种族属性外的其它属性,则在每个种族类别下分析所述人脸图像的其它属性。
6.根据权利要求4所述的多媒体资讯推送方法,其特征在于,当所述人脸图像的属性包括表情属性时,所述表情属性包括对所述多媒体资讯的关注度。
7.根据权利要求1所述的多媒体资讯推送方法,其特征在于,采用多任务分类模型分析人脸图像的属性。
8.根据权利要求7所述的多媒体资讯推送方法,其特征在于,当所述人脸图像的属性项数为N时,所述多任务分类模型包括N个输入层、M个小组层和N个输出支路,其中每个属性都有对应的输入层、小组层和输出支路,每个输出支路输出一种属性的分析结果,N和M为大于1的整数。
9.根据权利要求7所述的多媒体资讯推送方法,其特征在于,当所述人脸图像的属性项数为N时,所述多任务分类模型包括1个输入层、至少1个小组层和N个输出支路,其中所述N个输出支路共用所述1个输入层和所述至少1个小组层,每个输出支路输出一种属性的分析结果,N为大于1的整数。
10.根据权利要求7所述的多媒体资讯推送方法,其特征在于,当所述人脸图像的属性项数为N时,所述多任务分类模型包括1个输入层、至少1个小组层和M个输出支路,其中所述M个输出支路共用所述1个输入层和所述至少1个小组层,M个输出支路中的一个输出支路先输出N种属性中的一种属性(记为A属性)的分析结果,然后其余(M-1)个输出支路的每个输出支路根据A属性下的分类输出其余属性的分析结果,A属性下的分类数目为(M-1),N和M为大于1的整数。
11.根据权利要求10所述的多媒体资讯推送方法,其特征在于,所述(M-1)个输出支路的每个输出支路包含(N-1)个输出层,每个输出层输出一种属性的分析结果。
12.根据权利要求1所述的多媒体资讯推送方法,其特征在于,分析所述人脸图像的属性,输出分析结果包括:
对人脸图像做特征点定位,获得第一图像;
根据标准图像对所述第一图像进行调整,获得第二图像;
将所述第二图像输入所述多任务分类模型,分析所述第二图像的属性;
输出所述分析结果。
13.根据权利要求12所述的多媒体资讯推送方法,其特征在于,所述特征点包括下述至少之一:眼睛、鼻子、嘴巴、眉毛。
14.根据权利要求12所述的多媒体资讯推送方法,其特征在于,采用ASM算法对所述人脸图像做特征点定位。
15.根据权利要求12所述的多媒体资讯推送方法,其特征在于,根据标准图像对所述第一图像进行调整,获得第二图像包括:
将所述第一图像中的特征点与所述标准图像中的特征点进行对齐;
获得与所述标准图像相同尺寸的所述第二图像。
16.根据权利要求12所述的多媒体资讯推送方法,其特征在于,所述标准图像为一张预先标记特征点的人脸图像,所述第一图像中的特征点数目与所述标准图像中的特征点数目相同。
17.根据权利要求12所述的多媒体资讯推送方法,其特征在于,采用仿射变换对所述第一图像进行调整。
18.根据权利要求7所述的多媒体资讯推送方法,其特征在于,还包括对所述多任务分类模型进行训练,所述训练包括:
获取大量样本图像,并对部分样本图像进行手动标记得到标记结果;
将所述样本图像和所述标记结果输入多任务分类模型;
分析所述样本图像的属性,获得样本分析结果;
将所述样本分析结果与所述标记结果进行比较,确定损失函数;
根据所述损失函数对所述多任务分类模型进行更新。
19.根据权利要求18所述的多媒体资讯推送方法,其特征在于,将所述样本分析结果与标记结果进行比较,确定损失函数包括:
将所述样本分析结果中的多个属性值与所述标记结果中对应的属性值分别进行比较,求出每个属性值的损失函数;
再将所述多个属性值的损失函数加权求和,得到所述样本图像整体的损失函数。
20.根据权利要求18所述的多媒体资讯推送方法,其特征在于,根据所述损失函数对所述多任务分类模型进行更新包括:
根据所述损失函数调整所述多任务分类模型中每层的权重值,直至所述多任务分类模型的输出值与所述标记结果一致或保持最小差距不再变化,则完成更新。
21.一种多媒体资讯推送***,其特征在于,包括:
图像捕获装置,被配置为获取人脸图像;
图像分析装置,被配置为分析所述人脸图像的属性,输出分析结果,以及根据所述分析结果将所述人脸图像进行分类,并确定所述目标类别;
播放装置,被配置为根据所述目标类别推送对应的多媒体资讯。
22.根据权利要求21所述的多媒体资讯推送***,其特征在于,所述图像捕获装置为独立的摄像装置或与播放装置集成在一个设备中的摄像装置。
23.根据权利要求21所述的多媒体资讯推送***,其特征在于,所述图像分析装置包括多任务分类模型,其中,当所述人脸图像的属性项数为N时,
所述多任务分类模型包括N个输入层、M个小组层和N个输出支路,其中每个属性都有对应的输入层、小组层和输出支路,每个输出支路输出一种属性的分析结果;
或者,
所述多任务分类模型包括1个输入层、至少1个小组层和N个输出支路,其中所述N个输出支路共用所述1个输入层和所述至少1个小组层,每个输出支路输出一种属性的分析结果;或者,
所述多任务分类模型包括1个输入层、至少1个小组层和M个输出支路,其中所述M个输出支路共用所述1个输入层和所述至少1个小组层,M个输出支路中的一个输出支路先输出N种属性中的一种属性(记为A属性)的分析结果,然后其余(M-1)个输出支路的每个输出支路根据A属性下的分类输出其余属性的分析结果,A属性下的分类数目为(M-1);N和M为大于1的整数。
24.一种终端设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至20中任意一项所述的多媒体信息推送方法。
25.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至20中任意一项所述的多媒体信息推送方法。
CN201910132779.5A 2019-02-21 2019-02-21 多媒体资讯推送方法及***、终端设备 Pending CN111598600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910132779.5A CN111598600A (zh) 2019-02-21 2019-02-21 多媒体资讯推送方法及***、终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910132779.5A CN111598600A (zh) 2019-02-21 2019-02-21 多媒体资讯推送方法及***、终端设备

Publications (1)

Publication Number Publication Date
CN111598600A true CN111598600A (zh) 2020-08-28

Family

ID=72192008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910132779.5A Pending CN111598600A (zh) 2019-02-21 2019-02-21 多媒体资讯推送方法及***、终端设备

Country Status (1)

Country Link
CN (1) CN111598600A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131411A (zh) * 2020-09-21 2020-12-25 腾讯科技(深圳)有限公司 一种多媒体资源推荐方法、装置、电子设备及存储介质
CN112184314A (zh) * 2020-09-29 2021-01-05 福州东方智慧网络科技有限公司 一种基于设备端视觉互动的推广方法
CN114866693A (zh) * 2022-04-15 2022-08-05 苏州清睿智能科技股份有限公司 一种基于智能终端的信息交互方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129644A (zh) * 2011-03-08 2011-07-20 北京理工大学 一种具有受众特性感知与统计功能的智能广告***
US9317785B1 (en) * 2014-04-21 2016-04-19 Video Mining Corporation Method and system for determining ethnicity category of facial images based on multi-level primary and auxiliary classifiers
CN106529402A (zh) * 2016-09-27 2017-03-22 中国科学院自动化研究所 基于多任务学习的卷积神经网络的人脸属性分析方法
CN107742107A (zh) * 2017-10-20 2018-02-27 北京达佳互联信息技术有限公司 人脸图像分类方法、装置及服务器
CN107798560A (zh) * 2017-10-23 2018-03-13 武汉科技大学 一种零售商店个性广告智能推送方法及***
CN109359499A (zh) * 2017-07-26 2019-02-19 虹软科技股份有限公司 一种用于脸部分类的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129644A (zh) * 2011-03-08 2011-07-20 北京理工大学 一种具有受众特性感知与统计功能的智能广告***
US9317785B1 (en) * 2014-04-21 2016-04-19 Video Mining Corporation Method and system for determining ethnicity category of facial images based on multi-level primary and auxiliary classifiers
CN106529402A (zh) * 2016-09-27 2017-03-22 中国科学院自动化研究所 基于多任务学习的卷积神经网络的人脸属性分析方法
CN109359499A (zh) * 2017-07-26 2019-02-19 虹软科技股份有限公司 一种用于脸部分类的方法和装置
CN107742107A (zh) * 2017-10-20 2018-02-27 北京达佳互联信息技术有限公司 人脸图像分类方法、装置及服务器
CN107798560A (zh) * 2017-10-23 2018-03-13 武汉科技大学 一种零售商店个性广告智能推送方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131411A (zh) * 2020-09-21 2020-12-25 腾讯科技(深圳)有限公司 一种多媒体资源推荐方法、装置、电子设备及存储介质
CN112184314A (zh) * 2020-09-29 2021-01-05 福州东方智慧网络科技有限公司 一种基于设备端视觉互动的推广方法
CN114866693A (zh) * 2022-04-15 2022-08-05 苏州清睿智能科技股份有限公司 一种基于智能终端的信息交互方法及装置
CN114866693B (zh) * 2022-04-15 2024-01-05 苏州清睿智能科技股份有限公司 一种基于智能终端的信息交互方法及装置

Similar Documents

Publication Publication Date Title
US10776970B2 (en) Method and apparatus for processing video image and computer readable medium
US10657652B2 (en) Image matting using deep learning
US10366313B2 (en) Activation layers for deep learning networks
Lebreton et al. GBVS360, BMS360, ProSal: Extending existing saliency prediction models from 2D to omnidirectional images
Han et al. Two-stage learning to predict human eye fixations via SDAEs
WO2018166288A1 (zh) 信息呈现方法和装置
CN108537269B (zh) 一种弱交互式的物体检测深度学习方法及其***
WO2020078119A1 (zh) 模拟用户穿戴服装饰品的方法、装置和***
CN106537390B (zh) 标识教育视频的呈现样式
CN108830237B (zh) 一种人脸表情的识别方法
CN111598600A (zh) 多媒体资讯推送方法及***、终端设备
Farinella et al. Face re-identification for digital signage applications
Li et al. Convolutional neural net bagging for online visual tracking
Zhang et al. Deformable object tracking with spatiotemporal segmentation in big vision surveillance
Yu et al. AI-based targeted advertising system
Assens et al. Scanpath and saliency prediction on 360 degree images
Liang et al. Fixation prediction for advertising images: Dataset and benchmark
Lienhard et al. How to predict the global instantaneous feeling induced by a facial picture?
Liu et al. RGB-D action recognition using linear coding
CN113762257A (zh) 一种美妆品牌图像中标志的识别方法及装置
Yang et al. Student Classroom Behavior Detection Based on YOLOv7+ BRA and Multi-model Fusion
Gautam et al. Perceptive advertising using standardised facial features
Zerrouki et al. Exploiting deep learning-based LSTM classification for improving hand gesture recognition to enhance visitors’ museum experiences
JP6995262B1 (ja) 学習システム、学習方法、及びプログラム
Liu et al. Design and implementation of hair recommendation system based on face recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination