CN107977412A - 一种基于迭代式与交互式感知年龄数据库的清洗方法 - Google Patents

一种基于迭代式与交互式感知年龄数据库的清洗方法 Download PDF

Info

Publication number
CN107977412A
CN107977412A CN201711170178.0A CN201711170178A CN107977412A CN 107977412 A CN107977412 A CN 107977412A CN 201711170178 A CN201711170178 A CN 201711170178A CN 107977412 A CN107977412 A CN 107977412A
Authority
CN
China
Prior art keywords
age
sample
grader
database
perceived
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711170178.0A
Other languages
English (en)
Inventor
范伟琦
孙广玲
张天
邓小宝
陆小锋
钟宝燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201711170178.0A priority Critical patent/CN107977412A/zh
Publication of CN107977412A publication Critical patent/CN107977412A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于迭代式与交互式感知年龄数据库的清洗方法,首先将生理年龄数据库利用SVM训练得到分类器A,再利用分类器A识别感知年龄数据库。将识别正确的样本数加入到生理年龄数据库中,构成新的训练集,将新的训练集利用SVM训练得到分类器B,再利用分类器B识别分类器A识别错误的样本。重复循环,当年龄识别准确率的波动范围在0.1%以内则停止迭代,停止迭代后,将剩下识别错误的样本采用人机交互的方式修正样本的年龄标签,将修正后的样本重复之前步骤。直到样本全部识别正确,则停止循环,最后将得到的样本减去生理年龄数据库。该发明可以有效清洗年龄数据库中的脏数据,最后使得感知年龄数据库更加精准。

Description

一种基于迭代式与交互式感知年龄数据库的清洗方法
技术领域
本发明涉及一种感知年龄数据库的清洗方法,特别涉及一种基于迭代式与交互式感知年龄数据库的清洗方法。
背景技术
在传统观念里,感知年龄可能会与阅历、责任、成长这些关联在一起,并且不同的人对同一个人的年龄感知也会存在一定的差异,而一个人的生理年龄是不会受外界因素影响而改变,因此人的感知年龄和生理年龄会存在一定差别。在年龄数据库标注的工作中,仅仅依靠人的主观感知对人脸数据库进行年龄标签的标注会存在一定的误差,这种误差会给年龄数据库引入一定量的脏数据,所谓脏数据就是生理年龄与感知年龄差别较大的样本。如果对这样的年龄数据库不进行清洗而直接使用,那么这样的年龄数据库就没有精度可言,会给使用者在实验数据上造成误差。
数据库领域有很多成熟的数据清洗技术,但是,大部分技术都是针对一些特定的数据质量问题(数据重复),这些***的交互功能往往也是有限的。另外,脏数据无处不在,目前没有通用有效的方法完全清除。很多有关于数据预处理的工作常常只进行一些简单的人工数据清洗,甚至有些假设数据的原始纯净性,而忽视原始数据中的质量问题。因此拿这些数据做实验得出的结果往往是不正确或者是片面的。
发明内容
本发明的目的在于提高感知年龄数据库的精准度,提出一种基于迭代式与交互式感知年龄数据库的清洗方法,该方法利用迭代式与交互式的方法来对感知年龄数据库清洗,能够有效清洗感知年龄数据库中的脏数据,使得年龄数据库的精准度更高。
为了达到上述目的,本发明采用的技术方案如下:
一种基于迭代式与交互式感知年龄数据库的清洗方法,具体步骤如下:
(1)、将生理年龄数据库利用支持向量机,即SVM,训练得到分类器A,再利用分类器A识别感知年龄数据库;
(2)、将识别正确的样本数加入到生理年龄数据库中,构成新的训练集,将新的训练集利用SVM训练得到分类器B,再利用分类器B识别分类器A识别错误的样本;
(3)、重复循环步骤(2);
(4)、年龄识别准确率的波动范围在0.1%以内则停止迭代,否则返回步骤(3);
(5)、停止迭代后,将剩下识别错误的样本采用人机交互的方式修正样本的年龄标签,修正后,从人的主观视觉感知角度而言,更贴近其生理年龄;
(6)、将修正后的样本重复步骤(1)、(2)、(3)、(4)、(5);
(7)、样本全部识别正确,则停止循环,否则返回步骤(6);
(8)、将所有识别正确的样本减去步骤(2)中加入的生理年龄数据库,则剩下的就是经过迭代式与交互式清洗和修改后的感知年龄数据库。
上述步骤(1)中的利用SVM训练方法,就是根据选定的核函数对样本集的所有特征向量进行计算,构造一个是样本可分的特征空间,其具体步骤如下:
(1-1)、核函数的选定:采用的核函数为Gauss函数:
(1-2)、根据选定的核函数分别计算每一个分类器中每一个特征向量的特征相关值;
(1-3)、根据这些特征相关值计算协方差矩阵空间;
(1-4)、对这个协方差矩阵空间进行镜像变换,即将一个向量变换为由一个超平面反射的镜像;
(1-5)、得到协方差矩阵以及其对应的超平面矩阵,根据这两个矩阵分别计算每个特征的特征系数,并将特征系数对协方差矩阵进行缩放;
(1-6)、获得模型参数。
上述步骤(5)中通过人机交互的方式修正样本的年龄标签,具体方法是:参考分类器给出的年龄识别结果,再依据人眼的年龄感知对样本的年龄标签重新标注,则重新标注后的样本就是修正后的样本。
与现有技术相比,本发明方法具有如下优点:
本发明方法利用迭代式与交互式的方法来对感知年龄数据库清洗,能够有效清洗感知年龄数据库中的脏数据,使得年龄数据库的精准度更高。
附图说明
图1是本发明方法的流程图。
图2是展示了五张生理年龄数据库中的样本,样本正下方对应着人的生理年龄。
图3是展示了五张感知年龄数据库中的样本,样本正下方对应着人的感知年龄。
图4是本发明随着迭代次数的增加,年龄识别准确率的变化情况。
具体实施方式
下面结合附图对本发明的实施例作进一步详细说明。
本发明进行的仿真实验是在CPU为3.4GHz、内存为8G的PC测试平台上编程实现。
如图1所示,本发明一种基于迭代式与交互式感知年龄数据库的清洗方法,其具体步骤如下:
(1)、将生理年龄数据库利用支持向量机,即SVM,训练得到分类器A,再利用分类器A识别感知年龄数据库;
(1-1)、核函数的选定:采用的核函数为Gauss函数:
(1-2)、根据选定的核函数分别计算每一个分类器中每一个特征向量的有关值;
(1-3)、根据这些特征相关值计算协方差矩阵空间;
(1-4)、对这个协方差矩阵空间进行镜像变换,也就是将一个向量变换为由一个超平面反射的镜像;
(1-5)、得到协方差矩阵以及其对应的超平面矩阵,根据这两个矩阵分别计算每个特征的特征系数,并将特征系数对协方差矩阵进行缩放;
(1-6)、获得模型参数。
(2)、将识别正确的样本数加入到生理年龄数据库中,构成新的训练集,将新的训练集利用SVM训练得到分类器B,再利用分类器B识别分类器A识别错误的样本;
(3)、重复循环步骤(2);
(4)、年龄识别准确率的波动范围在0.1%以内则停止迭代,否则返回步骤(3);
(5)、停止迭代后,将剩下识别错误的样本采用人机交互的方式修正样本的年龄标签,修正后,从人的主观视觉感知角度而言,更贴近其生理年龄;
(6)、将修正后的样本重复步骤(1)、(2)、(3)、(4)、(5);
(7)、样本全部识别正确,则停止循环,否则返回步骤(6);
(8)、将所有识别正确的样本减去步骤(2)中加入的生理年龄数据库,则剩下的就是经过迭代式与交互式清洗和修改后的感知年龄数据库。
如图2是展示了五张生理年龄数据库中的样本,样本正下方对应着人的生理年龄。从五张图中我们可以看到,给出的生理年龄与我们自己感知出来的年龄存在一定的误差。这表明人的感知年龄和生理年龄会存在一定差别。
如图3是展示了五张感知年龄数据库中的样本,样本正下方对应着人的感知年龄。从五张图中我们可以看到,给出的感知年龄与我们自己感知出来的年龄存在一定的误差。这表明不同的人对同一个人的年龄感知存在一定的差异。
如图4所示,每一次迭代后的感知年龄数据库作为训练集,利用SVM训练得到具有年龄识别的模型,再用固定的测试集对训练出来的模型进行测试得到每次迭代后的年龄识别率。实验用的测试集是含有一定脏数据的感知年龄数据库,但是每一次实验的测试集是恒定不变的,所以保证了实验数据的真实可靠性。
从图4实验结果可以看出,本发明的方法利用一种基于迭代式与交互式感知年龄数据库的清洗方法,能够有效的清洗感知年龄数据库中的脏数据,使得年龄数据库的精准度更高。

Claims (3)

1.一种基于迭代式与交互式感知年龄数据库的清洗方法,其特征在于,具体步骤如下:
(1)、将生理年龄数据库利用支持向量机,即SVM,训练得到分类器A,再利用分类器A识别感知年龄数据库;
(2)、将识别正确的样本数加入到生理年龄数据库中,构成新的训练集,将新的训练集利用SVM训练得到分类器B,再利用分类器B识别分类器A识别错误的样本;
(3)、重复循环步骤(2);
(4)、年龄识别准确率的波动范围在0.1%以内则停止迭代,否则返回步骤(3);
(5)、停止迭代后,将剩下识别错误的样本采用人机交互的方式修正样本的年龄标签,修正后,从人的主观视觉感知角度而言,更贴近其生理年龄;
(6)、将修正后的样本重复步骤(1)、(2)、(3)、(4)、(5);
(7)、样本全部识别正确,则停止循环,否则返回步骤(6);
(8)、将所有识别正确的样本减去步骤(2)中加入的生理年龄数据库,则剩下的就是经过迭代式与交互式清洗和修改后的感知年龄数据库。
2.根据权利要求1所述的基于迭代式与交互式感知年龄数据库的清洗方法,其特征在于,所述步骤(1)中的利用SVM训练方法,就是根据选定的核函数对样本集的所有特征向量进行计算,构造一个是样本可分的特征空间,其具体步骤如下:
(1-1)、核函数的选定:采用的核函数为Gauss函数:
<mrow> <mi>K</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <mi>x</mi> <mo>-</mo> <mi>z</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msup> <mi>&amp;delta;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
(1-2)、根据选定的核函数分别计算每一个分类器中每一个特征向量的特征相关值;
(1-3)、根据这些特征相关值计算协方差矩阵空间;
(1-4)、对这个协方差矩阵空间进行镜像变换,即将一个向量变换为由一个超平面反射的镜像;
(1-5)、得到协方差矩阵以及其对应的超平面矩阵,根据这两个矩阵分别计算每个特征的特征系数,并将特征系数对协方差矩阵进行缩放;
(1-6)、获得模型参数。
3.根据权利要求1所述的基于迭代式与交互式感知年龄数据库的清洗方法,其特征在于,所述步骤(5)中通过人机交互的方式修正样本的年龄标签,具体方法是:参考分类器给出的年龄识别结果,再依据人眼的年龄感知对样本的年龄标签重新标注,则重新标注后的样本就是修正后的样本。
CN201711170178.0A 2017-11-22 2017-11-22 一种基于迭代式与交互式感知年龄数据库的清洗方法 Pending CN107977412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711170178.0A CN107977412A (zh) 2017-11-22 2017-11-22 一种基于迭代式与交互式感知年龄数据库的清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711170178.0A CN107977412A (zh) 2017-11-22 2017-11-22 一种基于迭代式与交互式感知年龄数据库的清洗方法

Publications (1)

Publication Number Publication Date
CN107977412A true CN107977412A (zh) 2018-05-01

Family

ID=62010761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711170178.0A Pending CN107977412A (zh) 2017-11-22 2017-11-22 一种基于迭代式与交互式感知年龄数据库的清洗方法

Country Status (1)

Country Link
CN (1) CN107977412A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985173A (zh) * 2018-06-19 2018-12-11 奕通信息科技(上海)股份有限公司 面向有标记噪声表观年龄数据库的深度网络迁移学习方法
CN109034188A (zh) * 2018-06-15 2018-12-18 北京金山云网络技术有限公司 机器学习模型的获取方法、获取装置、设备及存储介质
CN110083728A (zh) * 2019-04-03 2019-08-02 上海联隐电子科技合伙企业(有限合伙) 一种优化自动化图片数据清洗质量的方法、装置和***
CN110688471A (zh) * 2019-09-30 2020-01-14 支付宝(杭州)信息技术有限公司 训练样本获取方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法
CN105045807A (zh) * 2015-06-04 2015-11-11 浙江力石科技股份有限公司 互联网交易信息的数据清洗算法
CN106778851A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于手机取证数据的社交关系预测***及其方法
CN106844636A (zh) * 2017-01-21 2017-06-13 亚信蓝涛(江苏)数据科技有限公司 一种基于深度学习的非结构化数据处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法
CN105045807A (zh) * 2015-06-04 2015-11-11 浙江力石科技股份有限公司 互联网交易信息的数据清洗算法
CN106778851A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于手机取证数据的社交关系预测***及其方法
CN106844636A (zh) * 2017-01-21 2017-06-13 亚信蓝涛(江苏)数据科技有限公司 一种基于深度学习的非结构化数据处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赖德河: "人脸年龄估计方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈小柏: "基于视觉的连续手语识别***的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034188A (zh) * 2018-06-15 2018-12-18 北京金山云网络技术有限公司 机器学习模型的获取方法、获取装置、设备及存储介质
CN109034188B (zh) * 2018-06-15 2021-11-05 北京金山云网络技术有限公司 机器学习模型的获取方法、获取装置、设备及存储介质
CN108985173A (zh) * 2018-06-19 2018-12-11 奕通信息科技(上海)股份有限公司 面向有标记噪声表观年龄数据库的深度网络迁移学习方法
CN110083728A (zh) * 2019-04-03 2019-08-02 上海联隐电子科技合伙企业(有限合伙) 一种优化自动化图片数据清洗质量的方法、装置和***
CN110083728B (zh) * 2019-04-03 2021-08-20 上海铼锶信息技术有限公司 一种优化自动化图片数据清洗质量的方法、装置和***
CN110688471A (zh) * 2019-09-30 2020-01-14 支付宝(杭州)信息技术有限公司 训练样本获取方法、装置及设备
CN110688471B (zh) * 2019-09-30 2022-09-09 支付宝(杭州)信息技术有限公司 训练样本获取方法、装置及设备

Similar Documents

Publication Publication Date Title
CN107977412A (zh) 一种基于迭代式与交互式感知年龄数据库的清洗方法
Batchelor et al. Intelligent vision systems for industry
CN107392125A (zh) 智能模型的训练方法/***、计算机可读存储介质及终端
CN107808143A (zh) 基于计算机视觉的动态手势识别方法
CN105303179A (zh) 指纹识别方法、装置
CN104463101A (zh) 用于文字性试题的答案识别方法及***
CN105320945A (zh) 图像分类的方法及装置
CN112989947B (zh) 一种人体关键点的三维坐标的估计方法及装置
CN109284779A (zh) 基于深度全卷积网络的物体检测方法
CN110580466A (zh) 婴儿踢被子行为识别方法、装置、计算机设备及存储介质
CN105139007B (zh) 人脸特征点定位方法和装置
CN109272003A (zh) 一种消除深度学习模型中未知错误的方法与装置
CN109858476A (zh) 标签的扩充方法和电子设备
CN114625838B (zh) 一种搜索***的优化方法、装置、存储介质及计算机设备
CN104919492A (zh) 特征点位置检测设备、特征点位置检测方法以及特征点位置检测程序
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
Cardoso et al. Hand gesture recognition towards enhancing accessibility
CN110717385A (zh) 一种动态手势识别方法
CN109284700A (zh) 图像中多个人脸检测的方法、存储介质、设备及***
CN106372652A (zh) 发型识别方法及发型识别装置
CN109101922A (zh) 作业人员着装分析方法、装置及电子设备
CN107944393A (zh) 人脸鼻尖定位方法
CN110070120B (zh) 基于判别采样策略的深度度量学习方法及***
CN103927540B (zh) 一种基于生物视觉分层模型的不变特征提取方法
CN114972263A (zh) 一种基于智能图片分割的实时超声图像卵泡测量方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180501

RJ01 Rejection of invention patent application after publication