CN109189771A - 一种基于离线和在线聚类的车型数据库清洗方法 - Google Patents

一种基于离线和在线聚类的车型数据库清洗方法 Download PDF

Info

Publication number
CN109189771A
CN109189771A CN201810941282.3A CN201810941282A CN109189771A CN 109189771 A CN109189771 A CN 109189771A CN 201810941282 A CN201810941282 A CN 201810941282A CN 109189771 A CN109189771 A CN 109189771A
Authority
CN
China
Prior art keywords
class
offline
vehicle
model data
clustered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810941282.3A
Other languages
English (en)
Inventor
尚凌辉
张兆生
王弘玥
余天明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHEJIANG ICARE VISION TECHNOLOGY Co Ltd
Original Assignee
ZHEJIANG ICARE VISION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHEJIANG ICARE VISION TECHNOLOGY Co Ltd filed Critical ZHEJIANG ICARE VISION TECHNOLOGY Co Ltd
Priority to CN201810941282.3A priority Critical patent/CN109189771A/zh
Publication of CN109189771A publication Critical patent/CN109189771A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于离线和在线聚类的车型数据库清洗方法。本发明首先标注各类车型样本得到离线车型库,利用深度学习进行训练,取训练反向第二个的全连接层输出作为车型特征。其次分别提取各个类内所有车型特征进行离线聚类,得到n个类中心及相应阈值。然后定期提取在线车型库各个类内所有车型特征进行聚类,初始聚类中心为离线聚类得到的n个类中心,添加一个随机初始化中心的类后进行有约束的聚类,得到n+1类。最后根据离线聚类得到的阈值,依次判定并清洗属于前n类的车型数据,清洗最后一类车型数据。本发明可以在保持在线车型库内各类整体性质不变的情况下,有效删除错误入库的样本,从而维持***长期运行的性能及稳定性。

Description

一种基于离线和在线聚类的车型数据库清洗方法
技术领域
本发明涉及一种基于离线和在线聚类的车型数据库清洗方法。
背景技术
随着机动车保有量急剧增加,违法犯罪车辆逐年上升趋势,例如:肇事逃逸,车辆假牌,车辆套牌,机动车超速等犯罪现象每每都在上演。而技术的发展,智能车型识别方法正成为一种成熟有效的手段,可广泛应用在卡口车辆检测、***检测、车辆检索等方面。
在很多应用中,都需要建立一个在线的车型库。基于深度学习的车型识别技术能够达到98%以上的准确率,但在长期运行中,不断入库的错误样本仍会导致其累积到一个难以维持***性能及稳定性的程度。在此基础上,需要提出一种基于离线和在线聚类的车型数据库清洗方法,对车型库进行定期清洗以保持***性能及稳定性。
现有的各种数据库清洗方法多为通用数据清洗或针对某一特定领域的数据清洗,缺少针对车型数据库的清洗方法。如《一种数据清洗方法201710704678.1》、《一种简化的大数据清洗方式201711182073.7》等。
发明内容
本发明针对现有技术的不足,提供了一种基于离线和在线聚类的车型数据库清洗方法。该方法针对在线更新的车型库存在一定量错误入库数据的情况,采用离线和在线聚类,对车型库进行定期清洗以保持***性能及稳定性。
本发明解决技术问题所采取的技术方案为:
一.标注各类车型样本得到离线车型库,利用深度学习进行训练,取训练反向第二个的全连接层输出作为车型特征。
二.分别提取各个类内所有车型特征进行离线聚类,得到n个类中心及相应阈值。
三.定期提取在线车型库各个类内所有车型特征进行聚类,初始聚类中心为离线聚类得到的n个类中心,添加一个随机初始化中心的类后进行有约束的聚类,得到n+1类。
四.根据离线聚类得到的阈值,依次判定并清洗属于前n类的车型数据,清洗最后一类车型数据。
本发明的有益效果:本发明可以对智能车型识别应用中所建立的在线车型数据库进行定期快速清洗,可以在保持在线车型库内各类整体性质不变的情况下,有效删除错误入库的样本,从而维持***长期运行的性能及稳定性。
附图说明
图1为离线深度学习训练网络结构。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
本发明的离线部分包括车型特征训练和车型特征离线聚类,在线部分包括车型特征提取、车型特征在线聚类。
一.标注各类车型样本得到离线车型库,利用深度学习进行训练,取训练反向第二个的全连接层输出作为车型特征。
二.分别提取各个类内所有车型特征进行聚类,得到n个类中心及相应阈值。
三.定期提取在线车型库各个类内所有车型特征进行聚类,初始聚类中心为离线聚类得到的n个类中心,添加一个随机初始化中心的类后进行有约束的聚类,得到n+1类。
四.根据离线聚类得到的阈值,依次判定并清洗属于前n类的车型数据,清洗最后一类车型数据。
实施例:
一.标注各类车型样本得到离线车型库,利用深度学习进行训练(见图1),取训练反向第二个的全连接层输出的512维特征作为车型特征。
二.分别提取各个类内所有车型特征进行离线聚类,特征距离采用余弦相似度。循环调用k-means聚类得到1至5类结果,根据类内类间差异选择第n类结果,统计类内所有特征与类中心距离的标准差,得到阈值。
三.定期提取在线车型库各个类内所有车型特征进行在线聚类。类似地,同样采用k-means聚类,初始聚类中心为离线聚类得到的n个类中心,添加一个随机初始化中心的类,约束前n类中心偏移度小于30度进行聚类,得到n+1类。
四.根据离线聚类得到的阈值,依次判定(得到的距离与阈值比较)并清洗属于前n类的车型数据,清洗最后一类车型数据。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,应当理解,本发明并不限于这里所描述的实现方案,这些实现方案描述的目的在于帮助本领域中的技术人员实践本发明。

Claims (4)

1.一种基于离线和在线聚类的车型数据库清洗方法,其特征在于该方法包括以下步骤:
一.标注各类车型样本得到离线车型库,利用深度学习进行训练,取训练反向第二个的全连接层输出作为车型特征;
二.分别提取各个类内所有车型特征进行离线聚类,得到n个类中心及相应阈值;
三.定期提取在线车型库各个类内所有车型特征进行聚类,初始聚类中心为离线聚类得到的n个类中心,添加一个随机初始化中心的类后进行有约束的聚类,得到n+1类;
四.根据离线聚类得到的阈值,依次判定并清洗属于前n类的车型数据,清洗最后一类车型数据。
2.根据权利要求1所述的一种基于离线和在线聚类的车型数据库清洗方法,其特征在于:全连接层共输出512维特征。
3.根据权利要求1所述的一种基于离线和在线聚类的车型数据库清洗方法,其特征在于:离线聚类过程中的特征距离采用余弦相似度,通过统计类内所有特征与类中心距离的标准差来得到阈值。
4.根据权利要求1所述的一种基于离线和在线聚类的车型数据库清洗方法,其特征在于:有约束的聚类是指约束前n类中心偏移度小于30度进行聚类。
CN201810941282.3A 2018-08-17 2018-08-17 一种基于离线和在线聚类的车型数据库清洗方法 Pending CN109189771A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810941282.3A CN109189771A (zh) 2018-08-17 2018-08-17 一种基于离线和在线聚类的车型数据库清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810941282.3A CN109189771A (zh) 2018-08-17 2018-08-17 一种基于离线和在线聚类的车型数据库清洗方法

Publications (1)

Publication Number Publication Date
CN109189771A true CN109189771A (zh) 2019-01-11

Family

ID=64918265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810941282.3A Pending CN109189771A (zh) 2018-08-17 2018-08-17 一种基于离线和在线聚类的车型数据库清洗方法

Country Status (1)

Country Link
CN (1) CN109189771A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490596A (zh) * 2021-12-08 2022-05-13 大唐水电科学技术研究院有限公司 一种基于机器学习与神经网络的变压器油色谱数据清洗的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181526A1 (en) * 2003-03-11 2004-09-16 Lockheed Martin Corporation Robust system for interactively learning a record similarity measurement
CN102932738A (zh) * 2012-10-31 2013-02-13 北京交通大学 一种改进的基于分簇神经网络的室内指纹定位方法
CN106202335A (zh) * 2016-06-28 2016-12-07 银江股份有限公司 一种基于云计算框架的交通大数据清洗方法
CN106204335A (zh) * 2016-07-21 2016-12-07 广东工业大学 一种电价执行异常判断方法、装置及***
CN106740829A (zh) * 2017-03-23 2017-05-31 吉林大学 基于聚类分析双半挂汽车行驶稳定性自动识别与预警***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181526A1 (en) * 2003-03-11 2004-09-16 Lockheed Martin Corporation Robust system for interactively learning a record similarity measurement
CN102932738A (zh) * 2012-10-31 2013-02-13 北京交通大学 一种改进的基于分簇神经网络的室内指纹定位方法
CN106202335A (zh) * 2016-06-28 2016-12-07 银江股份有限公司 一种基于云计算框架的交通大数据清洗方法
CN106204335A (zh) * 2016-07-21 2016-12-07 广东工业大学 一种电价执行异常判断方法、装置及***
CN106740829A (zh) * 2017-03-23 2017-05-31 吉林大学 基于聚类分析双半挂汽车行驶稳定性自动识别与预警***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490596A (zh) * 2021-12-08 2022-05-13 大唐水电科学技术研究院有限公司 一种基于机器学习与神经网络的变压器油色谱数据清洗的方法
CN114490596B (zh) * 2021-12-08 2024-05-10 大唐水电科学技术研究院有限公司 一种基于机器学习与神经网络的变压器油色谱数据清洗的方法

Similar Documents

Publication Publication Date Title
CN105468677B (zh) 一种基于图结构的日志聚类方法
CN109033200B (zh) 事件抽取的方法、装置、设备及计算机可读介质
CN109165294A (zh) 一种基于贝叶斯分类的短文本分类方法
US6047277A (en) Self-organizing neural network for plain text categorization
CN109344262B (zh) 知识体系的建立方法、装置及存储介质
CN111798312A (zh) 一种基于孤立森林算法的金融交易***异常识别方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN110210660B (zh) 一种超短期风速预测方法
CN111556016B (zh) 一种基于自动编码器的网络流量异常行为识别方法
CN103617233A (zh) 一种基于语义内容多层表示的重复视频检测方法与装置
CN109710792B (zh) 一种基于索引的快速人脸检索***应用
US20160080476A1 (en) Meme discovery system
CN105488211A (zh) 基于特征分析的用户群确定方法
CN104182460A (zh) 基于倒排索引的时间序列相似性查询方法
CN104008106A (zh) 一种获取热点话题的方法及装置
CN101980210A (zh) 一种标的词分类分级方法及***
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
CN106202391A (zh) 一种用户社群的自动分类方法及装置
CN113627521A (zh) 基于孤立森林法的物流无人机异常行为智能识别方法
CN108683658B (zh) 基于多rbm网络构建基准模型的工控网络流量异常识别方法
CN104951553A (zh) 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法
CN105678244A (zh) 一种基于改进编辑距离的近似视频检索方法
CN102521402B (zh) 文本过滤***及方法
CN109189771A (zh) 一种基于离线和在线聚类的车型数据库清洗方法
CN106649844A (zh) 非结构化文本数据增强型分布式大规模数据维度抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190111