CN106529583A - 一种基于视觉词袋模型的室内场景认知方法 - Google Patents

一种基于视觉词袋模型的室内场景认知方法 Download PDF

Info

Publication number
CN106529583A
CN106529583A CN201610933785.7A CN201610933785A CN106529583A CN 106529583 A CN106529583 A CN 106529583A CN 201610933785 A CN201610933785 A CN 201610933785A CN 106529583 A CN106529583 A CN 106529583A
Authority
CN
China
Prior art keywords
scene
bag
orb
image
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610933785.7A
Other languages
English (en)
Inventor
赵玉新
李亚宾
刘厂
雷宇宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201610933785.7A priority Critical patent/CN106529583A/zh
Publication of CN106529583A publication Critical patent/CN106529583A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于移动机器人环境感知领域,特别涉及一种基于视觉词袋模型的室内场景认知方法。本发明包括,离线部分:依据应用需求确定场景类别,机器人利用搭载的RGB‑D传感器扫描各个场景,获得足够多的场景图像组成图像训练集;利用ORB算法生成图像训练集中每一幅图像的ORB 256维描述符,每幅图像通常包含成百上千个ORB矢量等;在线部分:机器人接收到当前场景类别查询指令,***初始化,准备进行场景查询等。本发明采用ORB算法完成特征提取与匹配的图像预处理过程,算法快速性得到保证;采用KNN分类器算法提高了场景识别率,可满足移动机器人室内常见场景查询应用需求。

Description

一种基于视觉词袋模型的室内场景认知方法
技术领域
本发明属于移动机器人环境感知领域,特别涉及一种基于视觉词袋模型的室内场景认知方法。
背景技术
通常情况下,栅格地图可满足机器人对导航、避障任务的底层需求,然而对于完成诸如人机交互和任务规划一类的高层任务,还需要获取关于场景认知的语义信息,创建面向认知的语义地图。移动机器人在室内场景中移动,不知晓自身所在位置属于客厅、厨房抑或是卧室,则不能完成类似于为人类到厨房的冰箱里取瓶矿泉水这样的高智能任务了。
发明内容
本发明的目的在于提出一种基于视觉词袋模型的室内场景认知方法。
本发明的目的是这样实现的:
本发明包括离线和在线两个部分,具体步骤如下:
离线部分:
(1)依据应用需求确定场景类别,机器人利用搭载的RGB-D传感器扫描各个场景,获得足够多的场景图像组成图像训练集;
(2)利用ORB算法生成图像训练集中每一幅图像的ORB 256维描述符,每幅图像通常包含成百上千个ORB矢量;
(3)利用K-means聚类算法对图像训练集中ORB特征点进行训练,生成K个类心组成视觉词汇,构造出视觉词典;
(4)针对所有图像的ORB特征,计算每一个视觉单词出现的频率和逆频率,通过TF-IDF对频数表添加权重,生成加权的训练集各图像的视觉词袋模型;保存视觉词典和训练集视觉词袋模型就获得了新形式的离线语义地图;
在线部分:
(5)机器人接收到当前场景类别查询指令,***初始化,准备进行场景查询;
(6)机器人利用其搭载的摄像机获取当前场景的RGB图像,并采用ORB算法检测并提取特征点集;
(7)查询语义地图数据库,比对视觉词典,生成当前场景图像的加权视觉词袋模型;
(8)采用KNN分类器将当前场景图像的视觉词袋模型与语义地图数据库训练集视觉词袋模型对比,最终确定当前场景类别,并返回查询结果。
所述的步骤(3)包括以下几个子步骤:
(3.1)在特征点集X中随机挑选k个样本点作为初始聚类中心
(3.2)计算特征点集中每个特征点xi(i=1,2,…,n)到所有聚类中心的距离且将特征点xi划分到与其距离最近的类mj中;
(3.3)计算各个类的聚类中心j=1,2,…,k,其中nj为划分到类簇mj中特征点数目,计算目标函数Wn(t),并与前一次计算结果作差,如果Wn(t)-Wn(t-1)<0,继续迭代步骤(3.2)、(3.3);否则,退出迭代,计算结束;将获得的k个聚类中心作为视觉单词,将所有视觉单词列表存储获得视觉词典;
所述步骤(3)视觉词典单词容量参数K设为900。
所述步骤(8)中KNN分类器参数K设置为1。
本发明的有益效果在于:
本发明采用ORB算法完成特征提取与匹配的图像预处理过程,算法快速性得到保证;采用KNN分类器算法提高了场景识别率,可满足移动机器人室内常见场景查询应用需求。
附图说明
图1为基于视觉词袋模型的室内场景认知方法算法流程示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明公开了一种基于视觉词袋模型的室内场景认知方法,本发明方法包括离线地图生成和在线地图查询两部分。离线地图生成部分包括:扫描场景获取场景训练集;ORB特征检测与描述;K均值聚类提取类心构造视觉词典;TF-IDF技术添加权重生成训练集视觉词袋模型数据库。在线地图查询部分包括:接收场景查询指令;获取当前场景RGB图像并提取ORB特征;查询地图数据库视觉词典,生成当前场景图像视觉词袋模型;KNN分类器对比地图数据库训练集与当前场景词袋模型,判定当前场景类别。通过上述方式,本发明能够快速准确地帮助移动机器人完成室内场景认知,从而更好地同人类交互。
为解决上述问题,本发明提出基于视觉词袋模型的室内场景认知方法,从而建立室内常见场景视觉词典,建立一种面向室内场景认知的新的语义地图形式,然后用于机器人室内场景类别查询。
为达到上述目的,本发明的技术方案包含以下要点:
离线部分:
步骤1.扫描场景获取场景训练集;
步骤2.ORB特征检测与描述;
步骤3.K均值聚类提取类心构造视觉词典;
步骤4.TF-IDF技术添加权重生成训练集视觉词袋模型数据库;
在线部分:
步骤1.获取当前场景RGB图像并提取ORB特征;
步骤2.查询地图数据库视觉词典生成当前场景图像视觉词袋模型;
步骤3.KNN分类器对比地图数据库训练集与当前场景词袋模型,判定当前场景类别。
基于视觉词袋模型的室内场景认知方法算法流程如图1所示,可分为离线和在线两个部分,具体实施步骤如下:
(1)离线地图生成:
步骤1.依据应用需求确定场景类别,机器人利用搭载的RGB-D传感器扫描各个场景,获得足够多的场景图像组成图像训练集。
步骤2.利用ORB算法生成图像训练集中每一幅图像的ORB 256维描述符,每幅图像通常包含成百上千个ORB矢量。
步骤3.利用K-means聚类算法对图像训练集中ORB特征点进行训练,生成K个类心组成视觉词汇,构造出视觉词典。对于室内10个左右的场景,取K=900可获得约80%的场景识准率,且算法具备不错的快速性,所以本发明参数K选取900。
K-means算法是一种无监督自适应聚类分析算法,具有效率高、适合大规模数据处理的优点。其核心思想是在特征点集X={x1,x2,…,xn}中得到k个聚类中心{m1,m2,…,mk},满足特征点集合中的特征点到所属类心的的距离平方和最小,其目标函数表达式为:
步骤3具体包括以下几个子步骤:
步骤3.1.在特征点集X中随机挑选k个样本点作为初始聚类中心
步骤3.2.计算特征点集中每个特征点xi(i=1,2,…,n)到所有聚类中心的距离且将特征点xi划分到与其距离最近的类mj中;
步骤3.3.计算各个类的聚类中心j=1,2,…,k,其中nj为划分到类簇mj中特征点数目,据式(1)计算目标函数Wn(t),并与前一次计算结果作差,如果Wn(t)-Wn(t-1)<0,继续迭代步骤3.2、3.3;否则,退出迭代,计算结束。将获得的k个聚类中心作为视觉单词,将所有视觉单词列表存储获得视觉词典。
步骤4.针对所有图像的ORB特征,计算每一个视觉单词出现的频率(TF)和逆频率(IDF),通过TF-IDF对频数表添加权重,生成加权的训练集各图像的视觉词袋模型。保存视觉词典和训练集视觉词袋模型就获得了新形式的离线语义地图。
在获得视觉词典后,就可利用视觉词典经统计得到图像的视觉单词频数直方图描述。对于每一幅训练图像和测试图像,将提取获得的众多底层特征与视觉词典中的单词进行匹配,找到最接近的一个代替描述,最后统计各个单词出现的次数,就获得了图像基于频数直方图的视觉词袋表示。
假设视觉词典为{m1,m2,…,mk},采用最近邻算法计算ORB底层特征与每个视觉单词之间的欧式距离,从而将特征vi用离他最近的视觉单词代替描述,如式(2)所示。
(2)在线地图查询:
步骤1.机器人接收到当前场景类别查询指令,***初始化,准备进行场景查询。
步骤2.机器人利用其搭载的摄像机获取当前场景的RGB图像,并采用ORB算法检测并提取特征点集。
步骤3.查询语义地图数据库,比对视觉词典,生成当前场景图像的加权视觉词袋模型。
步骤4.采用KNN分类器将当前场景图像的视觉词袋模型与语义地图数据库训练集视觉词袋模型对比,最终确定当前场景类别,并返回查询结果。
KNN算法的基本思想可表述为:计算待定当前场景视觉词袋模型与训练集各视觉词袋的相似度,找出最相似的K各样本,根据这K个样本的类别投票结果确定当前场景视觉的类别。这里的相似性度量采用欧式距离,两个n维向量a=(x11,x12,…,x1n)和b=(x21,x22,…,x2n)的欧式距离为:
用向量运算的形式表达,则:
经实验,KNN参数K选为1或3具有较高的场景识准率,本发明KNN参数K选1。

Claims (4)

1.一种基于视觉词袋模型的室内场景认知方法,其特征在于,包括离线和在线两个部分,具体步骤如下:
离线部分:
(1)依据应用需求确定场景类别,机器人利用搭载的RGB-D传感器扫描各个场景,获得足够多的场景图像组成图像训练集;
(2)利用ORB算法生成图像训练集中每一幅图像的ORB 256维描述符,每幅图像通常包含成百上千个ORB矢量;
(3)利用K-means聚类算法对图像训练集中ORB特征点进行训练,生成K个类心组成视觉词汇,构造出视觉词典;
(4)针对所有图像的ORB特征,计算每一个视觉单词出现的频率和逆频率,通过TF-IDF对频数表添加权重,生成加权的训练集各图像的视觉词袋模型;保存视觉词典和训练集视觉词袋模型就获得了新形式的离线语义地图;
在线部分:
(5)机器人接收到当前场景类别查询指令,***初始化,准备进行场景查询;
(6)机器人利用其搭载的摄像机获取当前场景的RGB图像,并采用ORB算法检测并提取特征点集;
(7)查询语义地图数据库,比对视觉词典,生成当前场景图像的加权视觉词袋模型;
(8)采用KNN分类器将当前场景图像的视觉词袋模型与语义地图数据库训练集视觉词袋模型对比,最终确定当前场景类别,并返回查询结果。
2.根据权利要求1所述的一种基于视觉词袋模型的室内场景认知方法,其特征在于:所述的步骤(3)包括以下几个子步骤:
(3.1)在特征点集X中随机挑选k个样本点作为初始聚类中心
(3.2)计算特征点集中每个特征点xi(i=1,2,…,n)到所有聚类中心的距离且将特征点xi划分到与其距离最近的类mj中;
(3.3)计算各个类的聚类中心其中nj为划分到类簇mj中特征点数目,计算目标函数Wn(t),并与前一次计算结果作差,如果Wn(t)-Wn(t-1)<0,继续迭代步骤(3.2)、(3.3);否则,退出迭代,计算结束;将获得的k个聚类中心作为视觉单词,将所有视觉单词列表存储获得视觉词典;
W n = Σ i = 1 n min 1 ≤ j ≤ k | x i - m j | 2
3.根据权利要求1所述的一种基于视觉词袋模型的室内场景认知方法,其特征在于:所述步骤(3)视觉词典单词容量参数K设为900。
4.根据权利要求1所述的一种基于视觉词袋模型的室内场景认知方法,其特征在于:所述步骤(8)中KNN分类器参数K设置为1。
CN201610933785.7A 2016-11-01 2016-11-01 一种基于视觉词袋模型的室内场景认知方法 Pending CN106529583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610933785.7A CN106529583A (zh) 2016-11-01 2016-11-01 一种基于视觉词袋模型的室内场景认知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610933785.7A CN106529583A (zh) 2016-11-01 2016-11-01 一种基于视觉词袋模型的室内场景认知方法

Publications (1)

Publication Number Publication Date
CN106529583A true CN106529583A (zh) 2017-03-22

Family

ID=58291890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610933785.7A Pending CN106529583A (zh) 2016-11-01 2016-11-01 一种基于视觉词袋模型的室内场景认知方法

Country Status (1)

Country Link
CN (1) CN106529583A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107167144A (zh) * 2017-07-07 2017-09-15 武汉科技大学 一种基于视觉的移动机器人室内环境识别定位方法
CN107220932A (zh) * 2017-04-18 2017-09-29 天津大学 基于词袋模型的全景图像拼接方法
CN108256463A (zh) * 2018-01-10 2018-07-06 南开大学 基于esn神经网络的移动机器人场景识别方法
CN109242899A (zh) * 2018-09-03 2019-01-18 北京维盛泰科科技有限公司 一种基于在线视觉词典的实时定位与地图构建方法
CN110334763A (zh) * 2019-07-04 2019-10-15 北京字节跳动网络技术有限公司 模型数据文件生成、图像识别方法、装置、设备及介质
CN110569913A (zh) * 2019-09-11 2019-12-13 北京云迹科技有限公司 场景分类器训练方法、装置、场景识别方法及机器人
CN112905798A (zh) * 2021-03-26 2021-06-04 深圳市阿丹能量信息技术有限公司 一种基于文字标识的室内视觉定位方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622607A (zh) * 2012-02-24 2012-08-01 河海大学 一种基于多特征融合的遥感图像分类方法
CN103413142A (zh) * 2013-07-22 2013-11-27 中国科学院遥感与数字地球研究所 一种基于二维小波分解及视觉词包模型的遥感图像土地利用场景分类方法
KR20140006566A (ko) * 2012-07-06 2014-01-16 한국과학기술원 기울인 비디오 단면도를 이용한 비디오 시그니처 추출 장치 및 방법
CN103559191A (zh) * 2013-09-10 2014-02-05 浙江大学 基于隐空间学习和双向排序学习的跨媒体排序方法
CN104239897A (zh) * 2014-09-04 2014-12-24 天津大学 一种基于自编码器词袋的视觉特征表示方法
CN104915673A (zh) * 2014-03-11 2015-09-16 株式会社理光 一种基于视觉词袋模型的目标分类方法和***
CN105843223A (zh) * 2016-03-23 2016-08-10 东南大学 一种基于空间词袋模型的移动机器人三维建图与避障方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622607A (zh) * 2012-02-24 2012-08-01 河海大学 一种基于多特征融合的遥感图像分类方法
KR20140006566A (ko) * 2012-07-06 2014-01-16 한국과학기술원 기울인 비디오 단면도를 이용한 비디오 시그니처 추출 장치 및 방법
CN103413142A (zh) * 2013-07-22 2013-11-27 中国科学院遥感与数字地球研究所 一种基于二维小波分解及视觉词包模型的遥感图像土地利用场景分类方法
CN103559191A (zh) * 2013-09-10 2014-02-05 浙江大学 基于隐空间学习和双向排序学习的跨媒体排序方法
CN104915673A (zh) * 2014-03-11 2015-09-16 株式会社理光 一种基于视觉词袋模型的目标分类方法和***
CN104239897A (zh) * 2014-09-04 2014-12-24 天津大学 一种基于自编码器词袋的视觉特征表示方法
CN105843223A (zh) * 2016-03-23 2016-08-10 东南大学 一种基于空间词袋模型的移动机器人三维建图与避障方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹宁等: ""基于视觉词袋模型的图像分类改进方法"", 《电子设计工程》 *
许宏科等: ""基于改进ORB的图像特征点匹配"", 《科学技术与工程》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220932A (zh) * 2017-04-18 2017-09-29 天津大学 基于词袋模型的全景图像拼接方法
CN107220932B (zh) * 2017-04-18 2020-03-20 天津大学 基于词袋模型的全景图像拼接方法
CN107167144A (zh) * 2017-07-07 2017-09-15 武汉科技大学 一种基于视觉的移动机器人室内环境识别定位方法
CN108256463A (zh) * 2018-01-10 2018-07-06 南开大学 基于esn神经网络的移动机器人场景识别方法
CN108256463B (zh) * 2018-01-10 2022-01-04 南开大学 基于esn神经网络的移动机器人场景识别方法
CN109242899A (zh) * 2018-09-03 2019-01-18 北京维盛泰科科技有限公司 一种基于在线视觉词典的实时定位与地图构建方法
CN109242899B (zh) * 2018-09-03 2022-04-19 北京维盛泰科科技有限公司 一种基于在线视觉词典的实时定位与地图构建方法
CN110334763A (zh) * 2019-07-04 2019-10-15 北京字节跳动网络技术有限公司 模型数据文件生成、图像识别方法、装置、设备及介质
CN110569913A (zh) * 2019-09-11 2019-12-13 北京云迹科技有限公司 场景分类器训练方法、装置、场景识别方法及机器人
CN112905798A (zh) * 2021-03-26 2021-06-04 深圳市阿丹能量信息技术有限公司 一种基于文字标识的室内视觉定位方法
CN112905798B (zh) * 2021-03-26 2023-03-10 深圳市阿丹能量信息技术有限公司 一种基于文字标识的室内视觉定位方法

Similar Documents

Publication Publication Date Title
CN106529583A (zh) 一种基于视觉词袋模型的室内场景认知方法
US10929649B2 (en) Multi-pose face feature point detection method based on cascade regression
Zhang et al. Chinese sign language recognition with adaptive HMM
CN106295568B (zh) 基于表情和行为双模态结合的人类自然状态情感识别方法
CN105046195B (zh) 基于非对称广义高斯模型的人体行为识别方法
Kawewong et al. Online and incremental appearance-based SLAM in highly dynamic environments
CN107832672A (zh) 一种利用姿态信息设计多损失函数的行人重识别方法
CN107122375A (zh) 基于图像特征的图像主体的识别方法
CN106407958B (zh) 基于双层级联的面部特征检测方法
CN110555387B (zh) 骨架序列中基于局部关节点轨迹时空卷的行为识别方法
CN104036255A (zh) 一种人脸表情识别方法
CN109993102A (zh) 相似人脸检索方法、装置及存储介质
Ren et al. Facial expression recognition based on AAM–SIFT and adaptive regional weighting
Wang et al. Head pose estimation with combined 2D SIFT and 3D HOG features
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN106096560A (zh) 一种人脸对齐方法
CN113808166B (zh) 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法
CN105868706A (zh) 一种基于稀疏自编码的三维模型识别方法
CN104966052A (zh) 基于属性特征表示的群体行为识别方法
CN104462818B (zh) 一种基于Fisher准则的嵌入流形回归模型
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN110516533A (zh) 一种基于深度度量的行人再辨识方法
CN105975906B (zh) 一种基于面积特征的pca静态手势识别方法
Qin et al. A new improved convolutional neural network flower image recognition model
Hu et al. Loop closure detection for visual SLAM fusing semantic information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170322

RJ01 Rejection of invention patent application after publication