CN106529583A

CN106529583A - 一种基于视觉词袋模型的室内场景认知方法

Info

Publication number: CN106529583A
Application number: CN201610933785.7A
Authority: CN
Inventors: 赵玉新; 李亚宾; 刘厂; 雷宇宁
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2016-11-01
Filing date: 2016-11-01
Publication date: 2017-03-22

Abstract

本发明属于移动机器人环境感知领域，特别涉及一种基于视觉词袋模型的室内场景认知方法。本发明包括，离线部分：依据应用需求确定场景类别，机器人利用搭载的RGB‑D传感器扫描各个场景，获得足够多的场景图像组成图像训练集；利用ORB算法生成图像训练集中每一幅图像的ORB 256维描述符，每幅图像通常包含成百上千个ORB矢量等；在线部分：机器人接收到当前场景类别查询指令，***初始化，准备进行场景查询等。本发明采用ORB算法完成特征提取与匹配的图像预处理过程，算法快速性得到保证；采用KNN分类器算法提高了场景识别率，可满足移动机器人室内常见场景查询应用需求。

Description

一种基于视觉词袋模型的室内场景认知方法

技术领域

本发明属于移动机器人环境感知领域，特别涉及一种基于视觉词袋模型的室内场景认知方法。

背景技术

通常情况下，栅格地图可满足机器人对导航、避障任务的底层需求，然而对于完成诸如人机交互和任务规划一类的高层任务，还需要获取关于场景认知的语义信息，创建面向认知的语义地图。移动机器人在室内场景中移动，不知晓自身所在位置属于客厅、厨房抑或是卧室，则不能完成类似于为人类到厨房的冰箱里取瓶矿泉水这样的高智能任务了。

发明内容

本发明的目的在于提出一种基于视觉词袋模型的室内场景认知方法。

本发明的目的是这样实现的：

本发明包括离线和在线两个部分，具体步骤如下：

离线部分：

(1)依据应用需求确定场景类别，机器人利用搭载的RGB-D传感器扫描各个场景，获得足够多的场景图像组成图像训练集；

(2)利用ORB算法生成图像训练集中每一幅图像的ORB 256维描述符，每幅图像通常包含成百上千个ORB矢量；

(3)利用K-means聚类算法对图像训练集中ORB特征点进行训练，生成K个类心组成视觉词汇，构造出视觉词典；

(4)针对所有图像的ORB特征，计算每一个视觉单词出现的频率和逆频率，通过TF-IDF对频数表添加权重，生成加权的训练集各图像的视觉词袋模型；保存视觉词典和训练集视觉词袋模型就获得了新形式的离线语义地图；

在线部分：

(5)机器人接收到当前场景类别查询指令，***初始化，准备进行场景查询；

(6)机器人利用其搭载的摄像机获取当前场景的RGB图像，并采用ORB算法检测并提取特征点集；

(7)查询语义地图数据库，比对视觉词典，生成当前场景图像的加权视觉词袋模型；

(8)采用KNN分类器将当前场景图像的视觉词袋模型与语义地图数据库训练集视觉词袋模型对比，最终确定当前场景类别，并返回查询结果。

所述的步骤(3)包括以下几个子步骤：

(3.1)在特征点集X中随机挑选k个样本点作为初始聚类中心

(3.2)计算特征点集中每个特征点x_i(i＝1,2,…,n)到所有聚类中心的距离且将特征点x_i划分到与其距离最近的类m_j中；

(3.3)计算各个类的聚类中心j＝1,2,…,k，其中n_j为划分到类簇m_j中特征点数目，计算目标函数W_n(t)，并与前一次计算结果作差，如果W_n(t)-W_n(t-1)＜0，继续迭代步骤(3.2)、(3.3)；否则，退出迭代，计算结束；将获得的k个聚类中心作为视觉单词，将所有视觉单词列表存储获得视觉词典；

所述步骤(3)视觉词典单词容量参数K设为900。

所述步骤(8)中KNN分类器参数K设置为1。

本发明的有益效果在于：

本发明采用ORB算法完成特征提取与匹配的图像预处理过程，算法快速性得到保证；采用KNN分类器算法提高了场景识别率，可满足移动机器人室内常见场景查询应用需求。

附图说明

图1为基于视觉词袋模型的室内场景认知方法算法流程示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明公开了一种基于视觉词袋模型的室内场景认知方法，本发明方法包括离线地图生成和在线地图查询两部分。离线地图生成部分包括：扫描场景获取场景训练集；ORB特征检测与描述；K均值聚类提取类心构造视觉词典；TF-IDF技术添加权重生成训练集视觉词袋模型数据库。在线地图查询部分包括：接收场景查询指令；获取当前场景RGB图像并提取ORB特征；查询地图数据库视觉词典，生成当前场景图像视觉词袋模型；KNN分类器对比地图数据库训练集与当前场景词袋模型，判定当前场景类别。通过上述方式，本发明能够快速准确地帮助移动机器人完成室内场景认知，从而更好地同人类交互。

为解决上述问题，本发明提出基于视觉词袋模型的室内场景认知方法，从而建立室内常见场景视觉词典，建立一种面向室内场景认知的新的语义地图形式，然后用于机器人室内场景类别查询。

为达到上述目的，本发明的技术方案包含以下要点：

离线部分：

步骤1.扫描场景获取场景训练集；

步骤2.ORB特征检测与描述；

步骤3.K均值聚类提取类心构造视觉词典；

步骤4.TF-IDF技术添加权重生成训练集视觉词袋模型数据库；

在线部分：

步骤1.获取当前场景RGB图像并提取ORB特征；

步骤2.查询地图数据库视觉词典生成当前场景图像视觉词袋模型；

步骤3.KNN分类器对比地图数据库训练集与当前场景词袋模型，判定当前场景类别。

基于视觉词袋模型的室内场景认知方法算法流程如图1所示，可分为离线和在线两个部分，具体实施步骤如下：

(1)离线地图生成：

步骤1.依据应用需求确定场景类别，机器人利用搭载的RGB-D传感器扫描各个场景，获得足够多的场景图像组成图像训练集。

步骤2.利用ORB算法生成图像训练集中每一幅图像的ORB 256维描述符，每幅图像通常包含成百上千个ORB矢量。

步骤3.利用K-means聚类算法对图像训练集中ORB特征点进行训练，生成K个类心组成视觉词汇，构造出视觉词典。对于室内10个左右的场景，取K＝900可获得约80％的场景识准率，且算法具备不错的快速性，所以本发明参数K选取900。

K-means算法是一种无监督自适应聚类分析算法，具有效率高、适合大规模数据处理的优点。其核心思想是在特征点集X＝{x₁,x₂,…,x_n}中得到k个聚类中心{m₁,m₂,…,m_k}，满足特征点集合中的特征点到所属类心的的距离平方和最小，其目标函数表达式为：

步骤3具体包括以下几个子步骤：

步骤3.1.在特征点集X中随机挑选k个样本点作为初始聚类中心

步骤3.2.计算特征点集中每个特征点x_i(i＝1,2,…,n)到所有聚类中心的距离且将特征点x_i划分到与其距离最近的类m_j中；

步骤3.3.计算各个类的聚类中心j＝1,2,…,k，其中n_j为划分到类簇m_j中特征点数目，据式(1)计算目标函数W_n(t)，并与前一次计算结果作差，如果W_n(t)-W_n(t-1)＜0，继续迭代步骤3.2、3.3；否则，退出迭代，计算结束。将获得的k个聚类中心作为视觉单词，将所有视觉单词列表存储获得视觉词典。

步骤4.针对所有图像的ORB特征，计算每一个视觉单词出现的频率(TF)和逆频率(IDF)，通过TF-IDF对频数表添加权重，生成加权的训练集各图像的视觉词袋模型。保存视觉词典和训练集视觉词袋模型就获得了新形式的离线语义地图。

在获得视觉词典后，就可利用视觉词典经统计得到图像的视觉单词频数直方图描述。对于每一幅训练图像和测试图像，将提取获得的众多底层特征与视觉词典中的单词进行匹配，找到最接近的一个代替描述，最后统计各个单词出现的次数，就获得了图像基于频数直方图的视觉词袋表示。

假设视觉词典为{m₁,m₂,…,m_k}，采用最近邻算法计算ORB底层特征与每个视觉单词之间的欧式距离，从而将特征v_i用离他最近的视觉单词代替描述，如式(2)所示。

(2)在线地图查询：

步骤1.机器人接收到当前场景类别查询指令，***初始化，准备进行场景查询。

步骤2.机器人利用其搭载的摄像机获取当前场景的RGB图像，并采用ORB算法检测并提取特征点集。

步骤3.查询语义地图数据库，比对视觉词典，生成当前场景图像的加权视觉词袋模型。

步骤4.采用KNN分类器将当前场景图像的视觉词袋模型与语义地图数据库训练集视觉词袋模型对比，最终确定当前场景类别，并返回查询结果。

KNN算法的基本思想可表述为：计算待定当前场景视觉词袋模型与训练集各视觉词袋的相似度，找出最相似的K各样本，根据这K个样本的类别投票结果确定当前场景视觉的类别。这里的相似性度量采用欧式距离，两个n维向量a＝(x₁₁,x₁₂,…,x_1n)和b＝(x₂₁,x₂₂,…,x_2n)的欧式距离为：

用向量运算的形式表达，则：

经实验，KNN参数K选为1或3具有较高的场景识准率，本发明KNN参数K选1。

Claims

1.一种基于视觉词袋模型的室内场景认知方法，其特征在于，包括离线和在线两个部分，具体步骤如下：

离线部分：

在线部分：

2.根据权利要求1所述的一种基于视觉词袋模型的室内场景认知方法，其特征在于：所述的步骤(3)包括以下几个子步骤：

(3.1)在特征点集X中随机挑选k个样本点作为初始聚类中心

(3.3)计算各个类的聚类中心其中n_j为划分到类簇m_j中特征点数目，计算目标函数W_n(t)，并与前一次计算结果作差，如果W_n(t)-W_n(t-1)＜0，继续迭代步骤(3.2)、(3.3)；否则，退出迭代，计算结束；将获得的k个聚类中心作为视觉单词，将所有视觉单词列表存储获得视觉词典；

W_{n} = Σ_{i = 1}^{n} \min_{1 \leq j \leq k} | x_{i} - m_{j} |^{2}

3.根据权利要求1所述的一种基于视觉词袋模型的室内场景认知方法，其特征在于：所述步骤(3)视觉词典单词容量参数K设为900。

4.根据权利要求1所述的一种基于视觉词袋模型的室内场景认知方法，其特征在于：所述步骤(8)中KNN分类器参数K设置为1。