CN111414962A - 一种引入物体关系的图像分类方法 - Google Patents
一种引入物体关系的图像分类方法 Download PDFInfo
- Publication number
- CN111414962A CN111414962A CN202010195840.3A CN202010195840A CN111414962A CN 111414962 A CN111414962 A CN 111414962A CN 202010195840 A CN202010195840 A CN 202010195840A CN 111414962 A CN111414962 A CN 111414962A
- Authority
- CN
- China
- Prior art keywords
- representing
- image
- classified
- input image
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种引入物体关系的图像分类方法,包括:步骤S1,通过注意力机制构建输入图像上的各个物体间的关系;步骤S2,基于所构建的各物体间的关系在输入图像上对各物体进行分类标注和位置标注;步骤S3,对所标注的分类特征图和位置特征图进行采样,并将采样得到的特征图作为注意力模型训练样本,训练得到注意力模型;步骤S4,通过注意力模型对输入图像进行目标分类识别。本发明利用注意力机制,构建场景图像中各物体间的物体关系,然后基于所构建的物体关系对物体特征进行图像标注,最后提取所标注的特征图像作为模型训练样本,训练得到注意力模型,并通过注意力模型对场景图像进行图像分类识别,提高了对目标分类识别检测的准确率。
Description
技术领域
本发明涉及目标分类检测技术领域,具体涉及一种引入物体关系的图像分类方法。
背景技术
目前应用在商品分类识别技术领域的深度学习算法主要通过特征提取器提取单个物体的图像特征,然后对获得的特征进行分类,在分类检测过程中没有考虑待识别物体间的关系。根据日常经验,相邻摆放的商品比如货架上相邻摆放的商品通常属于相似品类,而且通过比较不同大小的两件商品更容易分辨出商品的规格,所以同一张图片中物体间的相互关系对于商品分类能起到很大的帮助作用。现有的商品分类算法将图片中每个物体的识别看做是相互独立的检测任务,而物体间的关系并未得到有效利用,导致现有的分类检测算法分类准确率较低。
发明内容
本发明的目的在于提供一种引入物体关系的图像分类方法,以解决上述技术问题。
为达此目的,本发明采用以下技术方案:
提供一种引入物体关系的图像分类方法,包括如下步骤:
步骤S1,通过注意力机制构建输入图像上的各个物体间的关系;
步骤S2,基于所构建的各所述物体间的所述关系在所述输入图像上对各所述物体进行分类标注和位置标注;
步骤S3,对所标注的分类特征图和位置特征图进行采样,并将采样得到的特征图作为注意力模型训练样本,训练得到所述注意力模型;
步骤S4,通过所述注意力模型对所述输入图像进行目标分类识别。
作为本发明的一种优选方案,所述步骤S1中,所述注意力机制构建的各所述物体间的所述关系通过以下公式(1)表达:
Wv表示一第一线性变换矩阵;
m用于表示所述输入图像上第m个待分类的所述物体;
n用于表示所述输入图像上第n个待分类的所述物体。
作为本发明的一种优选方案,公式(1)中的wmn通过以下公式(2)表达:
公式(3)中,WK和WQ分别表示第二线性变换矩阵和第三线性变换矩阵;
dk用于表示各所述矩阵的维度;
公式(4)中,WG表示第四线性变换矩阵;
εG为通过所述注意力机制将所述输入图像上的两个所述物体相对的四维坐标变换到高维空间后得到的一坐标特征;
k用于表示所述输入图像上的第k个待分类的所述物体。
作为本发明的一种优选方案,所述四维坐标表达如下:
xm和xn分别表示第m个待分类的所述物体的图像中心点和第n个待分类的所述物体的图像中心点在所述输入图像上的横坐标;
ym和yn分别表示第m个待分类的所述物体的图像中心点和第n个待分类的所述物体的图像中心点在所述输入图像上的纵坐标;
wm表示第m个待分类的所述物体的特征图像的图宽;
hm表示第m个待分类的所述物体的所述特征图像的图高。
本发明利用注意力机制,构建场景图像中各物体间的物体关系,然后基于所构建的物体关系对物体特征进行图像标注,最后提取所标注的特征图像作为模型训练样本,训练得到注意力模型,并通过注意力模型对场景图像进行图像分类识别,提高了对目标分类识别检测的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例所述的引入物体关系的图像分类方法的步骤图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明一实施例提供的引入物体关系的图像分类方法,请参照图1,包括如下步骤:
步骤S1,通过注意力机制构建输入图像上的各物体间的关系(包括物体间的视觉特征关系和位置特征关系);
步骤S2,基于所构建的各物体间的关系在输入图像上对各物体进行分类标注和位置标注;
步骤S3,对所标注的分类特征图和位置特征图进行采样,并将采样得到的特征图作为注意力模型训练样本,训练得到注意力模型;
步骤S4,通过该注意力模型对输入图像进行目标分类识别。
首先对注意力机制的一般形式表达如下:
注意力机制是输入q(query)到一系列键值对(key,value)上的函数映射关系。
Keys和values分别构成矩阵K和矩阵V,矩阵的维度是dk。
步骤S1中,注意力机制构建的各物体间的关系通过以下公式(1)表达:
Wv表示一第一线性变换矩阵;
m用于表示所述输入图像上第m个待分类的所述物体;
n用于表示所述输入图像上第n个待分类的所述物体。
公式(1)中的wmn通过以下公式(2)表达:
公式(3)中,WK和WQ分别表示第二线性变换矩阵和第三线性变换矩阵;
dk用于表示各矩阵的维度;
公式(4)中,WG表示第四线性变换矩阵;
εG为通过注意力机制将输入图像上的两个物体相对的四维坐标变换到高维空间后得到的一坐标特征;εG的计算过程为现有方法,由于εG的计算过程并非本发明要求权利保护的范围,所以关于εG的具体计算过程在此不作阐述。
k用于表示输入图像上的第k个待分类的物体;
这里需要说明的是,上述的线性变换矩阵Wv、WK、WQ、WG都是同时在注意力模型训练过程中训练得到的。由于线性变换矩阵的形成过程并非本发明要求权利保护的范围,所以关于线性变换矩阵的形成过程在此不作阐述。
作为一种优选情况,输入图像上的两个物体间相对的四维坐标表达如下:
xm和xn分别表示第m个待分类的物体的图像中心点和第n个待分类的物体的图像中心点在输入图像上的横坐标;
ym和yn分别表示第m个待分类的物体的图像中心点和第n个待分类的物体的图像中心点在输入图像上的纵坐标;
wm表示第m个待分类的物体的特征图像的图宽;
hm表示第m个待分类的物体的特征图像的图高。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
Claims (4)
1.一种引入物体关系的图像分类方法,其特征在于,包括如下步骤:
步骤S1,通过注意力机制构建输入图像上的各个物体间的关系;
步骤S2,基于所构建的各所述物体间的所述关系在所述输入图像上对各所述物体进行分类标注和位置标注;
步骤S3,对所标注的分类特征图和位置特征图进行采样,并将采样得到的特征图作为注意力模型训练样本,训练得到所述注意力模型;
步骤S4,通过所述注意力模型对所述输入图像进行目标分类识别。
3.如权利要求2所述的图像分类方法,其特征在于,公式(1)中的wmn通过以下公式(2)表达:
公式(3)中,WK和WQ分别表示第二线性变换矩阵和第三线性变换矩阵;
dk用于表示各所述矩阵的维度;
公式(4)中,WG表示第四线性变换矩阵;
εG为通过所述注意力机制将所述输入图像上的两个所述物体相对的四维坐标变换到高维空间后得到的一坐标特征;
k用于表示所述输入图像上的第k个待分类的所述物体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010195840.3A CN111414962B (zh) | 2020-03-19 | 2020-03-19 | 一种引入物体关系的图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010195840.3A CN111414962B (zh) | 2020-03-19 | 2020-03-19 | 一种引入物体关系的图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414962A true CN111414962A (zh) | 2020-07-14 |
CN111414962B CN111414962B (zh) | 2023-06-23 |
Family
ID=71491248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010195840.3A Active CN111414962B (zh) | 2020-03-19 | 2020-03-19 | 一种引入物体关系的图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414962B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022041222A1 (en) * | 2020-08-31 | 2022-03-03 | Top Team Technology Development Limited | Process and system for image classification |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948165A (zh) * | 2019-04-24 | 2019-06-28 | 吉林大学 | 基于混合注意力网络的细粒度情感极性预测方法 |
CN109948699A (zh) * | 2019-03-19 | 2019-06-28 | 北京字节跳动网络技术有限公司 | 用于生成特征图的方法和装置 |
CN110084128A (zh) * | 2019-03-29 | 2019-08-02 | 安徽艾睿思智能科技有限公司 | 基于语义空间约束和注意力机制的场景图生成方法 |
CN110097019A (zh) * | 2019-05-10 | 2019-08-06 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、计算机设备以及存储介质 |
WO2019153908A1 (zh) * | 2018-02-11 | 2019-08-15 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和*** |
CN110135406A (zh) * | 2019-07-09 | 2019-08-16 | 北京旷视科技有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN110188765A (zh) * | 2019-06-05 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像语义分割模型生成方法、装置、设备及存储介质 |
CN110276269A (zh) * | 2019-05-29 | 2019-09-24 | 西安交通大学 | 一种基于注意力机制的遥感图像目标检测方法 |
US20190311223A1 (en) * | 2017-03-13 | 2019-10-10 | Beijing Sensetime Technology Development Co., Ltd. | Image processing methods and apparatus, and electronic devices |
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及*** |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN110705613A (zh) * | 2019-09-19 | 2020-01-17 | 创新奇智(青岛)科技有限公司 | 物体分类方法 |
CN110852393A (zh) * | 2019-11-14 | 2020-02-28 | 吉林高分遥感应用研究院有限公司 | 一种遥感图像的分割方法及*** |
-
2020
- 2020-03-19 CN CN202010195840.3A patent/CN111414962B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190311223A1 (en) * | 2017-03-13 | 2019-10-10 | Beijing Sensetime Technology Development Co., Ltd. | Image processing methods and apparatus, and electronic devices |
WO2019153908A1 (zh) * | 2018-02-11 | 2019-08-15 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和*** |
CN109948699A (zh) * | 2019-03-19 | 2019-06-28 | 北京字节跳动网络技术有限公司 | 用于生成特征图的方法和装置 |
CN110084128A (zh) * | 2019-03-29 | 2019-08-02 | 安徽艾睿思智能科技有限公司 | 基于语义空间约束和注意力机制的场景图生成方法 |
CN109948165A (zh) * | 2019-04-24 | 2019-06-28 | 吉林大学 | 基于混合注意力网络的细粒度情感极性预测方法 |
CN110097019A (zh) * | 2019-05-10 | 2019-08-06 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、计算机设备以及存储介质 |
CN110276269A (zh) * | 2019-05-29 | 2019-09-24 | 西安交通大学 | 一种基于注意力机制的遥感图像目标检测方法 |
CN110188765A (zh) * | 2019-06-05 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像语义分割模型生成方法、装置、设备及存储介质 |
CN110135406A (zh) * | 2019-07-09 | 2019-08-16 | 北京旷视科技有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN110472642A (zh) * | 2019-08-19 | 2019-11-19 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及*** |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
CN110705613A (zh) * | 2019-09-19 | 2020-01-17 | 创新奇智(青岛)科技有限公司 | 物体分类方法 |
CN110852393A (zh) * | 2019-11-14 | 2020-02-28 | 吉林高分遥感应用研究院有限公司 | 一种遥感图像的分割方法及*** |
Non-Patent Citations (4)
Title |
---|
万璋等: "融合物体空间关系机制的图像摘要生成方法", 《北京大学学报(自然科学版)》 * |
张兰霞等: "基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究", 《计算机应用与软件》, no. 11 * |
张军阳: "基于深度学习的图像理解关键问题及实现技术研究", 《硕士论文》 * |
秦淑婧等: "增强视觉特征的视觉问答任务研究", 《中原工学院学报》, no. 01 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022041222A1 (en) * | 2020-08-31 | 2022-03-03 | Top Team Technology Development Limited | Process and system for image classification |
Also Published As
Publication number | Publication date |
---|---|
CN111414962B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830285B (zh) | 一种基于Faster-RCNN的加强学习的目标检测方法 | |
CN110163286B (zh) | 一种基于混合池化的领域自适应图像分类方法 | |
CN107451565B (zh) | 一种半监督小样本深度学习图像模式分类识别方法 | |
CN112528928B (zh) | 一种基于自注意力深度网络的商品识别方法 | |
Tarawneh et al. | Invoice classification using deep features and machine learning techniques | |
Haque et al. | Two-handed bangla sign language recognition using principal component analysis (PCA) and KNN algorithm | |
CN104408479A (zh) | 一种基于深度局部特征描述符的海量图像分类方法 | |
CN113808166B (zh) | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 | |
Hossain et al. | Recognition and solution for handwritten equation using convolutional neural network | |
CN111709313A (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN106022223A (zh) | 一种高维局部二值模式人脸识别方法及*** | |
CN112101467A (zh) | 一种基于深度学习的高光谱图像分类方法 | |
CN112733912A (zh) | 基于多粒度对抗损失的细粒度图像识别方法 | |
CN111368775A (zh) | 一种基于局部上下文感知的复杂场景密集目标检测方法 | |
CN111104924B (zh) | 一种识别低分辨率商品图像的处理算法 | |
CN111882000A (zh) | 一种应用于小样本细粒度学习的网络结构及方法 | |
Lee et al. | License plate detection via information maximization | |
CN111414962A (zh) | 一种引入物体关系的图像分类方法 | |
Ai et al. | Color independent components based SIFT descriptors for object/scene classification | |
US8724890B2 (en) | Vision-based object detection by part-based feature synthesis | |
CN109389017B (zh) | 行人再识别方法 | |
CN107679467B (zh) | 一种基于hsv和sdalf的行人重识别算法实现方法 | |
CN108960005B (zh) | 一种智能视觉物联网中对象视觉标签的建立及显示方法、*** | |
CN102968622A (zh) | 一种台标识别方法以及台标识别装置 | |
Jubair et al. | A simplified method for handwritten character recognition from document image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |