CN112464010A - 一种基于贝叶斯网络和分类器链的图像自动标注方法 - Google Patents
一种基于贝叶斯网络和分类器链的图像自动标注方法 Download PDFInfo
- Publication number
- CN112464010A CN112464010A CN202011493104.2A CN202011493104A CN112464010A CN 112464010 A CN112464010 A CN 112464010A CN 202011493104 A CN202011493104 A CN 202011493104A CN 112464010 A CN112464010 A CN 112464010A
- Authority
- CN
- China
- Prior art keywords
- bayesian network
- label
- image
- classifier
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 14
- 230000009194 climbing Effects 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 3
- 239000002243 precursor Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于贝叶斯网络和分类器链的图像自动标注方法,利用改进的BIC评分函数的方法来学习贝叶斯网络结构,通过DBSCAN算法对标签进行聚类,并为每个标签子集学习贝叶斯网络,通过标签和特征之间的贝叶斯网络进行特征选择并且根据贝叶斯网络的拓扑顺序构建分类器链,通过贝叶斯网络和分类器链算法构造图像预测标签集本方法能够对所有类型的图像进行标注,通用性强;同时,能够处理包含连续特征和离散特征的图像,具有良好的适应性,且有效提高了图像标注的鲁棒性和准确性。
Description
技术领域
本发明涉及图像检索技术领域,特别是涉及一种基于贝叶斯网络和分类器链的图像自动标注方法。
背景技术
随着多媒体、图像信息等技术的逐步发展,图像数据库的规模越来越大,这也使得对视觉信息的管理成为重中之重,而图像检索技术则能够起到视觉信息管理的作用。传统的手工图像标注方法不但工作量大,而且不可避免地带来主观性和不精确性,让计算机实现图像自动标注势在必行。图像自动标注是让计算机自动地给图像加上能够反映其内容的语义关键词,自动标注的使用能够有效地改善目前图像检索的困境。贝叶斯网络算法是一种常见的概率图模型,充分考虑了所求标签之间的相关性,分类器链算法是一种充分利用标签之间相关性的模型,因此,如何提供一种基于贝叶斯网络和分类器链的图像自动标注方法是目前亟待解决的技术问题。
发明内容
本发明的目的是提供一种基于贝叶斯网络和分类器链的图像自动标注方法,以解决现有技术中存在的技术问题,能够对所有类型的图像进行标注,通用性和适应性强,且有效提高了图像自动标注的鲁棒性和准确性。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于贝叶斯网络和分类器链的图像自动标注方法,包括如下步骤:
步骤S1、获取样本图像,提取样本图像的特征构成训练集和测试集,并获取样本图像的标签,构建总标签集;
步骤S2、对训练集、测试集中样本图像的特征进行归一化处理;
步骤S3、基于总标签集中的每一个标签、归一化处理后的样本图像的特征,通过改进的贝叶斯信息准则BIC评分函数的评分搜索方法构建贝叶斯网络,通过贝叶斯网络进行特征选择,得到每一个标签对应的特征子集;
步骤S4、基于每一个标签对应的特征子集,采用密度聚类DBSCAN对总标签集中的标签进行聚类,生成标签子集;
步骤S5、基于改进的BIC评分函数的评分搜索方法分别为每个标签子集构建一个贝叶斯网络结构;
步骤S6、对于每个标签子集构建的贝叶斯网络结构,进行拓扑顺序提取,并基于拓扑顺序构建分类器链;通过训练集和测试集分别对分类器链中的各基分类器进行训练和测试,得到训练好的分类器链,通过训练好的分类器链对待测图像进行类别预测,完成图像的自动标注。
优选地,所述步骤S3中,分别为每个标签lq构建一个贝叶斯网络其中,fww为改进的评分函数,为贝叶斯网络G在数据集下的评分函数值,是指使得最大的贝叶斯网络;最终得到每个标签lq对应的特征子集d=1,2,…,Dq,Dq为标签lq对应的特征子集的特征个数。
优选地,所述步骤S5具体包括:
根据所述步骤S3中的评分函数,在初始贝叶斯网络中,不断增加代表标签的节点;
随机选取一个标签作为爬山搜索的起点;
通过加边、减边或翻转,进行贝叶斯网络结构的构建。
优选地,所述贝叶斯网络结构的构建过程中,满足评分函数最大化的条件,得到每个标签子集对应的贝叶斯网络结构。
优选地,所述步骤S6中,通过训练集对分类器链中的各基分类器进行训练的过程包括:
基于每个标签子集Lr(r=1,2,…s)对应的贝叶斯网络,构建标签依赖字典dependency_dictr={<keyq,valueq>},keyq为标签子集中的第q个标签,valueq为标签子集中第q个标签的父节点集;将标签依赖字典中的keyq对应的特征子集与valueq进行拼接,形成新的特征集,完成基分类器的训练。
优选地,所述基分类器采用逻辑回归模型。
优选地,所述步骤S6中,通过训练好的分类器链对待测图像进行类别预测的方法包括:
对于每个待测图像,将特征输入到无前驱节点标签对应的基分类器中,得到预测结果;将预测结果输入至分类器链的其他基分类器中,综合所有的输出集为最终的图像预测结果集,完成图像的自动标注。
本发明公开了以下技术效果:
本发明利用改进的BIC评分函数的方法来学习贝叶斯网络结构,通过DBSCAN算法对标签进行聚类,并为每个标签子集学习贝叶斯网络,通过标签和特征之间的贝叶斯网络进行特征选择并且根据贝叶斯网络的拓扑顺序构建分类器链,通过贝叶斯网络和分类器链算法构造图像预测标签集本方法能够对所有类型的图像进行标注,通用性强;同时,能够处理包含连续特征和离散特征的图像,具有良好的适应性,且有效提高了图像标注的鲁棒性和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于贝叶斯网络和分类器链的图像自动标注方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1所示,本实施例提供一种基于贝叶斯网络和分类器链的图像自动标注方法,具体包括如下步骤:
步骤S1、获取样本图像,提取样本图像的特征构成训练集和测试集,并获取样本图像的标签,构建总标签集;
本实施例中,训练集和测试集分别表示为:
其中,m为训练集中的样本个数,n为测试集中的样本个数,i为图像编号,为第i幅图像xi的特征向量,D为特征的总个数,表示第i幅图像xi的第d个特征,d=1,2,...,D;为第i幅图像xi的标签集对应的标签向量,L={l1,l2,...,lQ}为总标签集,lq为L中的第q个标签,Q为标签总数量。
步骤S2、对训练集、测试集中样本图像的特征进行归一化处理;
本实施例中,归一化处理如下式所示:
步骤S3、基于总标签集中的每一个标签lq、归一化处理后的样本图像的特征xd :norm,通过改进的BIC(Bayesian Information Criterion,贝叶斯信息准则)评分函数的评分搜索方法构建贝叶斯网络Gq,通过贝叶斯网络Gq进行特征选择,得到每一个标签对应的特征子集;
本实施例中,分别为每个标签lq构建一个贝叶斯网络用来表示标签lq与特征变量之间的关系;其中,fww为改进的评分函数,为贝叶斯网络G在数据集下的评分函数值,是指所有可能的贝叶斯网络中使得最大的贝叶斯网络;通过提取网络Gq中的特征得到每个标签lq对应的特征子集d=1,2,…,Dq,Dq为标签lq对应的特征子集的特征个数。
基于改进的BIC评分函数的评分搜索方法构建贝叶斯网络结构的具体方法包括:
S3-1、定义其中T表示贝叶斯网络中节点的个数,Jt为节点Nt的父节点的状态量个数,Kt为节点Nt的状态变量个数,η为调节参数,本实施例中η=10,m为训练集中的样本个数,Ut为节点Nt的父节点个数,counttjk表示数据集中节点Nt的状态量为k,且其父节点状态量为j的样本个数,且 表示Nt和u之间的标准化互信息量;表示Nt和u之间的互信息,H()表示求解信息熵,p()表示求解概率。
步骤S4、基于每一个标签对应的特征子集,采用密度聚类DBSCAN(Density-BasedSpatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)对总标签集中的标签进行聚类,生成标签子集L1,L2,...,Ls,s为标签子集的个数。
步骤S5、基于改进的BIC评分函数的评分搜索方法分别为每个标签子集Lr(r=1,2,…s)构建一个贝叶斯网络结构Gr;具体包括如下步骤:
根据步骤S3-1中定义的评分函数,在一个初始网络中,不断增加代表标签的节点,其中,初始网络为相互不连接的空网络;
选取标签lq(q=1,2,…,Q)作为爬山搜索的起点,以确保网络中一定有标签lq(由于特征数量巨大,且爬山搜索到达评分函数增量小于1e-8时会停止搜索,因此标签与特征之间的网络仅包含部分特征);其中,Q为标签总数量;通过加边、减边或翻转,进行贝叶斯网络结构的构建,构建的贝叶斯网络结构中,包含的特征节点即为标签lq所对应的特征子集d=1,2,…,Dq,Dq为标签lq对应的特征子集的特征个数;其中,网络结构的构建过程中,满足评分函数的最大化,得到贝叶斯网络结构。
步骤S6、对于每个标签子集构建的贝叶斯网络结构Gr,进行拓扑顺序提取,并基于拓扑顺序构建分类器链;通过训练集和测试集分别对分类器链中的各基分类器进行训练和测试,得到训练好的分类器链,通过训练好的分类器链对待测图像进行类别预测,完成图像的自动标注。
解析步骤S5中每个标签子集Lr(r=1,2,…s)对应的贝叶斯网络结构Gr,构建标签依赖字典dependency_dictr={<keyq,valueq>},r=1,2,…s,q=1,2,…Qr,Qr为标签子集Lr拥有的标签个数,keyq为标签子集中的第q个标签,valueq为标签子集中第q个标签的父节点集;由于有些标签没有父标签(标签网络中的根节点),因此这样的标签没有需要依赖的标签,其value为null。
通过训练集对分类器链中的各基分类器进行训练的过程包括:
每个标签子集Lr(r=1,2,…s)均得到标签依赖字典dependency_dictr={<keyq,valueq>};对于标签依赖字典中的每个key,将其对应的特征子集d=1,2,…,Dq与其在dependency_dictr中对应的value(lq1,lq2,...,lqn)进行拼接形成新的特征集;其中,qn为value中的标签个数,标签lq作为预测目标对每个key训练一个基分类器;所述基分类器采用逻辑回归模型,本实施例中,分类阈值为0.5。
通过训练好的分类器链对待测图像进行类别预测的方法包括:
对于每个待测图像,将特征输入到无前驱节点标签对应的基分类器中,得到预测结果;将预测结果输入至对应的其他基分类器中,综合所有的输出集为最终的图像预测结果集,完成图像的自动标注。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (8)
1.一种基于贝叶斯网络和分类器链的图像自动标注方法,其特征在于,包括如下步骤:
步骤S1、获取样本图像,提取样本图像的特征构成训练集和测试集,并获取样本图像的标签,构建总标签集;
步骤S2、对训练集、测试集中样本图像的特征进行归一化处理;
步骤S3、基于总标签集中的每一个标签、归一化处理后的样本图像的特征,通过改进的贝叶斯信息准则BIC评分函数的评分搜索方法构建贝叶斯网络,通过贝叶斯网络进行特征选择,得到每一个标签对应的特征子集;
步骤S4、基于每一个标签对应的特征子集,采用密度聚类DBSCAN对总标签集中的标签进行聚类,生成标签子集;
步骤S5、基于改进的BIC评分函数的评分搜索方法分别为每个标签子集构建一个贝叶斯网络结构;
步骤S6、对于每个标签子集构建的贝叶斯网络结构,进行拓扑顺序提取,并基于拓扑顺序构建分类器链;通过训练集和测试集分别对分类器链中的各基分类器进行训练和测试,得到训练好的分类器链,通过训练好的分类器链对待测图像进行类别预测,完成图像的自动标注。
4.根据权利要求3所述的基于贝叶斯网络和分类器链的图像自动标注方法,其特征在于,所述步骤S5具体包括:
根据所述步骤S3中的评分函数,在初始贝叶斯网络中,不断增加代表标签的节点;
随机选取一个标签作为爬山搜索的起点;
通过加边、减边或翻转,进行贝叶斯网络结构的构建。
5.根据权利要求4所述的基于贝叶斯网络和分类器链的图像自动标注方法,其特征在于,所述贝叶斯网络结构的构建过程中,满足评分函数最大化的条件,得到每个标签子集对应的贝叶斯网络结构。
6.根据权利要求4所述的基于贝叶斯网络和分类器链的图像自动标注方法,其特征在于,所述步骤S6中,通过训练集对分类器链中的各基分类器进行训练的过程包括:
基于每个标签子集Lr(r=1,2,…s)对应的贝叶斯网络,构建标签依赖字典dependency_dictr={<keyq,valueq>},keyq为标签子集中的第q个标签,valueq为标签子集中第q个标签的父节点集;将标签依赖字典中的keyq对应的特征子集与valueq进行拼接,形成新的特征集,完成基分类器的训练。
7.根据权利要求6所述的基于贝叶斯网络和分类器链的图像自动标注方法,其特征在于,所述基分类器采用逻辑回归模型。
8.根据权利要求6所述的基于贝叶斯网络和分类器链的图像自动标注方法,其特征在于,所述步骤S6中,通过训练好的分类器链对待测图像进行类别预测的方法包括:
对于每个待测图像,将特征输入到无前驱节点标签对应的基分类器中,得到预测结果;将预测结果输入至分类器链的其他基分类器中,综合所有的输出集为最终的图像预测结果集,完成图像的自动标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011493104.2A CN112464010B (zh) | 2020-12-17 | 2020-12-17 | 一种基于贝叶斯网络和分类器链的图像自动标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011493104.2A CN112464010B (zh) | 2020-12-17 | 2020-12-17 | 一种基于贝叶斯网络和分类器链的图像自动标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464010A true CN112464010A (zh) | 2021-03-09 |
CN112464010B CN112464010B (zh) | 2021-08-27 |
Family
ID=74802917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011493104.2A Expired - Fee Related CN112464010B (zh) | 2020-12-17 | 2020-12-17 | 一种基于贝叶斯网络和分类器链的图像自动标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464010B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101256641A (zh) * | 2008-03-11 | 2008-09-03 | 浙江大学 | 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法 |
CN109003279A (zh) * | 2018-07-06 | 2018-12-14 | 东北大学 | 一种基于K-Means聚类标注和朴素贝叶斯模型的眼底视网膜血管分割方法及*** |
US10311442B1 (en) * | 2007-01-22 | 2019-06-04 | Hydrojoule, LLC | Business methods and systems for offering and obtaining research services |
CN110704624A (zh) * | 2019-09-30 | 2020-01-17 | 武汉大学 | 一种地理信息服务元数据文本多层级多标签分类方法 |
CN111402224A (zh) * | 2020-03-12 | 2020-07-10 | 广东电网有限责任公司广州供电局 | 一种用于电力设备的目标识别方法 |
WO2020144525A1 (en) * | 2019-01-09 | 2020-07-16 | Chevron Usa Inc. | System and method for deriving high-resolution subsurface reservoir parameters |
CN111783831A (zh) * | 2020-05-29 | 2020-10-16 | 河海大学 | 基于多源多标签共享子空间学习的复杂图像精确分类方法 |
-
2020
- 2020-12-17 CN CN202011493104.2A patent/CN112464010B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311442B1 (en) * | 2007-01-22 | 2019-06-04 | Hydrojoule, LLC | Business methods and systems for offering and obtaining research services |
CN101256641A (zh) * | 2008-03-11 | 2008-09-03 | 浙江大学 | 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法 |
CN109003279A (zh) * | 2018-07-06 | 2018-12-14 | 东北大学 | 一种基于K-Means聚类标注和朴素贝叶斯模型的眼底视网膜血管分割方法及*** |
WO2020144525A1 (en) * | 2019-01-09 | 2020-07-16 | Chevron Usa Inc. | System and method for deriving high-resolution subsurface reservoir parameters |
CN110704624A (zh) * | 2019-09-30 | 2020-01-17 | 武汉大学 | 一种地理信息服务元数据文本多层级多标签分类方法 |
CN111402224A (zh) * | 2020-03-12 | 2020-07-10 | 广东电网有限责任公司广州供电局 | 一种用于电力设备的目标识别方法 |
CN111783831A (zh) * | 2020-05-29 | 2020-10-16 | 河海大学 | 基于多源多标签共享子空间学习的复杂图像精确分类方法 |
Non-Patent Citations (3)
Title |
---|
L. ENRIQUE SUCAR: "Multi-label classification with Bayesian network-based chain classifiers", 《PATTERN RECOGNITION LETTERS 41 (2014) 14–22》 * |
PING ZHANG: "Approaching Multi-dimensional Classification by Using Bayesian Network Chain Classifiers", 《2014 SIXTH INTERNATIONAL CONFERENCE ON INTELLIGENT HUMAN-MACHINE SYSTEMS AND CYBERNETICS》 * |
侯漫丽: "基于贝叶斯网络的多类标分类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112464010B (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408743B (zh) | 文本链接嵌入方法 | |
CN111325326A (zh) | 一种基于异质网络表示学习的链路预测方法 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
US20220253477A1 (en) | Knowledge-derived search suggestion | |
CN112507699A (zh) | 一种基于图卷积网络的远程监督关系抽取方法 | |
CN110196995B (zh) | 一种基于带偏置随机游走的复杂网络特征提取方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN115982403A (zh) | 一种多模态哈希检索方法及装置 | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN117271767A (zh) | 基于多智能体的运维知识库的建立方法 | |
CN109582868A (zh) | 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法 | |
CN116662565A (zh) | 基于对比学习预训练的异质信息网络关键词生成方法 | |
Kobyshev et al. | Hybrid image recommendation algorithm combining content and collaborative filtering approaches | |
CN111428502A (zh) | 一种面向军事语料的命名实体标注方法 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN113535949A (zh) | 基于图片和句子的多模态联合事件检测方法 | |
CN112464010B (zh) | 一种基于贝叶斯网络和分类器链的图像自动标注方法 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 | |
CN114896514B (zh) | 一种基于图神经网络的Web API标签推荐方法 | |
CN115293479A (zh) | 舆情分析工作流***及其方法 | |
CN114372148A (zh) | 一种基于知识图谱技术的数据处理方法及终端设备 | |
Zhang et al. | Imbalanced networked multi-label classification with active learning | |
Peng et al. | TH-SLP: Web service link prediction based on topic-aware heterogeneous graph neural network | |
CN112269877A (zh) | 数据标注方法及装置 | |
Szymanski et al. | Lnemlc: Label network embeddings for multi-label classifiation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210827 |