CN116543402A - 基于图像生成文本信息的方法、装置、存储介质及处理器 - Google Patents
基于图像生成文本信息的方法、装置、存储介质及处理器 Download PDFInfo
- Publication number
- CN116543402A CN116543402A CN202310524365.3A CN202310524365A CN116543402A CN 116543402 A CN116543402 A CN 116543402A CN 202310524365 A CN202310524365 A CN 202310524365A CN 116543402 A CN116543402 A CN 116543402A
- Authority
- CN
- China
- Prior art keywords
- processed
- picture
- image
- short
- memory network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 230000015654 memory Effects 0.000 claims abstract description 101
- 230000004927 fusion Effects 0.000 claims abstract description 49
- 238000001914 filtration Methods 0.000 claims abstract description 21
- 210000000746 body region Anatomy 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 36
- 230000007787 long-term memory Effects 0.000 claims description 21
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 230000006403 short-term memory Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 238000013519 translation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 12
- 239000004973 liquid crystal related substance Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004148 unit process Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1912—Selecting the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种基于图像生成文本信息的方法、装置、存储介质及处理器,属于计算机视觉中的图文互译领域。所述方法包括:获取待处理图片和样本图像数据集,并确定样本图像数据集中的相似图像;对待处理图片进行特征提取,获得待处理图片的区域特征;对所述待处理图片的区域特征进行过滤择优,获得待处理图片的主体区域特征;对所述样本图像数据集中的相似图像进行特征提取,获得多个相似图像特征;基于所述多个相似图像特征,采用加权均值的方式获得第一融合特征;将所述第一融合特征采用拼接的方法融合到待处理图片的主体区域特征,获得第二融合特征;将所述第二融合特征输入细粒度多层长短期记忆网络,生成待处理图像所对应的文本信息。
Description
技术领域
本发明涉及计算机视觉中的图文互译领域,具体涉及一种基于图像生成文本信息的方法、一种基于图像生成文本信息的装置、一种机器可读存储介质及一种处理器。
背景技术
图像生成文本任务多年来一直受到广泛关注,它通过计算机视觉理解图像,再通过自然语言处理生成图像的描述语言。从盲人导航、少儿教育到监控视频内容智能理解,该任务有着广泛的应用场景。近些年来,随着深度学习的发展,面向图像的文本生成研究取得了重大进展,成为计算机视觉的热点研究领域。
公开号为CN110555332A的中国专利提供了一种基于图像生成文本信息的方法、电子设备及存储介质,该方法包括:获取待处理图像的第一图像特征信息,以及至少一个文本属性对应的文本属性信息;根据第一图像特征信息和文本属性信息,确定待处理图像所对应的文本信息。该方案通过将待处理图像的图像特征信息和图像的文本属性信息结合,基于多维度特征实现了对图像所对应文本信息的生成,能够有效提高基于图像所生成的文本信息的精度。
但该专利并没有很好地解决当前的图像生成文本方法缺乏可控性和可解释性的问题,即它们的行为很难受到用户使用偏好影响和解释。现有网络架构隐式地选择在每个时间步关注图像中的哪些区域,这种体系结构无法控制需描述哪些区域以及每个区域的重要性,这就导致模型错误地描述一些图像区域,从而生成不满足人们需求的文本。现有网络架构生成图像描述文本的精细度和准确性有待提高。
发明内容
本申请实施例的目的是提供一种基于图像生成文本信息的方法、装置、存储介质及处理器,所述方法能够解决现有的网络错误地描述一些图像区域,从而生成不满足人们需求的文本的问题。
为了实现上述目的,本申请第一方面提供一种基于图像生成文本信息的方法,所述方法包括:
获取待处理图片和样本图像数据集,并基于所述待处理图片和所述样本图像数据集确定样本图像数据集中的相似图像;其中,所述样本图像数据集来源于已经标注有文本标签的图像数据集;
对所述待处理图片进行特征提取,获得待处理图片的区域特征;
使用文本控制信号对所述待处理图片的区域特征进行过滤择优,获得待处理图片的主体区域特征;
使用卷积神经网络对所述样本图像数据集中的相似图像进行特征提取,获得多个相似图像特征;
基于所述多个相似图像特征,采用加权均值的方式获得第一融合特征;
将所述第一融合特征采用拼接的方法融合到待处理图片的主体区域特征,获得第二融合特征;
将所述第二融合特征输入细粒度多层长短期记忆网络,生成待处理图像所对应的文本信息。
在本申请实施例中,对所述待处理图片进行特征提取,获得待处理图片的区域特征,包括:使用目标检测算法对所述待处理图片进行特征提取,获得待处理图片的区域特征。
在本申请实施例中,所述使用文本控制信号对所述待处理图片的区域特征进行过滤择优,获得待处理图片的主体区域特征,包括:
使用均值哈希算法计算所述待处理图片和样本图像数据集之间的相似程度,并根据所述相似程度确定样本图像数据集中的相似图像以及与所述相似图像对应的文本标签;
统计所述相似图像对应的文本标签中,单词出现的概率;
将相似图像对应的文本标签中出现频率不低于预设频率的单词作为文本控制信号,对所述待处理图片的区域特征进行过滤择优,得到待处理图片的主体区域特征。
在本申请实施例中,所述基于所述待处理图片和所述样本图像数据集确定样本图像数据集中的相似图像,包括:
使用均值哈希算法计算所述待处理图片和所述样本图像数据集之间的相似程度;
基于所述相似程度,选取样本图像数据集中相似程度不低于预设阈值的图像作为相似图像。
在本申请实施例中,所述基于所述多个相似图像特征,采用加权均值的方式获得第一融合特征按照以下公式计算:
其中,vi表示相似图像特征;表示使用加权均值的方式得到的第一融合特征。
在本申请实施例中,将所述第二融合特征输入细粒度多层长短期记忆网络,生成待处理图像所对应的文本信息,包括:
将所述第二融合特征输入细粒度多层长短期记忆网络中的第一层长短期记忆网络进行特征加权,获得上下文向量;
将所述上下文向量输入细粒度多层长短期记忆网络中的第二层长短期记忆网络进行特征解码,输出当前生成单词的概率;
选取概率最高的单词作为待处理图像所对应的文本信息。
在本申请实施例中,所述第一层长短期记忆网络包括第一长短期记忆网络;所述第二层长短期记忆网络包括第二长短期记忆网络和第三长短期记忆网络;所述上下文向量包括视觉信息ct和完整目标对象区域信息bt;
将所述上下文向量输入细粒度多层长短期记忆网络中的第二层长短期记忆网络进行特征解码,输出当前生成单词的概率,包括:
将所述上下文向量的视觉信息ct输入第二长短期记忆网络进行特征解码,并将所述上下文向量的完整目标对象区域信息bt输入第三长短期记忆网络进行特征解码,输出当前生成单词的概率。
本申请第二方面提供一种基于图像生成文本信息的装置,所述装置包括:
获取模块,用于获取待处理图片和样本图像数据集,并基于所述待处理图片和所述样本图像数据集确定样本图像数据集中的相似图像;其中,所述样本图像数据集来源于已经标注有文本标签的图像数据集;
第一特征提取模块,用于对所述待处理图片进行特征提取,获得待处理图片的区域特征;
过滤模块,用于使用文本控制信号对所述待处理图片的区域特征进行过滤择优,获得待处理图片的主体区域特征;
第二特征提取模块,用于使用卷积神经网络对所述样本图像数据集中的相似图像进行特征提取,获得多个相似图像特征;
加权模块,用于基于所述多个相似图像特征,采用加权均值的方式获得第一融合特征;
拼接模块,用于将所述第一融合特征采用拼接的方法融合到待处理图片的主体区域特征,获得第二融合特征;
生成模块,用于将所述第二融合特征输入细粒度多层长短期记忆网络,生成待处理图像所对应的文本信息。
本申请第三方面提供一种处理器,被配置成执行上述的基于图像生成文本信息的方法。
本申请第四方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得所述处理器被配置成执行上述的基于图像生成文本信息的方法。
与现有技术相比,本发明的上述技术方案具有如下有益效果:
(1)本发明对相似图像的特征采用特征提取的方法,将得到的多种特征采用加权均值的方式得到融合特征,旨在同时使用相似图像的文本标签和图像特征信息,赋予文本生成***图像的主客体区域特征,增强其输出文本的准确性。
(2)本发明使用细粒度的多层长短期记忆网络结构作为文本生成***,用来生成更准确精细的文本。该网络结构在传统双层长短期记忆网络的基础上拓宽了维度,在输出单词时同步接收视觉信息与完整目标对象区域信息,从而使文本生成***获取更多的图像信息,进一步提高了生成文本的精细度和准确性。
本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本申请实施例,但并不构成对本申请实施例的限制。在附图中:
图1示意性示出了根据本申请实施例的基于图像生成文本信息的方法的应用环境示意图;
图2示意性示出了根据本申请实施例的基于图像生成文本信息的方法的流程示意图;
图3示意性示出了根据本申请实施例的基于图像生成文本信息的网络示意图;
图4示意性示出了根据本申请实施例的基于图像生成文本信息的装置的结构框图;
图5示意性示出了根据本申请实施例的计算机设备的内部结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请实施例,并不用于限制本申请实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明,若本申请实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本申请提供的基于图像生成文本信息的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
图2示意性示出了根据本申请实施例的基于图像生成文本信息的方法的流程示意图。如图2所示,在本申请一实施例中,提供了一种基于图像生成文本信息的方法,本实施例主要以该方法应用于上述图1中的终端102(或服务器104)来举例说明,包括以下步骤:
步骤110,获取待处理图片和样本图像数据集,并基于所述待处理图片和所述样本图像数据集确定样本图像数据集中的相似图像;其中,所述样本图像数据集来源于已经标注有文本标签的图像数据集。
在本实施例中,待处理图片为需要生成文本描述的图像,即输入图像。样本图像数据集来源于开源的COCO数据集,总共有几十万张图片,存在大量与待处理图片相同类型的图片。
步骤120,对所述待处理图片进行特征提取,获得待处理图片的区域特征。
在本实施例中,使用目标检测算法对所述待处理图片进行特征提取,获得待处理图片的区域特征。示例性地,使用目标检测算法对待处理图片进行特征提取,获得最多不超过32个图像区域特征:
R'=(r0,r1,...,rN) (1);
其中,rN代表第N个图像区域的特征,R'是经目标检测算法提取的待处理图片中所有区域特征集合。
本实施例使用的目标检测算法为:基于区域的超高速卷积神经网络目标检测算法(Faster Regions with CNN features,Faster R-CNN)。
步骤130,使用文本控制信号对所述待处理图片的区域特征进行过滤择优,获得待处理图片的主体区域特征。
R'=(r0,r1,...,rN)→R=(r0,r1,...,rK) (2);
其中,rN代表第N个图像区域的特征,rK代表第K个图像区域的特征,R是待处理图片的主体区域特征,K≤N。
在本实施例中,文本控制信号来源于相似图像对应的文本标签。使用均值哈希算法计算待处理图片和样本图像数据集之间的相似程度,得到样本图像数据集中图像与输入图像的相似性。选取相似程度最高的K张图像及其对应的文本标签,并统计所述相似程度最高的K张图像对应的文本标签中,单词出现的概率,将相似图像对应的文本标签中出现频率不低于预设频率的单词作为文本控制信号,对所述待处理图片的区域特征进行过滤择优,得到待处理图片的主体区域特征。
在本实施例中,图像区域K的选取至关重要,K太小无法描述整张图像,K太大会使模型生成累赘的图像文本,通过对比实验,本发明选取K=3作为参数的最佳取值。
步骤140,使用卷积神经网络对所述样本图像数据集中的相似图像进行特征提取,获得多个相似图像特征。
步骤150,基于所述多个相似图像特征,采用加权均值的方式获得第一融合特征。
在本实施例中,按照公式(3)计算第一融合特征:
其中,vi表示相似图像特征;表示使用加权均值的方式得到的第一融合特征。
步骤160,将所述第一融合特征采用拼接的方法融合到待处理图片的主体区域特征,获得第二融合特征。
在本实施例中,按照公式(4),将所述第一融合特征采用拼接的方法融合到待处理图片的主体区域特征,获得第二融合特征:
其中,表示第一融合特征;R*表示第二融合特征。
在本实施例中,步骤140对步骤110中样本图像数据集中的相似图像的特征进行卷积提取,得到对应的多个相似图像特征,步骤150将得到的多个相似图像特征采用加权均值的方式得到第一融合特征,然后采用拼接的操作将第一融合特征融合到步骤130获得的待处理图片的主体区域特征中,最后得到第二融合特征。
步骤170,将所述第二融合特征输入细粒度多层长短期记忆网络,生成待处理图像所对应的文本信息。
在本实施例中,如图3所示,细粒度多层长短期记忆网络包括两层长短期记忆网络,分别是第一层长短期记忆网络和第二层长短期记忆网络。第一层长短期记忆网络包括第一长短期记忆网络1;第二层长短期记忆网络包括第二长短期记忆网络2和第三长短期记忆网络3。
在本实施例中,将所述第二融合特征输入细粒度多层长短期记忆网络中的第一层长短期记忆网络进行特征加权,获得上下文向量;将所述上下文向量输入细粒度多层长短期记忆网络中的第二层长短期记忆网络进行特征解码,输出当前生成单词的概率;选取概率最高的单词作为待处理图像所对应的文本信息。
在本实施例中,如图3所示,细粒度多层长短期记忆网络分为两层:第一层是一个长短期记忆网络(第一长短期记忆网络1)分别生成视觉信息ct和完整目标对象区域信息bt;ct用以视觉词的生成,bt同时聚合来自多个语义一致的空间不同区域的信息。通过结合这些视觉区域形成一个完全包围目标对象的视觉区域。第二层是两个长短期记忆网络(第二长短期记忆网络2和第三长短期记忆网络3)在输出单词时同步接收视觉信息与完整目标对象区域信息,从而使文本生成***获取更多的图像信息,进一步提高了生成文本的精细度和准确性。
示例性地,将步骤160的第二融合特征作为细粒度多层长短期记忆网络中第一层长短期记忆网络的输入,进行特征加权,得到上下文向量ct,bt:
其中,是/>和rt区域之间的相容性函数,/>是第一层长短期记忆网络中的隐藏层,rt是R*中的特征向量,/>是块哨兵,用来生成文本中的名词块,/>Wss,Wg是可学习的参数,αt是加权系数。
bt=βtR* (8);
其中,R*是第二融合特征;是第一长短期记忆网络1的隐层状态,通过注意力机制生成上下文向量ct,bt。
然后,将所述上下文向量ct,bt作为细粒度多层长短期记忆网络中第二层长短期记忆网络的输入,进行特征解码,最后输出当前生成单词的词概率:
p=λp1+(1-λ)p2 (11);
其中,是第二长短期记忆网络2当前的隐藏层状态,bp为全连接层的偏置;/>是第三长短期记忆网络3当前的隐藏层状态,bq为全连接层的偏置,因为生成单词的概率和为1,为了满足这一约束,需要经过归一化处理,通过λ参数(本文λ取0.5)整合第二层长短期记忆网络输出的条件概率分布,最后输出当前生成单词的词概率p,选取概率最高的单词作为待处理图像所对应的文本信息。
图2为一个实施例中基于图像生成文本信息的方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图3示意性示出了根据本申请实施例的基于图像生成文本信息的网络示意图。如图3所示,本申请实施例基于文本控制信号的细粒度图像生成文本网络,包括输入图像、图像特征提取***和文本生成***。输入图像负责提供需要生成文本描述的图像,其紧连着图像特征提取***,图像特征提取***包括:特征提取单元、基于文本信息的控制信号单元、相似图像特征指导单元;特征提取单元提取输入图像中所有的区域特征,其紧连着基于文本信息的控制信号单元和相似图像特征指导单元。基于文本信息的控制信号单元使用文本控制信号(相似图像对应的文本标签)选择一组重要区域的特征,以获得输入图像中主体区域的特征;相似图像特征指导单元通过相似图像特征的指导信息,以获得输入图像中客观对象和背景区域的特征;同时使用这两个单元赋予文本生成***图像的主客体区域特征,从而生成更符合图像内容的文本。文本生成***包括细粒度多层长短期记忆网络,其以图像特征提取***输出的图像特征作为输入,从而生成描述图像的文本。细粒度多层长短期记忆网络由两层长短期记忆网络单元组成,第一层长短期记忆网络单元处理图像特征,分别生成视觉信息与完整目标对象区域信息。第二层长短期记忆网络单元由两个长短期记忆网络组成,分别接收第一层长短期记忆网络单元输入的视觉信息与完整目标对象区域信息,从而生成最终描述图像的文本。
在一个实施例中,如图4所示,提供了一种基于图像生成文本信息的装置,包括获取模块210、第一特征提取模块220、过滤模块230、第二特征提取模块240、加权模块250、拼接模块260以及生成模块270,其中:
获取模块210,用于获取待处理图片和样本图像数据集,并基于所述待处理图片和所述样本图像数据集确定样本图像数据集中的相似图像;其中,所述样本图像数据集来源于已经标注有文本标签的图像数据集。
第一特征提取模块220,用于对所述待处理图片进行特征提取,获得待处理图片的区域特征;
过滤模块230,用于使用文本控制信号对所述待处理图片的区域特征进行过滤择优,获得待处理图片的主体区域特征。
第二特征提取模块240,用于使用卷积神经网络对所述样本图像数据集中的相似图像进行特征提取,获得多个相似图像特征。
加权模块250,用于基于所述多个相似图像特征,采用加权均值的方式获得第一融合特征。
拼接模块260,用于将所述第一融合特征采用拼接的方法融合到待处理图片的主体区域特征,获得第二融合特征。
生成模块270,用于将所述第二融合特征输入细粒度多层长短期记忆网络,生成待处理图像所对应的文本信息。
所述基于图像生成文本信息的装置包括处理器和存储器,上述获取模块210、第一特征提取模块220、过滤模块230、第二特征提取模块240、加权模块250、拼接模块260和生成模块270等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序模块中实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现基于图像生成文本信息的方法。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述基于图像生成文本信息的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器A01、网络接口A02、显示屏A04、输入装置A05和存储器(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A06。该非易失性存储介质A06存储有操作***B01和计算机程序B02。该内存储器A03为非易失性存储介质A06中的操作***B01和计算机程序B02的运行提供环境。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序被处理器A01执行时以实现一种基于图像生成文本信息的方法。该计算机设备的显示屏A04可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置A05可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的基于图像生成文本信息的装置可以实现为一种计算机程序的形式,计算机程序可在如图5所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于图像生成文本信息的装置的各个程序模块,比如,图4所示的获取模块210、第一特征提取模块220、过滤模块230、第二特征提取模块240、加权模块250、拼接模块260和生成模块270。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于图像生成文本信息的方法中的步骤。
图5所示的计算机设备可以通过如图4所示的基于图像生成文本信息的装置中的获取模块210执行步骤110。计算机设备可通过第一特征提取模块220执行步骤120。计算机设备可通过过滤模块230执行步骤130。计算机设备可通过第二特征提取模块240执行步骤140。计算机设备可通过加权模块250执行步骤150。计算机设备可通过拼接模块260执行步骤160。计算机设备可通过生成模块270执行步骤170。
本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
步骤110,获取待处理图片和样本图像数据集,并基于所述待处理图片和所述样本图像数据集确定样本图像数据集中的相似图像;其中,所述样本图像数据集来源于已经标注有文本标签的图像数据集。
步骤120,对所述待处理图片进行特征提取,获得待处理图片的区域特征。
步骤130,使用文本控制信号对所述待处理图片的区域特征进行过滤择优,获得待处理图片的主体区域特征。
步骤140,使用卷积神经网络对所述样本图像数据集中的相似图像进行特征提取,获得多个相似图像特征。
步骤150,基于所述多个相似图像特征,采用加权均值的方式获得第一融合特征。
步骤160,将所述第一融合特征采用拼接的方法融合到待处理图片的主体区域特征,获得第二融合特征。
步骤170,将所述第二融合特征输入细粒度多层长短期记忆网络,生成待处理图像所对应的文本信息。
在一个实施例中,对所述待处理图片进行特征提取,获得待处理图片的区域特征,包括:使用目标检测算法对所述待处理图片进行特征提取,获得待处理图片的区域特征。
在一个实施例中,所述使用文本控制信号对所述待处理图片的区域特征进行过滤择优,获得待处理图片的主体区域特征,包括:
使用均值哈希算法计算所述待处理图片和样本图像数据集之间的相似程度,并根据所述相似程度确定样本图像数据集中的相似图像以及与所述相似图像对应的文本标签;
统计所述相似图像对应的文本标签中,单词出现的概率;
将相似图像对应的文本标签中出现频率不低于预设频率的单词作为文本控制信号,对所述待处理图片的区域特征进行过滤择优,得到待处理图片的主体区域特征。
在一个实施例中,所述基于所述待处理图片和所述样本图像数据集确定样本图像数据集中的相似图像,包括:
使用均值哈希算法计算所述待处理图片和所述样本图像数据集之间的相似程度;
基于所述相似程度,选取样本图像数据集中相似程度不低于预设阈值的图像作为相似图像。
在一个实施例中,所述基于所述多个相似图像特征,采用加权均值的方式获得第一融合特征按照以下公式计算:
其中,vi表示相似图像特征;表示使用加权均值的方式得到的第一融合特征。
在一个实施例中,将所述第二融合特征输入细粒度多层长短期记忆网络,生成待处理图像所对应的文本信息,包括:
将所述第二融合特征输入细粒度多层长短期记忆网络中的第一层长短期记忆网络进行特征加权,获得上下文向量;
将所述上下文向量输入细粒度多层长短期记忆网络中的第二层长短期记忆网络进行特征解码,输出当前生成单词的概率;
选取概率最高的单词作为待处理图像所对应的文本信息。
在一个实施例中,所述第一层长短期记忆网络包括第一长短期记忆网络;所述第二层长短期记忆网络包括第二长短期记忆网络和第三长短期记忆网络;所述上下文向量包括视觉信息ct和完整目标对象区域信息bt;
将所述上下文向量输入细粒度多层长短期记忆网络中的第二层长短期记忆网络进行特征解码,输出当前生成单词的概率,包括:
将所述上下文向量的视觉信息ct输入第二长短期记忆网络进行特征解码,并将所述上下文向量的完整目标对象区域信息bt输入第三长短期记忆网络进行特征解码,输出当前生成单词的概率。
本申请实施例通过图像特征提取***,旨在解决现有的网络错误地描述一些区域,从而生成不满足人们需求的文本的问题;同时能通过文本生成***生成成更准确,精细的,更符合图像内容描述的文本。从盲人导航、少儿教育到监控视频内容智能理解,这项发明在未来有着广泛的应用场景。
本申请实施例使用细粒度多层长短期记忆网络来生成描述图像的文本,第一层长短期记忆网络单元处理图像特征,分别生成视觉信息与完整目标对象区域信息。第二层长短期记忆网络单元由两个长短期记忆网络组成,分别接收第一层长短期记忆网络单元输入的视觉信息与完整目标对象区域信息,从而生成最终描述图像的文本。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于图像生成文本信息的方法,其特征在于,所述方法包括:
获取待处理图片和样本图像数据集,并基于所述待处理图片和所述样本图像数据集确定样本图像数据集中的相似图像;其中,所述样本图像数据集来源于已经标注有文本标签的图像数据集;
对所述待处理图片进行特征提取,获得待处理图片的区域特征;
使用文本控制信号对所述待处理图片的区域特征进行过滤择优,获得待处理图片的主体区域特征;
使用卷积神经网络对所述样本图像数据集中的相似图像进行特征提取,获得多个相似图像特征;
基于所述多个相似图像特征,采用加权均值的方式获得第一融合特征;
将所述第一融合特征采用拼接的方法融合到待处理图片的主体区域特征,获得第二融合特征;
将所述第二融合特征输入细粒度多层长短期记忆网络,生成待处理图像所对应的文本信息。
2.根据权利要求1所述的基于图像生成文本信息的方法,其特征在于,对所述待处理图片进行特征提取,获得待处理图片的区域特征,包括:
使用目标检测算法对所述待处理图片进行特征提取,获得待处理图片的区域特征。
3.根据权利要求1所述的基于图像生成文本信息的方法,其特征在于,所述使用文本控制信号对所述待处理图片的区域特征进行过滤择优,获得待处理图片的主体区域特征,包括:
使用均值哈希算法计算所述待处理图片和样本图像数据集之间的相似程度,并根据所述相似程度确定样本图像数据集中的相似图像以及与所述相似图像对应的文本标签;
统计所述相似图像对应的文本标签中,单词出现的概率;
将相似图像对应的文本标签中出现频率不低于预设频率的单词作为文本控制信号,对所述待处理图片的区域特征进行过滤择优,得到待处理图片的主体区域特征。
4.根据权利要求1所述的基于图像生成文本信息的方法,其特征在于,所述基于所述待处理图片和所述样本图像数据集确定样本图像数据集中的相似图像,包括:
使用均值哈希算法计算所述待处理图片和所述样本图像数据集之间的相似程度;
基于所述相似程度,选取样本图像数据集中相似程度不低于预设阈值的图像作为相似图像。
5.根据权利要求1所述的基于图像生成文本信息的方法,其特征在于,所述基于所述多个相似图像特征,采用加权均值的方式获得第一融合特征按照以下公式计算:
其中,vi表示相似图像特征;表示使用加权均值的方式得到的第一融合特征。
6.根据权利要求1所述的基于图像生成文本信息的方法,其特征在于,将所述第二融合特征输入细粒度多层长短期记忆网络,生成待处理图像所对应的文本信息,包括:
将所述第二融合特征输入细粒度多层长短期记忆网络中的第一层长短期记忆网络进行特征加权,获得上下文向量;
将所述上下文向量输入细粒度多层长短期记忆网络中的第二层长短期记忆网络进行特征解码,输出当前生成单词的概率;
选取概率最高的单词作为待处理图像所对应的文本信息。
7.根据权利要求6所述的基于图像生成文本信息的方法,其特征在于,所述第一层长短期记忆网络包括第一长短期记忆网络;所述第二层长短期记忆网络包括第二长短期记忆网络和第三长短期记忆网络;所述上下文向量包括视觉信息ct和完整目标对象区域信息bt;
将所述上下文向量输入细粒度多层长短期记忆网络中的第二层长短期记忆网络进行特征解码,输出当前生成单词的概率,包括:
将所述上下文向量的视觉信息ct输入第二长短期记忆网络进行特征解码,并将所述上下文向量的完整目标对象区域信息bt输入第三长短期记忆网络进行特征解码,输出当前生成单词的概率。
8.一种基于图像生成文本信息的装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图片和样本图像数据集,并基于所述待处理图片和所述样本图像数据集确定样本图像数据集中的相似图像;其中,所述样本图像数据集来源于已经标注有文本标签的图像数据集;
第一特征提取模块,用于对所述待处理图片进行特征提取,获得待处理图片的区域特征;
过滤模块,用于使用文本控制信号对所述待处理图片的区域特征进行过滤择优,获得待处理图片的主体区域特征;
第二特征提取模块,用于使用卷积神经网络对所述样本图像数据集中的相似图像进行特征提取,获得多个相似图像特征;
加权模块,用于基于所述多个相似图像特征,采用加权均值的方式获得第一融合特征;
拼接模块,用于将所述第一融合特征采用拼接的方法融合到待处理图片的主体区域特征,获得第二融合特征;
生成模块,用于将所述第二融合特征输入细粒度多层长短期记忆网络,生成待处理图像所对应的文本信息。
9.一种处理器,其特征在于,被配置成执行根据权利要求1至7中任一项所述的基于图像生成文本信息的方法。
10.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器被配置成执行根据权利要求1至7中任一项所述的基于图像生成文本信息的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310524365.3A CN116543402A (zh) | 2023-05-10 | 2023-05-10 | 基于图像生成文本信息的方法、装置、存储介质及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310524365.3A CN116543402A (zh) | 2023-05-10 | 2023-05-10 | 基于图像生成文本信息的方法、装置、存储介质及处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543402A true CN116543402A (zh) | 2023-08-04 |
Family
ID=87451965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310524365.3A Pending CN116543402A (zh) | 2023-05-10 | 2023-05-10 | 基于图像生成文本信息的方法、装置、存储介质及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543402A (zh) |
-
2023
- 2023-05-10 CN CN202310524365.3A patent/CN116543402A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zeng et al. | High-resolution image inpainting with iterative confidence feedback and guided upsampling | |
She et al. | Hierarchical layout-aware graph convolutional network for unified aesthetics assessment | |
CN110083741B (zh) | 文本与图像联合建模的面向人物的视频摘要提取方法 | |
CN110598048B (zh) | 视频检索方法及视频检索映射关系生成方法、装置 | |
CN116227474B (zh) | 一种对抗文本的生成方法、装置、存储介质及电子设备 | |
US11093792B2 (en) | Image processing methods and devices | |
CN114612759B (zh) | 视频处理方法、查询视频的方法和模型训练方法、装置 | |
CN107408115B (zh) | web站点过滤器、控制对内容的访问的方法和介质 | |
US20190108280A1 (en) | Image search and index building | |
US20180018392A1 (en) | Topic identification based on functional summarization | |
CN112308113A (zh) | 一种基于半监督的目标识别方法、设备及介质 | |
Zhang et al. | Probabilistic skimlets fusion for summarizing multiple consumer landmark videos | |
CN116306868A (zh) | 一种模型的处理方法、装置及设备 | |
CN112990172B (zh) | 一种文本识别方法、字符识别方法及装置 | |
CN116152933A (zh) | 一种异常检测模型的训练方法、装置、设备及存储介质 | |
CN115828162A (zh) | 一种分类模型训练的方法、装置、存储介质及电子设备 | |
CN115204301A (zh) | 视频文本匹配模型训练、视频文本匹配方法和装置 | |
CN116630480B (zh) | 一种交互式文本驱动图像编辑的方法、装置和电子设备 | |
CN116186330B (zh) | 一种基于多模态学习的视频去重方法及装置 | |
CN116757278A (zh) | 一种预测模型的训练方法、装置、存储介质及电子设备 | |
Zhou et al. | Self-supervised saliency estimation for pixel embedding in road detection | |
CN116543402A (zh) | 基于图像生成文本信息的方法、装置、存储介质及处理器 | |
Li et al. | Multi-Sensor integration for key-frame extraction from first-person videos | |
CN113569873B (zh) | 一种图像的处理方法、装置及设备 | |
CN111401641B (zh) | 业务数据处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |