CN110110145A - 描述文本生成方法及装置 - Google Patents

描述文本生成方法及装置 Download PDF

Info

Publication number
CN110110145A
CN110110145A CN201810082485.1A CN201810082485A CN110110145A CN 110110145 A CN110110145 A CN 110110145A CN 201810082485 A CN201810082485 A CN 201810082485A CN 110110145 A CN110110145 A CN 110110145A
Authority
CN
China
Prior art keywords
feature vector
text
group
sample data
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810082485.1A
Other languages
English (en)
Other versions
CN110110145B (zh
Inventor
杨小汕
徐常胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Tencent Cyber Tianjin Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Tencent Cyber Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, Tencent Cyber Tianjin Co Ltd filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201810082485.1A priority Critical patent/CN110110145B/zh
Publication of CN110110145A publication Critical patent/CN110110145A/zh
Application granted granted Critical
Publication of CN110110145B publication Critical patent/CN110110145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种描述文本生成方及装置,属于信息处理领域。所述方法包括:从目标对象中提取出至少一个视觉特征向量,所述目标对象为视频或图片;获取与每个所述视觉特征向量对应的语义特征向量;对所述至少一个视觉特征向量,以及每个所述视觉特征向量对应的语义特征向量进行处理,得到所述目标对象的描述文本。本申请提供的方法的描述准确性和灵活性较高。

Description

描述文本生成方法及装置
技术领域
本发明涉及信息处理领域,特别涉及一种描述文本生成方法及装置。
背景技术
描述文本生成方法是一种采用自然语言生成用于描述视频内容的文本的方法。通过该方法生成视频的描述文本后,可以便于用户通过文本快速检索到需要的视频,并且可以帮助视力障碍者通过文本或者语音了解视频的内容。
相关技术中,在生成视频的描述文本时,可以先采用预训练的分类器识别出视频中的视觉对象(例如物体、场景和动作等),然后再采用预先确定的语言模板对识别出的视觉对象所对应的文本进行组织,从而得到该视频的描述文本。其中,该语言模板可以是预先对大量文本数据进行挖掘得到的。
但是,由于相关技术中的方法在生成不同视频的描述文本时,均是采用固定的语言模板来组织文本的,其描述的灵活性和准确性较低。
发明内容
本发明实施例提供了一种描述文本生成方法及装置,可以解决相关技术中的描述文本生成方法灵活性和准确性较低的问题。所述技术方案如下:
一方面,提供了一种描述文本生成方法,所述方法包括:
从目标对象中提取出至少一个视觉特征向量,所述目标对象为视频或图片;
获取与每个所述视觉特征向量对应的语义特征向量;
对所述至少一个视觉特征向量,以及每个所述视觉特征向量对应的语义特征向量进行处理,得到所述目标对象的描述文本。
另一方面,提供了一种描述文本生成装置,所述装置包括:
提取模块,用于从目标对象中提取出至少一个视觉特征向量,所述目标对象为视频或图片;
获取模块,用于获取与每个所述视觉特征向量对应的语义特征向量;
处理模块,用于对所述至少一个视觉特征向量,以及每个所述视觉特征向量对应的语义特征向量进行处理,得到所述目标对象的描述文本。
又一方面,提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所提供的描述文本生成方法。
再一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如如上述方面所提供的描述文本生成方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供了一种描述文本生成方法及装置,可以从目标对象中提取出至少一个视觉特征向量,并可以获取与每个视觉特征向量对应的语义特征向量,之后可以基于该至少一个视觉特征向量以及每个视觉特征向量的语义特征向量生成该目标对象的描述文本。由于与每个视觉特征向量对应的语义特征向量可以反映目标对象的语义特征,因此通过该语义特征向量辅助描述文本的生成,可以提高描述的准确性和灵活性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种描述文本生成方法所应用的设备的示意图;
图2是本发明实施例提供的一种描述文本生成方法的流程图;
图3是本发明实施例提供的一种描述文本生成方法的算法框图;
图4是本发明实施例提供的另一种描述文本生成方法的流程图;
图5是本发明实施例提供的一种获取第一视觉特征向量对应的语义特征向量的方法流程图;
图6是本发明实施例提供的一种训练记忆模型的方法流程图;
图7是本发明实施例提供的一种训练记忆模型的算法框图;
图8是本发明实施例提供的一种描述文本生成装置的结构示意图;
图9是本发明实施例提供的一种获取模块的结构示意图;
图10是本发明实施例提供的另一种描述文本生成装置的结构示意图;
图11是本发明实施例提供的一种提取模块的结构示意图;
图12是本发明实施例提供的一种终端块的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
相关技术中,除了基于语言模板的方法,一般还会采用基于机器翻译的方法对视频内容进行描述。机器翻译的原理是将一个用源语言描述的文本S翻译成为用目标语言描述的文本T,在该翻译的过程一般需要通过多个子任务(例如单词翻译,单词校准和重排序等)来完成。其中,在对单词进行翻译时,可以通过最大化条件概率p(T|S)来实现。近年来,随着深度学习技术的兴起,机器翻译方法普遍开始采用基于循环神经网络的编解码模型。在该编解码模型中,一个用于编码的循环神经网络可以把输入的用源语言描述的文本转换成为一个特征向量,然后由另外一个用于解码的循环神经网络基于该特征向量生成用目标语言描述的文本。其中,该编解码模型中所采用的循环神经网络可以为长短期记忆(LongShort-Term Memory,LSTM)网络。
基于机器翻译的描述文本生成方法也可以采用类似的编解码模型,该编解码模型可以包括编码器和解码器,该编码器主要包括卷积神经网络和循环神经网络,该卷积神经网络可以分别对视频中的每一帧图像分别进行处理,提取出每一帧图像的特征向量,之后该循环神经网络可以将各帧图像的特征向量编码为一个视觉特征向量并输入至解码器。该解码器为基于循环神经网络的解码器,该解码器可以将该输入的视觉特征向量解码为由多个单词组成的文本,从而实现对视频内容的描述。
但是,由于相关技术中的方法只能提取出每一帧图像中单一的视觉特征向量,并不能有效的挖掘出视频中各个视觉对象之间的关系,其描述效果较差。并且,该方法主要是通过对大量的有标记训练样本(每个训练样本包括视频及视频对应的描述文本)进行训练而得到视频与描述文本之间的编解码模型,该编解码模型对有标记训练样本的依赖性较大,并且由于视频本身所具有的复杂特性,该编解码模型的效果依旧有待改善。
图1是本发明实施例提供的一种描述文本生成方法所应用的设备的示意图。参考图1,该描述文本生成方法可以应用于描述文本生成设备中。该描述文本生成设备可以包括智能手机、计算机、平板电脑、可穿戴设备、车载设备或者服务器中的任一种,本发明实施例对该描述文本生成设备的类型不做限定。
当该描述文本生成方法应用于智能手机或计算机等终端设备中时,终端设备可以基于该方法生成用户所选定的视频或者图像的描述文本;当该描述文本生成方法应用于服务器时,服务器可以基于该方法对素材库(例如检索数据库)中的大量视频或者图像进行文本描述,以提高视频或图像的文本检索效率和准确率。
请参考图2,其示出了本发明实施例提供的描述文本生成方法的流程图。本实施例以该描述文本生成方法应用于图1所示的描述文本生成设备来举例说明。参考图2,该方法可以包括:
步骤101、从目标对象中提取出至少一个视觉特征向量。
在本发明实施例中,该目标对象可以为视频或者图像。在提取特征时,若该目标对象为图像,则描述文本生成设备可以直接从该图像中提取出多个基础视觉特征向量;若该目标对象为视频,则描述文本生成设备可以从视频的每一帧图像中分别提取出多个基础视觉特征向量。
进一步的,描述文本生成设备可以将提取出的多个基础视觉特征向量编码为一个视觉特征向量。或者,该描述文本生成设备也可以获取预先确定的至少一组注意力系数,然后分别采用每一组注意力系数对该多个基础视觉特征向量进行加权,得到对应于该至少一组注意力系数的至少一个视觉特征向量。
步骤102、获取与每个视觉特征向量对应的语义特征向量。
进一步的,描述文本生成设备可以获取与每个视觉特征向量关联的至少一组样本数据,并基于该至少一组样本数据生成该语义特征向量。其中,每组样本数据可以包括:样本图片以及与该样本图片对应的标注文本,该标注文本可以为属性标注文本或者关系标注文本,该属性标注文本可以用于指示样本图片中的视觉对象的属性特征,该关系标注文本可以用于指示样本图片中各视觉对象之间的关系特征。在本发明实施例中,描述文本生成设备可以采用k近邻(k-Nearest Neighbor,KNN)算法获取与每个视觉特征向量关联的至少一组样本数据。
步骤103、对该至少一个视觉特征向量,以及每个视觉特征向量对应的语义特征向量进行处理,得到该目标对象的描述文本。
在本发明实施例中,描述文本生成设备可以采用语言模型生成该目标对象的描述文本。该语言模型可以为基于循环神经网络的模型(也可以称为解码器),该循环神经网络可以为LSTM网络。并且,该语言模型可以包括至少一个迭代单元,每个迭代单元可以用于生成一个单词。将该至少一个视觉特征向量,以及每个视觉特征向量对应的语义特征向量输入至语言模型后,该每个迭代单元可以根据输入的视觉特征向量及语义特征向量生成一个单词,该至少一个迭代单元生成的至少一个单词即可组成用于描述该目标对象的描述文本。
需要说明的是,本发明实施例中的单词可以是指用于生成描述文本的文本单元,对于采用不同语言的描述文本,该单词的类型可以不同。例如,若描述文本采用的语言为中文,则该单词可以是指词语或单个汉字;若描述文本采用的语言为英语等印欧语系的语言,则该单词可以是指由若干字母组成的单字。
综上所述,本发明实施例提供了一种描述文本生成方法,该方法可以从目标对象中提取出至少一个视觉特征向量,并可以获取与每个视觉特征向量对应的语义特征向量,之后可以基于该至少一个视觉特征向量以及每个视觉特征向量的语义特征向量生成该目标对象的描述文本。由于与每个视觉特征向量对应的语义特征向量可以反映目标对象的语义特征,因此通过该语义特征向量辅助描述文本的生成,可以提高描述的准确性和灵活性。
图3是本发明实施例提供的一种描述文本生成方法的算法框图,参考图3可以看出,本发明实施例提供的描述文本生成方法主要采用了特征提取模型01、记忆模型02和语言模型03,该语言模型03可以包括至少一个迭代单元031,每个迭代单元031用于生成一个单词。其中,该特征提取模型01用于从目标对象中提取出与该至少一个迭代单元031一一对应的至少一个视觉特征向量,该记忆模型02用于获取与每个视觉特征向量对应的语义特征向量,该语言模型03用于基于该至少一个视觉特征向量以及每个视觉特征向量所对应的语义特征向量生成目标对象的描述文本。
图4是本发明实施例提供的另一种描述文本生成方法的流程图,该方法可以应用于图1所示的实施环境中,并且可以基于图3所示的算法实现。参考图4,该描述文本生成方法具体可以包括:
步骤201、采用特征提取模型提取目标对象的至少一个基础视觉特征向量。
当该目标对象为图像时,该至少一个基础视觉特征向量可以是从该图像中不同局部位置提取的特征向量;当该目标对象为包括多帧图像的视频时,该至少一个基础视觉特征向量可以包括从每一帧图像中提取的特征向量,且从每一帧图像中提取的特征向量可以包括从该帧图像中不同局部位置提取的视觉特征向量。
由于在图像分类或物体检测等视觉任务中,卷积神经网络的高层特征可以有效体现与物体相关的语义信息,因此在本发明实施例中,可以采用基于卷积神经网络的模型作为该特征提取模型。例如,该特征提取模型可以采用预训练的残差网络提取该目标对象的至少一个基础视觉特征向量,也即是,可以将该目标对象输入至残差网络,然后将该残差网络中最后一个卷积层输出的至少一个特征向量作为该目标对象的至少一个基础视觉特征向量。
示例的,如图3所示,假设该目标对象为包括若干帧图像的视频,则从该视频中提取出的M(M可以为正整数,例如可以为大于1的正整数)个基础视觉特征向量可以表示为{x1,x2,...,xM},且该M个基础视觉特征向量可以包括从该视频中每一帧图像的不同位置所提取出的特征向量。
步骤202、确定该至少一个基础视觉特征向量中,每个基础视觉特征向量对应于每个迭代单元的注意力系数。
参考图3可知,视频描述算法中的语言模型可以包括至少一个迭代单元,为了提高该每个迭代单元生成的单词的准确性,该特征提取模型可以先确定每个基础视觉特征向量对应于每个迭代单元的注意力系数,进而可以基于该至少一个基础视觉特征向量以及对应的注意力系数,生成对应于每个迭代单元的视觉特征向量;相应的,在采用该语言模型在生成描述文本时,可以将每个视觉特征向量输入至对应的迭代单元,以供该迭代单元生成对应的单词。
其中,每个基础视觉特征向量对应于某个迭代单元的注意力系数可以用于指示该基础视觉特征向量在该迭代单元生成单词时的重要程度,且该注意力系数的大小与重要程度正相关。
在本发明实施例中,该语言模型可以为基于循环神经网络的模型,假设该语言模型中包括的迭代单元的个数为T,从目标对象中提取的基础视觉特征向量的个数为M(T和M均为正整数),则在确定该至少一个基础视觉特征向量中,每个基础视觉特征向量对应于第t个迭代单元的注意力系数时,可以先获取第t-1个迭代单元中隐含层的特征向量ht-1,该t为不大于T的正整数,对于第1个迭代单元,该特征提取模型则可以直接获取预设的初始特征向量h0,该初始特征向量h0可以为零向量。进一步的,可以基于该隐含层的特征向量ht-1,确定每个基础视觉特征向量对应于该第t个迭代单元的注意力系数。其中,第m个基础视觉特征向量xm对应于第t个迭代单元的注意力系数可以表示为:
其中,fatt为预设的线性变换函数,例如,fatt可以为多层感知器,S为预设的归一化函数,例如,S可以为Softmax函数,m为不大于M的正整数。该注意力系数越大,则表明该第m个基础视觉特征向量xm在第t个迭代单元生成单词时的重要程度越高。
最终该特征提取模型可以确定出对应于该T个迭代单元的T组注意力系数,其中每组注意力系数可以包括与该M个基础视觉特征向量一一对应的M个注意力系数。
步骤203、基于该至少一个基础视觉特征向量,以及每个基础视觉特征向量对应于每个迭代单元的注意力系数,得到至少一个视觉特征向量。
在本发明实施例中,对于语言模型中至少一个迭代单元中的任一迭代单元,可以基于每个基础视觉特征向量对应于该任一迭代单元的注意力系数,对该至少一个基础视觉特征向量进行加权求和,从而得到与该任一迭代单元对应的视觉特征向量。该至少一个迭代单元中的第t个迭代单元所对应的视觉特征向量Vt可以满足:
相应的,该特征提取模型所提取出的与该至少一个迭代单元一一对应的至少一个视觉特征向量可以为{V1,V2,...,VT}。
在本发明实施例中,该基于卷积神经网络的特征提取模型可以通过调整每个基础视觉特征向量对应于每个迭代单元的注意力系数的大小,自适应地从目标对象中提取出能够反映出该目标对象最重要的视觉特征的视觉特征向量。
步骤204、获取与每个视觉特征向量关联的至少一组样本数据。
在本发明实施例中,可以采用k近邻(k-Nearest Neighbor,KNN)算法从预设的样本数据库中获取与每个视觉特征向量关联的至少一组样本数据。每组样本数据可以包括:样本图片以及与该样本图片对应的标注文本,该标注文本可以为人工标注的属性标注文本或者关系标注文本。其中,属性标注文本可以用于描述图片中视觉对象(例如物体或者物体的行为)的语义属性,关系标注文本可以用于描述图片中各视觉对象之间的关系。
可选的,在获取与第一视觉特征向量关联的至少一组样本数据时,可以先采用该记忆模型分别提取该样本数据库中每一组样本数据的参考特征向量,例如可以采用该记忆模型中的图片处理模型获取每一组样本数据中样本图片的参考特征向量,然后分别计算该第一视觉特征向量与每一组样本数据的参考特征向量之间的向量距离,得到多个向量距离,最后可以获取向量距离不大于预设距离阈值的至少一组样本数据作为与该第一视觉特征向量关联的样本数据。
其中,该第一视觉特征向量可以为该至少一个视觉特征向量中的任一视觉特征向量。该预设距离阈值可以为该多个向量距离的均值;或者,也可以先对该多个向量距离由小至大进行排序,然后将该排序后的多个向量距离中,第K个向量距离作为该预设距离阈值,相应的,不大于该预设距离阈值的至少一组样本数据也即是该样本数据库中,与该第一视觉特征向量之间的向量距离较短的K组样本数据。两个向量之间的向量距离可以是指两个向量之间的欧式距离。
需要说明的是,本发明实施例中所采用的用于获取该样本数据的样本数据库可以为人工标记的视觉知识图谱数据集Visual Genome,该数据集中包含10万张图片,500万个图片区域描述,100万个视觉问答,300万个物体,200万个针对该10万张图片中视觉对象的属性标注,以及200万个针对该10万张图片中视觉对象的关系标注。本发明实施例提供的方法主要使用了该数据集中具有属性标注的图片,以及具有关系标注的图片。
此外,虽然本发明实施例所提供的方法也需要获取预先标记的样本数据,但由于本申请方法所获取的样本数据中的标记数据为样本图片的属性标注文本或关系标注文本,而相关技术中的方法所需获取的标记数据为视频的描述文本,因此相比于相关技术中的方法,本申请方法所需的样本数据更容易获取,且可用的数据库也更多。
步骤205、采用记忆模型对每个视觉特征向量所关联的至少一组样本数据进行处理,得到每个视觉特征向量对应的语义特征向量。
在本发明实施例中,该记忆模型可以为预先训练得到的基于卷积神经网络的模型,且该记忆模型可以包括图片处理模型和文本处理模型Fs。在采用该记忆模型对任一视觉特征向量所关联的该至少一组样Fv本数据进行处理时,可以采用图片处理模型Fv分别提取每组样本数据中的样本图片的视觉特征向量,并可以采用该文本处理模型Fs分别提取每组样本数据中的标注文本的语义特征向量,然后再基于该样本图片的视觉特征向量和标注文本的语义特征向量得到该任一视觉特征向量所对应的语义特征向量。
由于至少一组样本数据中的标注文本可以指示样本图片中视觉对象的属性特征或者视觉对象之间的关系特征,且该至少一组样本数据是与目标对象中的视觉特征向量所关联的样本数据,因此在描述文本的生成过程中,每个视觉特征向量所关联的至少一组样本数据可以辅助提取出目标对象中的属性特征或关系特征,能够有效提高生成的描述文本准确性。也即是,该记忆模块可以自适应的选取与目标对象有关的属性特征和关系特征来辅助生成单词。
图5是本发明实施例提供的一种获取第一视觉特征向量对应的语义特征向量的方法流程图,参考图5,采用记忆模型对第一视觉特征向量所关联的至少一组样本数据进行处理,得到第一视觉特征向量对应的语义特征向量的过程具体可以包括:
步骤2051、采用记忆模型中的图片处理模型对每组样本数据中的样本图片进行处理,得到每组样本数据中的样本图片的视觉特征向量。
该图片处理模型Fv可以包括多层卷积网络和一个全连接网络,假设该第一视觉特征向量所关联的样本数据包括K组,则采用该图片处理模型Fv依次对该K组样本数据中的样本图片进行处理后,可以得到共K个样本图片的视觉特征向量。假设采用图片处理模型Fv对第i组样本数据中的样本图片进行处理后,得到的该第i组样本数据中的样本图片的视觉特征向量表示为pi,则该K个样本图片的视觉特征向量可以表示为集合{pi}i=1,...,K
步骤2052、采用记忆模型中的文本处理模型对每组样本数据中的标注文本进行处理,得到每组样本数据中的标注文本的语义特征向量。
该文本处理模型Fs可以包括词向量模型(例如word2vector模型)和池化层,在处理时,可以先采用该词向量模型获取每一组样本数据中的标注文本中每个单词的语义向量,得到至少一个语义向量,然后再通过该池化层的对该至少一个语义向量进行池化(pooling)操作,即可得到该每组样本数据中的标注文本的语义特征向量。
采用该文本处理模型Fs依次对K组样本数据中的标注文本进行处理后,可以得到共K个标注文本的语义特征向量。假设采用文本处理模型Fs对第i组样本数据中的标注文本进行处理后,得到的该第i组样本数据中的标注文本的语义特征向量表示为qi,则该K个标注文本的语义特征向量可以表示为集合{qi}i=1,...,K
此外,在本发明实施例中,如图3所示,每个视觉特征向量所对应的K个样本图片的视觉特征向量{pi}i=1,...,K也可以称为键(Key)向量,相应的,K个标注文本的语义特征向量{qi}i=1,...,K可以为与该K个Key向量对应的K个值(Value)向量。
步骤2053、根据每组样本数据中的样本图片的视觉特征向量,确定每组样本数据中的标注文本的权重。
其中,每组样本数据中的标注文本的权重大小与样本图片的视觉特征向量的大小正相关。也即是,某个样本图片的视觉特征向量越大,该样本图片所对应的标注文本的权重也就越大。对于与第一视觉特征向量Vt关联的K组样本数据,其第i组样本数据中的标注文本的权重ci可以满足:
其中,表示Vt的转置,pi为第i组样本数据中的样本图片的视觉特征向量,pj为第j组样本数据中的样本图片的视觉特征向量,i和j均为不大于K的正整数。
步骤2054、基于每组样本数据中的标注文本的权重,对该至少一组样本数据中的标注文本的语义特征向量进行加权求和,得到该第一视觉特征向量对应的语义特征向量。
基于上述步骤2053中确定的K个权重对该K个标注文本的语义特征向量{qi}i=1,...,K进行加权求和后,得到的该第一视觉特征向量Vt所对应的语义特征向量可以表示为:
步骤206、依次采用语言模型中的至少一个迭代单元中的每个迭代单元对对应的视觉特征向量和语义特征向量进行处理,得到至少一个单词。
该语言模型可以为基于循环神经网络的模型,例如可以为基于LSTM网络的模型。参考图3可知,该语言模型可以包括至少一个迭代单元,每个迭代单元可以用于生成一个单词。在生成描述文本时,可以将每个视觉特征向量及对应的语义特征向量分别输入至对应的迭代单元,该迭代单元即可根据输入的特征向量生成一个单词。
如图3所示,该每个迭代单元031可以包括第一线性处理单元L1和第二线性处理单元L2。每个视觉特征向量可以输入至对应的迭代单元中的第一线性处理单元L1,每个视觉特征向量对应的语义特征向量则可以输入至对应的迭代单元中的第二线性处理单元L2。
其中,第一个迭代单元031中的第一线性处理单元L1可以基于输入的视觉特征向量V1,预设的初始特征向量h0以及预设的初始化单词(例如“开始”)生成输出向量,并可以将该输出向量输入至第二线性处理单元L2以及下一个迭代单元的第一线性处理单元L1;其余每个迭代单元031中的第一线性处理单元L1可以基于输入的视觉特征向量,上一个迭代单元中第一线性处理单元L1的输出向量(也即是上一个迭代单元隐含层的特征向量),以及上一个迭代单元生成的单词生成输出向量,并可以将该输出向量输入至第二线性处理单元L2以及下一个迭代单元的第一线性处理单元L1。
每个迭代单元中的第二线性处理单元L2可以基于输入的语义特征向量以及第一线性处理单元L1的输出向量生成单词,并可以将该单词输入至下一个迭代单元的第一线性处理单元L1。其中,每个第二线性处理单元L2对输入的向量进行线性处理后,还需要采用预设的归一化函数S对线性处理后的向量进行进一步的归一化处理,进而生成单词。该预设的归一化函数S可以为Softmax函数。此外,对于最后一个迭代单元,该迭代单元基于输入的特征向量所生成的单词可以为预设的结束符单词(例如“结束”),描述文本生成设备检测到该结束符单词时,可以确定用于生成描述文本的单词已生成完毕。
示例的,第二个迭代单元中的第一线性处理单元L2可以基于输入的视觉特征向量V2,第一个迭代单元中第一线性处理单元L1的输出向量以及该第一个迭代单元生成的单词“一个”生成输出向量,并将该输出向量输入至第二线性处理单元L2以及第三个迭代单元中的第一线性处理单元L1;该第二个迭代单元中的第二线性处理单元L2可以基于输入的语义特征向量R2以及该第一线性处理单元L1的输出向量生成单词“人”,并且可以将该单词输入至第三个迭代单元中的第一处理单元L1。
步骤207、将该至少一个单词组成的文本作为该目标对象的描述文本。
最后,该语言模型即可将各个迭代单元生成的单词组成文本,作为该目标对象的描述文本。示例的,假设目标对象为视频,该语言模型包括的多个迭代单元生成的单词依次为“一个”、“人”、“在”以及“跑步”,则该语言模型生成的该视频的描述文本可以为“一个人在跑步”。
需要说明的是,本发明实施例提供的描述文本生成方法中所采用的每个模型,均可以采用Pytorch、Caffe或Tensorflow等深度学习框架实现。
综上所述,本发明实施例提供了一种描述文本生成方法,该方法可以从样本数据库中获取与目标对象的每个视觉特征向量关联的至少一组样本数据,并可以基于目标对象的至少一个视觉特征向量,以及由该至少一组样本数据得到的语义特征向量生成该目标对象的描述文本。由于每至少一组样本数据均为与目标对象中的一个视觉特征向量关联,且预先经过标注的数据,因此通过该至少一组样本数据可以辅助提取出目标对象中的特征,有效提高了视频描述的准确性和灵活性。并且,由于本发明实施例提供的方法中,与视觉特征向量关联的每组样本数据中的标注文本可以为属性标注文本或者关系标注文本,因此该方法能够有效利用样本图片中视觉对象的属性特征和关系特征来指导目标对象的描述文本生成,该方法考虑了目标对象中视觉对象的语义特征、属性特征以及各视觉对象之间关系特征,因此可以有效提高描述的准确性。
如前文所述,本发明实施例所提供的描述文本生成方法中所采用的记忆模型为预先训练得到的模型,图6是本发明实施例提供的一种训练记忆模型的方法流程图,参考图6,该训练方法可以包括:
步骤301、获取至少一组训练数据。
在本发明实施例中,可以从预设的样本数据库中获取该至少一组训练数据,并且该用于获取训练数据的样本数据库与该用于获取样本数据的样本数据库可以为同一数据库,也可以为不同的数据库,本发明实施例对此不做限定。该获取得到的每组训练数据也可以包括:训练图片以及与该训练图片对应的训练标注文本,该每组训练数据也可以称为一个训练样本对。该训练标注文本可以包括属性标注文本或者关系标注文本。
需要说明的是,为了保证训练得到的记忆模型的效果,在选取该至少一组训练数据时,应当尽量保证该至少一组训练数据中的训练标注文本既包括属性标注文本,也包括关系标注文本。例如,假设需要获取N组训练数据(该N为正整数),则可以使得选取的N/2组训练数据中每组训练数据的训练标注文本为属性标注文本,剩余的N/2组训练数据中每组训练数据的训练标注文本为关系标注文本。
步骤302、采用图片处理模型对每组训练数据中的训练图片进行处理,得到每组训练数据中的训练图片的视觉特征向量。
图7是本发明实施例提供的一种训练记忆模型的算法框架图,参考图7,该图片处理模型可以为基于卷积神经网络的模型,例如该图片处理模型可以包括多层卷积网络和一个全连接网络。若在上述步骤301中获取到了N组训练数据,则采用该图片处理模型Fv对第n组训练数据中的训练图片vn进行处理后,得到的该训练图片vn的特征向量可以表示为Fv(vn),其中n为不大于N的正整数。
步骤303、采用文本处理模型对每组训练数据中的训练标注文本进行处理,得到每组训练数据中的训练标注文本的语义特征向量。
该文本处理模型可以包括预训练的词向量模型(例如word2vector模型),以及池化层。在采用该文本处理模型对训练标注文本进行处理时,可以先通过该词向量模型获取训练标注文本中每个单词的语义向量,得到至少一个语义向量,然后再通过该池化层的对该至少一个语义向量进行池化操作,即可得到该每组训练数据中的训练标注文本的语义特征向量。其中,采用该文本处理模型Fs对第n组训练数据中的训练标注文本sn进行处理后,得到的该训练标注文本sn的特征向量可以表示为Fs(sn)。
示例的,如图7所示,假设某个训练图片的训练标注文本包括“小屋”、“窗户”以及“树木”等六个单词,则采用文本处理模型对该训练标注文本进行处理时,可以先通过词向量模型获取每个单词的语义向量,得到六个语义向量;之后可以通过池化层对该六个语义向量进行池化操作,即可得到该训练标注文本的语义特征向量。
步骤304、基于训练图片的视觉特征向量和该训练标注文本的语义特征向量,构造损失函数。
在构造损失函数时,可以先分别计算每一组训练数据中,训练图片的视觉特征向量与训练标注文本的语义特征向量之间的距离,得到N个距离。其中第n组训练数据中的训练图片vn的特征向量Fv(vn)与训练标注文本sn的特征向量Fs(sn)之间的距离dn可以表示为:dn=||Fv(vn)-Fs(sn)||。
进一步的,即可根据该N个距离构造损失函数,该损失函数L可以满足:
上述公式(1)中,τ为预设的超参数,max(τ-di,0)表示取(τ-di)和0中的较大值,w为该记忆模型中的参数,Ω(w)表示w的二范数(也称为L2正则),λ为权重衰减因子(weightdecay),ln表示第n组样本数据对应的配对标记,且ln的取值为0或1。其中,ln的取值为1表示该第n组样本数据中的训练图片与其所对应的训练标注文本是相关的,即该训练标注文本是针对该训练图片标注的;ln的取值为0则表示该第n组样本数据中的训练图片与其所对应的训练标注文本不相关,即该训练图片和该训练标注文本是随机生成的训练样本对。
需要说明的是,在本发明实施例中,该损失函数也可以称为对比性损失函数,或者对比性约束函数等,本发明实施例对此不做限定。
步骤305、采用该损失函数对该记忆模型进行训练,得到该图片处理模型和该文本处理模型。
采用如上述公式(1)所示的损失函数对该记忆模型进行训练,可以规则化该记忆模型中的参数w,从而得到该图片处理模型和该文本处理模型,该训练过程可以表示为:也即是求解使得该损失函数取值最小时的自变量w的取值。该训练后的记忆模型能够有效拟合该至少一组训练数据,并能够学习将图片和文本映射到两者共享的语义特征空间时的向量变换。其中,在训练的过程中,可以通过反向传递的方式更新该记忆模型中的参数w,直至该损失函数L收敛。
综上所述,本发明实施例提供了一种记忆模型的训练方法,该方法训练得到的记忆模型可以在描述文本的生成过程中,自适应的选取与目标对象有关的属性特征和关系特征来辅助生成单词。
需要说明的是,本发明实施例提供的描述文本生成方法和记忆模型的训练方法的步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减。例如,步骤2052可以与步骤2051同时执行,步骤303可以与步骤302同时执行。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本发明的保护范围之内,因此不再赘述。
图8是本发明实施例提供的一种描述文本生成装置的结构示意图,该装置可以配置于图1所示的描述文本生成设备中,参考图8,该装置可以包括:
提取模块401,用于从目标对象中提取出至少一个视觉特征向量,该目标对象为视频或图片。
获取模块402,用于获取与每个该视觉特征向量对应的语义特征向量。
处理模块403,用于对该至少一个视觉特征向量,以及每个该视觉特征向量对应的语义特征向量进行处理,得到该目标对象的描述文本。
可选的,参考图9,该获取模块402可以包括:
获取子模块4021,用于获取与每个该视觉特征向量关联的至少一组样本数据,每组该样本数据包括:样本图片以及与该样本图片对应的标注文本,该标注文本包括属性标注文本或者关系标注文本。
处理子模块4022,用于采用记忆模型对每个该视觉特征向量所关联的至少一组样本数据进行处理,得到每个该视觉特征向量对应的语义特征向量。
可选的,该记忆模型可以包括图片处理模型和文本处理模型,参考图10,该装置还可以包括:
数据获取模块404,用于获取至少一组训练数据,每组该训练数据包括:训练图片以及与该训练图片对应的训练标注文本。
图片处理模块405,用于采用该图片处理模型对每组训练数据中的训练图片进行处理,得到每组训练数据中的训练图片的视觉特征向量。
文本处理模块406,用于采用该文本处理模型对每组训练数据中的训练标注文本进行处理,得到每组训练数据中的训练标注文本的语义特征向量。
构造模块407,用于基于该训练图片的视觉特征向量和该训练标注文本的语义特征向量,构造损失函数。
训练模块408,用于采用该损失函数对该记忆模型进行训练,得到该图片处理模型和该文本处理模型。
可选的,该数据获取模块404获取到的训练数据的组数为N,N为正整数,该构造模块407可以用于:
分别计算每一组训练数据中,训练图片的视觉特征向量与训练标注文本的语义特征向量之间的距离,得到N个距离,其中第n组训练数据中的训练图片vn的视觉特征向量Fv(vn)与训练标注文本sn的语义特征向量Fs(sn)之间的距离dn满足:dn=||Fv(vn)-Fs(sn)||,n为不大于N的正整数;
根据所述N个距离,构造损失函数,所述损失函数L满足:
其中,ln表示第n组样本数据对应的配对标记,且ln的取值为0或1,τ为预设的超参数,max(τ-di,0)表示取(τ-di)和0中的较大值,w为所述记忆模型中的参数,Ω(w)表示w的二范数,λ为权重衰减因子。
可选的,记忆模型包括图片处理模型和文本处理模型,该处理子模块4022采用记忆模型对第一视觉特征向量所关联的至少一组样本数据进行处理,得到该第一视觉特征向量对应的语义特征向量的过程可以包括:
采用该图片处理模型对每组样本数据中的样本图片进行处理,得到每组样本数据中的样本图片的视觉特征向量。
采用该文本处理模型对每组样本数据中的标注文本进行处理,得到每组样本数据中的标注文本的语义特征向量。
根据每组样本数据中的样本图片的视觉特征向量,确定每组样本数据中的标注文本的权重,其中,每组样本数据中的标注文本的权重大小与样本图片的视觉特征向量的大小正相关。
基于每组样本数据中的标注文本的权重,对该至少一组样本数据中的标注文本的语义特征向量进行加权求和,得到该第一视觉特征向量对应的语义特征向量。
其中,该处理子模块4022根据每组样本数据中的样本图片的视觉特征向量,确定每组样本数据中的标注文本的权重的过程可以包括:
根据该第一视觉特征向量Vt,以及每组样本数据中的样本图片的视觉特征向量,确定每组样本数据中的标注文本的权重,第i组样本数据中的标注文本的权重ci满足:
其中,K为与每个视觉特征向量关联的样本数据的组数,表示Vt的转置,pi为第i组样本数据中的样本图片的视觉特征向量,pj为第j组样本数据中的样本图片的视觉特征向量,i和j均为不大于K的正整数。
可选的,该获取子模块4021可以用于:
采用该记忆模型分别提取样本数据库中每一组样本数据的参考特征向量;
分别计算该第一视觉特征向量与每一组样本数据的参考特征向量之间的向量距离;
获取向量距离不大于预设距离阈值的至少一组样本数据作为与该第一视觉特征向量关联的样本数据。
可选的,该记忆模型包括图片处理模型和文本处理模型;该获取子模块4021采用该记忆模型分别提取该样本数据库中每一组样本数据的参考特征向量的过程可以包括:
采用该图片处理模型分别提取样本数据库中每一组样本数据中样本图片的参考特征向量。
可选的,目标对象的描述文本由语言模型生成,该语言模型可以包括至少一个迭代单元,每个该迭代单元用于生成一个单词;
该提取模块401可以用于:
从该目标对象中提取出与该至少一个迭代单元一一对应的至少一个视觉特征向量。
相应的,该处理模块403可以用于:
依次采用该至少一个迭代单元中的每个迭代单元对对应的视觉特征向量和语义特征向量进行处理,得到至少一个单词;
将该至少一个单词组成的文本作为该目标对象的描述文本。
可选的,参考图11,该提取模块401可以包括:
提取子模块4011,用于提取该目标对象的至少一个基础视觉特征向量,该目标对象包括多帧图像,该至少一个基础视觉特征向量包括从每一帧图像中提取的视觉特征向量。
确定子模块4012,用于确定该至少一个基础视觉特征向量中,每个基础视觉特征向量对应于每个迭代单元的注意力系数。
加权子模块4013,用于对于任一迭代单元,基于每个基础视觉特征向量对应于该任一迭代单元的注意力系数,对该至少一个基础视觉特征向量进行加权求和,得到与该任一迭代单元对应的视觉特征向量。
可选的,该语言模型为基于循环神经网络的模型,该确定子模块4012可以用于:
获取第t-1个迭代单元中隐含层的特征向量ht-1,t为不大于T的正整数,T为语言模型包括的迭代单元的个数;
基于该隐含层的特征向量ht-1,确定每个基础视觉特征向量对应于该第t个迭代单元的注意力系数,其中,第m个基础视觉特征向量xm对应于该第t个迭代单元的注意力系数满足:
其中,fatt为预设的线性变换函数,S为预设的归一化函数,m为不大于M的正整数,M为从该目标对象中提取的基础特征向量的个数。
可选的,该语言模型为基于循环神经网络的模型;
该处理模块403采用该至少一个迭代单元中的第一个迭代单元对对应的视觉特征向量和语义特征向量进行处理,得到一个单词的过程可以包括:
采用该第一个迭代单元对对应的视觉特征向量、语义特征向量、预设的初始特征向量以及预设的初始化单词进行处理,得到一个单词。
该处理模块403采用除该第一个迭代单元之外的任一迭代单元对对应的视觉特征向量和语义特征向量进行处理,得到一个单词的过程可以包括:
采用该任一迭代单元对对应的视觉特征向量、语义特征向量、上一个迭代单元隐含层的特征向量以及上一个迭代单元生成的单词进行处理,得到一个单词。
综上所述,本发明实施例提供了一种描述文本生成装置,可以从目标对象中提取出至少一个视觉特征向量,并可以获取与每个视觉特征向量对应的语义特征向量,之后可以基于该至少一个视觉特征向量以及每个视觉特征向量的语义特征向量生成该目标对象的描述文本。由于与每个视觉特征向量对应的语义特征向量可以反映目标对象的语义特征,因此通过该语义特征向量辅助描述文本的生成,可以提高描述的准确性和灵活性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图12示出了本发明一个示例性实施例提供的终端1200的结构框图。该终端1200可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudioLayer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1200包括有:处理器1201和存储器1202。
处理器1201可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1201可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1201还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1202可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的描述文本生成方法。
在一些实施例中,终端1200还可选包括有:***设备接口1203和至少一个***设备。处理器1201、存储器1202和***设备接口1203之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1203相连。具体地,***设备包括:射频电路1204、触摸显示屏1205、摄像头1206、音频电路1207、定位组件1208和电源1209中的至少一种。
***设备接口1203可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器1201和存储器1202。在一些实施例中,处理器1201、存储器1202和***设备接口1203被集成在同一芯片或电路板上;在一些其他实施例中,处理器1201、存储器1202和***设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1204用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1204包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1204还可以包括NFC(NearField Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1205用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时,显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时,显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1205可以为一个,设置终端1200的前面板;在另一些实施例中,显示屏1205可以为至少两个,分别设置在终端1200的不同表面或呈折叠设计;在再一些实施例中,显示屏1205可以是柔性显示屏,设置在终端1200的弯曲表面上或折叠面上。甚至,显示屏1205还可以设置成非矩形的不规则图形,也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1206用于采集图像或视频。可选地,摄像头组件1206包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1201进行处理,或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1207还可以包括耳机插孔。
定位组件1208用于定位终端1200的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1208可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。
电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于:加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。
加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号,控制触摸显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1212可以检测终端1200的机体方向及转动角度,陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1213可以设置在终端1200的侧边框和/或触摸显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时,可以检测用户对终端1200的握持信号,由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在触摸显示屏1205的下层时,由处理器1201根据用户对触摸显示屏1205的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1214用于采集用户的指纹,由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份,或者,由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1201授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时,指纹传感器1214可以与物理按键或厂商Logo集成在一起。
光学传感器1215用于采集环境光强度。在一个实施例中,处理器1201可以根据光学传感器1215采集的环境光强度,控制触摸显示屏1205的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1205的显示亮度;当环境光强度较低时,调低触摸显示屏1205的显示亮度。在另一个实施例中,处理器1201还可以根据光学传感器1215采集的环境光强度,动态调整摄像头组件1206的拍摄参数。
接近传感器1216,也称距离传感器,通常设置在终端1200的前面板。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中,当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时,由处理器1201控制触摸显示屏1205从亮屏状态切换为息屏状态;当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时,由处理器1201控制触摸显示屏1205从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图12中示出的结构并不构成对终端1200的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本发明实施例还提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由处理器加载并执行以实现如上述实施例提供的描述文本生成方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种描述文本生成方法,其特征在于,所述方法包括:
从目标对象中提取出至少一个视觉特征向量,所述目标对象为视频或图片;
获取与每个所述视觉特征向量对应的语义特征向量;
对所述至少一个视觉特征向量,以及每个所述视觉特征向量对应的语义特征向量进行处理,得到所述目标对象的描述文本。
2.根据权利要求1所述的方法,其特征在于,所述获取与每个所述视觉特征向量对应的语义特征向量,包括:
获取与每个所述视觉特征向量关联的至少一组样本数据,每组所述样本数据包括:样本图片以及与所述样本图片对应的标注文本,所述标注文本包括属性标注文本或者关系标注文本;
采用记忆模型对每个所述视觉特征向量所关联的至少一组样本数据进行处理,得到每个所述视觉特征向量对应的语义特征向量。
3.根据权利要求2所述的方法,其特征在于,所述记忆模型包括图片处理模型和文本处理模型,所述方法还包括:
获取至少一组训练数据,每组所述训练数据包括:训练图片以及与所述训练图片对应的训练标注文本,所述训练标注文本包括属性标注文本或者关系标注文本;
采用所述图片处理模型对每组训练数据中的训练图片进行处理,得到每组训练数据中的训练图片的视觉特征向量;
采用所述文本处理模型对每组训练数据中的训练标注文本进行处理,得到每组训练数据中的训练标注文本的语义特征向量;
基于所述训练图片的视觉特征向量和所述训练标注文本的语义特征向量,构造损失函数;
采用所述损失函数对所述记忆模型进行训练,得到所述图片处理模型和所述文本处理模型。
4.根据权利要求3所述的方法,其特征在于,获取到的所述训练数据的组数为N,所述基于所述训练图片的视觉特征向量和所述训练标注文本的语义特征向量,构造损失函数,包括:
分别计算每一组训练数据中,训练图片的视觉特征向量与训练标注文本的语义特征向量之间的距离,得到N个距离,其中第n组训练数据中的训练图片vn的视觉特征向量Fv(vn)与训练标注文本sn的语义特征向量Fs(sn)之间的距离dn满足:dn=||Fv(vn)-Fs(sn)||,n为不大于N的正整数;
根据所述N个距离,构造损失函数,所述损失函数L满足:
其中,ln表示第n组样本数据对应的配对标记,且ln的取值为0或1,τ为预设的超参数,max(τ-di,0)表示取(τ-di)和0中的较大值,w为所述记忆模型中的参数,Ω(w)表示w的二范数,λ为权重衰减因子。
5.根据权利要求2至4任一所述的方法,其特征在于,所述记忆模型包括图片处理模型和文本处理模型,采用所述记忆模型对第一视觉特征向量所关联的至少一组样本数据进行处理,得到所述第一视觉特征向量对应的语义特征向量,包括:
采用所述图片处理模型对每组样本数据中的样本图片进行处理,得到每组样本数据中的样本图片的视觉特征向量;
采用所述文本处理模型对每组样本数据中的标注文本进行处理,得到每组样本数据中的标注文本的语义特征向量;
根据每组样本数据中的样本图片的视觉特征向量,确定每组样本数据中的标注文本的权重,其中,每组样本数据中的标注文本的权重大小与样本图片的视觉特征向量的大小正相关;
基于每组样本数据中的标注文本的权重,对所述至少一组样本数据中的标注文本的语义特征向量进行加权求和,得到所述第一视觉特征向量对应的语义特征向量。
6.根据权利要求5所述的方法,其特征在于,所述根据每组样本数据中的样本图片的视觉特征向量,确定每组样本数据中的标注文本的权重,包括:
根据所述第一视觉特征向量Vt,以及每组样本数据中的样本图片的视觉特征向量,确定每组样本数据中的标注文本的权重,第i组样本数据中的标注文本的权重ci满足:
其中,K为与每个所述视觉特征向量关联的样本数据的组数,Vt T表示Vt的转置,pi为第i组样本数据中的样本图片的视觉特征向量,pj为第j组样本数据中的样本图片的视觉特征向量,i和j均为不大于K的正整数。
7.根据权利要求2至4任一所述的方法,其特征在于,获取与第一视觉特征向量关联的至少一组样本数据,包括:
采用所述记忆模型分别提取样本数据库中每一组样本数据的参考特征向量;
分别计算所述第一视觉特征向量与每一组样本数据的参考特征向量之间的向量距离;
获取向量距离不大于预设距离阈值的至少一组样本数据作为与所述第一视觉特征向量关联的样本数据。
8.根据权利要求7所述的方法,其特征在于,所述记忆模型包括图片处理模型和文本处理模型;
所述采用所述记忆模型分别提取样本数据库中每一组样本数据的参考特征向量,包括:
采用所述图片处理模型分别提取所述样本数据库中每一组样本数据中样本图片的参考特征向量。
9.根据权利要求1至4任一所述的方法,其特征在于,所述目标对象的描述文本由语言模型生成,所述语言模型包括至少一个迭代单元,每个所述迭代单元用于生成一个单词;
所述从目标对象中提取出至少一个视觉特征向量,包括:
从所述目标对象中提取出与所述至少一个迭代单元一一对应的至少一个视觉特征向量;
所述对所述至少一个视觉特征向量,以及每个所述视觉特征向量对应的语义特征向量进行处理,得到所述目标对象的描述文本,包括:
依次采用所述至少一个迭代单元中的每个迭代单元对对应的视觉特征向量和语义特征向量进行处理,得到至少一个单词;
将所述至少一个单词组成的文本作为所述目标对象的描述文本。
10.根据权利要求9所述的方法,其特征在于,所述从目标对象中提取出至少一个视觉特征向量,包括:
提取所述目标对象的至少一个基础视觉特征向量,所述目标对象包括多帧图像,所述至少一个基础视觉特征向量包括从每一帧图像中提取的视觉特征向量;
确定所述至少一个基础视觉特征向量中,每个基础视觉特征向量对应于每个迭代单元的注意力系数;
对于任一迭代单元,基于每个基础视觉特征向量对应于所述任一迭代单元的注意力系数,对所述至少一个基础视觉特征向量进行加权求和,得到与所述任一迭代单元对应的视觉特征向量。
11.根据权利要求10所述的方法,其特征在于,所述语言模型为基于循环神经网络的模型,确定所述至少一个基础视觉特征向量中,每个基础视觉特征向量对应于第t个迭代单元的注意力系数,包括:
获取第t-1个迭代单元中隐含层的特征向量ht-1,t为不大于T的正整数,T为所述语言模型包括的迭代单元的个数;
基于所述隐含层的特征向量ht-1,确定每个基础视觉特征向量对应于所述第t个迭代单元的注意力系数,其中,第m个基础视觉特征向量xm对应于所述第t个迭代单元的注意力系数满足:
其中,fatt为预设的线性变换函数,S为预设的归一化函数,m为不大于M的正整数,M为从所述目标对象中提取的基础特征向量的个数。
12.根据权利要求9所述的方法,其特征在于,所述语言模型为基于循环神经网络的模型;
采用所述至少一个迭代单元中的第一个迭代单元对对应的视觉特征向量和语义特征向量进行处理,得到一个单词,包括:
采用所述第一个迭代单元对对应的视觉特征向量、语义特征向量、预设的初始特征向量以及预设的初始化单词进行处理,得到一个单词;
采用除所述第一个迭代单元之外的任一迭代单元对对应的视觉特征向量和语义特征向量进行处理,得到一个单词,包括:
采用所述任一迭代单元对对应的视觉特征向量、语义特征向量、上一个迭代单元隐含层的特征向量以及上一个迭代单元生成的单词进行处理,得到一个单词。
13.一种描述文本生成装置,其特征在于,所述装置包括:
提取模块,用于从目标对象中提取出至少一个视觉特征向量,所述目标对象为视频或图片;
获取模块,用于获取与每个所述视觉特征向量对应的语义特征向量;
处理模块,用于对所述至少一个视觉特征向量,以及每个所述视觉特征向量对应的语义特征向量进行处理,得到所述目标对象的描述文本。
14.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的描述文本生成方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一所述的描述文本生成方法。
CN201810082485.1A 2018-01-29 2018-01-29 描述文本生成方法及装置 Active CN110110145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810082485.1A CN110110145B (zh) 2018-01-29 2018-01-29 描述文本生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810082485.1A CN110110145B (zh) 2018-01-29 2018-01-29 描述文本生成方法及装置

Publications (2)

Publication Number Publication Date
CN110110145A true CN110110145A (zh) 2019-08-09
CN110110145B CN110110145B (zh) 2023-08-22

Family

ID=67483214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810082485.1A Active CN110110145B (zh) 2018-01-29 2018-01-29 描述文本生成方法及装置

Country Status (1)

Country Link
CN (1) CN110110145B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519636A (zh) * 2019-09-04 2019-11-29 腾讯科技(深圳)有限公司 语音信息播放方法、装置、计算机设备及存储介质
CN110598651A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN110704637A (zh) * 2019-09-29 2020-01-17 出门问问信息科技有限公司 一种多模态知识库的构建方法、装置及计算机可读介质
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、***、装置
CN111368552A (zh) * 2020-02-26 2020-07-03 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111507355A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 一种字符识别方法、装置、设备和存储介质
CN111757173A (zh) * 2019-12-23 2020-10-09 北京沃东天骏信息技术有限公司 一种解说词生成方法、装置、智能音箱及存储介质
WO2021052358A1 (zh) * 2019-09-16 2021-03-25 腾讯科技(深圳)有限公司 图像处理方法、装置及电子设备
CN112835624A (zh) * 2021-02-18 2021-05-25 中国科学院自动化研究所 指令字处理器及零开销循环处理方法、电子设备及介质
CN113449700A (zh) * 2021-08-30 2021-09-28 腾讯科技(深圳)有限公司 视频分类模型的训练、视频分类方法、装置、设备及介质
CN114356860A (zh) * 2022-01-06 2022-04-15 支付宝(杭州)信息技术有限公司 对话生成方法及装置
CN114549935A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 信息生成方法和装置
CN114840563A (zh) * 2021-02-01 2022-08-02 腾讯科技(深圳)有限公司 一种字段描述信息的生成方法、装置、设备及存储介质
CN117221391A (zh) * 2023-11-09 2023-12-12 天津华来科技股份有限公司 基于视觉语义大模型的智能摄像机推送方法、装置及设备
CN117216312A (zh) * 2023-11-06 2023-12-12 长沙探月科技有限公司 提问素材的生成方法、装置、电子设备和存储介质
WO2023236908A1 (zh) * 2022-06-08 2023-12-14 华为技术有限公司 图像描述方法、电子设备及计算机可读存储介质
CN117314709A (zh) * 2023-11-30 2023-12-29 吉林省拓达环保设备工程有限公司 污水处理进度的智能监测***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016062610A (ja) * 2014-09-16 2016-04-25 株式会社リコー 特徴モデル生成方法及び特徴モデル生成装置
US9424461B1 (en) * 2013-06-27 2016-08-23 Amazon Technologies, Inc. Object recognition for three-dimensional bodies
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
US20170150235A1 (en) * 2015-11-20 2017-05-25 Microsoft Technology Licensing, Llc Jointly Modeling Embedding and Translation to Bridge Video and Language
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424461B1 (en) * 2013-06-27 2016-08-23 Amazon Technologies, Inc. Object recognition for three-dimensional bodies
JP2016062610A (ja) * 2014-09-16 2016-04-25 株式会社リコー 特徴モデル生成方法及び特徴モデル生成装置
US20170150235A1 (en) * 2015-11-20 2017-05-25 Microsoft Technology Licensing, Llc Jointly Modeling Embedding and Translation to Bridge Video and Language
CN106599198A (zh) * 2016-12-14 2017-04-26 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106971154A (zh) * 2017-03-16 2017-07-21 天津大学 基于长短记忆型递归神经网络的行人属性预测方法
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘畅;周向东;施伯乐;: "图像语义相似性网络的文本描述方法", 计算机应用与软件, no. 01 *
黄毅;鲍秉坤;徐常胜;: "关系挖掘驱动的视频描述自动生成", 南京信息工程大学学报(自然科学版), no. 06 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519636A (zh) * 2019-09-04 2019-11-29 腾讯科技(深圳)有限公司 语音信息播放方法、装置、计算机设备及存储介质
US11907637B2 (en) 2019-09-16 2024-02-20 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus, and storage medium
WO2021052358A1 (zh) * 2019-09-16 2021-03-25 腾讯科技(深圳)有限公司 图像处理方法、装置及电子设备
CN110598651B (zh) * 2019-09-17 2021-03-12 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN110991391A (zh) * 2019-09-17 2020-04-10 腾讯科技(深圳)有限公司 一种基于区块链网络的信息处理方法及装置
CN110598651A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN110704637A (zh) * 2019-09-29 2020-01-17 出门问问信息科技有限公司 一种多模态知识库的构建方法、装置及计算机可读介质
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、***、装置
CN111757173A (zh) * 2019-12-23 2020-10-09 北京沃东天骏信息技术有限公司 一种解说词生成方法、装置、智能音箱及存储介质
CN111368552A (zh) * 2020-02-26 2020-07-03 北京市公安局 一种面向特定领域的网络用户群组划分方法及装置
CN111507355A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 一种字符识别方法、装置、设备和存储介质
CN111507355B (zh) * 2020-04-17 2023-08-22 北京百度网讯科技有限公司 一种字符识别方法、装置、设备和存储介质
CN114840563B (zh) * 2021-02-01 2024-05-03 腾讯科技(深圳)有限公司 一种字段描述信息的生成方法、装置、设备及存储介质
CN114840563A (zh) * 2021-02-01 2022-08-02 腾讯科技(深圳)有限公司 一种字段描述信息的生成方法、装置、设备及存储介质
CN112835624A (zh) * 2021-02-18 2021-05-25 中国科学院自动化研究所 指令字处理器及零开销循环处理方法、电子设备及介质
CN113449700A (zh) * 2021-08-30 2021-09-28 腾讯科技(深圳)有限公司 视频分类模型的训练、视频分类方法、装置、设备及介质
CN114356860A (zh) * 2022-01-06 2022-04-15 支付宝(杭州)信息技术有限公司 对话生成方法及装置
CN114356860B (zh) * 2022-01-06 2024-06-21 支付宝(杭州)信息技术有限公司 对话生成方法及装置
CN114549935A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 信息生成方法和装置
CN114549935B (zh) * 2022-02-25 2024-05-07 北京百度网讯科技有限公司 信息生成方法和装置
WO2023236908A1 (zh) * 2022-06-08 2023-12-14 华为技术有限公司 图像描述方法、电子设备及计算机可读存储介质
CN117216312A (zh) * 2023-11-06 2023-12-12 长沙探月科技有限公司 提问素材的生成方法、装置、电子设备和存储介质
CN117216312B (zh) * 2023-11-06 2024-01-26 长沙探月科技有限公司 提问素材的生成方法、装置、电子设备和存储介质
CN117221391A (zh) * 2023-11-09 2023-12-12 天津华来科技股份有限公司 基于视觉语义大模型的智能摄像机推送方法、装置及设备
CN117221391B (zh) * 2023-11-09 2024-02-23 天津华来科技股份有限公司 基于视觉语义大模型的智能摄像机推送方法、装置及设备
CN117314709A (zh) * 2023-11-30 2023-12-29 吉林省拓达环保设备工程有限公司 污水处理进度的智能监测***

Also Published As

Publication number Publication date
CN110110145B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN110110145A (zh) 描述文本生成方法及装置
JP7130057B2 (ja) 手部キーポイント認識モデルの訓練方法及びその装置、手部キーポイントの認識方法及びその装置、並びにコンピュータプログラム
CN110097019B (zh) 字符识别方法、装置、计算机设备以及存储介质
CN110121118A (zh) 视频片段定位方法、装置、计算机设备及存储介质
CN110852100B (zh) 关键词提取方法、装置、电子设备及介质
CN110750992B (zh) 命名实体识别方法、装置、电子设备及介质
CN110135336B (zh) 行人生成模型的训练方法、装置及存储介质
CN108538311A (zh) 音频分类方法、装置及计算机可读存储介质
CN110148102A (zh) 图像合成方法、广告素材合成方法及装置
CN110018970B (zh) 缓存预取方法、装置、设备及计算机可读存储介质
CN110147533B (zh) 编码方法、装置、设备及存储介质
CN108304506B (zh) 检索方法、装置及设备
CN110147532B (zh) 编码方法、装置、设备及存储介质
CN110059652A (zh) 人脸图像处理方法、装置及存储介质
CN109189879A (zh) 电子书籍显示方法及装置
CN110503160B (zh) 图像识别方法、装置、电子设备及存储介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN108922531A (zh) 槽位识别方法、装置、电子设备及存储介质
CN109992685A (zh) 一种检索图片的方法及装置
CN113516143A (zh) 文本图像匹配方法、装置、计算机设备及存储介质
CN110378318A (zh) 文字识别方法、装置、计算机设备及存储介质
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN114299306A (zh) 获取图像检索模型的方法、图像检索方法、装置和设备
CN109961802A (zh) 音质比较方法、装置、电子设备及存储介质
CN110990549B (zh) 获取答案的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant