CN105989067A - 从图片生成文本摘要的方法、用户设备及训练服务器 - Google Patents
从图片生成文本摘要的方法、用户设备及训练服务器 Download PDFInfo
- Publication number
- CN105989067A CN105989067A CN201510068418.0A CN201510068418A CN105989067A CN 105989067 A CN105989067 A CN 105989067A CN 201510068418 A CN201510068418 A CN 201510068418A CN 105989067 A CN105989067 A CN 105989067A
- Authority
- CN
- China
- Prior art keywords
- layer
- vector
- parameter
- image
- represent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明实施例提供从图片生成文本摘要的方法、用户设备及训练服务器,以至少解决现有技术中从图片生成文本摘要的方法通用性差、网络依赖性强的问题。方法包括:用户设备获取数字图像;所述用户设备将所述数字图像进行预处理,得到所述数字图像的图像向量X;所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;所述用户设备将所述摘要向量转化为所述数字图像的文本摘要;所述用户设备输出所述文本摘要。本发明适用于图片内容辨识技术领域。
Description
技术领域
本发明涉及图片内容辨识技术,尤其涉及从图片生成文本摘要的方法、用户设备及训练服务器。
背景技术
随着数码相机、手机摄像头、谷歌眼镜等智能设备的不断发展,图像数据开始呈现指数式***增长。用户通常需要输入文本信息来查找与其相关的图片信息,或者输入图片信息来查找与之相关的文本信息或类似图片。然而,由于图片数据量大、内容复杂,因此使用文字或图片查找对应或类似图片时需要对大量的数据进行检索,面临着数据量大以及存储计算复杂度高的技术难题。虽然通过文字摘要信息来表达图片信息可以提升检索速度,但是由于视觉信息和文字信息是人类对自然界的两种截然不同的认知,因此通过文字准确、快速并清晰的描述相关图片并不容易。即,如何将视觉信息转化为相关的文字信息是机器学习领域的一大难题。
现有技术中,有如下两种将视觉信息转化为相关的文字信息的方案:
第一,在提供图片搜索功能的网站或服务器,以图片搜索图片的方式,从数据库中搜索出与该照片相近似的图片,并得到该相似图片的来源网址。然后,统计所有相近似图片来源网址上的文字信息,提取其中出现次数最多的文字为关键字,并以该关键字为搜索条件到搜索网站或服务器搜索文字信息后,将该文字信息在图片上注解。
第二,在提供图片搜索功能的网站或服务器,以图片搜索图片的方式,从数据库中搜索出与该照片相近似的图片,进而用该搜索到的图片已有的标签为关键字,查询诗句后输出。
虽然上述两种方案均可以将视觉信息转化为相关的文字信息,但是,仍存在如下问题:第一,均依赖于图片画面的相似性为前提,对于画面不相似但语义相似的画面无法处理,通用性较差;第二,均需要相关设备联网,网络依赖性较强。
发明内容
本发明实施例提供从图片生成文本摘要的方法、用户设备及训练服务器,以至少解决现有技术中从图片生成文本摘要的方法通用性差、网络依赖性强的问题,能够增强通用性,减少网络依赖性。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种从图片生成文本摘要的方法,所述方法包括:
用户设备获取数字图像;
所述用户设备将所述数字图像进行预处理,得到所述数字图像的图像向量X;
所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;
所述用户设备将所述摘要向量转化为所述数字图像的文本摘要;
所述用户设备输出所述文本摘要。
在第一方面第一种可能的实现方式中,结合第一方面,所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
在第一方面第二种可能的实现方式中,结合第一方面第一种可能的实现方式,若N=2,则所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
在第一方面第三种可能的实现方式中,结合第一方面第二种可能的实现方式,所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,包括:
所述用户设备将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过摘要向量卷积层T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
在第一方面第四种可能的实现方式中,结合第一方面至第一方面第三种可能的实现方式,所述用户设备输出所述文本摘要,包括:
所述用户设备通过所述用户设备的显示模块输出所述文本摘要;
或者,
所述用户设备通过所述用户设备的语音模块输出所述文本摘要。
第二方面,提供一种从图片生成文本摘要的方法,所述方法包括:
训练服务器训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;
所述训练服务器向用户设备发送所述训练好的摘要模型。
在第二方面第一种可能的实现方式中,结合第二方面,若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
在第二方面第二种可能的实现方式中,结合第二方面第一种可能的实现方式,所述训练服务器训练摘要模型,获得训练好的摘要模型,包括:
所述训练服务器构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层;
所述训练服务器对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数;
所述训练服务器构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层;
所述训练服务器对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数;
所述训练服务器构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数;W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数;Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,u表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数;
所述训练服务器构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层;
所述训练服务器对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数;
所述训练服务器构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层;
所述训练服务器对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数;
所述训练服务器构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2的输出层与所述第一全连接层F2之间的面向图像的第十四神经元参数;Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F2之间的面向摘要的第十六神经元参数。
在第二方面第三种可能的实现方式中,结合第二方面第二种可能的实现方式,所述训练服务器对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,包括;
所述训练服务器以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1<1;
所述训练服务器对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,包括:
所述训练服务器以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1;
所述训练服务器根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,包括:
所述训练服务器根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差α1||f(x,Wx,1,u,Wx,1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d,(W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),
0<γ1<1。
在第二方面第四种可能的实现方式中,结合第二方面第三种可能的实现方式,所述训练服务器对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,包括:
所述训练服务器以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1;
所述训练服务器对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,包括:
所述训练服务器以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1;
所述训练服务器根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,包括;
所述训练服务器根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d,(W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d),y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
在第二方面第五种可能的实现方式中,结合第二方面第四种可能的实现方式,
α1=β1=γ1=α2=β2=γ2=0.5。
第三方面,提供一种用户设备,所述用户设备包括:获取单元、处理单元、生成单元、转化单元、以及输出单元;
所述获取单元,用于获取数字图像;
所述处理单元,用于将所述数字图像进行预处理,得到所述数字图像的图像向量X;
所述生成单元,用于将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;
所述转化单元,用于将所述摘要向量转化为所述数字图像的文本摘要;
所述输出单元,用于输出所述文本摘要。
在第三方面第一种可能的实现方式中,结合第三方面,所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
在第三方面第二种可能的实现方式中,结合第三方面第一种可能的实现方式,若N=2,则所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
在第三方面第三种可能的实现方式中,结合第三方面第二种可能的实现方式,所述生成单元具体用于:
将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过所述摘要向量卷积层T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
在第三方面第四种可能的实现方式中,结合第三方面至第三方面第三种可能的实现方式,所述输出单元具体用于:
通过所述用户设备的显示模块输出所述文本摘要;
或者,
通过所述用户设备的语音模块输出所述文本摘要。
第四方面,提供一种训练服务器,所述训练服务器包括训练单元、发送单元;
所述训练单元,用于训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;
所述发送单元,用于向用户设备发送所述训练好的摘要模型。
在第四方面第一种可能的实现方式中,结合第四方面,若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
在第四方面第二种可能的实现方式中,结合第四方面第一种可能的实现方式,所述训练单元具体用于:
构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层;
对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数;
构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层;
对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数;
构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数;W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数;Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,u表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数;
构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层;
对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数;
构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层;
对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数;
构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向图像的第十四神经元参数;Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向摘要的第十六神经元参数。
在第四方面第三种可能的实现方式中,结合第四方面第二种可能的实现方式,所述训练单元具体用于:
以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1<1;
所述训练单元具体用于:
以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1;
所述训练单元具体用于:
根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d,(W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),
0<γ1<1。
在第四方面第四种可能的实现方式中,结合第四方面第三种可能的实现方式,所述训练单元具体用于:
以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1;
所述训练单元具体用于:
以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1;
所述训练单元具体用于:
根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d,(W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d),y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
在第四方面第五种可能的实现方式中,结合第四方面第四种可能的实现方式,
α1=β1=γ1=α2=β2=γ2=0.5。
本发明实施例提供从图片生成文本摘要的方法、用户设备及训练服务器,包括:用户设备获取数字图像;所述用户设备将所述数字图像进行预处理,得到所述数字图像的图像向量X;所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;所述用户设备将所述摘要向量转化为所述数字图像的文本摘要;所述用户设备输出所述文本摘要。基于本发明实施例的上述方案,一方面,本发明实施例中,从图片生成文本摘要时,用户设备直接将数字图像转化为图像向量,进而将图像向量输入到预先训练好的摘要模型,即可生成所述数字图像的文本摘要。该过程与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,本发明实施例中,从图片生成文本摘要时,可以根据预先训练好的摘要模型生成所述数字图像的文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的从图片生成文本摘要的方法流程示意图一;
图2为本发明实施例提供的摘要模型结构示意图;
图3为本发明实施例提供的N=2时的摘要模型结构示意图;
图4为本发明实施例提供的从图片生成文本摘要的方法流程示意图二;
图5为本发明实施例提供的第一三层神经网络结构示意图;
图6为本发明实施例提供的第二三层神经网络结构示意图;
图7为本发明实施例提供的三层神经网络的优化模型结构示意图;
图8为本发明实施例提供的第一五层神经网络结构示意图;
图9为本发明实施例提供的第二五层神经网络结构示意图;
图10为本发明实施例提供的用户设备结构示意图一;
图11为本发明实施例提供的训练服务器结构示意图一;
图12为本发明实施例提供的用户设备结构示意图二;
图13为本发明实施例提供的训练服务器结构示意图二。
具体实施方式
为了下述各实施例的描述清楚简洁,首先给出相关概念的简要介绍:
神经网络:
神经网络分为生物神经网络与人工神经网络(Artificial NeuralNetworks,简称:ANNs),本发明实施例中的神经网络具体为人工神经网络。人工神经网络也简称为神经网络(Neural Networks,简称:NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。该神经网络依靠***的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
第二,多层深度神经网络:
多层深度神经网络是指有多个(>=2)输入层、隐藏层和输出层叠加起来,构成的一个多层次的神经网络。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。
实施例一、
本发明实施例提供一种从图片生成文本摘要的方法,如图1所示,包括:
S101、用户设备获取数字图像。
S102、用户设备将所述数字图像进行预处理,得到所述数字图像的图像向量X。
S103、用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的。
S104、用户设备将所述摘要向量转化为所述数字图像的文本摘要。
S105、用户设备输出所述文本摘要。
具体的,本发明实施例步骤S101中,用户设备可以对特定场景进行实时拍摄,产生数字图像;也可以从预先存储的图像库中获取数字图像,本发明实施例对此不作具体限定。
具体的,本发明实施例步骤S102中,用户设备将获取到的数字图像进行预处理,得到该数字图像的图像向量X。其中,该图像向量X可以为一个k维向量,比如X=[0,0,1.2,0,2.45,0,0,0,34…0,45,0,0,91],本发明实施例对该图像向量的形式不作具体限定。
具体的,本发明实施例步骤S103中,预先训练好的摘要模型为用户设备从训练服务器下载训练好的摘要模型时,训练服务器发送给用户设备的。该预先训练好的摘要模型可以如图2所示,包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
需要说明的是,该多层深度神经网络模型中包含N个图像向量卷积层与N个摘要向量卷积层,其中,N越大,该预先训练好的摘要模型越精确;N越小,该预先训练好的摘要模型的训练成本越低。通常,在训练服务器训练摘要模型时,会综合考虑模型的精确性与训练成本两个因素,确定出合适的N后,进而建立神经网络进行训练,本发明实施例对N个取值不作具体限定。
优选的,若N=2,则该预先训练好的摘要模型可以如图3所示,包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量(步骤S103)具体包括:
所述用户设备将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过所述摘要向量卷积层T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
其中,假设所有的文本标签形成一个集合T={t1,t2,...,tn},则该摘要向量Y表示为一个基于文本标签集合T的n维词频向量t。
示例性的,假设有5个文本标签组成的集合T,则每个文本摘要是个5维度的向量,每个值表示文本标签出现的次数,称之为词频。比如,假设5个文本标签分别为:“猫”,“天空”,“高楼”,“老鼠”,“地铁”,则摘要向量[1,0,0,2,0]表示的图片中“猫”的词频为1,“老鼠”的词频为2,“天空”、“高楼”、“地铁”的词频均为0。
需要说明的是,上述仅是示例性的提供一种摘要向量,当然,还可能存在其它可能的摘要向量表征形式。比如,可以表示为归一化后的摘要向量。即,上述示例中的摘要向量[1,0,0,2,0]可以归一化为[1/3,0,0,2/3,0],表示图片中包含“猫”的可能性为1/3,包含“老鼠”的可能性为2/3,包含“天空”、“高楼”、“地铁”的可能性为0。本发明实施例对该摘要向量的形式不作具体限定。
具体的,考虑到摘要向量仅是文本摘要的一种数学表征形式,并不易于用户理解,因此本发明实施例步骤S104中,用户设备需要将摘要向量转化为数字图像的文本摘要。比如,上述示例中的摘要向量[1,0,0,2,0]对应的数字图像的文本摘要可以为老鼠。
具体的,本发明实施例步骤S105中,用户设备输出所述文本摘要具体可以通过以下两种方式实现:
方式一:用户设备通过该用户设备的显示模块输出所述文本摘要;
方式二:用户设备通过该用户设备的语音模块输出所述文本摘要。
即,一种可能的实现方式中,用户设备可以直接将文本摘要显示给用户;一种可能的实现方式中,用户设备可以将文本摘要信息转换成语音后通过语音输出。
其中,利用从文本到语音(Text-to-speech,简称:TTS)技术可以将文本摘要信息转换成语音。TTS技术是人机对话的一部分,让机器能够说话。它在内置芯片的支持之下,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可按秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。TTS技术可以帮助有视觉障碍的人阅读计算机上的信息,或者只是简单的用来增加文本文档的可读性。
可以理解的是,除了上述列举的用户设备输出文本摘要的实现方式,还可能存在其它可能的实现方式,本发明实施例对此不作具体限定。
需要说明的是,本发明实施例中,用户设备将训练好的摘要模型从训练服务器下载到客户端后,还可以进行“低频度”更新。即,利用用户自己标注好的数据对该摘要模型进行参数更新。这样,当不同用户使用相似的图片,可能会产生出略有不同的文本摘要,可以理解为是一种“个性化”的从图片生成文本摘要的过程。本发明实施例对此不作具体限定。
本发明实施例提供一种从图片生成文本摘要的方法,包括:用户设备获取数字图像;所述用户设备将所述数字图像进行预处理,得到所述数字图像的图像向量X;所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;所述用户设备将所述摘要向量转化为所述数字图像的文本摘要;所述用户设备输出所述文本摘要。基于本发明实施例的上述方案,一方面,本发明实施例中,从图片生成文本摘要时,用户设备直接将数字图像转化为图像向量,进而将图像向量输入到预先训练好的摘要模型,即可生成所述数字图像的文本摘要。该过程与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,本发明实施例中,从图片生成文本摘要时,可以根据预先训练好的摘要模型生成所述数字图像的文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
实施例二、
本发明实施例提供一种从图片生成文本摘要的方法,如图4所示,包括:
S401、训练服务器训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
S402、训练服务器向用户设备发送所述训练好的摘要模型。
具体的,本发明实施例步骤S401中,训练服务器训练摘要模型,得到训练好的摘要模型,该训练好的摘要模型可以如图2所示,此处不再赘述。
其中,该多层深度神经网络模型可以将多态的高纬度信息(例如图像或者摘要信息)映射到一个共同的低纬度空间,从而实现快速有效的检索。
可以理解的是,高维度定义为向量的长度很长,例如图像的每个像素值作为一个维度,则尺寸500*500大小的图像维度至少是250000。低纬度的定义为向量长度较短,例如标签集合T,一般只有几千个标签。因此,将高纬度信息映射到低纬度空间,可以实现快速有效的检索。
优选的,若N=2,则所述多层深度神经网络模型可以如图3所示,包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,若所述多层深度神经网络模型可以如图3所示,则训练服务器训练摘要模型,获得训练好的摘要模型(步骤S401)具体可以包括:
S401a、训练服务器构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层。
具体的,该第一三层神经网络可以如图5所示。
S401b、训练服务器对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数。
具体的,步骤S401b具体可以通过如下方式实现:
训练服务器以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1<1。
其中,训练服务器可以利用无标签训练数据和梯度下降迭代的方法对第一三层神经网络进行训练,目标为α1||f(x,Wx1,u,Wx1,d)-x||2,从而获得参数Wx1,u和Wx1,d。
需要说明的是,梯度下降迭代为一种优化参数的方法,例如重建图像和原始图像的误差就是梯度的一种度量,通过对目标函数求倒数,得到更新参数的方程,该方程的主要变量就是上述误差。通过更新参数,可以使得下一次参数更新后误差向小的方向变化。
S401c、训练服务器构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层。
具体的,该第二三层神经网络可以如图6所示。
S401d、训练服务器对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数。
具体的,步骤S401d具体可以通过如下方式实现:
训练服务器以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1。
其中,训练服务器可以利用无标签训练数据和梯度下降迭代的方法对第二三层神经网络进行训练,目标为β1||f(y,Wy1,u,Wy1,d)-y||2,从而获得参数Wy1,u和Wy1,d。
S401e、训练服务器构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数;W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数;Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,u表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数。
具体的,三层神经网络的优化模型可以如图7所示。步骤S401e具体可以通过如下方式实现:
训练服务器根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d,(W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),0<γ1<1。
其中,训练服务器可以利用{图像向量,摘要向量}对和梯度下降迭代的方法对图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,目标为α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2。
S401f、训练服务器构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层。
具体的,该第一五层神经网络可以如图8所示。
S401g、训练服务器对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数。
具体的,步骤S401g具体可以通过如下方式实现:
训练服务器以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1。
其中,训练服务器可以利用无标签训练数据和梯度下降迭代的方法对第一五层神经网络进行训练,目标为α2||f(x1,Wx2,u,Wx2,d)-x||2,从而获得参数Wx2,u和Wx2,d。
S401h、训练服务器构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层。
具体的,该第二三层神经网络可以如图9所示。
S401i、训练服务器对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数。
具体的,步骤S401i具体可以通过如下方式实现:
训练服务器以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1。
S401j、训练服务器构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向图像的第十四神经元参数;Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向摘要的第十六神经元参数。
具体的,五层神经网络的优化模型可以如图3所示。步骤S401j具体可以通过如下方式实现:
训练服务器根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d,(W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d),y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
其中,训练服务器可以利用{图像向量,摘要向量}对和梯度下降迭代的方法对图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,目标为α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2。
具体的,本发明实施例中,重建误差的系数α1、β1、γ1、α2、β2、γ2为大于0小于1的实数。优选的,α1=β1=γ1=α2=β2=γ2=0.5。
需要说明的是,上述仅是示例性的提供一种训练副武器训练摘要模型,获得如图3所示的多层深度神经网络模型的具体实现,当然,也可能存在其它的实现方法,本发明实施例对此不作具体限定。
本发明实施例提供一种从图片生成文本摘要的方法,包括:训练服务器训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;训练服务器向用户设备发送所述训练好的摘要模型。基于本发明实施例的上述方案,训练服务器可以训练摘要模型,并将该训练好的摘要模型发送给用户设备。这样,用户设备可以根据该摘要模型从图片生成文本摘要。一方面,由于用户设备从图片生成文本摘要时,可以根据预先训练好的摘要模型生成数字图像的文本摘要,与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,由于用户设备从图片生成数字图像的文本摘要时,可以根据预先训练好的摘要模型生成文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
实施例三、
本发明实施例提供一种用户设备100,具体如图10所示,所述用户设备100包括:获取单元101、处理单元102、生成单元103、转化单元104、以及输出单元105。
所述获取单元101,用于获取数字图像。
所述处理单元102,用于将所述数字图像进行预处理,得到所述数字图像的图像向量X。
所述生成单元103,用于将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备100的。
所述转化单元104,用于将所述摘要向量转化为所述数字图像的文本摘要。
所述输出单元105,用于输出所述文本摘要。
具体的,所述预先训练的摘要模型可以包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
优选的,若N=2,则所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,所述生成单元103具体用于:
将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过所述摘要向量卷积层T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
进一步的,所述输出单元105具体用于:
通过所述用户设备100的显示模块输出所述文本摘要;
或者,
通过所述用户设备100的语音模块输出所述文本摘要。
具体的,通过本发明实施例提供的用户设备100从图片生成文本摘要的方法可参考实施例一的描述,本发明实施例在此不再赘述。
本发明实施例提供一种用户设备,包括:获取单元获取数字图像;处理单元将所述数字图像进行预处理,得到所述数字图像的图像向量X;生成单元将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;转化单元将所述摘要向量转化为所述数字图像的文本摘要;输出单元输出所述文本摘要。基于本发明实施例的上述方案,一方面,本发明实施例中,从图片生成文本摘要时,用户设备直接将数字图像转化为图像向量,进而将图像向量输入到预先训练好的摘要模型,即可生成所述数字图像的文本摘要。该过程与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,本发明实施例中,从图片生成文本摘要时,可以根据预先训练好的摘要模型生成所述数字图像的文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
实施例四、
本发明实施例提供一种训练服务器110,具体如图11所示,所述训练服务器110包括训练单元111、发送单元112。
所述训练单元111,用于训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
所述发送单元112,用于向用户设备发送所述训练好的摘要模型。
优选的,若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,所述训练单元111具体用于:
构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层。
对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数。
构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层。
对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数。
构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数;W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数;Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,u表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数。
构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层。
对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数。
构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层。
对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数。
构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向图像的第十四神经元参数;Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向摘要的第十六神经元参数。
进一步的,所述训练单元111具体用于:
以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1<1。
所述训练单元111具体用于:
以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1。
所述训练单元111具体用于:
根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d,(W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),
0<γ1<1。
进一步的,所述训练单元111具体用于:
以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1。
所述训练单元111具体用于:
以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1。
所述训练单元111具体用于:
根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d,(W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d),y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
优选的,α1=β1=γ1=α2=β2=γ2=0.5。
具体的,通过本发明实施例提供的训练服务器110从图片生成文本摘要的方法可参考实施例一的描述,本发明实施例在此不再赘述。
本发明实施例提供一种训练服务器,包括:训练单元训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;发送单元向用户设备发送所述训练好的摘要模型。基于本发明实施例的上述方案,训练服务器可以训练摘要模型,并将该训练好的摘要模型发送给用户设备。这样,用户设备可以根据该摘要模型从图片生成文本摘要。一方面,由于用户设备从图片生成文本摘要时,可以根据预先训练好的摘要模型生成数字图像的文本摘要,与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,由于用户设备从图片生成数字图像的文本摘要时,可以根据预先训练好的摘要模型生成文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
实施例五、
本发明实施例提供一种用户设备120,具体如图12所示,包括处理器121、输出接口122、通信接口125、存储器123和总线124。
其中,所述处理器121具体可以是一个中央处理器(CentralProcessing Unit,简称:CPU),或者是特定集成电路(Application SpecificIntegrated Circuit,简称:ASIC)等,本发明实施例对此不作具体限定。
所述存储器123具体可以包含高速随机存取存储器(Random AccessMemory,简称:RAM),也可能包含非易失性存储器(non-volatilememory),例如至少一个磁盘存储器,本发明实施例对此不作具体限定。
所述总线124具体可以是工业标准体系结构(Industry StandardArchitecture,简称:ISA)总线、外部设备互连(Peripheral ComponentInterconnect,简称:PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,简称:EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
所述总线124,用于所述处理器121,所述输出接口122、所述通信接口125、所述存储器123之间的连接通信。
所述输出接口122,用于所述用户设备120的输出。
所述通信接口125,用于所述用户设备120与外部的通信。
所述处理器121,用于调用所述存储器123中存储的程序代码1231,执行下述操作:
获取数字图像。
将所述数字图像进行预处理,得到所述数字图像的图像向量X。
将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备120,由所述用户设备通过所述通信接口125获取的。
将所述摘要向量转化为所述数字图像的文本摘要。
通过所述输出接口122输出所述文本摘要。
具体的,所述预先训练的摘要模型可以包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
优选的,若N=2,则所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,所述处理器121具体用于:
将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过所述摘要向量卷积层T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
进一步的,所述通过所述输出接口122输出所述文本摘要,包括:
通过所述用户设备120的显示模块输出所述文本摘要;
或者,
通过所述用户设备120的语音模块输出所述文本摘要。
具体的,通过本发明实施例提供的用户设备120从图片生成文本摘要的方法可参考实施例一的描述,本发明实施例在此不再赘述。
本发明实施例提供一种用户设备,包括:用户设备获取数字图像,将所述数字图像进行预处理,得到所述数字图像的图像向量X,将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,并将所述摘要向量转化为所述数字图像的文本摘要后,输出所述文本摘要。基于本发明实施例的上述方案,一方面,本发明实施例中,从图片生成文本摘要时,用户设备直接将数字图像转化为图像向量,进而将图像向量输入到预先训练好的摘要模型,即可生成所述数字图像的文本摘要。该过程与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,本发明实施例中,从图片生成文本摘要时,可以根据预先训练好的摘要模型生成所述数字图像的文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
实施例六、
本发明实施例提供一种训练服务器130,具体如图13所示,所述训练服务器130包括处理器131、通信接口132、存储器133和总线134。
其中,所述处理器131具体可以是一个CPU,或者是ASIC等,本发明实施例对此不作具体限定。
所述存储器133具体可以包含RAM,也可能包含非易失性存储器(non-volatile memory),例如至少一个磁盘存储器,本发明实施例对此不作具体限定。
所述总线134具体可以是ISA总线、PCI总线或EISA总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
所述总线134,用于所述处理器131,所述通信接口132、所述存储器133之间的连接通信。
所述通信接口132,用于所述训练服务器130与外部的通信。
所述处理器131,用于调用所述存储器133中的存储的程序代码1331,执行下述操作:
训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
通过所述通信接口135向用户设备发送所述训练好的摘要模型。
优选的,若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
进一步的,所述处理器131具体用于:
构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层。
对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数。
构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层。
对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数。
构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数;W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数;Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,u表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数。
构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层。
对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数。
构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层。
对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数。
构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向图像的第十四神经元参数;Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F1之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F1之间的面向摘要的第十六神经元参数。
进一步的,所述处理器131具体用于:
以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1<1。
所述处理器131具体用于:
以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1。
所述处理器131具体用于:
根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d,(W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,Wx , 1,d),y1=f(y,W’y1,u,W’y1,d),
0<γ1<1。
进一步的,所述处理器131具体用于:
以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1。
所述处理器131具体用于:
以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1。
所述处理器131具体用于:
根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d,(W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d),y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
优选的,α1=β1=γ1=α2=β2=γ2=0.5。
具体的,通过本发明实施例提供的训练服务器130从图片生成文本摘要的方法可参考实施例一的描述,本发明实施例在此不再赘述。
本发明实施例提供一种训练服务器,包括:训练服务器训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;向用户设备发送所述训练好的摘要模型。基于本发明实施例的上述方案,训练服务器可以训练摘要模型,并将该摘要模型发送给用户设备。这样,用户设备可以根据该摘要模型从图片生成文本摘要。一方面,由于用户设备从图片生成文本摘要时,可以根据预先训练好的摘要模型生成数字图像的文本摘要,与图片本身的内容无关,比如,不依赖于图片画面的相似性,因此通用性较强;另一方面,由于用户设备从图片生成文本摘要时,可以根据预先训练好的摘要模型生成数字图像的文本摘要,并不需要相关设备联网,因此减轻了网络的依赖性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (22)
1.一种从图片生成文本摘要的方法,其特征在于,所述方法包括:
用户设备获取数字图像;
所述用户设备将所述数字图像进行预处理,得到所述数字图像的图像向量X;
所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;
所述用户设备将所述摘要向量转化为所述数字图像的文本摘要;
所述用户设备输出所述文本摘要。
2.根据权利要求1所述的方法,其特征在于,所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
3.根据权利要求2所述的方法,其特征在于,若N=2,则所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
4.根据权利要求3所述的方法,其特征在于,所述用户设备将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,包括:
所述用户设备将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过所述摘要向量卷积层T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述用户设备输出所述文本摘要,包括:
所述用户设备通过所述用户设备的显示模块输出所述文本摘要;
或者,
所述用户设备通过所述用户设备的语音模块输出所述文本摘要。
6.一种从图片生成文本摘要的方法,其特征在于,所述方法包括:
训练服务器训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;
所述训练服务器向用户设备发送所述训练好的摘要模型。
7.根据权利要求6所述的方法,其特征在于,若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
8.根据权利要求7所述的方法,其特征在于,所述训练服务器训练摘要模型,获得训练好的摘要模型,包括:
所述训练服务器构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层;
所述训练服务器对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数;
所述训练服务器构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层;
所述训练服务器对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数;
所述训练服务器构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数;W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数;Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,u表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数;
所述训练服务器构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层;
所述训练服务器对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数;
所述训练服务器构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层;
所述训练服务器对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数;
所述训练服务器构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2的输出层与所述第一全连接层F2之间的面向图像的第十四神经元参数;Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F2之间的面向摘要的第十六神经元参数。
9.根据权利要求8所述的方法,其特征在于,所述训练服务器对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,包括:
所述训练服务器以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||2为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1<1;
所述训练服务器对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,包括:
所述训练服务器以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1;
所述训练服务器根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,包括:
所述训练服务器根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d,(W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),0<γ1<1。
10.根据权利要求9所述的方法,其特征在于,所述训练服务器对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,包括:
所述训练服务器以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||2为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1;
所述训练服务器对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,包括:
所述训练服务器以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1;
所述训练服务器根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,包括:
所述训练服务器根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d,(W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d),y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
11.根据权利要求10所述的方法,其特征在于,
α1=β1=γ1=α2=β2=γ2=0.5。
12.一种用户设备,其特征在于,所述用户设备包括:获取单元、处理单元、生成单元、转化单元、以及输出单元;
所述获取单元,用于获取数字图像;
所述处理单元,用于将所述数字图像进行预处理,得到所述数字图像的图像向量X;
所述生成单元,用于将所述图像向量X输入到预先训练好的摘要模型,生成所述数字图像的摘要向量,其中,所述摘要模型为训练服务器训练后发送给所述用户设备的;
所述转化单元,用于将所述摘要向量转化为所述数字图像的文本摘要;
所述输出单元,用于输出所述文本摘要。
13.根据权利要求12所述的用户设备,其特征在于,所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数。
14.根据权利要求13所述的用户设备,其特征在于,若N=2,则所述预先训练的摘要模型包括:
多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
15.根据权利要求14所述的用户设备,其特征在于,所述生成单元具体用于:
将所述图像向量X输入到预先训练好的摘要模型,所述图像向量X经过所述图像向量卷积层X1、所述图像向量卷积层X2、以及所述第一全连接层F2后得到向量Z,所述向量Z再通过所述摘要向量卷积层T2与所述摘要向量卷积层T1,输出所述数字图像的摘要向量Y。
16.根据权利要求12-15任一项所述的用户设备,其特征在于,所述输出单元具体用于:
通过所述用户设备的显示模块输出所述文本摘要;
或者,
通过所述用户设备的语音模块输出所述文本摘要。
17.一种训练服务器,其特征在于,所述训练服务器包括训练单元、发送单元;
所述训练单元,用于训练摘要模型,获得训练好的摘要模型,所述训练好的摘要模型包括:多层深度神经网络模型,所述多层深度神经网络模型包括图像向量层、N个图像向量卷积层、第一全连接层、N个摘要向量卷积层、以及摘要向量层,其中,所述图像向量层、所述N个图像向量卷积层、所述第一全连接层、所述N个摘要向量卷积层、以及所述摘要向量层顺次相连,N≥1,N为整数;
所述发送单元,用于向用户设备发送所述训练好的摘要模型。
18.根据权利要求17所述的训练服务器,其特征在于,若N=2,则所述多层深度神经网络模型包括:
图像向量层、图像向量卷积层X1和图像向量卷积层X2、第一全连接层F2、摘要向量卷积层T1和摘要向量卷积层T2,其中,所述图像向量层、所述图像向量卷积层X1、所述图像向量卷积层X2、所述第一全连接层F2、所述摘要向量卷积层T2、所述摘要向量卷积层T1、以及所述摘要向量层顺次相连。
19.根据权利要求18所述的训练服务器,其特征在于,所述训练单元具体用于:
构建第一三层神经网络,所述第一三层神经网络的第一层为所述图像向量层,第二层为所述图像向量卷积层X1,第三层为图像向量重建层;
对所述第一三层神经网络进行训练,获得参数Wx1,u和Wx1,d,其中,Wx1,u表示所述图像向量卷积层X1的输入层与所述图像向量卷积层X1之间的第一神经元参数;Wx1,d表示所述图像向量卷积层X1的输出层与所述图像向量卷积层X1之间的第二神经元参数;
构建第二三层神经网络,所述第二三层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为摘要向量重建层;
对所述第二三层神经网络进行训练,获得参数Wy1,u和Wy1,d,其中,Wy1,u表示所述摘要向量卷积层T1的输入层与所述摘要向量卷积层T1之间的第三神经元参数;Wy1,d表示所述摘要向量卷积层T1的输出层与所述摘要向量卷积层T1之间的第四神经元参数;
构建所述图像向量卷积层X1与所述摘要向量卷积层T1的第二全连接层F1,并根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,W’x1,u表示优化后的第一神经元参数;W’x1,d表示优化后的第二神经元参数;W’y1,u表示优化后的第三神经元参数;W’y1,d表示优化后的第四神经元参数;Wf1x,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向图像的第五神经元参数;Wf1x,u表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向图像的第六神经元参数;Wf1y,u表示所述第二全连接层F1的输入层与所述第二全连接层F1之间的面向摘要的第七神经元参数;Wf1y,d表示所述第二全连接层F1的输出层与所述第二全连接层F1之间的面向摘要的第八神经元参数;
构建第一五层神经网络,所述第一五层神经网络的第一层为所述图像向量层,第二层为所述向量卷积层X1,第三层为所述向量卷积层X2,第四层为所述向量卷积层X1,第五层为图像向量重建层;
对所述第一五层神经网络进行训练,获得参数Wx2,u和Wx2,d,其中,Wx2,u表示所述图像向量卷积层X2的输入层与所述图像向量卷积层X2之间的第九神经元参数;Wx2,d表示所述图像向量卷积层X2的输出层与所述图像向量卷积层X2之间的第十神经元参数;
构建第二五层神经网络,所述第二五层神经网络的第一层为所述摘要向量层,第二层为所述摘要向量卷积层T1,第三层为所述摘要向量卷积层T2,第四层为所述摘要向量卷积层T1,第五层为摘要向量重建层;
对所述第二五层神经网络进行训练,获得参数Wy2,u和Wy2,d,其中,Wy2,u表示所述摘要向量卷积层T2的输入层与所述摘要向量卷积层T2之间的第十一神经元参数;Wy2,d表示所述摘要向量卷积层T2的输出层与所述摘要向量卷积层T2之间的第十二神经元参数;
构建所述图像向量卷积层X2与所述摘要向量卷积层T2的所述第一全连接层F2,并根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,W’x2,u表示优化后的第九神经元参数;W’x2,d表示优化后的第十神经元参数;W’y2,u表示优化后的第十一神经元参数;W’y2,d表示优化后的第十二神经元参数;Wf2x,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向图像的第十三神经元参数;Wf2x,d表示所述第一全连接层F2的输出层与所述第一全连接层F2之间的面向图像的第十四神经元参数;Wf2y,u表示所述第一全连接层F2的输入层与所述第一全连接层F2之间的面向摘要的第十五神经元参数;Wf2y,d表示所述第一全连接层F2的输出层与所述第一全连接层F2之间的面向摘要的第十六神经元参数。
20.根据权利要求19所述的训练服务器,其特征在于,所述训练单元具体用于;
以最小化重建误差α1||f(x,Wx1,u,Wx1,d)-x||为目标,对所述第一三层神经网络进行训练,获得所述参数Wx1,u和Wx1,d,其中,|| ||表示标准差,0<α1<1;
所述训练单元具体用于:
以最小化重建误差β1||f(y,Wy1,u,Wy1,d)-y||2为目标,对所述第二三层神经网络进行训练,获得所述参数Wy1,u和Wy1,d,其中,0<β1<1;
所述训练单元具体用于:
根据所述Wx1,u、Wx1,d、Wy1,u和Wy1,d,以最小化重建误差α1||f(x,W’x1,u,W’x1,d)-x||2+β1||f(y,W’y1,u,W’y1,d)-y||2+γ1||f(x1,Wf1x,u,Wf1x,d)-f(y1,Wf1y,u,Wf1y,d)||2为目标,对所述图像向量卷积层X1和所述摘要向量卷积层T1进行优化、以及对所述第二全连接层F1进行训练,获得参数W’x1,u、W’x1,d、W’y1,u、W’y1,d、Wf1x,u、Wf1x,d、Wf1y,u和Wf1y,d,其中,(W’x1,u)初始=Wx1,u,(W’x1,d)初始=Wx1,d,(W’y1,u)初始=Wy1,u,(W’y1,d)初始=Wy1,d,x1=f(x,W’x1,u,W’x1,d),y1=f(y,W’y1,u,W’y1,d),
0<γ1<1。
21.根据权利要求20所述的训练服务器,其特征在于,所述训练单元具体用于:
以最小化重建误差α2||f(x1,Wx2,u,Wx2,d)-x||为目标,对所述第一五层神经网络进行训练,获得所述参数Wx2,u和Wx2,d,其中,0<α2<1;
所述训练单元具体用于;
以最小化重建误差β2||f(y1,Wy2,u,Wy2,d)-y||2为目标,对所述第二五层神经网络进行训练,获得所述参数Wy2,u和Wy2,d,其中,0<β2<1;
所述训练单元具体用于:
根据所述Wx2,u、Wx2,d、Wy2,u和Wy2,d,以最小化重建误差α2||f(x1,W’x2,u,W’x2,d)-x||2+β2||f(y1,W’y2,u,W’y2,d)-y||2+γ2||f(x2,Wf2x,u,Wf2x,d)-f(y2,Wf2y,u,Wf2y,d)||2为目标,对所述图像向量卷积层X2和所述摘要向量卷积层T2进行优化、以及对所述第一全连接层F2进行训练,获得参数W’x2,u、W’x2,d、W’y2,u、W’y2,d、Wf2x,u、Wf2x,d、Wf2y,u和Wf2y,d,其中,(W’x2,u)初始=Wx2,u,(W’x2,d)初始=Wx2,d,(W’y2,u)初始=Wy2,u,(W’y2,d)初始=Wy2,d,x2=f(x1,W’x2,u,W’x2,d),y2=f(y1,W’y2,u,W’y2,d),0<γ2<1。
22.根据权利要求21所述的训练服务器,其特征在于,
α1=β1=γ1=α2=β2=γ2=0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510068418.0A CN105989067B (zh) | 2015-02-09 | 2015-02-09 | 从图片生成文本摘要的方法、用户设备及训练服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510068418.0A CN105989067B (zh) | 2015-02-09 | 2015-02-09 | 从图片生成文本摘要的方法、用户设备及训练服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105989067A true CN105989067A (zh) | 2016-10-05 |
CN105989067B CN105989067B (zh) | 2019-09-03 |
Family
ID=57041609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510068418.0A Active CN105989067B (zh) | 2015-02-09 | 2015-02-09 | 从图片生成文本摘要的方法、用户设备及训练服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105989067B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484913A (zh) * | 2016-10-26 | 2017-03-08 | 腾讯科技(深圳)有限公司 | 一种目标图片确定的方法以及服务器 |
CN106997387A (zh) * | 2017-03-28 | 2017-08-01 | 中国科学院自动化研究所 | 基于文本‑图像匹配的多模态自动文摘方法 |
CN107016439A (zh) * | 2017-05-09 | 2017-08-04 | 重庆大学 | 基于cr2神经网络的图像‑文本双编码机理实现模型 |
CN107169031A (zh) * | 2017-04-17 | 2017-09-15 | 广东工业大学 | 一种基于深度表达的图片素材推荐方法 |
CN108388942A (zh) * | 2018-02-27 | 2018-08-10 | 四川云淞源科技有限公司 | 基于大数据的信息智能处理方法 |
WO2018170671A1 (en) * | 2017-03-20 | 2018-09-27 | Intel Corporation | Topic-guided model for image captioning system |
CN110349424A (zh) * | 2019-06-28 | 2019-10-18 | 京东数字科技控股有限公司 | 一种基于车路协同的路侧*** |
CN113673349A (zh) * | 2021-07-20 | 2021-11-19 | 广东技术师范大学 | 基于反馈机制的图像生成中文文本方法、***及装置 |
CN113767420A (zh) * | 2019-04-24 | 2021-12-07 | 富士胶片株式会社 | 学习方法及装置、程序、学习完毕模型以及文本生成装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007099496A1 (en) * | 2006-03-03 | 2007-09-07 | Koninklijke Philips Electronics N.V. | Method and device for automatic generation of summary of a plurality of images |
CN104239461A (zh) * | 2014-09-02 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 提取图片摘要的方法和装置 |
CN104331437A (zh) * | 2014-10-24 | 2015-02-04 | 百度在线网络技术(北京)有限公司 | 生成图片描述信息的方法和装置 |
-
2015
- 2015-02-09 CN CN201510068418.0A patent/CN105989067B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007099496A1 (en) * | 2006-03-03 | 2007-09-07 | Koninklijke Philips Electronics N.V. | Method and device for automatic generation of summary of a plurality of images |
CN104239461A (zh) * | 2014-09-02 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 提取图片摘要的方法和装置 |
CN104331437A (zh) * | 2014-10-24 | 2015-02-04 | 百度在线网络技术(北京)有限公司 | 生成图片描述信息的方法和装置 |
Non-Patent Citations (1)
Title |
---|
SUBHASHINI VENUGOPALAN等: "Translating Videos to Natural Language Using Deep Recurrent Neural Networks", 《COMPUTER SCIENCE》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484913A (zh) * | 2016-10-26 | 2017-03-08 | 腾讯科技(深圳)有限公司 | 一种目标图片确定的方法以及服务器 |
CN106484913B (zh) * | 2016-10-26 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 一种目标图片确定的方法以及服务器 |
WO2018170671A1 (en) * | 2017-03-20 | 2018-09-27 | Intel Corporation | Topic-guided model for image captioning system |
CN106997387A (zh) * | 2017-03-28 | 2017-08-01 | 中国科学院自动化研究所 | 基于文本‑图像匹配的多模态自动文摘方法 |
CN106997387B (zh) * | 2017-03-28 | 2019-08-09 | 中国科学院自动化研究所 | 基于文本-图像匹配的多模态自动文摘方法 |
CN107169031A (zh) * | 2017-04-17 | 2017-09-15 | 广东工业大学 | 一种基于深度表达的图片素材推荐方法 |
CN107169031B (zh) * | 2017-04-17 | 2020-05-19 | 广东工业大学 | 一种基于深度表达的图片素材推荐方法 |
CN107016439A (zh) * | 2017-05-09 | 2017-08-04 | 重庆大学 | 基于cr2神经网络的图像‑文本双编码机理实现模型 |
CN108388942A (zh) * | 2018-02-27 | 2018-08-10 | 四川云淞源科技有限公司 | 基于大数据的信息智能处理方法 |
CN113767420A (zh) * | 2019-04-24 | 2021-12-07 | 富士胶片株式会社 | 学习方法及装置、程序、学习完毕模型以及文本生成装置 |
CN110349424A (zh) * | 2019-06-28 | 2019-10-18 | 京东数字科技控股有限公司 | 一种基于车路协同的路侧*** |
CN113673349A (zh) * | 2021-07-20 | 2021-11-19 | 广东技术师范大学 | 基于反馈机制的图像生成中文文本方法、***及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105989067B (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105989067A (zh) | 从图片生成文本摘要的方法、用户设备及训练服务器 | |
CN110717017B (zh) | 一种处理语料的方法 | |
CN107153641A (zh) | 评论信息确定方法、装置、服务器及存储介质 | |
CN110188362A (zh) | 文本处理方法及装置 | |
CN106407178A (zh) | 一种会话摘要生成方法及装置 | |
CN107251060A (zh) | 针对序列标签器的预训练和/或迁移学习 | |
TW201915790A (zh) | 關注點文案的生成 | |
CN107944027A (zh) | 创建语义键索引的方法及*** | |
CN106649780A (zh) | 基于人工智能的信息提供方法及装置 | |
CN106844341A (zh) | 基于人工智能的新闻摘要提取方法及装置 | |
CN106682387A (zh) | 用于输出信息的方法和装置 | |
CN110446063A (zh) | 视频封面的生成方法、装置及电子设备 | |
CN110223358A (zh) | 可视图案设计方法、训练方法、装置、***及存储介质 | |
CN110413769A (zh) | 场景分类方法、装置、存储介质及其电子设备 | |
CN109213859A (zh) | 一种文本检测方法、装置及*** | |
CN109376775A (zh) | 在线新闻多模态情感分析方法 | |
CN113255328B (zh) | 语言模型的训练方法及应用方法 | |
CN111523324A (zh) | 命名实体识别模型的训练方法及装置 | |
CN109918630A (zh) | 文本生成方法、装置、计算机设备及存储介质 | |
CN108170676A (zh) | 故事创作的方法、***和终端 | |
CN113392197A (zh) | 问答推理方法、装置、存储介质及电子设备 | |
CN108846125A (zh) | 对话生成方法、装置、终端和计算机可读存储介质 | |
CN113591472B (zh) | 歌词生成方法、歌词生成模型训练方法、装置及电子设备 | |
CN107092586A (zh) | 一种交互式网络小说编辑平台及编辑方法 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |