CN110969137A

CN110969137A - 家居图像描述生成方法、装置、***及存储介质

Info

Publication number: CN110969137A
Application number: CN201911259116.6A
Authority: CN
Inventors: 唐睿; 张骏飞; 于佳宁; 徐冰; 陈帆; 王苑仙; 周雄
Original assignee: Hangzhou Qunhe Information Technology Co Ltd
Current assignee: Hangzhou Qunhe Information Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-07
Also published as: WO2021114587A1

Abstract

本发明公开了一种家居图像描述生成方法、装置、***及存储介质，所述方法包括：获取家居图像和家居图像对应的描述词语序列；利用特征提取器提取所述家居图像的图像特征；利用基于长短期记忆网络构建的描述生成器对所述图像特征和所述描述词语序列进行融合，生成家居图像描述语句。该方法使得生成的家居图像描述语句精准全面，保证了家居图像描述质量，同时提升了家居图像描述效率。

Description

家居图像描述生成方法、装置、***及存储介质

技术领域

本发明属于图像话题生成技术领域，具体涉及一种家居图像描述生成方法、装置、***及存储介质。

背景技术

现有的家居图像描述工作，大多数是由设计师手动完成的。设计师需要结合图像内容和自身理解，用文字介绍设计理念，这一工作本身有一定的技术难度，同时费时费力，但同时在设计方案的推广中又起到了非常重要的作用。产出的图像描述根据设计师本身的能力不同而表现出参差不齐的质量，许多设计师无法全面的用文字表达他们的设计思路，或是会因为理解偏差而出现文不对题的情况。

另外有一些家居图像描述生成方法，依托文字模板实现半自动的描述生成。根据设计师选择的风格、个性等标签，匹配固定的文字模板生成文字描述。这一方法一方面需要一定的手动操作，另一方面无法根据具体图片内容生成个性化的描述，输出内容宽泛空洞，同质化严重。

随着人工智能领域的不断发展，计算机视觉这门学科的发展已经相当的成熟，各种图像相关的任务已经被解决并应用到实际生活中，而近几年随着深度学习的兴起，以机器翻译为代表的自然语言处理领域正在兴起，这两种学科的交叉运用使得图像描述生成任务受到很多关注。自动生成图像的描述，又称为图像的字幕生成问题，是场景理解的核心问题。生成准确的图像自然语言描述是非常有意义的，它相当于将计算机视觉和自然语言处理结合起来，使模型拥有了模仿人类将大量显著的视觉信息压缩成描述性语言的卓越能力。

基于深度学习的图像描述生成方法，能够对已有的图片和文字描述数据集进行学习，从而自动根据图像生成描述性文字。例如：申请公布号为CN109271628A公开了一种图像描述生成方法，申请公布号为CN105938485A公开了一种基于卷积循环混合模型的图像描述方法，申请公布号为CN110288029A公开了一种基于Tri-LSTMs模型的图像描述方法，申请公布号为CN110309839A公开了一种图像描述的方法及装置，申请公布号为CN110390363A公开了一种图像描述方法，申请公布号为CN110472688A公开了一种图像描述的方法及装置、图像描述模型的训练方法及装置。该些技术方案中均只以图像作为数据源，即仅仅直接从图像中提取图像描述文字，这会造成图像色彩呈现纷杂导致生成的描述文字不能够更准确定地体现图像特色，不能够满足对家居图像描述的要求。

发明内容

本发明实施例提供了一种家居图像描述生成方法、装置、***及存储介质，能够解决由于设计师能力差距导致的家居图像描述质量下降，效率低的问题。该技术方案为：

第一方面，一种家居图像描述生成方法，利用特征提取器提取家居图像的图像特征；所述方法还包括：

从所述家居图像被渲染时的渲染素材和设计方案中获得所述家居图像对应的描述词语序列；

利用基于长短期记忆网络构建的描述生成器对所述图像特征和所述描述词语序列进行融合，生成家居图像描述语句。

第二方面，一种家居图像描述生成装置，所述装置包括：

获取单元，用于获取家居图像和从所述家居图像被渲染时的渲染素材和设计方案中获得所述家居图像对应的描述词语序列；

图像特征提取单元，用于利用特征提取器提取所述家居图像的图像特征；

家居图像描述语句生成单元，用于利用基于长短期记忆网络构建的描述生成器对所述图像特征和所述描述词语序列进行融合，生成家居图像描述语句。

第三方面，一种家居图像描述生成***，包括至少一个存储器、至少一个处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述存储器中存有特征提取器和基于长短期记忆网络构建的描述生成器，所述处理器执行所述计算机程序时实现以下步骤：

获取家居图像和从所述家居图像被渲染时的渲染素材和设计方案中获得所述家居图像对应的描述词语序列；

调用所述特征提取器提取所述家居图像的图像特征；

调用基于长短期记忆网络构建的描述生成器对所述图像特征和所述描述词语序列进行融合，生成家居图像描述语句。

第四方面，一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1～6任一项所述的家居图像描述生成方法所执行的操作。

本发明实施例提供的技术方案带来的有益效果至少包括：

通过结合图像特征和描述词语序列利用基于长短期记忆网络构建的描述生成器生成家居图像描述语句，使得生成的家居图像描述语句精准全面，保证了家居图像描述质量，同时提升了家居图像描述效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的一种家居图像描述生成方法的流程示意图；

图2是本发明实施例提供的一种家居图像描述生成方法中利用特征提取器提取家居图像的图像特征的流程示意图；

图3是本发明实施例提供的一种家居图像描述生成方法中利用基于长短期记忆网络构建的描述生成器生成家居图像描述语句的流程示意图；

图4是本发明实施例提供的一种家居图像描述生成装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了解决设计师能力差距导致的家居图像描述语句不通，粗糙、简略引起的家居图像描述质量下降，效率低的问题，实施例提供了一种家居图像描述生成方法、装置、***及存储介质。

图1为本发明实施例提供的一种家居图像描述生成方法的流程示意图。参加图1，以为一张家居图像生成家居图像描述为例进行说明，该实施例包括：

S101，获取家居图像和家居图像对应的描述词语序列。

实施例中，需要生成描述语句的家居图像一般都是家居渲染图，在渲染使用的渲染素材中，包括家居的颜色、材质和几何信息，除此之外，在渲染图的设计方案中通常还包括设计风格和家居类型的信息。

本发明为了提升家居图像描述语句的准确性和全面性，在结合图像特征的基础上，还增加一些家居图像的描述词语。即可以从所述家居图像被渲染时的渲染素材和设计方案中获得所述家居图像对应的描述词语序列。也就是从渲染素材和设计方案中提取材质信息、渲染风格、颜色信息、家具信息、软硬装类型等描述词语组成家居图像对应的描述词语序列。

S102，利用特征提取器提取所述家居图像的图像特征。

特征提取器主要用于提取家居图像的隐藏的图像特征。如图2所示，即家居图像输入至特征提取器后，经过特征提取器计算可以获得家居图像对应的特征向量。

实施例中，所述特征提取器为至少包括卷积层、修正线性单元、池化层的卷积神经网络经训练得到。卷积神经网络可以包含至少2层卷积层、修正线性单元、池化层，具体层数不受限制，该卷积神经网络经过训练，可以通过学习家居图像的隐藏特征来优化自身网络参数，以更准确全面地提取家居图像的隐藏特征，即提升提取图像特征的能力，当卷积神经网络的网络参数确定后，确定的网络参数结合卷积神经网络结构组成特征提取器。具体应用时，卷积神经网络可以与长短期记忆网络联合训练，以优化网络参数。

S103，利用基于长短期记忆网络构建的描述生成器对所述图像特征和所述描述词语序列进行融合，生成家居图像描述语句。

描述生成器主要用于根据图像特征和描述词语序列生成家居图像描述语句。如图3所示，即图像特征和描述词语序列输入至描述生成器后，经过描述生成器计算可以获得家居图像对应的家居图像描述语句。

实施例中，所述描述生成器是基于至少2个长短期记忆单元组成的长短期记忆网络经学习得到，长短期记忆单元的个数和组合方式不受限制。长短期记忆网络经过训练，可以通过学习图像特征和描述词语序列的隐藏特征来优化自身网络参数，以更准确全面地生成家居图像描述语句，即提升生成家居图像描述语句的能力，当长短期记忆网络的网络参数确定后，确定的网络参数结合长短期记忆网络结构组成描述生成器。具体应用时，长短期记忆网络与卷积神经网络联合训练，以优化网络参数。

长短期记忆网络与卷积神经网络的具体训练过程为：

首先，通过使用公开数据集或是自行收集获得数据集，该数据集包含了家居图像和家居图像对应的描述词语，从数据集中抽取家居图像、家具体图像对应的描述词语组成描述词语序列，以及该家居图像的家居图像描述语句组成一个样本，该样本中以家居图像和描述词语序列作为输入数据，以家居图像描述语句作为监督数据。并将样本分成训练集和验证集。

然后，构建包含多个卷积层、修正线性单元、池化层的卷积神经网络和包含多个长短期记忆单元组成的长短期记忆网络，利用训练集中的样本对卷积神经网络和长短期记忆网络进行监督学习，采用梯度下降算法迭代优化网络参数，同时在验证集上测试训练效果，当验证集上的训练效果稳定后，确定网络参数，以卷积神经网络以对应的网络参数组成特征提取器，以长短期记忆网络以及对应的网络参数组成描述生成器。

在获得特征提取器和描述生成器后，即可以利用特征提取器和描述生成器自动生成家居图像描述语句，举例说明，针对一张包含餐桌的暗色调的家居图像，该家居图像对应的描述词语序列包括镜面、黑色、简约、乳胶漆、灰色、时尚、餐桌、白色以及简洁。将该家居图像输入至特征提取器中，提取家居图像的图像特征，然后，将该图像特征和该描述词语序列同时输入至描述生成器中，经过计算描述生成器输出家居图像描述语句为通过黑色镜面，不同层次的灰色乳胶漆色块，来营造个性、时尚、简洁的视觉效果。该家居图像描述语句准确完整，且生成速率很快。

可选地，所述描述词语序列编码成词向量后输入至所述描述生成器中。实施例中可以采用词向量模型将描述词语序列编码成词向量。词向量模型由大量语料训练而成，这一模型不仅能将描述词语转化为可被神经网络理解的词向量，而且在词向量中还编码了词语之间的语义关系。在具体实施中通常可以直接采用预训练的词向量模型。

在一些实施例中，所述方法还包括：生成家居图像描述语句呈现给用户以进行家居图像描述语句的采纳和/或编辑。这里的用户可以是设计师，设计师对满意的家居图像描述语句进行直接采纳，或对家居图像描述语句根据个人喜好进行稍微调整等编辑以进一步完善提升家居图像描述语句的质量。

该家居图像描述生成方法通过结合图像特征和描述词语序列利用基于长短期记忆网络构建的描述生成器自动生成家居图像描述语句，使得生成的家居图像描述语句精准全面，保证了家居图像描述质量，同时，节省大量设计师工作以提升了家居图像描述效率。

以上家居图像描述生成方法可以应用到自动生成海报和设计提案中，针对海报自动设计，将海报模板和家具图像以及对应的描述词语序列作为数据源，利用上述上家居图像描述生成方法获得家具图像描述语句，将该家具图像描述语句和家居图像直接结合到海报模板以自动生成海报，自动生成的海报同样提供编辑功能，设计师可以根据个人喜好对海报中的家居图像摆放位置以及家具图像描述语句进行编辑。

针对提案自动设计，将提案模板和家具图像以及对应的描述词语序列作为数据源，利用上述上家居图像描述生成方法获得家具图像描述语句，将该家具图像描述语句和家居图像直接结合到提案模板以自动设计提案。自动设计的提案同样提供编辑功能，设计师可以根据个人喜好对海报中的家居图像摆放位置以及家具图像描述语句进行编辑。

图4为本发明实施例提供的一种家居图像描述生成装置的结构示意图。参加图4，以为一张家居图像生成家居图像描述为例进行说明，该实施例包括：

获取单元401，用于获取家居图像和从所述家居图像被渲染时的渲染素材和设计方案中获得所述家居图像对应的描述词语序列；

图像特征提取单元402，用于利用特征提取器提取所述家居图像的图像特征；

家居图像描述语句生成单元403，用于利用基于长短期记忆网络构建的描述生成器对所述图像特征和所述描述词语序列进行融合，生成家居图像描述语句。

该家居图像描述生成装置通过结合图像特征和描述词语序列利用基于长短期记忆网络构建的描述生成器自动生成家居图像描述语句，使得生成的家居图像描述语句精准全面，保证了家居图像描述质量，同时提升了家居图像描述效率。

在一些可能的实施方式中，基于图4所示的装置组成，该装置还包括：词向量生成单元，用于将所述描述词语序列编码成词向量。

在一些可能的实施方式中，基于图4所示的装置组成，该装置还包括：编辑单元，用于将所述家居图像描述语句提呈现给用户以进行家居图像描述语句的采纳和/或编辑。

以上所有可选技术方案，可以采用任意结合形成本发明公开的可选实施例，在此不再一一赘述。

需要说明的是，上述实施例提供的家居图像描述生成装置在进行家居图像描述生成时，应以上述各功能单元的划分进行举例说明，可以根据需要将上述功能分配由不同的功能单元完成，即在终端或服务器的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的家居图像描述生成装置与家居图像描述生成方法实施例属于同一构思，其具体实现过程详见家居图像描述生成方法实施例，这里不再赘述。

实施例还提供了一种家居图像描述生成***，包括至少一个存储器、至少一个处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述存储器中存有特征提取器和基于长短期记忆网络构建的描述生成器，所述处理器执行所述计算机程序时实现以下步骤：

调用所述特征提取器提取所述家居图像的图像特征；

其中，存储器可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器所执行以实现本申请中方法实施例提供的家居图像描述生成方法。

该家居图像描述生成***通过结合图像特征和描述词语序列利用基于长短期记忆网络构建的描述生成器自动生成家居图像描述语句，使得生成的家居图像描述语句精准全面，保证了家居图像描述质量，同时提升了家居图像描述效率。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由终端中的处理器执行以完成上述实施例中家居图像描述生成方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种家居图像描述生成方法，利用特征提取器提取家居图像的图像特征；其特征在于，所述方法还包括：

2.如权利要求1所述的家居图像描述生成方法，其特征在于，所述描述词语序列编码成词向量后输入至所述描述生成器中。

3.如权利要求1所述的家居图像描述生成方法，其特征在于，所述特征提取器为至少包括卷积层、修正线性单元、池化层的卷积神经网络经训练得到。

4.如权利要求1所述的家居图像描述生成方法，其特征在于，所述方法还包括：生成家居图像描述语句呈现给用户以进行家居图像描述语句的采纳和/或编辑。

5.一种家居图像描述生成装置，其特征在于，所述装置包括：

6.如权利要求5所述的家居图像描述生成装置，其特征在于，所述装置还包括：

词向量生成单元，用于将所述描述词语序列编码成词向量。

7.如权利要求5或6所述的家居图像描述生成装置，其特征在于，所述装置还包括：

编辑单元，用于将所述家居图像描述语句提呈现给用户以进行家居图像描述语句的采纳和/或编辑。

8.一种家居图像描述生成***，包括至少一个存储器、至少一个处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述存储器中存有特征提取器和基于长短期记忆网络构建的描述生成器，所述处理器执行所述计算机程序时实现以下步骤：

调用所述特征提取器提取所述家居图像的图像特征；

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1～4任一项所述的家居图像描述生成方法所执行的操作。