CN113793403A - 一种模拟绘画过程的文本合成图像方法 - Google Patents

一种模拟绘画过程的文本合成图像方法 Download PDF

Info

Publication number
CN113793403A
CN113793403A CN202110953553.9A CN202110953553A CN113793403A CN 113793403 A CN113793403 A CN 113793403A CN 202110953553 A CN202110953553 A CN 202110953553A CN 113793403 A CN113793403 A CN 113793403A
Authority
CN
China
Prior art keywords
information
text
image
synthesizing
foreground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110953553.9A
Other languages
English (en)
Other versions
CN113793403B (zh
Inventor
俞文心
张志强
戚原瑞
吴筱迪
刘露
龚俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202110953553.9A priority Critical patent/CN113793403B/zh
Publication of CN113793403A publication Critical patent/CN113793403A/zh
Application granted granted Critical
Publication of CN113793403B publication Critical patent/CN113793403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种模拟绘画过程的文本合成图像方法,包括输入描述的文本信息,基于文本信息合成对应的轮廓信息;基于合成的轮廓信息结合输入的文本信息一起合成图像的前景信息;合成前景信息再结合最开始输入的文本信息去合成相应的背景信息;利用所获得的前景信息、背景信息以及文本信息合成最终的图像结果。本发明能够用于所有基于文本信息的图像合成算法之中去进一步提高图像合成的质量,这大幅度提升了图像合成技术的实用性,能够更好的促进文本合成图像技术的发展并更好的推广图像合成软件的应用。

Description

一种模拟绘画过程的文本合成图像方法
技术领域
本发明属于图像处理技术领域,特别是涉及一种模拟绘画过程的文本合成图像方法。
背景技术
近几年使用文本信息去合成图像在计算机视觉的图像合成领域获得了广泛的关注。究其原因主要在于使用文本信息能够较好的描述想要合成图像的基本内容,同时文本信息也符合人们日常的输入习惯。相比于使用简单类别标签的图像合成技术,使用文本具有更好的灵活性。因此基于文本信息的图像合成技术能够更好的促进图像合成软件朝着界面友好型的方向去发展,它能够让用户根据个人的需求输入相应的文本信息从而合成符合主观意愿的图像结果。这对于提高图像合成技术的实用性以及推广图像合成软件均具有良好的促进作用。
现有的图像合成技术中,合成图像质量表现优异都是基于深度学习的方法。现有的大多数方法尽管合成的质量较好,但并不具有良好的可实用性。有些方法能够基于图像类别标签去合成对应的图像,这在一定程度上提高了技术的实用性。但类别标签提供的信息较少导致整体实用性仍有欠缺。现有的实用性较好的方法是使用文本信息去合成图像。当前的文本合成图像技术存在的问题在于它是一次性直接合成图像的前景和背景内容,缺少合理的图像合成步骤。这导致当前文本合成图像的合成质量相对一般,整体上仍有很大的提升空间。
发明内容
为了解决上述问题,本发明提出了一种模拟绘画过程的文本合成图像方法,能够用于所有基于文本信息的图像合成算法之中去进一步提高图像合成的质量,这大幅度提升了图像合成技术的实用性,能够更好的促进文本合成图像技术的发展并更好的推广图像合成软件的应用。
为达到上述目的,本发明采用的技术方案是:一种模拟绘画过程的文本合成图像方法,包括步骤:
S10,输入描述的文本信息,基于文本信息合成对应的轮廓信息;
S20,基于合成的轮廓信息结合输入的文本信息一起合成图像的前景信息;
S30,合成前景信息再结合最开始输入的文本信息去合成相应的背景信息;
S40,利用所获得的前景信息、背景信息以及文本信息合成最终的图像结果。
进一步的是,在所述步骤S10中,对于输入文本信息的处理,使用文本编码器将文本信息编码为对应的文本向量,之后采用连续的反卷积操作将文本向量编码为对应的轮廓信息。
进一步的是,在所述步骤S20中,基于合成的轮廓信息结合输入的文本信息一起合成图像的前景信息时,通过卷积神经网络将轮廓信息编码为对应的特征向量,将轮廓信息的特征向量和文本向量通过反卷积操作合成图像的前景信息。
进一步的是,在所述步骤S30中,合成前景信息再结合最开始输入的文本信息去合成相应的背景信息时,通过卷积神经网络将前景信息编码为对应的特征向量,将前景信息的特征向量和文本向量通过预测合成操作推理合成相匹配的背景信息。
进一步的是,在所述步骤S40中,利用所获得的前景信息、背景信息以及文本信息合成最终的图像结果时,通过卷积神经网络将背景信息编码为对应的特征向量,将前景信息的特征向量、背景信息的特征向量和文本向量通过反卷积操作合成最终的图像结果。
采用本技术方案的有益效果:
本发明整个过程从轮廓到前景再到背景最后是整个图像依次去合成。这种从简单到逐渐复杂的合成过程细化了每个阶段的任务使得每个阶段能够更加关注于自身的任务,如此每个阶段的任务性能都可以更为出色。在这种情况下就可以较好的保证最终合成高质量的图像结果。整个过程中文本信息全程参与从而去保证最终合成的图像能够符合输入文本的语义信息。
本发明先基于文本去推测合成对应的简单轮廓信息,然后基于合成的轮廓信息去合成对应的前景结果,最后基于前景内容去合成相应的背景信息以及最终的图像结果。这样一套图像合成流程由易到难,由简单轮廓到前景再到最终的图像,类似于绘画的过程一步步的去合成更为真实可信的图像。本发明更为合理的图像合成流程能够更好的促进文本合成图像技术的发展并更好的推广图像合成软件的应用。
本发明能够用于所有基于文本信息的图像合成算法之中去进一步提高图像合成的质量,这大幅度提升了图像合成技术的实用性,能够更好的促进图像合成技术的发展以及相关图像合成软件的推广。
附图说明
图1为本发明的一种模拟绘画过程的文本合成图像方法流程示意图;
图2为本发明实施例中一种模拟绘画过程的文本合成图像方法的原理示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
在本实施例中,参见图1和图2所示,本发明提出了一种模拟绘画过程的文本合成图像方法,包括步骤:
S10,输入描述的文本信息,基于文本信息合成对应的轮廓信息;
S20,基于合成的轮廓信息结合输入的文本信息一起合成图像的前景信息;
S30,合成前景信息再结合最开始输入的文本信息去合成相应的背景信息;
S40,利用所获得的前景信息、背景信息以及文本信息合成最终的图像结果。
作为上述实施例的优化方案,在所述步骤S10中,对于输入文本信息的处理,使用文本编码器将文本信息编码为对应的文本向量,之后采用连续的反卷积操作将文本向量编码为对应的轮廓信息。
具体过程公式为:
文本向量
Figure BDA0003219477080000031
轮廓信息:Ic=deconvolution(s);
其中,T表示输入的文本信息;
Figure BDA0003219477080000032
表示文本编码器;deconvolution表示反卷积操作。
作为上述实施例的优化方案,在所述步骤S20中,基于合成的轮廓信息结合输入的文本信息一起合成图像的前景信息时,通过卷积神经网络将轮廓信息编码为对应的特征向量,将轮廓信息的特征向量和文本向量通过反卷积操作合成图像的前景信息。
具体过程公式为:
轮廓信息的特征向量:fea_c=CNN(Ic);
前景信息:If=deconvolution(fea_c,s);
其中,CNN为卷积神经网络;deconvolution表示反卷积操作。
作为上述实施例的优化方案,在所述步骤S30中,合成前景信息再结合最开始输入的文本信息去合成相应的背景信息时,通过卷积神经网络将前景信息编码为对应的特征向量,将前景信息的特征向量和文本向量通过预测合成操作推理合成相匹配的背景信息。
具体过程公式为:
前景信息的特征向量:fea_f=CNN(If);
背景信息:Ib=prediction(fea_f,s);
其中,CNN为卷积神经网络;prediction表示预测合成操作。
作为上述实施例的优化方案,在所述步骤S40中,利用所获得的前景信息、背景信息以及文本信息合成最终的图像结果时,通过卷积神经网络将背景信息编码为对应的特征向量,将前景信息的特征向量、背景信息的特征向量和文本向量通过反卷积操作合成最终的图像结果。
具体过程公式为:
背景信息的特征向量:fea_f=CNN(Ib);
最终的图像结果:Ig=deconvoluotion(fea_f,fea_b,s);
其中,CNN为卷积神经网络;deconvolution表示反卷积操作。
具体实施例可采用:
一、文本合成图像***
提供类似于百度翻译的网页界面,在界面中允许人为输入文本信息,然后点击合成按钮即可生成对应的图像结果。以此获取到符合人们主观意愿的图像结果。
二、文本合成图像软件
该软件包含两个部分:图像结果合成、图像过程结果的展示。
采用本发明形成的文本合成图像软件允许用户在软件之中输入文本信息,然后软件可以自动合成对应的图像。同时软件还可以展示阶段性的结果,其中包括合成过程中生成的轮廓信息、前景内容和背景内容。该软件可以用于计算机结构化辅助设计之中。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种模拟绘画过程的文本合成图像方法,其特征在于,包括步骤:
S10,输入描述的文本信息,基于文本信息合成对应的轮廓信息;
S20,基于合成的轮廓信息结合输入的文本信息一起合成图像的前景信息;
S30,合成前景信息再结合最开始输入的文本信息去合成相应的背景信息;
S40,利用所获得的前景信息、背景信息以及文本信息合成最终的图像结果。
2.根据权利要求1所述的一种模拟绘画过程的文本合成图像方法,其特征在于,在所述步骤S10中,对于输入文本信息的处理,使用文本编码器将文本信息编码为对应的文本向量,之后采用连续的反卷积操作将文本向量编码为对应的轮廓信息。
3.根据权利要求2所述的一种模拟绘画过程的文本合成图像方法,其特征在于,在所述步骤S20中,基于合成的轮廓信息结合输入的文本信息一起合成图像的前景信息时,通过卷积神经网络将轮廓信息编码为对应的特征向量,将轮廓信息的特征向量和文本向量通过反卷积操作合成图像的前景信息。
4.根据权利要求3所述的一种模拟绘画过程的文本合成图像方法,其特征在于,在所述步骤S30中,合成前景信息再结合最开始输入的文本信息去合成相应的背景信息时,通过卷积神经网络将前景信息编码为对应的特征向量,将前景信息的特征向量和文本向量通过预测合成操作推理合成相匹配的背景信息。
5.根据权利要求2所述的一种模拟绘画过程的文本合成图像方法,其特征在于,在所述步骤S40中,利用所获得的前景信息、背景信息以及文本信息合成最终的图像结果时,通过卷积神经网络将背景信息编码为对应的特征向量,将前景信息的特征向量、背景信息的特征向量和文本向量通过反卷积操作合成最终的图像结果。
CN202110953553.9A 2021-08-19 2021-08-19 一种模拟绘画过程的文本合成图像方法 Active CN113793403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110953553.9A CN113793403B (zh) 2021-08-19 2021-08-19 一种模拟绘画过程的文本合成图像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110953553.9A CN113793403B (zh) 2021-08-19 2021-08-19 一种模拟绘画过程的文本合成图像方法

Publications (2)

Publication Number Publication Date
CN113793403A true CN113793403A (zh) 2021-12-14
CN113793403B CN113793403B (zh) 2023-09-22

Family

ID=79182069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110953553.9A Active CN113793403B (zh) 2021-08-19 2021-08-19 一种模拟绘画过程的文本合成图像方法

Country Status (1)

Country Link
CN (1) CN113793403B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110157221A1 (en) * 2009-12-29 2011-06-30 Ptucha Raymond W Camera and display system interactivity
WO2011112522A2 (en) * 2010-03-10 2011-09-15 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
CN102724554A (zh) * 2012-07-02 2012-10-10 西南科技大学 一种基于场景分割的视频资源语义水印嵌入方法
CN105184074A (zh) * 2015-09-01 2015-12-23 哈尔滨工程大学 一种基于多模态医学影像数据模型的医学数据提取和并行加载方法
CN107305696A (zh) * 2016-04-22 2017-10-31 阿里巴巴集团控股有限公司 一种图像生成方法及装置
CN107895393A (zh) * 2017-10-24 2018-04-10 天津大学 一种综合文字和形状的故事图像序列生成方法
CN111507328A (zh) * 2020-04-13 2020-08-07 北京爱咔咔信息技术有限公司 文本识别及模型训练方法、***、设备及可读存储介质
US20200285855A1 (en) * 2017-06-05 2020-09-10 Umajin Inc. Hub and spoke classification system
CN112734881A (zh) * 2020-12-01 2021-04-30 北京交通大学 基于显著性场景图分析的文本合成图像方法及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110157221A1 (en) * 2009-12-29 2011-06-30 Ptucha Raymond W Camera and display system interactivity
WO2011112522A2 (en) * 2010-03-10 2011-09-15 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
CN102724554A (zh) * 2012-07-02 2012-10-10 西南科技大学 一种基于场景分割的视频资源语义水印嵌入方法
CN105184074A (zh) * 2015-09-01 2015-12-23 哈尔滨工程大学 一种基于多模态医学影像数据模型的医学数据提取和并行加载方法
CN107305696A (zh) * 2016-04-22 2017-10-31 阿里巴巴集团控股有限公司 一种图像生成方法及装置
US20200285855A1 (en) * 2017-06-05 2020-09-10 Umajin Inc. Hub and spoke classification system
CN107895393A (zh) * 2017-10-24 2018-04-10 天津大学 一种综合文字和形状的故事图像序列生成方法
CN111507328A (zh) * 2020-04-13 2020-08-07 北京爱咔咔信息技术有限公司 文本识别及模型训练方法、***、设备及可读存储介质
CN112734881A (zh) * 2020-12-01 2021-04-30 北京交通大学 基于显著性场景图分析的文本合成图像方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHIQIANG ZHANG .ETC: "Text to Image Synthesis Using Two-Stage Generation and Two-Stage Discrimination", 《INTERNATIONAL CONFERENCE ON KNOWLEDGE SCIENCE,ENGINEERING AND MANAGEMENT》, vol. 11776, pages 110 - 114 *
张志强: "基于深度学习的图文转换算法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》, pages 138 - 423 *

Also Published As

Publication number Publication date
CN113793403B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
Saunders et al. Signing at scale: Learning to co-articulate signs for large-scale photo-realistic sign language production
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索***及方法
CN110162766B (zh) 词向量更新方法和装置
CN115294427A (zh) 一种基于迁移学习的风格化图像描述生成方法
CN112002301A (zh) 一种基于文本的自动化视频生成方法
Qiao et al. Efficient style-corpus constrained learning for photorealistic style transfer
Yi et al. Quality metric guided portrait line drawing generation from unpaired training data
CN112819692A (zh) 一种基于双重注意力模块的实时任意风格迁移方法
Zhang et al. A survey on multimodal-guided visual content synthesis
Lv et al. Generating chinese classical landscape paintings based on cycle-consistent adversarial networks
Wang et al. Towards harmonized regional style transfer and manipulation for facial images
Zuo et al. Style Fader Generative Adversarial Networks for Style Degree Controllable Artistic Style Transfer.
Zeng et al. An unsupervised font style transfer model based on generative adversarial networks
Tan et al. Style2talker: High-resolution talking head generation with emotion style and art style
Liu et al. Bi-lstm sequence modeling for on-the-fly fine-grained sketch-based image retrieval
Rao et al. UMFA: a photorealistic style transfer method based on U-Net and multi-layer feature aggregation
CN113793403A (zh) 一种模拟绘画过程的文本合成图像方法
WO2023154192A1 (en) Video synthesis via multimodal conditioning
CN118037898B (zh) 一种基于图像引导视频编辑的文本生成视频方法
CN112435319A (zh) 一种基于计算机处理的二维动画生成***
CN113793404B (zh) 一种基于文本和轮廓的人为可控图像合成方法
Liu Yunnan ancient mural restoration based on deep learning
Song et al. Virtual Human Talking-Head Generation
Ying et al. A Machine Translation Framework Based on Neural Network Deep Learning: from Semantics to Feature Analysis
Ji et al. Research on Generative Design of Car Side Colour Rendering Based on Generative Adversarial Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant