CN116721185A - 图像处理方法、装置、设备、存储介质及计算机程序产品 - Google Patents

图像处理方法、装置、设备、存储介质及计算机程序产品 Download PDF

Info

Publication number
CN116721185A
CN116721185A CN202210190387.6A CN202210190387A CN116721185A CN 116721185 A CN116721185 A CN 116721185A CN 202210190387 A CN202210190387 A CN 202210190387A CN 116721185 A CN116721185 A CN 116721185A
Authority
CN
China
Prior art keywords
image
font
sample
sequence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210190387.6A
Other languages
English (en)
Inventor
罗文寒
王逸之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210190387.6A priority Critical patent/CN116721185A/zh
Publication of CN116721185A publication Critical patent/CN116721185A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请实施例提供一种图像处理方法、装置、设备、存储介质及计算机程序产品,至少应用于人工智能技术领域,其中,方法包括:获取字形图片序列和与字形图片序列对应的文本;字形图片序列包括至少一个字形图片;分别对字形图片序列和文本进行特征提取,对应得到字形特征和文本特征;对字形特征和文本特征进行条件编码处理,得到条件特征;基于预设的噪声值对条件特征进行位置信息编码,得到字形图片序列中的每一字形图片在目标图像中的目标坐标;基于目标坐标,将每一字形图片合成至目标图像中,得到目标标识图像。通过本申请,能够实现了对目标标识图像的智能化和高效的设计,极大的降低了人力成本。

Description

图像处理方法、装置、设备、存储介质及计算机程序产品
技术领域
本申请实施例涉及人工智能技术领域,涉及但不限于一种图像处理方法、装置、设备、存储介质及计算机程序产品。
背景技术
标识图像,例如logo图像,是一种视觉化的信息表达方式,是具有一定含义并能够使人理解的视觉图形,具有简洁、明确、一目了然的视觉传递效果。在生成logo图像图像时,通常是基于一定的设计原则设计生成logo图像。
相关技术中,在生成logo图像时,一种方法是基于规则的方法,保证logo图像中的文字轨迹符合人类的阅读顺序,另一种方法是基于视觉信息对字形图片进行排版来生成logo图像。
但是,相关技术中的方法在生成logo图像时,均需要人工完成,需要一定的人力成本,且人工设计存在效率低下的问题。
发明内容
本申请实施例提供一种图像处理方法、装置、设备、存储介质及计算机程序产品,至少应用于人工智能技术领域,能够基于字形图片序列进行图像处理,自动化生成目标标识图像,实现了对目标标识图像的智能化和高效的设计。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种图像处理方法,所述方法包括:
获取字形图片序列和与所述字形图片序列对应的文本;所述字形图片序列包括至少一个字形图片;
分别对所述字形图片序列和所述文本进行特征提取,对应得到字形特征和文本特征;
对所述字形特征和所述文本特征进行条件编码处理,得到条件特征;
基于预设的噪声值对所述条件特征进行位置信息编码,得到所述字形图片序列中的每一字形图片在目标图像中的目标坐标;
基于所述目标坐标,将所述每一字形图片合成至所述目标图像中,得到所述目标标识图像。
在一些实施例中,所述字形图片序列中的每一字形图片对应一图片序列标识,所述图片序列标识用于表征所述字形图片在所述字形图片序列中的位置;
其中,获取与所述字形图片序列对应的文本,包括:
基于所述图片序列标识,依次对所述字形图片序列中的每一字形图片进行文本识别,得到与所述字形图片序列对应的所述文本。
本申请实施例提供一种图像处理装置,所述装置包括:
获取模块,用于获取字形图片序列和与所述字形图片序列对应的文本;所述字形图片序列包括至少一个字形图片;
特征提取模块,用于分别对所述字形图片序列和所述文本进行特征提取,对应得到字形特征和文本特征;
条件编码模块,用于对所述字形特征和所述文本特征进行条件编码处理,得到条件特征;
位置编码模块,用于基于预设的噪声值对所述条件特征进行位置信息编码,得到所述字形图片序列中的每一字形图片在目标图像中的目标坐标;
合成模块,用于基于所述目标坐标,将所述每一字形图片合成至所述目标图像中,得到所述目标标识图像。
本申请实施例提供一种图像处理设备,包括:
存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现上述图像处理方法。
本申请实施例提供一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括可执行指令,可执行指令存储在计算机可读存储介质中;其中,图像处理设备的处理器从计算机可读存储介质中读取可执行指令,并执行可执行指令时,实现上述的图像处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现上述图像处理方法。
本申请实施例具有以下有益效果:
通过对字形图片序列和与所述字形图片序列对应的文本进行特征提取和条件编码处理,得到条件特征;并基于预设的噪声值对条件特征进行位置信息编码,从而得到字形图片序列中的每一字形图片在目标图像中的目标坐标,基于该目标坐标将每一字形图片合成至目标图像中,得到目标标识图像。如此,由于整个图像处理过程全程可自动化实现,无需人为参与设计,从而能够基于字形图片序列自动化设计生成目标标识图像,实现了对目标标识图像的智能化和高效的设计,极大的降低了人力成本;并且,由于基于预设的噪声值对条件特征进行位置信息编码,因此,能够得到字形图片序列中的每一字形图片在目标图像中的准确的目标坐标,从而设计得到更加符合人类阅读顺序和视觉感知效果的目标标识图像。
附图说明
图1是本申请实施例提供的图像处理***的一个可选的架构示意图;
图2是本申请实施例提供的图像处理设备的结构示意图;
图3是本申请实施例提供的logo图像的示意图;
图4是本申请实施例提供的图像处理方法的一个可选的流程示意图;
图5是本申请实施例提供的图像处理方法的另一个可选的流程示意图;
图6是本申请实施例提供的图像处理方法的再一个可选的流程示意图;
图7是本申请实施例提供的标识图像生成模型的训练方法;
图8是本申请实施例提供的图像处理方法的具体流程图;
图9是本申请实施例提供的logo图像的布局结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。除非另有定义,本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在解释本申请实施例的图像处理方法之前,首先对相关技术中的方法进行说明。
相关技术中,在设计生成logo图像时,一种实现方式是通过预先定义的规则,比如通过预先定义文字的排版,对具有文字的logo图像进行生成;另一种实现方式是纯基于视觉信息对字形图片进行排版来生成logo图像。其中,基于规则的方法能保证文字轨迹符合人类的阅读顺序,但是生成的logo缺乏设计感。纯基于视觉信息的方法,没有考虑到字形图像的冲突问题,或者是为了避开冲突,导致没有充分利用字形的细节信息。另外,相关技术中的方法均需要人工来完成,需要一定的人力成本,且人工设计存在效率低下的问题。
基于相关技术中的上述方法和所存在的上述问题,本申请实施例提供一种图像处理方法,该方法主要是利用生成对抗网络,充分考虑到人类的阅读顺序和字形图像的细节信息,使生成的logo图像更具有设计感和真实感,利于节省专业的设计人力。
本申请实施例提供的图像处理方法中,首先,获取字形图片序列和与所述字形图片序列对应的文本,其中,字形图片序列包括至少一个字形图片;分别对字形图片序列和文本进行特征提取,对应得到字形特征和文本特征;然后,对字形特征和文本特征进行条件编码处理,得到条件特征;并基于预设的噪声值对条件特征进行位置信息编码,得到字形图片序列中的每一字形图片在目标图像中的目标坐标;最后,基于目标坐标,将每一字形图片合成至目标图像中,得到目标标识图像。如此,由于整个图像处理过程全程可自动化实现,无需人为参与设计,从而能够基于字形图片序列自动化设计生成目标标识图像,实现了对目标标识图像的智能化和高效的设计,极大的降低了人力成本;并且,由于基于预设的噪声值对条件特征进行位置信息编码,因此,能够得到字形图片序列中的每一字形图片在目标图像中的准确的目标坐标,从而设计得到更加符合人类阅读顺序和视觉感知效果的目标标识图像。
下面说明本申请实施例的图像处理设备的示例性应用,本申请实施例提供的图像处理设备可以实施为终端,也可以实施为服务器。在一种实现方式中,本申请实施例提供的图像处理设备可以实施为笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、智能机器人、智能家电和智能车载设备等任意的具备图像显示功能、图像处理功能和文本处理功能的终端;在另一种实现方式中,本申请实施例提供的图像处理设备还可以实施为服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Cont ent Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。下面,将说明图像处理设备实施为服务器时的示例性应用。
参见图1,图1是本申请实施例提供的图像处理***的一个可选的架构示意图,为实现支撑一个图像处理应用,并通过该图像处理应用对字形图片序列进行处理得到最终的目标标识图像,本申请实施例中,图像处理***10中至少包括终端100、网络200和服务器300,其中服务器300构成本申请实施例的图像处理设备。终端100通过网络200连接服务器300,网络200可以是广域网或者局域网,又或者是二者的组合。终端100上安装有图像处理应用,图像处理应用可以是任意一种具备图像显示功能和图像处理功能的应用,服务器300可以是图像处理应用的后台服务器。服务器300通过网络200获取终端100发送的图像处理请求,图像处理请求中至少包括字形图片序列,举例来说,图像处理请求中可以包括字形图片序列,或者,图像处理请求中可以包括字形图片序列和与字形图片序列对应的文本。服务器在获取到图像处理请求之后,响应于图像处理请求,分别对字形图片序列和文本进行特征提取,对应得到字形特征和文本特征;对字形特征和文本特征进行条件编码处理,得到条件特征;并基于预设的噪声值对条件特征进行位置信息编码,得到字形图片序列中的每一字形图片在目标图像中的目标坐标;最后基于目标坐标,将每一字形图片合成至目标图像中,得到目标标识图像。服务器300在得到目标标识图像之后,可以将目标标识图像通过网络200发送给终端100,在终端上显示该目标标识图像。
在一些实施例中,当图像处理设备实施为终端时,终端可以采集字形图片序列,或者终端可以获取字形图片序列和与字形图片序列对应的文本。本申请实施例中,终端可以对采集到的字形图片序列进行文本识别,得到与字形图片序列对应的文本。终端在得到字形图片序列和与字形图片序列对应的文本之后,进一步采用本申请实施例提供的图像处理方法对字形图片序列进行处理,以设计出合成有字形图片序列中的每一字形图片的目标标识图像。
本申请实施例所提供的图像处理方法还可以基于云平台并通过云技术来实现,例如,上述服务器300可以是云端服务器,通过云端服务器对字形图片序列和文本分别进行特征提取,或者,通过云端服务器对字形特征和文本特征进行条件编码处理,或者,通过云端服务器基于预设的噪声值对条件特征进行位置信息编码,得到字形图片序列中的每一字形图片在目标图像中的目标坐标,或者,通过云端服务器将每一字形图片合成至目标图像中,以生成目标标识图像。在一些实施例,还可以具有云端存储器,可以将目标标识图像存储至云端存储器中,或者可以将目标标识图像与字形图片序列映射之后存储至云端存储器中。这样,在后续对字形图片序列再次进行目标标识图像设计时,可以从云端存储器中直接获取到对应于该字形图片序列的目标标识图像。
这里需要说明的是,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
本申请实施例提供的图像处理方法还涉及人工智能技术领域,通过人工智能技术实现对字形图片序列进行设计得到目标标识图像,即可以通过人工智能技术对字形图片序列和与字形图片序列对应的文本进行识别和处理。或者还可以采用人工智能技术训练标识图像生成模型,然后,采用训练好的标识图像生成模型对字形图片序列进行设计得到目标标识图像。将在下文中对字形图片序列进行设计得到目标标识图像的实现过程、标识图像生成模型的训练过程进行详细说明。
图2是本申请实施例提供的图像处理设备的结构示意图,图2所示的图像处理设备包括:至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。图像处理设备中的各个组件通过总线***340耦合在一起。可理解,总线***340用于实现这些组件之间的连接通信。总线***340除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***340。
处理器310可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331,以及一个或多个输入装置332。
存储器350可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中,存储器350能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***351,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块352,用于经由一个或多个(有线或无线)网络接口320到达其他计算设备,示例性的网络接口320包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
输入处理模块353,用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可采用软件方式实现,图2示出了存储在存储器350中的一种图像处理装置354,该图像处理装置354可以是图像处理设备中的图像处理装置,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块3541、特征提取模块3542、条件编码模块3543、位置编码模块3544和合成模块3545,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的图像处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specif ic Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic De vice)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
本申请各实施例提供的图像处理方法可以由图像处理设备来执行,其中,该图像处理设备可以是任意一种具备图像显示功能、图像识别功能和文本处理功能的终端,或者也可以是服务器,即本申请各实施例的图像处理方法可以通过终端来执行,也可以通过服务器来执行,或者还可以通过终端与服务器进行交互来执行。
在解释本申请实施例图像处理方法的具体实现过程之前,首先对本申请实施例可实现的一种示例性的应用场景进行说明。
本申请实施例可以应用于目标标识图像的智能化生成,这里,目标标识图像可以是logo图像。logo图像是在长期的生活和实践中形成的一种视觉化的信息表达方式,是具有一定含义并能够使人理解的视觉图形,具有简洁、明确、一目了然的视觉传递效果。在logo图像中,可以包括一定数量的字符和特定的图案,如图3所述,是本申请实施例提供的logo图像的示意图,在图3所示的logo图像30中具有5个字符301,每个字符具有一定的形状和尺寸参数,同一logo图像中的不同字符的尺寸参数可以相同也可以不同;每个字符在logo图像中所在的位置不同;不同的字符在同一logo图像中可以完全不重叠,也可以具有部分位置重叠。从整体上来看,整个logo图像中不同字符的排布和大小符合人类的阅读习惯和视觉感知。
参见图4,图4是本申请实施例提供的图像处理方法的一个可选的流程示意图,下面将结合图4示出的步骤进行说明,需要说明的是,图4中的图像处理方法是通过服务器作为执行主体为例来说明的。
步骤S401,获取字形图片序列和与字形图片序列对应的文本。
这里,字形图片序列中包括至少一个字形图片,每一字形图片对应一个字符,字形图片中包括该字符形成的图案,字形图片序列中的全部字形图片对应的字符序列构成与字形图片序列对应的文本。
本申请实施例中,字形图片中字符的图案可以是任意的图案,字形图片可以是预先设计好的字符的图案,也可以是基于文本内容生成的每一字符的图案。在一些实施例中,可以预先训练一字形图片生成模型,可以将特定的文本作为字形图片生成模型的输入,通过该字形图片生成模型生成文本中每一字符对应的字形图片,或者,可以由设计师根据文本的内容,设计文本中的每一字符对应的字形图片,从而形成本申请实施例的字形图片序列。
在一些实施例中,字形图片序列中的每一字形图片具有一图片序列标识,图片序列标识用于表征字形图片在字形图片序列中的位置。在获取到字形图片序列的同时,还可以获取到字形图片序列中的每一字形图片的图片序列标识,这样,根据图片序列标识可以对字形图片序列中的全部字形图片进行排序,形成与文本对应的图片序列。在另一些实施例中,字形图片序列可以是按照文本中的字符的顺序依次排列的,也就是说,字形图片序列中的字形图片具有一定的顺序,该顺序与字形图片序列中的字形图片对应的字符在文本中的先后顺序一致。
步骤S402,分别对字形图片序列和文本进行特征提取,对应得到字形特征和文本特征。
这里,可以通过一预先训练的卷积神经网络(CNN,Convolutional NeuralNetworks)提取每一字形图片中的特征,得到字形特征,以及,通过CNN网络提取文本中的特征,得到文本特征。
需要说明的是,字形特征中包括每一字形图片对应的特征信息,字形特征以字形特征向量的形式存在,该字形特征向量是由全部字形图片对应的特征子向量拼接形成的向量。文本特征中包括每一字符对应的特征信息,文本特征以文本特征向量的形式存在,该文本特征向量是由全部字符对应的特征子向量拼接形成的向量。
步骤S403,对字形特征和文本特征进行条件编码处理,得到条件特征。
这里,可以通过一预先训练的循环神经网络(RNN,Recurrent Neural Net work)作为条件编码器,对字形特征和文本特征进行条件编码处理,得到条件特征。
需要说明的是,条件特征包括了能够反映字形图片的语义信息和文本的文本信息,条件特征以条件特征向量的形式存在,条件特征向量的维度与字形特征向量和文本特征向量的维度相同。
步骤S404,基于预设的噪声值对条件特征进行位置信息编码,得到字形图片序列中的每一字形图片在目标图像中的目标坐标。
这里,预设的噪声值是从正态分布图中获取的,该噪声值满足高斯分布,该噪声值以向量的形式存在,与条件特征向量的维度可以相同也可以不同。
位置信息编码可以采用一个预先训练的RNN网络作为坐标生成器,基于噪声值对条件特征进行编解码运算,得到字形图片序列中的每一字形图片在目标图像中的目标坐标。在进行编解码运算时,是通过编码器将代表位置风格信息的噪声值传递到每个字符的目标坐标中。
目标图像是指用于叠加全部字形图片的画布,该目标图像可以是空白画布,也可以是具有一定图案的画布,例如可以是具有底纹或者底色或者背景图像的画布。目标图像具有一定的图像尺寸,每一字形图片的目标坐标位于目标图像之内,也就是说,基于目标坐标对字形图片进行变换后得到的变形图片的尺寸小于目标图像的尺寸。
步骤S405,基于目标坐标,将每一字形图片合成至目标图像中,得到目标标识图像。
这里,在得到每一字形图片在目标图像中的目标坐标之后,基于目标坐标对字形图片进行变换处理,得到变换处理后的变换图片,变换图片与原始的字形图片的尺寸可以相同也可以不同,变换图片是最终要叠加到目标图像中的图片。在一些实施例中,对字形图片进行变换处理可以是对字形图片进行伸缩处理。
在得到每一字形图片对应的变换图片之后,将变换图片合成至目标图像中,即将变换图片叠加至目标图像中,得到目标标识图像。这里,可以基于确定出的目标坐标,将变换图片叠加至目标图像中目标坐标所在的位置。
本申请实施例提供的图像处理方法,通过对字形图片序列和与所述字形图片序列对应的文本进行特征提取和条件编码处理,得到条件特征;并基于预设的噪声值对条件特征进行位置信息编码,从而得到字形图片序列中的每一字形图片在目标图像中的目标坐标,基于该目标坐标将每一字形图片合成至目标图像中,得到目标标识图像。如此,由于整个图像处理过程全程可自动化实现,无需人为参与设计,从而能够基于字形图片序列自动化设计生成目标标识图像,实现了对目标标识图像的智能化和高效的设计,极大的降低了人力成本;并且,由于基于预设的噪声值对条件特征进行位置信息编码,因此,能够得到字形图片序列中的每一字形图片在目标图像中的准确的目标坐标,从而设计得到更加符合人类阅读顺序和视觉感知效果的目标标识图像。
本申请实施例的图像处理方法至少可以应用于以下场景:在进行logo图像设计时,首先获取用于生成logo图像中的多个字符的字形图片,字形图片中具有字符的显示状态,这里,显示状态包括但不限于以下至少之一:字体、粗细、字符形状、字符图案等。在获取到多个字形图片后,识别得到与多个字形图片对应的文本,然后采用本申请实施例提供的图像处理方法进行logo图像的智能化和自动化设计,全程无需人工参与,即可输出对应于输入的多个字形图片的logo图像。该logo图像中具有输入的多个字形图片,且多个字形图片在该logo图像中的排版更加符合人类的阅读顺序和视觉感知效果,具有一定的美观性。
在一些实施例中,图像处理***中至少包括终端和服务器,终端上安装有图像处理应用,终端采集多个字形图片,得到字形图片序列,图像处理应用的服务器基于字形图片序列实现本申请实施例的图像处理方法,得到与字形图片序列对应的目标标识图像。
图5是本申请实施例提供的图像处理方法的另一个可选的流程示意图,如图5所示,方法包括以下步骤:
步骤S501,终端采集多个字形图片,得到字形图片序列。
本申请实施例中,字形图片序列中的每一字形图片对应一图片序列标识,图片序列标识用于表征字形图片在所述字形图片序列中的位置。
本申请实施例中,终端上可以具有图像采集装置,通过图像采集装置采集字形图片,并通过服务器对采集的多个字形图片进行图像处理,得到最终的目标标识图像。或者,终端采集字形图片也可以是通过终端上的图像浏览客户端或者图像下载客户端,从网络上下载得到字形图片;或者,终端采集字形图片还可以是通过终端上的即时通信应用接收其他用户发送的图片,得到字形图片;或者,终端采集字形图片还可以是通过终端上的文字处理应用对字符进行文字处理,得到具有一定文字形状或外观的字形图片。
步骤S502,终端基于图片序列标识,依次对字形图片序列中的每一字形图片进行文本识别,得到与字形图片序列对应的文本。
这里,可以基于文本识别技术对每一字形图片中的字符进行文本识别,得到每一字形图片对应的字符,然后根据图片序列标识对得到的多个字符进行排序,形成与字形图片序列对应的文本
步骤S503,终端基于字形图片序列和与字形图片序列对应的文本生成图像处理请求。
终端上可以安装有图像处理应用,用户可以在图像处理应用的客户端进行操作,触发生成图像处理请求。例如,可以在客户端选择字形图片序列并选择图像处理按键,从而使得终端基于用户选择的字形图片序列生成图像处理请求。
本申请实施例中,可以将字形图片序列和与字形图片序列对应的文本封装至图像处理请求中,图像处理请求用于请求图像处理应用的服务器对该字形图片序列进行处理,以自动设计出目标标识图像。
步骤S504,终端将图像处理请求发送给服务器。
步骤S505,服务器解析图像处理请求,获取到字形图片序列和与字形图片序列对应的文本。
在一些实施例中,步骤S502中对字形图片序列中的每一字形图片进行文本识别,以得到与字形图片序列对应的文本的步骤,也可以由服务器来实现。也就是说,终端仅基于字形图片序列生成图像处理请求,图像处理请求中包括字形图片序列,服务器可以解析图像处理请求得到字形图片序列,然后基于字形图片序列中的每一字形图片的图片序列标识,依次对字形图片序列中的每一字形图片进行文本识别,得到与字形图片序列对应的文本。
步骤S506,服务器分别对字形图片序列和文本进行特征提取,对应得到字形特征和文本特征。
步骤S507,服务器对字形特征和文本特征进行串联处理,得到序列特征。
在一些实施例中,字形图片序列包括至少一个字形图片,每一字形图片对应文本中的一个字符,对应地,步骤S507可以通过以下步骤S5071至步骤S5074(图中未示出)实现:
步骤S5071,确定出文本中的每一字符在字形特征中对应的字形特征元素。
这里,字形特征以字形特征向量的形式存在。每一字符在字形特征向量中对应一特定的字形特征元素,全部字符的字形特征元素拼接后构成字形特征向量。其中,字形特征元素可以是一元素值,也可以是具有一定维度的子向量,也就是说,字形特征元素可以是维度大于等于1的子向量。
步骤S5072,确定出文本中的每一字符在文本特征中对应的文本特征元素。
这里,文本特征以文本特征向量的形式存在。每一字符在文本特征向量中对应一特定的文本特征元素,全部字符的文本特征元素拼接后构成文本特征向量。其中,文本特征元素可以是一元素值,也可以是具有一定维度的子向量,也就是说,文本特征元素可以是维度大于等于1的子向量。
步骤S5073,对同一字符对应的字形特征元素和文本特征元素进行串联处理,得到串联特征元素。
这里,串联处理是指对字形特征元素和文本特征元素进行特征串联,特征串联是特征融合处理的一种实现方式,用于将每一字符对应的字形特征元素和文本特征元素进行融合处理。
步骤S5074,对文本中的全部字符的串联特征元素进行拼接,形成序列特征。
这里,按照全部字符在文本中的先后顺序,依次将全部字符的串联特征元素进行拼接,形成序列特征。
步骤S508,服务器采用条件编码器对序列特征进行条件编码处理,得到用于同时表征字形图片序列的语义信息和文本的文本信息的条件特征。
步骤S509,服务器基于预设的噪声值对条件特征进行位置信息编码,得到字形图片序列中的每一字形图片在目标图像中的目标坐标。
步骤S510,服务器基于目标坐标,将每一字形图片合成至目标图像中,得到目标标识图像。
这里,在得到每一字形图片在目标图像中的目标坐标之后,基于目标坐标对字形图片进行变换处理,得到变换处理后的变换图片。在得到每一字形图片对应的变换图片之后,将变换图片合成至目标图像中,即将变换图片叠加至目标图像中,得到目标标识图像。这里,可以基于确定出的目标坐标,将变换图片叠加至目标图像中目标坐标所在的位置。
步骤S511,服务器将目标标识图像发送给终端。
步骤S512,终端在当前界面上显示目标标识图像。
本申请实施例提供的图像处理方法,通过对字形图片序列和文本分别进行特征提取,对应得到字形特征和文本特征,对每一字符在字形特征中对应的字形特征元素和每一字符在文本特征中对应的文本特征元素进行串联处理,得到串联特征元素,对文本中的全部字符的串联特征元素进行拼接,形成序列特征,进而基于序列特征进行进行条件编码处理和位置信息编码,得到能够准确反映每一字形图片在目标图像中的位置的目标坐标,智能化的生成目标标识图像。整个算法不仅考虑了字形图片序列的语义信息,还考虑了文本的文本信息,因此得到的目标标识图像更加符合人类的设计思路,提高了设计目标标识图像的质量。
图6是本申请实施例提供的图像处理方法的再一个可选的流程示意图,如图6所示,方法包括以下步骤:
步骤S601,终端采集多个字形图片,得到字形图片序列。
本申请实施例中,字形图片序列中的每一字形图片对应一图片序列标识,图片序列标识用于表征字形图片在所述字形图片序列中的位置。
步骤S602,终端基于图片序列标识,依次对字形图片序列中的每一字形图片进行文本识别,得到与字形图片序列对应的文本。
步骤S603,终端基于字形图片序列和与字形图片序列对应的文本生成图像处理请求。
步骤S604,终端将图像处理请求发送给服务器。
步骤S605,服务器解析图像处理请求,获取到字形图片序列和与字形图片序列对应的文本。
步骤S606,服务器分别对字形图片序列和文本进行特征提取,对应得到字形特征和文本特征。
步骤S607,服务器对字形特征和文本特征进行条件编码处理,得到条件特征。
步骤S608,服务器从预设的正态分布图中获取噪声值。
这里,噪声值满足高斯分布,该噪声值以向量的形式存在,与条件特征向量的维度可以相同也可以不同。
步骤S609,服务器将噪声值和条件特征输入至几何坐标生成模型中。
这里,在将噪声值和条件特征输入至几何坐标生成模型中之后,通过几何坐标生成模型依次执行以下步骤S11至步骤S13(图中未示出):
步骤S11,通过几何坐标生成模型中的预设编码器,基于噪声值对条件特征进行编码运算,得到编码向量。
步骤S12,通过几何坐标生成模型中的预设解码器,对编码向量进行解码运算,得到解码向量。
步骤S13,根据解码向量确定字形图片序列中的每一字形图片在目标图像中的目标坐标。
在一些实施例中,几何坐标生成模型还包括:与预设解码器连接的非线性化层;对应地,方法还包括以下步骤S14至步骤S15(图中未示出):
步骤S14,通过几何坐标生成模型中的非线性化层对解码向量进行非线性化处理,得到非线性化输出值;其中,非线性化输出值为大于0且小于1的任意实数。
在一些实施例中,非线性化层可以是Sigmoid层,通过Sigmoid层对解码向量进行非线性化处理,得到非线性化输出值。
步骤S15,根据非线性化输出值和每一字形图片的尺寸参数,对目标坐标进行坐标调整。
这里,对目标坐标进行坐标调整可以是将非线性化输出值与每一字形图片的尺寸参数进行相乘,将得到的乘积作为字形图片的新的尺寸来向目标图像中合成。由于非线性化输出值为大于0且小于1的任意实数,因此,当将非线性化输出值与每一字形图片的尺寸参数进行相乘时,实际上是缩小了每一字形图片的尺寸,这样,能够保证每个字符对应的字形图片的坐标信息不超出目标图像的边界。
步骤S610,服务器获取字形图片序列中的每一字形图片的原始坐标。
步骤S611,服务器根据原始坐标和目标坐标,确定每一字形图片的仿射变换参数。
这里,可以将原始坐标到目标坐标的变换建模成仿射变换,经过计算即可得到想要的仿射变换参数。
步骤S612,服务器根据仿射变换参数,对字形图片序列中的每一字形图片进行图片变换处理,得到每一字形图片对应至目标图像中的变换图片。
本申请实施例中,在得到仿射变换参数之后,可以采用可微分的图像采样模块,将给定的字形图片变换到目标图像的指定位置。在实现的过程中,可以采用一变换函数实现图片变换处理过程,该图片变换处理过程通过可微分采样实现。
步骤S613,服务器对字形图片序列中的全部字形图片对应的变换图片进行加和处理,得到目标标识图像。
这里,加和处理是指按照每一变换图片在目标图像中的位置,将全部字形图片对应的变换图片叠加至目标图像的对应位置上,得到目标标识图像。
步骤S614,服务器将目标标识图像发送给终端。
步骤S615,终端在当前界面上显示目标标识图像。
本申请实施例提供的图像处理方法,在进行位置信息编码时,通过几何坐标生成模型对噪声值和条件特征进行编码运算,以及对编码向量进行解码运算,从而得到每一字形图片在目标图像中的目标坐标,如此,由于噪声值是从正态分布图中获取的能够代表位置风格信息的值,因此,所生成的目标坐标融合了一定的位置风格信息,从而使得最终生成的目标标识图像具有一定的设计风格,因此得到的目标标识图像更加符合人类的设计思路,提高了设计目标标识图像的质量。
在一些实施例中,还可以采用预先训练好的标识图像生成模型对字形特征和文本特征进行条件编码处理,以及,基于预设的噪声值对条件特征进行位置信息编码。这里,标识图像生成模型包括:条件编码器和几何坐标生成模型。其中,条件编码器用于对序列特征进行条件编码处理,得到用于同时表征字形图片序列的语义信息和文本的文本信息的条件特征;几何坐标生成模型用于对条件特征进行位置信息编码,得到字形图片序列中的每一字形图片在目标图像中的目标坐标。
本申请各实施例提供的标识图像生成模型的训练方法可以由模型训练设备来执行,需要说明的是,该模型训练设备可以与图像处理设备为同一设备,也可以与图像处理设备为不同的设备。当模型训练设备与图像处理设备为不同的设备时,模型训练设备可以实施为任意一种具备图像处理功能和数据处理功能的终端,也可以实施为服务器。
图7是本申请实施例提供的标识图像生成模型的训练方法,如图7所示,方法包括以下步骤:
步骤S701,模型训练设备对样本字形特征和样本文本特征进行串联处理,得到样本序列特征。
这里,样本字形特征是对样本字形图片序列进行特征提取后得到的特征向量;样本文本特征是对文本样本进行特征提取后得到的特征向量。可以采用一个预先训练好的CNN网络分别提取这样本字形图片序列中的N个样本字形图片的特征,以及,采用一个预先训练好的文本编码网络对文本样本对应的N个样本字符进行特征编码得到样本文本特征。
步骤S702,模型训练设备将样本序列特征输入至标识图像生成模型中。
步骤S703,模型训练设备通过标识图像生成模型中的条件编码器对样本序列特征进行条件编码处理,得到用于同时表征样本字形图片序列的语义信息和文本样本的文本信息的样本条件特征。
这里,条件编码器可以是一个形式为RNN网络的数据处理单元,用于对样本序列特征进行条件编码处理。
步骤S704,模型训练设备通过标识图像生成模型中的几何坐标生成模型,基于预设的样本噪声值对样本条件特征进行位置信息编码,得到样本字形图片序列中的每一样本字形图片在样本目标图像中的样本目标坐标。
步骤S705,模型训练设备将样本目标坐标和样本条件特征输入至序列判别器中,通过序列判别器中的序列损失函数对样本目标坐标进行损失计算,得到第一损失结果。
在一些实施例中,序列判别器可以是一个二分类的判别器,第一损失结果包括第一二分类结果,第一二分类结果包括结果为真和结果为假两种情况;步骤S705可以通过以下方式实现:以样本条件特征为条件,基于预先标注的真实坐标,通过序列判别器中的序列损失函数对样本目标坐标进行二分类计算,得到第一二分类结果。
这里,预先标注的真实坐标是指预先标注的标识图像中的每一字符的字形图片对应的位置坐标。
步骤S706,模型训练设备根据第一损失结果对标识图像生成模型中的参数进行反向传播,以修正所述参数,得到训练后的标识图像生成模型。
本申请实施例中,通过序列判别器对样本目标坐标进行二分类计算,从而对标识图像生成模型中的参数进行反向传播,实现对标识图像生成模型的优化,能够保证训练得到的标识图像生成模型所生成的目标标识图像更加符合人类的阅读习惯。
请继续参照图7,在一些实施例中,在得到样本目标坐标之后,标识图像生成模型的训练方法还可以包括以下步骤:
步骤S707,模型训练设备基于样本目标坐标,将样本字形图片序列中的每一样本字形图片合成至样本目标图像中,得到样本标识图像。
步骤S708,模型训练设备将样本标识图像和样本条件特征输入至图像判别器中,通过图像判别器中的图像损失函数对样本标识图像进行损失计算,得到第二损失结果。
在一些实施例中,图像判别器可以是一个二分类的判别器,第二损失结果包括第二二分类结果,第二二分类结果包括结果为真和结果为假两种情况;步骤S708可以通过以下方式实现:以样本条件特征为条件,基于预先标注的真实标识图像,通过图像判别器中的图像损失函数对样本标识图像进行二分类计算,得到第二二分类结果。
这里,预先标注的真实标识图像是指预先标注的标识图像,即预先设计的标识图像。
步骤S709,模型训练设备根据第二损失结果对标识图像生成模型中的参数进行反向传播,以修正参数,得到训练后的标识图像生成模型。
本申请实施例中,通过图像判别器对样本标识图像进行二分类计算,从而对标识图像生成模型中的参数进行反向传播,实现对标识图像生成模型的优化,能够保证训练得到的标识图像生成模型所生成的目标标识图像更加符合人类的视觉感知。
在一些实施例中,步骤S707中得到样本标识图像,可以通过以下步骤S7071至步骤S7074(图中未示出)实现:
步骤S7071,获取样本字形图片序列中的每一样本字形图片的原始样本坐标。
步骤S7072,根据原始样本坐标和所述样本目标坐标,确定每一样本字形图片的仿射变换参数。
步骤S7073,根据仿射变换参数,对样本字形图片序列中的每一样本字形图片进行图片变换处理,得到每一样本字形图片对应至样本目标图像中的样本变换图片。
步骤S7074,对样本字形图片序列中的全部样本字形图片对应的样本变换图片进行加和处理,得到样本标识图像。
请继续参照图7,在一些实施例中,在得到样本标识图像之后,标识图像生成模型的训练方法还可以包括以下步骤:
步骤S710,模型训练设备将样本字形图片序列中的全部样本字形图片输入至冲突损失模型中,得到第三损失结果。
这里,冲突损失模型是为了保证多个字形图片在变换之后融合在一起的时候不产生冲突。
步骤S711,模型训练设备根据第三损失结果对标识图像生成模型中的参数进行反向传播,以修正参数,得到训练后的标识图像生成模型。
本申请实施例提供的标识图像生成模型的训练方法,分别通过序列判别器、图像判别器和冲突损失模型进行判别分析和冲突损失计算,实现对标识图像生成模型的优化,使得训练得到的标识图像生成模型所生成的目标标识图像更加符合人类的阅读习惯、更加符合人类的视觉感知,且对于具有多个字符的目标标识图像,目标标识图像中的多个字符在叠加时不会产生冲突,生成的目标标识图像更加美观。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。本申请实施例提供一种图像处理方法,该方法是一种内容感知的logo图像的生成方法。本申请实施例可以应用于云端,实现logo图像的智能化生成。本申请实施例采用序列生成的思路处理logo图像生成的任务,并且使用生成对抗网络来进行解决。在实现的过程中,给定文本和对应的字形图片,本申请实施例首先采用跨模态的编码网络对字形图片和文本进行编码,作为生成对抗网络的条件输入,生成对抗网络输出每一字形图片对应的几何参数(即目标坐标),得到几何参数序列。该输出结果会被送入两个判别器,一个判别器直接对几何参数序列进行判别,另一个判别器基于该几何参数序列进行可微分渲染的图像的判别分析。经过这两个判别器的判别分析,可以保证最后输出的logo图像(即目标标识图像)的真实性。本申请实施例能够生成比肩专业人士设计水平的logo图像,从而能够节省大量专业人力。
本申请实施例可以提供logo图像的智能化生成服务,在后台对logo图像中的文本和字形图片进行理解,之后使用经典的生成对抗网络进行logo图像的布局,基于该布局将字形图片进行渲染以生成最终的logo图像。方法实现过程可以部署在云端,即可以通过云端服务器实现本申请实施例的图像处理方法,为智能创作提供服务。
本申请实施例包括视觉信息和语义信息编码、布局坐标生成、可微分合成、图像判别分析和序列判别分析等模块和步骤。图8是本申请实施例提供的图像处理方法的具体流程图,如图8所示,从方案整体来看,输入的是图像特征801和语义嵌入802,通过视觉信息和语义信息编码模块803进行特征编码处理,其中,视觉信息和语义信息编码模块803对图像特征801进行特征编码处理后得到字形特征,视觉信息和语义信息编码模块803对语义嵌入802进行特征编码处理后得到文本特征。条件编码器804用于对字形特征和文本特征进行条件编码处理,得到条件特征805。几何坐标生成器806用于生成几何参数807(即目标坐标),也就是实现布局坐标生成,在生成几何参数时,可以基于一个预设的满足正态分布的噪声值z来实现。在得到几何参数807之后,可以将几何参数807输入至序列判别器808中进行序列判别分析;还可以通过可微分合成809合成logo图像810,并且,将合成的logo图像810和真实的logo图像811输入至图像判别器812中进行图像判别分析。
也就是说,对于本申请实施例提供的内容感知的logo图像的生成,首先对logo图像的文本和字形图片进行特征提取,提取到的特征输入条件编码器(可以用RNN来实现)得到编码后的特征,称之为条件特征。该条件特征和随机噪声值一起输入到一个几何坐标生成器(同样用RNN来实现),生成logo图像中的文字的几何位置信息,也就是logo图中的布局信息。一方面,该布局信息和真实的布局信息输入到一个序列判别器,结合条件特征,进行序列层面的判别分析;另一方面,该布局信息结合输入的字形图片,经过一个可微分的合成渲染操作,得到合成的logo图像。该合成的logo图像和真实的logo图像作为图像判别器的输入进行判别分析。
下面对logo图像进行说明,图9是本申请实施例提供的logo图像的布局结构示意图,如图9所示,为一个典型的logo图像示意图,左下角为组成该logo图像的字形图片901。由于该logo图像由5个字符组成,因此有5个字形图片。每个字形图片用符号gi进行表示,字形图片的高和宽分别为Hg和Wg表示。左上角为生成的最终的logo图像902。右边示意的是这个logo图像的布局信息的表示,每个字符用变量pi表示该字符的布局信息,包括wi、hi,分别表示每个字符对应的字形图片的中心点的横坐标、纵坐标、宽度、高度。
下面对视觉信息和语义信息编码过程进行说明。
给定一个目标logo图像,该目标logo图像中的文本包含N个字,对应的也给定N个字的字形图片。本申请实施例中可以采用一个预先训练好的CNN网络分别提取这N个字形图片的字形特征,表示为以下公式(1):
同时采用一个预先训练好的文本编码网络对N个字符进行特征编码得到文本特征,表示为以下公式(2):
这些提取到的文本特征和字形特征经过串联得到如下序列特征,表示为以下公式(3):
其中方括号表示特征串联。
该序列特征输入到一个形式为RNN网络的条件编码器,得到一系列的输出序列特征,表示为以下公式(4):
该序列将作为同时包含语义信息和文本信息的特征,可以称之为条件特征,用于接下来图像判别器和序列判别器的输入。
接下来对布局坐标生成过程进行说明。
布局坐标生成通过一个RNN网络来实现。将上一步得到的条件特征和一个随机的噪声值z输入到一个坐标生成器G里面,如下公式(5)所示,来生成logo图像的布局信息p':
p'=G(fc,z) (5);
这个坐标生成器是一个RNN的编码解码器,其中编码器将代表位置风格信息的噪声值z传递到每个字符的位置上面去。在解码器的最后一层连接了一个Sigmoid层,Sigmoid层的输出将会与字形图片的宽和高进行相乘,保证字符的坐标信息不超出最终logo图像的边界。
接下来对可微分合成过程进行说明。
得到生成的字形图片的几何坐标之后,结合给定的字形图片,需要将这些字形图片根据这些给定的几何坐标合成为一张完整的logo图像。更重要的是,这个合成过程不能破坏整个深度网络的端到端优化过程,也就是说,这个合成需要能传递梯度。为了达到这个目的,本申请实施例采用一个基于空间变化网络的变种网络来对单个字形图片进行变换。在对每个字形图片做过变换之后,由于在生成logo图像的布局信息也即几何位置的时候,已经考虑到避免图像的冲突,因此将变换之后的每个字形图像进行加和,即可得到最终的完整logo图像。
在实现的过程中,对于每个输入的字形图片,已知输入坐标(0,0),(Wg,0),(Wg,Hg),(0,Hg)和字形图片在画布上面的目标坐标因此,只需要求出从源位置到目标位置的变换参数Θ即可。在本申请实施例中,可以将源位置到目标位置的变换建模成仿射变换,经过计算即可得到想要的仿射变换参数Θ如以下公式(6):
得到该仿射变换参数以后,采用可微的图像采样模块将给定的字形图片变换到画布(即目标图像)的指定位置。该过程可以通过以下公式(7)进行描述:
g′i=FA(gii) (7);
其中,gi表示源字形图片,g′i表示变换后的字形图片,即变换图片,Θi表示计算出来的仿射变换参数,FA表示变换函数,通过可微分采样实现。得到每个字形图片经过变换之后的图片之后,将logo图像中的多个字符对应的变换图像进行加和,得到合成的logo图像l'。
接下来对图像判别分析过程进行说明。
为了保证上一个步骤生成的logo图像l'符合人类的视觉感知,本申请实施例对生成的logo图像l'进行判别分析。在实现的过程中,以条件特征作为条件输入,将logo图像l'和真实logo图像l输入到一个CNN的判别器Di里面进行分类,该判别器对logo图像l'和真实logo图像l做真和假的二分类处理。
接下来对序列判别分析过程进行说明。
为了保证生成的logo图像l'符合人类的阅读习惯,需要对生成的布局信息也就是布局的坐标位置的序列进行判别分析。在实现的过程中,以条件特征作为条件输入,将几何坐标序列p'和真实的几何坐标序列p输入到一个RNN判别器Ds进行分类,该判别器对p和p'做真和假的二分类处理。
接下来对本申请实施例中图像判别分析过程、序列判别分析过程和冲突损失计算的损失函数进行说明。
为了保证多个字形图像变换之后融合在一起的时候不产生冲突,本申请实施例使用了一个冲突损失来解决这个问题。在实现的过程中,冲突损失对应的损失函数(即冲突损失模型对应的损失函数)的形式如公式(8)所示:
其中为点到点的与操作,/>为点到点的或操作。
此外,对于序列判别器Ds,有如下公式(9)的损失(即序列损失函数):
其中,p为真实的几何坐标序列,p'为预测出来的几何坐标序列p'。
对于图像判别器Di,有如下损失(即图像损失函数):
其中,l为真实logo图像,l'为生成的logo图像。
本申请实施例能够提供高质量logo图像的自动生成,能节省大量的专业人力,大大加快一些涉及到logo设计的工作,具有潜在的经济效益。
需要说明的是,除了上述说明的生成方式,其他的生成方式通过改变输入,但是用到基于坐标位置序列生成的方法也在本申请的保护范围之内。
可以理解的是,在本申请实施例中,涉及到用户信息的内容,例如,字形图片、生成的目标标识图像、logo图像等信息中,如果涉及与用户信息或企业信息相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的图像处理装置354实施为软件模块的示例性结构,在一些实施例中,如图2所示,图像处理装置354包括:
获取模块3541,用于获取字形图片序列和与所述字形图片序列对应的文本;所述字形图片序列包括至少一个字形图片;
特征提取模块3542,用于分别对所述字形图片序列和所述文本进行特征提取,对应得到字形特征和文本特征;
条件编码模块3543,用于对所述字形特征和所述文本特征进行条件编码处理,得到条件特征;
位置编码模块3544,用于基于预设的噪声值对所述条件特征进行位置信息编码,得到所述字形图片序列中的每一字形图片在目标图像中的目标坐标;
合成模块3545,用于基于所述目标坐标,将所述每一字形图片合成至所述目标图像中,得到所述目标标识图像。
在一些实施例中,所述条件编码模块还用于:对所述字形特征和所述文本特征进行串联处理,得到序列特征;采用条件编码器对所述序列特征进行条件编码处理,得到用于同时表征所述字形图片序列的语义信息和所述文本的文本信息的条件特征。
在一些实施例中,每一字形图片对应所述文本中的一个字符;所述条件编码模块还用于:确定出所述文本中的每一字符在所述字形特征中对应的字形特征元素;确定出所述文本中的每一字符在所述文本特征中对应的文本特征元素;对同一字符对应的所述字形特征元素和所述文本特征元素进行串联处理,得到串联特征元素;对所述文本中的全部字符的所述串联特征元素进行拼接,形成所述序列特征。
在一些实施例中,所述位置编码模块还用于:从预设的正态分布图中获取所述噪声值;将所述噪声值和所述条件特征输入至几何坐标生成模型中;通过所述几何坐标生成模型中的预设编码器,基于所述噪声值对所述条件特征进行编码运算,得到编码向量;通过所述几何坐标生成模型中的预设解码器,对所述编码向量进行解码运算,得到解码向量;根据所述解码向量确定所述字形图片序列中的每一字形图片在目标图像中的目标坐标。
在一些实施例中,所述几何坐标生成模型还包括:与所述预设解码器连接的非线性化层;所述装置还包括:非线性化处理模块,用于通过所述几何坐标生成模型中的所述非线性化层对所述解码向量进行非线性化处理,得到非线性化输出值;其中,所述非线性化输出值为大于0且小于1的任意实数;坐标调整模块,用于根据所述非线性化输出值和每一字形图片的尺寸参数,对所述目标坐标进行坐标调整。
在一些实施例中,所述合成模块还用于:获取所述字形图片序列中的每一字形图片的原始坐标;根据所述原始坐标和所述目标坐标,确定每一字形图片的仿射变换参数;根据所述仿射变换参数,对所述字形图片序列中的每一字形图片进行图片变换处理,得到每一字形图片对应至所述目标图像中的变换图片;对所述字形图片序列中的全部字形图片对应的变换图片进行加和处理,得到所述目标标识图像。
在一些实施例中,对所述字形特征和所述文本特征进行条件编码处理,以及,基于预设的噪声值对所述条件特征进行位置信息编码是通过标识图像生成模型来实现的;其中,所述标识图像生成模型通过以下步骤进行训练:对样本字形特征和样本文本特征进行串联处理,得到样本序列特征;将所述样本序列特征输入至所述标识图像生成模型中;通过所述标识图像生成模型中的条件编码器对所述样本序列特征进行条件编码处理,得到用于同时表征样本字形图片序列的语义信息和文本样本的文本信息的样本条件特征;通过所述标识图像生成模型中的几何坐标生成模型,基于预设的样本噪声值对所述样本条件特征进行位置信息编码,得到所述样本字形图片序列中的每一样本字形图片在样本目标图像中的样本目标坐标;将所述样本目标坐标和所述样本条件特征输入至序列判别器中,通过所述序列判别器中的序列损失函数对所述样本目标坐标进行损失计算,得到第一损失结果;根据所述第一损失结果对所述标识图像生成模型中的参数进行反向传播,以修正所述参数,得到训练后的标识图像生成模型。
在一些实施例中,所述第一损失结果包括第一二分类结果;所述标识图像生成模型通过以下步骤进行训练:以所述样本条件特征为条件,基于预先标注的真实坐标,通过所述序列判别器中的序列损失函数对所述样本目标坐标进行二分类计算,得到所述第一二分类结果。
在一些实施例中,所述标识图像生成模型通过以下步骤进行训练:基于所述样本目标坐标,将所述样本字形图片序列中的每一样本字形图片合成至所述样本目标图像中,得到样本标识图像;将所述样本标识图像和所述样本条件特征输入至图像判别器中,通过所述图像判别器中的图像损失函数对所述样本标识图像进行损失计算,得到第二损失结果;根据所述第二损失结果对所述标识图像生成模型中的参数进行反向传播,以修正所述参数,得到训练后的标识图像生成模型。
在一些实施例中,所述第二损失结果包括第二二分类结果;所述标识图像生成模型通过以下步骤进行训练:以所述样本条件特征为条件,基于预先标注的真实标识图像,通过所述图像判别器中的图像损失函数对所述样本标识图像进行二分类计算,得到所述第二二分类结果。
在一些实施例中,所述标识图像生成模型通过以下步骤进行训练:获取所述样本字形图片序列中的每一样本字形图片的原始样本坐标;根据所述原始样本坐标和所述样本目标坐标,确定每一样本字形图片的仿射变换参数;根据所述仿射变换参数,对所述样本字形图片序列中的每一样本字形图片进行图片变换处理,得到每一样本字形图片对应至所述样本目标图像中的样本变换图片;对所述样本字形图片序列中的全部样本字形图片对应的样本变换图片进行加和处理,得到所述样本标识图像;对应地,所述标识图像生成模型通过以下步骤进行训练:将所述样本字形图片序列中的全部样本字形图片输入至冲突损失模型中,得到第三损失结果;根据所述第三损失结果对所述标识图像生成模型中的参数进行反向传播,以修正所述参数,得到训练后的标识图像生成模型。
在一些实施例中,所述字形图片序列中的每一字形图片对应一图片序列标识,所述图片序列标识用于表征所述字形图片在所述字形图片序列中的位置;其中,获取模块还用于:基于所述图片序列标识,依次对所述字形图片序列中的每一字形图片进行文本识别,得到与所述字形图片序列对应的所述文本。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括可执行指令,该可执行指令是一种计算机指令;该可执行指令存储在计算机可读存储介质中。当图像处理设备的处理器从计算机可读存储介质读取该可执行指令,处理器执行该可执行指令时,使得该图像处理设备执行本申请实施例上述的方法。
本申请实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图4示出的方法。在一些实施例中,存储介质可以是计算机可读存储介质,例如,铁电存储器(FRAM,Ferromagnetic Random Access Memory)、只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM,Compact Disk-Read Only Memory)等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。作为示例,可执行指令可被部署为在一个计算设备(可以是图像处理设备)上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种图像处理方法,其特征在于,所述方法包括:
获取字形图片序列和与所述字形图片序列对应的文本;所述字形图片序列包括至少一个字形图片;
分别对所述字形图片序列和所述文本进行特征提取,对应得到字形特征和文本特征;
对所述字形特征和所述文本特征进行条件编码处理,得到条件特征;
基于预设的噪声值对所述条件特征进行位置信息编码,得到所述字形图片序列中的每一字形图片在目标图像中的目标坐标;
基于所述目标坐标,将所述每一字形图片合成至所述目标图像中,得到所述目标标识图像。
2.根据权利要求1所述的方法,其特征在于,所述对所述字形特征和所述文本特征进行条件编码处理,得到条件特征,包括:
对所述字形特征和所述文本特征进行串联处理,得到序列特征;
采用条件编码器对所述序列特征进行条件编码处理,得到用于同时表征所述字形图片序列的语义信息和所述文本的文本信息的条件特征。
3.根据权利要求2所述的方法,其特征在于,每一字形图片对应所述文本中的一个字符;
所述对所述字形特征和所述文本特征进行串联处理,得到序列特征,包括:
确定出所述文本中的每一字符在所述字形特征中对应的字形特征元素;
确定出所述文本中的每一字符在所述文本特征中对应的文本特征元素;
对同一字符对应的所述字形特征元素和所述文本特征元素进行串联处理,得到串联特征元素;
对所述文本中的全部字符的所述串联特征元素进行拼接,形成所述序列特征。
4.根据权利要求1所述的方法,其特征在于,所述基于预设的噪声值对所述条件特征进行位置信息编码,得到所述字形图片序列中的每一字形图片在目标图像中的目标坐标,包括:
从预设的正态分布图中获取所述噪声值;
将所述噪声值和所述条件特征输入至几何坐标生成模型中;
通过所述几何坐标生成模型中的预设编码器,基于所述噪声值对所述条件特征进行编码运算,得到编码向量;
通过所述几何坐标生成模型中的预设解码器,对所述编码向量进行解码运算,得到解码向量;
根据所述解码向量确定所述字形图片序列中的每一字形图片在目标图像中的目标坐标。
5.根据权利要求4所述的方法,其特征在于,所述几何坐标生成模型还包括:与所述预设解码器连接的非线性化层;所述方法还包括:
通过所述几何坐标生成模型中的所述非线性化层对所述解码向量进行非线性化处理,得到非线性化输出值;其中,所述非线性化输出值为大于0且小于1的任意实数;
根据所述非线性化输出值和每一字形图片的尺寸参数,对所述目标坐标进行坐标调整。
6.根据权利要求4所述的方法,其特征在于,所述基于所述目标坐标,将所述每一字形图片合成至所述目标图像中,得到所述目标标识图像,包括:
获取所述字形图片序列中的每一字形图片的原始坐标;
根据所述原始坐标和所述目标坐标,确定每一字形图片的仿射变换参数;
根据所述仿射变换参数,对所述字形图片序列中的每一字形图片进行图片变换处理,得到每一字形图片对应至所述目标图像中的变换图片;
对所述字形图片序列中的全部字形图片对应的变换图片进行加和处理,得到所述目标标识图像。
7.根据权利要求1所述的方法,其特征在于,
所述对所述字形特征和所述文本特征进行条件编码处理,以及,所述基于预设的噪声值对所述条件特征进行位置信息编码是通过标识图像生成模型来实现的;
其中,所述标识图像生成模型通过以下步骤进行训练:
对样本字形特征和样本文本特征进行串联处理,得到样本序列特征;
将所述样本序列特征输入至所述标识图像生成模型中;
通过所述标识图像生成模型中的条件编码器对所述样本序列特征进行条件编码处理,得到用于同时表征样本字形图片序列的语义信息和文本样本的文本信息的样本条件特征;
通过所述标识图像生成模型中的几何坐标生成模型,基于预设的样本噪声值对所述样本条件特征进行位置信息编码,得到所述样本字形图片序列中的每一样本字形图片在样本目标图像中的样本目标坐标;
将所述样本目标坐标和所述样本条件特征输入至序列判别器中,通过所述序列判别器中的序列损失函数对所述样本目标坐标进行损失计算,得到第一损失结果;
根据所述第一损失结果对所述标识图像生成模型中的参数进行反向传播,以修正所述参数,得到训练后的标识图像生成模型。
8.根据权利要求7所述的方法,其特征在于,所述第一损失结果包括第一二分类结果;
所述通过所述序列判别器中的序列损失函数对所述样本目标坐标进行损失计算,得到第一损失结果,包括:
以所述样本条件特征为条件,基于预先标注的真实坐标,通过所述序列判别器中的序列损失函数对所述样本目标坐标进行二分类计算,得到所述第一二分类结果。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
基于所述样本目标坐标,将所述样本字形图片序列中的每一样本字形图片合成至所述样本目标图像中,得到样本标识图像;
将所述样本标识图像和所述样本条件特征输入至图像判别器中,通过所述图像判别器中的图像损失函数对所述样本标识图像进行损失计算,得到第二损失结果;
根据所述第二损失结果对所述标识图像生成模型中的参数进行反向传播,以修正所述参数,得到训练后的标识图像生成模型。
10.根据权利要求9所述的方法,其特征在于,所述第二损失结果包括第二二分类结果;
所述通过所述图像判别器中的图像损失函数对所述样本标识图像进行损失计算,得到第二损失结果,包括:
以所述样本条件特征为条件,基于预先标注的真实标识图像,通过所述图像判别器中的图像损失函数对所述样本标识图像进行二分类计算,得到所述第二二分类结果。
11.根据权利要求9所述的方法,其特征在于,所述基于所述样本目标坐标,将所述样本字形图片序列中的每一样本字形图片合成至所述样本目标图像中,得到样本标识图像,包括:
获取所述样本字形图片序列中的每一样本字形图片的原始样本坐标;
根据所述原始样本坐标和所述样本目标坐标,确定每一样本字形图片的仿射变换参数;
根据所述仿射变换参数,对所述样本字形图片序列中的每一样本字形图片进行图片变换处理,得到每一样本字形图片对应至所述样本目标图像中的样本变换图片;
对所述样本字形图片序列中的全部样本字形图片对应的样本变换图片进行加和处理,得到所述样本标识图像;
对应地,所述方法还包括:
将所述样本字形图片序列中的全部样本字形图片输入至冲突损失模型中,得到第三损失结果;
根据所述第三损失结果对所述标识图像生成模型中的参数进行反向传播,以修正所述参数,得到训练后的标识图像生成模型。
12.一种图像处理装置,其特征在于,所述装置包括:
获取模块,用于获取字形图片序列和与所述字形图片序列对应的文本;所述字形图片序列包括至少一个字形图片;
特征提取模块,用于分别对所述字形图片序列和所述文本进行特征提取,对应得到字形特征和文本特征;
条件编码模块,用于对所述字形特征和所述文本特征进行条件编码处理,得到条件特征;
位置编码模块,用于基于预设的噪声值对所述条件特征进行位置信息编码,得到所述字形图片序列中的每一字形图片在目标图像中的目标坐标;
合成模块,用于基于所述目标坐标,将所述每一字形图片合成至所述目标图像中,得到所述目标标识图像。
13.一种图像处理设备,其特征在于,包括:
存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的图像处理方法。
14.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行所述可执行指令时,实现权利要求1至11任一项所述的图像处理方法。
15.一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括可执行指令,所述可执行指令存储在计算机可读存储介质中;
当图像处理设备的处理器从所述计算机可读存储介质读取所述可执行指令,并执行所述可执行指令时,实现权利要求1至11任一项所述的图像处理方法。
CN202210190387.6A 2022-02-28 2022-02-28 图像处理方法、装置、设备、存储介质及计算机程序产品 Pending CN116721185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210190387.6A CN116721185A (zh) 2022-02-28 2022-02-28 图像处理方法、装置、设备、存储介质及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210190387.6A CN116721185A (zh) 2022-02-28 2022-02-28 图像处理方法、装置、设备、存储介质及计算机程序产品

Publications (1)

Publication Number Publication Date
CN116721185A true CN116721185A (zh) 2023-09-08

Family

ID=87870253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210190387.6A Pending CN116721185A (zh) 2022-02-28 2022-02-28 图像处理方法、装置、设备、存储介质及计算机程序产品

Country Status (1)

Country Link
CN (1) CN116721185A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422796A (zh) * 2023-12-19 2024-01-19 深圳须弥云图空间科技有限公司 文字标志生成方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422796A (zh) * 2023-12-19 2024-01-19 深圳须弥云图空间科技有限公司 文字标志生成方法、装置、电子设备及存储介质
CN117422796B (zh) * 2023-12-19 2024-04-16 深圳须弥云图空间科技有限公司 文字标志生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20230401828A1 (en) Method for training image recognition model, electronic device and storage medium
CN111524207B (zh) 基于人工智能的图像生成方法、装置、电子设备
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN112949477B (zh) 基于图卷积神经网络的信息识别方法、装置及存储介质
CN111428457A (zh) 数据表的自动格式化
CN114529574B (zh) 基于图像分割的图像抠图方法、装置、计算机设备及介质
CN116958323A (zh) 图像生成方法、装置、电子设备、存储介质及程序产品
CN114254071A (zh) 从非结构化文档中查询语义数据
CN113377914A (zh) 推荐文本生成方法、装置、电子设备和计算机可读介质
Zakraoui et al. Improving text-to-image generation with object layout guidance
CN116721185A (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
Ardhianto et al. Generative deep learning for visual animation in landscapes design
US11295072B2 (en) Autoform filling using text from optical character recognition and metadata for document types
CN116975357A (zh) 视频生成方法、装置、电子设备、存储介质及程序产品
CN115641276A (zh) 图像处理方法、装置、设备、介质及程序产品
CN115982452A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN115292188A (zh) 交互界面合规性检测方法、装置、设备、介质和程序产品
CN114091662B (zh) 一种文本图像生成方法、装置及电子设备
CN118096924B (zh) 图像处理方法、装置、设备及存储介质
CN116704588B (zh) 面部图像的替换方法、装置、设备及存储介质
CN117953102A (zh) 图像生成方法、装置、计算机设备及存储介质
CN113283241B (zh) 文本识别方法、装置、电子设备及计算机可读存储介质
CN112347738B (zh) 基于裁判文书的双向编码器表征量模型优化方法和装置
CN115329888A (zh) 一种信息融合方法和装置
CN117473055A (zh) 答案生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40094486

Country of ref document: HK