CN116363250A - 一种图像生成方法及*** - Google Patents

一种图像生成方法及*** Download PDF

Info

Publication number
CN116363250A
CN116363250A CN202310342621.7A CN202310342621A CN116363250A CN 116363250 A CN116363250 A CN 116363250A CN 202310342621 A CN202310342621 A CN 202310342621A CN 116363250 A CN116363250 A CN 116363250A
Authority
CN
China
Prior art keywords
image
text
model
image generation
target image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310342621.7A
Other languages
English (en)
Inventor
周叶江
庄光庭
吕雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avatr Technology Chongqing Co Ltd
Original Assignee
Avatr Technology Chongqing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avatr Technology Chongqing Co Ltd filed Critical Avatr Technology Chongqing Co Ltd
Priority to CN202310342621.7A priority Critical patent/CN116363250A/zh
Publication of CN116363250A publication Critical patent/CN116363250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及图像处理技术领域,公开了一种图像生成方法及***,其中所述方法包括:获取用户输入的第一语音指令,再对第一语音指令进行识别,得到对应的第一文本摘要,通过图像生成模型对第一文本摘要进行处理,生成与第一文本摘要对应的第一目标图像;而后可获取用户输入的第二语音指令,并根据第二语音指令获取对应的第二文本摘要,再通过图像生成模型根据第二文本摘要对第一目标图像进行修改得到第二目标图像。通过应用本发明的技术方案,能够生成对应于用户输入的语音指令的图像文件,使得用户的交互过程不局限于语音或文本,丰富用户的交互服务内容,提高进行体验店线下体验时的用户体验效果。

Description

一种图像生成方法及***
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像生成方法及***。
背景技术
在线上购物流行的如今,对于大件且价值较高的商品,依旧采用线下销售的方式进行售卖。例如,通过4S店或体验店的方式,对家用汽车等车辆进行展示和售卖。开设在商场、步行街等人流量较大的场所的体验店,能够吸引更多的用户进行体验,但由于商场、步行街等场所能够提供的门店面积有限,展示区域中展示产品的数量会受到限制,在同一时间内能够进行体验的用户数量有限,因此为了吸引等待体验的用户的注意力,需要在面积有限的休闲区域提供更多交互服务。
体验店的休闲区域能够通过播放宣传片、提供产品参数、以及服务人员讲解等方式,为等待体验的用户提供更多的交互,以增加用户对产品的了解,提高用户的体验效果。
但通过播放宣传片、提供产品参数进行交互时,提供的交互内容单一,无法满足用户的复杂需求,而服务人员虽然能够提供更细致的讲解交互,但服务人员数量有限,且交互时通常为言语沟通,依旧存在交互内容单一,无法为用户提供更具吸引力的交互服务。
发明内容
本申请提供了一种图像生成方法及***,以解决进行体验店线下体验时交互服务内容单一造成用户体验效果较差的问题。
根据本发明实施例的第一方面,提供了一种图像生成方法,包括:获取用户输入的第一语音指令;根据所述第一语音指令,生成所述第一语音指令对应的第一文本摘要;根据图像生成模型对所述第一文本摘要进行处理,生成所述第一语音指令对应的第一目标图像;获取用户输入的第二语音指令,所述第二语音指令用于修改所述第一目标图像;根据所述第二语音指令,生成所述第二语音指令对应的第二文本摘要;根据所述图像生成模型对所述第二文本摘要和所述第一目标图像进行处理,生成第二目标图像。
根据本发明实施例的第二方面,提供了一种图像生成***,包括:
信息采集单元,用于获取用户输入的第一语音指令和第二语音指令。
文本处理单元,用于根据所述第一语音指令,生成所述第一语音指令对应的第一文本摘要;以及,根据所述第二语音指令,生成所述第二语音指令对应的第二文本摘要。
图像生成单元,用于根据图像生成模型对所述第一文本摘要进行处理,生成所述第一语音指令对应的第一目标图像;以及,根据所述图像生成模型对所述第二文本摘要和所述第一目标图像进行处理,生成第二目标图像。
根据本发明实施例的第三方面,提供了一种图像生成设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如前述中任一种图像生成方法的操作。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在图像生成***/设备上运行时,使得图像生成***/设备执行如前述中任一种图像生成方法的操作。
本发明实施例提供的一种图像生成方法、***及设备,其中所述方法包括:获取用户输入的第一语音指令,再对第一语音指令进行识别,得到对应的第一文本摘要,通过图像生成模型对第一文本摘要进行处理,生成与第一文本摘要对应的第一目标图像;而后可获取用户输入的第二语音指令,并根据第二语音指令获取对应的第二文本摘要,再通过图像生成模型根据第二文本摘要对第一目标图像进行修改得到第二目标图像。通过应用本发明的技术方案,能够生成对应于用户输入的语音指令的图像文件,使得用户的交互过程不局限于语音或文本,丰富用户的交互服务内容,提高进行体验店线下体验时的用户体验效果。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种图像生成方法的流程图;
图2为本申请实施例中另一种图像生成方法的流程图;
图3为本申请实施例中又一种图像生成方法的流程图;
图4为本申请实施例中一种图像生成模型训练方法的流程图;
图5为本申请实施例中一种目标提取模型训练方法的流程图;
图6为本申请实施例中又一种图像生成方法的流程图;
图7为本申请实施例中一种语音识别模型的数据流转图;
图8为本发明实施例中一种图像生成模型训练方法的示意图;
图9本发明实施例中一种图像生成模型的示意图;
图10为本发明实施例提供的一种图像生成***的结构示意图;
图11为本发明实施例提供的一种图像生成设备的结构示意图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的***和方法的示例。
体验店作为在商场、步行街等地设置,用于吸引用户注意的场所,能够为产品提供更好的展示机会。特别是对于大件且价值较高的产品设备来说,体验店是增加用户关注的方式。
但对于体积较大的商品来说,商场、步行街等场所能够提供的面积有限。例如家用汽车,在体验店中仅能展示少数几种车辆,甚至只能展示一种,因此在进行体验时无法令全部用户都能够及时进行体验,为了吸引用户的注意力,需要为用户提供足够的交互服务。体验店的休闲区域能够通过播放宣传片、提供产品参数、以及服务人员讲解等方式,为等待体验的用户提供更多的交互,以增加用户对产品的了解,提高用户的体验效果。
但通过播放宣传片、提供产品参数进行交互时,为用户提供的交互内容单一,存在无法满足用户的复杂需求的问题。而体验店中的服务人员虽然能够提供更细致的讲解交互,但由于服务人员数量有限,可能无法及时为用户提供服务,且服务人员进行交互时通常为言语沟通,依旧存在交互内容单一,无法为用户提供更具吸引力的交互服务。
为了解决上述问题,本申请公开了一种图像生成方法、***及设备,通过对用户输入的语音指令进行处理转化,生成对应与用户的语音指令的图像文件,来增加用户的交互服务选项,提高体验店中交互服务的吸引力,增加用户的体验效果。
下面对本发明实施例中公开的文件生成方法进行示例性说明。
图1示出了本申请实施例中一种图像生成方法的流程图。如图1所示,所述生成方法包括如下步骤:
S110:获取用户输入的第一语音指令。
首先需要通过包括麦克风等设备,获取用户输入的第一语音指令。示例性的,可在体验店中休闲区域的桌子或墙壁上设置麦克风,用来采集周围的语音指令,从而获取具体的语音指令。
在部分实施例中,为了避免其他用户对进行交互的用户造成影响,用于采集语音信号的设备会被限制在指定区域内不可移动,例如固定在墙体中或安装在桌子台面上。示例性的,还可限制采集语音信号的设备的收音范围,从而避免他人干扰语音指令的输入。再例如,也可通过设置接收按键的方式,用户在进行交互时通过按压接收按键,使设备开始接受语音指令,避免设备接收到用户间进行对话时的语音指令,对后续语音指令的处理造成干扰。
S120:根据第一语音指令,生成第一语音指令对应的第一文本摘要。
在获取到第一语音指令后,可通过声音的特征,将语音指令转化为文本,并在文本中提取具有一定概括性的词语或句子,从而生成文本摘要。示例性的,如图2所示,生成第一文本摘要的过程可包括以下内容:
S121:对第一语音指令进行识别,得到第一文本数据。
在获取到第一语音指令后,首先需要对语音指令进行识别,从而将语音指令转化为对应的第一文本数据。其中第一文本数据可为一个语句或由多个语句组成的一段话。示例性的,可通过对第一语音指令中的声纹特征进行辨别,从而获取对应于第一语音指令的第一文本数据。应当理解的是,第一语音指令中会包括与生成图像无关的内容,例如语气词、部分动词等,因此识别获取的第一文本数据无法直接作为文本摘要进行后续的步骤。
需要说明的是,进行语音指令的识别时,一般只能够对同种语言进行识别理解,若用户通过多种语言进行同一段话的表述,则可向用户发送提醒信息,提醒用户通过同一种语言对生成的图像进行限制。示例性的,本申请部分实施例中能够识别的语种为汉语。在需要进行其他语言识别时,可通过预设数据集的方式,增加其他语言的识别能力。
在部分实施例中,在获取到第一文本数据后,需要对文本数据中的内容进行遍历,检测文本数据中是否包含禁忌词,若第一文本数据中不包括禁忌词,则继续进行文本摘要的提取过程;若第一文本数据中包括禁忌词,则向用户发送提示信息,提示用户输入的语音指令中包括禁忌词,无法进行图像的生成。
S122:根据目标提取模型,提取第一文本数据的文本摘要,得到第一文本摘要。
在获取到第一文本数据后,则需要通过目标提取模型,对第一文本数据中的文本摘要进行提取,从而得到第一文本摘要。
其中,文本摘要是指文本数据中具有概括性或能够表达该文本数据的主旨的语句,当文本数据为包括多个语句的一段话时,文本摘要可为文本数据中某一句或某几句语句的组合,但文本摘要所包括的内容少于文本数据中的内容。在部分实施例中,若文本数据仅为一个语句,那么得到的文本摘要可为文本数据本身。
示例性的,当第一文本数据为包括多个语句的一段话时,可将第一文本数据中的文本内容划分为多个语句,而后对比多个语句各自对第一文本数据的概括程度以及不同语句组合对第一文本数据的概括程度,获取概括程度最高的语句或语句组合,将其作为第一文本摘要。
在部分实施例中,也可通过对第一文本数据进行分词处理,获取第一文本数据的分词信息,而后通过统计不同分词的词频来判断不同分词的重要程度,进而将重要程度较高的分词选取出来,作为第一文本摘要,进行后续的图像生成。
S130:根据图像生成模型对第一文本摘要进行处理,生成第一语音指令对应的第一目标图像。
在得到第一文本摘要后,将第一文本摘要输入至图像生成模型当中,图像生成模型通过将第一文本摘要转化为文本特征向量,同时图像生成模型还会获取一个高斯噪声图像信号并根据高斯噪声图像信息获取图像特征向量,而后将文本特征向量和图像特征向量进行交叉提取,从而获取目标特征向量,最后对目标特征向量进行解码,从而获取对应于第一语音指令对应的第一目标图像。
示例性的,文本特征向量和图像特征向量的交叉提取过程,也可被视为根据文本特征向量对图像特征向量进行修改的过程,由于图像特征向量是通过高斯噪声图像获取的,对图像特征向量进行的修改即是通过文本特征向量对高斯噪声图像进行引导去噪,而后经过解码即可得到对应于第一语音指令的第一目标图像。
应当注意的是,进行高斯噪声图像信号的引导去噪过程中,可设置多种引导方式,例如通过文本特征向量进行引导、通过图像特征向量进行引导以及通过文本特征向量和图像特征向量共同进行引导等。在本申请的部分实施例中,进行引导去噪时仅会以文本特征向量作为引导标准,此时可将图像输入端的输入视为为0或空值,从而进行高斯噪声图像信号的引导去噪。
S140:获取用户输入的第二语音指令。
第二语音指令是用户输入的用于修改第一目标图像的指令。在生成对应于第一语音指令的第一目标图像后,可将第一目标图像进行输出,但由于在部分实施例中,用户的想法与输出的第一目标图像间存在一定差异。此时用户可通过再次输入语音指令的方式,修改第一目标图像,示例性的,可通过上述S110步骤中获取第一语音指令的方式来获取用户输入的第二语音指令。
S150:根据第二语音指令,生成第二语音指令对应的第二文本摘要。
根据第二语音指令生成第二文本摘要的过程,与上述根据第一文本指令申城第一文本摘要的过程相同,本申请中不做赘述。
S160:根据图像生成模型对第二文本摘要和第一目标图像进行处理,生成第二目标图像。
在得到第二文本摘要后,需要通过图像生成模型对第二文本摘要和第一目标图像进行编码得到对应的特征向量,再通过交叉提取的方式对图像特征向量进行调整,进而生成第二目标图像。
在部分实施例中,可直接将解码生成第一目标图像前的目标特征向量作为图像特征向量,与第二文本摘要对应的文本特征向量一同进行交叉提取,减少图像的编解码次数,提高图像的生成效率。
应当理解的是,所述第二语音指令仅是用于指代用于修改目标图像的语音指令,所述第二文本摘要用于指代修改目标图像的语音对应的文本摘要,所述第二目标图像用于指代经过修改的目标图像。在生成第二目标图像后,仍旧可以采用S140至S160的步骤对第二目标图像进行修改,以使生成的图像满足用户的需求。
通过上述技术方案,能够通过用户输入一段语音指令,获取一张符合用户输入的语音指令的图像,且还可通过用户再次输入语音指令对图像进行修改,使得用户在进行交互时具有更多的选择,增加交互服务的吸引力。
在生成目标图像的过程中,图像生成模型中的各个子模型会分别对不同的信息进行处理,从而得到更加符合用户语音指令的图像。在部分实施例中,如图3和图9所示,所述方法还包括:
S310:获取用户输入的第一语音指令。
S320:根据第一语音指令,生成第一语音指令对应的第一文本摘要。
S330:通过在噪声特征分布中采样获取初始图像特征。
其中,噪声特征分布为通过图像生成模型中的第一图像模型获取的噪声图像在隐空间的特征分布,因此初始图像特征可被视为由第一图像模型输出的特征向量。
噪声特征分布是通过第一图像模型在训练过程中得到的,示例性的,图像生成模型中的第一图像模型为扩散模型,而扩散模型在训练过程中,前向过程为将图像加噪进而生成噪声图像,通过迭代训练能够获取噪声图像在隐空间的特征分布,即获取噪声特征分布。在获取第一文本摘要后,图像生成模型通过在噪声特征分布中进行采样,能够获取初始图像特征进而进行后续的图像生成过程。
S340:根据图像生成模型中的第二图像模型对第一文本摘要进行处理,生成语音指令对应的第一文本特征。
图像生成模型中的第二图像模型可将第一文本摘要转换为对应的第一文本特征。应当理解的是,第一文本特征即为文本特征向量,而文本特征向量则为向量话的文本摘要。通过向量化处理,使文本摘要与图像的维度相同,便于后续第三图像模型进行处理。第二图像模型的输出也为第三图像模型的一个输入,具体的,在图像生成模型根据第一语音指令进行图像生成的过程中,第二图像模型能够为第三图像模型提供向量化且与第一文本摘要对应的第一文本特征。
示例性的,第二图像模型可为CLIP,即ContrastiveLanguage-ImagePretraining,基于对比文本-图像对的预训练模型,CLIP的输出为特征向量,而输入即可以为文本,也可以为图像,在此基础上,CLIP能够向第三图像模型提供文本特征向量或图像特征向量,在图像生成模型根据第一语音指令进行图像生成的过程中,CLIP则向第三图像模型提供对应的第一文本特征。应当理解的是,CLIP是已完成训练的模型,CLIP能够将文本和/或图像转化为对应的特征向量,且CLIP在特征向量的转化过程中会统一维度,避免文本特征向量和图像特征向量间的维度差异而无法组合为一个同一个特征向量。
S350:根据图像生成模型中的第三图像模型对初始图像特征和第一文本特征进行处理,生成第一目标图像特征。
第三图像模型同时对向量化的初始图像特征和第一文本特征进行交叉提取,以生成第一目标图像特征,而后再通过对第一目标图像特征进行解码,从而生成对应于第一语音指令的第一目标图像。
示例性的,第三图像模型可为crossattention模型,crossattention模型在获取到图像特征向量和文本特征向量后,可根据文本特征向量修改图像特征向量,进而生成能够体现文本中特征的特征向量作为第一目标图像特征,而后则通过将第一目标图像特征解码,来获取第一目标图像。
在部分实施例中,由于第三图像模型的输出仍旧为一个特征向量,因此需要对其进行解码才能够获取对应的目标图像,因此图像生成模型还包括一个解码器(decoder)用于解码第三图像模型输出的特征向量。
S360:获取用户输入的第二语音指令。
S370:根据第二语音指令,生成第二语音指令对应的第二文本摘要。
所述方法中S310至S320步骤和S360至S370步骤的执行过程同上述S110至S120步骤和S140至S150步骤的执行过程,因此S310至S320步骤和S360至S370步骤本申请中不做赘述。
S380:根据图像生成模型中的第二图像模型分别对第一目标图像和第二文本摘要进行处理,生成第一目标图像对应的第一图像特征和第二语音指令对应的第二文本特征。
在进行第一目标图像的修改过程中,由于在前述步骤中已经生成了一个图像,因此进行的修改可在该图像上进行,从而减少第一图像模型在修改中多次生成初始图像特征,也能够减少修改图像后图像差异较大等问题的出现。
在部分实施例中,当第二图像模型为CLIP时,第二图像模型能够对文本和图像进行处理,从而提取出对应的特征向量,从而获取第一目标图像以及第二文本摘要对应的特征信息。
S390:根据所述图像生成模型中的第三图像模型对所述第一图像特征和所述第二文本特征进行处理,生成所述第二目标图像特征。
在进行图像修改的过程中,在部分实施例中,第三图像模型的数据来源都为第二图像模型,第二图像模型能够为第三图像模型提供图像特征向量和文本特征向量,进而通过第三图像模型生成第二目标图像特征,并对第二目标图像特征进行解码,以获取第二目标图像,图像生成过程与上述S350步骤相同。
应当理解的是,对目标图像的修改可能为多次,后续进行目标图像的修改时,即可根据上述S360至S390步骤进行图像修改。
在另一部分实施例中,如图9所示,若第一图像模型为扩散模型,第二图像模型为CLIP,则第二图像模型在同时接收文本内容和图像内容并将其转化为对应的特征向量后,第二图像模型还会将文本特征向量和图像特征向量整合为一个特征向量作为第三图像模型的一个输入,同时第三图像模型还需要通过在噪声特征分布中采集一个噪声图像特征,从而获取第二个输入信息,以将两个特征向量转化为第二目标图像特征,并通过解码器将第二目标图像特征解码为第二目标图像。
通过图像生成模型中的三个子模型能够分别对文本及图像进行处理以生成符合用户语音指令中所描述的内容,进而使用户的语音能够较为准确的转化为图像,使得用户在进行交互时具有更多的选择,增加交互服务的吸引力。
在使用图像生成模型生成目标图像前,为了提高图像生成模型生成图像的准确性,需要对初始图像生成模型进行训练,从而通过将文本摘要输入至图像生成模型时,能够能够准确且快速的得到目标图像。如图4和图8所示,图像生成模型的训练方法包括:
S410:获取多组样本摘要和多组样本摘要一一对应的样本图像。
初始图像生成模型未经过训练,在进行图像生成的过程中,无法知晓生成的结果是否符合要求,因此在使用图像生成模型进行图像生成前,需要进行训练,从而提高生成图像的准确性,减少因多次生成带来的体验感降低等问题。
以第一图像模型为扩散模型、第二图像模型为CLIP、第三图像模型为crossattention模型为例,为了进行模型训练,则需要获取多组样本摘要和与样本摘要对应的样本图像,进而将样本摘要输入至CLIP中,将对应的样本图像输入至扩散模型中。
由于在部分实施例中,CLIP还需要处理图像信息,因此在训练过程中,在通过样本摘要训练CLIP的基础上,还需要根据样本图像进行进一步的训练,从而增加CLIP进行图像特征向量生成时的准确性。
在部分实施例中,由于CLIP能够将文本和/或图像转化为相应的特征向量,且CLIP提供的特征向量为。因此在部分实施例中,初始图像生成模型在进行训练时,可仅通过样本图像对初始图像生成模型进行训练,例如将同一个样本图像同时输入至扩散模型和CLIP中,扩散模型会输出一个噪声图像特征向量,而CLIP能够输出一个图像特征向量,crossattention模型对两个图像特征向量进行处理,从而生成预测目标图像特征。
S420:基于初始图像生成模型中的第一图像模型对样本图像进行处理,以生成样本噪声图像特征。
通过第一图像模型对样本图像进行加噪,生成高斯噪声图像,并根据高斯噪声图像获取图像特征向量,以作为样本噪声图像特征。应当理解的是,为了便于第一图像模型进行图像的处理,可在第一图像模型前设置一个编码器(encoder)来对图像进行编码,从而使第一图像模型能够直接对特征向量进行处理,提高第一图像模型的处理效率。其中编码器与上述S350步骤中的解码器为一起通过公开的训练集进行训练获取的,且编码器与解码器在初始图像生成模型的迭代训练过程中,仅具有编解码的功能,参数不会因训练过程而产生变化。
S430:将样本摘要输入初始图像生成模型中的第二图像模型,得到样本文本特征。
第二图像模型在接收到样本摘要后,对样本摘要中的内容进行分析以及向量化,从而得到样本文本特征。
S440:基于初始图像生成模型中的第三图像模型对样本噪声图像特征和样本文本特征进行处理,得到预测目标图像特征。
第三图像模型则根据样本文本特征与样本噪声图像特征,生成一个特征向量,生成的特征向量在经过解码后,既能够得到预测目标图像。
应当理解的是,上述训练初始图像生成模型的过程中,数据的流转和处理过程与上述S330至S350的步骤相同,仅在生成结果的准确性上存在区别,因此上述S420至S430步骤的过程本申请中不做赘述。
S450:以预测目标图像特征作为初始图像生成模型的初始训练输出,样本图像特征作为监督信息,迭代训练初始图像生成模型,以得到训练后的图像生成模型。
在得到预测目标图像特征后,则可将样本图像特征作为监督信息,来计算预测目标图像与样本图像间的损失值,并通过损失值确定图像生成模型是否训练成功,其中,样本图像特征可为样本图像通过编码器生成的特征向量。示例性的,图像生成模型在训练过程中的的损失函数可为:
Loss=min(f_D_reverse(z_t,t)-z_ca)
z_ca=f_CA(z_t,t,z_c)
其中Loss代表损失值,f_D_reverse代表第一图像模型中将图像加噪为高斯噪声图像的反过程,z_t代表经第一图像模型转换后的图像特征向量,z_ca表示经第三图像模型转换后的目标特征向量,z_c则是经第二图像模型转换后的文本特征向量。
若损失函数收敛,则可认为图像生成模型已经完成训练,可进行图像生成任务。需要说明的是,进行模型训练的过程中,是通过将样本图像编码为一个特征向量z_0,并将z_0通过图像生成模型的转化,生成一个与z_0相似的目标图像特征向量z_ca。由于训练过程中会通过扩散模型对z_0进行加噪处理为噪声图像特征z_t,因此训练图像生成模型的目的在于通过CLIP和crossattention模型根据输入的语义指令将z_t转化为接近z_0的z_ca,从而使得训练完成后的图像生成模型能够对噪声图像特征进行去噪或对一个图像特征向量进行修改,从而生成一个与语音指令接近的目标图像。
通过上述的图像生成模型训练方法,能够将文本转化为图像的准确性提高,提高用户的体验。
图5示出了本申请实施例中一种目标提取模型训练方法的流程图。在提取文本数据中的文本摘要前,还需要对目标提取模型进行训练,使其能够更准确的寻找到文本数据中的重点内容,如图5所示,所述目标提取模型的训练方法包括:
S510:获取多组历史文本数据和每组历史文本数据对应的历史文本摘要。
获取输入的多组历史文本数据,其中每组历史文本数据中可包括多个语句,而每组历史文本数据对应的历史文本摘要则是能够概括对应的历史文本数据的一个语句或几个语句的集合,且历史文本摘要都被所属的历史文本数据包括在内。
S520:对多组历史文本数据进行预处理,得到多组输入样本数据。
其中,预处理包括乱序处理和抽取处理中的至少一项。因此对历史文本数据进行乱序处理,即为将每组历史文本数据中的语句顺序进行打乱组合后进行全部提取的处理方法;而对历史文本数据进行抽取处理,则是指在每组历史文本数据中随机抽取预设数目的语句,从而得到多组输入样本数据。
示例性的,抽取预设数目的语句可为抽取每组历史文本数据中的一半语句进行后续的模型训练,但本申请中对抽取的数量不做限制,可对同一组历史文本数据多次进行抽取,从而获取多组输入样本数据。需要说明的是,输入样本数据的数量大于历史文本数据的数量,且每组历史文本数据与历史文本摘要间为一一对应的映射关系,而历史文本摘要与输入样本数据间则为一对多的映射关系。
S530:根据输入样本数据和初始提取模型,得到预测文本摘要。
应用初始提取模型对输入样本数据进行提取操作,从而得到预测的文本摘要。初始提取模型识别和提取摘要的标准可具有多种,可通过不断迭代寻找最为准确的一种进行使用。
S540:以预测文本摘要作为初始提取模型的初始训练输出,输入样本数据对应的历史文本摘要作为监督信息,迭代训练初始提取模型得到目标提取模型。
将预测的文本摘要与对应的历史文本摘要进行对比,若多次测试相同,则认为已将初始提取模型训练为目标提取模型;若存在结果不同,则需要进行参数调整,例如改变提取摘要的标准,来使得预测文本摘要与对应的历史文本摘要相符,从而达到训练模型的目的。
具体的,在进行迭代判断的过程中,可采用损失值的方式,对预测文本摘要与历史文本摘要的拟合程度进行判断。示例性的,可根据预测文本摘要和历史文本摘要之间的差异,确定两者间的损失值,而后根据损失值迭代更新初始提取模型,使得到的预测文本摘要与历史文本摘要的拟合程度更高,直至得到满足预设条件的目标提取模型。所述预设条件可为用户自行进行设置的,例如可设置损失值为0.2时结束迭代,则当迭代获取的预测文本摘要与历史文本摘要间的损失值小于0.2时即可结束迭代,从而得到目标提取模型。
通过上述技术方案,对提取模型进行训练,使其能够对内容不全或逻辑关系错误的语句进行摘要提取,使提取获得的文本摘要信息更加符合用户语音指令中的原意,使生成的目标图像符合用户输入的语音指令。
图6示出了本申请实施例中又一种图像生成方法的流程图。图7示出了本申请实施例中一种语音识别模型的数据流转图。如图6和图7所示,可通过语音识别模型对用户输入的语音指令进行处理,因此所述方法还可包括:
S610:获取用户输入的第一语音指令。
S620:根据语音识别模型中的声纹提取子模型,提取第一语音指令中的声纹特征。
在获取第一语音指令后,语音识别模型中的声纹提取子模型即对语音指令中声纹特征进行提取,从而获取声纹特征信息。
需要说明的是,声纹提取子模型可为convolutionneuralnetwork,即卷积神经网络模型,简称为CNN,能够对语音指令中的声纹特征进行提取,从而进行后续的文本识别。
S630:根据语音识别模型中的特征提取子模型和声纹特征,得到第一语音指令的特征关系。
在提取到声纹特征后,通过语音识别模型中的特征提取子模型,获取第一语音指令中的上下文的特征关系,从而使***对第一语音指令中的上下文内容联系具有一定的了解,从而生成后续的文本数据。
示例性的,特征提取子模型可为一种注意力机制的神经网络模型,通过该子模型,可将通过CNN进行输出的声纹特征表达式创建为上下文关系的表达式。
S640:根据语音识别模型中的输出子模型和第一语音指令的特征关系,得到第一文本数据。
在得到第一语音指令中的上下文特征关系后,可通过输出子模型对其进行处理,进而得到第一文本数据,具体的,所述处理可为对上下位的特则会那个关系进行全卷积,从而获取第一文本数据。
需要说明的是,后续进行第二语音指令的识别时,也可通过所述语音识别模型进行文本数据的识别。
S650:根据目标提取模型,提取第一文本数据的文本摘要,得到第一文本摘要。
S660:根据图像生成模型对第一文本摘要进行处理,生成第一语音指令对应的第一目标图像。
S670:接收用户输入的第三语音指令。
其中,第三语音指令用于指示输出第一目标图像和/或第二目标图像。在接收用户的语音指令后,***会对接收到的语音指令进行识别,若语音指令为第三语音指令,即可进行下述的输出第一目标图像和/或第二目标图像的步骤。
示例性的,在进行语音指令的读取过程中,若语音指令中包括“输出”、“无需修改”、“可以”等任一项信息,即可将语音指令视为第三语音指令。
S680:响应于第三语音指令,输出第一目标图像和/或第二目标图像。
在确定语音指令为第三语音指令后,则响应于第三语音指令,将第一目标图像和/或第二目标图像输出,从而使用户能够进行查看和下载。
在部分实施例中,上述步骤也可在多次修改目标图像后执行,将对应的目标图像输出,以供用户进行查看和下载。应当理解的是,在部分实施例中,第三语音指令中,用户还可指定输出的目标图像,以便于用户的查看和下载。
所述方法中S610以及S650步骤的执行过程同上述S110及S130步骤的执行过程,因此S610以及S650步骤本申请中不做赘述。
基于上述图像生成方法,本申请中还提供了一种图像生成***800,如图10所示,包括:
信息采集单元810,用于获取用户输入的第一语音指令和第二语音指令。
文本处理单元820,用于根据第一语音指令,生成第一语音指令对应的第一文本摘要;以及,根据第二语音指令,生成第二语音指令对应的第二文本摘要。
图像生成单元830,用于根据图像生成模型对第一文本摘要进行处理,生成第一语音指令对应的第一目标图像;以及,根据图像生成模型对第二文本摘要和第一目标图像进行处理,生成第二目标图像。
图11示出了本发明实施例提供的一种图像生成设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
基于上述图像生成方法,本申请还提供了一种图像生成设备,如图11所示,该电子设备可以包括:处理器(processor)902、通信接口(Communications Interface)904、存储器(memory)906、以及通信总线908。其中:处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。通信接口904,用于与其它设备比如客户端或其它服务器等的网元通信。处理器902,用于执行程序910,具体可以执行上述图像生成方法实施例中的相关步骤。具体地,程序910可以包括程序代码,该程序代码包括计算机可执行指令。
处理器902可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecificIntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器906,用于存放程序910。存储器906可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
程序910具体可以被处理器902调用使电子设备执行以下操作:
获取用户输入的第一语音指令;根据第一语音指令,生成第一语音指令对应的第一文本摘要;根据图像生成模型对第一文本摘要进行处理,生成第一语音指令对应的第一目标图像;获取用户输入的第二语音指令,第二语音指令用于修改第一目标图像;根据第二语音指令,生成第二语音指令对应的第二文本摘要;根据图像生成模型对第二文本摘要和第一目标图像进行处理,生成第二目标图像。
本发明实施例还提供了一种计算机可读存储介质,存储介质中存储有至少一可执行指令,可执行指令在图像生成***/设备上运行时,使得图像生成***/设备执行如前述中任一种图像生成方法的操作。
本发明实施例提供的一种图像生成方法、***及设备,其中所述方法包括:获取用户输入的第一语音指令,再对第一语音指令进行识别,得到对应的第一文本摘要,通过图像生成模型对第一文本摘要进行处理,生成与第一文本摘要对应的第一目标图像;而后可获取用户输入的第二语音指令,并根据第二语音指令获取对应的第二文本摘要,再通过图像生成模型根据第二文本摘要对第一目标图像进行修改得到第二目标图像。通过应用本发明的技术方案,能够生成对应于用户输入的语音指令的图像文件,使得用户的交互过程不局限于语音或文本,丰富用户的交互服务内容,提高进行体验店线下体验时的用户体验效果。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干***的单元权利要求中,这些***中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种图像生成方法,其特征在于,包括:
获取用户输入的第一语音指令;
根据所述第一语音指令,生成所述第一语音指令对应的第一文本摘要;
根据图像生成模型对所述第一文本摘要进行处理,生成所述第一语音指令对应的第一目标图像;
获取用户输入的第二语音指令,所述第二语音指令用于修改所述第一目标图像;
根据所述第二语音指令,生成所述第二语音指令对应的第二文本摘要;
根据所述图像生成模型对所述第二文本摘要和所述第一目标图像进行处理,生成第二目标图像。
2.根据权利要求1所述的图像生成方法,其特征在于,所述根据图像生成模型对所述第一文本摘要进行处理,生成所述第一语音指令对应的第一目标图像,包括:
通过在噪声特征分布中采样获取初始图像特征;所述噪声特征分布为通过所述图像生成模型中的第一图像模型获取的噪声图像在隐空间的特征分布;
根据所述图像生成模型中的第二图像模型对所述第一文本摘要进行处理,生成所述语音指令对应的第一文本特征;
根据所述图像生成模型中的第三图像模型对所述初始图像特征和所述第一文本特征进行处理,生成第一目标图像特征;
对所述第一目标图像特征进行解码,以获取所述第一目标图像。
3.根据权利要求2所述的图像生成方法,其特征在于,根据所述图像生成模型对所述第二文本摘要和所述第一目标图像进行处理,生成第二目标图像,包括:
根据所述图像生成模型中的第二图像模型分别对所述第一目标图像和所述第二文本摘要进行处理,生成所述第一目标图像对应的第一图像特征和所述第二语音指令对应的第二文本特征;
根据所述图像生成模型中的第三图像模型对所述第一图像特征和所述第二文本特征进行处理,生成第二目标图像特征;
对所述第二目标图像特征进行解码,以获取所述第二目标图像。
4.根据权利要求1所述的图像生成方法,其特征在于,在所述根据图像生成模型对所述第一文本摘要进行处理,生成所述第一语音指令对应的第一目标图像前,所述方法还包括:
获取多组样本摘要和多组所述样本摘要一一对应的样本图像;
基于初始图像生成模型中的第一图像模型对所述样本图像进行处理,以生成样本噪声图像特征;
将所述样本摘要输入所述初始图像生成模型中的第二图像模型,得到样本文本特征;
基于所述初始图像生成模型中的第三图像模型对所述样本噪声图像特征和所述样本文本特征进行处理,得到预测目标图像特征;
以所述预测目标图像特征作为所述初始图像生成模型的初始训练输出,样本图像特征作为监督信息,迭代训练所述初始图像生成模型,以得到训练后的图像生成模型。
5.根据权利要求1所述的图像生成方法,其特征在于,所述根据所述第一语音指令,生成所述第一语音指令对应的第一文本摘要,包括:
对所述第一语音指令进行识别,得到第一文本数据;
根据目标提取模型,提取所述第一文本数据的文本摘要,得到所述第一文本摘要。
6.根据权利要求5所述的图像生成方法,其特征在于,在所述根据目标提取模型,提取所述第一文本数据的文本摘要,得到第一文本摘要之前,所述方法还包括:
获取多组历史文本数据和每组所述历史文本数据对应的历史文本摘要;
对所述多组历史文本数据进行预处理,得到多组输入样本数据;所述预处理包括乱序处理和抽取处理中的至少一项;
根据所述输入样本数据和初始提取模型,得到预测文本摘要;
以所述预测文本摘要作为所述初始提取模型的初始训练输出,所述输入样本数据对应的所述历史文本摘要作为监督信息,迭代训练所述初始提取模型得到所述目标提取模型。
7.根据权利要求6所述的图像生成方法,其特征在于,所述以所述预测文本摘要作为所述初始提取模型的初始训练输出,所述输入样本数据对应的所述历史文本摘要作为监督信息,迭代训练所述初始提取模型得到所述目标提取模型,包括:根据所述预测文本摘要和所述历史文本摘要,确定损失值;
根据所述损失值迭代更新所述初始提取模型,直至得到满足预设条件的所述目标提取模型。
8.根据权利要求2所述的图像生成方法,其特征在于,所述对所述第一语音指令进行识别,得到第一文本数据,包括:根据语音识别模型中的声纹提取子模型,提取所述第一语音指令中的声纹特征;
根据所述语音识别模型中的特征提取子模型和所述声纹特征,得到所述第一语音指令的特征关系;
根据所述语音识别模型中的输出子模型和所述第一语音指令的特征关系,得到所述第一文本数据。
9.根据权利要求1所述的图像生成方法,其特征在于,在所述生成第二目标图像之后,所述方法还包括:接收用户输入的第三语音指令,所述第三语音指令用于指示输出所述第二目标图像;
响应于所述第三语音指令,输出所述第二目标图像。
10.一种图像生成***,其特征在于,包括:
信息采集单元,用于获取用户输入的第一语音指令和第二语音指令;
文本处理单元,用于根据所述第一语音指令,生成所述第一语音指令对应的第一文本摘要;以及,根据所述第二语音指令,生成所述第二语音指令对应的第二文本摘要;
图像生成单元,用于根据图像生成模型对所述第一文本摘要进行处理,生成所述第一语音指令对应的第一目标图像;以及,根据所述图像生成模型对所述第二文本摘要和所述第一目标图像进行处理,生成第二目标图像。
CN202310342621.7A 2023-03-31 2023-03-31 一种图像生成方法及*** Pending CN116363250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310342621.7A CN116363250A (zh) 2023-03-31 2023-03-31 一种图像生成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310342621.7A CN116363250A (zh) 2023-03-31 2023-03-31 一种图像生成方法及***

Publications (1)

Publication Number Publication Date
CN116363250A true CN116363250A (zh) 2023-06-30

Family

ID=86937722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310342621.7A Pending CN116363250A (zh) 2023-03-31 2023-03-31 一种图像生成方法及***

Country Status (1)

Country Link
CN (1) CN116363250A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152283A (zh) * 2023-07-28 2023-12-01 华院计算技术(上海)股份有限公司 一种利用扩散模型的语音驱动人脸图像生成方法及***
CN118098266A (zh) * 2024-02-02 2024-05-28 中创科技(广州)有限公司 一种基于多模型选择的语音数据处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152283A (zh) * 2023-07-28 2023-12-01 华院计算技术(上海)股份有限公司 一种利用扩散模型的语音驱动人脸图像生成方法及***
CN118098266A (zh) * 2024-02-02 2024-05-28 中创科技(广州)有限公司 一种基于多模型选择的语音数据处理方法及装置

Similar Documents

Publication Publication Date Title
US11735176B2 (en) Speaker diarization using speaker embedding(s) and trained generative model
US10679614B2 (en) Systems and method to resolve audio-based requests in a networked environment
CN109117777B (zh) 生成信息的方法和装置
CN112673421B (zh) 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言
CN116363250A (zh) 一种图像生成方法及***
CN111428010B (zh) 人机智能问答的方法和装置
CN110275939B (zh) 对话生成模型的确定方法及装置、存储介质、电子设备
CN111625634B (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
CN111916061B (zh) 语音端点检测方法、装置、可读存储介质及电子设备
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
CN113614825A (zh) 用于自动语音识别的字词网格扩增
CN114038457B (zh) 用于语音唤醒的方法、电子设备、存储介质和程序
CN111538809B (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN109582825B (zh) 用于生成信息的方法和装置
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
Chakroun et al. New approach for short utterance speaker identification
CN111611358A (zh) 信息交互方法、装置、电子设备及存储介质
CN116166827A (zh) 语义标签抽取模型的训练和语义标签的抽取方法及其装置
CN113889091A (zh) 语音识别方法、装置、计算机可读存储介质及电子设备
CN114005446A (zh) 情感分析方法、相关设备及可读存储介质
EP3966744A1 (en) Multi-stream recurrent neural network transducer(s)
CN115512692B (zh) 语音识别方法、装置、设备及存储介质
CN111883133B (zh) 客服语音识别方法、装置、服务器及存储介质
CN113033160B (zh) 对话的意图分类方法及设备和生成意图分类模型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination