CN117729421A - 图像处理方法、电子设备和计算机可读存储介质 - Google Patents
图像处理方法、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN117729421A CN117729421A CN202311044671.3A CN202311044671A CN117729421A CN 117729421 A CN117729421 A CN 117729421A CN 202311044671 A CN202311044671 A CN 202311044671A CN 117729421 A CN117729421 A CN 117729421A
- Authority
- CN
- China
- Prior art keywords
- image
- style
- candidate
- electronic device
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 60
- 230000004044 response Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 94
- 238000000034 method Methods 0.000 claims description 49
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 11
- 239000000284 extract Substances 0.000 abstract description 7
- 239000011159 matrix material Substances 0.000 description 61
- 230000006870 function Effects 0.000 description 20
- 238000007726 management method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 17
- 238000006243 chemical reaction Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011982 device technology Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及图像处理技术领域,提供一种图像处理方法、电子设备和计算机可读存储介质,包括:电子设备在用户界面显示第一图像风格的第一图像后,接收用户在用户界面的第一操作,第一操作用于触发电子设备转换用户界面中图像的图像风格。然后,电子设备响应第一操作提取第一图像的图像内容,将与图像内容相似度最高的候选图像内容对应的图像风格作为候选图像风格。由于喜好程度可以衡量用户个人的偏好程度,所以最后电子设备进一步根据用户对候选图像内容的喜好程度从中选择第二图像风格,进而在用户界面显示第二图像风格的第二图像。以此实现基于用户个人审美偏好对图像进行风格处理,保证图像处理效果符合用户个人审美,提高图像处理的准确性。
Description
技术领域
本申请实施例涉及图像处理技术领域,尤其涉及一种图像处理方法、电子设备和计算机可读存储介质。
背景技术
随着电子设备技术的发展,越来越多的电子设备都配置有摄像模组供用户拍摄图像。基于用户拍摄需求和审美,用户对拍摄的图像有着不同的偏好。例如,不同的用户对图像的色调、光线、构图等有着不同的需求。
目前,为了满足用户对图像偏好的需求,电子设备中的相机功能可以根据拍摄物体的类型自动调整亮度或者选择相对应的拍摄模式,例如选择人像、微距、夜景等模式。然而,现有这种方式主要考虑的是拍摄物体的类型,没有充分考虑到用户个人审美偏好,导致图像处理效果有所偏差,降低了图像处理准确性。
发明内容
本申请实施例提供一种图像处理方法、电子设备和计算机可读存储介质,用于解决现有图像处理没有考虑用户个人审美偏好,导致图像处理效果有所偏差而降低了图像处理准确性的问题。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种图像处理方法,该方法应用于电子设备,电子设备中存储有多种候选图像内容,以及每种候选图像内容对应至少一种图像风格,包括:电子设备在用户界面显示第一图像风格的第一图像后,接收用户在用户界面的第一操作,该第一操作用于触发电子设备转换用户界面中图像的图像风格。然后,电子设备响应于第一操作,提取第一图像的图像内容,将与第一图像的图像内容相似度最高的候选图像内容对应的至少一种图像风格作为候选图像风格。最后获取用户对候选图像风格的喜好程度,根据喜好程度从候选图像风格中选择第二图像风格,在用户界面显示第二图像风格的第二图像。其中,用户界面是可以是电子设备中图库的大图显示页,那么第一图像是图库内的图像,第二图像是将第一图像从第一图像风格转换为第二图像风格得到的图像。或者,用户界面还可以是电子设备拍摄图像的预览界面,那么第一图像是通过采用第一图像风格处理电子设备的摄像头实时采集的图像得到,第二图像通过采用第二图像风格处理电子设备的摄像头实时采集的图像得到。
由于用户的喜好程度通常能够反应用户的个人偏好,所以电子设备根据用户个人对候选图像风格的喜好程度能够匹配选择到符合用户个人风格审美偏好的第二图像风格,进而实现了基于用户个人审美偏好对图像进行风格处理,从而保证图像处理效果符合用户个人审美,提高图像处理的准确性。同时,基于当前用户界面所显示的第一图像的图像内容匹配候选图像风格,能够得到符合图像内容的图像风格,从而在满足用户个人审美偏好的同时,进一步提高图像风格转换处理的准确性。
在第一方面的一种可能的实现方式中,一般来说,用户对图像风格使用越为频繁表征用户对该图像风格的喜好程度越高。因此,用户对候选图像风格的喜好程度可以为:候选图像风格的个人使用频率。因此,电子设备中还存储有每种候选图像内容对应的每种图像风格的个人使用频率。并且,由于电子设备一直被用户使用,所以电子设备中存储的各个图像风格的个人使用频率可能因为用户的选择行为变动,因此为了确保个人使用频率能够及时反应最真实的喜好程度,电子设备可以根据用户的操作对个人使用频率进行更新。
基于此,上述图像处理方法还包括:接收用户在用户界面的第二操作,第二操作用于触发电子设备保存第二图像风格的第二图像;响应第二操作,更新保存的第二图像风格的个人使用频率。由此可见,对于用户确定选择保存的第二图像风格的第二图像,电子设备及时更新该第二图像风格的个人使用频率,以保证候选图像风格对应个人使用频率的真实性。
在第一方面的一种可能的实现方式中,提取第一图像的图像内容,包括:将第一图像输入第一多模态大型语言模型,将经由第一多模态大型语言模型中图像编码器和图文对齐层处理输出的内容编码作为第一图像的图像内容。其中,电子设备中包括第一多模态大型语言模型,第一多模态大型语言模型是经过训练的第二多模态大型语言模型。
通过第一多模态大型语言模型提取第一图像的图像内容,从而能够提高候选图像内容与第一图像的图像内容之间相似度计算的准确性。
在第一方面的一种可能的实现方式中,如果直接以图像的形式将候选图像内容和图像风格等数据存储到电子设备中,会占据大量的存储空间。因此,图像处理方法还包括:利用第一多模态大型语言模型中的图像编码器和图文对齐层提取候选图像的内容编码,对内容编码进行聚类且对聚类后每个类别进行内容标注,得到候选图像内容;利用第一多模态大型语言模型中的大型语言模型对候选风格描述文本进行文本特征提取后,再利用线性投影层将文本特征进行图文对齐处理得到风格编码,对风格编码进行聚类且对聚类后每个类别进行风格标注,得到候选图像内容对应的图像风格。其中,第一多模态大型语言模型是经过训练的第二多模态大型语言模型;第一多模态大型语言模型包括图像编码器、图文对齐层和大型语言模型。由此,通过第一多模态大型语言模型得到编码形式的候选图像内容和图像风格,并且通过聚类的方式将在同一个簇内的各个候选图像内容和图像风格作为一种候选图像内容和图像风格,从而能够减少所存储的数据量。
在第一方面的一种可能的实现方式中,图像处理方法还包括:对第二多模态大型语言模型进行风格决策因素的分类训练后,再训练第二多模态大型语言模型的图像内容提取能力,得到第一多模态大型语言模型;其中,风格决策因素包括环境、光线、主题中至少一种或多种;第二多模态大型语言模型包括图像编码器、图文对齐层和大型语言模型;其中,图像编码器的输出是图文对齐层的输入,图文对齐层的输出是大型语言模型的输入。
在该实现方式中,通过对第二多模态大型语言模型进行两个阶段的训练来得到第一多模态大型语言模型,使得训练所得到的第一多模态大型语言模型在具备细粒度图像内容的提取能力的同时,还具备提取风格决策因素的能力。
在第一方面的一种可能的实现方式中,一般来说,使用次数越多,表征使用频率越高。反之,使用次数越少,使用频率就越低。因此,电子设备可以通过统计各种图像风格的用户个人使用次数来确定个人使用频率。基于此,获取用户对候选图像风格的个人使用频率,包括:统计候选图像内容对应的每种候选图像风格的用户个人使用次数;对候选图像风格的用户个人使用次数进行归一化计算,得到候选图像风格的个人使用频率。由此,通过统计图像风格的用户个人使用次数来确定个人使用频率,能够确保个人使用频率的准确性。
在第一方面的一种可能的实现方式中,电子设备中还存储有每种候选图像内容对应的每种图像风格的大众使用频率;大众使用频率通过统计每种候选图像内容对应的每种候选图像风格的大众使用次数后进行归一化计算得到;获取用户对候选图像风格的个人使用频率,包括:将对应同一种候选图像风格的大众使用频率和个人使用频率进行加权计算,将得到的加权频率作为候选图像风格最终的个人使用频率。
在该实现方式中,电子设备结合大众使用频率来得到用户最终的个人使用频率,在用户想要参考大众审美或者用户个人使用数据量较少的情况下能够确保个人使用频率的准确性。
在第一方面的一种可能的实现方式中,电子设备中包括第一图像生成模型,第一图像生成模型是经过训练的第二图像生成模型;在用户界面显示第二图像风格的第二图像,包括:将图库内的图像或者电子设备的摄像头实时采集的图像与第二图像风格输入第一图像生成模型,得到并在用户界面显示第二图像。在该实现方式中,利用训练好的神经网络模型能够快速且精准生成第二图像风格的第二图像。
在第一方面的一种可能的实现方式中,图像处理方法还包括:利用噪声图像和风格描述文本对第二图像生成模型进行第一阶段的训练,得到第一阶段图像生成模型;利用第一训练图像和风格描述文本对第一阶段图像生成模型进行第二阶段的训练,得到第二阶段图像生成模型;利用第二训练图像和风格描述文本对第二阶段图像生成模型进行第三阶段的训练,得到第一图像生成模型;其中,第二训练图像的图像风格与所述风格描述文本所描述的图像风格相反。
在第一方面的一种可能的实现方式中,电子设备可以根据喜好程度从候选图像风格中选择至少两种第二图像风格,那么第二图像包括至少两张第二子图像,第二子图像对应不同的第二图像风格。进而,电子设备在用户界面显示第二图像风格的第二图像可以包括:在用户界面显示一张第二子图像;接收用户在用户界面的第三操作,第三操作用于触发电子设备对第二子图像进行切换显示;响应第三操作,切换显示另一张第二子图像。由此可见,该实现方式根据用户个人对候选图像风格的喜好程度匹配至少两种第二图像风格,能够给用户提供更多的风格选择,以满足用户个人审美偏好,提高图像处理的准确性。
在第一方面的一种可能的实现方式中,为了满足用户可以关闭个性化处理的需求,在用户界面显示第二图像风格的第二图像之后,图像处理方法还包括:接收用户在用户界面第四操作,第四操作用于触发电子设备恢复用户界面中图像的图像风格;响应第四操作,在用户界面显示第一图像风格的第一图像。
第二方面,本申请提供一种电子设备,包括:存储器、显示屏和一个或多个处理器,存储器、显示屏与处理器耦合;显示屏用于显示用户界面,存储器中存储一个或多个计算机程序代码,计算机程序代码包括计算机指令;当处理器执行计算机指令时,使得电子设备执行以下步骤:在用户界面显示第一图像风格的第一图像;接收用户在用户界面的第一操作,该第一操作用于触发电子设备转换用户界面中图像的图像风格。然后,电子设备响应于第一操作,提取第一图像的图像内容,将与第一图像的图像内容相似度最高的候选图像内容对应的至少一种图像风格作为候选图像风格。最后获取用户对候选图像风格的喜好程度,根据喜好程度从候选图像风格中选择第二图像风格,在用户界面显示第二图像风格的第二图像;其中,用户界面是可以是电子设备中图库的大图显示页,那么第一图像是图库内的图像,第二图像是将第一图像从第一图像风格转换为第二图像风格得到的图像。或者,用户界面还可以是电子设备拍摄图像的预览界面,那么第一图像是通过采用第一图像风格处理电子设备的摄像头实时采集的图像得到,第二图像通过采用第二图像风格处理电子设备的摄像头实时采集的图像得到。
在第二方面的一种可能的实现方式中,当上述计算机指令被处理器执行时,使得电子设备还执行以下步骤:接收用户在用户界面的第二操作,第二操作用于触发电子设备保存第二图像风格的第二图像;响应第二操作,更新保存的第二图像风格的个人使用频率。
在第二方面的一种可能的实现方式中,当上述计算机指令被处理器执行时,使得电子设备还执行以下步骤:将第一图像输入第一多模态大型语言模型,将经由第一多模态大型语言模型中图像编码器和图文对齐层处理输出的内容编码作为第一图像的图像内容。
在第二方面的一种可能的实现方式中,当上述计算机指令被处理器执行时,使得电子设备还执行以下步骤:利用第一多模态大型语言模型中的图像编码器和图文对齐层提取候选图像的内容编码,对内容编码进行聚类且对聚类后每个类别进行内容标注,得到候选图像内容;利用第一多模态大型语言模型中的大型语言模型对候选风格描述文本进行文本特征提取后,再利用线性投影层将文本特征进行图文对齐处理得到风格编码,对风格编码进行聚类且对聚类后每个类别进行风格标注,得到候选图像内容对应的图像风格。
在第二方面的一种可能的实现方式中,当上述计算机指令被处理器执行时,使得电子设备还执行以下步骤:对第二多模态大型语言模型进行风格决策因素的分类训练后,再训练第二多模态大型语言模型的图像内容提取能力,得到第一多模态大型语言模型;其中,风格决策因素包括环境、光线、主题中至少一种或多种;第二多模态大型语言模型包括图像编码器、图文对齐层和大型语言模型;其中,图像编码器的输出是图文对齐层的输入,图文对齐层的输出是大型语言模型的输入。
在第二方面的一种可能的实现方式中,当上述计算机指令被处理器执行时,使得电子设备还执行以下步骤:统计候选图像内容对应的每种候选图像风格的用户个人使用次数;对候选图像风格的用户个人使用次数进行归一化计算,得到候选图像风格的个人使用频率。
在第二方面的一种可能的实现方式中,当上述计算机指令被处理器执行时,使得电子设备还执行以下步骤:将对应同一种候选图像风格的大众使用频率和个人使用频率进行加权计算,将得到的加权频率作为候选图像风格最终的个人使用频率。
在第二方面的一种可能的实现方式中,当上述计算机指令被处理器执行时,使得电子设备还执行以下步骤:将图库内的图像或者电子设备的摄像头实时采集的图像与第二图像风格输入第一图像生成模型,得到并在用户界面显示第二图像。
在第二方面的一种可能的实现方式中,当上述计算机指令被处理器执行时,使得电子设备还执行以下步骤:利用噪声图像和风格描述文本对第二图像生成模型进行第一阶段的训练,得到第一阶段图像生成模型;利用第一训练图像和风格描述文本对第一阶段图像生成模型进行第二阶段的训练,得到第二阶段图像生成模型;利用第二训练图像和风格描述文本对第二阶段图像生成模型进行第三阶段的训练,得到第一图像生成模型;其中,第二训练图像的图像风格与所述风格描述文本所描述的图像风格相反。
在第二方面的一种可能的实现方式中,当上述计算机指令被处理器执行时,使得电子设备还执行以下步骤:在用户界面显示一张第二子图像;接收用户在用户界面的第三操作,第三操作用于触发电子设备对第二子图像进行切换显示;响应第三操作,切换显示另一张第二子图像。其中,第二子图像对应不同的第二图像风格,根据喜好程度从候选图像风格中选择至少两种第二图像风格。
在第二方面的一种可能的实现方式中,当上述计算机指令被处理器执行时,使得电子设备还执行以下步骤:接收用户在用户界面第四操作,第四操作用于触发电子设备恢复用户界面中图像的图像风格;响应第四操作,在用户界面显示第一图像风格的第一图像。
第三方面,本申请一种计算机可读存储介质,其上存储有计算机程序,当计算机程序被电子设备中的处理器执行时,使得电子设备执行如第一方面及其任一种可能的设计方式的图像处理方法。
第四方面,本申请提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面及其任一种可能的设计方式的方法。该计算机可以是上述电子设备。
可以理解地,上述第二方面其任一种可能的设计方式的电子设备,第三方面的计算机可读存储介质,第四方面的计算机程序产品所能达到的有益效果,可参考如第一方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种不同用户在同一场景下的图像风格偏好示意图;
图2为本申请实施例提供的一种在用户界面进行第一操作的操作示意图;
图3为本申请实施例提供的一种电子设备100的结构示意图;
图4为本申请实施例提供的一种电子设备100的软件结构框图;
图5为本申请实施例提供的一种图像处理方法的流程示意图;
图6为本申请实施例提供的一种多模态大型语言模型的训练示意图;
图7为本申请实施例提供的一种候选图像内容和图像风格的构建流程示意图;
图8为本申请实施例提供的一种线性投影层的训练示意图;
图9为本申请实施例提供的一种第一图像的图像内容提取的示意图;
图10为本申请实施例提供的一种个人频率矩阵示意图;
图11为本申请实施例提供的一种个人数量矩阵示意图;
图12为本申请实施例提供的一种图像生成模型的训练过程示意图;
图13为本申请实施例提供的一种第二图像的切换操作示意图;
图14为本申请实施例提供的另一种图像处理方法的流程示意图;
图15为本申请实施例提供的在用户界面进行第四操作的操作示意图;
图16为本申请实施例提供的另一种图像处理方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例的技术方案进行清楚、完整地描述。其中,在本申请实施例的描述中,以下实施例所使用的术语只是为了描述特定实施例的目的,而并非旨在对本申请的限制。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限电,并且“第一”、“第二”等字样也并不限定一定不同。以及,在本申请实施例的描述中,除非另有说明,“多个”的含义表示两个或两个以上。
随着电子设备技术的发展,越来越多的电子设备都配置有摄像模组供用户拍摄图像。基于用户拍摄需求和审美,在同一场景下用户对拍摄的图像有着不同的图像风格偏好。例如,不同的用户对图像的色调、光线、构图等有着不同的需求。如图1所示,提供一种不同用户在同一场景下的图像风格偏好示意图。其中,图1中的(1a)是用户A在人像场景下偏好的图像风格,图1中的(1b)是用户B在人像场景下偏好的图像风格。由图可知,用户B相比于用户A来说,在人像场景下更加偏好灰度的图像风格。
目前,为了满足用户不同图像风格偏好的需求,电子设备中的相机功能可以根据拍摄物体的类型自动调整亮度或者选择相对应的拍摄模式。例如,在拍摄对象是人物时,电子设备可以对应选择人像模式。在拍摄对象是食物时,电子设备可以对应选择美食模式。电子设备还可以根据其他实际拍摄情况选择微距、夜景等拍摄模式。
然而,现有这种方式主要考虑的是拍摄物体的类型,即拍摄对象的类型,其没有充分考虑到用户个人审美偏好,导致图像处理效果有所偏差,降低了图像处理准确性。
为了解决上述问题,本申请实施例提供一种图像处理方法。该图像处理方法应用于电子设备,以下以电子设备为例对本申请实施例所提供的图像处理方法进行说明。
首先,电子设备响应用户的操作,在用户界面显示第一图像风格的第一图像。其中,用户界面可以是电子设备拍摄图像的预览界面。那么,第一图像可以是电子设备响应用户操作打开相机功能后,相机取景框内所显示的图像。也就是说,第一图像可以是电子设备的摄像头实时所采集的图像。另外,用户界面还可以是电子设备中图库(相册)的大图显示页。那么,第一图像也可以是完成拍摄已经存储好的图像,例如电子设备中保存在图库(相册)内的图像。第一图像风格是电子设备进行图像风格转换之前用户界面中图像的图像风格,可以理解为是原始的图像风格。
然后,电子设备等待接收用户在用户界面的第一操作。其中,第一操作用于触发电子设备转换显示在用户界面中图像的图像风格。在本申请实施例中,图像风格的转换可以理解为是对图像进行个性化风格处理。个性化风格处理是指基于用户个人风格审美偏好对图像进行相应的风格处理,包括图像的色调处理、光线处理等。
其次,由于用户的喜好程度通常能够反应其个人偏好,所以本申请实施例中,电子设备接收到用户在用户界面的第一操作之后,响应该第一操作,根据用户个人对所有候选图像风格的喜好程度匹配符合用户个人风格审美偏好的第二图像风格。其中,候选图像风格通过第一图像的图像内容匹配得到。在电子设备中,预先存储有多种候选图像内容,并且每一种候选图像内容都对应有至少一种图像风格。进而,电子设备接收到第一操作确定需要转换图像风格时,首先提取第一图像的图像内容。然后,电子设备将提取的第一图像的图像内容与存储的多种候选图像内容进行匹配。与该第一图像的图像内容相匹配的候选图像内容所对应的图像风格即为第一图像的图像内容对应的图像风格,本申请实施例称之为候选图像风格。其中,图像内容是否匹配可以通过计算相似度确定,将与第一图像的图像内容相似度最高的候选图像内容对应的图像风格作为候选图像风格。
电子设备得到候选图像风格之后,再根据用户对各个候选图像风格的喜好程度(偏好程度),从候选图像风格中选择图像风格作为第二图像风格。例如,可以在候选图像风格中选择用户喜好程度(偏好程度)最高的图像风格作为符合用户个人审美偏好的第二图像风格。
在本申请实施例中,基于当前用户界面所显示的第一图像的图像内容和用户的喜好程度选择图像风格作为第二图像风格,能够得到更加符合当前所显示图像内容的图像风格,从而在满足用户个人审美偏好的同时,进一步提高图像风格转换处理的准确性。
最后,电子设备根据所匹配到的第二图像风格进行图像风格的转换,转换用户界面中图像的图像风格,将其图像风格转换为选择的第二图像风格。电子设备在图像风格转换完成之后,在用户界面显示第二图像风格的第二图像。
其中,当用户界面是图库(相册)的大图显示页,第一图像是保存在图库(相册)内的图像时,由于此时第一图像是已经拍摄保存好的图像,其图像内容一般情况下是不会变动的。所以,第二图像即是将第一图像从第一图像风格转换到第二图像风格的图像。也就是说,该种情况下,第一图像和第二图像的图像风格不同,但是图像内容完全相同。
而当用户界面是电子设备中相机功能的预览界面时,由于预览界面里取景框内的图像是电子设备的摄像头实时采集的图像。因此,当电子设备被用户手持时,摄像头所采集的图像容易因为用户的动作而造成取景框内的图像内容有所变化。或者,当电子设备摄像头所采集的对象是动态变化的(例如日出、日落等),也会造成取景框内的图像内容有细微的变化。所以,第一图像和第二图像是不同时刻当下电子设备的摄像头实时采集的图像。第一图像和第二图像的图像内容就并非一定完全相同。因此,用户界面所显示的第二图像风格的第二图像不一定就是将第一图像从第一图像风格转换为第二图像风格的图像。此时,第二图像应当是采用第二图像风格处理过的摄像头实时所采集的图像。同理,显示在用户界面的第一图像风格的第一图像是采用第一图像风格处理过的摄像头当下实时所采集的图像。
总结来说,当用户界面为预览界面时,第一图像和第二图像的图像内容均以电子设备的摄像头实时所采集的图像内容为准。在该种情况下,电子设备进行图像风格的转换处理后,第一图像和第二图像除了图像风格不同之外,图像内容可能会完全相同,也可能会因为用户手持动作或摄像头所采集对象的动态变化而有所差异。只有电子设备在图像风格转换前后摄像头实时所采集的图像完全不变的情况下,才可以理解为第二图像是将第一图像从第一图像风格转换到第二图像风格的图像。
示例性的,上述第一操作可以是用户对电子设备上“图像风格处理”按钮/控件的点击操作。上述“图像风格处理”显示在用户界面上,且“图像风格处理”按钮/控件根据用户界面的实际功能界面的设计需求,可以是任何图标或者字符。
电子设备以手机为例,参考图2所示的用户界面,该用户界面为手机中相机的预览界面,“图像风格处理”按钮/控件是图2所示预览界面中的“AI”按钮/控件。因此,当电子设备接收到用户在预览界面对“AI”按钮/控件的打开点击操作(第一操作)后,电子设备开始响应该第一操作,对图2所示预览界面中的人物图像进行风格转换。
示例性的,如图3所示,提供一种电子设备100的结构示意图。
本申请实施例中的电子设备100可以包括手机、照相机、摄像机、可折叠电子设备、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、蜂窝电话、个人数字助理(personaldigital assistant,PDA)、增强现实(augmented reality,AR)设备、虚拟现实(virtualreality,VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备、或智慧城市设备中的至少一种。
本申请实施例对该电子设备的具体类型不作特殊限制。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接头130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像模组193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中,传感器模块180可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
处理器110可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。具体到本申请实施例,可以通过电子设备100的处理器110执行相关指令实现图像风格的转换。即,电子设备的处理器110响应第一操作,提取第一图像得到图像内容,在多种候选图像内容中将与第一图像的图像内容相似度最高的候选图像内容对应的至少一种图像风格作为候选图像风格。然后,处理器110获取用户对候选图像风格的喜好程度,根据喜好程度从候选图像风格中选择第二图像风格。最后在用户界面显示第二图像风格的第二图像。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110用过或使用频率较高的指令或数据。如果处理器110需要使用该指令或数据,可从该存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了***的效率。具体到本申请实施例,存储器可以存储多种候选图像内容,以及存储每种候选图像内容对应的至少一种图像风格。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。处理器110可以通过以上至少一种接口连接触摸传感器、音频模块、无线通信模块、显示屏、摄像模组等模块。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。或将音乐,视频等文件从电子设备传输至外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,该可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如图像拍摄功能、声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能方法或数据处理。
充电管理模块140用于接收充电器的充电输入,为电池142充电。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像模组193,无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
其中,天线1和天线2用于发射和接收电磁波信号。移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),蓝牙低功耗(bluetoothlow energy,BLE),超宽带(ultra wide band,UWB),全球导航卫星***(globalnavigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络和其他电子设备通信。
电子设备100可以通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。具体到本申请实施例,显示屏194可以显示本申请实施例中的用户界面,并且在用户界面中显示第一图像风格的第一图像和第二图像风格的第二图像。显示屏194包括显示面板。在本申请实施例中,显示面板可以采用有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或多个显示屏194。
电子设备100可以通过摄像模组193,ISP,视频编解码器,GPU,显示屏194以及应用处理器AP、神经网络处理器NPU等实现摄像功能。
摄像模组193可用于采集拍摄对象的彩色图像数据以及深度数据。ISP可用于处理摄像模组193采集的彩色图像数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将该电信号传递给ISP处理,转化为肉眼可见的图像(例如本申请实施例中的第一图像和第二图像)。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像模组193中。
在一些实施例中,摄像模组193可以由彩色摄像模组和3D感测模组组成。
在一些实施例中,彩色摄像模组的摄像头的感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。
在一些实施例中,3D感测模组可以是(time of flight,TOF)3D感测模块或结构光(structured light)3D感测模块。其中,结构光3D感测是一种主动式深度感测技术,结构光3D感测模组的基本零组件可包括红外线(Infrared)发射器、IR相机模等。结构光3D感测模组的工作原理是先对被拍摄物体发射特定图案的光斑(pattern),再接收该物体表面上的光斑图案编码(light coding),进而比对与原始投射光斑的异同,并利用三角原理计算出物体的三维坐标。该三维坐标中就包括电子设备100距离被拍摄物体的距离。其中,TOF 3D感测可以是主动式深度感测技术,TOF 3D感测模组的基本组件可包括红外线(Infrared)发射器、IR相机模等。TOF 3D感测模组的工作原理是通过红外线折返的时间去计算TOF 3D感测模组跟被拍摄物体之间的距离(即深度),以得到3D景深图。
结构光3D感测模组还可应用于人脸识别、体感游戏机、工业用机器视觉检测等领域。TOF 3D感测模组还可应用于游戏机、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)等领域。
在另一些实施例中,摄像模组193还可以由两个或更多个摄像头构成。这两个或更多个摄像头可包括彩色摄像头,彩色摄像头可用于采集被拍摄物体的彩色图像数据。这两个或更多个摄像头可采用立体视觉(stereo vision)技术来采集被拍摄物体的深度数据。立体视觉技术是基于人眼视差的原理,在自然光源下,透过两个或两个以上的摄像头从不同的角度对同一物体拍摄影像,再进行三角测量法等运算来得到电子设备100与被拍摄物之间的距离信息,即深度信息。
在一些实施例中,电子设备100可以包括1个或多个摄像模组193。具体的,电子设备100可以包括1个前置摄像模组193以及1个后置摄像模组193。其中,前置摄像模组193通常可用于采集面对显示屏194的拍摄者自己的彩色图像数据以及深度数据,后置摄像模组可用于采集拍摄者所面对的拍摄对象(如人物、风景等)的彩色图像数据以及深度数据。
在一些实施例中,处理器110中的CPU或GPU或NPU可以对摄像模组193所采集的彩色图像数据和深度数据进行处理。在一些实施例中,NPU可以通过骨骼点识别技术所基于的神经网络算法,例如卷积神经网络算法(CNN),来识别摄像模组193(具体是彩色摄像模组)所采集的彩色图像数据,以确定被拍摄对象的图像内容。CPU或GPU也可来运行神经网络算法以实现根据彩色图像数据确定被拍摄对象的图像内容。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
参考图4,为本申请实施例的电子设备100的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android***分为五层,从上至下分别为应用程序层(applications),应用程序框架层(application framework),安卓运行时(Androidruntime,ART)和原生C/C++库,硬件抽象层(Hardware Abstract Layer,HAL)以及内核层(kernel)。
应用程序层可以包括一系列应用程序。如图4所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。如图4所示,应用程序框架层可以包括窗口管理器,内容提供器,视图***,资源管理器,通知管理器,活动管理器,输入管理器等。
窗口管理器提供窗口管理服务(Window Manager Service,WMS),WMS可以用于窗口管理、窗口动画管理、surface管理以及作为输入***的中转站。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。该数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图***包括可视控件,例如显示文字的控件,显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
活动管理器可以提供活动管理服务(Activity Manager Service,AMS),AMS可以用于***组件(例如活动、服务、内容提供者、广播接收器)的启动、切换、调度以及应用进程的管理和调度工作。
输入管理器可以提供输入管理服务(Input Manager Service,IMS),IMS可以用于管理***的输入,例如触摸屏输入、按键输入、传感器输入等。IMS从输入设备节点取出事件,通过和WMS的交互,将事件分配至合适的窗口。
安卓运行时包括核心库和安卓运行时。安卓运行时负责将源代码转换为机器码。安卓运行时主要包括采用提前(ahead or time,AOT)编译技术和及时(just in time,JIT)编译技术。
核心库主要用于提供基本的Java类库的功能,例如基础数据结构、数学、IO、工具、数据库、网络等库。核心库为用户进行安卓应用开发提供了API。
原生C/C++库可以包括多个功能模块。例如:表面管理器(surface manager),媒体框架(Media Framework),libc,OpenGL ES、SQLite、Webkit等。
其中,表面管理器用于对显示子***进行管理,并且为多个应用程序提供了2D和3D图层的融合。媒体框架支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。OpenGL ES提供应用程序中2D图形和3D图形的绘制和操作。SQLite为电子设备100的应用程序提供轻量级关系型数据库。
硬件抽象层运行于用户空间(user space),对内核层驱动进行封装,向上层提供调用接口。硬件抽象层至少包含显示模块、音频模块、摄像头模块、蓝牙模块。
内核层是硬件和软件之间的层,内核层至少包含显示驱动,摄像头驱动,音频驱动,蓝牙驱动。
下面结合捕获拍照场景,示例性说明电子设备100软件以及硬件的工作流程。
当触摸传感器接收到触摸操作,相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标,触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,识别该输入事件所对应的控件。以该触摸操作是触摸单击操作,该单击操作所对应的控件为相机应用图标的控件为例,相机应用调用应用框架层的接口,启动相机应用,进而通过调用内核层启动摄像头驱动,通过摄像模组193捕获静态图像或视频。具体到本申请实施例,摄像模组193所捕获的图像或视频即可视为本申请实施例中的第一图像或第二图像。
如图5所示,提供一种图像处理方法的流程示意图。以下,结合图5对本申请实施例提供的图像处理方法进行详细说明。参考图5,该图像处理方法包括步骤S501-S505。
S501,电子设备在用户界面显示第一图像风格的第一图像。
S502,电子设备接收用户在用户界面的第一操作。
用户界面可以是电子设备中图库的大图显示页,第一图像风格是电子设备进行风格转换之前的图像风格,可以理解为是原始图像风格。第一图像是大图显示页中显示的图像,即保存在图库中的图像。第一图像的图像风格为第一图像风格。
用户界面还可以是电子设备中拍摄图像的预览界面,那么第一图像是电子设备的摄像头当下实时采集的图像,且采用第一图像风格对其进行处理后显示在用户界面,即摄像头实时采集的图像以第一图像风格显示在用户界面中。
第一操作用于触发电子设备转换用户界面中图像的图像风格。例如,将显示在用户界面中的图像从第一图像风格转换为第二图像风格。
S503,电子设备响应第一操作,提取第一图像的图像内容,将与第一图像的图像内容相似度最高的候选图像内容对应的至少一种图像风格作为候选图像风格。
S504,获取用户对候选图像风格的喜好程度,根据喜好程度从候选图像风格中选择第二图像风格。
其中,电子设备中存储有多种候选图像内容,以及每种候选图像内容都对应存储有至少一种图像风格。候选图像内容和图像风格可以理解为是预先存储供电子设备匹配第二图像风格的候选数据。电子设备从存储的图像风格中确定与第一图像的图像内容对应的候选图像风格。
喜好程度用于衡量用户个人对候选图像风格的偏好程度。候选图像风格的喜好程度越高,表征用户拍摄需求和审美更加偏好该候选图像风格。因此,喜好程度越高的候选图像风格更加符合用户个人审美偏好需求。
具体而言,电子设备首先提取第一图像的图像内容,将该图像内容与本地存储的候选图像内容进行匹配,将相匹配的候选图像内容对应的所有图像风格作为本申请实施例的候选图像风格。其中,匹配的过程可以通过计算两个图像内容的相似度确定,电子设备选择与第一图像的图像内容相似度最高的候选图像内容对应的图像风格作为候选图像风格。
示例性的,假设电子设备中存储的候选图像内容包括图像内容1、图像内容2……图像内容n。那么,当第一图像的图像内容与图像内容2的相似度最高时,确定图像内容2对应的图像风格1、图像风格2……图像风格n为候选图像风格。
然后,电子设备根据用户对图像风格1、图像风格2……图像风格n等各个候选风格的喜好程度从中选择图像风格作为第二图像风格。例如,电子设备可以从候选图像风格中筛选用户个人喜好程度最高的图像风格作为本申请实施例所匹配选择的第二图像风格。
在一些实施例中,可以在电子设备本地划分一个存储空间专门用于存储候选图像内容以及与该候选图像内容对应的图像风格。可以理解为,相当于在电子设备本地建立风格库,将确定的候选图像内容和图像风格存储到该风格库中,后续电子设备直接在风格库中匹配第一图像的图像内容对应的候选图像风格。
基于此,如果直接以图像的形式将候选图像内容和图像风格等数据存储到风格库中,必然会占用电子设备大量的存储空间。因此,为了减少本地风格库所存储的数据量,尽可能降低风格库所占用的存储空间。候选图像内容和图像风格可以以编码的形式存储在风格库中,并且可以预先通过聚类的方式对大量的候选图像内容和图像风格进行划分,将聚类后在同一个簇内的各个候选图像内容和图像风格作为一种候选图像内容和图像风格,从而达到减少数据量的目的。
由此,电子设备本地风格库中的多种候选图像内容以及各候选图像内容对应的至少一种图像风格的构建,可以包括:利用第一多模态大型语言模型中的图像编码器和图文对齐层提取候选图像的内容编码,对内容编码进行聚类且对聚类后每个类别进行内容标注,得到候选图像内容;利用第一多模态大型语言模型中的大型语言模型对候选风格描述文本进行文本特征提取后,再利用线性投影层将文本特征进行图文对齐处理得到风格编码,对风格编码进行聚类且对聚类后每个类别进行风格标注,得到候选图像内容对应的图像风格。
其中,电子设备中包括第一多模态大型语言模型,第一多模态大型语言模型是经过训练后的第二多模态大型语言模型。由此可见,第一多模态大型语言模型和第二多模态大型语言模型的结构相同。区别在于第一多模态大型语言模型是训练后的模型,第二多模态大型语言模型是训练之前的模型。由于模型经过训练之后,各结构模块的模型权重会有所更新,所以第一多模态大型语言模型与第二多模态大型语言模型的区别仅在于模型权重不同。
第一多模态大型语言模型和第二多模态大型语言模型的模型结构可以参考现任意一种多模态大型语言模型,例如miniGPT-4模型。多模态大型语言模型是一种输入为图像,输出为文本的多模态神经网络模型。简单来说,第二多模态大型语言模型可以理解为开源的多模态大型语言模型,其具备一定的图像识别问答能力。而本申请实施例中的第一多模态大型语言模型是在第二多模态大型语言模型的基础上,进一步基于实际应用领域(图像风格处理领域)进行针对性训练得到的模型。
在本申请实施例中,多模态大型语言模型包括图像编码器(image encoder)、图文对齐层(image&text alignment)和大型语言模型(large language model)。
图像编码器是用于从图像中提取视觉特征的模块,也可以称为视觉编码器。图文对齐层用于将图像与文本对齐。由于图像和文本是不同模态的数据,所以通常需要通过对齐处理将图像编码器提取的图像特征与文本对齐,从而使得二者能够共同被分析和理解。简单来说,多模态大型语言模型中的图文对齐可以理解为是将图像编码器的输出映射到与大型语言模型相同的维度,使得大型语言模型能够获取图像编码器的输出。大型语言模型可以简称为LLM,是用来从文本中提取语义特征和生成文本的模块。
在多模态大型语言模型中,图像编码器的输入为图像,由图像编码器先对输入的图像进行处理。然后图像编码器的输出是图文对齐层的输入,图文对齐层的输出是大型语言模型的输入。大型语言模型的输出作为多模态大型语言模型的最终输出。
为了便于方案理解,以下先介绍本申请实施例对第二多模态大型语言模型进行训练得到第一多模态大型语言模型的训练过程。
在本申请实施例中,为了提升第二多模态大型语言模型在图像风格处理应用领域的能力,除了训练第二多模态大型语言模型提取细粒度图像内容的能力以外,还训练第二多模态大型语言模型提取风格决策因素的能力。进而,利用训练好的第一多模态大型语言模型实现图像识别问答时,模型输出不仅包括细节丰富图像内容特征,还可以包括风格决策因素来辅助风格库的构建。总结来讲,本申请实施例中第二多模态大型语言模型的训练过程可以包括:对第二多模态大型语言模型进行风格决策因素的分类训练后,再训练第二多模态大型语言模型的图像内容提取能力。
由此可见,第二多模态大型语言模型的训练包括两个训练阶段。第一个训练阶段用于训练第二多模态大型语言模型提取风格决策因素特征的能力。第二个训练阶段训练第二多模态大型语言模型提取细粒度图像内容的能力。其中,风格决策因素包括环境、光线、主题中至少一种或多种。
应当理解的是,由于多模态大型语言模型是一个具有图像理解能力,能够实现图像识别问答的开源聊天机器人模型,其可以描述图像或者回答有关图像内容的问题。所以,无论是多模态大型语言模型的训练还是应用,除了输入图像之外,还需要输入多模态大型语言模型需要回答的问题,才能使得多模态大型语言模型输出相应的图像描述文本。其中,输入的问题需要基于实际应用情况确定,本申请实施例对此不作限定。例如,针对本申请实施例而言,输入的问题可以是“请描述这张图像中的环境/光线/主题”、“请描述这张图像”、“这张图像应该如何修图”、“这张图像适合什么风格”等。
具体的,如图6所示,提供一种多模态大型语言模型的训练示意图。
参考图6,在第一个训练阶段中,由于主要训练多模态大预言模型的风格决策因素特征的提取能力,所以输入给大型语言模型的提问主要是“请描述这张图像中的环境/光线/主题”。相应的,大型语言模型的输出主要就是携带有环境/光线/主题等因素有关的文本描述。
在第二个训练阶段中,由于主要训练图像内容提取能力,输入除了图像以外,输入给大型语言模型的提问相应会变更为“请描述这张图像”、“这张图像应该如何修图”、“这张图像适合什么风格”等。那么大型语言模型相应的输出就是携带有图像内容的文本描述。同时,由于此时多模态大型语言模型已经完成了第一个阶段的训练,所以其输出的文本描述还会包括一些风格决策因素的描述。
另外,应当理解的是,在开源的多模态大型语言模型中,图像编码器和大型语言模型通常都是预训练好的,所以现有多模态大型语言模型的训练大部分主要是训练图文对齐层。因此在模型训练过程中,可以将图像编码器和大型语言模型的模型权重冻结,从而只更新图文对齐层的模型权重。当然同样也可以基于实际情况选择不冻结图像编码器和大型语言模型的参数,使得多模态大型语言模型中各模块的模型权重一并通过训练更新到期望值。本申请实施例图6以只更新图文对齐层的模型权重为例示出。
完成多模态大型语言模型的训练之后,将训练好得到的第一多模态大型语言模型的参数固定。然后,调用第一多模态大型语言模型来构建风格库。
具体的,参考图7,在构建风格库获取候选图像内容和图像风格时,电子设备首先获取到所收集的候选图像和候选风格描述文本。其中,候选图像是收集的用于构建候选图像内容的图像,候选风格描述文本是收集的用于构建图像风格的文本。
将候选图像经过第一多模态大型语言模型中图像编码器和图文对齐层的处理后,得到内容编码。同时,将候选风格描述文本输入到多模态大型语言模型中的大型语言模型提取文本特征后,再输入到额外的线性投影层(projector)进行图文对齐处理得到风格编码。其中,线性投影层与第一多模态大型语言模型中的图文对齐层作用相同,都是用于实现图文对齐的模块。因此,在本申请实施例中,图文对齐层和线性投影层的具体网络结构可以是相同的。
然后,分别对得到的内容编码和风格编码进行聚类,聚类可以采用现有任意一种聚类方法,例如K均值聚类、均值漂移聚类、基于密度的聚类方法等。经过聚类后,内容编码和风格编码会被分为多个簇,也就是划分为多个类别后再对每一簇进行简要的标注。
内容编码簇进行内容标注得到候选图像内容。比如,候选图像内容可以是“自然-动物-特写”、“人像-窗边-过曝”等。风格编码簇同样进行风格标注得到图像风格,比如提升亮度、清晰、鲜明等。其中,内容标注和风格标注可以是人工标注,完成人工标注后将候选图像内容和图像风格存储到电子设备中。
由此,通过预先构建候选图像内容和图像风格存储到电子设备本地风格库中,后续电子设备可以直接从本地风格库中匹配相应的第二图像风格,以提升图像处理的效率。同时,风格库的构建通过聚类实现,能够进一步减少一定的数据量以节省存储空间。
另外,由于本申请实施例中所使用的图像编码器、图文对齐层和大型语言模型为第一多模态大型语言模型中的模块。因为第一多模态大型语言模型是完成训练的模型,所以可以直接调用该些模块使用。但是,线性投影层是为了得到与内容编码对齐的风格编码而额外增加的模块,所以为了使得其具备相应的图文对齐能力,需要联合第一多模态大型语言模型中的各个模块对其进行训练后投入使用。并且,在训练线性投影层时,为了避免训练好的第一多模态大型语言模型中各模块的参数变动,在训练过程中需要将图像编码器、图文对齐层和大型语言模型等模块冻结,使得该些模块不会因为线性投影层的训练而变化。
示例性的,参考图8,线性投影层的训练主要以真假样本(正负样本)通过构建内容编码和风格编码的对比学习实现。其中,真样本包括训练所用的候选图像以及描述该候选图像的风格描述文本。也就是说,真样本中图像内容和风格描述文本是相对应的,二者是相匹配的,那么真样本的标签为“1”表示推荐。假样本则是训练所用的候选图像以及与该候选图像完全无关的风格描述文本。即,假样本中图像内容和风格描述文本是不同的甚至是相反的,表示图像和风格是不对应的,那么假样本的标签为“0”表示不推荐。
然后,利用所构建的真假样本对线性投影层进行训练,并且通过“0/1”标签任务,由真样本引导线性投影层正向学习的同时,利用假样本来协助提升线性投影层的理解,从而提高线性投影层的性能,使得线性投影层能够学习针对不同风格文本描述生成与图像内容对应内容编码相匹配对齐的不同的风格编码。
当线性投影层的训练完成之后,即可与第一多模态大型语言模型中的各个模块联合使用,对收集的任意候选图像和候选风格描述文本进行处理,从而得到对齐的内容编码和风格编码。然后,对该些内容编码和风格编码分别进行聚类得到候选图像内容和图像风格来构建风格库。其中,本申请实施例聚类的数量可以根据实际需求设定,例如根据电子设备的存储空间来确定,可以是200类、100类、50类等,本申请实施例对此不作限定。
在一些实施例中,由于电子设备本地风格库内存储的候选图像内容以第一多模态大型语言模型中图像编码器和图文对齐层处理输出的内容编码表征。那么,为了提高候选图像内容与第一图像的图像内容之间相似度计算的准确性,第一图像的图像内容可以直接调用第一多模态大型语言模型来提取。
基于此,提取第一图像的图像内容,可以包括:将第一图像输入第一多模态大型语言模型,将经由第一多模态大型语言模型中图像编码器和图文对齐层处理输出的内容编码作为第一图像的图像内容。
具体的,电子设备提取第一图像的图像内容时,首先调用训练好的第一多模态大型语言模型。电子设备调用到第一多模态大型语言模型之后,将第一图像输入至第一多模态大型语言模型。由于本申请实施例只需要获取第一图像的图像内容,因此直接获取第一多模态大型语言模型中图文对齐层的输出即可。也就是说,只需要获取经由第一多模态大型语言模型中图像编码器和图文对齐层处理后输出的内容编码即可。如图9所示,本申请实施例提供一种图像内容提取的示意图。
在一些实施例中,一般来说,用户对图像风格使用越为频繁表征用户对该图像风格的喜好程度越高。因此,本申请实施例中用户个人对图像风格的喜好程度可以以用户对候选图像风格的个人使用频率来衡量。基于此,电子设备中还存储有每种候选图像内容对应的每种图像风格的个人使用频率。用户的个人使用频率可以是电子设备基于用户历史所选择使用图像风格的行为统计得到的频率。
具体而言,候选图像内容、图像风格以及个人使用频率可以采用矩阵的形式存储在电子设备本地的风格库中,该矩阵本申请实施例称为个人频率矩阵。
示例性的,参考图10,个人频率矩阵的每一行表示一个候选图像内容,每一列表示一种图像风格,矩阵元素则表示候选图像内容与其对应的图像风格的个人使用频率。即,图10中的图像内容1、图像内容2、图像内容3……图像内容n为候选图像内容。图像风格1、图像风格2……图像风格n为各个候选图像内容对应的图像风格。而矩阵元素11、12、……1n、21、22、……2n、31、32、3n、……n1、n2、nn等表示个人使用频率。
电子设备确定第一图像的图像内容对应的候选图像风格之后,基于各个候选图像风格的个人使用频率从候选图像风格中选择图像风格作为第二图像风格。一般而言,使用越频繁的图像风格往往是用户越喜爱的图像风格。因此,电子设备可以通过比较第一图像的图像内容对应的所有候选图像风格的个人使用频率,从中将个人使用频率最高的图像风格作为第二图像风格。例如,假设与第一图像的图像内容相似度最高的候选图像内容是图10中的图像内容1,那么对应的候选图像风格的个人使用频率包括11、12、…、1n。当其中的个人使用频率12为最大值时,电子设备则可以将个人使用频率12对应的图像风格2作为第二图像风格。
在一些实施例中,使用次数越多,表征使用频率越高。反之使用次数越少,使用频率就越低。因此,电子设备可以通过统计各种图像风格的用户个人使用次数来确定个人使用频率。
基于此,候选图像风格的个人使用频率的获取,可以包括:统计候选图像内容对应的每种候选图像风格的用户个人使用次数;对候选图像风格的用户个人使用次数进行归一化计算,得到候选图像风格的个人使用频率。
具体的,电子设备根据用户针对候选图像内容历史所选择的图像风格,统计候选图像内容对应的每种图像风格的用户个人使用次数。
示例性的,以图10所示候选图像内容和图像风格为例,假设历史用户针对图像内容1选择使用了3次图像风格1,则图像风格1在图像内容1下,其对应的用户个人使用次数是3。而假设历史用户针对图像内容2选择使用了2次图像风格1,则图像风格1在图像内容2下,其对应的用户个人使用次数是2。然后,电子设备分别对每种候选图像内容所对应的所有图像风格的用户个人使用次数进行归一化计算,从而得到各个候选图像内容所对应的各图像风格的个人使用频率。
在本申请实施例中,用户个人使用次数同样可以利用矩阵表示,本申请实施例称为个人数量矩阵。如图11所示,提供一种个人数量矩阵示意图。
参考图11,个人数量矩阵与个人频率矩阵不同的是,个人数量矩阵的矩阵元素表征用户个人使用次数。例如,个人数量矩阵中第一行矩阵元素表征图像内容1下用户历史使用各个图像风格的次数。也就是说,电子设备建立数量矩阵之后,矩阵中元素初始取值为0。电子设备根据用户针对不同候选图像内容所选择的图像风格更新数量矩阵中的矩阵元素。相当于电子设备每检测到用户针对一种候选图像内容选择了一种图像风格之后,该候选图像内容和图像风格对应的矩阵元素的数值递增1。
例如,参考图11,当用户针对图像内容1选择使用了一次图像风格1,那么使用次数11递增1。如果使用次数11当前为初始取值0,则使用次数11递增后更新为1。如果使用次数11当前为2,则使用次数11递增后更新为3,以此类推。
然后,电子设备对个人数量矩阵中的每一行矩阵元素分别进行归一化计算,从而可以得到个人频率矩阵。为了保证个人频率矩阵的精准性,个人数量矩阵一旦存在次数更新,电子设备则需要重新计算一次图像风格的个人使用频率,同时完成个人频率矩阵的更新。应当理解的是,在个人数量矩阵和个人频率矩阵中,以矩阵行表示图像内容,矩阵列表示图像风格是本申请实施例示例所用,本申请实施例对此不作限定。基于使用需求,同样可以用矩阵行表示图像风格,矩阵列表示图像内容,其不影响本申请实施例的实现。
在一些实施例中,针对用户想要参考大众审美或者用户个人使用数据量较少的情况,电子设备在本地风格库中选择图像风格作为第二图像风格时,除了考虑用户个人审美以外,还可以一并考虑大众审美。因此,电子设备中还可以预先存储每种候选图像内容对应的每种图像风格的大众使用频率。
其中,大众使用频率表征大众对图像风格的偏好,根据大众使用频率可以确定大部分用户针对某一图像内容时常用的图像风格。在本申请实施例中,大众使用频率的统计方式与个人使用频率的统计方式相似,其是通过统计大众针对候选图像内容所选择使用图像风格的次数(即大众使用次数)后,对候选图像内容对应的图像风格的大众使用次数进行归一化计算得到的频率。
具体而言,当确定候选图像内容和图像风格之后,同样可以基于候选图像内容和图像风格建立一个数量矩阵作为大众数量矩阵。然后,基于所收集到的公开图像数据,统计候选图像内容和图像风格的共现次数,将共现次数作为大众使用次数填入大众数量矩阵中的对应位置。进而再基于大众数量矩阵进行归一化计算得到大众频率矩阵,将大众频率矩阵存储到电子设备本地中。
也就是说,个人数量矩阵和个人频率矩阵是由电子设备基于用户针对候选图像内容使用图像风格的行为实时进行维护更新的矩阵。而大众频率矩阵是在得到候选图像内容和图像风格后,预先根据所采集的公开图像数据统计候选图像内容和图像风格共现的计数来构建得到大众数量矩阵,再对大众数量矩阵的行进行归一化计算得到。由于大众频率矩阵是基于收集的现有公开的图像数据构建,所以大众频率矩阵中的频率可以表征大众针对不同图像内容使用图像风格的偏好。
基于此,候选图像风格的个人使用频率的获取,还可以包括:将对应同一种候选图像风格的大众使用频率和用户个人使用频率进行加权计算,将得到的加权频率作为候选图像风格最终的个人使用频率。
具体的,电子设备确定与第一图像的图像内容对应的各个候选图像风格的喜好程度时,除了从存储的个人频率矩阵中获取对应候选图像风格的个人使用频率,还需要从本地存储的大众频率矩阵中获取对应的候选图像风格的大众使用频率。然后,将属于同一种候选图像风格的大众使用频率和个人使用频率进行加权计算。电子设备将加权计算后所得到加权频率作为该候选图像风格最终的个人使用频率,利用该候选图像风格最终的个人使用频率衡量用户对该候选图像风格的喜好程度。
也就是说,在不考虑大众审美偏好的情况下,电子设备可以直接基于个人频率矩阵中候选图像风格的个人使用频率为指标来选择第二图像风格。而在考虑大众审美偏好的情况下,电子设备则在获取个人频率矩阵中该候选图像风格的个人使用频率的同时,还需要获取大众频率矩阵中该候选图像风格的大众使用频率。然后同一个候选图像风格对应的个人使用频率和大众使用频率进行加权计算,从而得到该候选图像风格最终用于衡量用户喜好程度的个人使用频率。即电子设备以加权后得到的个人使用频率为指标来选择第二图像风格。
其中,加权计算中大众使用频率和个人使用频率的权重占比可以先设定一个初始权重,比如各为0.5。后续电子设备可以一直使用设定的初始权重进行加权,也可以由电子设备基于用户使用图像风格的情况对权重占比进行调整更新。例如,当电子设备连续多次统计到用户针对某一候选图像内容都固定使用某一种图像风格时,那么针对该候选图像内容下,该图像风格的个人使用频率的权重占比可以相应提高。
示例性的,假设候选图像风格中图像风格1对应的大众使用频率为A,个人使用频率为B。以初始权重0.5为例计算,则图像风格1最终的用户个人使用频率为0.5A+0.5B。
S505,电子设备在用户界面显示第二图像风格的第二图像。
具体的,电子设备从本地的风格库中匹配选择到第二图像风格后,则可以转换用户界面中显示的第一图像的图像风格,从而生成并显示第二图像风格的第二图像。
当用户界面是图库(相册)的大图显示页,第一图像是保存在图库(相册)内的图像时,第二图像则是将第一图像从第一图像风格转换到第二图像风格的图像。当用户界面是电子设备中相机功能的预览界面,第一图像是当下电子设备的摄像头实时采集的图像时,第二图像则是采用第二图像风格处理过的摄像头实时所采集的图像。
在一些实施例中,为了快速且精准生成第二图像风格的第二图像,第二图像的生成可以利用训练好的神经网络模型实现。
基于此,S505可以包括:将图库内的图像或者电子设备的摄像头实时采集的图像与第二图像风格输入第一图像生成模型,得到并在用户界面显示所述第二图像。
其中,电子设备中包括第一图像生成模型,第一图像生成模型是经过训练后的第二图像生成模型。第二图像生成模型可以理解为开源未经过本申请实施例训练的图像生成模型。虽然现有开源的图像生成模型,例如扩散模型、生成对抗模型(GAN)等已经具备一定的图像生成能力,可以直接使用其生成图像。但是开源图像生成模型的图像生成能力不一定能够满足本申请实施例所需图像风格转换的期望。
因此,为了使得图像生成模型能够具备足够的图像风格转换能力,本申请实施例需要对第二图像生成模型进行模型训练得到第一图像生成模型。
为了便于方案理解,以下本申请实施例先介绍对第二图像生成模型进行训练得到第一图像生成模型的训练过程。
如图12所示,图像生成模型的训练过程主要包括三个训练阶段。
首先,基于图像风格对第二图像生成模型进行微调。在该训练步骤中,以不带有任何图像内容的噪声图像和风格描述文本作为训练数据对第二图像生成模型进行第一阶段的训练。第一阶段的训练目的主要在于让第二图像生成模型能够认识各种风格的文本描述。本申请实施例的风格描述文本可以通过收集、爬取各种图像(该图像在本申请实施例中称为第一训练图像)后,基于该第一训练图像实际的图像风格形成风格描述文本,从而得到各种图像风格的文本描述。也可以人工构造一些风格描述文本作为训练数据。
示例性的,参考图12,将噪声图像和风格文本描述“这是一张暖色调的图”输入至图像生成模型,由图像生成模型输出暖色调图像。经过第一阶段训练后的图像生成模型本申请实施例称为第一阶段图像生成模型。
然后,对第一阶段图像生成模型的图像风格转换能力进行预训练。在该训练步骤中,以带有图像内容的图像,例如第一阶段所收集的第一训练图像和风格描述文本作为训练数据,对第一阶段图像生成模型进行第二阶段的训练。第二阶段训练的目的主要在于训练图像生成模型的图像风格转换能力,其需要在保证图像内容不变的情况下对图像进行风格转换。其中,为了保证训练能够有大量训练数据支撑,第一训练图像可以经过一些预处理增加第一训练图像数据集的数据量。例如可以对第一训练图像进行加噪、RGB shift(RGB移位)等操作。示例性的,参考图12,将第一训练图像和风格文本描述“这是一张暖色调的图”输入至图像生成模型,由图像生成模型输出暖色调图像。经过第二阶段训练后的图像生成模型本申请实施例称为第二阶段图像生成模型。
最后,对第二阶段图像生成模型的图像生成能力进行微调。在该训练步骤中,收集带有强烈风格色彩的图像(该图像在本申请实施例中称为第二训练图像)。将第二训练图像和与该第二训练图像对应图像风格完全相反的图像风格的文本描述作为训练数据对第二阶段图像生成模型进行第三阶段的训练,从而得到训练完成的第一图像生成模型。
第三阶段训练的目的主要在于增强图像生成模型的风格转换能力。示例性的,参考图12,将冷色调图像和风格文本描述“这是一张暖色调的图”输入至图像生成模型,由图像生成模型输出暖色调图像。
由此可见,由于第一图像生成模型是经过三个阶段训练后的第二图像生成模型,所以第一图像生成模型和第二图像生成模型的模型结构实质上是相同的,区别仅在于模型权重不同。第一图像生成模型和第二图像生成模型的模型结构可以是现有任意一种能够合成图像的生成模型,例如扩散模型,生成对抗模型(GAN)等模型的模型结果。
完成模型训练后,将训练得到的第一图像生成模型部署到电子设备中。之后,电子设备即可以直接调用第一图像生成模型生成带有第二图像风格的第二图像。
具体而言,电子设备将原始图像和图像风格输入给调用的第一图像生成模型。其中,原始图像即为本申请实施例中用户界面显示的第一图像,该第一图像随着用户界面的不同,可能是图库内的图像也可能是摄像头实时采集的图像。输入给第一图像生成模型的图像风格即为电子设备从风格库中匹配选择到的第二图像风格。
也就是说,电子设备调用第一图像生成模型,将用户界面显示的第一图像和所匹配选择的第二图像风格输入该第一图像生成模型。由第一图像生成模型生成带有第二图像风格的第二图像。
在第一图像是图库内的图像时,第一图像生成模型输出的第二图像即为带有第二图像风格的第一图像。在第一图像是预览界面中摄像头实时采集的图像时,那么第一图像生成模型输出的第二图像即为带有第二图像风格的摄像头实时采集的图像。
在一些实施例中,由于电子设备一直被用户使用,所以电子设备中存储的各个图像风格的用户个人使用次数随时都可能会更新。那么在个人数量矩阵在矩阵元素更新后,电子设备应当需要重新进行归一化计算完成个人频率矩阵的更新。
基于此,当电子设备接收到用户在用户界面的第二操作时,电子设备响应第二操作,更新用户所触发保存的第二图像风格的个人使用频率。其中,该第二操作是用于触发电子设备保存第二图像风格的第二图像。
示例性的,参考图10和图11,当电子设备检测到第二操作对应保存的第二图像所对应的第二图像风格为图像内容1下的图像风格1时,则在图11所示个人数量矩阵中将使用次数11递增1,从而基于用户的本次保存操作完成个人数量矩阵中用户个人使用次数的更新。
然后,由于图11所示个人数量矩阵被更新,电子设备则需要基于更新后的个人数量矩阵重新进行归一化计算,以完成个人使用频率的更新,即完成图10所示个人频率矩阵的更新。由于本次更新的是图像内容1下图像风格1的使用次数,那么被更新的个人使用频率为图像内容1下的所有图像风格的个人使用频率,即个人使用频率11、个人使用频率12……个人使用频率1n会被更新。在本申请实施例中,通过用户使用行为及时更新用户的个人使用频率,从而便于下次可以基于最新的个人使用频率匹配图像风格,以提高匹配的准确性。
在一些实施例中,为了给用户更多的风格选择,可以根据用户个人对候选图像风格的喜好程度匹配至少两种第二图像风格。那么,相对应的第二图像包括至少两张。为了便于描述,在至少两张第二图像的情况下,本申请实施例称其为第二子图像,不同的第二子图像对应不同的第二图像风格。
示例性的,当电子设备根据喜好程度(个人使用频率)从候选图像风格中匹配到图像风格1和图像风格2这两种第二图像风格,那么生成的第二图像则包括第二子图像A和第二子图像B。其中,第二子图像A对应图像风格1,也就是说第二子图像A是带有图像风格1的图像。第二子图像B对应图像风格2,第二子图像B是带有图像风格2的图像。
基于此,电子设备在用户界面显示带有第二图像风格的第二图像可以包括:在用户界面显示一张第二子图像,接收用户在用户界面的第三操作;响应第三操作,切换显示另一张第二子图像。其中,第三操作是用于触发切换第二子图像显示的操作。
具体的,当电子设备基于所匹配的至少两种第二图像风格分别生成了对应的第二子图像之后,电子设备可以先在显示屏上显示其中任意一张第二子图像,也可以按照第二图像风格对应的个人使用频率从高到低优先显示高个人使用频率对应的第二子图像。
然后,电子设备等待接收用户在用户界面的第三操作,响应该第三操作,切换显示另一张第二子图像。
示例性的,参考图13,第三操作可以是滑动操作,电子设备响应用户左右滑动操作切换显示不同的第二子图像。即,电子设备可以接收用户在取景框20内的滑动操作。当用户的滑动操作是向左滑动时,电子设备显示下一张第二子图像。当用户的滑动操作是向右滑动时,电子设备显示上一张第二子图像。
在一些实施例中,参考图14,为了满足用户可以关闭个性化处理的需求,在S505之后,图像处理方法还包括:
S506,电子设备接收用户在用户界面的第四操作。
S507,电子设备响应第四操作,在用户界面显示第一图像风格的第一图像。
具体的,第四操作是用于触发电子设备关闭个性化风格处理的点击操作,也就是用于触发电子设备恢复用户界面中图像的图像风格。第一操作是用于触发电子设备对第一图像进行个性化风格处理的点击操作。由此可知,第四操作所触发的事项与第一操作所触发的事项是相反的。电子设备响应用户的第四操作,关闭个性化风格处理,电子设备重新恢复显示原始图像(即重新在用户界面显示带有第一图像风格的第一图像)。
示例性的,第四操作同样可以是用户对电子设备上“图像风格处理”按钮/控件的点击操作。参考图15,“图像风格处理”按钮/控件同样可以是“AI”按钮/控件,且该“AI”按钮/控件当前处于打开状态。因此,当电子设备在“AI”按钮/控件打开状态下接收到用户对“AI”按钮/控件的关闭点击操作(第四操作)后,电子设备关闭对图15所示预览界面取景框20内的人物图像进行个性化风格处理,重新显示原始的带有第一图像风格的第一图像(参考图2)。
在一些实施例中,如图16所示,提供一种图像处理方法的流程示意图。以下,以图16为例对本申请实施例的图像处理方法进行说明。
具体的,电子设备在用户界面显示第一图像风格的第一图像后,等待接收用户的第一操作。当电子设备接收到用户在用户界面的第一操作后,响应第一操作提取第一图像的图像内容。其中,图像内容的提取可以调用第一多模态大型语言模型实现。将第一图像输入第一多模态大型语言模型后,获取经过第一多模态大型语言模型中图像编码器和图文对齐层输出的内容编码作为第一图像的图像内容。参考图16,所提取的图像内容为“户外+人物”。
然后,电子设备利用该图像内容在本地风格库中匹配选择第二图像风格。电子设备先匹配与图像内容相似度最高的候选图像内容,将该候选图像内容对应的图像风格作为该图像内容的候选图像风格。基于该候选图像风格的个人使用频率匹配一定数量的第二图像风格。参考图16,为图像内容“户外+人物”所匹配的第二图像风格包括“鲜明”和“清晰”。
最后,电子设备将第一图像和匹配选择的第二图像风格输入到训练好的第一图像生成模型中,有第一图像生成模型生成并输出带有第二图像风格的第二图像,并显示在用户界面。参考图16,本申请实施例是以图像风格转换前后摄像头所采集图像未变的情况下示意了第二图像,即第二图像与第一图像的图像内容相同,都是图16所示的人物。
另外,电子设备在用户界面显示第二图像风格的第二图像之后,电子设备还可以响应用户在取景框内进行左右滑动的操作,即电子设备响应第三操作切换显示下一张第二图像。例如,电子设备先显示图像风格为“鲜明”的第二图像。电子设备接收到用户的第三操作后,响应第三操作显示图像风格为“清晰”的第二图像。
同时,用户在不满意所有推荐第二图像风格的情况下,电子设备还可以响应用户的第四操作,关闭个性化风格处理,重新显示第一图像风格的第一图像。
本申请另一实施例提供一种电子设备,该电子设备包括:存储器、显示屏和一个或多个处理器,存储器、显示屏与处理器耦合;显示屏用于显示用户界面,存储器中存储有一个或多个计算机程序代码,计算机程序代码包括计算机指令;当处理器执行计算机指令时,使得电子设备实现上述任一实施例所述的图像处理方法。
本申请另一实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,当计算机程序被电子设备中的处理器执行时,使得电子设备实现上述任一实施例所述的图像处理方法。
本申请实施例还提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述方法实施例中的各个功能或者步骤。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read on ly memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (13)
1.一种图像处理方法,其特征在于,应用于电子设备,所述电子设备中存储有多种候选图像内容,以及每种所述候选图像内容对应至少一种图像风格,所述方法包括:
在用户界面显示第一图像风格的第一图像;
接收用户在所述用户界面的第一操作,所述第一操作用于触发所述电子设备转换所述用户界面中图像的图像风格;
响应于所述第一操作,提取所述第一图像的图像内容,将与所述第一图像的图像内容相似度最高的所述候选图像内容对应的至少一种图像风格作为候选图像风格;
获取所述用户对所述候选图像风格的喜好程度,根据所述喜好程度从所述候选图像风格中选择第二图像风格;
在所述用户界面显示所述第二图像风格的第二图像;
其中,所述用户界面是所述电子设备中图库的大图显示页,所述第一图像是所述图库内的图像,所述第二图像是将所述第一图像从所述第一图像风格转换为所述第二图像风格得到的图像;或者,所述用户界面是所述电子设备拍摄图像的预览界面,所述第一图像通过采用所述第一图像风格处理所述电子设备的摄像头实时采集的图像得到,所述第二图像通过采用所述第二图像风格处理所述电子设备的摄像头实时采集的图像得到。
2.根据权利要求1所述的方法,其特征在于,所述用户对所述候选图像风格的喜好程度为:所述候选图像风格的个人使用频率;其中,所述电子设备中还存储有每种所述候选图像内容对应的每种所述图像风格的个人使用频率;
在所述用户界面显示所述第二图像风格的第二图像之后,所述方法还包括:
接收所述用户在所述用户界面的第二操作,所述第二操作用于触发所述电子设备保存所述第二图像风格的第二图像;
响应所述第二操作,更新保存的所述第二图像风格的个人使用频率。
3.根据权利要求1所述的方法,其特征在于,所述电子设备中包括第一多模态大型语言模型,所述第一多模态大型语言模型是经过训练的第二多模态大型语言模型;
所述提取所述第一图像的图像内容,包括:
将所述第一图像输入所述第一多模态大型语言模型,将经由所述第一多模态大型语言模型中图像编码器和图文对齐层处理输出的内容编码作为所述第一图像的图像内容。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述电子设备中包括第一多模态大型语言模型,所述第一多模态大型语言模型是经过训练的第二多模态大型语言模型;所述第一多模态大型语言模型包括图像编码器、图文对齐层和大型语言模型;
所述方法还包括:
利用所述第一多模态大型语言模型中的所述图像编码器和所述图文对齐层提取候选图像的内容编码,对所述内容编码进行聚类且对聚类后每个类别进行内容标注,得到候选图像内容;
利用所述第一多模态大型语言模型中的所述大型语言模型对候选风格描述文本进行文本特征提取后,再利用线性投影层将所述文本特征进行图文对齐处理得到风格编码,对所述风格编码进行聚类且对聚类后每个类别进行风格标注,得到所述候选图像内容对应的图像风格。
5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
对所述第二多模态大型语言模型进行风格决策因素的分类训练后,再训练所述第二多模态大型语言模型的图像内容提取能力,得到所述第一多模态大型语言模型;
其中,所述风格决策因素包括环境、光线、主题中至少一种或多种;所述第二多模态大型语言模型包括图像编码器、图文对齐层和大型语言模型;其中,所述图像编码器的输出是所述图文对齐层的输入,所述图文对齐层的输出是所述大型语言模型的输入。
6.根据权利要求2所述的方法,其特征在于,获取所述用户对所述候选图像风格的个人使用频率,包括:
统计所述候选图像内容对应的每种所述候选图像风格的用户个人使用次数;
对所述候选图像风格的所述用户个人使用次数进行归一化计算,得到所述候选图像风格的个人使用频率。
7.根据权利要求2或6所述的方法,其特征在于,所述电子设备中还存储有每种所述候选图像内容对应的每种所述图像风格的大众使用频率;所述大众使用频率通过统计所述候选图像内容对应的每种候选图像风格的大众使用次数后进行归一化计算得到;
所述获取所述用户对所述候选图像风格的个人使用频率,包括:
将对应同一种所述候选图像风格的所述大众使用频率和所述个人使用频率进行加权计算,将得到的加权频率作为所述候选图像风格最终的个人使用频率。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述电子设备中包括第一图像生成模型,所述第一图像生成模型是经过训练的第二图像生成模型;
所述在所述用户界面显示所述第二图像风格的第二图像,包括:
将所述图库内的图像或者所述电子设备的摄像头实时采集的图像与所述第二图像风格输入所述第一图像生成模型,得到并在所述用户界面显示所述第二图像。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
利用噪声图像和风格描述文本对所述第二图像生成模型进行第一阶段的训练,得到第一阶段图像生成模型;
利用第一训练图像和所述风格描述文本对所述第一阶段图像生成模型进行第二阶段的训练,得到第二阶段图像生成模型;
利用第二训练图像和所述风格描述文本对所述第二阶段图像生成模型进行第三阶段的训练,得到第一图像生成模型;其中,所述第二训练图像的图像风格与所述风格描述文本所描述的图像风格相反。
10.根据权利要求1-9任一项所述的方法,其特征在于,根据所述喜好程度从所述候选图像风格中选择至少两种第二图像风格,所述第二图像包括至少两张第二子图像,所述第二子图像对应不同的所述第二图像风格;
所述在所述用户界面显示所述第二图像风格的第二图像,包括:
在所述用户界面显示一张所述第二子图像;
接收所述用户在所述用户界面的第三操作,所述第三操作用于触发所述电子设备对所述第二子图像进行切换显示;
响应所述第三操作,切换显示另一张所述第二子图像。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述在所述用户界面显示所述第二图像风格的第二图像之后,所述方法还包括:
接收所述用户在所述用户界面第四操作,所述第四操作用于触发所述电子设备恢复所述用户界面中图像的图像风格;
响应所述第四操作,在所述用户界面显示所述第一图像风格的第一图像。
12.一种电子设备,其特征在于,包括:存储器、显示屏和一个或多个处理器,所述存储器、所述显示屏与所述处理器耦合;所述显示屏用于显示用户界面,所述存储器中存储有一个或多个计算机程序代码,所述计算机程序代码包括计算机指令;当所述处理器执行所述计算机指令时,使得所述电子设备执行如权利要求1-11中任一项所述的图像处理方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被电子设备的处理器执行时,使得所述电子设备执行如权利要求1-11中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311044671.3A CN117729421A (zh) | 2023-08-17 | 2023-08-17 | 图像处理方法、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311044671.3A CN117729421A (zh) | 2023-08-17 | 2023-08-17 | 图像处理方法、电子设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117729421A true CN117729421A (zh) | 2024-03-19 |
Family
ID=90202178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311044671.3A Pending CN117729421A (zh) | 2023-08-17 | 2023-08-17 | 图像处理方法、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117729421A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057527A1 (en) * | 2017-08-17 | 2019-02-21 | Adobe Systems Incorporated | Digital Media Environment for Style-Aware Patching in a Digital Image |
CN110599393A (zh) * | 2019-09-06 | 2019-12-20 | 深圳前海微众银行股份有限公司 | 图片风格转换方法、装置、设备及计算机可读存储介质 |
US20210390247A1 (en) * | 2020-06-11 | 2021-12-16 | Capital One Services, Llc | Systems and methods for generating customized content based on user preferences |
CN113841179A (zh) * | 2019-04-29 | 2021-12-24 | 商汤集团有限公司 | 图像生成方法及装置、电子设备及存储介质 |
US20220067421A1 (en) * | 2018-12-21 | 2022-03-03 | Samsung Electronics Co., Ltd. | Image processing apparatus and method for style transformation |
-
2023
- 2023-08-17 CN CN202311044671.3A patent/CN117729421A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057527A1 (en) * | 2017-08-17 | 2019-02-21 | Adobe Systems Incorporated | Digital Media Environment for Style-Aware Patching in a Digital Image |
US20220067421A1 (en) * | 2018-12-21 | 2022-03-03 | Samsung Electronics Co., Ltd. | Image processing apparatus and method for style transformation |
CN113841179A (zh) * | 2019-04-29 | 2021-12-24 | 商汤集团有限公司 | 图像生成方法及装置、电子设备及存储介质 |
CN110599393A (zh) * | 2019-09-06 | 2019-12-20 | 深圳前海微众银行股份有限公司 | 图片风格转换方法、装置、设备及计算机可读存储介质 |
US20210390247A1 (en) * | 2020-06-11 | 2021-12-16 | Capital One Services, Llc | Systems and methods for generating customized content based on user preferences |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113810587B (zh) | 一种图像处理方法及装置 | |
WO2021027476A1 (zh) | 语音控制设备的方法及电子设备 | |
CN113453040B (zh) | 短视频的生成方法、装置、相关设备及介质 | |
WO2021244457A1 (zh) | 一种视频生成方法及相关装置 | |
CN111541907B (zh) | 物品显示方法、装置、设备及存储介质 | |
CN110377204B (zh) | 一种生成用户头像的方法及电子设备 | |
CN110471606B (zh) | 输入方法及电子设备 | |
CN113382154A (zh) | 基于深度的人体图像美化方法及电子设备 | |
CN112262563A (zh) | 图像处理方法及电子设备 | |
CN111984763B (zh) | 一种答问处理方法及智能设备 | |
WO2021180046A1 (zh) | 图像留色方法及设备 | |
CN112269853A (zh) | 检索处理方法、装置及存储介质 | |
CN114782296B (zh) | 图像融合方法、装置及存储介质 | |
CN116048244A (zh) | 一种注视点估计方法及相关设备 | |
CN114330374A (zh) | 融合场景感知机器翻译方法、存储介质及电子设备 | |
CN115115679A (zh) | 一种图像配准方法及相关设备 | |
WO2022068522A1 (zh) | 一种目标跟踪方法及电子设备 | |
WO2021254113A1 (zh) | 一种三维界面的控制方法和终端 | |
CN112528760B (zh) | 图像处理方法、装置、计算机设备及介质 | |
WO2023216957A1 (zh) | 一种目标定位方法、***和电子设备 | |
CN114444000A (zh) | 页面布局文件的生成方法、装置、电子设备以及可读存储介质 | |
CN113536834A (zh) | 眼袋检测方法以及装置 | |
CN116861066A (zh) | 应用推荐方法和电子设备 | |
CN117729421A (zh) | 图像处理方法、电子设备和计算机可读存储介质 | |
CN115734032A (zh) | 视频剪辑方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |