CN112839185A

CN112839185A - 用于处理图像的方法、装置、设备和介质

Info

Publication number: CN112839185A
Application number: CN202011356738.3A
Authority: CN
Inventors: 杜宇宁; 杨烨华; 魏胜禹; 郭若愚; 刘其文; 赵乔; 毕然; 胡晓光; 于佃海; 马艳军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-05-25
Anticipated expiration: 2040-11-27
Also published as: JP7320570B2; CN112839185B; EP3913533A3; JP2021182441A; EP3913533A2; US20210374490A1; KR20210116371A

Abstract

本申请公开了用于处理图像的方法、装置、设备和介质，涉及人工智能尤其深度学习、图像处理领域。该处理图像方法包括确定图像的背景图像，背景图像描述了相对于图像中的字符的背景。该方法还包括确定与图像中的选定的字符部分相对应的字符的属性。该方法还包括将选定的字符部分替换为背景图像中的对应部分以获取经调整的图像。该方法还包括基于属性，将获取的目标字符组合到经调整的图像。通过该方法，可以显著的改进针对不同场景的图像数量不足的问题，增加了可使用的图片的数量，节省了用于标注图像的时间和成本。

Description

用于处理图像的方法、装置、设备和介质

技术领域

本公开的实施例主要涉及人工智能领域，并且更具体地，涉及深度学习和图像处理领域的用于处理图像的方法、装置、设备和介质。

背景技术

图像处理是利用计算机对图像进行分析，以获得所需结果。随着人工智能的发展，图像成为计算机获取信息的重要途径。为了更好的处理图像，在机器学习领域中各种处理图像的方法得到了快速的发展。

深度学习(Deep Learning，DL)是机器学习领域中一个新的研究方向。深度学习是机器学习的一种，其可以用于处理各种图像。深度学习技术在对图像处理以执行各种任务时，不仅需要好的算法模型，还需要高质量的图像数据。

发明内容

本公开提供了一种用于处理图像的方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种用于处理图像的方法。该方法包括确定图像的背景图像，背景图像描述了相对于图像中的字符的背景。该方法还包括确定与图像中的选定的字符部分相对应的字符的属性。该方法还包括将选定的字符部分替换为背景图像中的对应部分以获取经调整的图像。该方法还包括基于属性，将获取的目标字符组合到经调整的图像。

根据本公开的第二方面，提供了一种用于处理图像的装置。该装置包括背景图像确定模块，被配置为确定图像的背景图像，背景图像描述了相对于图像中的字符的背景；第一属性确定模块，被配置为确定与图像中的选定的字符部分相对应的字符的属性；第一替换模块，被配置为将选定的字符部分替换为背景图像中的对应部分以获取经调整的图像；组合模块，被配置为基于属性，将获取的目标字符组合到经调整的图像。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开的第一方面的方法。

根据本公开的第四方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行根据本公开的第一方面的方法。

根据本公开的第五方面，提供一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据本公开的第一方面的方法的步骤

根据本申请的技术解决了图像的获取，提高了获取样本图像的效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图；

图2示出了根据本公开的一些实施例的用于处理图像的方法200的流程图；

图3A示出了用于本公开的一些实施例的图像300的示例；

图3B示出了用于本公开的一些实施例的包括目标字符的图像300 的示例；

图4示出了根据本公开的一些实施例的用于替换字符部分的方法400 的流程图；

图5示出了根据本公开的一些实施例的用于处理图像的过程500的流程图；

图6示出了根据本公开的一些实施例的用于处理图像的装置600的框图；以及

图7示出了能够实施本公开的多个实施例的设备700的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

深度学习技术在图像任务上的效果，不仅依赖于优秀的算法模型，同时也依赖于对于高质量的图像数据。对于目前主流的有监督的深度学习算法，图像的数量和质量对于最终深度学习技术会有很大的影响。

目前主流的获取数据的方式，一种是人工数据采集和标注。在该过程中需要根据业务场景收集大量的图像，然后送到数据标注团队人工标注。对于字符识别任务标注而言，例如光学字符识别(optical character recognition，OCR)，标注过程需要两步。第一步把图像上的文字逐个标注出检测框，第二步需要把检测框里面的文字进行识别，标注为字符串。

然而，对于图像中有大量的字符串的文档场景，检测框的标注和文字的识别都耗费大量的时间和人力成本。而且字符识别需要的数据又非常庞大，人工标注经常成为制约项目进度的瓶颈。此外，在手工标注的过程中，一旦数据量过大需要多人协作分工。此时，对于标注框的边缘、模糊文字的判断、字段的分割，不同的标注人员会有主观差异性，导致最终标注结果不一致。手工标注的过程，因为工作量比较大，出错误的可能性也会比较大，这些错误对于后续模型的训练，也有较大的影响。

另一种获取数据的方式是纯粹的数据合成，是先收集一批背景图像，然后直接去除上面带有字符的图像块，换成带有新的字符的图像块。导致合成图像比较单一，图像结合边缘不光滑，很容易看出合成图像。由于具有新字符的图像块的背景和字符风格与原有的字符或图像背景不同，使得效果“失真”，和真实图像风格差异较大。

为了至少解决上述问题，根据本公开的实施例，提出一种的改进方案。在该方案中，计算设备确定图像的背景图像和与图像中的选定的字符部分相对应的字符的属性。然后，计算设备将选定的字符部分替换为背景图像中的对应部分以获取经调整的图像。计算设备再利用确定的属性，将获取的目标字符组合到经调整的图像。通过该方法，可以显著的改进针对不同场景的图像的不足问题，增加了可使用的图片的数量，节省了用于标注图像的时间和成本。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。该示例环境100包括计算设备108。计算设备108可以对图像 102中的字符替换为目标字符106来获取组合的图像114。

计算设备108可用于对图像102进行处理，例如获取图像102的背景图像110已及图像102中的字符的属性112以对图像102中的字符进行替换。计算设备108可以被实现为任何类型的计算设备，包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备 (诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器***、消费电子产品、小型计算机、大型计算机、包括上述***或设备中的任意一个的分布式计算环境等。

图像102可以用于作为训练机器学习模型的图像样本。例如，图像102是火车票、汽车票、卡证、证照、金属表面、快递单、文档等的图像。图像102的图像格式可以为JPEG、TIFF、RAW及其他任意合适的图像格式。图1中仅示了计算设备108处理一个图像102，其仅是示例，而非对本公开的具体限定。在一些实施例中，计算设备108 可以处理任意数目的图像。

图像102包括字符部分104或字符图像。在一些实施例中，字符部分104包括的字符为汉字。在一些实施例中，字符部分104包括的字符为汉语拼音。在一些实施例中，字符部分104包括的字符为英文单词。在一些实施例中，字符部分104包括汉字和汉语拼音或英文单词的组合。上述示例仅是用于描述本公开，而非对本公开的具体限定。字符部分104中可以包括任意语言的字符或不同语言的字符的组合。

在一些实施例中，字符部分104中的字符为单个字符。在一些实施例中，字符部分104中的字符为多个字符。上述示例仅是用于描述本公开，而非对本公开的具体限定。图1中示出了图像102包括一个字符部分104，其仅是示例，图像102可以包括任意数目的字符部分。

计算设备108在获取到图像102后，会确定图像102的背景图像 110，该背景图像110描述了相对于图像102中的字符的背景。

例如，如果图像102是车票图像，车票上相对于文字的背景为蓝色的，则背景图像110可以为去除了车票上的文字的蓝色图像。背景图像110中与文字图像相对应的对应部分包括预测的蓝色背景。上述示例仅是用于描述本公开，而非对本公开的具体限定。

计算设备108还可以确定图像102中的选定的目标区域中的选定的字符的属性112。例如，如果选定的目标区域为包括字符部分104 区域，则可以确定出字符部分104中的字符的属性112，例如字符的字体、大小、是否加粗、颜色、下划线等。在一个示例中，该目标区域是由用户在图像102上选定的区域。上述示例仅是用于描述本公开，而非对本公开的具体限定。

计算设备108可以利用获取的背景图像110来将选定的字符部分替换为背景图像110的对应部分。计算设备108还可以获取用于替换选定的字符的目标字符106。在一些实施例中，该目标字符106是汉字。在一些实施例中，该目标字符106是汉语拼音。在一些实施例中，目标字符106是英文字母。在一些实施例中，目标字符106是任意合适的语言的文字。在一些实施例中，目标字符106是两种及两种以上的字符的组合。在一些实施例中，目标字符106包括一个或多个字符。上述示例仅是用于描述本公开，而非对本公开的具体限定。

图1中示出了计算设备108接收一个目标字符106，其仅是示例，而非对本公开的具体限定。计算设备108可以接收用于替换选定的字符的多个目标字符。例如，图像102是车票，选定的目标部分包括的字符是车站名，则可以接收一个或多个其他的站名用于替换选定的车站名。上述示例仅是用于描述本公开，而非对本公开的具体限定。

计算设备108利用确定的字符的属性112来设置目标字符106，使得目标字符106具有与选定的字符部分中的字符相同的属性。然后将经设置的目标字符106放置入使用背景图像110调整的图像的目标区域，以生成组合的图像114。组合的图像114可用于训练机器学习模型的样本图像。

通过该方法，可以显著的改进针对不同场景的图像数量不足的问题，增加了可使用的图片的数量，节省了用于标注图像的时间和成本。

上面图1示出了本公开的多个实施例的能够在其中实现的环境 100的示意图。下面结合图2描述根据本公开的一些实施例的用于处理图像的方法200的流程图。图2中的方法200中由图1中的计算设备108或任意合适的计算设备执行。

在框202处，确定图像的背景图像，背景图像描述了相对于图像中的字符的背景。例如计算设备108确定图像102的背景图像110，该背景图像110描述了图像102中的字符的背景。

在一些实施例中，计算设备108将图像102输入背景确定模型以获取背景图像110，该背景确定模型是用于确定图像中的字符的背景图像的机器学习模型。备选地或附加地，该背景确定模型是神经网络模型，其是通过样本图像作为输入和样本图像的背景的作为输出训练得到的。通过上述方式，可以快速准确定的确定出图像的背景图像，提高了数据处理效率。

在一些实施例中，计算设备108可以使用任意合适的图像背景识别方法来确定图像中字符的背景图像。在一些实施例中，背景图像110 由与图像102中的像素点相对应的一组像素值表示。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，计算设备108获取图像102。在一个示例中，计算设备108从其他计算设备102接收图像102。在另一个示例中，计算设备108从外部存储装置或本地存储器获取图像102。上述示例仅是用于描述本公开，而非对本公开的具体限定。

计算设备108然后确定出图像102中要替换的字符的目标区域。例如，用户通过计算设备108选择图像的目标区域。然后，计算设备 108从图像102中的目标区域中确定出选定的字符部分。通过这种方式，可以快速的确定出要进行处理的目标区域，提高了数据处理效率。

如图3A所示，示例图像300为汽车票图像。为了增加该类型的图像数量，用户可以通过替换选定的字符区域中的字符来生成更多的图像。在图3A中，用户选择了包括字符“北京”的图像区域302作为目标区域，通过替换图像区域302中的“北京”来增加图像的数量。

返回图2，在框204处，确定与图像中的选定的字符部分相对应的字符的属性。例如，计算设备108确定与图像102中的选字的字符部分相对应的字符的属性112。

在一些实施例中，计算设备108将图像102的包括选定的字符部分输入字符属性确定模型以确定字符的属性112，字符属性确定模型是用于确定字符的属性的机器学习模型。备选地或附加地，该字符属性确定模型是神经网络模型，其是通过将字符图像作为输入以及字符的属性作为输出训练得到的。在一些实施例中，可以采用任意合适的字符识别方法来确定目标区域中的字符的属性。上述示例仅是用于描述本公开，而非对本公开的具体限定。通过上述方式，可以快速准确地确定出字符的属性。

在一些实施例中，字符的属性112包括以下中的至少一项：字体、大小、粗细、颜色或下划线等。备选地附加地，属性还可以包括字形、效果、间距等。上述示例仅是用于描述本公开，而非对本公开具体限定。通过上述方式，可以快速的获取对应的属性，提高了数据获取的准确性。

如图3A所示，确定出目标区域302中的字符“北京”的属性，例如其字体为楷体、大小为11号等。

返回图2，在框206处，将选定的字符部分替换为背景图像中的对应部分以获取经调整的图像。例如，计算设备108将选定的字符部分替换为背景图像110中的对应部分以获取经调整的图像，下面将结合图4具本地描述该过程。

在框208处，基于属性，将获取的目标字符组合到经调整的图像。例如，计算设备108基于属性，将获取的目标字符106组合到经调整的图像。

在一些实施例中，计算设备108可以获取目标字符106。例如，接收用户上传的替换字符。然后，计算设备108利用确定的图像102中的字符的属性112来设置目标字符106的属性。通过这种方式，可以使得目标字符和图像中要替换的字符的属性相同，使得合成的图像更真实。

在一些实施例中，计算设备108将设置好的目标字符106结合到图像102中的目标区域中来生成组合的图像114。如图3B所示，如果目标字符106是“武汉”，将“武汉”的属性设置为从“北京”确定的属性，例如字体为“楷体”，大小为11号等。然后将设置了属性的字符“武汉”放置到经调整的图像的目标区域。从而形成从“武汉”到“上海”的新的汽车票。进一步地，目标字符106还可以为“无锡”、“杭州”,“南京”等任意合适的字符，均可以通过设置属性后结合到图像的目标区域生成合成的图像。上述示例仅是用于描述本公开，而非对本公开的具体限定。

通过该方法，可以显著的改进针对不同场景的图像数量不足的问题，增加了可使用的图片的数量，节省了用于标注图像的大量的时间和人力成本。

上面结合图2和图3描述了根据本公开的一些实施例的用于处理图像的方法200的流程图。下面结合图4详细描述背景图像中的对应部分替换字符部分的过程。图4示出了根据本公开的一些实施例的用于替换字符部分的方法400的流程图。图4中的方法400中由图1中的计算设备108或任意合适的计算设备执行。

在框402处，确定选定的字符部分。例如，计算设备108确定与选定的字符相对应的字符部分或字符图像。例如，在图3A中确定出与字符“北京”相对应的字符部分。

在框404处，确定背景图像中与选定的字符部分相对应的对应部分。例如，计算设备108确定背景图像110中与选定的字符部分相对应的对应部分。在一些实施例中，计算设备108确定所选定的字符部分在图像中的位置，然后利用所选定的字符部分在图像中的位置来确定背景中对应部分的位置。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在框406处，利用对应部分替换选定的字符部分。例如，计算设备108利用对应部分替换字符部分。计算设备108用背景图像110中的对应部分替换图像102的选定的字符部分以使得目标区域仅具有背景。在一些实施例中，计算设备108先移除目标区域中的字符部分。然后，将背景图像110中对应部分填充到移除的字符部分。例如，移除字符部分对应的像素点的像素值，然后填充背景图像110中的对应部分的像素点的像素值。使得字符部分变成了对应的背景。在一些实施列中，计算设备108直接用背景图像110中的对应部分替换图像中的目标区域中的字符部分。上述示例仅是用于描述本公开，而非对本公开的具体限定。

通过上述方式，可以快速的移除字符，并能准确的将背景添加到图像中，提高了图像的处理效率，节省了处理时间。

上面结合图4描述了用于替换字符部分的方法400。下面结合图 5描述用于处理图像的过程500的示例。

如图5所示，过程500在框502处开始。然后，在框504处，计算设备108启动用于处理图像的软件。在框506处，计算设备108确定是否调整默认参数。此处的默认参数用于描述要加载的模型的使用条件，例如模型处理的图像的大小以及处理的图像的背景与何种类型的背景的相关程度，例如设置为与金属条纹的背景更相关还是与木质条纹更相关的参数。如果需要调整默认参数，则在框508处理配置参数。在确定不调整默认参数或配置参数后，在框510处，计算设备108 导入预训练模型。该预训练模型至少包括两个子模型：背景确定模型和字符属性确定模型。

然后在框512处，在计算设备108中导入图像。在框514处，在图像上标注出要进行字符替换的目标区域。在框516处，计算设备108 接收目标字符，即接收用于替换目标区域中的字符的替换字符。计算设备108在框520处启动图像背景学习。然后在框518处，生成图像的背景图像。在框522处，计算设备108还会启动字符属性学习以确定目标区域中选定的字符的属性，例如字体、大小、粗细等。在框526 处，计算设备108将原始图像中的字符擦除。在该过程中，利用在框 518处生成的背景图像来填充擦除的字符部分。然而形成目标区域仅包括背景的图像。在框524处，计算设备108将接收的目标字符与在框522处确定的字符的属性进行属性融合，即利用获取的属性设置目标字符的属性。然后在框528处，将设置的目标字符结合到图像的目标区域以实现合成图像字符写入。在框530处，保存合成的图像。然后在框532处，该过程结束。

通过上述方法，可以显著的改进针对不同场景的图像的不足问题，增加了可使用的图片的数量，节省了用于标注图像的大量的时间和人力成本。

图6示出了根据本公开实施例的用于处理图像的装置600的示意性框图。如图6所示，装置600包括背景图像确定模块602，被配置为确定图像的背景图像，背景图像描述了相对于图像中的字符的背景。装置600还包括第一属性确定模块604，被配置为确定与图像中的选定的字符部分相对应的字符的属性。装置600还包括第一替换模块606，被配置为将选定的字符部分替换为背景图像中的对应部分以获取经调整的图像。装置600还包括组合模块608，被配置为基于属性，将获取的目标字符组合到经调整的图像。

在一些实施例中，背景图像确定模块602包括背景图像获取模块，被配置为将图像输入背景确定模型以获取背景图像，背景确定模型是用于确定图像中的字符的背景图像的机器学习模型。

在一些实施例中，第一属性确定模块604包括第二属性确定模块，被配置为将图像的选定的字符部分输入字符属性确定模型以确定字符的属性，字符属性确定模型是用于确定字符的属性的机器学习模型。

在一些实施例中，第一替换模块606包括字符部分确定模块，被配置为确定选定的字符部分；对应部分确定模块，被配置为确定背景图像中与选定的字符部分相对应的对应部分；以及第二替换模块，补配置为利用对应部分替换选定的字符部分。

在一些实施例中，组合模块608包括目标字符获取模块，被配置为获取目标字符；以及目标字符属性确定模块，被配置为基于属性来确定目标字符的属性。

在一些实施例中，其中属性包括以下中的至少一项：字体、大小、粗细、颜色或下划线。

在一些实施例中，装置600还包括图像获取模块，被配置为获取图像；以及选定字符部分确定模块，被配置为从图像中的目标区域确定选定的字符部分。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。设备700可以用于实现图1中的计算设备108。如图所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM) 702中的计算机程序指令或者从存储单元708加载到随机访问存储器 (RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/ 输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/ 数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元 (CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元 701执行上文所描述的各个方法和处理，例如方法200和400。例如，在一些实施例中，方法200和400可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的方法200和400的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200和400。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM 或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于处理图像的方法，包括：

确定所述图像的背景图像，所述背景图像描述了相对于所述图像中的字符的背景；

确定与所述图像中的选定的字符部分相对应的字符的属性；

将所述选定的字符部分替换为所述背景图像中的对应部分以获取经调整的所述图像；

基于所述属性，将获取的目标字符组合到经调整的所述图像。

2.根据权利要求1所述的方法，其中确定所述背景图像包括：

将所述图像输入背景确定模型以获取所述背景图像，所述背景确定模型是用于确定图像中的字符的背景图像的机器学习模型。

3.根据权利要求1所述的方法，其中确定所述属性包括：

将所述图像的所述选定的字符部分输入字符属性确定模型以确定所述字符的所述属性，所述字符属性确定模型是用于确定字符的属性的机器学习模型。

4.根据权利要求1所述的方法，其中将所述选定的字符部分替换为所述背景图像中的所述对应部分包括：

确定所述选定的字符部分；

确定所述背景图像中与所述选定的字符部分相对应的所述对应部分；以及

利用所述对应部分替换所述选定的字符部分。

5.根据权利要求1所述的方法，其中将获取的目标字符组合到经调整的所述图像包括：

获取所述目标字符；以及

基于所述属性来确定所述目标字符的属性。

6.根据权利要求1所述的方法，其中所述属性包括以下中的至少一项：字体、大小、粗细、颜色或下划线。

7.根据权利要求1所述的方法，还包括：

获取所述图像；以及

从所述图像中的目标区域确定所述选定的字符部分。

8.一种用于处理图像的装置，包括：

背景图像确定模块，被配置为确定所述图像的背景图像，所述背景图像描述了相对于所述图像中的字符的背景；

第一属性确定模块，被配置为确定与所述图像中的选定的字符部分相对应的字符的属性；

第一替换模块，被配置为将所述选定的字符部分替换为所述背景图像中的对应部分以获取经调整的所述图像；

组合模块，被配置为基于所述属性，将获取的目标字符组合到经调整的所述图像。

9.根据权利要求8所述的装置，其中所述背景图像确定模块包括：

背景图像获取模块，被配置为将所述图像输入背景确定模型以获取所述背景图像，所述背景确定模型是用于确定图像中的字符的背景图像的机器学习模型。

10.根据权利要求8所述的装置，其中所述第一属性确定模块包括：

第二属性确定模块，被配置为将所述图像的所述选定的字符部分输入字符属性确定模型以确定所述字符的所述属性，所述字符属性确定模型是用于确定字符的属性的机器学习模型。

11.根据权利要求8所述的装置，其中所述第一替换模块包括：

字符部分确定模块，被配置为确定所述选定的字符部分；

对应部分确定模块，被配置为确定所述背景图像中与所述选定的字符部分相对应的所述对应部分；以及

第二替换模块，补配置为利用所述对应部分替换所述选定的字符部分。

12.根据权利要求8所述的装置，其中所述组合模块包括：

目标字符获取模块，被配置为获取所述目标字符；以及

目标字符属性确定模块，被配置为基于所述属性来确定所述目标字符的属性。

13.根据权利要求8所述的装置，其中所述属性包括以下中的至少一项：字体、大小、粗细、颜色或下划线。

14.根据权利要求8所述的装置，还包括：

图像获取模块，被配置为获取所述图像；以及

选定字符部分确定模块，被配置为从所述图像中的目标区域确定所述选定的字符部分。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。