CN116935418A

CN116935418A - 一种三维图文模板自动重组方法、设备及***

Info

Publication number: CN116935418A
Application number: CN202311188895.1A
Authority: CN
Inventors: 陈尧森; 韩兴; 温序铭
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-10-24
Anticipated expiration: 2043-09-15
Also published as: CN116935418B

Abstract

本发明提供了一种三维图文模板自动重组方法、设备及***，包括：S1、在三维图文模板库中获取包含各个类别的图文模板数据集；S2、通过图文模板数据集对预训练好的CLIP模型进行微调；S3、对输入图像进行图像区域分割；S4、将分割后的图像区域与图文模板数据集输入到微调后的CLIP模型，得到满足条件的图像区域及对应的图文模板类别；S5、输出图像区域位置以及对应的图文模板类别；S6、获取图像区域控制参数；S7、根据控制参数、图像区域位置以及对应的图文模板类别完成输入图像的图文模板重组。本发明实现了自动化的图文模板重组生成，为图文展示、报告生成等领域提供了更高的效率、准确性和灵活性。

Description

一种三维图文模板自动重组方法、设备及***

技术领域

本发明涉及计算机视觉和深度学习技术领域，更为具体的，涉及一种三维图文模板自动重组方法、设备及***。

背景技术

随着深度学习技术的不断发展，它们在计算机视觉任务中发挥了重要作用。通过深度学习方法，可以自动学习和提取图像和文本数据中的高级语义特征。这些特征能够更好地捕捉到图像和文本之间的关联性，从而实现更准确和高效的图文模板识别。例如，在图像处理方面，深度学习可以用于目标检测、图像分割和图像生成等任务。在文本处理方面，深度学习可以用于文本分类、命名实体识别和语义理解等任务。

通过结合深度学习中的检测技术、分割技术、OCR技术，能够从输入图像中准确提取出感兴趣的图像区域，为图文模板分类和识别提供准确的信息，并识别图像中的关键文本信息。这些技术的发展使得三维图文模板自动重组方法能够更好地适应各种场景和复杂的图像内容，为自动化图像分析和应用提供了有力的支持。

发明内容

针对现有技术中存在的问题，提供了一种三维图文模板自动重组方法、设备及***，实现自动化的图文模板生成重组，为图文展示、报告生成等领域提供了更高的效率、准确性和灵活性。

本发明第一方面提出了一种三维图文模板自动重组方法，包括：

步骤S1、在三维图文模板库中获取包含各个类别的图文模板数据集；

步骤S2、通过图文模板数据集对预训练好的CLIP模型进行微调；

步骤S3、对输入图像进行图像区域分割；

步骤S4、将分割后的图像区域与图文模板数据集输入到微调后的CLIP模型，得到满足条件的图像区域及对应的图文模板类别；

步骤S5、输出图像区域位置以及对应的图文模板类别；

步骤S6、获取图像区域控制参数；

步骤S7、根据控制参数、图像区域位置以及对应的图文模板类别完成输入图像的图文模板重组。

作为一种优选方案，在步骤S1中，图文模板数据集由图像和对应的图文模板类别文本信息形成的图像文本对组成。

作为一种优选方案，步骤S2中微调过程包括：将图文模板数据集输入到预训练CLIP模型中，使其捕捉图像和其类别之间的语义关联。

作为一种优选方案，在步骤S3中，采用SAM模型将输入图像的所有对象按区域进行分割，并将所有分割的图像区域在其最小外接矩形框上进行裁剪，保存所有分割后的图像区域。

作为一种优选方案，步骤S4的具体子步骤包括：

步骤S41、将分割后图像区域与所有图文模板类别文本信息输入微调后的CLIP模型中；

步骤S42、CPLI模型进行图像和文本编码后，对图像和文本编码结果逐一进行余弦相似度计算，得到每个图文模板的相似度得分；

步骤S43、保存相似度得分高于阈值的图像区域位置和其图文模板类别。

作为一种优选方案，在步骤S5中，根据得到的区域位置和图文模板类别，采用矩形框框选对应图像区域，并在矩形框上输出对应图文模板类别完成分类结果可视化。

作为一种优选方案，步骤S6的具体子步骤包括：

步骤S61、对输入图像进行预处理；

步骤S62、定位图像中的文字、数字区域；

步骤S63、对文字、数字区域进行OCR识别；

步骤S64、对识别的文字、数字进行后处理和校正；

步骤S65、得到输入图像中的关键文字、数字信息，作为图文的控制参数。

作为一种优选方案，步骤S7的具体子步骤包括：

步骤S71、根据获取的图像区域位置和其图文模板类别在对应位置生成三维图文模板库中对应类型的图表；

步骤S72、根据控制参数对生成的图表进行重组定制，生成新的图文模板。

本发明第二方面提出了一种三维图文模板自动重组设备，包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载时并执行上述三维图文模板自动重组方法。

本发明第三方面提出了一种三维图文模板自动重组***，包括上述的三维图文模板自动重组设备

与现有技术相比，采用上述技术方案的有益效果为：

自动化图文模板重组生成：通过使用图文模板识别、OCR识别和图像分割等技术，本发明能够自动地从输入图像中提取关键的文字、数字和图像区域，并将其与控制参数进行重组生成新的图文模板。这大大减少了手工创建图文模板的工作量，提高了生成效率和一致性。

准确性和可靠性：通过应用计算机视觉和深度学习技术，本发明能够实现准确的图像分割和OCR识别，从而提供准确的区域和文字识别结果。这确保了生成的图文模板与原始图像内容一致，并保证了关键信息的正确性和可靠性。

灵活性和个性化：本发明的重组步骤将控制参数与分割得到的区域进行匹配和组合，使得生成的新图文模板具备了更高的灵活性和个性化。可以根据不同的控制参数定制生成各种风格、样式和格式的图文模板，满足用户的个性化需求。

时间和成本节省：由于自动化的图文模板重组生成，本发明节省了手动创建和设计图文模板的时间和成本。用户无需手动处理和编辑图像区域和文字内容，大大提高了工作效率，同时降低了相关成本。

可扩展性和适应性：本发明基于计算机视觉和深度学习技术，这些技术具有较高的可扩展性和适应性。随着技术的进一步发展和改进，可以通过更新和优化模型、增加训练数据等方式，进一步提升图文模板识别和重组的性能和效果。

附图说明

图1为本发明提出的三维图文模板自动重组方法流程图。

图2为本发明实施例中CLIP模型微调示意图。

图3为本发明实施例中图像分割与图文模板识别流程框图。

图4（a）~图4（c）为本发明实施例中图文模板识别可视化结果图。

图5为本发明实施例中三维图文模板重组整体框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

为了实现自动的图文模板生成及重组，本实施例中提出了一种三维图文模板自动重组方法，能够自动从图像中提取关键的文字、数字和图像区域，将其与控制参数进行重组生成新的图文模板。具体方案如下：

请参考图1，该三维图文模板自动重组方法包括：

S1、数据集准备。

在重组之前，需要准备一个包含各个类别的图文模板数据集来支持后续步骤的使用，其数据为图像和对应的图文模板类别组成的图像文本对。其中，数据集具有多样性和代表性，需要覆盖各种图文模板的类型和场景。

本实施例中，在三维图文模板库中选取多个样式的图文模板制作柱形图、饼图、地图、折线图四个类别共2000张图像作为微调数据集，其中柱形图538张，饼图500张，地图484张，折线图478张。并将每张图片对应的类别作为其标题，将标题和存储路径在CSV文件中进行一一对应得到图文模板图像文本对，完成数据集的制作。

S2、CLIP模型微调。

请参考图2，采用制作好的数据集来对预训练的CLIP（Contrastive Language-Image Pretraining）模型进行微调，有效地将图文模板图像特征和类别的语义信息进行匹配，从而实现对图文模板的准确分类。

其中，CLIP模型是一种基于对比学习的图像文本匹配深度学习模型，能够将图像和文本表示空间进行对齐，该模型由一个图像编码器和一个文本编码器组成。在对抗训练过程中，图像编码器试图最小化图像和文本之间的距离，而文本编码器则试图最大化它们之间的距离。这种训练方式有助于让模型学习到更好的图像和文本表示，使得模型在处理各种视觉和语言任务时都能表现出色。特别在各种图像分类任务上表现优异，因此，本实施例中，将其用作三维图文模板自动重组任务的分类模型。

预训练CLIP模型通过4亿个图像文本对的训练，已经在识别常见物体上的表现良好，但是在特定的三维图文模板自动重组任务中识别准确率较低。本实施例中，制作了2000张图文模板图像文本对数据集对预训练CLIP模型进行微调，捕捉图文模板图像和其类别之间的语义关联，提高对三维图文模板自动重组的准确率。

S3、图像分割。

请参考图3，该步骤针对于待处理的图像，即输入图像。通过对输入图像进行分割，将图像中的对象按区域精细分割，提供准确的图文模板图像区域。

具体的，本实施例中，采用图像分割算法SAM完成分割。SAM模型包含图像编码器、提示编码器、轻量级掩码解码器。

图像编码器：使用一个预训练的Vision Transformer（ViT），最小化地适应处理高分辨率输入。

提示编码器：使用稀疏（点，框）和密集（掩码）提示。通过位置编码来表示点和框，这些编码与每种提示类型的学习嵌入相加。密集提示（掩码）使用卷积嵌入，并与图像嵌入元素相加。

掩码解码器：掩码解码器根据来自图像和提示编码器的嵌入预测分割掩码。它将图像嵌入、提示嵌入和输出标记映射到掩码。所有嵌入都由解码器块更新，解码器块在两个方向从提示到图像嵌入和返回两个方向使用提示自我注意和交叉注意。

通过SAM模型将输入图像中所有对象按区域分割出来后，将所有分割的区域在其最小外接矩形框进行裁剪，最后保存分割后的图像区域。

S4、图文模板识别。

将分割后的图像区域和收集的所有图文模板类别文本信息一起输入到微调后的CLIP模型。CLIP模型对图像和文本信息进行相似度判断，得到满足条件的图像区域位置和对应的图文模板类别。具体步骤如下：

S41、将分割后的图像区域与所有图文模板类别文本信息一起输入到微调后CLIP模型。

S42、CLIP模型将图像和图文模板类别文本信息分别输入到图像编码器和文本编码器中进行编码，并对图像和文本编码结果逐一进行余弦相似度计算，得到每个图文模板的相似度得分。

S43、将每个图像区域的图文模板的相似度得分与设定的置信度阈值进行比较，保存高于阈值的图像区域位置和对应图文模板类别。

S5、分类结果可视化输出。

在通过CLIP模型完成输入图像的图像区域位置以及对应图文模板类别获取后，需要进行可视化输出。

具体的，请参考图4（a）~图4（c）示出了不同输入图像的分类结果可视化输出，包括了柱状图、饼状图和折线图，即将得到高于阈值的图像区域位置，使用矩形框进行框选，并在矩形框的左上角输出其对应图文模板类别。

S6、控制参数获取。

请参考图5，为了使得重组后的图文模板与原图像一致，需要获取原图像中的控制参数，例如颜色、数量、文字、数字等。具体步骤包括：

S61、对输入图像进行去噪和图像增强等预处理操作。

S62、使用基于深度学习的文本检测模型，定位图像中的文字、数字区域，即确定可能包含关键文字、数字信息的区域。

S63、使用基于卷积神经网络的OCR模型对文字、数字区域进行OCR识别，将其转换为计算机可读的文字、数字。

S64、对识别的文字、数字结果进行规范化、去除错误识别的字符等后处理和校正。

S65、将得到的关键文字、数字信息作为图文模板的控制参数。

通过应用计算机视觉和深度学习技术，能够准确的图像分割和OCR识别，从而提供准确的区域和文字识别结果。这确保了生成的图文模板与原始图像内容一致，并保证了关键信息的正确性和可靠性。

S7、图文模板重组。

通过控制参数、图像区域位置以及对应的图文模板类别在三维图文模板库中进行重组，生成新的图文模板。具体的：

S71、根据图像区域位置和对应图文模板类别，在对应位置生成三维图文模板库中对应类型的图表。

S72、根据控制参数对生成的图表进行重组定制，生成新的图文模板。新的图文模板具备了更高的灵活性和个性化，能够满足不同需求的图文展示和报告生成。

本发明通过使用图文模板识别、OCR识别和图像分割等技术，能够自动地从输入图像中提取关键的文字、数字和图像区域，并将其与控制参数进行重组生成新的图文模板。这大大减少了手工创建图文模板的工作量，提高了生成效率和一致性。

在实际应用过程中，本发明还提供一种三维图文模板自动重组设备，包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载时并执行如上述的三维图文模板自动重组方法。

在实际应用过程中，本发明还提供一种三维图文模板自动重组***，包括如上所述的三维图文模板自动重组设备。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本发明实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述三维图文模板自动重组方法。

需要说明的是，在本发明实施例的描述中，除非另有明确的规定和限定，术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接连接，也可以通过中间媒介间接连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义；实施例中的附图用以对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种三维图文模板自动重组方法，其特征在于，包括：

步骤S3、对输入图像进行图像区域分割；

步骤S5、输出图像区域位置以及对应的图文模板类别；

步骤S6、获取图像区域控制参数；

2.根据权利要求1所述的三维图文模板自动重组方法，其特征在于，所述步骤S1中，图文模板数据集由图像和对应的图文模板类别文本信息形成的图像文本对组成。

3.根据权利要求1或2所述的三维图文模板自动重组方法，其特征在于，所述步骤S2中微调过程包括：将图文模板数据集输入到预训练CLIP模型中，使其捕捉图像和其类别之间的语义关联。

4.根据权利要求1所述的三维图文模板自动重组方法，其特征在于，所述步骤S3中，采用SAM模型将输入图像的所有对象按区域进行分割，并将所有分割的图像区域在其最小外接矩形框上进行裁剪，保存所有分割后的图像区域。

5.根据权利要求1所述的三维图文模板自动重组方法，其特征在于，所述步骤S4的具体步骤包括：

6.根据权利要求1所述的三维图文模板自动重组方法，其特征在于，所述步骤S5中，根据得到的区域位置和图文模板类别，采用矩形框框选对应图像区域，并在矩形框上输出对应图文模板类别完成分类结果可视化。

7.根据权利要求1所述的三维图文模板自动重组方法，其特征在于，所述步骤S6的具体步骤包括：

步骤S61、对输入图像进行预处理；

步骤S62、定位图像中的文字、数字区域；

步骤S63、对文字、数字区域进行OCR识别；

步骤S64、对识别的文字、数字进行后处理和校正；

8.根据权利要求1所述的三维图文模板自动重组方法，其特征在于，所述步骤S7的具体步骤包括：

9.一种三维图文模板自动重组设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载时并执行如权利要求1~8任一项所述三维图文模板自动重组方法。

10.一种三维图文模板自动重组***，其特征在于，包括如权利要求9所述的三维图文模板自动重组设备。