CN117011875A

CN117011875A - 多媒体页面的生成方法、装置、设备、介质和程序产品

Info

Publication number: CN117011875A
Application number: CN202310980755.1A
Authority: CN
Inventors: 郑艺秋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-11-07

Abstract

本申请实施例公开了一种多媒体页面的生成方法、装置、设备、介质和程序产品，可以应用于计算机视觉技术、语音技术、自然语音处理等应用场景；本申请实施例检测待处理多媒体页面中的待处理页面元素以及待处理页面元素的元素类型；对指定页面元素进行语义识别，以根据语义识别结果确定待处理多媒体页面的语义信息；从待处理页面元素中，确定与语义信息关联的目标待处理页面元素；将目标待处理页面元素中的内容信息转换为目标页面元素；由目标页面元素生成处理后的多媒体页面。由此，本方案可以由原始待处理多媒体页面自动、快速生成新的处理后的多媒体页面，简化多媒体页面的制作过程，提升多媒体页面制作效率。

Description

多媒体页面的生成方法、装置、设备、介质和程序产品

技术领域

本申请涉及计算机技术领域，具体涉及一种多媒体页面的生成方法、装置、设备、介质和程序产品。

背景技术

多媒体页面是指包含文本、图像、视频、音频等多媒体内容的页面。通常，多媒体页面可以包括布局元素、交互特效、动画效果等复杂组件，以通过这些组件展示相应的多媒体内容。

由于多媒体页面有一定的复杂性，通常需要专业人员参与设计，如添加文本、图像、视频、音频等多媒体内容，以及进行布局和样式设置，需要专业人员通过多步制作过程，才能完成多媒体页面，制作过程复杂。

发明内容

本申请实施例提供一种多媒体页面的生成方法、装置、设备、介质和程序产品，可以简化多媒体页面的制作过程，提升多媒体页面制作效率。

本申请实施例提供一种多媒体页面的生成方法，包括：检测待处理多媒体页面中的待处理页面元素以及所述待处理页面元素的元素类型；对指定页面元素进行语义识别，以根据语义识别结果确定所述待处理多媒体页面的语义信息，所述指定页面元素为所述元素类型为指定元素类型的所述待处理页面元素；从所述待处理页面元素中，确定与所述语义信息关联的目标待处理页面元素；将所述目标待处理页面元素中的内容信息转换为目标页面元素；由所述目标页面元素生成处理后的多媒体页面。

本申请实施例还提供一种多媒体页面的生成装置，包括：检测单元，用于检测待处理多媒体页面中的待处理页面元素以及所述待处理页面元素的元素类型；识别单元，用于对指定页面元素进行语义识别，以根据语义识别结果确定所述待处理多媒体页面的语义信息，所述指定页面元素为所述元素类型为指定元素类型的所述待处理页面元素；确定单元，用于从所述待处理页面元素中，确定与所述语义信息关联的目标待处理页面元素；转换单元，用于将所述目标待处理页面元素中的内容信息转换为目标页面元素；生成单元，用于由所述目标页面元素生成处理后的多媒体页面。

本申请实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本申请实施例所提供的任一种多媒体页面的生成方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种多媒体页面的生成方法中的步骤。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本申请实施例所提供的任一种多媒体页面的生成方法中的步骤。

本申请实施例可以检测待处理多媒体页面中的待处理页面元素以及所述待处理页面元素的元素类型；对指定页面元素进行语义识别，以根据语义识别结果确定所述待处理多媒体页面的语义信息，所述指定页面元素为所述元素类型为指定元素类型的所述待处理页面元素；从所述待处理页面元素中，确定与所述语义信息关联的目标待处理页面元素；将所述目标待处理页面元素中的内容信息转换为目标页面元素；由所述目标页面元素生成处理后的多媒体页面。

在本申请中，通过检测待处理多媒体页面的待处理页面元素，并转换得到新的目标页面元素，以由原始待处理多媒体页面自动、快速生成新的处理后的多媒体页面，简化多媒体页面的制作过程，提升多媒体页面制作效率。此外，通过检测待处理多媒体页面的元素类型，以基于指定元素类型的待处理页面元素确定待处理多媒体页面的语义信息，以此获取待处理多媒体页面中与语义信息相关的内容信息用于生成目标页面元素，减少冗余信息，增加生成的目标页面元素与待处理多媒体页面的关联关系，以提升生成的待处理多媒体页面的语义准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的多媒体页面的生成方法的场景示意图；

图1b是本申请实施例提供的多媒体页面的生成方法的流程示意图；

图1c是本申请实施例提供的待处理多媒体页面中待处理页面元素的检测结果的示意图；

图1d是本申请实施例提供的确定目标元素以及提取内容信息的示意图；

图1e是本申请实施例提供的常规页面布局的示意图；

图1f是本申请实施例提供的对待处理多媒体页面进行分区的示意图；

图1g是本申请实施例提供的待处理多媒体页面的示意图；

图1h是本申请实施例提供的又一待处理多媒体页面的示意图；

图1i是本申请实施例提供的生成文本特效的示意图；

图1j是本申请实施例提供的第二页面元素的示意图；

图1k是本申请实施例提供的动画设置页面的示意图；

图2a是本申请另一个实施例提供的多媒体页面的生成方法的流程示意图；

图2b是本申请实施例提供的落地页设置页面的示意图；

图2c是本申请实施例提供的落地页修改页面的示意图；

图2d是本申请实施例提供的图像修改页面的示意图；

图2e是本申请实施例提供的客户端展示的落地页的示意图；

图3是本申请实施例提供的多媒体页面的生成装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种多媒体页面的生成方法、装置、设备、介质和程序产品。

其中，该多媒体页面的生成装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该多媒体页面的生成装置还可以集成在多个电子设备中，比如，多媒体页面的生成装置可以集成在多个服务器中，由多个服务器来实现本申请的多媒体页面的生成方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1a，该多媒体页面的生成方法可以集成在服务器，该服务器可以获取终端上传的待处理多媒体页面，检测待处理多媒体页面中的待处理页面元素以及待处理页面元素的元素类型；对指定页面元素进行语义识别，以根据语义识别结果确定待处理多媒体页面的语义信息，指定页面元素为元素类型为指定元素类型的待处理页面元素；从待处理页面元素中，确定与语义信息关联的目标待处理页面元素；将目标待处理页面元素中的内容信息转换为目标页面元素；由目标页面元素生成处理后的多媒体页面，并将处理后的多媒体页面返回至终端展示。

以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。以下描述中，所涉及的术语“第一\第二\第三”仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

可以理解的是，在本申请的具体实施方式中，涉及到声音数据、虚拟形象、用户操作等与用户相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革，WavLM,UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性，可以优秀完成各方向的语音处理任务。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学、人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

预训练模型(Pre-training model)，也称基石模型、大模型，指具有大参量的深度神经网络(Deep neural network，DNN)，在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调(fine tune)、参数高效微调(PEFT)、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer，ViT，V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT,CLIP，Flamingo，Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具，也可以作为连接多个具体任务模型的通用接口。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在本实施例中，提供了一种涉及人工智能的多媒体页面的生成方法，如图1b所示，该多媒体页面的生成方法的具体流程可以如下：

110、检测待处理多媒体页面中的待处理页面元素以及待处理页面元素的元素类型。

其中，待处理多媒体页面是指用于生成新的多媒体页面的多媒体页面。多媒体页面是指包含文本、图像、视频、音频等多媒体内容的页面。多媒体页面可以为多种形式的页面，如HTML页面、web页面、H5页面、应用程序页面，以及其他能够展示多媒体内容的页面等。

在实际应用中，本申请实施例提供的多媒体页面的生成方法可以应用在不同应用场景中。在不同场景中，待处理多媒体页面可以根据具体需求和应用场景的不同而各异。例如，在电子商务场景中，待处理多媒体页面可以为商品展示页面、商品推广页面等，这些页面可以包含产品图片、视频介绍、规格参数表格等页面元素；在新闻媒体场景中，待处理多媒体页面可以为新闻报道页面、专题报道页面等，这些页面可以包含文字、图片、音频、视频等形式的新闻内容；在游戏场景中，待处理多媒体页面可以为游戏推广页面、游戏剧情页面等，这些页面可以包括文字、图片、音频、视频等形式表征的游戏内容；在社交场景中，待处理多媒体页面可以为分享页面、虚拟社区空间页面、应用推广页面等，这些页面可以包括用户上传的照片、音乐、视频，以及用户编辑的文字等社交内容。

其中，待处理页面元素是指待处理多媒体页面中的页面元素。例如，待处理页面元素为多种内容形式，如文本、音频、图像、视频等多媒体内容，页面元素可以为展示为多媒体页面中的按钮、表单、内容区域、导航、卡片、弹出框等形式的组件。

其中，元素类型是指用于区分或定义不同页面元素的名称或标签。例如，元素类型可以以页面元素的内容表现形式如图像、图形、文本、视频等表示，也可以以页面元素在多媒体页面中的组件标签表示，也可以以自定义的名称或标签表示。例如，可以将待处理页面元素对应的组件标签如<div>(块级容器)、<video>(视频)、<audio>(音频)、<img>(图像)、<text>(文本)、<button>(按钮)、<h1>-<h6>(不同级别的标题)、<table>(表格)等作为其对应的元素类型。

例如，在获得待处理多媒体页面相关权利人同意或授权的情况下，可以通过解析待处理多媒体页面的页面结构，检测<img>、<video>、<audio>等与多页面元素相关的标签类型，并从多媒体页面中提取这些标签对应的页面元素作为待处理页面元素，并将相应的标签作为该页面元素的元素类型。

在一些实施方式中，待处理页面元素可以包括可视元素，可视元素是指可见的页面元素，如文字、图形(如按键)、图像、视频等在多媒体页面以可视化组件展示的元素，以此，待处理页面元素的元素类型可以为文字、图形、图像、视频等。具体地，可以通过目标检测模型检测待处理多媒体页面中的可视元素。目标检测模型可以包括但不限于FCN(全卷积神经网络)、SegNet(用于图像分割的深度卷积编码器-解码器架构)、DeepLab(空洞卷积空间金字塔池化层)、Mask R-CNN(基于区域的卷积神经网络)、U-Net(基于U形网络的图像分割网络)、Gated SCNN(用于语义分割的门控形状卷积神经网络)等中的一种或多种的组合。

在一些实施方式中，在待处理页面元素包括可视元素时，可以通过待处理多媒体页面的特征图，利用特征图中的预测框精确定位到页面中的可视元素，以此，在不需要调用待处理多媒体页面的源文件数据的情况下，可以在页面中检测到到自定义的、细粒度的可视元素。具体地，待处理页面元素通过如下步骤检测得到：

对待处理多媒体页面进行特征提取，得到页面特征图；

对页面特征图设置多个预测框；

对预测框进行回归处理，以根据回归处理结果调整预测框的中心点，得到调整后的预测框；

将调整后的预测框对应的页面元素确定为待处理页面元素。

其中，页面特征图为待处理多媒体页面的特征图，该特征图包含待处理多媒体页面的特征表示。

目标检测模型可以包括特征提取网络以及回归处理网络。例如，可以获取图像形式的待处理多媒体页面，对其进行预处理如缩放尺寸、归一化处理等。再将预处理后的图像输入特征提取网络，该特征提取网络可以由多个卷积层和池化层堆叠而成，由特征提取网络对输入的预处理后的图像进行前向传播，以提取图像的特征，得到页面特征图。可以通过预定义一组预测框(Anchor box)，该组预测框包括多个预先设置的矩形框，不同预测框可以包含不同尺寸和宽高比的目标，每个预测框的中心点坐标定义为相对于所在特征区域左上角的偏移量，并利用这个偏移量来确定预测框的中心点位置。通过回归处理网络对预测框进行回归处理，将这些预测框与页面特征图内的实际目标进行匹配，以得到预测框与实际目标匹配时预测框的中心点(即预测中心点)，调整预测框中心点至该预测中心点即得到调整后的预测框。可以将调整后的预测框所对应的待处理多媒体页面的区域内的页面元素作为待处理页面元素。例如，如图1c所示待处理多媒体页面中待处理页面元素的检测结果，通过调整后的预测框(图中虚线框)在待处理多媒体页面的相应位置框选出了该页面中的多个待处理页面元素。

在一些实施方式中，可以利用YOLOv8网络模型作为目标检测模型来检测待处理多媒体页面中的待处理页面元素。YOLOv8网络模型包括主干(Backbone)网络、颈部(Neck)网络以及头部(Head)网络。主干网络包括卷积模块、C2f(通道到特征)模块、SPPF(空间金字塔池化特征)模块，其中，卷积模块(Conv模块)包括卷积层、批归一化层和SiLU激活函数层，C2f模块包括卷积模块、Bottleneck(瓶颈)模块和残差结构模块，SPPF模块包括卷积层、池化层。颈部网络包括卷积模块、C2f模块、上采样层。头部网络包括检测用卷积模块。以此，主干网络和颈部网络可以作为特征提取网络对待处理多媒体页面进行特征提取，得到页面特征图。具体地，主干网络可以通过对待处理多媒体页面进行卷积处理，得到初始特征图，再由颈部网络对初始特征图进行二次提取得到不同尺度的页面特征图。头部网络中的检测用卷积模块可以作为回归处理网络对输入的不同尺度的页面特征图进行回归处理，得到调整后的预测框。该网络模型采用了端到端的设计，将目标检测任务视为一个单一的回归问题。它通过在输入图像上划分网格，并在每个网格上同时预测多个边界框及其相应的置信度和类别概率，来实现目标的检测。可以理解的是，该网络模型是一个无锚模型，以此可以直接预测对象的中心而不是已知锚框的偏移量，以减少了框预测的数量，提升检测效率。

在一些实施方式中，在检测待处理多媒体页面中的待处理页面元素的过程中，可以页面特征图划分为多个特征区域，以利用预测框预测每个特征区域内是否存在物体以及其位置对每个特征区域进行对象检测，以此在不同尺度下都能有效地捕捉到目标信息。

例如，将页面特征图划分为多个如n×n个固定大小的网格即特征区域，每个特征区域对应待处理多媒体页面中的一个局部区域，并包含该区域的特征表示，一个特征区域可以对应一个或多个预测框，即一个特征区域内可以预测一个或多个调整后的预测框。对任一特征区域，将其对应的调整后的预测框中置信度最高的一个调整后的预测框作为最终调整后的预测框，并将该预测框对应的待处理多媒体页面的区域内的页面元素作为待处理页面元素。

在一些实施方式中，可以基于调整后的预测框在页面特征图中的特征表示，快速、准确地对相应的待处理页面元素进行分类。具体地，待处理页面元素的元素类型通过如下步骤检测得到：

从页面特征图中，获取调整后的预测框中预测对象的对象特征；

对对象特征进行分类，得到对象类型；

将对象类型作为待处理页面元素的元素类型。

其中，预测对象是指预测框所负责预测的目标物体。对象类型是指目标物体所属的类别或类别标签。

例如，目标检测模型还包括类别预测网络。对于每个调整后的预测框，类别预测网络可以获取预测框在页面特征图相应位置的特征表示(即预测对象的对象特征)，并预测其对象类型，该对象类型即表征该预测框中目标物体的类别或类别标签，如文本、图形、图像、视频等，并将该对象类型作为相应待处理页面元素的元素标签。例如，如图1c所示待处理多媒体页面中待处理页面元素的检测结果，图中在调整后的预测框上方标注了检测到的每个待处理页面元素的元素类型。其中，“TextView”表征元素类型为“文本”，“ImageView”表征元素类型为“图像”，“Button”表征元素类型为“按键”，图中元素类型后的数字表示相应预测框的置信度。

在实际应用中，可以采用多种方式对对象特征进行分类，如可以使用全连接层网络、卷积神经网络、循环神经网络、残差网络等中的一种或多种的组合对对象特征进行分类。例如，可以将对象特征输入全连接层网络，全连接层网络将输入的对象特征与权重矩阵相乘，并通过激活函数进行线性变换，得到分类结果即对象类型。

在一些实施方式中，可以利用YOLOv8网络模型的头部网络来检测待处理页面元素的元素类型，即对待处理页面元素进行分类。头部网络采用解耦头(Decoupled Head)结构，将检测过程和分类过程分离，以增加这检测过程和分类过程的灵活性和可迁移性，并加速检测过程和分类过程的推理速度，提升检测效率。具体地，头部网络包括检测用卷积模块和分类用卷积模块，这两个卷积模块分别构成检测分支(即回归处理网络)和分类分支(类别预测网络)，这两个分支分别用于检测待处理页面元素和确定待处理页面元素的元素类型。

120、对指定页面元素进行语义识别，以根据语义识别结果确定待处理多媒体页面的语义信息。

其中，指定页面元素为元素类型为指定元素类型的待处理页面元素。指定元素类型是指根据应用场景或实际需求设置的特定的元素类型。例如，可以将图像、图形、文本、视频等元素类型中的一种或多种作为指定元素类型。

其中，语义信息是指表征多媒体页面语义的信息。语义信息可以是对页面元素的文本描述、关键词、标签等，以表达页面元素的语义。语义信息的表现形式可以为文本、向量或其他形式的数据。

例如，可以基于指定页面元素对应的预测框，将其从待处理多媒体页面分割出来，再对分割结果进行语义识别，得到语义信息。对于不同的元素类型的指定页面元素，可以采用不同的语义识别方法。如，以指定元素类型为图像为例，可以将如图1c所示待处理多媒体页面中所有类型为“ImageView”的预测框内的图像截取出来，该图像即表征相应的指定页面元素，再使用计算机视觉技术如预训练图像分类模型如AlexNet(深度卷积神经网络)、VGG(VGG卷积网络模型)、ResNet(残差网络)等，提取这些被截取出来的图像的特征向量，并对这些特征向量推理得到其分类结果，该分类结果为其表征的语义，可以将该语义作为待处理多媒体页面的语义信息。

在一些实施方式中，可以根据应用场景确定指定元素类型，以使由指定元素类型确定的语义信息更加准确。例如，对任一应用场景如电子商务场景中的多媒体页面，可以获取大量如n个多媒体页面，对每个多媒体页面中各种元素类型的页面元素进行语义识别，确定各页面元素所包含的语义内容，并记录包含的语义内容与待处理多媒体页面携带的页面标签匹配度最高的页面元素的元素类型(下称候选元素类型)。对n个多媒体页面的候选元素类型进行统计，将出现次数最高的候选元素类型作为指定元素类型。其中，页面标签是指对待处理多媒体页面进行分类、描述或归类的内容，页面标签可以为根据待处理多媒体页面的内容自定义的标签。

在一些实施方式中，可以将待处理多媒体页面中出现次数最高的元素类型作为指定元素类型，以使得语义信息能更好地描述和归类待处理多媒体页面中的内容，以增加其表征多媒体页面语义的准确性。例如，如图1c所示待处理多媒体页面中，“TextView”类型的待处理页面元素的数量最多，因此可以将指定元素类型确定为“文本”。

由于待处理多媒体页面中的指定页面元素可能有多个，多个指定页面元素表征的语义可能不同。因此，在一些实施方式中，当指定页面元素有多个时，可以先对该多个指定页面元素分别进行语义识别得到初始语义信息后，如对n个指定页面元素分别识别得到了“语义1”、“语义2”、…“语义n”，可以从中统计出现频次较高语义信息作为待处理多媒体页面的语义信息，如将位于前预设数量的语义信息作为待处理多媒体页面的语义信息，预设数量可以为1或大于1的整数。

在一些实施方式中，由于文本包含了大量具象、容易理解的语义内容，因此可以将文本作为指定元素类型，以降低语义识别的难度，并获得更加准确、一致的语义信息。具体地，指定元素类型包括文本，对指定页面元素进行语义识别，以根据语义识别结果确定待处理多媒体页面的语义信息，包括：

从待处理多媒体页面中提取指定页面元素；

对指定页面元素进行文本识别处理，得到初始文本信息；

对初始文本信息进行语义理解，得到语义关键词，以根据语义关键词确定待处理多媒体页面的语义信息。

例如，以指定元素类型为文本为例，可以将如图1c所示待处理多媒体页面中所有类型为“TextView”的预测框内的图像截取出来，该图像即表征相应的指定页面元素。由此，提取得到三个指定页面元素对应的图像1、图像2和图像3，再使用文字识别(OCR)技术将文本信息从这些被截取出来的图像中分别提取出来，如得到文本1、文本2和文本3，将所有提取的文本拼接得到初始文本信息如{文本1,文本2,文本3}。再使用预训练的模型如对话生成模型(ChatGPT)、预训练语言模型(BERT)等中的一种或多种对初始文本信息进行语义理解，输出文本的要点即语义关键词如“游戏”，可以将该语义关键词作为多媒体页面的语义信息，或将位于前预设数量的语义关键词作为待处理多媒体页面的语义信息。

130、从待处理页面元素中，确定与语义信息关联的目标待处理页面元素。

其中，目标待处理页面元素是指与语义信息关联的页面元素。

例如，可以对待处理页面元素和语义信息分别进行编码，将待处理页面元素和语义信息分别表示为向量，将语义信息对应的向量与各待处理页面元素对应的向量一一进行相似度计算，如计算余弦相似度、欧氏距离或曼哈顿距离，将与语义信息相似度高于预设相似度阈值的待处理页面元素作为目标待处理页面元素。以此获取待处理多媒体页面中与语义信息相关的内容，减少冗余信息，增加生成的目标页面元素与待处理多媒体页面的关联关系。例如，如图1d所示确定目标元素以及提取内容信息的示意图，可以根据语义信息“游戏”，从图1d中(1)所示的待处理多媒体页面中检测得到与其关联的多个目标页面元素，如图1d中(2)所示，该多个目标页面元素在图中被检测框(图中实线框)框选出来。任一目标页面元素的检测框的位置和大小可以与其对应的预测框一致。

需说明的是，由于指定页面元素是根据指定元素类型确定的，待处理多媒体页面中可能有多个指定页面元素，多个指定页面元素中可能包含与语义信息相似度较低的页面元素，以此确定目标页面元素与指定页面元素并不相同。

在一些实施方式中，可以基于待处理页面元素对应的预测框，将其从待处理多媒体页面分割出来，再对分割结果进行语义识别，得到待处理页面元素的语义信息(下称待处理语义信息)。对于不同的元素类型的目标待处理页面元素，可以采用不同的语义识别方法。如，以待处理页面元素的元素类型为图像为例，可以将待处理页面元素对应的预测框内的图像截取出来，该图像即表征相应的待处理页面元素，再使用计算机视觉技术如预训练图像分类模型如AlexNet(深度卷积神经网络)、VGG(VGG卷积网络模型)、ResNet(残差网络)等，提取这些被截取出来的图像的特征向量，并对这些特征向量推理得到其分类结果，该分类结果为其表征的语义即待处理语义信息。可以使用训练好的训练好的词向量模型，如Word2Vec、GloVe或FastText等将待处理语义信息和待处理多媒体页面的语义信息分别表示为向量，将语义信息对应的向量与各待处理页面元素对应的向量一一进行相似度计算，将与语义信息相似度高于预设相似度阈值的待处理页面元素作为目标待处理页面元素。

需说明的是，若待处理页面元素为指定页面元素，可以直接获取前述步骤中对指定页面元素进行语义识别得到的语义信息作为待处理语义信息。

140、将目标待处理页面元素中的内容信息转换为目标页面元素。

其中，目标页面元素是指由内容信息转换生成的页面元素。

在实际应用中，可以根据内容信息对应的元素类型，采用多种不同的方式将内容信息转换为目标多媒体内容。例如，可以将内容信息如文本、图像等输入生成模型，通过生成模型生成目标页面元素，生成模型可以包括但不限于图像生成模型如生成对抗网络(GAN)、视频生成模型如条件生成对抗网络(cGAN)、文本生成模型如循环神经网络(RNN)以及音频生成模型如文本到语音模型(TTS)中的一种或多种的组合。

在一些实施方式中，将目标待处理页面元素中的内容信息转换为目标页面元素之前，还包括：

从目标待处理页面元素中提取内容信息。

其中，内容信息是指待处理页面元素中的具体内容。不同类型的待处理页面元素中的内容信息可以不同。例如，当待处理页面元素的元素类型为文本时，内容信息可以为文本信息；当待处理页面元素的的元素类型为图像时，内容信息可以为图像信息，和/或该图像显示的文本的文本信息；当待处理页面元素的元素类型为音频时，内容信息可以为音频信息，和/或该音频包含的文本的文本信息；当待处理页面元素的元素类型为视频时，内容信息可以为视频中视频帧的图像信息，和/或该视频包含的音频的音频信息，和/或该视频包含的文本的文本信息。

在实际应用中，可以采用多种不同的方式从待处理页面元素中提取内容信息。例如，可以将待处理页面元素中的文本、图像或视频直接作为其内容信息。

再如，当待处理页面元素包含文本的内容信息时，可以将待处理页面元素的图像从待处理多媒体页面中提取出来，再使用文字识别(OCR)技术将文本从被截取出来的图像中提取出文本信息(下称待处理文本信息)。或使用图像分割模型SAM从图像中切割得到文本信息的图像。

再如，当待处理页面元素包含图像或视频的内容信息时，可以利用计算机视觉技术如预训练的图像分割模型如图像分割模型(SAM)、语义分割网络(SegNet)、深度标签网络(DeepLab)、蒙版区域卷积神经网络(Mask R-CNN)、U形网络(U-Net)、门控空洞卷积神经网络(Gated SCNN)等中的一种或多种，从图像或视频帧中分割得到内容信息。例如，如图1d所示的确定目标元素以及提取内容信息的示意图，从图1d中(2)所示的多个待处理多媒体页面的图像中，分别分割出各待处理多媒体页面对应的图像形式的内容信息，分割得到的内容信息如图1d中(3)所示。

需说明的是，当待处理页面元素的内容信息同时包含文本、图像和视频中的多种内容信息时，可以根据待处理页面元素的元素类型，仅提取对应该元素类型的内容信息，如待处理页面元素为图像，仅提取图像形式的内容信息，不会识别该图像中的文本，也可以对所有内容信息都进行提取。

在一些实施方式中，可以通过匹配内容信息对应的目标页面区域和指定页面区域，快速、准确地确定位于特定页面区域内的内容信息，并进行增强处理，提高生成目标页面元素的效率，以突出关键信息的视觉效果，提高信息的传达效果。具体地，目标页面元素包括第一页面元素，待处理多媒体页面包括多个页面区域，将目标待处理页面元素中的内容信息转换为目标页面元素，包括：

从多个页面区域中，确定内容信息对应的目标页面区域；

将与指定页面区域匹配的目标页面区域对应的内容信息确定为目标内容信息；

对目标内容信息进行增强处理，得到第一页面元素。

其中，指定页面区域是指根据应用场景或实际需求设置的页面区域。例如，由于多媒体页面内容通常有较为固定的页面布局，尤其是在相同的应用场景中多媒体页面的页面布局较为一致。如，对任一应用场景如电子商务场景中的多媒体页面，可以获取大量如n个多媒体页面，通过分析该n个多媒体页面的页面布局，确定该应用场景中的常规页面布局，如在电子商务场景中的常规页面布局为如图1e所示的常规页面布局，图中展示了该常规页面布局中各种布局要素如“背景”、“主标题”、“主体”和“利益点”等在页面中对应的页面区域，图中相应的页面区域以虚线框表示。其中，主标题是指多媒体页面中的核心内容，其用于传达产品或服务的核心特点，通常主标题被放置在页面顶部区域；主体是指多媒体页面中的主要内容，其用于传达产品或服务的详细描述、特点以及优势等；利益点是指多媒体页面中能使用户获益的内容，其用于传达产品或服务相关的优势、益处和价值等。

在一些实施方式中，可以根据待处理多媒体页面所携带的页面标签如游戏、动漫，以及其携带的渠道标签等进一步确定其对应的细分应用场景，以获取该细分场景中的常规布局页面，并将其用于确定指定页面区域。或可以将检测待处理页面元素以及待处理页面元素的元素类型后的待处理多媒体页面与多个常规页面布局进行匹配，将匹配程度最高的一个常规页面布局用于确定指定页面区域。

其中，第一页面元素是指由目标内容信息增强处理得到的页面元素。增强处理是指用于提升目标内容信息的感知效果的处理方法。例如，增强处理可以包括但不限于放大、添加动态效果、添加颜色效果、增加对比度、虚化背景、增强细节等中的一种或多种。

例如，如图1f所示的对待处理多媒体页面进行分区的示意图，可以将待处理多媒体页面划分为3×3的网格即页面区域，再获取相应场景的常规页面布局与目标页面区域进行匹配，确定目标页面区域所属的布局要素。如图1g所示的待处理多媒体页面的示意图，从待处理多媒体页面的多个目标待处理页面元素中提取得到内容信息1～6，其分别占据页面区域1～3、页面区域4、页面区域7～9、页面区域2～3、页面区域1、页面区域4～6。根据各页面区域与页面布局的布局要素之间的关联关系，可以确定内容信息1和内容信息4属于布局要素“主标题”的内容，内容信息2和内容信息5属于布局要素“主体”的内容，内容信息3和内容信息6属于布局要素“利益点”的内容。若布局要素“主标题”是预设的需要进行增强处理的布局要素，以此可以将该布局要素对应的页面区域作为指定页面区域，并将该页面区域对应的内容信息1和内容信息4确定为目标内容信息，并对内容信息1和内容信息4添加闪烁的动态效果。

在一些实施方式中，可以在目标页面区域内对目标内容信息进行增强处理，以减少增强处理对多媒体页面布局的影响，避免影响整体页面效果。

在一些实施方式中，可以根据目标内容信息对应的布局要素类型，选择相应的增强处理方法。例如，可以对不同类型的布局要素预设不同的增强处理方法，如任一目标内容信息属于“主标题”，可以从预设的增强处理方法中选择该“主标题”对应的方法如闪烁，对该目标内容信息添加闪烁的动态效果。

在一些方式中，可以对目标内容信息进行三维重建，以突出关键信息的视觉效果，提高信息的传达效果。例如，指定页面区域为布局要素“主体”对应的页面区域，若该指定页面区域内对应的目标内容信息为图像形式时，如为鞋子图像时，可以通过3D渲染引擎如three.js3D对该鞋子图像绘制相应的3D特效，以得到3D动态展示的视觉效果即第一页面元素。

在一些实施方式中，可以对语义关联的目标内容信息使用特定的方法进行增强处理，以突出关键信息的视觉效果，提高信息的传达效果。具体地，对目标内容信息进行增强处理，得到第一页面元素，包括：

从目标内容信息中提取内容语义信息；

将具有关联关系的内容语义信息对应的目标内容信息确定为关联内容信息；

通过关联内容信息对应的指定增强处理方法，对关联内容信息进行增强处理，得到第一页面元素。

其中，内容语义信息是指表示内容信息语义的信息。内容语义信息可以是对内容信息的文本描述、关键词、标签等，以表达内容信息的语义。语义信息的表现形式可以为文本、向量或其他形式的数据。

其中，关联关系是指内容信息之间相互关联的关联关系。例如，关联关系可以包括但不限于相似性关联、语义关联等。如，可以将相似度大于预设相似度阈值的任意多个目标内容信息确定为关联内容信息，或可以将互为同义词、反义词、或属于-包含关系的任意多个目标内容信息确定为关联内容信息。

其中，指定增强方法是指预先设置的，用于对关联内容信息进行增强处理的方法。如，可以根据关联内容信息对应的布局要素类型选择相应的预设的增强处理方法对其进行增强处理。

例如，可以使用计算机视觉技术如预训练图像分类模型如AlexNet(深度卷积神经网络)、VGG(VGG卷积网络模型)、ResNet(残差网络)等对图像形式的目标内容信息进行语义识别，得到内容语义信息，或可以使用预训练的模型如对话生成模型(ChatGPT)、预训练语言模型(BERT)等中的一种或多种对文本形式的目标内容信息进行语义识别，得到内容语义信息。对待处理多媒体页面中的内容信息1～6分别识别其语义为“游戏奖励”、“人物1”、“领取奖励”、“下载渠道”、“人物2”、“资讯”，其中“游戏奖励”和“领取奖励”相似度高于预设相似度阈值，因此可以将内容信息1和内容信息3确定为关联内容信息，并对其进行相同的增强处理如放大。需说明的是，对于不属于关联内容信息的其他目标内容信息，可以不进行增强处理。

在一些实施方式中，指定增强处理方法可以为将语义关联的目标内容信息进行互动展示的方法，以突出关键信息的视觉效果，提高信息的传达效果。具体地，通过关联内容信息对应的指定增强处理方法，对关联内容信息进行增强处理，得到第一页面元素，包括：

根据多个关联内容信息对应的目标页面区域，确定互动路径；

根据互动路径，生成关联内容信息对应的第一页面元素，第一页面元素包括沿互动路径进行互动的关联内容信息。

其中，移动路径是指关联内容信息进行互动时所经过的路径。

例如，如图1h所示的待处理多媒体页面的示意图，对待处理多媒体页面中关联的内容信息1和内容信息3，其分别对应页面区域1～3和页面区域7～8，生成从页面区域1～3指向页面区域7～8的互动路径1，并生成内容信息1沿该路径从页面区域1～3移动至页面区域7～8的动态效果，还可以生成从页面区域7～8指向页面区域1～3的互动路径2，并生成内容信息2沿该路径从页面区域7～8移动至页面区域1～3的动态效果。

在不同关联内容信息之间可以生成多条互动路径，尤其是在关联内容信息有多个时可以生成多条互动路径，此时可以在页面中展示所有互动路径对应的动态效果。在一些实施方式中，为了简化页面内容，提高信息的传达效果。可以将多条互动路径交替显示。或对任一关联内容信息，若该关联内容信息有多条互动路径指向不同内容信息对应的页面区域的互动路径，可以仅显示与其关联性最高的一条指向其他内容信息的互动路径。

由于不同关联内容信息对应的页面区域的大小可能不同，在一些实施方式中，在内容信息沿互动路径移动时，可以根据互动路径指向的页面区域的大小，可以对该内容信息进行缩放处理，以使其大小与指向的页面区域匹配。例如，若内容信息1和内容信息2为关联内容信息，由于内容信息1对应页面区域1～3，即其形状较大，内容信息2对应页面区域4，即其形状较小。在内容信息1沿互动路径从页面区域1～3移动至页面区域4的动态效果中，可以逐渐缩小内容信息1，以使其移动至页面区域4时在页面区域4内显示。同时，在内容信息2沿互动路径从页面区域4移动至页面区域1～3的动态效果中，可以逐渐放大内容信息1，以使其移动至页面区域1～3时，以较大的尺寸在页面区域1～3内显示如铺满页面区域1～3。

在一些实施方式中，可以对文本形式的内容信息设置新的显示样式参数，以快速生成相应的目标页面元素，提高生成目标页面元素的效率。具体地，目标待处理页面元素中的内容信息包括文本信息，目标页面元素包括第二页面元素，将目标待处理页面元素中的内容信息转换为目标页面元素，包括：

获取预设的显示样式参数；

以预设的显示样式参数显示文本信息，以得到第二页面元素。

其中，显示样式参数是指用于定义文本信息的在页面中的外观特征的参数。例如，显示样式参数可以包括但不限于字体、大小、颜色、透明度、间距、斜体等中的一种或多种的参数，还可以包括文字特效如阴影、霓虹灯光、渐变、火焰等参数。预设的显示样式参数是指根据需要或应用场景设置的显示样式参数。

例如，可以根据场景不同，预设不同的显示样式参数。如在电子商务场景中，可以使用粗体字体、较大的字号和醒目的颜色，以提高信息的传达效果。也可以使用特效生成工具如影像处理工具(Adobe Photoshop)、3D文字生成器以及智能生成工具(Midjourney)等生成文本特效效果如艺术风格动效、3D字体效果、字体动效等的第二页面元素，同时还可以对字体进行排版如动力学排版、智能布局、文字背景修复等。如图1i所示的生成文本特效的示意图，当待处理页面元素为图像时，且该图像中包含文本信息，也可以通过标准样式识别、非标准样式识别以及OCR文字识别等方法，从图像中识别相应文本信息。并通过预设的文字特效如火焰特效，生成火焰效果的特效文字。可以使用该特效文字替换原始待处理页面元素中的文字，得到如图1j所示的第二页面元素。也可以将该特效文字直接作为第二页面元素，或将该特效文字添加在由其他内容信息转换得到的目标页面元素中。

在一些实施方式中，为了避免生成的多媒体页面中出现重复的内容，用于生成第二页面元素的文本信息不包含目标内容信息中的文本信息。例如，可以对指定页面区域对应的的布局要素如“主标题”的内容信息进行增强处理，对除“主标题”以外的其他文本形式的内容信息以预设的显示样式参数显示。

在一些实施方式中，可以对待处理多媒体页面中的文本信息进行合并处理，并生成相应的多媒体内容，以生成该页面整体文本内容匹配的新的多媒体内容，以提高页面整体信息的传达效果。具体地，目标待处理页面元素中的内容信息包括文本信息，目标页面元素包括第三页面元素，将目标待处理页面元素中的内容信息转换为目标页面元素，包括：

将多个文本信息进行合并处理，得到总文本信息；

生成总文本信息对应的目标多媒体内容，以得到第三页面元素。

其中，合并处理是指将多个文本信息进行整合，整合后的文本信息即为总文本信息。可以通过多种方法对多个文本信息进行合并处理，如将多个文本信息得到总文本信息，或对拼接后的文本信息进行推理总结，以形成一个统一、完整的文本信息。

其中，目标多媒体内容是指总文本信息对应的多媒体内容。目标多媒体内容可以包括但不限于图像、视频以及音频等中的至少一种。

例如，可以将从待处理多媒体页面中提取的文本1、文本2和文本3，拼接得到初始总文本信息如{文本1,文本2,文本3}。再使用预训练的模型如对话生成模型(ChatGPT)、预训练语言模型(BERT)等中的一种或多种对初始总文本信息进行推理总结，得到总文本信息，如可以将{文本1,文本2,文本3}作为模型的输入，使用模型中的编码器模块如将输入的句子或短语转化为向量表示，捕捉语义和上下文信息，再使用模型中的解码器，结合生成的上下文向量，逐步生成新的文本。在解码过程中，可以根据需要***转换词语、过渡短语等，以增加文本的连贯性。再将总文本信息输入生成模型如图像生成模型、视频生成模型或音频生成模型，以生成新的图像、视频或音频即目标多媒体内容，该目标多媒体内容即为第三页面元素。

在一些实施方式中，总文本信息可以由内容信息中的所有文本信息合并处理得到，以此获取待处理多媒体页面整体文本内容，提高页面整体信息的传达效果。

在一些实施方式中，可以从总文本信息中抽取关键文本，以引导生成相应语义的目标多媒体内容，以增加生成目标多媒体内容与原始待处理页面的语义表示的相关性。具体地，生成总文本信息对应的目标多媒体内容，以得到第三页面元素，包括：

从总文本信息中提取文本关键信息；

将文本关键信息作为语义引导信息，生成语义引导信息对应的目标多媒体内容，以得到第三页面元素。

其中，文本关键信息是指在给定的文本中具有特定意义或重要性的信息，如字、词或短语等。

其中，语义引导是指通过语义引导生成相应的内容。语义引导信息是指用于语义引导的信息，如字、词或短语等能表征语义的内容，语义引导信息的表现形式可以为文本、向量或其他形式的数据。

例如，可以使用基于统计学的关键词抽取方法如词频-逆文档频率法(TF-IDF)、基于图的排序算法(TextRank)等从总文本信息中提取文本关键词，或使用基于自然语言处理(NLP)的模型如门控循环单元(GRU)、序列到序列模型(seq2seq)从总文本信息中提取关键词。将提取的关键词作为稳定扩散模型(Stable Diffusion)的提示词即语义引导信息，稳定扩散模型利用了扩散过程中的随机性，基于提示词的引导，对初始噪声图像进行一系列渐进的扩散步骤，逐渐生成出高分辨率的真实样本图像。

在一些实施方式中，可以生成总文本信息的音频，以为多媒体页面提供声音效果，从听觉维度增强多媒体页面的内容展示效果。具体地，目标多媒体内容包括目标音频，生成总文本信息对应的目标多媒体内容，以得到第三页面元素，包括：

获取声音资源；

根据声音资源，生成总文本信息对应的目标音频，以得到第三页面元素。

其中，声音资源是指用于基于文本创作音频的数据。音频资源可以包括各种声音元素，如人声、乐器演奏、环境音效等。声音资源可以通过捕捉真实世界中的声音调整、编辑得到，也可以通过计算机生成或模拟得到。需说明的是，本申请获取的声音资源，需要获得该声音资源相关权利人同意或许可。

其中，目标音频是指总文本信息对应的音频。

例如，在获得真人声音的相应权利人的同意或许可的情形下，可以使用真人声音对声音资源获取工具如so-vits-svc进行训练，得到训练后的音色模型(即声音资源)，训练后的音色模型可以基于总文本信息生成相应的目标音频。

在一些实施方式中，在目标多媒体内容包括目标音频时，第三页面元素包括虚拟形象动画，该虚拟形象动画的音频为目标音频。例如，在得到用户同意或许可的情形下，可以获取用户的虚拟形象生成目标音频的虚拟形象动画。或者可以获取声音资源的音色特征匹配的虚拟形象，生成该虚拟形象的虚拟形象动画。例如，用户可以在如图1k所示的动画设置页面选择声音资源，以及虚拟形象或上传新的虚拟形象，该页面中还展示有总文本信息，用户在选择声音资源A和虚拟形象后，可以点击页面中的“生成”控件即生成图中的虚拟形象动画(即第三页面元素)。

在一些实施方式中，在内容信息包括文本信息时，可以根据文本信息的长短即文字数量，使用不同方法对不同文字数量的文本信息转换得到不同的页面元素，以避免生成的多媒体页面中出现重复的内容。

其中，文本数据量是指文本信息中包含的文字的数量，如可以对文本信息中携带意义的文字(即排除标点符号、空格和其他无意义的字符以外的文字)进行统计得到其文字数量。

例如，在从目标待处理元素中提取内容信息后，若提取的10个内容信息中包括5个文本信息，可以根据内容信息中各文本信息的文字数量，将文字数量低于预设数量的文本信息如文本信息1和文本信息3以预设的显示样式参数进行显示，以得到第二页面元素。预设数量是指根据应用场景或实际需要设置的数量。

150、由目标页面元素生成处理后的多媒体页面。

例如，可以将目标页面元素嵌入到指定页面中，以生成处理后的多媒体页面。其中，指定页面可以为根据应用场景或实际需要自定义的页面，也可以为与待处理多媒体页面格式或页面模板相同的页面。如，可以创建一个新的页面如web页面作为指定页面，也可以获取待处理多媒体页面的页面模板如待处理多媒体页面的web页面模板作为指定页面。

在实际应用中，可以根据目标页面元素的元素类型，以及其对应的内容信息对应的页面区域等，将目标页面元素嵌入到指定页面中。例如，可以将第一页面元素嵌入到指定页面中目标内容信息所对应的页面区域中，或根据互动路径在指定页面中对应的位置进行互动展示；或可以将第二页面元素嵌入到指定页面中该页面元素对应的内容信息所对应的页面区域中；或可以将视频或图像形式的第三页面元素嵌入到指定页面中布局要素“主体”所对应的页面区域；或可以将音频形式的第三页面元素嵌入到指定页面中作为背景音。若多个目标页面元素对应的页面区域全部或部分重叠，可以交替展示重叠的目标页面元素。或根据预设的展示图层优先级分层展示，如第二页面元素设置在最高优先级图层显示，第三页面元素设置在最低优先级图层显示，第一页面元素设置在中间图层显示。

在一些实施方式中，在将内容信息转换为目标页面元素时，可以预定义一个或多个预设的风格，对每个内容信息生成一个或多个风格的目标页面元素，由同一风格的目标页面元素生成该风格的多媒体页面，即可以得到一个或多个风格的多媒体页面。其中，预设的风格条件可以为显示风格，如动漫、写实、抽象、速写、水粉等。预设的风格还可以为待处理多媒体页面携带的页面标签如游戏、动漫等。需说明的是，为了生成任一风格的目标页面元素，可以使用该风格的样本训练相应的生成模型如图像生成模型、视频生成模型等，或使用将该风格相关的关键词加入语义引导信息中，以生成相应风格页面元素，或预设该风格对应的显示样式参数、增强处理方法如特效效果等。

在一些实施方式中，在生成处理后的多媒体页面后，可以对该页面进行修改，如修改显示的文本、图像、3D特效以及虚拟形象动画等。例如，用户可以在如图1k所示的动画设置页面中修改声音资源以及用于生成虚拟形象动画的虚拟形象，以生成新的虚拟形象动画，并使用新的虚拟形象动画替换处理后的多媒体页面中的虚拟形象动画。再如，也可以将自定义文本或替换后的多媒体页面中的图像输入图像生成模型，生成新的图像，并使用新的图像替换处理后的多媒体页面中的图像。

本申请实施例提供的多媒体页面的生成方案可以应用在各种多媒体页面生成场景中。比如，以电子商务场景中的多媒体页面为例，检测待处理多媒体页面中的待处理页面元素以及待处理页面元素的元素类型；对指定页面元素进行语义识别，以根据语义识别结果确定待处理多媒体页面的语义信息，指定页面元素为元素类型为指定元素类型的待处理页面元素；从待处理页面元素中，确定与语义信息关联的目标待处理页面元素；将目标待处理页面元素中的内容信息转换为目标页面元素；由目标页面元素生成处理后的多媒体页面。

由上可知，本申请实施例可以通过检测待处理多媒体页面的待处理页面元素，并转换得到新的目标页面元素，以由原始待处理多媒体页面自动、快速生成新的处理后的多媒体页面，简化多媒体页面的制作过程，提升多媒体页面制作效率。此外，通过检测待处理多媒体页面的元素类型，以基于指定元素类型的待处理页面元素确定待处理多媒体页面的语义信息，以此获取待处理多媒体页面中与语义信息相关的内容信息用于生成目标页面元素，减少冗余信息，增加生成的目标页面元素与待处理多媒体页面的关联关系，以提升生成的待处理多媒体页面的语义准确性。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，将以多媒体页面为落地页为例，对本申请实施例的方法进行详细说明。

如图2a所示，一种多媒体页面的生成方法具体流程如下：

210、获取待处理多媒体页面。

例如，该多媒体页面的生成方法可以由落地页广告工具***实现，广告主可以在该落地页广告工具***的管理端开始落地页衍生功能开关，以进入如图2b所示的落地页设置页面，广告主可以在该页面中选择落地页广告***中已有的落地页作为要处理的落地页，或点击页面中的“上传落地页”控件，上传要处理的落地页(即待处理多媒体页面)。在广告主选择要处理的落地页如落地页A后，该落地页广告***可以确定落地页A是否已被审核，若是，则自动触发衍生功能，该功能运行过程大概3分钟，可以选择后台运行该功能。若该落地页未被审核，则结束流程。

其中，落地页广告是指将广告链接指向一个专门制作的网页，以提高广告转化率的一种策略。这个网页通常包含与广告相关的信息、图片和视频，以吸引用户点击或者提交表单进行购买或其他行动。衍生功能是指由要处理的落地页生成新的落地页(即处理后的多媒体页面)的功能。

220、检测待处理多媒体页面中的待处理页面元素以及待处理页面元素的元素类型。

例如，在触发衍生功能后，落地页广告工具***可以调用预训练的落地页模型如YOLOv8网络模型检测落地页A中的落地页元素(即待处理页面元素)以及落地页元素的元素类型，为后续元素重建做准备。

其中，可以先使用多行业数据集对YOLOv8网络模型进行分类训练，以实现检测落地页中的落地页元素和元素类型的功能，再针对下游任务(泛化到具体落地页任务、场景)进行精调，最新形成预训练的落地页模型。

230、对指定页面元素进行语义识别，以根据语义识别结果确定待处理多媒体页面的语义信息。

指定页面元素为元素类型为指定元素类型的待处理页面元素。例如，如检测到了m个落地页元素，可以从该m个落地页元素中识别类型为“TextView”的落地页元素中的文本，如得到文本1、文本2和文本3，将所有提取的文本拼接得到{文本1,文本2,文本3}。再使用对话生成模型(ChatGPT)对拼接后的文本进行语义理解，输出文本的要点即语义关键词如“游戏”，并将其作为落地页A的语义信息。

240、从待处理页面元素中，确定与语义信息关联的目标待处理页面元素。

例如，可以从落地页A的m个落地页元素中检测与语义信息“游戏”关联的落地页元素1、落地页元素2、落地页元素4、落地页元素5作为要重建的落地页元素(即目标待处理页面元素)。

250、从目标待处理页面元素中提取内容信息。

例如，可以从不同元素类型的要重建的落地页元素分别提取其中的文本、图像等内容信息。如使用图像分割模型(SAM)切割得到内容信息。SAM全称为Segment Anything，是一种计算机视觉技术，它旨在将图像中的目标对象从背景中分离出来。这种技术可以在许多应用程序中使用，如图像分割、目标检测、虚拟现实、视频编辑和图像识别等。SegmentAnything技术使用各种算法，如卷积神经网络、区域分割、图像分割和边缘检测等来实现分割目标对象。这种技术的发展让计算机能够更好地理解图像，并识别和定位其中的不同对象，从而使计算机在各种应用领域中变得更加智能和有用。

260、将内容信息转换为目标页面元素。

例如，可以基于要重建的落地页元素的内容信息，对其进行重建，如生成操作特效、文本通过图像分割模型(SAM)切割并融合风格图用智能生成工具(Midjourney)生成艺术风格字、对话生成模型(ChatGPT)总结广告信息内容形成提示词，调用稳定扩散模型(Stable Diffusion)API的文生图功能或由图生图功能生成、通过声音资源获取工具(so-vits-svc)训练音色模型生成AI虚拟人(即虚拟形象)的音频以及由ChatGPT整合落地页中的信息，通过聊天机器人(Sad Talker)技术驱动头像图片转换为虚拟人视频，提取alpha(阿尔法)通道提取虚拟人动作帧，以生成虚拟形象动画。

其中，虚拟人又称数字人，是指人们在计算机上模拟出一个类似真人的虚拟人形象，虚拟人的研究领域涉及到人类的表现、运动和行为。Midjourney是一个由同名研究实验室开发的人工智能程序，可根据文本生成图像。Stable Diffusion是深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像，尽管它也可以应用于其他任务，如内补绘制、外补绘制，以及在提示词指导下产生图生图的翻译。Sad Talker是让图片说话的AI工具，输入文本、音色资源以及头部图像即可生成虚拟人视频。so-vits-svc，即AI克隆音色，是音频转音频，属于音色转换算法，支持正常的说话，也支持歌声的音色转换。ChatGPT全称聊天生成预训练转换器，是OpenAI开发的人工智能聊天机器人程序。该程序使用基于GPT-3.5、GPT-4架构的大语言模型并以强化学习训练。

具体地，可以通过对要重建的落地页元素在落地页A的界面位置(页面区域)定义、分类，来规划与指定页面区域匹配的目标内容信息的特效运动的路径(即互动路径)，最后进行特效融合，输出画面(即第一页面元素)。

可以通过图像分割模型(SAM)从图像中切割得到文本信息，使用智能生成工具(Midjourney)将文本信息与预设的风格图融合生成特效文字(即第二页面元素)。

可以通过对话生成模型(ChatGPT)总结落地页中的所有文本信息，得到总文本信息，并生成稳定扩散模型(Stable Diffusion)的提示词prompt(即语义引导信息)，然后由稳定扩散模型(Stable Diffusion)通过文生图方式重建图片以得到包含目标多媒体内容的第三页面元素，也可通过要重建的落地页元素中图像形式的落地页元素或目标多媒体内容，通过图生图生成更多风格图片供辅助选择。

可以通过声音资源获取工具(so-vits-svc)训练音色模型获取声音资源，再通过对话生成模型(ChatGPT)总结的总文本信息，根据用户选择的头像通过SadTalker技术，融合声音、文本、头像即可生成虚拟人视频之后提取alpha通道生成透明背景的AI虚拟人(即虚拟形象动画)即可内嵌进广告中。

可以通过three.js3D引擎重建对目标内容信息如商品图片或空间图片对应的要重建的落地元素进行3D商品重建和空间视觉从简。

270、由目标页面元素生成处理后的多媒体页面。

例如，可以创建一个页面目标与落地页A相同或相近的新的落地页(即指定页面)，将重建后的所有落地页元素嵌入到该新的落地页中，得到落地页B(即处理后的多媒体页面)。一个落地页可以包括多个落地页分页，例如，落地页可以包括加载页、幕布弹跳页、解锁角色页和角***页这些分页。

针对任一要重建的落地页元素，衍生功能可以基于其重建得到多个不同风格的重建后的落地页元素。可以将每种风格对应的所有重建后的落地页元素嵌入一个新的落地页，以得到该风格的落地页。以此若有N个风格，可以得到N个不同风格的落地页B，并回传至落地页广告工具***的管理端展示。

280、对处理后的多媒体页面进行修改，得到修改后的多媒体页面。

例如，广告主可以从落地页广告工具***展示的N个落地页B中选择满意的一张，进行二次AI辅助修改，如修改文字、图片、虚拟人(即虚拟形象)、3D资源等，可AI辅助重新生成多张以供选择，实时查看效果。

例如，落地页广告工具***可以包括如图2c所示的落地页修改页面，广告主可以在该页面中选择生成的落地页中的加载页进行修改，可以在该页面中修改加载页显示的标志图、虚拟人以及虚拟人的动作，并可以上传新的声音资源。

例如，落地页广告工具***可以包括如图2d所示的图像修改页面，广告主可以在该页面中更换图像生成模型、编辑提示词以及修改生成图像的风格，再广告主点击图中的“生成”控件后，可以生成图中的修改后的图像。该图像修改页面还可以提供图圣徒的功能。

290、将修改后的多媒体页面发送至内容投放***，以便客户端从内容投放***获取修改后的多媒体页面。

例如，广告主在修改后任一落地页后，可以点击如图2c所示的落地页修改页面中的“提交落地页”控件，由修改后的落地页(即修改后的多媒体内容)生成H5格式的压缩包，并上传至内容投放***，提供相应的在线链接，以便客户端应用通过该在线链接从内容投放***获取该压缩版，以展示该落地页，或直接投放至客户端应用中展示该落地页。

例如，在客户端应用中展示该落地页时，如图2e所示的客户端展示的落地页，该落地页展示有虚拟人动画，该动画的音频为目标音频，如播放男女声一唱一和配音，虚拟人会在关键节点做对应动作、口播，比如对广告商品做介绍动作、同时进行口播，商品3D化显示。该落地页中的文字、图片也对应进行了风格化特效得到特效文字和风格化图片。

由上可知，本申请实施例可以根据广告主配置的不同类型的落地页，由落地页模型检测后触发对应不同的落地页的衍生功能，提供落地页检测分类与页面重建，降低人工和素材成本，实现落地页的快速量产。同时，引入视觉、3D重建、文字特效、操作特效及AI虚拟人技术，丰富了落地页广告的趣味性，增加真实性和沉浸感，以提升用户留存，提高转化率。

为了更好地实施以上方法，本申请实施例还提供一种多媒体页面的生成装置，该多媒体页面的生成装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以多媒体页面的生成装置具体集成在服务器为例，对本申请实施例的方法进行详细说明。

例如，如图3所示，该多媒体页面的生成装置可以包括检测单元310、识别单元320、确定单元330、转换单元340以及生成单元350，如下：

(一)检测单元310

用于检测待处理多媒体页面中的待处理页面元素以及待处理页面元素的元素类型。

在一些实施方式中，检测单元310具体可以用于：对待处理多媒体页面进行特征提取，得到页面特征图；对页面特征图设置多个预测框；对预测框进行回归处理，以根据回归处理结果调整预测框的中心点，得到调整后的预测框；将调整后的预测框对应的页面元素确定为待处理页面元素。

在一些实施方式中，检测单元310具体可以用于：从页面特征图中，获取调整后的预测框中预测对象的对象特征；对对象特征进行分类，得到对象类型；将对象类型作为待处理页面元素的元素类型。

(二)识别单元320

用于对指定页面元素进行语义识别，以根据语义识别结果确定待处理多媒体页面的语义信息，指定页面元素为元素类型为指定元素类型的待处理页面元素。

在一些实施方式中，指定元素类型包括文本，识别单元320具体可以用于：从待处理多媒体页面中提取指定页面元素；对指定页面元素进行文本识别处理，得到初始文本信息；对初始文本信息进行语义理解，得到语义关键词，以根据语义关键词确定待处理多媒体页面的语义信息。

(三)确定单元330

用于从待处理页面元素中，确定与语义信息关联的目标待处理页面元素。

(四)转换单元340

用于将目标待处理页面元素中的内容信息转换为目标页面元素。

在一些实施方式中，目标页面元素包括第一页面元素，待处理多媒体页面包括多个页面区域，转换单元340具体可以用于：从多个页面区域中，确定目标待处理页面元素中的内容信息对应的目标页面区域；将与指定页面区域匹配的目标页面区域对应的内容信息确定为目标内容信息；对目标内容信息进行增强处理，得到第一页面元素。

在一些实施方式中，对目标内容信息进行增强处理，得到第一页面元素，包括：从目标内容信息中提取内容语义信息；将具有关联关系的内容语义信息对应的目标内容信息确定为关联内容信息；通过关联内容信息对应的指定增强处理方法，对关联内容信息进行增强处理，得到第一页面元素。

在一些实施方式中，通过关联内容信息对应的指定增强处理方法，对关联内容信息进行增强处理，得到第一页面元素，包括：根据多个关联内容信息对应的目标页面区域，确定互动路径；根据互动路径，生成关联内容信息对应的第一页面元素，第一页面元素包括沿互动路径进行互动的关联内容信息。

在一些实施方式中，目标待处理页面元素中的内容信息包括文本信息，目标页面元素包括第二页面元素，转换单元340具体可以用于：获取预设的显示样式参数；以预设的显示样式参数显示文本信息，以得到第二页面元素。

在一些实施方式中，目标待处理页面元素中的内容信息包括文本信息，目标页面元素包括第三页面元素，转换单元340具体可以用于：将所有文本信息进行合并处理，得到总文本信息；生成总文本信息对应的目标多媒体内容，以得到第三页面元素。

在一些实施方式中，生成总文本信息对应的目标多媒体内容，以得到第三页面元素，包括：从总文本信息中提取文本关键信息；将文本关键信息作为语义引导信息，生成语义引导信息对应的目标多媒体内容，以得到第三页面元素。

在一些实施方式中，目标多媒体内容包括目标音频，生成总文本信息对应的目标多媒体内容，以得到第三页面元素，包括：获取声音资源；根据声音资源，生成总文本信息对应的目标音频，以得到第三页面元素。

(五)生成单元350

用于由目标页面元素生成处理后的多媒体页面。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的多媒体页面的生成装置包括检测单元、识别单元、确定单元、转换单元以及生成单元。其中，检测单元，用于检测待处理多媒体页面中的待处理页面元素以及待处理页面元素的元素类型；识别单元，用于对指定页面元素进行语义识别，以根据语义识别结果确定待处理多媒体页面的语义信息，指定页面元素为元素类型为指定元素类型的待处理页面元素；确定单元，用于从待处理页面元素中，确定与语义信息关联的目标待处理页面元素；转换单元，用于将目标待处理页面元素中的内容信息转换为目标页面元素；生成单元，用于由目标页面元素生成处理后的多媒体页面。

由此，本申请实施例可以提升通过检测待处理多媒体页面的待处理页面元素，并转换得到新的目标页面元素，以由原始待处理多媒体页面自动、快速生成新的处理后的多媒体页面，简化多媒体页面的制作过程，提升多媒体页面制作效率。此外，通过检测待处理多媒体页面的元素类型，以基于指定元素类型的待处理页面元素确定待处理多媒体页面的语义信息，以此获取待处理多媒体页面中与语义信息相关的内容信息用于生成目标页面元素，减少冗余信息，增加生成的目标页面元素与待处理多媒体页面的关联关系，以提升生成的待处理多媒体页面的语义准确性。

本申请实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图4所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器410、一个或一个以上计算机可读存储介质的存储器420、电源430、输入模块440以及通信模块450等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器410是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行服务器的各种功能和处理数据。在一些实施例中，处理器410可包括一个或多个处理核心；在一些实施例中，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

存储器420可用于存储软件程序以及模块，处理器410通过运行存储在存储器420的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器420还可以包括存储器控制器，以提供处理器410对存储器420的访问。

服务器还包括给各个部件供电的电源430，在一些实施例中，电源430可以通过电源管理***与处理器410逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源430还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块440，该输入模块440可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块450，在一些实施例中通信模块450可以包括无线模块，服务器可以通过该通信模块450的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块450可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器410会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器420中，并由处理器410来运行存储在存储器420中的应用程序，从而实现各种功能，如下：

检测待处理多媒体页面中的待处理页面元素以及待处理页面元素的元素类型；对指定页面元素进行语义识别，以根据语义识别结果确定待处理多媒体页面的语义信息，指定页面元素为元素类型为指定元素类型的待处理页面元素；从待处理页面元素中，确定与语义信息关联的目标待处理页面元素；将目标待处理页面元素中的内容信息转换为目标页面元素；由目标页面元素生成处理后的多媒体页面。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本申请实施例通过检测待处理多媒体页面的待处理页面元素，并转换得到新的目标页面元素，以由原始待处理多媒体页面自动、快速生成新的处理后的多媒体页面，简化多媒体页面的制作过程，提升多媒体页面制作效率。此外，通过检测待处理多媒体页面的元素类型，以基于指定元素类型的待处理页面元素确定待处理多媒体页面的语义信息，以此获取待处理多媒体页面中与语义信息相关的内容信息用于生成目标页面元素，减少冗余信息，增加生成的目标页面元素与待处理多媒体页面的关联关系，以提升生成的待处理多媒体页面的语义准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种多媒体页面的生成方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序/指令，该计算机程序/指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序/指令，处理器执行该计算机程序/指令，使得该电子设备执行上述实施例中提供的各种可选实现方式中提供的方法。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种多媒体页面的生成方法中的步骤，因此，可以实现本申请实施例所提供的任一种多媒体页面的生成方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种多媒体页面的生成方法、装置、设备、介质和程序产品进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种多媒体页面的生成方法，其特征在于，包括：

检测待处理多媒体页面中的待处理页面元素以及所述待处理页面元素的元素类型；

对指定页面元素进行语义识别，以根据语义识别结果确定所述待处理多媒体页面的语义信息，所述指定页面元素为所述元素类型为指定元素类型的所述待处理页面元素；

从所述待处理页面元素中，确定与所述语义信息关联的目标待处理页面元素；

将所述目标待处理页面元素中的内容信息转换为目标页面元素；

由所述目标页面元素生成处理后的多媒体页面。

2.如权利要求1所述的多媒体页面的生成方法，其特征在于，所述待处理页面元素通过如下步骤检测得到：

对所述待处理多媒体页面进行特征提取，得到页面特征图；

对所述页面特征图设置多个预测框；

对所述预测框进行回归处理，以根据回归处理结果调整所述预测框的中心点，得到调整后的预测框；

将所述调整后的预测框对应的页面元素确定为待处理页面元素。

3.如权利要求2所述的多媒体页面的生成方法，其特征在于，所述待处理页面元素的元素类型通过如下步骤检测得到：

从所述页面特征图中，获取所述调整后的预测框中预测对象的对象特征；

对所述对象特征进行分类，得到对象类型；

将所述对象类型作为所述待处理页面元素的元素类型。

4.如权利要求1所述的多媒体页面的生成方法，其特征在于，所述指定元素类型包括文本，所述对指定页面元素进行语义识别，以根据语义识别结果确定所述待处理多媒体页面的语义信息，包括：

从所述待处理多媒体页面中提取所述指定页面元素；

对所述指定页面元素进行文本识别处理，得到初始文本信息；

对所述初始文本信息进行语义理解，得到语义关键词，以根据所述语义关键词确定所述待处理多媒体页面的语义信息。

5.如权利要求1所述的多媒体页面的生成方法，其特征在于，所述目标页面元素包括第一页面元素，所述待处理多媒体页面包括多个页面区域，所述将所述目标待处理页面元素中的内容信息转换为目标页面元素，包括：

从所述多个页面区域中，确定所述目标待处理页面元素中的所述内容信息对应的目标页面区域；

将与指定页面区域匹配的所述目标页面区域对应的内容信息确定为目标内容信息；

对所述目标内容信息进行增强处理，得到所述第一页面元素。

6.如权利要求5所述的多媒体页面的生成方法，其特征在于，所述对所述目标内容信息进行增强处理，得到所述第一页面元素，包括：

从所述目标内容信息中提取内容语义信息；

将具有关联关系的所述内容语义信息对应的所述目标内容信息确定为关联内容信息；

通过所述关联内容信息对应的指定增强处理方法，对所述关联内容信息进行增强处理，得到第一页面元素。

7.如权利要求6所述的多媒体页面的生成方法，其特征在于，所述通过所述关联内容信息对应的指定增强处理方法，对所述关联内容信息进行增强处理，得到第一页面元素，包括：

根据多个所述关联内容信息对应的所述目标页面区域，确定互动路径；

根据所述互动路径，生成所述关联内容信息对应的第一页面元素，所述第一页面元素包括沿所述互动路径进行互动的所述关联内容信息。

8.如权利要求1所述的多媒体页面的生成方法，其特征在于，所述目标待处理页面元素中的内容信息包括文本信息，所述目标页面元素包括第二页面元素，所述将所述目标待处理页面元素中的内容信息转换为目标页面元素，包括：

获取预设的显示样式参数；

以所述预设的显示样式参数显示所述文本信息，以得到所述第二页面元素。

9.如权利要求1所述的多媒体页面的生成方法，其特征在于，所述目标待处理页面元素中的内容信息包括文本信息，所述目标页面元素包括第三页面元素，所述将所述目标待处理页面元素中的内容信息转换为目标页面元素，包括：

将所有所述文本信息进行合并处理，得到总文本信息；

生成所述总文本信息对应的目标多媒体内容，以得到所述第三页面元素。

10.如权利要求9所述的多媒体页面的生成方法，其特征在于，所述生成所述总文本信息对应的所述目标多媒体内容，以得到所述第三页面元素，包括：

从所述总文本信息中提取文本关键信息；

将所述文本关键信息作为语义引导信息，生成所述语义引导信息对应的目标多媒体内容，以得到所述第三页面元素。

11.如权利要求9所述的多媒体页面的生成方法，其特征在于，所述目标多媒体内容包括目标音频，所述生成所述总文本信息对应的所述目标多媒体内容，以得到所述第三页面元素，包括：

获取声音资源；

根据所述声音资源，生成所述总文本信息对应的目标音频，以得到所述第三页面元素。

12.一种多媒体页面的生成装置，其特征在于，包括：

检测单元，用于检测待处理多媒体页面中的待处理页面元素以及所述待处理页面元素的元素类型；

识别单元，用于对指定页面元素进行语义识别，以根据语义识别结果确定所述待处理多媒体页面的语义信息，所述指定页面元素为所述元素类型为指定元素类型的所述待处理页面元素；

确定单元，用于从所述待处理页面元素中，确定与所述语义信息关联的目标待处理页面元素；

转换单元，用于将所述目标待处理页面元素中的内容信息转换为目标页面元素；

生成单元，用于由所述目标页面元素生成处理后的多媒体页面。

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～11任一项所述的多媒体页面的生成方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～11任一项所述的多媒体页面的生成方法中的步骤。

15.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1～11任一项所述的多媒体页面的生成方法中的步骤。