CN116737150A - 一种页面生成方法及装置 - Google Patents

一种页面生成方法及装置 Download PDF

Info

Publication number
CN116737150A
CN116737150A CN202310700895.9A CN202310700895A CN116737150A CN 116737150 A CN116737150 A CN 116737150A CN 202310700895 A CN202310700895 A CN 202310700895A CN 116737150 A CN116737150 A CN 116737150A
Authority
CN
China
Prior art keywords
page
initial
sample
information
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310700895.9A
Other languages
English (en)
Inventor
张天宇
吴通通
刘洋
杨帆
孙子钧
赵薇
柳景明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kanyun Software Co ltd
Original Assignee
Beijing Kanyun Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kanyun Software Co ltd filed Critical Beijing Kanyun Software Co ltd
Priority to CN202310700895.9A priority Critical patent/CN116737150A/zh
Publication of CN116737150A publication Critical patent/CN116737150A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/38Creation or generation of source code for implementing user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种页面生成方法及装置,其中所述页面生成方法包括:获取初始页面;提取并基于各页面元素的初始位置和初始尺寸,构建元素序列;利用自然语言模型,对元素序列中的各信息对进行位置关联分析,获得各页面元素的目标位置;基于各页面元素的目标位置,对各页面元素进行渲染,生成目标页面。通过提取得到的初始位置和初始尺寸,构建得到可以被自然语言模型处理的元素序列,利用自然语言模型的位置关联分析能力,完成对元素序列中信息对页面元素的位置的分析调整,高效率地得到高准确度的各页面元素的目标位置,在此基础上,渲染生成高美观度和高整齐度的目标页面,提升了页面生成的效率和准确度。

Description

一种页面生成方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种页面生成方法及装置、计算设备和计算机可读存储介质。
背景技术
随着计算机技术的发展,页面设计在软硬件产品开发过程中起到了极为重要的作用,整齐美观的页面可以极大提升软硬件产品的用户体验。
目前,在页面设计过程中,设计者需要对页面中的页面元素进行合理布局,包括对页面元素的位置进行调整来实现元素的对齐,这样的调整往往都是设计者手动实现的,例如,在前端界面中根据辅助线完成手动拖拽,又例如,对页面代码中页面元素的代码数值进行调整。
然而,这样的调整方式,往往需要耗费一定时间,在页面设计的效率要求越来越高的当下,元素位置调整效率不足,导致页面生成效率不足,且手动操作难以避免出现误差,元素调整的准确度不足,导致生成页面的页面元素的布局准确度不足,生成页面的美观度和整齐度不足。因而,亟需一种高效且高准确度的页面生成方法。
发明内容
有鉴于此,本申请实施例提供了一种页面生成方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种页面生成方法,包括:
获取初始页面,其中,初始页面包括多个页面元素;
提取并基于各页面元素的初始位置和初始尺寸,构建元素序列,其中,元素序列包括各页面元素对应的信息对,信息对包括初始位置和初始尺寸;
利用自然语言模型,对元素序列中的各信息对进行位置关联分析,获得各页面元素的目标位置,其中,自然语言模型基于各样本页面元素对应的样本信息对和标签位置训练得到;
基于各页面元素的目标位置,对各页面元素进行渲染,生成目标页面。
根据本申请实施例的第二方面,提供了一种页面生成装置,包括:
获取模块,被配置为获取初始页面,其中,初始页面包括多个页面元素;
构建模块,被配置为提取并基于各页面元素的初始位置和初始尺寸,构建元素序列,其中,元素序列包括各页面元素对应的信息对,信息对包括初始位置和初始尺寸;
分析模块,被配置为利用自然语言模型,对元素序列中的各信息对进行位置关联分析,获得各页面元素的目标位置,其中,自然语言模型基于各样本页面元素对应的样本信息对和标签位置训练得到;
渲染模块,被配置为基于各页面元素的目标位置,对各页面元素进行渲染,生成目标页面。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述页面生成方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述页面生成方法的步骤。
根据本申请实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行所述页面生成方法的步骤。
本申请一个或多个实施例中,获取初始页面,其中,初始页面包括多个页面元素;提取并基于各页面元素的初始位置和初始尺寸,构建元素序列,其中,元素序列包括各页面元素对应的信息对,信息对包括初始位置和初始尺寸;利用自然语言模型,对元素序列中的各信息对进行位置关联分析,获得各页面元素的目标位置,其中,自然语言模型基于各样本页面元素对应的样本信息对和标签位置训练得到;基于各页面元素的目标位置,对各页面元素进行渲染,生成目标页面。通过提取得到的初始页面中各页面元素的初始位置和初始尺寸,构建得到可以被自然语言模型处理的元素序列,利用自然语言模型的位置关联分析能力,完成对元素序列中信息对页面元素的位置的分析调整,得到高准确度的各页面元素的目标位置,在此基础上,渲染生成高美观度和高整齐度的目标页面,且自然语言模型具有自动高效的调整能力,提升了页面生成的效率。
附图说明
图1是本申请一个实施例提供的一种页面生成方法的流程图;
图2是本申请一个实施例提供的一种页面生成方法的处理流程图;
图3是本申请一个实施例提供的一种页面生成方法的页面示意图;
图4是本申请一个实施例提供的一种页面生成方法的自然语言模型的示意图;
图5是本申请一个实施例提供的一种应用程序前端页面设计的页面生成方法的处理过程流程图;
图6是本申请一个实施例提供的一种页面生成装置的结构示意图;
图7是本申请一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本申请一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
CNN(ConvolutionalNeuralNetworks,卷积神经网络)模型:一种具有前向传播和反向传播的多层神经网络模型。
LSTM(LongShortTermMemory,长短时记忆网络)模型:一种具有记忆长短期信息的能力的神经网络模型,具有对特征数据进行处理的卷积核(filter)。
Transformer(翻译)模型:一种基于注意力机制的神经网络模型,通过学习输入序列中上下文信息间的关系,来完成关联分析,实现对应的功能,例如,文本分类、关键词识别、词组调整等。
BERT(BidirectionalEncoderRepresentationsfromTransformer,双向语义编码)模型:一种对Transformer的优化神经网络模型,通过学习输入序列中上下文信息间的关系,来完成关联分析,实现对应的功能,例如,文本分类、关键词识别、词组调整等。
RoBERTa模型:一种对BERT模型进行适应性调整的神经网络模型,通过调整BERT模型对自然语言文本的编码机制,更好地实现对复杂编码的自然语言(例如,中文、日文这样的非符号自然语言)文本的特征提取。
Diffusion模型:是一种生成式神经网络模型,在一个可微的过程中对数据进行随机采样,而不是直接生成数据。通常,使用从每个采样点到其他采样点的信息的某个形式的权重来控制这个过程,从而模拟生成看起来自然的数据。
页面:在产品开发过程中,设计师为产品设计的视觉页面稿件,由一系列不同的页面元素按照自定义的布局排版组成。
对齐:对于杂乱的页面,通过调整页面元素的位置,使得页面元素之间的位置对齐,使页面或组件更加工整、美观。
HTML(HyperTextMarkupLanguage,超文本标记语言):是一种前端标记语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的网络资源连接为一个逻辑整体。HTML代码是由HTML命令组成的描述性代码文本,HTML代码可以说明文字,图形、动画、声音、表格、链接等。
JSON(JavaScriptObjectNotation):是一种轻量级的数据交换格式。易于人阅读和编写,可以在多种语言之间进行数据交换,同时也易于机器解析和生成。是JavaScriptProgramming Language的一个子集。
CSS(CascadingStyleSheets,层叠样式表):是一种用来表现HTML等文件样式的计算机语言。
在本申请中,提供了一种页面生成方法,本申请同时涉及一种页面生成装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本申请一个实施例提供的一种页面生成方法的流程图,包括如下具体步骤:
步骤102:获取初始页面,其中,初始页面包括多个页面元素。
本申请实施例应用于具有页面生成功能的页面设计应用、小程序或者网页,应用于该应用、小程序或者网页的客户端或者服务端。
初始页面为待执行元素调整的视觉页面稿件,包括:网页页面、操作***UI(UserInterface,用户界面)和应用程序界面。初始页面可以为视觉页面稿件的视觉内容,例如,某移动终端操作***的UI的视觉页面稿件的视觉内容,也可以为视觉页面稿件的代码内容,例如,某网页页面的视觉页面稿件为JSON文件,包含HTML代码。上述两种方式,在一种前端网页设计应用中体现为:用户可以通过拖拽并调整的方式,直观地完成视觉页面设计,也可以为通过输入代码,间接地完成视觉页面设计。
页面元素为组成视觉页面稿件的组件元素,页面元素具有对应的位置和尺寸,通过设置各页面元素的位置和尺寸完成页面布局。按照呈现的视觉页面稿件内容,页面元素分为文本、图像、视频、表格、按钮、输入框等类型。多个页面元素根据特定的布局实现排列组合,形成了视觉页面稿件的整体结构和风格,体现出美观感和整齐感。文本用于呈现视觉页面稿件文本内容的元素,包括文章、标题、段落等。图像用于呈现视觉页面稿件图像内容的元素。包括头像、图标、按钮图标等。视频用于呈现视觉页面稿件视频内容的元素,包括嵌入式视频和视频播放器。表格用于呈现视觉页面稿件数据统计内容的元素,包括表格标签、表格单元格和表格边框等。按钮用于呈现视觉页面稿件交互功能内容的元素,包括普通按钮、单选框、复选框、下拉菜单等。输入框用于呈现视觉页面稿件输入功能内容的元素,通常包括文本输入框、密码输入框、日期输入框等。
获取初始页面,可以为获取初始页面的视觉内容,也可以为获取初始页面的代码内容。
示例性地,设计者登录前端网页设计应用的客户端,在客户端上通过拖拽并调整的方式完成了直观地设计网页设计初稿,网页设计初稿包括文本、图像、视频、按钮、输入框5种类型的20个元素,获取该网页设计初稿的HTML代码:<styletype="text/css">body{width:100%;text-align:center;}div{width:100px;height:40px;border:1pxsolidred;display:inline-block;}#box2{margin:0px10px;}</style>……。
获取初始页面,其中,初始页面包括多个页面元素。为后续提取各页面元素的初始位置和初始尺寸奠定了基础,为构建元素序列提供了数据。
步骤104:提取并基于各页面元素的初始位置和初始尺寸,构建元素序列,其中,元素序列包括各页面元素对应的信息对,信息对包括初始位置和初始尺寸。
页面元素的初始位置为页面元素在初始页面中的位置信息。初始位置可以用坐标表示,例如,确定页面元素左上角的坐标为该页面元素的初始位置。初始位置也可以用绝对位置(HTML中的absolute属性)表示,例如,距顶部20像素,距左侧50像素。初始位置还可以用相对位置(HTML中的relative属性)表示,例如,相对于其他元素的顶部和左侧各20像素。初始位置还可以用固定位置(CSS中的position:fixed;属性)表示,例如,元素固定在页面的顶部和左侧。初始位置还可以用滚动位置(CSS中的overflow属性和scroll属性)表示,例如,元素超出页面部分可滚动,在此不作限定。
页面元素的初始尺寸为页面元素自身的尺寸大小信息。初始尺寸可以用长宽高(矩形)表示,也可以用半径大小(圆形),在此不作限定。
元素序列为包含有各页面元素的初始位置和初始尺寸的可编码信息序列,元素序列包括各页面元素对应的信息对。信息对为元素序列的序列单元,信息对与页面元素对应,信息对包括各页面元素的初始位置和初始尺寸,各信息对占据元素序列中对应的序列单元位置。例如,元素序列包括2个页面元素对应的信息对:{图像类型,(横坐标:2,纵坐标:2),(长:20,宽:20,)}和{文本类型,(横坐标:31,纵坐标:0),(长:80,宽:20)},元素序列为:[<s>,image,2,2,20,20,<p>,txt,31,0,80,20,</s>],[image,2,2,20,20]和[txt,31,0,80,20]为信息对,(2,2)和(31,0)为初始位置,(20,20)和(80,20)为初始尺寸。
提取各页面元素的初始位置和初始尺寸,具体方式为:利用预设提取算法,提取各页面元素的初始位置和初始尺寸。例如,在初始页面为视觉页面稿件的视觉内容的情况下,利用预设的边界框来提取,又例如,在初始页面为视觉页面稿件的代码内容的情况下,利用预设的字符串提取算法来提取。
基于各页面元素的初始位置和初始尺寸,构建元素序列,具体方式为:对各页面元素的初始位置和初始尺寸进行序列化处理,构建元素序列,其中,序列化处理包括但不限于:利用起始符、终止符和分隔符进行连接、对文本格式信息进行词表编码(例如,元素类型为图像类型,编码为image)和对数值格式信息进行归一化处理等。
示例性地,利用字符串提取算法,从网页设计初稿的HTML代码中提取得到20个元素的初始位置和初始尺寸:文本1{(横坐标:0,纵坐标:0),(长:100,宽20)};图像1{(横坐标:10,纵坐标:0),(长:20,宽:20)}……按钮3{(横坐标:200,纵坐标:150),(长:10,宽:10)},对20个页面元素的初始位置和初始尺寸进行序列化处理,构建元素序列SeqOfElements。
提取并基于各页面元素的初始位置和初始尺寸,构建元素序列,其中,元素序列包括各页面元素对应的信息对,信息对包括初始位置和初始尺寸。为后续自然语言模型进行编码奠定了基础,为利用自然语言模型进行关联分析奠定了基础。
步骤106:利用自然语言模型,对元素序列中的各信息对进行位置关联分析,获得各页面元素的目标位置,其中,自然语言模型基于各样本页面元素对应的样本信息对和标签位置训练得到。
本申请实施例中,自然语言模型(NLP,NaturalLanguageProcessing)为一种具有序列处理功能的神经网络模型,通过对输入信息序列进行类自然语言处理,实现对应的功能完成对非自然语言信息的处理。自然语言模型包括编码器和解码器,还可以包括嵌入层进行特征嵌入处理。自然语言模型的处理流程如下:利用编码器对输入的序列进行编码,编码具体是通过词表实现类自然语言编码,利用解码器对编码得到的编码特征向量进行解码,得到解码输出。该自然语言模型是通过有监督训练得到的,具体是基于各样本页面元素对应的样本信息对和标签位置训练得到的。该自然语言模型包括但不限于:CNN模型、LSTM模型、Transformer模型、BERT模型、RoBERTa模型和Diffusion模型。
页面元素的目标位置为页面元素经过位置调整后的位置信息,可以理解为页面元素的目标位置为与其他页面元素对齐后的位置信息。例如,页面元素的初始位置为:(横坐标:0,纵坐标:0),调整后的目标位置为:(横坐标:5,纵坐标:0)。
样本页面为用于模型训练的视觉页面稿件。样本页面元素为组成样本页面的组件元素。样本信息对为用于训练的样本元素序列的序列单元,样本信息对与样本页面元素对应。标签位置为用于有监督训练的样本页面元素在样本页面中的标注位置信息。
利用自然语言模型,对元素序列中的各信息对进行位置关联分析,获得各页面元素的目标位置,具体方式为:利用自然语言模型的全局分析机制,对元素序列中的各信息对进行位置关联分析,获得各页面元素的目标位置。全局分析机制为一种上下文分析机制,即通过输入序列中先输出的结果指导分析当前输出的结果,包括长短时记忆机制(对应LSTM模型)、注意力机制(对应Transformer模型、BERT模型和RoBERTa模型等)、节点变量关联机制(对应Diffusion模型)等。
示例性地,利用Transformer模型的注意力机制,对元素序列SeqOfElements中的各信息对进行位置关联分析,获得各页面元素的目标位置:文本1-(横坐标:0,纵坐标:0);图像1-(横坐标:12,纵坐标:0)……按钮3-(横坐标:208,纵坐标:154)。
利用自然语言模型,对元素序列中的各信息对进行位置关联分析,获得各页面元素的目标位置,其中,自然语言模型基于各样本页面元素对应的样本信息对和标签位置训练得到。利用自然语言模型的位置关联分析能力,完成对元素序列中信息对页面元素的位置的分析调整,得到高准确度的各页面元素的目标位置,且自然语言模型具有自动高效的调整能力,提升了位置调整效率。
步骤108:基于各页面元素的目标位置,对各页面元素进行渲染,生成目标页面。
目标页面为执行完成元素调整的视觉页面稿件,目标页面为视觉页面稿件的视觉内容,可以在前端进行显示。
基于各页面元素的目标位置,对各页面元素进行渲染,生成目标页面,具体方式为:基于各页面元素的目标位置,利用渲染器对各页面元素进行渲染,生成目标页面。渲染器包括但不限于:HTML+CSS渲染器和Canvas渲染器。
示例性地,基于20个页面元素的目标位置:文本1-(横坐标:0,纵坐标:0);图像1-(横坐标:12,纵坐标:0)……按钮3-(横坐标:208,纵坐标:154),替换网页设计初稿的HTML代码中的初始位置,利用Canvas渲染器对各页面元素进行渲染,生成网页设计调整稿,在网页设计应用的客户端前端显示该网页设计调整稿。
本申请实施例中,获取初始页面,其中,初始页面包括多个页面元素;提取并基于各页面元素的初始位置和初始尺寸,构建元素序列,其中,元素序列包括各页面元素对应的信息对,信息对包括初始位置和初始尺寸;利用自然语言模型,对元素序列中的各信息对进行位置关联分析,获得各页面元素的目标位置,其中,自然语言模型基于各样本页面元素对应的样本信息对和标签位置训练得到;基于各页面元素的目标位置,对各页面元素进行渲染,生成目标页面。通过提取得到的初始页面中各页面元素的初始位置和初始尺寸,构建得到可以被自然语言模型处理的元素序列,利用自然语言模型的位置关联分析能力,完成对元素序列中信息对页面元素的位置的分析调整,得到高准确度的各页面元素的目标位置,在此基础上,渲染生成高美观度和高整齐度的目标页面,且自然语言模型具有自动高效的调整能力,提升了页面生成的效率。
在本申请一种可选实施例中,步骤106包括如下具体步骤:
利用自然语言模型,对元素序列中各信息对中的初始位置进行掩码,并基于元素序列的上下文信息对掩码进行预测,获得各页面元素的目标位置。
本申请实施例中,自然语言模型为一种具有掩码机制的神经网络模型,通过对初始位置设置掩码,让自然语言模型基于上下文信息预测位置信息。通过这样的方式,实现了全局关联分析。例如,元素序列为[<s>,image,2,2,20,20,<p>,txt,31,0,80,20,</s>],对其中初始位置设置掩码,得到[<s>,image,mask,mask,20,20,<p>,txt,mask,mask,80,20,</s>]。根据两个信息对的元素类型和初始尺寸(两个页面元素宽度一致,在同一行,因此,纵坐标应该一致),进行预测。
元素序列的上下文信息为当前掩码在元素序列中上下文信息对中的元素信息,包括但不限于:初始尺寸、初始位置和已预测的目标位置。
利用自然语言模型,对元素序列中各信息对中的初始位置进行掩码,并基于元素序列的上下文信息对掩码进行预测,获得各页面元素的目标位置,具体方式为:利用自然语言模型,对元素序列中各信息对中的初始位置进行掩码,并基于元素序列的上下文信息对掩码进行一次预测或者逐个预测,获得各页面元素的目标位置。一次预测为直接对各掩码进行预测,获得各页面元素的目标位置。逐个预测为基于已预测页面元素的目标位置和初始尺寸,预测当前页面元素的目标位置的方式。
示例性地,利用Transformer模型,对元素序列SeqOfElements中各信息对中的初始位置进行掩码,并基于元素序列SeqOfElements中的上下文信息对掩码进行逐个预测,获得各页面元素的目标位置:文本1-(横坐标:0,纵坐标:0);图像1-(横坐标:12,纵坐标:0)……按钮3-(横坐标:208,纵坐标:154)。
利用自然语言模型,对元素序列中各信息对中的初始位置进行掩码,并基于元素序列的上下文信息对掩码进行预测,获得各页面元素的目标位置。基于掩码机制和上下文信息完成目标位置的预测,提升了自然语言模型对于信息对中位置的关注度,即提升了对位置的权重分配,得到更高准确度的各页面元素的目标位置。
在本申请一种可选实施例中,基于元素序列的上下文信息对掩码进行预测,获得各页面元素的目标位置,包括如下具体步骤:
按照元素序列中信息对的排序,基于相邻信息对中已预测的目标位置和初始尺寸,以及当前信息对中的初始尺寸,对当前信息对中的掩码进行预测,获得当前信息对对应的页面元素的目标位置。
通过逐个预测的方式,即实现了类文本生成的处理,类似于从前往后“一个个词生成”的方式,逐个生成了页面元素的目标位置,每生成一个页面元素的目标位置,利用了输入的初始位置同时利用了已预测的页面元素的目标位置,完成了全局预测。
相邻信息对为元素序列中与当前信息对处于相邻位置的至少一个信息对。例如,进行了掩码的元素序列为:[<s>,image,mask,mask,20,20,<p>,txt,mask,mask,80,20,</s>],其中,信息对[image,mask,mask,20,20]和信息对[txt,mask,mask,80,20]为相邻信息对。
示例性地,按照元素序列SeqOfElements中信息对的排序:文本1的信息对-图像1的信息对……按钮3的信息对,在预测图像1的目标位置时,基于文本1的信息对中已预测的目标位置(横坐标:0,纵坐标:0)和初始尺寸(长:100,宽20),以及图像1的信息对中的初始尺寸(长:20,宽:20),对图像1的信息对中的掩码进行预测,获得图像1的信息对对应的页面元素的目标位置:(横坐标:12,纵坐标:0)。
按照元素序列中信息对的排序,基于相邻信息对中已预测的目标位置和初始尺寸,以及当前信息对中的初始尺寸,对当前信息对中的掩码进行预测,获得当前信息对对应的页面元素的目标位置。通过逐个目标位置预测的方式,完成了全局信息的充分利用,进一步提升了得到的各页面元素的目标位置的准确度。
可选地,页面元素的信息对还包括页面元素的元素类型,页面元素的元素类型是在步骤104中提取得到的;
相应地,按照元素序列中信息对的排序,基于相邻信息对中已预测的目标位置和初始尺寸,以及当前信息对中的初始尺寸,对当前信息对中的掩码进行预测,获得当前信息对对应的页面元素的目标位置,包括如下具体步骤:
按照元素序列中信息对的排序,基于相邻信息对中已预测的目标位置、元素类型和初始尺寸,以及当前信息对中的元素类型和初始尺寸,对当前信息对中的掩码进行预测,获得当前信息对对应的页面元素的目标位置。
由于元素类型对于页面元素的位置存在相关影响,例如,尺寸相同图像元素一般在同一列,图像元素一般和文本元素在同一行,文本元素用于解释图像元素。因此,可以提取页面元素的元素类型并加入至信息对中,完成更为准确的预测。
示例性地,按照元素序列SeqOfElements中信息对的排序:文本1的信息对-图像1的信息对……按钮3的信息对,在预测图像1的目标位置时,基于文本1的信息对中已预测的(横坐标:0,纵坐标:0)、元素类型(文本类型)和初始尺寸(长:100,宽20),以及图像1的信息对中的元素类型(图像类型)和初始尺寸(长:20,宽:20),对图像1的信息对中的掩码进行预测,获得图像1的信息对对应的页面元素的目标位置:(横坐标:12,纵坐标:0)。
按照元素序列中信息对的排序,基于相邻信息对中已预测的目标位置、元素类型和初始尺寸,以及当前信息对中的元素类型和初始尺寸,对当前信息对中的掩码进行预测,获得当前信息对对应的页面元素的目标位置。在结合了页面元素的元素类型的情况下,通过逐个目标位置预测的方式,完成了全局信息更为充分的利用,进一步提升了得到的各页面元素的目标位置的准确度。
在本申请一种可选实施例中,在步骤106之前还包括如下具体步骤:
获取样本集,其中,样本集包括多个样本页面,任一样本页面包括多个样本页面元素,各样本页面元素携带有标签位置;
提取并基于各样本页面元素的参考位置和样本尺寸,构建样本元素序列,其中,样本元素序列包括各样本页面元素对应的样本信息对,样本信息对包括参考位置和样本尺寸,参考位置为对标签位置设置掩码或者对标签位置增加扰动得到的位置信息;
利用自然语言模型,对样本元素序列中的各样本信息对进行位置关联分析,获得各样本页面元素的预测位置;
基于各样本页面元素的预测位置和标签位置,计算损失值;
基于损失值,调整自然语言模型的模型参数,在达到预设训练结束条件的情况下,获得训练完成的自然语言模型。
样本集为进行自然语言模型训练的样本页面集合,样本集可以为人为构建的,也可以为直接获取的开源样本集,在此不作限定。样本集包括多个样本页面,样本页面为用于模型训练的视觉页面,样本页面可以为人为生成的视觉页面(例如,利用生成式神经网络模型生成),也可以为从现有视觉页面中采样得到(例如,利用页面获取工具,从现有网页上采样)。任一样本页面包括多个样本页面元素,样本页面元素为组成样本页面的组件元素,样本页面中样本页面元素是对齐的。各样本页面元素携带有标签位置,标签位置为用于有监督训练的样本页面元素在样本页面中的标注位置信息,标签位置为对齐的样本页面元素的位置信息。样本信息对为用于训练的样本元素序列的序列单元,样本信息对与样本页面元素对应。参考位置为对标签位置设置掩码或者对标签位置增加扰动得到的位置信息。设置掩码为对标签位置进行掩盖,让自然语言模型对样本元素序列中的各样本信息对进行位置关联分析预测出元素的位置。增加扰动为对标签位置的数值进行修改,可以通过增加噪声的方式或者随机修改的方式,让自然语言模型对样本元素序列中的各样本信息对进行位置关联分析预测出元素的位置。
样本页面元素的预测位置为自然语言模型输出的样本页面元素的位置信息,可以理解为自然语言模型完成了页面元素调整的结果,是自然语言模型预测的样本页面元素为与其他样本页面元素对齐后的位置信息。
损失值为预测位置和标签位置之间的位置信息差异值,例如,余弦损失值、最小化均方误差损失值(MSE,MeanSquaredError)和交叉熵损失值。
预设训练结束条件为预先设定的训练结束的判断条件,可以为预设的训练迭代次数阈值,也可以为预设的损失值阈值,还可以为预设的自然语言模型的收敛条件,在此不作限定。
基于损失值,调整自然语言模型的模型参数,具体方式为:基于损失值,利用梯度下降法,调整自然语言模型的模型参数。
示例性地,利用页面获取工具,从现有网页上采样100个元素对齐的网页,构建得到样本集,该样本集包括100个样本页面,任一样本页面包括多个样本页面元素,对各样本页面元素的原始位置进行标注并设置为标签位置,对标签位置进行掩码得到参考位置,提取并基于多个样本页面元素的参考位置和样本尺寸,构建样本元素序列SampleSeqOfElements,利用Transformer模型,对样本元素序列SampleSeqOfElements中的各样本信息对进行位置关联分析,获得各样本页面元素的预测位置,基于各样本页面元素的预测位置和标签位置,计算损失值,基于损失值,利用梯度下降法,调整自然语言模型的模型参数,在达到预设的自然语言模型的收敛条件的情况下,获得训练完成的Transformer模型。
获取样本集,其中,样本集包括多个样本页面,任一样本页面包括多个样本页面元素,各样本页面元素携带有标签位置;提取并基于各样本页面元素的参考位置和样本尺寸,构建样本元素序列,其中,样本元素序列包括各样本页面元素对应的样本信息对,样本信息对包括参考位置和样本尺寸,参考位置为对标签位置设置掩码或者对标签位置增加扰动得到的位置信息;利用自然语言模型,对样本元素序列中的各样本信息对进行位置关联分析,获得各样本页面元素的预测位置;基于各样本页面元素的预测位置和标签位置,计算损失值;基于损失值,调整自然语言模型的模型参数,在达到预设训练结束条件的情况下,获得训练完成的自然语言模型。通过对标签位置设置掩码或者对标签位置增加扰动得到参考位置,基于样本页面元素的参考位置和标签位置,对自然语言模型进行了有监督训练,得到了高性能的自然语言模型,在后续的应用过程中,完成了对页面元素更为准确的调整,得到准确度更高的页面元素的目标位置。
在本申请一种可选实施例中,步骤104中提取各页面元素的初始位置和初始尺寸,构建元素序列,包括如下具体步骤:
利用预设的边界框,提取各页面元素的初始位置和初始尺寸。
在初始页面为视觉页面稿件的视觉内容的情况下,利用预设的边界框完成元素位置和元素尺寸的提取,在位置和尺寸存在模糊的情况下,实现了更准确的提取,提升了后续构建的元素序列的准确度和可编码性。例如,某图像元素为不规则形状的图像元素,通过预设的边界框,用矩形的形式表达了该图像元素的初始位置和初始尺寸。
边界框为一种预设的规则形状的视觉内容识别框,包括矩形框、圆形框和多边形框等。通过边界框,可以将边界框确定的位置和尺寸确定为页面元素的初始尺寸和初始位置。例如,边界框是适应性调整位置和尺寸的,利用边界框确定初始页面中某一页面元素,此时边界框的位置和尺寸即为该页面元素的初始位置和初始尺寸。
示例性地,利用预设的边界框,提取得到20个元素的初始位置和初始尺寸:文本1{(横坐标:0,纵坐标:0),(长:100,宽20)};图像1{(横坐标:10,纵坐标:0),(长:20,宽:20)}……按钮3{(横坐标:200,纵坐标:150),(长:10,宽:10)}。
利用预设的边界框,提取各页面元素的初始位置和初始尺寸。实现了更准确的提取,提升了后续构建的元素序列的准确度和可编码性。
在本申请一种可选实施例中,步骤104包括如下具体步骤:
提取任一页面元素的初始位置和初始尺寸,组成任一页面元素对应的信息对;
拼接各页面元素对应的信息对,获得元素序列。
拼接各页面元素对应的信息对,获得元素序列,具体方式为:利用起始符、分隔符和终止符,拼接各页面元素对应的信息对,获得元素序列。其中,起始符为序列起始标志的字符,分隔符为信息对之间分隔标志的字符,终止符为序列终止标志的字符。
示例性地,提取20个页面元素的初始位置和初始尺寸:文本1{(横坐标:0,纵坐标:0),(长:100,宽20)};图像1{(横坐标:10,纵坐标:0),(长:20,宽:20)}……按钮3{(横坐标:200,纵坐标:150),(长:10,宽:10)},组成20个页面元素对应的信息对,利用起始符(<s>)、分隔符(<p>)和终止符(</s>),拼接各页面元素对应的信息对,获得元素序列[<s>,txt,0,0,100,20,<p>,image,10,0,20,20,<p>……<p>,button,200,150,10,10,</s>]。
提取任一页面元素的初始位置和初始尺寸,组成任一页面元素对应的信息对;拼接各页面元素对应的信息对,获得元素序列。获得了按照顺序排列信息对的元素序列,为后续进行位置关联分析奠定了基础,提升了利用自然语言模型进行位置关联分析的准确度。
在本申请一种可选实施例中,在组成任一页面元素对应的信息对之前,还包括如下具体步骤:
识别任一页面元素的元素类型;
相应地,组成任一页面元素对应的信息对,包括如下具体步骤:
根据任一页面元素的元素类型、初始位置和初始尺寸,组成任一页面元素对应的信息对。
页面元素的元素类型为页面元素呈现的视觉页面稿件内容类型,包括但不限于:文本类型、图像类型、视频类型、表格类型、按钮类型和输入框类型。
识别任一页面元素的元素类型,可以为利用预设的视觉内容识别算法识别得到,例如OCR识别算法和基于深度学习的页面元素分类算法,也可以为利用预设的字符串提取算法来提取得到,在此不作限定。
示例性地,利用预设的字符串提取算法,从网页设计初稿的HTML代码(<styletype="text/css">body{width:100%;text-align:center;}div{width:100px;height:40px;border:1pxsolidred;display:inline-block;}#box2{margin:0px10px;}</style>……)提取得到页面元素的元素类型为“text(文本)”。根据该页面元素的元素类型(文本类型)、初始位置(横坐标:0,纵坐标:10)和初始尺寸(长:100,宽:40),组成任一页面元素对应的信息对[txt,(0,10),(100,40)]。
识别任一页面元素的元素类型;根据任一页面元素的元素类型、初始位置和初始尺寸,组成任一页面元素对应的信息对。得到了信息更为全面丰富的信息对,构建得到全面的元素序列,为后续提升了位置关联分析,得到更准确的目标位置奠定了基础。
在本申请一种可选实施例中,在步骤104中基于各页面元素的初始位置和初始尺寸,构建元素序列之前,还包括如下具体步骤:
对各页面元素的初始位置和初始尺寸进行归一化处理。
归一化处理可以为将初始位置和初始尺寸转换为特定数值,例如,将提取的各页面元素的初始位置和初始尺寸从实数转换为整数。也可以为将数值投射至一个预设数值范围,例如,将数值投射在[0,512]范围内,实现等比例的缩放,还可以为上述两种方式的结合,在此不作限定。
示例性地,将初始位置(124.4,9.2)和初始尺寸(19.9,20.4)从实数转换为整数初始位置(124,9)和初始尺寸(20,20),并将数值投射至一个预设数值范围[0,512]。
对各页面元素的初始位置和初始尺寸进行归一化处理。为构建可编码的元素序列奠定了基础,为后续利用自然语言模型完成位置关联分析奠定了基础。
图2示出了本申请一个实施例提供的一种页面生成方法的处理流程图,如图2所示:
选择初始页面中的多个页面元素,提取并各页面元素的初始位置和初始尺寸,基于各页面元素的初始位置和初始尺寸,构建元素序列,并将元素序列输入预先训练的自然语言模型,输出各页面元素的目标位置,基于各页面元素的目标位置,对各页面元素进行渲染,生成目标页面。
图3示出了本申请一个实施例提供的一种页面生成方法的页面示意图,如图3所示:
对齐前:元素之间的位置混乱无规律,页面的美观度和整齐度不足。对齐后:元素按照在同一水平线上,页面的美观度和整齐度高。
图4示出了本申请一个实施例提供的一种页面生成方法的自然语言模型的示意图,如图4所示:
自然语言模型为编码器-解码器结构的Transformer模型,在编码器前设置有序列嵌入层。元素序列[<起始符>,图像类型,2,2,20,20,<分隔符>,文本类型,31,0,80,20……<终止符>],将该元素序列输入序列嵌入层,进行特征嵌入后输入编码器和解码器完成位置关联分析,输出元素对齐的元素序列:[<起始符>,图像类型,0,0,20,20,<分隔符>,文本类型,28,0,80,20……<终止符>],确定页面元素的目标位置为:图像类型元素-(0,0);文本类型元素-(28,0)……。
下述结合附图5,以本申请提供的页面生成方法在应用程序前端页面设计的应用为例,对所述页面生成方法进行进一步说明。其中,图2示出了本申请一个实施例提供的一种应用程序前端页面设计的页面生成方法的处理过程流程图,具体包括如下步骤:
步骤502:获取初始应用程序前端页面,其中,初始应用程序前端页面包括多个页面元素。
步骤504:提取任一页面元素的元素类型、初始位置和初始尺寸,组成任一页面元素对应的信息对。
步骤506:拼接各页面元素对应的信息对,获得元素序列。
步骤508:利用自然语言模型的掩码机制,对元素序列中各信息对中的初始位置进行掩码。
步骤510:利用自然语言模型的注意力机制,按照元素序列中信息对的排序,基于相邻信息对中已预测的目标位置、元素类型和初始尺寸,以及当前信息对中的元素类型和初始尺寸,对当前信息对中的掩码进行预测,获得当前信息对对应的页面元素的目标位置。
步骤512:基于各页面元素的目标位置,对各页面元素进行渲染,生成目标应用程序前端页面。
本申请实施例中,通过提取得到的初始应用程序前端页面中各页面元素的初始位置和初始尺寸,构建得到可以被自然语言模型处理的元素序列,利用自然语言模型的位置关联分析能力,完成对元素序列中信息对页面元素的位置的分析调整,得到高准确度的各页面元素的目标位置,在此基础上,渲染生成高美观度和高整齐度的目标应用程序前端页面,且自然语言模型具有自动高效的调整能力,提升了页面生成的效率。
与上述方法实施例相对应,本申请还提供了页面生成装置实施例,图6示出了本申请一个实施例提供的一种页面生成装置的结构示意图。如图6所示,该装置包括:
获取模块602,被配置为获取初始页面,其中,初始页面包括多个页面元素;
构建模块604,被配置为提取并基于各页面元素的初始位置和初始尺寸,构建元素序列,其中,元素序列包括各页面元素对应的信息对,信息对包括初始位置和初始尺寸;
分析模块606,被配置为利用自然语言模型,对元素序列中的各信息对进行位置关联分析,获得各页面元素的目标位置,其中,自然语言模型基于各样本页面元素对应的样本信息对和标签位置训练得到;
渲染模块608,被配置为基于各页面元素的目标位置,对各页面元素进行渲染,生成目标页面。
可选地,分析模块606被进一步配置为:
利用自然语言模型,对元素序列中各信息对中的初始位置进行掩码,并基于元素序列的上下文信息对掩码进行预测,获得各页面元素的目标位置。
可选地,分析模块606被进一步配置为:
按照元素序列中信息对的排序,基于相邻信息对中已预测的目标位置和初始尺寸,以及当前信息对中的初始尺寸,对当前信息对中的掩码进行预测,获得当前信息对对应的页面元素的目标位置。
可选地,该装置还包括:
训练模块,被配置为获取样本集,其中,样本集包括多个样本页面,任一样本页面包括多个样本页面元素,各样本页面元素携带有标签位置;提取并基于各样本页面元素的参考位置和样本尺寸,构建样本元素序列,其中,样本元素序列包括各样本页面元素对应的样本信息对,样本信息对包括参考位置和样本尺寸,参考位置为对标签位置设置掩码或者对标签位置增加扰动得到的位置信息;利用自然语言模型,对样本元素序列中的各样本信息对进行位置关联分析,获得各样本页面元素的预测位置;基于各样本页面元素的预测位置和标签位置,计算损失值;基于损失值,调整自然语言模型的模型参数,在达到预设训练结束条件的情况下,获得训练完成的自然语言模型。
可选地,构建模块604被进一步配置为:
利用预设的边界框,提取各页面元素的初始位置和初始尺寸。
可选地,构建模块604被进一步配置为:
提取任一页面元素的初始位置和初始尺寸,组成任一页面元素对应的信息对;拼接各页面元素对应的信息对,获得元素序列。
可选地,该装置还包括:
识别模块,被配置为识别任一页面元素的元素类型;
相应地,构建模块604被进一步配置为:
根据任一页面元素的元素类型、初始位置和初始尺寸,组成任一页面元素对应的信息对。
可选地,该装置还包括:
归一化模块,被配置为对各页面元素的初始位置和初始尺寸进行归一化处理。
本申请实施例中,获取初始页面,其中,初始页面包括多个页面元素;提取并基于各页面元素的初始位置和初始尺寸,构建元素序列,其中,元素序列包括各页面元素对应的信息对,信息对包括初始位置和初始尺寸;利用自然语言模型,对元素序列中的各信息对进行位置关联分析,获得各页面元素的目标位置,其中,自然语言模型基于各样本页面元素对应的样本信息对和标签位置训练得到;基于各页面元素的目标位置,对各页面元素进行渲染,生成目标页面。通过提取得到的初始页面中各页面元素的初始位置和初始尺寸,构建得到可以被自然语言模型处理的元素序列,利用自然语言模型的位置关联分析能力,完成对元素序列中信息对页面元素的位置的分析调整,得到高准确度的各页面元素的目标位置,在此基础上,渲染生成高美观度和高整齐度的目标页面,且自然语言模型具有自动高效的调整能力,提升了页面生成的效率。
上述为本实施例的一种页面生成装置的示意性方案。需要说明的是,该页面生成装置的技术方案与上述的页面生成方法的技术方案属于同一构思,页面生成装置的技术方案未详细描述的细节内容,均可以参见上述页面生成方法的技术方案的描述。
图7示出了根据本申请一个实施例提供的一种计算设备的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN,PublicSwitchedTelephoneNetwork)、局域网(LAN,LocalAreaNetwork)、广域网(WAN,WideAreaNetwork)、个域网(PAN,PersonalAreaNetwork)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterfacecontroller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocalAreaNetwork)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperabilityforMicrowaveAccess)接口、以太网接口、通用串行总线(USB,UniversalSerialBus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,NearFieldCommunication)。
在本申请的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,PersonalComputer)的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述页面生成方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的页面生成方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述页面生成方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述页面生成方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的页面生成方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述页面生成方法的技术方案的描述。
本申请一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述页面生成方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的页面生成方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述页面生成方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地域,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请实施例的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (11)

1.一种页面生成方法,其特征在于,包括:
获取初始页面,其中,所述初始页面包括多个页面元素;
提取并基于各页面元素的初始位置和初始尺寸,构建元素序列,其中,所述元素序列包括所述各页面元素对应的信息对,所述信息对包括所述初始位置和初始尺寸;
利用自然语言模型,对所述元素序列中的各信息对进行位置关联分析,获得所述各页面元素的目标位置,其中,所述自然语言模型基于各样本页面元素对应的样本信息对和标签位置训练得到;
基于所述各页面元素的目标位置,对所述各页面元素进行渲染,生成目标页面。
2.根据权利要求1所述的方法,其特征在于,所述利用自然语言模型,对所述元素序列中的各信息对进行位置关联分析,获得所述各页面元素的目标位置,包括:
利用所述自然语言模型,对所述元素序列中各信息对中的初始位置进行掩码,并基于所述元素序列的上下文信息对所述掩码进行预测,获得所述各页面元素的目标位置。
3.根据权利要求2所述的方法,其特征在于,所述基于所述元素序列的上下文信息对所述掩码进行预测,获得所述各页面元素的目标位置,包括:
按照所述元素序列中信息对的排序,基于相邻信息对中已预测的目标位置和初始尺寸,以及当前信息对中的初始尺寸,对所述当前信息对中的掩码进行预测,获得当前信息对对应的页面元素的目标位置。
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述利用自然语言模型,对所述元素序列中的各信息对进行位置关联分析,获得所述各页面元素的目标位置之前,还包括:
获取样本集,其中,所述样本集包括多个样本页面,任一样本页面包括多个样本页面元素,各样本页面元素携带有标签位置;
提取并基于所述各样本页面元素的参考位置和样本尺寸,构建样本元素序列,其中,所述样本元素序列包括所述各样本页面元素对应的样本信息对,所述样本信息对包括所述参考位置和样本尺寸,所述参考位置为对所述标签位置设置掩码或者对所述标签位置增加扰动得到的位置信息;
利用所述自然语言模型,对所述样本元素序列中的各样本信息对进行位置关联分析,获得所述各样本页面元素的预测位置;
基于所述各样本页面元素的预测位置和标签位置,计算损失值;
基于所述损失值,调整所述自然语言模型的模型参数,在达到预设训练结束条件的情况下,获得训练完成的自然语言模型。
5.根据权利要求1所述的方法,其特征在于,所述提取各页面元素的初始位置和初始尺寸,构建元素序列,包括:
利用预设的边界框,提取各页面元素的初始位置和初始尺寸。
6.根据权利要求1所述的方法,其特征在于,所述基于各页面元素的初始位置和初始尺寸,构建元素序列,包括:
提取任一页面元素的初始位置和初始尺寸,组成所述任一页面元素对应的信息对;
拼接各页面元素对应的信息对,获得元素序列。
7.根据权利要求6所述的方法,其特征在于,在所述组成所述任一页面元素对应的信息对之前,还包括:
识别所述任一页面元素的元素类型;
相应地,所述组成所述任一页面元素对应的信息对,包括:
根据所述任一页面元素的元素类型、初始位置和初始尺寸,组成所述任一页面元素对应的信息对。
8.根据权利要求1所述的方法,其特征在于,在所述基于各页面元素的初始位置和初始尺寸,构建元素序列之前,还包括:
对各页面元素的初始位置和初始尺寸进行归一化处理。
9.一种页面生成装置,其特征在于,包括:
获取模块,被配置为获取初始页面,其中,所述初始页面包括多个页面元素;
构建模块,被配置为提取并基于各页面元素的初始位置和初始尺寸,构建元素序列,其中,所述元素序列包括所述各页面元素对应的信息对,所述信息对包括所述初始位置和初始尺寸;
分析模块,被配置为利用自然语言模型,对所述元素序列中的各信息对进行位置关联分析,获得所述各页面元素的目标位置,其中,所述自然语言模型基于各样本页面元素对应的样本信息对和标签位置训练得到;
渲染模块,被配置为基于所述各页面元素的目标位置,对所述各页面元素进行渲染,生成目标页面。
10.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-8任意一项所述方法的步骤。
11.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。
CN202310700895.9A 2023-06-13 2023-06-13 一种页面生成方法及装置 Pending CN116737150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310700895.9A CN116737150A (zh) 2023-06-13 2023-06-13 一种页面生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310700895.9A CN116737150A (zh) 2023-06-13 2023-06-13 一种页面生成方法及装置

Publications (1)

Publication Number Publication Date
CN116737150A true CN116737150A (zh) 2023-09-12

Family

ID=87910960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310700895.9A Pending CN116737150A (zh) 2023-06-13 2023-06-13 一种页面生成方法及装置

Country Status (1)

Country Link
CN (1) CN116737150A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573123A (zh) * 2023-11-22 2024-02-20 南京数睿数据科技有限公司 应用于网页应用的页面生成方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573123A (zh) * 2023-11-22 2024-02-20 南京数睿数据科技有限公司 应用于网页应用的页面生成方法、装置和电子设备
CN117573123B (zh) * 2023-11-22 2024-05-28 南京数睿数据科技有限公司 应用于网页应用的页面生成方法、装置和电子设备

Similar Documents

Publication Publication Date Title
JP6595714B2 (ja) 動的な効果を有する2次元コード画像を生成するための方法および装置
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
JP2023541119A (ja) 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111931517A (zh) 文本翻译方法、装置、电子设备以及存储介质
WO2024046189A1 (zh) 文本生成方法以及装置
WO2023202197A1 (zh) 文本识别方法及相关装置
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
Ponsard et al. An ocr-enabled digital comic books viewer
CN116737150A (zh) 一种页面生成方法及装置
CN116797868A (zh) 文本图像生成方法以及扩散生成模型训练方法
CN117372570A (zh) 广告图像生成方法、装置
CN114550239A (zh) 视频生成方法及装置、存储介质、终端
CN113705300A (zh) 音转文训练语料的获取方法、装置、设备以及存储介质
CN114218889A (zh) 文档处理及文档模型的训练方法、装置、设备和存储介质
CN117132456A (zh) 图像生成方法、装置、电子设备及存储介质
CN115661829A (zh) 图文识别方法及图文识别模型的数据处理方法
CN112784573B (zh) 文本情感内容分析方法、装置、设备及存储介质
CN107766498A (zh) 用于生成信息的方法和装置
CN112100501A (zh) 信息流的处理方法、装置及电子设备
CN117093864A (zh) 文本生成模型训练方法以及装置
CN117011875A (zh) 多媒体页面的生成方法、装置、设备、介质和程序产品
CN116740505A (zh) 图像分类模型的训练、图像分类方法、装置、机器可读介质及设备
CN116956953A (zh) 翻译模型的训练方法、装置、设备、介质及程序产品
CN111583352B (zh) 一种用于移动终端的风格化图标智能生成方法
CN110929767B (zh) 一种字形处理方法、***、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination