CN117669493A - 基于显著性检测的智能图文排版方法及*** - Google Patents
基于显著性检测的智能图文排版方法及*** Download PDFInfo
- Publication number
- CN117669493A CN117669493A CN202311679915.5A CN202311679915A CN117669493A CN 117669493 A CN117669493 A CN 117669493A CN 202311679915 A CN202311679915 A CN 202311679915A CN 117669493 A CN117669493 A CN 117669493A
- Authority
- CN
- China
- Prior art keywords
- typesetting
- text
- text data
- image
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000007781 pre-processing Methods 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims description 68
- 230000006870 function Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 20
- 238000012795 verification Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000013135 deep learning Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 19
- 238000010586 diagram Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于显著性检测的智能图文排版方法及***,解决了现有文本识别技术只能对单一文本类型或通用领域的文本进行识别排版,无法应用于更广泛的领域并提高图文排版准确性和效率的问题,方法包括获取图文数据,提取文本数据中全局语义和关键词特征;基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果,计算第一预测结果以及第二预测结果的排版平衡值;本发明实施例通过预训练的显著性检测模型对预处理集中文本数据进行显著性检测,从而可以有效提取不同类型文本数据中的全局语义和关键词特征,同时结合排版拼接模型对文本排版进行预测,使得排版结果更为精准有效。
Description
技术领域
本发明属于文本编辑技术领域,具体涉及基于显著性检测的智能图文排版方法及***。
背景技术
在人工智能和图像处理技术领域中,文本识别技术是一项重要的技术手段,在用户日常使用电子设备的过程中占有着举足轻重的地位,编辑工作者在日常生活中借助文本识别技术可以快速精准的提取文本中每个字符的笔画、轮廓、特征角等几何特征,同时,借助文本识别技术可以极大的提高文本排版以及编辑效率,深入研究和思考文本识别技术的发展方向和应用场景,对推动技术进步也具有重要意义。
现有文本识别技术只能对单一文本类型或通用领域的文本进行识别排版,如何应用文本识别技术于更广泛的领域并提高图文排版的准确性和效率成为亟需解决的问题,基于此,我们提出了基于显著性检测的智能图文排版方法及***。
发明内容
本发明的目的在于针对现有技术的不足之处,提供基于显著性检测的智能图文排版方法及***,解决了现有文本识别技术只能对单一文本类型或通用领域的文本进行识别排版,无法应用于更广泛的领域并提高图文排版准确性和效率的问题。
现有文本识别技术只能对单一文本类型或通用领域的文本进行识别排版,如何应用文本识别技术于更广泛的领域并提高图文排版的准确性和效率成为亟需解决的问题,基于此,我们提出了基于显著性检测的智能图文排版方法及***,简而言之,所述方法具体包括获取图文数据,并对获取到的图文数据预处理,然后基于预训练的显著性检测模型对预处理集中文本数据进行显著性检测,提取文本数据中全局语义和关键词特征,然后基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果,基于预训练的排版拼接模型对全局语义和关键词特征进行二次拼接,得到第二预测结果,计算所述第一预测结果以及第二预测结果的排版平衡值,以排版平衡值高的预测结果为输出,同时还可以基于深度学***衡值,使得排版结果更为精准有效,同时还能结合图像数据中像素点特征值,计算排版预测队列中多组排版版式的显著度,得到图文排版结果,从而快速精准的生成图文排版结果。
本发明是这样实现的,基于显著性检测的智能图文排版方法,所述基于显著性检测的智能图文排版方法包括:
获取图文数据,并对获取到的图文数据预处理,生成预处理集;
加载预处理集,基于预训练的显著性检测模型对预处理集中文本数据进行显著性检测,提取文本数据中全局语义和关键词特征;
基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果;
加载文本数据中全局语义和关键词特征,基于预训练的排版拼接模型对全局语义和关键词特征进行二次拼接,得到第二预测结果;
计算所述第一预测结果以及第二预测结果的排版平衡值,以排版平衡值高的预测结果为输出。
优选地,所述方法还包括:
基于深度学习确定所述图像数据中像素点特征值,根据像素点特征值生成排版预测队列,计算所述排版预测队列中多组排版版式的显著度,得到图文排版结果。
优选地,所述对获取到的图文数据预处理的方法,具体包括:
遍历所述获取到的图文数据并解析,基于图文筛选器将图像数据以及文本数据分离,分别形成文本数据集以及图像数据集;
加载文本数据集,对文本数据集进行归一化处理;
获取归一化后的文本数据,基于K-折叉交叉验证结合网格搜索法读取文本数据,识别文本数据中字符、标点符号以及语言类别。
优选地,所述显著性检测模型的构建方法,具体包括:
获取预建立的动态文本数据库中标准文本数据,将标准文本数据分为训练集、验证集以及测试集;
构建初始检测模型,以训练集为输入,执行所述初始检测模型,对初始检测模型训练迭代;
其中,对初始检测模型训练迭代时,将训练集输入所述初始检测模型,分别得到第一特征输出以及第二特征输出,并基于第一特征输出以及第二特征输出进行融合输出,得到第三特征输出,通过第三特征输出的比较矩阵以及径向基核函数计算检测损失值,所述径向基核函数用于控制所述初始检测模型的检测精度;
加载验证集,基于验证集对初始检测模型进行验证;
获取测试集,基于测试集判断显著性检测结果是否符合预期,若符合,则显著性检测模型构建完成,若不符合,执行构建初始检测模型,以训练集为输入,执行所述初始检测模型。
优选地,所述显著性检测模型包括卷积模块以及特征检测模块,所述卷积模块的输出作为特征检测模块的输入;
所述卷积模块包括三段卷积,且每段卷积均包括卷积层、池化层以及全连接层;
所述特征检测模块包括特征隐藏层、注意力层、分类层以及加权输出层,所述全连接层与特征隐藏层连接,特征隐藏层分别与分类层以及加权输出层连接。
优选地,所述提取文本数据中全局语义和关键词特征的方法,具体包括:
卷积模块对输入的文本数据进行多级卷积,提取多组文本特征,得到文本特征集Dk(D1,D2,...,Dk-1,Dk),其中,卷积结果Dk记为:
其中,所述M表示卷积层中卷积核大小U×V,而L为卷积矩阵,且每组所述的卷积矩阵具有j个维度,且每层维度包含有i个特征因素;
获取卷积结果Dk,基于卷积结果Dk对特征进行池化处理,然后基于S变换激活函数进行非线性映射,采用取最大值的方式进行下采样,获得特征全连接输出向量Ck,其中,所述S变换激活函数通过式(2)表示;
其中,所述γ为激活参数曲率,而激活参数曲率变化幅度在0.8-0.85之间。
优选地,所述提取文本数据中全局语义和关键词特征的方法,具体还包括:
特征检测模块中特征隐藏层对全连接输出向量进行特征隐藏,得到特征隐藏向量Cτ k,判断特征隐藏向量Cτ k是否大于预设隐藏阈值,若大于预设隐藏阈值,则保留当前特征向量,若小于预设隐藏阈值,则隐藏当前特征向量;
其中,β分别为特征隐藏向量Cτ k函数的前置环绕尺度以及后置环绕尺度,且预设隐藏阈值为0.65,β取值区间为[0.1,1];
基于分类层中GloVe词嵌入模型提取特征向量中关键词向量以及文本分类向量;
加载关键词向量以及文本分类向量,基于加权输出层中BiLSTM模型合并关键词向量以及文本分类向量,得到全局语义特征。
优选地,所述基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果的方法,具体包括:
加载全局语义以及关键词特征,通过排版拼接模型对全局语义以及关键词特征进行拼接,得到具有全局语义以及关键词特征的文本数据集;
调取预建立的动态文本数据库中全局语义以及关键词特征对应的排版分类模板以及映射关系;
基于排版分类模板以及映射关系对文本数据集进行序列排版,得到第一预测结果;
其中,计算所述第一预测结果以及第二预测结果的排版平衡值的方法,具体包括:
解析序列排版架构,加载全局语义特征Rτ k以及序列排版,对序列排版中分句进行拆解,得到分句集Fτ k(Fτ 1,Fτ 2,...,Fτ k-1,Fτ k),计算分句集Fτ k与全局语义特征Rτ k之间的分句平衡值Xτ k;
其中,p表示排版分类函数,N为分句总数;
其中,σ表示排版分类函数迭代次数,a为当前序列排版中段落数目,gk为映射不对称变量,全局语义特征的函数表达式(6)为:
其中,φk为关键词向量,θ表示文本分类向量,而文本分类向量基于LDA模型进行文本分类;
另一方面,本发明还提供了基于显著性检测的智能图文排版***,所述基于显著性检测的智能图文排版***,具体包括:
数据预处理模块,所述数据预处理模块用于获取图文数据,并对获取到的图文数据预处理,生成预处理集;
显著性检测模块,所述显著性检测模块用于加载预处理集,基于预训练的显著性检测模型对预处理集中文本数据进行显著性检测,提取文本数据中全局语义和关键词特征;
排版拼接模块,所述排版拼接模块基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果,加载文本数据中全局语义和关键词特征,基于预训练的排版拼接模型对全局语义和关键词特征进行二次拼接,得到第二预测结果,计算所述第一预测结果以及第二预测结果的排版平衡值,以排版平衡值高的预测结果为输出;
图文排版模块,所述图文排版模块基于深度学习确定所述图像数据中像素点特征值,根据像素点特征值生成排版预测队列,计算所述排版预测队列中多组排版版式的显著度,得到图文排版结果。
优选地,所述数据预处理模块,具体包括:
图文分离单元,所述图文分离单元用于遍历所述获取到的图文数据并解析,基于图文筛选器将图像数据以及文本数据分离,分别形成文本数据集以及图像数据集;
归一化单元,所述归一化单元用于加载文本数据集,对文本数据集进行归一化处理;
文本数据读取单元,所述文本数据读取单元用于获取归一化后的文本数据,基于K-折叉交叉验证结合网格搜索法读取文本数据,识别文本数据中字符、标点符号以及语言类别。
与现有技术相比,本申请实施例主要有以下有益效果:
本发明实施例通过预训练的显著性检测模型对预处理集中文本数据进行显著性检测,从而可以有效提取不同类型文本数据中的全局语义和关键词特征,同时结合排版拼接模型对文本排版进行预测,计算并比较不同预测结果的排版平衡值,使得排版结果更为精准有效,同时还能结合图像数据中像素点特征值,计算排版预测队列中多组排版版式的显著度,得到图文排版结果,从而快速精准的生成图文排版结果。
本发明实施例中,通过卷积模块结合特征检测模块组成基于卷积神经网络的组合式显著性检测模型,显著性检测模型对文本数据进行分割并提取,减少少文本语义信息损失和强化局部细节,使得全局语义和关键词特征更为精准,满足了不同类型文本的识别以及排版需求。
附图说明
图1是本发明提供的基于显著性检测的智能图文排版方法的实现流程示意图。
图2是本发明提供的对获取到的图文数据预处理方法的实现流程示意图。
图3是本发明提供的显著性检测模型构建方法的实现流程示意图。
图4是本发明提供的提取文本数据中全局语义和关键词特征方法的实现流程示意图。
图5是本发明提供的基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果方法的实现流程示意图。
图6是本发明提供的计算所述第一预测结果以及第二预测结果的排版平衡值方法的实现流程示意图。
图7是本发明提供的基于显著性检测的智能图文排版***的结构示意图。
图8是本发明提供的数据预处理模块的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向,而本申请对文本的识别和排版则是结合了人工智能以及机器人视觉技术实现对目标的识别、跟踪、测量并处理的。
现有文本识别技术只能对单一文本类型或通用领域的文本进行识别排版,如何应用文本识别技术于更广泛的领域并提高图文排版的准确性和效率成为亟需解决的问题,基于此,我们提出了基于显著性检测的智能图文排版方法及***,简而言之,所述方法具体包括获取图文数据,并对获取到的图文数据预处理,然后基于预训练的显著性检测模型对预处理集中文本数据进行显著性检测,提取文本数据中全局语义和关键词特征,然后基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果,基于预训练的排版拼接模型对全局语义和关键词特征进行二次拼接,得到第二预测结果,计算所述第一预测结果以及第二预测结果的排版平衡值,以排版平衡值高的预测结果为输出,同时还可以基于深度学***衡值,使得排版结果更为精准有效,同时还能结合图像数据中像素点特征值,计算排版预测队列中多组排版版式的显著度,得到图文排版结果,从而快速精准的生成图文排版结果。
本发明实施例提供了基于显著性检测的智能图文排版方法,图1示出了所述基于显著性检测的智能图文排版方法的实现流程示意图,所述基于显著性检测的智能图文排版方法,具体包括:
步骤S10,获取图文数据,并对获取到的图文数据预处理,生成预处理集;
需要说明的是,本实施例中所述图文数据包括但不限于文本数据、图像数据,而文本数据至少包括由文本构成的词组、句子、标点符号、段落或文档,而图像数据包括但不限于计算机设备截取的图像、相机拍摄的图像、人工绘制的图像等,而图文数据的格式包括多种格式,可以为JPEG格式、BMP格式、GIF格式、PNG格式、txt格式、word格式、pdf格式、ofd格式等。而文本数据具体表现可以为带有多种复合字符编程教程、法律文书、情感分析、图文教材、时政新闻、体育赛事等多种文本应用场景。
步骤S20,加载预处理集,基于预训练的显著性检测模型对预处理集中文本数据进行显著性检测,提取文本数据中全局语义和关键词特征;
可以理解的是,本申请通过预训练的显著性检测模型对预处理集中文本数据进行显著性检测可以快速抓取文本数据中全局语义和关键词特征,从而方便了对文本数据进行排版,避免了因全局语义以及关键词不明确导致排版混乱和误差大的问题,同时,显著性检测模型对预处理集中文本数据进行显著性检测时是对全文关键词逐一进行抓取的,这样能够保证抓取的精度,同时以关键词进行抓取能够避免原文格式对抓取造成的干扰。
步骤S30,基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果;
步骤S40,加载文本数据中全局语义和关键词特征,基于预训练的排版拼接模型对全局语义和关键词特征进行二次拼接,得到第二预测结果;
步骤S50,计算所述第一预测结果以及第二预测结果的排版平衡值,以排版平衡值高的预测结果为输出。
可以理解的是,为了避免误差,预训练的排版拼接模型对全局语义和关键词特征能够进行多次拼接,从而避免因排版拼接误差大导致排版不能达到理想的效果。
步骤S60,基于深度学习确定所述图像数据中像素点特征值,根据像素点特征值生成排版预测队列,计算所述排版预测队列中多组排版版式的显著度,得到图文排版结果。
在本实施例中,通过深度学习对获取到的图像数据进行特征点提取,从而保证当文本数据在图像上排版时,既能与图像智能融合,同时还能避免图像上深色像素点对文本的干扰,从而保证了排版的效果,也解决了现有技术无法有效结合文本以及图像对图文数据进行精准排版的问题。
在本实施例中,本发明实施例通过预训练的显著性检测模型对预处理集中文本数据进行显著性检测,从而可以有效提取不同类型文本数据中的全局语义和关键词特征,同时结合排版拼接模型对文本排版进行预测,计算并比较不同预测结果的排版平衡值,使得排版结果更为精准有效,同时还能结合图像数据中像素点特征值,计算排版预测队列中多组排版版式的显著度,得到图文排版结果,从而快速精准的生成图文排版结果。
本发明实施例提供了对获取到的图文数据预处理的方法,图2示出了所述对获取到的图文数据预处理方法的实现流程示意图,所述对获取到的图文数据预处理的方法,具体包括:
步骤S101,遍历所述获取到的图文数据并解析,基于图文筛选器将图像数据以及文本数据分离,分别形成文本数据集以及图像数据集;
可以理解的是,图文筛选器基于注意力机制网络对图像数据以及文本数据进行解析分离,注意力机制网络结构较为简单,依赖于人工获取的文本特征,虽然模型参数相对较少,但是在复杂任务中往往能够表现出较好的效果,具有很好的领域适应性。
步骤S102,加载文本数据集,对文本数据集进行归一化处理;
可以理解的是,对文本数据进行归一化处理是为了方便数据的处理,将目标数据映射到0-1范围之间,从而使得显著性检测时,结果更为平缓,利于收敛至最优解。
步骤S103,获取归一化后的文本数据,基于K-折叉交叉验证结合网格搜索法读取文本数据,识别文本数据中字符、标点符号以及语言类别。
在本实施例中,所述标点符号可以为句号、感叹号、问号、省略号中任意一种标点符号。
在本实施例中,对获取到的数据预处理是为了方便对文本数据、图像数据中特征点的提取,从而也为了降低***的负载,对数据进行归一化处理,而本申请数据预处理方式与现有数据预处理的方式是不同的,既能保持原有文本数据的布局格式,同时还基于K-折叉交叉验证结合网格搜索法读取文本数据,从而将文本数据中全文字符随机提取,通过多次随机提取能够减少信息的损失,并形成文本数据通篇的表征,辅助显著性检测模型对文本数据进行特征提取和解读。
本发明实施例提供了显著性检测模型的构建方法,图3示出了所述显著性检测模型构建方法的实现流程示意图,所述显著性检测模型的构建方法,具体包括:
步骤S201,获取预建立的动态文本数据库中标准文本数据,将标准文本数据分为训练集、验证集以及测试集。
需要说明的是,所述训练集、验证集以及测试集的分配比可以为40%、40%、20%,而在模型构建时,通过设置测试集以及验证集,验证集用于验证并调整初始检测模型的超参数,而测试集不参与初始检测模型的构建,从而能够更好的评估初始检测模型性能的好坏。
在本实施例中,所述动态文本数据库储存有标准文本数据,而标准文本数据包含有标准文本全文、排版分类模板、文本映射关系以及文本分类标签,其中,标准文本数据包含有六类文本分类标签,分别为标题段标签、时间段标签、文本领域标签、情感段标签、关联人标签、关键词标签,而本申请中的动态文本数据库可以构建、更新、替换和删除,而本申请中动态文本数据库包含有BiLSTM分类模型、GloVe词嵌入模型以及LDA模型,例如,输入“元宇宙(Metaverse)是一个虚拟时空间的集合,由一系列的增强现实(AR)、虚拟现实(VR)和互联网(Internet)所组成”,BiLSTM分类模型抓取输入文本中“元宇宙”、“虚拟现实”以及“互联网”,BiLSTM分类模型对文本分类标签权重进行排序,然后结合GloVe词嵌入模型将关键词转换为关键词向量,随后将全局语义的特征向量和关键词向量进行拼接,输入到LDA模型得到最后的分类以及数据库的更新。
步骤S202,构建初始检测模型,以训练集为输入,执行所述初始检测模型,对初始检测模型训练迭代;
其中,对初始检测模型训练迭代时,将训练集输入所述初始检测模型,分别得到第一特征输出以及第二特征输出,并基于第一特征输出以及第二特征输出进行融合输出,得到第三特征输出,通过第三特征输出的比较矩阵以及径向基核函数计算检测损失值,所述径向基核函数用于控制所述初始检测模型的检测精度;
步骤S203,加载验证集,基于验证集对初始检测模型进行验证;
在本实施例中,基于验证集对初始检测模型进行验证可以采用三折交叉验证法进行验证,而验证集获取的样本可以为除测试集之外的所有样本,并求取第一折、第二折、第三折的验证分数,然后通过计算第一折、第二折、第三折平均值来验证初始检测模型。
步骤S204,获取测试集,基于测试集判断显著性检测结果是否符合预期,
步骤S205,若符合,则显著性检测模型构建完成,若不符合,执行构建初始检测模型,以训练集为输入,执行所述初始检测模型。
在本实施例中,所述显著性检测模型包括卷积模块以及特征检测模块,所述卷积模块的输出作为特征检测模块的输入;
所述卷积模块包括三段卷积,且每段卷积均包括卷积层、池化层以及全连接层;
其中,所述三段卷积包括有第一段卷积、第二段卷积以及第三段卷积,通过三段卷积可以实现对输入文本数据的特征进行全面的提取。
第一段卷积包括两个卷积层,且每层有64个卷积核M;
第二段卷积包括两个卷积层,且每层有128个卷积核M;
第三段卷积包括三个卷积层,且每层有256个卷积核M。
所述特征检测模块包括特征隐藏层、注意力层、分类层以及加权输出层,所述全连接层与特征隐藏层连接,特征隐藏层分别与分类层以及加权输出层连接。
本发明实施例提供了提取文本数据中全局语义和关键词特征的方法,图4示出了所述提取文本数据中全局语义和关键词特征方法的实现流程示意图,所述提取文本数据中全局语义和关键词特征的方法,具体包括:
步骤S301,卷积模块对输入的文本数据进行多级卷积,提取多组文本特征,得到文本特征集Dk(D1,D2,...,Dk-1,Dk),其中,卷积结果Dk记为:
其中,所述M表示卷积层中卷积核大小U×V,而L为卷积矩阵,且每组所述的卷积矩阵具有j个维度,且每层维度包含有i个特征因素;
步骤S302,获取卷积结果Dk,基于卷积结果Dk对特征进行池化处理,然后基于S变换激活函数进行非线性映射,采用取最大值的方式进行下采样,获得特征全连接输出向量Ck,其中,所述S变换激活函数通过式(2)表示;
其中,所述γ为激活参数曲率,而激活参数曲率变化幅度在0.8-0.85之间。
步骤S303,特征检测模块中特征隐藏层对全连接输出向量进行特征隐藏,得到特征隐藏向量Cτ k;
需要说明的是,考虑到文本数据中有多组重复的特征向量,为了提高特征检测模块的处理效率,通过特征隐藏层对全连接输出向量进行特征隐藏。
步骤S304,判断特征隐藏向量Cτ k是否大于预设隐藏阈值,若大于预设隐藏阈值,则保留当前特征向量,若小于预设隐藏阈值,则隐藏当前特征向量;
其中,β分别为特征隐藏向量Cτ k函数的前置环绕尺度以及后置环绕尺度,α可以为0.2,β可以为0.5,且预设隐藏阈值为0.65,β取值区间为[0.1,1];
步骤S305,基于分类层中GloVe词嵌入模型提取特征向量中关键词向量以及文本分类向量;
在本实施例中,全局语义特征的函数表达式(6)为:
其中,φk为关键词向量,θ表示文本分类向量,而文本分类向量基于LDA模型进行文本分类;
步骤S306,加载关键词向量以及文本分类向量,基于加权输出层中BiLSTM模型合并关键词向量以及文本分类向量,得到全局语义特征。
本发明实施例中,通过卷积模块结合特征检测模块组成基于卷积神经网络的组合式显著性检测模型,显著性检测模型对文本数据进行分割并提取,减少少文本语义信息损失和强化局部细节,使得全局语义和关键词特征更为精准,满足了不同类型文本的识别以及排版需求。
本发明实施例提供了基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果的方法,图5示出了所述基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果方法的实现流程示意图,所述基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果的方法,具体包括:
步骤S401,加载全局语义以及关键词特征,通过排版拼接模型对全局语义以及关键词特征进行拼接,得到具有全局语义以及关键词特征的文本数据集;
步骤S402,调取预建立的动态文本数据库中全局语义以及关键词特征对应的排版分类模板以及映射关系;
步骤S403,基于排版分类模板以及映射关系对文本数据集进行序列排版,得到第一预测结果。
在本实施例中,第二预测结果的获取与第一预测结果相同,不同的是,所述排版拼接模型为基于于深度学习的语义分割网络模型,语义分割网络模型包括Segnet网络以及全卷积神经网络,而Segnet网络以及全卷积神经网络均包括有解码器、编码器以及排版分类器,在第一预测结果计算时,通过Segnet网络中编码器对文本数据集中排版分类模板以及映射关系进行分类,得到第一预测结果,在第二预测结果计算时,通过全卷积神经网络中编码器对文本数据集中排版分类模板以及映射关系进行分类,然后,得到第二预测结果。
本申请通过排版拼接模型中Segnet网络以及全卷积神经网络对文本数据集中排版分类模板以及映射关系进行分类,可以随机生成平衡度较高的预测结果,从而保证了文本排版的效果。
本发明实施例提供了计算所述第一预测结果以及第二预测结果的排版平衡值的方法,图6示出了计算所述第一预测结果以及第二预测结果的排版平衡值方法的实现流程示意图,所述计算所述第一预测结果以及第二预测结果的排版平衡值的方法,具体包括:
步骤S501,解析序列排版架构;
步骤S502,加载全局语义特征Rτ k以及序列排版,对序列排版中分句进行拆解,得到分句集Fτ k(Fτ 1,Fτ 2,...,Fτ k-1,Fτ k);
步骤S503,计算分句集Fτ k与全局语义特征Rτ k之间的分句平衡值Xτ k;
其中,p表示排版分类函数,N为分句总数;
其中,σ表示排版分类函数迭代次数,a为当前序列排版中段落数目,gk为映射不对称变量,全局语义特征的函数表达式(6)为:
其中,φk为关键词向量,θ表示文本分类向量,而文本分类向量基于LDA模型进行文本分类;
在本实施例中,通过计算第一预测结果、第二预测结果、第三预测结果以及第n预测结果的分句平衡值Xτ k,并从高至低排列预测结果,形成预测结果队列,就可以选取出较优的预测结果,配合根据像素点特征值生成排版预测队列,组合形成图文排版结果。
需要说明的是,根据像素点特征值生成排版预测队列征值,计算所述排版预测队列中多组排版版式的显著度也可以通过排版拼接模型来计算,其像素点特征提取则参见前文所述的显著性检测模型提取方法。
本发明实施例提供了基于显著性检测的智能图文排版***,图7示出了所述基于显著性检测的智能图文排版***的结构示意图,所述基于显著性检测的智能图文排版***,具体包括:
数据预处理模块100,所述数据预处理模块100用于获取图文数据,并对获取到的图文数据预处理,生成预处理集;
显著性检测模块200,所述显著性检测模块200用于加载预处理集,基于预训练的显著性检测模型对预处理集中文本数据进行显著性检测,提取文本数据中全局语义和关键词特征;
排版拼接模块300,所述排版拼接模块300基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果,加载文本数据中全局语义和关键词特征,基于预训练的排版拼接模型对全局语义和关键词特征进行二次拼接,得到第二预测结果,计算所述第一预测结果以及第二预测结果的排版平衡值,以排版平衡值高的预测结果为输出;
图文排版模块400,所述图文排版模块400基于深度学习确定所述图像数据中像素点特征值,根据像素点特征值生成排版预测队列,计算所述排版预测队列中多组排版版式的显著度,得到图文排版结果。
本发明实施例通过预训练的显著性检测模型对预处理集中文本数据进行显著性检测,从而可以有效提取不同类型文本数据中的全局语义和关键词特征,同时结合排版拼接模型对文本排版进行预测,计算并比较不同预测结果的排版平衡值,使得排版结果更为精准有效,同时还能结合图像数据中像素点特征值,计算排版预测队列中多组排版版式的显著度,得到图文排版结果,从而快速精准的生成图文排版结果。
本发明实施例提供了数据预处理模块100,图8示出了所述数据预处理模块100的结构示意图,所述数据预处理模块100,具体包括:
图文分离单元110,所述图文分离单元110用于遍历所述获取到的图文数据并解析,基于图文筛选器将图像数据以及文本数据分离,分别形成文本数据集以及图像数据集;
归一化单元120,所述归一化单元120用于加载文本数据集,对文本数据集进行归一化处理;
文本数据读取单元130,所述文本数据读取单元130用于获取归一化后的文本数据,基于K-折叉交叉验证结合网格搜索法读取文本数据,识别文本数据中字符、标点符号以及语言类别。
在本实施例中,对获取到的数据预处理是为了方便对文本数据、图像数据中特征点的提取,从而也为了降低***的负载,对数据进行归一化处理,而本申请数据预处理方式与现有数据预处理的方式是不同的,既能保持原有文本数据的布局格式,同时还基于K-折叉交叉验证结合网格搜索法读取文本数据,从而将文本数据中全文字符随机提取,通过多次随机提取能够减少信息的损失,并形成文本数据通篇的表征,辅助显著性检测模型对文本数据进行特征提取和解读。
本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序指令,该计算机程序指令可以被处理器执行。该计算机程序指令被执行时实现上述任意一项实施例的方法。
本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
另一方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器和处理器,该存储器中存储有计算机程序,该计算机程序被该处理器执行时实现上述任意一项实施例的方法。
存储器作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的基于显著性检测的智能图文排版方法对应的程序指令/模块。存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储资源监控方法的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的基于显著性检测的智能图文排版方法。
综上所述,本发明提供了基于显著性检测的智能图文排版方法,本发明实施例通过预训练的显著性检测模型对预处理集中文本数据进行显著性检测,从而可以有效提取不同类型文本数据中的全局语义和关键词特征,同时结合排版拼接模型对文本排版进行预测,计算并比较不同预测结果的排版平衡值,使得排版结果更为精准有效,同时还能结合图像数据中像素点特征值,计算排版预测队列中多组排版版式的显著度,得到图文排版结果,从而快速精准的生成图文排版结果。
需要说明的是,对于前述的各实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可能采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,涉及的动作和模块并不一定是本发明所必须的。
本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或通信连接可以是通过一些接口,装置或单元之间的间接耦合或通信连接,可以是电信或者其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对发明的保护范围进行限制。显然,所描述的实施例仅仅是本发明部分实施例,而不是全部实施例。基于这些实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明所要保护的范围。尽管参照上述实施例对本发明进行了详细的说明,本领域普通技术人员依然可以在不冲突的情况下,不作出创造性劳动对本发明各实施例中的特征根据情况相互组合、增删或作其他调整,从而得到不同的、本质未脱离本发明的构思的其他技术方案,这些技术方案也同样属于本发明所要保护的范围。
Claims (10)
1.基于显著性检测的智能图文排版方法,其特征在于,所述基于显著性检测的智能图文排版方法包括:
获取图文数据,并对获取到的图文数据预处理,生成预处理集;
加载预处理集,基于预训练的显著性检测模型对预处理集中文本数据进行显著性检测,提取文本数据中全局语义和关键词特征;
基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果;
加载文本数据中全局语义和关键词特征,基于预训练的排版拼接模型对全局语义和关键词特征进行二次拼接,得到第二预测结果;
计算所述第一预测结果以及第二预测结果的排版平衡值,以排版平衡值高的预测结果为输出。
2.如权利要求1所述的基于显著性检测的智能图文排版方法,其特征在于:所述方法还包括:
基于深度学习确定所述图像数据中像素点特征值,根据像素点特征值生成排版预测队列,计算所述排版预测队列中多组排版版式的显著度,得到图文排版结果。
3.如权利要求2所述的基于显著性检测的智能图文排版方法,其特征在于:所述对获取到的图文数据预处理的方法,具体包括:
遍历所述获取到的图文数据并解析,基于图文筛选器将图像数据以及文本数据分离,分别形成文本数据集以及图像数据集;
加载文本数据集,对文本数据集进行归一化处理;
获取归一化后的文本数据,基于K-折叉交叉验证结合网格搜索法读取文本数据,识别文本数据中字符、标点符号以及语言类别。
4.如权利要求3所述的基于显著性检测的智能图文排版方法,其特征在于:所述显著性检测模型的构建方法,具体包括:
获取预建立的动态文本数据库中标准文本数据,将标准文本数据分为训练集、验证集以及测试集;
构建初始检测模型,以训练集为输入,执行所述初始检测模型,对初始检测模型训练迭代;
其中,对初始检测模型训练迭代时,将训练集输入所述初始检测模型,分别得到第一特征输出以及第二特征输出,并基于第一特征输出以及第二特征输出进行融合输出,得到第三特征输出,通过第三特征输出的比较矩阵以及径向基核函数计算检测损失值,所述径向基核函数用于控制所述初始检测模型的检测精度;
加载验证集,基于验证集对初始检测模型进行验证;
获取测试集,基于测试集判断显著性检测结果是否符合预期,若符合,则显著性检测模型构建完成,若不符合,执行构建初始检测模型,以训练集为输入,执行所述初始检测模型。
5.如权利要求4所述的基于显著性检测的智能图文排版方法,其特征在于:所述显著性检测模型包括卷积模块以及特征检测模块,所述卷积模块的输出作为特征检测模块的输入;
所述卷积模块包括三段卷积,且每段卷积均包括卷积层、池化层以及全连接层;
所述特征检测模块包括特征隐藏层、注意力层、分类层以及加权输出层,所述全连接层与特征隐藏层连接,特征隐藏层分别与分类层以及加权输出层连接。
6.如权利要求5所述的基于显著性检测的智能图文排版方法,其特征在于:所述提取文本数据中全局语义和关键词特征的方法,具体包括:
卷积模块对输入的文本数据进行多级卷积,提取多组文本特征,得到文本特征集Dk(D1,D2,...,Dk-1,Dk),其中,卷积结果Dk记为:
其中,所述M表示卷积层中卷积核大小U×V,而L为卷积矩阵,且每组所述的卷积矩阵具有j个维度,且每层维度包含有i个特征因素;
获取卷积结果Dk,基于卷积结果Dk对特征进行池化处理,然后基于S变换激活函数进行非线性映射,采用取最大值的方式进行下采样,获得特征全连接输出向量Ck,其中,所述S变换激活函数通过式(2)表示;
其中,所述γ为激活参数曲率,而激活参数曲率变化幅度在0.8-0.85之间。
7.如权利要求6所述的基于显著性检测的智能图文排版方法,其特征在于:所述提取文本数据中全局语义和关键词特征的方法,具体还包括:
特征检测模块中特征隐藏层对全连接输出向量进行特征隐藏,得到特征隐藏向量Cτ k,判断特征隐藏向量Cτ k是否大于预设隐藏阈值,若大于预设隐藏阈值,则保留当前特征向量,若小于预设隐藏阈值,则隐藏当前特征向量;
其中,β分别为特征隐藏向量Cτ k函数的前置环绕尺度以及后置环绕尺度,且预设隐藏阈值为0.65,β取值区间为[0.1,1];
基于分类层中GloVe词嵌入模型提取特征向量中关键词向量以及文本分类向量;
加载关键词向量以及文本分类向量,基于加权输出层中BiLSTM模型合并关键词向量以及文本分类向量,得到全局语义特征。
8.如权利要求7所述的基于显著性检测的智能图文排版方法,其特征在于:所述基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果的方法,具体包括:
加载全局语义以及关键词特征,通过排版拼接模型对全局语义以及关键词特征进行拼接,得到具有全局语义以及关键词特征的文本数据集;
调取预建立的动态文本数据库中全局语义以及关键词特征对应的排版分类模板以及映射关系;
基于排版分类模板以及映射关系对文本数据集进行序列排版,得到第一预测结果;
其中,计算所述第一预测结果以及第二预测结果的排版平衡值的方法,具体包括:
解析序列排版架构,加载全局语义特征Rτ k以及序列排版,对序列排版中分句进行拆解,得到分句集Fτ k(Fτ 1,Fτ 2,...,Fτ k-1,Fτ k),计算分句集Fτ k与全局语义特征Rτ k之间的分句平衡值Xτ k;
其中,p表示排版分类函数,N为分句总数;
其中,σ表示排版分类函数迭代次数,a为当前序列排版中段落数目,gk为映射不对称变量,全局语义特征的函数表达式(6)为:
其中,φk为关键词向量,θ表示文本分类向量,而文本分类向量基于LDA模型进行文本分类;
9.一种基于权利要求1-8任一所述基于显著性检测的智能图文排版方法的基于显著性检测的智能图文排版***,其特征在于:所述基于显著性检测的智能图文排版***,具体包括:
数据预处理模块,所述数据预处理模块用于获取图文数据,并对获取到的图文数据预处理,生成预处理集;
显著性检测模块,所述显著性检测模块用于加载预处理集,基于预训练的显著性检测模型对预处理集中文本数据进行显著性检测,提取文本数据中全局语义和关键词特征;
排版拼接模块,所述排版拼接模块基于预训练的排版拼接模型对文本数据中全局语义和关键词特征进行一次拼接,得到第一预测结果,加载文本数据中全局语义和关键词特征,基于预训练的排版拼接模型对全局语义和关键词特征进行二次拼接,得到第二预测结果,计算所述第一预测结果以及第二预测结果的排版平衡值,以排版平衡值高的预测结果为输出;
图文排版模块,所述图文排版模块基于深度学习确定所述图像数据中像素点特征值,根据像素点特征值生成排版预测队列,计算所述排版预测队列中多组排版版式的显著度,得到图文排版结果。
10.如权利要求9所述的基于显著性检测的智能图文排版***,其特征在于:所述数据预处理模块,具体包括:
图文分离单元,所述图文分离单元用于遍历所述获取到的图文数据并解析,基于图文筛选器将图像数据以及文本数据分离,分别形成文本数据集以及图像数据集;
归一化单元,所述归一化单元用于加载文本数据集,对文本数据集进行归一化处理;
文本数据读取单元,所述文本数据读取单元用于获取归一化后的文本数据,基于K-折叉交叉验证结合网格搜索法读取文本数据,识别文本数据中字符、标点符号以及语言类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311679915.5A CN117669493A (zh) | 2023-12-08 | 2023-12-08 | 基于显著性检测的智能图文排版方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311679915.5A CN117669493A (zh) | 2023-12-08 | 2023-12-08 | 基于显著性检测的智能图文排版方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117669493A true CN117669493A (zh) | 2024-03-08 |
Family
ID=90082275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311679915.5A Pending CN117669493A (zh) | 2023-12-08 | 2023-12-08 | 基于显著性检测的智能图文排版方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117669493A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016009421A1 (en) * | 2014-07-18 | 2016-01-21 | Artincam Ltd. | Automatic image composition |
CN107103635A (zh) * | 2017-03-20 | 2017-08-29 | 中国科学院自动化研究所 | 图像排版配色方法 |
CN111428447A (zh) * | 2020-02-28 | 2020-07-17 | 华东师范大学 | 一种基于显著性检测的智能图文排版方法 |
CN115205877A (zh) * | 2022-06-14 | 2022-10-18 | 中华人民共和国南京海关 | 一种不规则排版***单据布局预测方法、装置及存储介质 |
CN115658886A (zh) * | 2022-09-20 | 2023-01-31 | 广东技术师范大学 | 基于语义文本的智能肝癌分期方法、***及介质 |
CN116738934A (zh) * | 2023-08-09 | 2023-09-12 | 京华信息科技股份有限公司 | 一种文书自动排版方法及*** |
-
2023
- 2023-12-08 CN CN202311679915.5A patent/CN117669493A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016009421A1 (en) * | 2014-07-18 | 2016-01-21 | Artincam Ltd. | Automatic image composition |
CN107103635A (zh) * | 2017-03-20 | 2017-08-29 | 中国科学院自动化研究所 | 图像排版配色方法 |
CN111428447A (zh) * | 2020-02-28 | 2020-07-17 | 华东师范大学 | 一种基于显著性检测的智能图文排版方法 |
CN115205877A (zh) * | 2022-06-14 | 2022-10-18 | 中华人民共和国南京海关 | 一种不规则排版***单据布局预测方法、装置及存储介质 |
CN115658886A (zh) * | 2022-09-20 | 2023-01-31 | 广东技术师范大学 | 基于语义文本的智能肝癌分期方法、***及介质 |
CN116738934A (zh) * | 2023-08-09 | 2023-09-12 | 京华信息科技股份有限公司 | 一种文书自动排版方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931664B (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN108681746B (zh) | 一种图像识别方法、装置、电子设备和计算机可读介质 | |
CN113836992B (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN110851641B (zh) | 跨模态检索方法、装置和可读存储介质 | |
CN111160350A (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN112836702B (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN111353491A (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
CN114332893A (zh) | 表格结构识别方法、装置、计算机设备和存储介质 | |
EP4089568A1 (en) | Cascade pooling for natural language document processing | |
CN117649567B (zh) | 数据标注方法、装置、计算机设备和存储介质 | |
Juyal et al. | Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
KR102445932B1 (ko) | 지식 증류 기반의 멀티모달 매핑 정보를 활용한 이미지 생성 기법 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
US11699044B1 (en) | Apparatus and methods for generating and transmitting simulated communication | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN111768214A (zh) | 产品属性的预测方法、***、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |