CN113536169B - 一种网页的文字排版方法、装置、设备和存储介质 - Google Patents

一种网页的文字排版方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113536169B
CN113536169B CN202110720839.2A CN202110720839A CN113536169B CN 113536169 B CN113536169 B CN 113536169B CN 202110720839 A CN202110720839 A CN 202110720839A CN 113536169 B CN113536169 B CN 113536169B
Authority
CN
China
Prior art keywords
typesetting
picture
webpage
text
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110720839.2A
Other languages
English (en)
Other versions
CN113536169A (zh
Inventor
徐治钦
周桂麟
冯嘉妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hard Link Network Technology Co ltd
Original Assignee
Shanghai Hard Link Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hard Link Network Technology Co ltd filed Critical Shanghai Hard Link Network Technology Co ltd
Priority to CN202110720839.2A priority Critical patent/CN113536169B/zh
Publication of CN113536169A publication Critical patent/CN113536169A/zh
Application granted granted Critical
Publication of CN113536169B publication Critical patent/CN113536169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/454Multi-language systems; Localisation; Internationalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种网页的文字排版方法,包括:响应于对网页的语言类型的切换操作,提取网页的网页图片中的文字内容、图片对象及图片对象的位置信息;根据当前需要切换到的语言类型,将文字内容进行语言类型转换得到转换后的文字内容;确定与图片对象对应的转换后的文字内容;根据图片对象及其位置信息,对应确定转换后的文字内容的排版区域;将转换后的文字内容排版在对应的排版区域中。本发明还公开了一种网页的文字排版装置、设备和存储介质,其能够通过确认图像的图片对象和位置信息来将网页图片的文字内容进行重排版,使得网页图片中的文字内容的语言类型得以转换并排版在合理的位置上。

Description

一种网页的文字排版方法、装置、设备和存储介质
技术领域
本发明涉及计算机技术领域,具体的说,涉及的是一种网页的文字排版方法、装置、设备和存储介质。
背景技术
现有技术中,网页包含很多图片,图片里面含有文字内容。目前,当对网页上的文字的语言类型进行切换时,仅会对网页上的可以编辑的文本的语言类型进行切换,并不能够对网页上的网页图片里面的文字内容进行语言类型的切换,而且网页图片里面的原有的语言类型的文字内容在网页开发时,由于开发者的疏忽,导致网页图片里面的原有的语言类型的文字内容在网页图片里面的排版位置不够合理,这样即使在原有的文字排版区域中对这些文字内容进行语言转换,也会出现语言转换后的文字内容的排版位置不合理的问题。所以,在网页的语言切换过程中,亟需解决上述技术缺陷。
发明内容
本发明实施例的目的是提供一种网页的文字排版方法、装置、设备及存储介质,其能够通过确认图像的图片对象和位置信息来确认文字排版区域,将从网页图片中提取并进行语言类型转换的文字内容进行重新排版,使得网页语言类型切换时,网页图片中的文字内容的语言类型得以转换并排版在合理的位置上。
为实现上述目的,本发明实施例提供了一种网页的文字排版方法,包括:
响应于对网页的语言类型的切换操作,提取所述网页的网页图片中的文字内容,并提取所述网页图片中的图片对象及所述图片对象在所述网页图片中的位置信息;
根据当前需要切换到的语言类型,将所述文字内容进行语言类型转换,得到转换后的文字内容;
计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容;
根据所述图片对象及其位置信息,对应确定所述转换后的文字内容在所述网页图片中的排版区域;
将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
作为上述方案的改进,在所述根据所述图片对象及其位置信息,对应确定所述转换后的文字内容在所述网页图片中的排版区域之后,所述方法还包括:
根据排版区域和所述转换后的文字内容,确定文字排版样式;
则,所述将所述转换后的文字内容排版在所述网页图片的所述排版区域中,具体包括:
根据所述文字排版样式将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
作为上述方案的改进,所述文字排版样式包括:文字的排版字号大小、文字排版字体类型及文字的对齐方式。
作为上述方案的改进,所述提取所述网页的网页图片中的文字内容,具体包括:
获取当前网页的所有网页内容的内容属性,并选取所述内容属性为网页图片属性的网页图片;其中,所述内容属性包括:网页图片属性及网页文字属性;
基于预设的文字识别算法,对网页图片中的含有文字内容的文字图像区域进行文字内容识别。
作为上述方案的改进,所述计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容,包括:
获取与所述图片对象对应的标签信息;
计算所述标签信息与所述转换后的文字内容中的各个文本的匹配度;
将所述转换后的文字内容中的与所述标签信息的匹配度大于预设匹配阈值的文本,与所述图片对象进行关联。
为实现上述目的,本发明实施例还提供了一种网页的文字排版装置,包括:
网页信息提取模块,用于响应于对网页的语言类型的切换操作,提取所述网页的网页图片中的文字内容,并提取所述网页图片中的图片对象及所述图片对象在所述网页图片中的位置信息;
语言转换模块,用于根据当前需要切换到的语言类型,将所述文字内容进行语言类型转换,得到转换后的文字内容;
分析模块,用于计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容;
排版区域确定模块,用于根据所述图片对象及其位置信息,对应确定所述转换后的文字内容在所述网页图片中的排版区域;
文字排版模块,用于将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
作为上述方案的改进,所述装置还包括:
排版样式确定模块,用于根据排版区域和所述转换后的文字内容,确定文字排版样式;
则,所述文字排版模块具体用于:
根据所述文字排版样式将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
作为上述方案的改进,所述文字排版样式包括:文字的排版字号大小、文字排版字体类型及文字的对齐方式。
作为上述方案的改进,所述网页信息提取模块具体用于:
获取当前网页的所有网页内容的内容属性,并选取所述内容属性为网页图片属性的网页图片;其中,所述内容属性包括:网页图片属性及网页文字属性;
基于预设的文字识别算法,对网页图片中的含有文字内容的文字图像区域进行文字内容识别。
为实现上述目的,本发明实施例还提供了一种网页的文字排版设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的网页的文字排版方法。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的网页的文字排版方法。
与现有技术相比,本发明实施例公开的一种网页的文字排版方法、装置、设备和存储介质,通过响应于对网页的语言类型的切换操作,来提取所述网页的网页图片中的文字内容,并提取所述网页图片中的图片对象及所述图片对象在所述网页图片中的位置信息;通过根据当前需要切换到的语言类型,来将所述文字内容进行语言类型转换,以得到转换后的文字内容;计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容;进而根据所述图片对象及其位置信息,来对应确定所述转换后的文字内容在所述网页图片中的排版区域;最终将所述转换后的文字内容排版在所述网页图片的所述排版区域中,从而实现文字内容的语言类型的转换和合理的排版。由此可见,本发明实施例能够通过确认图像的图片对象和位置信息来确认文字排版区域,将从网页图片中提取并进行语言类型转换的文字内容进行重新排版,使得网页语言类型切换时,网页图片中的文字内容的语言类型得以转换并排版在合理的位置上。
附图说明
图1是本发明一实施例提供的一种网页的文字排版方法的流程图;
图2是本发明一实施例提供的语言类型转换前的网页图片中图片对象及文字内容的显示示意图;
图3是本发明一实施例提供的语言类型转换后且重新排版的网页图片中图片对象及文字内容的显示示意图;
图4是本发明一实施例提供的一种网页的文字排版装置的结构框图;
图5是本发明一实施例提供的另一种网页的文字排版装置的结构框图;
图6是本发明一实施例提供的一种网页的文字排版设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明一实施例提供的一种网页的文字排版方法的流程图,参见图2,本发明一实施例提供的语言类型转换前的网页图片中图片对象及文字内容的显示示意图;参见图2,本发明一实施例提供的语言类型转换后的网页图片中图片对象及文字内容的显示示意图。
所述网页的文字排版方法可以通过用户端执行,所述用户端可以为电脑、手机、平板等用户终端设备;其中,所述用户端上可以装载有各种应用程序,包括游戏类的应用程序,并用于呈现游戏画面。作为举例,所述用户端可以包括显示屏和处理器,该显示屏用于呈现网页界面,该网页界面用于呈现网页图片,以及与用户进行交互;该处理器用于获取网页、生成网页界面以及控制网页界面在显示屏上的显示;
所述网页的文字排版方法也可以由服务器执行,所述服务器可以IA架构服务器、RISC架构服务器等不同类型的服务器;其中,所述服务器端具有高速的CPU运算能力、长时间的可靠运行、强大的I/O外部数据吞吐能力以及更好的扩展性,可以为用户端提供网页的响应服务请求、承担服务、保障服务。
具体地,所述方法包括步骤S11~S15:
S11、响应于对网页的语言类型的切换操作,提取所述网页的网页图片中的文字内容,并提取所述网页图片中的图片对象及所述图片对象在所述网页图片中的位置信息;
S12、根据当前需要切换到的语言类型,将所述文字内容进行语言类型转换,得到转换后的文字内容;
S13、计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容;
S14、根据所述图片对象及其位置信息,对应确定所述转换后的文字内容在所述网页图片中的排版区域;
S15、将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
在步骤S11中,作为举例地,可以在网页的页面中设置语言类型切换标签,当用户点击语言类型切换标签时,通过弹窗的方式展示多种语言类型标签以供用户选择,用户选择语言类型标签可通过鼠标点击,也可通过键盘输入,可通过触摸屏输入,在此不作限定,则对网页的语言类型的切换操作可以是接收到的用户对语言类型标签的选择指令;或者,可以对客户端所在的地区进行定位,选择该地区的通用语言进行语言类型的切换,在此不作限定。
在步骤S13中,作为举例地,预设的图片对象与文字内容之间的映射关系,可以预先存储在本地,当需要时直接调用,也可以存储在云端,当需要时通过无线网络或者有线网络等从云端下载,在此不作限定。
在步骤S14中,排版区域一般设置在对应的图片对象的位置的附近。
示例性的,如图2所示,网页图片中的图片对象和文字内容不能很好地匹配,当接收到键盘输入的指令时(响应于对网页的语言类型的切换操作),提取网页图片中的文字内容(“一念成佛”、“一念成魔”),并提取所述网页图片中的图片对象(魔物人物位置所在的图片对象、佛祖人物位置所在的图片对象)及所述图片对象在所述网页图片中的位置信息(魔物人物位置、佛祖人物位置);根据当前需要切换到的语言类型(英文),将所述文字内容(“一念成佛”、“一念成魔”)进行语言类型转换,得到转换后的文字内容(“One thoughtbecomes an evil”、“One thought becomes a buddha”);计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容(基于预设的为魔物的图片对象与英文的“evil”的对应关系,确定“魔物人物位置所在的图片对象”对应的一整句的文字内容为“One thought becomes anevil”,基于预设的为佛祖的图片对象与英文的“buddha”的对应关系,确定“佛祖人物位置所在的图片对象”对应的一整句的文字内容为“One thought becomes a buddha”);参阅图3,根据魔物人物位置所在的图片对象及其位置信息,对应确定“One thought becomes anevil”在所述网页图片中的排版区域,根据佛祖人物位置所在的图片对象及其位置信息,对应确定“One thought becomes a buddha”在所述网页图片中的排版区域;将“One thoughtbecomes an evil”和“One thought becomes a buddha”排版在对应的位置上。
在本实施例中,通过响应于对网页的语言类型的切换操作,来提取所述网页的网页图片中的文字内容,并提取所述网页图片中的图片对象及所述图片对象在所述网页图片中的位置信息;通过根据当前需要切换到的语言类型,来将所述文字内容进行语言类型转换,以得到转换后的文字内容;计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容;进而根据所述图片对象及其位置信息,来对应确定所述转换后的文字内容在所述网页图片中的排版区域;最终将所述转换后的文字内容排版在所述网页图片的所述排版区域中,从而实现文字内容的语言类型的转换和合理的排版。由此可见,本发明实施例能够通过确认图像的图片对象和位置信息来确认文字排版区域,将从网页图片中提取并进行语言类型转换的文字内容进行重新排版,使得网页语言类型切换时,网页图片中的文字内容的语言类型得以转换并排版在合理的位置上。
在步骤S11中,提取所述网页图片中的图片对象的过程可以为:
从所述网页图片中提取图片特征信息;
将提取到的图片特征信息输入到预先训练好的图像分类识别模型中,得到与所述图片特征信息对应的图片对象的分类类型,从而能够从所述网页图片中提取到所述图片中的图片对象。
其中,所述图像分类识别模型可以是现有的用于进行图像识别的深度神经网络模型。
在一种实施方式下,所述计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容,包括:
S131、获取与所述图片对象对应的标签信息;
S132、计算所述标签信息与所述转换后的文字内容中的各个文本的匹配度;
S133、将所述转换后的文字内容中的与所述标签信息的匹配度大于预设匹配阈值的文本,与所述图片对象进行关联。
需要说明的是,所述标签信息包含有图片对象的对象属性类型,例如图片对象为魔物人物,则该“魔物人物”的标签信息为“魔人”,其中,各个所述图片对象的标签信息是预先设置好的,或者是基于大数据预先训练得到的。此外,可以通过以下方式来计算标签信息与转换后的文字内容中的文本的相似度:
如最直接的利用hashcode,以及经典的主题模型或者利用词向量将文本抽象为向量表示,再通过特征向量之间的欧式距离或者皮尔森距离进行度量。
在一种实施方式下,基于步骤S11~S15,进一步地,在步骤S14中的所述根据所述图片对象及其位置信息,对应确定所述转换后的文字内容在所述网页图片中的排版区域之后,所述方法还包括步骤S141:
S141、根据排版区域和所述转换后的文字内容,确定文字排版样式;
则,步骤S15中的所述将所述转换后的文字内容排版在所述网页图片的所述排版区域中,具体包括:
根据所述文字排版样式将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
示例性的,假设存在两个排版区域,尺寸都为160*30,一个英文字母占用一个字节,一个空格占用两个字符,转换后的文字内容为“One thought becomes an evil”和“Onethought becomes a buddha”,分别占用31个字符和32个字符,根据“One thought becomesan evil”占用的31个字符和对应的排版区域的160*30的尺寸确定其文字排版样式,根据“One thought becomes a buddha”占用的32个字符和对应的排版区域的160*30的尺寸确定其文字排版样式,以使转换后的文字内容能够合理地展示在对应的排版区域内。
在一种实施方式下,所述文字排版样式包括:文字的排版字号大小、文字排版字体类型及文字的对齐方式。
需要说明的是,使转换后的文字内容能够合理地展示在对应的排版区域内,需要根据转换后的文字内容所占用的字符以及对应的排版区域的大小进行文字排版样式的选择,包括文字的排版字号大小、文字排版字体类型及文字的对齐方式,字号大小、字体类型和对齐方式关系到转换后的文字内容能否清楚地展示以及合理地排版在排版区域内。
在一种实施方式中,步骤S11中的所述提取所述网页的网页图片中的文字内容,具体包括步骤S111~S112:
S111、获取当前网页的所有网页内容的内容属性,并选取所述内容属性为网页图片属性的网页图片;其中,所述内容属性包括:网页图片属性及网页文字属性;
S112、基于预设的文字识别算法,对网页图片中的含有文字内容的文字图像区域进行文字内容识别。
示例性的,参见图2,获取图2中的整个网页中的网页内容的内容属性,选取内容属性为网页图片属性的网页图片(内容属性为网页图片属性的部分为图2所示的网页图片的部分,内容属性为网页文字属性的部分为网页中除网页图片外的其他部分)基于预设的文字识别算法(如OCR文字识别算法,可根据实际情况进行文字识别算法的选用),对网页图片中的含有文字内容的文字图像区域进行文字内容识别,得到“一念成佛”和“一念成魔”。
综上所述,与现有技术相比,本发明实施例公开的网页的文字排版方法,能够通过确认图像的图片对象和位置信息来确认文字排版区域,将从网页图片中提取并进行语言类型转换的文字内容进行重新排版,使得网页语言类型切换时,网页图片中的文字内容的语言类型得以转换并排版在合理的位置上。
参见图4,是本发明一实施例提供的一种网页的文字排版装置的结构框图。网页的文字排版装置10,包括:
网页信息提取模块11,用于响应于对网页的语言类型的切换操作,提取所述网页的网页图片中的文字内容,并提取所述网页图片中的图片对象及所述图片对象在所述网页图片中的位置信息;
语言转换模块12,用于根据当前需要切换到的语言类型,将所述文字内容进行语言类型转换,得到转换后的文字内容;
分析模块13,用于计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容;
排版区域确定模块14,用于根据所述图片对象及其位置信息,对应确定所述转换后的文字内容在所述网页图片中的排版区域;
文字排版模块15,用于将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
作为举例地,可以在网页的页面中设置语言类型切换标签,当用户点击语言类型切换标签标签时,通过弹窗的方式展示多种语言类型标签以供用户选择,用户选择语言类型标签可通过鼠标点击,也可通过键盘输入,可通过触摸屏输入,在此不作限定,则对网页的语言类型的切换操作可以是接收到的用户对语言类型标签的选择指令;或者,可以对客户端所在的地区进行定位,选择该地区的通用语言进行语言类型的切换,在此不作限定。
作为举例地,预设的图片对象与文字内容之间的映射关系,可以预先存储在本地,当需要时直接调用,也可以存储在云端,当需要时通过无线网络或者有线网络等从云端下载,在此不作限定。
一般地,排版区域设置在对应的图片对象的位置的附近。
示例性的,如图2所示,网页图片中的图片对象和文字内容不能很好地匹配,当接收到键盘输入的指令时(响应于对网页的语言类型的切换操作),提取网页图片中的文字内容(“一念成佛”、“一念成魔”),并提取所述网页图片中的图片对象(魔物人物位置所在的图片对象、佛祖人物位置所在的图片对象)及所述图片对象在所述网页图片中的位置信息(魔物人物位置、佛祖人物位置);根据当前需要切换到的语言类型(英文),将所述文字内容(“一念成佛”、“一念成魔”)进行语言类型转换,得到转换后的文字内容(“One thoughtbecomes an evil”、“One thought becomes a buddha”);计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容(基于预设的为魔物的图片对象与英文的“evil”的对应关系,确定“魔物人物位置所在的图片对象”对应的一整句的文字内容为“One thought becomes anevil”,基于预设的为佛祖的图片对象与英文的“buddha”的对应关系,确定“佛祖人物位置所在的图片对象”对应的一整句的文字内容为“One thought becomes a buddha”);参阅图3,根据魔物人物位置所在的图片对象及其位置信息,对应确定“One thought becomes anevil”在所述网页图片中的排版区域,根据佛祖人物位置所在的图片对象及其位置信息,对应确定“One thought becomes a buddha”在所述网页图片中的排版区域;将“One thoughtbecomes an evil”和“One thought becomes a buddha”排版在对应的位置上。
在本实施例中,网页的文字排版装置10通过响应于对网页的语言类型的切换操作,来提取所述网页的网页图片中的文字内容,并提取所述网页图片中的图片对象及所述图片对象在所述网页图片中的位置信息;通过根据当前需要切换到的语言类型,来将所述文字内容进行语言类型转换,以得到转换后的文字内容;计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容;进而根据所述图片对象及其位置信息,来对应确定所述转换后的文字内容在所述网页图片中的排版区域;最终将所述转换后的文字内容排版在所述网页图片的所述排版区域中,从而实现文字内容的语言类型的转换和合理的排版。由此可见,本发明实施例提供的网页的文字排版装置10能够通过确认图像的图片对象和位置信息来确认文字排版区域,将从网页图片中提取并进行语言类型转换的文字内容进行重新排版,使得网页语言类型切换时,网页图片中的文字内容的语言类型得以转换并排版在合理的位置上。
在一种实施方式下,进一步地,参见图5,所述装置还包括:
排版样式确定模块16,用于根据排版区域和所述转换后的文字内容,确定文字排版样式;
则,所述文字排版模块15具体用于:
根据所述文字排版样式将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
示例性的,假设存在两个排版区域,尺寸都为160*30,一个英文字母占用一个字节,一个空格占用两个字符,转换后的文字内容为“One thought becomes an evil”和“Onethought becomes a buddha”,分别占用31个字符和32个字符,根据“One thought becomesan evil”占用的31个字符和对应的排版区域的160*30的尺寸确定其文字排版样式,根据“One thought becomes a buddha”占用的32个字符和对应的排版区域的160*30的尺寸确定其文字排版样式,以使转换后的文字内容能够合理地展示在对应的排版区域内。
在一种实施方式下,所述文字排版样式包括:文字的排版字号大小、文字排版字体类型及文字的对齐方式。
需要说明的是,使转换后的文字内容能够合理地展示在对应的排版区域内,需要根据转换后的文字内容所占用的字符以及对应的排版区域的大小进行文字排版样式的选择,包括文字的排版字号大小、文字排版字体类型及文字的对齐方式,字号大小、字体类型和对齐方式关系到转换后的文字内容能否清楚地展示以及合理地排版在排版区域内。
在一种实施方式下,所述网页信息提取模块具体用于:
获取当前网页的所有网页内容的内容属性,并选取所述内容属性为网页图片属性的网页图片;其中,所述内容属性包括:网页图片属性及网页文字属性;
基于预设的文字识别算法,对网页图片中的含有文字内容的文字图像区域进行文字内容识别。
示例性的,参见图2,获取图2中的整个网页中的网页内容的内容属性,选取内容属性为网页图片属性的网页图片(内容属性为网页图片属性的部分为图2所示的网页图片的部分,内容属性为网页文字属性的部分为网页中除网页图片外的其他部分)基于预设的文字识别算法(如OCR文字识别算法,可根据实际情况进行文字识别算法的选用),对网页图片中的含有文字内容的文字图像区域进行文字内容识别,得到“一念成佛”和“一念成魔”。
综上所述,与现有技术相比,本发明实施例公开的网页的文字排版装置10,能够通过确认图像的图片对象和位置信息来确认文字排版区域,将从网页图片中提取并进行语言类型转换的文字内容进行重新排版,使得网页语言类型切换时,网页图片中的文字内容的语言类型得以转换并排版在合理的位置上.
值得说明的是,具体的所述网页的文字排版装置10的工作过程可参考上述实施例中所述网页的文字排版方法的工作过程,在此不再赘述。
参见图6,是本发明实施例提供的一种网页的文字排版设备20,包括处理器21、存储器22以及存储在所述存储器22中且被配置为由所述处理器21执行的计算机程序,所述处理器21执行所述计算机程序时实现如上述网页的文字排版方法实施例中的步骤,例如图1中所述的步骤S11~S15;或者,所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块的功能,例如网页信息提取模块11。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器22中,并由所述处理器21执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述网页的文字排版设备20中的执行过程。例如,所述计算机程序可以被分割成网页信息提取模块11、语言转换模块12、分析模块、排版区域确定模块14和文字排版模块,各模块具体功能如下:
网页信息提取模块11,用于响应于对网页的语言类型的切换操作,提取所述网页的网页图片中的文字内容,并提取所述网页图片中的图片对象及所述图片对象在所述网页图片中的位置信息;
语言转换模块12,用于根据当前需要切换到的语言类型,将所述文字内容进行语言类型转换,得到转换后的文字内容;
分析模块13,用于计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容;
排版区域确定模块14,用于根据所述图片对象及其位置信息,对应确定所述转换后的文字内容在所述网页图片中的排版区域;
文字排版模块15,用于将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
各个模块具体的工作过程可参考上述实施例所述的网页的文字排版装置10的工作过程,在此不再赘述。
所述网页的文字排版设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述网页的文字排版设备20可包括,但不仅限于,处理器21、存储器22。本领域技术人员可以理解,所述示意图仅仅是网页的文字排版设备的示例,并不构成对网页的文字排版设备20的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述网页的文字排版设备20还可以包括输入输出设备、网络接入设备、总线等。
所述处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器21是所述网页的文字排版设备20的控制中心,利用各种接口和线路连接整个网页的文字排版设备20的各个部分。
所述存储器22可用于存储所述计算机程序和/或模块,所述处理器31通过运行或执行存储在所述存储器22内的计算机程序和/或模块,以及调用存储在存储器22内的数据,实现所述网页的文字排版设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述网页的文字排版设备20集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种网页的文字排版方法,其特征在于,包括:
响应于对网页的语言类型的切换操作,提取所述网页的网页图片中的文字内容,并提取所述网页图片中的图片对象及所述图片对象在所述网页图片中的位置信息;
根据当前需要切换到的语言类型,将所述文字内容进行语言类型转换,得到转换后的文字内容;
计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容;
根据所述图片对象及其位置信息,对应确定所述转换后的文字内容在所述网页图片中的排版区域;
将所述转换后的文字内容排版在所述网页图片的所述排版区域中;所述计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容,包括:
获取与所述图片对象对应的标签信息;
计算所述标签信息与所述转换后的文字内容中的各个文本的匹配度;将所述转换后的文字内容中的与所述标签信息的匹配度大于预设匹配阈值的文本,与所述图片对象进行关联。
2.如权利要求1所述的网页的文字排版方法,其特征在于,在所述根据所述图片对象及其位置信息,对应确定所述转换后的文字内容在所述网页图片中的排版区域之后,所述方法还包括:
根据排版区域和所述转换后的文字内容,确定文字排版样式;
则,所述将所述转换后的文字内容排版在所述网页图片的所述排版区域中,具体包括:
根据所述文字排版样式将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
3.如权利要求2所述的网页的文字排版方法,其特征在于,所述文字排版样式包括:文字的排版字号大小、文字排版字体类型及文字的对齐方式。
4.如权利要求1所述的网页的文字排版方法,其特征在于,所述提取所述网页的网页图片中的文字内容,具体包括:
获取当前网页的所有网页内容的内容属性,并选取所述内容属性为网页图片属性的网页图片;其中,所述内容属性包括:网页图片属性及网页文字属性;
基于预设的文字识别算法,对网页图片中的含有文字内容的文字图像区域进行文字内容识别。
5.一种网页的文字排版装置,其特征在于,包括:
网页信息提取模块,用于响应于对网页的语言类型的切换操作,提取所述网页的网页图片中的文字内容,并提取所述网页图片中的图片对象及所述图片对象在所述网页图片中的位置信息;
语言转换模块,用于根据当前需要切换到的语言类型,将所述文字内容进行语言类型转换,得到转换后的文字内容;
分析模块,用于计算所述图片对象与转换后的文字内容匹配度,并根据所述图片对象与转换后的文字内容的匹配度,确定与所述图片对象对应的转换后的文字内容;
排版区域确定模块,用于根据所述图片对象及其位置信息,对应确定所述转换后的文字内容在所述网页图片中的排版区域;
文字排版模块,用于将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
6.如权利要求5所述的网页的文字排版装置,其特征在于,所述装置还包括:
排版样式确定模块,用于根据排版区域和所述转换后的文字内容,确定文字排版样式;
则,所述文字排版模块具体用于:
根据所述文字排版样式将所述转换后的文字内容排版在所述网页图片的所述排版区域中。
7.如权利要求6所述的网页的文字排版装置,其特征在于,所述文字排版样式包括:文字的排版字号大小、文字排版字体类型及文字的对齐方式。
8.一种网页的文字排版设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的网页的文字排版方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的网页的文字排版方法。
CN202110720839.2A 2021-06-28 2021-06-28 一种网页的文字排版方法、装置、设备和存储介质 Active CN113536169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110720839.2A CN113536169B (zh) 2021-06-28 2021-06-28 一种网页的文字排版方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110720839.2A CN113536169B (zh) 2021-06-28 2021-06-28 一种网页的文字排版方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113536169A CN113536169A (zh) 2021-10-22
CN113536169B true CN113536169B (zh) 2022-08-05

Family

ID=78125996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110720839.2A Active CN113536169B (zh) 2021-06-28 2021-06-28 一种网页的文字排版方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113536169B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101123002A (zh) * 2007-09-14 2008-02-13 北大方正集团有限公司 一种图文的自动排版方法
CN104281626A (zh) * 2013-07-12 2015-01-14 阿里巴巴集团控股有限公司 基于图片化处理的网页展示方法及网页展示装置
RU2014148106A (ru) * 2012-06-01 2016-07-27 Тенсент Текнолоджи (Шеньжень) Компани Лимитед Способ, устройство и система набора
CN111782841A (zh) * 2019-11-27 2020-10-16 北京沃东天骏信息技术有限公司 图像搜索方法、装置、设备和计算机可读介质
CN111783508A (zh) * 2019-08-28 2020-10-16 北京京东尚科信息技术有限公司 用于处理图像的方法和装置
CN111859893A (zh) * 2020-07-30 2020-10-30 广州云从洪荒智能科技有限公司 图文排版方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239284A (zh) * 2014-09-15 2014-12-24 广州市西美信息科技有限公司 一种图文自动排版的方法和装置
CN107273032A (zh) * 2017-06-28 2017-10-20 广州视源电子科技股份有限公司 信息排版方法、装置、设备及计算机存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101123002A (zh) * 2007-09-14 2008-02-13 北大方正集团有限公司 一种图文的自动排版方法
RU2014148106A (ru) * 2012-06-01 2016-07-27 Тенсент Текнолоджи (Шеньжень) Компани Лимитед Способ, устройство и система набора
CN104281626A (zh) * 2013-07-12 2015-01-14 阿里巴巴集团控股有限公司 基于图片化处理的网页展示方法及网页展示装置
CN111783508A (zh) * 2019-08-28 2020-10-16 北京京东尚科信息技术有限公司 用于处理图像的方法和装置
CN111782841A (zh) * 2019-11-27 2020-10-16 北京沃东天骏信息技术有限公司 图像搜索方法、装置、设备和计算机可读介质
CN111859893A (zh) * 2020-07-30 2020-10-30 广州云从洪荒智能科技有限公司 图文排版方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113536169A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN111723807B (zh) 使用端到端深度学习识别机打字符和手写字符
CN114155543B (zh) 神经网络训练方法、文档图像理解方法、装置和设备
CN109712218B (zh) 电子书笔记处理方法、手写阅读设备和存储介质
CN111507330B (zh) 习题识别方法、装置、电子设备及存储介质
CN108256523B (zh) 基于移动终端的识别方法、装置及计算机可读存储介质
CN112183296B (zh) 模拟票据图像生成、票据图像识别方法和装置
CN111243061B (zh) 一种商品图片的生成方法、装置、***
KR20200020305A (ko) 문자 인식을 위한 방법 및 장치
CN113711232A (zh) 用于着墨应用的对象检测和分割
CN113673432A (zh) 手写识别方法、触摸显示设备、计算机设备及存储介质
US11341760B2 (en) Form processing and analysis system
CN114022891A (zh) 扫描文本的关键信息提取方法、装置、设备及存储介质
CN113313066A (zh) 图像识别方法、装置、存储介质以及终端
CN113536169B (zh) 一种网页的文字排版方法、装置、设备和存储介质
US20220301285A1 (en) Processing picture-text data
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN115909449A (zh) 文件处理方法、装置、电子设备、存储介质及程序产品
CN114818627A (zh) 一种表格信息抽取方法、装置、设备及介质
US11508139B2 (en) Information processing apparatus and non-transitory computer readable medium
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质
CN113553524B (zh) 一种网页的文字排版方法、装置、设备和存储介质
CN113553802B (zh) 网页的隐藏图片中文字的排版方法、装置、设备和存储介质
CN113553801B (zh) 网页的动效文字的排版、装置、设备和存储介质
CN111027325A (zh) 一种模型生成方法、实体识别方法、装置及电子设备
JP7430219B2 (ja) 文書情報構造化装置、文書情報構造化方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant