CN114442897B - 一种文本处理方法、装置、电子设备及存储介质 - Google Patents
一种文本处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114442897B CN114442897B CN202111597032.0A CN202111597032A CN114442897B CN 114442897 B CN114442897 B CN 114442897B CN 202111597032 A CN202111597032 A CN 202111597032A CN 114442897 B CN114442897 B CN 114442897B
- Authority
- CN
- China
- Prior art keywords
- text
- rendered
- source text
- source
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000009877 rendering Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 37
- 244000035744 Hura crepitans Species 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000036316 preload Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Document Processing Apparatus (AREA)
Abstract
本公开提供了一种文本处理方法、装置、电子设备及存储介质,所述方法包括:将源文本存储至临时文件;基于所述临时文件获取所述源文本中的待渲染文本;将所述源文本按行进行分割;基于所述源文本的行信息对所述待渲染文本对应的页面进行渲染。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
随着各种阅读终端的普及,电子阅读这一阅读方式被越来越多的用户认可,电子阅读的欢迎度也日益提高。
因此,在阅读电子文本的过程中,针对兼容文本格式、改善标记功能以及加快渲染速度等用户阅读体验的提高是一直追求的目标。
发明内容
本公开提供了一种文本处理方法、装置、电子设备及存储介质,以至少解决现有技术中存在的以上技术问题。
根据本公开的第一方面,提供了一种文本处理方法,所述方法包括:将源文本存储至临时文件;基于所述临时文件获取所述源文本中的待渲染文本;将所述源文本按行进行分割。
在一可实施方式中,将源文本存储至临时文件之前,所述方法还包括:解析所述源文本对应的NDB文件,得到所述源文本对应的章节索引;基于所述章节索引,获取所述源文本。
在一可实施方式中,将源文本存储至临时文件之前,所述方法还包括:将所述源文本对应的NDB文件存储至沙盒路径。
在一可实施方式中,所述基于所述临时文件获取所述源文本中的待渲染文本,包括:读取所述临时文件,确定所述源文本中具有第一标识的文本为所述待渲染文本。
在一可实施方式中,所述确定所述源文本中具有第一标识的文本为所述待渲染文本,包括:确定所述待渲染文本对应的起始索引、结束索引以及所述待渲染文本的第一标识。
在一可实施方式中,所述将所述源文本按行进行分割,包括:基于预设的页面配置将所述源文本分割为多行。
在一可实施方式中,所述基于所述源文本的行信息对所述待渲染文本对应的页面进行渲染,包括:按照预设的页面配置将所述源文本填充至页面;按照行遍历所述源文本,将所述待渲染文本与所述源文本进行比对;若比对结果中所述待渲染文本与任意行的源文本有连续重合的多个文本,则对连续重合的多个文本进行渲染。
在一可实施方式中,所述基于所述临时文件获取所述源文本中的待渲染文本,还包括:确定针对所述源文本的初始触控点和结束触控点;确定基于所述初始触控点和所述结束触控点构成的区域内的文本为所述待渲染文本。
在上述可实施方式中,所述方法还包括下述中的至少一项:显示渲染后的页面;预加载所述渲染后的页面的相邻页面。
根据本公开的第二方面,提供了一种文本处理装置,所述文本处理装置包括:存储模块,用于将源文本存储至临时文件;获取模块,用于基于所述临时文件获取所述源文本中的待渲染文本;分割模块,用于将所述源文本按行进行分割;渲染模块,用于基于所述源文本的行信息对所述待渲染文本对应的页面进行渲染。
在一可实施方式中,所述文本处理装置还包括:解析模块,用于解析所述源文本对应的NDB文件,得到所述源文本对应的章节索引;所述获取模块,还用于基于所述章节索引,获取所述源文本。
在一可实施方式中,所述存储模块,还用于将所述源文本对应的NDB文件存储至沙盒路径。
在一可实施方式中,所述获取模块,具体用于读取所述临时文件,确定所述源文本中具有第一标识的文本为所述待渲染文本。
在一可实施方式中,所述获取模块,还用于确定所述待渲染文本对应的起始索引、结束索引以及所述待渲染文本的第一标识。
在一可实施方式中,所述分割模块,具体用于基于预设的页面配置将所述源文本分割为多行。
在一可实施方式中,所述文本处理装置还包括:填充模块,用于按照预设的页面配置将所述源文本填充至页面;遍历模块,用于按照行遍历所述源文本,将所述待渲染文本与所述源文本进行比对;所述渲染模块,具体用于若比对结果中所述待渲染文本与任意行的源文本有连续重合的多个文本,则对连续重合的多个文本进行渲染。
在一可实施方式中,所述获取模块,还用于确定针对所述源文本的初始触控点和结束触控点;还用于确定基于所述初始触控点和所述结束触控点构成的区域内的文本为所述待渲染文本。
在上述可实施方式中,所述文本处理装置还包括下述中的至少一项:显示模块,用于显示渲染后的页面;预加载模块,用于预加载所述渲染后的页面的相邻页面。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
本公开的文本处理方法、装置、电子设备及存储介质,通过将源文本存储至临时文件中,再基于临时文件获取源文本中待渲染的文本,将源文本按行分割,根据源文本的行信息对获取的待渲染文本对应的页面渲染,不仅提高了渲染速度,还减少了内存的占用,可以精确地对渲染的页面进行操作。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本公开实施例一种文本处理方法的一种流程示意图;
图2示出了本公开实施例一种文本处理方法的另一种流程示意图;
图3示出了本公开实施例一种文本处理方法的一种详细可选的流程示意图;
图4示出了本公开实施例一种文本处理方法的另一种详细可选的流程示意图;
图5示出了本公开实施例一种文本处理装置的组成结构示意图;
图6示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1示出了本公开实施例一种文本处理方法的一种流程示意图。
参考图1,本公开实施例的一种文本处理方法的一种处理流程,至少包括以下步骤:
步骤S101,将源文本存储至临时文件。
本公开实施例中,临时文件可以是NDBTmp文件,通过将源文本存储至临时文件,能够实现对待渲染的文本进行截取,截取后的文本更易于读取,能够加快渲染的速度,提高渲染的效率。
在一些实施例中,可以通过创建文件管理(Manage)类,将临时文件的地址写入到文件管理类。
本公开实施例中,可以记录源文本路径,在一次渲染完截取的文本后,还可以从源文本再次截取文本进行二次渲染,以此类推,可执行N次渲染,N大于2。
在一些实施例中,文本可能对应不同的编码方式,因此,可以对文本的编码方式进行处理,如:读取一部分文本,检测文本的编码格式,不同的编码格式对应不同的编码表,根据检测得到的编码格式确定对应的编码表,根据编码表对文本进行编码的转换,实现字符编码与汉字之间的转换,避免出现文本乱码。
在一些实施例中,文件管理类可以读取预设的页面配置。
在一些实施例中,页面配置可以是用户设置的字体大小、字体颜色、行间距、段间距、页面宽度和页面高度中的一项或多项,也可以是其他的用户自定义的设置,页面配置的内容在此处不做限制。
步骤S102,基于临时文件获取源文本中的待渲染文本。
在一些实施例中,基于临时文件获取源文本中的待渲染文本的具体实现过程可以包括:
读取临时文件,确定源文本中具有第一标识的文本为待渲染文本。其中,第一标识可以是对文本的高亮标记,可以是对文本的划线标记,也可以是图形标记,第一标识的形式在此处不做限制。
在一些实施例中,确定源文本中具有第一标识的文本为待渲染文本的具体实现过程可以包括:
确定待渲染文本对应的起始索引(index)、结束索引以及待渲染文本的第一标识。其中,第一标识可以具备特征信息,第一标识的特征信息可以包括第一标识的颜色、线条形状以及是否具有阴影等。
本公开实施例中,确定了待渲染文本对应的区域,便于对文本进行渲染。
在一些实施例中,可以确定针对源文本的初始触控点(point)和结束触控点,确定基于初始触控点和结束触控点构成的区域内的文本为待渲染文本。
作为示例,用户触控终端的屏幕,终端获取触控开始时的初始触控点,用户持续触控终端屏幕,终端持续获取用户的触控点,直到用户结束触控终端屏幕,终端获取结束触控点,初始触控点和结束触控点构成的区域内的文本为待渲染文本。
步骤S103,将源文本按行进行分割。
在一些实施例中,将源文本按行进行分割的具体实现过程可以包括:
基于预设的页面配置将源文本分割为多行。
在一些实施例中,在将源文本按行进行分割之前,文件管理类可以读取基于临时文件截取的待渲染文本。
作为示例,若是第一次读取源文本,则文件管理类从源文本的第一个文字开始读取;若存储有源文本的读取记录,则使用记录中存储的偏移量(offset)从存储记录的位置开始继续读取文字,每次读取1000字,读取完毕后保存最后一个字的偏移量,用于再次根据读取记录读取源文本,其中,偏移量表征存储记录的实际地址与其所在段的段地址之间的距离。
本公开实施例中,出于效率的考虑,每次读取1000字较为合适,也可以每次读取500字或2000字,每次读取的字数在此处不做限制。
在一些实施例中,在将源文本按行进行分割之前,还可以创建文本数据项类(TextDataItem),文本数据项类(TextDataItem)用于保存待渲染文本。
在一些实施例中,文本数据项类将待渲染文本按行分割后,获得文本行,其中,文本行表征待渲染文本按行分割后的所有行,可以通过创建文本行项(TextLineItem)类保存文本行中每行的文字以及每行文字的起始index和结束index,可以通过创建文本行数组(TextLineArray)保存文本行。
步骤S104,基于源文本的行信息对待渲染文本对应的页面进行渲染。
在一些实施例中,基于源文本的行信息对待渲染文本对应的页面进行渲染的具体实现过程可以包括:
按照预设的页面配置将源文本填充至页面。
在一些实施例中,创建文本页(TextPagePiece)类,文本页类根据预设的页面配置,将文本行进行遍历,从第一行开始进行高度、行间距和段间距的累加,若累加得到的值超出预设的页面高度,则说明页面已经填充完毕。
作为示例,读取的待渲染的文本有1000文字,文本页类根据预设的页面配置,将分割1000文字后获得的文本行进行遍历,从第一行开始进行高度、行间距和段间距的累加,若累加得到的值超出预设的页面高度,则说明页面已经填充完毕。
在一些实施例中,填充页面的过程中,可以保存文本行的起始行index和结束行index,如果在累加的过程中,出现待渲染文本按行进行分割后获得的文本行的最后一行依然没有超出页面高度的情况,则说明本次读取的文本已经全部填充至页面,需要再次读取文本,将文本分割成行,进行累加计算,直至页面填充完毕。
作为示例,读取的待渲染的文本有1000文字,文本页类根据预设的页面配置,将按行分割1000文字后获得的文本行进行遍历,从第一行开始进行高度、行间距和段间距的累加,并保存文本行的起始行index和结束行index,在累加的过程中,1000文字按行分割后获得的文本行的最后一行依然没有超出页面高度,则说明读取的1000已经全部填充至页面,需要再次读取文本,将文本分割成行,进行累加计算,直至页面填充完毕。
按照行遍历源文本,将待渲染文本与源文本进行比对。
在一些实施例中,使用页面填充完毕后的起始行index和结束行index,从TextLineArray中读取到待渲染的行进行渲染,可以重复读取操作,直至将源文本的所有行读取完。
若比对结果中待渲染文本与任意行的源文本有连续重合的多个文本,则对连续重合的多个文本进行渲染。
图2示出了本公开实施例一种文本处理方法的另一种流程示意图。
参考图2,本公开实施例的一种文本处理方法的另一种处理流程,至少包括以下步骤:
步骤S201,将源文本对应的NDB文件存储至沙盒(sandbox)路径。
本公开实施例中,通过将NDB文件存储至沙盒路径,能够使文件作为数据源,便于文件的打开和读取。
步骤S202,解析源文本对应的NDB文件,得到源文本对应的章节索引。
步骤S203,基于章节索引,获取源文本。
其中,源文本也可以称为章节文本。
作为示例,若是第一次读取文件,则基于解析得到的章节索引,从第一章开始读取文件,获得源文本;若存储有源文本的读取记录,则基于解析得到的章节索引,使用已保存的章节索引号读取文件,获得源文本。
本公开实施例中,基于解析得到的章节索引,对NDB文件进行章节划分,得到划分章节处理后的源文本,更易于文件的读取。
步骤S204,将源文本存储至临时文件。
本公开实施例中,临时文件可以是NDBTmp文件,通过将源文本存储至临时文件,能够实现对待渲染的文本进行截取,截取后的文本更易于读取,能够加快渲染的速度,提高渲染的效率。
在一些实施例中,可以通过创建文件管理类,将临时文件的地址写入到文件管理类。
本公开实施例中,可以记录源文本路径,在一次渲染完截取的文本后,还可以从源文本再次截取文本进行二次渲染,以此类推,可执行N次渲染,N大于2。
在一些实施例中,文本可能对应不同的编码方式,因此,可以对文本的编码方式进行处理,如:读取一部分文本,检测文本的编码格式,不同的编码格式对应不同的编码表,根据检测得到的编码格式确定对应的编码表,根据编码表对文本进行编码的转换,实现字符编码与汉字之间的转换,避免出现文本乱码。
在一些实施例中,文件管理类可以读取预设的页面配置。
在一些实施例中,页面配置可以是用户设置的字体大小、字体颜色、行间距、段间距、页面宽度和页面高度中的一项或多项,也可以是其他的用户自定义的设置,页面配置的内容在此处不做限制。
步骤S205,读取临时文件,确定源文本中具有第一标识的文本为待渲染文本。
其中,第一标识可以是对文本的高亮标记,可以是对文本的划线标记,也可以是图形标记,第一标识的形式在此处不做限制。
在一些实施例中,可以确定待渲染文本对应的起始索引、结束索引以及待渲染文本的第一标识。其中,第一标识可以具备特征信息,第一标识的特征信息可以包括第一标识的颜色、线条形状以及是否具有阴影等。
本公开实施例中,确定了待渲染文本对应的区域,便于对文本进行渲染。
在一些实施例中,可以确定针对源文本的初始触控点和结束触控点,确定基于初始触控点和结束触控点构成的区域内的文本为待渲染文本。
作为示例,用户触控终端屏幕,终端获取触控开始时的初始触控点,用户持续触控终端屏幕,终端持续获取用户的触控点,直到用户结束触控终端屏幕,终端获取结束触控点,初始触控点和结束触控点构成的区域内的文本为待渲染文本。
步骤S206,基于预设的页面配置将源文本分割为多行。
在一些实施例中,在将源文本按行进行分割之前,文件管理类可以读取基于临时文件截取的待渲染文本。
作为示例,若是第一次读取源文本,则文件管理类从源文本的第一个文字开始读取;若存储有源文本的读取记录,则使用记录中存储的偏移量从存储记录的位置开始继续读取文字,每次读取1000字,读取完毕后保存最后一个字的偏移量,用于再次根据读取记录读取源文本,其中,偏移量表征存储记录的实际地址与其所在段的段地址之间的距离。
本公开实施例中,出于效率的考虑,每次读取1000字较为合适,也可以每次读取500字或2000字,每次读取的字数在此处不做限制。
在一些实施例中,在将源文本按行进行分割之前,还可以通过创建文本数据项类,用以保存待渲染文本。
在一些实施例中,文本数据项类将待渲染文本按行分割后,获得文本行,其中,文本行表征待渲染文本按行分割后的所有行,可以通过创建文本行项类,保存文本行中每行的文字以及每行文字的起始index和结束index,可以通过创建文本行数组,用以保存文本行。
步骤S207,按照预设的页面配置将源文本填充至页面。
在一些实施例中,创建文本页类,文本页类根据预设的页面配置,将文本行进行遍历,从第一行开始进行高度、行间距和段间距的累加,若累加得到的值超出预设的页面高度,则说明页面已经填充完毕。
作为示例,读取的待渲染的文本有1000文字,文本页类根据预设的页面配置,将分割1000文字后获得的文本行进行遍历,从第一行开始进行高度、行间距和段间距的累加,若累加得到的值超出预设的页面高度,则说明页面已经填充完毕。
在一些实施例中,填充页面的过程中,可以保存文本行的起始行index和结束行index,如果在累加的过程中,出现待渲染文本按行进行分割后获得的文本行的最后一行依然没有超出页面高度的情况,则说明本次读取的文本已经全部填充至页面,需要再次读取文本,将文本分割成行,进行累加计算,直至页面填充完毕。
作为示例,读取的待渲染的文本有1000文字,文本页类根据预设的页面配置,将按行分割1000文字后获得的文本行进行遍历,从第一行开始进行高度、行间距和段间距的累加,并保存文本行的起始行index和结束行index,在累加的过程中,1000文字按行分割后获得的文本行的最后一行依然没有超出页面高度,则说明读取的1000已经全部填充至页面,需要再次读取文本,将文本分割成行,进行累加计算,直至页面填充完毕。
步骤S208,按照行遍历源文本,将待渲染文本与源文本进行比对。
在一些实施例中,使用页面填充完毕后的起始行index和结束行index,从TextLineArray中读取到待渲染的行进行渲染,可以重复读取操作,直至将源文本的所有行读取完。
步骤S209,若比对结果中待渲染文本与任意行的源文本有连续重合的多个文本,则对连续重合的多个文本进行渲染。
步骤S210,显示渲染后的页面。
在一些实施例中,可以创建文本区域视图(TextAreaView)类,用来展示待渲染的文字。
在一些实施例中,TextPagePiece类,可以用来协调TextDataItem类和TextAreaView类之间的数据通信。
步骤S211,预加载渲染后的页面的相邻页面。
作为示例,若用户滑动页面以使页面翻页,则用户容易翻到渲染后当前页的前一页和/或后一页,通过预加载当前页的相邻页面,可以使翻页更平滑无卡顿,能够使用户阅读流畅,改善阅读效率,提高用户体验。
图3示出了本公开实施例一种文本处理方法的一种详细可选的流程示意图。
参考图3,以一种NDB渲染展示方案为例,对本公开实施例文本处理方法的一种详细可选的流程进行说明,至少包括以下步骤:
步骤S301,NDB文件会作为一个本地文件存储至现有应用(App)指定的沙盒路径。
本公开实施例中,通过将NDB文件存储至沙盒路径,能够使文件作为数据源,便于文件的打开和读取。
步骤S302,解析NDB文件,得到章节索引。
步骤S303,通过章节索引读取章节文本。
可选地,若是第一次读取NDB文件,则基于解析得到的章节索引,从第一章开始读取NDB文件;若存储有NDB文件的读取记录,则基于解析得到的章节索引,使用已保存的章节索引号读取NDB文件,获得章节文本。
本公开实施例中,基于解析得到的章节索引,对NDB文件进行章节划分,得到划分章节处理后的章节文本,更易于NDB文件的读取。
步骤S304,将章节文本存储至NDBTmp文件。
本公开实施例中,通过将章节文本存储至NDBTmp文件,能够实现对待渲染的文本进行截取,截取后的文本更易于读取,能够加快渲染的速度,提高渲染的效率。
步骤S305,创建NDBManager,将NDBTmp地址写入到NDBManager。
本公开实施例中,可以记录源文本路径,在一次渲染完截取的文本后,还可以从源文本再次截取文本进行二次渲染,以此类推,可执行N次渲染,N大于2。
步骤S306,对不同编码方式的文本进行编码转换,将字符编码转换成汉字。
可选地,读取一部分文本,检测文本的编码格式,不同的编码格式对应不同的编码表,根据检测得到的编码格式确定对应的编码表,根据编码表对文本进行编码的转换,实现字符编码与汉字之间的转换,避免出现文本乱码。
步骤S307,NDBManager读取用户预设的页面配置。
可选地,页面配置可以是用户设置的字体大小、字体颜色、行间距、段间距、页面宽度和页面高度中的一项或多项,也可以是其他的用户自定义的设置,页面配置的内容在此处不做限制。
步骤S308,NDBManager读取记录的用户笔记数据,如笔记高亮文本的起始index、结束index以及用户设置的高亮文本背景颜色。
步骤S309,创建TextDataItem类,用以保存需要渲染的文字;创建TextAreaView类,用以展示待渲染的文字;创建TextPagePiece类,用以协调TextDataItem类和TextAreaView类之间的数据通信。
步骤S310,NDBManager读取待渲染文字的起始位置。
可选地,若是第一次读取文件,则文件管理类从章节文本的第一个文字读取,若存储有章节文本的读取记录,则使用记录中存储的偏移量从存储记录的位置开始继续读取文字,每次读取1000字,读取完毕后保存最后一个字的偏移量,用于再次根据读取记录读取章节文本,其中,偏移量表征存储记录的实际地址与其所在段的段地址之间的距离。
步骤S311,TextDataItem类基于预设的页面配置把待渲染文本分割为多行。
可选地,TextDataItem类,保存NDBManager读取的待渲染文本,使用NDBManager中读取的用户预设的页面配置,将文本按行分割,获得文本行,其中,文本行表征待渲染文本按行分割后的所有行,通过创建TextLineItem类,保存文本行中每行的文字以及每行文字的起始index和结束index,可以通过创建TextLineArray,用以保存文本行。
步骤S312,TextPagePiece类按照预设的页面配置将章节文本填充至页面。
可选地,TextPagePiece类根据NDBManager中保存的预设的页面配置,将文本行进行遍历,从第一行开始进行高度、行间距和段间距的累加,若累加得到的值超出预设的页面高度,则说明页面已经填充完毕。
可选地,填充页面的过程中,可以保存文本行的起始行index和结束行index,如果在累加的过程中,出现按行进行分割后获得的文本行的最后一行依然没有超出页面高度的情况,则说明本次读取的文本已经全部填充至页面,需要再次读取文本,将文本分割成行,进行累加计算,直至页面填充完毕。
步骤S313,TextAreaView类按照行遍历章节文本,将待渲染文本与章节文本进行比对,检测是否有笔记高亮区域和每行的起始结束区域有重合,其中,起始结束区域从起始index开始,到结束index结束。
可选地,TextAreaView类使用页面填充完毕后的起始行index和结束行index,从TextLineArray中读取到待渲染的行进行渲染,可以重复读取操作,直至将源文本的所有行读取完。
步骤S314,若比对结果中待渲染文本与任意行的章节文本有连续重合的多个笔记高亮区域,则对连续重合的多个笔记高亮区域中的文本进行高亮渲染。
步骤S315,显示渲染后的页面。
步骤S316,预加载渲染后的页面的相邻页面。
可选地,若用户滑动页面以使页面翻页,则用户容易翻到渲染后当前页的前一页和/或后一页,通过预加载当前页的相邻页面,可以使翻页更平滑无卡顿,能够使用户阅读流畅,改善阅读效率,提高用户体验。
NDB文件是小众格式文件,目前,移动客户端对NDB文件的渲染较为简单,无法对渲染页面进行精细操作,比如:页面单独选中高亮部分文字添加笔记。甚至部分移动客户端没有兼容此格式,无法打开NDB格式的文件。
本公开实施例提供的文本处理方法,克服了现有技术中NDB技术方案普遍存在的渲染简单,占用内存较大以及无法对渲染的页面进行精细的操作的问题,能提高渲染速度,占用内存少,可以精确地对渲染的页面进行操作,选择任意一个字,还可以预加载前一页和后一页,用户阅读流畅,提高用户体验。
图4示出了本公开实施例文本处理方法的另一种详细可选的流程示意图。
参考图4,以用户针对章节文本笔记高亮的方案为例,对本公开实施例的文本处理方法的另一种详细可选的流程进行说明,至少包括以下步骤:
步骤S401,用户触摸终端屏幕,确定针对章节文本的初始触控点和结束触控点。
可选地,用户触控手机屏幕开始时,终端获取到用户首次触控的point,将此point映射到渲染页面的point。
可选地,用户可以持续触控终端屏幕,终端持续获取用户触控的point,直到用户触控结束,获取到最后触控point。
可选地,遍历渲染页面的所有行,通过point的y坐标检测出用户触控的行,确认行之后,再通过point的x坐标,获取到用户触控在该行的偏移offset,通过行偏移offset,确定触控的该行的文字,其中,偏移offset表征存储记录的实际地址与其所在段的段地址之间的距离。
步骤S402,确定基于初始触控点和结束触控点构成的区域内的文本为待渲染文本。
步骤S403,保存初始触控点和结束触控点,渲染页面,展示笔记高亮。
图5示出了实施例一种文本处理装置的组成结构示意图。
参考图5,实施例一种文本处理装置,所述文本处理装置50包括:存储模块501,用于将源文本存储至临时文件;获取模块502,用于基于临时文件获取源文本中的待渲染文本;分割模块503,用于将源文本按行进行分割;渲染模块504,用于基于源文本的行信息对待渲染文本对应的页面进行渲染。
在一些实施例中,所述文本处理装置50还包括:解析模块505,用于解析源文本对应的NDB文件,得到源文本对应的章节索引;获取模块502,还用于基于章节索引,获取源文本。
在一些实施例中,存储模块501,还用于将源文本对应的NDB文件存储至沙盒路径。
在一些实施例中,获取模块502,具体用于读取临时文件,确定源文本中具有第一标识的文本为所述待渲染文本。
在一些实施例中,获取模块502,还用于确定待渲染文本对应的起始索引、结束索引以及待渲染文本的第一标识。
在一些实施例中,分割模块503,具体用于基于预设的页面配置将源文本分割为多行。
在一些实施例中,所述文本处理装置50还包括:填充模块506,用于按照预设的页面配置将源文本填充至页面;遍历模块507,用于按照行遍历源文本,将待渲染文本与源文本进行比对;渲染模块504,具体用于若比对结果中待渲染文本与任意行的源文本有连续重合的多个文本,则对连续重合的多个文本进行渲染。
在一些实施例中,获取模块502,还用于确定针对源文本的初始触控点和结束触控点;还用于确定基于初始触控点和结束触控点构成的区域内的文本为待渲染文本。
在上述实施例中,所述文本处理装置50还包括下述中的至少一项:显示模块508,用于显示渲染后的页面;预加载模块509,用于预加载渲染后的页面的相邻页面。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴电子设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他电子设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如文本处理方法。例如,在一些实施例中,文本处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的文本处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本处理方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种文本处理方法,其特征在于,所述方法包括:
将源文本存储至临时文件;
所述将源文本存储至临时文件之前,所述方法还包括:将所述源文本对应的NDB文件存储至沙盒路径;解析所述源文本对应的NDB文件,得到所述源文本对应的章节索引;基于所述章节索引,获取所述源文本;
基于所述临时文件获取所述源文本中的待渲染文本;
创建文本数据项类,所述文本数据项类用于保存待渲染文本;
将所述源文本按行进行分割;
所述将所述源文本按行进行分割,包括:基于预设的页面配置将所述源文本分割为多行;
基于所述源文本的行信息对所述待渲染文本对应的页面进行渲染。
2.根据权利要求1所述的方法,其特征在于,所述基于所述临时文件获取所述源文本中的待渲染文本,包括:
读取所述临时文件,确定所述源文本中具有第一标识的文本为所述待渲染文本。
3.根据权利要求2所述的方法,其特征在于,所述确定所述源文本中具有第一标识的文本为所述待渲染文本,包括:
确定所述待渲染文本对应的起始索引、结束索引以及所述待渲染文本的第一标识。
4.根据权利要求1所述的方法,其特征在于,所述基于所述源文本的行信息对所述待渲染文本对应的页面进行渲染,包括:
按照预设的页面配置将所述源文本填充至页面;
按照行遍历所述源文本,将所述待渲染文本与所述源文本进行比对;
若比对结果中所述待渲染文本与任意行的源文本有连续重合的多个文本,则对连续重合的多个文本进行渲染。
5.根据权利要求1所述的方法,其特征在于,所述基于所述临时文件获取所述源文本中的待渲染文本,还包括:
确定针对所述源文本的初始触控点和结束触控点;
确定基于所述初始触控点和所述结束触控点构成的区域内的文本为所述待渲染文本。
6.根据权利要求1-5任一项所述的方法,还包括下述中的至少一项:
显示渲染后的页面;
预加载所述渲染后的页面的相邻页面。
7.一种文本处理装置,其特征在于,所述装置包括:
存储模块,用于将源文本存储至临时文件;
所述存储模块,还用于将所述源文本对应的NDB文件存储至沙盒路径;
解析模块,用于解析所述源文本对应的NDB文件,得到所述源文本对应的章节索引;
获取模块,用于基于所述临时文件获取所述源文本中的待渲染文本,创建文本数据项类,所述文本数据项类用于保存待渲染文本;
所述获取模块,还用于基于所述章节索引,获取所述源文本;
分割模块,用于将所述源文本按行进行分割;
所述分割模块,具体用于基于预设的页面配置将所述源文本分割为多行;
渲染模块,用于基于所述源文本的行信息对所述待渲染文本对应的页面进行渲染。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于读取所述临时文件,确定所述源文本中具有第一标识的文本为所述待渲染文本。
9.根据权利要求8所述的装置,其特征在于,所述获取模块,还用于确定所述待渲染文本对应的起始索引、结束索引以及所述待渲染文本的第一标识。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
填充模块,用于按照预设的页面配置将所述源文本填充至页面;
遍历模块,用于按照行遍历所述源文本,将所述待渲染文本与所述源文本进行比对;
所述渲染模块,具体用于若比对结果中所述待渲染文本与任意行的源文本有连续重合的多个文本,则对连续重合的多个文本进行渲染。
11.根据权利要求7所述的装置,其特征在于,所述获取模块,还用于确定针对所述源文本的初始触控点和结束触控点;
还用于确定基于所述初始触控点和所述结束触控点构成的区域内的文本为所述待渲染文本。
12.根据权利要求7-11任一项所述的装置,还包括下述中的至少一项:
显示模块,用于显示渲染后的页面;
预加载模块,用于预加载所述渲染后的页面的相邻页面。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的文本处理方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111597032.0A CN114442897B (zh) | 2021-12-24 | 2021-12-24 | 一种文本处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111597032.0A CN114442897B (zh) | 2021-12-24 | 2021-12-24 | 一种文本处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114442897A CN114442897A (zh) | 2022-05-06 |
CN114442897B true CN114442897B (zh) | 2023-12-15 |
Family
ID=81364577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111597032.0A Active CN114442897B (zh) | 2021-12-24 | 2021-12-24 | 一种文本处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114442897B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8818092B1 (en) * | 2011-09-29 | 2014-08-26 | Google, Inc. | Multi-threaded text rendering |
CN107247691A (zh) * | 2017-05-24 | 2017-10-13 | 腾讯科技(深圳)有限公司 | 一种文本信息的显示方法、装置、移动终端及存储介质 |
CN110738050A (zh) * | 2019-10-16 | 2020-01-31 | 北京小米智能科技有限公司 | 基于分词和命名实体识别的文本重组方法及装置、介质 |
CN111460345A (zh) * | 2020-03-30 | 2020-07-28 | 掌阅科技股份有限公司 | 电子书籍加载展示方法、电子设备及存储介质 |
CN112256993A (zh) * | 2020-09-22 | 2021-01-22 | 恒鸿达科技有限公司 | 一种图片加速显示方法、***、设备和介质 |
-
2021
- 2021-12-24 CN CN202111597032.0A patent/CN114442897B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8818092B1 (en) * | 2011-09-29 | 2014-08-26 | Google, Inc. | Multi-threaded text rendering |
CN107247691A (zh) * | 2017-05-24 | 2017-10-13 | 腾讯科技(深圳)有限公司 | 一种文本信息的显示方法、装置、移动终端及存储介质 |
CN110738050A (zh) * | 2019-10-16 | 2020-01-31 | 北京小米智能科技有限公司 | 基于分词和命名实体识别的文本重组方法及装置、介质 |
CN111460345A (zh) * | 2020-03-30 | 2020-07-28 | 掌阅科技股份有限公司 | 电子书籍加载展示方法、电子设备及存储介质 |
CN112256993A (zh) * | 2020-09-22 | 2021-01-22 | 恒鸿达科技有限公司 | 一种图片加速显示方法、***、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114442897A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102197501B1 (ko) | 고정 서식 문서에서의 동아시아 레이아웃 특징들의 검출 및 재구성 | |
CN110377376B (zh) | 界面消息刷新方法、装置、计算机装置及可读存储介质 | |
US10620803B2 (en) | Selecting at least one graphical user interface item | |
CN112198998A (zh) | 文本输入控制方法、相关装置、设备及介质 | |
CN113392660B (zh) | 页面翻译方法、装置、电子设备及存储介质 | |
CN110609981A (zh) | 文本处理方法以及装置、电子设备以及计算机可读存储介质 | |
CN113836462A (zh) | 页面描述文件的生成方法、装置、设备及存储介质 | |
US10254959B2 (en) | Method of inputting a character into a text string using a sliding touch gesture, and electronic device therefor | |
EP2637109A1 (en) | Method for improving rendering speed of browser page | |
CN114442897B (zh) | 一种文本处理方法、装置、电子设备及存储介质 | |
CN106776527B (zh) | 电子书数据的显示方法、装置及终端设备 | |
CN111522610A (zh) | 信息显示方法、装置及设备 | |
CN112052647A (zh) | 一种文档编辑方法、装置、电子设备和可读存储介质 | |
CN114885202A (zh) | 字符串显示处理方法、装置、终端及存储介质 | |
EP4379596A1 (en) | Text typesetting | |
CN115329720A (zh) | 一种文档展示方法、装置、设备及存储介质 | |
CN115546345A (zh) | 甘特图绘制方法、装置、设备、存储介质及程序产品 | |
CN114239562A (zh) | 文档中程序代码块的识别方法、装置和设备 | |
CN114296852A (zh) | 一种显示目标页面的方法、装置、电子设备及存储介质 | |
CN113268949A (zh) | 基于动态字段的表格展示方法、装置、计算机设备及介质 | |
CN112861504A (zh) | 文本交互方法、装置、设备、存储介质及程序产品 | |
CN111626045A (zh) | 字符长度计算方法、装置及电子设备 | |
CN113743438B (zh) | 文本检测用数据集生成方法、装置和*** | |
CN113535017B (zh) | 一种绘本文件的处理、同步显示方法、装置及存储介质 | |
CN115643456A (zh) | 一种视频播放方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |