CN110162764A - 电子文档的拆分方法、装置、设备及介质 - Google Patents

电子文档的拆分方法、装置、设备及介质 Download PDF

Info

Publication number
CN110162764A
CN110162764A CN201810146345.6A CN201810146345A CN110162764A CN 110162764 A CN110162764 A CN 110162764A CN 201810146345 A CN201810146345 A CN 201810146345A CN 110162764 A CN110162764 A CN 110162764A
Authority
CN
China
Prior art keywords
page
target pages
electronic document
document
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810146345.6A
Other languages
English (en)
Inventor
林得苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Paoding Technology Co Ltd
Original Assignee
Beijing Paoding Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Paoding Technology Co Ltd filed Critical Beijing Paoding Technology Co Ltd
Priority to CN201810146345.6A priority Critical patent/CN110162764A/zh
Publication of CN110162764A publication Critical patent/CN110162764A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种电子文档的拆分方法、装置、设备及介质,用以提高将多份纸质文档转换为多份电子文档的效率。所述电子文档的拆分方法,包括:获取所述电子文档中每个页面的页面属性信息;根据所述页面属性信息,在所述电子文档中添加拆分标记;基于所述拆分标记,将所述电子文档拆分为多个子电子文档。

Description

电子文档的拆分方法、装置、设备及介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种电子文档的拆分方法、装置、设备及介质。
背景技术
将纸质文档转换为电子文档,可以通过对纸质文档扫描的方式实现,也即将纸质文档扫描为电子文档。例如,可以将纸质文档扫描为便携式文档格式(Portable DocumentFormat,PDF)文档。
目前,在将多份纸质文档转换为多份电子文档时,通常可以采用先全部扫描再拆分的方式,也可以采用逐份扫描的方式。具体来说,先全部扫描再拆分的方式,即先将多份纸质文档扫描为一个电子文档,然后人工将扫描得到的电子文档拆分为不同的部分,每个部分对应一份原始纸质文档,得到每份纸质文档对应的电子文档。而逐份扫描的方式,是指逐份扫描每一份纸质文档,得到每份纸质文档对应的电子文档。
上述两种方式,虽然都可以将多份纸质文档转换为多份电子文档,但是在纸质文档的份数较多时,均效率低下。
发明内容
本发明实施例提供了一种电子文档的拆分方法、装置、设备及介质,用以提高将多份纸质文档转换为多份电子文档的效率。
第一方面,本发明实施例提供一种电子文档的拆分方法,包括:
获取电子文档中每个页面的页面属性信息;
根据页面属性信息,在电子文档中添加拆分标记;
基于在电子文档中添加的拆分标记,将电子文档拆分为多个子电子文档。
在第一方面的一些实施例中,根据页面属性信息,在电子文档中添加拆分标记,包括:根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档;在目标页面与前一页面之间的文档位置处添加拆分标记,其中,目标页面为电子文档中除首页之外的任一页面。
在第一方面的一些实施例中,根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档,包括:在确定目标页面与前一页面之间页面属性信息的变化满足预设条件时,确定电子文档中目标页面与前一页面属于不同文档。
在第一方面的一些实施例中,页面属性信息包括以下一种或多种:页眉信息、页脚信息和页码;在确定目标页面与前一页面之间页面属性信息的变化满足预设条件时,确定电子文档中目标页面与前一页面属于不同文档,包括:在确定目标页面与前一页面之间页眉信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或在确定目标页面与前一页面之间页脚信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或在确定目标页面与前一页面之间页码不连续时,确定电子文档中目标页面与前一页面属于不同文档。
在第一方面的一些实施例中,页面属性信息包括页面中字体的属性信息,根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档,包括:根据目标页面中字体的属性信息,确定目标页面为封面页时,确定电子文档中目标页面与前一页面属于不同文档。
第二方面,本发明实施例提供一种电子文档的拆分装置,包括:
获取单元,用于获取电子文档中每个页面的页面属性信息;
标记添加单元,用于根据页面属性信息,在电子文档中添加拆分标记;
拆分单元,用于基于在电子文档中添加的拆分标记,将电子文档拆分为多个子电子文档。
在第二方面的一些实施例中,标记添加单元具体用于:根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档;在目标页面与前一页面之间的文档位置处添加拆分标记,其中,目标页面为电子文档中除首页之外的任一页面。
在第二方面的一些实施例中,标记添加单元具体用于:在确定目标页面与前一页面之间页面属性信息的变化满足预设条件时,确定电子文档中目标页面与前一页面属于不同文档。
在第二方面的一些实施例中,页面属性信息包括以下一种或多种:页眉信息、页脚信息和页码;标记添加单元具体用于:在确定目标页面与前一页面之间页眉信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或在确定目标页面与前一页面之间页脚信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或在确定目标页面与前一页面之间页码不连续时,确定电子文档中目标页面与前一页面属于不同文档。
在第二方面的一些实施例中,页面属性信息包括页面中字体的属性信息,标记添加单元具体用于:根据目标页面中字体的属性信息,确定目标页面为封面页时,确定电子文档中目标页面与前一页面属于不同文档。
第三方面,本发明实施例提供了一种电子文档的拆分设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
本发明实施例提供的电子文档的拆分方法、装置、设备及介质,通过获取电子文档中每个页面的页面属性信息,根据页面属性信息,在电子文档中添加拆分标记,从而能够基于在电子文档中添加的拆分标记,将电子文档拆分为多个子电子文档。在将多份纸质文档转换为多份电子文档时,无需人工采用先全部扫描再拆分的方式或者采用逐份扫描的方式,提高了将多份纸质文档转换为多份电子文档的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提供的电子文档的拆分方法的流程示意图;
图2示出了本发明实施例提供的电子文档的拆分装置的结构示意图;
图3示出了本发明实施例提供的电子文档的拆分设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面首先结合附图对本发明实施例所提供的电子文档的拆分方法进行介绍。
如图1所示,图1示出了本发明实施例提供的电子文档的拆分方法的流程示意图。其可以包括:
步骤S101,获取电子文档中每个页面的页面属性信息。
本发明实施例中,电子文档可以是PDF文档,也可以是包含图片的word文档。PDF文档或者word文档可以是扫描纸质文档生成的,也可以是已存储的,本发明对此不做限定。
具体实施时,由于电子文档中的每个页面均为图片,因此,在获取电子文档中每个页面的页面属性信息时,可以采用图片识别技术识别电子文档中每个页面的页面属性信息。
其中,电子文档中每个页面的页面属性信息,可以包括但不限于:页眉信息、页脚信息、页码信息、以及页面中字体的属性信息。
步骤S102,根据页面属性信息,在电子文档中添加拆分标记。
本步骤中,根据页面属性信息,在电子文档中添加拆分标记,包括:根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档;在目标页面与前一页面之间的文档位置处添加拆分标记,其中,目标页面为电子文档中除首页之外的任一页面。
具体实施时,根据电子文档中每个页面的页面属性信息,判断电子文档中除首页之外的任意一个页面与其前一页面是否属于同一文档,若确定电子文档中除首页之外的任意一个页面与其前一页面属于不同文档,则在该页面与其前一页面之间的文档位置处添加拆分标记;当然,若确定电子文档中除首页之外的另一页面与其前一页面属于同一文档,则在该页面与其前一页面之间的文档位置处不需要添加拆分标记。
实际应用中,同一文档其页面中的页眉信息和页脚信息是相同的,而且其页码是连续的,而且部分文档可能具有封面页。鉴于此,本发明实施例中,根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档时,可以结合目标页面与前一页面之间页面属性信息之间的变化进行确定,也可以单独根据目标页面的页面属性信息进行确定。具体来说:
在一个实施方式中,根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档,包括:在确定目标页面与前一页面之间页面属性信息的变化满足预设条件时,确定电子文档中目标页面与前一页面属于不同文档。
具体实施时,根据目标页面与前一页面之间页眉信息、页脚信息和/或页码的变化,均可以判断目标页面与前一页面是否属于同一文档。因此,基于目标页面与前一页面之间页面属性信息的变化,确定电子文档中目标页面与前一页面属于不同文档时,可以采用以下三种实施方式中的一种或多种。
实施方式一、在确定目标页面与前一页面之间页眉信息不同时,确定电子文档中目标页面与前一页面属于不同文档。
实施方式二、在确定目标页面与前一页面之间页脚信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或
实施方式三、在确定目标页面与前一页面之间页码不连续时,确定电子文档中目标页面与前一页面属于不同文档。
在一个示例中,在目标页面的页码为1,目标页面前一页面的页码不为1时,确定电子文档中目标页面与前一页面属于不同文档。
需要说明的是,在基于目标页面与前一页面之间页面属性信息的变化,确定电子文档中目标页面与前一页面属于不同文档时,上述实施方式一、实施方式二、实施方式三可以单独使用,也可以相互结合使用。当然,上述实施方式一、实施方式二、实施方式三相互结合使用,准确性更高。
在另一实施方式中,根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档,包括:根据目标页面中字体的属性信息,确定目标页面为封面页时,确定电子文档中目标页面与前一页面属于不同文档。
此实施方式中,根据目标页面中字体的属性信息,判断目标页面是否为文档的封面页,若确定目标页面为文档的封面页,则在目标页面与前一页面之间的文档位置处添加拆分标记。
在一个示例中,封面页中字体的大小通常大于正文文本中字体的大小,举例来说,正文文本中的字体的字号为五号字,封面页中字体的字号为二号字。则目标页面的页面属性信息中页面中字体的属性信息为二号字时,可以确定目标页面为文档的封面页。
需要说明的是,在根据页面属性信息,确定电子文档中目标页面与前一页面是否属于不同文档时,可以根据获取到的页面属性信息进行灵活选择。
具体来说:若目标页面的页面属性信息中无页眉信息、无页脚信息、且无页码,则根据目标页面中字体的属性信息,确定目标页面与前一页面是否属于不同文档;若目标页面的页面属性信息中包括:页眉信息、页脚信息、页码、及页面中字体的属性信息,则可以根据页面属性信息中的一种或多种联合确定目标页面与前一页面是否属于不同文档。
步骤S103,基于在电子文档中添加的拆分标记,将电子文档拆分为多个子电子文档。
本步骤中,基于步骤S102中在电子文档中添加的拆分标记,将电子文档拆分为多个子电子文档,也即拆分后的每部分均作为一个电子文档进行命名和存储。
基于同样的发明构思,本发明实施例还提供了一种电子文档的拆分装置。
如图2所示,本发明实施例提供的电子文档的拆分装置,包括:
获取单元201,用于获取电子文档中每个页面的页面属性信息。
标记添加单元202,用于根据页面属性信息,在电子文档中添加拆分标记。
拆分单元203,用于基于在电子文档中添加的拆分标记,将电子文档拆分为多个子电子文档。
在一种可能的实施方式中,标记添加单元202具体用于:根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档;在目标页面与前一页面之间的文档位置处添加拆分标记,其中,目标页面为电子文档中除首页之外的任一页面。
在一种可能的实施方式中,标记添加单元202具体用于:在确定目标页面与前一页面之间页面属性信息的变化满足预设条件时,确定电子文档中目标页面与前一页面属于不同文档。
在一种可能的实施方式中,页面属性信息包括以下一种或多种:页眉信息、页脚信息和页码;标记添加单元202具体用于:在确定目标页面与前一页面之间页眉信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或在确定目标页面与前一页面之间页脚信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或在确定目标页面与前一页面之间页码不连续时,确定电子文档中目标页面与前一页面属于不同文档。
在一种可能的实施方式中,页面属性信息包括页面中字体的属性信息,标记添加单元202具体用于:根据目标页面中字体的属性信息,确定目标页面为封面页时,确定电子文档中目标页面与前一页面属于不同文档。
另外,结合图1描述的本发明实施例的电子文档的拆分方法可以由电子文档的拆分设备来实现。图3示出了本发明实施例提供的电子文档的拆分设备的硬件结构示意图。
电子文档的拆分设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在数据处理装置的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。在特定实施例中,存储器302包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种电子文档的拆分方法。
在一个示例中,电子文档的拆分设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将电子文档的拆分设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该电子文档的拆分设备可以基于获取到电子文档中每个页面的页面属性信息,执行本发明实施例中的电子文档的拆分方法,从而实现结合图1描述的电子文档的拆分方法。
另外,结合上述实施例中的电子文档的拆分方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种电子文档的拆分方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或***。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (12)

1.一种电子文档的拆分方法,其特征在于,所述方法包括:
获取所述电子文档中每个页面的页面属性信息;
根据所述页面属性信息,在所述电子文档中添加拆分标记;
基于所述拆分标记,将所述电子文档拆分为多个子电子文档。
2.根据权利要求1所述的方法,其特征在于,所述根据所述页面属性信息,在所述电子文档中添加拆分标记,包括:
根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档;
在所述目标页面与前一页面之间的文档位置处添加拆分标记,其中,所述目标页面为电子文档中除首页之外的任一页面。
3.根据权利要求2所述的方法,其特征在于,所述根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档,包括:
在确定所述目标页面与前一页面之间页面属性信息的变化满足预设条件时,确定电子文档中目标页面与前一页面属于不同文档。
4.根据权利要求3所述的方法,其特征在于,所述页面属性信息包括以下一种或多种:页眉信息、页脚信息和页码;
所述在确定所述目标页面与前一页面之间页面属性信息的变化满足预设条件时,确定电子文档中目标页面与前一页面属于不同文档,包括:
在确定所述目标页面与前一页面之间页眉信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或
在确定所述目标页面与前一页面之间页脚信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或
在确定所述目标页面与前一页面之间页码不连续时,确定电子文档中目标页面与前一页面属于不同文档。
5.根据权利要求2所述的方法,其特征在于,所述页面属性信息包括页面中字体的属性信息,所述根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档,包括:
根据所述目标页面中字体的属性信息,确定所述目标页面为封面页时,确定电子文档中目标页面与前一页面属于不同文档。
6.一种电子文档的拆分装置,其特征在于,所述装置包括:
获取单元,用于获取所述电子文档中每个页面的页面属性信息;
标记添加单元,用于根据所述页面属性信息,在所述电子文档中添加拆分标记;
拆分单元,用于基于所述拆分标记,将所述电子文档拆分为多个子电子文档。
7.根据权利要求6所述的装置,其特征在于,所述标记添加单元具体用于:
根据页面属性信息,确定电子文档中目标页面与前一页面属于不同文档;
在所述目标页面与前一页面之间的文档位置处添加拆分标记,其中,所述目标页面为电子文档中除首页之外的任一页面。
8.根据权利要求7所述的装置,其特征在于,所述标记添加单元具体用于:在确定所述目标页面与前一页面之间页面属性信息的变化满足预设条件时,确定电子文档中目标页面与前一页面属于不同文档。
9.根据权利要求8所述的装置,其特征在于,所述页面属性信息包括以下一种或多种:页眉信息、页脚信息和页码;
所述标记添加单元具体用于:
在确定所述目标页面与前一页面之间页眉信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或
在确定所述目标页面与前一页面之间页脚信息不同时,确定电子文档中目标页面与前一页面属于不同文档;和/或
在确定所述目标页面与前一页面之间页码不连续时,确定电子文档中目标页面与前一页面属于不同文档。
10.根据权利要求7所述的装置,其特征在于,所述页面属性信息包括页面中字体的属性信息,所述标记添加单元具体用于:
根据所述目标页面中字体的属性信息,确定所述目标页面为封面页时,确定电子文档中目标页面与前一页面属于不同文档。
11.一种电子文档的拆分设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-5中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN201810146345.6A 2018-02-12 2018-02-12 电子文档的拆分方法、装置、设备及介质 Pending CN110162764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810146345.6A CN110162764A (zh) 2018-02-12 2018-02-12 电子文档的拆分方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810146345.6A CN110162764A (zh) 2018-02-12 2018-02-12 电子文档的拆分方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN110162764A true CN110162764A (zh) 2019-08-23

Family

ID=67635135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810146345.6A Pending CN110162764A (zh) 2018-02-12 2018-02-12 电子文档的拆分方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110162764A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111901223A (zh) * 2020-07-21 2020-11-06 湖南中斯信息科技有限公司 用于拆分文档的方法、装置、存储介质及处理器
CN112199330A (zh) * 2020-09-29 2021-01-08 广东电网有限责任公司韶关供电局 一种混合文档归档方法、归档装置及存储介质
CN112784546A (zh) * 2020-05-09 2021-05-11 珠海金山办公软件有限公司 一种公文页码设置方法、装置、设备及存储介质
CN113641783A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 基于关键语句的内容块检索方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207974A (zh) * 2011-06-23 2011-10-05 天津海量信息技术有限公司 一种上下文web页面合并方法
US20110255124A1 (en) * 2010-04-15 2011-10-20 Xerox Corporation Robust recovery of a page parallel rip system
CN104572596A (zh) * 2013-10-25 2015-04-29 北大方正集团有限公司 光栅化处理方法、处理装置和处理***
CN105468577A (zh) * 2014-09-23 2016-04-06 北大方正集团有限公司 一种文档拆分方法及***
CN106649229A (zh) * 2015-11-04 2017-05-10 北京广联达正源兴邦科技有限公司 Pdf文件的拆分方法、pdf文件的拆分***和终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110255124A1 (en) * 2010-04-15 2011-10-20 Xerox Corporation Robust recovery of a page parallel rip system
CN102207974A (zh) * 2011-06-23 2011-10-05 天津海量信息技术有限公司 一种上下文web页面合并方法
CN104572596A (zh) * 2013-10-25 2015-04-29 北大方正集团有限公司 光栅化处理方法、处理装置和处理***
CN105468577A (zh) * 2014-09-23 2016-04-06 北大方正集团有限公司 一种文档拆分方法及***
CN106649229A (zh) * 2015-11-04 2017-05-10 北京广联达正源兴邦科技有限公司 Pdf文件的拆分方法、pdf文件的拆分***和终端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641783A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 基于关键语句的内容块检索方法、装置、设备和介质
CN112784546A (zh) * 2020-05-09 2021-05-11 珠海金山办公软件有限公司 一种公文页码设置方法、装置、设备及存储介质
CN112784546B (zh) * 2020-05-09 2023-06-20 珠海金山办公软件有限公司 一种公文页码设置方法、装置、设备及存储介质
CN111901223A (zh) * 2020-07-21 2020-11-06 湖南中斯信息科技有限公司 用于拆分文档的方法、装置、存储介质及处理器
CN112199330A (zh) * 2020-09-29 2021-01-08 广东电网有限责任公司韶关供电局 一种混合文档归档方法、归档装置及存储介质

Similar Documents

Publication Publication Date Title
CN110162764A (zh) 电子文档的拆分方法、装置、设备及介质
CN111985202A (zh) 基于模板生成pdf电子签章的方法、设备及存储介质
CN113032580B (zh) 关联档案推荐方法、***及电子设备
CN105224708B (zh) 集成电路中网路的确定方法和装置
CN102955773B (zh) 用于在中文文档中识别化学名称的方法及***
CN111198936B (zh) 一种语音搜索方法、装置、电子设备及存储介质
CN108664973A (zh) 文本处理方法和装置
CN111325031B (zh) 简历解析方法及装置
CN111126010B (zh) Freemaker模板文件修复方法、装置、计算机设备及存储介质
CN110335070B (zh) 一种基于wifi的用户群扩展的方法、装置和电子设备
CN110362361A (zh) 文件制作的方法及装置
US9218327B2 (en) Optimizing the layout of electronic documents by reducing presentation size of content within document sections so that when combined a plurality of document sections fit within a page
CN112686000B (zh) 电子书文档的格式转换方法、电子设备及存储介质
CN111949793B (zh) 用户意图识别方法、装置及终端设备
CN109977873B (zh) 基于手写笔迹的笔记生成方法、电子设备及存储介质
CN116489251A (zh) 通用码流解析方法、装置、计算机可读介质及终端设备
CN108984491A (zh) 一种文档格式转换的方法和装置
CN114257426A (zh) 背景流量生成方法、装置、电子设备和存储介质
CN106708793A (zh) 注释脚标识别方法、装置及电子设备
US20100138710A1 (en) Logic verification apparatus
JP4865449B2 (ja) 差分生成装置及び差分適用装置及び差分生成プログラム及び差分適用プログラム及び差分生成適用システム及び差分生成適用方法
JP5175607B2 (ja) 決定木作成装置
CN110263399B (zh) 一种基于Hspice的数据处理方法、装置及电子设备
RU2678512C1 (ru) Способ обработки данных, относящихся к автотранспортным средствам, с целью последующего графического построения электрических схем электрических систем
CN110008478A (zh) 语言转换方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190823