数字出版物导览目录处理方法和装置
技术领域
本发明涉及数字出版技术,尤其涉及一种数字出版物导览目录处理方法和装置。
背景技术
随着平板电脑及智能手机的普及,数字出版成为一种重要的出版形式。数字出版以电子设备为阅读载体、通过互联网进行传播。具有节约纸张,传播方便迅速,具有丰富的多媒体效果等特性,必将成为未来主要的出版形式。这里的数字出版物不仅仅限于电子书,可以涵盖数字报、数字杂志、电子书、数字教材、教学课件等。
数字出版物由于不存在印刷成本,因此版面以彩色为主、图片居多,版面效果丰富,版式没有明显的规律性,导览目录具有页面跳转能力。因此传统的印刷出版提取目录的方法不再适用数字出版物导览目录的提取。由于数字出版目前处于起步阶段,成熟的数字出版物制作工具不多。现有的数字出版物制作工具导览目录以手工制作为主,存在效率低的问题。
发明内容
本发明提供一种数字出版物导览目录处理方法和装置,用以解决现有的数字出版物导览目录处理效率低的问题。
本发明提供一种数字出版物导览目录处理方法,包括:
在指定页码范围内的文字内容中确定候选主题集合;
分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;
根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将最大权重值对应的图片确定为与所述确定的主题匹配的图片;
将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导览目录。
本发明提供一种数字出版物导览目录处理装置,包括:
第一确定模块,用于在指定页码范围内的文字内容中确定候选主题集合;
第一计算模块,用于分别计算所述第一确定模块确定的候选主题集合中每个主题的权重;
第二确定模块,用于将所述第一计算模块计算的最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;
第二计算模块,用于根据所述第二确定模块确定的主题,分别计算所述指定页码范围内的每一图片的权重;
第三确定模块,用于将所述第二计算模块计算的最大权重值对应的图片确定为与所述确定的主题匹配的图片;
生成模块,用于将所述指定页码范围和所述第二确定模块确定的主题以及第三确定模块确定的图片生成所述数字出版物导览目录。
本发明通过在指定页码范围内的文字内容中确定候选主题集合;分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将最大权重值对应的图片确定为与所述确定的主题匹配的图片;将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导览目录。可以根据指定页码范围内的文字内容自动生成数字出版物导览目录,提高了数字出版物导览目录处理效率,可以解决现有的数字出版物导览目录处理效率低的问题。
附图说明
图1为本发明数字出版物导览目录处理方法实施例的流程图;
图2为本发明数字出版物导览目录处理装置实施例的流程图;
图3为本发明实施例所述的数字出版物导览目录在平板电脑上的呈现效果图;
图4为本发明实施例所述的数字出版物导览目录处理方法在排版软件中制作栏目的界面效果。
具体实施方式
本发明的目的是提供一种智能提取数字出版物导览目录的方法,该方法通过自动提取主题及配图,自动维护导览目录与正文内容的超链接关系,能够大大提升数字出版物导览目录的制作效率,降低制作难度。
图1为本发明数字出版物导览目录处理方法实施例的流程图,如图1所示,本实施例的方法可以包括:
101、在指定页码范围内的文字内容中确定候选主题集合;
举例来说,在所述指定页码范围内的文字内容中,将重复出现次数超过次数阈值的文字或词语或句子作为候选主题,组成候选主题集合,其中,次数阈值可以根据不同文字内容具体设置。
102、分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;
具体实现时,分别计算所述候选主题集合中每个主题的权重,包括:
根据公式:分别计算所述候选主题集合中每个主题的权重,其中,N为主题的字数;或者
根据公式R2=L2,分别计算所述候选主题集合中每个主题的权重,其中,L为主题的字号高度;或者
根据公式:分别计算所述候选主题集合中每个主题的权重,N为主题在的字数,L为主题的字号高度。
需要说明的是,上述公式中的数字10是优选的自定义数字,也可以是其他数字,本发明对此不作限定。
需要说明的是,当计算所述候选主题集合中每个主题的权重之后,可以将每个主题按照各自权重值的大小进行排序,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题。
103、根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将最大权重值对应的图片确定为与所述确定的主题匹配的图片;
可选地,根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,包括:
根据公式:分别计算所述指定页码范围内的每一图片的权重,其中,H表示图片高度,W表示图片宽度,S表示图片的边界与所述确定的主题之间的最近距离,单位为毫米。
需要说明的是,当计算所述指定页码范围内的每一图片的权重之后,可以将每一图片按照各自权重值的大小进行排序,并将最大权重值对应的图片确定为与所述确定的主题匹配的图片。
104、将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导览目录。
其中,所述数字出版物导览目录例如包含主题、配图、页码范围,还还可以所属的栏目等。
举例来说,本实施例的数字出版物导览目录的逻辑格式例如可以描述为:<导览目录>
<目录栏目=“新闻”标题=“新闻1”配图=“图片1.jpg”页码=“10”>
<目录栏目=“娱乐”标题=“电影信息”配图=“图片2.jpg”页码=“12”>
……
</导览目录>
可选地,本实施例还可以显示所述生成数字出版物导览目录,图3为本发明实施例所述的数字出版物导览目录在平板电脑上的呈现效果图,如图3所示,在阅读器端,完成数字出版物导览目录的呈现及操作。在平板电脑上,可以方便的触控方式完成导览目录的弹出、滚屏、选择、消隐,为用户提供人性化的操作体验。
其中,本实施例的数字出版物导览目录例如可以按照预设的逻辑结构存储在数字出版物的数据包中。当用户点击阅读器上方工具条中的按钮后,将呈现导览目录。呈现的具体效果可以由阅读器决定。导览目录的顺序一般按照栏目或者页码的顺序进行呈现,当目录过多的时候可以用手滑动目录。目录中一般应该包含主题、配图、栏目名称。当读者点击目录的时候,可以跳转到对应的正文页。
需要说明的是,在第一次制作数字出版物导览目录的时候,可以提示用户是否启动智能数字出版物导览目录生成功能。应该提供整书智能生成导览目录的功能及一定范围的页面智能生成导览目录的功能。
对候选主题的搜集一定要全面,包括标题块中的文字,正文块中的第一段文字,成组块中的子文字块中的文字,表格表头或者第一行中的文字。有些文字块转换为了矢量图形或者图片,在转换后应该记录其原始的文字属性做为其附加属性。在提取导览目录的时候可以利用这些附加属性。如果一个版面中没有任何文字,只有图片,可以将主图的文件名作为主题。
在排版软件中对候选主题及匹配的图片(简称为配图)进行排序。应该保留排序的结果。如果用户对文档进行了修改,当最优的主题及配图发生了改变或者被删除之后,应该对主题及配图进行改变,或者用次优的代替。导览目录与正文页面的超链接关系应该保留,当用户增加、删除页面之后,能够保持正确的超链接关系。
本实施例还提供可视化的操作界面,便于用户查看智能提取的结果。也便于用户对智能提取的结果进行修改。可视化的操作界面应该与阅读器上呈现的导览目录的效果尽量保持一致。图4为本发明实施例所述的数字出版物导览目录处理方法在排版软件中制作栏目的界面效果。通过智能提取,可以获得主题文字、配图,栏目名称可以由用户批量指定。栏目还包含所对应的正文页码。通过界面上的扩展菜单,可以对栏目进行删除、添加、修改,也可以跳转到相应的正文页。当版面发生小的改变后,可以自动维护目录信息的正确性,维护目录同正文页的超链接关系。
需要说明的是,本实施例所述的技术方案可以根据产品的需要设计数字出版物导览目录的逻辑结构。该逻辑结构具有通用性,与具体软件的数据格式无关。同具体的软件相结合,可以设计排版软件操作的数据结构,设计输出的数字出版物的数据结构,设计数字出版物导览目录的用户操作界面。并按照上述实施例描述的方法,智能提取全部文档或者部分文档的导览目录主题,并填充到导览目录数据结构中。
通过用户操作界面,填写其它数据。用户操作界面还提供对导览目录进行编辑、增加、删除的能力;当用户对版面进行修改时,对导览目录信息的正确性进行维护。包括主题的更新、配图的更新、超链接页面的更新。在用户输出数字出版物数据包的时候,获取数字出版物导览目录数据,按照数据包的格式要求,对排版软件中的数字出版物导览目录数据进行组织,形成符合规范的数字出版物导览目录数据格式并填充到数据包中。
图2为本发明数字出版物导览目录处理装置实施例的流程图,如图2所示,包括:
第一确定模块21,用于在指定页码范围内的文字内容中确定候选主题集合;
第一计算模块22,用于分别计算所述第一确定模块确定的候选主题集合中每个主题的权重;
第二确定模块23,用于将所述第一计算模块计算的最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;
第二计算模块24,用于根据所述第二确定模块确定的主题,分别计算所述指定页码范围内的每一图片的权重;
第三确定模块25,用于将所述第二计算模块计算的最大权重值对应的图片确定为与所述确定的主题匹配的图片;
生成模块26,用于将所述指定页码范围和所述第二确定模块确定的主题以及第三确定模块确定的图片生成所述数字出版物导览目录。
可选地,所述第一计算模块22用于:
根据公式:分别计算所述候选主题集合中每个主题的权重,其中,N为主题的字数。
可选地,所述第一计算模块22,还用于根据公式R2=L2,分别计算所述候选主题集合中每个主题的权重,其中,L为主题的字号高度。
可选地,所述第一计算模块22,还用于根据公式:
分别计算所述候选主题集合中每个主题的权重,N为主题的字数,L为主题的字号高度。
可选地,所述第二计算模块24,用于根据公式:分别计算所述指定页码范围内的每一图片的权重,其中,H表示图片高度,W表示图片宽度,S表示图片的边界与所述确定的主题之间的最近距离,单位为毫米。
可选地,所述的装置还包括:
显示模块27,用于显示所述生成模块生成的数字出版物导览目录。
本实施例的装置可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。