CN105095285B - 数字出版物导览目录处理方法和装置 - Google Patents

数字出版物导览目录处理方法和装置 Download PDF

Info

Publication number
CN105095285B
CN105095285B CN201410203649.3A CN201410203649A CN105095285B CN 105095285 B CN105095285 B CN 105095285B CN 201410203649 A CN201410203649 A CN 201410203649A CN 105095285 B CN105095285 B CN 105095285B
Authority
CN
China
Prior art keywords
theme
weight
picture
visitors
catalogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410203649.3A
Other languages
English (en)
Other versions
CN105095285A (zh
Inventor
杨雷鸣
王婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201410203649.3A priority Critical patent/CN105095285B/zh
Publication of CN105095285A publication Critical patent/CN105095285A/zh
Application granted granted Critical
Publication of CN105095285B publication Critical patent/CN105095285B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种数字出版物导览目录处理方法和装置,通过在指定页码范围内的文字内容中确定候选主题集合;分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将最大权重值对应的图片确定为与所述确定的主题匹配的图片;将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导览目录。可以根据指定页码范围内的文字内容自动生成数字出版物导览目录,提高了数字出版物导览目录处理效率,可以解决现有的数字出版物导览目录处理效率低的问题。

Description

数字出版物导览目录处理方法和装置
技术领域
本发明涉及数字出版技术,尤其涉及一种数字出版物导览目录处理方法和装置。
背景技术
随着平板电脑及智能手机的普及,数字出版成为一种重要的出版形式。数字出版以电子设备为阅读载体、通过互联网进行传播。具有节约纸张,传播方便迅速,具有丰富的多媒体效果等特性,必将成为未来主要的出版形式。这里的数字出版物不仅仅限于电子书,可以涵盖数字报、数字杂志、电子书、数字教材、教学课件等。
数字出版物由于不存在印刷成本,因此版面以彩色为主、图片居多,版面效果丰富,版式没有明显的规律性,导览目录具有页面跳转能力。因此传统的印刷出版提取目录的方法不再适用数字出版物导览目录的提取。由于数字出版目前处于起步阶段,成熟的数字出版物制作工具不多。现有的数字出版物制作工具导览目录以手工制作为主,存在效率低的问题。
发明内容
本发明提供一种数字出版物导览目录处理方法和装置,用以解决现有的数字出版物导览目录处理效率低的问题。
本发明提供一种数字出版物导览目录处理方法,包括:
在指定页码范围内的文字内容中确定候选主题集合;
分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;
根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将最大权重值对应的图片确定为与所述确定的主题匹配的图片;
将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导览目录。
本发明提供一种数字出版物导览目录处理装置,包括:
第一确定模块,用于在指定页码范围内的文字内容中确定候选主题集合;
第一计算模块,用于分别计算所述第一确定模块确定的候选主题集合中每个主题的权重;
第二确定模块,用于将所述第一计算模块计算的最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;
第二计算模块,用于根据所述第二确定模块确定的主题,分别计算所述指定页码范围内的每一图片的权重;
第三确定模块,用于将所述第二计算模块计算的最大权重值对应的图片确定为与所述确定的主题匹配的图片;
生成模块,用于将所述指定页码范围和所述第二确定模块确定的主题以及第三确定模块确定的图片生成所述数字出版物导览目录。
本发明通过在指定页码范围内的文字内容中确定候选主题集合;分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将最大权重值对应的图片确定为与所述确定的主题匹配的图片;将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导览目录。可以根据指定页码范围内的文字内容自动生成数字出版物导览目录,提高了数字出版物导览目录处理效率,可以解决现有的数字出版物导览目录处理效率低的问题。
附图说明
图1为本发明数字出版物导览目录处理方法实施例的流程图;
图2为本发明数字出版物导览目录处理装置实施例的流程图;
图3为本发明实施例所述的数字出版物导览目录在平板电脑上的呈现效果图;
图4为本发明实施例所述的数字出版物导览目录处理方法在排版软件中制作栏目的界面效果。
具体实施方式
本发明的目的是提供一种智能提取数字出版物导览目录的方法,该方法通过自动提取主题及配图,自动维护导览目录与正文内容的超链接关系,能够大大提升数字出版物导览目录的制作效率,降低制作难度。
图1为本发明数字出版物导览目录处理方法实施例的流程图,如图1所示,本实施例的方法可以包括:
101、在指定页码范围内的文字内容中确定候选主题集合;
举例来说,在所述指定页码范围内的文字内容中,将重复出现次数超过次数阈值的文字或词语或句子作为候选主题,组成候选主题集合,其中,次数阈值可以根据不同文字内容具体设置。
102、分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;
具体实现时,分别计算所述候选主题集合中每个主题的权重,包括:
根据公式:分别计算所述候选主题集合中每个主题的权重,其中,N为主题的字数;或者
根据公式R2=L2,分别计算所述候选主题集合中每个主题的权重,其中,L为主题的字号高度;或者
根据公式:分别计算所述候选主题集合中每个主题的权重,N为主题在的字数,L为主题的字号高度。
需要说明的是,上述公式中的数字10是优选的自定义数字,也可以是其他数字,本发明对此不作限定。
需要说明的是,当计算所述候选主题集合中每个主题的权重之后,可以将每个主题按照各自权重值的大小进行排序,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题。
103、根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将最大权重值对应的图片确定为与所述确定的主题匹配的图片;
可选地,根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,包括:
根据公式:分别计算所述指定页码范围内的每一图片的权重,其中,H表示图片高度,W表示图片宽度,S表示图片的边界与所述确定的主题之间的最近距离,单位为毫米。
需要说明的是,当计算所述指定页码范围内的每一图片的权重之后,可以将每一图片按照各自权重值的大小进行排序,并将最大权重值对应的图片确定为与所述确定的主题匹配的图片。
104、将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导览目录。
其中,所述数字出版物导览目录例如包含主题、配图、页码范围,还还可以所属的栏目等。
举例来说,本实施例的数字出版物导览目录的逻辑格式例如可以描述为:<导览目录>
<目录栏目=“新闻”标题=“新闻1”配图=“图片1.jpg”页码=“10”>
<目录栏目=“娱乐”标题=“电影信息”配图=“图片2.jpg”页码=“12”>
……
</导览目录>
可选地,本实施例还可以显示所述生成数字出版物导览目录,图3为本发明实施例所述的数字出版物导览目录在平板电脑上的呈现效果图,如图3所示,在阅读器端,完成数字出版物导览目录的呈现及操作。在平板电脑上,可以方便的触控方式完成导览目录的弹出、滚屏、选择、消隐,为用户提供人性化的操作体验。
其中,本实施例的数字出版物导览目录例如可以按照预设的逻辑结构存储在数字出版物的数据包中。当用户点击阅读器上方工具条中的按钮后,将呈现导览目录。呈现的具体效果可以由阅读器决定。导览目录的顺序一般按照栏目或者页码的顺序进行呈现,当目录过多的时候可以用手滑动目录。目录中一般应该包含主题、配图、栏目名称。当读者点击目录的时候,可以跳转到对应的正文页。
需要说明的是,在第一次制作数字出版物导览目录的时候,可以提示用户是否启动智能数字出版物导览目录生成功能。应该提供整书智能生成导览目录的功能及一定范围的页面智能生成导览目录的功能。
对候选主题的搜集一定要全面,包括标题块中的文字,正文块中的第一段文字,成组块中的子文字块中的文字,表格表头或者第一行中的文字。有些文字块转换为了矢量图形或者图片,在转换后应该记录其原始的文字属性做为其附加属性。在提取导览目录的时候可以利用这些附加属性。如果一个版面中没有任何文字,只有图片,可以将主图的文件名作为主题。
在排版软件中对候选主题及匹配的图片(简称为配图)进行排序。应该保留排序的结果。如果用户对文档进行了修改,当最优的主题及配图发生了改变或者被删除之后,应该对主题及配图进行改变,或者用次优的代替。导览目录与正文页面的超链接关系应该保留,当用户增加、删除页面之后,能够保持正确的超链接关系。
本实施例还提供可视化的操作界面,便于用户查看智能提取的结果。也便于用户对智能提取的结果进行修改。可视化的操作界面应该与阅读器上呈现的导览目录的效果尽量保持一致。图4为本发明实施例所述的数字出版物导览目录处理方法在排版软件中制作栏目的界面效果。通过智能提取,可以获得主题文字、配图,栏目名称可以由用户批量指定。栏目还包含所对应的正文页码。通过界面上的扩展菜单,可以对栏目进行删除、添加、修改,也可以跳转到相应的正文页。当版面发生小的改变后,可以自动维护目录信息的正确性,维护目录同正文页的超链接关系。
需要说明的是,本实施例所述的技术方案可以根据产品的需要设计数字出版物导览目录的逻辑结构。该逻辑结构具有通用性,与具体软件的数据格式无关。同具体的软件相结合,可以设计排版软件操作的数据结构,设计输出的数字出版物的数据结构,设计数字出版物导览目录的用户操作界面。并按照上述实施例描述的方法,智能提取全部文档或者部分文档的导览目录主题,并填充到导览目录数据结构中。
通过用户操作界面,填写其它数据。用户操作界面还提供对导览目录进行编辑、增加、删除的能力;当用户对版面进行修改时,对导览目录信息的正确性进行维护。包括主题的更新、配图的更新、超链接页面的更新。在用户输出数字出版物数据包的时候,获取数字出版物导览目录数据,按照数据包的格式要求,对排版软件中的数字出版物导览目录数据进行组织,形成符合规范的数字出版物导览目录数据格式并填充到数据包中。
图2为本发明数字出版物导览目录处理装置实施例的流程图,如图2所示,包括:
第一确定模块21,用于在指定页码范围内的文字内容中确定候选主题集合;
第一计算模块22,用于分别计算所述第一确定模块确定的候选主题集合中每个主题的权重;
第二确定模块23,用于将所述第一计算模块计算的最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;
第二计算模块24,用于根据所述第二确定模块确定的主题,分别计算所述指定页码范围内的每一图片的权重;
第三确定模块25,用于将所述第二计算模块计算的最大权重值对应的图片确定为与所述确定的主题匹配的图片;
生成模块26,用于将所述指定页码范围和所述第二确定模块确定的主题以及第三确定模块确定的图片生成所述数字出版物导览目录。
可选地,所述第一计算模块22用于:
根据公式:分别计算所述候选主题集合中每个主题的权重,其中,N为主题的字数。
可选地,所述第一计算模块22,还用于根据公式R2=L2,分别计算所述候选主题集合中每个主题的权重,其中,L为主题的字号高度。
可选地,所述第一计算模块22,还用于根据公式:
分别计算所述候选主题集合中每个主题的权重,N为主题的字数,L为主题的字号高度。
可选地,所述第二计算模块24,用于根据公式:分别计算所述指定页码范围内的每一图片的权重,其中,H表示图片高度,W表示图片宽度,S表示图片的边界与所述确定的主题之间的最近距离,单位为毫米。
可选地,所述的装置还包括:
显示模块27,用于显示所述生成模块生成的数字出版物导览目录。
本实施例的装置可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种数字出版物导览目录处理方法,其特征在于,包括:
在指定页码范围内的文字内容中确定候选主题集合;
分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;
根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将最大权重值对应的图片确定为与所述确定的主题匹配的图片;
将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导览目录;
其中,根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,包括:
根据公式:分别计算所述指定页码范围内的每一图片的权重,其中,H表示图片高度,W表示图片宽度,S表示图片的边界与所述确定的主题之间的最近距离,单位为毫米。
2.根据权利要求1所述的方法,其特征在于,所述分别计算所述候选主题集合中每个主题的权重,包括:
根据公式:分别计算所述候选主题集合中每个主题的权重,其中,N为主题的字数。
3.根据权利要求1所述的方法,其特征在于,所述分别计算所述候选主题集合中每个主题的权重,包括:
根据公式R2=L2,分别计算所述候选主题集合中每个主题的权重,其中,L为主题的字号高度。
4.根据权利要求2所述的方法,其特征在于,所述分别计算所述候选主题集合中每个主题的权重,包括:
根据公式:分别计算所述候选主题集合中每个主题的权重,N为主题的字数,L为主题的字号高度。
5.根据权利要求1-4任一项所述的方法,其特征在于,将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导览目录之后包括:
显示所述数字出版物导览目录。
6.一种数字出版物导览目录处理装置,其特征在于,包括:
第一确定模块,用于在指定页码范围内的文字内容中确定候选主题集合;
第一计算模块,用于分别计算所述第一确定模块确定的候选主题集合中每个主题的权重;
第二确定模块,用于将所述第一计算模块计算的最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;
第二计算模块,用于根据所述第二确定模块确定的主题,分别计算所述指定页码范围内的每一图片的权重;
第三确定模块,用于将所述第二计算模块计算的最大权重值对应的图片确定为与所述确定的主题匹配的图片;
生成模块,用于将所述指定页码范围和所述第二确定模块确定的主题以及第三确定模块确定的图片生成所述数字出版物导览目录;
其中,所述第二计算模块,用于根据公式:分别计算所述指定页码范围内的每一图片的权重,其中,H表示图片高度,W表示图片宽度,S表示图片的边界与所述确定的主题之间的最近距离,单位为毫米。
7.根据权利要求6所述的装置,其特征在于:
所述第一计算模块,用于根据公式:分别计算所述候选主题集合中每个主题的权重,其中,N为主题的字数。
8.根据权利要求6所述的装置,其特征在于:
所述第一计算模块,还用于根据公式R2=L2,分别计算所述候选主题集合中每个主题的权重,其中,L为主题的字号高度。
9.根据权利要求7所述的装置,其特征在于:
所述第一计算模块,还用于根据公式:分别计算所述候选主题集合中每个主题的权重,N为主题的字数,L为主题的字号高度。
10.根据权利要求6-9任一项所述的装置,其特征在于,还包括:
显示模块,用于显示所述生成模块生成的数字出版物导览目录。
CN201410203649.3A 2014-05-14 2014-05-14 数字出版物导览目录处理方法和装置 Expired - Fee Related CN105095285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410203649.3A CN105095285B (zh) 2014-05-14 2014-05-14 数字出版物导览目录处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410203649.3A CN105095285B (zh) 2014-05-14 2014-05-14 数字出版物导览目录处理方法和装置

Publications (2)

Publication Number Publication Date
CN105095285A CN105095285A (zh) 2015-11-25
CN105095285B true CN105095285B (zh) 2019-03-26

Family

ID=54575738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410203649.3A Expired - Fee Related CN105095285B (zh) 2014-05-14 2014-05-14 数字出版物导览目录处理方法和装置

Country Status (1)

Country Link
CN (1) CN105095285B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202572B (zh) * 2016-08-18 2020-03-06 广州视睿电子科技有限公司 电子书目录显示方法及装置
CN108932221A (zh) * 2017-05-25 2018-12-04 北大方正集团有限公司 基于大对象的文件排版方法和装置
CN108984685B (zh) * 2018-06-29 2020-07-03 北京字节跳动网络技术有限公司 一种自动显示文档目录的方法及装置
WO2022000302A1 (zh) * 2020-06-30 2022-01-06 深圳市世强元件网络有限公司 一种元器件电商平台搜索结果分类展示方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101375268A (zh) * 2006-01-27 2009-02-25 Unz.Org有限责任公司 在网络上呈现数字化内容
CN101872346A (zh) * 2009-04-22 2010-10-27 中国科学院自动化研究所 一种自动生成视频导航***的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101375268A (zh) * 2006-01-27 2009-02-25 Unz.Org有限责任公司 在网络上呈现数字化内容
CN101872346A (zh) * 2009-04-22 2010-10-27 中国科学院自动化研究所 一种自动生成视频导航***的方法

Also Published As

Publication number Publication date
CN105095285A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
US8977978B2 (en) Outline view
CN101916245B (zh) 一种电子阅读器上电子书批注实现方法和装置
US10282069B2 (en) Dynamic presentation of suggested content
US20160092405A1 (en) Intent Based Authoring
US20160092419A1 (en) Structured Sample Authoring Content
CN102346730A (zh) 电子阅读器中显示目录的方法和装置
US20080307301A1 (en) Web Clip Using Anchoring
US20160092404A1 (en) Intent Based Feedback
EP2875448A2 (en) Abstract relational model for transforming data into consumable content
US20140379719A1 (en) System and method for tagging and searching documents
CN105095285B (zh) 数字出版物导览目录处理方法和装置
CN103092972A (zh) 基于线索对象的搜索方法及装置
CN107209756B (zh) 在标记语言文档中支持数字墨水
CN105185377A (zh) 一种基于语音的文件生成方法及装置
CN104915186B (zh) 一种制作页面的方法和装置
WO2015172576A1 (en) Webpage generation method and device
GB2519312A (en) An apparatus for associating images with electronic text and associated methods
CN111553138B (zh) 用于规范内容结构文档的辅助写作方法及装置
CN103514289A (zh) 一种兴趣本体库构建方法及装置
CN103049547B (zh) 一种基于IDF文档格式的iOS页面处理方法
CN104317490A (zh) 一种提示方法及电子设备
CN103605521A (zh) 一种实现界面对位的方法及装置
CN103744909A (zh) 漫画搜索装置和漫画搜索方法
CN104536692A (zh) 触摸屏的操作方法、触摸装置和触摸终端
CN104750661A (zh) 一种对文本进行选定词句的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220623

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190326

CF01 Termination of patent right due to non-payment of annual fee