CN106339381B - 一种信息处理方法及装置 - Google Patents

一种信息处理方法及装置 Download PDF

Info

Publication number
CN106339381B
CN106339381B CN201510394321.9A CN201510394321A CN106339381B CN 106339381 B CN106339381 B CN 106339381B CN 201510394321 A CN201510394321 A CN 201510394321A CN 106339381 B CN106339381 B CN 106339381B
Authority
CN
China
Prior art keywords
node
type node
layout information
row
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510394321.9A
Other languages
English (en)
Other versions
CN106339381A (zh
Inventor
马莘权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510394321.9A priority Critical patent/CN106339381B/zh
Publication of CN106339381A publication Critical patent/CN106339381A/zh
Application granted granted Critical
Publication of CN106339381B publication Critical patent/CN106339381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种信息处理方法及装置;所述方法包括:获取并分析目录信息,基于所述目录信息生成树形结构;其中,所述树形结构中包括多个节点;所述节点表征所述目录信息中的元素;分析所述树形结构中的节点,基于所述节点的属性按第一预设规则生成行列布局信息;确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;按第二预设规则读取所述行列布局信息中的文本块节点生成目录信息列表。

Description

一种信息处理方法及装置
技术领域
本发明涉及通信技术,具体涉及一种信息处理方法及装置。
背景技术
随着网络技术及智能终端的发展,越来越多的人们使用智能终端(如智能手机、平板电脑等)阅读互联网上的信息,这其中包括小说。
本申请发明人在实现本申请实施例技术方案的过程中,至少发现相关技术中存在如下技术问题:
第三方内容提供者(如XX小说网)在提供网页内容时,将小说目录的超级文本标记语言(HTML,Hyper Text Markup Language)网页文本进行调换,以至于其他人对所述小说目录的HTML网页文本进行转换时,得到乱序的小说目录。如何从第三方内容提供者提供的HTML网页文本中直接得到顺序正确的小说目录,相关技术中,对于该问题,尚无有效解决方案。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种信息处理方法及装置,能够实现对目录信息的正确抽取。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种信息处理方法,所述方法包括:
获取并分析目录信息,基于所述目录信息生成树形结构;其中,所述树形结构中包括多个节点;所述节点表征所述目录信息中的元素;
分析所述树形结构中的节点,基于所述节点的属性按第一预设规则生成行列布局信息;
确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;
按第二预设规则读取所述行列布局信息中的文本块节点生成目录信息列表。
上述方案中,所述基于所述节点的属性按第一预设规则生成行列布局信息,包括:
基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点;
基于所述第一类型节点和所述第二类型节点生成行列布局信息;
其中,所述第一类型节点具有布局分行属性;所述第二类型节点具有布局分列属性。
上述方案中,所述基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点之后,所述方法还包括:基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点;所述第三类型节点具有文本分行属性;
相应的,所述基于所述第一类型节点和所述第二类型节点生成行列布局信息,包括:
基于所述第一类型节点、所述第二类型节点以及所述第三类型节点生成行列布局信息。
上述方案中,所述基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点,包括:
基于所述节点的属性从叶子节点至父节点方向搜索到第一类型节点,基于所述第一类型节点生成行布局信息;
基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点,基于所述第二类型节点生成列布局信息;所述列布局信息为与所述第一类型节点相匹配的列布局信息。
上述方案中,所述基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点之后,所述方法还包括:
基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点,基于所述第三类型节点生成虚拟行布局信息;所述虚拟行布局信息为与所述第二类型节点相匹配的行布局信息。
上述方案中,所述基于所述第一类型节点和所述第二类型节点生成行列布局信息,包括:
基于所述行布局信息和所述列布局信息生成行列布局信息。
上述方案中,所述基于所述第一类型节点、所述第二类型节点及所述第三类型节点生成行列布局信息,包括:
基于所述行布局信息、所述列布局信息和所述虚拟行布局信息生成行列布局信息。
上述方案中,所述按第二预设规则读取所述行列布局信息中的文本块节点,包括:
按照行列的先后顺序读取所述行列布局信息中的文本块节点;处于同一行的文本块节点按照所述文本块节点在所述树形结构中的先后顺序进行读取。
本发明实施例还提供了一种信息处理装置,所述装置包括:转换单元、分析单元和列表生成单元;其中,
所述转换单元,用于获取并分析目录信息,基于所述目录信息生成树形结构;其中,所述树形结构中包括多个节点;所述节点表征所述目录信息中的元素;
所述分析单元,用于分析所述转换单元生成的所述树形结构中的节点,基于所述节点的属性按第一预设规则生成行列布局信息;确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;
所述列表生成单元,用于按第二预设规则读取所述分析单元生成的所述行列布局信息中的文本块节点生成目录信息列表。
上述方案中,所述分析单元,用于基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点;基于所述第一类型节点和所述第二类型节点生成行列布局信息;其中,所述第一类型节点具有布局分行属性;所述第二类型节点具有布局分列属性。
上述方案中,所述分析单元,还用于基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点之后,基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点;所述第三类型节点具有文本分行属性;还用于基于所述第一类型节点、所述第二类型节点以及所述第三类型节点生成行列布局信息。
上述方案中,所述分析单元,用于基于所述节点的属性从叶子节点至父节点方向搜索到第一类型节点,基于所述第一类型节点生成行布局信息;基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点,基于所述第二类型节点生成列布局信息;所述列布局信息为与所述第一类型节点相匹配的列布局信息。
上述方案中,所述分析单元,还用于基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点之后,基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点,基于所述第三类型节点生成虚拟行布局信息;所述虚拟行布局信息为与所述第二类型节点相匹配的行布局信息。
上述方案中,所述分析单元,用于基于所述行布局信息和所述列布局信息生成行列布局信息。
上述方案中,所述分析单元,用于基于所述行布局信息、所述列布局信息和所述虚拟行布局信息生成行列布局信息。
上述方案中,所述列表生成单元,用于按照行列的先后顺序读取所述行列布局信息中的文本块节点;处于同一行的文本块节点按照所述文本块节点在所述树形结构中的先后顺序进行读取。
本发明实施例提供的信息处理方法及装置,通过获取并分析目录信息,基于所述目录信息生成树形结构;其中,所述树形结构中包括多个节点;所述节点表征所述目录信息中的元素;分析所述树形结构中的节点,基于所述节点的属性按第一预设规则生成行列布局信息;确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;按第二预设规则读取所述行列布局信息中的文本块节点生成目录信息列表。采用本发明实施例的技术方案,通过目录信息转换为树形结构,基于树形结构中各节点的属性(即出现的先后顺序)生成行列布局信息,确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;再基于行列的先后顺序读取所述行列布局信息中的文本块节点从而生成顺序正确的目录信息列表。如此,实现了快速、准确的获得正确排序且完整的目录信息列表。
附图说明
图1为本发明实施例一的信息处理方法的流程示意图;
图2为本发明实施例二的信息处理方法的流程示意图;
图3为本发明实施例二中的目录信息的示意图;
图4为本发明实施例二中的树形结构的示意图;
图5a为本发明实施例二中的行布局信息的示意图;
图5b为本发明实施例二中的列布局信息的示意图;
图5c为本发明实施例二中的虚拟行布局信息的示意图;
图6为本发明实施例二中文本块节点的虚拟布局示意图;
图7为本发明实施例三的信息处理装置的组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
实施例一
本发明实施例提供了一种信息处理方法。图1为本发明实施例一的信息处理方法的流程示意图;如图1所示,所述信息处理方法包括:
步骤101:获取并分析目录信息,基于所述目录信息生成树形结构;其中,所述树形结构中包括多个节点;所述节点表征所述目录信息中的元素。
本发明实施例提供的信息处理方法应用于信息处理装置中,实际应用中,所述信息处理装置可通过计算机、服务器或服务器集群实现,所述服务器或服务器集群可以为网页(WEB)服务器或WEB服务器集群。则本步骤中,所述获取并分析目录信息,基于所述目录信息生成树形结构,为:所述信息处理装置获取并分析目录信息,基于所述目录信息生成树形结构。
本实施例中,所述基于所述目录信息生成树形结构,包括:提取所述目录信息中的元素,基于所述元素在所述目录信息中出现的先后顺序、以及元素之间的父子关系生成树形结构。其中,所述目录信息中的元素可以是所述目录信息中的任一关键字或关键字集合。
步骤102:分析所述树形结构中的节点,基于所述节点的属性按第一预设规则生成行列布局信息。
这里,作为一种实施方式,所述基于所述节点的属性按第一预设规则生成行列布局信息,包括:
基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点;
基于所述第一类型节点和所述第二类型节点生成行列布局信息;
其中,所述第一类型节点具有布局分行属性;所述第二类型节点具有布局分列属性。
进一步地,作为另一种实施方式,所述基于所述节点的属性搜索到第一类型节点、以所述第一类型节点为父节点的第二类型节点之后,所述方法还包括:基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点;所述第三类型节点具有文本分行属性;
相应的,所述基于所述第一类型节点和所述第二类型节点生成行列布局信息,包括:
基于所述第一类型节点、所述第二类型节点以及所述第三类型节点生成行列布局信息。
本步骤中,当所述树形结构(即目录信息中)中不包括第三类型节点(即表征具有文本分行属性的节点)时,采用上述第一种行列布局信息生成方式;当所述树形结构即目录信息中)中包括第三类型节点(即表征具有文本分行属性的节点)时,采用上述第二种行列布局信息生成方式。
本步骤中,作为一种具体实施方式,所述基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点,包括:
基于所述节点的属性从叶子节点至父节点方向搜索到第一类型节点,基于所述第一类型节点生成行布局信息;
基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点,基于所述第二类型节点生成列布局信息;所述列布局信息为与所述第一类型节点相匹配的列布局信息。
相应的,所述基于所述第一类型节点和所述第二类型节点生成行列布局信息,包括:基于所述行布局信息和所述列布局信息生成行列布局信息。
更进一步地,所述基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点之后,所述方法还包括:
基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点,基于所述第三类型节点生成虚拟行布局信息;所述虚拟行布局信息为与所述第二类型节点相匹配的行布局信息。
相应的,所述基于所述第一类型节点、所述第二类型节点及所述第三类型节点生成行列布局信息,包括:基于所述行布局信息、所述列布局信息和所述虚拟行布局信息生成行列布局信息。
具体的,所述第一类型节点可以是“TR”节点,所述第二类型节点可以是“TD”节点,所述第三类型节点可以是“BR”节点,当然不限于上述节点示意。当所述树形结构中包括上述节点时,可直接根据上述节点的属性及先后顺序生成行列布局信息。当所述第一类型节点、所述第二类型节点甚至所述第三类型节点为其他节点时,如所述第一类型节点为“LI”节点时,可通过预先配置的映射集合获得行列布局信息。例如,所述映射配置集合可通过如下字符表示:
Figure BDA0000754418240000071
Figure BDA0000754418240000081
其中,当目录数量大于等于8时,基于上述映射配置集合中的{0,4,1,5,2,6,3,7}的映射方式,将所述目录信息中的{0,1,2,3,4,5,6,7}的目录按照{0,4,1,5,2,6,3,7}的顺序调整;以此类推,将目录数量等于7时,基于上述映射配置集合中的{0,4,1,5,2,6,3}的映射方式,将所述目录信息中的{0,1,2,3,4,5,6}的目录按照{0,4,1,5,2,6,3,}的顺序调整。
上述映射配置集合可基于第三方内容提供者提供的目录信息预先配置,也即上述映射配置集合中的调整顺序基于第三方内容提供者提供的目录信息预先配置。
步骤103:确定所述树形结构中文本块节点在所述行列布局信息中的位置信息。
本实施例中,所述确定所述树形结构中文本块节点在所述行列布局信息中的位置信息,包括:基于所述树形结构中节点出现的先后顺序,确定文本块节点在所述行列布局信息中的位置信息。具体的,基于所述树形结构中文本块节点在所述树形结构中出现的顺序,以及文本块节点与其他属性节点(包括布局分行属性节点、布局分列属性节点以及文本分行属性节点)之间的先后顺序,确定文本块节点在所述行列布局信息中的位置信息。
步骤104:按第二预设规则读取所述行列布局信息中的文本块节点生成目录信息列表。
这里,所述按第二预设规则读取所述行列布局信息中的文本块节点,包括:
按照行列的先后顺序读取所述行列布局信息中的文本块节点;处于同一行的文本块节点按照所述文本块节点在所述树形结构中的先后顺序进行读取。
采用本发明实施例的技术方案,通过目录信息转换为树形结构,基于树形结构中各节点的属性(即出现的先后顺序)生成行列布局信息,确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;再基于行列的先后顺序读取所述行列布局信息中的文本块节点从而生成顺序正确的目录信息列表。如此,实现了快速、准确的获得正确排序且完整的目录信息列表。
实施例二
本实施例以具体应用场景为例对本发明实施例提供的信息处理方法进行详细说明。图2为本发明实施例二的信息处理方法的流程示意图;如图2所示,所述信息处理方法包括:
步骤201:获取并分析目录信息,将所述目录信息转换为树形结构。
这里,所述基于所述目录信息生成树形结构,包括:提取所述目录信息中的元素,基于所述元素在所述目录信息中出现的先后顺序、以及元素之间的父子关系生成树形结构。
图3为本发明实施例二中的目录信息的示意图;如图3所示,第三方内容提供者提供的所述目录信息进行过调换,以至于采用先后顺序直接抽取所述目录信息中的节点生成目录信息列表时,会生成如表1所示的目录信息列表,从表1中可以看出生成的目录信息列表是乱序的。
第一章 山边小村
第四章 炼骨崖
第二章 青牛镇
第五章 墨大夫
第三章 七玄门
第六章 无名口诀
表1
具体的,以图3所示的目录信息为例,所述目录信息中的元素即为所述目录信息中的字段信息,包括:“html”、“body”、“table”、“TR”、“td”、“第一章山边小村”等等。基于所述目录信息的元素在所述目录信息中出现的先后顺序、以及元素之间的父子关系生成树形结构可如表2所示;其中,每个元素为所述树形结构中的一个节点;每个节点后的括号中的数字表示所述节点在所述树形结构中出现的顺序。更为直观地、形象地,图4为本发明实施例中的树形结构的示意图,所述树形结构可如图4所示,依据所述树形结构中各节点出现的先后顺序,在先的节点可称为在后节点的父节点,如TR(3)节点,可称为TD(4)、TD(9)节点或TD(14)节点的父节点;相应的,TD(4)、TD(9)节点或TD(14)节点可称为TR(3)节点的叶子节点。其中,本实施例中所述树形结构可以为文档对象模型(DOM,Document Object Model)树形结构。其中,所述树形结构中能够表征文本内容的节点,如“第一章山边小村(5)”节点在本实施例中称为文本块节点;所述树形结构中具有布局效果的节点,如TR节点、TD节点,在本实施例中可称为属性节点。
HTML(0)
BODY(1)
TABLE(2)
TR(3)
TD(4)
第一章山边小村(5)
BR(6)
BR(7)
第四章炼骨崖(8)
TD(9)
第二章青牛镇(10)
BR(11)
BR(12)
第五章墨大夫(13)
TD(14)
第三章七玄门(15)
BR(16)
BR(17)
第六章无名口诀(18)
表2
步骤202:基于所述节点的属性从叶子节点至父节点方向搜索到第一类型节点,基于所述第一类型节点生成行布局信息;所述第一类型节点具有布局分行属性。
步骤203:基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点,基于所述第二类型节点生成列布局信息;所述第二类型节点具有布局分列属性;所述列布局信息为与所述第一类型节点相匹配的列布局信息。
步骤204:基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点,基于所述第三类型节点生成虚拟行布局信息;所述第三类型节点具有文本分行属性;所述虚拟行布局信息为与所述第二类型节点相匹配的行布局信息。
步骤205:基于所述行布局信息、所述列布局信息和所述虚拟行布局信息生成行列布局信息。
本实施例中,以图3所示的目录信息为例,生成如表2或图4所示的树形结构,所述树形结构中包括多个节点。分析所述树形结构中的节点,每个节点均具有其对应的属性,也即在所述树形结构中具有的功能;基于此,所述树形结构中可以搜索到第一类型节点、第二类型节点,甚至还可以搜索到第三类型节点;其中,所述第一类型节点具有布局分行属性;所述第二类型节点具有布局分列属性;所述第三类型节点具有文本分行属性。以表2或图4所示的树形结构为例,其中,“TR”节点为具有布局分行属性的节点,也可以理解为“TR”节点将页面在纵向分块,例如在树形结构中具有三个“TR”节点时,可以理解为将页面在竖直方向分为三块。“TD”节点为具有布局分列的节点,也可以理解为“TD”节点将页面在横向分块;本示例中,每个“TD”节点均以一个“TR”节点作为父节点,也就是说,“TD”节点是在其作为父节点的“TR”节点下具有分列的功能,例如,以表2或图4为例,TR(3)节点下有三个“TD”节点,说明在基于TR(3)节点划分的块中,将所述块在水平方向分为三块。进一步地,本示意中,“BR”节点为具有文本分行属性的节点,当所述“BR”节点出现在表征文本信息的节点中时,所述“BR”节点能够将所述“BR”节点之前和之后的文本信息分行显示;在本示意中,每个“BR”节点可看成以一个“TD”节点作为父节点,也就是说,“BR”节点是在其作为父节点的“TD”节点下具有文本分行属性的节点。在本示意中,所述第一类型节点为“TR”节点,所述第二类型节点为“TD”节点,所述第三类型节点为“BR”节点,当然所述第一类型节点、所述第二类型节点、所述第三类型节点不限于上述示意,还可以是其他节点,例如,所述第一类型节点还可以是“LI”节点。
具体的,以表2或图4所示的树形结构为例,依据节点在所述树形结构中出现的顺序,在先的节点可称为父节点,在后的节点可称为叶子节点,则“TR(3)”节点可称为“TD(4)”节点的父节点;相应的,从“TD(4)”节点至“TR(3)”节点的方向即为从叶子节点至父节点方向。本实施例中,所述从叶子节点至父节点方向为从所述树形结构最底层的节点方向开始向父节点方向进行搜索,以表2或图4所示的树形结构为例,则从“第四章炼骨崖(8)”节点、“第五章墨大夫(13)”节点和“第六章无名口诀(18)”节点开始向各自对应的父节点方向开始进行搜索,直至搜索到各自对应的第一类型节点,即“TR(3)”节点。进一步地,每个第一类型节点都具有布局分行功能,也可以看作以每个第一类型节点作为根节点都能构成一个子树形结构。则基于搜索到的第一类型节点生成行布局信息。在具体实施过程中,可通过预先配置关键字进行搜索,当搜索到与配置的关键字匹配的节点时,确定所述节点为第一类型节点。图5a为本发明实施例二中的行布局信息的示意图;如图5a所示,基于第一类型节点(即具有布局分行属性的节点),可将页面在竖直方向上分为几块,呈现如图5a所示的虚拟布局效果。
搜索到第一类型节点后,从所述第一类型节点开始向叶子节点方向进行搜索至第二类型节点,以表2或图4所示的树形结构为例,从“TR(3)”节点开始向叶子节点方向进行搜索,搜索至第二类型节点为“TD(4)”节点、“TD(9)”节点和“TD(14)”节点。进一步地,基于上述第二类型节点生成在所述行布局内的列布局信息。可以理解为,“TD(4)”节点、“TD(9)”节点和“TD(14)”节点将“TR(3)”节点布局的表格分成了三列,在本示意中,生成的所述行列布局信息可以理解为包含有三列的表格内容。图5b为本发明实施例二中的列布局信息的示意图;如图5b所示,基于第一类型节点(即具有布局分行属性的节点)以及第二类型节点(即具有布局分列属性的节点),可将在以第一类型节点呈现的竖直分布的子块中在水平方向上再划分为几块,呈现如图5b所示的虚拟布局效果。
搜索到第二类型节点后,从所述第二类型节点开始向叶子节点方向进行搜索至第三类型节点,以表2或图4所示的树形结构为例,从“TD”节点开始向叶子节点方向进行搜索;以“TD(4)”节点为例,向叶子节点方向进行搜索,搜索至第三类型节点为“BR(6)”节点和“BR(7)”节点;以“TD(9)”节点为例,向叶子节点方向进行搜索,搜索至第三类型节点为“BR(11)”节点和“BR(12)”节点;以“TD(14)”节点为例,向叶子节点方向进行搜索,搜索至第三类型节点为“BR(16)”节点和“BR(17)”节点。进一步地,基于上述第三类型节点生成在所述列布局内的虚拟行布局信息。可以理解为,以“TD(4)”节点为所在列为例,“BR(6)”节点和“BR(7)”节点将“TD(4)”节点所在列分成三行。图5c为本发明实施例二中的虚拟行布局信息的示意图;如图5c所示,基于第一类型节点(即具有布局分行属性的节点)、第二类型节点(即具有布局分列属性的节点)以及第三类型节点(即具有文本分行属性的节点),可将在以第二类型节点呈现的水平分布的子块中在竖直方向上再划分为几个虚拟文本块,本实施例中,基于所有的TR节点、TD节点以及BR节点,呈现如图5c所示的虚拟布局效果。
在具体实现过程中,所述列布局信息和/或所述虚拟行布局信息并非独立生成的,所述列布局信息是基于所述行布局信息生成,所述虚拟行布局信息是基于所述行布局信息和所述列布局信息生成,也即当实施例中仅有第一类型节点和第二类型节点时,当生成列布局信息时即生成了所述行列布局信息;当实施例中包括第一类型节点、第二类型节点和第三类型节点时,当生成虚拟行布局信息时也即生成了所述行列布局信息。
步骤206:确定所述树形结构中文本块节点在所述行列布局信息中的位置信息。
本实施例中,所述确定所述树形结构中文本块节点在所述行列布局信息中的位置信息,包括:基于所述树形结构中节点出现的先后顺序,确定文本块节点在所述行列布局信息中的位置信息。
图6为本发明实施例二中文本块节点的虚拟布局示意图;如图6所示,基于所述树形结构中文本块节点在所述树形结构中出现的顺序,以及文本块节点与其他具有布局分行属性、布局分列属性以及文本分行属性节点之间的先后顺序,确定文本块节点在所述行列布局信息中的位置信息;具体的,文本块节点在所述行列布局信息中的位置可如图6所示。
步骤207:读取所述行列布局信息中的文本块节点生成目录信息列表。
这里,所述读取所述行列布局信息中的文本块节点,包括:按照行列的先后顺序读取所述行列布局信息中的文本块节点;处于同一行的文本块节点按照所述文本块节点在所述树形结构中的先后顺序进行读取。
基于上述读取顺序读取出的目录内容,生成的目录信息列表可如表4所示,如此,生成顺序正确的目录信息列表。
第一章 山边小村(5)
第二章 青牛镇(10)
第三章 七玄门(15)
第四章 炼骨崖(8)
第五章 墨大夫(13)
第六章 无名口诀(18)
表4
采用本发明实施例的技术方案,通过目录信息转换为树形结构,基于树形结构中各节点的属性(即出现的先后顺序)生成行列布局信息,确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;再基于行列的先后顺序读取所述行列布局信息中的文本块节点从而生成顺序正确的目录信息列表。如此,实现了快速、准确的获得正确排序且完整的目录信息列表。
本发明实施例一和实施例二所述的信息处理方法,针对第三方内容提供者(如XX小说网)提供的乱序目录信息,实现了快速、准确的目录信息列表的还原。如此,本发明实施例所述的信息处理方法可应用于如下场景:用户或技术人员浏览到XX小说网上的xx小说,想将xx小说制作成电子书。则通过本发明实施例所述的信息处理方法快速、准确的获得xx小说的目录信息列表,当然,也可以基于本发明实施例所述的信息处理方法获得其中的具体内容;基于还原后的目录信息列表、以及其中的具体内容制作电子书,便于在移动终端上浏览。
实施例三
本发明实施例还提供了一种信息处理装置,图5为本发明实施例三的信息处理装置的组成结构示意图,如图5所示,所述装置包括:转换单元51、分析单元52和列表生成单元53;其中,
所述转换单元51,用于获取并分析目录信息,基于所述目录信息生成树形结构;其中,所述树形结构中包括多个节点;所述节点表征所述目录信息中的元素;
所述分析单元52,用于分析所述转换单元51生成的所述树形结构中的节点,基于所述节点的属性按第一预设规则生成行列布局信息;确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;
所述列表生成单元53,用于按第二预设规则读取所述分析单元52生成的所述行列布局信息中的文本块节点生成目录信息列表。
其中,所述分析单元52,用于基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点;基于所述第一类型节点和所述第二类型节点生成行列布局信息;其中,所述第一类型节点具有布局分行属性;所述第二类型节点具有布局分列属性。
具体的,所述分析单元52,还用于基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点之后,基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点;所述第三类型节点具有文本分行属性;还用于基于所述第一类型节点、所述第二类型节点以及所述第三类型节点生成行列布局信息。
相应的,所述分析单元52,用于基于所述行布局信息和所述列布局信息生成行列布局信息。
作为另一实施方式,所述分析单元52,还用于基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点之后,基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点;所述第三类型节点具有文本分行属性;还用于基于所述第一类型节点、所述第二类型节点以及所述第三类型节点生成行列布局信息。
具体的,所述分析单元52,用于基于所述节点的属性从叶子节点至父节点方向搜索到第一类型节点,基于所述第一类型节点生成行布局信息;基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点,基于所述第二类型节点生成列布局信息;所述列布局信息为与所述第一类型节点相匹配的列布局信息。
相应的,所述分析单元52,用于基于所述行布局信息、所述列布局信息和所述虚拟行布局信息生成行列布局信息。
具体的,所述列表生成单元53,用于按照行列的先后顺序读取所述行列布局信息中的文本块节点;处于同一行的文本块节点按照所述文本块节点在所述树形结构中的先后顺序进行读取。
本领域技术人员应当理解,本发明实施例的信息处理装置中各处理单元的功能,可参照前述信息处理方法的相关描述而理解,本发明实施例的信息处理装置中各处理单元,可通过实现本发明实施例所述的功能的模拟电路而实现,也可以通过执行本发明实施例所述的功能的软件在智能终端上的运行而实现。
实施例四
本发明实施例还提供了一种信息处理装置,基于图5所示,所述装置包括:转换单元51、分析单元52和列表生成单元53;其中,
所述转换单元51,用于获取并分析目录信息,基于所述目录信息生成树形结构;其中,所述树形结构中包括多个节点;所述节点表征所述目录信息中的元素;
所述分析单元52,用于分析所述转换单元51生成的所述树形结构中的节点,基于所述节点的属性从叶子节点至父节点方向搜索到第一类型节点,基于所述第一类型节点生成行布局信息;基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点,基于所述第二类型节点生成列布局信息;所述列布局信息为与所述第一类型节点相匹配的列布局信息;基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点,基于所述第三类型节点生成虚拟行布局信息;所述虚拟行布局信息为与所述第二类型节点相匹配的行布局信息;其中,所述第一类型节点具有布局分行属性;所述第二类型节点具有布局分列属性;所述第三类型节点具有文本分行属性;还用于基于所述行布局信息、所述列布局信息和所述虚拟行布局信息生成行列布局信息;确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;
所述列表生成单元53,用于按第二预设规则读取所述分析单元52生成的所述行列布局信息中的文本块节点生成目录信息列表。
其中,所述列表生成单元53,用于按照行列的先后顺序读取所述行列布局信息中的文本块节点;处于同一行的文本块节点按照所述文本块节点在所述树形结构中的先后顺序进行读取。
具体的,以图3所示的目录信息为例,所述目录信息中的元素即为所述目录信息中的字段信息,包括:“html”、“body”、“table”、“TR”、“td”、“第一章山边小村”等等。基于所述目录信息的元素在所述目录信息中出现的先后顺序、以及元素之间的父子关系生成树形结构可如前述表2所示;其中,每个元素为所述树形结构中的一个节点;每个节点后的括号中的数字表示所述节点在所述树形结构中出现的顺序。更为直观地、形象地,所述树形结构可如图4所示,依据所述树形结构中各节点出现的先后顺序,在先的节点可称为在后节点的父节点,如TR(3)节点,可称为TD(4)、TD(9)节点或TD(14)节点的父节点;相应的,TD(4)、TD(9)节点或TD(14)节点可称为TR(3)节点的叶子节点。其中,本实施例中所述树形结构可以为DOM树形结构。其中,所述树形结构中能够表征文本内容的节点,如“第一章山边小村(5)”节点在本实施例中称为文本块节点;所述树形结构中具有布局效果的节点,如TR节点、TD节点,在本实施例中可称为属性节点。
本实施例中,以图3所示的目录信息为例,所述转换单元51生成如表2或图4所示的树形结构,所述树形结构中包括多个节点。所述分析单元52分析所述树形结构中的节点,每个节点均具有其对应的属性,也即在所述树形结构中具有的功能;基于此,所述分析单元52在所述树形结构中可以搜索到第一类型节点、第二类型节点,甚至还可以搜索到第三类型节点;其中,所述第一类型节点具有布局分行属性;所述第二类型节点具有布局分列属性;所述第三类型节点具有文本分行属性。以表2或图4所示的树形结构为例,其中,“TR”节点为具有布局分行属性的节点,也可以理解为“TR”节点将页面在纵向分块,例如在树形结构中具有三个“TR”节点时,可以理解为将页面在竖直方向分为三块。“TD”节点为具有布局分列的节点,也可以理解为“TD”节点将页面在横向分块;本示例中,每个“TD”节点均以一个“TR”节点作为父节点,也就是说,“TD”节点是在其作为父节点的“TR”节点下具有分列的功能,例如,以表2或图4为例,TR(3)节点下有三个“TD”节点,说明在基于TR(3)节点划分的块中,将所述块在水平方向分为三块。进一步地,本示意中,“BR”节点为具有文本分行属性的节点,当所述“BR”节点出现在表征文本信息的节点中时,所述“BR”节点能够将所述“BR”节点之前和之后的文本信息分行显示;在本示意中,每个“BR”节点可看成以一个“TD”节点作为父节点,也就是说,“BR”节点是在其作为父节点的“TD”节点下具有文本分行属性的节点。在本示意中,所述第一类型节点为“TR”节点,所述第二类型节点为“TD”节点,所述第三类型节点为“BR”节点,当然所述第一类型节点、所述第二类型节点、所述第三类型节点不限于上述示意,还可以是其他节点,例如,所述第一类型节点还可以是“LI”节点。
具体的,以表2或图4所示的树形结构为例,依据节点在所述树形结构中出现的顺序,在先的节点可称为父节点,在后的节点可称为叶子节点,则“TR(3)”节点可称为“TD(4)”节点的父节点;相应的,从“TD(4)”节点至“TR(3)”节点的方向即为从叶子节点至父节点方向。本实施例中,所述从叶子节点至父节点方向为从所述树形结构最底层的节点方向开始向父节点方向进行搜索,以表2或图4所示的树形结构为例,所述分析单元52则从“第四章炼骨崖(8)”节点、“第五章墨大夫(13)”节点和“第六章无名口诀(18)”节点开始向各自对应的父节点方向开始进行搜索,直至搜索到各自对应的第一类型节点,即“TR(3)”节点。进一步地,每个第一类型节点都具有布局分行功能,也可以看作以每个第一类型节点作为根节点都能构成一个子树形结构。则基于搜索到的第一类型节点生成行布局信息。在具体实施过程中,所述分析单元52可通过预先配置关键字进行搜索,当搜索到与配置的关键字匹配的节点时,确定所述节点为第一类型节点。如图5a所示,基于第一类型节点(即具有布局分行属性的节点),可将页面在竖直方向上分为几块,呈现如图5a所示的虚拟布局效果。
所述分析单元52搜索到第一类型节点后,从所述第一类型节点开始向叶子节点方向进行搜索至第二类型节点,以表2或图4所示的树形结构为例,从“TR(3)”节点开始向叶子节点方向进行搜索,搜索至第二类型节点为“TD(4)”节点、“TD(9)”节点和“TD(14)”节点。进一步地,基于上述第二类型节点生成在所述行布局内的列布局信息。可以理解为,“TD(4)”节点、“TD(9)”节点和“TD(14)”节点将“TR(3)”节点布局的表格分成了三列,在本示意中,生成的所述行列布局信息可以理解为包含有三列的表格内容。如图5b所示,基于第一类型节点(即具有布局分行属性的节点)以及第二类型节点(即具有布局分列属性的节点),可将在以第一类型节点呈现的竖直分布的子块中在水平方向上再划分为几块,呈现如图5b所示的虚拟布局效果。
所述分析单元52搜索到第二类型节点后,从所述第二类型节点开始向叶子节点方向进行搜索至第三类型节点,以表2或图4所示的树形结构为例,从“TD”节点开始向叶子节点方向进行搜索;以“TD(4)”节点为例,向叶子节点方向进行搜索,搜索至第三类型节点为“BR(6)”节点和“BR(7)”节点;以“TD(9)”节点为例,向叶子节点方向进行搜索,搜索至第三类型节点为“BR(11)”节点和“BR(12)”节点;以“TD(14)”节点为例,向叶子节点方向进行搜索,搜索至第三类型节点为“BR(16)”节点和“BR(17)”节点。进一步地,基于上述第三类型节点生成在所述列布局内的虚拟行布局信息。可以理解为,以“TD(4)”节点为所在列为例,“BR(6)”节点和“BR(7)”节点将“TD(4)”节点所在列分成三行。如图5c所示,基于第一类型节点(即具有布局分行属性的节点)、第二类型节点(即具有布局分列属性的节点)以及第三类型节点(即具有文本分行属性的节点),可将在以第二类型节点呈现的水平分布的子块中在竖直方向上再划分为几个虚拟文本块,本实施例中,基于所有的TR节点、TD节点以及BR节点,呈现如图5c所示的虚拟布局效果。
所述分析单元52基于上述行布局信息、所述列布局信息和所述虚拟行布局信息生成行列布局信息,所述行列布局信息可如前述表3所示。
在具体实现过程中,所述列布局信息和/或所述虚拟行布局信息并非独立生成的,所述列布局信息是基于所述行布局信息生成,所述虚拟行布局信息是基于所述行布局信息和所述列布局信息生成,也即当实施例中仅有第一类型节点和第二类型节点时,当生成列布局信息时即生成了所述行列布局信息;当实施例中包括第一类型节点、第二类型节点和第三类型节点时,当生成虚拟行布局信息时也即生成了所述行列布局信息。
采用本发明实施例的技术方案,所述信息处理装置通过目录信息转换为树形结构,基于树形结构中各节点的属性(即出现的先后顺序)生成行列布局信息,确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;再基于行列的先后顺序读取所述行列布局信息中的文本块节点从而生成顺序正确的目录信息列表。如此,实现了快速、准确的获得正确排序且完整的目录信息列表。
本领域技术人员应当理解,本发明实施例的信息处理装置中各处理单元的功能,可参照前述信息处理方法的相关描述而理解,本发明实施例的信息处理装置中各处理单元,可通过实现本发明实施例所述的功能的模拟电路而实现,也可以通过执行本发明实施例所述的功能的软件在智能终端上的运行而实现。
在本发明实施例三和实施例四中,所述信息处理装置在实际应用中,可由计算机、服务器或服务器集群实现,所述服务器或服务器集群具体可以是WEB服务器。所述信息处理装置中的转换单元51、分析单元52和列表生成单元53,在实际应用中均可由所述计算机或服务器中的中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,DigitalSignal Processor)或可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (16)

1.一种信息处理方法,其特征在于,所述方法包括:
获取并分析目录信息,基于所述目录信息中元素出现的先后顺序、及元素之间的父子关系生成树形结构;其中,所述树形结构中包括多个节点;所述节点表征所述目录信息中的元素;
分析所述树形结构中的节点,基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点;其中,所述第一类型节点具有布局分行属性,所述第二类型节点具有布局分列属性;
基于所述第一类型节点和所述第二类型节点、及映射配置集合生成行列布局信息,所述映射配置集合包含所述目录信息的调整顺序;
确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;
按第二预设规则读取所述行列布局信息中的文本块节点生成目录信息列表。
2.根据权利要求1所述的方法,其特征在于,所述基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点之后,所述方法还包括:基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点;所述第三类型节点具有文本分行属性;
相应的,所述基于所述第一类型节点和所述第二类型节点生成行列布局信息,包括:
基于所述第一类型节点、所述第二类型节点以及所述第三类型节点生成行列布局信息。
3.根据权利要求1所述的方法,其特征在于,所述基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点,包括:
基于所述节点的属性从叶子节点至父节点方向搜索到第一类型节点,基于所述第一类型节点生成行布局信息;
基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点,基于所述第二类型节点生成列布局信息;所述列布局信息为与所述第一类型节点相匹配的列布局信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点之后,所述方法还包括:
基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点,基于所述第三类型节点生成虚拟行布局信息;所述虚拟行布局信息为与所述第二类型节点相匹配的行布局信息。
5.根据权利要求3所述的方法,其特征在于,所述基于所述第一类型节点和所述第二类型节点生成行列布局信息,包括:
基于所述行布局信息和所述列布局信息生成行列布局信息。
6.根据权利要求4所述的方法,其特征在于,所述基于所述第一类型节点、所述第二类型节点及所述第三类型节点生成行列布局信息,包括:
基于所述行布局信息、所述列布局信息和所述虚拟行布局信息生成行列布局信息。
7.根据权利要求1所述的方法,其特征在于,所述按第二预设规则读取所述行列布局信息中的文本块节点,包括:
按照行列的先后顺序读取所述行列布局信息中的文本块节点;处于同一行的文本块节点按照所述文本块节点在所述树形结构中的先后顺序进行读取。
8.一种信息处理装置,其特征在于,所述装置包括:转换单元、分析单元和列表生成单元;其中,
所述转换单元,用于获取并分析目录信息,基于所述目录信息中元素出现的先后顺序、及元素之间的父子关系生成树形结构;其中,所述树形结构中包括多个节点;所述节点表征所述目录信息中的元素;
所述分析单元,用于分析所述转换单元生成的所述树形结构中的节点,基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点;其中,所述第一类型节点具有布局分行属性,所述第二类型节点具有布局分列属性;基于所述第一类型节点和所述第二类型节点、及映射配置集合生成行列布局信息,所述映射配置集合包含所述目录信息的调整顺序;确定所述树形结构中文本块节点在所述行列布局信息中的位置信息;
所述列表生成单元,用于按第二预设规则读取所述分析单元生成的所述行列布局信息中的文本块节点生成目录信息列表。
9.根据权利要求8所述的装置,其特征在于,所述分析单元,还用于基于所述节点的属性搜索到第一类型节点和以所述第一类型节点为父节点的第二类型节点之后,基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点;所述第三类型节点具有文本分行属性;还用于基于所述第一类型节点、所述第二类型节点以及所述第三类型节点生成行列布局信息。
10.根据权利要求8所述的装置,其特征在于,所述分析单元,用于基于所述节点的属性从叶子节点至父节点方向搜索到第一类型节点,基于所述第一类型节点生成行布局信息;基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点,基于所述第二类型节点生成列布局信息;所述列布局信息为与所述第一类型节点相匹配的列布局信息。
11.根据权利要求10所述的装置,其特征在于,所述分析单元,还用于基于所述节点的属性从所述第一类型节点至叶子节点方向搜索到第二类型节点之后,基于所述节点的属性搜索到以所述第二类型节点为父节点的第三类型节点,基于所述第三类型节点生成虚拟行布局信息;所述虚拟行布局信息为与所述第二类型节点相匹配的行布局信息。
12.根据权利要求10所述的装置,其特征在于,所述分析单元,用于基于所述行布局信息和所述列布局信息生成行列布局信息。
13.根据权利要求11所述的装置,其特征在于,所述分析单元,用于基于所述行布局信息、所述列布局信息和所述虚拟行布局信息生成行列布局信息。
14.根据权利要求8所述的装置,其特征在于,所述列表生成单元,用于按照行列的先后顺序读取所述行列布局信息中的文本块节点;处于同一行的文本块节点按照所述文本块节点在所述树形结构中的先后顺序进行读取。
15.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述可执行指令时,实现如权利要求1至7任一项所述的信息处理方法。
16.一种计算机可读存储介质,其特征在于,所述存储介质中存储有可执行指令,所述可执行指令执行时实现权利要求1至7任一项所述的信息处理方法。
CN201510394321.9A 2015-07-07 2015-07-07 一种信息处理方法及装置 Active CN106339381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510394321.9A CN106339381B (zh) 2015-07-07 2015-07-07 一种信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510394321.9A CN106339381B (zh) 2015-07-07 2015-07-07 一种信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN106339381A CN106339381A (zh) 2017-01-18
CN106339381B true CN106339381B (zh) 2020-11-06

Family

ID=57826407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510394321.9A Active CN106339381B (zh) 2015-07-07 2015-07-07 一种信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN106339381B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368237A (zh) * 2017-07-19 2017-11-21 环球智达科技(北京)有限公司 基于用户界面展示的布局方法
CN111857718B (zh) * 2020-07-29 2024-04-09 网易(杭州)网络有限公司 列表的编辑方法、装置、设备及存储介质
CN116976286B (zh) * 2023-09-22 2024-02-27 北京紫光芯能科技有限公司 用于进行文本布局的方法及装置、电子设备、存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464874A (zh) * 2007-12-17 2009-06-24 金宝电子(上海)有限公司 使用xml表示电子字典目录数据的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464874A (zh) * 2007-12-17 2009-06-24 金宝电子(上海)有限公司 使用xml表示电子字典目录数据的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Internet的农业信息资源采集***;赵洋等;《农机化研究》;20081031(第10期);139—141 *

Also Published As

Publication number Publication date
CN106339381A (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
US10565293B2 (en) Synchronizing DOM element references
US20150278359A1 (en) Method and apparatus for generating a recommendation page
CN101950312B (zh) 一种互联网网页内容解析方法
CN106897251B (zh) 富文本展示方法及装置
US20150040098A1 (en) Systems and methods for developing and delivering platform adaptive web and native application content
US9563611B2 (en) Merging web page style addresses
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
CN104572668B (zh) 基于多个样式文件生成合并样式文件的方法和设备
CN108334508B (zh) 网页信息的提取方法和装置
CN106776615B (zh) 热力图生成方法和装置
EP2802979A2 (en) Processing store visiting data
US8290925B1 (en) Locating product references in content pages
CN106547749B (zh) 网页数据采集的方法和装置
CN104504086A (zh) 网页页面的聚类方法和装置
CN106339381B (zh) 一种信息处理方法及装置
CN103970898A (zh) 一种基于多级规则库的信息提取方法及装置
CN106933916B (zh) Json字符串的处理方法及装置
CN112650529A (zh) 可配置生成移动端app代码的***及方法
CN109710224A (zh) 页面处理方法、装置、设备及存储介质
CN110968314A (zh) 一种页面生成方法及装置
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN104484449A (zh) 网页页面的正文提取方法和装置
CN106033444B (zh) 文本内容的聚类方法和装置
US20130318133A1 (en) Techniques to manage universal file descriptor models for content files
US20120284224A1 (en) Build of website knowledge tables

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant