CN106547913A

CN106547913A - 页面信息的收集分类反馈方法、装置及***

Info

Publication number: CN106547913A
Application number: CN201611055518.0A
Authority: CN
Inventors: 刘天畅
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2017-03-29
Anticipated expiration: 2036-11-25
Also published as: CN106547913B

Abstract

本发明公开了一种页面信息的收集分类反馈方法、装置及***。所述页面信息的收集分类反馈方法包括：根据目标网站中的各个网页之间的链接关系，获得所述目标网站中的所有详情网页；提取各个所述详情网页中的页面信息；根据预设的类型关键词对所述页面信息进行分类，分别确定各个所述页面信息所属的信息类型；根据各个所述页面信息和所对应的信息类型，生成相应的反馈信息。采用本发明，能够提高对页面信息进行收集和分类的过程的效率，并且提高页面信息反馈的及时性。

Description

页面信息的收集分类反馈方法、装置及***

技术领域

本发明涉及计算机技术领域，尤其涉及一种页面信息的收集分类反馈方法、装置及***。

背景技术

在应用软件或者网站上线运营过程中，及时收集用户对该应用软件或者网站的反馈信息并对收集到的反馈信息进行分类处理是一项十分重要的工作。以游戏上线运营为例，通过及时收集玩家对该游戏的反馈信息以及对收集到的反馈信息进行及时的分类和处理，不仅可以清楚地得知玩家对游戏的需求和建议，还可以让负责不同模块的游戏管理人员及时发现该游戏中的在开发阶段未发现的外放bug并有针对性地进行修复。凭借这些反馈信息，游戏开发人员可以调整游戏的开发方向，并在发现游戏中的bug之后及时进行修复，避免造成更大的损失。由此可见，及时对用户的反馈信息进行收集分类处理是至关重要的。然而，现如今互联网上每日产生的数据量***式地增长，用户的反馈信息往往分布在不同的渠道之中，因此收集用户的反馈信息的难度十分大。

目前，对用户的反馈信息进行收集和分类的方法主要有两种：一是通过管理人员人工地对用户发表于应用软件或者网站的官方论坛、百度贴吧、新浪微博等中的反馈信息进行筛选、分类和整理，二是通过各种渠道中的客服直接收集用户与客服进行私聊沟通时反馈的信息，并对这些信息进行分类等处理。

由于上述两种方法都不可避免地需要一定的人力参与其中，而采用人工的方式对用户的反馈信息进行收集和分类需要耗费大量的时间和精力，且数据的海量化导致管理人员很难保持对各个渠道中的用户反馈进行实时全面的监控和处理，短期内涌现的大量的反馈信息也使得游戏开发者难以对所有的反馈信息进行及时有效的处理，因此现有的对用户的反馈信息进行收集分类处理的方法效率低下，且在人力不足时很容易出现反馈信息无法及时得到反馈和处理的现象，从而在一定程度上扩大了游戏bug所带来的损失。

发明内容

本发明提出一种页面信息的收集分类反馈方法、装置及***，能够提高对页面信息进行收集和分类的过程的效率，并且提高页面信息反馈的及时性。

本发明提供的一种页面信息的收集分类反馈方法，具体包括：

根据目标网站中的各个网页之间的链接关系，获得所述目标网站中的所有详情网页；

提取各个所述详情网页中的页面信息；

根据预设的类型关键词对所述页面信息进行分类，分别确定各个所述页面信息所属的信息类型；

根据各个所述页面信息和所对应的信息类型，生成相应的反馈信息。

进一步地，在所述根据目标网站中的各个网页之间的链接关系，获得所述目标网站中的所有详情网页之前，还包括：

从预设的配置文件或者先前的登录请求中获得登录信息；

根据所述登录信息生成模拟登录请求；

将所述模拟登录请求发送至目标网站所对应的服务器端，以使所述服务器端对所述模拟登录请求中的登录信息进行验证，并在验证通过时返回验证通过信息；

接收所述服务器端返回的所述验证通过信息，并根据所述验证通过信息登录至所述目标网站。

进一步地，所述目标网站中包括根网页、中间网页和详情网页；所述根网页和所述中间网页均包括所述目标网站中其他网页的网页地址；

则所述根据目标网站中的各个网页之间的链接关系，获得所述目标网站中的所有详情网页，具体包括：

获得所述目标网站中的根网页；

提取所述根网页中的网页地址，并将所述网页地址设置为当前网页地址；

根据网页地址命名规则，判断所述当前网页地址的类型；

若所述当前网页地址的类型为详情网页地址类型，则获取所述当前网页地址所对应的详情网页；

若所述当前网页地址的类型为中间网页地址类型，则获取所述当前网页地址所对应的中间网页，并将所述中间网页中的网页地址设置为所述当前网页地址，并返回至步骤：根据网页地址命名规则，判断所述当前网页地址的类型。

进一步地，在所述提取各个所述详情网页中的页面信息之后，所述根据预设的类型关键词对所述页面信息进行分类，分别确定各个所述页面信息所属的信息类型之前，还包括：

根据预设的时间限制条件，获得所述页面信息中的符合所述时间限制条件的页面信息。

进一步地，所述根据预设的类型关键词对所述页面信息进行分类，分别确定各个所述页面信息所属的信息类型，具体包括：

对所述页面信息进行解析，并判断所述页面信息中是否包含预设的类型关键词；其中，每个类型关键词对应一个信息类型；

当所述页面信息中包含一个所述类型关键词时，确定所述页面信息的信息类型为所包含的所述类型关键词所对应的信息类型；

当所述页面信息中包含两个或者两个以上所述类型关键词时，根据预先设置的信息类型的优先级，确定所述页面信息的信息类型为所包含的所述类型关键词所对应的信息类型中的所述优先级最高的信息类型。

进一步地，每个所述页面信息中包括信息标题和至少一个子页面信息，且所述子页面信息按照时间的先后顺序排列；

则所述根据预设的类型关键词对所述页面信息进行分类，分别确定各个所述页面信息所属的信息类型，具体包括：

获得所述页面信息中的所述信息标题和前N个子页面信息；其中，N为大于0的正整数；

当判断所述信息标题中包括所述类型关键词或者所述前N个子页面信息中包括所述类型关键词时，确定所述页面信息的类型为所述类型关键词所对应的信息类型。

进一步地，在所述根据各个所述页面信息和所对应的信息类型，生成相应的反馈信息之后，还包括：

判断所述反馈信息中的信息类型是否为管理端特定信息类型；

若是，则将所述反馈信息发送至与所述信息类型相对应的管理端，并将所述反馈信息存入数据库中；

若否，则将所述反馈信息存入所述数据库中，并在接收到管理端发送的包括所述信息类型的反馈信息获取请求时，将所述反馈信息发送至所述管理端。

进一步地，所述页面信息为用户反馈信息；所述类型关键词的个数为至少一个；所述信息类型的个数为至少一个；每个所述信息类型与至少一个所述类型关键词相对应。

相应地，本发明还提供了一种页面信息的收集分类反馈装置，具体包括：

详情页面获得模块，用于根据目标网站中的各个网页之间的链接关系，获得所述目标网站中的所有详情网页；

页面信息提取模块，用于提取各个所述详情网页中的页面信息；

信息类型确定模块，用于根据预设的类型关键词对所述页面信息进行分类，分别确定各个所述页面信息所属的信息类型；以及，

反馈信息生成模块，用于根据各个所述页面信息和所对应的信息类型，生成相应的反馈信息。

进一步地，所述页面信息的收集分类反馈装置，还包括：

登录信息获得模块，用于从预设的配置文件或者先前的登录请求中获得登录信息；

模拟登录请求生成模块，用于根据所述登录信息生成模拟登录请求；

模拟登录请求发送模块，用于将所述模拟登录请求发送至目标网站所对应的服务器端，以使所述服务器端对所述模拟登录请求中的登录信息进行验证，并在验证通过时返回验证通过信息；以及，

登录模块，用于接收所述服务器端返回的所述验证通过信息，并根据所述验证通过信息登录至所述目标网站。

所述详情页面获得模块，具体包括：

根网页获得单元，用于获得所述目标网站中的根网页；

当前网页地址设置单元，用于提取所述根网页中的网页地址，并将所述网页地址设置为当前网页地址；

当前网页地址类型判断单元，用于根据网页地址命名规则，判断所述当前网页地址的类型；

当前详情页面获取单元，用于当所述当前网页地址的类型为详情网页地址类型时，获取所述当前网页地址所对应的详情网页；或者，

循环处理单元，用于当所述当前网页地址的类型为中间网页地址类型时，获取所述当前网页地址所对应的中间网页，并将所述中间网页中的网页地址设置为所述当前网页地址，并返回至所述当前网页地址类型判断单元。

进一步地，所述页面信息的收集分类反馈装置，还包括：

页面信息过滤模块，用于根据预设的时间限制条件，获得所述页面信息中的符合所述时间限制条件的页面信息。

进一步地，所述信息类型确定模块，具体包括：

信息类型判断单元，用于对所述页面信息进行解析，并判断所述页面信息中是否包含预设的类型关键词；其中，每个类型关键词对应一个信息类型；

第一信息类型确定单元，用于当所述页面信息中包含一个所述类型关键词时，确定所述页面信息的信息类型为所包含的所述类型关键词所对应的信息类型；或者，

第二信息类型确定单元，用于当所述页面信息中包含两个或者两个以上所述类型关键词时，根据预先设置的信息类型的优先级，确定所述页面信息的信息类型为所包含的所述类型关键词所对应的信息类型中的所述优先级最高的信息类型。

所述信息类型确定模块，具体包括：

关键信息提取单元，用于获得所述页面信息中的所述信息标题和前N个子页面信息；其中，N为大于0的正整数；以及，

第二信息类型确定单元，用于当判断所述信息标题中包括所述类型关键词或者所述前N个子页面信息中包括所述类型关键词时，确定所述页面信息的类型为所述类型关键词所对应的信息类型。

进一步地，所述页面信息的收集分类反馈装置，还包括：

特定信息类型判断模块，用于判断所述反馈信息中的信息类型是否为管理端特定信息类型；

第一信息反馈模块，用于当所述反馈信息中的信息类型为所述管理端特定信息类型时，将所述反馈信息发送至与所述信息类型相对应的管理端，并将所述反馈信息存入数据库中；以及，

第二信息反馈模块，用于当所述反馈信息中的信息类型不为所述管理端特定信息类型时，将所述反馈信息存入所述数据库中，并在接收到管理端发送的包括所述信息类型的反馈信息获取请求时，将所述反馈信息发送至所述管理端。

相应地，本发明还提供了一种页面信息的收集分类反馈***，包括页面信息处理端、服务器端和管理端；

所述页面信息处理端为如权利要求9至16中任一项所述的页面信息的收集分类反馈装置；

所述服务器端用于存储和管理目标网站，以及接收所述页面信息处理端发送的模拟登录请求，并在验证所述模拟登录请求中的登录信息通过时返回验证通过信息至所述页面信息处理端；

所述管理端用于发送反馈信息获取请求至所述页面信息处理端，以及接收所述页面信息处理端发送的反馈信息。

实施本发明，具有如下有益效果：

本发明提供的页面信息的收集分类反馈方法、装置及***，通过根据网站中的各个网页之间的连接关系获取详情网页及详情网页中的页面信息，并根据类型关键词对该页面信息进行分类，最后根据分类后的页面信息生成可反馈至管理端的反馈信息，实现采用计算机设备对网站上的页面信息进行全自动的收集、分类及反馈，从而能够提高对页面信息进行收集和分类的过程的效率，并且提高页面信息反馈的及时性。

附图说明

图1是本发明提供的页面信息的收集分类反馈方法的一个实施例的流程示意图；

图2是本发明提供的页面信息的收集分类反馈方法的一个实施例中的一个管理端所接收到的反馈信息的示意图；

图3是本发明提供的页面信息的收集分类反馈方法的一个实施例中的一个模拟浏览器的示意图；

图4是本发明提供的页面信息的收集分类反馈方法的一个实施例中的获取贴吧中的详情网页的过程示意图；

图5是本发明提供的页面信息的收集分类反馈装置的一个实施例的结构示意图；

图6是本发明提供的页面信息的收集分类反馈***的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的页面信息的收集分类反馈方法的一个实施例的流程示意图，包括步骤S11至S14，具体如下：

S11：根据目标网站中的各个网页之间的链接关系，获得所述目标网站中的所有详情网页；

S12：提取各个所述详情网页中的页面信息；

S13：根据预设的类型关键词对所述页面信息进行分类，分别确定各个所述页面信息所属的信息类型；

S14：根据各个所述页面信息和所对应的信息类型，生成相应的反馈信息。

需要说明的是，本发明实施例由页面信息处理端执行。页面信息处理端可以为独立的主机、服务器等，也可以为设备中的应用处理程序、处理进程等。页面信息处理端从目标网站中获得详情网页之后，获取其中的页面信息，并根据预设的类型关键词对所获取的页面信息进行分类，最后，生成包含该页面信息与所属的信息类型的反馈信息。

在一个优选地实施方式中，页面信息处理端在打开目标网站之后，获取该目标网站中的网站数据，从该网站数据中解析出该目标网站中的各个网页之间的链接关系，并根据这些链接关系，获得该目标网站中的所有详情网页。其中，目标网站中包括中间网页和详情网页等，中间网页为包括该目标网站中的其他网页的网页地址的网页，而详情网页为不包括该目标网站中的其他网页的网页地址且包括详情内容的网页。随后，页面信息处理端对各个详情网页中的网页数据进行解析，并对其中的详情内容进行提取，从而获得页面信息。在获得页面信息之后，页面信息处理端根据预先设置的类型关键词对所获得的页面信息进行分类，分别判断和确定各个页面信息所属的信息类型，并根据页面信息和该页面信息所属的信息类型，生成相应的反馈信息。在反馈信息生成之后，页面信息处理端将各个反馈信息分别发送至与反馈信息中的信息类型相对应的管理端。管理人员或者技术人员等即可通过管理端获得反馈信息，并根据该反馈信息进行相应的处理。

以目标网站为贴吧为例，贴吧中包括首页、话题类型列表网页、话题列表网页和话题详情网页等。页面信息处理端对贴吧中的网站数据进行解析，获得该贴吧中的各个网页之间的链接关系(如，在话题类型列表网页中包括各个话题列表网页的网页地址，在话题列表网页中包括各个话题详情网页的地址)，从而根据这些链接关系，获得贴吧中的所有话题详情网页。随后，页面信息处理端对所获得的话题详情网页中的网页数据进行解析，提取并获得其中的页面信息，即各个话题的详情内容。随后，根据预设的类型关键词对所获得的话题详情内容进行分类，判断并确定各个话题详情内容所属的信息类型。假设bug信息类型所对应的类型关键词为“漏洞”，则若话题详情内容中包括“漏洞”或者与“漏洞”意思相近的关键字，则认为该话题详情内容为属于bug信息类型的信息。在确定各个话题详情内容所属的信息类型之后，生成包括该话题详情内容和所对应的信息类型的反馈信息，并将该反馈信息发送至与反馈信息中的信息类型相对应的管理端，如，将bug信息类型所对应的反馈信息发送至专门接收和处理属于bug信息类型的话题评论的管理端。如图2所示，为一个管理端所接收到的反馈信息的示意图，该管理端用于处理bug信息类型的页面信息。

需要进一步说明的是，本实施例中的目标网站还可以是官方论坛、微博等的网站。

通过根据网站中的各个网页之间的连接关系获取详情网页及详情网页中的页面信息，并根据类型关键词对该页面信息进行分类，最后根据分类后的页面信息生成可反馈至管理端的反馈信息，实现采用计算机设备对网站上的页面信息进行全自动的收集、分类及反馈，从而能够提高对页面信息进行收集和分类的过程的效率，并且提高页面信息反馈的及时性。

从预设的配置文件或者先前的登录请求中获得登录信息；

根据所述登录信息生成模拟登录请求；

需要说明的是，在一些网站中，需要进行用户登录之后才能够获取该网站中的页面信息，因此在对目标网站中的网站数据进行解析之前，还需要进行登录操作。

页面信息处理端可以从预先设置的配置文件中获得登录信息，并将所获得的登录信息添加至预先创建的模拟浏览器中，并通过该模拟浏览器发起模拟登录请求，即将该模拟登录请求发送至目标网站所对应的服务器端。该服务器端在接收到该模拟登录请求之后，对该模拟登录请求中的登录信息进行验证，若验证通过，则返回验证通过信息(通常为cookie)至页面信息处理端，若验证不通过，则返回验证不通过信息。页面信息处理端在接收到服务器端返回的验证通过信息之后，保存该验证通过信息，并根据该验证通过信息进行登录，从而能够获得目标网站中的网站数据。

如图3所示，为一个模拟浏览器的示意图。其中，该模拟浏览器其中包括username(用户名)和password(密码)两个登录信息项。页面信息处理端从名为“DISCUZ_FORUM_LOGIN_DATA”的配置文件中读取其中的用户名和密码，并将所读取的用户名和密码添加至该模拟浏览器中的相应的登录信息项中。随后，页面信息处理端通过该模拟浏览器发起模拟登录请求，并在登录验证通过后存储服务器端返回的cookie，并根据该cookie进行登录操作，从而跳转至“referer”所指向的网页。

页面信息处理端还可以通过截取先前的真实登录请求中的内容获得登录信息，并将所获得登录信息添加至模拟登录请求的生成代码中，从而生成相应的模拟登录请求。随后，页面信息处理端将该模拟登录请求发送至目标网站所对应的服务器端。该服务器端在接收到该模拟登录请求之后，对该模拟登录请求中的登录信息进行验证，若验证通过，则返回验证通过信息(通常为cookie)至页面信息处理端，若验证不通过，则返回验证不通过信息。页面信息处理端在接收到服务器端返回的验证通过信息之后，保存该验证通过信息，并根据该验证通过信息进行登录，从而能够获得目标网站中的网站数据。

需要进一步说明的是，页面信息处理端可以在验证通过信息的有效期限内凭借该验证通过信息在目标网站进行多次登录。

采用模拟登录的方法，能够节省人工登录操作的时间，从而进一步提高对页面信息进行收集的过程的效率。

获得所述目标网站中的根网页；

根据网页地址命名规则，判断所述当前网页地址的类型；

需要说明的是，目标网站中包括中间网页和详情网页等，中间网页为包括该目标网站中的其他网页的网页地址的网页，而详情网页为不包括该目标网站中的其他网页的网页地址且包括详情内容的网页。页面信息处理端在获取目标网站中的详情网页时，首先获取该目标网站中的根网页(即首页)，并提取该根网页中的所有网页地址，并将这些网页地址依次设置为当前网页地址，分别进行后续的处理。在将从根网页中获得的网页地址设置为当前网页地址后，页面信息处理端根据网页地址命名规则，判断当前网页地址的类型，若当前网页地址的类型为详情网页地址类型，则读取当前网页地址所对应的网页(即详情网页)；若当前网页地址的类型为中间网页地址类型，则读取当前网页地址所对应的网页(即中间网页)，并获取该中间网页中的所有网页地址，并将这些网页地址依次设置为当前网页地址，分别进行进一步的判断和处理。在将从中间网页中获得的网页地址设置为当前网页地址后，页面信息处理端依照前文所述的方法对该当前网页地址的类型进行判断，并根据判断的结果进行后续的处理，直至获得该目标网站中的所有详情网页。

需要进一步说明的是，不同类型的网页的网页地址的命名规则不同，如，以网页地址的开头部分区分不同类型的网页，中间网页的网页地址以“192.188.xxx.xxx”命名，而详情网页的网页地址以“192.178.xxx.xxx”命名；或者，以网页地址的中间部分区分不同类型的网页，中间网页的网页地址以“xxx.168.123.xxx”命名，而详情网页的网页地址以“xxx.168.133.xxx”命名；或者，以网页地址的结尾部分区分不同类型的网页，中间网页的网页地址以“xxx.xxx.132.168”命名，而详情页面的页面地址以“xxx.xxx.233.168”命名。其中，xxx表示0～255中的任意数字。在一些具体的应用场景中，所采用的命名规则可以与上述的命名规则相同，也可以不同，具体的命名规则视具体的应用场景而定。

以目标网站为贴吧为例，本例采用队列的方式获取目标网站中的详情网页。假设该贴吧中的包括首页、话题列表网页和话题详情网页，其中，话题详情网页即为待获取的详情网页。如图4所示，为获取贴吧中的详情网页的过程示意图。首先，页面信息处理端获取贴吧的首页，并提取该首页中的所有网页地址。随后，页面信息处理端将这些网页地址依次放入总网页地址列表41中，并将该总网页地址列表41中的排在队头的网页地址设置为当前网页地址。页面信息处理端根据网页地址命名规则判断该当前网页地址的类型，若当前网页地址的类型为详情网页类型，则将该当前网页地址添加至详情网页地址列表42，并将总网页地址列表41中的下一个网页地址设置为当前网页地址继续进行判断；若当前网页地址的类型为中间网页地址类型，则将该当前网页地址添加至中间网页地址列表43，并将总网页地址列表41中的下一个网页地址设置为当前网页地址继续进行判断。页面信息处理端读取详情网页地址列表42中的排在队头的网页地址，并将该排在队头的网页地址设置为当前网页地址，获取该当前网页地址所对应的网页(即话题详情网页)。随后，页面信息处理端解析并提取所获得的话题详情网页中的网页数据，从而获得其中的页面信息(即话题详情内容)。页面信息处理端读取中间网页地址列表43中的排在队头的网页地址，并将该排在队头的网页地址设置为当前网页地址，获取当前网页地址所对应的网页(即话题列表网页)。页面信息处理端在获得话题列表网页之后，读取该话题列表网页中的所有网页地址，并依次判断这些网页地址的类型，从而将其中类型为详情网页类型的网页地址添加至详情网页地址列表42中等待处理。本例采用多线程技术对各个队列中的信息数据进行同步处理，直至所有列表中的信息数据均处理完毕。在具体的实施中，列表的个数可以根据目标网站中的网页的层级、种类等进行调整以适应具体的应用场景。例如，当目标网站为微博网站时，只需要设置详情网页地址列表一个列表即可，用于存放微博首页中的各条微博的网页地址。

需要说明的是，在获得页面信息之后，还可以对所获得的页面信息进行过滤和筛选。根据预先设置的时间限制条件，将所获得的页面信息中的符合该时间限制条件的页面信息筛选出来，从而过滤掉一些无用的页面信息。如，该时间限制条件可以为发布时间，即保留所获得的页面信息中的在所限定的发布时间之后发布的页面信息，而去除其中在所限定的发布时间之前发布的页面信息，从而滤除已经过时的信息。该时间限制条件还可以是最后一次进行修改的时间等。

除了时间限制条件之外，还可以预先设置其他诸如类型限制条件、发布对象限制条件等对所获得的页面信息进行过滤和筛选。

通过将所获得的页面信息中的无用信息去除，能够减少需要进行类型判断的页面信息的数量，从而进一步提高对页面信息进行分类的过程的效率，且提高所反馈的页面信息的实用性。

需要说明的是，页面信息处理端在根据类型关键词对页面信息进行分类时，采用关键词匹配的方法。每个类型关键词与一种信息类型相对应。不同信息类型的优先级不同，各个信息类型的优先级由管理人员或者技术人员预先设置。若页面信息中包含一个类型关键词，则判定该页面信息的信息类型为该类型关键词所对应的信息类型；若页面信息中同时包含两个或者两个以上类型关键词，则对比该两个或者两个以上类型关键词中的各个类型关键词所对应的信息类型的优先级，并将该页面信息的信息类型判定为其中优先级最高的信息类型。另外，可以同时通过在该页面信息中添加标记位的方式标记该页面信息的信息类型。若页面信息中不包含任一信息类型中的任一类型关键词，则认为该页面信息不属于所需要关注的内容，并将该页面信息丢弃。

例如，信息类型分为建议信息类型和bug信息类型两种，建议信息类型与包含至少一个建议类型的关键词的建议词典相对应，bug信息类型与包含至少一个bug类型的关键词的bug词典相对应。其中，建议信息类型的优先级高于bug信息类型的优先级。则页面信息处理端对页面信息进行分类时，判断该页面信息中是否包含建议词典和bug词典中的任一类型关键词，若该页面信息中仅包含建议词典中的类型关键词，则判定该页面信息的信息类型为建议信息类型；若该页面信息中仅包含bug词典中的类型关键词，则判定该页面信息的信息类型为bug信息类型；若该信息页面中既包含建议词典中的类型关键词，又包含bug词典中的类型关键词，则判定该页面信息的信息类型为建议信息类型；若该信息页面中既不包含建议词典中的类型关键词，又不包含bug词典中的类型关键词，则判定该页面信息不属于所需要关注的信息，并将该页面信息丢弃。

在另一个优选地实施方式中，每个所述页面信息中包括信息标题和至少一个子页面信息，且所述子页面信息按照时间的先后顺序排列；

需要说明的是，每个页面信息中包括信息标题和一个或者多个子页面信息，且其中的子页面信息按照发布时间或者修改时间的先后顺序排列。由于一个页面信息中的子页面信息所涉及的话题几乎是相同的，因此页面信息处理端在对页面信息进行分类时，只需要根据该页面信息中的信息标题和前若干条子页面信息进行判断即可。页面信息处理端提取页面信息中的信息标题和前N个(N>0，且N为整数)子页面信息，并判断该信息标题或者该前N个子页面信息中是否包括类型关键词，若该信息标题中包括任一类型关键词，或者该前N个子页面信息中包括任一类型关键词，则判定该页面信息的类型为该类型关键词所对应的信息类型。例如，在贴吧中，某一话题的详情内容中包括该话题的标题和若干跟帖，因此，在对该话题的详情内容进行分类时，只需要提取该详情内容中的话题标题及前N个跟帖的内容进行判断即可。

通过将页面信息中的关键信息提取出来，并仅通过对这些关键信息进行类型判断即可对页面信息的信息类型进行判断，能够减少进行类型判断时需要检测的数据的数量，从而进一步提高对页面信息进行分类的过程的效率。

需要说明的是，页面信息处理端在确定页面信息所属的信息类型之后，生成包括该页面信息及相对应的信息类型的反馈信息。其中，反馈信息中还可以包括页面信息的获取渠道、获取时间、反馈信息的处理状态、处理人等信息。随后，页面信息处理端判断该反馈信息中的信息类型是否为管理端所指定的特定信息类型(如，处于最高优先级的信息类型或者紧急信息类型)，若是，则将该反馈信息直接发送至处理该信息类型的管理端，并同时将该反馈信息存入数据库中，以便管理人员或者技术人员日后查看，若否，则将该反馈信息存入数据库中。管理人员或者技术人员在需要查看或者处理历史反馈信息时，通过管理端发送包含所需要获取的反馈信息的信息类型的反馈信息获取请求至页面信息处理端。页面信息处理端在接收到该反馈信息获取请求之后，根据其中的信息类型，从数据库中读取与该信息类型相对应的反馈信息，并将这些反馈信息返回至管理端。

需要说明的是，当需要对网站中的用户反馈信息进行收集、分类和处理时，本实施例中的页面信息为用户反馈信息。所需要关注的信息的信息类型可以为一个也可以为多个，类型关键词的个数也可以为一个或者多个。每种信息类型可以与一个或者多个类型关键词相对应。

本发明实施例提供的页面信息的收集分类反馈方法，通过根据网站中的各个网页之间的连接关系获取详情网页及详情网页中的页面信息，并根据类型关键词对该页面信息进行分类，最后根据分类后的页面信息生成可反馈至管理端的反馈信息，实现采用计算机设备对网站上的页面信息进行全自动的收集、分类及反馈，从而能够提高对页面信息进行收集和分类的过程的效率，并且提高页面信息反馈的及时性。另外，采用模拟登录的方法，能够节省人工登录操作的时间，从而进一步提高对页面信息进行收集的过程的效率。同时，一方面，通过将所获得的页面信息中的无用信息去除，能够减少需要进行类型判断的页面信息的数量，从而进一步提高对页面信息进行分类的过程的效率，且提高所反馈的页面信息的实用性。另一方面，通过将页面信息中的关键信息提取出来，并仅通过对这些关键信息进行类型判断即可对页面信息的信息类型进行判断，能够减少进行类型判断时需要检测的数据的数量，从而进一步提高对页面信息进行分类的过程的效率。

相应地，本发明还提供一种页面信息的收集分类反馈装置，能够实现上述实施例中的页面信息的收集分类反馈方法的所有流程。

参见图5，是本发明提供的页面信息的收集分类反馈装置的一个实施例的结构示意图，具体如下：

详情页面获得模块51，用于根据目标网站中的各个网页之间的链接关系，获得所述目标网站中的所有详情网页；

页面信息提取模块52，用于提取各个所述详情网页中的页面信息；

信息类型确定模块53，用于根据预设的类型关键词对所述页面信息进行分类，分别确定各个所述页面信息所属的信息类型；以及，

反馈信息生成模块54，用于根据各个所述页面信息和所对应的信息类型，生成相应的反馈信息。

进一步地，所述页面信息的收集分类反馈装置，还包括：

所述详情页面获得模块51，具体包括：

根网页获得单元，用于获得所述目标网站中的根网页；

进一步地，所述页面信息的收集分类反馈装置，还包括：

进一步地，所述信息类型确定模块53，具体包括：

所述信息类型确定模块53，具体包括：

进一步地，所述页面信息的收集分类反馈装置，还包括：

参见图6，是本发明提供的页面信息的收集分类反馈***的一个实施例的结构示意图，包括页面信息处理端61、服务器端62和管理端63；

所述页面信息处理端61为如权利要求9至16中任一项所述的页面信息的收集分类反馈装置；

所述服务器端62用于存储和管理目标网站，以及接收所述页面信息处理端61发送的模拟登录请求，并在验证所述模拟登录请求中的登录信息通过时返回验证通过信息至所述页面信息处理端61；

所述管理端63用于发送反馈信息获取请求至所述页面信息处理端61，以及接收所述页面信息处理端61发送的反馈信息。

需要说明的是，本发明实施例仅以页面信息处理端连接一个服务器端、一个管理端为例进行描述，但在具体实施当中，当页面信息处理端为独立的主机或者服务器时，该页面信息处理端还可以同时连接一个或者多个服务器端以及一个或者多个管理端，并采用多线程技术进行协调和处理。

本发明实施例提供的页面信息的收集分类反馈装置和***，通过根据网站中的各个网页之间的连接关系获取详情网页及详情网页中的页面信息，并根据类型关键词对该页面信息进行分类，最后根据分类后的页面信息生成可反馈至管理端的反馈信息，实现采用计算机设备对网站上的页面信息进行全自动的收集、分类及反馈，从而能够提高对页面信息进行收集和分类的过程的效率，并且提高页面信息反馈的及时性。另外，采用模拟登录的方法，能够节省人工登录操作的时间，从而进一步提高对页面信息进行收集的过程的效率。同时，一方面，通过将所获得的页面信息中的无用信息去除，能够减少需要进行类型判断的页面信息的数量，从而进一步提高对页面信息进行分类的过程的效率，且提高所反馈的页面信息的实用性。另一方面，通过将页面信息中的关键信息提取出来，并仅通过对这些关键信息进行类型判断即可对页面信息的信息类型进行判断，能够减少进行类型判断时需要检测的数据的数量，从而进一步提高对页面信息进行分类的过程的效率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种页面信息的收集分类反馈方法，其特征在于，包括：

提取各个所述详情网页中的页面信息；

2.如权利要求1所述的页面信息的收集分类反馈方法，其特征在于，在所述根据目标网站中的各个网页之间的链接关系，获得所述目标网站中的所有详情网页之前，还包括：

从预设的配置文件或者先前的登录请求中获得登录信息；

根据所述登录信息生成模拟登录请求；

3.如权利要求1所述的页面信息的收集分类反馈方法，其特征在于，所述目标网站中包括根网页、中间网页和详情网页；所述根网页和所述中间网页均包括所述目标网站中其他网页的网页地址；

获得所述目标网站中的根网页；

根据网页地址命名规则，判断所述当前网页地址的类型；

4.如权利要求1所述的页面信息的收集分类反馈方法，其特征在于，在所述提取各个所述详情网页中的页面信息之后，所述根据预设的类型关键词对所述页面信息进行分类，分别确定各个所述页面信息所属的信息类型之前，还包括：

5.如权利要求1所述的页面信息的收集分类反馈方法，其特征在于，所述根据预设的类型关键词对所述页面信息进行分类，分别确定各个所述页面信息所属的信息类型，具体包括：

6.如权利要求1所述的页面信息的收集分类反馈方法，其特征在于，每个所述页面信息中包括信息标题和至少一个子页面信息，且所述子页面信息按照时间的先后顺序排列；

7.如权利要求1所述的页面信息的收集分类反馈方法，其特征在于，在所述根据各个所述页面信息和所对应的信息类型，生成相应的反馈信息之后，还包括：

8.如权利要求1至7中任一项所述的页面信息的收集分类反馈方法，其特征在于，所述页面信息为用户反馈信息；所述类型关键词的个数为至少一个；所述信息类型的个数为至少一个；每个所述信息类型与至少一个所述类型关键词相对应。

9.一种页面信息的收集分类反馈装置，其特征在于，包括：

10.如权利要求9所述的页面信息的收集分类反馈装置，其特征在于，所述页面信息的收集分类反馈装置，还包括：

11.如权利要求9所述的页面信息的收集分类反馈装置，其特征在于，所述目标网站中包括根网页、中间网页和详情网页；所述根网页和所述中间网页均包括所述目标网站中其他网页的网页地址；

所述详情页面获得模块，具体包括：

根网页获得单元，用于获得所述目标网站中的根网页；

12.如权利要求9所述的页面信息的收集分类反馈装置，其特征在于，所述页面信息的收集分类反馈装置，还包括：

13.如权利要求9所述的页面信息的收集分类反馈装置，其特征在于，所述信息类型确定模块，具体包括：

14.如权利要求9所述的页面信息的收集分类反馈装置，其特征在于，每个所述页面信息中包括信息标题和至少一个子页面信息，且所述子页面信息按照时间的先后顺序排列；

所述信息类型确定模块，具体包括：

15.如权利要求9所述的页面信息的收集分类反馈装置，其特征在于，所述页面信息的收集分类反馈装置，还包括：

第二信息反馈模块，用于当所述反馈信息中的信息类型不为所述管理端特定信息类型时，所述反馈信息存入所述数据库中，并在接收到管理端发送的包括所述信息类型的反馈信息获取请求时，将所述反馈信息发送至所述管理端。

16.如权利要求9至15中任一项所述的页面信息的收集分类反馈装置，其特征在于，所述页面信息为用户反馈信息；所述类型关键词的个数为至少一个；所述信息类型的个数为至少一个；每个所述信息类型与至少一个所述类型关键词相对应。

17.一种页面信息的收集分类反馈***，其特征在于，包括页面信息处理端、服务器端和管理端；