CN106294755B

CN106294755B - 用于url分类的网页推荐***及网页推荐方法

Info

Publication number: CN106294755B
Application number: CN201610655941.8A
Authority: CN
Inventors: 张昊峥; 雷兵; 朱志博
Original assignee: Shanghai Ctrip Business Co Ltd
Current assignee: Shanghai Ctrip Business Co Ltd
Priority date: 2016-08-11
Filing date: 2016-08-11
Publication date: 2019-09-24
Anticipated expiration: 2036-08-11
Also published as: CN106294755A

Abstract

本发明公开了用于URL分类的网页推荐***及网页推荐方法，本发明能够采用基本语言词库进行数据筛选过滤，提升了算法执行效率，采用权重计算方法获取带有权重的空间向量，采用分类算法获取URL分类信息，最后采用协同过滤算法实现相似内容URL的推荐。本发明能够以URL信息为基础，来快速有效的组织和分析海量的网站信息，帮助网站用户方便地获取其需要的信息和知识，实现服务提供商根据用户提供的网站信息来进行有效的归类并向用户提供并推荐更具个性化的服务。本发明提升了对网站分类操作时文本的可用度与精确度。有效的解决了网站上可能的垃圾广告信息造成的错误归类，降低了数据计算量，提高了计算效率以及准确性。

Description

用于URL分类的网页推荐***及网页推荐方法

技术领域

本发明涉及网络数据分析领域，具体涉及一种用于URL分类的网页推荐***及网页推荐方法。

背景技术

随着互联网的发展，现在已经步入了智能化的时代，如何提高用户对互联网的满意度是当代互联网的主要趋势。如何提供一种个性化推荐服务，不仅可以使用户快速、准确的找到自己需要的内容，从而让用户倍感体贴和关注，以致增加了对互联网的依赖度，对于企业来讲，也能使期在互联网市场中更加具有优势。但是随着数据量的增加，常规的用人工来处理数据会大量耗费人力和时间，同时相应的成本也会随之增高。

发明内容

本发明的目的在于为了解决现有技术中网站分类计算量大、可靠度、精确度低、效率低，有时甚至会出现错误分类的问题，等问题的出现；提供一种用于URL分类的网页推荐***及网页推荐方法。

为了达到上述目的，本发明通过以下技术方案实现：

一种用于URL分类的网页推荐方法，所述网页推荐方法包含：

遍历URL(Uniform Resource Locator，统一资源定位符)信息，批量获取多个URL信息及对应的网页内容，并对于每个所述URL信息生成对应的待处理网页信息；

对每个所述待处理网页信息进行过滤操作，生成对应的保留分词表；每个所述保留分词表包含对应的所述待处理网页信息所有要求保留的词语；

将所有的所述URL信息与对应的所有所述保留分词表进行计算，生成带有权重的空间向量表、URL分类表；所述带有权重的空间向量表包含每个所述URL信息对应的每个所述要求保留的词语带有权重的空间向量的集合；所述URL分类表包含将所述带有权重的空间向量表中每个所述URL信息的所有所述带有权重的空间向量进行计算获得对应所述URL信息的分类信息的集合；

当输入一个URL信息时，根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息，输出所有所述推荐的URL信息。

较佳地，在遍历URL信息批量获取多个URL信息及对应的网页内容，并对于每个所述URL信息生成对应的待处理网页信息的步骤中包含：

批量存储获取的多个URL信息及每个所述URL信息对应的网页内容；

将每个所述网页内容进行预处理，删除非法字符，并搜索对应的所有HTML标签，生成对应的所述待处理网页信息。

较佳地，当要求推荐的网页具有特定语言要求时，在对每个所述网页内容进行预处理过程中，删除非特定语言的字符。

较佳地，在对每个所述待处理网页信息进行过滤操作，生成对应的保留分词表的步骤中，包含如下步骤：

建立基本语言词库，根据所述基本语言词库对每个所述待处理网页信息进行词语拆分，形成词语队列，并将所述词语队列中的语气词、助词、无特殊含义的名词过滤删除后，生成对应的网页对应分词表；

统计每个所述网页对应分词表内每一个词语出现的频率，将频率低于设定的频率的所有词语删除，生成对应的所述保留分词表。

较佳地，所述基本语言词库包含要求保留的语言涉及的所有词语。

较佳地，在将所有的所述URL信息与对应的所有所述保留分词表进行计算，生成带有权重的空间向量表、URL分类表的步骤中包含：

将所有的所述URL信息作为横坐标，每个所述URL信息对应的所述保留分词表中每个词语作为纵坐标，形成URL-词语坐标系，则为每个所述词语创建一个独有的空间向量；

使用权重计算法计算每个所述词语在其保留分词表中的权重值，并将该权重值赋值给对应所述空间向量，形成所述带有权重的空间向量；将所述URL-词语坐标系中所有所述带有权重的空间向量形成所述带有权重的空间向量表；

将每个所述URL信息对应的每个所述带有权重的空间向量使用最近邻算法为对应所述URL信息进行分类，形成对应所述URL信息的分类信息，集合所有的所述URL信息的分类信息形成所述URL分类表。

较佳地，当输入一个URL信息时，根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息，输出所有推荐的URL信息的步骤中包含：

当输入的所述URL信息为一个新的URL信息时，获取所述新的URL信息对应的网页内容，进行预处理后生成对应的所述待处理网页信息；

将所述待处理网页信息进行过滤操作，形成对应的所述保留分词表；

将所述新的URL信息与对应的所述保留分词表进行计算获取对应的所述保留分词表中每个词语的带有权重的空间向量、所述新的URL信息的分类信息；更新所述带有权重的空间向量表、所述URL分类表；

将所述新的URL信息在所述URL分类表的分类信息与所述新的URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐，获取所述新的URL信息的所有推荐的URL信息。

当所述输入的URL信息为一个已存在于所述带有权重的空间向量表、所述URL分类表的URL信息时，将所述输入的URL信息在所述URL分类表的分类信息与所述URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐，获取所述URL信息的所有推荐的URL信息。

一种用于URL分类的网页推荐***，所述网页推荐***包含：

用户交互模块，用于输入要求的URL信息，并输出所述要求的URL信息对应的所有推荐的URL信息；

正向模块，与所述用户交互模块连接；所述正向模块遍历URL信息批量获取每个URL信息及对应的网页内容生成待处理网页信息，并能够抓取所述要求的URL信息对应的所有推荐的URL信息，发送至所述用户交互模块；

逆向模块，与所述正向模块连接；所述逆向模块对每个所述待处理网页信息进行过滤操作，生成对应的保留分词表；并能够将所有的所述URL信息与对应的所有所述保留分词表进行计算，生成带有权重的空间向量表、URL分类表；当输入一个URL信息时，所述逆向模块根据所述URL分类表与所述URL信息对应的所有带有权重的词语空间向量进行计算后获取相似内容类别的多个推荐URL信息，并发送抓取指令至所述正向模块。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：

本发明公开的用于URL分类的网页推荐***及网页推荐方法，本发明能够采用基本语言词库进行数据筛选过滤，提升了算法执行效率，采用权重计算方法获取带有权重的空间向量，采用分类算法获取URL分类信息，最后采用协同过滤算法实现相似内容URL的推荐。本发明能够以URL信息为基础，来快速有效的组织和分析海量的网站信息，帮助网站用户方便地获取其需要的信息和知识，实现服务提供商根据用户提供的网站信息来进行有效的归类并向用户提供并推荐更具个性化的服务。本发明提升了对网站分类操作时文本的可用度与精确度。有效的解决了网站上可能的垃圾广告信息造成的错误归类，降低了数据计算量，提高了计算效率以及准确性。

附图说明

图1为本发明用于URL分类的网页推荐***的整体结构示意图。

图2为本发明用于URL分类的网页推荐方法的整体流程示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

如图1所示，一种用于URL分类的网页推荐***，网页推荐***包含：用户交互模块1、正向模块2及逆向模块3。其中，用户交互模块1、正向模块2及逆向模块3依次连接。

本发明中，用户交互模块1用于输入要求的URL信息，并输出要求的URL信息对应的所有推荐的URL信息。

正向模块2用于信息的收集和抓取。具体包括：遍历URL信息批量获取每个URL信息及对应的网页内容生成待处理网页信息，并能够抓取要求的URL信息对应的所有推荐的URL信息，发送至用户交互模块1。

本实施例中，正向模块2利用现有技术中各大导航网站作为基础来进行信息的爬取，从而获取各大导航网站下的各个子目录的URL信息作为数据源，从而收集各个网站的信息。

逆向模块3用于信息的处理，例如网页内容去噪、网页分词处理、网页向量表示、网页分类处理以及网页推荐处理等。具体包括：对每个待处理网页信息进行过滤操作，生成对应的保留分词表；并能够将所有的URL信息与对应的所有保留分词表进行计算，生成带有权重的空间向量表、URL分类表；当输入一个URL信息时，逆向模块3根据URL分类表与URL信息对应的所有带有权重的空间向量进行计算后获取相似内容类别的多个推荐URL信息，并发送抓取指令至正向模块2。

如图2所示，一种用于URL分类的网页推荐方法，网页推荐方法包含：

S1，遍历URL信息，批量获取多个URL信息及对应的网页内容，并对于每个URL信息生成对应的待处理网页信息。在步骤S1中具体包含：

S1.1，正向模块2批量存储获取的每个URL信息及对应的网页内容。

S1.2，逆向模块3将每个网页内容进行预处理，删除非法字符，并搜索对应的所有HTML标签，生成对应的待处理网页信息。

本实施例中，正向模块2利用现有技术中各大导航网站作为基础来进行信息的爬取，从而获取各大导航网站下的各个子目录的URL信息以及对应的网页内容。

当要求推荐的网页具有特定语言要求时，在对每个网页内容进行预处理过程中，删除非特定语言的字符。

例如，当推荐的网页均要求为中文网页时，删除非中文字符。当推荐的网页均要求为英文网页时，删除非英文字符。当推荐的网页要求为中文或英文网页时，删除非英文、非中文的字符。

S2，对每个待处理网页信息进行过滤操作，生成对应的保留分词表；每个保留分词表包含对应的待处理网页信息所有要求保留的词语。在步骤S2中具体包含：

S2.1，逆向模块3建立基本语言词库，逆向模块3根据基本语言词库对每个待处理网页信息进行词语拆分，形成词语队列，并将词语队列中的语气词、助词、无特殊含义的名词过滤删除后，生成对应的网页对应分词表。

本发明中，逆向模块3建立基本语言词库类似现有技术中的语言字典，基本语言词库包含要求保留的语言涉及的所有词语。逆向模块3以基本语言词库为标准，删除上述标准中的语气词、助词、无特殊含义的名词；从而形成对应的网页对应分词表。

S2.2，逆向模块3统计每个网页对应分词表内每一个词语出现的频率，将频率低于设定的频率的所有词语删除，生成对应的保留分词表。

本发明中设定的频率可是用户根据实际要求选择一个词语筛选标准。例如，要求保留每个网页对应分词表内词语出现的频率排名前10或前20的词语，删除其他词语。

通过上述设定的频率，本发明能够降低后续的生成空间向量的数量，提高分类效率，降低复杂度。

S3，将所有的URL信息与对应的所有保留分词表进行计算，生成带有权重的空间向量表、URL分类表；带有权重的空间向量表包含每个URL信息对应的每个要求保留的词语带有权重的空间向量；URL分类表包含将带有权重的空间向量表中每个URL信息对应的所有空间向量进行计算获得对应URL信息的分类信息。在步骤S3中包含：

S3.1，逆向模块3将所有的URL信息作为横坐标，每个URL信息对应的保留分词表中每个词语作为纵坐标，形成URL-词语坐标系，从而为每个词语创建一个独有的空间向量。

本实施例中，由于每个URL信息对应的保留分词表仅包含10个或20个词语，则每个URL信息对应形成的带有权重的空间向量仅有10个或20个，使得后续生成URL分类表的计算量远远小于现有技术中对于URL信息的网页信息中的每个词语进行计算的计算量。

S3.2，逆向模块3使用权重计算法计算每个词语在其保留分词表中的权重值，并将该权重值赋值给对应空间向量，形成带有权重的空间向量；将URL-词语坐标系中所有带有权重的空间向量形成带有权重的空间向量表。

本实施例中，逆向模块3使用TFIDF权重计算法进行每个词语在其保留分词表中的权重值计算。

S3.3，逆向模块3将每个URL信息对应的每个带有权重的空间向量使用最近邻算法为对应URL信息进行分类，生成对应URL信息的分类信息，集合所有的URL信息的分类信息形成URL分类表。

本实施例中，逆向模块3使用K最近邻算法将每个URL信息对应的每个赋值的词语空间向量进行计算，最终实现对应URL信息进行分类。

S4，当输入一个URL信息时，根据URL分类表与URL信息对应的所有带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息，输出所有推荐的URL信息。

在步骤S4包含：

S4.1.1，当用户交互模块1输入的URL信息为一个新的URL信息时，正向模块2获取新的URL信息对应的网页内容，逆向模块3进行预处理后生成对应的待处理网页信息。本步骤的具体操作原理与步骤S1.1，S1.2相同。

S4.1.2，逆向模块3将待处理网页信息进行过滤操作，形成对应的保留分词表。本步骤的具体操作原理与步骤S2相同。

S4.1.3，逆向模块3将新的URL信息与对应的保留分词表进行计算获取对应的保留分词表中每个词语的带有权重的空间向量、新的URL信息的分类信息；更新带有权重的空间向量表、URL分类表。

本步骤中，逆向模块3将新的URL信息与对应的保留分词表进行计算获取对应的保留分词表中每个词语的带有权重的空间向量，从而更新带有权重的空间向量表。

逆向模块3将新的URL信息对应的每个带有权重的空间向量使用最近邻算法为对应URL信息进行分类，形成对应URL信息的分类信息，从而更新URL分类表。

S4.1.4，逆向模块3将新的URL信息在URL分类表的分类信息与新的URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐，逆向模块3发送抓取推荐的URL信息命令至正向模块2，正向模块2获取新的URL信息的所有推荐的URL信息，并发送至用户交互模块1进行输出显示。

在步骤S4还包含：

S4.2.1，当用户交互模块1输入的URL信息为一个已存在于带有权重的空间向量表、URL分类表的URL信息时，逆向模块3将输入的URL信息在URL分类表的分类信息与URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐，逆向模块3发送抓取推荐的URL信息命令至正向模块2，正向模块2获取URL信息的所有推荐的URL信息，并发送至用户交互模块1进行输出显示。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种用于URL分类的网页推荐方法，其特征在于，所述网页推荐方法包含：

遍历URL信息，批量获取多个URL信息及对应的网页内容，并对于每个所述URL信息生成对应的待处理网页信息；

当输入一个URL信息时，根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息，输出所有所述推荐的URL信息；

当输入一个URL信息时，根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息，输出所有推荐的URL信息的步骤中包含：

将所述新的URL信息在所述URL分类表的分类信息与所述新的URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐，获取所述新的URL信息的所有推荐的URL信息；

2.如权利要求1所述的用于URL分类的网页推荐方法，其特征在于，在遍历URL信息批量获取多个URL信息及对应的网页内容，并对于每个所述URL信息生成对应的待处理网页信息的步骤中包含：

3.如权利要求2所述的用于URL分类的网页推荐方法，其特征在于，当要求推荐的网页具有特定语言要求时，在对每个所述网页内容进行预处理过程中，删除非特定语言的字符。

4.如权利要求1所述的用于URL分类的网页推荐方法，其特征在于，在对每个所述待处理网页信息进行过滤操作，生成对应的保留分词表的步骤中，包含如下步骤：

5.如权利要求4所述的用于URL分类的网页推荐方法，其特征在于，所述基本语言词库包含要求保留的语言涉及的所有词语。

6.如权利要求1所述的用于URL分类的网页推荐方法，其特征在于，在将所有的所述URL信息与对应的所有所述保留分词表进行计算，生成带有权重的空间向量表、URL分类表的步骤中包含：

使用权重计算法计算每个所述词语在其保留分词表中的权重值，并将该权重值赋值给对应所述空间向量，生成所述带有权重的空间向量；将所述URL-词语坐标系中所有所述带有权重的空间向量形成所述带有权重的空间向量表；

7.一种用于URL分类的网页推荐***，其特征在于，所述网页推荐***包含：

逆向模块，与所述正向模块连接；所述逆向模块对每个所述待处理网页信息进行过滤操作，生成对应的保留分词表；并能够将所有的所述URL信息与对应的所有所述保留分词表进行计算，生成带有权重的空间向量表、URL分类表；当输入一个URL信息时，所述逆向模块根据所述URL分类表与所述URL信息对应的所有带有权重的词语空间向量进行计算后获取相似内容类别的多个推荐URL信息，并发送抓取指令至所述正向模块；

当输入一个URL信息时，所述逆向模块根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息，并发送抓取指令至所述正向模块包含：

当输入的所述URL信息为一个新的URL信息时，所述正向模块获取所述新的URL信息对应的网页内容，所述逆向模块进行预处理后生成对应的所述待处理网页信息；

所述逆向模块将所述待处理网页信息进行过滤操作，形成对应的所述保留分词表；

所述逆向模块将所述新的URL信息与对应的所述保留分词表进行计算获取对应的所述保留分词表中每个词语的带有权重的空间向量、所述新的URL信息的分类信息；更新所述带有权重的空间向量表、所述URL分类表；

所述逆向模块将所述新的URL信息在所述URL分类表的分类信息与所述新的URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐，所述逆向模块发送抓取推荐的URL信息命令至所述正向模块，所述正向模块获取所述新的URL信息的所有推荐的URL信息；

当所述输入的URL信息为一个已存在于所述带有权重的空间向量表、所述URL分类表的URL信息时，所述逆向模块将所述输入的URL信息在所述URL分类表的分类信息与所述URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐，所述逆向模块发送抓取推荐的URL信息命令至所述正向模块，所述正向模块获取所述URL信息的所有推荐的URL信息。