CN106294755B - 用于url分类的网页推荐***及网页推荐方法 - Google Patents

用于url分类的网页推荐***及网页推荐方法 Download PDF

Info

Publication number
CN106294755B
CN106294755B CN201610655941.8A CN201610655941A CN106294755B CN 106294755 B CN106294755 B CN 106294755B CN 201610655941 A CN201610655941 A CN 201610655941A CN 106294755 B CN106294755 B CN 106294755B
Authority
CN
China
Prior art keywords
url
information
url information
classification
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610655941.8A
Other languages
English (en)
Other versions
CN106294755A (zh
Inventor
张昊峥
雷兵
朱志博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ctrip Business Co Ltd
Original Assignee
Shanghai Ctrip Business Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ctrip Business Co Ltd filed Critical Shanghai Ctrip Business Co Ltd
Priority to CN201610655941.8A priority Critical patent/CN106294755B/zh
Publication of CN106294755A publication Critical patent/CN106294755A/zh
Application granted granted Critical
Publication of CN106294755B publication Critical patent/CN106294755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了用于URL分类的网页推荐***及网页推荐方法,本发明能够采用基本语言词库进行数据筛选过滤,提升了算法执行效率,采用权重计算方法获取带有权重的空间向量,采用分类算法获取URL分类信息,最后采用协同过滤算法实现相似内容URL的推荐。本发明能够以URL信息为基础,来快速有效的组织和分析海量的网站信息,帮助网站用户方便地获取其需要的信息和知识,实现服务提供商根据用户提供的网站信息来进行有效的归类并向用户提供并推荐更具个性化的服务。本发明提升了对网站分类操作时文本的可用度与精确度。有效的解决了网站上可能的垃圾广告信息造成的错误归类,降低了数据计算量,提高了计算效率以及准确性。

Description

用于URL分类的网页推荐***及网页推荐方法
技术领域
本发明涉及网络数据分析领域,具体涉及一种用于URL分类的网页推荐***及网页推荐方法。
背景技术
随着互联网的发展,现在已经步入了智能化的时代,如何提高用户对互联网的满意度是当代互联网的主要趋势。如何提供一种个性化推荐服务,不仅可以使用户快速、准确的找到自己需要的内容,从而让用户倍感体贴和关注,以致增加了对互联网的依赖度,对于企业来讲,也能使期在互联网市场中更加具有优势。但是随着数据量的增加,常规的用人工来处理数据会大量耗费人力和时间,同时相应的成本也会随之增高。
发明内容
本发明的目的在于为了解决现有技术中网站分类计算量大、可靠度、精确度低、效率低,有时甚至会出现错误分类的问题,等问题的出现;提供一种用于URL分类的网页推荐***及网页推荐方法。
为了达到上述目的,本发明通过以下技术方案实现:
一种用于URL分类的网页推荐方法,所述网页推荐方法包含:
遍历URL(Uniform Resource Locator,统一资源定位符)信息,批量获取多个URL信息及对应的网页内容,并对于每个所述URL信息生成对应的待处理网页信息;
对每个所述待处理网页信息进行过滤操作,生成对应的保留分词表;每个所述保留分词表包含对应的所述待处理网页信息所有要求保留的词语;
将所有的所述URL信息与对应的所有所述保留分词表进行计算,生成带有权重的空间向量表、URL分类表;所述带有权重的空间向量表包含每个所述URL信息对应的每个所述要求保留的词语带有权重的空间向量的集合;所述URL分类表包含将所述带有权重的空间向量表中每个所述URL信息的所有所述带有权重的空间向量进行计算获得对应所述URL信息的分类信息的集合;
当输入一个URL信息时,根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息,输出所有所述推荐的URL信息。
较佳地,在遍历URL信息批量获取多个URL信息及对应的网页内容,并对于每个所述URL信息生成对应的待处理网页信息的步骤中包含:
批量存储获取的多个URL信息及每个所述URL信息对应的网页内容;
将每个所述网页内容进行预处理,删除非法字符,并搜索对应的所有HTML标签,生成对应的所述待处理网页信息。
较佳地,当要求推荐的网页具有特定语言要求时,在对每个所述网页内容进行预处理过程中,删除非特定语言的字符。
较佳地,在对每个所述待处理网页信息进行过滤操作,生成对应的保留分词表的步骤中,包含如下步骤:
建立基本语言词库,根据所述基本语言词库对每个所述待处理网页信息进行词语拆分,形成词语队列,并将所述词语队列中的语气词、助词、无特殊含义的名词过滤删除后,生成对应的网页对应分词表;
统计每个所述网页对应分词表内每一个词语出现的频率,将频率低于设定的频率的所有词语删除,生成对应的所述保留分词表。
较佳地,所述基本语言词库包含要求保留的语言涉及的所有词语。
较佳地,在将所有的所述URL信息与对应的所有所述保留分词表进行计算,生成带有权重的空间向量表、URL分类表的步骤中包含:
将所有的所述URL信息作为横坐标,每个所述URL信息对应的所述保留分词表中每个词语作为纵坐标,形成URL-词语坐标系,则为每个所述词语创建一个独有的空间向量;
使用权重计算法计算每个所述词语在其保留分词表中的权重值,并将该权重值赋值给对应所述空间向量,形成所述带有权重的空间向量;将所述URL-词语坐标系中所有所述带有权重的空间向量形成所述带有权重的空间向量表;
将每个所述URL信息对应的每个所述带有权重的空间向量使用最近邻算法为对应所述URL信息进行分类,形成对应所述URL信息的分类信息,集合所有的所述URL信息的分类信息形成所述URL分类表。
较佳地,当输入一个URL信息时,根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息,输出所有推荐的URL信息的步骤中包含:
当输入的所述URL信息为一个新的URL信息时,获取所述新的URL信息对应的网页内容,进行预处理后生成对应的所述待处理网页信息;
将所述待处理网页信息进行过滤操作,形成对应的所述保留分词表;
将所述新的URL信息与对应的所述保留分词表进行计算获取对应的所述保留分词表中每个词语的带有权重的空间向量、所述新的URL信息的分类信息;更新所述带有权重的空间向量表、所述URL分类表;
将所述新的URL信息在所述URL分类表的分类信息与所述新的URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐,获取所述新的URL信息的所有推荐的URL信息。
较佳地,当输入一个URL信息时,根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息,输出所有推荐的URL信息的步骤中包含:
当所述输入的URL信息为一个已存在于所述带有权重的空间向量表、所述URL分类表的URL信息时,将所述输入的URL信息在所述URL分类表的分类信息与所述URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐,获取所述URL信息的所有推荐的URL信息。
一种用于URL分类的网页推荐***,所述网页推荐***包含:
用户交互模块,用于输入要求的URL信息,并输出所述要求的URL信息对应的所有推荐的URL信息;
正向模块,与所述用户交互模块连接;所述正向模块遍历URL信息批量获取每个URL信息及对应的网页内容生成待处理网页信息,并能够抓取所述要求的URL信息对应的所有推荐的URL信息,发送至所述用户交互模块;
逆向模块,与所述正向模块连接;所述逆向模块对每个所述待处理网页信息进行过滤操作,生成对应的保留分词表;并能够将所有的所述URL信息与对应的所有所述保留分词表进行计算,生成带有权重的空间向量表、URL分类表;当输入一个URL信息时,所述逆向模块根据所述URL分类表与所述URL信息对应的所有带有权重的词语空间向量进行计算后获取相似内容类别的多个推荐URL信息,并发送抓取指令至所述正向模块。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明公开的用于URL分类的网页推荐***及网页推荐方法,本发明能够采用基本语言词库进行数据筛选过滤,提升了算法执行效率,采用权重计算方法获取带有权重的空间向量,采用分类算法获取URL分类信息,最后采用协同过滤算法实现相似内容URL的推荐。本发明能够以URL信息为基础,来快速有效的组织和分析海量的网站信息,帮助网站用户方便地获取其需要的信息和知识,实现服务提供商根据用户提供的网站信息来进行有效的归类并向用户提供并推荐更具个性化的服务。本发明提升了对网站分类操作时文本的可用度与精确度。有效的解决了网站上可能的垃圾广告信息造成的错误归类,降低了数据计算量,提高了计算效率以及准确性。
附图说明
图1为本发明用于URL分类的网页推荐***的整体结构示意图。
图2为本发明用于URL分类的网页推荐方法的整体流程示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
如图1所示,一种用于URL分类的网页推荐***,网页推荐***包含:用户交互模块1、正向模块2及逆向模块3。其中,用户交互模块1、正向模块2及逆向模块3依次连接。
本发明中,用户交互模块1用于输入要求的URL信息,并输出要求的URL信息对应的所有推荐的URL信息。
正向模块2用于信息的收集和抓取。具体包括:遍历URL信息批量获取每个URL信息及对应的网页内容生成待处理网页信息,并能够抓取要求的URL信息对应的所有推荐的URL信息,发送至用户交互模块1。
本实施例中,正向模块2利用现有技术中各大导航网站作为基础来进行信息的爬取,从而获取各大导航网站下的各个子目录的URL信息作为数据源,从而收集各个网站的信息。
逆向模块3用于信息的处理,例如网页内容去噪、网页分词处理、网页向量表示、网页分类处理以及网页推荐处理等。具体包括:对每个待处理网页信息进行过滤操作,生成对应的保留分词表;并能够将所有的URL信息与对应的所有保留分词表进行计算,生成带有权重的空间向量表、URL分类表;当输入一个URL信息时,逆向模块3根据URL分类表与URL信息对应的所有带有权重的空间向量进行计算后获取相似内容类别的多个推荐URL信息,并发送抓取指令至正向模块2。
如图2所示,一种用于URL分类的网页推荐方法,网页推荐方法包含:
S1,遍历URL信息,批量获取多个URL信息及对应的网页内容,并对于每个URL信息生成对应的待处理网页信息。在步骤S1中具体包含:
S1.1,正向模块2批量存储获取的每个URL信息及对应的网页内容。
S1.2,逆向模块3将每个网页内容进行预处理,删除非法字符,并搜索对应的所有HTML标签,生成对应的待处理网页信息。
本实施例中,正向模块2利用现有技术中各大导航网站作为基础来进行信息的爬取,从而获取各大导航网站下的各个子目录的URL信息以及对应的网页内容。
当要求推荐的网页具有特定语言要求时,在对每个网页内容进行预处理过程中,删除非特定语言的字符。
例如,当推荐的网页均要求为中文网页时,删除非中文字符。当推荐的网页均要求为英文网页时,删除非英文字符。当推荐的网页要求为中文或英文网页时,删除非英文、非中文的字符。
S2,对每个待处理网页信息进行过滤操作,生成对应的保留分词表;每个保留分词表包含对应的待处理网页信息所有要求保留的词语。在步骤S2中具体包含:
S2.1,逆向模块3建立基本语言词库,逆向模块3根据基本语言词库对每个待处理网页信息进行词语拆分,形成词语队列,并将词语队列中的语气词、助词、无特殊含义的名词过滤删除后,生成对应的网页对应分词表。
本发明中,逆向模块3建立基本语言词库类似现有技术中的语言字典,基本语言词库包含要求保留的语言涉及的所有词语。逆向模块3以基本语言词库为标准,删除上述标准中的语气词、助词、无特殊含义的名词;从而形成对应的网页对应分词表。
S2.2,逆向模块3统计每个网页对应分词表内每一个词语出现的频率,将频率低于设定的频率的所有词语删除,生成对应的保留分词表。
本发明中设定的频率可是用户根据实际要求选择一个词语筛选标准。例如,要求保留每个网页对应分词表内词语出现的频率排名前10或前20的词语,删除其他词语。
通过上述设定的频率,本发明能够降低后续的生成空间向量的数量,提高分类效率,降低复杂度。
S3,将所有的URL信息与对应的所有保留分词表进行计算,生成带有权重的空间向量表、URL分类表;带有权重的空间向量表包含每个URL信息对应的每个要求保留的词语带有权重的空间向量;URL分类表包含将带有权重的空间向量表中每个URL信息对应的所有空间向量进行计算获得对应URL信息的分类信息。在步骤S3中包含:
S3.1,逆向模块3将所有的URL信息作为横坐标,每个URL信息对应的保留分词表中每个词语作为纵坐标,形成URL-词语坐标系,从而为每个词语创建一个独有的空间向量。
本实施例中,由于每个URL信息对应的保留分词表仅包含10个或20个词语,则每个URL信息对应形成的带有权重的空间向量仅有10个或20个,使得后续生成URL分类表的计算量远远小于现有技术中对于URL信息的网页信息中的每个词语进行计算的计算量。
S3.2,逆向模块3使用权重计算法计算每个词语在其保留分词表中的权重值,并将该权重值赋值给对应空间向量,形成带有权重的空间向量;将URL-词语坐标系中所有带有权重的空间向量形成带有权重的空间向量表。
本实施例中,逆向模块3使用TFIDF权重计算法进行每个词语在其保留分词表中的权重值计算。
S3.3,逆向模块3将每个URL信息对应的每个带有权重的空间向量使用最近邻算法为对应URL信息进行分类,生成对应URL信息的分类信息,集合所有的URL信息的分类信息形成URL分类表。
本实施例中,逆向模块3使用K最近邻算法将每个URL信息对应的每个赋值的词语空间向量进行计算,最终实现对应URL信息进行分类。
S4,当输入一个URL信息时,根据URL分类表与URL信息对应的所有带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息,输出所有推荐的URL信息。
在步骤S4包含:
S4.1.1,当用户交互模块1输入的URL信息为一个新的URL信息时,正向模块2获取新的URL信息对应的网页内容,逆向模块3进行预处理后生成对应的待处理网页信息。本步骤的具体操作原理与步骤S1.1,S1.2相同。
S4.1.2,逆向模块3将待处理网页信息进行过滤操作,形成对应的保留分词表。本步骤的具体操作原理与步骤S2相同。
S4.1.3,逆向模块3将新的URL信息与对应的保留分词表进行计算获取对应的保留分词表中每个词语的带有权重的空间向量、新的URL信息的分类信息;更新带有权重的空间向量表、URL分类表。
本步骤中,逆向模块3将新的URL信息与对应的保留分词表进行计算获取对应的保留分词表中每个词语的带有权重的空间向量,从而更新带有权重的空间向量表。
逆向模块3将新的URL信息对应的每个带有权重的空间向量使用最近邻算法为对应URL信息进行分类,形成对应URL信息的分类信息,从而更新URL分类表。
S4.1.4,逆向模块3将新的URL信息在URL分类表的分类信息与新的URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐,逆向模块3发送抓取推荐的URL信息命令至正向模块2,正向模块2获取新的URL信息的所有推荐的URL信息,并发送至用户交互模块1进行输出显示。
在步骤S4还包含:
S4.2.1,当用户交互模块1输入的URL信息为一个已存在于带有权重的空间向量表、URL分类表的URL信息时,逆向模块3将输入的URL信息在URL分类表的分类信息与URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐,逆向模块3发送抓取推荐的URL信息命令至正向模块2,正向模块2获取URL信息的所有推荐的URL信息,并发送至用户交互模块1进行输出显示。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (7)

1.一种用于URL分类的网页推荐方法,其特征在于,所述网页推荐方法包含:
遍历URL信息,批量获取多个URL信息及对应的网页内容,并对于每个所述URL信息生成对应的待处理网页信息;
对每个所述待处理网页信息进行过滤操作,生成对应的保留分词表;每个所述保留分词表包含对应的所述待处理网页信息所有要求保留的词语;
将所有的所述URL信息与对应的所有所述保留分词表进行计算,生成带有权重的空间向量表、URL分类表;所述带有权重的空间向量表包含每个所述URL信息对应的每个所述要求保留的词语带有权重的空间向量的集合;所述URL分类表包含将所述带有权重的空间向量表中每个所述URL信息的所有所述带有权重的空间向量进行计算获得对应所述URL信息的分类信息的集合;
当输入一个URL信息时,根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息,输出所有所述推荐的URL信息;
当输入一个URL信息时,根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息,输出所有推荐的URL信息的步骤中包含:
当输入的所述URL信息为一个新的URL信息时,获取所述新的URL信息对应的网页内容,进行预处理后生成对应的所述待处理网页信息;
将所述待处理网页信息进行过滤操作,形成对应的所述保留分词表;
将所述新的URL信息与对应的所述保留分词表进行计算获取对应的所述保留分词表中每个词语的带有权重的空间向量、所述新的URL信息的分类信息;更新所述带有权重的空间向量表、所述URL分类表;
将所述新的URL信息在所述URL分类表的分类信息与所述新的URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐,获取所述新的URL信息的所有推荐的URL信息;
当所述输入的URL信息为一个已存在于所述带有权重的空间向量表、所述URL分类表的URL信息时,将所述输入的URL信息在所述URL分类表的分类信息与所述URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐,获取所述URL信息的所有推荐的URL信息。
2.如权利要求1所述的用于URL分类的网页推荐方法,其特征在于,在遍历URL信息批量获取多个URL信息及对应的网页内容,并对于每个所述URL信息生成对应的待处理网页信息的步骤中包含:
批量存储获取的多个URL信息及每个所述URL信息对应的网页内容;
将每个所述网页内容进行预处理,删除非法字符,并搜索对应的所有HTML标签,生成对应的所述待处理网页信息。
3.如权利要求2所述的用于URL分类的网页推荐方法,其特征在于,当要求推荐的网页具有特定语言要求时,在对每个所述网页内容进行预处理过程中,删除非特定语言的字符。
4.如权利要求1所述的用于URL分类的网页推荐方法,其特征在于,在对每个所述待处理网页信息进行过滤操作,生成对应的保留分词表的步骤中,包含如下步骤:
建立基本语言词库,根据所述基本语言词库对每个所述待处理网页信息进行词语拆分,形成词语队列,并将所述词语队列中的语气词、助词、无特殊含义的名词过滤删除后,生成对应的网页对应分词表;
统计每个所述网页对应分词表内每一个词语出现的频率,将频率低于设定的频率的所有词语删除,生成对应的所述保留分词表。
5.如权利要求4所述的用于URL分类的网页推荐方法,其特征在于,所述基本语言词库包含要求保留的语言涉及的所有词语。
6.如权利要求1所述的用于URL分类的网页推荐方法,其特征在于,在将所有的所述URL信息与对应的所有所述保留分词表进行计算,生成带有权重的空间向量表、URL分类表的步骤中包含:
将所有的所述URL信息作为横坐标,每个所述URL信息对应的所述保留分词表中每个词语作为纵坐标,形成URL-词语坐标系,则为每个所述词语创建一个独有的空间向量;
使用权重计算法计算每个所述词语在其保留分词表中的权重值,并将该权重值赋值给对应所述空间向量,生成所述带有权重的空间向量;将所述URL-词语坐标系中所有所述带有权重的空间向量形成所述带有权重的空间向量表;
将每个所述URL信息对应的每个所述带有权重的空间向量使用最近邻算法为对应所述URL信息进行分类,形成对应所述URL信息的分类信息,集合所有的所述URL信息的分类信息形成所述URL分类表。
7.一种用于URL分类的网页推荐***,其特征在于,所述网页推荐***包含:
用户交互模块,用于输入要求的URL信息,并输出所述要求的URL信息对应的所有推荐的URL信息;
正向模块,与所述用户交互模块连接;所述正向模块遍历URL信息批量获取每个URL信息及对应的网页内容生成待处理网页信息,并能够抓取所述要求的URL信息对应的所有推荐的URL信息,发送至所述用户交互模块;
逆向模块,与所述正向模块连接;所述逆向模块对每个所述待处理网页信息进行过滤操作,生成对应的保留分词表;并能够将所有的所述URL信息与对应的所有所述保留分词表进行计算,生成带有权重的空间向量表、URL分类表;当输入一个URL信息时,所述逆向模块根据所述URL分类表与所述URL信息对应的所有带有权重的词语空间向量进行计算后获取相似内容类别的多个推荐URL信息,并发送抓取指令至所述正向模块;
当输入一个URL信息时,所述逆向模块根据所述URL分类表与所述URL信息对应的所有所述带有权重的空间向量进行计算后获取相似内容类别的多个推荐的URL信息,并发送抓取指令至所述正向模块包含:
当输入的所述URL信息为一个新的URL信息时,所述正向模块获取所述新的URL信息对应的网页内容,所述逆向模块进行预处理后生成对应的所述待处理网页信息;
所述逆向模块将所述待处理网页信息进行过滤操作,形成对应的所述保留分词表;
所述逆向模块将所述新的URL信息与对应的所述保留分词表进行计算获取对应的所述保留分词表中每个词语的带有权重的空间向量、所述新的URL信息的分类信息;更新所述带有权重的空间向量表、所述URL分类表;
所述逆向模块将所述新的URL信息在所述URL分类表的分类信息与所述新的URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐,所述逆向模块发送抓取推荐的URL信息命令至所述正向模块,所述正向模块获取所述新的URL信息的所有推荐的URL信息;
当所述输入的URL信息为一个已存在于所述带有权重的空间向量表、所述URL分类表的URL信息时,所述逆向模块将所述输入的URL信息在所述URL分类表的分类信息与所述URL信息对应的每个空间向量的权重值使用预先距离相似性的协同过滤算法进行相似内容类别的推荐,所述逆向模块发送抓取推荐的URL信息命令至所述正向模块,所述正向模块获取所述URL信息的所有推荐的URL信息。
CN201610655941.8A 2016-08-11 2016-08-11 用于url分类的网页推荐***及网页推荐方法 Active CN106294755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610655941.8A CN106294755B (zh) 2016-08-11 2016-08-11 用于url分类的网页推荐***及网页推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610655941.8A CN106294755B (zh) 2016-08-11 2016-08-11 用于url分类的网页推荐***及网页推荐方法

Publications (2)

Publication Number Publication Date
CN106294755A CN106294755A (zh) 2017-01-04
CN106294755B true CN106294755B (zh) 2019-09-24

Family

ID=57669416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610655941.8A Active CN106294755B (zh) 2016-08-11 2016-08-11 用于url分类的网页推荐***及网页推荐方法

Country Status (1)

Country Link
CN (1) CN106294755B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818334A (zh) * 2017-09-29 2018-03-20 北京邮电大学 一种移动互联网用户访问模式表征和聚类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499091A (zh) * 2009-03-17 2009-08-05 辽宁般若网络科技有限公司 网页代表词推荐方法
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和***
CN102215300A (zh) * 2011-05-24 2011-10-12 中国联合网络通信集团有限公司 电信业务推荐方法和***
CN102693271A (zh) * 2012-03-06 2012-09-26 奇智软件(北京)有限公司 一种网络信息推荐方法及***
CN104899219A (zh) * 2014-03-06 2015-09-09 携程计算机技术(上海)有限公司 伪静态url的筛除方法、***及网页爬取方法、***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499091A (zh) * 2009-03-17 2009-08-05 辽宁般若网络科技有限公司 网页代表词推荐方法
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和***
CN102215300A (zh) * 2011-05-24 2011-10-12 中国联合网络通信集团有限公司 电信业务推荐方法和***
CN102693271A (zh) * 2012-03-06 2012-09-26 奇智软件(北京)有限公司 一种网络信息推荐方法及***
CN104899219A (zh) * 2014-03-06 2015-09-09 携程计算机技术(上海)有限公司 伪静态url的筛除方法、***及网页爬取方法、***

Also Published As

Publication number Publication date
CN106294755A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN109190043B (zh) 推荐方法及装置,存储介质,电子设备及推荐***
US8090724B1 (en) Document analysis and multi-word term detector
CN109190049B (zh) 关键词推荐方法、***、电子设备和计算机可读介质
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN107679217B (zh) 基于数据挖掘的关联内容提取方法和装置
US20130339350A1 (en) Ranking Search Results Based on Click Through Rates
CN101639857B (zh) 构建知识问答分享平台的方法、装置及***
EP2945073A2 (en) Method and apparatus for providing recommended information
US20180285331A1 (en) Method, server, browser, and system for recommending text information
CN108038161A (zh) 基于相册的信息推荐方法、装置及计算设备
CN105069103A (zh) App搜索引擎利用用户评论的方法及***
CN103761340A (zh) 信息处理方法和装置
CN110580489A (zh) 一种数据对象的分类***、方法以及设备
CN103106234A (zh) 一种网页内容搜索方法和装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及***
Khatter et al. Web scraping based product comparison model for E-commerce websites
CN106202038A (zh) 基于迭代的同义词挖掘方法及装置
CN105243120A (zh) 一种检索方法及装置
CN117377951A (zh) Web数据收集中的高级响应处理
KR20160117678A (ko) 큐레이션 커머스에서 상품 등록 및 추천 방법
CN111259225B (zh) 新媒体信息展示方法、装置、电子设备及计算机可读介质
US20170235835A1 (en) Information identification and extraction
CN102737045A (zh) 一种相关度计算方法和装置
US9990444B2 (en) Apparatus and method for supporting visualization of connection relationship
CN106777140B (zh) 用于非结构化文档搜索的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant