CN108268552B - 网站信息的处理方法及装置 - Google Patents

网站信息的处理方法及装置 Download PDF

Info

Publication number
CN108268552B
CN108268552B CN201611271175.1A CN201611271175A CN108268552B CN 108268552 B CN108268552 B CN 108268552B CN 201611271175 A CN201611271175 A CN 201611271175A CN 108268552 B CN108268552 B CN 108268552B
Authority
CN
China
Prior art keywords
analyzed
search
keywords
column
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611271175.1A
Other languages
English (en)
Other versions
CN108268552A (zh
Inventor
唐喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611271175.1A priority Critical patent/CN108268552B/zh
Publication of CN108268552A publication Critical patent/CN108268552A/zh
Application granted granted Critical
Publication of CN108268552B publication Critical patent/CN108268552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网站信息的处理方法及装置。其中,该方法包括:获取网站中多个待分析栏目的搜索关键词;根据每个待分析栏目对应的搜索关键词的属性参数,确定每个待分析栏目的目标关键词;对待分析栏目的目标关键词进行聚类,得到聚类结果;根据聚类结果确定各个待分析栏目之间的相似性。本发明解决了无法区分出相似网站栏目的技术问题。

Description

网站信息的处理方法及装置
技术领域
本发明涉及信息处理领域,具体而言,涉及一种网站信息的处理方法及装置。
背景技术
在目前的网站页面中,许多的网站页面的栏目有很大的相似性,例如政府网站中,存在栏目冗余的情况,多余的栏目使得用户在访问网站时,体验感下降,现有技术中,还没有根据用户访问行为数据判断栏目是否属于相似栏目的方案。
针对上述的无法区分出相似网站栏目的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网站信息的处理方法及装置,以至少解决无法区分出相似网站栏目的技术问题。
根据本发明实施例的一个方面,提供了一种网站信息的处理方法,包括:获取网站中多个待分析栏目的搜索关键词;根据每个所述待分析栏目对应的搜索关键词的属性参数,确定每个所述待分析栏目的目标关键词;对所述待分析栏目的目标关键词进行聚类,得到聚类结果;根据所述聚类结果确定各个所述待分析栏目之间的相似性。
进一步地,根据每个所述待分析栏目对应的搜索关键词的属性参数,确定每个所述待分析栏目的目标关键词包括:获取每个待分析栏目的搜索关键词的搜索次数,其中,所述搜索关键词的属性参数包括所述搜索关键词的搜索次数;根据所述搜索关键词的搜索次数确定出每个所述待分析栏目的目标关键词。
进一步地,根据所述搜索关键词的搜索次数确定出每个所述待分析栏目的目标关键词包括:根据每个所述搜索关键词的搜索次数,统计每个所述待分析栏目的搜索关键词的搜索总次数;根据每个所述搜索关键词的搜索次数,确定每个所述搜索关键词的搜索次数与所述搜索总次数的比值;按照每个所述搜索关键词对应的比值,确定出所述待分析栏目的目标关键词。
进一步地,按照每个所述搜索关键词对应的比值,确定出所述待分析栏目的目标关键词包括下述至少之一:将大于预定阈值的比值对应的搜索关键词,确定为所述待分析栏目的目标关键词;按照所述比值的大小确定比值队列,将所述比值队列中前N个或后N个比值对应的搜索关键词,确定为所述待分析栏目的目标关键词。
进一步地,获取网站中多个待分析栏目的搜索关键词包括:获取所述网站中的搜索关键词;识别每个所述搜索关键词所属的待分析栏目,以获取每个待分析栏目的搜索关键词。
进一步地,根据所述聚类结果确定各个所述待分析栏目之间的相似性包括:基于聚类结果,获取每个待分析栏目的所述目标关键词对应每个类别的目标关键词比重,其中,所述目标关键词比重表示每个待分析栏目的目标关键词与对应类别所包含目标关键词总数的比值;比较多个所述待分析栏目对应各个类别的目标关键词比重;若多个待分析栏目对应每个类别的目标关键词比重的差异均小于预定差异,则确定出所述多个待分析栏目为相似栏目。
根据本发明实施例的另一方面,还提供了一种网站信息的处理装置,包括:获取单元,用于获取网站中多个待分析栏目的搜索关键词;第一确定单元,用于根据每个所述待分析栏目对应的搜索关键词的属性参数,确定每个所述待分析栏目的目标关键词;聚类单元,用于对所述待分析栏目的目标关键词进行聚类,得到聚类结果;第二确定单元,用于根据所述聚类结果确定各个所述待分析栏目之间的相似性。
进一步地,所述第一确定单元包括:第一获取模块,用于获取每个待分析栏目的搜索关键词的搜索次数,其中,所述搜索关键词的属性参数包括所述搜索关键词的搜索次数;第一确定模块,用于根据所述搜索关键词的搜索次数确定出每个所述待分析栏目的目标关键词。
进一步地,所述第一确定模块包括:统计模块,用于根据每个所述搜索关键词的搜索次数,统计每个所述待分析栏目的搜索关键词的搜索总次数;第一确定子模块,用于根据每个所述搜索关键词的搜索次数,确定每个所述搜索关键词的搜索次数与所述搜索总次数的比值;第二确定子模块,用于按照每个所述搜索关键词对应的比值,确定出所述待分析栏目的目标关键词。
进一步地,所述第二确定子模块包括下述至少之一:第三确定子模块,用于将大于预定阈值的比值对应的搜索关键词,确定为所述待分析栏目的目标关键词;第四确定子模块,用于按照所述比值的大小确定比值队列,将所述比值队列中前N个或后N个比值对应的搜索关键词,确定为所述待分析栏目的目标关键词。
在本发明实施例中,可以实现获取网站中多个待分析栏目的搜索关键词,并根据每个待分析栏目对应的搜索关键词的属性参数,确定出每个待分析栏目的目标关键词,然后,可以对待分析栏目的目标关键词进行聚类,得到各栏目的聚类结果,最后,可以根据得到的聚类结果确定出各个待分析栏目之间的相似性。根据本发明实施例,可以根据网站中的各个待分析栏目的关键词的属性参数,得到该待分析栏目的目标关键词,从而对目标关键词进行聚类分析,可以依次对两个待分析栏目进行分析,并根据聚类结果确定网站中各个栏目之间的相似性。本发明实施方式可以解决无法区分出相似网站栏目的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的网站信息的处理方法的流程图一;
图2是根据本发明实施例的另一种可选的网站信息的处理方法的流程图二;
图3是根据本发明实施例的另一种可选的网站信息的处理装置的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
聚类分析(Cluster Analysis),又称群分析,是对样品或指标进行分类的一种多元统计分析方法,对象是大量的样品,要求能合理地按各自的特性来进行合理的分类。聚类源于很多领域,包括数学,计算机科学。将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
根据本发明实施例,提供了一种网站信息的处理的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的网站信息的处理方法的流程图一,如图1所示,该方法包括如下步骤:
步骤S102,获取网站中多个待分析栏目的搜索关键词;
步骤S104,根据每个待分析栏目对应的搜索关键词的属性参数,确定每个待分析栏目的目标关键词;
步骤S106,对待分析栏目的目标关键词进行聚类,得到聚类结果;
步骤S108,根据聚类结果确定各个待分析栏目之间的相似性。
通过上述实施方式,可以实现获取网站中多个待分析栏目的搜索关键词,并根据每个待分析栏目对应的搜索关键词的属性参数,确定出每个待分析栏目的目标关键词,然后,可以对待分析栏目的目标关键词进行聚类,得到各栏目的聚类结果,最后,可以根据得到的聚类结果确定出各个待分析栏目之间的相似性。根据本发明实施例,可以根据网站中的各个待分析栏目的关键词的属性参数,得到该待分析栏目的目标关键词,从而对目标关键词进行聚类分析,可以依次对两个待分析栏目进行分析,并根据聚类结果确定网站中各个栏目之间的相似性。本发明实施方式可以解决无法区分出相似网站栏目的技术问题。
可选的,上述实施方式可以应用于服务器(如搜索服务器)中,该服务器可以接收用户的访问行为数据,该访问行为数据可以表示用户搜索网站中的搜索关键词以及搜索关键词的搜索次数。用户可以通过终端设备发送访问网站的请求,其中,该终端设备可以包括智能手机、PC、笔记本等,终端设备发送的网站请求中,可以是用自然语言表达的语句或词语,用户通过自然语言将请求发送到服务器。服务器可以在接收到终端设备发来的访问请求后,根据访问请求的内容,输出对应的结果,在分析的时候,可以将请求中的搜索关键词提取出来,每个请求可以对应有多个请求执行结果,其中,执行结果可以包括网站的网址或者网站的某一个栏目的内容。
可选的,上述的搜索关键词可以是指一个网站中搜索次数较多的词语,在本发明实施方式中,可以将网站中搜索词做一个排序,按照搜索次数确定出先后顺序,并提取出预定数值的搜索词为搜索关键词,对于预定数值,可以是预先设置的,例如,100个。在该实施方式中,预定数值可以是用户或管理员自行设置,对此不做限定。
可选的,网站栏目可以是展示内容的地方,一个网站中可以包括多个网站栏目,在网站中,栏目是分级的,例如,一级栏目、二级栏目、三级栏目等,其中,网站栏目之间展示的内容可以是相同或不同的,每个栏目占据网站的一个位置。
另一种可选的实施方式,服务器在分析出的关键词后,可以将关键词对应的网站或栏目信息发送到用户的终端设备中,以供用户查看。服务器在调取各个网站的信息时,可以记录该网站的关键词以及关键词被搜索的次数。可选的,可以在服务器中设置计数设备,该计数设备可以用于计算各个网站的关键词被搜索的次数,用户每搜索一次网站的关键词,计数设备将该关键词的搜索次数累加一次。
其中,对同一个网站,可以包括多个关键词,每个关键词所在的网站栏目是不相同的,在本发明实施方式中,可以获取同一个网站中的栏目相似性,在获取关键词和该关键词搜索次数时,可以获取同一个网站中的多个关键词的内容和搜索次数。
可选的,在步骤S102提供的技术方案中,可以获取网站中多个待分析栏目的搜索关键词。其中,该待分析栏目,可以是网站中同一个级别的多个栏目,在本发明实施方式中,每次可以分析两个网站栏目之间的相似性,待分析栏目的数量在此不做限定。在获取到待分析栏目,可以从服务器的存储设备中调取该网站中的各个搜索关键词。
其中,上述实施方式的网站中的各个搜索关键词都可以对应有一个网站栏目,各个关键词可以在网站栏目的内容中,在分析相应的栏目时,可以将该栏目中的搜索关键词查询出来。其中,每个待分析栏目可以有一个名称,该名称可以是网站中各个网页的标题或者自行设定的名称。
可选的,在步骤S104提供的技术方案中,可以根据每个待分析栏目对应的搜索关键词的属性参数,确定每个待分析栏目的目标关键词。其中,搜索关键词的属性参数可以包括该搜索关键词的搜索次数。可以根据待分析栏目中的搜索关键词的属性参数确定出该待分析栏目的目标关键词,其中,该目标关键词可以是搜索关键词中搜索次数较高的关键词,在本发明实施例中,可以对同一个栏目的搜索关键词的搜索次数做一个排序,按照先后顺序,可以将搜索次数较多的预定数量的搜索关键词提取出来,该提取出的一个或多个关键词即为目标关键词,也可以是代表关键词。即提取出的目标关键词为该栏目中搜索次数较多的词语。其中,预定数量可以是预先设定的,例如,5个,即可以提取出一个栏目中搜索次数最多的5个词语为目标关键词。
另一种可选的实施方式,在步骤S106提供的技术方案中,对待分析栏目的目标关键词进行聚类,得到聚类结果。其中,在聚类时,可以先将待分析栏目的目标关键词确定出来,例如,目标关键词为“马云”,可以将该目标关键词的类别确定为焦点人物类别。其中,每个关键词可以对应一个类别,多个关键词可以有相同的类别。根据确定出的各个目标关键词的类别,可以确定出待分析栏目下是否有目标关键词的类别相同或不同,从而得到聚类结果。
可选的,在步骤S108提供的技术方案中,根据聚类结果确定各个待分析栏目之间的相似性。即可以在得到聚类结果后,将待分析栏目下的目标关键词的类别一一比较,并分析得到目标关键词在该类别全部目标关键词中的比例,得到待分析栏目之间的目标关键词的相似值,其中,该相似值可以是待分析栏目中每个目标关键词与其它待分析栏目的相似度,例如,栏目A确定出目标关键词为“马云”、“中国”、“支付宝”和栏目B确定出目标关键词为“马云”、“支付宝”、“淘宝”,在分析时,可以得到栏目A和栏目B的各个目标关键词的相似性很大。
可选的,在确定出待分析栏目之间的相似性之后,可以将相似性较高的一个栏目确定为冗余栏目,在确定后,可以将相似性较高的栏目发送给网站的管理员,以告知管理员,这两个网站栏目的相似度很大,可以向管理员发送一个通知,该通知可以是可以建议管理员删除或修改该网站栏目的内容。
另一种可选的实施方式,根据每个待分析栏目对应的搜索关键词的属性参数,确定每个待分析栏目的目标关键词包括:获取每个待分析栏目的搜索关键词的搜索次数,其中,搜索关键词的属性参数包括搜索关键词的搜索次数;根据搜索关键词的搜索次数确定出每个待分析栏目的目标关键词。
通过上述实施方式,可以根据待分析栏目的各个搜索关键词的搜索次数确定出代表关键词(即目标关键词),从而得到待分析栏目中的核心搜索词,通过对目标搜索词的分析,可以得到待分析栏目之间的相似性,本发明实施方式中,目标关键词可以代表相应的网站栏目。
可选的,上述实施方式中,根据搜索关键词的搜索次数确定出每个待分析栏目的目标关键词包括:根据每个搜索关键词的搜索次数,统计每个待分析栏目的搜索关键词的搜索总次数;根据每个搜索关键词的搜索次数,确定每个搜索关键词的搜索次数与搜索总次数的比值;按照每个搜索关键词对应的比值,确定出待分析栏目的目标关键词。
其中,上述统计每个待分析栏目的搜索关键词的搜索总次数,可以是根据服务器中存储的待分析中全部搜索关键词的搜索次数确定的,即可以将待分析栏目的每个搜索关键词的搜索次数累加得到搜索总次数,然后,可以将待分析栏目中每个搜索关键词的搜索次数与该待分析栏目的搜索总次数做比较,得到一个比值。可选的,可以将比值较高的预定数量的搜索关键词提取出来,其中,预定数量可以是上述实施方式的预定数值,例如,5个。然后,可以将提取出的搜索关键词作为目标关键词。
另一种可选的实施方式,按照每个搜索关键词对应的比值,确定出待分析栏目的目标关键词包括下述至少之一:将大于预定阈值的比值对应的搜索关键词,确定为待分析栏目的目标关键词;按照比值的大小确定比值队列,将比值队列中前N个或后N个比值对应的搜索关键词,确定为待分析栏目的目标关键词,其中,N为正整数。
其中,上述实施方式的预定阈值可以为限定提取搜索关键词数量的比值,例如,60%。并将大于该预定阈值的搜索关键词确定为目标关键词。对于上述实施方式的前N个或后N个可以为上述实施方式的预定数量,如,5个,即可以根据搜索次数对搜索关键词进行排序,将排序之后的前N个或后N个比值对应的搜索关键词提取出来,并将该提取出的搜索关键词确定为待分析栏目的目标关键词
可选的,获取网站中多个待分析栏目的搜索关键词包括:获取网站中的搜索关键词;识别每个搜索关键词所属的待分析栏目,以获取每个待分析栏目的搜索关键词。
即可以在分析网站栏目之前,可以获取网站中的搜索关键词,并将搜索关键词所属的待分析栏目识别出来,在该实施方式中,每个搜索关键词可以对应有一个网站栏目。通过上述实施方式,可以在分析网站栏目相似性之前,将待分析的栏目和网站的搜索关键词查询出来,并将每个搜索关键词所属的待分析栏目识别出来,这样可以方便服务器进一步的分析网站栏目之间的相似性。
另一种可选的实施方式,根据聚类结果确定各个待分析栏目之间的相似性包括:基于聚类结果,获取每个待分析栏目的目标关键词对应每个类别的目标关键词比重,其中,目标关键词比重表示每个待分析栏目的目标关键词与对应类别所包含目标关键词总数的比值;比较多个待分析栏目对应各个类别的目标关键词比重;若多个待分析栏目对应每个类别的目标关键词比重的差异均小于预定差异,则确定出多个待分析栏目为相似栏目。
对于上述实施方式,类别可以为多种,例如,人物、地理、历史、地点以及时间等,在获取每个待分析栏目的目标关键词对应每个类别下的目标关键词比重时,可以将待分析栏目中的各个目标关键词对应的类别查询到,然后,可以对待分析栏目下的目标关键词的各个类别进行比较,若在分析后,得到待分析栏目对应每个类别的目标关键词比重的差异均小于预定差异,则确定出多个待分析栏目为相似栏目。其中,待分析栏目之间可以有多个相似的类别。该预定差异可以是指预先设置的数值,例如,10%,即在判断待分析栏目的相似性时,若其中有一个或多个目标关键词的类别差异较小,或者待分析栏目对应每个类别的目标关键词比重的差异小于预定差异,则可以确定出该待分析栏目为相似栏目。
可选的,在确定出多个待分析栏目(如两个待分析栏目)为相似栏目后,可以将该相似栏目的情况通知网站的管理员,管理员可以根据该通知内容,了解到相似的栏目信息,可以删除或修改相似栏目的内容。
下面是根据本发明的具体实施方式。
图2是根据本发明实施例的另一种可选的网站信息的处理方法的流程图二,该方法中,网站为政府网站,分析的网站栏目为一级栏目,如图2所示,该方法包括:
步骤S201,梳理政府网站的栏目体系,确定网站中的一级栏目。
确定政府网站各一级栏目,在该实施方式中,只针对网站的一级栏目进行计算,本发明实施方式同样适用于二级栏目、三级栏目等其它栏目。
步骤S203,获取政府网站中搜索关键词。
可选的,服务器可以获取政府网站的所有站内搜索关键词,并识别各关键词的发起页面及页面所属栏目名称,并对站内搜索关键词的来源栏目进行标识,可选的,可以对一级栏目进行标识。
步骤S205,获取每个一级栏目的搜索关键词和每个搜索关键词对应的搜索次数。
可选的,可以根据获取到搜索关键词,整理政府网站中每个一级栏目的所有搜索关键词,记录每个站内搜索关键词对应的搜索次数。
步骤S207,根据搜索关键词和每个搜索关键词对应的搜索次数确定代表关键词。
可选的,统计每个一级栏目下,每个搜索关键词的搜索次数占此栏目所有搜索关键词的比例,从而确定出比例最高的5个关键词为该栏目下的代表关键词(即上述实施例的目标关键词)。即可以整理每个站内搜索关键词的搜索次数,并统计每个一级栏目下,有代表性的搜索关键词(即代表关键词),在该实施方式中,确定代表关键词的方式是多种,例如:计算每个站内搜索关键词的搜索次数占整个栏目所有站内搜索关键词搜索次数的比例。
步骤S209,根据代表关键词,对各一级栏目进行聚类分析,根据聚类效果判断两个一级栏目的相似性。
可选的,对所有一级栏目下筛选后的关键词进行两两聚类分析,根据聚类效果判断两个栏目的相似性,判断聚类效果的方法可以根据实际情况具体确定,例如:根据聚类后类别的个数及每个类别下两个栏目关键词的数量占此类别下所有关键词数量的比例判断两个一级栏目的相似性。
通过上述实施方式,可以根据用户访问行为数据(即搜索关键词和搜索次数)来判断网站栏目之间是否具有相似性,并在判断出网站栏目之间的是否具有相似性后,将相似性较高的网站栏目的信息发送给管理员,管理员可以根据该信息对网站栏目做出相应的调整。
图3是根据本发明实施例的另一种可选的网站信息的处理装置的结构图,包括:获取单元31,用于获取网站中多个待分析栏目的搜索关键词;第一确定单元33,用于根据每个待分析栏目对应的搜索关键词的属性参数,确定每个待分析栏目的目标关键词;聚类单元35,用于对待分析栏目的目标关键词进行聚类,得到聚类结果;第二确定单元37,用于根据聚类结果确定各个待分析栏目之间的相似性。
在上述实施方式,可以通过获取单元31获取网站中多个待分析栏目的搜索关键词,并通过第一确定单元33根据每个待分析栏目对应的搜索关键词的属性参数,确定出每个待分析栏目的目标关键词,然后,可以通过聚类单元35对待分析栏目的目标关键词进行聚类,得到各栏目的聚类结果,最后,可以通过第二确定单元37根据得到的聚类结果确定出各个待分析栏目之间的相似性。根据本发明实施例,可以根据网站中的各个待分析栏目的关键词的属性参数,得到该待分析栏目的目标关键词,从而对目标关键词进行聚类分析,可以依次对两个待分析栏目进行分析,并根据聚类结果确定网站中各个栏目之间的相似性。本发明实施方式可以解决无法区分出相似网站栏目的技术问题。
可选的,第一确定单元包括:第一获取模块,用于获取每个待分析栏目的搜索关键词的搜索次数,其中,搜索关键词的属性参数包括搜索关键词的搜索次数;第一确定模块,用于根据搜索关键词的搜索次数确定出每个待分析栏目的目标关键词。
其中,第一确定模块包括:统计模块,用于根据每个搜索关键词的搜索次数,统计每个待分析栏目的搜索关键词的搜索总次数;第一确定子模块,用于根据每个搜索关键词的搜索次数,确定每个搜索关键词的搜索次数与搜索总次数的比值;第二确定子模块,用于按照每个搜索关键词对应的比值,确定出待分析栏目的目标关键词。
另一种可选的实施方式,第二确定子模块包括下述至少之一:第三确定子模块,用于将大于预定阈值的比值对应的搜索关键词,确定为待分析栏目的目标关键词;第四确定子模块,用于按照比值的大小确定比值队列,将比值队列中前N个或后N个比值对应的搜索关键词,确定为待分析栏目的目标关键词。
可选的,获取单元包括:第二获取模块,用于获取网站中的搜索关键词;识别模块,用于识别每个搜索关键词所属的待分析栏目,以获取每个待分析栏目的搜索关键词。
对于上述实施例,第二确定单元包括:第三获取模块,用于基于聚类结果,获取每个待分析栏目的目标关键词对应每个类别的目标关键词比重,其中,目标关键词比重表示每个待分析栏目的目标关键词与对应类别所包含目标关键词总数的比值;比较模块,用于比较多个待分析栏目对应各个类别的目标关键词比重;第二确定模块,用于若多个待分析栏目对应每个类别的目标关键词比重的差异均小于预定差异,则确定出多个待分析栏目为相似栏目。
通过上述实施方式,可以利用网站中各个栏目的目标关键词确定出网站栏目的相似性,从而解决无法确定网站栏目相似性的问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种网站信息的处理方法,其特征在于,包括:
获取网站中多个待分析栏目的搜索关键词;
根据每个所述待分析栏目对应的搜索关键词的属性参数,确定每个所述待分析栏目的目标关键词;
对所述待分析栏目的目标关键词进行聚类,得到聚类结果;
根据所述聚类结果确定各个所述待分析栏目之间的相似性;
其中,根据所述聚类结果确定各个所述待分析栏目之间的相似性包括:基于聚类结果,获取每个待分析栏目的所述目标关键词对应每个类别的目标关键词比重,其中,所述目标关键词比重表示每个待分析栏目的目标关键词与对应类别所包含目标关键词总数的比值;比较多个所述待分析栏目对应各个类别的目标关键词比重;若多个待分析栏目对应每个类别的目标关键词比重的差异均小于预定差异,则确定出所述多个待分析栏目为相似栏目。
2.根据权利要求1所述的方法,其特征在于,根据每个所述待分析栏目对应的搜索关键词的属性参数,确定每个所述待分析栏目的目标关键词包括:
获取每个待分析栏目的搜索关键词的搜索次数,其中,所述搜索关键词的属性参数包括所述搜索关键词的搜索次数;
根据所述搜索关键词的搜索次数确定出每个所述待分析栏目的目标关键词。
3.根据权利要求2所述的方法,其特征在于,根据所述搜索关键词的搜索次数确定出每个所述待分析栏目的目标关键词包括:
根据每个所述搜索关键词的搜索次数,统计每个所述待分析栏目的搜索关键词的搜索总次数;
根据每个所述搜索关键词的搜索次数,确定每个所述搜索关键词的搜索次数与所述搜索总次数的比值;
按照每个所述搜索关键词对应的比值,确定出所述待分析栏目的目标关键词。
4.根据权利要求3所述的方法,其特征在于,按照每个所述搜索关键词对应的比值,确定出所述待分析栏目的目标关键词包括下述至少之一:
将大于预定阈值的比值对应的搜索关键词,确定为所述待分析栏目的目标关键词;
按照所述比值的大小确定比值队列,将所述比值队列中前N个或后N个比值对应的搜索关键词,确定为所述待分析栏目的目标关键词。
5.根据权利要求1所述的方法,其特征在于,获取网站中多个待分析栏目的搜索关键词包括:
获取所述网站中的搜索关键词;
识别每个所述搜索关键词所属的待分析栏目,以获取每个待分析栏目的搜索关键词。
6.一种网站信息的处理装置,其特征在于,包括:
获取单元,用于获取网站中多个待分析栏目的搜索关键词;
第一确定单元,用于根据每个所述待分析栏目对应的搜索关键词的属性参数,确定每个所述待分析栏目的目标关键词;
聚类单元,用于对所述待分析栏目的目标关键词进行聚类,得到聚类结果;
第二确定单元,用于根据所述聚类结果确定各个所述待分析栏目之间的相似性;
其中,所述第二确定单元包括:第三获取模块,用于基于聚类结果,获取每个待分析栏目的所述目标关键词对应每个类别的目标关键词比重,其中,所述目标关键词比重表示每个待分析栏目的目标关键词与对应类别所包含目标关键词总数的比值;比较模块,用于比较多个所述待分析栏目对应各个类别的目标关键词比重;第二确定模块,用于在多个待分析栏目对应每个类别的目标关键词比重的差异均小于预定差异的情况下,则确定出所述多个待分析栏目为相似栏目。
7.根据权利要求6所述的装置,其特征在于,所述第一确定单元包括:
第一获取模块,用于获取每个待分析栏目的搜索关键词的搜索次数,其中,所述搜索关键词的属性参数包括所述搜索关键词的搜索次数;
第一确定模块,用于根据所述搜索关键词的搜索次数确定出每个所述待分析栏目的目标关键词。
8.根据权利要求7所述的装置,其特征在于,所述第一确定模块包括:
统计模块,用于根据每个所述搜索关键词的搜索次数,统计每个所述待分析栏目的搜索关键词的搜索总次数;
第一确定子模块,用于根据每个所述搜索关键词的搜索次数,确定每个所述搜索关键词的搜索次数与所述搜索总次数的比值;
第二确定子模块,用于按照每个所述搜索关键词对应的比值,确定出所述待分析栏目的目标关键词。
9.根据权利要求8所述的装置,其特征在于,所述第二确定子模块包括下述至少之一:
第三确定子模块,用于将大于预定阈值的比值对应的搜索关键词,确定为所述待分析栏目的目标关键词;
第四确定子模块,用于按照所述比值的大小确定比值队列,将所述比值队列中前N个或后N个比值对应的搜索关键词,确定为所述待分析栏目的目标关键词。
CN201611271175.1A 2016-12-30 2016-12-30 网站信息的处理方法及装置 Active CN108268552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611271175.1A CN108268552B (zh) 2016-12-30 2016-12-30 网站信息的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611271175.1A CN108268552B (zh) 2016-12-30 2016-12-30 网站信息的处理方法及装置

Publications (2)

Publication Number Publication Date
CN108268552A CN108268552A (zh) 2018-07-10
CN108268552B true CN108268552B (zh) 2020-08-11

Family

ID=62771396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611271175.1A Active CN108268552B (zh) 2016-12-30 2016-12-30 网站信息的处理方法及装置

Country Status (1)

Country Link
CN (1) CN108268552B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1822005A (zh) * 2006-04-07 2006-08-23 张天山 基于网站自动生成和搜索引擎的信息推送***及方法
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和***
CN101917456A (zh) * 2010-07-06 2010-12-15 杭州热点信息技术有限公司 一种内容聚合无线发布***
CN102890683A (zh) * 2011-07-21 2013-01-23 阿里巴巴集团控股有限公司 信息提供方法及装置
CN103136219A (zh) * 2011-11-24 2013-06-05 北京百度网讯科技有限公司 一种基于时效性的需求挖掘方法和装置
CN103514191A (zh) * 2012-06-20 2014-01-15 百度在线网络技术(北京)有限公司 用于确定目标推广信息的关键词匹配模式的方法和设备
CN103823844A (zh) * 2014-01-26 2014-05-28 北京邮电大学 社区问答服务中基于主客观上下文的问题转发***和方法
CN104035927A (zh) * 2013-03-05 2014-09-10 百度在线网络技术(北京)有限公司 一种基于用户行为的搜索方法及***
CN104252487A (zh) * 2013-06-28 2014-12-31 百度在线网络技术(北京)有限公司 一种用于生成词条信息的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100088327A1 (en) * 2008-10-02 2010-04-08 Nokia Corporation Method, Apparatus, and Computer Program Product for Identifying Media Item Similarities

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1822005A (zh) * 2006-04-07 2006-08-23 张天山 基于网站自动生成和搜索引擎的信息推送***及方法
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和***
CN101917456A (zh) * 2010-07-06 2010-12-15 杭州热点信息技术有限公司 一种内容聚合无线发布***
CN102890683A (zh) * 2011-07-21 2013-01-23 阿里巴巴集团控股有限公司 信息提供方法及装置
CN103136219A (zh) * 2011-11-24 2013-06-05 北京百度网讯科技有限公司 一种基于时效性的需求挖掘方法和装置
CN103514191A (zh) * 2012-06-20 2014-01-15 百度在线网络技术(北京)有限公司 用于确定目标推广信息的关键词匹配模式的方法和设备
CN104035927A (zh) * 2013-03-05 2014-09-10 百度在线网络技术(北京)有限公司 一种基于用户行为的搜索方法及***
CN104252487A (zh) * 2013-06-28 2014-12-31 百度在线网络技术(北京)有限公司 一种用于生成词条信息的方法和装置
CN103823844A (zh) * 2014-01-26 2014-05-28 北京邮电大学 社区问答服务中基于主客观上下文的问题转发***和方法

Also Published As

Publication number Publication date
CN108268552A (zh) 2018-07-10

Similar Documents

Publication Publication Date Title
US9317613B2 (en) Large scale entity-specific resource classification
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN103914478B (zh) 网页训练方法及***、网页预测方法及***
WO2017097231A1 (zh) 话题处理方法及装置
US20140317117A1 (en) Method, device and computer storage media for user preferences information collection
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
WO2014056397A1 (zh) 兴趣标签推荐方法、***及计算机可读介质
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
US10936819B2 (en) Query-directed discovery and alignment of collections of document passages for improving named entity disambiguation precision
CN109582847B (zh) 一种信息处理方法及装置、存储介质
CN103313248A (zh) 一种识别垃圾信息的方法和装置
US20150206101A1 (en) System for determining infringement of copyright based on the text reference point and method thereof
CN105512300B (zh) 信息过滤方法及***
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN109558531A (zh) 新闻信息推送方法、装置以及计算机设备
CN103226601A (zh) 一种图片搜索的方法和装置
KR102371505B1 (ko) 빅데이터를 활용하여 뉴스를 레이블링하는 프로그램
KR20210074734A (ko) 영상 내 자막 키워드 추출 및 순위 산정 시스템 및 방법
CN112307318A (zh) 一种内容发布方法、***及装置
CN108509449B (zh) 一种信息处理的方法及服务器
CN105512270B (zh) 一种确定相关对象的方法和装置
CN115510289B (zh) 一种数据立方体配置方法、装置、电子设备及存储介质
KR101263403B1 (ko) 입력한 단어의 우선 순위 설정에 따른 키워드 검색 장치,방법 및 이를 구현할 수 있는 프로그램이 수록된 컴퓨터로읽을 수 있는 기록매체
CN108268552B (zh) 网站信息的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant