CN104572719A - 信息收集方法及装置 - Google Patents

信息收集方法及装置 Download PDF

Info

Publication number
CN104572719A
CN104572719A CN201310495565.7A CN201310495565A CN104572719A CN 104572719 A CN104572719 A CN 104572719A CN 201310495565 A CN201310495565 A CN 201310495565A CN 104572719 A CN104572719 A CN 104572719A
Authority
CN
China
Prior art keywords
score value
retrieval list
described network
network retrieval
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310495565.7A
Other languages
English (en)
Inventor
叶伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201310495565.7A priority Critical patent/CN104572719A/zh
Priority to US15/030,730 priority patent/US10346414B2/en
Priority to PCT/CN2014/078335 priority patent/WO2014180393A1/zh
Priority to MX2016005151A priority patent/MX2016005151A/es
Publication of CN104572719A publication Critical patent/CN104572719A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种信息收集方法及装置。该方法包括:获取网络浏览信息;对网络浏览信息进行评价,根据评价结果对网络浏览信息进行排序,并根据排序结果生成或更新网络检索列表。借助于本发明的技术方案,能够根据用户的浏览习惯快速反馈其感兴趣的相关网站检索结果,提升用户的网络体验。

Description

信息收集方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种信息收集方法及装置。
背景技术
随着互联网技术的迅猛发展,浏览网页逐渐成为人们获取信息的主要手段。如何从大量的网络信息中检索感兴趣的内容,并及时保存相应的检索结果以方便用户随时的访问是网络浏览的一个重要的应用。
目前常规的检索方法是使用以关键字检索为主的搜索引擎,配合浏览器提供的收藏夹功能,实现检索结果的保存。然而这样的实现方式缺乏主动性,在数据的自动更新和筛选上过于依赖用户的参与。
发明内容
鉴于上述检索结果的保存过于依赖用户的参与缺乏主动性的问题,提出了本发明以便提供一种信息收集方法及装置。
本发明提供一种信息收集方法,包括:获取网络浏览信息;对网络浏览信息进行评价,根据评价结果对网络浏览信息进行排序,并根据排序结果生成或更新网络检索列表。
优选地,通过搜索引擎搜索与网络检索列表相匹配的网络站点,并将搜索到的网络站点按照网络检索列表的排序进行推送。
优选地,网络浏览信息包括以下至少之一:用户通过客户端向网络服务器发送的站点地址信息、访问的文本内容、用户单次访问时长、同一网站用户访问次数。
优选地,上述方法进一步包括:将生成或更新的网络检索列表保存在用户数据服务器对应的账户中。
优选地,对网络浏览信息进行评价,根据评价结果对网络浏览信息进行排序,并根据排序结果生成或更新网络检索列表具体包括:从获取的网络浏览信息中提取出用于分值评定的评价数据;根据预定算法对提取出的评价数据进行分值计算;判断是否存在网络检索列表,在不存在网络检索列表的情况下,生成一个新的网络检索列表,并将网络浏览信息和计算的分值添加到网络检索列表中,并将网络浏览信息的排序设置为最高级;在网络检索列表存在的情况下,根据计算的分值与已存储在网络检索列表中的分值进行比较排序,并根据排序结果更新网络检索列表;将网络浏览信息中的文本内容存储在网络检索列表对应的条目中。
优选地,通过搜索引擎搜索与网络检索列表相匹配的网络站点具体包括:根据网络检索列表的条目中存储的文本内容,通过搜索引擎搜索与网络检索列表中该条目相匹配的网络站点。
优选地,根据预定算法对提取出的评价数据进行分值计算具体包括:假设网络检索列表有N条记录,将提取的评价数据与网络检索列表中已有评价数据分别进行比较,在相似度大于或等于第一预定阈值的情况下,权值取1,在相似度小于等于第二预定阈值的情况下,权值取0,在相似度小于第一预定阈值且大于第二预定阈值的情况下,权值取1/N的整数倍,将各权值相加得到M,其中,N>0,0<1/N<1,M≤N;假设用户访问了X次该条记录,每次访问的时长依次为T1、T2、…Tx,则平均每次访问时间T=(T1+T2+…+Tx)/X;计算分值Q=(M/N)*T。
优选地,根据计算的分值与已存储在网络检索列表中的分值进行比较排序,并根据排序结果更新网络检索列表具体包括:依次将分值Q与网络检索列表中的N个条目的分值进行比较,若Q小于第i个条目的分值Qi,且大于第i+1个条目的分值Qi+1,则将本次访问的文本内容和分值Q记录到网络检索列表,序号记录为i+1,并将i+1以后的条目的序号依次加1;若分值Q与网络检索列表中的第i个条目的分值相同,则将本次访问的文本内容和分值Q记录到网络检索列表的第i条记录,网络检索列表的其他记录保持不变;若分值Q小于网络检索列表中所有条目的分值,则将本次访问的文本内容和分值Q记录在网络检索列表中,其序号设置为N+1。
本发明还提供了一种信息收集装置,包括:获取模块,用于获取网络浏览信息;处理模块,用于对网络浏览信息进行评价,根据评价结果对网络浏览信息进行排序,并根据排序结果生成或更新网络检索列表。
优选地,上述装置还包括:推送模块,用于通过搜索引擎搜索与网络检索列表相匹配的网络站点,并将搜索到的网络站点按照网络检索列表的排序进行推。
优选地,网络浏览信息包括以下至少之一:用户通过客户端向网络服务器发送的站点地址信息、访问的文本内容、用户单次访问时长、同一网站用户访问次数。
优选地,处理模块模块进一步用于:将生成或更新的网络检索列表保存在用户数据服务器对应的账户中。
优选地,处理模块具体用于:从获取的网络浏览信息中提取出用于分值评定的评价数据;根据预定算法对提取出的评价数据进行分值计算;判断是否存在网络检索列表,在不存在网络检索列表的情况下,生成一个新的网络检索列表,并将网络浏览信息和计算的分值添加到网络检索列表中,并将网络浏览信息的排序设置为最高级;在网络检索列表存在的情况下,根据计算的分值与已存储在网络检索列表中的分值进行比较排序,并根据排序结果更新网络检索列表;将网络浏览信息中的文本内容存储在网络检索列表对应的条目中。
优选地,推送模块具体用于:根据网络检索列表的条目中存储的文本内容,通过搜索引擎搜索与网络检索列表中该条目相匹配的网络站点。
优选地,处理模块模块具体用于:假设网络检索列表有N条记录,将提取的评价数据与网络检索列表中已有评价数据分别进行比较,在相似度大于或等于第一预定阈值的情况下,权值取1,在相似度小于等于第二预定阈值的情况下,权值取0,在相似度小于第一预定阈值且大于第二预定阈值的情况下,权值取1/N的整数倍,将各权值相加得到M,其中,N>0,0<1/N<1,M≤N;假设用户访问了X次该条记录,每次访问的时长依次为T1、T2、…Tx,则平均每次访问时间T=(T1+T2+…+Tx)/X;计算分值Q=(M/N)*T。
优选地,处理模块具体用于:依次将分值Q与网络检索列表中的N个条目的分值进行比较,若Q小于第i个条目的分值Qi,且大于第i+1个条目的分值Qi+1,则将本次访问的文本内容和分值Q记录到网络检索列表,序号记录为i+1,并将i+1以后的条目的序号依次加1;若分值Q与网络检索列表中的第i个条目的分值相同,则将本次访问的文本内容和分值Q记录到网络检索列表的第i条记录,网络检索列表的其他记录保持不变;若分值Q小于网络检索列表中所有条目的分值,则将本次访问的文本内容和分值Q记录在网络检索列表中,其序号设置为N+1。
优选地,上述装置进一步包括:开关模块,用于根据用户的操作关闭或开启搜索服务推送装置。
优选地,信息收集装置设置于用户数据服务器中。
本发明有益效果如下:
通过采集用户的网络浏览信息,通过一定的评分判断准则,归纳用户的网络浏览习惯,生成并及时更新相应的检索列表,解决了现有技术中检索结果的保存过于依赖用户的参与缺乏主动性的问题,能够根据用户的浏览习惯快速反馈其感兴趣的相关网站检索结果,提升用户的网络体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例的信息收集方法的流程图;
图2是本发明实施例的信息收集***配置的***框图;
图3是本发明实施例的生成和更新网络检索列表的过程流程图;
图4是本发明实施例的文本内容提取的示意图;
图5是本发明实施例的文本内容提取的流程图;
图6是本发明实施例的用户进行网络浏览过程的流程图;
图7是本发明实施例的生成的检索列表反馈给用户的示意图;
图8是本发明实施例的信息收集装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中检索结果的保存过于依赖用户的参与缺乏主动性的问题,本发明提供了本发明提供了一种带有自动学习机制的信息收集***,对用户的检索及浏览内容能够自动的进行保存并及时的更新,以期能根据用户的浏览习惯快速反馈其感兴趣的相关网站检索结果,提升用户的网络体验。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
方法实施例
根据本发明的实施例,提供了一种信息收集方法,图1是本发明实施例的信息收集方法的流程图,如图1所示,根据本发明实施例的信息收集方法包括如下处理:
步骤101,获取网络浏览信息;其中,网络浏览信息包括以下至少之一:用户通过客户端向网络服务器发送的站点地址信息、访问的文本内容、用户单次访问时长、同一网站用户访问次数或其他交互信息等。需要说明的是,所需提取的网络浏览信息依据分值评定算法而定,包括但不局限于所列数据。
步骤102,对网络浏览信息进行评价,根据评价结果对网络浏览信息进行排序,并根据排序结果生成或更新网络检索列表,其中,上述评价是指:对网络浏览信息进行分值评定,以作为后面生成网络检索列表的排序标准。
步骤102具体包括如下处理:1、从获取的网络浏览信息中提取出用于分值评定的评价数据;2、根据预定算法对提取出的评价数据进行分值计算;3、判断是否存在网络检索列表,在不存在网络检索列表的情况下,生成一个新的网络检索列表,并将网络浏览信息和计算的分值添加到网络检索列表中,并将网络浏览信息的排序设置为最高级;在网络检索列表存在的情况下,根据计算的分值与已存储在网络检索列表中的分值进行比较排序,并根据排序结果更新网络检索列表;4、将网络浏览信息中的文本内容存储在网络检索列表对应的条目中。
上述根据预定算法对提取出的评价数据进行分值计算具体包括:
假设网络检索列表有N条记录,将提取的评价数据与网络检索列表中已有评价数据分别进行比较,在相似度大于或等于第一预定阈值的情况下,权值取1,在相似度小于等于第二预定阈值的情况下,权值取0,在相似度小于第一预定阈值且大于第二预定阈值的情况下,权值取1/N的整数倍,将各权值相加得到M,其中,N>0,0<1/N<1,M≤N;
假设用户访问了X次该条记录,每次访问的时长依次为T1、T2、…Tx,则平均每次访问时间T=(T1+T2+…+Tx)/X;
计算分值Q=(M/N)*T。
在步骤102中,根据计算的分值与已存储在网络检索列表中的分值进行比较排序,并根据排序结果更新网络检索列表具体包括:
依次将分值Q与网络检索列表中的N个条目的分值进行比较,若Q小于第i个条目的分值Qi,且大于第i+1个条目的分值Qi+1,则将本次访问的文本内容和分值Q记录到网络检索列表,序号记录为i+1,并将i+1以后的条目的序号依次加1;
若分值Q与网络检索列表中的第i个条目的分值相同,则将本次访问的文本内容和分值Q记录到网络检索列表的第i条记录,网络检索列表的其他记录保持不变;
若分值Q小于网络检索列表中所有条目的分值,则将本次访问的文本内容和分值Q记录在网络检索列表中,其序号设置为N+1。
优选地,在用户需要搜索服务时,通过搜索引擎搜索与网络检索列表相匹配的网络站点,并将搜索到的网络站点按照网络检索列表的排序推送给用户。
在上述处理中,可以根据网络检索列表的条目中存储的文本内容,通过搜索引擎搜索与网络检索列表中该条目相匹配的网络站点。
优选地,在本发明实施例中,还可以将生成或更新的网络检索列表保存在用户数据服务器对应的账户中。此外,在客户端浏览器的用户设置选项中提供用户接口开启或关闭该***,尊重用户的隐私习惯,提升用户体验,即根据用户的操作关闭或开启搜索服务的推送。
以下结合附图,对本发明实施例的上述技术方案进行详细说明。
图2是本发明实施例的信息收集***配置的***框图。如图2所示,根据本发明实施例的搜索服务推送方法提供的信息收集***包括:用户终端1和用户数据服务器2,用户终端1和用户数据服务器2分别链接到互联网4,网站3(即万维网服务器)也链接到互联网4。
用户终端1包括个人计算机,网络浏览器5主要提供互联网用户(以下简称用户)与网络的接口功能,用户接口6包括检索装置7、字符输入装置8、超文本标记语言(HTML)显示装置9等。用户终端1包含但不局限个人计算机,也可以是任何装载有网络浏览器的小型移动信息手持终端(如PDA、移动电话等),只要支持网络浏览器5即可。
如图2所示的***流程描述如下:
步骤201,通用资源***(URL)利用字符输入装置8输入到网络浏览器5,检索装置7提供用户接口来使用本发明的信息收集***。
步骤202,用户数据服务器2接收有互联网传递过来的用户数据。检索服务器2包括信息提取装置10和检索表生成装置11。
步骤203,信息提取装置10负责从用户数据中提取内容12(文本内容)、时间13(用户单次访问时间)、次数14(同一网站用户访问次数),然后将提取出的数据发送给检索表生成装置11进行处理。
步骤204,检索表生成装置11中首先由分值计算&排序装置15对信息提取装置10传递过来的用户信息进行计分和排序,然后检索表处理装置16根据排序结果对检索列表进行更新(当不存在检索列表时,首先根据用户信息生成检索列表)。
步骤205,用户数据服务器2将检索列表通过互联网传递给用户的网络浏览器5,网络浏览器5根据检索列表将相关的站通过HTML显示装置9反馈给用户。
图3是本发明实施例的生成和更新网络检索列表过程的流程图。如图3所示,包括如下处理:
步骤301,首先用户终端1的网络浏览器5中的检索装置7将用户的浏览信息传递给用户数据服务器2,信息提取装置10从收集到的用户浏览信息S1中提取出所需的信息S2:内容12(文本内容)、时间13(用户单次访问时间)、次数14(同一网站用户访问次数)。
以下对文本内容提取方法进行简要说明,图4是本发明实施例的文本内容提取的示意图,图5是本发明实施例的文本内容提取的流程图,如图4、5所示,具体的信息提取方式描述如下:
步骤3011、用户数据服务器根据用户通过浏览器提交的URL地址,获取网络服务器上指定的页面。然后根据Table和Div标签用于支持排版的特点把输入的HTML网页分解成多个模块。在这个步骤中比较好的在于是用了Table标签和Div标签这两个用于布局的标签来分解模块,一方面是由于它们是用于网页布局,另一方面也减少了分析网页的复杂度,对诸如span,br这些其他的标签不进行处理,大大的加快了网页的解析速度,减少了***资源的分析。
步骤3012、如果步骤3011中分解的模块还能继续在分解,而且没有出现Table或Div标签混杂的情况,那么再把它送到步骤i>继续分解。
步骤3013、把输入的模块根据在布局中的不同位置给与不同位置得分。
步骤3014、计算每个模块的链接文字长度和每个模块超链接内文本长度。
步骤3015、根据公式:综合得分=位置得分X文字长度/链接文字长度,得出每个模块的综合得分,综合得分最高的模块即为内容模块,将其文本内容提取出来。
在步骤301中,进行上述处理后,还需要进行如下处理:
步骤3016、将用户打开浏览器标签页访问某一网址到关闭该标签页的时间作为一次访问的时间,记录该次时间,并将此次访问的url对应的次数加一。
步骤3017、将步骤5、6获得的文本内容、访问时间、访问次数记录到用户数据服务器中对应的用户账户信息中,作为后续步骤中分值评定和排序的依据。
步骤302,信息提取装置10将S2中提取的各项信息发送给检索表生成装置11的分值计算&排序装置15,首先按照如下的方式进行分值计算和排序:
步骤3021、当检索列表不存在或为空时,该次数据添加进检索列表并将其序列定位最高级;
步骤3022、当检索列表存在时,假设列表中有N(N>0)条记录,将提取的内容与列表中已有内容进行比较,相似程度>90%,取权值1,相似度低于50%,取权值0,其余分别在0~1中取1/N的整数倍,将各权值相加得到M(M<=N);
步骤3023、假设用户访问了X次该条浏览信息,每次访问时间依次为T1、T2、…Tx,则平均每次访问时间T=(T1+T2+…+Tx)/X;
步骤3024、分值Q=该次信息在检索列表中的比重*平均时间,即:Q=(M/N)*T;
步骤3025、将分值Q与检索列表中以存在的各项记录分值进行排序,然后依据排序结果更新检索列表(S4、S5)。
图6是本发明实施例的用户进行网络浏览过程的流程图。如图6所示,具体包括如下处理:
步骤601、在用户浏览网站S11时,会根据用户设置是否开启信息采集S12来选择是否开启本***,部分用户不希望将自己的浏览信息上传至互联网,所以S12是为了尊重用户隐私,提升用户体验。
步骤602、若用户在S12选择否,则不会开启信息提取装置S13,当后续需要用到检索列表S15时,会检查是否有检索列表存在S16,若不存在预设的检索列表,则会提示“无可推荐网站”S17。
步骤603、若用户在S13选择是,则开启信息提取装置S13,并实时采集用户浏览信息,以生成或更新检索列表S14。
步骤604、当用户需要浏览推荐网页S15时,则根据生成的检索列表将相关的网站显示给用户S17。
图7是本发明实施例的生成的检索列表反馈给用户的示意图。如图7所示,具体包括如下处理:
步骤701、当用户需要获取检索结果时,首先通过客户端浏览器向用户数据服务器发送服务请求;
步骤702、用户数据服务器收到服务请求后,将检索表生成装置中存放的对应用户账户的检索列表发送给web服务器;
步骤703、web服务器收到检索列表后,通过搜索引擎检索网络上相应的web站点,并将搜索结果反馈给客户端浏览器,以列表的方式显示给用户。
以下结合实例,对本发明实施例的上述技术方案进行举例说明。
步骤1,用户(对应账户A)在客户端浏览器设置中开启服务选项;
步骤2,用户通过客户端浏览器访问“http://news.***.com/”(百度新闻),访问时长300秒(5分钟);
步骤3,用户数据服务器获取到客户端浏览器的HTTP(超文本传输协议)请求,从网络服务器上获取相应的HTML页面;
步骤4,从获取到的HTML页面中提取出文本内容,例如“百度新闻搜索——全球最大的中文新闻平台,百度新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的新闻热点。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。”等,保存在用户服务器中账户A对应于url地址“http://news.***.com/”的文本栏中,并将此次访问时长300秒保存在账户A对应于url地址“http://news.***.com/”的时间栏中,最后将账户A对应于url地址“http://news.***.com/”的次数栏内容加一,这样就完成了一次用户信息的提取;
步骤5,取出账户A中的检索列表(检索列表中记录内容包括序号、文本内容、分值),若列表内容为空,则将账户A中url地址为“http://news.***.com/”的文本栏中的内容放入检索列表的文本栏中,并将其序号列为1号,分值记录为0;
步骤6,若检索列表不为空(有N条记录,N>0),则将url地址为“http://news.***.com/”的文本栏中的内容依次于检索列表中各条记录进行比较,相似程度>90%,取权值1,相似度低于50%,取权值0,其余分别在0~1中取1/N的整数倍,将各权值相加得到M(M<=N);
步骤7,将账户A中url地址为“http://news.***.com/”的内容所记录的时间除以次数,得到平均时间T;
步骤8,计算本次访问的分值Q=(M/N)*T;
步骤9,依次将所得分值Q与检索列表中的N条记录的分值进行比较,若Q小于第i条的分值Qi,且大于第i+1条的分值Qi+1,则将本次访问的文本内容和分值Q记录进检索列表,序号记录为i+1,并将i+1以后的记录的序号依次加1;
步骤10,若所得分值Q与检索列表中的第i条记录相同,则将本次访问的文本内容和分值记录更新到检索列表的第i条记录,检索列表的其他记录保持不变;
步骤11,若所得分值Q小于检索列表中的所有记录分值,则将本次访问的文本内容和分值记录在检索列表中,其序号定为N+1;
步骤12,将检索列表保持到账户A中,本次更新过程完成,若此时用户通过客户端浏览器访问其他网址,则开始新的检索列表更新过程,否则保持不变;
步骤13,当用户需要获取检索服务时,用户数据服务器将保存在账户A中的检索列表上传到web服务器,通过搜索引擎,将搜索到的web站点反馈给客户端浏览器,显示给用户,完成本次服务。
综上所述,本发明实施例的技术方案是基于对用户浏览信息收集、分值计算、排序的,也就是说本发明实施例的技术方案的输出结果是依赖与用户的网络浏览习惯的,即本发明实施例的技术方案能够根据对用户一段时间内浏览信息的分析,随时的更新输出结果,是一种带有自动学习机制的方法。
根据本发明实施例的技术方案,在用户需要时,可以不再需要用户输入检索条件或相应网址,而直接根据之前用户的浏览习惯提供相关的网站内容,从而实现网页的快速浏览,特别是对输入字符常有严格限制的小型移动信息手持终端(如PDA、移动电话等),本发明实施例的技术方案能够提供更加方便快捷的网络检索服务,提升用户的网络体验。
装置实施例
根据本发明的实施例,提供了一种信息收集装置,图8是本发明实施例的信息收集装置的结构示意图,如图8所示,根据本发明实施例的信息收集装置包括:获取模块80、以及处理模块82,以下对本发明实施例的各个模块进行详细的说明。
获取模块80,用于网络浏览信息;其中,网络浏览信息包括以下至少之一:用户通过客户端向网络服务器发送的站点地址信息、访问的文本内容、用户单次访问时长、同一网站用户访问次数。
处理模块82,用于对网络浏览信息进行评价,根据评价结果对网络浏览信息进行排序,并根据排序结果生成或更新网络检索列表。
处理模块82进一步用于:将生成或更新的网络检索列表保存在用户数据服务器对应的账户中。
处理模块82具体用于:从获取的网络浏览信息中提取出用于分值评定的评价数据;根据预定算法对提取出的评价数据进行分值计算;判断是否存在网络检索列表,在不存在网络检索列表的情况下,生成一个新的网络检索列表,并将网络浏览信息和计算的分值添加到网络检索列表中,并将网络浏览信息的排序设置为最高级;在网络检索列表存在的情况下,根据计算的分值与已存储在网络检索列表中的分值进行比较排序,并根据排序结果更新网络检索列表;将网络浏览信息中的文本内容存储在网络检索列表对应的条目中。
假设网络检索列表有N条记录,将提取的评价数据与网络检索列表中已有评价数据分别进行比较,在相似度大于或等于第一预定阈值的情况下,权值取1,在相似度小于等于第二预定阈值的情况下,权值取0,在相似度小于第一预定阈值且大于第二预定阈值的情况下,权值取1/N的整数倍,将各权值相加得到M,其中,N>0,0<1/N<1,M≤N;假设用户访问了X次该条记录,每次访问的时长依次为T1、T2、…Tx,则平均每次访问时间T=(T1+T2+…+Tx)/X;计算分值Q=(M/N)*T。
依次将分值Q与网络检索列表中的N个条目的分值进行比较,若Q小于第i个条目的分值Qi,且大于第i+1个条目的分值Qi+1,则将本次访问的文本内容和分值Q记录到网络检索列表,序号记录为i+1,并将i+1以后的条目的序号依次加1;
若分值Q与网络检索列表中的第i个条目的分值相同,则将本次访问的文本内容和分值Q记录到网络检索列表的第i条记录,网络检索列表的其他记录保持不变;若分值Q小于网络检索列表中所有条目的分值,则将本次访问的文本内容和分值Q记录在网络检索列表中,其序号设置为N+1。
优选地,上述装置进一步包括:推送模块,用于在用户需要搜索服务时,通过搜索引擎搜索与网络检索列表相匹配的网络站点,并将搜索到的网络站点按照网络检索列表的排序推送给用户。
推送模块具体用于:根据网络检索列表的条目中存储的文本内容,通过搜索引擎搜索与网络检索列表中该条目相匹配的网络站点。
优选地,上述装置进一步包括:开关模块,用于根据用户的操作关闭或开启搜索服务推送装置。
需要说明的是,优选地,信息收集装置可以设置于用户数据服务器中。
本发明实施例的各个模块的详细处理可以参照方法实施例中的描述进行理解,在此不再赘述。
综上所述,本发明实施例的技术方案通过采集用户的网络浏览信息,通过一定的评分判断准则,归纳用户的网络浏览习惯,生成并及时更新相应的检索列表,解决了现有技术中检索结果的保存过于依赖用户的参与缺乏主动性的问题,能够根据用户的浏览习惯快速反馈其感兴趣的相关网站检索结果,提升用户的网络体验。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (15)

1.一种信息收集方法,其特征在于,包括:
获取网络浏览信息;
对所述网络浏览信息进行评价,根据评价结果对所述网络浏览信息进行排序,并根据排序结果生成或更新网络检索列表。
2.如权利要求1所述的方法,其特征在于,所述方法进一步包括:通过搜索引擎搜索与所述网络检索列表相匹配的网络站点,并将搜索到的所述网络站点按照所述网络检索列表的排序进行推送。
3.如权利要求1或2所述的方法,其特征在于,网络浏览信息包括以下至少之一:所述用户通过客户端向网络服务器发送的站点地址信息、访问的文本内容、用户单次访问时长、同一网站用户访问次数。
4.如权利要求1或2所述的方法,其特征在于,所述方法进一步包括:将生成或更新的所述网络检索列表保存在用户数据服务器对应的账户中。
5.如权利要求2所述的方法,其特征在于,对所述网络浏览信息进行评价,根据评价结果对所述网络浏览信息进行排序,并根据排序结果生成或更新网络检索列表具体包括:
从获取的所述网络浏览信息中提取出用于分值评定的评价数据;
根据预定算法对提取出的所述评价数据进行分值计算;
判断是否存在网络检索列表,在不存在网络检索列表的情况下,生成一个新的网络检索列表,并将所述网络浏览信息和计算的分值添加到所述网络检索列表中,并将所述网络浏览信息的排序设置为最高级;在网络检索列表存在的情况下,根据计算的所述分值与已存储在所述网络检索列表中的分值进行比较排序,并根据排序结果更新所述网络检索列表;
将所述网络浏览信息中的文本内容存储在所述网络检索列表对应的条目中。
6.如权利要求5所述的方法,其特征在于,通过搜索引擎搜索与所述网路检索列表相匹配的网络站点具体包括:
根据所述网络检索列表的条目中存储的文本内容,通过搜索引擎搜索与所述网路检索列表中该条目相匹配的网络站点。
7.如权利要求5所述的方法,其特征在于,根据预定算法对提取出的所述评价数据进行分值计算具体包括:
假设所述网络检索列表有N条记录,将提取的所述评价数据与所述网络检索列表中已有评价数据分别进行比较,在相似度大于或等于第一预定阈值的情况下,权值取1,在相似度小于等于第二预定阈值的情况下,权值取0,在相似度小于第一预定阈值且大于第二预定阈值的情况下,权值取1/N的整数倍,将各权值相加得到M,其中,N>0,0<1/N<1,M≤N;
假设用户访问了X次该条记录,每次访问的时长依次为T1、T2、…Tx,则平均每次访问时间T=(T1+T2+…+Tx)/X;
计算分值Q=(M/N)*T。
8.如权利要求7所述的方法,其特征在于,根据计算的所述分值与已存储在所述网络检索列表中的分值进行比较排序,并根据排序结果更新所述网络检索列表具体包括:
依次将所述分值Q与所述网络检索列表中的N个条目的分值进行比较,若Q小于第i个条目的分值Qi,且大于第i+1个条目的分值Qi+1,则将本次访问的文本内容和分值Q记录到所述网络检索列表,序号记录为i+1,并将i+1以后的条目的序号依次加1;
若所述分值Q与所述网络检索列表中的第i个条目的分值相同,则将本次访问的文本内容和分值Q记录到所述网络检索列表的第i条记录,所述网络检索列表的其他记录保持不变;
若所述分值Q小于所述网络检索列表中所有条目的分值,则将本次访问的文本内容和分值Q记录在所述网络检索列表中,其序号设置为N+1。
9.一种信息收集装置,其特征在于,包括:
获取模块,用于获取网络浏览信息;
处理模块,用于对所述网络浏览信息进行评价,根据评价结果对所述网络浏览信息进行排序,并根据排序结果生成或更新网络检索列表。
10.如权利要求9所述的装置,其特征在于,所述装置进一步包括:
推送模块,用于通过搜索引擎搜索与所述网络检索列表相匹配的网络站点,并将搜索到的所述网络站点按照所述网络检索列表的排序进行推送。
11.如权利要求9或10所述的装置,其特征在于,网络浏览信息包括以下至少之一:所述用户通过客户端向网络服务器发送的站点地址信息、访问的文本内容、用户单次访问时长、同一网站用户访问次数。
12.如权利要求9或10所述的装置,其特征在于,所述处理模块进一步用于:将生成或更新的所述网络检索列表保存在用户数据服务器对应的账户中。
13.如权利要求12所述的装置,其特征在于,所述处理模块具体用于:
从获取的所述网络浏览信息中提取出用于分值评定的评价数据;
根据预定算法对提取出的所述评价数据进行分值计算;
判断是否存在网络检索列表,在不存在网络检索列表的情况下,生成一个新的网络检索列表,并将所述网络浏览信息和计算的分值添加到所述网络检索列表中,并将所述网络浏览信息的排序设置为最高级;在网络检索列表存在的情况下,根据计算的所述分值与已存储在所述网络检索列表中的分值进行比较排序,并根据排序结果更新所述网络检索列表;
将所述网络浏览信息中的文本内容存储在所述网络检索列表对应的条目中。
14.如权利要求13所述的装置,其特征在于,所述推送模块具体用于:
根据所述网络检索列表的条目中存储的文本内容,通过搜索引擎搜索与所述网路检索列表中该条目相匹配的网络站点。
15.如权利要求13所述的装置,其特征在于,所述处理模块具体用于:
假设所述网络检索列表有N条记录,将提取的所述评价数据与所述网络检索列表中已有评价数据分别进行比较,在相似度大于或等于第一预定阈值的情况下,权值取1,在相似度小于等于第二预定阈值的情况下,权值取0,在相似度小于第一预定阈值且大于第二预定阈值的情况下,权值取1/N的整数倍,将各权值相加得到M,其中,N>0,0<1/N<1,M≤N;
假设用户访问了X次该条记录,每次访问的时长依次为T1、T2、…Tx,则平均每次访问时间T=(T1+T2+…+Tx)/X;
计算分值Q=(M/N)*T;
依次将所述分值Q与所述网络检索列表中的N个条目的分值进行比较,若Q小于第i个条目的分值Qi,且大于第i+1个条目的分值Qi+1,则将本次访问的文本内容和分值Q记录到所述网络检索列表,序号记录为i+1,并将i+1以后的条目的序号依次加1;
若所述分值Q与所述网络检索列表中的第i个条目的分值相同,则将本次访问的文本内容和分值Q记录到所述网络检索列表的第i条记录,所述网络检索列表的其他记录保持不变;
若所述分值Q小于所述网络检索列表中所有条目的分值,则将本次访问的文本内容和分值Q记录在所述网络检索列表中,其序号设置为N+1。
CN201310495565.7A 2013-10-21 2013-10-21 信息收集方法及装置 Pending CN104572719A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310495565.7A CN104572719A (zh) 2013-10-21 2013-10-21 信息收集方法及装置
US15/030,730 US10346414B2 (en) 2013-10-21 2014-05-23 Information collection method and device
PCT/CN2014/078335 WO2014180393A1 (zh) 2013-10-21 2014-05-23 信息收集方法及装置
MX2016005151A MX2016005151A (es) 2013-10-21 2014-05-23 Metodo y dispositivo de recoleccion de informacion.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310495565.7A CN104572719A (zh) 2013-10-21 2013-10-21 信息收集方法及装置

Publications (1)

Publication Number Publication Date
CN104572719A true CN104572719A (zh) 2015-04-29

Family

ID=51866773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310495565.7A Pending CN104572719A (zh) 2013-10-21 2013-10-21 信息收集方法及装置

Country Status (4)

Country Link
US (1) US10346414B2 (zh)
CN (1) CN104572719A (zh)
MX (1) MX2016005151A (zh)
WO (1) WO2014180393A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341225A (zh) * 2017-06-30 2017-11-10 沈思远 信息智能推送与鉴别方法、装置和***

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11042591B2 (en) 2015-06-23 2021-06-22 Splunk Inc. Analytical search engine
US10866994B2 (en) * 2015-06-23 2020-12-15 Splunk Inc. Systems and methods for instant crawling, curation of data sources, and enabling ad-hoc search
CN107229724B (zh) * 2017-06-05 2020-07-21 成都知道创宇信息技术有限公司 一种基于浏览记录的链接评分方法
CN109255024A (zh) * 2017-07-12 2019-01-22 车伯乐(北京)信息科技有限公司 一种异常用户同党的搜索方法,装置,及***
CN108334729A (zh) * 2017-08-28 2018-07-27 江西博瑞彤芸科技有限公司 健康资讯管理方法及管理***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178728A (zh) * 2007-11-21 2008-05-14 北京搜狗科技发展有限公司 一种网址导航的方法和***
US7983963B2 (en) * 2007-12-28 2011-07-19 Overstock.Com, Inc. System, program product, and method of electronic communication network guided navigation
CN102332020A (zh) * 2011-09-22 2012-01-25 奇智软件(北京)有限公司 一种网址导航页面的生成方法和装置
CN102354315A (zh) * 2011-09-22 2012-02-15 奇智软件(北京)有限公司 一种网址导航页面生成方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735586B2 (en) * 2000-02-08 2004-05-11 Sybase, Inc. System and method for dynamic content retrieval
JP2003208434A (ja) 2001-11-07 2003-07-25 Nec Corp 情報検索システム及びそれに用いる情報検索方法
US20040210560A1 (en) * 2003-04-16 2004-10-21 Shuster Gary Stephen Method and system for searching a wide area network
CN101072251A (zh) 2006-05-08 2007-11-14 松下电器产业株式会社 通话方法、装置及***
CN101093487A (zh) 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 基于html特征的文本内容提取方法
CN100469006C (zh) 2006-12-15 2009-03-11 腾讯科技(深圳)有限公司 一种网络信息推送方法及***
CN101281519B (zh) * 2007-04-02 2015-04-01 北京奇虎科技有限公司 一种评价网络资源价值的方法及其在搜索引擎领域的应用
JP5316158B2 (ja) * 2008-05-28 2013-10-16 株式会社リコー 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
CN102209065A (zh) 2010-03-30 2011-10-05 三星电子(中国)研发中心 一种获取社交网络信息的方法
US8838910B2 (en) * 2010-06-07 2014-09-16 International Business Machines Corporation Multi-part aggregated variable in structured external storage
CN102387207A (zh) * 2011-10-21 2012-03-21 华为技术有限公司 基于用户反馈信息的推送方法和推送***
US20140337404A1 (en) * 2012-02-29 2014-11-13 Google Inc. System and method for providing access points

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178728A (zh) * 2007-11-21 2008-05-14 北京搜狗科技发展有限公司 一种网址导航的方法和***
US7983963B2 (en) * 2007-12-28 2011-07-19 Overstock.Com, Inc. System, program product, and method of electronic communication network guided navigation
CN102332020A (zh) * 2011-09-22 2012-01-25 奇智软件(北京)有限公司 一种网址导航页面的生成方法和装置
CN102354315A (zh) * 2011-09-22 2012-02-15 奇智软件(北京)有限公司 一种网址导航页面生成方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341225A (zh) * 2017-06-30 2017-11-10 沈思远 信息智能推送与鉴别方法、装置和***
CN107341225B (zh) * 2017-06-30 2019-11-19 沈思远 信息智能推送与鉴别方法、装置和***

Also Published As

Publication number Publication date
WO2014180393A1 (zh) 2014-11-13
US20160253328A1 (en) 2016-09-01
US10346414B2 (en) 2019-07-09
MX2016005151A (es) 2016-07-18

Similar Documents

Publication Publication Date Title
CN100476830C (zh) 一种网络资源检索方法及***
CN101256596B (zh) 一种站内导航的方法及***
CN102521251B (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
US10402479B2 (en) Method, server, browser, and system for recommending text information
CN102663064B (zh) 一种收藏夹数据的处理方法及装置
CN104572719A (zh) 信息收集方法及装置
CN103780677A (zh) 信息分类推送的方法及***
CN102708174A (zh) 一种浏览器中的富媒体信息的展示方法和装置
WO2014194689A1 (en) Method, server, browser, and system for recommending text information
CN103428076A (zh) 向多类型终端或应用发送信息的方法和装置
CN102073699A (zh) 用于基于用户行为来改善搜索结果的方法、装置和设备
KR20080111822A (ko) 사용자 검색어를 연동하여 가이드 정보, 랭킹 정보를제공하는 검색지원 정보 시스템.
CN102831199A (zh) 建立兴趣模型的方法及装置
US20100011025A1 (en) Transfer learning methods and apparatuses for establishing additive models for related-task ranking
CN104217031A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN102541853A (zh) 一种利用浏览器地址栏获取应用信息的方法和装置
CN102750352A (zh) 浏览器中分类收藏历史访问记录的方法及装置
KR20100112512A (ko) 검색 장치 및 검색 방법
CN103955842A (zh) 一种面向大规模媒体数据的在线广告推荐***及方法
CN102446191A (zh) 一种用于生成网页内容摘要的方法、设备及***
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
CN101909018A (zh) 根据用户浏览网页返回即时通信群组的方法与***
CN103235827A (zh) 一种科技信息自动分类筛选的方法
CN102624756A (zh) 数据下载终端以及数据下载方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150429

WD01 Invention patent application deemed withdrawn after publication