CN101101605A - 搜索网页的方法、装置及***和建立索引数据库的装置 - Google Patents

搜索网页的方法、装置及***和建立索引数据库的装置 Download PDF

Info

Publication number
CN101101605A
CN101101605A CNA200710136345XA CN200710136345A CN101101605A CN 101101605 A CN101101605 A CN 101101605A CN A200710136345X A CNA200710136345X A CN A200710136345XA CN 200710136345 A CN200710136345 A CN 200710136345A CN 101101605 A CN101101605 A CN 101101605A
Authority
CN
China
Prior art keywords
forum
clue
sign
information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200710136345XA
Other languages
English (en)
Other versions
CN100478962C (zh
Inventor
王伟
李自军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CNB200710136345XA priority Critical patent/CN100478962C/zh
Publication of CN101101605A publication Critical patent/CN101101605A/zh
Application granted granted Critical
Publication of CN100478962C publication Critical patent/CN100478962C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了搜索网页的方法、装置及***和建立索引数据库的装置,使用本发明可以以论坛线索为单元对论坛网页进行分析索引;其中,方法包括:获得用户查询词;从预置索引数据库中查找与所述用户查询词对应的论坛线索;对查询到的所述论坛线索进行格式化处理,输出格式化处理后的论坛线索;本发明还相应的提供了搜索网页的装置、***,以及建立索引数据库的装置等;通过本发明可以根据用户的查询词给用户返回与查询词对应的论坛索引,从而使用户获得以论坛索引为单位的查询结果,而不会返回传统的以论坛网页为单位的查询结果,使返回给用户的查询结果更加准确。

Description

搜索网页的方法、装置及***和建立索引数据库的装置
技术领域
本发明涉及网络技术领域,具体涉及搜索网页的方法、装置及***和建立索引数据库的装置。
背景技术
随着信息检索技术的飞速发展,文本信息检索技术进入了一个比较成熟的阶段,从最原始的关键字匹配到现在的基于上下文的分析、模式匹配、实例匹配以及应用统计策略进行分析等等,已经形成了一套比较完整的思路和完善的算法,并被广泛应用到了各类搜索引擎上。
现有的为用户提供搜索网页的方法是这样的:首先网页收集器通过网络蜘蛛等网页抓取程序从互联网上抓取网页,把网页送入原始网页数据库,网页收集器从网页中提取统一资源定位符(URL:Uniform Resource Locator)交给搜集控制器判断,搜集控制器得到网页的URL,控制网络蜘蛛抓取其它网页,反复循环直到把所有的网页抓取完成。
***从原始网页数据库中得到文本信息,对单个网页进行预处理,送入“文本索引器”模块建立索引,形成索引数据库;同时进行链接信息提取,把链接信息送入链接分析模块建立网页评级,形成链接评级库,其中,链接信息包括锚文本、链接本身等信息。
用户通过提交查询请求给查询服务器,查询服务器在索引数据库中进行相关网页的查找,同时链接评级库把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过查询服务器按照相关度进行排序,并提取关键字的内容摘要,最后通过用户接口格式化查询显示内容返回给用户。
从上可知,由于现有技术是以单个网页内容为单元进行分析索引,虽然对新闻网页等主题信息明确且集中的网页能够获得较好的搜索结果,但是对于单个网页包含了众多的用户讨论信息、且每个讨论信息相对比较短小的论坛讨论组性质的论坛网页来说,由于每个网页包含一个或多个帖子内容,相应的论坛线索(Thread)也分布于一个或多个网页中,则根据现有的以单个网页内容为单元进行分析索引的方式难以获得较好的搜索结果。
发明内容
本发明实施例的目的是提供搜索网页的方法、装置及***和建立索引数据库的装置,使用本发明实施例提供的技术方案,可以以论坛线索为单元对论坛网页进行分析索引。
本发明实施例的目的是通过以下技术方案实现的:
一种搜索网页的方法,包括:
获得用户查询词;
从预置索引数据库中查找与所述用户查询词对应的论坛线索;
对查询到的所述论坛线索进行格式化处理,输出格式化处理后的论坛线索。
一种建立论坛线索数据库的装置,包括:
原始网页获取单元,用于获取未处理的原始网页;
论坛线索模板识别单元,用于使用预置的论坛线索模板库识别出所述原始网页对应的论坛线索模板;
信息提取单元,用于从所述原始网页中提取所述论坛线索模板所标识的信息,所述信息包括论坛标识;
信息保存单元,用于在论坛线索数据库与所述论坛标识对应的表项中保存所述信息。
一种建立索引数据库的装置,包括:
论坛线索获取单元,用于从论坛线索数据库中获取论坛线索标识对应的论坛线索;
关键字集获取单元,用于对所述论坛线索进行预处理,获得表示所述论坛线索的关键字集;
信息保存单元,用于将所述论坛线索和所述关键字集对应保存至索引数据库。
一种搜索网页的装置,包括:
用户查询词获取单元,用于获取用户查询词;
论坛线索查找单元,用于从索引数据库中查找与所述用户查询词对应的论坛线索;
论坛线索输出单元,用于对查询到的所述论坛线索进行格式化处理,将格式化处理后的论坛线索输出给用户。
一种搜索网页的***,包括:
建立论坛线索数据库的装置,用于获取未处理的原始网页;使用预置的论坛线索模板库识别出所述原始网页对应的论坛线索模板;从所述原始网页中提取所述论坛线索模板所标识的信息,所述信息包括论坛标识;在论坛线索数据库与所述论坛标识对应的表项中保存所述信息;
建立索引数据库的装置,用于从所述论坛线索数据库中获取论坛线索标识对应的论坛线索;对所述论坛线索进行预处理,获得表示所述论坛线索的关键字集;将所述论坛线索和所述关键字集对应保存至索引数据库;
搜索网页的装置,用于获得用户查询词;从所述索引数据库中查找与所述用户查询词对应的论坛线索;对查询到的论坛线索进行格式化处理,将格式化处理后的论坛线索输出。
从本发明实施例提供的以上技术方案可以看出,由于本发明实施例可以根据用户的查询词给用户返回与查询词对应的论坛索引,从而使用户获得以论坛索引为单位的查询结果,而不会返回传统的以论坛网页为单位的查询结果,使返回给用户的查询结果更加准确。
附图说明
图1为本发明实施例中建立论坛线索数据库的装置实施例一的结构图;
图2为本发明实施例中建立论坛线索数据库的装置实施例二的结构图;
图3为本发明实施例中建立索引数据库的装置的结构图;
图4为本发明实施例中搜索网页的方法实施例一的流程图;
图5为本发明实施例中搜索网页的方法实施例二的流程图;
图6为本发明实施例中搜索网页的方法实施例三的流程图;
图7为本发明实施例中搜索网页的装置实施例的结构图;
图8为本发明实施例中搜索网页的***实施例的结构图。
具体实施方式
为使本发明的目的、技术方案、及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
本发明实施例提供的建立论坛线索数据库的装置10如图1所示,包括:
原始网页获取单元101,用于获得未处理的原始网页。
原始网页是指从网络上抓取的尚未经过处理的网页,原始网页的获取过程是与现有技术相同的,具体过程如下:网页收集器11通过网络蜘蛛等网页抓取程序遍历web空间,将抓取的网页保存在原始网页数据库13中;其中,网页收集器的抓取过程是受搜集控制器12控制的;
因而在需要获取原始网页时,可以直接从原始网页数据库中获取。
论坛线索模板识别单元102,用于使用预置的论坛线索模板库14识别出原始网页对应的论坛线索模板。
本实施例只描述了能识别出原始网页对应的论坛线索模板的情况,在实际应用中还可能出现识别不出的情况,如果识别不出,则需要对该原始网页做相应的处理,例如可以直接丢弃,或者对其进行分析,得到其对应的论坛线索模板,并将得到的论坛线索模板保存至论坛线索模板库14中;因为原始网页都有其对应的结构特点,因而其都有唯一对应的论坛线索模板。
论坛线索模板库中保存了预定义的论坛线索模板,一种论坛线索模板的可能表项形式如表1所示:
表1、论坛线索模板表
论坛标识 网址URL 原始论坛线索标识提取标识 论坛线索分页提取标识 帖子内容提取标识 ......
论坛(Forum)1  http://bbs.test01.com/ read.php?tid=??&tpage=0&toread=&page=×× read.php?tid=××&fpage=0&toread=&page=?? ××× ......
Forum2 http://bs.test02.com/ ??/ShowPost.aspx?PageIndex=×× ××/ShowPost.aspx?PageIndex=?? ××× ......
......  ...... ...... ......   ...... ......
如表1所示,论坛线索模板表中保存有论坛标识、网址URL、原始论坛线索标识提取标识、论坛线索分页提取标识、帖子内容提取标识等信息,通过这些提取标识可以从原始网页中提取出相应的信息,其中原始论坛线索标识是各个不同网络论坛对其所属的论坛线索分配的标识,在同一个论坛中不会有重复。
在进行识别时,需要先从原始网页中提取论坛线索模板表中描述的信息,例如可以提取原始网页的网址URL等,然后根据提取到的信息与论坛线索模板表中已经保存的信息去匹配;不同论坛由于表示结构组织的参数不同,页面内容区分格式不同,所以需要对不同的论坛内容建立不同的模式匹配信息,使得***可以根据预定义的模式参数获得相关的内容信息;一种可行的实现方式是通过对原始网页的URL地址来分析是否有匹配的论坛线索模板,假设URL为http://bbs.test01.com/read.php?tid=48395&fpage=0&toread=&page=2,通过从中提取出bbs.test01.com匹配到预定义模式中的论坛标识为Forum1的论坛,即可以识别出其对应的论坛线索模板为Forum1表示的论坛线索模板;
信息提取单元103,用于从原始网页中提取论坛线索模板所标识的信息,其中包括论坛标识;
在识别出原始网页对应的论坛线索模板后,则根据匹配到的论坛线索模板,从中提取出该论坛网页包含的论坛线索和帖子的相关数据信息,其中,提取的信息是论坛线索模板中标识的,因为只有在论坛线索模板中标识的信息才会在数据库中有相应的表项,只提取论坛线索模板标识的信息可以保证提取的信息能在数据库保存;具体的信息提取是根据对论坛网页的原始网页的分析,构造信息标识结构来根据不同的结构提取相应的数据,该信息标识结构根据网页的具体实现语言不同而不同,例如以html语言实现可以使用html标签树结构,以xml语言实现可以使用xml标记结构等;例如,本发明实施例提供的html标签树结构的可能形式如下所述:
一种可能的提取帖子内容的标签树如下所示:
<DIV id=main>
   <FORM name=delatc action=masingle.php?action=delatc method=post>
     <DIV class=″t t2″>
       <TR class=tr1>
         <TH class=r_one>
           <DIV class=tpc_content>......</DIV>
        </TH>
      </TR>
    </DIV>
  </FORM>
</DIV>
其中,<DIV class=tpc_content>......</DIV>中的内容为帖子内容;
一种判断是否主题贴的标签树如下所示:
<DIV id=main>
  <FORM name=delatc action=masingle.php?action=delatc method=post>
<A name=tpc></A>
     <DIV class=″t t2″>
        ......
     </DIV>
  </FORM>
</DIV>
若<A name=??></A>中name的值为tpc,则<DIV class=″t t2″>......</DIV>所表示的帖子内容就是主题帖内容;否则就是回复帖;
在提取到信息后,对提取到的信息进行处理,例如回复帖内容小于一个预设值时被过滤,被屏蔽的帖子被过滤等,然后对每一个帖子创建帖子属性对象,产成一个包含该论坛网页帖子内容的帖子属性对象集;帖子属性对象包含的相关数据信息包含但不限于以下内容:帖子标识,所属论坛线索标识、帖子内容、帖子形式(表示该帖子是主题帖还是回复帖)、主题帖类型(例如精华主题,原创,转贴,评论,推荐,公告,知识,投票,其他,活动等)、主题帖标题、发帖用户信息(例如用户ID,用户等级)、所属话题楼层(表示是一个论坛线索中的第几个回复帖,若是主题为0层)、其他额外属性(例如是否置顶,是否加精等);一种可能的方式是通过对原始网页的URL地址分析来获得原始论坛线索标识假设原始网页的URL为http://bbs.test01.com/read.php?tid=48395&fpage=0&toread=&page=2,通过从中提取出原始论坛线索标识为48395;
当然,具体获取哪些信息可以由***根据具体的需要设定,选取的信息中包括论坛标识,论坛标识在论坛线索数据库中是唯一的,通过论坛标识就可以确定论坛标识对应的信息在论坛线索数据库中的位置;
信息保存单元104,用于在论坛线索数据库15与论坛标识对应的表项中保存信息;
在获取了论坛线索模板所标识的信息后,将获取的信息保存到论坛线索数据库与所述论坛标识对应的表项中;
在实际应用中,由于论坛比较大,一个论坛标识会对应多个表项,此时为了保证能够将信息保存到确定的一个表项中,需要进一步获取原始网页对应的原始论坛线索标识,从而可以保证直接查找到与原始网页对应的表项记录,这是因为原始论坛线索标识是各个不同网络论坛对其所属的论坛线索分配的标识,在同一个论坛中不会有重复;在找到与论坛标识对应的表项后,需要进一步在这些表项中查找与原始论坛线索标识对应的一个表项,如果查找到,在已经存在的与原始论坛线索标识对应的表项中更新保存信息;如果查找不到,在论坛线索数据库中新建与原始论坛线索标识对应的表项,并在该新建表项中保存信息;
在实际应用中,还可以为每个原始论坛线索标识分配一个论坛线索标识,论坛线索标识由***自动分配,能够在***中唯一的标识某一论坛标识下的某一个原始论坛线索标识,从而可以通过论坛线索标识查找对应的信息,而不需要通过论坛标识和原始论坛线索标识两个标识来查找对应的信息,可以提高论坛线索数据库的处理效率;
在论坛线索数据库中,一种可能的情况是包括论坛线索表和帖子属性表(当然在实际应用中也可以将这两个表合为一个),其中论坛线索表的一种可能表现形式如表2所示:
表2、论坛线索表
论坛线索标识 论坛标识 原始论坛线索标识 ......
Thread1 Forum1 48395 ......
Thread2 Forum2 2766592 ......
...... ...... ...... ......
通过表2所描述的论坛线索表,可以通过论坛标识和原始论坛线索标识查找到对应的论坛线索标识,也可以根据论坛线索标识查找其对应的论坛标识和原始论坛线索标识;
帖子属性表的一种可能表现形式如表3所示:
表3、帖子属性表
帖子标识 论坛线索标识 帖子内容 帖子形式 主题帖类型 主题帖标题 发帖用户ID   所属话题楼层 ......
1 Thead1 ×× 主题帖 原创 ×× User01   0 ......
2 Thead1 ×× 回复帖 User02   1 ......
...... ...... ...... ...... ...... ...... .......   ...... ......
通过表3所描述的帖子属性表,可以通过论坛线索标识查找其对应的帖子的一些信息;
由于现在网络论坛上,有的人气高的帖子会有很多回复帖,而这些回复帖很可能分布在一个帖子的不同网页上,但是不管一个帖子有多少个网页,其都只对应一个论坛线索,而本实施例使用论坛线索作为处理对象,而不会将归属于同一个论坛线索的多个网页分开处理,使以论坛线索作为搜索对象时的搜索结果更加准确。
本发明进一步提供了建立论坛线索数据库的装置实施例二,如图2所示,建立论坛线索数据库的装置20包括:
原始网页获取单元201,用于获得未处理的原始网页;
论坛线索模板识别单元202,用于使用预置的论坛线索模板库14识别出原始网页对应的论坛线索模板;
信息提取单元203,用于从原始网页中提取论坛线索模板所标识的信息,信息包括论坛标识;
原始论坛线索标识获取单元204,用于从原始网页中提取原始网页对应的原始论坛线索标识;
表项查找单元205,用于从论坛线索数据库15与论坛标识和原始论坛线索标识对应的表项;
信息保存单元206,用于在与论坛标识和原始论坛线索标识对应的表项中保存所述信息;
本实施例中,通过增加的原始论坛线索标识获取单元,可以获取原始网页对应的原始论坛线索标识,通过原始论坛线索标识,可以将提取到的原始网页信息保存到其对应的论坛线索的表项中,从而在一个论坛有多个论坛线索时,可以对每个论坛线索分别处理,从而在查询时可以仅通过论坛线索标识查找到对应的信息,提供***处理效率。
在实际应用中,可能某个原始论坛线索标识对应的表项并不存在,此时需要在建立论坛线索数据库的装置实施例中增加一个表项建立单元,用于在论坛线索数据库中新建与原始论坛线索标识对应的表项;进一步,若在论坛线索数据库中没有与某个论坛标识对应的表项,也可以在论坛线索数据库中新建与论坛标识对应的表项。
本发明实施例提供的建立索引数据库的装置31如图3所示,包括:
论坛线索获取单元311,用于从论坛线索数据库15中获取论坛线索标识对应的论坛线索;
论坛线索获取单元通过向论坛线索数据库发送请求论坛线索的消息,论坛线索数据库在收到该消息后,向论坛线索获取单元返回没有被索引过、或虽被索引过但是索引后已经更新的论坛线索的信息;其中,具体返回的论坛线索的数量可以根据具体需要具体设置;论坛线索数据库可以通过图1所描述的建立论坛线索数据库的装置建立;
关键字集获取单元312,用于对论坛线索进行预处理,获得表示论坛线索标识对应的论坛线索的关键字集;
预处理包括但不限于词语切分和/或过滤,进行词语切分是为了去除没有意义的字词,如“的”等;有些敏感词语是法律或者其他规定所不允许的,所以还需要进行过滤;从而得到最能表示该论坛线索的一些关键字;最主要的是要对帖子内容进行上述操作;
信息保存单元313,用于将论坛线索、关键字集保存至索引数据库32;
通过对原始网页的信息进行词语切分和过滤,可以获得能够标识论坛线索内容的关键字,从而在为用户提供网页搜索时,可以根据关键字查找到对应的论坛线索,从而不会将一个帖子的多个网页分开处理,使以论坛线索作为搜索对象时的搜索结果更加准确。
在实际应用中,为了使索引数据库中保存的信息更加完善,从而为搜索网页时提供更多的信息,可以在建立索引数据库的装置中进一步增加:
用于统计关键字集中关键字的共现频率的共现频率统计单元、和/或用于统计关键字集中关键字的单文本词汇频率的单文本词汇频率统计单元,信息保存单元相应的在索引数据库中保存共现频率、和/或单文本词汇频率;
其中共现频率是针对关键字在论坛线索中的分布位置,统计其在多个帖子中的出现情况;例如,一种简单的统计关键字共现频率的方式可以是这样:对于每一个帖子,只要关键字在其中出现,无论出现多少次,都定义为1,这样如果某个关键字在其中的五个帖子中都出现了,则定义其共现频率为5,即使它在每个帖子中都出现了3次;当然,这只是一种最简单的统计方式,而在实际应用中,根据关键字出现的位置及频率不同,可以分别设置不同的权值,例如出现在主题贴中的权值要比出现在回复帖中的权值高,在一个论坛线索中出现的次数越多则权值越高;
在索引数据库中增加保存关键字的共现频率和/或单文本词汇频率,可以根据共现频率和/或单文本词汇频率排序给用户返回搜索结果,使更能符合用户查询词的论坛线索在前,从而使用户能够较快的获取其想获取的内容,满足用户的需要,提高用户满意度。
本发明实施例提供的一种索引数据库包括论坛线索正向索引表和论坛线索倒排索引表;论坛线索正向表如表4所示:
表4、论坛线索正向索引表
Figure A20071013634500181
如表4所示,论坛线索正向索引表以论坛线索为索引,并分别记录每个论坛索引的关键字集,还记录了关键字集中每个关键字的单文本词汇频率、共现频率等信息;
论坛线索倒排索引表如表5所示:
表5、论坛线索倒排索引表
Figure A20071013634500182
如表5所示,论坛线索倒排索引表以关键字为索引,并分别记录哪些论坛索引有该关键字,以及在该论坛索引中该关键字的单文本词汇频率、共现频率等信息;
表4和表5只是描述了一种实现索引数据库的方式,在实际应用中可能只需要其中的一个表,或者也可以构建更多的表。
本发明进一步提供了搜索网页的方法实施例一,如图4所示,包括:
步骤401、获得用户查询词;
用户需要查询一个内容时,可以通过搜索引擎提供的接口输入相应的查询词;
步骤402、从索引数据库中查找与用户查询词对应的论坛线索;
其中,索引数据库可以通过图2所描述的流程建立;
在获取用户查询词后,就可以以用户查询词作为关键字在索引数据库中查找对应的论坛线索;
进一步,在实际应用中,由于用户输入的用户查询词可能不符合关键字的要求,因而从索引数据库中查找前需要对用户输入的用户查询词进行词语切分和/或过滤,对用户查询词进行词语切分是为了去除用户查询词中没有意义的字词,如“的”等,并且对用户查询词进行词语切分可以得到与关键字相同的词语,使搜索更为准确;有些敏感词语是法律或者其他规定所不允许的,所以还需要对用户查询词进行过滤;
步骤403、对查询到的论坛线索进行格式化处理,输出格式化处理后的论坛线索;
为了使用户能够明了搜索结果中每个论坛线索的信息,需要对论坛线索进行一定的格式化处理,如显示一些帖子内容,将其中的关键字高亮显示等,使用户可以不打开相应的网页链接就可以知道相应的内容,从而让用户尽快的找到想搜索的内容;
使用本实施例提供的技术方案,可以根据用户的查询词给用户返回与查询词对应的论坛索引,从而使用户获得以论坛索引为单位的查询结果,而不会将一个论坛索引的多个网页分开处理,从而使返回给用户的查询结果更加准确。
本发明还提供了搜索网页的方法实施例二,如图5所示,包括:
步骤501、获得用户查询词;
步骤502、对用户查询词进行预处理,获得查询关键字;
步骤503、从索引数据库中查找与查询关键字对应的论坛线索,获取查询关键字的排序信息;
步骤504、对查询到的论坛线索进行格式化处理,将格式化处理后的论坛线索按照排序信息进行排序输出;
在实际应用中,该排序信息可以是共现频率、和/或单文本词汇频率、和/或其他一些例如链接质量、用户点击量信息等其中的一种或其任意组合,若只是一种可以直接按照信息的值或对其进行处理后得到的值进行排序,若是组合,可以按照预置算法计算得到相应的值,按照计算得到的值进行排序;对论坛线索进行排序,便于用户更好的获得搜索结果的信息;
例如,若在只获取单文本词汇频率时,需要统计单文本词汇频率对应的逆文本频率,然后采用采用单文本词汇频率和逆文本频率的比值作为排序的依据;单文本词汇频率和逆文本频率的比值是现有网页搜索技术中使用的较多的信息,代表某个网页中出现的关键字占该网页内容的权重程度,这个值越高,该关键字占该网页内容的权重越大,越能够代表该网页的内容;其中单文本词汇频率(TF:Term Frequency)是用某个网页中关键字出现的次数除以该网页的总字数获得;逆文本频率(IDF:Inverse Document Frequency)表示“逆文本频率指数”,假定一个关键字w在Dw个网页中出现过,那么Dw越大,w的权重越小,反之亦然;它的计算公式为log(D/Dw),其中D是全部网页数;
若只获取共现频率,则可以直接按照共现频率的数值排序;
若在获取TF的同时,还获取共现频率,先要对TF进行处理,得到TF/IDF的值,然后对TF/IDF和共现频率两个值进行处理,从而获得一个能够表示关键字与论坛线索内容的相关度值;一种可行的方法是根据两个值的不同权重进行计算,假设TF/IDF的权重为w1,共现频率的权重为w2(w1+w2=1),则可以通过w1*TF/IDF+w2*共现频率计算得到相关度值;
每个论坛线索都有对应的关键字的共现频率,而关键字的共现频率是能够在一定程度上反映论坛线索与关键字的相关程度的,所以根据共现频率对论坛线索排序,相关程度高的排前面,可以让用户更快的找到其想要找的信息;当几个论坛线索的相关程度相同时,可以对这几个论坛线索随机排序,或者按其在线索数据库中的先后顺序排序,也可以采用其他的方法;
同样,若获取的排序信息既包括TF和共现频率,还包括如链接质量、用户点击量等信息,可以给每个排序信息设置权重,采用相应的算法计算出相关度值;
在本实施例提供的技术方案中,进一步根据论坛索引与用户查询词的相关程度对论坛索引进行排序,从而使与用户查询词越对应的论坛线索排的越前,是用户可以尽快的找到其想查询的信息,提高用户的满意度。
为了更加清楚的描述本发明实施例提供的技术方案的实现过程,本发明实施例进一步提供了搜索网页的方法实施例三,该实施例描述了从获取原始网页开始,到输出网页搜索结果的全部流程,如图六所示,包括:
步骤601、获得未处理的原始网页;
步骤602、使用预置的论坛线索模板库识别出该原始网页对应的论坛线索模板;
步骤603、从该原始网页中提取对应的论坛线索模板所标识的论坛线索;
在实际应用中,提取了论坛线索后可以将该信息保存至论坛线索数据库;
步骤604、对论坛线索进行词语切分和过滤,获得表示所述论坛线索的关键字集;
步骤605、统计关键字集中的关键字的TF和共现频率;
步骤606、将论坛线索、关键字集中的关键字、关键字的TF和共现频率保存至索引数据库;
步骤607、获得用户查询词;
步骤608、对用户查询词进行词语切分和过滤,获得查询关键字;
步骤609、从索引数据库中查找与查询关键字对应的论坛线索;
步骤610、对查询到的论坛线索进行格式化处理;
步骤611、从索引数据库中获取查询关键字的TF和共现频率;
步骤612、统计查询关键字的IDF,计算TF/IDF,使用TF/IDF和共现频率计算查询关键字与论坛线索的相关度值;
IDF是统计当前整个索引数据库中有多少个论坛线索包括该查询关键字;
步骤613、按相关度值排序输出格式化处理后的论坛线索;
使用本实施例,可以在获取原始网页后,确定原始网页对应的论坛线索,提取相应的信息,获得表示论坛线索的关键字集,统计关键字集中的关键字的TF和共现频率,在用户查询关键字与该关键字集中的关键字对应时,可以确定该论坛线索符合用户的需要,当然在索引数据库中会有很多个符合用户需要的论坛线索,因而根据TF/IDF和共现频率得到每个论坛线索与用户查询关键字的相关度值,然后根据相关度值将论坛线索排序输出;使用户得到与用户查询关键字相关的论坛线索,并且论坛线索是根据相关度值排序的,相关度值越高的排在越前,使用户可以尽快的找到其想查询的信息,从而提高用户满意度。
本发明实施例提供搜索网页的装置70,如图7所示,包括:
用户查询词获取单元701,用于获取用户查询词;
论坛线索查找单元702,用于从索引数据库32中查找与用户查询词对应的论坛线索;
论坛线索输出单元703,用于对查询到的论坛线索进行格式化处理,并将格式化处理后的论坛线索输出给用户;
使用本实施例提供的技术方案,可以根据用户的查询词给用户返回与查询词对应的论坛索引,从而使用户获得以论坛索引为单位的查询结果,而不会将一个论坛索引的多个网页分开处理,从而使返回给用户的查询结果更加准确。
进一步,在实际应用中,由于用户输入的用户查询词可能不符合关键字的要求,因而可以在搜索网页的装置实施例中进一步包括:
对用户查询词进行词语切分和过滤处理的查询关键字获取单元,从而获得查询关键字;
论坛线索查找单元,就可以根据查询关键字从索引数据库中查找与查询关键字对应的论坛线索;因查询关键字是通过用户查询词获取的,因而查找的论坛线索也与用户查询词对应;
进一步,为了使用户能够尽快的查找到其想要的信息,可以对输出的论坛线索进行排序,因而还可以在搜索网页的装置实施例中包括:
用于获取论坛线索中查询关键字排序信息的排序信息获取单元;
排序信息可以是TF、和/或共现频率等,在获取了TF信息、共现频率等信息后,论坛线索输出单元,按照计算得到的TF/IDF值、或共现频率值、或计算得到的相关度值对论坛线索进行排序,并按照排序结果将论坛线索输出给用户;从而使与用户查询词越对应的论坛线索排的越前,使用户可以尽快的找到其想查询的信息,提高用户的满意度。
本发明实施例提到的搜索网页的***如图8所示,包括:
建立论坛线索数据库的装置801,用于获得未处理的原始网页;使用预置的论坛线索模板库识别出原始网页对应的论坛线索模板;从原始网页中提取论坛线索模板所标识的信息,信息包括论坛标识;在论坛线索数据库与论坛标识对应的表项中保存所述信息;
建立索引数据库的装置802,用于从论坛线索数据库中获取论坛线索标识对应的论坛线索;对论坛线索进行词语切分和过滤操作,获得表示论坛线索的关键字集;将论坛线索、关键字集保存至索引数据库;
搜索网页的装置803,用于获得用户查询词;从索引数据库中查找与所述用户查询词对应的论坛线索;对查询到的所述论坛线索进行格式化处理,并将格式化处理后的论坛线索输出。
使用本实施例提供的技术方案,可以根据用户的查询词给用户返回与查询词对应的论坛索引,从而使用户获得以论坛索引为单位的查询结果,而不会将一个论坛索引的多个网页分开处理,从而使返回给用户的查询结果更加准确。
可以理解的是,可以将本发明实施例提供的搜索网页的方法、装置及***应用到网页搜索引擎中,该网页搜索引擎可以是单一的论坛搜索引擎,也可以是综合搜索引擎,从而使搜索引擎可以在对论坛网页进行搜索时使用论坛线索为单位进行处理,提高搜索引擎所返回信息的准确性,提供用户满意度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括如下步骤:
获得用户查询词;
从索引数据库中查找与所述用户查询词对应的论坛线索;
对查询到的所述论坛线索进行格式化处理,输出格式化处理后的论坛线索;
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明实施例所提供的搜索网页的方法、装置及***和建立索引数据库的装置进行了详细介绍,以上实施例的说明只是用于帮助理解本发明的方法及其思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (25)

1、一种搜索网页的方法,其特征在于,包括:
获得用户查询词;
从预置索引数据库中查找与所述用户查询词对应的论坛线索;
对查询到的所述论坛线索进行格式化处理,输出格式化处理后的论坛线索。
2、如权利要求1所述的搜索网页的方法,其特征在于,获得用户查询词后进一步包括:
对所述用户查询词进行预处理,获得查询关键字;
根据所述查询关键字从索引数据库中查找与所述用户查询词对应的论坛线索。
3、如权利要求2所述的搜索网页的方法,其特征在于,输出格式化处理后的论坛线索前进一步包括:
获取所述论坛线索中所述查询关键字的排序信息;
按照所述排序信息排序输出所述格式化处理后的论坛线索。
4、如权利要求3所述的搜索网页的方法,其特征在于,若所述排序信息为单文本词汇频率,所述按照排序信息排序输出所述格式化处理后的论坛线索具体为:
统计与所述单文本词汇频率对应的逆文本频率;
按照所述单文本词汇频率与逆文本频率的比值排序,输出所述格式化处理后的论坛线索。
5、如权利要求3所述的搜索网页的方法,其特征在于,若所述排序信息为共现频率,按照所述共现频率排序输出所述格式化处理后的论坛线索。
6、如权利要求3所述的搜索网页的方法,其特征在于,若所述排序信息为单文本词汇频率和共现频率,所述按照排序信息排序输出所述格式化处理后的论坛线索具体为:
将所述单文本词汇频率和共现频率按预置算法,计算所述查询关键字与所述论坛线索的相关度值;
按照所述相关度值排序输出所述格式化处理后的论坛线索。
7、如权利要求1所述的搜索网页的方法,其特征在于,所述索引数据库通过如下流程建立:
从论坛线索数据库中获取论坛线索标识对应的论坛线索;
对所述论坛线索进行预处理,获得表示所述论坛线索的关键字集;
将所述论坛线索和所述关键字集对应保存至索引数据库。
8、如权利要求7所述的搜索网页的方法,其特征在于,进一步统计所述关键字集中关键字的共现频率;
进一步在所述索引数据库中保存所述共现频率。
9、如权利要求7或8所述的搜索网页的方法,其特征在于,进一步统计所述关键字集中关键字的单文本词汇频率;
进一步在所述索引数据库中保存所述单文本词汇频率。
10、如权利要求7或8所述的搜索网页的方法,其特征在于,所述索引数据库采用如下流程建立:
获得未处理的原始网页;
使用预置的论坛线索模板库识别出所述原始网页对应的论坛线索模板;
从所述原始网页中提取所述论坛线索模板所标识的信息,所述信息包括论坛标识;
在论坛线索数据库与所述论坛标识对应的表项中保存所述信息。
11、如权利要求10所述的搜索网页的方法,其特征在于,进一步从所述原始网页中提取所述原始网页对应的原始论坛线索标识;
在论坛线索数据库与所述论坛标识对应的表项中保存所述信息前进一步包括:
从论坛线索数据库查找与所述论坛标识和所述原始论坛线索标识对应的表项,在与所述论坛标识和所述原始论坛线索标识对应的表项中保存所述信息。
12、如权利要求11所述的搜索网页的方法,其特征在于,在与所述论坛标识和所述原始论坛线索标识对应的表项中保存所述信息前进一步包括:
判断与所述原始论坛线索标识对应的表项是否存在,如果是,进入在与所述论坛标识和所述原始论坛线索标识对应的表项中保存所述信息的步骤;如果否,在所述论坛线索数据库中新建与所述论坛标识和所述原始论坛线索标识对应的表项,进入在与所述论坛标识和所述原始论坛线索标识对应的表项中保存所述信息的步骤。
13、如权利要求7或8所述的搜索网页的方法,其特征在于,对所述论坛线索进行预处理,获得表示所述论坛线索的关键字集具体为:
对所述论坛线索进行词语拆分和/或过滤,获得表示所述论坛线索的关键字集。
14、一种建立论坛线索数据库的装置,其特征在于,包括:
原始网页获取单元,用于获取未处理的原始网页;
论坛线索模板识别单元,用于使用预置的论坛线索模板库识别出所述原始网页对应的论坛线索模板;
信息提取单元,用于从所述原始网页中提取所述论坛线索模板所标识的信息,所述信息包括论坛标识;
信息保存单元,用于在论坛线索数据库与所述论坛标识对应的表项中保存所述信息。
15、如权利要求14所述的建立论坛线索数据库的装置,其特征在于,进一步包括:
原始论坛线索标识获取单元,用于从所述原始网页中提取所述原始网页对应的原始论坛线索标识;
表项查找单元,用于从论坛线索数据库查找与所述论坛标识和所述原始论坛线索标识对应的表项;
所述信息保存单元用于在与所述论坛标识和所述原始论坛线索标识对应的表项中保存所述信息。
16、如权利要求15所述的建立论坛线索数据库的装置,其特征在于,若所述表项查找单元没有查找到所述与所述论坛标识和所述原始论坛线索标识对应的表项,进一步包括:
表项建立单元,用于在所述论坛线索数据库中新建与所述论坛标识和所述原始论坛线索标识对应的表项。
17、一种建立索引数据库的装置,其特征在于,包括:
论坛线索获取单元,用于从论坛线索数据库中获取论坛线索标识对应的论坛线索;
关键字集获取单元,用于对所述论坛线索进行预处理,获得表示所述论坛线索的关键字集;
信息保存单元,用于将所述论坛线索和所述关键字集对应保存至索引数据库。
18、如权利要求17所述的建立索引数据库的装置,其特征在于,还包括:
共现频率统计单元,用于统计所述关键字集中关键字的共现频率;
所述信息保存单元还用于将所述共现频率保存至所述索引数据库。
19、如权利要求17或18所述的建立索引数据库的装置,其特征在于,还包括:
单文本词汇频率统计单元,用于统计所述关键字集中关键字的单文本词汇频率;
所述信息保存单元还用于将所述单文本词汇频率保存至所述索引数据库。
20、一种搜索网页的装置,其特征在于,包括:
用户查询词获取单元,用于获取用户查询词;
论坛线索查找单元,用于从索引数据库中查找与所述用户查询词对应的论坛线索;
论坛线索输出单元,用于对查询到的所述论坛线索进行格式化处理,将格式化处理后的论坛线索输出给用户。
21、如权利要求20所述的搜索网页的装置,其特征在于,进一步包括:
查询关键字获取单元,用于对所述用户查询词进行预处理,获得查询关键字;
所述论坛线索查找单元,用于根据所述查询关键字从索引数据库中查找与所述用户查询词对应的论坛线索。
22、如权利要求21所述的搜索网页的装置,其特征在于,进一步包括:
排序信息获取单元,用于获取所述论坛线索中所述查询关键字的单文本词汇频率;
计算单元,用于采用统计得到的与所述单文本词汇频率对应的逆文本频率,计算所述单文本词汇频率与逆文本频率的比值;
所述论坛线索输出单元,用于按照所述单文本词汇频率与逆文本频率的比值排序输出所述格式化处理后的论坛线索。
23、如权利要求21所述的搜索网页的装置,其特征在于,进一步包括:
排序信息获取单元,用于获取所述论坛线索中所述查询关键字的共现频率;
所述论坛线索输出单元,用于按照所述共现频率排序输出所述格式化处理后的论坛线索。
24、如权利要求21所述的搜索网页的装置,其特征在于,进一步包括:
排序信息获取单元,用于获取所述论坛线索中所述查询关键字的单文本词汇频率和共现频率;
相关度值计算单元,用于根据所述单文本词汇频率和共现频率,采用预置算法算出所述查询关键字与所述论坛线索的相关度值;
所述论坛线索输出单元,用于按照所述相关度值排序输出所述格式化处理后的论坛线索。
25、一种搜索网页的***,其特征在于,包括:
建立论坛线索数据库的装置,用于获取未处理的原始网页;使用预置的论坛线索模板库识别出所述原始网页对应的论坛线索模板;从所述原始网页中提取所述论坛线索模板所标识的信息,所述信息包括论坛标识;在论坛线索数据库与所述论坛标识对应的表项中保存所述信息;
建立索引数据库的装置,用于从所述论坛线索数据库中获取论坛线索标识对应的论坛线索;对所述论坛线索进行预处理,获得表示所述论坛线索的关键字集;将所述论坛线索和所述关键字集对应保存至索引数据库;
搜索网页的装置,用于获得用户查询词;从所述索引数据库中查找与所述用户查询词对应的论坛线索;对查询到的论坛线索进行格式化处理,将格式化处理后的论坛线索输出。
CNB200710136345XA 2007-07-24 2007-07-24 搜索网页的方法、装置及***和建立索引数据库的装置 Active CN100478962C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200710136345XA CN100478962C (zh) 2007-07-24 2007-07-24 搜索网页的方法、装置及***和建立索引数据库的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200710136345XA CN100478962C (zh) 2007-07-24 2007-07-24 搜索网页的方法、装置及***和建立索引数据库的装置

Publications (2)

Publication Number Publication Date
CN101101605A true CN101101605A (zh) 2008-01-09
CN100478962C CN100478962C (zh) 2009-04-15

Family

ID=39035877

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200710136345XA Active CN100478962C (zh) 2007-07-24 2007-07-24 搜索网页的方法、装置及***和建立索引数据库的装置

Country Status (1)

Country Link
CN (1) CN100478962C (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102317943A (zh) * 2011-07-29 2012-01-11 华为技术有限公司 一种全文搜索的方法和装置
CN101639831B (zh) * 2008-07-29 2012-09-05 华为技术有限公司 一种搜索方法、装置及***
CN102737042A (zh) * 2011-04-08 2012-10-17 北京百度网讯科技有限公司 建立问句生成模型的方法和装置以及问句生成方法和装置
CN102831186A (zh) * 2012-08-02 2012-12-19 深圳市同洲电子股份有限公司 一种存储及查找网页的方法及装置
CN103581280A (zh) * 2012-08-30 2014-02-12 网之易信息技术(北京)有限公司 一种基于微博平台的界面交互方法和设备
WO2014132265A2 (en) * 2013-02-14 2014-09-04 Gyan Prakash Kesarwani An improved system and method of scanning a search engine depending on the importance of the keywords and producing an effective output
CN102171689B (zh) * 2008-08-01 2015-02-11 谷歌公司 用于提供搜索结果的方法、***
CN104951449A (zh) * 2014-03-26 2015-09-30 腾讯科技(深圳)有限公司 数据处理方法及装置
CN105912545A (zh) * 2015-12-15 2016-08-31 乐视网信息技术(北京)股份有限公司 用于媒体资源检索的设备、方法及***
CN109977699A (zh) * 2019-03-26 2019-07-05 贝富(广州)新技术有限公司 基于区块链的房屋产权信息存储方法、***以及存储介质
CN112052476A (zh) * 2020-08-27 2020-12-08 安徽国戎科技有限公司 一种军事案例数据管理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021040003A1 (ja) * 2019-08-30 2021-03-04 データ・サイエンティスト株式会社 コンテンツ配置方法、webサイト構築支援方法及び経済規模出力方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639831B (zh) * 2008-07-29 2012-09-05 华为技术有限公司 一种搜索方法、装置及***
CN102171689B (zh) * 2008-08-01 2015-02-11 谷歌公司 用于提供搜索结果的方法、***
CN102737042A (zh) * 2011-04-08 2012-10-17 北京百度网讯科技有限公司 建立问句生成模型的方法和装置以及问句生成方法和装置
CN102737042B (zh) * 2011-04-08 2015-03-25 北京百度网讯科技有限公司 建立问句生成模型的方法和装置以及问句生成方法和装置
CN102317943A (zh) * 2011-07-29 2012-01-11 华为技术有限公司 一种全文搜索的方法和装置
CN102831186A (zh) * 2012-08-02 2012-12-19 深圳市同洲电子股份有限公司 一种存储及查找网页的方法及装置
CN103581280A (zh) * 2012-08-30 2014-02-12 网之易信息技术(北京)有限公司 一种基于微博平台的界面交互方法和设备
WO2014132265A3 (en) * 2013-02-14 2015-01-22 Gyan Prakash Kesarwani An improved system and method of scanning a search engine depending on the importance of the keywords and producing an effective output
WO2014132265A2 (en) * 2013-02-14 2014-09-04 Gyan Prakash Kesarwani An improved system and method of scanning a search engine depending on the importance of the keywords and producing an effective output
CN104951449A (zh) * 2014-03-26 2015-09-30 腾讯科技(深圳)有限公司 数据处理方法及装置
CN104951449B (zh) * 2014-03-26 2020-12-01 腾讯科技(深圳)有限公司 数据处理方法及装置
CN105912545A (zh) * 2015-12-15 2016-08-31 乐视网信息技术(北京)股份有限公司 用于媒体资源检索的设备、方法及***
WO2017101425A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 用于媒体资源检索的设备、方法及***
CN109977699A (zh) * 2019-03-26 2019-07-05 贝富(广州)新技术有限公司 基于区块链的房屋产权信息存储方法、***以及存储介质
CN112052476A (zh) * 2020-08-27 2020-12-08 安徽国戎科技有限公司 一种军事案例数据管理方法

Also Published As

Publication number Publication date
CN100478962C (zh) 2009-04-15

Similar Documents

Publication Publication Date Title
CN100478962C (zh) 搜索网页的方法、装置及***和建立索引数据库的装置
CN101520784B (zh) 信息发布***和信息发布方法
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和***
CN102171689B (zh) 用于提供搜索结果的方法、***
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN102073725B (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎***
CN102402604B (zh) 搜索引擎的有效前向排序
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN102073726B (zh) 搜索引擎***的结构化数据的引入方法和装置
CN101169780A (zh) 一种基于语义本体的检索***和方法
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN107885793A (zh) 一种微博热点话题分析预测方法及***
CN103914478A (zh) 网页训练方法及***、网页预测方法及***
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN103870973A (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN101118554A (zh) 智能交互式问答***及其处理方法
CN102999625A (zh) 一种检索请求语义扩展方法
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN104077407A (zh) 一种智能数据搜索***及方法
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其***
CN103559258A (zh) 基于云计算的网页排序方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY CO

Free format text: FORMER OWNER: HUAWEI TECHNOLOGY CO., LTD.

Effective date: 20150619

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150619

Address after: 100101, No. 8 West Beichen Road, Beijing, Beichen Century Center, block A, 10, Chaoyang District

Patentee after: Beijing Jingdong Shangke Information Technology Co., Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: Huawei Technologies Co., Ltd.