CN103838797A

CN103838797A - 一种移动搜索引擎优化方法

Info

Publication number: CN103838797A
Application number: CN201210491498.7A
Authority: CN
Inventors: 李勇; 郑世超
Original assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2012-11-27
Filing date: 2012-11-27
Publication date: 2014-06-04

Abstract

本发明提出了一种移动搜索引擎优化方法。包括以下步骤：设计移动搜索引擎框架；建立URL列表；编辑翻译器;设计WAP接口.由于本发明针对移动搜索引擎的现状，在现有互联网搜索引擎的框架上加入移动模块，提出一种利用HTML资源建立移动搜索引擎的方式，该方式通过集中处理网络蜘蛛抓取的HTML网页，将HTML网页进行主题信息提取，再将主题信息转化成手机可以识别的WML页面，并存入WML的快照库中，当用户点击条记录察看具体网页时，***不会直接链接互联网上的该网页，而是链接该网页相对应的WML网页快照,满足用户的移动搜索需求。在实际应用中，使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎，覆盖全国近四十个城市的餐饮、娱乐和黄页信息。

Description

一种移动搜索引擎优化方法

技术领域

本发明涉及移动互联网技术，特别是一种移动搜索引擎的优化方法。

背景技术

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的***。当今，随着无线通讯技术的创新和手机的普及，移动上网渐渐成为发展趋势，为了满足用户随时随地查询衣食住行信息的需求，如何建立移动搜索引擎，成为移动网络应用的热点。移动上网受手机终端和传输带宽的限制，纯HTML文本只有少数智能机型可以支持，大多数手机只识别WAP协议标记的语言，如WML或xHTML。但是，网络信息主要以HTML语言表达，WAP的资源有限，单纯以爬取WAP页面作为信息来源的移动搜索引擎无法提供足够的信息。因此，如何能突破限制，使手机客户也能搜索到来源于HTML的海量信息，成为移动搜索的主要问题之一。对于使用手机浏览HTML页面，一般的方法是加入一个WAP网关，当手机发出浏览HTML网页的请求时，由网关首先读取该网页，并将其转化成相应的WML，再发送到手机。这种方式也是当前将通用搜索引擎扩展为移动搜索引擎的流行方式。但是这种实时翻译的方式，显然对网关的性能和带宽要求较高。

本发明针对移动搜索引擎的现状，在现有互联网搜索引擎的框架上加入移动模块，提出一种利用HTML资源建立移动搜索引擎的方式，该方式通过集中处理网络蜘蛛抓取的HTML网页，对网络蜘蛛抓取的HTML网页进行翻译处理，将其翻译成WML形式的网页快照，生成WML语言的网页快照，满足用户的移动搜索需求。以该技术建立的移动搜索引擎，不需要实时翻译网关的支持，可以方便的扩展已有的搜索引擎***。在实际应用中，使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎，覆盖全国近四十个城市的餐饮、娱乐和黄页信息。

发明内容

根据移动搜索引擎的现状，提出一种移动搜索引擎优化方法，包括以下步骤：

A、设计移动搜索引擎框架

包括以下步骤：本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成，还具有移动模块，作为移动搜索引擎，

它包括三个部分：

翻译器，将蜘蛛抓取的HTML页转化为WML页；

WML网页快照库，保存转化后的WML页；

WAP接口，用手机访问的用户界面；

B、建立URL列表

将抓取到的网页存入网页库，并将网页上的所有超链接存入到URL列表中；

C、编辑翻译器

翻译器具有网页过滤、主题信息过滤和翻译三个部分；

C.1网页过滤

首先将目录页面过滤，不予翻译，根据网页的文本节点数与链接数的比例，来划分页面的性质，存入索引库；

C.2主题信息过滤

提取网页的主题相关部分，选择不依赖于信息源的STU-DOM的树模型，

将网页的table、tr、div和tbody标签结点作为分块结点，对于一个块的取舍用局部相关度Local Correlativity)和上下文相关度Contextual Correlativity来衡量；局部相关度由块内链接和内容决定，其计算公式可以表达为：

LinkCount ({STU}_{i}) = Σ_{j = 1}^{N} LinkCount ({STUC}_{ij})

CountentLenth ({STU}_{i}) = Σ_{j = 1}^{N} ContentLength ({STUC}_{ij})

LocalCorrelativity ({STU}_{i})

= \frac{LinkCount ({STU}_{i})}{CountentLenth ({STU}_{i})}

其中，ContentLength和LinkCount分别表示块内的文字数和链接数，表示的第j个子块；

上下文相关度由块内链接和父块内容决定，其计算公式可以表达为：

Contextual Correlativ  ity ({STU}_{i})

= \frac{LinkCount ({STU}_{i})}{CountentLenth ({STU}_{Pi})}

其中，STU_Pi表示STU_i的父结点；

本设计规定局部相关度阈值是2，而上下文相关度的阈值是70；

C3.将HTML转化WML：

当HTML块转化时，首先要去除WML无法处理的元素，如style、front、script等标签；然后，建立HTML标签与WML标签转化的对应关系表，根据关系列表将HTML转化为手机可读的WML，

在手机上无法一屏显示的文本，需要进行分页处理，并存入WML的快照库中；

D、设计WAP接口

WAP接口是以手机为载体的人机交互查询界面；采用WML或xHTML语言设计，；设计WAP上的内容要尽量简练：在搜索结果的列表页上，条目数最多不超过十条。

与现有技术相比，本发明具有以下有益效果：

1、本发明能突破限制，使手机客户也能搜索到来源于HTML的海量信息，为移动搜索提供更广泛的信息。

2、本发明以该技术建立的移动搜索引擎，不需要实时翻译网关的支持，脱离了对网关的性能和带宽要求较高的问题，可以方便的扩展已有的搜索引擎***。

附图说明

本发明共有附图2幅，其中：

图1是移动搜索引擎体系框架图。

图2是移动搜索界面示意图。

具体实施方式

A、设计移动搜索引擎框架

包括以下步骤：与普通搜索引擎***一样，本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成，加入移动模块，使之成为延伸扩展出来的移动搜索引擎，它包括三个部分：

·翻译器，将蜘蛛抓取的HTML页转化为WML页；

·WML网页快照库，保存转化后的WML页；

·WAP接口，用手机访问的用户界面。

基本框架如图1所示。

B。、建立URL列表

本发明首先由网络蜘蛛开始，定期自动启动抓取互联网网站，将抓取到的网页存入网页库，并将网页上的所有超链接存入到URL列表中。

C、编辑翻译器

由于移动搜索引擎需要快速、直接、精炼的将查询信息返回给用户，但是蜘蛛抓取的网页中不仅存在部分无主题页；而且，即使是有主题的页面通常也有大量的与主题无关的信息。因此直接翻译并不适合，根据移动搜索的特点，根据移动搜索的特点，翻译器被设计成网页过滤、主题信息过滤和翻译三个部分。

C.1网页过滤

首先将目录页面过滤，不予翻译，根据网页的文本节点数与链接数的比例，来划分页面的性质，存入索引库。索引器将己经抓取的网页文档进行分词处理，并按词在网页中出现的位置和频率计算权值，然后将分词结果存入索引库。

C.2主题信息过滤

提取网页的主题相关部分，选择不依赖于信息源的STU-DOM的树模型，将网页的<table>、<tr>、<div>和<tbody>等标签结点作为分块结点，对于一个块的取舍用局部相关度(Local Correlativity)和上下文相关度(Contextual Correlativity)来衡量。局部相关度由块内链接和内容决定，其计算公式可以表达为：

LinkCount ({STU}_{i}) = Σ_{j = 1}^{N} LinkCount ({STUC}_{ij})

CountentLenth ({STU}_{i}) = Σ_{j = 1}^{N} ContentLength ({STUC}_{ij})

LocalCorrelativity ({STU}_{i})

= \frac{LinkCount ({STU}_{i})}{CountentLenth ({STU}_{i})}

其中，ContentLength和LinkCount分别表示块内的文字数和链接数，表示的第j个子块。

Contextual Correlativ  ity ({STU}_{i})

= \frac{LinkCount ({STU}_{i})}{CountentLenth ({STU}_{Pi})}

其中，STU_Pi表示STU_i的父结点。

本设计规定局部相关度阈值是2，而上下文相关度的阈值是70。将HTML网页进行主题信息提取。

C.3将HTML转化WML

当HTML块转化时，首先要去除WML无法处理的元素，如<style>、<front>、<script>等标签。然后，建立HTML标签与WML标签转化的对应关系表，根据关系列表将HTML转化为手机可读的WML，将主题信息转化成手机可以识别的WML页面，对于文字篇幅较大，在手机上无法一屏显示的文本，还需要进行分页处理，并存入WML的快照库中。

D、设计WAP接口

WAP接口是以手机为载体的人机交互查询界面。采用WML或xHTML语言设计，。设计WAP上的内容要尽量简练：在搜索结果的列表页上，条目数最多不超过十条。当用户通过WAP接口查询信息时，检索器首先对用户输入的信息进行分词处理，并检索出所有包含检索词的记录，通过计算网页权重和相关性对查询记录进行排序，进行集合运算，最后提取各网页的摘要信息反馈给查询用户。但当用户点击条记录察看具体网页时，与互联网搜索引擎不同，***不会直接链接互联网上的该网页，而是链接该网页相对应的WML网页快照。

根据本发明设计方法，开发了生活服务领域移动搜索引擎www.zhaocha.mobi。它是在原有的互联网搜索引擎www.zhaocha.com.cn的基础上改进，实现效果如图2所示。

Claims

1.一种移动搜索引擎优化方法，其特征在于：包括以下步骤：

A、设计移动搜索引擎框架

它包括三个部分：

翻译器，将蜘蛛抓取的HTML页转化为WML页；

WML网页快照库，保存转化后的WML页；

WAP接口，用手机访问的用户界面；

B、建立URL列表

C、编辑翻译器

翻译器具有网页过滤、主题信息过滤和翻译三个部分；

C.1网页过滤

C.2主题信息过滤

LinkCount ({STU}_{i}) = Σ_{j = 1}^{N} LinkCount ({STUC}_{ij})

CountentLenth ({STU}_{i}) = Σ_{j = 1}^{N} ContentLength ({STUC}_{ij})

LocalCorrelativity ({STU}_{i})

= \frac{LinkCount ({STU}_{i})}{CountentLenth ({STU}_{i})}

Contextual Correlativ  ity ({STU}_{i})

= \frac{LinkCount ({STU}_{i})}{CountentLenth ({STU}_{Pi})}

其中，STU_Pi表示STU_i的父结点；

C3.将HTML转化WML：

D、设计WAP接口