CN103838797A - 一种移动搜索引擎优化方法 - Google Patents

一种移动搜索引擎优化方法 Download PDF

Info

Publication number
CN103838797A
CN103838797A CN201210491498.7A CN201210491498A CN103838797A CN 103838797 A CN103838797 A CN 103838797A CN 201210491498 A CN201210491498 A CN 201210491498A CN 103838797 A CN103838797 A CN 103838797A
Authority
CN
China
Prior art keywords
wml
search engine
stu
mobile
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210491498.7A
Other languages
English (en)
Inventor
李勇
郑世超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd filed Critical DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201210491498.7A priority Critical patent/CN103838797A/zh
Publication of CN103838797A publication Critical patent/CN103838797A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出了一种移动搜索引擎优化方法。包括以下步骤:设计移动搜索引擎框架;建立URL列表;编辑翻译器;设计WAP接口.由于本发明针对移动搜索引擎的现状,在现有互联网搜索引擎的框架上加入移动模块,提出一种利用HTML资源建立移动搜索引擎的方式,该方式通过集中处理网络蜘蛛抓取的HTML网页,将HTML网页进行主题信息提取,再将主题信息转化成手机可以识别的WML页面,并存入WML的快照库中,当用户点击条记录察看具体网页时,***不会直接链接互联网上的该网页,而是链接该网页相对应的WML网页快照,满足用户的移动搜索需求。在实际应用中,使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎,覆盖全国近四十个城市的餐饮、娱乐和黄页信息。

Description

一种移动搜索引擎优化方法
技术领域
本发明涉及移动互联网技术,特别是一种移动搜索引擎的优化方法。
背景技术
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的***。当今,随着无线通讯技术的创新和手机的普及,移动上网渐渐成为发展趋势,为了满足用户随时随地查询衣食住行信息的需求,如何建立移动搜索引擎,成为移动网络应用的热点。移动上网受手机终端和传输带宽的限制,纯HTML文本只有少数智能机型可以支持,大多数手机只识别WAP协议标记的语言,如WML或xHTML。但是,网络信息主要以HTML语言表达,WAP的资源有限,单纯以爬取WAP页面作为信息来源的移动搜索引擎无法提供足够的信息。因此,如何能突破限制,使手机客户也能搜索到来源于HTML的海量信息,成为移动搜索的主要问题之一。对于使用手机浏览HTML页面,一般的方法是加入一个WAP网关,当手机发出浏览HTML网页的请求时,由网关首先读取该网页,并将其转化成相应的WML,再发送到手机。这种方式也是当前将通用搜索引擎扩展为移动搜索引擎的流行方式。但是这种实时翻译的方式,显然对网关的性能和带宽要求较高。
本发明针对移动搜索引擎的现状,在现有互联网搜索引擎的框架上加入移动模块,提出一种利用HTML资源建立移动搜索引擎的方式,该方式通过集中处理网络蜘蛛抓取的HTML网页,对网络蜘蛛抓取的HTML网页进行翻译处理,将其翻译成WML形式的网页快照,生成WML语言的网页快照,满足用户的移动搜索需求。以该技术建立的移动搜索引擎,不需要实时翻译网关的支持,可以方便的扩展已有的搜索引擎***。在实际应用中,使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎,覆盖全国近四十个城市的餐饮、娱乐和黄页信息。
发明内容
根据移动搜索引擎的现状,提出一种移动搜索引擎优化方法,包括以下步骤:
A、设计移动搜索引擎框架
包括以下步骤:本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成,还具有移动模块,作为移动搜索引擎,
它包括三个部分:
翻译器,将蜘蛛抓取的HTML页转化为WML页;
WML网页快照库,保存转化后的WML页;
WAP接口,用手机访问的用户界面;
B、建立URL列表
将抓取到的网页存入网页库,并将网页上的所有超链接存入到URL列表中;
C、编辑翻译器
翻译器具有网页过滤、主题信息过滤和翻译三个部分;
C.1网页过滤
首先将目录页面过滤,不予翻译,根据网页的文本节点数与链接数的比例,来划分页面的性质,存入索引库;
C.2主题信息过滤
提取网页的主题相关部分,选择不依赖于信息源的STU-DOM的树模型,
将网页的table、tr、div和tbody标签结点作为分块结点,对于一个块的取舍用局部相关度Local Correlativity)和上下文相关度Contextual Correlativity来衡量;局部相关度由块内链接和内容决定,其计算公式可以表达为:
LinkCount ( STU i ) = Σ j = 1 N LinkCount ( STUC ij )
CountentLenth ( STU i ) = Σ j = 1 N ContentLength ( STUC ij )
LocalCorrelativity ( STU i )
= LinkCount ( STU i ) CountentLenth ( STU i )
其中,ContentLength和LinkCount分别表示块内的文字数和链接数,表示的第j个子块;
上下文相关度由块内链接和父块内容决定,其计算公式可以表达为:
Contextual Correlativ ity ( STU i )
= LinkCount ( STU i ) CountentLenth ( STU Pi )
其中,STUPi表示STUi的父结点;
本设计规定局部相关度阈值是2,而上下文相关度的阈值是70;
C3.将HTML转化WML:
当HTML块转化时,首先要去除WML无法处理的元素,如style、front、script等标签;然后,建立HTML标签与WML标签转化的对应关系表,根据关系列表将HTML转化为手机可读的WML,
在手机上无法一屏显示的文本,需要进行分页处理,并存入WML的快照库中;
D、设计WAP接口
WAP接口是以手机为载体的人机交互查询界面;采用WML或xHTML语言设计,;设计WAP上的内容要尽量简练:在搜索结果的列表页上,条目数最多不超过十条。
与现有技术相比,本发明具有以下有益效果:
1、本发明能突破限制,使手机客户也能搜索到来源于HTML的海量信息,为移动搜索提供更广泛的信息。
2、本发明以该技术建立的移动搜索引擎,不需要实时翻译网关的支持,脱离了对网关的性能和带宽要求较高的问题,可以方便的扩展已有的搜索引擎***。
附图说明
本发明共有附图2幅,其中:
图1是移动搜索引擎体系框架图。
图2是移动搜索界面示意图。
具体实施方式
A、设计移动搜索引擎框架
包括以下步骤:与普通搜索引擎***一样,本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成,加入移动模块,使之成为延伸扩展出来的移动搜索引擎,它包括三个部分:
·翻译器,将蜘蛛抓取的HTML页转化为WML页;
·WML网页快照库,保存转化后的WML页;
·WAP接口,用手机访问的用户界面。
基本框架如图1所示。
B。、建立URL列表
本发明首先由网络蜘蛛开始,定期自动启动抓取互联网网站,将抓取到的网页存入网页库,并将网页上的所有超链接存入到URL列表中。
C、编辑翻译器
由于移动搜索引擎需要快速、直接、精炼的将查询信息返回给用户,但是蜘蛛抓取的网页中不仅存在部分无主题页;而且,即使是有主题的页面通常也有大量的与主题无关的信息。因此直接翻译并不适合,根据移动搜索的特点,根据移动搜索的特点,翻译器被设计成网页过滤、主题信息过滤和翻译三个部分。
C.1网页过滤
首先将目录页面过滤,不予翻译,根据网页的文本节点数与链接数的比例,来划分页面的性质,存入索引库。索引器将己经抓取的网页文档进行分词处理,并按词在网页中出现的位置和频率计算权值,然后将分词结果存入索引库。
C.2主题信息过滤
提取网页的主题相关部分,选择不依赖于信息源的STU-DOM的树模型,将网页的<table>、<tr>、<div>和<tbody>等标签结点作为分块结点,对于一个块的取舍用局部相关度(Local Correlativity)和上下文相关度(Contextual Correlativity)来衡量。局部相关度由块内链接和内容决定,其计算公式可以表达为:
LinkCount ( STU i ) = &Sigma; j = 1 N LinkCount ( STUC ij )
CountentLenth ( STU i ) = &Sigma; j = 1 N ContentLength ( STUC ij )
LocalCorrelativity ( STU i )
= LinkCount ( STU i ) CountentLenth ( STU i )
其中,ContentLength和LinkCount分别表示块内的文字数和链接数,表示的第j个子块。
上下文相关度由块内链接和父块内容决定,其计算公式可以表达为:
Contextual Correlativ ity ( STU i )
= LinkCount ( STU i ) CountentLenth ( STU Pi )
其中,STUPi表示STUi的父结点。
本设计规定局部相关度阈值是2,而上下文相关度的阈值是70。将HTML网页进行主题信息提取。
C.3将HTML转化WML
当HTML块转化时,首先要去除WML无法处理的元素,如<style>、<front>、<script>等标签。然后,建立HTML标签与WML标签转化的对应关系表,根据关系列表将HTML转化为手机可读的WML,将主题信息转化成手机可以识别的WML页面,对于文字篇幅较大,在手机上无法一屏显示的文本,还需要进行分页处理,并存入WML的快照库中。
D、设计WAP接口
WAP接口是以手机为载体的人机交互查询界面。采用WML或xHTML语言设计,。设计WAP上的内容要尽量简练:在搜索结果的列表页上,条目数最多不超过十条。当用户通过WAP接口查询信息时,检索器首先对用户输入的信息进行分词处理,并检索出所有包含检索词的记录,通过计算网页权重和相关性对查询记录进行排序,进行集合运算,最后提取各网页的摘要信息反馈给查询用户。但当用户点击条记录察看具体网页时,与互联网搜索引擎不同,***不会直接链接互联网上的该网页,而是链接该网页相对应的WML网页快照。
根据本发明设计方法,开发了生活服务领域移动搜索引擎www.zhaocha.mobi。它是在原有的互联网搜索引擎www.zhaocha.com.cn的基础上改进,实现效果如图2所示。

Claims (1)

1.一种移动搜索引擎优化方法,其特征在于:包括以下步骤:
A、设计移动搜索引擎框架
包括以下步骤:本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成,还具有移动模块,作为移动搜索引擎,
它包括三个部分:
翻译器,将蜘蛛抓取的HTML页转化为WML页;
WML网页快照库,保存转化后的WML页;
WAP接口,用手机访问的用户界面;
B、建立URL列表
将抓取到的网页存入网页库,并将网页上的所有超链接存入到URL列表中;
C、编辑翻译器
翻译器具有网页过滤、主题信息过滤和翻译三个部分;
C.1网页过滤
首先将目录页面过滤,不予翻译,根据网页的文本节点数与链接数的比例,来划分页面的性质,存入索引库;
C.2主题信息过滤
提取网页的主题相关部分,选择不依赖于信息源的STU-DOM的树模型,
将网页的table、tr、div和tbody标签结点作为分块结点,对于一个块的取舍用局部相关度Local Correlativity)和上下文相关度Contextual Correlativity来衡量;局部相关度由块内链接和内容决定,其计算公式可以表达为:
LinkCount ( STU i ) = &Sigma; j = 1 N LinkCount ( STUC ij )
CountentLenth ( STU i ) = &Sigma; j = 1 N ContentLength ( STUC ij )
LocalCorrelativity ( STU i )
= LinkCount ( STU i ) CountentLenth ( STU i )
其中,ContentLength和LinkCount分别表示块内的文字数和链接数,表示的第j个子块;
上下文相关度由块内链接和父块内容决定,其计算公式可以表达为:
Contextual Correlativ ity ( STU i )
= LinkCount ( STU i ) CountentLenth ( STU Pi )
其中,STUPi表示STUi的父结点;
本设计规定局部相关度阈值是2,而上下文相关度的阈值是70;
C3.将HTML转化WML:
当HTML块转化时,首先要去除WML无法处理的元素,如style、front、script等标签;然后,建立HTML标签与WML标签转化的对应关系表,根据关系列表将HTML转化为手机可读的WML,
在手机上无法一屏显示的文本,需要进行分页处理,并存入WML的快照库中;
D、设计WAP接口
WAP接口是以手机为载体的人机交互查询界面;采用WML或xHTML语言设计,;设计WAP上的内容要尽量简练:在搜索结果的列表页上,条目数最多不超过十条。
CN201210491498.7A 2012-11-27 2012-11-27 一种移动搜索引擎优化方法 Pending CN103838797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210491498.7A CN103838797A (zh) 2012-11-27 2012-11-27 一种移动搜索引擎优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210491498.7A CN103838797A (zh) 2012-11-27 2012-11-27 一种移动搜索引擎优化方法

Publications (1)

Publication Number Publication Date
CN103838797A true CN103838797A (zh) 2014-06-04

Family

ID=50802306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210491498.7A Pending CN103838797A (zh) 2012-11-27 2012-11-27 一种移动搜索引擎优化方法

Country Status (1)

Country Link
CN (1) CN103838797A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106802914A (zh) * 2016-12-06 2017-06-06 中国电子科技集团公司第三十二研究所 启发式多特征规则集网页分块方法
CN107807937A (zh) * 2016-09-09 2018-03-16 阿里巴巴集团控股有限公司 一种网站seo处理方法、装置及***
CN108062338A (zh) * 2016-11-09 2018-05-22 北京国双科技有限公司 一种评估功能页面的导航能力的方法及装置
CN113641884A (zh) * 2021-08-10 2021-11-12 南方电网数字电网研究院有限公司 基于语义的电力计量数据处理方法、装置和计算机设备
CN113835740A (zh) * 2021-11-29 2021-12-24 山东捷瑞数字科技股份有限公司 一种面向搜索引擎优化的前端代码自动修复方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908071A (zh) * 2010-08-10 2010-12-08 厦门市美亚柏科信息股份有限公司 一种提高搜索引擎搜索效率的方法及其***
CN102156742A (zh) * 2011-04-19 2011-08-17 北京神州数码思特奇信息技术股份有限公司 支持手机使用自带浏览器展示结构化文档的方法及中间件
CN102325225A (zh) * 2011-09-20 2012-01-18 北京鹏润鸿途科技有限公司 一种播放手机网站的视频的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908071A (zh) * 2010-08-10 2010-12-08 厦门市美亚柏科信息股份有限公司 一种提高搜索引擎搜索效率的方法及其***
CN102156742A (zh) * 2011-04-19 2011-08-17 北京神州数码思特奇信息技术股份有限公司 支持手机使用自带浏览器展示结构化文档的方法及中间件
CN102325225A (zh) * 2011-09-20 2012-01-18 北京鹏润鸿途科技有限公司 一种播放手机网站的视频的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汲业等: "《一种移动搜索引擎设计与实现》", 《计算机应用与软件》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807937A (zh) * 2016-09-09 2018-03-16 阿里巴巴集团控股有限公司 一种网站seo处理方法、装置及***
CN107807937B (zh) * 2016-09-09 2021-11-30 阿里巴巴集团控股有限公司 一种网站seo处理方法、装置及***
CN108062338A (zh) * 2016-11-09 2018-05-22 北京国双科技有限公司 一种评估功能页面的导航能力的方法及装置
CN108062338B (zh) * 2016-11-09 2020-06-19 北京国双科技有限公司 一种评估功能页面的导航能力的方法及装置
CN106802914A (zh) * 2016-12-06 2017-06-06 中国电子科技集团公司第三十二研究所 启发式多特征规则集网页分块方法
CN113641884A (zh) * 2021-08-10 2021-11-12 南方电网数字电网研究院有限公司 基于语义的电力计量数据处理方法、装置和计算机设备
CN113835740A (zh) * 2021-11-29 2021-12-24 山东捷瑞数字科技股份有限公司 一种面向搜索引擎优化的前端代码自动修复方法
CN113835740B (zh) * 2021-11-29 2022-02-22 山东捷瑞数字科技股份有限公司 一种面向搜索引擎优化的前端代码自动修复方法

Similar Documents

Publication Publication Date Title
CN102930059B (zh) 一种聚焦爬虫的设计方法
RU2522103C2 (ru) Способ и браузер для уведомления об обновлении
CN102043834B (zh) 一种客户端实现搜索的方法及搜索客户端
CN101291304B (zh) 可移植的网络信息共享方法
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN102521251A (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
CN102760151B (zh) 开源软件获取与搜索***的实现方法
CN104063454A (zh) 一种挖掘用户需求的搜索推送方法和装置
CN103428076A (zh) 向多类型终端或应用发送信息的方法和装置
CN101097578A (zh) 一种网络资源检索方法及***
CN101908071A (zh) 一种提高搜索引擎搜索效率的方法及其***
CN101599089A (zh) 视频服务网站内容更新信息的自动搜索与抽取***及方法
CN103309884A (zh) 用户行为数据采集方法及***
CN103838797A (zh) 一种移动搜索引擎优化方法
CN102521232B (zh) 一种互联网元数据的分布式采集处理***及方法
CN102117331B (zh) 视频搜索方法及***
CN102193798B (zh) 基于Internet的OpenAPI自动获取方法
CN102722501A (zh) 搜索引擎及其实现方法
CN102722499A (zh) 搜索引擎及其实现方法
CN104252348A (zh) 一种基于浏览器的网页访问统计方法及装置
CN103389972A (zh) 一种基于简易信息聚合获取正文的方法及装置
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN103970800A (zh) 网页相关关键词的抽取处理方法和***
CN102622402B (zh) 使用页面集而提供信息搜索服务的服务器、方法和***
CN100504877C (zh) 一种Web页面动作收藏方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140604