CN103838797A - 一种移动搜索引擎优化方法 - Google Patents
一种移动搜索引擎优化方法 Download PDFInfo
- Publication number
- CN103838797A CN103838797A CN201210491498.7A CN201210491498A CN103838797A CN 103838797 A CN103838797 A CN 103838797A CN 201210491498 A CN201210491498 A CN 201210491498A CN 103838797 A CN103838797 A CN 103838797A
- Authority
- CN
- China
- Prior art keywords
- wml
- search engine
- stu
- mobile
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提出了一种移动搜索引擎优化方法。包括以下步骤:设计移动搜索引擎框架;建立URL列表;编辑翻译器;设计WAP接口.由于本发明针对移动搜索引擎的现状,在现有互联网搜索引擎的框架上加入移动模块,提出一种利用HTML资源建立移动搜索引擎的方式,该方式通过集中处理网络蜘蛛抓取的HTML网页,将HTML网页进行主题信息提取,再将主题信息转化成手机可以识别的WML页面,并存入WML的快照库中,当用户点击条记录察看具体网页时,***不会直接链接互联网上的该网页,而是链接该网页相对应的WML网页快照,满足用户的移动搜索需求。在实际应用中,使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎,覆盖全国近四十个城市的餐饮、娱乐和黄页信息。
Description
技术领域
本发明涉及移动互联网技术,特别是一种移动搜索引擎的优化方法。
背景技术
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的***。当今,随着无线通讯技术的创新和手机的普及,移动上网渐渐成为发展趋势,为了满足用户随时随地查询衣食住行信息的需求,如何建立移动搜索引擎,成为移动网络应用的热点。移动上网受手机终端和传输带宽的限制,纯HTML文本只有少数智能机型可以支持,大多数手机只识别WAP协议标记的语言,如WML或xHTML。但是,网络信息主要以HTML语言表达,WAP的资源有限,单纯以爬取WAP页面作为信息来源的移动搜索引擎无法提供足够的信息。因此,如何能突破限制,使手机客户也能搜索到来源于HTML的海量信息,成为移动搜索的主要问题之一。对于使用手机浏览HTML页面,一般的方法是加入一个WAP网关,当手机发出浏览HTML网页的请求时,由网关首先读取该网页,并将其转化成相应的WML,再发送到手机。这种方式也是当前将通用搜索引擎扩展为移动搜索引擎的流行方式。但是这种实时翻译的方式,显然对网关的性能和带宽要求较高。
本发明针对移动搜索引擎的现状,在现有互联网搜索引擎的框架上加入移动模块,提出一种利用HTML资源建立移动搜索引擎的方式,该方式通过集中处理网络蜘蛛抓取的HTML网页,对网络蜘蛛抓取的HTML网页进行翻译处理,将其翻译成WML形式的网页快照,生成WML语言的网页快照,满足用户的移动搜索需求。以该技术建立的移动搜索引擎,不需要实时翻译网关的支持,可以方便的扩展已有的搜索引擎***。在实际应用中,使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎,覆盖全国近四十个城市的餐饮、娱乐和黄页信息。
发明内容
根据移动搜索引擎的现状,提出一种移动搜索引擎优化方法,包括以下步骤:
A、设计移动搜索引擎框架
包括以下步骤:本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成,还具有移动模块,作为移动搜索引擎,
它包括三个部分:
翻译器,将蜘蛛抓取的HTML页转化为WML页;
WML网页快照库,保存转化后的WML页;
WAP接口,用手机访问的用户界面;
B、建立URL列表
将抓取到的网页存入网页库,并将网页上的所有超链接存入到URL列表中;
C、编辑翻译器
翻译器具有网页过滤、主题信息过滤和翻译三个部分;
C.1网页过滤
首先将目录页面过滤,不予翻译,根据网页的文本节点数与链接数的比例,来划分页面的性质,存入索引库;
C.2主题信息过滤
提取网页的主题相关部分,选择不依赖于信息源的STU-DOM的树模型,
将网页的table、tr、div和tbody标签结点作为分块结点,对于一个块的取舍用局部相关度Local Correlativity)和上下文相关度Contextual Correlativity来衡量;局部相关度由块内链接和内容决定,其计算公式可以表达为:
其中,ContentLength和LinkCount分别表示块内的文字数和链接数,表示的第j个子块;
上下文相关度由块内链接和父块内容决定,其计算公式可以表达为:
其中,STUPi表示STUi的父结点;
本设计规定局部相关度阈值是2,而上下文相关度的阈值是70;
C3.将HTML转化WML:
当HTML块转化时,首先要去除WML无法处理的元素,如style、front、script等标签;然后,建立HTML标签与WML标签转化的对应关系表,根据关系列表将HTML转化为手机可读的WML,
在手机上无法一屏显示的文本,需要进行分页处理,并存入WML的快照库中;
D、设计WAP接口
WAP接口是以手机为载体的人机交互查询界面;采用WML或xHTML语言设计,;设计WAP上的内容要尽量简练:在搜索结果的列表页上,条目数最多不超过十条。
与现有技术相比,本发明具有以下有益效果:
1、本发明能突破限制,使手机客户也能搜索到来源于HTML的海量信息,为移动搜索提供更广泛的信息。
2、本发明以该技术建立的移动搜索引擎,不需要实时翻译网关的支持,脱离了对网关的性能和带宽要求较高的问题,可以方便的扩展已有的搜索引擎***。
附图说明
本发明共有附图2幅,其中:
图1是移动搜索引擎体系框架图。
图2是移动搜索界面示意图。
具体实施方式
A、设计移动搜索引擎框架
包括以下步骤:与普通搜索引擎***一样,本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成,加入移动模块,使之成为延伸扩展出来的移动搜索引擎,它包括三个部分:
·翻译器,将蜘蛛抓取的HTML页转化为WML页;
·WML网页快照库,保存转化后的WML页;
·WAP接口,用手机访问的用户界面。
基本框架如图1所示。
B。、建立URL列表
本发明首先由网络蜘蛛开始,定期自动启动抓取互联网网站,将抓取到的网页存入网页库,并将网页上的所有超链接存入到URL列表中。
C、编辑翻译器
由于移动搜索引擎需要快速、直接、精炼的将查询信息返回给用户,但是蜘蛛抓取的网页中不仅存在部分无主题页;而且,即使是有主题的页面通常也有大量的与主题无关的信息。因此直接翻译并不适合,根据移动搜索的特点,根据移动搜索的特点,翻译器被设计成网页过滤、主题信息过滤和翻译三个部分。
C.1网页过滤
首先将目录页面过滤,不予翻译,根据网页的文本节点数与链接数的比例,来划分页面的性质,存入索引库。索引器将己经抓取的网页文档进行分词处理,并按词在网页中出现的位置和频率计算权值,然后将分词结果存入索引库。
C.2主题信息过滤
提取网页的主题相关部分,选择不依赖于信息源的STU-DOM的树模型,将网页的<table>、<tr>、<div>和<tbody>等标签结点作为分块结点,对于一个块的取舍用局部相关度(Local Correlativity)和上下文相关度(Contextual Correlativity)来衡量。局部相关度由块内链接和内容决定,其计算公式可以表达为:
其中,ContentLength和LinkCount分别表示块内的文字数和链接数,表示的第j个子块。
上下文相关度由块内链接和父块内容决定,其计算公式可以表达为:
其中,STUPi表示STUi的父结点。
本设计规定局部相关度阈值是2,而上下文相关度的阈值是70。将HTML网页进行主题信息提取。
C.3将HTML转化WML
当HTML块转化时,首先要去除WML无法处理的元素,如<style>、<front>、<script>等标签。然后,建立HTML标签与WML标签转化的对应关系表,根据关系列表将HTML转化为手机可读的WML,将主题信息转化成手机可以识别的WML页面,对于文字篇幅较大,在手机上无法一屏显示的文本,还需要进行分页处理,并存入WML的快照库中。
D、设计WAP接口
WAP接口是以手机为载体的人机交互查询界面。采用WML或xHTML语言设计,。设计WAP上的内容要尽量简练:在搜索结果的列表页上,条目数最多不超过十条。当用户通过WAP接口查询信息时,检索器首先对用户输入的信息进行分词处理,并检索出所有包含检索词的记录,通过计算网页权重和相关性对查询记录进行排序,进行集合运算,最后提取各网页的摘要信息反馈给查询用户。但当用户点击条记录察看具体网页时,与互联网搜索引擎不同,***不会直接链接互联网上的该网页,而是链接该网页相对应的WML网页快照。
根据本发明设计方法,开发了生活服务领域移动搜索引擎www.zhaocha.mobi。它是在原有的互联网搜索引擎www.zhaocha.com.cn的基础上改进,实现效果如图2所示。
Claims (1)
1.一种移动搜索引擎优化方法,其特征在于:包括以下步骤:
A、设计移动搜索引擎框架
包括以下步骤:本搜索引擎框架也是由搜索器、索引器、检索器、用户接口四个部分组成,还具有移动模块,作为移动搜索引擎,
它包括三个部分:
翻译器,将蜘蛛抓取的HTML页转化为WML页;
WML网页快照库,保存转化后的WML页;
WAP接口,用手机访问的用户界面;
B、建立URL列表
将抓取到的网页存入网页库,并将网页上的所有超链接存入到URL列表中;
C、编辑翻译器
翻译器具有网页过滤、主题信息过滤和翻译三个部分;
C.1网页过滤
首先将目录页面过滤,不予翻译,根据网页的文本节点数与链接数的比例,来划分页面的性质,存入索引库;
C.2主题信息过滤
提取网页的主题相关部分,选择不依赖于信息源的STU-DOM的树模型,
将网页的table、tr、div和tbody标签结点作为分块结点,对于一个块的取舍用局部相关度Local Correlativity)和上下文相关度Contextual Correlativity来衡量;局部相关度由块内链接和内容决定,其计算公式可以表达为:
其中,ContentLength和LinkCount分别表示块内的文字数和链接数,表示的第j个子块;
上下文相关度由块内链接和父块内容决定,其计算公式可以表达为:
其中,STUPi表示STUi的父结点;
本设计规定局部相关度阈值是2,而上下文相关度的阈值是70;
C3.将HTML转化WML:
当HTML块转化时,首先要去除WML无法处理的元素,如style、front、script等标签;然后,建立HTML标签与WML标签转化的对应关系表,根据关系列表将HTML转化为手机可读的WML,
在手机上无法一屏显示的文本,需要进行分页处理,并存入WML的快照库中;
D、设计WAP接口
WAP接口是以手机为载体的人机交互查询界面;采用WML或xHTML语言设计,;设计WAP上的内容要尽量简练:在搜索结果的列表页上,条目数最多不超过十条。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210491498.7A CN103838797A (zh) | 2012-11-27 | 2012-11-27 | 一种移动搜索引擎优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210491498.7A CN103838797A (zh) | 2012-11-27 | 2012-11-27 | 一种移动搜索引擎优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103838797A true CN103838797A (zh) | 2014-06-04 |
Family
ID=50802306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210491498.7A Pending CN103838797A (zh) | 2012-11-27 | 2012-11-27 | 一种移动搜索引擎优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103838797A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106802914A (zh) * | 2016-12-06 | 2017-06-06 | 中国电子科技集团公司第三十二研究所 | 启发式多特征规则集网页分块方法 |
CN107807937A (zh) * | 2016-09-09 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 一种网站seo处理方法、装置及*** |
CN108062338A (zh) * | 2016-11-09 | 2018-05-22 | 北京国双科技有限公司 | 一种评估功能页面的导航能力的方法及装置 |
CN113641884A (zh) * | 2021-08-10 | 2021-11-12 | 南方电网数字电网研究院有限公司 | 基于语义的电力计量数据处理方法、装置和计算机设备 |
CN113835740A (zh) * | 2021-11-29 | 2021-12-24 | 山东捷瑞数字科技股份有限公司 | 一种面向搜索引擎优化的前端代码自动修复方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908071A (zh) * | 2010-08-10 | 2010-12-08 | 厦门市美亚柏科信息股份有限公司 | 一种提高搜索引擎搜索效率的方法及其*** |
CN102156742A (zh) * | 2011-04-19 | 2011-08-17 | 北京神州数码思特奇信息技术股份有限公司 | 支持手机使用自带浏览器展示结构化文档的方法及中间件 |
CN102325225A (zh) * | 2011-09-20 | 2012-01-18 | 北京鹏润鸿途科技有限公司 | 一种播放手机网站的视频的方法及装置 |
-
2012
- 2012-11-27 CN CN201210491498.7A patent/CN103838797A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908071A (zh) * | 2010-08-10 | 2010-12-08 | 厦门市美亚柏科信息股份有限公司 | 一种提高搜索引擎搜索效率的方法及其*** |
CN102156742A (zh) * | 2011-04-19 | 2011-08-17 | 北京神州数码思特奇信息技术股份有限公司 | 支持手机使用自带浏览器展示结构化文档的方法及中间件 |
CN102325225A (zh) * | 2011-09-20 | 2012-01-18 | 北京鹏润鸿途科技有限公司 | 一种播放手机网站的视频的方法及装置 |
Non-Patent Citations (1)
Title |
---|
汲业等: "《一种移动搜索引擎设计与实现》", 《计算机应用与软件》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107807937A (zh) * | 2016-09-09 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 一种网站seo处理方法、装置及*** |
CN107807937B (zh) * | 2016-09-09 | 2021-11-30 | 阿里巴巴集团控股有限公司 | 一种网站seo处理方法、装置及*** |
CN108062338A (zh) * | 2016-11-09 | 2018-05-22 | 北京国双科技有限公司 | 一种评估功能页面的导航能力的方法及装置 |
CN108062338B (zh) * | 2016-11-09 | 2020-06-19 | 北京国双科技有限公司 | 一种评估功能页面的导航能力的方法及装置 |
CN106802914A (zh) * | 2016-12-06 | 2017-06-06 | 中国电子科技集团公司第三十二研究所 | 启发式多特征规则集网页分块方法 |
CN113641884A (zh) * | 2021-08-10 | 2021-11-12 | 南方电网数字电网研究院有限公司 | 基于语义的电力计量数据处理方法、装置和计算机设备 |
CN113835740A (zh) * | 2021-11-29 | 2021-12-24 | 山东捷瑞数字科技股份有限公司 | 一种面向搜索引擎优化的前端代码自动修复方法 |
CN113835740B (zh) * | 2021-11-29 | 2022-02-22 | 山东捷瑞数字科技股份有限公司 | 一种面向搜索引擎优化的前端代码自动修复方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102930059B (zh) | 一种聚焦爬虫的设计方法 | |
RU2522103C2 (ru) | Способ и браузер для уведомления об обновлении | |
CN102043834B (zh) | 一种客户端实现搜索的方法及搜索客户端 | |
CN101291304B (zh) | 可移植的网络信息共享方法 | |
CN102708174B (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN102521251A (zh) | 个性化搜索直达的方法、实现该方法的装置和搜索服务器 | |
CN102760151B (zh) | 开源软件获取与搜索***的实现方法 | |
CN104063454A (zh) | 一种挖掘用户需求的搜索推送方法和装置 | |
CN103428076A (zh) | 向多类型终端或应用发送信息的方法和装置 | |
CN101097578A (zh) | 一种网络资源检索方法及*** | |
CN101908071A (zh) | 一种提高搜索引擎搜索效率的方法及其*** | |
CN101599089A (zh) | 视频服务网站内容更新信息的自动搜索与抽取***及方法 | |
CN103309884A (zh) | 用户行为数据采集方法及*** | |
CN103838797A (zh) | 一种移动搜索引擎优化方法 | |
CN102521232B (zh) | 一种互联网元数据的分布式采集处理***及方法 | |
CN102117331B (zh) | 视频搜索方法及*** | |
CN102193798B (zh) | 基于Internet的OpenAPI自动获取方法 | |
CN102722501A (zh) | 搜索引擎及其实现方法 | |
CN102722499A (zh) | 搜索引擎及其实现方法 | |
CN104252348A (zh) | 一种基于浏览器的网页访问统计方法及装置 | |
CN103389972A (zh) | 一种基于简易信息聚合获取正文的方法及装置 | |
CN104090923A (zh) | 一种浏览器中的富媒体信息的展示方法和装置 | |
CN103970800A (zh) | 网页相关关键词的抽取处理方法和*** | |
CN102622402B (zh) | 使用页面集而提供信息搜索服务的服务器、方法和*** | |
CN100504877C (zh) | 一种Web页面动作收藏方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140604 |