CN1794239A - 具有搜索功能的模板式网站自动生成***及其方法 - Google Patents

具有搜索功能的模板式网站自动生成***及其方法 Download PDF

Info

Publication number
CN1794239A
CN1794239A CN 200510137479 CN200510137479A CN1794239A CN 1794239 A CN1794239 A CN 1794239A CN 200510137479 CN200510137479 CN 200510137479 CN 200510137479 A CN200510137479 A CN 200510137479A CN 1794239 A CN1794239 A CN 1794239A
Authority
CN
China
Prior art keywords
server
index
webpage
user
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200510137479
Other languages
English (en)
Inventor
张天山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 200510137479 priority Critical patent/CN1794239A/zh
Publication of CN1794239A publication Critical patent/CN1794239A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种具有搜索功能的模板式网站自动生成***及其方法。它包括:用户通过计算机、互联网及路由器与模板式网站自动生成***和专业搜索引擎***相联接。所述的模板式网站自动生成***,它包括:用户信息管理子***、网页模板维护子***、网站自动生成子***、网站管理子***、搜索竞价排名***;所述的专业搜索引擎***,它包括:网页收集***、海量存储***、网页索引***、索引检索***。本发明将专业搜索引擎与模板式网站自动生成***绑定,它在即时完成网站建设后,其网站将自动被专业搜索引擎***收录;本发明可使网站建设自动化,它无须使用HTML语言设计网页,也无须使用FTP软件维护网站,利用本发明就可即时建立自己的网站,并可以随时更新维护。

Description

具有搜索功能的模板式网站自动生成***及其方法
技术领域
本发明涉及一种互联网通讯信息技术领域,特别是指一种具有搜索功能的模板式网站自动生成***及其方法。
背景技术
目前,互联网以及相关技术的应用与普及,已经在全世界范围内从根本上改变了人们的生活。人们从信息、通讯、娱乐和工作等各个方面已经对这种新型的媒介形成了强大的依赖。在互联网的诞生地美国,几乎所有的企业都建立了自己的网站,越来越多的营销活动在网上进行,越来越多的人利用网络寻求商业信息,或直接在网上购物。互联网已经从通讯,娱乐等领域步入了人们的日常活动中。互联网在中国国内也得到了迅猛发展。根据最新统计,中国的上网人口总数已经超过一亿,网民数量超过美国,成为世界第一的互联网大国已经指日可待。
互联网的广泛使用与搜索引擎的技术和应用有着密切的关系。当今世界上所有的搜索引擎技术,包括美国的Google、中国的百度,以及其他服务商的搜索引擎,所使用的技术都包括以下三大功能要素:(1)爬网;(2)分词索引;(3)搜索。其中,爬网是将全世界的网站网页尽可能多的“抓”到自己的服务器中存起来,然后用一定的方法进行分词检索,最后还要有大量的服务器阵列来应对大量的搜索请求,搜索结果并不偏重或强调某一领域或信息范畴。
然而,现有搜索引擎过于强调搜索技术本身,却与中小企业上网进行网络营销的需求严重脱钩。例如,中小企业如果没有自己的网站,他们当然无法使用搜索引擎进行网络营销,即使中小企业建立了自己的网站,如果没有另一网站对新建的网站进行链接,新建的网站仍然无法被搜索引擎所“爬”到并受录。因此,现有搜索引擎全部都是一般意义上的对所有网上信息进行搜索的引擎。
此外,互联网的广泛使用还与网页设计、域名注册以及虚拟主机的技术和应用有着密切的关系。目前,从用户的角度而言,对于建立一个网站,“虚拟主机”与“网页设计”这两种所必不可少的服务却是分割的。
现有的网页设计服务,大多是由专业设计人员使用专业软件(MS Frontpage,Dreamweaver)以及HTML语言根据用户的需求设计制作网页并收取制作费用。然而,中小企业如果想建立自己的网站,他们必须首先要聘请专业的网页设计人员设计制作网页,然后再寻找虚拟主机服务提供商来租用网站空间。更重要的是他们还必须了解如何使用FTP软件来上传及维护他们的网页网站。如果他们不了解,就必须雇用专职的网管人员来承担网站维护工作。这一现状使得中小企业上网建站的门槛大大增高,严重阻碍了中小企业上网建站的普及。
现有的虚拟主机服务是由提供商拥有和维护服务器,并购买带宽将服务器接入互联网。提供商将服务器上的磁盘空间分割出租给用户。因此,一台网络服务器中可以容纳几十,几百甚至更多的网站。这也就是“虚拟主机”一词的由来。从技术层面上来看,虚拟主机提供商对服务器的维护水平、所使用操作***的稳定性、硬件与软件的搭配、对应急事件的反映速度等,都决定了服务质量的高低。
根据最新统计,中国有2000多万中小企业,但绝大多数中小企业(80%-90%)至今没有建立自己的网站。因此,它们也就没有机会利用互联网进行网络信息交流。因此,互联网在中国的广泛应用远远落后于美国和其他发达国家。
发明内容
本发明的目的在于克服现有技术不足而提供一种具有搜索功能的模板式网站自动生成***,它包括一种与模板式网站自动生成***捆绑的专业搜索引擎或为垂直搜索引擎。
本发明的另一目的在于提供一种具有搜索功能的模板式网站自动生成***方法,它可使网站建设自动化、“傻瓜化”,它无须使用HTML语言设计网页,也无须使用FTP软件维护网站,利用本发明就可既时建立自己的网站,并可以随时更新维护。
本发明的技术方案是:
一种具有搜索功能的模板式网站自动生成***,它包括:模板式网站自动生成***和专业搜索引擎***,其特征在于:
所述的模板式网站自动生成***,它包括:用户信息管理子***、网页模板维护子***、网站自动生成子***、网站管理子***、搜索竞价排名***:其中
A)、用户信息管理子***:负责收集用户信息;用户自管理功能;用户可以凭用户名密码登录到管理界面中增加,修改或删除用户信息。
B)、网页模板维护子***:它设有不同的网站设计模板,包括不同的行业,如计算机、IT、电子、时尚、服装、服饰、金融、投资、保险等;并且每一个模板还设有搜索功能框;
C)、网站自动生成子***:
1)、用户注册,然后进入网站自动生成向导***;
2)、用户选择网站模板,***提供几十个行业,上千个事先设计好的模板供用户选择;
3)、用户选择网站栏目链接选:如公司简介、业务或产品介绍、产品展示、联系方式等等;
4)、用户输入网页信息:编辑器允许用户输入不同形式的网页内容,它包括普通文字,或文字链接,或表格式文档;且编辑器还可允许用户改变文字字体、颜色、背景颜色;
5)、如果用户选择了产品展示,则上传产品图片及输入关于产品的说明文字;
6)、网站发布:用户可即时看到***自动生成的真实网站,任何人在世界任何地方可即时访问。
其中,所述的网站自动生成***,它还包括:
1)、客户留言:允许网站的访问者输入留言和对公司服务与所销售产品的咨询,网站管理员可登录到管理界面中查询、管理留言;其中包括回复留言和将留言显示在网页上;
2)、人才招聘:它允许用户发布和随时更新招聘信息;并允许网站管理员登录到管理界面中查看应聘人员简历;在所述的管理***中查询、浏览、响应所发布招聘职位的应聘简历,并与应聘人员取得联系。
D)、网站管理子***:用户可随时到管理界面中管理网站,包括
1)、允许用户在线删除和修改已经建成的网页内容或增加新的网页内容,并可随时发布浏览;管理***允许用户随时增加、删除和修改包括产品图片在内的产品信息;
2)、域名管理:允许用户在线注册域名或转移域名,并将其与所选用的模板式网站绑定;
3)、邮箱管理:允许用户在线设立增加新邮箱;改变已有邮箱大小;设置邮件转发;改变邮箱密码或找回邮箱密码;
E)、搜索竞价排名***:用户可对某些关键词进行竞价,使用户网站在相应搜索结果中排名靠前,以改善营销效果。
所述的专业搜索引擎***,是本发明与用户外部使用界面,由索引检索***接收用户查询请求,然后经广播/汇集器发送到检索服务阵列中进行同步查询;每一个检索服务器所使用的索引段又是由网页索引***生成;被索引的网页则来自于网页搜集***;这样各部分协同工作,构成一个搜索引擎整体。它包括:网页收集***,海量存储***;网页索引***;索引检索***,其中,
A)、所述的网页收集***,它是一个并行工作的爬虫***,从互联网中并行高速地抓取网页,得到网页内容后由并行网页分析器对其进行内容分析,提取新的网页链接,存入链接管理器以备抓取所用;经过一段时间的收集后,子***内就会收集并维护一份互联网全部网页的地址;包括:
1)、链接管理器:它是网页收集***的处理起点,初始时,网页链接器内需要注入一个初始的链接集合,然后根据这些初始链接指挥具体的网页抓取器进行爬网,同时链接管理器接收链接分析器的输出结果(经过网页内容分析后所得的新链接集);这样经过几轮的爬网→分析→提取链接→入库→再爬网的循环,链接管理器内最终收录互联网的全部链接(无限逼近),每个链接的相关信息也都进入链接管理器内进行维护;
2)网页抓取器:链接管理器根据平衡、高效的原则把所有已知链接分割成数个链接子集,每个链接子集交给一个网页抓取器,多个网页抓取器并行工作,把各自的链接集合内的网页内容抓取回来,存放在本地的网页池内,供后续的链接分析器工作之用。网页抓取器的工作原理于网页浏览器相似,它针对不同协议的链接类型,采取不同协议模块,利用从网页链接管理器中所提取的链接相关信息,处理各种复杂的情况(认证,https,加密,javascript等),把网页内容抓取到本地;
3)链接分析器:它是一个高效率的html语言解析器,它读入html流,根据html标准分析,提取所有的链接,然后根据这些链接更新链接管理器内的链接;所有的链接分析器并行工作,可以随网页抓取的速度动态调整负载,实现高效率网页分析;再把分析过的网页内容存入海量存贮***内,以备后续的网页索引***使用。
B)、海量存储***:它是一个分布式的,具有良好可伸缩性的,高效率的网络文件***,它特别针对搜索引擎的存储特性所设计,采用压缩文件集存储的方式,利用块索引节点服务器加数据节点服务器的方法,把海量信息以文件集为单位,均匀的分布在各个数据节点上,同时每个文件集都同时保存在2个以上的数据节点中,提供有效的数据备份能力;在文件提取时,文件使用端首先从块索引节点上查询到相应的文件所在的目标数据节点服务器,然后从目标数据节点服务器中直接提取文件,实现了海量存储的高效率,高可用性;包括
1)、块索引节点服务器(Master):在海量存储***中,文件被压缩到文件集中,再以32M为一块来进行存储;由块索引节点服务器来维护所有数据节点和所有数据快的对应数据,同时,服务器还动态的维护一个可用服务器列表,当有文件需要存储时,它首先找到一个在线的有空间的数据节点,然后将数据块写入,同时记录数据块的位置信息,当有三个以上的数据节点可用时,块索引节点还负责在把块数据的2份备份数据块复制到另外的2个数据节点上,实现数据的冗余保护;当客户端需要提取数据块时,服务器先查找该数据块存放在哪一台在线服务器中,然后把节点号返回给客户,由客户端直接与节点通讯,取得目标数据块;
2)、数据节点服务器(Chunkserver):它是海量存储***的实际数据存放服务器,它建立在普通的Linux文件***之上;以文件形式存放32M的块数据;当数据节点服务器启动后,会自动在块索引服务器上进行登记,然后等待接收块索引服务器存放数据块,同时,数据节点服务器还监听客户的数据请求,发现有客户请求数据时,服务器会从本地文件***中提取相应的数据,发送给客户端;
C)、网页全文索引***:建立网页的全文索引是提供搜索功能的前提,商务搜网页全文索引***采用并行处理方式,各个索引服务器并行的从海量存储***中批量的读取已经抓取回来的网页,利用中文分词功能,把网页内容分割成词序列,再根据词序列建立逆序索引结构,即按词→网页的顺序索引。同时将词汇出现在网页中的位置和次数等信息记录在索引结构中;批量网页的索引工作完成后,由索引数据管理器负责对并行索引结果进行合并,整合,统一存贮在海量存贮***中;再把统一的网页索引按照可控的固定大小进行分割,发送到索引查询集群中,为实际的搜索提供搜索基;包括
1)、中文分词:
词汇是构成语言的基本单位,英语类语言由于天然的使用空格作为分隔符,所以英语几乎不存在分词问题,只有词汇识别问题,但中文则不同,中文的句子是由汉字一个接一个的连在一起构成的,并无天然的分割,人要读懂一句话,大脑所要做的必不可少的一项工作就是要先分析出句子中词汇的构成。建立中文的全文索引同样也有这个问题。要针对词汇进行索引就必须先把句子分割成一个个的词汇,然后才能对每个词汇进行逆序索引,这就是中文的分词问题。商务搜的中文分词采用字典匹配(最大匹配)算法,同时结合2元分词算法来构造。字典是按照统计学的原理对数亿字节的中文进行词频统计后所得出的词汇表,加上人们日常用语中的词汇等各个渠道所能汇集的词汇而得来。力求能够覆盖中文中99.9%的使用词汇。同时对于不能使用查词典方式来处理的句子则使用二元分词方式处理,例如“乒乓球拍卖完了”这样的二义性的句子采用词典分词会有两种不同的结果,如果采用二元分词则两种意义都会覆盖。两种方式协同工作,可以保证最大限度的提高分词的准确度和可用性。
2)、全文索引引擎:
全文索引引擎是实现网页内容索引的核心处理模块,经过这个引擎的处理,网页内的词汇一一被索引可以直接检索的索引结构。引擎首先使用中文分词功能对网页内容进行处理,生成一个个的词汇列表,然后统计各个词汇在网页内的出现位置,频度等信息,根据这些信息建立词汇到网页的逆向索引序,存入索引文件。全文索引引擎并行工作,可以同时对数百网页进行索引。
3)、索引数据管理:
网页经过全文索引引擎索引后,生成的索引文件是分散的,不利于统一使用和查询,索引数据管理器负责把各个分散的索引文件进行合并及优化,然后统一存放在海量存贮***内,同时,管理器会根据设定触发条件对所有的索引内容进行定长分割,并将分割后的索引段发送至各个索引检索服务器,由索引检索服务器缓存在内存中,再由检索阵列来实现高速,并行的查询功能。
D)、索引检索***:索引查询***是用户直接使用的前端***,它由数百到数万台索引检索服务器组成的检索阵列及查询广播/合并***和web集群***构成;包括
1)、检索服务器阵列:网页经过索引后所生成的索引文件是随网页量的增长而不断增长的,到目前为止,全世界网页的数量已经超过200亿,以每个网页平均10K计算,全世界的网所生成的索引量至少在100TB以上,在如此巨大的索引集中做一次查询,不采用并行处理技术是不可想象的。检索服务器阵列由数百至数万台小型服务器组成,每台服务器上都分配一段几个G的索引子集,当接到查询请求时,所有的服务器并行工作,可以在几十个毫秒内完成各自索引子集的查询,然后上报查询结果。
2)、查询广播/合并***:查询广播/合并***指挥数百至数万台服务器协同工作:把每个查询请求发送到检索阵列中的每一台服务器中,同时迅速地把查询结果汇集起来,再把查询结果发送回相应地网络服务器。所有的操作加起来不能超过一秒钟。该子***使用动态可伸缩架构,可以根据***负载情况增减阵列内的服务器。不同的查询被均衡的发布到阵列之中,指派其中一台服务器负责某一个查询,各个服务器使用UDP广播功能及UDP定点发送功能进行查询广播和结果收集,结果汇集后在发送给前端的网络服务器。
3)、网页服务器(WebServer)集群:
搜索引擎为了能够达到每天处理上亿次查询的能力,不仅后台***使用阵列,集群***,在网页服务器端同样使用可扩充的负载均衡的集群***,前置服务器由一台高性能服务器充当负载均衡器,几台至数十台服务器作为实际的网页服务器,每一台实际的网页服务器都定时把负载情况通报给均衡器。当有查询请求通过http协议到达时,前置服务器根据当时各个网页服务器的负载情况,将该请求转发到较空闲的某一台服务器中,然后继续处理下一次请求。高峰时***可以处理每秒6000次请求。全天可以处理5亿次以上查询请求。
一种具有搜索功能的模板式网站自动生成***方法,它包括:
1)、用户注册:点击“免费入驻”,填入信息资料,如:姓名、地址、电话、用户名和密码以及行业等信息,该数据将被存入***数据库中,此时用户注册成功;
2)、进入网站自动生成向导***:
A)、用户选择模板:用户可在***预先设置的若干个网站模板中根据其需求来进行选择;
B)、选择栏目链接:用户可以从***所设置的列表中进行拦目选择,或自行输入链接文字;
C)、信息填写:利用全屏编辑器,输入各栏目的信息资料,该信息将是网站上被浏览的信息;
D)、产品发布:如果用户有产品要展示,则可在此步骤中发布产品图片及各种文字信息;
F)、网站预览:用户可以预览***自动生成的网页;并可回到前面步骤去修改、增加、删除已输入的信息;
G)、搜索功能框自动生成:上述网站的各种信息被搜索引擎自动收录,使得任何人利用此搜索引擎就能找到刚刚建立的网站。因为由***自动生成的每一个网站都包含了一个搜索功能框。这个搜索功能框的后台连接着本发明的搜索引擎。任何人使用这一搜索功能框,输入关键词进行搜索,将启动本发明搜索引擎,将搜索结果送回所在网站。这一方法将网站自动生成***与搜索引擎有机的连成了一体;
H)、网站发布:用户选择直接发布网站,可在浏览器地址栏输入主页网址,则网站发布成功;
I)、用户如果要更改和维护网站内容,则进入“会员登录”,可在网站管理界面中进行修改、增加、删除已输入的网站信息。
K)、用户可根据需求选择“留言管理”:它可直接删除和回复客户的留言;
L)、用户可根据需求选择“域名管理”:它可进行网站注册、转入和绑定国际域名;
M)、用户可根据需求选择“邮箱管理”:设置带用户自己域名后缀的邮箱。
本发明的优点在于:
1、本发明专业搜索引擎***除了具有与其他搜索引擎同样的“爬网”得来的信息之外,特别注重收集和整理专业信息,即垂直搜索引擎。
2、本发明将专业搜索引擎与模板式网站自动生成***绑定,它可在使用模板式网站自动生成***即时完成网站建设后,其网站将自动被专业搜索引擎***收录,因此,它打破了现有技术中网站必须有第三方链接才能被“爬”到的现状。也就是说,在现有搜索引擎技术的模式下,用户即使建立了网站,如果没有另外一个网站对这个刚刚建立的网站进行链接,现有搜索引擎仍然无法“爬”到这个网站。而本发明由于将网站建设与商务搜索引擎捆绑,也就打破了现有搜索引擎技术在网站收录过程中的这一局限。
3、每一个由“模板式网站自动生成***”所产生的网站的每一页,都包含一个搜索框。此搜索框从美工上看是网站的一个重要组成部分,从功能上看,它的后台就是本发明专业搜索引擎***。这种巧妙结合即方便了用户,又解决了搜索引擎推广问题。
4、由于本发明是将专业搜索引擎与模板式网站自动生成***绑定,故它可使竞价排名的用户网站与服务商进行交流、沟通。当用户有了真正的客户时,服务商才从中收取费用,即使用本发明可不按“击点”收费。因而本发明从根本上解决了“恶意点击”的问题。
5、本发明解决现有搜索引擎技术与用户网站建设脱钩的现状,使用户利用本发明所提供的***自动建站后,同时自动加入到本发明所包括的商务搜索引擎的数据库中,实现又一个层次的自动化。用户只需要到本发明所提供的控制管理界面中进行竞价等,就可以在建站后立即开展网络营销活动,从而使用户网站能够对增加其经济效益起到直接的作用。
附图说明
图1是本发明的***方框图。
图2是本发明的专业搜索引擎***流程方框图。
图3是本发明的网页收集子***流程方框图。
图4是本发明的海量存储子***流程方框图。
图5是本发明的的网页全文索引子***流程方框图。
图6是本发明的的索引检索子***流程方框图。
图7是本发明的网站自动生成***流程图。
具体实施方式
下面将结合附图及实施例对本发明作进一步说明。
本发明***方框图,如图1所示:一种具有搜索功能的模板式网站自动生成***,它包括:用户通过计算机10、互联网11及路由器12与模板式网站自动生成***和专业搜索引擎***相联接,其特征在于:所述的模板式网站自动生成***,它包括:用户信息管理子***1、网页模板维护子***2、网站自动生成子***3、网站管理子***4、搜索竞价排名***5;所述的专业搜索引擎***,它包括:网页收集***6、海量存储***7、网页索引***8、索引检索***9。
本发明的专业搜索引擎***流程方框图,如图2所示:信息数据由网页获取服务器13获取,将其存放到缓存池14中;网页全文索引服务器15处理缓存池14中的数据,并生成全文索引,存放在索引存储池16中;检索服务器17从全文索引存储池16中读取索引数据;然后接收查询/汇集服务器18的查询请求,生成查询结果;然后把查询结果返回;web访问服务器19是最先接收用户查询请求的节点,用户请求经预处理后,发送至查询/汇集服务器18;再由查询/汇集服务器18负责把查询请求分解,广播到各个检索服务器17中,并负责把查询结果汇集;然后再返回至web访问服务器19,由web访问服务器19发送回用户浏览器端。
本发明的网页收集子***流程方框图,如图3所示:链接注入22接受域名集合20和其他外部链接集21;注入中央链接数据库23;然后由链接分割24把中央链接数据库23内的数据分割成一个个的链接子集25;每一个链接子集由一个网页爬虫26负责把子集内每一个链接抓取回来;写入本地文件***27;链接分析器28定时启动,对存放在本地文件***27内的网页进行分析,一方面把分析出来的新的链接回存到中央链接数据库23中,同时负责把分析过的网页写入网络存储池29中。
本发明的海量存储子***方框图,如图4所示:它特别针对搜索引擎的存储特性所设计,它采用分布式可伸缩结构,对文件集压缩存储。利用块索引服务器31加块服务器33的方法,把海量信息以压缩文件集为单位,均匀的分布在各个数据节点的文件***34上,它是搜索引擎***的主要存储功能单元。当客户端30需要读写数据时,首先到块索引服务器31上查询可用数据服务器;块索引服务器31根据索引数据32从可用的块服务器群中找出一个可用的块服务器33;把该服务器编号返回给客户端30;客户端30根据这个编号直接与目标块服务器33通信;块服务器33根据客户端30的请求,对文件***34进行相应的数据读写操作,然后把读写结果再返回给客户端30。
本发明的的网页索引***流程方框图,如图5所示:全文索引引擎15参考中文分词库35对网页存储池14中的网页进行全文索引,生成索引文件36;然后发送给索引数据管理37,由索引数据管理37负责将各个索引文件36合并,存入网页全文索引存储池16中;同时对网页全文索引存储池16中的数据进行分割,生成后序所需的一个个索引段38。
本发明的索引检索***流程方框图,如图6所示:检索服务器17读入索引段38,等待查询/汇集服务器18的检索请求;网络服务器19接收到用户的查询请求后,将请求进行预处理,然后发送该请求至查询/汇集服务器18中;由查询/汇集服务器18负责把请求广播到检索服务器17中;检索服务器17完成检索后,把结果再返回到查询/汇集服务器18;由查询/汇集服务器18对各个检索服务器17的所有结果进行汇集,排序等工作后,再统一发送回网络服务器19;由网络服务器19再将搜索结果返回到用户浏览器端。
本发明的网站自动生成***流程图,如图7所示:用户首先进行注册39,注册完成后进入网站自动生成向导***40;向导完成后进入选择模板41过程;然后进行选择栏目42;信息填写43;产品发布44;发布预览45;当用户对预览满意后,进入搜索框自动生成46;网站发布47。从选择模板41到网站预览45,中间过程可以随时返回上一步进行修改,方便用户提高效率。

Claims (13)

1、一种具有搜索功能的模板式网站自动生成***,它包括:用户通过计算机、互联网及路由器与模板式网站自动生成***和专业搜索引擎***相联接,其特征在于:所述的模板式网站自动生成***,它包括:用户信息管理子***、网页模板维护子***、网站自动生成子***、网站管理子***;所述的专业搜索引擎***,它包括:网页收集***、海量存储***、网页索引***、索引检索***。
2、根据权利要求1所述的模板式网站自动生成***,其特征在于:
A)、所述的用户信息管理子***:负责收集用户信息;用户自管理功能;用
户可以凭用户名密码登录到管理界面中增加,修改或删除用户信息;
B)、所述的网页模板维护子***:它设有不同的网站设计模板,包括不同的行业;并且每一个模板设有搜索功能框;
C)、所述的网站自动生成子***:它包括
1)、用户注册,然后进入网站自动生成向导***;
2)、用户根据其需求选择网站模板;
3)、用户选择网站栏目链接选;
4)、用户输入网页信息:
5)、如果用户选择了产品展示,则上传产品图片及输入关于产品的说明文字;
6)、网站发布:
D)、所述的网站管理子***:用户可随时到管理界面中管理网站,包括在线修改网页内容,随时发布浏览。
3、根据权利要求2所述的模板式网站自动生成***,其特征在于:所述的网站管理子***,它还包括;域名管理或邮箱管理。
4、根据权利要求1或2所述的模板式网站自动生成***,其特征在于:所述的网站自动生成***,它还包括:搜索竞价排名***,可对某些关键词进行竞价,使用户网站在相应搜索结果中排名靠前。
5、根据权利要求1或2所述的模板式网站自动生成***,其特征在于:所述的网站自动生成***,它还包括:
A)、客户留言:允许网站的访问者输入留言和对公司服务与所销售产品的咨询,网站管理员可登录到管理界面中查询、管理留言;其中包括回复留言和将留言显示在网页上;
B)、人才招聘:发布和随时更新招聘信息;网站管理员登录到管理界面中查看应聘人员简历;在所述的管理***中查询、浏览、响应所发布招聘职位的应聘简历,并与应聘人员取得联系。
6、根据权利要求1所述的模板式网站自动生成***,其特征在于:所述的网页收集***,它是一个并行工作的爬虫***,从互联网中并行高速地抓取网页,得到网页内容后由并行网页分析器对其进行内容分析,提取新的网页链接,存入链接管理器以备抓取所用;经过一段时间的收集后,子***内就会收集并维护一份互联网全部网页的地址;包括:
A)、链接管理器:它是网页收集***的处理起点,初始时,网页链接器内需要注入一个初始的链接集合,然后根据这些初始链接指挥具体的网页抓取器进行爬网,同时链接管理器接收链接分析器的输出结果;
B)网页抓取器:链接管理器根据平衡、高效的原则把所有已知链接分割成数个链接子集,每个链接子集交给一个网页抓取器,多个网页抓取器并行工作,把各自的链接集合内的网页内容抓取回来,存放在本地的网页池内,供后续的链接分析器工作之用。网页抓取器的工作原理于网页浏览器相似,它针对不同协议的链接类型,采取不同协议模块,利用从网页链接管理器中所提取的链接相关信息,处理各种复杂的情况,把网页内容抓取到本地;
C)链接分析器:它是一个高效率的html语言解析器,它读入html流,根据html标准分析,提取所有的链接,然后根据这些链接更新链接管理器内的链接;所有的链接分析器并行工作,可以随网页抓取的速度动态调整负载,实现高效率网页分析;再把分析过的网页内容存入海量存贮***内,以备后续的网页索引***使用。
7、根据权利要求1所述的模板式网站自动生成***,其特征在于:所述的海量存储***:它采用压缩文件集存储的方式,利用块索引节点服务器加数据节点服务器的方法,把海量信息以文件集为单位,均匀的分布在各个数据节点上,同时每个文件集都同时保存在至少2个以上的数据节点中,提供有效的数据备份能力;在文件提取时,文件使用端首先从块索引节点上查询到相应的文件所在的目标数据节点服务器,然后从目标数据节点服务器中直接提取文件,实现了海量存储的高效率,高可用性;包括
A)、块索引节点服务器:在海量存储***中,文件被压缩到文件集中,再以32M为一块来进行存储;由块索引节点服务器来维护所有数据节点和所有数据快的对应数据,同时,服务器还动态的维护一个可用服务器列表,当有文件需要存储时,它首先找到一个在线的有空间的数据节点,然后将数据块写入,同时记录数据块的位置信息,当有三个以上的数据节点可用时,块索引节点还负责在把块数据的2份备份数据块复制到另外的2个数据节点上,实现数据的冗余保护;当客户端需要提取数据块时,服务器先查找该数据块存放在哪一台在线服务器中,然后把节点号返回给客户,由客户端直接与节点通讯,取得目标数据块;
B)、数据节点服务器:它是海量存储***的实际数据存放服务器,它建立在普通的Linux文件***之上;以文件形式存放32M的块数据;当数据节点服务器启动后,会自动在块索引服务器上进行登记,然后等待接收块索引服务器存放数据块,同时,数据节点服务器还监听客户的数据请求,发现有客户请求数据时,服务器会从本地文件***中提取相应的数据,发送给客户端。
8、根据权利要求1所述的模板式网站自动生成***,其特征在于:所述的网页全文索引***:建立网页的全文索引是提供搜索功能的前提,搜网页全文索引***采用并行处理方式,各个索引服务器并行的从海量存储***中批量的读取已经抓取回来的网页,利用中文分词功能,把网页内容分割成词序列,再根据词序列建立逆序索引结构,即按词→网页的顺序索引;同时将词汇出现在网页中的位置和次数等信息记录在索引结构中;批量网页的索引工作完成后,由索引数据管理器负责对并行索引结果进行合并,整合,统一存贮在海量存贮***中;再把统一的网页索引按照可控的固定大小进行分割,发送到索引查询集群中,为实际的搜索提供搜索基;包括
A)、中文分词:
B)、全文索引引擎:它使用中文分词功能对网页内容进行处理,生成词汇列表,然后统计各个词汇在网页内的出现位置,频度信息;根据这些信息建立词汇到网页的逆向索引序,存入索引文件;全文索引引擎并行工作,可以同时对网页进行索引;
C)、索引数据管理:负责把各个分散的索引文件进行合并及优化,然后统一存放在海量存贮***内,同时,管理器会根据设定触发条件对所有的索引内容进行定长分割,并将分割后的索引段发送至各个索引检索服务器,由索引检索服务器缓存在内存中,再由检索阵列来实现高速,并行的查询功能。
9、根据权利要求1所述的模板式网站自动生成***,其特征在于:所述的索引检索子***是用户直接使用的前端***,它由若干个索引检索服务器组成的检索阵列及查询广播/合并***和web集群***构成;包括
A)、检索服务器阵列:每台服务器上分配若干个索引子集;当接到查询请求时,所有的服务器并行工作,可在几十个毫秒内完成各自索引子集的查询;然后上报查询结果;
B)、查询广播/合并***:它指挥若干个服务器协同工作:把每个查询请求发送到检索阵列中的每一台服务器中,同时迅速地把查询结果汇集起来,再把查询结果发送回相应地网络服务器;所有的操作完成不超过1秒钟;它使用动态可伸缩架构,可以根据***负载情况增减阵列内的服务器;不同的查询被均衡的发布到阵列之中,指派其中一台服务器负责某一个查询;各个服务器使用UDP广播功能及UDP定点发送功能进行查询广播和结果收集;再将结果汇集后在发送给前端的网络服务器;
C)、网页服务器集群:前置服务器由高性能服务器充当负载均衡器;若干个台服务器作为实际的网页服务器,每个网页服务器定时把负载情况通报给均衡器;当有查询请求通过http协议到达时,前置服务器根据当时各个网页服务器的负载情况,将该请求转发到较空闲的某一台服务器中,然后继续处理下一次请求。
10、一种具有搜索功能的模板式网站自动生成***方法,其特征在于:它包括:
1)、用户注册:输入其资料,该数据将被存入***数据库中;用户注册成功;
2)、进入网站自动生成向导***:它包括
A)、用户根据其需求选择模板:
B)、选择栏目链接:用户进行拦目选择或自行输入链接文字;
C)、输入各栏目的信息资料,该信息将是网站上被浏览的信息;
D)、如果用户有产品要展示,则可在此步骤中发布产品图片及各种文字信息;
F)、网站预览:用户可以预览***自动生成的网页;并可回到前面步骤去修改、增加、删除已输入的信息;
G)、搜索功能框自动生成:上述各种信息被搜索引擎自动收录;
H)、网站发布:用户选择直接发布网站,可在浏览器地址栏输入主页网址,则网站发布成功;
I)、用户如果要更改和维护网站内容,则进入“会员登录”,可在网站管理界面中进行修改、增加、删除已输入的网站信息。
11、根据权利要求10所述的模板式网站自动生成***方法,其特征在于:它包括:选择“留言管理”:它可直接删除和回复客户的留言。
12、根据权利要求10所述的模板式网站自动生成***方法,其特征在于:它包括:用户根据其需求选择“域名管理”:它可进行网站注册、转入和绑定域名。
13、根据权利要求10所述的模板式网站自动生成***方法,其特征在于:它包括:选择“邮箱管理”:设置带用户自己域名后缀的邮箱。
CN 200510137479 2005-12-30 2005-12-30 具有搜索功能的模板式网站自动生成***及其方法 Pending CN1794239A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200510137479 CN1794239A (zh) 2005-12-30 2005-12-30 具有搜索功能的模板式网站自动生成***及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510137479 CN1794239A (zh) 2005-12-30 2005-12-30 具有搜索功能的模板式网站自动生成***及其方法

Publications (1)

Publication Number Publication Date
CN1794239A true CN1794239A (zh) 2006-06-28

Family

ID=36805673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510137479 Pending CN1794239A (zh) 2005-12-30 2005-12-30 具有搜索功能的模板式网站自动生成***及其方法

Country Status (1)

Country Link
CN (1) CN1794239A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102047247A (zh) * 2008-03-31 2011-05-04 威仕达品特技术有限公司 灵活的网页模板构建***和方法
CN102104617A (zh) * 2010-11-30 2011-06-22 厦门雅迅网络股份有限公司 一种网站运营***存储海量图片数据的方法
CN102567331A (zh) * 2010-12-15 2012-07-11 苏州荣盈科技有限公司 一种***管理的操作方法
CN102567332A (zh) * 2010-12-15 2012-07-11 苏州荣盈科技有限公司 一种自助建站的方法
CN103135994A (zh) * 2013-03-21 2013-06-05 无锡君通软件有限公司 一种企业建站***及其建站方法
CN103399876A (zh) * 2013-07-11 2013-11-20 杭州瑞网广通信息技术有限公司 分布式文件***及其文件定位方法
CN103399915A (zh) * 2013-07-31 2013-11-20 北京华易互动科技有限公司 一种搜索引擎索引文件的优化读取方法
CN106802798A (zh) * 2016-12-29 2017-06-06 大连海天高和信息技术有限公司 一种网站制作方法
CN108829758A (zh) * 2018-05-28 2018-11-16 郑州悉知信息科技股份有限公司 一种网站构建方法和装置
CN109376328A (zh) * 2018-10-17 2019-02-22 杭州络町软件科技有限责任公司 一种私募公司门户网站创建***、方法及管理端、设备
CN110688603A (zh) * 2019-10-18 2020-01-14 郑瑞文 网站界面自动变化
CN113704589A (zh) * 2021-09-03 2021-11-26 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网***

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102047247A (zh) * 2008-03-31 2011-05-04 威仕达品特技术有限公司 灵活的网页模板构建***和方法
CN102047247B (zh) * 2008-03-31 2013-07-10 威仕达品特技术有限公司 灵活的网页模板构建***和方法
CN102104617A (zh) * 2010-11-30 2011-06-22 厦门雅迅网络股份有限公司 一种网站运营***存储海量图片数据的方法
CN102567331A (zh) * 2010-12-15 2012-07-11 苏州荣盈科技有限公司 一种***管理的操作方法
CN102567332A (zh) * 2010-12-15 2012-07-11 苏州荣盈科技有限公司 一种自助建站的方法
CN103135994A (zh) * 2013-03-21 2013-06-05 无锡君通软件有限公司 一种企业建站***及其建站方法
CN103399876A (zh) * 2013-07-11 2013-11-20 杭州瑞网广通信息技术有限公司 分布式文件***及其文件定位方法
CN103399915A (zh) * 2013-07-31 2013-11-20 北京华易互动科技有限公司 一种搜索引擎索引文件的优化读取方法
CN106802798A (zh) * 2016-12-29 2017-06-06 大连海天高和信息技术有限公司 一种网站制作方法
CN108829758A (zh) * 2018-05-28 2018-11-16 郑州悉知信息科技股份有限公司 一种网站构建方法和装置
CN109376328A (zh) * 2018-10-17 2019-02-22 杭州络町软件科技有限责任公司 一种私募公司门户网站创建***、方法及管理端、设备
CN109376328B (zh) * 2018-10-17 2021-07-16 杭州络町软件科技有限责任公司 一种私募公司门户网站创建***、方法及管理端、设备
CN110688603A (zh) * 2019-10-18 2020-01-14 郑瑞文 网站界面自动变化
CN113704589A (zh) * 2021-09-03 2021-11-26 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网***
CN113704589B (zh) * 2021-09-03 2023-10-13 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网***

Similar Documents

Publication Publication Date Title
CN1794239A (zh) 具有搜索功能的模板式网站自动生成***及其方法
CN1822005A (zh) 基于网站自动生成和搜索引擎的信息推送***及方法
CN1253813C (zh) 内容-索引搜索***和方法
Kumar et al. Keyword query based focused Web crawler
CN110597981B (zh) 一种采用多策略自动生成摘要的网络新闻概要***
CN100541495C (zh) 一种个性化搜索引擎的搜索方法
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析***
CN1858733A (zh) 信息检索***和检索方法
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
CN101055587A (zh) 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN101251852B (zh) 面向领域的Web数据集成***和方法
CN1809804A (zh) 补充有提供对来自预定义搜索查询的搜索结果的访问的url的搜索引擎
CN101079064A (zh) 一种网页排序方法及装置
CN101042699A (zh) 基于访问控制的安全搜索引擎***
CN102521337A (zh) 一种基于海量知识网络的学术社区***
CN102054004A (zh) 一种网页推荐方法和装置
CN1610903A (zh) 更新指纹数据库的方法、客户机及服务器
CN1468403A (zh) 用户容易使用的因特网搜索***及其方法
CN1912872A (zh) 一种提取新词的方法和***
CN1825308A (zh) 网络搜寻***及方法
CN1791022A (zh) 一种日志分析方法和***
CN102063488A (zh) 一种基于语义的代码搜索方法
CN1877583A (zh) 访问标识索引***及访问标识索引库生成方法
CN1932816A (zh) 基于密文的全文检索***
CN101042747A (zh) 经济运行分析***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication