CN101127050A - 一种从网页中自动提取网站拥有者行政属地信息的方法 - Google Patents

一种从网页中自动提取网站拥有者行政属地信息的方法 Download PDF

Info

Publication number
CN101127050A
CN101127050A CNA2007101429917A CN200710142991A CN101127050A CN 101127050 A CN101127050 A CN 101127050A CN A2007101429917 A CNA2007101429917 A CN A2007101429917A CN 200710142991 A CN200710142991 A CN 200710142991A CN 101127050 A CN101127050 A CN 101127050A
Authority
CN
China
Prior art keywords
information
webpage
address
administrative
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101429917A
Other languages
English (en)
Inventor
罗英伟
汪小林
许卓群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CNA2007101429917A priority Critical patent/CN101127050A/zh
Publication of CN101127050A publication Critical patent/CN101127050A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种从网页中自动提取网站拥有者行政属地信息的方法,首先建立行政区划数据库,然后访问给定的网站,链接该网站的网页,提取网页的信息并与所建立的行政区划数据库中的信息进行匹配,直到获得该网页包含的行政属地信息;本方法对于在互联网上提供全面的“WHOIS查询”服务有重要作用;同时,也可以为人们从地理分布的角度了解和研究互联网的发展现状和发展趋势提供直接的帮助。

Description

一种从网页中自动提取网站拥有者行政属地信息的方法
技术领域:
本发明涉及网页内容提取技术,具体涉及一种从网站所属的网页中自动提取网站拥有者行政属地的方法。
背景技术:
随着Internet的不断普及与发展,互联网上的资源日趋庞大和复杂。如何确定互联网资源的地理位置信息,是人们非常关注的问题之一。当前,互联网的资源主要以网站为基本依托单位存在于互联网中,有效地确定网站拥有者的行政属地信息,将有助于人们从地理分布的角度了解和研究互联网的发展现状和发展趋势。
目前,人们获得网站拥有者行政属地信息主要有以下几种技术手段:
(1)通过定位***来确定网站拥有者的行政属地,如全球定位***(Global PositioningSystem,GPS)、手机定位***等。但这种手段对于确定有限网站来说是有效的,但对于整个互联网来说,则并不可行。同时,获得的地理位置信息是网站所在物理机器的位置,由于互联网托管业务的存在,它并不能完全代表网站拥有者的行政属地。
(2)通过IP地址所属的区域来确定网站拥有者的行政属地。掌管IP分配的部门通常掌握有IP地址的地理分布信息,但这些信息仅仅是大跨度IP地址范围的分配信息,有些是按行政区划分配的,只到省一级;而另一部分,则是按行业或运营商分配的,并不包含地理信息。而且,随着互联网托管业务的发展,IP地址的地理位置,并不能代表网站拥有者的行政属地。
(3)通过注册机构来确定网站拥有者的行政属地。比如中国互联网信息中心(ChinaInternet Network Information Center,CNNIC,http://www.cnnic.net/),它要求用户注册域名时提供有关的地理位置信息,由此可以得到有关网站拥有者的行政属地信息。但这种信息也有其局限性,一方面同样由于托管等原因,它并不能完全正确反映网站拥有者的行政属地;另一方面,由于管理的原因,一个注册机构并不能完整拥有整个互联网上所有的域名信息。
从上面的分析可以看出,不管是哪种方法,基本上都是需要人工进行收集,并且并不能正确反映网站拥有者的行政属地。
发明内容:
本发明旨在提供一种方法,能够自动获取所有网站的拥有者的行政属地信息。
本发明的从网页中自动提取网站拥有者行政属地信息的方法,其步骤包括:
1)建立行政区划数据库,该数据库存储下列信息:
省、自治区、直辖市全称和简称;
与省、自治区、直辖市具有从属关系的市一级行政区划全称和简称;
与市一级行政区划匹配的电话区号;
与市一级行政区划匹配的邮政编码;
2)访问给定的网站,链接该网站的网页;
3)分别按照下述方式提取网页的信息,与数据库中的行政区划信息进行匹配,直到获得该网页包含的行政属地信息:
提取该网页的标题信息;
以提示邮政编码信息的关键词检索该网页源文件,提取关键词后的连续6个数字信息;
以提示直接地址信息的关键词检索该网页源文件,提取关键词后的汉字内容;
以提示电话区号信息的关键词检索该网页源文件,提取关键词后的电话号码信息;
以提示版权信息的关键词检索该网页源文件,提取关键词前后的汉字内容;
以提示营业执照信息的关键词检索该网页源文件,提取关键词前的一个汉字内容;
根据该网页的URL提取地址信息。
所述提示邮政编码信息的关键词包括但不限于下列关键词的一种或几种:“联系地点”,“联系方式”,“邮编”,“邮汇请寄”,“address”,“邮政编码”,“地址”,“办公地点”,“联系方法”,“社址”,“联系地点:”,“联系方式:”,“邮编:”,“邮汇请寄:”,“address:”,“邮政编码;”,“地址:”,“办公地点:”,“联系方法:”,“社址:”,“联系地点:”,“联系方式:”,“邮编:”,“邮汇请寄:”,“address:”,“邮政编码:”,“地址:”,“办公地点:”,“联系方法:”,“社址:”;
所述提示直接地址信息的关键词包括但不限于下列关键词的一种或几种:“主办单位”,“联系地点”,“联系方式”,“邮汇请寄”,“address”,“地址”,“所属地区”,“发售地点”,“技术支持”,“制作维护”,“公司全称”,“办公地点”,“联系方法”,“单位所在省市”,“单位所在地”,“单位名称”,“社址”,“承办单位”,“add”,“主办单位:”,“联系地点:”,“联系方式:”,“邮汇请寄:”,“address:”,“地址:”,“所属地区:”,“发售地点:”,“技术支持:”,“制作维护:”,“公司全称:”,“办公地点:”,“联系方法:”,“单位所在省市:”,“单位名称:”,“社址:”,“承办单位:”,“add:”,“主办单位:”,“联系地点:”,“联系方式:”,“邮汇请寄:”,“address:”,“地址:”,“所属地区:”,“发售地点:”,“技术支持:”,“制作维护:”,“公司全称:”,“办公地点:”,“联系方法:”,“单位所在省市:”,“单位名称:”,“社址:”,“承办单位:”,“add:”;
所述提示电话区号信息的关键词包括但不限于下列关键词的一种或几种:“联系方式”,“电话”,“tel”,“Tel”,“TEL”,“客户服务热线”,“传真”,“联系方法”,“address”,“telephone”,“Fax”,“热线”,“联系方式:”,“电话:”,“tel:”,“telephone:”,“客户服务热线:”,“传真:”,“联系方法:”,“TEL:”,“Tel:”,“Fax:”,“联系方式:”,“电话:”,“tel:”,“telephone:”,“客户服务热线:”,“address:”,“传真:”,“联系方法:”,“TEL:”,“Tel:”,“Fax:”,“热线:”;
所述提示版权信息的关键词包括但不限于下列关键词的一种或几种:“版权所有”,“&copy”,“责任公司”,“有限公司”,“制作维护”,“CopyRights”;
所述提示营业执照信息的关键词包括但不限于下列关键词的一种或几种:“ICP证”,“ICP备”。
上述网页为主页。
当从网站的主页中提取不到行政属地信息时,链接该网站的地理特征网页,按与主页相同的方式提取相关信息,直到获得行政区划信息;所述地理特征网页为满足下列条件之一的网页:
1.该网页的URL名中含有下列之一的关键词:Gsjs.htm company.htm contact.htm/about/lxff.htm dxjj.htm gsjj.htm;
2.该网页标题中含有下列之一的关键词:简介,介绍,关于我们,概况;
3.跳到该网页的链接中含有下列之一的关键词:公司介绍,关于我们,饭店介绍,公司信息,联系我们,关于站长,关于本站,联系我,与我联系,联系本人,关于本人,contact,学校概况,学校简介,公司简介,公司概述,联系方式,付款方式,业务联系,招聘信息,企业介绍。
对于地理特征网页,还可检索该地理特征网页的全文,与数据库中的行政区划信息进行匹配,获得该网页包含的行政属地信息。
当从主页中无法获得行政属地信息,且该网站没有地理特征网页时,或从地理特征网站中仍无法获得行政属地信息时,链接该网站的普通网页,按与主页相同的方式提取相关信息,直到获得行政属地信息。
本发明所采取的方法是分析网站拥有者行政属地信息在网站的网页中出现的规律,从网站的网页内容中自动提取出网站拥有者的行政属地信息,最终能够帮助建设一个网站拥有者行政属地关系数据库:<网站,所在省,所在市>。
本发明分两个步骤来完成网站拥有者行政属地信息的自动确定。首先是分析网站拥有者行政属地信息在网站的网页中出现的规律,其次是根据有关规律,制定相应的行政属地信息提取规则,自动获取网站拥有者的行政属地信息。
首先,经过实际分析,网页中地址信息出现的形式主要有以下几类:
■行政区划地名,如北京市、海淀区;江西省、南昌市。
■行政区划地名简称,这包括中文和拼音2种简称,如“京”表示北京市,“赣”表示江西省:“bj”表示北京市,“jx”表示江西省。
■电话区号,如010表示北京,0796表示江西省吉安市。
■邮政编码,如100871,表示北京大学。
依据这些信息,我们建立了行政区划有关的地址数据库,作为确定网站拥有者行政属地信息的依据,包括:
■<province,provinceAb1,provinceAb2,city,cityAb1,cityAb2>的关系数据库。数据库中的六个数据项分别为省、自治区和直辖市的全称和简称,其中第1个简称是中文,第2个简称是拼音;市一级行政单位的全称和简称。在一条记录中,city、cityAb1和cityAb2对应同一个市级行政单位,从属于province、provinceAb1和provinceAb2中存储的省级行政单位。
■<province,city,tel-code>的关系数据库。数据库中的三个数据项分别为省、自治区和直辖市的全称;市一级行政单位的全称;电话区号。在一条记录中,tel-code存储了city中存储的城市的电话区号,且该城市从属于province中存储的省级行政单位。
■<province,city,zipcode>的关系数据库。数据库中的三个数据项分别为省、自治区和直辖市的全称;市一级行政单位的全称;邮政编码。在一条记录中,zipcode存储了city中存储的城市的邮政编码,且该城市从属于province中存储的省级行政单位。
(1)网站中拥有者行政属地信息出现的规律分析
网站中拥有者行政属地信息出现的规律主要包括以下几种:
(I)URL自身的特征
很多以.cn作为顶级域名的门户网站以其所在地的省份简称作为二级域名,比如.bj.cn表示北京市的网站;.fj.cn表示福建省的网站等等。通过提取这些二级域名,可以很方便的获得网站拥有者行政属地信息。
安徽省  北京市  福建省  甘肃省  广东省  广西壮族自治区  贵州省  海南省
.ah.cn  .bj.cn  .fj.cn  .gs.cn  .gd.cn  .gx.cn          .gz.cn  .hi.cn
河北省  河南省  黑龙江省  湖北省  湖南省  吉林省  江苏省  江西省  辽宁省
.he.cn  .ha.cn  .hl.cn    .hb.cn  .hn.cn  .jl.cn  .js.cn  .jx.cn  .ln.cn
内蒙古自治区  宁夏回族自治区  青海省  山东省  山西省  陕西省  上海市
.nm.cn        .nx.cn          .qh.cn  .sd.cn  .sx.cn  .sn.cn  .sh.cn
四川省 天津市 西藏自治区 新疆维吾尔自治区  云南省  浙江省  重庆市
.sc.cn .tj.cn .xz.cn     .xj.cn            .yn.cn  .zj.cn  .cq.cn
直接从URL获得地址的办法也可以适用于通过三级域名确定市一级行政单位,比如.fz.fj.cn可以确定是福建省福州市。
(II)标题里反映的地理信息
HTML文件中的大量tag标签提示了某一特定内容在网页中的特殊位置,这些提示可以用来帮助我们确定地理位置。比如<title><\title>标签,其中的内容是网页的标题,这些标题中往往包含了该网页所在的地址。
(III)主页中的地理信息
我们把网站中第一个具有实质内容的网页称为“主页”,大多数情况下,网站拥有者行政属地信息都在主页中出现。
网站拥有者行政属地信息在这类网页中出现的规律比较简单,一般是出现在网页的最下方或最上方。在出现网站拥有者行政属地信息的地方,在它们的前后往往都会有固定的关键词出现。根据不同类型的关键词,可以提取出相应的跟网站拥有者行政属地相关的地址内容。再根据这些地址内容,借助已建立的行政区划有关的地址数据库,就可以确定网站拥有者的行政属地信息。这些关键词分通常有五类:
■直接给出地址信息的关键词
在源文件中检索提示直接地址信息的关键词,并提取出关键词之后的30个汉字内容,网站拥有者行政属信息通常就包含在这30个汉字中(注:1、这里的30个汉字是经验值。2、这里的汉字内容并不是直接拷贝网页上的内容,而是经过了过滤处理,具体处理策略见后文)。此类关键词常见的包括(以空格分隔,下同):
主办单位联系地点联系方式邮汇请寄address地址所属地区发售地点技术支持制作维护公司全称办公地点联系方法单位所在省市单位所在地单位名称社址承办单位add
主办单位:联系地点:联系方式:邮汇请寄:address:地址:所属地区:发售地点:技术支持:制作维护:公司全称:办公地点:联系方法:单位所在省市:单位名称:
社址:承办单位:add:
主办单位:联系地点:联系方式:邮汇请寄:address:地址:所属地区:发售地点:技术支持:制作维护:公司全称:办公地点:联系方法:单位所在省市:单位名称:社址:承办单位:add:
上述所列的55个关键字并不是3次重复,请注意关键字后面有无标点,以及标点的半角、全角形式,不同的标点可以代表不同的关键字。
■给出电话区号的关键词
在源文件中检索提示电话号码的关键词,并提取出其后的电话号码。此类关键词常见的包括:
联系方式电话tel Tel TEL客户服务热线传真联系方法address telephone Fax热线
联系方式:电话:tel:telephone:客户服务热线:传真:联系方法:TEL:Tel:Fax:
联系方式:电话:tel:telephone:客户服务热线:address:传真:联系方法:TEL:Tel:Fax:热线:类似的,上述34个关键字也要区别它们所带的标点符号。
再根据电话号码的书写规范,提取出电话区号。电话号码的书写规范主要有:
86*** 86** 0086*** 0086** 0086—***— 0086—**— 0086***
0086** 0086—***— 0086—**— 0*** 0** 0***—
0**- 86+***+ 86+***+ +86*** +86** +86(***) +86(**) +86(***)
+86(**) (***) (**) (86)*** (86)** (86)*** (86)**
(86)*** (86)** (86)*** (86)** (86***) (86**)
■给出邮政编码的关键词
在源文件中检索提示邮政编码的关键词,并提取出其后(或隔了一个“(”之后)的连续6个数字作为邮政编码,同时需要检验第7个连续的有效字符不是数字(如果第7个字符还是数字,则前面所提取的6个数字可能并不是邮政编码)。此类关键词常见的包括(同样要区别它们所带的标点符号):
联系地点联系方式邮编邮汇请寄address邮政编码地址办公地点联系方法社址
联系地点:联系方式:邮编:邮汇请寄:address:邮政编码:地址:办公地点:
联系方法:社址:
联系地点:联系方式:邮编:邮汇请寄:address:邮政编码:地址:办公地点:联系方法:
社址:
■给出版权信息的关键词
在源文件中检索提示版权信息的关键词,并分别提取出关键词之前和之后的各30个汉字,共60个汉字的内容(注:1、这里的60个汉字是经验值。2、这里的汉字内容并不是直接拷贝网页上的内容,而是经过了过滤处理,具体处理策略见后文)。此类关键词常见的包括:
版权所有&copy责任公司有限公司制作维护CopyRights
■给出营业执照信息的关键词
在源文件中检索提示营业执照信息的关键词,并提取该关键词前紧挨着的最后一个汉字作为提取内容(注:这里的“紧挨着”是指经过了过滤处理以后紧挨着,具体处理策略见后文),该内容在正常情况下应当为省、自治区、直辖市的中文简称。这类关键词主要有2个:
ICP证 ICP备
(IV)地理特征网页
地理特征网页是一个网站中的一类特殊的网页,这类网页的主要内容就是介绍该网站拥有者的信息,因此可以认为该网页内容中出现的所有和地理位置相关的词汇均是反映该网站拥有者的行政属地。比如http://www.fzu.edu.cn/h31514/fzdxjj.html,该网页的主要内容就是介绍其属主福州大学的情况。
一般可以通过如下三条渠道来确定一个网页是地理特征网页:
■URL中的网页名字特征含有如下关键词:
Gsjs.htm company.htm contact.htm /about/ lxff.htm dxjj.htm gsjj.htm
在上例中,http://www.fzu.edu.cn/h31514/fzdxjj.html就含有dxjj.htm的关键字(“大学简介”的简拼)。
■网页标题中含有如下关键词:
简介介绍关于我们概况
在上例中,源代码中出现“<title>简介</title>”,即标题里含有“简介”的关键字。
■跳到该网页的链接提示中含有如下关键词:
公司介绍关于我们饭店介绍公司信息联系我们关于站长关于本站联系我与我联系
联系本人关于本人contact学校概况学校简介公司简介公司概述联系方式付款方式
业务联系招聘信息企业介绍
在上例中,可以通过在网页http://www.fzu.edu.cn/cindex/cindex.html中点击“学校简介”的链接进入http://www.fzu.edu.cn/h31514/fzdxjj.html。链接提示中含有“学校简介”的关键词。
需要特别说明的是,上述各类关键词,在下面的自动提取过程中,是可以根据实际需要进行不断的补充的,并不局限于上文所列举的。
(2)从网站的网页中自动获取网站拥有者行政属地信息
(I)网页内容过滤处理
这里以一个具体的例子来说明网页内容的过滤处理。下面是一个具体的网页源代码片段:
<td align=middle bgcolor=#D2D3DF nowrap width=′30′height=′30′>
<p><font color=′#000000′><b>单位<br>地址</b></font></p></td>
<td bgcolor=#DEDFE7 height=′35′>
<font color=′#000000′>中国广州沙面南街1号</font></td>
<td align=middle bgcolor=#D2D3DF width=′30′height=′30′>
<p><font color=′#000000′><b>单位<br>电话</b></font></p></td>
<td bgcolor=#DEDFE7 height=′35′>
<font color=′#000000′>+86 20 81886968</font></td>
<td align=middle bgcolor=#D2D3DF height=′30′width=′30′>
<p><font color=′#000000′><b>单位<br>传真</b></font></p></td>
<td bgcolor=#DEDFE7 height=′35′>
<font color=′#000000′>+86 20 81861188</font></td>
<td align=middle bgcolor=#D2D3DF width=′30′height=′30′>
<p><font color=′#000000′><b>单位<br>邮编</b></font></p></td>
<td bgcolor=#DEDFE7 height=′35′>
<font color=′#000000′>510070</font></td>
这个源代码片段在网页里的表现形式是一个如下的Table:
Figure A20071014299100121
“地址”、“电话”、“传真”和“邮编”是可以用来提取地址信息的关键词,但是在上例中,这些关键词和其后含有信息的网页内容并不是紧挨着的,中间***了一些关于字体、颜色等等的修饰信息,这就需要在提取关键词前后的信息时对这些修饰信息加以过滤:
●过滤掉所有的“空格符”。
●过滤掉所有的“回车符”。
●过滤掉所有的“Tab”(制表符)。
●过滤掉所有的“◇”中的内容(可以用一个堆栈计算“◇”的匹配,处理“◇”嵌套的问题)。
(II)提取一个网页中地址信息的Search模块
Search模块的作用是从一个已知内容的网页中提取出网站拥有者行政属地信息。根据前面描述的规律,可以按照以下步骤进行提取(如图1所示):
●可否从标题获得地址?如果是,获得地址,跳出。
●可否从邮政编码获得地址?如果是,获得地址,跳出。
●可否从直接的地址信息获得地址?如果是,获得地址,跳出。
●可否从电话区号获得地址?如果是,获得地址,跳出。
●可否从版权信息获得地址?如果是,获得地址,跳出。
●可否从营业执照获得地址?如果是,获得地址,跳出。
●可否从URL直接获得地址?如果是,获得地址,跳出。
●是不是地理特征网页?如果是,可否全文检索获得地址?如果可以,获得地址,跳出。
否则,Search模块没有办法获得地址。
按照这样的顺序执行Search模块的原因:
首先,根据各个单项指标提取正确率的测试结果(具体样本采集及结果分析参见表1),按照从高到低的顺序安排了“标题测试”、“直接地址信息测试”、“邮政编码测试”、“电话区号测试”和“版权信息测试”。这五个单项指标的提取正确率都达到了95%以上,可以认为是基本可信的,所以一旦其中某一个测试得到了结果,就认为这个结果是正确的,不再做进一步的测试了。同时,如果某一个单项测试没有提取出地理位置,那么其后进行的其他单项测试仍然可能提取出地理位置,所以在这里,各个单项测试指标的提取覆盖率不影响它们执行的前后顺序。
其次,虽然使用营业执照信息和URL自身的信息的提取准确率都非常高(使用营业执照信息的准确率达到100%,参见表1),但是这两个提取指标在提取时只能达到省一级行政单位的精确度,不如其他五类提取指标的精确度,所以把这两个指标放在最后。
(III)提取一个网站地址信息的主模块
上面已经详细描述了从一个给定网页中提取地址信息的方法,这里讨论确定一个给定网站的拥有者行政属地信息的方法。换句话说,要找到一种流程,能够确定一个网站中最具有代表性的一个网页,并利用上面的方法处理该网页,获得网站拥有者行政属地信息。具体流程如图2所示。
●给定的网站能否访问?如果不能访问,无法获得地址,退出。
●该网站的主页使用Search模块能否获得地址?如果可以获得,退出。
●检查主页中的所有链接提示,是否能够找到地理特征网页的链接提示关键词。如果是,对于所有找到的链接提示,提取出其后的链接并跟踪,按照地理特征网页的处理办法处理这些链接到的网页。
●如果找不到这样的关键词或者找遍了所有这样的关键词所带的链接,仍然不能确定地址,对主页中的所有链接进行跟踪,并按处理“主页”的处理办法处理这些链接到的网页(称为普通网页)。这里并不对普通网页中的链接再做处理。
来看一下这样做的原因:
首先,仍然是只要在以上任一步骤中确定了地址,就不再往下做了。
其次,把提示地理特征网页的链接和普通链接分开处理,是基于效率上的考虑。地理特征网页的地理位置提取率要远远高于普通链接的网页,而且这一类网页链接的数目又要远远小于普通链接的数目。所以我们将这类链接和普通链接区分开来,优先处理。
首先,为了验证网站中拥有者行政属地信息出现的规律,我们依据北大“天网”搜索引擎的搜索记录,随机地选取了一些网站,分别对“直接地理位置信息”、“电话区号信息”、“邮政编码信息”、“标题信息”和“营业执照信息”五个单项指标进行了分类调查,总结出当网站的网页信息中拥有某类地址提示信息时,能够正确获得网站拥有者行政属地信息的比率,如表1所示。
表1分类调查结果
拥有该信息的网站数   信息正确的网站数     正确率
  直接地理位置信息     419个     397个     94.75%
  电话区号信息     342个     322个     94.15%
  邮政编码信息     101个     97个     96.04%
  标题信息     840个     808个     96.19%
  营业执照信息     221个     221个     100%
表1的结果说明了本发明方法的可用性。
其次,我们从中国互联网信息中心(CNNIC,http://www.cnnic.net)上收集了44685个网站及其拥有者的行政属地信息,按照其中二级域名的分类数量,按比例随机选择了634个网站,运用我们的方法进行测试,所得结果如表2所示。
表2 CNNIC上网站抽样分析结果1
具有该性质的网站数 所占比例
  网站无法连接 34 5.36%
  有提示,但信息不足 112 17.6%
  能确定网站拥有者行政属地 481 75.87%
  没有任何信息 7 1.10%
  总计 634个 100%
表2中,“有提示,但信息不足”指得是这些网站中出现过本发明中提到的各类关键词中的一个或几个,或者出现过引导地理特征网页链接的关键词。但是根据这些关键词提取出来的相关网页内容不足以帮助我们确定一个网站拥有者的行政属地,我们还需要额外的外部知识。主要原因在于我们所建的行政区划有关的地址数据库不够。如以拼音形式出现的地名“Beijing”,一些著名的景点、机构等与行政区划之间的关系,如“鲁能俱乐部”位于“山东济南”,“迎客松”代表“安徽黄山”等。
表2的结果说明了本发明的有效性,运用本发明方法,能够帮助建设一个网站拥有者行政属地关系数据库:<网站,所在省,所在市>。所建立的网站拥有者行政属地关系数据库,对于在互联网上提供全面的“WHOIS查询”服务有重要作用;同时,也可以为人们从地理分布的角度了解和研究互联网的发展现状和发展趋势提供直接的帮助。
附图说明:
图1是提取一个给定网页的地址信息的流程图,其中,“T”表示“是”,“F”表示“否”,(1)为“给定网页的URL”,(2)为“可否从标题获得地址?”,(3)为“可否从邮政编码获得地址?”,(4)为“可否从直接的地址信息获得地址?”,(5)为“可否从电话区号获得地址?”,(6)为“可否从版权信息获得地址?”,(7)为“可否从营业执照获得地址?”,(8)为“可否从URL直接获得地址?”,(9)为“是不是地理特征网页?”,(10)为“可否通过全文检索获得地址?”,(11)为“该网页所在位置”,(12)为“无法获得地址”。
图2是提取一个给定网站的地址信息的流程图,其中,“T”表示“是”,“F”表示“否”,(1)为“给定网站的URL”,(2’)为“该网站可否被访问?”,(3’)为“能否获得网站‘主页’?”,(4’)为“调用Search模块可否获得地址?”,(5’)为“是否存在未被访问的地理特征链接?”,(6’)为“对链接网页用Search模块获得地址?”,(7’)为“是否存在未被访问的普通链接?”,(8’)为“对链接网页用Search模块获得地址?”,(9’)为“获得网站的地址”,(10’)为“无法获得地址”。
具体实施方式:
下面通过几个具体的网站来说明如何实施本发明方法来确定网站拥有者行政属地。
(1)石家庄高新技术产业开发区网站(http://www.shidz.com/index.jsp),该网站主页拥有丰富的地址信息,本发明方法从其主页的标题信息“石家庄高新技术产业开发区”中,可以很快地确定该网站拥有者的行政属地为“河北省石家庄市”。
(2)同样在该网站的首页上,还包括以下信息:
园区概览|招商引资|诺亚招聘网|企业在线|产业园地|园区生活|网站地图|联系我们
      石家庄国家高新技术产业开发区管理委员会版权所有86-311-85095113 85962248
                    石家庄高新技术产业开发区信息中心运行维护
                    地址:石家庄市黄河大道151号  邮编:050035
                                冀ICP备 05011315
从上面的信息中,可以通过“直接地理位置信息”、“电话区号信息”、“邮政编码信息”和“营业执照信息”等各类关键词来确定该网站拥有者的行政属地。
(3)上面的主页信息中,也包含提示地理特征网页链接的关键词“园区概览”,其URL中的网页名字为“yqgk.jsp”,其具体内容为:
石家庄高新技术产业开发区是1991年3月经国务院批准设立的首批国家级开发区之一。经过十余年建设,高新区注册企业已达1520家,其中,外商投资企业110家,实际利用外资8.17亿美元,项目总投资超过200亿元人民币。涉及美国、德国、英国、意大利、日本、加拿大、瑞典、马来西亚、韩国、香港、澳门和台湾等十多个国家和地区。随着一大批项目的成功建设,初步形成了以电子通信、医药化工、光机电一体化、新材料为支柱的特色产业。四大支柱产业的技工贸总收入占全区技工贸总收入的80%以上。2003年全区实现技工贸总收入237.96亿元,实现工业总产值182.82亿元,实现财政收入4.87亿元,出口创汇1.41亿美元。
开发区政策区面积18平方公里,分为东区、西区、良村园区。
......
同样,可以通过对该网页的内容进行全文检索,得到“石家庄”这个地址信息,作为该网站拥有者的行政属地。

Claims (9)

1.一种从网页中自动提取网站拥有者行政属地信息的方法,其步骤包括:
1)建立行政区划数据库,该数据库存储下列信息:
省、自治区、直辖市全称和简称;
与省、自治区、直辖市具有从属关系的市一级行政区划全称和简称;
与市一级行政区划匹配的电话区号;
与市一级行政区划匹配的邮政编码;
2)访问给定的网站,链接该网站的网页;
3)分别按照下述方式提取网页的信息,与数据库中的行政区划信息进行匹配,直到获得该网页包含的行政属地信息:
提取该网页的标题信息;
以提示邮政编码信息的关键词检索该网页源文件,提取关键词后的连续6个数字信息;
以提示直接地址信息的关键词检索该网页源文件,提取关键词后的汉字内容;
以提示电话区号信息的关键词检索该网页源文件,提取关键词后的电话号码信息;
以提示版权信息的关键词检索该网页源文件,提取关键词前后的汉字内容;
以提示营业执照信息的关键词检索该网页源文件,提取关键词前的一个汉字内容;
根据该网页的URL提取地址信息。
2.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于过滤掉所述提取的网页信息中所有的空格符,回车符,制表符和所有<>中的内容。
3.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于所述简称包括汉字简称和汉语拼音简称。
4.如权利要求1或2所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于以提示直接地址信息的关键词检索该网页源文件,提取关键词后的30个汉字内容;以提示版权信息的关键词检索该网页源文件,提取关键词前后各30个汉字内容。
5.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于所述提示邮政编码信息的关键词包括但不限于下列关键词的一种或几种:“联系地点”,“联系方式”,“邮编”,“邮汇请寄”,“address”,“邮政编码”,“地址”,“办公地点”,“联系方法”,“社址”,“联系地点:”,“联系方式:”,“邮编:”,“邮汇请寄:”,“address:”,“邮政编码:”,“地址:”,“办公地点:”,“联系方法:”,“社址:”,“联系地点:”,“联系方式:”,“邮编:”,“邮汇请寄:”,“address:”,“邮政编码:”,“地址:”,“办公地点:”,“联系方法:”,“社址:”;
所述提示直接地址信息的关键词包括但不限于下列关键词的一种或几种:“主办单位”,“联系地点”,“联系方式”,“邮汇请寄”,“address”,“地址”,“所属地区”,“发售地点”,“技术支持”,“制作维护”,“公司全称”,“办公地点”,“联系方法”,“单位所在省市”,“单位所在地”,“单位名称”,“社址”,“承办单位”,“add”,“主办单位:”,“联系地点:”,“联系方式:”,“邮汇请寄:”,“address:”,“地址:”,“所属地区:”,“发售地点:”,“技术支持:”,“制作维护:”,“公司全称:”,“办公地点:”,“联系方法:”,“单位所在省市:”,“单位名称:”,“社址:”,“承办单位:”,“add:”,“主办单位:”,“联系地点:”,“联系方式:”,“邮汇请寄:”,“address:”,“地址:”,“所属地区:”,“发售地点:”,“技术支持:”,“制作维护:”,“公司全称:”,“办公地点:”,“联系方法:”,“单位所在省市:”,“单位名称:”,“社址:”,“承办单位:”,“add:”;
所述提示电话区号信息的关键词包括但不限于下列关键词的一种或几种:“联系方式”,“电话”,“tel”,“Tel”,“TEL”,“客户服务热线”,“传真”,“联系方法”,“address”,“telephone”,“Fax”,“热线”,“联系方式:”,“电话:”,“tel:”,“telephone:”,“客户服务热线:”,“传真:”,“联系方法:”,“TEL:”,“Tel:”,“Fax:”,“联系方式:”,“电话:”,“tel:”,“telephone:”,“客户服务热线:”,“address:”,“传真:”,“联系方法:”,“TEL:”,“Tel:”,“Fax:”,“热线:”;
所述提示版权信息的关键词包括但不限于下列关键词的一种或几种:“版权所有”,“&copy”,“责任公司”,“有限公司”,“制作维护”,“CopyRights”;
所述提示营业执照信息的关键词包括但不限于下列关键词的一种或几种:“ICP证”,“ICP备”。
6.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于所述网页为网站的主页。
7.如权利要求6所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于当从网站的主页中提取不到行政属地信息时,链接该网站的地理特征网页,按与主页相同的方式提取相关信息,直到获得行政区划信息;所述地理特征网页为满足下列条件之一的网页:
1)该网页的URL名中含有下列之一的关键词:Gsjs.htm company.htm contact.htm/about/lxff.htm dxjj.htm gsjj.htm;
2)该网页标题中含有下列之一的关键词:简介,介绍,关于我们,概况;
3)跳到该网页的链接中含有下列之一的关键词:公司介绍,关于我们,饭店介绍,公司信息,联系我们,关于站长,关于本站,联系我,与我联系,联系本人,关于本人,contact,学校概况,学校简介,公司简介,公司概述,联系方式,付款方式,业务联系,招聘信息,企业介绍。
8.如权利要求7所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于还可以提取该地理特征网页的全文信息,与数据库中的行政区划信息进行匹配,获得该网页包含的行政属地信息。
9.如权利要求7所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于当从主页中无法获得行政属地信息,且该网站没有地理特征网页时或从地理特征网站中仍无法获得行政属地信息时,链接该网站的普通网页,按与主页相同的方式提取相关信息,直到获得行政属地信息。
CNA2007101429917A 2007-07-03 2007-08-14 一种从网页中自动提取网站拥有者行政属地信息的方法 Pending CN101127050A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101429917A CN101127050A (zh) 2007-07-03 2007-08-14 一种从网页中自动提取网站拥有者行政属地信息的方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200710123572.9 2007-07-03
CN200710123572 2007-07-03
CNA2007101429917A CN101127050A (zh) 2007-07-03 2007-08-14 一种从网页中自动提取网站拥有者行政属地信息的方法

Publications (1)

Publication Number Publication Date
CN101127050A true CN101127050A (zh) 2008-02-20

Family

ID=39095081

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101429917A Pending CN101127050A (zh) 2007-07-03 2007-08-14 一种从网页中自动提取网站拥有者行政属地信息的方法

Country Status (1)

Country Link
CN (1) CN101127050A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426603A (zh) * 2011-11-11 2012-04-25 任子行网络技术股份有限公司 一种文字信息地域识别方法及装置
CN102651013A (zh) * 2012-03-23 2012-08-29 上海安捷力信息***有限公司 一种从企业名称数据中提取区域信息的方法及***
CN103064930A (zh) * 2012-12-21 2013-04-24 人民搜索网络股份公司 一种基于网页拓扑结构的网页地理位置识别方法
CN103870493A (zh) * 2012-12-14 2014-06-18 ***股份有限公司 对页面进行自动录入的***和方法
CN104077341A (zh) * 2013-07-19 2014-10-01 腾讯科技(北京)有限公司 即时通讯中生成关键词自动回复映射关系的方法和装置
CN104298416A (zh) * 2013-07-19 2015-01-21 腾讯科技(北京)有限公司 即时通讯中自动回复消息的生成方法和装置
CN104504069A (zh) * 2014-12-22 2015-04-08 北京奇虎科技有限公司 一种文档索引的建立方法和装置
CN104657486A (zh) * 2015-03-02 2015-05-27 武汉工程大学 一种基于多因子的行政区划的可信度计算的方法
CN104731977A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 电话号码数据的发现与分类方法
CN101661461B (zh) * 2008-08-29 2016-01-13 阿里巴巴集团控股有限公司 确定文档中核心地理信息的方法、***
CN105335864A (zh) * 2015-11-13 2016-02-17 小米科技有限责任公司 辅助地址信息显示方法、装置及***
CN106709065A (zh) * 2017-01-19 2017-05-24 国家电网公司 一种地址信息标准化处理方法及装置
US9794198B2 (en) 2013-07-19 2017-10-17 Tencent Technology (Shenzhen) Company Limited Methods and systems for creating auto-reply messages
CN107357851A (zh) * 2017-06-28 2017-11-17 国信优易数据有限公司 一种信息处理方法和***
CN108737589A (zh) * 2018-05-04 2018-11-02 哈尔滨工业大学(威海) 基于地理信息对域名进行画像的方法
CN109151088A (zh) * 2018-08-20 2019-01-04 下代互联网重大应用技术(北京)工程研究中心有限公司 基于Http日志的IPv6访问用户地理分布排名的统计方法
CN110399829A (zh) * 2019-07-23 2019-11-01 上海秒针网络科技有限公司 证件信息比对方法、装置、存储介质及电子装置
WO2020015171A1 (zh) * 2018-07-19 2020-01-23 平安科技(深圳)有限公司 电子装置、招商引资的目标对象确定方法、***及存储介质
CN110795573A (zh) * 2019-10-31 2020-02-14 北京邮电大学 一种网页内容的地理位置预测方法及装置
CN112040005A (zh) * 2020-09-10 2020-12-04 辽宁省交通高等专科学校 一种基于大数据的数据分包处理***

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661461B (zh) * 2008-08-29 2016-01-13 阿里巴巴集团控股有限公司 确定文档中核心地理信息的方法、***
CN102426603B (zh) * 2011-11-11 2014-06-18 任子行网络技术股份有限公司 一种文字信息地域识别方法及装置
CN102426603A (zh) * 2011-11-11 2012-04-25 任子行网络技术股份有限公司 一种文字信息地域识别方法及装置
CN102651013A (zh) * 2012-03-23 2012-08-29 上海安捷力信息***有限公司 一种从企业名称数据中提取区域信息的方法及***
CN102651013B (zh) * 2012-03-23 2014-04-16 上海安捷力信息***有限公司 一种从企业名称数据中提取区域信息的方法及***
CN103870493A (zh) * 2012-12-14 2014-06-18 ***股份有限公司 对页面进行自动录入的***和方法
CN103064930A (zh) * 2012-12-21 2013-04-24 人民搜索网络股份公司 一种基于网页拓扑结构的网页地理位置识别方法
US9794198B2 (en) 2013-07-19 2017-10-17 Tencent Technology (Shenzhen) Company Limited Methods and systems for creating auto-reply messages
CN104077341A (zh) * 2013-07-19 2014-10-01 腾讯科技(北京)有限公司 即时通讯中生成关键词自动回复映射关系的方法和装置
US10382368B2 (en) 2013-07-19 2019-08-13 Tencent Technology (Shenzhen) Company Limited Methods and systems for creating auto-reply messages
US10243889B2 (en) 2013-07-19 2019-03-26 Tencent Technology (Shenzhen) Company Limited Keyword based automatic reply generation in a messaging application
CN104298416A (zh) * 2013-07-19 2015-01-21 腾讯科技(北京)有限公司 即时通讯中自动回复消息的生成方法和装置
CN104298416B (zh) * 2013-07-19 2019-01-29 腾讯科技(北京)有限公司 即时通讯中自动回复消息的生成方法和装置
CN104504069A (zh) * 2014-12-22 2015-04-08 北京奇虎科技有限公司 一种文档索引的建立方法和装置
CN104657486B (zh) * 2015-03-02 2018-01-19 武汉工程大学 一种基于多因子的行政区划的可信度计算的方法
CN104657486A (zh) * 2015-03-02 2015-05-27 武汉工程大学 一种基于多因子的行政区划的可信度计算的方法
CN104731977B (zh) * 2015-04-14 2018-01-05 海量云图(北京)数据技术有限公司 电话号码数据的发现与分类方法
CN104731977A (zh) * 2015-04-14 2015-06-24 海量云图(北京)数据技术有限公司 电话号码数据的发现与分类方法
CN105335864A (zh) * 2015-11-13 2016-02-17 小米科技有限责任公司 辅助地址信息显示方法、装置及***
CN106709065A (zh) * 2017-01-19 2017-05-24 国家电网公司 一种地址信息标准化处理方法及装置
CN106709065B (zh) * 2017-01-19 2020-08-04 国家电网公司 一种地址信息标准化处理方法及装置
CN107357851B (zh) * 2017-06-28 2020-01-31 国信优易数据有限公司 一种信息处理方法和***
CN107357851A (zh) * 2017-06-28 2017-11-17 国信优易数据有限公司 一种信息处理方法和***
CN108737589A (zh) * 2018-05-04 2018-11-02 哈尔滨工业大学(威海) 基于地理信息对域名进行画像的方法
CN108737589B (zh) * 2018-05-04 2020-12-15 哈尔滨工业大学(威海) 基于地理信息对域名进行画像的方法
WO2020015171A1 (zh) * 2018-07-19 2020-01-23 平安科技(深圳)有限公司 电子装置、招商引资的目标对象确定方法、***及存储介质
CN109151088A (zh) * 2018-08-20 2019-01-04 下代互联网重大应用技术(北京)工程研究中心有限公司 基于Http日志的IPv6访问用户地理分布排名的统计方法
CN110399829A (zh) * 2019-07-23 2019-11-01 上海秒针网络科技有限公司 证件信息比对方法、装置、存储介质及电子装置
CN110795573A (zh) * 2019-10-31 2020-02-14 北京邮电大学 一种网页内容的地理位置预测方法及装置
CN110795573B (zh) * 2019-10-31 2021-09-28 北京邮电大学 一种网页内容的地理位置预测方法及装置
CN112040005A (zh) * 2020-09-10 2020-12-04 辽宁省交通高等专科学校 一种基于大数据的数据分包处理***

Similar Documents

Publication Publication Date Title
CN101127050A (zh) 一种从网页中自动提取网站拥有者行政属地信息的方法
Lozano et al. A complex network analysis of global tourism flows
Pine et al. Tourism and hotel development in China: From political to economic success
Liu et al. Analyzing Relatedness by Toponym Co‐O ccurrences on Web Pages
US20110145235A1 (en) Determining Core Geographical Information in a Document
CN104572645A (zh) 兴趣点数据关联方法及装置
CN103250151B (zh) 信息管理服务器、信息管理方法
Maurer et al. Europe's database experiment
CN102902711B (zh) 一种语用关键词通用模版的生成、应用方法与装置
CN109961324A (zh) 一种电商企业打上地域标签的标准化处理方法及***
Leng et al. The Geographical Sciences During 1986—2015: From the Classics To the Frontiers
CN107908627A (zh) 一种多语言的地图poi 搜索***
Chiu The transferability of public housing policy within Asia: Reflections from the Hong Kong-mainland China case study
CN103778122A (zh) 搜索方法和***
Owen Pinsent Masons water yearbook 2012–2013
Shi et al. Extraction of geospatial information on the Web for GIS applications
Zhang et al. Spatial inequality and dynamics of foreign hypermarket retailers in China
CN102708200A (zh) 商务信息检索***
CN101567150A (zh) 一种数字地图精确定位的方法
Jiang et al. Identifying drivers of China's provincial wastewater reuse outcomes using qualitative comparative analysis
Nam et al. Innovation space driving business growth of semiconductor enterprises: A case study of South Korean Samsung's investment in China
Zhao et al. Digital projects of Chinese historical local private documents: database development and exploring of text mining
Amighini The international expansion of Chinese auto firms: typology and trends
TW201040752A (en) Method and system for providing localized information
Cheng et al. Agglomeration and Competition among Chinese Cities: An Investigation of Taiwanese High‐Tech Foreign Direct Investment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication