CN103246719B - 一种基于Web的网络信息资源整合方法 - Google Patents

一种基于Web的网络信息资源整合方法 Download PDF

Info

Publication number
CN103246719B
CN103246719B CN201310152593.9A CN201310152593A CN103246719B CN 103246719 B CN103246719 B CN 103246719B CN 201310152593 A CN201310152593 A CN 201310152593A CN 103246719 B CN103246719 B CN 103246719B
Authority
CN
China
Prior art keywords
resource block
segmentation
resource
network information
division result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310152593.9A
Other languages
English (en)
Other versions
CN103246719A (zh
Inventor
冉青云
张润彤
陈东华
宋佳伟
莫仁鹏
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201310152593.9A priority Critical patent/CN103246719B/zh
Publication of CN103246719A publication Critical patent/CN103246719A/zh
Application granted granted Critical
Publication of CN103246719B publication Critical patent/CN103246719B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于web的网络信息资源整合方法,包括以下步骤:将异构网络信息资源统一为标准XML数据源;将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块;根据相关度对用户所需细分资源块进行排序;对排序后的所述用户所需细分资源块进行整合形成整合资源块并生成集成页面。本发明拓宽了网络信息资源整合的范围并可以根据需求的变化,将整合结果进行适时调整。

Description

一种基于Web的网络信息资源整合方法
技术领域
本发明涉及软件技术领域。更具体地,本发明涉及一种基于Web的网络信息资源整合方法。
背景技术
随着Web2.0的到来,网络信息资源数量急剧增加。面对这些大量的、分布的、异构的资源,用户往往需要花费更多的时间获取有用信息。虽然现有技术已日臻完善,但是仍无法很好地满足用户的需求。
Mashup是一种资源整合技术,它通过从网络中检索到的数据内容创建新的服务,将来自不同网络资源的内容进行重组,进而生成方便用户的资源集成界面。但是,如何管理信息集成结果,如何实现多数据源的Web相关应用数据的关联问题等问题仍需解决。
RSS也是一种资源整合技术。用户可以在RSS聚合站点或RSS阅读器中有针对性地订阅自己感兴趣的信息源。然而在处理大量的、繁杂的、冗余的网络信息时,RSS订阅器会要求用户重复接收相似信息。另外,用户必须安装RSS阅读器或登陆规定站点才可以使用服务。同时,用户在选择订阅内容时,必须是整个板块的所有信息,可操控性也不高。
因此,基于Web的异构网络信息资源的整合方法尚待提升,使访问不同数据源信息的过程更加智能化,进而可以满足用户快速、精确地访问资源的需求。
发明内容
本发明目的在于提供基于web的网络信息资源整合方法,将大量在结构和语义上存在差异的网络信息资源基于用户的需求进行不断细分,进而,重新整合。
具体的技术方案如下:
一种基于web的网络信息资源整合方法,包括以下步骤:
将异构网络信息资源统一为标准XML数据源;
将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块;
根据相关度对用户所需细分资源块进行排序;
对排序后的所述用户所需细分资源块进行整合形成整合资源块并生成集成页面。
所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块进一步包括以下步骤:
根据访问行为将所述标准XML数据源划分为网络资讯类、电子商务类、即时通信类、资讯共享类和其他类,保存为所述第一次划分结果;
将所述第一次划分结果按照URL前缀细分法、基于内容细分法、基于主题细分法或基于服务细分法获得所述细分资源块。
所述根据相关度对用户所需细分资源块进行排序还包括以下子步骤:
计算所述用户所需细分资源块的相关系数,进一步包括:
(1)根据下列公式计算权值W(xij,az),
W ( x ij , a z ) = ω ( x ij ) * ( ln ( F ( x ij , a z ) ) + 1 ) * IEF ( x ij )
IEF ( x ij ) = 1 + log N N i
其中,(xi,i=1,……K)表示第i个关键标准,K为该细分资源块az中的关键标准的总个数,(xij,j=1,……N)表示第i个关键标准中的第j个影响因素,N为该细分资源块az中的影响因素总个数,az(z=1,……,z为整数)表示第z个细分资源块;W(xij,az)表示所述影响因素在所述细分资源块az中的权值,表示影响因素xij在所述关键标准xi中所占的权重,F(xij,az)表示所述影响因素xij在所述细分资源块az中出现的频次,IEF(xij)是所述影响因素xij的反比元素频率,Ni为关键标准xi的影响因素在细分资源块az中出现的个数;
(2)根据下列公式计算关键标准xi的权重值W(xi),
W ( x i ) = Σ j = 1 n W ( x ij )
所述权重值W(xi)为关键标准xi在影响所述相关度时所占的权重;
(3)按照下列公式计算两个细分资源块的相关系数RXY
R XY = | ΣXY - 1 k ΣXΣY | [ ΣX 2 - 1 k ( ΣX ) 2 ] [ Σ Y 2 - 1 k ( ΣY ) 2 ]
其中,X为一个细分资源块中k个关键标准权重值的集合,Y为另一个细分资源块中k个关键标准权重值的集合。
根据相关度对用户所需细分资源块进行排序还包括以下子步骤:
按照所述相关系数RXY的大小判定所述两个细分资源块之间的相关度强弱并排序。
所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块进一步包括:
对所述细分资源块配置XSL模板。
所述对排序后的所述用户所需细分资源块进行整合形成整合资源块并生成集成页面进一步包括:
对所述标准化XML集成模块配置集成的所述XSL模板。
所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块进一步包括:
为所述细分资源块定义关键词;以及,
所述根据相关度对用户所需细分资源块进行排序进一步包括根据所述关键词检索出所述用户所需细分资源块。
本发明具有如下技术效果:
(1)相较于同一领域相关技术,本发明能够整合基于Web,并在结构和语义上存在较大差异的网络信息资源,这在一定程度上打破了一般在线RSS聚合器的格式限制,拓宽了网络信息资源整合的范围;
(2)基于模块化管理的思想,将已标准化的网络信息资源通过第一层划分、第二层细分,最终形成能够直接满足用户需求的细分资源块。相较于其他管理整合资源的方法,本发明能够精准定位用户需求,并可以根据需求的变化,将整合结果进行适时调整。本发明的方法使得资源的管理过程更为简单、灵活;
(3)本发明采用两层分类方法细化网络信息资源,这样避免了依据传统的单一因素细分方法带来的不完整、不适应和不规范。
附图说明
下面将参照附图并结合实施例对本发明进行具体说明。
图1为本发明方法流程图。
具体实施方式
下面参照附图并借助本发明的实施例,对本发明的技术方案做详细描述。
本发明基于Web的网络信息资源整合方法的包括以下步骤:
步骤S1、服务器将利用网络爬虫技术获取到的在结构上存在差异的网络信息资源,按照相应的转换方式,将这些在结构上具有差异的网络信息资源统一成一种标准XML数据源,并存储到本地。该标准XML数据源的表现形式举例如下:
所述XML数据源的含义是:用于标记子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。所述将结构上具有差异的网络信息资源(简称异构资源)按照相应的转换方式,统一成一种标准XML数据源是指:根据网络中存在的各类型的资源,如数据库资源,WebService资源,XML资源以及RSS资源分别按照各自的方式进行转换,最终形成标准XML文件用于存储原来资源中所包含的数据信息。具体的转换方式如下:
对异构资源中数据库资源的标准化处理方法:JSP通过建立与数据库的连接从而将数据库中的资源提取形成webpage,然后通过webpage转化成标准XML数据源,其中数据库资源的描述信息包括如数据来源、数据库地址、数据库名等。对于数据库资源使用数据库表构成的描述信息还可以包括如表名、列名等属性。服务器将数据库资源的所述描述信息分别对应保存到标准XML文件中的数据来源、数据库地址、数据库名、表名、列名等属性中,然后将数据库数据转换为标准的XML文件。具体实施示例如下:
<ModuleType>数据库资源</ModuleType>//数据标识
<Keyword>出版社</Keyword>//关键词
<DataResource>远程连接</DataResource>//数据来源
<DataType>SQLServer2000</DataType>//数据类型
<Address>211.71.68.69</Address>//数据库地址
<Database>书籍资料//数据库名
<Table>作者</Table>
<Column>作者姓名</Column>
<Column>书籍名称</Column>
……
<Table>出版</Table>
<Column>出版日期</Column>
<Column>书籍名称</Column>
……
</Database>
对异构资源中WebService资源的标准化处理方法:根据下述转化方式,通过建立WebService提供的API接口的信息与标准化的XML之间的转换关系,将属性与语义进行一对一的转化,从而将接口的信息形成标准化XML文件,属于现有技术。实施方式即通过传递给服务器XML文件的地址路径(path)、该webservice的url、一个命名空间(targetnamespace)和传递的参数值,然后调用webservicevisitor类,之后通过调用该webservice来返回需要的信息。具体实施示例如下:
<ModuleType>WebService资源</ModuleType>//数据标识
<Keyword>查询IP所在城市</Keyword>//关键词
<Url>http://ip.vsafe.net/FunWs.asmx</Url>//Url信息
<Parameter>218.249.50.179</Parameter>//参数
<Result>北京</Result>//结果
….…
对异构资源中XML资源的标准化处理方法:以一种统一标准格式解析异构资源中存在的不同类型的XML文件,将标准XML文件格式与XML资源的对应属性关联,形成XML标准数据。比如通过采用基于XMLSchema的模式映射转换方法,以一种统一标准格式解析该XML文件,形成XML标准数据,保存到XML文件(即标准XML数据源)中。具体实施示例如下:
<ModuleType>XML资源</ModuleType>
<Keyword>news.bjtu.cn</Keyword>
<Resource>news.xml</Resource>
<Attribute>News1</Attribute>
<Value>我校召开基本标准检查总结会</Value>
……
对异构资源中RSS资源的标准化处理方法:由于RSS资源本身即标准的XML文件,将各种网络资源的信息以XML格式保存,用户定制RSS资源时,服务器将RSS资源的地址及RssFeed地址保存到标准XML文件中的<RSSAddress>和<RSSFeed>中。显示数据模块时将RssFeed中的网页链接、标题、摘要等解析到XML文件,以XML文件的方式读取,显示数据。。具体实施示例如下:
<ModuleType>RSS资源</ModuleType>
<Keyword>finance.sina.com.cn</Keyword>
<RSSAddress>http://finance.sina.com.cn/nongye/nyhgjj/20121207/013913924647.shtml</RSSAddress>
<RSSFeed>中央1号文件或聚焦农业经营体制:不鼓励企业租地</RSSFeed>
……
步骤S2、根据访问行为,本发明将所述标准XML数据源进行第一层划分,可以分为五类网络信息资源作为第一次划分结果;
基于所述第一层划分结果,结合相对应的网络信息资源细分方法,将各类网络信息资源进行第二层细分,形成更详细的细分资源块。
本发明优选采用配置XSL模板的方式管理所述细分资源块。XSL文件用于抓取网页上的特定数据,这样的方式能够将网页上的几乎所有数据都能够准确快速地获得。在本步骤中,XSL模板主要是用来获取细分资源块(XML文件的形式)所包含的数据信息,有助于步骤S4整合标准化XML集成模块的页面显示。更重要的是,通过XSL文件可以自由选取所述标准XML数据源里的信息进行组合,可以满足用户适时调整的整合需求,其具体实施方式和有益效果将在步骤S4中予以详细说明。这里举一个XSL文件的实例:
步骤S2所述的基于访问行为的第一层划分,是本发明基于强调用户针对现有的主流网络信息资源具有的不同的访问动机和访问习惯将其分为了网络资讯类、电子商务类、即时通信类、资源共享类和其他类,具体说明见表1:
表1
基于第一层划分结果将各类网络信息资源进行第二层细分,是本发明结合各类网络信息资源的用户行为特征和资源本身具有的特征提出的URL前缀细分法、基于内容细分法、基于主题细分法和基于服务细分法这四种第二层细分方法。第一层划分中的所述五类网络资源可以按照例如表2与第二层细分中的四种细分法对应:
表2
其中URL前缀细分法的特征是利用URL前缀的不同来对信息量大的网络信息资源进行细分,比如网络资讯类。统一资源定位符URL能够唯一的表示一个Web网页,URL的格式可以简单表示为:主机名+路径名+文件名,本发明将主机名定义为URL前缀,而将具有相同URL前缀的网络信息资源细分为一个细分资源块,并用相对应的URL前缀作为唯一定义该细分资源块的“关键词”,对于用户而言,同一细分资源块所包含信息属于同一类别,例如:
URL为http://sports.sohu.com/20121203/n.shtmll和URL为http://sports.sohu.com/399007.shtml#0的两个地址,具有相同的URL前缀,虽然两者所代表的网页内容不同,但是对用户而言均属搜狐网关于体育方面的信息,所以将其作为一个细分资源块,定义其关键词为“sports.sohu.com”。这样可以方便用户按照其需求利用关键词进行检索。
如果采用根据网络信息资源所包含的主题、内容或服务三种方法细分资源块,同样的选用唯一的“关键词”作为检索辨识。
步骤S3、根据所述关键词检索出能够满足用户整合所需的细分资源块,并通过计算用户所需细分资源块相关系数,获得该用户所需细分资源块的相关度判定结果从而按照该相关度排序。
步骤S3中,所述相关系数的模型,具体如下:
一个细分资源块有K个元素作为判定相关度的关键标准,则可用(xi,i=1,……K)来表示每一个关键标准,每个关键标准有N个影响因素,则可用(xij,j=1,……N)来表示每一个影响因素。关键标准和影响因素将在说明书末尾的具体实施例中予以说明。
(1)计算影响因素xij在某一个细分资源块az(z=1,……,z为整数)中的权值W(xij,az),权值W(xij,az)表示影响因素xij对关键标准xi的影响程度。
W ( x ij , a z ) = &omega; ( x ij ) * ( ln ( F ( x ij , a z ) ) + 1 ) * IEF ( x ij )
IEF ( x ij ) = 1 + log N N i
其中,表示影响因素xij在关键标准xi中所占的权重,F(xij,az)表示影响因素xij在细分资源块az中出现频次,IEF(xij)是影响因素xij的反比元素频率,即影响关键标准xi的所有影响因素在整个影响因素集合中所占的比重。N为在细分资源块az中出现的影响因素的总个数,Ni为影响关键标准xi的影响因素在细分资源块az中出现的个数。
(2)计算关键标准xi的权重值W(xi),权重值W(xi)为关键标准xi在影响相关性时所占的权重。
W ( x i ) = &Sigma; j = 1 n W ( x ij )
(3)计算两个细分资源块a1、a2相关性,X为细分资源块a1中k个关键标准权重值的集合,Y为细分资源块a2中k个关键标准权重值的集合,RXY为细分资源块a1、a2的相关系数。
R XY = | &Sigma;XY - 1 k &Sigma;X&Sigma;Y | [ &Sigma;X 2 - 1 k ( &Sigma;X ) 2 ] [ &Sigma; Y 2 - 1 k ( &Sigma;Y ) 2 ]
按照所述相关系数RXY的大小判定所述两个细分资源块之间的相关度强弱并排序。其中,RXY的取值范围[0,1],RXY趋近于0说明两个细分资源块之间的相关度越低,RXY趋近于1说明两个细分资源块之间的相关度越高。对于一个具体的RXY值,一般地,本发明将两个细分资源块的相关度分为以下几种情况:RXY≥0.8时,视为高度相关;0.8>RXY≥0.5时,视为中度相关;0.5>RXY≥0.3时,视为低度相关;0.3>RXY≥0时,视为弱相关,即不相关。
步骤S4、根据一种自定义的规则比如按照相关度高低的原则,由高到低对这些排序后的各个所述细分资源块进行整合形成一个标准化XML集成模块。整合后的所述标准化XML集成模块包括数据域部分即为各所述细分资源块中的数据域部分之和,以及各细分资源块的标识信息即ModuleID节点中的内容。然后,对该标准化XML集成模块配置模板,以实现准确、快速获取整合资源块的信息的目的,最后,返回整合后结果并生成集成页面。这里所配置的模板其实是指由能够抓取这些细分资源快的多个XSL文件的集成,理论上是以“CSS文件”的形式存在的,其目的就是抓取能够集成整个满足用户需求的界面的数据。
下面是一个标准化XML集成模块例子的具体表现形式:当已知三个细分资源块的相关度高低时,作如下整合:
<ModuleID>0001</ModuleID>//第二个细分资源块标识信息
<ModuleType>XML资源</ModuleType><Keyword>news.bjtu.cn</Keyword>
<Resource>news.xml<Resource>
<Attribute>News1</Attribute>
<Value>我校召开基本标准检查总结会</Value>
<ModuleEnd>模块结束</ModuleEnd>
<ModuleID>0002</ModuleID>//第二个细分资源块标识信息
<ModuleType>RSS资源</ModuleType><Keyword>finance.sina.com</Keyword>
<RSSAddress>http://finance.sina.com.cn/nongye/nyhgjj/20121207/013913924647.shtml</RSSAddress>
<RSSFeed>中央1号文件或聚焦农业经营体制:不鼓励企业租地</RSSFeed>
<ModuleEnd>模块结束</ModuleEnd>
<ModuleID>0003</ModuleID>//第三个细分资源块标识信息
<ModuleType>数据库资源</ModuleType><Keyword>library.bjtu</Keyword>
<Address>211.71.66.42</Address>
<Table>书籍信息</Table>
<Column>书籍名称</Column>
<Column>出版日期</Column>
<ModuleEnd>模块结束</ModuleEnd>
实施例
下面以一个简单的例子对步骤S3和S4进一步解释说明:
首先,选择了三个会影响不同资源模块相关度的关键标准:“结构、内容、标识”。
其次,针对这三个关键标准,选择能够对其产生影响的影响因素(其中每一个关键标准都选择两个影响因素),具体见下表:
表示影响因素xij在关键标准xi中所占的权重,比如:“链接(href)”这个影响因素对“结构”这个关键标准的影响权重为0.24,而能够影响关键标准“结构”的所有影响因素的权重和为“1”。其中,值是使用者根据自身的要求确定的。
本实施例选择了新浪新闻、腾讯新闻、人人网和腾讯微博的资源模块来作为实例说明。
统计各影响因素在这些细分资源块中的出现频次,因为资源是实时更新的,在本实施例中考察的是平均频次:
链接(href) 图片(Img) 人名 地名 “评论” “时间”
新浪新闻 2070 212 197 159 17 39
腾讯新闻 1521 149 152 242 10 30
人人网 507 166 64 26 125 133
腾讯微博 405 35 6 16 47 58
根据以下两个公式:
W ( x ij , a z ) = &omega; ( x ij ) * ( ln ( F ( x ij , a z ) ) + 1 ) * IEF ( x ij )
W ( x i ) = &Sigma; j = 1 n W ( x ij )
计算结果如表:
R XY = | &Sigma;XY - 1 k &Sigma;X&Sigma;Y | [ &Sigma;X 2 - 1 k ( &Sigma;X ) 2 ] [ &Sigma; Y 2 - 1 k ( &Sigma;Y ) 2 ]
根据上面这个公式,我们最终可以得到以下的结果:
RXY 结论
新浪新闻,腾讯新闻 0.94927 高度相关
腾讯新闻,人人网 0.234466 弱相关
人人网,腾讯微博 0.532778 中度相关
人人网,新浪新闻 0.447349 低度相关
依据相关度进行整合:腾讯新闻+新浪新闻+腾讯微博+人人网
整合后的标准XML集成模块如下所示:
<ModuleID>0001</ModuleID>/--细分资源块1开始--/
<ModuleType>XML资源</ModuleType>
<Keyword>news.qq</Keyword>/--腾讯新闻--/
<Resource>http://news.qq.com/</Resource>
<Attribute>Entry1</Attribute>
<Value>全国新增2例H7N9禽流感病例1人死亡</Value>
<Attribute>Entry2</Attribute>
<Value>江苏卫生厅:板蓝根冲剂可预防H7N9禽流感</Value>
<ModuleEnd>0001</ModuleEnd>/--细分资源块1结束--/
<ModuleID>0002</ModuleID>/--细分资源块2开始--/
<ModuleType>XML资源</ModuleType>
<Keyword>news.sina</Keyword>/--新浪新闻--/
<Resource>http://news.sina.com.cn/</Resource>
<Attribute>Entry1</Attribute>
<Value>上海新增1例人感染H7N9禽流感死亡病例</Value>
<Attribute>Entry2</Attribute>
<Value>世卫组织:H7N9已发生变异易于感染人体</Value>
<ModuleEnd>0002</ModuleEnd>/--细分资源块2结束--/
<ModuleID>0003</ModuleID>/--细分资源块3开始--/
<ModuleType>数据库资源</ModuleType>
<Keyword>weibo.qq</Keyword>/--腾讯微博--/
<DataResource>http://t.qq.com</DataResource>
<Attribute>Entry1</Attribute>
<Value>走过青春的文字转播</Value>
<Attribute>Entry2</Attribute>
<Value>微博星座运势</Value>
<ModuleEnd>0003</ModuleEnd>/--细分资源块3结束--/
<ModuleID>0004</ModuleID>/--细分资源块4开始--/
<ModuleType>XML资源</ModuleType>
<Keyword>renren</Keyword>/--人人网--/
<Resource>http://www.renren.com</Resource>
<Attribute>Entry1</Attribute>
<Value>恋上古诗词</Value>
<Attribute>Entry2</Attribute>
<Value>考研周计划</Value>
<ModuleEnd>0004</ModuleEnd>/--细分资源块4结束--/
由上述例子可以看出,对于语义上也有差异的网络信息资源,通过相关度的度量,实现异构网络信息资源整合的同时,在独立的细分资源块间也能够建立一定的语义上的关联。
关于模板,由于步骤S2中配置了XSL模板,当用户需要调整整合需求,比如,当用户需求发生局部变化,本发明只需要在原标准化XML集成模块和相应的XSL模板中,进行移除无用资源、纳入有用资源等局部修改操作,即可。这样的操作既简单快捷,又不会导致原标准化XML集成模块中的其他细分资源块出错。
比如,在xml阅读器(一种工具)中打开新浪新闻,腾讯新闻,人人网,腾讯微博等较为原始的xml数据源(用S1步骤转化过来的XML文件),然后我们在这些xml文件中根据用户需求来选择有用信息(即获得有用信息在该xml文件中所在位置的节点信息,比如:当要获取“新鲜事”这个有用信息时,需要取得“人人网”所属的XML数据源文件中“新鲜事”所在位置的节点信息)。
最后把获得的节点信息写入对应的XSL模板(一个XML数据源对应一个XSL模板),而当用户整合需求发生改变时(如用户不想再订阅人人的信息),我们只需要对XSL模板里的信息进行改写(即把关于人人网信息的节点信息从XSL文件里删去),即实现了重新的整合。
应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。本发明的保护范围仅由随附权利要求书限定。

Claims (6)

1.一种基于web的网络信息资源整合方法,其特征在于,包括以下步骤:
步骤S1、将异构网络信息资源统一为标准XML数据源;
步骤S2、将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块;
步骤S3、根据相关度对用户所需细分资源块进行排序;所述步骤S3包括以下子步骤:
计算所述用户所需细分资源块的相关系数,进一步包括:
(1)根据下列公式计算权值W(xij,az),
W ( x i j , a z ) = &omega; ( x i j ) * ( l n ( F ( x i j , a z ) ) + 1 ) * I E F ( x i j )
I E F ( x i j ) = 1 + l o g N N i
其中,(xi,i=1,······K)表示第i个关键标准,K为该细分资源块az中的关键标准的总个数,(xij,j=1,······N)表示第i个关键标准中的第j个影响因素,N为该细分资源块az中的影响因素总个数,az(z=1,······,z为整数)表示第z个细分资源块;W(xij,az)表示所述影响因素在所述细分资源块az中的权值,表示影响因素xij在所述关键标准xi中所占的权重,F(xij,az)表示所述影响因素xij在所述细分资源块az中出现的频次,IEF(xij)是所述影响因素xij的反比元素频率,Ni为关键标准xi的影响因素在细分资源块az中出现的个数;
(2)根据下列公式计算关键标准xi的权重值W(xi),
W ( x i ) = &Sigma; j = 1 n W ( x i j )
所述权重值W(xi)为关键标准xi在影响所述相关度时所占的权重;
(3)按照下列公式计算两个细分资源块的相关系数RXY
R X Y = | &Sigma; X Y - 1 k &Sigma; X &Sigma; Y | &lsqb; &Sigma;X 2 - 1 k ( &Sigma; X ) 2 &rsqb; &lsqb; &Sigma;Y 2 - 1 k ( &Sigma; Y ) 2 &rsqb;
其中,X为一个细分资源块中k个关键标准权重值的集合,Y为另一个细分资源块中k个关键标准权重值的集合;
步骤S4、对排序后的所述用户所需细分资源块进行整合形成整合资源块并生成集成页面。
2.根据权利要求1所述的基于web的网络信息资源整合方法,其特征在于,所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块进一步包括以下步骤:
根据访问行为将所述标准XML数据源划分为网络资讯类、电子商务类、即时通信类、资讯共享类和其他类,保存为所述第一次划分结果;
将所述第一次划分结果按照URL前缀细分法、基于内容细分法、基于主题细分法或基于服务细分法获得所述细分资源块。
3.根据权利要求1所述的基于web的网络信息资源整合方法,其特征在于,所述根据相关度对用户所需细分资源块进行排序还包括以下子步骤:
按照所述相关系数RXY的大小判定所述两个细分资源块之间的相关度强弱并排序。
4.根据权利要求1或2所述的基于web的网络信息资源整合方法,其特征在于,所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块进一步包括:
对所述细分资源块配置XSL模板。
5.根据权利要求4所述的基于web的网络信息资源整合方法,其特征在于,所述对排序后的所述用户所需细分资源块进行整合形成整合资源块并生成集成页面进一步包括:
对所述标准化XML集成模块配置集成的所述XSL模板。
6.根据权利要求1所述的基于web的网络信息资源整合方法,其特征在于,所述将所述标准XML数据源进行第一层划分获得第一次划分结果,对该第一次划分结果进行第二层细分获得细分资源块进一步包括:
为所述细分资源块定义关键词;以及,
所述根据相关度对用户所需细分资源块进行排序进一步包括根据所述关键词检索出所述用户所需细分资源块。
CN201310152593.9A 2013-04-27 2013-04-27 一种基于Web的网络信息资源整合方法 Expired - Fee Related CN103246719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310152593.9A CN103246719B (zh) 2013-04-27 2013-04-27 一种基于Web的网络信息资源整合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310152593.9A CN103246719B (zh) 2013-04-27 2013-04-27 一种基于Web的网络信息资源整合方法

Publications (2)

Publication Number Publication Date
CN103246719A CN103246719A (zh) 2013-08-14
CN103246719B true CN103246719B (zh) 2016-03-09

Family

ID=48926239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310152593.9A Expired - Fee Related CN103246719B (zh) 2013-04-27 2013-04-27 一种基于Web的网络信息资源整合方法

Country Status (1)

Country Link
CN (1) CN103246719B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9736256B2 (en) * 2014-02-13 2017-08-15 Microsoft Technology Licensing, Llc Implementing server push at server stack
CN108170423A (zh) * 2017-12-27 2018-06-15 广州水木星尘信息科技有限公司 Html5共享开发平台***模版复合数据管理方法
CN108519968A (zh) * 2018-04-09 2018-09-11 北京智慧正安科技有限公司 刑事案件裁判文书生成方法、装置及计算机可读存储介质
CN110162356B (zh) * 2018-05-14 2021-09-28 腾讯科技(深圳)有限公司 页面的融合方法、装置、存储介质及电子装置
CN110929141B (zh) * 2018-09-20 2022-11-01 百度在线网络技术(北京)有限公司 团伙挖掘方法、装置、设备及存储介质
CN109684367B (zh) * 2018-12-20 2020-12-11 四川新网银行股份有限公司 一种动态调整多数据源数据集成处理方法与装置
CN113283723A (zh) * 2021-05-13 2021-08-20 温州科技职业学院 一种农业信息服务***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687922A (zh) * 2005-05-30 2005-10-26 北京慧讯信息技术有限公司 分布式数据源数据集成***及方法
US7596559B2 (en) * 2004-10-28 2009-09-29 International Business Machines Corporation Constraint-based XML query rewriting for data integration
CN102004777A (zh) * 2010-11-19 2011-04-06 中国科学院软件研究所 一种可定制的Web信息集成方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7596559B2 (en) * 2004-10-28 2009-09-29 International Business Machines Corporation Constraint-based XML query rewriting for data integration
CN1687922A (zh) * 2005-05-30 2005-10-26 北京慧讯信息技术有限公司 分布式数据源数据集成***及方法
CN102004777A (zh) * 2010-11-19 2011-04-06 中国科学院软件研究所 一种可定制的Web信息集成方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于XML的异构数据集成研究;张晓剑;《中国优秀硕士学位论文全文数据库-信息科技辑》;20090630(第 06 期);1-24页 *

Also Published As

Publication number Publication date
CN103246719A (zh) 2013-08-14

Similar Documents

Publication Publication Date Title
CN103246719B (zh) 一种基于Web的网络信息资源整合方法
Chianese et al. An associative engines based approach supporting collaborative analytics in the internet of cultural things
Auer et al. Triplify: light-weight linked data publication from relational databases
Gan et al. Research characteristics and status on social media in China: A bibliometric and co-word analysis
Ballatore et al. Geographic knowledge extraction and semantic similarity in OpenStreetMap
Mika Flink: Semantic web technology for the extraction and analysis of social networks
Bellini et al. Smart city architecture for data ingestion and analytics: Processes and solutions
Zhao et al. Impact of multimedia in sina weibo: Popularity and life span
CN103853759B (zh) 一种自适应表单的生成方法及***
Meijers et al. Using toponym co-occurrences to measure relationships between places: Review, application and evaluation
CN109033113A (zh) 数据仓库和数据集市的管理方法及装置
Wang et al. Analysis of hotspots in the field of domestic knowledge discovery based on co-word analysis method
Tachmazidis et al. A Hypercat-enabled semantic Internet of Things data hub
Akbar et al. Complete semantics to empower touristic service providers
Challenger The ontology and architecture for an academic social network
Vu et al. Sand: A tool for creating semantic descriptions of tabular sources
Lapp et al. Organizing our knowledge of biodiversity
Thuy et al. A semantic approach for transforming xml data into rdf ontology
Taelman et al. Exposing RDF archives using triple pattern fragments
Gordon et al. Designing agent based travel support system
Zhang et al. Semantic web and geospatial unique features based geospatial data integration
Gan et al. Exploiting high utility occupancy patterns
Guang et al. Detect redundant rdf data by rules
Usachev et al. Research of Correlation Dependencies in Russian Household Data Using Data Mining Methods
Budsapawanich et al. A Conceptual Framework for Linking Open Government Data Based-On Geolocation: A Case of Thailand

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Ran Qingyun

Inventor after: Zhang Runtong

Inventor after: Chen Donghua

Inventor after: Song Jiawei

Inventor after: Mo Renpeng

Inventor after: Zhang Jie

Inventor before: Ran Qingyun

Inventor before: Song Jiawei

Inventor before: Zhang Runtong

Inventor before: Mo Renpeng

Inventor before: Zhang Jie

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160309

Termination date: 20200427