CN103077210A - 一种基于云计算的数据获取方法及*** - Google Patents

一种基于云计算的数据获取方法及*** Download PDF

Info

Publication number
CN103077210A
CN103077210A CN2012105846101A CN201210584610A CN103077210A CN 103077210 A CN103077210 A CN 103077210A CN 2012105846101 A CN2012105846101 A CN 2012105846101A CN 201210584610 A CN201210584610 A CN 201210584610A CN 103077210 A CN103077210 A CN 103077210A
Authority
CN
China
Prior art keywords
data
word
terminal
internet
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105846101A
Other languages
English (en)
Other versions
CN103077210B (zh
Inventor
温陇德
刘涛
柳行刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201210584610.1A priority Critical patent/CN103077210B/zh
Publication of CN103077210A publication Critical patent/CN103077210A/zh
Application granted granted Critical
Publication of CN103077210B publication Critical patent/CN103077210B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明适用于云计算领域,提供了一种基于云计算的数据获取方法及***,所述方法包括:根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型,其中向量分析模型中的向量是由多个分量组成,每个分量为一个映射对,每个映射对包含一个词语及该词语在所有数据中一共出现的次数;按每个词语在所有数据中一共出现的次数由高至低进行排序,得到排序在前面预设次序中的词语;当再次从终端和/或互联网获取数据时,根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。本发明相对于现有技术来说更智能,更能满足用户需求。

Description

一种基于云计算的数据获取方法及***
技术领域
本发明属于云计算领域,尤其涉及一种基于云计算的数据获取方法及***。
背景技术
云计算需要对大量数据(包括网页、文档、音频、视频、图片等)进行存储、分析和处理,数据是云计算的前提和基础,随着云计算的发展,数据也显得越来越重要,因此数据的获取技术成为一个很重要的课题。
云计算中所需的数据通常需要由云服务器从终端或互联网上获取,但是现有技术中的数据获取方法还不够智能,通常都只是笼统地把相应路径下的所有数据都进行获取。例如把终端中相应目录下的所有数据,或者把跟云服务器互联的所有网页上的数据都进行获取,但这些数据的量通常十分庞大,尤其是互联网上的数据更是海量,这些数据可能绝大部分都不是用户所需要的数据,不能满足用户的需求。
发明内容
本发明实施例的目的在于提供一种基于云计算的数据获取方法,旨在解决现有技术云计算的数据获取方法不够智能、不能满足用户需求的问题。
本发明实施例是这样实现的,一种基于云计算的数据获取方法,所述方法包括:
根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型,其中向量分析模型中的向量是由多个分量组成,每个分量为一个映射对,每个映射对包含一个词语及该词语在所有数据中一共出现的次数;
按每个词语在所有数据中一共出现的次数由高至低进行排序,得到排序在前面预设次序中的词语;
当再次从终端和/或互联网获取数据时,根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。
本发明实施例的另一目的在于提供一种基于云计算的数据获取***,所述***包括:
向量分析模型建立模块,用于根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型,其中向量分析模型中的向量是由多个分量组成,每个分量为一个映射对,每个映射对包含一个词语及该词语在所有数据中一共出现的次数;
排序模块,用于按每个词语在所有数据中一共出现的次数由高至低进行排序,得到排序在前面预设次中的词语;
获取模块,用于当再次从终端和/或互联网获取数据时,根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。
在本发明中,由于采用了向量分析模型,并按词语出现的次数进行排序,云服务器根据排序结果对数据进行再获取,由于再获取时只获取排序在前面预设次序中的词语相应的数据,这些数据通常也是用户最想要的数据,因此本发明相对于现有技术来说更智能,更能满足用户需求。
附图说明
图1是本发明实施例提供的云服务器从互联网和终端上获取数据的示意图。
图2是本发明实施例一提供的基于云计算的数据获取方法的流程图。
图3是本发明实施例一提供的基于云计算的数据获取方法中步骤S103以后的流程图。
图4是本发明实施例一提供的基于云计算的数据获取方法中n叉树的存储结构示意图。
图5是本发明实施例二提供的基于云计算的数据获取***的功能模块框图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
本发明实施例提供的云服务器从互联网和终端上获取数据的示意图如图1所示。云服务器的数据获取***从互联网和终端上获取所需的数据,对获取到的数据进行智能处理,将处理完成后的数据同步至云服务器的数据库中,以满足云计算需要大量数据进行存储、分析和处理的需求。本发明实施例主要是对云服务器的数据获取***的数据获取方法进行改进。
实施例一:
请参阅图2,本发明实施例一提供的基于云计算的数据获取方法包括以下步骤:
S101、根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型,其中向量分析模型中的向量是由多个分量组成,每个分量为一个映射对,每个映射对包含一个词语及该词语在所有数据中一共出现的次数。
在本发明实施例一中,终端包括智能电视、智能移动终端、其他智能家电等智能终端。
在本发明实施例一中,数据包括网页、文档、音频、视频、图片等。
在本发明实施例一中,对于视频、音频和图片,数据中的词语是指文件名称中包含的词语;
在本发明实施例一中,所述预先从终端和/或互联网中获取并存储在云服务器中的数据具体为:
预先在预设的时间段内(例如三天内,该时间根据获取的数据量来决定,只要获取的数据量达到预定的数量时即可)从与云服务器互联的所有终端和/或互联网中获取并存储在云服务器中的数据。
在本发明实施例一中,步骤S101具体包括以下步骤:
对预先从终端和/或互联网中获取并存储在云服务器中的数据中包含的每个词语生成一个映射对,每个映射对包含一个词语及该词语在所有数据中一共出现的次数;
将所有映射对存于向量当中,生成向量分析模型。
S102、按每个词语在所有数据中一共出现的次数由高至低进行排序,得到排序在前面预设次序中的词语;
例如,在预先从终端和/或互联网中获取并存储在云服务器中的所有数据中,共有四个词语:张三、李四、王五和郑六,其中,张三出现的次数是5 1次,李四出现的次数是60次,王五出现的次数是1次,郑六出现的次数是2次,假设希望得到的是排在前2位的词语,即得到词语张三和李四;
S103、当再次从终端和/或互联网获取数据时,根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。
例如,步骤S102得到词语张三和李四,则步骤S103中,再次从终端和/或互联网获取数据时,仅从终端和/或互联网中获取包含词语张三或李四的数据。
在本发明实施例一中,所述从终端和/或互联网获取相应的数据具体为:
通过爬虫(Spider)获取互联网上与云服务器互联的服务器的数据和终端的除图片之外的数据,通过终端的DDMS(Dalvik Debug Monitor Service,Android开发环境中的Dalvik虚拟机调试监控服务)获取终端的图片数据。
在本发明实施例一中,所述DDMS是通过以下方式实现的:通过调用终端的DDMS接口,在Android终端中开发与DDMS对应的Android安装包,并封装为APK(Android Package,安卓安装包)形式,集成到Android终端***中。
在本发明实施例一中,由于采用了向量分析模型,并按词语出现的次数进行排序,云服务器根据排序结果对数据进行再获取,由于再获取时只获取排序在前面预设次序中的词语相应的数据,这些数据通常也是用户最想要的数据,因此本发明相对于现有技术来说更智能,更能满足用户需求。
请参阅图3,在本发明实施例一中,步骤S103以后,所述方法还可以包括以下步骤:
S104、统计所述排序在前面预设次序中的词语分别在再次从终端和/或互联网获取的每个数据中出现的次数;
S105、根据每个词语在不同的数据中出现的次数来确定不同的数据之间的匹配度;
S106、按照匹配度的值进行排序,将所述步骤S103中再次从终端和/或互联网获取的数据按序显示给用户,以获取用户的反馈。
例如,如果一个词语在两个数据(例如两个网页)中出现的次数相同,则得分10,如果次数差5-10,则减1分,即得9分,如果没有出现,则该项得0分。
在本发明实施例一中,步骤S106以后,所述方法还可以包括以下步骤:
S107、接收用户的反馈,建立用户反馈行为表,表项包括用户点击的词语、图片、视频、音频、网页、跳转关系、用户访问次数等;
S108、根据用户反馈行为表建立用户行为链接关系表;
例如,以获取的数据为互联网上的网页为例,所述步骤S108具体为:
通过用户点击过的链接来判断用户浏览过的页面,通过页面间的链接关系作为用户感兴趣的内容的依据,从用户点击过的内容来建立用户行为链接关系表作为用户感兴趣的内容的关系表。
S109、通过用户行为链接关系表来建立向量之间的映射关系,以向量之间的映射关系作为查询模型,通过所述查询模型来不断查询用户感兴趣的内容,最终以包含映射关系的向量分析模型为获取数据的最终模型。
在本发明实施例一中,由于通过采用向量分析模型与用户反馈行为表相结合的方法,使得数据获取更高效更智能,更能反映用户需求。
在本发明实施例一中,所述方法还可以包括以下步骤:
对于根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据采用n叉树的存储结构进行存储。具体为:
将所有的数据合并,利用n叉树的树结进行存储,每个树结(包括根结点、枝结点和叶结点)里存储多个词语,通过叶结点映射数据,对于同一个词语有多个数据映射的情况下,采用链的方式,每个数据中设有指向下一个含有相同词语的数据的链接。
n叉树的存储结构如图4所示,最上层为根结点,最下层为叶结点,其他层为枝结点。词语前面的数字是编号,例如:7张三15王东,这样查询的时候可以根据编号,判断要查询的词语在树的左子树还是右子树。数据查询时,从上面的树结往下面的树结,一结一结往下查询,无需查找网络中的所有文件。例如查询“张三”时,只需依次查:根结点(7张三15王东)、枝结点(2麻烦4代数7张三)和叶结点(5小孩6大人7张三)。
在本发明实施例一中,由于通过n叉树的存储结构与向量之间的映射关系,实现更有效、智能的获取用户需要的数据。
考虑到海量数据处理量很大,本发明实施例一将所述步骤S103中再次从终端和/或互联网获取的所有数据分成多个数据包,每一个数据包包含预定数据的数据,(例如5000-1万个数据),每个数据包内的数据采用一个n叉树的存储结构进行存储。对于多个数据包,采用一个中央服务器作为并发查询,供查阅每个数据包下的数据,利用云计算的映射\合并功能分发合并查询结果。
在本发明实施例一中,由于通过与并行分发处理方式的算法结合,提高了智能数据的处理效率。
另外,在本发明实施例一中,步骤S103中的根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据之前,所述方法还可以包括以下步骤:
开启多线程、获取http代理、进行数据接口定义,具体为:
1.开启多线程:
以doSpider()方法(云服务器中用于获取网页数据的接口)为起点,依次抓取网页的URL地址和详细信息保存至数据库;遍布查找所有文件时,加载相关的配置文件,使用IO文件流对象读取指定文件夹(即云服务器用来存储网页数据的文件夹)下的目录结构,为每个子文件夹设定一个启动线程,采集数据时线程启动,运行run()方法,多线程采集数据。
2.获取http代理:
从http-proxy-list.htm文件中(即代理服务器列表)抓取IP地址、端口号、网卡地址、类型等信息,保存信息到List对象(是代理服务器列表将相应的数据保存到相对应的对象列表)中,然后随机从List中取出一个HTTP代理(如果没有取到或连续多次未取到则返回NULL),判断代理是否可用,若代理不可用,则重新从列表中获取并删除无效的代理。
3.进行数据接口定义:
包括视频类数据接口定义、资讯类数据接口定义等等。
其中视频类数据结构包括:视频ID、类别ID、视频标题、视频描述、链接地址、时长、图片源地址、***、发布时间、标签、状态、总播放次数、最后修改人、创建年代、地区类别等等、
视频类数据结构具体定义如下所示:
private long seqid;//视频id
private String cateid;//类别id
private String title;//视频标题
private String description;//视频描述
private String link;//链接地址
private long playtimes;//总播放次数
private String lasteditor;//最后修改人
private String createyear;//创建年代
资讯类数据结构包括:资讯id、类别id、标题、摘要信息、链接地址、内容信息、图片地址、来源网站、发布时间、标签、信息状态、作者、浏览次数等等接口。
资讯类数据结构具体定义如下所示:
private long seqid;//资讯id
private String cateid;//类别id
private String title;//标题
private String brief;//摘要信息
private long readtimes;//浏览次数
private String lasteditor;//最后修改人
private String targetURL;//保持的URL
private String configLocation;配置文件位置
在本发明实施例一中,由于采用多线程技术,因此可以充分利用硬件资源,有效提高执行效率。
实施例二:
请参阅图5,本发明实施例二提供的基于云计算的数据获取***包括向量分析模型建立模块11、排序模块12和获取模块1 3,其中:
向量分析模型建立模块11用于根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型,其中向量分析模型中的向量是由多个分量组成,每个分量为一个映射对,每个映射对包含一个词语及该词语在所有数据中一共出现的次数。
在本发明实施例二中,终端包括智能电视、智能移动终端、其他智能家电等智能终端。
在本发明实施例二中,数据包括网页、文档、音频、视频、图片等。
在本发明实施例二中,对于视频、音频和图片,数据中的词语是指文件名称中包含的词语;
在本发明实施例二中,所述预先从终端和/或互联网中获取并存储在云服务器中的数据具体为:
预先在预设的时间段内(例如三天内,该时间根据获取的数据量来决定,只要获取的数据量达到预定的数量时即可)从与云服务器互联的所有终端和/或互联网中获取并存储在云服务器中的数据。
在本发明实施例二中,向量分析模型建立模块11包括:
映射对生成模块,用于对预先从终端和/或互联网中获取并存储在云服务器中的数据中包含的每个词语生成一个映射对,每个映射对包含一个词语及该词语在所有数据中一共出现的次数;
第一存储模块,用于将所有映射对存于向量当中,生成向量分析模型。
排序模块12用于按每个词语在所有数据中一共出现的次数由高至低进行排序,得到排序在前面预设次序中的词语;
例如,在预先从终端和/或互联网中获取并存储在云服务器中的所有数据中,共有四个词语:张三、李四、王五和郑六,其中,张三出现的次数是51次,李四出现的次数是60次,王五出现的次数是1次,郑六出现的次数是2次,假设希望得到的是排在前2位的词语,即得到词语张三和李四;
获取模块13用于当再次从终端和/或互联网获取数据时,根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。
例如,排序模块12得到词语张三和李四,则获取模块13再次从终端和/或互联网获取数据时,仅从终端和/或互联网中获取包含词语张三或李四的数据。
在本发明实施例二中,所述获取模块13具体用于通过爬虫(Spider)获取互联网上与云服务器互联的服务器的数据和终端的除图片之外的数据,通过终端的DDMS(Dalvik Debug Monitor Service,Android开发环境中的Dalvik虚拟机调试监控服务)获取终端的图片数据。
在本发明实施例二中,所述DDMS是通过以下方式实现的:通过调用终端的DDMS接口,在Android终端中开发与DDMS对应的Android安装包,并封装为APK(Android Package,安卓安装包)形式,集成到Android终端***中。
在本发明实施例二中,由于采用了向量分析模型,并按词语出现的次数进行排序,云服务器根据排序结果对数据进行再获取,由于再获取时只获取排序在前面预设次序中的词语相应的数据,这些数据通常也是用户最想要的数据,因此本发明相对于现有技术来说更智能,更能满足用户需求。
在本发明实施例二中,所述***还可以包括:
统计模块,用于统计所述排序在前面预设次序中的词语分别在再次从终端和/或互联网获取的每个数据中出现的次数;
匹配度确定模块,用于根据每个词语在不同的数据中出现的次数来确定不同的数据之间的匹配度;
显示模块,用于按照匹配度的值进行排序,将所述步骤S103中再次从终端和/或互联网获取的数据按序显示给用户,以获取用户的反馈。
例如,如果一个词语在两个数据(例如两个网页)中出现的次数相同,则得分10,如果次数差5-10,则减1分,即得9分,如果没有出现,则该项得0分。
在本发明实施例二中,所述***还可以包括以下步骤:
第一建立模块,用于接收用户的反馈,建立用户反馈行为表,表项包括用户点击的词语、图片、视频、音频、网页、跳转关系、用户访问次数等;
第二建立模块,用于根据用户反馈行为表建立用户行为链接关系表;例如以获取的数据为互联网上的网页为例,具体为:通过用户点击过的链接来判断用户浏览过的页面,通过页面间的链接关系作为用户感兴趣的内容的依据,从用户点击过的内容来建立用户行为链接关系表作为用户感兴趣的内容的关系表;
第三建立模块,用于通过用户行为链接关系表来建立向量之间的映射关系,以向量之间的映射关系作为查询模型,通过所述查询模型来不断查询用户感兴趣的内容,最终以包含映射关系的向量分析模型为获取数据的最终模型。
在本发明实施例二中,由于通过采用向量分析模型与用户反馈行为表相结合的方法,使得数据获取更高效更智能,且更能反映用户需求。
在本发明实施例二中,所述***还可以包括:
第二存储模块,用于对于根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据采用n叉树的存储结构进行存储。具体为:
将所有的数据合并,利用n叉树的树结进行存储,每个树结(包括根结点、枝结点和叶结点)里存储多个词语,通过叶结点映射数据,对于同一个词语有多个数据映射的情况下,采用链的方式,每个数据中设有指向下一个含有相同词语的数据的链接。
在本发明实施例二中,由于通过n叉树的存储结构与向量之间的映射关系,实现更有效、智能的获取用户需要的数据。
考虑到海量数据处理量很大,在本发明实施例二中,所述***还包括:
并发查询模块,用于将所述获取模块13再次从终端和/或互联网获取的所有数据分成多个数据包,每一个数据包包含预定数据的数据,(例如5000-1万个数据),每个数据包内的数据采用一个n叉树的存储结构进行存储,对于多个数据包,采用一个中央服务器作为并发查询,供查阅每个数据包下的数据,利用云计算的映射\合并功能分发合并查询结果。
在本发明实施例二中,由于通过与并行分发处理方式的算法结合,提高了智能数据的处理效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种基于云计算的数据获取方法,其特征在于,所述方法包括:
根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型,其中向量分析模型中的向量是由多个分量组成,每个分量为一个映射对,每个映射对包含一个词语及该词语在所有数据中一共出现的次数;
按每个词语在所有数据中一共出现的次数由高至低进行排序,得到排序在前面预设次中的词语;
当再次从终端和/或互联网获取数据时,根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。
2.如权利要求1所述的方法,其特征在于,所述根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型具体包括:
对预先从终端和/或互联网中获取并存储在云服务器中的数据中包含的每个词语生成一个映射对,每个映射对包含一个词语及该词语在所有数据中一共出现的次数;
将所有映射对存于向量当中,生成向量分析模型。
3.如权利要求1所述的方法,其特征在于,所述从终端和/或互联网获取相应的数据具体为:
通过爬虫Spider获取互联网上与云服务器互联的服务器的数据和终端的除图片之外的数据,通过终端的Dalvik虚拟机调试监控服务DDMS获取终端的图片数据。
4.如权利要求1所述的方法,其特征在于,所述根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据之后,所述方法还包括:
统计所述排序在前面预设次序中的词语分别在再次从终端和/或互联网获取的每个数据中出现的次数;
根据每个词语在不同的数据中出现的次数来确定不同的数据之间的匹配度;
按照匹配度的值进行排序,将获取的数据按序显示给用户,以获取用户的反馈。
5.如权利要求4所述的方法,其特征在于,所述按照匹配度的值进行排序,将获取的数据按序显示给用户,以获取用户的反馈之后,所述方法还包括:
接收用户的反馈,建立用户反馈行为表;
根据用户反馈行为表建立用户行为链接关系表。
通过用户行为链接关系表来建立向量之间的映射关系,以向量之间的映射关系作为查询模型,通过所述查询模型来不断查询用户感兴趣的内容,最终以包含映射关系的向量分析模型为获取数据的最终模型。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
对于根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据采用n叉树的存储结构进行存储。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述再次从终端和/或互联网获取的所有数据分成多个数据包,每一个数据包包含预定数据的数据,每个数据包内的数据采用一个n叉树的存储结构进行存储,对于多个数据包,采用一个中央服务器作为并发查询,供查阅每个数据包下的数据,利用云计算的映射\合并功能分发合并查询结果。
8.一种基于云计算的数据获取***,其特征在于,所述***包括:
向量分析模型建立模块,用于根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型,其中向量分析模型中的向量是由多个分量组成,每个分量为一个映射对,每个映射对包含一个词语及该词语在所有数据中一共出现的次数;
排序模块,用于按每个词语在所有数据中一共出现的次数由高至低进行排序,得到排序在前面预设次中的词语;
获取模块,用于当再次从终端和/或互联网获取数据时,根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。
9.如权利要求8所述的***,其特征在于,所述向量分析模型建立模块包括:
映射对生成模块,用于对预先从终端和/或互联网中获取并存储在云服务器中的数据中包含的每个词语生成一个映射对,每个映射对包含一个词语及该词语在所有数据中一共出现的次数;
第一存储模块,用于将所有映射对存于向量当中,生成向量分析模型。
10.如权利要求8所述的***,其特征在于,所述获取模块具体用于通过爬虫Spider获取互联网上与云服务器互联的服务器的数据和终端的除图片之外的数据,通过终端的Dalvik虚拟机调试监控服务DDMS获取终端的图片数据。
11.如权利要求8所述的***,其特征在于,所述***还包括:
统计模块,用于统计所述排序在前面预设次序中的词语分别在再次从终端和/或互联网获取的每个数据中出现的次数;
匹配度确定模块,用于根据每个词语在不同的数据中出现的次数来确定不同的数据之间的匹配度;
显示模块,用于按照匹配度的值进行排序,将获取的数据按序显示给用户,以获取用户的反馈。
12.如权利要求11所述的***,其特征在于,所述***还包括:
第一建立模块,用于接收用户的反馈,建立用户反馈行为表;
第二建立模块,用于根据用户反馈行为表建立用户行为链接关系表。
第三建立模块,用于通过用户行为链接关系表来建立向量之间的映射关系,以向量之间的映射关系作为查询模型,通过所述查询模型来不断查询用户感兴趣的内容,最终以包含映射关系的向量分析模型为获取数据的最终模型。
13.如权利要求8所述的***,其特征在于,所述***还包括:
第二存储模块,用于对于根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据采用n叉树的存储结构进行存储。
14.如权利要求8所述的***,其特征在于,所述***还包括:
并发查询模块,用于将所述再次从终端和/或互联网获取的所有数据分成多个数据包,每一个数据包包含预定数据的数据,每个数据包内的数据采用一个n叉树的存储结构进行存储,对于多个数据包,采用一个中央服务器作为并发查询,供查阅每个数据包下的数据,利用云计算的映射\合并功能分发合并查询结果。
CN201210584610.1A 2012-12-28 2012-12-28 一种基于云计算的数据获取方法及*** Expired - Fee Related CN103077210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210584610.1A CN103077210B (zh) 2012-12-28 2012-12-28 一种基于云计算的数据获取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210584610.1A CN103077210B (zh) 2012-12-28 2012-12-28 一种基于云计算的数据获取方法及***

Publications (2)

Publication Number Publication Date
CN103077210A true CN103077210A (zh) 2013-05-01
CN103077210B CN103077210B (zh) 2017-04-19

Family

ID=48153740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210584610.1A Expired - Fee Related CN103077210B (zh) 2012-12-28 2012-12-28 一种基于云计算的数据获取方法及***

Country Status (1)

Country Link
CN (1) CN103077210B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326224A (zh) * 2015-06-16 2017-01-11 珠海金山办公软件有限公司 一种文件查找方法及装置
CN107463137A (zh) * 2017-09-25 2017-12-12 山东大学 一种多源异构数据一体化同步采集设备及其方法
CN115344620A (zh) * 2022-10-19 2022-11-15 成都中科合迅科技有限公司 自定义数据池实现前后端分离后数据按需同步方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840418A (zh) * 2010-03-31 2010-09-22 北京搜狗科技发展有限公司 一种用户词库同步更新的方法、更新服务器及输入法***
CN101901245A (zh) * 2010-01-15 2010-12-01 莱克斯科技(北京)有限公司 一种基于云语义库的网页审计方法
CN102063486A (zh) * 2010-12-28 2011-05-18 东北大学 一种面向多维数据管理的云计算平台查询处理方法
CN102156711A (zh) * 2011-03-08 2011-08-17 国网信息通信有限公司 一种基于云存储的电力全文检索方法及***
US20110202333A1 (en) * 2001-03-16 2011-08-18 Meaningful Machines, LLC Knowledge System Method and Apparatus
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202333A1 (en) * 2001-03-16 2011-08-18 Meaningful Machines, LLC Knowledge System Method and Apparatus
CN101901245A (zh) * 2010-01-15 2010-12-01 莱克斯科技(北京)有限公司 一种基于云语义库的网页审计方法
CN101840418A (zh) * 2010-03-31 2010-09-22 北京搜狗科技发展有限公司 一种用户词库同步更新的方法、更新服务器及输入法***
CN102063486A (zh) * 2010-12-28 2011-05-18 东北大学 一种面向多维数据管理的云计算平台查询处理方法
CN102156711A (zh) * 2011-03-08 2011-08-17 国网信息通信有限公司 一种基于云存储的电力全文检索方法及***
CN102546771A (zh) * 2011-12-27 2012-07-04 西安博构电子信息科技有限公司 基于特征模型的云挖掘网络舆情监测***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326224A (zh) * 2015-06-16 2017-01-11 珠海金山办公软件有限公司 一种文件查找方法及装置
CN107463137A (zh) * 2017-09-25 2017-12-12 山东大学 一种多源异构数据一体化同步采集设备及其方法
CN107463137B (zh) * 2017-09-25 2021-01-01 山东大学 一种多源异构数据一体化同步采集设备及其方法
CN115344620A (zh) * 2022-10-19 2022-11-15 成都中科合迅科技有限公司 自定义数据池实现前后端分离后数据按需同步方法

Also Published As

Publication number Publication date
CN103077210B (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
US11196756B2 (en) Identifying notable events based on execution of correlation searches
CN103428525B (zh) 网络视频和电视节目的在线查询和播放控制方法及***
CN102857493B (zh) 内容过滤方法和装置
CN104025084B (zh) 历史浏览会话管理
CN103699669B (zh) 一种浏览器中进行消息推送的方法和一种浏览器终端
Baumgarten et al. User-driven navigation pattern discovery from internet data
CN103338260B (zh) 网络审计中url日志的分布式分析***及分析方法
WO2013044564A1 (zh) 一种用户网络行为分析方法、装置和***
CN110245470A (zh) 智能数据脱敏方法、装置、计算机设备和存储介质
CN103248677B (zh) 互联网行为分析***及其工作方法
CN107809383A (zh) 一种基于mvc的路径映射方法及装置
CN104394211A (zh) 一种基于Hadoop用户行为分析***设计与实现方法
CN102946320B (zh) 一种分布式用户行为日志预测网络监管方法及***
US20140108316A1 (en) Augmenting Recommendation Algorithms Based on Similarity Between Electronic Content
CN108241646B (zh) 一种搜索匹配方法和装置、推荐方法和装置
CN108334619A (zh) 一种数据采集方法、装置、计算设备及存储介质
CN113656673A (zh) 面向广告投放的主从分布内容爬取机器人
CN108154024B (zh) 一种数据检索方法、装置及电子设备
Qureshi et al. A survey on association rule mining in cloud computing
CN103077210A (zh) 一种基于云计算的数据获取方法及***
CN105354189A (zh) 搜寻应用软件的方法及其***
Hu et al. WSRank: a method for web service ranking in cloud environment
CN102214214B (zh) 数据关系的处理方法、装置及移动通讯终端
CN105991331A (zh) 一种论坛审计方法、装置及日志管理装置
Xi et al. On-device integrated re-ranking with heterogeneous behavior modeling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170419

CF01 Termination of patent right due to non-payment of annual fee