CN103077210A

CN103077210A - 一种基于云计算的数据获取方法及***

Info

Publication number: CN103077210A
Application number: CN2012105846101A
Authority: CN
Inventors: 温陇德; 刘涛; 柳行刚
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2013-05-01
Anticipated expiration: 2032-12-28
Also published as: CN103077210B

Abstract

本发明适用于云计算领域，提供了一种基于云计算的数据获取方法及***，所述方法包括：根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型，其中向量分析模型中的向量是由多个分量组成，每个分量为一个映射对，每个映射对包含一个词语及该词语在所有数据中一共出现的次数；按每个词语在所有数据中一共出现的次数由高至低进行排序，得到排序在前面预设次序中的词语；当再次从终端和/或互联网获取数据时，根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。本发明相对于现有技术来说更智能，更能满足用户需求。

Description

一种基于云计算的数据获取方法及***

技术领域

本发明属于云计算领域，尤其涉及一种基于云计算的数据获取方法及***。

背景技术

云计算需要对大量数据（包括网页、文档、音频、视频、图片等）进行存储、分析和处理，数据是云计算的前提和基础，随着云计算的发展，数据也显得越来越重要，因此数据的获取技术成为一个很重要的课题。

云计算中所需的数据通常需要由云服务器从终端或互联网上获取，但是现有技术中的数据获取方法还不够智能，通常都只是笼统地把相应路径下的所有数据都进行获取。例如把终端中相应目录下的所有数据，或者把跟云服务器互联的所有网页上的数据都进行获取，但这些数据的量通常十分庞大，尤其是互联网上的数据更是海量，这些数据可能绝大部分都不是用户所需要的数据，不能满足用户的需求。

发明内容

本发明实施例的目的在于提供一种基于云计算的数据获取方法，旨在解决现有技术云计算的数据获取方法不够智能、不能满足用户需求的问题。

本发明实施例是这样实现的，一种基于云计算的数据获取方法，所述方法包括：

根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型，其中向量分析模型中的向量是由多个分量组成，每个分量为一个映射对，每个映射对包含一个词语及该词语在所有数据中一共出现的次数；

按每个词语在所有数据中一共出现的次数由高至低进行排序，得到排序在前面预设次序中的词语；

当再次从终端和/或互联网获取数据时，根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。

本发明实施例的另一目的在于提供一种基于云计算的数据获取***，所述***包括：

向量分析模型建立模块，用于根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型，其中向量分析模型中的向量是由多个分量组成，每个分量为一个映射对，每个映射对包含一个词语及该词语在所有数据中一共出现的次数；

排序模块，用于按每个词语在所有数据中一共出现的次数由高至低进行排序，得到排序在前面预设次中的词语；

获取模块，用于当再次从终端和/或互联网获取数据时，根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。

在本发明中，由于采用了向量分析模型，并按词语出现的次数进行排序，云服务器根据排序结果对数据进行再获取，由于再获取时只获取排序在前面预设次序中的词语相应的数据，这些数据通常也是用户最想要的数据，因此本发明相对于现有技术来说更智能，更能满足用户需求。

附图说明

图1是本发明实施例提供的云服务器从互联网和终端上获取数据的示意图。

图2是本发明实施例一提供的基于云计算的数据获取方法的流程图。

图3是本发明实施例一提供的基于云计算的数据获取方法中步骤S103以后的流程图。

图4是本发明实施例一提供的基于云计算的数据获取方法中n叉树的存储结构示意图。

图5是本发明实施例二提供的基于云计算的数据获取***的功能模块框图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

本发明实施例提供的云服务器从互联网和终端上获取数据的示意图如图1所示。云服务器的数据获取***从互联网和终端上获取所需的数据，对获取到的数据进行智能处理，将处理完成后的数据同步至云服务器的数据库中，以满足云计算需要大量数据进行存储、分析和处理的需求。本发明实施例主要是对云服务器的数据获取***的数据获取方法进行改进。

实施例一：

请参阅图2，本发明实施例一提供的基于云计算的数据获取方法包括以下步骤：

S101、根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型，其中向量分析模型中的向量是由多个分量组成，每个分量为一个映射对，每个映射对包含一个词语及该词语在所有数据中一共出现的次数。

在本发明实施例一中，终端包括智能电视、智能移动终端、其他智能家电等智能终端。

在本发明实施例一中，数据包括网页、文档、音频、视频、图片等。

在本发明实施例一中，对于视频、音频和图片，数据中的词语是指文件名称中包含的词语；

在本发明实施例一中，所述预先从终端和/或互联网中获取并存储在云服务器中的数据具体为：

预先在预设的时间段内（例如三天内，该时间根据获取的数据量来决定，只要获取的数据量达到预定的数量时即可）从与云服务器互联的所有终端和/或互联网中获取并存储在云服务器中的数据。

在本发明实施例一中，步骤S101具体包括以下步骤：

对预先从终端和/或互联网中获取并存储在云服务器中的数据中包含的每个词语生成一个映射对，每个映射对包含一个词语及该词语在所有数据中一共出现的次数；

将所有映射对存于向量当中，生成向量分析模型。

S102、按每个词语在所有数据中一共出现的次数由高至低进行排序，得到排序在前面预设次序中的词语；

例如，在预先从终端和/或互联网中获取并存储在云服务器中的所有数据中，共有四个词语：张三、李四、王五和郑六，其中，张三出现的次数是5 1次，李四出现的次数是60次，王五出现的次数是1次，郑六出现的次数是2次，假设希望得到的是排在前2位的词语，即得到词语张三和李四；

S103、当再次从终端和/或互联网获取数据时，根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。

例如，步骤S102得到词语张三和李四，则步骤S103中，再次从终端和/或互联网获取数据时，仅从终端和/或互联网中获取包含词语张三或李四的数据。

在本发明实施例一中，所述从终端和/或互联网获取相应的数据具体为：

通过爬虫（Spider）获取互联网上与云服务器互联的服务器的数据和终端的除图片之外的数据，通过终端的DDMS（Dalvik Debug Monitor Service，Android开发环境中的Dalvik虚拟机调试监控服务）获取终端的图片数据。

在本发明实施例一中，所述DDMS是通过以下方式实现的：通过调用终端的DDMS接口，在Android终端中开发与DDMS对应的Android安装包，并封装为APK（Android Package，安卓安装包）形式，集成到Android终端***中。

在本发明实施例一中，由于采用了向量分析模型，并按词语出现的次数进行排序，云服务器根据排序结果对数据进行再获取，由于再获取时只获取排序在前面预设次序中的词语相应的数据，这些数据通常也是用户最想要的数据，因此本发明相对于现有技术来说更智能，更能满足用户需求。

请参阅图3，在本发明实施例一中，步骤S103以后，所述方法还可以包括以下步骤：

S104、统计所述排序在前面预设次序中的词语分别在再次从终端和/或互联网获取的每个数据中出现的次数；

S105、根据每个词语在不同的数据中出现的次数来确定不同的数据之间的匹配度；

S106、按照匹配度的值进行排序，将所述步骤S103中再次从终端和/或互联网获取的数据按序显示给用户，以获取用户的反馈。

例如，如果一个词语在两个数据（例如两个网页）中出现的次数相同，则得分10，如果次数差5-10，则减1分，即得9分，如果没有出现，则该项得0分。

在本发明实施例一中，步骤S106以后，所述方法还可以包括以下步骤：

S107、接收用户的反馈，建立用户反馈行为表，表项包括用户点击的词语、图片、视频、音频、网页、跳转关系、用户访问次数等；

S108、根据用户反馈行为表建立用户行为链接关系表；

例如，以获取的数据为互联网上的网页为例，所述步骤S108具体为：

通过用户点击过的链接来判断用户浏览过的页面，通过页面间的链接关系作为用户感兴趣的内容的依据，从用户点击过的内容来建立用户行为链接关系表作为用户感兴趣的内容的关系表。

S109、通过用户行为链接关系表来建立向量之间的映射关系，以向量之间的映射关系作为查询模型，通过所述查询模型来不断查询用户感兴趣的内容，最终以包含映射关系的向量分析模型为获取数据的最终模型。

在本发明实施例一中，由于通过采用向量分析模型与用户反馈行为表相结合的方法，使得数据获取更高效更智能，更能反映用户需求。

在本发明实施例一中，所述方法还可以包括以下步骤：

对于根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据采用n叉树的存储结构进行存储。具体为：

将所有的数据合并，利用n叉树的树结进行存储，每个树结（包括根结点、枝结点和叶结点）里存储多个词语，通过叶结点映射数据，对于同一个词语有多个数据映射的情况下，采用链的方式，每个数据中设有指向下一个含有相同词语的数据的链接。

n叉树的存储结构如图4所示，最上层为根结点，最下层为叶结点，其他层为枝结点。词语前面的数字是编号，例如：7张三15王东，这样查询的时候可以根据编号，判断要查询的词语在树的左子树还是右子树。数据查询时，从上面的树结往下面的树结，一结一结往下查询，无需查找网络中的所有文件。例如查询“张三”时，只需依次查：根结点（7张三15王东）、枝结点（2麻烦4代数7张三）和叶结点（5小孩6大人7张三）。

在本发明实施例一中，由于通过n叉树的存储结构与向量之间的映射关系，实现更有效、智能的获取用户需要的数据。

考虑到海量数据处理量很大，本发明实施例一将所述步骤S103中再次从终端和/或互联网获取的所有数据分成多个数据包，每一个数据包包含预定数据的数据，（例如5000-1万个数据），每个数据包内的数据采用一个n叉树的存储结构进行存储。对于多个数据包，采用一个中央服务器作为并发查询，供查阅每个数据包下的数据，利用云计算的映射\合并功能分发合并查询结果。

在本发明实施例一中，由于通过与并行分发处理方式的算法结合，提高了智能数据的处理效率。

另外，在本发明实施例一中，步骤S103中的根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据之前，所述方法还可以包括以下步骤：

开启多线程、获取http代理、进行数据接口定义，具体为：

1.开启多线程：

以doSpider()方法（云服务器中用于获取网页数据的接口）为起点，依次抓取网页的URL地址和详细信息保存至数据库；遍布查找所有文件时，加载相关的配置文件，使用IO文件流对象读取指定文件夹（即云服务器用来存储网页数据的文件夹）下的目录结构，为每个子文件夹设定一个启动线程，采集数据时线程启动，运行run()方法，多线程采集数据。

2.获取http代理：

从http-proxy-list.htm文件中（即代理服务器列表）抓取IP地址、端口号、网卡地址、类型等信息，保存信息到List对象（是代理服务器列表将相应的数据保存到相对应的对象列表）中，然后随机从List中取出一个HTTP代理(如果没有取到或连续多次未取到则返回NULL),判断代理是否可用，若代理不可用，则重新从列表中获取并删除无效的代理。

3.进行数据接口定义：

包括视频类数据接口定义、资讯类数据接口定义等等。

其中视频类数据结构包括：视频ID、类别ID、视频标题、视频描述、链接地址、时长、图片源地址、***、发布时间、标签、状态、总播放次数、最后修改人、创建年代、地区类别等等、

视频类数据结构具体定义如下所示：

private long seqid;//视频id

private String cateid;//类别id

private String title;//视频标题

private String description;//视频描述

private String link;//链接地址

private long playtimes;//总播放次数

private String lasteditor;//最后修改人

private String createyear;//创建年代

资讯类数据结构包括：资讯id、类别id、标题、摘要信息、链接地址、内容信息、图片地址、来源网站、发布时间、标签、信息状态、作者、浏览次数等等接口。

资讯类数据结构具体定义如下所示：

private long seqid;//资讯id

private String cateid;//类别id

private String title;//标题

private String brief;//摘要信息

private long readtimes;//浏览次数

private String lasteditor;//最后修改人

private String targetURL;//保持的URL

private String configLocation;配置文件位置

在本发明实施例一中，由于采用多线程技术，因此可以充分利用硬件资源，有效提高执行效率。

实施例二：

请参阅图5，本发明实施例二提供的基于云计算的数据获取***包括向量分析模型建立模块11、排序模块12和获取模块1 3，其中：

向量分析模型建立模块11用于根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型，其中向量分析模型中的向量是由多个分量组成，每个分量为一个映射对，每个映射对包含一个词语及该词语在所有数据中一共出现的次数。

在本发明实施例二中，终端包括智能电视、智能移动终端、其他智能家电等智能终端。

在本发明实施例二中，数据包括网页、文档、音频、视频、图片等。

在本发明实施例二中，对于视频、音频和图片，数据中的词语是指文件名称中包含的词语；

在本发明实施例二中，所述预先从终端和/或互联网中获取并存储在云服务器中的数据具体为：

在本发明实施例二中，向量分析模型建立模块11包括：

映射对生成模块，用于对预先从终端和/或互联网中获取并存储在云服务器中的数据中包含的每个词语生成一个映射对，每个映射对包含一个词语及该词语在所有数据中一共出现的次数；

第一存储模块，用于将所有映射对存于向量当中，生成向量分析模型。

排序模块12用于按每个词语在所有数据中一共出现的次数由高至低进行排序，得到排序在前面预设次序中的词语；

例如，在预先从终端和/或互联网中获取并存储在云服务器中的所有数据中，共有四个词语：张三、李四、王五和郑六，其中，张三出现的次数是51次，李四出现的次数是60次，王五出现的次数是1次，郑六出现的次数是2次，假设希望得到的是排在前2位的词语，即得到词语张三和李四；

获取模块13用于当再次从终端和/或互联网获取数据时，根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据。

例如，排序模块12得到词语张三和李四，则获取模块13再次从终端和/或互联网获取数据时，仅从终端和/或互联网中获取包含词语张三或李四的数据。

在本发明实施例二中，所述获取模块13具体用于通过爬虫（Spider）获取互联网上与云服务器互联的服务器的数据和终端的除图片之外的数据，通过终端的DDMS（Dalvik Debug Monitor Service，Android开发环境中的Dalvik虚拟机调试监控服务）获取终端的图片数据。

在本发明实施例二中，所述DDMS是通过以下方式实现的：通过调用终端的DDMS接口，在Android终端中开发与DDMS对应的Android安装包，并封装为APK（Android Package，安卓安装包）形式，集成到Android终端***中。

在本发明实施例二中，由于采用了向量分析模型，并按词语出现的次数进行排序，云服务器根据排序结果对数据进行再获取，由于再获取时只获取排序在前面预设次序中的词语相应的数据，这些数据通常也是用户最想要的数据，因此本发明相对于现有技术来说更智能，更能满足用户需求。

在本发明实施例二中，所述***还可以包括：

统计模块，用于统计所述排序在前面预设次序中的词语分别在再次从终端和/或互联网获取的每个数据中出现的次数；

匹配度确定模块，用于根据每个词语在不同的数据中出现的次数来确定不同的数据之间的匹配度；

显示模块，用于按照匹配度的值进行排序，将所述步骤S103中再次从终端和/或互联网获取的数据按序显示给用户，以获取用户的反馈。

在本发明实施例二中，所述***还可以包括以下步骤：

第一建立模块，用于接收用户的反馈，建立用户反馈行为表，表项包括用户点击的词语、图片、视频、音频、网页、跳转关系、用户访问次数等；

第二建立模块，用于根据用户反馈行为表建立用户行为链接关系表；例如以获取的数据为互联网上的网页为例，具体为：通过用户点击过的链接来判断用户浏览过的页面，通过页面间的链接关系作为用户感兴趣的内容的依据，从用户点击过的内容来建立用户行为链接关系表作为用户感兴趣的内容的关系表；

第三建立模块，用于通过用户行为链接关系表来建立向量之间的映射关系，以向量之间的映射关系作为查询模型，通过所述查询模型来不断查询用户感兴趣的内容，最终以包含映射关系的向量分析模型为获取数据的最终模型。

在本发明实施例二中，由于通过采用向量分析模型与用户反馈行为表相结合的方法，使得数据获取更高效更智能，且更能反映用户需求。

在本发明实施例二中，所述***还可以包括：

第二存储模块，用于对于根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据采用n叉树的存储结构进行存储。具体为：

在本发明实施例二中，由于通过n叉树的存储结构与向量之间的映射关系，实现更有效、智能的获取用户需要的数据。

考虑到海量数据处理量很大，在本发明实施例二中，所述***还包括：

并发查询模块，用于将所述获取模块13再次从终端和/或互联网获取的所有数据分成多个数据包，每一个数据包包含预定数据的数据，（例如5000-1万个数据），每个数据包内的数据采用一个n叉树的存储结构进行存储，对于多个数据包，采用一个中央服务器作为并发查询，供查阅每个数据包下的数据，利用云计算的映射\合并功能分发合并查询结果。

在本发明实施例二中，由于通过与并行分发处理方式的算法结合，提高了智能数据的处理效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于云计算的数据获取方法，其特征在于，所述方法包括：

按每个词语在所有数据中一共出现的次数由高至低进行排序，得到排序在前面预设次中的词语；

2.如权利要求1所述的方法，其特征在于，所述根据预先从终端和/或互联网中获取并存储在云服务器中的数据建立向量分析模型具体包括：

将所有映射对存于向量当中，生成向量分析模型。

3.如权利要求1所述的方法，其特征在于，所述从终端和/或互联网获取相应的数据具体为：

通过爬虫Spider获取互联网上与云服务器互联的服务器的数据和终端的除图片之外的数据，通过终端的Dalvik虚拟机调试监控服务DDMS获取终端的图片数据。

4.如权利要求1所述的方法，其特征在于，所述根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据之后，所述方法还包括：

统计所述排序在前面预设次序中的词语分别在再次从终端和/或互联网获取的每个数据中出现的次数；

根据每个词语在不同的数据中出现的次数来确定不同的数据之间的匹配度；

按照匹配度的值进行排序，将获取的数据按序显示给用户，以获取用户的反馈。

5.如权利要求4所述的方法，其特征在于，所述按照匹配度的值进行排序，将获取的数据按序显示给用户，以获取用户的反馈之后，所述方法还包括：

接收用户的反馈，建立用户反馈行为表；

根据用户反馈行为表建立用户行为链接关系表。

通过用户行为链接关系表来建立向量之间的映射关系，以向量之间的映射关系作为查询模型，通过所述查询模型来不断查询用户感兴趣的内容，最终以包含映射关系的向量分析模型为获取数据的最终模型。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

对于根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据采用n叉树的存储结构进行存储。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

将所述再次从终端和/或互联网获取的所有数据分成多个数据包，每一个数据包包含预定数据的数据，每个数据包内的数据采用一个n叉树的存储结构进行存储，对于多个数据包，采用一个中央服务器作为并发查询，供查阅每个数据包下的数据，利用云计算的映射\合并功能分发合并查询结果。

8.一种基于云计算的数据获取***，其特征在于，所述***包括：

9.如权利要求8所述的***，其特征在于，所述向量分析模型建立模块包括：

10.如权利要求8所述的***，其特征在于，所述获取模块具体用于通过爬虫Spider获取互联网上与云服务器互联的服务器的数据和终端的除图片之外的数据，通过终端的Dalvik虚拟机调试监控服务DDMS获取终端的图片数据。

11.如权利要求8所述的***，其特征在于，所述***还包括：

显示模块，用于按照匹配度的值进行排序，将获取的数据按序显示给用户，以获取用户的反馈。

12.如权利要求11所述的***，其特征在于，所述***还包括：

第一建立模块，用于接收用户的反馈，建立用户反馈行为表；

第二建立模块，用于根据用户反馈行为表建立用户行为链接关系表。

13.如权利要求8所述的***，其特征在于，所述***还包括：

第二存储模块，用于对于根据向量分析模型中排序在前面预设次序中的词语对应的分量从终端和/或互联网获取相应的数据采用n叉树的存储结构进行存储。

14.如权利要求8所述的***，其特征在于，所述***还包括：

并发查询模块，用于将所述再次从终端和/或互联网获取的所有数据分成多个数据包，每一个数据包包含预定数据的数据，每个数据包内的数据采用一个n叉树的存储结构进行存储，对于多个数据包，采用一个中央服务器作为并发查询，供查阅每个数据包下的数据，利用云计算的映射\合并功能分发合并查询结果。