CN106682044A - 数据处理的方法及装置 - Google Patents

数据处理的方法及装置 Download PDF

Info

Publication number
CN106682044A
CN106682044A CN201510767682.3A CN201510767682A CN106682044A CN 106682044 A CN106682044 A CN 106682044A CN 201510767682 A CN201510767682 A CN 201510767682A CN 106682044 A CN106682044 A CN 106682044A
Authority
CN
China
Prior art keywords
data
target data
screening
target
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510767682.3A
Other languages
English (en)
Other versions
CN106682044B (zh
Inventor
刘嘉
钦滨杰
陈晓敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510767682.3A priority Critical patent/CN106682044B/zh
Publication of CN106682044A publication Critical patent/CN106682044A/zh
Application granted granted Critical
Publication of CN106682044B publication Critical patent/CN106682044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理的方法及装置,涉及互联网技术领域,主要目的在于减少筛选数据的占用时间及提高筛选数据的准确性。本发明的主要技术方案包括:从待处理数据中提取目标数据;其中,所述目标数据包含数据属性值;将所述目标数据缓存于预设收藏夹内;响应于筛选数据指令,根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选,以得到筛选后的目标数据;对所述筛选后的目标数据进行展示。本发明主要应用于数据筛选的过程中。

Description

数据处理的方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种数据处理的方法及装置。
背景技术
随着网络的迅速发展,万维网成为大量数据的载体,如何有效地提取并利用这些数据成为一个巨大的挑战。在海量数据中筛选出有效数据是有效利用互联网数据的其中一种实现方式。
通常,在筛选数据时,根据对数据的实际需求锁定数据源,该数据源通常为网站中的网页,再通过爬虫程序对数据源中的数据进行爬取,将爬取到的数据按照一定的方式存储在数据库中备用,当需要筛选数据时,调用该数据库中的数据并进行筛选,将筛选出的数据整理为数据报告的形式,以实现对海量数据的有效利用。
发明人在通过上述方式筛选数据时,发现其存在如下问题:在对数据库中的数据进行筛选时,需要对数据库中的全部数据依次进行筛选,若该数据库中的数据量较大,则在筛选数据过程中会占用大量筛选数据的时间,且筛选数据的准确性较低;同时,若基于数据库在筛选数据的过程中筛选过程中断,则需要对数据库中的全部数据进行重新筛选,中断之前筛选的数据无法保留,导致筛选数据时消耗的时间过多。
发明内容
有鉴于此,本发明提供的一种数据处理的方法及装置,主要目的在于减少筛选数据的占用时间及提高筛选数据的准确性。
为了解决上述问题,本发明主要提供如下技术方案:
一方面,本发明提供了一种数据处理的方法,该方法包括:
从待处理数据中提取目标数据;其中,所述目标数据包含数据属性值;
将所述目标数据缓存于预设收藏夹内;
响应于筛选数据指令,根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选,以得到筛选后的目标数据;
对所述筛选后的目标数据进行展示。
另一方面,本发明还提供一种数据的处理装置,该装置包括:
提取单元,用于从待处理数据中提取目标数据;其中,所述目标数据包含数据属性值;
缓存单元,用于将所述提取单元提取的所述目标数据缓存于预设收藏夹内;
筛选单元,用于响应于筛选数据指令,根据所述数据属性值对所述缓存单元缓存在所述预设收藏夹内的目标数据进行筛选,以得到筛选后的目标数据;
展示单元,用于对所述筛选单元筛选后的目标数据进行展示。
借由上述技术方案,本发明提供的技术方案至少具有下列优点:
本发明提供的数据处理的方法及装置,首先从待处理数据中提取目标数据,其中该目标数据包含数据属性值,将提取的目标数据缓存与预设收藏夹内,响应于筛选数据指令,根据目标数据的数据属性值对预设收藏夹内的目标数据进行筛选,得到筛选后的目标数据后,对筛选后的目标数据进行展示;与现有技术直接从预置数据库中对待筛选数据进行筛选相比,本发明能够将从待处理数据中提取的目标数据缓存于预设收藏夹内,以缩小待筛选数据的数据量,从而减少了筛选目标数据的占用时间;同时,由于目标数据的数据量与筛选目标数据的准确度成反比,即目标数据的数据量越小,筛选目标数据的准确度越高,而预设收藏夹内的目标数据的数据量较小,因此,提高了筛选目标数据的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据处理的方法的流程图;
图2示出了本发明实施例提供的一种数据处理的装置的组成框图;
图3示出了本发明实施例提供的另一种数据处理的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种数据处理的方法,如图1所示,该方法包括:
101、从待处理数据中提取目标数据。
本发明实施例中,在对筛选目标数据之前,首先,获取互联网目标网站中对应网页的数据,并将获取的待处理数据存储到预置数据库中,以便从该预置数据库中提取目标数据;在获取互联网目标网站中对应网页的数据时,要根据待处理数据的不同类型确定需要获取哪些网站中对应网页的内容,待处理数据的数据类型可以为:经济类数据、视频类数据、科技类数据等等。本发明实施例对筛选的数据类型、具体的目标网站等内容不进行限定。
通常,待处理数据存储于预置数据库中,当需要对预置数据库中的待处理数据进行筛选时,首先从待处理数据中提取目标数据,其中,所述目标数据包含数据属性值;所述数据属性值为目标数据的数据种类,例如,目标数据为汽车类数据、军事类数据、科技类数据均能够通过数据属性信息进行区分。
作为本发明实施例的另一种实现方式,目标数据中还包含数据状态标识,该数据状态标识为从待处理数据中提取目标数据过程中出现中断时,在待处理数据对应的中断节点处添加的数据状态标识,以便从数据状态标识出继续对待处理数据中提取目标数据,节省了从待处理中提取目标数据的时间,进而提高了筛选目标数据的占用时间。
在具体实施本发明实施例中,从待处理数据中提取目标数据时,基于预设筛选条件从待处理数据中提取目标数据,所述预设筛选条件为人为设置的筛选条件,在设置预设筛选条件时,需与从目标网站获取待处理数据的筛选条件相对应,可以设置预设筛选条件与从目标网站获取待处理数据筛选条件一致;或者,也可以设置预设筛选条件的筛选范围小于从目标网站获取待处理数据筛选条件对应的筛选范围。
示例性的,若从目标网站获取待处理数据的筛选条件为经济类数据,则预设筛选条件可以设置为股票、证券、金融等等;本发明实施例对预设筛选条件的设置不进行限定,而是要根据提取目标数据的实际需求对预设筛选条件进行设置。
102、将所述目标数据缓存于预设收藏夹内。
步骤101中的预置数据库用于存储待处理数据,但是该预置数据库中存储的待处理数据的类型较多,覆盖范围较广,因此,为了能够减小预置数据库中的待处理数据的覆盖范围,提供筛选目标数据的准确性,将提取后的目标数据缓存到预设收藏夹内,其中,该预设收藏夹用于存储目标数据,且所述预置数据库的待处理数据的数据量少于所述预设收藏夹内目标数据的数据量。
103、响应于筛选数据指令,根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选。
筛选数据指令用于从预设收藏夹内对目标数据进行筛选,在对目标数据进行筛选时根据数据属性值对目标数据进行筛选。根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选其目的在于,预设收藏夹内目标数据的数据量比预置数据库中待处理数据的数据量小,能够节省筛选目标数据的占用时间;其次,当对筛选目标数据的结果不满意时,可以从预设收藏夹内对目标数据进行筛选,其预设收藏夹内的数据量小,能够提升筛选目标数据的准确性。
104、对所述筛选后的目标数据进行展示。
将筛选后的目标数据进行展示,以便对筛选后的目标数据进行查看、使用。
作为本发明实施例的一种实现方式,在展示筛选后的目标数据时,将筛选后的目标数据进行分类,以类别的形式输出显示目标数据;作为本发明实施例的另一种实现方式,将筛选后的目标数据进行归总,输出显示归总后的目标数据。本发明实施例对展示筛选后的目标数据的具体形式不进行限定。
本发明实施例提供的数据处理的方法,首先从待处理数据中提取目标数据,其中该目标数据包含数据属性值,将提取的目标数据缓存与预设收藏夹内,响应于筛选数据指令,根据目标数据的数据属性值对预设收藏夹内的目标数据进行筛选,得到筛选后的目标数据后,对筛选后的目标数据进行展示。
具体地,与现有技术直接从预置数据库中对待筛选数据进行筛选相比,本发明实施例能够将从待处理数据中提取的目标数据缓存于预设收藏夹内,以缩小待筛选数据的数据量,从而减少了筛选目标数据的占用时间;同时,由于目标数据的数据量与筛选目标数据的准确度成反比,即目标数据的数据量越小,筛选目标数据的准确度越高,而预设收藏夹内的目标数据的数据量较小,因此,提高了筛选目标数据的准确性。
需要说明的是,本发明所提供的步骤103可以直接利用目标数据中的数据属性值进行第一次筛选;也可以在该第一次筛选之后,再利用该目标数据的属性值确定目标网站的影响力,进而再根据该目标网站的影响力对该目标数据进行第二次筛选;显然本方案也可以先通过目标数据的属性值确定目标网站影响力,然后再利用所确定出的目标网站的影响力来对目标数据进行筛选,对此本发明不做任何限定。
进一步的,作为对上述实施例的细化和扩展,在执行上述步骤103根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选时,可以采用如下方式:
首先,根据目标数据的数据属性值获取目标网站的网站影响力;然后,利用该网站影响力对预设收藏夹内的目标数据进行分类标识;最后,根据该分类标识对预设收藏夹内的目标数据进行筛选;其中,目标网站为本发明实施例中所述目标数据的数据源;即该目标数据从该目标网站中获得,网站影响力根据目标网站归属地标识、目标网站排名及对目标网站的关注度构成,所述主流媒体预设关注度由预设网站访问量与预设网站访问排名确定。
作为本发明实施例的一种实现方式,将预设收藏夹内的目标数据按照分类标识进行存储;或者,作为本发明实施例的另一种实现方式,仅根据网站影响力对预设收藏夹内的目标数据进行分类标识,而不以分类标识进行存储,但是在输出显示待筛选数据时,按照分类标识进行显示。
为了更加清楚的说明根据目标网站的网站影响力对预设收藏夹内的目标数据进行分类标识,以下将以示例的形式进行说明。
示例性的,如表1所示,表1示出了本发明实施例提供的预设收藏夹存储目标数据的示意图。表1中所示的数据源为目标网站的网址,其对应的网站影响力依次减弱,因此,在输出显示目标数据时,可以基于网站影响力的大小进行显示。表1仅为示例性的举例,本发明实施例对预设收藏夹存储目标数据的具体形式不进行限定。
表1
需要说明的是,在根据网站影响力对预设收藏夹内的目标数据进行分类标识时,网站影响力越大,其权威性越高,说明从该网站内获取的目标数据越具有代表性,该目标数据的利用价值越大;网站影响力越小的,其权威性越低,说明从网站内获取的目标数据的利用价值越小。
本发明实施例中,对预设收藏夹内的目标数据进行分类标识,其目的在于能够更加准确的对目标数据进行筛选,基于分类标识对目标数据进行标识,标识目标数据的重要程度、标识目标数据的数据类别等等。以便在输出显示筛选后的目标数据时根据分类标识显示。
在实际应用中,在对预设收藏夹内的目标数据进行分类标识时,也可以基于用户的经验,对预设收藏夹内的目标数据进行分类标识,分类标识时可以包含但不局限于以下内容,例如:重要、较重要、可删除等等,但是基于该种方式对预设收藏夹内的目标数据进行分类标识时,依赖于用户的经验,由于,用户的经验存在差异,造成在对收藏夹内的目标数据进行分类标识也出现差异;具体的,本发明实施例对此不进行限定。
进一步的,在预设收藏夹对目标数据进行筛选的过程中,若出现中断,则在该中断对应的中断节点处添加数据状态标识,以便根据数据状态标识继续对预设收藏夹内的目标数据进行筛选。
例如,当预设收藏夹内存储目标数据通常为顺序存储时,可以在中断节点处添加数据状态标识之后,当根据数据属性值对预设收藏夹内的目标数据进行筛选之前,可以首先检测该预设收藏夹内是否存在数据状态标识,若存在数据状态标识,则从该数据状态标识开始继续对预设收藏夹内的目标数据进行筛选,而不是从预设收藏夹的开始位置对目标数据重新筛选,节省了筛选目标数据占用的时间;若预设收藏夹内未存在数据状态标识,则可以从预设收藏夹的开始位置对目标数据进行筛选。
进一步的,在对所述筛选后的目标数据进行展示时,按照所述分类标识展示筛选后的目标数据,以便用户根据分类标识对筛选后的目标数据进行有效利用。
进一步的,在从待处理数据中提取目标数据之前,基于爬虫程序从目标网站获取待处理数据,并将获取的待处理数据存储于预置数据库中,以备从预置数据库中的待处理数据中提取目标数据。本发明实施例中,在基于爬虫程序从目标网站中获取待处理数据时,可以通过但不局限于以下的方式实现,例如:爬虫程序按照深度优先的方式从目标网站中获取待处理数据;或者,爬虫程序按照广度优先或者最佳优先的方式从目标网站中获取待处理数据。本发明实施例对爬虫程序从目标网站中获取待处理数据的具体实现方式不进行限定。
进一步的,作为对上述图1所示方法的实现,本发明另一实施例还提供了一种数据处理的,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。本发明实施例提供一种数据处理的装置,如图2所示,该装置包括:
提取单元21,用于从待处理数据中提取目标数据;其中,所述目标数据包含数据属性值;
缓存单元22,用于将所述提取单元21提取的所述目标数据缓存于预设收藏夹内;
筛选单元23,用于响应于筛选数据指令,根据所述数据属性值对所述缓存单元22缓存在所述预设收藏夹内的目标数据进行筛选,以得到筛选后的目标数据;
展示单元24,用于对所述筛选单元23筛选后的目标数据进行展示。
进一步的,如图3所示,所述筛选单元23,包括:
获取模块231,用于根据所述数据属性值,获取目标网站的网站影响力;其中,所述目标网站为所述目标数据的源网站,所述网站影响力根据目标网站归属地标识、目标网站排名及对目标网站的关注度确定;
分类模块232,用于利用所述获取模块231获取的所述网站影响力,对所述预设收藏夹内的所述目标数据进行分类标识;
筛选模块233,用于根据所述分类模块232的所述分类标识对所述预设收藏夹内的所述目标数据进行筛选。
进一步的,如图3所示,所述筛选单元23还包括:
添加模块234,用于当在根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选过程中出现中断时,在所述中断对应的中断节点处添加数据状态标识,以便根据所述数据状态标识继续对所述预设收藏夹内所述目标数据进行筛选。
进一步的,如图3所示,所述展示单元24,还用于按照所述筛选单元23中的目标数据的分类标识展示所述筛选后的目标数据。
进一步的,如图3所示,所述装置还包括:
获取单元25,用于在所述提取单元21从待处理数据中提取目标数据之前,基于爬虫程序获取所述待处理数据;
存储单元26,用于在所述获取单元25获取所述待处理数据之后,将所述待处理数据存储于预置数据库中。
本发明实施例提供的数据处理的装置,首先从待处理数据中提取目标数据,其中该目标数据包含数据属性值,将提取的目标数据缓存与预设收藏夹内,响应于筛选数据指令,根据目标数据的数据属性值对预设收藏夹内的目标数据进行筛选,得到筛选后的目标数据后,对筛选后的目标数据进行展示;与现有技术直接从预置数据库中对待筛选数据进行筛选相比,本发明实施例能够将从待处理数据中提取的目标数据缓存于预设收藏夹内,以缩小待筛选数据的数据量,从而减少了筛选目标数据的占用时间;同时,由于目标数据的数据量与筛选目标数据的准确度成反比,即目标数据的数据量越小,筛选目标数据的准确度越高,而预设收藏夹内的目标数据的数据量较小,因此,提高了筛选目标数据的准确性。
所述数据处理的装置包括处理器和存储器,上述提取单元、缓存单元、筛选单元和展示单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来减少筛选数据的占用时间及提高筛选数据的准确性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从待处理数据中提取目标数据;其中,所述目标数据包含数据属性值;将所述目标数据缓存于预设收藏夹内;响应于筛选数据指令,根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选,以得到筛选后的目标数据;对所述筛选后的目标数据进行展示。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
从待处理数据中提取目标数据;其中,所述目标数据包含数据属性值;
将所述目标数据缓存于预设收藏夹内;
响应于筛选数据指令,根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选,以得到筛选后的目标数据;
对所述筛选后的目标数据进行展示。
2.根据权利要求1所述的方法,其特征在于,根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选,包括:
根据所述数据属性值,获取目标网站的网站影响力;其中,所述目标网站为所述目标数据的源网站,所述网站影响力根据目标网站归属地标识、目标网站排名及对目标网站的关注度确定;
利用所述网站影响力,对所述预设收藏夹内的所述目标数据进行分类标识;
根据所述分类标识对所述预设收藏夹内的所述目标数据进行筛选。
3.根据权利要求1或2所述的方法,其特征在于,根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选包括:
若在根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选过程中出现中断,则在所述中断对应的中断节点处添加数据状态标识,以便根据所述数据状态标识继续对所述预设收藏夹内所述目标数据进行筛选。
4.根据权利要求3所述的方法,其特征在于,对所述筛选后的目标数据进行展示包括:
按照目标数据的分类标识展示所述筛选后的目标数据。
5.根据权利要求4所述的方法,其特征在于,在从待处理数据中提取目标数据之前,所述方法还包括:
基于爬虫程序获取所述待处理数据,并将所述待处理数据存储于预置数据库中。
6.一种数据处理装置,其特征在于,包括:
提取单元,用于从待处理数据中提取目标数据;其中,所述目标数据包含数据属性值;
缓存单元,用于将所述提取单元提取的所述目标数据缓存于预设收藏夹内;
筛选单元,用于响应于筛选数据指令,根据所述数据属性值对所述缓存单元缓存在所述预设收藏夹内的目标数据进行筛选,以得到筛选后的目标数据;
展示单元,用于对所述筛选单元筛选后的目标数据进行展示。
7.根据权利要求6所述的装置,其特征在于,所述筛选单元,包括:
获取模块,用于根据所述数据属性值,获取目标网站的网站影响力;其中,所述目标网站为所述目标数据的源网站,所述网站影响力根据目标网站归属地标识、目标网站排名及对目标网站的关注度确定;
分类模块,用于利用所述获取模块获取的所述网站影响力,对所述预设收藏夹内的所述目标数据进行分类标识;
筛选模块,用于根据所述分类模块的所述分类标识对所述预设收藏夹内的所述目标数据进行筛选。
8.根据权利要求6或7所述的装置,其特征在于,所述筛选单元包括:
添加模块,用于当在根据所述数据属性值对所述预设收藏夹内的目标数据进行筛选过程中出现中断时,在所述中断对应的中断节点处添加数据状态标识,以便根据所述数据状态标识继续对所述预设收藏夹内所述目标数据进行筛选。
9.根据权利要求8所述的装置,其特征在于,所述展示单元,用于按照所述筛选单元中的目标数据的分类标识展示所述筛选后的目标数据。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
获取单元,用于在所述提取单元从待处理数据中提取目标数据之前,基于爬虫程序获取所述待处理数据;
存储单元,用于在所述获取单元获取所述待处理数据之后,将所述待处理数据存储于预置数据库中。
CN201510767682.3A 2015-11-11 2015-11-11 数据处理的方法及装置 Active CN106682044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510767682.3A CN106682044B (zh) 2015-11-11 2015-11-11 数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510767682.3A CN106682044B (zh) 2015-11-11 2015-11-11 数据处理的方法及装置

Publications (2)

Publication Number Publication Date
CN106682044A true CN106682044A (zh) 2017-05-17
CN106682044B CN106682044B (zh) 2021-01-15

Family

ID=58864867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510767682.3A Active CN106682044B (zh) 2015-11-11 2015-11-11 数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN106682044B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590641A (zh) * 2017-08-18 2018-01-16 北京北信源软件股份有限公司 一种组织节点的定位方法、***、可读介质和存储控制器
CN107665234A (zh) * 2017-07-25 2018-02-06 平安科技(深圳)有限公司 业务处理方法、装置、服务器和存储介质
CN107909483A (zh) * 2017-07-25 2018-04-13 平安科技(深圳)有限公司 理赔流程识别方法、装置、服务器和存储介质
CN111796513A (zh) * 2019-04-08 2020-10-20 阿里巴巴集团控股有限公司 一种数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929985A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 一种收藏网页展示的方法和***
CN103389984A (zh) * 2012-05-08 2013-11-13 百度在线网络技术(北京)有限公司 一种用于在搜索结果中提供收藏相关信息的方法和设备
CN104965884A (zh) * 2015-06-15 2015-10-07 广东欧珀移动通信有限公司 一种文件收藏方法及相关终端
US20150287092A1 (en) * 2014-04-07 2015-10-08 Favored.By Social networking consumer product organization and presentation application

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389984A (zh) * 2012-05-08 2013-11-13 百度在线网络技术(北京)有限公司 一种用于在搜索结果中提供收藏相关信息的方法和设备
CN102929985A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 一种收藏网页展示的方法和***
US20150287092A1 (en) * 2014-04-07 2015-10-08 Favored.By Social networking consumer product organization and presentation application
CN104965884A (zh) * 2015-06-15 2015-10-07 广东欧珀移动通信有限公司 一种文件收藏方法及相关终端

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665234A (zh) * 2017-07-25 2018-02-06 平安科技(深圳)有限公司 业务处理方法、装置、服务器和存储介质
CN107909483A (zh) * 2017-07-25 2018-04-13 平安科技(深圳)有限公司 理赔流程识别方法、装置、服务器和存储介质
WO2019019621A1 (zh) * 2017-07-25 2019-01-31 平安科技(深圳)有限公司 业务处理方法、装置、服务器和存储介质
CN107665234B (zh) * 2017-07-25 2020-07-28 平安科技(深圳)有限公司 业务处理方法、装置、服务器和存储介质
CN107909483B (zh) * 2017-07-25 2021-05-04 平安科技(深圳)有限公司 理赔流程识别方法、装置、服务器和存储介质
CN107590641A (zh) * 2017-08-18 2018-01-16 北京北信源软件股份有限公司 一种组织节点的定位方法、***、可读介质和存储控制器
CN111796513A (zh) * 2019-04-08 2020-10-20 阿里巴巴集团控股有限公司 一种数据处理方法及装置

Also Published As

Publication number Publication date
CN106682044B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN104391951B (zh) 网页热力图的加载方法和装置
CN104572668B (zh) 基于多个样式文件生成合并样式文件的方法和设备
CN106682044A (zh) 数据处理的方法及装置
WO2020253351A1 (zh) 一种点击劫持漏洞检测方法、装置及计算机设备
CN102077201A (zh) 用于网页的动态及实时归类的***及方法
CN103544313B (zh) 用于网页推荐的数据处理方法和装置
CN107766469A (zh) 一种缓存处理方法和装置
CN106570025A (zh) 一种数据过滤的方法及装置
CN103530390B (zh) 网页抓取的方法及设备
CN112835682B (zh) 一种数据处理方法、装置、计算机设备和可读存储介质
CN104699837B (zh) 网页配图选取方法、装置及服务器
CN103984743A (zh) 一种管理内存资源的方法及装置
CN106886547A (zh) 一种脚本生成方法与装置
CN106020891A (zh) 页面加载的方法和装置
CN103064849B (zh) 一种层叠样式表处理方法和装置
CN107015986A (zh) 一种爬虫爬取网页的方法及装置
WO2017086992A1 (en) Malicious web content discovery through graphical model inference
CN106611005A (zh) 一种设置爬虫爬取时间间隔的方法及装置
CN110008393A (zh) 一种用于获取网站信息的方法及设备
CN109766488A (zh) 一种基于Scrapy的数据采集方法
CN105069135B (zh) Ota网站的数据爬取方法及***
CN105989276A (zh) Rbac权限体系中的角色优化方法和装置
CN110020297A (zh) 一种网页内容的加载方法、装置及***
CN110147473A (zh) 一种爬虫的爬取方法及装置
CN108460673A (zh) 一种训练数据的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant