CN108170744A - 一种数据采集方法及装置 - Google Patents

一种数据采集方法及装置 Download PDF

Info

Publication number
CN108170744A
CN108170744A CN201711375381.1A CN201711375381A CN108170744A CN 108170744 A CN108170744 A CN 108170744A CN 201711375381 A CN201711375381 A CN 201711375381A CN 108170744 A CN108170744 A CN 108170744A
Authority
CN
China
Prior art keywords
keyword
data
retrieval result
dimension
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711375381.1A
Other languages
English (en)
Inventor
邢荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Cloud Service Information Technology Co Ltd
Original Assignee
Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Service Information Technology Co Ltd filed Critical Shandong Inspur Cloud Service Information Technology Co Ltd
Priority to CN201711375381.1A priority Critical patent/CN108170744A/zh
Publication of CN108170744A publication Critical patent/CN108170744A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据采集方法及装置,该方法包括:设置至少一个维度以及每一个所述维度对应的至少一个描述词;在所述至少一个维度中确定待采集数据对应的至少一个目标维度;根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;根据所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。因此,本发明提供的方案可以提高数据采集准确率。

Description

一种数据采集方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种数据采集方法及装置。
背景技术
随着大数据时代的到来,人们愈加认识到数据的重要性,因此通过对互联网数据的采集来获取到有价值的数据。
目前,数据采集的方法通常为:利用爬虫程序根据网站页面的数据分布去不断深入解析网站,遍历解析出来的链接或页面中的全部数据,以采集到所需数据。但是,由于目前各大网站的数据内容不断扩展,而且分类也在不断增多。因此在采用上述的方法从解析出来的连接或页面中采集所需数据时,由于采集范围过大,会导致采集到的数据存在数据冗余、数据漏采、采集结果分类不统一的问题。因此,现有的方式,数据采集的准确率较低。
发明内容
本发明实施例提供了一种数据采集方法及装置,可以提高数据采集准确率。
第一方面,本发明实施例提供了一种数据采集方法,该方法包括:
设置至少一个维度以及每一个所述维度对应的至少一个描述词;
在所述至少一个维度中确定待采集数据对应的至少一个目标维度;
根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;
利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;
根据所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。
优选地,
进一步包括:
在判断出所述至少一个关键字不合理时,执行:
A1:重新根据每一个所述目标维度对应的至少一个描述词,确定至少一个新关键字;
A2:利用所述至少一个新关键字,对所述待采集数据进行检索,得到新检索结果;
A3:根据所述新检索结果,判断所述至少一个新关键字是否合理,如果是,对所述新检索结果进行数据采集;否则,执行步骤A1。
优选地,
所述根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字,包括:
汇总每一个所述目标维度对应的至少一个描述词;
利用所汇总的描述词,形成至少一个待确定关键字;
针对每一个所述待确定关键字均执行:判断所述待确定关键字是否能够表征至少一个所述目标维度的特征,如果是,将所述待确定关键字确定为关键字。
优选地,
所述利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果,包括:
形成至少一个关键字组合,其中,每一个所述关键字组合中包括至少一个关键字;
针对每一个所述关键字组合均执行:采用预先设定的爬虫程序,通过所述关键字组合中的至少一个关键字检索所述待采集数据,得到所述关键字组合对应的检索结果。
优选地,
所述根据所述检索结果,判断所述至少一个关键字是否合理,包括:
确定所述检索结果中包括的至少一个字符串;
统计每一个所述字符串的出现次数;
针对每一个所述字符串均执行:判断所述字符串是否与至少一个所述目标维度的特征相匹配;如果不匹配,则继续判断所述字符串的出现次数是否达到预先设定的次数阈值,如果未达到所述次数阈值,则判断出所述至少一个关键字合理。
优选地,
所述根据所述检索结果,判断所述至少一个关键字是否合理,包括:
统计所述检索结果的数据量;
判断所述数据量是否超过预先设定的数据量阈值,如果否,则确定所述至少一个关键字合理。
第二方面,本发明实施例提供了一种数据采集装置,该装置包括:
设置模块,用于设置至少一个维度以及每一个所述维度对应的至少一个描述词;
维度确定模块,用于在所述设置模块设置的所述至少一个维度中确定待采集数据对应的至少一个目标维度;
关键字确定模块,用于根据所述维度确定模块确定的每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;
检索模块,用于利用所述关键字确定模块确定的所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;
采集模块,用于根据所述检索模块得到的所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。
优选地,
所述关键字确定模块,进一步用于在接收到所述采集模块的触发时,重新根据每一个所述目标维度对应的至少一个描述词,确定至少一个新关键字;
所述检索模块,进一步用于利用所述关键字确定模块确定的所述至少一个新关键字,对所述待采集数据进行检索,得到新检索结果;
所述采集模块,进一步用于根据所述检索模块得到所述新检索结果,判断所述至少一个新关键字是否合理,如果是,对所述新检索结果进行数据采集;否则,触发所述关键字确定模块。
优选地,
所述关键字确定模块,包括:形成子模块以及确定子模块;
所述形成子模块,用于汇总每一个所述目标维度对应的至少一个描述词;利用所汇总的描述词,形成至少一个待确定关键字;
所述确定子模块,用于针对每一个所述待确定关键字均执行:判断所述待确定关键字是否能够表征至少一个所述目标维度的特征,如果是,将所述待确定关键字确定为关键字。
优选地,
所述检索模块,用于形成至少一个关键字组合,其中,每一个所述关键字组合中包括至少一个关键字;针对每一个关键字组合均执行:采用预先设定的爬虫程序,通过所述关键字组合中的至少一个关键字检索所述待采集数据,得到所述关键字组合对应的检索结果。
优选地,
所述采集模块,包括:第一统计子模块以及第一判断子模块;
所述第一统计子模块,用于确定所述检索结果中包括的至少一个字符串;统计每一个所述字符串的出现次数;
所述第一判断子模块,用于针对每一个所述字符串均执行:判断所述字符串是否与至少一个所述目标维度的特征相匹配;如果不匹配,则继续判断所述字符串的出现次数是否达到预先设定的次数阈值,如果未达到所述次数阈值,则判断出所述至少一个关键字合理。
优选地,
所述采集模块,包括:第二统计子模块以及第二判断子模块;
所述第二统计子模块,用于统计所述检索结果的数据量;
所述第二判断子模块,用于判断所述数据量是否超过预先设定的数据量阈值,如果否,则确定所述至少一个关键字合理。
本发明实施例提供了一种数据采集方法及装置,首先可以根据业务要求设置设定数量个维度以及每一个维度对应的至少一个描述词。在确定出待采集数据时,可以在各个设定的维度中确定出待采集数据对应的至少一个目标维度。并根据各个目标维度对应的各个描述词,确定出至少一个关键字。利用所确定的关键字对待采集数据进行检索,以得到检索结果。然后在根据检索结果判断出所确定的关键字合理时,对检索进行数据采集。通过上述可知,本方案中可以通过待采集数据对应的目标维度,确定出关键字。并利用所确定出的关键字对待采集数据进行定向检索,以对定向检索出的检索结果进行数据采集。由于检索结果是根据关键字定向检索得到的。因此,本发明实施例提供的方案可以提高数据采集准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种数据采集方法的流程图;
图2是本发明另一个实施例提供的一种数据采集方法的流程图;
图3是本发明一个实施例提供的一种数据采集装置所在设备的硬件架构图;
图4是本发明一个实施例提供的一种数据采集装置的结构示意图;
图5是本发明一个实施例提供的一种包括形成子模块以及确定子模块的数据采集装置的结构示意图;
图6是本发明一个实施例提供的一种包括第一统计子模块以及第一判断子模块的数据采集装置的结构示意图;
图7是本发明一个实施例提供的一种包括第二统计子模块以及第二判断子模块的数据采集装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据采集方法,该方法可以包括以下步骤:
步骤101:设置至少一个维度以及每一个所述维度对应的至少一个描述词;
步骤102:在所述至少一个维度中确定待采集数据对应的至少一个目标维度;
步骤103:根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;
步骤104:利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;
步骤105:根据所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。
根据图1所示的实施例,首先可以根据业务要求设置设定数量个维度以及每一个维度对应的至少一个描述词。在确定出待采集数据时,可以在各个设定的维度中确定出待采集数据对应的至少一个目标维度。并根据各个目标维度对应的各个描述词,确定出至少一个关键字。利用所确定的关键字对待采集数据进行检索,以得到检索结果。然后在根据检索结果判断出所确定的关键字合理时,对检索进行数据采集。通过上述可知,本方案中可以通过待采集数据对应的目标维度,确定出关键字。并利用所确定出的关键字对待采集数据进行定向检索,以对定向检索出的检索结果进行数据采集。由于检索结果是根据关键字定向检索得到的。因此,本发明实施例提供的方案可以提高数据采集准确率。
在本发明一个实施例中,待采集数据的具体型式可以根据业务要求确定。比如,待采集数据可以为各个网站中的数据。
在本发明一个实施例中,上述图1所示流程图中步骤101所涉及的至少一个维度的数量以及每一个所述维度的型式均可以根据业务要求确定。比如至少一个维度可以包括但不限于时间维度(年份、月份、季度、星期、天、小时)、地域维度(省、市、区、县、村)、类型维度(服装、数码、美食、玩具、家电、汽车、房产等)、具体行业专属维度(如旅游数据可分为:国内游、境外游、周边游等,又如服装数据可分为:男装、女装、内衣等)中的至少一个或多个。
在本实施例中,每一个维度对应的至少一个描述词的数量以及型式也可以根据业务要求确定。比如,下面以维度为地域维度(省)为例进行说明:地域维度对应的至少一个描述词包括河北省、河南省、山西省、山东省。
在本发明一个实施例中,上述图1所示流程图中的步骤103根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字,可以包括:
汇总每一个所述目标维度对应的至少一个描述词;
利用所汇总的描述词,形成至少一个待确定关键字;
针对每一个所述待确定关键字均执行:判断所述待确定关键字是否能够表征至少一个所述目标维度的特征,如果是,将所述待确定关键字确定为关键字。
在本实施例中,利用所汇总的描述词,形成至少一个待确定关键字的方法可以包括以下两种:
方法一:将每一个描述词单独列出,在各个描述词中选择出至少一个目标描述词,将每一个目标描述词确定为一个待确定关键字;
方法二:在各个描述词中选择出至少一个目标描述词,形成至少一个待确定关键词,其中,每一个待确定关键词中包括至少一个目标描述词。
需要注意的是,无论采用上述的哪种方法,待确定关键词在语义上均应能够描述出至少一个目标维度的特征。
下面以确定出的至少一个目标维度包括时间维度(年份)、地域维度(省)、具体行业专属维度(男装、女装、内衣)为例进行说明:时间维度(年份)对应的描述词包括2016年以及2017年;地域维度对应的描述词包括河北省、山东省;具体行业专属维度对应的描述词包括男装、女装。则确定出的待确定关键字可以包括2016年男装、2017年河北省女装。可见2016年男装可以表征出时间维度以具体行业专属维度的特征,2017年河北省女装可以表征出时间维度、地域维度以及具体行业专属维度的特征。
根据上述实施例,由于是根据待采集数据对应的目标维度以及每一个目标维度对应的描述词来确定出关键字,确定出的每一个关键字均可能从语义上描述出待采集数据的部分内容。因此,关键字与待采集数据的匹配度较高。
在本发明一个实施例中,上述图1所示流程图中的步骤104利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果,可以包括:
形成至少一个关键字组合,其中,每一个所述关键字组合中包括至少一个关键字;
针对每一个所述关键字组合均执行:采用预先设定的爬虫程序,通过所述关键字组合中的至少一个关键字检索所述待采集数据,得到所述关键字组合对应的检索结果。
在本实施例中,形成至少一个关键字组合的方法可以包括:第一种,将每一个关键字均作为一个关键字组合;第二种,每一个关键字组合中包括至少两个关键字,且每一个关键字组合均不同。
在本实施例中,在待采集数据为网站数据时,针对每一个关键字组合均执行:利用爬虫程序向网站提交包括关键组合的访问请求,然后在获取到网站的响应信息(比如种子地址)时,通过浏览器访问网站种子地址对应的网页。在检索栏中输入关键字组合中的各个关键字,然后就会得到关键字组合对应的检索结果。
根据上述实施例,利用所确定的关键字形成至少一个关键字组合。然后采用预先设定的爬虫程序,利用每一个关键字组合对待采集数据进行检索。由于至少一个关键字组合可以涵盖关键字的各种组合情况,因此,利用所形成的关键字组合可以对待检索数据进行全面检索,以减低出现数据遗漏的概率。
在本发明一个实施例中,在所述形成至少一个关键字组合之后可以进一包括:
判断待采集数据的数据量是否超出预先设定的总量阈值,如果是,将所述待采集数据拆分成至少一个待采集子数据,其中,每一个所述待采集子数据的数量均小于所述总量阈值;
所述通过所述关键字组合中的至少一个关键字检索所述待采集数据,包括:
通过所述关键字组合中的至少一个关键字检索每一个所述待采集子数据。
在本发明一个实施例中,实现上述图1所示流程图中的步骤105根据所述检索结果判断所述至少一个关键字是否合理的方法至少包括以下两种:
方法一:
在本发明一个实施例中,上述图1所示流程图中的步骤105根据所述检索结果,判断所述至少一个关键字是否合理,包括:
确定所述检索结果中包括的至少一个字符串;
统计每一个所述字符串的出现次数;
针对每一个所述字符串均执行:判断所述字符串是否与至少一个所述目标维度的特征相匹配;如果不匹配,则继续判断所述字符串的出现次数是否达到预先设定的次数阈值,如果未达到所述次数阈值,则判断出所述至少一个关键字合理。
在本实施例中,检索结果中包括的至少一个字符串的方法可以为:第一种,随机在检索结果中抽取至少一个字符串;第二种,确定检索结果中包括的每一个字符串。
在本实施例中,下面以上述的第一种方法随机在检索结果抽取至少一个字符串为例进行说明:至少一个目标维度包括时间维度(年份)、地域维度(省)、具体行业专属维度(男装、女装、内衣)。在检索结果中随机抽取了字符串1和字符串2。通过判断字符串1(比如2017年)与目标维度时间维度的特征年份相匹配,则确定该字符串1合理;通过判断字符串2(比如饼干)与任一个目标维度的特征均不匹配,且判断出其出现了50次已经超出了预先设定的次数阈值,则确定该字符串2不合理。通过上述可知,字符串2不合理,则判断出所确定的关键字中存在不合理的关键字,因此确定出关键字不合理。
根据上述实施例,确定检索结果中包括的至少一个字符串,根据每一个字符串与每一个目标维度的匹配程度以及每一个字符串的出现次数,判断所确定的关键字是否合理。由于字符串是从检索结果中确定出来的,因此字符串可以真实的反映出检索结果中包括的内容,因此根据字符串可以准确的判断出关键字是否合理。
方法二:
在本发明一个实施例中,上述图1所示流程图中的步骤105根据所述检索结果,判断所述至少一个关键字是否合理,包括:
统计所述检索结果的数据量,
判断所述数据量是否超过预先设定的数据量阈值,如果否,则确定所述至少一个关键字合理。
在本实施例中,数据量的具体型式可以根据业务要求确定。比如可以为条数值、比特值、页数值中的任意一种。
在本实施例中,在判断出检索结果的数据量未超过数据量阈值时,说明关键字定的较为精准,可以准确的检索出符合要求的数据;在判断出检索结果的数据量超过了数据量阈值时,则说明关键字定的不合理,检索数据中出现不需要的冗余数据。
在本实施例中,下面以数据量为页数值为例进行说明:预先设定的数据量阈值为100页。而统计出检索结果的页数值为110页。则判断出检索结果中的页数值110页已经超出了预先设定的数据量阈值100页。说明检索数据中出现不需要的冗余数据,所确定出的关键字不合理,需要重新确定关键字。
根据上述实施例,根据检索结果的数据量与预先设定数据量阈值之间的关系,确定关键字是否合理。由于检索结果的数据量可以真实的反映出检索结果是否存在冗余数据,因此根据检索结果的数据量可以准确的判断出关键字是否合理。
在本发明一个实施例中,上述方法一与方法二可以相结合来实现数据采集方法。
在本发明一个实施例中,数据采集方法进一步包括:
在判断出所述至少一个关键字不合理时,执行:
A1:重新根据每一个所述目标维度对应的至少一个描述词,确定至少一个新关键字;
A2:利用所述至少一个新关键字,对所述待采集数据进行检索,得到新检索结果;
A3:根据所述新检索结果,判断所述至少一个新关键字是否合理,如果是,对所述新检索结果进行数据采集;否则,执行步骤A1。
在本实施例中,在判断出至少一个关键字不合理时,说明检索结果存在数据冗余等异常情况。为了获取较为精确的检索结果需要再重新根据各个目标维度对应的描述词来确定出新关键字。
在确定出新关键字之后,需要利用所确定的新关键字重新对待采集数据进行检索,以得到新检索结果,并对新检索结果再进行判断所确定的新关键字是否合理。在判断出合理时,则可以对新检索结果进行数据采集。在判断出不合理时,则继续重复上述过程,直至判断出所确定出的关键字合理为止。
根据上述实施例,在判断出关键字不合理时需要重新根据各个目标维度对应的描述词,确定出新关键字,以便根据新关键字重新对待采集数据进行数据采集。由于可以根据检索结果对关键字进行重新确定,因此可以使检索结果更精确。
在本发明一个实施例中,上述图1所示流程图中的步骤105中所涉及的对所述检索结果进行数据采集,可以包括:
确定至少一个检索参数;
在所述检索结果中采集每一个检索参数对应的至少一个目标数据。
在本实施例中,检索参数可以根据业务要求。比如可以为一个年份中某个地域的服装销售信息。
根据上述实施例,利用检索结果进行数据采集,由于检索结果缩小了数据采集的范围。因此,数据采集的效率较高。
下面以对网站A提供的待采集数据A进行数据采集为例,对数据采集方法进行说明。如图2所示,该数据采集方法包括:
步骤201:设置至少一个维度以及每一个维度对应的至少一个描述词。
在本步骤中,设置的维度包括时间维度、地域维度、类型维度、具体行业专属维度。其中,时间维度对应的描述词包括2016年以及2017年;地域维度对应的描述词包括河北省、河南省、山西省、山东省。类型维度对应的描述词包括服装、数码、美食;具体行业专属维度对应的描述词包括男装、女装。
步骤202:在至少一个维度中确定待采集数据对应的至少一个目标维度。
在本步骤中,确定出待采集数据A对应的目标维度包括时间维度、地域维度、具体行业专属维度。
步骤203:汇总每一个目标维度对应的至少一个描述词。
在本步骤中,汇总时间维度、地域维度、具体行业专属维度的描述词。
步骤204:利用所汇总的描述词,形成至少一个待确定关键字。
在本步骤中,形成的待确定关键字包括2016年男装、2017年河北省女装。
步骤205:在至少一个待确定关键字中,依次选择一个待确定关键字作为当前待确定关键字。
步骤206:判断当前待确定关键字是否能够表征至少一个目标维度的特征,如果是,执行步骤207;否则,执行步骤208。
在本步骤中,在2016年男装为当前待确定关键字时,2016年男装可以表征出时间维度以具体行业专属维度的特征,执行步骤208。在2017年河北省女装为当前待确定关键字时,2017年河北省女装可以表征出时间维度、地域维度以及具体行业专属维度的特征,执行步骤208。
步骤207:将当前待确定关键字确定为关键字。
步骤208:判断当前待确定关键字是否为最后一个待确定关键字,如果是,执行步骤209;否则,执行步骤205。
在本步骤中,将2016年男装、2017年河北省女装确定为关键字。
步骤209:形成至少一个关键字组合,其中,每一个关键字组合中包括至少一个关键字。
在本步骤中,形成的关键字组合包括:2016年男装、2017年河北省女装、2016年男装2017年河北省女装。
步骤210:针对每一个关键字组合均执行:采用预先设定的爬虫程序,通过关键字组合中的至少一个关键字检索待采集数据,得到关键字组合对应的检索结果。
在本步骤中,比如以2016年男装2017年河北省女装为例进行说明:采用预先设定的爬虫程序,通过2016年男装2017年河北省女装包括的关键字(2016年男装、2017年河北省女装)检索待采集数据A,得到2016年男装2017年河北省女装对应的检索结果。
步骤211:统计当前所得到的检索结果的数据量。
在本步骤中,统计出检索结果的页数值为90页。
步骤212:判断数据量是否超过预先设定的数据量阈值,如果否,执行步骤213;否则,执行步骤214。
在本步骤中,判断出90页未超过数据量阈值100页,执行步骤213。
步骤213:确定至少一个关键字合理,对检索结果进行数据采集。
在本步骤中,确定关键字2016年男装、2017年河北省女装合理,对检索结果进行数据采集。
比如,从检索结果中获取2017年服装的服务销售信息。
步骤214:重新根据每一个目标维度对应的至少一个描述词,确定至少一个新关键字。
步骤215:利用至少一个新关键字,对待采集数据进行检索,得到新检索结果,将新检索结果作为当前所得到的检索结果,执行步骤211。
如图3、图4所示,本发明实施例提供了一种数据采集装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的数据采集装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的数据采集装置,包括:
设置模块401,用于设置至少一个维度以及每一个所述维度对应的至少一个描述词;
维度确定模块402,用于在所述设置模块401设置的所述至少一个维度中确定待采集数据对应的至少一个目标维度;
关键字确定模块403,用于根据所述维度确定模块402确定的每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;
检索模块404,用于利用所述关键字确定模块403确定的所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;
采集模块405,用于根据所述检索模块404得到的所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。
根据图4所示的实施例,本方案中可以关键字确定模块通过待采集数据对应的目标维度,确定出关键字。检索模块利用所确定出的关键字对待采集数据进行定向检索,以使采集模块可以对定向检索出的检索结果进行数据采集。由于检索结果是根据关键字定向检索得到的。因此,本发明实施例提供的方案可以提高数据采集准确率。
在本发明一个实施例中,所述关键字确定模块403,进一步用于在接收到所述采集模块405的触发时,重新根据每一个所述目标维度对应的至少一个描述词,确定至少一个新关键字;
所述检索模块404,进一步用于利用所述关键字确定模块403确定的所述至少一个新关键字,对所述待采集数据进行检索,得到新检索结果;
所述采集模块405,进一步用于根据所述检索模块404得到所述新检索结果,判断所述至少一个新关键字是否合理,如果是,对所述新检索结果进行数据采集;否则,触发所述关键字确定模块403。
在本发明一个实施例中,如图5所示,所述关键字确定模块403可以包括:形成子模块4031以及确定子模块4032;
所述形成子模块4031,用于汇总每一个所述目标维度对应的至少一个描述词;利用所汇总的描述词,形成至少一个待确定关键字;
所述确定子模块4032,用于针对每一个所述待确定关键字均执行:判断所述待确定关键字是否能够表征至少一个所述目标维度的特征,如果是,将所述待确定关键字确定为关键字。
在本发明一个实施例中,所述检索模块404,用于形成至少一个关键字组合,其中,每一个所述关键字组合中包括至少一个关键字;针对每一个关键字组合均执行:采用预先设定的爬虫程序,通过所述关键字组合中的至少一个关键字检索所述待采集数据,得到所述关键字组合对应的检索结果。
在本发明一个实施例中,如图6所示,所述采集模块405可以包括:第一统计子模块4051以及第一判断子模块4052;
所述第一统计子模块4051,用于确定所述检索结果中包括的至少一个字符串;统计每一个所述字符串的出现次数;
所述第一判断子模块4052,用于针对每一个所述字符串均执行:判断所述字符串是否与至少一个所述目标维度的特征相匹配;如果不匹配,则继续判断所述字符串的出现次数是否达到预先设定的次数阈值,如果未达到所述次数阈值,则判断出所述至少一个关键字合理。
在本发明一个实施例中,如图7所示,所述采集模块405可以包括:第二统计子模块4053以及第二判断子模块4054;
所述第二统计子模块4053,用于统计所述检索结果的数据量,
所述第二判断子模块4054,用于判断所述数据量是否超过预先设定的数据量阈值,如果否,则确定所述至少一个关键字合理。
在本发明一个实施例提供了一种可读介质,该可读介质包括:执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述任一项所述的数据采集方法。
在本发明一个实施例中,上述图6与图7所示的结构示意图可以相结合来实现数据采集装置。
在本发明一个实施例提供了一种存储控制器,该存储控制器包括:处理器、存储器和总线;所述存储器用于存储执行指令;所述处理器与所述存储器通过所述总线连接;当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述任一项所述的数据采集方法。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
综上所述,本发明各个实施例至少可以实现如下有益效果:
1、在本发明实施例中,首先可以根据业务要求设置设定数量个维度以及每一个维度对应的至少一个描述词。在确定出待采集数据时,可以在各个设定的维度中确定出待采集数据对应的至少一个目标维度。并根据各个目标维度对应的各个描述词,确定出至少一个关键字。利用所确定的关键字对待采集数据进行检索,以得到检索结果。然后在根据检索结果判断出所确定的关键字合理时,对检索进行数据采集。通过上述可知,本方案中可以通过待采集数据对应的目标维度,确定出关键字。并利用所确定出的关键字对待采集数据进行定向检索,以对定向检索出的检索结果进行数据采集。由于检索结果是根据关键字定向检索得到的。因此,本发明实施例提供的方案可以提高数据采集准确率。
2、在本发明实施例中,由于是根据待采集数据对应的目标维度以及每一个目标维度对应的描述词来确定出关键字,确定出的每一个关键字均可能从语义上描述出待采集数据的部分内容。因此,关键字与待采集数据的匹配度较高。
3、在本发明实施例中,利用所确定的关键字形成至少一个关键字组合。然后采用预先设定的爬虫程序,利用每一个关键字组合对待采集数据进行检索。由于至少一个关键字组合可以涵盖关键字的各种组合情况,因此,利用所形成的关键字组合可以对待检索数据进行全面检索,以减低出现数据遗漏的概率。
4、在本发明实施例中,确定检索结果中包括的至少一个字符串,根据每一个字符串与每一个目标维度的匹配程度以及每一个字符串的出现次数,判断所确定的关键字是否合理。由于字符串是从检索结果中确定出来的,因此字符串可以真实的反映出检索结果中包括的内容,因此根据字符串可以准确的判断出关键字是否合理。
5、在本发明实施例中,根据检索结果的数据量与预先设定数据量阈值之间的关系,确定关键字是否合理。由于检索结果的数据量可以真实的反映出检索结果是否存在冗余数据,因此根据检索结果的数据量可以准确的判断出关键字是否合理。
6、在本发明实施例中,在判断出关键字不合理时需要重新根据各个目标维度对应的描述词,确定出新关键字,以便根据新关键字重新对待采集数据进行数据采集。由于可以根据检索结果对关键字进行重新确定,因此可以使检索结果更精确。
7、在本发明实施例中,利用检索结果进行数据采集,由于检索结果缩小了数据采集的范围。因此,数据采集的效率较高。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种数据采集方法,其特征在于,
设置至少一个维度以及每一个所述维度对应的至少一个描述词;
还包括:
在所述至少一个维度中确定待采集数据对应的至少一个目标维度;
根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;
利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;
根据所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。
2.根据权利要求1所述的方法,其特征在于,
进一步包括:
在判断出所述至少一个关键字不合理时,执行:
A1:重新根据每一个所述目标维度对应的至少一个描述词,确定至少一个新关键字;
A2:利用所述至少一个新关键字,对所述待采集数据进行检索,得到新检索结果;
A3:根据所述新检索结果,判断所述至少一个新关键字是否合理,如果是,对所述新检索结果进行数据采集;否则,执行步骤A1。
3.根据权利要求1所述的方法,其特征在于,
所述根据每一个所述目标维度对应的至少一个描述词,确定至少一个关键字,包括:
汇总每一个所述目标维度对应的至少一个描述词;
利用所汇总的描述词,形成至少一个待确定关键字;
针对每一个所述待确定关键字均执行:判断所述待确定关键字是否能够表征至少一个所述目标维度的特征,如果是,将所述待确定关键字确定为关键字;
和/或,
所述利用所述至少一个关键字,对所述待采集数据进行检索,得到检索结果,包括:
形成至少一个关键字组合,其中,每一个所述关键字组合中包括至少一个关键字;
针对每一个所述关键字组合均执行:采用预先设定的爬虫程序,通过所述关键字组合中的至少一个关键字检索所述待采集数据,得到所述关键字组合对应的检索结果。
4.根据权利要求1至3任一所述的方法,其特征在于,
所述根据所述检索结果,判断所述至少一个关键字是否合理,包括:
确定所述检索结果中包括的至少一个字符串;
统计每一个所述字符串的出现次数;
针对每一个所述字符串均执行:判断所述字符串是否与至少一个所述目标维度的特征相匹配;如果不匹配,则继续判断所述字符串的出现次数是否达到预先设定的次数阈值,如果未达到所述次数阈值,则判断出所述至少一个关键字合理。
5.根据权利要求1至3任一所述的方法,其特征在于,
所述根据所述检索结果,判断所述至少一个关键字是否合理,包括:
统计所述检索结果的数据量;
判断所述数据量是否超过预先设定的数据量阈值,如果否,则确定所述至少一个关键字合理。
6.一种数据采集装置,其特征在于,
设置模块,用于设置至少一个维度以及每一个所述维度对应的至少一个描述词;
维度确定模块,用于在所述设置模块设置的所述至少一个维度中确定待采集数据对应的至少一个目标维度;
关键字确定模块,用于根据所述维度确定模块确定的每一个所述目标维度对应的至少一个描述词,确定至少一个关键字;
检索模块,用于利用所述关键字确定模块确定的所述至少一个关键字,对所述待采集数据进行检索,得到检索结果;
采集模块,用于根据所述检索模块得到的所述检索结果,判断所述至少一个关键字是否合理,如果是,对所述检索结果进行数据采集。
7.根据权利要求6所述的装置,其特征在于,
所述关键字确定模块,进一步用于在接收到所述采集模块的触发时,重新根据每一个所述目标维度对应的至少一个描述词,确定至少一个新关键字;
所述检索模块,进一步用于利用所述关键字确定模块确定的所述至少一个新关键字,对所述待采集数据进行检索,得到新检索结果;
所述采集模块,进一步用于根据所述检索模块得到所述新检索结果,判断所述至少一个新关键字是否合理,如果是,对所述新检索结果进行数据采集;否则,触发所述关键字确定模块。
8.根据权利要求6所述的装置,其特征在于,
所述关键字确定模块,包括:形成子模块以及确定子模块;
所述形成子模块,用于汇总每一个所述目标维度对应的至少一个描述词;利用所汇总的描述词,形成至少一个待确定关键字;
所述确定子模块,用于针对每一个所述待确定关键字均执行:判断所述待确定关键字是否能够表征至少一个所述目标维度的特征,如果是,将所述待确定关键字确定为关键字;
和/或,
所述检索模块,用于形成至少一个关键字组合,其中,每一个所述关键字组合中包括至少一个关键字;针对每一个关键字组合均执行:采用预先设定的爬虫程序,通过所述关键字组合中的至少一个关键字检索所述待采集数据,得到所述关键字组合对应的检索结果。
9.根据权利要求6至8任一所述的装置,其特征在于,
所述采集模块,包括:第一统计子模块以及第一判断子模块;
所述第一统计子模块,用于确定所述检索结果中包括的至少一个字符串;统计每一个所述字符串的出现次数;
所述第一判断子模块,用于针对每一个所述字符串均执行:判断所述字符串是否与至少一个所述目标维度的特征相匹配;如果不匹配,则继续判断所述字符串的出现次数是否达到预先设定的次数阈值,如果未达到所述次数阈值,则判断出所述至少一个关键字合理。
10.根据权利要求6至8任一所述的装置,其特征在于,
所述采集模块,包括:第二统计子模块以及第二判断子模块;
所述第二统计子模块,用于统计所述检索结果的数据量;
所述第二判断子模块,用于判断所述数据量是否超过预先设定的数据量阈值,如果否,则确定所述至少一个关键字合理。
CN201711375381.1A 2017-12-19 2017-12-19 一种数据采集方法及装置 Pending CN108170744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711375381.1A CN108170744A (zh) 2017-12-19 2017-12-19 一种数据采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711375381.1A CN108170744A (zh) 2017-12-19 2017-12-19 一种数据采集方法及装置

Publications (1)

Publication Number Publication Date
CN108170744A true CN108170744A (zh) 2018-06-15

Family

ID=62522452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711375381.1A Pending CN108170744A (zh) 2017-12-19 2017-12-19 一种数据采集方法及装置

Country Status (1)

Country Link
CN (1) CN108170744A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750280A (zh) * 2011-04-19 2012-10-24 国际商业机器公司 用于搜索的计算机处理方法及***
CN104731903A (zh) * 2015-03-23 2015-06-24 魏强 基于产品搜索企业的方法以及搜索装置
US20150248471A1 (en) * 2014-03-03 2015-09-03 Fujitsu Limited Group forming method, data collecting method and data collecting apparatus
CN105243106A (zh) * 2015-09-22 2016-01-13 百度在线网络技术(北京)有限公司 一种用于生成查询结果的方法和装置
CN106445916A (zh) * 2016-09-19 2017-02-22 合肥清浊信息科技有限公司 专利检索用语义分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750280A (zh) * 2011-04-19 2012-10-24 国际商业机器公司 用于搜索的计算机处理方法及***
US20150248471A1 (en) * 2014-03-03 2015-09-03 Fujitsu Limited Group forming method, data collecting method and data collecting apparatus
CN104731903A (zh) * 2015-03-23 2015-06-24 魏强 基于产品搜索企业的方法以及搜索装置
CN105243106A (zh) * 2015-09-22 2016-01-13 百度在线网络技术(北京)有限公司 一种用于生成查询结果的方法和装置
CN106445916A (zh) * 2016-09-19 2017-02-22 合肥清浊信息科技有限公司 专利检索用语义分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
优酷: "优酷6.13.3", 《安智市场》 *

Similar Documents

Publication Publication Date Title
CN103927307B (zh) 一种识别网站用户的方法和装置
CN104391979B (zh) 网络恶意爬虫识别方法及装置
US9135370B2 (en) Method and apparatus of generating update parameters and displaying correlated keywords
WO2015085961A1 (zh) 构建用户画像的方法及装置
CN104346354B (zh) 一种提供推荐词的方法及装置
CN110347561B (zh) 监控告警方法及终端设备
CN102932206B (zh) 监测网站访问信息的方法和***
CN103970747B (zh) 网络侧计算机对搜索结果进行排序的数据处理方法
CN108492150B (zh) 实体热度的确定方法及***
CN106547793A (zh) 获取代理服务器地址的方法和装置
CN106936778A (zh) 网站流量异常的检测方法和装置
CN108023764A (zh) 异常处理方法和装置
CN107483381A (zh) 关联账户的监控方法及装置
CN104391953B (zh) 检测网页更新的方法及装置
CN107832444A (zh) 基于搜索日志的事件发现方法及装置
CN109213773A (zh) 一种在线故障的诊断方法、装置及电子设备
CN112632446A (zh) 页面访问路径的构建方法及***
CN104598595A (zh) 欺诈网页检测方法及相应装置
CN109033173A (zh) 一种用于生成多维指标数据的数据处理方法及装置
CN107704373A (zh) 一种数据处理方法及装置
CN109816004A (zh) 房源图片分类方法、装置、设备及存储介质
CN106815277A (zh) 搜索引擎优化的评估方法及装置
CN106101117B (zh) 一种钓鱼网站阻断方法、装置和***
CN108170744A (zh) 一种数据采集方法及装置
CN106789392A (zh) 一种监控网络爬虫的方法、装置和***

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180615

RJ01 Rejection of invention patent application after publication