CN111061940B - 数据处理的方法及装置 - Google Patents
数据处理的方法及装置 Download PDFInfo
- Publication number
- CN111061940B CN111061940B CN201811141057.8A CN201811141057A CN111061940B CN 111061940 B CN111061940 B CN 111061940B CN 201811141057 A CN201811141057 A CN 201811141057A CN 111061940 B CN111061940 B CN 111061940B
- Authority
- CN
- China
- Prior art keywords
- information
- time
- data
- target
- target data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 72
- 230000001502 supplementing effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 17
- 238000006243 chemical reaction Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 230000009193 crawling Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 240000000038 Ziziphus mauritiana Species 0.000 description 1
- 235000006545 Ziziphus mauritiana Nutrition 0.000 description 1
- 235000008529 Ziziphus vulgaris Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种数据处理的方法及装置,涉及数据处理技术领域,主要目的在于解决现有的爬取到的数据存在可读性较差的问题。本发明的方法包括:确定待处理数据中是否存在目标信息;若是,则根据预设规则对所述目标信息进行处理,得到目标数。本发明适用于数据的处理的过程中。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理的方法及装置。
背景技术
随着网络技术的不断发展,爬虫的使用也逐步增多。通常,当爬虫爬取到数据后,由于爬虫对于被爬取的数据并不会进行解析和识别,因此,用户在读取此类被爬取到的数据时,并不能直接识别,而是需要使用相关的解析工具,将被爬取到的数据解析成用户能够直接识别和分析的数据。
目前,在爬取数据时,仅从目标网站或页面中对其中的数据内容进行爬取,然而,在实际应用中,由于爬虫作为生产端,其爬取的数据对于消费端的用户而言,需要选取额外的数据解析工具对被爬取的数据进行解析,然后才能对解析后的数据进行后续的分析和识别,因此,现有的爬取的数据对于用户而言,存在可读性较差的问题。
发明内容
鉴于上述问题,本发明提供一种数据处理的方法及装置,主要目的在于解决现有的爬取到的数据存在可读性较差的问题。
为解决上述技术问题,第一方面,本发明提供了一种数据处理的方法,该方法包括:
确定待处理数据中是否存在目标信息;
若是,则根据预设规则对所述目标信息进行处理,得到目标数据。
可选的,所述目标信息包括时间信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,包括:
确定所述时间信息中是否包含完整的日期信息,所述日期信息包括:年信息、月信息和日信息;
若包含,则将所述完整的日期信息中的年信息、月信息和日信息,按照预设顺序排列,生成所述目标数据;或者,
若不包含,则确定所述时间信息中缺失的信息内容;
若所述时间信息中缺失年信息,则获取***时间的年信息,并根据所述时间信息中的月信息、日信息以及所述***时间的年信息得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息中缺失月信息,则获取第一预设占位符作为月信息,并根据所述日期信息中的年信息、日信息及所述第一预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息缺失日信息,则获取第二预设占位符作为日信息,并根据所述日期信息中的年信息、月信息及所述第二预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息缺失月信息及日信息,则获取第三预设占位符作为月信息及日信息,并根据所述日期信息中的年信息及所述第三预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据。
可选的,所述时间信息还包括时刻信息,在生成所述目标数据前,所述方法还包括:
获取所述完整的日期信息或补充完整的日期信息;
获取时刻信息;
将所述时刻信息与所述完整的日期信息进行拼接,或,将所述时刻信息与所述补全完整的日期信息进行拼接,生成所述目标数据。
可选的,所述时间信息还包括时间指代特征,所述根据预设规则对所述目标信息进行处理,得到目标数据,包括:
当所述时间指代特征为相对时间量词时,获取当前时间信息,并根据当前时间信息与相对时间量词中的偏移量计算绝对时间,将所述绝对时间确定为所述目标时间;和/或,
当所述时间指代特征为非数字时间量词时,则根据所述非数字时间量词对应的指代含义确定对应的数字时间,将所述数字时间确定为所述目标时间。
可选的,所述目标信息包括数值信息和单位信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,还包括:
提取所述目标信息中的数值信息与单位信息;
根据所述单位信息确定所述目标信息的数量级;
根据所述数值信息与所述数量级,计算得到所述目标信息。
可选的,所述目标信息包括论坛楼层信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,还包括:
从所述论坛楼层信息中提取楼层词汇;
根据所述楼层词汇所代表的实际楼层数,确定所述楼层词汇对应的论坛楼层,并将所述楼层词汇转换为所述论坛楼层,得到所述目标数据。
可选的,所述待处理数据为待爬虫爬取的数据,或者,爬虫已爬取到的数据。
第二方面,本发明还提供了一种数据处理的装置,该装置包括:
确定单元,用于确定待处理数据中是否存在目标信息;
处理单元,用于若确定待处理数据中存在目标信息,则根据预设规则对所述目标信息进行处理,得到目标数据;
可选的,所述目标信息包括时间信息,所述处理单元,包括:
第一确定模块,用于确定所述时间信息中是否包含完整的日期信息,所述日期信息包括:年信息、月信息和日信息;
排列模块,用于若确定所述时间信息中包含完整的日期信息,则将所述完整的日期信息中的年信息、月信息和日信息,按照预设顺序排列,生成所述目标数据;
第二确定模块,用于若确定所述时间信息中不包含完整的日期信息,则确定所述时间信息中缺失的信息内容;
第一生成模块,用于若所述时间信息中缺失年信息,则获取***时间的年信息,并根据所述时间信息中的月信息、日信息以及所述***时间的年信息得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;
第二生成模块,用于若所述时间信息中缺失月信息,则获取第一预设占位符作为月信息,并根据所述日期信息中的年信息、日信息及所述第一预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;
第三生成模块,用于若所述时间信息缺失日信息,则获取第二预设占位符作为日信息,并根据所述日期信息中的年信息、月信息及所述第二预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;
第四生成模块,用于若所述时间信息缺失月信息及日信息,则获取第三预设占位符作为月信息及日信息,并根据所述日期信息中的年信息及所述第三预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据。
可选的,所述时间信息还包括时刻信息,所述处理单元还包括:
第一获取模块,用于获取所述完整的日期信息或补充完整的日期信息;
第二获取模块,用于获取时刻信息;
拼接模块,用于将所述时刻信息与所述完整的日期信息进行拼接,或,将所述时刻信息与所述补全完整的日期信息进行拼接,生成所述目标数据。
可选的,所述时间信息还包括时间指代特征,所述处理单元,包括:
第一计算模块,用于当所述时间指代特征为相对时间量词时,获取当前时间信息,并根据当前时间信息与相对时间量词中的偏移量计算绝对时间,将所述绝对时间确定为所述目标时间;
第三确定模块,用于当所述时间指代特征为非数字时间量词时,则根据所述非数字时间量词对应的指代含义确定对应的数字时间,将所述数字时间确定为所述目标时间;
可选的,所述目标信息包括数值信息和单位信息,所述处理单元,还包括:
第一提取模块,用于提取所述目标信息中的数值信息与单位信息;
第四确定模块,用于根据所述单位信息确定所述目标信息的数量级;
第二计算模块,用于根据所述数值信息与所述数量级,计算得到所述目标信息。
可选的,所述目标信息包括论坛楼层信息,所述处理单元还包括:
第二提取模块,用于从所述论坛楼层信息中提取楼层词汇;
第五确定模块,用于根据所述楼层词汇所代表的实际楼层数,确定所述楼层词汇对应的论坛楼层,并将所述楼层词汇转换为所述论坛楼层,得到所述目标数据。
可选的,所述待处理数据为待爬虫爬取的数据,或者,爬虫已爬取到的数据。
为了实现上述目的,根据本发明的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的数据处理的方法。
为了实现上述目的,根据本发明的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的数据处理的方法。
借由上述技术方案,本发明提供的数据处理的方法及装置,对于现有技术中当对爬虫爬取的数据进行分析时,爬取到的数据存在可读性较差的问题,本发明通过确定待处理数据中是否存在目标信息。若确定存在目标信息,则根据预设规则对所述目标信息进行处理,得到目标数据,从而能够在爬虫爬取网站中的数据过程中,将目标信息转化成目标数据,从而使得用户能够免去了对目标信息进行解析的过程,直接分析和识别目标数据,提高了爬取爬取的数据的可读性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据处理的方法流程图;
图2示出了本发明实施例提供的一种数据处理的装置的组成框图;
图3示出了本发明实施例提供的另一种数据处理的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了解决现有的爬取到的数据存在可读性较差的问题,本发明实施例提供了一种数据处理的方法,如图1所示,该方法包括:
101、确定待处理数据中是否存在目标信息。
其中,在本发明实施例中,目标信息可以理解为具有标准化的信息,例如时间、日期、或数字等信息。通常,为了美化和用户体验的考虑,对于互联网上的数据,一般都会将标准化的信息,比如日期,数字等信息进行一些文字格式的转化,从而能够使用户在读取这些信息时能够直接进行识别和分析。由于现有的爬虫在爬取时,仅对目标网站或页面进行爬取,而爬取到的数据为页面中的原始数据,可读性较差。
因此,在本发明实施例中,可以对于网页中的信息进行处理,从而能够使得用户在无需进行解析的情况下,直接识别该部分信息。由此,在本步骤中,当爬取爬取数据时,首先对待爬取的数据进行识别,并确定其中是否存在如时间、日期、数字等信息,即目标信息。需要说明的是,在本发明实施例中所述的目标信息的种类、数量并不做具体的限定,可以根据用户的实际需要自行选取。
102、若确定待处理数据中存在目标信息,则根据预设规则对所述目标信息进行处理,得到目标数据。
当前述步骤101中确定待爬取的数据中存在目标信息时,则说明爬虫所需爬取的数据中存在需要进行处理的数据。因此,在本步骤中,可以通过预设规则对该目标信息进行处理,以便得到目标数据。其中,在本发明实施例中,基于目标信息的种类数据可能是不同的,而不同的信息在进行处理的过程中,其转化方式也是不同的。并且,在本发明实施例中对于转化的方式可以为内容填充或格式转化等一种或多种。
例如,当目标信息为是日期信息时,则对于其中的年月日等信息进行识别并转化,在转化的过程中当发现存在缺少月份的信息则需要对缺失的信息选择预设的字符进行占位填充。或者,当目标信息为日期信息,但是日期形式为英文形式,则可以根据用户的设置,将该部分信息转化为中式的日期形式等。
对此,对于转化方式的选取,包括但不限于上述所述的方法,还可以根据自行设置,在此并不做具体的限定。但需要说明的而是,在本发明实施例中,所述转化方式的选取需要与目标信息的种类相对应的,以避免转化后的数据出现异常。
本发明实施例提供的数据处理的方法,对于现有技术中当对爬虫爬取的数据进行分析时,爬取到的数据存在可读性较差的问题,本发明通过确定待处理数据中是否存在目标信息。若确定存在目标信息,则根据预设规则对所述目标信息进行处理,得到目标数据,从而能够在爬虫爬取网站中的数据过程中,将目标信息转化成目标数据,从而使得用户能够免去了对目标信息进行解析的过程,直接分析和识别目标数据,提高了爬取爬取的数据的可读性。
进一步的,作为对图1所示实施例的细化及扩展,本发明实施例还提供了另一种数据处理的方法,如图1所示,其具体步骤包括:
101、确定待处理数据中是否存在目标信息。
在本发明实施例中,待处理数据为待爬虫爬取的数据,或者,爬虫已爬取到的数据,该目标信息可以包括时间信息,包括数值信息和单位信息的数字信息及论坛楼层信息。
基于前述实施例中步骤101中描述,对于确定得爬取数据中是否存在目标信息的方式及过程,与前述实施例中步骤101中一致,在此不做赘述。
102、若确定待处理数据中存在目标信息,则根据预设规则对所述目标信息进行处理,得到目标数据。
在前述步骤101中,当确定待爬取数据中存在时间信息、包括数值信息和单位信息的数字信息以及论坛楼层信息等目标信息时,则可以根据目标信息的具体种类进行相应的转化,得到对应时间信息的时间数据、对应包括数值信息和单位信息的数字信息的数字数据或者对应论坛楼层信息的论坛楼层数据。
具体的,基于不同目标信息,本步骤具体包括:
当确定爬虫待爬取的数据中存在包括数值信息和单位信息的数字信息时,根据预设规则对所述包括数值信息和单位信息的数字信息进行处理,得到数字数据。由于此类包括数值信息和单位信息的数字信息如“1万”“2K”等包含有数值信息“2”以及单位信息“K”,不同单位的数量级是不同的,基于不同数量级在转化为具体数字数据如“10000”“2000”时,需要在数字的基础上添加对应数量级的“0”,从而得到完整的数字数据。由此,在根据预设规则对包括数值信息和单位信息的数字信息进行处理时,具体可以为:首先,从所述数字信息中提取数值信息与单位信息。然后,根据所述单位信息确定单位所能转换的数量级。最后,根据所述数值信息与单位转换数量级生成对应所述包括数值信息和单位信息的数字信息的数字数据。这样,能够使得当待爬取数据中存在包含单位的包括数值信息和单位信息的数字信息时,能够将其中的单位转换为对应数量级,并根据数值与数量级构成对应的数字数据,从而使得后续所爬取的数据的较为直观进行显示,确保了爬虫所爬取数据的准确性。
例如,当待爬取的数据中包含有数值信息和单位信息为“1万”时,根据本步骤所述的方法,可以提取其中的数值信息“1”和单位信息“万”。然后,根据单位信息“万”确定对应的单位所应转换数量级为“0000”。最后,将数值信息“1”与单位转换数量级“0000”进行组合,生成对应包括数值信息和单位信息的数字信息“1万”的数字数据“10000”。
进一步的,当确定爬虫待爬取的数据中存在论坛楼层信息时,则根据预设规则对所述论坛楼层信息进行处理,得到论坛楼层数据。
由于论坛等网站中对于楼层的排布存在特征的论坛词汇来表示论坛层数,例如“层主”、“沙发”“板凳”等论坛楼层信息分别代表第0层、第1层、第2层。因此,为了便于后续用户直接进行分析和识别,在本发明实施例中,可以对待爬取数据进行判断,确定其中是否存在对应论坛楼层的信息,即论坛楼层信息。
具体的,在根据预设规则对论坛楼层信息进行处理可以按下述方式进行:首先,从论坛楼层信息中提取楼层词汇,例如,“沙发”等特定的楼层词汇。然后,根据楼层词汇所代表的实际楼层数,确定所述楼层词汇对应的论坛层数,并将所述楼层词汇转换为所述论坛楼层,得到所述目标数据“1楼”。需要说明的是,在本发明实施例中,由于不同的论坛网站中每一楼层词汇及对应的楼层层数可能存在区别,因此对于楼层词汇所代表的实际楼层数中所包含的每一个楼层词汇及其对应的楼层层数并不作具体的限定,可根据实际情况确认。这样,可以使得当被爬取的数据中存在论坛楼层信息时,能够从找那个提取楼层词汇,并基于楼层词汇确定对应的实际楼层,使得后续所爬取的数据中的论坛楼层数据能够被用户直接识别,改善了被爬取数据的可读性。
进一步的,当确定爬虫待爬取的数据中存在所述时间信息时,根据预设规则对所述时间信息进行处理,得到时间数据。
具体的,时间信息包括日期信息及时刻信息。若确定爬虫待爬取的数据中存在时间信息,则根据预设规则对所述时间信息进行处理,得到时间数据,具体可以包括:首先,确定所述时间信息中是否包含完整的日期信息,所述日期信息包括:年信息、月信息和日信息。然后,在确定时间信息中的日期信息完整时,按照预设顺序排列,生成所述目标数据。
具体的,确定所述时间信息的日期信息是否完整的具体执行方式可以为:判断所述日期信息中是否包含年信息、月信息及日信息。若是,则确定所述日期信息完整。
这样能够根据时间信息中是否存在完整的年月日来进行完整性的判断,继而为后续的时间信息中的日期的转化的准确性提供保障。
进一步的,由于在确定日期信息是否完整时,还可能存在不完整的情况,因此当确定所述日期信息不完整时,则可以根据下述步骤进行:
若所述时间信息中缺失年信息,则获取***时间的年信息,并根据所述时间信息中的月信息、日信息以及所述***时间的年信息得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据。这样,可以使得爬取的日期数据中补充了年信息,从而保证了所爬取的日期数据的完整性。
若所述时间信息中缺失月信息,则获取第一预设占位符作为月信息,并根据所述日期信息中的年信息、日信息及所述第一预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据。
例如,当日期信息中仅包含年信息“2018”和日信息“15”则可以选取第一预设占位符“M”作为月信息,并得所述目标数据为“2018-M-15”。
若所述时间信息缺失日信息,则获取第二预设占位符作为日信息,并根据所述日期信息中的年信息、月信息及所述第二预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据。
例如,当日期信息中仅包含年信息“2018”和月信息“7”则可以选取第二预设占位符“D”作为日信息,并得所述目标数据为“2018-7-D”。
若所述时间信息缺失月信息及日信息,则获取第三预设占位符作为月信息及日信息,并根据所述日期信息中的年信息及所述第三预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据。
例如,当日期信息中仅包含年信息“2018”则可以选取第三预设占位符“X”代替月信息及日信息,并得所述目标数据为“2018-X-X”。
由此,通过对日期信息的完整性进行判断,在确定其完整时按照预设顺序排列,生成所述目标数据,从而能够确保能够以方便用户理解的形式得到所述目标数据,继而改善了数据处理的可读性。另外,当日期信息不完整时,通过从***中获取***时间作为年信息,从而确保了当被爬取的数据的日期中缺失年份时,从***时间进行补充,保证了数据处理的完整性。此外,当日期信息中缺失月信息、日信息或者是仅存在年信息时,能够通过选取第一、第二、第三占位符进行补充,从而确保了目标数据的完整性,避免了因数据缺失导致后续用户分析时可能存在的误差的问题。
此外,当确定所述时间信息的日期信息是否完整之后,还可以获取时刻信息,并将所述时刻信息与所述完整的日期信息进行拼接,或,将所述时刻信息与所述补全完整的日期信息进行拼接,生成所述目标数据。这样,能够确保在对时间信息进行处理时,确保所生成目标数据中处理了日期的同时对具体时刻处理,从而保障了数据处理后目标数据的准确性。
例如,在确定时间信息中的日期信息所转换的日期数据为“2018-7-15”时,可以进一步的对当前的目标信息进行判断,确定其中是否存在时刻信息,当确定存在时刻信息为“6:28:36,p.m”时,则可以将该时刻信息进行提取,并与已转换的日期数据进行组合,得到完整的时间数据为“2018-7-15; 6:28:36,p.m”。在此,在时刻信息提取过程中,还可以对该时刻信息进行转换为用户所需的时刻形式,例如,当时刻信息为12小时制时,可以根据用户需要将时刻信息转换为用户所需的24小时制,在此,对于时刻形式的转化可以根据用户的需要进行设定,本发明实施例并不做具体的限定。
进一步的,由于在某些网站时,其中记载时间的方式并非是按照年月日进行记载的,而是根据当前用户访问时间进行记载的,例如:“三天前”或“上周五”等。因此,当确定目标信息为时间信息时,还可以对待爬取数据进行判断,确定所述时间信息中是否存在时间指代特征,所述时间指代特征包括相对时间量词及非数字时间量词。
其中,当所述时间信息中存在相对时间量词时,则获取当前时间信息,并根据当前时间信息与相对时间量词中的偏移量进行计算,得到对应所述时间信息的时间数据。
例如,当时间信息为“3小时前”时,则可以根据本步骤所述的方法,首先获取当前时间“2018-7-11;14:22:33”,然后确定偏移量为3小时,然后基于当前时间与偏移量进行计算,得到的时间数据为“2018-7-11;11:22:33”。
当所述时间信息中存在非数字时间量词时,则根据所述非数字时间量词对应的指代含义确定所述时间信息对应的时间数据;
例如,当时间信息为“刚刚”,则基于该非数字时间量词刚刚所指代的是当前时刻相近的时刻,因此,可以确定该时间为当前时间,则可以获取当前时间作“2018-7-7;13:22:10”为该时间信息“刚刚”对应的时间数据。
此外,当确定时间信息中不仅包括用于指代时间的非时间量词及具体的时刻时,则可以根据本步骤所述的方法,首先确定费时间量词所指代的时间,并与具体的时刻进行组合得到目标数据。例如,当时间信息为“昨天下午5点”,则可以根据本步骤所述的方法,从该时间信息中确定非时间量词“昨天”的实际时间,第二时间“下午5点”,基于“昨天”实际是当前日期之前的一天,当确定当前日期为“2018-5-5”时 ,则该时间信息中非时间量词实际对应的时间为“2018-5-4”,然后与具体的时刻“17:00:00”进行组合,最后得到所述目标数据为“2018-5-4;17:00:00”。
由此,通过对时间信息进行判断,当确定其中存在时间指代特征时,根据时间指代特征的具体形式,当所述时间信息中存在相对时间量词时,则获取当前时间信息,并根据当前时间信息与相对时间量词中的偏移量进行计算,得到对应所述时间信息的时间数据,从而能够根据相对时间量词中的偏移量与当前时间进行计算,从而得到确切的时间数据,继而为后续所爬取的时间数据能够直观被用户识别,提高了数据处理的可读性。进一步的,当所述时间信息中存在非数字时间量词时,则根据所述非数字时间量词对应的指代含义确定所述时间信息对应的时间数据,能够使得被指代的时间转化为确切的时间,从而使得时间数据较为直观。
根据本发明实施例所述的方法,当待处理数据为待处理数据为待爬虫爬取的数据时,则当得到所述目标数据后,则可以使爬虫直接爬取该目标数据,这样能够使得爬虫所爬取的数据具有较好的可读性,解决了通常爬虫所爬取的数据的可读性较差的问题;而当当待处理数据为待处理数据为爬虫已爬取的数据时,根据本发明实施例所述的方法,能够确保对所爬取的数据进行处理,得到具有较好的可读性的目标数据,从而避免直接读取数据时,数据可读性较差,需要进一步的分析和识别的问题。
进一步的,作为对上述图1所示方法的实现,本发明实施例还提供了一种数据处理的装置,用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图2所示,该装置包括:确定单元31、及处理单元32,其中
确定单元31,可以用于确定待处理数据中是否存在目标信息。
处理单元32,可以用于若所述确定单元31确定待处理数据中存在目标信息,则根据预设规则对所述目标信息进行处理,得到目标数据。
进一步的,作为对上述图1所示方法的实现,本发明实施例还提供了一种数据处理的装置,用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示,该装置包括:确定单元31、及处理单元32,其中
确定单元31,可以用于确定待处理数据中是否存在目标信息。
处理单元32,可以用于若所述确定单元31确定待处理数据中存在目标信息,则根据预设规则对所述目标信息进行处理,得到目标数据。
进一步的,所述目标信息包括时间信息,所述处理单元32,包括:
第一确定模块4201,可以用于确定所述时间信息中是否包含完整的日期信息,所述日期信息包括:年信息、月信息和日信息;
排列模块4202,可以用于若第一确定模块4201确定所述时间信息中包含完整的日期信息,则将所述完整的日期信息中的年信息、月信息和日信息,按照预设顺序排列,生成所述目标数据;
第二确定模块4203,可以用于若第一确定模块4201确定所述时间信息中不包含完整的日期信息,则确定所述时间信息中缺失的信息内容;
第一生成模块4204,可以用于若第二确定模块4203确定所述时间信息中缺失年信息,则获取***时间的年信息,并根据所述时间信息中的月信息、日信息以及所述***时间的年信息得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;
第二生成模块4205,可以用于若第二确定模块4203确定所述时间信息中缺失月信息,则获取第一预设占位符作为月信息,并根据所述日期信息中的年信息、日信息及所述第一预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;
第三生成模块4206,可以用于若第二确定模块4203确定所述时间信息缺失日信息,则获取第二预设占位符作为日信息,并根据所述日期信息中的年信息、月信息及所述第二预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;
第四生成模块4207,可以用于若第二确定模块4203确定所述时间信息缺失月信息及日信息,则获取第三预设占位符作为月信息及日信息,并根据所述日期信息中的年信息及所述第三预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据。
进一步的,所述时间信息还包括时刻信息,所述处理单元32还包括:
第一获取模块4208,可以用于获取所述完整的日期信息或补充完整的日期信息;
第二获取模块4209,可以用于获取时刻信息;
拼接模块4210,可以用于将所述第二获取模块4209获取的时刻信息与所述第一获取模块4208获取的完整的日期信息进行拼接,或,将所述第二获取模块4209获取的时刻信息与所述第一获取模块4208获取的补全完整的日期信息进行拼接,生成所述目标数据。
进一步的,所述时间信息还包括时间指代特征,所述处理单元32,包括:
第一计算模块4211,可以用于当所述时间指代特征为相对时间量词时,获取当前时间信息,并根据当前时间信息与相对时间量词中的偏移量计算绝对时间,将所述绝对时间确定为所述目标时间;
第三确定模块4212,可以用于当所述时间指代特征为非数字时间量词时,则根据所述非数字时间量词对应的指代含义确定对应的数字时间,将所述数字时间确定为所述目标时间。
进一步的,所述目标信息包括数值信息和单位信息,所述处理单元32,还包括:
第一提取模块4213,可以用于提取所述目标信息中的数值信息与单位信息;
第四确定模块4214,可以用于根据所述第一提取模块4213提取的单位信息确定所述目标信息的数量级;
第二计算模块4215,可以用于根据所述第一提取模块4213提取的数值信息与所述第四确定模块4214确定的数量级,计算得到所述目标信息。
进一步的,所述目标信息包括论坛楼层信息,所述处理单元32还包括:
第二提取模块4216,可以用于从所述论坛楼层信息中提取楼层词汇;
第五确定模块4217,可以用于根据所述第二提取模块4216提取的楼层词汇所代表的实际楼层数,确定所述楼层词汇对应的论坛楼层,并将所述楼层词汇转换为所述论坛楼层,得到所述目标数据。
进一步的,所述待处理数据为待爬虫爬取的数据,或者,爬虫已爬取到的数据。
借由上述技术方案,本发明实施例提供一种数据处理的方法及装置,对于现有技术中当对爬虫爬取的数据进行分析时,爬取到的数据存在可读性较差的问题,本发明通过确定待处理数据中是否存在目标信息。若确定存在目标信息,则根据预设规则对所述目标信息进行处理,得到目标数据,从而能够在爬虫爬取网站中的数据过程中,将目标信息转化成目标数据,从而使得用户能够免去了对目标信息进行解析的过程,直接分析和识别目标数据,提高了爬取爬取的数据的可读性。
进一步的,通过当确定爬虫待爬取的数据中存在包括数值信息和单位信息的数字信息时,通过提取所述目标信息中的数值信息与单位信息,并根据所述单位信息确定所述目标信息的数量级,再根据所述数值信息与所述数量级,计算得到所述目标信息,能够使得当待爬取数据中存在包含单位的包括数值信息和单位信息的数字信息时,能够将其中的单位转换为对应数量级,并根据数值与数量级构成对应的数字数据,从而使得后续所爬取的数据的较为直观进行显示,确保了爬虫所爬取数据的准确性。再进一步的,当确定爬虫待爬取的数据中存在论坛楼层信息时,则根据预设规则对所述论坛楼层信息进行处理,得到论坛楼层数据,并从论坛楼层信息中提取楼层词汇,然后根据楼层词汇所代表的实际楼层数,确定所述楼层词汇对应的论坛层数,并将所述楼层词汇转换为所述论坛楼层,得到所述目标数据,可以使得当被爬取的数据中存在论坛楼层信息时,能够从找那个提取楼层词汇,并基于楼层词汇确定对应的实际楼层,使得后续所爬取的数据中的论坛楼层数据能够被用户直接识别,改善了被爬取数据的可读性。
同时,通过确定所述时间信息中是否包含完整的日期信息。在确定时间信息中的日期信息完整时,按照预设顺序排列,生成所述目标数据,能够根据时间信息中是否存在完整的年月日来进行完整性的判断,继而为后续的时间信息中的日期的转化的准确性提供保障。进一步的,若所述时间信息中缺失年信息,则获取***时间的年信息,并根据所述时间信息中的月信息、日信息以及所述***时间的年信息得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据。这样,可以使得爬取的日期数据中补充了年信息,从而保证了所爬取的日期数据的完整性。
并且,若所述时间信息中缺失月信息,则获取第一预设占位符作为月信息,并根据所述日期信息中的年信息、日信息及所述第一预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;而若所述时间信息缺失日信息,则获取第二预设占位符作为日信息,并根据所述日期信息中的年信息、月信息及所述第二预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;若所述时间信息缺失月信息及日信息,则获取第三预设占位符作为月信息及日信息,并根据所述日期信息中的年信息及所述第三预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据,从而能够确保当日期信息不完整时,通过从***中获取***时间作为年信息,从而确保了当被爬取的数据的日期中缺失年份时,从***时间进行补充,保证了数据处理的完整性。当日期信息中缺失月信息、日信息或者是仅存在年信息时,能够通过选取第一、第二、第三占位符进行补充,从而确保了后续所爬取数据的完整性,避免了因数据缺失导致后续用户分析时可能存在的误差的问题。
另外,通过对时间信息进行判断,当确定其中存在时间指代特征时,根据时间指代特征的具体形式,当所述时间信息中存在相对时间量词时,则获取当前时间信息,并根据当前时间信息与相对时间量词中的偏移量进行计算,得到对应所述时间信息的时间数据,从而能够根据相对时间量词中的偏移量与当前时间进行计算,从而得到确切的时间数据,继而为后续所爬取的时间数据能够直观被用户识别,提高了数据处理的可读性。进一步的,当所述时间信息中存在非数字时间量词时,则根据所述非数字时间量词对应的指代含义确定所述时间信息对应的时间数据,能够使得被指代的时间转化为确切的时间,从而使得时间数据较为直观。
所述的数据处理的装置包括处理器和存储器,上述确定单元、处理单元以及爬取单元等作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有的数据处理的过程中,爬取到的数据可读性较差的问题,改善爬虫爬取的数据的可读性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述数据处理的方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述数据处理的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:确定待处理数据中是否存在目标信息;若是,则根据预设规则对所述目标信息进行处理,得到目标数据。
进一步的,所述目标信息包括时间信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,包括:
确定所述时间信息中是否包含完整的日期信息,所述日期信息包括:年信息、月信息和日信息;
若包含,则将所述完整的日期信息中的年信息、月信息和日信息,按照预设顺序排列,生成所述目标数据;或者,
若不包含,则确定所述时间信息中缺失的信息内容;
若所述时间信息中缺失年信息,则获取***时间的年信息,并根据所述时间信息中的月信息、日信息以及所述***时间的年信息得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息中缺失月信息,则获取第一预设占位符作为月信息,并根据所述日期信息中的年信息、日信息及所述第一预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息缺失日信息,则获取第二预设占位符作为日信息,并根据所述日期信息中的年信息、月信息及所述第二预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息缺失月信息及日信息,则获取第三预设占位符作为月信息及日信息,并根据所述日期信息中的年信息及所述第三预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据。
进一步的,所述时间信息还包括时刻信息,在生成所述目标数据前,所述方法还包括:
获取所述完整的日期信息或补充完整的日期信息;
获取时刻信息;
将所述时刻信息与所述完整的日期信息进行拼接,或,将所述时刻信息与所述补全完整的日期信息进行拼接,生成所述目标数据。
进一步的,所述时间信息还包括时间指代特征,所述根据预设规则对所述目标信息进行处理,得到目标数据,包括:
当所述时间指代特征为相对时间量词时,获取当前时间信息,并根据当前时间信息与相对时间量词中的偏移量计算绝对时间,将所述绝对时间确定为所述目标时间;和/或,
当所述时间指代特征为非数字时间量词时,则根据所述非数字时间量词对应的指代含义确定对应的数字时间,将所述数字时间确定为所述目标时间。
进一步的,所述目标信息包括数值信息和单位信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,还包括:
提取所述目标信息中的数值信息与单位信息;
根据所述单位信息确定所述目标信息的数量级;
根据所述数值信息与所述数量级,计算得到所述目标信息。
进一步的,所述目标信息包括论坛楼层信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,还包括:
从所述论坛楼层信息中提取楼层词汇;
根据所述楼层词汇所代表的实际楼层数,确定所述楼层词汇对应的论坛楼层,并将所述楼层词汇转换为所述论坛楼层,得到所述目标数据。
进一步的,所述待处理数据为待爬虫爬取的数据,或者,爬虫已爬取到的数据。
本发明实施例中的设备可以是服务器、PC、PAD、手机等。
本发明实施例还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:确定待处理数据中是否存在目标信息;若是,则根据预设规则对所述目标信息进行处理,得到目标数据。
进一步的,所述目标信息包括时间信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,包括:
确定所述时间信息中是否包含完整的日期信息,所述日期信息包括:年信息、月信息和日信息;
若包含,则将所述完整的日期信息中的年信息、月信息和日信息,按照预设顺序排列,生成所述目标数据;或者,
若不包含,则确定所述时间信息中缺失的信息内容;
若所述时间信息中缺失年信息,则获取***时间的年信息,并根据所述时间信息中的月信息、日信息以及所述***时间的年信息得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息中缺失月信息,则获取第一预设占位符作为月信息,并根据所述日期信息中的年信息、日信息及所述第一预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息缺失日信息,则获取第二预设占位符作为日信息,并根据所述日期信息中的年信息、月信息及所述第二预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息缺失月信息及日信息,则获取第三预设占位符作为月信息及日信息,并根据所述日期信息中的年信息及所述第三预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据。
进一步的,所述时间信息还包括时刻信息,在生成所述目标数据前,所述方法还包括:
获取所述完整的日期信息或补充完整的日期信息;
获取时刻信息;
将所述时刻信息与所述完整的日期信息进行拼接,或,将所述时刻信息与所述补全完整的日期信息进行拼接,生成所述目标数据。
进一步的,所述时间信息还包括时间指代特征,所述根据预设规则对所述目标信息进行处理,得到目标数据,包括:
当所述时间指代特征为相对时间量词时,获取当前时间信息,并根据当前时间信息与相对时间量词中的偏移量计算绝对时间,将所述绝对时间确定为所述目标时间;和/或,
当所述时间指代特征为非数字时间量词时,则根据所述非数字时间量词对应的指代含义确定对应的数字时间,将所述数字时间确定为所述目标时间。
进一步的,所述目标信息包括数值信息和单位信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,还包括:
提取所述目标信息中的数值信息与单位信息;
根据所述单位信息确定所述目标信息的数量级;
根据所述数值信息与所述数量级,计算得到所述目标信息。
进一步的,所述目标信息包括论坛楼层信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,还包括:
从所述论坛楼层信息中提取楼层词汇;
根据所述楼层词汇所代表的实际楼层数,确定所述楼层词汇对应的论坛楼层,并将所述楼层词汇转换为所述论坛楼层,得到所述目标数据。
进一步的,所述待处理数据为待爬虫爬取的数据,或者,爬虫已爬取到的数据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种数据处理的方法,其特征在于,包括:
确定待处理数据中是否存在目标信息;
若是,则根据预设规则对所述目标信息进行处理,得到目标数据;
其中,所述目标信息包括时间信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,包括:
确定所述时间信息中是否包含完整的日期信息,所述日期信息包括:年信息、月信息和日信息;
若包含,则将所述完整的日期信息中的年信息、月信息和日信息,按照预设顺序排列,生成所述目标数据;或者,
若不包含,则确定所述时间信息中缺失的信息内容;
若所述时间信息中缺失年信息,则获取***时间的年信息,并根据所述时间信息中的月信息、日信息以及所述***时间的年信息得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息中缺失月信息,则获取第一预设占位符作为月信息,并根据所述日期信息中的年信息、日信息及所述第一预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息缺失日信息,则获取第二预设占位符作为日信息,并根据所述日期信息中的年信息、月信息及所述第二预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息缺失月信息及日信息,则获取第三预设占位符作为月信息及日信息,并根据所述日期信息中的年信息及所述第三预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;
所述时间信息还包括时间指代特征,所述根据预设规则对所述目标信息进行处理,得到目标数据,包括:
当所述时间指代特征为相对时间量词时,获取当前时间信息,并根据当前时间信息与相对时间量词中的偏移量计算绝对时间,将所述绝对时间确定为所述目标数据;和/或,
当所述时间指代特征为非数字时间量词时,则根据所述非数字时间量词对应的指代含义确定对应的数字时间,将所述数字时间确定为所述目标数据。
2.根据权利要求1所述的方法,其特征在于,所述时间信息还包括时刻信息,在生成所述目标数据前,所述方法还包括:
获取所述完整的日期信息或补充完整的日期信息;
获取时刻信息;
将所述时刻信息与所述完整的日期信息进行拼接,或,将所述时刻信息与所述补充完整的日期信息进行拼接,生成所述目标数据。
3.根据权利要求1所述的方法,其特征在于,所述目标信息包括数值信息和单位信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,还包括:
提取所述目标信息中的数值信息与单位信息;
根据所述单位信息确定所述目标信息的数量级;
根据所述数值信息与所述数量级,计算得到所述目标信息。
4.根据权利要求1所述的方法,其特征在于,所述目标信息包括论坛楼层信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,还包括:
从所述论坛楼层信息中提取楼层词汇;
根据所述楼层词汇所代表的实际楼层数,确定所述楼层词汇对应的论坛楼层,并将所述楼层词汇转换为所述论坛楼层,得到所述目标数据。
5.根据权利要求1至4任一项所述的方法,其特征在于,
所述待处理数据为待爬虫爬取的数据,或者,爬虫已爬取到的数据。
6.一种数据处理的装置,其特征在于,包括:
确定单元,用于确定待处理数据中是否存在目标信息;
处理单元,用于若确定待处理数据中存在目标信息,则根据预设规则对所述目标信息进行处理,得到目标数据;
其中,所述目标信息包括时间信息,所述处理单元,包括:
第一确定模块,用于确定所述时间信息中是否包含完整的日期信息,所述日期信息包括:年信息、月信息和日信息;
排列模块,用于若包含,则将所述完整的日期信息中的年信息、月信息和日信息,按照预设顺序排列,生成所述目标数据;
第二确定模块,用于若不包含,则确定所述时间信息中缺失的信息内容;
第一生成模块,用于若所述时间信息中缺失年信息,则获取***时间的年信息,并根据所述时间信息中的月信息、日信息以及所述***时间的年信息得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;
第二生成模块,用于若所述时间信息中缺失月信息,则获取第一预设占位符作为月信息,并根据所述日期信息中的年信息、日信息及所述第一预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;
第三生成模块,用于若所述时间信息缺失日信息,则获取第二预设占位符作为日信息,并根据所述日期信息中的年信息、月信息及所述第二预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;
第四生成模块,用于若所述时间信息缺失月信息及日信息,则获取第三预设占位符作为月信息及日信息,并根据所述日期信息中的年信息及所述第三预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;
所述时间信息还包括时间指代特征,所述处理单元,包括:
第一计算模块,用于当所述时间指代特征为相对时间量词时,获取当前时间信息,并根据当前时间信息与相对时间量词中的偏移量计算绝对时间,将所述绝对时间确定为所述目标数据;
第三确定模块,用于当所述时间指代特征为非数字时间量词时,则根据所述非数字时间量词对应的指代含义确定对应的数字时间,将所述数字时间确定为所述目标数据。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求5中任意一项所述的数据处理的方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时,实现权利要求1至权利要求5中任意一项所述的数据处理的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811141057.8A CN111061940B (zh) | 2018-09-28 | 2018-09-28 | 数据处理的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811141057.8A CN111061940B (zh) | 2018-09-28 | 2018-09-28 | 数据处理的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061940A CN111061940A (zh) | 2020-04-24 |
CN111061940B true CN111061940B (zh) | 2023-10-27 |
Family
ID=70296206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811141057.8A Active CN111061940B (zh) | 2018-09-28 | 2018-09-28 | 数据处理的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061940B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106201537A (zh) * | 2016-07-18 | 2016-12-07 | 浪潮通用软件有限公司 | 一种数据处理方法及装置 |
CN106776951A (zh) * | 2016-12-02 | 2017-05-31 | 航天星图科技(北京)有限公司 | 一种清洗对比入库方法 |
CN107273409A (zh) * | 2017-05-03 | 2017-10-20 | 广州赫炎大数据科技有限公司 | 一种网络数据采集、存储及处理方法及*** |
CN108153789A (zh) * | 2016-12-02 | 2018-06-12 | 航天星图科技(北京)有限公司 | 一种交易平台数据处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9418241B2 (en) * | 2013-02-15 | 2016-08-16 | Infosys Limited | Unified platform for big data processing |
-
2018
- 2018-09-28 CN CN201811141057.8A patent/CN111061940B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106201537A (zh) * | 2016-07-18 | 2016-12-07 | 浪潮通用软件有限公司 | 一种数据处理方法及装置 |
CN106776951A (zh) * | 2016-12-02 | 2017-05-31 | 航天星图科技(北京)有限公司 | 一种清洗对比入库方法 |
CN108153789A (zh) * | 2016-12-02 | 2018-06-12 | 航天星图科技(北京)有限公司 | 一种交易平台数据处理方法 |
CN107273409A (zh) * | 2017-05-03 | 2017-10-20 | 广州赫炎大数据科技有限公司 | 一种网络数据采集、存储及处理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN111061940A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106933887B (zh) | 一种数据可视化方法及装置 | |
CN109308254B (zh) | 一种测试方法、装置及测试设备 | |
CN111611797B (zh) | 基于Albert模型的预测数据标注的方法、装置及设备 | |
CN111159982B (zh) | 文档编辑方法、装置、电子设备及计算机可读存储介质 | |
CN111191079B (zh) | 一种文档内容获取方法、装置、设备及存储介质 | |
CN110569429B (zh) | 一种内容选择模型的生成方法、装置和设备 | |
CN113220657A (zh) | 数据处理方法、装置及计算机设备 | |
CN111667231B (zh) | 自动化报税方法、装置、***、计算机设备和存储介质 | |
CN113010169A (zh) | 用于将ui图转换成代码文件的方法和装置 | |
CN104899203B (zh) | 一种网页页面的生成方法、装置及终端设备 | |
CN103235757B (zh) | 基于自动化造数对输入域测试对象进行测试的装置和方法 | |
CN108874379B (zh) | 页面的处理方法及装置 | |
CN110908657A (zh) | 一种产品生成方法及装置 | |
CN111061940B (zh) | 数据处理的方法及装置 | |
CN112508717A (zh) | 一种影像信息的审核方法、装置、电子设备及存储介质 | |
CN110321529B (zh) | 框架文字显示方法、装置、计算机设备及存储介质 | |
CN105718434A (zh) | 一种自然语言公式编辑方法和*** | |
US20160299880A1 (en) | Method and device for updating web page | |
CN112463931A (zh) | 一种保险产品条款的智能化解析方法及相关设备 | |
CN112328246A (zh) | 页面组件生成方法、装置、计算机设备及存储介质 | |
CN111125998A (zh) | 文本处理方法和装置 | |
CN112487773A (zh) | 一种报表生成方法、装置、设备及存储介质 | |
CN107544980B (zh) | 一种查找网页的方法及装置 | |
CN106933856B (zh) | 网页更新请求的生成方法和装置 | |
CN111209759A (zh) | 网页翻译方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |