CN111522900B - 非结构化数据的自动解析方法、***、设备及存储介质 - Google Patents

非结构化数据的自动解析方法、***、设备及存储介质 Download PDF

Info

Publication number
CN111522900B
CN111522900B CN202010190115.7A CN202010190115A CN111522900B CN 111522900 B CN111522900 B CN 111522900B CN 202010190115 A CN202010190115 A CN 202010190115A CN 111522900 B CN111522900 B CN 111522900B
Authority
CN
China
Prior art keywords
unstructured
data
field
unstructured data
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010190115.7A
Other languages
English (en)
Other versions
CN111522900A (zh
Inventor
陈莉
陈国洪
叶小琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN202010190115.7A priority Critical patent/CN111522900B/zh
Publication of CN111522900A publication Critical patent/CN111522900A/zh
Application granted granted Critical
Publication of CN111522900B publication Critical patent/CN111522900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种非结构化数据的自动解析方法、***、设备及存储介质,所述自动解析方法包括:获取更新后的网站或应用程序,所述更新后的网站或应用程序中包括若干非结构化数据;判断每一所述非结构化数据是否异常,若是,则将所述非结构化数据设置为预设异常标识符。本发明中可以自动判断更新后的网站或者应用程序中的非结构化数据是否异常,并且对异常数据设置异常标识符,可以简化埋点解析的复杂度及降低人为编写代码消耗的时间,提高埋点解析的数据质量,实现埋点解析的自动化。从而使相关人员能够及时发现异常的非结构化数据以对异常数据进行及时处理,从而避免在新老版本更新时非结构化数据易丢失,且丢失的相关数据难以发现的情况发生。

Description

非结构化数据的自动解析方法、***、设备及存储介质
技术领域
本发明涉及互联网行业数据分析领域,特别涉及一种非结构化数据的自动解析方法、***、设备及存储介质。
背景技术
互联网行业中用户行为主要包括用户的浏览、点击、删选、下单等,用户的这些行为在网站或者APP(应用程序)中大多都是以非结构化数据的形式进行存储,上述非结构化数据的存储类型主要有String(字符串)、map(地图)、struct(结构体)三种。在互联网行业,需要不断优化迭代实现版本更新,网站及APP的不同版本在更新时可能由于新版本和老版本中非结构化字段的存储形式、存储类型、存储数量等方面存在若干不同,因此导致出现在更新后的版本中,老版本中的若干非结构化数据丢失的情况,而现有技术中,对于在老版本中未解析出的数据大多以空值的方式进行显示,这样的处理方式,使相关人员无法监控在新老版本更替时相关数据是否存异常。
发明内容
本发明要解决的技术问题是为了克服现有技术中在网站和APP进行版本更新时,非结构化数据容易丢失的缺陷,提供一种自动监控非结构化数据异常情况的方法、***、电子设备及计算机可读存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种非结构化数据的自动解析方法,所述自动解析方法包括:
获取更新后的网站或应用程序,所述更新后的网站或应用程序中包括若干非结构化数据;
判断每一所述非结构化数据是否异常,若是,则将所述非结构化数据设置为预设异常标识符。
较佳地,所述更新后的网站或应用程序中包括若干非结构化字段,每一所述非结构化字段下存储有对应的所述非结构化数据,所述预设异常标识符包括字段缺失标识符;判断每一所述非结构化数据是否异常的步骤包括:判断所述更新后的网站或者应用程序中是否解析出每一所述非结构化字段,若否,则将未解析出的所述非结构化字段对应的所述非结构化数据设置为所述字段缺失标识符;
和/或,
所述预设异常标识符包括数据缺失标识符,判断每一所述非结构化数据是否异常的步骤包括:判断所述更新后的网站或者应用程序中每一所述非结构化数据是否为空值,若是,则将为空值的所述非结构化数据设置为所述数据缺失标识符。
本发明中,可以在网站或者应用程序进行版本更新时,对于非结构化数据可以区分旧版本中没有相关的字段还是存在相关字段但用户没有相应行为的两种情况,从而相关工作人员可以针对不同情况进行调整,以防止在版本更新时数据丢失。
较佳地,判断每一所述非结构化数据是否异常的步骤前还包括:
将所述更新后的网站或者应用程序中每一非结构化字段转化为预设数据类型,所述预设数据类型包括字典类型;
和/或,
将所述更新后的网站或者应用程序中每一非结构化字段转化为预设格式,所述预设格式包括大写字母格式或小写字母格式。
本发明中通过将待解析的数据转换为预设数据类型或预设格式可以防止由于数据类型不同或数据格式的不同而导致相关数据无法解析出来从而数据丢失的情况发生。
较佳地,所述自动解析方法还包括步骤:预设一HIVE表,对存在异常的所述非结构化数据返回预设异常标识符的步骤后还包括:
将所述非结构化数据以所述非结构化字段为类别输出至所述HIVE表中;
或,
从所述非结构化字段中获取预设返回字段;
以所述返回字段为类别将对应的所述非结构化数据输出至所述HIVE表中。
本发明中,可以方便对需要的非结构化字段中的数据进行提取,而防止现有技术中对要提取的字符串都需要编写对应的代码而导致效率低的缺陷。
本发明还提供了一种非结构化数据的自动解析***,所述自动解析***包括:获取模块及异常判断模块;
所述获取模块用于获取更新后的网站或应用程序,所述更新后的网站或应用程序中包括若干非结构化数据;
所述异常判断模块用于判断每一所述非结构化数据是否异常,若是,则将所述非结构化数据设置为预设异常标识符。
较佳地,所述更新后的网站或应用程序中包括若干非结构化字段,每一所述非结构化字段下存储有对应的所述非结构化数据,所述预设异常标识符包括字段缺失标识符;所述异常判断模块包括字段判断单元,用于判断所述更新后的网站或者应用程序中是否解析出每一所述非结构化字段,若否,则将未解析出的所述非结构化字段对应的所述非结构化数据设置为所述字段缺失标识符;
和/或,
所述预设异常标识符包括数据缺失标识符,所述异常判断模块包括空值判断单元,用于判断所述更新后的网站或者应用程序中每一所述非结构化数据是否为空值,若是,则将为空值的所述非结构化数据设置为所述数据缺失标识符。
本发明中,异常判断模块可以在网站或者应用程序进行版本更新时,对于非结构化数据可以区分旧版本中没有相关的字段还是存在相关字段但用户没有相应行为的两种情况,从而相关工作人员可以针对不同情况进行调整,以防止在版本更新时数据丢失。
较佳地,所述自动解析***还包括数据类型转换模块,用于将所述更新后的网站或者应用程序中每一非结构化字段转化为预设数据类型,所述预设数据类型包括字典类型;
和/或,
所述自动解析***还包括格式转换模块,用于将所述更新后的网站或者应用程序中每一非结构化字段转化为预设格式,所述预设格式包括大写字母格式或小写字母格式。
本发明中通过数据类型转换模块将待解析的数据转换为预设数据类型通过格式转换模块将待解析的数据转换为预设格式可以防止由于数据类型不同或数据格式的不同而导致相关数据无法解析出来从而数据丢失的情况发生。
较佳地,所述自动解析***还包括预设模块,用于预设一HIVE表;
所述自动解析***还包括返回模块,用于将所述非结构化数据以所述非结构化字段为类别输出至所述HIVE表中;
或,
所述自动解析***还包括返回模块,用于从所述非结构化字段中获取预设返回字段,且以所述返回字段为类别将对应的所述非结构化数据输出至所述HIVE表中。
本发明中,可以方便对需要的非结构化字段中的数据进行提取,而防止现有技术中对要提取的字符串都需要编写对应的代码而导致效率低的缺陷。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述自动解析方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的自动解析方法的步骤。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
发明的积极进步效果在于:本发明中可以自动判断更新后的网站或者应用程序中的非结构化数据是否异常,并且对异常数据设置异常标识符,从而使相关人员能够及时发现异常的非结构化数据以对异常数据进行及时处理,从而避免在新老版本更新时非结构化数据易丢失,且丢失的相关数据难以发现的情况发生。
附图说明
图1为本发明实施例1的非结构化数据的自动解析方法的流程图。
图2为本发明实施例2中步骤102的实现方式的部分流程图。
图3为本发明实施例2中步骤102的实现方式的部分流程图。
图4为本发明实施例3的非结构化数据的自动解析方法的流程图。
图5为本发明实施例4的非结构化数据的自动解析***的模块示意图。
图6为本发明实施例5的异常判断模块的实现方式的模块示意图。
图7为本发明实施例6的非结构化数据的自动解析***的模块示意图。
图8为本发明实施例7中的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供了一种非结构化数据的自动解析方法,如图1所示,本实施例中的非结构化数据的自动解析方法包括:
步骤101、获取更新后的网站或应用程序。
步骤102、判断每一所述非结构化数据是否异常,若是,则执行步骤103,若否,则执行步骤104。
步骤103、将所述非结构化数据设置为预设异常标识符。
步骤104、保持所述非结构化数据的原有数据。
本实施例中可以自动判断更新后的网站或者应用程序中的非结构化数据是否异常,并且对异常数据设置异常标识符,可以简化埋点解析的复杂度及降低人为编写代码消耗的时间,提高埋点解析的数据质量,实现埋点解析的自动化。从而使相关人员能够及时发现异常的非结构化数据以对异常数据进行及时处理,从而避免在新老版本更新时非结构化数据易丢失,且丢失的相关数据难以发现的情况发生。
实施例2
本实施例提供了一种非结构化数据的自动解析方法,本实施例是对实施例1的进一步改进,具体的,如图2所示,步骤102可以包括:
步骤1021、判断所述更新后的网站或者应用程序中是否解析出每一所述非结构化字段,若否,则执行步骤1022,若是,则执行步骤104。
步骤1022、将未解析出的所述非结构化字段对应的所述非结构化数据设置为所述字段缺失标识符。
如图3所示,步骤102还可以包括:
步骤1023、判断所述更新后的网站或者应用程序中每一所述非结构化数据是否为空值,若是,则执行步骤1024,若否,则执行步骤104。
步骤1024、将为空值的所述非结构化数据设置为数据缺失标识符。
由于通常需要通过埋点来解析非结构化数据,而通过埋点的方式解析新版本的数据可能因为记录的埋点内容不同,如新版本中有star字段记录,旧版本没有该字段,那么解析时,对旧版本数据解析出的star内容都为null(空值),而这不是真正的用户行为,而是由数据本身没有抓取该数据导致的。本实施例中,可以通过将未解析出的非结构字段设置为一字段缺失标识符,如-111,将由于在旧版本中用户没有进行相应的行为因此没有存储相关的数据(如虽然旧版本中有酒店星级相关的字段,但是用户没有选择酒店星级相关的选项而导致旧版本中存储的数据为空值)的字段中的数据返回数据缺失标识符,如-999,来区分上述两种情况。
本实施例中,可以在网站或者应用程序进行版本更新时,对于非结构化数据可以区分旧版本中没有相关的字段还是存在相关字段但用户没有相应行为的两种情况,从而相关工作人员可以针对不同情况进行调整,以防止在版本更新时数据丢失。
实施例3
本实施例提供了一种非结构化数据的自动解析方法,本实施例是对实施例1或实施例2的进一步改进。
具体的,为了防止网站或应用程序的新版本上线数据埋入方式变更,SQL(结构化查询语言)自带的解析函数只能解析出符合历史解析格式的内容,对于不符合的记录数据会丢失的情况发生(如,原本储存的格式为String,新的格式为Struct),本实施例中,如图4所示,步骤102前还可以包括步骤301、将所述更新后的网站或者应用程序中每一非结构化字段转化为预设数据类型。
其中,预设数据类型可以包括字典类型,通过在对非结构化数据解析前,将每一非结构化数据转化为字典类型,可以防止由于数据类型不同而导致相关数据无法解析出来从而数据丢失的情况发生。
为了防止在新老版本进行更替时,同一字段不同版本记录大小写不同,如star/Star,SQL自带函数仅按照一种方式进行解析,导致另一种形式记录数据的丢失的情况发生,步骤102前还可以包括步骤302、将所述更新后的网站或者应用程序中每一非结构化字段转化为预设格式。
其中,所述预设格式包括大写字母格式或小写字母格式,通过在解析前,将每一非结构化字段转化为同一格式,可以避免由于大小写不同而导致的数据丢失的情况发生。
可选的,为了方便对数据的读取,本实施例中,还可以包括步骤:预设一HIVE(一种数据仓库工具)表,并且完成对非结构化数据解析后,即在步骤103及步骤104后,将所述非结构化数据以所述非结构化字段为类别输出至所述HIVE表中。
为了方便对需要的非结构化字段中的数据进行提取,而防止现有技术中对要提取的字符串都需要编写对应的代码的缺陷,本实施例中,在步骤103及步骤104后还包括:
步骤303、从所述非结构化字段中获取预设返回字段。
步骤304、以所述返回字段为类别将对应的所述非结构化数据输出至所述HIVE表中。
应当理解,上述实施例中的自动解析方法,可以通过UDF(用户自定义)函数来实现,并且,可以通过上传UDF函数脚本实现在整个调度平台使用供不同用户使用,上述实施例利用UDF函数解析用户行为数据,并对不同类型数据缺失补充不同的数值,从而更容易发现异常数据。也使得埋点的解析方式更加统一、标准化,异常埋点更容易监测,BI(行为识别)工作量大大降低。
实施例4
本实施例提供了一种非结构化数据的自动解析***,如图5所示,所述自动解析***包括:获取模块401及异常判断模块402。
获取模块401用于获取更新后的网站或应用程序,所述更新后的网站或应用程序中包括若干非结构化数据。
异常判断模块402用于判断每一所述非结构化数据是否异常,若是,则将所述非结构化数据设置为预设异常标识符。
本实施例中可以自动判断更新后的网站或者应用程序中的非结构化数据是否异常,并且对异常数据设置异常标识符,可以简化埋点解析的复杂度及降低人为编写代码消耗的时间,提高埋点解析的数据质量,实现埋点解析的自动化。从而使相关人员能够及时发现异常的非结构化数据以对异常数据进行及时处理,从而避免在新老版本更新时非结构化数据易丢失,且丢失的相关数据难以发现的情况发生。
实施例5
本实施例提供了一种非结构化数据的自动解析***,本实施例是对实施例4的进一步改进,本实施例中,具体的,所述更新后的网站或应用程序中包括若干非结构化字段,每一所述非结构化字段下存储有对应的所述非结构化数据,所述预设异常标识符包括字段缺失标识符,如图6所示,异常判断模块402可以包括字段判断单元4021,用于判断所述更新后的网站或者应用程序中是否解析出每一所述非结构化字段,若否,则将未解析出的所述非结构化字段对应的所述非结构化数据设置为所述字段缺失标识符。
可选的,所述预设异常标识符包括数据缺失标识符,异常判断模块402包括空值判断单元4022,用于判断所述更新后的网站或者应用程序中每一所述非结构化数据是否为空值,若是,则将为空值的所述非结构化数据设置为所述数据缺失标识符。
由于通常需要通过埋点来解析非结构化数据,而通过埋点的方式解析新版本的数据可能因为记录的埋点内容不同,如新版本中有star字段记录,旧版本没有该字段,那么解析时,对旧版本数据解析出的star内容都为null,而这不是真正的用户行为,而是由数据本身没有抓取该数据导致的。本实施例中,可以通过将未解析出的非结构字段设置为一字段缺失标识符,如-111,将由于在旧版本中用户没有进行相应的行为因此没有存储相关的数据(如虽然旧版本中有酒店星级相关的字段,但是用户没有选择酒店星级相关的选项而导致旧版本中存储的数据为空值)的字段中的数据返回数据缺失标识符,如-999,来区分上述两种情况。
本实施例中,可以在网站或者应用程序进行版本更新时,对于非结构化数据可以区分旧版本中没有相关的字段还是存在相关字段但用户没有相应行为的两种情况,从而相关工作人员可以针对不同情况进行调整,以防止在版本更新时数据丢失。
实施例6
本实施例提供了一种非结构化数据的自动解析***,本实施例是对实施例4或实施例5的进一步改进。
具体的,为了防止网站或应用程序的新版本上线数据埋入方式变更,SQL自带的解析函数只能解析出符合历史解析格式的内容,对于不符合的记录数据会丢失的情况发生(如,原本储存的格式为String,新的格式为Struct),本实施例中,如图7所示,自动解析***还包括数据类型转换模块403,用于将所述更新后的网站或者应用程序中每一非结构化字段转化为预设数据类型。
其中,预设数据类型可以包括字典类型,通过在对非结构化数据解析前,将每一非结构化数据转化为字典类型,可以防止由于数据类型不同而导致相关数据无法解析出来从而数据丢失的情况发生。
为了防止在新老版本进行更替时,同一字段不同版本记录大小写不同,如star/Star,SQL自带函数仅按照一种方式进行解析,导致另一种形式记录数据的丢失的情况发生,本实施例中的自动解析***还包括格式转换模块404,用于将所述更新后的网站或者应用程序中每一非结构化字段转化为预设格式,所述预设格式包括大写字母格式或小写字母格式。
其中,所述预设格式包括大写字母格式或小写字母格式,通过在解析前,将每一非结构化字段转化为同一格式,可以避免由于大小写不同而导致的数据丢失的情况发生。
可选的,为了方便对数据的读取,本实施例中,所述自动解析***还包括预设模块405及返回模块406,预设模块405用于预设一HIVE表,返回模块406用于将所述非结构化数据以所述非结构化字段为类别输出至所述HIVE表中。
为了方便对需要的非结构化字段中的数据进行提取,而防止现有技术中对要提取的字符串都需要编写对应的代码的缺陷,本实施例中,返回模块406还用于从所述非结构化字段中获取预设返回字段,且以所述返回字段为类别将对应的所述非结构化数据输出至所述HIVE表中。
应当理解,上述实施例中的自动解析***,可以通过UDF函数来实现,并且,可以通过上传UDF函数脚本实现在整个调度平台使用供不同用户使用,上述实施例利用UDF函数解析用户行为数据,并对不同类型数据缺失补充不同的数值,从而更容易发现异常数据。也使得埋点的解析方式更加统一、标准化,异常埋点更容易监测,BI(行为识别)工作量大大降低。
实施例5
本实施例提供一种电子设备,电子设备可以通过计算设备的形式表现(例如可以为服务器设备),包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中处理器执行计算机程序时可以实现实施例1-实施例3中任意一自动解析方法。
图8示出了本实施例的硬件结构示意图,如图8所示,电子设备9具体包括:
至少一个处理器91、至少一个存储器92以及用于连接不同***组件(包括处理器91和存储器92)的总线93,其中:
总线93包括数据总线、地址总线和控制总线。
存储器92包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1-实施例3中任意一自动解析方法。
电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备9使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1-实施例3中任意一自动解析方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1-实施例3中任意一自动解析方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (8)

1.一种非结构化数据的自动解析方法,其特征在于,所述自动解析方法包括:
获取更新后的网站或应用程序,所述更新后的网站或应用程序中包括若干非结构化数据;
判断每一所述非结构化数据是否异常,若是,则将所述非结构化数据设置为预设异常标识符;
所述更新后的网站或应用程序中包括若干非结构化字段,每一所述非结构化字段下存储有对应的所述非结构化数据,所述预设异常标识符包括字段缺失标识符;判断每一所述非结构化数据是否异常的步骤包括:判断所述更新后的网站或者应用程序中是否解析出每一所述非结构化字段,若否,则将未解析出的所述非结构化字段对应的所述非结构化数据设置为所述字段缺失标识符;
和/或,
所述预设异常标识符包括数据缺失标识符,判断每一所述非结构化数据是否异常的步骤包括:判断所述更新后的网站或者应用程序中每一所述非结构化数据是否为空值,若是,则将为空值的所述非结构化数据设置为所述数据缺失标识符。
2.如权利要求1所述的自动解析方法,其特征在于,判断每一所述非结构化数据是否异常的步骤前还包括:
将所述更新后的网站或者应用程序中每一非结构化字段转化为预设数据类型,所述预设数据类型包括字典类型;
和/或,
将所述更新后的网站或者应用程序中每一非结构化字段转化为预设格式,所述预设格式包括大写字母格式或小写字母格式。
3.如权利要求1所述的自动解析方法,其特征在于,所述自动解析方法还包括步骤:预设一HIVE表,对存在异常的所述非结构化数据返回预设异常标识符的步骤后还包括:
将所述非结构化数据以所述非结构化字段为类别输出至所述HIVE表中;
或,
从所述非结构化字段中获取预设返回字段;
以所述返回字段为类别将对应的所述非结构化数据输出至所述HIVE表中。
4.一种非结构化数据的自动解析***,其特征在于,所述自动解析***包括:获取模块及异常判断模块;
所述获取模块用于获取更新后的网站或应用程序,所述更新后的网站或应用程序中包括若干非结构化数据;
所述异常判断模块用于判断每一所述非结构化数据是否异常,若是,则将所述非结构化数据设置为预设异常标识符;
所述更新后的网站或应用程序中包括若干非结构化字段,每一所述非结构化字段下存储有对应的所述非结构化数据,所述预设异常标识符包括字段缺失标识符;所述异常判断模块包括字段判断单元,用于判断所述更新后的网站或者应用程序中是否解析出每一所述非结构化字段,若否,则将未解析出的所述非结构化字段对应的所述非结构化数据设置为所述字段缺失标识符;
和/或,
所述预设异常标识符包括数据缺失标识符,所述异常判断模块包括空值判断单元,用于判断所述更新后的网站或者应用程序中每一所述非结构化数据是否为空值,若是,则将为空值的所述非结构化数据设置为所述数据缺失标识符。
5.如权利要求4所述的自动解析***,其特征在于,所述自动解析***还包括数据类型转换模块,用于将所述更新后的网站或者应用程序中每一非结构化字段转化为预设数据类型,所述预设数据类型包括字典类型;
和/或,
所述自动解析***还包括格式转换模块,用于将所述更新后的网站或者应用程序中每一非结构化字段转化为预设格式,所述预设格式包括大写字母格式或小写字母格式。
6.如权利要求4所述的自动解析***,其特征在于,所述自动解析***还包括预设模块,用于预设一HIVE表;
所述自动解析***还包括返回模块,用于将所述非结构化数据以所述非结构化字段为类别输出至所述HIVE表中;
或,
所述自动解析***还包括返回模块,用于从所述非结构化字段中获取预设返回字段,且以所述返回字段为类别将对应的所述非结构化数据输出至所述HIVE表中。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的自动解析方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3任一项所述的自动解析方法的步骤。
CN202010190115.7A 2020-03-18 2020-03-18 非结构化数据的自动解析方法、***、设备及存储介质 Active CN111522900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010190115.7A CN111522900B (zh) 2020-03-18 2020-03-18 非结构化数据的自动解析方法、***、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010190115.7A CN111522900B (zh) 2020-03-18 2020-03-18 非结构化数据的自动解析方法、***、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111522900A CN111522900A (zh) 2020-08-11
CN111522900B true CN111522900B (zh) 2023-09-01

Family

ID=71901626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010190115.7A Active CN111522900B (zh) 2020-03-18 2020-03-18 非结构化数据的自动解析方法、***、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111522900B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101467003A (zh) * 2006-06-30 2009-06-24 电子地图北美公司 用于收集关于地理数据的用户更新请求以支持自动化分析、处理和地理数据更新的方法和***
CN104135521A (zh) * 2014-07-29 2014-11-05 广东省环境监测中心 环境自动监测网络的数据异常值标识方法及***
CN106776851A (zh) * 2016-11-28 2017-05-31 国网上海市电力公司 文档结构化方法和设备
CN107861738A (zh) * 2017-11-06 2018-03-30 广东欧珀移动通信有限公司 应用异常处理方法、装置、存储介质及终端设备
CN107870860A (zh) * 2017-05-05 2018-04-03 平安科技(深圳)有限公司 埋点验证***及方法
CN109189840A (zh) * 2018-07-20 2019-01-11 西安交通大学 一种流式在线日志解析方法
CN109299286A (zh) * 2018-09-28 2019-02-01 北京赛博贝斯数据科技有限责任公司 非结构化数据的知识挖掘方法及***
CN109450869A (zh) * 2018-10-22 2019-03-08 杭州安恒信息技术股份有限公司 一种基于用户反馈的业务安全防护方法
WO2019046996A1 (en) * 2017-09-05 2019-03-14 Alibaba Group Holding Limited JAVA SOFTWARE LATENCY ANOMALY DETECTION
CN109656913A (zh) * 2018-12-20 2019-04-19 江苏昂内斯电力科技股份有限公司 基于物联网的数据采集异常补招方法
CN110852606A (zh) * 2019-11-08 2020-02-28 上海电力大学 一种基于调控云的生产早报数据对象化分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336597A1 (en) * 2017-05-16 2018-11-22 Catalina Marketing Corporation Offer personalization engine for targeted marketing of consumer packaged goods

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101467003A (zh) * 2006-06-30 2009-06-24 电子地图北美公司 用于收集关于地理数据的用户更新请求以支持自动化分析、处理和地理数据更新的方法和***
CN104135521A (zh) * 2014-07-29 2014-11-05 广东省环境监测中心 环境自动监测网络的数据异常值标识方法及***
CN106776851A (zh) * 2016-11-28 2017-05-31 国网上海市电力公司 文档结构化方法和设备
CN107870860A (zh) * 2017-05-05 2018-04-03 平安科技(深圳)有限公司 埋点验证***及方法
WO2019046996A1 (en) * 2017-09-05 2019-03-14 Alibaba Group Holding Limited JAVA SOFTWARE LATENCY ANOMALY DETECTION
CN107861738A (zh) * 2017-11-06 2018-03-30 广东欧珀移动通信有限公司 应用异常处理方法、装置、存储介质及终端设备
CN109189840A (zh) * 2018-07-20 2019-01-11 西安交通大学 一种流式在线日志解析方法
CN109299286A (zh) * 2018-09-28 2019-02-01 北京赛博贝斯数据科技有限责任公司 非结构化数据的知识挖掘方法及***
CN109450869A (zh) * 2018-10-22 2019-03-08 杭州安恒信息技术股份有限公司 一种基于用户反馈的业务安全防护方法
CN109656913A (zh) * 2018-12-20 2019-04-19 江苏昂内斯电力科技股份有限公司 基于物联网的数据采集异常补招方法
CN110852606A (zh) * 2019-11-08 2020-02-28 上海电力大学 一种基于调控云的生产早报数据对象化分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jian Luo ; Tardi Tjahjadi ; .Multi-Set Canonical Correlation Analysis for 3D Abnormal Gait Behaviour Recognition Based on Virtual Sample Generation.IEEE Access.2020,第2169-3536页. *

Also Published As

Publication number Publication date
CN111522900A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN107704539B (zh) 大规模文本信息批量结构化的方法及装置
US20080313220A1 (en) System and method for interfacing with a system monitor
CN107402789A (zh) 一种服务器集群自动批量穿透raid卡刷新硬盘fw的方法
US20130066869A1 (en) Computer system, method of managing a client computer, and storage medium
CN110716804A (zh) 无用资源的自动删除方法、装置、存储介质及电子设备
CN117667841A (zh) 一种企业数据管理平台及方法
CN111522900B (zh) 非结构化数据的自动解析方法、***、设备及存储介质
CN113010208A (zh) 一种版本信息的生成方法、装置、设备及存储介质
CN112667873A (zh) 一种适用于多数网站通用采集数据的爬虫***及方法
CN116303427A (zh) 数据处理方法及装置、电子设备和存储介质
CN115757090A (zh) 软件测试***、方法、设备及介质
US20120226657A1 (en) Generating bpel control flows
US20230113187A1 (en) Analytics workflow integrated with logic control
US10650020B1 (en) Analyzing transformations for preprocessing datasets
CN114968725A (zh) 任务依赖关系校正方法、装置、计算机设备及存储介质
CN115185774A (zh) 一种基于开源技术的自动化数据库
US11281901B2 (en) Document extraction system and method
CN113297403A (zh) 图像智能存储方法、***、设备及存储介质
JP5444071B2 (ja) 障害情報収集システムと方法およびプログラム
CN111461770A (zh) 一种基于模型的用户画像***
CN112422332B (zh) 一种易扩展可配置的网络数据收集方法、***及存储介质
CN115146084B (zh) 从非结构化数据获取设备故障及维修数据的方法及装置
CN116061189B (zh) 一种机器人作业数据处理***、方法、装置、设备及介质
CN102063347B (zh) 一种磁带数据恢复方法及***
US10489272B2 (en) Automatic instrumentation of code

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant