CN105653531B - 数据提取方法及装置 - Google Patents

数据提取方法及装置 Download PDF

Info

Publication number
CN105653531B
CN105653531B CN201410638204.8A CN201410638204A CN105653531B CN 105653531 B CN105653531 B CN 105653531B CN 201410638204 A CN201410638204 A CN 201410638204A CN 105653531 B CN105653531 B CN 105653531B
Authority
CN
China
Prior art keywords
extraction
data
message
matching
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410638204.8A
Other languages
English (en)
Other versions
CN105653531A (zh
Inventor
陈娟
吴明
陈伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201410638204.8A priority Critical patent/CN105653531B/zh
Priority to PCT/CN2015/076587 priority patent/WO2016074434A1/zh
Publication of CN105653531A publication Critical patent/CN105653531A/zh
Application granted granted Critical
Publication of CN105653531B publication Critical patent/CN105653531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种数据提取方法及装置,其中,该方法包括:依据数据报文确定提取的目标数据;根据预定的正则表达式对该报文数据中的内容进行匹配;在该报文数据中存在至少两个目标数据的情况下,对该至少两个目标数据进行提取。通过本发明,解决了相关技术中对目标数据的提取不准确的问题,进而能够准确提取目标数据的效果。

Description

数据提取方法及装置
技术领域
本发明涉及通信领域,具体而言,涉及一种数据提取方法及装置。
背景技术
随着移动通信技术的发展,互联网信息交流传递越来越便捷。运营商网络的不断优化,速度提升,带宽升级,费用降低,都是顺应时代的潮流。为了更好的推广产品,提升用户体验,运营商迫切需要了解用户的需求喜好等等。元数据提取可以协助了解用户常登陆的网站,业务应用,和服务器的交互内容。运营商根据元数据提取的结果就能对用户行为和用户体验做跟踪分析,统计热点网站,用户上相应网站的时延、流量等信息。能更好地优化无线网络,协助运营商提升网络质量,从而使产品获得更高的价值。
简单地,用户通过互联网终端设备向服务器请求获取资源,在接收和解释请求消息后,服务器会返回响应消息,问题就是如何从海量的报文内容中准确提取出所需要的数据。现有的方法一般都是根据正则表达式直接匹配提取,由于在网络上传输的元数据信息纷繁复杂,有时候无法找到明文的特征,正则表达式无法较好地进行配置;有时候报文数据中有多个提取目标但是提取不全面或者是只需提取一个却提取出很多不需要的错误内容。
针对相关技术中对目标数据的提取不准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明提供了一种数据提取方法及装置,以至少解决相关技术中对目标数据的提取不准确的问题。
根据本发明的一个方面,提供了一种数据提取方法,包括:依据数据报文确定提取的目标数据;根据预定的正则表达式对所述报文数据中的内容进行匹配;在所述报文数据中存在至少两个目标数据的情况下,对所述至少两个目标数据进行提取。
进一步地,根据预定的正则表达式对所述报文数据中的内容进行匹配包括:在所述报文数据中具有字符串特征的情况下,根据预定的字符正则表达式对所述报文数据中的内容进行匹配。
进一步地,根据预定的正则表达式对所述报文数据中的内容进行匹配包括:在所述报文数据中不具有字符特征的情况下,采用预定函数解析的方式解析所述报文数据,解码得到所述目标数据。
进一步地,对所述至少两个目标数据进行提取包括:在对不同的所述报文数据中提取所述至少两个目标数据的情况下,通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取。
进一步地,对所述至少两个目标数据进行提取包括:在一个报文数据有两个提取目标的情况下,对所述报文数据中的内容进行多次匹配后对两个目标数据进行提取;和/或,在不同报文数据有两个提取目标的情况下,采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。
进一步地,在通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取之前,还包括:配置动态设置接口,其中,所述动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。
根据本发明的另一方面,提供了一种数据提取装置,包括:确定模块,用于依据数据报文确定提取的目标数据;匹配模块,用于根据预定的正则表达式对所述报文数据中的内容进行匹配;提取模块,用于在所述报文数据中存在至少两个目标数据的情况下,对所述至少两个目标数据进行提取。
进一步地,所述匹配模块包括:匹配单元,用于在所述报文数据中具有字符串特征的情况下,根据预定的字符正则表达式对所述报文数据中的内容进行匹配。
进一步地,所述匹配模块包括:解析单元,用于在所述报文数据中不具有字符特征的情况下,采用预定函数解析的方式解析所述报文数据,解码得到所述目标数据。
进一步地,所述提取模块包括:提取单元,用于在对不同的所述报文数据中提取所述至少两个目标数据的情况下,通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取。
进一步地,所述提取模块包括:第二提取单元,用于在一个报文数据有两个提取目标的情况下,对所述报文数据中的内容进行多次匹配后对两个目标数据进行提取;和/或,第三提取单元,用于在不同报文数据有两个提取目标的情况下,采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。
进一步地,所述装置还包括:配置单元,用于配置动态设置接口,其中,所述动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。
通过本发明,采用依据数据报文确定提取的目标数据;根据预定的正则表达式对所述报文数据中的内容进行匹配;在所述报文数据中存在至少两个目标数据的情况下,对所述至少两个目标数据进行提取,解决了相关技术中对目标数据的提取不准确的问题,进而能够准确提取目标数据的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据提取方法的流程图;
图2是根据本发明实施例的数据提取装置的框图;
图3是根据本发明优选实施例的数据提取装置的框图一;
图4是根据本发明优选实施例的数据提取装置的框图二;
图5是根据本发明优选实施例的数据提取装置的框图三;
图6是根据本发明优选实施例的数据提取装置的框图四;
图7是根据本发明优选实施例的数据提取方法的流程图一;
图8是根据本发明优选实施例的数据提取方法的流程图二;
图9是根据本发明优选实施例的数据提取方法的流程图三;
图10是根据本发明优选实施例的数据提取方法的流程图四;
图11是根据本发明优选实施例的数据提取方法的流程图五;
图12是根据本发明优选实施例的数据提取方法的流程图六;
图13是根据本发明优选实施例的数据提取方法的流程图七。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种数据提取方法,图1是根据本发明实施例的数据提取方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,依据数据报文确定提取的目标数据;
步骤S104,根据预定的正则表达式对该报文数据中的内容进行匹配;
步骤S106,在该报文数据中存在至少两个目标数据的情况下,对该至少两个目标数据进行提取。
通过上述步骤,依据数据报文确定提取的目标数据,根据预定的正则表达式对该报文数据中的内容进行匹配,在该报文数据中存在至少两个目标数据的情况下,对该至少两个目标数据进行提取,解决了相关技术中对目标数据的提取不准确的问题,进而能够准确提取目标数据的效果。
本实施例中,根据预定的正则表达式对该报文数据中的内容进行匹配可以包括:在该报文数据中具有字符串特征的情况下,根据预定的字符正则表达式对该报文数据中的内容进行匹配;和/或,在该报文数据中不具有字符特征的情况下,采用预定函数解析的方式解析该报文数据,解码得到该目标数据。
在一个可选的实施方式中,对该至少两个目标数据进行提取可以包括:在对不同的该报文数据中提取该至少两个目标数据的情况下,通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对该目标数据进行提取。
进一步地,对该至少两个目标数据进行提取包括:在一个报文数据有两个提取目标的情况下,对该报文数据中的内容进行多次匹配后对两个目标数据进行提取;和/或,在不同报文数据有两个提取目标的情况下,采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。
作为一种优选的实施方式,在通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对该目标数据进行提取之前,配置动态设置接口,其中,该动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。
本发明实施例还提供了一种数据提取装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的数据提取装置的框图,如图2所示,包括:确定模块22、匹配模块24和提取模块26,下面对各个模块进行简要说明。
确定模块22,用于依据数据报文确定提取的目标数据;
匹配模块24,用于根据预定的正则表达式对该报文数据中的内容进行匹配;
提取模块26,用于在该报文数据中存在至少两个目标数据的情况下,对该至少两个目标数据进行提取。
图3是根据本发明优选实施例的数据提取装置的框图一,如图3所示,该匹配模块24包括:
匹配单元32,用于在该报文数据中具有字符串特征的情况下,根据预定的字符正则表达式对该报文数据中的内容进行匹配。
图4是根据本发明优选实施例的数据提取装置的框图二,如图4所示,该匹配模块24包括:
解析单元42,用于在该报文数据中不具有字符特征的情况下,采用预定函数解析的方式解析该报文数据,解码得到该目标数据。
图5是根据本发明优选实施例的数据提取装置的框图三,如图5所示,该提取模块26包括:
提取单元52,用于在对不同的该报文数据中提取该至少两个目标数据的情况下,通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对该目标数据进行提取。
进一步地,该提取模块26还可以包括:第二提取单元,用于在一个报文数据有两个提取目标的情况下,对该报文数据中的内容进行多次匹配后对两个目标数据进行提取;和/或,第三提取单元,用于在不同报文数据有两个提取目标的情况下,采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。
图6是根据本发明优选实施例的数据提取装置的框图四,如图6所示,该装置还包括:
配置单元62,用于配置动态设置接口,其中,该动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。
下面结合可选实施方式对本发明实施例进行进一步说明。
为了更好的提升网络服务,本发明实施例提供了一种元数据提取的方法,首先需要分析报文中的内容,找到所需要的目标数据,当报文数据内容具有字符串特征时,根据预先定义的正则表达式,对报文中的内容进行匹配,匹配成功后进行目标数据的提取。如果一个报文数据中传输多个提取目标都需要提取,而正则规则一般只能匹配出一个结果,本发明采用多次匹配扩展功能,可以通过配置多次匹配扩展属性实现全部提取。比如一个报文中存在多处hello,如果只配置基本的提取配置,只能提取出该报文中首次出现位置的内容,为保证全部提取,增加配置多次提取扩展配置,多次匹配的开始位置是首次匹配的结束位置(只有首次匹配满足,才会进行多次匹配)。图7是根据本发明优选实施例的数据提取方法的流程图一,如图7所示,包括以下步骤:
步骤S702,分析到一个报文有多个提取目标;
步骤S704,书写正则表达式;
步骤S706,报文匹配正则表达式;
步骤S708,匹配成功提取到第一个;
步骤S710,配置多次匹配扩展属性;
步骤S712,从上次匹配的结束位置开始继续匹配,直到提取结束。
当不同报文数据中传输多个提取目标都需要提取,本发明提供配置提取次数和尝试提取次数。用户可以指定任意的提取次数,每提取到一次计数加1,当达到提取次数后,就不再进行提取。有些情况下,有可能配置了提取正则,但是却迟迟不能提取到待提取的信息,例如可能是加密报文或者是下一条目标出现较晚,这时可以指定尝试提取次数来避免白白的性能损失。尝试提取次数的累加方法:连续未提取到则加1,如果提取到则重新清零。
不同提取类型的提取次数和尝试提取次数有着不同的配置需求,元数据提取提供一个动态设置接口接收用户修改参数。用户可针对不同提取类型设置不同的提取次数和尝试提取次数,实时动态修改提取数据。图8是根据本发明优选实施例的数据提取方法的流程图二,如图8所示,包括以下步骤:
步骤S802,某提取类型提取次数和尝试提取次数采用默认值;
步骤S804,用户(产品)调用参数配置接口动态修改;
步骤S806,按照新的参数进行元数据提取。
当从报文中无法找到特征字串时,采用函数解析的方式分析应用层数据,直接解码得到提取目标。图9是根据本发明优选实施例的数据提取方法的流程图三,如图9所示,包括以下步骤:
步骤S902,函数解析应用层数据;
步骤S904,解码得到提取目标。
在某些情况下,只有报文满足了某个特征说明了是特定的报文数据时(定义切入规则)才能进行提取,或者是由于正则特征较弱或者提取较多不需要的内容(定义排除规则)而影响性能时,可以采用表达式辅助信息提取。定义变量,将报文内容中数据赋值到变量,用于表达式运算。表达式形式类似如:(a+6)>=b&&(c!=d||e>>2<8)),支持逻辑表达式,数学表达式以及两者组合的表达式。只有表达式为真时,才能进行提取动作。图10是根据本发明优选实施例的数据提取方法的流程图四,如图10所示,包括以下步骤:
步骤S1002,定义变量;
步骤S1004,提取报文中的数据,赋值给变量;
步骤S1006,变量参与表达式计算
步骤S1008,判断表达式成立,在判断结果为是的情况下。执行步骤S1010,在判断结果为否的情况下,执行步骤S1012;
步骤S1010,进行提取;
步骤S1012,不提取,返回。
相关实施例中,以一个报文有多个提取目标来说明多次匹配扩展属性提取的过程,以多个报文有多个提取目标来说明元数据提取次数和尝试提取次数的使用方法,下面以QQ登陆和退出事件来说明表达式辅助元数据提取的过程,但元数据提取的机制及方法不仅限于上述几种情况。
关于多次匹配扩展属性提取的功能描述。利用本发明,从报文载荷内容abcdefghijkdeflmn中需要提取出def。这个报文中存在两个提取目标def,配置多次匹配扩展属性进行提取。配置正则表达式R1=abc,R2=ghi。匹配到R1表达式之后,匹配到的结束位置加1或者匹配到的开始位置加3就是提取目标的起始位置;匹配到R2表达式之后,匹配到的开始位置减1或者匹配到的结束位置减3就是提取目标的结束位置。继续进行第二次匹配,从第一次匹配的结束位置i开始,配置正则表达式R3=jk,R4=lmn。匹配到R3表达式之后,匹配到的结束位置加1或者匹配到的开始位置加2就是提取目标的起始位置;匹配到R4表达式之后,匹配到的开始位置减1或者匹配到的结束位置减3就是提取目标的结束位置。多次匹配扩展属性提取到两个结果,提取结束。图11是根据本发明优选实施例的数据提取方法的流程图五,如图11所示,包括以下步骤:
步骤S1102,需要从abcdefghijkdeflmn中提取出def,报文中存在两个提取目标def,配置多次匹配扩展属性进行提取;
步骤S1104,配置正则表达式R1=abc,R2=ghi,报文匹配成功;
步骤S1106,计算起始位置:R1的结尾位置加1或R1的开始位置加3;
步骤S1108,计算结束位置:R2的开始位置减1或R2的结尾位置减3;
步骤S1110,继续进行第二次匹配,从第一次匹配的结束位置i开始,配置正则表达式R3=jk,R4=lmn,报文匹配成功;
步骤S1112,计算起始位置:R3的结尾位置加1或R3的开始位置加2;
步骤S1114,计算结束位置:R4的开始位置减1或R4的结尾位置减3;
步骤S1116,多次匹配扩展属性提取到两个结果,提取结束。
关于配置提取次数和尝试提取次数的功能描述,用户配置目标提取类型的提取次数和尝试提取次数,这些参数实时的写入元数据提取模块,用户进行互联网业务请求服务器数据,数据报文进入提取模块进行正则表达式匹配。匹配成功时,提取次数计数加1,尝试提取次数清零,计算得到起始位置和结束位置,然后判断提取次数是否达到配置的数值,没有达到则报文继续进入模块进行匹配,否则提取过程结束;如匹配不成功时,尝试提取次数加1,判断尝试提取次数是否达到配置的数值,没有达到则报文继续进入模块进行匹配,否则提取过程结束。图12是根据本发明优选实施例的数据提取方法的流程图六,如图12所示,包括以下步骤:
步骤S1202,产品配置目标提取类型的提取次数和尝试提取次数;
步骤S1204,提取次数和尝试提取次数实时地写入提取模块;
步骤S1206,用户进行互联网业务请求服务器数据;
步骤S1208,数据报文进行正则表达式匹配;
步骤S1210,匹配成功,提取次数+1,尝试提取次数清零;
步骤S1212,计算起始位置和结束位置;
步骤S1214,判断提取次数是否达到,没有达到,继续进入步骤S1208,达到则执行步骤S1220,提取结束;
步骤S1216,匹配不成功,尝试提取次数+1;
步骤S1218,判断尝试提取次数是否达到,没有达到,继续进入步骤S1208,,达到则执行步骤S1220,提取结束;
步骤S1220,提取结束。
关于表达式辅助QQ登陆和退出事件提取的功能描述。分析QQ登陆报文,Flag字段在报文载荷起始位置一字节内容为0x02,代表登陆的Command字段在报文载荷起始+3位置两字节内容为0x62,Data字段在报文载荷起始+11位置一字节内容为0x02。分析QQ退出报文,Flag字段为0x02,代表退出的Command字段为0x01,Data字段为0x02。需要提取出载荷起始+3位置两字节内容的Command字段,如上的规则太短太简单,这里采用表达式判断Flag为2,且Data等于2,并且QQ命令字Command为0x62或0x01,即只有判断出这个报文是登陆报文,或者是退出报文,表达式成立时才进行提取。提取出报文载荷起始+3位置的两个字节的数值,提取结束。图13是根据本发明优选实施例的数据提取方法的流程图七,如图13所示,包括以下步骤:
步骤S1302,定义三个变量,Flag,Command,Data;
步骤S1304,Flag赋值,报文载荷起始位置内容取1字节值;Command赋值,载荷起始+3位置内容取2字节值;Data赋值,载荷起始+11位置内容取1字节值;
步骤S1306,计算表达式是否为真((Flag==2)&&(Data==2)&&((Command==0x62)||Command==0x01));
步骤S1308,提取出报文载荷起始+3位置的两个字节的数值;
步骤S1310,提取结束。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据提取方法,其特征在于,包括:
依据数据报文确定提取的目标数据;
根据预定的正则表达式对所述报文数据中的内容进行匹配;
在所述报文数据中存在至少两个目标数据的情况下,对所述至少两个目标数据进行提取,包括:
在对不同的所述报文数据中提取所述至少两个目标数据的情况下,通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取。
2.根据权利要求1所述的方法,其特征在于,根据预定的正则表达式对所述报文数据中的内容进行匹配包括:
在所述报文数据中具有字符串特征的情况下,根据预定的字符正则表达式对所述报文数据中的内容进行匹配。
3.根据权利要求2所述的方法,其特征在于,根据预定的正则表达式对所述报文数据中的内容进行匹配包括:
在所述报文数据中不具有字符特征的情况下,采用预定函数解析的方式解析所述报文数据,解码得到所述目标数据。
4.根据权利要求1中所述的方法,其特征在于,对所述至少两个目标数据进行提取包括:
在一个报文数据有两个提取目标的情况下,对所述报文数据中的内容进行多次匹配后对两个目标数据进行提取;和/或
在不同报文数据有两个提取目标的情况下,采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。
5.根据权利要求1或4所述的方法,其特征在于,在通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取之前,还包括:
配置动态设置接口,其中,所述动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。
6.一种数据提取装置,其特征在于,包括:
确定模块,用于依据数据报文确定提取的目标数据;
匹配模块,用于根据预定的正则表达式对所述报文数据中的内容进行匹配;
提取模块,用于在所述报文数据中存在至少两个目标数据的情况下,对所述至少两个目标数据进行提取;
其中,所述提取模块包括:
第一提取单元,用于在对不同的所述报文数据中提取所述至少两个目标数据的情况下,通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对所述目标数据进行提取。
7.根据权利要求6所述的装置,其特征在于,所述匹配模块包括:
匹配单元,用于在所述报文数据中具有字符串特征的情况下,根据预定的字符正则表达式对所述报文数据中的内容进行匹配。
8.根据权利要求7所述的装置,其特征在于,所述匹配模块包括:
解析单元,用于在所述报文数据中不具有字符特征的情况下,采用预定函数解析的方式解析所述报文数据,解码得到所述目标数据。
9.根据权利要求6中所述的装置,其特征在于,所述提取模块包括:
第二提取单元,用于在一个报文数据有两个提取目标的情况下,对所述报文数据中的内容进行多次匹配后对两个目标数据进行提取;和/或
第三提取单元,用于在不同报文数据有两个提取目标的情况下,采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。
10.根据权利要求7或9所述的装置,其特征在于,所述装置还包括:
配置单元,用于配置动态设置接口,其中,所述动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。
CN201410638204.8A 2014-11-12 2014-11-12 数据提取方法及装置 Active CN105653531B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410638204.8A CN105653531B (zh) 2014-11-12 2014-11-12 数据提取方法及装置
PCT/CN2015/076587 WO2016074434A1 (zh) 2014-11-12 2015-04-14 数据提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410638204.8A CN105653531B (zh) 2014-11-12 2014-11-12 数据提取方法及装置

Publications (2)

Publication Number Publication Date
CN105653531A CN105653531A (zh) 2016-06-08
CN105653531B true CN105653531B (zh) 2020-02-07

Family

ID=55953676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410638204.8A Active CN105653531B (zh) 2014-11-12 2014-11-12 数据提取方法及装置

Country Status (2)

Country Link
CN (1) CN105653531B (zh)
WO (1) WO2016074434A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117440B (zh) * 2017-06-23 2021-06-22 中移动信息技术有限公司 一种元数据信息获取方法、***和计算机可读存储介质
CN107766466A (zh) * 2017-09-29 2018-03-06 上海望友信息科技有限公司 数据类型的识别方法、***、计算机可读存储介质及设备
CN109933712A (zh) * 2019-03-06 2019-06-25 北京思特奇信息技术股份有限公司 一种报文数据的提取方法及***
CN111507615A (zh) * 2020-04-15 2020-08-07 江苏鹏为软件有限公司 一种智慧城市检测用评价***
CN112511643A (zh) * 2020-12-07 2021-03-16 北京天融信网络安全技术有限公司 一种报文数据提取方法及装置
CN113965408B (zh) * 2021-11-09 2023-01-20 北京锐安科技有限公司 一种http报文的提取方法、装置、介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068209A (zh) * 2007-06-20 2007-11-07 中兴通讯股份有限公司 深度报文检查***及方法
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN101438272A (zh) * 2006-04-21 2009-05-20 微软公司 用于处理格式化数据的***
CN101957816A (zh) * 2009-07-13 2011-01-26 上海谐宇网络科技有限公司 基于多页面比较的网页元数据自动抽取方法和***
CN102576362A (zh) * 2009-09-30 2012-07-11 株式会社日立解决方案 设置元数据的方法、设置元数据的***以及程序
CN102611565A (zh) * 2011-10-18 2012-07-25 国网电力科学研究院 一种基于正则表达式的监控***告警关联分析方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043862B (zh) * 2010-12-29 2012-10-17 重庆新媒农信科技有限公司 网页数据定向抓取方法
CN104133830A (zh) * 2013-05-02 2014-11-05 乐视网信息技术(北京)股份有限公司 一种数据获取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101438272A (zh) * 2006-04-21 2009-05-20 微软公司 用于处理格式化数据的***
CN101068209A (zh) * 2007-06-20 2007-11-07 中兴通讯股份有限公司 深度报文检查***及方法
CN101101600A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中基于多种规则的元数据自动抽取方法
CN101957816A (zh) * 2009-07-13 2011-01-26 上海谐宇网络科技有限公司 基于多页面比较的网页元数据自动抽取方法和***
CN102576362A (zh) * 2009-09-30 2012-07-11 株式会社日立解决方案 设置元数据的方法、设置元数据的***以及程序
CN102611565A (zh) * 2011-10-18 2012-07-25 国网电力科学研究院 一种基于正则表达式的监控***告警关联分析方法

Also Published As

Publication number Publication date
WO2016074434A1 (zh) 2016-05-19
CN105653531A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
CN105653531B (zh) 数据提取方法及装置
CN107645524B (zh) 一种消息推送处理方法以及装置
US20160050128A1 (en) System and Method for Facilitating Communication with Network-Enabled Devices
CN105871690B (zh) 即时通信的实现方法和装置
CN108469972B (zh) 支持web页面中显示多窗口的方法和装置
CN104461474A (zh) 用于移动终端的截屏方法和截屏装置以及移动终端
CN108197091B (zh) 一种创建数据表的方法、***及相关设备
CN111708557B (zh) 更新配置文件的方法、设备及存储介质
CN113010944B (zh) 模型校验方法、电子设备及相关产品
CN108304368B (zh) 文本信息的类型识别方法和装置及存储介质和处理器
CN112036125B (zh) 一种文档管理方法、装置及计算机设备
CN105704177A (zh) 一种ua识别方法、装置
CN104052757B (zh) 基于手机中的客户端应用的身份识别***及方法
CN112019446A (zh) 一种接口限速方法、装置、设备及可读存储介质
CN104811485A (zh) 一种资源分享方法
JP2018537921A (ja) Skypeの異なる機能の通信フローに基づく識別方法及び装置
CN108345606A (zh) 网页资源的获取方法和装置
CN111353036B (zh) 一种规则文件生成方法、装置、设备及可读存储介质
CN105550179A (zh) 一种网页收藏方法和浏览器插件
CN104618388A (zh) 快速注册登录方法及对应的重置服务器、信息服务器
CN102147660A (zh) 一种基于多个用户协同编辑的输入的方法与设备
CN104902432A (zh) 生成移动终端应用操作日志的方法和设备
CN102769625A (zh) 客户端Cookie信息获取方法和装置
EP3163795B1 (en) Charging methods, access device, and charging device
CN109964473B (zh) 语音业务应答的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant