CN114443041A - 抽象语法树的解析方法及计算机程序产品 - Google Patents

抽象语法树的解析方法及计算机程序产品 Download PDF

Info

Publication number
CN114443041A
CN114443041A CN202111442982.6A CN202111442982A CN114443041A CN 114443041 A CN114443041 A CN 114443041A CN 202111442982 A CN202111442982 A CN 202111442982A CN 114443041 A CN114443041 A CN 114443041A
Authority
CN
China
Prior art keywords
script
grammar
different
compiling
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111442982.6A
Other languages
English (en)
Inventor
杨健雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202111442982.6A priority Critical patent/CN114443041A/zh
Publication of CN114443041A publication Critical patent/CN114443041A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

本公开实施例公开了一种抽象语法树的解析方法及计算机程序产品,所述方法包括:获取待解析的脚本以及所述脚本的编译类型;基于所述编译类型选择目标编译组件;基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树;其中,不同编译类型对应的所述目标编译组件输出的所述抽象语法树的结构类型相同。该技术方案能够将各种语言编写的脚本归一化成同种类型的抽象语法树,能够提高脚本的适配效率以及准确率。

Description

抽象语法树的解析方法及计算机程序产品
技术领域
本公开涉及计算机技术领域,具体涉及一种抽象语法树的解析方法及计算机程序产品。
背景技术
在脚本检测领域,对样本文件直接进行规则匹配,容易导致匹配结果不够精准,所以通常会将样本文件转换成抽象语法树,然后在抽象语法树的基础上进行规则匹配或其他手段的检测操作等。
然而,本公开发明人发现,已有技术中通常利用已有的编译器将脚本语言转换成抽象语法树,虽然这种方式的准确性较高,但是同时也存在一些问题:
例如,脚本文件的脚本编写语言种类众多,不同种类的脚本编写语言需要使用不同的原生编译器;同一种脚本编写语言之间存在不同版本的语法不兼容问题;原生编译器生成抽象语法树与检测方式生成抽象语法树的目的不完全一致,原生编译器往往会做更多的检查,包括检查库符号是否存在等,而这些检查会造成额外的资源消耗,从而影响造成性能下降;不同原生编译器生成的抽象语法树的结构,含义往往不同,需要对不同脚本编写语言做定制化适配;一些脚本编写语言本身不支持抽象语法树的生成等。
因此,基于上述存在的问题,需要提出一种能够跨语言的通用解析方案,从而针对不同脚本编写语言解析出同种结构类型的抽象语法树。
发明内容
本公开实施例提供一种抽象语法树的解析方法及计算机程序产品。
第一方面,本公开实施例中提供了一种抽象语法树的解析方法,其中,包括:
获取待解析的脚本以及所述脚本的编译类型;
基于所述编译类型选择目标编译组件;
基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树;其中,不同编译类型对应的所述目标编译组件输出的所述抽象语法树的结构类型相同。
进一步地,不同编译类型对应的目标编译组件不同。
进一步地,所述目标编译组件包括词法解析器以及语法解析器;基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树,包括:
利用所述词法解析器将所述脚本解析成单词序列;
利用所述语法解析器将所述单词序列解析成所述抽象语法树。
进一步地,所述方法还包括:
获取针对不同编译类型编写的词法解析规则和/或语法解析规则;
利用生成器工具基于所述词法解析规则和/或所述语法解析规则生成所述编译组件。
进一步地,所述词法解析规则和所述语法解析规则中,针对不同编译类型,基于脚本的语义以及语法结构对不同编译类型中的语法表达方式进行归类,以及基于归类结果针对不同类型的语法表达方式进行不同的解析处理。
进一步地,所述语法表达方式的类型包括以下至少之一:
不同编译类型对应的语义相同以及语法结构也相同的语法表达方式;
不同编译类型对应的语义相同而语法结构不同的语法表达方式;
相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式;
其中一种编译类型中存在而其他编译类型中不存在的语法表达方式。
进一步地,针对不同编译类型中相同语义以及语法结构也相同的语法表达方式,按照语法结构所表示的语义划分多个组成节点,并在所述语法解析规则中定义所述多个组成节点;和/或,
针对不同编译类型对应的语义相同而语法结构不同的语法表达方式,在语法解析规则中将不同语法结构中包括的所有语法表示定义为组成节点,所述组成节点构成所述不同语法结构中所有语法表示的超集,在语法解析规则中还定义,在生成抽象语法树时将所解析的编译类型不支持或不存在的语法表示对应的组成节点置空;和/或,
针对相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式,能够在词法层面实现归一化的语法表达方式,在词法解析规则中定义将语义相同而语法结构不同的语法表达方式解析成相同的单词序列;在词法层面无法实现归一化的语法表达方式,在语法解析规则中进行归一化;
其中一种编译类型中存在而其他编译类型中不存在的语法表达方式,在语法解析规则中单独定义所述语法表达方式中的语法表示对应的组成节点。
第二方面,本公开实施例中提供了一种脚本检测方法,其中,包括:
获取待检测的脚本;
调用预先部署的脚本安全检测接口,对所述脚本进行安全检测;其中,所述脚本安全检测接口基于所述脚本的编译类型选择目标编译组件,并基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树,以及基于所述抽象语法树对所述脚本进行检测;不同编译类型对应的所述目标编译组件输出的所述抽象语法树的结构类型相同;
输出所述脚本的安全检测结果。
第三方面,本发明实施例中提供了一种抽象语法树的解析装置,包括:
第一获取模块,被配置为获取待解析的脚本以及所述脚本的编译类型;
选择模块,被配置为基于所述编译类型选择目标编译组件;
解析模块,被配置为基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树;其中,不同编译类型对应的所述目标编译组件输出的所述抽象语法树的结构类型相同。
第四方面,本发明实施例中提供了一种脚本检测装置,其中,包括:
第三获取模块,被配置为获取待检测的脚本;
调用模块,被配置为调用预先部署的脚本安全检测接口,对所述脚本进行安全检测;其中,所述脚本安全检测接口基于所述脚本的编译类型选择目标编译组件,并基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树,以及基于所述抽象语法树对所述脚本进行检测;不同编译类型对应的所述目标编译组件输出的所述抽象语法树的结构类型相同;
输出模块,被配置为输出所述脚本的安全检测结果。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,上述装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口,用于上述装置与其他设备或通信网络通信。
第五方面,本公开实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器上的计算机程序,其中,所述处理器执行所述计算机程序以实现上述任一方面所述的方法。
第六方面,本公开实施例提供了一种计算机可读存储介质,用于存储上述任一装置所用的计算机指令,该计算机指令被处理器执行时用于实现上述任一方面所述的方法。
第七方面,本公开实施例提供了一种计算机程序产品,其包含计算机指令,该计算机指令被处理器执行时用于实现上述任一方面所述的方法。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例在脚本解析过程中,针对不同编译类型预先设置不同的目标编译组件,在接收到待解析的脚本以及该脚本的编译类型后,基于该编译类型选择相应的目标编译组件,进而再利用目标编译组件对脚本进行解析,输出该脚本对应的抽象语法树,该抽象语法树用于表达所述脚本中各脚本语句的语法结构;本公开实施例中,不同编译类型对应的目标编译组件所输出的抽象语法树的类型相同,因此通过本公开实施例能够将各种语言编写的脚本归一化成同种类型的抽象语法树,能够提高脚本的适配效率以及准确率;此外,本实施例被应用至脚本的安全检测领域后,能够提高脚本的安全检测效率以及节省脚本的安全检测资源。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的抽象语法树的解析方法的流程图;
图2示出本公开实施例中针对if语句生成的抽象语法树的结构示意图;
图3(a)和图3(b)示出根据本公开一实施方式中针对java和php中的函数语义生成的抽象语法树的结构示意图;
图4(a)和图4(b)示出根据本公开一实施方式中针对java12新增语法表达方式和java原有语法表达方式生成的抽象语法树的结构示意图;
图5示出根据本公开一实施方式中bash语言独有的语法表达方式的抽象语法树的结构示意图;
图6示出根据本公开一实施方式的脚本检测方法的流程示意图;
图7示出根据本公开一实施方式中抽象语法树的解析方法的应用场景示意图;
图8是适于用来实现根据本公开一实施方式的抽象语法树的解析方法和/或脚本检测方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
下面通过具体实施例详细介绍本公开实施例的细节。
图1示出根据本公开一实施方式的抽象语法树的解析方法的流程图。如图1所示,该抽象语法树的解析方法包括以下步骤:
在步骤S101中,获取待解析的脚本以及所述脚本的编译类型;
在步骤S102中,基于所述编译类型选择目标编译组件;
在步骤S103中,基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树;其中,不同编译类型对应的所述目标编译组件输出的所述抽象语法树的结构类型相同。
本实施例中,脚本是一种可以解释执行的程序,一个脚本可以包括多条脚本语句。脚本语句可以是采用某种脚本语言所编写的可执行语句,脚本语言可以包括但不限于jsp、php、asp、bash、python、js、vb、c#、powershell等。
本公开实施例可以应用于脚本的安全检测领域,或者其他使用脚本的抽象语法树的应用场景中。下面以脚本的安全检测领域为例说明。为了对脚本进行检测,可以先对脚本进行编译,该编译的过程包括词法解析以及语法解析,最终得到脚本中脚本语句对应的抽象语法树,一个脚本中包括多个脚本语句时,可以生成多个抽象语法树,每个抽象语法树对应一个完整的脚本语句。在生成脚本对应的抽象语法树之后,可以在抽象语法树的基础上进行脚本检测,能够提高脚本检测的准确性。抽象语法树是脚本语句的源代码语法结构的一种抽象表示,其以树状的形式表现脚本语句的语法结构,抽象语法树上的每个组成节点表示脚本语句中的一个语法表示。
脚本检测可以是针对脚本中是否存在恶意代码的检测,也可以是其他类型的检测,具体可以根据实际需求而定,在此不做具体限制。脚本检测的原理是通过匹配脚本中脚本语句的语法表达方式,确定脚本中是否存在实现预定功能的脚本语句,如果存在这种脚本语句,则可以基于该脚本语句输出安全检测结果。脚本语句实现的功能可以从脚本语句的语义上来判断,因此本公开实施例基于脚本语句的语义将该脚本语句中的语法结构解析成抽象语法树的形式,进而通过匹配抽象语法树中是否存在预定语法结构的分支来检测脚本。
考虑到待检测脚本可能由各种类型的脚本语言编写而成,而为了能够提高不同语言编写的脚本检测的效率,以及降低脚本检测的复杂度,本公开实施例提出了一种抽象语法树的解析方法,其可以针对不同语言编写的脚本语句进行解析,最终得到类型统一的抽象语法树,可以采用统一的适配方式理解利用本公开实施例生成的抽象语法树,而无需如已有技术,针对不同语言编写的脚本语句对应的抽象语法树需进行定制化适配。
本实施例中,在接收到需要解析的脚本以及该脚本的编译类型后,基于该编译类型选择对应的目标编译组件。编译类型与编写该脚本的脚本语言对应一致,不同脚本语言对应不同的编译类型。目标编译组件可以包括但不限于词法解析器和语法解析器。词法解析器用于将脚本中的脚本语句解析成单词(token)序列,语法解析器用于基于单词序列生成抽象语法树。
不同编译类型对应不同的目标编译组件,也就是说不同语言编写的脚本需要选择不同的目标编译组件来进行编译。例如,jsp语言编写的脚本采用jsp类型的目标编译组件,而python语言编写的脚本采用python类型的目标编译组件。需要说明的是,此处提到的目标编译组件不是脚本语言对应的原生编译器,而是用于本公开实施例中,能够将不同编译类型的脚本编译成同一类型的抽象语法树的编译组件。
将脚本输入至目标编译组件中进行解析,最终输出该脚本对应的抽象语法树。在脚本中包括多个脚本语句的情况下,可以输出多个抽象语法树。
不同编译类型也即不同脚本语言编写的脚本虽然选择使用不同的编译组件来解析,但是最终输出的抽象语法树的类型是相同的,也就是说不同编译类型对应的目标编译组件所输出的抽象语法树的结构可以采用统一的适配方式进行适配。
本公开实施例在脚本解析过程中,针对不同编译类型预先设置不同的目标编译组件,在接收到待解析的脚本以及该脚本的编译类型后,基于该编译类型选择相应的目标编译组件,进而再利用目标编译组件对脚本进行解析,输出该脚本对应的抽象语法树,该抽象语法树用于表达所述脚本中各脚本语句的语法结构;本公开实施例中,不同编译类型对应的目标编译组件所输出的抽象语法树的类型相同,因此通过本公开实施例能够将各种语言编写的脚本归一化成同种类型的抽象语法树,能够提高脚本的适配效率以及准确率。
在本实施例的一个可选实现方式中,不同编译类型对应的目标编译组件不同。
该可选的实现方式中,不同编译类型可以对应不同脚本语言,也即不同脚本语言编写的脚本对应不同的编译类型。由于不同脚本语言的编写方式不同,因此针对不同编译类型的脚本,本公开实施例预先设置对应的目标编译组件,不同编译类型对应不同的目标编译组件。而不同目标编译组件最终输出的抽象语法树的结构类型是相同的。也即,本公开实施例针对多种脚本语言,实现了抽象语法树的归一化处理,使得最终输出的抽象语法树从类型上保持一致,能够采用统一的适配方式对不同编译类型对应的不同目标编译组件输出的抽象语法树进行适配。
在本实施例的一个可选实现方式中,所述目标编译组件包括词法解析器以及语法解析器;步骤S103,即基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树的步骤,进一步包括以下步骤:
利用所述词法解析器将所述脚本解析成单词序列;
利用所述语法解析器将所述单词序列解析成所述抽象语法树。
该可选的实现方式中,目标编译组件包括词法解析器和语法解析器。在利用目标编译组件对脚本进行解析时,可以先将脚本中的脚本语句输入至词法解析器中,由词法解析器将脚本语句划分成单词序列。
例如,对于java语言编写的语句“String a="abc"”,词法解析器可以解析出如下的单词序列:
1.IDENTIFIER[String]
2.IDENTIFIER[a]
3.ASSIGN[=]
4.STRING[abc]
而语法解析器则可以针对词法解析器输出的单词序列,解析出该脚本语句的语法结构,该语法结构以抽象语法树的形式展示。
在本实施例的一个可选实现方式中,所述方法进一步还包括以下步骤:
获取针对不同编译类型编写的词法解析规则和/或语法解析规则;
利用生成器工具基于所述词法解析规则和/或所述语法解析规则生成所述编译组件。
该可选的实现方式中,为了实现不同编译类型对应的脚本可以被最终解析成同一种类型的抽象语法树,本公开实施例中针对不同编译类型的脚本语言预先编写相应的语法解析规则以及词法解析规则。在一些实施例中,该语法解析规则以及词法解析规则可以编写成正则表达式的形式。
在一些实施例中,可以利用已有的生成器工具,针对相关人员编写的词法解析规则生成词法解析器,而基于语法解析规则生成语法解析器。
在一些实施例中,生成器工具可以选用flex、bison和re2c中的其中一种或多种的组合。
该实施例中,相关人员在需要的时候只需要修改词法解析规则和语法解析规则,维护相对简单,能够降低维护成本,提高效率。
可以理解的是,词法解析器或语法解析器实际上是一段可执行代码,其在执行过程中,例如词法解析器将脚本语句作为输入,并将该脚本语句按照词法解析规则解析成单词序列,而语法解析器则以词法解析器的输出作为输入,也即将脚本语句对应的单词序列作为输入,并按照语法解析规则从单词序列中解析出脚本语句的语法结构,进而以抽象语法树的形式展现出来。
在本实施例的一个可选实现方式中,所述词法解析规则和所述语法解析规则中,针对不同编译类型,基于脚本的语义以及语法结构对不同编译类型中的语法表达方式进行归类,以及基于归类结果针对不同类型的语法表达方式进行不同的解析处理。
该可选的实现方式中,本公开实施例所使用的不同编译类型对应的语法解析规则和词法解析规则中,通过将不同脚本语言中的语法表达方式进行归类,划分为不同类型的语法表达方式采用不同的解析处理方式,而划分为相同类型的语法表达方式则采用相同的解析处理,最终可以得到结构类型相同的抽象语法树。同时由于相同类型的语法表达方式采用的是相同的解析处理,因此不同语言编写的语义相同的语句被解析成的抽象语法树不但类型相同,结构也相同。
例如,if语句在不同语言中的语法表达方式有所不同,分别举例如下:
Figure BDA0003383982050000071
Figure BDA0003383982050000081
上述四种语言编写的表示相同语义的脚本语句中,语法表达方式有所不同,但是其语义和语法结构都是相同的,因此,从语义上可以将if语句对应的语法结构划分成如下三个组成节点:判断表达式、判断成功执行语句块、判断失败执行语句块。
因此,针对这类语义相同的语法表达方式可以生成如图2所示的相同类型且结构也相同的抽象语法树。
图2示出本公开实施例中针对if语句生成的抽象语法树的结构示意图。如图2所示,根节点[IF_STATEMENT:]表示if语句,该根节点包括三个组成节点,分别为:[OPERATOR_GT:]、[BLOCK_STATEMENT:]、[IF_STATEMENT:],这三个组成节点分别对应判断表达式、判断成功执行语句块、判断失败执行语句块。该语句中判断失败执行语句块又是一个if语句,因此依然按照上述方式被解析成了包括三个组成节点的抽象语法子树。
在本实施例的一个可选实现方式中,所述语法表达方式的类型包括以下至少之一:
不同编译类型对应的语义相同以及语法结构也相同的语法表达方式;
不同编译类型对应的语义相同而语法结构不同的语法表达方式;
相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式;
其中一种编译类型中存在而其他编译类型中不存在的语法表达方式。
在本实施例的一个可选实现方式中,针对不同编译类型中相同语义以及语法结构也相同的语法表达方式,按照语法结构所表示的语义划分多个组成节点,并在所述语法解析规则中定义所述多个组成节点;和/或,
针对不同编译类型对应的语义相同而语法结构不同的语法表达方式,在语法解析规则中将不同语法结构中包括的所有语法表示定义为组成节点,所述组成节点构成所述不同语法结构中所有语法表示的超集,在语法解析规则中还定义,在生成抽象语法树时将所解析的编译类型不支持或不存在的语法表示对应的组成节点置空;和/或,
针对相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式,能够在词法层面实现归一化的语法表达方式,在词法解析规则中定义将语义相同而语法结构不同的语法表达方式解析成相同的单词序列;在词法层面无法实现归一化的语法表达方式,在语法解析规则中进行归一化;
其中一种编译类型中存在而其他编译类型中不存在的语法表达方式,在语法解析规则中单独定义所述语法表达方式中的语法表示对应的组成节点。
该可选的实现方式中,在词法解析规则和语法解析规则中,将不同编译类型对应的脚本语言中的语法表达方式至少划分为如下四种方式中的一种或多种的组合:
1、不同编译类型对应的语义相同以及语法结构也相同的语法表达方式:
该类语法表达方式中,在语义相同且语法结构也相同时,可以从语法结构所表达出来的语义将该语法结构划分成多个组成节点,并且将具有该语法表达方式的脚本语句解析成包括该多个组成节点的该种语法结构的抽象语法树。如上文中提到的if语义即为该类语法表达方式,同理for循环语义、while循环语义、foreach语义等属于语义相同且语法结构也相同的语法表达方式,都可以采用这样的方式进行解析。可以理解的是,上述解析处理方式在语法解析规则中定义。
2、不同编译类型对应的语义相同而语法结构不同的语法表达方式:
该类语法表达方式中,由于语义相同而语法结构不同,针对这类语法表达方式可以从各种语言的不同语法结构所表达出来的相同语义,将语法结构划分成多个组成节点,而该多个组成节点对应于该相同语义的所有语法结构中的所有语法表示,也即这类语法表达方式对应抽象语法树的组成节点可以包括各种语言中该类语法表达方式中任意一个语法表示,在语义解析规则中定义所有组成节点类型;在语法解析时,对于当前语言的语法结构中不存在的组成节点置空即可。
下面举例说明:
//java
public static void func(int a,char b)
{
return a+b;
}
//php
function func($a,$b){
return$a+$b;
}
上述两种语言中关于函数语义的语法表达方式中,java语言支持注解、函数限定符、函数返回值类型、函数名、函数参数列表以及函数执行体等语法表示。
而在php语言中并不支持上述所有的表达类型,而是仅支持部分语法表示,为了归一化这种相同语义而语法结构不同的语法表达方式,可以定义一个语法表示的超集来表示这种语法结构,该语法表示的超集包括各种语言中该相同语义而语法结构不同的语法表达方式中出现的所有语法表示,进而在语法解析规则中将该超集中的语法表示定义成该类语义相同而语法结构不同的语法表达方式的组成节点,并在解析语法时将不存在或不支持的语法表示对应的组成节点置空即可。
例如,可以定义如下表1所示的字段来表示函数定义部分的组成节点:
表1
Figure BDA0003383982050000101
Figure BDA0003383982050000111
需要说明的是,在实际应用中,函数定义语义所需要定义的字段远不止上标中的这些自动,比如需要支持注解、throws语义、default语义等,此处仅为了举例说明并未一一展开。
如果某种语言不支持某个字段,比如php不支持函数返回值类型,则可以将该字段置为空。
图3(a)和图3(b)示出根据本公开一实施方式中针对java和php中的函数语义生成的抽象语法树的结构示意图。如图3(a)所示,其示出利用本公开实施例中的目标编译组件针对上文中java语言编写的函数定义语句而生成的抽象语法树的结构,该函数定义语句的语法树结构包括两个组成节点,[FUNCTION_HEADER:](函数定义头)和[BLOCK_STATEMENT:](函数体),函数定义头又包括四个组成节点,分别为:[DECLARATION_MODIFIER_LIST:]、[SPECIFIER_VOID:]、[IDENTIFIER:func]和[PARAMETER_COMMA_LIST:],分别表示描述符列表(比如:public,static,final等)、函数返回值类型(比如:void,int,String等)、函数名和形参列表。该四个组成节点中的描述符列表和形参列表又包括如图3(a)所示的组成节点,具体参见图3(a)所示,在此不一一展开说明。
如图3(b)所示,其示出利用本公开实施例中的目标编译组件针对上文中php语言编写的函数定义语句而生成的抽象语法树的结构,该函数定义语句的语法树的根节点包括两个组成节点,[FUNCTION_HEADER:](函数定义头)和[BLOCK_STATEMENT:](函数体),函数定义头又包括四个组成节点,分别为:[NULL]、[NULL]、[IDENTIFIER:func]和[PARAMETER_COMMA_LIST:],其中前两个组成节点对应于该类语法结构中的描述符列表和函数返回值类型,但是由于php不支持这两种语法表示,因此该两个组成节点在抽象语法树中被置为空,后两个组成节点与java语言的类似,分别为函数名和形参列表。该后两个组成节点中的形参列表又包括如图3(b)所示的组成节点,具体参见图3(b)所示,在此不一一展开说明。
由图3(a)和3(b)可以看出,基于本公开实施例提出的方法可以将两种不同语言编写的语义相同而语法结构不同的脚本语句解析成类型相同的抽象语法树。
3、相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式
该类语法表达方式中,主要考虑的是编译类型相同也即所使用编写语言相同,而语言版本不同,导致两个版本对于相同语义具有不同的语法表达方式,下面举例说明。
例如,java15之后开始支持TextBlocks语法,比如说下面两种语法表达的意思是一致的:
//java
String a="abc";
//java
String a="""abc""";
在一些实施例中,为了针对上述两种语法表达方式得到相同结构的抽象语法树,本公开实施例在词法解析层进行归一化处理,也即在词法解析规则中兼容这两种不同的语法表达方式,比如上述例子中文本是不一致的,但是需要词法解析器输出如下相同的单词序列:
1.IDENTIFIER[String]
2.IDENTIFIER[a]
3.ASSIGN[=]
4.STRING[abc]
输出相同的单词序列后,从而不影响后续的语法分析,进而不会影响后续抽象语法树结构的生成。
在一些实施例中,针对在词法解析层面无法做到兼容时,也可以在语法解析层面进行归一化处理,下面举例说明。
例如,从java12开始支持简化的switch语法表达,如下:
Figure BDA0003383982050000121
针对这种情况可以从语法解析层进行归一化处理,上述两种语法表达方式从词法解析层面可以得到两种不同的单词序列:
//java12新增表达单词序列
1.SWITCH[switch]
2.LP[(]
3.IDENTIFIER[str]
4.RP[)]
5.LC[{]
6.CASE[case]
7.STRING[1]
8.POINT_TO[->]
9.IDENTIFIER[a]
10.ASSIGN[=]
11.NUMBER[2]
12.SEMICOLON[;]
13.DEFAULT[default]
14.POINT_TO[->]
15.IDENTIFIER[a]
16.ASSIGN[=]
17.NUMBER[1]
18.SEMICOLON[;]
19.RC[}]
//java原有表达单词序列
1.SWITCH[switch]
2.LP[(]
3.IDENTIFIER[str]
4.RP[)]
5.LC[{]
6.CASE[case]
7.STRING[1]
8.COLON[:]
9.IDENTIFIER[a]
10.ASSIGN[=]
11.NUMBER[2]
12.SEMICOLON[;]
13.DEFAULT[default]
14.COLON[:]
15.IDENTIFIER[a]
16.ASSIGN[=]
17.NUMBER[1]
18.SEMICOLON[;]
19.RC[}]
对于上述不同的单词序列,可以从语法解析层面,也即从语法解析规则中定义识别规则以及建立抽象语法树结构的规则,使得针对上述两种不同的单词序列能够产生同类型的抽象语法树结构。
注意:以上只是举了部分例子,实际中也有各种同一语言之间不同的表达序列,语言特性的增加和删除等,同理可以进行类似的识别和处理。
图4(a)和图4(b)示出根据本公开一实施方式中针对java12新增语法表达方式和java原有语法表达方式生成的抽象语法树的结构示意图。如图4(a)所示,java12新增语法表达方式对应的switch语义对应的抽象语法树包括两个组成节点,分别为[IDENTIFIER:num]和[SWITCH_BLOCK:][SWITCH_STATEMENT_GROUP_LIST:],分别对应于参数标识及类型、switch语义的执行块,switch语义的执行块由包括两个组成节点,[SWITCH_STATEMENT_GROUP:]和SWITCH_STATEMENT_GROUP:],分别对应两个switch分支执行块,该两个分支执行块又分别包括两个组成节点,具体如图3(a)所示,在此不再一一展开说明。
如图4(b)所示,java原有语法表达方式对应的switch语义对应的抽象语法树结构与java12新增语法表达方式对应的switch语义对应的抽象语法树结构基本上相同,在此不再一一展开说明。
4、其中一种编译类型中存在而其他编译类型中不存在的语法表达方式
该类语法表达方式由于在其他编译类型中不存在,因此在语法解析规则中增加针对这种语法表达方式的解析定义即可。下面举例说明。
例如,bash语言中的语法表达方式,比如:cmd arg1"arg2"
该语法表达方式在其他语言中没有对应的语法表达方式,因此可以增加一种抽象语法树的节点类型,比如增加如下表2所示的节点类型:
表2
Figure BDA0003383982050000141
图5示出根据本公开一实施方式中bash语言独有的语法表达方式的抽象语法树的结构示意图。如图5所示,抽象语法树的根节点[COMMAND:]包括两个组成节点:[IDENTIFIER:cmd]和[ARGUMENT_COMMA_LIST:],分别对应命令名和实参列表,实参列表又包括两个组成节点:[IDENTIFIER:arg1]和[STRING:[STRING]arg2],分别为参数列表中两个参数的类型。
图6示出根据本公开一实施方式的脚本检测方法的流程示意图。如图6所示,该脚本检测方法,包括以下步骤:
在步骤S601中,获取待检测的脚本;
在步骤S602中,调用预先部署的脚本安全检测接口,对所述脚本进行安全检测;其中,所述脚本安全检测接口基于所述脚本的编译类型选择目标编译组件,并基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树,以及基于所述抽象语法树对所述脚本进行检测;不同编译类型对应的所述目标编译组件输出的所述抽象语法树的结构类型相同;
在步骤S603中,输出所述脚本的安全检测结果。
本实施例中,脚本是一种可以解释执行的程序,一个脚本可以包括多条脚本语句。脚本语句可以是采用某种脚本语言所编写的可执行语句,脚本语言可以包括但不限于jsp、php、asp、bash、python、js、vb、c#、powershell等。
该方法可以在云端执行。脚本安全检测接口可以预先部署在云端,该脚本安全检测接口可以是Saas(Software-as-a-service,软件即服务)接口,需求方可以预先获得该脚本安全检测接口的使用权,在需要时可以通过调用该脚本安全检测接口对待检测脚本进行检测,该脚本安全检测接口实现的是本公开实施例提出的脚本检测方法。
本实施例中,需求方可以将需要检测的一个或多个脚本上传至云端,由部署在云端的脚本安全检测接口对该一个或多个脚本进行检测,并输出每个脚本的安全检测结果,该安全检测结果可以返回给需求方。本公开实施例中,脚本安全检测接口为了对脚本进行检测,可以先对脚本进行编译,该编译的过程包括词法解析以及语法解析,最终得到脚本中脚本语句对应的抽象语法树,一个脚本中包括多个脚本语句时,可以生成多个抽象语法树,每个抽象语法树对应一个完整的脚本语句。在生成脚本对应的抽象语法树之后,可以在抽象语法树的基础上进行脚本检测,能够提高脚本检测的准确性。这是因为如果直接针对脚本文本进行检测可能会造成误检测,比如脚本中存在注释等情形;此外直接针对脚本文本进行检测无法精确确定某段文本的类型,比如不能区分该段文本是不是一个字符串内的字符。抽象语法树是脚本语句的源代码语法结构的一种抽象表示,其以树状的形式表现脚本语句的语法结构,抽象语法树上的每个组成节点表示脚本语句中的一个语法表示。如果通过将脚本解析成抽象语法树的形式,还可以直接通过规则匹配的方式确定脚本文本中调用了哪些函数,使用的字符串是否为敏感字符串等。
脚本检测的原理是通过匹配脚本中脚本语句的语法表达方式,确定脚本中是否存在实现预定功能的脚本语句,如果存在这种脚本语句,则可以基于该脚本语句输出安全检测结果。脚本语句实现的功能可以从脚本语句的语义上来判断,因此本公开实施例基于脚本语句的语义将该脚本语句中的语法结构解析成抽象语法树的形式,进而通过匹配抽象语法树中是否存在预定语法结构的分支来检测脚本。
以恶意代码的检测为例,在利用上文中提到的抽象语法树的解析方法将脚本解析成抽象语法树之后,可以从该抽象语法树的根节点进行遍历,以便在遍历过程中查看是否能够匹配到预定语句,该预定语句对应于恶意代码,例如修改***命令的语句、创建某种函数的语句等。在匹配到存在预定语句后,可以认为该脚本中存在恶意代码,可以输出安全检测结果,例如恶意代码标识以及恶意代码在脚本中的位置等。
抽象语法树的解析过程可以参见上文中的描述,在此不再赘述。
本公开实施例中,针对待检测脚本,利用上文中提到的抽象语法树的解析方法将任意一种语言编写的脚本解析成统一类型的抽象语法树;因此,在脚本的安全检测过程中,无需针对不同语言定制不同的安全检测方法,而是采用统一的安全检测方法遍历所生成的抽象语法树,进而基于遍历结果得到安全检测结果。通过本公开实施例,可以提高脚本的安全检测效率,节省脚本的安全检测资源。
在本实施例的一个可选实现方式中,所述安全检测结果包括所述脚本中是否包括webshell和/或恶意代码。
该可选的实现方式中,脚本安全检测接口可以针对待检测的脚本,进行webshell检测和/或恶意代码的检测。webshell是以asp、jsp、PHP等脚本文件存在的一种命令执行环境,也可称为是一种网页后门,攻击者入侵网站服务器后,一般会将webshell后门文件和网站服务器web目录下正常脚本文件放在一起,然后再使用浏览器来访问webshell后门文件,得到webshell命令执行环境,达到控制网站服务器的目的。
针对待检测的脚本,可以通过规则匹配的方式从脚本中匹配是否存在webshell。本公开实施例中,将待检测的脚本解析成抽象语法树之后,再利用规则匹配的方式从抽象语法树的结构确定该脚本中是否存在webshell。
此外,还可以基于抽象语法树结构,确定待检测的脚本中是否调用了预定函数或者是否包括敏感字符串等,该预定函数可以是包括恶意代码的函数。
在本实施例的一个可选实现方式中,不同编译类型对应的目标编译组件不同。
该可选的实现方式中,不同编译类型可以对应不同脚本语言,也即不同脚本语言编写的脚本对应不同的编译类型。由于不同脚本语言的编写方式不同,因此针对不同编译类型的脚本,本公开实施例预先设置对应的目标编译组件,不同编译类型对应不同的目标编译组件。而不同目标编译组件最终输出的抽象语法树的结构类型是相同的。也即,本公开实施例针对多种脚本语言,实现了抽象语法树的归一化处理,使得最终输出的抽象语法树从类型上保持一致,能够采用统一的适配方式对不同编译类型对应的不同目标编译组件输出的抽象语法树进行适配。
在本实施例的一个可选实现方式中,所述目标编译组件包括词法解析器以及语法解析器;基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树的步骤,进一步包括以下步骤:
利用所述词法解析器将所述脚本解析成单词序列;
利用所述语法解析器将所述单词序列解析成所述抽象语法树。
该可选的实现方式中,目标编译组件包括词法解析器和语法解析器。在利用目标编译组件对脚本进行解析时,可以先将脚本中的脚本语句输入至词法解析器中,由词法解析器将脚本语句划分成单词序列。
而语法解析器则可以针对词法解析器输出的单词序列,解析出该脚本语句的语法结构,该语法结构以抽象语法树的形式展示。
在本实施例的一个可选实现方式中,所述方法进一步还包括以下步骤:
所述脚本安全检测接口获取针对不同编译类型编写的词法解析规则和/或语法解析规则,并利用生成器工具基于所述词法解析规则和/或所述语法解析规则生成所述编译组件。
该可选的实现方式中,为了实现不同编译类型对应的脚本可以被最终解析成同一种类型的抽象语法树,本公开实施例中针对不同编译类型的脚本语言预先编写相应的语法解析规则以及词法解析规则。在一些实施例中,该语法解析规则以及词法解析规则可以编写成正则表达式的形式。
在一些实施例中,可以利用已有的生成器工具,针对相关人员编写的词法解析规则生成词法解析器,而基于语法解析规则生成语法解析器。
在一些实施例中,生成器工具可以选用flex、bison和re2c中的其中一种或多种的组合。
该实施例中,相关人员在需要的时候只需要修改词法解析规则和语法解析规则,维护相对简单,能够降低维护成本,提高效率。
可以理解的是,词法解析器或语法解析器实际上是一段可执行代码,其在执行过程中,例如词法解析器将脚本语句作为输入,并将该脚本语句按照词法解析规则解析成单词序列,而语法解析器则以词法解析器的输出作为输入,也即将脚本语句对应的单词序列作为输入,并按照语法解析规则从单词序列中解析出脚本语句的语法结构,进而以抽象语法树的形式展现出来。
在本实施例的一个可选实现方式中,所述词法解析规则和所述语法解析规则中,针对不同编译类型,基于脚本的语义以及语法结构对不同编译类型中的语法表达方式进行归类,以及基于归类结果针对不同类型的语法表达方式进行不同的解析处理。
该可选的实现方式中,本公开实施例所使用的不同编译类型对应的语法解析规则和词法解析规则中,通过将不同脚本语言中的语法表达方式进行归类,划分为不同类型的语法表达方式采用不同的解析处理方式,而划分为相同类型的语法表达方式则采用相同的解析处理,最终可以得到结构类型相同的抽象语法树。同时由于相同类型的语法表达方式采用的是相同的解析处理,因此不同语言编写的语义相同的语句被解析成的抽象语法树不但类型相同,结构也相同。
在本实施例的一个可选实现方式中,所述语法表达方式的类型包括以下至少之一:
不同编译类型对应的语义相同以及语法结构也相同的语法表达方式;
不同编译类型对应的语义相同而语法结构不同的语法表达方式;
相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式;
其中一种编译类型中存在而其他编译类型中不存在的语法表达方式。
在本实施例的一个可选实现方式中,针对不同编译类型中相同语义以及语法结构也相同的语法表达方式,按照语法结构所表示的语义划分多个组成节点,并在所述语法解析规则中定义所述多个组成节点;和/或,
针对不同编译类型对应的语义相同而语法结构不同的语法表达方式,在语法解析规则中将不同语法结构中包括的所有语法表示定义为组成节点,所述组成节点构成所述不同语法结构中所有语法表示的超集,在语法解析规则中还定义,在生成抽象语法树时将所解析的编译类型不支持或不存在的语法表示对应的组成节点置空;和/或,
针对相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式,能够在词法层面实现归一化的语法表达方式,在词法解析规则中定义将语义相同而语法结构不同的语法表达方式解析成相同的单词序列;在词法层面无法实现归一化的语法表达方式,在语法解析规则中进行归一化;
其中一种编译类型中存在而其他编译类型中不存在的语法表达方式,在语法解析规则中单独定义所述语法表达方式中的语法表示对应的组成节点。
该可选的实现方式中,在词法解析规则和语法解析规则中,将不同编译类型对应的脚本语言中的语法表达方式至少划分为如下四种方式中的一种或多种的组合:
1、不同编译类型对应的语义相同以及语法结构也相同的语法表达方式:
该类语法表达方式中,在语义相同且语法结构也相同时,可以从语法结构所表达出来的语义将该语法结构划分成多个组成节点,并且将具有该语法表达方式的脚本语句解析成包括该多个组成节点的该种语法结构的抽象语法树。如上文中提到的if语义即为该类语法表达方式,同理for循环语义、while循环语义、foreach语义等属于语义相同且语法结构也相同的语法表达方式,都可以采用这样的方式进行解析。可以理解的是,上述解析处理方式在语法解析规则中定义。
2、不同编译类型对应的语义相同而语法结构不同的语法表达方式:
该类语法表达方式中,由于语义相同而语法结构不同,针对这类语法表达方式可以从各种语言的不同语法结构所表达出来的相同语义,将语法结构划分成多个组成节点,而该多个组成节点对应于该相同语义的所有语法结构中的所有语法表示,也即这类语法表达方式对应抽象语法树的组成节点可以包括各种语言中该类语法表达方式中任意一个语法表示,在语义解析规则中定义所有组成节点类型;在语法解析时,对于当前语言的语法结构中不存在的组成节点置空即可。
3、相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式
该类语法表达方式中,主要考虑的是编译类型相同也即所使用编写语言相同,而语言版本不同,导致两个版本对于相同语义具有不同的语法表达方式。
4、其中一种编译类型中存在而其他编译类型中不存在的语法表达方式。
该类语法表达方式由于在其他编译类型中不存在,因此在语法解析规则中增加针对这种语法表达方式的解析定义即可。
图7示出根据本公开一实施方式中抽象语法树的解析方法的应用场景示意图。如图7所示,在云端服务器部署编译组件列表库,该编译组件列表库中包括利用上文所描述的方式建立的对应于多种语言的多个目标编译组件。云端服务器可以接收用户上传的待检测脚本以及该待检测脚本的编译类型,云端服务器基于待检测脚本的编译类型调用对应的目标编译组件对该待检测脚本进行编译,进而生成对应的抽象语法树。
云端服务器还调用恶意脚本检测代码对抽象语法树进行适配,如果适配出该抽象语法树中存在与预定结构相匹配的脚本语句,则认为该待检测脚本中存在恶意代码,并将该安全检测结果返回给用户。
此外,具有权限的相关人员还可以向远端服务器上传扩展的目标编译组件,云端服务器在接收到该目标编译组件之后,在确认当前的编译列表库中无相应编译类型对应的目标编译组件后,可以将其添加到编译组件列表库中,以达到扩展的目的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
根据本公开一实施方式的抽象语法树的解析装置,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该抽象语法树的解析装置包括:
第一获取模块,被配置为获取待解析的脚本以及所述脚本的编译类型;
选择模块,被配置为基于所述编译类型选择目标编译组件;
解析模块,被配置为基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树;其中,不同编译类型对应的所述目标编译组件输出的所述抽象语法树的结构类型相同。
本实施例中,脚本是一种可以解释执行的程序,一个脚本可以包括多条脚本语句。脚本语句可以是采用某种脚本语言所编写的可执行语句,脚本语言可以包括但不限于jsp、php、asp、bash、python、js、vb、c#、powershell等。
本公开实施例中为了对脚本进行检测,可以先对脚本进行编译,该编译的过程包括词法解析以及语法解析,最终得到脚本中脚本语句对应的抽象语法树,一个脚本中包括多个脚本语句时,可以生成多个抽象语法树,每个抽象语法树对应一个完整的脚本语句。在生成脚本对应的抽象语法树之后,可以在抽象语法树的基础上进行脚本检测,能够提高脚本检测的准确性。抽象语法树是脚本语句的源代码语法结构的一种抽象表示,其以树状的形式表现脚本语句的语法结构,抽象语法树上的每个组成节点表示脚本语句中的一个语法表示。
脚本检测可以是针对脚本中是否存在恶意代码的检测,也可以是其他类型的检测,具体可以根据实际需求而定,在此不做具体限制。脚本检测的原理是通过匹配脚本中脚本语句的语法表达方式,确定脚本中是否存在实现预定功能的脚本语句,如果存在这种脚本语句,则可以基于该脚本语句输出安全检测结果。脚本语句实现的功能可以从脚本语句的语义上来判断,因此本公开实施例基于脚本语句的语义将该脚本语句中的语法结构解析成抽象语法树的形式,进而通过匹配抽象语法树中是否存在预定语法结构的分支来检测脚本。
考虑到待检测脚本可能由各种类型的脚本语言编写而成,而为了能够提高不同语言编写的脚本检测的效率,以及降低脚本检测的复杂度,本公开实施例提出了一种抽象语法树的解析装置,其可以针对不同语言编写的脚本语句进行解析,最终得到类型统一的抽象语法树,可以采用统一的适配方式理解利用本公开实施例生成的抽象语法树,而无需如已有技术,针对不同语言编写的脚本语句对应的抽象语法树需进行定制化适配。
本实施例中,在接收到需要解析的脚本以及该脚本的编译类型后,基于该编译类型选择对应的目标编译组件。编译类型与编写该脚本的脚本语言对应一致,不同脚本语言对应不同的编译类型。目标编译组件可以包括但不限于词法解析器和语法解析器。词法解析器用于将脚本中的脚本语句解析成单词(token)序列,语法解析器用于基于单词序列生成抽象语法树。
不同编译类型对应不同的目标编译组件,也就是说不同语言编写的脚本需要选择不同的目标编译组件来进行编译。例如,jsp语言编写的脚本采用jsp类型的目标编译组件,而python语言编写的脚本采用python类型的目标编译组件。需要说明的是,此处提到的目标编译组件不是脚本语言对应的原生编译器,而是用于本公开实施例中,能够将不同编译类型的脚本编译成同一类型的抽象语法树的编译组件。
将脚本输入至目标编译组件中进行解析,最终输出该脚本对应的抽象语法树。在脚本中包括多个脚本语句的情况下,可以输出多个抽象语法树。
不同编译类型也即不同脚本语言编写的脚本虽然选择使用不同的编译组件来解析,但是最终输出的抽象语法树的类型是相同的,也就是说不同编译类型对应的目标编译组件所输出的抽象语法树的结构可以采用统一的适配方式进行适配。
本公开实施例在脚本解析过程中,针对不同编译类型预先设置不同的目标编译组件,在接收到待解析的脚本以及该脚本的编译类型后,基于该编译类型选择相应的目标编译组件,进而再利用目标编译组件对脚本进行解析,输出该脚本对应的抽象语法树,该抽象语法树用于表达所述脚本中各脚本语句的语法结构;本公开实施例中,不同编译类型对应的目标编译组件所输出的抽象语法树的类型相同,因此通过本公开实施例能够将各种语言编写的脚本归一化成同种类型的抽象语法树,能够提高脚本的适配效率以及准确率。
在本实施例的一个可选实现方式中,不同编译类型对应的目标编译组件不同。
该可选的实现方式中,不同编译类型可以对应不同脚本语言,也即不同脚本语言编写的脚本对应不同的编译类型。由于不同脚本语言的编写方式不同,因此针对不同编译类型的脚本,本公开实施例预先设置对应的目标编译组件,不同编译类型对应不同的目标编译组件。而不同目标编译组件最终输出的抽象语法树的结构类型是相同的。也即,本公开实施例针对多种脚本语言,实现了抽象语法树的归一化处理,使得最终输出的抽象语法树从类型上保持一致,能够采用统一的适配方式对不同编译类型对应的不同目标编译组件输出的抽象语法树进行适配。
在本实施例的一个可选实现方式中,所述目标编译组件包括词法解析器以及语法解析器;所述解析模块,包括:
第一解析子模块,被配置为利用所述词法解析器将所述脚本解析成单词序列;
第二解析子模块,被配置为利用所述语法解析器将所述单词序列解析成所述抽象语法树。
该可选的实现方式中,目标编译组件包括词法解析器和语法解析器。在利用目标编译组件对脚本进行解析时,可以先将脚本中的脚本语句输入至词法解析器中,由词法解析器将脚本语句划分成单词序列。
在本实施例的一个可选实现方式中,所述装置还包括:
第二获取模块,被配置为获取针对不同编译类型编写的词法解析规则和/或语法解析规则;
生成模块,被配置为利用生成器工具基于所述词法解析规则和/或所述语法解析规则生成所述编译组件。
该可选的实现方式中,为了实现不同编译类型对应的脚本可以被最终解析成同一种类型的抽象语法树,本公开实施例中针对不同编译类型的脚本语言预先编写相应的语法解析规则以及词法解析规则。在一些实施例中,该语法解析规则以及词法解析规则可以编写成正则表达式的形式。
在一些实施例中,可以利用已有的生成器工具,针对相关人员编写的词法解析规则生成词法解析器,而基于语法解析规则生成语法解析器。
在一些实施例中,生成器工具可以选用flex、bison和re2c中的其中一种或多种的组合。
可以理解的是,词法解析器或语法解析器实际上是一段可执行代码,其在执行过程中,例如词法解析器将脚本语句作为输入,并将该脚本语句按照词法解析规则解析成单词序列,而语法解析器则以词法解析器的输出作为输入,也即将脚本语句对应的单词序列作为输入,并按照语法解析规则从单词序列中解析出脚本语句的语法结构,进而以抽象语法树的形式展现出来。
在本实施例的一个可选实现方式中,所述词法解析规则和所述语法解析规则中,针对不同编译类型,基于脚本的语义以及语法结构对不同编译类型中的语法表达方式进行归类,以及基于归类结果针对不同类型的语法表达方式进行不同的解析处理。
该可选的实现方式中,本公开实施例所使用的不同编译类型对应的语法解析规则和词法解析规则中,通过将不同脚本语言中的语法表达方式进行归类,划分为不同类型的语法表达方式采用不同的解析处理方式,而划分为相同类型的语法表达方式则采用相同的解析处理,最终可以得到结构类型相同的抽象语法树。同时由于相同类型的语法表达方式采用的是相同的解析处理,因此不同语言编写的语义相同的语句被解析成的抽象语法树不但类型相同,结构也相同。
在本实施例的一个可选实现方式中,所述语法表达方式的类型包括以下至少之一:
不同编译类型对应的语义相同以及语法结构也相同的语法表达方式;
不同编译类型对应的语义相同而语法结构不同的语法表达方式;
相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式;
其中一种编译类型中存在而其他编译类型中不存在的语法表达方式。
在本实施例的一个可选实现方式中,针对不同编译类型中相同语义以及语法结构也相同的语法表达方式,按照语法结构所表示的语义划分多个组成节点,并在所述语法解析规则中定义所述多个组成节点;和/或,
针对不同编译类型对应的语义相同而语法结构不同的语法表达方式,在语法解析规则中将不同语法结构中包括的所有语法表示定义为组成节点,所述组成节点构成所述不同语法结构中所有语法表示的超集,在语法解析规则中还定义,在生成抽象语法树时将所解析的编译类型不支持或不存在的语法表示对应的组成节点置空;和/或,
针对相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式,能够在词法层面实现归一化的语法表达方式,在词法解析规则中定义将语义相同而语法结构不同的语法表达方式解析成相同的单词序列;在词法层面无法实现归一化的语法表达方式,在语法解析规则中进行归一化;
其中一种编译类型中存在而其他编译类型中不存在的语法表达方式,在语法解析规则中单独定义所述语法表达方式中的语法表示对应的组成节点。
该可选的实现方式中,在词法解析规则和语法解析规则中,将不同编译类型对应的脚本语言中的语法表达方式至少划分为如下四种方式中的一种或多种的组合:
1、不同编译类型对应的语义相同以及语法结构也相同的语法表达方式:
该类语法表达方式中,在语义相同且语法结构也相同时,可以从语法结构所表达出来的语义将该语法结构划分成多个组成节点,并且将具有该语法表达方式的脚本语句解析成包括该多个组成节点的该种语法结构的抽象语法树。如上文中提到的if语义即为该类语法表达方式,同理for循环语义、while循环语义、foreach语义等属于语义相同且语法结构也相同的语法表达方式,都可以采用这样的方式进行解析。可以理解的是,上述解析处理方式在语法解析规则中定义。
2、不同编译类型对应的语义相同而语法结构不同的语法表达方式:
该类语法表达方式中,由于语义相同而语法结构不同,针对这类语法表达方式可以从各种语言的不同语法结构所表达出来的相同语义,将语法结构划分成多个组成节点,而该多个组成节点对应于该相同语义的所有语法结构中的所有语法表示,也即这类语法表达方式对应抽象语法树的组成节点可以包括各种语言中该类语法表达方式中任意一个语法表示,在语义解析规则中定义所有组成节点类型;在语法解析时,对于当前语言的语法结构中不存在的组成节点置空即可。
下面举例说明:
//java
public static void func(int a,char b)
{
return a+b;
}
//php
function func($a,$b){
return$a+$b;
}
上述两种语言中关于函数语义的语法表达方式中,java语言支持注解、函数限定符、函数返回值类型、函数名、函数参数列表以及函数执行体等语法表示。
而在php语言中并不支持上述所有的表达类型,而是仅支持部分语法表示,为了归一化这种相同语义而语法结构不同的语法表达方式,可以定义一个语法表示的超集来表示这种语法结构,该语法表示的超集包括各种语言中该相同语义而语法结构不同的语法表达方式中出现的所有语法表示,进而在语法解析规则中将该超集中的语法表示定义成该类语义相同而语法结构不同的语法表达方式的组成节点,并在解析语法时将不存在或不支持的语法表示对应的组成节点置空即可。
3、相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式
该类语法表达方式中,主要考虑的是编译类型相同也即所使用编写语言相同,而语言版本不同,导致两个版本对于相同语义具有不同的语法表达方式,下面举例说明。
例如,java15之后开始支持TextBlocks语法,比如说下面两种语法表达的意思是一致的:
//java
String a="abc";
//java
String a="""abc""";
在一些实施例中,为了针对上述两种语法表达方式得到相同结构的抽象语法树,本公开实施例在词法解析层进行归一化处理,也即在词法解析规则中兼容这两种不同的语法表达方式,比如上述例子中文本是不一致的,但是需要词法解析器输出如下相同的单词序列:
1.IDENTIFIER[String]
2.IDENTIFIER[a]
3.ASSIGN[=]
4.STRING[abc]
输出相同的单词序列后,从而不影响后续的语法分析,进而不会影响后续抽象语法树结构的生成。
在一些实施例中,针对在词法解析层面无法做到兼容时,也可以在语法解析层面进行归一化处理。
4、其中一种编译类型中存在而其他编译类型中不存在的语法表达方式
该类语法表达方式由于在其他编译类型中不存在,因此在语法解析规则中增加针对这种语法表达方式的解析定义即可。
根据本公开一实施方式的脚本检测装置,该脚本检测装置包括:
第三获取模块,被配置为获取待检测的脚本;
调用模块,被配置为调用预先部署的脚本安全检测接口,对所述脚本进行安全检测;其中,所述脚本安全检测接口基于所述脚本的编译类型选择目标编译组件,并基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树,以及基于所述抽象语法树对所述脚本进行检测;不同编译类型对应的所述目标编译组件输出的所述抽象语法树的结构类型相同;
输出模块,被配置为输出所述脚本的安全检测结果。
本实施例中,脚本是一种可以解释执行的程序,一个脚本可以包括多条脚本语句。脚本语句可以是采用某种脚本语言所编写的可执行语句,脚本语言可以包括但不限于jsp、php、asp、bash、python、js、vb、c#、powershell等。
该装置可以在云端执行。脚本安全检测接口可以预先部署在云端,该脚本安全检测接口可以是Saas(Software-as-a-service,软件即服务)接口,需求方可以预先获得该脚本安全检测接口的使用权,在需要时可以通过调用该脚本安全检测接口对待检测脚本进行检测,该脚本安全检测接口实现的是本公开实施例提出的脚本检测装置。
本实施例中,需求方可以将需要检测的一个或多个脚本上传至云端,由部署在云端的脚本安全检测接口对该一个或多个脚本进行检测,并输出每个脚本的安全检测结果,该安全检测结果可以返回给需求方。本公开实施例中,脚本安全检测接口为了对脚本进行检测,可以先对脚本进行编译,该编译的过程包括词法解析以及语法解析,最终得到脚本中脚本语句对应的抽象语法树,一个脚本中包括多个脚本语句时,可以生成多个抽象语法树,每个抽象语法树对应一个完整的脚本语句。在生成脚本对应的抽象语法树之后,可以在抽象语法树的基础上进行脚本检测,能够提高脚本检测的准确性。这是因为如果直接针对脚本文本进行检测可能会造成误检测,比如脚本中存在注释等情形;此外直接针对脚本文本进行检测无法精确确定某段文本的类型,比如不能区分该段文本是不是一个字符串内的字符。抽象语法树是脚本语句的源代码语法结构的一种抽象表示,其以树状的形式表现脚本语句的语法结构,抽象语法树上的每个组成节点表示脚本语句中的一个语法表示。如果通过将脚本解析成抽象语法树的形式,还可以直接通过规则匹配的方式确定脚本文本中调用了哪些函数,使用的字符串是否为敏感字符串等。
脚本检测的原理是通过匹配脚本中脚本语句的语法表达方式,确定脚本中是否存在实现预定功能的脚本语句,如果存在这种脚本语句,则可以基于该脚本语句输出安全检测结果。脚本语句实现的功能可以从脚本语句的语义上来判断,因此本公开实施例基于脚本语句的语义将该脚本语句中的语法结构解析成抽象语法树的形式,进而通过匹配抽象语法树中是否存在预定语法结构的分支来检测脚本。
以恶意代码的检测为例,在利用上文中提到的抽象语法树的解析装置将脚本解析成抽象语法树之后,可以从该抽象语法树的根节点进行遍历,以便在遍历过程中查看是否能够匹配到预定语句,该预定语句对应于恶意代码,例如修改***命令的语句、创建某种函数的语句等。在匹配到存在预定语句后,可以认为该脚本中存在恶意代码,可以输出安全检测结果,例如恶意代码标识以及恶意代码在脚本中的位置等。
抽象语法树的解析过程可以参见上文中的描述,在此不再赘述。
本公开实施例中,针对待检测脚本,利用上文中提到的抽象语法树的解析装置将任意一种语言编写的脚本解析成统一类型的抽象语法树;因此,在脚本的安全检测过程中,无需针对不同语言定制不同的安全检测装置,而是采用统一的安全检测装置遍历所生成的抽象语法树,进而基于遍历结果得到安全检测结果。通过本公开实施例,可以提高脚本的安全检测效率,节省脚本的安全检测资源。
图8是适于用来实现根据本公开实施方式的抽象语法树的解析方法和/或脚本检测方法的电子设备的结构示意图。
如图8所示,电子设备800包括处理单元801,其可实现为CPU、GPU、FPGA、NPU等处理单元。处理单元801可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行本公开上述任一方法的实施方式中的各种处理。在RAM803中,还存储有电子设备800操作所需的各种程序和数据。处理单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施方式,上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行本公开实施方式中任一方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种抽象语法树的解析方法,其中,包括:
获取待解析的脚本以及所述脚本的编译类型;
基于所述编译类型选择目标编译组件;
基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树;其中,不同编译类型对应的所述目标编译组件输出的所述抽象语法树的结构类型相同。
2.根据权利要求1所述的方法,其中,不同编译类型对应的目标编译组件不同。
3.根据权利要求1或2所述的方法,其中,所述目标编译组件包括词法解析器以及语法解析器;基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树,包括:
利用所述词法解析器将所述脚本解析成单词序列;
利用所述语法解析器将所述单词序列解析成所述抽象语法树。
4.根据权利要求1或2所述的方法,其中,所述方法还包括:
获取针对不同编译类型编写的词法解析规则和/或语法解析规则;
利用生成器工具基于所述词法解析规则和/或所述语法解析规则生成所述编译组件。
5.根据权利要求4所述的方法,其中,所述词法解析规则和所述语法解析规则中,针对不同编译类型,基于脚本的语义以及语法结构对不同编译类型中的语法表达方式进行归类,以及基于归类结果针对不同类型的语法表达方式进行不同的解析处理。
6.根据权利要求5所述的方法,其中,所述语法表达方式的类型包括以下至少之一:
不同编译类型对应的语义相同以及语法结构也相同的语法表达方式;
不同编译类型对应的语义相同而语法结构不同的语法表达方式;
相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式;
其中一种编译类型中存在而其他编译类型中不存在的语法表达方式。
7.根据权利要求6所述的方法,其中,针对不同编译类型中相同语义以及语法结构也相同的语法表达方式,按照语法结构所表示的语义划分多个组成节点,并在所述语法解析规则中定义所述多个组成节点;和/或,
针对不同编译类型对应的语义相同而语法结构不同的语法表达方式,在语法解析规则中将不同语法结构中包括的所有语法表示定义为组成节点,所述组成节点构成所述不同语法结构中所有语法表示的超集,在语法解析规则中还定义,在生成抽象语法树时将所解析的编译类型不支持或不存在的语法表示对应的组成节点置空;和/或,
针对相同编译类型对应的语义相同而版本不同,进而语法结构也不同的语法表达方式,能够在词法层面实现归一化的语法表达方式,在词法解析规则中定义将语义相同而语法结构不同的语法表达方式解析成相同的单词序列;在词法层面无法实现归一化的语法表达方式,在语法解析规则中进行归一化;
其中一种编译类型中存在而其他编译类型中不存在的语法表达方式,在语法解析规则中单独定义所述语法表达方式中的语法表示对应的组成节点。
8.一种脚本检测方法,其中,包括:
获取待检测的脚本;
调用预先部署的脚本安全检测接口,对所述脚本进行安全检测;其中,所述脚本安全检测接口基于所述脚本的编译类型选择目标编译组件,并基于所述目标编译组件对所述脚本进行解析,输出所述脚本对应的抽象语法树,以及基于所述抽象语法树对所述脚本进行检测;不同编译类型对应的所述目标编译组件输出的所述抽象语法树的结构类型相同;
输出所述脚本的安全检测结果。
9.根据权利要求8所述的方法,其中,所述安全检测结果包括所述脚本中是否包括webshell和/或恶意代码。
10.一种计算机程序产品,其包括计算机指令,其中,该计算机指令被处理器执行时实现权利要求1-8任一项所述的方法。
CN202111442982.6A 2021-11-30 2021-11-30 抽象语法树的解析方法及计算机程序产品 Pending CN114443041A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111442982.6A CN114443041A (zh) 2021-11-30 2021-11-30 抽象语法树的解析方法及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111442982.6A CN114443041A (zh) 2021-11-30 2021-11-30 抽象语法树的解析方法及计算机程序产品

Publications (1)

Publication Number Publication Date
CN114443041A true CN114443041A (zh) 2022-05-06

Family

ID=81364572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111442982.6A Pending CN114443041A (zh) 2021-11-30 2021-11-30 抽象语法树的解析方法及计算机程序产品

Country Status (1)

Country Link
CN (1) CN114443041A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115390852A (zh) * 2022-08-26 2022-11-25 支付宝(杭州)信息技术有限公司 一种生成统一抽象语法树与程序分析的方法和装置
CN115469875A (zh) * 2022-08-22 2022-12-13 西安衍舆航天科技有限公司 基于遥控作业的领域专用语言dsl的编译方法及装置
CN117785884A (zh) * 2023-12-28 2024-03-29 支付宝(杭州)信息技术有限公司 图查询语句的图逻辑执行计划生成方法、数据处理方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115469875A (zh) * 2022-08-22 2022-12-13 西安衍舆航天科技有限公司 基于遥控作业的领域专用语言dsl的编译方法及装置
CN115469875B (zh) * 2022-08-22 2023-08-15 西安衍舆航天科技有限公司 基于遥控作业的领域专用语言dsl的编译方法及装置
CN115390852A (zh) * 2022-08-26 2022-11-25 支付宝(杭州)信息技术有限公司 一种生成统一抽象语法树与程序分析的方法和装置
CN117785884A (zh) * 2023-12-28 2024-03-29 支付宝(杭州)信息技术有限公司 图查询语句的图逻辑执行计划生成方法、数据处理方法及装置

Similar Documents

Publication Publication Date Title
US11714611B2 (en) Library suggestion engine
US11061648B2 (en) Method and system for arbitrary-granularity execution clone detection
US8707263B2 (en) Using a DSL for calling APIS to test software
CN114443041A (zh) 抽象语法树的解析方法及计算机程序产品
EP3695310A1 (en) Blackbox matching engine
CN108139891B (zh) 用于生成建议以纠正未定义标记错误的方法和***
US11531529B2 (en) Method and electronic device for deploying operator in deep learning framework
EP3679469A1 (en) Automating identification of test cases for library suggestion models
CN106843840B (zh) 一种基于相似度分析的源代码版本演化注释复用方法
US8850414B2 (en) Direct access of language metadata
KR100692172B1 (ko) 종합 문자열 분석기 및 그 분석 방법
US8954940B2 (en) Integrating preprocessor behavior into parsing
US20070050707A1 (en) Enablement of multiple schema management and versioning for application-specific xml parsers
US20160196204A1 (en) Smart Validated Code Searching System
US9311077B2 (en) Identification of code changes using language syntax and changeset data
Brandl Sphinx documentation
CN115480760A (zh) 基于意图的机器编程
CN114153459A (zh) 接口文档生成方法及装置
US8516457B2 (en) Method, system and program storage device that provide for automatic programming language grammar partitioning
CN104536769A (zh) 一种国际化文档实现方法
CN113885876A (zh) 一种参数校验方法、装置、存储介质及计算机***
US20080141230A1 (en) Scope-Constrained Specification Of Features In A Programming Language
US9304743B1 (en) Converting from incorrect program code to correct program code
EP2535813B1 (en) Method and device for generating an alert during an analysis of performance of a computer application
CN114489653A (zh) 基于编译器的数据处理方法、装置以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination