CN108171073B

CN108171073B - 一种基于代码层语义解析驱动的隐私数据识别方法

Info

Publication number: CN108171073B
Application number: CN201711277112.1A
Authority: CN
Inventors: 杨珉; 杨哲慜; 南雨宏; 张源; 朱东来
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2021-08-20
Anticipated expiration: 2037-12-06
Also published as: CN108171073A

Abstract

本发明属于程序信息安全检测技术领域，具体为一种基于代码层语义解析驱动的隐私数据识别方法。本发明方法包括：基于自然语言处理技术的隐私相关语义分析和代码片段定位：提取代码中的字符串常量标识符，经过预处理之后，将字符串常量中的语义信息与预先定义好的语义相关隐私词典进行匹配，通过字符串常量当中的词性标签，以及不同词语在句子短语当中的依赖关系来判断其是否表明特定的隐私数据；基于机器学习的隐私相关代码片段识别：采用机器学习的支持向量机模型，通过抽取隐私数据使用的代码特征行为作为判断给定的代码是否包含***所关注的隐私数据。通过对这类隐私数据识别，将其标记为敏感数据源，从而降低用户隐私数据的泄露风险。

Description

一种基于代码层语义解析驱动的隐私数据识别方法

技术领域

本发明属于程序信息安全监测技术领域，具体涉及隐私数据识别方法。

背景技术

传统的自动化隐私泄露检测只关注于特定***管控的隐私数据，如针对地理位置信息，只能够指定单一API（如getLastKnownLocation()）作为隐私数据源，之后结合信息流分析来判断这样的隐私数据是否流向了特定的终点（如网络接口），从而判断是否构成隐私泄露。随着移动应用的快速发展，传统的隐私数据源已经无法覆盖移动应用中所包含的很多新型隐私数据。例如，除去***管控的隐私之外，不同的应用均有与自身应用相关的隐私数据，例如用户账户资料数据，银行卡数据，敏感历史记录等。这些隐私数据与***权限模型并没有直接关系，在本发明中被称之为非***管控隐私数据。

对于此类非***管控的隐私数据，传统的信息流分析工具难以直接将其标识出来。这是因为，与传统的隐私来源不同，非***管控的隐私往往来源于设备自身以外的其它地方，使得其从代码角度无法进行统一直接的标识。例如，很多隐私数据来自于用户输入，由用户在注册或者登陆过程中将隐私数据通过EditText.getText()的方式传递到程序内部当中，如果使用传统的隐私来源标识方式将getText()这一API标识为隐私数据来源，必然会导致大量的误报，这是因为很多从界面获取到的数据并不一定包含用户隐私（如输入商品数量）。另外，更多的应用相关隐私数据往往来自于应用自身所在的云端服务器，如用户在登陆其应用账号之后，应用会将服务器端的用户隐私数据通过HTTP请求缓存到应用当中，之后再用于不同的场景。在这种情况中，尚未有方法能够自动化标识来自于服务器中的哪些数据为用户隐私。

发明内容

本发明的目的是提供一种全新的基于代码层语义解析驱动的隐私数据识别方法，适用于大规模自动化地从应用的代码当中识别其所包含的非***管控隐私数据。

本发明提出的基于代码层语义解析驱动的隐私数据识别方法，包括两部分，一是基于自然语言处理技术的隐私相关语义分析和代码片段定位，二是基于机器学习的隐私相关代码片段识别。在第一部分中，首先提取代码中的字符串常量标识符（例如参数常量等），在经过一系列预处理之后，将字符串常量中的语义信息与预先定义好的语义相关隐私词典进行匹配，通过字符串常量当中的词性标签（POS Tagging），以及不同词语在句子短语当中的依赖关系来判断其是否表明特定的隐私数据。在第二部分中，采用机器学习的支持向量机模型，通过抽取隐私数据使用的代码特征行为作为判断给定的代码是否包含了***所关注的隐私数据。通过语义信息与代码结构特征相互补充结合的方式来实现隐私数据的标识。通过对这类隐私数据进行识别，能够将其标记为敏感数据源，为此类隐私数据的监控和保护提供基础，从而降低用户隐私数据的泄露风险。

本发明最终设计架构如图1所示，以下将详细介绍本发明的两个部分：

一、基于自然语言处理技术的隐私相关语义分析和代码片段定位，具体过程如下：

（1）定义隐私信息：本发明首先定义了一些隐私相关的关键词，并通过文本中是否出现这些关键词来初步判断文本是否为隐私相关；关键词集合由人工筛选提取。例如，来自于谷歌隐私政策文档中所提供的隐私相关的关键词，这些关键词的近义词以及从10000个谷歌应用市场的应用中提取出的和这些关键词有较高相似度的词构成。

本发明通过上述方式得到121个关键词，将其划分为4个种类：User Attributers(用户属性),User Identifiers(用户身份),Location(位置),Account(账号)。如表1给出了部分具有代表性的隐私相关关键词，该词表也能够动态配置，通过添加特定关键词来满足今后任何新型隐私数据的识别。

（2）提取语义信息：由于开发者在字符串常量，函数方法名称以及变量名称等应用程序代码片段当中往往写入丰富的语义信息，使得这些信息能够成为有效的线索，通过语义分析的方法来发现代码中可能存在的隐私数据。基于这种现象，本发明从反编译的应用代码中提取出字符串常量，函数名称，变量名称(未经混淆，如全局静态变量名)。之后对这些得到的语义信息进行预处理操作，其中，包括除掉了其中非字母以外的字符（如数字，下划线分隔符），并通过识别这些文本信息中的常用分隔符以及大写字母来将文本分成多个词条，比如把“user_addr”分解成“user”和“addr”，把“GetUserPhoneNumber” 分解为“getuser phone number”这几个单独的字符串。

（3）定位隐私相关语义信息：在对提取出的语义信息进行预处理之后，本发明通过自然语言处理的方式来初步判断这些语义信息是否隐私相关。依次采用了基于关键词的过滤，基于词性的过滤以及基于依赖关系的过滤等技术来一步步来提高语义分析的效果。

（3.1）基于关键词的过滤：为了初步判断提取出的语义信息是否为隐私相关，本发明利用上文所述的隐私相关的关键词，采用关键词匹配算法来初步判断语义信息是否为隐私相关。所述关键词匹配算法主要通过检查是否存在一个关键词使得它的每一个字符均存在于要处理的文本中，如果存在，则这段文本将会被认为隐私相关，并返回该关键词。匹配算法的伪代码见附录。

然而通过关键词匹配算法并不能够完成精确识别隐私相关数据, 主要是因为很多字符串常量虽然包含隐私相关的关键词，但是并不能够真正表明此处包含隐私数据。例如，开发者在代码中往往会通过log形式记录一些程序分析状态，“Mobihelp.setUserEmail() requires a valid email”中虽然包含“email”，但是并不真正涉及到用户email数据。除此之外，很多其它形式的字符串也会对判断是否包含隐私数据的判断造成很严重的干扰，例如，包含url的字符串常量，如“mobile”包含于“com/ironsource/mobilcore/MobileCoreReport”当中。为了减少这些错误信息，在这一步被识别为隐私相关的语义信息将会被进一步分析是否为隐私相关。

（3.2）基于词性的过滤：语义词性标记用于表示特定的关键词在当前句子当中属于什么样的词性，如名词或动词。在本发明的分析当中，所关注的隐私相关词所对应的词性需要为名词。例如“Address”用于标识地理位置地址或者邮件地址，则其应为名词（NN），如果有“Address this issue”所对应的动词“Address”则不符合过滤条件。当句子中所包含的关键词被识别为名词时，该句子将会被进一步做依赖关系的分析。

（3.3）基于依赖关系的过滤：依赖关系用来表明词组在句子之间的组成结构关系，对于短语或句子，能够通过判断敏感词与其它词组所对应的依赖关系来分析所关注的隐私相关词组是否为该句子的中心。为此，本发明利用了以下依赖关系满足匹配过滤条件：

（3.3.1）直接描述关系(Dobj)：如果被分析的短语句子中关键词包含直接描述关系，且关键词为名词NN，则符合预期，例如“get email”，此外，表2中序号为1,2,3的描述中均有直接描述关系的例子。

（3.3.2）名词主语关系(Nsubj):如果被分析的短语中关键词与其上下文不包含直接描述关系，但关键词为被从属词，则也符合判断预期,该情况往往出现在不包含完整句子的短语片段当中。例如“business phone number selected”。

（3.3.3）否定修饰关系(Neg):如果被分析的短语中关键词被一个否定词语修饰，则认为，该关键词和隐私信息无关。例如“Do not input your password here”。

（3.3.4）其它依赖关系：如果关键词仅仅存属于其它依赖关系，如复合关系，则表明其在句子中只起到辅助说明的作用，并不是该句话的主语。其中，隐私相关关键词往往并非该句的主要意思。如表2中序号为1,2,3,6的描述中均有复合关系的例子。

通过上述3个步骤本发明完成了基于语义隐私相关代码片段的定位，并将在接下来采用机器学习的方法，通过抽取隐私数据使用的代码特征行为作为判断给定的代码是否包含了***所关注的隐私数据。

二、基于代码特征的隐私相关数据识别，具体过程如下：

在经过基于自然语言处理技术的隐私相关语义识别过滤后，为了识别隐私相关代码片段是否真正包含隐私数据，本发明采用程序分析与机器学习相结合的方法，利用支持向量机SVM以及通过程序分析所提取到的代码特征进行隐私数据识别。具体而言，首先，通过信息流分析来找到被语义分析确认为隐私相关的常量字符串或者变量名所流入到的函数调用语句，然后，利用机器学习来判断该函数调用语句是否包含隐私信息。当一条函数执行语句（一行代码）被识别为隐私相关，则在该代码中所存储数据的变量（参数或者返回值）即包含隐私数据。

特征选取：本发明选取以下五类特征作为识别隐私数据相关代码的模型向量：

特征1：函数名称：对于未被混淆函数名称的API函数，完整的函数名称具有非常丰富的语义信息来表明函数的具体含义。例如，操作数据的函数往往包括set, get等动词来表明存储/读写数据。因此，函数名称的特征同样能够辅助用于识别用户隐私数据。本文选取代码中常见的set/get/put/add/insert五个动词，以及对应的隐私项词组作为特征维度。

特征2：函数参数类型：函数参数类型往往能够反映隐私数据的使用情况，对于使用到隐私相关的特定函数往往会传入特定类型的参数。例如，很多保存用户隐私数据的操作均需要传入String类型的字符串，如函数SaveUserAccount（String userAccount），与此相反，部分参数类型则表明该函数很可能并不涉及用户的隐私数据，例如启动一个新的线程会传入Thread类型的参数，又或者开启activity以Intent类型作为参数。因此，不同的参数类型，以及其组合方式能够反映该函数是否与用户隐私数据相关。

特征3：函数返回值类型：函数返回值同样能够体现隐私数据的使用特征。例如，对于获取用户隐私数据的相关API，往往会以String类型返回所对应的数据。对于存储，发送用户隐私数据的相关API，很可能返回Boolean类型的值以表明代码是否有效执行。然而，如果函数返回了其它与数据无关的类型，则很可能表明该函数并不包含隐私相关数据。

特征4：函数调用基准变量类型：函数调用的基类同样具有体现数据使用的特征。对于一个invoke语句，如果基类为某些特定的数据结构，则更有可能表明该行代码在使用用户隐私数据。例如HashMap.get()函数中，表明从HashMap这样的容器集合中获取到了某项数据。与之相反，Exception.getException()则为获得某项异常信息，与用户数据并不相关。

特征5：函数参数值类型：在静态代码当中，函数参数值类型有两种，分别是字符串常量与字符串变量。由于隐私相关数据往往会伴随语义相关的文本标签，其往往会以字符串常量的方式体现于调用函数的参数值类型当中。例如，HashMap.set(“username”, $r1)中，其参数值类型为字符串常量（StringConstant）与字符串变量（StringVariable）组成的键值对。另外，参数值类型的排列组合方式也往往能够体现隐私数据的使用情况，例如大部分情况下，字符串常量位于变量的前方，如saveInstance（useraccount, “username”, $user）表明将用户名存储于useraccount当中。与之相反，HandleException（$exception,“email”）很可能只是对email相关逻辑进行报错，在当前代码当中并没有包含真正的email数据。

训练集：由于本发明使用监督性机器学习分类器，需要给出一定量的训练数据用于分类器训练。具体而言，训练集合由经过“隐私相关语义分析和代码片段定位”分析之后得出的代码为单位，由安全专家随机抽取一定数量的代码，经过人工标注来确认这些与隐私相关的函数语句是否真正包含隐私数据。为了达到训练集合具有足够的覆盖度，样本数据的总体数量应该在千条以上。同时，训练数据集应该确保正负样本（即包含隐私数据代码与不包含隐私数据代码）数量总体相对均衡，从而使分类器达到最佳的精确度。

分类器选择：对于具有良好设计特征向量和合理规范训练样本的数据集而言，各个分类器的表现不会有太大差距。本发明目前选用支持向量机SVM作为本发明的分类器。同时，本发明同样支持使用任意分类器，同时结合上述所提取的程序代码特征对隐私数据进行分类识别，以便在不同的使用场景及分类算法之下实现最佳分类效果。

在完成上述分类器的训练之后，对于给定的程序任意代码片段（某行代码），在经过语义分析之后，通过提取之前所述的代码特征，本发明能够通过分类器判断该代码片段是否真正包含隐私数据。

本发明的有益效果是：本发明提出一种全新的分析角度以及分析方法来识别程序代码当中的用户隐私数据。具体而言，本发明通过使用基于自然语言处理的方式识别代码当中的语义信息定位隐私相关代码片段，同时使用代码结构特征，结合机器学习的方式来判断代码片段中是否真正存在隐私数据。与传统的直接标识固定***API为隐私数据来源，以及分析界面信息确定用户输入隐私数据相比，本发明具有更好的通用性，而且能够识别出更多之前方法无法覆盖的隐私数据。例如来自于远程服务器端，且不会出现在界面当中的隐私。

附图说明

图1：***整体框架图。

具体实施方式

本发明设计并实现了上述的基于自然语言处理与机器学习相结合的全新隐私数据标识方法。本节对该方法的具体实现进行详细的介绍。

一、基于自然语言处理技术的隐私相关语义分析和代码片段定位，

本发明在FlowDroid工具基础上来分析应用。FlowDroid是基于Soot框架实现的成熟安卓应用静态分析工具。利用FlowDroid对应用进行反编译，并获取到应用代码的中间表示(Jimple格式文件)。之后本发明在反编译的Jimple代码中，提取字符串常量，以及方法名，变量名作为所要分析的语义信息来源。同时，针对字符串常量，本发明通过过程内信息流分析，将这些常量标签传递到潜在的变量当中。

针对提取后的常量字符串，本发明使用了基于Java实现的Stanford Parser来进行自然语言处理分析。Stanford Parser是常用的语法解析工具，可以针对某一个句子解析其结构并为句子中不同的分词单元打上词性标签，此外还提供了多个用于展示句子内部各分词单元之间的依赖关系的方法。因此选取其实现词法分析以及依赖关系分析。

二、基于代码特征的隐私相关数据识别

本发明利用从FlowDroid反编译出的代码中间表示进行静态分析，从而提取所需要的5类特征，并利用使用的python实现的Scikit-learn工具包来训练分类器。同时为了训练分类器，本发明从谷歌应用商店上的100个流行应用中，由安全专家随机抽取对判断为隐私相关的函数调用语句进行人工标注。为了平衡正负训练集样本的数量使分类器得到最佳准确度，选取2163个包含隐私数据的正样本以及等量的不包含隐私数据的负样本，共计4326个训练样本作为本方法的训练集。

表1

。

表2

。

附录：隐私相关匹配算法

。

Claims

1.一种基于代码层语义解析驱动的隐私数据识别方法，其特征在于，分为两部分：一是基于自然语言处理技术的隐私相关语义分析和代码片段定位，二是基于机器学习的隐私相关代码片段识别；

（1）定义隐私信息：首先定义一些隐私相关的关键词，并通过文本中是否出现这些关键词来初步判断文本是否为隐私相关；关键词集合由人工筛选提取；

（2）提取语义信息：从反编译的应用代码中提取出字符串常量、函数名称、变量名称；之后对这些得到的语义信息进行预处理操作，包括除掉其中非字母以外的字符，并通过识别这些文本信息中的常用分隔符以及大写字母来将文本分成多个词条；

（3）定位隐私相关语义信息：通过自然语言处理的方式来初步判断这些语义信息是否与隐私相关：依次采用基于关键词的过滤，基于词性的过滤以及基于依赖关系的过滤技术，一步步来提高语义分析的效果：

（3.1）基于关键词的过滤：利用所述的隐私相关的关键词，采用关键词匹配算法来初步判断语义信息是否为隐私相关；所述关键词匹配算法主要通过检查是否存在一个关键词使得它的每一个字符均存在于要处理的文本中，如果存在，则这段文本将会被认为隐私相关，并返回该关键词；

（3.2）基于词性的过滤：语义词性标记用于表示特定的关键词在当前句子当中属于什么样的词性，在分析中，所关注的隐私相关词所对应的词性为名词，当句子中所包含的关键词被识别为名词时，该句子将被进一步做依赖关系的分析；

（3.3）基于依赖关系的过滤：依赖关系用来表明词组在句子之间的组成结构关系，对于短语或句子，通过判断敏感词与其它词组所对应的依赖关系来分析所关注的隐私相关词组是否为该句子的中心；以下为依赖关系满足匹配过滤条件：

（3.3.1）直接描述关系：如果被分析的短语句子中关键词包含直接描述关系，且关键词为名词，则符合预期；

（3.3.2）名词主语关系：如果被分析的短语中关键词与其上下文不包含直接描述关系，但关键词为被从属词，则也符合判断预期；

（3.3.3）否定修饰关系：如果被分析的短语中关键词被一个否定词语修饰，则认为，该关键词和隐私信息无关；

（3.3.4）其它依赖关系：如果关键词仅仅存属于其它依赖关系，则表明其在句子中只起到辅助说明的作用，并不是该句话的主语；

二、基于代码特征的隐私相关数据识别，具体过程如下：

首先，通过信息流分析来找到被语义分析确认为隐私相关的常量字符串或者变量名所流入到的函数调用语句，然后，利用机器学习来判断该函数调用语句是否包含隐私信息；如果一条函数执行语句被识别为隐私相关，则在该代码中所存储数据的变量即包含隐私数据。

2.根据权利要求1所述的基于代码层语义解析驱动的隐私数据识别方法，其特征在于，步骤二中，选取以下五类特征作为识别隐私数据相关代码的模型向量：函数名称，函数参数类型，函数返回值类型，函数调用基准变量类型，函数参数值类型；

所述机器学习的训练集，由经过“隐私相关语义分析和代码片段定位”分析之后得出的代码为单位，由安全专家随机抽取一定数量的代码，经过人工标注来确认这些与隐私相关的函数语句是否真正包含隐私数据；为了使训练集合具有足够的覆盖度，样本数据的总体数量在千条以上；同时，训练数据集应该确保正负样本即包含隐私数据代码与不包含隐私数据代码的数量总体相对均衡，使分类器达到最佳的精确度。

3.根据权利要求2所述的基于代码层语义解析驱动的隐私数据识别方法，其特征在于，从谷歌应用商店上的100个流行应用中，由安全专家随机抽取对判断为隐私相关的函数调用语句进行人工标注；选取4326个训练样本，包括2163个包含隐私数据的正样本以及等量的不包含隐私数据的负样本，作为训练集；

选用支持向量机SVM作为分类器。