CN114037284B

CN114037284B - 基于多层属性网络的App受欢迎度演化结果的预测方法

Info

Publication number: CN114037284B
Application number: CN202111329169.8A
Authority: CN
Inventors: 陈世展; 赵富超
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2024-05-28
Anticipated expiration: 2041-11-10
Also published as: CN114037284A

Abstract

本发明涉及一种基于多层属性网络的App受欢迎度演化结果的预测方法，包括：数据爬取；数据预处理；构建App多层属性网络；阶段四构建用户欢迎度预测模型：根据上述的App多层属性网络，使用DeltaCon算法计算Code层网络的相似度，得到每个版本最新版本的对比结果；将每个版本的Tag层包含的情感倾向数据作为用户的欢迎度，最后通过预测方法计算出最新版本的用户欢迎度的预测结果。

Description

基于多层属性网络的App受欢迎度演化结果的预测方法

技术领域

本发明设计软件工程技术与应用领域，具体讲，涉及基于多层属性网络的安卓App受欢迎度演化结果的预测方法。

背景技术

软件的进化在软件开发中起着越来越重要的作用。程序员很少从头开始构建软件，但是通常会花费更多的时间修改现有的软件，从而向用户提供新的功能并且修复现有软件中的缺陷。演化软件***通常是一个耗时且容易出错的过程。事实上，据报道，一个典型的软件***的90％的成本发生在维护阶段，软件工程的一个主要焦点涉及到与升级，迁移和演化现有软件***有关的问题。软件演化这个术语可以追溯到1976年，当时Belady和Lehman首次创造了这个术语。软件演化是指软件***的动态行为，因为它们在其生命周期中得到维护和增强。随着组织中的***变得更长寿，软件演化就显得尤为重要。

而随着移动互联网的快速发展，软件工程已经发生了巨大的变化。开放源码是软件技术创新和产业发展的主要形式。软件的发展越来越受到现代软件工程的关注，并越来越受到人们的关注。与传统软件相比，手机应用程序在开发模式上有许多新的特点，并有很大的不同。但是，现有软件版本的进化研究大部分集中在桌面编程语言制作的应用程序上，到目前为止几乎没有关于基于移动终端的App版本的进化的研究。随着移动App的流行，由于应用程序市场的激烈竞争，开发人员的维护已经变得非常重要。确保应用程序不断开发和正常工作。为了提高应用程序的质量，开发人员必须不断地更新应用程序的版本。为了减少应用程序的生产开发成本。应用程序管理人员必须了解进化应用程序的因素。了解应用程序功能的演变可能有助于开发人员降低维护成本，提高应用程序的利用可能性。

近年来，大量存储了开放应用、软件历史修正信息等元数据。为软件项目开发的维护管理提供强有力的支持。像Github这样的开放源软件平台，为的下一个实验提供了很多参考。2004年以来，网络信息的生成方式发生了翻天覆地的变化，批量上传数据取代了传统的网络平台生成的数据，即群智数据——用户群体通过各种参与模式贡献的数据。GooglePlay等应用商店的用户可以对自己的使用情况、设置偏好等进行评论，也可以对应用进行评分和评价，这些信息是通过大量应用用户产生的典型情报群体的一部分，数据是收集和分析的数据可以帮助了解应用程序属性的演变。

现有技术至少存在以下缺点：

(1)目前已有的软件版本的进化研究大部分集中在传统应用程序上，但是关于移动终端App的版本发展的研究很少。现有的软件进化研究不能很好地反映应用程序开发的实际情况。

(2)现有的进化研究视角单一。大部分研究集中在软件进化的how论点和软件内部的源代码变化上，对软件进化的what和why观点关注较少。也就是说，缺乏对与软件用户交互的研究。

针对以上的问题，本发明提出一种对Android App新发布版本的用户欢迎度进行预测的方法。收集演化过程中的源代码变化和群智数据的主题，基于图的相似度对新版本的欢迎度进行预测，降低软件维护的成本。

发明内容

本发明旨在提出一种App受欢迎度演化结果的预测方法。在该框架下，用户提供一个需要预测的手机应用程序App，***首先爬取App源代码变更历史和应用市场中的用户评论等群智数据，为每个版本构建包含Code层、App层和Tag层的多层属性网络，根据每个版本的属性网络的相似度，最终输出一个最新版本的用户欢迎度预测结果，节约维护时间和成本。技术方案如下：

一种基于多层属性网络的App受欢迎度演化结果的预测方法，包括如下的步骤：

阶段一数据爬取：通过开源软件版本控制***应用程序编程接口GithubApi爬取演化历史数据，通过安卓移动软件应用市场GooglePlay的用户Token爬取用户评论。

阶段二数据预处理：对于Github中的源代码历史数据，综合考虑其在GooglePlay中的用户评论，抽取其中用户评论等数据足够的对应版本，并对爬取到的自然语言进行数据清洗。

阶段三构建App多层属性网络：根据源代码数据，生成应用程序中每个函数的控制流图，从发放调用节点提取调用信息和被调用信息，最后生成Code层的函数调用图；根据源代码数据，获取相邻两个版本的文档相似度，LDA提取每个文档的主题，获取到该版本代码的主题集合，最后与该版本的元数据构成App层网络；根据GooglePlay中的用户评论等数据，使用LDA提取出用户评论的标签，以及该评论对应的情感倾向，最后映射到WordNet网络中，生成Tag层网络。

阶段四构建用户欢迎度预测模型：根据上述的App多层属性网络，使用DeltaCon算法计算Code层网络的相似度，得到每个版本最新版本的对比结果；将每个版本的Tag层包含的情感倾向数据作为用户的欢迎度，最后通过预测方法计算出最新版本的用户欢迎度的预测结果。

优选地，阶段三构建App多层属性网络的具体步骤如下：

(1)构建Code层：在生成控制流图CFG的基础上生成函数调用图，每个函数的CFG中的每一个结点，都对应程序中的每一条语句，每一个结点对象具有属性，包括是否是分支判断结点，是否是被调用结点，是否是出口结点；每一个结点会记录其所属函数是哪一个。遍历CFG中的结点可得知哪个结点存在调用与被调用关系，即找到函数调用结点，提取出调用函数和被调用函数的信息，并将被调用函数结点和调用函数结点存储于邻接链表，生成函数调用图。

(2)构建App层：对于APP层，其中的版本号、发布时间等元数据信息可以在数据获取时从网络中抓取出来，每个版本的软件特征则通过在github中增量更新的代码中提取出来；比较该版本与上一个版本的源代码，使用Levenshtein距离来判断两个版本的源代码文档是否相似，如果两个文档相似度超过0.98，认为是重复文档，并且把它们删除。对剩下的没有重复的文档进行主题提取来获得该版本的软件特征，并清洗掉文档中包含的许多与编程语言语法相关的字符和关键字。然后使用LDA从每个文档的实体标识符和代码注释提取出源代码的关键词，这些代码关键词的集合就构成了每个版本的软件特征。

(3)构建Tag层：使用python的gensim包来实现LDA模型，对每个评论都提取出主题词，而这些所有的评论提取出的主题词经过去重之后则构成标签集合。对于app的每个版本所得到的标签集合，通过wordnet中的同义词集将每个标签还原为元单词，这些元单词在wordnet中都能找到对应的映射节点。通过标签和wordnet的节点匹配，得到app的每个版本所对应的标签网络。

优选地，阶段四构建用户欢迎度预测模型：具体步骤如下：

对于app的两个版本版本，计算这两个版本的函数调用图的类似度，使用DeltaCon算法计算图形的类似度。该算法主要通过比较两个图中相同节点的连接性来计算两个图之间的相似性利用app多层属性网络中的code层，首先使用置信度传播算法来计算code层中成对节点的影响度，生成这两个相邻版本的code层影响度矩阵，然后，计算这两个矩阵的根欧距离，确定这两个图中相同节点影响分数的差，最后将其整合到这两个版本的code层的类似分数；

对于app的所有版本，都要计算其与最新版本的相似度分数，在app的多层属性网络中，其中的tag层包含了从应用市场的用户评论的提取出的关键词，这些标签也都被标注了各自的情感倾向，统计其中正向标签的占比，以此作为该app版本的受欢迎度。计算每个版本与最新版本的相似比与欢迎度的乘积，归一化后得到对于最新版本App的用户欢迎度的预测值。

附图说明

图1为本发明所述新版本用户欢迎度预测整体框架图。

图2为本发明所述测试使用App列表。

图3为本发明所述App属性网络中的第一层。

图4位本发明所述App属性网络中的第三层。

图5为本发明所述预测用户欢迎度的示意图。

具体实施方式

为克服现有技术的不足，本发明旨在提出一种安卓App受欢迎度演化结果的预测方法。在该框架下，用户提供一个需要预测的手机应用程序App，***首先爬取App源代码变更历史和应用市场中的用户评论等群智数据，为每个版本构建包含Code层、App层和Tag层的多层属性网络，根据每个版本的属性网络的相似度，最终输出一个最新版本的用户欢迎度预测结果，节约维护时间和成本。

发明方法的具体执行流程如下：

阶段二数据预处理：对于Github中的源代码历史数据，综合考虑其在GooglePlay中的用户评论，抽取其中用户评论等信息足够的对应版本。并对爬取到的自然语言进行数据清洗。

阶段三构建App多层属性网络：根据源代码数据，生成应用程序中每个函数的控制流图，从函数调用节点提取调用信息和被调用信息，最后生成Code层的函数调用图；根据源代码数据，获取相邻两个版本的文档相似度，LDA提取每个文档的主题，获取到该版本代码的主题集合，最后与该版本的元数据构成App层网络；根据GooglePlay中的群智数据，LDA提取出用户评论的标签，以及该评论对应的情感倾向，最后映射到WordNet网络中，生成Tag层网络。

阶段四构建用户欢迎度预测模型：根据上述的App多层属性网络，使用DeltaCon算法计算Code层网络的相似度，得到每个版本最新版本的对比结果；将每个版本的Tag层包含的情感倾向数据作为用户的欢迎度，最后通过预测算法模型计算出最新版本的用户欢迎度的预测结果。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

步骤一数据收集

数据收集是第一主要阶段，从Github中选择8种Android语言制作的移动终端应用项目，从各个Github存储设备中获取了需要的源代码和历史提交信息。对于这些在GooglePlay中上架的开源APP，爬取所有用户的注释数据和评分信息。在8中Android App上进行了实验，所选取的App见图2。

数据爬取：

(1)关于实验数据集的各应用程序，按照类似的元数据信息和源代码版本的历史取得步骤，取得github用户的个人访问令牌。然后通过github的GraphQL API来获取某个app的所有的历史版本的tag，GraphQL是由Facebook推出的一种接口查询语言，可以正确定义所需的数据，无冗余，通过GraphQL，只需要一次请求就可以获得多个REST请求所获得的数据。根据各个版本的tag名称，就可以得到每个版本的修改信息及源代码下载地址。

(2)要获得GooglePlay所有用户的评论，首先要获取该应用的Google Play的地址。用户的评论等信息将通过json数据的格式发送到前端，因此可以通过应用的主页地址获得用户的评论。通过GoolePlay的设定，各页最多只能显示200条评论。需要通过各页的检索，抓取所有用户的评论的json数据。

数据预处理：

(1)对于Goolge Play中的用户评论的数据，需要对其进行数据清洗，因为此时的评论数据包括英文、中文等其他语言。因为进行的是英语的文本分析，所以需要过滤不是英语的评论。这个步骤使用lang detect进行语言检查。

(2)在过滤了非英语的评论后，英语的评论中还存在着中文文字、标点符号、表情等混合在一起的特殊文字。希望数据分析的最小单位粒度是单词。对于英语语料来说，英语语句的最小单位是单词。这里使用nltk工具包的分词器进行token化操作。

(3)停止词stopword是指对于研究目标没有任何共同吸引作用的词语。比如Hello、am、is等，也有标点符号。这些不想在文本分析时导入，所以需要删除。

步骤二生成App多层属性网络

(1)构建Code层：在生成控制流图(CFG)的基础上生成函数调用图，每个函数的CFG中的每一个结点，都对应程序中的每一条语句(假设每一句代码占用一行)。每一个结点对象都具有一些属性，例如是否是分支判断结点，是否是被调用结点，是否是出口结点。同时每一个结点会记录其所属方法是哪一个。因此，遍历CFG中的结点就可得知哪个结点存在调用与被调用关系，即找到函数调用结点，提取出调用函数和被调用函数的信息。并将被调用函数结点和调用函数结点存储于邻接链表，生成函数调用图。见图3。

(2)构建App层：对于APP层，其中的版本号、发布时间等元数据信息可以在数据获取时从网络中抓取出来。每个版本的软件特征则通过在github中增量更新的代码中提取出来，比较该版本与上一个版本的源代码，使用Levenshtein距离来判断两个版本的源代码文档是否相似，如果两个文档相似度超过0.98，就认为它们是重复文档，并且把它们删除。对剩下的没有重复的文档进行主题提取来获得该版本的软件特征，并清洗掉文档中包含的许多与编程语言语法相关的字符和关键字。然后使用LDA从每个文档的实体标识符和代码注释提取出源代码的关键词，这些代码关键词的集合就构成了每个版本的软件特征。

(3)构建Tag层：使用python的gensim包来实现LDA模型，对每个评论都提取出了三个主题词，而这些所有的评论提取出的主题词经过去重之后则构成了的标签集合。对于app的每个版本所得到的标签集合，通过wordnet中的同义词集将每个标签还原为元单词，这些元单词在wordnet中都能找到对应的映射节点。通过简单的标签和wordnet的节点匹配，见图4，这样便可以得到app的每个版本所对应的标签网络。

步骤三对新版本欢迎度进行预测

对于app的两个版本版本，计算这两个版本的函数调用图的类似度，见图5。在此使用DeltaCon算法计算图形的类似度。该算法主要通过比较两个图中相同节点的连接性来计算两个图之间的相似性。利用app多层属性网络中的code层，首先使用置信度传播算法来计算code层中成对节点的影响度，生成这两个相邻版本的code层影响度矩阵，然后，计算这两个矩阵的根欧距离，确定这两个图中相同节点影响分数的差，最后将其整合到这两个版本的code层的类似分数。

对于app的所有版本，都要计算其与最新版本的相似度分数。在app的多层属性网络中，其中的tag层包含了从应用市场的用户评论的提取出的关键词，这些标签也都被标注了各自的情感倾向，需要统计其中正向标签的占比，以此作为该app版本的受欢迎度。计算每个版本与最新版本的相似比与欢迎度的乘积，归一化后得到对于最新版本App的用户欢迎度的预测值。

Claims

1.一种基于多层属性网络的App受欢迎度演化结果的预测方法，包括如下的步骤：

阶段一数据爬取：通过开源软件版本控制***应用程序编程接口GithubApi爬取演化历史数据，通过安卓移动软件应用市场GooglePlay的用户Token爬取用户评论；

阶段二数据预处理：对于Github中的源代码历史数据，综合考虑其在GooglePlay中的用户评论，抽取其中用户评论数据足够的对应版本，并对爬取到的自然语言进行数据清洗；

阶段三构建App多层属性网络：根据源代码数据，生成应用程序中每个函数的控制流图，从发放调用节点提取调用信息和被调用信息，最后生成Code层的函数调用图；根据源代码数据，获取相邻两个版本的文档相似度，LDA提取每个文档的主题，获取到该版本代码的主题集合，最后与该版本的元数据构成App层网络；根据GooglePlay中的用户评论数据，使用LDA提取出用户评论的标签，以及该评论对应的情感倾向，最后映射到WordNet网络中，生成Tag层网络，方法如下：

(1)构建Code层：在生成控制流图CFG的基础上生成函数调用图，每个函数的CFG中的每一个结点，都对应程序中的每一条语句，每一个结点对象具有属性，包括是否是分支判断结点，是否是被调用结点，是否是出口结点；每一个结点会记录其所属函数是哪一个；遍历CFG中的结点得出哪个结点存在调用与被调用关系，即找到函数调用结点，提取出调用函数和被调用函数的信息，并将被调用函数结点和调用函数结点存储于邻接链表，生成函数调用图；

(2)构建App层：对于APP层，其中的版本号、发布时间元数据信息在数据获取时从网络中抓取出来，每个版本的软件特征则通过在github中增量更新的代码中提取出来；比较该版本与上一个版本的源代码，使用Levenshtein距离来判断两个版本的源代码文档是否相似，如果两个文档相似度超过0.98，认为是重复文档，并且把它们删除；对剩下的没有重复的文档进行主题提取来获得该版本的软件特征，并清洗掉文档中包含的许多与编程语言语法相关的字符和关键字；然后使用LDA从每个文档的实体标识符和代码注释提取出源代码的关键词，这些代码关键词的集合就构成了每个版本的软件特征；

(3)构建Tag层：使用python的gensim包来实现LDA模型，对每个评论都提取出主题词，而这些所有的评论提取出的主题词经过去重之后则构成标签集合；对于app的每个版本所得到的标签集合，通过wordnet中的同义词集将每个标签还原为元单词，这些元单词在wordnet中都能找到对应的映射节点；通过标签和wordnet的节点匹配，得到app的每个版本所对应的标签网络；

阶段四构建用户欢迎度预测模型：根据上述的App多层属性网络，使用DeltaCon算法计算Code层网络的相似度，得到每个版本最新版本的对比结果；将每个版本的Tag层包含的情感倾向数据作为用户的欢迎度，最后通过预测方法计算出最新版本的用户欢迎度的预测结果，方法如下：

对于app的两个版本版本，计算这两个版本的函数调用图的类似度，使用DeltaCon算法计算图形的类似度；该算法通过比较两个图中相同节点的连接性来计算两个图之间的相似性利用app多层属性网络中的code层，首先使用置信度传播算法来计算code层中成对节点的影响度，生成这两个相邻版本的code层影响度矩阵，然后，计算这两个矩阵的根欧距离，确定这两个图中相同节点影响分数的差，最后将其整合到这两个版本的code层的类似分数；

对于app的所有版本，都要计算其与最新版本的相似度分数，在app的多层属性网络中，其中的tag层包含了从应用市场的用户评论的提取出的关键词，这些标签也都被标注了各自的情感倾向，统计其中正向标签的占比，以此作为该app版本的受欢迎度；计算每个版本与最新版本的相似比与欢迎度的乘积，归一化后得到对于最新版本App的用户欢迎度的预测值。