CN108108184A - 一种基于深度信念网络的源代码作者识别方法 - Google Patents

一种基于深度信念网络的源代码作者识别方法 Download PDF

Info

Publication number
CN108108184A
CN108108184A CN201711380042.2A CN201711380042A CN108108184A CN 108108184 A CN108108184 A CN 108108184A CN 201711380042 A CN201711380042 A CN 201711380042A CN 108108184 A CN108108184 A CN 108108184A
Authority
CN
China
Prior art keywords
source code
code file
author
belief network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711380042.2A
Other languages
English (en)
Other versions
CN108108184B (zh
Inventor
张春霞
王森
武嘉玉
王树良
牛振东
张佳籴
黄达友
张沛炎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN108108184A publication Critical patent/CN108108184A/zh
Application granted granted Critical
Publication of CN108108184B publication Critical patent/CN108108184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/74Reverse engineering; Extracting design information from source code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度信念网络的源代码作者识别方法,属于Web挖掘和信息抽取领域。本发明包括如下步骤:构建源代码数据集,对源代码数据进行预处理;基于连续n‑gram代码段模型提取源代码特征;基于训练源代码文件样本训练深度信念网络模型;利用经过训练的深度信念网络模型进行源代码文件的作者识别,输出源代码文件的作者识别结果。本发明将源代码作者识别问题转换为分类问题,通过深度信念网络识别源代码的作者身份,提高了作者身份识别的性能和效率,在信息检索、信息安全、计算机取证等领域具有广阔的应用前景。

Description

一种基于深度信念网络的源代码作者识别方法
技术领域
本发明涉及一种基于深度信念网络的源代码作者识别方法,属于Web挖掘和信息抽取领域。
背景技术
现有的源代码作者身份识别方法主要包括排序方法、统计分析方法、浅层结构机器学习分类方法,以及相似度度量方法。
基于排序方法的源代码作者识别包括基于信息检索的排序方法、基于作者画像的排序方法。基于信息检索的排序方法的核心思想是指利用信息检索技巧来进行源代码作者身份识别。首先,将源代码转换为运算符和关键词等字符串序列;其次,将字符串序列转换为n-gram序列;然后,对所有源代码构建索引;最后,检索作者未知的源代码,将排在检索结果前面的若干个源代码的作者作为该源代码的作者。基于作者画像的排序方法中,首先构建作者画像,由作者编写的源代码集合中若干个高频n-gram序列构成;然后,计算作者未知的源代码与每个作者画像中共同出现的n-gram序列的数目,将数目最大的作者画像的作者作为源代码的作者。
基于统计分析方法主要采用多组判别分析(Multiple Discriminant Analysis)和典型判别分析(Canonical Discriminant Analysis)来识别源代码作者身份。基于浅层结构机器学习分类方法是指主要采用支持向量机或贝叶斯等分类器来识别源代码作者身份。基于相似度度量方法是指通过计算作者未知的源代码与作者已知的源代码的相似度进行源代码作者身份识别。
目前采用深度学习进行源代码作者身份识别的研究工作较少。深度信念网络是深度学习领域的一种神经网络模型。由一个输入层、若干个隐藏层和一个输出层构成。隐藏层包括若干个受限玻尔兹曼机RBM(Restricted Boltzmann Machines)和一个反向转播层BP(Back Propagation)。每个受限玻尔兹曼机由一个可见层和一个隐藏层构成。可见层和隐藏层之间的神经元是全连接的,即可见层的任一神经元都和隐藏层的任一神经元相连。位于可见层或隐藏层内部的神经元是独立的,任意两个神经元之间都是互相不连接的。深度信念网络已经广泛应用于图像识别、语音识别和文本处理等领域。
发明内容
现有的源代码作者身份识别包括排序方法、统计分析方法、浅层结构机器学习分类方法,以及相似度度量方法。目前采用深度学习技术进行源代码作者身份识别的研究工作较少。
本发明的目的在于提出一种基于深度信念网络的源代码作者识别方法,该方法根据给定的候选作者及其编写的源代码文件集合,判别作者未知的源代码文件的作者身份。本方法的特点是:其一,将源代码作者身份识别问题转化为分类问题,源代码作者识别方法具有较强的鲁棒性;其二,通过一种深度学习模型即深度信念网络模型来识别源代码的作者身份,提高了作者身份识别的性能。
一种基于深度信念网络的源代码作者识别方法,包括如下步骤:
步骤1:由源代码数据获取模块构建源代码数据集,对源代码数据进行预处理;
从源代码网站采集源代码,并将其保存到计算机;对采集的源代码进行预处理,获取源代码作者及其编写的源代码文件集合;
步骤2:对于源代码文件,源代码特征提取模块采用基于连续n-gram代码段模型的方法提取源代码特征;
代码段是指源代码中被空白、空格或换行符隔开的字段串。代码段包括程序设计语言的关键词、运算符、标点符号、用户定义的标识符或它们的组合。用户定义的标识符包括变量名、属性名、函数名、方法名和类名;
连续n-gram代码段模型也称连续n元代码段模型。基于连续n-gram代码段模型的方法提取源代码特征是指从源代码中提取连续n个代码段的序列,n为正整数。例如,从源代码文件中获取的代码段序列为:s1,s2,s3,…,sm,m为整数,则提取的基于代码段型连续3-gram模型的特征为:
s1,s2,s3
s2,s3,s4
s3,s4,s5
……;
sm-3,sm-2,sm-1
sm-2,sm-1,sm
步骤3,基于训练源代码文件样本,由深度信念网络模型训练模块训练深度信念网络模型;
步骤3.1,构建训练源代码文件样本;
对源代码数据集中的p个作者a1,a2,…,ap,p为正整数,从数据集中选取每个作者的源代码文件作为训练源代码文件样本。设选取的由作者a1,a2,…,ap编写的源代码文件数量依次为m1,m2,…,mp,m1,m2,…,mp为正整数;
步骤3.2,构建训练源代码文件样本的特征向量;
对于源代码数据集的所有源代码文件,设提取的基于连续n-gram代码段模型的特征数目为N,N为正整数;对于每个源代码文件,构建特征向量,其特征向量由N个特征在该文件中的出现频率的倍数构成;
步骤3.3,构建深度信念网络模型的输入层的输入矩阵;
对训练源代码文件样本,构建MxN维矩阵A,把矩阵A输入深度信念网络模型的输入层。其中N为每个训练源代码文件的特征向量的维数,即步骤3.2中提取的特征数目;M为作者a1,a2,…,ap的训练源代码文件数量之和,即M=m1+m2+…+mp,m1,m2,…,mp依次为作者a1,a2,…,ap的训练源代码文件数量;
步骤3.4,进入深度信念网络模型的隐藏层,通过隐藏层学习抽象度更高和区分性更强的源代码文件的特征向量;
深度信念网络模型包括输入层、隐藏层和输出层构成。隐藏层包括若干受限玻尔兹曼机和反向传播层;
对于第一个受限玻尔兹曼机,其可见层为步骤3.3构建的输入矩阵A。设深度信念网络模型包含w个受限玻尔兹曼机,对于第二个至第w个受限玻尔兹曼机,第k个受限玻尔兹曼机的隐藏层即为第k+1个受限玻尔兹曼机的可见层,其中,w为正整数,k=1,…,w-1;
依次单独训练这w个受限玻尔兹曼机的参数,参数包括可见层任一单元与隐藏层任一单元的连接权重、可见层单元的阈值,以及隐藏层单元的阈值;
步骤3.5,进入深度信念网络模型的反向传播层,对w个受限玻尔兹曼机的参数进行微调;
首先,通过反向传播层和输出层获得目标预测标签与实际标签之间的误差。然后,把该误差从反向传播层向隐藏层传播,即向隐藏层的w个受限玻尔兹曼机传播,不断调整受限玻尔兹曼机的参数,使得误差尽可能最小;
步骤4,源代码作者身份识别模块采用基于深度信念网络模型的方法进行源代码作者识别:
步骤4.1,构建测试源代码文件样本的特征向量;
对于测试源代码文件样本,通过步骤3.2构建测试源代码文件样本的特征向量;
步骤4.2:利用经过训练的深度信念网络模型对测试源代码文件样本进行作者身份识别。也就是,通过深度信念网络模型的输出层,输出源代码文件的作者识别结果;
测试源代码文件样本的候选作者集合为训练源代码文件样本的作者集合{a1,a2,…,ap}。将深度信念网络模型输出层的输出向量,转化为每个源代码文件的作者类别标签,也就是,识别出了每个源代码文件的作者;
至此,就完成了本方法的全部过程。
基于上述方法构建的一种基于深度信念网络的源代码作者识别***,包括源代码数据获取模块、源代码特征提取模块、深度信念网络模型训练模块,以及源代码作者身份识别模块。源代码数据获取模块与源代码特征提取模块相连。源代码特征提取模块与深度信念网络模型训练模块相连。深度信念网络模型训练模块与源代码作者身份识别模块相连;
所述源代码数据获取模块用于构建源代码数据集,对源代码数据进行预处理;
所述源代码特征提取模块用于对所述源代码获取模块处理后的源代码文件进行特征提取;
所述深度信念网络模型训练模块用于对所述源代码特征提取模块提取的源代码特征来构建训练源代码文件样本的特征向量,进而训练深度信念网络模型;
所述源代码作者身份识别模块用于对所述深度信念网络模型训练模块训练的深度信念网络模型进行测试源代码文件样本的作者身份识别,输出源代码文件的作者类别标签。
有益效果
本发明的方法,针对现有源代码作者身份识别方法以排序方法、浅层结构机器学习分类方法、统计分析方法和相似度度量方法为主,采用深度学习方法的研究工作较少等问题,提供一种基于深度信念网络的源代码作者识别方法,能够提高源代码作者识别的性能。与现有技术相比,该方法具有如下特点:
(1)源代码选自源代码开源网站,本发明的源代码识别方法具有实时性。
(2)本发明将源代码作者识别问题转换为分类问题,通过深度信念网络识别源代码的作者身份。一方面,深度信念网络将源代码特征学习和作者身份识别融为一体,提高了源代码作者识别的效率。另一方面,对处理不同来源和不同编程语言的源代码具有较强的鲁棒性,能够动态地更新输入深度信念网络的源代码文件的特征向量,提高了源代码作者识别方法的灵活性。
(3)深度信念网络是一种非线性的深层网络结构,能够实现复杂函数逼近,获得抽象度更高和区分性更强的源代码特征,从而提高了源代码作者身份识别的性能。
(4)在信息检索、信息安全、计算机取证等领域具有广阔的应用前景。
附图说明
图1为本发明实施例一种源代码作者识别的流程示意图;
图2为本发明实施例一种源代码作者识别***的组成结构示意图。
具体实施方式
下面结合实施例对本发明方法的优选实施方式进行详细说明。
实施例
本实施例叙述了采用本发明所述的一种基于深度信念网络的源代码作者识别方法的流程,如图1所示。
从图1可以看出,具体包括如下步骤:
步骤1),由源代码数据获取模块构建源代码数据集,对源代码数据进行预处理;
从源代码网站采集源代码,并将其保存到本地计算机。其中,源代码网站可以是github网站,网址是https://github.com/;
对采集的源代码进行预处理,获取源代码作者及其编写的源代码文件集合;
步骤2),对于源代码文件,源代码特征提取模块采用基于连续n-gram代码段模型的方法提取源代码特征;
代码段是指源代码中被空白、空格或换行符隔开的字段串。代码段包括程序设计语言的关键词、运算符、标点符号、用户定义的标识符或它们的组合。用户定义的标识符包括变量名、属性名、函数名、方法名和类名;
连续n-gram代码段模型也称连续n元代码段模型。基于连续n-gram代码段模型的方法提取源代码特征是指从源代码中提取连续n个代码段的序列,n为正整数。例如,从源代码文件中获取的代码段序列为:s1,s2,s3,…,sm,m为整数,则提取的基于代码段型连续3-gram模型的特征为:
s1,s2,s3
s2,s3,s4
s3,s4,s5
……;
sm-3,sm-2,sm-1
sm-2,sm-1,sm
例如,对于源代码“private static final int clockUpdateDelay=10;”,提取的基于代码段型连续3-gram模型的特征为“private static final;static final int;final int clockUpdateDelay;int clockUpdateDelay=;clockUpdateDelay=10;”;
步骤3),基于训练源代码文件样本,深度信念网络模型训练模块训练深度信念网络模型;
步骤3).1,构建训练源代码文件样本;
对源代码数据集中的p个作者a1,a2,…,ap,p为正整数,从数据集中选取每个作者的源代码文件作为训练源代码文件样本。设选取的由作者a1,a2,…,ap编写的源代码文件数量依次为m1,m2,…,mp,m1,m2,…,mp为正整数;
步骤3).2,构建训练源代码文件样本的特征向量;
对于源代码数据集的所有源代码文件,设提取的基于连续n-gram代码段模型的特征数目为N,N为正整数。对于每个源代码文件,构建特征向量,其特征向量由N个特征在该文件中的出现频率的倍数构成;
步骤3).3,构建深度信念网络模型的输入层的输入矩阵;
对训练源代码文件样本,构建MxN维矩阵A,把矩阵A输入深度信念网络模型的输入层。其中N为每个训练源代码文件的特征向量的维数,即步骤3).2中提取的特征数目;M为作者a1,a2,…,ap的训练源代码文件数量之和,即M=m1+m2+…+mp,m1,m2,…,mp依次为作者a1,a2,…,ap的训练源代码文件数量;
步骤3).4,进入深度信念网络模型的隐藏层,通过隐藏层学习抽象度更高和区分性更强的源代码文件的特征向量;
深度信念网络模型包括输入层、隐藏层和输出层构成。隐藏层包括若干受限玻尔兹曼机和反向传播层;
对于第一个受限玻尔兹曼机,其可见层为步骤3).3构建的输入矩阵A。设深度信念网络模型包含w个受限玻尔兹曼机,对于第二个至第w个受限玻尔兹曼机,第k个受限玻尔兹曼机的隐藏层即为第k+1个受限玻尔兹曼机的可见层,其中,w为正整数,k=1,…,w-1;
依次单独训练这w个受限玻尔兹曼机的参数,参数包括可见层任一单元与隐藏层任一单元的连接权重、可见层单元的阈值,以及隐藏层单元的阈值;
步骤3).5,进入深度信念网络模型的反向传播层,对w个受限玻尔兹曼机的参数进行微调;
首先,通过反向传播层和输出层获得目标预测标签与实际标签之间的误差。然后,把该误差从反向传播层向隐藏层传播,即向隐藏层的w个受限玻尔兹曼机传播,不断调整受限玻尔兹曼机的参数,使得误差尽可能最小;
步骤4),源代码作者身份识别模块采用基于深度信念网络模型的方法进行源代码作者识别:
步骤4).1,构建测试源代码文件样本的特征向量;
对于测试源代码文件样本,通过步骤3).2构建测试源代码文件样本的特征向量;
步骤4).2:利用经过训练的深度信念网络模型对测试源代码文件样本进行作者身份识别。也就是,通过深度信念网络模型的输出层,输出源代码文件的作者识别结果;
测试源代码文件样本的候选作者集合为训练源代码文件样本的作者集合{a1,a2,…,ap}。将深度信念网络模型输出层的输出向量,转化为每个源代码文件的作者类别标签,也就是,识别出了每个源代码文件的作者;
至此,从步骤1)到步骤4),完成了一种基于深度信念网络的源代码作者识别方法。
基于上述方法构建的一种基于深度信念网络的源代码作者识别***,包括源代码数据获取模块、源代码特征提取模块、深度信念网络模型训练模块,以及源代码作者身份识别模块。源代码数据获取模块与源代码特征提取模块相连。源代码特征提取模块与深度信念网络模型训练模块相连。深度信念网络模型训练模块与源代码作者身份识别模块相连;
所述源代码数据获取模块用于构建源代码数据集,对源代码数据进行预处理;
所述源代码特征提取模块用于对所述源代码获取模块处理后的源代码文件进行特征提取;
所述深度信念网络模型训练模块用于对所述源代码特征提取模块提取的源代码特征来构建训练源代码文件样本的特征向量,进而训练深度信念网络模型;
所述源代码作者身份识别模块用于对所述深度信念网络模型训练模块训练的深度信念网络模型进行测试源代码文件样本的作者身份识别,输出源代码文件的作者类别标签。
为说明本发明的源代码作者识别效果,本实验是在同等条件下,以相同的训练集和测试集分别采用两种方法进行比较。第一种方法是基于决策树的源代码作者识别方法,第二种方法是本发明的基于深度信念网络的源代码作者识别方法。采用的评测指标为精度(Accuracy),计算公式为:
其中,N1为被正确识别作者身份的源代码文件的数量,N2为所有识别作者身份的源代码文件的数量。
源代码作者识别结果为:已有技术的基于决策树的源代码作者识别方法的精度约为91%,采用本发明方法的精度约为93%,通过实验表明了本发明提出的基于深度信念网络的源代码作者识别方法的有效性。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (1)

1.一种基于深度信念网络的源代码作者识别方法,包括如下步骤:
步骤1:由源代码数据获取模块构建源代码数据集,对源代码数据进行预处理;
步骤2:对于源代码文件,源代码特征提取模块采用基于连续n-gram代码段模型的方法提取源代码特征;
步骤3:基于训练源代码文件样本,由深度信念网络训练模块训练深度信念网络模型;
步骤4:源代码作者身份识别模块采用基于深度信念网络模型的方法进行源代码作者识别。
所述步骤1中,包括:采集源代码将其保存到计算机,获取源代码作者及其编写的源代码文件集合。
所述步骤2中,包括:
连续n-gram代码段模型也称连续n元代码段模型;基于连续n-gram代码段模型的方法提取源代码特征是指从源代码文件中提取连续n个代码段的序列,n为正整数;代码段是指源代码中被空白、空格或换行符隔开的字段串;代码段包括程序设计语言的关键词、运算符、标点符号、用户定义的标识符或它们的组合。
所述步骤3中,包括:
步骤3.1,构建训练源代码文件样本;
对源代码数据集中的p个作者a1,a2,…,ap,p为正整数,从源代码数据集中选取每个作者的源代码文件作为训练源代码文件样本;设选取的由作者a1,a2,…,ap编写的源代码文件数量依次为m1,m2,…,mp,m1,m2,…,mp为正整数;
步骤3.2,构建训练源代码文件样本的特征向量;
对于源代码数据集的所有源代码文件,设提取的基于连续n-gram代码段模型的特征数目为N,N为正整数;对于每个源代码文件,构建特征向量,其特征向量由N个特征在该文件中的出现频率的倍数构成;
步骤3.3,构建深度信念网络模型的输入层的输入矩阵;
对训练源代码文件样本,构建MxN维矩阵A,把矩阵A输入深度信念网络模型的输入层。其中N为每个训练源代码文件的特征向量的维数,即步骤3.2中提取的特征数目;M为作者a1,a2,…,ap的训练源代码文件数量之和,即M=m1+m2+…+mp,m1,m2,…,mp依次为作者a1,a2,…,ap的训练源代码文件数量;
步骤3.4,进入深度信念网络模型的隐藏层,通过隐藏层学习抽象度更高和区分性更强的源代码文件的特征向量;
深度信念网络模型包括输入层、隐藏层和输出层构成;隐藏层包括若干受限玻尔兹曼机和反向传播层;
对于第一个受限玻尔兹曼机,其可见层为步骤3.3构建的输入矩阵A。设深度信念网络模型包含w个受限玻尔兹曼机,对于第二个至第w个受限玻尔兹曼机,第k个受限玻尔兹曼机的隐藏层即为第k+1个受限玻尔兹曼机的可见层,其中,w为正整数,k=1,…,w-1;
依次单独训练这w个受限玻尔兹曼机的参数,参数包括可见层任一单元与隐藏层任一单元的连接权重、可见层单元的阈值,以及隐藏层单元的阈值;
步骤3.5,进入深度信念网络模型的反向传播层,对w个受限玻尔兹曼机的参数进行微调。
首先,通过反向传播层和输出层获得目标预测标签与实际标签之间的误差。然后,把该误差从反向传播层向隐藏层传播,即向隐藏层的w个受限玻尔兹曼机传播,不断调整受限玻尔兹曼机的参数,使得误差尽可能最小。
所述步骤4中,包括:
步骤4.1,构建测试源代码文件样本的特征向量;
对于测试源代码文件样本,通过步骤3.2构建测试源代码文件样本的特征向量;
步骤4.2:利用经过训练的深度信念网络模型对测试源代码文件样本进行作者身份识别。也就是,通过深度信念网络模型的输出层,输出源代码文件作者识别结果;
测试源代码文件样本的候选作者集合为训练源代码文件样本的作者集合{a1,a2,…,ap}。将深度信念网络模型输出层的输出向量,转化为每个源代码文件的作者类别标签,也就是,识别出了每个源代码文件的作者。
CN201711380042.2A 2017-03-07 2017-12-20 一种基于深度信念网络的源代码作者识别方法 Active CN108108184B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710130663 2017-03-07
CN2017101306639 2017-03-07

Publications (2)

Publication Number Publication Date
CN108108184A true CN108108184A (zh) 2018-06-01
CN108108184B CN108108184B (zh) 2020-12-04

Family

ID=62210286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711380042.2A Active CN108108184B (zh) 2017-03-07 2017-12-20 一种基于深度信念网络的源代码作者识别方法

Country Status (1)

Country Link
CN (1) CN108108184B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059180A (zh) * 2019-03-13 2019-07-26 百度在线网络技术(北京)有限公司 文章作者身份识别及评估模型训练方法、装置及存储介质
CN110489551A (zh) * 2019-07-16 2019-11-22 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN112926321A (zh) * 2021-04-12 2021-06-08 常州微亿智造科技有限公司 一种基于神经网络框架的文学作品作者识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150066496A1 (en) * 2013-09-02 2015-03-05 Microsoft Corporation Assignment of semantic labels to a sequence of words using neural network architectures
CN106096415A (zh) * 2016-06-24 2016-11-09 康佳集团股份有限公司 一种基于深度学习的恶意代码检测方法及***
CN106096005A (zh) * 2016-06-23 2016-11-09 康佳集团股份有限公司 一种基于深度学习的垃圾邮件过滤方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150066496A1 (en) * 2013-09-02 2015-03-05 Microsoft Corporation Assignment of semantic labels to a sequence of words using neural network architectures
CN106096005A (zh) * 2016-06-23 2016-11-09 康佳集团股份有限公司 一种基于深度学习的垃圾邮件过滤方法及***
CN106096415A (zh) * 2016-06-24 2016-11-09 康佳集团股份有限公司 一种基于深度学习的恶意代码检测方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GANG JI: "Dialog act tagging using graphical models", 《IEEE》 *
TAO SHI: "Application of Alternating Deep Belief Network in Image Classification", 《IEEE》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059180A (zh) * 2019-03-13 2019-07-26 百度在线网络技术(北京)有限公司 文章作者身份识别及评估模型训练方法、装置及存储介质
CN110489551A (zh) * 2019-07-16 2019-11-22 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN110489551B (zh) * 2019-07-16 2023-05-30 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN112926321A (zh) * 2021-04-12 2021-06-08 常州微亿智造科技有限公司 一种基于神经网络框架的文学作品作者识别方法

Also Published As

Publication number Publication date
CN108108184B (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN109543084B (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN107169504B (zh) 一种基于扩展非线性核残差网络的手写字符识别方法
US10963685B2 (en) Generating variations of a known shred
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN108460089A (zh) 基于Attention神经网络的多元特征融合中文文本分类方法
CN109189925A (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN106446526A (zh) 电子病历实体关系抽取方法及装置
CN111241271B (zh) 文本情感分类方法、装置及电子设备
Ashlin Deepa et al. A novel nearest interest point classifier for offline Tamil handwritten character recognition
CN108108184A (zh) 一种基于深度信念网络的源代码作者识别方法
CN110288028A (zh) 心电检测方法、***、设备及计算机可读存储介质
Khudeyer et al. Combination of machine learning algorithms and Resnet50 for Arabic Handwritten Classification
Rahman Robust and consistent estimation of word embedding for bangla language by fine-tuning word2vec model
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
CN113987188A (zh) 一种短文本分类方法、装置及电子设备
Malik et al. A novel hybrid clustering approach based on black hole algorithm for document clustering
CN111310838A (zh) 一种基于深度Gabor网络的药效图像分类识别方法
CN116186513A (zh) 一种基于一维卷积神经网络的振动信号识别方法
Meng et al. Regional bullying text recognition based on two-branch parallel neural networks
CN110705259A (zh) 一种多粒度捕获匹配特征的文本匹配方法
Vithlani et al. A Study of Optical Character Patterns identified by the different OCR Algorithms
CN112182213B (zh) 一种基于异常流泪特征认知的建模方法
Sun et al. Security enhanced sentence similarity computing model based on convolutional neural network
Zebardast et al. A new radial basis function artificial neural network based recognition for kurdish manuscript

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant