CN105975573A - 一种基于knn的文本分类方法 - Google Patents

一种基于knn的文本分类方法 Download PDF

Info

Publication number
CN105975573A
CN105975573A CN201610288920.7A CN201610288920A CN105975573A CN 105975573 A CN105975573 A CN 105975573A CN 201610288920 A CN201610288920 A CN 201610288920A CN 105975573 A CN105975573 A CN 105975573A
Authority
CN
China
Prior art keywords
vector
text
title
classification
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610288920.7A
Other languages
English (en)
Other versions
CN105975573B (zh
Inventor
冯素梅
赵云飞
张亚栋
江国进
白涛
王晓燕
宁祾
程建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China General Nuclear Power Corp
China Techenergy Co Ltd
Original Assignee
China General Nuclear Power Corp
China Techenergy Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China General Nuclear Power Corp, China Techenergy Co Ltd filed Critical China General Nuclear Power Corp
Priority to CN201610288920.7A priority Critical patent/CN105975573B/zh
Publication of CN105975573A publication Critical patent/CN105975573A/zh
Application granted granted Critical
Publication of CN105975573B publication Critical patent/CN105975573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于KNN的文本分类方法,适用于核安全级软件验证和可靠性验证。本发明的文本分类方法包括训练过程处理和测试过程处理,将训练样本数据集以原始文本自身和文本中所有的标题两部分的信息来表示。依据文本由浅到深的特征层次结构构建两个DBM模型,提取低维高区分度的深层特征并存储,在测试过程中以适当的权重考虑文本标题给相似度的计算带来的贡献来确定待测试文本的类别。本发明充分利用文本标题的信息,比将浅层特征向量作为训练集在分类性能上有显著改善,同时能够降低存储需求和在线计算量,解决了特征向量高维灾难问题,提高了分类的准确度,可以用于安全级软件可靠性评价分析中的规则匹配和失效模式库的建立。

Description

一种基于KNN的文本分类方法
技术领域
本发明涉及一种基于KNN的文本分类方法,特别涉及核安全级软件验证和可靠性验证。
背景技术
在核安全级的软件开发过程中,产生大量的技术文件,并随着软件的迭代开发,技术文件也不断地更新,针对每一版文件中的每个条目项(如需求项或设计项),根据核电相关软件标准,必须满足评估规则的要求,因此,快速准确的确定条目项与规则之间的关联关系是质量人员亟待解决的问题。另外,在软件产品开发的整个生命周期中,为了及早发现潜在的失效,在每个阶段都要迭代执行失效模式及影响分析(FMEA),建立失效模式库并能够自动查询与条目项相关的失效模式也是分析人员关注的问题。
文本分类是指按照预先定义的主题类别,根据信息内容将不同的信息划分到与其相关的类别中。文本分类方法主要包括向量空间法、决策树方法、神经网络方法、遗传算法、贝叶斯分类、K近邻(K-NearestNeighbor,KNN)、支持向量机等。另外,近年来,在机器学习领域掀起了深度学习的浪潮,主要模型有自编码器、受限玻尔兹曼机(RestrictedBoltzmann Machine,RBM),深度玻尔兹曼机(Deep Boltzmann Machine,DBM)、深度信念网络(Deep Belief Network,DBN)、卷积神经网络(Convolutional Neural Network,CNN)等。深度神经网络包含多个隐藏层,具备强大的特征表达能力和对复杂任务的建模能力,因而被广泛的应用于图像处理、语音识别、文本分类和信息检索等工业领域。本发明利用KNN文本分类技术识别条目项与评估规则项、失效模式之间的关联关系,在KNN文本分类过程中采用DBM模型对文本进行特征提取,构建具有深层特征属性的向量空间模型。
20世纪90年代以后,随着互联网技术的飞速发展,基于统计理论和机器学习方法成为主流的文本分类技术,其中KNN是最早应用于自动文本分类的机器学习算法之一,其分类思想是:取待分类文本d的K个近邻,看这K个近邻中多数属于哪一类,就将d归于该类。该方法由于其简单,易实现,无需估计参数,且适合于多分类问题的优势而被广泛的应用。但是,该方法对测试文本分类时计算量大,内存开销大,尤其当文本表现为高维特征,将会降低分类器的实现性能和分类性能。在文本分类算法中,首先将文本转化为数据集表示,文本数据集的表示一般采用向量空间模型(Vector Space Model,VSM),即用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,将文本中的词映射为实数值特征向量,以特征向量代替原始数据集。即使通过这些处理,文本向量的维度依然很高,维度灾难问题直接影响了KNN算法对内存开销的要求和对测试文本进行分类时的计算量;而且,由于不具有区分度的特征项未被剔除,会损害分类精确度。因此,必须对文本特征向量做进一步净化处理,在保证不损失文本核心信息的基础上,提取对文本类别最具代表性的文本特征,从而降低向量空间维数。为了解决这个问题,传统的特征选择方法大多采用各评估函数进行特征权重的计算,如卡方检验(Chi-square test)、信息增益(IG,Information Gain)等,由于这些评估函数是基于统计学的,其中一个主要缺陷是权重高的特征词可能对分类没有什么用处,反而会干涉到正确的分类,而真正有用的特征却因为出现的频率低而获得较低的权重,甚至在降低特征空间维数的时候被删除掉了,从而影响到对文本核心信息的真实反映。另外一种特征选择常用的方法是主成分分析法,它不是通过特征选取的方式降维的,而是通过搜索最能代表原数据的正交向量,创立一个替换的、较小的变量集来组合属性的精华,原数据可以投影到这个较小的集合。它能够揭示更多有关变量重要方向的信息,但是在主成分方法中,由于矩阵方法的复杂度在n很大的情况以二次方增长,难以求解。深度神经网络其本质思想就是堆叠多个神经元层,每个层都提取一定的特征和信息,这一层的输出作为下一层的输入。通过这种方式,就可以实现对输入信息进行分级表达。因此深度神经网络具有优异的特征学习能力,学习到的特征对数据有更本质的刻画,并且深度神经网络在训练上的难度,可以通过“逐层初始化”来有效克服。其中RBM是一个二部图,一层是可视层(v),另一层是隐藏层(h),同层节点之间没有连接,它是深层模型的基本组件,用来逐层初始化网络参数,同时它也是特征学习的过程。DBM是由多个RBM构成的深层模型,通过隐藏层对原始输入的一步一步抽象表示,来学习原始输入的数据结构,找到更有用的特征,从而最终提高分类问题的准确性。
此外,作为核电领域的技术文件,其编写要符合标准规范,尤其是同类的标题具有高度的概括性和相似性,如果在对文本建立向量空间模型的时候,采取将整个文本统一处理,会极大的损失标题给分类带来的重要信息。
发明内容
针对现有技术存在的不足,本发明利用深度玻尔兹曼机(DBM)自动提取特征并实现降维的特点,提出了一种基于KNN的文本分类方法。
本发明提出的基于KNN的文本分类方法,包括训练过程处理和测试过程处理,
所述训练过程包括以下步骤:
步骤一,对训练样本数据集建立向量空间模型,计算样本的浅层特征向量,包括:提取每个文本中的段落标题形成标题数据集,分别对原始数据集和标题数据集进行预处理,分词,去除停用词,计算每个训练样本和对应的标题集的特征向量,形成原始文本特征向量和标题特征向量;
步骤二,分别以原始文本特征向量和标题特征向量作为可视层的输入数据,构建两个包含5层隐藏层的深度玻尔兹曼机,并由这两个模型分别逐级提取原始文本深层特征向量vo和标题深层特征向量vt
步骤三,分别对原始文本深层特征向量vo和标题深层特征向量vt进行加权合并得到训练样本深层特征向量(λvo;(1-λ)vt),λ是权重系数。存储该训练样本深层特征向量;
所述测试过程处理包括以下步骤:
步骤四,利用所述步骤一方法获得待测文本的特征向量,由步骤二构建的神经网络模型对其进行逐级特征提取,利用步骤三所述方法对提取后的特征向量进行加权合并,得到该待测文本的深层特征向量;
步骤五,计算步骤四所述的特征向量与步骤三所存储的每个特征向量之间的相似度,将相似度按大小降序排序,在相似度排在前K的向量中,将多数特征向量所具有的类别,作为待测文本的类别。
本发明基于KNN的文本分类方法,充分利用技术文件自身规范性,以及文本标题的重要信息,利用DBM模型,提取区分度更高的特征同时降低特征维数,改善了文本分类性能,降低了维度过高给基于KNN的分类算法带来的存储需求和在线计算量,特别适用于大规模的技术文件分类***。本发明提出的文本分类算法解决了特征向量高维灾难问题,有效提高了分类的准确度,可以用于安全级软件验证中的规则匹配和可靠性评价分析中失效模式库的建立。
附图说明
图1为本发明基于KNN的文本分类方法流程图;
图2为本发明基于KNN的文本分类方法DBM构建及训练样本的深层特征提取流程图;
图3为本发明基于KNN的文本分类方法DBM模型结构图。
具体实施方式
下面结合附图对本发明基于KNN的文本分类方法做详细描述。
本发明提出的基于KNN的文本分类方法,将训练样本数据集以原始文本自身和文本中所有的标题两部分的信息来表示。分别针对所有的文本和所有标题,依据文本由浅到深的特征层次结构构建两个DBM模型,进一步提取低维高区分度的深层特征并存储,在测试过程中以适当的权重考虑文本标题给相似度的计算带来的贡献来确定待测试文本的类别。该方法能够充分的利用文本标题的信息,且比将浅层特征向量作为训练集在分类性能上有显著改善,同时能够降低存储需求和在线计算量。
基于文本自身的层次结构特征,构建含有5层隐藏层的DBM神经网络,自动抽取训练数据集的深层特征和降低特征向量的维数,并将该模型应用于基于KNN的文本分类算法,以实现降低对数据集的存储需求,和测试过程的计算量,同时显著改善分类性能。
如图1所示,本方案所提出的分类方法包括训练过程处理和测试过程处理两个部分,并应用于软件需求和设计文档的审查,以及软件可靠性分析过程中。其中,训练过程针对原始数据集和标题数据集分别做如下处理:对训练样本数据集建立VSM模型,提取文本本身及其标题集的浅层特征表示,其过程包括预处理,分词,去除停用词,计算每个训练样本及其标题集的特征向量;然后以浅层特征数据集作为输入,构建两个包含5层受限玻尔兹曼机的神经网络,提取深层特征向量,并分别加权存储。测试过程包括:针对待测样本,将文本本身和标题集进行预处理,特征计算;利用训练过程中得到的神经网络对该特征向量进行处理得到低维深层特征向量;计算与训练过程中存储的每个特征向量之间的相似度,在相似度排在前K的向量中,寻找多数向量所具有的类别,作为待测文本的类别。
训练过程对文件中的标题集和原始文本分别建立独立DBM模型,并对其进行特征提取、降低特征维数并参与类别判定决策。其过程如图2所示:
第一步,将原始数据集的每个训练样本中所有段落的标题提取出来,构成的新的微型的标题数据集。
第二步,分别针对原始数据集和标题数据集提取浅层特征。方法如下:
文本预处理:搜集文本并进行预处理,包括处理文本乱码及非文本内容,分词并去停用词,删除非相关文本;
特征向量计算:忽略特征项在文档中的先后顺序并要求特征项互异,将文档简化为以特征项的权重为分量的向量表示。利用TF-IDF(Term frequency-Inverse document frequency)方法计算文本特征项的权重,并且进行归一化处理,得到原始文本特征向量d1(w11;w12;...;w1m),d2(w21;w22;...;w2m),...,dn(wn1;wn2;...;wnm)和标题特征向量d′1(t11;t12;...;t1m'),d′2(t21;t22;...;t2m'),...,d′n(tn1;tn2;...;tnm'),如图2所示,其中,n为文本数量,m和m'分别为原始文本的特征项个数和标题文本的特征项个数。
第三步,分别以原始文本特征向量和标题特征向量为输入数据,基于文本自身的层次结构特征,构建两个含有5层隐藏层的DBM神经网络,分别记为M1和M2。该模型应用于基于KNN的文本分类算法,以实现降低对数据集的存储需求,和测试过程的计算量,同时用于改善分类性能。
DBM模型的构建方法如下:文本的特征层次结构由浅层特征到深层特征包括词、短语、句子、段落、文章和语义,构建两个包含5层隐藏层的DBM神经网络模型提取文本深层特征并实现降维,其结构如图3所示:
图3中,(v1;v2;......;vi)、(h11;h12;......;h1j)、(h21;h22;......;h2k)、(h31;h32;......;h3l)、(h41;h32;......;h4p)和(h51;h52;......;h5q)分别代表可视层单元和隐藏层单元,i,j,k,l,p和q分别代表对应可视层和隐藏层的单元个数。
训练该DBM的步骤如下:
首先以样本特征向量作为可视层初始值,训练底层的RBM模型,该过程采用基于对比散度的快速学习算法,具体训练过程如下:根据可视层向量v来得到隐藏层向量h的状态:h=σ(b+W.v);
通过h来重构可视层向量v1:v1=σ(a+WT.h);
再根据v1来生成新的隐藏层向量h1:h1=σ(a+W.v1);
按照如下规则更新各个参数:
W←W+ε(h.vT-h1.(v1)T)
a←a+ε(v-v1)
b←b+ε(h-h1)
其中,ε为学习率;W为可视单元与隐藏层单元之间连接权重矩阵,a为可视单元的偏置向量,b为隐藏层单元的偏置向量,可视单元数与第一层隐藏层单元数分别为i和j,则W是j×i阶的矩阵,a为i维列向量,b为j维列向量;激活函数为σ(x)=1/(1+exp(-x))。在训练过程中,神经元个数的设定,参数的初始化,学习率的调整和训练周期的确定需要在实践中多次训练,反复摸索尝试。
以上一层RBM模型的输出作为下一层RBM模型的可视层,重复以上过程。
将构建两个DBM模型时,获取的原始文本特征向量和标题特征向量的低维深层抽象特征数据集,分别称为原始文本深层特征向量vo和标题深层特征向量vt,如图2所示,其中,md是原始文本特征向量经过M1提取后的向量维数,md'是标题特征向量经过M2提取后的向量维数。将这两个向量空间分别加权为λvo和(1-λ)vt,其中λ是权重系数,0<λ≤1,λ∈R,并按照文本顺序对应合并存储,获得训练样本深层特征向量,其形式如图2所示。
测试过程:
将待测文本的标题提取出来组成新的文本,分别进行预处理、特征计算得到原始待测文本特征向量和待测文本标题特征向量,其方法与训练过程相同;分别将原始待测文本特征向量和待测文本标题特征向量经过M1和M2网络的提取得到原始待测文本深层特征向量vOUTDFV和待测文本标题深层特征向量vUTTDFV,直接加权后合并构成待测文本深层特征向量(λvOUTDFV;(1-λ)vUTTDFV),其中权重与训练过程中的λ相同;将待测文本深层特征向量与训练样本深层特征向量中的每个特征向量进行相似度计算,在前K个相似度最大的向量中,寻找多数向量所具有的类别,作为待测文本的类别。

Claims (1)

1.一种基于KNN的文本分类方法,包括训练过程处理和测试过程处理,
所述训练过程包括以下步骤:
步骤一,对训练样本数据集建立向量空间模型,计算样本的浅层特征向量,包括:提取每个文本中的段落标题形成标题数据集,分别对原始数据集和标题数据集进行预处理,分词,去除停用词,计算每个训练样本和对应的标题集的特征向量,形成原始文本特征向量和标题特征向量;
步骤二,分别以原始文本特征向量和标题特征向量作为可视层的输入数据,构建两个包含5层隐藏层的深度玻尔兹曼机,并由这两个模型分别逐级提取原始文本深层特征向量vo和标题深层特征向量vt
步骤三,分别对原始文本深层特征向量vo和标题深层特征向量vt进行加权合并得到训练样本深层特征向量(λvo;(1-λ)vt),其中λ是权重系数,存储该训练样本深层特征向量;
所述测试过程处理包括以下步骤:
步骤四,利用所述步骤一方法获得待测文本的特征向量,由步骤二构建的神经网络模型对其进行逐级特征提取,利用步骤三所述方法对提取后的特征向量进行加权合并,得到该待测文本的深层特征向量;
步骤五,计算步骤四所述的特征向量与步骤三所存储的每个特征向量之间的相似度,将相似度按大小降序排序,在相似度排在前K位的向量中,将多数特征向量所具有的类别,作为待测文本的类别。
CN201610288920.7A 2016-05-04 2016-05-04 一种基于knn的文本分类方法 Active CN105975573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610288920.7A CN105975573B (zh) 2016-05-04 2016-05-04 一种基于knn的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610288920.7A CN105975573B (zh) 2016-05-04 2016-05-04 一种基于knn的文本分类方法

Publications (2)

Publication Number Publication Date
CN105975573A true CN105975573A (zh) 2016-09-28
CN105975573B CN105975573B (zh) 2019-08-13

Family

ID=56994289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610288920.7A Active CN105975573B (zh) 2016-05-04 2016-05-04 一种基于knn的文本分类方法

Country Status (1)

Country Link
CN (1) CN105975573B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599530A (zh) * 2016-10-31 2017-04-26 北京千安哲信息技术有限公司 一种检测数据的处理方法和装置
CN107330513A (zh) * 2017-06-28 2017-11-07 深圳爱拼信息科技有限公司 一种提取深度信念网络中隐含节点语义的方法
CN107357927A (zh) * 2017-07-26 2017-11-17 深圳爱拼信息科技有限公司 一种文档建模方法
CN107832288A (zh) * 2017-09-27 2018-03-23 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置
CN107886009A (zh) * 2017-11-20 2018-04-06 北京大学 防隐私泄露的大数据生成方法和***
CN107908620A (zh) * 2017-11-15 2018-04-13 珠海金山网络游戏科技有限公司 一种基于工作文档预判用户职业的方法和装置
CN108090093A (zh) * 2016-11-22 2018-05-29 华为技术有限公司 生成推荐结果的方法和装置
CN108241650A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 训练分类标准的训练方法和装置
CN108573068A (zh) * 2018-05-02 2018-09-25 重庆邮电大学 一种基于深度学习的文本表示与分类方法
CN109271493A (zh) * 2018-11-26 2019-01-25 腾讯科技(深圳)有限公司 一种语言文本处理方法、装置和存储介质
CN109376241A (zh) * 2018-10-17 2019-02-22 国网浙江杭州市萧山区供电有限公司 一种基于DenseNet面向电力领域的电话诉求文本分类算法
CN109376068A (zh) * 2018-09-03 2019-02-22 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 软件可靠性预测方法、装置、计算机设备和存储介质
CN109597851A (zh) * 2018-09-26 2019-04-09 阿里巴巴集团控股有限公司 基于关联关系的特征提取方法和装置
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN110019733A (zh) * 2017-12-28 2019-07-16 中兴通讯股份有限公司 一种面向社区的智能问答方法及装置
CN110377730A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 案由分类方法、装置、计算机设备和存储介质
CN111080080A (zh) * 2019-11-25 2020-04-28 桂林理工大学南宁分校 一种村镇地质灾害风险预估方法及***
CN111860661A (zh) * 2020-07-24 2020-10-30 中国平安财产保险股份有限公司 基于用户行为的数据分析方法、装置、电子设备及介质
CN112749280A (zh) * 2021-01-18 2021-05-04 杭州安恒信息技术股份有限公司 网络舆情的分类方法、装置、电子装置和存储介质
CN113177138A (zh) * 2021-04-30 2021-07-27 南开大学 一种基于弹幕和标题分析的有监督视频分类方法
CN114328265A (zh) * 2022-01-05 2022-04-12 北京京航计算通讯研究所 一种软件安全性分析方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070047813A1 (en) * 2005-08-24 2007-03-01 Simske Steven J Classifying regions defined within a digital image
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN104123336A (zh) * 2014-05-21 2014-10-29 深圳北航新兴产业技术研究院 深度玻尔兹曼机模型及短文本主题分类***和方法
CN104881458A (zh) * 2015-05-22 2015-09-02 国家计算机网络与信息安全管理中心 一种网页主题的标注方法和装置
CN105205090A (zh) * 2015-05-29 2015-12-30 湖南大学 基于网页链接分析和支持向量机的网页文本分类算法研究

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070047813A1 (en) * 2005-08-24 2007-03-01 Simske Steven J Classifying regions defined within a digital image
CN103020067A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种确定网页类型的方法和装置
CN104123336A (zh) * 2014-05-21 2014-10-29 深圳北航新兴产业技术研究院 深度玻尔兹曼机模型及短文本主题分类***和方法
CN104881458A (zh) * 2015-05-22 2015-09-02 国家计算机网络与信息安全管理中心 一种网页主题的标注方法和装置
CN105205090A (zh) * 2015-05-29 2015-12-30 湖南大学 基于网页链接分析和支持向量机的网页文本分类算法研究

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姜鹏等: "一一种主题爬虫文本分类器的构建", 《中文信息学报》 *
郑海等: "基于概念和关联扩充的文本标题分类机制", 《小型微型计算机***》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599530B (zh) * 2016-10-31 2019-08-02 北京千安哲信息技术有限公司 一种检测数据的处理方法和装置
CN106599530A (zh) * 2016-10-31 2017-04-26 北京千安哲信息技术有限公司 一种检测数据的处理方法和装置
CN108090093B (zh) * 2016-11-22 2021-02-09 华为技术有限公司 生成推荐结果的方法和装置
CN108090093A (zh) * 2016-11-22 2018-05-29 华为技术有限公司 生成推荐结果的方法和装置
CN108241650B (zh) * 2016-12-23 2020-08-11 北京国双科技有限公司 训练分类标准的训练方法和装置
CN108241650A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 训练分类标准的训练方法和装置
CN107330513A (zh) * 2017-06-28 2017-11-07 深圳爱拼信息科技有限公司 一种提取深度信念网络中隐含节点语义的方法
CN107330513B (zh) * 2017-06-28 2020-07-31 深圳爱拼信息科技有限公司 一种提取深度信念网络中隐含节点语义的方法
CN107357927B (zh) * 2017-07-26 2020-06-12 深圳爱拼信息科技有限公司 一种文档建模方法
CN107357927A (zh) * 2017-07-26 2017-11-17 深圳爱拼信息科技有限公司 一种文档建模方法
CN107832288B (zh) * 2017-09-27 2020-06-16 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置
CN107832288A (zh) * 2017-09-27 2018-03-23 中国科学院自动化研究所 中文词语语义相似度的度量方法及装置
CN107908620A (zh) * 2017-11-15 2018-04-13 珠海金山网络游戏科技有限公司 一种基于工作文档预判用户职业的方法和装置
CN107886009A (zh) * 2017-11-20 2018-04-06 北京大学 防隐私泄露的大数据生成方法和***
CN107886009B (zh) * 2017-11-20 2020-09-08 北京大学 防隐私泄露的大数据生成方法和***
CN110019733A (zh) * 2017-12-28 2019-07-16 中兴通讯股份有限公司 一种面向社区的智能问答方法及装置
CN108573068A (zh) * 2018-05-02 2018-09-25 重庆邮电大学 一种基于深度学习的文本表示与分类方法
CN109376068A (zh) * 2018-09-03 2019-02-22 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 软件可靠性预测方法、装置、计算机设备和存储介质
CN109597851A (zh) * 2018-09-26 2019-04-09 阿里巴巴集团控股有限公司 基于关联关系的特征提取方法和装置
CN109376241B (zh) * 2018-10-17 2020-09-18 国网浙江杭州市萧山区供电有限公司 一种基于DenseNet面向电力领域的电话诉求文本分类算法
CN109376241A (zh) * 2018-10-17 2019-02-22 国网浙江杭州市萧山区供电有限公司 一种基于DenseNet面向电力领域的电话诉求文本分类算法
CN109271493A (zh) * 2018-11-26 2019-01-25 腾讯科技(深圳)有限公司 一种语言文本处理方法、装置和存储介质
CN109271493B (zh) * 2018-11-26 2021-10-08 腾讯科技(深圳)有限公司 一种语言文本处理方法、装置和存储介质
CN109886020B (zh) * 2019-01-24 2020-02-04 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法
WO2020248391A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 案由分类方法、装置、计算机设备和存储介质
CN110377730A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 案由分类方法、装置、计算机设备和存储介质
CN110377730B (zh) * 2019-06-14 2023-10-10 平安科技(深圳)有限公司 案由分类方法、装置、计算机设备和存储介质
CN111080080A (zh) * 2019-11-25 2020-04-28 桂林理工大学南宁分校 一种村镇地质灾害风险预估方法及***
CN111080080B (zh) * 2019-11-25 2023-05-26 桂林理工大学南宁分校 一种村镇地质灾害风险预估方法及***
CN111860661A (zh) * 2020-07-24 2020-10-30 中国平安财产保险股份有限公司 基于用户行为的数据分析方法、装置、电子设备及介质
CN111860661B (zh) * 2020-07-24 2024-04-30 中国平安财产保险股份有限公司 基于用户行为的数据分析方法、装置、电子设备及介质
CN112749280A (zh) * 2021-01-18 2021-05-04 杭州安恒信息技术股份有限公司 网络舆情的分类方法、装置、电子装置和存储介质
CN113177138A (zh) * 2021-04-30 2021-07-27 南开大学 一种基于弹幕和标题分析的有监督视频分类方法
CN114328265A (zh) * 2022-01-05 2022-04-12 北京京航计算通讯研究所 一种软件安全性分析方法及***

Also Published As

Publication number Publication date
CN105975573B (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN105975573B (zh) 一种基于knn的文本分类方法
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN108596329A (zh) 基于端到端深度集成学习网络的三维模型分类方法
CN114092832B (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
CN109241377A (zh) 一种基于深度学习话题信息增强的文本文档表示方法和装置
CN114241273B (zh) 基于Transformer网络和超球空间学习的多模态图像处理方法及***
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN110321361A (zh) 基于改进的lstm神经网络模型的试题推荐判定方法
CN110457516A (zh) 一种跨模态图文检索方法
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和***
CN114492423B (zh) 基于特征融合及筛选的虚假评论检测方法、***及介质
CN114048468A (zh) 入侵检测的方法、入侵检测模型训练的方法、装置及介质
CN114331122A (zh) 重点人员风险等级评估方法及相关设备
CN113469214A (zh) 虚假新闻检测方法、装置、电子设备和存储介质
CN114548591A (zh) 一种基于混合深度学习模型和Stacking的时序数据预测方法及***
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN113420117B (zh) 一种基于多元特征融合的突发事件分类方法
CN112926052B (zh) 基于遗传算法的深度学习模型安全漏洞测试和修复方法、装置和***
CN113420833A (zh) 一种基于问题语义映射的视觉问答方法及装置
Zhan [Retracted] A Convolutional Network‐Based Intelligent Evaluation Algorithm for the Quality of Spoken English Pronunciation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant