CN109376241B - 一种基于DenseNet面向电力领域的电话诉求文本分类算法 - Google Patents

一种基于DenseNet面向电力领域的电话诉求文本分类算法 Download PDF

Info

Publication number
CN109376241B
CN109376241B CN201811208673.0A CN201811208673A CN109376241B CN 109376241 B CN109376241 B CN 109376241B CN 201811208673 A CN201811208673 A CN 201811208673A CN 109376241 B CN109376241 B CN 109376241B
Authority
CN
China
Prior art keywords
text
telephone
appeal
classified
classification algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811208673.0A
Other languages
English (en)
Other versions
CN109376241A (zh
Inventor
王亿
陆岷
章晨璐
汪宇杰
李豪帅
吴亦灵
孔锋峰
邱海锋
陈杰
翁利国
陈辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Zhejiang Zhongxin Electric Power Engineering Construction Co Ltd
Original Assignee
State Grid Corp of China SGCC
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Zhejiang Zhongxin Electric Power Engineering Construction Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd, Zhejiang Zhongxin Electric Power Engineering Construction Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201811208673.0A priority Critical patent/CN109376241B/zh
Publication of CN109376241A publication Critical patent/CN109376241A/zh
Application granted granted Critical
Publication of CN109376241B publication Critical patent/CN109376241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于DenseNet面向电力领域的电话诉求文本分类算法,属于文本分类算法技术领域,通过对待分类的文本进行预处理、数据增广、建立词汇字典、词向量id匹配、词向量降维、拼接特征值和随机排列组合拼接后的特征值等操作后获得文本分类器,利用该文本分类器对文本进行分类。本发明提供的基于DenseNet面向电力领域的电话诉求文本分类算法,能有效弥补传统算法的不足,很好的适应电力诉求文本存在的专业性强、长度差异大、文字和数字混杂等特点,能在保证分类准确率的前提下降低模型的复杂度,实现对电力领域的电话诉求文本进行快速、准确的分类,很好的满足分类要求。

Description

一种基于DenseNet面向电力领域的电话诉求文本分类算法
技术领域
本发明涉及文本分类算法技术领域,尤其涉及一种基于DenseNet面向电力领域的电话诉求文本分类算法。
背景技术
随着电网建设的普及和完善,电网用户也越来越多,为了保障电网供电的稳定性、提高用户用电的满意度,电网公司搭建了电话反馈平台,用户可以通过电话反馈平台咨询服务内容、反映用电故障、对电网公司做出评价、向电网公司提出意见或投诉等。为了通过电话反馈平台更好的完善电网公司的建设和服务,需要对电话诉求文本进行分类。现有的分类方法一般是通过卷积神经网络模型对文本进行分类,但是此种分类方法需要较为全面的语料库,而且输出特征单一,利用此种手段对电力领域电话诉求文本这类短文本进行分类存在很大的缺陷。为了改进利用卷积神经网络对电话诉求文本进行分类存在的缺陷,需要通过增加最大池化层和使用不同尺寸的过滤器来增加特征输出,同样,此种改进手段也需要更大的语料库,不同尺寸的过滤器也增加了模型的训练参数量。另外,还需要改变文本特征的流动方式,通过密集连接卷积网络使浅层特征在深层流动,增加特征学习的多样性,提高分类效果。但是,此种手段会加深网络层次,需要训练的参数量巨大,而且对文本特征稀疏性比较敏感,分类速度较慢,不能很好的满足电力领域内对电话诉求文本进行分类的要求。
发明内容
为了解决上述现有技术中存在的缺点和不足,本发明提供了一种模型复杂度低且分类效果好的基于DenseNet面向电力领域的电话诉求文本分类算法。
为了实现上述技术目的,本发明提供的基于DenseNet面向电力领域的电话诉求文本分类算法,包括以下步骤,
S1、获取待分类的电话诉求文本;
S2、对步骤S1中获取的电话诉求文本进行预处理;
S3、根据步骤S2中预处理后的电话诉求文本进行数据增广;
S4、根据步骤S3中增广后的数据建立词汇字典;
S5、根据步骤S4中建立的词汇字典进行词向量id匹配;
S6、对步骤S5中匹配后的词向量进行词向量降维;
S7、采用ResNet和DenseNet-BC对步骤S6中降维后的词向量进行1×1卷积层处理,并对经卷积层处理后得到的相同尺寸的特征值进行拼接;
S8、对步骤S7中拼接后的特征值进行随机排列得到高层次特征;
S9、利用步骤S8中得到的高层次特征对电话诉求文本进行分类,实现分类目的。
优选的,所述步骤S2中对待分类的电话诉求文本进行的预处理包括去重处理、去噪处理、去停用处理和文本分词处理。
优选的,所述步骤S2中采用欧式距离对待分类的电话诉求文本进行去重处理。
优选的,所述步骤S2中采用基于DOM树的哈希值对待分类的电话诉求文本进行去噪处理。
优选的,所述步骤S2中通过新建专用于电力领域的停用词库实现对待分类的电话诉求文本进行去停用处理。
优选的,所述步骤S2中采用jieba语言模型对待分类的电话诉求文本进行切词实现文本分词处理。
优选的,所述步骤S4中采用双数组trie树法建立词汇字典。
优选的,所述步骤S6中对one-hot形式的词向量进行主成分分析降维。
优选的,所述步骤S7中通过公式一对特征值进行拼接,
Figure BDA0001831873250000031
其中,Rk表示采用ResNet经1×1卷积层处理后得到的特征值,Dk表示采用DenseNet-BC经1×1卷积层处理后得到的特征值,Ck表示拼接后的特征值,xk+1表示第k+1层的输入,H表示激活函数。
采用上述技术方案后,本发明提供的基于DenseNet面向电力领域的电话诉求文本分类算法具有如下优点:
1、本发明提供的基于DenseNet面向电力领域的电话诉求文本分类算法,能有效弥补传统算法的不足,很好的适应电力诉求文本存在的专业性强、长度差异大、文字和数字混杂等特点,能在保证分类准确率的前提下降低模型的复杂度,实现对电力领域的电话诉求文本进行快速、准确的分类,很好的满足分类要求。
预处理主要包括清理和规范化,目的在于提高文本数据质量,以便在分类时提高执行效率。根据文本进行数据增广能在数据量较少的情况下通过对原始数据进行变换达到增加训练数据量的目的,从而解决电力领域的电话诉求文本存在的特征稀疏的问题。根据增广后的数据建立词汇字典能有效提高空间利用率和效率,有利于缩短训练时间。根据建立的词汇字典进行词向量id匹配即对每个单词匹配一个词向量,避免对词向量的重复训练,从而有效降低网络训练的参数量、复杂度和训练时间。对词向量进行降维能降低词向量的维度,避免因词向量维度过高导致模型参数过多,减少模型对参数的学习,有利于降低模型复杂度。对处理后的两组相同尺寸的特征值进行拼接能实现边缘特征表达和浅层特征流动,还能减少冗余特征的流动,同时减少不必要的特征学习和参数迭代。对拼接后的特征进行随机组合能防止模型过拟合,将得到的高层次特征作为输入能提高模型的分类准确度。利用混合后的高层次特征作为神经网络的输入量实现对电话诉求文本的分类,有效提高分类的速度和准确性。
2、对待分类的电话诉求文本的预处理包括去重处理、去噪处理、去停用处理和文本分词处理,去重处理采用欧氏距离实现,计算各个文本的欧氏距离,且只保留一个距离较近的文本,提高去重的准确度。去噪处理能将文本中与分类无关的部分作为噪声去除,从而有利于提高分类的准确度。将文本中的词与停用词库中的词一一比较,若为停用词则将该词从文本中删除,提高数据质量。采用jieba语言模型对文本进行切词实现文本分词处理,以便后续步骤中能根据分词得到的词语进行合理的数据增广。
3、由于one-hot形式的词向量是有多少单词就有多少词向量,为了避免词向量维度***,需要对此种形式的词向量进行降维。主成分分析降维通过计算词向量协方差矩阵的特征值和特征向量选取最大的若干个特征值作为主成分,然后将原词向量乘以与选取的最大特征值对应的特征向量矩阵得到降维后的词向量,实现降维目的。
附图说明
图1为本发明实施例一基于DenseNet面向电力领域的电话诉求文本分类算法的流程示意图;
图2为本发明实施例中几种模型对EPCT文本进行分类的时间-错误率折线图;
图3为本发明实施例中几种模型对THUCNews文本进行分类的时间-错误率折线图;
图4为本发明实施例中几种模型对EPCT文本进行训练的错误率-训练数据规模的趋势图;
图5为本发明实施例中几种模型对THUCNews文本进行训练的错误率-训练数据规模的趋势图;
图6为本发明实施例中几种模型对EPCT文本进行分类的运算时间柱状图;
图7为本发明实施例中几种模型对THUCNews文本进行分类的运算时间柱状图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。需要理解的是,下述的“上”、“下”、“左”、“右”、“纵向”、“横向”、“内”、“外”、“竖直”、“水平”、“顶”、“底”等指示方位或位置关系的词语仅基于附图所示的方位或位置关系,仅为了便于描述本发明和简化描述,而不是指示或暗示所指的装置/元件必须具有特定的方位或以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一
如图1所示,本发明实施例一提供的一种基于DenseNet面向电力领域的电话诉求文本分类算法,包括以下步骤,
S1、获取待分类的电话诉求文本;
S2、对步骤S1中获取的电话诉求文本进行预处理;
S3、根据步骤S2中预处理后的电话诉求文本进行数据增广;
S4、根据步骤S3中增广后的数据建立词汇字典;
S5、根据步骤S4中建立的词汇字典进行词向量id匹配;
S6、对步骤S5中匹配后的词向量进行词向量降维;
S7、采用ResNet和DenseNet-BC对步骤S6中降维后的词向量进行1×1卷积层处理,并对经卷积层处理后得到的相同尺寸的特征值进行拼接;
S8、对步骤S7中拼接后的特征值进行随机排列得到高层次特征;
S9、利用步骤S8中得到的高层次特征对电话诉求文本进行分类,实现分类目的。
上述步骤S1中,可以通过平台调取等方式获得待分类的电话诉求文本。
上述步骤S2中,对待分类的电话诉求文本进行的预处理包括以下步骤,
步骤S201、去重处理:采用欧式距离对待分类的电话诉求文本进行去重处理,计算各个文本的欧氏距离,只保留一个距离较近的文本,提高去重的准确度;
步骤S202、去噪处理:采用基于DOM树的哈希值对待分类的电话诉求文本进行去噪处理,将文本中与分类无关的部分作为噪声去除;
步骤S203、去停用处理:新建专用于电力领域的停用词库,将文本中的词与停用词库中的词一一比较,若为停用词则将该词从文本中删除,实现去停用处理,提高数据质量;
步骤S204、文本分词处理:采用jieba语言模型对待分类的电话诉求文本进行切词,实现文本分词处理,以便后续步骤S3中能根据分词得到的词语进行合理的数据增广。
上述步骤S3中,通过数据增广添加电力领域的专业词汇,提高模型对数据的泛化能力。
上述步骤S4中,根据增广后的数据采用双数组trie树法建立词汇字典,有效提高空间利用率和效率,同时有利于缩短训练时间。
上述步骤S5中,根据建立的词汇字典进行词向量id匹配,即对每个单词匹配一个词向量,避免对词向量的重复训练,从而有效降低网络训练的参数量、复杂度和训练时间。
上述步骤S6中,由于one-hot形式的词向量是有多少单词就有多少词向量,为了避免词向量维度***,需要对此种形式的词向量进行降维。主成分分析降维通过计算词向量协方差矩阵的特征值和特征向量选取最大的若干个特征值作为主成分,然后将原词向量乘以与选取的最大特征值对应的特征向量矩阵得到降维后的词向量,实现降维目的。通过对词向量进行降维能避免因词向量维度过高导致模型参数过多的情况,减少模型对参数的学习,有利于降低模型复杂度。
上述步骤S7中,通过公式一对特征值进行拼接,
Figure BDA0001831873250000071
其中,Rk表示采用ResNet经1×1卷积层处理后得到的特征值,Dk表示采用DenseNet-BC经1×1卷积层处理后得到的特征值,Ck表示拼接后的特征值,xk+1表示第k+1层的输入,H表示激活函数。
对处理后的两组相同尺寸的特征值进行拼接能实现边缘特征表达和浅层特征流动,还能减少冗余特征的流动,同时减少不必要的特征学习和参数迭代。
上述步骤S8中,对拼接后的特征进行随机组合能防止模型过拟合,将得到的高层次特征作为输入能提高模型的分类准确度。
上述步骤S9中,通过步骤S8得到的高层次特征形成文本分类器,利用混合后的高层次特征作为神经网络的输入量实现对电话诉求文本的分类,有效提高分类的速度和准确性。
为了检验本实施例的分类算法的效果,本实施例还设计了以下实验。
实验环境的硬件配置为4GB RAM、Nvidia Geforce GTX 970M、显存3GB,集成配置为anaconda3(64bit)+python(3.6)+spyder,实验框架为tensorflow(1.1.0)。
实验数据,为了更好的评价模型,本实验选择了领域、数据规模、分类数均不同的数据集,具体特征性信息见表1。其中,THUCNews为标准的新闻文本分类数据集,EPCT(电力诉求文本)包括95598全年的受理文本数据。
表1.数据集特征信息表
名称 分类数 数量 平均文本长度 训练/验证/测试 领域
THUCNews 20 20000 236 12000/4000/4000 新闻
EPCT 7 5000 93 12000/4000/4000 电力领域的诉求
模型参数配置,由于本发明的分类算法是在特征值的尺寸相同的前提下进行拼接的,因此,在3×3卷积层、2×2平均池化层后添加1×1卷积层来改变特征的映射尺寸,相关的模型参数值设置见表2。
表2.模型的参数值设置
参数名称 参数值
嵌入层尺寸 64
句长上限 600
词汇数量 500
隐含层尺寸 128
批尺寸 64
迭代次数 10
评价指标,选用错误率、F1分数和模型运算时间作为评价指标,对模型进行多角度、全方位的评价。
模型对比,首先从错误率的角度评价One-hot与Word2vec词向量模型以及不同组合模型的表现,错误率的具体对比参加表3。由表3可知,本实施例的分类算法在两种数据集的处理上均获得了优于其他算法的处理效果,尤其是在对EPCT的数据处理上,错误率低至7.63%。
表3.几种模型处理数据集的错误率对比表
算法的模型组合 THUCNews EPCT
one-hot+CNN 11.47 9.5
word2vec+CNN 8.46 8.21
one-hot+Densenet 8.34 7.92
word2vec+Densenet 8.21 7.75
本实施例的分类算法 8.06 7.63
其次,针对本实施例改进所在的拼接操作对拼接前后选择表现最优的F1分数作为评价结果,具体参见表4。从表4可知,本实施例采用拼接操作的模型在多个类别中都取得了较好的效果。
表4.拼接前后的F1分数对比表
Figure BDA0001831873250000091
另外,根据图2、图3可知,本实施例分类算法在模型效率方面的改进取得了不错的效果,本实施例分类算法的模型通过训练对EPCT文本进行分类的错误率可低至7.5%,对THUCNews文本进行分类的错误率可低至8.6%。
针对不同规模的训练集,错误率与训练数据规模的走势图如图4、图5所示。由图4、图5可知,本发明提供的模型在两种数据集上的优势都较为明显,尤其是处理EPCT数据集时,在训练数据规模不大的情况下仍能取得较好的效果。
最后,通过模型的运算时间作为指标来评价模型的效率,如图6、图7所示,相比于one-hot+Densenet模型,本实施例分类算法的模型在处理EPCT文本时的运算时间缩短了40%左右,在处理THUCNews文本时的运算时间缩短了35%左右。因此,本实施例的分类算法能快速、准确、高效的对电力领域的电话诉求文本进行分类,更好的满足分类要求。
可以理解的是,本实施例中采用欧氏距离对待分类的电话诉求文本进行去重处理的具体方法可以参考现有技术。
可以理解的是,本实施例中采用基于DOM树的哈希值对待分类的电话诉求文本进行去噪处理的具体方法可以参考现有技术。
可以理解的是,本实施例中采用jieba语言模型对待分类的电话诉求文本进行切词的具体方法可以参考现有技术。
可以理解的是,本实施例中采用双数组trie树法建立词汇字典的具体方法可以参考现有技术。
可以理解的是,本实施例中对one-hot形式的词向量进行主成分分析降维的具体方法可以参考现有技术。
除上述优选实施例外,本发明还有其他的实施方式,本领域技术人员可以根据本发明作出各种改变和变形,只要不脱离本发明的精神,均应属于本发明权利要求书中所定义的范围。

Claims (8)

1.一种基于DenseNet面向电力领域的电话诉求文本分类算法,其特征在于,包括以下步骤,
S1、获取待分类的电话诉求文本;
S2、对步骤S1中获取的电话诉求文本进行预处理;
S3、根据步骤S2中预处理后的电话诉求文本进行数据增广;
S4、根据步骤S3中增广后的数据建立词汇字典;
S5、根据步骤S4中建立的词汇字典进行词向量id匹配;
S6、对步骤S5中匹配后的词向量进行词向量降维;
S7、采用ResNet和DenseNet-BC对步骤S6中降维后的词向量进行1×1卷积层处理,并对经卷积层处理后得到的相同尺寸的特征值通过公式一进行拼接,
Figure FDA0002483705880000011
其中,Rk表示采用ResNet经1×1卷积层处理后得到的特征值,Dk表示采用DenseNet-BC经1×1卷积层处理后得到的特征值,Ck表示拼接后的特征值,xk+1表示第k+1层的输入,H表示激活函数;
S8、对步骤S7中拼接后的特征值进行随机排列得到高层次特征;
S9、利用步骤S8中得到的高层次特征对电话诉求文本进行分类,实现分类目的。
2.根据权利要求1所述的电话诉求文本分类算法,其特征在于,所述步骤S2中对待分类的电话诉求文本进行的预处理包括去重处理、去噪处理、去停用处理和文本分词处理。
3.根据权利要求2所述的电话诉求文本分类算法,其特征在于,所述步骤S2中采用欧式距离对待分类的电话诉求文本进行去重处理。
4.根据权利要求2所述的电话诉求文本分类算法,其特征在于,所述步骤S2中采用基于DOM树的哈希值对待分类的电话诉求文本进行去噪处理。
5.根据权利要求2所述的电话诉求文本分类算法,其特征在于,所述步骤S2中通过新建专用于电力领域的停用词库实现对待分类的电话诉求文本进行去停用处理。
6.根据权利要求2所述的电话诉求文本分类算法,其特征在于,所述步骤S2中采用jieba语言模型对待分类的电话诉求文本进行切词实现文本分词处理。
7.根据权利要求1所述的电话诉求文本分类算法,其特征在于,所述步骤S4中采用双数组trie树法建立词汇字典。
8.根据权利要求1所述的电话诉求文本分类算法,其特征在于,所述步骤S6中对one-hot形式的词向量进行主成分分析降维。
CN201811208673.0A 2018-10-17 2018-10-17 一种基于DenseNet面向电力领域的电话诉求文本分类算法 Active CN109376241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811208673.0A CN109376241B (zh) 2018-10-17 2018-10-17 一种基于DenseNet面向电力领域的电话诉求文本分类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811208673.0A CN109376241B (zh) 2018-10-17 2018-10-17 一种基于DenseNet面向电力领域的电话诉求文本分类算法

Publications (2)

Publication Number Publication Date
CN109376241A CN109376241A (zh) 2019-02-22
CN109376241B true CN109376241B (zh) 2020-09-18

Family

ID=65400603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811208673.0A Active CN109376241B (zh) 2018-10-17 2018-10-17 一种基于DenseNet面向电力领域的电话诉求文本分类算法

Country Status (1)

Country Link
CN (1) CN109376241B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111050315B (zh) * 2019-11-27 2021-04-13 北京邮电大学 一种基于多核双路网络的无线发射机识别方法
CN113553844B (zh) * 2021-08-11 2023-07-25 四川长虹电器股份有限公司 一种基于前缀树特征与卷积神经网络的领域识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975573A (zh) * 2016-05-04 2016-09-28 北京广利核***工程有限公司 一种基于knn的文本分类方法
CN108009284A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 采用半监督卷积神经网络的法律文本分类方法
CN108563791A (zh) * 2018-04-29 2018-09-21 华中科技大学 一种建筑质量投诉文本分类的方法和***
CN108596329A (zh) * 2018-05-11 2018-09-28 北方民族大学 基于端到端深度集成学习网络的三维模型分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1049030A1 (en) * 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975573A (zh) * 2016-05-04 2016-09-28 北京广利核***工程有限公司 一种基于knn的文本分类方法
CN108009284A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 采用半监督卷积神经网络的法律文本分类方法
CN108563791A (zh) * 2018-04-29 2018-09-21 华中科技大学 一种建筑质量投诉文本分类的方法和***
CN108596329A (zh) * 2018-05-11 2018-09-28 北方民族大学 基于端到端深度集成学习网络的三维模型分类方法

Also Published As

Publication number Publication date
CN109376241A (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN108985317B (zh) 一种基于可分离卷积和注意力机制的图像分类方法
WO2020048445A1 (en) End-to-end structure-aware convolutional networks for knowledge base completion
AU2017243270A1 (en) Method and device for extracting core words from commodity short text
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN111460148A (zh) 文本分类方法、装置、终端设备及存储介质
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN113268675B (zh) 一种基于图注意力网络的社交媒体谣言检测方法和***
CN109376241B (zh) 一种基于DenseNet面向电力领域的电话诉求文本分类算法
CN112347246B (zh) 一种基于谱分解的自适应文档聚类方法及***
CN107526792A (zh) 一种中文问句关键词快速提取方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN115456043A (zh) 分类模型处理、意图识别方法、装置和计算机设备
WO2023173537A1 (zh) 文本情感分析方法、装置、设备及存储介质
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
WO2023147299A1 (en) Systems and methods for short text similarity based clustering
CN116956289A (zh) 动态调整潜在黑名单和黑名单的方法
CN111125304A (zh) 一种基于word2vec的专利文本自动分类方法
CN114420151B (zh) 基于并联张量分解卷积神经网络的语音情感识别方法
CN112989052B (zh) 一种基于组合-卷积神经网络的中文新闻长文本分类方法
CN112101559B (zh) 一种基于机器学习的案件罪名推断方法
CN114266249A (zh) 一种基于birch聚类的海量文本聚类方法
CN113010680A (zh) 电力工单文本分类方法、装置及终端设备
CN114896398A (zh) 一种基于特征选择的文本分类***及方法
Haque et al. A Machine Learning Based Approach to Analyze Food Reviews from Bengali Text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant