CN113360654A - 文本分类方法、装置、电子设备及可读存储介质 - Google Patents
文本分类方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113360654A CN113360654A CN202110696469.3A CN202110696469A CN113360654A CN 113360654 A CN113360654 A CN 113360654A CN 202110696469 A CN202110696469 A CN 202110696469A CN 113360654 A CN113360654 A CN 113360654A
- Authority
- CN
- China
- Prior art keywords
- corpus
- text
- training
- classification
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 173
- 238000012795 verification Methods 0.000 claims abstract description 91
- 238000013136 deep learning model Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 82
- 238000011176 pooling Methods 0.000 claims description 46
- 238000002372 labelling Methods 0.000 claims description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 14
- 239000002775 capsule Substances 0.000 claims description 13
- 238000004140 cleaning Methods 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 63
- 230000006870 function Effects 0.000 description 17
- 230000007246 mechanism Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及智能决策领域,揭露一种文本分类方法,包括:获取标注语料集,对标注语料集中标注语料按照标注类别进行分组,得到训练语料集和验证语料集;将训练语料集输入由至少两个深度学习模型构建的组合模型;通过组合模型对训练语料集进行迭代训练,得到训练组合模型;通过验证语料集对训练组合模型进行验证,得到验证组合模型;获取待识别文本,将待识别文本输入至验证组合模型,得到待识别文本中各单句的单句输出标签,整合单句输出标签,得到最终输出标签。本发明还涉及一种区块链技术,所述标注语料可以存储在区块链节点中。本发明还提出一种文本分类装置、电子设备以及存储介质。本发明可以提高文本分类的效率和准确率。
Description
技术领域
本发明涉及智能决策领域,尤其涉及一种文本分类方法、装置、电子设备及可读存储介质。
背景技术
随着互联网技术的飞速发展,文本分类的应用场景十分广泛,通过文本分类可对包含巨大数据量的信息进行组织、管理,现有技术中,常用的文本分类方法包含基于分类器分类的方法、基于统计分类的方法及通过构造相关因子实现分类的方法。
但是,当前这些分类方法都需要人工提取文本特征,且没有考虑特征之间的相关性,忽略了特征之间的相互影响,导致文本分类准确率及效率较低,且人力成本和时间成本的损耗都较大。
发明内容
本发明提供一种文本分类方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高文本分类的准确率和效率。
为实现上述目的,本发明提供的一种文本分类方法,包括:
获取标注语料集,对所述标注语料集中标注语料按照标注类别进行分组,得到训练语料集和验证语料集;
将所述训练语料集输入由至少两个深度学习模型构建的组合模型;
通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型;
通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型;
获取待识别文本,将所述待识别文本输入至所述验证组合模型,得到所述待识别文本中各单句的单句输出标签;
利用预设的整合标签规则整合所述单句输出标签,得到所述待识别文本的最终输出标签。
可选地,所述训练语料集包括多个文本和所述多个文本的预分类标注,所述通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型,包括:
通过所述组合模型中的卷积核对所述训练语料集中的文本执行卷积操作,得到卷积矩阵集;
根据所述训练语料集中文本的预分类标注,对所述卷积矩阵集执行最大池化或动态路由算法操作,得到池化矩阵集或动态路由求和值;
对所述池化矩阵集或所述动态路由求和值执行全连接,得到预测值;
计算所述预测值与所述训练语料集中文本的预分类标注的第一误差值;
当所述第一误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作;
当所述第一误差值小于等于所述预设阈值,得到所述训练组合模型。
可选地,所述预分类标注包括第一分类标注、第二分类标注和第三分类标注,所述根据所述训练语料集中文本的预分类标注,对所述卷积矩阵集执行最大池化或动态路由算法操作,包括:
若所述训练语料集中文本为所述第一分类标注,对所述训练语料集中文本执行最大池化操作;
若所述训练语料集中文本为第二分类标注,对所述训练语料集中文本执行最大池化和动态路由算法操作;
若所述训练语料集中文本为第三分类标注,对所述训练语料集中文本执行最大池化和动态路由算法操作。
可选地,所述通过所述组合模型中的卷积核对所述训练语料集中的文本执行卷积操作,得到卷积矩阵集,包括:
利用所述组合模型中的卷积核对所述训练语料集中的文本进行特征处理,得到N-gram特征;
对所述N-gram特征进行矩阵元素乘法求和及叠加偏差量计算,得到特征图;
合并所有所述特征图,得到所述卷积矩阵集。
可选地,所述通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型,包括:
将所述验证语料集输入至所述训练组合模型,判断所述训练组合模型输出的输出标签与所述验证语料集的第二误差值,当所述第二误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作;
当所述第二误差值小于等于所述预设阈值,得到验证组合模型。
可选地,所述至少两个深度学习模型包括TextCNN模型和CapsuleNet模型。
可选地,所述对所述标注语料集中标注语料按照标注类别进行分组,包括:
对所述标注语料集进行数据扩充,得到扩充语料集;
对所扩充语料集进行语料清洗操作,得到清洗语料集;
对所述清洗语料集中语料按照标注类别进行分组。
为了解决上述问题,本发明还提供一种文本分类装置,所述装置包括:
语料分组模块,用于获取标注语料集,对所述标注语料集中标注语料按照标注类别进行分组,得到训练语料集和验证语料集;
模型训练模块,用于将所述训练语料集输入由至少两个深度学习模型构建的组合模型,通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型,通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型;
文本分类模块,用于获取待识别文本,将所述待识别文本输入至所述验证组合模型,得到所述待识别文本中各单句的单句输出标签,利用预设的整合标签规则整合所述单句输出标签,得到所述待识别文本的最终输出标签。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的文本分类方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的文本分类方法。
本发明实施例首先将获取到的标注语料集进行分组,得到训练语料集和验证语料集;利用所述训练语料集对组合模型进行训练,得到训练组合模型,可以确保在训练过程中,所述训练组合模型对所述标注语料集持续进行迭代更新标注,不断提高所述训练组合模型的准确率;其次,将所述验证语料集输入至所述训练组合模型进行验证,得到验证组合模型,通过对组合模型的训练和验证,可以提高文本分类的准确率,可以实现文本特征的直接提取,且通过组合模型可以将文本特征间的关系相联系,提高验证组合模型进行文本分类的准确率;进一步地,获取待识别文本,将所述待识别文本输入至所述验证组合模型,得到所述待识别文本中各单句的单句输出标签;利用预设的整合标签规则整合所述单句输出标签,得到所述待识别文本的最终输出标签,可以确保将所述待识别文本直接输出为文本的各单句输出标签,最后利用标签规则整合单句输出标签,得到待识别文本的最终输出标签,减少了人力成本和时间成本的损耗,提高了文本分类的准确率和效率。因此本发明实施例提出的文本分类方法、装置、电子设备及可读存储介质可以提高文本分类的准确率和效率。
附图说明
图1为本发明一实施例提供的文本分类方法的流程示意图;
图2为本发明一实施例提供的文本分类装置的模块示意图;
图3为本发明一实施例提供的实现文本分类方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种文本分类方法。所述文本分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述文本分类方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示的本发明一实施例提供的文本分类方法的流程示意图,在本发明实施例中,所述文本分类方法包括:
S1、获取标注语料集,对所述标注语料集中标注语料按照标注类别进行分组,得到训练语料集和验证语料集。
本发明实施例中,所述标注语料集包括多个文本和所述多个文本的预分类标注。
多个文本的预分类标注是预先将多个文本按照单句为粒度执行标注得到的,具体标注时,当某个单句无意图或意图不明显且含疑问句或需经上下文判断时可标注为“无意图”。
具体的,为了使标注语料集的内容更加丰富,本实施例中,可以标注11万条文本。
详细地,所述在对标注语料集进行标注时,标注为多个类别,并且标注时,逐层细化标注类别。
具体的,所述获取标注语料集,包括:
获取多个文本,通过标注工具对所述多个文本进行第一分类标注,得到多个第一分类标注集;
通过所述标注工具对多个所述第一分类标注集中的文本分别进行第二分类标注,得到多个第二分类标注集,所述第二分类为所述第一分类的子类别;
通过所述标注工具对多个所述第二分类标注集中的文本分别进行第三分类标注,得到多个第三分类标注集,所述第三分类为所述第二分类的子类别;
合并多个第一分类标注集、多个第二分类标注集及多个第三分类标注集,得到标注语料集。
本发明一可选实施例中,所述对所述标注语料集中标注语料按照标注类别进行分组,包括:
对所述标注语料集进行数据扩充,得到扩充语料集;
对所扩充语料进行语料清洗操作,得到清洗语料集;
对所述清洗语料集中语料按照标注类别进行分组。
详细地,所述对所述标注语料集进行数据扩充,得到扩充语料集,包括:
对所述标注语料集进行回译,得到扩充语料集。
本发明实施例中,所述回译是指将标注语料翻译成另一种语言,再将该语言翻译成中文。
由于经过回译后的语句表述往往与原句不同,但与原句又存在一定的相似性,因此,通过回译的方式不仅可以扩充数据,还能增加扩充语料集中相似数据的数量,提高模型对相似语料识别的准确性,从而提高模型的准确性。
详细地,所述对所扩充语料集进行语料清洗操作,得到清洗语料集,包括:
对所述扩充语料集进行简单数据增强操作,得到所述增强语料集。
本实施例中,简单数据增强操作包括但不限于同义词替换、随机***、随机交换、随机删除之中的一项或多项。
例如,在电话领域,所述进行语料清洗可包含:除去语气词和停词,如“嗯”,“啊”等;除去开始和结尾话术,如“您好有什么需要帮助”、“再见”、“祝您平安”等;除去重复词,如当语句为“我我我我我”时,去掉重复的字;除去部分标点符号,如逗号、冒号等,但保留问号。
S2、将所述训练语料集输入由至少两个深度学习模型构建的组合模型。
优选的,所述至少两个深度学习模型包括TextCNN模型和CapsuleNet模型。
所述TextCNN模型为可进行文本分类的卷积神经网络,具体的,TextCNN模型可包含输入层、卷积层、池化层及全连接层。
所述CapsuleNet模型为一种胶囊神经网络,在所述TextCNN模型池化层中添加动态路由算法完善了所述TextCNN反向传播的缺点,将所提取的特征进行联系。
本实施例中,由于TextCNN模型结构简单、擅长提取特定的特征,所以在文本分类及NLP领域应用广泛,但是TextCNN模型无法将提取的特征进行进一步地联系,将CapsuleNet模型与TextCNN模型进行组合,以完善特征间的联系,提高文本输出标签的准确率。
详细地,所述将所述训练语料集输入由至少两个深度学习模型构建的组合模型,包括:
利用预构建的词向量转化模型对所述训练语料集中文本进行词嵌入操作,得到多个语料词向量;
将所述多个语料词向量进行拼接,得到语料词矩阵;
将所述语料词矩阵输入至由至少两个深度学习模型构建的组合模型。
本发明实施例中,所述语料词向量用于表示词语特征。所述语料词矩阵是一个由语料词向量拼成的词矩阵。
较佳地,本发明实施例中,词向量转化模型为word2vec,通过word-embedding进行词嵌入操作。
具体的,word2vec用于将所述训练语料集表示成低维稠密的向量空间,word2vec考虑了词语之间的相关性,因此能够更好的表示训练语料集中的文本。
本发明实施例中,可以将训练语料集中的文本的最大输入长度限制在100字,再使用word2vec对训练语料集中的文本的每一个字进行特征表示成1x512维的向量,将所有文本向量纵向拼接,得到n x 512的文本特征矩阵。
进一步地,所述利用预构建的词向量转化模型对所述训练语料集中文本进行词嵌入操作,得到多个语料词向量,包括:
利用预构建的所述词向量转化模型对所述训练语料集执行向量化操作,生成多个单词向量;
对多个所述单词向量进行预训练,得到多个预训练的词向量;
将所述训练语料集中的文本与多个所述词向量进行对比,得到多个所述语料词向量。
由于在词嵌入中预训练的词向量可降低词嵌过程的输出参数,因此,本实施例中对词向量提前进行训练,从而得到预训练的词向量。另外,提前训练词向量可以将语义相近的词,聚集在词向量空间里,为后续的文本分类操作提供了便利。
进一步地,所述将所述训练语料集中的文本与多个所述词向量进行对比,得到多个所述语料词向量,包括:
将所述训练语料集中的文本分别与多个所述词向量进行匹配;
若多个所述词向量中含有与所述训练语料集不同的词,标记所述不同的词为停用词,并将所述停用词去除;
若多个所述词向量中含有与所述标注语料相同的词,直接将所述相同的词转化为向量,得到多个所述语料词向量。
S3、通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型。
进一步地,所述训练语料集包括多个文本和所述多个文本的预分类标注,所述通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型,包括:
通过所述组合模型中的卷积核对所述训练语料集中的文本执行卷积操作,得到卷积矩阵集;
根据所述训练语料集中文本的预分类标注,对所述卷积矩阵集执行最大池化或动态路由算法操作,得到池化矩阵集或动态路由求和值;
对所述池化矩阵集或所述动态路由求和值执行全连接,得到预测值;
计算所述预测值与所述训练语料集中文本的预分类标注的第一误差值;
当所述第一误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作;
当所述第一误差值小于等于所述预设阈值,得到所述训练组合模型。
进一步地,所述通过所述组合模型中的卷积核对所述训练语料集中的文本执行卷积操作,得到卷积矩阵集,包括:
利用所述组合模型中的卷积核对所述训练语料集中的文本进行特征处理,得到N-gram特征;
对所述N-gram特征进行矩阵元素乘法求和及叠加偏差量计算,得到特征图;
合并所有所述特征图,得到所述卷积矩阵集。
本发明实施例中,所述卷积操作指的是输入矩阵中不同数据窗口的数据和卷积核作内积的操作叫做卷积。所述卷积核也称滤波器,用来提取特定的特征。所述卷积核的宽和所述语料词矩阵的宽相同,该宽度即为词向量大小,且所述卷积核只会在高度方向移动,所述卷积核的高度为“N-gram”。所述“N-gram”指的利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串。
本实施例中,在组合模型设置卷积核的高度来提取所述语料词矩阵相邻词汇的关联性,不仅考虑了所述通话文本中的词义而且兼顾了词序以及上下文。本发明实施例中,多个卷积核叠加形成卷积层,所述卷积层是所述组合模型中的核心,主要作用是对所述语料词矩阵做特征提取,通过使用一定数量和尺寸的卷积核顺序扫过所述语料词矩阵的所有区域,每个所述卷积核从所述语料词矩阵中提取特征值,并生成对应的特征图(featuremap)。
例如,可以设定所述卷积核宽度为(6,7,8)不包含填充,卷积计算过程可为:把所述训练语料集中的文本经过Embedding映射后的文本矩阵看作是一个embedding_size的图片,这样卷积核可以是把长设置为词向量的维度embedding_size,宽为filter_size。这样卷积核就成为一个滑动窗口,在文本上横着移动,进行卷积操作。
本实施例中,当使用了6,7,8三个大小的filter_size,相当于文本的6-gram,7-gram和8-gram,可以充分的提取文本的结构特征。
进一步地,所述对所述N-gram特征进行矩阵元素乘法求和及叠加偏差量计算,得到特征图,包括:
利用所述卷积核同所述语料词矩阵进行矩阵元素乘法,得到比原所述语料矩阵小的特征矩阵;
对所述特征矩阵叠加偏差量,得到所述特征图。
本发明实施例中,所述最大池化指的是取局部接受域中值最大的点,本质为降采样。如利用所述最大池化可以将6x6的矩阵降采样为4x4的矩阵。
所述动态路由算法是指低层胶囊将其输出发送给对此表示“同意”的高层胶囊,最终达成低层胶囊的输出与高层胶囊的输出的最佳匹配。
进一步地,所述预分类标注包括第一分类标注、第二分类标注和第三分类标注,所述根据所述训练语料集中文本的预分类标注,对所述卷积矩阵集执行最大池化或动态路由算法操作,包括:
若所述训练语料集中文本为所述第一分类标注,对所述训练语料集中文本执行最大池化操作;
若所述训练语料集中文本为第二分类标注,对所述训练语料集中文本执行最大池化和动态路由算法操作;
若所述训练语料集中文本为第三分类标注,对所述训练语料集中文本执行最大池化和动态路由算法操作。
例如,对第一分类语料可执行最大池化操作;对第二分类语料可执行所述动态路由算法操作;对第三分类语料可执行所述最大池化及所述动态路由算法操作,得到所述训练语料集中文本的池化矩阵集,进而对所述池化矩阵集执行最大池化或动态路由算法操作的处理,最终得到所述通话结果语料的动态路由求和值。
详细地,所述对所述池化矩阵集或所述动态路由求和值执行全连接,得到预测值,包括:
利用预设的函数将所述池化矩阵集或所述动态路由求和值送入至全连接层中并分类,得到分类结果;
对所述分类结果进行计算,得到对应所述分类结果的预测值。
较佳地,本发明实施例中,预设的函数为Softmax函数,所述Softmax函数用于多分类过程中,它将所述池化矩阵集或所述动态路由求和值的输出,映射到(0,1)区间内,从而进行多分类。
本发明实施例中,所述预测值是一个由所述Softmax函数得到的对应标签的概率。设定对应标签的概率为0.75。例如,“我车撞了需要报案”,若输出“报案受理”和“0.78”,则所述0.78为所述组合模型识别这句话有78%的概率代表“报案受理”。且所述0.78大于所述标签概率阈值,则认为所述“报案受理”标签能够代表这句话;若这个标签不能够代表这句话的意图,则认为这个标签无效,把这句话对应的标签强制改为“none”,即“无意图”。
详细地,所述计算所述预测值与所述训练语料集中文本的预分类标注的第一误差值,包括:
确定所述预设阈值,判断所述预测值与所述训练语料集中文本的预分类标注是否一致,若一致,则返回数值1;
若不一致,则返回数值0;
将所述返回数值进行统计,得到所述第一误差值;
详细地,所述当所述第一误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作,包括:
当所述第一误差值大于所述预设阈值,调整所述组合模型的预设迭代次数以及训练参数,得到更新组合模型;
将调整的所述预设迭代次数以及所述训练参数导入所述更新组合模型,再次执行所述对所述训练语料集中的文本执行卷积操作。
详细地,所述当所述第一误差值小于等于所述预设阈值,得到所述训练组合模型,包括:
当所述第一误差值小于等于所述预设阈值,根据预设的内部参数,返回停止循环指令;
根据所述停止循环指令,得到所述训练组合模型。
本发明实施例中,在基于编程语言构建的训练模型中,对所述误第一差值,每间隔10步查看一次所述第一误差值与所述预设阈值的准确率;每间隔100步测试一次所述第一误差值与所述预设阈值的准确率,若发现当前所述第一误差值与所述预设阈值的准确率在1000步训练之后不再提高,一直小于等于所述预设阈值,则提前停止训练,得到所述训练组合模型。
S4、通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型。
详细地,所述通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型,包括:
将所述验证语料集输入至所述训练组合模型,判断所述训练组合模型输出的输出标签与所述验证语料集的第二误差值,当所述第二误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作;
当所述第二误差值小于等于所述预设阈值,得到验证组合模型。
具体的,本实施例中,将所述验证语料集输入训练完成的所述组合模型,判断所述组合模型能否得到所述输出标签,若不能得到所述输出标签,则确定所述模型验证失败。
若得到所述输出标签,则计算所述输出标签与所述验证语料集的类别标注的第二误差值;当所述第二误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作。
具体的,本实施例中,判断所述预测值与所述验证语料集的类别标注是否一致,若所述预测值与所述验证语料集的类别标注一致,则返回数值1;若所述预测值与所述验证语料集判断不一致,则返回数值0;将所述返回数值进行统计,得到所述第二误差值;当所述误差值大于所述预设阈值,调整所述组合模型的预设迭代次数以及训练参数,再次执行所述对所述训练语料集中的文本执行卷积操作。
详细地,所述当所述第二误差值小于等于所述预设阈值,得到验证组合模型,包括:
当所述第二误差值小于等于所述预设阈值,根据预设的内部参数,返回停止循环指令;
根据所述停止循环指令,得到验证完成的所述组合模型。
本实施例中,当停止循环时,确定当前内部参数为组合模型的参数,得到组合模型。
S5、获取待识别文本,将所述待识别通话文本输入至所述验证组合模型,得到所述待识别文本中各单句的单句输出标签。
本实施例中,首先将所述待识别通话文本进行拆分并识别为单句,将识别的所述单句直接输出,得到所述待识别文本中各单句的单句输出标签。
S6、利用预设的整合标签规则,整合所述单句输出标签,得到所述待识别文本的最终输出标签。
本实施例中,所述整合标签规则根据每一个单句输出标签概率做判断,判断输出的所有所述单句输出标签是否为“无意图”标签,并将不是“无意图”的单句输出标签进行数量统计,数量最多的单句输出标签则作为待识别文本的最终输出标签。
本实施例中,所述“无意图”标签指的是单句输出标签的概率不能够代表这句话的真正意图。
详细地,所述利用预设的整合标签规则,整合所述单句输出标签,得到所述待识别文本的最终输出标签,包括:
获取所有所述单句输出标签;
判断所述单句输出标签是否为“无意图”标签;
若所述单句输出标签是“无意图”标签,利用预先制定的投票机制,剔除所述“无意图”标签;
若所述单句输出标签不是“无意图”标签,利用所述投票机制,对所述单句输出标签进行标记,得到标记单句输出标签;
统计所述单句输出标签的数量,输出最终标签。
本实施例中,所述投票机制指的是将所有单句输出标签包括的“无意图”标签剔除,并将剩余的所述单句输出标签进行数量统计,数量最多的单句输出标签则作为待识别文本的最终输出标签。若存在两个或两个以上输出标签最终数量一样的情况,则通过输出标签概率高低进行判断,标签概率高的作为最终输出标签。
具体地,本实施例中,若设定标签概率阈值为0.78。例如,“我想要办理保险业务”,若输出“业务受理”和“0.80”,则所述0.80为所述组合模型识别这句话有80%的概率代表“业务受理”。且所述0.80大于所述标签概率阈值,则认为所述“业务受理”标签能够代表这句话;若这个标签不能够代表这句话的意图,则认为这个标签无效,把这句话对应的标签强制改为“none”,即“无意图”。
进而,利用所述预先制定的投票机制统计所有单句输出标签的数量,首先剔除“无意图”的单句输出标签,将不是“无意图”的单句输出标签进行标记并统计,选出统计数量最多的不是“无意图”的单句输出标签作为待识别文本的最终输出标签。若存在两个或两个以上输出标签最终数量一样的情况,则通过输出标签概率高低进行判断,标签概率高的作为最终输出标签。
本发明实施例首先将获取到的标注语料集进行分组,得到训练语料集和验证语料集;利用所述训练语料集对组合模型进行训练,得到训练组合模型,可以确保在训练过程中,所述训练组合模型对所述标注语料集持续进行迭代更新标注,不断提高所述训练组合模型的准确率;其次,将所述验证语料集输入至所述训练组合模型进行验证,得到验证组合模型,通过对组合模型的训练和验证,可以提高文本分类的准确率,可以实现文本特征的直接提取,且通过组合模型可以将文本特征间的关系相联系,提高验证组合模型进行文本分类的准确率;进一步地,获取待识别文本,将所述待识别文本输入至所述验证组合模型,得到所述待识别文本中各单句的单句输出标签;利用预设的整合标签规则整合所述单句输出标签,得到所述待识别文本的最终输出标签,可以确保将所述待识别文本直接输出为文本的各单句输出标签,最后利用标签规则整合单句输出标签,得到待识别文本的最终输出标签,减少了人力成本和时间成本的损耗,提高了文本分类的准确率和效率。因此本发明实施例提出的文本分类方法可以提高文本分类的准确率和效率。
如图2所示,是本发明文本分类装置的功能模块图。
发明所述文本分类装置100可以安装于电子设备中。根据实现的功能,所述文本分类装置可以包括语料分组模块101、模型训练模块102和文本分类模块103,本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述语料分组模块101,用于获取标注语料集,对所述标注语料集中标注语料按照标注类别进行分组,得到训练语料集和验证语料集。
本发明实施例中,所述标注语料集包括多个文本和所述多个文本的预分类标注。
多个文本的预分类标注是预先将多个文本按照单句为粒度执行标注得到的,具体标注时,当某个单句无意图或意图不明显且含疑问句或需经上下文判断时可标注为“无意图”。
具体的,为了使标注语料集的内容更加丰富,本实施例中,可以标注11万条文本。
详细地,所述在对标注语料集进行标注时,标注为多个类别,并且标注时,逐层细化标注类别。
具体的,所述语料分组模块101通过执行下述操作获取标注语料集。
获取多个文本,通过标注工具对所述多个文本进行第一分类标注,得到多个第一分类标注集;
通过所述标注工具对多个所述第一分类标注集中的文本分别进行第二分类标注,得到多个第二分类标注集,所述第二分类为所述第一分类的子类别;
通过所述标注工具对多个所述第二分类标注集中的文本分别进行第三分类标注,得到多个第三分类标注集,所述第三分类为所述第二分类的子类别;
合并多个第一分类标注集、多个第二分类标注集及多个第三分类标注集,得到标注语料集。
本发明一可选实施例中,所述语料分组模块101通过执行下述操作对标注语料集中标注语料按照标注类别进行分组:
对所述标注语料集进行数据扩充,得到扩充语料集;
对所扩充语料进行语料清洗操作,得到清洗语料集;
对所述清洗语料集中语料按照标注类别进行分组。
详细地,所述对所述标注语料集进行数据扩充方式具体是通过对标注语料集进行回译,得到多个语料,实现数据扩充。
具体的,所述回译是指将标注语料翻译成另一种语言,再将该语言翻译成中文。
由于经过回译后的语句表述往往与原句不同,但与原句又存在一定的相似性,因此,通过回译的方式不仅可以扩充数据,还能增加扩充语料集中相似数据的数量,提高模型对相似语料识别的准确性,从而提高模型的准确性。
详细地,所述对所扩充语料集进行语料清洗操作,得到清洗语料集,包括:
对所述扩充语料集进行简单数据增强操作,得到所述增强语料集。
本实施例中,简单数据增强操作包括但不限于同义词替换、随机***、随机交换、随机删除之中的一项或多项。
例如,在电话领域,所述进行语料清洗可包含:除去语气词和停词,如“嗯”,“啊”等;除去开始和结尾话术,如“您好有什么需要帮助”、“再见”、“祝您平安”等;除去重复词,如当语句为“我我我我我”时,去掉重复的字;除去部分标点符号,如逗号、冒号等,但保留问号。
所述模型训练模块102,用于将所述训练语料集输入由至少两个深度学习模型构建的组合模型,通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型,通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型。
优选的,所述至少两个深度学习模型包括TextCNN模型和CapsuleNet模型。
所述TextCNN模型为可进行文本分类的卷积神经网络,具体的,TextCNN模型可包含输入层、卷积层、池化层及全连接层。
所述CapsuleNet模型为一种胶囊神经网络,在所述TextCNN模型池化层中添加动态路由算法完善了所述TextCNN反向传播的缺点,将所提取的特征进行联系。
本实施例中,由于TextCNN模型结构简单、擅长提取特定的特征,所以在文本分类及NLP领域应用广泛,但是TextCNN模型无法将提取的特征进行进一步地联系,将CapsuleNet模型与TextCNN模型进行组合,以完善特征间的联系,提高文本输出标签的准确率。
具体的,所述模型训练模块102通过内置的输入单元将所述训练语料集输入由至少两个深度学习模型构建的组合模型。
所述输入单元具体用于:
利用预构建的词向量转化模型对所述训练语料集中文本进行词嵌入操作,得到多个语料词向量;
将所述多个语料词向量进行拼接,得到语料词矩阵;
将所述语料词矩阵输入至由至少两个深度学习模型构建的组合模型。
本发明实施例中,所述语料词向量用于表示词语特征。所述语料词矩阵是一个由语料词向量拼成的词矩阵。
较佳地,本发明实施例中,词向量转化模型为word2vec,通过word-embedding进行词嵌入操作。
具体的,word2vec用于将所述训练语料集表示成低维稠密的向量空间,word2vec考虑了词语之间的相关性,因此能够更好的表示训练语料集中的文本。
本发明实施例中,可以将训练语料集中的文本的最大输入长度限制在100字,再使用word2vec对训练语料集中的文本的每一个字进行特征表示成1x512维的向量,将所有文本向量纵向拼接,得到n x 512的文本特征矩阵。进一步地,所述模型训练模块102通过内置的语料词向量获取单元语料词向量。
所述语料词向量获取单元具体用于:
利用预构建的所述词向量转化模型对所述训练语料集执行向量化操作,生成多个单词向量;
对多个所述单词向量进行预训练,得到多个预训练的词向量;
将所述训练语料集中的文本与多个所述词向量进行对比,得到多个所述语料词向量。
由于在词嵌入中预训练的词向量可降低词嵌过程的输出参数,因此,本实施例中对词向量提前进行训练,从而得到预训练的词向量。另外,提前训练词向量可以将语义相近的词,聚集在词向量空间里,为后续的文本分类操作提供了便利。
进一步地,所述将所述训练语料集中的文本与多个所述词向量进行对比,得到多个所述语料词向量,包括:
将所述训练语料集中的文本分别与多个所述词向量进行匹配;
若多个所述词向量中含有与所述训练语料集不同的词,标记所述不同的词为停用词,并将所述停用词去除;
若多个所述词向量中含有与所述标注语料相同的词,直接将所述相同的词转化为向量,得到多个所述语料词向量。
进一步地,所述训练语料集包括多个文本和所述多个文本的预分类标注,所述通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型,包括:
通过所述组合模型中的卷积核对所述训练语料集中的文本执行卷积操作,得到卷积矩阵集;
根据所述训练语料集中文本的预分类标注,对所述卷积矩阵集执行最大池化或动态路由算法操作,得到池化矩阵集或动态路由求和值;
对所述池化矩阵集或所述动态路由求和值执行全连接,得到预测值;
计算所述预测值与所述训练语料集中文本的预分类标注的第一误差值;
当所述第一误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作;
当所述第一误差值小于等于所述预设阈值,得到所述训练组合模型。
进一步地,所述通过所述组合模型中的卷积核对所述训练语料集中的文本执行卷积操作,得到卷积矩阵集,包括:
利用所述组合模型中的卷积核对所述训练语料集中的文本进行特征处理,得到N-gram特征;
对所述N-gram特征进行矩阵元素乘法求和及叠加偏差量计算,得到特征图;
合并所有所述特征图,得到所述卷积矩阵集。
本发明实施例中,所述卷积操作指的是输入矩阵中不同数据窗口的数据和卷积核作内积的操作叫做卷积。所述卷积核也称滤波器,用来提取特定的特征。所述卷积核的宽和所述语料词矩阵的宽相同,该宽度即为词向量大小,且所述卷积核只会在高度方向移动,所述卷积核的高度为“N-gram”。所述“N-gram”指的利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串。
本实施例中,在组合模型设置卷积核的高度来提取所述语料词矩阵相邻词汇的关联性,不仅考虑了所述通话文本中的词义而且兼顾了词序以及上下文。
本发明实施例中,多个卷积核叠加形成卷积层,所述卷积层是所述组合模型中的核心,主要作用是对所述语料词矩阵做特征提取,通过使用一定数量和尺寸的卷积核顺序扫过所述语料词矩阵的所有区域,每个所述卷积核从所述语料词矩阵中提取特征值,并生成对应的特征图(feature map)。
例如,可以设定所述卷积核宽度为(6,7,8)不包含填充,卷积计算过程可为:把所述训练语料集中的文本经过Embedding映射后的文本矩阵看作是一个embedding_size的图片,这样卷积核可以是把长设置为词向量的维度embedding_size,宽为filter_size。这样卷积核就成为一个滑动窗口,在文本上横着移动,进行卷积操作。
本实施例中,当使用了6,7,8三个大小的filter_size,相当于文本的6-gram,7-gram和8-gram,可以充分的提取文本的结构特征。
进一步地,所述对所述N-gram特征进行矩阵元素乘法求和及叠加偏差量计算,得到特征图,包括:
利用所述卷积核同所述语料词矩阵进行矩阵元素乘法,得到比原所述语料矩阵小的特征矩阵;
对所述特征矩阵叠加偏差量,得到所述特征图。
本发明实施例中,所述最大池化指的是取局部接受域中值最大的点,本质为降采样。如利用所述最大池化可以将6x6的矩阵降采样为4x4的矩阵。
所述动态路由算法是指低层胶囊将其输出发送给对此表示“同意”的高层胶囊,最终达成低层胶囊的输出与高层胶囊的输出的最佳匹配。
进一步地,所述预分类标注包括第一分类标注、第二分类标注和第三分类标注,所述根据所述训练语料集中文本的预分类标注,对所述卷积矩阵集执行最大池化或动态路由算法操作,包括:
若所述训练语料集中文本为所述第一分类标注,对所述训练语料集中文本执行最大池化操作;
若所述训练语料集中文本为第二分类标注,对所述训练语料集中文本执行最大池化和动态路由算法操作;
若所述训练语料集中文本为第三分类标注,对所述训练语料集中文本执行最大池化和动态路由算法操作。
例如,对第一分类语料可执行最大池化操作;对第二分类语料可执行所述动态路由算法操作;对第三分类语料可执行所述最大池化及所述动态路由算法操作,得到所述训练语料集中文本的池化矩阵集,进而对所述池化矩阵集执行最大池化或动态路由算法操作的处理,最终得到所述通话结果语料的动态路由求和值。
详细地,所述对所述池化矩阵集或所述动态路由求和值执行全连接,得到预测值,包括:
利用预设的函数将所述池化矩阵集或所述动态路由求和值送入至全连接层中并分类,得到分类结果;
对所述分类结果进行计算,得到对应所述分类结果的预测值。
较佳地,本发明实施例中,预设的函数为Softmax函数,所述Softmax函数用于多分类过程中,它将所述池化矩阵集或所述动态路由求和值的输出,映射到(0,1)区间内,从而进行多分类。
本发明实施例中,所述预测值是一个由所述Softmax函数得到的对应标签的概率。设定对应标签的概率为0.75。例如,“我车撞了需要报案”,若输出“报案受理”和“0.78”,则所述0.78为所述组合模型识别这句话有78%的概率代表“报案受理”。且所述0.78大于所述标签概率阈值,则认为所述“报案受理”标签能够代表这句话;若这个标签不能够代表这句话的意图,则认为这个标签无效,把这句话对应的标签强制改为“none”,即“无意图”。
详细地,所述计算所述预测值与所述训练语料集中文本的预分类标注的第一误差值,包括:
确定所述预设阈值,判断所述预测值与所述训练语料集中文本的预分类标注是否一致,若一致,则返回数值1;
若不一致,则返回数值0;
将所述返回数值进行统计,得到所述第一误差值;
详细地,所述当所述第一误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作,包括:
当所述第一误差值大于所述预设阈值,调整所述组合模型的预设迭代次数以及训练参数,得到更新组合模型;
将调整的所述预设迭代次数以及所述训练参数导入所述更新组合模型,再次执行所述对所述训练语料集中的文本执行卷积操作。
详细地,所述当所述第一误差值小于等于所述预设阈值,得到所述训练组合模型,包括:
当所述第一误差值小于等于所述预设阈值,根据预设的内部参数,返回停止循环指令;
根据所述停止循环指令,得到所述训练组合模型。
本发明实施例中,在基于编程语言构建的训练模型中,对所述误第一差值,每间隔10步查看一次所述第一误差值与所述预设阈值的准确率;每间隔100步测试一次所述第一误差值与所述预设阈值的准确率,若发现当前所述第一误差值与所述预设阈值的准确率在1000步训练之后不再提高,一直小于等于所述预设阈值,则提前停止训练,得到所述训练组合模型。
详细地,所述通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型,包括:
将所述验证语料集输入至所述训练组合模型,判断所述训练组合模型输出的输出标签与所述验证语料集的第二误差值,当所述第二误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作;
当所述第二误差值小于等于所述预设阈值,得到验证组合模型。
具体的,本实施例中,将所述验证语料集输入训练完成的所述组合模型,判断所述组合模型能否得到所述输出标签,若不能得到所述输出标签,则确定所述模型验证失败。
若得到所述输出标签,则计算所述输出标签与所述验证语料集的类别标注的第二误差值;当所述第二误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作。
具体的,本实施例中,判断所述预测值与所述验证语料集的类别标注是否一致,若所述预测值与所述验证语料集的类别标注一致,则返回数值1;若所述预测值与所述验证语料集判断不一致,则返回数值0;将所述返回数值进行统计,得到所述第二误差值;当所述误差值大于所述预设阈值,调整所述组合模型的预设迭代次数以及训练参数,再次执行所述对所述训练语料集中的文本执行卷积操作。
详细地,所述当所述第二误差值小于等于所述预设阈值,得到验证组合模型,包括:
当所述第二误差值小于等于所述预设阈值,根据预设的内部参数,返回停止循环指令;
根据所述停止循环指令,得到验证完成的所述组合模型。
本实施例中,当停止循环时,确定当前内部参数为组合模型的参数,得到组合模型。
所述文本分类模块103,用于获取待识别文本,将所述待识别文本输入至所述验证组合模型,得到所述待识别文本中各单句的单句输出标签,利用预设的整合标签规则整合所述单句输出标签,得到所述待识别文本的最终输出标签。
本实施例中,所述整合标签规则根据每一个单句输出标签概率做判断,判断输出的所有所述单句输出标签是否为“无意图”标签,并将不是“无意图”的单句输出标签进行数量统计,数量最多的单句输出标签则作为待识别文本的最终输出标签。
本实施例中,所述“无意图”标签指的是单句输出标签的概率不能够代表这句话的真正意图。
详细地,所述利用预设的整合标签规则,整合所述单句输出标签,得到所述待识别文本的最终输出标签,包括:
获取所有所述单句输出标签;
判断所述单句输出标签是否为“无意图”标签;
若所述单句输出标签是“无意图”标签,利用预先制定的投票机制,剔除所述“无意图”标签;
若所述单句输出标签不是“无意图”标签,利用所述投票机制,对所述单句输出标签进行标记,得到标记单句输出标签;利用预先制定的投票机制,判断所述单句输出标签是否为“无意图”标签;
若所述单句输出标签是“无意图”标签,则剔除所述“无意图”标签;
若所述单句输出标签不是“无意图”标签,则对所述单句输出标签进行标记,得到标记单句输出标签;
统计所述单句输出标签的数量,输出最终标签。
本实施例中,所述投票机制指的是将所有单句输出标签包括的“无意图”标签剔除,并将剩余的所述单句输出标签进行数量统计,数量最多的单句输出标签则作为待识别文本的最终输出标签。若存在两个或两个以上输出标签最终数量一样的情况,则通过输出标签概率高低进行判断,标签概率高的作为最终输出标签。
具体地,本实施例中,若设定标签概率阈值为0.78。例如,“我想要办理保险业务”,若输出“业务受理”和“0.80”,则所述0.80为所述组合模型识别这句话有80%的概率代表“业务受理”。且所述0.80大于所述标签概率阈值,则认为所述“业务受理”标签能够代表这句话;若这个标签不能够代表这句话的意图,则认为这个标签无效,把这句话对应的标签强制改为“none”,即“无意图”。
进而,利用所述预先制定的投票机制统计所有单句输出标签的数量,首先剔除“无意图”的单句输出标签,将不是“无意图”的单句输出标签进行标记并统计,选出统计数量最多的不是“无意图”的单句输出标签作为待识别文本的最终输出标签。若存在两个或两个以上输出标签最终数量一样的情况,则通过输出标签概率高低进行判断,标签概率高的作为最终输出标签。
本发明实施例首先将获取到的标注语料集进行分组,得到训练语料集和验证语料集;利用所述训练语料集对组合模型进行训练,得到训练组合模型,可以确保在训练过程中,所述训练组合模型对所述标注语料集持续进行迭代更新标注,不断提高所述训练组合模型的准确率;其次,将所述验证语料集输入至所述训练组合模型进行验证,得到验证组合模型,通过对组合模型的训练和验证,可以提高文本分类的准确率,可以实现文本特征的直接提取,且通过组合模型可以将文本特征间的关系相联系,提高验证组合模型进行文本分类的准确率;进一步地,获取待识别文本,将所述待识别文本输入至所述验证组合模型,得到所述待识别文本中各单句的单句输出标签;利用预设的整合标签规则整合所述单句输出标签,得到所述待识别文本的最终输出标签,可以确保将所述待识别文本直接输出为文本的各单句输出标签,最后利用标签规则整合单句输出标签,得到待识别文本的最终输出标签,减少了人力成本和时间成本的损耗,提高了文本分类的准确率和效率。因此本发明实施例提出的文本分类装置可以提高文本分类的准确率和效率。
如图3所示,是本发明实现文本分类方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如文本分类程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如文本分类程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如文本分类程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述通信总线12可以是外设部件互连标准(perIPheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
可选地,所述通信接口13可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,所述通信接口13还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的文本分类程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
获取标注语料集,对所述标注语料集中标注语料按照标注类别进行分组,得到训练语料集和验证语料集;
将所述训练语料集输入由至少两个深度学习模型构建的组合模型;
通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型;
通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型;
获取待识别文本,将所述待识别文本输入至所述验证组合模型,得到所述待识别文本中各单句的单句输出标签;
利用预设的整合标签规则整合所述单句输出标签,得到所述待识别文本的最终输出标签。
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明实施例还可以提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取标注语料集,对所述标注语料集中标注语料按照标注类别进行分组,得到训练语料集和验证语料集;
将所述训练语料集输入由至少两个深度学习模型构建的组合模型;
通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型;
通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型;
获取待识别文本,将所述待识别文本输入至所述验证组合模型,得到所述待识别文本中各单句的单句输出标签;
利用预设的整合标签规则整合所述单句输出标签,得到所述待识别文本的最终输出标签。
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法包括:
获取标注语料集,对所述标注语料集中标注语料按照标注类别进行分组,得到训练语料集和验证语料集;
将所述训练语料集输入由至少两个深度学习模型构建的组合模型;
通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型;
通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型;
获取待识别文本,将所述待识别文本输入至所述验证组合模型,得到所述待识别文本中各单句的单句输出标签;
利用预设的整合标签规则整合所述单句输出标签,得到所述待识别文本的最终输出标签。
2.如权利要求1所述的文本分类方法,其特征在于,所述训练语料集包括多个文本和所述多个文本的预分类标注,所述通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型,包括:
通过所述组合模型中的卷积核对所述训练语料集中的文本执行卷积操作,得到卷积矩阵集;
根据所述训练语料集中文本的预分类标注,对所述卷积矩阵集执行最大池化或动态路由算法操作,得到池化矩阵集或动态路由求和值;
对所述池化矩阵集或所述动态路由求和值执行全连接,得到预测值;
计算所述预测值与所述训练语料集中文本的预分类标注的第一误差值;
当所述第一误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作;
当所述第一误差值小于等于所述预设阈值,得到所述训练组合模型。
3.如权利要求2所述的文本分类方法,其特征在于,所述预分类标注包括第一分类标注、第二分类标注和第三分类标注,所述根据所述训练语料集中文本的预分类标注,对所述卷积矩阵集执行最大池化或动态路由算法操作,包括:
若所述训练语料集中文本为所述第一分类标注,对所述训练语料集中文本执行最大池化操作;
若所述训练语料集中文本为第二分类标注,对所述训练语料集中文本执行最大池化和动态路由算法操作;
若所述训练语料集中文本为第三分类标注,对所述训练语料集中文本执行最大池化和动态路由算法操作。
4.如权利要求2所述的文本分类方法,其特征在于,所述通过所述组合模型中的卷积核对所述训练语料集中的文本执行卷积操作,得到卷积矩阵集,包括:
利用所述组合模型中的卷积核对所述训练语料集中的文本进行特征处理,得到N-gram特征;
对所述N-gram特征进行矩阵元素乘法求和及叠加偏差量计算,得到特征图;
合并所有所述特征图,得到所述卷积矩阵集。
5.如权利要求2所述的文本分类方法,其特征在于,所述通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型,包括:
将所述验证语料集输入至所述训练组合模型,判断所述训练组合模型输出的输出标签与所述验证语料集的第二误差值,当所述第二误差值大于预设阈值,调整所述组合模型的内部参数,再次执行所述对所述训练语料集中的文本执行卷积操作;
当所述第二误差值小于等于所述预设阈值,得到验证组合模型。
6.如权利要求1至5中任一项所述的文本分类方法,其特征在于,所述至少两个深度学习模型包括TextCNN模型和CapsuleNet模型。
7.如权利要求1中所述的文本分类方法,其特征在于,所述对所述标注语料集中标注语料按照标注类别进行分组,包括:
对所述标注语料集进行数据扩充,得到扩充语料集;
对所扩充语料集进行语料清洗操作,得到清洗语料集;
对所述清洗语料集中语料按照标注类别进行分组。
8.一种文本分类装置,其特征在于,包括:
语料分组模块,用于获取标注语料集,对所述标注语料集中标注语料按照标注类别进行分组,得到训练语料集和验证语料集;
模型训练模块,用于将所述训练语料集输入由至少两个深度学习模型构建的组合模型,通过所述组合模型对所述训练语料集进行迭代训练,得到训练组合模型,通过所述验证语料集对所述训练组合模型进行验证,得到验证组合模型;
文本分类模块,用于获取待识别文本,将所述待识别文本输入至所述验证组合模型,得到所述待识别文本中各单句的单句输出标签,利用预设的整合标签规则整合所述单句输出标签,得到所述待识别文本的最终输出标签。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的文本分类方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110696469.3A CN113360654B (zh) | 2021-06-23 | 2021-06-23 | 文本分类方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110696469.3A CN113360654B (zh) | 2021-06-23 | 2021-06-23 | 文本分类方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113360654A true CN113360654A (zh) | 2021-09-07 |
CN113360654B CN113360654B (zh) | 2024-04-05 |
Family
ID=77535843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110696469.3A Active CN113360654B (zh) | 2021-06-23 | 2021-06-23 | 文本分类方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360654B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114077670A (zh) * | 2021-11-19 | 2022-02-22 | 深圳思为科技有限公司 | 一种文本标注方法及软件产品 |
CN114637824A (zh) * | 2022-03-18 | 2022-06-17 | 马上消费金融股份有限公司 | 数据增强处理方法及装置 |
WO2023045184A1 (zh) * | 2021-09-26 | 2023-03-30 | 平安科技(深圳)有限公司 | 一种文本类别识别方法、装置、计算机设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254555A1 (en) * | 2014-03-04 | 2015-09-10 | SignalSense, Inc. | Classifying data with deep learning neural records incrementally refined through expert input |
CN107832289A (zh) * | 2017-10-12 | 2018-03-23 | 北京知道未来信息技术有限公司 | 一种基于lstm‑cnn的命名实体识别方法 |
CN109815331A (zh) * | 2019-01-07 | 2019-05-28 | 平安科技(深圳)有限公司 | 文本情感分类模型的构建方法、装置和计算机设备 |
CN111930939A (zh) * | 2020-07-08 | 2020-11-13 | 泰康保险集团股份有限公司 | 一种文本检测的方法及装置 |
-
2021
- 2021-06-23 CN CN202110696469.3A patent/CN113360654B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254555A1 (en) * | 2014-03-04 | 2015-09-10 | SignalSense, Inc. | Classifying data with deep learning neural records incrementally refined through expert input |
CN107832289A (zh) * | 2017-10-12 | 2018-03-23 | 北京知道未来信息技术有限公司 | 一种基于lstm‑cnn的命名实体识别方法 |
CN109815331A (zh) * | 2019-01-07 | 2019-05-28 | 平安科技(深圳)有限公司 | 文本情感分类模型的构建方法、装置和计算机设备 |
CN111930939A (zh) * | 2020-07-08 | 2020-11-13 | 泰康保险集团股份有限公司 | 一种文本检测的方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023045184A1 (zh) * | 2021-09-26 | 2023-03-30 | 平安科技(深圳)有限公司 | 一种文本类别识别方法、装置、计算机设备及介质 |
CN114077670A (zh) * | 2021-11-19 | 2022-02-22 | 深圳思为科技有限公司 | 一种文本标注方法及软件产品 |
CN114637824A (zh) * | 2022-03-18 | 2022-06-17 | 马上消费金融股份有限公司 | 数据增强处理方法及装置 |
CN114637824B (zh) * | 2022-03-18 | 2023-12-01 | 马上消费金融股份有限公司 | 数据增强处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113360654B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597312A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN112541338A (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN113157927B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113449187A (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
CN113378970B (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
CN113704429A (zh) | 基于半监督学习的意图识别方法、装置、设备及介质 | |
CN113821622B (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113722483A (zh) | 话题分类方法、装置、设备及存储介质 | |
CN111460797A (zh) | 关键字抽取方法、装置、电子设备及可读存储介质 | |
CN112883730A (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN116821373A (zh) | 基于图谱的prompt推荐方法、装置、设备及介质 | |
CN115238670A (zh) | 信息文本抽取方法、装置、设备及存储介质 | |
CN114840684A (zh) | 基于医疗实体的图谱构建方法、装置、设备及存储介质 | |
CN112668281B (zh) | 基于模板的语料自动化扩充方法、装置、设备及介质 | |
CN107368610B (zh) | 基于全文的大文本crf和规则分类方法和*** | |
CN112507728A (zh) | 智能对话方法、装置、电子设备及存储介质 | |
CN112632264A (zh) | 智能问答方法、装置、电子设备及存储介质 | |
CN116468025A (zh) | 电子病历结构化方法、装置、电子设备及存储介质 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN112529743B (zh) | 合同要素抽取方法、装置、电子设备及介质 | |
CN115346095A (zh) | 视觉问答方法、装置、设备及存储介质 | |
CN115114408A (zh) | 多模态情感分类方法、装置、设备及存储介质 | |
CN114943306A (zh) | 意图分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |