CN108304468B - 一种文本分类方法以及文本分类装置 - Google Patents
一种文本分类方法以及文本分类装置 Download PDFInfo
- Publication number
- CN108304468B CN108304468B CN201711441846.9A CN201711441846A CN108304468B CN 108304468 B CN108304468 B CN 108304468B CN 201711441846 A CN201711441846 A CN 201711441846A CN 108304468 B CN108304468 B CN 108304468B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- classification
- gram
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种文本分类方法以及文本分类装置。该方法包括下述步骤:NLP预处理步骤,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词集合和语义标注结果;多维度特征选择步骤,对于所述词集合和语义标注结果按照多种规则组合,得到用户对话文字所包含的语义信息的向量化表征形式;以及分类步骤,对于所述多维度特征选择步骤得到的用户对话分类计算概率估计值。根据本发明的文本分类方法以及文本分类***,能够整合统计和深度学习方法的优势,通过多维度特征选择实现面向客户需求的文本分类解决方案。
Description
技术领域
本发明涉及文本处理技术,具体涉及一种文本分类方法以及文本分类装置。
背景技术
现阶段有关文本分类技术的实现方案,主要分为统计学习方法和深度学习方法。前者主要以特征选择方法为主,通过诸如TF-IDF、PMI、卡方值等指标对文本的词、句级别特征进行选择,得到代表文本的特征向量,并用机器学习的方法得出该特征向量之于各标签的概率,作为最终的分类标准;后者则以模型构建为主,将文本的离散信息作为输入,通过多层神经网络的串、并联结构,辅以反向传播算法更新网络权重,直接得到该文本之于各标签的概率。
然而,无论是统计学习方法或是深度学习方法,都有其缺陷。前者对特征选择的过于依赖导致后续算法的提升空间有限,且离散化的特征常会导致诸如数据稀疏、语义鸿沟等问题;后者则是黑盒结构,端到端的学习方法难以泛化,也很难实现领域迁移,极其依赖训练数据的规模。
发明内容
鉴于所述问题,本发明旨在提供一种能够整合统计学习方法和深度学习方法的基于多维度特征选择的文本分类方法。
本发明的文本分类方法,其特征在于,包括下述步骤:
NLP预处理步骤,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词集合和语义标注结果;以及
多维度特征选择步骤,对于所述词集合和语义标注结果按照多种规则组合,得到用户对话文字所包含的语义信息的向量化表征形式。
优选地,所述NLP预处理步骤包括下述子步骤:
将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果,其中,所述自然语言处理方法使用LTP工具包实现;以及
根据停用词词表,去除所述词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
优选地,所述多维度特征选择步骤包括下述子步骤:
抽取n-gram离散特征的子步骤;
抽取依存三元组特征的子步骤;以及
抽取WE分布式特征的子步骤。
优选地,所述抽取n-gram离散特征的子步骤包括:
从所述NLP预处理步骤得到的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形;以及
根据n-gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中。
优选地,所述抽取依存三元组特征的子步骤包括:
将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现;以及
根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表。
优选地,所述抽取WE分布式特征的子步骤包括:
将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到深度学习模型训练得到的词向量文件;以及
将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算,生成三个新的特征向量;
优选地,在所述多维度特征选择步骤之后,进一步具备:
分类步骤,对于所述多维度特征选择步骤得到的用户对话分类计算概率估计值。
优选地,所述分类步骤包括:
将通过所述多维度特征选择步骤得到的向量化的用户对话文字所包含的语义信息进行拼接;
将拼接后的特征向量作为规定分类***的输入;以及
根据分类***的输出概率,将其中最大项对应的用户对话意图,作为用户对话文本的分类标签。
优选地,所述规定分类***包括:神经网络、支持向量机、逻辑回归分类***等中的一种。
本发明的文本分类装置,其特征在于,具备:
NLP预处理装置,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词级别特征;以及
多维度特征选择装置,对于所述词级别特征分别从多个层面向量化用户对话词集合。
优选地,所述NLP预处理装置包括:
词集合和语义标注结果获取子模块,将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果,其中,所述自然语言处理方法使用LTP工具包实现;以及
停用词去除子模块,根据停用词词表,去除所述词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
优选地,所述多维度特征选择装置具备:
用于抽取n-gram离散特征的n-gram离散特征子模块;
用于抽取依存三元组特征的依存三元组特征子模块;以及
用户抽取WE分布式特征的WE分布式特征子模块。
优选地,所述n-gram离散特征子模块将从所述NLP预处理装置获得的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形,并且,根据n-gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中。
优选地,所述抽取依存三元组特征的三元组特征子模块将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现,并且,根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表。
优选地,所述WE分布式特征子模块将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到word2vec或GloVe深度学***均值Avg计算,生成三个新的特征向量。
优选地,进一步具备:
分类模块,对于从所述多维度特征选择装置得到的用户对话分类计算概率估计值。
优选地,所述分类模块包括:
拼接子模块,将通过所述多维度特征选择装置得到的向量化的用户对话文字所包含的语义信息进行拼接;以及
分类***,将拼接后的特征向量作为输入并且根据输出概率将其中最大项对应的用户对话意图,作为用户对话文本的分类标签。
优选地,所述规定分类***为神经网络、支持向量机、逻辑回归分类***等中的一种。
如上所述,根据本发明的文本分类方法以及文本分类***,能够整合统计和深度学习方法的优势,通过多维度特征选择实现面向客户需求的文本分类解决方案。而且,本发明的文本分类方法以及文本分类***,领域适应性佳,再者,由于利用特征选择的方法,得以在小规模训练数据上进行学习。
附图说明
图1是本发明一实施方式的文本分类方法的流程图。
图2是本发明实施例1的文本分类方法的流程图。
图3是本发明的文本分类装置的构造示意图。
具体实施方式
下面介绍的是本发明的多个实施例中的一些,旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。
本方案的目的是针对现有的文本分类方法存在的诸如数据稀疏以及模型泛化等问题,提出一种基于多维度特征选择的文本分类方法以及文本分类***。本发明的主要技术构思在于,首先对用户对话文本进行分词、词性标注、去除停用词等常规NLP预处理,然后分别抽取对话文本中的n-gram特征、Word Embedding特征、依存句法关系三元组特征,将其拼接后输入到神经网络分类***中,最终得到分类标签对应的概率。
图1是本发明一实施方式的文本分类方法的流程图。图1中箭头表示数据流向。
如图1所示,本发明一实施方式的文本分类方法包括下述步骤:
NLP预处理步骤S10:对用户对话文本进行自然语言处理方法的分析,得到关于该用户对话文字的词级别特征,具体地例如,针对用户对话文字进行分词、词性标注和去除停用词等自然语言处理技术的分析,得到关于该段文字的词集合和语义标注结果(其中,NLP是指Natural Language Processing,自然语言处理方法);
多维度特征选择步骤S20:对于所述词级别特征分别从多个层面向量化用户对话词集合,例如在本实施方式中,分别是抽取n-gram(n元语法)离散特征、抽取依存三元组特征、以及抽取WE(Word Embedding,词向量)分布式特征;以及
利用分类***实现的分类步骤S30:对于所述多维度特征选择步骤S20得到的用户对话分类计算概率估计值。
接着,对于本发明的文本分类方法的一个具体实施例进行说明。
图2是本发明实施例1的文本分类方法的流程图。
如图2所示,本发明实施例1的文本分类方法包括下述步骤:NLP预处理步骤S100、多维度特征选择步骤S200以及分类步骤S300。
接着,对于各个步骤进行详细说明。
NLP预处理步骤S200包括下述子步骤:
将用户对话文字以词为单位进行分词和词性标注并得到词集合,其中,所述自然语言处理方法使用LTP(语言技术平台)工具包实现;以及
根据停用词词表,去除上述步骤中得到的词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
所述多维度特征选择步骤S200包括下述子步骤(在图2中S200的虚线框中的从左到右的顺序表示):
抽取n-gram离散特征的子步骤S210;
抽取依存三元组特征的子步骤S220;以及
抽取WE分布式特征的子步骤S230。
具体地,在抽取n-gram离散特征的子步骤S210中包括下述内容:
从所述NLP预处理步骤得到的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形;以及
根据n-gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中。
在抽取依存三元组特征的子步骤S220中包括下述内容:
将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现;以及
根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表,其中,可以将包含客服业务关键词的依存关系(例如发起词、接收词以及关系类型)集合作为依存三元组特征。
在抽取WE分布式特征的子步骤S230中包括下述内容:
将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到深度学习模型(例如,word2vec或GloVe)训练得到的词向量文件;以及
将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算,生成三个新的特征向量作为WE(Word Embedding,词向量)分布式特征。
接着,在分类步骤S300中包括下述内容:
将通过所述多维度特征选择步骤S200得到的多个层面向量化用户对话词集合的结果进行拼接的步骤S310;
将拼接后的特征向量作为规定分类***例如神经网络分类器的输入的步骤S320;以及
根据分类***的输出概率,将其中最大项对应的用户对话意图,作为用户对话文本的分类标签,得到用户对话分类概率。
作为变换方式,规定分类***除了神经网络之外,例如也可以是支持向量机、逻辑回归等分类算法。
接着,对于本发明的文本分类方法的变形例进行说明。
在上述实施方式的文本分类方式中,上述自然语言处理方法使用LTP工具实现,可替换为其他自然语言处理的工具。进一步,在多维度特征选择步骤中使用word2vec训练得到的词向量实现,可替换为GloVe等其他工具实现。进一步,在分类步骤中使用的神经网络分类器,可替换为其他分类模型。
接着对于本发明的文本分类方法的一变形例进行说明。
该变形例的文本分类方法包括下述步骤:
一、NLP预处理步骤,其包括:
(1) 将用户对话文字以词为单位进行分词和词性标注,以句为单位进行依存句法分析,其中,分词、词性标注、依存句法分析属于自然语言处理方法范畴,可以使用诸如LTP、Stanford Parser等工具包实现,属于可替换技术方案;
(2)去除(1)中得到的词集合中的停用词,其中,去除停用词是自然语言处理方法中的一种技术,可选择诸如词频、词性等策略进行去除停用词操作,属于可替换技术方案。
二、多维度特征选择步骤,其包括:
(1) 根据NLP预处理步骤得到的词序列,抽取Unigram、Bigram和Trigram集合,作为n-gram离散特征;以及
(2) 根据NLP预处理步骤得到的依存句法分析结果,将包含客服业务关键词的依存关系 (发起词,接收词,关系类型)集合,作为依存三元组特征;
(3)使用深度学***均值Avg计算,生成三个新的特征向量,作为WE分布式特征,其中,训练词向量的方法,可以使用诸如Wordvec、GloVe等工具包实现;
三、分类步骤(该步骤可以省略,属于补充实施例),其包括:
(1)将多维度特征选择步骤中的三部分特征向量进行拼接;
(2)将拼接后的特征向量作为神经网络分类器的输入,其中,特征向量可以作为诸如神经网络、支持向量机、逻辑回归等分类器的输入,属于可替换技术方案;
(3)根据分类器的输出概率,将其中最大项作为用户对话文本的分类标签。
以上对于本发明的文本分类方法进行了说明。接着,对于本发明的文本分类装置进行说明。
图3是本发明的文本分类装置的构造示意图。
如图3所示,本发明的文本分类装置具备:
NLP预处理装置100,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词集合和语义标注结果;以及
多维度特征选择装置200,对于所述词集合和语义标注结果按照多种规则组合,得到用户对话文字所包含的语义信息的向量化表征形式;以及
分类模块300,对于从所述多维度特征选择装置得到的用户对话分类计算的概率估计值。
其中,NLP预处理装置100包括:
词集合和语义标注结果获取子模块110,将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果,其中,所述自然语言处理方法使用LTP工具包实现;以及
停用词去除子模块120,根据停用词词表,去除所述词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
其中,多维度特征选择装置200具备:
用于抽取n-gram离散特征的n-gram离散特征子模块210;
用于抽取依存三元组特征的依存三元组特征子模块220;以及
用户抽取WE分布式特征的WE分布式特征子模块230。
具体地,n-gram离散特征子模块210将从所述NLP预处理装置100获得的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形,并且,根据各gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中。
再者,抽取依存三元组特征的三元组特征子模块220将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现,并且,根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表。
再者,WE分布式特征子模块230将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到word2vec或GloVe深度学***均值Avg计算,生成三个新的特征向量。
分类模块300包括:
拼接子模块310,将通过所述多维度特征选择装置200得到的向量化的用户对话文字所包含的语义信息进行拼接;以及
分类***320,将拼接后的特征向量作为输入并且根据输出概率将其中最大项对应的用户对话意图作为用户对话文本的分类标签。
根据本发明的文本分类方法以及文本分类***,能够整合统计和深度学习方法的优势,通过多维度特征选择实现面向客户需求的文本分类解决方案。而且,本发明的文本分类方法以及文本分类***,领域适应性佳,再者,由于利用特征选择的方法,得以在小规模训练数据上进行学习。
以上例子主要说明了本发明的文本分类方法以及文本分类***。尽管只对其中一些本发明的具体实施方式进行了描述,但是本领域普通技术人员应当了解,本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此,所展示的例子与实施方式被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。
Claims (10)
1.一种文本分类方法,其特征在于,包括下述步骤:
NLP预处理步骤,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词集合和语义标注结果;以及
多维度特征选择步骤,对于所述词集合和语义标注结果按照多种规则组合,得到用户对话文字所包含的语义信息的向量化表征形式,
其中,所述多维度特征选择步骤包括下述子步骤:
抽取n-gram离散特征的子步骤;
抽取依存三元组特征的子步骤;以及
抽取WE分布式特征的子步骤,
其中,将三个子步骤得到的三部分的特征向量进行拼接,将拼接后的特征向量作为所述向量化表征形式,
其中,所述抽取依存三元组特征的子步骤包括:
将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现;以及
根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表,所述客服业务的关键词为发起词、接收词以及关系类型,
其中,所述抽取n-gram离散特征的子步骤包括:
从所述NLP预处理步骤得到的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形;以及
其中,根据n-gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中,
所述抽取WE分布式特征的子步骤包括:
将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到深度学习模型训练得到的词向量文件;以及
将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算,生成三个新的特征向量。
2.如权利要求1所述文本分类方法,其特征在于,
所述NLP预处理步骤包括下述子步骤:
将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果,其中,所述自然语言处理方法使用LTP工具包实现;以及
根据停用词词表,去除所述词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
3.如权利要求1或2任意一项所述文本分类方法,其特征在于,在所述多维度特征选择步骤之后,进一步具备:
分类步骤,对于所述多维度特征选择步骤得到的用户对话分类计算概率估计值。
4.如权利要求3所述文本分类方法,其特征在于,
所述分类步骤包括:
将通过所述多维度特征选择步骤得到的向量化的用户对话文字所包含的语义信息进行拼接;
将拼接后的特征向量作为规定分类***的输入;以及
根据分类***的输出概率,将其中最大项对应的用户对话意图,作为用户对话文本的分类标签。
5.如权利要求4所述文本分类方法,其特征在于,
所述规定分类***包括:神经网络、支持向量机、逻辑回归分类***中的一种。
6.一种文本分类装置,其特征在于,具备:
NLP预处理装置,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词集合和语义标注结果;以及
多维度特征选择装置,对于所述词集合和语义标注结果按照多种规则组合,得到用户对话文字所包含的语义信息的向量化表征形式,
其中,所述多维度特征选择装置具备:
用于抽取n-gram离散特征的n-gram离散特征子模块;
用于抽取依存三元组特征的依存三元组特征子模块;以及
用户抽取WE分布式特征的WE分布式特征子模块,
其中,将三个子模块得到的三部分的特征向量进行拼接,将拼接后的特征向量作为所述向量化表征形式,
所述抽取依存三元组特征的三元组特征子模块将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现,并且,根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表,所述客服业务的关键词为发起词、接收词以及关系类型,
其中,所述n-gram离散特征子模块将从所述NLP预处理装置获得的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形,并且,根据n-gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中,
其中,所述WE分布式特征子模块将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到word2vec或GloVe深度学***均值Avg计算,生成三个新的特征向量。
7.如权利要求6所述文本分类装置,其特征在于,
所述NLP预处理装置包括:
词集合和语义标注结果获取子模块,将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果,其中,所述自然语言处理方法使用LTP工具包实现;以及
停用词去除子模块,根据停用词词表,去除所述词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
8.如权利要求6或7所述文本分类装置,其特征在于,进一步具备:
分类模块,对于从所述多维度特征选择装置得到的用户对话分类计算概率估计值。
9.如权利要求8所述文本分类装置,其特征在于,
所述分类模块包括:
拼接子模块,将通过所述多维度特征选择装置得到的向量化的用户对话文字所包含的语义信息进行拼接;以及
分类***,将拼接后的特征向量作为输入并且根据输出概率将其中最大项对应的用户对话意图,作为用户对话文本的分类标签。
10.如权利要求9所述文本分类装置,其特征在于,
所述分类模块将通过所述多维度特征选择模块得到的向量化的用户对话文字所包含的语义信息进行拼接,将拼接后的特征向量作为规定分类***的输入,根据分类***的输出概率,将其中最大项对应的用户对话意图,作为用户对话文本的分类标签,
所述规定分类***为神经网络、支持向量机、逻辑回归分类***中的一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711441846.9A CN108304468B (zh) | 2017-12-27 | 2017-12-27 | 一种文本分类方法以及文本分类装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711441846.9A CN108304468B (zh) | 2017-12-27 | 2017-12-27 | 一种文本分类方法以及文本分类装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304468A CN108304468A (zh) | 2018-07-20 |
CN108304468B true CN108304468B (zh) | 2021-12-07 |
Family
ID=62867494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711441846.9A Active CN108304468B (zh) | 2017-12-27 | 2017-12-27 | 一种文本分类方法以及文本分类装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304468B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241530B (zh) * | 2018-08-29 | 2021-08-20 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN109409529B (zh) * | 2018-09-13 | 2020-12-08 | 北京中科闻歌科技股份有限公司 | 一种事件认知分析方法、***及存储介质 |
CN109460434B (zh) * | 2018-10-25 | 2020-11-03 | 北京知道创宇信息技术股份有限公司 | 数据提取模型建立方法及装置 |
CN109522407A (zh) * | 2018-10-26 | 2019-03-26 | 平安科技(深圳)有限公司 | 企业关系预测方法、装置、计算机设备和存储介质 |
CN109376230B (zh) * | 2018-12-18 | 2019-12-17 | 广东博维创远科技有限公司 | 犯罪定罪预测方法、***、存储介质及服务器 |
CN109471980A (zh) * | 2018-12-20 | 2019-03-15 | 厦门笨鸟电子商务有限公司 | 一种基于文本匹配的搜索推荐相关度计算方法 |
CN111625628B (zh) * | 2019-02-12 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 信息处理方法及装置、存储介质和处理器 |
CN110209812B (zh) * | 2019-05-07 | 2022-04-22 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
CN110222180B (zh) * | 2019-06-04 | 2021-05-28 | 江南大学 | 一种文本数据分类与信息挖掘方法 |
CN110321557A (zh) * | 2019-06-14 | 2019-10-11 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN112580681B (zh) * | 2019-09-30 | 2022-02-01 | 北京星选科技有限公司 | 用户分类方法、装置、电子设备及可读存储介质 |
CN110879832A (zh) * | 2019-10-23 | 2020-03-13 | 支付宝(杭州)信息技术有限公司 | 目标文本检测方法、模型训练方法、装置及设备 |
CN111274399A (zh) * | 2020-01-20 | 2020-06-12 | 上海市大数据中心 | 一种基于自然语言预处理的公共数据分级方法 |
CN111428489B (zh) * | 2020-03-19 | 2023-08-29 | 北京百度网讯科技有限公司 | 一种评论生成方法、装置、电子设备及存储介质 |
CN111523062B (zh) * | 2020-04-24 | 2024-02-27 | 浙江口碑网络技术有限公司 | 多维度信息展示方法及装置 |
WO2021237550A1 (zh) * | 2020-05-28 | 2021-12-02 | 深圳市欢太科技有限公司 | 文本处理方法、电子设备和计算机可读存储介质 |
CN111639162A (zh) * | 2020-06-03 | 2020-09-08 | 贝壳技术有限公司 | 信息交互方法和装置、电子设备和存储介质 |
CN112347779B (zh) * | 2020-11-23 | 2024-06-14 | 军工保密资格审查认证中心 | 一种涉密文本密级自动判定的方法和装置 |
US11854528B2 (en) | 2020-12-22 | 2023-12-26 | Samsung Electronics Co., Ltd. | Method and system for detecting unsupported utterances in natural language understanding |
CN112560481B (zh) * | 2020-12-25 | 2024-05-31 | 北京百度网讯科技有限公司 | 语句处理方法、设备和存储介质 |
CN114579709B (zh) * | 2022-03-15 | 2023-04-07 | 西南交通大学 | 一种基于知识图谱的智能问答意图识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899298A (zh) * | 2015-06-09 | 2015-09-09 | 华东师范大学 | 一种基于大规模语料特征学习的微博情感分析方法 |
CN106445919A (zh) * | 2016-09-28 | 2017-02-22 | 上海智臻智能网络科技股份有限公司 | 一种情感分类方法及装置 |
CN107066446A (zh) * | 2017-04-13 | 2017-08-18 | 广东工业大学 | 一种嵌入逻辑规则的循环神经网络文本情感分析方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917353B2 (en) * | 2007-03-29 | 2011-03-29 | International Business Machines Corporation | Hybrid text segmentation using N-grams and lexical information |
JP5963310B2 (ja) * | 2013-01-30 | 2016-08-03 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法、及び、情報処理プログラム |
CN104298651B (zh) * | 2014-09-09 | 2017-02-22 | 大连理工大学 | 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法 |
RU2605077C2 (ru) * | 2015-03-19 | 2016-12-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ и система для хранения и поиска информации, извлекаемой из текстовых документов |
US10262062B2 (en) * | 2015-12-21 | 2019-04-16 | Adobe Inc. | Natural language system question classifier, semantic representations, and logical form templates |
CN105678327A (zh) * | 2016-01-05 | 2016-06-15 | 北京信息科技大学 | 一种面向中文专利的实体间非分类关系抽取方法 |
CN107180023B (zh) * | 2016-03-11 | 2022-01-04 | 科大讯飞股份有限公司 | 一种文本分类方法及*** |
CN105975594A (zh) * | 2016-05-09 | 2016-09-28 | 清华大学 | 基于组合特征向量和SVMperf的情感分类方法及装置 |
-
2017
- 2017-12-27 CN CN201711441846.9A patent/CN108304468B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899298A (zh) * | 2015-06-09 | 2015-09-09 | 华东师范大学 | 一种基于大规模语料特征学习的微博情感分析方法 |
CN106445919A (zh) * | 2016-09-28 | 2017-02-22 | 上海智臻智能网络科技股份有限公司 | 一种情感分类方法及装置 |
CN107066446A (zh) * | 2017-04-13 | 2017-08-18 | 广东工业大学 | 一种嵌入逻辑规则的循环神经网络文本情感分析方法 |
Non-Patent Citations (1)
Title |
---|
面向论坛文本的大学生情绪识别研究;刘林;《中国博士学位论文全文数据库社会科学Ⅱ辑》;20170215(第 02 期);第H127-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108304468A (zh) | 2018-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
Jung | Semantic vector learning for natural language understanding | |
AlQahtani | Product sentiment analysis for amazon reviews | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN113268974B (zh) | 多音字发音标注方法、装置、设备及存储介质 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及*** | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
KR101948257B1 (ko) | 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 | |
CN114579430A (zh) | 一种基于预训练语言模型的测试用例推荐***及方法 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN112000802A (zh) | 基于相似度集成的软件缺陷定位方法 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
Tasharofi et al. | Evaluation of statistical part of speech tagging of Persian text | |
CN114722198A (zh) | 产品分类编码确定方法、***及相关装置 | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
CN112711666B (zh) | 期货标签抽取方法及装置 | |
Asmawati et al. | Sentiment analysis of text memes: A comparison among supervised machine learning methods | |
TW202034207A (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
Arora et al. | Sentimental analysis on imdb movies review using bert | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN115858781A (zh) | 一种文本标签提取方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |