CN108334605B - 文本分类方法、装置、计算机设备及存储介质 - Google Patents
文本分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN108334605B CN108334605B CN201810103251.0A CN201810103251A CN108334605B CN 108334605 B CN108334605 B CN 108334605B CN 201810103251 A CN201810103251 A CN 201810103251A CN 108334605 B CN108334605 B CN 108334605B
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- word
- vector
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文本分类方法,该方法包括:获取待分类的文本,计算所述文本对应的原始文本向量;根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量;将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果;获取所述文本分类模型输出的分类结果,根据所述分类结果对所述文本分类。该文本分类方法提高了文本分类的准确度。此外,还提出了一种文本分类装置、计算机设备及存储介质。
Description
技术领域
本申请涉及计算机处理技术领域,特别是涉及一种文本分类方法、装置、计算机设备及存储介质。
背景技术
文本分类是指根据分类意图对收集到的文本进行分类。传统的文本分类是采用人工对互联网爬虫爬取的文本进行人工分类,这种方法工作量巨大,而且准确度难以保证,随着机器学习的发展,提出了一些基于LDA(Latent Dirichlet Allocation,文档主题生成模型)等主题模型对文本分类,但是分类的效果并不理想、准确度低。
发明内容
基于此,有必要针对上述问题,提出了一种准确度高的文本分类方法、装置、计算机设备及存储介质。
一种文本分类方法,所述方法包括:
获取待分类的文本,计算所述文本对应的原始文本向量;
根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量;
将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果;
获取所述文本分类模型输出的分类结果,根据所述分类结果对所述文本分类。
一种文本分类装置,所述装置包括:
计算模块,用于获取待分类的文本,计算所述文本对应的原始文本向量;
确定模块,用于根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量;
输入模块,用于将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果;
分类模块,用于获取所述文本分类模型输出的分类结果,根据所述分类结果对所述文本分类。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待分类的文本,计算所述文本对应的原始文本向量;
根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量;
将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果;
获取所述文本分类模型输出的分类结果,根据所述分类结果对所述文本分类。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待分类的文本,计算所述文本对应的原始文本向量;
根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量;
将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果;
获取所述文本分类模型输出的分类结果,根据所述分类结果对所述文本分类。
上述文本分类方法、装置、计算机设备及存储介质,获取待分类的文本,然后计算文本对应的原始文本向量,根据原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量,然后将输入文本向量输入文本分类模型对应的通道,每个通道存在对应的子文本分类模型,文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果,然后根据分类结果对文本分类。该文本分类方法采用多通道的文本分类模型,综合各个通道输出的子分类参数确定最终的分类结果,有利于提高分类的准确性。
附图说明
图1为一个实施例中文本分类方法的应用环境图;
图2为一个实施例中文本分类方法的流程图;
图3为一个实施例中计算文本对应的原始文本向量的流程图;
图4为一个实施例中对文本进行预处理的流程示意图;
图5为一个实施例中两个通道的模型示意图;
图6为一个实施例中建立文本分类模型的方法流程图;
图7为另一个实施例中建立文本分类模型的方法流程图;
图8为一个实施例中确定分类结果的方法流程图;
图9为一个实施例中输入激活函数的示意图;
图10为一个实施例中Relu函数的示意图;
图11为一个实施例中特征矩阵的示意图;
图12为一个实施例中去掉一些神经元的示意图;
图13为一个实施例中服务化能力的架构图;
图14为另一个实施例中文本分类方法的流程图;
图15为一个实施例中文本分类装置的结构框图;
图16为另一个实施例中文本分类装置的结构框图;
图17为一个实施例中计算模块的结构框图;
图18为又一个实施例中文本分类装置的结构框图;
图19为再一个实施例中文本分类装置的结构框图;
图20为一个实施例中输入模块的结构框图;
图21为一个实施例中计算机设备的内部结构图。
具体实施方式
以下结合附图及实施例,对本申请进行进一步详细说明。
图1为一个实施例中文本分类方法的应用环境图。参照图1,该文本分类方法用于文本分类***。该文本分类***包括服务器110和终端120。服务器110和终端120通过网络连接。服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端120具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。具体地,服务器110获取待分类的文本,计算文本对应的原始文本向量,根据原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量,将各个通道对应的输入文本向量输入文本分类模型对应的通道,文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果,获取文本分类模型输出的分类结果,根据分类结果对文本分类,然后将分类后的结果发送给终端120。
如图2所示,在一个实施例中,提供了一种文本分类方法。本实施例以该方法应用于图1中的服务器110来举例说明。参照图1,该文本分类方法具体包括如下步骤:
步骤S202,获取待分类的文本,计算文本对应的原始文本向量。
其中,待分类的文本是指需要进行分类的文本。文本向量是指将文本转换为向量的表示形式。文本是指书面语言的表现形式,适用于任何语言。在一个实施例中,服务器首先需要待分类的文本进行分词处理,得到多个词语,分词是指将文本序列切分成一个一个单独的词语。然后计算每个词语的词向量,最后根据每个词语对应的词向量确定文本对应的原始文本向量,其中,正如文本是由一个个词组成的,文本向量是由一个个词向量组成的。词向量的计算方法可以采用词袋模型,也可以采用word2vec模型计算得到,其中,word2vec模型是一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。
步骤S204,根据原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量。
其中,已训练的文本分类模型是指已训练好的用于预测文本分类的模型。该文本分类模型中包含有多个通道,每个通道对应存在一个子文本分类模型。根据计算得到的原始文本向量确定每个通道的输入文本向量。在一个实施例中,计算得到的原始文本向量只有一种,那么可以将同一原始文本向量分别作为各个通道的输入文本向量。在另一个实施例中,计算得到的原始文本向量有多种,可以分别将不同的原始文本向量作为不同通道的输入文本向量。需要说明的是,不管是哪种方式,都需要将模型训练与预测过程中的输入文本向量的确定方法保持一致。也就是说,如果在训练文本分类模型时,各个通道采用的输入文本向量为一种,那么在预测的过程中,各个通道采用的输入文本向量也只能为一种,而且是采用同种词向量模型计算得到的文本向量,即训练和预测保持一致。
步骤S206,将各个通道对应的输入文本向量输入文本分类模型对应的通道,文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果。
其中,文本分类模型包含有多个通道,通道与通道之间是并行的关系。每个通道对应一个子文本分类模型,也可以理解为,一个通道就是一个子文本分类模型。子文本分类模型用于对文本进行初步分类预测。文本分类模型用于对各个子文本分类模型输出的子分类参数进行整合,即综合各个子文本分类模型的初步分类预测确定文本分类的最终分类结果。具体地,将各个通道对应的输入文本向量作为文本分类模型中对应通道的输入,文本分类模型获取每个通道输出的子分类参数,然后通过综合各个子文本分类模型对应的子分类参数确定最终的预测结果。在一个实施例中,文本分类模型是采用卷积神经网络模型训练得到的,在另一个实施例中,文本分类模型也可以采用循环神经网络模型进行训练得到。
步骤S208,获取文本分类模型输出的分类结果,根据分类结果对文本分类。
其中,文本分类模型用于对文本的类别进行预测,输出分类结果,根据该分类结果将该文本进行分类。文本分类模型通过综合各个子文本分类模型输出的子分类参数计算得到最终的分类结果,相对于传统的分类方法,该采用多通道的文本分类模型能够大大提高分类的准确性。
上述文本分类方法,通过获取待分类的文本,然后计算文本对应的原始文本向量,根据原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量,然后将输入文本向量输入文本分类模型对应的通道,每个通道存在对应的子文本分类模型,文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果,然后根据分类结果对文本分类。该文本分类方法采用多通道的文本分类模型,综合各个通道输出的子分类参数确定最终的分类结果,有利于提高分类的准确性。
如图3所示,在一个实施例中,计算文本对应的原始文本向量的步骤S102包括:
步骤S202A,对文本进行分词处理,得到多个目标词语。
其中,分词是指将文字序列切分成一个一个单独的词语,分词的处理方法可以采用结巴分词方法。在一个实施例中,可以根据文本的语义将文本进行分词处理,得到的词语可以是只含有一个字的词,也可以是含有两个字的词,当然还可以是含有三个字的词,四个字的词等。在另一个实施例中,为了避免某个词没有包含在语料库中,在建模的时候也可以只对单个字进行词向量的建模,这样在分词处理的时候,直接将文本切分为一个个单词,后续直接获取每个单词对应的词向量。在一个实施例中,在对文本进行分词之前,还包括对文本进行预处理,预处理包括将文本中的繁体字转换为简体字。在另一个实施例中,在对文本进行分词之后,还需要进一步处理,比如,去除分词后得到的词语中的停用词,比如,去除感叹词、无用字符等。具体地,可以预先建立一个停用词表,通过将分词后的词语与停用词表中的停用词进行比对,去除相应的停用词,然后确定最终的目标词语。
步骤S202B,计算每个目标词语对应的词向量,根据每个目标词语对应的词向量确定文本对应的原始文本向量。
其中,对待分类的文本进行切词处理后,得到多个目标词语。然后计算每个目标词语对应的词向量,在计算得到每个目标词语对应的词向量后,就可以得到文本对应的原始文本向量,原始文本向量是由一个个词向量按照顺序组合而成的。其中,计算目标词语对应的词向量有多种方法,比如,可以采用词袋模型,也可以采用word2vec模型。
在一个实施例中,在对文本进行分词处理,得到多个目标词语的步骤之后还包括:获取过滤词典集,当多个目标词语中没有一个命中过滤词典集中的词语时,则过滤掉文本。当多个目标词语中至少一个命中过滤词典集中的词语时,则进入计算每个目标词语对应的词向量的步骤。
其中,过滤词典集用于对获取到的文本进行筛选。由于通过爬虫从网页上爬取数据时,往往会爬取很多非目标数据。非目标数据是指与分类意图无关的数据,比如,用户想对某游戏中的人物进行分类,如果获取到的数据与该游戏无关,则说明该数据为非目标数据。为了对这些非目标数据进行筛除,采用过滤词典集对获取到的语料数据(即文本)进行筛选,筛选出目标数据,后续只需要对目标数据进行分类,对于非目标数据则直接排除。过滤词典集是通过对有效样本进行词频(term frequency,TF)统计,选取TOP N(词频排在前N位)个词作为过滤词典中的词。如果文本切分得到的多个目标词语中没有一个命中过滤词典集中的词语,则该文本为非目标文本,直接过滤掉。如果多个目标词语中有至少一个词语命中过滤词典集中的词语,则说明该文本为目标文本,需要对该目标文本进行分类,进入计算每个目标词语对应的词向量的步骤。在获取到文本后,首先通过过滤词典集对获取到的文本进行清洗,过滤掉非目标文本,大幅度降低了噪声数据。
如图4所示,在一个实施例中,对文本进行预处理的流程示意图。从通过爬虫从网页上爬取到数据后,首先将爬取的文本中包含的繁体字统一转换为简体字,然后对文本进行切词处理,得到多个词语,继而使用建立的停用词表去除掉停用词,筛选出多个目标词语,然后将目标词语与过滤词典集中的词语进行比对,如果没有一个目标词语命中过滤词典集中的词语,则说明该文本为非目标文本,直接过滤掉,不需要进行后面的处理,如果至少一个目标词语命中过滤词典集中的词语,则将该文本作为要分类的目标文本,进入计算每个目标词语对应的词向量的步骤。
在一个实施例中,文本分类模型包括第一通道和第二通道。计算每个目标词语对应的词向量,根据每个目标词语对应的词向量确定文本对应的原始文本向量的步骤S202B包括:采用第一词向量模型计算得到每个目标词语对应的第一词向量,根据第一词向量组合生成第一原始文本向量。采用第二词向量模型计算得到每个目标词语对应的第二词向量,根据第二词向量组合生成第二原始文本向量。
其中,文本分类模型包括两个通道,分别为第一通道和第二通道。第一通道对应第一子文本分类模型,第二通道对应第二子文本分类模型。计算词向量的模型有多种。采用第一词向量模型计算得到每个目标词语对应的第一词向量,然后根据第一词向量组合生成第一原始文本向量。第二词向量模型与第一词向量模型不同。采用第二词向量模型计算每个目标词语对应的第二词向量,然后根据每个目标词语对应的第二词向量组合生成第二原始文本向量。文本向量是由多个词向量组成的。
在一个实施例中,第一词向量模型可以采用词袋模型,第二词向量模型可以采用word2vec模型。其中,词袋模型是通过统计词语出现的频次来确定文本向量的,其无法表示出不同词语之间的相似性,而word2vec模型能够识别出不同字词但是意思相近的词,通过将词袋模型得到的第一词向量作为第一通道的输入,将通过word2vec模型得到的第二词向量作为第二通道的输入,能够综合两者的优势,互相补充,从而使得文本分类模型进行分类的准确性更高。
根据原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量的步骤S204包括:将第一原始文本向量作为第一通道的输入文本向量,将第二原始文本向量作为第二通道的输入文本向量。
其中,将得到的不同的文本向量分别输入文本分类模型中不同的通道。第一原始文本向量输入文本分类模型中的第一通道,第二原始文本向量输入文本分类模型中的第二通道。通过采用不同的词向量模型将文本转化为不同的词向量表示形式,然后分别代入不同的通道进行并行处理,之后综合两个通道输出的子分类参数得到最终的分类结果,通过综合不同词向量模型的优势,进而使得文本分类模型能够得到更加准确的分类结果。
如图5所示,为一个实施例中,两个通道的模型示意图。其中,两个通道为并行关系,分别包括一层卷积层、一层池化层和一层输出层,最后通过整合层将两个通道的输出进行整合计算得到最终的分类结果。通过使用该文本分类模型不仅可以提高分类的准确度,且由于每个通道只使用一层卷积层、一层池化层和一层输出层这样简单的网络结构,大幅度降低了运算的难度,提高了分类的速度。
在一个实施例中,采用第一词向量模型计算得到每个目标词语对应的第一词向量,根据第一词向量组合生成第一原始文本向量的步骤包括:构造包含有多个目标词语的词典,根据每个目标词语在文本中出现的次数确定目标词语的第一词向量,根据词典中每个目标词语的位置和每个目标词语的第一词向量确定与文本对应的第一原始文本向量。
其中,对文本切分得到多个目标词语后,构造包含有多个目标词语的词典,然后统计每个目标词语在文本中出现的次数,然后根据次数来确定目标词语对应的第一词向量,比如,假设“黄金”这个词在文本中出现了两次,那么“黄金”对应的向量表示为“2”。在确定了每个目标词语对应的第一词向量后,根据目标词语在词典中的位置和目标词语对应的第一词向量确定与文本对应的第一原始文本向量。比如,假设文本切分后得到的目标词语有{“游戏名称”、黄金、“游戏人物名称”、如何、段位、出装、如何、黄金},生成的词典为{1,“游戏名称”;2,黄金;3,段位;4,“游戏人物名称”;5,如何;6,出装},对应的生成的第一原始文本向量表示为[1,2,1,1,2,1]。该向量与原来文本中单词出现的顺序没有关系,而是词典中每个单词在文本中出现的频率来确定的。
在一个实施例中,采用第二词向量模型计算得到每个目标词语对应的第二词向量,根据第二词向量组合生成第二文本向量的步骤包括:获取第二词向量模型对应的词向量库,从词向量库中获取与每个目标词语对应的第二词向量,根据每个目标词语对应的第二词向量构建与文本对应的第二原始文本向量。
其中,词向量库中记录了每个目标词语对应的词向量,为了区分,称为“第二词向量”。该词向量能够反应词与词之间的相似度。第二词向量模型可以为word2vec模型。举个例子,“黄金”这个单词的词向量可能表示为{0.12,0.5,0.23,0.49,0.01}。在确定了每个目标词语对应的第二词向量后,按照词语在文本中的位置顺序,将多个目标词语组合生成第二原始文本向量。
在另一个实施例中,为了使得第一原始文本向量和第二原始文本向量的纬度保持一致,可以将第一原始文本向量统一乘以一个单位向量转化为与第二原始文本向量的纬度相同的向量。举个例子,假设第一原始文本向量为128*1维的矩阵,第二原始文本向量为128*320的矩阵,那么将第一原始文本向量乘以一个1*320维的矩阵,则可以得到一个128*320维的矩阵。
如图6所示,在一个实施例中,在将文本向量作为文本分类模型中每个通道的输入,获取每个通道输出的分类参数的步骤之前还包括:建立文本分类模型。建立文本分类模型具体包括以下步骤:
步骤S602,获取训练文本,计算训练文本对应的原始训练文本向量。
其中,在使用文本分类模型之前,首先需要对文本分类模型进行训练,获取训练文本集中的训练文本,然后计算训练文本对应的原始训练文本向量,首先,对训练文本进行分词处理,得到训练目标词语,然后根据词向量模型计算得到训练目标词语对应的词向量,然后根据词向量来确定训练文本对应的原始训练文本向量。
步骤S604,根据原始训练文本向量确定文本分类模型的各个通道对应的输入训练文本向量。
其中,待训练的文本分类模型中包含有多个通道,每个通道对应一个子文本分类模型,需要同时对每个通道的子文本分类模型进行训练。所以需要同时确定每个通道对应的输入训练文本向量。每个通道的输入训练文本向量可以相同,也可以不同。不过,不管是何种方式,都需要保持训练和使用一致,即如果训练的时候采用的是不同的输入训练文本向量,那么在使用训练好的文本分类模型进行预测时,也需要输入不同的输入训练文本向量。
步骤S606,获取训练文本对应的文本类别标注。
其中,需要提前对训练文本进行类别标注。一般是采用人工标注的方式对训练文本进行标注,便于将该标注的类别作为期望输出的类别对文本分类模型进行训练。
步骤S608,将各个通道对应的输入训练文本向量输入文本分类模型对应的通道,将文本类别标注作为文本分类模型期望的输出对文本分类模型进行训练,得到目标文本分类模型,目标文本分类模型包括多个子文本分类模型,各个子文本分类模型中包含的参数不同。
其中,将确定的各个通道对应的输入训练文本向量作为文本分类模型的输入,将文本类别标注作为文本分类模型期望的输出对文本分类模型进行训练,得到目标文本分类模型。其中,训练文本分类模型时可以采用卷积神经网络模型进行训练。目标文本分类模型包括多个子文本分类模型,各个子文本分类模型中包含的参数不同,即各个子文本分类模型是不同的模型。假设各个通道的输入训练文本向量相同,可以将预设的卷积核的数量、大小设置为不同,这样训练得到的各个子文本分类模型都是不同的,如果各个通道的输入训练文本向量不同,即使里面预设的卷积核的数量和大小都保持一致,训练得到的子文本分类模型都是不同的。训练文本分类模型的过程就是确定里面包含的各个卷积核中包含的权重以及偏置参数的过程。为了能够快速训练文本分类模型,可以采用Adam优化方法,其中,Adam(adaptive moment estimation,自适应矩估计)是一种基于一阶梯度来优化随机目标函数的算法。并且训练样本过多的时候可以将训练集划分为很多小块来对模型进行一步步的优化训练,比如,将batch size(批大小)设置为70,即每一小块包含有70个样本。
如图7所示,在一个实施例中,在将文本向量作为文本分类模型中每个通道的输入,获取每个通道输出的分类参数的步骤之前还包括:建立文本分类模型,具体包括以下步骤:
步骤S702,获取训练文本,对训练文本进行分词处理,得到多个训练词语。
其中,获取训练文本集中的训练文本,然后对训练文本进行分词处理,得到多个训练词语。在一个实施例中,对文本进行切词后,还包括对训练词语进行预处理,预处理包括去除停用词等,最后得到多个训练词语。
步骤S704,采用第一词向量模型计算每个训练词语对应的第一训练词向量,根据第一训练词向量组合生成第一训练文本向量。
其中,待训练的文本分类模型包括两个通道,分别为第一通道和第二通道。第一通道对应第一子文本分类模型,第二通道对应第二子文本分类模型。计算词向量的模型有多种。采用第一词向量模型计算得到每个训练词语对应的第一训练词向量,然后根据第一训练词向量组合生成第一训练文本向量。第一训练文本向量是由多个第一训练词向量组成的。
步骤S706,采用第二词向量模型计算每个训练词语对应的第二训练词向量,根据第二训练词向量组合生成第二训练文本向量。
其中,第二词向量模型与第一词向量模型不同。采用第二词向量模型计算每个训练词语对应的第二训练词向量,然后根据每个训练词语对应的第二训练词向量组合生成第二训练文本向量。
步骤S708,获取训练文本对应的文本类别标注。
其中,需要提前对训练文本进行类别标注。一般是采用人工标注的方式对训练文本进行标注,便于将该标注的类别作为期望输出的类别对文本分类模型进行训练。
步骤S710,将第一训练文本向量作为第一通道的输入,将第二训练文本向量作为第二通道的输入,将文本类别标注作为文本分类模型期望的输出对文本分类模型进行训练,得到目标分类模型,目标分类模型包括第一通道对应的子分类模型和第二通道对应的子分类模型。
其中,将第一训练文本向量输入待训练的文本分类模型中的第一通道,将第二训练文本向量输入待训练的文本分类模型中的第二通道,将文本类别标注作为文本分类模型期望的输出对文本分类模型进行训练,得到目标文本分类模型。其中,训练文本分类模型时可以采用卷积神经网络模型进行训练。目标文本分类模型包括两个子文本分类模型,两个子文本分类模型中包含的参数不同,即两个子文本分类模型是不同的模型。训练文本分类模型的过程就是确定里面包含的各个卷积核中包含的权重以及偏置参数的过程。为了能够快速训练文本分类模型,可以采用Adam优化方法,相比于梯度下降每次迭代中需要计算数据集上面的梯度,在数据集大的时候计算开销很大,Adam算法具有计算速度快的优势。在一个实施例中,使用Adam算法使得模型训练的速度得到了很大的提升,在正训练样本和负训练样本各为300的时候,采用Adam算法在服务器(16G内存CPU模式)上进行训练只需要2分钟时间即可训练完成。
采用上述建立文本分类模型的方法不仅可以快速建立文本分类模型,而且可以提高文本分类模型的准确性。在一个实施例中,在对“游戏段位英雄数据集”进行分类时,只使用100个训练样本的情况下对包含1200个语料文本进行预测的准确率达到了90%。其中,训练样本包含正训练样本和负训练样本,正训练样本是指提供正向的知识进行学习,即学习什么样的语料是合理的,负训练样本是指提供负向的知识进行学习,即学习什么样的语料是不合理的。正负训练样本的标注是使用人工对获取到的语料文本进行标注得到的,将符合游戏段位分类意图的标注为合理(即正样本),将不符合的标注为不合理(即负样本)。
上述采用的正训练样本和负训练样本的部分数据(已经经过分词处理后的数据)如下:
正训练样本:
青铜 段位 上 单位 置 好 上 分得 英雄 推荐 给 我
A B 新手 玩 什么 上分
A B打野 位 铂金 段位 上 分选 谁
A B 高 段位 上分 英雄 都 有 谁
A B 钻石 分段 推荐 几个 强势 上分 英雄 肉 或者 输出 都
A B 宫本 和 C还有 D 哪个 更 值得 上手 现在
其中,A和B表示游戏名称的词语分解,A和B和在一起为某款游戏的完整游戏名称;C和D分别表示游戏当中某个人物的名字;下同。
负训练样本:
A B 我 想 把 我的 段位 掉到 青铜 怎么 办
A B 怎么 才能 上分 到 A 铂金
A B 从 青铜 到钻石 各个 段位 的 代表 着 什么 含义
A B 铂金 段位 怎么 打
A B 多少级 打 排位 最 容易 上分
为什么 我 故意 把 A B 段位 掉到 青铜 匹配 的 还是 铂金
其中,上述正训练样本和负训练样本中的每一行就是一个训练文本经过切词得到的多个训练词语,后续根据多个训练词语计算得到每个训练文本对应的第一训练文本向量和第二训练文本向量,然后将第一训练文本向量作为第一通道的输入,将第二训练文本向量作为第二通道的输入,将训练文本对应的标注(正或负)作为期望的输出对文本分类模型进行训练,得到用于对游戏名称为AB的游戏段位英雄数据集”进行分类的文本分类模型。
采用训练好的用于游戏名称为AB的“游戏段位英雄数据集”分类的文本分类模型对待分类的文本进行分类,具体地,计算待分类文本对应的第一文本向量和第二文本向量,然后将第一文本向量作为第一通道的输入,将第二文本向量作为第二通道的输入,获取输出的待分类文本对应的分类结果,即得到待分类文本是否属于游戏名称为AB的游戏段位英雄数据。如图8所示,在一个实施例中,文本分类模型采用卷积神经网络模型训练得到,子文本分类模型包括卷积层、池化层和输出层。将各个通道对应的输入文本向量输入文本分类模型对应的通道,文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果的步骤包括:
步骤S802,将通道对应的输入文本向量作为对应通道中卷积层的输入,卷积层用于对文本向量进行卷积运算得到第一特征矩阵,将第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵。
其中,文本分类模型采用卷积神经网络模型训练得到,文本分类模型中包含的每个通道都是采用卷积神经网络模型进行训练得到的。每个通道对应一个子文本分类模型,子文本分类模型包括卷积层、池化层和输出层。首先,将与每个通道对应的输入文本向量作为卷积层的输入,卷积层对输入文本向量进行卷积运算得到第一特征矩阵,卷积运算是指利用卷积核进行乘积的运算。经过卷积核卷积可以降低特征维度,并且表达出文本中上下文联系的局部特征,不同的卷积窗口具有不同的表达能力。其中,一个卷积核对应一个输出,比如,如果卷积层中有128个卷积核,经过128个卷积核的作用将会得到128个输出,即得到128维的第一特征矩阵。如图9所示,将第一特征矩阵加上相应的偏置矩阵作为激活函数的输入,激活函数可以采用Relu函数,Relu函数具有非线性表达能力。第一特征矩阵经过激活函数进行非线性运算得到第二特征矩阵,将第二特征矩阵作为池化层的输入。相比sigmoid和tanh函数计算激活函数需要计算指数,而Relu函数只需要做一次判断,使得开销大大减少,函数表达式:f(x)=max(0,x),如图10所示。
另外,输入文本向量实际上是一个特征矩阵,即包括横向量和纵向量,如图11所示,横向量的纬度是由句子长度(sentence size)决定的,即是由句子中包含的词语的个数来决定的,纵向量的纬度是指词向量的纬度(embedding size)决定的。其中,卷积窗口的大小是根据词向量的纬度和滤波宽度(filter width)决定的,滤波宽度是由实验调整得到的,在一个实施例中,滤波宽度分别选择2,3,4,5几个值,假设词向量为128维,那么卷积窗口可以分别选择128*2,128*3,128*4,128*5。经过卷积层操作后,横向量的大小是由句子长度决定的,不同长度的句子所得到的特征向量不同,而且不同卷积核所产生的卷积向量纬度也不同。所以后续需要进行池化层的操作。
步骤S804,将第二特征矩阵作为池化层的输入,池化层用于将第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵。
其中,将卷积层输出的第二特征矩阵作为池化层的输入。在一个实施例中,池化层采用最大池化层(max-pooling),即用于将卷积层得到的每个向量中的能量最大的元素(即权重最大元素)投影到下一层的输入,这样做的目的是为了保证不同文本长度和不同卷积核的输出归一化,并保持最大信息没有丢失。第二特征矩阵是由多个向量组成的,将每个向量中最大的权重进行投影得到归一化的第三特征矩阵。在另一个实施例中,可以将每个通道的按照不同尺度卷积出来的向量合并后,改变向量纬度,改变向量纬度的目标是与下文的分类输出对应的,如果输出的为二分类的问题,那么改变向量的纬度到2维。另外,为了池化层过多容易产生过拟合,可以选择以一定概率去掉一些神经元,如图12所示为一个实施例中,以p1(0.5)的概率去掉一些神经元的示意图,左图为去掉之前的,右图为去掉神经元之后的示意图。
步骤S806,将第三特征矩阵作为输出层的输入,输出层用于根据第三特征矩阵进行分类计算得到子分类参数。
其中,输出层是指soft-max层,用于解决多分类问题,相当于一个分类器,用于根据第三特征矩阵进行分类计算得到子分类参数,子分类参数用于衡量本通道的分类结果。
步骤S808,将每个通道计算得到的子分类参数作为文本分类模型中整合层的输入,整合层用于根据每个通道输出的子分类参数进行整合计算得到最终的分类结果。
其中,文本分类模型还包括整合层(Ensemble层),整合层用于接收每个通道输出的子分类参数,然后根据子分类参数进行整合计算得到最终的分类结果。
具体地,每个通道都有自己的预测结果,对结果进行整合,如果多个通道对应的预测结果相同,则将该结果作为最终的结果。如果多个通道对应的预测结果不同,可以将概率最大的那个分类结果作为最终的结果,还可以通过加权求和的方式计算每个分类对应的总概率,将总概率最大的那个分类作为最终的输出结果。
在一个实施例中,将每个通道计算得到的子分类参数作为文本分类模型中整合层的输入,整合层用于根据每个通道输出的子分类参数进行整合计算得到最终的分类结果的步骤包括:根据每个通道计算得到子分类参数,子分类参数包括每个分类对应的输出概率,确定与通道对应的子分类结果。若多个通道的子分类结果相同,则将子分类结果作为最终的分类结果。若多个通道的子分类结果不同,则将输出概率最大的子分类结果作为最终的分类结果。
其中,子分类参数包括每个分类对应的输出概率,将输出概率最大的分类作为子分类结果。在获取到多个通道对应的子分类结果后,如果多个通道的子分类结果相同,则将该子分类结果作为最终的分类结果。如果多个通道的子分类结果不同,则将输出概率最大的子分类结果作为最终的分类结果。举个例子,假设有两个通道,而且是二分类问题。如果A通道中输出的类别1的概率为0.6,类别2的概率是0.4,B通道输出类别1的概率是0.8,类别2的概率是0.2,那么由于两者的分类结果相同,则类别1为最终的分类结果。如果A通道输出类别1的概率为0.6,类别2的概率是0.4,B通道输出类别1的概率是0.2,类别2的概率是0.8,由于两者的分类结果不同,那么选取概率最大的类别作为最终的分类结果。
在另一个实施例中,对于两个以上的通道,还可以根据通过“少数服从多数”的原则整合得到最终的结果,如果数量相同,则将概率最大的类别最终的分类结果。比如,如果存在三个通道,如果其中两个通道的结果相同,则将该两个通道所对应的结果作为最终的分类结果。
如图13所示,在一个实施例中,为了使得训练得到的文本分类模型能够快速作用于业务中,提供了该文本分类模的服务化能力的架构图。该服务器能力的架构包括:底层框架、模型层、应用层、调度层和http层。其中,http层主要是对外提供接口,供业务使用方调用。调度层中的TAF是通用的C++调度框架,方便C++工程的接入,tornado是Python的调度框架,方便Python工程的接入。应用层提供的是语料分类和数据清洗功能。模型层是提供的一些机器学习模型,包括CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短记忆神经元)、multi-channel CNN(多通道卷积神经网络)等等,其中,如果调用文本分类模型采用的是多通道的卷积神经网络。底层框架可以采用TensorFlow框架,caffee框架以及keras框架实现模型,其中,TensorFlow是谷歌研发的第二代人工智能学习***,caffee框架以及keras框架都是深度学习的框架。
如图14所示,在一个实施例中,提出了一种文本分类方法,具体包括如下步骤:
步骤S1401,获取训练文本,对训练文本进行分词处理,得到多个训练词语。
步骤S1402,采用第一词向量模型计算每个训练词语对应的第一训练词向量,根据第一训练词向量组合生成第一训练文本向量。
步骤S1403,采用第二词向量模型计算每个训练词语对应的第二训练词向量,根据第二训练词向量组合生成第二训练文本向量。
步骤S1404,获取训练文本对应的文本类别标注。
步骤S1405,将第一训练文本向量作为第一通道的输入,将第二训练文本向量作为第二通道的输入,将文本类别标注作为文本分类模型期望的输出对文本分类模型进行训练,得到目标分类模型,目标分类模型包括第一通道对应的子分类模型和第二通道对应的子分类模型。
步骤S1406,获取待分类的文本,对文本进行分词处理,得到多个目标词语。
步骤S1407,获取过滤词典集,判断多个目标词语中是否没有一个命中过滤词典集中的词语,若是,则进入步骤S1508,若否,则进入步骤S1509。
步骤S1408,过滤掉文本。
步骤S1409,采用第一词向量模型计算得到每个目标词语对应的第一词向量,根据第一词向量组合生成第一原始文本向量。
步骤S1410,采用第二词向量模型计算得到每个目标词语对应的第二词向量,根据第二词向量组合生成第二原始文本向量。
步骤S1411,将第一原始文本向量作为第一通道的输入文本向量,将第二原始文本向量作为第二通道的输入文本向量。
步骤S1412,获取文本分类模型输出的分类结果,根据分类结果对文本分类。
上述文本分类方法通过双通道的文本分类模型对文本进行分类,不仅在效果方面由于人工以及传统的机器学习方法,同时也弥补了深度学习方法中对样本数量和质量要求过高的缺陷,该模型具有轻量级的特点,不仅训练速度快,并且适用于噪声场所较大的语料分类场景。
需要说明的是,上述各个实施例中的文本分类方法可以用于任意的根据文本意图(即分类目的)进行文本分类的场景中。比如,可以应用于游戏文本分类的场景中,也可以应用于社交应用文本分类的场景中,还可以应用于话题文本分类的场景中等等。在不同应用场景下,待分类文本来源于不同的应用,如游戏文本分类的场景中,待分类文本来源于游戏数据,社交应用文本分类的场景中,待分类文本来源于社交应用使用过程中的用户数据,话题文本分类的场景中,待分类文本来源于论坛、门户网站等。在不同应用场景下,上述文本分类方法都能达到较好的分类结果。
在一个游戏文本分类场景中,根据游戏中的门派将获取到的与门派相关的文本分别分类到各个门派对应的类别中。比如,门派分为峨眉派、武当派和少林派。从网络上爬取大量的游戏语料文本后,使用人工对爬取到的部分语料文本进行标注(比如,总共爬取了1万条语料,抽取300条进行人工标注),分别标注属于峨眉派的文本,武当派的文本和少林派的文本,将除这三种以外的文本标注为其他。然后采用标注后的文本作为训练样本对文本分类模型进行训练,得到用于对游戏文本进行门派分类的文本分类模型。然后采用训练好的文本分类模型对剩下未分类的语料文本进行门派类别的归类。通过将上述文本分类方法应用到游戏文本分类场景中,在只使用300个训练样本的情况下对5000个游戏语料文本进行预测的准确率达到了95%以上。
在一个话题文本分类场景中,由于不同的人群关注的话题不同,比如,有的人喜欢关注体育类的话题,有的人喜欢关注电影类的话题,有的人喜欢关注电子科技类的话题,还有的人喜欢关注美容类的话题等。根据关注话题的不同,将文本内容分为体育类、电影类、电子科技类、美容类和其他类。从网络上爬取到大量的话题文本后,使用人工对爬取到的部分语料文本进行标注,分别标注属于体育类的文本、电影类的文本、电子科技类的文本、美容类的文本以及其他文本。然后采用标注后的文本作为训练样本对文本分类模型进行训练,得到对话题进行分类的文本分类模型,然后采用训练好的文本分类模型对剩下未分类的语料文本进行门派类别的归类。通过将上述文本分类方法应用到话题文本分类场景中,在使用200个训练样本的情况下对2000个话题文本进行分类预测的准确率达到了97%。
如图15所示,在一个实施例中,提出了一种文本分类装置,该装置包括:
计算模块1402,用于获取待分类的文本,计算所述文本对应的原始文本向量。
确定模块1404,用于根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量。
输入模块1406,用于将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果。
分类模块1408,用于获取所述文本分类模型输出的分类结果,根据所述分类结果对所述文本分类。
在一个实施例中,所述计算模块还用于对所述文本进行分词处理,得到多个目标词语,计算每个目标词语对应的词向量,根据每个目标词语对应的词向量确定所述文本对应的原始文本向量。
如图16所示,在一个实施例中,上述文本分类装置还包括:
过滤模块1503,用于获取过滤词典集,当所述多个目标词语中没有一个命中所述过滤词典集中的词语时,则过滤掉所述文本,当所述多个目标词语中至少一个命中所述过滤词典集中的词语时,则进入计算每个目标词语对应的词向量的步骤。
如图17所示,在一个实施例中,所述文本分类模型包括第一通道和第二通道;所述计算模块1502包括:
第一计算模块1502A,用于采用第一词向量模型计算得到每个目标词语对应的第一词向量,根据所述第一词向量组合生成第一原始文本向量;
第二计算模块1502B,用于采用第二词向量模型计算得到每个目标词语对应的第二词向量,根据所述第二词向量组合生成第二原始文本向量;
所述确定模块1504还用于将所述第一原始文本向量作为所述第一通道的输入文本向量,将所述第二原始文本向量作为所述第二通道的输入文本向量。
在一个实施例中,所述第一计算模块还用于构造包含有所述多个目标词语的词典,根据每个目标词语在所述文本中出现的次数确定所述目标词语的第一词向量,根据所述词典中每个目标词语的位置和每个目标词语的第一词向量确定与所述文本对应的第一原始文本向量;所述第二计算模块还用于获取第二词向量模型对应的词向量库,从所述词向量库中获取与每个目标词语对应的第二词向量,根据每个目标词语对应的第二词向量构建与所述文本对应的第二原始文本向量。
如图18所示,在一个实施例中,上述文本分类装置还包括:
第一模型建立模块1501,用于获取训练文本,计算所述训练文本对应的原始训练文本向量;根据所述原始训练文本向量确定文本分类模型的各个通道对应的输入训练文本向量;获取所述训练文本对应的文本类别标注;将各个通道对应的输入训练文本向量输入所述文本分类模型对应的通道,将所述文本类别标注作为所述文本分类模型期望的输出对所述文本分类模型进行训练,得到目标文本分类模型,所述目标文本分类模型包括多个子文本分类模型,各个子文本分类模型中包含的参数不同。
如图19所示,在一个实施例中,上述文本分类装置还包括:
第二模型建立模块1500,用于获取训练文本,对所述训练文本进行分词处理,得到多个训练词语,采用第一词向量模型计算每个训练词语对应的第一训练词向量,根据所述第一训练词向量组合生成第一训练文本向量;采用第二词向量模型计算每个训练词语对应的第二训练词向量,根据所述第二训练词向量组合生成第二训练文本向量;获取所述训练文本对应的文本类别标注;将所述第一训练文本向量作为所述第一通道的输入,将所述第二训练文本向量作为所述第二通道的输入,将所述文本类别标注作为所述文本分类模型期望的输出对所述文本分类模型进行训练,得到目标分类模型,所述目标分类模型包括第一通道对应的子分类模型和第二通道对应的子分类模型。
如图20所示,在一个实施例中,所述文本分类模型采用卷积神经网络模型训练得到,所述子文本分类模型包括卷积层、池化层和输出层;
所述输入模块1506包括:
卷积层输入模块1506A,用于将通道对应的输入文本向量作为对应通道中卷积层的输入,所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵,将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵;
池化层输入模块1506B,用于将所述第二特征矩阵作为池化层的输入,所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵;
输出层输入模块1506C,用于将所述第三特征矩阵作为输出层的输入,所述输出层用于根据所述第三特征矩阵进行分类计算得到子分类参数;
整合层计算模块1506D,用于将每个通道计算得到的子分类参数作为所述文本分类模型中整合层的输入,所述整合层用于根据每个通道输出的子分类参数进行整合计算得到最终的分类结果。
在一个实施例中,所述整合层计算模块还用于根据每个通道计算得到子分类参数,所述子分类参数包括每个分类对应的输出概率,确定与所述通道对应的子分类结果;若所述多个通道的子分类结果相同,则将所述子分类结果作为最终的分类结果;若所述多个通道的子分类结果不同,则将输出概率最大的子分类结果作为最终的分类结果。
图21示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器、也可以是终端。如图21所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本分类方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本分类方法。本领域技术人员可以理解,图21中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本分类方法可以实现为一种计算机程序的形式,计算机程序可在如图21所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本分类装置的各个程序模块,比如,如图15所示的计算模块1502、确定模块1504、输入模块1506和分类模块1508。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本分类方法中的步骤。例如,图21所示的计算机设备可以通过如图15所示的文本分类装置中计算模块1502获取待分类的文本,计算所述文本对应的原始文本向量;通过确定模块1504根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量;通过输入模块1506将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果;通过分类模块1508获取所述文本分类模型输出的分类结果,根据所述分类结果对所述文本分类。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:获取待分类的文本,计算所述文本对应的原始文本向量;根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量;将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果;获取所述文本分类模型输出的分类结果,根据所述分类结果对所述文本分类。
在一个实施例中,所述计算所述文本对应的原始文本向量的步骤包括:对所述文本进行分词处理,得到多个目标词语;计算每个目标词语对应的词向量,根据每个目标词语对应的词向量确定所述文本对应的原始文本向量。
在一个实施例中,所述处理器在执行所述对所述文本进行分词处理,得到多个目标词语的步骤之后,还用于执行以下步骤:获取过滤词典集,当所述多个目标词语中没有一个命中所述过滤词典集中的词语时,则过滤掉所述文本;当所述多个目标词语中至少一个命中所述过滤词典集中的词语时,则进入计算每个目标词语对应的词向量的步骤。
在一个实施例中,所述文本分类模型包括第一通道和第二通道;所述计算每个目标词语对应的词向量,根据每个目标词语对应的词向量确定所述文本对应的原始文本向量的步骤包括:采用第一词向量模型计算得到每个目标词语对应的第一词向量,根据所述第一词向量组合生成第一原始文本向量;采用第二词向量模型计算得到每个目标词语对应的第二词向量,根据所述第二词向量组合生成第二原始文本向量;所述根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量的步骤包括:将所述第一原始文本向量作为所述第一通道的输入文本向量,将所述第二原始文本向量作为所述第二通道的输入文本向量。
在一个实施例中,所述采用第一词向量模型计算得到每个目标词语对应的第一词向量,根据所述第一词向量组合生成第一原始文本向量的步骤包括:构造包含有所述多个目标词语的词典,根据每个目标词语在所述文本中出现的次数确定所述目标词语的第一词向量;根据所述词典中每个目标词语的位置和每个目标词语的第一词向量确定与所述文本对应的第一原始文本向量;采用第二词向量模型计算得到每个目标词语对应的第二词向量,根据所述第二词向量组合生成第二文本向量的步骤包括:获取第二词向量模型对应的词向量库,从所述词向量库中获取与每个目标词语对应的第二词向量;根据每个目标词语对应的第二词向量构建与所述文本对应的第二原始文本向量。
在一个实施例中,在所述将所述文本向量作为文本分类模型中每个通道的输入,获取每个通道输出的分类参数的步骤之前还包括:获取训练文本,计算所述训练文本对应的原始训练文本向量;根据所述原始训练文本向量确定文本分类模型的各个通道对应的输入训练文本向量;获取所述训练文本对应的文本类别标注;将各个通道对应的输入训练文本向量输入所述文本分类模型对应的通道,将所述文本类别标注作为所述文本分类模型期望的输出对所述文本分类模型进行训练,得到目标文本分类模型,所述目标文本分类模型包括多个子文本分类模型,各个子文本分类模型中包含的参数不同。
在一个实施例中,在所述将所述文本向量作为文本分类模型中每个通道的输入,获取每个通道输出的分类参数的步骤之前还包括:获取训练文本,对所述训练文本进行分词处理,得到多个训练词语;采用第一词向量模型计算每个训练词语对应的第一训练词向量,根据所述第一训练词向量组合生成第一训练文本向量;采用第二词向量模型计算每个训练词语对应的第二训练词向量,根据所述第二训练词向量组合生成第二训练文本向量;获取所述训练文本对应的文本类别标注;将所述第一训练文本向量作为所述第一通道的输入,将所述第二训练文本向量作为所述第二通道的输入,将所述文本类别标注作为所述文本分类模型期望的输出对所述文本分类模型进行训练,得到目标分类模型,所述目标分类模型包括第一通道对应的子分类模型和第二通道对应的子分类模型。
在一个实施例中,所述文本分类模型采用卷积神经网络模型训练得到,所述子文本分类模型包括卷积层、池化层和输出层;所述将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果的步骤包括:将通道对应的输入文本向量作为对应通道中卷积层的输入,所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵,将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵;将所述第二特征矩阵作为池化层的输入,所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵;将所述第三特征矩阵作为输出层的输入,所述输出层用于根据所述第三特征矩阵进行分类计算得到子分类参数;将每个通道计算得到的子分类参数作为所述文本分类模型中整合层的输入,所述整合层用于根据每个通道输出的子分类参数进行整合计算得到最终的分类结果。
在一个实施例中,所述将每个通道计算得到的子分类参数作为所述文本分类模型中整合层的输入,所述整合层用于根据每个通道输出的子分类参数进行整合计算得到最终的分类结果的步骤包括:根据每个通道计算得到子分类参数,所述子分类参数包括每个分类对应的输出概率,确定与所述通道对应的子分类结果;若所述多个通道的子分类结果相同,则将所述子分类结果作为最终的分类结果;若所述多个通道的子分类结果不同,则将输出概率最大的子分类结果作为最终的分类结果。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待分类的文本,计算所述文本对应的原始文本向量;根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量;将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果;获取所述文本分类模型输出的分类结果,根据所述分类结果对所述文本分类。
在一个实施例中,所述计算所述文本对应的原始文本向量的步骤包括:对所述文本进行分词处理,得到多个目标词语;计算每个目标词语对应的词向量,根据每个目标词语对应的词向量确定所述文本对应的原始文本向量。
在一个实施例中,所述处理器在执行所述对所述文本进行分词处理,得到多个目标词语的步骤之后,还用于执行以下步骤:获取过滤词典集,当所述多个目标词语中没有一个命中所述过滤词典集中的词语时,则过滤掉所述文本;当所述多个目标词语中至少一个命中所述过滤词典集中的词语时,则进入计算每个目标词语对应的词向量的步骤。
在一个实施例中,所述文本分类模型包括第一通道和第二通道;所述计算每个目标词语对应的词向量,根据每个目标词语对应的词向量确定所述文本对应的原始文本向量的步骤包括:采用第一词向量模型计算得到每个目标词语对应的第一词向量,根据所述第一词向量组合生成第一原始文本向量;采用第二词向量模型计算得到每个目标词语对应的第二词向量,根据所述第二词向量组合生成第二原始文本向量;所述根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量的步骤包括:将所述第一原始文本向量作为所述第一通道的输入文本向量,将所述第二原始文本向量作为所述第二通道的输入文本向量。
在一个实施例中,所述采用第一词向量模型计算得到每个目标词语对应的第一词向量,根据所述第一词向量组合生成第一原始文本向量的步骤包括:构造包含有所述多个目标词语的词典,根据每个目标词语在所述文本中出现的次数确定所述目标词语的第一词向量;根据所述词典中每个目标词语的位置和每个目标词语的第一词向量确定与所述文本对应的第一原始文本向量;采用第二词向量模型计算得到每个目标词语对应的第二词向量,根据所述第二词向量组合生成第二文本向量的步骤包括:获取第二词向量模型对应的词向量库,从所述词向量库中获取与每个目标词语对应的第二词向量;根据每个目标词语对应的第二词向量构建与所述文本对应的第二原始文本向量。
在一个实施例中,在所述将所述文本向量作为文本分类模型中每个通道的输入,获取每个通道输出的分类参数的步骤之前还包括:获取训练文本,计算所述训练文本对应的原始训练文本向量;根据所述原始训练文本向量确定文本分类模型的各个通道对应的输入训练文本向量;获取所述训练文本对应的文本类别标注;将各个通道对应的输入训练文本向量输入所述文本分类模型对应的通道,将所述文本类别标注作为所述文本分类模型期望的输出对所述文本分类模型进行训练,得到目标文本分类模型,所述目标文本分类模型包括多个子文本分类模型,各个子文本分类模型中包含的参数不同。
在一个实施例中,在所述将所述文本向量作为文本分类模型中每个通道的输入,获取每个通道输出的分类参数的步骤之前还包括:获取训练文本,对所述训练文本进行分词处理,得到多个训练词语;采用第一词向量模型计算每个训练词语对应的第一训练词向量,根据所述第一训练词向量组合生成第一训练文本向量;采用第二词向量模型计算每个训练词语对应的第二训练词向量,根据所述第二训练词向量组合生成第二训练文本向量;获取所述训练文本对应的文本类别标注;将所述第一训练文本向量作为所述第一通道的输入,将所述第二训练文本向量作为所述第二通道的输入,将所述文本类别标注作为所述文本分类模型期望的输出对所述文本分类模型进行训练,得到目标分类模型,所述目标分类模型包括第一通道对应的子分类模型和第二通道对应的子分类模型。
在一个实施例中,所述文本分类模型采用卷积神经网络模型训练得到,所述子文本分类模型包括卷积层、池化层和输出层;所述将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果的步骤包括:将通道对应的输入文本向量作为对应通道中卷积层的输入,所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵,将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵;将所述第二特征矩阵作为池化层的输入,所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵;将所述第三特征矩阵作为输出层的输入,所述输出层用于根据所述第三特征矩阵进行分类计算得到子分类参数;将每个通道计算得到的子分类参数作为所述文本分类模型中整合层的输入,所述整合层用于根据每个通道输出的子分类参数进行整合计算得到最终的分类结果。
在一个实施例中,所述将每个通道计算得到的子分类参数作为所述文本分类模型中整合层的输入,所述整合层用于根据每个通道输出的子分类参数进行整合计算得到最终的分类结果的步骤包括:根据每个通道计算得到子分类参数,所述子分类参数包括每个分类对应的输出概率,确定与所述通道对应的子分类结果;若所述多个通道的子分类结果相同,则将所述子分类结果作为最终的分类结果;若所述多个通道的子分类结果不同,则将输出概率最大的子分类结果作为最终的分类结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
Claims (15)
1.一种文本分类方法,所述方法包括:
获取待分类的文本,采用不同的词向量模型计算所述文本对应的原始文本向量;
根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量;
将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果,所述子分类参数用于衡量对应的通道的分类结果,所述子分类参数包括每个分类对应的输出概率,所述子文本分类模型与所述文本分类模型是个整体,当所述各个子文本分类模型输出的子分类参数相同时,将各个子文本分类模型对应的通道的分类结果作为文本分类模型输出的分类结果,当所述各个子文本分类模型输出的子分类参数不同时,将输出概率最大的子文本分类模型对应的通道的分类结果作为文本分类模型输出的分类结果;
获取所述文本分类模型输出的分类结果,根据所述分类结果对所述文本分类。
2.根据权利要求1所述的方法,其特征在于,所述计算所述文本对应的原始文本向量的步骤包括:
对所述文本进行分词处理,得到多个目标词语;
计算每个目标词语对应的词向量,根据每个目标词语对应的词向量确定所述文本对应的原始文本向量。
3.根据权利要求2所述的方法,其特征在于,在所述对所述文本进行分词处理,得到多个目标词语的步骤之后还包括:
获取过滤词典集,当所述多个目标词语中没有一个命中所述过滤词典集中的词语时,则过滤掉所述文本;
当所述多个目标词语中至少一个命中所述过滤词典集中的词语时,则进入计算每个目标词语对应的词向量的步骤。
4.根据权利要求2所述的方法,其特征在于,所述文本分类模型包括第一通道和第二通道;
所述计算每个目标词语对应的词向量,根据每个目标词语对应的词向量确定所述文本对应的原始文本向量的步骤包括:
采用第一词向量模型计算得到每个目标词语对应的第一词向量,根据所述第一词向量组合生成第一原始文本向量;
采用第二词向量模型计算得到每个目标词语对应的第二词向量,根据所述第二词向量组合生成第二原始文本向量;
所述根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量的步骤包括:
将所述第一原始文本向量作为所述第一通道的输入文本向量,将所述第二原始文本向量作为所述第二通道的输入文本向量。
5.根据权利要求4所述的方法,其特征在于,所述采用第一词向量模型计算得到每个目标词语对应的第一词向量,根据所述第一词向量组合生成第一原始文本向量的步骤包括:
构造包含有所述多个目标词语的词典,根据每个目标词语在所述文本中出现的次数确定所述目标词语的第一词向量;
根据所述词典中每个目标词语的位置和每个目标词语的第一词向量确定与所述文本对应的第一原始文本向量;
采用第二词向量模型计算得到每个目标词语对应的第二词向量,根据所述第二词向量组合生成第二文本向量的步骤包括:
获取第二词向量模型对应的词向量库,从所述词向量库中获取与每个目标词语对应的第二词向量;
根据每个目标词语对应的第二词向量构建与所述文本对应的第二原始文本向量。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量的步骤之前还包括:
获取训练文本,计算所述训练文本对应的原始训练文本向量;
根据所述原始训练文本向量确定待训练文本分类模型的各个通道对应的输入训练文本向量;
获取所述训练文本对应的文本类别标注;
将各个通道对应的输入训练文本向量输入所述待训练文本分类模型对应的通道,将所述文本类别标注作为所述待训练文本分类模型期望的输出对所述待训练文本分类模型进行训练,得到目标文本分类模型,所述目标文本分类模型为所述已训练的文本分类模型,所述目标文本分类模型包括多个子文本分类模型,各个子文本分类模型中包含的参数不同。
7.根据权利要求4所述的方法,其特征在于,在所述根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量的步骤之前还包括:
获取训练文本,对所述训练文本进行分词处理,得到多个训练词语;
采用第一词向量模型计算每个训练词语对应的第一训练词向量,根据所述第一训练词向量组合生成第一训练文本向量;
采用第二词向量模型计算每个训练词语对应的第二训练词向量,根据所述第二训练词向量组合生成第二训练文本向量;
获取所述训练文本对应的文本类别标注;
将所述第一训练文本向量作为待训练文本分类模型中的第一通道的输入,将所述第二训练文本向量作为所述待训练文本分类模型中的第二通道的输入,将所述文本类别标注作为所述待训练文本分类模型期望的输出对所述文本分类模型进行训练,得到目标文本分类模型,所述目标文本分类模型为所述已训练的文本分类模型,所述目标分类模型包括第一通道对应的子分类模型和第二通道对应的子分类模型。
8.根据权利要求1所述的方法,其特征在于,所述文本分类模型采用卷积神经网络模型训练得到,所述子文本分类模型包括卷积层、池化层和输出层;
所述将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果的步骤包括:
将通道对应的输入文本向量作为对应通道中卷积层的输入,所述卷积层用于对所述文本向量进行卷积运算得到第一特征矩阵,将所述第一特征矩阵加上偏置矩阵作为激活函数的输入进行非线性运算得到第二特征矩阵;
将所述第二特征矩阵作为池化层的输入,所述池化层用于将所述第二特征矩阵中每个向量中最大的权重进行投影得到归一化的第三特征矩阵;
将所述第三特征矩阵作为输出层的输入,所述输出层用于根据所述第三特征矩阵进行分类计算得到子分类参数;
将每个通道计算得到的子分类参数作为所述文本分类模型中整合层的输入,所述整合层用于根据每个通道输出的子分类参数进行整合计算得到最终的分类结果。
9.根据权利要求8所述的方法,其特征在于,所述将每个通道计算得到的子分类参数作为所述文本分类模型中整合层的输入,所述整合层用于根据每个通道输出的子分类参数进行整合计算得到最终的分类结果的步骤包括:
根据每个通道计算得到子分类参数,所述子分类参数包括每个分类对应的输出概率,确定与所述通道对应的子分类结果;
若所述多个通道的子分类结果相同,则将所述子分类结果作为最终的分类结果;
若所述多个通道的子分类结果不同,则将输出概率最大的子分类结果作为最终的分类结果。
10.一种文本分类装置,所述装置包括:
计算模块,用于获取待分类的文本,采用不同的词向量模型计算所述文本对应的原始文本向量;
确定模块,用于根据所述原始文本向量确定已训练的文本分类模型的各个通道对应的输入文本向量;
输入模块,用于将各个通道对应的输入文本向量输入所述文本分类模型对应的通道,所述文本分类模型包括多个通道,每个通道存在对应的子文本分类模型,所述文本分类模型用于根据各个子文本分类模型输出的子分类参数确定分类结果,所述子分类参数用于衡量对应的通道的分类结果,所述子分类参数包括每个分类对应的输出概率,所述子文本分类模型与所述文本分类模型是个整体,当所述各个子文本分类模型输出的子分类参数相同时,将各个子文本分类模型对应的通道的分类结果作为文本分类模型输出的分类结果,当所述各个子文本分类模型输出的子分类参数不同时,将输出概率最大的子文本分类模型对应的通道的分类结果作为文本分类模型输出的分类结果;
分类模块,用于获取所述文本分类模型输出的分类结果,根据所述分类结果对所述文本分类。
11.根据权利要求10所述的装置,其特征在于,所述计算模块还用于对所述文本进行分词处理,得到多个目标词语,计算每个目标词语对应的词向量,根据每个目标词语对应的词向量确定所述文本对应的原始文本向量。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
过滤模块,用于获取过滤词典集,当所述多个目标词语中没有一个命中所述过滤词典集中的词语时,则过滤掉所述文本,当所述多个目标词语中至少一个命中所述过滤词典集中的词语时,则进入计算每个目标词语对应的词向量的步骤。
13.根据权利要求11所述的装置,其特征在于,所述文本分类模型包括第一通道和第二通道;
所述计算模块包括:
第一计算模块,用于采用第一词向量模型计算得到每个目标词语对应的第一词向量,根据所述第一词向量组合生成第一原始文本向量;
第二计算模块,用于采用第二词向量模型计算得到每个目标词语对应的第二词向量,根据所述第二词向量组合生成第二原始文本向量;
所述确定模块还用于将所述第一原始文本向量作为所述第一通道的输入文本向量,将所述第二原始文本向量作为所述第二通道的输入文本向量。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810103251.0A CN108334605B (zh) | 2018-02-01 | 2018-02-01 | 文本分类方法、装置、计算机设备及存储介质 |
PCT/CN2019/073802 WO2019149200A1 (zh) | 2018-02-01 | 2019-01-30 | 文本分类方法、计算机设备及存储介质 |
US16/885,237 US11562145B2 (en) | 2018-02-01 | 2020-05-27 | Text classification method, computer device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810103251.0A CN108334605B (zh) | 2018-02-01 | 2018-02-01 | 文本分类方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108334605A CN108334605A (zh) | 2018-07-27 |
CN108334605B true CN108334605B (zh) | 2020-06-16 |
Family
ID=62928034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810103251.0A Active CN108334605B (zh) | 2018-02-01 | 2018-02-01 | 文本分类方法、装置、计算机设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11562145B2 (zh) |
CN (1) | CN108334605B (zh) |
WO (1) | WO2019149200A1 (zh) |
Families Citing this family (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334605B (zh) * | 2018-02-01 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
US11645507B2 (en) * | 2018-03-23 | 2023-05-09 | Vmware, Inc. | Providing models to client devices |
CN109145115B (zh) * | 2018-08-30 | 2020-11-24 | 腾讯科技(成都)有限公司 | 产品舆情发现方法、装置、计算机设备和存储介质 |
CN109145529B (zh) * | 2018-09-12 | 2021-12-03 | 重庆工业职业技术学院 | 一种用于版权认证的文本相似性分析方法与*** |
CN109471938B (zh) * | 2018-10-11 | 2023-06-16 | 平安科技(深圳)有限公司 | 一种文本分类方法及终端 |
CN109376240A (zh) * | 2018-10-11 | 2019-02-22 | 平安科技(深圳)有限公司 | 一种文本分析方法及终端 |
CN109447164B (zh) * | 2018-11-01 | 2019-07-19 | 厦门大学 | 一种运动行为模式分类方法、***以及装置 |
CN111143548A (zh) * | 2018-11-02 | 2020-05-12 | 北大方正集团有限公司 | 图书分类方法、装置、设备及计算机可读存储介质 |
CN109543084B (zh) * | 2018-11-09 | 2021-01-19 | 西安交通大学 | 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 |
CN109582774A (zh) * | 2018-11-30 | 2019-04-05 | 北京羽扇智信息科技有限公司 | 自然语言分类方法、装置、设备及存储介质 |
CN111274383B (zh) * | 2018-12-05 | 2023-11-07 | 北京京东振世信息技术有限公司 | 一种应用于报价的分类对象方法和装置 |
CN111340057B (zh) * | 2018-12-19 | 2023-07-25 | 杭州海康威视数字技术股份有限公司 | 一种分类模型训练的方法及装置 |
CN109614494B (zh) * | 2018-12-29 | 2021-10-26 | 东软集团股份有限公司 | 一种文本分类方法及相关装置 |
CN111412925B (zh) * | 2019-01-08 | 2023-07-18 | 阿里巴巴集团控股有限公司 | 一种poi位置的纠错方法及装置 |
CN109902285B (zh) * | 2019-01-08 | 2023-09-22 | 平安科技(深圳)有限公司 | 语料分类方法、装置、计算机设备及存储介质 |
CN110222171A (zh) * | 2019-05-08 | 2019-09-10 | 新华三大数据技术有限公司 | 一种分类模型应用、分类模型训练方法及装置 |
CN110134793A (zh) * | 2019-05-28 | 2019-08-16 | 电子科技大学 | 文本情感分类方法 |
CN110413993A (zh) * | 2019-06-26 | 2019-11-05 | 重庆兆光科技股份有限公司 | 一种基于稀疏权值神经网络的语义分类方法、***和介质 |
CN110442870B (zh) * | 2019-08-02 | 2023-06-09 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN110442823A (zh) * | 2019-08-06 | 2019-11-12 | 北京智游网安科技有限公司 | 网站分类方法、网站类型判断方法、存储介质及智能终端 |
CN110765230B (zh) * | 2019-09-03 | 2022-08-09 | 平安科技(深圳)有限公司 | 一种法律文本存储方法、装置、可读存储介质及终端设备 |
CN110717039B (zh) * | 2019-09-17 | 2023-10-13 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110717330A (zh) * | 2019-09-23 | 2020-01-21 | 哈尔滨工程大学 | 基于深度学习的词句级短文本分类方法 |
CN110705260B (zh) * | 2019-09-24 | 2023-04-18 | 北京工商大学 | 一种基于无监督图神经网络结构的文本向量生成方法 |
CN110674239B (zh) * | 2019-09-27 | 2022-11-04 | 中国航空无线电电子研究所 | 一种地理要素自动分类方法及装置 |
CN111858923A (zh) * | 2019-12-24 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种文本分类方法、***、装置及存储介质 |
CN111144112B (zh) * | 2019-12-30 | 2023-07-14 | 广州广电运通信息科技有限公司 | 文本相似度分析方法、装置和存储介质 |
CN111159525A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 一种文本信息采集方法及装置 |
CN111309901A (zh) * | 2020-01-19 | 2020-06-19 | 北京海鑫科金高科技股份有限公司 | 一种短文本分类方法及装置 |
CN111259148B (zh) * | 2020-01-19 | 2024-03-26 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN113111897A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于支持向量机的接警警情类别确定方法和装置 |
CN113111169A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接处警文本地址信息提取方法和装置 |
CN113111165A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接警警情类别确定方法和装置 |
CN113111171A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的处警警情类别确定方法和装置 |
CN113111172A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接处警文本人物信息提取方法和装置 |
CN113111166A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型接处警警情发生地类型确定方法和装置 |
US11914963B2 (en) * | 2020-03-04 | 2024-02-27 | Theta Lake, Inc. | Systems and methods for determining and using semantic relatedness to classify segments of text |
CN111522942B (zh) * | 2020-03-18 | 2023-09-22 | 大箴(杭州)科技有限公司 | 文本分类模型的训练方法、装置、存储介质及计算机设备 |
CN111460791B (zh) * | 2020-03-30 | 2023-12-01 | 北京百度网讯科技有限公司 | 文本分类方法、装置、设备以及存储介质 |
CN111476028A (zh) * | 2020-04-02 | 2020-07-31 | 言图科技有限公司 | 一种汉语短语识别方法、***、存储介质及电子设备 |
CN111401063B (zh) * | 2020-06-03 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 一种基于多池化网络的文本处理方法、装置和相关设备 |
CN113761180A (zh) * | 2020-06-04 | 2021-12-07 | 海信集团有限公司 | 一种文本分类方法、装置、设备及介质 |
CN111507089B (zh) * | 2020-06-09 | 2022-09-09 | 平安科技(深圳)有限公司 | 基于深度学习模型的文献分类方法、装置和计算机设备 |
CN111737474B (zh) * | 2020-07-17 | 2021-01-12 | 支付宝(杭州)信息技术有限公司 | 业务模型的训练和确定文本分类类别的方法及装置 |
CN111881262B (zh) * | 2020-08-06 | 2022-05-20 | 重庆邮电大学 | 基于多通道神经网络的文本情感分析方法 |
CN111930942B (zh) * | 2020-08-07 | 2023-08-15 | 腾讯云计算(长沙)有限责任公司 | 文本分类方法、语言模型训练方法、装置及设备 |
CN111931494B (zh) * | 2020-08-10 | 2022-06-28 | 北京字节跳动网络技术有限公司 | 用于生成预测信息的方法、装置、电子设备和介质 |
CN112069324A (zh) * | 2020-08-27 | 2020-12-11 | 北京灵汐科技有限公司 | 一种分类标签添加方法、装置、设备及存储介质 |
CN112101042A (zh) * | 2020-09-14 | 2020-12-18 | 平安科技(深圳)有限公司 | 文本情绪识别方法、装置、终端设备和存储介质 |
CN111832581B (zh) * | 2020-09-21 | 2021-01-29 | 平安科技(深圳)有限公司 | 肺部特征识别方法、装置、计算机设备及存储介质 |
CN112131366B (zh) * | 2020-09-23 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 训练文本分类模型及文本分类的方法、装置及存储介质 |
CN112000809B (zh) * | 2020-09-29 | 2024-05-17 | 迪爱斯信息技术股份有限公司 | 一种文本类别的增量学习方法及装置、可读存储介质 |
CN112256874B (zh) * | 2020-10-21 | 2023-08-08 | 平安科技(深圳)有限公司 | 模型训练方法、文本分类方法、装置、计算机设备和介质 |
CN112382275B (zh) | 2020-11-04 | 2023-08-15 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112307209B (zh) * | 2020-11-05 | 2024-04-26 | 江西高创保安服务技术有限公司 | 一种基于字符向量的短文本分类方法及*** |
CN112445912B (zh) * | 2020-11-06 | 2022-06-07 | 苏州浪潮智能科技有限公司 | 一种故障日志分类方法、***、设备以及介质 |
CN112445914A (zh) * | 2020-12-01 | 2021-03-05 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和介质 |
CN112560912B (zh) * | 2020-12-03 | 2023-09-26 | 北京百度网讯科技有限公司 | 分类模型的训练方法、装置、电子设备和存储介质 |
CN112559741B (zh) * | 2020-12-03 | 2023-12-29 | 苏州热工研究院有限公司 | 核电设备缺陷记录文本分类方法、***、介质及电子设备 |
CN112395878B (zh) * | 2020-12-14 | 2024-01-02 | 深圳供电局有限公司 | 一种基于电价政策的文本处理方法及*** |
CN112258254B (zh) * | 2020-12-21 | 2021-03-09 | 中国人民解放军国防科技大学 | 基于大数据架构的互联网广告风险监测方法及*** |
CN112650837B (zh) * | 2020-12-28 | 2023-12-12 | 上海秒针网络科技有限公司 | 结合分类算法与非监督算法的文本质量控制方法及*** |
CN112749530B (zh) * | 2021-01-11 | 2023-12-19 | 北京光速斑马数据科技有限公司 | 文本编码方法、装置、设备及计算机可读存储介质 |
CN112861506B (zh) * | 2021-03-12 | 2023-11-24 | 云知声智能科技股份有限公司 | 一种提升训练数据生成速度的方法和设备 |
CN112989044B (zh) * | 2021-03-17 | 2022-11-18 | 中国平安人寿保险股份有限公司 | 文本分类方法、装置、设备及存储介质 |
CN113011533B (zh) * | 2021-04-30 | 2023-10-24 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN113240485A (zh) * | 2021-05-10 | 2021-08-10 | 北京沃东天骏信息技术有限公司 | 文本生成模型的训练方法、文本生成方法和装置 |
CN113360653A (zh) * | 2021-06-11 | 2021-09-07 | 湖北中烟工业有限责任公司 | 获取文本意图的方法和*** |
CN113297845B (zh) * | 2021-06-21 | 2022-07-26 | 南京航空航天大学 | 一种基于多层次双向循环神经网络的简历块分类方法 |
CN113392218A (zh) * | 2021-07-12 | 2021-09-14 | 北京百度网讯科技有限公司 | 文本质量评估模型的训练方法和确定文本质量的方法 |
CN113360658A (zh) * | 2021-07-14 | 2021-09-07 | 福建亿榕信息技术有限公司 | 一种用于审计业务的文本自动分类方法 |
CN113672729B (zh) * | 2021-07-31 | 2024-07-09 | 广州永哲信息技术有限公司 | 敏感信息文本分类方法、装置、设备及存储介质 |
CN113609296B (zh) * | 2021-08-23 | 2022-09-06 | 南京擎盾信息科技有限公司 | 用于舆情数据识别的数据处理方法和装置 |
CN113722492A (zh) * | 2021-09-09 | 2021-11-30 | 国网电子商务有限公司 | 一种意图识别方法及装置 |
CN113849640A (zh) * | 2021-09-14 | 2021-12-28 | 支付宝(杭州)信息技术有限公司 | 一种数据处理方法、装置、设备及介质 |
CN113868419B (zh) * | 2021-09-29 | 2024-05-31 | 中国平安财产保险股份有限公司 | 基于人工智能的文本分类方法、装置、设备及介质 |
CN114579743B (zh) * | 2022-03-04 | 2024-06-14 | 合众新能源汽车股份有限公司 | 基于注意力的文本分类方法、装置及计算机可读介质 |
CN115935245B (zh) * | 2023-03-10 | 2023-05-26 | 吉奥时空信息技术股份有限公司 | 一种政务热线案件自动分类分拨方法 |
US11886827B1 (en) * | 2023-07-31 | 2024-01-30 | Intuit Inc. | General intelligence for tabular data |
CN116992032B (zh) * | 2023-09-25 | 2024-01-09 | 之江实验室 | 基于模型自动量化的文本分类方法、***和存储介质 |
CN116992034B (zh) * | 2023-09-26 | 2023-12-22 | 之江实验室 | 一种智能事件打标方法、装置及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1168031C (zh) * | 2001-09-07 | 2004-09-22 | 联想(北京)有限公司 | 基于文本内容特征相似度和主题相关程度比较的内容过滤器 |
CN102141978A (zh) * | 2010-02-02 | 2011-08-03 | 阿里巴巴集团控股有限公司 | 一种文本分类的方法及*** |
JP5389764B2 (ja) * | 2010-10-01 | 2014-01-15 | 日本電信電話株式会社 | マイクロブログテキスト分類装置及び方法及びプログラム |
CN103886097A (zh) * | 2014-04-04 | 2014-06-25 | 华侨大学 | 基于自适应提升算法的中文微博观点句识别特征的提取方法 |
CN103995876A (zh) * | 2014-05-26 | 2014-08-20 | 上海大学 | 一种基于卡方统计和smo算法的文本分类方法 |
CN104850540A (zh) * | 2015-05-29 | 2015-08-19 | 北京京东尚科信息技术有限公司 | 进行语句识别的方法及装置 |
CN105045924A (zh) * | 2015-08-26 | 2015-11-11 | 苏州大学张家港工业技术研究院 | 一种问题分类方法及*** |
CN105740349B (zh) * | 2016-01-25 | 2019-03-08 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN107180023B (zh) * | 2016-03-11 | 2022-01-04 | 科大讯飞股份有限公司 | 一种文本分类方法及*** |
CN106649275A (zh) * | 2016-12-28 | 2017-05-10 | 成都数联铭品科技有限公司 | 基于词性信息和卷积神经网络的关系抽取方法 |
CN107092679B (zh) * | 2017-04-21 | 2020-01-03 | 北京邮电大学 | 一种特征词向量获得方法、文本分类方法及装置 |
CN107239443A (zh) * | 2017-05-09 | 2017-10-10 | 清华大学 | 一种词向量学习模型的训练方法及服务器 |
CN107169086B (zh) * | 2017-05-12 | 2020-10-27 | 北京化工大学 | 一种文本分类方法 |
CN107247703A (zh) * | 2017-06-08 | 2017-10-13 | 天津大学 | 基于卷积神经网络和集成学习的微博情感分析方法 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN107301248B (zh) * | 2017-07-19 | 2020-07-21 | 百度在线网络技术(北京)有限公司 | 文本的词向量构建方法和装置、计算机设备、存储介质 |
CN107644074A (zh) * | 2017-09-19 | 2018-01-30 | 北京邮电大学 | 一种基于卷积神经网络的中文教材可读性分析的方法 |
CN108334605B (zh) * | 2018-02-01 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
-
2018
- 2018-02-01 CN CN201810103251.0A patent/CN108334605B/zh active Active
-
2019
- 2019-01-30 WO PCT/CN2019/073802 patent/WO2019149200A1/zh active Application Filing
-
2020
- 2020-05-27 US US16/885,237 patent/US11562145B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN108334605A (zh) | 2018-07-27 |
US11562145B2 (en) | 2023-01-24 |
WO2019149200A1 (zh) | 2019-08-08 |
US20200293720A1 (en) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334605B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN110287320B (zh) | 一种结合注意力机制的深度学习多分类情感分析模型 | |
CN109145712B (zh) | 一种融合文本信息的gif短视频情感识别方法及*** | |
CN111079639B (zh) | 垃圾图像分类模型构建的方法、装置、设备及存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN107526785A (zh) | 文本分类方法及装置 | |
CN112163165A (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
CN107085581A (zh) | 短文本分类方法和装置 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN108536784B (zh) | 评论信息情感分析方法、装置、计算机存储介质和服务器 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
Yang et al. | Meta captioning: A meta learning based remote sensing image captioning framework | |
CN113505193A (zh) | 一种数据处理方法及相关设备 | |
CN113656563A (zh) | 一种神经网络搜索方法及相关设备 | |
CN115238909A (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
WO2023159756A1 (zh) | 价格数据的处理方法和装置、电子设备、存储介质 | |
CN115456166A (zh) | 一种无源域数据的神经网络分类模型知识蒸馏方法 | |
Chaudhuri | Visual and text sentiment analysis through hierarchical deep learning networks | |
AlAjlan et al. | Machine learning approach for threat detection on social media posts containing Arabic text | |
CN113836934A (zh) | 基于标签信息增强的文本分类方法和*** | |
Ashrafi et al. | Development of image dataset using hand gesture recognition system for progression of sign language translator | |
Constantin et al. | Hateful meme detection with multimodal deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |