CN110232127B - 文本分类方法及装置 - Google Patents

文本分类方法及装置 Download PDF

Info

Publication number
CN110232127B
CN110232127B CN201910523985.9A CN201910523985A CN110232127B CN 110232127 B CN110232127 B CN 110232127B CN 201910523985 A CN201910523985 A CN 201910523985A CN 110232127 B CN110232127 B CN 110232127B
Authority
CN
China
Prior art keywords
information
text
sequence information
word
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910523985.9A
Other languages
English (en)
Other versions
CN110232127A (zh
Inventor
杨开平
谌立
熊永福
冯岭子
龚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Unisinsight Technology Co Ltd
Original Assignee
Chongqing Unisinsight Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Unisinsight Technology Co Ltd filed Critical Chongqing Unisinsight Technology Co Ltd
Priority to CN201910523985.9A priority Critical patent/CN110232127B/zh
Publication of CN110232127A publication Critical patent/CN110232127A/zh
Application granted granted Critical
Publication of CN110232127B publication Critical patent/CN110232127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本分类方法及装置,涉及自然语言处理领域。该方法包括:获取待分类文本;根据待分类文本的词语信息以及预设模型,获取待分类文本的词向量,根据词向量及预测算法,获取待分类文本的文本向量;采用双向长短记忆网络LSTM模型训练序列信息,预测词语信息与列信息的关联关系;整合文本向量与序列信息的关联关系,并将整合后的文本向量与序列信息的关联关系输入至预设分类模型中,得到文本的类别。通过在序列信息中使用双向LSTM模型预设在序列信息中计算当前文本序列出现的概率,同时结合文本向量,可精准预测待分类文本的语义特征和序列特征,将语义特征与序列特征整合后输入至分类器,可得待分类文本的精准分类。

Description

文本分类方法及装置
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种文本分类方法及装置。
背景技术
在自然语言处理领域(Natura Language Processing,NLP)中,通过文本分类可以帮助用户高效的管理文本数据,以及为文本挖掘提供基础支撑,例如,新闻的分类排版、档案的分类管理、搜索引擎的信息检索、问答***的答案搜寻等。
现有技术中,基于规则的文本分类表示通常有向量空间模型(Vector SpaceModel,VSM)、主题模型和深度学习的语言模型三种类型。其中,VSM模型以词语为基础,得到文本的分类信息,一般适用于长文本数据;主题模型通过学习浅层的文本语义信息得到文本的分类信息;深度学习的语言模型可以自动化的学习文本特征表示。
但是,VSM模型一般会丢失部分语义信息和序列信息。主题模型只能学习浅层的文本语义信息,得到的语义是模糊的、粗粒度的。深度学习的语言模型文本分类上不具有易用性和可扩展性,即适合短文本分类的不太适合长文本分类,适合长文本分类的又不太适合短文本的分类。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种文本分类方法及装置,以解决现有技术文本分类模型易用性不强,分类不准确中的问题。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种文本分类方法,包括:获取待分类文本,其中,待分类文本包括:词语信息和序列信息,多个词语信息构成所述序列信息;根据待分类文本的词语信息以及预设模型,获取待分类文本的词向量,根据词向量及预设算法,获取待分类文本的文本向量;采用双向长短记忆网络LSTM模型训练序列信息,预测词语信息与序列信息的关联关系,其中,双向LSTM模型包括:前向LSTM模型和后向LSTM模型;整合文本向量与序列信息的关联关系,并将整合后的文本向量与所述序列信息的关联关系输入至预设分类模型中,得到文本的类别。
可选地,采用双向长短记忆网络LSTM模型训练序列信息,预测词语信息与序列信息的关联关系之前,还包括:若序列信息中的词语信息数量小于预设长度,则补充默认数值,得到补充后的序列信息,补充后的序列信息的词语信息数量为预设长度;采用双向LSTM模型训练补充后的序列信息,得到词语信息与补充后的序列信息的关联关系。
可选地,采用双向长短记忆网络LSTM模型训练序列信息,预测所述词语信息与序列信息的关联关系,包括:若序列信息中的词语信息数量大于预设长度,则删除部分词语信息,得到删除后的序列信息,删除后的序列信息的词语信息数量为预设长度;采用双向LSTM模型训练删除后的序列信息,得到词语信息与删除后的序列信息的关联关系。
可选地,采用双向长短记忆网络LSTM模型训练序列信息,得到词语信息与序列信息的关联关系,包括:
采用前向LSTM模型训练序列信息,获取词语信息与序列信息的关联关系为
Figure BDA0002096313720000031
其中,用n表示待分类文本中包含n个词语信息的词组为(t1,t2,...,tn-1,tn),p(t1,t2,...,tk-1,tk)表示出现(t1,t2,...,tk-1,tk)该种序列结构语句信息;
采用后向LSTM训练序列信息,获取词语信息与所述序列信息的关联关系为
Figure BDA0002096313720000032
其中,p(tk+1,tk+2,...,tn-1,tn)表示出现(tk+1,tk+2,...,tn-1,tn)该种序列结构语句信息的概率;
结合前向和后向语言信息为单层双向LSTM模型,其log似然函数如下:
Figure BDA0002096313720000033
根据上式预测所述序列信息中当前词语信息与前向词语信息及后向词语信息的关联关系。
可选地,根据待分类文本的所述词语信息以及预设模型,获取待分类文本的词向量之前,还包括:对待分类文本进行分词处理。
第二方面,本发明实施例还提供了一种文本分类装置,包括:
获取模块,用于获取待分类文本,其中,待分类文本包括:词语信息和序列信息,多个词语信息构成所述序列信息;获取模块,具体用于根据待分类文本的所述词语信息以及预设模型,获取待分类文本的词向量,根据词向量及预设算法,获取待分类文本的文本向量;预测模块,用于采用双向长短记忆网络LSTM模型训练序列信息,预测词语信息与序列信息的关联关系,其中,双向LSTM模型包括:前向LSTM模型和后向LSTM模型;整合模块,用于整合文本向量与序列信息的关联关系,并将整合后的所述文本向量与序列信息的关联关系输入至预设分类模型中,得到文本的类别。
可选地,还包括:补充模块,用于若序列信息中的词语信息数量小于预设长度,则补充默认数值,得到补充后的序列信息,补充后的序列信息的词语信息数量为预设长度;采用双向LSTM模型训练补充后的序列信息,得到词语信息与补充后的序列信息的关联关系。
可选地,补充模块,具体用于若序列信息中的词语信息数量大于预设长度,则删除部分词语信息,得到删除后的序列信息,删除后的序列信息的词语信息数量为预设长度;采用双向LSTM模型训练删除后的序列信息,得到词语信息与删除后的序列信息的关联关系。
可选地,预测模块具体用于,采用前向LSTM模型训练序列信息,获取词语信息与序列信息的关联关系为
Figure BDA0002096313720000051
其中,用n表示待分类文本中包含n个词语信息的词组为(t1,t2,...,tn-1,tn),p(t1,t2,...,tk-1,tk)表示出现(t1,t2,...,tk-1,tk)该种序列结构语句信息的概率;采用后向LSTM训练所述序列信息,获取词语信息与所述序列信息的关联关系为
Figure BDA0002096313720000052
其中,p(tk+1,tk+2,...,tn-1,tn)表示出现(tk+1,tk+2,...,tn-1,tn)该种序列结构语句信息的概率;结合前向和后向语言信息为单层双向LSTM模型,其log似然函数如下:
Figure BDA0002096313720000053
根据上式预测序列信息中当前词语信息与前向词语信息及后向词语信息的关联关系。
可选地,还包括:处理模块,用于对待分类文本进行分词处理。
本发明的有益效果是:
本发明提供一种文本分类方法及装置,该文本分类方法包括:获取待分类文本,其中,待分类文本包括:词语信息和序列信息,多个词语信息构成序列信息;根据待分类文本的词语信息以及预设模型,获取待分类文本的词向量,根据词向量及预测算法,获取待分类文本的文本向量;采用双向长短记忆网络LSTM模型训练序列信息,预测词语信息与列信息的关联关系,其中,双向LSTM模型包括:前向LSTM模型和后向LSTM模型;整合文本向量与序列信息的关联关系,并将整合后的文本向量与序列信息的关联关系输入至预设分类模型中,得到文本的类别。本发明通过在序列信息中使用双向LSTM模型预设在序列信息中计算当前文本序列出现的概率,同时结合文本向量,可精准预测待分类文本的语义特征和序列特征,将语义特征与序列特征整合后输入至分类器,可得待分类文本的精准分类。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明提供的一种文本分类方法流程示意图;
图2为本发明提供的一种文本分类方法示意图;
图3为本发明一实施例提供的文本分类方法流程示意图;
图4为本发明又一实施例提供的文本分类方法流程示意图;
图5为本发明另一实施例提供的文本分类方法流程示意图;
图6为本发明提供的一种文本分类装置结构示意图;
图7为本发明一实施例提供的文本分类装置结构示意图;
图8为本发明又一实施例提供的文本分类装置结构示意图;
图9为本发明另一实施例提供的文本分类装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
名词解释:
Word2vec(word to vector):是一群用来产生词向量的相关模型,可以利用当前词语预测周围词语,以及利用周围的词语预测当前词语,而实现生成词向量。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。
ELMo模型:一种新型深度语境化词表征,可对词进行复杂特征(如句法和语义)和词在语言语境中的变化进行建模(即对多义词进行建模)。
长短期记忆网络(Long Short-Term Memory,简称LSTM):在LSTM模型中被放置了三扇门,分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。
图1为本发明提供的一种文本分类方法流程示意图。该方法可以由计算机、服务器等具有处理功能的设备执行,如图1所示,该方法包括:
S110、获取待分类文本,其中,待分类文本包括:词语信息和序列信息,多个词语信息构成所述序列信息。
待分类文本可以是一段简短语句、词语,也可以是一篇文档,例如新闻报道、文学作品。此处的待分类文本可以是短文本,也可以是长文本,在此不做限制。
其中,待分类文本无论是短文本还是长文本,其文本内容均由语句信息组成,且每个语句信息由多个词语信息组成,其中,将由多个词语信息预组成语句之前的状态称为序列信息。
例如,一个文本中包含有“今天阳光明媚”的语句信息,其中,“今天”、“阳光”及“明媚”指示上述中的词语信息。针对该句语句信息,由其中的词语信息组成的序列信息包含多个,如:今天/阳光/明媚、今天/明媚/阳光、阳光/明媚/今天、阳光/今天/明媚、明媚/阳光/今天、明媚/今天/阳光。明显地,今天/阳光/明媚这个序列信息才为组成文本语句中所需要的序列,因此,取多个词语信息预组成语句之前的状态为序列信息。
S120、根据待分类文本的词语信息以及预设模型,获取待分类文本的词向量,根据词向量及预设算法,获取待分类文本的文本向量。
由于词语信息库包含的信息量很大,为将词语信息库中意思相近的词语进行统计,因此,将每一个词语信息映射到空间维度中,用词向量(Word embedding)来表示每一个词语信息。
在得到词向量的过程中,由于待分类分本的词语信息有限,为使训练所得的词向量能够精准表示词语信息,可结合预设模型得到高质量的词向量。
上述预设模型可以为Word2vec模型或ELMo模型,本发明不做限制。
在空间维度中,意思相近的词语信息其相距距离越近,例如上述例句中“今天阳光明媚”,这个语句信息中有三个词语信息,“今天”、“阳光”及“明媚”,那么与“今天”语义相近的词语“明天”、“后天”、“昨天”等在空间维度中的距离均与“今天”距离接近。表示该相近的词语信息与该语句信息中其他词语信息组句时,表达的意思相近,且分类类别相近。
需要说明的是,本发明提供的文本分类方法也可使用已经训练好的词向量模型,例如2018年开源的800万词向量数据。
进一步地,当待分类文本中的词语信息全部用词向量表达后,将文本中的词语信息结合预设算法,得到待分类文本的文本向量,目的是为了使用一个具体的向量来表达该文本信息。
该预设算法为,将待分类文本中的词语信息对应的词向量求和,并取平均。设n个词语的词组为(t1,t,...,tn-1,tn),则计算方式为:
Figure BDA0002096313720000091
式中,v(t)表示将t个词语转化为空间向量的表达方式。
通过上式,可得待分类文本的文本向量。
S130、采用双向长短记忆网络LSTM模型训练序列信息,预测词语信息与序列信息的关联关系,其中,双向LSTM模型包括:前向LSTM模型和后向LSTM模型。
其中,传统的LSTM模型为一种记忆序列前部的语言信息,可以学习到语句信息中前面序列的词语信息对后面序列词语信息的估计,但是不能学习到后面序列词语信息对前面序列词语信息的估计。因此,本发明提供的文本分类方法,在序列信息中使用双向LSTM模型进行训练,可以提高模型学习序列信息的准确度。
图2为本发明提供的一种文本分类方法示意图。如图2所示,用词语信息表示待分类文本中的语义特征,用前向LSTM模型和后向LSTM模型分别对每一个词语信息中的前向词语和后向词语进行训练,最终输出在序列信息中与当前词语信息有关联关系的前向词语和后向词语。
需要说明的是,上述关联关系指示在序列信息中与当前词语信息能够结合在一起组成语句信息的前向词语和后向词语。
一种实施例,在上述举例语句中“今天阳光明媚”,在使用前向LSTM模型训练序列信息时,可以得到“阳光”之后可以为“明媚”也可以为“灿烂”,但在训练中,“阳光”之后也可以为“真好”,而“阳光”之后关联“今天”的可能性就比较小。该前向LSTM模型的目的是为了训练得到可与“阳光”相关联的后向词语信息的概率。
使用后向LSTM模型训练序列信息时,可以得到“阳光”之前可以为“今天”,也可以为“明天”或“这里”,从而得到能与“阳光”相关联的前向词语的概率。
进一步地,通过上述实施例,对于“今天阳光明媚”的语句信息,可以扩展得到:“今天阳光灿烂”、“今天阳光真好”、“明天阳光灿烂”等语义相近的语句信息。
需要说明的是,本发明提供的文本分类方法,在序列信息中使用前向LSTM模型和后向LSTM模型训练文本得到与当前词语信息有关联关系的前向词语和后向词语,并不以上述实施例为限制。
可选地,上述采用双向长短记忆网络LSTM模型训练序列信息,所预测到的词语信息与序列信息的关联关系可以通过记忆有前述序列信息的向量进行表示,也即,使用前向LSTM模型和后向LSTM模型,所输出的结果可以为记忆有前述序列信息的向量。
可选地,由于前向LSTM模型会输出记忆有前向序列信息的向量,而后向LSTM模型会输出记忆有后向序列信息的向量,所以,上述记忆有前述序列信息的向量,可以是通过对前向LSTM模型和后向LSTM模型分别输出的向量进行计算所得到的向量平均值。例如,可以将所有向量进行相加,然后取其平均值。需要说明的是,若向量为多维度向量,则上述记忆有前述序列信息的向量即为将每一个向量的每一个维度进行分别平均后所得到的多维度向量。
如上所述,通过用前述序列信息的平均值表征所预测到的词语信息与序列信息的关联关系,这样有利于宏观估计序列信息,同时也有利于和语义信息的向量在维度上保持一致。
S140、整合文本向量与序列信息的关联关系,并将整合后的文本向量与所述序列信息的关联关系输入至预设分类模型中,得到文本的类别。
由于文本中包含的语句信息为多种,将步骤S120中得到文本向量与步骤S130中得到的文本中的序列信息预测的当前词语的前向词语信息及后向词语信息进行整合,可得到当前待分类文本的多个扩展文本。其中,扩展文本中可以包括:带有前述文本向量所包含的语义、以及前述序列信息的向量。
将多个扩展文本输入到预设分类模型中,预设分类模型可自动得到该文本的类别。
需要说明的是,该预设分类模型可以为softmax分类模型,但本发明并不以softmax分类模型为限制。
本发明提供的文档分类方法,通过在序列信息中使用双向LSTM模型预设在序列信息中计算当前文本序列出现的概率,同时结合文本向量,可精准预测待分类文本的语义特征和序列特征,将语义特征与序列特征整合后输入至分类器,可得待分类文本的精准分类。
图3为本发明一实施例提供文本分类方法流程示意图,如图3所示,在执行步骤S130之前,还需对序列信息中的词语信息进行预处理,该处理方法包括:
S210、若序列信息中的词语信息数量小于预设长度,则补充默认数值,得到补充后的序列信息,补充后的序列信息的词语信息数量为预设长度。
由于LSTM模型输入词语信息是,其所能处理的数据是定长的,因此,在输入时需要对序列信息的词语信息进行预处理。例如,取待分类文本中的序列信息中平均包含的词语信息作为预设长度,计算公式为:
Figure BDA0002096313720000131
其中,
Figure BDA0002096313720000132
表示序列信息中平均包含的词语信息的长度,si表示文本数据中的序列,i为序列编号,N为序列总数。
若序列信息中的词语信息数量小于预设长度,则补充默认数值至平均长度,此处的默认数值为0。
又一种实施例,如序列信息中的词语信息的平均长度为8时,“今天天气不错阳光明媚”,那么LSTM模型的第一个输入为v(“今天”)、第二个输入为v(“天气”)…、第7个输入为0、第n个输入为0。这里的v(x)表示词语信息x的向量值。
S220、采用双向LSTM模型训练补充后的序列信息,得到词语信息与补充后的序列信息的关联关系。
图4为本发明一实施例提供文本分类方法流程示意图,如图4所示,对序列信息中的词语信息进行预处理的方法,还包括:
S310、若序列信息中的词语信息数量大于预设长度,则删除部分词语信息,得到删除后的序列信息,删除后的序列信息的词语信息数量为预设长度。
即当序列信息中包含的词语数目超过超参数平均长度时,则删除超过部分的词语。该删除为删除该平均长度之后的词向量。
又一实施例,如序列信息中的词语信息的平均长度为3时,“今天天气不错阳光明媚”,那么LSTM模型的第一个输入为v(“今天”)、第二个输入为v(“天气”)、第三个输入为v(“不错”),后面的词语信息代表的词向量进行删除。这里的v(x)表示词语信息x的向量值。
需要说明的是,序列信息中的词语信息的平均长度并不以上述实施例为限制。
S320、采用双向LSTM模型训练删除后的序列信息,得到词语信息与删除后的序列信息的关联关系。
进一步地,步骤是130,包括:
采用前向LSTM模型训练序列信息,获取词语信息与序列信息的关联关系,计算公式为:
Figure BDA0002096313720000141
式中,n表示待分类文本中包含n个词语信息的词组为(t1,t2,...,tn-1,tn),tk表示第k个词语信息,p(t1,t2,…,tk)表示出现该种(t1,t2,...,tk-1,tk)序列结构的语句信息为概率。
通过上述实施例可知“今天阳光明媚”该语句信息的组成有多种,但是目标组成只有一种,该p(t1,t2,…,tk)表示组成目标序列结构语句信息出现的概率。
采用后向LSTM训练序列信息,获取词语信息与所述序列信息的关联关系,计算公式为:
Figure BDA0002096313720000151
其中p(tk+1,tk+2,...,tn-1,tn)表示出现(tk+1,tk+2,...,tn-1,tn)该种序列结构的语句信息为概率。
结合前向信息和后向语言信息为单层双向LSTM模型,其log似然函数如下:
Figure BDA0002096313720000152
根据上式可以预测序列信息中当前词语信息与前向词语信息及后向词语信息的关联关系。
图5为本发明另一实施例提供的文本分类方法流程示意图,如图5所示,在执行步骤S120之前,还需要对待分类文本进行预处理,该预处理方法包括:
S111、对待分类文本进行分词处理。
在学习文本向量的表示之前,需要对文本进行分词处理,分词是将连续的句子序列按照一定的规范重新拆分成词语序列的过程。在中文文本中,句子中的字词都是连接在一起的,而英文文本中单词与单词之间是以空格作为分界符的,而中文可以通过字、句、段等通过明显的分解符来简单分界,唯独在词上没有一个形式的分节符,词与词连接在一起成为一句完整的表达文字形式。因此,要得到准确的词语信息,需要进行分词处理。
例如,对句子“这部动画片深得小朋友的喜欢”进行分词,可以得到这部/动画片/深得/小朋友/的/喜欢这些词语,只有在分词准确的基础上,才能得到准确的序列信息与词语信息的关联关系。
本发明提供的文档分类方法,在进行分词处理时,可以应用基于字符串匹配算法、基于统计以及机器学习的分词方法、机械分词算法等,在此对分词处理时应用的分词算法不做限制。
进一步地,本发明使用的分类模型在进行文本分类时,其训练过程为:
获取不同类别的文本样本,其中,文本样本包括已分类标签。该过程表示,获取已知大量类别的文本,例如获取大量“体育”类文本,则对大量的已知类别文本分别做分词处理,可得到每个文本中包含的多个词语,并进一步对每个文本分词后的词语信息做“体育”类标记。例如,通过该分类模型可实现对某一篇文档的分类,该文档可以是由多篇文章组成的文本集合,文本集合中的每个文本包含有文章、语句、词语等构成的文本数据。
进一步,分别提取每个文本中描述“体育”类的词语的特征信息,分类器学习大量的“体育”类文本,进而可得到该“体育”类文本中包含的词语信息的共同特征。
当任一文本输入至分类模型,分类器可自动学习该文本是否属于“体育”类。
需要说明的是,本发明实施例提供的文本分类方法,并不以“体育”类为限制,还可以包括其他类别。
有一种实施例,本发明提供的文本分类方法,还可以以语句信息为基础,待分类文本中包含多个语句信息,通过将语句信息转换为对应的语句向量,并进一步得到待分类文本中关于语句信息向量的文本向量。
更进一步地,通过双向LSTM模型,分别训练出现在当前语句信息中前项和后向的语句信息的关联信息,并将该关联信息与文本向量结合,可得文本分类方法。
需要说明的是,通过以语句信息为基础,可以将文本中包含的长文本信息进行精确分类,提升了分类算法的准确度和易用性。
图6为本发明提供的文本分类装置结构示意图,如图6所示,该装置具体包括:获取模块601、预测模块602、整合模块603。其中:
获取模块601,用于获取待分类文本,其中,待分类文本包括:词语信息和序列信息,多个词语信息构成所述序列信息。
获取模块601,具体用于根据待分类文本的所述词语信息以及预设模型,获取待分类文本的词向量,根据词向量及预设算法,获取待分类文本的文本向量。
预测模块602,用于采用双向长短记忆网络LSTM模型训练序列信息,预测词语信息与序列信息的关联关系,其中,双向LSTM模型包括:前向LSTM模型和后向LSTM模型。
整合模块603,用于整合文本向量与序列信息的关联关系,并将整合后的所述文本向量与序列信息的关联关系输入至预设分类模型中,得到文本的类别。
图7为本发明一实施例提供的文本分类装置结构示意图,如图7所示,本发明提供的装置还包括:补充模块604,其中:
补充模块604,用于若序列信息中的词语信息数量小于预设长度,则补充默认数值,得到补充后的序列信息,补充后的序列信息的词语信息数量为预设长度。采用双向LSTM模型训练补充后的序列信息,得到词语信息与补充后的序列信息的关联关系。
进一步地,补充模块604,具体用于若序列信息中的词语信息数量大于预设长度,则删除部分词语信息,得到删除后的序列信息,删除后的序列信息的词语信息数量为预设长度。采用双向LSTM模型训练删除后的序列信息,得到词语信息与删除后的序列信息的关联关系。
可选地,预测模块602,具体用于采用前向LSTM模型训练序列信息,获取词语信息与序列信息的关联关系为
Figure BDA0002096313720000181
其中,n表示待分类文本中包含n个词语信息的词组为(t1,t2,...,tn-1,tn),p(t1,t2,...,tk-1,tk)表示出现(t1,t2,...,tk-1,tk)该种序列结构语句信息的概率;采用后向LSTM训练所述序列信息,获取词语信息与所述序列信息的关联关系为
Figure BDA0002096313720000191
其中,p(tk+1,tk+2,...,tn-1,tn)表示出现(tk+1,tk+2,...,tn-1,tn)该种序列结构语句信息的概率;
结合前向和后向语言信息为单层双向LSTM模型,其log似然函数如下:
Figure BDA0002096313720000192
根据上式预测序列信息中当前词语信息与前向词语信息及后向词语信息的关联关系。
图8为本发明又一实施例提供的文本分类装置结构示意图,如图8所示,本发明提供的装置还包括:处理模块605,其中:
处理模块605,用于对待分类文本进行分词处理。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
图9为本发明又一实施例提供的文本分类装置结构示意图,该装置可以集成于终端设备或者终端设备的芯片,该终端可以是具备分类处理功能的计算设备。
如图9所示,该装置包括:存储器901、处理器902。
存储器901用于存储程序,处理器902调用存储器901存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (6)

1.一种文本分类方法,其特征在于,包括:
获取待分类文本,其中,所述待分类文本包括:词语信息和序列信息,多个所述词语信息构成所述序列信息;
根据所述待分类文本的所述词语信息以及预设模型,获取所述待分类文本的词向量,根据所述词向量及预设算法,获取所述待分类文本的文本向量;
采用双向长短记忆网络LSTM模型训练所述序列信息,预测所述词语信息与所述序列信息的关联关系,其中,所述序列信息为由多个词语信息预组成语句之前的状态;
所述双向LSTM模型包括:前向LSTM模型和后向LSTM模型,所述关联关系,通过记忆有所述序列信息的向量进行表示,所述向量是通过对所述前向LSTM模型和所述后向LSTM模型分别输出的向量进行计算所得到的向量平均值;整合所述文本向量与所述序列信息的关联关系,并将整合后的所述文本向量与所述序列信息的关联关系输入至预设分类模型中,得到所述文本的类别,其中,所述整合后的所述文本向量与所述序列信息的关联关系是指当前待分类文本的多个扩展文本;
所述采用双向长短记忆网络LSTM模型训练所述序列信息,预测所述词语信息与所述序列信息的关联关系之前,还包括:
若所述序列信息中的词语信息数量小于预设长度,则补充默认数值,得到补充后的序列信息,所述补充后的序列信息的词语信息数量为所述预设长度;
采用双向LSTM模型训练所述补充后的序列信息,得到所述词语信息与所述补充后的序列信息的关联关系;
所述采用双向长短记忆网络LSTM模型训练所述序列信息,预测所述词语信息与所述序列信息的关联关系,包括:
若所述序列信息中的词语信息数量大于预设长度,则删除部分词语信息,得到删除后的序列信息,所述删除后的序列信息的词语信息数量为所述预设长度;
采用双向LSTM模型训练所述删除后的序列信息,得到所述词语信息与所述删除后的序列信息的关联关系。
2.如权利要求1所述的文本分类方法,其特征在于,所述采用双向长短记忆网络LSTM模型训练所述序列信息,得到所述词语信息与所述序列信息的关联关系,包括:
采用前向LSTM模型训练所述序列信息,获取所述词语信息与所述序列信息的关联关系为
Figure FDA0003211309150000021
其中,用n表示待分类文本中包含n个词语信息的词组为(t1,t2,...,tn-1,tn),p(tk|t1,t2,...tk-1,tk)表示已知序列(t1,t2,...,tk-1,tk)的情况下,出现tk的概率;
采用后向LSTM训练所述序列信息,获取所述词语信息与所述序列信息的关联关系为
Figure FDA0003211309150000031
其中,
p(tk|tk+1,tk+2,...tn-1,tn)表示已知序列(tk+1,tk+2,...,tn-1,tn)的情况下,出现tk的概率;
结合前向和后向语言信息为单层双向LSTM模型,其log似然函数如下:
Figure FDA0003211309150000032
根据上式预测所述序列信息中当前词语信息与前向词语信息及后向词语信息的关联关系。
3.如权利要求1所述的文本分类方法,其特征在于,所述根据所述待分类文本的所述词语信息以及预设模型,获取所述待分类文本的词向量之前,还包括:
对所述待分类文本进行分词处理。
4.一种文本分类装置,其特征在于,包括:
获取模块,用于获取待分类文本,其中,所述待分类文本包括:词语信息和序列信息,多个所述词语信息构成所述序列信息;
所述获取模块,具体用于根据所述待分类文本的所述词语信息以及预设模型,获取所述待分类文本的词向量,根据所述词向量及预设算法,获取所述待分类文本的文本向量;
预测模块,用于采用双向长短记忆网络LSTM模型训练所述序列信息,预测所述词语信息与所述序列信息的关联关系,其中,所述序列信息为由多个词语信息预组成语句之前的状态;所述双向LSTM模型包括:前向LSTM模型和后向LSTM模型,所述关联关系,通过记忆有所述序列信息的向量进行表示,所述向量是通过对所述前向LSTM模型和所述后向LSTM模型分别输出的向量进行计算所得到的向量平均值;
整合模块,用于整合所述文本向量与所述序列信息的关联关系,并将整合后的所述文本向量与所述序列信息的关联关系输入至预设分类模型中,得到所述文本的类别,其中,所述整合后的所述文本向量与所述序列信息的关联关系是指当前待分类文本的多个扩展文本;
所述装置还包括:补充模块,用于若所述序列信息中的词语信息数量小于预设长度,则补充默认数值,得到补充后的序列信息,所述补充后的序列信息的词语信息数量为所述预设长度;采用双向LSTM模型训练所述补充后的序列信息,得到所述词语信息与所述补充后的序列信息的关联关系;
所述补充模块,具体用于若所述序列信息中的词语信息数量大于预设长度,则删除部分词语信息,得到删除后的序列信息,所述删除后的序列信息的词语信息数量为所述预设长度;采用双向LSTM模型训练所述删除后的序列信息,得到所述词语信息与所述删除后的序列信息的关联关系。
5.权利要求4所述的文本分类装置,其特征在于,所述预测模块具体用于,采用前向LSTM模型训练所述序列信息,获取所述词语信息与所述序列信息的关联关系为
Figure FDA0003211309150000051
其中,用n表示待分类文本中包含n个词语信息的词组为(t1,t2,...,tn-1,tn),p(tk|t1,t2,...tk-1,tk)表示已知序列(t1,t2,...,tk-1,tk)的情况下,出现tk的概率;采用后向LSTM训练所述序列信息,获取所述词语信息与所述序列信息的关联关系为
Figure FDA0003211309150000052
其中,p(tk|tk+1,tk+2,...tn-1,tn)表示已知序列(tk+1,tk+2,...,tn-1,tn)的情况下,出现tk的概率;
结合前向和后向语言信息为单层双向LSTM模型,其log似然函数如下:
Figure FDA0003211309150000053
根据上式预测所述序列信息中当前词语信息与前向词语信息及后向词语信息的关联关系。
6.如权利要求4所述的文本分类装置,其特征在于,还包括:处理模块,用于对所述待分类文本进行分词处理。
CN201910523985.9A 2019-06-17 2019-06-17 文本分类方法及装置 Active CN110232127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910523985.9A CN110232127B (zh) 2019-06-17 2019-06-17 文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910523985.9A CN110232127B (zh) 2019-06-17 2019-06-17 文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN110232127A CN110232127A (zh) 2019-09-13
CN110232127B true CN110232127B (zh) 2021-11-16

Family

ID=67860025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910523985.9A Active CN110232127B (zh) 2019-06-17 2019-06-17 文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN110232127B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111180025A (zh) * 2019-12-18 2020-05-19 东北大学 表示病历文本向量的方法、装置及问诊***
CN111461904B (zh) * 2020-04-17 2022-06-21 支付宝(杭州)信息技术有限公司 对象类别的分析方法及装置
CN111930938A (zh) * 2020-07-06 2020-11-13 武汉卓尔数字传媒科技有限公司 文本分类方法、装置、电子设备及存储介质
CN111930942B (zh) * 2020-08-07 2023-08-15 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN113342933B (zh) * 2021-05-31 2022-11-08 淮阴工学院 一种类双塔模型的多特征交互网络招聘文本分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化***
CN109726268A (zh) * 2018-08-29 2019-05-07 中国人民解放军国防科技大学 基于分层神经网络的文本表示方法和装置
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769522B2 (en) * 2017-02-17 2020-09-08 Wipro Limited Method and system for determining classification of text

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化***
CN109726268A (zh) * 2018-08-29 2019-05-07 中国人民解放军国防科技大学 基于分层神经网络的文本表示方法和装置
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的专利分类方法;马建红 等;《计算机工程》;20181031;第44卷(第10期);第209-214页 *

Also Published As

Publication number Publication date
CN110232127A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN110232127B (zh) 文本分类方法及装置
CN107798140B (zh) 一种对话***构建方法、语义受控应答方法及装置
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN109992780B (zh) 一种基于深度神经网络特定目标情感分类方法
CN111026894A (zh) 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111950287B (zh) 一种基于文本的实体识别方法及相关装置
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN110162594B (zh) 文本数据的观点生成方法、装置及电子设备
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN110909122A (zh) 一种信息处理方法及相关设备
CN105760363B (zh) 文本文件的词义消歧方法及装置
CN112328797A (zh) 一种基于神经网络和注意力机制的情感分类方法及***
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
Su et al. Answer acquisition for knowledge base question answering systems based on dynamic memory network
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
CN106484678A (zh) 一种短文本相似度计算方法及装置
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN115269828A (zh) 用于生成评论回复的方法、设备和介质
CN113254586B (zh) 一种基于深度学习的无监督文本检索方法
CN113705207A (zh) 语法错误识别方法及装置
CN113407776A (zh) 标签推荐方法、装置、标签推荐模型的训练方法和介质
CN111859979A (zh) 讽刺文本协同识别方法、装置、设备及计算机可读介质
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant