CN110263152B - 基于神经网络的文本分类方法、***及计算机设备 - Google Patents

基于神经网络的文本分类方法、***及计算机设备 Download PDF

Info

Publication number
CN110263152B
CN110263152B CN201910374240.0A CN201910374240A CN110263152B CN 110263152 B CN110263152 B CN 110263152B CN 201910374240 A CN201910374240 A CN 201910374240A CN 110263152 B CN110263152 B CN 110263152B
Authority
CN
China
Prior art keywords
word
word segmentation
text
target
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910374240.0A
Other languages
English (en)
Other versions
CN110263152A (zh
Inventor
于凤英
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910374240.0A priority Critical patent/CN110263152B/zh
Priority to PCT/CN2019/102785 priority patent/WO2020224106A1/zh
Publication of CN110263152A publication Critical patent/CN110263152A/zh
Application granted granted Critical
Publication of CN110263152B publication Critical patent/CN110263152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种基于神经网络的文本分类方法,所述方法包括:对待分类文本进行分词操作以获取L个分词;对所述L个分词分别进行词向量映射,以获取L*d维词向量矩阵,其中每个分词映射为一个d维词向量;通过卷积层对所述L*d维词向量矩阵执行卷积操作,得到M个卷积特征图,所述卷积层包括M个f*d的卷积核;将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到(L‑f+1)个输入向量,1≤j≤(L‑f+1);及将所述(L‑f+1)个输入向量依顺序输入到长短短期记忆网络模型中,计算所述待分类文本的分类向量。本发明实施例提供的文本分类方法,可以有效避免文本分类错误的问题,从而提高分类准确率。

Description

基于神经网络的文本分类方法、***及计算机设备
技术领域
本发明实施例涉及计算机数据处理领域,尤其涉及一种基于神经网络的文本分类方法、***、计算机设备及计算机可读存储介质。
背景技术
文本分类是自然语言处理的重要任务之一,类似于文章的行业分类,情感分析等许多自然语言处理任务其实质都是文本的分类。目前常用的文本分类器主要可以分成两大类:基于先验规则的文本分类器和基于模型的文本分类器。基于先验规则的文本分类器的分类规则需要靠人工挖掘或先验知识的积累。基于模型的文本分类器,如基于LDA(LatentDirichlet Allocation,文档主题生成模型)等主题模型对文本分类。
然而,采用上述分类方法经常会出现分类错误的问题,导致分类的准确率低。
发明内容
有鉴于此,本发明实施例的目的是提供一种基于神经网络的文本分类方法、***、计算机设备及计算机可读存储介质,解决文本分类错误、分类准确率低的问题。
为实现上述目的,本发明实施例提供了一种基于神经网络的文本分类方法,包括以下步骤:
对待分类文本进行分词操作以获取L个分词;
对所述L个分词分别进行词向量映射,以获取L*d维词向量矩阵,其中每个分词映射为一个d维词向量;
通过卷积层对所述L*d维词向量矩阵执行卷积操作,得到M个卷积特征图,所述卷积层包括M个f*d的卷积核;
将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到(L-f+1)个输入向量,1≤j≤(L-f+1),其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定,i为卷积核标识,1≤i≤M;及
将所述(L-f+1)个输入向量依顺序输入到长短短期记忆网络模型中,计算所述待分类文本的分类向量。
优选地,所述对待分类文本进行分词操作以获取L个分词的步骤,包括:
获取浏览所述待分类文本的多个用户的多个用户属性信息;
根据所述多个用户的多个用户属性信息,分析得到浏览所述待分类文本的目标群体;
根据所述目标群体的历史用户画像,得到所述待分类文本对应每个主题的预测概率;
根据所述每个主题的预测概率,筛选预测概率大于预设阀值的多个目标主题;及
基于所述多个目标主题对所述待分类文本进行分词操作。
优选地,所述基于所述多个目标主题对所述待分类文本进行分词操作的步骤,包括:
根据所述多个目标主题的多个主题词库,对所述待分类文本进行分词操作。
优选地,所述基于所述多个目标主题对所述待分类文本进行分词操作的步骤,包括:
根据每个目标主题关联的主题词库分别对所述待分类文本进行分词操作,以得到多个分词集合;
对比各个分词集合在相应字符位置区域的分词是否相同;
如果相同,则将相应字符位置区域的分词放入目标分词集合中;及
如果不相同,则选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合。
优选地,所述选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合的步骤,包括:
通过隐马尔科夫模型分析各个分词集合在相应字符位置区域的分词的被划分概率;及
选择将被划分概率最高的分词放入到所述目标分词集合中。
优选地,所述选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合的步骤,包括:
通过隐马尔科夫模型分析各个分词集合在相应字符位置区域的分词的被划分概率;
根据各个分词集合在相应字符位置区域的分词的被划分概率以及各个分词集合关联的目标主题的预测概率,计算出各个分词集合在相应字符位置区域的分词的综合权重系数;及
选择将综合权重系数最高的分词加入目标分词集合中。
优选地,将所述(L-f+1)个输入向量依顺序输入到长短短期记忆网络模型中,计算所述待分类文本的分类向量的步骤,包括:
通过所述长短期记忆网络模型获取(L-f+1)个输出向量;及
将所述(L-f+1)个输出向量输入到分类层,通过所述分类层输出分类向量。
为实现上述目的,本发明实施例还提供了基于神经网络的文本分类***,包括:
分词模块,用于对待分类文本进行分词操作以获取L个分词;
词向量映射模块,用于对所述L个分词分别进行词向量映射,以获取L*d维词向量矩阵,其中每个分词映射为一个d维词向量;
卷积模块,用于通过卷积层对所述L*d维词向量矩阵执行卷积操作,得到M个卷积特征图,所述卷积层包括M个f*d的卷积核;
特征映射模块,用于将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到(L-f+1)个输入向量,1≤j≤(L-f+1),其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定,i为卷积核标识,1≤i≤M;及
预测模块,用于将所述(L-f+1)个输入向量依顺序输入到长短短期记忆网络模型中,计算所述待分类文本的分类向量。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的基于神经网络的文本分类方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于神经网络的文本分类方法的步骤。
本发明实施例提供的基于神经网络的文本分类方法、***、计算机设备及计算机可读存储介质,结合卷积和长短期基于网络模型,形成CNN+LSTM的文本分类模型,有效兼顾文本的局部上下文特征,和大跨度的词与词之间的依赖关系。因此,可以解决文本分类错误、分类准确率低的问题,尤其适用于长文本的文本分类任务。
附图说明
图1为本发明基于神经网络的文本分类方法实施例一的流程示意图。
图2为图1中步骤S100的具体流程示意图。
图3为图2中步骤S1008的具体流程示意图。
图4为本发明文本分类***实施例二的程序模块示意图。
图5为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
以下实施例将以计算机设备2为执行主体进行示例性描述。
实施例一
参阅图1,示出了本发明实施例一之基于神经网络的文本分类方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。
步骤S100,对待分类文本进行分词操作以获取L个分词。
所述分词操作可以基于词典分词算法:正向最大匹配法、逆向最大匹配法和双向匹配分词法,也可以基于隐马尔科夫模型HMM、CRF、SVM、深度学习等算法。
在示例性的实施例中,参阅图2,所述步骤S100可以进一步包括步骤S1000~步骤S1008:
步骤S1000,获取浏览所述待分类文本的多个用户的多个用户属性信息。示例性的,用户属性信息,包括但不限于,年龄、性别、职业、地域、爱好等。
步骤S1002,根据所述多个用户的多个用户属性信息,分析得到浏览所述待分类文本的目标群体。
步骤S1004,根据所述目标群体的历史用户画像,得到所述待分类文本对应每个主题的预测概率。
所述历史用户画像为根据所述目标群体的历史行为信息,得到所述目标群体对应各个主题的感兴趣系数。感兴趣系数和预测概率之间具有对应关系。
步骤S1006,根据所述每个主题的预测概率,筛选预测概率大于预设阀值的多个目标主题。
步骤S1008,基于所述多个目标主题对所述待分类文本进行分词操作。
在示例性的实施例中,所述步骤S1008可以包括:根据所述多个目标主题的多个主题词库,对所述待分类文本进行分词操作。具体如下:
参阅图3,所述步骤S1008可以进一步包括步骤S1008A~步骤S1008D:
步骤S1008A,根据每个目标主题关联的主题词库分别对所述待分类文本进行分词操作,以得到多个分词集合;
步骤S1008B,对比各个分词集合在相应字符位置区域的分词是否相同;
步骤S1008C,如果相同,则将相应字符位置区域的分词放入目标分词集合中;及
步骤S1008D,如果不相同,则选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合。
在示例性的实施例中,所述步骤S1008D可以进一步包括:
步骤1,通过隐马尔科夫模型分析各个分词集合在相应字符位置区域的分词的被划分概率;
步骤2,选择将被划分概率最高的分词放入到所述目标分词集合中。
在另一示例性的实施例中,所述步骤S1008D可以进一步包括:
步骤1,通过隐马尔科夫模型分析各个分词集合在相应字符位置区域的分词的被划分概率;
步骤2,根据各个分词集合在相应字符位置区域的分词的被划分概率以及各个分词集合关联的目标主题的预测概率,计算出各个分词集合在相应字符位置区域的分词的综合权重系数;及
步骤3,选择将综合权重系数最高的分词加入目标分词集合中。
步骤S102,对所述L个分词分别进行词向量映射,以获取L*d维词向量矩阵,其中每个分词映射为一个d维词向量。
在示例性的实施例中,可以通过word2vec等模型,获取每个分词的128维词向量。
步骤S104,通过卷积层对所述L*d维词向量矩阵执行卷积操作,得到M个卷积特征图,所述卷积层包括M个f*d的卷积核。
在示例性的实施例中,所述卷积层包括若干个步长为1的f*d的卷积核,通过该卷积层对L*d维词向量矩阵做卷积操作,以得到若干个(L-f+1)*1的卷积特征图。即,每个卷积特征图的宽度为1,长度为L-f+1。卷积核的长度为f,分词数量为L个。L为大于1的正整数。
卷积特征图中的(L-f+1)*1个元素,计算公式如下:
cij=f(wij⊙mi+bi)
其中,cij为第i个特征卷积图中的(L-f+1)中的第j个元素的特征值,wij为对应第i个卷积特征图的被卷积核所覆盖到的词向量矩阵,⊙表示矩阵相乘,mi为用于计算第i个卷积特征图的卷积核,bi为用于计算第i个卷积特征图的偏置项,f为非线性的激活函数,如ReLU函数。
具体的,所述卷积核的数量可以为4个,因此得到4个(L-f+1)*1的卷积特征图。
步骤S106,将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到(L-f+1)个输入向量,1≤j≤(L-f+1)。
其中,所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定,i为卷积核标识,1≤i≤M。
步骤S108,将所述(L-f+1)个输入向量依顺序输入到长短短期记忆网络模型(LongShort-Term Memory,LSTM)中,计算所述待分类文本的分类向量。
长短短期记忆网络模型用于处理长跨度间的序列依赖关系,适合于处理长文本间依赖的任务。
在示例性的实施例中,所述步骤S108可以进一步包括步骤S1080~步骤S1082:
步骤S1080,通过所述长短期记忆网络模型获取(L-f+1)个输出向量;及
步骤S1082,将所述(L-f+1)个输出向量输入到分类层,通过所述分类层输出分类向量。
示例性的,计算所述待分类文本的分类向量的步骤如下:
(1)根据上一时刻的输出ht-1和当前输入xt来得到ft值,以决定是否让上一时刻学到的信息Ct-1通过或部分通过:
ft=σ(Wf[xt,ht-1]+bf),其中ft∈[0,1],表示t时刻的节点对t-1时刻细胞记忆的选择权重,Wf为遗忘门的权重矩阵,bf为遗忘门的偏置项,ht-1表示t-1节点的隐层状态信息,非线性函数σ(x)=1/(1+e-x);
(2)通过sigmoid来决定哪些值用来更新,并通过tanh层用来生成新的候选值qt,它作为当前层产生的候选值可能会添加到记忆单元状态中,把这两部分产生的值结合来进行更新:
it=σ(Wi[xt,ht-1]+bi),其中it∈[0,1]表示t时刻的节点对当前节点信息的选择权重,bi为输入门的偏置项,Wi为输入门的权重矩阵,非线性函数σ(x)=1/(1+e-x);
当前节点输入信息qt=tanh(Wq[ht-1,xt]+bq),其中bq为偏置项,Wq表示待更新信息的权重矩阵,tanh为双曲正切激活函数,xt表示t时刻LSTM神经网络节点的输入向量,ht-1表示t-1节点的隐层状态信息;
对旧的记忆单元状态进行更新,添加新信息:
当前输出记忆信息Ct=ft*Ct-1+it*qt),其中qt表示t-1节点的记忆信息,ft表示t时刻的节点对t-1时刻细胞记忆的选择权重,it表示t时刻的节点对当前节点信息的选择权重;
(3)LSTM模型输出;
ot=σ(Wo[xt,ht-1]+bo),其中ot∈[0,1]表示t时刻的节点细胞记忆信息的选择权重,bo为输出门的偏置,Wo为输出门的权重矩阵,表示向量xt和ht-1拼接后的向量,即|xt|+|ht-1|维的向量。
ht=ot·tanh(Ct)
xt表示t时刻LSTM神经网络节点的输入数据,即本实施例中的(L-f+1)个输入向量中的其中一个输入向量;ht为t时刻LSTM神经网络节点的输出向量。
通过上述公式,所述LSTM模型一共可以输出(L-f+1)个输出向量,根据所述(L-f+1)个输出向量被输入到softmax层,通过所述softmax层输出分类向量。所述分类向量中的每个向量参数代表了对应文本类别的置信度。
实施例二
请继续参阅图4,示出了本发明文本分类***实施例四的程序模块示意图。在本实施例中,文本分类***20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于神经网络的文本分类方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述文本分类***20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
分词模块200,用于对待分类文本进行分词操作以获取L个分词。
在示例性的实施例中,所述分词模块200可以包括获取模块、分析模块、主题预测模块、筛选模块和分词模块,具体如下:
所述获取模块,用于获取浏览所述待分类文本的多个用户的多个用户属性信息。
所述分析模块,用于根据所述多个用户的多个用户属性信息,分析得到浏览所述待分类文本的目标群体。
所述主题预测模块,用于根据所述目标群体的历史用户画像,得到所述待分类文本对应每个主题的预测概率。
所述分析模块,用于从所述多个用户属性信息中获取目标属性信息。
所述主题预测模块,用于将所述目标属性信息输入到预先配置的神经网络模型中,得到每个主题的预测概率。
所述筛选模块,用于根据所述每个主题的预测概率,筛选预测概率大于预设阀值的多个目标主题。
所述分词模块,用于基于所述多个目标主题对所述待分类文本进行分词操作。所述分词模块还用于:根据所述多个目标主题的多个主题词库,对所述待分类文本进行分词操作,具体如下:根据每个目标主题关联的主题词库分别对所述待分类文本进行分词操作,以得到多个分词集合;对比各个分词集合在相应字符位置区域的分词是否相同;如果相同,则将相应字符位置区域的分词放入目标分词集合中;如果不相同,则选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合。
在示例性的实施例中,选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合,进一步包括:通过隐马尔科夫模型分析各个分词集合在相应字符位置区域的分词的被划分概率;选择将被划分概率最高的分词放入到所述目标分词集合中。
在另一示例性的实施例中,选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合,进一步包括:通过隐马尔科夫模型分析各个分词集合在相应字符位置区域的分词的被划分概率;根据各个分词集合在相应字符位置区域的分词的被划分概率以及各个分词集合关联的目标主题的预测概率,计算出各个分词集合在相应字符位置区域的分词的综合权重系数;及选择将综合权重系数最高的分词加入目标分词集合中。
词向量映射模块202,用于对所述L个分词分别进行词向量映射,以获取L*d维词向量矩阵,其中每个分词映射为一个d维词向量。
在示例性的实施例中,可以通过word2vec等模型,获取每个分词的128维词向量。
卷积模块204,用于通过卷积层对所述L*d维词向量矩阵执行卷积操作,得到M个卷积特征图,所述卷积层包括M个f*d的卷积核。
在示例性的实施例中,所述卷积层包括若干个步长为1的f*d的卷积核,通过该卷积层对L*d维词向量矩阵做卷积操作,以得到若干个(L-f+1)*1的卷积特征图。即,每个卷积特征图的宽度为1,长度为L-f+1。卷积核的长度为f,分词数量为L个。
卷积特征图中的(L-f+1)*1个元素,计算公式如下:
cij=f(wij⊙mi+bi)
其中,cij为第i个特征卷积图中的(L-f+1)中的第j个元素的特征值,wij为对应第i个卷积特征图的被卷积核所覆盖到的词向量矩阵,⊙表示矩阵相乘,mi为用于计算第i个卷积特征图的卷积核,bi为用于计算第i个卷积特征图的偏置项,f为非线性的激活函数,如ReLU函数。
具体的,所述卷积核的数量可以为4个,因此得到4个(L-f+1)*1的卷积特征图。
特征映射模块206,用于将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到(L-f+1)个输入向量,1≤j≤(L-f+1)。
其中,所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定,i为卷积核标识,1≤i≤M。
预测模块208,用于将所述(L-f+1)个输入向量依顺序输入到长短短期记忆网络模型中,计算所述待分类文本的分类向量。
在示例性的实施例中,所述预测模块208,还用于:通过所述长短期记忆网络模型获取(L-f+1)个输出向量;及将所述(L-f+1)个输出向量输入到分类层,通过所述分类层输出分类向量。
实施例三
参阅图5,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是PC、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过***总线相互通信连接存储器21、处理器22、网络接口23、以及文本分类***20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作***和各类应用软件,例如实施例二的文本分类***20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行文本分类***20,以实现实施例一的基于神经网络的文本分类方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图5仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述文本分类***20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图4示出了所述实现文本分类***20实施例二的程序模块示意图,该实施例中,所述基于文本分类***20可以被划分为分词模块200、词向量映射模块202、卷积模块204、特征映射模块206和预测模块208。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述文本分类***20在所述计算机设备2中的执行过程。所述程序模块200-208的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储文本分类***20,被处理器执行时实现实施例一的基于神经网络的文本分类方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于神经网络的文本分类方法,其特征在于,所述方法包括:
对待分类文本进行分词操作以获取L个分词;
对所述L个分词分别进行词向量映射,以获取L*d维词向量矩阵,其中每个分词映射为一个d维词向量;
通过卷积层对所述L*d维词向量矩阵执行卷积操作,得到M个卷积特征图,所述卷积层包括M个f*d的卷积核;
将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到(L-f+1)个输入向量,1≤j≤(L-f+1),其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定,i为卷积核标识,1≤i≤M;及
将所述(L-f+1)个输入向量依顺序输入到长短期记忆网络模型中,计算所述待分类文本的分类向量;
其中,所述对待分类文本进行分词操作以获取L个分词的步骤,包括:
获取浏览所述待分类文本的多个用户的多个用户属性信息;
根据所述多个用户的多个用户属性信息,分析得到浏览所述待分类文本的目标群体;
根据所述目标群体的历史用户画像,得到所述待分类文本对应每个主题的预测概率;
根据所述每个主题的预测概率,筛选预测概率大于预设阀值的多个目标主题;及
基于所述多个目标主题对所述待分类文本进行分词操作;
其中,所述基于所述多个目标主题对所述待分类文本进行分词操作的步骤,包括:
根据每个目标主题关联的主题词库分别对所述待分类文本进行分词操作,以得到多个分词集合;
对比各个分词集合在相应字符位置区域的分词是否相同;
如果相同,则将相应字符位置区域的分词放入目标分词集合中;及
如果不相同,则选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合;
其中,所述选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合的步骤,包括:
通过隐马尔科夫模型分析各个分词集合在相应字符位置区域的分词的被划分概率;
根据各个分词集合在相应字符位置区域的分词的被划分概率以及各个分词集合关联的目标主题的预测概率,计算出各个分词集合在相应字符位置区域的分词的综合权重系数;及
选择将综合权重系数最高的分词加入目标分词集合中。
2.根据权利要求1所述的基于神经网络的文本分类方法,其特征在于,所述基于所述多个目标主题对所述待分类文本进行分词操作的步骤,包括:
根据所述多个目标主题的多个主题词库,对所述待分类文本进行分词操作。
3.根据权利要求1所述的基于神经网络的文本分类方法,其特征在于,所述选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合的步骤,包括:
通过隐马尔科夫模型分析各个分词集合在相应字符位置区域的分词的被划分概率;及
选择将被划分概率最高的分词放入到所述目标分词集合中。
4.根据权利要求1所述的基于神经网络的文本分类方法,其特征在于,将所述(L-f+1)个输入向量依顺序输入到长短期记忆网络模型中,计算所述待分类文本的分类向量的步骤,包括:
通过所述长短期记忆网络模型获取(L-f+1)个输出向量;及
将所述(L-f+1)个输出向量输入到分类层,通过所述分类层输出分类向量。
5.一种基于神经网络的文本分类***,其特征在于,包括:
分词模块,用于对待分类文本进行分词操作以获取L个分词;
词向量映射模块,用于对所述L个分词分别进行词向量映射,以获取L*d维词向量矩阵,其中每个分词映射为一个d维词向量;
卷积模块,用于通过卷积层对所述L*d维词向量矩阵执行卷积操作,得到M个卷积特征图,所述卷积层包括M个f*d的卷积核;
特征映射模块,用于将每个卷积特征图中的第j个元素配置到第j个输入向量中,得到(L-f+1)个输入向量,1≤j≤(L-f+1),其中所述第j个输入向量中的元素排列顺序由各个元素所在的特征卷积图的i值决定,i为卷积核标识,1≤i≤M;及
预测模块,用于将所述(L-f+1)个输入向量依顺序输入到长短期记忆网络模型中,计算所述待分类文本的分类向量;
其中,所述分词模块,还用于:
获取浏览所述待分类文本的多个用户的多个用户属性信息;
根据所述多个用户的多个用户属性信息,分析得到浏览所述待分类文本的目标群体;
根据所述目标群体的历史用户画像,得到所述待分类文本对应每个主题的预测概率;
根据所述每个主题的预测概率,筛选预测概率大于预设阀值的多个目标主题;及
基于所述多个目标主题对所述待分类文本进行分词操作;
其中,所述基于所述多个目标主题对所述待分类文本进行分词操作,包括:
根据每个目标主题关联的主题词库分别对所述待分类文本进行分词操作,以得到多个分词集合;
对比各个分词集合在相应字符位置区域的分词是否相同;
如果相同,则将相应字符位置区域的分词放入目标分词集合中;及
如果不相同,则选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合;
其中,所述选择将其中一个分词集合在相应字符位置区域的分词放入到所述目标分词集合,包括:
通过隐马尔科夫模型分析各个分词集合在相应字符位置区域的分词的被划分概率;
根据各个分词集合在相应字符位置区域的分词的被划分概率以及各个分词集合关联的目标主题的预测概率,计算出各个分词集合在相应字符位置区域的分词的综合权重系数;及
选择将综合权重系数最高的分词加入目标分词集合中。
6.一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于神经网络的文本分类方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至4中任一项所述的基于神经网络的文本分类方法的步骤。
CN201910374240.0A 2019-05-07 2019-05-07 基于神经网络的文本分类方法、***及计算机设备 Active CN110263152B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910374240.0A CN110263152B (zh) 2019-05-07 2019-05-07 基于神经网络的文本分类方法、***及计算机设备
PCT/CN2019/102785 WO2020224106A1 (zh) 2019-05-07 2019-08-27 基于神经网络的文本分类方法、***及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910374240.0A CN110263152B (zh) 2019-05-07 2019-05-07 基于神经网络的文本分类方法、***及计算机设备

Publications (2)

Publication Number Publication Date
CN110263152A CN110263152A (zh) 2019-09-20
CN110263152B true CN110263152B (zh) 2024-04-09

Family

ID=67914250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910374240.0A Active CN110263152B (zh) 2019-05-07 2019-05-07 基于神经网络的文本分类方法、***及计算机设备

Country Status (2)

Country Link
CN (1) CN110263152B (zh)
WO (1) WO2020224106A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717330A (zh) * 2019-09-23 2020-01-21 哈尔滨工程大学 基于深度学习的词句级短文本分类方法
CN111178070B (zh) * 2019-12-25 2022-11-25 深圳平安医疗健康科技服务有限公司 基于分词的单词序列获取方法、装置和计算机设备
CN113515920B (zh) * 2020-04-09 2024-06-21 北京庖丁科技有限公司 从表格中提取公式的方法、电子设备和计算机可读介质
CN112597764B (zh) * 2020-12-23 2023-07-25 青岛海尔科技有限公司 文本分类方法及装置、存储介质、电子装置
CN112765357A (zh) * 2021-02-05 2021-05-07 北京灵汐科技有限公司 文本分类方法、装置和电子设备
CN113204698B (zh) * 2021-05-31 2023-12-26 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN113886885A (zh) * 2021-10-21 2022-01-04 平安科技(深圳)有限公司 数据脱敏方法、数据脱敏装置、设备及存储介质
CN114579752B (zh) * 2022-05-09 2023-05-26 中国人民解放军国防科技大学 基于特征重要度的长文本分类方法、装置和计算机设备
CN117221134A (zh) * 2023-09-19 2023-12-12 合肥尚廷电子科技有限公司 一种基于互联网的状态分析方法及***
CN117473095B (zh) * 2023-12-27 2024-03-29 合肥工业大学 基于主题增强词表示的短文本分类方法和***
CN117787249B (zh) * 2024-02-23 2024-05-28 北京大学深圳研究生院 一种用于材料与化工行业科技情报的数据处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法
CN108763216A (zh) * 2018-06-01 2018-11-06 河南理工大学 一种基于中文数据集的文本情感分析方法
CN109299268A (zh) * 2018-10-24 2019-02-01 河南理工大学 一种基于双通道模型的文本情感分析方法
CN109543029A (zh) * 2018-09-27 2019-03-29 平安科技(深圳)有限公司 基于卷积神经网络的文本分类方法、装置、介质和设备
CN109684476A (zh) * 2018-12-07 2019-04-26 中科恒运股份有限公司 一种文本分类方法、文本分类装置及终端设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9484015B2 (en) * 2013-05-28 2016-11-01 International Business Machines Corporation Hybrid predictive model for enhancing prosodic expressiveness
CN109213868A (zh) * 2018-11-21 2019-01-15 中国科学院自动化研究所 基于卷积注意力机制网络的实体级别情感分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107729311A (zh) * 2017-08-28 2018-02-23 云南大学 一种融合文本语气的中文文本特征提取方法
CN108763216A (zh) * 2018-06-01 2018-11-06 河南理工大学 一种基于中文数据集的文本情感分析方法
CN109543029A (zh) * 2018-09-27 2019-03-29 平安科技(深圳)有限公司 基于卷积神经网络的文本分类方法、装置、介质和设备
CN109299268A (zh) * 2018-10-24 2019-02-01 河南理工大学 一种基于双通道模型的文本情感分析方法
CN109684476A (zh) * 2018-12-07 2019-04-26 中科恒运股份有限公司 一种文本分类方法、文本分类装置及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于VDCNN与LSTM混合模型的中文文本分类研究;彭玉青;宋初柏;闫倩;赵晓松;魏铭;;计算机工程;20171113(第11期);第196-202页 *

Also Published As

Publication number Publication date
CN110263152A (zh) 2019-09-20
WO2020224106A1 (zh) 2020-11-12

Similar Documents

Publication Publication Date Title
CN110263152B (zh) 基于神经网络的文本分类方法、***及计算机设备
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
CN110750965B (zh) 英文文本序列标注方法、***及计算机设备
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN108536800B (zh) 文本分类方法、***、计算机设备和存储介质
US11568315B2 (en) Systems and methods for learning user representations for open vocabulary data sets
CN108563722B (zh) 文本信息的行业分类方法、***、计算机设备和存储介质
US10762283B2 (en) Multimedia document summarization
JP5031206B2 (ja) 指数モデルの適合
CN108520041B (zh) 文本的行业分类方法、***、计算机设备和存储介质
CN111461637A (zh) 简历筛选方法、装置、计算机设备和存储介质
CN110659667A (zh) 图片分类模型训练方法、***和计算机设备
CN111611374A (zh) 语料扩充方法、装置、电子设备及存储介质
CN112328909B (zh) 信息推荐方法、装置、计算机设备及介质
CN110609952B (zh) 数据采集方法、***和计算机设备
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN112508177A (zh) 一种网络结构搜索方法、装置、电子设备及存储介质
CN113254649B (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN112861692B (zh) 一种房间分类模型构建方法及装置、房间分类方法及装置
CN112685656A (zh) 标签推荐方法及电子设备
CN115062619B (zh) 中文实体链接方法、装置、设备及存储介质
CN113378866B (zh) 图像分类方法、***、存储介质及电子设备
CN112989022B (zh) 虚拟文本智能选取方法、装置以及计算机设备
CN112364620B (zh) 文本相似度的判断方法、装置以及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant