CN112328784A - 数据信息分类方法及装置 - Google Patents

数据信息分类方法及装置 Download PDF

Info

Publication number
CN112328784A
CN112328784A CN201910717439.9A CN201910717439A CN112328784A CN 112328784 A CN112328784 A CN 112328784A CN 201910717439 A CN201910717439 A CN 201910717439A CN 112328784 A CN112328784 A CN 112328784A
Authority
CN
China
Prior art keywords
vector
feature
information
text
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910717439.9A
Other languages
English (en)
Other versions
CN112328784B (zh
Inventor
陈成才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiaoi Robot Technology Co Ltd
Original Assignee
Shanghai Xiaoi Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xiaoi Robot Technology Co Ltd filed Critical Shanghai Xiaoi Robot Technology Co Ltd
Priority to CN201910717439.9A priority Critical patent/CN112328784B/zh
Publication of CN112328784A publication Critical patent/CN112328784A/zh
Application granted granted Critical
Publication of CN112328784B publication Critical patent/CN112328784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据信息分类方法及装置,所述方法包括:获取待分类的文本信息;对文本信息依次进行向量化处理、融合处理以及全局平均池化处理,得到每个特征向量对应的聚合信息;利用两个全连接网络对聚合信息进行筛选处理,得到每个特征向量对应的筛选参数;根据筛选参数判断特征向量是否为噪声特征,若是,则将特征向量屏蔽,并更新剩余的特征向量,得到更新后的特征向量;根据更新后的特征向量,更新多个方面的表示特征;对更新后的多个方面的表示特征进行降维处理,得到一个目标特征;根据目标特征得到文本信息的分类信息。本发明可以更加全面、准确地实现分类目的,且方法简单高效,成本低廉。

Description

数据信息分类方法及装置
技术领域
本发明涉及信息处理技术领域,特别涉及一种数据信息分类方法、数据信息分类装置、存储介质及电子设备。
背景技术
随着信息时代的飞速发展,在互联网上拥有的信息资源越来越丰富,信息数据规模越来越巨大,表现形式也越来越多样。但是,对于海量的信息数据资源来说,其中的绝大部分都只能被人类所理解,机器对于这些信息的理解仍十分困难,特别是数量庞大的文本数据,自然语言理解也一直是非常热门的研究领域。
在自然语言处理过程中,文本分类作为内容分类、情感分析、主题识别等应用的基础,显得尤为重要。尤其是在数据分析领域,通常需要数据进行分类,然后对已分类的数据进行进一步处理。例如在智能交互中对交互日志的数据分析过程中,就需要对分类后的交互日志进行进一步的分析处理。
文本分类首先要根据文本内容分词,将分词转化为向量表示,现有技术包括SVM(支持向量机),Logistics(逻辑),RandomForest(随机森林),Bayes(贝叶斯),KNN(最临近)。SVM,Logistics,RandomForest是基于词向量方式的高维判别模型,对特征依赖比较强。Bayes,KNN基于统计方式的贝叶斯模型,高维判别模型主要问题就在于向量表达上无法表征完全文本的语义信息,而贝叶斯模型的决策边界确定是非常困难的。
因此,如何准确高效地实现数据信息的分类就成为本领域技术人员亟待解决的技术问题之一。
发明内容
为了解决上述问题,本发明提出一种数据信息分类方法、数据信息分类装置、存储介质及电子设备,以提高数据信息分类的准确率和效率。
根据上述目的,本发明实施例提供了一种数据信息分类方法,包括以下步骤:
获取待分类的文本信息;
对所述文本信息进行向量化处理,得到所述文本信息对应的文本向量;
对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征;
对所述表示特征中包括的特征向量进行全局平均池化处理,得到每个所述特征向量对应的聚合信息;
利用两个全连接网络对所述聚合信息进行筛选处理,得到每个所述特征向量对应的筛选参数;
根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述特征向量屏蔽,并更新剩余的所述特征向量,得到更新后的特征向量;
根据更新后的所述特征向量,更新所述多个方面的表示特征;
对更新后的多个方面的表示特征进行降维处理,得到一个目标特征;
根据所述目标特征得到所述文本信息的分类信息。
可选地,对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征采用以下公式处理:
Figure BDA0002155931740000031
其中,hi为第i个方面的所述表示特征,i的取值范围为[1,l],l为预设次数,v为所述文本向量,dv为构成所述文本向量的单独词的数目,Wi Q
Figure BDA0002155931740000034
Figure BDA0002155931740000033
分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得。
可选地,所述降维处理包括:
将每个方面的所述表示特征分别放入卷积神经网络的一个单独通道;
对于每一所述单独通道,通过下述公式计算所述目标特征中的每个特征向量:
cj=f(wf·h(i:i+n-1)+bf)
其中,j的取值范围为[1,m],cj表示所述融合特征中的第j项特征向量,m为卷积核的个数,f为非线性函数,wf为参数矩阵,bf为偏置参数,h(i:i+n-1)由hi、hi+1、…、hi+n-1依次连接组成,n为卷积窗口的长度,hi表示第i个方面的所述表示特征;
根据计算得到的m个特征向量生成所述目标特征。
可选地,根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述特征向量屏蔽,并更新剩余的所述特征向量,得到更新后的特征向量采用以下公式处理:
Figure BDA0002155931740000041
其中,所述cj表示第j项所述特征向量,所述xj为所述cj对应的所述更新后的特征向量,所述sj为所述cj对应的所述筛选参数。
可选地,根据所述目标特征得到所述文本信息的分类信息包括:
获取所述目标特征包括的每个特征向量的突出特征,所述突出特征包括所述特征向量中元素的最大值和平均值;
根据所述突出特征,获取高层特征集合;
根据所述高层特征集合,利用全连接网络预测所述文本信息的每个类别概率向量;
将所述类别概率向量中最大的元素对应的类别作为所述文本信息的分类信息。
可选地,所述根据所述高层特征集合,利用全连接网络预测所述文本信息的每个类别概率向量采用以下公式处理:
Figure BDA0002155931740000042
其中,y为类别概率向量,Wp为全连接网络的参数矩阵,r为符合伯努利分布的遮蔽向量,q为所述高层特征集合,bp为偏置参数。
可选地,所述待分类的文本信息为一个句子。
根据上述目的,本发明实施例还提供了一种数据信息分类装置,包括:
输入模块,用于获取待分类的文本信息;
向量化模块,用于对所述文本信息进行向量化处理,得到所述文本信息对应的文本向量;
融合模块,用于对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征;
池化模块,用于对所述表示特征中包括的特征向量进行全局平均池化处理,得到每个所述特征向量对应的聚合信息;
筛选模块,用于利用两个全连接网络对所述聚合信息进行筛选处理,得到每个所述特征向量对应的筛选参数;
去噪模块,用于根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述特征向量屏蔽,并更新剩余的所述特征向量,得到更新后的特征向量;
更新模块,用于根据更新后的所述特征向量,更新所述多个方面的表示特征;
降维模块,用于对更新后的多个方面的表示特征进行降维处理,得到一个目标特征;
输出模块,用于根据所述目标特征得到所述文本信息的分类信息。
根据上述目的,本发明实施例还提供了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述数据信息分类方法的步骤。
根据上述目的,本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述数据信息分类方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:对于待分类的文本信息依次进行向量化处理、融合处理、全局平均池化处理、筛选处理、去噪更新处理和降维处理,得到一个目标特征,然后根据该目标特征得到待处理文本信息的分类信息,由于增加了筛选处理以及对特征向量的去噪更新步骤,从而去除了后续分类的噪声特征,最终可以更加全面、准确地实现分类目的,且方法简单高效,成本低廉。
附图说明
图1为本发明实施例一中数据信息分类方法的流程示意图;
图2为本发明实施例二中数据信息分类装置的结构示意图;
图3为本发明实施例三中电子设备的结构示意图。
具体实施方式
如背景技术中所述,现有分类技术的准确率比较差,且分类效率比较低。
为解决上述技术问题,本发明采用的技术方案对于待分类的文本信息依次进行向量化处理、融合处理、全局平均池化处理、筛选处理、去噪更新处理和降维处理,得到一个目标特征,然后根据该目标特征得到待处理文本信息的分类信息,由于增加了筛选处理以及对特征向量的去噪更新步骤,从而去除了后续分类的噪声特征,最终可以更加全面、准确地实现分类目的,且方法简单高效,成本低廉。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
实施例一
如图1所示,本实施例提供了一种数据信息分类方法,包括以下步骤:
步骤S10,获取待分类的文本信息;
步骤S20,对所述文本信息进行向量化处理,得到所述文本信息对应的文本向量;
步骤S30,对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征;
步骤S40,对所述表示特征中包括的特征向量进行全局平均池化处理,得到每个所述特征向量对应的聚合信息;
步骤S50,利用两个全连接网络对所述聚合信息进行筛选处理,得到每个所述特征向量对应的筛选参数;
步骤S60,根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述特征向量屏蔽,并更新剩余的所述特征向量,得到更新后的特征向量;
步骤S70,根据更新后的所述特征向量,更新所述多个方面的表示特征;
步骤S80,对更新后的多个方面的表示特征进行降维处理,得到一个目标特征;
步骤S90,根据所述目标特征得到所述文本信息的分类信息。
首先执行步骤S10,获取待分类的文本信息。
所述待分类的文本信息既可以是长文本信息,也可以是短文本信息。
本实施例中可以通过语音识别获取用户的语音信息,再通过语音转文本技术获取对应的文本信息,该文本信息即为待分类的文本信息,其为一个句子(即短文本信息)。
需要说明的是,在本发明的其它实施例中,还可以采用其它方式获取待分类的文本信息,在此不再赘述。
接着执行步骤S20,对所述文本信息进行向量化处理,得到所述文本信息对应的文本向量。
本实施例中先对待处理的句子进行分词,得到多个单独词;再对每个单独词进行词性标注,获得词性标注结果,如:名词、动词等;还可以对每个单独词进行实体识别,获得实体识别结果,如:人名、地名、机构名、时间等;将分词结果输入预设词向量模型,以得到每个单独词的词向量;将词性标注结果输入预设词性向量模型,以得到每个单独词的词性向量;将实体识别结果输入预设实体向量模型,以得到每个单独词的实体结果向量,将每个单独词的词向量、词性向量和实体结果向量拼接在一起的向量集合作为句向量(即文本信息的文本向量)。
所述预设词向量模型、预设词性向量模型以及预设实体向量模型均可以采用Word2vec、FastText等工具训练得到,其对于本领域技术人员是熟知的,在此不再赘述。
需要说明的是,在本发明的其它实施例中,所述文本向量可以仅通过词向量拼接而成,即此时不考虑词性以及是否为实体信息;还可以仅通过词向量与词性向量拼接而成,即此时不考虑是否为实体信息;又可以仅通过词向量与实体结果向量拼接而成,即此时不考虑词性信息,其都在本发明的包含范围之内;又可以由词向量与词性向量、实体结果向量之外的其它一个或多个特征向量拼接而成,其都在本发明的保护范围内。
此外,本实施例在进行分词处理以及词性标注处理之后还可以将语气词、助词、停用词等无用词滤除,再进行句向量的计算,从而在不影响准确率的前提下,减少后续的数据处理量,提高分类效率。
接着执行步骤S30,对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征。
本实施例根据句向量提取所述句子多个方面的表示特征。传统的特征提取通常只关注句子或实体的一个方面,缺乏多角度、多方面的特征分析。而本实施例中将自注意力机制与多头机制相结合来实现对句子和实体的不同方面的表示,在多头机制中,每一“头”即表示一种方面,各“头”之间的运算参数相互独立,通过多头来自动学习句子不同方面的特征,从而使得到的句子特征更加充分和全面。
在一个具体例子中,对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征采用以下公式处理:
Figure BDA0002155931740000091
其中,hi为第i个方面的所述表示特征,i的取值范围为[1,l],l为预设次数,v为所述文本向量,dv为构成所述文本向量的单独词的数目,Wi Q
Figure BDA0002155931740000092
Figure BDA0002155931740000093
分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得,T为转置,softmax为softmax激活函数。Wi Q
Figure BDA0002155931740000094
Figure BDA0002155931740000095
的维度均相同,其具体的训练方法对本领域技术人员是熟知的,在此不再赘述。
其中,预设次数l的取值在5-12之间,比如:5、7、9、12等。若预设次数的取值过小,则不能很好地体现出多方面特征的效果,而预设次数的取值太大时,则会产生不必要的冗余,增加计算负担,因而发明人经过创造性的劳动发现:当选取5-12种不同角度的特征表示时,所能获得的分类效果比较理想。
上述方式的优势在于其能够将单个序列中不同位置的元素联系起来,可以很灵活地表现长距离依赖和本地依赖的情况,进而很好地描述词语间的关系,提高后续分类的准确性。
在另一个具体例子中,对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征采用以下公式处理:
Figure BDA0002155931740000101
其中,hi为第i个方面的所述表示特征,i的取值范围为[1,l],l为预设次数,v为所述文本向量,Wi Q
Figure BDA0002155931740000102
Figure BDA0002155931740000103
分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得,T为转置,softmax为softmax激活函数。Wi Q
Figure BDA0002155931740000104
Figure BDA0002155931740000105
的维度均相同,其具体的训练方法对本领域技术人员是熟知的,在此不再赘述。
接着执行步骤S40,对所述表示特征中包括的特征向量进行全局平均池化处理,得到每个所述特征向量对应的聚合信息。
由于所述表示特征中各特征向量对于分类的重要性具有差异,因而采用全局平均池化的方式,将全局的特征信息聚合到一层聚合信息中,具体可以采用下面的公式,
Figure BDA0002155931740000106
其中,Zj为特征向量cj对应的池化后的聚合信息,M×N为向量cj的维度。
接着执行步骤S50,利用两个全连接网络对所述聚合信息进行筛选处理,得到每个所述特征向量对应的筛选参数。
为了限制模型的复杂度,同时将非线性矩阵引入计算,本实施例中采用了两个全连接网络来获取特征向量对应的筛选参数,以用来判断该特征向量是否为噪声特征。
为了充分利用聚合信息,并获得全局的特征依赖分布,在进行特征筛选时,需要选择一种灵活、非互斥的门限机制,以获取判断该特征向量是否为噪声的筛选参数。具体可以分别采用ReLu函数和softsign函数作为两个全连接网络的激活函数,如下述公式所示:
sj=softsign(w2ReLu(W1zj))
其中,Zj为特征向量cj对应的筛选参数,W1、W2分别为两个全连接网络的参数矩阵。采用softsign函数作为激活函数不仅能够适合各种情况的特征分布,又允许强调足够多种类的类型特征,可以将特征的筛选参数映射到-1至+1之间。
接着执行步骤S60,根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述特征向量屏蔽,并更新剩余的所述特征向量,得到更新后的特征向量;
具体地,采用以下公式处理:
Figure BDA0002155931740000111
其中,所述cj表示第j项所述特征向量,所述xj为所述cj对应的所述更新后的特征向量,所述sj为所述cj对应的所述筛选参数。
接着执行步骤S70,根据更新后的所述特征向量,更新所述多个方面的表示特征。
本实施例中筛选过程的最终输出是通过屏蔽转换的,将被softsign函数映射为负数的特征向量转换为0向量,以达到屏蔽噪声的目的。若筛选参数sj=0,则无论哪种情况,最终xj均会被转换为0向量,从而在后续步骤中,用更新后的特征向量xj更新原本的表示特征,得到新的表示特征
Figure BDA0002155931740000121
用于后续分类处理。这样一来,更新后的表示特征中,噪声特征已经被屏蔽,剩余的有价值的特征参数更加具有针对性,不仅降低了计算压力,也使得结果受到的干扰更少,提高了准确性。
接着执行步骤S80,对更新后的多个方面的表示特征进行降维处理,得到一个目标特征。
本实施例中所述降维处理可以包括:
将每个方面的所述表示特征分别放入卷积神经网络的一个单独通道;
对于每一所述单独通道,通过下述公式计算所述目标特征中的每个特征向量:
cj=f(wf·h(i:i+n-1)+bf)
其中,j的取值范围为[1,m],cj表示所述融合特征中的第j项特征向量,m为卷积核的个数,f为非线性函数,wf为参数矩阵,bf为偏置参数,h(i:i+n-1)由hi、hi+1、…、hi+n-1依次连接组成,n为卷积窗口的长度,hi表示第i个方面的所述表示特征;
根据计算得到的m个特征向量生成所述目标特征。
最后执行步骤S90,根据所述目标特征得到所述文本信息的分类信息。
具体地,本实施例根据所述目标特征得到所述文本信息的分类信息可以包括以下步骤:
获取所述目标特征包括的每个特征向量的突出特征,所述突出特征包括所述特征向量中元素的最大值和平均值,即突出特征
Figure BDA0002155931740000131
相当于取特征向量中各元素的最大值和平均值,连接组成突出特征向量;
根据所述突出特征,获取高层特征集合,即高层特征集合
Figure BDA0002155931740000132
根据所述高层特征集合,利用全连接网络预测所述文本信息的每个类别概率向量,即
Figure BDA0002155931740000134
其中,y为类别概率向量,wp为全连接网络的参数矩阵,r为符合伯努利分布的遮蔽向量,q为高层特征集合,bp为偏置参数,符号
Figure BDA0002155931740000133
表示的是两个矩阵逐元素相乘的操作;
将所述类别概率向量中最大的元素对应的类别作为所述文本信息的分类信息。
类别概率向量中每一个元素代表了该句子相对于某一类别结果可能性的概率,其中每一坐标确定的元素预设了一种分类结果。通过上述公式可以学习得到每种可能的分类结果具体的概率值。
这里在前向传播的过程中,采用了dropout算法代替普通的向前传播的计算方式,dropout不会对代价函数进行修改,而是对深度网络本身进行调整,通过遮蔽向量r随机屏蔽掉部分神经元,因而能够有效地提升算法的泛化能力。
本实施例预先建立好多个类别信息,进而通过步骤S90从预设的多个类别信息中计算得到与待处理文本信息对应的类别信息作为该文本信息的类别结果(即分类信息)。
综上,本实施例对于待分类的文本信息依次进行向量化处理、融合处理、全局平均池化处理、筛选处理、去噪更新处理和降维处理,得到一个目标特征,然后根据该目标特征得到待处理文本信息的分类信息,由于增加了筛选处理以及对特征向量的去噪更新步骤,从而去除了后续分类的噪声特征,最终可以更加全面、准确地实现分类目的,且方法简单高效,成本低廉。
实施例二
如图2所示,本实施例提供了一种数据信息分类装置,包括:
输入模块100,用于获取待分类的文本信息;
向量化模块200,用于对所述文本信息进行向量化处理,得到所述文本信息对应的文本向量;
融合模块300,用于对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征;
池化模块400,用于对所述表示特征中包括的特征向量进行全局平均池化处理,得到每个所述特征向量对应的聚合信息;
筛选模块500,用于利用两个全连接网络对所述聚合信息进行筛选处理,得到每个所述特征向量对应的筛选参数;
去噪模块600,用于根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述特征向量屏蔽,并更新剩余的所述特征向量,得到更新后的特征向量;
更新模块700,用于根据更新后的所述特征向量,更新所述多个方面的表示特征;
降维模块800,用于对更新后的多个方面的表示特征进行降维处理,得到一个目标特征;
输出模块900,用于根据所述目标特征得到所述文本信息的分类信息。
其中,所述融合模块300可以采用以下公式处理:
Figure BDA0002155931740000151
其中,hi为第i个方面的所述表示特征,i的取值范围为[1,l],l为预设次数,v为所述文本向量,dv为构成所述文本向量的单独词的数目,Wi Q
Figure BDA0002155931740000152
Figure BDA0002155931740000153
分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得
其中,所述降维模块800可以通过下述公式计算所述目标特征中的每个特征向量:
cj=f(wf·h(i:i+n-1)+bf)
其中,j的取值范围为[1,m],cj表示所述融合特征中的第j项特征向量,m为卷积核的个数,f为非线性函数,wf为参数矩阵,bf为偏置参数,h(i:i+n-1)由hi、hi+1、…、hi+n-1依次连接组成,n为卷积窗口的长度,hi表示第i个方面的所述表示特征;
根据计算得到的m个特征向量生成所述目标特征。
其中,所述去噪模块600可以采用以下公式处理:
Figure BDA0002155931740000161
其中,所述cj表示第j项所述特征向量,所述xj为所述cj对应的所述更新后的特征向量,所述sj为所述cj对应的所述筛选参数。
其中,所述输出模块900可以包括:
突出特征计算单元,用于获取所述目标特征包括的每个特征向量的突出特征,所述突出特征包括所述特征向量中元素的最大值和平均值;
特征集合计算单元,用于根据所述突出特征,获取高层特征集合;
网络预测单元,用于根据所述高层特征集合,利用全连接网络预测所述文本信息的每个类别概率向量;
类别确定单元,用于将所述类别概率向量中最大的元素对应的类别作为所述文本信息的分类信息。
其中,所述网络预测单元可以采用以下公式处理:
Figure BDA0002155931740000171
其中,y为类别概率向量,Wp为全连接网络的参数矩阵,r为符合伯努利分布的遮蔽向量,q为所述高层特征集合,bp为偏置参数。
其中,所述待分类的文本信息可以为一个句子。
本实施例中输入模块100、向量化模块200、融合模块300、池化模块400、筛选模块500、去噪模块600、更新模块700、降维模块800和输出模块900的具体工作过程可以分别参考实施例一中的步骤S10、步骤S20、步骤S30、步骤S40、步骤S50、步骤S60、步骤S70、步骤S80和步骤S90,在此不再赘述。
综上,本实施例对于待分类的文本信息依次进行向量化处理、融合处理、全局平均池化处理、筛选处理、去噪更新处理和降维处理,得到一个目标特征,然后根据该目标特征得到待处理文本信息的分类信息,由于增加了筛选处理以及对特征向量的去噪更新步骤,从而去除了后续分类的噪声特征,最终可以更加全面、准确地实现分类目的,且方法简单高效,成本低廉。
实施例三
如图3所示,本实施例提供一种电子设备90,包括:一个或多个处理器91和存储器92;以及存储在存储器92中的计算机程序指令,计算机程序指令在被处理器91运行时使得处理器91执行实施例一所述的数据信息分类方法的各步骤。
需要说明的是,根据本申请实施例的数据信息分类装置可以作为一个软件模块和/或硬件模块而集成到电子设备90中,换言之,该电子设备90可以包括该数据信息分类装置。例如,该数据信息分类装置可以是该电子设备90的操作***中的一个软件模块,或者可以是针对于其所开发的一个应用程序;当然,该数据信息分类装置同样可以是该电子设备90的众多硬件模块之一。
在其它例子中,该数据信息分类装置与该电子设备90也可以是分立的设备(例如,服务器),并且该数据信息分类装置可以通过有线和/或无线网络连接到该电子设备90,并且按照约定的数据格式来传输交互信息。
处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备90中的其他组件以执行期望的功能。
存储器92可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器91可以运行所述程序指令,以实现上文所述的本申请的各个实施例的数据信息分类装置中的步骤以及/或者其他期望的功能。
在一个示例中,电子设备90还可以包括:输入装置93和输出装置94,这些组件通过总线***和/或其他形式的连接机构(图3中未示出)互连。
该输出装置94可以向外部输出各种信息,例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图3中仅示出了该电子设备90中与本申请有关的组件中的一些,省略了诸如总线、输入装置/输出接口等组件。除此之外,根据具体应用情况,电子设备90还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行如上述任一实施例的数据信息分类方法中的步骤。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述数据信息分类装置部分中描述的根据本申请各种实施例的数据信息分类方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要指出的是,在本申请的装置和设备中,各部件是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种数据信息分类方法,其特征在于,包括以下步骤:
获取待分类的文本信息;
对所述文本信息进行向量化处理,得到所述文本信息对应的文本向量;
对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征;
对所述表示特征中包括的特征向量进行全局平均池化处理,得到每个所述特征向量对应的聚合信息;
利用两个全连接网络对所述聚合信息进行筛选处理,得到每个所述特征向量对应的筛选参数;
根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述特征向量屏蔽,并更新剩余的所述特征向量,得到更新后的特征向量;
根据更新后的所述特征向量,更新所述多个方面的表示特征;
对更新后的多个方面的表示特征进行降维处理,得到一个目标特征;
根据所述目标特征得到所述文本信息的分类信息。
2.如权利要求1所述的方法,其特征在于,对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征采用以下公式处理:
Figure FDA0002155931730000011
其中,hi为第i个方面的所述表示特征,i的取值范围为[1,l],l为预设次数,v为所述文本向量,dv为构成所述文本向量的单独词的数目,
Figure FDA0002155931730000021
Figure FDA0002155931730000022
分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得。
3.如权利要求1所述的方法,其特征在于,所述降维处理包括:
将每个方面的所述表示特征分别放入卷积神经网络的一个单独通道;
对于每一所述单独通道,通过下述公式计算所述目标特征中的每个特征向量:
cj=f(wf·h(i:i+n-1)+bf)
其中,j的取值范围为[1,m],cj表示所述融合特征中的第j项特征向量,m为卷积核的个数,f为非线性函数,wf为参数矩阵,bf为偏置参数,h(i:i+n-1)由hi、hi+1、…、hi+n-1依次连接组成,n为卷积窗口的长度,hi表示第i个方面的所述表示特征;
根据计算得到的m个特征向量生成所述目标特征。
4.如权利要求1所述的方法,其特征在于,根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述特征向量屏蔽,并更新剩余的所述特征向量,得到更新后的特征向量采用以下公式处理:
Figure FDA0002155931730000031
其中,所述cj表示第j项所述特征向量,所述xj为所述cj对应的所述更新后的特征向量,所述sj为所述cj对应的所述筛选参数。
5.如权利要求1所述的方法,其特征在于,根据所述目标特征得到所述文本信息的分类信息包括:
获取所述目标特征包括的每个特征向量的突出特征,所述突出特征包括所述特征向量中元素的最大值和平均值;
根据所述突出特征,获取高层特征集合;
根据所述高层特征集合,利用全连接网络预测所述文本信息的每个类别概率向量;
将所述类别概率向量中最大的元素对应的类别作为所述文本信息的分类信息。
6.如权利要求5所述的方法,其特征在于,所述根据所述高层特征集合,利用全连接网络预测所述文本信息的每个类别概率向量采用以下公式处理:
Figure FDA0002155931730000032
其中,y为类别概率向量,wp为全连接网络的参数矩阵,r为符合伯努利分布的遮蔽向量,q为所述高层特征集合,bp为偏置参数。
7.如权利要求1所述的方法,其特征在于,所述待分类的文本信息为一个句子。
8.一种数据信息分类装置,其特征在于,包括:
输入模块,用于获取待分类的文本信息;
向量化模块,用于对所述文本信息进行向量化处理,得到所述文本信息对应的文本向量;
融合模块,用于对所述文本向量进行融合处理,得到所述文本信息的多个方面的表示特征;
池化模块,用于对所述表示特征中包括的特征向量进行全局平均池化处理,得到每个所述特征向量对应的聚合信息;
筛选模块,用于利用两个全连接网络对所述聚合信息进行筛选处理,得到每个所述特征向量对应的筛选参数;
去噪模块,用于根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述特征向量屏蔽,并更新剩余的所述特征向量,得到更新后的特征向量;
更新模块,用于根据更新后的所述特征向量,更新所述多个方面的表示特征;
降维模块,用于对更新后的多个方面的表示特征进行降维处理,得到一个目标特征;
输出模块,用于根据所述目标特征得到所述文本信息的分类信息。
9.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行如权利要求1至7任一项所述数据信息分类方法的步骤。
10.一种电子设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至7任一项所述数据信息分类方法的步骤。
CN201910717439.9A 2019-08-05 2019-08-05 数据信息分类方法及装置 Active CN112328784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910717439.9A CN112328784B (zh) 2019-08-05 2019-08-05 数据信息分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910717439.9A CN112328784B (zh) 2019-08-05 2019-08-05 数据信息分类方法及装置

Publications (2)

Publication Number Publication Date
CN112328784A true CN112328784A (zh) 2021-02-05
CN112328784B CN112328784B (zh) 2023-04-18

Family

ID=74319733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910717439.9A Active CN112328784B (zh) 2019-08-05 2019-08-05 数据信息分类方法及装置

Country Status (1)

Country Link
CN (1) CN112328784B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633952A (zh) * 2021-03-08 2021-04-09 腾讯科技(深圳)有限公司 广告推送方法和装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIASHU LIU ET AL: ""SENet for Weakly-Supervised Relation Extraction"", 《PROCEEDINGS OF THE 2018 2ND INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND ARTIFICIAL INTELLIGENCE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633952A (zh) * 2021-03-08 2021-04-09 腾讯科技(深圳)有限公司 广告推送方法和装置、存储介质及电子设备
CN112633952B (zh) * 2021-03-08 2021-07-09 腾讯科技(深圳)有限公司 广告推送方法和装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112328784B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
US11741361B2 (en) Machine learning-based network model building method and apparatus
CN113240130B (zh) 数据分类方法及装置、计算机可读存储介质和电子设备
CN112131383A (zh) 特定目标的情感极性分类方法
CN110781686B (zh) 一种语句相似度计算方法、装置及计算机设备
WO2019154411A1 (zh) 词向量更新方法和装置
EP3620982B1 (en) Sample processing method and device
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
US12008739B2 (en) Automatic photo editing via linguistic request
WO2020211720A1 (zh) 数据处理方法和代词消解神经网络训练方法
KR20170096282A (ko) 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법
CN111667817A (zh) 一种语音识别方法、装置、计算机***及可读存储介质
CN111190967B (zh) 用户多维度数据处理方法、装置及电子设备
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN112765357A (zh) 文本分类方法、装置和电子设备
CN113449840A (zh) 神经网络训练方法及装置、图像分类的方法及装置
WO2020177378A1 (zh) 文本信息的特征提取方法、装置、计算机设备及存储介质
CN112328784B (zh) 数据信息分类方法及装置
CN114399025A (zh) 一种图神经网络解释方法、***、终端以及存储介质
WO2022174499A1 (zh) 文本韵律边界预测的方法、装置、设备及存储介质
CN117057421A (zh) 基于科技情报分析知识图谱的因果关系确定方法和***
JP6078380B2 (ja) 文書解析装置、及びプログラム
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质
KR20220061835A (ko) 하드웨어 가속 장치 및 방법
CN108921216B (zh) 一种图像分类模型的处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant