CN110020431B - 文本信息的特征提取方法、装置、计算机设备及存储介质 - Google Patents
文本信息的特征提取方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110020431B CN110020431B CN201910168231.6A CN201910168231A CN110020431B CN 110020431 B CN110020431 B CN 110020431B CN 201910168231 A CN201910168231 A CN 201910168231A CN 110020431 B CN110020431 B CN 110020431B
- Authority
- CN
- China
- Prior art keywords
- text information
- length
- network
- meta
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本信息的特征提取方法、装置、计算机设备及存储介质,所述方法包括:设置并训练元网络,所述元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络;将待识别的文本信息的长度调整为所述元网络的输入长度;将长度调整后的所述文本信息传入所述元网络,通过所述元网络生成所述文本信息对应的一组唯一过滤器,所述唯一过滤器是指与长度调整后的所述文本信息的上下文相关的过滤器;将长度调整后的所述文本信息传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵。本发明解决了现有文本识别技术无法适应上下文语境、文本识别准确率欠佳的问题。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种文本信息的特征提取方法、装置、计算机设备及存储介质。
背景技术
卷积神经网络在近来逐渐成为自然语言处理的一种基础模块,尽管得到了成功,但是大部分现存的卷积神经网络都采用的是对所有输入句子应用习得的相同的静态过滤器。静态过滤器最大的不足在于它不是与文本相关的,也就是它同等地对待所有类型的文本。比如我们人在阅读一篇科普文章和一篇时政新闻时,阅读方式一般是不同的,阅读的重点也通常是不同的;对于时政新闻,我们应当主要提取时间、地点、人物、事件等信息,而对于科普文章,应该在概念、逻辑、因果等关系上给予更大的权重。而静态过滤器只能用同样的权重来对待所有的上下文信息,因而在文本识别的准确率这一方面上受到了限制。
由此可见,寻找一种能够适应上下文语境、提高文本识别准确率的方法成为本领域亟需解决的技术问题。
发明内容
本发明实施例提供了一种文本信息的特征提取方法、装置、计算机设备及存储介质,以解决现有文本识别技术无法适应上下文语境、文本识别准确率欠佳的问题。
一种文本信息的特征提取方法,包括:
设置并训练元网络,所述元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络;
获取待识别的文本信息;
将所述待识别的文本信息的长度调整为所述元网络的输入长度;
将长度调整后的所述文本信息作为输入传入所述元网络,通过所述元网络生成所述文本信息对应的一组唯一过滤器,所述唯一过滤器是指与长度调整后的所述文本信息的上下文相关的过滤器;
将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵,所述特征向量矩阵中的各个元素表示所述文本信息的特征。
可选地,所述将所述待识别的文本信息的长度调整为所述元网络的输入长度包括:
获取所述元网络的输入长度,判断所述待识别的文本信息的长度是否达到所述输入长度;
若否时,将预设字符填充至所述待识别的文本信息末尾,以将所述待识别的文本信息的长度调整为所述输入长度。
可选地,所述将长度调整后的所述文本信息作为输入传入所述元网络,通过所述元网络生成所述文本信息对应的一组唯一过滤器包括:
对长度调整后的所述文本信息进行向量化处理,得到向量矩阵,所述向量矩阵中包括若干个词嵌入向量,每一个词嵌入向量的长度相等;
通过所述元网络对所述向量矩阵执行卷积运算,得到指定长度的隐藏层向量;
对所述隐藏层向量执行转置卷积运算,得到长度调整后的所述文本信息对应的一组唯一过滤器。
可选地,所述将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵包括:
对长度调整后的所述文本信息进行向量化处理,得到向量矩阵,所述向量矩阵中包括若干个词嵌入向量,每一个词嵌入向量的长度相等;
通过所述唯一过滤器对所述向量矩阵执行卷积运算,提取所述文本信息对应的特征图;
对所述特征图执行池化操作,提取特征图中每一行的最大值作为主要特征,得到所述文本信息对应的特征向量矩阵。
可选地,在通过所述唯一过滤器生成所述文本信息对应的特征向量矩阵后,还包括:
将所述特征向量矩阵作为输入传入全连接层,然后将全连接层的输出作为输入传入预设的Softmax分类器;
根据所述Softmax分类器的输出获取所述文本信息对应的类别。
一种文本信息的特征提取装置,包括:
训练模块,用于设置并训练元网络,所述元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络;
信息获取模块,用于获取待识别的文本信息;
长度调整模块,用于将所述待识别的文本信息的长度调整为所述元网络的输入长度;
过滤器生成模块,用于将长度调整后的所述文本信息作为输入传入所述元网络,通过所述元网络生成所述文本信息对应的一组唯一过滤器,所述唯一过滤器是指与长度调整后的所述文本信息的上下文相关的过滤器;
特征提取模块,用于将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵,所述特征向量矩阵中的各个元素表示所述文本信息的特征。
可选地,所述长度调整模块包括:
长度获取单元,用于获取所述元网络的输入长度,判断所述待识别的文本信息的长度是否达到所述输入长度;
长度调整单元,用于若所述待识别的文本信息的长度未达到所述输入长度时,将预设字符填充至所述待识别的文本信息末尾,以将所述待识别的文本信息的长度调整为所述输入长度。
可选地,所述过滤器生成模块包括:
第一向量化单元,用于对长度调整后的所述文本信息进行向量化处理,得到向量矩阵,所述向量矩阵中包括若干个词嵌入向量,每一个词嵌入向量的长度相等;
第一卷积单元,用于通过所述元网络对所述向量矩阵执行卷积运算,得到指定长度的隐藏层向量;
转置卷积单元,用于对所述隐藏层向量执行转置卷积运算,得到所述长度调整后的文本信息对应的一组唯一过滤器。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本信息的特征提取方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本信息的特征提取方法。
本发明实施例通过设置并训练元网络,所述元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络;在对文本信息进行识别时,根据待识别的文本信息获取元网络,并将所述待识别的文本信息的长度调整为所述元网络的输入长度;然后将长度调整后的所述文本信息作为输入传入所述元网络,通过所述元网络生成所述文本信息对应的一组唯一过滤器,所述唯一过滤器是指与长度调整后的所述文本信息的上下文相关的过滤器;将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵,所述特征向量矩阵中的各个元素表示所述文本信息的特征;从而实现了针对待识别的文本信息学习其在卷积神经网络中的权重矩阵,解决了现有基于卷积神经网络的文本识别技术无法适应上下文语境、文本识别准确率欠佳的问题,大大地提高了文本信息的特征提取的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文本信息的特征提取方法的一流程图;
图2是本发明一实施例中文本信息的特征提取方法中步骤S103的一流程图;
图3是本发明一实施例中文本信息的特征提取方法中步骤S104的一流程图;
图4是本发明一实施例中文本信息的特征提取方法中步骤S105的一流程图;
图5是本发明一实施例中文本信息的特征提取方法的一流程图;
图6是本发明一实施例中文本信息的特征提取装置的一原理框图;
图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的文本信息的特征提取方法应用于服务器。所述服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图1所示,提供一种文本信息的特征提取方法,包括如下步骤:
在步骤S101中,设置并训练元网络,所述元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络。
在这里,为了解决大部分现存的卷积神经网络采用对所有待识别的文本信息应用习得的相同的静态过滤器的问题,本发明实施例提出了一种使用元网络来学习上下文语境的卷积神经网络,并应用于文本处理。其中,所述元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络,能够根据所输入的文本信息生成与所输入的文本信息的上下文语境相关的权重矩阵,是一个关于网络的网络。元网络所生成的过滤器是针对不同类型的文本信息定制的,适用于该不同类型的文本信息,从而改变了以往的卷积神经网络中使用同一过滤器同等对待所有类型的文本的现状。由于所述过滤器与文本信息的上下文语境相关,使得提取到的特征可以更准确。
在本发明实施例中,所述元网络可以是任意可微分的深度网络。所述元网络预先通过在大量的训练文本集上训练得到。在进行文本信息的特征提取时,获取预先训练得到的元网络,并对所述元网络的参数进行微调,得到适用于本次文本信息的元网络。
在步骤S102中,获取待识别的文本信息。
在本发明实施例中,所述文本信息是根据指定的语言衔接和语义连贯规则组成的一个语句,包括但不限于话术文本信息、文学文本信息。服务器可以根据实际需要或者应用场景的需要获取待识别的文本信息。例如,服务器从预设数据库中获取待识别的文本信息,所述预设数据库中预先收集了大量的文本信息。或者,服务器通过客户端的麦克风获取用户输入的语音信息,然后将所述语音信息转换为文字,得到待识别的文本信息。又或者,服务器通过客户端的拍照功能获取图像信息,然后对所述图像信息进行OCR文本识别,得到待识别的文本信息。可以理解的是,服务器还可以通过多种方式获取到待识别的文本信息,此处不再过多赘述。
为了提高元网络输出结果的价值,提高文本特征提取的准确率,所述待识别的文本信息优选为与所述元网络的训练文本及上下文分布是相同或相似的,即所述待识别的文本信息与所述训练文本相同或者为训练文本中的一部分,两者在风格、类型、语义等层面上是相同或相似的。
在步骤S103中,将所述待识别的文本信息的长度调整为所述元网络的输入长度。
在这里,所述文本信息的长度是指文本信息的字符串长度。为了使得元网络根据不同的输入文本生成的唯一过滤器的大小是统一的,本发明实施例在将所述待识别的文本信息输入元网络之前,调整所述待识别的文本信息的长度为元网络的输入长度。所述输入长度是预先设置的元网络的输入参数的字符串长度。可选地,可以在训练元网络时,预先统计所有训练文本的字符串长度的分布,然后选取一个最大长度作为元网络的输入长度,以进行统一。如图2所示,所述步骤S103将所述待识别的文本信息的长度调整为所述元网络的输入长度包括:
在步骤S1031中,获取所述元网络的输入长度,判断所述待识别的文本信息的长度是否达到所述输入长度。
在这里,本发明实施例通过计算所述待识别的文本信息的字符个数,得到所述待识别的文本信息的字符串长度。然后将所述字符串长度与所述输入长度进行比较,以判断所述待识别的文本信息的长度是否达到所述输入长度。
若是时,即所述待识别的文本信息的长度达到所述输入长度,则跳转至步骤S104,通过所述元网络生成所述待识别的文本信息对应的一组唯一过滤器。
在步骤S1032中,若否时,将预设字符填充至所述待识别的文本信息末尾,以将所述待识别的文本信息的长度调整为所述输入长度。然后跳转至步骤S104。
在这里,对于字符串长度未达到输入长度的待识别的文本信息,本发明实施例采用预设字符补齐所述待识别的文本信息,以将所述待识别的文本信息调整到输入长度。所述预设字符对于元网络、卷积神经网络来说是一个代表空白的特殊字符,比如NUL。
为了便于理解,以下对上述步骤S103调整文本信息的长度为所述元网络的输入长度进行举例说明。假设预先统计所有训练文本的字符串长度的分布,然后选取一个最大长度作为所述输入长度,比如7。若待识别的文本信息为“今天天气真好”,通过步骤S1031得到其字符串长度为6,未达到输入长度7。则在步骤S1033中采用预设字符NUL来对所述待识别的文本信息“今天天气真好”进行补齐,得到长度调整后的文本信息“今天天气真好NUL”。
在步骤S104中,将长度调整后的所述文本信息作为输入传入所述元网络,通过所述元网络生成所述文本信息对应的一组唯一过滤器,所述唯一过滤器是指与长度调整后的所述文本信息的上下文相关的过滤器。
如前所述,所述元网络能够根据输入参数学习得到经过调整的卷积神经网络过滤器。在本发明实施例中,所述输入参数为长度调整后的待识别的文本信息,所述过滤器为所述待识别的文本信息对应的一组唯一过滤器。所述唯一过滤器与待识别的文本信息的上下文相关,从而使用所述唯一过滤器能够对不同的待识别的文本信息精炼及提取到不同的特征。
可选地,为了解决输入长度可变的问题,在本发明实施例中,所述元网络生成预定义大小的唯一过滤器。如图3所示,所述步骤S104将长度调整后的所述文本信息作为输入传入所述元网络,通过所述元网络生成所述文本信息对应的一组唯一过滤器包括:
在步骤S1041中,对长度调整后的所述文本信息进行向量化处理,得到向量矩阵,所述向量矩阵中包括若干个词嵌入向量,每一个词嵌入向量的长度相等。
在这里,本发明实施例对长度调整后的所述文本信息进行向量化处理,得到长度调整后的文本信息对应的向量矩阵,作为所述待识别的文本信息对应的向量矩阵。所述向量矩阵中包括若干个词嵌入向量。所述词嵌入向量是指将长度调整后的所述文本信息进行分词后每个单词的词向量,即长度调整后的文本信息中的每一个词映射为向量矩阵中的一个列向量。在本发明实施例中,所述词嵌入向量的长度是预先指定的,即对于不同长度的待识别的文本信息,其对应的词嵌入向量的长度都是相同的。尽管长度调整时采用了预设字符来填充所述待识别的文本信息,但是所述预设字符对于元网络、卷积神经网络来说是一个代表空白的特殊字符。本发明实施例将长度调整后的所述文本信息转化为向量矩阵,有利于方便了后续卷积神经网络的识别和学习,即方便了后续执行卷积运算和转置卷积运算。
在步骤S1042中,通过所述元网络对所述向量矩阵执行卷积运算,得到指定长度的隐藏层向量。
在得到长度调整后的所述文本信息对应的向量矩阵之后,通过元网络中预设的卷积层对所述向量矩阵执行卷积操作,即通过卷积层滤波器对所述向量矩阵进行卷积运算,计算滤波器和所述向量矩阵之间的点积,以提取更高层次的特征,得到指定长度的隐藏层向量。在这里,组成卷积层滤波器的参数可以通过损失函数进行优化。
在步骤S1043中,对所述隐藏层向量执行转置卷积运算,得到所述长度调整后的文本信息对应的一组唯一过滤器。
在这里,转置卷积(transpose convolution)运算,又称为解卷积(deconvolution)或者反卷积,类似于卷积的逆运算。本发明实施例在步骤S1042所述的隐藏层之上叠加了一个转置卷积层。在得到隐藏层向量之后,将所述隐藏层向量通过所述转置卷积层,进行转置卷积运算,生成一组卷积核,以所述卷积核作为长度调整后的所述文本信息对应的一组唯一过滤器,即所述待识别的文本信息对应的一组唯一过滤器。在这里,组成转置卷积层的参数可以通过损失函数进行优化。可以理解的是,所述唯一过滤器是与所述待识别的文本信息的上下文相关的过滤器,为所述待识别的文本信息定制的,适用于所述待识别的文本信息。
在本发明实施例中,由于待识别的文本信息通过步骤S103调整到指定的输入长度,然后封装到一个相同长度的向量矩阵中,隐藏层向量根据所述向量矩阵得到,从而使得所述隐藏层向量与所述待识别的文本信息长度无关,保证了通过元网络生成的过滤器对每一个待识别的文本信息具有相同的维度和大小,即通过元网络生成的过滤器的大小保持一致。
可选地,在本发明实施例中,上述卷积层和转置卷积层中的参数均为联合可微分的,因此在训练元网络时可以将卷积层的参数和转置卷积层的参数一起通过梯度的反向传播算法进行优化、更新。在这里,反向传播算法(即BP算法)的思想是将通过卷积层和转置卷积层的输出进行误差计算,并将误差反向逐级传下去,主要由激励传播和权重更新两个环节反复循环迭代,直至训练文本的特征向量矩阵达到预定的误差期望值。通过反向传播算法可以进一步优化元网络的参数,提高元网络生成唯一过滤器的准确度。
在步骤S105中,将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵,所述特征向量矩阵中的各个元素表示所述文本信息的特征。
在通过元网络得到长度调整后的所述文本信息对应的唯一过滤器之后,使用所述唯一过滤器对长度调整后的所述文本信息进行识别。具体为:将长度调整后的所述文本信息作为输入传入所述唯一过滤器,然后获取经过所述唯一过滤器后的输出,以所述输出作为所述待识别的文本信息对应的特征向量矩阵。所述特征向量矩阵中包含所述待识别的文本信息的特征信息,即语义信息。
可选地,如图4所示,所述步骤S105将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵包括:
在步骤S1051中,对长度调整后的所述文本信息进行向量化处理,得到向量矩阵,所述向量矩阵中包括若干个词嵌入向量,每一个词嵌入向量的长度相等。
在这里,在将长度调整后的文本信息传入所述唯一过滤器之前,可以对长度调整后的所述文本信息进行向量化处理,将文本信息中的每一个词映射为向量矩阵中的一个列向量,得到每一个词的词嵌入向量,组合所述词嵌入向量得到长度调整后的所述文本信息对应的向量矩阵。其中,所述词嵌入向量的长度是预先指定的,即对于不同长度的待识别的文本信息,其对应的词嵌入向量的长度都是相同的。本发明实施例将所述待识别的文本信息转化为向量矩阵,有利于方便后续执行卷积运算。
示例性地,假设长度调整后的文本信息的长度为T,组成的单词为x1,x2,...,xT。对长度调整后的所述文本信息进行向量化处理后,得到一个向量矩阵X∈Rd×T,向量矩阵X中的每一列表示长度调整后的所述文本信息中的一个单词对应的d维度的词嵌入向量。
在步骤S1052中,通过所述唯一过滤器对所述向量矩阵执行卷积运算,提取所述文本信息对应的特征图。
在得到长度调整后的所述文本信息对应的向量矩阵之后,将所述向量矩阵作为输入传入所述唯一过滤器执行卷积操作,即通过所述唯一过滤器对所述向量矩阵进行卷积运算,计算过滤器和所述向量矩阵之间的点积,以提取更高层次的特征,得到所述文本信息对应的特征图。
示例性地,假设所述唯一过滤器的权重为W∈RK×h×d,将所述唯一过滤器和所述向量矩阵中的每个大小为h的窗口进行卷积运算,得到所述向量矩阵的特征图P。其中,所述特征图P中的每一个元素pi由窗口大小为h的文本片段生成:pi=f(W×xi:i+h-1+b)。
在上式中,i=1,2,…,T-h+1,在这里,×表示卷积运算符,b表示维度为K的偏置向量,f表示非线性激活函数,比如ReLU。
在步骤S1053中,对所述特征图执行池化操作,提取特征图中每一行的最大值作为主要特征,得到所述文本信息对应的特征向量矩阵。
在本发明实施例中,所述特征图随后作为输入传入最大池化层中,通过所述最大池化层对所述特征图中的每一行提取最大值,得到主要特征,组合所有主要特征得到一个K维向量,以所述K维向量作为长度调整后的所述文本信息对应的特征向量矩阵,即所述待识别的文本信息对应的特征向量矩阵。本发明实施例通过最大池化层弃置不重要的特征,仅保留了最突出的特征,一方面可以使特征图变小,简化计算复杂度,一方面可以提高识别的准确度。
所述特征向量矩阵中的各个元素表示所述文本信息的特征,即语义信息。在本发明实施例中,经过元网络生成的唯一过滤器与所述待识别的文本信息的上下文相关,不同的待识别的文本信息对应的唯一过滤器不相同,即在卷积神经网络中的权重矩阵不相同。通过所述唯一过滤器获取所述待识别的文本信息的特征向量矩阵,大大地提高了特征提取的准确率。
综上所示,本发明实施例通过设置并训练元网络,所述元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络;在对文本信息进行识别时,根据待识别的文本信息获取元网络,并将所述待识别的文本信息的长度调整为所述元网络的输入长度;然后将长度调整后的所述文本信息作为输入传入所述元网络,通过所述元网络生成所述文本信息对应的一组唯一过滤器,所述唯一过滤器是指与长度调整后的所述文本信息的上下文相关的过滤器;将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵,所述特征向量矩阵中的各个元素表示所述文本信息的特征;从而实现了针对待识别的文本信息习得对应的一组过滤器用于识别所述文本信息,解决了现有文本识别技术无法适应上下文语境、文本识别准确率欠佳的问题,极大地提高了文本信息的特征提取的准确率。
在本发明实施例中,所述特征向量矩阵与待识别的文本信息对应,包括若干个元素,每一个元素表示从所述文本信息中提取出来的特征,即语义信息。相比于待识别的文本信息,所述特征向量矩阵的维度大大缩小。基于所述特征向量矩阵可以进一步实现对所述待识别文本信息的分类。如图5所示,所述方法还可以包括:
在步骤S106中,将所述特征向量矩阵作为输入传入全连接层,然后将全连接层的输出作为输入传入预设的Softmax分类器。
在步骤S107中,根据所述Softmax分类器的输出获取所述文本信息对应的类别。
在这里,本发明实施例通过全连接层对所述特征向量矩阵进行提纯,以将特征向量矩阵转化为指定维度的向量,方便后续softmax分类器执行分类操作。所述全连接层预先根据分类类别的数量N,设置K*N个权重系数和N个偏置值,K为全连接层前一层的最后一维的维度,即输出的特征向量矩阵的维度。然后将所述特征向量矩阵与全连接层的权重矩阵相乘后加上一个偏置值,所得的和组合成一维向量,从而得到全连接层的输出。
将所述全连接层的输出作为输入传入预设的softmax分类器。在这里,所述Softmax分类器用于处理多分类问题,其输出需要经过Softmax函数进行数值处理。关于Softmax函数的定义如下:
在上述中,Vn表示全连接层输出的一维向量中的元素,n表示类别索引,n=1,2,3,…,N,总的类别个数为N。Sn表示当前元素Vn的指数与所有元素指数和的比值。将所有的Sn组合成一维向量,得到softmax分类器的输出。通过上式可知,softmax分类器将多分类的全连接层输出数值转化为相对概率,其元素表征了不同类别之间的相对概率,便于理解和比较。基于所述softmax分类器的输出,概率最大的元素对应的类别可能性最大,可以清晰地预测所述待识别的文本信息为概率最大的元素对应的类别。
可选地,在本发明实施例中,所述类别可以是意图类别,比如同意、拒绝、等待等,也可以是网页类别、情感类别、用户评论类别等等,此处不作限制。
在本发明实施例中,经过元网络生成的唯一过滤器与所述待识别的文本信息的上下文相关,不同的待识别的文本信息对应的唯一过滤器不相同,即权重矩阵不相同。通过所述唯一过滤器获取所述待识别的文本信息的特征向量矩阵,大大地提高了特征提取的准确率;基于所述特征向量矩阵进行分类,进一步提高了分类的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文本信息的特征提取装置,该中文本信息的特征提取装置与上述实施例中文本信息的特征提取方法一一对应。如图6所示,该文本信息的特征提取装置包括训练模块61、信息获取模块62、长度调整模块63、过滤器生成模块64、特征提取模块65。各功能模块详细说明如下:
训练模块61,用于设置并训练元网络,所述元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络;
信息获取模块62,用于获取待识别的文本信息;
长度调整模块63,用于将所述待识别的文本信息的长度调整为所述元网络的输入长度;
过滤器生成模块64,用于将长度调整后的所述文本信息作为输入传入所述元网络,通过所述元网络生成所述文本信息对应的一组唯一过滤器,所述唯一过滤器是指与长度调整后的所述文本信息的上下文相关的过滤器;
特征提取模块65,用于将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵,所述特征向量矩阵中的各个元素表示所述文本信息的特征。
可选地,所述长度调整模块63包括:
长度获取单元,用于获取所述元网络的输入长度,判断所述待识别的文本信息的长度是否达到所述输入长度;
长度调整单元,用于若所述待识别的文本信息的长度未达到所述输入长度时,将预设字符填充至所述待识别的文本信息末尾,以将所述待识别的文本信息的长度调整为所述输入长度。
可选地,所述过滤器生成模块64包括:
第一向量化单元,用于对长度调整后的所述文本信息进行向量化处理,得到向量矩阵,所述向量矩阵中包括若干个词嵌入向量,每一个词嵌入向量的长度相等;
第一卷积单元,用于通过所述元网络对所述向量矩阵执行卷积运算,得到指定长度的隐藏层向量;
转置卷积单元,用于对所述隐藏层向量执行转置卷积运算,得到所述长度调整后的文本信息对应的一组唯一过滤器。
可选地,所述特征提取模块65包括:
第二向量化单元,用于对长度调整后的所述文本信息进行向量化处理,得到向量矩阵,所述向量矩阵中包括若干个词嵌入向量,每一个词嵌入向量的长度相等;
第二卷积单元,用于通过所述唯一过滤器对所述向量矩阵执行卷积运算,提取所述文本信息对应的特征图;
池化单元,用于对所述特征图执行池化操作,提取特征图中每一行的最大值作为主要特征,得到所述文本信息对应的特征向量矩阵。
可选地,在通过所述唯一过滤器生成所述文本信息对应的特征向量矩阵后,还包括:
分类模块,用于将所述特征向量矩阵作为输入传入全连接层,然后将全连接层的输出作为输入传入预设的Softmax分类器;根据所述Softmax分类器的输出获取所述文本信息对应的类别。
关于文本信息的特征提取装置的具体限定可以参见上文中对于文本信息的特征提取方法的限定,在此不再赘述。上述文本信息的特征提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本信息的特征提取方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
设置并训练元网络,所述元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络;
获取待识别的文本信息;
将所述待识别的文本信息的长度调整为所述元网络的输入长度;
将长度调整后的所述文本信息作为输入传入所述元网络,通过所述元网络生成所述文本信息对应的一组唯一过滤器,所述唯一过滤器是指与长度调整后的所述文本信息的上下文相关的过滤器;
将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵,所述特征向量矩阵中的各个元素表示所述文本信息的特征。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
设置并训练元网络,所述元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络;
获取待识别的文本信息;
将所述待识别的文本信息的长度调整为所述元网络的输入长度;
将长度调整后的所述文本信息作为输入传入所述元网络,通过所述元网络生成所述文本信息对应的一组唯一过滤器,所述唯一过滤器是指与长度调整后的所述文本信息的上下文相关的过滤器;
将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵,所述特征向量矩阵中的各个元素表示所述文本信息的特征。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (6)
1.一种文本信息的特征提取方法,其特征在于,包括:
设置元网络,通过训练文本集对所述元网络进行预先训练,得到训练好的元网络,所述训练好的元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络;
获取与所述训练文本集中的训练样本在风格、类型、语义层面相同的待识别的文本信息;
将所述待识别的文本信息的长度调整为所述训练好的元网络的输入长度;
所述将所述待识别的文本信息的长度调整为所述训练好的元网络的输入长度包括:
获取所述训练好的元网络的输入长度,判断所述待识别的文本信息的长度是否达到所述输入长度;
若否时,将预设字符填充至所述待识别的文本信息末尾,以将所述待识别的文本信息的长度调整为所述输入长度;
将长度调整后的所述文本信息作为输入传入所述训练好的元网络,通过所述训练好的元网络生成所述文本信息对应的一组唯一过滤器,所述唯一过滤器是指与长度调整后的所述文本信息的上下文相关的过滤器;
所述将长度调整后的所述文本信息作为输入传入所述训练好的元网络,通过所述训练好的元网络生成所述文本信息对应的一组唯一过滤器包括:
对长度调整后的所述文本信息进行向量化处理,得到向量矩阵,所述向量矩阵中包括若干个词嵌入向量,每一个词嵌入向量的长度相等;
通过所述训练好的元网络中的卷积层对所述向量矩阵执行卷积运算,得到指定长度的隐藏层向量;
通过所述训练好的元网络中的转置卷积层对所述隐藏层向量执行转置卷积运算,得到长度调整后的所述文本信息对应的一组唯一过滤器;
所述卷积层的参数和所述转置卷积层的参数为联合可微分的,在所述通过训练文本集对所述元网络进行预先训练时,将所述卷积层的参数和所述转置卷积层的参数一起通过梯度的反向传播算法进行优化;
将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵,所述特征向量矩阵中的各个元素表示所述文本信息的特征。
2.如权利要求1所述的文本信息的特征提取方法,其特征在于,所述将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵包括:
对长度调整后的所述文本信息进行向量化处理,得到向量矩阵,所述向量矩阵中包括若干个词嵌入向量,每一个词嵌入向量的长度相等;
通过所述唯一过滤器对所述向量矩阵执行卷积运算,提取所述文本信息对应的特征图;
对所述特征图执行池化操作,提取特征图中每一行的最大值作为主要特征,得到所述文本信息对应的特征向量矩阵。
3.如权利要求1所述的文本信息的特征提取方法,其特征在于,在通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵后,还包括:
将所述特征向量矩阵作为输入传入全连接层,然后将全连接层的输出作为输入传入预设的Softmax分类器;
根据所述Softmax分类器的输出获取所述文本信息对应的类别。
4.一种文本信息的特征提取装置,其特征在于,包括:
训练模块,用于设置元网络,通过训练文本集对所述元网络进行预先训练,得到训练好的元网络,所述训练好的元网络是指用于生成与所输入的文本信息对应的一组唯一过滤器的网络;
信息获取模块,用于获取与所述训练文本集中的训练样本在风格、类型、语义层面相同的待识别的文本信息;
长度调整模块,用于将所述待识别的文本信息的长度调整为所述训练好的元网络的输入长度;
所述长度调整模块包括:
长度获取单元,用于获取所述训练好的元网络的输入长度,判断所述待识别的文本信息的长度是否达到所述输入长度;
长度调整单元,用于若所述待识别的文本信息的长度未达到所述输入长度时,将预设字符填充至所述待识别的文本信息末尾,以将所述待识别的文本信息的长度调整为所述输入长度;
过滤器生成模块,用于将长度调整后的所述文本信息作为输入传入所述训练好的元网络,通过所述训练好的元网络生成所述文本信息对应的一组唯一过滤器,所述唯一过滤器是指与长度调整后的所述文本信息的上下文相关的过滤器;
所述过滤器生成模块包括:
第一向量化单元,用于对长度调整后的所述文本信息进行向量化处理,得到向量矩阵,所述向量矩阵中包括若干个词嵌入向量,每一个词嵌入向量的长度相等;
第一卷积单元,用于通过所述训练好的元网络中的卷积层对所述向量矩阵执行卷积运算,得到指定长度的隐藏层向量;
转置卷积单元,用于通过所述训练好的元网络中的转置卷积层对所述隐藏层向量执行转置卷积运算,得到长度调整后的所述文本信息对应的一组唯一过滤器,所述卷积层的参数和所述转置卷积层的参数为联合可微分的,在所述通过训练文本集对所述元网络进行预先训练时,将所述卷积层的参数和所述转置卷积层的参数一起通过梯度的反向传播算法进行优化;
特征提取模块,用于将长度调整后的所述文本信息作为输入传入所述唯一过滤器,通过所述唯一过滤器提取所述文本信息对应的特征向量矩阵,所述特征向量矩阵中的各个元素表示所述文本信息的特征。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的文本信息的特征提取方法。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的文本信息的特征提取方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168231.6A CN110020431B (zh) | 2019-03-06 | 2019-03-06 | 文本信息的特征提取方法、装置、计算机设备及存储介质 |
PCT/CN2019/117424 WO2020177378A1 (zh) | 2019-03-06 | 2019-11-12 | 文本信息的特征提取方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168231.6A CN110020431B (zh) | 2019-03-06 | 2019-03-06 | 文本信息的特征提取方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110020431A CN110020431A (zh) | 2019-07-16 |
CN110020431B true CN110020431B (zh) | 2023-07-18 |
Family
ID=67189329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910168231.6A Active CN110020431B (zh) | 2019-03-06 | 2019-03-06 | 文本信息的特征提取方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110020431B (zh) |
WO (1) | WO2020177378A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020431B (zh) * | 2019-03-06 | 2023-07-18 | 平安科技(深圳)有限公司 | 文本信息的特征提取方法、装置、计算机设备及存储介质 |
CN110889290B (zh) * | 2019-11-13 | 2021-11-16 | 北京邮电大学 | 文本编码方法和设备、文本编码有效性检验方法和设备 |
CN116401381B (zh) * | 2023-06-07 | 2023-08-04 | 神州医疗科技股份有限公司 | 一种加快医学关系抽取的方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536678A (zh) * | 2018-04-12 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 文本关键信息提取方法、装置、计算机设备和存储介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073704B (zh) * | 2010-12-24 | 2013-09-25 | 华为终端有限公司 | 文本分类处理方法和***以及设备 |
CN102541958A (zh) * | 2010-12-30 | 2012-07-04 | 百度在线网络技术(北京)有限公司 | 一种用于识别短文本类别信息的方法、装置和计算机设备 |
CN105404899A (zh) * | 2015-12-02 | 2016-03-16 | 华东师范大学 | 基于多方向上下文信息和稀疏编码模型的图像分类方法 |
US9659248B1 (en) * | 2016-01-19 | 2017-05-23 | International Business Machines Corporation | Machine learning and training a computer-implemented neural network to retrieve semantically equivalent questions using hybrid in-memory representations |
KR20180077846A (ko) * | 2016-12-29 | 2018-07-09 | 주식회사 엔씨소프트 | 논쟁 유발성 문서 판별 장치 및 방법 |
CN107066553B (zh) * | 2017-03-24 | 2021-01-01 | 北京工业大学 | 一种基于卷积神经网络与随机森林的短文本分类方法 |
CN107169035B (zh) * | 2017-04-19 | 2019-10-18 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
US10417266B2 (en) * | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10163022B1 (en) * | 2017-06-22 | 2018-12-25 | StradVision, Inc. | Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN107766324B (zh) * | 2017-09-25 | 2020-09-01 | 浙江大学 | 一种基于深度神经网络的文本一致性分析方法 |
CN107797985B (zh) * | 2017-09-27 | 2022-02-25 | 百度在线网络技术(北京)有限公司 | 建立同义鉴别模型以及鉴别同义文本的方法、装置 |
CN108763319B (zh) * | 2018-04-28 | 2022-02-08 | 中国科学院自动化研究所 | 融合用户行为和文本信息的社交机器人检测方法和*** |
CN109299262B (zh) * | 2018-10-09 | 2022-04-15 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN110020431B (zh) * | 2019-03-06 | 2023-07-18 | 平安科技(深圳)有限公司 | 文本信息的特征提取方法、装置、计算机设备及存储介质 |
-
2019
- 2019-03-06 CN CN201910168231.6A patent/CN110020431B/zh active Active
- 2019-11-12 WO PCT/CN2019/117424 patent/WO2020177378A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536678A (zh) * | 2018-04-12 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 文本关键信息提取方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
基于词向量和卷积神经网络的垃圾短信识别方法;赖文辉 等;计算机应用(第09期);第27-34页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110020431A (zh) | 2019-07-16 |
WO2020177378A1 (zh) | 2020-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598206B (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
KR102304673B1 (ko) | 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체 | |
US11941366B2 (en) | Context-based multi-turn dialogue method and storage medium | |
CN110765117B (zh) | 欺诈识别方法、装置、电子设备及计算机可读存储介质 | |
CN110020431B (zh) | 文本信息的特征提取方法、装置、计算机设备及存储介质 | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
US11914670B2 (en) | Methods and systems for product quantization-based compression of a matrix | |
CN109582794A (zh) | 基于深度学习的长文分类方法 | |
CN109710921B (zh) | 词语相似度的计算方法、装置、计算机设备及存储介质 | |
CN109543029B (zh) | 基于卷积神经网络的文本分类方法、装置、介质和设备 | |
CN113408706B (zh) | 训练用户兴趣挖掘模型、用户兴趣挖掘的方法和装置 | |
CN111310464A (zh) | 词向量获取模型生成方法、装置及词向量获取方法、装置 | |
WO2023231576A1 (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN113486175B (zh) | 文本分类方法、文本分类装置、计算机设备及存储介质 | |
CN111046177A (zh) | 一种仲裁案件自动预判方法及装置 | |
CN111832302A (zh) | 一种命名实体识别方法和装置 | |
CN108090044B (zh) | 联系方式的识别方法和装置 | |
CN114492429A (zh) | 文本主题的生成方法、装置、设备及存储介质 | |
CN109101984B (zh) | 一种基于卷积神经网络的图像识别方法及装置 | |
CN111552810B (zh) | 实体抽取与分类方法、装置、计算机设备和存储介质 | |
CN117094383A (zh) | 一种语言模型的联合训练方法、***、设备及存储介质 | |
CN111680132A (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
CN112287667A (zh) | 一种文本生成方法及设备 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |