CN111783444A - 文本向量生成方法及装置 - Google Patents

文本向量生成方法及装置 Download PDF

Info

Publication number
CN111783444A
CN111783444A CN201910261663.1A CN201910261663A CN111783444A CN 111783444 A CN111783444 A CN 111783444A CN 201910261663 A CN201910261663 A CN 201910261663A CN 111783444 A CN111783444 A CN 111783444A
Authority
CN
China
Prior art keywords
matrix
text
hidden layer
layer state
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910261663.1A
Other languages
English (en)
Other versions
CN111783444B (zh
Inventor
黄强
卜建辉
谢炜坚
吴伟佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910261663.1A priority Critical patent/CN111783444B/zh
Publication of CN111783444A publication Critical patent/CN111783444A/zh
Application granted granted Critical
Publication of CN111783444B publication Critical patent/CN111783444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出一种文本向量生成方法及装置,其中方法包括:获取待处理的文本以及文本对应的词向量矩阵,词向量矩阵中包括:文本中各个词语对应的向量;将词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵;针对每个隐层状态,根据当次词语对应的向量、门组件矩阵中计算隐层状态所需要的当次门组件的数值、以及前次词语对应的隐层状态数值,确定隐层状态的数值;根据各个隐层状态的数值,生成文本对应的文本向量,从而能够结合注意力机制并行生成计算各个隐层状态所需要的门组件矩阵,进而缩短隐层状态数值的计算时间长度,提高循环神经网络模型的并行计算效率。

Description

文本向量生成方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本向量生成方法及装置。
背景技术
目前的循环神经网络模型中,计算每一个隐层状态所需要的门组件,例如遗忘门、记忆门、输出门、临时隐层状态等,都要依赖于前一个隐层状态,而结合前一个隐层状态计算遗忘门、记忆门、输出门、临时隐层状态等需要一定的时间,从而导致循环神经网络模型的计算时间长,并行计算效率低下。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种文本向量生成方法,用于解决现有技术中循环神经网络模型计算时间长,并行计算效率低下的问题。
本发明的第二个目的在于提出一种文本向量生成装置。
本发明的第三个目的在于提出另一种文本向量生成装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种文本向量生成方法,包括:
获取待处理的文本以及所述文本对应的词向量矩阵,所述词向量矩阵中包括:所述文本中各个词语对应的向量;
将所述词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵;
针对每个隐层状态,获取当次词语对应的向量,以及所述门组件矩阵中计算所述隐层状态所需要的当次门组件的数值;
根据当次词语对应的向量、所述门组件矩阵中计算所述隐层状态所需要的当次门组件的数值,以及前次词语对应的隐层状态数值,确定所述隐层状态的数值;
根据各个隐层状态的数值,生成所述文本对应的文本向量。
进一步的,所述门组件矩阵包括:遗忘门组件矩阵和临时隐层状态组件矩阵;
所述将所述词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵,包括:
将所述词向量矩阵输入预设的注意力机制,获取调整后矩阵;所述调整后矩阵中每个词语对应的调整后向量根据各个词语对应的向量确定;
根据所述调整后矩阵、所述词向量矩阵以及预设的循环神经网络模型中的遗忘门权重矩阵,确定所述遗忘门组件矩阵;
根据所述调整后矩阵、所述词向量矩阵以及预设的循环神经网络模型中的临时隐层状态权重矩阵,确定所述临时隐层状态组件矩阵。
进一步的,所述根据各个隐层状态的数值,生成所述文本对应的文本向量,包括:
根据所述词向量矩阵、所述调整后矩阵以及预设的循环神经网络模型中的输入遗忘权重矩阵,确定输入遗忘矩阵;
根据所述输入遗忘矩阵、所述词向量矩阵以及各个隐层状态的数值,生成所述文本对应的文本向量。
进一步的,所述注意力机制为多头注意力机制。
进一步的,所述文本对应的文本向量的生成公式为,
Figure BDA0002015486310000021
o=(1-r)x+rh;
其中,r为输入遗忘矩阵;x为词向量矩阵;C为调整后矩阵;h为隐层状态矩阵,其中包括各个隐层状态的数值;o为文本对应的文本向量;sigmoid为S型函数。
本发明实施例的文本向量生成方法,通过获取待处理的文本以及文本对应的词向量矩阵,词向量矩阵中包括:文本中各个词语对应的向量;将词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵;针对每个隐层状态,获取当次词语对应的向量,以及门组件矩阵中计算隐层状态所需要的当次门组件的数值;根据当次词语对应的向量、门组件矩阵中计算隐层状态所需要的当次门组件的数值,以及前次词语对应的隐层状态数值,确定隐层状态的数值;根据各个隐层状态的数值,生成文本对应的文本向量,从而能够结合注意力机制并行生成计算各个隐层状态所需要的门组件矩阵,进而缩短隐层状态数值的计算时间长度,提高循环神经网络模型的并行计算效率。
为达上述目的,本发明第二方面实施例提出了一种文本向量生成装置,包括:
获取模块,用于获取待处理的文本以及所述文本对应的词向量矩阵,所述词向量矩阵中包括:所述文本中各个词语对应的向量;
所述获取模块,还用于将所述词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵;
所述获取模块,还用于针对每个隐层状态,获取当次词语对应的向量,以及所述门组件矩阵中计算所述隐层状态所需要的当次门组件的数值;
确定模块,用于根据当次词语对应的向量、所述门组件矩阵中计算所述隐层状态所需要的当次门组件的数值,以及前次词语对应的隐层状态数值,确定所述隐层状态的数值;
生成模块,用于根据各个隐层状态的数值,生成所述文本对应的文本向量。
进一步的,所述门组件矩阵包括:遗忘门组件矩阵和临时隐层状态组件矩阵;
所述获取模块具体用于,
将所述词向量矩阵输入预设的注意力机制,获取调整后矩阵;所述调整后矩阵中每个词语对应的调整后向量根据各个词语对应的向量确定;
根据所述调整后矩阵、所述词向量矩阵以及预设的循环神经网络模型中的遗忘门权重矩阵,确定所述遗忘门组件矩阵;
根据所述调整后矩阵、所述词向量矩阵以及预设的循环神经网络模型中的临时隐层状态权重矩阵,确定所述临时隐层状态组件矩阵。
进一步的,所述生成模块具体用于,
根据所述词向量矩阵、所述调整后矩阵以及预设的循环神经网络模型中的输入遗忘权重矩阵,确定输入遗忘矩阵;
根据所述输入遗忘矩阵、所述词向量矩阵以及各个隐层状态的数值,生成所述文本对应的文本向量。
进一步的,所述注意力机制为多头注意力机制。
进一步的,所述文本对应的文本向量的生成公式为,
Figure BDA0002015486310000031
o=(1-r)x+rh;
其中,r为输入遗忘矩阵;x为词向量矩阵;C为调整后矩阵;h为隐层状态矩阵,其中包括各个隐层状态的数值;o为文本对应的文本向量;sigmoid为S型函数。
本发明实施例的文本向量生成装置,通过获取待处理的文本以及文本对应的词向量矩阵,词向量矩阵中包括:文本中各个词语对应的向量;将词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵;针对每个隐层状态,获取当次词语对应的向量,以及门组件矩阵中计算隐层状态所需要的当次门组件的数值;根据当次词语对应的向量、门组件矩阵中计算隐层状态所需要的当次门组件的数值,以及前次词语对应的隐层状态数值,确定隐层状态的数值;根据各个隐层状态的数值,生成文本对应的文本向量,从而能够结合注意力机制并行生成计算各个隐层状态所需要的门组件矩阵,进而缩短隐层状态数值的计算时间长度,提高循环神经网络模型的并行计算效率。
为达上述目的,本发明第三方面实施例提出了另一种文本向量生成装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的文本向量生成方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文本向量生成方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的文本向量生成方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种文本向量生成方法的流程示意图;
图2为本发明实施例提供的一种文本向量生成装置的结构示意图;
图3为本发明实施例提供的另一种文本向量生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的文本向量生成方法及装置。
图1为本发明实施例提供的一种文本向量生成方法的流程示意图。如图1所示,该文本向量生成方法包括以下步骤:
S101、获取待处理的文本以及文本对应的词向量矩阵,词向量矩阵中包括:文本中各个词语对应的向量。
本发明提供的文本向量生成方法的执行主体为文本向量生成装置,文本向量生成装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。其中,软件例如可以为基于注意力机制的循环神经网络模型。本实施例中,待处理的文本可以为一个句子、多个句子或者一篇文章。文本中各个词语对应的向量可以通过词编码的方式获取。其中,词编码方式可以为,N-gram、Word2vec、TF-IDF等。
S102、将词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵。
本实施例中,门组件矩阵包括:遗忘门组件矩阵和临时隐层状态组件矩阵。对应的,文本向量生成装置执行步骤102的过程具体可以为,将词向量矩阵输入预设的注意力机制,获取调整后矩阵;调整后矩阵中每个词语对应的调整后向量根据各个词语对应的向量确定;根据调整后矩阵、词向量矩阵以及预设的循环神经网络模型中的遗忘门权重矩阵,确定遗忘门组件矩阵;根据调整后矩阵、词向量矩阵以及预设的循环神经网络模型中的临时隐层状态权重矩阵,确定临时隐层状态组件矩阵。
本实施例中,遗忘门组件矩阵中的各个遗忘门组件数值,用于确定各个词语对应的向量中需要遗忘的部分。其中,调整后矩阵的获取公式可以如以下公式(1)所示。
C=PosMultiHead(x,x,x) (1)
其中,C为调整后矩阵;x为词向量矩阵;PosMultiHead为预设的注意力机制。其中,预设的注意力机制例如可以为多头注意力机制等。
本实施例中,词向量矩阵中各个词语对应的向量根据词语本身确定,与上下文无关。而调整后矩阵中各个词语对应的调整后向量根据各个词语对应的向量确定,与上下文有关。
其中,预设的注意力机制对词向量矩阵进行计算获取调整后矩阵的公式例如可以如以下公式(2)、和(3)所示。
Figure BDA0002015486310000051
Figure BDA0002015486310000052
其中,可以将Q、K、V分别替换为公式(1)里面的x,则可以计算得到调整后矩阵。
本实施例中,遗忘门组件矩阵的计算公式可以如以下公式(4)所示。
Figure BDA0002015486310000053
其中,f为遗忘门矩阵;sigmoid为S型函数;
Figure BDA0002015486310000054
为循环神经网络模型中的遗忘门权重矩阵。
本实施例中,临时隐层状态组件矩阵的计算公式可以如以下公式(5)所示。
Figure BDA0002015486310000055
其中,
Figure BDA0002015486310000056
为临时隐层状态组件矩阵;
Figure BDA0002015486310000057
为循环神经网络模型中的临时隐层状态权重矩阵。
本步骤中,通过结合注意力机制和词向量矩阵,获取遗忘门组件矩阵和临时隐层状态组件矩阵,从而针对每个隐层状态,可以直接从上述两个矩阵中获取当次词语对应的向量,以及计算隐层状态所需要的当次门组件的数值,并结合前次词语对应的隐层状态数值,计算确定隐层状态的数值,将该隐层状态的数值确定为当次词语对应的隐层状态数值。
S103、针对每个隐层状态,获取当次词语对应的向量,以及门组件矩阵中计算隐层状态所需要的当次门组件的数值。
S104、根据当次词语对应的向量、门组件矩阵中计算隐层状态所需要的当次门组件的数值,以及前次词语对应的隐层状态数值,确定隐层状态的数值。
本实施例中,隐层状态数值的计算公式可以如以下公式(6)所示。
Figure BDA0002015486310000061
其中,ht为第t个词语对应的隐层状态的数值;ft为遗忘门组件矩阵中第t个词语对应的遗忘门的数值;
Figure BDA0002015486310000062
为临时隐层状态组件矩阵中第t个词语对应的临时隐层状态的数值;ht-1为第t-1个词语对应的隐层状态的数值。
S105、根据各个隐层状态的数值,生成文本对应的文本向量。
本实施例中,文本向量生成装置执行步骤105的过程具体可以为,根据词向量矩阵、调整后矩阵以及预设的循环神经网络模型中的输入遗忘权重矩阵,确定输入遗忘矩阵;根据输入遗忘矩阵、词向量矩阵以及各个隐层状态的数值,生成文本对应的文本向量。
其中,输入遗忘权重矩阵中的数值,用于确定词向量矩阵中需要遗忘的部分。其中,文本对应的文本向量的生成公式可以如以下公式(7)和公式(8)所示。
Figure BDA0002015486310000063
o=(1-r)x+rh (8)
其中,r为输入遗忘矩阵;x为词向量矩阵;C为调整后矩阵;h为隐层状态矩阵,其中包括各个隐层状态的数值;o为文本对应的文本向量;sigmoid为S型函数。
本实施例中,生成文本对应的文本向量后,可以采用文本对应的文本向量对文本进行翻译,或者,将文本作为问题,采用文本对应的文本向量获取文本对应的答案等。
本发明实施例的文本向量生成方法,通过获取待处理的文本以及文本对应的词向量矩阵,词向量矩阵中包括:文本中各个词语对应的向量;将词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵;针对每个隐层状态,获取当次词语对应的向量,以及门组件矩阵中计算隐层状态所需要的当次门组件的数值;根据当次词语对应的向量、门组件矩阵中计算隐层状态所需要的当次门组件的数值,以及前次词语对应的隐层状态数值,确定隐层状态的数值;根据各个隐层状态的数值,生成文本对应的文本向量,从而能够结合注意力机制并行生成计算各个隐层状态所需要的门组件矩阵,进而缩短隐层状态数值的计算时间长度,提高循环神经网络模型的并行计算效率。
图2为本发明实施例提供的一种文本向量生成装置的结构示意图。如图2所示,包括:获取模块21、确定模块22和生成模块23。
其中,获取模块21,用于获取待处理的文本以及所述文本对应的词向量矩阵,所述词向量矩阵中包括:所述文本中各个词语对应的向量;
所述获取模块21,还用于将所述词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵;
所述获取模块21,还用于针对每个隐层状态,获取当次词语对应的向量,以及所述门组件矩阵中计算所述隐层状态所需要的当次门组件的数值;
确定模块22,用于根据当次词语对应的向量、所述门组件矩阵中计算所述隐层状态所需要的当次门组件的数值,以及前次词语对应的隐层状态数值,确定所述隐层状态的数值;
生成模块23,用于根据各个隐层状态的数值,生成所述文本对应的文本向量。
本发明提供的文本向量生成装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。其中,软件例如可以为基于注意力机制的循环神经网络模型。本实施例中,待处理的文本可以为一个句子、多个句子或者一篇文章。文本中各个词语对应的向量可以通过词编码的方式获取。其中,词编码方式可以为,N-gram、Word2vec、TF-IDF等。
本实施例中,门组件矩阵包括:遗忘门组件矩阵和临时隐层状态组件矩阵。对应的,获取模块21获取计算隐层状态所需要的门组件矩阵的过程具体可以为,将词向量矩阵输入预设的注意力机制,获取调整后矩阵;调整后矩阵中每个词语对应的调整后向量根据各个词语对应的向量确定;根据调整后矩阵、词向量矩阵以及预设的循环神经网络模型中的遗忘门权重矩阵,确定遗忘门组件矩阵;根据调整后矩阵、词向量矩阵以及预设的循环神经网络模型中的临时隐层状态权重矩阵,确定临时隐层状态组件矩阵。
本实施例中,遗忘门组件矩阵中的各个遗忘门组件数值,用于确定各个词语对应的向量中需要遗忘的部分。其中,调整后矩阵的获取公式可以如以下公式(1)所示。
C=PosMultiHead(x,x,x) (1)
其中,C为调整后矩阵;x为词向量矩阵;PosMultiHead为预设的注意力机制。其中,预设的注意力机制例如可以为多头注意力机制等。
本实施例中,词向量矩阵中各个词语对应的向量根据词语本身确定,与上下文无关。而调整后矩阵中各个词语对应的调整后向量根据各个词语对应的向量确定,与上下文有关。
本实施例中,遗忘门组件矩阵的计算公式可以如以下公式(4)所示。
Figure BDA0002015486310000071
其中,f为遗忘门矩阵;sigmoid为S型函数;
Figure BDA0002015486310000072
为循环神经网络模型中的遗忘门权重矩阵。
本实施例中,临时隐层状态组件矩阵的计算公式可以如以下公式(5)所示。
Figure BDA0002015486310000081
其中,
Figure BDA0002015486310000082
为临时隐层状态组件矩阵;
Figure BDA0002015486310000083
为循环神经网络模型中的临时隐层状态权重矩阵。
本实施例中,隐层状态数值的计算公式可以如以下公式(6)所示。
Figure BDA0002015486310000084
其中,ht为第t个词语对应的隐层状态的数值;ft为遗忘门组件矩阵中第t个词语对应的遗忘门的数值;
Figure BDA0002015486310000085
为临时隐层状态组件矩阵中第t个词语对应的临时隐层状态的数值;ht-1为第t-1个词语对应的隐层状态的数值。
进一步的,在上述实施例的基础上,生成模块23具体可以用于,根据词向量矩阵、调整后矩阵以及预设的循环神经网络模型中的输入遗忘权重矩阵,确定输入遗忘矩阵;根据输入遗忘矩阵、词向量矩阵以及各个隐层状态的数值,生成文本对应的文本向量。
其中,输入遗忘权重矩阵中的数值,用于确定词向量矩阵中需要遗忘的部分。其中,文本对应的文本向量的生成公式可以如以下公式(7)和公式(8)所示。
Figure BDA0002015486310000086
o=(1-r)x+rh (8)
其中,r为输入遗忘矩阵;x为词向量矩阵;C为调整后矩阵;h为隐层状态矩阵,其中包括各个隐层状态的数值;o为文本对应的文本向量;sigmoid为S型函数。
本实施例中,生成文本对应的文本向量后,可以采用文本对应的文本向量对文本进行翻译,或者,将文本作为问题,采用文本对应的文本向量获取文本对应的答案等。
本发明实施例的文本向量生成装置,通过获取待处理的文本以及文本对应的词向量矩阵,词向量矩阵中包括:文本中各个词语对应的向量;将词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵;针对每个隐层状态,获取当次词语对应的向量,以及门组件矩阵中计算隐层状态所需要的当次门组件的数值;根据当次词语对应的向量、门组件矩阵中计算隐层状态所需要的当次门组件的数值,以及前次词语对应的隐层状态数值,确定隐层状态的数值;根据各个隐层状态的数值,生成文本对应的文本向量,从而能够结合注意力机制并行生成计算各个隐层状态所需要的门组件矩阵,进而缩短隐层状态数值的计算时间长度,提高循环神经网络模型的并行计算效率。
图3为本发明实施例提供的另一种文本向量生成装置的结构示意图。该文本向量生成装置包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的文本向量生成方法。
进一步地,文本向量生成装置还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的文本向量生成方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文本向量生成方法。
本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的文本向量生成方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (13)

1.一种文本向量生成方法,其特征在于,包括:
获取待处理的文本以及所述文本对应的词向量矩阵,所述词向量矩阵中包括:所述文本中各个词语对应的向量;
将所述词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵;
针对每个隐层状态,获取当次词语对应的向量,以及所述门组件矩阵中计算所述隐层状态所需要的当次门组件的数值;
根据当次词语对应的向量、所述门组件矩阵中计算所述隐层状态所需要的当次门组件的数值,以及前次词语对应的隐层状态数值,确定所述隐层状态的数值;
根据各个隐层状态的数值,生成所述文本对应的文本向量。
2.根据权利要求1所述的方法,其特征在于,所述门组件矩阵包括:遗忘门组件矩阵和临时隐层状态组件矩阵;
所述将所述词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵,包括:
将所述词向量矩阵输入预设的注意力机制,获取调整后矩阵;所述调整后矩阵中每个词语对应的调整后向量根据各个词语对应的向量确定;
根据所述调整后矩阵、所述词向量矩阵以及预设的循环神经网络模型中的遗忘门权重矩阵,确定所述遗忘门组件矩阵;
根据所述调整后矩阵、所述词向量矩阵以及预设的循环神经网络模型中的临时隐层状态权重矩阵,确定所述临时隐层状态组件矩阵。
3.根据权利要求2所述的方法,其特征在于,所述根据各个隐层状态的数值,生成所述文本对应的文本向量,包括:
根据所述词向量矩阵、所述调整后矩阵以及预设的循环神经网络模型中的输入遗忘权重矩阵,确定输入遗忘矩阵;
根据所述输入遗忘矩阵、所述词向量矩阵以及各个隐层状态的数值,生成所述文本对应的文本向量。
4.根据权利要求1所述的方法,其特征在于,所述注意力机制为多头注意力机制。
5.根据权利要求3所述的方法,其特征在于,所述文本对应的文本向量的生成公式为,
Figure FDA0002015486300000011
o=(1-r)x+rh;
其中,r为输入遗忘矩阵;x为词向量矩阵;C为调整后矩阵;h为隐层状态矩阵,其中包括各个隐层状态的数值;o为文本对应的文本向量;sigmoid为S型函数。
6.一种文本向量生成装置,其特征在于,包括:
获取模块,用于获取待处理的文本以及所述文本对应的词向量矩阵,所述词向量矩阵中包括:所述文本中各个词语对应的向量;
所述获取模块,还用于将所述词向量矩阵输入预设的注意力机制,获取计算隐层状态所需要的门组件矩阵;
所述获取模块,还用于针对每个隐层状态,获取当次词语对应的向量,以及所述门组件矩阵中计算所述隐层状态所需要的当次门组件的数值;
确定模块,用于根据当次词语对应的向量、所述门组件矩阵中计算所述隐层状态所需要的当次门组件的数值,以及前次词语对应的隐层状态数值,确定所述隐层状态的数值;
生成模块,用于根据各个隐层状态的数值,生成所述文本对应的文本向量。
7.根据权利要求6所述的装置,其特征在于,所述门组件矩阵包括:遗忘门组件矩阵和临时隐层状态组件矩阵;
所述获取模块具体用于,
将所述词向量矩阵输入预设的注意力机制,获取调整后矩阵;所述调整后矩阵中每个词语对应的调整后向量根据各个词语对应的向量确定;
根据所述调整后矩阵、所述词向量矩阵以及预设的循环神经网络模型中的遗忘门权重矩阵,确定所述遗忘门组件矩阵;
根据所述调整后矩阵、所述词向量矩阵以及预设的循环神经网络模型中的临时隐层状态权重矩阵,确定所述临时隐层状态组件矩阵。
8.根据权利要求7所述的装置,其特征在于,所述生成模块具体用于,
根据所述词向量矩阵、所述调整后矩阵以及预设的循环神经网络模型中的输入遗忘权重矩阵,确定输入遗忘矩阵;
根据所述输入遗忘矩阵、所述词向量矩阵以及各个隐层状态的数值,生成所述文本对应的文本向量。
9.根据权利要求6所述的装置,其特征在于,所述注意力机制为多头注意力机制。
10.根据权利要求8所述的装置,其特征在于,所述文本对应的文本向量的生成公式为,
Figure FDA0002015486300000021
o=(1-r)x+rh;
其中,r为输入遗忘矩阵;x为词向量矩阵;C为调整后矩阵;h为隐层状态矩阵,其中包括各个隐层状态的数值;o为文本对应的文本向量;sigmoid为S型函数。
11.一种文本向量生成装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一所述的文本向量生成方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的文本向量生成方法。
13.一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如权利要求1-5中任一所述的文本向量生成方法。
CN201910261663.1A 2019-04-02 2019-04-02 文本向量生成方法及装置 Active CN111783444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910261663.1A CN111783444B (zh) 2019-04-02 2019-04-02 文本向量生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910261663.1A CN111783444B (zh) 2019-04-02 2019-04-02 文本向量生成方法及装置

Publications (2)

Publication Number Publication Date
CN111783444A true CN111783444A (zh) 2020-10-16
CN111783444B CN111783444B (zh) 2023-07-25

Family

ID=72754728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910261663.1A Active CN111783444B (zh) 2019-04-02 2019-04-02 文本向量生成方法及装置

Country Status (1)

Country Link
CN (1) CN111783444B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270100A1 (en) * 2016-03-18 2017-09-21 International Business Machines Corporation External Word Embedding Neural Network Language Models
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108846130A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 一种问题文本生成方法、装置、设备和介质
CN109408633A (zh) * 2018-09-17 2019-03-01 中山大学 一种多层注意力机制的循环神经网络模型的构建方法
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270100A1 (en) * 2016-03-18 2017-09-21 International Business Machines Corporation External Word Embedding Neural Network Language Models
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108846130A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 一种问题文本生成方法、装置、设备和介质
CN109408633A (zh) * 2018-09-17 2019-03-01 中山大学 一种多层注意力机制的循环神经网络模型的构建方法
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CONG WANG; FEI YIN; CHENG-LIN LIU: "Memory-Augmented Attention Model for Scene Text Recognition", 《2018 16TH INTERNATIONAL CONFERENCE ON FRONTIERS IN HANDWRITING RECOGNITION (ICFHR)》 *
司念文;王衡军;李伟;单义栋;谢鹏程;: "基于注意力长短时记忆网络的中文词性标注模型", 计算机科学, no. 04 *

Also Published As

Publication number Publication date
CN111783444B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN108491529B (zh) 信息推荐方法及装置
CN108701250B (zh) 数据定点化方法和装置
CN108073519B (zh) 测试用例生成方法和装置
US11727277B2 (en) Method and apparatus for automatically producing an artificial neural network
CN111723901B (zh) 神经网络模型的训练方法及装置
CN104102137A (zh) 模型计算单元、控制设备以及用于计算基于数据的函数模型的方法
CN104573822A (zh) 用于集成控制组件的用于计算lolimot的模型计算单元
CN110232117B (zh) 句子流畅度检测方法、装置以及终端
US20140309754A1 (en) Method and device for creating a data-based function model
CN108363655B (zh) 用户行为特征分析方法及装置
CN117077599B (zh) 一种现场可编程逻辑门阵列视图生成方法及装置
CN107463486B (zh) ***性能分析方法、装置及服务器
CN111783444A (zh) 文本向量生成方法及装置
CN112241629A (zh) 结合rpa及ai的拼音标注文本生成方法及装置
CN115019150B (zh) 目标检测定点模型建立方法、装置及可读存储介质
CN111091099A (zh) 一种场景识别模型的构建方法、场景识别方法及设备
US8838421B2 (en) Method and circuit for calculating sensor modelling coefficients
CN109492759B (zh) 神经网络模型预测方法、装置和终端
CN110912791B (zh) ***管理总线链路及其上拉电阻确定方法、装置和设备
CN111399832B (zh) 一种页面编辑方法及装置
US9513903B2 (en) Fault-tolerant system and fault-tolerant operating method capable of synthesizing result by at least two calculation modules
CN111124592B (zh) 仿真任务执行方法和装置
CN112507323A (zh) 基于单向网络的模型训练方法、装置和计算设备
CN113496275A (zh) 指令执行方法、装置和电子设备
CN111768220A (zh) 生成车辆定价模型的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant