CN111611789B - 语句表示方法、表示模型训练方法及装置 - Google Patents

语句表示方法、表示模型训练方法及装置 Download PDF

Info

Publication number
CN111611789B
CN111611789B CN201910139191.2A CN201910139191A CN111611789B CN 111611789 B CN111611789 B CN 111611789B CN 201910139191 A CN201910139191 A CN 201910139191A CN 111611789 B CN111611789 B CN 111611789B
Authority
CN
China
Prior art keywords
sentence
attention
word
expressed
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910139191.2A
Other languages
English (en)
Other versions
CN111611789A (zh
Inventor
马凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201910139191.2A priority Critical patent/CN111611789B/zh
Publication of CN111611789A publication Critical patent/CN111611789A/zh
Application granted granted Critical
Publication of CN111611789B publication Critical patent/CN111611789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种语句表示方法、表示模型训练方法及装置,其中,该语句表示方法,包括:将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征;将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图;将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果。

Description

语句表示方法、表示模型训练方法及装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种语句表示方法、表示模型训练方法及装置。
背景技术
在对语句进行分类或翻译之前需要对语句的特征的表示才能够进行后面的语句分类等操作。但是现有的语句表示方式存在各种欠缺,导致语句得到的表示不能很好地代表语句信息。
发明内容
有鉴于此,本申请实施例的目的在于提供一种语句表示方法、表示模型训练方法及装置,能够通过使用注意力机制和卷积模型的组合对语句进行表示缓解了现有技术中存在的语句表示欠缺的问题,达到更好地表示语句所需表达的信息的效果。
根据本申请的一个方面,提供一种电子设备,可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,以执行一个或多个以下操作:
将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征;
将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图;
将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果。
本申请实施例提供的语句表示方法,先使用注意力机制挖掘语句内的词与词之间的关联,从而可以减少一词多义引起的歧义;进一步地,使用卷积模型提取语句的感受野强特征,从而得到语句的表示。
在一些实施例中,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征的步骤,包括:
将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词的设定数量的注意力特征,所述设定数量不小于二;
所述将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图的步骤,包括:
将所述待表示语句中的每个词对应的设定数量的注意力特征进行拼接,得到所述待表示语句的设定数量的特征图。
通过提取不同的注意力特征,可以实现关注待表示语句的不同角度的信息,从而更准确地输出语句的表示结果。
在一些实施例中,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
Attention(Q、K、V)=softmax(QKT)V;
其中,Q=X·WQ
K=X·WK
V=X·WV
其中,X表示所述待表示语句中的一个词的词向量;WQ、WK、WV表示三个权值矩阵;Attention表示注意力机制;softmax表示归一化指数函数;Q、K、V表示计算过程中的中间值。
在一些实施例中,所述注意力机制配置多组权值矩阵,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
其中,
其中,表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的中间值;/>表示第a组中的三个权值矩阵;Xb表示所述待表示语句中的第b个词的词向量;/>表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的注意力特征;
所述将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图通过以下方式实现:
将计算得到的进行拼接,得到第a组的三个权值矩阵对应计算得到的特征图,其中,N表示所述待表示语句中的词的数量。
在一些实施例中,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征的步骤,包括:
将待表示语句输入自注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征。
在一些实施例中,所述卷积模型包括卷积模块和最大池化模块,所述将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果的步骤,包括:
将所述特征图输入卷积模块进行卷积处理,得到卷积输出数据;
将所述卷积输出数据属于最大池化模块进行池化操作,得到表示结果。
在一些实施例中,所述将所述特征图输入卷积模块进行卷积处理,得到卷积输出数据的步骤,包括:
将所述特征图输入d×h的卷积神经网络进行卷积处理,得到卷积输出数据,所述d表示所述待表示语句中的词向量的维度;h表示一设定的数值。
在一些实施例中,在所述将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果的步骤之后,所述方法还包括:
将所述表示结果输入分类器中将所述表示结果进行分类,得到所述待表示语句的分类结果;或者,
将所述表示结果使用翻译器进行语义翻译,得到所述待表示语句的翻译结果。
在另一方面,本申请实施例还提供一种表示模型训练方法,包括:
将一训练数据输入注意力机制中进行计算得到每个词对应的设定数量的训练注意力特征,任一所述训练数据包括多个词;
将所述训练数据的每个词的所述训练注意力特征进行拼接,得到所述训练数据的设定数量的训练特征图;
将所述特征图输入卷积模型进行处理,得到所述训练数据的训练表示结果;
将所述训练表示结果与对应的所述训练数据的标注结果计算损失误差;
若所述损失误差大于设定值,则调整注意力机制和卷积模型中的待确定参数;
若所述损失误差小于设定值,则得到当前损失误差对应的注意力机制和卷积模型,将所述注意力机制和卷积模型用于语句的表示。
在另一方面,本申请实施例还提供一种语句表示装置,包括:
第一计算模块,用于将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征;
第一拼接模块,用于将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图;
处理模块,用于将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果。
在一些实施例中,所述第一计算模块,还用于:
将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词的设定数量的注意力特征,所述设定数量不小于二;
所述第一拼接模块,还用于:
将所述待表示语句中的每个词对应的设定数量的注意力特征进行拼接,得到所述待表示语句的设定数量的特征图。
在一些实施例中,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
Attention(Q、K、V)=softmax(QKT)V;
其中,Q=X·WQ
K=X·WK
V=X·WV
其中,X表示所述待表示语句中的一个词的词向量;WQ、WK、WV表示三个权值矩阵;Attention表示注意力机制;softmax表示归一化指数函数;Q、K、V表示计算过程中的中间值。
在一些实施例中,所述注意力机制配置多组权值矩阵,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
其中,
其中,表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的中间值;/>表示第a组中的三个权值矩阵;Xb表示所述待表示语句中的第b个词的词向量;/>表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的注意力特征;
所述将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图通过以下方式实现:
将计算得到的进行拼接,得到第a组的三个权值矩阵对应计算得到的特征图,其中,N表示所述待表示语句中的词的数量。
在一些实施例中,所述第一计算模块,还用于:
将待表示语句输入自注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征。
在一些实施例中,所述卷积模型包括卷积模块和最大池化模块,所述处理模块,还用于:
将所述特征图输入卷积模块进行卷积处理,得到卷积输出数据;
将所述卷积输出数据属于最大池化模块进行池化操作,得到表示结果。
在一些实施例中,所述处理模块,还用于:
将所述特征图输入d×h的卷积神经网络进行卷积处理,得到卷积输出数据,所述d表示所述待表示语句中的词向量的维度;h表示一设定的数值。
在一些实施例中,所述装置还包括:使用模块,用于:
将所述表示结果输入分类器中将所述表示结果进行分类,得到所述待表示语句的分类结果;或者,
将所述表示结果使用翻译器进行语义翻译,得到所述待表示语句的翻译结果。
在另一方面,本申请实施例还提供一种表示模型训练装置,包括:
第二计算模块,用于将一训练数据输入注意力机制中进行计算得到每个词对应的设定数量的训练注意力特征,任一所述训练数据包括多个词;
第二拼接模块,用于将所述训练数据的每个词的所述训练注意力特征进行拼接,得到所述训练数据的设定数量的训练特征图;
训练模块,用于将所述特征图输入卷积模型进行处理,得到所述训练数据的训练表示结果;
第三计算模块,用于将所述训练表示结果与对应的所述训练数据的标注结果计算损失误差;
调整模块,用于若所述损失误差大于设定值,则调整注意力机制和卷积模型中的待确定参数;
若所述损失误差小于设定值,则得到当前损失误差对应的注意力机制和卷积模型,将所述注意力机制和卷积模型用于语句的表示。
在另一方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一种可能的实施方式中语句表示方法的步骤。
在另一方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一种可能的实施方式中表示模型训练方法的步骤。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种电子设备的结构示意图;
图2示出了本申请实施例所提供的一种语句表示方法的流程图;
图3示出了本申请实施例所提供的一种语句表示过程的流程示意图;
图4示出了本申请实施例所提供的一种表示模型训练方法的流程图;
图5示出了本申请实施例所提供的一种语句表示装置的结构示意图;
图6示出了本申请实施例所提供的一种表示模型训练装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
目前,在NLP(Natural Language Processing,中文称自然语言处理)领域中,句子的特征提取是一项非常基础也非常重要的工作,很多的NLP任务中都会用到此项工作。比如,在短文本分类任务中,只有提取句子特征才能完成分类;在encoder-decoder翻译模型中,一个句子需经过encoder模块得到句子语义表示才能输入到decoder得到翻译结果。因此,句子的特征提取在NLP任务中有着非常广泛的应用。但是,经发明人研究发现,句子的特征的提取要么忽略感受野、要么忽略词与词之间的关联,导致不能够很好地表示句子的关键信息。基于此,本申请提供的一种语句表示方法、表示模型训练方法及装置,可以先使用注意力机制挖掘语句内的词与词之间的关联,从而可以减少一词多义引起的歧义;进一步地,使用卷积模型可以提取语句的感受野强特征,从而得到语句的表示。
实施例一
图1示出根据本申请的一些实施例为电子设备100的示例性硬件和软件组件的示意图。例如,电子设备的处理器上,用于执行本申请中的功能。
电子设备100可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的表示模型训练方法或语句表示方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
例如,电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口150。
为了便于说明,在电子设备100中仅描述了一个处理器。然而,应当注意,本申请中的电子设备100还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备100的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
实施例二
本实施例提供一种语句表示方法。本实施例中的方法可以由一电子设备执行。图2示出了本申请一个实施例中的语句表示方法的流程图。下面对图2所示的语句表示方法的流程进行详细描述。
步骤S201,将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征。
在一些可选的实施方式中,上述的注意力机制可以选用Attention机制;也可以选用self_attention机制。
在一些实施例中,上述的将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
Attention(Q、K、V)=softmax(QKT)V;
其中,Q=X·WQ
K=X·WK
V=X·WV
其中,X表示所述待表示语句中的一个词的词向量;WQ、WK、WV表示三个权值矩阵;Attention表示注意力机制;softmax表示归一化指数函数;Q、K、V表示计算过程中的中间值。
详细地,WQ、WK、WV三个权值矩阵可以使训练数据训练过程中确定出的权值矩阵。
在一些实施例中,步骤S201可以包括:将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词的设定数量的注意力特征。
上述的设定数量不小于二。在一个实例中,设定数量可以是五、六等数量。
通过提取不同的注意力特征,可以实现关注待表示语句的不同角度的信息,从而更准确地输出语句的表示结果。
在一种实施方式中,multi-dimensional self-attention(多维度自注意力)机制对待表示语句进行计算,得到注意力特征。
具体地,上述的注意力机制配置多组权值矩阵,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
其中,
其中,表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的中间值;/>表示第a组中的三个权值矩阵;Xb表示所述待表示语句中的第b个词的词向量;/>表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的注意力特征。
在一些实施例中,上述的步骤S201可以包括:将待表示语句输入自注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征。
上述的自注意力机制可以是Self-attention机制。
步骤S202,将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图。
通过步骤S201每个词可以对应一个或者多个注意力特征。
在一种可选的实施方式中,如果待表示语句的每个词对应一个注意力特征,则可以将上述的待表示语句中的每个词的注意力特征进行拼接,可以得到上述的待表示语句的特征图。
在一种可选的实施方式中,如果上述的待表示语句的每个词对应有多个注意力特征,则可以将上述的待表示语句的不同参数下得到的每个词的注意力特征进行拼接,得到多个特征图。可选地,步骤S202可以包括:将所述待表示语句中的每个词对应的设定数量的注意力特征进行拼接,得到所述待表示语句的设定数量的特征图。
在一个实例中,待表示语句可以在I组参数下每个词得到I个注意力特征。待表示语句则可以得到I个特征图。
上述的将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图通过以下方式实现:将计算得到的 进行拼接,得到第a组的三个权值矩阵对应计算得到的特征图,其中,N表示所述待表示语句中的词的数量。
步骤S203,将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果。
在一些实施例中,上述的步骤S203可以包括:将所述特征图输入卷积模块进行卷积处理,得到卷积输出数据;将所述卷积输出数据属于最大池化模块进行池化操作,得到表示结果。
在一些实施例中,上述的将所述特征图输入卷积模块进行卷积处理,得到卷积输出数据的步骤,包括:将所述特征图输入d×h的卷积神经网络进行卷积处理,得到卷积输出数据,所述d表示所述待表示语句中的词向量的维度;h表示一设定的数值。
关于上述的h的值可以按照需求设定,例如,h可以取值5、6等值。
下面结合图3对本实施例提供的语句表示方法的全过程进行详细描述。
图3提供了以输入的待表示语句是“我在公司上班”的实例为例的示意图。
先将待表示语句“我在公司上班”中的各个词“我”、“在”、“公司”及“上班”表示为成词向量。再将各个词向量输入注意力机制(self_attention)中进行计算,每个词向量可以得到多个对应的注意力特征。其中,每个词向量对应的注意力特征的数量可以由前面描述的权值矩阵(WQ、WK、WV)的数量确定。将每个词的注意力特征进行拼接(concat)得到待表示语句的特征图。其中,特征图的数量与每个词对应的注意力特征的数量相同。例如,每个词得到了五个注意力特征,则对应也可以得到五个特征图。然后,将得到的所有特征图输入卷积模型(Convolutional Neural Networks,简称CNN)中进行处理,得到表示结果(sequence representing)。
本申请实施例提供的语句表示方法,先使用注意力机制挖掘语句内的词与词之间的关联,从而可以减少一词多义引起的歧义;进一步地,使用卷积模型提取语句的感受野强特征,从而得到语句的表示。
发明人在提供本申请实施例之前,对语句的特征提取进行了研究,仅基于CNN的语句特征提取方法重点关注于句子中的某些强特征,比如“这个乘客打人”、“这个乘客打电话”两个句子中都有“打”这个字,但二者的意义截然不同,但是仅基于CNN的处理方式可能缺乏了语句内词与词或字与字之间的关联特征,对于一词多义的问题不能得到很好的解决。基于RNN的语句特征提取,由于RNN基于序列的迭代计算,其计算不能并行,模型的训练速度相对较慢,且RNN对于距离较远的字词存在信息丢失的问题。Transformer使用self-attention提取字词之间的关联特征,并使用position embedding为模型加入词序特征,但是position embedding的方法是一种在抛弃了CNN与RNN的情况下采取的替代措施,且没有使用CNN提取感受野强特征。基于上述的研究,本申请的是实施例结合注意力特征以及卷积模型,可以通过注意力机制实现可以减少一词多义引起的歧义,还能够通过卷积模型提取感受野强特征。从而有效地缓解了上述研究过程中的方案中的不足。
在其它实施例中,在步骤S203之后,所述方法还可以包括:将所述表示结果输入分类器中将所述表示结果进行分类,得到所述待表示语句的分类结果。
上述的分类器可以是:决策树分类器、选择树分类器、证据分类器等。可选地,可以根据针对的目的的不同而选择不同的分类器。
在其它实施例中,在步骤S203之后,所述方法还可以包括:将所述表示结果使用翻译器进行语义翻译,得到所述待表示语句的翻译结果。
通过将上述的表示结果用于分类任务或者用于翻译任务,在表示结果表示力更强的情况下,从而也可以提高分类的效果和翻译的准确性。
实施例三
本实施例提供一种表示模型训练方法。本实施例中的方法可以由一电子设备执行。本实施例中的表示模型训练方法可以由执行实施例二中的语句表示方法的电子设备不同的设备执行;也可以由执行实施例二中的表示模型训练方法的电子设备相同的设备执行。图4示出了本申请一个实施例中的表示模型训练方法的流程图。下面对图4所示的表示模型训练方法的流程进行详细描述。
步骤S301,将一训练数据输入注意力机制中进行计算得到每个词对应的设定数量的训练注意力特征。
其中,任一训练数据包括多个词。任一训练数据也可以表示一个语句。
步骤S302,将所述训练数据的每个词的所述训练注意力特征进行拼接,得到所述训练数据的设定数量的训练特征图。
步骤S303,将所述特征图输入卷积模型进行处理,得到所述训练数据的训练表示结果。
步骤S304,将所述训练表示结果与对应的所述训练数据的标注结果计算损失误差。
若所述损失误差大于设定值,则执行步骤S305;若所述损失误差小于设定值,则得到当前损失误差对应的注意力机制和卷积模型,将所述注意力机制和卷积模型用于语句的表示。
步骤S305,调整注意力机制和卷积模型中的待确定参数。
其中,待确定参数可以是上述实施例二中的权值矩阵。
通过将训练数据训练包括注意力机制和卷积模型的结构,可以实现对词与词之间的关联性的训练和句子的感受野强特征的训练。使训练出来的结构可以用户语句的表示,且表示结果结合了词与词之间的特性和感受野强特征。
实施例四
基于同一申请构思,本申请实施例中还提供了与语句表示方法对应的语句表示装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述语句表示方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
图5是示出本申请的一些实施例的语句表示装置的框图,该表示模型训练装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器,或服务器的处理器,也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件,如图6所示,语句表示装置可以包括:第一计算模块401、第一拼接模块402以及处理模块403,其中,
第一计算模块401,用于将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征;
第一拼接模块402,用于将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图;
处理模块403,用于将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果。
在一些实施例中,所述第一计算模块401,还用于:
将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词的设定数量的注意力特征,所述设定数量不小于二;
所述第一拼接模块402,还用于:
将所述待表示语句中的每个词对应的设定数量的注意力特征进行拼接,得到所述待表示语句的设定数量的特征图。
在一些实施例中,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
Attention(Q、K、V)=softmax(QKT)V;
其中,Q=X·WQ
K=X·WK
V=X·WV
其中,X表示所述待表示语句中的一个词的词向量;WQ、WK、WV表示三个权值矩阵;Attention表示注意力机制;softmax表示归一化指数函数;Q、K、V表示计算过程中的中间值。
在一些实施例中,所述注意力机制配置多组权值矩阵,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
其中,
其中,表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的中间值;/>表示第a组中的三个权值矩阵;Xb表示所述待表示语句中的第b个词的词向量;/>表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的注意力特征;
所述将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图通过以下方式实现:
将计算得到的进行拼接,得到第a组的三个权值矩阵对应计算得到的特征图,其中,N表示所述待表示语句中的词的数量。
在一些实施例中,所述第一计算模块401,还用于:
将待表示语句输入自注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征。
在一些实施例中,所述卷积模型包括卷积模块和最大池化模块,所述处理模块403,还用于:
将所述特征图输入卷积模块进行卷积处理,得到卷积输出数据;
将所述卷积输出数据属于最大池化模块进行池化操作,得到表示结果。
在一些实施例中,所述处理模块403,还用于:
将所述特征图输入d×h的卷积神经网络进行卷积处理,得到卷积输出数据,所述d表示所述待表示语句中的词向量的维度;h表示一设定的数值。
在一些实施例中,所述装置还包括:使用模块,用于:
将所述表示结果输入分类器中将所述表示结果进行分类,得到所述待表示语句的分类结果;或者,
将所述表示结果使用翻译器进行语义翻译,得到所述待表示语句的翻译结果。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
实施例五
基于同一申请构思,本申请实施例中还提供了与表示模型训练方法对应的表示模型训练装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述表示模型训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
图6是示出本申请的一些实施例的表示模型训练装置的框图,该表示模型训练装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器,或服务器的处理器,也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件,如图6所示,表示模型训练装置可以包括:第二计算模块501、第二拼接模块502、训练模块503、第三计算模块504以及调整模块505,其中,
第二计算模块501,用于将一训练数据输入注意力机制中进行计算得到每个词对应的设定数量的训练注意力特征,任一所述训练数据包括多个词;
第二拼接模块502,用于将所述训练数据的每个词的所述训练注意力特征进行拼接,得到所述训练数据的设定数量的训练特征图;
训练模块503,用于将所述特征图输入卷积模型进行处理,得到所述训练数据的训练表示结果;
第三计算模块504,用于将所述训练表示结果与对应的所述训练数据的标注结果计算损失误差;
调整模块505,用于若所述损失误差大于设定值,则调整注意力机制和卷积模型中的待确定参数;
若所述损失误差小于设定值,则得到当前损失误差对应的注意力机制和卷积模型,将所述注意力机制和卷积模型用于语句的表示。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的语句表示方法的步骤。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的表示模型训练方法的步骤。
本申请实施例所提供的语句表示方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的语句表示方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本申请实施例所提供的表示模型训练方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的表示模型训练方法的步骤,具体可参见上述方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (18)

1.一种语句表示方法,其特征在于,包括:
将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征,其中,每个词对应多个注意力特征;
将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图;
将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果,包括:将所述特征图输入卷积模型中的卷积模块进行卷积处理,得到卷积输出数据;将所述卷积输出数据输入卷积模型的最大池化模块进行池化操作,得到表示结果。
2.如权利要求1所述的方法,其特征在于,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征的步骤,包括:
将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词的设定数量的注意力特征,所述设定数量不小于二;
所述将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图的步骤,包括:
将所述待表示语句中的每个词对应的设定数量的注意力特征进行拼接,得到所述待表示语句的设定数量的特征图。
3.如权利要求1所述的方法,其特征在于,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
Attention(Q、K、V)=softmax(QKT)V;
其中,Q=X·WQ
K=X·WK
V=X·WV
其中,X表示所述待表示语句中的一个词的词向量;WQ、WK、WV表示三个权值矩阵;Attention表示注意力机制;softmax表示归一化指数函数;Q、K、V表示计算过程中的中间值。
4.如权利要求1所述的方法,其特征在于,所述注意力机制配置多组权值矩阵,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
其中,
其中,表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的中间值;/>Wa K、/>表示第a组中的三个权值矩阵;Xb表示所述待表示语句中的第b个词的词向量;/>表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的注意力特征;
所述将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图通过以下方式实现:
将计算得到的进行拼接,得到第a组的三个权值矩阵对应计算得到的特征图,其中,N表示所述待表示语句中的词的数量。
5.如权利要求1所述的方法,其特征在于,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征的步骤,包括:
将待表示语句输入自注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征。
6.如权利要求1所述的方法,其特征在于,所述将所述特征图输入卷积模型中的卷积模块进行卷积处理,得到卷积输出数据的步骤,包括:
将所述特征图输入d×h的卷积神经网络进行卷积处理,得到卷积输出数据,所述d表示所述待表示语句中的词向量的维度;h表示一设定的数值。
7.如权利要求1所述的方法,其特征在于,在所述将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果的步骤之后,所述方法还包括:
将所述表示结果输入分类器中将所述表示结果进行分类,得到所述待表示语句的分类结果;或者,
将所述表示结果使用翻译器进行语义翻译,得到所述待表示语句的翻译结果。
8.一种表示模型训练方法,其特征在于,包括:
将一训练数据输入注意力机制中进行计算得到每个词对应的设定数量的训练注意力特征,任一所述训练数据包括多个词,其中,每个词对应多个注意力特征;
将所述训练数据的每个词的所述训练注意力特征进行拼接,得到所述训练数据的设定数量的训练特征图;
将所述训练特征图输入卷积模型进行处理,得到所述训练数据的训练表示结果,包括:将所述训练特征图输入卷积模型中的卷积模块进行卷积处理,得到卷积输出数据;将所述卷积输出数据输入卷积模型的最大池化模块进行池化操作,得到训练表示结果;
将所述训练表示结果与对应的所述训练数据的标注结果计算损失误差;
若所述损失误差大于设定值,则调整注意力机制和卷积模型中的待确定参数;
若所述损失误差小于设定值,则得到当前损失误差对应的注意力机制和卷积模型,将所述注意力机制和卷积模型用于语句的表示。
9.一种语句表示装置,其特征在于,包括:
第一计算模块,用于将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征,其中,每个词对应多个注意力特征;
第一拼接模块,用于将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图;
处理模块,用于将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果;
其中,所述处理模块,还用于将所述特征图输入卷积模块进行卷积处理,得到卷积输出数据;将所述卷积输出数据属于最大池化模块进行池化操作,得到表示结果。
10.如权利要求9所述的装置,其特征在于,所述第一计算模块,具体用于:
将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词的设定数量的注意力特征,所述设定数量不小于二;
所述第一拼接模块,具体用于:
将所述待表示语句中的每个词对应的设定数量的注意力特征进行拼接,得到所述待表示语句的设定数量的特征图。
11.如权利要求9所述的装置,其特征在于,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
Attention(Q、K、V)=softmax(QKT)V;
其中,Q=X·WQ
K=X·WK
V=X·WV
其中,X表示所述待表示语句中的一个词的词向量;WQ、WK、WV表示三个权值矩阵;Attention表示注意力机制;softmax表示归一化指数函数;Q、K、V表示计算过程中的中间值。
12.如权利要求9所述的装置,其特征在于,所述注意力机制配置多组权值矩阵,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
其中,
其中,表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的中间值;/>Wa K、/>表示第a组中的三个权值矩阵;Xb表示所述待表示语句中的第b个词的词向量;/>表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的注意力特征;
所述将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图通过以下方式实现:
将计算得到的进行拼接,得到第a组的三个权值矩阵对应计算得到的特征图,其中,N表示所述待表示语句中的词的数量。
13.如权利要求9所述的装置,其特征在于,所述第一计算模块,具体用于:
将待表示语句输入自注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征。
14.如权利要求9所述的装置,其特征在于,所述处理模块,具体用于:
将所述特征图输入d×h的卷积神经网络进行卷积处理,得到卷积输出数据,所述d表示所述待表示语句中的词向量的维度;h表示一设定的数值。
15.如权利要求9所述的装置,其特征在于,所述装置还包括:使用模块,用于:
将所述表示结果输入分类器中将所述表示结果进行分类,得到所述待表示语句的分类结果;或者,
将所述表示结果使用翻译器进行语义翻译,得到所述待表示语句的翻译结果。
16.一种表示模型训练装置,其特征在于,包括:
第二计算模块,用于将一训练数据输入注意力机制中进行计算得到每个词对应的设定数量的训练注意力特征,任一所述训练数据包括多个词,其中,每个词对应多个注意力特征;
第二拼接模块,用于将所述训练数据的每个词的所述训练注意力特征进行拼接,得到所述训练数据的设定数量的训练特征图;
训练模块,用于将所述训练特征图输入卷积模型进行处理,得到所述训练数据的训练表示结果,包括:将所述训练特征图输入卷积模型中的卷积模块进行卷积处理,得到卷积输出数据;将所述卷积输出数据输入卷积模型的最大池化模块进行池化操作,得到训练表示结果;
第三计算模块,用于将所述训练表示结果与对应的所述训练数据的标注结果计算损失误差;
调整模块,用于若所述损失误差大于设定值,则调整注意力机制和卷积模型中的待确定参数;
若所述损失误差小于设定值,则得到当前损失误差对应的注意力机制和卷积模型,将所述注意力机制和卷积模型用于语句的表示。
17.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的方法的步骤。
18.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一所述的方法的步骤。
CN201910139191.2A 2019-02-25 2019-02-25 语句表示方法、表示模型训练方法及装置 Active CN111611789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910139191.2A CN111611789B (zh) 2019-02-25 2019-02-25 语句表示方法、表示模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910139191.2A CN111611789B (zh) 2019-02-25 2019-02-25 语句表示方法、表示模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN111611789A CN111611789A (zh) 2020-09-01
CN111611789B true CN111611789B (zh) 2024-06-07

Family

ID=72198023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910139191.2A Active CN111611789B (zh) 2019-02-25 2019-02-25 语句表示方法、表示模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN111611789B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108763204A (zh) * 2018-05-21 2018-11-06 浙江大学 一种多层次的文本情感特征提取方法和模型
CN108829719A (zh) * 2018-05-07 2018-11-16 中国科学院合肥物质科学研究院 一种非事实类问答答案选择方法及***
CN108920586A (zh) * 2018-06-26 2018-11-30 北京工业大学 一种基于深度神经映射支持向量机的短文本分类方法
CN109213868A (zh) * 2018-11-21 2019-01-15 中国科学院自动化研究所 基于卷积注意力机制网络的实体级别情感分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220231A (zh) * 2016-03-22 2017-09-29 索尼公司 用于自然语言处理的电子设备和方法以及训练方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108829719A (zh) * 2018-05-07 2018-11-16 中国科学院合肥物质科学研究院 一种非事实类问答答案选择方法及***
CN108763204A (zh) * 2018-05-21 2018-11-06 浙江大学 一种多层次的文本情感特征提取方法和模型
CN108920586A (zh) * 2018-06-26 2018-11-30 北京工业大学 一种基于深度神经映射支持向量机的短文本分类方法
CN109213868A (zh) * 2018-11-21 2019-01-15 中国科学院自动化研究所 基于卷积注意力机制网络的实体级别情感分类方法

Also Published As

Publication number Publication date
CN111611789A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
US11030414B2 (en) System and methods for performing NLP related tasks using contextualized word representations
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
CN107330446B (zh) 一种面向图像分类的深度卷积神经网络的优化方法
CN106547737B (zh) 基于深度学习的自然语言处理中的序列标注方法
CN108335313A (zh) 图像分割方法及装置
CN111709406B (zh) 文本行识别方法及装置、可读存储介质、电子设备
CN108170749A (zh) 基于人工智能的对话方法、装置及计算机可读介质
CN114676704B (zh) 句子情感分析方法、装置、设备以及存储介质
US20210350205A1 (en) Convolution Processing Method and Apparatus for Convolutional Neural Network, and Storage Medium
CN111767729B (zh) 文本分类方法、装置、设备以及存储介质
CN111275780B (zh) 人物图像的生成方法及装置
CN115455171B (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
CN115658955B (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索***
CN106980900A (zh) 一种特征数据处理方法及设备
CN112966685A (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN116127060A (zh) 一种基于提示词的文本分类方法及***
CN113722436A (zh) 文本信息提取方法、装置、计算机设备及存储介质
CN111666965B (zh) 改进图像识别的多级别深度特征和多匹配器融合
CN111611789B (zh) 语句表示方法、表示模型训练方法及装置
CN111680497B (zh) 会话识别模型训练方法及装置
CN110245332A (zh) 基于双向长短时记忆网络模型的中文编码方法和装置
CN115457365A (zh) 一种模型的解释方法、装置、电子设备及存储介质
CN114913871A (zh) 目标对象分类方法、***、电子设备及存储介质
CN113205131A (zh) 图像数据的处理方法、装置、路侧设备和云控平台
KR102668118B1 (ko) 자연어 기반의 비디오 검색을 위한 학습 장치 및 학습 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant