CN112131861A - 基于层次化多头交互注意力的对话状态生成方法 - Google Patents

基于层次化多头交互注意力的对话状态生成方法 Download PDF

Info

Publication number
CN112131861A
CN112131861A CN202011341577.0A CN202011341577A CN112131861A CN 112131861 A CN112131861 A CN 112131861A CN 202011341577 A CN202011341577 A CN 202011341577A CN 112131861 A CN112131861 A CN 112131861A
Authority
CN
China
Prior art keywords
processed
dialog
dialog text
representation
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011341577.0A
Other languages
English (en)
Other versions
CN112131861B (zh
Inventor
周玉
李梅
向露
宗成庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202011341577.0A priority Critical patent/CN112131861B/zh
Publication of CN112131861A publication Critical patent/CN112131861A/zh
Application granted granted Critical
Publication of CN112131861B publication Critical patent/CN112131861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于任务型对话技术领域,具体涉及了一种基于层次化多头交互注意力的对话状态生成方法,旨在解决现有技术精度和准确度低以及成本高、效率低的问题。本发明包括:基于文本词典进行对话文本预处理;通过编码器进行各句子的独立编码,获得对话文本的上下文表示;对解码器输入应用自我注意力机制,获得当前时刻的解码器输入向量;应用多头交互式注意力机制,融合字级别和句子级别的上下文表示,获得对话文本当前时刻的上下文向量表示;结合当前时刻的解码器输入向量,通过非线性映射获得实体和状态作为对话文本的对话状态。本发明可以在无字级别标注信息的情况下取得非常好的效果,不仅节约了数据标注的成本,也提高了模型的精确性与精度。

Description

基于层次化多头交互注意力的对话状态生成方法
技术领域
本发明属于任务型对话技术领域,具体涉及了一种基于层次化多头交互注意力的对话状态生成方法。
背景技术
任务型对话***是在某一特定领域,通过自然语言交互的形式,辅助用户完成某种特定任务的人机交互***。目前任务型对话***在各个垂直领域中都有很大的需求,尤其医疗领域。在医疗对话***中,对用户对话文本的分析和理解是构建医疗对话***的第一步。首先需要识别出用户文本以及对话历史中出现的症状、检查、药物等疾病相关的实体,然后推断出这些实体的状态信息。
在医疗对话文本中,语法结构不规范,口语化严重的现象普遍存在。同一种症状或检查会有各种不同的口语化的表述形式或习惯性的缩写形式。甚至,有些实体知识是隐含在一段对话中的,需要对一部分对话进行推断才能判断实体类型。因此在医疗领域的对话理解模块中不可或缺的一步是进行实体归一化操作,将口语化不规范的文本转化为医疗领域专业的实体文本。传统实体识别的方法是基于序列标注的方法,需要先识别出文本中的实体,然后再进行归一化处理。这种两阶段式的方法会有错误的累积,并且序列标注的方法需要字级别的标注信息,耗时耗力,另外在对话中,还存在大量冗余的与疾病无关的信息。此外,这种标注方式不能处理隐式的实体类型。
为了避免两阶段带来的累积错误的问题,现有技术也提出了端到端生成的医疗对话文本的实体归一化方法,可以直接根据对话历史文本生成归一化后的实体和状态,避免了中间的错误累积和过程。然而这些现有技术将上下文看作一段文本,而忽略了对话文本信息具有多轮交互性的最大的特点,因而医疗对话文本的实体归一化结果的精度和准确度还达不到预期,并且很多实体归一化方法也需要提供字级别标注信息,成本高、效率低。
发明内容
为了解决现有技术中的上述问题,即现有端到端方法忽略了对话文本信息具有多轮交互性的特点,对话状态生成的精度和准确度低以及对文字级别标注信息依赖较大,从而成本高、效率低的问题,本发明提供了一种基于层次化多头交互注意力的对话状态生成方法,该方法包括:
步骤S10,基于文本词典对获取的待处理对话文本进行预处理,获得待处理对话文本对应的词向量;所述文本词典为统计文本语料中非重复字/词获得的字/词与id的对应关系;
步骤S20,基于所述待处理对话文本对应的词向量,通过编码器进行各个句子的独立编码,获得待处理对话文本的上下文表示;
以解码器上一时刻输出作为当前时刻输入,并通过自注意力机制编码当前时刻输入的历史向量化表示,将解码器当前时刻输入与所述历史向量化表示相加作为当前时刻的解码器输入向量;所述解码器,其第0时刻的输入为设定字符;
步骤S30,基于待处理对话文本的上下文表示和当前时刻的解码器输入向量,通过多头注意力机制计算待处理对话文本针对当前时刻解码器输入的上下文表示,获取待处理对话文本当前时刻的上下文向量表示;
步骤S40,基于所述待处理对话文本当前时刻的上下文向量表示以及当前时刻的解码器输入向量,进行非线性映射获得实体和状态作为待处理对话文本的对话状态;
其中,所述编码器、解码器分别为一个多层的基于Transformer构建的神经网络。
在一些优选的实施例中,所述待处理对话文本的上下文表示,其计算方法为:
Figure 536022DEST_PATH_IMAGE001
Figure 984321DEST_PATH_IMAGE002
其中,
Figure 295217DEST_PATH_IMAGE003
表示编码器的层归一化模块,
Figure 221585DEST_PATH_IMAGE004
表示编码器的前馈网络,
Figure 832694DEST_PATH_IMAGE005
是编码器的多头自注意力机制,
Figure 186315DEST_PATH_IMAGE006
Figure 187769DEST_PATH_IMAGE007
分别代表待处理对话文本
Figure 917828DEST_PATH_IMAGE008
中第
Figure 616400DEST_PATH_IMAGE009
个 句子在编码器的第
Figure 406502DEST_PATH_IMAGE010
层和第
Figure 691990DEST_PATH_IMAGE011
网络的输出;所述待处理对话文本
Figure 163422DEST_PATH_IMAGE012
中所有句子在编 码器的最后一层的输出构成待处理对话文本的上下文表示。
在一些优选的实施例中,所述历史向量化表示,其计算方法为:
Figure 217966DEST_PATH_IMAGE013
Figure 444548DEST_PATH_IMAGE014
其中,
Figure 217332DEST_PATH_IMAGE003
表示解码器的层归一化模块,
Figure 23614DEST_PATH_IMAGE004
表示解码器的前馈网络,
Figure 401506DEST_PATH_IMAGE005
是解码器的多头自注意力机制,
Figure 267830DEST_PATH_IMAGE015
Figure 294955DEST_PATH_IMAGE016
分别代表解码器的历史输入在当前时刻 解码器的第
Figure 904927DEST_PATH_IMAGE010
层和第
Figure 137326DEST_PATH_IMAGE011
网络的输出。
在一些优选的实施例中,步骤S30包括:
步骤S31,将待处理对话文本的上下文表示中所有的单词隐向量表示拼接为一个序列,并基于当前时刻的解码器输入向量进行拼接序列的多头注意力权重的计算,获得待处理对话文本的多头注意力权重;
步骤S32,基于所述多头注意力权重以及拼接序列,获得待处理对话文本的字级别上下文表示;基于所述多头注意力权重,分别在句子内计算加权的句子向量,获得句子的加权向量化表示;
步骤S33,基于所述句子的加权向量化表示,在多头内进行自我注意力机制的计算,获得待处理对话文本的句子级别的上下文表示;
步骤S34,进行待处理对话文本的字级别和句子级别的上下文表示的融合,并对融合后的上下文进行层归一化和线性化,获得待处理对话文本当前时刻的上下文向量表示。
在一些优选的实施例中,步骤S31中进行拼接序列的多头注意力权重的计算,其方法为:
Figure 440131DEST_PATH_IMAGE017
Figure 921928DEST_PATH_IMAGE018
Figure 601171DEST_PATH_IMAGE019
其中,
Figure 484813DEST_PATH_IMAGE020
表示在
Figure 161782DEST_PATH_IMAGE021
时刻的第
Figure 130875DEST_PATH_IMAGE022
个头的注意力权重,
Figure 348230DEST_PATH_IMAGE023
为解码器经过自注意力机制 后得到的向量化表示,
Figure 850493DEST_PATH_IMAGE024
表示拼接的文本序列的向量,
Figure 495101DEST_PATH_IMAGE025
表示第
Figure 154753DEST_PATH_IMAGE026
个头内向量的维 度,
Figure 910219DEST_PATH_IMAGE027
是稀疏归一化函数,
Figure 768454DEST_PATH_IMAGE028
Figure 583963DEST_PATH_IMAGE029
为可训练的参数,
Figure 730911DEST_PATH_IMAGE030
Figure 290068DEST_PATH_IMAGE031
分别表示第
Figure 2809DEST_PATH_IMAGE026
个头的query矩阵和key矩阵。
在一些优选的实施例中,步骤S32中基于所述多头注意力权重以及拼接序列,获得待处理对话文本的字级别上下文表示,其方法为:
Figure 989220DEST_PATH_IMAGE032
Figure 921666DEST_PATH_IMAGE033
Figure 222197DEST_PATH_IMAGE034
其中,
Figure 55024DEST_PATH_IMAGE035
表示第
Figure 212336DEST_PATH_IMAGE026
个头的value矩阵表示,
Figure 130613DEST_PATH_IMAGE036
表示第
Figure 31573DEST_PATH_IMAGE026
个头的加权的值表示,
Figure 656589DEST_PATH_IMAGE037
代表拼接操作,
Figure 984803DEST_PATH_IMAGE038
是将多个头的表示连接在一起的经过线性映射获得的待处理 对话文本的字级别上下文表示,
Figure 390376DEST_PATH_IMAGE039
Figure 95027DEST_PATH_IMAGE040
为可训练的参数。
在一些优选的实施例中,步骤S32中基于所述多头注意力权重,分别在句子内计算加权的句子向量,获得句子的加权向量化表示,其方法为:
Figure 840129DEST_PATH_IMAGE041
其中,
Figure 837779DEST_PATH_IMAGE042
为第
Figure 730648DEST_PATH_IMAGE026
个头中第
Figure 973411DEST_PATH_IMAGE009
个句子的加权表示,
Figure 369757DEST_PATH_IMAGE043
为对话文本每个句子中字的个 数,
Figure 243035DEST_PATH_IMAGE044
表示对话文本的第
Figure 357622DEST_PATH_IMAGE009
个句子的第
Figure 404075DEST_PATH_IMAGE045
个字的权重,
Figure 920507DEST_PATH_IMAGE046
表示线性映射的参数。
在一些优选的实施例中,步骤S33中基于所述句子的加权向量化表示,在多头内进行自我注意力机制的计算,获得待处理对话文本的句子级别的上下文表示,其方法为:
Figure 761424DEST_PATH_IMAGE047
Figure 566569DEST_PATH_IMAGE048
Figure 652599DEST_PATH_IMAGE049
Figure 289117DEST_PATH_IMAGE050
其中,
Figure 300935DEST_PATH_IMAGE051
表示自注意力机制,
Figure 327797DEST_PATH_IMAGE052
为句子的个数,
Figure 716053DEST_PATH_IMAGE053
是最大化池 化机制,
Figure 207077DEST_PATH_IMAGE054
为可训练的参数,
Figure 389797DEST_PATH_IMAGE055
为获取的待处理对话文本的句子级别的上下文表示。
在一些优选的实施例中,步骤S34中进行待处理对话文本的字级别和句子级别的上下文表示的融合,其方法为:
Figure 169534DEST_PATH_IMAGE056
其中,
Figure 95902DEST_PATH_IMAGE057
为融合后的上下文,
Figure 441432DEST_PATH_IMAGE038
代表待处理对话文本的字级别上下文表示,
Figure 559168DEST_PATH_IMAGE055
代表 待处理对话文本的句子级别上下文表示,
Figure 357359DEST_PATH_IMAGE058
为超参数。
在一些优选的实施例中,步骤S34中对融合后的上下文进行层归一化和线性化,获得待处理对话文本的上下文向量表示,其方法为:
Figure 290680DEST_PATH_IMAGE059
其中,
Figure 225138DEST_PATH_IMAGE060
代表待处理对话文本的上下文向量表示,
Figure 280819DEST_PATH_IMAGE057
为融合后的上下文,
Figure 566307DEST_PATH_IMAGE061
为解码 器自注意力机制之后的输出。
本发明的有益效果:
(1)本发明基于层次化多头交互注意力的对话状态生成方法,通过层次化多头交互式注意力机制充分利用了对话文本信息的多轮交互性的特点,通过端到端的方法直接根据对话文本生成归一化后的实体,避免了现有技术两阶段式的方法可能带来的累积误差,医疗实体和状态生成的准确度和精度高。
(2)本发明基于层次化多头交互注意力的对话状态生成方法,只需少量的标注信息,无需提供字级别标注信息,就可以生成准确的实体状态信息,从而提升了模型训练和应用的效率,并且进一步降低了成本和资源的占用。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于层次化多头交互注意力的对话状态生成方法一种实施例的网络结构示意图;
图2是基于层次化多头交互注意力的对话状态生成方法一种实施例的样例数据、字级别及轮次级别的注意力机制的可视化图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于层次化多头交互注意力的对话状态生成方法,采用端到端的生成式方法,直接根据对话历史文本生成归一化之后的实体,避免了中间的错误累积的过程。并且,通过层次化的多头交互式注意力机制来获取基于对话交互的相关的上下文信息,从而为实体的生成和状态的推断找到可靠的背景依据,避开了传统端到端生成的方法将上下文看作一段文本,而忽略对话文本最大的特点是信息具有多轮交互性的问题。
医疗任务型对话中,医疗对话文本的口语化、不规范以及信息冗余的特点,导致传统基于序列标注的实体识别方法需要再经过归一化处理的操作得到最终的实体识别的结果,且对于实体状态的推断需要单独的模型来处理。这种两阶段式的方法不仅需要更多的标注信息,且容易误差累积。本发明基于层次化多头交互注意力的对话状态生成方法,根据医疗对话文本的对话片段,直接端到端的生成对话片段中所包含的所有实体及其对应的状态信息,并且针对多轮对话的信息交互的特点,通过层次化的多头交互式注意力机制在每个生成时刻都去捕获基于当前时刻的字级别以及轮次级别的上下文信息,来共同判断当前时刻的文本,避免了字级别的标注信息以及错误累积,可以生成更准确的实体状态信息,成本低、效率高。
本发明的一种基于层次化多头交互注意力的对话状态生成方法,该方法包括:
步骤S10,基于文本词典对获取的待处理对话文本进行预处理,获得待处理对话文本对应的词向量;所述文本词典为统计文本语料中非重复字/词获得的字/词与id的对应关系;
步骤S20,基于所述待处理对话文本对应的词向量,通过编码器进行各个句子的独立编码,获得待处理对话文本的上下文表示;
以解码器上一时刻输出作为当前时刻输入,并通过自注意力机制编码当前时刻输入的历史向量化表示,将解码器当前时刻输入与所述历史向量化表示相加作为当前时刻的解码器输入向量;所述解码器,其第0时刻的输入为设定字符;
步骤S30,基于待处理对话文本的上下文表示和当前时刻的解码器输入向量,通过多头注意力机制计算待处理对话文本针对当前时刻解码器输入的上下文表示,获取待处理对话文本当前时刻的上下文向量表示;
步骤S40,基于所述待处理对话文本当前时刻的上下文向量表示以及当前时刻的解码器输入向量,进行非线性映射获得实体和状态作为待处理对话文本的对话状态;
其中,所述编码器、解码器分别为一个多层的基于Transformer构建的神经网络。
为了更清晰地对本发明基于层次化多头交互注意力的对话状态生成方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的基于层次化多头交互注意力的对话状态生成方法,包括步骤S10-步骤S40,各步骤详细描述如下:
步骤S10,基于文本词典对获取的待处理对话文本进行预处理,获得待处理对话文本对应的词向量;所述文本词典为统计文本语料中非重复字/词获得的字/词与id的对应关系。
在基于层次化多头交互注意力的对话状态生成方法的训练过程中,词典包括文本词典和标签词典。文本词典即统计获取的文本中不重复的字/词形成的列表,列表中每一个字/词对应一个唯一的id,通过id可以获取对应的字/词,也可以通过字/词获取对应的id。标签词典即统计获取的标签中不重复的字/词形成的列表,同样地,列表中每一个字/词对应一个唯一的id,通过id可以获取对应的字/词,也可以通过字/词获取对应的id。标签词典对应了对话文本生成的对话状态的实体和状态。
对话文本如果有不同轮次的对话,可以将其划分为各个对话片段,其中每相邻
Figure 37740DEST_PATH_IMAGE062
轮对话记作
Figure 92283DEST_PATH_IMAGE012
Figure 53286DEST_PATH_IMAGE008
包含了连续
Figure 826070DEST_PATH_IMAGE064
轮对话,其中包括用户提问和相应的回复,即对话上下 文,如式(1)所示:
Figure 399396DEST_PATH_IMAGE065
步骤S20,基于所述待处理对话文本对应的词向量,通过编码器进行各个句子的独立编码,获得待处理对话文本的上下文表示。
通过编码器将对话文本编码为向量表示,其中,对话文本中的各个句子独立编码,每个单词都有其独立的编码表示,将编码器输出表示作为待处理对话文本表示;在解码器端,以解码器上一时刻的输出作为当前时刻的输入(0时刻输入特定字符)通过自注意力机制编码当前时刻输入历史的向量化表示,将当前时刻输入与历史编码向量相加作为解码器输入向量。
对于
Figure 777288DEST_PATH_IMAGE012
中任意一个句子
Figure 643613DEST_PATH_IMAGE066
,采用一个多层的基于Transformer的神经网络结构 构建的编码器,对每个时刻的句子进行独立编码,如式(2)和(3)所示:
Figure 169272DEST_PATH_IMAGE067
Figure 779245DEST_PATH_IMAGE068
其中,
Figure 11643DEST_PATH_IMAGE003
表示编码器的层归一化模块,
Figure 48869DEST_PATH_IMAGE004
表示编码器的前馈网络,
Figure 61824DEST_PATH_IMAGE005
是编码器的多头自注意力机制,
Figure 475488DEST_PATH_IMAGE006
Figure 562393DEST_PATH_IMAGE007
分别代表待处理对话文本
Figure 36100DEST_PATH_IMAGE008
中第
Figure 503728DEST_PATH_IMAGE009
个句 子在编码器的第
Figure 721082DEST_PATH_IMAGE010
层和第
Figure 724811DEST_PATH_IMAGE011
网络的输出;所述待处理对话文本
Figure 307102DEST_PATH_IMAGE012
中所有句子在编码 器的最后一层的输出构成待处理对话文本的上下文表示。
以解码器上一时刻输出作为当前时刻输入,并通过自注意力机制编码当前时刻输入的历史向量化表示,将解码器当前时刻输入与所述历史向量化表示相加作为当前时刻的解码器输入向量;所述解码器,其第0时刻的输入为设定字符。
解码器的结构与编码器一样,也是一个多层的基于Transformer的神经网络结构,在基于层次化多头交互注意力的对话状态生成方法的训练过程中,解码器的第一层网络输入为对话文本对应的标注信息,其他层的输入为上一层的输出;而在测试和应用过程中,解码器的第一层网络输入为设定字符,其他层的输入为上一层的输出。
历史向量化表示,其计算方法如式(4)和式(5)所示:
Figure 763491DEST_PATH_IMAGE069
Figure 784536DEST_PATH_IMAGE070
其中,
Figure 642771DEST_PATH_IMAGE003
表示解码器的层归一化模块,
Figure 458280DEST_PATH_IMAGE004
表示解码器的前馈网络,
Figure 605228DEST_PATH_IMAGE005
是解码器的多头自注意力机制,
Figure 898806DEST_PATH_IMAGE071
Figure 378591DEST_PATH_IMAGE016
分别代表解码器的历史输入在当前时刻 解码器的第
Figure 365002DEST_PATH_IMAGE010
层和第
Figure 999245DEST_PATH_IMAGE011
网络的输出(0层为当前时刻解码器输入历史的词向量)。
步骤S30,基于待处理对话文本的上下文表示和当前时刻的解码器输入向量,通过多头注意力机制计算待处理对话文本针对当前时刻解码器输入的上下文表示,获取待处理对话文本当前时刻的上下文向量表示。
步骤S31,将待处理对话文本的上下文表示中所有的单词隐向量表示拼接为一个序列,并基于当前时刻的解码器输入向量进行拼接序列的多头注意力权重的计算,获得待处理对话文本的多头注意力权重,如式(6)-式(8)所示:
Figure 96514DEST_PATH_IMAGE072
Figure 929341DEST_PATH_IMAGE073
Figure 86653DEST_PATH_IMAGE074
其中,
Figure 208193DEST_PATH_IMAGE020
表示在
Figure 843573DEST_PATH_IMAGE064
时刻的第
Figure 796486DEST_PATH_IMAGE026
个头的注意力权重,
Figure 124699DEST_PATH_IMAGE023
为解码器经过自注意力机制后 得到的向量化表示,
Figure 467956DEST_PATH_IMAGE024
表示拼接的文本序列的向量,
Figure 671142DEST_PATH_IMAGE025
表示第
Figure 212981DEST_PATH_IMAGE026
个头内向量的维 度,
Figure 977675DEST_PATH_IMAGE027
是稀疏归一化函数,
Figure 604966DEST_PATH_IMAGE028
Figure 785411DEST_PATH_IMAGE029
为可训练的参数,
Figure 447337DEST_PATH_IMAGE075
Figure 382932DEST_PATH_IMAGE031
分别表示第
Figure 497518DEST_PATH_IMAGE026
个头的query矩阵和key矩阵。
步骤S32,基于所述多头注意力权重以及拼接序列,获得待处理对话文本的字级别上下文表示;基于所述多头注意力权重,分别在句子内计算加权的句子向量,获得句子的加权向量化表示。
基于所述多头注意力权重以及拼接序列,获得待处理对话文本的字级别上下文表示,如式(9)-式(11)所示:
Figure 481655DEST_PATH_IMAGE076
Figure 998087DEST_PATH_IMAGE077
Figure 606048DEST_PATH_IMAGE078
其中,
Figure 207930DEST_PATH_IMAGE035
表示第
Figure 995758DEST_PATH_IMAGE026
个头的value矩阵表示,
Figure 366696DEST_PATH_IMAGE036
表示第
Figure 378515DEST_PATH_IMAGE026
个头的加权的值表示,
Figure 467693DEST_PATH_IMAGE037
代表拼接操作,
Figure 855949DEST_PATH_IMAGE038
是将多个头的表示连接在一起的经过线性映射获得的待处理 对话文本的字级别上下文表示,
Figure 284657DEST_PATH_IMAGE039
Figure 467376DEST_PATH_IMAGE040
为可训练的参数。
基于所述多头注意力权重,分别在句子内计算加权的句子向量,获得句子的加权向量化表示,如式(12)所示:
Figure 309430DEST_PATH_IMAGE079
其中,
Figure 757771DEST_PATH_IMAGE042
为第
Figure 837722DEST_PATH_IMAGE026
个头中第
Figure 456922DEST_PATH_IMAGE009
个句子的加权表示,
Figure 458376DEST_PATH_IMAGE043
为对话文本每个句子中字的个 数,
Figure 922856DEST_PATH_IMAGE080
表示对话文本的第
Figure 388472DEST_PATH_IMAGE009
个句子的第
Figure 178574DEST_PATH_IMAGE045
个字的权重,
Figure 198482DEST_PATH_IMAGE046
表示线性映射的参数。
步骤S33,基于所述句子的加权向量化表示,在多头内进行自我注意力机制的计算,获得待处理对话文本的句子级别的上下文表示,如式(13)-式(16)所示:
Figure 732232DEST_PATH_IMAGE081
Figure 990038DEST_PATH_IMAGE082
Figure 186926DEST_PATH_IMAGE083
Figure 225289DEST_PATH_IMAGE084
其中,
Figure 297151DEST_PATH_IMAGE051
表示自注意力机制,
Figure 409463DEST_PATH_IMAGE052
为句子的个数,
Figure 541367DEST_PATH_IMAGE053
是最大化 池化机制,
Figure 801447DEST_PATH_IMAGE054
为可训练的参数,
Figure 676999DEST_PATH_IMAGE055
为获取的待处理对话文本的句子级别的上下文表示。
步骤S34,进行待处理对话文本的字级别和句子级别的上下文表示的融合,并对融合后的上下文进行层归一化和线性化,获得待处理对话文本当前时刻的上下文向量表示。
进行待处理对话文本的字级别和句子级别的上下文表示的融合,如式(17)所示:
Figure 909398DEST_PATH_IMAGE085
其中,
Figure 946624DEST_PATH_IMAGE057
为融合后的上下文,
Figure 959579DEST_PATH_IMAGE038
代表待处理对话文本的字级别上下文表示,
Figure 871778DEST_PATH_IMAGE055
代表 待处理对话文本的句子级别上下文表示,
Figure 755420DEST_PATH_IMAGE058
为超参数。
对融合后的上下文进行层归一化和线性化,获得待处理对话文本的上下文向量表示,如式(18)所示:
Figure 166810DEST_PATH_IMAGE086
其中,
Figure 135903DEST_PATH_IMAGE060
代表待处理对话文本的上下文向量表示,
Figure 618837DEST_PATH_IMAGE057
为融合后的上下文,
Figure 356986DEST_PATH_IMAGE061
为解码 器自注意力机制之后的输出。
步骤S40,基于所述待处理对话文本当前时刻的上下文向量表示以及当前时刻的解码器输入向量,进行非线性映射获得实体和状态作为待处理对话文本的对话状态。
为了验证本发明方法,选用两个开放的高质量的数据集Chunyu和CMDD作为测试数据集,Chunyu和CMDD数据集都是从国内医疗平台爬取的医疗对话数据。Chunyu数据集实体类别包括症状、检查、手术以及一般信息,状态包括医生阳性、医生阴性、阴性、阳性和未知5个类别。CMDD数据的标注相对较简单,实体类别只有症状,状态只有阴性、阳性和未知。
实验选用基于匹配的MIE模型、基于两阶段法的SA-T模型、传统端到端Transformer模型和基于层次化注意力机制的Transformer模型与本发明方法进行对比,表1和表2分别为几个模型在Chunyu和CMDD数据集上的测试结果:
表1
Figure 204856DEST_PATH_IMAGE087
表2
Figure 661245DEST_PATH_IMAGE088
从表1和表2中可以看出:(1)本发明的方法在两个数据集中的效果都要好于基线***;(2)相比较于基于匹配的模型MIE来说,本发明的方法有更高的召回率,相比较于两阶段法的SA-T模型来说,本发明的方法有更高的精确度;(3)相比较于传统端到端Transformer模型,本发明的方法效果更好,因为本发明的方法充分考虑到对话中信息交互的特点。Hier-Transformer模型是层次化的注意力机制但没有多头交互的模块,与该模型对比,进一步验证了本发明的多头交互的注意力机制的有效性。
如表3所述,为本发明基于层次化多头交互注意力的对话状态生成方法一种实施例的样例数据、字级别的可视化图表:
表3
Figure 682291DEST_PATH_IMAGE089
表3中的时刻是针对已生成的症状“感冒”生成其对应状态的时刻,黑色加粗斜体是字级别的注意力机制的权重的top5个权重所对应的词,可见根据注意力所关注到的信息可以很好的推断出感冒的状态是阴性,Turn-0、Turn-1、Turn-2、Turn-3和Turn-4分别代表对话轮次的序号。
如图2所示,为本发明基于层次化多头交互注意力的对话状态生成方法一种实施例的轮次级别的注意力机制的可视化图,对应于表3中的Turn-0、Turn-1、Turn-2、Turn-3和Turn-4的对话轮次,图中可视化了轮次级别注意力权重,从图中可以看出本发明的方法可以很好的注意到关键信息的句子和单词。
本发明第二实施例的基于层次化多头交互注意力的对话状态生成***,基于上述的基于层次化多头交互注意力的对话状态生成方法,该***包括以下模块:
预处理模块,基于文本词典对获取的待处理对话文本进行预处理,获得待处理对话文本对应的词向量;所述文本词典为统计文本语料中非重复字/词获得的字/词与id的对应关系;
编码模块,基于所述待处理对话文本对应的词向量,通过编码器进行各个句子的独立编码,获得待处理对话文本的上下文表示;
解码模块,以解码器上一时刻输出作为当前时刻输入,并通过自注意力机制编码当前时刻输入的历史向量化表示,将解码器当前时刻输入与所述历史向量化表示相加作为当前时刻的解码器输入向量;所述解码器,其第0时刻的输入为设定字符;
多头注意力模块,基于待处理对话文本的上下文表示和当前时刻的解码器输入向量,通过多头注意力机制计算待处理对话文本针对当前时刻解码器输入的上下文表示,获取待处理对话文本当前时刻的上下文向量表示;
映射模块,基于所述待处理对话文本当前时刻的上下文向量表示以及当前时刻的解码器输入向量,进行非线性映射获得实体和状态作为待处理对话文本的对话状态;
输出模块,将获取的待处理对话文本的对话状态输出。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于层次化多头交互注意力的医疗实体和状态生成***,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于层次化多头交互注意力的对话状态生成方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于层次化多头交互注意力的对话状态生成方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、 “第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于层次化多头交互注意力的对话状态生成方法,其特征在于,该方法包括:
步骤S10,基于文本词典对获取的待处理对话文本进行预处理,获得待处理对话文本对应的词向量;所述文本词典为统计文本语料中非重复字/词获得的字/词与id的对应关系;
步骤S20,基于所述待处理对话文本对应的词向量,通过编码器进行各个句子的独立编码,获得待处理对话文本的上下文表示;
以解码器上一时刻输出作为当前时刻输入,并通过自注意力机制编码当前时刻输入的历史向量化表示,将解码器当前时刻输入与所述历史向量化表示相加作为当前时刻的解码器输入向量;所述解码器,其第0时刻的输入为设定字符;
步骤S30,基于待处理对话文本的上下文表示和当前时刻的解码器输入向量,通过多头注意力机制计算待处理对话文本针对当前时刻解码器输入的上下文表示,获取待处理对话文本当前时刻的上下文向量表示;
步骤S40,基于所述待处理对话文本当前时刻的上下文向量表示以及当前时刻的解码器输入向量,进行非线性映射获得实体和状态作为待处理对话文本的对话状态;
其中,所述编码器、解码器分别为一个多层的基于Transformer构建的神经网络。
2.根据权利要求1所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,所述待处理对话文本的上下文表示,其计算方法为:
Figure 260640DEST_PATH_IMAGE001
Figure 49604DEST_PATH_IMAGE002
其中,
Figure 72924DEST_PATH_IMAGE003
表示编码器的层归一化模块,
Figure 517812DEST_PATH_IMAGE004
表示编码器的前馈网络,
Figure 884946DEST_PATH_IMAGE005
是编码器的多头自注意力机制,
Figure 997258DEST_PATH_IMAGE006
Figure 925900DEST_PATH_IMAGE007
分别代表待处理对话文本
Figure 920401DEST_PATH_IMAGE008
中第
Figure 468057DEST_PATH_IMAGE009
个句子 在编码器的第
Figure 293930DEST_PATH_IMAGE010
层和第
Figure 268840DEST_PATH_IMAGE011
网络的输出;所述待处理对话文本
Figure 750637DEST_PATH_IMAGE008
中所有句子在编码器的最 后一层的输出构成待处理对话文本的上下文表示。
3.根据权利要求1所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,所述历史向量化表示,其计算方法为:
Figure 226617DEST_PATH_IMAGE012
Figure 782364DEST_PATH_IMAGE013
其中,
Figure 819852DEST_PATH_IMAGE003
表示解码器的层归一化模块,
Figure 523366DEST_PATH_IMAGE004
表示解码器的前馈网络,
Figure 412824DEST_PATH_IMAGE005
是解码器的多头自注意力机制,
Figure 213290DEST_PATH_IMAGE014
Figure 530002DEST_PATH_IMAGE015
分别代表解码器的历史输入在当前时刻解 码器的第
Figure 720812DEST_PATH_IMAGE010
层和第
Figure 538595DEST_PATH_IMAGE011
网络的输出。
4.根据权利要求1所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,步骤S30包括:
步骤S31,将待处理对话文本的上下文表示中所有的单词隐向量表示拼接为一个序列,并基于当前时刻的解码器输入向量进行拼接序列的多头注意力权重的计算,获得待处理对话文本的多头注意力权重;
步骤S32,基于所述多头注意力权重以及拼接序列,获得待处理对话文本的字级别上下文表示;基于所述多头注意力权重,分别在句子内计算加权的句子向量,获得句子的加权向量化表示;
步骤S33,基于所述句子的加权向量化表示,在多头内进行自我注意力机制的计算,获得待处理对话文本的句子级别的上下文表示;
步骤S34,进行待处理对话文本的字级别和句子级别的上下文表示的融合,并对融合后的上下文进行层归一化和线性化,获得待处理对话文本当前时刻的上下文向量表示。
5.根据权利要求4所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,步骤S31中进行拼接序列的多头注意力权重的计算,其方法为:
Figure 334513DEST_PATH_IMAGE016
Figure 946760DEST_PATH_IMAGE017
Figure 828128DEST_PATH_IMAGE018
其中,
Figure 856127DEST_PATH_IMAGE019
表示在
Figure 129720DEST_PATH_IMAGE020
时刻的第
Figure 788235DEST_PATH_IMAGE021
个头的注意力权重,
Figure 281533DEST_PATH_IMAGE022
为解码器经过自注意力机制后得 到的向量化表示,
Figure 113223DEST_PATH_IMAGE023
表示拼接的文本序列的向量,
Figure 618153DEST_PATH_IMAGE024
表示第
Figure 572203DEST_PATH_IMAGE021
个头内向量的维度,
Figure 428163DEST_PATH_IMAGE025
是稀疏归一化函数,
Figure 797965DEST_PATH_IMAGE026
Figure 547615DEST_PATH_IMAGE027
为可训练的参数,
Figure 547932DEST_PATH_IMAGE028
Figure 251708DEST_PATH_IMAGE029
分别表示第
Figure 690780DEST_PATH_IMAGE021
个头的 query矩阵和key矩阵。
6.根据权利要求5所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,步骤S32中基于所述多头注意力权重以及拼接序列,获得待处理对话文本的字级别上下文表示,其方法为:
Figure 170303DEST_PATH_IMAGE030
Figure 466155DEST_PATH_IMAGE031
Figure 31128DEST_PATH_IMAGE032
其中,
Figure 742732DEST_PATH_IMAGE033
表示第
Figure 466975DEST_PATH_IMAGE021
个头的value矩阵表示,
Figure 809094DEST_PATH_IMAGE034
表示第
Figure 985998DEST_PATH_IMAGE021
个头的加权的值表示,
Figure 501293DEST_PATH_IMAGE035
代表拼接操作,
Figure 955408DEST_PATH_IMAGE036
是将多个头的表示连接在一起的经过线性映射获得的待处理对 话文本的字级别上下文表示,
Figure 357177DEST_PATH_IMAGE037
Figure 631163DEST_PATH_IMAGE038
为可训练的参数。
7.根据权利要求6所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,步骤S32中基于所述多头注意力权重,分别在句子内计算加权的句子向量,获得句子的加权向量化表示,其方法为:
Figure 278045DEST_PATH_IMAGE039
其中,
Figure 383405DEST_PATH_IMAGE040
为第
Figure 332906DEST_PATH_IMAGE021
个头中第
Figure 953243DEST_PATH_IMAGE009
个句子的加权表示,
Figure 75920DEST_PATH_IMAGE041
为对话文本每个句子中字的个数,
Figure 239048DEST_PATH_IMAGE042
表示对话文本的第
Figure 484085DEST_PATH_IMAGE009
个句子的第
Figure 732663DEST_PATH_IMAGE043
个字的权重,
Figure 222813DEST_PATH_IMAGE044
表示线性映射的参数。
8.根据权利要求7所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,步骤S33中基于所述句子的加权向量化表示,在多头内进行自我注意力机制的计算,获得待处理对话文本的句子级别的上下文表示,其方法为:
Figure 37185DEST_PATH_IMAGE045
Figure 594068DEST_PATH_IMAGE046
Figure 188998DEST_PATH_IMAGE047
Figure 591160DEST_PATH_IMAGE048
其中,
Figure 853514DEST_PATH_IMAGE049
表示自注意力机制,
Figure 378037DEST_PATH_IMAGE050
为句子的个数,
Figure 335628DEST_PATH_IMAGE051
是最大化池化 机制,
Figure 666116DEST_PATH_IMAGE052
为可训练的参数,
Figure 658342DEST_PATH_IMAGE053
为获取的待处理对话文本的句子级别的上下文表示。
9.根据权利要求4所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,步骤S34中进行待处理对话文本的字级别和句子级别的上下文表示的融合,其方法为:
Figure 88187DEST_PATH_IMAGE054
其中,
Figure 421823DEST_PATH_IMAGE055
为融合后的上下文,
Figure 165788DEST_PATH_IMAGE036
代表待处理对话文本的字级别上下文表示,
Figure 137155DEST_PATH_IMAGE053
代表待 处理对话文本的句子级别上下文表示,
Figure 3480DEST_PATH_IMAGE056
为超参数。
10.根据权利要求9所述的基于层次化多头交互注意力的对话状态生成方法,其特征在于,步骤S34中对融合后的上下文进行层归一化和线性化,获得待处理对话文本的上下文向量表示,其方法为:
Figure 935664DEST_PATH_IMAGE057
其中,
Figure 607953DEST_PATH_IMAGE058
代表待处理对话文本的上下文向量表示,
Figure 574772DEST_PATH_IMAGE055
为融合后的上下文,
Figure 674315DEST_PATH_IMAGE022
为解码器自 注意力机制之后的输出。
CN202011341577.0A 2020-11-25 2020-11-25 基于层次化多头交互注意力的对话状态生成方法 Active CN112131861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011341577.0A CN112131861B (zh) 2020-11-25 2020-11-25 基于层次化多头交互注意力的对话状态生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011341577.0A CN112131861B (zh) 2020-11-25 2020-11-25 基于层次化多头交互注意力的对话状态生成方法

Publications (2)

Publication Number Publication Date
CN112131861A true CN112131861A (zh) 2020-12-25
CN112131861B CN112131861B (zh) 2021-03-16

Family

ID=73852319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011341577.0A Active CN112131861B (zh) 2020-11-25 2020-11-25 基于层次化多头交互注意力的对话状态生成方法

Country Status (1)

Country Link
CN (1) CN112131861B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625639A (zh) * 2020-06-02 2020-09-04 中国人民解放军国防科技大学 一种基于多轮响应生成的上下文建模方法
CN113033710A (zh) * 2021-05-19 2021-06-25 广东众聚人工智能科技有限公司 一种时间序列分类方法、装置及计算机设备
CN113515617A (zh) * 2021-07-30 2021-10-19 中央财经大学 一种对话生成模型的方法、装置以及设备
CN113609301A (zh) * 2021-07-05 2021-11-05 上海交通大学 一种基于知识图谱的对话方法、介质及***
CN113642319A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质
CN113705652A (zh) * 2021-08-23 2021-11-26 西安交通大学 一种基于指针生成网络的任务型对话状态追踪***及方法
CN114999610A (zh) * 2022-03-31 2022-09-02 华东师范大学 基于深度学习的情绪感知与支持的对话***构建方法
CN115292491A (zh) * 2022-08-04 2022-11-04 四川大学 基于ctmsn-ehi的任务型多轮对话信息处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188167A (zh) * 2019-05-17 2019-08-30 北京邮电大学 一种融入外部知识的端到端对话方法及***
CN110838288A (zh) * 2019-11-26 2020-02-25 杭州博拉哲科技有限公司 一种语音交互方法及其***和对话设备
US20200134442A1 (en) * 2018-10-29 2020-04-30 Microsoft Technology Licensing, Llc Task detection in communications using domain adaptation
CN111125326A (zh) * 2019-12-06 2020-05-08 贝壳技术有限公司 用于实现人机对话的方法、装置、介质以及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200134442A1 (en) * 2018-10-29 2020-04-30 Microsoft Technology Licensing, Llc Task detection in communications using domain adaptation
CN110188167A (zh) * 2019-05-17 2019-08-30 北京邮电大学 一种融入外部知识的端到端对话方法及***
CN110838288A (zh) * 2019-11-26 2020-02-25 杭州博拉哲科技有限公司 一种语音交互方法及其***和对话设备
CN111125326A (zh) * 2019-12-06 2020-05-08 贝壳技术有限公司 用于实现人机对话的方法、装置、介质以及电子设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625639A (zh) * 2020-06-02 2020-09-04 中国人民解放军国防科技大学 一种基于多轮响应生成的上下文建模方法
CN113033710A (zh) * 2021-05-19 2021-06-25 广东众聚人工智能科技有限公司 一种时间序列分类方法、装置及计算机设备
CN113609301A (zh) * 2021-07-05 2021-11-05 上海交通大学 一种基于知识图谱的对话方法、介质及***
CN113642319A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质
CN113515617A (zh) * 2021-07-30 2021-10-19 中央财经大学 一种对话生成模型的方法、装置以及设备
CN113705652A (zh) * 2021-08-23 2021-11-26 西安交通大学 一种基于指针生成网络的任务型对话状态追踪***及方法
CN113705652B (zh) * 2021-08-23 2024-05-28 西安交通大学 一种基于指针生成网络的任务型对话状态追踪***及方法
CN114999610A (zh) * 2022-03-31 2022-09-02 华东师范大学 基于深度学习的情绪感知与支持的对话***构建方法
CN115292491A (zh) * 2022-08-04 2022-11-04 四川大学 基于ctmsn-ehi的任务型多轮对话信息处理方法

Also Published As

Publication number Publication date
CN112131861B (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112131861B (zh) 基于层次化多头交互注意力的对话状态生成方法
CN110196894B (zh) 语言模型的训练方法和预测方法
CN111126068A (zh) 一种中文命名实体识别方法和装置及电子设备
CN111738016A (zh) 多意图识别方法及相关设备
CN109635197B (zh) 搜索方法、装置、电子设备及存储介质
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN111177351A (zh) 基于规则的自然语言表达意图获取方法、装置和***
Leopold et al. Using hidden Markov models for the accurate linguistic analysis of process model activity labels
CN112100348A (zh) 一种多粒度注意力机制的知识库问答关系检测方法及***
CN111428470A (zh) 文本连贯性判定及其模型训练方法、电子设备及可读介质
Nguyen et al. Hierarchical character embeddings: Learning phonological and semantic representations in languages of logographic origin using recursive neural networks
CN115630145A (zh) 一种基于多粒度情感的对话推荐方法及***
CN115238045A (zh) 一种生成式事件论元抽取方法、***及存储介质
CN115935969A (zh) 基于多模态信息融合的异构数据特征提取方法
Chaudhuri et al. Grounding dialogue systems via knowledge graph aware decoding with pre-trained transformers
CN114048301B (zh) 一种基于满意度的用户模拟方法及***
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN111966782A (zh) 多轮对话的检索方法、装置、存储介质及电子设备
CN117251581A (zh) 一种基于文本分析的设备故障信息诊断方法
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
CN116521872A (zh) 一种认知和情感的联合识别方法、***及电子设备
CN115270792A (zh) 一种医疗实体识别方法及装置
Arehalli et al. Neural networks as cognitive models of the processing of syntactic constraints
JP6910061B2 (ja) テキスト生成装置、テキスト生成方法及びテキスト生成プログラム
CN112487811A (zh) 基于强化学习的级联信息提取***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant