CN112182161B

CN112182161B - 一种基于用户对话历史的个性化对话生成方法和***

Info

Publication number: CN112182161B
Application number: CN202011060186.1A
Authority: CN
Inventors: 窦志成; 文继荣
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2023-10-31
Anticipated expiration: 2040-09-30
Also published as: CN112182161A

Abstract

本发明涉及一种基于用户对话历史的个性化对话生成方法和***，包括以下步骤：S1将用户对话历史的文本表示为句子向量；S2通过对句子向量进行编码得到用户个性向量，用户个性向量中包含了句子向量的时序信息；S3根据用户个性向量和句子向量的时序信息生成个性化对话模型；S4将新的输入文本的词向量输入个性化对话模型生成个性化对话的回复。其使用对话历史进行用户建模，通过用户对话历史回复计算得出用户个性向量，而避免使用用户ID获取和更新个性向量，当新用户加入时，即可直接将其对话历史表示为个性向量。

Description

一种基于用户对话历史的个性化对话生成方法和***

技术领域

本发明涉及一种基于用户对话历史的个性化对话生成方法和***，属于人工智能技术领域。

背景技术

伴随着由数据驱动的端到端对话***的发展，个性化对话***开始出现。闲聊型个性化对话***，即是针对开放领域下输入给出合适回复的同时，输出的结果能具有人的角色信息。在应用中，无论是虚拟的社交机器人还是智能个人代理回复，都要求对话模型给出的回复具备人物角色信息，因此需要赋予模型人物设定(本文中简称为人设)来维持人物角色信息的统一。目前为个性化对话***构建人设的方法主要分为显式人设和隐式人设两种。显式人设主要通过预先设定的属性关键词或句子描述等来作为模型个性化的人设信息，在模型输出结果时利用这些显式的文本信息来控制模型的生成或选择过程。相对地，隐式人设则没有任何显式定义的文本来作为角色信息，模型通过用户对话历史为每个用户构建隐式的个性向量，以此作为用户的人设加入到生成过程中，来维持输出结果的人设一致性。

显式人设的方法为了构建大规模与人设相关的训练数据，需要投入大量的人力资源，来模拟相关对话场景或者构造规则。而且，由于显式人设能够预先给出人设信息有限，如PERSONA-CHAT数据集中，仅用5句话作为人设信息，因此面对设定之外的输入，模型仍倾向于给出设定相关的回复，而导致了回复质量的降低。在实际应用中，面对新的人物或者新的属性设定均需要重复之前的步骤。因此，显式人设的方法只适用于固定且小规模的场景范围。对应地，隐式人设的方法则自动从对话历史中学习用户的角色信息，将用户个性化的角色信息转换为向量来表示用户的人设，通过隐式的个性向量来引导模型生成或选择个性化的回复。因此，隐式人设的方法避免了为每个用户配置人设的过程，可以在大规模的用户群体上构建用户特有的个性化对话模型，面对同样的输入根据不同用户的特点给出个性化回复，可作为用户的代理回复助手。隐式人设的方式虽然可以通过隐式的个性向量来学习用户对话历史中的人物性格和语言习惯等个性化特征。然而现有的研究工作大多从全局层面来构建用户个性向量，这样不加区别地使用用户历史，最终得到的静态个性向量包含了对话历史中用户所有的个性化特征，在面对不同的输入时，模型难以表达出用户具体某个方面的个性特征。Li等人(Piji Li，Zihao Wang，Lidong Bing，and Wai Lam.Persona-aware tips generation？In The World Wide Web Conference，pages 1006-1016，2019.)利用用户历史为每个用户构建与个性化相关的关键词，在关键词生成的不同时刻，通过注意力机制将关键词加权求得表示用户个性的个性向量，而非通过模型训练得到用户个性向量。这在一定程度上使得隐式人设从静态的向量转变为动态的向量，可以在生成的不同阶段进行调整，然而，个性化关键词的方式生成的回复仅仅能够具备角色显著的属性信息，不同角色对话时语言习惯等细微的个性化特征无法捕捉。另外，目前个性向量在训练时主要通过用户ID来进行获取并通过反向传播进行更新，随着用户的增多，每个用户历史数量在整个数据集中的占比将会减小，用户个性向量随着模型更新缓慢，新用户也无法加入已经训练好的模型中，需要重新对模型进行训练，在实际应用中，难以对用户新的历史和新用户做出及时的响应。同时，这样的方式忽略了用户对话历史中的时序信息，用户最新的角色信息在个性向量中无法得到强化。

发明内容

针对上述问题，本发明的目的是提供一种基于用户对话历史的个性化对话生成方法和***，其使用对话历史进行用户建模，通过用户对话历史回复计算得出用户个性向量，而避免使用用户ID获取和更新个性向量，当新用户加入时，即可直接将其对话历史表示为个性向量。

为实现上述目的，本发明采取以下技术方案：一种基于用户对话历史的个性化对话生成方法，包括以下步骤：S1将用户对话历史的文本表示为句子向量；S2通过对句子向量进行编码得到用户个性向量，用户个性向量中包含了句子向量的时序信息；S3根据用户个性向量和句子向量的时序信息生成个性化对话模型；S4将新的输入文本的词向量输入到个性化对话模型，最终生成个性化对话的回复。

进一步，步骤S4中输入文本的词向量进入编码器进行编码，并将经过编码的输入文本的词向量带入注意力机制，经过注意力机制后，与个性向量一同进入个性化对话模型进行解码。

进一步，个性化对话模型的解码公式为：

s_t＝GRU_decoder(s_t-1，[φ(y_t-1)，c_t，V^u])

其中，GRU是门控循环单元，s_t是解码器在解码过程中每个时刻t的隐含状态；φ(·)表示获取词向量的函数；y_t是在时刻t生成词的词向量c_i是通过注意力机制权重对编码器所有中间状态加权求和得到的上下文信息的向量；V^u是用户u的个性向量。

进一步，获取步骤S2中的个性向量的方法为：首先通过计算用户对话历史中单词的逆文档频率对单词词向量付以不同权重，随后通过GRU提取用户对话历史中的时序信息，并使用最后一个时刻得到的隐含状态，作为用户全局的个性化角色信息。

进一步，单词的逆文档频率idf的计算公式为：

其中，a、b、c分别表示词表中单词的序号，文档集合中文档的序号和句子w中单词的序号；D＝{d₁，d₂，...}为整个文档集合；{b：w_a∈d_b}为包含单词w_a的文档d_b的集合；∈(·)表示计算句子w的句子向量的函数；φ(·)表示获取单词词向量的函数。

进一步，用户全局的个性化角色信息的计算公式为：

其中，R＝{r₁，r₂，..，r_L}表示用户的回复历史，r_l为用户对话回复历史第l条回复文本，L为用户回复历史长度；为在用户第l条回复后其角色向量。

进一步，步骤S2采用Seq2Seq模型对句子向量进行编码，其编码器和解码器的计算过程表示为：

h_t＝GRU_encoder(h_t-1，φ(x_t))

s_t＝GRU_decoder(s_t-1，φ(y_t-1))

p(y_t|s_t)＝softmax(W_os_t)

其中，φ(·)表示获取词向量的函数；h_t，s_t分别是编码器和解码器在t时刻的中间隐含状态；W_o是在输出过程中将解码器状态s_t映射到词表空间的参数矩阵；y_t表示解码器在t时刻输出的词；p(y_t|s_t)为在解码器在时刻t下，词典中词的生成概率，其中概率最大的词为当前生成的词y_t。

进一步，步骤S2中经过编码的句子向量进入注意力机制，经过注意力机制的句子向量进入解码器，其计算公式为：

s_i＝GRU_decoder(s_i-1，[φ(y_i-1)，c_i])

其中，[·，·]表示向量拼接操作；i是解码器的不同时刻；j是编码器的不同时刻；s_i是解码器在解码过程中每个时刻i的隐含状态；h_j是编码器编码过程中的中间状态稠密向量H在j时刻的向量；e_ij是上一个时刻的解码器隐含状态s_i-1在不同时刻j与编码器中间状态h_j计算得到的注意力重要度，W_a为学习的参数矩阵；α_ij是注意力机制将重要度归一化后得到的分配给编码器不同时刻中间向量的加权权重；n是输入的长度；c_i是通过注意力机制权重对编码器所有中间状态加权求和计算得到的上下文信息的向量表示；y_i是在时刻i生成词的词向量。

本发明还公开了一种基于用户对话历史的个性化对话生成***，包括：句子向量生成模块，用于将用户对话历史的文本表示为句子向量；个性向量生成模块，用于通过对句子向量进行编码得到用户个性向量，用户个性向量中包含了句子向量的时序信息；模型生成模式，用于根据用户个性向量和句子向量的时序信息生成个性化对话模型；个性化对话生成模式，用于将新的输入文本的词向量输入个性化对话模型生成个性化对话的回复。

进一步，模型生成模式中个性化对话模型的解码公式为：

s_t＝GRU_decoder(s_t-1，[φ(y_t-1)，c_t，V^u])

本发明由于采取以上技术方案，其具有以下优点：

1、本发明提出基于隐式人设的个性编码模型，使用对话历史进行用户建模，通过用户对话历史回复计算得出用户个性向量，而避免使用用户ID获取和更新个性向量，当新用户加入时，即可直接将其对话历史表示为个性向量。由于对话历史是根据时间顺序依次作为个性编码模型的输入，在构建作为隐式人设的个性向量的过程中，可以保留对话历史数据中的时序信息，并根据用户最新对话及时调整个性向量。

2、本发明避免了单一个性向量训练数据占比过少而学习不充分的问题，同时面对新的对话历史数据时，也能及时更新用户的个性向量。

附图说明

图1是本发明一实施例中基于用户对话历史的个性化对话生成方法的示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

个性化对话生成的回复的问题可以描述为：对于给定一段文本X＝(x₁，x₂，...，x_n)和用户的回复历史，生成满足指定用户个性化特征的回复Y＝(y₁，y₂，...，y_m)。个性化特征包括用户偏好、语言风格等。生成的回复Y除了满足语法通顺性、语义连贯性，还需要具备一定信息量体现出个性化特征。

实施例一

本实施例公开了一种基于长短时记忆信息的个性化对话生成方法，如图1所示，包括以下步骤：

S1将输入文本和用户对话历史的文本表示为句子向量。

S2通过对句子向量进行编码得到用户个性向量，用户个性向量中包含了句子向量的时序信息。

本步骤中句子向量主要采用Seq2Seq模型和注意力机制进行处理。Seq2Seq模型对句子向量进行编码，并通过注意力机制合并为解码过程生成回复。

Seq2Seq模型通常由编码器和解码器组成。编码器的作用是对输入文本X进行表示，将输入文本X转化为一个中间状态的稠密向量H＝(h₁，h₂，...，h_n)。而解码器的作用则是将这个中间状态向量h_n解码为最终输出的文本Y。通常使用长短时依赖记忆单元(LSTM)或者门控循环单元(GRU)作为编码器、解码器的基本单元。在本实施例中采用GRU作为编码器、解码器的基本单元。GRU在每个时刻t，通过更新门和重置门进行控制，其计算过程如下：

z＝σ(W_zx_t+U_zh_t-1)

r＝σ(W_rx_t+U_rh_t-1)

其中，z是更新门输出结果；r是重置门输出结果；s是输入细胞状态向量；tanh(·)和σ(·)是激活函数；表示向量的点积；W_z，W_r，W_s，U_z，U_r，U_s分别为不同门下的参数矩阵，用于将t时刻输入向量x_t和上一时刻中间状态h_t-1映射到同一语义空间。为了减少与后文的符号冗余，将GRU的计算公式进行简化，令h_t＝GRU(h_t-1，x_t)，x_t表示GRU在t时刻的输入向量，h_t表示GRU在t时刻的隐含向量。

因此，编码器和解码器的计算过程可以分别表示为：

h_t＝GRU_encoder(h_t-1，φ(x_t))

s_t＝GRU_decoder(s_t-1，φ(y_t-1))

p(y_t|s_t)＝softmax(W_os_t)

其中，门控循环单元函数GRU(·)使用不同参数初始化分别得到编码单元GRU_encoder(·)和解码单元GRU_decoder(·)；φ(·)表示获取单词词向量的函数；h_t，s_t分别是编码器和解码器在t时刻的中间隐含状态；y_t表示解码器在t时刻输出的词。p(y_t|s_t)为在解码器在时刻t下，词典中词的生成概率，其中概率最大的词为当前生成的词y_t。

由于，编码过程中仅使用编码器的最后一个输出h_n作为输入语句的表示；同时，在解码过程中，每个时刻t解码器的输出值只依赖于上一个时刻的状态s_t-1和上一个生成词的词向量y_t，输入语句的其他信息没有得到充分的利用，也没有被充分表达。所以需要引入注意力机制，来丰富解码过程的输入信息。引入注意力机制后，解码器采用如下公式进行解码：

s_i＝GRU_decoder(s_i-1，[φ(y_i-1)，c_i])

其中，[·，·]表示向量拼接操作；i是解码器的不同时刻；j是编码器的不同时刻；s_i是解码器在解码过程中每个时刻i的隐含状态；h_j是编码器编码过程中的中间状态稠密向量H在j时刻的向量；e_ij是上一个时刻的解码器隐含状态s_i-1和在不同时刻j与编码器中间状态h_j计算得到的注意力重要度，W_a为学习的参数矩阵；α_ij是注意力机制将重要度归一化后得到的分配给编码器不同时刻中间向量的加权权重；n是输入的长度；m为个性化回复的长度；c_i是通过注意力机制权重对编码器所有中间状态加权求和计算得到的上下文信息的向量表示；y_i是在时刻i生成词的词向量。

S3根据用户个性向量和句子向量的时序信息生成个性化对话模型。

个性化对话模型的解码公式为：

s_t＝GRU_decoder(s_t-1，[φ(y_t-1)，c_t，V^u])

Li等人(″A Persona-Based Neural Conversation Model.″，Li，Jiwei，etal.Proceedings of the 54th Annual Meeting of the Association forComputational Linguistics，Volume 1：Long Papers，2016)证明了将用户个性向量加入到解码器的解码过程中可以促进个性化回复的生成。然而其训练过程中通过用户ID获取和更新对应用户的个性向量，这忽略了用户历史中的时序信息。同时，面对新的用户历史数据时需要重新训练模型。因此，为了更好地构建用户的个性向量，本发明在用户回复历史上对用户进行建模，直接根据历史计算得出用户的个性向量，从而在保留历史中句子时序信息的同时面对新的用户历史可以及时作出响应。首先为了得到用户历史回复的句子表示，个性编码模块通过单词的逆文档频率(Inverse Document Frequency，IDF)对单词词向量进行加权。其计算过程可表示为：

其中，a、b、c分别表示词表中单词的序号，文档集合中文档的序号和句子w中单词的序号；D＝{d₁，d₂，...}为整个文档集合；{b：w_a∈d_b}为包含单词w_a的文档d_b的集合；∈(·)表示计算句子w的句子向量的函数；φ(·)表示获取单词词向量的函数。在idf的计算公式中，若包含单词w_i的文档数越多，说明该词越常见，对于句子的重要性就越小，其idf值也越小，以此来衡量单词的重要性。因此，在句子表示∈(w)公式中，使用每个单词的idf值作为其词向量的权重进行加权得到句子的向量表示，为了避免长句带来的影响，通过句子的长度进行平均。

随后，为了构建用户从过去到现在的个性信息，个性编码模块通过GRU提取用户回复历史中的时序信息，并使用最后一个时刻得到的隐含状态，作为用户全局的个性化角色信息。这个过程的计算公式可表示为：

其中，R＝{r₁，r₂，..，r_L}表示用户的回复历史，r_l为用户对话回复历史第l条回复文本，L为用户回复历史长度；为在用户第l条回复后其角色向量，因此最终时刻的全局角色向量为/>即V^u，u表示不同用户。其中/>通过随机初始化获得。不同于通过反向传播更新用户角色向量的方式，用户个性编码模块训练用户建模过程，根据用户历史计算得出用户角色向量，这样缓解了由于每个用户对话历史数据量在训练集中占比过小而训练不充分的问题，同时考虑到了对话历史中句子的时序信息。在实际应用中，当用户产生新的对话数据时，可在已有的角色向量/>上继续通过GRU计算得到用户最新的全局角色向量，即使面对新的用户，也无需重新训练模型通过反向传播学习角色向量，可通过用户对话历史进行计算。

S4将新的输入文本的词向量输入个性化对话模型生成个性化对话的回复。

步骤S4中输入的词向量进入编码器进行编码，并将经过编码的输入的词向量带入注意力机制，经过注意力机制后，进入个性化对话模型进行解码。

实施例二

基于相同的发明构思，本实施例公开了一种基于用户对话历史的个性化对话生成***，包括：

句子向量生成模块，用于将用户对话历史的文本表示为句子向量；

个性向量生成模块，用于通过对句子向量进行编码得到用户个性向量，用户个性向量中包含了句子向量的时序信息；

模型生成模式，用于根据用户个性向量和句子向量的时序信息生成个性化对话模型；

个性化对话生成模式，用于将新的输入文本的词向量输入个性化对话模型生成个性化对话的回复。

模型生成模式中个性化对话模型的解码公式为：

s_t＝GRU_decoder(s_t-1，[φ(y_t-1)，c_t，V^u])

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于用户对话历史的个性化对话生成方法，其特征在于，包括以下步骤：

S1将用户对话历史的文本表示为句子向量；

S2通过对所述句子向量进行编码得到用户个性向量，所述用户个性向量中包含了所述句子向量的时序信息；

获取所述步骤S2中的个性向量的方法为：首先通过计算用户对话历史中单词的逆文档频率对单词词向量付以不同权重，随后通过GRU提取用户对话历史中的时序信息，并使用最后一个时刻得到的隐含状态，作为用户全局的个性化角色信息；

S3根据所述用户个性向量和所述句子向量的时序信息生成个性化对话模型；

S4将新的输入文本的词向量输入所述个性化对话模型生成个性化对话的回复；

所述个性化对话模型的解码公式为：

s_t＝GRU_decoder(s_t-1，[φ(y_t-1)，c_t，V^u])

其中，GRU是门控循环单元，s_t是解码器在解码过程中每个时刻t的隐含状态；φ(·)表示获取词向量的函数；y_t是在时刻t生成词的词向量c_t是通过注意力机制权重对编码器所有中间状态加权求和得到的上下文信息的向量；V^u是用户u的个性向量；

所述单词的逆文档频率idf的计算公式为：

其中，a、b、c分别表示词表中单词的序号，文档集合中文档的序号和句子w中单词的序号；D＝{d₁，d₂，...}为整个文档集合；{b：w_a∈d_b}为包含单词w_a的文档d_b的集合；∈(·)表示计算句子w的句子向量的函数；φ(·)表示获取单词词向量的函数；

所述用户全局的个性化角色信息的计算公式为：

其中，R＝{r₁，r₂，..，r_L}表示用户的回复历史，r_l为用户对话回复历史第l条回复文本，L为用户回复历史长度；为在用户第l条回复后其角色向量，u表示不同用户。

2.如权利要求1所述的基于用户对话历史的个性化对话生成方法，其特征在于，所述步骤S4中输入的词向量进入编码器进行编码，并将经过编码的所述输入的词向量带入注意力机制，经过注意力机制后，进入所述个性化对话模型进行解码。

3.如权利要求1或2所述的基于用户对话历史的个性化对话生成方法，其特征在于，所述步骤S2采用Seq2Seq模型对所述句子向量进行编码，其编码器和解码器的计算过程表示为：

h_t＝GRU_encoder(h_t-1，φ(x_t))

s_t＝GRU_decoder(s_t-1，φ(y_t-1))

p(y_t|s_t)＝softmax(W_os_t)

其中，φ(·)表示获取词向量的函数；h_t，s_t分别是编码器和解码器在t时刻的中间隐含状态；W_o是在输出过程中将解码器状态S_t映射到词表空间的参数矩阵；y_t表示解码器在t时刻输出的词；p(y_t|s_t)为在解码器在时刻t下，词典中词的生成概率，其中概率最大的词为当前生成的词y_t，x_t表示GRU在t时刻的输入向量。

4.如权利要求3所述的基于用户对话历史的个性化对话生成方法，其特征在于，所述步骤S2中经过编码的所述句子向量进入注意力机制，经过所述注意力机制的句子向量进入解码器，其计算公式为：

s_i＝GRU_decoder(s_i-1，[φ(y_i-1)，c_i])

5.一种基于用户对话历史的个性化对话生成***，其特征在于，包括：

个性向量生成模块，用于通过对所述句子向量进行编码得到用户个性向量，所述用户个性向量中包含了所述句子向量的时序信息；

获取所述个性向量生成模块中的个性向量的方法为：首先通过计算用户对话历史中单词的逆文档频率对单词词向量付以不同权重，随后通过GRU提取用户对话历史中的时序信息，并使用最后一个时刻得到的隐含状态，作为用户全局的个性化角色信息；

模型生成模式，用于根据所述用户个性向量和所述句子向量的时序信息生成个性化对话模型；

个性化对话生成模式，用于将新的输入文本的词向量输入所述个性化对话模型生成个性化对话的回复；

所述模型生成模式中所述个性化对话模型的解码公式为：

s_t＝GRU_decoder(s_t-1，[φ(y_t-1)，c_t，V^u])

所述单词的逆文档频率idf的计算公式为：

所述用户全局的个性化角色信息的计算公式为：