CN110263160B

CN110263160B - 一种计算机问答***中的问句分类方法

Info

Publication number: CN110263160B
Application number: CN201910455870.0A
Authority: CN
Inventors: 吴振锋; 荀智德; 陆辰; 葛唯益; 贺成龙; 王振宇
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2021-04-02
Anticipated expiration: 2039-05-29
Also published as: CN110263160A

Abstract

本发明公开了一种计算机问答***中的问句分类方法，基于用户的情境数据，对用户问句进行分类及预测。其主要包括：一是根据智能问答***应用领域构建影响用户意图的上下文环境信息；二是通过用户画像构建、日志分析、传感器读取手段获取用户的情境信息数据；三是设计基于注意力机制的问题意图预测网络，将情境信息嵌入问题，形成考虑情境的问题分布式表示，带入模型进行预测；四是模型训练与预测。本方法解决了仅靠自然语言对话的问题的用户意图识别存在用户的问题可能表达不完整、不同的背景下问句表达涵义不同的问题，提高了意图识别的准确性。

Description

一种计算机问答***中的问句分类方法

技术领域

本发明涉及自然语言智能问答技术领域，特别涉及一种计算机问答***中的问句分类方法。

背景技术

聊天机器人、语音助手、自动客服等为人们的生活极大的便利的同时，也节约了一些行业的人力成本，是当前自然语言处理研究的热点。这些应用的成功不仅取决于语音内容的识别，更在于对句子含义的理解，称之为意图识别。意图识别旨在确定用户对话的意图，可以看成分类问题。事先在该领域在该领域定义各种可能的意图，再用分类方法将问句分到某类意图中，交给对话管理或任务管理器，就可以完成用户的需求或者生成相应领域的回应。相关问题在搜索引擎、智能问答等场景下有广泛的应用。

意图识别，也就是意图分类，是一个典型的文本分类问题，所有传统的分类方法都可以使用，比如SVM，最大熵等，或者用一些深度学习的模型，如RNN(Recurrent NeuralNetwork)循环神经网络、CNN卷积神经网络(Convolutional Neural Networks,CNN)等。这类分类方法的一般步骤是，获取或者构造一批问句数据，对每条数据的意图进行标注，选取特定的算法进行训练，挖掘用户问句中隐含的特征，通过训练好的模型进行分类。然而，大部分的意图分类只是基于用户当前对话的，但在真实场景中，用户的问句在上下文或者环境背景下提出的。比如“明天呢？”，若前句问题是“今天还有没有去北京的高铁票”，那么用户意图是车票查询，若前句是“今天北京的天气怎么样”，那么用户意图是天气查询，比如用户想购买一件外套，根据气候和所处位置，有可能是一件夹克，也有可能是一件棉服；有时候一些词语本身就有歧义，如用户在购物时询问苹果的价格，可能是水果，也有可能是手机，这需要结合用户最近关注点来判断。

因此，仅靠自然语言对话的问题的用户意图识别存在一些缺陷，一方面，用户的问题可能表达不完整，另一方面，在不同的背景下，同样的问句可能表达出不同的涵义，这些往往需要结合情境信息来辅助分类，包括上下文语境，用户个性化特征，用户所处的地理位置气候季节等等。

发明内容

本发明的目的在于提出一种计算机问答***中的问句分类方法，实现任务驱动型问答***的用户意图识别，使得***能够将问句分到正确的任务执行引擎。本发明包括：获取待分类的问句，问句中包括问题，基于用户的情境数据，对问句进行分类预测，具体包括以下步骤：

步骤1，构建用于对问句进行分类的用户情境模型(由于用户的情境数据很多，不利于计算机处理，因此需要定义一个统一的标准化的用户情境模型)；

步骤2，基于用户情境模型，通过用户画像构建、日志分析、传感器读取手段获取用户的情境信息数据；

步骤3，获取待分类的问句，并基于用户的情境信息数据，构建基于注意力机制的问题意图预测网络；

步骤4，训练模型，并对问句进行分类预测。

步骤1中所述的构建用户情境模型，是指根据问答***需要定义的情境属性构建完整的情境信息描述，一组完整的情境信息ContextInfo需要从三个维度Y、H、E进行描述，表示如下：

ContextInfo＝<Y、H、E>

其中，每个维度的含义如下：

Y表示用户情境信息；

H表示历史情境信息；

E表示环境情境信息；

所述用户情境信息是指用户的基本信息与行为偏好，包括性别、年龄段、职业和领域偏好(共4个情境信息)；

所述历史情境信息是指用户最近三轮对话中用户关注的意图领域(共3个情境信息)；

所述环境情境信息是指用户所在的区域、温度、时间(共3个情境信息)。

每个情境信息都用一个属性词表示，即最终情境信息的表示由10个词语组成。

步骤3中，所述基于注意力机制的问题意图预测网络包含文本嵌入层、情境注意力层、模型层和输出层；

其中，文本嵌入层用于将问题与情境中的每个词映射到高维向量空间；

情境注意力层用于将情境信息嵌入问题，形成考虑情境的问题分布式表示G；

模型层用于，使用G作为输入，采用双向LSTM，生成隐状态序列，获得输出矩阵M；

(双向LSTM是深度学习网络中公知的模型方法，最初发表：Alex Graves和JurgenSchmidhuber，Framangular Phoneme Classification with Bidirectional LSTM andOther Neural Network Architectures，2005)

输出层用于预测用户意图各分类的概率分布p。

所述文本嵌入层用于将问题与情境中的每个词映射到高维向量空间，具体包括：

获取问句，问句中包括问题，问题和情境分别包含了若干词，使用GloVe预训练的词向量来获取问题与情境(即问句所处的情境)中每个词的向量表示，得到两个d维的向量序列，即两个矩阵：问题矩阵Q∈R^d×T和情境矩阵C∈R^d×j，其中d取正整数，一般自然语言处理任务取200，T与j分别表示问题中词的个数和情境中词的个数，R为实数；

将表示结果Q和C输入到双向LSTM来建模词与词之间的时序交互，分别生成问题对应的隐状态向量序列H∈R^2d×T和情境对应的隐状态向量序列U∈R^2d×j；

双向的LSTM进行拼接后，输出的隐状态向量序列H和U的维度变为输入的两倍，即2d。

所述情境注意力层用于将情境信息嵌入问题，形成考虑情境的问题分布式表示，即情境到问题的注意力G，具体包括：

步骤a1，通过关于问题对应的隐状态向量序列H和情境对应的隐状态向量序列U的相似度矩阵S∈R^t×j计算得到情境到问题的注意力G，相似度矩阵S的第t行第j列的元素为S_tj，S_tj表示问题中第t个词和情境中第j个词的相似度，S_tj的计算公式为：

S_tj＝α(H_:t,U_:j)，

其中，α是一个能够训练的标量函数，α的作用是对输入的两个向量衡量它们之间的相似度，H_:t是H中的第t个列向量，U_:j是U中的第j个列向量，采用如下公式计算两个输入的向量h和u的相似度α(h,u)：

通过上式即能够得到H_:t和U_:j的相似度α(H_:t,U_:j)，其中，

是一个能够训练的权重向量，*表示元素相乘，[；]表示对向量按行拼接；

步骤a2，根据相似度矩阵S获取情境到问题的注意力G：通过b＝softmax(max_col(S))∈R^T来获得问题的注意力权重向量b，其中，max_col()是在矩阵的每一列上取最大值的函数，之后，问题注意力向量为h^～＝∑_tb_tH_:t∈R^2d，b_t为b中第t个元素，此向量h^～表示对于情境来说的问题中最重要词的加权和；对h^～在列上复制T次，得到问题隐向量的加权矩阵H^～∈R^2d×T，对问题向量和注意力向量拼接产生矩阵G，矩阵G中每一列视为问题中每个词的感知了情境信息(即步骤1定义的情境信息)的表示，G的定义如下：

其中，G_:t是矩阵G中第t个列向量，对应情境中第t个词，

是问题隐向量的加权矩阵H^～中第t个列向量，β是一个能够训练的向量函数，β函数用于对输入的向量进行融合，d_G则为β函数的输出维度，β函数定义为：

β(h,h^～,u)＝(h；h*h^～；u)

其中，β(h,h^～,u)∈R^6d×T，d_G＝6d，h表示问题中的某个词对应的隐状态向量，h～表示问题注意力向量，U表示情境中某个词对应得隐状态向量；

输出矩阵M∈R^2d×T。

输出层用于预测用户意图各分类的概率分布p：

其中，

是一个能够训练的权重向量，MLP为多层感知器(Multi-LayerPerception，即多层感知器)，将输入的T(问题中词的个数)组向量输出为意图类别个数相同组数的向量。

步骤4包括：标注数据，构建训练集，利用传统神经网络采用的反向传播算法对步骤3中所构建问题意图预测网络中的模型的参数(即每层网络中的权值矩阵)进行训练，并依此来进行问句分类预测。

有益效果：本发明相比于传统仅靠自然语言对话的问题的用户意图识别算法具有以下优势：1)引入了用户、环境与历史情境特征，极大的提高了意图识别的准备率；2)结合情境信息来辅助分类，解决了在用户问题表达不完整或者用户问题存在歧义的情况下，传统方法无法识别的问题，提高了识别算法的适用性。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明提出的基于注意力机制的问题意图预测网络。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明提供了一种计算机问答***中的问句分类方法，图1是本发明提出的基于注意力机制的问题意图预测网络，包括情境建模、情境感知获取、意图预测网络设计、训练与预测。其中Q_T表示问题语句分词得到的第T个词的向量表示，T表示词的个数；C_j表示情境中第j个情境短语的向量表示，j表示短语个数；h_T表示问题第T个词训练得到的隐状态向量；u_j表示情境第j个短语训练得到的隐状态向量；g_T表示情境到问题的注意力矩阵中的第T个列向量；m_T表示模型层输出的隐状态序列的第T个列向量；max表示取最大值；softmax为常用的多分类函数；LSTM为长短期记忆网络。下面结合具体的实施例对本发明进行详细说明，应理解本实施例仅用于解释本发明，并不限定本发明的范围。本实施例选取的为购物助手领域。

(1)构建用户情境模型

本发明方法可应用于智能问答***(QA，Question Answering，是新一代的搜索引擎)，首先根据智能问答应用领域构建影响用户意图的上下文环境信息。智能问答***可应用于多个领域，常见如手机助手、购物、自动客服等。本发明选取了三个主要维度来定义用户的情境：

ContextInfo＝<Y、H、E>

其中，每个维度的含义如下：

Y：用户情境信息，主要是指用户的基本信息与行为偏好，包括性别、年龄段、职业、领域偏好，其表示方式是通过短语标签的方式来表示，如以购物应用为例，性别表示为男，年龄表示为青年，职业表示为金融，领域偏好表示为运动，所有标签在无法获取的情况下表示为未知；

H：历史情境信息(History)；指用户最近三轮对话中用户关注的意图领域，同样通过短语标签的方式表示，如[未知，手机，手机周边]；

E：环境情境信息(Enviroment)；用户所在的区域、温度、时间，如[南京，28，1196361000]。

依此，一个完整的情境应当表示为一组10维的短语(用户情境4维，历史情境3维，环境情境3维)，例如一个购物领域的情境例子表示如：[男，青年，信息处理，电子，未知，电子类商品搜索，手机周边类商品搜索，南京，16，1196361000]

(2)情境数据获取

情境获取的手段多样，主要通过两方面的方法，一是显示获取，通过问卷、用户资料补充等与用户交互方式获取用户情境，通过历史记录日志获取历史情境信息，通过传感器(如GPS)，获取环境情境信息，另一方面学习挖掘，从用户的行为日志、历史问句中挖掘分类获取，例如用户的性别，可以从其购买、浏览、点击的商品等方面提取特征集，构建分类体系(三类：男，女，未知)，通过分类模型(SVM、最大熵、神经网络)进行用户性别分类，从而得到用户的性别情境信息。传统的用户画像构建的一些方法都可以使用。对于购物领域的情境获取来说，用户情境信息可以从用户的购物记录、用户的实名认证信息中获取；历史情境可以从***日志中获取；***情境可以从来访的ip地址、***时间、天气服务中获取。

(3)模型设计

本发明是通过用户问句和情境信息来预测用户的意图领域，所以算法的输入为用户问题文本、表示情境信息的10维短语向量，输出为各领域的概率分布向量序列，其维度为意图领域类型总数。在购物应用实例中，选取以下12类领域意图进行举例说明：食品类搜索、春秋装搜索、冬装搜索、夏装搜索、电子类搜索、火车票查询、机票查询、订单生成、订单查询、订单确认、火车票预订、机票预订。

本实施例将情境信息嵌入用户问题，形成考虑情境的问题分布式表示，带入模型进行预测，网络模型主要包含以下几层：

文本嵌入层：主要任务是将离散的字符转换成连续的数值，以便于模型计算。即将问题与情境中的每个词映射到高维向量空间(一般自然语言处理任务大多采用200维的向量)，使用GloVe预训练的词向量来获取每个词的向量表示，得到两个d维的向量序列。在本实施例中，首先需要对问句进行分词获得分词序列，问句的长度不一，分词得到的分词序列长度也不一样，为了方便计算模型计算，对其进行标准化处理，统一取序列长度为8，不足部分用零补全。例如“最近几天的苹果价格”，分词补全得到[最近,几天,苹果,价格,0,0,0,0]。d取200，序列长度分别为8和10，因此两个矩阵：问题矩阵Q∈R^200×8以及情境矩阵C∈R²⁰⁰ ^×10。将表示结果输入到双向LSTM来建模词与词之间的时序交互，分别生成问题和文本对应的隐状态向量序列。双向的LSTM进行拼接则由问题矩阵Q得到隐状态向量H∈R^400×8，以及情境矩阵C得到的U∈R^400×10。

情境注意力层：将情境信息嵌入问题，形成考虑情境的问题分布式表示。情境注意力经由一个关于问题和情境的隐状态向量(H和U)的相似度矩阵S∈R^8×10计算而来，其中S_tj表示问题中第t个词和情境中第j个词的相似度。相似度矩阵的计算公式为，

S_tj＝α(H_:t,U_:j)

其中，α是一个可训练的标量函数，对输入的两个向量衡量它们之间的相似度，H_:t是H中的第t个列向量，U_:j是H中的第j个列向量。本发明采用的相似度计算为

其中，

是一个可训练的权重向量，*表示元素相乘，[；]表示对向量按行拼接。对于上述例子中的问题和情境来说，例如需要计算问题中“苹果”所对应的隐向量[h₁，h₂，…，h₄₀₀]^T，与情境“电子”所对应的隐向量[u₁，u₂，…，u₄₀₀]^T的相似度可表示为

若

为[w₁，w₂，…，w₁₂₀₀]那么相似度最终为w₁h₁+…+w₄₀₁u₁+…+w₈₀₁h₁u₁+…+w₁₂₀₀h₄₀₀u₄₀₀。

接着，根据按S来获取情境到问题的注意力，过程描述：首先通过b＝softmax(max_col(S))∈R⁸来获得问题的注意力权重。其中，max_col()是在每一行上取最大值的函数。之后，问题注意力向量为h^～＝∑_tb_tH_:t∈R⁴⁰⁰，此向量表示对于情境来说的问题中最重要词的加权和。对h^～在列上复制8次，得到问题隐向量的加权矩阵H^～∈R^400×8。最后，对问题向量和注意力向量拼接产生G，其中每一列可以视为问题中每个词的感知了情境信息的表示，G的定义如下：

其中，G_:t是第t个列向量(对应问题中第t个词)，β是一个可训练的向量函数对其输入的向量进行融合，d_G则为β函数的输出维度。β函数定义为：

β(h,h^～,u)＝(h；h*h^～；u)∈R^1200×8(d_G＝1200)

模型层：使用G作为输入，采用双向LSTM，生成隐状态序列，获得输出矩阵M∈R⁴⁰⁰ ^×8；

输出层：预测用户意图各分类的概率分布：

其中，

是一个可训练的权重向量，MLP为多层感知器，将输入的T(问题中词的个数)组向量输出为意图类别个数相同组数的向量，对于实施例子来说，就是将生成的8组向量转换为12组向量。

(4)模型训练与预测。

标注数据，构建训练集，利用传统神经网络采用的反向传播算法对步骤3中所构建问题意图预测网络中的模型的参数(即每层网络中的权值矩阵)进行训练，并依此来进行问句分类预测。标注的数据主要包括用户问句，情境与意图类别。以购物领域为例，标注数据样式如下表所示。

表1

预测时以问句与情境信息为输入，输出为领域概率分布，例如[0.83,0.02,0.01,0.02,0.03,0.02,0.01,0.02,0.01,0.01,0.01,0.01],该预测结果表示用户意图83％概率是“食品类搜索”。

实施例2

本实施例2中，以手机语音助手为例，说明本发明的实施过程。本发明属于语音助手中自然语言处理部分的自然语言理解的内容。输入是语音识别生成用户自然语言问句，输出为用户的意图分类。处理主要分为两大部分，包括线下预处理部分和线上预测部分。

线下预处理部分主要包括数据标注、模型训练。具体的，数据标注主要是获取用户的历史问句，对于每一条语句，标注其由10个词语组成情境信息与问句所属的意图领域。意图领域覆盖手机助手支持的业务，如闲聊、拨号、短信、订票、闹钟等，情境信息如[男，青年，销售闲聊，未知，闲聊，拨号，南京，16，1196361000]。

模型训练是通过标注数据对本发明提出的问题意图预测网络进行训练，以获取训练模型。首先，对标注的结果进行处理，将其转化为分类结果向量。具体的，统计手机助手所支持的所有意图领域个数N，并以固定的顺序排序，以此生成一个N维的向量，向量由0,1构成，即将结果领域所在位置上的数值设为1，其余为0。如：闲聊、拨号、短信这一领域集合中各向量分别表示为[1,0,0]，[0,1,0]，[0,0,1]。然后以用户问句与情境信息为输入，结果向量为输出，训练问题意图预测网络，生成模型中各层网络中的参数权重。

线上预测部分处理过程包括情境信息采集与领域分类，其中情境信息采集是根据接入的用户的唯一标识，获取其对应的基本信息(性别、年龄段、职业、领域偏好)、以及记录的历史领域(***日志记录的最近三轮的对话的意图领域，不足补充“未知”)；根据手机的***时间、天气与位置服务获取用户的环境信息，将获取的信息拼接形成情境信息短语序列。

领域分类部分是以用户问句与情境信息为输入，代入模型计算，获取领域分类。具体包括：首先对问句进行分词，获取问题短语序列；然后通过GloVe预训练的词向量来获取问句序列和情境信息中的每个词向量表示，将问句向量序列、情境向量序列、训练得出的模型中各层网络中的参数权重代入模型(情境向量序列是情境信息短语序列的数值化表示，问句向量序列是问题短语序列的数值化表示)，预测得到N维的结果向量。获取向量中最大的数值p及其位置，如果p满足预期的阈值要求，那么其位置所对应的意图领域，就是分类得到的结果意图领域，如闲聊、拨号、短信这一领域集合中输出结果为[0.1,0.7,0.2]，设置的阈值为不小于0.7，那么领域意图分类结果就是拨号。

本发明提供了一种计算机问答***中的问句分类方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种计算机问答***中的问句分类方法，其特征在于，包括以下步骤：

步骤1，构建用于对问句进行分类的用户情境模型；

步骤2，基于用户情境模型，获取用户的情境信息数据；

步骤4，训练模型，并对问句进行分类预测；

ContextInfo＝<Y、H、E>

其中，每个维度的含义如下：

Y表示用户情境信息；

H表示历史情境信息；

E表示环境情境信息；

所述用户情境信息是指用户的基本信息与行为偏好，包括性别、年龄段、职业和领域偏好；

所述历史情境信息是指用户最近三轮对话中用户关注的意图领域；

所述环境情境信息是指用户所在的区域、温度、时间；

每个情境信息都用一个属性词表示，即最终情境信息的表示由10个词语组成；

输出层用于预测用户意图各分类的概率分布p；

获取待分类的问句，问句中包括问题，使用GloVe预训练的词向量来获取问题与情境中每个词的向量表示，得到两个d维的向量序列，即两个矩阵：问题矩阵Q∈R^d×T和情境矩阵C∈R^d×j，其中d取正整数，T与j分别表示问题中词的个数和情境中词的个数，R为实数；

2.如权利要求1所述的方法，其特征在于，所述情境注意力层用于将情境信息嵌入问题，形成考虑情境的问题分布式表示，即情境到问题的注意力G，具体包括：

S_tj＝α(H_：t，U_：j)，

其中，α是一个能够训练的标量函数，α的作用是对输入的两个向量衡量它们之间的相似度，H_：t是H中的第t个列向量，U_：j是U中的第j个列向量，采用如下公式计算两个输入的向量h和u的相似度α(h，u)：

通过上式即能够得到H_：t和U_：j的相似度α(H_：t，U_：j)，其中，

步骤a2，根据相似度矩阵S获取情境到问题的注意力G：通过b＝softmax(max_col(S))∈R^T来获得问题的注意力权重向量b，其中，max_col()是在矩阵的每一列上取最大值的函数，之后，问题注意力向量为h^～＝∑_tb_tH_：t∈R^2d，b_t为b中第t个元素，此向量h^～表示对于情境来说的问题中最重要词的加权和；对h^～在列上复制T次，得到问题隐向量的加权矩阵H^～∈R^2d×T，对问题向量和注意力向量拼接产生矩阵G，矩阵G中每一列视为问题中每个词的感知了情境信息的表示，G的定义如下：

其中，G_：t是矩阵G中第t个列向量，对应情境中第t个词，

β(h，h^～，u)＝(h；h*h^～；u)

其中，β(h，h^～，u)∈R^6d×T，d_G＝6d。

3.如权利要求2所述的方法，其特征在于，输出矩阵M∈R^2d×T。

4.如权利要求3所述的方法，其特征在于，输出层用于预测用户意图各分类的概率分布p：

其中，

是一个能够训练的权重向量，MLP为多层感知器，将输入的T组向量输出为意图类别个数相同组数的向量。

5.如权利要求4所述的方法，其特征在于，将所述问句分类方法用于处理手机语音助手中自然语言处理部分的自然语言理解，输入的是语音识别生成的用户自然语言问句，输出为用户的意图分类，具体处理包括线下预处理部分和线上预测部分；

所述线下预处理部分包括数据标注和模型训练，其中，数据标注是获取用户的历史问句，对于每一条语句，标注其由10个词语组成情境信息与问句所属的意图领域，意图领域覆盖手机助手支持的业务；

模型训练是通过标注数据对步骤3所述的问题意图预测网络进行训练，以获取训练模型：首先，对标注的结果进行处理，将其转化为分类结果向量，具体的，统计手机助手所支持的所有意图领域个数N，并以固定的顺序排序，以此生成一个N维的向量，向量由0，1构成，即将结果领域所在位置上的数值设为1，其余为0，然后以用户问句与情境信息为输入，结果向量为输出，训练问题意图预测网络，生成模型中各层网络中的参数权重；

所述线上预测部分包括情境信息采集和领域分类，其中，情境信息采集是根据接入的用户的唯一标识，获取其对应的基本信息和记录的历史领域，并根据手机的***时间、天气与位置服务获取用户的环境信息，将获取的信息拼接形成情境信息短语序列；

领域分类是以用户问句与情境信息为输入，代入模型计算，获取领域分类，具体包括：首先对问句进行分词，获取问题短语序列；然后通过GloVe预训练的词向量来获取问句序列和情境信息中的每个词向量表示，将问句向量序列、情境向量序列、训练得出的模型中各层网络中的参数权重代入模型，预测得到N维的结果向量，获取向量中最大的数值p及其位置，如果p满足预期的阈值要求，则其位置所对应的意图领域，就是分类得到的结果意图领域。