CN108038208A

CN108038208A - 上下文信息识别模型的训练方法、装置和存储介质

Info

Publication number: CN108038208A
Application number: CN201711362223.2A
Authority: CN
Inventors: 卢道和; 郑德荣; 张超; 杨海军; 钟伟; 庞宇明; 鲍志强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-05-15
Anticipated expiration: 2037-12-18
Also published as: CN108038208B

Abstract

本发明公开了一种上下文信息识别模型的训练方法，包括：获取会话信息和对会话信息进行人工标注的验证集；根据预设规则对会话信息进行预处理，并计算获得会话信息中的分类指标，分类指标包括：第一信息熵、词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类比例；根据计算获得的分类指标结合验证集训练SVM分类器；利用训练后的SVM分类器对会话信息中未标注的信息进行标注，生成数据集；将数据集作为GRU模型的输入，训练出识别会话信息中上下文信息的识别模型。本发明还公开了一种上下文信息识别模型的训练装置和存储介质。本发明能够提高会话信息中上下文信息的识别准确率和稳定性。

Description

上下文信息识别模型的训练方法、装置和存储介质

技术领域

本发明涉及信息处理领域，尤其涉及一种上下文信息识别模型的训练方法、装置和存储介质。

背景技术

近年来，随着互联网的飞速发展，信息资源正呈指数级增长。丰富的互联网信息资源给人们的生活带来了极大的便利，智能机器人也在各领域逐渐成熟发展。

然而目前智能机器人在进行对话过程中对于会话信息中的上下文的准确率和稳定性还比较低，因此，如何提高会话信息中上下文信息的识别准确率和稳定性，是本领域技术人员亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种上下文信息识别模型的训练方法、装置和存储介质，旨在提高会话信息中上下文信息的识别准确率和稳定性。

为实现上述目的，本发明提供一种上下文信息识别模型的训练方法，所述训练方法包括以下步骤：

获取会话信息和对所述会话信息进行人工标注的验证集；

根据预设规则对所述会话信息进行预处理，并计算获得所述会话信息中的分类指标，所述分类指标包括：所述会话信息的第一信息熵、所述会话信息中词的最大分布概率、所述会话信息中回答信息的平均长度、所述会话信息中指示代词的比例、所述会话信息中关键词所在会话信息的比重、所述会话信息中词性种类比例；

根据所述第一信息熵、分词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类的比例结合验证集训练SVM分类器；

利用训练后的SVM分类器对所述会话信息中未标注的信息进行标注，生成数据集；

将所述数据集作为GRU模型的输入，训练出识别所述会话信息中上下文信息的识别模型。

可选地，所述根据预设规则对所述会话信息进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

根据所述会话信息进行分词，获得所述会话信息中的词；

计算所述会话信息中每个词的分布概率，并根据所述会话信息中所有词的分布概率和第一预设算法计算所述会话信息中词的最大分布概率，其中第一预设算法为：

p_i表示所述会话信息中第i词的分布概率，P表示每个词的分布概率的集合，M(P)表示词的最大分布概率。

根据第二预设算法计算所述会话信息中回答信息的第二信息熵；

根据获得的信息熵中最大信息熵和最小信息熵进行归一化获得所述第一信息熵，其中第二预设算法为：

E(P)表示第二信息熵，entropy表示第一信息熵。

对所述会话信息进行分析，获得所述会话信息中指示代词；

根据第三预设算法计算所述会话信息中指示代词所占的比例，其中第三预设算法为：

count表示计数，d表示指示代词，word表示所述会话信息中每个句子中的词，rate_d表示指示代词所占的比例。

根据第四预设算法计算所述会话信息中同一问题的多个回答信息的平均长度，并标准化至[0，1]之间，其中第四预设算法为：

An表示同一问题的第n个回答信息的长度，Ei(A)表示第i个问题的平均长度，Y表示归一化后的长度。

确定所述会话信息所述的领域，并根据所述领域获取所述会话信息中的关键词；

根据第五预设算法计算关键词所在会话信息的比重，其中第五预设算法为：

k表示领域关键词，word表示句子中的词，rate_k表示比重。

统计所述会话信息中词性种类；

根据第六预设算法计算所述会话信息中每条会话信息中每条会话信息中词性种类占所有词性种类的比例，其中第六预设算法为：

j表示词性种类的数量，word表示句子中的词，rate_j表示每条会话信息中词性种类占所有词性种类的比例。

可选地，所述将所述数据集作为GRU的输入，训练出识别所述会话信息中上下文信息的识别模型GRU的步骤包括：

将所述数据集作转换为词向量为GRU模型的输入，对所述GRU模型进行训练；

利用双层前馈神经网络计算训练后的GRU模型的得分，并根据所述得分和所述数据集的标注计算最小平分差得到训练误差；

根据所述训练误差调整训练后的GRU模型，获得识别所述会话信息中上下文信息的识别模型。

可选地，所述训练方法还包括：

根据训练后的识别所述会话信息中上下文信息的识别模型识别会话信息中的上下文相关信息和上下文不相关信息。

此外，为实现上述目的，本发明还提供一种上下文信息识别模型的训练装置，所述上下文信息识别模型的训练装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述计算机可读存储介质上存储有上下文信息识别模型的训练程序，所述上下文信息识别模型的训练程序被处理器执行时实现如上所述的上下文信息识别模型的训练方法的步骤。

本发明通过获取会话信息，并人工对所述会话信息进行人工标注获得验证集；然后根据预设规则对所述会话信息进行预处理，并计算获得所述会话信息中的分类指标，所述分类指标包括：所述会话信息的第一信息熵、所述会话信息中词的最大分布概率、所述会话信息中回答信息的平均长度、所述会话信息中指示代词的比例、所述会话信息中关键词所在会话信息的比重、所述会话信息中词性种类比例；然后根据所述第一信息熵、分词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类的比例这六个分类指标结合验证集训练SVM分类器；利用训练后的SVM分类器对所述会话信息中未标注的信息进行标注，生成数据集；将所述数据集作为GRU模型的输入，从而训练出识别所述会话信息中上下文信息的识别模型，本发明从六个角度对会话信息进行计算，获得对应的指标数据，然后结合人工标注的验证集训练SVM分类器，从而提高SVM分类器的准确性，然后利用训练后的SVM分类器，给其他没有人工标注的数据进行标注，将标注后的数据用来训练GRU模型，该模型能用于识别所述会话信息中上下文信息，从而提高识别所述会话信息中上下文信息的识别模型的识别准确率和稳定性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本发明上下文信息识别模型的训练方法一实施例的流程示意图；

图3为本发明实施例中根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标的步骤的第一细化流程示意图；

图4为本发明实施例中根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标的步骤的第二细化流程示意图；

图5为本发明实施例中根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标的步骤的第三细化流程示意图；

图6为本发明实施例中根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标的步骤的第四细化流程示意图；

图7为本发明实施例中根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标的步骤的第五细化流程示意图；

图8为本发明实施例中将所述数据集作为GRU的输入，训练出识别所述会话信息中上下文信息的识别模型GRU的步骤的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及上下文信息识别模型的训练应用程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的上下文信息识别模型的训练应用程序，并执行以下操作：

获取会话信息和对所述会话信息进行人工标注的验证集；

进一步地，处理器1001可以调用存储器1005中存储的上下文信息识别模型的训练应用程序，还执行以下操作：

根据所述会话信息进行分词，获得所述会话信息中的词；

E(P)表示第二信息熵，entropy表示第一信息熵。

对所述会话信息进行分析，获得所述会话信息中指示代词；

k表示领域关键词，word表示句子中的词，rate_k表示比重。

统计所述会话信息中词性种类；

本发明上下文信息识别模型的训练装置的具体实施例与下述上下文信息识别模型的训练应用程序各实施例基本相同，在此不作赘述。

参照图2，图2为本发明上下文信息识别模型的训练方法一实施例的流程示意图，该上下文信息识别模型的训练方法包括：

步骤S10，获取会话信息和对所述会话信息进行人工标注的验证集；

步骤S20，根据预设规则对所述会话信息进行预处理，并计算获得所述会话信息中的分类指标，所述分类指标包括：所述会话信息的第一信息熵、所述会话信息中词的最大分布概率、所述会话信息中回答信息的平均长度、所述会话信息中指示代词的比例、所述会话信息中关键词所在会话信息的比重、所述会话信息中词性种类比例；

本实施例中先从客服***提取会话信息，该客服***中会话信息包括用户提问信息和人工客服的回答信息，然后人工对获取到的会话信息进行标注预设条数的数据作为验证集，比如标注1000条数据作为验证集。

根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标，具体地，参阅图3，根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标的步骤包括：

步骤S21，根据所述会话信息进行分词，获得所述会话信息中的词；

步骤S22，计算所述会话信息中每个词的分布概率，并根据所述会话信息中所有词的分布概率和第一预设算法计算所述会话信息中词的最大分布概率。

本实施例中在获得会话信息后，对获得的会话信息进行分词，获得所有会话信息中的词，具体地，将所有会话信息按照主语、宾语、动词等进行分词，获得所有会话信息中的词，然后计算每个词的分布概率，记为p_i。词的分布概率计算过程与现有技术类似此处不做过多赘述。然后根据计算获得的词分布概率作为第一预设算法作为输入计算得到词的最大分布概率，其中第一预设算法为：

p_i表示所述会话信息中第i个词的分布概率，P表示每个词的分布概率的集合，M(P)表示词的最大分布概率。

进一步地，参阅图4，根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

步骤S23，根据第二预设算法计算所述会话信息中回答信息的第二信息熵；

步骤S24，根据获得的信息熵中最大信息熵和最小信息熵进行归一化获得所述第一信息熵。

进一步地，本实施例还根据第二预设算法计算获得该回合信息中回答信息的第二信息熵，然后根据获得的信息熵中最大信息熵和最小信息熵进行归一化，从而计算获得所述第一信息熵，其中第二预设算法为：

E(P)表示第二信息熵，entropy表示第一信息熵。

进一步地，参阅图5，根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

步骤S25，对所述会话信息进行分析，获得所述会话信息中指示代词；

步骤S26，根据第三预设算法计算所述会话信息中指示代词所占的比例。

进一步地，本实施例在对会话信息进行分词后，还根据分词结果对会话信息进行分析，确定会话信息中的指示代词，当然具体实施中还可以先对会话信息进行分析直接获得其中的指示代词，然后根据第三预设算法计算会话信息中指示代词所占的比例，其中第三预设算法为：

进一步地，根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

步骤S27，根据第四预设算法计算所述会话信息中同一问题的多个回答信息的平均长度，并标准化至[0，1]之间；

进一步地，在客服服务***中，不同的人工客服在回答同一个问题时，采用的表述可能不同，因此本实施例中针对会话信息中同一问题对应的人工客服的多个回答信息使用第四预设算法进行计算，获得会话信息中同一问题的多个回答信息的平均长度，并将计算结果标准化至[0，1]之间，第四预设算法为：

进一步地，参阅图6，根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

步骤S28，确定所述会话信息所述的领域，并根据所述领域获取所述会话信息中的关键词；

步骤S29，根据第五预设算法计算关键词所在会话信息的比重。

进一步地，本实施例中针对不同领域设置有对应的关键词，本实施例先确定会话信息所属的领域，然后从会话信息中选择该领域对应的关键词，并根据第五预设算法计算选择关键词在会话信息中的比重，第五预设算法为：

k表示领域关键词，word表示句子中的词，rate_k表示比重。

进一步地，参阅图7，根据获得的会话信息根据预设规则对其进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

步骤S291，统计所述会话信息中词性种类；

步骤S292，根据第六预设算法计算所述会话信息中每条会话信息中每条会话信息中词性种类占所有词性种类的比例。

进一步地，本实施例中根据对会话信息的分析，确定会话信息中具有的词性种类，对词性种类进行统计，然后根据第六预设算法计算所述会话信息中每条会话信息中每条会话信息中词性种类占所有词性种类的比例，其中第六预设算法为：

步骤S30，根据所述第一信息熵、分词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类的比例结合验证集训练SVM分类器；

根据步骤S20中计算获得的第一信息熵、分词的最大分布概率、回答信息的平均长度、指示代词的比例、关键词所在会话信息的比重、词性种类的比例，结合验证集训练SVM分类器，需要说明的是本实施例中训练SVM分类器的过程与现有的基本相同，仅在于输入的数据不同。

步骤S40，利用训练后的SVM分类器对所述会话信息中未标注的信息进行标注，生成数据集；

步骤S50，将所述数据集作为GRU模型的输入，训练出识别所述会话信息中上下文信息的识别模型。

根据步骤S30训练好的SVM分类器对所述会话信息中未标注的信息进行标注，生成对应的数据集，然后将生成的数据集作为GRU模型的输入，训练GRU，从而得到识别所述会话信息中上下文信息的识别模型。

步骤S60，根据训练后的识别所述会话信息中上下文信息的识别模型识别会话信息中的上下文相关信息和上下文不相关信息。

在训练好识别所述会话信息中上下文信息的识别模型后，则可以使用该模型对会话信息进行识别，识别出会话信息中的上下文相关信息和上下文不相关信息。

进一步地，对于与上下文不相关的信息，直接利用用户输入的信息检索知识库并返回匹配答案。对于与上下文相关的信息，通过计算词频-逆向文件频率tf-idf从上下文中抽取5个关键词，与用户输入的信息一起作为检索项在知识库中检索以获得回答的候选集，然后对候选答案进行排序，把最佳答案返回给用户。识别出上下文不相关信息，在后续阶段能有效节省时间，提高工作效率；识别出上下文相关信息，能提高客服机器人的回答准确率。

进一步的，参照图8，图8为本发明上下文信息识别模型的训练方法另一实施例的流程示意图，基于上述实施例，该上下文信息识别模型的训练方法还包括：

步骤S51，将所述数据集作转换为词向量为GRU模型的输入，对所述GRU模型进行训练；

步骤S52，利用双层前馈神经网络计算训练后的GRU模型的得分，并根据所述得分和所述数据集的标注计算最小平分差得到训练误差；

步骤S53，根据所述训练误差调整训练后的GRU模型，获得识别所述会话信息中上下文信息的识别模型。

在本实施例中将用户输入的信息转换为词向量作为GRU的输入训练GRU

z_t＝σ(w_z·[h_t-1,x_t])

r_t＝σ(w_r·[h_t-1,x_t])

其中z是update gate，决定保留多少先前的信息；r是reset gate决定先前的信息如何结合当前的输入；h是单元的状态。

③利用双层前馈神经网络计算得分

s＝b₂+W₂(tanh(b₁+W₁h_n))

其中s是双层前馈神经网络计算出的分数，结合s和数据集的标注y计算最小平方差得到训练误差来调整GRU模型。

④设置阈值构建最终分类函数

其中g是s和阈值T构建的分类函数，相当于重新给数据贴标签。

此外，本发明实施例还提出一种上下文信息识别模型的训练装置，所述上下文信息识别模型的训练装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上实施例所述的方法的步骤。

本发明上下文信息识别模型的训练装置的具体实施例与上述上下文信息识别模型的训练方法各实施例基本相同，在此不作赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有上下文信息识别模型的训练程序，所述上下文信息识别模型的训练程序被处理器执行时实现如上实施例所述的上下文信息识别模型的训练方法的步骤。

本发明计算机可读存储介质的具体实施例与上述上下文信息识别模型的训练方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种上下文信息识别模型的训练方法，其特征在于，所述训练方法包括以下步骤：

获取会话信息和对所述会话信息进行人工标注的验证集；

2.如权利要求1所述的训练方法，其特征在于，所述根据预设规则对所述会话信息进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

根据所述会话信息进行分词，获得所述会话信息中的词；

3.如权利要求2所述的训练方法，其特征在于，所述根据预设规则对所述会话信息进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>-</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>=</mo> <mfrac> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>P</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>E</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <mi>E</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <mi>E</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

E(P)表示第二信息熵，entropy表示第一信息熵。

4.如权利要求1所述的训练方法，其特征在于，所述根据预设规则对所述会话信息进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

对所述会话信息进行分析，获得所述会话信息中指示代词；

5.如权利要求1所述的训练方法，其特征在于，所述根据预设规则对所述会话信息进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

6.如权利要求1所述的训练方法，其特征在于，所述根据预设规则对所述会话信息进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

k表示领域关键词，word表示句子中的词，rate_k表示比重。

7.如权利要求1所述的训练方法，其特征在于，所述根据预设规则对所述会话信息进行预处理，并计算获得所述会话信息中的分类指标的步骤还包括：

统计所述会话信息中词性种类；

8.如权利要求1所述的训练方法，其特征在于，所述将所述数据集作为GRU的输入，训练出识别所述会话信息中上下文信息的识别模型GRU的步骤包括：

9.如权利要求1-8中任一项所述的训练方法，其特征在于，所述训练方法还包括：

10.一种上下文信息识别模型的训练装置，其特征在于，所述上下文信息识别模型的训练装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有上下文信息识别模型的训练程序，所述上下文信息识别模型的训练程序被处理器执行时实现如权利要求1至9中任一项所述的上下文信息识别模型的训练方法的步骤。