CN108573306A

CN108573306A - 输出回复信息的方法、深度学习模型的训练方法及装置

Info

Publication number: CN108573306A
Application number: CN201710142399.0A
Authority: CN
Inventors: 涂畅; 张扬; 王砚峰
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2018-09-25
Anticipated expiration: 2037-03-10
Also published as: CN108573306B

Abstract

本发明公开一种输出回复信息的方法、深度学习模型的训练方法及装置，该方法包括：获取待回复信息；对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得低维信息；采用深度学习模型，计算所述低维信息，以生成回复信息；输出所述回复信息。本申请提供的方法和装置可以解决现有技术中的深度学习模型，存在的参数复杂，计算量大的技术问题。实现了减少模型参数占用的内存空间和模型计算量，从而降低深度学习模型对硬件的要求的技术效果。

Description

输出回复信息的方法、深度学习模型的训练方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种输出回复信息的方法、深度学习模型的训练方法及装置。

背景技术

深度学习的概念源于人工神经网络的研究，通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征。深度学习是机器学习研究中的一个新领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据。

当前，深度学习模型由于其良好的学习能力，被广泛应用于线上的服务以提升服务性能。以智能回复为例，利用深度学习模型可以在受限领域达到比较好的效果。但是多数深度学习模型由于其模型复杂(需要几十万甚至更多的模型参数)以及计算量大，只能在服务端通过高性能服务器甚至图形处理器(Graphics Processing Unit，GPU)为用户提供服务。并且将用户数据上传至服务端也会带来让用户担忧的隐私问题。

可见，现有技术中的深度学习模型，存在参数复杂，计算量大的技术问题。

发明内容

本发明实施例提供一种输出回复信息的方法、深度学习模型的训练方法及装置，用于解决现有技术中的深度学习模型，存在的参数复杂，计算量大的技术问题。第一方面，本发明实施例提供一种输出回复信息的方法，包括：

获取待回复信息；

对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得低维信息；

采用深度学习模型计算所述低维信息，以生成回复信息。

结合第一方面，在第一种可选的实施例中，所述对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得低维信息，包括：通过嵌入层对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得所述低维信息，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；在所述获得低维信息之后，还包括：将所述低维信息输入所述隐藏层；所述采用深度学习模型计算所述低维信息，包括：采用深度学习模型在所述隐藏层计算所述低维信息。

结合第一方面，在第二种可选的实施例中，所述对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得低维信息，包括：将所述待回复信息转换为用向量表示的输入向量；降低所述输入向量的向量维度，以获得所述低维信息。

结合第一方面，在第三种可选的实施例中，在所述对所述待回复信息进行维度转化之前，还包括：对所述待回复信息以字符为单位进行划分；所述对所述待回复信息进行维度转化，包括：对划分后的所述待回复信息逐字符进行维度转化；所述采用深度学习模型计算所述低维信息，以生成回复信息，包括：基于所述深度学习模型中的词表，逐字符计算所述低维信息，以生成回复信息，其中，所述词表为以字符为单位训练生成的词表。

结合第一方面的第三种可选的实施例，在第四种可选的实施例中，所述词表是以问答对为训练样本，将所述问答对以字符为单位拆分后逐字符训练生成的词表。

结合第一方面的第四种可选的实施例，在第五种可选的实施例中，所述词表为将所述问答对以字符为单位拆分，按预设规则筛选出有效字符组后，对所述有效字符组逐字符训练生成的词表。

结合第一方面的第三种可选的实施例，在第六种可选的实施例中，所述逐字符计算所述低维信息，包括：按倒序的顺序逐字符计算所述低维信息。

结合第一方面或第一方面的第一至六种可选的实施例中的任意一种可选的实施例，在第七种可选的实施例中，当需要执行指数运算时，在预设的指数表中查表确定所述指数运算的结果，其中，所述指数表包括指数数值范围与计算结果的映射关系。

结合第一方面或第一方面的第一至六种可选的实施例中的任意一种可选的实施例，在第八种可选的实施例中，当需要进行运算时，采用矩阵向量运算库优化矩阵和向量运算。

结合第一方面或第一方面的第一至六种可选的实施例中的任意一种可选的实施例，在第九种可选的实施例中，所述方法应用于客户端。

结合第一方面或第一方面的第一至六种可选的实施例中的任意一种可选的实施例，在第十种可选的实施例中，所述深度学习模型为长短时记忆模型。

第二方面，本发明实施例提供一种深度学习模型的训练方法，包括：

获取训练数据；

对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得低维数据；

采用深度学习模型训练所述低维数据，以优化所述深度学习模型。

结合第二方面，在第一种可选的实施例中，所述对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得低维数据，包括：通过嵌入层对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得所述低维数据，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；在所述获得低维数据之后，还包括：将所述低维数据输入所述隐藏层；所述采用深度学习模型训练所述低维信息，包括：采用深度学习模型在所述隐藏层训练所述低维信息。

结合第二方面，在第二种可选的实施例中，所述对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得低维数据，包括：将所述训练数据转换为用向量表示的输入向量；降低所述输入向量的向量维度，获得所述低维数据。

结合第二方面，在第三种可选的实施例中，在所述对所述训练数据进行维度转化之前，还包括：对所述训练数据以字符为单位进行划分；所述对所述训练数据进行维度转化，包括：对划分后的所述训练数据逐字符进行维度转化；所述采用深度学习模型，训练所述低维数据，以优化所述深度学习模型，包括：基于所述深度学习模型中的词表，逐字符训练所述低维数据，以优化所述词表，其中，所述词表为以字符为单位训练生成的词表。

结合第二方面的第三种可选的实施例，在第四种可选的实施例中，所述训练数据为问答对。

结合第二方面的第四种可选的实施例，在第五种可选的实施例中，在所述对所述训练数据以字符为单位进行划分后，还包括：按预设规则从划分后的所述训练数据中筛选出有效字符组；所述对划分后的所述训练数据逐字符进行维度转化，包括：对所述有效字符组逐字符进行维度转化。

结合第二方面或第二方面的第一至五种可选的实施例中的任意一种可选的实施例，在第六种可选的实施例中，所述深度学习模型为长短时记忆模型。

第三方面，本发明实施例提供一种输出回复信息的装置，包括：

第一获取模块，用于获取待回复信息；

第一降维模块，用于对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得低维信息；

计算模块，用于采用深度学习模型计算所述低维信息，以生成回复信息。

结合第三方面，在第一种可选的实施例中，所述第一降维模块还用于：通过嵌入层对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得所述低维信息，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；所述第一降维模块还用于：将所述低维信息输入所述隐藏层；所述计算模块还用于：采用深度学习模型在所述隐藏层计算所述低维信息。

结合第三方面，在第二种可选的实施例中，所述第一降维模块还用于：将所述待回复信息转换为用向量表示的输入向量；降低所述输入向量的向量维度，以获得所述低维信息。

结合第三方面，在第三种可选的实施例中，所述装置还包括：划分模块，用于对所述待回复信息以字符为单位进行划分；所述第一降维模块还用于：对划分后的所述待回复信息逐字符进行维度转化；所述计算模块还用于：基于所述深度学习模型中的词表，逐字符计算所述低维信息，以生成回复信息，其中，所述词表为以字符为单位训练生成的词表。

结合第三方面的第三种可选的实施例，在第四种可选的实施例中，所述词表是以问答对为训练样本，将所述问答对以字符为单位拆分后逐字符训练生成的词表。

结合第三方面的第四种可选的实施例，在第五种可选的实施例中，所述词表为将所述问答对以字符为单位拆分，按预设规则筛选出有效字符组后，对所述有效字符组逐字符训练生成的词表。

结合第三方面的第三种可选的实施例，在第六种可选的实施例中，所述计算模块还用于：按倒序的顺序逐字符计算所述低维信息。

结合第三方面或第三方面的第一至六种可选的实施例中的任意一种可选的实施例，在第七种可选的实施例中，所述计算模块还用于：当需要执行指数运算时，在预设的指数表中查表确定所述指数运算的结果，其中，所述指数表包括指数数值范围与计算结果的映射关系。

结合第三方面或第三方面的第一至六种可选的实施例中的任意一种可选的实施例，在第八种可选的实施例中，所述计算模块还用于：当需要进行运算时，采用矩阵向量运算库优化矩阵和向量运算。

结合第三方面或第三方面的第一至六种可选的实施例中的任意一种可选的实施例，在第九种可选的实施例中，所述装置为客户端。

结合第三方面或第三方面的第一至六种可选的实施例中的任意一种可选的实施例，在第十种可选的实施例中，所述深度学习模型为长短时记忆模型。

第四方面，本发明实施例提供一种深度学习模型的训练装置，包括：

第二获取模块，用于获取训练数据；

第二降维模块，用于对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得低维数据；

训练模块，用于采用深度学习模型训练所述低维数据，以优化所述深度学习模型。

结合第四方面，在第一种可选的实施例中，所述第二降维模块还用于：通过嵌入层对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得所述低维数据，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；所述第二降维模块还用于：将所述低维数据输入所述隐藏层；所述训练模块还用于：采用深度学习模型在所述隐藏层训练所述低维信息。

结合第四方面，在第二种可选的实施例中，所述训练模块还用于：将所述训练数据转换为用向量表示的输入向量；降低所述输入向量的向量维度，获得所述低维数据。

结合第四方面，在第三种可选的实施例中，所述装置还包括：划分模块，用于对所述训练数据以字符为单位进行划分；所述第二降维模块还用于：对划分后的所述训练数据逐字符进行维度转化；所述训练模块还用于：基于所述深度学习模型中的词表，逐字符训练所述低维数据，以优化所述词表，其中，所述词表为以字符为单位训练生成的词表。

结合第四方面的第三种可选的实施例，在第四种可选的实施例中，所述训练数据为问答对。

结合第四方面的第四种可选的实施例，在第五种可选的实施例中，所述划分模块还用于：按预设规则从划分后的所述训练数据中筛选出有效字符组；所述降维模块还用于：对所述有效字符组逐字符进行维度转化。

结合第四方面或第四方面的第一至五种可选的实施例中的任意一种可选的实施例，在第六种可选的实施例中，所述深度学习模型为长短时记忆模型。

第五方面，本发明实施例提供一种设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待回复信息；

采用深度学习模型计算所述低维信息，以生成回复信息。

结合第五方面，在第一种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：通过嵌入层对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得所述低维信息，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；将所述低维信息输入所述隐藏层；采用深度学习模型在所述隐藏层计算所述低维信息。

结合第五方面，在第二种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：将所述待回复信息转换为用向量表示的输入向量；降低所述输入向量的向量维度，以获得所述低维信息。

结合第五方面，在第三种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：对所述待回复信息以字符为单位进行划分；对划分后的所述待回复信息逐字符进行维度转化；基于所述深度学习模型中的词表，逐字符计算所述低维信息，以生成回复信息，其中，所述词表为以字符为单位训练生成的词表。

结合第五方面的第三种可选的实施例，在第四种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：所述词表是以问答对为训练样本，将所述问答对以字符为单位拆分后逐字符训练生成的词表。

结合第五方面的第四种可选的实施例，在第五种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：所述词表为将所述问答对以字符为单位拆分，按预设规则筛选出有效字符组后，对所述有效字符组逐字符训练生成的词表。

结合第五方面的第三种可选的实施例，在第六种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：按倒序的顺序逐字符计算所述低维信息。

结合第五方面或第五方面的第一至六种可选的实施例中的任意一种可选的实施例，在第七种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：当需要执行指数运算时，在预设的指数表中查表确定所述指数运算的结果，其中，所述指数表包括指数数值范围与计算结果的映射关系。

结合第五方面或第五方面的第一至六种可选的实施例中的任意一种可选的实施例，在第八种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：当需要进行运算时，采用矩阵向量运算库优化矩阵和向量运算。

结合第五方面或第五方面的第一至六种可选的实施例中的任意一种可选的实施例，在第九种可选的实施例中，所述设备为客户端。

结合第五方面或第五方面的第一至六种可选的实施例中的任意一种可选的实施例，在第十种可选的实施例中，所述深度学习模型为长短时记忆模型。

第六方面，本发明实施例提供一种设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取训练数据；

结合第六方面，在第一种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：通过嵌入层对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得所述低维数据，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；将所述低维数据输入所述隐藏层；采用深度学习模型在所述隐藏层训练所述低维信息。

结合第六方面，在第二种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：将所述训练数据转换为用向量表示的输入向量；降低所述输入向量的向量维度，获得所述低维数据。

结合第六方面，在第三种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：对所述训练数据以字符为单位进行划分；对划分后的所述训练数据逐字符进行维度转化；基于所述深度学习模型中的词表，逐字符训练所述低维数据，以优化所述词表，其中，所述词表为以字符为单位训练生成的词表。

结合第六方面的第三种可选的实施例，在第四种可选的实施例中，所述训练数据为问答对。

结合第六方面的第四种可选的实施例，在第五种可选的实施例中，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：按预设规则从划分后的所述训练数据中筛选出有效字符组；对所述有效字符组逐字符进行维度转化。

结合第六方面或第六方面的第一至五种可选的实施例中的任意一种可选的实施例，在第六种可选的实施例中，所述深度学习模型为长短时记忆模型。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本申请实施例提供的方法及装置，在获取待回复信息后，先对所述待回复信息进行降维处理，再采用深度学习模型计算降维后的低维信息，来生成回复信息，即通过降低待回复信息的维度来减少需计算的模型参数的大小，从而减少模型参数占用的内存空间和模型计算量，以降低深度学习模型对硬件的要求，另外，模型计算量的减少还能提高计算速度，从而提高实时性，使其能适用于客户端。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中输出回复信息的方法流程图；

图2为本发明实施例中按字符计算输出回复信息的方法流程图；

图3为本发明实施例中深度学习模型的训练方法流程图；

图4为本发明实施例中按字符训练模型的方法流程图；

图5为本发明实施例中输出回复信息的装置的结构示意图；

图6为本发明实施例中深度学习模型的训练装置的结构示意图；

图7为本发明实施例中用于输出回复信息或深度学习模型的训练的电子设备800的框图；

图8本发明实施例中服务器的结构示意图。

具体实施方式

本申请实施例提供一种输出回复信息的方法、深度学习模型的训练方法及装置，用于解决现有技术中的深度学习模型，存在的参数复杂、计算量大的技术问题。实现了减少模型参数占用的内存空间和模型计算量，从而降低深度学习模型对硬件的要求的技术效果。

本申请实施例中的技术方案，总体思路如下：

在获取待回复信息后，先对所述待回复信息进行降维处理，再采用深度学习模型计算降维后的低维信息，来生成回复信息，即通过降低待回复信息的维度来减少需计算的模型参数的大小，从而减少模型参数占用的内存空间和模型计算量，以降低深度学习模型对硬件的要求，另外，模型计算量的减少还能提高计算速度，从而提高实时性，使其能适用于客户端。

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

实施例一

本实施例提供了一种输出回复信息的方法，如图1所示，所述方法包括：

步骤S101，获取待回复信息；

步骤S102，对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得低维信息；

步骤S103，采用深度学习模型，计算所述低维信息，以生成回复信息。

在具体实施过程中，由于所述方法可以减少深度学***板电脑、笔记本电脑、一体机或台式机等等，在此不作限制，也不再一一列举。

下面，结合图1对本实施例提供的方法的具体实现步骤进行详细说明。

首先，执行步骤S101，获取待回复信息。

在本申请实施例中，所述待回复信息可以是文字信息，也可以是语音信息或图片信息，在此不作限制。

在具体实施过程中，如果所述待回复信息为语音信息，可以直接基于所述语音信息执行后续步骤，也可以先对所述语音信息进行语音分析以转换为文字信息后，再执行后续步骤；如果所述待回复信息为图片信息，可以直接基于所述图片信息执行后续步骤，也可以先对所述图片信息进行图像分析以提取出文字信息后，再执行后续步骤。

在本申请实施例中，所述待回复信息的获取方法也可以有多种，下面列举两种为例：

第一种，通过通讯软件获取。

即电子设备通过通讯软件接收到所述待回复信息，具体可以是通过短信、微信、语音或文字聊天软件等方式获取。

第二种，通过输入法软件获取。

即电子设备通过自带的输入法软件来获取用户输入的所述待回复信息，例如，获取用户通过输入法软件输入的文字和符号等信息作为所述待回复信息。

在获取了所述待回复信息后，执行步骤S102，对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得低维信息。

在本申请实施例中，对所述待回复信息进行维度转化可以是在模型的建立阶段预先添加设置用于维度转化的嵌入层，通过在所述嵌入层中对所述待回复信息进行维度转化，来降低所述待回复信息的向量维度，获得低维信息，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间。

具体来讲，深度学习模型包括有多个神经元“层”，即输入层、隐藏层及输出层。输入层负责接收输入信息并分发到隐藏层，隐藏层负责计算及输出结果给输出层。一般隐藏层的参数大小和隐藏层的输入向量的维度大小有关，当隐藏层的输入向量的维度经过嵌入层变小以后，隐藏层的参数设置就可以变得更小。假如没有嵌入层，输入向量维度是4000，隐藏层大约需要设置500节点数，才能获得比较好的结果，而增加了嵌入层后，将输入向量维度由4000变成了100，隐藏层大约只需要50个节点就可以得到不错的结果。即通过设置嵌入层对所述待回复信息进行降维，能减少隐藏层所需节点数，使得深度学习模型的运行速度大大提升，减少模型运行的资源消耗。

在本申请实施例中，对所述待回复信息进行维度转化，需要先将所述待回复信息转换为用向量表示的输入向量，再降低所述输入向量的向量维度，以获得所述低维信息。

具体来讲，将所述待回复信息转换为用向量表示的输入向量的方法可以有多种：可以从预先设置的信息与向量的对应表格中，查找获取与所述待回复信息对应的输入向量，从而将所述待回复信息转换为用向量表示的输入向量；还可以通过向量空间模型来将所述待回复信息转换为用向量表示的输入向量，在此不作限制。

降低所述输入向量的向量维度的方法也可以有多种：可以采用与降维矩阵相乘的方法来降低所述输入向量的向量维度，以获得所述低维信息；还可以采用主成分分析算法等降维算法来降低所述输入向量的向量维度，在此也不作限制。

举例来说，假如深度学习算法训练出的词表中有：我、们、他、去、吃、饭等共4000个汉字，为了区分词表中的信息，需要保证词表中各个汉字对应的向量不出现重复，故需要预设每个汉字对应的向量至少为4000维，例如，“我”对应向量为4000维的(1,0,0,0,0,0,….,0)，“们”对应的向量为4000维的(0,1,0,0,0,0,….,0)等。则当输入的所述待回复信息是“我去吃饭”的时候，“我”用向量表示可以是(1,0,0,0,0,0,….,0)，“去”用向量表示可以是(0,0,0,1,0,0,….,0)，“吃”用向量表示可以是(0,0,0,0,1,0,….,0)，“饭”用向量表示可以是(0,0,0,0,0,1,….,0)。“我去吃饭”对应的就是上述四个向量作为输入，但是这四个向量维度太高了，每个向量是4000维，导致向量形式的待回复信息较大，计算该待回复信息时需消耗的资源多，计算速度慢，故为了提高计算及预测的效率，通过嵌入层做维度变换，将四个向量变成维度更低(如100维)的向量，假设降维成：我(0.81，0.0003，0.2897,….,0)，去(0.01，0.98，0.05,….,0),吃(0.01，0.05，0.97,….,0),饭(0.01，0.3，0.65,….,0)，通过降维减小向量形式的待回复信息的大小，从而减少计算该待回复信息时需消耗的资源，进而提高隐藏层的计算效率。

在通过步骤S102对所述待回复信息进行降维，获得低维信息之后，将所述低维信息输入所述隐藏层，以在所述隐藏层计算所述低维信息，即执行步骤S103，采用深度学习模型，计算所述低维信息，以生成回复信息。

在本申请实施例中，所述深度学习模型可以是序列到序列(Seq2seq)模型，例如，长短时记忆模型(Long Short-Term Memory，LSTM)；也可以是循环神经网络(RecurrentNeural Networks，RNN)等，在此不作限制。

需要说明的是，为了保证所述深度学习模型的输出效果，需要预先对所述深度学习模型进行大量的数据训练，以优化模型的词表，具体的训练方法在实施例二中再作详细说明，在此不作累述。

在本申请实施例中，为了进一步降低所述深度学习模型的复杂度，还可以以字符为单位构建所述深度学习模型的词表，并以字符为单位对所述待回复信息进行计算，具体如图2所示：

首先，通过步骤S101获取待回复信息；

然后，执行步骤S201，即对所述待回复信息以字符为单位进行划分；

接下来，对所述待回复信息进行维度转化，具体为：步骤S202，即对划分后的所述待回复信息逐字符进行维度转化；

再下来，计算所述低维信息，以生成回复信息，具体为：步骤S203，即基于所述深度学习模型中的词表，逐字符计算所述低维信息，以生成回复信息，其中，所述词表为以字符为单位训练生成的词表。

具体来讲，现有的深度学习模型一般是通过将训练数据分词来构建词表，一方面词的数量会比较大，故需要构建的词表规模比较大，另一方面需要同时有分词工具才能运行模型，这样会增大模型运行装置的资源开销，不适于放到客户端实现。字符是指计算机中使用的单独的字母、数字、字和符号，例如，“我”、“？”、“2”和“A”等。以字符作为单位构建深度学习模型的词表，可以减少词表的大小，因为常用汉字的数量(一般是几千的规模)相对于词语的数量(一般是几万的规模)是非常少的，减少词表的大小对提高深度学习模型的运行速度和减少资源消耗量非常有用，且按字符划分不需要设置专用的分词工具，利于进一步减少***开销。

例如，当获得的所述待回复信息为“要不要出去吃饭？”时，将所述待回复信息拆分为“要”、“不”、“要”、“出”、“去”、“吃”、“饭”和“？”8个字符，将所述8个字符用向量表示，并进行降维后，再将该8个字符对应的降维后的8个低维向量依次通过深度学习模型进行计算，以生成回复信息。

进一步，所述深度学习模型的词表是以问答对为训练样本，将所述问答对以字符为单位拆分后逐字符训练生成的词表。

进一步，为了增加所述词表的使用效果和减少所述词表的大小，在将所述问答对以字符为单位拆分后，可以按预设规则从拆分后的字符中筛选出高频或重要的有效字符组后，再对所述有效字符组逐字符进行训练来生成的词表。

在本申请实施例中，为了提高模型效果，步骤S103中可以按倒序的顺序逐字符计算所述低维信息。具体来讲，深度学习模型与人的记忆力类似，记忆力是有限的，比如做阅读理解题，通常从头到尾看文章，然后再做题目，但是这个时候文章开头的一些重要的东西会因为时间太长记不清，但是如果倒着看，先看最后一段，最后再看第一段，那么段落开头的东西印象会更深刻一些。这样做题的时候，有些重点信息记得就更清楚，更容易把握重点。深度学习模型按倒序进行计算的思路与此类似，能便于计算时更侧重靠后输入的信息，从而把握住带回复信息前侧的重点信息。

例如，当获得的所述待回复信息为“要不要出去吃饭？”时，将所述待回复信息拆分为“要”、“不”、“要”、“出”、“去”、“吃”、“饭”和“？”8个字符，将所述8个字符用向量表示，并进行降维后，再将该8个字符对应的降维后的8个低维向量倒序输入深度学习模型进行计算，即按照“？”对应低维向量、“饭”对应低维向量、“吃”对应低维向量、“去”对应低维向量、“出”对应低维向量、“要”对应低维向量、“不”对应低维向量、“要”对应低维向量的顺序输入深度学习模型进行计算，以生成回复信息。

在本申请实施例中，考虑到在运行深度学习模型的过程中会涉及到指数的运算，如(e^-x)，而计算这类运算是非常耗时的，为了提高运算的效率，可以在需要执行指数运算时，基于预设的指数表确定所述指数运算的结果，其中，所述指数表包括指数数值范围与计算结果的映射关系。

例如：预先将(e^-x)中x的有效范围进行划分，如果x大于10，可以认为(e^-x)＝0，并将x的范围在[0,10]这个区间等分成100000份区间，预先将这100000份区间的边界值对应的(e^-x)计算出来，按x范围与边界值的映射关系制作成所述指数表，再后续运行模型的过程中，要计算(e^-x)的时候，按照x属于的区间范围，在所述指数表中进行查找，确定出x所属的区间范围，以该区间范围预先计算好的边界值近似作为(e^-x)的结果，而不用作指数计算，从而进一步提高模型运行速度，减少资源消耗。

在本申请实施例中，考虑到在运行深度学习模型的过程中还会涉及到矩阵和向量的运算，而计算机计算这类运算也很耗时，为了提高运算的效率，当需要进行运算时，采用矩阵向量运算库，如，基于c++的Eigen库或基于C的Meschach库，来优化矩阵和向量运算，从而进一步提高模型运行速度，减少资源消耗。

在通过步骤S103生成回复信息后，可以输出所述回复信息。

在具体实施过程中，输出所述回复信息的方式可以有多种，例如，可以在装置的显示单元上显示出所述回复信息，还可以通过语音输出单元用语音信号方式输出所述回复信息，还可以通过网络传输单元将所述回复信息发送至所述待回复信息的发出端，在此不作限制，也不再一一列举。

进一步，根据所述待回复信息计算出的所述回复信息可以为一条或多条，当所述回复信息为多条时，可以在显示单元上显示出多条回复信息以供用户选择，当接收到用户的选择操作后，再将用户选择的那条回复信息输出。

例如，用户通过短信收到待回复信息：“为什么啊？”，输入法获取用户收到的短信内容，通过本申请提供的方法生成回复信息：“不为什么”，“没有为什么”，“不为啥”等，并将回复信息展现在输入法候选区域，供用户选择。当用户选择了“不为什么”后，将“不为什么”以短信形式返回给待回复信息的发送端。

具体来讲，本申请引入嵌入层来进行降维，使得在隐藏层只需要设置比较小的参数，例如，设置较少的节点数，即可实现一个简单高效的深度学习模型，故最终的模型参数会比一般的深度学习模型小几十甚至上百倍，从而保证模型参数占用的存储空间会比正常的深度学习模型小几十倍甚至上百倍，进而能够实现将模型参数随输入法安装包下发到手机等客户端中，并且保证了模型占用客户端的内存和存储空间均会非常少。

进一步，由于嵌入层的降维转化使隐藏层参数变小，导致神经网络中的矩阵运算维度变小，计算量大幅度减少；同时由于采用按字符训练词表和按字符计算待回复信息，使得深度学习模型的词表规模非常小，使最终生成回复信息的过程变快，从而保证了模型可以在计算能力较低的手机等客户端CPU上运行。

同时，通过查表确定指数运算结果和引入高效的矩阵向量运算库等方式，对深度学习模型加速，从而提高模型的运行速度，减少资源消耗。使原本复杂的深度学习模型可以运行在手机等客户端，并占用极少的资源。另一方面，相对于云端服务器的实现模式，也能起到保用户隐私的作用。

基于同一发明构思，本申请还提供了实施例一的输出回复信息的方法对应的深度学习模型的训练方法，详见实施例二。

实施例二

本实施例提供了一种深度学习模型的训练方法，如图3所示，该方法包括：

步骤S301，获取训练数据；

步骤S302，对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得低维数据；

步骤S303，采用深度学习模型，训练所述低维数据，以优化所述深度学习模型。

如实施例一中所述，为了保证所述深度学习模型的输出效果，需要预先对所述深度学习模型进行大量的数据训练，以优化模型的词表。

下面，结合图3对所述训练方法作详细说明。

首先，执行步骤S301，获取训练数据。

在具体实施过程中，考虑到深度学习模型用于智能回复，为了提高生成的回复信息的准确度，所述训练数据为预先收集的问答数据，具体可以为从各种数据来源中抽取出的高质量问答数据。其中，所述高质量问答数据的抽取方式可以采取人工浏览标注或高频统计等方式确定。

进一步，为了便于后续训练，还可以统计所述高质量问答数据中的问题和对应的答案，形成问答对，以所述问答对作为后续训练的数据。

然后，执行步骤S302，对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得低维数据。

在本申请实施例中，可以通过嵌入层对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得所述低维数据，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间。

在本申请实施例中，对所述训练数据进行维度转化的方法包括：先将所述训练数据转换为用向量表示的输入向量，再采用降维算法降低所述输入向量的向量维度，获得所述低维数据。

具体来讲，对所述训练数据进行维度转化的原理和方法与实施例一中对所述待回复信息进行维度转化的原理和方法类似，在此不作累述。

在对所述训练数据进行维度转化之后，将所述低维数据输入所述隐藏层，以在所述隐藏层训练所述低维数据。即执行步骤S303，采用深度学习模型，训练所述低维数据，以优化所述深度学习模型。

在本申请实施例中，为了进一步降低所述深度学习模型的复杂度，还设置以字符为单位构建所述深度学习模型的词表，具体如图4所示：

首先，通过步骤S301获取训练数据

然后，执行步骤S401，即对所述训练数据以字符为单位进行划分；

接下来，对所述训练数据进行维度转化，具体为：步骤S402，即对划分后的所述训练数据逐字符进行维度转化；

再下来，训练所述低维信息，以优化所述深度学习模型，具体为：步骤S403，即基于所述深度学习模型中的词表，逐字符训练所述低维数据，以优化所述词表，其中，所述词表为以字符为单位训练生成的词表。

进一步，为了增加所述词表的使用效果和减少所述词表的大小，在将所述训练数据以字符为单位划分后，可以按预设规则从划分后的字符中筛选出高频或重要的有效字符组，再对所述有效字符组逐字符进行维度转化和训练来生成的词表。

具体来讲，筛选出所述有效字符组的方法可以是人工标注和/或高频筛选，以筛选出有区分意义及常用的字符保留在所述有效字符组中，例如，在问句中，对于回答问题比较重要的字会保留，而在答句中，对于表达答案的重要的字会保留，类似人名中的不常用汉字等可以过滤掉。

例如，训练数据的问答对为，问：“王小川吃饭了吗？”，答：“他吃过了”。问句中，可以通过人工标注将“吃、饭、了、吗”这些字保留在有效字符组中，而“川”不常见则可以不保留，“王、小”可以参考其他训练数据中该字符的出现频率来决定是否保留。答句中，“他、吃、过、了”均比较常见，可以都保留。

具体来讲，本申请训练深度学习模型时，引入嵌入层来进行降维，使得在隐藏层只需要设置比较小的参数，即可实现一个简单高效的深度学习模型，故最终的模型参数会比一般的深度学习模型小几十甚至上百倍，从而保证模型参数占用的存储空间会比正常的深度学习模型小几十倍甚至上百倍，进而能够实现将模型参数随输入法安装包下发到手机等客户端中，并且保证了模型占用客户端的内存和存储空间均会非常少。

进一步，由于嵌入层的降维转化使隐藏层参数变小，导致神经网络中的矩阵运算维度变小，计算量大幅度减少；同时由于采用按字符训练生成词表，使得深度学习模型的词表规模非常小，使最终生成回复信息的过程变快，一方面，保证了模型可以在计算能力较低的手机等客户端CPU上运行，另一方面，使模型可以较好地应用于实时性要求比较高的场合。

基于同一发明构思，本申请还提供了实施例一的输出回复信息的方法对应的装置，详见实施例三。

实施例三

本实施例提供一种输出回复信息的装置，如图5所示，该装置包括：

第一获取模块501，用于获取待回复信息；

第一降维模块502，用于对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得低维信息；

计算模块503，用于采用深度学习模型计算所述低维信息，以生成回复信息。

可选的，所述第一降维模块502还用于：通过嵌入层对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得所述低维信息，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；

所述第一降维模块502还用于：将所述低维信息输入所述隐藏层；

所述计算模块503还用于：采用深度学习模型在所述隐藏层计算所述低维信息。

可选的，所述第一降维模块502还用于：

将所述待回复信息转换为用向量表示的输入向量；

降低所述输入向量的向量维度，以获得所述低维信息。

可选的，所述装置还包括：

划分模块，用于对所述待回复信息以字符为单位进行划分；

所述第一降维模块502还用于：对划分后的所述待回复信息逐字符进行维度转化；

所述计算模块503还用于：基于所述深度学习模型中的词表，逐字符计算所述低维信息，以生成回复信息，其中，所述词表为以字符为单位训练生成的词表。

可选的，所述词表是以问答对为训练样本，将所述问答对以字符为单位拆分后逐字符训练生成的词表。

可选的，所述词表为将所述问答对以字符为单位拆分，按预设规则筛选出有效字符组后，对所述有效字符组逐字符训练生成的词表。

可选的，所述计算模块503还用于：按倒序的顺序逐字符计算所述低维信息。

可选的，所述计算模块503还用于：

当需要执行指数运算时，在预设的指数表中查表确定所述指数运算的结果，其中，所述指数表包括指数数值范围与计算结果的映射关系。

可选的，所述计算模块503还用于：

当需要进行运算时，采用矩阵向量运算库优化矩阵和向量运算。

可选的，所述装置为客户端。

可选的，所述深度学习模型为长短时记忆模型。

由于本发明实施例三所介绍的装置，为实施本发明实施例一的输出回复信息的方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思，本申请还提供了实施例二的深度学习模型的训练方法对应的装置，详见实施例四。

实施例四

本实施例提供一种深度学习模型的训练装置，如图6所示，该装置包括：

第二获取模块601，用于获取训练数据；

第二降维模块602，用于对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得低维数据；

训练模块603，用于采用深度学习模型训练所述低维数据，以优化所述深度学习模型。

可选的，所述第二降维模块602还用于：通过嵌入层对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得所述低维数据，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；

所述第二降维模块602还用于：将所述低维数据输入所述隐藏层；

所述训练模块603还用于：采用深度学习模型在所述隐藏层训练所述低维信息。

可选的，所述训练模块603还用于：

将所述训练数据转换为用向量表示的输入向量；

降低所述输入向量的向量维度，获得所述低维数据。

可选的，所述装置还包括：

划分模块，用于对所述训练数据以字符为单位进行划分；

所述第二降维模块602还用于：对划分后的所述训练数据逐字符进行维度转化；

所述训练模块603还用于：基于所述深度学习模型中的词表，逐字符训练所述低维数据，以优化所述词表，其中，所述词表为以字符为单位训练生成的词表。

可选的，所述训练数据为问答对。

可选的，所述划分模块还用于：按预设规则从划分后的所述训练数据中筛选出有效字符组；

所述第二降维模块602还用于：对所述有效字符组逐字符进行维度转化。

可选的，所述深度学习模型为长短时记忆模型。

由于本发明实施例四所介绍的装置，为实施本发明实施例二的深度学习模型的训练方法所采用的装置，故而基于本发明实施例二所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例二的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思，本申请还提供了实施例一的方法对应的设备，详见实施例五。

实施例五

本实施例中，提供一种设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待回复信息；

采用深度学习模型计算所述低维信息，以生成回复信息。

在具体实施过程中，所述设备可以是终端设备，也可以是服务器。

可选的，所述设备还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

通过嵌入层对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得所述低维信息，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；

将所述低维信息输入所述隐藏层；

采用深度学习模型在所述隐藏层计算所述低维信息。

将所述待回复信息转换为用向量表示的输入向量；

降低所述输入向量的向量维度，以获得所述低维信息。

对所述待回复信息以字符为单位进行划分；

对划分后的所述待回复信息逐字符进行维度转化；

基于所述深度学习模型中的词表，逐字符计算所述低维信息，以生成回复信息，其中，所述词表为以字符为单位训练生成的词表。

所述词表是以问答对为训练样本，将所述问答对以字符为单位拆分后逐字符训练生成的词表。

所述词表为将所述问答对以字符为单位拆分，按预设规则筛选出有效字符组后，对所述有效字符组逐字符训练生成的词表。

按倒序的顺序逐字符计算所述低维信息。

可选的，所述设备为客户端。

可选的，所述深度学习模型为长短时记忆模型。

由于本发明实施例五所介绍的设备，为实施本发明实施例一的输出回复信息的方法所采用的设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该设备的具体结构及变形，故而在此不再赘述。

基于同一发明构思，本申请还提供了实施例二的深度学习模型的训练方法对应的设备，详见实施例六。

实施例六

在本实施例中，提供一种设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取训练数据；

通过嵌入层对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得所述低维数据，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；

将所述低维数据输入所述隐藏层；

采用深度学习模型在所述隐藏层训练所述低维信息。

将所述训练数据转换为用向量表示的输入向量；

降低所述输入向量的向量维度，获得所述低维数据。

对所述训练数据以字符为单位进行划分；

对划分后的所述训练数据逐字符进行维度转化；

基于所述深度学习模型中的词表，逐字符训练所述低维数据，以优化所述词表，其中，所述词表为以字符为单位训练生成的词表。

可选的，所述训练数据为问答对。

按预设规则从划分后的所述训练数据中筛选出有效字符组；

对所述有效字符组逐字符进行维度转化。

可选的，所述深度学习模型为长短时记忆模型。

由于本发明实施例六所介绍的设备，为实施本发明实施例二的深度学习模型的训练方法所采用的设备，故而基于本发明实施例二所介绍的方法，本领域所属人员能够了解该设备的具体结构及变形，故而在此不再赘述。关于上述实施例中的装置和设备，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于输出回复信息或深度学***板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种输出回复信息的方法，包括：

获取待回复信息；

采用深度学习模型计算所述低维信息，以生成回复信息。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：通过嵌入层对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得所述低维信息，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；将所述低维信息输入所述隐藏层；采用深度学习模型在所述隐藏层计算所述低维信息。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：将所述待回复信息转换为用向量表示的输入向量；降低所述输入向量的向量维度，以获得所述低维信息。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：对所述待回复信息以字符为单位进行划分；对划分后的所述待回复信息逐字符进行维度转化；基于所述深度学习模型中的词表，逐字符计算所述低维信息，以生成回复信息，其中，所述词表为以字符为单位训练生成的词表。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：所述词表是以问答对为训练样本，将所述问答对以字符为单位拆分后逐字符训练生成的词表。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：所述词表为将所述问答对以字符为单位拆分，按预设规则筛选出有效字符组后，对所述有效字符组逐字符训练生成的词表。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：按倒序的顺序逐字符计算所述低维信息。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：当需要执行指数运算时，在预设的指数表中查表确定所述指数运算的结果，其中，所述指数表包括指数数值范围与计算结果的映射关系。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：当需要进行运算时，采用矩阵向量运算库优化矩阵和向量运算。

可选的，所述设备为客户端。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：所述深度学习模型为长短时记忆模型。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种深度学习模型的训练方法，包括：

获取训练数据；

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：通过嵌入层对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得所述低维数据，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；将所述低维数据输入所述隐藏层；采用深度学习模型在所述隐藏层训练所述低维信息。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：将所述训练数据转换为用向量表示的输入向量；降低所述输入向量的向量维度，获得所述低维数据。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：对所述训练数据以字符为单位进行划分；对划分后的所述训练数据逐字符进行维度转化；基于所述深度学习模型中的词表，逐字符训练所述低维数据，以优化所述词表，其中，所述词表为以字符为单位训练生成的词表。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：所述训练数据为问答对。

可选的，所述可读存储介质还经配置以由所述处理器执行进行以下操作的指令：按预设规则从划分后的所述训练数据中筛选出有效字符组；对所述有效字符组逐字符进行维度转化。

图8是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作***1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

本申请实施例提供的方法及装置，在获取待回复信息后，先对所述待回复信息进行降维处理，再采用深度学习模型计算降维后的所述低维信息，来生成回复信息，即通过减少待回复信息的维度来减少需计算的模型参数的大小，从而减少模型参数占用的内存空间和模型计算量，以降低深度学习模型对硬件的要求，使其能适用于客户端。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种输出回复信息的方法，其特征在于，包括：

获取待回复信息；

采用深度学习模型计算所述低维信息，以生成回复信息。

2.如权利要求1所述的方法，其特征在于，所述对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得低维信息，包括：通过嵌入层对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得所述低维信息，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；

在所述获得低维信息之后，还包括：将所述低维信息输入所述隐藏层；

所述采用深度学习模型计算所述低维信息，包括：采用深度学习模型在所述隐藏层计算所述低维信息。

3.如权利要求1所述的方法，其特征在于，所述对所述待回复信息进行维度转化，以降低所述待回复信息的向量维度，获得低维信息，包括：

将所述待回复信息转换为用向量表示的输入向量；

降低所述输入向量的向量维度，以获得所述低维信息。

4.如权利要求1所述的方法，其特征在于，

在所述对所述待回复信息进行维度转化之前，还包括：对所述待回复信息以字符为单位进行划分；

所述对所述待回复信息进行维度转化，包括：对划分后的所述待回复信息逐字符进行维度转化；

所述采用深度学习模型计算所述低维信息，以生成回复信息，包括：基于所述深度学习模型中的词表，逐字符计算所述低维信息，以生成回复信息，其中，所述词表为以字符为单位训练生成的词表。

5.如权利要求4所述的方法，其特征在于，所述词表是以问答对为训练样本，将所述问答对以字符为单位拆分后逐字符训练生成的词表。

6.如权利要求5所述的方法，其特征在于，所述词表为将所述问答对以字符为单位拆分，按预设规则筛选出有效字符组后，对所述有效字符组逐字符训练生成的词表。

7.如权利要求4所述的方法，其特征在于，所述逐字符计算所述低维信息，包括：

按倒序的顺序逐字符计算所述低维信息。

8.如权利要求1-7任一所述的方法，其特征在于，包括：

9.如权利要求1-7任一所述的方法，其特征在于，包括：

10.如权利要求1-7任一所述的方法，其特征在于，所述方法应用于客户端。

11.如权利要求1-7任一所述的方法，其特征在于，所述深度学习模型为长短时记忆模型。

12.一种深度学习模型的训练方法，其特征在于，包括：

获取训练数据；

13.如权利要求12所述的方法，其特征在于，所述对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得低维数据，包括：通过嵌入层对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得所述低维数据，其中，所述嵌入层位于所述深度学习模型的输入层与隐藏层之间；

在所述获得低维数据之后，还包括：将所述低维数据输入所述隐藏层；

所述采用深度学习模型训练所述低维信息，包括：采用深度学习模型在所述隐藏层训练所述低维信息。

14.如权利要求12所述的方法，其特征在于，所述对所述训练数据进行维度转化，以降低所述训练数据的向量维度，获得低维数据，包括：

将所述训练数据转换为用向量表示的输入向量；

降低所述输入向量的向量维度，获得所述低维数据。

15.如权利要求12所述的方法，其特征在于，

在所述对所述训练数据进行维度转化之前，还包括：对所述训练数据以字符为单位进行划分；

所述对所述训练数据进行维度转化，包括：对划分后的所述训练数据逐字符进行维度转化；

所述采用深度学习模型，训练所述低维数据，以优化所述深度学习模型，包括：基于所述深度学习模型中的词表，逐字符训练所述低维数据，以优化所述词表，其中，所述词表为以字符为单位训练生成的词表。

16.如权利要求15所述的方法，其特征在于，所述训练数据为问答对。

17.如权利要求16所述的方法，其特征在于，

在所述对所述训练数据以字符为单位进行划分后，还包括：按预设规则从划分后的所述训练数据中筛选出有效字符组；

所述对划分后的所述训练数据逐字符进行维度转化，包括：对所述有效字符组逐字符进行维度转化。

18.如权利要求12-17任一所述的方法，其特征在于，所述深度学习模型为长短时记忆模型。

19.一种输出回复信息的装置，其特征在于，包括：

第一获取模块，用于获取待回复信息；

20.一种深度学习模型的训练装置，其特征在于，包括：

第二获取模块，用于获取训练数据；

21.一种设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取待回复信息；

采用深度学习模型计算所述低维信息，以生成回复信息。

22.一种设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取训练数据；