CN110751285B

CN110751285B - 神经网络模型的训练方法和以及预测方法和

Info

Publication number: CN110751285B
Application number: CN201910618164.3A
Authority: CN
Inventors: 罗远飞; 涂威威; 曹睿; 陈雨强
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2018-07-23
Filing date: 2019-07-10
Publication date: 2024-01-23
Anticipated expiration: 2039-07-10
Also published as: CN110751285A

Abstract

提供了一种神经网络模型的训练方法和***以及预测方法和***。所述训练方法包括：获取训练数据记录；基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及基于训练样本来训练所述神经网络模型，其中，所述神经网络模型包括一个或更多个嵌入层、一个或更多个底层神经网络结构、以及上层神经网络结构。

Description

神经网络模型的训练方法和***以及预测方法和***

技术领域

本申请要求申请号为201810811559.0，申请日为2018年7月23日，名称为“神经网络模型的训练方法和***以及预测方法和***”的中国专利申请的优先权。本申请涉及深度学习，更具体地讲，涉及深度学习中的神经网络模型的训练方法和训练***以及预测方法和预测***。

背景技术

随着海量数据的出现，人工智能技术迅速发展。机器学习(包括深度学习)等是人工智能发展到一定阶段的必然产物，其致力于通过计算的手段，从大量数据中挖掘有价值的潜在信息。

例如，在深度学习领域所常使用的神经网络模型中，通常是通过将训练数据记录提供给神经网络模型来训练该神经网络模型以确定该神经网络模型的理想参数，而训练好的神经网络模型可被应用于在面对新的预测数据记录时提供相应的预测结果，例如，神经网络模型可被应用于图像处理场景、语音识别场景、自然语言处理场景、自动控制场景、智能问答场景、业务决策场景、推荐业务场景、搜索场景和异常行为检测场景等等。

在现有的神经网络模型中，当特征经过嵌入(embedding)层之后通常直接进入神经网络结构进行学习。然而，不同特征对于目标的预测能力是不一样的，因此所有特征在经过嵌入层之后或者特征本身直接以相同的权重进入神经网络，难以充分利用更加重要的特征，这对预测结果的准确度有一定的影响。

发明内容

根据本申请示例性实施例，提供了一种神经网络模型的训练方法，所述方法包括：获取训练数据记录；基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及基于训练样本来训练所述神经网络模型，其中，所述神经网络模型包括一个或更多个嵌入层、一个或更多个底层神经网络结构、以及上层神经网络结构，其中，基于训练样本来训练所述神经网络模型的步骤包括：将训练样本的至少一个特征经过对应的嵌入层，得到对应的特征嵌入向量，将每个嵌入层输出的特征嵌入向量分别经过对应的底层神经网络结构，通过所述对应的底层神经网络结构学习出对应特征的特征信息表示，通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果，至少基于所述预测结果与所述标记之间的差异来调整所述神经网络模型。

可选地，通过所述对应的底层神经网络结构学习出对应特征的特征信息表示的步骤还可包括：将嵌入层输出的特征嵌入向量分别与对应的底层神经网络结构的输出进行函数运算，并将函数运算结果作为所述对应的底层神经网络模型所学习的特征信息表示。

可选地，所述函数运算可以为按位相加或按位相乘运算。

可选地，将嵌入层输出的特征嵌入向量分别与对应的底层神经网络结构的输出进行函数运算的步骤可包括：将嵌入层输出的特征嵌入向量与对应的底层神经网络结构的输出进行维度统一，并对维度统一后的特征嵌入向量与对应的底层神经网络结构的输出进行函数运算。

可选地，所述维度统一的步骤可包括：对嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出中的至少一个进行占位填充，使得嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出维度相同。

可选地，所述维度统一的步骤可包括：将嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出中的至少一个与变换矩阵相乘，使得嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出维度相同。

可选地，所述变换矩阵可以是在基于训练样本来训练所述神经网络模型的过程中被学习出的。

可选地，所述至少一个特征可以是离散特征，或者所述至少一个特征可以是对连续特征进行离散化处理之后得到的离散化的特征，其中，所述方法还可包括：将训练样本的至少一个连续特征经过对应的底层神经网络结构，通过该对应的底层神经网络结构学习出对应连续特征的特征信息表示。

可选地，所述训练方法还可包括：将所述至少一个连续特征与对应的底层神经网络结构的输出进行函数运算，并将函数运算结果作为该对应的底层神经网络模型输出的特征信息表示。

可选地，通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果的步骤可包括：通过所述上层神经网络结构至少基于所述一个或更多个底层神经网络结构输出的特征信息表示和至少一个嵌入层输出的特征嵌入向量来学习出预测结果。

可选地，在所述函数运算中所使用的函数的参数可以是在基于训练样本来训练所述神经网络模型的过程中被学习出的。

可选地，所述上层神经网络结构可以是单层级神经网络结构。

可选地，所述上层神经网络结构可以是双层级神经网络结构，其中，所述双层级神经网络结构包括：第一层级神经网络结构，包括多个中间模型；以及第二层级神经网络结构，包括单个顶层神经网络模型，其中，通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果的步骤可包括：通过第一层级神经网络结构的所述多个中间模型来分别学习出对应的至少一个特征信息表示、至少一个特征嵌入向量和/或至少一个特征之间的交互表示；至少基于第一层级神经网络结构输出的交互表示，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果。

可选地，至少基于第一层级神经网络结构输出的交互表示，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果的步骤可包括：基于第一层级神经网络结构输出的交互表示连同至少一个特征信息表示、至少一个特征嵌入向量和/或至少一个特征，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果。

可选地，所述神经网络模型用于预测图像类别、文本类别、语音情感、欺诈交易或广告点击率。

可选地，所述神经网络模型用于如下场景中的任一场景：

图像处理场景；

语音识别场景；

自然语言处理场景；

自动控制场景；

智能问答场景；

业务决策场景；

推荐业务场景；

搜索场景；

异常行为检测场景。

可选地，

所述图像处理场景包括：光学字符识别OCR、人脸识别、物体识别和图片分类；

所述语音识别场景包括：可通过语音进行人机交互的产品；

所述自然语音处理场景包括：审查文本、垃圾内容识别和文本分类；

所述自动控制场景包括：矿井组调节操作预测、风力发电机组调节操作预测和空调***调节操作预测；

所述智能问答场景包括：聊天机器人和智能客服；

所述业务决策场景包括：金融科技领域、医疗领域和市政领域的场景，其中，金融科技领域包括：营销与获客、反欺诈、反洗钱、承保和信用评分，医疗领域包括：疾病筛查和预防、个性化健康管理和辅助诊断，市政领域包括：社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障和智慧城市；

所述推荐业务场景包括：新闻、广告、音乐、咨询、视频和金融产品的推荐；

所述搜索场景，包括：网页搜索、图像搜索、文本搜索、视频搜索；

所述异常行为检测场景，包括：国家电网客户用电异常行为检测、网络恶意流量检测和操作日志中的异常行为检测。

根据本申请另一示例性实施例，提供了一种神经网络模型的训练***，所述***包括：数据获取装置，用于获取训练数据记录；样本生成装置，用于基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及训练装置，用于基于训练样本来训练所述神经网络模型，其中，所述神经网络模型包括一个或更多个嵌入层、一个或更多个底层神经网络结构、以及上层神经网络结构，其中，在基于训练样本来训练所述神经网络模型的过程中，训练装置将训练样本的至少一个特征经过对应的嵌入层，得到对应的特征嵌入向量，将每个嵌入层输出的特征嵌入向量分别经过对应的底层神经网络结构，通过所述对应的底层神经网络结构学习出对应特征的特征信息表示，通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果，并至少基于所述预测结果与所述标记之间的差异来调整所述神经网络模型。

可选地，训练装置还可将嵌入层输出的特征嵌入向量分别与对应的底层神经网络结构的输出进行函数运算，并将函数运算结果作为所述对应的底层神经网络模型所学习的特征信息表示。

可选地，所述函数运算可以为按位相加或按位相乘运算。

可选地，训练装置将嵌入层输出的特征嵌入向量分别与对应的底层神经网络结构的输出进行函数运算的操作可包括：将嵌入层输出的特征嵌入向量与对应的底层神经网络结构的输出进行维度统一，并对维度统一后的特征嵌入向量与对应的底层神经网络结构的输出进行函数运算。

可选地，训练装置可通过以下操作进行维度统一：对嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出中的至少一个进行占位填充，使得嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出维度相同。

可选地，训练装置可通过以下操作进行维度统一：将嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出中的至少一个与变换矩阵相乘，使得嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出维度相同。

可选地，所述至少一个特征可以是离散特征，或者所述至少一个特征可以是对连续特征进行离散化处理之后得到的离散化的特征，其中，训练装置还可将训练样本的至少一个连续特征经过对应的底层神经网络结构，通过该对应的底层神经网络结构学习出对应连续特征的特征信息表示。

可选地，练装置还可将所述至少一个连续特征与对应的底层神经网络结构的输出进行函数运算，并将函数运算结果作为该对应的底层神经网络模型输出的特征信息表示。

可选地，训练装置通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果的操作可包括：通过所述上层神经网络结构至少基于所述一个或更多个底层神经网络结构输出的特征信息表示和至少一个嵌入层输出的特征嵌入向量来学习出预测结果。

可选地，所述上层神经网络结构可以是双层级神经网络结构，其中，所述双层级神经网络结构可包括：第一层级神经网络结构，包括多个中间模型；以及第二层级神经网络结构，包括单个顶层神经网络模型，其中，训练装置可通过第一层级神经网络结构的所述多个中间模型来分别学习出对应的至少一个特征信息表示、至少一个特征嵌入向量和/或至少一个特征之间的交互表示，并且可至少基于第一层级神经网络结构输出的交互表示，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果。

可选地，训练装置至少基于第一层级神经网络结构输出的交互表示，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果的操作可包括：基于第一层级神经网络结构输出的交互表示连同至少一个特征信息表示、至少一个特征嵌入向量和/或至少一个特征，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果。

可选地，所述神经网络模型用于如下场景中的任一场景：

图像处理场景；

语音识别场景；

自然语言处理场景；

自动控制场景；

智能问答场景；

业务决策场景；

推荐业务场景；

搜索场景；

异常行为检测场景。

可选地，

所述语音识别场景包括：可通过语音进行人机交互的产品；

所述智能问答场景包括：聊天机器人和智能客服；

根据本申请另一示例性实施例，提供了一种计算机可读介质，其中，在所述计算机可读介质上记录有用于由一个或多个计算装置执行前述神经网络模型的训练方法的计算机程序。

根据本申请另一示例性实施例，提供了一种包括一个或多个计算装置和一个或多个存储装置的***，其中，所述一个或多个存储装置上记录有指令，所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现前述神经网络模型的训练方法。

根据本申请另一示例性实施例，提供了一种利用神经网络模型执行预测的方法，所述方法包括：获取预测数据记录；基于预测数据记录的属性信息来生成预测样本的特征；以及利用前述神经网络模型的训练方法所训练出的神经网络模型，针对预测样本来提供相应的预测结果。

根据本申请另一示例性实施例，提供了一种利用神经网络模型执行预测的预测***，所述预测***包括：数据获取装置，获取预测数据记录；样本生成装置，基于预测数据记录的属性信息来生成预测样本的特征；以及预测装置，利用前述神经网络模型的训练方法所训练出的神经网络模型，针对预测样本来提供相应的预测结果。

根据本申请另一示例性实施例，提供了一种计算机可读介质，其中，在所述计算机可读介质上记录有用于由一个或多个计算装置执行前述利用神经网络模型执行预测的方法的计算机程序。

根据本申请另一示例性实施例，提供了一种包括一个或多个计算装置和一个或多个存储装置的***，所述一个或多个存储装置上记录有指令，所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现前述利用神经网络模型执行预测的方法。

有益效果

通过应用根据本发明的示例性实施例的神经网络模型的训练方法和***以及预测方法和***，能够根据特征本身对应的信息自动控制输入到神经网络模型的信息量，由此能够进一步提高神经网络模型的预测效果。

将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明总体构思的实施而得知。

附图说明

从下面结合附图对本申请实施例的详细描述中，本申请的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1是示出根据本发明的示例性实施例的神经网络模型的示图；

图2是示出根据本发明的示例性实施例的神经网络模型的训练***；

图3是示出根据本发明的示例性实施例的神经网络模型的训练方法的流程图；

图4是示出根据本发明的另一示例性实施例的神经网络模型的示图；

图5是示出根据本发明的实施例的神经网络模型的预测***；

图6是示出根据本发明的实施例的神经网络模型的预测方法的流程图。

在下文中，将结合附图详细描述本发明，贯穿附图，相同或相似的元件将用相同或相似的标号来指示。

具体实施方式

提供以下参照附图进行的描述，以帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。所述描述包括各种特定细节以帮助理解，但这些细节被认为仅是示例性的。因此，本领域的普通技术人员将认识到：在不脱离本发明的范围和精神的情况下，可对这里描述的实施例进行各种改变和修改。此外，为了清楚和简明，可省略已知功能和构造的描述。

随着海量数据的出现，人工智能技术得到了迅速发展，机器学习(包括神经网络)是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善***自身的性能。在计算机***中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的情况时，模型会提供相应的判断，即，预测结果。

而为了从大量数据中挖掘出价值，则要求相关人员不仅需要精通人工智能技术(特别是机器学习技术)，还需要非常熟悉应用机器学习技术的具体场景(例如，图像处理、语音处理、自动控制、金融业务、互联网广告等)。例如，若相关人员对业务了解不够，或建模经验不足，很容易导致较差的建模效果。目前可从两个方面缓解该现象，一是降低机器学习的门槛，使得机器学习算法易于上手；二是提高模型精度，使得算法通用性高，能够产生更好的结果。应理解，这两个方面并非对立，比如第二个方面中算法效果的提升，可以帮助第一点。此外，在期望利用神经网络模型进行相应的目标预测时，相关人员不仅需要熟悉关于神经网络的各种复杂技术细节，还需要理解所预测目标涉及的数据背后的业务逻辑，比如，如果想利用机器学习模型判别犯罪嫌疑犯，相关人员还必须理解哪些特性是犯罪嫌疑犯可能所具有的；如果想利用机器学习模型判别金融行业的欺诈交易，相关人员还必须了解金融行业的交易习惯以及一系列相应的专家规则等。上述种种都给机器学习技术的应用前景带来非常大的困难。

为此，技术人员希望通过技术的手段来解决上述问题，在有效提高神经网络模型效果的同时，降低模型训练和应用的门槛。在此过程中涉及诸多技术问题，例如，要想得到切实有效的模型，不仅要面对训练数据本身的不理想(例如，训练数据不足、训练数据存在缺失、训练数据稀疏、训练数据与预测数据的分布差异等)，还需要解决海量数据的运算效率问题。也就是说，现实中不可能依靠无限复杂的理想模型，利用完美的训练数据集来解决执行机器学习过程。作为针对预测目的的数据处理***或方法，任何用于训练模型的方案或利用模型进行预测的方案均必须受制于客观存在的数据限制和运算资源限制，通过在计算机中利用特定的数据处理机制来解决上述技术问题。这些数据处理机制所依托的是计算机的处理能力、处理方式和处理数据，并非是纯粹的数学或统计计算。

图1是示出根据本发明的示例性实施例的神经网络模型100的示图。

参照图1，根据本发明的示例性实施例的神经网络模型100可包括一个或更多个基于嵌入(embedding)函数的嵌入层110、一个或更多个底层神经网络结构120以及上层神经网络结构130。

如图1中所示，输入到神经网络模型100的至少一个特征在经过相应的嵌入层110之后，可得到对应的特征嵌入向量。之后，每个嵌入层110输出的特征嵌入向量可分别经过对应的底层神经网络结构120，从而通过所述对应的底层神经网络结构120学习出对应特征的特征信息表示

在本发明的示例性实施例中，可将输入到神经网络模型100的特征之中的离散特征经过对应的嵌入层110以得到对应的特征嵌入向量，而对于输入到神经网络模型100的特征之中的连续特征，则可在将其进行离散化处理之后，将经过离散化处理的特征经过对应的嵌入层110，从而得到对应的特征嵌入向量。

作为又一示例，也可仅将输入到神经网络模型100的特征之中的离散特征经过对应的嵌入层110以得到对应的特征嵌入向量，而对于输入到神经网络模型100的特征之中的连续特征(例如，如图1中所示，特征3)，可将其视为一维的特征嵌入向量作为对应的底层神经网络结构120的输入来通过所述对应的底层神经网络120结构学习出对应的特征信息表示，而无需经过嵌入层110。

上层神经网络结构130可至少基于所述一个或更多个底层神经网络结构120输出的特征信息表示学习出预测结果，由此能够至少基于所述预测结果来调整神经网络模型100。

本发明实施例中的所述的神经网络模型100可被用于预测图像类别、文本类别、语音情感、欺诈交易、广告点击率等。

更进一步来说，本发明实施例中的神经网络模型100可被用于的场景包括但不限于以下场景：

图像处理场景，包括：光学字符识别OCR、人脸识别、物体识别和图片分类；更具体地举例来说，OCR可应用于票据(如***)识别、手写字识别等，人脸识别可应用安防等领域，物体识别可应用于自动驾驶场景中的交通标志识别，图片分类可应用于电商平台的“拍照购”、“找同款”等。

语音识别场景，包括可通过语音进行人机交互的产品，如手机的语音助手(如苹果手机的Siri)、智能音箱等；

自然语言处理场景，包括：审查文本(如合同、法律文书和客服记录等)、垃圾内容识别(如垃圾短信识别)和文本分类(情感、意图和主题等)；

自动控制场景，包括：矿井组调节操作预测、风力发电机组调节操作预测和空调***调节操作预测；具体的对于矿井组可预测开采率高的一组调节操作，对于风力发电机组可预测发电效率高的一组调节操作，对于空调***，可以预测满足需求的同时节省能耗的一组调节操作；

智能问答场景，包括：聊天机器人和智能客服；

业务决策场景，包括：金融科技领域、医疗领域和市政领域的场景，其中：

金融科技领域包括：营销(如优惠券使用预测、广告点击行为预测、用户画像挖掘等)与获客、反欺诈、反洗钱、承保和信用评分、商品价格预测；

医疗领域包括：疾病筛查和预防、个性化健康管理和辅助诊断；

市政领域包括：社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障、智慧城市(公交、网约车、共享单车等各类城市资源的调配和管理)；

推荐业务场景，包括：新闻、广告、音乐、咨询、视频和金融产品(如理财、保险等)的推荐；

搜索场景，包括：网页搜索、图像搜索、文本搜索、视频搜索等；

异常行为检测场景，包括：国家电网客户用电异常行为检测、网络恶意流量检测、操作日志中的异常行为检测等。

在下文中，将结合图2和图3来详细解释根据本发明的示例性实施例的神经网络模型100的训练过程。

图2是示出根据本发明的示例性实施例的神经网络模型100的训练***200。

如图2中所示，所述训练***200可包括数据获取装置210、样本生成装置220以及训练装置230。

所述数据获取装置210可用于获取训练数据记录。

在本发明的实施例中，所获取的训练数据记录根据神经网络模型100的应用场景的不同而不同。例如，在图像处理的OCR场景中，所获取的数据记录是图像数据，数据记录的标记是图像中的文字；而在金融科技领域的反洗钱、反欺诈相关的场景中，所获取的训练数据是银行用户的交易流水数据以及该用户本身相关的数据，数据记录的标记是关于特定交易是洗钱或欺诈的标记。本领域的技术人员能够理解不同场景下的训练数据的不同。

即本领域的技术人员可以理解，当神经网络模型100应用于某个特定场景时，该神经网络模型100是基于该场景对应的训练样本数据集训练而得的。例如，对于商品价格预测，对应的训练样本数据集是该商品的历史数据(例如以商品历史上被售出时其自身的属性、季节、库存量等作为样本的特征，以被售出的价格作为标签)，相应地，商品价格预测场景下，预测数据由商品当前的相关信息构成，基于预测数据构造预测样本，例如以商品当前的自身属性、季节和库存量等作为预测样本的特征，将预测样本输入神经网络模型100后得到模型输出的预测价格。其他场景类似，这里不再一一赘述。

这里，训练数据记录可以是在线产生的数据、预先生成并存储的数据、也可以是通过输入装置或传输媒介而从外部接收的数据。这些数据可涉及个人、企业或组织的属性信息，例如，身份、学历、职业、资产、联系方式、负债、收入、盈利、纳税等信息。或者，这些数据也可涉及业务相关项目的属性信息，例如，关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意，本发明的示例性实施例中提到的属性信息内容可涉及任何对象或事务在某方面的表现或性质，而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。

作为示例，可获取不同来源的结构化或非结构化数据，例如，文本数据或数值数据等。这些数据可来源于期望获取模型预测结果的实体内部，例如，来源于期望获取预测结果的银行、企业、学校等；这些数据也可来源于上述实体以外，例如，来源于数据提供商、互联网(例如，社交网站)、移动运营商、APP运营商、快递公司、信用机构等。可选地，上述内部数据和外部数据可组合使用，以形成携带更多信息的训练数据记录。

上述数据可通过输入装置输入到数据获取装置，或者由数据获取装置根据已有的数据来自动生成，或者可由数据获取装置从网络上(例如，网络上的存储介质(例如，数据仓库))获得，此外，诸如服务器的中间数据交换装置可有助于数据获取装置从外部数据源获取相应的数据。这里，获取的数据可被数据获取装置中的文本分析模块等数据转换模块转换为容易处理的格式。应注意，数据获取装置可被配置为由软件、硬件和/或固件组成的各个模块，这些模块中的某些模块或全部模块可被集成为一体或共同协作以完成特定功能。

样本生成装置220可基于数据获取装置210获取的训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记。然后，训练装置230可基于样本生成装置220所生成的训练样本来训练所述神经网络模型100。

所述神经网络模型100旨在针对相关场景中的对象或事件有关的问题进行预测。例如，可用于预测图像类别、预测图像中文字、预测文本类别、预测语音情感类别、预测欺诈交易、预测广告点击率、预测商品价格等等，使得预测结果可直接作为决策依据或进一步结合其他规则而成为决策依据。

在下文中，结合图3来详细说明所述训练***200训练神经网络模型100的处理。

图3是示出根据本发明的示例性实施例的神经网络模型100的训练方法的流程图。

参照图3，在步骤310，可通过数据获取装置210获取训练数据记录。在本发明的示例性实施例中，训练数据记录可以是用于训练神经网络模型100的历史数据记录的集合，并且该历史数据记录具有关于神经网络模型的预测目标的真实结果，即，标记(label)。

在步骤320，可由样本生成装置220基于在步骤320获取的训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记。作为示例，样本生成装置220可对训练数据记录执行相应的特征工程处理，这里，样本生成装置220既可以将训练数据记录的某些属性字段直接作为相应的特征，也可通过对属性字段进行处理(包括字段本身或字段之间的各种运算等处理)来得到相应的特征。从特征取值的特点来看，训练样本的特征可被划分为离散特征(其拥有一组离散的可能值，例如，居住城市等)和连续特征(其可能值的区间不受限制，与离散特征相对)。

然后，在步骤330，可由训练装置230基于训练样本来训练神经网络模型100。

更具体地讲，在步骤330中，训练装置230可将训练样本的至少一个特征经过对应的嵌入层110，得到对应的特征嵌入向量。在本发明的示例性实施例中，所述至少一个特征可以是离散特征，或者所述至少一个特征可以是对输入的连续特征进行离散化处理之后得到的离散化的特征。

可选地，在本发明的示例性实施例中，在训练装置230将训练样本的至少一个特征经过对应的嵌入层110之前，训练装置230还可分别确定每个嵌入层110的维度，由此能够基于特征所包含的信息量等因素自适应地确定针对各个特征的嵌入层110的维度，使得能够更为有效地训练出神经网络模型。

在本发明的示例性实施例中，训练装置230可至少基于输入到各个嵌入层110的特征来分别确定各个嵌入层110的维度。

例如，训练装置230可基于输入到各个嵌入层110的特征的特征值的个数来分别确定各个嵌入层的维度。

仅作为示例，训练装置230可基于输入到各个嵌入层110的特征的特征值的个数来分别确定各个嵌入层110的维度。例如，训练装置230可将一嵌入层110的维度d确定为与输入到该嵌入层110的特征的特征值的个数c成正比。例如，训练装置230可设置所述维度d＝α×c^β，α和β可以是根据经验、实验、或装置资源等而确定的常数，例如，α可被设置为6，β可被设置为1/4。

又例如，训练装置230可基于输入到各个嵌入层110的特征的信息熵来分别确定各个述嵌入层110的维度。具体地讲，可基于以下公式(1)来确定与输入到嵌入层110的特征对应的信息熵s：

其中，公式(1)中n为训练样本集中，该特征所有不同的特征值总量(如“城市”特征中，所有样本中出现的不同城市个数)，p_i＝f_i/m，f_i表示输入到嵌入层110的该特征的第i个特征值在样本中的出现次数，m表示相应的样本总数。

在根据公式(1)获得与每个嵌入层110分别对应的特征各自的信息熵s之后，训练装置230可基于这些特征的信息熵s的大小来成比例地确定与各个特征对应的嵌入层的维度d。

具体地讲，在本发明的示例性实施例中，训练装置230可按照与输入到各个嵌入层110的特征对应的信息熵s的大小成正比地对每个嵌入层110分配维度。

此外，在上述分配过程中，训练装置230还可充分考虑运算资源、训练数据记录的数据量、以及神经网络模型的应用场景等因素，结合预先设置的维度分配约束，使得所分配的嵌入层维度在预设的最小维度a和最大维度b之间，其中a小于b，二者均为自然数。例如，训练装置230可设置每个嵌入层110的维度d＝min(b,max(a,d))，其中，所述最小维度a和最大维度b可以是由用户根据经验而确定的，或者，也可以是基于运算资源、训练数据记录的数据量、以及神经网络模型的应用场景中的至少一个而确定的。

在按照上述方法完成维度分配之后，如果所分配的嵌入层110的维度满足预设条件(例如，所有嵌入层110的维度之和不大于预设总维度)，则可认为该分配有效。如果不满足所述预设条件，例如，如果所有嵌入层110的所分配的维度之和大于预设总维度，则训练装置230需要重新进行维度分配。在本发明的示例性实施例中，所述预设总维度可以是基于运算资源、训练数据记录的数据量、以及神经网络模型的应用场景中的至少一个而确定的。

仅作为示例，当训练装置230重新分配嵌入层110的维度时，可首先设置将分配给各个嵌入层110的最大维度b和最小维度a。在确定了最小维度a和最大维度b之后，训练装置230可将信息熵最低的第一预定数量个特征所对应的嵌入层110确定为分配所述最小维度a，并将信息熵最高的第二预定数量个特征所对应的嵌入层110确定为分配所述最大维度b。之后，对于除了所述第一预定数量个特征和所述第二预定数量个特征之外的其余特征，在所述最小维度a与所述最大维度b之间，训练装置230可按照所述其余特征的信息熵的大小来成比例地分配剩余维度(即，预设总维度减去被分配给与所述第一预定数量个特征和所述第二预定数量个特征分别对应的嵌入层110的维度之后剩余的维度)，从而确定分配给与所述其余特征分别对应的嵌入层110的维度。

按照这种方式，可通过枚举所述第一预定数量和所述第二预定数量而获得多种维度分配方案。对此，训练装置230可按照预定规则来在所述多种维度分配方案之中确定最优维度分配方案(即，关于第一预定数量和第二预定数量的最优解)。仅作为示例，在本发明的示例性实施例中，训练装置230可将嵌入层110的维度的方差值最小或最大时所对应的方案确定为最优维度分配方案，即，所述最优解对应于使得被分配给各个嵌入层的维度的方差值最小或最大。然而，应该理解，本申请不限于此，训练装置230还可根据各种其他规则来确定所述最优维度分配方案。

此外，训练装置230也可基于维度学习模型来学习出各个嵌入层110的维度，所述维度学习模型可被设计为通过各个嵌入层110的候选维度以及与所述候选维度对应的神经网络模型的模型效果(例如，模型AUC(Area under the Curve of ROC(receiveroperating characteristic curve))来迭代学习出各个嵌入层110的最佳维度，并将学习出的各个嵌入层110的最佳维度确定为各个嵌入层110的维度。仅作为示例，所述维度学习模型可基于强化学习或贝叶斯优化。然而，本发明不限于此，所述维度学习模型还可以是任何其他可用的机器学习模型。

在经过嵌入层110之后，训练装置230可将每个嵌入层110输出的特征嵌入向量分别经过对应的底层神经网络结构120，通过所述对应的底层神经网络结构120学习出对应特征的特征信息表示。这里，作为示例，所述底层神经网络模型可以为DNN模型。

此外，对于训练样本中的连续特征，可不经过嵌入层110。也就是说，训练装置230还可将训练样本的至少一个连续特征直接经过对应的底层神经网络结构120，通过该对应的底层神经网络结构120学习出对应连续特征的特征信息表示。

然而，考虑到不同特征对于目标的预测能力是不一样的，为了充分利用更加重要的特征，在本发明的示例性实施例中，训练装置230还可将嵌入层110输出的特征嵌入向量分别与对应的底层神经网络结构120的输出进行函数运算，并将函数运算结果作为所述对应的底层神经网络模型120所学习的特征信息表示。或者，对于训练样本中的连续特征(即，不经过离散化的连续特征)，训练装置230可将该连续特征与其对应的底层神经网络结构120的输出进行函数运算，并将函数运算结果作为该连续特征对应的底层神经网络结构120输出的特征信息表示(例如，如图1中所示的对特征3进行的处理)。

通过上述函数运算，在对神经网络模型100进行训练的过程中，能够有效地利用各个特征的对于目标的预测能力，使得更加重要的特征对于预测结果能够起更大的作用，而不重要的特征对于预测结果起较小的作用，甚至不起作用。具体说来，底层神经网络结构120的输出可被视为特征的某种信息量表示，通过其与特征嵌入向量来共同调整特征最终进入上层神经网络结构130的实际内容，能够进一步确保神经网络模型的学习效果。

此外，在本发明的示例性实施例中，函数运算中所使用的函数可以是Out＝f(E,O)的形式，E表示嵌入层110输出的特征嵌入向量或连续特征，O表示该特征嵌入向量E或连续特征经过对应的底层神经网络结构120之后的输出。仅作为示例，所述函数运算可以是按位相加或按位相乘运算，举例说来，在f(E,O)表示将E和O按位相乘的运算关系的示例中，可将O视为用于控制E的信息流入量的开关。然而，应该理解的是，在本发明的示例性实施例中，所述函数运算还可以具有预先指定的其他不同函数表达形式，而不限于上述按位相加或按位相乘运算，例如所述运算函数也可以是例如Out＝f(E,O)＝a*f_e(E)+b*f_o(O)的复杂运算，这里，f、f_e和f_o均可为任意运算函数。这里，所述函数运算的参数(例如，上述a和b)可以是在基于训练样本来训练所述神经网络模型的过程中被学习出的。

此外，在通过底层神经网络结构120学习对应特征的特征信息表示的过程中，从嵌入层110输入到底层神经网络结构120的特征嵌入向量与对应底层神经网络结构120的输出可能具有不同的维度，也就是说，会通过特征维度变化进一步为模型带来灵活性。然而，如果要进行函数运算，在嵌入层110输出的特征嵌入向量与对应的底层神经网络结构120的输出具有不同的维度的情况下，则可先对嵌入层110输出的特征嵌入向量与对应的底层神经网络结构120的输出进行维度统一，然后再对维度统一后的特征嵌入向量与对应的底层神经网络结构的输出进行函数运算。

仅作为一示例，可对嵌入层110输出的特征嵌入向量和对应的底层神经网络结构120的输出中的至少一个进行占位填充，使得嵌入层110输出的特征嵌入向量和对应的底层神经网络结构120的输出维度相同。

作为又一示例，也可将嵌入层110输出的特征嵌入向量和对应的底层神经网络结构120的输出中的至少一个与变换矩阵相乘，使得嵌入层110输出的特征嵌入向量和对应的底层神经网络结构120的输出维度相同。在本发明的示例性实施例中，这样的变换矩阵可以是在训练装置230基于训练样本来训练所述神经网络模型的过程中被学习出的。

继续参照图1，在训练装置230中可通过上层神经网络结构130来至少基于所述一个或更多个底层神经网络结构120输出的特征信息表示学习出预测结果，并至少基于所述预测结果与所述标记之间的差异来调整所述神经网络模型。

仅作为一示例，训练装置230可通过所述上层神经网络结构130仅基于所述一个或更多个底层神经网络结构120输出的特征信息表示学习出预测结果。

作为又一示例，尽管在图1中未被明确示出，训练装置230也可通过所述上层神经网络结构130至少基于所述一个或更多个底层神经网络结构120输出的特征信息表示和至少一个嵌入层110输出的特征嵌入向量来学习出预测结果。例如，根据本发明的示例性实施例，训练装置230可通过所述上层神经网络结构130基于所述一个或更多个底层神经网络结构120输出的特征信息表示、至少一个嵌入层110输出的特征嵌入向量和/或至少一个原始特征(例如，原始的连续特征或离散特征)来学习出预测结果。

在本发明的示例性实施例中，所述上层神经网络结构130可以是单层级的神经网络结构，该单层级的神经网络结构可以是任何常见的普通神经网络结构，或者还可以是普通神经网络结构的任何变型。也就是说，在本发明的示例性实施例中，术语“层级”不同于构成神经网络的层，一个层级可涵盖单一的神经网络结构整体所执行的一系列运算集合，其可包含多个层。

然而，本发明的示例性实施例不限于此，所述上层神经网络结构130还可以是多层级的神经网络结构。也就是说，经过根据本发明的示例性实施例确定的特征信息表示和/或特征嵌入向量可被应用于各种神经网络模型。

仅作为示例，在下文中，将以具有双层级神经网络结构的神经网络模型为例进行解释。

参照图4，图4是示出根据本发明的示例性实施例的具有双层级神经网络结构的神经网络模型的示图。也就是说，上层神经网络结构130由两层神经网络结构构成。

如图4所示，双层级神经网络结构130包括第一层级神经网络结构410和第二层级神经网络结构420。

第一层级神经网络结构410可包括多个中间模型410-1至410-N。

优选地，在本发明的示例性实施例中，可根据特征的特性(例如，原始连续特征和/或离散特征本身的特性、原始特征(即，原始连续特征和/或离散特征)所对应的特征嵌入向量的特性和/或原始特征所对应的特征信息表示的特性)、所述特征的组合性和/或各种类型的模型的学习能力特性来确定所述中间模型的类型及其对应的输入项(即，至少一个特征嵌入向量、至少一个特征信息表示、和/或至少一个原始特征)。

在本发明的示例性实施例中，所述多个中间模型410-1至410-N可以是全输入的神经网络模型(例如，深度神经网络(DNN)模型)、组合特征神经网络模型(即，Crossfeature神经网络模型)、基于因子分解机制的模型(例如，基于FM feature的DNN模型)等中的至少一个。仅作为示例，全输入的神经网络模型的输入可以是全部特征信息表示的拼接结果，组合特征神经网络模型的输入可以是全部特征信息表示之中与能够进行组合的特征对应的特征信息表示的拼接结果(这里，作为示例，组合特征神经网络模型可包括逻辑回归模型，即，逻辑回归模型可被视为单层组合特征神经网络模型)，并且基于因子分解机制的模型的输入可以是全部特征信息表示之中的任意两个特征信息表示按位相乘之后，将相乘结果进行按位相加后得到的运算结果。应注意，每个中间模型的输入不限于特征信息表示，还可包括嵌入层110输出的特征嵌入向量和/或原始特征本身，使其在分别学习出对应的至少一部分特征信息表示之间的交互表示的同时，还进一步学习出特征嵌入向量和/或原始特征与这些特征信息表示之间的交互表示。

在此，针对每个中间模型，可通过对其所对应的输入项(例如，特征信息表示、特征嵌入向量、原始特征等)之中的至少一个进行转换、拼接和/或运算而得到所述每个中间模型的至少一部分输入。所述运算可包括对每个中间模型所对应的原始或经过转换的至少一个输入项进行求和运算、均值运算、最大池化运算和/或基于注意力(attention)机制的加权运算。在本发明的示例性实施例中，所述基于注意力机制的加权运算可经由专门的注意力机制网络来执行，即，可经由所述专门的注意力机制网络来学习出针对原始或经过转换的至少一个输入项的一套或多套权重，并基于所述一套或多套权重来分别对原始或经过转换的至少一个输入项进行加权。

此外，第二层级神经网络结构420可包括单个顶层神经网络模型。所述单个顶层神经网络模型可以是任何常见的神经网络模型，或者还可以是任何具有神经网络结构的模型。

训练装置230可通过第一层级神经网络结构410的所述多个中间模型410-1至410-N来分别学习出对应的至少一个特征信息表示、至少一个特征嵌入向量和/或至少一个特征之间的交互表示。然后，至少基于第一层级神经网络结构410输出的交互表示，训练装置230可通过第二层级神经网络结构420的单个顶层神经网络模型来学习出预测结果。

作为示例，在本发明的示例性实施例中，训练装置230可仅基于第一层级神经网络结构410输出的交互表示通过第二层级神经网络结构420的单个顶层神经网络模型来学习出预测结果。

或者，作为又一示例，尽管在图1中没有明确示出，但训练装置230也可至少基于第一层级神经网络结构410输出的至少一个交互表示连同底层神经网络结构120输出的至少一个特征信息表示、嵌入层110输出的至少一个特征嵌入向量、和/或至少一个特征，通过第二层级神经网络结构420的单个顶层神经网络模型来学习出预测结果。

训练装置230可至少基于所述预测结果与训练数据记录的标记之间的差异来调整所述神经网络模型100，从而实现对所述神经网络模型100的训练。

在基于训练数据记录完成了对所述神经网络模型100的训练之后，训练好的神经网络模型100可被用来使用预测数据记录进行预测。

图5是示出根据本发明的实施例的神经网络模型的预测***500。

参照图5，所述预测***500可包括：数据获取装置510，用于获取预测数据记录；样本生成装置520，用于基于数据获取装置510获取的预测数据记录的属性信息来生成预测样本的特征；以及预测装置530，用于利用已经过训练的神经网络模型，针对样本生成装置520生成的预测样本来提供相应的预测结果。这里，数据获取装置510可基于手动、自动或半自动的方式从任意数据源获取预测数据记录；相应地，样本生成装置520可按照与训练***200中的样本生成装置220对应一致的方式来生成预测而样本的特征，只是预测样本中不具有标记。

在本发明的实施例中，预测装置530所使用的神经网络模型可以是通过如上所述的神经网络模型训练***200和训练方法所训练出的神经网络模型100，由于之前已经描述了基于神经网络模型执行处理的机制，在此将不再对其进行更加详细的描述。

图6是示出根据本发明的实施例的神经网络模型的预测方法600的流程图。

参照图6，在步骤610，可通过数据获取装置510获取预测数据记录。

在本发明的实施例中，预测数据记录和训练数据记录是同类型的数据记录。即如前所述的神经网络模型训练***和训练方法所训练出的神经网络模型100用何种数据进行训练，则进行预测时的预测数据也是何种数据。例如在OCR场景中，训练数据是图像数据和其标记(标记是图像中的文字)，则预测数据也是包含文字的图像数据。

这里，作为示例，可通过手动、半自动或全自动的方式来采集预测数据记录，或对采集的原始数据进行处理，使得处理后的数据记录具有适当的格式或形式。作为示例，可批量地采集数据。

这里，可通过输入装置(例如，工作站)接收用户手动输入的数据记录。此外，可通过全自动的方式从数据源***地取出数据记录，例如，通过以软件、固件、硬件或其组合实现的定时器机制来***地请求数据源并从响应中得到所请求的数据。所述数据源可包括一个或多个数据库或其他服务器。可经由内部网络和/或外部网络来实现全自动获取数据的方式，其中可包括通过互联网来传送加密的数据。在服务器、数据库、网络等被配置为彼此通信的情况下，可在没有人工干预的情况下自动进行数据采集，但应注意，在这种方式下仍旧可存在一定的用户输入操作。半自动方式介于手动方式与全自动方式之间。半自动方式与全自动方式的区别在于由用户激活的触发机制代替了例如定时器机制。在这种情况下，在接收到特定的用户输入的情况下，才产生提取数据的请求。每次获取数据时，优选地，可将捕获的数据存储在非易失性存储器中。作为示例，可利用数据仓库来存储在获取期间采集的原始数据以及处理后的数据。

上述获取的数据记录可来源于相同或不同的数据源，也就是说，每条数据记录也可以是不同数据记录的拼接结果。例如，除了获取客户向银行申请开通***时填写的信息数据记录(其包括收入、学历、职务、资产情况等属性信息字段)之外，作为示例，可还获取该客户在该银行的其他数据记录，例如，贷款记录、日常交易数据等，这些获取的数据记录可拼接为完整的数据记录。此外，还可获取来源于其他私有源或公共源的数据，例如，来源于数据提供商的数据、来源于互联网(例如，社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等。

可选地，可借助硬件集群(诸如Hadoop集群、Spark集群等)对采集到的数据进行存储和/或处理，例如，存储、分类和其他离线操作。此外，也可对采集的数据进行在线的流处理。

作为示例，可将文本等非结构化数据转换为更易于使用的结构化数据以在后续进行进一步的处理或引用。基于文本的数据可包括电子邮件、文档、网页、图形、电子数据表、呼叫中心日志、交易报告等。

然后，在步骤620，可通过样本生成装置520基于在步骤610获取的预测数据记录的属性信息来生成预测样本的特征.

之后，在步骤630，可通过预测装置530利用已经过训练的神经网络模型，针对在步骤620所生成的预测样本来提供相应的预测结果。

在本发明的实施例中，在步骤630中所使用的神经网络模型可以是通过如上所述的神经网络模型训练***200和训练方法所训练出的神经网络模型100，由于之前已经描述了基于神经网络模型执行处理的机制，在此将不再对其进行更加详细的描述。

以上已参照图1至图6描述了根据本发明的示例性实施例的神经网络模型的训练方法和***以及预测方法和***。然而，应理解的是：图1至图6中所使用的装置、***、单元等可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些***、装置或单元等可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，这些***、装置或单元等所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，上述方法可通过记录在计算可读介质上的程序来实现，例如，根据本申请的示例性实施例，可提供一种计算机可读介质，其中，在所述计算机可读介质上记录有用于由一个或多个计算装置执行以下方法步骤的计算机程序：获取训练数据记录；基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及基于训练样本来训练所述神经网络模型，其中，所述神经网络模型包括一个或更多个嵌入层、一个或更多个底层神经网络结构、以及上层神经网络结构，其中，基于训练样本来训练所述神经网络模型的步骤包括：将训练样本的至少一个特征经过对应的嵌入层，得到对应的特征嵌入向量，将每个嵌入层输出的特征嵌入向量分别经过对应的底层神经网络结构，通过所述对应的底层神经网络结构学习出对应特征的特征信息表示，通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果，至少基于所述预测结果与所述标记之间的差异来调整所述神经网络模型。

此外，根据本发明的另一示例性实施例，可提供一种计算机可读介质，其中，在所述计算机可读介质上记录有用于由一个或多个计算装置执行以下方法步骤的计算机程序：获取预测数据记录；基于预测数据记录的属性信息来生成预测样本的特征；以及利用如前述训练方法所训练出的神经网络模型，针对预测样本来提供相应的预测结果。

上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图1到图6进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本发明的示例性实施例的神经网络模型的训练方法和***可完全依赖计算机程序的运行来实现相应的功能，即，各个单元或装置在计算机程序的功能架构中与各步骤相应，使得整个装置或***通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，当图1至图6所提及的各个单元或装置以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，实现根据本发明的示例性实施例的神经网络模型的训练方法的***可包括一个或多个计算装置和一个或多个存储装置，其中，所述一个或多个存储装置上记录有指令，当所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置执行下述步骤：获取训练数据记录；基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及基于训练样本来训练所述神经网络模型，其中，所述神经网络模型包括一个或更多个嵌入层、一个或更多个底层神经网络结构、以及上层神经网络结构，其中，基于训练样本来训练所述神经网络模型的步骤包括：将训练样本的至少一个特征经过对应的嵌入层，得到对应的特征嵌入向量，将每个嵌入层输出的特征嵌入向量分别经过对应的底层神经网络结构，通过所述对应的底层神经网络结构学习出对应特征的特征信息表示，通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果，至少基于所述预测结果与所述标记之间的差异来调整所述神经网络模型。

此外，根据另一示例性实施例，实现根据本发明的示例性实施例的神经网络模型的预测方法的***可包括一个或多个计算装置和一个或多个存储装置，其中，所述一个或多个存储装置上记录有指令，当所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置执行下述步骤：获取预测数据记录；基于预测数据记录的属性信息来生成预测样本的特征；以及利用如前述训练方法所训练出的神经网络模型，针对预测样本来提供相应的预测结果。

具体说来，上述***可以部署在服务器中，也可以部署在分布式网络环境中的节点装置上。此外，所述***设备还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。***设备的所有组件可经由总线和/或网络而彼此连接。

这里，所述***并非必须是单个装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述***还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述***中，用于执行根据本发明的示例性实施例的神经网络模型的训练方法或预测方法的计算装置可以是处理器，这样的处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，所述处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。处理器可运行存储在存储装置之一中的指令或代码，其中，所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储装置可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储装置可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储装置和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储装置中的文件。

应注意本发明示例性实施注重解决目前算法通用性低，精度不高的问题。具体说来，为了增加算法的易用与通用性，本发明示例性实施例的实施并未依赖于任何对具体业务逻辑的限定，而是集中精力在一个较通用的场景中。和大多现有的方案不同，本发明的示例性实施例不集中在一个具体场景上，而可应用于多种不同的场景，如推荐***、广告***等等。在本发明示例性实施例的基础上，建模人员可以继续加入自己的业务经验等，进一步提升效果。因此，本发明示例性实施例考虑的是应用场景的抽象，不针对某具体场景，却适用于各场景。

也就是说，根据本发明的示例性实施例，所述训练数据或预测数据可以是图像数据、语音数据、用于描述工程控制对象的数据、用于描述用户(或其行为)的数据、用于描述行政、商业、医疗、监管、金融等各个领域内的对象和/或事件的数据等，相应地，所述模型旨在针对与上述对象或事件有关的问题进行预测。例如，所述模型可用于预测图像类别、文本类别、语音情感、欺诈交易、广告点击率等，使得预测结果可直接作为决策依据或进一步结合其他规则而成为决策依据。本发明的示例性实施例并不限制模型的预测目的所涉及的具体技术领域，但原因在于所述模型完全可适用于任何能够提供相应训练数据或预测数据的具体领域或场景，而绝不意味着所述模型无法适用于相关的技术领域。

更进一步来说，本申请中的神经网络模型100可应用于的场景包括但不限于以下场景：图像处理场景、语音识别场景、自然语言处理场景、自动控制场景、智能问答场景、业务决策场景、推荐业务场景、搜索场景和异常行为检测场景。上述各类场景下的更具体应用场景详见前面的描述。

因此，本申请的神经网络模型的训练方法和***以及预测方法和***，也可以应用于上述的任一场景，并且本申请的神经网络模型的训练方法和***以及预测方法和***，在应用于不同的场景时，总体执行方案并无差别，只是在不同场景下针对的数据不同，因此本领域的技术人员基于前述的方案公开可以毫无障碍地将本申请的方案应用于不同的场景，因此不需要对每个场景一一进行说明。

以上描述了本申请的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本申请的保护范围应该以权利要求的范围为准。

Claims

1.一种神经网络模型的训练方法，所述方法包括：

获取训练数据记录；

基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及

基于训练样本来训练所述神经网络模型，其中，所述神经网络模型包括一个或更多个嵌入层、一个或更多个底层神经网络结构、以及上层神经网络结构，所述神经网络模型用于预测图像类别、预测图像中文字、预测文本类别或预测语音情感类别，

其中，基于训练样本来训练所述神经网络模型的步骤包括：

将训练样本的至少一个特征经过对应的嵌入层，得到对应的特征嵌入向量，

将每个嵌入层输出的特征嵌入向量分别经过对应的底层神经网络结构，通过所述对应的底层神经网络结构学习出对应特征的特征信息表示，

通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果，

至少基于所述预测结果与所述标记之间的差异来调整所述神经网络模型；

其中，通过所述对应的底层神经网络结构学习出对应特征的特征信息表示的步骤还包括：将嵌入层输出的特征嵌入向量分别与对应的底层神经网络结构的输出进行函数运算，并将函数运算结果作为所述对应的底层神经网络模型所学习的特征信息表示。

2.如权利要求1所述的训练方法，其中，所述函数运算为按位相加或按位相乘运算。

3.如权利要求2所述的训练方法，其中，将嵌入层输出的特征嵌入向量分别与对应的底层神经网络结构的输出进行函数运算的步骤包括：将嵌入层输出的特征嵌入向量与对应的底层神经网络结构的输出进行维度统一，并对维度统一后的特征嵌入向量与对应的底层神经网络结构的输出进行函数运算。

4.如权利要求3所述的训练方法，其中，所述维度统一的步骤包括：对嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出中的至少一个进行占位填充，使得嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出维度相同。

5.如权利要求3所述的训练方法，其中，所述维度统一的步骤包括：将嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出中的至少一个与变换矩阵相乘，使得嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出维度相同。

6.如权利要求5所述的训练方法，其中，所述变换矩阵是在基于训练样本来训练所述神经网络模型的过程中被学习出的。

7.如权利要求1所述的训练方法，其中，所述至少一个特征是离散特征，或者所述至少一个特征是对连续特征进行离散化处理之后得到的离散化的特征，

其中，所述方法还包括：

将训练样本的至少一个连续特征经过对应的底层神经网络结构，通过该对应的底层神经网络结构学习出对应连续特征的特征信息表示。

8.如权利要求7所述的训练方法，还包括：

将所述至少一个连续特征与对应的底层神经网络结构的输出进行函数运算，并将函数运算结果作为该对应的底层神经网络模型输出的特征信息表示。

9.如权利要求1所述的训练方法，其中，通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果的步骤包括：通过所述上层神经网络结构至少基于所述一个或更多个底层神经网络结构输出的特征信息表示和至少一个嵌入层输出的特征嵌入向量来学习出预测结果。

10.如权利要求1或8所述的训练方法，其中，在所述函数运算中所使用的函数的参数是在基于训练样本来训练所述神经网络模型的过程中被学习出的。

11.如权利要求1至9中任意一项所述的训练方法，其中，

所述上层神经网络结构是单层级神经网络结构。

12.如权利要求1至9中任意一项所述的训练方法，其中，

所述上层神经网络结构是双层级神经网络结构，其中，所述双层级神经网络结构包括：

第一层级神经网络结构，包括多个中间模型；以及

第二层级神经网络结构，包括单个顶层神经网络模型，

其中，通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果的步骤包括：

通过第一层级神经网络结构的所述多个中间模型来分别学习出对应的至少一个特征信息表示、至少一个特征嵌入向量和/或至少一个特征之间的交互表示；

至少基于第一层级神经网络结构输出的交互表示，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果。

13.如权利要求12所述的训练方法，其中，至少基于第一层级神经网络结构输出的交互表示，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果的步骤包括：

基于第一层级神经网络结构输出的交互表示连同至少一个特征信息表示、至少一个特征嵌入向量和/或至少一个特征，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果。

14.一种神经网络模型的训练***，所述***包括：

数据获取装置，用于获取训练数据记录；

样本生成装置，用于基于训练数据记录的属性信息来生成训练样本的特征，并将训练数据记录的标记作为训练样本的标记；以及

训练装置，用于基于训练样本来训练所述神经网络模型，

其中，所述神经网络模型包括一个或更多个嵌入层、一个或更多个底层神经网络结构、以及上层神经网络结构，所述神经网络模型用于预测图像类别、预测图像中文字、预测文本类别或预测语音情感类别，

其中，在基于训练样本来训练所述神经网络模型的过程中，训练装置将训练样本的至少一个特征经过对应的嵌入层，得到对应的特征嵌入向量，将每个嵌入层输出的特征嵌入向量分别经过对应的底层神经网络结构，通过所述对应的底层神经网络结构学习出对应特征的特征信息表示，通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果，并至少基于所述预测结果与所述标记之间的差异来调整所述神经网络模型；

其中，训练装置还将嵌入层输出的特征嵌入向量分别与对应的底层神经网络结构的输出进行函数运算，并将函数运算结果作为所述对应的底层神经网络模型所学习的特征信息表示。

15.如权利要求14所述的训练***，其中，所述函数运算为按位相加或按位相乘运算。

16.如权利要求15所述的训练***，其中，训练装置将嵌入层输出的特征嵌入向量分别与对应的底层神经网络结构的输出进行函数运算的操作包括：将嵌入层输出的特征嵌入向量与对应的底层神经网络结构的输出进行维度统一，并对维度统一后的特征嵌入向量与对应的底层神经网络结构的输出进行函数运算。

17.如权利要求16所述的训练***，其中，训练装置通过以下操作进行维度统一：对嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出中的至少一个进行占位填充，使得嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出维度相同。

18.如权利要求16所述的训练***，其中，训练装置通过以下操作进行维度统一：将嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出中的至少一个与变换矩阵相乘，使得嵌入层输出的特征嵌入向量和对应的底层神经网络结构的输出维度相同。

19.如权利要求18所述的训练***，其中，所述变换矩阵是在基于训练样本来训练所述神经网络模型的过程中被学习出的。

20.如权利要求14所述的训练***，其中，所述至少一个特征是离散特征，或者所述至少一个特征是对连续特征进行离散化处理之后得到的离散化的特征，

其中，训练装置还将训练样本的至少一个连续特征经过对应的底层神经网络结构，通过该对应的底层神经网络结构学习出对应连续特征的特征信息表示。

21.如权利要求20所述的训练***，其中，训练装置还将所述至少一个连续特征与对应的底层神经网络结构的输出进行函数运算，并将函数运算结果作为该对应的底层神经网络模型输出的特征信息表示。

22.如权利要求14所述的训练***，其中，训练装置通过上层神经网络结构来至少基于所述一个或更多个底层神经网络结构输出的特征信息表示学习出预测结果的操作包括：通过所述上层神经网络结构至少基于所述一个或更多个底层神经网络结构输出的特征信息表示和至少一个嵌入层输出的特征嵌入向量来学习出预测结果。

23.如权利要求14或21所述的训练***，其中，在所述函数运算中所使用的函数的参数是在基于训练样本来训练所述神经网络模型的过程中被学习出的。

24.如权利要求14至22中任意一项所述的训练***，其中，

所述上层神经网络结构是单层级神经网络结构。

25.如权利要求14至22中任意一项所述的训练***，其中，

第一层级神经网络结构，包括多个中间模型；以及

第二层级神经网络结构，包括单个顶层神经网络模型，

其中，训练装置通过第一层级神经网络结构的所述多个中间模型来分别学习出对应的至少一个特征信息表示、至少一个特征嵌入向量和/或至少一个特征之间的交互表示，并且至少基于第一层级神经网络结构输出的交互表示，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果。

26.如权利要求25所述的训练***，其中，训练装置至少基于第一层级神经网络结构输出的交互表示，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果的操作包括：基于第一层级神经网络结构输出的交互表示连同至少一个特征信息表示、至少一个特征嵌入向量和/或至少一个特征，通过第二层级神经网络结构的单个顶层神经网络模型来学习出预测结果。

27.一种计算机可读介质，其中，在所述计算机可读介质上记录有用于由一个或多个计算装置执行如权利要求1至13中的任一权利要求所述的方法的计算机程序。

28.一种包括一个或多个计算装置和一个或多个存储装置的***，其中，所述一个或多个存储装置上记录有指令，所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现如权利要求1至13中的任一权利要求所述的方法。

29.一种利用神经网络模型执行预测的方法，所述方法包括：

获取预测数据记录；

基于预测数据记录的属性信息来生成预测样本的特征；以及

利用如权利要求1至13之中的任一权利要求所训练出的神经网络模型，针对预测样本来提供相应的预测结果。

30.一种利用神经网络模型执行预测的预测***，所述预测***包括：

数据获取装置，获取预测数据记录；

样本生成装置，基于预测数据记录的属性信息来生成预测样本的特征；以及

预测装置，利用如权利要求1至13之中的任一权利要求所训练出的神经网络模型，针对预测样本来提供相应的预测结果。

31.一种计算机可读介质，其中，在所述计算机可读介质上记录有用于由一个或多个计算装置执行如权利要求29所述的方法的计算机程序。

32.一种包括一个或多个计算装置和一个或多个存储装置的***，所述一个或多个存储装置上记录有指令，所述指令在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现如权利要求29所述的方法。