CN109726808A

CN109726808A - 神经网络训练方法和装置、存储介质及电子装置

Info

Publication number: CN109726808A
Application number: CN201711037964.3A
Authority: CN
Inventors: 杨夏; 张力柯
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2019-05-07
Anticipated expiration: 2037-10-27
Also published as: CN109726808B; WO2019080900A1

Abstract

本发明公开了一种神经网络训练方法和装置、存储介质及电子装置。其中，该方法包括：获取用于训练人机交互应用中的神经网络的离线样本集合，其中，离线样本集合中包括满足预定配置条件的离线样本；使用离线样本集合离线训练初始神经网络，得到对象神经网络，其中，在人机交互应用中，对象神经网络的处理能力高于初始神经网络的处理能力；将对象神经网络接入人机交互应用的在线运行环境进行在线训练，得到目标神经网络。本发明解决了相关技术提供的神经网络训练方法中存在的训练效率较低的技术问题。

Description

神经网络训练方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种神经网络训练方法和装置、存储介质及电子装置。

背景技术

深度Q网络(Deep Q Network，简称DQN)算法是一种融合卷积神经网络和Q-Learning的方法，应用于深度增强学习(Deep Reinforcement Learning，简称DRL)中，其中，深度增强学习DRL是将深度学习和增强学习结合起来，从而实现从感知到动作的端到端学习的一种全新的算法。也就是说，在输入感知信息之后，通过深度神经网络，直接输出动作，以使机器人实现完全自主的学习甚至多种技能的潜力，从而实现人工智能(ArtificialIntelligence，简称AI)操作。为了使机器人更好的完成自主学习，以熟练应用于不同的场景中，通过训练以快速准确地获取神经网络，就成为当前迫切需要的问题。

目前，用于接入在线训练环境训练神经网络的样本对象，通常级别很低，在训练初期时，有很大概率是做出随机动作，虽然可以很好地探索训练环境的状态空间，但却延长了训练时间，此外，由于级别很低，往往需要在训练环境中进行不断地探索学习，才能达到一定的训练目的。

也就是说，相关技术中提供的神经网络训练方法所需训练时间较长，从而导致神经网络训练效率较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种神经网络训练方法和装置、存储介质及电子装置，以至少解决相关技术提供的神经网络训练方法中存在的训练效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种神经网络训练方法，包括：获取用于训练人机交互应用中的神经网络的离线样本集合，其中，上述离线样本集合中包括满足预定配置条件的离线样本；使用上述离线样本集合离线训练初始神经网络，得到对象神经网络，其中，在上述人机交互应用中，上述对象神经网络的处理能力高于上述初始神经网络的处理能力；将上述对象神经网络接入上述人机交互应用的在线运行环境进行在线训练，得到目标神经网络。

根据本发明实施例的另一方面，还提供了一种神经网络训练装置，包括：获取单元，用于获取用于训练人机交互应用中的神经网络的离线样本集合，其中，上述离线样本集合中包括满足预定配置条件的离线样本；离线训练单元，用于使用上述离线样本集合离线训练初始神经网络，得到对象神经网络，其中，在上述人机交互应用中，上述对象神经网络的处理能力高于上述初始神经网络的处理能力；在线训练单元，用于将上述对象神经网络接入上述人机交互应用的在线运行环境进行在线训练，得到目标神经网络。

根据本发明实施例的又一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，上述程序运行时执行上述的方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序，上述处理器通过上述计算机程序执行上述的方法。

在本发明实施例中，利用获取到的用于训练人机交互应用中的神经网络的离线样本集合，离线训练初始神经网络，以得到对象神经网络，其中，该对象神经网络的处理能力高于初始神经网络的处理能力。然后，将上述对象神经网络接入人机交互应用的在线运行环境，以实现在线训练，从而得到与人机交互应用匹配的目标神经网络。也就是说，通过预先获取满足预定配置条件的离线样本集合，来对初始神经网络进行离线训练，得到处理能力较高的对象神经网络，而不再是将初始神经网络接入在线运行环境直接进行在线训练，从而克服目前相关技术中提供的仅能通过在线训练得到目标神经网络所导致的训练时长较长，训练效率较低的问题。此外，利用离线样本集合离线训练得到对象神经网络，还扩大了用于进行神经网络训练的样本范围，以便于得到更优质或不同等级的离线样本，进一步保证了神经网络训练的训练效率。进而解决了相关技术提供的神经网络训练方法中存在的训练效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的神经网络训练方法的硬件环境示意图；

图2是根据本发明实施例的一种可选的神经网络训练方法的流程图；

图3是根据本发明实施例的一种可选的神经网络训练方法的应用示意图；

图4是根据本发明实施例的一种可选的神经网络训练方法的示意图；

图5是根据本发明实施例的另一种可选的神经网络训练方法的示意图；

图6是根据本发明实施例的另一种可选的神经网络训练方法的流程图；

图7是根据本发明实施例的又一种可选的神经网络训练方法的流程图；

图8是根据本发明实施例的一种可选的神经网络训练装置的示意图；

图9是根据本发明实施例的另一种可选的神经网络训练方法的示意图；

图10是根据本发明实施例的一种可选的电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

在本发明实施例中，提供了一种上述神经网络训练方法的实施例。作为一种可选的实施方式，该神经网络训练方法可以但不限于应用于如图1所示的应用环境中，终端102中安装有人机交互应用的客户端，如人机交互应用以游戏应用为例进行说明，对象A为用户操控对象，对象B为机器操控对象。通过运行人机交互应用以获取离线样本，存储到数据库104中，其中，该数据库104可以但不限于位于训练控制服务器中，也可以但不限于位于第三方独立的服务器中；进一步，获取满足预定配置条件的离线样本所构成的用于训练神经网络的离线样本集合。并使用该离线样本集合在终端106中离线训练初始神经网络，以得到对象神经网络，其中，该对象神经网络的处理能力高于初始神经网络的处理能力。然后，将终端106中离线训练得到的对象神经网络通过网络108接入人机交互应用的在线运行环境，以实现在线训练，从而得到与人机交互应用匹配的目标神经网络。

在本实施例中，利用获取到的用于训练人机交互应用中的神经网络的离线样本集合，离线训练初始神经网络，以得到对象神经网络，其中，该对象神经网络的处理能力高于初始神经网络的处理能力。然后，将上述对象神经网络接入人机交互应用的在线运行环境，以实现在线训练，从而得到与人机交互应用匹配的目标神经网络。也就是说，通过预先获取满足预定配置条件的离线样本集合，来对初始神经网络进行离线训练，得到处理能力较高的对象神经网络，而不再是将初始神经网络接入在线运行环境直接进行在线训练，从而克服目前相关技术中提供的仅能通过在线训练得到目标神经网络所导致的训练时长较长，训练效率较低的问题。此外，利用离线样本集合离线训练得到对象神经网络，还扩大了用于进行神经网络训练的样本范围，以便于得到更优质或不同等级的离线样本，进一步保证了神经网络训练的训练效率。

可选地，在本实施例中，上述终端可以包括但不限于以下至少之一：手机、平板电脑、笔记本电脑、台式PC机、数字电视及其他可以运行人机交互应用的硬件设备。上述网络可以包括但不限于以下至少之一：广域网、城域网、局域网。上述只是一种示例，本实施例对此不做任何限定。

根据本发明实施例，提供了一种神经网络训练方法，如图2所示，该方法包括：

S202，获取用于训练人机交互应用中的神经网络的离线样本集合，其中，离线样本集合中包括满足预定配置条件的离线样本；

S204，使用离线样本集合离线训练初始神经网络，得到对象神经网络，其中，在人机交互应用中，对象神经网络的处理能力高于初始神经网络的处理能力；

S206，将对象神经网络接入人机交互应用的在线运行环境进行在线训练，得到目标神经网络。

可选地，在本实施例中，上述神经网络训练方法可以但不限于应用于以下人机交互应用的场景中：1)人机对抗类应用中，训练得到的目标神经网络用于与在线账号实现人机对抗过程；2)挂机对抗应用中，训练得到的目标神经网络可以代替在线账号，继续后续的人机对抗过程。也就是说，通过本实施例中提供的利用离线样本集合经过离线训练和在线训练得到的具备多项技能的目标神经网络，来完成在人机交互应用中的智能操作。

需要说明的是，在本实施例中，通过预先获取满足预定配置条件的离线样本集合，来对初始神经网络进行离线训练，得到处理能力较高的对象神经网络，而不再是将初始神经网络接入在线运行环境直接进行在线训练，从而克服目前相关技术中提供的仅能通过在线训练得到目标神经网络所导致的训练时长较长，训练效率较低的问题。此外，利用离线样本集合离线训练得到对象神经网络，还扩大了用于进行神经网络训练的样本范围，以便于得到更优质或不同等级的离线样本，进一步保证了神经网络训练的训练效率。

可选地，在本实施例中，上述不同应用场景中的目标神经网络可以包括但不限于通过以下在线训练方式得到：

1)将对象神经网络接入人机交互应用的在线运行环境，与人机交互应用中的在线账号进行在线对抗训练；或者

2)将对象神经网络接入人机交互应用的在线运行环境，替代人机交互应用中的第一在线账号，继续与第二在线账号进行在线对抗训练。

需要说明的是，在线账号可以但不限于为人机交互应用中的用户控制账号，如以图3所示为例进行说明，对象A可以为用户操控对象，对象B为机器操控对象，用于得到上述目标神经网络的对象神经网络可以但不限于为对象B，通过在线对抗训练，来进一步完善对象神经网络中的权重值，得到对应的目标神经网络；此外，仍以图3所示为例进行说明，对象A可以为用户操控对象，对象B也可以用户操控对象，在对象A运行一段时间且选择挂机操作后，可以但不限于将对象A替换为对象神经网络，通过与对象B继续进行人机对抗过程，来进一步完善对象神经网络中的权重值，得到对应的目标神经网络。

可选地，在本实施例中，使用离线样本集合离线训练初始神经网络，得到对象神经网络包括：

1)在预定配置条件指示获取高等级对象神经网络的情况下，使用高等级离线样本集合训练得到高等级对象神经网络，其中，高等级离线样本集合中的离线样本在人机交互应用中的运行结果高于预定阈值；或者

2)在预定配置条件指示获取多个等级的对象神经网络的情况下，分别使用每个等级的离线样本集合训练得到对应等级的对象神经网络，其中，多个等级的离线样本集合中的离线样本在人机交互应用中的运行结果分别处在不同的目标阈值范围内，其中，多个等级的对象神经网络至少包括第一等级对象网络，第二等级对象网络，其中，第一等级对象网络的处理能力高于第二等级对象网络的处理能力。

需要说明的是，在本实施例中，上述目标神经网络可以但不限于根据不同离线样本集合中的离线样本的交互水平，而训练得到具有不同等级的交互水平的神经网络。例如，上述方式1)，从离线样本中获取运行结果高于预定阈值的优质离线样本，通过离线训练得到高等级对象神经网络，以提升人机对抗中机器的胜率，从而吸引更多用户账号参与人机交互应用；上述方式2)，从离线样本中获取运行结果分别处在不同的目标阈值范围内的多个等级的离线样本集合，通过离线训练得到多个等级的对象神经网络，以丰富人机交互中的对抗层级。

可选地，在本实施例中，上述离线样本可以但不限于通过以下方式获取：在使用训练账号运行人机交互应用的过程中，采集训练账号在每个状态帧内的交互参数的参数值，其中，交互参数包括：交互状态、交互动作、交互反馈激励；根据交互参数的参数值获取离线样本。

需要说明的是，可以但不限于指在人机交互应用运行的过程中按照帧序号依次逐帧显示每一个状态帧，并采集每一个状态帧内的交互参数的参数值，以得到每一个交互参数的参数值的帧序列，进而利用该帧序列获取离线样本。其中，交互状态可以但不限于根据人机交互应用的交互画面确定，交互动作可以但不限于根据人机交互应用中收到的交互操作确定，交互反馈激励可以但不限于根据与人机交互应用的应用类型匹配的交互反馈激励参数的参数值确定。

通过本申请提供的实施例，通过预先获取满足预定配置条件的离线样本集合，来对初始神经网络进行离线训练，得到处理能力较高的对象神经网络，而不再是将初始神经网络接入在线运行环境直接进行在线训练，从而克服目前相关技术中提供的仅能通过在线训练得到目标神经网络所导致的训练时长较长，训练效率较低的问题。此外，利用离线样本集合离线训练得到对象神经网络，还扩大了用于进行神经网络训练的样本范围，以便于得到更优质或不同等级的离线样本，进一步保证了神经网络训练的训练效率。

作为一种可选的方案，获取用于训练人机交互应用中的神经网络的离线样本集合包括：

S1，获取使用训练账号运行人机交互应用后得到的离线样本；

S2，根据预定配置条件从获取到的离线样本中筛选得到离线样本集合。

可选地，在本实施例中，获取使用训练账号运行人机交互应用后得到的离线样本包括：

S11，在使用训练账号运行人机交互应用的过程中，采集训练账号在每个状态帧内的交互参数的参数值，其中，交互参数包括：交互状态、交互动作、交互反馈激励；

S12，根据交互参数的参数值获取离线样本。

需要说明的是，在本实施例中，交互反馈激励是由DQN算法在人机交互应用中，根据交互状态的变化计算得到当前状态对动作的反馈激励值，以得到上述交互反馈激励的参数值。具体的计算公式可以但不限于根据不同类型的人机交互应用而设置为不同公开。例如，以多人互动游戏应用为例，上述交互反馈激励的参数可以但不限于为每个角色对象的血量，在训练过程中获取到训练账号血量较高时，可以配置正激励反馈值，否则，配置负激励反馈值。又例如，以距离竞技类应用为例，上述交互反馈激励的参数可以但不限于为已完成的里程，在训练过程中获取到训练账号完成的里程越远时，可以配置激励反馈值越大，否则，配置激励反馈值越小。上述仅是一种示例，本实施例中对此不做任何限定。此外，在本实施例中，上述交互反馈激励的参数可以但不限于按照状态帧的帧序号依次记录。

具体结合如图4所示的示例进行说明，在人机交互应用运行的过程中，采集交互状态st，记录得到状态帧序列(s0，s1…st)；获取动作输出以采集交互动作at，记录得到动作帧序列(a0，a1…at)；进一步计算交互反馈激励参数的参数值以确定交互反馈激励的参数值rt，记录得到反馈激励帧序列(r0，r1…rt)。并将上述采集得到的中间样本，进一步，通过组合上述中间样本以得到离线样本，并将组合确定的离线样本存储到离线样本库中。

在本实施例中，将上述交互状态，交互动作，交互反馈激励三部分的采集数据按状态帧的帧序号进行同步组合，以生成离线样本，如DQN样本，进一步将生成的DQN样本保存到离线样本库中。

作为一种可选的方案，根据交互参数的参数值获取离线样本包括：

S1，根据第i个状态帧内的交互参数的参数值，及第i+1个状态帧内的交互参数的参数值，组合确定离线样本，其中，i大于等于1，小于等于N，N为运行一次人机交互应用的总帧数量。

具体结合图5所示进行说明，上述离线样本可以但不限于为一个四元组(s,a,r,s’)，其含义分别为：

s：第i个状态帧内的交互状态(state，简称s)

a：第i个状态帧内的交互动作(action，简称a)

r：第i个状态帧内的交互做出交互状态s下，做出动作a后，获得的交互反馈激励(reward，简称r)

s’:第i+1个状态帧内的交互状态(next state，简称s’)

如图5所示，将当前时刻第i个状态帧内的交互参数的参数值，与下一时刻第i+1个状态帧内的交互参数的参数值进行组合，从而得到右侧的一组离线样本。实际上为当前状态帧的交互参数的参数值与下一状态帧的交互参数的交互参数值相组合。

在本实施例中，通过将第i个状态帧内的交互参数的参数值，及第i+1个状态帧内的交互参数的参数值，组合确定离线样本，可以生成准确的离线样本数据，以加速神经网络的收敛过程。

作为一种可选的方案，采集训练账号在每个状态帧内的交互参数的参数值包括以下至少之一：

1)采集每个状态帧内的交互状态的状态标识，得到使用训练账号运行人机交互应用的过程中的状态帧序列；

2)采集每个状态帧内的交互动作的动作标识，得到使用训练账号运行人机交互应用的过程中的动作帧序列；

3)获取与人机交互应用的应用类型匹配的交互反馈激励参数；计算交互反馈激励参数的参数值，得到使用训练账号运行人机交互应用的过程中的反馈激励帧序列。

以如图4所示的示例进行说明，在人机交互应用运行的过程中，采集交互状态st，记录得到状态帧序列(s0，s1…st)；获取动作输出以采集交互动作at，记录得到动作帧序列(a0，a1…at)；进一步计算交互反馈激励参数的参数值以确定交互反馈激励的参数值rt，记录得到反馈激励帧序列(r0，r1…rt)。

在本实施例中，获取各个状态帧内的交互状态、交互动作。根据交互反馈激励参数获取交互反馈激励参数的参数值从而得到在人机交互应用过程中对应的状态帧序列，动作帧序列以及反馈激励帧序列，以便于组合得到DQN(神经网络)离线样本。

作为一种可选的方案，采集每个状态帧内的交互状态的状态标识包括：

S1，截屏每个状态帧内的交互状态的状态画面；

S2，根据状态画面确定交互状态的状态标识。

具体结合图6所示进行说明，采集每个状态帧内的交互状态的状态标识，具体包括以下步骤：

S602，启动终端内的实时截屏模块；

S604，运行人机交互应用；

S606，在运行人机交互应用的过程中，实时截屏状态帧内的状态画面；

S608，得到多个状态画面，按照帧序号存储得到状态帧序列。

在本实施例中，截屏每个状态帧的交互状态的状态画面，然后根据状态画面确定交互状态的状态标识，以实现在人机交互应用运行的过程中，实时采集每个状态帧内的交互状态的状态标识。

作为一种可选的方案，采集每个状态帧内的交互动作的动作标识包括：

1)采集触屏操作；获取在人机交互应用中与触屏操作对应的交互动作的动作标识；或者

2)采集外部设备的输入事件，其中，输入事件包括以下至少之一：键盘输入事件、体感输入事件、传感设备输入事件；获取在人机交互应用中与输入事件对应的交互动作的动作标识。

以下对采集触屏操作以及采集外部设备的输入事件进行具体说明：

(1)首先以采集触屏操作为例进行说明，通常会在移动终端上进行采集触屏操作，移动终端上的人机交互应用中，通常以下几种操作模式：触摸按键、触摸屏上万向***作、终端内的陀螺仪操作、电子屏幕触摸操作等，主要通过将交互动作映射到移动终端上的触摸按键、触摸屏上的万向轮、触摸屏等，通过移动终端或交互应用内的动作采集模块监听键盘事件，在获取到相应的事件后，记录该事件对应的动作，以保存动作帧序列。

(2)通常外部设备包括键盘、红外线感知、温度传感器等，该外部设备可以根据相应的操作对交互应用进行事件输入。以外部设备为键盘为例进行说明，如图7所示，采集外部设备的输入事件的步骤包括以下步骤:

S702，先将人机交互应用中所需的交互动作映射到键盘中，建立键盘事件；

S704，然后通过动作采集模块监听键盘事件；

S706，在获取到键盘事件；

S708，录该键盘事件对应的动作，以保存动作帧序列。

在本实施例中，采集每个状态帧内的交互动作的动作标识包括应用于终端上的采集触屏操作以及采集外部设备的输入事件，提供了采集交互动作的动作标识的多种方式，提高了交互应用采集动作标识的范围。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述神经网络训练方法的神经网络训练装置，如图8所示，该装置包括：

1)获取单元802，用于获取用于训练人机交互应用中的神经网络的离线样本集合，其中，离线样本集合中包括满足预定配置条件的离线样本；

2)离线训练单元804，用于使用离线样本集合离线训练初始神经网络，得到对象神经网络，其中，在人机交互应用中，对象神经网络的处理能力高于初始神经网络的处理能力；

3)在线训练单元806，用于将对象神经网络接入人机交互应用的在线运行环境进行在线训练，得到目标神经网络。

作为一种可选的方案，如图9所示，获取单元802包括：

1)获取模块902，用于获取使用训练账号运行人机交互应用后得到的离线样本；

2)筛选模块904，用于根据预定配置条件从获取到的离线样本中筛选得到离线样本集合。

作为一种可选的方案，获取模块包括：

1)采集子模块，用于在使用训练账号运行人机交互应用的过程中，采集训练账号在每个状态帧内的交互参数的参数值，其中，交互参数包括：交互状态、交互动作、交互反馈激励；

2)获取子模块，用于根据交互参数的参数值获取离线样本。

作为一种可选的方案，获取子模块通过以下步骤实现根据交互参数的参数值获取离线样本：

1)根据第i个状态帧内的交互参数的参数值，及第i+1个状态帧内的交互参数的参数值，组合确定离线样本，其中，i大于等于1，小于等于N，N为运行一次人机交互应用的总帧数量。

s：第i个状态帧内的交互状态(state，简称s)

a：第i个状态帧内的交互动作(action，简称a)

s’:第i+1个状态帧内的交互状态(next state，简称s’)

作为一种可选的方案，采集子模块通过以下至少一种方式采集训练账号在每个状态帧内的交互参数的参数值：

作为一种可选的方案，采集子模块通过以下步骤采集每个状态帧内的交互状态的状态标识：

S1，截屏每个状态帧内的交互状态的状态画面；

S2，根据状态画面确定交互状态的状态标识。

S602，启动终端内的实时截屏模块；

S604，运行人机交互应用；

S608，得到多个状态画面，按照帧序号存储得到状态帧序列。

作为一种可选的方案，采集子模块通过以下步骤采集每个状态帧内的交互动作的动作标识：

S704，然后通过动作采集模块监听键盘事件；

S706，在获取到键盘事件；

S708，录该键盘事件对应的动作，以保存动作帧序列。

实施例3

根据本发明实施例，还提供了一种用于实施上述神经网络训练方法的电子装置，如图10所示，该电子装置包括：一个或多个(图中仅示出一个)处理器1002、存储器1004、显示器1006、用户接口1008、传输装置1010。其中，存储器1004可用于存储软件程序以及模块，如本发明实施例中的安全漏洞检测方法和装置对应的程序指令/模块，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的***漏洞攻击的检测方法。存储器1004可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1010用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1010包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1010为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1004用于存储预设动作条件和预设权限用户的信息、以及应用程序。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以位于的网络中的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，获取用于训练人机交互应用中的神经网络的离线样本集合，其中，离线样本集合中包括满足预定配置条件的离线样本；

S2，使用离线样本集合离线训练初始神经网络，得到对象神经网络，其中，在人机交互应用中，对象神经网络的处理能力高于初始神经网络的处理能力；

S3，将对象神经网络接入人机交互应用的在线运行环境进行在线训练，得到目标神经网络。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

S1，在使用训练账号运行人机交互应用的过程中，采集训练账号在每个状态帧内的交互参数的参数值，其中，交互参数包括：交互状态、交互动作、交互反馈激励；

S2，根据交互参数的参数值获取离线样本。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种神经网络训练方法，其特征在于，包括：

获取用于训练人机交互应用中的神经网络的离线样本集合，其中，所述离线样本集合中包括满足预定配置条件的离线样本；

使用所述离线样本集合离线训练初始神经网络，得到对象神经网络，其中，在所述人机交互应用中，所述对象神经网络的处理能力高于所述初始神经网络的处理能力；

将所述对象神经网络接入所述人机交互应用的在线运行环境进行在线训练，得到目标神经网络。

2.根据权利要求1所述的方法，其特征在于，所述获取用于训练人机交互应用中的神经网络的离线样本集合包括：

获取使用训练账号运行所述人机交互应用后得到的离线样本；

根据所述预定配置条件从获取到的所述离线样本中筛选得到所述离线样本集合。

3.根据权利要求2所述的方法，其特征在于，所述获取使用训练账号运行所述人机交互应用后得到的离线样本包括：

在使用所述训练账号运行所述人机交互应用的过程中，采集所述训练账号在每个状态帧内的交互参数的参数值，其中，所述交互参数包括：交互状态、交互动作、交互反馈激励；

根据所述交互参数的参数值获取所述离线样本。

4.根据权利要求3所述的方法，其特征在于，所述根据所述交互参数的参数值获取所述离线样本包括：

根据第i个状态帧内的所述交互参数的参数值，及第i+1个状态帧内的所述交互参数的参数值，组合确定所述离线样本，其中，i大于等于1，小于等于N，N为运行一次所述人机交互应用的总帧数量。

5.根据权利要求3所述的方法，其特征在于，所述采集所述训练账号在每个状态帧内的交互参数的参数值包括以下至少之一：

采集每个所述状态帧内的所述交互状态的状态标识，得到使用所述训练账号运行所述人机交互应用的过程中的状态帧序列；

采集每个所述状态帧内的所述交互动作的动作标识，得到使用所述训练账号运行所述人机交互应用的过程中的动作帧序列；

获取与所述人机交互应用的应用类型匹配的交互反馈激励参数；计算所述交互反馈激励参数的参数值，得到使用所述训练账号运行所述人机交互应用的过程中的反馈激励帧序列。

6.根据权利要求5所述的方法，其特征在于，所述采集每个所述状态帧内的所述交互状态的状态标识包括：

截屏每个所述状态帧内的所述交互状态的状态画面；

根据所述状态画面确定所述交互状态的状态标识。

7.根据权利要求5所述的方法，其特征在于，所述采集每个所述状态帧内的所述交互动作的动作标识包括：

采集触屏操作；获取在所述人机交互应用中与所述触屏操作对应的所述交互动作的所述动作标识；或者

采集外部设备的输入事件，其中，所述输入事件包括以下至少之一：键盘输入事件、体感输入事件、传感设备输入事件；获取在所述人机交互应用中与所述输入事件对应的所述交互动作的所述动作标识。

8.根据权利要求1所述的方法，其特征在于，所述使用所述离线样本集合离线训练初始神经网络，得到对象神经网络包括：

在所述预定配置条件指示获取高等级对象神经网络的情况下，使用高等级离线样本集合训练得到所述高等级对象神经网络，其中，所述高等级离线样本集合中的所述离线样本在所述人机交互应用中的运行结果高于预定阈值；或者

在所述预定配置条件指示获取多个等级的对象神经网络的情况下，分别使用每个等级的离线样本集合训练得到对应等级的对象神经网络，其中，多个等级的离线样本集合中的离线样本在所述人机交互应用中的运行结果分别处在不同的目标阈值范围内，其中，所述多个等级的对象神经网络至少包括第一等级对象网络，第二等级对象网络，其中，所述第一等级对象网络的处理能力高于所述第二等级对象网络的处理能力。

9.根据权利要求1所述的方法，其特征在于，所述将所述对象神经网络接入所述人机交互应用的在线运行环境进行在线训练，得到目标神经网络包括：

将所述对象神经网络接入所述人机交互应用的所述在线运行环境，与所述人机交互应用中的在线账号进行在线对抗训练；或者

将所述对象神经网络接入所述人机交互应用的所述在线运行环境，替代所述人机交互应用中的第一在线账号，继续与第二在线账号进行在线对抗训练。

10.一种神经网络训练装置，其特征在于，包括：

获取单元，用于获取用于训练人机交互应用中的神经网络的离线样本集合，其中，所述离线样本集合中包括满足预定配置条件的离线样本；

离线训练单元，用于使用所述离线样本集合离线训练初始神经网络，得到对象神经网络，其中，在所述人机交互应用中，所述对象神经网络的处理能力高于所述初始神经网络的处理能力；

在线训练单元，用于将所述对象神经网络接入所述人机交互应用的在线运行环境进行在线训练，得到目标神经网络。

11.根据权利要求10所述的装置，其特征在于，所述获取单元包括：

获取模块，用于获取使用训练账号运行所述人机交互应用后得到的离线样本；

筛选模块，用于根据所述预定配置条件从获取到的所述离线样本中筛选得到所述离线样本集合。

12.根据权利要求11所述的装置，其特征在于，所述获取模块包括：

采集子模块，用于在使用所述训练账号运行所述人机交互应用的过程中，采集所述训练账号在每个状态帧内的交互参数的参数值，其中，所述交互参数包括：交互状态、交互动作、交互反馈激励；

获取子模块，用于根据所述交互参数的参数值获取所述离线样本。

13.根据权利要求12所述的装置，其特征在于，所述获取子模块通过以下步骤实现根据所述交互参数的参数值获取所述离线样本：

14.根据权利要求12所述的装置，其特征在于，所述采集子模块通过以下至少一种方式采集所述训练账号在每个状态帧内的交互参数的参数值：

15.根据权利要求14所述的装置，其特征在于，所述采集子模块通过以下步骤采集每个所述状态帧内的所述交互状态的状态标识：

截屏每个所述状态帧内的所述交互状态的状态画面；

根据所述状态画面确定所述交互状态的状态标识。

16.根据权利要求15所述的装置，其特征在于，所述采集子模块通过以下步骤采集每个所述状态帧内的所述交互动作的动作标识：

17.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至9任一项中所述的方法。

18.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。