CN103324807A

CN103324807A - 基于多Agent行为模型的音乐灯光表演方案设计***的设计方法

Info

Publication number: CN103324807A
Application number: CN2013102810776A
Authority: CN
Inventors: 林景栋; 王唯; 廖孝勇; 程森林; 林湛丁; 张东京; 吴芳; 徐大发
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2013-07-04
Filing date: 2013-07-04
Publication date: 2013-09-25
Anticipated expiration: 2033-07-04
Also published as: CN103324807B

Abstract

本发明公开了基于多Agent行为模型的音乐灯光表演方案设计***的设计方法,具体包括以下步骤：（1）设计一个可根据实际场景布置选择相应知识库的音乐灯光表演方案设计***框架；（2）利用多Agent技术设计了一种模仿设计者的音乐灯光表演方案设计Agent群；（3）根据多Agent分层设计行为模型，采用Q学习算法以及经验知识，提出了一种可自学习的表演方案设计知识库；（4）总结了大型户外音乐灯光表演秀灯光场景布置的规律以及表演区域分类的基本思想。本发明能够解决场景布置的多样性所带来的知识库庞大且不完善的问题，能够更贴近人类设计者的设计思想设计出多样音乐灯光表演方案。

Description

基于多Agent行为模型的音乐灯光表演方案设计***的设计方法

技术领域

本发明涉及多Agent行为建模技术以及设计类专家***设计技术，特别涉及一种基于多Agent行为模型的音乐灯光表演方案设计***的设计方法。

背景技术

目前，针对现有一些音乐灯光表演方案设计***，主要是依据少量的领域专家经验和固定的模糊的场景设置概念在设计，对于设计者常见的灯光表演类型还是有效的。但是由于实际的项目情况多种多样，灯光场景的布置***，这样就导致了需要建立的知识库的知识数量无限化，这对专家***的设计难度以及运行效率都有极大的影响。

因此急需一种能够根据实际项目的特点来设计音乐灯光表演方案的设计***的设计方法。

发明内容

有鉴于此，本发明所要解决的技术问题是提供一种能够根据实际项目的特点来设计音乐灯光表演方案的设计***的设计方法；本方法使用多Agent行为建模技术获取音乐灯光表演方案设计知识，再运用到专家***中进行具体的音乐灯光表演方案自动设计。

本发明的目的是这样实现的：

本发明提供的基于多Agent行为模型的音乐灯光表演方案设计***的设计方法，包括以下步骤：

S1：采用多Agent模型建立用于音乐灯光表演方案设计***中的各Agent功能模块；

S2：根据灯光场景状态信息建立虚拟环境并在虚拟环境中建立音乐灯光表演方案设计***中所述各Agent功能模块的多Agent行为模型；所述多Agent行为模型用于将状态信息输入各Agent功能模块中，同时，每个Agent功能模块将执行指令返回给虚拟环境从而改变环境状态；

S3：根据多Agent行为模型，采用Q学习算法以及经验知识，建立自学习表演方案设计知识库，生成多个对应于不同场景布置的自学习知识库；

S4：根据具体项目特性替换更新音乐灯光表演方案设计***中的知识库；

S5：通过更新后的知识库由专家***完成具体项目的最终设计方案。

进一步，所述步骤S1中的音乐灯光表演方案设计***中各Agent功能模块包括从上到下依次管理的交互Agent层、场景布置Agent层、全局设计Agent层、局部设计Agent层、表演单元单灯Agent层；

所述交互Agent层，用于将用户的定性输入解释为应用***内部的精确指令以及驱动***的运行，在用户对***的使用过程中，交互Agent层能从和用户的信息交互中学习到用户的常用任务以及个人偏好，将***处理后的信息以用户喜欢的方式传递给用户。

所述场景布置Agent层，用于负责根据大量的户外灯光表演场景布置实例以及大众对户外灯光布置的规则自动生成各种场景布置方式，并按照一定的规则对生成的场景布置分区分类；

所述全局设计Agent层，用于根据输入动作来确定表演区域组合、表演基场景运用、表演主色调设置规则；所述全局设计Agent层包括感知器、认知模块、行为执行器；

所述感知器，用于接受全局状态以及音乐情感统计数据库的各种数据；

所述认知模块，用于根据Agent的目标以及相应的知识推理并控制Agent应该执行的行为，通讯负责Agent之间的发送与接收；

所述行为执行器，用于负责下发到局部设计Agent指令；

所述局部设计Agent层，用于根据输入动作来确定不同表演分区中灯种的使用组合、当前使用的单灯序列；所述局部设计Agent层包括感知器、认知模块、行为执行器；

所述感知器，用于负责感知局部环境状态以及音乐情感特征数据库的各种数据；

所述认知模块，用于模仿人类设计专家获取感知器所提取的当前信息并生成相应的灯光动作认知信息；

所述行为执行器，用于负责产生下发到单灯Agent的动作序列指令；

所述单灯Agent层，用于根据场景布置Agent层的信息来确定单灯Agent的数量；

以及根据周围环境判断单灯的下一个动作是否会与邻灯的动作冲突或者是否超出自身的动作物理限制。

进一步，所述步骤S3中采用Q学习算法以及经验知识，建立自学习表演方案设计知识库，生成多个对应于不同场景布置的自学习知识库，具体步骤如下：

S31：采用以下公式确定的Reward值作为强化信号：

Reward = (\begin{matrix} q_{1} P_{I (Q)} + q_{2} P_{Lxoy} + q_{3} P_{Lxoz} + q_{4} P_{Lyoz} + q_{5} P_{M (Q)} \\ + q_{6} P_{X (Q)} + q_{7} P_{W (Q)} + q_{8} P_{C (Q)} + q_{9} P_{H} + q_{10} P_{B} \end{matrix}) / 10

其中，q_n-各项评价指标的加权系数；P_*-各项指标评价分数；I_(Q)-照度；

L_xoy、L_xoz、L_yoz-XOY、XOZ、YOZ平面上光柱的映射斜率；M_(Q)-色彩利用率；X_(Q)-音乐情感指标参数；W_(Q)-动作重复率；C_(Q)-色彩使用率；H-动作重复率；B-灯光动静态动作时间比；

S32：构造模糊综合决策方法的决策集V和因素集U,设定Q学习算法的动作集A和状态集S，所述决策集V和动作集A分别为分配表演区域、设计整体色调与灯种配合方式、设计静态场景、设计动态场景、设计场景组合序列、设计动态场景表演序列；

所述因素集U和状态集S分别为颜色利用率、表演区域占有率、灯种利用率、静态场景效果、动态场景效果；

S33：依据专家经验知识，构造模糊评价矩阵R_f和权重集W，并按照模糊综合决策方法计算出优越程度向量B_i；

S34：利用归一化后的B_i作为Q学习的先验知识对状态S_i下的Q进行初始化；

S35：开始Q学习算法生成多个对应于不同场景布置的自学习知识库。

进一步，所述步骤S35中的进行Q学习算法，具体步骤如下：

S351：在决策时间段，当前设计状态为x,选择控制目标；

S352：针对控制目标，选择合适的Q值存储网络，对各行为计算Q值；

S353：根据一定规则，选择行为a值；

S354：执行行为a值，新的状态和Reward值为（y，r），其中，y表示新的设计状态，r表示Reward值；

S355：依据专家经验Reward阀值对x状态下的a动作的存储与否作出判断，以(x_n,a_i,r_i(x_n,a_i))的形式存储知识，其中，x_n表示第n个设计状态，a_i表示第i个动作，r_i(x_n,a_i)表示a_i动作下的x_n状态的评价Reward值；

S356：调整输入状态为x的a值，调整规则为：

ΔQ (x, i) = {\begin{matrix} α [r + γ \max_{b} Q (y, b) - Q (x, i)] \cdot \cdot \cdot b &Element; actions, i = a \\ 0 \cdot \cdot \cdot otherwise \end{matrix}

其中：γ为折扣系数；α为学习系数；ΔQ(x,i)表示动作i下的状态x所对应的Q函数值偏差，Q(y,b)表示动作b下的状态y所对应的Q函数值，Q(x,i)表示作i下的状态x所对应的Q函数值，actions表示动作集；

S357：转向执行步骤S351。

进一步，所述步骤S4中根据具体项目特性替换更新音乐灯光表演方案设计***中的知识库，具体步骤如下：

S41：采用智能编辑器通过人机交互的方式将相关领域专家***的经验知识录入浅层知识库，作为反应型规则使用并为之后的多Agent行为模型建立自学习知识库时的Q学习算法提供先验知识；

S42：建立具有自学习功能的多Agent行为模型，按场景布置生成相应的候选知识库；

S43：将音乐知识和灯光动作数据采用规则描述的表示方法建立知识库，根据实际项目的灯光场景状态建立待用知识库；

S44：根据实际项目的灯光场景布置类别归属选择替换成与之相对应的知识库，重新组建方案设计专家***进行针对性的方案设计。

进一步，所述场景布置Agent层根据大量的户外灯光表演场景布置实例以及大众对户外灯光布置的规则自动生成各种场景布置方式，并对生成的场景布置分区分类。

进一步，所述场景布置Agent层、全局设计Agent层、局部设计Agent层、单灯Agent层之间的组织结构为问题求解类组织结构，采用招标-投标-中标机制逐层管理模式控制。

本发明的优点在于：本发明采用设计一个可根据实际场景布置选择相应知识库的音乐灯光表演方案设计***框架；利用多Agent技术设计了一种模仿设计者的音乐灯光表演方案设计Agent群；根据多Agent分层设计行为模型，采用Q学习算法以及经验知识，建立一种可自学习的表演方案设计知识库；总结了大型户外音乐灯光表演秀灯光场景布置的规律以及表演区域分类的基本思想。本发明能够解决场景布置的多样性所带来的知识库庞大且不完善的问题，能够更贴近人类设计者的设计思想设计出多样音乐灯光表演方案。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1是知识库的建立采用半自动获取方式示意图；

图2是表演音乐知识表示方法示意图；

图3是表演灯光动作知识表示方法示意图；

图4是一种可替换知识库的音乐灯光表演方案设计***框架示意图；

图5是音乐灯光表演设计***中多Agent***的四层结构图；

图6是常用的表演区域设计略图；

图7是灯光表演分区中小分区行列划分方法示意图；

图8是以空中利剑为例的常见灯具基本排列方法示意图；

图9是全局设计Agent与局部设计Agent的结构图；

图10是音乐灯光表演方案设计***中多Agent行为模型示意图；

图11是具有先验知识的Q学习原理示意图。

具体实施方式

以下将结合附图，对本发明的优选实施例进行详细的描述；应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

实施例1

图1是知识库的建立采用半自动获取方式示意图，图2是表演音乐知识表示方法示意图，图3是表演灯光动作知识表示方法示意图，图4是一种可替换知识库的音乐灯光表演方案设计***框架示意图，图5是音乐灯光表演设计***中多Agent***的四层结构图，图6是常用的表演区域设计略图，图7是灯光表演分区中小分区行列划分方法示意图，图8是以空中利剑为例的常见灯具基本排列方法示意图，图9是全局设计Agent与局部设计Agent的结构图，图10是音乐灯光表演方案设计***中多Agent行为模型示意图，图11是具有先验知识的Q学习原理示意图，如图所示：本发明提供的基于多Agent行为模型的音乐灯光表演方案设计***的设计方法，包括以下步骤：

所述步骤S1中的音乐灯光表演方案设计***中各Agent功能模块包括从上到下依次管理的交互Agent层、场景布置Agent层、全局设计Agent层、局部设计Agent层、表演单元单灯Agent层；

所述行为执行器，用于负责下发到局部设计Agent指令；

所述步骤S3中采用Q学习算法以及经验知识，建立自学习表演方案设计知识库，生成多个对应于不同场景布置的自学习知识库，具体步骤如下：

S31：采用以下公式确定的Reward值作为强化信号：

Reward = (\begin{matrix} q_{1} P_{I (Q)} + q_{2} P_{Lxoy} + q_{3} P_{Lxoz} + q_{4} P_{Lyoz} + q_{5} P_{M (Q)} \\ + q_{6} P_{X (Q)} + q_{7} P_{W (Q)} + q_{8} P_{C (Q)} + q_{9} P_{H} + q_{10} P_{B} \end{matrix}) / 10

S35：开始Q学习：

S351：在决策时间段，当前设计状态为x,选择控制目标；

S353：根据一定规则，选择行为a值；

S356：调整输入状态为x的a值，调整规则为：

ΔQ (x, i) = {\begin{matrix} α [r + γ \max_{b} Q (y, b) - Q (x, i)] \cdot \cdot \cdot b &Element; actions, i = a \\ 0 \cdot \cdot \cdot otherwise \end{matrix}

其中：γ为折扣系数；α为学习系数；ΔQ(x,i)表示动作i下的状态x所对应的Q函数值偏差，Q(y,b)表示动作b下的状态y所对应的Q函数值，Q(x,i)表示动作i下的状态x所对应的Q函数值，actions表示动作集；

S357：转向执行步骤S351。

所述步骤S4中根据具体项目特性替换更新音乐灯光表演方案设计***中的知识库，具体步骤如下：

所述场景布置Agent层根据大量的户外灯光表演场景布置实例以及大众对户外灯光布置的规则自动生成各种场景布置方式，并对生成的场景布置分区分类。

所述场景布置Agent层、全局设计Agent层、局部设计Agent层、单灯Agent层之间的组织结构为问题求解类组织结构，采用招标-投标-中标机制逐层管理模式控制；每个Agent都可以担当两种角色：管理者（Manager）和承包者（Contractor）；承包者负责投标及任务的执行；管理者则负责划分、监督承包者的行为并处理所有承包者返回的结果；当某个Agent需要解决问题时，他便成为管理者，将问题分解为不同任务，以招标的形式发布给其他Agent，有能力完成任务的Agent则发出招标书，最后由管理者根据收到的投标书决定中Agent；当该问题解决后，Agent间的这种组织结构将消失。

实施例2

本实施例与实施例1的区别仅在于：

基于多Agent行为模型的音乐灯光表演方案设计***的设计方法，包括以下步骤：

步骤一：设计一个可根据具体项目特性替换知识库的音乐灯光表演方案设计***框架。主要包括以下几个方面：

采用半自动知识获取方法，即采用智能编辑器与具有自学习功能的多Agent行为模型输出按场景布置生成相应的候选知识库；

音乐、灯光动作知识的表示方法，音乐知识可分为可量化数据与时间点两类，灯光动作数据最终按动作序列对应到DMX512数据流上；

提出一种可替换知识库的音乐灯光表演方案设计***框架，***可根据实际项目的灯光场景布置类别归属选择替换成与之相对应的知识库，重新组建方案设计专家***进行针对性的方案设计。

步骤二：音乐灯光表演方案设计***中多Agent模型的选择与建立。主要包括以下几个方面：

从方案设计过程的角度选择了四层Agent结构，即场景布置Agent层、全局设计Agent层、局部设计Agent层、表演单元单灯Agent层；

四层Agent采用从上到下依次管理的结构顺序，实现模仿人类设计者的目的。

步骤三：音乐灯光表演方案设计***中多Agent行为模型的建立。

步骤四：学习控制算法的设计以及经验知识的引入。

在步骤二中，多Agent模型的选择与建立包括：交互Agent的设计、场景布置Agent的设计、全设计局Agent的设计、局部设计Agent的设计以及单灯Agent的设计，以及大型户外音乐灯光表演秀场景布置的设计思想与区域划分的一般思路。

大型户外音乐灯光表演秀场景布置的设计思想与区域划分的一般思路：

目前大型的会外音乐灯光表演现场灯具布置一般采用对称式布置，以空中利剑为主的音乐灯光表演方式使得现场灯光布置的设计者们往往会将空中利剑的位置放置在主表演区（如观看台正前方）或者是横跨表演区域的交叉和边界位置对称排列。如图6所示为常用的表演区域设计略图。

图6中主表演区A通常为具有丰富表现力的灯具，例如空中利剑、激光、闪光灯等，且其中的灯种与灯具的布置一般都按照对称性排列。辅助表演区B2与B4中的灯种与灯具的布置一般也会按照对称性排列，该区域中的灯具一般会包含富有效果渲染色彩的城市之光、空中玫瑰等，有时候也采用对称的空中利剑作为边界表演区。辅助表演区B1与B3一般不存在对称性，其中通常包含激光、城市之光等，B3区有时还会被设计成空中玫瑰或者是空中利剑作为边界表演区。如图7所示，本发明中将各个区域按以下方法划分成小分区，以增加方案设计的灵活性。

如表1所示，列出了几个基本表演区域选择的组合方式为例（假设m、n为偶数）：

表1

备注：表1中L_i表示第i列；H_i表示第i行。

灯种的基本排列方法以空中利剑为例（只列举了最常见的几种）如图8所示。

交互Agent的设计：从功能上，交互Agent是一种增强用户与应用***之间的计算机程序，一方面他可以根据用户的利益为其提供帮助；另一方面，交互Agent还可以将用户的定性输入解释为应用***内部的精确指令，一边驱动***的运行。***中的交互Agent具有关于用户和应用***双面的知识。在用户对***的使用过程中，交互Agent能从和用户的信息交互中学习到用户的常用任务以及个人偏好，将***处理后的信息以用户喜欢的方式传递给用户。对于交互Agent，既需要对简单的情况迅速做出反应，又要具有知识学习能力，属于混合型Agent。

场景布置Agent的设计：场景布置Agent是本发明中最重要的一个Agent设计，该Agent主要负责根据大量的户外灯光表演场景布置实例以及大众对户外灯光布置的规则自动生成各种场景布置方式，并按照一定的规则对生成的场景布置分区分类。

场景布置Agent的功能如表2所示：

表2

全局设计Agent的设计：该Agent代表着表演方案的全局设计者，关于Agent自身的信息主要有所处时段的表演区域组合、表演基场景运用、表演主色调等，其具体功能如表3所示：

表3

全局设计Agent的结构如图9所示。其中，目标指全局设计Agent所要

到达的目的、大众的偏好，比如期望达到的目标动静态动作比例、色彩组合等。感知器主要接受全局状态以及音乐情感统计数据库的各种数据。认知模块是核心，主要是根据Agent的目标以及相应的知识推理并控制Agent应该执行的行为。通讯负责Agent之间的发送与接收。行为执行器主要负责下发到局部设计Agent指令。

局部设计Agent的设计：每一个不同的表演分区设计一个局部设计Agent，关于Agent自身的信息主要有所处时段该区域中灯种的使用组合、当前使用的单灯序列等。其具体功能如表4所示：

表4

局部设计Agent的结构与全局设计Agent的结构相同，如图9所示。其

中有些模块功能有些变化，例如，感知器负责感知局部环境状态以及音乐情感特征数据库的各种数据。目标指Agent所要达到的目的、演出主题元素，比如期望到达的目的如某音乐片段中的具体表演序列等。行为执行器则是负责产生下发到单灯Agent的动作序列指令。

单灯Agent的设计：单灯Agent的数量由场景布置Agent所决定，其输出具体到个体动作，动作参数具体化。单灯Agent除了接受局部设计Agent发送的动作序列指令外，还要根据周围环境（如相邻灯具的当前动作等）做出相应判断，判断下一个动作是否会与邻灯的动作冲突或者是否超出自身的动作物理限制等。

在步骤三中：

音乐灯光表演方案设计***中多Agent行为模型如图10所示。

该模型中，虚拟环境不断将状态输入各个Agent中，同时，每一个Agent将执行指令返回给虚拟环境从而改变环境状态。场景布置Agent、全局设计Agent、局部设计Agent、单灯Agent之间的组织结构为问题求解类组织结构，可引入“招标-投标-中标”机制，采用逐层管理模式从上到下一次控制，最终能够模仿人类设计专家的行为进行方案设计。

本发明所提出的多Agent行为模型既可以根据实际场景布置环境所归属场景布置类型寻求该类型后续设计套路，又可以将未知类型的场景布置通强化学习以及经验知识引进的方法新定义到场景布置类型库中并为其添加相应的后续设计规则。该设计满足了实际方案设计中由场景布置多样性所带来的无限性问题。

在步骤四中，学习控制算法的设计以及经验知识的引入由以下步骤及方法完成：

本发明提出了一种利用先验知识的Q学习算法。如图11所示。

强化信号的选择：

在强化学习算法中，需要一个Reward值即环境为学习器提供的一个标量强

化信号作为对其行为决策的评价。本发明采用了下面的量作为强化信号：

Reward = (\begin{matrix} q_{1} P_{I (Q)} + q_{2} P_{Lxoy} + q_{3} P_{Lxoz} + q_{4} P_{Lyoz} + q_{5} P_{M (Q)} \\ + q_{6} P_{X (Q)} + q_{7} P_{W (Q)} + q_{8} P_{C (Q)} + q_{9} P_{H} + q_{10} P_{B} \end{matrix}) / 10

其中：q_n-各项评价指标的加权系数；P_*-各项指标评价分数；I_(Q)-照度；

L_xoy、L_xoz、L_yoz-XOY、XOZ、YOZ平面上光柱的映射斜率；M_(Q)-色彩利用率；X_(Q)-音乐情感指标参数；W_(Q)-动作重复率；C_(Q)-色彩使用率；H-动作重复率；B-灯光动静态动作时间比。

构造模糊综合决策方法的决策集V和因素集U,设定Q学习算法的动作集A和状态集S，其内容如表5所示：

表5

依据专家经验知识，构造模糊评价矩阵R_f和权重集W，并按照模糊综合决策方法计算出优越程度向量B_i；

利用归一化后的B_i作为Q学习的先验知识对状态S_i下的Q进行初始化；

开始Q学习：

在决策时间段，当前（全局/局部）设计状态→x,选择控制目标；

针对控制目标，选择合适的Q值存储网络，对各行为计算Q值；

根据一定规则，选择行为a；

执行行为a，新的状态和Reward值→（y，r）；

依据专家经验Reward阀值对x状态下的a动作的存储与否作出判断，以(x_n,a_i,r_i(x_n,a_i))的形式存储知识，为之后的多种方案的生成提供多种组合方式；

调整输入状态为x的a值，调整规则为：

ΔQ (x, i) = {\begin{matrix} α [r + γ \max_{b} Q (y, b) - Q (x, i)] \cdot \cdot \cdot b &Element; actions, i = a \\ 0 \cdot \cdot \cdot otherwise \end{matrix}

其中：γ为折扣系数；α为学习系数。

转向执行步骤①。

实施例3

本实施例与实施例1的区别仅在于：

如图4所示，本发明的基于多Agent行为模型的音乐灯光表演方案设计***的设计方法，包括以下几个步骤：

步骤一：选择并建立音乐灯光表演方案设计***中多Agent模型。主要包括以下几个方面：

从方案设计过程的角度选择了四层Agent结构，即场景布置Agent层、全局设计Agent层、局部设计Agent层、表演单元单灯Agent层；四层Agent采用从上到下依次管理的结构顺序，实现模仿人类设计者的目的；

按以下功能原则单独设计各Agent：

交互Agent：从功能上，交互Agent是一种增强用户与应用***之间的计算机程序，一方面他可以根据用户的利益为其提供帮助；另一方面，交互Agent还可以将用户的定性输入解释为应用***内部的精确指令，一边驱动***的运行。***中的交互Agent具有关于用户和应用***双面的知识。在用户对***的使用过程中，交互Agent能从和用户的信息交互中学习到用户的常用任务以及个人偏好，将***处理后的信息以用户喜欢的方式传递给用户。

场景布置Agent：主要负责根据大量的户外灯光表演场景布置实例以及大众对户外灯光布置的规则自动生成各种场景布置方式，并按照一定的规则对生成的场景布置分区分类。其功能如表2所示；

全局设计Agent：该Agent代表着表演方案的全局设计者，关于Agent自身的信息主要有所处时段的表演区域组合、表演基场景运用、表演主色调等。其具体功能如表3所示，其结构如图9所示。其中，目标指全局设计Agent所要到达的目的、大众的偏好，比如期望达到的目标动静态动作比例、色彩组合等。感知器主要接受全局状态以及音乐情感统计数据库的各种数据。认知模块是核心，主要是根据Agent的目标以及相应的知识推理并控制Agent应该执行的行为。通讯负责Agent之间的发送与接收。行为执行器主要负责下发到局部设计Agent指令。

局部设计Agent：每一个不同的表演分区设计一个局部设计Agent，关于Agent自身的信息主要有所处时段该区域中灯种的使用组合、当前使用的单灯序列等。其具体功能如表4所示。该Agent的结构与全局设计Agent的结构相同，其结构如图9所示，有些模块功能有些变化，例如，感知器负责感知局部环境状态以及音乐情感特征数据库的各种数据。目标指Agent所要达到的目的、演出主题元素，比如期望到达的目的如某音乐片段中的具体表演序列等。行为执行器则是负责产生下发到单灯Agent的动作序列指令。

单灯Agent：单灯Agent的数量由场景布置Agent所决定，其输出具体到个体动作，动作参数具体化。单灯Agent除了接受局部设计Agent发送的动作序列指令外，还要根据周围环境（如相邻灯具的当前动作等）做出相应判断，判断下一个动作是否会与邻灯的动作冲突或者是否超出自身的动作物理限制等。

步骤二：建立音乐灯光表演方案设计***中多Agent行为模型。其模型如

图10所示。该模型中，虚拟环境不断将状态输入各个Agent中，同时，每一个Agent将执行指令返回给虚拟环境从而改变环境状态。场景布置Agent、全局设计Agent、局部设计Agent、单灯Agent之间的组织结构为问题求解类组织结构，可引入“招标-投标-中标”机制，采用逐层管理模式从上到下一次控制，最终能够模仿人类设计专家的行为进行方案设计。该模型既可以根据实际场景布置环境所归属场景布置类型寻求该类型后续设计套路，又可以将未知类型的场景布置通强化学习以及经验知识引进的方法新定义到场景布置类型库中并为其添加相应的后续设计规则。

步骤三：引入经验知识设计学习控制算法，其步骤如下：

利用先验知识的Q学习算法。如图11所示为具有先验知识的Q学习原理。

强化信号的选择：

Reward = (\begin{matrix} q_{1} P_{I (Q)} + q_{2} P_{Lxoy} + q_{3} P_{Lxoz} + q_{4} P_{Lyoz} + q_{5} P_{M (Q)} \\ + q_{6} P_{X (Q)} + q_{7} P_{W (Q)} + q_{8} P_{C (Q)} + q_{9} P_{H} + q_{10} P_{B} \end{matrix}) / 10

构造模糊综合决策方法的决策集V和因素集U,设定Q学习算法的动作集A和状态集S，其内容如表5所示。

开始Q学习：

根据一定规则，选择行为a；

执行行为a，新的状态和Reward值→（y，r）；

调整输入状态为x的a值，调整规则为：

ΔQ (x, i) = {\begin{matrix} α [r + γ \max_{b} Q (y, b) - Q (x, i)] \cdot \cdot \cdot b &Element; actions, i = a \\ 0 \cdot \cdot \cdot otherwise \end{matrix}

其中：γ为折扣系数；α为学习系数。

转向执行步骤①。

步骤四：根据具体项目特性替换音乐灯光表演方案设计***中的知识库。主要包括以下几个方面：

采用半自动知识获取方法，首先采用智能编辑器通过人机交互的方式将相关领域专家***的经验知识录入浅层知识库，可作为反应型规则使用并为之后的多Agent行为模型建立自学习知识库时的Q学习算法提供先验知识。然后建立具有自学习功能的多Agent行为模型，其可以按场景布置生成相应的候选知识库；

音乐、灯光动作知识的表示方法：音乐知识可分为可量化数据与时间点两类，灯光动作数据最终按动作序列对应到DMX512数据流上，其规则表示就是一组音乐特征识别数据向多组灯光DMX512数据流的映射；

***可根据实际项目的灯光场景布置类别归属选择替换成与之相对应的知识库，重新组建方案设计专家***进行针对性的方案设计。

实施例4

本实施例与实施例1的区别仅在于：

步骤1：选择并建立音乐灯光表演方案设计***中多Agent模型。包括建立负责人机信息交互的交互Agent模型、负责灯光场景分类及识别的场景布置Agent模型、负责整体宏观表演方案设计的全局设计Agent模型、负责局部分表演区域具体表演方案的局部设计Agent模型以及负责处理单个灯具具体表演的单灯Agent模型；

步骤2：建立音乐灯光表演方案设计***中多Agent行为模型。包括设计多Agent相互之间的管理结构方式、多Agent之间的输入输出方式、多Agent之间的信息交互方式、各Agent与环境的交互方式以及整体的行为模型。

步骤3：引入经验知识设计学习控制算法。通过交互Agent领域专家经验作为

学习的先验知识对Q学习进行初始化，采用：

Reward = (\begin{matrix} q_{1} P_{I (Q)} + q_{2} P_{Lxoy} + q_{3} P_{Lxoz} + q_{4} P_{Lyoz} + q_{5} P_{M (Q)} \\ + q_{6} P_{X (Q)} + q_{7} P_{W (Q)} + q_{8} P_{C (Q)} + q_{9} P_{H} + q_{10} P_{B} \end{matrix}) / 10,

作为强化信号，并将其作为决策行为的评价，将筛选合格的知识以(x_n,a_i,r_i(x_n,a_i))的形式存储知识，为之后的多种方案的生成提供多种组合方式。

步骤4：根据具体项目特性替换音乐灯光表演方案设计***中的知识库，利用选中的知识库进行具体表演方案设计与执行。

提取实际场景布置信息，选择相应知识库：

某大型灯光表演项目，灯具安装分布区域数量以及相应场景布置记录如表6所示：

表6

区域编号	区域位置	区域灯具种类及数量	区域场景布置类型
				主表演区A1	观景台正前方湖边山坡上	空中利剑（36盏）	3×12横排布置
辅助表演区B1	主表演区域上方	激光（3盏）	辅助布置1-正三角
				辅助表演区B2	左侧湖边	空中利剑（6盏）	辅助布置3-下段-内弧形
辅助表演区B3	右侧湖边	空中利剑（6盏）	辅助布置3-下段-内弧形

将表6中的场景布置信息输入专家***中，通过与场景布置类型库的匹配将其所属类型读取出来，并将其对应的表演方案设计规则知识库从候选知识库中调用出来，替换为当前专家***知识库。

提取整体表演方案设计主题以及表演音乐信息：

整体表演方案设计主题的提取：本次大型户外音乐灯光表演秀的主题“金凤高翔”，主办方要求本设计应从当地的历史发展角度出发，主要为了凸显该地从古代的战场一步一步地发展为高现代化的都市，并且表演区域地理位置设置在当地著名的凤凰山上，因此本次表演方案的设计主题元素主要包括古代战场、凤凰翱翔、欢舞笙歌、高楼林立等，在推理机执行的过程中加入元素的限制可大大提高方案设计的准确度以及设计效率。

表演音乐信息的提取与表示:

表7

备注：表7中的时间格式为“分：秒：毫秒”。

应用已选知识库以及推理机实现音乐灯光动作的匹配以及控制实现（以匹配度最高的一组为例，还可按匹配度优先级排列生成多套方案）：

表8

备注：表8中JG_i表示第i盏激光编号；Ti表示对应灯具的第i个通道；区域号（如A1或B2）_LJ_i表示对应区域中的第i盏空中利剑的编号，i为all是表示该区域中的全部空中利剑。

以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于多Agent行为模型的音乐灯光表演方案设计***的设计方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于多Agent行为模型的音乐灯光表演方案设计***的设计方法，其特征在于：所述步骤S1中的音乐灯光表演方案设计***中各Agent功能模块包括从上到下依次管理的交互Agent层、场景布置Agent层、全局设计Agent层、局部设计Agent层、表演单元单灯Agent层；

所述交互Agent层，用于将用户的定性输入解释为应用***内部的精确指令以及驱动***的运行，在用户对***的使用过程中，交互Agent层能从和用户的信息交互中学习到用户的常用任务以及个人偏好，将***处理后的信息以用户喜欢的方式传递给用户；

所述行为执行器，用于负责下发到局部设计Agent指令；

所述单灯Agent层，用于根据场景布置Agent层的信息来确定单灯Agent的数量，以及根据周围环境判断单灯的下一个动作是否会与相邻灯的动作冲突或者是否超出自身的动作物理限制。

3.根据权利要求1所述的基于多Agent行为模型的音乐灯光表演方案设计***的设计方法，其特征在于：所述步骤S3中采用Q学习算法以及经验知识，建立自学习表演方案设计知识库，生成多个对应于不同场景布置的自学习知识库，具体步骤如下：

S31：采用以下公式确定的Reward值作为强化信号：

Reward = (\begin{matrix} q_{1} P_{I (Q)} + q_{2} P_{Lxoy} + q_{3} P_{Lxoz} + q_{4} P_{Lyoz} + q_{5} P_{M (Q)} \\ + q_{6} P_{X (Q)} + q_{7} P_{W (Q)} + q_{8} P_{C (Q)} + q_{9} P_{H} + q_{10} P_{B} \end{matrix}) / 10

S34：利用归一化后的B_i作为Q学习算法的先验知识对状态S_i下的Q值进行初始化；

S35：进行Q学习算法生成多个对应于不同场景布置的自学习知识库。

4.根据权利要求1所述的基于多Agent行为模型的音乐灯光表演方案设计***的设计方法，其特征在于：所述步骤S35中的进行Q学习算法，具体步骤如下：

S351：在决策时间段，当前设计状态为x,选择控制目标；

S353：根据一定规则，选择行为a值；

S356：调整输入状态为x的a值，调整规则为：

ΔQ (x, i) = {\begin{matrix} α [r + γ \max_{b} Q (y, b) - Q (x, i)] \cdot \cdot \cdot b &Element; actions, i = a \\ 0 \cdot \cdot \cdot otherwise \end{matrix}

S357：转向执行步骤S351。

5.根据权利要求1所述的基于多Agent行为模型的音乐灯光表演方案设计***的设计方法，其特征在于：所述步骤S4中根据具体项目特性替换更新音乐灯光表演方案设计***中的知识库，具体步骤如下：

6.根据权利要求1所述的基于多Agent行为模型的音乐灯光表演方案设计***的设计方法，其特征在于：所述场景布置Agent层根据大量的户外灯光表演场景布置实例以及大众对户外灯光布置的规则自动生成各种场景布置方式，并对生成的场景布置分区分类。

7.根据权利要求1所述的基于多Agent行为模型的音乐灯光表演方案设计***的设计方法，其特征在于：所述场景布置Agent层、全局设计Agent层、局部设计Agent层、单灯Agent层之间的组织结构为问题求解类组织结构，采用招标-投标-中标机制逐层管理模式控制。