CN111415198A

CN111415198A - 一种基于逆向强化学习的游客行为偏好建模方法

Info

Publication number: CN111415198A
Application number: CN202010195068.5A
Authority: CN
Inventors: 常亮; 宣闻; 宾辰忠; 陈源鹏
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-14
Anticipated expiration: 2040-03-19
Also published as: CN111415198B

Abstract

本发明公开了一种基于逆向强化学习的游客行为偏好建模方法，基于iBeacon对展品进行定位，结合智能手机接收拍照广播的次数和iBeacon的位置标识，上传并存储游览行为数据，获取马尔科夫决策过程中的五个元素，构建马尔科夫决策过程模型，利用函数逼近法构造回报函数，获取并在所述回报函数中加入归一化后的拍照次数和停留时间，并把所述游览数据转换为专家示例数据，采用玻尔兹曼分布来计算策略，得到对数似然估计函数后，进行求导和更新权重向量，并当满足设定条件时，结束偏好的学习，能根据有限的游客游览数据学习出精准的游客偏好。

Description

一种基于逆向强化学习的游客行为偏好建模方法

技术领域

本发明涉及位置感知、机器学习技术领域，尤其涉及一种基于逆向强化学习的游客行为偏好建模方法。

背景技术

利用旅游推荐技术为用户提供个性化服务并提高推荐性能和游客满意度，是当前智慧旅游领域研究的热点之一。在旅游推荐中，理解游客的行为模式，学习游客偏好是非常重要的。当前的旅游推荐技术主要根据游客游览展品的评分、签到数据、访问的频次等数据作为游客对游览展品喜好程度的评判依据。但是，具体景区内部，如博物馆、主题公园等，通常无法获得游客针对游览点或展品的具体评分数据，因此不能对游客进行细粒度偏好学习，从而也不能获得针对特定景区内部的游览推荐。并且许多推荐算法需要大量的游客历史数据来训练，从而学习出游客偏好再进行推荐，然而展馆内部的游客数据较为稀缺、不完整，因此也无法根据有限的游客数据学习出精准的偏好。

发明内容

本发明的目的在于提供一种基于逆向强化学习的游客行为偏好建模方法，能根据有限的游客游览数据学习出精准的游客偏好。

为实现上述目的，本发明提供了一种基于逆向强化学习的游客行为偏好建模方法，包括：

基于iBeacon与智能手机相结合，获取并保存游客的游览行为数据；

根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数；

获取并在所述回报函数中加入拍照次数和停留时间，并把所述游览数据转换为专家示例数据；

利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习。

其中，所述基于iBeacon与智能手机相结合，获取并保存游客的游览行为数据，包括：

获取并对室内展览馆内的iBeacon设备进行分组，同时将iBeacon协议数据中的Minor和Major结合对展品进行定位，同时智能手机中的应用程序接收到iBeacon设备广播信号，读取传感器数据并监听拍照广播，通过无线网络将采集的数据上传至***服务器。

其中，所述基于iBeacon与智能手机相结合，获取并保存游客的游览行为数据，还包括：

根据接收拍照广播的次数和iBeacon的位置标识，所述***服务器将统计出游客在目标展品的拍照次数，并通过文件存储采集到的游客游览行为数据。

其中，根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数，包括：

获取马尔科夫决策过程中的S、A、P、r和γ五个元素，构建马尔科夫决策过程模型，并结合设定的策略得到游客的交互序列，其中，S表示游客当前浏览展品的记录的状态空间，A表示在对应状态下，游客下一个将要浏览的展品的动作空间，P表示状态转移概率，r表示回报函数，γ表示折扣因子。

其中，根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数，还包括：

获取特征基函数、特征基的个数和权重向量及每个状态的特征向量，并利用函数逼近法构造回报函数。

其中，获取并在所述回报函数中加入拍照次数和停留时间，并把所述游览数据转换为专家示例数据，包括：

获取浏览任一展品时的拍照次数和停留时间，并分别进行归一化处理后，与对应状态下的瞬时回报数据相加，得到对应状态下的回报函数值，并同时将得到的所述游览行为数据转换序列格式为专家示例数据。

其中，所述利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习，包括：

基于所述专家示例数据得到的任意状态下作出的动作的累积回报期望，并采用玻尔兹曼分布来计算策略，从而得到基于已有的所述专家示例数据的对数似然估计函数。

其中，所述利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习，还包括：

对所述对数似然估计函数进行求导，得到梯度后，按照当前权重向量加上0.01倍的所述梯度对权重向量进行更新，直到下一个所述权重向量减去当前所述权重向量的差的绝对值小于或等于0.01时，则结束学习，并输出权重向量值，若所述绝对值大于0.01时，则重新获取所述累积回报期望，直至所述绝对值小于或等于0.01。

本发明的一种基于逆向强化学习的游客行为偏好建模方法，基于iBeacon对展品进行定位，结合智能手机接收拍照广播的次数和iBeacon的位置标识，上传到***服务器，对游览行为数据进行存储，获取马尔科夫决策过程中的S、A、P、r和γ五个元素，构建马尔科夫决策过程模型，定义回报函数，并且在所述回报函数中加入归一化后的拍照次数和停留时间，利用函数逼近法对回报函数进行逼近，并把所述游览数据转换为“状态-动作-行为特征”序列格式下的专家示例数据，同时基于所述专家示例数据得到的任意状态下作出的动作的累积回报期望，并采用玻尔兹曼分布来计算策略，得到基于已有的所述专家示例数据的对数似然估计函数，然后对所述对数似然估计函数进行求导和更新权重向量，并当满足设定条件时，结束偏好的学习，能根据有限的游客游览数据学习出精准的游客偏好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于逆向强化学习的游客行为偏好建模方法的步骤示意图。

图2是本发明提供的学习游客细粒度偏好的整体结构的流程图。

图3是本发明提供的数据采集和处理流程图。

图4是本发明提供的构建马尔科夫决策过程模型的流程图。

图5是本发明提供的马尔科夫决策交互过程示意图。

图6是本发明提供的逆向强化学习整体流程图。

图7是本发明提供的最大似然逆向强化学习算法流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1和图2，本发明提供一种基于逆向强化学习的游客行为偏好建模方法，包括：

S101、基于iBeacon与智能手机相结合，获取并保存游客的游览行为数据。

具体的，首先将场景布置在室内展馆。如图3所示的数据采集和处理流程图，然后给游客的智能手机上安装导览APP，同时在展馆入口处、展馆内部的每一个展品都布置iBeacon(中文名称：必肯，低功耗蓝牙技术进行的一个十分精确的微定位技术)，用于获取游客的位置信息；在iBeacon协议数据中，包含了Minor和Major两种标识符。在我们的应用场景中，将iBeacon设备进行分组，其中Major用来识别iBeacon设备属于哪一组，Minor用来标识同一组内的不同iBeacon设备，即Minor设置为展馆内部展品的ID，Major设置为展品所属的分区，因此我们可以通过Minor和Major两种标识的结合作为浏览展品的标识，从而对游客当前游览展品的位置信息进行定位；而游客智能手机上的导览APP通过手机照相机、加速度传感器来接收iBeacon所发送的信号，从而收集游客多种游览行为数据(比如，拍照，停留时间等)，智能手机中的应用程序接收到iBeacon设备广播信号，然后智能手机读取传感器数据并监听拍照广播，最后通过无线网络将采集的数据上传至***服务器。当有游客进行拍照时，智能手机中的应用程序会立即检测到拍照行为的发生，随后向***服务器发送广播；***服务器根据接收拍照广播的次数和iBeacon的位置标识统计出游客在目标展品的拍照次数、浏览时间等，并通过文件存储采集到的游客行为数据。其中，文件存储的数据中包含了游客与iBeacon交互的时间戳序列，用户的行为三轴(X，Y，Z)加速度数据和浏览展品的标识。采用iBeacon和智能手机相结合的方式采集数据，采集方式比较便捷。所采用的数据集是游客在景区内游览景点时所产生的真实行为数据并且数据中还包含了游客浏览行为，因此数据更加丰富、真实。

S102、根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数。

具体的，获取马尔科夫决策过程中的S、A、P、r和γ五个元素，构建马尔科夫决策过程模型，并结合设定的策略得到游客的交互序列，如图4所示的构建马尔科夫决策过程模型的流程图，其中，对马尔科夫决策过程中的五元素进行定义：状态s表示游客当前浏览展品的记录，其状态空间为S；动作a表示在状态s下，游客下一个将要浏览的展品，其动作空间为A；状态转移概率P(s_t+1|s_t,a_t)表示从状态s_t通过动作a_t转移到状态s_t+1的概率，其中，s_t∈S，a_t∈A。例如，游客浏览展品记录s₁的情况下，接下来想要浏览展品a₂或者展品a₃，那么状态转移概率可定义为P(s₂|s₁,a₂)＝0.5，P(s₃|s₁,a₃)＝0.5；r(s_t,a_t)表示回报函数，是在游客当前浏览展品记录s_t下，浏览展品a_t后，所能获得的回报。其中，s_t∈S，a_t∈A。这个回报值与游客偏好值成正比，也就是说游客对展品a_t的偏好越高，那么回报值也就越高。为了方便计算，我们定义r(s_t,a_t)≤1；γ∈[0,1]代表折扣因子，用来计算累积的回报。

其中，游客与展馆内展品的交互过程可以看做是一个马尔科夫决策过程，然后描述游客与展馆内展品的交互过程，如图5所示马尔科夫决策交互过程示意：

游客从进入展馆内开始，浏览记录默认为s₀。当浏览展品a₁时，会有相应的拍照次数和停留时间；我们将拍照次数和停留时长作为特征值加入到回报函数中计算得出回报值r₁，并且更新游客浏览记录s₁；然后游客浏览下一个展品a₂，以相同的方式计算出回报值r₂，游客浏览记录相应的变为s₂，一直交互下去，因此游客浏览时的交互序列如(1)所示，其中

s₀,s₁,s₂,......,s_t-1,s_t∈S；

s₀,a₁,r₁,s₁,a₂,r₂,......,s_t-1,a_t,r_t,s_t (1)

在本文中，马尔科夫性是指下一个时刻游客浏览的展品记录s_t+1只取决于当前时刻游客浏览过的展品记录s_t和正在浏览的展品a_t，其他所有的历史浏览过的展品记录都可以被丢弃；如公式(2)所示，其中，P(s_t+1|s_t,a_t)为游客浏览展品的转移概率：

P(s_t+1|s_t,a_t，......s₁,a₁)＝P(s_t+1|s_t,a_t) (2)

而在各状态下如何选择动作a_t的这一规则是由策略π决定的。策略(policy)定义为π：S→A，代表游客浏览展品记录的状态空间到游客下一个浏览展品的行为映射。通过公式(3)可知，策略π是指在给定状态s时，动作集上的条件概率分布，即策略π可以在每个状态s上指定一个动作的概率；也就是策略π可以根据游客浏览展品的记录s来决定下一步推荐给游客的展品a；

π(a|s)＝P(A_t＝a|S_t＝s) (3)

比如，一个游客浏览展品的策略为π(a₂|s₁)＝0.3，π(a₃|s₁)＝0.7,这表示游客在浏览记录s₁的情况下，下一个浏览展品a₂的概率为0.3，浏览展品a₃的概率为0.7，显然游客浏览展品a₃的可能性更大；

在给定策略π和马尔科夫决策过程模型的基础之上，就可以确定一条游客游览展品的交互序列τ：

τ＝s₀,a₁,r₁,s₁,a₂,r₂,s₂,......,s_t-1,a_t,r_t,s_t (4)

由于游客偏好未知，也就是回报函数r(s_t,a_t)是未知的，所以我们可以获取特征基函数、特征基的个数和权重向量及每个状态的特征向量，利用函数逼近法对其进行参数逼近，构造回报函数，其逼近形式如公式(5)所示：

上式中φ＝(φ₁，φ₂,，......,φ_d)^T，φ:S×A→R^d为数量有限并且固定有界的特征基函数，其中，d为特征基的个数，φ₁为每个状态的特征向量。θ＝(θ₁,θ₂,......θ_d)表示各个特征基之间的权重向量。通过这样的线性表示，我们可以对权重进行调整，从而改变回报函数值。

S103、获取并在所述回报函数中加入拍照次数和停留时间，并把所述游览数据转换为专家示例数据。

具体的，获取浏览任一展品时的拍照次数和停留时间，并分别进行归一化处理后，与对应状态下的瞬时回归数据相加，得到对应状态下的回报函数值，并同时将得到的所述游览行为数据转换序列格式为专家示例数据，所述专家示例数据的序列格式为“状态-动作-行为特征”。由于游客的偏好未知，则我们可以认为游客在当前浏览状态s下，下一个浏览展品所能获得的回报是未知的，也就是说游客在状态s下，选择动作a所能获得的回报R(s,a)往往是未知的；因此需要通过对专家示例(已有的相关游客浏览展品的轨迹数据)来学习到背后的回报函数。而在学习的过程中，我们在回报函数中加入了拍照次数、停留时间两种游客行为特征来进行训练；最后通过逆向强化学习算法，学习出回报函数R_θ(s,a)，如图6所示的逆向强化学习整体流程图，详细步骤如下：

在我们的应用的场景中，一共有15个展品。我们统计了在当前状态s下，某展品的拍照次数img_s和停留时间stay_s(以秒为单位)两种游客行为特征。因此，我们将回报函数定义为浏览展品时所产生的瞬时回报与在该状态下游客浏览展品时的拍照次数和停留时间所产生的回报之和。为了便于计算，我们将拍照次数和停留时间所产生的回报通过公式(6)将数据归一化，其中x^*代表当前状态下的拍照次数或者停留时间的值，min和max代表在所有状态下拍照次数或者停留时间的最小值和最大值；

则在当前状态下的回报函数可以由公式(7)表示为：

然后将已有的游客浏览轨迹处理成“状态-动作-行为特征”序列，作为专家示例数据。假设有N个游客轨迹数据D＝{ζ₁,......,ζ_N}，每条轨迹数据长度为H，则一组轨迹数据序列可以表示为：

ζ₁＝((s₁,a₁,img₁,stay₁),(s₂,a₂,img₂,stay₂),......(s_H,a_H,img_H,stay_H))

其中s_H∈S，a_H∈A。在本发明中，我们将每条轨迹数据长度H定义为15。比如，一个游客u的浏览轨迹为：

ζ_u＝((s₁,a₂,img₁,stay₁),(s₂,a₄,img₂,stay₂),(s₃,a₃,img₃,stay₃),......(s₁₅,a₁₅,img₁₅,stay₁₅))

则代表游客u在状态s₁下浏览了展品a₂，其中在展品a₂的拍照次数为img₁，停留时间为stay₁；然后浏览了展品a₄，其中在展品a₄的拍照次数为img₂，停留时间stay₂。

S104、利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习。

具体的，基于所述专家示例数据得到的任意状态下作出的动作的累积回报期望，并采用玻尔兹曼分布来计算策略，从而得到基于已有的所述专家示例数据的对数似然估计函数，由于最大似然逆向强化学习融合了其他逆向强化学习模型的特点，并且可以在专家轨迹较少的情况下对回报函数进行估计，通过专家轨迹寻找出最大似然模型，并且不断对初始的回报函数进行调整，通过梯度不断优化策略π，算法整体流程如图7所示的最大似然逆向强化学习算法流程图。具体步骤如下：

首先通过所述专家示例数据得出游客所处的状态s下，做出行为a得到累积回报期望Q，所述累积回报期望可以由公式(8)表示：

而在MDP中，动作定义为下一个浏览的展品，所以动作空间并不大，因此我们采用玻尔兹曼分布作为策略π，并且计算策略π，所述策略可由公式(9)表示为：

π_θ(a|s)＝e^βQ(s,a)/∑_a'e^βQ(s,a') (9)

在此策略下，则基于已有的游客浏览展品相关轨迹示范数据的对数似然估计函数可由公式(10)表示：

对所述对数似然估计函数进行求导，得到梯度

后，按照当前权重向量加上0.01倍的所述梯度对权重向量进行更新，即

直到下一个所述权重向量减去当前所述权重向量的差的绝对值小于或等于0.01时，即||θ_t-₁-θ_t||≤0.01，则结束学习，并输出权重向量值θ＝arg max_θL(D|θ)，若所述绝对值大于0.01时，即||θ_t-1-θ_t||＞0.01，则重新获取所述累积回报期望，直至所述绝对值小于或等于0.01。在采集游客真实游览行为数据的基础之上，将游客游览行为与逆向强化学习相结合，针对采集到的行为数据设计逆向强化学习算法基于获取到的真实数据进行细粒度偏好学习。

其完整流程如图2所提供的学习游客细粒度偏好的整体结构的流程图：基于iBeacon和结合智能手机相结合，采集游客游览行为数据并存储与文本文件中，获取并定义马尔科夫决策过程中五个元素，构建马尔科夫决策过程模型，并且构造回报函数，然后在所述回报函数中加入归一化后的拍照次数和停留时间两种特征，并把游客浏览轨迹数据作为专家示例数据，最后利用最大似然逆向强化学习算法学习出游客偏好，能根据有限的游客游览数据学习出精准的游客偏好。

本发明的一种基于逆向强化学习的游客行为偏好建模方法，基于iBeacon对展品进行定位，结合智能手机接收拍照广播的次数和iBeacon的位置标识，上传到***服务器，对游览行为数据进行存储，获取马尔科夫决策过程中的S、A、P、r和γ五个元素，构建马尔科夫决策过程模型，利用函数逼近法构造回报函数，并在所述回报函数中加入归一化后的拍照次数和停留时间，并把所述游览数据转换为“状态-动作-行为特征”序列格式下的专家示例数据，同时基于所述专家示例数据得到的任意状态下作出的动作的累积回报期望，并采用玻尔兹曼分布来计算策略，得到基于已有的所述专家示例数据的对数似然估计函数，然后对所述对数似然估计函数进行求导和更新权重向量，并当满足设定条件时，结束偏好的学习，能根据有限的游客游览数据学习出精准的游客偏好。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于逆向强化学习的游客行为偏好建模方法，其特征在于，包括：

2.如权利要求1所述的一种基于逆向强化学习的游客行为偏好建模方法，其特征在于，所述基于iBeacon与智能手机相结合，获取并保存游客的游览行为数据，包括：

3.如权利要求2所述的一种基于逆向强化学习的游客行为偏好建模方法，其特征在于，所述基于iBeacon与智能手机相结合，获取并保存游客的游览行为数据，还包括：

4.如权利要求3所述的一种基于逆向强化学习的游客行为偏好建模方法，其特征在于，根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数，包括：

5.如权利要求4所述的一种基于逆向强化学习的游客行为偏好建模方法，其特征在于，根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数，还包括：

6.如权利要求5所述的一种基于逆向强化学习的游客行为偏好建模方法，其特征在于，获取并在所述回报函数中加入拍照次数和停留时间，并把所述游览数据转换为专家示例数据，包括：

7.如权利要求6所述的一种基于逆向强化学习的游客行为偏好建模方法，其特征在于，所述利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习，包括：

8.如权利要求7所述的一种基于逆向强化学习的游客行为偏好建模方法，其特征在于，所述利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习，还包括：