CN111415198A - 一种基于逆向强化学习的游客行为偏好建模方法 - Google Patents
一种基于逆向强化学习的游客行为偏好建模方法 Download PDFInfo
- Publication number
- CN111415198A CN111415198A CN202010195068.5A CN202010195068A CN111415198A CN 111415198 A CN111415198 A CN 111415198A CN 202010195068 A CN202010195068 A CN 202010195068A CN 111415198 A CN111415198 A CN 111415198A
- Authority
- CN
- China
- Prior art keywords
- data
- tourist
- preference
- behavior
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000006399 behavior Effects 0.000 title claims abstract description 52
- 230000002787 reinforcement Effects 0.000 title claims abstract description 33
- 230000006870 function Effects 0.000 claims abstract description 63
- 230000008569 process Effects 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 27
- 238000009795 derivation Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000007476 Maximum Likelihood Methods 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/80—Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于逆向强化学习的游客行为偏好建模方法,基于iBeacon对展品进行定位,结合智能手机接收拍照广播的次数和iBeacon的位置标识,上传并存储游览行为数据,获取马尔科夫决策过程中的五个元素,构建马尔科夫决策过程模型,利用函数逼近法构造回报函数,获取并在所述回报函数中加入归一化后的拍照次数和停留时间,并把所述游览数据转换为专家示例数据,采用玻尔兹曼分布来计算策略,得到对数似然估计函数后,进行求导和更新权重向量,并当满足设定条件时,结束偏好的学习,能根据有限的游客游览数据学习出精准的游客偏好。
Description
技术领域
本发明涉及位置感知、机器学习技术领域,尤其涉及一种基于逆向强化学习的游客行为偏好建模方法。
背景技术
利用旅游推荐技术为用户提供个性化服务并提高推荐性能和游客满意度,是当前智慧旅游领域研究的热点之一。在旅游推荐中,理解游客的行为模式,学习游客偏好是非常重要的。当前的旅游推荐技术主要根据游客游览展品的评分、签到数据、访问的频次等数据作为游客对游览展品喜好程度的评判依据。但是,具体景区内部,如博物馆、主题公园等,通常无法获得游客针对游览点或展品的具体评分数据,因此不能对游客进行细粒度偏好学习,从而也不能获得针对特定景区内部的游览推荐。并且许多推荐算法需要大量的游客历史数据来训练,从而学习出游客偏好再进行推荐,然而展馆内部的游客数据较为稀缺、不完整,因此也无法根据有限的游客数据学习出精准的偏好。
发明内容
本发明的目的在于提供一种基于逆向强化学习的游客行为偏好建模方法,能根据有限的游客游览数据学习出精准的游客偏好。
为实现上述目的,本发明提供了一种基于逆向强化学习的游客行为偏好建模方法,包括:
基于iBeacon与智能手机相结合,获取并保存游客的游览行为数据;
根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数;
获取并在所述回报函数中加入拍照次数和停留时间,并把所述游览数据转换为专家示例数据;
利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习。
其中,所述基于iBeacon与智能手机相结合,获取并保存游客的游览行为数据,包括:
获取并对室内展览馆内的iBeacon设备进行分组,同时将iBeacon协议数据中的Minor和Major结合对展品进行定位,同时智能手机中的应用程序接收到iBeacon设备广播信号,读取传感器数据并监听拍照广播,通过无线网络将采集的数据上传至***服务器。
其中,所述基于iBeacon与智能手机相结合,获取并保存游客的游览行为数据,还包括:
根据接收拍照广播的次数和iBeacon的位置标识,所述***服务器将统计出游客在目标展品的拍照次数,并通过文件存储采集到的游客游览行为数据。
其中,根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数,包括:
获取马尔科夫决策过程中的S、A、P、r和γ五个元素,构建马尔科夫决策过程模型,并结合设定的策略得到游客的交互序列,其中,S表示游客当前浏览展品的记录的状态空间,A表示在对应状态下,游客下一个将要浏览的展品的动作空间,P表示状态转移概率,r表示回报函数,γ表示折扣因子。
其中,根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数,还包括:
获取特征基函数、特征基的个数和权重向量及每个状态的特征向量,并利用函数逼近法构造回报函数。
其中,获取并在所述回报函数中加入拍照次数和停留时间,并把所述游览数据转换为专家示例数据,包括:
获取浏览任一展品时的拍照次数和停留时间,并分别进行归一化处理后,与对应状态下的瞬时回报数据相加,得到对应状态下的回报函数值,并同时将得到的所述游览行为数据转换序列格式为专家示例数据。
其中,所述利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习,包括:
基于所述专家示例数据得到的任意状态下作出的动作的累积回报期望,并采用玻尔兹曼分布来计算策略,从而得到基于已有的所述专家示例数据的对数似然估计函数。
其中,所述利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习,还包括:
对所述对数似然估计函数进行求导,得到梯度后,按照当前权重向量加上0.01倍的所述梯度对权重向量进行更新,直到下一个所述权重向量减去当前所述权重向量的差的绝对值小于或等于0.01时,则结束学习,并输出权重向量值,若所述绝对值大于0.01时,则重新获取所述累积回报期望,直至所述绝对值小于或等于0.01。
本发明的一种基于逆向强化学习的游客行为偏好建模方法,基于iBeacon对展品进行定位,结合智能手机接收拍照广播的次数和iBeacon的位置标识,上传到***服务器,对游览行为数据进行存储,获取马尔科夫决策过程中的S、A、P、r和γ五个元素,构建马尔科夫决策过程模型,定义回报函数,并且在所述回报函数中加入归一化后的拍照次数和停留时间,利用函数逼近法对回报函数进行逼近,并把所述游览数据转换为“状态-动作-行为特征”序列格式下的专家示例数据,同时基于所述专家示例数据得到的任意状态下作出的动作的累积回报期望,并采用玻尔兹曼分布来计算策略,得到基于已有的所述专家示例数据的对数似然估计函数,然后对所述对数似然估计函数进行求导和更新权重向量,并当满足设定条件时,结束偏好的学习,能根据有限的游客游览数据学习出精准的游客偏好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于逆向强化学习的游客行为偏好建模方法的步骤示意图。
图2是本发明提供的学习游客细粒度偏好的整体结构的流程图。
图3是本发明提供的数据采集和处理流程图。
图4是本发明提供的构建马尔科夫决策过程模型的流程图。
图5是本发明提供的马尔科夫决策交互过程示意图。
图6是本发明提供的逆向强化学习整体流程图。
图7是本发明提供的最大似然逆向强化学习算法流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1和图2,本发明提供一种基于逆向强化学习的游客行为偏好建模方法,包括:
S101、基于iBeacon与智能手机相结合,获取并保存游客的游览行为数据。
具体的,首先将场景布置在室内展馆。如图3所示的数据采集和处理流程图,然后给游客的智能手机上安装导览APP,同时在展馆入口处、展馆内部的每一个展品都布置iBeacon(中文名称:必肯,低功耗蓝牙技术进行的一个十分精确的微定位技术),用于获取游客的位置信息;在iBeacon协议数据中,包含了Minor和Major两种标识符。在我们的应用场景中,将iBeacon设备进行分组,其中Major用来识别iBeacon设备属于哪一组,Minor用来标识同一组内的不同iBeacon设备,即Minor设置为展馆内部展品的ID,Major设置为展品所属的分区,因此我们可以通过Minor和Major两种标识的结合作为浏览展品的标识,从而对游客当前游览展品的位置信息进行定位;而游客智能手机上的导览APP通过手机照相机、加速度传感器来接收iBeacon所发送的信号,从而收集游客多种游览行为数据(比如,拍照,停留时间等),智能手机中的应用程序接收到iBeacon设备广播信号,然后智能手机读取传感器数据并监听拍照广播,最后通过无线网络将采集的数据上传至***服务器。当有游客进行拍照时,智能手机中的应用程序会立即检测到拍照行为的发生,随后向***服务器发送广播;***服务器根据接收拍照广播的次数和iBeacon的位置标识统计出游客在目标展品的拍照次数、浏览时间等,并通过文件存储采集到的游客行为数据。其中,文件存储的数据中包含了游客与iBeacon交互的时间戳序列,用户的行为三轴(X,Y,Z)加速度数据和浏览展品的标识。采用iBeacon和智能手机相结合的方式采集数据,采集方式比较便捷。所采用的数据集是游客在景区内游览景点时所产生的真实行为数据并且数据中还包含了游客浏览行为,因此数据更加丰富、真实。
S102、根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数。
具体的,获取马尔科夫决策过程中的S、A、P、r和γ五个元素,构建马尔科夫决策过程模型,并结合设定的策略得到游客的交互序列,如图4所示的构建马尔科夫决策过程模型的流程图,其中,对马尔科夫决策过程中的五元素进行定义:状态s表示游客当前浏览展品的记录,其状态空间为S;动作a表示在状态s下,游客下一个将要浏览的展品,其动作空间为A;状态转移概率P(st+1|st,at)表示从状态st通过动作at转移到状态st+1的概率,其中,st∈S,at∈A。例如,游客浏览展品记录s1的情况下,接下来想要浏览展品a2或者展品a3,那么状态转移概率可定义为P(s2|s1,a2)=0.5,P(s3|s1,a3)=0.5;r(st,at)表示回报函数,是在游客当前浏览展品记录st下,浏览展品at后,所能获得的回报。其中,st∈S,at∈A。这个回报值与游客偏好值成正比,也就是说游客对展品at的偏好越高,那么回报值也就越高。为了方便计算,我们定义r(st,at)≤1;γ∈[0,1]代表折扣因子,用来计算累积的回报。
其中,游客与展馆内展品的交互过程可以看做是一个马尔科夫决策过程,然后描述游客与展馆内展品的交互过程,如图5所示马尔科夫决策交互过程示意:
游客从进入展馆内开始,浏览记录默认为s0。当浏览展品a1时,会有相应的拍照次数和停留时间;我们将拍照次数和停留时长作为特征值加入到回报函数中计算得出回报值r1,并且更新游客浏览记录s1;然后游客浏览下一个展品a2,以相同的方式计算出回报值r2,游客浏览记录相应的变为s2,一直交互下去,因此游客浏览时的交互序列如(1)所示,其中
s0,s1,s2,......,st-1,st∈S;
s0,a1,r1,s1,a2,r2,......,st-1,at,rt,st (1)
在本文中,马尔科夫性是指下一个时刻游客浏览的展品记录st+1只取决于当前时刻游客浏览过的展品记录st和正在浏览的展品at,其他所有的历史浏览过的展品记录都可以被丢弃;如公式(2)所示,其中,P(st+1|st,at)为游客浏览展品的转移概率:
P(st+1|st,at,......s1,a1)=P(st+1|st,at) (2)
而在各状态下如何选择动作at的这一规则是由策略π决定的。策略(policy)定义为π:S→A,代表游客浏览展品记录的状态空间到游客下一个浏览展品的行为映射。通过公式(3)可知,策略π是指在给定状态s时,动作集上的条件概率分布,即策略π可以在每个状态s上指定一个动作的概率;也就是策略π可以根据游客浏览展品的记录s来决定下一步推荐给游客的展品a;
π(a|s)=P(At=a|St=s) (3)
比如,一个游客浏览展品的策略为π(a2|s1)=0.3,π(a3|s1)=0.7,这表示游客在浏览记录s1的情况下,下一个浏览展品a2的概率为0.3,浏览展品a3的概率为0.7,显然游客浏览展品a3的可能性更大;
在给定策略π和马尔科夫决策过程模型的基础之上,就可以确定一条游客游览展品的交互序列τ:
τ=s0,a1,r1,s1,a2,r2,s2,......,st-1,at,rt,st (4)
由于游客偏好未知,也就是回报函数r(st,at)是未知的,所以我们可以获取特征基函数、特征基的个数和权重向量及每个状态的特征向量,利用函数逼近法对其进行参数逼近,构造回报函数,其逼近形式如公式(5)所示:
上式中φ=(φ1,φ2,,......,φd)T,φ:S×A→Rd为数量有限并且固定有界的特征基函数,其中,d为特征基的个数,φ1为每个状态的特征向量。θ=(θ1,θ2,......θd)表示各个特征基之间的权重向量。通过这样的线性表示,我们可以对权重进行调整,从而改变回报函数值。
S103、获取并在所述回报函数中加入拍照次数和停留时间,并把所述游览数据转换为专家示例数据。
具体的,获取浏览任一展品时的拍照次数和停留时间,并分别进行归一化处理后,与对应状态下的瞬时回归数据相加,得到对应状态下的回报函数值,并同时将得到的所述游览行为数据转换序列格式为专家示例数据,所述专家示例数据的序列格式为“状态-动作-行为特征”。由于游客的偏好未知,则我们可以认为游客在当前浏览状态s下,下一个浏览展品所能获得的回报是未知的,也就是说游客在状态s下,选择动作a所能获得的回报R(s,a)往往是未知的;因此需要通过对专家示例(已有的相关游客浏览展品的轨迹数据)来学习到背后的回报函数。而在学习的过程中,我们在回报函数中加入了拍照次数、停留时间两种游客行为特征来进行训练;最后通过逆向强化学习算法,学习出回报函数Rθ(s,a),如图6所示的逆向强化学习整体流程图,详细步骤如下:
在我们的应用的场景中,一共有15个展品。我们统计了在当前状态s下,某展品的拍照次数imgs和停留时间stays(以秒为单位)两种游客行为特征。因此,我们将回报函数定义为浏览展品时所产生的瞬时回报与在该状态下游客浏览展品时的拍照次数和停留时间所产生的回报之和。为了便于计算,我们将拍照次数和停留时间所产生的回报通过公式(6)将数据归一化,其中x*代表当前状态下的拍照次数或者停留时间的值,min和max代表在所有状态下拍照次数或者停留时间的最小值和最大值;
则在当前状态下的回报函数可以由公式(7)表示为:
然后将已有的游客浏览轨迹处理成“状态-动作-行为特征”序列,作为专家示例数据。假设有N个游客轨迹数据D={ζ1,......,ζN},每条轨迹数据长度为H,则一组轨迹数据序列可以表示为:
ζ1=((s1,a1,img1,stay1),(s2,a2,img2,stay2),......(sH,aH,imgH,stayH))
其中sH∈S,aH∈A。在本发明中,我们将每条轨迹数据长度H定义为15。比如,一个游客u的浏览轨迹为:
ζu=((s1,a2,img1,stay1),(s2,a4,img2,stay2),(s3,a3,img3,stay3),......(s15,a15,img15,stay15))
则代表游客u在状态s1下浏览了展品a2,其中在展品a2的拍照次数为img1,停留时间为stay1;然后浏览了展品a4,其中在展品a4的拍照次数为img2,停留时间stay2。
S104、利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习。
具体的,基于所述专家示例数据得到的任意状态下作出的动作的累积回报期望,并采用玻尔兹曼分布来计算策略,从而得到基于已有的所述专家示例数据的对数似然估计函数,由于最大似然逆向强化学习融合了其他逆向强化学习模型的特点,并且可以在专家轨迹较少的情况下对回报函数进行估计,通过专家轨迹寻找出最大似然模型,并且不断对初始的回报函数进行调整,通过梯度不断优化策略π,算法整体流程如图7所示的最大似然逆向强化学习算法流程图。具体步骤如下:
首先通过所述专家示例数据得出游客所处的状态s下,做出行为a得到累积回报期望Q,所述累积回报期望可以由公式(8)表示:
而在MDP中,动作定义为下一个浏览的展品,所以动作空间并不大,因此我们采用玻尔兹曼分布作为策略π,并且计算策略π,所述策略可由公式(9)表示为:
πθ(a|s)=eβQ(s,a)/∑a'eβQ(s,a') (9)
在此策略下,则基于已有的游客浏览展品相关轨迹示范数据的对数似然估计函数可由公式(10)表示:
对所述对数似然估计函数进行求导,得到梯度后,按照当前权重向量加上0.01倍的所述梯度对权重向量进行更新,即直到下一个所述权重向量减去当前所述权重向量的差的绝对值小于或等于0.01时,即||θt-1-θt||≤0.01,则结束学习,并输出权重向量值θ=arg maxθL(D|θ),若所述绝对值大于0.01时,即||θt-1-θt||>0.01,则重新获取所述累积回报期望,直至所述绝对值小于或等于0.01。在采集游客真实游览行为数据的基础之上,将游客游览行为与逆向强化学习相结合,针对采集到的行为数据设计逆向强化学习算法基于获取到的真实数据进行细粒度偏好学习。
其完整流程如图2所提供的学习游客细粒度偏好的整体结构的流程图:基于iBeacon和结合智能手机相结合,采集游客游览行为数据并存储与文本文件中,获取并定义马尔科夫决策过程中五个元素,构建马尔科夫决策过程模型,并且构造回报函数,然后在所述回报函数中加入归一化后的拍照次数和停留时间两种特征,并把游客浏览轨迹数据作为专家示例数据,最后利用最大似然逆向强化学习算法学习出游客偏好,能根据有限的游客游览数据学习出精准的游客偏好。
本发明的一种基于逆向强化学习的游客行为偏好建模方法,基于iBeacon对展品进行定位,结合智能手机接收拍照广播的次数和iBeacon的位置标识,上传到***服务器,对游览行为数据进行存储,获取马尔科夫决策过程中的S、A、P、r和γ五个元素,构建马尔科夫决策过程模型,利用函数逼近法构造回报函数,并在所述回报函数中加入归一化后的拍照次数和停留时间,并把所述游览数据转换为“状态-动作-行为特征”序列格式下的专家示例数据,同时基于所述专家示例数据得到的任意状态下作出的动作的累积回报期望,并采用玻尔兹曼分布来计算策略,得到基于已有的所述专家示例数据的对数似然估计函数,然后对所述对数似然估计函数进行求导和更新权重向量,并当满足设定条件时,结束偏好的学习,能根据有限的游客游览数据学习出精准的游客偏好。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (8)
1.一种基于逆向强化学习的游客行为偏好建模方法,其特征在于,包括:
基于iBeacon与智能手机相结合,获取并保存游客的游览行为数据;
根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数;
获取并在所述回报函数中加入拍照次数和停留时间,并把所述游览数据转换为专家示例数据;
利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习。
2.如权利要求1所述的一种基于逆向强化学习的游客行为偏好建模方法,其特征在于,所述基于iBeacon与智能手机相结合,获取并保存游客的游览行为数据,包括:
获取并对室内展览馆内的iBeacon设备进行分组,同时将iBeacon协议数据中的Minor和Major结合对展品进行定位,同时智能手机中的应用程序接收到iBeacon设备广播信号,读取传感器数据并监听拍照广播,通过无线网络将采集的数据上传至***服务器。
3.如权利要求2所述的一种基于逆向强化学习的游客行为偏好建模方法,其特征在于,所述基于iBeacon与智能手机相结合,获取并保存游客的游览行为数据,还包括:
根据接收拍照广播的次数和iBeacon的位置标识,所述***服务器将统计出游客在目标展品的拍照次数,并通过文件存储采集到的游客游览行为数据。
4.如权利要求3所述的一种基于逆向强化学习的游客行为偏好建模方法,其特征在于,根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数,包括:
获取马尔科夫决策过程中的S、A、P、r和γ五个元素,构建马尔科夫决策过程模型,并结合设定的策略得到游客的交互序列,其中,S表示游客当前浏览展品的记录的状态空间,A表示在对应状态下,游客下一个将要浏览的展品的动作空间,P表示状态转移概率,r表示回报函数,γ表示折扣因子。
5.如权利要求4所述的一种基于逆向强化学习的游客行为偏好建模方法,其特征在于,根据所述游览行为数据进行马尔科夫决策过程建模并构建回报函数,还包括:
获取特征基函数、特征基的个数和权重向量及每个状态的特征向量,并利用函数逼近法构造回报函数。
6.如权利要求5所述的一种基于逆向强化学习的游客行为偏好建模方法,其特征在于,获取并在所述回报函数中加入拍照次数和停留时间,并把所述游览数据转换为专家示例数据,包括:
获取浏览任一展品时的拍照次数和停留时间,并分别进行归一化处理后,与对应状态下的瞬时回报数据相加,得到对应状态下的回报函数值,并同时将得到的所述游览行为数据转换序列格式为专家示例数据。
7.如权利要求6所述的一种基于逆向强化学习的游客行为偏好建模方法,其特征在于,所述利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习,包括:
基于所述专家示例数据得到的任意状态下作出的动作的累积回报期望,并采用玻尔兹曼分布来计算策略,从而得到基于已有的所述专家示例数据的对数似然估计函数。
8.如权利要求7所述的一种基于逆向强化学习的游客行为偏好建模方法,其特征在于,所述利用最大似然逆向强化学习算法来对游客游览轨迹进行偏好的学习,还包括:
对所述对数似然估计函数进行求导,得到梯度后,按照当前权重向量加上0.01倍的所述梯度对权重向量进行更新,直到下一个所述权重向量减去当前所述权重向量的差的绝对值小于或等于0.01时,则结束学习,并输出权重向量值,若所述绝对值大于0.01时,则重新获取所述累积回报期望,直至所述绝对值小于或等于0.01。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010195068.5A CN111415198B (zh) | 2020-03-19 | 2020-03-19 | 一种基于逆向强化学习的游客行为偏好建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010195068.5A CN111415198B (zh) | 2020-03-19 | 2020-03-19 | 一种基于逆向强化学习的游客行为偏好建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111415198A true CN111415198A (zh) | 2020-07-14 |
CN111415198B CN111415198B (zh) | 2023-04-28 |
Family
ID=71494548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010195068.5A Active CN111415198B (zh) | 2020-03-19 | 2020-03-19 | 一种基于逆向强化学习的游客行为偏好建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111415198B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158086A (zh) * | 2021-04-06 | 2021-07-23 | 浙江贝迩熊科技有限公司 | 一种基于深度强化学习的个性化客户推荐***和方法 |
CN114355786A (zh) * | 2022-01-17 | 2022-04-15 | 北京三月雨文化传播有限责任公司 | 基于大数据的多媒体数字化展厅的调控云*** |
CN117033800A (zh) * | 2023-10-08 | 2023-11-10 | 法琛堂(昆明)医疗科技有限公司 | 一种可视化云上展览***的智能交互方法及*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010048146A1 (en) * | 2008-10-20 | 2010-04-29 | Carnegie Mellon University | System, method and device for predicting navigational decision-making behavior |
US20160210602A1 (en) * | 2008-03-21 | 2016-07-21 | Dressbot, Inc. | System and method for collaborative shopping, business and entertainment |
CN107358471A (zh) * | 2017-07-17 | 2017-11-17 | 桂林电子科技大学 | 一种基于游览行为的旅游资源推荐方法及*** |
CN108819948A (zh) * | 2018-06-25 | 2018-11-16 | 大连大学 | 基于逆向强化学习的驾驶员行为建模方法 |
CN108875005A (zh) * | 2018-06-15 | 2018-11-23 | 桂林电子科技大学 | 一种基于游览行为的游客偏好学习***及方法 |
WO2019145952A1 (en) * | 2018-01-25 | 2019-08-01 | Splitty Travel Ltd. | Systems, methods and computer program products for optimization of travel technology target functions, including when communicating with travel technology suppliers under technological constraints |
CN110288436A (zh) * | 2019-06-19 | 2019-09-27 | 桂林电子科技大学 | 一种基于游客偏好建模的个性化景点推荐方法 |
-
2020
- 2020-03-19 CN CN202010195068.5A patent/CN111415198B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160210602A1 (en) * | 2008-03-21 | 2016-07-21 | Dressbot, Inc. | System and method for collaborative shopping, business and entertainment |
WO2010048146A1 (en) * | 2008-10-20 | 2010-04-29 | Carnegie Mellon University | System, method and device for predicting navigational decision-making behavior |
CN107358471A (zh) * | 2017-07-17 | 2017-11-17 | 桂林电子科技大学 | 一种基于游览行为的旅游资源推荐方法及*** |
WO2019145952A1 (en) * | 2018-01-25 | 2019-08-01 | Splitty Travel Ltd. | Systems, methods and computer program products for optimization of travel technology target functions, including when communicating with travel technology suppliers under technological constraints |
CN108875005A (zh) * | 2018-06-15 | 2018-11-23 | 桂林电子科技大学 | 一种基于游览行为的游客偏好学习***及方法 |
CN108819948A (zh) * | 2018-06-25 | 2018-11-16 | 大连大学 | 基于逆向强化学习的驾驶员行为建模方法 |
CN110288436A (zh) * | 2019-06-19 | 2019-09-27 | 桂林电子科技大学 | 一种基于游客偏好建模的个性化景点推荐方法 |
Non-Patent Citations (5)
Title |
---|
刘建伟;高峰;罗雄麟;: "基于值函数和策略梯度的深度强化学习综述" * |
孙磊等: "基于游览行为的游客偏好学习方法" * |
宣闻: "基于逆向强化学习的细粒度游客行为偏好研究" * |
范长杰: "基于马尔可夫决策理论的规划问题的研究" * |
陈希亮;曹雷;何明;李晨溪;徐志雄;: "深度逆向强化学习研究综述" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158086A (zh) * | 2021-04-06 | 2021-07-23 | 浙江贝迩熊科技有限公司 | 一种基于深度强化学习的个性化客户推荐***和方法 |
CN114355786A (zh) * | 2022-01-17 | 2022-04-15 | 北京三月雨文化传播有限责任公司 | 基于大数据的多媒体数字化展厅的调控云*** |
CN117033800A (zh) * | 2023-10-08 | 2023-11-10 | 法琛堂(昆明)医疗科技有限公司 | 一种可视化云上展览***的智能交互方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN111415198B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111415198A (zh) | 一种基于逆向强化学习的游客行为偏好建模方法 | |
JP6431231B1 (ja) | 撮像システム、学習装置、および撮像装置 | |
CN107680010B (zh) | 一种基于游览行为的景区路线推荐方法及其*** | |
JP4902270B2 (ja) | デジタル画像のコレクションの組み立て方法 | |
US8650242B2 (en) | Data processing apparatus and data processing method | |
JP6229655B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US8577962B2 (en) | Server apparatus, client apparatus, content recommendation method, and program | |
CN103914559A (zh) | 筛选网络用户的方法及装置 | |
CN110798718B (zh) | 一种视频推荐方法以及装置 | |
CN111306700A (zh) | 一种空调控制方法、装置及计算机存储介质 | |
WO2008129374A2 (en) | Motion and image quality monitor | |
CN104885442A (zh) | 服务器装置和拍摄装置 | |
US20090189992A1 (en) | Apparatus and method for learning photographing profiles of digital imaging device for recording personal life history | |
CN102333177A (zh) | 拍摄支持***、拍摄支持方法、服务器和摄像设备 | |
JP2012129724A (ja) | 映像配信装置及び映像配信方法 | |
CN106203306A (zh) | 年龄的预测方法、装置及终端 | |
CN102884523A (zh) | 信息提供装置、信息提供方法、信息提供处理程序以及记录了信息提供处理程序的记录介质 | |
CN113495487A (zh) | 一种调节目标设备运行参数的终端和方法 | |
CN107121661B (zh) | 定位方法、装置及***和服务器 | |
CN114930319A (zh) | 音乐推荐方法和装置 | |
CN116643494A (zh) | 一种场景推荐方法、装置、***及电子设备 | |
CN116503209A (zh) | 基于人工智能和数据驱动的数字孪生*** | |
KR100880001B1 (ko) | 개인의 일상을 관리할 수 있는 모바일 디바이스 및 상기모바일 디바이스에서의 정보 검색 방법 | |
CN113158086B (zh) | 一种基于深度强化学习的个性化客户推荐***和方法 | |
KR102045475B1 (ko) | 여행지에 따른 유저의 기호를 예측하여 여행 앨범을 제공하는 여행 앨범 제공 시스템 및 이의 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |