CN116308668A

CN116308668A - 一种新商品新用户的自适应对话推荐方法及***

Info

Publication number: CN116308668A
Application number: CN202310300114.7A
Authority: CN
Inventors: 张业勤; 阮锦绣
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-03-26
Filing date: 2023-03-26
Publication date: 2023-06-23

Abstract

本发明公开了一种新商品新用户的自适应对话推荐方法及***，所述方法包括：基于用户、商品、商品属性、对话构建用户交互图；基于用户交互图使用归纳图算法学习得到当前图中所有节点的表示；根据节点的表示得到状态以及动作的表示；基于状态和动作表示，引入状态转移和奖励构成马尔可夫决策过程，通过深度Q网络算法进行动作价值函数的学习；基于建模出的动作价值函数，在对话推荐的每一轮中进行询问属性或推荐商品。本发明通过邻居信息来动态获得新加入的商品以及用户的表示，同时通过引入图模型同时建模对话策略和推荐策略，使得能够互相融合，进行更好地交互。

Description

一种新商品新用户的自适应对话推荐方法及***

技术领域

本发明涉及交互式对话推荐领域，具体是一种新商品新用户的自适应对话推荐方法及***。

背景技术

推荐***是建议目标用户可能感兴趣的项目的工具。由于人们在日常工作和决策中经常会听取他人提供的建议，推荐***应运而生。随着电子商务网站的发展，产品的数量和类型快速增长，用户需要花费大量时间来找到他们想要购买的产品。因此迫切需要能够根据用户偏好从所有商品中提供推荐结果的推荐***。

然而传统的推荐***，基于用户交互历史以及好友交互历史给用户进行商品推荐，缺少用户直接反馈，不能很好地适应用户偏好迁移的问题。同时由于在被告知一些可行的选择之前，用户自己可能不知道自己喜欢什么。因此，交互式的对话推荐***受到了青睐。然而，完全基于用户的交互历史等先验知识进行推荐无法解决用户偏好迁移等问题，此外对话推荐***也存在继承于推荐***固有问题，例如新商品，新用户的在线加入导致模型的不可用。另一方面，若完全抛弃用户的交互历史等先验知识，则会大大增加无意义的探索。因此，如何保证在新商品新用户的在线加入时推荐***能够进行自适应的对话推荐，是值得探究且亟需解决的问题。

发明内容

发明目的：本发明提出了一种新商品新用户的自适应对话推荐方法及***，至少部分地解决现有技术中的问题。

技术方案：为了实现上述目的，本发明采用如下技术方案：

第一方面，一种新商品新用户的自适应对话推荐方法，包括如下步骤：

将用户、商品、商品属性、对话作为节点，将商品与对应的商品属性的连接、对话与对话所涉及的偏好商品或偏好属性的连接、用户与其历史上的对话的连接、以及用户与其好友用户之间的连接作为节点之间的边，构建用户交互图；

对用户交互图上的节点进行嵌入向量初始化，对每个节点，找到所有目标节点为该节点的所有源节点，根据源节点与目标节点之间的边的类型，利用图嵌入算法对源节点的表示进行矩阵转换，对所有源节点转换后的表示进行聚合，利用归纳图算法学习出聚合函数；

根据当前发起对话的用户所对应的表示以及当前对话所对应的表示拼接构成当前状态表示，根据当前候选节点在给定当前对话下将在下一轮被选中的概率以及当前候选节点在给定当前交互的节点下将在下一轮被选中的概率拼接构成当前动作表示，其中当前候选节点包括满足当前对话中用户所有偏好属性的商品同时去除了当前对话中已经拒绝的商品的候选商品节点，以及当前候选商品集合具有的所有属性同时去除了当前对话中用户偏好或者已经拒绝的属性的候选属性节点；

基于当前状态表示和当前动作表示，引入状态转移和奖励构成马尔可夫决策过程，通过深度Q网络算法进行动作价值函数的学习；

基于建模出的动作价值函数，在对话推荐的每一轮中，根据当前用户交互图，得到动作和状态的表示，并输入动作价值函数中，选择输出动作价值最高的输入动作进行执行。

根据第一方面的某些实施方式，用户交互图中，用户与其历史的对话以及用户及其好友用户作为描述用户先验特征的数据，对话与其所涉及的偏好商品与偏好属性作为后验信息。

根据第一方面的某些实施方式，所述利用图嵌入算法对源节点的表示进行矩阵转换包括：将找出的源节点称作目标节点的邻居节点，借助关系图卷积神经网络的思想，对于所有邻居节点，在进行信息聚合前，根据与目标节点之间边的关系的不同，设置不同的转换矩阵：θ_rX_j,r∈R,j∈N(i)，X_j为通过随机游走或邻接矩阵初始化图中所有源节点的表示，θ_r表示与关系边相关的转换矩阵，R为关系边的集合，N(i)表示i的邻居节点，i为源节点。

根据第一方面的某些实施方式，聚合邻居节点后得到源节点的表示为：

f_aggregate()为聚合函数，归纳图算法基于已知的数据进行聚合函数的学习，从而使得当新节点加入时，能够通过聚合邻居节点的表示来得到新加入节点的向量化表示。

根据第一方面的某些实施方式，通过使用图节点间的连接预测算法得到当前候选节点在给定当前对话下将在下一轮被选中的概率；通过预测候选节点与当前轮对话节点存在某种类型边的概率来得到当前候选节点在给定当前交互的节点下将在下一轮被选中的概率。

根据第一方面的某些实施方式，状态转移是在用户进行了动作后，在用户交互图中，连接当前对话节点与当前轮用户偏好的属性或者偏好的商品；

所述奖励包括五种类型奖励：r_{rec_suc}：当用户接受推荐的商品则有第一额度的正向奖励；r_{rec_fail}：当用户拒绝推荐的商品则有第一额度的负向惩罚；r_{ask_suc}：当用户接受询问的属性则有第二额度的正向奖励；r_{ask_fail}：当用户拒绝询问的属性则有第二额度的负向奖励；r_quit：当对话超出最大轮数则有第一额度的负向奖励；其中第一额度大于第二额度；

基于马尔可夫决策过程，利用竞争深度Q网络算法将动作价值函数分离为价值函数和优势函数，并使用两个网络进行计算，完成动作价值函数的学习。

根据第一方面的某些实施方式，价值函数由全连接神经网络构建，通过输入当前状态，进行当前状态的价值判断，输出当前状态的价值V(S)；优势函数由全连接神经网络构建，通过输入当前状态与动作，进行当前状态下某个动作产生的价值评估，输出当前状态下某个动作的价值A(S，a)；动作价值函数由价值函数与优势函数求和而成：Q(S，a)＝V(S)+A(S，a)，动作价值函数通过策略梯度算法基于已有数据进行参数学习。

第二方面，一种新商品新用户的自适应对话推荐***，包括：

图构建模块，用于将用户、商品、商品属性、对话作为节点，将商品与对应的商品属性的连接、对话与对话所涉及的偏好商品或偏好属性的连接、用户与其历史上的对话的连接、以及用户与其好友用户之间的连接作为节点之间的边，构建用户交互图；

嵌入模块，用于对用户交互图上的节点进行嵌入向量初始化，对每个节点，找到所有目标节点为该节点的所有源节点，根据源节点与目标节点之间的边的类型，利用图嵌入算法对源节点的表示进行矩阵转换，对所有源节点转换后的表示进行聚合，利用归纳图算法学习出聚合函数；

特征表示模块，用于根据当前发起对话的用户所对应的表示以及当前对话所对应的表示拼接构成当前状态表示，根据当前候选节点在给定当前对话下将在下一轮被选中的概率以及当前候选节点在给定当前交互的节点下将在下一轮被选中的概率拼接构成当前动作表示，其中当前候选节点包括满足当前对话中用户所有偏好属性的商品同时去除了当前对话中已经拒绝的商品的候选商品节点，以及当前候选商品集合具有的所有属性同时去除了当前对话中用户偏好或者已经拒绝的属性的候选属性节点；

策略学习模块，用于基于当前状态表示和当前动作表示，引入状态转移和奖励构成马尔可夫决策过程，通过深度Q网络算法进行动作价值函数的学习；

策略执行模块，用于基于建模出的动作价值函数，在对话推荐的每一轮中，根据当前用户交互图，得到动作和状态的表示，并输入动作价值函数中，选择输出动作价值最高的输入动作进行执行。

第三方面，一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如本发明第一方面所述的新商品新用户的自适应对话推荐方法的步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述的新商品新用户的自适应对话推荐方法的步骤。

有益效果：

1、本发明提供了一种新商品新用户的自适应对话推荐方法及***，通过归纳型算法解决新节点的在线加入问题，当有新用户加入时，通过动态聚合其好友用户节点的表示来提供新用户初始表示，当有新商品加入时，通过动态聚合其对应的属性节点的表示来提供新商品节点初始表示，使得能够进行自适应地进行对话推荐。

2、本发明使用了统一的模型建模对话策略和推荐策略，使得对话策略和推荐策略能够互相融合，进行更有效地交互。

3、本发明通过用户交互图同时建模用户交互历史以及当前用户的对话，使得先验信息能够图聚合算法直接影响当前用户对话的状态和动作表示，从而提供一个有意义的初始表示，减少策略学习前期无效的探索。

附图说明

图1是本发明实施例提供的新商品新用户自适应的对话推荐方法流程图；

图2为本发明实施例提供的用户交互图；

图3为本发明实施例提供的归纳图算法学习得到当前图中所有节点的表示示意图；

图4为本发明实施例提供的动作和状态的建模过程示意图；

图5为本发明实施例提供的建模动作价值函数，进行策略学习的过程示意图。

具体实施方式

下面结合附图对本发明的技术方案做出更进一步的说明。

目前的对话推荐策略为了解决用户喜好偏移问题，所有策略完全通过用户当前的反馈来进行，这抛弃了所有先验信息，使得策略学习过程中经常进行没有意义的探索。同时，新商品的加入，会使得对话推荐策略进行重新的学习，非常低效且耗时。本发明通过用户交互图，将先验信息融合进策略学习当中，提高策略学习探索的效率，降低无意义探索的次数，从而学习到更有价值的策略模型。同时，通过使用归纳图算法，从而能够使用商品属性节点等新商品的邻居节点来归纳得到新商品的向量表示，使得无需进行策略的重新学习。

图1为本发明实施例提供的新商品新用户自适应的对话推荐方法的流程图。该方法可以由服务器执行，产生的模型可以适用于多种终端应用场景。服务器可以执行该对话推荐策略模型，从而与用户进行一定策略的对话，并将***提问或回复内容发送给终端，以便终端将***提问或回复内容呈现给用户。下面以服务器为例，结合图2对该方法进行详细介绍，该方法具体步骤如下：

S101、构建用户交互图。

将用户、商品、商品属性、对话作为节点，商品属性下文也简称为属性。如图2所示，用户节点包括“丽晴”、“大可”，对话节点包括对话1、对话2、对话3，用户所偏好的商品或偏好的属性会在对话中体现，如图2所示，商品节点包括跑步机、迷你冰箱，商品属性跟随商品或对话中体现的偏好，实施例中涉及的跑步机的属性包括运动类、家用、跑步，迷你冰箱的属性包括宿舍用、小巧、冷藏食物，此外，对话中涉及的属性有例如磨豆浆、切肉，通过将商品与其对应的属性，对话与其所涉及的偏好商品与偏好属性，用户与其历史的对话，用户与其好友用户作为不同类型的边，使得用户节点，商品属性节点，商品节点，对话节点相互连接，构建出如图2所示的用户交互图。其中，商品节点与属性节点通过商品具有的属性作为关系边进行连接，构成如附图标记21所示的商品属性图。对话节点与属性节点或商品节点通过用户在该对话中偏好的属性或者商品作为关系边进行连接，与商品属性图一起，构成如附图标记22所示的用户对话历史图。用户节点与对话节点通过用户与其相关对话作为关系边进行连接，用户与用户通过好友关系边进行连接，与用户对话历史图一起，构成如附图标记23所示的用户交互图。

S102、使用归纳图算法学习得到当前图中所有节点的表示。

首先通过随机游走或邻接矩阵初始化图中所有节点的表示。接着，对于图中每个节点，找到所有以该节点为目标节点的边，从而找出该节点所对应的所有源节点，将这些找出的源节点称作该目标节点的邻居节点。接着，借助关系图卷积神经网络的思想，对于所有邻居节点，在进行信息聚合前，根据与目标节点之间边的关系的不同，设置不同的转换矩阵：θ_rX_j,r∈R,j∈N(i)，R为关系边的集合，N(i)表示i的邻居节点，i为源节点。X_j为通过随机游走或邻接矩阵初始化图中所有源节点的表示，θ_r表示与关系边相关的转换矩阵。不同的关系边，转换矩阵θ_r不同。关系图卷积神经网络是指根据源节点与目标节点的关系边的不同，会产生不同的转换矩阵，与源节点表示相乘得到源节点对于目标节点映射后的表示。

聚合邻居节点后得到源节点的表示为：

1,…,…,n表示n个不同的关系边，其中j₁,…j_m表示关系图中源节点与目标节点之间的边的类型为第一种关系边的所有源节点。如图3所示，“对话”节点为目标节点，“冷藏食物”、“丽晴”、“宿舍用”、“迷你冰箱”节点为对应的源节点，其中“冷藏食物”、“宿舍用”、“迷你冰箱”节点与“对话”节点之间的边属于同一种关系边，而“丽晴”节点与“对话”节点之间属于另一种关系边。那么

冷藏食物,宿舍用,迷你冰箱∈r₁,丽晴∈r₂。

归纳图算法目标是通过已知的数据，进行聚合函数f_aggregate()的学习，从而使得，当新节点加入时，通过聚合邻居节点的表示，来得到新加入节点的向量化表示。即，用新节点加入之前的所有邻居节点的聚合，来表示这个新节点，因此目标就是学习用怎么样的函数来聚合这些邻居节点的信息，才能获得最有效的新节点的表示。新节点在推理阶段主要指的是新商品和新用户，但同时随着对话进行，对话节点和用户的向量化嵌入也是基于归纳图算法进行更新，在训练阶段则需随机采样各种类型的节点进行训练。归纳图算法，首先设置聚合深度为K，对于一个节点，采样它们的邻居节点(一阶邻居)，对于一阶邻居，采样他们的邻居(二阶邻居)，直到K阶邻居采样完成。通过聚合函数作用于K阶邻居，得到K-1阶邻居的表示，直到最终得到自身的聚合表示。假设K＝2，以图2为例，当丽晴的对话2谈及偏好商品为迷你冰箱时，为了得到对话2的表示，首先找到对话2的二阶邻居，二阶邻居为对话1(对话3要在对话2完成后出现，因此目前没有对话3)，大可，宿舍用，小巧以及冷藏食物。使用聚合函数聚合对话1和大可的信息(该聚合函数可以是mean aggregator,lstmaggregator或者pooling aggregator等需要学习的聚合函数)，得到丽晴的邻居信息。连接丽晴自身表示以及邻居信息，通过一个全连接神经网络，得到丽晴更新后的表示，同理更新对话2的所有一阶邻居节点信息。最终根据更新后的一阶邻居节点信息，用相同的方式计算得到更新后的对话2的表示。归纳图算法的学习的loss来源既可以是下游的连接预测任务，也可以是最终的推荐任务。S103、得到状态以及动作的表示。

由于后续策略模型是建模为马尔可夫决策过程，其中，马尔可夫决策过程可以有四个最重要的部分进行定义：状态，动作，转移和奖励；其中，最需要澄清的是状态和动作的建模，如图4所示，通过使用当前对话的用户其节点的表示，以及当前的对话其节点的表示，拼接构成状态表示，如附图标记43所示的当前轮状态的表示：State＝

concate(E_user,E_dialog)。

动作则是描述在当前轮***可以采取的行动，其中包括：继续询问用户偏好的属性，根据目前对话得到的用户偏好信息向用户进行商品推荐。因此动作空间既包含商品节点也包含属性节点。这里，将所有可选择的属性节点称为候选属性节点，将所有可选择的商品节点称为候选商品节点。在第t轮，候选商品节点包括所有满足用户目前偏好属性的商品，但不包括用户已经拒绝的商品：

其中/>

表示直到第t轮，用户偏好属性的集合，/>

表示第t轮所有满足用户目前偏好属性的商品，/>

表示直到第t轮，用户拒绝的商品的集合。第t轮，候选属性节点包括目前所有候选商品节点所包含的所有属性，但不包含用户在1到t-1轮已经拒绝的属性，也不包含用户在1到t-1轮已经接受的属性：

其中/>

表示候选商品节点所包含的所有属性集合，/>

表示用户在1到t-1轮已经接受的属性，/>

表示用户在1到t-1轮已经拒绝的属性。对于连接预测任务，可以简单地认为这是一个二分类任务，分类目标为：判断当前图中的两个节点存在一条边的概率。具体地，是指当前对话节点与某个属性或者某个商品节点之间存在一条边的概率，即为预测用户当前偏好的属性或者商品。该任务最简单的做法是将两个节点的表示拼接后，经过一个全连接神经网络，最终输出两节点间存在边的概率(0到1之间的数字)。

每一个候选节点表示，以及在给定当前对话下该候选节点将在下一轮被选中的概率拼接构成如附图标记42所示的当前轮动作的表示：Action＝concate(E_cand,p(cand))，E_cand表示candidates的嵌入向量表示，即为上述图算法聚合后得到的候选节点表示，其中V_cand和P_cand构成所有candidates的集合。

cand＝P_cand∪V_cand

S104、建模动作价值函数。

在上一步的状态和动作的表示的基础上，补充状态转移和奖励的定义构成完整的马尔可夫决策过程。其中，状态转移是在用户进行了动作后，在用户交互图中，连接当前对话节点与当前轮用户偏好的属性或者偏好的商品。通过归纳图算法，更新状态和动作表示。由于状态是由当前用户节点和当前对话节点的表示拼接而成，在对话进行过程中，由于用户将表明自身偏好的属性或商品，对话节点将连接更多商品或属性节点，而这些商品和属性节点同时也是用户节点的二阶邻居，因此，归纳图算法输出的当前用户节点和当前对话节点的表示将会产生变化。如：

奖励包括五种类型奖励：

r_{rec_suc}：当用户接受推荐的商品则有第一额度的正向奖励；

r_{rec_fail}：当用户拒绝推荐的商品则有第一额度的负向惩罚；

r_{ask_suc}:当用户接受询问的属性则有第二额度的正向奖励；

r_{ask_fail}：当用户拒绝询问的属性则有第二额度的负向奖励；

r_quit：当对话超出最大轮数则有第一额度的负向奖励；

其中，第一额度大于第二额度。

基于此马尔可夫决策过程，引入竞争深度q网络(Dueling DQN)算法作为对话策略和推荐策略统一的策略学习模块，如图5所示。这种基于价值(value-based)的算法是对在每个状态执行的每个动作的期望奖励进行显式建模。考虑到状态表示的连续性和无限性，动作表示的连续性与动作的有限性，网络震荡，过高估值等因素，本发明使用竞争深度q网络(Dueling DQN)算法作为策略学习模块，建模动作价值函数。

参照图5，竞争深度q网络(Dueling DQN)将行动价值函数分离为价值函数和优势函数，并使用两个网络进行计算。其中，价值函数52是由全连接神经网络构建，通过输入当前状态，进行当前状态的价值判断，输出当前状态的价值V(S)。V(S)是一个神经网络，输入的是当前状态，输出的是对当前状态的价值的预测。这个价值的衡量标准如上文关于奖励所提及的内容。首先，当对话推荐任务完成时，可以根据上述定义的五种类型奖励，准确算得该对话的奖励，该奖励即为最终整个对话的价值。往前推导，在对话结束的前一轮，该状态的价值则为：最终的整个对话的价值减去导致走向最终这个对话所采取的动作的价值(对话结束前一轮可以采取多个动作，只有一个或几个动作能导致成为最终的对话，选择其他动作将变成其他的对话)，以此类推，得到最初的对话句子的价值。通过神经网络训练，使得能够预测新的对话的当前状态的价值。第一层的全连接网络和隐藏层是为了进一步提取状态和动作的特征，第二层的全连接网络是为了通过深层特征计算出动作的价值(优势函数)和状态的价值(价值函数)。

优势函数51是由全连接神经网络构建，通过输入当前状态与动作，进行当前状态下某个动作产生的价值评估，输出当前状态下某个动作的价值A(S，a)。A(S,a)是指在状态S下，采取a动作的价值。以图2为例，在对话3中，已知用户偏好为磨豆浆和切肉，此时，如果***选择的动作是询问用户偏好商品是否为破壁机，且用户偏好确实为破壁机时，该动作则产生一个大的正向价值，具体而言该动作产生的价值则为最终该对话的价值减去当前状态的价值

动作价值函数53由价值函数52与优势函数51求和而成：Q(S，a)＝V(S)+

A(S，a)。动作价值函数53通过策略梯度算法，基于已有数据进行参数学习。

S105、根据策略进行询问属性或者推荐商品的知识融合的对话生成。

本发明利用归纳图算法通过邻居信息来动态获得新加入的商品以及用户的表示，通过将邻居节点向量进行聚合，得到更好的自身表示去使接下来的如链接预测以及强化学习的任务能够受益；通过引入图模型同时建模对话策略和推荐策略，使得对话策略模块和推荐策略模块能够互相融合，进行更好地交互；在对话过程中，将对话用户的表示以及当前对话节点的表示拼接作为状态，将候选节点表示以及候选节点与当前用户节点，候选节点与上一轮用户偏好节点的连接预测概率拼接作为动作表示，使用强化学习算法建模动作价值函数，最终通过最大化整个对话价值，选择出下一节点是商品还是属性，根据选择出下一节点类型的不同，进行推荐或者对话询问的操作。

本发明还提供一种新商品新用户的自适应对话推荐***，包括：

应理解，本发明实施例中的新商品新用户的自适应对话推荐***可以实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。

本发明还提供一种计算机设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如上所述的新商品新用户的自适应对话推荐方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的新商品新用户的自适应对话推荐方法的步骤。

本领域普通技术人员可以理解，实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中。在本发明的上下文中，所述计算机可读介质可以被认为是有形的且非暂时性的。非暂时性有形计算机可读介质的非限制性示例包括非易失性存储器电路(例如闪存电路、可擦除可编程只读存储器电路或掩膜只读存储器电路)、易失性存储器电路(例如静态随机存取存储器电路或动态随机存取存储器电路)、磁存储介质(例如模拟或数字磁带或硬盘驱动器)和光存储介质(例如CD、DVD或蓝光光盘)等。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种新商品新用户的自适应对话推荐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，用户交互图中，用户与其历史的对话以及用户及其好友用户作为描述用户先验特征的数据，对话与其所涉及的偏好商品与偏好属性作为后验信息。

3.根据权利要求1所述的方法，其特征在于，所述利用图嵌入算法对源节点的表示进行矩阵转换包括：将找出的源节点称作目标节点的邻居节点，借助关系图卷积神经网络的思想，对于所有邻居节点，在进行信息聚合前，根据与目标节点之间边的关系的不同，设置不同的转换矩阵：θ_rX_j,r∈R,j∈N(i)，X_j为通过随机游走或邻接矩阵初始化图中所有源节点的表示，θ_r表示与关系边相关的转换矩阵，R为关系边的集合，N(i)表示i的邻居节点，i为源节点。

4.根据权利要求3所述的方法，其特征在于，聚合邻居节点后得到源节点的表示为：

5.根据权利要求1所述的方法，其特征在于，通过使用图节点间的连接预测算法得到当前候选节点在给定当前对话下将在下一轮被选中的概率；通过预测候选节点与当前轮对话节点存在某种类型边的概率来得到当前候选节点在给定当前交互的节点下将在下一轮被选中的概率。

6.根据权利要求5所述的方法，其特征在于，状态转移是在用户进行了动作后，在用户交互图中，连接当前对话节点与当前轮用户偏好的属性或者偏好的商品；

7.根据权利要求6所述的方法，其特征在于，价值函数由全连接神经网络构建，通过输入当前状态，进行当前状态的价值判断，输出当前状态的价值V(S)；优势函数由全连接神经网络构建，通过输入当前状态与动作，进行当前状态下某个动作产生的价值评估，输出当前状态下某个动作的价值A(S，a)；动作价值函数由价值函数与优势函数求和而成：Q(S，a)＝V(S)+A(S，a)，动作价值函数通过策略梯度算法基于已有数据进行参数学习。

8.一种新商品新用户的自适应对话推荐***，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如权利要求1-7中任一项所述的新商品新用户的自适应对话推荐方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的新商品新用户的自适应对话推荐方法的步骤。