CN117390290B

CN117390290B - 一种基于内容增强的语言模型学习动态用户兴趣的方法

Info

Publication number: CN117390290B
Application number: CN202311675014.9A
Authority: CN
Inventors: 高敏; 陈恩红; 蒋浚哲; 张凯; 李京秀; 王慕秋; 宋雪莉
Original assignee: Anhui Provincial Hospital First Affiliated Hospital Of Ustc
Current assignee: Anhui Provincial Hospital First Affiliated Hospital Of Ustc
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-15
Anticipated expiration: 2043-12-08
Also published as: CN117390290A

Abstract

本发明涉及人工智能领域，具体涉及一种基于内容增强的语言模型学习动态用户兴趣的方法，包括：收集用户的历史物品选择数据；将物品的知识标记输入参数冻结的预训练语言模型得到知识提示；基于知识提示生成用户的历史行为序列；基于用户的历史行为序列和知识提示生成推理提示；将不断训练调优的语言模型预测的结果使用集束搜索筛选后生成预测物品的向量表示；并通过余弦相似度对比将预测物品的向量表示映射到数据库中的某个物品作为用户最终的推荐物品。本发明具有整合外部知识以增强对物品内容理解建模的优势，通过融合两个领域的知识，弥合语言模型和推荐***之间的差距。

Description

一种基于内容增强的语言模型学习动态用户兴趣的方法

技术领域

本发明涉及人工智能领域，具体涉及一种基于内容增强的语言模型学习动态用户兴趣的方法。

背景技术

随着信息技术的不断发展，互联网已经成为人们日常生活中密不可分的一部分。人们每天都会在互联网上进行各种各样的活动，例如看电影、购物、阅读新闻时事等，但随着互联网上信息的越来越多，人们发现越来越难以从互联网上的海量信息中找出最适合自己的信息，例如用户登录优酷想要看一部电影时却不知道应该挑选哪一部观看。推荐***的出现正是为了解决这种信息过载的问题，它会预测用户的需求并推荐给用户其最可能喜欢的内容，缓解了人们从海量信息中做出选择的烦恼。推荐***是各种在线应用程序的关键引擎，包括电子商务、广告和在线视频。推荐***在发现用户兴趣和缓解信息过载方面发挥着关键作用。

在推荐***发展的早期，常见的推荐方法是简单的依据物品的销量、话题的点击量或新闻的阅读量等进行排序，然后选取排在最前面的若干个物品组成排行榜并推荐给用户。这种方法具有非常不错的效果，直到今天用户仍能在各大网站上看到类似的功能。但另一方面，这种方法也存在着巨大的缺陷，即只有少量的排在前列的物品能够得到推荐，更多的物品则被埋没不为人知，根据营销中的“长尾理论”，细小市场的累积所产生的利润同样是巨大的，因此如何充分利用已有资源（物品），并使得推荐尽可能准确，成为了推荐***领域研究的主要目标，由此个性化推荐***应运而生。

个性化推荐***，顾名思义即指根据用户的个性与偏好来产生推荐内容，由于不同用户的个性与偏好存在差异，因此对其推荐的内容也会有所不同，这样一方面可以使得更多的物品得到推荐，利于获取更多小的细分市场的利润；另一方面，由于推荐是根据用户的偏好产生的，因此推荐成功的概率也更高。

一些研究人员尝试利用语言建模在语义理解中的强大能力来执行基于内容的序列推荐。这种基于语言模型的个性化推荐方法在原有的传统序列推荐模型前添加了基于语言模型的文本编码器，根据用户的购买记录中物品的文本信息，提取其中的文本表征，预测用户感兴趣的商品。相比于传统序列推荐模型仅通过不同用户之间购买关联而建模的协同过滤算法，现有的基于语言模型的个性化推荐方法的优势是在推荐***中利用语言模型能够很好地利用物品的文本内容信息，进而实现更精准的推荐，还有助于缓解物品冷启动的问题。但是，现有的基于语言模型的个性化推荐方法并没有脱离传统序列推荐模型的范式，只是将语言模型作为文本编码器，即多加了一个模块。这种方法的缺点是，语言模型和推荐***本身存在一定的语义鸿沟，语言模型理解的物品标题、详细说明文本和用户实际感兴趣的点、购买的动机之间存在着不匹配的情况。所以，如何将语言模型更好地融入进推荐***，变得十分重要。

发明内容

为解决上述问题，本发明提供一种基于内容增强的语言模型学习动态用户兴趣的方法。

该方法包括：

步骤一，收集用户的历史物品选择数据，定义用户的历史物品选择数据中第个物品为物品/>，物品/>包括物品的标题/>和物品的详细文本/>，以所有物品的标题作为标题集合，将标题集合转化为历史行为文本/>；

步骤二，将物品的知识标记转化为知识标记嵌入向量，输入到知识提示生成模块的多层感知机得到知识提示；

步骤三，将知识提示拼接到参数冻结的预训练语言模型每一层注意力模块的参数之前，得到每一层注意力模块的扩充后的键矩阵和扩充后的值矩阵，其中第/>层的注意力模块扩充后的键矩阵为/>，第/>层的注意力模块扩充后的值矩阵为/>；

步骤四，基于扩充后的键矩阵和扩充后的值矩阵/>计算物品/>的向量表示/>，并将所有物品的向量表示作为用户的历史行为序列/>；

步骤五，基于用户的历史行为序列和知识提示/>生成推理提示/>；

步骤六，基于推理提示和历史行为文本/>，使用不断训练调优的语言模型/>预测不同物品作为用户感兴趣的物品的概率，使用集束搜索根据不同物品作为用户感兴趣的物品的概率生成文本序列，将集束搜索最后筛选得到的文本序列作为集束搜索解码预测的文本；

步骤七，将集束搜索解码预测的文本输入不断训练调优的语言模型生成预测物品的向量表示/>；

步骤八，比较预测物品的向量表示与数据库/>中每个物品的向量表示的余弦相似度，以数据库/>中与预测物品的向量表示/>的余弦相似度最高的物品作为用户最终的推荐物品/>。

进一步的，通过用户最终的推荐物品的标题和预先给定的用户真实感兴趣的物品的标题的交叉熵更新不断训练调优的语言模型/>的模型参数和知识提示生成模块的多层感知机的参数。

进一步的，步骤二具体包括：

生成的知识提示为：

；

其中，表示输入到参数冻结的预训练语言模型的第/>个知识标记，/>表示知识标记的数量，/>表示多层感知机，/>表示转化为嵌入向量操作。

进一步的，步骤三具体包括：

参数冻结的预训练语言模型第层的注意力模块融入知识提示/>后得到的扩充后的键矩阵/>和扩充后的值矩阵/>分别为：

；

其中，表示参数冻结的预训练语言模型的最长输入长度，/>表示参数冻结的预训练语言模型隐藏层的维度，/>表示知识标记的数量，/>表示维度为/>的向量，/>表示参数冻结的预训练语言模型第/>层的注意力模块计算知识提示的键矩阵，表示参数冻结的预训练语言模型第/>层的注意力模块计算知识提示的值矩阵，/>表示对/>中/>前后的两个矩阵进行拼接操作，/>和/>分别代表参数冻结的预训练语言模型第/>层的注意力模块未融入知识提示/>前的键矩阵和值矩阵。

进一步的，步骤四具体包括：

利用扩充后的键矩阵和扩充后的值矩阵/>计算物品/>的向量表示/>：

；

其中，表示参数冻结的预训练语言模型的输出，/>表示基于扩充后的键矩阵/>和扩充后的值矩阵/>处理详细文本/>，/>表示参数冻结的预训练语言模型基于扩充后的键矩阵/>和扩充后的值矩阵/>对详细文本/>处理得到的物品向量表示；

将用户的历史行为序列表示为，其中/>代表用户的历史物品选择数据中物品的数量。

进一步的，步骤五具体包括：

推理提示为：

；

其中，为表示用户的历史行为与知识标记之间相关性的权重矩阵，/>表示参数冻结的预训练语言模型隐藏层的维度，/>为归一化函数，/>为矩阵转置，/>为sigmoid激活函数，/>分别为计算用户历史行为与知识标记相关性的注意力机制的查询矩阵、键矩阵和值矩阵，/>为可学习的权重矩阵，/>为可学习的偏置向量。

进一步的，计算用户历史行为与知识标记相关性的注意力机制的查询矩阵为：

；

计算用户历史行为与知识标记相关性的注意力机制的键矩阵为：

；

计算用户历史行为与知识标记相关性的注意力机制的值矩阵为：

；

其中，分别为用于计算查询矩阵/>、键矩阵/>和值矩阵/>的可学习的权重矩阵，/>分别为用于计算查询矩阵/>、键矩阵/>和值矩阵/>的可学习的偏置向量。

进一步的，步骤六中所述使用集束搜索根据不同物品作为用户感兴趣的物品的概率生成文本序列中，使用集束搜索在第步生成的文本序列/>为：

；

其中，代表不断训练调优的语言模型/>在第/>步生成的某个文本，/>代表集束搜索在第/>步筛选后得到的某个文本，/>代表不断训练调优的语言模型/>的词汇集，代表满足/>后的条件下集束搜索在第/>步筛选后得到的所有文本和不断训练调优的语言模型/>在第/>步生成的所有文本，/>表示集束搜索在第/>步的待筛选文本集合，/>代表每一步被保留的候选文本的数量，/>代表候选文本集合/>的大小，/>表示基于历史行为文本/>和推理提示/>，不断训练调优的语言模型/>预测的候选文本集合/>的概率，/>代表求函数最大值对应的自变量的值。

进一步的，步骤七具体包括：

将集束搜索解码预测的文本输入不断训练调优的语言模型的嵌入层得到预测物品向量序列/>，/>代表集束搜索解码预测的待推荐物品的向量维度，/>代表集束搜索解码预测的待推荐物品的向量的第/>维；

其中，预测物品向量序列在不断训练调优的语言模型/>隐藏层第/>维的最大值/>为：

；

其中，代表集束搜索解码预测的待推荐物品的向量的第/>维/>在不断训练调优的语言模型/>隐藏层第/>维的值，/>既表示参数冻结的预训练语言模型隐藏层的维度，也表示不断训练调优的语言模型隐藏层的维度；

将不断训练调优的语言模型隐藏层所有维度的最大值组合得到预测物品的向量表示/>。

进一步的，步骤八具体包括：

计算数据库中每个物品的向量表示；

比较预测物品的向量表示与数据库/>中每个物品的向量表示的余弦相似度，以余弦相似度最高的物品作为用户最终的推荐物品/>：

；

其中，代表数据库/>中物品，/>代表余弦相似度计算，/>代表求函数最大值对应的自变量的值。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明提供了序列推荐***的一种新范式，即将领域知识和物品内容提示融入语言模型，利用它们的语义理解能力生成用户的推荐结果。本发明提供的方法具有整合领域知识以增强对物品内容理解建模的优势，通过融合两个领域的知识，弥合了语言模型和推荐***之间的差距。

附图说明

图1为本发明实施例提供的基于内容增强的语言模型学习动态用户兴趣的方法的流程图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明，在详细说明本发明各实施例的技术方案前，对所涉及的名词和术语进行解释说明，在本说明书中，名称相同或标号相同的部件代表相似或相同的结构，且仅限于示意的目的。

本发明根据用户的历史物品选择数据为用户推荐物品。用户的历史物品选择数据包括用户购买、观看、浏览记录，根据数据集的不同而有所不同。

本发明根据用户的历史物品选择数据中的每个物品，在数据库中检索每个物品对应的信息，获得每个物品的详细信息，并将其输入到参数冻结的预训练语言模型中，以提取物品的知识并将物品在隐藏层的输出作为每个物品的向量表示。同时输入到参数冻结的预训练语言模型中的还有知识提示，知识提示生成模块随机初始化知识提示为嵌入向量，但是在知识提示生成模块训练过程中知识提示能够学习到领域知识。使用注意力机制将知识提示与物品的向量表示相结合作为推理提示，将推理提示输入不断训练调优的语言模型预测物品的向量表示，并将预测物品的向量表示映射到数据库中的具体物品，得到用户最终的推荐物品。在这个过程中，通过反向传播来训练知识提示生成模块和基于预训练语言模型的推荐***。

本发明提供的方法步骤如图1所示，具体包括：

1.历史物品选择数据提取

在实际应用场景中，获取用户的历史物品选择数据。如从电商平台获取用户的浏览、购买以及评价过的商品信息；在新闻推荐平台获取用户阅读、评论以及转发的新闻信息。

将用户的历史物品选择数据表示为，物品/>为文本表示格式，物品/>包括物品的标题/>和物品的详细文本/>，/>为物品的索引，/>表示历史物品选择数据中物品的数量。用户的历史物品选择数据的标题集合表示为/>。在电商平台，物品/>代表用户浏览、购买或者评价过的商品，标题/>为该商品的名称，详细文本/>为该商品的详细描述；在新闻推荐平台，物品/>代表用户阅读、评论以及转发的新闻，标题/>为新闻的标题，详细文本/>为新闻的全文内容。

通过预设的提示模板将用户的历史物品选择数据的标题集合转化为历史行为文本/>：

；

其中，代表预设的提示模板。提示模板是一个用于将用户的历史物品选择数据的标题集合转化为更具可解释性的文本描述的工具。提示模板将用户的历史物品选择数据的标题集合转化的过程是一种特殊的特征工程，目的是提取和编码更丰富、更具描述性的信息，以帮助参数冻结的预训练语言模型更好地理解用户的行为和需求。

2.生成知识提示

知识标记是一种用于表示和编码特定信息或知识的符号或编码，通常用于表示一些重要的特征或属性，比如用户的行为模式、物品的元数据等。

例如，在电商***中，如果用户在过去的一段时间内频繁购买电子产品，那么电子产品就成为一个知识标记，这个知识标记可以帮助参数冻结的预训练语言模型理解用户的购买***台上，如果用户经常阅读科技新闻，那么科技就成为一个知识标记，这个知识标记可以帮助参数冻结的预训练语言模型理解用户的阅读兴趣。

知识提示生成模块为一个可训练的模块，包括嵌入层以及多层感知机。设置固定长度的知识标记并将其输入到知识提示生成模块的嵌入层随机初始化为知识标记嵌入向量。知识提示的计算过程为输入连续的知识标记嵌入向量，并通过多层感知机生成。参数冻结的预训练语言模型为基于Transformer的多层自注意力模型，知识提示/>通过在参数冻结的预训练语言模型每层前添加注意力块的隐藏状态来指导参数冻结的预训练语言模型，计算过程如下：

；

其中，表示输入到参数冻结的预训练语言模型的第/>个知识标记，/>表示知识标记的数量，/>表示多层感知机，/>表示生成的知识提示，/>表示转化为嵌入向量操作。

通过训练知识提示生成模块的参数，即其中包括的多层感知机的参数，能够更好地理解和利用输入的知识标记。

3.整合知识提示

将知识提示整合到参数冻结的预训练语言模型的每一层中，这样参数冻结的预训练语言模型在计算自注意力时，不仅会考虑输入的物品的信息，也会考虑知识提示的信息，从而更好地理解和处理输入数据。

；

其中，表示参数冻结的预训练语言模型的最长输入长度，/>表示参数冻结的预训练语言模型隐藏层的维度，/>表示维度为/>的向量，/>表示参数冻结的预训练语言模型中第/>层的注意力模块计算知识提示的键矩阵，/>表示参数冻结的预训练语言模型中第/>层的注意力模块计算知识提示的值矩阵，/>表示对/>中/>前后的两个矩阵进行拼接操作，/>和/>分别代表参数冻结的预训练语言模型中第/>层的注意力模块未融入知识提示/>前的键矩阵和值矩阵。

4.计算物品的向量表示

；

其中，表示参数冻结的预训练语言模型的输出，/>表示基于扩充后的键矩阵/>和扩充后的值矩阵/>处理详细文本/>，/>表示参数冻结的预训练语言模型基于扩充后的键矩阵/>和扩充后的值矩阵/>对详细文本/>处理得到的物品向量表示。

使用扩充后的键矩阵和扩充后的值矩阵/>计算物品/>的向量表示/>不仅会考虑输入物品的信息，也会考虑知识提示的信息。

将用户的历史行为序列表示为。如果历史行为序列的长度小于预设值，则使用随机值对历史行为序列/>进行填充，以使历史行为序列的长度统一，便于后续的计算过程。

5.生成推理提示

根据用户的历史行为序列和知识提示/>生成融合知识提示的推理提示，以预测用户下一个感兴趣的物品。

将用户的历史行为序列作为注意力机制的查询，知识提示/>作为注意力机制的键和值，注意力机制计算如下：

；

其中，为推理提示，/>为表示用户的历史行为与知识标记之间相关性的权重矩阵，/>为归一化函数，/>为矩阵转置，/>为sigmoid激活函数，/>为可学习的权重矩阵，/>为可学习的偏置向量，/>分别为计算用户历史行为与知识标记相关性的注意力机制的查询矩阵、键矩阵和值矩阵，按照以下方式计算：

；

由于每个用户的历史行为是不同的，所以参数冻结的预训练语言模型对不同用户计算出的推理提示也是不同的，即每个用户拥有唯一的推理提示/>用于后续推荐。

6.集束搜索解码预测

基于推理提示和历史行为文本/>，使用不断训练调优的语言模型/>预测不同物品作为用户感兴趣的物品的概率，使用集束搜索根据不同物品作为用户感兴趣的物品的概率生成文本序列。不断训练调优的语言模型/>与参数冻结的预训练语言模型/>为相同的语言模型，区别仅为参数冻结的预训练语言模型/>的参数不会改变，而不断训练调优的语言模型/>的参数会在训练中不断优化，以更好地学习用户的兴趣。

使用集束搜索在第步生成的文本序列/>为：

；

其中，代表不断训练调优的语言模型/>在第/>步生成的某个文本，/>代表集束搜索在第/>步筛选后得到的某个文本，/>代表不断训练调优的语言模型/>的词汇集，代表满足/>后的条件下集束搜索在第/>步筛选后得到的所有文本和不断训练调优的语言模型/>在第/>步生成的所有文本，/>表示集束搜索在第/>步的待筛选文本集合。/>代表每一步被保留的候选文本的数量。/>代表候选文本集合/>的大小。/>表示基于历史行为文本/>和推理提示/>，不断训练调优的语言模型/>预测的候选文本集合/>的概率。/>代表求函数最大值对应的自变量的值。

本发明中，每一步被保留的候选文本的数量取值10。达到预先设定的集束搜索结束条件后，将集束搜索最后筛选得到的文本序列作为集束搜索解码预测的文本。

7.计算预测物品的向量表示

集束搜索解码预测的文本描述了预测出的用户感兴趣的物品，本发明通过将集束搜索解码预测的文本映射到数据库中的一个特定物品，得出最终推荐给用户的物品。

将集束搜索解码预测的文本输入不断训练调优的语言模型的嵌入层得到预测物品向量序列/>，/>代表集束搜索解码预测的待推荐物品的向量维度，/>代表集束搜索解码预测的待推荐物品的向量的第/>维。为便于不断训练调优的语言模型/>的后续处理，计算预测物品向量序列/>在不断训练调优的语言模型/>隐藏层每一维度的最大值，以将预测物品用固定长度的向量表示。

其中，预测物品向量序列在第/>维的最大值/>为：

；

其中，代表集束搜索解码预测的待推荐物品的向量的第/>维/>在不断训练调优的语言模型/>隐藏层第/>维的值，/>既表示参数冻结的预训练语言模型隐藏层的维度，也表示不断训练调优的语言模型隐藏层的维度。将所有维度的最大值组合得到预测物品的向量表示/>。

8.匹配推荐物品

计算数据库中每个物品的向量表示，计算方法与预测物品的向量表示/>的计算方式相同。比较预测物品的向量表示/>与数据库/>中每个物品的向量表示的余弦相似度，以余弦相似度最高的物品作为用户最终的推荐物品/>：

；

其中，代表数据库/>中物品，/>代表余弦相似度计算。

为了减少计算量，数据库中每个物品的向量表示的计算仅进行一次，将计算的结果存储以供后续训练使用。

通过计算用户最终的推荐物品的标题和预先给定的用户真实感兴趣的物品的标题的交叉熵来更新不断训练调优的语言模型/>的可训练的模型参数和知识提示生成模块中多层感知机的参数。

计算交叉熵以及使用交叉熵训练语言模型的模型参数和多层感知机的参数为本领域公知常识，本发明不再赘述。

以上所述实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种基于内容增强的语言模型学习动态用户兴趣的方法，其特征在于，包括以下步骤：

步骤八，比较预测物品的向量表示与数据库/>中每个物品的向量表示的余弦相似度，以数据库/>中与预测物品的向量表示/>的余弦相似度最高的物品作为用户最终的推荐物品；

其中，步骤五具体包括：

推理提示为：

；

其中，为表示用户的历史行为与知识标记之间相关性的权重矩阵，/>表示参数冻结的预训练语言模型隐藏层的维度，/>为归一化函数，/>为矩阵转置，/>为sigmoid激活函数，/>分别为计算用户历史行为与知识标记相关性的注意力机制的查询矩阵、键矩阵和值矩阵，/>为可学习的权重矩阵，/>为可学习的偏置向量；

计算用户历史行为与知识标记相关性的注意力机制的查询矩阵为：

；

2.根据权利要求1所述一种基于内容增强的语言模型学习动态用户兴趣的方法，其特征在于，通过用户最终的推荐物品的标题和预先给定的用户真实感兴趣的物品的标题的交叉熵更新不断训练调优的语言模型/>的模型参数和知识提示生成模块的多层感知机的参数。

3.根据权利要求1所述一种基于内容增强的语言模型学习动态用户兴趣的方法，其特征在于，步骤二具体包括：

生成的知识提示为：

；

4.根据权利要求1所述一种基于内容增强的语言模型学习动态用户兴趣的方法，其特征在于，步骤三具体包括：

；

其中，表示参数冻结的预训练语言模型的最长输入长度，/>表示参数冻结的预训练语言模型隐藏层的维度，/>表示知识标记的数量，/>表示维度为/>的向量，表示参数冻结的预训练语言模型第/>层的注意力模块计算知识提示的键矩阵，表示参数冻结的预训练语言模型第/>层的注意力模块计算知识提示的值矩阵，/>表示对/>中/>前后的两个矩阵进行拼接操作，/>和/>分别代表参数冻结的预训练语言模型第/>层的注意力模块未融入知识提示/>前的键矩阵和值矩阵。

5.根据权利要求1所述一种基于内容增强的语言模型学习动态用户兴趣的方法，其特征在于，步骤四具体包括：

；

6.根据权利要求1所述一种基于内容增强的语言模型学习动态用户兴趣的方法，其特征在于，步骤六中所述使用集束搜索根据不同物品作为用户感兴趣的物品的概率生成文本序列中，使用集束搜索在第步生成的文本序列/>为：

；

7.根据权利要求1所述一种基于内容增强的语言模型学习动态用户兴趣的方法，其特征在于，步骤七具体包括：

；

将不断训练调优的语言模型隐藏层所有维度的最大值组合得到预测物品的向量表示。

8.根据权利要求1所述一种基于内容增强的语言模型学习动态用户兴趣的方法，其特征在于，步骤八具体包括：

计算数据库中每个物品的向量表示；

；