CN114707059A

CN114707059A - 一种基于用户偏好的水利对象元数据推荐***构建方法

Info

Publication number: CN114707059A
Application number: CN202210247094.7A
Authority: CN
Inventors: 冯钧; 陈柱帆; 陆佳民
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-07-05

Abstract

本发明公开了一种基于用户偏好的水利对象元数据推荐***构建方法，首先构建水利对象元数据分类标签，并为分类标签建立索引库表；其次，构建用户行为日志，记录用户在使用检索***时的行为，对用户偏好进行收集；然后，在用户检索时通过构建检索深度树来获得最短检索路径，得到区分度较高的分面，同时根据用户选择的分面推荐相关性最高的分面；在分面推荐的基础上，根据用户对水利对象分类标签的检索行为日志来计算不同用户之间相似度，推荐与当前用户相似的用户感兴趣的水利对象分类标签；最后实现对精炼结果集和推荐分类标签及分面的展示。本发明实现针对用户使用检索***时的偏好挖掘，并向用户推荐其可能感兴趣的检索内容，提高用户的检索效率。

Description

一种基于用户偏好的水利对象元数据推荐***构建方法

技术领域

本发明属于计算机软件领域，具体的涉及一种基于用户偏好的水利对象元数据推荐***构建方法。

背景技术

用户偏好是指用户利用自身在互联网浏览过程中选择的偏向。根据不同用户的选择偏好，可以向不同的用户推荐用户各自需求的内容。目前，基于用户偏好的推荐***已经被很好地应用于商业社会互动领域。在***日志文件中记录用户的浏览行为或检索行为，从中提取用户的特点，并形成用户肖像。按照特定的用户肖像画，可以向用户推荐个性化的内容。如何构成精确的用户档案，进一步提高推荐的准确性，是评价推荐算法的主要指标。

近年来，国内外的研究者对于分面推荐进行了相关研究，提出了许多对于分面的推荐机制。其中，Eyal Oren等人在《Daniel Tunkelang.Faceted Search:SynthesisLectures on In-formation Concepts》提出了基于信息概念的分面搜索推荐方法。该种算法受信息空间规模的限制，同时没有充分利用元数据，因而丢失了元数据的其中的语义信息。同时，另外还有人提出了一种持久化的语义存储方法，作者采用统计的方式挑选关键词，选择层次聚类的方式考察属性的指导本领。对于分面推荐这个方面，除了以上提到的两种方法，同时还有基于用户提问、基于用户点击率和查看、基于用户评分、基于频率和覆盖的统计学方法、基于XML语义相关性等方法。然而，在半结构化的XML数据中，分面是有相关性的，以上方法大多都没有考虑到这一点，他们的推荐方法也只是考虑了单个分面的引导能力。

传统的数据检索是通过关键词搜索元数据实现的，普通用户往往难以表达水利行业的专业词汇，无法准确查询需求。其中，水利领域的对象元数据与一般领域的信息元数据有很大区别，商业领域和社交领域的智能推荐算法不能直接应用于水利领域。水利管理对象数量大、类型多、空间分布广、运行环境复杂，其具有天然的地理分散性，又由于其采集方式的不同和各自管理的差异，形成了自身的特点：首先，水利数据具有特殊性：其一，水利数据信息量大。水利行业部门每天都在产生大量的数据，随着业务工作的进展，水利水务行业数据高速增长。例如在水利对象元数据检索***中搜索“三峡”一词就会出现上千条条目，对于用户来说难以检索。其二，水利数据专业性强。对于树立数据不论是对其分类标签还是检索分面，都不像一般数据一样，具有很强的专业性；其三，水利数据结构复杂，具有异构性。水利数据的采集和处理方法多种多样，基于此特点，在对相关数据进行存储时一般使用半结构化的XML数据作为构建载体。其次，用户检索水利数据具有特殊性：其一，用户在检索过程当中是探索式的检索。用户对于水利领域知识的熟识度也不尽相同，水利数据因自身关系复杂，使用检索的用户有时也不清楚自己的需求。其二，用户的分层式检索。基于水利数据结构的分层，用户在检索过程当中也存在分层的特征。

因此，根据水利对象元数据的特点和用户的检索偏好，有必要推荐不同的细粒度检索方面，以便用户更快、更准确地整合自己的检索需求，找到想要的水利数据检索目标。

发明内容

发明目的：为克服现有技术的不足，本发明提供了一种基于用户偏好的水利对象元数据推荐***构建方法，构建智能推荐水利对象元数据检索***，逐步向用户推荐相关分面搜索，随着搜索深度的增加，可以让用户更准确地定位自己的需求，从而帮助用户提高查询效率。

技术方案：本发明提供一种基于用户偏好的水利对象元数据推荐***构建方法，包括以下步骤：

(1)构建水利对象元数据分类标签，并为分类标签建立索引库表；

(2)构建用户行为日志，使用Web数据埋点技术，记录用户在使用检索***时的行为，对用户偏好进行收集；

(3)构建分面推荐模块：用户在检索时选择水利对象元数据的某个属性作为筛选条件，所选属性即为分面，所选属性的具体值即为分面值：针对水利对象元数据建立的特定检索分面，在用户每次检索时，根据得到的初始结果集构建检索深度树，选择最小深度路径树上的所有分面，实现在分面检索次数较少的情况实现更明显的数据区分效果；同时预先计算分面的相关性，推荐相关性高的分面给用户，根据用户的分面选择结果提炼结果集；

(4)构建分类标签推荐模块：挖掘用户对不同分类标签的偏好并以此作为推荐；根据用户对不同的水利对象分类标签的检索行为日志，得到不同用户之间检索行为的交集和并集，计算出不同用户之间的相似度，并向当前用户推荐相似用户感兴趣的水利对象分类标签；

(5)构建结果展示模块：向用户展示精炼结果集和推荐分类标签及分面。

进一步地，所述步骤(1)包括以下步骤：

(11)针对水利对象元数据，划分四种一级分类标签，包括江河湖泊、水利工程、监测站点、其他；

(12)针对一级分类标签，在其下细分二级分类标签，在后续进行分类标签推荐时，向用户推荐更为精准的二级标签；

(13)针对所有分类标签，构建数据库表存储，并通过外键索引相互关联，建立水利对象元数据与分类标签之间的关系。

进一步地，所述步骤(2)包括以下步骤：

(21)用户产生检索请求行为；

(22)提取用户检索的切面信息；

(23)判断用户检索行为是否符合切入点的选择条件，若符合，则执行(24)，否则将用户点击标签对象和检索请求作为发起条件，记录用户的点击次数和停留时长作为主要的行为评价指标；

(24)创建代理对象，记录用户的检索行为，将用户对每个分类标签的点击次数和检索停留时长存储到用户行为日志表中。

进一步地，步骤(3)所述特定的检索分面包括水利对象分类标签、发布单位、联系人、元数据发布时间、审核时间。

进一步地，所述步骤(3)包括以下步骤：

(31)在用户每次进行初步检索时，根据检索得到的初步结果集构建检索深度树，计算初步结果集中所有的属性个数，即分面个数，分别以不同的属性为根创建结点；

(32)将其余属性作为根结点的子结点，并依据不同的属性选择将初步结果集划分为若干个精炼结果集；

(33)在子结点上重复步骤(31)和(32)，以当前结点的深度路径树上未出现过的属性作为子结点，继续构建检索深度树，直至检索到具体的数据记录；

(34)找到该树的深度最低的检索路径即为推荐用户选择的路径，该路径上的每个结点的属性即为推荐分面，属性值即为推荐分面值；

(35)计算所有推荐分面与用户上一步分面选择的相关性得分，将所有推荐分面按照相关性得分进行排序，后推荐给用户，相关性得分计算公式如下：

其中,ans表示分面a与分面b的相关性，S_a表示分面a下的搜索结果数量，S_b表示分面b下的搜索结果数量，S_aS_b则表示同时在ab两个分面下的搜索结果数量。

进一步地，所述步骤(4)包括以下步骤：

(41)查询当前用户的检索行为操作日志，轮询用户对每个分类标签的行为操作日志，根据偏好得分公式，计算得到用户对于每个分类标签的偏好评分，并记录当前用户对于每个标签的偏好评分，具体得分计算公式如下：

其中，x为请求次数，y为停留时长，分别对x和y进行线性回归处理，然后求和再对该和的结果线性回归，结果范围在[0,1]间；

(42)设置一个阈值，偏好评分高于该阈值则认为该用户偏好该标签，若初步结果集中的元数据包含用户偏好分类标签，则直接向用户推荐该标签；若初步结果集中所有的分类标签都未曾被用户检索过，则根据用户偏好分类标签划分结果，通过余弦相似度公式计算当前用户与其他用户之间的相似度；

(43)根据用户相似度计算结果，选取k个临近用户的喜好标签作为当前用户的推荐结果，进一步计算当前用户对这些分类标签的偏好评分：

其中，b_ui是指用户u对标签i的基础评分，k指KNN算法中的k参数，N_i是所有对标签i产生过行为的用户集合，v是N_i中的单个用户，r_ui是用户u对标签i的最终偏好评分值，sim(u,v)是用户u和用户v之间的用户相似度；

(44)预测标签评分，生成推荐水利对象元数据分类标签。

有益效果：与现有技术相比，本发明的有益效果：本本发明实现了基于用户偏好的水利对象元数据推荐***的***构建，结合了基于相关性的分面推荐算法和基于用户的协同过滤算法；本发明实现了针对不同用户的检索偏好，精准地向用户推荐其可能感兴趣的内容，帮助用户进行探索式检索，提高检索效率；此外，根据用户在检索***中不断产生新的检索行为，本发明可以实时计算更新用户的偏好，为用户提供实时的、准确的、高效的用户偏好内容推荐。

附图说明

图1是本发明的流程图；

图2是分类标签存储库表的存储结构示意图；

图3是AOP织入挖掘用户行为流程图；

图4是构建的检索深度树结构示意图；

图5是以单位为根节点建立的检索深度树示例图；

图6是以发布联系人为根节点建立的检索深度树示例图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明所提供的是一种基于用户偏好的水利对象元数据推荐***构建方法，如图1所示，具体包括以下步骤：

步骤1：构建水利对象元数据分类标签，水利对象分类标签是针对水利领域建立的特定检索分面，是对水利对象元数据的类别划分。分别分为一级和二级标签，并为分类标签建立索引库表，以方便后续步骤对于分类标签的推荐检索。

针对水利对象元数据，划分四种一级分类标签，包括江河湖泊、水利工程、监测站点、其他。针对一级分类标签，在其下划分二级分类标签。其中，一级分类标签江河湖泊下分别有二级分类标签：流域、河流、湖泊等标签，水利工程标签下分别有：水库、大坝、水电站等标签，监测点标签下分别有：水文监测站、水土保持监测站等标签，其他标签下分别有：水资源分区、水功能区、水土保持区划等标签。针对所有分类标签，构建独立的数据库表存储，并通过外键索引相互关联，建立水利对象元数据与分类标签之间的关系。数据库使用Oracle进行存储，具体关系模型及存储结构如图2所示。

步骤2：构建用户行为日志，使用到了Web数据埋点技术中的Spring-AOP特性(即面向切面编程)，记录用户在使用检索***时的行为，挖掘用户的偏好。如图3所示，具体包括以下步骤：

(2.1)创建实例对象，即用户产生检索请求行为。

(2.2)提取切面信息，即用户检索时的切面信息。

(2.3)判断实例对象是否符合切入点的选择条件，即用户检索行为是否符合条件，在本实施例中，触发条件为用户是否使用水利对象分类标签作为筛选条件进行检索，若符合，则执行下一步，否则直接跳过(2.4)；本***中将用户点击标签对象和检索请求作为发起条件，记录用户的点击次数和停留时长作为主要的行为评价指标。

(2.4)创建代理对象，记录用户的检索行为，将用户对每个分类标签的点击次数和检索停留时长存储到用户行为日志表中。表字段包括：用户名、用户操作、响应时间、请求方法、请求参数、IP地址、创建时间。同时将该次请求创建时间记录下来，并在下次遇到请求时将两次请求之间的时间差作为用户停留时长。对于用户每次对于标签的点击请求都筛选出来作为用户操作数据集，后续用户相似度将基于该数据集进行计算。

步骤3：构建分面推荐模块，用户在检索时选择水利对象元数据的某个属性作为筛选条件，所选属性即为分面，所选属性的具体值即为分面值。针对水利对象元数据建立的特定检索分面，在用户每次检索时，根据得到的初始结果集构建检索深度树，如图4所示，该树的非叶子结点为某个属性，叶子结点为具体的数据记录，从根结点到叶子结点记录了用户检索到某一条数据记录的整个检索路径。选择最小深度路径树上的所有分面，预先计算分面的相关性，推荐相关性高的分面给用户，根据用户的分面选择结果最终提炼结果集。

(3.1)在用户每次进行初步检索时，根据检索得到的初步结果集构建检索深度树，计算初步结果集中所有的属性个数，即分面个数，分别以不同的属性为根创建结点。

(3.2)将其余属性作为根结点的子结点，并依据不同的属性选择将初步结果集划分为若干个精炼结果集。

(3.3)在子结点上重复步骤(3.1)和(3.2)，以当前结点的深度路径树上未出现过的属性作为子结点，继续构建检索深度树，直至检索到具体的数据记录。

(3.4)找到该树的深度最低的检索路径即为推荐用户选择的路径，该路径上的每个结点的属性即为推荐分面，属性值即为推荐分面值。

(3.5)计算所有推荐分面与用户上一步分面选择的相关性得分，将所有推荐分面按照相关性得分进行排序，后推荐给用户，相关性得分计算公式如下：

以用户在水利对象元数据检索***中通过关键字“三峡”搜索为例，通过关键字搜索“三峡”，得到17810条水利对象数据，为初步结果集D。计算初步结果集中所有的属性个数，在本***中，属性包括发布单位、发布联系人、发布时间、审核时间、水利对象分类标签等五个分面。其中有三个单位发布过与“三峡”有关水利对象元数据，涉及五个发布联系人，包括五个发布时间。分别以发布单位、发布联系人、发布时间三个分面为根节点建立检索深度树。比如，以发布单位为根节点构建检索深度树时，涉及了三个发布单位，分别是水利部信息中心、长委信息中心、淮委水文局，据此将初步结果集D划分为三份精炼结果集(D1、D2、D3)，每一份精炼结果集又可以分别按发布联系人和发布时间进行划分，重复上述步骤，直至划分完所有属性值，检索定位到符合特定条件且无法再筛分的数据记录。得到三棵检索深度树，图5、图6中比较了以单位和发布联系人为根节点建立的检索深度树，可以看出，由于每个发布联系人所属单位唯一，因此确定了发布联系人也就确定了单位，检索路径更短，因此将该路径上的分面(即发布联系人、发布时间)推荐给用户。例如，在用户初次使用***时，可能需要按照“水利部→A→2018-3-14”的分面选择顺序来筛选数据，但是当用户检索目的比较明确，知道A所属单位为水利部时，直接按照推荐顺序“A→2018-3-14”来筛选数据，减少了分面检索的次数。若用户选择了“单位：水利部”作为分面检索条件，则需要根据权利要求书中所述相关性得分公式计算其余两个分面(即发布联系人、发布时间)与当前选择的分面的相关性得分，按照相关性得分排序推荐分面。

步骤4：构建分类标签推荐模块，水利对象分类标签是针对水利领域建立的特定检索分面，用户在使用水利对象元数据检索***进行检索时，水利对象分类标签是最常用的筛选条件，因此挖掘用户对不同分类标签的偏好并以此作为推荐，可以有效提高用户的检索效率。根据用户的检索行为日志，得到不同用户之间检索行为的交集和并集，以此计算出不同用户之间的相似度，并向当前用户推荐相似用户感兴趣的内容。

查询当前用户的检索行为操作日志，轮询用户对每个分类标签的行为操作日志，根据偏好得分公式，计算得到用户对于每个分类标签的偏好评分，并记录当前用户对于每个标签的偏好评分，具体得分计算公式如下：

其中，x为请求次数，y为停留时长，分别对x和y进行线性回归处理，然后求和再对该和的结果线性回归，结果范围在[0,1]间。

设置一个阈值，偏好评分高于该阈值则认为该用户偏好该标签，若初步结果集中的元数据包含用户偏好分类标签，则直接向用户推荐该标签；若初步结果集中所有的分类标签都未曾被用户检索过，则根据用户偏好分类标签划分结果，通过余弦相似度公式计算当前用户与其他用户之间的相似度。

根据用户相似度计算结果，选取k个临近用户的喜好标签作为当前用户的推荐结果，进一步计算当前用户对这些分类标签的偏好评分：

其中，b_ui是指用户u对标签i的基础评分，k指KNN算法中的k参数，N_i是所有对标签i产生过行为的用户集合，v是N_i中的单个用户，r_ui是用户u对标签i的最终偏好评分值，sim(u,v)是用户u和用户v之间的用户相似度。预测标签评分，生成推荐水利对象元数据分类标签。

步骤5：构建结果展示模块，向用户展示最终的精炼结果集和推荐分类标签及分面。

展示内容包括用户进一步检索后的精炼结果集、推荐分类标签、推荐检索分面，并按照用户偏好评分值进行排序展示。推荐结果可以帮助用户提高检索效率。

本发明实现了基于用户偏好的水利对象元数据推荐***，该***结合了基于相关性的分面推荐算法和基于用户相似度的协同过滤算法，为用户推荐相关性更高，更感兴趣的内容，提升用户的检索效率。

Claims

1.一种基于用户偏好的水利对象元数据推荐***构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于用户偏好的水利对象元数据推荐***构建方法，其特征在于，所述步骤(1)包括以下步骤：

3.根据权利要求1所述的基于用户偏好的水利对象元数据推荐***构建方法，其特征在于，所述步骤(2)包括以下步骤：

(21)用户产生检索请求行为；

(22)提取用户检索的切面信息；

4.根据权利要求1所述的基于用户偏好的水利对象元数据推荐***构建方法，其特征在于，步骤(3)所述特定的检索分面包括水利对象分类标签、发布单位、联系人、元数据发布时间、审核时间。

5.根据权利要求1所述的基于用户偏好的水利对象元数据推荐***构建方法，其特征在于，所述步骤(3)包括以下步骤：

6.根据权利要求1所述的基于用户偏好的水利对象元数据推荐***构建方法，其特征在于，所述步骤(4)包括以下步骤：

(44)预测标签评分，生成推荐水利对象元数据分类标签。