CN105159932B

CN105159932B - 一种数据检索引擎和排序***和方法

Info

Publication number: CN105159932B
Application number: CN201510478159.9A
Authority: CN
Inventors: 李文超; 金泰木; 王腾飞; 张士存; 段浩伟; 曹志伟; 柳少华; 孙华; 董丽; 王振中; 林霖
Original assignee: CRRC Qingdao Sifang Co Ltd
Current assignee: CRRC Qingdao Sifang Co Ltd
Priority date: 2015-08-07
Filing date: 2015-08-07
Publication date: 2019-06-21
Anticipated expiration: 2035-08-07
Also published as: CN105159932A

Abstract

本发明涉及一种数据检索引擎和排序***和方法，包括用户管理模块，用于管理用户信息；数据库，用于分类储存文档并响应用户请求；相关度计算模块，用于检索结果的计算和排序；所述相关度计算模块包括用户行为统计子模块，用于统计用户偏好关键词、用户对文档评论和应用行为；排序相关度计算子模块，用于计算排序相关度并按排序相关度将检索结果进行排列。本发明对检索词匹配到的数据集合进一步进行查询相关度RC、需求相关度DC和数据质量相关度QC的分析计算，使检索出的数据集合符合用户偏好、用户对文档评论和应用行为，提高了检索结果与用户需求的相关度，节约了用户查询时间。

Description

一种数据检索引擎和排序***和方法

技术领域

本发明涉及一种检索引擎，特别涉及一种数据检索引擎和排序***和方法。

背景技术

现有的搜索引擎进行数据检索的过程中，大部分采用关键词输入方式进行检索，检索结果按照关键词匹配程度进行排序，不同的用户输入相同的关键词得到的搜索结果往往是一样的，对检索结果的排序方式没有考虑用户个性化需求和数据质量因素。从大量的返回信息中寻找自己需要的信息，会浪费用户很长的时间和精力。

发明内容

本发明主要目的在于解决上述问题和不足，提供一种基于用户行为信息提高数据相关度，提高检索准确度的一种数据检索引擎和排序***。

本发明的另一个主要目的在于提供一种数据检索和排序方法。

为实现上述目的，本发明的技术方案是：

一种数据检索引擎和排序***，包括：

用户管理模块，用于管理用户信息；

数据库，用于分类储存文档并响应用户请求；

相关度计算模块，用于检索结果的计算和排序；

所述相关度计算模块包括用户行为统计子模块，用于统计用户偏好关键词、用户对文档评论和应用行为；

排序相关度计算子模块，用于计算排序相关度并按排序相关度将检索结果进行排列。

进一步，根据权利要求1所述的一种数据检索和排序***，其特征在于：所述排序相关度由查询相关度RC、需求相关度DC和数据质量相关度QC决定。

进一步，所述查询相关度RC采用TF-IDF方法计算，

其中，i为检索词；

TFi(d)为检索词i在文档d中出现的频率；

N为所有文档的数目；

DF为含有检索词i的文档数目。

进一步，所述需求相关度DC由偏好关键词相似度KeySim与行为偏好分类相似度ClassSim相加得到；

所述偏好关键词相似度由每个文档索引形成的文档主题向量DSV和用户偏好关键词表形成的用户偏好向量UPV进行余弦相似度计算，

DSV(a₁,w₁；a₂,w₂；...；a_m,w_m)

UPV(b₁,w₁；b₂,w₂；...；b_n,w_n)

所述行为偏好分类相似度由用户对文档应用行为决定，

其中，df(t_a)、df(t_b)、df(t_c)、df(t_d)为文档所属分类被用户浏览、下载、收藏、推荐次数。

进一步，所述数据质量相关度QC由用户对文档应用因子、用户对文档评论数量因子、用户对文档评分因子相加得到，

其中，FD_i和FD分别代表该文档被下载的次数和全部文档中被下载最多的文档的下载次数；FL_i和FL分别代表该文档被浏览的次数和全部文档中被浏览最多的文档的浏览次数；FF_i和FF分别代表该文档被收藏的次数和全部文档中被收藏最多的文档的收藏次数；FR_i和FR分别代表该文档被推荐的次数和全部文档中被推荐最多的文档的推荐次数；CM_i和CM分别代表该文档被评论的次数和全部文档中被评论最多的文档的评论次数；Score代表该文档评分因子。

进一步，所述文档评分因子Score由用户评分能力US和用户对文档的评分e_j加权计算得到，

其中，j为评分个数；

所述用户评分能力US由静态因子USS、动态因子UDS和专业领域因子MMS加权计算后相加得到，

进一步，所述静态因子USS由用户的年龄、技术职称、学历的转换值SS计算得到，

进一步，所述动态因子UDS由用户每月登陆***次数的活跃程度AD决定，

其中，fr_i为每月用户登录次数。

进一步，若用户所属专业领域与用户评分的文档所述领域为同领域时，则具有专业领域因子MMS，即γ为0.1；

若用户所属专业领域与用户评分的文档所述领域为不同领域时，则不具有专业领域因子MMS，即γ为0。

本发明的另一个技术方案是：

一种数据检索和排序方法，包括如下步骤：

步骤1、用户输入检索词i；

步骤2、将检索词i与数据库中文档进行匹配，得到匹配数据集合；

步骤3、根据查询相关度RC、需求相关度DC和数据质量相关度QC，对匹配数据集合中的文档进行排序相关度RankC计算，

RankC＝log(RC+QC+DC) (9)；

步骤4、根据排序相关度RankC将检索结果进行排序。

综上内容，本发明所述的一种数据检索引擎和排序***和方法，对检索词匹配到的数据集合进一步进行查询相关度RC、需求相关度DC和数据质量相关度QC的分析计算，使检索出的数据集合符合用户偏好、用户对文档评论和应用行为，提高了检索结果与用户需求的相关度，节约了用户查询时间。

附图说明

图1是本发明方法的流程图；

图2是本发明***的框架图；

图3是本发明用户评分能力US示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

如图2所示，一种数据检索引擎和排序***，包括用户管理模块、数据库和相关度计算模块。

用户管理模块，用于管理用户信息，主要记录用户年龄、技术职称、学历、所属技术领域、用户偏好关键词表等数据。

数据库，主要用于储存文档数据，并对文档进行分类管理，响应用户针对各类文档的应用请求。

相关度计算模块，主要用于实现检索结果的计算和排序，包括用户行为统计子模块和排序相关度计算子模块。

用户行为统计子模块，主要用于记录用户对文档应用行为记录(浏览、下载、收藏、推荐)、用户对文档评论和评分记录、用户登录次数记录等。

排序相关度计算子模块，主要用于计算排序相关度并按排序相关度将检索结果进行排列。

排序相关度RankC由查询相关度RC、需求相关度DC和数据质量相关度QC决定，公式如下：

RankC＝log(RC+QC+DC) (9)

用户输入检索词i后，***将检索词i与数据库中文档进行匹配，得到匹配数据集合，查询相关度RC采用TF-IDF方法计算，公式如下：

TFi(d)为检索词i在文档d中出现的频率，N为所有文档的数目，DF为含有检索词i的文档数目。该函数的提出是基于这样一个假设：对区别文档有意义的词语应该是那些在文档中出现频率足够高，但在整个文档集合的其他文档中出现频率足够少的词语。

需求相关度DC由偏好关键词相似度KeySim与行为偏好分类相似度ClassSim相加得到。

偏好关键词相似度KeySim由每个文档索引形成的文档主题向量DSV和用户偏好关键词表形成的用户偏好向量UPV进行余弦相似度计算。用户偏好关键词表取自数据检索和排序***用户管理模块中保存的用户自行定义的兴趣标签词，公式如下：

DSV(a₁,w₁；a₂,w₂；...；a_m,w_m)

UPV(b₁,w₁；b₂,w₂；...；b_n,w_n)

行为偏好分类相似度ClassSim由用户对文档应用行为决定，根据用户对文档应用行为，包括浏览、下载、收藏、推荐，计算行为偏好分类相似度ClassSim。用户对文档应用行为记录取自***的相关度计算模块中的用户行为统计子模块，公式如下：

数据质量相关度QC由用户对文档应用因子、用户对文档评论数量因子、用户对文档评分因子相加得到，公式如下：

由上述定义可知，同理，

用户对文档应用因子对下载、浏览行为进行合并处理，对二者的算术平均数赋以一个权值α，对收藏、推荐行为进行合并处理，对二者的算术平均数赋以权值1-α。通常意义上，0.1≦α≦0.4。即，用户的下载及浏览行为对于数据质量的影响要低于收藏和推荐行为对数据质量的影响。用户对文档应用行为记录取自数据检索和排序***相关度计算模块中的用户行为统计子模块。

由上述定义可知，

用户对文档评论数量因子对评论行为单独赋以权值β。通常意义上，1≦β≦2。用户对文档评论数量记录取自数据检索和排序***相关度计算模块中的用户行为统计子模块。

文档评分因子Score由用户评分能力US和用户对文档的评分e_j加权计算得到，公式如下：

其中，j为评分个数，1≦e_j≦5，用户评分能力US作为权重，权重越高，用户对数据评价越可信。

用户评分能力US会影响其对数据评分的可信度，分析与用户评分能力相关联的核心因素，如年龄、技术职称、专业领域等，计算用户评分能力US。用户评分能力US由静态因子USS、动态因子UDS和专业领域因子MMS加权计算后相加得到，公式如下：

η、和γ是用来调节用户评价能力计算结果的算子。本实施例中，0.6≦η≦0.8，γ为0或者0.1。

静态因子USS由用户的年龄、技术职称、学历的转换值SS计算得到，公式如下：

其中转换值SS在[0,1]之间。

下表是静态因子USS转换值SS示意表：

动态因子UDS指的是用户评价能力动态得分，动态因素指用户随时间会不断发生变化的因素，由用户每月登陆***次数的活跃程度AD决定，公式如下：

初始时定义活跃程度为1，fr_i为每月用户登录次数。用户活跃程度与评分能力正相关，因为活跃用户在应用数据的过程中能提高评分能力。

专业领域因子MMS指的是用户专业领域匹配度得分，若用户所属专业领域与用户评分的文档所述领域为同领域时，则具有专业领域因子MMS，即γ为0.1；

一种数据检索和排序方法，包括如下步骤：

步骤1、用户输入检索词i。

步骤2、将检索词i与数据库中文档进行匹配，得到匹配数据集合。

步骤3、根据匹配数据集合中的文档索引与检索词匹配程度，使用公式(1)计算查询相关度RC；

将用户偏好关键词对匹配数据集合中的文档索引进行匹配，根据文档索引与用户偏好关键词匹配程度，使用公式(2)、(3)计算需求相关度DC；

基于用户行为信息对匹配数据集合中的文档数据质量进行自动评价，使用公式(4)、(5)、(6)、(7)、(8)计算数据质量相关度QC；

根据查询相关度RC、需求相关度DC和数据质量相关度QC，使用公式(9)对匹配数据集合中的文档进行排序相关度RankC计算。

步骤4、根据排序相关度RankC将检索结果进行排序，排序遵循降序排序，排序相关度RankC数值高的排名在前，将检索结果返回给用户。

如上所述，结合附图所给出的方案内容，可以衍生出类似的技术方案。但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种数据检索引擎和排序***，其特征在于，包括：

用户管理模块，用于管理用户信息，记录用户年龄、技术职称、学历、所属技术领域、用户偏好关键词表数据；

数据库，用于分类储存文档并响应用户请求；

相关度计算模块，用于检索结果的计算和排序；

所述相关度计算模块包括用户行为统计子模块和排序相关度计算子模块；

所述用户行为统计子模块，用于统计用户偏好关键词、用户对文档应用行为记录、用户对文档评论和评分记录、用户登录次数记录，所述文档应用行为记录包括浏览次数、下载次数、收藏次数、推荐次数；

所述排序相关度计算子模块，用于计算排序相关度并按排序相关度将检索结果进行排列；

所述排序相关度RankC由查询相关度RC、需求相关度DC和数据质量相关度QC决定，公式如下：

RankC＝log(RC+QC+DC) (9)

所述查询相关度RC采用TF-IDF方法计算；

所述需求相关度DC由偏好关键词相似度KeySim与行为偏好分类相似度ClassSim相加得到；

所述数据质量相关度QC由用户对文档应用因子、用户对文档评论数量因子、用户对文档评分因子相加得到；

所述偏好关键词相似度由每个文档索引形成的文档主题向量DSV和用户偏好关键词表形成的用户偏好向量UPV进行余弦相似度计算，用户偏好关键词表取自数据检索和排序***用户管理模块中保存的用户自行定义的兴趣标签词，

DSV(a₁,w₁；a₂,w₂；...；a_m,w_m)

UPV(b₁,w₁；b₂,w₂；...；b_n,w_n)

所述行为偏好分类相似度由用户对文档应用行为决定，用户对文档应用行为记录取自***的相关度计算模块中的用户行为统计子模块，

其中，df(t_a)、df(t_b)、df(t_c)、df(t_d)为文档所属分类被用户浏览、下载、收藏、推荐次数；

所述数据质量相关度QC由用户对文档应用因子、用户对文档评论数量因子、用户对文档评分因子相加得到，

其中，FD_i和FD分别代表该文档被下载的次数和全部文档中被下载最多的文档的下载次数；FL_i和FL分别代表该文档被浏览的次数和全部文档中被浏览最多的文档的浏览次数；FF_i和FF分别代表该文档被收藏的次数和全部文档中被收藏最多的文档的收藏次数；FR_i和FR分别代表该文档被推荐的次数和全部文档中被推荐最多的文档的推荐次数；CM_i和CM分别代表该文档被评论的次数和全部文档中被评论最多的文档的评论次数；Score代表该文档评分因子；

用户对文档应用因子对下载、浏览行为进行合并处理，对二者的算术平均数赋以一个权值α，对收藏、推荐行为进行合并处理，对二者的算术平均数赋以权值1-α；

用户对文档评论数量因子对评论行为单独赋以权值β；

所述文档评分因子Score由用户评分能力US和用户对文档的评分e_j加权计算得到，

其中，j为评分个数；

所述静态因子USS由用户的年龄、技术职称、学历的转换值SS计算得到，

所述动态因子UDS由用户每月登陆***次数的活跃程度AD决定，

其中，fr_i为每月用户登录次数；

若用户所属专业领域与用户评分的文档所述领域为同领域时，则具有专业领域因子MMS，即γ为0.1；

2.根据权利要求1所述的一种数据检索引擎和排序***，其特征在于：所述TF-IDF方法：

其中，i为检索词；

TFi(d)为检索词i在文档d中出现的频率；

N为所有文档的数目；

DF为含有检索词i的文档数目。

3.一种如权利要求1所述***的检索和排序方法，其特征在于，包括如下步骤：

步骤1、用户输入检索词i；

RankC＝log(RC+QC+DC) (9)；

所述查询相关度RC采用TF-IDF方法计算；

DSV(a₁,w₁；a₂,w₂；...；a_m,w_m)

UPV(b₁,w₁；b₂,w₂；...；b_n,w_n)

其中，df(t_a)、df(t_b)、df(t_c)、df(t_d)为文档所属分类被用户浏览次数、下载次数、收藏次数、推荐次数；

用户对文档评论数量因子对评论行为单独赋以权值β；

其中，j为评分个数；

所述动态因子UDS由用户每月登陆***次数的活跃程度AD决定，

其中，fr_i为每月用户登录次数；

若用户所属专业领域与用户评分的文档所述领域为不同领域时，则不具有专业领域因子MMS，即γ为0；

步骤4、根据排序相关度RankC将检索结果进行排序。