CN117421480A - 一种便于检索历史文献展示追踪*** - Google Patents

一种便于检索历史文献展示追踪*** Download PDF

Info

Publication number
CN117421480A
CN117421480A CN202311367485.3A CN202311367485A CN117421480A CN 117421480 A CN117421480 A CN 117421480A CN 202311367485 A CN202311367485 A CN 202311367485A CN 117421480 A CN117421480 A CN 117421480A
Authority
CN
China
Prior art keywords
document
user
module
information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311367485.3A
Other languages
English (en)
Inventor
李浩哲
唐宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiamusi University
Original Assignee
Jiamusi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiamusi University filed Critical Jiamusi University
Priority to CN202311367485.3A priority Critical patent/CN117421480A/zh
Publication of CN117421480A publication Critical patent/CN117421480A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及历史文献展示技术领域,具体公开了一种便于检索历史文献展示追踪***,包括:信息展示模块、数据追踪模块、信息交互接口、搜索引擎模块、个性化模块,搜索引擎模块用于根据用户需求完成目标文献的搜索和排列,个性化模块用于根据用户的使用记录和偏好为用户提供相应的内容推送,信息交互接口用于***中不同模块之间的数据传递及联网的信息传输;本发明通过在搜索时将分类技术应用在摘要的处理过程中,提高摘要比较的效果,并且根据用户的使用记录和行为分析,为用户提供符合用户偏好的文献排列展示,方便用户进行选取和浏览,这样帮助用户快速发现想要找的文献内容,对于不同的用户查询,能够返回适合当前用户的文献列表。

Description

一种便于检索历史文献展示追踪***
技术领域
本发明属于历史文献展示技术领域,具体涉及一种便于检索历史文献展示追踪***。
背景技术
我国现在已知的最早的陶器,就诞生于距今八千多年的河北、河南、江西众多原始文化中。代表着人类文化的高级形态的文字、绘画、雕刻等艺术,有越来越多的考古资料和研究无可辩驳的证明,早在六千年前的仰韶文化中,以及大量早期岩画即已诞生,在四千多年前的龙山文化中得到发展,三千多年前的商代已经成熟。
在互联网时代,人们普遍使用搜索引擎来搜寻自身所需内容,但是检索时往往被淹没于信息海洋中。由于网络信息的动态变化和用户兴趣的迁移,往往在搜索引擎返回的结果列表中,很难找到符合用户需求的信息。对于不同用户的查询,搜索引擎一般返回如出一辙的结果列表,并未考虑用户兴趣的异同,即难以提供个性化服务。这显然已无法满足人们的需求。
发明内容
本发明的目的在于提供一种便于检索历史文献展示追踪***,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种便于检索历史文献展示追踪***,包括:信息展示模块、数据追踪模块、信息交互接口、搜索引擎模块、个性化模块,所述搜索引擎模块用于根据用户需求完成目标文献的搜索和排列,所述个性化模块用于根据用户的使用记录和偏好为用户提供相应的内容推送,所述信息交互接口用于***中不同模块之间的数据传递及联网的信息传输,所述信息展示模块用于将用户需求的文献数据显示给用户查看,所述数据追踪模块用于确定文献数据的源信息及显示位置。
优选的,所述搜索引擎模块包括爬虫抓取、预处理、网页索引、文献搜索,所述爬虫抓取是通过程序从互联网爬取网页为搜索引擎提供检索数据,所述预处理会处理抓取的网页文档,如网页去噪、分词、过滤、转换等,所述网页索引用来为将网页以特定索引方式供给用户检索,所述文献搜索按照用户提交查询索引数据中快而准地定位对应网页并返回排序结果。
优选的,所述搜索引擎模块中应用基于分类技术来改进摘要比较算法,算法具体步骤如下:
1)将与扩展文档集合相比较,得到前K个与之最相似的训练样本;
2)统计前K个训练样本的类别信息,记为集合Cε,其中C1={<ci,wi>}为若干个二元组的集合,ci为类别号,wi为摘要与该类别的相似度;
3)对重复步骤1)—2),得到C2={<cj,wj>};
4)利用如下公式计算得到和/>的相似度:
(其中<ci,wi>∈C1,<cj,wj>∈C2)其中,和/>表示为两个短摘要,α为调整因子,α=0.6。
优选的,所述个性化模块包括用户行为收集、用户偏好构建、结果重排序,所述用户行为收集是采集用户活动信息(包括浏览行为、对网页评论打分以及社区互动),所述用户偏好构建是按照用户行为历史记录特点选取适当的用户偏好描述方式并记录存储,所述结果重排序是根据用户偏好对搜索引擎模块提供的原始检索结果进行匹配计算并返回结果。
优选的,所述用户行为采集根据用户信息反馈方式(显式用户反馈、隐式用户反馈)并结合用户行为分析,对用户活动进行记录,并记录用户点击URL的类别信息,得出相应日志库,所述用户行为采集中对日志库进行整理,首先是逐一读取用户查询记录,接着统计同一用户的同一查询内容URL点击频次,选取离现在最近的时间为开始时间,直到所有记录读取完毕,将压缩统计后的日志保存,作为后续构建用户偏好输入。
优选的,所述用户偏好构建中引入基于指数的牛顿冷却定律进行用户偏好更新,具体公式如下:
其中,Countd是用户浏览文档d的频次,t0指各用户查询对应URL开始访问时间;
所述结果重排序中引入QR加权算法对每个反馈文档计算其被电机时当前排序结果的质量,以此来衡量不同反馈文档的可靠性,当QR值较高时,该文档的预测相关度较高,对重排序过程具有较高的影响力,权重较大,公式如下:
其中,di为候选文档,fj为反馈文档,表示候选文档di与反馈文档fj的相似度;
QR指标通过如下公式计算:
其中,QR(Dn)表示一个结果序列{d1,d2,…,dn}的排序质量,radius表示相关文档的半径,半径定义为文档集合中每个文档到质心的平均距离,radio表示可能的相关文档比例,文档比例是指在排序靠后的文档集合中计算可能是相似文档的数量。
优选的,所述在显示检索结果时,信息展示模块结合个性化模块为用户提供符合用户偏好(使用习惯)的文献样式排列结果,同时为用户提供部分文献信息预览的拓展显示,所述在查看文献信息时,数据追踪模块结合信息展示模块为用户提供目标文献的分类分级情况和文献信息来源,同时为用户提供实时更新的文献浏览记录。
优选的,所述该***当用户输入词后,将用户输入的检索词与服务器交互,将该词和获取的文献进行分解匹配,再按照一定的算法进行推导演绎,返回与当前词相关的所有概念结果集,用户可对返回的结果集进行人工选择,确定检索范围,再将处理后的查询请求进行数据查询。
与现有技术相比,本发明的有益效果是:
本发明通过在搜索时将分类技术应用在摘要的处理过程中,提高摘要比较的效果,并且根据用户的使用记录和行为分析,为用户提供符合用户偏好的文献排列展示,方便用户进行选取和浏览,这样帮助用户快速发现想要找的文献内容,对于不同的用户查询,能够返回适合当前用户的文献列表,为用户提供更好的服务体验。
附图说明
图1为本发明的***框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
请参阅图1所示,一种便于检索历史文献展示追踪***,包括:信息展示模块、数据追踪模块、信息交互接口、搜索引擎模块、个性化模块,搜索引擎模块用于根据用户需求完成目标文献的搜索和排列,个性化模块用于根据用户的使用记录和偏好为用户提供相应的内容推送,信息交互接口用于***中不同模块之间的数据传递及联网的信息传输,信息展示模块用于将用户需求的文献数据显示给用户查看,数据追踪模块用于确定文献数据的源信息及显示位置。
搜索引擎模块包括爬虫抓取、预处理、网页索引、文献搜索,爬虫抓取是通过程序从互联网爬取网页为搜索引擎提供检索数据,预处理会处理抓取的网页文档,如网页去噪、分词、过滤、转换等,网页索引用来为将网页以特定索引方式供给用户检索,文献搜索按照用户提交查询索引数据中快而准地定位对应网页并返回排序结果。
搜索引擎模块中应用基于分类技术来改进摘要比较算法,算法具体步骤如下:
1)将与扩展文档集合相比较,得到前K个与之最相似的训练样本;
2)统计前K个训练样本的类别信息,记为集合Cε,其中C1={<ci,wi>}为若干个二元组的集合,ci为类别号,wi为摘要与该类别的相似度;
3)对重复步骤1)—2),得到C2={<cj,wj>};
4)利用如下公式计算得到和/>的相似度:
(其中<ci,wi>∈C1,<cj,wj>∈C2)其中,和/>表示为两个短摘要,α为调整因子,α=0.6。
个性化模块包括用户行为收集、用户偏好构建、结果重排序,用户行为收集是采集用户活动信息(包括浏览行为、对网页评论打分以及社区互动),用户偏好构建是按照用户行为历史记录特点选取适当的用户偏好描述方式并记录存储,结果重排序是根据用户偏好对搜索引擎模块提供的原始检索结果进行匹配计算并返回结果。
用户行为采集根据用户信息反馈方式(显式用户反馈、隐式用户反馈)并结合用户行为分析,对用户活动进行记录,并记录用户点击URL的类别信息,得出相应日志库,用户行为采集中对日志库进行整理,首先是逐一读取用户查询记录,接着统计同一用户的同一查询内容URL点击频次,选取离现在最近的时间为开始时间,直到所有记录读取完毕,将压缩统计后的日志保存,作为后续构建用户偏好输入。
用户偏好构建中引入基于指数的牛顿冷却定律进行用户偏好更新,具体公式如下:
其中,Countd是用户浏览文档d的频次,t0指各用户查询对应URL开始访问时间;
结果重排序中引入QR加权算法对每个反馈文档计算其被电机时当前排序结果的质量,以此来衡量不同反馈文档的可靠性,当QR值较高时,该文档的预测相关度较高,对重排序过程具有较高的影响力,权重较大,公式如下:
其中,di为候选文档,fj为反馈文档,表示候选文档di与反馈文档fj的相似度;
QR指标通过如下公式计算:
其中,QR(Dn)表示一个结果序列{d1,d2,…,dn}的排序质量,radius表示相关文档的半径,半径定义为文档集合中每个文档到质心的平均距离,radio表示可能的相关文档比例,文档比例是指在排序靠后的文档集合中计算可能是相似文档的数量。
在显示检索结果时,信息展示模块结合个性化模块为用户提供符合用户偏好(使用习惯)的文献样式排列结果,同时为用户提供部分文献信息预览的拓展显示,在查看文献信息时,数据追踪模块结合信息展示模块为用户提供目标文献的分类分级情况和文献信息来源,同时为用户提供实时更新的文献浏览记录。
该***当用户输入词后,将用户输入的检索词与服务器交互,将该词和获取的文献进行分解匹配,再按照一定的算法进行推导演绎,返回与当前词相关的所有概念结果集,用户可对返回的结果集进行人工选择,确定检索范围,再将处理后的查询请求进行数据查询。
由上可知,本发明通过在搜索时将分类技术应用在摘要的处理过程中,提高摘要比较的效果,并且根据用户的使用记录和行为分析,为用户提供符合用户偏好的文献排列展示,方便用户进行选取和浏览,这样帮助用户快速发现想要找的文献内容,对于不同的用户查询,能够返回适合当前用户的文献列表,为用户提供更好的服务体验。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种便于检索历史文献展示追踪***,其特征在于,包括:信息展示模块、数据追踪模块、信息交互接口、搜索引擎模块、个性化模块,所述搜索引擎模块用于根据用户需求完成目标文献的搜索和排列,所述个性化模块用于根据用户的使用记录和偏好为用户提供相应的内容推送,所述信息交互接口用于***中不同模块之间的数据传递及联网的信息传输,所述信息展示模块用于将用户需求的文献数据显示给用户查看,所述数据追踪模块用于确定文献数据的源信息及显示位置。
2.根据权利要求1所述的一种便于检索历史文献展示追踪***,其特征在于:所述搜索引擎模块包括爬虫抓取、预处理、网页索引、文献搜索,所述爬虫抓取是通过程序从互联网爬取网页为搜索引擎提供检索数据,所述预处理会处理抓取的网页文档,如网页去噪、分词、过滤、转换等,所述网页索引用来为将网页以特定索引方式供给用户检索,所述文献搜索按照用户提交查询索引数据中快而准地定位对应网页并返回排序结果。
3.根据权利要求1或2所述的一种便于检索历史文献展示追踪***,其特征在于:所述搜索引擎模块中应用基于分类技术来改进摘要比较算法,算法具体步骤如下:
1)将与扩展文档集合相比较,得到前K个与之最相似的训练样本;
2)统计前K个训练样本的类别信息,记为集合Cε,其中C1={<ci,wi>}为若干个二元组的集合,ci为类别号,wi为摘要与该类别的相似度;
3)对重复步骤1)—2),得到C2={<cj,wj>};
4)利用如下公式计算得到和/>的相似度:
(其中<ci,wi>∈C1,<cj,wj>∈C2)其中,和/>表示为两个短摘要,α为调整因子,α=0.6。
4.根据权利要求1所述的一种便于检索历史文献展示追踪***,其特征在于:所述个性化模块包括用户行为收集、用户偏好构建、结果重排序,所述用户行为收集是采集用户活动信息(包括浏览行为、对网页评论打分以及社区互动),所述用户偏好构建是按照用户行为历史记录特点选取适当的用户偏好描述方式并记录存储,所述结果重排序是根据用户偏好对搜索引擎模块提供的原始检索结果进行匹配计算并返回结果。
5.根据权利要求1或4所述的一种便于检索历史文献展示追踪***,其特征在于:所述用户行为采集根据用户信息反馈方式(显式用户反馈、隐式用户反馈)并结合用户行为分析,对用户活动进行记录,并记录用户点击URL的类别信息,得出相应日志库,所述用户行为采集中对日志库进行整理,首先是逐一读取用户查询记录,接着统计同一用户的同一查询内容URL点击频次,选取离现在最近的时间为开始时间,直到所有记录读取完毕,将压缩统计后的日志保存,作为后续构建用户偏好输入。
6.根据权利要求1或4所述的一种便于检索历史文献展示追踪***,其特征在于:所述用户偏好构建中引入基于指数的牛顿冷却定律进行用户偏好更新,具体公式如下:
其中,Countd是用户浏览文档d的频次,t0指各用户查询对应URL开始访问时间;
所述结果重排序中引入QR加权算法对每个反馈文档计算其被电机时当前排序结果的质量,以此来衡量不同反馈文档的可靠性,当QR值较高时,该文档的预测相关度较高,对重排序过程具有较高的影响力,权重较大,公式如下:
其中,di为候选文档,fj为反馈文档,表示候选文档di与反馈文档fj的相似度;
QR指标通过如下公式计算:
其中,QR(Dn)表示一个结果序列{d1,d2,…,dn}的排序质量,radius表示相关文档的半径,半径定义为文档集合中每个文档到质心的平均距离,radio表示可能的相关文档比例,文档比例是指在排序靠后的文档集合中计算可能是相似文档的数量。
7.根据权利要求1所述的一种便于检索历史文献展示追踪***,其特征在于:所述在显示检索结果时,信息展示模块结合个性化模块为用户提供符合用户偏好(使用习惯)的文献样式排列结果,同时为用户提供部分文献信息预览的拓展显示,所述在查看文献信息时,数据追踪模块结合信息展示模块为用户提供目标文献的分类分级情况和文献信息来源,同时为用户提供实时更新的文献浏览记录。
8.根据权利要求1所述的一种便于检索历史文献展示追踪***,其特征在于:所述该***当用户输入词后,将用户输入的检索词与服务器交互,将该词和获取的文献进行分解匹配,再按照一定的算法进行推导演绎,返回与当前词相关的所有概念结果集,用户可对返回的结果集进行人工选择,确定检索范围,再将处理后的查询请求进行数据查询。
CN202311367485.3A 2023-10-21 2023-10-21 一种便于检索历史文献展示追踪*** Pending CN117421480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311367485.3A CN117421480A (zh) 2023-10-21 2023-10-21 一种便于检索历史文献展示追踪***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311367485.3A CN117421480A (zh) 2023-10-21 2023-10-21 一种便于检索历史文献展示追踪***

Publications (1)

Publication Number Publication Date
CN117421480A true CN117421480A (zh) 2024-01-19

Family

ID=89529542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311367485.3A Pending CN117421480A (zh) 2023-10-21 2023-10-21 一种便于检索历史文献展示追踪***

Country Status (1)

Country Link
CN (1) CN117421480A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010051943A1 (en) * 1999-02-23 2001-12-13 Clinical Focus, Inc. Method and apparatus for improving access to literature
CN102521337A (zh) * 2011-12-08 2012-06-27 华中科技大学 一种基于海量知识网络的学术社区***
CN111460251A (zh) * 2020-03-10 2020-07-28 平安科技(深圳)有限公司 数据内容个性化推送冷启动方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010051943A1 (en) * 1999-02-23 2001-12-13 Clinical Focus, Inc. Method and apparatus for improving access to literature
CN102521337A (zh) * 2011-12-08 2012-06-27 华中科技大学 一种基于海量知识网络的学术社区***
CN111460251A (zh) * 2020-03-10 2020-07-28 平安科技(深圳)有限公司 数据内容个性化推送冷启动方法、装置、设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘欢;范亚芹;梁乃生;: "基于网络信息的混合推荐算法研究", 吉林大学学报(信息科学版), vol. 36, no. 03, 15 May 2018 (2018-05-15), pages 339 - 344 *
孟星;丁振国;: "个性化元搜索引擎模型研究", 计算机工程与应用, vol. 46, no. 36, 21 December 2008 (2008-12-21), pages 150 - 152 *
王丽等: "《医疗器械安全信息检索指南》", vol. 1, 30 June 2021, 同济大学出版社, pages: 38 - 39 *
龚笔宏: "SCC――利用分类技术改进的短摘要比较方法", 清华大学学报(自然科学版), vol. 45, no. 1, 30 December 2005 (2005-12-30), pages 1806 - 1809 *

Similar Documents

Publication Publication Date Title
US11036814B2 (en) Search engine that applies feedback from users to improve search results
US20200311155A1 (en) Systems for and methods of finding relevant documents by analyzing tags
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CA2788704C (en) Method and system for ranking intellectual property documents using claim analysis
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN100570611C (zh) 一种基于观点检索的信息检索文档的评分方法
CN109918563B (zh) 一种基于公开数据的图书推荐的方法
US20110047136A1 (en) Method For One-Click Exclusion Of Undesired Search Engine Query Results Without Clustering Analysis
EP1995669A1 (en) Ontology-content-based filtering method for personalized newspapers
US20120102017A1 (en) Media discovery and playlist generation
CN110543595A (zh) 一种站内搜索***及方法
CN111475725B (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
US8364672B2 (en) Concept disambiguation via search engine search results
CN112989215B (zh) 一种基于稀疏用户行为数据的知识图谱增强的推荐***
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析***及其方法
CN111159559A (zh) 根据用户需求和用户行为构建推荐引擎的方法
Jadidoleslamy Search result merging and ranking strategies in meta-search engines: a survey
KR101823463B1 (ko) 연구자 검색 서비스 제공 장치 및 그 방법
Bi et al. Cubelsi: An effective and efficient method for searching resources in social tagging systems
CN111782699A (zh) 一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法
CN116401459A (zh) 一种互联网信息处理方法、***及记录介质
CN116431895A (zh) 安全生产知识个性化推荐方法及***
CN116450772A (zh) 一种检索结果智能推荐方法、装置及统一检索方法
CN117421480A (zh) 一种便于检索历史文献展示追踪***
Jadidoleslamy Introduction to metasearch engines and result merging strategies: a survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination