CN116186372A - 一种能够提供个性化服务的书目*** - Google Patents

一种能够提供个性化服务的书目*** Download PDF

Info

Publication number
CN116186372A
CN116186372A CN202310206674.6A CN202310206674A CN116186372A CN 116186372 A CN116186372 A CN 116186372A CN 202310206674 A CN202310206674 A CN 202310206674A CN 116186372 A CN116186372 A CN 116186372A
Authority
CN
China
Prior art keywords
user
information
book
books
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310206674.6A
Other languages
English (en)
Inventor
石进
彭贤哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202310206674.6A priority Critical patent/CN116186372A/zh
Publication of CN116186372A publication Critical patent/CN116186372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了能够提供个性化服务的书目***,包括:采集书目资源信息和用户信息;对采集的书目资源信息和用户信息进行分析处理,提取信息特征;基于提取的信息特征构建多样化评价指标,根据多样化评价指标训练评价模型,然后计算编目次序权重,对书目资源信息和用户信息进行筛选;对筛选后的书目资源信息和用户信息进行存储,并进行动态维护更新;根据存储的书目资源信息和用户信息,接收用户需求并进行***响应;根据用户需求进行对应信息呈现。本发明以用户数据驱动文献资源的动态优化管理,有利于提高书目工具的个性化水平,便于用户快速、高效获取所需知识,提供相应服务方向和适宜服务程度的个性化服务。

Description

一种能够提供个性化服务的书目***
技术领域
本发明涉及图书管理技术领域,具体地,涉及一种能够提供个性化服务的书目***。
背景技术
海量文献资源的优化管理是提供各项文献服务内容的保障基础,书目作为知识资源管理的主流工具,对其实现智能化、高效化、个性化,可有效应对大数据时代背景下知识碎片化、多元化、虚拟化、海量化的问题。
依据传统方法构建的书目工具聚焦于文献本身内容,存在揭示程度浅和个性化程度低等问题,这就导致需要消耗很多精力到寻找自己想要的知识资源上,无法快速、高效的获取知识,所以如何提高书目工具的个性化水平,方便用于快速、高效获取所需知识是急需解决的问题。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种能够提供个性化服务的书目***。
根据本发明提供的一种能够提供个性化服务的书目***,包括:
信息收集模块:采集书目资源信息和用户信息;
信息处理模块:对采集的书目资源信息和用户信息进行分析处理,提取信息特征;
模型构建模块:基于提取的信息特征构建多样化评价指标,根据多样化评价指标训练评价模型,然后计算编目次序权重,对书目资源信息和用户信息进行筛选;
信息存储模块:对筛选后的书目资源信息和用户信息进行存储,并进行动态维护更新;
信息交互模块:根据存储的书目资源信息和用户信息,接收用户需求并进行***响应;
信息呈现模块:根据用户需求进行对应信息呈现。
优选的,书目资源信息采集包括:
通过指定网络端的数字书籍信息源、书籍相关信息源,获取URL集并去重排序,将处理后的URL集传递至分布式爬虫框架,实时采集书籍的引证、评论、简介;
对于采集到的页面,经过重复内容检测后,分析其中的链接并对链接进行转换,进而判断、分析页面类型,构建页面应答头,规范页面URL;
通过从已采集页面中提取Meta信息、页面的主题和页面的摘要,传递至语义解析器,获取每本图书完整的摘要信息、著者相关信息、引证文献、评论信息和阅览人群信息。
优选的,用户行为信息采集包括:
创建用户实体,将新用户在Web前端填报的注册表传递至数据库,保存用户属性字段,包括用户名、用户id号、学术背景、兴趣点和注册时间,并跟进保存用户个人记录后续更改信息;
记录检索阅览事件,通过在Web前端布置Javascript代码触发用户活动信息传递事务,将用户在Web前端的检索阅览活动记录存储保存至数据库。
优选的,书目资源信息分析处理包括:
通过消重、去歧获取著者、书籍、工作单位、关键词之间的网络结构信息,进而提取书籍之间的引文网络信息、著者之间的合作网络信息、工作单位之间的合作网络信息、关键词之间的共现网络信息,同时提取书籍、著者、工作单位的属性结构特征;
对于给定的著者姓名i,
Figure BDA0004111141960000021
表示姓名为i的著者发表的N本图书,每本图书/>
Figure BDA0004111141960000022
由一系列特征表示,包括标题、关键词、ISBN号组成的内容特征集合/>
Figure BDA0004111141960000023
以及建立在著者合作网络基础上的实体之间的关系特征集合/>
Figure BDA0004111141960000024
即/>
Figure BDA0004111141960000025
著者姓名消歧过程的本质在于利用内容特征和关系特征找到一个函数Φ,将图书候选集Pi划分成一系列不相交的集群,表达式为:
Figure BDA0004111141960000026
其中,
Figure BDA0004111141960000027
表示真实著者ak的图书集群,m为不相交的集群个数,j、k为序列号。
优选的,用户信息分析处理包括:对用户信息进行过滤提取,获取单个用户的属性结构信息、检阅书籍的关联信息以及多个用户之间检阅书籍的共现网络信息,据此定位用户的检索能力和知识背景,构建用户画像,挖掘用户兴趣,进行用户群的关联聚类,推荐用户潜在感兴趣的图书。
优选的,模型构建包括:
基于图书、主题z和图书关键词d构建三层LDA贝叶斯概率模型,将每本图书表示成一系列主题的混合分布,记为p(z|d);同时每个主题是关键表中所有单词w的概率分布,记为p(w|z);因此,一本图书中每个关键词的概率分布为:
Figure BDA0004111141960000031
将UserLDA模型作为LDA的扩展主题模型,其将一个用户阅览的所有图书合并成一个独立文档,即UserLDA将一个用户映射到一个独立文档,进行主题生成,从而得到用户生成主题的概率多项分布,即用户兴趣模型;
在用户层中,U是所有用户的集合,U=(u1,u2,……,uN),每个用户ui由图书集合tu,1,tu,2,……,tu,M组成,每本图书由关键词词频向量wu,N组成;在主题层中,用户被表示成向量θu=(pu,1,pu,2,…,pu,z,…,pu,k),其中pu,z表示主题z在用户u中的生成概率,即用户u对主题z的喜好程度。
优选的,信息存储包括:将书籍文献、著者、机构、用户信息以唯一且关联化的本体形式表现,依据著者合作关系、关键词共现关系、出版社共现关系构建著者本体、图书本体节点以及相互之间的连线信息,并存储至书目资源库;
采用埋点技术实时监控采集的信息,根据新近获取的用户检索阅览图书适用场景特征,收集用户对不同知识点的需求深度及方向,为书目资源库的动态维护更新提供指导。
优选的,信息交互用于向书目***传递用户需求,包括用户活动和***响应;
所述用户活动包括检索、阅读、浏览、问答,借由关联模型兼顾挖掘用户需求和定位用户检索能力,进而通过匹配与用户相宜的书目资源实现智能检索、智能导读、智能问答,具体展现为检索信息的提示指引、纠误补全、关联推荐、盲点提示、阅读指引、问答匹配等指导、辅助、答疑服务;除此,针对用户输入信息的语义内容从而匹配关联存储信息,***响应获得检索结果,之后提供语义、语用选项供用户进一步筛选或组织;
以用户检索阅览图书记录、用户学术背景、用户兴趣点为依据,收集用户在不同知识点的需求深度及方向,在用户输入检索信息时,根据关键词共现网络推荐语义相近检索词,以适时补全提示的形式缩短检索路径;依托用户兴趣模型和阅览历史图书的功用场景信息,判断用户在检索知识点所处阶段,推荐用户下一阶段潜在需求的图书,提供智能导读的指引服务;组织整理检索获取的图书列表对应的结构字段信息,包括图书提及知识点、适用人群、功用场景,提供图书的语义、语用选项供用户进一步筛选或获取。
优选的,信息呈现包括:
指定检索结果的组织形式,具体选项包括时间、地点、文献类型;指定文献组织单元的内容大小,包括学科领域、研究专题、关键词;指定创作者组织单元的规模大小,将创作者进一步细分为作者、机构、团队;
依据不同组织对象形成的书目进行相互嵌套,不同层级书目依照用户要求进行次序更改,以书目动态组编的方式满足用户多样化的特定需求;
通过信息处理挖掘汇总检索结果,结合主题聚类、引证关系、时间因素展现知识演化进程,并以固定模板的知识化报告形式、结合时间线的可视化图表样式予以智能导览呈现,同时结合由用户记录生成的用户兴趣模型,关联推荐用户潜在的需求内容。
优选的,依据用户数据库中的某一用户注册信息的学科背景、检索记录、阅览历史,计算相关图书的关键词与用户活动记录产生的关键词重合度,在排除已阅览图书基础上,挖掘相似群体用户的共同特征,推荐用户高概率关注的图书集群,第i本图书与第j个用户的关键词重合度Overlap(booki,userj)计算如下:
Figure BDA0004111141960000041
式中,
Figure BDA0004111141960000042
代表在知识库中与第i本图书距离≤1的关键词群,包括图书涉及关键词群、图书被检索关联关键词群;/>
Figure BDA0004111141960000043
表示在知识库中与第j个用户距离≤2的关键词群,包括用户专注关键词群、用户检索关键词群、用户阅览图书涉及关键词群、用户阅览图书被检索关联关键词群;
在检索过程中,提取用户知识库中同一聚类社区用户的兴趣数据、检索记录、阅览图书历史,由此集成用户潜在感兴趣的关键词群,根据知识检索获得图书结果涉及关键词群与用户潜在感兴趣的关键词群的交集大小,据此对检索结果重组排序,实现针对不同用户的个性化检索。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明提出一种方法在利用文献资源基础上,以用户数据驱动文献资源的动态优化管理,有利于提高书目工具的个性化水平,便于用户快速、高效获取所需知识;
(2)本发明能够结合不同知识背景用户日志记录,判断用户知识背景及检索能力,划分用户群体,挖掘潜在需求,提供相应服务方向和适宜服务程度的个性化服务;
(3)本发明对传统书目工具做了进一步的整合与挖掘,提供了诸如动态组编、新闻播报、智能导览、智能问答、智能导读、智能检索等多样式智能化服务,提高了书目工具的服务深度与广度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为书目***框架结构图;
图2a为Neo4j存储的图书属性表,图2b为Neo4j存储的书目相关实体及其相互关系图;
图3a为Neo4j存储的用户属性表,图3b为Neo4j存储的用户相关实体及其关联网络图;
图4为UserLDA模型结构图;
图5为智能导览功能实现流程图。
具体实施方式
为阐明技术问题、技术方案、实施过程及性能展示,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释。本发明,并不用于限定本发明。以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
实施例
如图1,本发明提供了一种能够提供个性化服务的书目***,包括:
信息收集模块,包括书目资源库及相关信息的采集和用户行为监控及数据获取;
信息分析处理模块,包括书目相关信息的分析处理和用户信息的分析处理,揭示书籍文献的内外部特征信息和筛选用户高价值信息,践行书目资源的规范著录和用户信息的深层次挖掘,实现数据的高度结构化方便后续的利用与存储,助力书目资源库的组织与维护,保证书目资源库的可操作性、***性、规范性和实时性;
模型构建模块,构建多样化评价指标,根据指标训练评价模型,计算编目次序的权重,筛选优质信息,提高书目服务质量;
信息存储模块,经由信息收集、信息处理与分析过程而获得不同用户的检索能力、知识背景信息亦应存储入书目***之中,从而可确定不同用户的能力与书目资源库的交集关系,为不同用户获得针对性的个性化服务提供决策参考依据;
信息交互模块,根据存储的用户信息和书目资源信息,以指引提示解用户之惑,借关联推荐开治学之路,提高改善用户检索资源的效率及体验,增强书目的治学门径功能;
信息呈现模块,为用户提供多样化的书目资源组织方式以及关联推荐服务,组织方式的灵活性给予用户广大的选择空间,增大书目资源与用户需求之间的交集。
所述书目资源库及相关信息的采集具体包括以下内容:
书目资源库的收集通过指定网络端的数字书籍信息源、书籍相关信息源,包括但不限于读秀学术图书、图书馆文献资源、豆瓣网、当当网、亚马逊等网络资源,获取URL集并去重排序,将处理后的URL集传递至分布式爬虫框架,实时采集书籍的引证、评论、简介等相关信息。
具体而论,以图书馆馆藏提供的书目资源为基础,获取每本图书的书名、ISBN号,由此构建图书在读秀学术图书、豆瓣网、当当网、亚马逊等图书网站的检索式,获取每本图书在不同网站的详情页URL地址,组成初始的URL集,全部放入到一个有序的待采集队列里。采集器从这个队列里按顺序取出URL,通过Web上的协议,获取URL所指向的页面,然后从这些已获取的页面中提取出新的URL,如豆瓣网评论信息详情页等,并将它们继续放入到待采集队列里,然后重复上面的过程,直到采集器获取完每本图书的完整信息时停止采集。
对于采集到的页面,经过重复内容检测后,需要分析其中的链接,并对链接进行必要的转换,这些任务由URL提取器来完成,进而判断、分析页面类型,构建页面应答头,规范页面URL;之后,通过从已采集页面中提取Meta信息、页面的主题、页面的摘要等,力图在没有对页面内容语义信息进行理解的情况下,尽可能多地挖掘Meta、结构等的语义信息,传递至语义解析器,获取每本图书完整的摘要信息、著者相关信息、引证文献、评论信息、阅览人群信息等。
所述用户行为监控及数据获取具体包括以下内容:
(1)创建用户实体,将新用户在Web前端填报的注册表传递至数据库,保存用户属性字段,包括用户名、用户id号、学术背景、兴趣点、注册时间等,并跟进保存用户个人记录后续更改信息;
(2)记录检索阅览事件,通过在Web前端布置Javascript代码触发用户活动信息传递事务,将用户在Web前端的检索阅览活动记录(包括活动时间、IP地址、请求方法、请求参数等)存储保存至数据库。
用户信息的收集主要依托客户端的用户日志和数据埋点技术,获取用户个人记录、用户活动信息等,根据用户注册信息生成用户实体,并赋予该实体兴趣点、学术背景、注册时间、名称、id号等属性信息;之后,根据用户产生的检索、阅览行为,生成用户与检索词、图书关键词、图书之间的检索阅览关系,并赋予此类关系检索阅览次数、检索阅览时间等属性信息。
所述书目相关信息的分析处理具体包括以下内容:
如图2a和图2b,书籍文献信息的处理分析,通过消重、去歧步骤获取著者、书籍、工作单位、关键词等之间的网络结构信息,进而提取书籍之间的引文网络信息、著者之间的合作网络信息、工作单位之间的合作网络信息、关键词之间的共现网络信息(将出现在同一本图书中的关键词节点连接成边,根据出现次数赋予权重,构成关键词共现网络),同时提取书籍、著者、工作单位的属性结构特征,提供书目分类组织的参考依据。该步骤重在揭示书籍文献的内外部特征信息和筛选用户高价值信息,践行书目资源的规范著录和用户信息的深层次挖掘,实现数据的高度结构化方便后续的利用与存储,助力书目资源库的组织与维护,保证书目资源库的可操作性、***性、规范性和实时性。
对于给定的著者姓名i,
Figure BDA0004111141960000081
表示姓名为i的著者发表的|N|本图书,在消歧过程中,i只对应于姓名,而非真实世界的个体。每本图书/>
Figure BDA0004111141960000082
由一系列特征表示,包括标题、关键词、ISBN号等组成的内容特征集合/>
Figure BDA0004111141960000083
以及建立在著者合作网络基础上的实体之间的关系特征集合,即/>
Figure BDA0004111141960000084
著者姓名消歧过程的本质在于利用内容特征和关系特征找到一个函数Φ,将图书候选集Pi划分成一系列不相交的集群,表达式为:
Figure BDA0004111141960000085
其中,
Figure BDA0004111141960000086
表示真实著者ak的图书集群,k∈{1,2,…,M}。当不存在歧义问题时,下文描述忽略下标i。上述描述使用的符号如表1所示。
表1符号表
Figure BDA0004111141960000087
由分布式爬虫获取的书目数据一般较为凌乱,如多个著者姓名混杂在编著信息之中、图书目录的级别不明确、图书摘要的高价值信息(适用人群、特定知识点等)隐匿等现象。为此,通过正则表达式预先制定规则,从编著信息中识别单个著者,根据不同级别文本的某类特征(如文本中出现n个“.”即为n级目录)生成结构化的多层级目录。再者,通过预先标注图书摘要文本中的适用人群(如初学者、进阶者)、提及知识点(如竞争情报)、适合场景(如教材、研究)等关键信息,构成文本训练集和测试集,采用深度学习模型ALBERT+Bi-LSTM+CRF进行实体识别;指定适用人群、提及知识、适合场景为三类关系,并采用深度学习模型ALBERT+Bi-GRU+ATT+FC为分类模型,据此构建“图书—适用—人群”、“图书—提及—知识”、“图书—适合—场景”三种三元组抽取模型,在获取图书年份、著者、ISBN号、中图分类号、价格、厚度、借阅数据、语言、页数、关键词等结构化字段之后,进一步从图书摘要中提取图书提及知识点、适用人群、功用信息等隐性结构字段,实现书目数据的高度结构化。
所述用户信息的分析处理具体包括以下内容:
如图3a和图3b,用户信息的分析处理首先通过信息过滤提取高价值的用户个人信息(学术背景、兴趣点、用户名等)、用户活动信息(检索记录、阅览记录等),获取单个用户的属性结构信息、检阅书籍的关联信息以及多个用户之间检阅书籍的共现网络信息,据此定位用户的检索能力和知识背景,构建用户画像,挖掘用户兴趣,为用户群的关联聚类(将具备类似检索记录、阅览记录、学术背景、兴趣点的用户作为同一类群)提供依据,继而为智能书目***在用户使用过程中提供的帮助具有指引作用,同时在一定程度上可补充书籍文献的价值评价、推荐关联等信息,并可结合书籍文献的引用信息构建评价指标,进而形成多元化的书目文献评价体系。
成功的检索路径是用户采取强针对性的检索策略获取检索结果,并在短时间内即阅览到所需图书,完整的路径即为用户→【检索】→检索词→【查询】→检索结果→【筛选】→图书←【阅览】←用户,构成一个闭环。但实际场景下,用户首次检索所需图书时,难以找寻最优检索路径,用户的检索阅览路径难以在短时间构成闭环,通过多次尝试方可达到,可通过闭环数目占比、检索策略多样性(检索字段选取、检索信息输入)、检索方式无效性(即检索结果为空的检索路径占比)衡量用户检索能力。
此外,根据用户阅览图书提及的知识点、适用的人群特点、适用场景,结合用户注册表中的学术背景信息,判断用户在不同知识点上的认知程度(如初学者、专家等),由此构建用户画像,并据此推荐用户潜在感兴趣的图书。
所述模块构建具体包括以下内容:
关联模型涉及书籍文献、著者、工作单位、用户等多个层面的内容,创建诸如文献参考引用、作者合作研究、用户活动规律中蕴含的关联指标,借助Apriori关联算法、UserLDA聚类算法、知识分类方法,根据阅览图书关联的共同检索词、关键词衡量图书关联性,借由用户阅览的共同图书、输入的共同检索词衡量用户相关性,计算著者之间合作的次数、所著图书相似度量化著者相近性,训练优化书籍文献之间、著者之间以及用户活动之间的关联模型,提供推荐、导引、预测服务;浏览、借阅、检索等直接的用户访问信息,以及书籍文献之间的引证记录,构建多样化评价指标。
在本发明中,三层LDA贝叶斯概率模型由图书、主题、图书关键词组成,每本图书都可以表示成一系列主题的混合分布,记为p(z|d);同时每个主题是关键表中所有单词的概率分布,记为p(w|z),因此,一本图书中每个关键词的概率分布为:
Figure BDA0004111141960000101
如图4,UserLDA模型作为LDA的扩展主题模型,其将一个用户阅览的所有图书合并成一个独立文档,即UserLDA将一个用户映射到一个独立文档,进行主题生成,从而得到用户生成主题的概率多项分布,即用户兴趣模型。在用户层中,U是所有用户的集合,U=(u1,u2,……,uN),每个用户ui由图书集合(tu,1,tu,2,……,tu,M)组成,每本图书由关键词词频向量wu,N组成,从主题层面而言,用户可以被表示成向量θu=(pu,1,pu,2,…,pu,z,…,pu,k),其中pu,z表示主题z在用户u中的生成概率,也就是用户u对主题z的喜好程度。因此,用户层可以生成用户与主题的概率关系,从而构成用户兴趣模型。
所述信息存储具体包括以下内容:
经由信息收集、信息处理与分析、关联评价模型应用等步骤之后,可消除诸如孤岛信息、信息冗余、歧义信息等问题,将规范、详尽的书籍文献、著者、机构、用户等多角度、多粒度信息以唯一且关联化的本体形式表现,依据著者合作关系、关键词共现关系、出版社共现关系构建著者本体、图书本体节点以及相互之间的连线信息,并存储至书目资源库;至此,现有书目资源库的建设则基本完成,而信息收集步骤仍采用埋点技术提供的实时监控手段,根据新近获取的用户检索阅览图书适用场景特征(如研究、教学、入门等),收集用户对不同知识点的需求深度及方向,为书目资源库的动态维护更新提供指导。
所述信息交互具体包括以下内容:
信息交互作为用户参与度最高的环节,用于向书目***传递用户需求,主要分为用户活动和***响应两个部分,其中用户活动包括检索、阅读、浏览、问答等多项活动,借由关联模型兼顾挖掘用户需求和定位用户检索能力,进而通过匹配与用户相宜的书目资源实现智能检索、智能导读、智能问答,具体展现为检索信息的提示指引、纠误补全、关联推荐、盲点提示、阅读指引、问答匹配等指导、辅助、答疑服务;除此,针对用户输入信息的语义内容从而匹配关联存储信息,***响应获得检索结果,之后提供语义、语用选项供用户进一步筛选或组织。
以用户检索阅览图书记录、用户学术背景、用户兴趣点为依据,收集用户在不同知识点的需求深度及方向,在用户输入检索信息时,根据关键词共现网络推荐语义相近检索词,以适时补全提示的形式缩短检索路径;其次,依托用户兴趣模型和阅览历史图书的功用场景信息,判断用户在检索知识点所处阶段,推荐用户下一阶段潜在需求的图书,提供智能导读的指引服务。此外,组织整理检索获取的图书列表对应的结构字段信息,包括图书提及知识点、适用人群、功用场景等,提供图书的语义、语用选项供用户进一步筛选或获取。
所述信息呈现具体包括以下内容:
组织检索结果满足用户需求,是信息呈现的主要任务,智能书目针对检索结果的组织形式力求多样,可指定检索结果的组织形式,具体选项包括时间、地点、文献类型等;此外,智能书目可指定文献组织单元的内容大小,如学科领域、研究专题、关键词等;类似地,可指定创作者组织单元的规模大小,将创作者进一步细分为作者、机构、团队等。
再者,依据不同组织对象形成的书目可以相互嵌套,不同层级书目可依照用户要求进行次序更改,因而在很大程度上赋予了书目十分宽松的变动空间,以书目动态组编的方式满足用户多样化的特定需求。除此,智能书目的信息呈现一改以往简单的文献罗列布局方式,通过信息处理分析模块挖掘汇总检索结果,结合主题聚类、引证关系、时间因素展现知识演化进程,并以固定模板的知识化报告形式、结合时间线的可视化图表样式予以智能导览呈现,同时结合由用户记录生成的用户兴趣模型,关联推荐用户潜在的需求内容。
如图5,为智能导览功能实现流程,通过信息收集、信息处理与分析、关联评价模型构建、信息存储四个步骤确定书目资源、用户能力的范围大小,进而借助信息交互步骤收集判别用户需求,在关联书目资源库、用户知识库基础上,通过信息呈现步骤为用户提供定制化的交互响应结果,包括智能检索、智能导读、问答推荐服务等,力求让用户付出最小的精力,得到最符合其真实需求且其能够理解的书目资源。
以信息交互过程中的检索步骤为例,用户知识库在扩展书目知识库基础上,可为图书实体增添适用的用户信息,据此可实现检索前的推荐服务。此外,大量不同背景的用户检索记录有利于检索的提示补全、路径指引等,提高检索过程的效率、准确度以及针对性。依据用户数据库中的某一用户注册信息的学科背景、检索记录、阅览历史,计算相关图书的关键词与用户活动记录产生的关键词重合度,在排除已阅览图书基础上,挖掘相似群体用户的共同特征,推荐用户高概率关注的图书集群。第i本图书与第j个用户的关键词重合度Overlap(booki,userj)计算如下:
Figure BDA0004111141960000121
上述公式中,
Figure BDA0004111141960000122
代表在知识库中与第i本图书距离≤1的关键词群,包括图书“涉及”关键词群、图书被“检索关联”关键词群;/>
Figure BDA0004111141960000123
表示在知识库中与第j个用户距离≤2的关键词群,包括用户“专注”关键词群、用户“检索”关键词群、用户“阅览”图书“涉及”关键词群、用户“阅览”图书被“检索关联”关键词群。在检索过程中,提取用户知识库中同一聚类社区用户的兴趣数据、检索记录、阅览图书历史,由此集成用户潜在感兴趣的关键词群,根据知识检索获得图书结果涉及关键词群与用户潜在感兴趣的关键词群的交集大小,据此对检索结果重组排序,实现针对不同用户的个性化检索。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种能够提供个性化服务的书目***,其特征在于,包括:
信息收集模块:采集书目资源信息和用户信息;
信息处理模块:对采集的书目资源信息和用户信息进行分析处理,提取信息特征;
模型构建模块:基于提取的信息特征构建多样化评价指标,根据多样化评价指标训练评价模型,然后计算编目次序权重,对书目资源信息和用户信息进行筛选;
信息存储模块:对筛选后的书目资源信息和用户信息进行存储,并进行动态维护更新;
信息交互模块:根据存储的书目资源信息和用户信息,接收用户需求并进行***响应;
信息呈现模块:根据用户需求进行对应信息呈现。
2.根据权利要求1所述的一种能够提供个性化服务的书目***,其特征在于,书目资源信息采集包括:
通过指定网络端的数字书籍信息源、书籍相关信息源,获取URL集并去重排序,将处理后的URL集传递至分布式爬虫框架,实时采集书籍的引证、评论、简介;
对于采集到的页面,经过重复内容检测后,分析其中的链接并对链接进行转换,进而判断、分析页面类型,构建页面应答头,规范页面URL;
通过从已采集页面中提取Meta信息、页面的主题和页面的摘要,传递至语义解析器,获取每本图书完整的摘要信息、著者相关信息、引证文献、评论信息和阅览人群信息。
3.根据权利要求1所述的一种能够提供个性化服务的书目***,其特征在于,用户行为信息采集包括:
创建用户实体,将新用户在Web前端填报的注册表传递至数据库,保存用户属性字段,包括用户名、用户id号、学术背景、兴趣点和注册时间,并跟进保存用户个人记录后续更改信息;
记录检索阅览事件,通过在Web前端布置Javascript代码触发用户活动信息传递事务,将用户在Web前端的检索阅览活动记录存储保存至数据库。
4.根据权利要求1所述的一种能够提供个性化服务的书目***,其特征在于,书目资源信息分析处理包括:
通过消重、去歧获取著者、书籍、工作单位、关键词之间的网络结构信息,进而提取书籍之间的引文网络信息、著者之间的合作网络信息、工作单位之间的合作网络信息、关键词之间的共现网络信息,同时提取书籍、著者、工作单位的属性结构特征;
对于给定的著者姓名i,
Figure FDA0004111141950000021
表示姓名为i的著者发表的N本图书,每本图书Pj i∈Pi由一系列特征表示,包括标题、关键词、ISBN号组成的内容特征集合/>
Figure FDA0004111141950000022
以及建立在著者合作网络基础上的实体之间的关系特征集合/>
Figure FDA0004111141950000023
即/>
Figure FDA0004111141950000024
著者姓名消歧过程的本质在于利用内容特征和关系特征找到一个函数Φ,将图书候选集Pi划分成一系列不相交的集群,表达式为:
Figure FDA0004111141950000025
其中,
Figure FDA0004111141950000026
表示真实著者ak的图书集群,m为不相交的集群个数,j、k为序列号。
5.根据权利要求1所述的一种能够提供个性化服务的书目***,其特征在于,用户信息分析处理包括:对用户信息进行过滤提取,获取单个用户的属性结构信息、检阅书籍的关联信息以及多个用户之间检阅书籍的共现网络信息,据此定位用户的检索能力和知识背景,构建用户画像,挖掘用户兴趣,进行用户群的关联聚类,推荐用户潜在感兴趣的图书。
6.根据权利要求4所述的一种能够提供个性化服务的书目***,其特征在于,模型构建包括:
基于图书、主题z和图书关键词d构建三层LDA贝叶斯概率模型,将每本图书表示成一系列主题的混合分布,记为p(z|d);同时每个主题是关键表中所有单词w的概率分布,记为p(w|z);因此,一本图书中每个关键词的概率分布为:
Figure FDA0004111141950000027
将UserLDA模型作为LDA的扩展主题模型,其将一个用户阅览的所有图书合并成一个独立文档,即UserLDA将一个用户映射到一个独立文档,进行主题生成,从而得到用户生成主题的概率多项分布,即用户兴趣模型;
在用户层中,U是所有用户的集合,U=(u1,u2,……,uN),每个用户ui由图书集合tu,1,tu,2,……,tu,M组成,每本图书由关键词词频向量wu,N组成;在主题层中,用户被表示成向量θu=(pu,1,pu,2,…,pu,z,…,pu,k),其中pu,z表示主题z在用户u中的生成概率,即用户u对主题z的喜好程度。
7.根据权利要求1所述的一种能够提供个性化服务的书目***,其特征在于,信息存储包括:将书籍文献、著者、机构、用户信息以唯一且关联化的本体形式表现,依据著者合作关系、关键词共现关系、出版社共现关系构建著者本体、图书本体节点以及相互之间的连线信息,并存储至书目资源库;
采用埋点技术实时监控采集的信息,根据新近获取的用户检索阅览图书适用场景特征,收集用户对不同知识点的需求深度及方向,为书目资源库的动态维护更新提供指导。
8.根据权利要求1所述的一种能够提供个性化服务的书目***,其特征在于,信息交互用于向书目***传递用户需求,包括用户活动和***响应;
所述用户活动包括检索、阅读、浏览、问答,借由关联模型兼顾挖掘用户需求和定位用户检索能力,进而通过匹配与用户相宜的书目资源实现智能检索、智能导读、智能问答,具体展现为检索信息的提示指引、纠误补全、关联推荐、盲点提示、阅读指引、问答匹配等指导、辅助、答疑服务;除此,针对用户输入信息的语义内容从而匹配关联存储信息,***响应获得检索结果,之后提供语义、语用选项供用户进一步筛选或组织;
以用户检索阅览图书记录、用户学术背景、用户兴趣点为依据,收集用户在不同知识点的需求深度及方向,在用户输入检索信息时,根据关键词共现网络推荐语义相近检索词,以适时补全提示的形式缩短检索路径;依托用户兴趣模型和阅览历史图书的功用场景信息,判断用户在检索知识点所处阶段,推荐用户下一阶段潜在需求的图书,提供智能导读的指引服务;组织整理检索获取的图书列表对应的结构字段信息,包括图书提及知识点、适用人群、功用场景,提供图书的语义、语用选项供用户进一步筛选或获取。
9.根据权利要求1所述的一种能够提供个性化服务的书目***,其特征在于,信息呈现包括:
指定检索结果的组织形式,具体选项包括时间、地点、文献类型;指定文献组织单元的内容大小,包括学科领域、研究专题、关键词;指定创作者组织单元的规模大小,将创作者进一步细分为作者、机构、团队;
依据不同组织对象形成的书目进行相互嵌套,不同层级书目依照用户要求进行次序更改,以书目动态组编的方式满足用户多样化的特定需求;
通过信息处理挖掘汇总检索结果,结合主题聚类、引证关系、时间因素展现知识演化进程,并以固定模板的知识化报告形式、结合时间线的可视化图表样式予以智能导览呈现,同时结合由用户记录生成的用户兴趣模型,关联推荐用户潜在的需求内容。
10.根据权利要求1所述的一种能够提供个性化服务的书目***,其特征在于,依据用户数据库中的某一用户注册信息的学科背景、检索记录、阅览历史,计算相关图书的关键词与用户活动记录产生的关键词重合度,在排除已阅览图书基础上,挖掘相似群体用户的共同特征,推荐用户高概率关注的图书集群,第i本图书与第j个用户的关键词重合度Overlap(booki,userj)计算如下:
Figure FDA0004111141950000041
式中,
Figure FDA0004111141950000042
代表在知识库中与第i本图书距离≤1的关键词群,包括图书涉及关键词群、图书被检索关联关键词群;/>
Figure FDA0004111141950000043
表示在知识库中与第j个用户距离≤2的关键词群,包括用户专注关键词群、用户检索关键词群、用户阅览图书涉及关键词群、用户阅览图书被检索关联关键词群;
在检索过程中,提取用户知识库中同一聚类社区用户的兴趣数据、检索记录、阅览图书历史,由此集成用户潜在感兴趣的关键词群,根据知识检索获得图书结果涉及关键词群与用户潜在感兴趣的关键词群的交集大小,据此对检索结果重组排序,实现针对不同用户的个性化检索。
CN202310206674.6A 2023-03-07 2023-03-07 一种能够提供个性化服务的书目*** Pending CN116186372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310206674.6A CN116186372A (zh) 2023-03-07 2023-03-07 一种能够提供个性化服务的书目***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310206674.6A CN116186372A (zh) 2023-03-07 2023-03-07 一种能够提供个性化服务的书目***

Publications (1)

Publication Number Publication Date
CN116186372A true CN116186372A (zh) 2023-05-30

Family

ID=86442213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310206674.6A Pending CN116186372A (zh) 2023-03-07 2023-03-07 一种能够提供个性化服务的书目***

Country Status (1)

Country Link
CN (1) CN116186372A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809371A (zh) * 2023-02-01 2023-03-17 中信联合云科技有限责任公司 基于数据分析的学习需求确定方法及***
CN116975455A (zh) * 2023-09-24 2023-10-31 太仓市律点信息技术有限公司 应用于人工智能的用户兴趣识别方法及装置
CN117540101A (zh) * 2023-12-04 2024-02-09 深圳市二一教育科技有限责任公司 一种基于人工智能的在线书城管理方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809371A (zh) * 2023-02-01 2023-03-17 中信联合云科技有限责任公司 基于数据分析的学习需求确定方法及***
CN115809371B (zh) * 2023-02-01 2023-09-01 中信联合云科技有限责任公司 基于数据分析的学习需求确定方法及***
CN116975455A (zh) * 2023-09-24 2023-10-31 太仓市律点信息技术有限公司 应用于人工智能的用户兴趣识别方法及装置
CN116975455B (zh) * 2023-09-24 2023-12-22 太仓市律点信息技术有限公司 用户兴趣识别方法及装置
CN117540101A (zh) * 2023-12-04 2024-02-09 深圳市二一教育科技有限责任公司 一种基于人工智能的在线书城管理方法及***
CN117540101B (zh) * 2023-12-04 2024-06-04 深圳市二一教育科技有限责任公司 一种基于人工智能的在线书城管理方法及***

Similar Documents

Publication Publication Date Title
Salloum et al. Mining social media text: extracting knowledge from Facebook
CN110968782B (zh) 一种面向学者的用户画像构建及应用方法
Abello et al. Computational folkloristics
US20030115188A1 (en) Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application
CN116186372A (zh) 一种能够提供个性化服务的书目***
Tuarob et al. A generalized topic modeling approach for automatic document annotation
Tahir et al. Smart learning objects retrieval for E-Learning with contextual recommendation based on collaborative filtering
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
Zubiaga et al. Content-based clustering for tag cloud visualization
Zhong et al. Design of a personalized recommendation system for learning resources based on collaborative filtering
Joe Dhanith et al. An ontology learning based approach for focused web crawling using combined normalized pointwise mutual information and Resnik algorithm
Zhu A book recommendation algorithm based on collaborative filtering
Ahamed et al. Deduce user search progression with feedback session
Broisin et al. A personalized recommendation framework based on CAM and document annotations
Alshehri et al. MultiLayerET: A Unified Representation of Entities and Topics using Multilayer Graphs
Tolmachova et al. Visualizing search history in web learning
Almuhanna et al. Expert finding in scholarly data: An overview
Gupta et al. A system's approach towards domain identification of web pages
Todkar et al. Recommendation engine feedback session strategy for mapping user search goals (FFS: Recommendation system)
Ma et al. Learning resource recommendation via knowledge graphs and learning style clustering
Lucchese et al. Recommender Systems.
Sengottuvelan et al. Efficient web usage mining based on K-medoids clustering technique
Bodke et al. Evaluating Answer Qualities on Q&A Community Sites (StackOverFlow)
Sharma Semantic web mining for intelligent web personalization
Mgarbi et al. Building a recommendation system based on the job offers extracted from the web and the skills of job seekers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination