CN116186381A - 智能检索推荐方法及*** - Google Patents

智能检索推荐方法及*** Download PDF

Info

Publication number
CN116186381A
CN116186381A CN202211518520.2A CN202211518520A CN116186381A CN 116186381 A CN116186381 A CN 116186381A CN 202211518520 A CN202211518520 A CN 202211518520A CN 116186381 A CN116186381 A CN 116186381A
Authority
CN
China
Prior art keywords
target
user
word
determining
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211518520.2A
Other languages
English (en)
Inventor
王俊荣
李邦明
李勇
庞杰
张宇静
辜希武
肖颀
吴君
杨小虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
719th Research Institute of CSIC
Original Assignee
719th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 719th Research Institute of CSIC filed Critical 719th Research Institute of CSIC
Priority to CN202211518520.2A priority Critical patent/CN116186381A/zh
Publication of CN116186381A publication Critical patent/CN116186381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种智能检索推荐方法及***,其中该方法包括:确定语料库中各文档对应的语义标签、以及各所述文档对应的实体和实体间关系;基于所述语料库中各所述文档对应的实体和实体间关系、以及训练好的transE模型,构建碎片化知识网;基于用户输入的检索词,确定与所述检索词匹配的检索结果;根据所述用户的用户画像,确定所述目标文档集合中各所述目标文档的推荐次序。本发明提供的方法使得用户根据检索词获取需要的相关文档,同时获取与该文档的语义标签相关联的其他碎片化知识,此外还可以根据用户画像,对检索得到的所有文档进行推荐优先级排序,更灵活的提供检索结果给用户,更有效的提高检索的效果。

Description

智能检索推荐方法及***
技术领域
本发明涉及海量数据资源分析处理技术领域,尤其涉及一种智能检索推荐方法及***。
背景技术
随着Web2.0技术的不断发展,互联网中的信息量呈指数级增长。海量的信息资源远远超过个人的信息需求,以至于造成用户不能及时按需求获取有效信息并运用的情况,引发了信息生产者与内容消费者之间的尖锐矛盾——信息过载。
大数据背景下,深度学习和神经网络的发展提高了用户对信息的处理能力,但是并没有缓解信息过载给用户造成的影响。搜索引擎是解决信息过载最有效的方式之一,它可以根据一定的策略,用户检索到相关文档信息展示给用户。这种搜索都是粗粒度的检索,即从文档集合中返回满足用户需求的文档列表。在这个信息过载的时代,文档级的检索一方面会给用户带来阅读负担,通过阅读全文才能在单篇文档中精确定位到需要的相关知识片段。另一方面,用户需要阅读多篇文档,才能通过若干零散的知识片段,获取相对完整的关联知识结构。从而引发了另一种粗粒度的信息过载问题。
搜索引擎为解决传统认知的信息过载问题提供了非常重要的技术手段,它根据用户输入的查询关键词在***后台进行信息匹配。但是,如果用户无法提供准确描述自己需求的关键词,搜索引擎就不能很好地为用户服务。因此,如何挖掘用户需求,根据用户需求给用户推荐合适的文档内容也逐渐成为信息领域的研究热点。
发明内容
针对现有技术存在的问题,本发明提供一种智能检索推荐方法、装置、设备及存储介质,用以解决现有技术中信息过载以及不能根据用户需求智能推荐相关信息资源的技术问题。
第一方面,本发明提供一种智能检索推荐方法,包括:
确定语料库中各文档对应的语义标签、以及各所述文档对应的实体和实体间关系;
基于所述语料库中各所述文档对应的实体和实体间关系、以及训练好的翻译距离模型transE,构建碎片化知识网;
基于用户输入的检索词,确定与所述检索词匹配的检索结果;所述检索结果包括与所述检索词匹配的目标文档集合,和与目标语义标签匹配的碎片化知识子网;
根据所述用户的用户画像,确定所述目标文档集合中各所述目标文档的推荐次序;
其中,所述碎片化知识子网是基于所述目标语义标签和所述碎片化知识网中所述实体的匹配关系确定的,包括与所述目标语义标签匹配的目标实体,以及与所述目标实体存在实体间关系的三元组构成的子网;所述目标语义标签为所述目标文档集合中任一目标文档对应的语义标签。
可选地,所述确定语料库中各文档对应的语义标签,包括:
确定所述语料库中所有文档对应的所有主题词,作为标准主题词库;
基于词频-逆文档频率TF-IDF算法,和所述标准主题词库,确定目标文档对应第一候选词集合;所述目标文档为所述语料库中任一文档;
基于第一判断条件,确定第一目标单词是否属于所述目标文档对应的候选语义标签集;所述第一目标单词为所述第一候选词集合中任一单词;
所述第一判断条件包括:所述第一目标单词是否属于所述标准主题词库,和所述第一目标单词和目标主题词的相似度;
基于所述候选语义标签集中任一候选语义标签和所述目标文档的关联度,确定关联度最高的前N1个候选语义标签,作为所述目标文档对应的语义标签;其中,N1为大于或等于1的正整数。
可选地,所述确定所述语料库中所有文档对应的所有主题词之前,包括:
基于分区的潜在狄利克雷分配模型,提取所述语料库中所有文档对应的主题,并确定文档和主题的分布,以及主题和单词的分布。
可选地,所述确定所述语料库中所有文档对应的所有主题词,包括:
以目标主题为单位,基于所述主题和单词的分布,确定属于所述目标主题的第二候选词集合;所述目标主题是所述语料库中所有文档对应的主题中的任一个;
确定第一卡方值最大的前N2个对应的第二目标单词,作为属于所述目标主题的主题词,并加入所述标准主题词库;所述第一卡方值为所述第二目标单词和所述目标主题的卡方值;所述第二目标单词为第二候选词集合中任一单词;其中,N2为大于或等于1的正整数。
可选地,所述基于第一判断条件,确定第一目标单词是否属于所述目标文档对应的候选语义标签集,包括:
确定所述第一目标单词是否属于所述标准主题词库;
若属于,则确定所述第一目标单词属于所述目标文档对应的候选语义标签集;
若不属于,则基于所述第一目标单词与所述标准主题词库中任一主题词的相似度,确定将所述第一目标单词转换为与所述第一目标单词的相似度最高的主题词,加入所述目标文档对应的候选语义标签集。
可选地,所述确定各所述文档对应的实体和实体间关系,包括:
以目标句子为单位,标记所述目标句子对应的每个单词,作为目标序列;所述目标句子为目标文档中任一句子;所述目标文档是所述语料库中任一文档;
基于联合模型LSTM-LSTM-Bias,确定所述目标序列对应的实体和实体间关系;
所述实体至少包括所述语料库中所有文档对应的所有主题词。
可选地,所述transE模型的训练方法,包括:
基于语料库中各所述文档对应的实体和实体间关系构成的三元组,确定正样本,以及所述正样本对应的非相似性度量d(S);
将所述正样本中的头实体或者尾实体进行替换,使其满足不是正样本中的三元组,确定负样本,以及负样本对应的非相似性度量d(S′);
以所述正样本和负样本作为训练样本,确定当边界函数
Figure BDA0003970572080000043
最小时,得到所述训练好的transE模型的相关参数;
所述边界函数
Figure BDA0003970572080000041
表示为:
Figure BDA0003970572080000042
且S′(h,l,t)={(h′,l,t)|h′∈E}∪{(h,l,t′)|t′∈E};
S={(h,l,t)|h∈E,t∈E}
其中,[γ+d(S)-d(S′)]+表示γ+d(S)-d(S′)取值为正,γ是边界超参数,S表示正样本,S′(h,l,t)表示负样本,(h′,l,t)和(h,l,t′)均表示属于负样本一个三元组,h′和h均表示头实体,t和t′均表示尾实体,l表示实体间关系,E表示所有实体的集合,d()表示非相似性度量。
可选地,所述根据所述用户的用户画像,确定所述目标文档集合的推荐次序之前,包括:
基于用户的检索日志,确定目标用户常用检索词以及对应的检索次数,选取所述检索次数最多的前N3个检索词,作为所述目标用户的检索历史画像;
基于用户的基本信息,确定与所述目标用户属于同部门的其他用户常用的检索词以及对应的检索次数,选取所述检索次数最多的前N3个检索词,作为所述目标用户的部门画像;
基于用户的操作日志,确定所述目标用户操作过的所有文档对应的语义标签,选取其中出现频次最高的前N3个检索词,作为所述目标用户的文档操作画像;
基于第一主题集,以单个主题为单位,确定所述第一主题集中每个主题对应的主题词以及辅助词,作为所述目标用户的研究领域画像;所述第一主题集由所述目标用户操作过的所有文档对应的主题构成;
基于用户偏好或者需求,确定所述目标用户的自定义画像;
确定所述目标用户的检索历史画像、所述目标用户的部门画像、所述目标用户的文档操作画像、所述目标用户的研究领域画像、以及所述目标用户的自定义画像,作为所述目标用户的用户画像;
其中,N3为大于或等于1的正整数。
可选地,所述根据所述用户的用户画像,确定所述目标文档集合中各所述目标文档的推荐次序,包括:
确定所述目标语义标签和所述目标用户的用户画像的匹配值;所述目标语义标签为所述目标文档集合中任一目标文档对应的任一语义标签;
基于所述目标文档与检索词的匹配值,以及所述目标语义标签和所述目标用户的用户画像的匹配值,确定综合匹配值;
按照所述综合匹配值由高到低,确定所述目标文档集合中各所述文档的推荐次序。
第二方面,本发明还提供一种智能检索推荐***,包括:
确定模块,用于确定语料库中各文档对应的语义标签、以及各所述文档对应的实体和实体间关系;
构建模块,用于基于所述语料库中各所述文档对应的实体和实体间关系、以及训练好的transE模型,构建碎片化知识网;
检索模块,用于基于用户输入的检索词,确定与所述检索词匹配的检索结果;所述检索结果包括与所述检索词匹配的目标文档集合,和与目标语义标签匹配的碎片化知识子网;
排序模块,用于根据所述用户的用户画像,确定所述目标文档集合中各所述目标文档的推荐次序;
其中,所述碎片化知识子网是基于所述目标语义标签和所述碎片化知识网中所述实体的匹配关系确定的,包括与所述目标语义标签匹配的目标实体,以及与所述目标实体存在实体间关系的三元组构成的子网;所述目标语义标签为所述目标文档集合中任一目标文档对应的语义标签。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述第一方面所述的智能检索推荐方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述第一方面所述的智能检索推荐方法。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的智能检索推荐方法。
本发明提供的智能检索推荐方法及***,通过对语料库中各文档进行分析,确定对应的语义标签,实体以及实体间关系,基于训练好的transE模型,构建碎片化知识网;进而根据用户检索词,确定匹配的目标文档集合,以及与所述目标文档的语义标签存在匹配关系的碎片化知识子网,并可按照用户画像,实现按照不同优先级进行推荐。用户根据检索词获取需要的相关文档,同时获取与该文档的语义标签相关联的其他碎片化知识,此外还可以根据用户画像,对检索得到的所有文档进行推荐优先级排序,更灵活的提供检索结果给用户,更有效的提高检索的效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的智能检索推荐方法的流程示意图;
图2是本发明实施例提供的LDAP模型的示意图;
图3是本发明实施例提供的利用卡方值确定主题词的流程示意图;
图4是本发明实施例提供的确定文档语义标签的流程图;
图5是本发明实施例提供的智能检索推荐***的结构示意图;
图6是本发明实施例提供的智能检索推荐***的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的智能检索推荐方法的流程示意图,如图1所示,该方法包括:
步骤101、确定语料库中各文档对应的语义标签、以及各所述文档对应的实体和实体间关系;
具体地,现有的文档类型有多种,比如专利文件、学术论文、期刊文献、会议文献、设计文档等,为了得到覆盖范围更广,内容更丰富的语料库,可以采集更多类型的文档作为语料库。这样更有利于用户在检索时,获取的更多相关的知识。
在此基础上,对各文档确定其对应的语义标签,可简单理解为可以概括该文档主要内容的相关词语,比如在学术论文或者期刊文献中通常表现为摘要中关键词这种形式,或者是设计文档对应的主题词等。
进一步的对上述文档进行实体以及实体关系的抽取,可理解为信息抽取(Information Extraction,IR),是指从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。其中包括命名实体识别和实体关系抽取。命名实体识别(Named Entity Recognition,NER)的任务是找到文本中提到的每个命名实体,并标记其类型,也就是确定文档对应的实体。实体关系抽取是指在实体识别的基础上,从非结构化文本中抽取出预先定义的实体关系。
目前命名实体和实体关系抽取的学习方法主要分为两大类:流水线学习方法和联合学习方法。流水线学习方法是指在实体识别已完成的基础上直接进行实体之间关系的抽取;联合学习方法主要是基于神经网络的端到端模型,同时完成实体的识别和实体间关系的抽取。虽然流水线模型在抽取中取得了不错的效果,但是流水线模型还存在诸多问题:实体识别模块的错误会影响到关系分类的性能;忽视了两个子任务之间存在的关系;没有关系的实体对会造成信息冗余,从而提升错误率。相比于流水线方法,联合模型能够利用实体和关系间紧密的交互信息,同时抽取实体并分类实体对的关系,很好地解决了流水线方法所存在的问题。
步骤102、基于所述语料库中各所述文档对应的实体和实体间关系、以及训练好的transE模型,构建碎片化知识网;
具体地,抽取了语料库中各文档对应的实体,以及实体间关系后,可以将文档信息转化为无数个三元组,具体表示为:(h,l,t),h表示头实体,t表示尾实体,l表示实体间关系,h,t∈E表示实体集E中的两个任意的实体h,t;l∈L表示关系集L中的一个关系l。
但是三元组的表达能力有限。如果将三元组中的头实体和尾实体通过图中一条路径进行连接,就可以得到更加丰富的信息。首先,三元组本身会被保留在路径之中;其次,路径包含了多个三元组之间的长链信息,可以表达更复杂的关系。
进而根据训练好的transE模型,实现将每个主题下的文档集合所包含的三元组映射到多关系有向图中,以此生成碎片化知识网。该碎片化知识网主要是以主题为单位建立的。同一个主题对应多个主题词,同时每个主题词关联多个文档,这样就构建了主题词和文档关联的碎片化知识网。
翻译距离模型transE相对简单,且具有良好的性能,主要实现学习知识库中实体和关系的低维嵌入向量。
步骤103、基于用户输入的检索词,确定与所述检索词匹配的检索结果;所述检索结果包括与所述检索词匹配的目标文档集合,和与目标语义标签匹配的碎片化知识子网;
其中,所述碎片化知识子网是基于所述目标语义标签和所述碎片化知识网中所述实体的匹配关系确定的,包括与所述目标语义标签匹配的目标实体,以及与所述目标实体存在实体间关系的三元组构成的子网;所述目标语义标签为所述目标文档集合中任一目标文档对应的语义标签。
具体地,构建了碎片化知识网后,根据用户输入的检索词,搜索引擎会检索出与所述检索词匹配的一个或多个目标文档,构成目标文档集合,而每个目标文档都存在对应的语义标签,每个语义标签和上述碎片化知识网中的实体存在匹配关系,也就是根据任一语义标签,均可以在碎片化知识网中找到一个目标实体,而这个目标实体在该碎片化知识网中可能还存在与该目标实体存在实体间关系的其他实体,这样,目标实体,与目标实体关联的其他实体,以及他们之间的实体关系,即上述目标实体对应的三元组就构成了一个碎片化知识子网。当然这里与目标实体存在实体间关系的其他实体,主要是一层实体间关系,或者说是直接的实体间关系,而不是两个实体之间通过多层实体间关系建立连接的情况。每个目标文档都存在语义标签,则对应的也存在与该语义标签对应的碎片化知识子网。
上述是针对单个目标文档确定该目标文档的语义标签对应的碎片化知识子网,同理,每个目标文档均可以参照相同的方式得到对应的碎片化知识子网。
步骤104、根据所述用户的用户画像,确定所述目标文档集合中各所述目标文档的推荐次序。
具体地,搜索引擎根据用户输入的检索词,匹配得到目标文档集合,以及与目标语义标签匹配的碎片化知识子网后,本发明提供的智能检索推荐方法,还可以根据用户的用户画像,进一步对上述检索词匹配的检索结果进行优先级排序。
这里的用户画像主要是体现用户的个人习惯、喜好、感兴趣的领域、以及与该用户关联的其他用户的相关信息等,综合以上的所有信息,可以更多面的体现每个用户的特点,有针对性的对检索的结果,按照用户的特点进行筛选和排序,得到最终的检索推荐结果。
本发明提供的智能检索推荐方法,通过对语料库中各文档进行分析,确定对应的语义标签,实体以及实体间关系,基于训练好的transE模型,构建碎片化知识网;进而根据用户检索词,确定匹配的目标文档集合,以及与所述目标文档的语义标签存在匹配关系的碎片化知识子网,并可按照用户画像,实现按照不同优先级进行推荐。用户根据检索词获取需要的相关文档,同时获取与该文档的语义标签相关联的其他碎片化知识,此外还可以根据用户画像,对检索得到的所有文档进行推荐优先级排序,更灵活的提供检索结果给用户,更有效的提高检索的效果。
可选地,所述确定语料库中各文档对应的语义标签,包括:
确定所述语料库中所有文档对应的所有主题词,作为标准主题词库;
基于TF-IDF算法,和所述标准主题词库,确定目标文档对应第一候选词集合;所述目标文档为所述语料库中任一文档;
基于第一判断条件,确定第一目标单词是否属于所述目标文档对应的候选语义标签集;所述第一目标单词为所述第一候选词集合中任一单词;
所述第一判断条件包括:所述第一目标单词是否属于所述标准主题词库,和所述第一目标单词和目标主题词的相似度;
基于所述候选语义标签集中任一候选语义标签和所述目标文档的关联度,确定关联度最高的前N1个候选语义标签,作为所述目标文档对应的语义标签。
具体的,在确定语料库中各文档对应的语义标签的过程中,需要前确定语料库中所有文档对应的所有主题词,具体获取主题词的方式可以有多种,比如词频-逆文档频率(Term Frequency-Inverse DocumentFrequency,TF-IDF)算法、TextRank算法、以及文档中主题和词的分布情况等,通过上述方法确定了语料库中所有文档对应的所有主题词,就得到了标准主题词库。
而对文档进行规范词自动标引是文本自动处理的基础性工作,在标准主题词库的基础上,确定每个文档蕴含的主题词,可以有效提高检索和推荐的精度。但是一般的语义标注方法还存在以下问题:对通用概念进行标注,不能根据不同领域知识的特点进行有效标注;手动、半自动的标注需要人工干预,不适用于大规模的应用;自动化的语义标注的准确率还有待提高。对不同的领域,存在常用的一些主题。因此,本发明使用的文档的自动语义标签标注方法,该方法基于标准主题词库,具有很强的领域性,对标注的文档没有严格的格式要求而且算法性能较高。
将主题词表加入分词器的词库对每个文档进行分词,以单个文档为单位,根据TF-IDF算法,确定每个分词的TF-IDF值,选取其中TF-IDF值最大的前M1个单词,作为该文档的第一候选词集合。
然后,依次选择该第一候选词集合中的一个单词,作为第一目标单词,确定该第一目标单词是否属于上述标准主题词库,以及该第一目标单词和目标主题词的相似度,这里的目标主题词是标准主题词库中的任一主题词。相当于确定与这个第一目标单词相同的目标主题词或者相近的目标主题词,再将这些相同或相近的目标主题词归入该文档的语义标签候选集。
进一步的将这些语义标签候选集中任意一个语义标签和该文档,确定两者的关联度,将其中关联度最高的前N1个语义标签,作为所述目标文档对应的语义标签。其中,M1和N1为正整数,且M1≥N1≥1。
关联度的计算可以考虑候选语义标签在对应文档中的位置和频率,基于该语义标签在不同位置以及出现的频率,分别设置对应的权重,得到该语义标签和该文档的关联度。
可选地,所述确定所述语料库中所有文档对应的所有主题词之前,包括:
基于分区的潜在狄利克雷分配模型,提取所述语料库中所有文档对应的主题,并确定文档和主题的分布,以及主题和单词的分布。
具体地,为了有效地构建标准主题词库,首先需要从各类型文档中抽取出蕴含的主题。各类型文档包括科技文献和设计文档等。典型的主题模型是潜在狄利克雷分配(Latent Dirichlet Allocation,LDA),它是一个三层贝叶斯概率生成模型,可用于通过无监督学习来估计多项观测值的属性。即在文档集合中发现主题,然后根据文档与每个发现主题的“相关性”,自动对集合中的任何单个文档进行分类。但是,传统的LDA忽略了中长文本文档语义结构中隐藏的一些语义特征。此外,长文本中多样化的主题分布会限制LDA生成的主题向量的质量。
为了解决以上问题,本发明采用改进的基于分区的LDA主题建模方法,分区的潜在狄利克雷分配模型(LDA based on Partition,LDAP)进行资源主题的抽取。LDAP模型的示意图如图2所示。同LDA一样,LDAP也是一个描述生成文档集合过程的概率模型。不同的是,LDAP是在语义主题单元级别而不是文档级别引入了语义主题单元和模型的概念。将较长的文本划分为主题单元,可以充分利用文本结构中隐藏的语义信息,达到更好的建模效果。综上,LDAP不仅保留了原始LDA的优点,还细化了从文档级到语义主题级的建模粒度,特别适合中、长文本的主题建模。
本发明利用LDAP算法将文档的段落作为主题单元,语料库中每个文档的每一段将形成子文档,子文档将重新构成一个大型语料库。然后使用LDAP对新生成的子文档语料库进行建模,得到子文档-主题分布和主题-词分布。最后,为了获得原文档对应的主题分布,需要合并得到的子文档-主题分布。这里使用的方法是为每个子文档分配一个权重值,该值表示子文档在原文档中的重要性。同时考虑权值和子文档的主题分布,得到原文档的主题分布。LDAP算法的整个过程可以描述如下:(1)将文档划分为多个语义主题单元,即子文档;(2)对子文档语料库进行主题建模,得到子文档的主题分布、主题词分布;(3)加权求和,得到原始文档和主题的分布情况。
定义一个从文档主题分布θm到子文档主题分布
Figure BDA0003970572080000142
的过渡矩阵R,R可以由子文档的权重向量r=(r1,r2,…,rp)T计算得到:
R=r+ (1)
Figure BDA0003970572080000141
其中,pi为第pi个子文档,m为文档;length()为文本的长度,r+为矩阵r的广义逆矩阵。这里的r是指整个文档中每个主题单元(段落)的语义重要性。考虑到计算的复杂性,LDAP假设一个段落中包含的有效术语(词语或单词)的数量可以在一定程度上反映该段语义的丰富性。
最终,采用LDAP模型,确定语料库中所有文档对应的主题,并确定文档和主题的分布,以及主题和单词的分布,可表示为:
1)对于语料库D中每一个主题k∈[1,K]:
1.1生成单词的多项分布β~φk
2)对于语料库D中的每个文档d:
2.1生成文档主题分布θm
2.2对于文档d中的每个子文档p:
2.2.1生成子文档主题分布
Figure BDA0003970572080000143
2.2.2对于每一个子文档p:
根据
Figure BDA0003970572080000144
生成单词n所属的主题zp,n
根据φk生成单词wp,n
其中,D表示语料库(也表示语料库中文档总数);K为语料库中主题的总数;α,β是多项式分布的狄利克雷先验分布超参数;φk表示属于第k个主题的单词的多项分布;θm表示文档d的文档主题分布,θp表示针对子文档p的主题的多项分布,其中θm是θp的加权和;R是从文档主题分布θm到子文档主题分布θp的过渡矩阵;wp,n是子文档p中的单词n;zp,n是子文档p中单词n所属的主题。
将语料库中的每个文档划分为子文档,再由子文档组成新的语料库,在新语料库上对主题进行建模。对于语料库中的任何子文档,给定参数α,β,子文档中单词zp,wp,θp,φ的联合分布为:
Figure BDA0003970572080000151
语料库的文档zm,wm,θm,φ的联合分布为:
Figure BDA0003970572080000152
其中,rp是子文档p占原文档的权重,M是语料库中文档的总数量;Pm表示属于同一文档m的子文档的总数;Np表示子文档p中单词的总数。
LDAP和LDA的主要区别是LDAP使用LDA来处理文档的段落,然后对每个段落进行加权,得出文档的主题分布。
LDAP模型的参数的初始化,采用Gibbs抽样方法来对模型参数进行估计,过程如下:
Figure BDA0003970572080000153
Figure BDA0003970572080000154
Figure BDA0003970572080000155
其中,V表示语料库中不同单词的总数;
Figure BDA0003970572080000156
表示文档中属于主题k的第t个单词的个数;βt第t个单词对应的β超参数;/>
Figure BDA0003970572080000157
表示子文档p中第k个单词的个数;αk表示主题k对应的α超参数;φk,t表示主题-词分布,θp,k表示子文档-主题分布,θm,k表示文档-主题分布。
可选地,所述确定所述语料库中所有文档对应的所有主题词,包括:
以目标主题为单位,基于所述主题和单词的分布,确定属于所述目标主题的第二候选词集合;所述目标主题是所述语料库中所有文档对应的主题中的任一个;
确定第一卡方值最大的前N2个对应的第二目标单词,作为属于所述目标主题的主题词,并加入所述标准主题词库;所述第一卡方值为所述第二目标单词和所述目标主题的卡方值;所述第二目标单词为第二候选词集合中任一单词。
具体地,基于语料库确定包括的所有文档的主题,文档和主题分布,以及主题和单词分布后,需要确定每个主题包括的所有主题词。
每个主题由一组属于该主题的多个文档表示,属于同一个主题的文档集合,以及所有文档对应的主题已经通过LDAP模型获得。针对一个主题及其属于该主题的文档集合,需要计算出代表这个主题的一组主题词。互信息(Mutual Information)和卡方检验(Chi-square FeatureSelection)是两种比较常用的特征选择方法。本发明采用卡方检验进行特征选择,通过计算每个词与该主题的卡方值筛选出最能代表该主题前Top N2个词作为这个主题的一组主题词,其中,N2为大于或等于1的正整数。利用卡方值确定主题词的流程如图3所示。
通过LDAP模型获取得到语料库D中所有的主题和词分布,假设基于该主题和词分布,确定任一主题c下的所有文档的主题词候选集合为W={w1,w2,…,wn},即目标主题c的第二候选词集合。
进一步的确定该第二候选词集合中每一个候选词和该目标主题c的卡方值,具体的计算方法包括:
在本发明中,一篇文档是否包含某个主题词,和一篇文档是否属于某个主题,是两个独立事件。基于此,在进行主题词筛选时,定义随机变量et和ec:当一篇文档包含主题词t,et=1;当一篇文档不包含主题词t,et=0;当一篇文档属于主题c时,ec=1。当一篇文档不属于主题c时,ec=0。
一个主题c中的一个单词t,计算单词t与主题c的卡方值:
Figure BDA0003970572080000171
其中,
Figure BDA0003970572080000172
表示在语料库D中et和ec的观测频率;/>
Figure BDA0003970572080000173
是对应的期望频率,例如E11是单词t和主题c在文档中同时出现的期望频率;一种等价的计算卡方值X2的方法如下:
Figure BDA0003970572080000174
其中N10表示包含主题词t但不在主题c中的文档数;N11表示包含主题词t同时也在主题c中的文档数;N01表示不包含主题词t但在主题c中的文档数;N00表示不包含主题词t同时不在主题c中的文档数。
按照公式8或公式9,依次确定第二候选词集合W中每个单词(即第二目标单词)wi和该目标主题c的卡方值,并按照卡方值由大到小进行排序,最终取前N2个卡方值对应的第二目标单词作为该主题的主题词。N2为正整数,且大于或等于1。
计算出主题词之后,还可采用人工干预的方法对主题词进行审核,审核通过的主题词纳入标准主题词库。同时,可以利用HowNet同义词词典计算出标准主题词库中的每个主题词的同义词,丰富每个主题的描述。
可选地,所述基于第一判断条件,确定第一目标单词是否属于所述目标文档对应的候选语义标签集,包括:
确定所述第一目标单词是否属于所述标准主题词库;
若属于,则确定所述第一目标单词属于所述目标文档对应的候选语义标签集;
若不属于,则基于所述第一目标单词与所述标准主题词库中任一主题词的相似度,确定将所述第一目标单词转换为与所述第一目标单词的相似度最高的主题词,加入所述目标文档对应的候选语义标签集。
具体地,将标准主题词库W加入分词器的词库后,对语料库中所有文档进行分词,并采用TF-IDF计算每个分词的TF-IDF值,以单个文档为单位(即目标文档),筛选出TF-IDF值最大的前M1个单词,作为目标文档的第一候选词集合
Figure BDA0003970572080000181
且i≤M1。/>
Figure BDA0003970572080000182
表示第一候选词集合中任意单词,即第一目标单词。
Figure BDA0003970572080000183
若/>
Figure BDA0003970572080000184
则将/>
Figure BDA0003970572080000185
加入候选语义标签集/>
Figure BDA0003970572080000186
Figure BDA0003970572080000187
Figure BDA0003970572080000188
若/>
Figure BDA0003970572080000189
则利用词向量模型Word2Vec计算该第一目标单词和标准主题词库W中任一主题词wi之间的相似度,将第一目标单词转换为与该第一目标单词的相似度最高的主题词,并将转换后的主题词加入/>
Figure BDA00039705720800001810
转换的方法可采用Word2Vec。其中,相似度的计算公式为:
Figure BDA00039705720800001811
如果第一目标单词和所有主题词之间的相似度相等,则不进行转换,直接将第一目标单词加入
Figure BDA00039705720800001812
如果第一目标单词和几个主题词之间的相似度相等,则将与第一目标单词相似度相等的多个主题词一并加入/>
Figure BDA00039705720800001813
按照上述步骤,得到目标文档的语义标签候选集
Figure BDA00039705720800001814
对于/>
Figure BDA00039705720800001815
计算第一目标单词/>
Figure BDA00039705720800001816
关于目标文档的权重值。取权重值最大的前N1个第一目标单词作为该目标文档的语义标签,从而得到/>
Figure BDA00039705720800001817
其中,M1和N1为正整数,且M1≥N1。
考虑目标文档的语义标签在目标文档中出现的位置和频率,采用如下公式对词的权重进行计算:
Figure BDA0003970572080000191
其中,wt,wa,wfls,wc分别为语义标签(第一目标单词)
Figure BDA0003970572080000192
在标题、摘要、正文段落的首尾句和正文段落的其他部分出现的权重;ft,fa,ffls,fc分别为语义标签(第一目标单词)
Figure BDA0003970572080000193
在标题、摘要、正文段落的首尾句以及正文段落的其它部分出现的次数,wlen为语义标签(第一目标单词)/>
Figure BDA0003970572080000194
的长度;wtf/idf为语义标签(第一目标单词)/>
Figure BDA0003970572080000195
的按照TF-IDF算法得到的TF-IDF值。上述确定文档语义标签的流程如图4所示。
可选地,所述确定各所述文档对应的实体和实体间关系,包括:
以目标句子为单位,标记所述目标句子对应的每个单词,作为目标序列;所述目标句子为目标文档中任一句子;所述目标文档是所述语料库中任一文档;
基于联合模型LSTM-LSTM-Bias,确定所述目标序列对应的实体和实体间关系;
所述实体至少包括所述语料库中所有文档对应的所有主题词。
具体地,本发明使用基于序列标注的联合模型LSTM-LSTM-Bias,是基于长短期记忆网络(Long Short Term Memory networks,LSTM-LSTM-Bias)构建的,LSTM属于一种特殊循环神经网络(Recurrent Neural Network,RNN),该联合模型联合模型设计了一种特别的标签类型,将实体识别和关系分类转化为序列标注问题;然后提出了一个端到端模型,对实体和关系进行联合抽取。该方法是一个端到端的神经网络模型,主要包括三个步骤:首先,编码层使用Bi-LSTM对输入的句子进行编码;然后,解码层使用LSTM-d(一种基于LSTM的改进型)进行解码;最终,输出模型标注好的实体-实体间关系三元组。
(1)编码层
以文档的句子为单位,将句子中包括的所有单词用序列表示为S={s1,…,st,st+1,…,sn}表示一个单词序列,其中st∈Rd是对应句子中第t个单词的d维词向量,n是给定句子的长度;R表示实数域,Rd表示d维实数域。比如二维向量坐标(2,3),2和3都是实数。
在序列标记问题中,Bi-LSTM编码层已被证明能够有效捕捉每个单词的语义信息。它包含前向LSTM层、后向LSTM层和连接层。词嵌入层将具有one-hot表示的词转换为嵌入向量。在词嵌入层之后,有两个平行的LSTM层:前向LSTM层和后向LSTM层。LSTM架构由一组循环连接的子网组成,称为内存块。每个时间步长都是一个LSTM内存块。Bi-LSTM编码层中的LSTM内存块用于根据前一个隐藏向量ht-1、前一个单元向量ct-1和当前输入词嵌入wt计算当前隐藏向量ht
对于每个单词st,前向LSTM层通过从单词s1到st的上下文信息对st进行编码,标记为
Figure BDA0003970572080000201
类似地,后向LSTM层根据从sn到st的上下文信息对st进行编码,标记为/>
Figure BDA0003970572080000202
最后,将/>
Figure BDA0003970572080000203
和/>
Figure BDA0003970572080000204
连接起来表示单词t的编码信息,表示为/>
Figure BDA0003970572080000205
(2)解码层
模型采用LSTM结构来生成标签序列。检测单词st的标签时,解码层的输入为:从Bi-LSTM编码层得到的ht、前预测的标签嵌入Tt-1、前单元值
Figure BDA0003970572080000206
前解码时的隐藏向量层
Figure BDA0003970572080000207
最后的softmax层根据标签预测向量Tt计算归一化实体标签概率。
(3)偏置目标函数
模型训练使用最大化数据的对数似然,优化方法使用RMSRrop。
按照上述联合模型LSTM-LSTM-Bias,对语料库中所有文档抽取其中的实体以及实体间关系,该实体主要表现为单词,并至少包括语料库中所有文档对应的所有主题词。实体间关系表示为任意两个实体之间的语义联系,比如苹果是水分很足的水果,其中,“苹果”和“水果”的实体间关系是“属于”,核能是能源,“核能”和“能源”的实体间关系是“属于”,实体间关系可以是一对一、一对多或者多对多。
可选地,所述transE模型的训练方法,包括:
基于语料库中各所述文档对应的实体和实体间关系构成的三元组,确定正样本,以及所述正样本对应的非相似性度量d(S);
将所述正样本中的头实体或者尾实体进行替换,使其满足不是正样本中的三元组,确定负样本,以及负样本对应的非相似性度量d(S′);
以所述正样本和负样本作为训练样本,确定当边界函数
Figure BDA0003970572080000213
最小时,得到所述训练好的transE模型的相关参数;
所述边界函数
Figure BDA0003970572080000211
表示为:
Figure BDA0003970572080000212
且S′(h,l,t)={(h′,l,t)|h′∈E}∪{(h,l,t′)|t′∈E};
S={(h,l,t)|h∈E,t∈E}
其中,[γ+d(S)-d(S′)]+表示γ+d(S)-d(S′)取值为正,γ是边界超参数,S表示正样本,S′(h,l,t)表示负样本,(h′,l,t)和(h,l,t′)均表示属于负样本一个三元组,h′和h表示头实体,t和t′表示尾实体,l表示实体间关系,E表示所有实体的集合,d()表示非相似性度量。
具体地,为了将文档对应的语义标签和文档的主题以及主题词之间建立联系,本发明通过训练好的transE模型,将语料库中各所述文档对应的实体和实体间关系,构建碎片化知识网。
语料库中所有文档对应的实体至少包括这些文档对应的主题词,那么实体和实体间关系构建的碎片化知识网,可理解为各文档的主题词之间构建的碎片化知识网,而主题词和语义标签之间也存在对应关系,或者匹配关系。比如主题词可能和语义标签相同,或者主题词的相关描述中包括语义标签。那么通过语义标签可以在上述碎片化知识网中找到匹配的部分子网,该部分子网包括与该语义标签匹配的实体,与该实体存在实体间关系的其他实体,以及该实体间关系构成的碎片化知识网中的一部分。
而transE模型的训练方法具体包括:
1、确定训练样本集
语料库中所有文档抽取得到的实体集E,以及实体间关系集L,h∈E,t∈E分别表示实体集E中的头实体h和尾实体t;l∈L表示实体间关系集L中的一个关系l;三元组(h,l,t)表示训练样本集中的一个正样本,三元组(h′,l,t)或(h,l,t′)表示训练样本集中的一个负样本,也称为损坏的三元组。负样本是从实体集E中任选一个实体,将正样本中头实体或者为实体进行替换,且替换后的三元组不属于正样本。训练样本集包括所有的正样本和负样本。
2、确定边界函数
通过transE模型学习实体和实体间关系的向量嵌入,嵌入在Rk中取值(k是一个模型超参数);当三元组(h,l,t)关系成立时,h+l≈t,即t应该接近于h+l,同时h+l应该远离其他t;遵循基于能源的框架,三元组的能量约等于非相似性度量d(h+l,t);
该transE模型的边界函数为:
Figure BDA0003970572080000221
且S′(h,l,t)={(h′,l,t)|h′∈E}∪{(h,l,t′)|t′∈E};
S={(h,l,t)|h∈E,t∈E}
其中,[γ+d(S)-d(S′)]+表示γ+d(S)-d(S′)取值为正,γ是边界超参数,S表示正样本,S′(h,l,t)表示负样本,(h′,l,t)和(h,l,t′)均表示属于负样本一个三元组,h′和h表示头实体,t和t′表示尾实体,l表示实体间关系,E表示所有实体的集合,d()表示非相似性度量。
通过上述训练样本集,对transE模型进行训练,当对应的边界函数
Figure BDA0003970572080000222
最小时,获得该transE模型的相关模型参数。
最小化边界函数,最大化正负样本之间的距离。最小化边界函数希望达到的理想情况是,正样本的d(h+l,t)尽可能的小,而负样本的d(h+l,t)或d(h,l,t)尽可能大,这样才能使得边界函数最小,让总体的损失趋向于0。边界函数里面的超参数的作用相当于是正样本与负样本之前的间隔修正,边界超参数越大,则两个样本之前被修正的间隔就越大,则对于词向量的修正就越严格。最大化正负样本的距离就是边界超参数值很大,最小化边界函数是指边界函数的值最小,趋近于0。
详细的优化过程如下:将实体和实体间关系的所有嵌入通过随机过程进行初始化。在算法的每次主要迭代中,首先对实体的嵌入向量进行归一化。然后从训练集中抽取一小部分三元组,作为小批量的训练三元组。对于每个这样的三元组,采样一个损坏的三元组。最后通过恒定学习率的梯度步骤来更新参数。该算法基于其在验证集上的性能而停止。
可选地,所述根据所述用户的用户画像,确定所述目标文档集合的推荐次序之前,包括:
基于用户的检索日志,确定目标用户常用检索词以及对应的检索次数,选取所述检索次数最多的前N3个检索词,作为所述目标用户的检索历史画像;
基于用户的基本信息,确定与所述目标用户属于同部门的其他用户常用的检索词以及对应的检索次数,选取所述检索次数最多的前N3个检索词,作为所述目标用户的部门画像;
基于用户的操作日志,确定所述目标用户操作过的所有文档对应的语义标签,选取其中出现频次最高的前N3个检索词,作为所述目标用户的文档操作画像;
基于第一主题集,以单个主题为单位,确定所述第一主题集中每个主题对应的主题词以及辅助词,作为所述目标用户的研究领域画像;所述第一主题集由所述目标用户操作过的所有文档对应的主题构成;
基于用户偏好或者需求,确定所述目标用户的自定义画像;
确定所述目标用户的检索历史画像、所述目标用户的部门画像、所述目标用户的文档操作画像、所述目标用户的研究领域画像、以及所述目标用户的自定义画像,作为所述目标用户的用户画像;
其中,N3为大于或等于1的正整数。
具体地,用户的需求是有偏好的,但是在大多数情况下,用户并不能准确地表达自己的需求,这使得基于用户需求进行个性化检索和推荐十分困难。用户画像(UserProfile)可以形式化地描述用户需求,从而解决这一问题。用户画像,即用户信息标签化,通过收集用户属性、历史行为、偏好特征等各个维度数据刻画用户的特征属性,并对这些特征分析统计,挖掘潜在的价值信息,从而抽象出一个用户的信息全貌。用户画像是应用大数据的根基,也是个性化检索和推荐的前置条件。
在基于用户的用户画像,对用户的检索结果中各目标文档进行推荐优先级排序之前,需要确定用户画像。
用户画像可以基于许多因素进行分析:用户的检索历史;用户查看、预览和下载的文档内容;用户查看、预览和下载文档的操作次数;用户的基本信息,如所属机构和所属部门;用户所研究的领域等等。同时,用户画像还需要考虑用户自定义的画像,以实现基于用户的个性化特征分析。为了提高用户画像的准确性和规范性,研究领域画像的特征应该来自规范的主题词表。另一方面,可以增加辅助词作为研究领域画像的补充,从而提高用户画像的广度。
用户画像可表示为Mu={Su,Ou,Du,Fu,Cu},其中Su表示检索历史画像、Ou表示文档操作画像、Du表示部门画像、Fu表示研究领域画像、Cu表示用户自定义画像;每个子画像是用户某个属性的集合,si、oi、di、fi、ci分别表示用户检索次数较高的检索词、用户频繁预览和下载文档对应的语义标签、用户所在部门其他用户的用户画像词、研究领域相关的主题词以及辅助词、和用户自定义的画像词。
对于用户u,其用户画像构建具体包括:
(1)根据用户的检索日志,统计用户的检索词和对应的检索次数,选取检索次数排名前N3的检索词作为用户的检索历史画像Su={s1,s2,…,sN};其中,N3为大于或等于1的正整数;
(2)通过用户的基本信息获取用户所在部门的其他用户,统计其他用户的检索历史,选取同部门其他用户检索次数最多的前N3个检索词作为用户的部门画像Du={d1,d2,…,dN};
(3)根据用户的操作日志,获取用户查看、预览和下载的文档集合DS;
统计文档集合DS中文档的语义标签,选取频次最多的前N3的语义标签作为用户的文档操作画像Ou={o1,o2,…,oN};
(4)根据主题抽取得到文档集合DS的主题集合FD;对主题集合FD中的每一个主题Fi,确定研究领域画像的步骤包括:
4.1从文档集合DS找到属于主题Fi的文档子集合
Figure BDA0003970572080000251
4.2对于文档子集合
Figure BDA0003970572080000252
中的每一个文档,通过主题词计算出其蕴含的主题词,并加入到主题Fi的主题词集合/>
Figure BDA0003970572080000253
4.3对于
Figure BDA0003970572080000254
中的每个主题词RWi,将其在主题词表中的同义词加入到辅助词集合SRWi中;
4.4将元素{RWi,SRWi:{sw1,sw2,…,swn}}加入到主题Fi中。
Figure BDA0003970572080000255
最终,确定用户u研究领域画像Fu,Fu被表示为:
Fu={…Fi:{…{RWi,SRWi:{sw1,sw2,…,swn}}…}…}(i=1,2,…,n) (12)
其中Fi(i=1,2,…,n)是用户u所关注的任一个领域主题,是由多个元素组成的集合,Fi的第i个元素对应的主题词为集合{RWi,SRWi:{sw1,sw2,…,swn}},RWi是用来描述主题Fi的主题词,SRWi是主题词RWi的辅助词集合,是主题词RWi在标准主题词库中的同义词,用来对主题Fi进行补充描述。
(5)根据用户偏好或者需求,自行添加自定义画像Cu={c1,c2,…,cN}。
可选地,所述根据所述用户的用户画像,确定所述目标文档集合中各所述目标文档的推荐次序,包括:
基于所述目标文档集合中任一目标文档对应的语义标签,确定目标语义标签;
确定所述目标语义标签和所述目标用户的用户画像的匹配值;
按照所述匹配值由高到低,对所述目标文档集合进行重排序。
具体地,数据智能推送可以让用户从检索数据变成自动接收自己需要的数据,大大提高数据的重用效果与使用效率。协同过滤推荐算法通过用户的评分数据进行项目推荐,但是稀疏的评分数据会导致相似度计算不准确,从而影响推荐质量。另一方面,基于协同过滤的推荐方法未考虑用户背景、用户偏好、行为目的等信息,无法很好地满足不同用户的个性化需求。同现有的检索方法一样,现有的推荐方法返回的是粗粒度的文档信息,难以准确定位到用户感兴趣的知识。
本发明使用基于用户画像与改进的碎片化知识网推荐算法。首先构建可量化的用户画像,通过将用户画像使用特征组合的混合方法与改进的碎片化知识网推荐算法进行融合,得到结合用户画像的推荐算法。然后针对传统协同过滤推荐算法的评分数据稀疏问题,改进用户相似度计算方法,返回用户感兴趣的实体所组成的多关系有向图,得到改进的碎片化知识网推荐算法。最后采用加权的混合方式将两种算法相结合,得到最终的基于用户画像与改进的碎片化知识网混合推荐算法。
基于用户画像的推荐算法充分发挥了用户画像的功能,为用户个性化推荐提供了很好的效果。该算法向目标用户推荐时,具体步骤包括:
根据检索词,在搜索引擎检索得到与检索词匹配的目标文档集合后,每个目标文档对应一个第一匹配值;
对这些目标文档,按照目标用户的用户画像,确定每个目标文档对应的语义标签和该用户画像对应的第二匹配值;
基于每个目标文档的第一匹配值和第二匹配值,以及预设的相关权重,得到每个目标文档的综合匹配值;
按照综合匹配值的高低,确定所述目标文档集合的推荐优先级次序。
本发明提供的智能检索推荐方法,通过对语料库中各文档进行分析,确定对应的语义标签,实体以及实体间关系,基于训练好的transE模型,构建碎片化知识网;进而根据用户检索词,确定匹配的目标文档集合,以及与所述目标文档的语义标签存在匹配关系的碎片化知识子网,并可按照用户画像,实现按照不同优先级进行推荐。用户根据检索词获取需要的相关文档,同时获取与该文档的语义标签相关联的其他碎片化知识,此外还可以根据用户画像,对检索得到的所有文档进行推荐优先级排序,更灵活的提供检索结果给用户,更有效的提高检索的效果。
图5是本发明实施例提供的智能检索推荐***的结构示意图,如图5所示,该***包括:
确定模块110,用于确定语料库中各文档对应的语义标签、以及各所述文档对应的实体和实体间关系;
构建模块120,用于基于所述语料库中各所述文档对应的实体和实体间关系、以及训练好的transE模型,构建碎片化知识网;
检索模块130,用于基于用户输入的检索词,确定与所述检索词匹配的检索结果;所述检索结果包括匹配的目标文档集合,和与目标语义标签匹配的碎片化知识子网;
排序模块140,用于根据所述用户的用户画像,确定所述目标文档集合中各所述目标文档的推荐次序;
其中,所述碎片化知识子网是基于所述目标语义标签和所述碎片化知识网中所述实体的匹配关系确定的,包括与所述目标语义标签匹配的目标实体,以及与所述目标实体存在实体间关系的其他实体构成的三元组;所述目标语义标签为所述目标文档集合中任一目标文档对应的语义标签。
在此需要说明的是,本发明实施例提供的上述***,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
可选地,所述确定模块110还包括:
主题词子模块111,用于确定所述语料库中所有文档对应的所有主题词,作为标准主题词库;
语义标签初筛子模块112,用于基于TF-IDF算法,和所述标准主题词库,确定目标文档对应第一候选词集合;所述目标文档为所述语料库中任一文档;
第一判断子模块113,用于基于第一判断条件,确定第一目标单词是否属于所述目标文档对应的候选语义标签集;所述第一目标单词为所述第一候选词集合中任一单词;所述第一判断条件包括:所述第一目标单词是否属于所述标准主题词库,和所述第一目标单词和目标主题词的相似度;
确定语义标签子模块114,用于基于所述候选语义标签集中任一候选语义标签和所述目标文档的关联度,确定关联度最高的前N1个候选语义标签,作为所述目标文档对应的语义标签。
可选地,所述***还包括主题抽取模块150,用于基于分区的潜在狄利克雷分配模型,提取所述语料库中所有文档对应的主题,并确定文档和主题的分布,以及主题和单词的分布。
可选地,所述确定模块110还包括:
候选主题词子模块115,用于以目标主题为单位,基于所述主题和单词的分布,确定属于所述目标主题的第二候选词集合;所述目标主题是所述语料库中所有文档对应的主题中的任一个;
主题词确定模块116,用于确定第一卡方值最大的前N2个对应的第二目标单词,作为属于所述目标主题的主题词,并加入所述标准主题词库;所述第一卡方值为所述第二目标单词和所述目标主题的卡方值;所述第二目标单词为第二候选词集合中任一单词。
可选地,所述第一判断子模块113还用于:
确定所述第一目标单词是否属于所述标准主题词库;
若属于,则确定所述第一目标单词属于所述目标文档对应的候选语义标签集;
若不属于,则基于所述第一目标单词与所述标准主题词库中任一主题词的相似度,确定将所述第一目标单词转换为与所述第一目标单词的相似度最高的主题词,加入所述目标文档对应的候选语义标签集。
可选地,所述确定模块110还包括:
标记模块117,用于以目标句子为单位,标记所述目标句子对应的每个单词,作为目标序列;所述目标句子为目标文档中任一句子;所述目标文档是所述语料库中任一文档;
三元组确定模块118,用于基于联合模型LSTM-LSTM-Bias,确定所述目标序列对应的实体和实体间关系;
所述实体至少包括所述语料库中所有文档对应的所有主题词。
可选地,所述***还包括用户画像模块160,用于确定目标用户的用户画像;
可选地,所述用户画像模块160还包括:
检索历史画像模块161,用于基于用户的检索日志,确定目标用户常用检索词以及对应的检索次数,选取所述检索次数最多的前N3个检索词,作为所述目标用户的检索历史画像;
部门画像162,用于基于用户的基本信息,确定与所述目标用户属于同部门的其他用户常用的检索词以及对应的检索次数,选取所述检索次数最多的前N3个检索词,作为所述目标用户的部门画像;
文档操作画像163,基于用户的操作日志,确定所述目标用户操作过的所有文档对应的语义标签,选取其中出现频次最高的前N3个检索词,作为所述目标用户的文档操作画像;
研究领域画像164,用于基于第一主题集,以单个主题为单位,确定所述第一主题集中每个主题对应的主题词以及辅助词,作为所述目标用户的研究领域画像;所述第一主题集由所述目标用户操作过的所有文档对应的主题构成;
自定义画像165,用于基于用户偏好或者需求,确定所述目标用户的自定义画像;
确定所述目标用户的检索历史画像、所述目标用户的部门画像、所述目标用户的文档操作画像、所述目标用户的研究领域画像、以及所述目标用户的自定义画像,作为所述目标用户的用户画像。
可选地,所述排序模块140还包括:
第一匹配模块141,用于确定所述目标语义标签和所述目标用户的用户画像的匹配值;所述目标语义标签为所述目标文档集合中任一目标文档对应的任一语义标签;
综合匹配模块142,用于基于所述目标文档与检索词的匹配值,以及所述目标语义标签和所述目标用户的用户画像的匹配值,确定综合匹配值;
推荐模块143,用于按照所述综合匹配值由高到低,确定所述目标文档集合中各所述文档的推荐次序。
下面以具体例子说明本发明实施例提供的智能检索推荐***,图6是本发明实施例提供的智能检索推荐***的流程示意图,如图6所示:
本发明实施例提供的智能检索推荐***基于Java Web实现,主要采用SpringMVC模式、Spring和Hibernate等Java EE技术建立SSM架构,其中SpringMVC负责实现对RestFul请求的分发;Spring负责对所有业务服务的管理与调研;Hibernate是一个持久化框架,用于进行数据库访问与操作。检索底层使用ElasticSearch分布式多用户全文搜索引擎,基于Lucene倒排索引进行数据的有序组织和高效检索。ElasticSearch是一个分布式、高扩展、高实时的搜索与数据分析引擎,对本模块中包含的多模态数据有着很好的支持。***使用Hadoop平台,通过MapReduce分布式计算方法建立索引。
(1)用户输入查询词
1.1分析计算热门检索词。通过统计所有用户的检索历史获取检索词和对应的检索次数,排序后将检索次数最多的前N的检索词作为检索热词进行用户无输入的检索词推荐。
(2)提示相关主题词
搜索热词智能提示。使用智能提示的方式来规范用户输入的检索条件。智能提示基于用户检索日志和主题词表来完成,当用户输入部分检索词(即用户还在输入检索词,还未确定检索操作)时,比如“智能”,首先在日志里找到前N个以“智能”开始的检索词,并检查这些词是否属于主题词表中的主题词。如果是,就将这些词显示给用户让用户选择;如果不是,则在主题词表里找以“智能”开始的主题词,显示给用户让用户选择。
(3)主题词查询扩展,提交检索
基于主题词表的查询扩展。当用户提交检索请求,***使用IK分词器对检索语句进行分词。通过Jensen-Shannon散度衡量方法计算检索分词与主题词之间的相关度,取相关度高的主题词进行查询扩展,构建新的检索向量。
(4)切换索引,打开对应的检索器
数据库元数据表示关系型数据库表中的一行数据,在本***中代表每个文档的信息。本发明通过MapReduce创建索引(index),并将文档信息和用户的检索历史存储在索引中,即实现检索词对应检索热词推荐,和输入检索词执行检索后得到检索结果,分别通过不同的索引,切换不同的检索器。接收到用户的检索请求后,匹配文档数据所在的索引并打开对应的检索器进行检索。
(5)Lucene检索并排序
通过检索词的匹配文档中主题词的位置以及与文档的相关度,还可以结合用户的用户画像,对检索结果进行多维度排序。
(6)针对匹配文档对应的语义标签确定对应的碎片化知识子网。
(7)智能化推荐结果展示。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例提供的所述基于路径依赖坐标系的转子响应不确定性量化方法。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的所述基于路径依赖坐标系的转子响应不确定性量化方法。
以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种智能检索推荐方法,其特征在于,包括:
确定语料库中各文档对应的语义标签、以及各所述文档对应的实体和实体间关系;
基于所述语料库中各所述文档对应的实体和实体间关系、以及训练好的翻译距离模型transE,构建碎片化知识网;
基于用户输入的检索词,确定与所述检索词匹配的检索结果;所述检索结果包括与所述检索词匹配的目标文档集合,和与目标语义标签匹配的碎片化知识子网;
根据所述用户的用户画像,确定所述目标文档集合中各所述目标文档的推荐次序;
其中,所述碎片化知识子网是基于所述目标语义标签和所述碎片化知识网中所述实体的匹配关系确定的,包括与所述目标语义标签匹配的目标实体,以及与所述目标实体存在实体间关系的三元组构成的子网;所述目标语义标签为所述目标文档集合中任一目标文档对应的语义标签。
2.根据权利要求1所述的智能检索推荐方法,其特征在于,所述确定语料库中各文档对应的语义标签,包括:
确定所述语料库中所有文档对应的所有主题词,作为标准主题词库;
基于词频-逆文档频率TF-IDF算法,和所述标准主题词库,确定目标文档对应第一候选词集合;所述目标文档为所述语料库中任一文档;
基于第一判断条件,确定第一目标单词是否属于所述目标文档对应的候选语义标签集;所述第一目标单词为所述第一候选词集合中任一单词;
所述第一判断条件包括:所述第一目标单词是否属于所述标准主题词库,和所述第一目标单词和目标主题词的相似度;
基于所述候选语义标签集中任一候选语义标签和所述目标文档的关联度,确定关联度最高的前N1个候选语义标签,作为所述目标文档对应的语义标签;其中,N1为大于或等于1的正整数。
3.根据权利要求2所述的智能检索推荐方法,其特征在于,所述确定所述语料库中所有文档对应的所有主题词之前,包括:
基于分区的潜在狄利克雷分配模型,提取所述语料库中所有文档对应的主题,并确定文档和主题的分布,以及主题和单词的分布。
4.根据权利要求2或3所述的智能检索推荐方法,其特征在于,所述确定所述语料库中所有文档对应的所有主题词,包括:
以目标主题为单位,基于所述主题和单词的分布,确定属于所述目标主题的第二候选词集合;所述目标主题是所述语料库中所有文档对应的主题中的任一个;
确定第一卡方值最大的前N2个对应的第二目标单词,作为属于所述目标主题的主题词,并加入所述标准主题词库;所述第一卡方值为所述第二目标单词和所述目标主题的卡方值;所述第二目标单词为第二候选词集合中任一单词;其中,N2为大于或等于1的正整数。
5.根据权利要求2所述的智能检索推荐方法,其特征在于,所述基于第一判断条件,确定第一目标单词是否属于所述目标文档对应的候选语义标签集,包括:
确定所述第一目标单词是否属于所述标准主题词库;
若属于,则确定所述第一目标单词属于所述目标文档对应的候选语义标签集;
若不属于,则基于所述第一目标单词与所述标准主题词库中任一主题词的相似度,确定将所述第一目标单词转换为与所述第一目标单词的相似度最高的主题词,加入所述目标文档对应的候选语义标签集。
6.根据权利要求1所述的智能检索推荐方法,其特征在于,所述确定各所述文档对应的实体和实体间关系,包括:
以目标句子为单位,标记所述目标句子对应的每个单词,作为目标序列;所述目标句子为目标文档中任一句子;所述目标文档是所述语料库中任一文档;
基于联合模型LSTM-LSTM-Bias,确定所述目标序列对应的实体和实体间关系;
所述实体至少包括所述语料库中所有文档对应的所有主题词。
7.根据权利要求1所述的智能检索推荐方法,其特征在于,所述transE模型的训练方法,包括:
基于语料库中各所述文档对应的实体和实体间关系构成的三元组,确定正样本,以及所述正样本对应的非相似性度量d(S);
将所述正样本中的头实体或者尾实体进行替换,使其满足不是正样本中的三元组,确定负样本,以及负样本对应的非相似性度量d(S);
以所述正样本和负样本作为训练样本,确定当边界函数
Figure FDA0003970572070000031
最小时,得到所述训练好的transE模型的相关参数;
所述边界函数
Figure FDA0003970572070000032
表示为:
Figure FDA0003970572070000033
且S( h,l,t)={(h,l,t)|h∈E}∪{(h,l,t)|t∈E};
S={(h,l,t)|h∈E,t∈E}
其中,[γ+d(S)-d(S)]+表示γ+d(S)-d(S)取值为正,γ是边界超参数,S表示正样本,S( h,l,t)表示负样本,(h,l,t)和(h,l,t)均表示属于负样本一个三元组,h和h均表示头实体,t和t均表示尾实体,l表示实体间关系,E表示所有实体的集合,d()表示非相似性度量。
8.根据权利要求1所述的智能检索推荐方法,其特征在于,所述根据所述用户的用户画像,确定所述目标文档集合的推荐次序之前,包括:
基于用户的检索日志,确定目标用户常用检索词以及对应的检索次数,选取所述检索次数最多的前N3个检索词,作为所述目标用户的检索历史画像;
基于用户的基本信息,确定与所述目标用户属于同部门的其他用户常用的检索词以及对应的检索次数,选取所述检索次数最多的前N3个检索词,作为所述目标用户的部门画像;
基于用户的操作日志,确定所述目标用户操作过的所有文档对应的语义标签,选取其中出现频次最高的前N3个检索词,作为所述目标用户的文档操作画像;
基于第一主题集,以单个主题为单位,确定所述第一主题集中每个主题对应的主题词以及辅助词,作为所述目标用户的研究领域画像;所述第一主题集由所述目标用户操作过的所有文档对应的主题构成;
基于用户偏好或者需求,确定所述目标用户的自定义画像;
确定所述目标用户的检索历史画像、所述目标用户的部门画像、所述目标用户的文档操作画像、所述目标用户的研究领域画像、以及所述目标用户的自定义画像,作为所述目标用户的用户画像;
其中,N3为大于或等于1的正整数。
9.根据权利要求8所述的智能检索推荐方法,其特征在于,所述根据所述用户的用户画像,确定所述目标文档集合中各所述目标文档的推荐次序,包括:
确定所述目标语义标签和所述目标用户的用户画像的匹配值;所述目标语义标签为所述目标文档集合中任一目标文档对应的任一语义标签;
基于所述目标文档与检索词的匹配值,以及所述目标语义标签和所述目标用户的用户画像的匹配值,确定综合匹配值;
按照所述综合匹配值由高到低,确定所述目标文档集合中各所述文档的推荐次序。
10.一种智能检索推荐的***,其特征在于,包括:
确定模块,用于确定语料库中各文档对应的语义标签、以及各所述文档对应的实体和实体间关系;
构建模块,用于基于所述语料库中各所述文档对应的实体和实体间关系、以及训练好的transE模型,构建碎片化知识网;
检索模块,用于基于用户输入的检索词,确定与所述检索词匹配的检索结果;所述检索结果包括匹配的目标文档集合,和与目标语义标签匹配的碎片化知识子网;
排序模块,用于根据所述用户的用户画像,确定所述目标文档集合中各所述目标文档的推荐次序;
其中,所述碎片化知识子网是基于所述目标语义标签和所述碎片化知识网中所述实体的匹配关系确定的,包括与所述目标语义标签匹配的目标实体,以及与所述目标实体存在实体间关系的其他实体构成的三元组;所述目标语义标签为所述目标文档集合中任一目标文档对应的语义标签。
CN202211518520.2A 2022-11-29 2022-11-29 智能检索推荐方法及*** Pending CN116186381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211518520.2A CN116186381A (zh) 2022-11-29 2022-11-29 智能检索推荐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211518520.2A CN116186381A (zh) 2022-11-29 2022-11-29 智能检索推荐方法及***

Publications (1)

Publication Number Publication Date
CN116186381A true CN116186381A (zh) 2023-05-30

Family

ID=86444973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211518520.2A Pending CN116186381A (zh) 2022-11-29 2022-11-29 智能检索推荐方法及***

Country Status (1)

Country Link
CN (1) CN116186381A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881406A (zh) * 2023-09-08 2023-10-13 国网信息通信产业集团有限公司 一种多模态智能文件检索方法及***
CN117540057A (zh) * 2024-01-10 2024-02-09 广东省电信规划设计院有限公司 基于aigc的检索引导方法及装置
CN117851692A (zh) * 2024-03-07 2024-04-09 深圳市华师兄弟教育科技有限公司 一种基于互联网的网络课程用课件管理***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881406A (zh) * 2023-09-08 2023-10-13 国网信息通信产业集团有限公司 一种多模态智能文件检索方法及***
CN116881406B (zh) * 2023-09-08 2024-01-09 国网信息通信产业集团有限公司 一种多模态智能文件检索方法及***
CN117540057A (zh) * 2024-01-10 2024-02-09 广东省电信规划设计院有限公司 基于aigc的检索引导方法及装置
CN117540057B (zh) * 2024-01-10 2024-04-30 广东省电信规划设计院有限公司 基于aigc的检索引导方法及装置
CN117851692A (zh) * 2024-03-07 2024-04-09 深圳市华师兄弟教育科技有限公司 一种基于互联网的网络课程用课件管理***
CN117851692B (zh) * 2024-03-07 2024-05-03 深圳市华师兄弟教育科技有限公司 一种基于互联网的网络课程用课件管理***

Similar Documents

Publication Publication Date Title
Nie et al. Large-scale question tagging via joint question-topic embedding learning
US8676815B2 (en) Suffix tree similarity measure for document clustering
CN116186381A (zh) 智能检索推荐方法及***
Zhang et al. Personalized recommendation of social images by constructing a user interest tree with deep features and tag trees
Jotheeswaran et al. OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE.
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
Lim et al. Nonparametric Bayesian topic modelling with the hierarchical Pitman–Yor processes
Yang et al. Citation recommendation as edge prediction in heterogeneous bibliographic network: a network representation approach
CN115563313A (zh) 基于知识图谱的文献书籍语义检索***
Thushara et al. A model for auto-tagging of research papers based on keyphrase extraction methods
Tekli An overview of cluster-based image search result organization: background, techniques, and ongoing challenges
Agarwal et al. A systematic literature review on web service clustering approaches to enhance service discovery, selection and recommendation
Budikova et al. ConceptRank for search-based image annotation
Knap Towards Odalic, a Semantic Table Interpretation Tool in the ADEQUATe Project.
Park et al. Automatic extraction of user’s search intention from web search logs
Park et al. Extracting search intentions from web search logs
Zan et al. S 2 ql: Retrieval augmented zero-shot question answering over knowledge graph
Nguyen et al. Social tagging analytics for processing unlabeled resources: A case study on non-geotagged photos
Xia et al. Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation
CN116894495A (zh) 用注释增强机器学习管道的方法、计算机可读介质和***
Hu et al. A probabilistic approach to personalized tag recommendation
Chen et al. Multi-modal multi-layered topic classification model for social event analysis
Zhou et al. A framework for image dark data assessment
Huang et al. Rough-set-based approach to manufacturing process document retrieval
Elmenshawy et al. Automatic arabic text summarization (AATS): A survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination