CN115391479A - 用于文档搜索的排序方法、装置、电子介质及存储介质 - Google Patents

用于文档搜索的排序方法、装置、电子介质及存储介质 Download PDF

Info

Publication number
CN115391479A
CN115391479A CN202110546596.5A CN202110546596A CN115391479A CN 115391479 A CN115391479 A CN 115391479A CN 202110546596 A CN202110546596 A CN 202110546596A CN 115391479 A CN115391479 A CN 115391479A
Authority
CN
China
Prior art keywords
document
user
model
preset
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110546596.5A
Other languages
English (en)
Inventor
张淼
胡颉
郑中强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110546596.5A priority Critical patent/CN115391479A/zh
Publication of CN115391479A publication Critical patent/CN115391479A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种用于文档搜索的排序方法、装置、电子设备及存储介质,包括:获取用户搜索语句;基于用户搜索语句得到与用户搜索语句对应的文档搜索结果,并将文档搜索结果按预设第一模型确定的相似性结果进行排序;预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF‑IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果。本发明实施例提供的排序方法更为贴合企业员工的搜索需求,能够使用户方便迅速的定位工作中所需的文档。

Description

用于文档搜索的排序方法、装置、电子介质及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于文档搜索的排序方法、装置、电子设备及存储介质。
背景技术
面对企业内部日益增长的信息资源,企业用户很难快速从庞大的信息资源库中获取自己所需要的信息,因此搜索引擎成为企业信息化建设与应用中必不可少的工具。但是随着企业数据的海量发展,原有传统的搜索能力,又面临着搜索结果的日益庞大,如何从搜索结果快速检索出真正所需的信息是目前搜索技术所研究的关键点之一。
如何使用户关注的信息排列在搜索结果中靠前排列,是搜索引擎技术不断改进优化的方向,总结现有几种比较主要的排序算法有词频位置加权排序算法和链接分析排序算法等。其中,词频位置加权排序技术是由传统的情报检索和技术基础上发展而来的,即用户输入的检索词在网页中出现的频率越高,出现的位置越重要,那么就认为该网页与此检索词的相关度越高,其在搜索结果出现的位置越靠前,早期的搜索引擎如InfoSeek,Excite,Lycos都使用此类排序方法;链接分析排序算法的设计思想来自于论文文献索引机制,即一篇论文或文献被引用的次数越多,那么其学术价值就越高,同样类比到网页,如果指向某网页的链接越多,那么该网页的重要性就越高。链接分析算法可分为基于随机漫游模型,比如PageRank算法;基于Hub和Authority相互加强模型,如HITS及其变种;基于概率模型,如SALSA;基于贝叶斯模型的,如贝叶斯算法及其简化版本。
现有技术提供的搜索排序技术,如词频位置加权排序和链接分析排序算法其优点是易用易实现,且已发展相对成熟,但是其主要适用于互联网中高质量的网页及网络连接搜索,针对企业信息化***的信息内容样式复杂多样,其搜索结果不仅是网页,还应考量个人相关的业务属性、岗位属性以及个人习惯等,因此现有技术在企业信息化***中的应用效果不佳。
发明内容
针对现有技术中存在的问题,本发明实施例提供一种用于文档搜索的排序方法、装置、电子设备及存储介质。
第一方面,本发明实施例提供一种用于文档搜索的排序方法,包括:
获取用户搜索语句;
基于所述用户搜索语句得到与所述用户搜索语句对应的文档搜索结果,并将所述文档搜索结果按预设第一模型确定的相似性结果进行排序;其中,所述预设第一模型包括预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的文档主题加权TF-IDF模型以及预设的聚类模型中的一种或多种;所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果;
所述文档类型偏好权重模型为:将用户搜索语句、用户日志行为特征、文档数据库中的全部文档作为输入,将用户的文档类型偏好权重作为输出,通过机器学习训练得到的,用于对用户的文档类型偏好进行预测的模型;
所述预设的文档内容预测模型为:将用户搜索语句、用户日志行为特征、与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将用户的搜索文档内容作为输出,通过机器学习训练得到的,用于对用户的搜索文档内容进行预测的模型;
所述预设的文档主题预测模型为:将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将与所述用户选择文档对应的所选文档主题作为输出,通过机器学习训练得到的,用于对用户所选文档的主题进行预测的模型;
所述预设的加权TF-IDF模型为:将与用户搜索语句对应的关键字作为输入数据,将与所述关键字对应的TF-IDF权重值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的TF-IDF权重值进行预测的模型;
所述预设的聚类模型为:将与用户相关联的业务属性作为输入,将文档主题概率分布值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的概率分布值进行预测的模型;所述业务属性包括用户所属的部门、用户的职位职责和用户的业务权限。
进一步地,所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果,具体包括:
所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果,采用余弦相似度算法确定相似性结果。
进一步地,所述文档类型偏好权重模型为:将用户搜索语句、用户日志行为特征、文档数据库中的全部文档作为输入,将用户的文档类型偏好权重作为输出,通过机器学习训练得到的,用于对用户的文档类型偏好进行预测的模型,还包括:
将用户搜索语句变成词向量f1,将用户日志行为特征变成数字向量f2,将文档数据库中的全部文档进行分类;
基于用户搜索语句变成的词向量f1和用户日志行为特征变成数字向量f2形成特征x1,作为训练数据的特征;
基于分类后的文档用y1表示,作为训练数据的标签;
基于x1和y1,采用机器学习XGBOOST算法构建所述文档类型偏好权重模型,输出用户的文档类型偏好权重。
进一步地,所述预设的文档内容预测模型为:将用户搜索语句、用户日志行为特征、与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将用户的搜索文档内容作为输出,通过机器学习训练得到的,用于对用户的搜索文档内容进行预测的模型,还包括:
将用户搜索语句变成词向量f3,将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档变成词向量f4,将用户日志行为特征变成数字特征f5;
基于词向量f3和词向量f4形成训练样本x2;
基于数字特征f5形成训练样本y2;
基于x2和y2,采用机器学习双向LSTM算法构建所述文档内容预测模型,输出用户的搜索文档内容。
进一步地,所述预设的文档主题预测模型为:将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将与所述用户选择文档对应的所选文档主题作为输出,通过机器学习训练得到的,用于对用户所选文档的主题进行预测的模型,还包括:
利用机器学习LDA算法构建所述文档主题预测模型,输出用户所选文档的主题。
进一步地,所述预设的加权TF-IDF模型为:将与用户搜索语句对应的关键字作为输入数据,将与所述关键字对应的TF-IDF权重值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的TF-IDF权重值进行预测的模型,还包括:
在所述加权TF-IDF模型中对用户搜索语句进行切词处理和关键词提取处理,确定与用户搜索语句对应的关键字;
基于所述与用户搜索语句对应的关键字使用相关度算法计算所述关键字与搜索目标域之间的匹配程度;所述相关度算法包括检索词频率TF算法和方向文档频率IDF算法;
基于关键字与搜索目标域之间的匹配程度确定用户所选文档主题的TF-IDF权重值。
进一步地,所述预设的聚类模型为:将与用户相关联的业务属性作为输入,将文档主题概率分布值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的概率分布值进行预测的模型;所述业务属性包括用户所属的部门、用户的职位职责和用户的业务权限,还包括:
根据标签特征数据用户所属的部门、用户的职位职责和用户的业务权限进行聚类,确定多个大类;
基于每个大类进行文档主题分布计算得到用户所选文档主题的概率分布值。
第二方面,本发明实施例提供了一种用于文档搜索的排序装置,包括:
获取模块,用于获取用户搜索语句;
排序模块,用于基于所述用户搜索语句得到与所述用户搜索语句对应的文档搜索结果,并将所述文档搜索结果按预设第一模型确定的相似性结果进行排序;其中,所述预设第一模型包括预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的文档主题加权TF-IDF模型以及预设的聚类模型中的一种或多种;所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果;
所述文档类型偏好权重模型为:将用户搜索语句、用户日志行为特征、文档数据库中的全部文档作为输入,将用户的文档类型偏好权重作为输出,通过机器学习训练得到的,用于对用户的文档类型偏好进行预测的模型;
所述预设的文档内容预测模型为:将用户搜索语句、用户日志行为特征、与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将用户的搜索文档内容作为输出,通过机器学习训练得到的,用于对用户的搜索文档内容进行预测的模型;
所述预设的文档主题预测模型为:将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将与所述用户选择文档对应的所选文档主题作为输出,通过机器学习训练得到的,用于对用户所选文档的主题进行预测的模型;
所述预设的加权TF-IDF模型为:将与用户搜索语句对应的关键字作为输入数据,将与所述关键字对应的TF-IDF权重值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的TF-IDF权重值进行预测的模型;
预设的聚类模型为:将与用户相关联的业务属性作为输入,将文档主题概率分布值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的概率分布值进行预测的模型;所述业务属性包括用户所属的部门、用户的职位职责和用户的业务权限。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上第一方面所述的用于文档搜索的排序方法的步骤。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上第一方面所述的用于文档搜索的排序方法的步骤。
由上述技术方案可知,本发明实施例提供的用于文档搜索的排序方法、装置、电子设备及存储介质,通过获取用户搜索语句;基于用户搜索语句得到与用户搜索语句对应的文档搜索结果,并将文档搜索结果按预设第一模型确定的相似性结果进行排序;预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果。本发明实施例提供的排序方法更为贴合企业员工的搜索需求,能够使用户方便迅速的定位工作中所需的文档。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的用于文档搜索的排序方法的流程示意图;
图2为本发明另一实施例提供的用于文档搜索的排序方法的流程示意图;
图3为本发明一实施例提供的确定相似性结果的流程示意图;
图4为本发明一实施例提供的构建文档类型偏好权重模型的流程示意图;
图5为本发明一实施例提供的构建文档内容预测模型的流程示意图;
图6为本发明一实施例提供的构建文档主题预测模型的流程示意图;
图7为本发明一实施例提供的构建文档主题加权TF-IDF模型的流程示意图;
图8为本发明一实施例提供的构建聚类模型的流程示意图;
图9为本发明一实施例提供的用于文档搜索的排序装置的结构示意图;
图10为本发明一实施例中电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面将通过具体的实施例对本发明提供的用于文档搜索的排序方法进行详细解释和说明。
图1为本发明一实施例提供的用于文档搜索的排序方法的流程示意图;如图1所示,该方法包括:
步骤101:获取用户搜索语句。
在本步骤中,可以理解的是,用户在搜索栏中输入搜索语句,如ABCDE,或FGHJK等等。
步骤102:基于所述用户搜索语句得到与所述用户搜索语句对应的文档搜索结果,并将所述文档搜索结果按预设第一模型确定的相似性结果进行排序;其中,所述预设第一模型包括预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的文档主题加权TF-IDF模型以及预设的聚类模型中的一种或多种;所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果;
所述文档类型偏好权重模型为:将用户搜索语句、用户日志行为特征、文档数据库中的全部文档作为输入,将用户的文档类型偏好权重作为输出,通过机器学习训练得到的,用于对用户的文档类型偏好进行预测的模型;
所述预设的文档内容预测模型为:将用户搜索语句、用户日志行为特征、与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将用户的搜索文档内容作为输出,通过机器学习训练得到的,用于对用户的搜索文档内容进行预测的模型;
所述预设的文档主题预测模型为:将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将与所述用户选择文档对应的所选文档主题作为输出,通过机器学习训练得到的,用于对用户所选文档的主题进行预测的模型;
所述预设的加权TF-IDF模型为:将与用户搜索语句对应的关键字作为输入数据,将与所述关键字对应的TF-IDF权重值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的TF-IDF权重值进行预测的模型;
所述预设的聚类模型为:将与用户相关联的业务属性作为输入,将文档主题概率分布值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的概率分布值进行预测的模型;所述业务属性包括用户所属的部门、用户的职位职责和用户的业务权限。
在本实施例中,需要说明的是,针对现有技术的不足,需要一种针对企业信息化的更为智能的搜索排序技术(即本实施例提供的用于文档搜索的排序方法),支撑集***搜索与网站搜索于一体的高性能、全功能的全文检索搜索引擎,可对企业信息化中的信息内容做到更为智能的排序,更为智能有效的快速给出用户所需要的内容。
在本实施例中,需要说明的是,本实施例提供的用于文档搜索的排序方法是应用于企业信息化中的全文检索搜索引擎中的一种搜索结果排序技术。特别是针对企业信息化中统筹考虑企业员工职责、权限、业务特性之下针对企业公文、工单、应用等信息的搜索结果的排序能力。提供智能化且相对准确的搜索排序能力,同时保障内部***文档的查询等同于数据源***的权限控制。在已有企业的应用***之上,使得每个员工对于大量的、难以查询的文档能够精准、快捷的找出符合其使用权限和业务特性的所需文档,以节省可观的时间成本。
在本实施例中,需要说明的是,本实施例提供的用于文档搜索的排序方法是在词频位置加权排序技术的基础上结合企业公文特性进行进一步细化与增强,通过相似度匹配与标题加权,同时结合信息化***中人工智能技术实现智能化、个性化的符合企业员工数据权限与业务特性的搜索结果排序。
在本实施例中,需要说明的是,所述预设第一模型包括预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的文档主题加权TF-IDF模型以及预设的聚类模型中的一种或多种;如所述预设第一模型包括预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的文档主题加权TF-IDF模型以及预设的聚类模型,参见图2,举例来说:
基于所述文档类型偏好权重模型对用户的文档类型偏好计算用户的文档类型偏好权重;
基于所述预设的文档内容预测模型生成用户的搜索文档内容;
基于文档主题预测模型得到与用户选择文档对应的所选文档主题;
基于加权TF-IDF模型对用户所选文档主题的TF-IDF权重值进行预测;
进一步的结合TF-IDF权重值、用户的搜索文档内容、与用户选择文档对应的所选文档主题得到第一相似性结果;
进一步地结合聚类模型所得到的文档主题概率分布值、用户的文档类型偏好权重得到第二相似性结果,即最终确定的相似性结果。
由上面技术方案可知,本发明实施例提供的用于文档搜索的排序方法,通过获取用户搜索语句;基于用户搜索语句得到与用户搜索语句对应的文档搜索结果,并将文档搜索结果按预设第一模型确定的相似性结果进行排序;预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果。本发明实施例提供的排序方法更为贴合企业员工的搜索需求,能够使用户方便迅速的定位工作中所需的文档。
在上述实施例基础上,在本实施例中,所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果,具体包括:
所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果,采用余弦相似度算法确定相似性结果。
在本实施例中,举例来说:基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果,并生成符合用户预期的文档,参见图3:
S1、根据用户的搜索文字和行为特征,调用model_c1,计算用户文档偏好权重w1。
S2、根据用户的搜索文字和行为特征,调用model_c2,生成用户想要查阅的内容arti_pre,基于arti_pre,调用model_c3,生成搜索得到内容的主题分布dist_pre01。
S3、筛选用户搜索过的全部文档,调用model_c3,生成用户自身查阅内容的主题分布,计算主分布偏好均值w2。
S4、根据用户聚类模型。判断用户所属大类,抽取该大类主题分布均值w3。
S5、根据用户搜索关键字内容,根据公式(4),输出候选文档。调用model_c3,计算全部文档的主题分布,输出主题分布集合{dist_trues}。
S6、根据计算w2和dist_pre01均值作为搜索文字的主题分布,输出为dist_pre02。
S7、采用余弦相似度算法,计算dist_pre02和集合{dist_trues}每一个元素的相似性,输出为相似性集合{cors}。
S8、采用余弦相似度算法,计算w3和集合{dist_trues}每一个元素的相似性,输出为相似性集合{cors_w3}。
S9、加权计算{cors}和{cors_w3}的和,输出为{cors_weight},其中{cors}的权重为0.7,{cors_w3}的权重为0.3,权重的数值是通过交叉验证得到的。
S10、计算w1和{cors_w3}的乘积,计算每个文档最终的相似性{cors_final},对其进行排序,排名越靠前的文档就是越符合用户预期的文档。
由上面技术方案可知,本发明实施例提供的用于文档搜索的排序方法,采用交叉验证方法,加权计算搜索相关性,得到较为可靠的文档相似性,从而可以精准向用户推荐文档。
在上述实施例基础上,在本实施例中,所述文档类型偏好权重模型为:将用户搜索语句、用户日志行为特征、文档数据库中的全部文档作为输入,将用户的文档类型偏好权重作为输出,通过机器学习训练得到的,用于对用户的文档类型偏好进行预测的模型,还包括:
将用户搜索语句变成词向量f1,将用户日志行为特征变成数字向量f2,将文档数据库中的全部文档进行分类;
基于用户搜索语句变成的词向量f1和用户日志行为特征变成数字向量f2形成特征x1,作为训练数据的特征;
基于分类后的文档用y1表示,作为训练数据的标签;
基于x1和y1,采用机器学习XGBOOST算法构建所述文档类型偏好权重模型,输出用户的文档类型偏好权重。
在本实施例中,针对文档类型偏好权重模型的构建,参见图4,举例来说:
用户由于其自身所处的部门和职位,会在一定内容范围内搜索的文档,因此为了快速定位用户搜索范围,需要构建用户文档类型偏好模型。具体流程如下所示:
S11、首先采集用户历史搜索语句,用户日志行为特征以及用户最终选择的文档,构成原始数据。
S12、采用word2vec算法,将历史搜索语句转变成词向量,用fea_1(相当于f1)表示;抽象用户日志行为特征,生成新的数字特征,用fea_2(相当于f2)表示;对全部文档进行分类,分类后的文档类型用y(相当于y1)表示;将fea_1和fea_2进行拼接,形成新的特征x(相当于x1),(x,y)表示训练数据的特征和标签。
S13、采用XGBOOST算法,构建文档类型偏好权重模型,输出为文档类型的概率w1=(pro_1,pro_2,…,pro_m),m为文档类型数量,可作为对文档类型的偏爱程度,作为后续文档类型偏好。
由上面技术方案可知,本发明实施例提供的用于文档搜索的排序方法,基于用户历史搜索记录,生成文档类型偏好权重模型,可以在用户搜索时,快速定位用户的文档偏好,节省搜索范围。
在上述实施例基础上,在本实施例中,所述预设的文档内容预测模型为:将用户搜索语句、用户日志行为特征、与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将用户的搜索文档内容作为输出,通过机器学习训练得到的,用于对用户的搜索文档内容进行预测的模型,还包括:
将用户搜索语句变成词向量f3,将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档变成词向量f4,将用户日志行为特征变成数字特征f5;
基于词向量f3和词向量f4形成训练样本x2;
基于数字特征f5形成训练样本y2;
基于x2和y2,采用机器学习双向LSTM算法构建所述文档内容预测模型,输出用户的搜索文档内容。
在本实施例中,针对文档内容预测模型的构建,参见图5,举例来说:
基于循环神经网络(RNN)多对多模型,可以实现用户搜索内容和文档内容的一一对应,从而可以基于用户的搜索内容预测用户想要查阅的内容,为后续主题分布的构建提供文本。具体流程如下所示:
S21、首先采集用户历史搜索语句,用户日志行为特征以及用户最终选择的文档,构成原始数据。
S22、采用word2vec算法,分别将历史搜索语句和文档内容转变成词向量,用fea_1(相当于f3)和fea_2(相当于f4)表示;抽象用户日志行为特征,生成新的数字特征,用fea_3(相当于f5)表示。将fea_1和fea_3合并,生成输入x(相当于x2),fea_2为y(相当于y2),样本为(x,y),采用双向LSTM算法,进行文档内容预测,生成的内容用arti_pre表示。
由上面技术方案可知,本发明实施例提供的用于文档搜索的排序方法,构建用户文档内容预测模型,可根据用户的搜索词汇,生成想要的文档内容,在匹配历史文档时,内容信息更加充足。
在上述实施例基础上,在本实施例中,所述预设的文档主题预测模型为:将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将与所述用户选择文档对应的所选文档主题作为输出,通过机器学习训练得到的,用于对用户所选文档的主题进行预测的模型,还包括:
利用机器学习LDA算法构建所述文档主题预测模型,输出用户所选文档的主题。
在本实施例中,针对文档主题预测模型的构建,参见图6,举例来说:
用户搜索的每篇文档有其隐含的主题,且主题并不单一。因此可以采用LDA算法计算文档的主题,从而计算用户的主题偏好均值以及生成文档的主题偏好。LDA是一种三层贝叶斯模型,三层分别为:文档层、主题层和词汇层,其目的就是要识别主题,即把文档—词汇矩阵变成文档—主题矩阵和主题—词汇矩阵。基于该模型,文档的生成过程如下:
S31、对于文档集合M,从参数为β的Dirichlet分布中采样topic生成word的分布参数φ;
S32、对于每个M中的文档m,从参数为α的Dirichlet分布中采样doc对topic的分布参数θ;
S33、对于文档m中的第n个词语W_mn,先按照θ分布采样文档m的一个隐含的主题Z_m,再按照φ分布采样主题Z_m的一个词语W_mn。
生成的主题模型为model_c3,流程图如图6所示。
由上面技术方案可知,本发明实施例提供的用于文档搜索的排序方法,构建文档主题模型,从而实现在深度学习框架下,文档内容抽象化,节省相似度计算时间。
在上述实施例基础上,在本实施例中,所述预设的加权TF-IDF模型为:将与用户搜索语句对应的关键字作为输入数据,将与所述关键字对应的TF-IDF权重值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的TF-IDF权重值进行预测的模型,还包括:
在所述加权TF-IDF模型中对用户搜索语句进行切词处理和关键词提取处理,确定与用户搜索语句对应的关键字;
基于所述与用户搜索语句对应的关键字使用相关度算法计算所述关键字与搜索目标域之间的匹配程度;所述相关度算法包括检索词频率TF算法和方向文档频率IDF算法;
基于关键字与搜索目标域之间的匹配程度确定用户所选文档主题的TF-IDF权重值。
在本实施例中,参见图7,需要说明的是:
1、相关度算法应用:
使用相关度算法计算匹配度,即搜索关键字(query,q)与搜索目标域(field,f)之间的匹配程度。相关度中引入检索词频率TF和反向文档频率IDF两种方法。
检索词频率TF:
检索词出现的频率。出现频率越高,相关性也越高。
反向文档频率:
检索词在索引库中出现的频率。频率越高,相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。
其公式如下:
Figure BDA0003073904940000161
q表示文档集合d表示具体的文档t表示单词。
score(t,q,d)表示包含查询词t的文档d在文档集合q中的相关性得分。
2、标题加权应用:
标题加权,根据搜索词的位置和重要程度进行不同权重分值的计算,如文档的标题字段,在检索时增加权重计算得分。其权重分值如:标题>正文>附件名称。同时搜索的结果在排序时支撑按照起草时间降序排序。
设置搜索词初始权重,w1,w2,w3,分别表示在标题、正文以及附件中的重要性。根据后续搜索词在三者中出现的次数,进行迭代周期内权重更新,更新公式如下所示:
Figure BDA0003073904940000162
Figure BDA0003073904940000163
Figure BDA0003073904940000164
计算出词汇的权重,与该词汇的TF-IDF值相乘,作为带权重的TF-IDF值。
Scoreweight=score*wi (4)
由上面技术方案可知,本发明实施例提供的用于文档搜索的排序方法,基于标题加权的TF-IDF模型构建,从而高效输出待排序的文档。
在上述实施例基础上,在本实施例中,所述预设的聚类模型为:将与用户相关联的业务属性作为输入,将文档主题概率分布值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的概率分布值进行预测的模型;所述业务属性包括用户所属的部门、用户的职位职责和用户的业务权限,还包括:
根据标签特征数据用户所属的部门、用户的职位职责和用户的业务权限进行聚类,确定多个大类;
基于每个大类进行文档主题分布计算得到用户所选文档主题的概率分布值。
在本实施例中,参见图8,需要说明的是:
首先根据用户部门、职位岗位、业务权限等标签特征数据,通过处理及分析,提取特征,对用户进行聚类。聚类算法主要用K-means。其主要思想是选择K个点作为初始聚类中心,将每个对象分配到最近的中心形成K个簇,重新计算每个簇的中心,重复以上迭代步骤,直到簇不再变化或达到指定迭代次数为止。
其中最关键的就是K点的确定,作为初始中心点,它的选取,对聚类的结果影响很大。可以验证,不同初始中心点,会导致聚类的效果不同。在本次实现方案中,采用误差平法和评价聚类的结果好坏,其定义如下:
Figure BDA0003073904940000171
一般情况下,k越大,SSE越小。假设k=N=样本个数,那么每个点自成一类,那么每个类的中心点为这个类中的唯一一个点本身,那么SSE=0。
用户聚类之后,将同一个类的用所搜索的文档进行主题分布计算,得到均值w3,作为该大类用户对文档的偏好权重。
由上面技术方案可知,本发明实施例提供的用于文档搜索的排序方法,通过用户聚类生成大类主题分布,为后续相似相似度计算提供权重。
在上述各实施例基础上,需要说明的是,本发明实施例提供的用于文档搜索的排序方法,具有如下优点:
本发明可以较原有的排序技术更为适用于企业信息化***中的公文、工单、文档及应用的搜索,更为注重企业员工的数据权限及业务特征。
本发明所提供根据相关度排序的功能,搜索结果排序更为贴合企业员工的搜索需求,使应用者方便迅速定位查找的文件。
本发明结合人工智能能力,引入主题模型,循环神经网络,数据聚类等机器学习等技术,使搜索更为智能化,具备较强的学习能力,随着其准确性和智能化程度将会将会随着其使用时间积累而持续升级,不会因为企业信息化***中数据的不断增多而降低搜索结果排序的准确性。
图9为本发明一实施例提供的用于文档搜索的排序装置的结构示意图,如图9所示,该装置包括:获取模块201和排序模块202,其中:
其中,获取模块201,用于获取用户搜索语句;
排序模块202,用于基于所述用户搜索语句得到与所述用户搜索语句对应的文档搜索结果,并将所述文档搜索结果按预设第一模型确定的相似性结果进行排序;其中,所述预设第一模型包括预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的文档主题加权TF-IDF模型以及预设的聚类模型中的一种或多种;所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果;
所述文档类型偏好权重模型为:将用户搜索语句、用户日志行为特征、文档数据库中的全部文档作为输入,将用户的文档类型偏好权重作为输出,通过机器学习训练得到的,用于对用户的文档类型偏好进行预测的模型;
所述预设的文档内容预测模型为:将用户搜索语句、用户日志行为特征、与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将用户的搜索文档内容作为输出,通过机器学习训练得到的,用于对用户的搜索文档内容进行预测的模型;
所述预设的文档主题预测模型为:将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将与所述用户选择文档对应的所选文档主题作为输出,通过机器学习训练得到的,用于对用户所选文档的主题进行预测的模型;
所述预设的加权TF-IDF模型为:将与用户搜索语句对应的关键字作为输入数据,将与所述关键字对应的TF-IDF权重值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的TF-IDF权重值进行预测的模型;
预设的聚类模型为:将与用户相关联的业务属性作为输入,将文档主题概率分布值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的概率分布值进行预测的模型;所述业务属性包括用户所属的部门、用户的职位职责和用户的业务权限。
本发明实施例提供的用于文档搜索的排序装置具体可以用于执行上述实施例的用于文档搜索的排序方法,其技术原理和有益效果类似,具体可参见上述实施例,此处不再赘述。
基于相同的发明构思,本发明实施例提供一种电子设备,参见图10,电子设备具体包括如下内容:处理器301、通信接口303、存储器302和通信总线304;
其中,处理器301、通信接口303、存储器302通过通信总线304完成相互间的通信;通信接口303用于实现各建模软件及智能制造装备模块库等相关设备之间的信息传输;处理器301用于调用存储器302中的计算机程序,处理器执行计算机程序时实现上述各方法实施例所提供的方法,例如,处理器执行计算机程序时实现下述步骤:获取用户搜索语句;基于所述用户搜索语句得到与所述用户搜索语句对应的文档搜索结果,并将所述文档搜索结果按预设第一模型确定的相似性结果进行排序;其中,所述预设第一模型包括预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的文档主题加权TF-IDF模型以及预设的聚类模型中的一种或多种;所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果;所述文档类型偏好权重模型为:将用户搜索语句、用户日志行为特征、文档数据库中的全部文档作为输入,将用户的文档类型偏好权重作为输出,通过机器学习训练得到的,用于对用户的文档类型偏好进行预测的模型;所述预设的文档内容预测模型为:将用户搜索语句、用户日志行为特征、与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将用户的搜索文档内容作为输出,通过机器学习训练得到的,用于对用户的搜索文档内容进行预测的模型;所述预设的文档主题预测模型为:将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将与所述用户选择文档对应的所选文档主题作为输出,通过机器学习训练得到的,用于对用户所选文档的主题进行预测的模型;所述预设的加权TF-IDF模型为:将与用户搜索语句对应的关键字作为输入数据,将与所述关键字对应的TF-IDF权重值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的TF-IDF权重值进行预测的模型;所述预设的聚类模型为:将与用户相关联的业务属性作为输入,将文档主题概率分布值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的概率分布值进行预测的模型;所述业务属性包括用户所属的部门、用户的职位职责和用户的业务权限。
基于相同的发明构思,本发明又一实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法实施例提供的方法,例如,获取用户搜索语句;基于所述用户搜索语句得到与所述用户搜索语句对应的文档搜索结果,并将所述文档搜索结果按预设第一模型确定的相似性结果进行排序;其中,所述预设第一模型包括预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的文档主题加权TF-IDF模型以及预设的聚类模型中的一种或多种;所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果;所述文档类型偏好权重模型为:将用户搜索语句、用户日志行为特征、文档数据库中的全部文档作为输入,将用户的文档类型偏好权重作为输出,通过机器学习训练得到的,用于对用户的文档类型偏好进行预测的模型;所述预设的文档内容预测模型为:将用户搜索语句、用户日志行为特征、与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将用户的搜索文档内容作为输出,通过机器学习训练得到的,用于对用户的搜索文档内容进行预测的模型;所述预设的文档主题预测模型为:将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将与所述用户选择文档对应的所选文档主题作为输出,通过机器学习训练得到的,用于对用户所选文档的主题进行预测的模型;所述预设的加权TF-IDF模型为:将与用户搜索语句对应的关键字作为输入数据,将与所述关键字对应的TF-IDF权重值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的TF-IDF权重值进行预测的模型;所述预设的聚类模型为:将与用户相关联的业务属性作为输入,将文档主题概率分布值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的概率分布值进行预测的模型;所述业务属性包括用户所属的部门、用户的职位职责和用户的业务权限。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
此外,在本发明中,诸如“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用于文档搜索的排序方法,其特征在于,包括:
获取用户搜索语句;
基于所述用户搜索语句得到与所述用户搜索语句对应的文档搜索结果,并将所述文档搜索结果按预设第一模型确定的相似性结果进行排序;其中,所述预设第一模型包括预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的文档主题加权TF-IDF模型以及预设的聚类模型中的一种或多种;所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果;
所述文档类型偏好权重模型为:将用户搜索语句、用户日志行为特征、文档数据库中的全部文档作为输入,将用户的文档类型偏好权重作为输出,通过机器学习训练得到的,用于对用户的文档类型偏好进行预测的模型;
所述预设的文档内容预测模型为:将用户搜索语句、用户日志行为特征、与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将用户的搜索文档内容作为输出,通过机器学习训练得到的,用于对用户的搜索文档内容进行预测的模型;
所述预设的文档主题预测模型为:将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将与所述用户选择文档对应的所选文档主题作为输出,通过机器学习训练得到的,用于对用户所选文档的主题进行预测的模型;
所述预设的加权TF-IDF模型为:将与用户搜索语句对应的关键字作为输入数据,将与所述关键字对应的TF-IDF权重值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的TF-IDF权重值进行预测的模型;
所述预设的聚类模型为:将与用户相关联的业务属性作为输入,将文档主题概率分布值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的概率分布值进行预测的模型;所述业务属性包括用户所属的部门、用户的职位职责和用户的业务权限。
2.根据权利要求1所述的用于文档搜索的排序方法,其特征在于,所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果,具体包括:
所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果,采用余弦相似度算法确定相似性结果。
3.根据权利要求1所述的用于文档搜索的排序方法,其特征在于,所述文档类型偏好权重模型为:将用户搜索语句、用户日志行为特征、文档数据库中的全部文档作为输入,将用户的文档类型偏好权重作为输出,通过机器学习训练得到的,用于对用户的文档类型偏好进行预测的模型,还包括:
将用户搜索语句变成词向量f1,将用户日志行为特征变成数字向量f2,将文档数据库中的全部文档进行分类;
基于用户搜索语句变成的词向量f1和用户日志行为特征变成数字向量f2形成特征x1,作为训练数据的特征;
基于分类后的文档用y1表示,作为训练数据的标签;
基于x1和y1,采用机器学习XGBOOST算法构建所述文档类型偏好权重模型,输出用户的文档类型偏好权重。
4.根据权利要求1所述的用于文档搜索的排序方法,其特征在于,所述预设的文档内容预测模型为:将用户搜索语句、用户日志行为特征、与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将用户的搜索文档内容作为输出,通过机器学习训练得到的,用于对用户的搜索文档内容进行预测的模型,还包括:
将用户搜索语句变成词向量f3,将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档变成词向量f4,将用户日志行为特征变成数字特征f5;
基于词向量f3和词向量f4形成训练样本x2;
基于数字特征f5形成训练样本y2;
基于x2和y2,采用机器学习双向LSTM算法构建所述文档内容预测模型,输出用户的搜索文档内容。
5.根据权利要求1所述的用于文档搜索的排序方法,其特征在于,所述预设的文档主题预测模型为:将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将与所述用户选择文档对应的所选文档主题作为输出,通过机器学习训练得到的,用于对用户所选文档的主题进行预测的模型,还包括:
利用机器学习LDA算法构建所述文档主题预测模型,输出用户所选文档的主题。
6.根据权利要求1所述的用于文档搜索的排序方法,其特征在于,所述预设的加权TF-IDF模型为:将与用户搜索语句对应的关键字作为输入数据,将与所述关键字对应的TF-IDF权重值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的TF-IDF权重值进行预测的模型,还包括:
在所述加权TF-IDF模型中对用户搜索语句进行切词处理和关键词提取处理,确定与用户搜索语句对应的关键字;
基于所述与用户搜索语句对应的关键字使用相关度算法计算所述关键字与搜索目标域之间的匹配程度;所述相关度算法包括检索词频率TF算法和方向文档频率IDF算法;
基于关键字与搜索目标域之间的匹配程度确定用户所选文档主题的TF-IDF权重值。
7.根据权利要求5所述的用于文档搜索的排序方法,其特征在于,所述预设的聚类模型为:将与用户相关联的业务属性作为输入,将文档主题概率分布值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的概率分布值进行预测的模型;所述业务属性包括用户所属的部门、用户的职位职责和用户的业务权限,还包括:
根据标签特征数据用户所属的部门、用户的职位职责和用户的业务权限进行聚类,确定多个大类;
基于每个大类进行文档主题分布计算得到用户所选文档主题的概率分布值。
8.一种用于文档搜索的排序装置,其特征在于,包括:
获取模块,用于获取用户搜索语句;
排序模块,用于基于所述用户搜索语句得到与所述用户搜索语句对应的文档搜索结果,并将所述文档搜索结果按预设第一模型确定的相似性结果进行排序;其中,所述预设第一模型包括预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的文档主题加权TF-IDF模型以及预设的聚类模型中的一种或多种;所述预设第一模型基于预设的文档类型偏好权重模型、预设的文档内容预测模型、预设的文档主题预测模型、预设的加权TF-IDF模型以及预设的聚类模型中的一种或多种的输出结果确定相似性结果;
所述文档类型偏好权重模型为:将用户搜索语句、用户日志行为特征、文档数据库中的全部文档作为输入,将用户的文档类型偏好权重作为输出,通过机器学习训练得到的,用于对用户的文档类型偏好进行预测的模型;
所述预设的文档内容预测模型为:将用户搜索语句、用户日志行为特征、与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将用户的搜索文档内容作为输出,通过机器学习训练得到的,用于对用户的搜索文档内容进行预测的模型;
所述预设的文档主题预测模型为:将与所述用户历史搜索语句和所述用户日志行为特征对应的用户选择文档作为输入,将与所述用户选择文档对应的所选文档主题作为输出,通过机器学习训练得到的,用于对用户所选文档的主题进行预测的模型;
所述预设的加权TF-IDF模型为:将与用户搜索语句对应的关键字作为输入数据,将与所述关键字对应的TF-IDF权重值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的TF-IDF权重值进行预测的模型;
预设的聚类模型为:将与用户相关联的业务属性作为输入,将文档主题概率分布值作为输出,通过机器学习训练得到的,用于对用户所选文档主题的概率分布值进行预测的模型;所述业务属性包括用户所属的部门、用户的职位职责和用户的业务权限。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7任一项所述的用于文档搜索的排序方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~7任一项所述的用于文档搜索的排序方法。
CN202110546596.5A 2021-05-19 2021-05-19 用于文档搜索的排序方法、装置、电子介质及存储介质 Pending CN115391479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110546596.5A CN115391479A (zh) 2021-05-19 2021-05-19 用于文档搜索的排序方法、装置、电子介质及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110546596.5A CN115391479A (zh) 2021-05-19 2021-05-19 用于文档搜索的排序方法、装置、电子介质及存储介质

Publications (1)

Publication Number Publication Date
CN115391479A true CN115391479A (zh) 2022-11-25

Family

ID=84114382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110546596.5A Pending CN115391479A (zh) 2021-05-19 2021-05-19 用于文档搜索的排序方法、装置、电子介质及存储介质

Country Status (1)

Country Link
CN (1) CN115391479A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117331893A (zh) * 2023-09-20 2024-01-02 中移互联网有限公司 搜索方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117331893A (zh) * 2023-09-20 2024-01-02 中移互联网有限公司 搜索方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US11663254B2 (en) System and engine for seeded clustering of news events
Wei et al. A survey of faceted search
Popescul et al. Statistical relational learning for link prediction
US10002330B2 (en) Context based co-operative learning system and method for representing thematic relationships
US7289985B2 (en) Enhanced document retrieval
US20070174320A1 (en) Method and system for generating a concept-based keyword function, search engine applying the same, and method for calculating keyword correlation values
US10747759B2 (en) System and method for conducting a textual data search
CN105045875A (zh) 个性化信息检索方法及装置
CN110968800A (zh) 一种信息推荐方法、装置、电子设备及可读存储介质
Thushara et al. A model for auto-tagging of research papers based on keyphrase extraction methods
CA2956627A1 (en) System and engine for seeded clustering of news events
Muangprathub et al. Document plagiarism detection using a new concept similarity in formal concept analysis
WO2011022867A1 (en) Method and apparatus for searching electronic documents
KR20100023630A (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
Suganya et al. Firefly optimization algorithm based web scraping for web citation extraction
Peng et al. Sc-gat: Web services classification based on graph attention network
Adek et al. Online newspaper clustering in Aceh using the agglomerative hierarchical clustering method
Park et al. Automatic extraction of user’s search intention from web search logs
CN115391479A (zh) 用于文档搜索的排序方法、装置、电子介质及存储介质
Manohar et al. Composite analysis of web pages in adaptive environment through Modified Salp Swarm algorithm to rank the web pages
Baker et al. A novel web ranking algorithm based on pages multi-attribute
Boddu et al. Knowledge discovery and retrieval on World Wide Web using web structure mining
Li et al. Research on hot news discovery model based on user interest and topic discovery
Srivastava et al. Redundancy and coverage aware enriched dragonfly-FL single document summarization
Xie et al. Embedding based personalized new paper recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination