CN107818092B

CN107818092B - 文档处理方法及装置

Info

Publication number: CN107818092B
Application number: CN201610816275.1A
Authority: CN
Inventors: 薛璐影; 姚源林; 曹羽; 梁方明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-09-12
Filing date: 2016-09-12
Publication date: 2023-05-26
Anticipated expiration: 2036-09-12
Also published as: CN107818092A

Abstract

本发明提供一种文档处理方法和装置。其中所述方法包括：对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；挖掘所述文档泛需求查询请求对应的至少一个目标标签；根据所述文档泛需求查询请求和各所述目标标签，挂载对应的文档，以在收到包括所述文档泛需求查询请求和所述目标标签对应的查询请求时，展示对应的所述文档。通过采用本发明的技术方案，能够使得互联网公司的文库资源被有效地展现，从而在文档查询请求时可以获取到更多的文档查询结果，也能够有效地提高文档查询的效果。

Description

文档处理方法及装置

【技术领域】

本发明涉及文库管理技术领域，尤其涉及一种文档处理方法及装置。

【背景技术】

随着互联网的迅猛发展，为人们的生活以及工作提供了极大地便利。例如人们在工作中，遇到任何疑问，可以通过互联网查询相关资料，以学习相关知识，掌握相关技能。

现有技术中，为了更加有效地向用户提供各种资料，很多互联网服务商的服务器可以通过互联网向用户提供各种文档，例如当用户想要学习某方面资料，通过输入某关键词的查询请求，可以从查询结果列表中点击文档类的结果，并点击查阅。现有技术中的文档可以为word格式、PDF格式，或者txt之类的文本格式等等。现有技术中，互联网服务商的服务器加载新的文档之后，直接挂载显示该文档。当用户的文档查询请求命中该文档的名称时，才可以在查询结果中展示该文档。

但是，现有技术中的文档处理方式，只有当文档查询请求命中该文档的名称时，才能在查询结果中展示该文档，导致文档查询请求对应的查询结果所展示的文档数量有限，文档资源无法被有效地展现。

【发明内容】

本发明提供了一种文档处理方法和装置，用于提高文档资源的展现效果。

本发明提供一种文档处理方法，所述方法包括：

对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；

挖掘所述文档泛需求查询请求对应的至少一个目标标签；

根据所述文档泛需求查询请求和各所述目标标签，挂载对应的文档，以在收到包括所述文档泛需求查询请求和所述目标标签对应的查询请求时，展示对应的所述文档。

进一步可选地，上述所述方法中，挖掘所述文档泛需求查询请求对应的至少一个目标标签，具体包括：

挖掘所述文档泛需求查询请求对应的至少一个候选标签；

对所述文档泛需求查询请求对应的所述至少一个候选标签进行校验，保留所述至少一个目标标签。

进一步可选地，上述所述方法中，挖掘所述文档泛需求查询请求对应的至少一个候选标签，具体包括：

根据文库中的全量词典资源，获取多个第一初始标签；

根据语料候选集，标注各所述第一初始标签在所述文档泛需求查询请求中的方向信息，并获取各所述第一初始标签的特征信息；

根据各所述第一初始标签的特征信息以及对应的所述方向信息，对所述第一初始标签打分，得到各个所述第一初始标签的分值；

根据各所述第一初始标签的分值，从多个所述第一初始标签中获取所述至少一个候选标签。

从语料候选集中挖掘多个第二初始标签、各所述第二初始标签的特征信息以及各所述第二初始标签在所述文档泛需求查询请求中的方向信息；

根据各所述第二初始标签的特征信息以及对应的所述方向信息，对所述第二初始标签打分，得到各个所述第二初始标签的分值；

根据各所述第二初始标签的分值，从多个所述第二初始标签中获取所述至少一个候选标签。

根据文库中的全量词典资源，获取多个第一初始标签；

根据各个所述第一初始标签的分值和权值、以及各所述第二初始标签的分值和权值，分别计算各所述第一初始标签和各第二初始标签的最终分值；

根据各所述第一初始标签的最终分值和各所述第二初始标签的最终分值，从多个所述第一初始标签和多个所述第二初始标签中获取所述至少一个候选标签。

进一步可选地，上述所述方法中，对多个历史文档查询请求进行泛化，得到文档泛需求查询请求之后，挖掘所述文档泛需求查询请求对应的至少一个候选标签之前，所述方法还包括：

根据所述多个历史文档查询请求和所述文档泛需求查询请求，生成语料候选集。

进一步可选地，上述所述方法中，所述特征信息包括词性信息、共现信息、与所述文档泛需求查询请求的距离信息以及与所述文档泛需求查询请求的标点间隔信息中的至少一个。

进一步可选地，上述所述方法中，根据所述多个历史文档查询请求和所述文档泛需求查询请求，生成语料候选集，具体包括：

根据所述多个历史文档查询请求、所述文档泛需求查询请求对应的文库站内检索的第一标题、所述文档泛需求查询请求对应的相关查询请求以及各所述历史文档查询请求对应的用户点击的各个第二标题，生成所述语料候选集。

进一步可选地，上述所述方法中，对多个历史文档查询请求进行泛化，得到文档泛需求查询请求，具体包括：

根据各所述历史文档查询请求的长度、搜索次数、是否包括其他文档查询请求以及文档查询结果的URL被点击的次数，对所述多个历史文档查询请求进行泛化，得到所述文档泛需求查询请求。

本发明还提供一种文档处理装置，所述装置包括：

泛化模块，用于对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；

挖掘模块，用于挖掘所述文档泛需求查询请求对应的至少一个目标标签；

挂载模块，根据所述文档泛需求查询请求和各所述目标标签，挂载对应的文档，以在收到包括所述文档泛需求查询请求和所述目标标签对应的查询请求时，展示对应的所述文档。

进一步可选地，上述所述装置中，挖掘模块，具体包括：

挖掘单元，用于挖掘所述文档泛需求查询请求对应的至少一个候选标签；

校验单元，用于对所述文档泛需求查询请求对应的所述至少一个候选标签进行校验，保留所述至少一个目标标签。

进一步可选地，上述所述装置中，所述挖掘单元，具体用于：

根据文库中的全量词典资源，获取多个第一初始标签；

根据累加处理后的各所述第一初始标签的最终分值和各所述第二初始标签的最终分值，从多个所述第一初始标签和多个所述第二初始标签中获取所述至少一个候选标签。

进一步可选地，上述所述装置中，所述装置还包括：

生成模块，具体用于根据所述多个历史文档查询请求和所述文档泛需求查询请求，生成语料候选集。

进一步可选地，上述所述装置中，所述特征信息包括词性信息、共现信息、与所述文档泛需求查询请求的距离信息以及与所述文档泛需求查询请求的标点间隔信息中的至少一个。

进一步可选地，上述所述装置中，所述生成模块，具体用于：

进一步可选地，上述所述装置中，所述泛化模块，具体用于：

根据各所述历史文档查询请求的长度、搜索次数、是否包括其他文档查询请求以及文档查询结果的URL被点击的次数，对所述多个历史文档查询请求进行泛化，得到所述文档泛需求查询请求。，

本发明的文档处理方法和装置，通过对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；挖掘所述文档泛需求查询请求对应的至少一个目标标签；根据所述文档泛需求查询请求和各所述目标标签，挂载对应的文档，以在收到包括所述文档泛需求查询请求和所述目标标签对应的查询请求时，展示对应的所述文档，能够使得互联网公司的文库资源被有效地展现，从而在文档查询请求时可以获取到更多的文档查询结果，也能够有效地提高文档查询的效果。

【附图说明】

图1为本发明的文档处理方法实施例的流程图。

图2为本发明的文档处理装置实施例一的结构图。

图3为本发明的文档处理装置实施例二的结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的文档处理方法实施例的流程图。如图1所示，本实施例的文档处理方法，具体可以包括如下步骤：

100、对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；

101、挖掘文档泛需求查询请求对应的至少一个目标tag；

102、根据文档泛需求查询请求和各目标tag，挂载对应的文档，以在收到包括文档泛需求查询请求和该目标tag对应的查询请求时，展示对应的文档。

本实施例的文档处理方法的执行主体可以为文档处理装置，该文档处理装置具体可以设置在互联网服务商的服务器中，用于对该互联网服务商提供的文档库中的文档资源进行管理。本实施例的多个历史文档查询请求，并不是随意选取的没有任何关联的历史文档查询请求，例如，本实施例的多个历史文档查询请求，可以均包括“工作”和“总结”；或者均包括“英语”和“作文”之类的关键词，即多个历史文档查询请求中必须包括有共同的字符串。这样，通过对多个历史文档查询请求进行挖掘，可以挖掘出这一类相似的查询请求如文档泛需求查询请求，例如本实施例中的文档泛需求查询请求可以为“工作总结”或者“英语作文”之类的。然后进一步地，还可以挖掘文档泛需求查询请求对应的至少一个目标tag，各目标tag用于进一步限定文档泛需求查询请求，从而获取进一步更加明确的查询结果。例如，对于文档泛需求查询请求为“工作总结”，对应的目标tag可以为“个人”、“教师”或者“年终”等等之类的词语。对于文档泛需求查询请求为“英语作文”，对应的目标tag可以为“中学生”、“大学生”或者“考研”等等之类的词语。最后，根据文档泛需求查询请求和各目标tag，挂载对应的文档。例如对于title或者摘要中能够体现“工作总结”和“个人”的文档挂载在文档泛需求查询请求为“工作总结”和目标tag为“个人”的下方，这样当收到包括“工作总结”和“个人”的查询请求时，可以展示挂载在文档泛需求查询请求为“工作总结”和目标tag为“个人”的下的所有文档。根据上述方式，可以根据文档泛需求查询请求和各目标tag，挂载文档泛需求查询请求和该目标tag对应的文档，以在文档处理装置收到包括文档泛需求查询请求和该目标tag对应的查询请求时，展示对应的文档。

例如，某互联网公司包括搜索引擎以及文库等产品线。而根据搜索引擎搜索文档时，搜索结果中并不能充分覆盖该互联网公司的文库内的所有文档，即该互联网公司的文库中的文档资源没有被有效地展现。通过采用本实施例的技术方案，通过由该互联网公司的服务器中的文档处理装置通过对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；并挖掘文档泛需求查询请求对应的至少一个目标tag；最后根据文档泛需求查询请求和各目标tag，将该文库中的文档根据核心词进行挂载和展示，能够使得该互联网公司的文库资源被有效地展现，从而在文档查询请求时可以获取到更多的文档查询结果，也能够有效地提高文档查询的效果。

本实施例的文档处理方法，通过对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；挖掘文档泛需求查询请求对应的至少一个目标tag；根据文档泛需求查询请求和各目标tag，挂载对应的文档，以在收到包括文档泛需求查询请求和该目标tag对应的查询请求时，展示对应的文档，能够使得互联网公司的文库资源被有效地展现，从而在文档查询请求时可以获取到更多的文档查询结果，也能够有效地提高文档查询的效果。

进一步可选地，上述实施例中的步骤101“挖掘文档泛需求查询请求对应的至少一个目标tag”，具体可以包括如下步骤：

(a1)挖掘文档泛需求查询请求对应的至少一个候选tag；

(a2)对文档泛需求查询请求对应的至少一个候选tag进行校验，保留至少一个目标tag。

本实施例中对文档泛需求查询请求对应的至少一个候选tag进行校验，主要是验证所挖掘的文档泛需求查询请求和各候选tag是否符合预期。例如可以从以下两个方面着手进行校验：一是内容校验，即根据该文档泛需求查询请求和对应候选tag在文库中搜索待挂载的文档，检测并计算待挂载的文档的内容与该候选tag的相关性；具体可以从该文档的题目、摘要以及一些相关关键词来检测该待挂载的文档的内容与该候选tag的相关性。若该相关性小于对应的相关性阈值，则表示对应的候选tag下没有要挂载的文档或者要挂载的文档相关性较弱，则表示该候选tag不能很好地对文档泛需求查询请求进行扩展，可以删除；二是搜索校验，即根据文档泛需求查询请求和各候选tag的组合，在文库中搜索的搜索结果的首页排位中，是否有文库中文档类站点的URL的结果，如果有，则表示该文档泛需求查询请求和该候选tag，是符合文档泛需求查询请求的候选tag扩展需求的，否则，会对相应的候选tag进行删除；而保留至少一个目标tag。其中文库中文档类站点的URL是预先对文库中所有文档类站点的URL进行统计获取到的，为了便于使用，可以将统计的该文档类站点的所有URL放在一个文档类站点的URL列表中。

进一步可选地，在上述实施例的技术方案的基础上，步骤100“对多个历史文档查询请求进行泛化，得到文档泛需求查询请求”，具体可以包括：

根据各历史文档查询请求的长度、搜索次数、是否包括其他文档查询请求以及文档查询结果的URL被点击的次数，对多个历史文档查询请求进行泛化，得到文档泛需求查询请求。

具体地，历史文档查询请求的长度的越短，历史文档查询请求越没有指向性，例如“总结”，单独构不成文档泛需求查询请求。历史文档查询请求的搜索次数越高，表示该历史文档查询请求对文档泛需求查询请求的贡献越大。历史文档查询请求若包括其他文档查询请求，则表示该历史文档查询请求不是最小的文档查询请求单元，对文档泛需求查询请求的贡献较小，而可以根据其所包括的文档查询请求去获取文档泛需求查询请求。历史文档查询请求的文档查询结果的URL被点击的次数越多，标识该历史文档查询结果覆盖面越广，则该历史文档查询结果对文档泛需求查询请求的贡献越大。因此可以综合考虑各历史文档查询请求的长度、搜索次数、是否包括其他文档查询请求以及文档查询结果的URL被点击的次数，对多个历史文档查询请求进行泛化，得到文档泛需求查询请求。该文档泛需求查询请求的查询结果可以覆盖多个历史文档查询请求的查询结果。

步骤100“对多个历史文档查询请求进行泛化，得到文档泛需求查询请求”之后，步骤101“挖掘文档泛需求查询请求对应的至少一个候选tag”之前，还可以包括：根据多个历史文档查询请求和文档泛需求查询请求，生成语料候选集。

例如，该步骤具体可以包括：根据多个历史文档查询请求、文档泛需求查询请求对应的文库站内检索的第一标题(title)、文档泛需求查询请求对应的相关查询请求以及各历史文档查询请求对应的用户点击的各个第二title，生成语料候选集。

由于后续候选tag的获取需要根据语料候选集中的候选语料来挖掘，为了使得挖掘出来的候选tag的覆盖面更广，本实施例中通过丰富语料候选集中的候选语料来实现。具体地，该语料候选集中包括的候选语料可以包括四方面的内容：各历史文档查询请求、文档泛需求查询请求对应的文库站内检索的第一title、文档泛需求查询请求对应的相关查询请求以及各历史文档查询请求对应的用户点击的各个第二title。其中文档泛需求查询请求对应的文库站内检索的第一title，为文档处理装置根据该文档泛需求查询请求在文库站内检索，从检索结果中获取检索到的各个文档的title。各历史文档查询请求对应的用户点击的各个第二title，具体为用户在使用历史文档查询请求查询文档时，在查询结果中点击的各个title。对于文档泛需求查询请求对应的相关查询请求，具体地，在搜索引擎中，根据每一个query可以衍生出很多相关的query，本实施例中的相关查询请求即为根据文档泛需求查询请求衍生的。将上述四方面的信息收集起来，作为候选语料，可以生成语料候选集。本实施例生成的语料候选集不仅仅包括各历史文档查询请求，还根据历史文档查询请求获取文档泛需求查询请求对应的文库站内检索的第一title、文档泛需求查询请求对应的相关查询请求以及各历史文档查询请求对应的用户点击的各个第二title，丰富了语料候选集的候选语料的内容，保证了根据语料候选集挖掘出来的候选tag具有更广泛的适用性，从而保证目标tag具有更广泛的适用性。

进一步可选地，在上述实施例的技术方案的基础上，步骤100“对多个历史文档查询请求进行泛化，得到文档泛需求查询请求”之前，还可以包括步骤：获取多个历史文档查询请求。该步骤“获取多个历史文档查询请求”，具体可以包括如下步骤：

(b1)获取多个历史查询请求和各历史查询请求对应的点击URL信息；

(b2)根据预设的文档类站点的URL列表和各历史查询请求对应的点击URL信息，从多个历史查询请求中识别出多个历史文档查询请求。

具体地，由于用户在搜索引擎中查询时，并没有指定该查询请求是否为文档类查询请求，需要文档处理装置对历史查询请求进行分析，从中找出历史文档查询请求。首先，由于互联网的服务器中的文库是固定的，因此对应的文档类站点的URL是确定，可以将统计该文档类站点的所有URL，并构成一个文档类站点的URL列表，即其中的各个URL都是文档。如果哪个查询请求对应的查询节结果中被点击的URL在该URL列表中，则对应的查询请求为文档类查询请求。具体地，获取多个历史查询请求和各历史查询请求对应的点击URL信息；此时，多个历史查询请求中哪些为文档类查询请求，哪些为非文档类查询请求还不确定。然后，判断各历史查询请求对应的点击URL信息是否为预设的文档类站点的URL列表中的URL，如果是，则该历史查询请求为历史文档查询请求，否则该历史查询请求为历史非文档查询请求。这样，可以从多个历史查询请求中识别出多个历史文档查询请求。

进一步可选地，在上述实施例的技术方案的基础上，步骤(a1)“挖掘文档泛需求查询请求对应的至少一个候选tag”，具体可以包括如下三种情况中任一种：

第一种情况、具体可以包括如下步骤：

(c1)根据文库中的全量词典资源，获取多个第一初始tag；

本实施例的至少一个候选tag的挖掘是基于词典进行的。本实施例的词典可以为基于文库类全量资源的G-gram的自然语言处理模型统计的词典，在该词典中，统计各个词的词频。首先，可以根据文库中的全量词典资源，从该词典筛选出高频词以及短语作为第一初始tag，

进一步可选地，为了丰富第一初始tag的内容，本实施例中还可以基于word2vec对第一初始tag进行扩展，得到更多的第一初始tag。

(c2)根据语料候选集，标注各第一初始tag在文档泛需求查询请求中的方向信息，并获取各第一初始tag的特征信息；

具体地，可以根据上述实施例中获取的语料候选集中包括的四方面的候选语料，标注各第一初始tag在文档泛需求查询请求中的方向信息，例如若文档泛需求查询请求为“工作总结”，对应的第一初始tag为“个人”、“学生”或者“教师”等之类时，此时根据语料候选集中包括的候选语料，可以确定词类的第一初始tag在文档泛需求查询请求中的方向信息为在文档泛需求查询请求的前方，可以称为第一初始tag前向扩展。而对于第一初始tag为“模板”或者“范文”之类时，此时根据语料候选集中包括的候选语料，可以确定词类的第一初始tag在文档泛需求查询请求中的方向信息为在文档泛需求查询请求的后方，可以称为第一初始tag后向扩展。有些特殊情况下，第一初始tag还可以独立，此时为独立tag，此时第一初始tag可以为***扩展，如文档泛需求查询请求为“个人简历”，第一初始tag为“实习”，在文档泛需求查询请求中***第一初始tag后的文档查询请求为“个人实习简历”，此时对应的***扩展的第一初始tag可以为独立tag。这样，每一个第一初始tag在文档泛需求查询请求中的方向信息可以包括有：前向、后向以及独立，同时标注的方向信息中还包括有语料候选集中包括有第一初始tag和文档泛需求查询请求的文档查询请求中，第一初始tag在文档泛需求查询请求的前向的数量、后向的数量以及第一初始tag为独立tag的数量。即每一个第一初始tag的方向信息包括:根据语料候选集，确定的各第一初始tag在文档泛需求查询请求的前向以及相应的数量、各第一初始tag在文档泛需求查询请求的后向以及相应的数量、各第一初始tag与文档泛需求查询请求相对独立以及相应的数量。其中方向信息中第一初始tag为独立时，表示该第一初始tag较为通用，适用性最广。

同时，根据语料候选集中的候选语料，获取各第一初始tag的特征信息；例如第一初始tag的特征信息包括第一初始tag词性信息、第一初始tag的共现信息、第一初始tag与文档泛需求查询请求的距离信息以及第一初始tag与文档泛需求查询请求的标点间隔信息中的至少一个。

本实施例的第一初始tag的词性信息具体指的是第一初始tag是动词、名词、形容词或者副词等等。本实施例的第一初始tag的共现信息具体指的是第一初始tag通常一起出现的词，本实施例中可以根据该第一初始tag在候选语料集中获取共现频率超出预设阈值的词作为该第一初始tag的共现词，若某第一初始tag不存在共现频率超出预设阈值的词，可以认为该第一初始tag不存在共现信息。第一初始tag与文档泛需求查询请求的距离信息具体指的是与文档泛需求查询请求的字符间距。由于候选语料集中的各种候选语料未必均包括该文档泛需求查询请求，本实施例中，可以仅从包括该文档泛需求查询请求和第一初始tag的候选语料中获取第一初始tag与文档泛需求查询请求的距离信息，且所有的包括该文档泛需求查询请求和第一初始tag的候选语料中，该距离信息也未必完全相同。第一初始tag与文档泛需求查询请求的标点间隔信息具体指的是，根据候选语料集中的各个候选语料，判断包括该文档泛需求查询请求和第一初始tag的候选语料中第一初始tag与文档泛需求查询请求的标点间隔信息，例如第一初始tag与文档泛需求查询请求之间存在某些标点符号，该标点符号可以作为第一初始tag与文档泛需求查询请求之间的标点间隔信息。当然，候选语料集中的各个候选语料中包括的标点间隔信息也可以为多种。

(c3)根据各第一初始tag的特征信息以及对应的方向信息，对第一初始tag打分，得到各个第一初始tag的分值；

具体地，由于候选语料集中第一初始tag的词性可能多于一种，根据第一初始tag的特征信息中的词性来给第一初始tag打分时，可以将词性频率较高的第一初始tag打较高的分值，而词性频率较低的第一初始tag打较低的分值。

同理，将共现信息频率较高的第一初始tag打较高的分值，而共现信息频率较低的第一初始tag打较低的分值。将频率较高的距离信息对应的第一初始tag打较高的分值，频率较低的距离信息对应的第一初始tag打较低的分值。将频率较高的标点间隔信息对应的第一初始tag打较高的分值，频率较低的标点间隔信息对应的第一初始tag打较低的分值。对于各第一初始tag的方向信息，当该第一初始tag为独立的数量较多，而该第一初始tag为前向或者后向的数量较少时，该第一初始tag的分值可以打的越高，而当该第一初始tag为独立的数量较少，第一初始tag为前向或者后向的数量较多时，该第一初始tag的分值可以打的越低。

基于上述第一初始tag的各个特征信息以及对应的方向信息对第一初始tag打分的分值的影响，可以综合考虑上述第一初始tag的各个特征信息以及对应的方向信息，并结合各个特征信息或者方向信息的权重，为各个第一初始tag的打分，得到对应的分值。(c4)根据各第一初始tag的分值，从多个第一初始tag中获取至少一个候选tag。

例如，具体地，可以根据各个第一初始tag的分值，将各个第一初始tag排序，然后按照分值由大到小的顺序，从中取出至少一个候选tag。

第二种情况、具体可以包括如下步骤：

(d1)从语料候选集中挖掘多个第二初始tag、各第二初始tag的特征信息以及各第二初始tag在文档泛需求查询请求中的方向信息；

本实施例的方案与上述第一种情况的方案的区别在于，本实施例的技术方案中是基于预料候选集来挖掘初始tag，此次称为第二初始tag。各第二初始tag的特征信息以及各第二初始tag在文档泛需求查询请求中的方向信息，可以参考上述各第一初始tag的特征信息以及各第一初始tag在文档泛需求查询请求中的方向信息，在此不再赘述。

(d2)根据各第二初始tag的特征信息以及对应的方向信息，对第二初始tag打分，得到各个第二初始tag的分值；

同理，参考步骤(c3)的实现方式，可以获取到各个第二初始tag的分值，详细可以参考上述步骤(c3)的记载，在此不再赘述。

(d3)根据各第二初始tag的分值，从多个第二初始tag中获取至少一个候选tag。

同理，可以根据各个第二初始tag的分值，将各个第二初始tag排序，然后按照分值由大到小的顺序，从中取出至少一个候选tag。

第三种情况获取到的候选tag是基于上述第一种情况和第二种情况进行候选tag的挖掘。具体地将第一种情况得到的候选tag和第二种情况得到的候选tag综合考虑来获取的。具体地，第三种情况、具体可以包括如下步骤：

(e1)根据文库中的全量词典资源，获取多个第一初始tag以及各第一初始tag的特征信息；

(e2)根据语料候选集，标注各第一初始tag在文档泛需求查询请求中的方向信息，并获取各第一初始tag的特征信息；

(e3)根据各第一初始tag的特征信息以及对应的方向信息，对第一初始tag打分，得到各个第一初始tag的分值；

本实施例的步骤(e1)-(e3)可以参考上述实施例中的步骤(c1)-(c3)，在此不再赘述。

(e4)从语料候选集中挖掘多个第二初始tag、各第二初始tag的特征信息以及各第二初始tag在文档泛需求查询请求中的方向信息；

(e5)根据各第二初始tag的特征信息以及对应的方向信息，对第二初始tag打分，得到各个第二初始tag的分值；

本实施例的步骤(e4)-(e5)可以参考上述实施例中的步骤(d1)-(d2)，在此不再赘述。

本实施例的多个第一初始tag和多个第二初始tag中可以存在相同的tag。(e6)根据各个第一初始tag的分值和权值、以及各第二初始tag的分值和权值，分别计算各第一初始tag和各第二初始tag的最终分值；

本实施例中的第一初始tag和第二初始tag挖掘时所选择的数据源不一样，两种方案互补。本实施例的技术方案，可以将上述第一种情况和第二种情况综合来考虑。其中各第一初始tag的权值以及各第二初始tag的权值，可以分别根据两种挖掘方式的重要性来设置。然后根据各个第一初始tag的分值和权值、以及各第二初始tag的分值和权值，将第一初始tag等于第二初始tag的tag合并为一个，将对应的分值按照权值进行累加处理。例如，第一初始tag1的分值为3，权值为0.4；第二初始tag2的分值为7，权值为0.6，且第一初始tag1等于第二初始tag2，将第一初始tag1和第二初始tag2合为一个，如合为第一初始tag1，此时第一初始tag1的最终分值为3*0.4+7*0.6。而对于第一初始tag不等于第二初始tag的tag，例如第一初始tag和第二初始tag的最终分值分别为对应的分值乘以权值。

(e7)根据各第一初始tag的最终分值和各第二初始tag的最终分值，从多个第一初始tag和多个第二初始tag中获取至少一个候选tag。

同理，可以根据各第一初始tag的最终分值和各个第二初始tag的最终分值，将各个第一初始tag和各个第二初始tag进行综合排序，然后按照分值由大到小的顺序，从中取出至少一个候选tag。本实施例的文档处理方法，通过采用上述技术方案，能够使得互联网公司的文库资源被有效地展现，从而在文档查询请求时可以获取到更多的文档查询结果，也能够有效地提高文档查询的效果。

图2为本发明的文档处理装置实施例一的结构图。如图2所示，本实施例的文档处理装置，具体可以包括：泛化模块10、挖掘模块11和挂载模块12。

其中泛化模块10用于对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；挖掘模块11用于挖掘泛化模块10泛化的文档泛需求查询请求对应的至少一个目标tag；挂载模块12根据泛化模块10泛化的文档泛需求查询请求和挖掘模块11挖掘的各目标tag，挂载对应的文档，以在收到包括文档泛需求查询请求和该目标tag对应的查询请求时，展示对应的文档。

本实施例的文档处理装置，通过采用上述模块实现文档处理的实现机制以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图3为本发明的文档处理装置实施例二的结构图。如图3所示，本实施例的文档处理装置，在上述图2所示实施例的技术方案的基础上，进一步包括如下技术方案。

如图3所示，本实施例的文档处理装置中，挖掘模块11具体包括：

挖掘单元111用于挖掘泛化模块10泛化的文档泛需求查询请求对应的至少一个候选tag；

校验单元112用于对挖掘单元111挖掘的文档泛需求查询请求对应的至少一个候选tag进行校验，保留至少一个目标tag。

进一步可选地，本实施例的文档处理装置中，挖掘单元111具体可以包括有如下三种工作方式中任一种。第一种工作方式中，挖掘单元111具体用于：

根据文库中的全量词典资源，获取多个第一初始tag；

根据语料候选集，标注各第一初始tag在泛化模块10泛化的文档泛需求查询请求中的方向信息，并获取各第一初始tag的特征信息；

根据各第一初始tag的特征信息以及对应的方向信息，对第一初始tag打分，得到各个第一初始tag的分值；

根据各第一初始tag的分值，从多个第一初始tag中获取至少一个候选tag。

进一步可选地，第二种工作方式中，挖掘单元111具体用于：

从语料候选集中挖掘多个第二初始tag、各第二初始tag的特征信息以及各第二初始tag在泛化模块10泛化的文档泛需求查询请求中的方向信息；

根据各第二初始tag的特征信息以及对应的方向信息，对第二初始tag打分，得到各个第二初始tag的分值；

根据各第二初始tag的分值，从多个第二初始tag中获取至少一个候选tag。

进一步可选地，第三种工作方式中，挖掘单元111具体用于：

根据文库中的全量词典资源，获取多个第一初始tag；

从语料候选集中挖掘多个第二初始tag、各第二初始tag的特征信息以及各第二初始tag在文档泛需求查询请求中的方向信息；

根据各个第一初始tag的分值和权值、以及各第二初始tag的分值和权值，将各第一初始tag和各第二初始tag的最终分值；

根据各第一初始tag的最终分值和各第二初始tag的最终分值，从多个第一初始tag和多个第二初始tag中获取至少一个候选tag。

进一步可选地，如图3所示，本实施例的文档处理装置中，还包括：

生成模块12具体用于根据多个历史文档查询请求和泛化模块10泛化的文档泛需求查询请求，生成语料候选集。

进一步可选地，本实施例的文档处理装置中，上述的特征信息包括词性信息、共现信息、与文档泛需求查询请求的距离信息以及与文档泛需求查询请求的标点间隔信息中的至少一个。

进一步可选地，本实施例的文档处理装置中，生成模块12具体用于根据多个历史文档查询请求、文档泛需求查询请求对应的文库站内检索的第一标题、文档泛需求查询请求对应的相关查询请求以及各历史文档查询请求对应的用户点击的各个第二标题，生成语料候选集。

进一步可选地，本实施例的文档处理装置中，泛化模块10具体用于根据各历史文档查询请求的长度、搜索次数、是否包括其他文档查询请求以及文档查询结果的URL被点击的次数，对多个历史文档查询请求进行泛化，得到文档泛需求查询请求。

进一步可选地，如图3所示，本实施例的文档处理装置中，还包括获取模块13。

获取模块13用于获取多个历史文档查询请求。此时对应地，生成模块12具体用于根据获取模块13获取的多个历史文档查询请求和泛化模块10泛化的文档泛需求查询请求，生成语料候选集。

进一步可选地，本实施例的文档处理装置中，获取模块13具体用于：

获取多个历史查询请求和各历史查询请求对应的点击URL信息；

根据预设的文档类站点的URL列表和各历史查询请求对应的点击URL信息，从多个历史查询请求中识别出多个历史文档查询请求。

本实施例的文档处理装置，通过采用上述模块实现文档处理的实现机制以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文档处理方法，其特征在于，所述方法包括：

对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；所述多个历史文档查询请求包括有共同的字符串；

挖掘所述文档泛需求查询请求对应的至少一个目标标签；

根据所述文档泛需求查询请求和各所述目标标签，挂载对应的文档，以在收到包括所述文档泛需求查询请求和所述目标标签对应的查询请求时，展示对应的所述文档；

挖掘所述文档泛需求查询请求对应的至少一个目标标签，具体包括：

挖掘所述文档泛需求查询请求对应的至少一个候选标签；

对所述文档泛需求查询请求对应的所述至少一个候选标签进行内容校验和搜索校验，保留所述至少一个目标标签。

2.根据权利要求1所述的方法，其特征在于，挖掘所述文档泛需求查询请求对应的至少一个候选标签，具体包括：

根据文库中的全量词典资源，获取多个第一初始标签；

3.根据权利要求1所述的方法，其特征在于，挖掘所述文档泛需求查询请求对应的至少一个候选标签，具体包括：

4.根据权利要求1所述的方法，其特征在于，挖掘所述文档泛需求查询请求对应的至少一个候选标签，具体包括：

根据文库中的全量词典资源，获取多个第一初始标签；

5.根据权利要求2-4任一所述的方法，其特征在于，对多个历史文档查询请求进行泛化，得到文档泛需求查询请求之后，挖掘所述文档泛需求查询请求对应的至少一个候选标签之前，所述方法还包括：

6.根据权利要求2-4任一所述的方法，其特征在于，所述特征信息包括词性信息、共现信息、与所述文档泛需求查询请求的距离信息以及与所述文档泛需求查询请求的标点间隔信息中的至少一个。

7.根据权利要求5所述的方法，其特征在于，根据所述多个历史文档查询请求和所述文档泛需求查询请求，生成语料候选集，具体包括：

8.根据权利要求1-4任一所述的方法，其特征在于，对多个历史文档查询请求进行泛化，得到文档泛需求查询请求，具体包括：

9.一种文档处理装置，其特征在于，所述装置包括：

泛化模块，用于对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；所述多个历史文档查询请求包括有共同的字符串；

挂载模块，根据所述文档泛需求查询请求和各所述目标标签，挂载对应的文档，以在收到包括所述文档泛需求查询请求和所述目标标签对应的查询请求时，展示对应的所述文档；

挖掘模块，具体包括：

校验单元，用于对所述文档泛需求查询请求对应的所述至少一个候选标签进行内容校验和搜索校验，保留所述至少一个目标标签。

10.根据权利要求9所述的装置，其特征在于，所述挖掘单元，具体用于：

根据文库中的全量词典资源，获取多个第一初始标签；

11.根据权利要求9所述的装置，其特征在于，所述挖掘单元，具体用于：

12.根据权利要求9所述的装置，其特征在于，所述挖掘单元，具体用于：

根据文库中的全量词典资源，获取多个第一初始标签；

13.根据权利要求10-12任一所述的装置，其特征在于，所述装置还包括：

14.根据权利要求10-12任一所述的装置，其特征在于，所述特征信息包括词性信息、共现信息、与所述文档泛需求查询请求的距离信息以及与所述文档泛需求查询请求的标点间隔信息中的至少一个。

15.根据权利要求13所述的装置，其特征在于，所述生成模块，具体用于：

16.根据权利要求9-12任一所述的装置，其特征在于，所述泛化模块，具体用于：