CN107818091A

CN107818091A - 文档处理方法及装置

Info

Publication number: CN107818091A
Application number: CN201610815787.6A
Authority: CN
Inventors: 薛璐影; 姚源林; 曹羽; 梁方明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-09-12
Filing date: 2016-09-12
Publication date: 2018-03-20
Anticipated expiration: 2036-09-12
Also published as: CN107818091B

Abstract

本发明提供一种文档处理方法和装置。所述方法包括：根据多个历史文档查询请求，挖掘文档查询的核心词；根据所述核心词，挂载所述核心词对应的文档，以在收到包括所述核心词对应的文档查询请求时，展示所述核心词对应的所述文档。通过采用本发明的技术方案，能够使得互联网公司的文库资源被有效地展现，从而在文档查询请求时可以获取到更多的文档查询结果，也能够有效地提高文档查询的效果。

Description

文档处理方法及装置

【技术领域】

本发明涉及文库管理技术领域，尤其涉及一种文档处理方法及装置。

【背景技术】

随着互联网的迅猛发展，为人们的生活以及工作提供了极大地便利。例如人们在工作中，遇到任何疑问，可以通过互联网查询相关资料，以学习相关知识，掌握相关技能。

现有技术中，为了更加有效地向用户提供各种资料，很多互联网服务商的服务器可以通过互联网向用户提供各种文档，例如当用户想要学习某方面资料，通过输入相关的查询请求，可以从查询结果列表中点击文档类的结果，并点击查阅。现有技术中的文档可以为word格式、PDF格式，或者txt之类的文本格式等等。现有技术中，互联网服务商的服务器加载新的文档之后，直接挂载显示该文档。当用户的文档查询请求命中该文档的名称时，才可以在查询结果中展示该文档。

但是，现有技术中的文档处理方式，只有当文档查询请求命中该文档的名称时，才能在查询结果中展示该文档，导致文档查询请求对应的查询结果所展示的文档数量有限，文档资源无法被有效地展现。

【发明内容】

本发明提供了一种文档处理方法和装置，用于提高文档资源的展现效果。

本发明提供一种文档处理方法，所述方法包括：

根据多个历史文档查询请求，挖掘文档查询的核心词；

根据所述核心词，挂载所述核心词对应的文档，以在收到包括所述核心词对应的文档查询请求时，展示所述核心词对应的所述文档。

进一步可选地，上述所述方法中，根据多个历史文档查询请求，挖掘文档查询的核心词，具体包括：

根据所述多个历史文档查询请求，生成语料候选集；

根据所述语料候选集，挖掘文档查询的所述核心词。

进一步可选地，上述所述方法中，根据所述多个历史文档查询请求，生成语料候选集，具体包括：

对所述多个历史文档查询请求进行泛化，得到文档泛需求查询请求；

根据各所述历史文档查询请求、所述文档泛需求查询请求对应的文库站内检索的第一标题、所述文档泛需求查询请求对应的相关查询请求以及各所述历史文档查询请求对应的用户点击的各个第二标题，生成所述语料候选集。

进一步可选地，上述所述方法中，对所述多个历史文档查询请求进行泛化，得到文档泛需求查询请求，具体包括：

根据各所述历史文档查询请求的长度、搜索次数、是否包括其他文档查询请求以及文档查询结果的URL被点击的次数，对所述多个历史文档查询请求进行泛化，得到所述文档泛需求查询请求。

进一步可选地，上述所述方法中，根据多个历史文档查询请求，挖掘文档查询的核心词之前，所述方法还包括：获取所述多个历史文档查询请求。

进一步可选地，上述所述方法中，获取所述多个历史文档查询请求，具体包括：

获取多个历史查询请求和各所述历史查询请求对应的点击URL信息；

根据预设的文档类站点的URL列表和各所述历史查询请求对应的点击URL信息，从所述多个历史查询请求中识别出所述多个历史文档查询请求。

进一步可选地，上述所述方法中，根据所述语料候选集，挖掘文档查询的所述核心词，具体包括：

将所述语料候选集中的各候选语料进行分词处理，得到多个词语；

对所述多个词语进行去燥处理；

对去燥处理后的所述多个词语中各所述词语进行词性标注、长度信息计算、覆盖面计算以及重要性权值计算；

根据词语的词性搭配信息、词语的共现信息、以及各所述词语的词性、所述长度信息、所述覆盖面以及所述重要性权值，从去燥处理后的所述多个词语中挖掘所述核心词。

本发明还提供一种文档处理装置，所述装置包括：

挖掘模块，用于根据多个历史文档查询请求，挖掘文档查询的核心词；

挂载模块，用于根据所述核心词，挂载所述核心词对应的文档，以在收到包括所述核心词对应的文档查询请求时，展示所述核心词对应的所述文档。

进一步可选地，上述所述装置中，所述挖掘模块，具体包括：

生成单元，用于根据所述多个历史文档查询请求，生成语料候选集；

挖掘单元，用于根据所述语料候选集，挖掘文档查询的所述核心词。

进一步可选地，上述所述装置中，所述生成单元，具体用于：

进一步可选地，上述所述装置中，所述生成单元，具体用于根据各所述历史文档查询请求的长度、搜索次数、是否包括其他文档查询请求以及文档查询结果的URL被点击的次数，对所述多个历史文档查询请求进行泛化，得到所述文档泛需求查询请求。

进一步可选地，上述所述装置中，还包括：

获取模块，用于获取所述多个历史文档查询请求。

进一步可选地，上述所述装置中，所述获取模块，具体用于：

进一步可选地，上述所述装置中，所述挖掘单元，具体用于：

对所述多个词语进行去燥处理；

本发明的文档处理方法和装置，通过根据多个历史文档查询请求，挖掘文档查询的核心词；根据所述核心词，挂载所述核心词对应的文档，以在收到包括所述核心词对应的文档查询请求时，展示所述核心词对应的所述文档，能够使得互联网公司的文库资源被有效地展现，从而在文档查询请求时可以获取到更多的文档查询结果，也能够有效地提高文档查询的效果。

【附图说明】

图1为本发明的文档处理方法实施例的流程图。

图2为本发明的文档处理装置实施例一的结构图。

图3为本发明的文档处理装置实施例二的结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的文档处理方法实施例的流程图。如图1所示，本实施例的文档处理方法，具体可以包括如下步骤：

100、根据多个历史文档查询请求，挖掘文档查询的核心词；

101、根据核心词，挂载核心词对应的文档，以在收到核心词对应的文档查询请求时，展示核心词对应的文档。

本实施例的文档处理方法的执行主体可以为文档处理装置，该文档处理装置具体可以设置在互联网服务商的服务器中，用于对该互联网服务商提供的文档库中的文档资源进行管理。本实施例中，首先根据多个历史文档查询请求，挖掘文档查询的核心词；本实施例的历史文档查询请求，也可以称之为历史文档查询query。本实施例的多个历史文档查询请求，并不是随意选取的没有任何关联的历史文档查询请求，例如，本实施例的多个历史文档查询请求，可以均包括“工作”和“总结”；或者均包括“英语”和“作文”之类的关键词，即多个历史文档查询请求中必须包括有共同的字符串。这样，通过对多个历史文档查询请求进行挖掘，可以挖掘出这一类相似的查询请求如文档泛需求查询请求的核心词。然后根据该核心词，挂载该核心词对应的文档，例如某文档的title或者摘要中包括有该核心词，将该文档挂载。当用户在进行文档查询时，若文档查询请求中包括有该核心词，在对应的文档查询结果中可以展示该核心词对应的该文档，通过上述方式，挂载该核心词对应的所有文档，可以使得文档查询结果中能够展示更多的文档，使得文档库的文档资源可以被有效地展示，扩大文档库资源的影响面。

例如，某互联网公司包括搜索引擎以及文库等产品线。而根据搜索引擎搜索文档时，搜索结果中并不能充分覆盖该互联网公司的文库内的所有文档，即该互联网公司的文库中的文档资源没有被有效地展现。通过采用本实施例的技术方案，通过由该互联网公司的服务器中的文档处理装置根据多个历史文档查询请求，挖掘文档查询的核心词，并根据核心词将该文库中的文档根据核心词进行挂载和展示，能够使得该互联网公司的文库资源被有效地展现，从而在文档查询请求时可以获取到更多的文档查询结果，也能够有效地提高文档查询的效果。

进一步可选地，上述实施例中的步骤100“根据历史文档查询请求，挖掘文档查询的核心词”，具体可以包括如下步骤：

(a1)根据多个历史文档查询请求，生成语料候选集；

(a2)根据语料候选集，挖掘文档查询的核心词。

具体地，本实施例中核心词的挖掘过程，可以先根据多个历史文档查询请求，生成语料候选集，该语料候选集中可以包括多个候选语料，本实施例的文档查询的核心词便是根据语料候选集中的多个候选语料生成，具体地，可以为其中一个候选语料，也可以为两个或者多个候选语料组成，或者还可以由两个或者多个候选语料中的部分词语共同构成。

例如，其中的步骤(a1)“根据历史文档查询请求，生成语料候选集”，具体可以还包括如下步骤：

(b1)对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；

例如该步骤(b1)具体可以为：根据各历史文档查询请求的长度、搜索次数、是否包括其他文档查询请求以及文档查询结果的统一资源定位符(Uniform Resource Locator；URL)被点击的次数，对多个历史文档查询请求进行泛化，得到文档泛需求查询请求。

具体地，历史文档查询请求的长度的越短，历史文档查询请求越没有指向性，例如“总结”，单独构不成文档泛需求查询请求。历史文档查询请求的搜索次数越高，表示该历史文档查询请求对文档泛需求查询请求的贡献越大。历史文档查询请求若包括其他文档查询请求，则表示该历史文档查询请求不是最小的文档查询请求单元，对文档泛需求查询请求的贡献较小，而可以根据其所包括的文档查询请求去获取文档泛需求查询请求。历史文档查询请求的文档查询结果的URL被点击的次数越多，标识该历史文档查询结果覆盖面越广，则该历史文档查询结果对文档泛需求查询请求的贡献越大。因此可以综合考虑各历史文档查询请求的长度、搜索次数、是否包括其他文档查询请求以及文档查询结果的URL被点击的次数，对多个历史文档查询请求进行泛化，得到文档泛需求查询请求。该文档泛需求查询请求的查询结果可以覆盖多个历史文档查询请求的查询结果。

(b2)根据各历史文档查询请求、文档泛需求查询请求对应的文库站内检索的第一标题、文档泛需求查询请求对应的相关查询请求以及各历史文档查询请求对应的用户点击的各个第二标题，生成语料候选集。

由于核心词是根据语料候选集中的候选语料挖掘出来的，为了使得挖掘出来的核心词的覆盖面更广，本实施例中通过丰富语料候选集中的候选语料来实现。具体地，该语料候选集中包括的候选语料可以包括四方面的内容：各历史文档查询请求、文档泛需求查询请求对应的文库站内检索的第一标题(title)、文档泛需求查询请求对应的相关查询请求以及各历史文档查询请求对应的用户点击的各个第二title。其中文档泛需求查询请求对应的文库站内检索的第一title，为文档处理装置根据该文档泛需求查询请求在文库站内检索，从检索结果中获取检索到的各个文档的title。各历史文档查询请求对应的用户点击的各个第二title，具体为用户在使用历史文档查询请求查询文档时，在查询结果中点击的各个title。对于文档泛需求查询请求对应的相关查询请求，具体地，在搜索引擎中，根据每一个query可以衍生出很多相关的query，本实施例中的相关查询请求即为根据文档泛需求查询请求衍生的。将上述四方面的信息收集起来，作为候选语料，可以生成语料候选集。本实施例生成的语料候选集不仅仅包括各历史文档查询请求，还根据历史文档查询请求获取文档泛需求查询请求对应的文库站内检索的第一title、文档泛需求查询请求对应的相关查询请求以及各历史文档查询请求对应的用户点击的各个第二title，丰富了语料候选集的候选语料的内容，从而保证了根据语料候选集挖掘出来的文档查询的核心词具有更广泛的适用性。

进一步可选地，在上述实施例的步骤100“根据多个历史文档查询请求，挖掘文档查询的核心词”之前，还可以包括步骤：获取多个历史文档查询请求。该步骤“获取多个历史文档查询请求”，具体可以包括如下步骤：

(c1)获取多个历史查询请求和各历史查询请求对应的点击URL信息；

(c2)根据预设的文档类站点的URL列表和各历史查询请求对应的点击URL信息，从多个历史查询请求中识别出多个历史文档查询请求。

具体地，由于用户在搜索引擎中查询时，并没有指定该查询请求是否为文档类查询请求，需要文档处理装置对历史查询请求进行分析，从中找出历史文档查询请求。首先，由于互联网的服务器中的文库是固定的，因此对应的文档类站点的URL是确定，可以将该文档类站点的所有URL构成一个文档类站点的URL列表，即其中的各个URL都是文档。如果哪个查询请求对应的查询节结果中被点击的URL在该URL列表中，则对应的查询请求为文档类查询请求。具体地，获取多个历史查询请求和各历史查询请求对应的点击URL信息；此时，多个历史查询请求中哪些为文档类查询请求，哪些为非文档类查询请求还不确定。然后，判断各历史查询请求对应的点击URL信息是否为预设的文档类站点的URL列表中的URL，如果是，则该历史查询请求为历史文档查询请求，否则该历史查询请求为历史非文档查询请求。这样，可以从多个历史查询请求中识别出多个历史文档查询请求。

进一步可选地，上述实施例中的步骤(a2)“根据语料候选集，挖掘文档查询的核心词”，具体可以包括如下步骤：

(d1)将语料候选集中的各候选语料进行分词处理，得到多个词语；

具体地，将上述步骤(b2)生成的语料候选集中的各个候选语料进行分词处理，具体地，分词处理过程中，可以根据常用词的词典进行划分。例如“个人的年终工作总结”可以划分为“个人”、“的”、“年终”、“工作”、“总结”和“年终工作”以及“工作总结”，而不能划分为“个人的”和“年终工”和“作总结”等等其他的非常用词语。

(d2)对多个词语进行去燥处理；

具体地，去燥处理主要用于去除一些没有意义的词语如“的”，以及其它一些停用词。

(d3)对去燥处理后的多个词语中各词语进行词性标注、长度信息计算、覆盖面计算以及重要性权值计算；

本实施例的词性具体指的是动词、名词、形容词以及副词等等，这样后续可以根据汉语中常用的词性搭配信息来挖掘核心词。长度信息计算具体指的是对去燥处理后的各个词语的字符长度进行计算，便于候选根据长度信息挖掘核心词，通常情况下，长度信息越长，核心词限制的越死板、适用性越差，如“某城市的小学教师的年终总结”；而长度信息越短，核心词的指向性越差，如“总结”；因此，后续需要根据各个词语的长度信息，挖掘最恰当的核心词。覆盖面，可以根据该词语在文库中检索时的对应的页面浏览量(Page View；PV)，表示该词语的覆盖范围的大小。该词语的重要性权值也可以称为term的重要性权值，具体可以基于wordrank来计算的，并利用一种用于信息检索与数据挖掘的常用加权技术term频率-逆文档频率(term frequency–inverse document frequency；TF-IDF)统计得到。词语的重要性权值越高，表示该词语的成为核心词的概率越高，反之，词语的重要性权值越低，表示该词语成为核心词的概率越低。

(d4)根据词语的词性搭配信息、词语的共现信息、以及各词语的词性、长度信息、覆盖面以及重要性权值，从去燥处理后的多个词语中挖掘核心词。

由于汉语中词语具有特定的词性搭配，本实施例中可以根据各个词语的词性，结合词语的词性搭配信息从多个词语中挖掘核心词。另外，很多词语都具有共现信息，例如，“年终”和“总结”可以作为共现信息。因此合在一起可以构成核心词。根据长度信息，如“总结”两个字没有指向性，不能单独作为核心词，而“年终总结”具有明确指向性，又具有较广泛的适用性，可以作为核心词。例如，文档处理装置中也可以对核心词设置一定的长度范围，各个词语构成的在该长度范围内的词语才为恰当的核心词。另外，覆盖面较广的词语可以作为核心词的组成部分，否则不能作为核心词的组成部分。重要性权值高的词语可以作为核心词的组成部分，否则不能作为核心词的组成部分。

本实施例中，综合各词语的词性、长度信息、覆盖面以及重要性权值，可以过滤掉长度范围不合适以及词性搭配不正确的核心词，选择覆盖面较广以及重要性权值较高的多个核心词，并综合考虑上述因素对各个核心词进行综合打分，获取分值较高的一个、两个或者多个核心词作为最终挖掘出来的核心词。

本实施例的文档处理方法，通过采用上述技术方案，可以根据多个历史文档查询请求，挖掘文档查询的核心词；并根据核心词，挂载核心词对应的文档，以在收到核心词对应的文档查询请求时，展示核心词对应的文档，能够使得互联网公司的文库资源被有效地展现，从而在文档查询请求时可以获取到更多的文档查询结果，也能够有效地提高文档查询的效果。

图2为本发明的文档处理装置实施例一的结构图。如图2所示，本实施例的文档处理装置，具体可以包括：挖掘模块10和挂载模块11。

挖掘模块10用于根据多个历史文档查询请求，挖掘文档查询的核心词；挂载模块11用于根据挖掘模块10挖掘的核心词，挂载核心词对应的文档，以在收到核心词对应的文档查询请求时，展示核心词对应的文档。

本实施例的文档处理装置，通过采用上述模块实现文档处理的实现机制以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图3为本发明的文档处理装置实施例二的结构图。如图3所示，本实施例的文档处理装置，在上述图2所示实施例的技术方案的基础上，进一步包括如下技术方案。

如图3所示，本实施例的文档处理装置中，挖掘模块10具体包括：

生成单元101用于根据多个历史文档查询请求，生成语料候选集；挖掘单元102用于根据生成单元101生成的语料候选集，挖掘文档查询的核心词。此时挂载模块11用于根据挖掘单元102挖掘的核心词，挂载核心词对应的文档。

进一步可选地，本实施例的文档处理装置中，生成单元101具体用于：

对多个历史文档查询请求进行泛化，得到文档泛需求查询请求；

根据各历史文档查询请求、文档泛需求查询请求对应的文库站内检索的第一标题、文档泛需求查询请求对应的相关查询请求以及各历史文档查询请求对应的用户点击的各个第二标题，生成语料候选集。

进一步可选地，本实施例的文档处理装置中，生成单元101具体用于根据各历史文档查询请求的长度、搜索次数、是否包括其他文档查询请求以及各文档查询结果的URL被点击的次数，对多个历史文档查询请求进行泛化，得到文档泛需求查询请求。

进一步可选地，如图3所示，本实施例的文档处理装置中，还包括获取模块12。

获取模块12用于获取多个历史文档查询请求。此时对应地，生成单元101用于根据获取模块12获取的多个历史文档查询请求，生成语料候选集。

进一步可选地，本实施例的文档处理装置中，获取模块12具体用于：获取多个历史查询请求和各历史查询请求对应的点击URL信息；

根据预设的文档类站点的URL列表和各历史查询请求对应的点击URL信息，从多个历史查询请求中识别出多个历史文档查询请求。

进一步可选地，本实施例的文档处理装置中，挖掘单元102具体用于：

将生成单元101生成的语料候选集中的各候选语料进行分词处理，得到多个词语；

对多个词语进行去燥处理；

对去燥处理后的多个词语中各词语进行词性标注、长度信息计算、覆盖面计算以及重要性权值计算；

根据词语的词性搭配信息、词语的共现信息、以及各词语的词性、长度信息、覆盖面以及重要性权值，从去燥处理后的多个词语中挖掘核心词。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文档处理方法，其特征在于，所述方法包括：

根据多个历史文档查询请求，挖掘文档查询的核心词；

2.根据权利要求1所述的方法，其特征在于，根据多个历史文档查询请求，挖掘文档查询的核心词，具体包括：

根据所述多个历史文档查询请求，生成语料候选集；

根据所述语料候选集，挖掘文档查询的所述核心词。

3.根据权利要求2所述的方法，其特征在于，根据所述多个历史文档查询请求，生成语料候选集，具体包括：

4.根据权利要求3所述的方法，其特征在于，对所述多个历史文档查询请求进行泛化，得到文档泛需求查询请求，具体包括：

5.根据权利要求1所述的方法，其特征在于，根据多个历史文档查询请求，挖掘文档查询的核心词之前，所述方法还包括：获取所述多个历史文档查询请求。

6.根据权利要求5所述的方法，其特征在于，获取所述多个历史文档查询请求，具体包括：

7.根据权利要求2-6任一所述的方法，其特征在于，根据所述语料候选集，挖掘文档查询的所述核心词，具体包括：

对所述多个词语进行去燥处理；

8.一种文档处理装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述挖掘模块，具体包括：

10.根据权利要求9所述的装置，其特征在于，所述生成单元，具体用于：

11.根据权利要求10所述的装置，其特征在于，所述生成单元，具体用于根据各所述历史文档查询请求的长度、搜索次数、是否包括其他文档查询请求以及文档查询结果的URL被点击的次数，对所述多个历史文档查询请求进行泛化，得到所述文档泛需求查询请求。

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

获取模块，用于获取所述多个历史文档查询请求。

13.根据权利要求12所述的装置，其特征在于，所述获取模块，具体用于：

14.根据权利要求9-13任一所述的装置，其特征在于，所述挖掘单元，具体用于：

对所述多个词语进行去燥处理；