CN111813930B

CN111813930B - 相似文档检索方法及装置

Info

Publication number: CN111813930B
Application number: CN202010543812.6A
Authority: CN
Inventors: 毛红保
Original assignee: Iol Wuhan Information Technology Co ltd
Current assignee: Iol Wuhan Information Technology Co ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2024-02-20
Anticipated expiration: 2040-06-15
Also published as: CN111813930A; WO2021253873A1

Abstract

本发明实施例提供一种相似文档检索方法及装置，该方法包括：基于词频搜索模型搜索得到第一文档集合及每个文档的相似度，并基于文档向量化模型搜索得到第二文档集合及每个文档的相似度；将所述第一文档集合和所述第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到候选文档集合；根据所述候选文档集合，确定检索结果。该方法同时考虑词频搜索方法和文档向量化搜索方法的结果，并通过相似度进行结合，从而在一定程度上消除语义惯性，获取多维度的检索结果，避免了单一模型获得的检索结果的局限性。

Description

相似文档检索方法及装置

技术领域

本发明涉及自然语言分析领域，尤其涉及一种相似文档检索方法及装置。

背景技术

文档检索即给定一篇待检索文档，从海量文档库中自动检索出与该文档内容最相似的文档。文档检索具有广泛的应用场景，在翻译领域，当接收到一篇待翻译的稿件时，需要从历史稿件库中检索出与该稿件主题内容相似的文档，以快速匹配到合适的译员，从而提高翻译的质量和效率。

传统的文档检索方法以关键词相关的方法为主，如TF-IDF(term frequency–inverse document frequency，词频-逆文件频率)等，该类方法能满足大多数情况下的需求，但有一个缺陷是忽略了词间顺序。例如，若一篇文档中含有大量“机器学习”这样的短语，检索时会拆分为“机器”和“学习”两个关键词进行检索；若将文档中的“机器学习”全部替换为“学习机器”，检索的结果却不会受到影响。为了解决这类问题，基于深度学习的文档语义表示被应用于文档检索中，如文档向量化模型Doc2vec。文档向量化模型对词序敏感，能较好地从语义层面表征文档，但是在实际应用过程中可能存在语义惯性。例如，需要检索与“摩托车生产”匹配度最高的前5篇文档，而文档库中含有大量“摩托车销售”及“汽车生产”相关的文档，此时若采用语义表示方法进行检索，很可能检索到的前5篇文档都是“汽车生产”相关的。这是因为语义表示方法对文档全局层面的语义更敏感，而不是突出某个关键词。但是用户很可能希望前5篇文档既有“汽车生产”方面的，也有“摩托车销售”方面的。可以看出，基于目前方法获得的检索结果往往具有局限性，均无法得到准确的搜索结果。

发明内容

为了解决上述问题，本发明实施例提供一种相似文档检索方法及装置。

第一方面，本发明实施例提供一种相似文档检索方法，包括：基于词频搜索模型搜索得到第一文档集合及每个文档的相似度，并基于文档向量化模型搜索得到第二文档集合及每个文档的相似度；将所述第一文档集合和所述第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到所述候选文档集合；根据候选文档集合，确定检索结果。

进一步地，所述根据所述候选文档集合，确定检索结果，包括：根据所述第二文档集合，按相似度从大到小，选取第一预设比例的文档，作为第三文档集合；使用所述候选文档集合中的相似度，更新所述第三文档集合中相同文档的相似度，从第三文档集合中，按相似度大小，选取第二预设比例的文档作为检索结果。

进一步地，所述将所述第一文档集合和所述第二文档集合中的相同文档相似度叠加之前，还包括：对所述第一文档集合和所述第二文档集合中的文档相似度，分别进行归一化处理。

进一步地，所述第一文档集合、所述第二文档集合以及所述候选文档集合中文档数量保持一致。

进一步地，所述词频搜索模型为TF-IDF模型。

进一步地，所述文档向量化模型为Doc2vec模型。

进一步地，所述第一预设比例为2/3，所述第二预设比例为1/2。

第二方面，本发明实施例提供一种相似文档检索装置，包括：分类获取模块，用于基于词频搜索模型搜索得到第一文档集合及每个文档的相似度，并基于文档向量化模型搜索得到第二文档集合及每个文档的相似度；相似度叠加模块，用于将第一文档集合和第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到候选文档集合；检索结果确定模块，用于根据候选文档集合，确定检索结果。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本发明第一方面相似文档检索方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面相似文档检索方法的步骤。

本发明实施例提供的相似文档检索方法及装置，将第一文档集合和第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到候选文档集合，同时考虑词频搜索方法和文档向量化搜索方法的结果，并通过相似度进行结合，从而在一定程度上消除语义惯性，获取多维度的检索结果，避免了单一模型获得的检索结果的局限性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的相似文档检索方法流程图；

图2为本发明另一实施例提供的相似文档检索方法流程图；

图3为本发明实施例提供的相似文档检索装置结构图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的相似文档检索方法流程图，如图1所示，本发明实施例提供一种相似文档检索方法，包括：

101、基于词频搜索模型搜索得到第一文档集合每个文档的相似度，并基于文档向量化模型搜索得到第二文档集合及每个文档的相似度。

词频搜索模型泛指一类根据关键词的词频来进行搜索的模型，如TF-IDF模型。文档向量化模型泛指一类基于关键词向量的语义检索的模型，如Doc2vec模型和word2vec模型。

具体实施过程中，基于词频搜索模型对待检索文档进行关键词检索，获取待检索文档的关键词检索结果，得到第一文档集合，记为Result_TF-IDF。对待检索文档进行语义向量化表示，基于文档向量化模型进行检索，获取待检索文档的语义检索结果，得到第二文档集合，记为Result_Doc2vec。除了检索结果，还得到每个检索到文档的相似度，相似度表示检索到文档与待检索文档的相似程度。

102、将第一文档集合和第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到候选文档集合，记为Result_combination。

考虑到第一文档集合和第二文档集合中存在相同文档，现对相同文档进行相似度的叠加，两个集合中的其它文档相似度保持不变。然后整体按照相似度排序，从中选出预设数量的文档，作为候选文档集合。

作为可选实施例，第一文档集合、第二文档集合和候选文档集合中文档数量保持一致。具体可以是取值相同，也可以是取值相近。例如，第一文档集合、第二文档集合和候选文档集合中文档均为N个，从而保证基于词频搜索和基于文档向量化搜索的均衡。

103、根据候选文档集合，确定检索结果。

候选文档集合中，综合考虑了词频搜索方式和语义搜索方式，根据候选文档集合，确定最终检索结果，能够避免单一模型获得的检索结果的局限性。例如，可以从候选文档中选取部分作为检索结果，或者根据候选文档、第一文档及第二文档集合，进一步确定检索结果。

本发明实施例的相似文档检索方法，将第一文档集合和第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到候选文档集合，同时考虑词频搜索方法和文档向量化搜索方法的结果，并通过相似度进行结合，从而在一定程度上消除语义惯性，获取多维度的检索结果，避免了单一模型获得的检索结果的局限性。

基于上述实施例的内容，作为一种可选实施例，根据候选文档集合，确定检索结果，包括：根据第二文档集合，按相似度从大到小，选取第一预设比例的文档，作为第三文档集合；使用候选文档集合中的相似度，更新第三文档集合中相同文档的相似度，从第三文档集合中，按相似度大小，选取第二预设比例的文档作为检索结果。

图2为本发明另一实施例提供的相似文档检索方法流程图，如图2，对于第二文档集合，按相似度选取第一预设比例的文档，例如第一文档集合、第二文档集合和候选文档集合数量均为3N。第一预设比例为2/3，则选取的第三文档集合为2N。对于第三文档集合中的每个文档，若它存在于候选文档集合中，则使用候选文档集合中的相似度值，更新该文档在第三文档集合中的相似度值，保持第三文档集合中其它文档的相似度值不变。对更新后的第三文档集合按相似度重新排序，选取第二预设比例的文档作为检索结果。例如，第二预设比例为1/2，选取相似度从大到小的前N项Result_merge，作为最终的检索结果。

本发明实施例的相似文档检索方法，以文档向量化模型的语义检索结果为主，再以关键词检索对语义检索结果进行调整，从而在一定程度上能够消除语义惯性，获取多维度的检索结果，从而保证检索结果的准确性。

基于上述实施例的内容，作为一种可选实施例，将第一文档集合和第二文档集合中的相同文档相似度叠加之前，还包括：对第一文档集合和第二文档集合中的文档相似度，分别进行归一化处理。

将语义检索得到的第一文档集合和关键词检索结果的第二文档集合中的文档相似度，分别归一化处理后，再对同时存在于两个集合中的文档相似度进行叠加。通过对第一文档集合和第二文档集合中的文档相似度，分别进行归一化处理，避免了第一文档集合和第二文档集合相似度不均衡带来的影响。

基于上述实施例的内容，作为一种可选实施例，词频搜索模型为TF-IDF模型。

TF-IDF是一种用于信息检索与数据挖掘的常用加权方法。TF是词频(TermFrequency)，IDF是逆文本频率指数(Inverse Document Frequency)。

可使用基于python语言的gensim工具，训练文档库的TF-IDF模型，基于该模型对待检索文档进行关键词向量化表示和检索，获取待检索文档的关键词检索结果。

基于上述实施例的内容，作为一种可选实施例，文档向量化模型为Doc2vec模型。Doc2vec是一种非监督式算法，可以获得文本的向量表达，是word2vec的拓展。学出来的向量可以通过计算距离来找文本之间的相似性，可以用于文本聚类，对于有标签的数据，还可以用监督学习的方法进行文本分类，例如经典的情感分析问题。

可使用基于python语言的gensim工具，训练文档库的Doc2vec模型，基于该模型对待检索文档进行语义向量化表示和检索，获取待检索文档的语义检索结果。

基于上述实施例的内容，作为一种可选实施例，第一预设比例为2/3，第二预设比例为1/2。上述实施例已举例说明，此处不再赘述。

图3为本发明实施例提供的相似文档检索装置结构图，如图3，该相似文档检索装置包括：分类获取模块301、相似度叠加模块302和检索结果确定模块303。其中，分类获取模块301用于基于词频搜索模型搜索得到第一文档集合及每个文档的相似度，并基于文档向量化模型搜索得到第二文档集合及每个文档的相似度；相似度叠加模块302用于将第一文档集合和第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到候选文档集合；检索结果确定模块303用于根据候选文档集合，确定检索结果。

基于上述实施例的内容，作为一种可选实施例，检索结果确定模块303具体用于：根据第二文档集合，按相似度从大到小，选取第一预设比例的文档，作为第三文档集合；使用候选文档集合中的相似度，更新第三文档集合中相同文档的相似度，从第三文档集合中，按相似度大小，选取第二预设比例的文档作为检索结果。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例提供的相似文档检索装置，将第一文档集合和第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到候选文档集合，同时考虑词频搜索方法和文档向量化搜索方法的结果，并通过相似度进行结合，从而在一定程度上消除语义惯性，获取多维度的检索结果，避免了单一模型获得的检索结果的局限性。

图4为本发明实施例提供的一种电子设备的实体结构示意图，如图4，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和总线404，其中，处理器401，通信接口402，存储器403通过总线404完成相互间的通信。通信接口402可以用于电子设备的信息传输。处理器401可以调用存储器403中的逻辑指令，以执行包括如下的方法：基于词频搜索模型搜索得到第一文档集合及每个文档的相似度，并基于文档向量化模型搜索得到第二文档集合及每个文档的相似度；将第一文档集合和第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到候选文档集合；根据候选文档集合，确定检索结果。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：基于词频搜索模型搜索得到第一文档集合及每个文档的相似度，并基于文档向量化模型搜索得到第二文档集合及每个文档的相似度；将第一文档集合和第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到候选文档集合；根据候选文档集合，确定检索结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种相似文档检索方法，其特征在于，包括：

基于词频搜索模型搜索得到第一文档集合及每个文档的相似度，并基于文档向量化模型搜索得到第二文档集合及每个文档的相似度；

将所述第一文档集合和所述第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到候选文档集合；

根据所述候选文档集合，确定检索结果；

其中，所述根据所述候选文档集合，确定检索结果，包括：

根据所述第二文档集合，按相似度从大到小，选取第一预设比例的文档，作为第三文档集合；

使用所述候选文档集合中的相似度，更新所述第三文档集合中相同文档的相似度，从所述第三文档集合中，按相似度大小，选取第二预设比例的文档作为检索结果。

2.根据权利要求1所述的相似文档检索方法，其特征在于，所述将所述第一文档集合和所述第二文档集合中的相同文档相似度叠加之前，还包括：

对所述第一文档集合和所述第二文档集合中的文档相似度，分别进行归一化处理。

3.根据权利要求1所述的相似文档检索方法，其特征在于，所述第一文档集合、所述第二文档集合以及所述候选文档集合中文档数量保持一致。

4.根据权利要求1所述的相似文档检索方法，其特征在于，所述词频搜索模型为TF-IDF模型。

5.根据权利要求1所述的相似文档检索方法，其特征在于，所述文档向量化模型为Doc2vec模型。

6.根据权利要求1所述的相似文档检索方法，其特征在于，所述第一预设比例为2/3，所述第二预设比例为1/2。

7.一种相似文档检索装置，其特征在于，包括：

分类获取模块，用于基于词频搜索模型搜索得到第一文档集合及每个文档的相似度，并基于文档向量化模型搜索得到第二文档集合及每个文档的相似度；

相似度叠加模块，用于将所述第一文档集合和所述第二文档集合中的相同文档相似度叠加，按相似度从大到小，选取预设数量的文档，得到候选文档集合；

检索结果确定模块，用于根据所述候选文档集合，确定检索结果；

其中，所述根据所述候选文档集合，确定检索结果，包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述相似文档检索方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述相似文档检索方法的步骤。