CN115687579B

CN115687579B - 文档标签生成及匹配方法、装置和计算机设备

Info

Publication number: CN115687579B
Application number: CN202211158183.0A
Authority: CN
Inventors: 丘文波
Original assignee: Guangzhou Shirong Information Technology Co ltd; Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shirong Information Technology Co ltd; Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2023-08-01
Anticipated expiration: 2042-09-22
Also published as: CN115687579A

Abstract

本申请属于互联网技术领域，特别涉及一种文档标签生成及匹配方法、装置和计算机设备。该文档标签方法包括：收集用户输入的搜索文本和与所述搜索文本对应的点击的文档名称文本；将所述搜索文本相同，但对应点击的所述文档名称文本不同的记录进行整合，得到第一整合结果；根据所述第一整合结果获得所述搜索文本与各所述文档名称文本的最长公共字符串；根据所述最长公共字符串与所述被点击次数，获得所述最长公共字符串中的点击频次最大的最长公共字符串；将所述点击频次最大的最长公共字符串设为标签候选词；将所述标签候选词中的至少一个设为文档标签。上述方法简化了文档标签的创建过程，且提高了用户的搜索意图与文档标签的匹配度。

Description

文档标签生成及匹配方法、装置和计算机设备

技术领域

本申请涉及互联网技术领域，具体而言，本申请涉及一种文档标签生成及匹配方法、装置和计算机设备。

背景技术

在垂直领域的内容搜索中，比如学术搜索、社区论坛搜索等，需要给相关的文档打上标签，以便于根据用户的搜索文本快速匹配到用户所需文档，而搜索文本与文档标签的匹配效果也影响着最终的搜索效果。目前，文档标签通常由人工进行编辑设计，因此创建过程比较耗费人力，且在一些情况下用户的搜索意图与文档标签的匹配程度较低。

发明内容

本申请的主要目的为提供一种文档标签生成及匹配方法、装置和计算机设备，旨在解决文档标签创建过程复杂且文档标签与用户搜索意图匹配度较低的技术问题。

为了实现上述发明目的，本申请提供一种文档标签生成方法，包括：

收集用户输入的搜索文本和与所述搜索文本对应的点击的文档名称文本；

将所述搜索文本相同，但对应点击的所述文档名称文本不同的记录进行整合，得到第一整合结果，其中，所述第一整合结果包括所述搜索文本、各所述文档名称文本以及各所述文档名称文本的被点击次数；

根据所述第一整合结果获得所述搜索文本与各所述文档名称文本的最长公共字符串；

根据所述最长公共字符串与所述被点击次数，获得所述最长公共字符串中的点击频次最大的最长公共字符串；

将所述点击频次最大的最长公共字符串设为标签候选词，其中，所述标签候选词为至少一个；

将所述标签候选词中的至少一个设为文档标签。

本申请还提供一种文档标签匹配方法，包括：

获取用户输入的搜索文本；

基于文档标签库，为所述搜索文本生成第一标签，其中，所述文档标签库基于如上述实施例提供的文档标签生成方法构建获得，所述第一标签包括至少一个标签词；

基于上述的文档标签库，为每一文档生成第二标签，其中，所述文档存储于文档库中，所述文档库中存储有多个文档供用户搜索得到，所述第二标签包括至少一个标签词；

将所述第一标签与第二标签进行匹配，并将所述第一标签与所述第二标签相同的部分设为有效标签，其中，所述有效标签包括至少一个标签词；

基于所述第一标签与第二标签，依次获得每一所述文档的标签覆盖度得分，其中，所述标签覆盖度得分用于表征所述文档内容与所述搜索文本的匹配程度；

基于所述有效标签，依次获得每一所述文档的标签紧凑度得分，其中，所述标签紧凑度得分用于表征所述有效标签内容在所述文档内容中的位置靠近程度；

根据所述标签覆盖度得分和所述标签紧凑度得分获得每一所述文档的总体标签匹配得分；

将所述总体标签匹配文档进行排序，得到第一排序结果；

根据预设规则及所述第一排序结果，将满足预设规则的所述文档设为与所述搜索文本匹配的文档。

在一个实施例中，所述基于所述有效标签，依次获得每一所述文档的标签紧凑度得分的步骤，包括：

根据每一所述文档中，所述有效标签中所有标签词在所述文档中的位置，生成位置元素，其中，所述位置元素中包括标签词和标签词的位置信息；

将各位置元素按序排列，生成第一序列；

基于所述第一序列，获取第一标签组合，其中，所述第一标签组合包括所述有效标签中的所有标签词，且在所述文档中，所述所有标签词间的位置距离最近；

根据所述第一标签组合获得所述文档的标签紧凑度得分。

在一个实施例中，基于所述第一序列，获取第一标签组合的步骤，包括：

依次将第一序列中的每个位置元素设为目标元素，并获取在所述目标元素位置之后，并与所述目标元素距离最近的包含有其他所述标签词的位置元素，生成多个位置元素序列；

分别计算每个所述位置元素序列中各标签词的总距离；

将所述总距离最小的位置元素序列设为第一标签组合。

在一个实施例中，所述总体标签匹配得分根据以下公式获得：

score＝score_cover*(1+t*score_close)，

其中，score为总体标签匹配得分，score_cover为标签覆盖度得分，score_close为标签紧凑度得分，t为权重，所述权重基于所述标签覆盖度得分设置。

在一个实施例中，所述标签覆盖度得分根据以下公式获得：

其中，n为所述第一标签中的标签词数量，num_query_tag为所述第二标签中的标签词数量；

且当所述第一标签中的第i个标签词与所述第二标签中的任意一个标签词完全相同时，则tag_i＝1；

且当所述第一标签中的第i个标签词与所述第二标签中的任意一个标签词有部分相同时，则tag_i＝N，N∈(0，1)；

且当所述第一标签中的第i个标签词与所述第二标签中的任意一个标签词均不相同时，则tag_i＝0。

在一个实施例中，所述标签紧凑度得分根据以下公式获得：

其中，L为所述第一标签组合中各标签词的总距离，M为第一预设距离阈值，K为第二预设距离阈值。

本申请还提供一种文档标签生成装置，包括：

收集模块，用于收集用户输入的搜索文本和与所述搜索文本对应的点击的文档名称文本；

整合模块，用于将所述搜索文本相同，但对应点击的所述文档名称文本不同的记录进行整合，得到第一整合结果，其中，所述第一整合结果包括所述搜索文本、各所述文档名称文本以及各所述文档名称文本的被点击次数；

第一获取模块，用于根据所述第一整合结果获得所述搜索文本与各所述文档名称文本的最长公共字符串；

第二获取模块，用于根据所述最长公共字符串与所述被点击次数，获得所述最长公共字符串中的点击频次最大的最长公共字符串；

标签候选词设置模块，用于将所述点击频次最大的最长公共字符串设为标签候选词，其中，所述标签候选词为至少一个；

文档标签生成模块，用于将所述标签候选词中的至少一个设为文档标签。

本申请还提供一种文档标签匹配装置，包括：

搜索文本获取模块，用于获取用户输入的搜索文本；

第一标签生成模块，用于为所述搜索文本生成第一标签，其中，所述文档标签库基于如上述实施例提供的文档标签生成方法构建获得，所述第一标签包括至少一个标签词；

第二标签生成模块，用于基于上述文档标签库，为每一文档生成第二标签，其中，所述文档存储于文档库中，所述文档库中存储有多个文档供用户搜索得到，所述第二标签包括至少一个标签词；

有效标签生成模块，用于将所述第一标签与第二标签进行匹配，并将所述第一标签与所述第二标签相同的部分设为有效标签，其中，所述有效标签包括至少一个标签词；

标签覆盖度得分获取模块，用于基于所述第一标签与第二标签，依次获得每一所述文档的标签覆盖度得分，其中，所述标签覆盖度得分用于表征所述文档内容与所述搜索文本的匹配程度；

紧凑度得分获取模块，用于基于所述有效标签，依次获得每一所述文档的标签紧凑度得分，其中，所述标签紧凑度得分用于表征所述有效标签内容在所述文档内容中的位置靠近程度；

总体标签匹配得分获取模块，用于根据所述标签覆盖度得分和所述标签紧凑度得分获得每一所述文档的总体标签匹配得分；

排序模块，用于将所述总体标签匹配文档进行排序，得到第一排序结果；

匹配文档设置模块，用于根据预设规则及所述第一排序结果，将满足预设规则的所述文档设为与所述搜索文本匹配的文档。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例提供的文档标签生成方法和/或文档标签匹配方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例提供的文档标签生成方法和/或文档标签匹配方法中的步骤。

本申请所提供的一种文档标签生成及匹配方法、装置和计算机设备，收集用户输入的搜索文本和与所述搜索文本对应的点击的文档名称文本；将所述搜索文本相同，但对应点击的所述文档名称文本不同的记录进行整合，得到第一整合结果，其中，所述第一整合结果包括所述搜索文本、各所述文档名称文本以及各所述文档名称文本的点击次数；根据所述第一整合结果获得所述搜索文本与各所述文档名称文本的最长公共字符串；根据所述最长公共字符串与所述点击次数，获得所述最长公共字符串中的点击频次最大的最长公共字符串；将所述点击频次最大的最长公共字符串设为标签候选词，其中，所述标签候选词为至少一个；将所述便签候选词中的至少一个设为文档标签。通过自动生成文档标签且将点击频次最大的最长公共字符串设为标签候选词的方式，简化了文档标签的创建过程，且提高了用户的搜索意图与文档标签的匹配度。

附图说明

图1为本申请一实施例的文档标签生成方法的流程示意图；

图2为本申请一实施例的文档标签匹配方法的流程示意图；

图3为本申请一实施例的文档标签库生成方法的流程示意图；

图4为本申请一实施例的前缀树的结构示意图；

图5为本申请另一实施例的文档标签匹配方法中的步骤S206的流程示意图；

图6为本申请一实施例的文档标签匹配方法中的步骤S2063的流程示意图；

图7为本申请一实施例的文档标签生成装置的结构示意图；

图8为本申请一实施例的文档标签匹配装置的结构示意图；

图9为本申请一实施例的计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

请参照图1，本申请实施例提供一种文档标签生成方法，包括步骤S101-S106，对于该方法的各个步骤的详细阐述如下。

在其中一个实施例中，文档标签生成方法包括：

S101、收集用户输入的搜索文本和与所述搜索文本对应的点击的文档名称文本；

S102、将所述搜索文本相同，但对应点击的所述文档名称文本不同的记录进行整合，得到第一整合结果，其中，所述第一整合结果包括所述搜索文本、各所述文档名称文本以及各所述文档名称文本的被点击次数；

S103、根据所述第一整合结果获得所述搜索文本与各所述文档名称文本的最长公共字符串；

S104、根据所述最长公共字符串与所述被点击次数，获得所述最长公共字符串中的点击频次最大的最长公共字符串；

S105、将所述点击频次最大的最长公共字符串设为标签候选词，其中，所述标签候选词为至少一个；

S106、将所述标签候选词中的至少一个设为文档标签。

如上述步骤S101所述，可以根据用户的搜索日志和点击(点击搜索得到的文档)日志收集到用户的在搜索引擎输入的搜索文本及其对应该次搜索点击的文档名称文本。为了扩大样本数据，可以对一段时间(如一个月)内的搜索、点击日志进行集中的信息收集。

如上述步骤S102所述，将搜索文本相同，但对应点击的文档名称文本不同的记录进行整合，得到第一整合结果，其中，第一整合结果包括搜索文本、各不同的文档名称文本以及各不同文档名称文本的被点击次数。示例性的，假设统计的日志记录中有一被多次输入的相同的搜索文本为“win10蓝屏”，但每次搜索结果所对应的被点击的文档名称文本分别为“win10蓝屏怎么办”、“电脑蓝屏的处理办法”、“新买的MAC电脑蓝屏了”和“蓝屏重装***”，且被点击的文档名称文本所对应的被点击次数分别为“10”、“10”、“1”、“2”，对上述的日志记录进行整合，得到第一整合结果，第一整合结果的一种形式可如下表1所示：

表1第一整合结果

用户输入的搜索文本	被点击的文档名称文本	被点击的次数
			win10蓝屏	win10蓝屏怎么办	10
win10蓝屏	电脑蓝屏的处理方法	10
			win10蓝屏	新买的MAC电脑蓝屏了	1
win10蓝屏	蓝屏重装***	2

如上述步骤S103-S106所述，根据第一整合结果获得用户的搜索文本与各文档名称文本的最长公共字符串；根据上述的最长公共字符串与被各文档名称文本所对应的被点击次数，获得上述最长公共字符串中的点击频次最大的最长公共字符串；将上述点击频次最大的最长公共字符串设为标签候选词，其中，标签候选词为至少一个；将上述标签候选词中的至少一个设为文档标签。

以下表2所示的内容为例进行说明：表1第2行中，用户的搜索文本与各文档名称文本的最长公共字符串为“win10蓝屏”，且该最长公共字符串的被点击频次为10；表1第3行中，用户的搜索文本与各文档名称文本的最长公共字符串为“蓝屏”且其被点击频次为10，表1第4行中，用户的搜索文本与各文档名称文本的最长公共字符串也为“蓝屏”，且其被点击频次为1，表1第5行中，用户的搜索文本与各文档名称文本的最长公共字符串亦为“蓝屏”且其被点击频次为2，即，最长公共字符串“蓝屏”的被点击频次则为(10+1+2)次，也即13次，因此，则将“蓝屏”设为便签候选词，而在其他一些实施例中，可能存在被点击频次相同但文本内容不同的最长公共字符串，如最长公共字符串分别为“win10蓝屏”和“蓝屏”，且上述两个最长公共字符串的被点击频次均为“10”，以及“10”已是本次整合结果中最大的被点击频次，则将“win10蓝屏”和“蓝屏”均设为候选标签词，在实际应用中，可将“win10蓝屏”和“蓝屏”中的其中一个设为文档标签，也可将“win10蓝屏”和“蓝屏”均设为文档标签。需要说明的是，在实际应用中，候选标签词的个数不仅限于一个或两个，还可能是两个以上，在此不做限定。

表2第一整合结果后续处理

通过上述方式，可以预知，在实际的应用中，可以获取多个相关的标签词，为了去除冗余及保证文档标签词的具意性(例如当“的”、“地”等介词也被定义为文档标签词，但其并无具体的语义)，在一些实施例中，可将长度不满足预设要求(例如预设要求为长度不为1，且长度不能大于10)的文档标签词剔除，并且，如果一个长文档标签词可由短文档标签词组成，也可以将长文档标签词剔除，去重保留短标签词。

在一些实施例中，当用户的搜索文本和被点击的文档名称文本中存在字母或字母所组成的字符串时，为了避免在文本匹配时出错(字母的大小写格式在外形上虽然不一样，但其所表达的意义在文本中一般是相同的)，则将所有文本中存在的字母进行统一的格式转换，如均设置为小写的格式，或者均设置为大写的格式。

请参照图2，本申请实施例还提供一种文档标签匹配方法，包括步骤S201-S209，对于该方法的各个步骤的详细阐述如下。

在其中一个实施例中，文档标签库匹配方法包括：

S201、获取用户输入的搜索文本；

S202、基于文档标签库，为所述搜索文本生成第一标签，其中，所述文档标签库基于如上述实施例提供的文档标签生成方法构建获得，所述第一标签包括至少一个标签词；

S203、基于所述文档标签库，为每一文档生成第二标签，其中，所述文档存储于文档库中，所述文档库中存储有多个文档供用户搜索得到，所述第二标签包括至少一个标签词；

S204、将所述第一标签与第二标签进行匹配，并将所述第一标签与所述第二标签相同的部分设为有效标签，其中，所述有效标签包括至少一个标签词；

S205、基于所述第一标签与第二标签，依次获得每一所述文档的标签覆盖度得分，其中，所述标签覆盖度得分用于表征所述文档内容与所述搜索文本的匹配程度；

S206、基于所述有效标签，依次获得每一所述文档的标签紧凑度得分，其中，所述标签紧凑度得分用于表征所述有效标签内容在所述文档内容中的位置靠近程度；

S207、根据所述标签覆盖度得分和所述标签紧凑度得分获得每一所述文档的总体标签匹配得分；

S208、将所述总体标签匹配文档进行排序，得到第一排序结果；

S209、根据预设规则及所述第一排序结果，将所述满足预设规则的所述文档设为与所述搜索文本匹配的文档。

如上述步骤S201-S204所述，当检测到用户在搜索引擎中输入了搜索文本，则获取用户输入的搜索文本；基于已预选生成的文档标签库，为上述的搜索文本生成第一标签；基于已预先生成的文档标签库，为文档库中(如百度文库、知网论文库等)的每一文档生成第二标签，其中，上述的文档存储于文档库中，文档库中存储有多个文档供用户搜索得到；将上述的第一标签与第二标签进行匹配，并将第一标签与第二标签相同的部分设为有效标签，其中，第一标签、第二标签和有效标签中包括至少一个标签词。

示例性的，当用户输入的搜索文本为“windows蓝屏怎么办？”，则基于已预先生成的文档标签库，为搜索文本生成第一标签(“windows”,“win”，“蓝屏”)；文档库中的一个文档的内容为“win10电脑蓝屏重装***……”则基于已预先生成的文档标签库，给该文档生成第二标签(“win”,“win10”，“电脑”，“蓝屏”，“重装***”)，并通过相同的方式为文档库中的每一文档都生成第二标签；将第一标签(“windows”,“win”，“蓝屏”)与第二标签(“win”,“win10”，“电脑”，“蓝屏”，“重装***”)进行匹配，并将第一标签与第二标签相同的部分设为有效标签，其中，第一标签、第二标签和有效标签中包括至少一个标签词，在本实施例中，有效标签则为(“win”，“蓝屏”)。

在一些实施例中，请参照图3，文档标签库生成方法包括：

S301、基于多个用户搜索文本和上述实施例提供的文档标签生成方法，生成多个文档标签；

S302、基于所述多个文档标签，生成文档标签库。

如上述步骤301-S302所述，为了便于后续对文档进行标签自动生成及对文档标签的匹配过程进行简化，可以基于大量的样本数据预先生成文档标签库，以备在实际应用时进行调用，从而提高效率。具体的，基于多个用户搜索文本(即获取用户输入的不同的搜索文本及与搜索结果所对应的被点击文档名称文本和被点击次数)和上述实施例提供的文档标签生成方法，生成多个文档标签；并基于上述的多个文档标签，生成文档标签库。

而为了提高字符串的统计及搜索效率，在数据库生成过程中，还可以引入前缀树的技术，利用多个文档标签构建前缀树，并将由多个文档标签构建而成的前缀树设为文档标签库(前缀树中包含了所有的文档标签)。前缀树又名字典树、单词查找树、Trie树，是一种多路树形结构，是哈希树的变种，是一种用于快速检索的多叉树结构。其典型应用是用于统计和排序大量的字符串(但不仅限于字符串)，所以经常被搜索引擎***用于文本词频统计，它的优点是：最大限度地减少无谓的字符串比较，查询效率高。示例性的，请参照图4，当存在一组文档标签：inn、int、at、age、adv、ant、ate，则由该组文档标签可构建出如图4所示的前缀树。

如上述步骤S205所述，基于上述获得的第一标签与第二标签，依次获得文档库中每一文档的标签覆盖度得分，其中，上述的标签覆盖度得分用于表征文档的内容与搜索文本的匹配程度，标签覆盖度得分越高，则说明文档内容与搜索文本的匹配程度越高。在一些实施例中，上述的覆盖度得分可由以下公式获得：

其中，n为上述第一标签中的标签词数量，num__为上述第二标签中的标签词数量；

且当上述第一标签中的第i个标签词与所述第二标签中的任意一个标签词完全相同时，则tag_i＝1；

且当上述第一标签中的第i个标签词与所述第二标签中的任意一个标签词有部分相同时，则tag_i＝N，N∈(0,1)；

在本实施例中，N可取为0.7。以第一标签为(“windows”,“win”，“蓝屏”)，第二标签为(“win”,“win10”，“电脑”，“蓝屏”，“重装***”)的示例对上述求取标签覆盖度得分的公式进行计算，则：

如上述步骤S206所述，基于有效标签，依次获得文档库中每一文档的标签紧凑度得分，其中，标签紧凑度得分用于表征有效标签内容在文档内容中的位置靠近程度，标签紧凑度得分越高，则说明有效标签中的标签词间的位置越靠近，即有效标签越符合用户真实的搜索意图。

在一些实施例中，请参照图5，所述基于所述有效标签，依次获得每一所述文档的标签紧凑度得分的步骤，包括：

S2061、根据每一所述文档中，所述有效标签中所有标签词在所述文档中的位置，生成位置元素，其中，所述位置元素中包括标签词和标签词的位置信息；

S2062、将各位置元素按序排列，生成第一序列；

S2063、基于所述第一序列，获取第一标签组合，其中，所述第一标签组合包括所述有效标签中的所有标签词，且在所述文档中，所述所有标签词间的位置距离最近；

S2064、根据所述第一标签组合获得所述文档的标签紧凑度得分。

根据上述步骤S2061-S2064所述，根据每一文档中，有效标签中所有标签词在文档内容中的位置，生成位置元素，其中，位置元素中包括标签词和标签词的位置信息；将各位置元素按序排列，生成第一序列；基于上述的第一序列，获取第一标签组合，其中，第一标签组合包括上述有效标签中的所有标签词，且在上述文档中，所有标签词间的位置距离最近。

示例性的，当存在一个文档“document X”，该文档的内容的有效标签中包括了3个便签词，分别为{A,B,C}，则可以根据上述3个标签词的位置，生成位置元素，如(C，2)，则表示标签词“C”的位置为文档标签中的第二个个字符，假设得到了上述3个标签词对应的位置元素，将各位置元素按序排列后生成的第一序列为：

[(C,2),(A,5),(B,10),(C,12),(A,14),(B,23),(A,33),(C,50)]。

则例如[(C,2),(A,5),(B,10)]、[(A,5),(B,10),(C,12)]等标签组合均包含有效标签中的所有标签词，找出所有类似标签组合后，可以在所有标签组合选出所有标签词间的位置距离最近的标签组合作为上述的第一标签组合。在一些实施例中，请参照图6，基于所述第一序列，获取第一标签组合的步骤，包括：

S2063a、依次将第一序列中的每个位置元素设为目标元素，并获取在所述目标元素位置之后，并与所述目标元素距离最近的包含有其他所述标签词的位置元素，生成多个位置元素序列；

S2063b、分别计算每个所述位置元素序列中各标签词的总距离；

S2063c、将所述总距离最小的位置元素序列设为第一标签组合。

如上述步骤S2063a-S2063c所述，示例性的，假设第一序列为：

[(C,2),(A,5),(B,10),(C,12),(A,14),(B,23),(A,33),(C,50)]，依次将第一序列中的每个位置元素设为目标元素，并获取在目标元素位置之后，并与目标元素距离最近的包含有效标签中其他标签词的位置元素，生成多个位置元素序列，在本实施例中，生成的多个位置元素序列包括：[(C,2),(A,5),(B,10)]，[(A,5),(B,10),(C,12)]，[(B,10),(C,12),(A,14)]，[(C,12),(A,14),(B,23)]，[(A,14),(B,23),(C,50)]，[(B,23),(A,33),(C,50)]。

找到所有的位置元素序列后，分别计算每个位置元素序列中各标签词的总距离，以位置元素序列[(C,2),(A,5),(B,10)]为例，标签词C的位置为2，标签词A的位置为5，标签词B的位置为10，则标签词C与A的距离为3个字符的距离长度，标签词A与标签词B的距离为4个字符的距离长度，因此，位置元素序列[(C,2),(A,5),(B,10)]中各标签词的总距离则为7个字符的距离长度，以同样的方式计算其余位置元素序列中各标签词的总距离，则可以找到内聚度最高(即总距离最小)的位置元素序列为[(B,10),(C,12),(A,14)]，则将该位置元素序列设为第一标签组合，其中，该第一标签组合包括了有效标签中的所有标签词，且在文档中，有效标签中的所有标签词间的位置距离最近。

在一些实施例中，上述的标签紧凑度得分可以根据以下公式获得：

其中，L为第一标签组合中各标签词的总距离，M为第一预设距离阈值，K为第二预设距离阈值。

在本实施例中，M的取值可取为5,K的取值可取为20，即，当第一标签组合中各标签词的总距离L小于5时，则标签紧凑度得分score_close为1，当第一标签组合中各标签词的总距离大于20时，则标签紧凑度得分score_close为0，当第一标签组合中各标签词的总距离在5与20之间时，则标签紧凑度得分score_close为1/L。需要说明的是，在其他实施例中，M和K的取值可根据实际的设计需求进行设置，在此不做限定。

如上述步骤S207所述，根据上述计算获得的标签覆盖度得分和标签紧凑度得分获得每一文档的总体标签匹配得分。在一些实施例中，总体标签匹配得分可以根据以下公式获得：

score＝score_cover*(1+t*score_close)，

其中，score即为总体标签匹配得分，score_cover即为标签覆盖度得分，score_close即为标签紧凑度得分，t为权重，权重基于标签覆盖度得分设置。例如，当score_cover的取值大于0.9时，t取值为1，当score_cover的取值小于等于0.9时，取值为0。在其他实施例中，t的取值也可根据实际设计需求进行设置，在此不做限定。

如上述步骤S208-S209所述，通过上述获得总体标签匹配得分的方式，分别计算得到文档库中所有文档的总体标签匹配得分，然后根据总体标签匹配得分的按高低顺序排序，得到第一排序结果，例如，文档库中包括文档A、文档B、文档C和文档D，其中，各文档的总体标签匹配得分的排序如下：文档A<文档B<文档C<文档D；根据预设规则及上述的第一排序结果，将满足预设规则的文档设为与用户当次输入的搜索文本所匹配的文档。示例性的，当预设规则为选择文档库中总体标签匹配得分排名前三的文档作为用户当次输入的搜索文本所匹配的文档，则在本实施例中，文档B、文档C和文档D则被选为与用户当次输入的搜索文本所匹配的文档供用户搜索得到。

通过将标签覆盖度得分与标签紧凑度得分结合得到总体标签匹配得分，将总体标签匹配得分作为衡量标准共同判定文档标签与用户搜索文本的匹配度，并选择总体标签匹配得分满足预设规则的文档作为用户当次输入的搜索文本所匹配的文档供用户搜索得到的方式，可以更好地提高文档标签、文档内容及用户搜索文本(即真实搜索意图)间的匹配度。

本申请所提供的一种文档标签生成及文档标签匹配方法，收集用户输入的搜索文本和与所述搜索文本对应的点击的文档名称文本；将所述搜索文本相同，但对应点击的所述文档名称文本不同的记录进行整合，得到第一整合结果，其中，所述第一整合结果包括所述搜索文本、各所述文档名称文本以及各所述文档名称文本的点击次数；根据所述第一整合结果获得所述搜索文本与各所述文档名称文本的最长公共字符串；根据所述最长公共字符串与所述点击次数，获得所述最长公共字符串中的点击频次最大的最长公共字符串；将所述点击频次最大的最长公共字符串设为标签候选词，其中，所述标签候选词为至少一个；将所述便签候选词中的至少一个设为文档标签。通过自动生成文档标签且将点击频次最大的最长公共字符串设为标签候选词的方式，简化了文档标签的创建过程，且提高了用户的搜索意图与文档标签的匹配度。

请参照图7，本申请实施例中还提供一种文档标签生成装置，包括：

收集模块701，用于收集用户输入的搜索文本和与所述搜索文本对应的点击的文档名称文本；

整合模块702，用于将所述搜索文本相同，但对应点击的所述文档名称文本不同的记录进行整合，得到第一整合结果，其中，所述第一整合结果包括所述搜索文本、各所述文档名称文本以及各所述文档名称文本的被点击次数；

第一获取模块703，用于根据所述第一整合结果获得所述搜索文本与各所述文档名称文本的最长公共字符串；

第二获取模块704，用于根据所述最长公共字符串与所述被点击次数，获得所述最长公共字符串中的点击频次最大的最长公共字符串；

标签候选词设置模块705，用于将所述点击频次最大的最长公共字符串设为标签候选词，其中，所述标签候选词为至少一个；

文档标签生成模块706，用于将所述标签候选词中的至少一个设为文档标签。

在本实施例中，收集模块701可以根据用户的搜索日志和点击(点击搜索得到的文档)日志收集到用户的在搜索引擎输入的搜索文本及其对应该次搜索点击的文档名称文本。为了扩大样本数据，可以对一段时间(如一个月)内的搜索、点击日志进行集中的信息收集。

整合模块702将搜索文本相同，但对应点击的文档名称文本不同的记录进行整合，得到第一整合结果，其中，第一整合结果包括搜索文本、各不同的文档名称文本以及各不同文档名称文本的被点击次数。示例性的，假设统计的日志记录中有一被多次输入的相同的搜索文本为“win10蓝屏”，但每次搜索结果所对应的被点击的文档名称文本分别为“win10蓝屏怎么办”、“电脑蓝屏的处理办法”、“新买的MAC电脑蓝屏了”和“蓝屏重装***”，且被点击的文档名称文本所对应的被点击次数分别为“10”、“10”、“1”、“2”，对上述的日志记录进行整合，则得到第一整合结果。

第一获取模块703根据第一整合结果获得用户的搜索文本与各文档名称文本的最长公共字符串；第二获取模块704根据上述的最长公共字符串与被各文档名称文本所对应的被点击次数，获得上述最长公共字符串中的点击频次最大的最长公共字符串；标签候选词设置模块705将上述点击频次最大的最长公共字符串设为标签候选词，其中，标签候选词为至少一个；文档标签生成模块706将上述便签候选词中的至少一个设为文档标签。仍以上述所举实例进行说明：上述的实施例中，最长公共字符串“win10蓝屏”和“蓝屏”的被点击频次分别为10次和13次，因此，则将“蓝屏”设为便签候选词，而在其他一些实施例中，可能存在被点击频次相同但文本内容不同的最长公共字符串，如最长公共字符串分别为“win10蓝屏”和“蓝屏”，且上述两个最长公共字符串的被点击频次均为“10”，以及“10”已是本次整合结果中最大的被点击频次，则将“win10蓝屏”和“蓝屏”均设为候选标签词，在实际应用中，可将“win10蓝屏”和“蓝屏”中的其中一个设为文档标签，也可将“win10蓝屏”和“蓝屏”均设为文档标签。需要说明的是，在实际应用中，候选标签词的个数不仅限于一个或两个，还可能是两个以上，在此不做限定。

在实际的应用中，通过上述方式可以获取多个相关的标签词，为了去除冗余及保证文档标签词的具意性(例如当“的”、“地”等介词也被定义为文档标签词，但其并无具体的语义)，在一些实施例中，可将长度不满足预设要求(例如预设要求为长度不为1，且长度不能大于10)的文档标签词剔除，并且，如果一个长文档标签词可由短文档标签词组成，也可以将长文档标签词剔除，去重保留短标签词。

请参照图8，本申请实施例中还提供一种文档标签匹配装置，包括：

搜索文本获取模块801，用于获取用户输入的搜索文本；

第一标签生成模块802，用于基于文档标签库为所述搜索文本生成第一标签，其中，所述文档标签库基于如上述实施例提供的文档标签生成方法构建获得，所述第一标签包括至少一个标签词；

第二标签生成模块803，用于基于所述文档标签库为每一文档生成第二标签，其中，所述文档存储于文档库中，所述文档库中存储有多个文档供用户搜索得到，所述第二标签包括至少一个标签词；

有效标签生成模块804，用于将所述第一标签与第二标签进行匹配，并将所述第一标签与所述第二标签相同的部分设为有效标签，其中，有效标签包括至少一个标签词；

标签覆盖度得分获取模块805，用于基于所述第一标签与第二标签，依次获得每一所述文档的标签覆盖度得分，其中，所述标签覆盖度得分用于表征所述文档内容与所述搜索文本的匹配程度；

紧凑度得分获取模块806，用于基于所述有效标签，依次获得每一所述文档的标签紧凑度得分，其中，所述标签紧凑度得分用于表征所述标签内容在所述文档内容中的位置靠近程度；

总体标签匹配得分获取模块807，用于根据所述标签覆盖度得分和所述标签紧凑度得分获得每一所述文档的总体标签匹配得分；

排序模块808，用于将所述总体标签匹配文档进行排序，得到第一排序结果；

匹配文档设置模块809，用于根据预设规则及所述第一排序结果，将所述满足预设规则的所述文档设为与所述搜索文本匹配的文档。

在本实施例中，当检测到用户在搜索引擎中输入了搜索文本，则通过搜索文本获取模块801获取用户输入的搜索文本；通过第一标签生成模块802基于已预选生成的文档标签库，为上述的搜索文本生成第一标签；第二标签生成模块803基于已预先生成的文档标签库，为文档库中(如百度文库、知网论文库等)的每一文档生成第二标签，其中，上述的文档存储于文档库中，文档库中存储有多个文档供用户搜索得到；有效标签生成模块804将上述的第一标签与第二标签进行匹配，并将第一标签与第二标签相同的部分设为有效标签，其中，第一标签、第二标签和有效标签中包括至少一个标签词。

在本实施例中，为了便于后续对文档进行标签自动生成及对文档标签的匹配过程进行简化，可以基于大量的样本数据生成文档标签库，以备在实际应用时进行调用，从而提高效率。具体的，基于多个用户搜索文本(即获取用户输入的不同的搜索文本及与搜索结果所对应的被点击文档名称文本和被点击次数)和上述实施例提供的文档标签生成方法，生成多个文档标签；并基于上述的多个文档标签，生成文档标签库。

在一些实施例中，为了提高字符串的统计及搜索效率，在文档标签库生成过程中，可以引入前缀树的技术，利用多个文档标签构建前缀树，并将由多个文档标签构建而成的前缀树设为文档标签库(前缀树中包含了所有的文档标签)。前缀树又名字典树，单词查找树，Trie树，是一种多路树形结构，是哈希树的变种，是一种用于快速检索的多叉树结构。其典型应用是用于统计和排序大量的字符串(但不仅限于字符串)，所以经常被搜索引擎***用于文本词频统计，它的优点是：最大限度地减少无谓的字符串比较，查询效率高。

在本实施例中，还通过标签覆盖度得分获取模块805基于上述获得的第一标签与第二标签，依次获得文档库中每一文档的标签覆盖度得分，其中，上述的标签覆盖度得分用于表征文档的内容与搜索文本的匹配程度，标签覆盖度得分越高，则说明文档内容与搜索文本的匹配程度越高；以及通过紧凑度得分获取模块806基于有效标签，依次获得文档库中每一文档的标签紧凑度得分，其中，标签紧凑度得分用于表征有效标签内容在文档内容中的位置靠近程度，标签紧凑度得分越高，则说明有效标签中的标签词间的位置越靠近，即有效标签越符合用户真实的搜索意图；之后通过体标签匹配得分获取模块807根据上述计算获得的标签覆盖度得分和标签紧凑度得分获得文档库中每一文档的总体标签匹配得分；然后通过排序模块808根据总体标签匹配得分的按高低顺序排序，得到第一排序结果，例如，文档库中包括文档A、文档B、文档C和文档D，其中，各文档的总体标签匹配得分的排序如下：文档A<文档B<文档C<文档D；最后通过匹配文档设置模块809，根据预设规则及上述的第一排序结果，将满足预设规则的文档设为与用户当次输入的搜索文本所匹配的文档。示例性的，当预设规则为选择文档库中总体标签匹配得分排名前三的文档作为用户当次输入的搜索文本所匹配的文档，则在本实施例中，文档B、文档C和文档D则被选为与用户当次输入的搜索文本所匹配的文档供用户搜索得到。

可以理解地，本申请所提供的文档标签生成装置以及文档标签匹配装置的各组成部分可以分别实现上述任一实施例提供的文档标签生成方法、文档标签库生成方法和文档标签匹配方法任一项的功能，具体结构不再赘述。

请参照图9，本申请实施例中还提供一种计算机设备，其内部结构可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作***、计算机程序和数据库。该内存器为存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储一种文档标签生成方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例提供的文档标签生成方法、文档标签库生成方法以及文档标签匹配方法中的一种或多种方法。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质可以是非易失性的，也可以是易失性的，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例提供的文档标签生成方法、文档标签库生成方法以及文档标签匹配方法中的一种或多种方法。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、扩增型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本申请所提供的一种文档标签生成方法和文档标签匹配方法，以及文档标签生成装置和文档标签匹配装置，收集用户输入的搜索文本和与所述搜索文本对应的点击的文档名称文本；将所述搜索文本相同，但对应点击的所述文档名称文本不同的记录进行整合，得到第一整合结果，其中，所述第一整合结果包括所述搜索文本、各所述文档名称文本以及各所述文档名称文本的点击次数；根据所述第一整合结果获得所述搜索文本与各所述文档名称文本的最长公共字符串；根据所述最长公共字符串与所述点击次数，获得所述最长公共字符串中的点击频次最大的最长公共字符串；将所述点击频次最大的最长公共字符串设为标签候选词，其中，所述标签候选词为至少一个；将所述便签候选词中的至少一个设为文档标签。通过自动生成文档标签且将点击频次最大的最长公共字符串设为标签候选词的方式，简化了文档标签的创建过程，且提高了用户的搜索意图与文档标签的匹配度。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种文档标签生成及匹配方法，其特征在于，所述文档标签的生成方法包括：

根据所述最长公共字符串与所述被点击次数，获得所述最长公共字符串中的点击次数最大的最长公共字符串；

将所述点击次数最大的最长公共字符串设为标签候选词，其中，所述标签候选词为至少一个；

将所述标签候选词中的至少一个设为文档标签；

所述文档标签的匹配方法包括：

获取用户输入的搜索文本；

基于文档标签库，为所述搜索文本生成第一标签，其中，所述文档标签库基于所述文档标签的生成方法得到的文档标签构建获得，所述第一标签包括至少一个标签词；

基于所述文档标签库，为每一文档生成第二标签，其中，所述文档存储于文档库中，所述文档库中存储有多个文档供用户搜索得到，所述第二标签包括至少一个标签词；

将所述第一标签与第二标签进行匹配，将所述第一标签与所述第二标签相同的部分设为有效标签，其中，所述有效标签包括至少一个标签词；

将所述总体标签匹配文档进行排序，得到第一排序结果；

2.根据权利要求1所述的文档标签生成及匹配方法，其特征在于，所述基于所述有效标签，依次获得每一所述文档的标签紧凑度得分的步骤，包括：

将各位置元素按序排列，生成第一序列；

根据所述第一标签组合获得所述文档的标签紧凑度得分。

3.根据权利要求2所述的文档标签生成及匹配方法，其特征在于，基于所述第一序列，获取第一标签组合的步骤，包括：

分别计算每个所述位置元素序列中各标签词的总距离；

将所述总距离最小的位置元素序列设为第一标签组合。

4.根据权利要求1所述的文档标签生成及匹配方法，其特征在于，所述总体标签匹配得分根据以下公式获得：

，

其中，为总体标签匹配得分，/>为标签覆盖度得分，/>为标签紧凑度得分，t为权重，所述权重基于所述标签覆盖度得分设置。

5.根据权利要求1所述的文档标签生成及匹配方法，其特征在于，所述标签覆盖度得分根据以下公式获得：

，

其中，为所述第一标签中的标签词数量，/>为所述第二标签中的标签词数量；

且当所述第一标签中的第个标签词与所述第二标签中的任意一个标签词完全相同时，则/>；

且当所述第一标签中的第个标签词与所述第二标签中的任意一个标签词有部分相同时，则 />；

且当所述第一标签中的第个标签词与所述第二标签中的任意一个标签词均不相同时，则/>。

6.根据权利要求2所述的文档标签生成及匹配方法，其特征在于，所述标签紧凑度得分根据以下公式获得：

7.一种文档标签生成及匹配装置，其特征在于，所述文档标签的生成装置包括：

收集模块，收集用户输入的搜索文本和与所述搜索文本对应的点击的文档名称文本；

整合模块，用于将所述搜索文本相同，但对应点击的所述文档名称文本不同的记录进行整合，得到第一整合结果，其中，所述第一整合结果包括所述搜索文本、各所述文档名称文本以及各所述文档名称文本的点击次数；

第二获取模块，用于根据所述最长公共字符串与所述点击次数，获得所述最长公共字符串中的点击次数最大的最长公共字符串；

标签候选词设置模块，用于将所述点击次数最大的最长公共字符串设为标签候选词，其中，所述标签候选词为至少一个；

文档标签生成模块，用于将所述标签候选词中的至少一个设为文档标签；

所述文档标签的匹配装置包括：

搜索文本获取模块，用于获取用户输入的搜索文本；

第一标签生成模块，用于为所述搜索文本生成第一标签，其中，所述文档标签库基于所述文档标签的生成方法构建获得，所述第一标签包括至少一个标签词；

第二标签生成模块，用于基于所述文档标签库，为每一文档生成第二标签，其中，所述文档存储于文档库中，所述文档库中存储有多个文档供用户搜索得到，所述第二标签包括至少一个标签词；

标签覆盖度得分获取模块，用于基于所述第一标签与第二标签，依次获得每一所述文档的标签覆盖度得分，其中，所述覆盖度得分用于表征所述文档内容与所述搜索文本的匹配程度；

紧凑度得分获取模块，用于基于所述有效标签，依次获得每一所述文档的标签紧凑度得分，其中，所述紧凑度得分用于表征所述标签内容在所述文档内容中的位置靠近程度；

8.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。