CN111737445A

CN111737445A - 知识库搜索方法及装置

Info

Publication number: CN111737445A
Application number: CN202010572936.7A
Authority: CN
Inventors: 申亚坤
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-02
Anticipated expiration: 2040-06-22
Also published as: CN111737445B

Abstract

本发明提供一种知识库搜索方法及装置，其中方法包括：接收坐席终端发送的当前字符串；对所述当前字符串执行分词操作获得当前分词集；计算所述当前分词集与各个知识点文档的第一相似度；从各个知识点文档的打标字段中、提取与所述坐席终端对应的各个个性打标分词集；计算所述当前分词集与各个知识点文档的个性打标分词集的第二相似度；基于各个知识点文档的第一相似度和第二相似度，计算各个知识点文档的综合相似度；按综合相似度由高至低的顺序、推送多个知识点文档至所述坐席终端。本发明基于综合相似度来推荐知识点文档，可以使得最终推荐得到的知识点文档更加准确。

Description

知识库搜索方法及装置

技术领域

本申请涉及通信技术领域，尤其涉及知识库搜索方法及装置。

背景技术

在坐席提供服务的过程中，坐席从知识库检索出所需知识的效率，决定了服务质量的高低。若检索效率快、精度高则客户满意度高；若检索效率慢、精度低则客户满意度低。

目前坐席搜索知识库的过程中，通常会输入知识点的关键字进行搜索，知识库会寻找到与关键字相关的一个或多个知识点，供坐席查看。

但是，由于不同坐席对于知识点搜索时的描述不同，所以在使用不同描述时，搜索得到的知识点便差距较大，导致目前知识库仅基于关键字进行搜索的方案，其准确性较低。

发明内容

鉴于此，本申请提供一种知识库搜索方法及装置，可以提高搜索的准确性。

为了实现上述目的，本发明提供了下述技术特征：

一种知识库搜索方法，包括：

接收坐席终端发送的当前字符串；

对所述当前字符串执行分词操作获得当前分词集；

计算所述当前分词集与各个知识点文档的第一相似度；

从各个知识点文档的打标字段中、提取与所述坐席终端对应的各个个性打标分词集；

计算所述当前分词集与各个知识点文档的个性打标分词集的第二相似度；

基于各个知识点文档的第一相似度和第二相似度，计算各个知识点文档的综合相似度；

按综合相似度由高至低的顺序、推送多个知识点文档至所述坐席终端。

可选的，所述计算所述当前分词集与各个知识点文档的第一相似度包括：

使用TF-IDF算法，计算所述当前分词集与各个知识点文档的第一相似度。

可选的，在所述按综合相似度由高至低的顺序、推送多个知识点文档至所述坐席终端之后，还包括：

接收所述坐席终端发送的、包含一知识点文档标识的添加指令；

将所述当前分词集添加至所述知识点文档对应的打标字段中、与坐席终端对应的个性打标分词集内。

可选的，在所述接收坐席终端发送的当前字符串之前，还包括：

接收坐席终端发送的历史字符串；

对所述历史字符串执行分词操作获得历史分词集；

计算所述历史分词集与各个知识点文档的相似度；

按相似度由高至低的顺序、推送多个知识点文档至所述坐席终端；

将所述历史分词集添加至所述知识点文档对应的打标字段中、与坐席终端对应的个性打标分词集内。

可选的，在接收坐席终端发送的当前字符串之后，还包括：

对所述当前字符串执行预处理操作。

一种知识库搜索装置，包括：

接收单元，用于接收坐席终端发送的当前字符串；

分词单元，用于对所述当前字符串执行分词操作获得当前分词集；

第一计算单元，用于计算所述当前分词集与各个知识点文档的第一相似度；

提取单元，用于从各个知识点文档的打标字段中、提取与所述坐席终端对应的各个个性打标分词集；

第二计算单元，用于计算所述当前分词集与各个知识点文档的个性打标分词集的第二相似度；

第三计算单元，用于基于各个知识点文档的第一相似度和第二相似度，计算各个知识点文档的综合相似度；

推送单元，用于按综合相似度由高至低的顺序、推送多个知识点文档至所述坐席终端。

可选的，所述第一计算单元包括：使用TF-IDF算法，计算所述当前分词集与各个知识点文档的第一相似度。

可选的，在所述推送单元之后，还包括：

添加单元，用于接收所述坐席终端发送的、包含一知识点文档标识的添加指令；将所述当前分词集添加至所述知识点文档对应的打标字段中、与坐席终端对应的个性打标分词集内。

可选的，在接收单元之前，还包括：

构建单元，用于接收坐席终端发送的历史字符串；对所述历史字符串执行分词操作获得历史分词集；计算所述历史分词集与各个知识点文档的相似度；按综合相似度由高至低的顺序、推送多个知识点文档至所述坐席终端；接收所述坐席终端发送的、包含一知识点文档标识的添加指令；将所述历史分词集添加至所述知识点文档对应的打标字段中、与坐席终端对应的个性打标分词集内。

可选的，在接收单元之后，还包括：

预处理单元，用于对所述当前字符串执行预处理操作。

通过以上技术手段，可以实现以下有益效果：

本发明提供了知识库搜索方法，可以计算当前字符串与知识点文档的第一相似度，计算当前字符串与各个知识点文档中个性打标分词集的第二相似度，基于各个知识点文档的第一相似度和第二相似度，计算各个知识点文档的综合相似度，并按综合相似度由高至低的顺序、推送多个知识点文档至所述坐席终端。

本发明不仅计算当前字符串与知识点文档的第一相似度，还计算当前字符串与知识点文档中个性打标分词集的第二相似度，两者相互结合从而得到综合相似度。

基于综合相似度来推荐知识点文档，可以使得最终推荐得到的知识点文档更加准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种知识库搜索***的结构示意图；

图2为本申请实施例公开的一种添加个性打标分词集的方法的流程图；

图3为本申请实施例公开的一种知识库搜索装置的结构示意图；

图4为本申请实施例公开的一种知识库搜索装置的结构示意图；

图5为本申请实施例公开的又一种知识库搜索装置的结构示意图。

具体实施方式

术语解释：

TF-IDF的主要思想为如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF-IDF实际上是：TF*IDF，TF词频(Term Frequency)，IDF反文档频率(InverseDocument Frequency)。TF表示词条在文档d中出现的频率。

IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。

在一份给定的文件里，词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。

逆向文件频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数。

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，本发明提供一种知识库搜索***包括：多个坐席终端100和服务器200。

参见图2，本发明提供一种添加个性打标分词集的方法，包括以下步骤：

步骤S201：接收坐席终端发送的历史字符串。

服务器接收坐席终端发送的历史字符串，为了与下文区分，此处利用历史字符串表示。

对历史字符串进行预处理操作，例如，将拼音转化为汉字、去除互联网粘贴格式、去除标点符号等操作。

步骤S202：对所述历史字符串执行分词操作获得历史分词集。

利用专业的分词器对历史字符串执行分词操作，获得历史分词集。历史分词集包括多个分词。

步骤S203：计算所述历史分词集与各个知识点文档的相似度。

为了计算历史分词集与各个知识点文档的相似度，可以使用TF-IDF算法，计算当前分词集与各个知识点文档的第一相似度。

步骤S204：按相似度由高至低的顺序、推送多个知识点文档至所述坐席终端。

按相似度由高至低的顺序确定知识点文档，可以理解的是，知识点文档的相似度越高，则排名越靠前。知识点文档的相似度月底，则排名越靠后。

为了便于坐席查看，可以按由高至低的顺序选择多个知识点文档，然后推送至坐席终端，以供坐席终端查看多个知识点文档，并从中选择自己需要的、与历史字符串对应的知识点文档。

步骤S205：接收所述坐席终端发送的、包含一知识点文档标识的添加指令。

在坐席终端查看知识点文档后，可以从中选择自己需要的、与历史字符串对应的知识点文档。若坐席希望以后还可以在搜索相同历史字符串时，仍然出现该知识点文档，则可以对该知识点文档进行打标操作。

也即坐席终端可以发送的、包含一知识点文档标识的添加指令，以便添加历史分词集至该知识点文档的打标字段中。

步骤S206：将所述历史分词集添加至所述知识点文档对应的打标字段中、与坐席终端对应的个性打标分词集内。

由于不同坐席的文字描述习惯不同，所以相同的知识点文档，不同坐席习惯于使用不同的历史字符串，为了增加个性化差异、满足不同坐席的使用习惯，在打标字段中构建不同坐席的打标分词集，以便将所述历史分词集添加至所述知识点文档对应的打标字段中、与坐席终端对应的个性打标分词集内。

参见图3，本发明提供一种知识库搜索方法，应用于图1所示的服务器，所述方法包括：

步骤S301：接收坐席终端发送的当前字符串。

坐席终端可以在搜索框中输入当前字符串，服务器接收坐席终端发送的当前字符串。

对当前字符串进行预处理操作，例如，将拼音转化为汉字、去除互联网粘贴格式、去除标点符号等操作。

步骤S302：对所述当前字符串执行分词操作获得当前分词集。

步骤S303：计算所述当前分词集与各个知识点文档的第一相似度。

以一个知识点文档为例，使用TF-IDF算法计算当前分词集中各个分词在知识点文档的TF-IDF值，将各个分词的TF-IDF值的总和，作为当前分词集与该知识点文档的第一相似度。

针对其他知识点文档的处理方式是一致的。

步骤S304：从各个知识点文档的打标字段中、提取与所述坐席终端对应的各个个性打标分词集。

各个知识点文档的打标字段中具有与坐席终端对应的个性打标分词集，为了更好的搜索到知识点文档，可以为每个坐席终端设置个性打标分词集，以便存储不同坐席终端按使用习惯输入字符串的分词。

步骤S305：计算所述当前分词集与各个知识点文档的个性打标分词集的第二相似度。

按照分词与分词的相似度计算方式，计算当前分词集和各个知识点文档的个性打标分词集的第二相似度。

步骤S306：基于各个知识点文档的第一相似度和第二相似度，计算各个知识点文档的综合相似度。

第一相似度为基于知识点文档计算得到的相似度，第二相似度为基于个性打标分词集计算得到的相似度，两者的叠加可以获得各个知识点文档的综合相似度。

步骤S307：按综合相似度由高至低的顺序、推送多个知识点文档至所述坐席终端。

可选的，服务器还可以接收所述坐席终端发送的、包含一知识点文档标识的添加指令；将所述当前分词集添加至所述知识点文档对应的打标字段中、与坐席终端对应的个性打标分词集内，以便更加丰富个性打标分词集。

通过以上技术手段，可以实现以下有益效果：

本发明提供了一种知识库搜索装置实施例一，参见图4包括：

接收单元41，用于接收坐席终端发送的当前字符串；

分词单元42，用于对所述当前字符串执行分词操作获得当前分词集；

第一计算单元43，用于计算所述当前分词集与各个知识点文档的第一相似度；

提取单元44，用于从各个知识点文档的打标字段中、提取与所述坐席终端对应的各个个性打标分词集；

第二计算单元45，用于计算所述当前分词集与各个知识点文档的个性打标分词集的第二相似度；

第三计算单元46，用于基于各个知识点文档的第一相似度和第二相似度，计算各个知识点文档的综合相似度；

推送单元47，用于按综合相似度由高至低的顺序、推送多个知识点文档至所述坐席终端。

其中所述第一计算单元包括：使用TF-IDF算法，计算所述当前分词集与各个知识点文档的第一相似度。

本发明提供了一种知识库搜索装置实施例二，参见图5包括：

其中在所述推送单元47之后，还包括：

添加单元48，用于接收所述坐席终端发送的、包含一知识点文档标识的添加指令；将所述当前分词集添加至所述知识点文档对应的打标字段中、与坐席终端对应的个性打标分词集内。

在接收单元41之前，还包括：

构建单元40，用于接收坐席终端发送的历史字符串；对所述历史字符串执行分词操作获得历史分词集；计算所述历史分词集与各个知识点文档的相似度；按综合相似度由高至低的顺序、推送多个知识点文档至所述坐席终端；接收所述坐席终端发送的、包含一知识点文档标识的添加指令；将所述历史分词集添加至所述知识点文档对应的打标字段中、与坐席终端对应的个性打标分词集内。

可选的，在接收单元之后，还包括：预处理单元，用于对所述当前字符串执行预处理操作。

通过以上技术手段，可以实现以下有益效果：

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种知识库搜索方法，其特征在于，包括：

接收坐席终端发送的当前字符串；

对所述当前字符串执行分词操作获得当前分词集；

计算所述当前分词集与各个知识点文档的第一相似度；

2.如权利要求1所述的方法，其特征在于，所述计算所述当前分词集与各个知识点文档的第一相似度包括：

3.如权利要求2所述的方法，其特征在于，在所述按综合相似度由高至低的顺序、推送多个知识点文档至所述坐席终端之后，还包括：

4.如权利要求1所述的方法，其特征在于，在所述接收坐席终端发送的当前字符串之前，还包括：

接收坐席终端发送的历史字符串；

对所述历史字符串执行分词操作获得历史分词集；

计算所述历史分词集与各个知识点文档的相似度；

5.如权利要求1所述的方法，其特征在于，在接收坐席终端发送的当前字符串之后，还包括：

对所述当前字符串执行预处理操作。

6.一种知识库搜索装置，其特征在于，包括：

接收单元，用于接收坐席终端发送的当前字符串；

7.如权利要求6所述的装置，其特征在于，所述第一计算单元包括：使用TF-IDF算法，计算所述当前分词集与各个知识点文档的第一相似度。

8.如权利要求7所述的装置，其特征在于，在所述推送单元之后，还包括：

9.如权利要求6所述的装置，其特征在于，在接收单元之前，还包括：

10.如权利要求6所述的装置，其特征在于，在接收单元之后，还包括：

预处理单元，用于对所述当前字符串执行预处理操作。