CN112036906A

CN112036906A - 一种数据处理方法、装置、设备

Info

Publication number: CN112036906A
Application number: CN202010761316.8A
Authority: CN
Inventors: 王岗
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-12-04
Anticipated expiration: 2040-07-31
Also published as: CN112036906B

Abstract

本申请实施例公开一种数据处理方法、装置、设备，方法包括用户服务端将接收到问题发送至云端，接收由云端发送的对问题进行预处理后得到的分词文本以及基于预设的通用知识库对分词文本进行识别后得到的第一问答对集；将分词文本与预设的本地知识库进行匹配，得到第二问答对集，将第一问答对集、第二问答对集进行合并，计算分词文本和合并后的问答对集中的问题的相似度；将计算得到的相似度与预设的相似度阈值进行比较以确定保留的所有问答对，将所有问答对中的答案发送至应用服务端并由应用服务端发送至对应的客户端以进行展示。本申请可以满足企业对智能客服机器人定制化设计和私有化部署的同时实现智能客服机器人在不同金融业务领域的迁移复用。

Description

一种数据处理方法、装置、设备

技术领域

本发明属于人工智能领域，尤其涉及一种数据处理方法、装置、设备。

背景技术

智能客服***是一种为了缓解“人工客服响应”和“用户咨询需求”之间的供需矛盾，面向所有领域和行业的大规模的知识处理自动问答***，是涉及到自然语言处理、知识图谱、大数据存储和运算等多领域跨学科的应用技术，在一定程度上能够为现代企业和大量用户之间的沟通提供一种有效的解决方案。智能客服***能够在APP、WAP、PC三端为传统企业，尤其是传统金融服务行业，提供自动问答响应功能，缓解人工客服的工作压力，降低企业人力成本，同时提升用户体验，提升企业服务的及时性、稳定性、准确性和规范性。

现代商业模式下，智能客服采用了云部署和私有化部署两种模式，支持从电脑网页、手机终端、电话中心呼叫在内的全渠道。但一直以来领域内智能客服的服务输出和推广却收效不佳。以金融服务领域为例，智能客服除了实现基本的通用会话功能外，还需要满足甲方企业的定制化需求，建立起针对企业现有业务模式、产品市场的专业知识库，在此基础上构建起企业专属的智能客服***。

但智能客服机器人基础服务的运行依赖于大规模集群、高性能的数据存储和运算单元以及成熟的研发后台支持，所以SaaS化云部署无疑是确保企业能够在低成本下获得稳定的智能客服服务的理想方式；但金融领域的信息敏感性又限制金融企业只能接受局域环境下的私有化部署。因此，一方面是金融行业的信息安全性隔离，另一方面是智能客服机器人跨环境私有化部署带来的巨大技术成本，以及后期运维的困难，导致现有的部署方式无法满足金融行业的需求。

发明内容

为了解决现有技术的问题，本发明提出一种数据处理方法、装置、设备，本申请可以满足企业对智能客服机器人定制化设计和私有化部署需求的同时，实现智能客服机器人在不同金融业务领域的迁移复用，实现低成本的共享知识转移，从而真正满足智能客服机器人在金融领域跨业务、跨单位的迁移复用。

本发明实施例提供的具体技术方案如下：

第一方面公开了一种数据处理方法，所述方法包括：

用户服务端将接收到的用户提出的问题发送至云端，接收由所述云端发送的对所述用户提出的问题进行预处理后得到的分词文本以及基于预设的通用知识库对所述分词文本进行识别后得到的第一问答对集；

将所述分词文本与预设的本地知识库进行匹配，得到第二问答对集，将所述第一问答对集、第二问答对集进行合并，计算所述分词文本和合并后的问答对集中的问题的相似度；

将计算得到的相似度与预设的相似度阈值进行比较，确定与比较结果相匹配的问答对，将确定的问答对中的答案发送至应用服务端并由所述应用服务端发送至对应的客户端以进行展示。

优选的，所述云端基于预设的通用知识库对所述分词文本进行识别得到的第一问答对集具体包括：

所述云端对所述分词文本的文本长度进行判断；

当所述分词文本的文本长度小于第一预设值时，将所述分词文本转化成词向量，将转换得到的词向量输入至预先训练好的第一识别模型中，得到关于所述用户提出的问题的分类结果；

当所述分类结果与预设的类别相同时，将所述转换得到的词向量输入至预设的第二识别模型中，得到与所述用户提出的问题相匹配的在所述分类结果下的所述第一问答对集；其中，所述第一识别模型、第二识别模型根据预设的语料库以及所述通用知识库训练得到；

当所述分词文本的文本长度大于等于第一预设值时，在所述通用知识库中全量搜索与所述分词文本相匹配的问答对，将匹配得到的问答对确定为所述第一问答对集。

优选的，所述第一识别模型、第二识别模型的获取方法包括：

对所述通用知识库中的所有问答对进行分类处理，得到与每一类别相对应的问答对；

基于预设的语料库，建立样本库；其中，所述样本库为关于日常客服问答对的集合；

基于分类后得到的所有类别对所述样本库中的所有问题进行标注，同时基于分类后的问答对确定与所述样本库中每一个问题相匹配的问答对；

根据标注后的所述样本库中的所有问题训练第一基础模型，得到所述第一识别模型；

根据所述样本库中的所有问题以及与每一个问题相匹配的分类后的问答对训练第二基础模型，得到所述第二识别模型。

优选的，所述云端对所述用户提出的问题进行预处理得到分词文本具体包括：

所述云端基于预设的字典树对所述用户提出的问题进行分词处理，得到分词结果；

对所述分词结果进行判断，当所述分词结果满足预设的判断条件时，对所述分词结果进行纠错并提取关键词，得到所述分词文本。

优选的，所述云端基于预设的字典树对所述用户提出的问题进行分词处理之前还包括：

所述云端基于预设的降噪模型对所述用户提出的问题进行清洗。

优选的，所述方法还包括：

按照预设的更新周期对所述字典树进行更新，具体包括：

对更新周期前的所有语料进行分词，得到候选新词集合；

利用互信息和左右熵对候选新词集合中的所有候选新词进行过滤；

将过滤后得到的候选新词与所述字典树进行对比以确定目标新词；

基于所述目标新词对所述字典树进行更新。

优选的，所述云端将所述第一问答对集发送至所述用户服务端之前，所述方法还包括：

所述云端计算所述分词文本与所述第一问答对集中的问题的相似度；

将计算得到的所述分词文本与所述第一问答对集中的问题的相似度与所述相似度阈值进行比较，确定与比较结果相匹配的问答对；

所述云端将所述第一问答对集发送至所述用户服务端具体包括：

所述云端将确定得到的与比较结果相匹配的问答对发送至所述用户服务端；

所述用户服务端将所述第一问答对集、第二问答对集进行合并，计算所述分词文本和合并后的问答对集中的问题的相似度具体包括：

所述用户服务端将确定得到的与比较结果相匹配的问答对、第二问答对集进行合并，计算所述分词文本和合并后的问答对集中的问题的相似度。

优选的，所述将计算得到的相似度与预设的相似度阈值进行比较，确定与比较结果相匹配的问答对，将确定的问答对中的答案发送至应用服务端并由所述应用服务端发送至对应的客户端具体包括：

将计算得到的每个相似度与预设的相似度可信阈值、相似度可用阈值进行比较；

若存在高于所述相似度可信阈值的相似度，则在合并后的问答对集中获取相似度最高时所对应的问答对，并将相似度最高时所对应的问答对中的答案发送至应用服务端并由所述应用服务端发送至对应的客户端；

若所有相似度低于所述相似度可信阈值且存在高于所述相似度可用阈值的相似度时，则对合并后的问答对集中高于所述相似度可用阈值的相似度所对应的问答对进行降序排列，根据预设的筛选规则在降序排列的问答对中获取预定数量的问答对，将筛选得到的预定数量的问答对中的答案发送至应用服务端并由所述应用服务端发送至对应的客户端；

若所有相似度低于所述相似度可用阈值，则在预设的目标规则库中匹配与所述分词文本相对应的问答对并将匹配得到的问答对中的答案发送至应用服务端并由所述应用服务端发送至对应的客户端。

第二方面，公开了一种数据处理装置，所述装置包括：用户服务端、云端；

所述用户服务端包括：

第一传输模块，用于将接收到的用户提出的问题发送至所述云端，接收由所述云端发送的对所述用户提出的问题进行预处理后得到的分词文本以及基于预设的通用知识库对所述分词文本进行识别后得到的第一问答对集；

第一匹配模块，用于将所述分词文本与预设的本地知识库进行匹配，得到第二问答对集，将所述第一问答对集、第二问答对集进行合并，计算所述分词文本和合并后的问答对中的问题的相似度；

第一返回模块，用于将计算得到的相似度与预设的相似度阈值进行比较，确定与比较结果相匹配的问答对，将确定的问答对中的答案发送至应用服务端并由所述应用服务端发送至对应的客户端以进行展示；

所述云端包括：

第二传输模块，用于接收所述用户服务端发送的用户提出的问题；

处理模块：用于对所述用户提出的问题进行预处理，得到分词文本；

第二匹配模块：用于基于预设的通用知识库对所述分词文本进行识别得到第一问答对集；

第二传输模块，用于将对所述用户提出的问题进行预处理后得到的分词文本以及基于预设的通用知识库对分词文本进行识别后得到的第一问答对集发送至用户服务端。

第三方面，公开了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的数据处理方法。

本发明实施例具有如下有益效果：

本申请考虑到金融领域内为了保证信息的安全性，无法将用户自己的知识库(包括业务信息、产品信息、订单信息等)内容直接维护到开放的基础通用客服机器人中，更不允许这些企业敏感信息在网络间流转，因此对智能客服机器人进行了在线功能和离线功能的拆解封装，一方面将不涉及到客户隐私、运算和存储开销较大的模块(文本预处理、意图识别等)部署在云端，以SaaS模式输出服务；另一方面将本地知识库搜索应用的构建和使用部署在本地，以PaaS模式分发安装，将网络识别结果与本地识别结果进行融合、筛选，最终实现了知识扩展和服务迁移，满足了不同客户的差异化需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例1提供的云端的网络架构示意图；

图2是本申请实施例1提供的用户服务端提供的个性化服务PssS扩展服务实现流程图；

图3是本申请实施例1提供的云端和用户服务端的功能交互实现流程图；

图4是本申请实施例1提供的一种数据处理方法的流程图；

图5是本申请实施例3提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如背景技术所述，现有技术中，金融领域内智能客服机器人的运行依赖于大规模集群、高性能的数据存储和运算单元以及成熟的研发后台支持，所以SaaS化云部署无疑是确保企业能够在低成本下获得稳定的智能客服服务的理想方式；但金融领域的信息敏感性又限制金融企业只能接受局域环境下的私有化部署。基于此，本申请申请人创造性的想到了利用Saas和Pass双模式结合的应用框架，一方面将一些基础服务(不涉及到客户隐私、运算和存储开销较大的模块，如：文本预处理、意图识别等)部署在云端，以SaaS模式输出服务；另一方面将本地知识库搜索应用的构建和使用部署在本地，以PaaS模式分发安装，如此便能实现智能客服机器人的部署。

为了实现上述目的，在云端，构建了基于Flask的轻量Web服务框架。Flask完全可以满足机器人问答访问机制的业务场景，并满足了一般客服访问的高并发性能需求；其次，Flask既精简又可扩展，且有非常简约优秀的胶合层，并使用Python编写，可以很自然的嵌入到Python语言开发的客服机器人工程脚本中，方便其网络服务的扩展。

本方案中，云端的网络架构参考图1，其可以完成文本识别、文本提取、检索匹配等功能，在输出服务时，对外采用SaaS模式，租户只需通过订阅相关服务，获得访问权限，并通过网络服务接口就能完成与云端的交互，得到云端对用户输入内容的处理结果的反馈。

而在本地端，即用户服务端，如图2所示，通过Dockerfile，将一些涉及到隐私的个性化服务程序进行镜像封装。订阅了个性化服务的用户通过Paas“分发机制”，在用户客户端下载并运行个性化服务的镜像，启动专属容器。在Docker容器启动过程中，用户需要根据提示按照约定的Schema结构存储关于个性化服务的本地知识库，将本地知识库存放于指定文件夹下，之后本地服务端基于内部的Whoosh模块在本地创建一套轻量级搜索应用，并基于本地知识库创建知识库索引，承担本地知识库信息检索和匹配的工作。Docker使得本地的一些个性化服务可以不依赖于本地的开发环境，根据镜像打包过程中设定的配置依赖，在标准化的容器环境下运行，省去了协调同步开发环境的麻烦。

如此，智能客服机器人部署已全部完成，在客户访问时，参考图3，用户服务端将访问内容通过网络接口发送至云端，云端完成文本预处理、词向量转换、意图识别等工作，并将中间结果以及在云端完成的匹配结果返回至本地服务端，本地服务端将中间结果与本地知识库进行匹配，将在本地匹配到的结果与云端返回的匹配结果进行融合，并按照预设返回规则返回应用服务端，应用服务端返回至对应的前端以进行展示。

基于上述构建的网络构架，本申请具体实施方式如下：

实施例1

参考图4，一种数据处理方法，包括如下步骤：

110、用户服务端将接收到的用户提出的问题发送至云端，接收由云端发送的对用户提出的问题进行预处理后得到的分词文本以及基于预设的通用知识库对分词文本进行识别后得到的第一问答对集。

其中，用户服务端通过网络接口将用户提出的问题发送至云端，云端对接收到的问题进行预处理和识别。

云端对用户提出的问题进行预处理过程具体如下：

1、云端对用户提出的问题进行参数解析、标准化编码、清洗处理；

其中，清洗过程可以使用一预先训练好的降噪模型来完成，降噪模型保留CJK统一表意符号、英文、***文、希腊文、***数字等语言形式，如此，便能对分词结果进行清洗，完成数据降噪。

2、基于预设的字典树对清洗处理后的问题进行分词处理，得到分词结果；

在上述步骤中，对用户提出的问题进行分词，可以实现对识别对象从句到词的粒度转换。

其中，字典树中存储有词和词频，字典树按照预设的更新周期进行更新，具体更新过程如下：

a、对更新周期前的所有语料进行分词，得到候选新词集合；

b、利用互信息和左右熵对候选新词集合中的所有候选新词进行过滤；

c、将过滤后得到的候选新词与字典树进行对比以确定目标新词；

d、基于目标新词以及目标新词出现的词频对字典树进行更新。

3、对分词结果进行判断，当分词结果满足预设的判断条件时，对分词结果进行纠错并提取关键词，得到分词文本。

上述分词结果满足预设的判断条件指：分词结果不属于人工场景及问候场景，只有当分词结果不属于上述两个场景时，才需要对分词结果进行识别，否则，按照对应的规则来进行回答，具体的，按照与场景对应的实现过程如下：

当分词结果属于人工场景时，提取分词结果中的关键字并转人工处理；

当分词结果属于问候场景时，在预设的目标规则库中匹配与分词结果相对应的目标答案。

此外，对分词结果进行纠错具体包括如下步骤：

a、利用n-gram模型对分词结果进行识别，得到候选错词集合；

具体的，将句子的合理性高低简单的抽象为构成句子的词的组合条件概率的大小，例如一个句子S由n个词组成，即S＝{w₁,w₂,…,w_n}，则表示句子S合法概率的语言模型可表示为：

P(S)＝P(w₁,w₂,…,w_n)＝P(w₁)*P(w₂|w₁)*…*P(w_n|w₁,w₂,…,w_n-1)

考虑到上述语言模型的信息稀疏性，基于马尔卡夫假设，认为一个词的出现概率仅依赖于它的前1个或前几个词，本方案中，认为和前一个词和前两个词有关，所以采用了Bigram(2-gram)和Trigram(3-gram)两种模型：

其中P值，基于极大似然估计(Maximum Likelihood Estimate)来近似表征，例如对于Bigram(2-gram)，P值的计算公式如下：

P(w_i|w_i-1)＝count(w_i,w_i-1)/count(w_i-1)

这里的count是指单词或单词组合在语料库中总的出现次数。

根据计算得到的P值，即可确定候选错词集合。

b、根据分词结果确定候选错词集合中每一个候选错词的前一个词，查询预设的搭配表得到备选错词集合；

c、计算候选错词集合中每一个候选错词与备选错词集合中对应的备选错词之间的编辑距离，获取编辑距离大于阈值时所对应的所有备选错词；

d、将编辑距离大于阈值时所对应的所有备选错词替换候选错词后分别输入至n-gram模型中，计算得到每一个备选错词的概率；

e、将每一个备选错词的概率进行比较，并将概率最高时对应的备选错词替换对应的候选错词以实现对分词结果进行纠错。

在纠错完成后，提取分词结果中的关键词，本方案中，基于TF-IDF算法对分词结果进行关键词提取，从而得到分词文本。

云端基于预设的通用知识库对分词文本进行识别后得到的第一问答对集具体过程如下：

1、云端对分词文本的文本长度进行判断；

2、当分词文本的文本长度小于第一预设值时，将分词文本转化成词向量，将转换得到的词向量输入至预先训练好的第一识别模型中，得到关于用户提出的问题的分类结果；

在本方案中，利用CBOW模型来将分词文本转化成词向量。

3、当分类结果与预设的类别相同时，将转换得到的词向量输入至预设的第二识别模型中，得到与用户提出的问题相匹配的在分类结果下的第一问答对集；

在金融行业，只有涉及到个人问答场景才会通过知识库来确定该场景下的问答对，而其他场景下可以通过相关接口来获取相关场景下的答案。

其中，第一识别模型、第二识别模型根据预设的语料库以及通用知识库建立得到；构建方法如下：

a、对通用知识库中的所有问答对进行分类处理，得到与每一类别相对应的问答对；

b、基于预设的语料库，建立样本库；样本库为关于日常客服问答对的集合；

c、基于分类后得到的所有类别对样本库中的所有问题进行标注，同时基于分类后的问答对确定与样本库中每一个问题相匹配的问答对；

d、根据标注后的样本库中的所有问题训练第一基础模型，得到第一识别模型；

e、根据样本库中的所有问题以及与每一个问题相匹配的分类后的问答对训练第二基础模型，得到第二识别模型。

本方案中，第一识别模型用于对问题进行分类识别，其输出主要包括三类：问答类、任务类、聊天类。

其中，问答类为获取金融领域或金融业务相关信息的提问式输入，例如，股票型基金是什么，贷款利息现在多少；任务类即带有明确金融业务目的，在特定限制条件下为获取个人业务信息或服务的命令式输入，例如，支付订单查询、理财收益查询等；聊天类为不属于上述“任务”或“问答”类的用户其他输入，例如问候、询问时间、询问天气情况等。

第二识别模型用于对问答类下的问题进行识别，从而得到与该问题相匹配的问答对。

通过上述两个识别模型，可以减小通用知识库的检索范围，减少召回排序的计算量，提升查询响应速度，另一方面也提高了识别结果的准确度。

此外，当第一识别模型的识别结果属于任务类时，云端按照预设的类别对用户的问题进行分类，并进行填槽转换，将填槽转换后的问题通过外部应用扩展接口传递到对应的外部***所属的数据库查询***中，并接受外部***的查询结果报文，输出到前端交互页面，以此来满足用户订单查询、交易历史回顾的个性化请求。

当第一识别模型的识别结果属于聊天任务类时，则在预设的目标规则库中匹配与问题相对应的问答对并将匹配得到的问答对中的答案发送至前端交互页面。

4、当分词文本的文本长度大于等于第一预设值时，在通用知识库中全量搜索与转换得到的词向量相匹配的问答对，将匹配得到的问答对确定为第一问答对集。

在匹配问答对时，基于WMD算法来计算分词文本的文本长度和通用知识库中的问题的相似度，当计算得到的距离越小时相似度越高。

本方案中，在云端基于预设的通用知识库对对分词文本进行识别时，考虑了两种情况，第一种情况是：分词文本长度小于预设值，这种情况下，由于文本长度较短、可能有效信息较少，因此利用预先训练好的第一识别模型来识别得到文本的分类结果，当文本的分类结果为问答类别时，根据预先训练好的第二识别模型来识别得到文本的答案，由于第一识别模型、第二识别模型利用大量语料进行训练，因此识别结果较为精确，可以用于分词文本长度较短时的意图识别；第二种情况是：分词文本长度大于预设值，这种情况下，表示有效信息较多，因此根据利用该分词文本在通用知识库中进行全量搜索相匹配的问答对。

120、将分词文本与预设的本地知识库进行匹配，得到第二问答对集，将第一问答对集、第二问答对集进行合并，计算分词文本和合并后的问答对集中的问题的相似度。

本方案中，基于WMD算法来计算分词文本和合并后的问答对集中的问题的相似度，当计算得到的距离越小时相似度越高。

130、将计算得到的相似度与预设的相似度阈值进行比较，确定与比较结果相匹配的问答对，将确定的问答对中的答案发送至应用服务端并由应用服务端发送至对应的客户端以进行展示。

上述步骤130具体包括：

1、将计算得到的每个相似度与预设的相似度可信阈值、相似度可用阈值进行比较；

2、若存在高于相似度可信阈值的相似度，则在合并后的问答对集中获取相似度最高时所对应的问答对，并将相似度最高时所对应的问答对中的答案发送至应用服务端并由应用服务端发送至对应的客户端；

3、若所有相似度低于相似度可信阈值且存在高于相似度可用阈值的相似度时，则对合并后的问答对集中高于相似度可用阈值的相似度所对应的问答对进行降序排列，根据预设的筛选规则在降序排列的问答对中获取预定数量的问答对，将筛选得到的预定数量的问答对中的答案发送至应用服务端并由应用服务端发送至对应的客户端；

4、若所有相似度低于相似度可用阈值，则在预设的目标规则库中匹配与分词文本相对应的问答对并将匹配得到的问答对中的答案发送至与应用服务端并由应用服务端发送至对应的客户端。

为了使得云端返回的问答对更精确，从而减轻用户服务端的计算量，还包括如下步骤：

210、云端将分词文本和第一问答对集发送至用户服务端之前，云端计算分词文本与第一问答对集中的问题的相似度；

220、将计算得到的分词文本与第一问答对集中的问题的相似度和相似度阈值进行比较，确定与比较结果相匹配的问答对并将确定得到的与比较结果相匹配的问答对发送至用户服务端；

上述步骤220具体包括：

1、将计算得到的分词文本与第一问答对集中的问题的相似度与预设的相似度可信阈值、相似度可用阈值进行比较；

2、若存在高于相似度可信阈值的相似度，则在第一问答对集中获取相似度最高时所对应的问答对，并将相似度最高时所对应的问答对发送至用户服务端；

3、若所有相似度低于相似度可信阈值且存在高于相似度可用阈值的相似度时，则对第一问答对集中高于相似度可用阈值的相似度所对应的问答对进行降序排列，根据预设的筛选规则在降序排列的问答对中获取预定数量的问答对，将筛选得到的预定数量的问答对发送至用户服务端；

4、若所有相似度低于相似度可用阈值，则在预设的目标规则库中匹配与分词文本相对应的问答对并将匹配得到的问答对发送至用户服务端。

230、用户服务端将确定得到的与比较结果相匹配的问答对、第二问答对集进行合并，计算分词文本和合并后的问答对中的问题的相似度；

240、将计算得到的相似度与预设的相似度阈值进行比较，确定与比较结果相匹配的问答对，将确定的问答对中的答案发送至应用服务端并由应用服务端发送至对应的客户端以进行展示。

本方案对智能客服机器人进行了在线功能和离线功能的拆解封装，一方面将运算和存储开销较大的模块或适合大规模语料学习获得的内容，部署在云端，以SaaS模式输出服务；另一方面将自有知识库搜索应用的构建和使用，部署在本地，以PaaS模式分发安装。

因此，本方案为智能客服机器人的私有化部署提供了一套成本低廉、运行可靠、信息安全的解决方法，通过将高成本的技术模块部署在云端，依托远程集群的硬件资源和技术支撑，用户前端应用可以获得7×24的稳定后台服务，并且支持高并发、低延时，并经受住了企业“大促”活动期间的高吞吐量情境(基于TPS、并发数和响应时间的评估)，并且，通过云端共享，分摊了成本，用户只需承担一定的服务租赁费用，而无需关心智能客服机器人***开发和运行所必须的软硬件资源成本，用户可以通过基本的SaaS服务接口便捷获得低成本的基础通用智能客服网络服务；而个性化服务一方面借助Docker技术实现了标准化环境部署，用户无需关心本地开发环境即可一键安装，另一方面容器启动时会自动基于本地知识库文件创建本地的轻量级搜索应用，既满足了私有知识库信息检索的需要，也保证了私有信息在本地固化的安全性需要。这种方式大大降低了智能客服机器人的实现门槛，即使技术基础薄弱、硬件资源紧张的金融行业中小企业，也能顺利实施部署。

本方案通过将通用知识库检索结果和本地知识库检索结果进行本地混排的方法，保证了定制化客服机器人在日常应用中的准确性和泛化性。既满足了客户对一般通识内容的咨询需要，也满足了企业特定业务背景下的用户对企业信息或服务的需要。而这种依赖算法模型和知识库的程序化响应方式，也避免了人工客服存在的人员服务质量和专业水平差异，确保了标准化、一致性的服务输出。

此外，本方案采用的“网络服务+本地服务”的应用框架确保了智能客服机器人与用户的客服前端应用(APP，WAP，PC)的低耦合，用户原有的客服前端应用无需改动，只要按照接口协议向后台的智能客服机器人服务发送请求报文，机器人即可做出快速响应，并将结果推送回前端，进一步增加了智能客服机器人推广、扩展的便捷性。

实施例2

在一个实施例中，提供一种数据处理装置，包括：用户服务端、云端；

用户服务端包括：

第一传输模块，用于将接收到的用户提出的问题发送至云端，接收由云端发送的对用户提出的问题进行预处理后得到的分词文本以及基于预设的通用知识库对分词文本进行识别后得到的第一问答对集；

第一匹配模块，用于将分词文本与预设的本地知识库进行匹配，得到第二问答对集，将第一问答对集、第二问答对集进行合并，计算分词文本和合并后的问答对中的问题的相似度；

第一返回模块，用于将计算得到的相似度与预设的相似度阈值进行比较，确定与比较结果相匹配的问答对，将确定的问答对中的答案发送至应用服务端并由应用服务端发送至对应的客户端以进行展示；

云端包括：

第二传输模块，用于接收用户服务端发送的用户提出的问题；

处理模块：用于对用户提出的问题进行预处理，得到分词文本；

第二匹配模块：用于基于预设的通用知识库对分词文本进行识别得到第一问答对集；

第二传输模块，用于将对用户提出的问题进行预处理后得到的分词文本以及基于预设的通用知识库对分词文本进行识别后得到的第一问答对集发送至用户服务端；

优选的，上述第二匹配模块具体用于：

对分词文本的文本长度进行判断；

当分词文本的文本长度小于第一预设值时，将分词文本转化成词向量，将转换得到的词向量输入至预先训练好的第一识别模型中，得到关于用户提出的问题的分类结果；

当分类结果与预设的类别相同时，将转换得到的词向量输入至预设的第二识别模型中，得到与用户提出的问题相匹配的在分类结果下的第一问答对集；其中，第一识别模型、第二识别模型根据预设的语料库以及通用知识库训练得到；

当分词文本的文本长度大于等于第一预设值时，在通用知识库中全量搜索与分词文本相匹配的问答对，将匹配得到的问答对确定为第一问答对集。

优选的，云端还包括建模模块，用于构建第一识别模型、第二识别模型，具体包括：

对通用知识库中的所有问答对进行分类处理，得到与每一类别相对应的问答对；

基于预设的语料库，建立样本库；其中，样本库为关于日常客服问答对的集合；

基于分类后得到的所有类别对样本库中的所有问题进行标注，同时基于分类后的问答对确定与样本库中每一个问题相匹配的问答对；

根据标注后的样本库中的所有问题训练第一基础模型，得到第一识别模型；

根据样本库中的所有问题以及与每一个问题相匹配的分类后的问答对训练第二基础模型，得到第二识别模型。

优选的，处理模块具体用于：

基于预设的字典树对用户提出的问题进行分词处理，得到分词结果；

对分词结果进行判断，当分词结果满足预设的判断条件时，对分词结果进行纠错并提取关键词，得到分词文本。

优选的，处理模块还用于：

基于预设的字典树对用户提出的问题进行分词处理之前，基于预设的降噪模型对用户提出的问题进行清洗。

优选的，处理模块还用于：

按照预设的更新周期对字典树进行更新，具体包括：

对更新周期前的所有语料进行分词，得到候选新词集合；

将过滤后得到的候选新词与字典树进行对比以确定目标新词；

基于目标新词对字典树进行更新。

优选的，云端还包括第二返回模块，用于：

将第一问答对集发送至用户服务端之前，计算分词文本与第一问答对集中的问题的相似度；

将计算得到的分词文本与第一问答对集中的问题的相似度与相似度阈值进行比较，确定与比较结果相匹配的问答对；

第二传输模块还用于：将确定得到的与比较结果相匹配的问答对发送至用户服务端；

第一匹配模块还用于：将确定得到的与比较结果相匹配的问答对、第二问答对集进行合并，计算分词文本和合并后的问答对集中的问题的相似度。

优选的，第一返回模块具体用于：

若存在高于相似度可信阈值的相似度，则在合并后的问答对集中获取相似度最高时所对应的问答对，并将相似度最高时所对应的问答对中的答案发送至应用服务端并由应用服务端发送至对应的客户端；

若所有相似度低于相似度可信阈值且存在高于相似度可用阈值的相似度时，则对合并后的问答对中集高于相似度可用阈值的相似度所对应的问答对进行降序排列，根据预设的筛选规则在降序排列的问答对中获取预定数量的问答对，将筛选得到的预定数量的问答对中的答案发送至应用服务端并由应用服务端发送至对应的客户端；

若所有相似度低于相似度可用阈值，则在预设的目标规则库中匹配与分词文本相对应的问答对并将匹配得到的问答对中的答案发送至应用服务端并由应用服务端发送至对应的客户端。

实施例3

在一个实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现实施例1所述的所有方法。

图5为本发明实施例提供的计算机设备的内部结构图。该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述云端基于预设的通用知识库对所述分词文本进行识别得到第一问答对集具体包括：

所述云端对所述分词文本的文本长度进行判断；

3.根据权利要求2所述的方法，其特征在于，所述第一识别模型、第二识别模型的获取方法包括：

4.根据权利要求1所述的方法，其特征在于，所述云端对所述用户提出的问题进行预处理得到分词文本具体包括：

5.根据权利要求4所述的方法，其特征在于，所述云端基于预设的字典树对所述用户提出的问题进行分词处理之前还包括：

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

按照预设的更新周期对所述字典树进行更新，具体包括：

对更新周期前的所有语料进行分词，得到候选新词集合；

基于所述目标新词对所述字典树进行更新。

7.根据权利要求1～6任意一项所述的方法，其特征在于，所述云端将所述第一问答对集发送至所述用户服务端之前，所述方法还包括：

将计算得到的所述分词文本与所述第一问答对集中的问题的相似度和所述相似度阈值进行比较，确定与比较结果相匹配的问答对；

8.根据权利要求1～6任意一项所述的方法，其特征在于，所述将计算得到的相似度与预设的相似度阈值进行比较，确定与比较结果相匹配的问答对，将确定的问答对中的答案发送至应用服务端并由所述应用服务端发送至对应的客户端具体包括：

9.一种数据处理装置，其特征在于，所述装置包括：用户服务端、云端；

所述用户服务端包括：

所述云端包括：

处理模块，用于对所述用户提出的问题进行预处理，得到分词文本；

第二匹配模块，用于基于预设的通用知识库对所述分词文本进行识别得到第一问答对集；

第二传输模块，用于将对用户提出的问题进行预处理后得到的分词文本以及基于预设的通用知识库对分词文本进行识别后得到的第一问答对集发送至用户服务端。

10.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：

所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的数据处理方法。