CN105550361B

CN105550361B - 日志处理方法及装置和问答信息处理方法及装置

Info

Publication number: CN105550361B
Application number: CN201511030354.1A
Authority: CN
Inventors: 曾永梅; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2018-11-09
Anticipated expiration: 2035-12-31
Also published as: CN105550361A

Abstract

本发明提供了一种问答***的日志处理方法，包括：获取用户日志数据；对该用户日志数据进行过滤处理，以得到待处理日志数据；获取通过对该待处理日志数据进行第一相似度计算得到的第一标准问；获取通过对该待处理日志数据进行第二相似度计算得到的第二标准问；当该待处理日志数据与该第一标准问的相似度大于第一阈值，该待处理日志数据与该第二标准问的相似度大于第二阈值，且该第一标准问和该第二标准问相同时，则将该待处理日志标注为正确。

Description

日志处理方法及装置和问答信息处理方法及装置

技术领域

本发明涉及人机交互技术领域，尤其涉及问答***的日志处理方法及装置和问答信息处理方法及装置。

背景技术

人机交互是研究***与用户之间的交互关系的科学。***可以是各种各样的机器，也可以是计算机化的***和软件。例如，通过人机交互可以实现各种人工智能***，例如，智能客服***、语音控制***等等。人工智能语义识别是人机交互的基础，其能够对人类语言进行识别，以转换成机器能够理解的语言。

智能问答***是人机交互的一种典型应用，其中当用户提出问题后，智能问答***给出该问题的答案。为此，智能问答***中有一套知识库，里面有大量的问题和与每个问题相对应的答案。智能问答***首先需要识别用户所提出的问题，即从知识库中找到与该用户问题所对应的问题，然后找出与该问题相匹配的答案。

智能问答***的维护更新是一项重要挑战。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

根据本发明的一方面，提供了一种问答***的日志处理方法，包括：

获取用户日志数据；

对该用户日志数据进行过滤处理，以得到待处理日志数据；

获取通过对该待处理日志数据进行第一相似度计算得到的第一标准问；

获取通过对该待处理日志数据进行第二相似度计算得到的第二标准问；

当该待处理日志数据与该第一标准问的相似度大于第一阈值，该待处理日志数据与该第二标准问的相似度大于第二阈值，且该第一标准问和该第二标准问相同时，则将该待处理日志标注为正确。

在一实例中，该过滤处理包括：

提供正确日志库和无意义日志库；

通过比较判断将该用户日志数据中既不属于正确日志库也不属于无意义日志库的日志数据作为待处理日志数据。

在一实例中，该第一相似度计算包括：

提供问答数据库，该问答数据库包括多个问答标准问；

通过表达式语义相似度计算为该待处理日志选择一问答标准问，该问答标准问作为第一标准问。

在一实例中，该第二相似度计算包括：

提供正确日志库，该正确日志库包括正确标准问；

采用大数据聚类分析将该待处理日志聚类至一正确标准问，该正确标准问作为第二标准问。

在一实例中，该第一标准问直接从该用户日志数据中提取。

在一实例中，该方法还包括：当该待处理日志数据与该第一标准问的相似度大于第一阈值，该待处理日志数据与该第二标准问的相似度大于第二阈值，该第一标准问和该第二标准问不同，且该待处理日志数据与该第一标准问的相似度与第一阈值的差值比大于该待处理日志数据与该第二标准问的相似度与第二阈值的差值比时，则将该待处理日志标注为正确。

在一实例中，该方法还包括：

对与该第一标准问的相似度小于第一阈值且与该第二标准问的相似度小于第二阈值的所有用户日志数据进行聚类分析，以聚类为多个用户日志群集以供人工确认。

根据本发明的另一方面，提供了一种问答信息处理方法，包括：

接收用户问题；

对该用户问题进行第一相似度计算得到第一标准问；

对该用户问题进行第二相似度计算得到第二标准问；

当该用户问题与该第一标准问的相似度大于第一阈值，该用户问题与该第二标准问的相似度大于第二阈值，且该第一标准问和该第二标准问相同时，则向用户反馈该第一标准问对应的答案信息或该第二标准问对应的答案信息。

在一实例中，该第一相似度计算包括：

提供问答数据库，该问答数据库包括多个问答标准问；

通过表达式语义相似度计算为该用户问题选择一问答标准问，该问答标准问作为第一标准问。

在一实例中，该第二相似度计算包括：

提供正确日志库，该正确日志库包括正确标准问；

采用大数据聚类分析将该用户问题聚类至一正确标准问，该正确标准问作为第二标准问。

在一实例中，该方法还包括：当该用户问题与该第一标准问的相似度大于第一阈值，该用户问题与该第二标准问的相似度大于第二阈值，且该第一标准问和该第二标准问不同时，则向用户反馈相似度与对应的阈值差值比更大的标准问对应的答案信息。

根据本发明的另一方面，提供了一种问答***的日志处理装置，包括：

获取模块，用于获取用户日志数据；

过滤模块，用于对该用户日志数据进行过滤处理，以得到待处理日志数据；

第一相似度计算模块，用于获取通过对该待处理日志数据进行第一相似度计算得到的第一标准问；

第二相似度计算模块，用于获取通过对该待处理日志数据进行第二相似度计算得到的第二标准问；

判断模块，用于判断该待处理日志数据与该第一标准问的相似度是否大于第一阈值，该待处理日志数据与该第二标准问的相似度是否大于第二阈值，以及该第一标准问和该第二标准问是否同一标准问；以及

标注模块，用于当该待处理日志数据与该第一标准问的相似度大于第一阈值，该待处理日志数据与该第二标准问的相似度大于第二阈值，且该第一标准问和该第二标准问相同时，则将该待处理日志标注为正确。

在一实例中，该问答***提供有正确日志库和无意义日志库，该过滤模块进一步通过比较判断将该用户日志数据中既不属于正确日志库也不属于无意义日志库的日志数据作为待处理日志数据。

在一实例中，该问答***提供有问答数据库，该问答数据库包括多个问答标准问，该第一相似度计算模块包括：

表达式语义相似度计算模块，用于通过表达式语义相似度计算为该待处理日志选择一问答标准问，该问答标准问作为第一标准问。

在一实例中，该问答***提供有正确日志库，该正确日志库包括正确标准问，该第二相似度计算包括：

聚类模块，用于采用大数据聚类分析将该待处理日志聚类至一正确标准问，该正确标准问作为第二标准问。

在一实例中，该第一相似度计算模块直接从该用户日志数据中提取该第一标准问。

在一实例中，该判断模块用于当该待处理日志数据与该第一标准问的相似度大于第一阈值，该待处理日志数据与该第二标准问的相似度大于第二阈值，该第一标准问和该第二标准问不同时，进一步判断该待处理日志数据与该第一标准问的相似度与第一阈值的差值比是否大于该待处理日志数据与该第二标准问的相似度与第二阈值的差值比，

响应于该待处理日志数据与该第一标准问的相似度与第一阈值的差值比大于该待处理日志数据与该第二标准问的相似度与第二阈值的差值比，该标注模块将该待处理日志标注为正确。

根据本发明的再一方面，提供了一种问答信息处理装置，包括：

接收模块，用于接收用户问题；

第一相似度计算模块，用于对该用户问题进行第一相似度计算得到第一标准问；

第二相似度计算模块，用于对该用户问题进行第二相似度计算得到第二标准问；

判断模块，用于判断该用户问题与该第一标准问的相似度是否大于第一阈值，该用户问题与该第二标准问的相似度是否大于第二阈值，以及该第一标准问和该第二标准问是否是同一标准问；以及

输出模块，用于当该用户问题与该第一标准问的相似度大于第一阈值，该用户问题与该第二标准问的相似度大于第二阈值，且该第一标准问和该第二标准问相同时，向用户反馈该第一标准问对应的答案信息或该第二标准问对应的答案信息。

表达式语义相似度计算模块，通过表达式语义相似度计算为该用户问题选择一问答标准问，该问答标准问作为第一标准问。

在一实例中，该问答***提供有正确日志库，该正确日志库包括正确标准问，该第二相似度计算模块包括：

聚类模块，用于采用大数据聚类分析将该用户问题聚类至一正确标准问，该正确标准问作为第二标准问。

在一实例中，该判断模块当该用户问题与该第一标准问的相似度大于第一阈值，该用户问题与该第二标准问的相似度大于第二阈值，该第一标准问和该第二标准问不同时，进一步判断该用户问题与该第一标准问的相似度与第一阈值的差值比是否大于该用户问题与该第二标准问的相似度与第二阈值的差值比；

该输出模块向用户反馈相似度与对应的阈值差值比更大的标准问对应的答案信息。

根据本发明的方案，通过利用基于问答数据库和正确日志库的不同相似度计算，对相当一部分的用户日志数据实现了自动筛选确认，大大地降低了人工的工作量，提高了处理效率，降低了成本。另外，通过利用基于问答数据库和正确日志库的不同相似度计算，提高了问答***的问答正确率。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1是示出了根据本发明的一方面的问答***的日志处理方法的流程图；

图2是示出了根据本发明的一方面的问答信息处理方法的流程图；

图3是示出了根据本发明的一方面的问答***的日志处理装置的框图；以及

图4是示出了根据本发明的一方面的问答信息处理装置的框图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ，一般的形式是“问-答”对。在本发明中，“标准问”是用来表示某个知识点的文字，主要目标是表达清晰，便于维护。例如，“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”，而应广义地来理解一“输入”，该“输入”具有对应的“输出”。例如，对于用于控制***的语义识别而言，用户的一个指令，例如“打开收音机”也应可以被理解为是一个“问”，此时对应的“答”可以是用于执行相应控制的控制程序的调用。

用户在向机器输入时，最理想的情况是使用标准问，则机器的智能语义识别***马上能够理解用户的意思。然而，用户往往并非使用的是标准问，而是标准问的一些变形的形式。例如，若对于收音机的电台切换的标准问形式是“换一个电台”，那么用户可能使用的命令是“切换一个电台”，机器也需要能够识别用户表达的是同一个意思。因此，对于智能语义识别而言，知识库里需要有标准问的相似问，该相似问与标准问表达形式有略微差异，但是表达相同的含义。

更进一步，为了更准确、高效地识别用户问题，智能问答***还发展出了语义表达式的概念。

语义表达式主要由词、词类以及他们的“或”关系构成，其核心依赖于“词类”，词类简单的理解即为一组有共性的词，这些词在语义上可以相似也可以不相似，这些词也可以被标注为重要或不重要。语义表达式与用户问句之间的关系可通过量化的值(相似度)来表示，同时这个量化的值与相似问句和用户问句之间的相似度是可以互相比较的。

以下对语义表达式作简要介绍。

语义表达式中的符号

A.词类的表示([])

为区分表达式中的词与词类，规定词类必须出现在方括号“[]”中，方括号中出现的词类一般为“狭义词类”，但是也可通过配置***参数以支持“广义词类”。

下面是一些简单表达式的示例：

[飞信][如何][开通]

[介绍][彩信][业务]

[飞信]的[登录][方法]

[来电提醒][如何][收费]

B.或关系的表示(|)

在方括号中的词类可以通过“或”关系出现多次，这些“或”关系的词类会在计算相似度的时候以“展开”的方式单独计算。“展开”主要是根据“或”的意义将语义表达式展开成多个简单表达式的过程。如：[彩铃][开通]的[方法|步骤]可展开成“[彩铃][开通]的[步骤]”和“[彩铃][开通]的[方法]”两个简单的语义表达式。

这类语义表达式的示例如下：

[彩铃][开通]的[方法|步骤]

[怎样][查询|知道][PUK码]

[退订|撤销|关闭|停用][IP|17951][国内长途优惠包]

[来电提醒][功能费|月租费|信息费|通信费]

C.非必要的表示(？)

在方括号中的词类可以在结尾加入“？”表示可出现也可以不出现，即非必要的关系，这种非必要关系的词类也同样会在计算相似度的时候以“展开”的方式单独计算。“展开”主要是将语义表达式中含有非必要的词类(或词类的“或组合”)展开成包含和不包含这个词类的两个简单语义表达式的过程。如：[介绍][手机视频][军事栏目][内容][什么？]可展开成“[介绍][手机视频][军事栏目][内容]”和“[介绍][手机视频][军事栏目][内容][什么]”两个简单语义表达式。

这类语义表达式的示例如下：

[彩铃][取消]的[方法|步骤？]

[介绍][手机视频][军事栏目][内容][什么？]

[介绍][12580？][生活播报][品质生活版][免费][业务？]

[怎样][开通][移动数据|流量|上网][100元][套餐？][短信]

D.语义增强(&)

在语义表达式的最左边出现“&”符号，可以在相似度计算中提高语义表达式内词类的权重。这类语义表达式往往可忽略用户问句中更多的词，匹配范围可以更广泛。

这类语义表达式的示例如下：

&[手机视频][优惠包|优惠]

&[全网音乐盒][星光熠熠][1元][套餐]

&[17951][移动IP电话][业务？]

&[IP？][直通车][业务？]

语义表达式一般有如下要求：

1)编写要简洁，不编写与语义无关的内容，不使用统一的前后缀，如我想知道、我不知道、我想查一下等。此时，就需要对预料进行过滤处理，以去除那些与语义无关的内容。

2)不要去概括、转化、发散所要表达的语义，如条件、限制、注意事项、问题等；举例说明：

需要表达的语义：我在操作网银时，提示ERROR-001

错误模板：

(1)[操作][网银][报错]

(2)[操作][网银][问题]

正确模板：

[操作？][网银][提示？][ERROR][001]

3)不滥用“？”和“|”。

在语义表达式中去掉含有“？”和“|”符号的词，剩余表达式需表达相似的意思。

标准问题：网页报错“ERROR”

错误模板：[打开？][网页][报错？][ERROR？]

正确模板：[打开？][网页][报错][ERROR]

问答数据库包括问答标准问的集合，以及相关联的标准问答案的集合。当用户提出用户问题后，通过在问答数据库中匹配相对应的标准问，然后将该对应标准问的标准问***给用户。为了提高匹配成功率，每个问答标准问实际上关联有若干语义表达式，通过用户问题与语义表达式的相似度计算来寻找所匹配的对应标准问，即将与该用户问题具有最高语义相似度的语义表达式所关联的问答标准问作为该用户问题的对应标准问，并提供相对应的答案。

另一方面，问答***还包括正确日志库，正确日志库是智能问答***中用于存储所有正确日志的数据库。所谓的正确日志是经***或人工确认无误的日志，例如每一条正确日志包括***的正确标准问以及该正确标准问的标准答案。这里的正确标准问的集合与问答数据库中的问答标准问的集合一般是相同的。

智能问答***在使用中会产生大量的用户日志，每一条日志包括用户给出的用户问题以及针对该用户问题所匹配得到的问答标准问及相应答案。人工需要对智能问答***产生的海量的用户日志进行分析确认，以用于对智能问答***的优化和维护。

图1是示出了根据本发明的一方面的问答***的日志处理方法100的流程图。该方法100用于对海量的用户日志进行自动化梳理，以减轻人工工作量。

在步骤102，首先获取用户日志数据。

该获取可以是在问答***产生每一条用户日志时逐条收集的，也可以是定期地从问答***中批量收集的。在步骤104，对获取的用户日志数据进行过滤处理，以得到待处理日志数据。

在一实例中，如果一用户日志落在正确日志库中或无意义日志库中，则该用户日志明显是无需梳理确认的。无意义日志库是集合了一些无意义的日志的数据库，例如用户随意提出的一些无厘头问题，这些日志被收集起来作为无意义日志库。

通过比较判断将用户日志数据中既不属于正确日志库也不属于无意义日志库的日志数据作为待处理日志数据，而落在正确日志库中或无意义日志库中的日志数据被滤除，无需进一步处理。

在步骤106，获取通过对待处理日志数据进行第一相似度计算得到的第一标准问。

对于特定的一条待处理日志，通过第一相似度计算以匹配所对应的第一标准问。具体而言，该匹配是以问答数据库为基础的。如前所述，问答数据库中包括多个问答标准问，另外每个问答标准问关联有语义表达式来表示该问答标准问。

将待处理日志(例如，该待处理日志中所含的用户问题)与问答数据库中的问答标准问的语义表达式执行表达式语义相似度计算，以找到相似度最高的语义表达式，该最高相似度的语义表达式所对应的问答标准问即作为匹配得到的第一标准问。

如前所述，每一条用户日志中包含用户所提出的用户问题，以及当时问答***为该用户问题在问答数据库中所匹配的问答标准问和对应该问答标准问的答案。因此，在另一实例中，直接将该待处理日志中所含的该问答标准问作为第一标准问。

在步骤108，获取通过对该待处理日志数据进行第二相似度计算得到的第二标准问。

对于该待处理日志，还通过第二相似度计算以匹配所对应的第二标准问。具体而言，该匹配是以正确日志库为基础的。

具体而言，以正确日志库(例如，其所含的正确标准问的集合)为基础对所有的待处理日志进行大数据聚类，以使得每一条待处理日志被聚类至某一正确标准问，从而将该正确标准问作为匹配得到的第二标准问。例如，将每一条待处理日志(例如可以是该条用户日志的用户问题)与每个正确标准问执行一次语义相似度计算，然后，将该条待处理日志聚到具有最高语义相似度的那一个正确标准问。

在步骤110，当该待处理日志数据与第一标准问的相似度大于第一阈值，待处理日志数据与第二标准问的相似度大于第二阈值，且第一标准问和第二标准问相同时，则将该待处理日志标注为正确。

该待处理日志数据与第一标准问的相似度大于第一阈值，即表示该待处理日志被匹配至该第一标准问具有较高的可信度，待处理日志数据与第二标准问的相似度大于第二阈值，也表示该待处理日志被匹配至该第二标准问具有较高的可信度，而且第一标准问和第二标准问相同，表示待处理日志通过两周不同的相似度计算都被匹配至相同的标准问，从而可以判断该用户日志是正确的。

另一方面，若该待处理日志数据与第一标准问的相似度大于第一阈值，即表示该待处理日志被匹配至该第一标准问具有较高的可信度，待处理日志数据与第二标准问的相似度大于第二阈值，也表示该待处理日志被匹配至该第二标准问具有较高的可信度，但是第一标准问和第二标准问不同，说明用户日志在通过两种不同的相似度计算被匹配至了不同的标准问，此时应以匹配可信度更高的结果为准。

具体而言，可以计算待处理日志数据与第一标准问的相似度与第一阈值的差值比(即，相似度减去第一阈值的差值再除以该第一阈值)，以及计算待处理日志数据与第二标准问的相似度与第二阈值的差值比(相似度减去第二阈值的差值再除以该第二阈值)。

若待处理日志数据与第一标准问的相似度与第一阈值的差值比大于待处理日志数据与第二标准问的相似度与第二阈值的差值比，则说明该待处理日志数据与第一标准问(即问答数据库中的问答标准问)的匹配可靠性更高，即问答数据库给出的答案是正确的，换言之，由问答数据库产生的该待处理日志是正确的，因此将该待处理日志标注为正确。

再一方面，若该待处理日志数据与第一标准问的相似度小于第一阈值，且待处理日志数据与第二标准问的相似度也小于第二阈值，则表示该待处理日志数据的可信度较低，有待人工确认。然而，每一条地确认人工工作量是非常大的。

为此，可以对所有与第一标准问的相似度小于第一阈值且与第二标准问的相似度小于第二阈值的用户日志数据进行聚类分析，把它们聚类为多个用户日志群集以供人工确认。这样，每个群集中的用户日志群集具有较高的相似度，便于人工确认。

在一实例中，考虑到语义相似度计算的不同，第一阈值可以小于第二阈值。

以此方式，可以自动地对用户日志进行标注，大量地节省了人工工作量。

图2是示出了根据本发明的一方面的问答信息处理方法200的流程图。该问答信息处理方法，可以由问答***来运行以根据用户给出的问题，提供相应的答案。

在步骤202，接收用户问题。

可以经由答***的交互界面接收用户问题。

在步骤204，对该用户问题进行第一相似度计算得到第一标准问。

对于特定的一条用户问题，通过第一相似度计算以匹配所对应的第一标准问。具体而言，该匹配是以问答数据库为基础的。如前所述，问答数据库中包括多个问答标准问，另外每个问答标准问关联有语义表达式来表示该问答标准问。

将该用户问题与问答数据库中的问答标准问的语义表达式执行表达式语义相似度计算，以找到相似度最高的语义表达式，该最高相似度的语义表达式所对应的问答标准问即作为匹配得到的第一标准问。

在步骤206，对该用户问题进行第二相似度计算得到第二标准问。

对于该用户问题，还通过第二相似度计算以匹配所对应的第二标准问。具体而言，该匹配是以正确日志库为基础的。

具体而言，以正确日志库(例如，其所含的正确标准问的集合)为基础对该用户问题进行大数据聚类，以使得该用户问题被聚类至某一正确标准问，从而将该正确标准问作为匹配得到的第二标准问。例如，将该用户问题与每个正确标准问执行一次语义相似度计算，然后，将该条用户问题聚类到具有最高语义相似度的那一个正确标准问。

在步骤208，当该用户问题与第一标准问的相似度大于第一阈值，该用户问题与第二标准问的相似度大于第二阈值，且第一标准问和第二标准问相同时，则向用户反馈该第一标准问或所述第二标准问对应的答案信息。

该用户问题与第一标准问的相似度大于第一阈值，即表示该用户问题被匹配至该第一标准问具有较高的可信度，该用户问题与第二标准问的相似度大于第二阈值，也表示该用户问题被匹配至该第二标准问具有较高的可信度，而且第一标准问和第二标准问相同，表示该用户问题通过两周不同的相似度计算都被匹配至相同的标准问，从而可以判断该匹配是准确度的，因此，向用户反馈该第一标准问或所述第二标准问对应的答案信息，此时提供的答案具有非常高的可信度。

另一方面，若用户问题与第一标准问的相似度大于第一阈值，即表示该用户问题被匹配至该第一标准问具有较高的可信度，该用户问题与第二标准问的相似度大于第二阈值，也表示该用户问题被匹配至该第二标准问具有较高的可信度，但是第一标准问和第二标准问不同，说明用户问题在通过两种不同的相似度计算被匹配至了不同的标准问，此时应以匹配可信度更高的结果为准。

具体而言，可以计算用户问题与第一标准问的相似度与第一阈值的差值比(即，相似度减去第一阈值的差值再除以该第一阈值)，以及计算用户问题与第二标准问的相似度与第二阈值的差值比(相似度减去第二阈值的差值再除以该第二阈值)。

若用户问题与第一标准问的相似度与第一阈值的差值比大于用户问题与第二标准问的相似度与第二阈值的差值比，则说明该用户问题与第一标准问(即问答数据库中的问答标准问)的匹配可靠性更高，此时，将该第一标准问所对应的答案信息提供给用户。反之，将第二标准问所对应的***给用户。

以此方式，提高了问答***的问答正确率。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

图3是示出了根据本发明的一方面的问答***的日志处理装置300的框图。该日志处理装置300可用于对海量的用户日志进行自动化梳理，以减轻人工工作量。该日志处理装置300可包括获取模块302、过滤模块304、第一相似度计算模块306、第二相似度计算模块308、判断模块310以及标注模块312。

获取模块302首先获取用户日志数据。

该获取可以是在问答***产生每一条用户日志时逐条收集的，也可以是定期地从问答***中批量收集的。

过滤模块304可对获取的用户日志数据进行过滤处理，以得到待处理日志数据。

过滤模块304可通过比较判断将用户日志数据中既不属于正确日志库也不属于无意义日志库的日志数据作为待处理日志数据，而落在正确日志库中或无意义日志库中的日志数据被滤除，无需进一步处理。

第一相似度计算模块306可获取通过对待处理日志数据进行第一相似度计算得到的第一标准问。

第一相似度计算模块306可包括表达式语义相似度计算模块(未示出)，以将待处理日志(例如，该待处理日志中所含的用户问题)与问答数据库中的问答标准问的语义表达式执行表达式语义相似度计算，以找到相似度最高的语义表达式，该最高相似度的语义表达式所对应的问答标准问即作为匹配得到的第一标准问。

第二相似度计算模块308可获取通过对该待处理日志数据进行第二相似度计算得到的第二标准问。

对于该待处理日志，还通过第二相似度计算模块308以匹配所对应的第二标准问。具体而言，该匹配是以正确日志库为基础的。

具体而言，第二相似度计算模块308可包括聚类模块(未示出)，用于以正确日志库(例如，其所含的正确标准问的集合)为基础对所有的待处理日志进行大数据聚类，以使得每一条待处理日志被聚类至某一正确标准问，从而将该正确标准问作为匹配得到的第二标准问。例如，将每一条待处理日志(例如可以是该条用户日志的用户问题)与每个正确标准问执行一次语义相似度计算，然后，将该条待处理日志聚到具有最高语义相似度的那一个正确标准问。

判断模块310可判断该待处理日志数据与第一标准问的相似度是否大于第一阈值，该待处理日志数据与第二标准问的相似度是否大于第二阈值，以及该第一标准问和该第二标准问是否同一标准问。

当该待处理日志数据与第一标准问的相似度大于第一阈值，待处理日志数据与第二标准问的相似度大于第二阈值，且第一标准问和第二标准问相同时，则标注模块312可将该待处理日志标注为正确。

该待处理日志数据与第一标准问的相似度大于第一阈值，即表示该待处理日志被匹配至该第一标准问具有较高的可信度，待处理日志数据与第二标准问的相似度大于第二阈值，也表示该待处理日志被匹配至该第二标准问具有较高的可信度，而且第一标准问和第二标准问相同，表示待处理日志通过两周不同的相似度计算都被匹配至相同的标准问，从而标注模块312可以判断该用户日志是正确的。

具体而言，判断模块310可以计算待处理日志数据与第一标准问的相似度与第一阈值的差值比(即，相似度减去第一阈值的差值再除以该第一阈值)，以及计算待处理日志数据与第二标准问的相似度与第二阈值的差值比(相似度减去第二阈值的差值再除以该第二阈值)，从而判断待处理日志数据与第一标准问的相似度与第一阈值的差值比是大于还是小于待处理日志数据与第二标准问的相似度与第二阈值的差值比。

若待处理日志数据与第一标准问的相似度与第一阈值的差值比大于待处理日志数据与第二标准问的相似度与第二阈值的差值比，则说明该待处理日志数据与第一标准问(即问答数据库中的问答标准问)的匹配可靠性更高，即问答数据库给出的答案是正确的，换言之，由问答数据库产生的该待处理日志是正确的，因此标注模块312可将该待处理日志标注为正确。

图4是示出了根据本发明的一方面的问答信息处理装置400的框图。

问答信息处理装置400可包括接收模块402、第一相似度计算模块404、第二相似度计算模块406、以及判断模块408、以及输出模块410。

接收模块402可接收用户问题。所述用户问题可以为文本格式，也可以为语音等格式。

接收模块402可以经问答***的交互界面接收用户问题。

第一相似度计算模块404可对该用户问题进行第一相似度计算得到第一标准问。

对于特定的一条用户问题，通过第一相似度计算模块404以匹配所对应的第一标准问。具体而言，该匹配是以问答数据库为基础的。如前所述，问答数据库中包括多个问答标准问，另外每个问答标准问关联有语义表达式来表示该问答标准问。

第一相似度计算模块404可包括表达式语义相似度计算模块(未示出)，以用于将该用户问题与问答数据库中的问答标准问的语义表达式执行表达式语义相似度计算，以找到相似度最高的语义表达式，该最高相似度的语义表达式所对应的问答标准问即作为匹配得到的第一标准问。

第二相似度计算模块406可对该用户问题进行第二相似度计算得到第二标准问。

对于该用户问题，还通过第二相似度计算模块406以匹配所对应的第二标准问。具体而言，该匹配是以正确日志库为基础的。

具体而言，第二相似度计算模块406可包括聚类模块(未示出)，用于以正确日志库(例如，其所含的正确标准问的集合)为基础对该用户问题进行大数据聚类，以使得该用户问题被聚类至某一正确标准问，从而将该正确标准问作为匹配得到的第二标准问。例如，聚类模块可将该用户问题与每个正确标准问执行一次语义相似度计算，然后，将该条用户问题聚类到具有最高语义相似度的那一个正确标准问。

判断模块408可判断该用户问题与该第一标准问的相似度是否大于第一阈值，该用户问题与该第二标准问的相似度是否大于第二阈值，以及该第一标准问和该第二标准问是否是同一标准问。

当该用户问题与第一标准问的相似度大于第一阈值，该用户问题与第二标准问的相似度大于第二阈值，且第一标准问和第二标准问相同时，则输出模块410可向用户反馈该第一标准问或所述第二标准问对应的答案信息。

该用户问题与第一标准问的相似度大于第一阈值，即表示该用户问题被匹配至该第一标准问具有较高的可信度，该用户问题与第二标准问的相似度大于第二阈值，也表示该用户问题被匹配至该第二标准问具有较高的可信度，而且第一标准问和第二标准问相同，表示该用户问题通过两周不同的相似度计算都被匹配至相同的标准问，从而可以判断该匹配是准确度的，因此，输出模块410可向用户反馈该第一标准问或所述第二标准问对应的答案信息，此时提供的答案具有非常高的可信度。

具体而言，判断模块408可以计算用户问题与第一标准问的相似度与第一阈值的差值比(即，相似度减去第一阈值的差值再除以该第一阈值)，以及计算用户问题与第二标准问的相似度与第二阈值的差值比(相似度减去第二阈值的差值再除以该第二阈值)，从而判断该用户问题与第一标准问的相似度与第一阈值的差值比是大于还是小于该用户问题与第二标准问的相似度与第二阈值的差值比。

若用户问题与第一标准问的相似度与第一阈值的差值比大于用户问题与第二标准问的相似度与第二阈值的差值比，则说明该用户问题与第一标准问(即问答数据库中的问答标准问)的匹配可靠性更高，此时，输出模块410可将该第一标准问所对应的答案信息提供给用户。反之，将第二标准问所对应的***给用户。

以此方式，提高了问答***的问答正确率。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体***的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

软件应当被宽泛地解释成意味着指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行件、执行的线程、规程、函数等，无论其是用软件、固件、中间件、微代码、硬件描述语言、还是其它术语来述及皆是如此。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种问答***的日志处理方法，其特征在于，包括：

获取用户日志数据；

对所述用户日志数据进行过滤处理，以得到待处理日志数据；

获取通过对所述待处理日志数据进行第一相似度计算得到的第一标准问；

获取通过对所述待处理日志数据进行第二相似度计算得到的第二标准问；

当所述待处理日志数据与所述第一标准问的相似度大于第一阈值，所述待处理日志数据与所述第二标准问的相似度大于第二阈值，且所述第一标准问和所述第二标准问相同时，则将所述待处理日志标注为正确。

2.如权利要求1所述的日志处理方法，其特征在于，所述过滤处理包括：

提供正确日志库和无意义日志库；

通过比较判断将所述用户日志数据中既不属于正确日志库也不属于无意义日志库的日志数据作为待处理日志数据。

3.如权利要求1所述的日志处理方法，其特征在于，所述第一相似度计算包括：

提供问答数据库，所述问答数据库包括多个问答标准问；

通过表达式语义相似度计算为所述待处理日志选择一问答标准问，该问答标准问作为第一标准问。

4.如权利要求1所述的日志处理方法，其特征在于，所述第二相似度计算包括：

提供正确日志库，所述正确日志库包括正确标准问；

采用大数据聚类分析将所述待处理日志聚类至一正确标准问，该正确标准问作为第二标准问。

5.如权利要求1所述的方法，其特征在于，所述第一标准问直接从所述用户日志数据中提取。

6.如权利要求5所述的日志处理方法，其特征在于，还包括：当所述待处理日志数据与所述第一标准问的相似度大于第一阈值，所述待处理日志数据与所述第二标准问的相似度大于第二阈值，所述第一标准问和所述第二标准问不同，且所述待处理日志数据与所述第一标准问的相似度与第一阈值的差值比大于所述待处理日志数据与所述第二标准问的相似度与第二阈值的差值比时，则将所述待处理日志标注为正确。

7.如权利要求1所述的方法，其特征在于，还包括：

对与所述第一标准问的相似度小于第一阈值且与所述第二标准问的相似度小于第二阈值的所有用户日志数据进行聚类分析，以聚类为多个用户日志群集以供人工确认。

8.一种问答信息处理方法，其特征在于，包括：

接收用户问题；

对所述用户问题进行第一相似度计算得到第一标准问；

对所述用户问题进行第二相似度计算得到第二标准问；

当所述用户问题与所述第一标准问的相似度大于第一阈值，所述用户问题与所述第二标准问的相似度大于第二阈值，且所述第一标准问和所述第二标准问相同时，则向用户反馈所述第一标准问对应的答案信息或所述第二标准问对应的答案信息。

9.如权利要求8所述的问答信息处理方法，其特征在于，所述第一相似度计算包括：

提供问答数据库，所述问答数据库包括多个问答标准问；

通过表达式语义相似度计算为所述用户问题选择一问答标准问，该问答标准问作为第一标准问。

10.如权利要求8所述的问答信息处理方法，其特征在于，所述第二相似度计算包括：

提供正确日志库，所述正确日志库包括正确标准问；

采用大数据聚类分析将所述用户问题聚类至一正确标准问，该正确标准问作为第二标准问。

11.如权利要求8所述的问答信息处理方法，其特征在于，还包括：当所述用户问题与所述第一标准问的相似度大于第一阈值，所述用户问题与所述第二标准问的相似度大于第二阈值，且所述第一标准问和所述第二标准问不同时，则向用户反馈相似度与对应的阈值差值比更大的标准问对应的答案信息。

12.一种问答***的日志处理装置，其特征在于，包括：

获取模块，用于获取用户日志数据；

过滤模块，用于对所述用户日志数据进行过滤处理，以得到待处理日志数据；

第一相似度计算模块，用于获取通过对所述待处理日志数据进行第一相似度计算得到的第一标准问；

第二相似度计算模块，用于获取通过对所述待处理日志数据进行第二相似度计算得到的第二标准问；

判断模块，用于判断所述待处理日志数据与所述第一标准问的相似度是否大于第一阈值，所述待处理日志数据与所述第二标准问的相似度是否大于第二阈值，以及所述第一标准问和所述第二标准问是否同一标准问；以及

标注模块，用于当所述待处理日志数据与所述第一标准问的相似度大于第一阈值，所述待处理日志数据与所述第二标准问的相似度大于第二阈值，且所述第一标准问和所述第二标准问相同时，则将所述待处理日志标注为正确。

13.如权利要求12所述的日志处理装置，其特征在于，所述问答***提供有正确日志库和无意义日志库，所述过滤模块进一步通过比较判断将所述用户日志数据中既不属于正确日志库也不属于无意义日志库的日志数据作为待处理日志数据。

14.如权利要求12所述的日志处理装置，其特征在于，所述问答***提供有问答数据库，所述问答数据库包括多个问答标准问，所述第一相似度计算模块包括：

表达式语义相似度计算模块，用于通过表达式语义相似度计算为所述待处理日志选择一问答标准问，该问答标准问作为第一标准问。

15.如权利要求12所述的日志处理装置，其特征在于，所述问答***提供有正确日志库，所述正确日志库包括正确标准问，所述第二相似度计算包括：

聚类模块，用于采用大数据聚类分析将所述待处理日志聚类至一正确标准问，该正确标准问作为第二标准问。

16.如权利要求12所述的日志处理装置，其特征在于，所述第一相似度计算模块直接从所述用户日志数据中提取所述第一标准问。

17.如权利要求16所述的日志处理装置，其特征在于，所述判断模块用于当所述待处理日志数据与所述第一标准问的相似度大于第一阈值，所述待处理日志数据与所述第二标准问的相似度大于第二阈值，所述第一标准问和所述第二标准问不同时，进一步判断所述待处理日志数据与所述第一标准问的相似度与第一阈值的差值比是否大于所述待处理日志数据与所述第二标准问的相似度与第二阈值的差值比，

响应于所述待处理日志数据与所述第一标准问的相似度与第一阈值的差值比大于所述待处理日志数据与所述第二标准问的相似度与第二阈值的差值比，所述标注模块将所述待处理日志标注为正确。

18.一种问答信息处理装置，其特征在于，包括：

接收模块，用于接收用户问题；

第一相似度计算模块，用于对所述用户问题进行第一相似度计算得到第一标准问；

第二相似度计算模块，用于对所述用户问题进行第二相似度计算得到第二标准问；

判断模块，用于判断所述用户问题与所述第一标准问的相似度是否大于第一阈值，所述用户问题与所述第二标准问的相似度是否大于第二阈值，以及所述第一标准问和所述第二标准问是否是同一标准问；以及

输出模块，用于当所述用户问题与所述第一标准问的相似度大于第一阈值，所述用户问题与所述第二标准问的相似度大于第二阈值，且所述第一标准问和所述第二标准问相同时，向用户反馈所述第一标准问对应的答案信息或所述第二标准问对应的答案信息。

19.如权利要求18所述的问答信息处理装置，其特征在于，所述问答***提供有问答数据库，所述问答数据库包括多个问答标准问，所述第一相似度计算模块包括：

表达式语义相似度计算模块，通过表达式语义相似度计算为所述用户问题选择一问答标准问，该问答标准问作为第一标准问。

20.如权利要求18所述的问答信息处理装置，其特征在于，所述问答***提供有正确日志库，所述正确日志库包括正确标准问，所述第二相似度计算模块包括：

聚类模块，用于采用大数据聚类分析将所述用户问题聚类至一正确标准问，该正确标准问作为第二标准问。

21.如权利要求18所述的问答信息处理装置，其特征在于，所述判断模块当所述用户问题与所述第一标准问的相似度大于第一阈值，所述用户问题与所述第二标准问的相似度大于第二阈值，所述第一标准问和所述第二标准问不同时，进一步判断所述用户问题与所述第一标准问的相似度与第一阈值的差值比是否大于所述用户问题与所述第二标准问的相似度与第二阈值的差值比；

所述输出模块向用户反馈相似度与对应的阈值差值比更大的标准问对应的答案信息。