CN105373527A

CN105373527A - 一种省略恢复方法及问答***

Info

Publication number: CN105373527A
Application number: CN201410428836.1A
Authority: CN
Inventors: 陈虹; 罗圣美; 尹庆宇; 张宇
Original assignee: Harbin Institute of Technology; ZTE Corp
Current assignee: Harbin Institute of Technology; ZTE Corp
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2016-03-02
Anticipated expiration: 2034-08-27
Also published as: CN105373527B

Abstract

本发明实施例公开了一种省略恢复方法，所述方法包括：在对话中句子有缺省词时，获取所述缺省词的候选代词以及候选名词；依据所述候选代词及所述候选名词，确定所述缺省词的候选对；确定第一概率和第二概率，所述第一概率用于表示所述候选代词作为所述缺省词的概率，所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率；依据所述第一概率和所述第二概率，确定所述候选对中的候选名词为所述缺省词；本发明实施例还公开了一种问答***。

Description

一种省略恢复方法及问答***

技术领域

本发明涉及问答***技术，具体涉及一种应用于问答***的省略恢复方法及问答***。

背景技术

在用户双方进行沟通时，由于对话情景、对话者说话习惯等原因的限制，通常存在有对话中某些词汇被省略的现象。由于存在有对话情景的限制，即使对话中某些词汇被省略，对于用户来说，也很容易理解对方的意思。但如果对话的一方为问答***时，由于缺乏相应的知识背景，问答***往往不能正确理解用户的省略表述，如此，很容易出现问答***输出错误答案给用户这一问题。

通常采用对省略表述进行恢复即省略恢复的方法，来恢复出被用户省略的句子表述，得到完整句子，利用恢复出的完整句子来解决问答***输出的答案错误率较高的问题。目前，比较常用的省略恢复方法包括有以下几种：基于规则的零代词消解方法、基于句法分析树的零代词消解方法；随着语料规模的不断加大，这些方法对于省略部分恢复的正确性有所降低。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种省略恢复方法及问答***，能够提高对省略部分的识别率，提高省略恢复的正确率。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种省略恢复方法，所述方法包括：

在对话中句子有缺省词时，获取所述缺省词的候选代词以及候选名词；

依据所述候选代词及所述候选名词，确定所述缺省词的候选对；

确定第一概率和第二概率，所述第一概率用于表示所述候选代词作为所述缺省词的概率，所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率；

依据所述第一概率和所述第二概率，确定所述候选对中的候选名词为所述缺省词。

上述方案中，所述方法包括：

获取模型系数；

依据第一概率、第二概率及所述模型系数，建立联合模型；

所建立的所述联合模型为：

Score＝a1*f(w,t)+a2*f(w,t,c)；

其中，Score为所述联合模型的目标分值，由概率值来表征；a1、a2为模型系数；f(w，t)表示用一个候选代词作为缺省词的概率；f(w，t，c)表示在一个候选对中用一个候选名词替换为相应候选代词的概率；w表示在所述句子中出现的位于缺省词之后的第一个词，t表示候选代词，c表示候选名词；

在所述候选对中，选取使所建立的联合模型的目标分值取得最大值的候选对；

确定所选取的候选对中的候选名词为所述缺省词。

上述方案中，在获取所述缺省词的候选代词以及候选名词之前，所述方法还包括：

对所述句子进行词的划分，形成至少两个词；

相应的，获取所述缺省词的候选代词以及候选名词，包括：

确定所述至少两个词中的一个词在该词的位置之前存在有缺省词时，利用分类器获取用于替代该缺省词的至少一个候选代词、及每个候选代词作为该缺省词的概率，确定所述概率为第一概率；

在所述对话的所述句子之前的n个句子中，提取所出现的所有名词，并将所提取的名词作为所述候选名词；

其中，n为预先设置的正整数。

上述方案中，依据所述候选代词及所述候选名词，确定所述缺省词的候选对，包括：

将所述缺省词的所有候选代词与所有候选名词分别进行两两组合，形成针对所述缺省词的至少一个候选对，所述候选对中的第一个元素为所述缺省词、第二个元素为候选代词、第三个元素为候选名词；

在确定所述缺省词的至少一个候选对时，利用分类器获取到每一个候选对中的候选名词将相应候选代词替换掉的概率，确定所述概率为第二概率。

上述方案中，所述方法还包括：

将与每一个候选对相对应的第一概率与第二概率代入至所述联合模型，得到所述联合模型的至少一个概率值；

选取使所述联合模型取得最大概率值的候选对；

确定使所述联合模型取得最大概率值的候选对中的候选名词为缺省词，添加所述候选名词至所述句子的相应位置，以恢复所述句子的完整性。

本发明实施例还提供了一种问答***，所述***包括：

第一获取单元，用于在对话中句子有缺省词时，获取所述缺省词的候选代词以及候选名词；

第一确定单元，用于依据所述候选代词及所述候选名词，确定所述缺省词的候选对；

第二确定单元，用于确定第一概率和第二概率，所述第一概率用于表示所述候选代词作为所述缺省词的概率，所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率；

第三确定单元，用于依据所述第一概率和所述第二概率，确定所述候选对中的候选名词为所述缺省词。

上述方案中，所述***还包括：第二获取单元、第一建立单元；

所述第二获取单元，用于获取模型系数；

所述第一建立单元，用于依据第一概率、第二概率及所述模型系数，建立联合模型；

所述联合模型为：

Score＝a1*f(w,t)+a2*f(w,t,c)；

相应的，所述第三确定单元，用于：

确定所选取的候选对中的候选名词为所述缺省词。

上述方案中，所述***还包括：第一划分单元，用于对所述句子进行词的划分，形成至少两个词；

相应的，所述第一获取单元，用于确定所述至少两个词中的一个词在该词的位置之前存在有缺省词时，利用分类器获取用于替代该缺省词的至少一个候选代词、及每个候选代词作为该缺省词的概率，确定所述概率为第一概率；

其中，n为预先设置的正整数。

上述方案中，所述第二确定单元，还用于：

上述方案中，所述***还包括第一选取单元；其中，

所述第一选取单元，用于将与每一个候选对相对应的第一概率与第二概率代入至所述联合模型，得到所述联合模型的至少一个概率值；选取使所述联合模型取得最大概率值的候选对；

相应的，所述第三确定单元，用于确定使所述联合模型取得最大概率值的候选对中的候选名词为缺省词，添加所述候选名词至所述句子的相应位置，以恢复所述句子的完整性。

本发明实施例提供的省略恢复方法及问答***，所述方法包括：在对话中句子有缺省词时，获取所述缺省词的候选代词以及候选名词；依据所述候选代词及所述候选名词，确定所述缺省词的候选对；确定第一概率和第二概率，所述第一概率用于表示所述候选代词作为所述缺省词的概率，所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率；依据所述第一概率和所述第二概率，确定所述候选对中的候选名词为所述缺省词；利用本发明实施例的技术方案，可提高对省略部分的识别率以及省略恢复的正确率。

附图说明

图1为本发明实施例提供的省略恢复方法的流程示意图；

图2为本发明实施例的一个应用场景示意图；

图3为本发明实施例的问答***的组成示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行详细说明，应当理解，以下所说明的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种省略恢复方法，所述方法应用于问答***中，在所述问答***参与的对话中，所述问答***的对方可以为用户。

图1为本发明实施例提供的省略恢复方法的流程示意图；如图1所示，所述方法包括：

步骤101：对话中句子有缺省词时，获取所述缺省词的候选代词以及候选名词；

这里，将对话中的每一个句子进行词汇划分，形成至少两个词，利用berkelyparser转换工具将分好词的句子转化为语法树，再利用Penn2Malt转换工具将语法树转化为依存树，得到句子的词法信息、句法结构信息和依存信息；依据所得到的上述信息，通过所构建的分类器确定每个词的前面是否存在有缺省词，如果某个词的前面存在缺省词，通过所述分类器得到能够替代该缺省词的至少一个候选代词、以及每个候选代词作为所述缺省词的概率f(w，t)，并视f(w，t)为第一概率；其中，w代表缺省词、t代表可替代该缺省词的候选代词，可视(w，t)为该缺省词与候选名词之间的对应候选关系；其中，在所述分类器中所包括的候选代词包括：我、你、他、它、我们、你们、他们、它们等；通过所述分类器得到的能够替代该缺省词的候选代词为以上所述的候选代词中的至少一种；在省略恢复技术领域，通常视上述不同类型的候选代词为零代词类别t，故上述方案也可称之为零代词类别的恢复过程。

其中，所述分类器由机器学习算法中的最大熵模型来构建，这里不再赘述。

步骤102：依据所述候选代词及所述候选名词，确定所述缺省词的候选对；

这里，在当前句子之前的n个句子中，n为预先设置的正整数，提取n个句子中的所有名词c，并将所提取出的名词c作为能够将所述候选代词替换掉的候选名词，并将所获取到的候选代词t与所提取出的候选名词c进行两两组合，形成代词名词对即候选对(w，t，c)，利用分类器获取到每一个候选对(w，t，c)中的候选名词c将相应候选代词t替换掉的概率f(w，t，c)，视概率f(w，t，c)为第二概率；其中，所述候选对(w，t，c)包括三个元素，第一个元素为缺省词、第二个元素为候选代词、第三个元素为候选名词。

上述方案中，通过分类器确定缺省词及计算概率f(w，t)、概率f(w，t，c)的过程具体请参见相关说明，这里不再赘述。

步骤103：确定第一概率和第二概率，所述第一概率用于表示所述候选代词作为所述缺省词的概率，所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率；

这里，如前所述，在确定每一候选代词时，利用分类器获取每个候选代词作为所述缺省词的概率f(w，t)(第一概率)；在确定每一候选对时，利用分类器获取到每一个候选对(w，t，c)中的候选名词c将相应候选代词t替换掉的概率f(w，t，c)(第二概率)。

步骤104：依据所述第一概率和所述第二概率，确定所述候选对中的候选名词为所述缺省词。

进一步的，获取模型系数；依据所述第一概率、第二概率及所述模型系数，建立联合模型；

其中，所建立的联合模型的表达式如公式(1)所示：

Score＝a1*f(w,t)+a2*f(w,t,c)(1)

其中，Score为目标分值，由概率值来表征；a1、a2为模型系数，通过机器学习中的支持向量机算法(SVM)训练而得；将与每一个候选对相对应的第一概率与第二概率代入至所述联合模型，得到所述联合模型的至少一个概率值；在所述至少一个候选对中，选取使所建立的联合模型的目标分值取得最大值的候选对；确定所选取的候选对中的候选名词为所述缺省词。

具体的，对于词w，通过前述方法得到其每一个候选对(w，t，c)时，将该候选对所对应的概率f(w，t)、f(w，t，c)分别代入至公式(1)，得到不同的Score，选取使Score取值为最大的候选对(w，t1，c1)，该候选对中的候选名词c1就是词w之前被省略掉的缺省词；将该缺省词添加至词w之前的位置，恢复出完整的句子，以恢复当前句子的完整性。上述对于恢复出缺省词的过程，在问答***中，可称为零代词指代消解。

需要说明的是，上述零代词类别恢复与零代词指代消解等过程均可由分类器来实现，该分类器可通过机器学习方法中的最大熵模型来构建。

由此可见，本发明实施例中，在对话中句子有缺省词时，获取所述缺省词的候选代词以及候选名词；依据所述候选代词及所述候选名词，确定所述缺省词的候选对；确定第一概率和第二概率，所述第一概率用于表示所述候选代词作为所述缺省词的概率，所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率；依据所述第一概率和所述第二概率，确定所述候选对中的候选名词为所述缺省词，提高了对省略部分即缺省词的识别率、及省略恢复的正确率；同时，本发明实施例依据第一概率和所述第二概率，建立联合模型；将零代词类别恢复与零代词指代消解这两个过程一同融合在联合模型中，仅通过对联合模型的一步求解就可得出当前句子的缺省词，提高了恢复效率，同时也减少了因多步骤求解而带来的求解误差。

图2为本发明实施例的一个应用场景示意图；在图2所示的对话中，Question代表着用户输入至问答***的问题，Answer为问答***输出的答案；可见，第3个问题“多少钱”为省略句，经过本发明实施例的技术方案，问答***可将省略掉的名词“Iphone手机”恢复出来，并正确的回答了“Iphon手机4999”，以“多少钱”为对话中的当前句子为例，

首先，将“多少钱”进行词汇划分，形成两个词，分别为：多少、钱；依据句子的词法信息、句法结构信息和依存信息，通过分类器分别确定在第一个词(w1＝多少)“多少”、第二个词(w2＝钱)“钱”的前面是否存在缺省词；确定为第一个词“多少”前面缺少缺省词，第二个词“钱”的前面不存在缺省词，对w2的处理结束；针对w1前的缺省词，分类器输出针对该缺省词的候选代词“他”(t1＝他)和“它”(t2＝它)、以及每一个候选代词作为所述缺省词的概率如f(w1，t1)＝f(多少，他)＝0.32、f(w1，t2)＝f(多少，它)＝0.29；

其次，在“多少钱”之前的n＝3个句子中，提取3个句子中的所有名词“小明”(c1＝小明)、“Iphone手机”(c2＝Iphone手机)，并将c1、c2分别作为候选名词；也就是说，针对同一个w1，其候选代词存在有两种，候选名词存在有两种，通过两两组合得到，针对w1(w1＝多少)这个词，一共存在有4个即候选对，分别是：(w1，t1，c1)＝(多少、他、小明)、(w1，t1，c2)＝(多少、他、Iphone手机)、(w1，t2，c1)＝(多少、它、小明)、(w1，t2，c2)＝(多少、它、Iphone手机)；通过分类器计算出每一个候选对的概率，分别是f(w1，t1，c1)＝0.7、f(w1，t1，c2)＝0.46、f(w1，t2，c1)＝0.55、f(w1，t2，c2)＝0.85；

通过训练而得到a1、a2均为1时，

在取候选对(w1，t1，c1)＝(多少、他、小明)时，与该候选对对应的第一概率f(w1，t1)＝f(多少，他)＝0.32、第二概率f(w1，t1，c1)＝f(多少、他、小明)＝0.7，将这两个概率代入至公式(1)，得到Score(1)＝0.32+0.7＝1.02；

在取候选对(w1，t1，c2)＝(多少、他、Iphone手机)时，与该候选对对应的第一概率f(w1，t1)＝f(多少，他)＝0.32、第二概率f(w1，t1，c2)＝0.46，将这两个概率代入至公式(1)，得到Score(2)＝0.32+0.46＝0.76；

在取候选对(w1，t2，c1)＝(多少、它、小明)时，与该候选对对应的第一概率f(w1，t2)＝f(多少，它)＝0.29、第二概率f(w1，t2，c1)＝f(多少、它、小明)＝0.55，将这两个概率代入至公式(1)，得到Score(3)＝0.29+0.55＝0.84；

在取候选对(w1，t2，c2)＝(多少、它、Iphone手机)，与该候选对对应的第一概率f(w1，t2)＝f(多少，它)＝0.29、第二概率f(w1，t2，c2)＝0.85，将这两个概率代入至公式(1)，得到Score(4)＝0.29+0.85＝1.14；

最后，在得到的Score(1)～Score(4)中，选取最大值Score(4)，与最大值Score(4)对应的候选对为(w1，t2，c2)＝(多少、它、Iphone手机)，即针对“多少”这个词(w1＝多少)，最终所确定出的“多少”前面的候选代词为“它”，候选名词为“Iphone手机”，并用“Iphone手机”替换掉“它”，恢复“多少钱”为“Iphone手机多少钱”，针对该问题，问答***输出答案“Iphone手机4999”。

基于上述省略恢复的方法，本发明实施例还提供了一种问答***；图3为本发明实施例的问答***的组成示意图；如图3所示，所述***包括：第一获取单元301、第一确定单元302、第二确定单元303、第三确定单元304；其中，

第一获取单元301，用于在对话中句子有缺省词时，获取所述缺省词的候选代词以及候选名词；

第一确定单元302，用于依据所述候选代词及所述候选名词，确定所述缺省词的候选对；

第二确定单元303，用于确定第一概率和第二概率，所述第一概率用于表示所述候选代词作为所述缺省词的概率，所述第二概率用于表示所述候选对中所述候选名词替换为相应候选代词的概率；

第三确定单元304，用于依据所述第一概率和所述第二概率，确定所述候选对中的候选名词为所述缺省词。

如图3所示，所述***还包括：第二获取单元305、第一建立单元306；

其中，

所述第二获取单元305，用于获取模型系数；

所述第一建立单元306，用于依据所述第一概率、第二概率及所述模型系数，建立联合模型；

相应的，所述第三确定单元304，用于在所述至少一个候选对中，选取使所建立的联合模型的目标分值取得最大值的候选对；确定所选取的候选对中的候选名词为所述缺省词。

其中，所述联合模型的表达式及其各参量的含义如前所述，这里不再赘述。

如图3所示，所述***还包括：第一划分单元307，用于对所述句子进行词的划分，形成至少两个词；

相应的，所述第一获取单元301，用于确定所述至少两个词中的一个词在该词的位置之前存在有缺省词时，利用分类器获取用于替代该缺省词的至少一个候选代词、及每个候选代词作为该缺省词的概率，确定所述概率为第一概率；在所述对话的句子之前的n个句子中，提取所出现的所有名词，并将所提取的名词作为所述候选名词；其中，n为预先设置的正整数。

所述第二确定单元303，还用于将所述缺省词的所有候选代词与所有候选名词分别进行两两组合，形成针对所述缺省词的至少一个候选对；在确定所述缺省词的至少一个候选对时，利用分类器获取到每一个候选对中的候选名词将相应候选代词替换掉的概率，确定所述概率为第二概率。

如图3所示，所述***还包括：第一选取单元308；

所述第一选取单元308，用于将与每一个候选对相对应的第一概率与第二概率代入至所述联合模型，得到所述联合模型的至少一个概率值；选取使所述联合模型取得最大概率值的候选对；

相应的，所述第三确定单元304，用于确定使所述联合模型取得最大概率值的候选对中的候选名词为缺省词，添加所述候选名词至所述句子的相应位置，以恢复所述当前句子的完整性。

在实际应用中，所述第一获取单元301、第一确定单元302、第二确定单元303、第三确定单元304、第二获取单元305、第一建立单元306、第一划分单元307及第一选取单元308均可由中央处理单元(CPU，CentralProcessingUnit)、或数字信号处理(DSP，DigitalSignalProcessor)、或微处理器(MPU，MicroProcessorUnit)、或现场可编程门阵列(FPGA，FieldProgrammableGateArray)等来实现；所述CPU、DSP、MPU、FPGA均可内置于问答***中。

本领域技术人员应当理解，图3中所示的问答***中的各处理单元的实现功能可参照前述省略恢复方法的相关描述而理解。本领域技术人员应当理解，图3所示的问答***中各处理单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种省略恢复方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法包括：

获取模型系数；

依据第一概率、第二概率及所述模型系数，建立联合模型；

所建立的所述联合模型为：

Score＝a1*f(w,t)+a2*f(w,t,c)；

确定所选取的候选对中的候选名词为所述缺省词。

3.根据权利要求1或2所述的方法，其特征在于，在获取所述缺省词的候选代词以及候选名词之前，所述方法还包括：

对所述句子进行词的划分，形成至少两个词；

相应的，获取所述缺省词的候选代词以及候选名词，包括：

其中，n为预先设置的正整数。

4.根据权利要求3所述的方法，其特征在于，依据所述候选代词及所述候选名词，确定所述缺省词的候选对，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

选取使所述联合模型取得最大概率值的候选对；

6.一种问答***，其特征在于，所述***包括：

7.根据权利要求6所述的***，其特征在于，所述***还包括：第二获取单元、第一建立单元；

所述第二获取单元，用于获取模型系数；

所述联合模型为：

Score＝a1*f(w,t)+a2*f(w,t,c)；

相应的，所述第三确定单元，用于：

确定所选取的候选对中的候选名词为所述缺省词。

8.根据权利要求6或7所述的***，其特征在于，所述***还包括：第一划分单元，用于对所述句子进行词的划分，形成至少两个词；

其中，n为预先设置的正整数。

9.根据权利要求8所述的***，其特征在于，所述第二确定单元，还用于：

10.根据权利要求9所述的***，其特征在于，所述***还包括第一选取单元；其中，