CN104850540A

CN104850540A - 进行语句识别的方法及装置

Info

Publication number: CN104850540A
Application number: CN201510288088.6A
Authority: CN
Inventors: 罗欢; 李�杰; 汤鹏飞; 王智
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2015-08-19

Abstract

本发明公开了进行语句识别的方法及装置，其中，该方法包括：定制出映射分类器，映射分类器中设置特征向量与分类结果之间的映射关系；将普通分类器和映射分类器组合成弱分类器；将语料样本输入弱分类器进行分类识别，所述语料样本包含实例语料的特征向量；将弱分类器识别出的分类结果与标准分类结果进行比较，如果一致，则分类正确，如果不一致，则分类错误；根据错误率设置相应弱分类器的权重；将待分类语句输入各弱分器，弱分类器对待分类语句进行分类，得到分类结果；对输出相同分类结果的所有弱分类器的权重进行统计，得到相应分类结果的几率值；将几率值最大的分类结果作为待分类语句的最终识别结果。本发明方案能够提高对语句识别的准确率。

Description

进行语句识别的方法及装置

技术领域

本发明涉及信息处理技术，尤其涉及进行语句识别的方法及装置。

背景技术

目前的信息处理应用中，常涉及对语句进行识别以确定其分类结果的场景。

例如，在网络问答***中，用户输入自然语言文本语句，网络侧对其进行识别，得到分类结果，根据分类结果提取出对应的应答数据，反馈给用户。该实例通过对用户输入的语句进行处理分析，最终执行用户请求，返回用户所需的信息。

问答***中，回答的准确性是比较重要的核定指标。要想回答精准，须尽可能精准的识别出语句的分类结果。

现有进行语句识别的方案一般基于普通分类模型(如支持向量机，随机森林、贝叶斯、Adaboost等)实现，具体包括：

采用实例语料对普通分类器进行训练，得到训练后的分类模型。后续在需要时，向训练后的分类模型输入语句，将返回一个分类结果。有了分类结果后，就可以调用相应的任务处理逻辑组装回答用户的问题了。

现有通过普通分类器进行语句识别的方案存在以下缺陷：由于普通分类模型基于对实例语料进行统计的方式训练得到，它识别的正确率到了一定程度后就不容易提升，并且对于一些相差非常小的语句很难识别准确。

综上，现有进行语句识别的方案具有局限性，且识别准确率低。

发明内容

本发明提供了一种进行语句识别的方法，该方法能够提高对语句识别的准确率。

本发明提供了一种进行语句识别的装置，该装置能够提高对语句识别的准确率。

一种进行语句识别的方法，该方法包括：

对实例语料进行分类标注，得到标准分类结果；并对实例语料进行特征向量提取；

定制出映射分类器，映射分类器中设置特征向量与分类结果之间的映射关系；将普通分类器和映射分类器组合成弱分类器；

将语料样本输入弱分类器进行分类识别，所述语料样本包含实例语料的特征向量；当弱分类器为普通分类器时，先对普通分类器进行训练，再由训练后的分类模型进行分类识别；

将弱分类器识别出的分类结果与标准分类结果进行比较，如果一致，则分类正确，如果不一致，则分类错误；统计出弱分类器分类识别的错误率，根据错误率设置相应弱分类器的权重；

该方法还包括：

将待分类语句输入各弱分类器，弱分类器对待分类语句进行分类，得到分类结果；

对输出相同分类结果的所有弱分类器的权重进行统计，得到相应分类结果的几率值；

将几率值最大的分类结果作为待分类语句的最终识别结果。

一种进行语句识别的装置，该装置包括语料标注单元、语料训练单元和识别单元；

所述语料标注单元，对实例语料进行分类标注，得到标准分类结果；并对实例语料进行特征向量提取；

所述语料训练单元，定制出映射分类器，映射分类器中设置特征向量与分类结果之间的映射关系；将普通分类器和映射分类器组合成弱分类器；将语料样本输入弱分类器进行分类识别，所述语料样本包含实例语料的特征向量，当弱分类器为普通分类器时，先对普通分类器进行训练，再由训练后的分类模型进行分类识别；将弱分类器识别出的分类结果与标准分类结果进行比较，如果一致，则分类正确，如果不一致，则分类错误；统计出弱分类器分类识别的错误率，根据错误率设置相应弱分类器的权重；

所述识别单元，将待分类语句输入各弱分类器，弱分类器对待分类语句进行分类，得到分类结果；对输出相同分类结果的所有弱分类器的权重进行统计，得到相应分类结果的几率值；将几率值最大的分类结果作为待分类语句的最终识别结果。

从上述方案可以看出，本发明中，定制出映射分类器，映射分类器中设置特征向量与分类结果之间的映射关系，将普通分类器和映射分类器组合成弱分类器；然后采用语料样本对组合成的弱分类器进行训练，得到各弱分类器的权重。而后，基于带权重的弱分类器对待分类语句进行识别，对输出相同分类结果的所有弱分类器的权重进行统计，得到相应分类结果的几率值；将几率值最大的分类结果作为待分类语句的最终识别结果。本发明采用普通分类器和映射分类器结合对待分类语句进行识别，且映射分类器中的映射关系可自行设置，这样，相比于仅采用普通分类器进行数据识别的方式，提高了识别的准确性。

附图说明

图1为本发明进行语句识别的方法示意性流程图；

图2为本发明进行语料训练的方法流程图实例；

图3为本发明基于带权重的弱分类器进行语句识别的方法流程图实例；

图4为本发明进行语句识别的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明进一步详细说明。

本发明中，定制出映射分类器，映射分类器中设置特征向量与分类结果之间的映射关系；采用普通分类器和映射分类器结合对待分类语句进行识别，且映射分类器中的映射关系可自行设置，这样，相比于仅采用普通分类器进行数据识别的方式，提高了识别的准确性。

参见图1，为本发明进行语句识别的方法示意性流程图，其包括以下步骤：

步骤101，对实例语料进行分类标注，得到标准分类结果；并对实例语料进行特征向量提取。

实例语料用于训练分类器。

对实例语料进行分类标注，给予准确的分类结果，即标准分类结果。例如，实例语料为“这个手机有什么配件”，其标准分类结果为“配件查询”。对实例语料进行特征向量提取为已有技术，同样以前述的实例语料进行说明，其特征向量包括“手机、有、什么、配件”。

步骤102，定制出映射分类器，映射分类器中设置特征向量与分类结果之间的映射关系；将普通分类器和映射分类器组合成弱分类器。

具体实现时，针对实例语料，本步骤设置出特征向量与分类结果之间的映射关系，定制出映射分类器。映射关系尤其可针对相差非常小的语句，以及一些需要特别进行分类结果设置的语句；当然，映射关系也可针对一般语句进行分类结果的映射。

映射关系可根据需要自行设置。

步骤103，将语料样本输入弱分类器进行分类识别，所述语料样本包含实例语料的特征向量；当弱分类器为普通分类器时，先对普通分类器进行训练，再由训练后的分类模型进行分类识别。

弱分类器包含映射分类器和普通分类器，当为映射分类器时，输入语料样本，便可根据特征向量在映射关系中查找出相应的分类结果，作为输出。若为弱分类器，则需要对普通分类器进行训练，采用实例语料训练普通分类器为已有技术，这里不多赘述；训练得到的分类模型可对语料样本进行分类识别，输出分类结果。

步骤104，将弱分类器识别出的分类结果与标准分类结果进行比较，如果一致，则分类正确，如果不一致，则分类错误；统计出弱分类器分类识别的错误率，根据错误率设置相应弱分类器的权重。

为了进一步提高分类准确性，还可为语料样本设置权重，并对权重进行调整；具体地，所有语料样本的初始权重可设置为相同数值，在对语料样本进行分类识别后，再进行权重调整，具体地：

将语料样本输入弱分类器进行分类识别后，若弱分类器识别出的分类结果与标准分类结果不一致，则增加相应语料样本的权重，若分类结果与标准分类结果一致，则降低相应语料样本的权重。

这样，当某一弱分类器完成分类后，下一弱分类器可基于调整权重的语料样本进行分类，作为其输入对象。

根据错误率设置相应弱分类器的权重，可采用多种方式实现，例如：直接将错误率作为相应弱分类器的权重。还可以：对样本权重进行调整后，将输入弱分类器的所有语料样本的权重进行相加，得到总值；将所有语料样本中识别错误的语料样本的权重进行相加，得到错误值；用错误值除以总值，将得到的相除结果作为相应弱分类器的权重。

进一步地，步骤103将语料样本输入弱分类器进行分类识别时，若识别失败，则放弃对相应语料样本的分类；放弃分类的语料样本不参与错误率的计算。此情形可针对所有弱分类器；尤其地，对于映射分类器，一般情况下，映射分类器只能对某些语料样本进行识别，对于另一些样本在映射关系中查找不到对应的分类结果，对于这些语料样本允许映射分类器弃权，弃权后的语料样本不参与错误率的计算。

步骤101-104为预先执行的流程，采用语料样本对组合成的弱分类器进行训练，得到各弱分类器的权重。而后，当需要进行使用该组分类器进行语句识别时，便可执行步骤105-107的流程。

步骤105，将待分类语句输入各弱分类器，弱分类器对待分类语句进行分类，得到分类结果。

步骤106，对输出相同分类结果的所有弱分类器的权重进行统计，得到相应分类结果的几率值。

进一步地，步骤105将待分类语句输入弱分类器进行分类识别时，若对待分类语句识别失败，则放弃对相应待分类语句的分类；放弃分类的弱分类器不参与几率值的统计。此情形可针对所有弱分类器；尤其地，对于映射分类器，一般情况下，映射分类器只能对某些语料待分类语句进行识别，对于另一些待分类语句在映射关系中查找不到对应的分类结果，对于这些语料待分类语句允许映射分类器弃权，弃权后的语料待分类语句不参与后续关于几率值的计算。

步骤107，将几率值最大的分类结果作为待分类语句的最终识别结果。

本发明方案中，定制出映射分类器，映射分类器中设置特征向量与分类结果之间的映射关系，将普通分类器和映射分类器组合成弱分类器；然后采用语料样本对组合成的弱分类器进行训练，得到各弱分类器的权重。而后，基于带权重的弱分类器对待分类语句进行识别，对输出相同分类结果的所有弱分类器的权重进行统计，得到相应分类结果的几率值；将几率值最大的分类结果作为待分类语句的最终识别结果。本发明采用普通分类器和映射分类器结合对待分类语句进行识别，且映射分类器中的映射关系可自行设置，尤其对于一些相差非常小的语句，可通过设置映射关系进行区分；这样，相比于仅采用普通分类器进行数据识别的方式，提高了识别的准确性。

下面通过图2、3的流程，对本发明进行语句识别的方案进行实例说明。

参见图2，为本发明进行语料训练的方法流程图实例，其包括以下步骤：

步骤201，对实例语料进行分类标注，得到标准分类结果；并对实例语料进行特征向量提取。

步骤202，定制出映射分类器，映射分类器中设置特征向量与分类结果之间的映射关系；将普通分类器和映射分类器组合成弱分类器。

具体实现时，针对实例语料，本步骤设置出特征向量与分类结果之间的映射关系，定制出映射分类器。映射关系尤其可应用针对相差非常小的语句，以及一些需要特别进行分类结果设置的语句；当然，映射关系也可针对一般语句进行分类结果的映射。

步骤203，将语料样本输入弱分类器进行分类识别，所述语料样本包含实例语料的特征向量；当弱分类器为普通分类器时，先对普通分类器进行训练，再由训练后的分类模型进行分类识别。

对普通分类器进行训练为已有技术，具体包括：将语料样本输入普通分类器，训练出分类模型，此时语料样本包括特征向量和对应的标准分类结果；普通分类器对语料样本进行分析，得到训练后的分类模型。

步骤204，将语料样本输入弱分类器进行分类识别时，若识别失败，则放弃对相应语料样本的分类；放弃分类的语料样本不参与后续错误率的计算。

此情形可针对所有弱分类器；尤其地，对于映射分类器，一般情况下，映射分类器只能对某些语料样本进行识别，对于另一些样本在映射关系中查找不到对应的分类结果，对于这些语料样本允许映射分类器弃权，弃权后的语料样本不参与错误率的计算。

步骤205，将弱分类器识别出的分类结果与标准分类结果进行比较，如果一致，则分类正确，如果不一致，则分类错误。

步骤206，若弱分类器识别出的分类结果与标准分类结果不一致，则增加相应语料样本的权重，若分类结果与标准分类结果一致，则降低相应语料样本的权重。

调整样本权重后的语料样本将作为下一个弱分类器的输入。

步骤207，将输入弱分类器的所有语料样本的权重进行相加，得到总值；将所有语料样本中识别错误的语料样本的权重进行相加，得到错误值；用错误值除以总值，将得到的相除结果作为相应弱分类器的权重。

每一个弱分类器逐个执行步骤203-207的步骤，得到各自的权重。

参见图3，为本发明基于带权重的弱分类器进行语句识别的方法流程图实例，其包括以下步骤：

步骤301，将待分类语句输入各弱分类器，弱分类器对待分类语句进行分类，得到分类结果。

步骤302，将待分类语句输入弱分类器进行分类识别时，若对待分类语句识别失败，则放弃对相应待分类语句的分类。

放弃分类的弱分类器不参与几率值的统计。

此情形可针对所有弱分类器；尤其地，对于映射分类器，一般情况下，映射分类器只能对某些语料待分类语句进行识别，对于另一些待分类语句在映射关系中查找不到对应的分类结果，对于这些语料待分类语句允许映射分类器弃权，弃权后的语料待分类语句不参与几率值的计算。

步骤303，对输出相同分类结果的所有弱分类器的权重进行统计，得到相应分类结果的几率值。

具体实践时，本步骤可对输出相同分类结果的所有弱分类器的权重直接相加，得到几率值。

步骤304，将几率值最大的分类结果作为待分类语句的最终识别结果。

具体实践中，图2和3的流程可具体基于Adaboost算法实现。Adaboost算法是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器，然后把这些分类器集合起来，构成一个更强的最终分类器(强分类器)。在本发明中，使用Adaboost算法具体集成普通分类器和规则，本发明还加入了弃权票技术。普通分类器的数量和规则的数量没有限定，可以任意多个，普通分类器也可实行弃权票。

以网络问答***为例，用户输入自然语言文本语句，网络侧对其进行识别，得到分类结果；执行到本步骤，便有了分类结果；之后，就可以调用相应的任务处理逻辑组装回答用户的问题了。

参见图4，为本发明进行语句识别的装置，其特征在于，该装置包括语料标注单元、语料训练单元和识别单元；

较佳地，所述语料训练单元，还对样本权重进行调整，具体地：将语料样本输入弱分类器进行分类识别后，若弱分类器识别出的分类结果与标准分类结果不一致，则增加相应语料样本的权重，若分类结果与标准分类结果一致，则降低相应语料样本的权重；调整样本权重后的语料样本将作为下一个弱分类器的输入。

较佳地，所述语料训练单元，根据错误率设置相应弱分类器的权重时，具体地：对样本权重进行调整后，将输入弱分类器的所有语料样本的权重进行相加，得到总值；将所有语料样本中识别错误的语料样本的权重进行相加，得到错误值；用错误值除以总值，将得到的相除结果作为相应弱分类器的权重。

较佳地，所述语料训练单元，将语料样本输入弱分类器进行分类识别时，若识别失败，则放弃对相应语料样本的分类；放弃分类的语料样本不参与错误率的计算。

较佳地，所述识别单元，由弱分类器对待分类语句进行分类时，若对待分类语句识别失败，则放弃对相应待分类语句的分类；放弃分类的弱分类器不参与几率值的统计。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种进行语句识别的方法，其特征在于，

该方法还包括：

将几率值最大的分类结果作为待分类语句的最终识别结果。

2.如权利要求1所述的方法，其特征在于，该方法还包括对样本权重进行调整，具体地：

3.如权利要求2所述的方法，其特征在于，所述根据错误率设置相应弱分类器的权重包括：

对样本权重进行调整后，将输入弱分类器的所有语料样本的权重进行相加，得到总值；将所有语料样本中识别错误的语料样本的权重进行相加，得到错误值；

用错误值除以总值，将得到的相除结果作为相应弱分类器的权重。

4.如权利要求1所述的方法，其特征在于，将语料样本输入弱分类器进行分类识别时，若识别失败，则放弃对相应语料样本的分类；放弃分类的语料样本不参与错误率的计算。

5.如权利要求1至4中任一项所述的方法，其特征在于，弱分类器对待分类语句进行分类时，若对待分类语句识别失败，则放弃对相应待分类语句的分类；放弃分类的弱分类器不参与几率值的统计。

6.一种进行语句识别的装置，其特征在于，该装置包括语料标注单元、语料训练单元和识别单元；

7.如权利要求6所述的装置，其特征在于，所述语料训练单元，还对样本权重进行调整，具体地：将语料样本输入弱分类器进行分类识别后，若弱分类器识别出的分类结果与标准分类结果不一致，则增加相应语料样本的权重，若分类结果与标准分类结果一致，则降低相应语料样本的权重。

8.如权利要求7所述的装置，其特征在于，所述语料训练单元，根据错误率设置相应弱分类器的权重时，具体地：对样本权重进行调整后，将输入弱分类器的所有语料样本的权重进行相加，得到总值；将所有语料样本中识别错误的语料样本的权重进行相加，得到错误值；用错误值除以总值，将得到的相除结果作为相应弱分类器的权重。

9.如权利要求7所述的装置，其特征在于，所述语料训练单元，将语料样本输入弱分类器进行分类识别时，若识别失败，则放弃对相应语料样本的分类；放弃分类的语料样本不参与错误率的计算。

10.如权利要求6至9中任一项所述的装置，其特征在于，所述识别单元，由弱分类器对待分类语句进行分类时，若对待分类语句识别失败，则放弃对相应待分类语句的分类；放弃分类的弱分类器不参与几率值的统计。