CN105468468A

CN105468468A - 面向问答***的数据纠错方法及装置

Info

Publication number: CN105468468A
Application number: CN201510870038.9A
Authority: CN
Inventors: 孙永超
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2016-04-06
Anticipated expiration: 2035-12-02
Also published as: CN105468468B

Abstract

本发明提供一种面向问答***的数据纠错方法及装置，其中方法包括：接收用户输入信息，并将用户输入信息转换为标准文本格式信息，其中，用户输入信息包括语音信息和/或文本信息；对标准文本格式信息进行去噪处理，并获得第一信息；利用错误词库对第一信息进行错误判别；当第一信息中包含错误内容时，提取第一信息中的错误内容；对错误内容按照预设处理算法进行替换，获得第二信息并输出。本发明提供的面向问答***的数据纠错方法及装置，能有效减少用户对问答***的输入错误，从而提高问答***回答用户提问的正确率，有效提升问答***的用户体验。

Description

面向问答***的数据纠错方法及装置

技术领域

本发明涉及信息检索与查询领域，尤其涉及一种面向问答***的数据纠错方法及装置。

背景技术

问答***是信息检索***的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答***是指以自然语言理解技术为核心，使得机器能够理解用户的说话内容，实现人与机器之间的有效交流沟通，它是一种通过自然语言技术自动与用户对话的人工智能***。目前，问答***使用广泛，主要应用于计算机客服***、机器人、儿童玩具、语音助手和秘书类产品等中。

由于用户通过自然语言对问答***提出问题，不可避免的会出现一些识别错误或者其他输入错误，这些错误随着输入进入问答***，会极大的影响问答***输出的正确率。目前，问答***的设计主要侧重于如何提高对用户提出问题获得的答案的质量上，而没有对用户的提问进行判别和纠正。

问答***由于用户的输入错误，必然会导致获取的相应答案质量降低，使问答***的正确率降低，用户体验性不高。

发明内容

本发明提供一种面向问答***的数据纠错方法及装置，用以解决现有技术中通过自然语言对问答***进行提问时，由于识别错误或其他输入错误导致影响问答***正确率的技术问题。

本发明一方面提供一种面向问答***的数据纠错方法，包括：

接收用户输入信息，并将用户输入信息转换为标准文本格式信息，其中，用户输入信息包括语音信息和/或文本信息；

对标准文本格式信息进行去噪处理，并获得第一信息；

利用错误词库对第一信息进行错误判别；

当第一信息中包含错误内容时，提取第一信息中的错误内容；

对错误内容按照预设处理算法进行替换；

根据替换结果获得第二信息并输出。

进一步的，利用错误词库对第一信息进行错误判别，包括：

针对第一信息在错误词库检索，当所述第一信息中包含有错误词库中存储的错误内容，判别所述第一信息中包含错误内容；

还包括：

当所述检索失败时，通过正确语料基准模型计算第一信息中包含错误内容的概率，错误词库通过正确语料基准模型训练得到；

当概率超过预设阈值时，判别第一信息中包含错误内容。

进一步的，对错误内容按照预设处理算法进行替换包括：

对错误内容按照错误类型进行分类，在分类结果下，针对错误内容生成多条待选纠错内容；

按照整体句法分析及上下文***对多条待选纠错内容排序；

根据排序结果，生成纠错内容；

利用纠错内容，对错误内容进行替换。

进一步的，上述方法还包括：采集标注为正确的语料，对正确语料基准模型进行训练。

进一步的，还包括：将所述错误内容输入至错误词库中。

本发明另一方面提供一种面向问答***的数据纠错装置，包括：

用户信息接收模块，用于接收用户输入信息，并将用户输入信息转换为标准文本格式信息，其中，用户输入信息包括语音信息和/或文本信息；

预处理模块，用于对标准文本格式息进行去噪处理，并获得第一信息；

错误判别模块，用于利用错误词库对第一信息进行错误判别；

错误内容提取模块，用于当第一信息中包含错误内容时，提取第一信息中的错误内容；

预设处理算法模块，用于对错误内容按照预设处理算法进行替换；

正确内容输出模块，用于根据替换结果获得第二信息并输出。

进一步的，错误判别模块还包括：

错误内容概率计算子模块，用于针对第一信息在错误词库检索失败时，通过正确语料基准模型计算所述第一信息中包含错误内容的概率；

错误内容判别子模块，用于当概率超过预设阈值时，判别第一信息中包含错误内容。

进一步的，预设处理算法模块，包括：

待选纠错内容获取子模块，用于对错误内容按照错误类型进行分类，在分类结果下，针对错误内容生成多条待选纠错内容；

待选纠错内容排序子模块，用于按照整体句法分析及上下文***对多条待选纠错内容排序；

纠错内容生成子模块，根据排序结果，生成纠错内容；

替换子模块，用于利用纠错内容，对错误内容进行替换。

进一步的，还包括，正确语料训练模块，用于采集标注为正确的语料，对正确语料基准模型进行训练。

进一步的，还包括，错误语料补充模块，用于将所述错误内容输入至错误词库中。

本发明提供的面向问答***的数据纠错方法及装置，将接收的用户输入信息转换为标准的文本格式信息，然后对标准文本格式信息进行去噪处理获得第一信息，并利用错误词库对第一信息进行错误判别，当第一信息中包含错误内容时，提取第一信息中的错误内容，然后对错误内容按照预设处理算法进行替换，获得第二信息并输出，此第二信息即为经过纠正后的正确信息，这种纠错方法和装置能有效减少用户对问答***的输入错误，从而提高问答***回答用户提问的正确率，有效提升问答***的用户体验。

附图说明

在下文中将基于实施例并参考附图来对本发明进行更详细的描述。其中：

图1为根据本发明实施例一的面向问答***的数据纠错方法的流程示意图；

图2a为根据本发明实施例二的面向问答***的数据纠错方法的流程示意图；

图2b为根据本发明实施例二的面向问答***的数据纠错方法中对错误内容按照预设处理算法进行替换的流程示意图；

图3为根据本发明实施例三的面向问答***的数据纠错装置的结构示意图；

图4为根据本发明实施例四的面向问答***的数据纠错装置的结构示意图。

在附图中，相同的部件使用相同的附图标记。附图并未按照实际的比例绘制。

具体实施方式

下面将结合附图对本发明作进一步说明。

实施例一

图1为根据本发明实施例一的面向问答***的数据纠错方法的流程示意图，如图1所示，本发明提供一种面向问答***的数据纠错方法，包括：

步骤101，接收用户输入信息，并将用户输入信息转换为标准文本格式信息，其中，用户输入信息包括语音信息和/或文本信息。

具体的，用户输入信息包括语音信息或文本信息，或者同时包括语音信息和文本信息，为了便于对用户输入信息进行统一处理，此处还需要将用户输入信息转换成标准的文本格式信息。

步骤102，对所述标准文本格式信息进行去噪处理，并获得第一信息。

具体的，一般情况下，标准文本格式信息中会包含一些错误的或者无用的文本内容，会影响到以后的处理过程，所以此步骤中的去噪处理可将错误或无用的文本过滤掉，既不会影响用户输入信息的正确性，还可以减少对后续步骤的干扰，第一信息即为对标准文本格式信息进行去噪处理后获得的结果。

步骤103，利用错误词库对第一信息进行错误判别。

具体的，针对第一信息在错误词库检索，当所述第一信息中包含有错误词库中存储的错误内容，判别所述第一信息中包含错误内容。错误词库是测试输入信息中是否存在错误词语的数据库，该数据库中包含的错误词语越多，在对第一信息进行错误判别时，发现第一信息中错误词语的概率就越大，即第一信息中的错误词语就越容易被发现。

对第一信息进行判别，判断第一信息中是否有错误内容存在，若有，转步骤104执行；进一步的，若第一信息中没有错误内容存在，则直接将第一信息输出。

步骤104，当所述第一信息中包含错误内容时，提取第一信息中的错误内容。

具体的，本步骤需要对第一信息中的错误内容进行提取，即提取步骤103中根据错误词库发现的错误内容。

步骤105，对所述错误内容按照预设处理算法进行替换。

具体的，预设处理算法可将第一信息中的错误内容用纠错内容替换，从而获得第二信息。

步骤106，根据替换结果获得第二信息并输出。具体的，对第一信息中的错误内容进行替换之后所获得的信息为第二信息，将第二信息输出。

本发明提供的面向问答***的数据纠错方法，将接收的用户输入信息转换为标准文本格式信息，然后对标准文本格式信息进行去噪处理获得第一信息，并利用错误词库对第一信息进行错误判别，当第一信息中包含错误内容时，提取第一信息中的错误内容，并对错误内容按照预设处理算法进行替换，获得第二信息并输出，此第二信息即为经过纠正后的正确信息，这种纠错方法能有效减少用户对问答***的输入错误，从而提高问答***回答用户提问的正确率，有效提升问答***的用户体验。

本发明提供的纠错方法不仅能用于问答***中，还能用于其他对输入文本要求较高，需要识别和纠正的***中。

实施例二

本实施例是在上述实施例的基础上进行的补充说明。

图2a为根据本发明实施例二的面向问答***的数据纠错方法的流程示意图，如图2a所示，本发明提供一种面向问答***的数据纠错方法，包括：

步骤201，接收用户输入信息，并将用户输入信息转换为标准的文本格式信息，其中，用户输入信息包括语音信息和/或文本信息。

步骤202，对标准文本格式信息进行去噪处理，并获得第一信息。

上述步骤201-202与实施例一中步骤101-102一致，在此不再赘述。

步骤203，利用错误词库对第一信息进行错误判别。

对第一信息进行判别，判断第一信息中是否有错误内容存在，若有，转步骤204执行；若第一信息中没有错误内容存在，则进入步骤2031。

步骤2031，当针对第一信息在错误词库检索失败时，即：当所述第一信息中不包含有错误词库中存储的错误内容；

通过正确语料基准模型计算所述第一信息中包含错误内容的概率。

通过训练大量标注正确的语料得到正确语料基准模型，由于正确语料基准模型是基于统计的模型，所以训练的正确语料的数据量越大，提取的错误内容就会越来越精确，利用错误词库对第一信息进行判别时，会有无法完全匹配的情况，即：错误词库中并未存储第一信息中所包含的错误内容。

在以上情况下，在本步骤中通过正确语料基准模型计算第一信息中包含错误内容的概率来在后续步骤中判断第一信息中是否包含错误内容。比如用户输入“我想吃工包鸡丁”，在正确语料基准模型调用情境下，初步认定“工包”与“鸡丁”之间的结合并非正确的组合，因而为“工包鸡丁”为错误内容；

此时的“工包鸡丁”只是待确认的错误内容，是否为真正的错误内容，还需要进行进一步的判断，因此本步骤需计算出“工包鸡丁”为错误内容的概率，用于进一步的判断。

步骤2032，当概率超过预设阈值时，判别第一信息中包含错误内容。

具体的，预设阈值可根据实际情况进行设置，一般的，预设阈值设置得越低，错误内容越容易被发现，预设阈值设置得越高，第一信息中的错误内容越容易被遗漏。当步骤2031中计算获得的概率超过预设阈值时，可认为第一信息中包含错误内容。如“工包鸡丁”为错误内容的概率为0.95，预设阈值设置为0.9，那么此时“工包鸡丁”就会被认为是错误内容。

步骤204，当第一信息中包含错误内容时，提取第一信息中的错误内容，对错误内容按照预设处理算法进行替换。

具体的，本步骤需要对第一信息中的错误内容进行替换修正，首先对错误内容进行分析，获得可能的正确内容并对可能正确的内容进行判断，最后确定一个正确内容，然后用正确内容去替换错误内容的算法。如确认“工包鸡丁”为错误内容，那么需要对“工包鸡丁”进行分析，获得可能正确的内容并对可能正确的内容进行判断，最后确定正确内容为“宫爆鸡丁”，然后用正确内容“宫爆鸡丁”替换错误内容“工包鸡丁”。

进一步的，参见图2b，步骤204具体包括：

步骤2051，对错误内容按照错误类型进行分类，在分类结果下，针对错误内容生成多条待选纠错内容。

具体的，对错误内容进行分析，确定该错误内容属于哪种错误类型，即该错误内容是由于文本输入错误造成的，还是语音输入错误造成的(如语音不清晰造成语音转换成文本时出错)：

进一步的，文本输入错误还包括拼音输入错误、五笔输入错误和书写输入错误(即直接进行文字书写)输入。本步骤可使用分类算法来实现。对错误内容进行分类之后，再根据分类结果，针对错误内容生成多条待选纠错内容。如对于错误内容“工包鸡丁”，按照错误类型进行分类，属于拼音输入错误，因此在拼音输入错误的错误类型下，根据错误内容“工包鸡丁”生成多条待选纠错内容“宫爆鸡丁”、“公报鸡丁”等等。

步骤2052，按照整体句法分析及上下文***对多条待选纠错内容排序。

具体的，待选纠错内容为多个时，需要选择正确概率最高的待选纠错内容作为替换内容，因此采用整体句法分析及上下文***对多条待选纠错内容排序，整体句法分析就是指对句子中的词语语法功能进行分析，比如"我来晚了"，这里"我"是主语，"来"是谓语，"晚了"是补语。句法分析主要应用在中文信息处理中，如机器翻译等。

将待选纠错内容结合整体语句分析来进行打分，确定待选纠错内容为得分最高的正确内容。本步骤可使用快速排序算法、最优选择算法来实现。如结合整体语句分析和上下文***来对待选纠错内容“宫爆鸡丁”、“公报鸡丁”打分，“宫爆鸡丁”的分数会比“公报鸡丁”的分数高，所以“宫爆鸡丁”的排序位置会排在“公报鸡丁”的前面。

步骤2053，根据排序结果，生成纠错内容。

具体的，将步骤2052中排序位置为第一的待选纠错内容作为纠错内容。如“宫爆鸡丁”的排序位置为第一位，即分数最高，那么将“宫爆鸡丁”选为纠错内容。

步骤2054，利用纠错内容，对错误内容进行替换。

具体的，将第一信息中的错误内容直接替换为纠错内容，如用“宫爆鸡丁”替换“我要吃工包鸡丁”中的“工包鸡丁”，获得“我要吃宫爆鸡丁”，即第二信息，此时的第二信息即为纠正后的正确信息。

进一步的，上述方法还包括将所述错误内容输入至错误词库中，以补充错误词库中的错误语料，提高错误词库的丰富程度，在输入信息中包含错误内容时，可直接在错误词库中完成错误内容判别，提高纠错效率。

最后，根据替换结果获得第二信息并输出。

进一步的，作为优选，本发明技术方案还包括：采集标注为正确的语料，对正确语料基准模型进行训练。具体的，正确语料基准模型在使用之前，需要通过大量的标注正确的语料来训练得到，另外，在对第一信息进行错误判别的过程中，若没有发现错误内容，可从第一信息中提取各词语，并将各词语标注为正确，以实时采集这些标注为正确的语料对正确语料基准模型进行训练。

本发明提供的面向问答***的数据纠错方法，当针对第一信息在错误词库检索失败时，通过训练大量标注正确的语料得到正确语料基准模型，利用正确语料基准模型提取第一信息中的错误内容，并对错误内容进行分类，在分类结果下，针对错误内容生成多条待选纠错内容，按照整体句法分析及上下文***对多条待选纠错内容排序，根据排序结果生成纠错内容，利用纠错内容，对错误内容进行替换，获得第二信息并输出，即经过纠正后的正确信息，这种纠错方法能有效减少用户对问答***的输入错误，从而提高问答***回答用户提问的正确率，有效提升问答***的用户体验。

实施例三

本实施例为用于执行本发明提供的面向问答***的数据纠错方法的装置实施例。

图3为根据本发明实施例三的面向问答***的数据纠错装置的结构示意图，如图3所示，本发明提供一种面向问答***的数据纠错装置，包括用户信息接收模块301、预处理模块302、错误判别模块303、错误内容提取模块304、预设处理算法模块305和正确内容输出模块306。

其中，用户信息接收模块301，用于接收用户输入信息，并将用户输入信息转换为标准文本格式信息，其中，用户输入信息包括语音信息和/或文本信息；

预处理模块302，用于对标准文本格式息进行去噪处理，并获得第一信息；

错误判别模块303，用于利用错误词库对第一信息进行错误判别；

错误内容提取模块304，用于当第一信息中包含错误内容时，提取第一信息中的错误内容；

预设处理算法模块305，用于对错误内容按照预设处理算法进行替换。

正确内容输出模块306，用于根据替换结果获得第二信息并输出。

本实施例是与方法实施例一对应的装置实施例，具体可参见实施例一中的相应描述，在此不再赘述。

本发明提供的面向问答***的数据纠错装置，使用用户信息接收模块301接收用户输入信息，并将用户输入信息转换为标准文本格式信息，然后预处理模块302对标准文本格式信息进行去噪处理获得第一信息，再使用错误判别模块303利用错误词库对第一信息进行错误判别，然后错误内容提取模块304用于当第一信息中包含错误内容时，提取第一信息中的错误内容，最后预设处理算法模块305对错误内容按照预设处理算法进行替换，正确内容输出模块306获得第二信息并输出。此第二信息即为经过纠正后的正确信息，这种纠错装置能有效减少用户对问答***的输入错误，从而提高问答***回答用户提问的正确率，有效提升问答***的用户体验。

实施例四

本实施例是在上述实施例的基础上进行的补充说明。

图4为根据本发明实施例四的面向问答***的数据纠错装置的结构示意图，如图4所示，本发明提供一种面向问答***的数据纠错装置，包括用户信息接收模块401、预处理模块402、错误判别模块403、错误内容提取模块404、预设处理算法模块405和正确内容输出模块406。

其中，用户信息接收模块401，用于接收用户输入信息，并将用户输入信息转换为标准文本格式信息，其中，用户输入信息包括语音信息和/或文本信息。

预处理模块402，用于对标准文本格式息进行去噪处理，并获得第一信息。

错误判别模块403，用于利用错误词库对第一信息进行错误判别。

进一步的，错误判别模块403还包括：错误内容概率计算子模块4031和错误内容判别子模块4032。

其中，错误内容概率计算子模块4031，用于针对第一信息在错误词库检索失败时，通过正确语料基准模型计算所述第一信息中包含错误内容的概率；

错误内容判别子模块4032，用于当概率超过预设阈值时，判别第一信息中包含错误内容。

错误内容提取模块404，用于当第一信息中包含错误内容时，提取第一信息中的错误内容；

预设处理算法模块405，用于对错误内容按照预设处理算法进行替换，获得第二信息并输出。

进一步的，预设处理算法模块405包括：待选纠错内容获取子模块4051、待选纠错内容排序子模块4052、纠错内容生成子模块4053和替换子模块4054。

其中，待选纠错内容获取子模块4051，用于对错误内容按照错误类型进行分类，在分类结果下，针对错误内容生成多条待选纠错内容。

待选纠错内容排序子模块4052，用于按照整体句法分析及上下文***对多条待选纠错内容排序。纠错内容生成子模块4053，根据排序结果，生成纠错内容。

替换子模块4054，用于利用纠错内容，对错误内容进行替换。

正确内容输出模块406，用于根据替换结果获得第二信息并输出。

进一步的，本发明提供的面向问答***的数据纠错装置还包括正确语料训练模块，用于采集标注为正确的语料，对正确语料基准模型进行训练。

进一步的，本发明提供的面向问答***的数据纠错装置还包括：错误语料补充模块，用于将所述错误内容输入至错误词库中。

本实施例是与方法实施例二对应的装置实施例，具体可参见实施例二中的相应描述，在此不再赘述。

本发明提供的面向问答***的数据纠错装置，通过错误内容概率计算子模块4031在正确语料基准模型中，计算第一信息中包含错误内容的概率，再通过错误内容判别子模块4032在概率超过预设阈值时，判别第一信息中包含错误内容，然后通过错误内容提取模块404提取第一信息中的错误内容，待选纠错内容获取子模块4051对错误内容按照错误类型进行分类，并生成多条待选纠错内容，然后待选纠错内容排序子模块4052按照预设处理算法对多条待选纠错内容排序，纠错内容生成子模块4053根据排序结果生成纠错内容，替换子模块4054利用纠错内容对错误内容进行替换，获得第二信息并输出。这种纠错装置能有效减少用户对问答***的输入错误，从而提高问答***回答用户提问的正确率，有效提升问答***的用户体验。

虽然已经参考优选实施例对本发明进行了描述，但在不脱离本发明的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，各个实施例中所提到的各项技术特征均可以任意方式组合起来。本发明并不局限于文中公开的特定实施例，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种面向问答***的数据纠错方法，其特征在于，包括：

接收用户输入信息，并将所述用户输入信息转换为标准文本格式信息，其中，所述用户输入信息包括语音信息和/或文本信息；

对所述标准文本格式信息进行去噪处理，并获得第一信息；

利用错误词库对所述第一信息进行错误判别；

当所述第一信息中包含错误内容时，提取所述第一信息中的所述错误内容；

对所述错误内容按照预设处理算法进行替换；

根据替换结果获得第二信息并输出。

2.根据权利要求1所述的面向问答***的数据纠错方法，其特征在于，所述利用错误词库对所述第一信息进行错误判别，包括：

还包括：

当所述检索失败时，通过正确语料基准模型计算所述第一信息中包含错误内容的概率；

当所述概率超过预设阈值时，判别所述第一信息中包含错误内容。

3.根据权利要求1所述的面向问答***的数据纠错方法，其特征在于，对所述错误内容按照预设处理算法进行替换包括：

对所述错误内容按照错误类型进行分类，在分类结果下，针对所述错误内容生成多条待选纠错内容；

按照整体句法分析及上下文***对所述多条待选纠错内容排序；

根据所述排序结果，生成纠错内容；

利用所述纠错内容，对所述错误内容进行替换。

4.根据权利要求1所述的面向问答***的数据纠错方法，其特征在于，还包括：采集标注为正确的语料，对所述正确语料基准模型进行训练。

5.根据权利要求2所述的面向问答***的数据纠错方法，其特征在于，还包括：

将所述错误内容输入至错误词库中。

6.一种面向问答***的数据纠错装置，其特征在于，包括：

用户信息接收模块，用于接收用户输入信息，并将所述用户输入信息转换为标准文本格式信息，其中，所述用户输入信息包括语音信息和/或文本信息；

预处理模块，用于对所述标准文本格式息进行去噪处理，并获得第一信息；

错误判别模块，用于利用错误词库对所述第一信息进行错误判别；

错误内容提取模块，用于当所述第一信息中包含错误内容时，提取所述第一信息中的所述错误内容；

预设处理算法模块，用于对所述错误内容按照预设处理算法进行替换；

7.根据权利要求6所述的面向问答***的数据纠错装置，其特征在于，所述错误判别模块还包括：

错误内容判别子模块，用于当所述概率超过预设阈值时，判别所述第一信息中包含错误内容。

8.根据权利要求6所述的面向问答***的数据纠错装置，其特征在于，所述预设处理算法模块，包括：

待选纠错内容获取子模块，用于对所述错误内容按照错误类型进行分类，在分类结果下，针对错误内容生成多条待选纠错内容；

待选纠错内容排序子模块，用于按照整体句法分析及上下文***对所述多条待选纠错内容排序；

纠错内容生成子模块，用于根据所述排序结果，生成纠错内容；

替换子模块，利用所述纠错内容，对所述错误内容进行替换。

9.根据权利要求8所述的面向问答***的数据纠错装置，其特征在于，还包括，正确语料训练模块，用于采集标注为正确的语料，对所述正确语料基准模型进行训练。

10.根据权利要求6-9任一所述的面向问答***的数据纠错装置，其特征在于，还包括，错误语料补充模块，用于将所述错误内容输入至错误词库中。