CN111368506B

CN111368506B - 文本处理方法及装置

Info

Publication number: CN111368506B
Application number: CN201811585329.3A
Authority: CN
Inventors: 刘恒友; 李辰; 包祖贻; 徐光伟; 李林琳; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2023-04-28
Anticipated expiration: 2038-12-24
Also published as: CN111368506A

Abstract

本申请实施例提供了一种文本处理方法及装置。由于预设专有词汇识别模型是基于条件随机场模型训练得到的，如此预设专有词汇识别模型可以根据目标文本的上下文的语义环境将目标文本中的、虽然不属于预设专有词汇库但事实上却无需纠正的词汇确定为专有词汇，由于正确的词汇是无需纠正的，因此可以将确定出的目标文本中的专有词汇确定为正确的词汇。相比于现有技术只能确定出文本中的位于专有词汇库中的词汇是否为正确的词汇，本申请中还能够确定出文本中的不位于专有词汇库中的词汇是否为正确的词汇，从而相比于现有技术，对于同一文本，本申请可以确定出更多的正确的词汇。

Description

文本处理方法及装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本处理方法及装置。

背景技术

在对话场景和搜索场景中，用户通常需要在终端中输入语句，然而，用户输入的的语句中有时候会存在不正确的词汇，终端需要确定会话语句中的词汇是否是正确的词汇，如果是正确的词汇，再执行进一步操作。

在现有技术中，可以事先统计市面上常用的各种专有词汇，专有词汇包括命名实体，例如，语言中具有特定意义的实体，包括人名、地名以及机构名等，然后将统计出的各种专有词汇组成专有词汇集合。如此，当用户在终端上输入会话语句时，终端可以对该会话语句分词，得到会话语句中的多个词汇，对于得到的任意一个词汇，可以在专有词汇库中查找是否存在该词汇，如果专有词汇库中存在该词汇，则确定该词汇正确。

然而，发明人发现，在现有技术中，如果专有词汇库中不存在该词汇，就无法确定出该词汇是否是正确的词汇，其次，如果该词汇中包括繁体字，也无法确定出该词汇是否是正确的词汇。

发明内容

为解决上述技术问题，本申请实施例示出了一种文本处理方法及装置。

第一方面，本申请实施例示出了一种文本处理方法，所述方法包括：

获取目标文本；

获取基于条件随机场模型和预设专有词汇库而训练得到的预设专有词汇识别模型；

使用所述预设专有词汇识别模型识别所述目标文本中的专有词汇；

将确定出的所述目标文本中的所述专有词汇确定为正确的词汇。

在一个可选的实现方式中，所述使用所述预设专有词汇识别模型识别所述目标文本中的专有词汇，包括：

检测所述目标文本中是否存在繁体字；

如果所述目标文本中存在繁体字，则将所述目标文本中的繁体字转换为对应的简体字；

使用所述预设专有词汇识别模型确定转换后的目标文本中的专有词汇。

在一个可选的实现方式中，所述方法还包括：

将所述目标文本中的除所述专有词汇以外的词汇确定为非专有词汇，所述非专有词汇包括错误的词汇；

在错误的词汇与正确的词汇之间的第一对应关系中，查找是否存在与所述非专有词汇相同的错误的词汇；

如果所述第一对应关系中存在与所述非专有词汇相同的错误的词汇，则在所述第一对应关系中查找与所述错误的词汇相对应的正确的词汇；

在所述目标文本中使用所述正确的词汇替换所述非专有词汇。

在一个可选的实现方式中，所述方法还包括：

如果所述第一对应关系中不存在与所述非专有词汇相同的错误的词汇，则确定输入所述目标文本的用户；

获取所述用户的自定义词汇集合，所述自定义词汇集合中存储了所述用户自定义设置的正确的词汇；

在所述自定义词汇集合中查找是否存在所述非专有词汇；

如果所述自定义词汇集合中存在所述非专有词汇，则将所述目标文本中的所述非专有词汇确定为正确的词汇。

在一个可选的实现方式中，所述方法还包括：

如果所述自定义词汇集合中不存在所述非专有词汇，获取所述非专有词汇的拼音；

根据所述拼音确定所述非专有词汇的候选词汇；

确定所述目标文本中的除所述非专有词汇以外的其他词汇，确定由所述其他词汇和所述候选词汇组成的参考文本的语义通顺度；

如果所述语义通顺度大于或等于预设通顺度，则在所述目标文本中使用所述候选词汇替换所述非专有词汇；

如果所述语义通顺度小于预设通顺度，则将所述目标文本中的所述非专有词汇确定为正确的词汇。

在一个可选的实现方式中，所述根据所述拼音确定所述非专有词汇的候选词汇，包括：

获取所述目标文本中的与所述非专有词汇相邻的词汇的拼音；

将所述非专有词汇的拼音和所述相邻的词汇的拼音按照词汇在所述目标文本中的顺序组合成拼音串；

在拼音串与词汇串之间的第二对应关系中，查找与所述拼音串相对应的词汇串；

在所述词汇串中确定候选词汇。

在一个可选的实现方式中，所述方法还包括：

如果所述自定义词汇集合中不存在所述非专有词汇，获取所述非专有词汇的汉字编码；

根据所述汉字编码确定所述非专有词汇的候选词汇；

在一个可选的实现方式中，所述根据所述汉字编码确定所述非专有词汇的候选词汇，包括：

在汉字编码与词汇之间的第三对应关系中，查找与所述汉字编码之间的相似度大于预设相似度的汉字编码；

在所述第三对应关系中查找与所述确定出的汉字编码相对应的词汇，并作为候选词汇。

在一个可选的实现方式中，所述方法还包括：

如果所述自定义词汇集合中不存在所述非专有词汇，获取所述非专有词汇的形近词汇，并作为所述候选词汇；

在一个可选的实现方式中，所述获取所述非专有词汇的形近词汇，包括：

以所述非专有词汇作为基础词汇，在基础词汇与基础词汇的形近词汇之间的第四对应关系中，查找与所述非专有词汇相对应的形近词汇。

在一个可选的实现方式中，所述方法还包括：

如果所述语义通顺度大于或等于预设通顺度，获取所述目标文本的语义通顺度；

如果所述参考文本的语义通顺度与所述目标文本的语义通顺度之间的差异大于预设差异，则执行所述在所述目标文本中使用所述候选词汇替换所述非专有词汇的步骤。

第二方面，本申请实施例示出了一种搜索方法，所述方法包括：

获取在搜索框中输入的搜索关键词；

使用所述预设专有词汇识别模型识别所述搜索关键词中的专有词汇；

对所述搜索关键词中的除所述专有词汇以外的词汇进行纠错；

使用纠错后的搜索关键词进行搜索。

第三方面，本申请实施例示出了一种文本处理装置，所述装置包括：

第一获取模块，用于获取目标文本；

第二获取模块，用于获取基于条件随机场模型和预设专有词汇库而训练得到的预设专有词汇识别模型；

第一识别模块，用于使用所述预设专有词汇识别模型识别所述目标文本中的专有词汇；

第一确定模块，用于将确定出的所述目标文本中的所述专有词汇确定为正确的词汇。

在一个可选的实现方式中，所述第一识别模块包括：

检测单元，用于检测所述目标文本中是否存在繁体字；

修改单元，用于如果所述目标文本中存在繁体字，则将所述目标文本中的繁体字转换为对应的简体字；

第一确定单元，用于使用所述预设专有词汇识别模型确定转换后的目标文本中的专有词汇。

在一个可选的实现方式中，所述装置还包括：

第二确定模块，用于将所述目标文本中的除所述专有词汇以外的词汇确定为非专有词汇，所述非专有词汇包括错误的词汇；

第一查找模块，用于在错误的词汇与正确的词汇之间的第一对应关系中，查找是否存在与所述非专有词汇相同的错误的词汇；

第二查找模块，用于如果所述第一对应关系中存在与所述非专有词汇相同的错误的词汇，则在所述第一对应关系中查找与所述错误的词汇相对应的正确的词汇；

第一替换模块，用于在所述目标文本中使用所述正确的词汇替换所述非专有词汇。

在一个可选的实现方式中，所述装置还包括：

第三确定模块，用于如果所述第一对应关系中不存在与所述非专有词汇相同的错误的词汇，则确定输入所述目标文本的用户；

第一获取模块，用于获取所述用户的自定义词汇集合，所述自定义词汇集合中存储了所述用户自定义设置的正确的词汇；

第三查找模块，用于在所述自定义词汇集合中查找是否存在所述非专有词汇；

第四确定模块，用于如果所述自定义词汇集合中存在所述非专有词汇，则将所述目标文本中的所述非专有词汇确定为正确的词汇。

在一个可选的实现方式中，所述装置还包括：

第二获取模块，用于如果所述自定义词汇集合中不存在所述非专有词汇，获取所述非专有词汇的拼音；

第五确定模块，用于根据所述拼音确定所述非专有词汇的候选词汇；

第六确定模块，用于确定所述目标文本中的除所述非专有词汇以外的其他词汇，确定由所述其他词汇和所述候选词汇组成的参考文本的语义通顺度；

第二替换模块，用于如果所述语义通顺度大于或等于预设通顺度，则在所述目标文本中使用所述候选词汇替换所述非专有词汇；

第七确定模块，用于如果所述语义通顺度小于预设通顺度，则将所述目标文本中的所述非专有词汇确定为正确的词汇。

在一个可选的实现方式中，所述第五确定模块包括：

获取单元，用于获取所述目标文本中的与所述非专有词汇相邻的词汇的拼音；

组合单元，用于将所述非专有词汇的拼音和所述相邻的词汇的拼音按照词汇在所述目标文本中的顺序组合成拼音串；

第一查找单元，用于在拼音串与词汇串之间的第二对应关系中，查找与所述拼音串相对应的词汇串；

第二确定单元，用于在所述词汇串中确定候选词汇。

在一个可选的实现方式中，所述装置还包括：

第三获取模块，用于如果所述自定义词汇集合中不存在所述非专有词汇，获取所述非专有词汇的汉字编码；

第八确定模块，用于根据所述汉字编码确定所述非专有词汇的候选词汇；

所述第六确定模块，还用于确定所述目标文本中的除所述非专有词汇以外的其他词汇，确定由所述其他词汇和所述候选词汇组成的参考文本的语义通顺度；

所述第二替换模块，还用于如果所述语义通顺度大于或等于预设通顺度，则在所述目标文本中使用所述候选词汇替换所述非专有词汇；

所述第七确定模块，还用于如果所述语义通顺度小于预设通顺度，则将所述目标文本中的所述非专有词汇确定为正确的词汇。

在一个可选的实现方式中，所述第八确定模块包括：

第二查找单元，用于在汉字编码与词汇之间的第三对应关系中，查找与所述汉字编码之间的相似度大于预设相似度的汉字编码；

第三查找单元，用于在所述第三对应关系中查找与所述确定出的汉字编码相对应的词汇，并作为候选词汇。

在一个可选的实现方式中，所述装置还包括：

第四获取模块，用于如果所述自定义词汇集合中不存在所述非专有词汇，获取所述非专有词汇的形近词汇，并作为所述候选词汇；

在一个可选的实现方式中，所述第四获取模块具体用于：以所述非专有词汇作为基础词汇，在基础词汇与基础词汇的形近词汇之间的第四对应关系中，查找与所述非专有词汇相对应的形近词汇。

在一个可选的实现方式中，所述装置还包括：

第五获取模块，用于如果所述语义通顺度大于或等于预设通顺度，获取所述目标文本的语义通顺度；

所述第二替换模块，还用于如果所述参考文本的语义通顺度与所述目标文本的语义通顺度之间的差异大于预设差异，则在所述目标文本中使用所述候选词汇替换所述非专有词汇。

第四方面，本申请实施例示出了一种搜索装置，所述装置包括：

第六获取模块，用于获取在搜索框中输入的搜索关键词；

第七获取模块，用于获取基于条件随机场模型和预设专有词汇库而训练得到的预设专有词汇识别模型；

第二识别模块，用于使用所述预设专有词汇识别模型识别所述搜索关键词中的专有词汇；

纠错模块，用于对所述搜索关键词中的除所述专有词汇以外的词汇进行纠错；

搜索模块，用于使用纠错后的搜索关键词进行搜索。

第五方面，本申请实施例示出了一种电子设备，所述电子设备包括：

处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如第一方面所述的文本处理方法。

第六方面，本申请实施例示出了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如第一方面所述的文本处理方法。

第七方面，本申请实施例示出了一种电子设备，所述电子设备包括：

处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如第二方面所述的搜索方法。

第八方面，本申请实施例示出了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如第二方面所述的搜索方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请中，获取目标文本；获取基于条件随机场模型和预设专有词汇库而训练得到的预设专有词汇识别模型；使用预设专有词汇识别模型识别目标文本中的专有词汇；将确定出的目标文本中的专有词汇确定为正确的词汇。

由于预设专有词汇识别模型是基于条件随机场模型训练得到的，如此预设专有词汇识别模型可以根据目标文本的上下文的语义环境将目标文本中的、虽然不属于预设专有词汇库但事实上却无需纠正的词汇确定为专有词汇，由于正确的词汇是无需纠正的，因此可以将确定出的目标文本中的专有词汇确定为正确的词汇。相比于现有技术只能确定出文本中的位于专有词汇库中的词汇是否为正确的词汇，本申请中还能够确定出文本中的不位于专有词汇库中的词汇是否为正确的词汇，从而相比于现有技术，对于同一文本，本申请可以确定出更多的正确的词汇。

附图说明

图1是根据一示例性实施例示出的一种文本处理方法的流程图。

图2是根据一示例性实施例示出的一种文本处理方法的流程图。

图3是根据一示例性实施例示出的一种文本处理方法的流程图。

图4是根据一示例性实施例示出的一种文本处理方法的流程图。

图5是根据一示例性实施例示出的一种文本处理方法的流程图。

图6是根据一示例性实施例示出的一种文本处理方法的流程图。

图7是根据一示例性实施例示出的一种搜索方法的流程图。

图8是根据一示例性实施例示出的一种文本处理装置的框图。

图9是根据一示例性实施例示出的一种搜索装置的框图。

图10是根据一示例性实施例示出的一种文本处理装置的框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

图1是根据一示例性实施例示出的一种文本处理方法的流程图，如图1所示，该方法用于电子设备中，电子设备包括终端或服务器等，该方法包括以下步骤。

在步骤S101中，获取目标文本。

在本申请中，目标文本包括用户在电子设备中输入的文本，例如，用户在与好友对话过程中，用户在电子设备中输入的用于向好友发送的文字消息等，或者还包括电子设备从网络上下载的文本等，本申请对此不加以限定。

在步骤S102中，获取基于条件随机场模型和预设专有词汇库而训练得到的预设专有词汇识别模型。

在本申请中，事先可以获取样本文本集合，样本文本集合中包括标注有专有词汇的多个样本文本，标注的专有词汇可以位于预设专有词汇库中，然后使用样本文本集合中的样本文本对条件随机场模型进行训练，并在每一轮训练中可以结合样本文本的上下文的语义环境，人工检测条件随机场模型对预测出的样本文本中的专有词汇是否为无需纠正的词汇，并将检测结果应用到下一轮的训练中，以不断修改条件随机场模型中的参数，直至条件随机场模型中的参数均收敛，从而得到预设专有词汇识别模型，然后存储预设专有词汇识别模型。

如此，在本步骤中，可以直接获取已存储的预设专有词汇识别模型，然后执行步骤S103。

在步骤S103中，使用预设专有词汇识别模型识别目标文本中的专有词汇。

在本申请中，可以将目标文本输入预设专有词汇识别模型中，得到预设专有词汇识别模型输出的专有词汇。

在步骤S104中，将确定出的目标文本中的专有词汇确定为正确的词汇。

在本申请中，获取目标文本。获取基于条件随机场模型和预设专有词汇库而训练得到的预设专有词汇识别模型。使用预设专有词汇识别模型识别目标文本中的专有词汇。将确定出的目标文本中的专有词汇确定为正确的词汇。

在实际情况中，汉字包括简体字和繁体字，大部分情况下人们都会使用简体字，而很少会使用繁体字，因此，在训练条件随机场模型时，使用样本文本集合中的所有样本文本中的文字往往为简体字，如此使得预设专有词汇识别模型往往只能识别出简体字。

然而，有时候目标文本中可能会包含有繁体字，如果目标文本中包含有繁体字，由于预设专有词汇识别模型无法识别繁体字，则预设专有词汇识别模型可能会将繁体字所在的词汇确定为非专有词汇，也即，可能出现某一词汇本来是无需纠正的，也即是正确的词汇，但却未能将该词汇确定为正确的词汇的情况。

其中，非专有词汇包括目标文本中的除确定出的专有词汇以外的词汇。

为了避免这种情况发生，在本申请另一实施例中，在步骤S103中，可以检测目标文本中是否存在繁体字，如果目标文本中存在繁体字，则将目标文本中的繁体字转换为对应的简体字，然后使用预设专有词汇识别模型确定转换后的目标文本中的专有词汇。

例如，事先可以设置繁体字与简体字之间的对应关系，该对应关系中第一列存储了汉字中的所有繁体字，第二列存储了每一个繁体字对应的简体字，因此，对于目标文本中的任意一个汉字，可以在该对应关系中的第一列中查找是否存在该汉字，如果存在该汉字，则说明该汉字为繁体字，并在第二列中查找与该汉字相对应的简体字，然后在目标文本中使用查找到的简体字替换该汉字。对于目标文本中的其他每一个汉字，同样执行上述操作。

进一步地，目标文本中往往包括多个词汇，一部分词汇在图1所示的实施例中会被确定为正确的词汇，但是另一部分词汇在图1所示的实施例中并未被确定为正确的词汇，这些词汇为非专有词汇。

在本申请中，图1所示的实施例并没有确定出非专有词汇是否为正确的词汇。因此还需要继续通过其他手段来继续确定非专有词汇是否为正确的词汇，具体地，参见图2，该方法还包括：

在步骤S201中，将目标文本中的除专有词汇以外的词汇确定为非专有词汇，非专有词汇包括错误的词汇；

在步骤S202中，在错误的词汇与正确的词汇之间的第一对应关系中，查找是否存在与非专有词汇相同的错误的词汇。

其中，技术人员事先可以统计在历史过程中，广大用户往往容易输错的错误的词汇，并确定容易输错的错误的词汇对应的正确的词汇，然后将错误的词汇与正确的词汇组成对应表项，并存储在预设错误的词汇与正确的词汇之间的第一对应关系中。

如此，在本步骤中，为了确定非专有词汇是否为正确的词汇，可以确定非专有词汇是否是错误的词汇，如果确定非专有词汇是错误的词汇，则可以确定非专有词汇一定不是正确的词汇，因此，可以在预设错误的词汇与正确的词汇之间的第一对应关系中，查找是否存在与非专有词汇相同的错误的词汇。

如果第一对应关系中存在与非专有词汇相同的错误的词汇，在步骤S203中，在第一对应关系中查找与错误的词汇相对应的正确的词汇。

在本本申请中，如果第一对应关系中存在与非专有词汇相同的错误的词汇，则说明在历史过程中，非专有词汇为广大用户容易输错的错误的词汇，目标文本中的非专有词汇可能也是用户输入错误而出现的，因此，可以确定非专有词汇是错误的词汇，也即，可以确定非专有词汇一定不是正确的词汇，此时可以对目标文本中的非专有词汇纠正，例如，在第一对应关系中查找与错误的词汇相对应的正确的词汇，然后执行步骤S204。

在步骤S204中，在目标文本中使用正确的词汇替换非专有词汇。

在本申请中，在图2所示的实施例中，如果第一对应关系中不存在与非专有词汇相同的错误的词汇，则无法确定出非专有词汇是否为正确的词汇。因此还需要继续通过其他手段来确定非专有词汇是否为正确的词汇，具体地，参见图3，该方法还包括：

如果第一对应关系中不存在与非专有词汇相同的错误的词汇，在步骤S301中，确定输入目标文本的用户。

在本申请中，用户在电子设备上输入目标文本之前，需要首先需要在电子设备上输入用户的用户账号，并通过用户的用户账号登录后台服务器，因此，电子设备可以根据登录后台服务器的用户账号确定输入目标文本的用户。

在步骤S302中，获取用户的自定义词汇集合，自定义词汇集合中存储了用户自定义设置的正确的词汇。

在本申请中，有些词汇虽然并没有被广大用户广泛使用，按时在小部分用户中可能已经被经常使用，例如“盒马生鲜”等，任意对于一个用户，可以事先设置自己常用的、自认为正确的、不需要被纠正的词汇，然后将设置的词汇组成该用户的自定义词汇集合。

因此，可以在用户的自定义词汇集合中查找是否存在非专有词汇。如果自定义词汇集合中存在非专有词汇，则可以将目标文本中的非专有词汇确定为正确的词汇。

在步骤S303中，在自定义词汇集合中查找是否存在非专有词汇。

如果自定义词汇集合中存在非专有词汇，在步骤S304中，将目标文本中的非专有词汇确定为正确的词汇。

在本申请中，在图3所示的实施例中，如果自定义词汇集合中不存在非专有词汇，则无法确定出非专有词汇是否为正确的词汇。因此还需要继续通过其他手段来确定非专有词汇是否为正确的词汇，具体地，参见图4，该方法还包括：

如果自定义词汇集合中不存在非专有词汇，在步骤S401中，获取非专有词汇的拼音。

在本步骤中，可以确定非专有词汇中的各个汉字，在汉字与汉字的拼音之间的对应关系中，查找与各个汉字分别相对应的拼音，然后将查找到拼音按照对应的汉字在非专有词汇中的位置顺序组合得到非专有词汇的拼音。

在步骤S402中，根据拼音确定非专有词汇的候选词汇。

其中，本步骤可以通过如下流程实现，包括：

4021、获取目标文本中的与非专有词汇相邻的词汇的拼音。

其中，获取目标文本中的与非专有词汇相邻的词汇的拼音的方式可以参见步骤S401，在此不做详述。

4022、将非专有词汇的拼音和相邻的词汇的拼音按照词汇在目标文本中的顺序组合成拼音串。

其中，目标文本包括多个词汇，多个词汇中包括非专有词汇，在目标文本中，如果非专有词汇为目标文本中的第一个词汇，则与非专有词汇相邻的词汇包括目标文本中的第二个词汇，如果非专有词汇为目标文本中的最后一个词汇，则与非专有词汇相邻的词汇包括目标文本中的倒数第二个词汇。

如果非专有词汇不为目标文本中的第一个词汇且部位最后一个词汇，则与非专有词汇相邻的词汇包括目标文本中的紧挨非专有词汇，且位于费专有词汇左边以及右边的两个词汇。

例如，假设目标文本为“今天太痒升起非常迅速”，包括的词汇为“今天”、“太痒”、“升起”、“非常”以及“迅速”。假设非专有词汇为“太痒”，则与非专有词汇相邻的词汇为“今天”和“升起”。

非专有词汇的拼音为“taiyang”，与非专有词汇相邻的词汇为“今天”和“升起”的拼音分别为“jintian”和“shengqi”。

将非专有词汇的拼音为“taiyang”、“今天”的音频“jintian”和“升起”的拼音“shengqi”组合成拼音串“jintiantaiyangshengqi”。

4023、在拼音串与词汇串之间的第二对应关系中，查找与拼音串相对应的词汇串。

技术人员事先可以统计在历史过程中，广大用户经常输入的拼音串，并确定经常输入的拼音串对应的词汇串，同一个拼音串对应的词汇串可能有一个，也可能有多个，然后将经常输入的拼音串与确定出的每一个词汇串分别组成对应表项，并存储在拼音串与词汇串之间的第二对应关系中。

如此，在本步骤中，可以在拼音串与词汇串之间的第二对应关系中，查找与拼音串相对应的词汇串。

4024、在词汇串中确定候选词汇。

在本申请中，可以确定非专有词汇的拼音在在拼音串中的位置，然后获取词汇串中的该位置处的词汇，并作为候选词汇。

在步骤S403中，确定目标文本中的除非专有词汇以外的其他词汇，确定由其他词汇和候选词汇组成的参考文本的语义通顺度。

在本申请中，可以在目标文本中使用候选词汇替换非专有词汇，得到参考文本，然后可以通过KENLM算法和SRILM算法来计算参考文本的语义通顺度。

在另一实施例中，如果在步骤S402中确定出了多个候选词汇，则可以确定由其他词汇分别与每一个候选词汇组成的参考文本的语义通顺度，然后选择最大的语义通顺度。

如果语义通顺度大于或等于预设通顺度，在步骤S404中，在目标文本中使用候选词汇替换非专有词汇。

在本申请中，事先可以统计多个仅包含正确的词汇的文本，然后获取每一个文本的语义通顺度，然后根据每一个文本的语义通顺度确定预设通顺度，例如将最低的一个语义通顺度作为预设通顺度，或者，将最低的至少两个语义通顺度之间的平均值作为预设通顺度。

事先可以统计多个包含有错误的词汇的文本，然后获取每一个文本的语义通顺度。通常可以发现，包含有错误的词汇的文本的语义通顺度较小，且往往小于预设通顺度，而不包含错误的词汇的文本的语义通顺度较大，且往往大于预设通顺度。

因此，如果语义通顺度大于或等于预设通顺度，则说明参考文本不包含错误的文本，此时无法确定出非专有词汇一定是错误的词汇，但是为了保障目标文本中一定不包含错误的词汇，可以在目标文本中使用候选词汇替换非专有词汇。

如果语义通顺度小于预设通顺度，在步骤S405中，将目标文本中的非专有词汇确定为正确的词汇。

在本申请中，在图3所示的实施例中，如果自定义词汇集合中不存在非专有词汇，则无法确定出非专有词汇是否为正确的词汇。因此还需要继续通过其他手段来确定非专有词汇是否为正确的词汇，具体地，参见图5，该方法还包括：

如果自定义词汇集合中不存在非专有词汇，在步骤S501中，获取非专有词汇的汉字编码。

在本步骤中，可以确定非专有词汇中的各个汉字，在汉字与汉字的汉字编码之间的对应关系中，查找与各个汉字分别相对应的汉字编码，然后将查找到汉字编码按照对应的汉字在非专有词汇中的位置顺序组合得到非专有词汇的汉字编码。

汉字编码可以为五笔编码等。

在步骤S502中，根据汉字编码确定非专有词汇的候选词汇。

在汉字编码与词汇之间的第三对应关系中，查找与汉字编码之间的相似度大于相似度的汉字编码。在第三对应关系中查找与确定出的汉字编码相对应的词汇，并作为候选词汇。

其中，汉字编码之间的预设相似度可以根据汉字编码之间的编辑距离确定。

在步骤S503中，确定目标文本中的除非专有词汇以外的其他词汇，确定由其他词汇和候选词汇组成的参考文本的语义通顺度。

如果语义通顺度大于或等于预设通顺度，在步骤S504中，在目标文本中使用候选词汇替换非专有词汇。

如果语义通顺度小于预设通顺度，在步骤S505中，将目标文本中的非专有词汇确定为正确的词汇。

步骤S503～步骤S505的具体实现方式可以参见步骤S403～步骤S405，在此不做详述。

在本申请中，在图3所示的实施例中，如果自定义词汇集合中不存在非专有词汇，则无法确定出非专有词汇是否为正确的词汇。因此还需要继续通过其他手段来确定非专有词汇是否为正确的词汇，具体地，参见图6，该方法还包括：

如果自定义词汇集合中不存在非专有词汇，在步骤S601中，获取非专有词汇的形近词汇，并作为候选词汇。

在本步骤中，可以以非专有词汇作为基础词汇，在基础词汇与基础词汇的形近词汇之间的第四对应关系中，查找与非专有词汇相对应的形近词汇。

在步骤S602中，确定目标文本中的除非专有词汇以外的其他词汇。

在步骤S603中，确定由其他词汇和候选词汇组成的参考文本的语义通顺度。

如果语义通顺度大于或等于预设通顺度，在步骤S604中，在目标文本中使用候选词汇替换非专有词汇。

如果语义通顺度小于预设通顺度，在步骤S605中，将目标文本中的非专有词汇确定为正确的词汇。

步骤S602～步骤S604的具体实现方式可以参见步骤S403～步骤S405，在此不做详述。

在本申请中，可以统计在历史过程中，经常输入的包含的错误的词汇的文本。

然后，对于任意一个包含的错误的词汇的文本，获取该文本的语义通顺度，然后可以人工对该文本纠正，以使纠正后的该文本中不包含错误的词汇，再获取纠正后的该文本的语义通顺度，并获取纠正后的该文本的语义通顺度与纠正前的该文本的语义通顺度之间的差异，对于其他每一个包含的错误的词汇的文本，同样执行上述操作。

如此可以得到纠正后的文本的语义通顺度与纠正前的文本的语义通顺度之间的多个差异，可以发现，纠正后的文本的语义通顺度与纠正前的文本的语义通顺度之间的差异往往较大。

其次，对于任意一个包含的错误的词汇的文本，获取该文本的语义通顺度，然后可以人工对该文本修改，以使修改后的该文本中还包括错误的词汇，例如，将该文本中的错误的词汇替换为另一个错误的词汇，再获取修改后的该文本的语义通顺度，并获取修改后的该文本的语义通顺度与修改前的该文本的语义通顺度之间的差异，对于其他每一个包含的错误的词汇的文本，同样执行上述操作。

如此可以得到修改后的文本的语义通顺度与修改前的文本的语义通顺度之间的多个差异，可以发现，修改后的文本的语义通顺度与修改前的文本的语义通顺度之间的差异往往较小。

在本申请中，在历史过程中，还可以统计经常输入的不包含的错误的词汇的文本。

然后，对于任意一个不包含的错误的词汇的文本，获取该文本的语义通顺度，然后可以人工对该文本修改，以使修改后的该文本中仍旧不包括错误的词汇，例如，将该文本中的正确的词汇替换为另一个正确的词汇，再获取修改后的该文本的语义通顺度，并获取修改后的该文本的语义通顺度与修改前的该文本的语义通顺度之间的差异，对于其他每一个不包含的错误的词汇的文本，同样执行上述操作。

根据上述三种情况可以总结出，如果将一个包含有的错误的词汇的文本纠正为不包含有错误的词汇的文本，则纠正后的文本的语义通顺度与纠正前的文本的语义通顺度之间的差异往往大于预设差异。

如果将一个包含有的错误的词汇的文本修改为仍旧包含有错误的词汇的文本，则修改后的文本的语义通顺度与修改前的文本的语义通顺度之间的差异往往小于预设差异。

如果将一个不包含有的错误的词汇的文本修改为仍旧不包含有错误的词汇的文本，则修改后的文本的语义通顺度与修改前的文本的语义通顺度之间的差异往往小于预设差异。

也即，如果参考文本的语义通顺度与目标文本的语义通顺度之间的差异大于预设差异，则说明目标文本中包含有错误的词汇，而参考文本中的词汇均为正确的词汇，则可以在目标文本中使用候选词汇替换非专有词汇。

如果参考文本的语义通顺度与目标文本的语义通顺度之间的差异小于或等于预设差异，则说明目标文本中包含有错误的词汇且参考文本中也包含错误的词汇，将一个包含有错误的词汇的文本修改一个包含有另一个错误的词汇的文本是没有必要的，或者，说明目标文本中的词汇均为正确的词汇且参考文本中的词汇也均为正确的词汇，将一个仅包含有正确的词汇的文本修改一个包含有另一个仅包含有正确的词汇的文本是没有必要的，有时候有可能会有修改而改变的目标文本的含义。

因此，在本申请另一实施例中，如果语义通顺度大于或等于预设通顺度，可以获取目标文本的语义通顺度。如果参考文本的语义通顺度与目标文本的语义通顺度之间的差异大于预设差异，则再在目标文本中使用候选词汇替换非专有词汇。

图7是根据一示例性实施例示出的一种搜索方法的流程图，如图7所示，该方法用于电子设备中，电子设备包括终端或服务器等，该方法包括以下步骤。

在步骤S701中，获取在搜索框中输入的搜索关键词；

在本申请中，当用户需要进行搜索时，可以在电子设备的屏幕上显示的搜索框中输入搜索关键词，搜索关键词中包括至少一个词汇，电子设备获取用户在搜索框中输入的搜索关键词。

在步骤S702中，获取基于条件随机场模型和预设专有词汇库而训练得到的预设专有词汇识别模型；

在本申请中，事先可以获取样本搜索关键词集合，样本搜索关键词集合中包括标注有专有词汇的多个样本搜索关键词，标注的专有词汇可以位于预设专有词汇库中，然后使用样本搜索关键词集合中的样本搜索关键词对条件随机场模型进行训练，并在每一轮训练中可以结合样本搜索关键词的上下文的语义环境，人工检测条件随机场模型对预测出的样本搜索关键词中的专有词汇是否为无需纠正的词汇，并将检测结果应用到下一轮的训练中，以不断修改条件随机场模型中的参数，直至条件随机场模型中的参数均收敛，从而得到预设专有词汇识别模型，然后存储预设专有词汇识别模型。

在步骤S703中，使用预设专有词汇识别模型识别搜索关键词中的专有词汇；

在本申请中，可以将搜索关键词输入预设专有词汇识别模型中，得到预设专有词汇识别模型输出的专有词汇。

在步骤S704中，对搜索关键词中的除专有词汇以外的词汇进行纠错；

其中，可以参见上述图2-图6所示的实施例的方法对搜索关键词中的除专有词汇以外的词汇进行纠错。

在步骤S705中，使用纠错后的搜索关键词进行搜索。

在本申请中，由于预设专有词汇识别模型是基于条件随机场模型训练得到的，如此预设专有词汇识别模型可以根据搜索关键词的上下文的语义环境将搜索关键词中的、虽然不属于预设专有词汇库但事实上却无需纠正的词汇确定为专有词汇，由于正确的词汇是无需纠正的，因此可以将确定出的搜索关键词中的专有词汇确定为正确的词汇。相比于现有技术只能确定出文本中的位于专有词汇库中的词汇是否为正确的词汇，本申请中还能够确定出文本中的不位于专有词汇库中的词汇是否为正确的词汇，从而相比于现有技术，对于同一文本，本申请可以确定出更多的正确的词汇，之后再对搜索关键词中的除专有词汇以外的词汇进行纠错，从而可以避免无纠错，进而提高纠错准确率。

图8是根据一示例性实施例示出的一种文本处理装置的框图，如图8所示，该装置包括：

第一获取模块11，用于获取目标文本；

第二获取模块12，用于获取基于条件随机场模型和预设专有词汇库而训练得到的预设专有词汇识别模型；

第一识别模块13，用于使用所述预设专有词汇识别模型识别所述目标文本中的专有词汇；

第一确定模块14，用于将确定出的所述目标文本中的所述专有词汇确定为正确的词汇。

在一个可选的实现方式中，所述第一识别模块13包括：

检测单元，用于检测所述目标文本中是否存在繁体字；

在一个可选的实现方式中，所述装置还包括：

在一个可选的实现方式中，所述第五确定模块包括：

第二确定单元，用于在所述词汇串中确定候选词汇。

在一个可选的实现方式中，所述装置还包括：

在一个可选的实现方式中，所述第八确定模块包括：

在一个可选的实现方式中，所述装置还包括：

图9是根据一示例性实施例示出的一种搜索装置的框图，如图9所示，该装置包括：

第六获取模块21，用于获取在搜索框中输入的搜索关键词；

第七获取模块22，用于获取基于条件随机场模型和预设专有词汇库而训练得到的预设专有词汇识别模型；

第二识别模块23，用于使用所述预设专有词汇识别模型识别所述搜索关键词中的专有词汇；

纠错模块24，用于对将所述搜索关键词中的除所述专有词汇以外的词汇进行纠错；

搜索模块25，用于使用纠错后的搜索关键词进行搜索。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的文本处理方法。本申请实施例中，所述电子设备包括服务器、网关、子设备等，子设备为物联网设备等设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括服务器(集群)、终端设备如IoT设备等电子设备。

图10示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1300。

对于一个实施例，图10示出了示例性装置1300，该装置具有一个或多个处理器1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(NVM)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310，以及被耦合到控制模块1306的网络接口1312。

处理器1302可包括一个或多个单核或多核处理器，处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置1300能够作为本申请实施例中所述网关或控制器等服务器设备。

在一些实施例中，装置1300可包括具有指令1314的一个或多个计算机可读介质(例如，存储器1306或NVM/存储设备1308)以及与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中所述的动作的一个或多个处理器1302。

对于一个实施例，控制模块1304可包括任意适当的接口控制器，以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。

控制模块1304可包括存储器控制器模块，以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例，存储器1306可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器1306可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块1304可包括一个或多个输入/输出控制器，以向NVM/存储设备1308及(一个或多个)输入/输出设备1310提供接口。

例如，NVM/存储设备1308可被用于存储数据和/或指令1314。NVM/存储设备1308可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备1308可包括在物理上作为装置1300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。

(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信，输入/输出设备1310可以包括通信组件、音频组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信，装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成***级封装(SiP)。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上***(SoC)。

在各个实施例中，装置1300可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

本申请实施例提供了一种电子设备，包括：一个或多个处理器；和，其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述处理器执行如本申请实施例中一个或多个所述的文本处理方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种文本处理方法装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

获取目标文本；

将确定出的所述目标文本中的所述专有词汇确定为正确的词汇；

所述使用所述预设专有词汇识别模型识别所述目标文本中的专有词汇，包括：

检测所述目标文本中是否存在繁体字；

使用所述预设专有词汇识别模型确定转换后的目标文本中的专有词汇；

所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述自定义词汇集合中查找是否存在所述非专有词汇；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述拼音确定所述非专有词汇的候选词汇；

4.根据权利要求3所述的方法，其特征在于，所述根据所述拼音确定所述非专有词汇的候选词汇，包括：

在所述词汇串中确定候选词汇。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述汉字编码确定所述非专有词汇的候选词汇；

6.根据权利要求5所述的方法，其特征在于，所述根据所述汉字编码确定所述非专有词汇的候选词汇，包括：

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

如果所述自定义词汇集合中不存在所述非专有词汇，获取所述非专有词汇的形近词汇，并作为候选词汇；

8.根据权利要求7所述的方法，其特征在于，所述获取所述非专有词汇的形近词汇，包括：

9.根据权利要求3-8任一项所述的方法，其特征在于，所述方法还包括：

10.一种搜索方法，其特征在于，所述方法包括：

获取在搜索框中输入的搜索关键词；

使用纠错后的搜索关键词进行搜索；

所述使用所述预设专有词汇识别模型识别所述搜索关键词中的专有词汇，包括：

检测所述搜索关键词中是否存在繁体字；

如果所述搜索关键词中存在繁体字，则将所述搜索关键词中的繁体字转换为对应的简体字；

使用所述预设专有词汇识别模型确定转换后的搜索关键词中的专有词汇；

所述方法还包括：

将所述搜索关键词中的除所述专有词汇以外的词汇确定为非专有词汇，所述非专有词汇包括错误的词汇；

在所述搜索关键词中使用所述正确的词汇替换所述非专有词汇。

11.一种文本处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标文本；

第一确定模块，用于将确定出的所述目标文本中的所述专有词汇确定为正确的词汇；

所述第一识别模块包括：

检测单元，用于检测所述目标文本中是否存在繁体字；

第一确定单元，用于使用所述预设专有词汇识别模型确定转换后的目标文本中的专有词汇；

所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述第五确定模块包括：

第二确定单元，用于在所述词汇串中确定候选词汇。

15.根据权利要求12所述的装置，其特征在于，所述装置还包括：

16.根据权利要求15所述的装置，其特征在于，所述第八确定模块包括：

17.根据权利要求12所述的装置，其特征在于，所述装置还包括：

第四获取模块，用于如果所述自定义词汇集合中不存在所述非专有词汇，获取所述非专有词汇的形近词汇，并作为候选词汇；

18.根据权利要求17所述的装置，其特征在于，所述第四获取模块具体用于：以所述非专有词汇作为基础词汇，在基础词汇与基础词汇的形近词汇之间的第四对应关系中，查找与所述非专有词汇相对应的形近词汇。

19.根据权利要求13-18任一项所述的装置，其特征在于，所述装置还包括：

20.一种搜索装置，其特征在于，所述装置包括：

第六获取模块，用于获取在搜索框中输入的搜索关键词；

搜索模块，用于使用纠错后的搜索关键词进行搜索；

所述第二识别模块包括：

检测单元，用于检测所述搜索关键词中是否存在繁体字；

修改单元，用于如果所述搜索关键词中存在繁体字，则将所述搜索关键词中的繁体字转换为对应的简体字；

第一确定单元，用于使用所述预设专有词汇识别模型确定转换后的搜索关键词中的专有词汇；

所述装置还包括：

第二确定模块，用于将所述搜索关键词中的除所述专有词汇以外的词汇确定为非专有词汇，所述非专有词汇包括错误的词汇；

第一替换模块，用于在所述搜索关键词中使用所述正确的词汇替换所述非专有词汇。