CN110941701B

CN110941701B - 语义分析样本集的优化方法、存储介质和计算设备

Info

Publication number: CN110941701B
Application number: CN201911183006.6A
Authority: CN
Inventors: 满鸿翔; 李绍斌; 谭泽汉; 张诗茹; 侯俊光
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2023-02-28
Anticipated expiration: 2039-11-27
Also published as: CN110941701A

Abstract

本申请公开一种语义分析样本集的优化方法、存储介质和计算设备，该方法包括：S200：获取样本集；S400：利用语义相似度分析模型获取每个样本中两个语句的测试相似度；S600：比较参考相似度与测试相似度，判断语义分析是否错误，确定所属的错误类型以及相应的错误率；S800：判断每个错误类型的错误率是否均低于或等于预设阈值：若至少一个错误类型的错误率高于预设阈值，执行S1000；若每个错误类型的错误率均低于或等于预设阈值，执行S1200；S1000：错误率高于预设阈值的错误类型，基于其样本特征向样本集中添加具有相同特征的新的样本，以建立新的样本集，返回执行S400至S800；S1200：当前样本集即优化后的样本集。本实施例能够快速得到优化后的符合要求的样本集。

Description

语义分析样本集的优化方法、存储介质和计算设备

技术领域

本发明涉及自然语言处理技术领域，尤其设计一种语义分析样本集的优化方法、存储介质和计算设备。

背景技术

在深度学习技术领域，语义相似度分析是一个很重要的方向，其应用非常广泛，如智能客服、智能音箱、智能搜索等都离不开语义相似度分析。一个具有较好的表现效果的语义相似度分析模型往往需要通过大量人工标注的数据样本或具有很好的代表性的数据样本对其进行训练，而实际操作中经常出现的问题是：样本本身有一定的欠缺，用这样的样本对模型进行训练后，模型的表现便受到了样本的影响。业界常用的做法是通过増大样本量来提升语义相似度分析模型的表现效果，但人工对大量样本进行标注会消耗大量人力、财力和时间。

发明内容

本发明的主要目的是提供一种语义分析样本集的优化方法、存储介质和计算设备，以解决上述样本集的优化问题。

第一方面，本申请的实施方式提供一种语义分析样本集的优化方法，包括以下步骤：S200：获取样本集，所述样本集中的每个样本包括一个语句对和所述语句对中两个语句的参考相似度；S400：利用语义相似度分析模型分析样本集中每个样本的语句对，以获取每个样本的语句对中两个语句的测试相似度；S600：通过比较每个样本的语句对的参考相似度与测试相似度，判断所述语义相似度分析模型对每个样本的语义分析是否错误，并确定语义分析错误所属的错误类型以及每个错误类型的错误率，其中，所述错误率为一个错误类型下语义分析错误的样本占语义分析错误的样本总数的比例值；S800：判断每个错误类型的错误率是否均低于或等于预设阈值：若至少一个错误类型的错误率高于预设阈值，则执行S1000；若每个错误类型的错误率均低于或等于预设阈值，则执行S1200；S1000：对于错误率高于预设阈值的错误类型，基于其下语义分析错误的样本的特征向样本集中添加具有相同特征的新的样本，以建立新的样本集，并返回执行S400至S800，以利用语义相似度分析模型分析新的样本集中每个样本的语句对，从而再次确定语义分析错误所属的错误类型以及每个错误类型的错误率；S1200：采用当前样本集作为优化后的样本集。

可选的，所述通过比较每个样本的语句对的参考相似度与测试相似度，判断所述语义相似度分析模型对每个样本的语义分析是否错误，包括：分析每个样本语句对的测试相似度与参考相似度的差值，根据所述差值是否满足相似度容差条件来判断所述语义相似度分析模型对该样本的语义分析是否错误

可选的，所述根据所述差值是否满足相似度容差条件来判断所述语义相似度分析模型对该样本的语义分析是否错误，包括：当所述差值小于或等于给定差值阈值时，判定所述语义相似度分析模型对该样本的语义分析正确，当所述差值大于给定差值阈值时，判定所述语义相似度分析模型对该样本的语义分析错误。

可选的，所述确定语义分析错误所属的错误类型，包括：获取语义分析错误的样本的语句对中两个语句的区别点；根据所述区别点确定语义分析错误所属的错误类型。

可选的，所述错误类型包括：主语检测错误、谓语检测错误、宾语检测错误、语序检测错误、主题检测错误和否定检测错误中的至少一种错误类型。

可选的，所述语义分析错误的样本的特征，包括：语义分析错误的样本的语句对中两个语句的区别点；所述基于其下语义分析错误的样本的特征向样本集中添加具有相同特征的新的样本，包括：基于该错误类型下语义分析错误的样本的语句对中两个语句的区别点，向样本集中添加具有其语句对中两个语句具有相同区别点的新的样本。

可选的，所述基于该错误类型下语义分析错误的样本的语句对中两个语句的区别点，向样本集中添加具有其语句对中两个语句具有相同区别点的样本，包括：基于同义词表，将该错误类型下语义分析错误的样本的语句对中两个语句中的词语替换为该词语的同义词，以生成其语句对中两个语句具有相同区别点的新的样本，将所述新的样本添加到样本集中。

第二方面，本申请的实施方式提供一种存储介质，存储有程序代码，其特征在于，所述程序代码被处理器执行时，实现如上文所述方法的步骤。

第三方面，本申请的实施方式提供一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码被处理器执行时，实现如上文所述方法的步骤。

本申请实施方式的语义分析样本集的优化方法能够有针对性的对样本集进行调整，利用调整后的样本集对模型进行训练，能够快速得到较好的模型表现效果，同时得到优化后的符合要求的样本集，有利于提高模型的训练效率，节省人力和时间。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，在附图中：

图1为根据本申请一示例性实施例的语义分析样本集的优化方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本申请的一实施方式提供一种语义分析样本集的优化方法。如图1所示，包括以下步骤：

S200：获取样本集，所述样本集中的每个样本包括一个语句对和所述语句对中两个语句的参考相似度。

可选的，根据领域不同，样本集的来源可以是不同领域的语料数据库，也可以是指定的某个数据库。样本集的数量可以根据需要进行设定，例如，可以包括3000条样本或5000条样本，在此不作限定。

其中，每个样本包括一个语句对和该两个语句的参考相似度，例如，语句对可以是“我吃完饭了”和“我刚吃过饭”，两个语句的意思相同，该两个语句的相似度为5(假如相似度的范围为0～5)，5即为该两个语句的参考相似度，该两个语句和他们的参考相似度组成一个样本，样本集可以由大量的诸如此类的样本组成。

S400：利用语义相似度分析模型分析样本集中每个样本的语句对，以获取每个样本的语句对中两个语句的测试相似度。

将样本集中每个样本的语句对中的两个语句输入到语义相似度分析模型(以下简称模型)中，模型检测每个样本中的两个语句的相似度，该相似度即为测试相似度。

S600：通过比较每个样本的语句对的参考相似度与测试相似度，判断所述语义相似度分析模型对每个样本的语义分析是否错误，并确定语义分析错误所属的错误类型以及每个错误类型的错误率，其中，所述错误率为一个错误类型下语义分析错误的样本占语义分析错误的样本总数的比例值。

其中，比较每个样本的语句对的参考相似度与测试相似度，判断所述语义相似度分析模型对每个样本的语义分析是否错误，例如，当参考相似度大于测试相似度时，判定语义相似度分析模型对该样本的语义分析错误，或者，当参考相似度小于测试相似度时，判定语义相似度分析模型对该样本的语义分析错误，具体不做限定。

作为一种可选的实施方式，所述通过比较每个样本的语句对的参考相似度与测试相似度，判断所述语义相似度分析模型对每个样本的语义分析是否错误，包括：分析每个样本语句对的测试相似度与参考相似度的差值，根据所述差值是否满足相似度容差条件来判断所述语义相似度分析模型对该样本的语义分析是否错误。

例如，通过比较每个样本的语句对的参考相似度与测试相似度获取该样本的语句对的参考相似度与测试相似度的差值，当该差值在相似度容差以内时，判定所述语义相似度分析模型对该样本的语义分析正确，当所述样本的语句对的参考相似度与测试相似度的差值在所述相似度容差以外时，判定所述语义相似度分析模型对该样本的语义分析错误。

作为一种可选的实施方式，根据所述差值是否满足相似度容差条件来判断所述语义相似度分析模型对该样本的语义分析是否错误，包括：当所述差值小于或等于给定差值阈值时，判定所述语义相似度分析模型对该样本的语义分析正确，当所述差值大于给定差值阈值时，判定所述语义相似度分析模型对该样本的语义分析错误。

其中，相似度差值阈值可以根据需要进行设定，例如可以为0或1或3等，这里我们以相似度差值阈值为0举例说明，例如，模型对样本A中两个语句的测试相似度为4，而该两个语句的参考相似度为3，该两个语句的测试相似度与参考相似度的差值为1，而相似度差值阈值为0，显然该两个相似度的差值大于相似度差值阈值，那么判定语义相似度分析模型对该样本的语义分析错误，而如果该两个语句的测试相似度均为3，该两个语句的测试相似度与参考相似度的差值为0，显然该两个相似度的差值等于相似度差值阈值，那么判定语义相似度分析模型对该样本的语义分析正确，相应的，如果相似度容差为3，模型对样本B中两个语句的测试相似度为4，而该两个语句的参考相似度为2，该两个语句的测试相似度与参考相似度的差值为2，小于相似度差值阈值，那么判定语义相似度分析模型对该样本的语义分析正确。

作为一种可选的实施方式，确定语义分析错误所属的错误类型，包括：获取语义分析错误的样本的语句对中两个语句的区别点；根据所述区别点确定语义分析错误所属的错误类型。

其中，语义分析错误的样本的语句对中两个语句的区别点，例如，样本C中的两个语句分别为“小明在切土豆”与“李华在切土豆”，样本C中的两个语句的区别点即为主语不同，样本D中的两个语句分别为“我下午去打篮球”与“小明篮球水平很好”，虽然样本D中的两个语句都与“篮球”有关，但是这两个语句所表达的中心思想是不同的，因此样本D中的两个语句的区别点即为主题不同，类似的，样本G中的两个语句分别为“小明的篮球水平很好”与“小明的笛子吹得非常不错”，虽然样本G中的两个语句的主语都是“小明”，但是这两个语句所表达的中心思想是不同的，因此样本G中的两个语句的区别点也为主题不同。

根据所述特征确定语义分析错误所属的错误类型，其中，错误类型可以包括：主语检测错误、谓语检测错误、宾语检测错误、语序检测错误、主题检测错误和否定检测错误中的至少一种错误类型。以下为举例说明，其中，相似度容差确定为0，所用样本均为语义相似度分析模型语义分析错误的样本。

样本C中的语句对的两个语句分别为“小明在切土豆”与“李华在切土豆”，该两个语句的区别点仅仅在于主语不同，而谓语和宾语相同，确定对样本C的语义分析错误的错误类型为主语检测错误。如果仅仅是谓语或宾语或其他句子成分不同时，可以以类似的方式确定其错误类型相应的为谓语检测错误和宾语检测错误等等，其中，主语检测错误、谓语检测错误和宾语检测错误均属于句法成分检测错误。

样本E中的语句对的两个语句分别为“小明不小心把杯子摔碎了”与“杯子被小明摔到地上，碎了”，该两个语句的区别点仅仅在于语序不同，而所表达的意思相同，确定对样本E的语义分析错误的错误类型为语序检测错误。

样本G中的两个语句分别为“小明的篮球水平很好”与“小明的笛子吹得非常不错”，虽然样本G中的两个语句的主语都是“小明”，但是主题不同使得该两个语句的参考相似度不高，因此模型对该样本的主题差别不敏感，确定对样本G语义分析错误的错误类型为主题检测错误。

样本D中的语句对的两个语句分别为“我下午去打篮球”与“小明篮球水平很好”，该两个语句的区别点在于主题不同，其主谓宾也不同，主题不同使得该两个语句的参考相似度不高，因此模型对该样本的主题差别不敏感，确定对样本D语义分析错误的错误类型为主题检测错误。

样本F中的语句对的两个语句分别为“我必须要出发去赶飞机了”与“我不得不出发去赶飞机了”，该两个语句的差别仅仅在于否定方式不同，而表达的意思是相同的，因此模型对样本F的否定方式的差别不敏感，确定对样本F的语义分析错误的错误类型为否定检测错误。

上述均为举例，只为表明本申请的思想，本申请的实施方式并不限于上述错误类型，相应的，语义分析错误的样本的错误类型可以包含其他类型，确定语义分析错误的错误类型的方法也可以通过其他方式进行。所确定的错误类型的数量可能为一个，也可能为多个。

S800：判断每个错误类型的错误率是否均低于预设阈值：

若至少一个错误类型的错误率高于预设阈值，则执行S1000；

若每个错误类型的错误率均低于或等于预设阈值，则执行S1200。

统计每个错误类型下所包含的样本的数量占语义分析错误的样本总数的比例作为该错误类型下语义相似度分析错误的错误率。预设阈值可以根据需要进行设定，例如，如果对样本集的要求比较高，可以设定较低的预设阈值，例如可以为3％或5％，如果对样本集的要求不是很高，可以设定较高的预设阈值，例如可以为20％或30％等。

S1000：对于错误率高于预设阈值的错误类型，基于其下语义分析错误的样本的特征向样本集中添加具有相同特征的新的样本，以建立新的样本集，然后返回执行S400至S800，以利用语义相似度分析模型分析新的样本集中每个样本的语句对，并再次确定语义分析错误所属的错误类型以及每个错误类型的错误率；

作为一种可选的实施方式，所述语义分析错误的样本的特征包括语义分析错误的样本的语句对中两个语句的区别点，基于其下语义分析错误的样本的特征向样本集中添加具有相同特征的新的样本，包括：基于该错误类型下语义分析错误的样本的语句对中两个语句的区别点，向样本集中添加具有其语句对中两个语句具有相同区别点的新的样本。

例如，样本C中的语句对的两个语句分别为“小明在切土豆”与“李华在切土豆”，该两个语句的区别点仅仅在于主语不同，则获取其语句对中两个语句对的区别点仅仅为主语不同的样本作为新的样本添加到样本集中，例如，新的样本可以是，语句对为“小明在吃饭”和“李华在吃饭”、“小红上学去了”和“小刚上学去了”等等。

作为一种可选的实施方式，基于该错误类型下语义分析错误的样本的语句对中两个语句的区别点，向样本集中添加具有其语句对中两个语句具有相同区别点的样本，包括：基于同义词表，将该错误类型下语义分析错误的样本的语句对中两个语句中的词语替换为该词语的同义词，以生成其语句对中两个语句具有相同区别点的新的样本，将所述新的样本添加到样本集中。

其中，可以在网络上下载同义词表(例如，中文用Python库Synonym，英文需要下载Wordnet)，基于同义词表，将语义分析错误的样本的语句对中的随机一个词替换为该词的任意一个同义词，以得到大量其语句对中的两个语句的区别点具有相同区别点的新的样本，将该新的样本与当前样本集中的样本合并以建立新的样本集。

例如，对于样本C，根据同义词表，“土豆”的同义词为“马铃薯”，则可以将样本C中两个语句中的“土豆”全部替换为“马铃薯”作为新的样本，将此新的样本加入到样本集中，建立新的样本集。

对于新的样本集，循环S400-S800，直到所有错误类型的错误率均低于预设阈值时，执行S1200。

S1200：采用当前样本集作为优化后的样本集。

本申请实施方式的样本集优化方法能够有针对性的对样本集进行调整，利用调整后的样本集对模型进行训练，能够快速得到较好的模型表现效果，同时得到优化后的符合要求的样本集，有利于提高模型的训练效率，节省人力和时间。

本申请的实施方式提供一种存储介质，存储有程序代码，所述程序代码被处理器执行时，实现如上文所述方法的步骤。

本申请的实施方式提供一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码被处理器执行时，实现如上文所述方法的步骤。

需要注意的是，这里所使用的的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

应当理解的是，本说明书中的示例性实施方式可以由多种不同的形式来实施，并且不应当被解释为只限于这里所阐述的实施方式。提供这些实施方式是为了使得本申请的公开彻底且完整，并且将这些示例性实施方式的构思充分传达给本领域普通技术人员，而不应当理解为对本发明的限制。

Claims

1.一种语义分析样本集的优化方法，其特征在于，包括以下步骤：

S200：获取样本集，所述样本集中的每个样本包括一个语句对和所述语句对中两个语句的参考相似度；

S400：利用语义相似度分析模型分析样本集中每个样本的语句对，以获取每个样本的语句对中两个语句的测试相似度；

S600：通过比较每个样本的语句对的参考相似度与测试相似度，判断所述语义相似度分析模型对每个样本的语义分析是否错误，并确定语义分析错误所属的错误类型以及每个错误类型的错误率，其中，所述错误率为一个错误类型下语义分析错误的样本占语义分析错误的样本总数的比例值，其中，所述确定语义分析错误所属的错误类型，包括：获取语义分析错误的样本的语句对中两个语句的区别点；根据所述区别点确定语义分析错误所属的错误类型，所述错误类型包括：主语检测错误、谓语检测错误、宾语检测错误、语序检测错误、主题检测错误和否定检测错误中的至少一种错误类型；

S800：判断每个错误类型的错误率是否均低于或等于预设阈值：

若至少一个错误类型的错误率高于预设阈值，则执行S1000；

若每个错误类型的错误率均低于或等于预设阈值，则执行S1200；

S1000：对于错误率高于预设阈值的错误类型，基于其下语义分析错误的样本的特征向样本集中添加具有相同特征的新的样本，以建立新的样本集，并返回执行步骤S400至S800，以利用语义相似度分析模型分析新的样本集中每个样本的语句对，从而再次确定语义分析错误所属的错误类型以及每个错误类型的错误率；

S1200：采用当前样本集作为优化后的样本集。

2.根据权利要求1所述的优化方法，其特征在于，所述通过比较每个样本的语句对的参考相似度与测试相似度，判断所述语义相似度分析模型对每个样本的语义分析是否错误，包括：

分析每个样本语句对的测试相似度与参考相似度的差值，根据所述差值是否满足相似度容差条件来判断所述语义相似度分析模型对该样本的语义分析是否错误。

3.根据权利要求2所述的优化方法，其特征在于，所述根据所述差值是否满足相似度容差条件来判断所述语义相似度分析模型对该样本的语义分析是否错误，包括：

当所述差值小于或等于给定差值阈值时，判定所述语义相似度分析模型对该样本的语义分析正确，当所述差值大于给定差值阈值时，判定所述语义相似度分析模型对该样本的语义分析错误。

4.根据权利要求3所述的优化方法，其特征在于，所述语义分析错误的样本的特征，包括：语义分析错误的样本的语句对中两个语句的区别点；

所述基于其下语义分析错误的样本的特征向样本集中添加具有相同特征的新的样本，包括：基于该错误类型下语义分析错误的样本的语句对中两个语句的区别点，向样本集中添加具有其语句对中两个语句具有相同区别点的新的样本。

5.根据权利要求4所述的优化方法，其特征在于，所述基于该错误类型下语义分析错误的样本的语句对中两个语句的区别点，向样本集中添加具有其语句对中两个语句具有相同区别点的样本，包括：

基于同义词表，将该错误类型下语义分析错误的样本的语句对中两个语句中的词语替换为该词语的同义词，以生成其语句对中两个语句具有相同区别点的新的样本，将所述新的样本添加到样本集中。

6.一种存储介质，存储有程序代码，其特征在于，所述程序代码被处理器执行时，实现所述权利要求1-5中任一项所述方法的步骤。

7.一种计算设备，包括处理器和存储有程序代码的存储介质，所述程序代码被处理器执行时，实现所述权利要求1-5中任一项所述方法的步骤。