CN110909162B

CN110909162B - 文本质检的方法、存储介质及电子设备

Info

Publication number: CN110909162B
Application number: CN201911118009.1A
Authority: CN
Inventors: 聂镭; 李睿; 聂颖
Original assignee: Longma Zhixin Zhuhai Hengqin Technology Co ltd
Current assignee: Longma Zhixin Zhuhai Hengqin Technology Co ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-10-27
Anticipated expiration: 2039-11-15
Also published as: CN110909162A

Abstract

本发明提出的质检模型训练方法，通过该训练方法，可以得到训练好的质检模型，该质检模型无需要人为设定质检表达式，只要将话术脚本及待质检文本输入到模型中，即可得到质检是否通过的结果，使得质检过程更加简单高效，使得使用该质检模型的质检***更加智能。本发明提出的文本质检的方法，可以实现全自动的文本质检，无需人为的参与，实现了话术脚本的质检标准词的自动提取，同时利用质检标准词两两组合得到的质检词对的相对距离值作为质检的标准，因此不需要制定复杂的质检表达式，使得质检的方式更为智能、简单高效。

Description

文本质检的方法、存储介质及电子设备

技术领域

本发明涉及自然语言处理领域，特别是一种文本质检的方法、存储介质及电子设备。

背景技术

电话销售流程中，为了保障销售的合规性，需要坐席按照法律法规和公司的规章制度进行推销。如保险等合规性要求高的行业，甚至需要坐席人员严格的按照标准的话术脚本进行推销。为了保证坐席人员的工作质量，需要质检人员对坐席的通话录音进行质量检测。传统的质检方式是质检人员，根据话术脚本的质检要点，通过人工听录音的方式进行质检。这种质检方式不但效率低，而且只能通过抽检的方式进行，其中大量的电话录音不能被质检。

现有技术中，为了解决上述人工进行质检的将效率低的问题，出现了各种利用语音识别、自然语义分析等技术的智能质检***，可以实现对语音全量质检，同时在很大程度上提高质检效率。然而，在使用这些质检***，质检人员需要先人为设定质检表达式，这就需要质检人员能够充分的了解并灵活运用这些质检规则，否则，质检表达式一旦设定错误，则会导致质检结果的错误。例如，在某公司的质检***中，其质检规则非常复杂，使得使用该***的质检人员很容易出错。其质检表达式由规则、条件、检查范围和算子组合组成，并需要通过各种复杂的组合形成的质检表达式，因此，质检人员上岗使用该***时，需要提前进行***的培训，这增加了质检人员的培训成本。同时，由于***复杂的操作，质检人员难免会出现操作错误的时候，从而导致质检结果的不准确。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。有鉴于此，本发明提供了一种质检模型的训练方法，该方法包括：

获取带标记的话术脚本，从所述带标记的话术脚本中提取质检标准词，所述质检标准词包括若干质检词；

获取质检模型的训练数据，所述训练数据包括正样本和负样本，所述正样本为质检结果为通过的文本数据，所述负样本为质检结果为不通过的文本数据；

根据所述质检标准词，对所述训练数据的文本数据进行向量化处理，得到所述文本数据的向量；

根据所述文本数据的向量，对所述质检模型进行训练，得到训练完成后的所述质检模型。

进一步地，所述带标记的话术脚本的标记包括：高亮处理的文字和/或者标记有底纹的文字。

进一步地，从所述带标记的话术脚本中提取质检标准词包括：

从所述带标记的话术脚本中提取标记对应的标记文字，对所述标记文字进行分词处理，得到分词结果；使用IDF的方法对所述分词结果的进行数值变换，得到所述分词结果的IDF值；根据所述IDF值得到所述质检标准词。

进一步地，根据所述质检标准词，对所述训练数据的文本数据进行向量化处理，得到所述文本数据的向量，包括：

定位并标记全部所述质检标准词在所述文本数据中的绝对位置，若所述文本数据中不存在对应的某个所述质检标准词，则将所述质检标准词在文本数据中的绝对位置标记为一个特定值；将所述质检标准词进行两两组合得到质检词对，计算所述质检词对的相对距离；将所述相对距离的值作为所述文本数据的向量元素；根据所述向量元素，得到所述文本数据的向量。

进一步地，根据所述文本数据的向量，对所述质检模型进行训练，得到训练完成后的所述质检模型，包括：

将所述正样本的文本数据的向量输入所述质检模型，令所述质检模型的输出结果为1；

将所述负样本的文本数据的向量输入所述质检模型，令所述质检模型的输出结果为0；

使用标准方程法得到所述质检模型的最优参数，得到训练完成后的所述质检模型。

进一步地，所述质检模型为逻辑回归模型：

a₁x₁+a₂x₂+a₃x₃+…+a_nx_n＝y

其中，n为所述文本数据的向量的元素的数量，a₁、a₂、a₃…a_n为所述质检模型的参数，x₁、x₂、x₃…x_n为所述文本数据的向量的元素，y为所述质检模型的输出，取值1或0，1代表质检结果为通过0，代表质检结果为不通过。

本发明还提出一种文本质检方法，该方法包括：

获取待质检文本，所述待质检文本为根据所述话术脚本进行对话产生的文本数据；

根据所述质检标准词，对所述待质检文本的文本数据进行向量化处理，得到所述待质检文本的文本数据的向量；

将所述待质检文本的文本数据的向量输入经过权利要求1-6任一所述的训练方法训练得到的质检模型，得到所述质检模型的输出结果；

根据所述输出结果得到质检结果。

进一步地，所述带标记的话术脚本的标记包括：高亮处理的文字和/或者标记有底纹的文字；

从所述带标记的话术脚本中提取质检标准词包括：

从所述带标记的话术脚本中提取标记对应的标记文字，对所述标记文字进行分词处理，得到分词结果；使用IDF的方法对所述分词结果的进行数值变换，得到所述分词结果的IDF值；根据所述IDF值得到所述质检标准词；

根据所述质检标准词，对所述待质检文本的文本数据进行向量化处理，得到所述待质检文本的文本数据的向量，包括：

定位并标记全部所述质检标准词在所述待质检文本的文本数据中的绝对位置，若所述待质检文本的文本数据中不存在对应的某个所述质检标准词，则将所述质检标准词在所述待质检文本的文本数据中的绝对位置标记为一个特定值；将所述质检标准词进行两两组合得到质检词对，计算所述质检词对的相对距离；将所述相对距离的值作为所述待质检文本的文本数据的向量元素；根据所述向量元素，得到所述待质检文本的文本数据的向量。

本发明还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述的文本质检方法。

本发明还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述的文本质检方法。

本发明提出的质检模型训练方法，通过该训练方法，可以得到训练好的质检模型，该质检模型无需人为去设定质检表达式，只要将话术脚本及待质检文本输入到模型中，即可得到质检是否通过的结果，使得质检过程更加简单高效，使得使用该质检模型的质检***更加智能。本发明提出的文本质检的方法，可以实现全自动的文本质检，通过话术脚本的质检标准词的自动提取，同时利用质检标准词两两组合得到的质检词对的相对距离值作为质检的标准的方式，使得不需要人工去制定复杂的质检表达式，使得质检的方式更为智能、简单高效。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点更为清楚，在附图中：

图1是根据本发明的一个实施例的质检模型训练方法的流程图；

图2是根据本发明的另一个实施例的文本质检方法的流程图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下方对本发明的细节描述中，详尽描述了一些特定的细节部分，为了避免混淆本发明的实质，公知的方法、过程、流程、元件并没有详细叙述。

除非上下文明确要求，否则整个说明书和权利要求书的“包括”、“包含”等类似词语应当解释为包含的含义而还是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明中的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

下面参考附图描述本发明实施例的质检模型训练方法，文本质检的方法、存储介质及电子设备。

首先，对本发明实施例的质检模型训练方法进行说明。

图1为根据本发明的一个实施例的质检模型训练方法的流程图。如图1所示，本发明实施例的质检模型训练方法包括以下步骤：

S100，获取带标记的话术脚本，从所述带标记的话术脚本中提取质检标准词，所述质检标准词包括若干质检词；

S200，获取质检模型的训练数据，所述训练数据包括正样本和负样本，所述正样本为质检结果为通过的文本数据，所述负样本为质检结果为不通过的文本数据；

S300，根据所述质检标准词，对所述训练数据的文本数据进行向量化处理，得到所述文本数据的向量；

S400，根据所述文本数据的向量，对所述质检模型进行训练，得到训练完成后的所述质检模型。

下面按各个步骤分别进行具体的说明。

需要说明的是，这里所说的带标记的话术脚本是现实中座席用来与客户进行沟通的依据，话术脚本规定了座席与客户沟通的具体内容、沟通的业务流程(包括开场白、产品介绍、意向确认等环节)，而带标记的部分往往是重点要关注的内容，以醒目的标记来提醒座席人员注意该重点内容。本实施例中，带标记的话术脚本一般是现成的，无需进行额外的操作。在进行质检时，质检人员进行质检的标准，同样是以这些带标记的话术脚本，而带标记之处则为质检的要点，即质检文本必须符合的要求。

在一些实施例中，步骤S100中所述带标记的话术脚本的标记包括：高亮处理的文字和/或者标记有底纹的文字。

在一些实施例中，步骤S100中从所述带标记的话术脚本中提取质检标准词包括：

在本发明实施例中，先提取话术脚本中带标记的文字，然后使用分词工具(例如jieba分词)对该带标记的文字进行分词。例如，对于话术脚本中的一句话：“第一点，生活中普通意外导致身故或残疾最高赔偿60万”，首先，提取带标记部分“第一点，普通意外导致身故或残疾最高赔偿60万”，然后，对带标记部分进行分词，分词结果为“’第一点’、’普通’、’意外’、’导致’、’身故’、’或’、’残疾’、’最高’、’赔偿’、’60万’”。然后使用IDF的方法对所述分词结果的进行数值变换，得到所述分词结果的IDF(inverse document frequency,逆向文件频率)值，IDF值的计算方法如下：

根据分词结果的IDF值，设置适应的阈值，选取IDF值大于阈值的分词结果作为质检标准词。在上述举例中，经过上述步骤的处理，得到的质检标准词为”意外”、“导致”、”身故”、”残疾”、”最高“、”赔偿”、”60万”。

本发明实施例中，所获取的质检模型的训练数据为质检人员人工进行质检的历史文本，因此，训练数据利用现有的数据资料，而无需进行额外的标注工作，节约了标注的成本。训练数据是经过人工质检的文本，包括正样本和负样本，所述正样本为质检结果为通过的文本数据，所述负样本为质检结果为不通过的文本数据。

S300，根据所述质检标准词，对所述训练数据的文本数据进行向量化处理，得到所述文本数据的向量。

在一些实施例中，步骤S300根据所述质检标准词，对所述训练数据的文本数据进行向量化处理，得到所述文本数据的向量，包括：

在上述的举例中，从所述带标记的话术脚本中提取质检标准词为”意外”、“导致”、”身故”、”残疾”、”最高“、”赔偿”、”60万”，然后在收集到的正样本和负样本中，使用正则匹配的方法找到这些质检标准词在文本中的绝对位置，例如，在正样本1的文本数据中，全文本长有3000个字，这几个词“意外”，“导致”，“身故”，“残疾”，“最高”，“赔偿”，“60万”，分别位于全文的第1000，1002，1004，1006，1008，1010，1012个字的位置。若所述文本数据中不存在对应的某个所述质检标准词，则将所述质检标准词在文本数据中的绝对位置标记为一个特定值。例如，上述例子的正样本1中不存在质检标准词”最高”，则将质检标准词”最高“的绝对位置记为-10000，这样处理是为了后续计算相对位置时，使得不存在的该质检标准词与其它的质检标准词之间的距离足够大，区分的特征足够明显，进而使得质检模型更加容易学习到。接着，将所述质检标准词进行两两组合得到质检词对，计算所述质检词对的相对距离。还是以上述正样本1为例进行说明，将所述质检标准词进行两两组合获得质检词对，即质检词对的数量为

个，计算质检词对的相对距离，采用绝对位置在后的质检标准词减去绝对位置在前的质检标准词得到该相对距离，计算结果如下表1所示：

表1、正样本1中质检词对的相对距离

重复上述的步骤，计算所有的正样本和负样本的质检对的相对距离。最后，将所述相对距离的值作为所述文本数据的向量元素，根据所述向量元素，得到所述文本数据的向量，例如上述正样本1的向量为：[2，4，6，……，2]。

通过步骤S100至步骤S300，实现了训练数据的预处理，该处理可以由计算机自动化实现，无需人工处理，相对于一般的模型训练需要的训练数据需要人工标注节约了时间，降低了成本，同时提高了效率。

S400，根据所述文本数据的向量，对所述质检模型进行训练，得到

训练完成后的所述质检模型。

在本发明的一些实施例中，步骤S400根据所述文本数据的向量，对所述质检模型进行训练，得到训练完成后的所述质检模型，包括：

S401，将所述正样本的文本数据的向量输入所述质检模型，令所述质检模型的输出结果为1；

S402，将所述负样本的文本数据的向量输入所述质检模型，令所述质检模型的输出结果为0；

S403，使用标准方程法得到所述质检模型的最优参数，得到训练完成后的所述质检模型。

在本发明的一些实施例中，所述质检模型为逻辑回归模型：

a₁x₁+a₂x₂+a₃x₃+…+a_nx_n＝y

其中，n为所述文本数据的向量的元素的数量，a₁、a₂、a₃…a_n为所述质检模型的参数，x₁、x₂、x₃…x_n为所述文本数据的向量的元素，y为所述质检模型的输出，取值1或0，1代表质检结果为通过，0代表质检结果为不通过。

将步骤S300中得到的正样本和负样本的文本数据的向量，通过步骤S401至步骤S403的训练步骤，从而得到质检模型的参数a₁、a₂、a₃…a_n的最优参数值。需要说明的是训练过程除了使用标准方程法进行最优参数值的求解外，还可以通过梯度下降法或者其它方法，此为现有技术，不再详述。

通过步骤S100至步骤S400，可以得到训练完成的文本质检模型。该质检模型的训练方法的优点在于：

1.充分利用现有的数据资料，包括带标注的话术脚本和模型的训练数据，其都现成的数据资料，无需要进行额外的数据预处理工作，如数据的标注等；

2.以从话术脚本中提取的质检标准词为基础形成的质检词对的相对距离为基本特征，并用标准方程法进行模型训练，使得模型训练的速度快、效率高，同时使用训练好的质检模型的质检效果好。

下面，参照附图2描述根据本发明另一方面实施例提出的文本质检方法的流程图，该方法包括：

S10，获取带标记的话术脚本，从所述带标记的话术脚本中提取质检标准词，所述质检标准词包括若干质检词；

S20，获取待质检文本，所述待质检文本为根据所述话术脚本进行对话产生的文本数据；

S30，根据所述质检标准词，对所述待质检文本的文本数据进行向量化处理，得到所述待质检文本的文本数据的向量；

S40，将所述待质检文本的文本数据的向量输入经过上述各实施例所述的训练方法训练得到的质检模型，得到所述质检模型的输出结果；

S50，根据所述输出结果得到质检结果。

在一些实施例中，步骤S10所述带标记的话术脚本的标记包括：高亮处理的文字和/或者标记有底纹的文字；

在一些实施例中，步骤S10从所述带标记的话术脚本中提取质检标准词包括：

需要说明的是，在步骤S20中，所述待质检文本可以是根据座席的通话录音进行语音识别得到，也可以是根据座席的通话实时进行语音识别得到，还可以是其它一些通过文字形式与客户沟通所获得的文本，同时，所述待质检文本是根据相应的话术脚本进行对话产生的文本数据，因此，该话术脚本是对待质检文本进行质检的依据。

在一些实施例中，步骤S30根据所述质检标准词，对所述待质检文本的文本数据进行向量化处理，得到所述待质检文本的文本数据的向量，包括：

需要说明的是，步骤S10与步骤S100是相同的，其具体步骤的内容完全一致；步骤S30与步骤S300的步骤的内容是相同的，只是步骤的对象不同，步骤S300的对象是训练数据的向量化处理，而步骤S30的对象是待质检文件的向量化处理。

在步骤S40和步骤S50中，将所述待质检文本的文本数据的向量输入经过上述各实施例所述的训练方法训练得到的质检模型，得到所述质检模型的输出结果，根据所述输出结果得到质检结果。

例如，在一些实施例中，质检模型的输出结果包括两种情况，包括输出结果为1和输出结果为0，输出结果为1时，代表质检结果为通过，输出结果为0时，代表质检结果为不通过。

根据本发明实施例提供的文本质检方法，可以实现全自动的文本质检，通过话术脚本的质检标准词的自动提取，同时利用质检标准词两两组合得到的质检词对的相对距离值作为基本特征，因此不需要人工制定复杂的质检表达式，使得质检的方式更为智能、简单高效。相对于现有技术的质检方法，本发明实施例提供质检方法，能够实现完全的自动化质检，而无需质检人员人为设定复杂的质检表达式，由此避免了可能的人为错误导致的质检结果错误情况。

本发明的实施例还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S50，根据所述输出结果得到质检结果。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S50，根据所述输出结果得到质检结果。

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的程序代码，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面己经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。