CN112668664B

CN112668664B - 一种基于智能语音的话术训练方法

Info

Publication number: CN112668664B
Application number: CN202110013643.XA
Authority: CN
Inventors: 刘静文; 杨训武; 李欢; 吴福全; 王淋淋
Original assignee: Anhui Dike Digital Gold Technology Co ltd
Current assignee: Anhui Dike Digital Gold Technology Co ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2022-11-15
Anticipated expiration: 2041-01-06
Also published as: CN112668664A

Abstract

本发明公开了一种基于智能语音的话术训练方法，获取用户信息，将用户信息与预设的数据库进行匹配筛选，得到样本筛选数据；获取语音文本数据，将语音文本数据进行预处理，得到文本向量数据；将文本向量数据与样本筛选数据进行匹配，得到第一匹配数据；将文本向量数据与数据库进行匹配，得到第二匹配数据；获取第一匹配数据和第二匹配数据的初匹相似度，将初匹相似度与预设的相似阈值进行对比，得到相似结果；本发明用于解决只对匹配的数据进行匹配训练导致训练的准确性不佳，对不匹配的数据不能进行有效筛选导致数据训练的完整性不佳的问题。

Description

一种基于智能语音的话术训练方法

技术领域

本发明涉及数据训练技术领域，尤其涉及一种基于智能语音的话术训练方法。

背景技术

数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。训练数据是指数据挖掘过程中用于训练数据挖掘模型的数据，一般要求数据样本尽可能大、数据多样化，数据样本质量较高；

训练数据即数据挖掘过程中用于数据挖掘模型构建的数据，在数据挖掘过程中，除了训练数据还有测试数据，即用于检测模型构建，此数据只在模型检验时使用，用于评估模型的准确率，绝对不允许用于模型构建过程，否则会导致过渡拟合。验证数据：可选，用于辅助模型构建，可以重复使用。当数据集较小，会采用一些方法来来弥补这个缺点。

现有的话术训练方法在的缺陷是：只对匹配的数据进行匹配训练导致训练的准确性不佳，对不匹配的数据不能进行有效筛选导致数据训练的完整性不佳的问题。

发明内容

本发明的目的在于提供一种基于智能语音的话术训练方法，本发明所要解决的技术问题为：

如何解决现有方案中只对匹配的数据进行匹配训练导致训练的准确性不佳，对不匹配的数据不能进行有效筛选导致数据训练的完整性不佳的问题。

本发明的目的可以通过以下技术方案实现：一种基于智能语音的话术训练方法，该话术训练方法的步骤包括：

S1：获取用户信息，将用户信息与预设的数据库进行匹配筛选，得到样本筛选数据；

S2：获取语音文本数据，将语音文本数据进行预处理，得到文本向量数据；

S3：将文本向量数据与样本筛选数据进行匹配，得到第一匹配数据；将文本向量数据与数据库进行匹配，得到第二匹配数据；

S4：获取第一匹配数据和第二匹配数据的初匹相似度，将初匹相似度与预设的相似阈值进行对比，得到相似结果，利用相似结果将样本筛选数据根据第二匹配数据进行迭代筛选，得到样本迭代筛选数据；

S5：将文本向量数据与样本迭代筛选数据进行匹配，得到迭代匹配数据，获取迭代匹配数据与第二匹配数据的迭代相似度，将迭代相似度与预设的相似阈值进行对比，直至根据最大的迭代相似度将其对应的样本迭代筛选数据进行删除或存储。

优选的，将用户信息与预设的数据库进行匹配筛选，得到样本筛选数据，具体的步骤包括：

S21：获取用户信息中的职业数据、公司类型数据、专业数据和咨询类型数据；

S22：设定不同的职业对应一个不同的职业预设值，设定不同的公司类型对应一个不同的公司预设值，设定不同的专业对应一个不同的专业预设值，设定不同的咨询类型对应一个不同的咨询预设值；

S23：将职业数据、公司类型数据、专业数据和咨询类型数据分别与所有的职业、公司类型、专业和咨询类型进行匹配，获取职业数据对应的职业匹配值、公司类型数据对应的公司匹配值、专业数据对应的专业匹配值和咨询类型数据对应的咨询匹配值；

S24：将职业匹配值标记为ZPi,i＝1,2...n；将公司匹配值标记为GPi,i＝1,2...n；将专业匹配值标记为ZYi,i＝1,2...n；将咨询匹配值标记为ZXi,i＝1,2...n；将职业匹配值、公司匹配值、专业匹配值和咨询匹配值进行归一化处理并取值；

S25：利用公式获取用户信息的集合值，该公式为：

其中，Q_jh表示为集合值，η表示为预设的集合修正因子，g1、g2、g3、g4表示为预设的不同比例系数；

S26：将集合值标记为筛选类别，根据筛选类别在预设的数据库中获取筛选类别对应的筛选词组集和筛选问题集并进行处理，得到筛选集；

S27：将职业匹配值、公司匹配值、专业匹配值和咨询匹配值与筛选集分别进行关联和组合，得到样本筛选数据。

优选的，根据筛选类别在预设的数据库中获取筛选类别对应的筛选词组集和筛选问题集并进行处理，得到筛选集，具体的步骤包括：

S31：将筛选类别在预设的数据库中进行匹配，获取数据库中筛选类别关联的筛选词组集和筛选问题集；

S32：利用职业数据、公司类型数据、专业数据和咨询类型数据中的职业关键字、公司类型关键字、专业关键字和咨询类型关键字与筛选词组进行匹配，得到筛选职业词组集、筛选公司类型词组集、筛选专业词组集和筛选咨询类型词组集；

S33：在筛选职业词组集中获取职业关键字前后的N个词组以及词组对应的问题并组合，得到待测职业词组集；在筛选公司类型词组集中获取公司类型关键字前后的N个词组以及词组对应的问题并组合，得到待测公司类型词组集；在筛选专业词组集中获取专业关键字前后的N个词组以及词组对应的问题并组合，得到待测专业词组集；在筛选咨询类型词组集中获取咨询类型关键字前后的N个词组以及词组对应的问题并组合，得到咨询类型职业词组集；

S34：将待测职业词组集、待测公司类型词组集、待测专业词组集和咨询类型职业词组集分类组合，得到筛选集。

优选的，获取语音文本数据，将语音文本数据进行预处理，得到文本向量数据，具体的步骤包括：

S41：获取语音文本数据中的纯文本数据，利用分词器将纯文本数据进行分词，得到拆分数据；

S42：将拆分数据根据预设的停词表进行匹配，将拆分数据中与停词表中相同的词语进行删除，将拆分数据中与停词表中不相同的若干个词语进行保存，得到文本向量数据。

优选的，将文本向量数据与样本筛选数据进行匹配，得到第一匹配数据，具体的步骤包括：

S51：获取文本向量数据中的若干个词语并与样本筛选数据进行匹配；

S52：将文本向量数据中与样本筛选数据相同的词语进行标注，得到匹样中词语，统计匹样中词语的总个数；将文本向量数据中与样本筛选数据不相同的词语进行标注，得到匹样漏词语，统计匹样漏词语的总个数；

S53：利用公式获取匹配的分散值，该公式为：

其中，Q_fs表示为分散值，μ表示为预设的分散修正因子，a1、a2表示为预设的不同比例系数，PZ表示为匹样中词语的总个数，PL表示为匹样漏中词语的总个数；

S54：将分散值与预设的分散阈值进行匹配，若分散值不小于分散阈值，则判定该分散值对应的匹样漏词语需要进行保存并生成第一匹配信号；若分散值小于分散阈值，则判定该分散值对应的匹样漏词语不需要进行保存并生成第二匹配信号；

S55：将若干个匹样中词语排序组合得到匹样中集，将若干个匹样漏词语排序组合得到匹样漏集；将匹样中集、匹样漏集以及第一匹配信号和第二匹配信号分类组合，得到第一匹配数据。

优选的，将文本向量数据与数据库进行匹配，得到第二匹配数据，具体的步骤包括：

S61：获取文本向量数据中的若干个词语与数据库进行匹配，将与数据库中匹配相同的词语标注为匹数中词语；将与数据库中匹配不到的词语标注为匹数漏词语；

S62：将若干个匹数中词语排序组合得到匹数中集，将若干个匹数漏词语排序组合得到匹数漏集；

S63：将匹数中集与匹数漏集组合，得到第二匹配数据。

优选的，获取第一匹配数据和第二匹配数据的初匹相似度，将初匹相似度与预设的相似阈值进行对比，得到相似结果，具体的步骤包括：

S71：获取第一匹配数据中的匹样中集和匹样漏集以及第二匹配数据中的匹数中集和匹数漏集；

S72：将匹样中集中与匹数中集中相同的词语标记为选中词语，将匹样中集中与匹数中集中不相同的词语标记为第一待选词语；

S73：将匹样漏集中与匹数漏集中相同的词语标记为第二待选词语，将匹样漏集中与匹数漏集中不相同的词语标记为选弃词语；

S74：利用相识度公式获取匹配的初匹相似度，该公式为：

其中，Q_xs表示为初匹相似度，DYD表示为第一待选词语的个数，DED表示为第二待选词语的个数，PYZ0表示为匹样中集中词语的总个数，PYL0表示为匹样漏集中词语的总个数；

S75：将初匹相似度与预设的相似阈值进行对比，若初匹相似度不小于相似阈值，则判定初匹相似度对应的第一待选词语和第二待选词语有效并生成第一相似信号；若初匹相似度小于相似阈值，则判定初匹相似度对应的第一待选词语和第二待选词语无效并生成第二相似信号；

S76：根据第一相似信号将选中词语与第一待选词语和第二待选词语分类组合，得到匹配结果并存储至数据库中；

S77：根据第二相似信号将选弃词语与第一待选词语和第二待选词语分类组合，得到相似结果。

本发明的有益效果：

本发明公开的各个方面，获取用户信息，将用户信息与预设的数据库进行匹配筛选，得到样本筛选数据；通过获取采集用户信息并进行预匹配分析，得到关于用户的预测词组和主题，为数据的匹配和筛选提供支撑；

获取语音文本数据，将语音文本数据进行预处理，得到文本向量数据；通过对语音文本数据进行预处理提高数据匹配的效率和准确性；

将文本向量数据与样本筛选数据进行匹配，得到第一匹配数据；将文本向量数据与数据库进行匹配，得到第二匹配数据；通过将文本向量数据从预测的样本筛选数据和现有的数据库分别进行匹配，可以提高数据匹配的维度，预测的样本筛选数据可以提高数据训练的准确性和完整性；

获取第一匹配数据和第二匹配数据的初匹相似度，将初匹相似度与预设的相似阈值进行对比，得到相似结果，利用相似结果将样本筛选数据根据第二匹配数据进行迭代筛选，得到样本迭代筛选数据；通过获取第一匹配数据和第二匹配数据之间的初匹相似度并进行分析，可以将有效数据和待测数据进行分析并进行迭代训练，提高待测数据验证的准确性；

将文本向量数据与样本迭代筛选数据进行匹配，得到迭代匹配数据，获取迭代匹配数据与第二匹配数据的迭代相似度，将迭代相似度与预设的相似阈值进行对比，直至根据最大的迭代相似度将其对应的样本迭代筛选数据进行删除或存储，可以提高数据匹配验证时的效率并且可以将不匹配数据的有效性进行迭代验证从而提高数据的真实性，进而达到提高数据匹配和训练的效率与准确性的目的。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明一种基于智能语音的话术训练方法的流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于智能语音的话术训练方法，该话术训练方法的步骤包括：

S1：获取用户信息，将用户信息与预设的数据库进行匹配筛选，得到样本筛选数据；具体的步骤包括：

获取用户信息中的职业数据、公司类型数据、专业数据和咨询类型数据；

设定不同的职业对应一个不同的职业预设值，设定不同的公司类型对应一个不同的公司预设值，设定不同的专业对应一个不同的专业预设值，设定不同的咨询类型对应一个不同的咨询预设值；

将职业数据、公司类型数据、专业数据和咨询类型数据分别与所有的职业、公司类型、专业和咨询类型进行匹配，获取职业数据对应的职业匹配值、公司类型数据对应的公司匹配值、专业数据对应的专业匹配值和咨询类型数据对应的咨询匹配值；

将职业匹配值标记为ZPi,i＝1,2...n；将公司匹配值标记为GPi,i＝1,2...n；将专业匹配值标记为ZYi,i＝1,2...n；将咨询匹配值标记为ZXi,i＝1,2...n；将职业匹配值、公司匹配值、专业匹配值和咨询匹配值进行归一化处理并取值；

利用公式获取用户信息的集合值，该公式为：

将集合值标记为筛选类别，根据筛选类别在预设的数据库中获取筛选类别对应的筛选词组集和筛选问题集并进行处理，得到筛选集；具体的步骤包括：

将筛选类别在预设的数据库中进行匹配，获取数据库中筛选类别关联的筛选词组集和筛选问题集；

利用职业数据、公司类型数据、专业数据和咨询类型数据中的职业关键字、公司类型关键字、专业关键字和咨询类型关键字与筛选词组进行匹配，得到筛选职业词组集、筛选公司类型词组集、筛选专业词组集和筛选咨询类型词组集；

在筛选职业词组集中获取职业关键字前后的N个词组以及词组对应的问题并组合，得到待测职业词组集；在筛选公司类型词组集中获取公司类型关键字前后的N个词组以及词组对应的问题并组合，得到待测公司类型词组集；在筛选专业词组集中获取专业关键字前后的N个词组以及词组对应的问题并组合，得到待测专业词组集；在筛选咨询类型词组集中获取咨询类型关键字前后的N个词组以及词组对应的问题并组合，得到咨询类型职业词组集；

将待测职业词组集、待测公司类型词组集、待测专业词组集和咨询类型职业词组集分类组合，得到筛选集；

将职业匹配值、公司匹配值、专业匹配值和咨询匹配值与筛选集分别进行关联和组合，得到样本筛选数据；

本发明实施例中，在前期通过采集大量的用户样本信息和样本词组训练构建一个数据库，通过从职业关键字、公司类型关键字、专业关键字和咨询类型关键字四个维度与样本词组和样本主题建立联系，通过获取采集用户信息并进行预匹配分析，得到关于用户的预测词组和主题，为数据的匹配和筛选提供支撑，样本词组和样本主题为话术词组和话术主题。

S2：获取语音文本数据，将语音文本数据进行预处理，得到文本向量数据；具体的步骤包括：

获取语音文本数据中的纯文本数据，利用分词器将纯文本数据进行分词，得到拆分数据；

将拆分数据根据预设的停词表进行匹配，将拆分数据中与停词表中相同的词语进行删除，将拆分数据中与停词表中不相同的若干个词语进行保存，得到文本向量数据；

本发明实施例中，基于语音转换算法将语音进行转换得到语音文本数据，如ANN/HMM法，分词器可以为结巴分词器，停词表根据预设的删除词语预设的删除表，通过将文本向量数据从预测的样本筛选数据和现有的数据库分别进行匹配，可以提高数据匹配的维度，预测的样本筛选数据可以提高数据训练的准确性和完整性。

S3：将文本向量数据与样本筛选数据进行匹配，得到第一匹配数据；具体的步骤包括：

获取文本向量数据中的若干个词语并与样本筛选数据进行匹配；

将文本向量数据中与样本筛选数据相同的词语进行标注，得到匹样中词语，统计匹样中词语的总个数；将文本向量数据中与样本筛选数据不相同的词语进行标注，得到匹样漏词语，统计匹样漏词语的总个数；

利用公式获取匹配的分散值，该公式为：

将分散值与预设的分散阈值进行匹配，若分散值不小于分散阈值，则判定该分散值对应的匹样漏词语需要进行保存并生成第一匹配信号；若分散值小于分散阈值，则判定该分散值对应的匹样漏词语不需要进行保存并生成第二匹配信号；

将若干个匹样中词语排序组合得到匹样中集，将若干个匹样漏词语排序组合得到匹样漏集；将匹样中集、匹样漏集以及第一匹配信号和第二匹配信号分类组合，得到第一匹配数据；

将文本向量数据与数据库进行匹配，得到第二匹配数据；具体的步骤包括：

获取文本向量数据中的若干个词语与数据库进行匹配，将与数据库中匹配相同的词语标注为匹数中词语；将与数据库中匹配不到的词语标注为匹数漏词语；

将若干个匹数中词语排序组合得到匹数中集，将若干个匹数漏词语排序组合得到匹数漏集；

将匹数中集与匹数漏集组合，得到第二匹配数据；

本发明实施例中，通过获取第一匹配数据和第二匹配数据之间的初匹相似度并进行分析，可以将有效数据和待测数据进行分析并进行迭代训练，提高待测数据验证的准确性，第一匹配数据起到对第二匹配数据中验证不通过数据进行有效性验证的目的。

S4：获取第一匹配数据和第二匹配数据的初匹相似度，将初匹相似度与预设的相似阈值进行对比，得到相似结果，具体的步骤包括：

获取第一匹配数据中的匹样中集和匹样漏集以及第二匹配数据中的匹数中集和匹数漏集；

将匹样中集中与匹数中集中相同的词语标记为选中词语，将匹样中集中与匹数中集中不相同的词语标记为第一待选词语；

将匹样漏集中与匹数漏集中相同的词语标记为第二待选词语，将匹样漏集中与匹数漏集中不相同的词语标记为选弃词语；

利用相识度公式获取匹配的初匹相似度，该公式为：

将初匹相似度与预设的相似阈值进行对比，若初匹相似度不小于相似阈值，则判定初匹相似度对应的第一待选词语和第二待选词语有效并生成第一相似信号；若初匹相似度小于相似阈值，则判定初匹相似度对应的第一待选词语和第二待选词语无效并生成第二相似信号；

根据第一相似信号将选中词语与第一待选词语和第二待选词语分类组合，得到匹配结果并存储至数据库中；

根据第二相似信号将选弃词语与第一待选词语和第二待选词语分类组合，得到相似结果；

利用相似结果将样本筛选数据根据第二匹配数据进行迭代筛选，得到样本迭代筛选数据；

S5：将文本向量数据与样本迭代筛选数据进行匹配，得到迭代匹配数据，获取迭代匹配数据与第二匹配数据的迭代相似度，将迭代相似度与预设的相似阈值进行对比，直至根据最大的迭代相似度将其对应的样本迭代筛选数据进行删除或存储；

其中，将最大的迭代相似度标记为最终相似度，将最终相似度与相似阈值进行对比，若最终相似度不小于相似阈值，则判定最终相似度对应的样本迭代筛选数据有效并存储；若最终相似度小于相似阈值，则判定最终相似度对应的样本迭代筛选数据无效并删除。

本发明的工作原理：本发明实施例中，获取用户信息，将用户信息与预设的数据库进行匹配筛选，得到样本筛选数据；其中，基于用户信息的大数据与数据库中词语与主体的关联进行一个初步预测得到样本筛选数据，样本筛选数据用于将用户的语音文本数据与数据库匹配后进行相似度验证，从而提高预测数据的准确性，通过获取采集用户信息并进行预匹配分析，得到关于用户的预测词组和主题，为数据的匹配和筛选提供支撑；

在本发明所提供的实施例中，应该理解到，所揭露的***和方法，可以通过其它的方式实现。例如，以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个控制模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。***权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种基于智能语音的话术训练方法，其特征在于，该话术训练方法的步骤包括：

将用户信息与预设的数据库进行匹配筛选，得到样本筛选数据，具体的步骤包括：

S24：将职业匹配值标记为ZPi,i=1,2...n；将公司匹配值标记为GPi,i=1,2...n；将专业匹配值标记为ZYi,i=1,2...n；将咨询匹配值标记为ZXi,i=1,2...n；将职业匹配值、公司匹配值、专业匹配值和咨询匹配值进行归一化处理并取值；

S25：利用公式获取用户信息的集合值，该公式为：

其中，

表示为集合值，

表示为预设的集合修正因子，g1、g2、g3、g4表示为预设的不同比例系数；

S27：将职业匹配值、公司匹配值、专业匹配值和咨询匹配值与筛选集分别进行关联和组合，得到样本筛选数据；

获取第一匹配数据和第二匹配数据的初匹相似度，将初匹相似度与预设的相似阈值进行对比，得到相似结果，具体的步骤包括：

S74：利用相识度公式获取匹配的初匹相似度，该公式为：

其中，

表示为初匹相似度，DYD表示为第一待选词语的个数，DED表示为第二待选词语的个数，PYZ0表示为匹样中集中词语的总个数，PYL0表示为匹样漏集中词语的总个数；

2.根据权利要求1所述的一种基于智能语音的话术训练方法，其特征在于，根据筛选类别在预设的数据库中获取筛选类别对应的筛选词组集和筛选问题集并进行处理，得到筛选集，具体的步骤包括：

3.根据权利要求1所述的一种基于智能语音的话术训练方法，其特征在于，获取语音文本数据，将语音文本数据进行预处理，得到文本向量数据，具体的步骤包括：

4.根据权利要求1所述的一种基于智能语音的话术训练方法，其特征在于，将文本向量数据与样本筛选数据进行匹配，得到第一匹配数据，具体的步骤包括：

S53：利用公式获取匹配的分散值，该公式为：

其中，

表示为分散值，

表示为预设的分散修正因子，a1、a2表示为预设的不同比例系数，PZ表示为匹样中词语的总个数，PL表示为匹样漏中词语的总个数；

5.根据权利要求1所述的一种基于智能语音的话术训练方法，其特征在于，将文本向量数据与数据库进行匹配，得到第二匹配数据，具体的步骤包括：

S63：将匹数中集与匹数漏集组合，得到第二匹配数据。