CN113095073B

CN113095073B - 语料标签生成方法、装置、计算机设备和存储介质

Info

Publication number: CN113095073B
Application number: CN202110270401.9A
Authority: CN
Inventors: 周炬; 邵俊
Original assignee: Shenzhen Suoxinda Data Technology Co ltd
Current assignee: Shenzhen Suoxinda Data Technology Co ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-04-19
Anticipated expiration: 2041-03-12
Also published as: CN113095073A

Abstract

本申请涉及一种语料标签生成方法、装置、计算机设备和存储介质。方法包括：基于当前实体词汇表，对每一个语料样本进行分词处理，获取对应的多个词元素；统计每个词元素出现的次数，得到对应的词语频次；将词语频次处于预设的词语频次区间的词元素标记为实体词汇，更新当前实体词汇表；根据更新后的实体词汇表，对每一个语料样本再次分别进行分词处理，确定每个语料样本对应的语料关键词；对语料关键词进行聚类分析，根据聚类分析结果得到至少一个语料类别；对于每个语料类别，分别计算相应语料类别中的语料关键词的特征值，并将特征值满足条件的语料关键词作为相应语料类别的语料标签。采用本方法能够方便快捷且准确地生成语料标签。

Description

语料标签生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及智能机器人技术领域，特别是涉及一种语料标签生成方法、装置、计算机设备和存储介质。

背景技术

随着AI(Artificial Intelligence，人工智能)技术的发展，聊天机器人技术已经深入应用到各种商业领域。目前，聊天机器人主要被用在很多售后或者营销环节，用来自动回答用户咨询的问题，办理常规任务。它的工作流程主要是根据用户的输入信息，识别用户的真实意图，然后根据意图去执行相应的任务流程。例如,用户a在某银行聊天机器人中问到"如何修改银行卡交易密码？"机器人会先识别问题的真实意图属于"银行卡密码修改",接下来会激活密码修改流程：输入***--->确认身份--->输入原有密码---->输入新密码--->确认提交---->修改成功。

为了提高让聊天机器人识别用户的真实意图的准确度，需要给用户问题打上意图标签。目前的做法更多地是依靠人工去对用户问题进行理解和意图标注，在面对各种用户问题的时候，需要分配较多人力、较多时间去对每一个问题所属的类别进行人工识别，然后对这个问题进行相应的标签标注，存在标签标注效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够方便快捷且准确地生成语料标签的语料标签生成方法、装置、计算机设备和存储介质。

一种语料标签生成方法，其特征在于，所述方法包括：

基于当前实体词汇表，对语料样本集合中的每一个语料样本分别进行分词处理，获取与所述语料样本集合对应的多个词元素；

统计每个词元素在所述语料样本集合中出现的次数，得到每个词元素对应的词语频次；

将词语频次处于预设的词语频次区间的词元素标记为实体词汇，并基于具有实体词汇标记的词元素更新所述当前实体词汇表；

根据更新后的实体词汇表，对所述语料样本集合中的每一个语料样本再次分别进行分词处理，并根据每个语料样本中所包含的词语数量，确定每个语料样本对应的语料关键词；

对与所述语料样本集合相对应的语料关键词进行聚类分析，根据聚类分析结果对多个语料关键词进行分类，得到与所述语料样本集合对应的至少一个语料类别；

对于每个语料类别，分别计算相应语料类别中的语料关键词的特征值，并将特征值满足条件的语料关键词作为相应语料类别的语料标签。

在其中一个实施例中，所述方法还包括：接收新增语料样本，分别计算所述新增语料样本属于所述至少一个语料类别中的每一类的标签概率；

将各标签概率分别与预设的标签概率阈值进行比较，当存在满足预设的标签概率条件的标签概率时，将满足条件的标签概率所属语料类别对应的语料标签，赋予所述新增语料样本；

当不存在满足预设的标签概率条件的标签概率时，将所述新增语料样本存入新增语料样本集合，且当所述新增样本集合达到预设条件时，通过所述新增样本集合对所述语料样本集合进行更新，并基于更新后的语料样本集合重新进行语料标签生成。

在其中一个实施例中，根据每个语料样本中所包含的词语数量，确定每个语料样本对应的语料关键词之前，所述方法还包括：

分别对每个语料样本分词后所获得的各个词语进行词属性标记，基于所述词属性，对每个语料样本中出现的各个词语进行属性统计；

对于每个语料样本，当每个词属性对应的词语数量均小于对应词属性预设的词语数量阈值时，将当前语料样本标记为第一结构语料；

当存在任一个词属性对应的词语数量大于等于对应词属性预设的词语数量阈值时，将当前语料样本标记为第二结构语料。

在其中一个实施例中，根据每个语料样本中所包含的词语数量，确定每个语料样本对应的语料关键词，包括：

在所述当前语料样本属于第一结构语料时，基于当前语料样本中各个词语的词语特征，确定当前语料样本对应的语料关键词；

在所述当前语料样本属于第二结构语料时，则通过训练好的句法分析模型对当前语料样本进行语义编码，基于编码结果确定当前语料样本对应的语料关键词。

在其中一个实施例中，统计每个词元素在所述语料样本集合中出现的次数，得到每个词元素对应的词语频次，包括：

将所述多个词元素划分为多个词元素组，每个词元素组中包含有若干具有相同词长度的词元素；

统计每个词元素在所述语料样本集合中出现的次数，以及每个词元素组中的各个词元素在在所述语料样本集合中出现的总次数；

基于每个词元素的次数和对应所属词元素组的总次数，确定每个词元素的在所述语料样本集合中的词语频次。

在其中一个实施例中，基于当前实体词汇表，对语料样本集合中的每一个语料样本分别进行分词处理，获取与所述语料样本集合对应的多个词元素，包括：

对于每个语料样本，去除当前语料样本中的非中文字符，获取对应的语料字符；

基于当前实体词汇表，对各个语料字符进行分词处理，获取每个语料样本对应的词语组合；

汇总各个词语组合，获得与所述多个语料样本相对应的词语集合，对所述词语集合进行去重处理，得到与所述语料样本集合相对应的多个词元素。

在其中一个实施例中，所述方法还包括：

通过聊天机器人接收聊天对象发来的聊天语料，去除所述聊天语料中的非中文字符，获取对应的聊天字符；所述聊天机器人为客服机器人或社交机器人；

基于当前实体词汇表，对所述聊天字符进行分词处理，获取所述聊天字符对应的聊天词语组合；

通过所述聊天词语组合，确定所述聊天语料对应的聊天关键词；

根据所述聊天关键词所属语料类别，确定所述聊天语料对应的语料标签。

一种语料标签生成装置，其特征在于，所述装置包括：

第一分词模块，用于基于当前实体词汇表，对语料样本集合中的每一个语料样本分别进行分词处理，获取与所述语料样本集合对应的多个词元素；

统计模块，用于统计每个词元素在所述语料样本集合中出现的次数，得到每个词元素对应的词语频次；

标记模块，用于将词语频次处于预设的词语频次区间的词元素标记为实体词汇，并基于具有实体词汇标记的词元素更新所述当前实体词汇表；

第二分词模块，用于根据更新后的实体词汇表，对所述语料样本集合中的每一个语料样本再次分别进行分词处理，并根据每个语料样本中所包含的词语数量，确定每个语料样本对应的语料关键词；

聚类模块，用于对与所述语料样本集合相对应的语料关键词进行聚类分析，根据聚类分析结果对多个语料关键词进行分类，得到与所述语料样本集合对应的至少一个语料类别；

标签生成模块，用于对于每个语料类别，分别计算相应语料类别中的语料关键词的特征值，并将特征值满足条件的语料关键词作为相应语料类别的语料标签。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

上述语料标签生成方法、装置、计算机设备和存储介质，首先基于当前实体词汇表对语料样本集合中的每个语料样本进行分词处理，获得与语料样本集合对应的多个词元素，然后统计每个词元素在语料样本集合中出现的频次，根据每个词元素对应的频次，对当前实体词汇表进行更新；然后基于更新后的实体词汇表语料样本集合再次进行分词处理，并根据分词得到的结果，确定每个语料样本对应的语料关键词；基于语料样本集合相对应的语料关键词进行聚类分析，并根据聚类结果对多个语料关键词进行分类；针对每个分类确定一个语料关键词作为该分类的语料标签。通过上述步骤，可以基于每个语料样本本身的内容，准确、客观地生成对应的语料标签，大大节省了人力和时间。

附图说明

图1为一个实施例中语料标签生成方法的应用环境图；

图2为一个实施例中语料标签生成方法的流程示意图；

图3为一个实施例中语料标签生成步骤的流程示意图；

图4为一个实施例中语料标签生成装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语料标签生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。语料样本存储于数据库中，数据库可以位于服务器104上或者独立于服务器104存在，在接收来自终端102的语料之前，服务器104首先从数据库中获取语料样本集合，并基于当前实体词汇表，对语料样本集合中的每个语料样本分别进行分词，得到多个词元素。然后统计每个词元素在语料样本集合中出现的词语频次，更新当前实体词汇表。然后服务器104会基于更新后的实体词汇表，对语料样本集合中的每个语料样本再次进行分词处理，并根据分词结果确定对应的语料关键词，然后基于语料样本集合相对应的语料关键词进行聚类分析，并根据聚类结果对多个语料关键词进行分类；针对每个分类确定一个语料关键词作为该分类的语料标签。获得语料标签后，当服务器104下一次收到新的语料时，就可以利用这些语料标签对新收到的语料进行标注。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，本申请中对此不作具体的限制。

在对本申请中的语料标签生成方法进行描述之前，首先对本申请的实施例中涉及到的部分名词作如下解释：

语料样本：一个聊天句子即为一个语料样本，例如，“修改银行卡密码”、“我想修改手机号码”、“修改绑定手机号码”等，每个句段即为一个语料样本。

实体词汇表：包含有多个实体词汇，例如对于一个应用于银行业务中的聊天机器人来说，对应的实体词汇表中就包含有多种银行业务词汇，如：银行卡、密码、取款、汇款、身份证、手机号等。

词元素：对语料样本进行分词后获得的多个词语对象，一个词元素就是一个词语，是语料样本的构成部分。

语料关键词：基于分词结果找到的每个语料样本中与该语料真实意图最相符合的关键词。

语料标签：用于对一类语料样本的真实意图进行展示的关键信息。

在一个实施例中，如图2所示，提供了一种语料标签生成方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S202，基于当前实体词汇表，对语料样本集合中的每一个语料样本分别进行分词处理，获取与语料样本集合对应的多个词元素。

具体来说，在开始进行具体的语料标签生成之前，服务器会先获取一个现有的实体词汇表，其中包含有一定数量的实体词汇。基于这个实体词汇表，服务器先对语料样本集合中的各个语料样本分别进行分词处理，然后基于这次分词的结果，可以得到多个词元素。

步骤S204，统计每个词元素在语料样本集合中出现的次数，得到每个词元素对应的词语频次。

具体来说，服务器进一步统计每个词元素在语料样本集合中出现的次数，基于语料样本集合中各个词元素出现的总次数，确定每个词元素在语料样本集合中对应的词语频次。

步骤S206，将词语频次处于预设的词语频次区间的词元素标记为实体词汇，并基于具有实体词汇标记的词元素更新当前实体词汇表。

具体来说，由于词元素众多，其中可能会包含有一些没有实体意义的词汇(例如问候语“你好”，主语“我们”，连接词“以及”等)，在进行具体的语料标签生成之前，需要先将这部分没有实体意义的词汇剔除，从中筛选出具有实体意义的词汇(例如“银行卡”、“密码”、“身份证”、“手机号码”等)。本实施例中，基于实际的语料样本中实体词汇的特征，对符合实体词汇要求的词元素的词语频次进行了区间限定，词语频次处于这个预设的词语频次区间的词元素，即标记为实体词汇，然后基于标记得到的实体词汇，对实体词汇表进行更新。

步骤S208，根据更新后的实体词汇表，对语料样本集合中的每一个语料样本再次分别进行分词处理，并根据每个语料样本中所包含的词语数量，确定每个语料样本对应的语料关键词。

具体来说，实体词汇表更新后，服务器会基于更新后的实体词汇表，对语料样本集合中的各个语料样本再次进行分词，此次分词所得到的结果，相较于第一次分词来说，准确性更高。基于这一次分词后的结果，可以确定每个语料样本中所包含的词语数量，通过这些词语数量，可以进一步确定每个语料样本中对应的语料关键词。

步骤S210，对与语料样本集合相对应的语料关键词进行聚类分析，根据聚类分析结果对多个语料关键词进行分类，得到与语料样本集合对应的至少一个语料类别。

具体来说，由于语料样本各异，每个语料样本对应的语料关键词也不一定完全相同，对于已经获得了对应语料关键词的各个语料样本来说，本实施例中，服务器通过对多个语料关键词进行聚类分析，得到聚类模型，然后根据聚类模型结果对多个语料关键词进行分类，获取一个或者多个语料类别。一个语料类别中包含的语料关键词并不一定完全相同，但是它们符合聚类特征。在具体的聚类过程中，每个语料关键词可以转化成向量形式进行计算，以获得对应的聚类结果。聚类所使用的算法可以是分为划分法(PartitioningMethods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)等，也可以是K-MEANS、K-MEDOIDS、Clara、Clarans等聚类算法中的任意一个或者是不同聚类算法的结合，本实施例中对此不作具体的限定。

步骤S212，对于每个语料类别，分别计算相应语料类别中的语料关键词的特征值，并将特征值满足条件的语料关键词作为相应语料类别的语料标签。

具体来说，由于一个语料类别对应的语料关键词并不一定完全相同，服务器进一步地提取了每个语料关键词的特征值，本实施例中，语料关键词的特征值通过TF-IDF值(term frequency–inverse document frequency)表征，TF是词频Term Frequency，IDF是逆文本频率指数Inverse Document Frequency。进一步地，根据特征值的大小，将满足预设条件的语料关键词作为相应语料类别的标签，可以很好地保证了每个语料类别所对应的语料标签的准确性。

上述语料标签生成方法中，首先基于当前实体词汇表对语料样本集合中的每个语料样本进行分词处理，获得与语料样本集合对应的多个词元素，然后统计每个词元素在语料样本集合中出现的频次，根据每个词元素对应的频次，对当前实体词汇表进行更新；然后基于更新后的实体词汇表语料样本集合再次进行分词处理，并根据分词得到的结果，确定每个语料样本对应的语料关键词；基于语料样本集合相对应的语料关键词进行聚类分析，并根据聚类结果对多个语料关键词进行分类；针对每个分类确定一个语料关键词作为该分类的语料标签。通过上述步骤，可以基于每个语料样本本身的内容，准确、客观地生成对应的语料标签，大大节省了人力和时间。

在一个实施例中，上述方法还包括：接收新增语料样本，分别计算新增语料样本属于至少一个语料类别中的每一类的标签概率；将各标签概率分别与预设的标签概率阈值进行比较，当存在满足预设的标签概率条件的标签概率时，将满足条件的标签概率所属语料类别对应的语料标签，赋予新增语料样本；当不存在满足预设的标签概率条件的标签概率时，将新增语料样本存入新增语料样本集合，且当新增样本集合达到预设条件时，通过新增样本集合对语料样本集合进行更新，并基于更新后的语料样本集合重新进行语料标签生成。

具体来说，当服务器接收到新的语料时，一方面需要基于已经获得的语料标签对新收到的语料进行标注，另一方面也要将新收到的语料作为一个新的语料样本添加到语料样本集合中。服务器对于新收到的语料样本，首先确定这个语料样本属于现有的每个语料类别的概率(标签概率)，然后将这些标签概率与预设的标签阈值进行比较，当存在满足预设的标签概率条件的标签概率时，就可以把新收到的这个语料贴上对应的语料标签，同时将这个语料划分到对应的语料类别中去。当不存在满足预设的标签概率条件的标签概率时，服务器就会将其单独存放在一个新增样本集合中，当新增样本集合中不属于任意一个现有语料分类的语料样本达到一定数量，或者是这个新增样本集合达到其他预设的条件时，服务器就会基于目前所有的语料样本，返回步骤S202，重新进行语料标签的生成。

在上述过程中，本实施例优先选择最大的标签概率与预设的标签阈值进行比较，在其他实施例中，为了去除噪音影响，选择其他标签概率与预设的标签阈值进行比较也是可行的，只要计算得到的各个标签概率中存在满足标签阈值条件的标签概率，即可将满足条件的标签概率所属语料类别对应的语料标签，赋予所述新增语料样本。

在上述实施例中，可以基于新增的语料样本，实时检查当前的语料标签是否完善，并在条件达成时重新生成新的语料标签，以保证语料标签的实时有效性，避免标签因为语料样本的变化而无法准确对新收到的语料进行标注。

在一个实施例中，根据每个语料样本中所包含的词语数量，确定每个语料样本对应的语料关键词之前，方法还包括：分别对每个语料样本分词后所获得的各个词语进行词属性标记，基于词属性，对每个语料样本中出现的各个词语进行属性统计；对于每个语料样本，当每个词属性对应的词语数量均小于对应词属性预设的词语数量阈值时，将当前语料样本标记为第一结构语料；当存在任一个词属性对应的词语数量大于等于对应词属性预设的词语数量阈值时，将当前语料样本标记为第二结构语料。

具体来说，服务器利用更新后的实体词汇表对语料样本集合中的语料样本再次进行分词后，需要进一步基于分词得到的结果对语料样本的结构进行判断。本实施例中，服务器会对每个语料样本分词得到的各个词语进行属性标记，并统计每个属性对应的词语数量。例如，语料分词结果为“修改+密码”，其中“修改”为动词，统计数量为1，“密码”为名词，统计数量为1。为了实现语料结构的准确判断，本实施例中对词属性对应的词语数量进行了阈值预设，当每个词属性对应的词语数量均小于对应词属性预设的词语数量阈值时，就将当前语料样本标记为第一结构语料；当存在任一个词属性对应的词语数量大于等于对应词属性预设的词语数量阈值时，将当前语料样本标记为第二结构语料。

假设词属性预设的词语数量阈值为2，那么“修改+密码+身份证”的语料，对应就属于第二结构语料，而对于一个分词结果为“客服”的语料，其对应就属于第一结构语料。

在上述实施例中，通过对词属性进行标记并统计数量，结合词属性预设的词语数量阈值，可以有效地对语料样本的语料结构做出判断，在针对具体语料结构进行处理时，可以获得更为准确的结果。

在一个实施例中，根据每个语料样本中所包含的词语数量，确定每个语料样本对应的语料关键词，包括：在当前语料样本属于第一结构语料时，基于当前语料样本中各个词语的词语特征，确定当前语料样本对应的语料关键词；在当前语料样本属于第二结构语料时，则通过训练好的句法分析模型对当前语料样本进行语义编码，基于编码结果确定当前语料样本对应的语料关键词。

具体来说，对于第一结构语料，基于其语料结构特征，服务器可以通过当前语料样本中各个词语的词语特征(例如，词位置特征、词性特征、词频特征)，确定当前语料样本对应的语料关键词。例如，对于分词结果为“客服”的第一结构语料，可以直接将“客服”作为对应的语料关键词，对于分词结果为“修改+密码”的第一结构语料，可以将密码作为对应的语料关键词。对于属于第二结构语料的语料样本，其结构发生变化，无法直接采用第一结构语料的处理方式来得到对应的语料关键词，因此，服务器选择通过训练好的句法分析模型对其进行处理，得到对应的语料关键词。例如，对于一个具体的语料，如“为什么我的银行卡突然消磁无法使用，是你们银行注销了吗？”，分词结果为“银行卡+消磁+注销”，此时无法直接判断出该语料对应的具体含义，无法直接确定对应的关键词，就需要通过句法分析模型来确定其实际要表达的意思是银行卡消磁的问题，从而确定对应的语料关键词。

在上述实施例中，通过对语料结构进行判断，可以有效提高每个语料样本对应的语料关键词的识别效率和准确率，进一步提高了服务器的语料标注效率。

在一个实施例中，统计每个词元素在语料样本集合中出现的次数，得到每个词元素对应的词语频次，包括：将多个词元素划分为多个词元素组，每个词元素组中包含有若干具有相同词长度的词元素；统计每个词元素在语料样本集合中出现的次数，以及每个词元素组中的各个词元素在在语料样本集合中出现的总次数；基于每个词元素的次数和对应所属词元素组的总次数，确定每个词元素的在语料样本集合中的词语频次。

具体来说，为了提高实体词汇表的准确性，本实施例中，服务器进一步按照词长度对各个词元素进行了分类，具有相同词长度的词元素属于同一个分类，例如词长度为2的分类中，包含的词元素可能是两个字(或者两个字节)组成的词元素；词长度为3的分类中，包含的词元素可能是三个字(或者三个字节)组成的词元素；其他分类以此类推。在具体计算每个词元素对应的词语频次时，按照“当前词元素出现的次数/该长度的词元素出现的总次数”的计算方式计算得到。这样就可以有效保证每个词长度分类里面的词元素的频次数量，不会被其他词长度的词元素的频次数量稀释。否则的话，一方面单个词元素的词频会下降，使得判断的难度增大，另一方面，当其他词长度的词语数量太多时，少数实体词汇会因为频次过低而被排出在外。

在上述实施例中，通过对每个词长度的词元素分别进行频次计算，可以有效确定每个词元素的真实权重，提高了实体词汇的标注质量，提高了实体词汇表质量，以生成更为准确的语料标签。

在一个实施例中，基于当前实体词汇表，对语料样本集合中的每一个语料样本分别进行分词处理，获取与语料样本集合对应的多个词元素，包括：对于每个语料样本，去除当前语料样本中的非中文字符，获取对应的语料字符；基于当前实体词汇表，对各个语料字符进行分词处理，获取每个语料样本对应的词语组合；汇总各个词语组合，获得与多个语料样本相对应的词语集合，对词语集合进行去重处理，得到与语料样本集合相对应的多个词元素。

具体来说，对于一个具体的语料样本来说，其中可能会包含非中文字符，例如标点符号、数字、不具有实质意义的英文字母等，在对其进行具体的分词处理之前，需要先将这些非中文字符去除，然后根据当前实体词汇表，对其进行分词处理。获得每个语料样本对应的分词结果后，将语料样本集合中每个语料样本分词得到的结果汇总并去重，得到与语料样本集合相对应的多个词元素，即每个语料样本的分词结果，都是上述多个词元素中的一个或者多个组成。

在上述实施例中，对语料样本进行去除非中文字符处理，可以有效减少语料样本分词结果中的无关词语数量，提高了实体词汇所占的比重，进而提高了实体词汇标注的准确性。

在一个实施例中，上述方法还包括：通过聊天机器人接收聊天对象发来的聊天语料，去除聊天语料中的非中文字符，获取对应的聊天字符；聊天机器人为客服机器人或社交机器人；基于当前实体词汇表，对聊天字符进行分词处理，获取聊天字符对应的聊天词语组合；通过聊天词语组合，确定聊天语料对应的聊天关键词；根据聊天关键词所属语料类别，确定聊天语料对应的语料标签。

具体来说，服务器通过聊天机器人接收聊天对象发来的聊天语料，取出其中的非中文字符后，再基于当前的实体词汇表对其进行分词，基于分词得到的结果，确定聊天语料的聊天关键词，然后根据这个聊天关键词所属的语料类别，即可确定聊天语料对应的语料标签。根据这个语料标签，就可以针对当前的聊天语料进行回答，实现聊天机器人与聊天对象的实时互动。

在上述实施例中，根据语料标签，无须人工对聊天语料进行标注，即可自动对聊天语料的意图进行理解，并针对当前的聊天语料进行回答，实现聊天机器人与聊天对象的实时互动。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

如图3所示，是一个具体实施例中的语料标签生成流程图。其步骤流程如下：

步骤1：获取语料样本集合并分词。

对用户历史问题(语料样本)集进行预处理，即原始的语料样本集合进行预处理。本实施例中，首先针对历史数据集每个问题去除其中的非中文字符，然后在基于当前的实体词汇表进行分词。

步骤2：更新停用词表、实体词汇表。

具体来说，首先针对步骤1预处理后的语料(即分词结果)，将语料样本集合中出现的所有的词，按照词长度进行分类。例如词长度为2的词语为一类，词长度为3的词语为一类，词长度大于4的词语为一类。

然后统计各类别长度下的词语频数，根据各词长度类别的词频结果更新停用词表、词汇表，一个具体的更新规则如下：

词长度为2的词语频数，属于预设的词语频次区间T_freq2，加入实体词表，否则加入停用词汇表。

词长度为3的词语频数，属于预设的词语频次区间T_freq3，加入实体词表，否则加入停用词汇表。

词长度为4以上的词语频数，属于预设的词语频次区间T_freq4，加入实体词表，否则加入停用词汇表。

步骤3：重新分词。

利用步骤2更新后的停用词表、词汇表对用户问题进行重新分词。

步骤4：用户问题结构判断。

根据步骤3中用户问题分词后的短语数量，本实施例中将用户问题分为2类：一类是简单结构问题A类，主要特点是问题描述简短，名词短语少，语义清晰；第二类复杂结构问题B类，主要特点是问题描述长，名词短语多，语言模糊。

本实施例的判断规则，首先通过句法分析模型标记出用户问题的中的名词短语、动词短语；然后统计名词短语、动词短语的数量；名词短语数量或者动词短语数量>阈值T_struct1，则为复杂结构问题B类，否则为简单结构问题A类。

步骤5：关键词提取。

本实施例中，针对简单短结构问题A类，基于统计特征提取关键词。即确定每个词语对应的词位置特征、词性特征、词频等特征，根据这些特征确定对应的关键词。针对长结构问题B类，需要考虑问题内部的语义信息，训练好的句法分析模型(例如采用时间序列深度模型)进行关键词提取，本实施例中对此不作赘述。

步骤6：聚类。

在聚类的过程中，本实施例首先将步骤5抽取的关键词进行词向量化，然后利用划分聚类模型对多个语料关键词进行聚类，从而实现将所有的用户问题聚类成N类，每一类即为一个语料类别。

步骤7：语料标签库生成。

对于步骤6的结果，进一步统计最终N类关键词中每一类的IF-IDF值,将IF-IDF值最高的词作为对应类别问题的标签。其中，TF是词频Term Frequency，IDF是逆文本频率指数Inverse Document Frequency。本实施例中对此不作赘述。

步骤8：标签库新增、更新。

当有新的用户问题Q输入时，调用步骤6的聚类模型，计算问题Q属于N类中的每一类的概率，判断最高的概率是否小于阈值T_clu，如果不是，则说明Q属于该最高概率所对应的类别，将该问题Q的标签标记为最大概率的类别标签(语料标签)。否则说明Q不属于该最高概率所对应的类别，将问题Q放到样本集Set(新增语料样本集合)中，当样本集Set数量大于N类整体样本集的T_ratio值时，触发标签库进入步骤1重新训练生成新的标签库。

上述语料标签生成方法，首先基于当前实体词汇表对语料样本集合中的每个语料样本进行分词处理，获得与语料样本集合对应的多个词元素，然后统计每个词元素在语料样本集合中出现的频次，根据每个词元素对应的频次，对当前实体词汇表进行更新；然后基于更新后的实体词汇表语料样本集合再次进行分词处理，并根据分词得到的结果，确定每个语料样本对应的语料关键词；基于语料样本集合相对应的语料关键词进行聚类分析，并根据聚类结果对多个语料关键词进行分类；针对每个分类确定一个语料关键词作为该分类的语料标签。通过上述步骤，可以基于每个语料样本本身的内容，准确、客观地生成对应的语料标签，大大节省了人力和时间。

在一个实施例中，如图4所示，提供了一种语料标签生成装置400，包括：第一分词模块402，统计模块404，标记模块406，第二分词模块408，聚类模块410，标签生成模块412，其中：

第一分词模块402，用于基于当前实体词汇表，对语料样本集合中的每一个语料样本分别进行分词处理，获取与语料样本集合对应的多个词元素。

统计模块404，用于统计每个词元素在语料样本集合中出现的次数，得到每个词元素对应的词语频次。

标记模块406，用于将词语频次处于预设的词语频次区间的词元素标记为实体词汇，并基于具有实体词汇标记的词元素更新当前实体词汇表。

第二分词模块408，用于根据更新后的实体词汇表，对语料样本集合中的每一个语料样本再次分别进行分词处理，并根据每个语料样本中所包含的词语数量，确定每个语料样本对应的语料关键词。

聚类模块410，用于对与语料样本集合相对应的语料关键词进行聚类分析，根据聚类分析结果对多个语料关键词进行分类，得到与语料样本集合对应的至少一个语料类别。

标签生成模块412，用于对于每个语料类别，分别计算相应语料类别中的语料关键词的特征值，并将特征值满足条件的语料关键词作为相应语料类别的语料标签。

上述语料标签生成装置，首先基于当前实体词汇表对语料样本集合中的每个语料样本进行分词处理，获得与语料样本集合对应的多个词元素，然后统计每个词元素在语料样本集合中出现的频次，根据每个词元素对应的频次，对当前实体词汇表进行更新；然后基于更新后的实体词汇表语料样本集合再次进行分词处理，并根据分词得到的结果，确定每个语料样本对应的语料关键词；基于语料样本集合相对应的语料关键词进行聚类分析，并根据聚类结果对多个语料关键词进行分类；针对每个分类确定一个语料关键词作为该分类的语料标签。通过上述步骤，可以基于每个语料样本本身的内容，准确、客观地生成对应的语料标签，大大节省了人力和时间。

在一个实施例中，上述装置还用于：接收新增语料样本，分别计算新增语料样本属于至少一个语料类别中的每一类的标签概率；将各标签概率分别与预设的标签概率阈值进行比较，当存在满足预设的标签概率条件的标签概率时，将满足条件的标签概率所属语料类别对应的语料标签，赋予新增语料样本；当不存在满足预设的标签概率条件的标签概率时，将新增语料样本存入新增语料样本集合，且当新增样本集合达到预设条件时，通过新增样本集合对语料样本集合进行更新，并基于更新后的语料样本集合重新进行语料标签生成。

在一个实施例中，第二分词模块，还用于：分别对每个语料样本分词后所获得的各个词语进行词属性标记，基于词属性，对每个语料样本中出现的各个词语进行属性统计；对于每个语料样本，当每个词属性对应的词语数量均小于对应词属性预设的词语数量阈值时，将当前语料样本标记为第一结构语料；当存在任一个词属性对应的词语数量大于等于对应词属性预设的词语数量阈值时，将当前语料样本标记为第二结构语料。

在一个实施例中，第二分词模块，还用于：在当前语料样本属于第一结构语料时，基于当前语料样本中各个词语的词语特征，确定当前语料样本对应的语料关键词；在当前语料样本属于第二结构语料时，则通过训练好的句法分析模型对当前语料样本进行语义编码，基于编码结果确定当前语料样本对应的语料关键词。

在一个实施例中，统计模块，还用于：将多个词元素划分为多个词元素组，每个词元素组中包含有若干具有相同词长度的词元素；统计每个词元素在语料样本集合中出现的次数，以及每个词元素组中的各个词元素在在语料样本集合中出现的总次数；基于每个词元素的次数和对应所属词元素组的总次数，确定每个词元素的在语料样本集合中的词语频次。

在一个实施例中，第一分词模块，还用于：对于每个语料样本，去除当前语料样本中的非中文字符，获取对应的语料字符；基于当前实体词汇表，对各个语料字符进行分词处理，获取每个语料样本对应的词语组合；汇总各个词语组合，获得与多个语料样本相对应的词语集合，对词语集合进行去重处理，得到与语料样本集合相对应的多个词元素。

在一个实施例中，上述装置，还用于：通过聊天机器人接收聊天对象发来的聊天语料，去除聊天语料中的非中文字符，获取对应的聊天字符；聊天机器人为客服机器人或社交机器人；基于当前实体词汇表，对聊天字符进行分词处理，获取聊天字符对应的聊天词语组合；通过聊天词语组合，确定聊天语料对应的聊天关键词；根据聊天关键词所属语料类别，确定聊天语料对应的语料标签。

关于语料标签生成装置的具体限定可以参见上文中对于语料标签生成方法的限定，在此不再赘述。上述语料标签生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储语料标签生成语料标签数据，也可以用于存储语料样本集合。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语料标签生成方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语料标签生成方法，其特征在于，所述方法包括：

根据更新后的实体词汇表，对所述语料样本集合中的每一个语料样本再次分别进行分词处理，并分别对每个语料样本再次分词后所获得的各个词语进行词属性标记并统计数量，基于各词属性对应的词语数量和词属性预设的词语数量阈值，确定语料样本的语料结构，根据语料样本的语料结构确定每个语料样本对应的语料关键词；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收新增语料样本，分别计算所述新增语料样本属于所述至少一个语料类别中的每一类的标签概率；

3.根据权利要求1所述的方法，其特征在于，所述分别对每个语料样本再次分词后所获得的各个词语进行词属性标记并统计数量，基于各词属性对应的词语数量和词属性预设的词语数量阈值，确定语料样本的语料结构，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据语料样本的语料结构确定每个语料样本对应的语料关键词，包括：

5.根据权利要求1所述的方法，其特征在于，所述统计每个词元素在所述语料样本集合中出现的次数，得到每个词元素对应的词语频次，包括：

统计每个词元素在所述语料样本集合中出现的次数，以及每个词元素组中的各个词元素在所述语料样本集合中出现的总次数；

6.根据权利要求1所述的方法，其特征在于，所述基于当前实体词汇表，对语料样本集合中的每一个语料样本分别进行分词处理，获取与所述语料样本集合对应的多个词元素，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

8.一种语料标签生成装置，其特征在于，所述装置包括：

第二分词模块，用于根据更新后的实体词汇表，对所述语料样本集合中的每一个语料样本再次分别进行分词处理，并分别对每个语料样本再次分词后所获得的各个词语进行词属性标记并统计数量，基于各词属性对应的词语数量和词属性预设的词语数量阈值，确定语料样本的语料结构，根据语料样本的语料结构确定每个语料样本对应的语料关键词；

9.根据权利要求8所述的装置，其特征在于，所述装置还用于：接收新增语料样本，分别计算新增语料样本属于至少一个语料类别中的每一类的标签概率；将各标签概率分别与预设的标签概率阈值进行比较，当存在满足预设的标签概率条件的标签概率时，将满足条件的标签概率所属语料类别对应的语料标签，赋予新增语料样本；当不存在满足预设的标签概率条件的标签概率时，将新增语料样本存入新增语料样本集合，且当新增样本集合达到预设条件时，通过新增样本集合对语料样本集合进行更新，并基于更新后的语料样本集合重新进行语料标签生成。

10.根据权利要求8所述的装置，其特征在于，所述第二分词模块还用于：分别对每个语料样本分词后所获得的各个词语进行词属性标记，基于词属性，对每个语料样本中出现的各个词语进行属性统计；对于每个语料样本，当每个词属性对应的词语数量均小于对应词属性预设的词语数量阈值时，将当前语料样本标记为第一结构语料；当存在任一个词属性对应的词语数量大于等于对应词属性预设的词语数量阈值时，将当前语料样本标记为第二结构语料。

11.根据权利要求8所述的装置，其特征在于，所述第二分词模块还用于：在当前语料样本属于第一结构语料时，基于当前语料样本中各个词语的词语特征，确定当前语料样本对应的语料关键词；在当前语料样本属于第二结构语料时，则通过训练好的句法分析模型对当前语料样本进行语义编码，基于编码结果确定当前语料样本对应的语料关键词。

12.根据权利要求8所述的装置，其特征在于，所述统计模块还用于：将多个词元素划分为多个词元素组，每个词元素组中包含有若干具有相同词长度的词元素；统计每个词元素在语料样本集合中出现的次数，以及每个词元素组中的各个词元素在语料样本集合中出现的总次数；基于每个词元素的次数和对应所属词元素组的总次数，确定每个词元素的在语料样本集合中的词语频次。

13.根据权利要求8所述的装置，其特征在于，所述第一分词模块还用于：对于每个语料样本，去除当前语料样本中的非中文字符，获取对应的语料字符；基于当前实体词汇表，对各个语料字符进行分词处理，获取每个语料样本对应的词语组合；汇总各个词语组合，获得与多个语料样本相对应的词语集合，对词语集合进行去重处理，得到与语料样本集合相对应的多个词元素。

14.根据权利要求8所述的装置，其特征在于，所述装置还用于：通过聊天机器人接收聊天对象发来的聊天语料，去除聊天语料中的非中文字符，获取对应的聊天字符；聊天机器人为客服机器人或社交机器人；基于当前实体词汇表，对聊天字符进行分词处理，获取聊天字符对应的聊天词语组合；通过聊天词语组合，确定聊天语料对应的聊天关键词；根据聊天关键词所属语料类别，确定聊天语料对应的语料标签。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。