CN111611353B

CN111611353B - 筛选方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111611353B
Application number: CN201910139175.3A
Authority: CN
Inventors: 冯浩; 吴康康; 徐江; 王鹏; 李奘
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2023-08-18
Anticipated expiration: 2039-02-25
Also published as: CN111611353A

Abstract

本申请提供了一种筛选方法、装置、电子设备及计算机可读存储介质，其中，该方法包括：获取在线服务过程中的工单数据，并对工单数据进行分词处理；对工单数据中的每个备选关键词进行目标处理，得到至少一个新工单数据；利用目标分类模型对工单数据和至少一个新工单数据进行分类处理，得到分类处理结果；分类处理结果用于表征工单数据和新工单数据是否为安全类工单；基于分类处理结果在备选关键词中确定目标关键词；目标关键词用于表征工单数据不是安全类工单。本申请实施例能够通过机器学习的方式对工单数据进行筛选，以确定工单数据是否为安全类工单，从而缓解在通过现有技术筛选紧急安全类工单时，筛选效率较低，且准确性差的技术问题。

Description

筛选方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及数据处理的技术领域，具体而言，涉及一种筛选方法、装置、电子设备及计算机可读存储介质。

背景技术

在网约车平台的客户服务***中存在一种在线服务方式，在线服务方式主要以文本信息的方式在线解决用户的问题，例如，用户可以通过在线服务的方式反映各类服务问题，客服人员针对用户反映的问题在线进行解答和处理。

为了保证网约车的服务质量，网约车平台通常基于用户向客服反馈的安全类问题，从大量的工单中筛查出异常工单。而当前网约车平台异常工单的筛查方式主要是人工方式。随着服务工单数量的持续增长，这种人工筛查方式的效率和准确性均较低，无法满足实际需求。

发明内容

有鉴于此，本申请实施例的目的在于提供一种筛选方法、装置、电子设备及计算机可读存储介质，能够通过机器学习的方式对工单数据进行筛选，以确定待处理的工单数据是否为安全类工单，从而缓解在通过现有技术筛选紧急安全类工单时，筛选效率较低，且准确性差的技术问题。

根据本申请的一个方面，提供一种电子设备，可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，以执行一个或多个以下操作：

获取在线服务过程中的工单数据，并对所述工单数据进行分词处理；每个所述工单数据包括会话服务提供方与目标对象之间的会话数据，所述目标对象包括订单服务提供方和/或订单服务请求方；对所述工单数据中的每个备选关键词进行目标处理，得到至少一个新工单数据；所述目标处理为删除或将备选关键词替换为无用词汇，所述备选关键词为对工单数据进行分词处理之后得到的词汇；利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理，得到分类处理结果；所述分类处理结果用于表征所述工单数据和所述新工单数据是否为安全类工单；基于所述分类处理结果在所述备选关键词中确定目标关键词；所述目标关键词用于表征所述工单数据不是安全类工单。

在本申请较佳的实施例中，利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理包括：若所述备选关键词的数量超过预设数量，则对所述至少一个新工单数据进行处理，得到至少一个待批处理数据，其中，每个待批处理数据中包含多个新工单数据和一个所述工单数据；利用目标分类模型对每个所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

在本申请较佳的实施例中，对所述至少一个新工单数据进行处理，得到至少一个待批处理数据包括：获取候选关键词集；其中，所述候选关键词集中包含多个用于表征工单数据不是安全类工单的关键词，且所述候选关键词集中每个关键词包含权重值，所述权重值用于表征关键词的重要程度；基于所述候选关键词集对所述至少一个新工单数据进行处理，得到所述至少一个待批处理数据。

在本申请较佳的实施例中，基于所述候选关键词集对所述至少一个新工单数据进行处理，得到至少一个待批处理数据包括：在所述备选关键词中确定第一目标备选关键词，其中，所述第一目标备选关键词为包含在所述候选关键词集中的关键词；按照所述第一目标备选关键词的权重值对所述第一目标备选关键词进行排序，得到第一排序结果；基于所述第一排序结果和第二排序结果确定目标排序结果，其中，所述第一排序结果位于所述第二排序结果之前，且所述第二排序结果为对第二目标备选关键词进行排序之后得到的结果，所述第二目标备选关键词为所述备选关键词中除所述第一目标备选关键词之外的其他关键词；按照所述目标排序结果中的排序顺序，对所述目标排序结果中每个关键词所对应的新工单数据进行分类处理，得到所述至少一个待批处理数据。

在本申请较佳的实施例中，通过以下方式确定所述候选关键词集，具体包括：获取历史工单数据，其中，所述历史工单数据为会话服务提供方根据与目标对象之间的会话数据，所述目标对象包括订单服务提供方和服务请求方；基于所述历史工单数据确定候选关键词集。

在本申请较佳的实施例中，基于所述历史工单数据确定候选关键词集包括：对每个所述历史工单数据进行分词处理，得到分词结果，其中，所述分词结果中包含多个分词；在所述分词结果中确定目标分词，其中，所述目标分词为各个所述历史工单数据的分词结果中出现频率高于预设阈值的分词；将所述目标分词转换成one-hot形式的目标数据，其中，所述目标数据中包括多个向量组，每个向量组中的向量值表征所述目标分词是否在各个历史工单数据中出现；利用所述目标数据确定所述候选关键词集。

在本申请较佳的实施例中，利用所述目标数据确定所述候选关键词集包括：基于所述目标数据确定训练样本和测试样本；利用所述训练样本对初始分类预测模型进行训练，得到目标分类预测模型；利用所述目标分类预测模型对所述测试样本进行处理，得到各个目标分词的权重值；基于所述各个目标分词的权重值确定所述候选关键词集。

在本申请较佳的实施例中，对每个所述历史工单数据进行分词处理，得到分词结果包括：确定预设分词模板；通过分词器按照所述预设分词模板对每个所述历史工单数据进行分词处理，得到分词结果。

在本申请较佳的实施例中，所述方法还包括：根据每个所述历史工单数据的分词结果和每个所述历史工单数据的标签信息构建训练样本，其中，所述标签信息用于表征历史工单数据是否为安全类工单；利用所述训练样本训练所述目标分类模型的初始模型，得到所述目标分类模型。

在本申请较佳的实施例中，利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理还包括：若所述备选关键词的数量未超过所述预设数量，则将所述至少一个新工单数据和所述工单数据作为一个待批处理数据；利用目标分类模型对所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

在本申请较佳的实施例中，对所述工单数据中的每个备选关键词进行目标处理包括：将所述工单数据中的备选关键词Ai替换为预设数据，得到与所述备选关键词Ai相对应的新工单数据，其中，i依次取1至I，I所述备选关键词的数量，所述预设数据为无用词汇。

在本申请较佳的实施例中，对所述工单数据中的每个备选关键词进行目标处理包括：将所述工单数据中的备选关键词Ai删除，得到与所述备选关键词Ai相对应的新工单数据，其中，i依次取1至I，I所述备选关键词的数量。

在本申请较佳的实施例中，所述分类处理结果包括多个子处理结果，所述多个子处理结果包括第一子处理结果和第二子处理结果，其中，工单数据的分类处理结果为所述第一子处理结果，每个新工单数据对应一个第二子处理结果。

在本申请较佳的实施例中，基于所述分类处理结果在所述备选关键词中确定目标关键词包括：计算每个所述第二子处理结果与所述第一子处理结果之间的变化值，得到多个变化值；基于所述多个变化值确定所述目标关键词。

在本申请较佳的实施例中，基于所述多个变化值确定所述目标关键词包括：在所述多个变化值中确定第一目标变化值，其中，所述第一目标变化值为所述多个变化值中前N个最大的变化值，N为大于零的正整数；确定所述第一目标变化值所对应的新工单数据；根据所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定所述目标关键词。

在本申请较佳的实施例中，根据所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定所述目标关键词包括：若所述第三目标备选关键词中包含M个未记录在候选关键词集中的关键词，且第四目标备选关键词中包含记录在候选关键词集中的关键词，则在第四目标备选关键词中确定前M个权重值最大的关键词；所述候选关键词集中包含多个用于表征工单数据是否为安全类工单的关键词，且所述候选关键词集中每个关键词包含权重值，所述权重值用于表征关键词的重要程度，所述第四目标备选关键词为所述多个变化值中除所述第三目标备选关键词之外的关键词；将确定出的前M个权重值最大的关键词和所述第三目标备选关键词中包含在所述候选关键词集中的关键词确定为所述目标关键词。

在本申请较佳的实施例中，将所述对应的新工单数据中替换或者删除之后的备选关键词作为所述目标关键词还包括：若所述第三目标备选关键词中包含M个未记录在候选关键词集中的关键词，且第四目标备选关键词中不包含记录在候选关键词集中的关键词，则将所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定为所述目标关键词。

根据本申请的另一个方面，还提供了一种筛选装置，包括：获取单元，用于获取在线服务过程中的工单数据，并对所述工单数据进行分词处理；每个所述工单数据包括会话服务提供方与目标对象之间的会话数据，所述目标对象包括订单服务提供方和/或订单服务请求方；关键词处理单元，用于对所述工单数据中的每个备选关键词进行目标处理，得到至少一个新工单数据；所述目标处理为删除或将备选关键词替换为无用词汇，所述备选关键词为对工单数据进行分词处理之后得到的词汇；分类单元，用于利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理，得到分类处理结果；所述分类处理结果用于表征所述工单数据和所述新工单数据是否为安全类工单；确定单元，用于基于所述分类处理结果在所述备选关键词中确定目标关键词；所述目标关键词用于表征所述工单数据不是安全类工单。

在本申请较佳的实施例中，所述分类单元包括：处理模块，用于若所述备选关键词的数量超过预设数量，则对所述至少一个新工单数据进行处理，得到至少一个待批处理数据，其中，每个待批处理数据中包含多个新工单数据和一个所述工单数据；第一分类模块，用于利用目标分类模型对每个所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

在本申请较佳的实施例中，所述处理模块用于：获取候选关键词集；其中，所述候选关键词集中包含多个用于表征工单数据不是安全类工单的关键词，且所述候选关键词集中每个关键词包含权重值，所述权重值用于表征关键词的重要程度；基于所述候选关键词集对所述至少一个新工单数据进行处理，得到所述至少一个待批处理数据。

在本申请较佳的实施例中，所述处理模块还用于：在所述备选关键词中确定第一目标备选关键词，其中，所述第一目标备选关键词为包含在所述候选关键词集中的关键词；按照所述第一目标备选关键词的权重值对所述第一目标备选关键词进行排序，得到第一排序结果；基于所述第一排序结果和第二排序结果确定目标排序结果，其中，所述第一排序结果位于所述第二排序结果之前，且所述第二排序结果为对第二目标备选关键词进行排序之后得到的结果，所述第二目标备选关键词为所述备选关键词中除所述第一目标备选关键词之外的其他关键词；按照所述目标排序结果中的排序顺序，对所述目标排序结果中每个关键词所对应的新工单数据进行分类处理，得到所述至少一个待批处理数据。

在本申请较佳的实施例中，所述装置还通过以下方式确定所述候选关键词集，具体包括：获取历史工单数据，其中，所述历史工单数据为会话服务提供方根据与目标对象之间的会话数据，所述目标对象包括订单服务提供方和服务请求方；基于所述历史工单数据确定候选关键词集。

在本申请较佳的实施例中，所述装置还用于：对每个所述历史工单数据进行分词处理，得到分词结果，其中，所述分词结果中包含多个分词；在所述分词结果中确定目标分词，其中，所述目标分词为各个所述历史工单数据的分词结果中出现频率高于预设阈值的分词；将所述目标分词转换成one-hot形式的目标数据，其中，所述目标数据中包括多个向量组，每个向量组中的向量值表征所述目标分词是否在各个历史工单数据中出现；利用所述目标数据确定所述候选关键词集。

在本申请较佳的实施例中，所述装置还用于：基于所述目标数据确定训练样本和测试样本；利用所述训练样本对初始分类预测模型进行训练，得到目标分类预测模型；利用所述目标分类预测模型对所述测试样本进行处理，得到各个目标分词的权重值；基于所述各个目标分词的权重值确定所述候选关键词集。

在本申请较佳的实施例中，所述装置还用于：确定预设分词模板；通过分词器按照所述预设分词模板对每个所述历史工单数据进行分词处理，得到分词结果。

在本申请较佳的实施例中，所述装置还用于：根据每个所述历史工单数据的分词结果和每个所述历史工单数据的标签信息构建训练样本，其中，所述标签信息用于表征历史工单数据是否为安全类工单；利用所述训练样本训练所述目标分类模型的初始模型，得到所述目标分类模型。

在本申请较佳的实施例中，所述分类单元还包括：第一确定模块，用于若所述备选关键词的数量未超过所述预设数量，则将所述至少一个新工单数据和所述工单数据作为一个待批处理数据；第二分类模块，用于利用目标分类模型对所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

在本申请较佳的实施例中，所述关键词处理单元用于：将所述工单数据中的备选关键词Ai替换为预设数据，得到与所述备选关键词Ai相对应的新工单数据，其中，i依次取1至I，I所述备选关键词的数量，所述预设数据为无用词汇。

在本申请较佳的实施例中，所述关键词处理单元还用于：将所述工单数据中的备选关键词Ai删除，得到与所述备选关键词Ai相对应的新工单数据，其中，i依次取1至I，I所述备选关键词的数量。

在本申请较佳的实施例中，所述确定单元包括：计算模块，用于计算每个所述第二子处理结果与所述第一子处理结果之间的变化值，得到多个变化值；第二确定模块，用于基于所述多个变化值确定所述目标关键词。

在本申请较佳的实施例中，所述确定模块用于：在所述多个变化值中确定第一目标变化值，其中，所述第一目标变化值为所述多个变化值中前N个最大的变化值，N为大于零的正整数；确定所述第一目标变化值所对应的新工单数据；根据所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定所述目标关键词。

在本申请较佳的实施例中，所述确定模块还用于：若所述第三目标备选关键词中包含M个未记录在候选关键词集中的关键词，且第四目标备选关键词中包含记录在候选关键词集中的关键词，则在第四目标备选关键词中确定前M个权重值最大的关键词；所述候选关键词集中包含多个用于表征工单数据是否为安全类工单的关键词，且所述候选关键词集中每个关键词包含权重值，所述权重值用于表征关键词的重要程度，所述第四目标备选关键词为所述多个变化值中除所述第三目标备选关键词之外的关键词；将确定出的前M个权重值最大的关键词和所述第三目标备选关键词中包含在所述候选关键词集中的关键词确定为所述目标关键词。

在本申请较佳的实施例中，所述确定模块还用于：若所述第三目标备选关键词中包含M个未记录在候选关键词集中的关键词，且第四目标备选关键词中不包含记录在候选关键词集中的关键词，则将所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定为所述目标关键词。

根据本申请的另一个方面，还提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行杉树所述的筛选方法的步骤。

根据本申请的另一个方面，还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述所述的筛选方法的步骤。

本申请首先获取在线服务过程中的工单数据，并对工单数据进行分词处理，然后，依次对工单数据中的每个备选关键词进行替换或删除处理，得到至少一个新工单数据；之后，利用目标分类模型对工单数据和至少一个新工单数据进行分类处理，得到分类处理结果；最后，基于分类处理结果在备选关键词中确定目标关键词。通过上述描述可知，本申请能够通过机器学习的方式对工单数据进行筛选，以确定工单数据是否为安全类工单，从而缓解在通过现有技术筛选紧急安全类工单时，筛选效率较低，且准确性差的技术问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种电子设备的结构示意图；

图2示出了本申请实施例所提供的一种筛选方法的流程图；

图3示出了本申请实施例所提供的第一种可选地筛选方法的流程图；

图4示出了本申请实施例所提供的第二种可选地筛选方法的流程图；

图5示出了本申请实施例所提供的第三种可选地筛选方法的流程图；

图6示出了本申请实施例所提供的第四种可选地筛选方法的流程图；

图7示出了本申请实施例所提供的第五种可选地筛选方法的流程图；

图8示出了本申请实施例所提供的另一种筛选方法流程示意图；

图9示出了本申请实施例所提供的一种筛选装置的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请中的术语“服务”和“订单”可互换使用，以指代由乘客、服务请求方、司机、服务提供方、或供应商等、或其任意组合发起的服务请求。接受该“服务”或“订单”的可以是乘客、服务请求方、司机、服务提供方、或供应商等、或其任意组合。服务可以是收费的或免费的。

实施例1：

图1示出根据本申请的一些实施例的可以实现本申请提供的筛选方法的电子设备100的示例性硬件和软件组件的示意图。

电子设备100可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的筛选方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140。

所述处理器102可以是中央处理单元(CPU，Central Processing Unit)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储介质104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口150。

上述存储介质140存储有处理器120可执行的机器可读指令，当电子设备运行时，处理器120与存储介质140之间通过总线通信，处理器执行机器可读指令，以执行时执行下述筛选方法的步骤。另外，存储介质也可以称为计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行下述筛选方法的步骤。

具体地，当电子设备运行时，处理器120与存储介质140之间通过总线通信，处理器120执行机器可读指令。

处理器120中的获取单元用来获取在线服务过程中的工单数据，并对所述工单数据进行分词处理；每个所述工单数据包括会话服务提供方与目标对象之间的会话数据，所述目标对象包括订单服务提供方和/或订单服务请求方。

之后，处理器120中的关键词处理单元对所述工单数据中的每个备选关键词进行目标处理，得到至少一个新工单数据；所述目标处理为删除或将备选关键词替换为无用词汇，所述备选关键词为对工单数据进行分词处理之后得到的词汇。

接下来，处理器120中的分类单元利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理，得到分类处理结果；所述分类处理结果用于表征所述工单数据和所述新工单数据是否为安全类工单。

最后，处理器120中的确定单元基于所述分类处理结果在所述备选关键词中确定目标关键词；所述目标关键词用于表征所述工单数据不是安全类工单。

为了便于说明，在电子设备100中仅描述了一个处理器。然而，应当注意，本申请中的电子设备100还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备100的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

实施例2：

参见图2所示的一种筛选方法的流程图。

图2所示的筛选方法以应用在服务器端为例进行说明，该方法包括如下步骤：

步骤S202，获取在线服务过程中的工单数据，并对所述工单数据进行分词处理；每个所述工单数据包括会话服务提供方与目标对象之间的会话数据，所述目标对象包括订单服务提供方和/或订单服务请求方。

在服务订单执行的过程中，服务请求方可以通过电话服务方式或者在线服务方式与会话服务提供方进行会话沟通。该会话沟通内容就可以作为该服务订单的工单数据。

在服务订单执行的过程中，订单服务提供方也可以通过电话服务方式或者在线服务方式与会话服务提供方进行会话沟通。该会话沟通内容就可以作为该服务订单的工单数据。

步骤S204，对所述工单数据中的每个备选关键词进行目标处理，得到至少一个新工单数据；所述目标处理为删除或将备选关键词替换为无用词汇，所述备选关键词为对工单数据进行分词处理之后得到的词汇。

在本实施例中，工单数据中包含的数据为会话服务提供方与目标对象之间的会话数据(或者对话信息)。

上述备选关键词为对工单数据进行分词处理之后，得到的关键词，备选关键词中可能包含能够确定工单数据是否为安全类工单的关键词。

在本实施例中，可以将工单数据中的备选关键词替换为无用词汇，从而得到新工单数据；或者，还可以将工单数据中的备选关键词删除，得到新工单数据。

对备选关键词执行目标处理的一个目的是为了确定，在工单数据不包含备选关键词的情况下，该工单数据被确定为非安全类工单的概率。

步骤S206，利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理，得到分类处理结果；所述分类处理结果用于表征所述工单数据和所述新工单数据是否为安全类工单。

在本实施例中，在得到新工单数据和工单数据之后，就可以利用目标分类模型对新工单数据和工单数据进行分类处理，得到分类处理结果。

新工单数据所对应分类处理结果为去掉备选关键词之后，所得到的分类处理结果，该分类处理结果能够确定备选关键词对分类处理结果的影响程度。

步骤S208，基于所述分类处理结果在所述备选关键词中确定目标关键词；所述目标关键词用于表征所述工单数据不是安全类工单。

在本实施例中，在得到新工单数据和工单数据的分类处理结果之后，就可以结合上述分类处理结果在备选关键词中确定能够表征工单数据为非安全类工单的目标关键词。

通过上述描述可知，在本实施例中，在服务订单的执行过程中，可以实时记录会话服务提供方(也即，客服)和目标对象之间的会话数据。并将该会话数据作为该服务订单的工单数据。在得到上述工单数据之后，可以将该工单数据存储在数据平台中。其中，该会话数据可以为语音通话信息，还可以为文本沟通信息。目标对象包括订单服务提供方(也即，网约车平台的司机)和/或服务请求方(乘客)。

在获取到上述步骤S202至步骤S208的执行指令之后，从数据平台中获取该工单数据作为待处理的工单数据。然后，对工单数据进行分词处理，得到分词结果，其中，分词结果中包括至少一个分词。该至少一个分词即为工单数据中的备选关键词。

之后，就可以对工单数据中的每个备选关键词进行目标处理。

在本实施例中，可以通过以下两种方式对工单数据中的每个备选关键词进行目标处理。

方式一、如图3所示，步骤S204，对所述工单数据中的每个备选关键词进行目标处理包括如下步骤：

步骤S301，将所述工单数据中的备选关键词Ai替换为预设数据，得到与所述备选关键词Ai相对应的新工单数据，其中，i依次取1至I，I所述备选关键词的数量，所述预设数据为无用词汇。

需要说明的是，在本实施例中，无用词汇是指对工单数据是否为安全类工单无影响的词汇。可选地，在本实施例中，无用词汇可以选择为“OOV”，除此之外，还可以选择其他无用词汇，本实施例对此不作具体限定。

例如，工单数据中包括I个备选关键词。那么可以将工单数据中备选关键词A1替换为“OOV”，替换之后得到新工单数据B1；之后，将工单数据中备选关键词A2替换为“OOV”，替换之后得到新工单数据B2；以此类推，按照上述所描述的方式将A1至AI中每个备选关键词均替换为“OOV”，替换之后得到新工单数据B1至BI。

需要说明的是，如果工单数据中备选关键词Ai出现多次，需要将工单数据中的每个备选关键词Ai均替换为无用词汇(例如，OOV)。

通过上述描述可知，在本实施例中，依次对工单数据中的每个备选关键词均执行了替换处理，通过该备选关键词进行替换之后，就能够确定该备选关键词对工单数据的分类处理结果的影响，从而确定该备选关键词是否为目标关键词。本发明采用剔除备选关键词来评估工单数据分类处理结果的变化来挖掘目标关键词的方法，大大提高了关键词的挖掘效率，也能保证这些关键词在安全类工单中真正起到关键作用，反应安全类工单的本质。

方式二、如图4所示，步骤S204，对所述工单数据中的每个备选关键词进行目标处理包括如下步骤：

步骤S401，将所述工单数据中的备选关键词Ai删除，得到与所述备选关键词Ai相对应的新工单数据，其中，i依次取1至I，I所述备选关键词的数量。

在本实施例中，工单数据中包括I个备选关键词。那么可以将工单数据中备选关键词A1删除，删除之后得到新工单数据B1；之后，将工单数据中备选关键词A2删除，删除之后得到新工单数据B2；以此类推，按照上述所描述的方式将A1至AI中每个备选关键词删除，删除之后得到新工单数据B1至BI。

需要说明的是，如果工单数据中备选关键词Ai出现多次，需要将工单数据中的每个备选关键词Ai均删除。

通过上述描述可知，在本实施例中，依次对工单数据中的每个备选关键词均执行了删除处理，在将该备选关键词进行删除之后，就能够确定该备选关键词对工单数据的分类处理结果的影响，从而确定该备选关键词是否为目标关键词。本发明采用剔除备选关键词来评估工单数据分类处理结果的变化来挖掘目标关键词的方法，大大提高了关键词的挖掘效率，也能保证这些关键词在安全类工单中真正起到关键作用，反应安全类工单的本质。

进一步需要说明的是，在本实施例中，可以结合上述方式一和方式二对工单数据中的每个备选关键词执行目标处理，例如部分备选关键词进行替换处理，部分备选关键词进行删除处理等。

在本发明中，在按照上述所描述的方式得到至少一个新工单数据之后，就可以利用目标分类模型对工单数据和至少一个新工单数据进行分类处理，得到分类处理结果。

在一个可选的实施方式中，如图5所示，步骤S206，利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理还包括：

步骤S501，若所述备选关键词的数量未超过所述预设数量，则将所述至少一个新工单数据和所述工单数据作为一个待批处理数据；

步骤S502，利用目标分类模型对所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

为了提升评估的速度，以及提高效率，本发明采用batch(批处理)的方式来一次处理一条对话数据，batch中第一行记录是完整的数据(即，工单数据)，其他行的数据都是移除或者替换备选关键词后的数据(即，至少一个新工单数据)。

可选地，batch的大小可以选取为64，一次可以最多评测63个备选关键词。如果工单数据中去除停用词外小于63个备选关键词，则可以将至少一个新工单数据和工单数据作为一个待批处理数据，然后，利用目标分类模型对待批处理数据中的新工单数据和工单数据进行分类处理，得到分类处理结果。

在一个可选的实施方式中，如图6所示，步骤S206，利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理包括如下步骤：

步骤S601，若所述备选关键词的数量超过预设数量，则对所述至少一个新工单数据进行处理，得到至少一个待批处理数据，其中，每个待批处理数据中包含多个新工单数据和一个所述工单数据；

步骤S602，利用目标分类模型对每个所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

可选地，batch的大小可以选取为64，一次可以最多评测63个备选关键词。在本实施例中，如果工单数据中去除停用词外大于63个备选关键词，则可以对至少一个新工单数据进行分批处理。例如，将至少一个新工单数据进行分批处理，得到至少一个待批处理数据。例如，每个待批处理数据中可以包含一个工单数据和63个新工单数据。

在本实施例中，在执行步骤S601时，可以结合候选关键词集对至少一个新工单数据进行处理，得到至少一个待批处理数据，具体过程为：

首先，获取候选关键词集；其中，所述候选关键词集中包含多个用于表征工单数据不是安全类工单的关键词，且所述候选关键词集中每个关键词包含权重值，所述权重值用于表征关键词的重要程度；

然后，基于所述候选关键词集对所述至少一个新工单数据进行处理，得到所述至少一个待批处理数据。

本发明中的候选关键词集为预先构建的词集，该候选关键词集中包含大量的关键词，且这些关键词用于表征工单数据是非安全类工单。且在该候选关键词集，每个关键词对应一个权重值，该权重值用于表征该关键词的重要程度。

在本实施例中，可以通过以下方式确定所述候选关键词集，具体包括：

获取历史工单数据，其中，所述历史工单数据为会话服务提供方根据与目标对象之间的会话数据，所述目标对象包括订单服务提供方和服务请求方。具体地，在本实施例中，可以从数据平台的中拉取已经标注好的工单数据，即，历史工单数据。这些历史工单数据中包含安全类工单和非安全类工单，它的标签是二分类。例如，安全类工单的标签为“1”，非安全类工单的标签为“0”。在获取到上述历史工单数据之后，就可以基于上述历史工单数据构建候选关键词集。

在基于历史工单数据构建候选关键词集时，可以首先，对每个所述历史工单数据进行分词处理，得到分词结果，其中，所述分词结果中包含多个分词。在本实施例中，可以采用“jieba分词器”来进行分词处理，得到分词结果。

在对每个所述历史工单数据进行分词处理时，可以首先确定预设分词模板；进而，通过分词器按照预设分词模板对每个所述历史工单数据进行分词处理，得到分词结果。

上述预设分词模板是指增加了某个网约车场景下的新词，例如“服务分”、“顺风车”、“XX网约车平台的客服”等新词，通过预设分词模板设置上述新词，能够更加准确的获取关键词。

在得到分词结果之后，就可以在所述分词结果中确定目标分词，其中，所述目标分词为各个历史工单数据的分词结果中出现频率高于预设阈值的分词。在本实施例中，在得到分词结果之后，就可以统计分词结果中每个分词的出现频率，进而选择出现频率最高的前N个分词，作为目标分词。在得到分词结果之后，还可以统计分词结果中每个分词的出现频率，进而将出现频率高于预设阈值的分词作为目标分词。

在得到目标分词之后，就可以将所述目标分词转换成one-hot形式的目标数据，其中，所述目标数据中包括多个向量组，每个向量组中的向量值表征所述目标分词是否在各个历史工单数据中出现；最后，利用所述目标数据确定所述候选关键词集。

例如，向量组可以表示为：[1,0,1,…,0]，其中，该向量组中的每个值表示其对应的目标分词在历史工单数据中是否出现，例如，“1”表示出现，“0”表示未出现。

假设，目标分词的数量为10个，以第一个历史工单数据C1为例，假设，与该第一个历史工单数据C1相对应的向量组表示为：[1,0,1,1,0,1,0,1,0,0]，其中，该向量组中的第一个向量值“1”表示第一个历史工单数据C1出现第一个目标分词，向量组中的第二个向量值“0”表示第一个历史工单数据C1未出现第二个目标分词，以此类推，该向量组中的其他向量值表示第一个历史工单数据C1未出现(或者出现)其对应的目标分词，此处不再一一介绍。

需要说明的是，在本实施例中，目标分词的数量并不一定为10个，可选地，该目标分词的数量可以选择为5万个，具体可以根据实际需要来进行设定，本实施例对此不作具体限定。

在本实施例中，在得到上述one-hot形式的目标数据之后，就可以利用one-hot形式的目标数据确定候选关键词集。

具体地，在利用所述目标数据确定所述候选关键词集时，首先，基于所述目标数据确定训练样本和测试样本。在本实施例中，可以将one-hot形式的目标数据划分成训练样本和测试样本。

然后，利用所述训练样本对初始分类预测模型进行训练，得到目标分类预测模型。之后，利用所述目标分类预测模型对所述测试样本进行处理，得到各个目标分词的权重值。

需要说明的是，在本实施例中，目标分类预测模型可以选择为逻辑回归模型(Logistic Regression，简称LR)。除此之外，还可以选择其他的模型，本实施例对此不作具体限定。

最后，基于所述各个目标分词的权重值确定所述候选关键词集。通过目标分类预测模型预测得到的权重值就可以作为目标分词的重要程度。

在本实施例中，在按照上述所描述的方式得到候选关键词集之后，就可以基于述候选关键词集对至少一个新工单数据进行处理，得到至少一个待批处理数据。

在本实施例中，如果备选关键词的数量较多，那么可以优先将备选关键词中包含在候选关键词集中的关键词进行优先处理。因为包含在候选关键词集中的关键词为目标关键词的可能性更大。因此，采用上述处理方式，能够进一步提高目标关键词的生成效果，提升召回安全工单的准确率，节约人力资源，提升工作效率。

在一个可选的实施方式中，如图7所示，基于所述候选关键词集对所述至少一个新工单数据进行处理，得到至少一个待批处理数据包括如下步骤：

步骤S701，在所述备选关键词中确定第一目标备选关键词，其中，所述第一目标备选关键词为包含在所述候选关键词集中的关键词。

在本实施例中，可以将备选关键词和候选关键词集中的关键词进行对比，从而在备选关键词中选择包含在候选关键词集中的关键词，称之为第一目标备选关键词。

步骤S702，按照所述第一目标备选关键词的权重值对所述第一目标备选关键词进行排序，得到第一排序结果。

在本实施例中，通过上述描述可知，候选关键词集中的关键词都包含对应的权重值。此时，可以将候选关键词集中与第一目标备选关键词相同的关键词的权重值作为第一目标备选关键词的权重值。

之后，就可以按照第一目标备选关键词的权重值对第一目标备选关键词进行排序，得到第一排序结果。例如，由高到低进行排序，或者由低到高进行排序。

步骤S703，基于所述第一排序结果和第二排序结果确定目标排序结果，其中，所述第一排序结果位于所述第二排序结果之前，且所述第二排序结果为对第二目标备选关键词进行排序之后得到的结果，所述第二目标备选关键词为所述备选关键词中除所述第一目标备选关键词之外的其他关键词。

在得到第一排序结果之后，将备选关键词中除第一目标备选关键词之外的其他备选关键词(即，第二目标备选关键词)进行随机排序之后，得到第二排序结果。

然后，可以将第一排序结果和第二排序结果进行连接，得到目标排序结果。优选地，第一排序结果可以位于第二排序结果之前，除此之外，第一排序结果可以位于第二排序结果之后，本实施例对此不作具体限定。

步骤S704，按照所述目标排序结果中的排序顺序，对所述目标排序结果中每个关键词所对应的新工单数据进行分类处理，得到所述至少一个待批处理数据。

例如，一个批处理数据中允许包含63个新工单数据。那么按照目标排序结果中的排序顺序，将多个关键词进行分组，例如，第1个至第63个关键词为一组，第64个至第126个关键词为一组，以此类推。然后，将第1个至第63个关键词所对应的新工单数据作为和工单数据作为一个待批处理数据。然后，将第64个至第126个关键词所对应的新工单数据作为和工单数据作为另一个待批处理数据。以此类推，针对其他关键词所对应的新工单数据，均采用上述处理方式，此处不再一一介绍。

通过上述描述可知，在本实施例中，引入批处理的方式对工单数据和新工单数据进行处理，从而确定目标关键词的方式，能够提高目标关键词的获取效率。

在本实施例中，在按照上述所描述的方式得到至少一个待批处理数据之后，就可以利用目标分类模型对每个待批处理数据中的新工单数据和工单数据进行分类处理，得到分类处理结果。

可选地，在本实施例中，所选择的目标分类模型可以为HAN(HierarchicalAttention Network)模型。在利用该目标分类模型对待批处理数据中的新工单数据和工单数据进行分类处理之前，还需要对该目标分类模型的初始模型进行训练，训练之后得到目标分类模型，训练过程描述如下：

根据每个所述历史工单数据的分词结果和每个所述历史工单数据的标签信息构建训练样本，其中，所述标签信息用于表征历史工单数据是否为安全类工单；然后，利用所述训练样本训练所述目标分类模型的初始模型，得到所述目标分类模型。

通过上述描述可知，在本实施例中，在构建候选关键词集时，从数据平台获取了历史工单数据。在对该历史工单数据进行分词处理之后，可以利用分词结果和标签信息训练目标分类模型的初始模型，得到目标分类模型。

优选地，在本实施例中，目标分类模型选择为HAN模型，HAN模型作为对话分类训练模型，它是一种自上而下的基于向量的文本表示模型，在分类任务中有很好的表现。

在按照上述所描述的方式对工单数据和至少一个新工单数据进行分类处理，得到分类处理结果之后，就可以基于分类处理结果在备选关键词中确定目标关键词。

在本实施例中，分类处理结果包括多个子处理结果，此时，可以将多个子处理结果分为第一子处理结果和第二子处理结果，其中，工单数据的分类处理结果为所述第一子处理结果，每个新工单数据对应一个第二子处理结果。

也就是说，目标分类模型对工单数据进行分类处理的结果为第一子处理结果；目标分类模型对每个新工单数据进行分类处理的结果为第二子处理结果。

需要说明的是，由于每个待批处理数据中均包含工单数据，因此，目标分类模型在对每个待批处理数据中的工单数据进行分类处理时，均得到一个第一子处理结果。且得到的第一子处理结果可能相同，还可以不同，但是，第一子处理结果之间的差异在预设要求范围内。

基于此，步骤S208，基于所述分类处理结果在所述备选关键词中确定目标关键词包括如下步骤：

步骤S2081，计算每个所述第二子处理结果与所述第一子处理结果之间的变化值，得到多个变化值；

步骤S2082，基于所述多个变化值确定所述目标关键词。

在本实施例中，在得到每个一个待批处理数据的分类处理结果之后，可以计算该分类处理结果中每个第二子处理结果与第一子处理结果之间的变化值，得到多个变化值。

在得到多个变化值之后，就可以在所述多个变化值中确定第一目标变化值，其中，所述第一目标变化值为所述多个变化值中前N个最大的变化值，N为大于零的正整数。之后，确定所述第一目标变化值所对应的新工单数据。并确定第一目标变化值所对应的新工单数据中被替换或者删除的备选关键词(记为第三目标备选关键词)。最后，根据对应的新工单数据中替换或者删除之后的第三目标备选关键词确定目标关键词。

通过上述描述可知，本申请能够通过机器学习的方式对工单数据进行筛选，以确定工单数据是否为安全类工单，从而缓解在通过现有技术筛选紧急安全类工单时，筛选效率较低，且准确性差的技术问题。

可选地，在本实施例中，根据所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定所述目标关键词包括：

首先，若所述第三目标备选关键词中包含M个未记录在候选关键词集中的关键词，且第四目标备选关键词中包含记录在候选关键词集中的关键词，则在第四目标备选关键词中确定前M个权重值最大的关键词；所述候选关键词集中包含多个用于表征工单数据是否为安全类工单的关键词，且所述候选关键词集中每个关键词包含权重值，所述权重值用于表征关键词的重要程度，所述第四目标备选关键词为所述多个变化值中除所述第三目标备选关键词之外的关键词。

具体地，在得到第三目标备选关键词之后，如果第三目标备选关键词中包含未记录在候选关键词集中的关键词，则需要将这些关键词替换为候选关键词集中的关键词。

此时，在本实施例中，可以确定多个变化值所对应的新工单数据，进而确定这些新工单数据中替换或者删除之后的备选关键词。之后，在这些备选关键词中确定除第三目标备选关键词之外，包含其他在候选关键词集中的关键词，那么可以在这些关键词中确定M个权重值最大的关键词，其中，M为第三目标备选关键词中包含未记录在候选关键词集中的关键词的数量。最后，将确定出的前M个权重值最大的关键词和第三目标备选关键词中包含在候选关键词集中的关键词确定为目标关键词。

在本实施例中，若所述第三目标备选关键词中包含M个未记录在候选关键词集中的关键词，且第四目标备选关键词中不包含记录在候选关键词集中的关键词，则将所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定为所述目标关键词。

也就是说，如果多个变化值所对应的关键词中不包含记录在候选关键词集中的关键词，此时，就可以将第三目标备选关键词确定为目标关键词。

实施例3：

下面将结合图8介绍筛选方法。

如图8所示，在本实施例中，首先，需要对目标分类模型的初始模型进行训练，并构建候选关键词集。如图8所示，过程描述如下：

首先，从数据平台的数据库中拉取已经标注好的工单数据(即，上述所描述的历史工单数据)，这些工单中包含安全类工单和非安全类工单，它的标签是二分类。然后，将这些工单数据进行分词处理。本实施例采用jieba分词器来对工单数据进行分词，得到分词结果。在分词的过程中，可以增加某网约车场景下的新词作为词表，比如:“服务分”，“顺风车”，“某某客服”等，这样能够更加的准确获取关键词。

之后，生成关键词的候选集。具体地，可以在分词结果统计每个分词的出现频率，进而，根据出现频率从分词结果中选取出现频率最多的5万个词，这些词基本覆盖了99％的词。在得到目标分词之后，就可以将所述目标分词转换成one-hot形式的目标数据，其中，所述目标数据中包括多个向量组，每个向量组中的向量值表征所述目标分词是否在各个历史工单数据中出现；最后，利用所述目标数据确定所述候选关键词集。

然后，采用逻辑回归(LR)模型来进行训练，得到目标分类预测模型。之后，利用所述目标分类预测模型对所述测试样本进行处理，得到各个目标分词的权重值，权重值的大小可以看作这些分词的重要程度。

之后，要训练目标分类模型的初始模型。在对初始模型进行训练时，采用上述分词结果和每个工单数据的标签信息来训练初始模型。其中，所选择的目标分类模型可以为HAN(Hierarchical Attention Network)模型。

在构建得到候选关键词集，以及训练得到目标分类模型之后，就可以利用目标分类模型执行上述实施例2中任一项所描述的步骤，此处不再详细赘述。

需要说明的是，在本实施例中，为了提升评估的速度提高效率，本发明采用batch的方式来一次处理一条对话数据，batch中第一行记录是完整的数据，其他行的数据都是移除或者替换潜在关键词后的数据，batch的大小的为64，一次可以最多评测63个潜在关键词，如果对话记录过长，需要通过选取候选关键词库中包在本条记录中的前63个词作为潜在关键词对应图8中黄色标记1，如果对话中去除停用词外小于63个就不需要过潜在关键词库对应黄色标记2。

实施例4：

图9是示出本申请的一些实施例的筛选装置的框图，该筛选装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图所示，筛选装置可以包括获取单元910、关键词处理单元920，分类单元930和确定单元940。

获取单元910，用于获取在线服务过程中的工单数据，并对所述工单数据进行分词处理；每个所述工单数据包括会话服务提供方与目标对象之间的会话数据，所述目标对象包括订单服务提供方和/或订单服务请求方；

关键词处理单元920，用于对所述工单数据中的每个备选关键词进行目标处理，得到至少一个新工单数据；所述目标处理为删除或将备选关键词替换为无用词汇，所述备选关键词为对工单数据进行分词处理之后得到的词汇；

分类单元930，用于利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理，得到分类处理结果；所述分类处理结果用于表征所述工单数据和所述新工单数据是否为安全类工单；

确定单元940，用于基于所述分类处理结果在所述备选关键词中确定目标关键词；所述目标关键词用于表征所述工单数据不是安全类工单。

可选地，所述分类单元包括：处理模块，用于若所述备选关键词的数量超过预设数量，则对所述至少一个新工单数据进行处理，得到至少一个待批处理数据，其中，每个待批处理数据中包含多个新工单数据和一个所述工单数据；第一分类模块，用于利用目标分类模型对每个所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

可选地，所述处理模块用于：获取候选关键词集；其中，所述候选关键词集中包含多个用于表征工单数据不是安全类工单的关键词，且所述候选关键词集中每个关键词包含权重值，所述权重值用于表征关键词的重要程度；基于所述候选关键词集对所述至少一个新工单数据进行处理，得到所述至少一个待批处理数据。

可选地，所述处理模块还用于：在所述备选关键词中确定第一目标备选关键词，其中，所述第一目标备选关键词为包含在所述候选关键词集中的关键词；按照所述第一目标备选关键词的权重值对所述第一目标备选关键词进行排序，得到第一排序结果；基于所述第一排序结果和第二排序结果确定目标排序结果，其中，所述第一排序结果位于所述第二排序结果之前，且所述第二排序结果为对第二目标备选关键词进行排序之后得到的结果，所述第二目标备选关键词为所述备选关键词中除所述第一目标备选关键词之外的其他关键词；按照所述目标排序结果中的排序顺序，对所述目标排序结果中每个关键词所对应的新工单数据进行分类处理，得到所述至少一个待批处理数据。

可选地，所述装置还通过以下方式确定所述候选关键词集，具体包括：获取历史工单数据，其中，所述历史工单数据为会话服务提供方根据与目标对象之间的会话数据，所述目标对象包括订单服务提供方和服务请求方；基于所述历史工单数据确定候选关键词集。

可选地，所述装置还用于：对每个所述历史工单数据进行分词处理，得到分词结果，其中，所述分词结果中包含多个分词；在所述分词结果中确定目标分词，其中，所述目标分词为各个所述历史工单数据的分词结果中出现频率高于预设阈值的分词；将所述目标分词转换成one-hot形式的目标数据，其中，所述目标数据中包括多个向量组，每个向量组中的向量值表征所述目标分词是否在各个历史工单数据中出现；利用所述目标数据确定所述候选关键词集。

可选地，所述装置还用于：基于所述目标数据确定训练样本和测试样本；利用所述训练样本对初始分类预测模型进行训练，得到目标分类预测模型；利用所述目标分类预测模型对所述测试样本进行处理，得到各个目标分词的权重值；基于所述各个目标分词的权重值确定所述候选关键词集。

可选地，所述装置还用于：确定预设分词模板；通过分词器按照所述预设分词模板对每个所述历史工单数据进行分词处理，得到分词结果。

可选地，所述装置还用于：根据每个所述历史工单数据的分词结果和每个所述历史工单数据的标签信息构建训练样本，其中，所述标签信息用于表征历史工单数据是否为安全类工单；利用所述训练样本训练所述目标分类模型的初始模型，得到所述目标分类模型。

可选地，所述分类单元还包括：第一确定模块，用于若所述备选关键词的数量未超过所述预设数量，则将所述至少一个新工单数据和所述工单数据作为一个待批处理数据；第二分类模块，用于利用目标分类模型对所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

可选地，所述关键词处理单元用于：将所述工单数据中的备选关键词Ai替换为预设数据，得到与所述备选关键词Ai相对应的新工单数据，其中，i依次取1至I，I所述备选关键词的数量，所述预设数据为无用词汇。

可选地，所述关键词处理单元还用于：将所述工单数据中的备选关键词Ai删除，得到与所述备选关键词Ai相对应的新工单数据，其中，i依次取1至I，I所述备选关键词的数量。

可选地，所述分类处理结果包括多个子处理结果，所述多个子处理结果包括第一子处理结果和第二子处理结果，其中，工单数据的分类处理结果为所述第一子处理结果，每个新工单数据对应一个第二子处理结果。

可选地，所述确定单元包括：计算模块，用于计算每个所述第二子处理结果与所述第一子处理结果之间的变化值，得到多个变化值；第二确定模块，用于基于所述多个变化值确定所述目标关键词。

可选地，所述确定模块用于：在所述多个变化值中确定第一目标变化值，其中，所述第一目标变化值为所述多个变化值中前N个最大的变化值，N为大于零的正整数；确定所述第一目标变化值所对应的新工单数据；根据所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定所述目标关键词。

可选地，所述确定模块还用于：若所述第三目标备选关键词中包含M个未记录在候选关键词集中的关键词，且第四目标备选关键词中包含记录在候选关键词集中的关键词，则在第四目标备选关键词中确定前M个权重值最大的关键词；所述候选关键词集中包含多个用于表征工单数据是否为安全类工单的关键词，且所述候选关键词集中每个关键词包含权重值，所述权重值用于表征关键词的重要程度，所述第四目标备选关键词为所述多个变化值中除所述第三目标备选关键词之外的关键词；将确定出的前M个权重值最大的关键词和所述第三目标备选关键词中包含在所述候选关键词集中的关键词确定为所述目标关键词。

可选地，所述确定模块还用于：若所述第三目标备选关键词中包含M个未记录在候选关键词集中的关键词，且第四目标备选关键词中不包含记录在候选关键词集中的关键词，则将所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定为所述目标关键词。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

本发明还提供了计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中任一项所述的筛选方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种筛选方法，其特征在于，包括：

获取在线服务过程中的工单数据，并对所述工单数据进行分词处理；每个所述工单数据包括会话服务提供方与目标对象之间的会话数据，所述目标对象包括订单服务提供方和/或订单服务请求方；

对所述工单数据中的每个备选关键词进行目标处理，得到至少一个新工单数据；所述目标处理为删除备选关键词或将备选关键词替换为无用词汇，所述备选关键词为对工单数据进行分词处理之后得到的词汇；

利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理，得到所述工单数据和所述新工单数据分别对应的分类处理结果；所述分类处理结果用于表征所述工单数据和所述新工单数据是否为安全类工单；

基于所述工单数据和所述新工单数据分别对应的分类处理结果在所述备选关键词中确定目标关键词；所述目标关键词用于表征所述工单数据不是安全类工单；所述工单数据和所述新工单数据分别对应的分类处理结果用于体现所述备选关键词对所述工单数据的分类处理结果的影响程度；

利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理包括：

若所述备选关键词的数量超过预设数量，则对所述至少一个新工单数据进行处理，得到至少一个待批处理数据，其中，每个待批处理数据中包含多个新工单数据和一个所述工单数据；

利用目标分类模型对每个所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

2.根据权利要求1所述的方法，其特征在于，对所述至少一个新工单数据进行处理，得到至少一个待批处理数据包括：

获取候选关键词集；其中，所述候选关键词集中包含多个用于表征工单数据不是安全类工单的关键词，且所述候选关键词集中每个关键词包含权重值，所述权重值用于表征关键词的重要程度；

基于所述候选关键词集对所述至少一个新工单数据进行处理，得到所述至少一个待批处理数据。

3.根据权利要求2所述的方法，其特征在于，基于所述候选关键词集对所述至少一个新工单数据进行处理，得到至少一个待批处理数据包括：

在所述备选关键词中确定第一目标备选关键词，其中，所述第一目标备选关键词为包含在所述候选关键词集中的关键词；

按照所述第一目标备选关键词的权重值对所述第一目标备选关键词进行排序，得到第一排序结果；

基于所述第一排序结果和第二排序结果确定目标排序结果，其中，所述第一排序结果位于所述第二排序结果之前，且所述第二排序结果为对第二目标备选关键词进行排序之后得到的结果，所述第二目标备选关键词为所述备选关键词中除所述第一目标备选关键词之外的其他关键词；

按照所述目标排序结果中的排序顺序，对所述目标排序结果中每个关键词所对应的新工单数据进行分类处理，得到所述至少一个待批处理数据。

4.根据权利要求2所述的方法，其特征在于，通过以下方式确定所述候选关键词集，具体包括：

获取历史工单数据，其中，所述历史工单数据为会话服务提供方根据与目标对象之间的会话数据，所述目标对象包括订单服务提供方和服务请求方；

基于所述历史工单数据确定候选关键词集。

5.根据权利要求4所述的方法，其特征在于，基于所述历史工单数据确定候选关键词集包括：

对每个所述历史工单数据进行分词处理，得到分词结果，其中，所述分词结果中包含多个分词；

在所述分词结果中确定目标分词，其中，所述目标分词为各个所述历史工单数据的分词结果中出现频率高于预设阈值的分词；

将所述目标分词转换成one-hot形式的目标数据，其中，所述目标数据中包括多个向量组，每个向量组中的向量值表征所述目标分词是否在各个历史工单数据中出现；

利用所述目标数据确定所述候选关键词集。

6.根据权利要求5所述的方法，其特征在于，利用所述目标数据确定所述候选关键词集包括：

基于所述目标数据确定训练样本和测试样本；

利用所述训练样本对初始分类预测模型进行训练，得到目标分类预测模型；

利用所述目标分类预测模型对所述测试样本进行处理，得到各个目标分词的权重值；

基于所述各个目标分词的权重值确定所述候选关键词集。

7.根据权利要求5所述的方法，其特征在于，对每个所述历史工单数据进行分词处理，得到分词结果包括：

确定预设分词模板；

通过分词器按照所述预设分词模板对每个所述历史工单数据进行分词处理，得到分词结果。

8.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据每个所述历史工单数据的分词结果和每个所述历史工单数据的标签信息构建训练样本，其中，所述标签信息用于表征历史工单数据是否为安全类工单；

利用所述训练样本训练所述目标分类模型的初始模型，得到所述目标分类模型。

9.根据权利要求1所述的方法，其特征在于，利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理还包括：

若所述备选关键词的数量未超过所述预设数量，则将所述至少一个新工单数据和所述工单数据作为一个待批处理数据；

利用目标分类模型对所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

10.根据权利要求1所述的方法，其特征在于，对所述工单数据中的每个备选关键词进行目标处理包括：

将所述工单数据中的备选关键词Ai替换为预设数据，得到与所述备选关键词Ai相对应的新工单数据，其中，i依次取1至I，I所述备选关键词的数量，所述预设数据为无用词汇。

11.根据权利要求1所述的方法，其特征在于，对所述工单数据中的每个备选关键词进行目标处理包括：

将所述工单数据中的备选关键词Ai删除，得到与所述备选关键词Ai相对应的新工单数据，其中，i依次取1至I，I所述备选关键词的数量。

12.根据权利要求1所述的方法，其特征在于，所述分类处理结果包括多个子处理结果，所述多个子处理结果包括第一子处理结果和第二子处理结果，其中，工单数据的分类处理结果为所述第一子处理结果，每个新工单数据对应一个第二子处理结果。

13.根据权利要求12所述的方法，其特征在于，基于所述工单数据和所述新工单数据分别对应的分类处理结果在所述备选关键词中确定目标关键词包括：

计算每个所述第二子处理结果与所述第一子处理结果之间的变化值，得到多个变化值；

基于所述多个变化值确定所述目标关键词。

14.根据权利要求13所述的方法，其特征在于，基于所述多个变化值确定所述目标关键词包括：

在所述多个变化值中确定第一目标变化值，其中，所述第一目标变化值为所述多个变化值中前N个最大的变化值，N为大于零的正整数；

确定所述第一目标变化值所对应的新工单数据；

根据所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定所述目标关键词。

15.根据权利要求14所述的方法，其特征在于，根据所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定所述目标关键词包括：

若所述第三目标备选关键词中包含M个未记录在候选关键词集中的关键词，且第四目标备选关键词中包含记录在候选关键词集中的关键词，则在第四目标备选关键词中确定前M个权重值最大的关键词；所述候选关键词集中包含多个用于表征工单数据是否为安全类工单的关键词，且所述候选关键词集中每个关键词包含权重值，所述权重值用于表征关键词的重要程度，所述第四目标备选关键词为所述多个变化值中除所述第三目标备选关键词之外的关键词；

将确定出的前M个权重值最大的关键词和所述第三目标备选关键词中包含在所述候选关键词集中的关键词确定为所述目标关键词。

16.根据权利要求15所述的方法，其特征在于，将所述对应的新工单数据中替换或者删除之后的备选关键词作为所述目标关键词还包括：

若所述第三目标备选关键词中包含M个未记录在候选关键词集中的关键词，且第四目标备选关键词中不包含记录在候选关键词集中的关键词，则将所述对应的新工单数据中替换或者删除之后的第三目标备选关键词确定为所述目标关键词。

17.一种筛选装置，其特征在于，包括：

获取单元，用于获取在线服务过程中的工单数据，并对所述工单数据进行分词处理；每个所述工单数据包括会话服务提供方与目标对象之间的会话数据，所述目标对象包括订单服务提供方和/或订单服务请求方；

关键词处理单元，用于对所述工单数据中的每个备选关键词进行目标处理，得到至少一个新工单数据；所述目标处理为删除备选关键词或将备选关键词替换为无用词汇，所述备选关键词为对工单数据进行分词处理之后得到的词汇；

分类单元，用于利用目标分类模型对所述工单数据和所述至少一个新工单数据进行分类处理，得到所述工单数据和所述新工单数据分别对应的分类处理结果；所述分类处理结果用于表征所述工单数据和所述新工单数据是否为安全类工单；

确定单元，用于基于所述工单数据和所述新工单数据分别对应的分类处理结果在所述备选关键词中确定目标关键词；所述目标关键词用于表征所述工单数据不是安全类工单；所述工单数据和所述新工单数据分别对应的分类处理结果用于体现所述备选关键词对所述工单数据的分类处理结果的影响程度；

所述分类单元包括：

处理模块，用于若所述备选关键词的数量超过预设数量，则对所述至少一个新工单数据进行处理，得到至少一个待批处理数据，其中，每个待批处理数据中包含多个新工单数据和一个所述工单数据；

第一分类模块，用于利用目标分类模型对每个所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

18.根据权利要求17所述的装置，其特征在于，所述处理模块用于：

19.根据权利要求18所述的装置，其特征在于，所述处理模块还用于：

20.根据权利要求18所述的装置，其特征在于，所述装置还通过以下方式确定所述候选关键词集，具体包括：

基于所述历史工单数据确定候选关键词集。

21.根据权利要求20所述的装置，其特征在于，所述装置还用于：

利用所述目标数据确定所述候选关键词集。

22.根据权利要求21所述的装置，其特征在于，所述装置还用于：

基于所述目标数据确定训练样本和测试样本；

基于所述各个目标分词的权重值确定所述候选关键词集。

23.根据权利要求21所述的装置，其特征在于，所述装置还用于：

确定预设分词模板；

24.根据权利要求21所述的装置，其特征在于，所述装置还用于：

25.根据权利要求17所述的装置，其特征在于，所述分类单元还包括：

第一确定模块，用于若所述备选关键词的数量未超过所述预设数量，则将所述至少一个新工单数据和所述工单数据作为一个待批处理数据；

第二分类模块，用于利用目标分类模型对所述待批处理数据中的新工单数据和所述工单数据进行分类处理，得到所述分类处理结果。

26.根据权利要求17所述的装置，其特征在于，所述关键词处理单元用于：

27.根据权利要求17所述的装置，其特征在于，所述关键词处理单元还用于：

28.根据权利要求17所述的装置，其特征在于，所述分类处理结果包括多个子处理结果，所述多个子处理结果包括第一子处理结果和第二子处理结果，其中，工单数据的分类处理结果为所述第一子处理结果，每个新工单数据对应一个第二子处理结果。

29.根据权利要求28所述的装置，其特征在于，所述确定单元包括：

计算模块，用于计算每个所述第二子处理结果与所述第一子处理结果之间的变化值，得到多个变化值；

第二确定模块，用于基于所述多个变化值确定所述目标关键词。

30.根据权利要求29所述的装置，其特征在于，所述确定模块用于：

确定所述第一目标变化值所对应的新工单数据；

31.根据权利要求30所述的装置，其特征在于，所述确定模块还用于：

32.根据权利要求31所述的装置，其特征在于，所述确定模块还用于：

33.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至16中任一所述的筛选方法的步骤。

34.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至16中任一所述的筛选方法的步骤。