CN111126071A - 提问文本数据的确定方法、装置和客服群的数据处理方法 - Google Patents

提问文本数据的确定方法、装置和客服群的数据处理方法 Download PDF

Info

Publication number
CN111126071A
CN111126071A CN201911214274.XA CN201911214274A CN111126071A CN 111126071 A CN111126071 A CN 111126071A CN 201911214274 A CN201911214274 A CN 201911214274A CN 111126071 A CN111126071 A CN 111126071A
Authority
CN
China
Prior art keywords
feature vector
text data
service
sample data
customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911214274.XA
Other languages
English (en)
Other versions
CN111126071B (zh
Inventor
杨明晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911214274.XA priority Critical patent/CN111126071B/zh
Publication of CN111126071A publication Critical patent/CN111126071A/zh
Application granted granted Critical
Publication of CN111126071B publication Critical patent/CN111126071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本说明书提供了提问文本数据的确定方法、装置和客服群的数据处理方法。在一个实施例中,提问文本数据的确定方法通过从客服群的聊天记录中获取目标文本数据后,先调用事先训练好的对应于第一业务场景的第一处理模型从目标文本数据中提取出第一业务场景特有的区别于第二业务场景的第一特征向量,以及第一业务场景和第二业务场景共有的通用的第二特征向量;进一步,再通过第一处理模型综合利用上述第一特征向量、第二特征向量这两种不同的特征向量来确定目标文本数据是否为客户成员的提问文本数据。从而能够协助客服群中的客服成员自动地较为准确、及时地发现识别出第一业务场景的客服群中客户成员提出的问题。

Description

提问文本数据的确定方法、装置和客服群的数据处理方法
技术领域
本说明书属于互联网技术领域,尤其涉及提问文本数据的确定方法、装置和客服群的数据处理方法。
背景技术
为了能更好地服务客户,使客户在使用业务服务时具有较好的使用体验。业务服务的服务提供方往往会基于QQ、微信等社交软件为使用该项业务服务的客户们建立对应的客服群。该客服群中配备有客服成员,负责为客服群中的客户成员答疑解惑,以及时解决、处理客户成员在使用该业务服务时碰到的问题或麻烦。通常客户成员在使用上述业务服务时出现了问题,或者有不清楚的地方,可以通过在客服群的聊天对话框中发布相应的文本数据,以提出需要客服成员解答处理的问题。客服成员在看到客户成员在客服群中发布的问题后,会及时进行相应的答复、处理。
目前,亟需一种能够协助客服成员自动地从客户群中的文本数据中较为准确地发现识别出需要客服成员答复处理的客户提问文本数据的方法。
发明内容
本说明书提供了一种提问文本数据的确定方法、装置和客服群的数据处理方法,以便能够有效地协助客服成员自动地发现并识别出第一业务场景的客服群中客户成员提出的提问文本数据。
本说明书提供的一种提问文本数据的确定方法、装置和客服群的数据处理方法是这样实现的:
一种提问文本数据的确定方法,包括:从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群;调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
一种提问文本数据的确定方法,包括:从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群;调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景和第三业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景、第三业务场景共有的特征向量;通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
一种客服群的数据处理方法,包括:采集客服群中成员发布的文本数据作为目标文本数据,其中,所述客服群为第一业务场景的客服群;调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;并根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客户成员的提问文本数据;在确定所述目标文本数据为客服群中的客户成员的提问文本数据的情况下,提示客服群中的客服成员答复所述提问文本数据。
一种提问文本数据的确定装置,包括:获取模块,用于从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群;提取模块,用于调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;确定模块,用于通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群;调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
本说明书提供的一种提问文本数据的确定方法、装置和客服群的数据处理方法,在从客服群的聊天记录中获取目标文本数据后,先调用事先训练好的对应于第一业务场景的第一处理模型从目标文本数据中提取出第一业务场景特有的区别于第二业务场景的第一特征向量,以及第一业务场景和第二业务场景共有的通用的第二特征向量;进一步,再通过第一处理模型综合上述第一特征向量、第二特征向量这两种不同的特征向量来确定目标文本数据是否为客服群中的客户成员的提问文本数据。从而能够协助客服群中的客服成员自动从客服群的文本数据中较为准确、及时地发现识别出该业务场景下客服群中的客户成员提出的问题,以便客服成员可以及时进行答复处理,避免遗漏。
附图说明
为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是应用本说明书实施例提供的提问文本数据的确定方法的***结构组成的一个实施例的示意图;
图2是在一个场景示例中,应用本说明书实施例提供的提问文本数据的确定方法的一种实施例的示意图;
图3是在一个场景示例中,应用本说明书实施例提供的提问文本数据的确定方法的一种实施例的示意图;
图4是在一个场景示例中,应用本说明书实施例提供的提问文本数据的确定方法的一种实施例的示意图;
图5是在一个场景示例中,应用本说明书实施例提供的提问文本数据的确定方法的一种实施例的示意图;
图6是在一个场景示例中,应用本说明书实施例提供的提问文本数据的确定方法的一种实施例的示意图;
图7是在一个场景示例中,应用本说明书实施例提供的提问文本数据的确定方法的一种实施例的示意图;
图8是本说明书的一个实施例提供的提问文本数据的确定方法的流程示意图;
图9是本说明书的一个实施例提供的客服群的数据处理方法的流程示意图;
图10是本说明书的一个实施例提供的模型训练方法的流程示意图;
图11是本说明书的一个实施例提供的模型训练方法的流程示意图;
图12是本说明书的一个实施例提供的服务器的结构组成示意图;
图13是本说明书的一个实施例提供的提问文本数据的确定装置的结构组成示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例提供一种应用于第一业务场景的客服群中,用于发现识别该客服群中客户成员提出的问题的***。该***具体可以包括服务器和采集端设备。具体可以参阅图1所示。其中,采集端设备可以预先布设于第一业务场景的客服群中。并且采集端设备与服务器耦合,相互之间可以进行数据交互。所述客服群具体可以包括第一业务场景的客服群,该客服群中具体可以包括多个客户成员和至少一个客服成员。在客服群中,客户成员和客服成员可以通过发布文本数据,例如,对话语句等,进行交流互动。
具体实施时,上述采集端设备具体可以用于从客户群的聊天记录中采集待识别的文本数据,例如,客服群中某成员发布的对话语句等,作为目标文本数据,并将上述目标文本数据发送至服务器进行处理。上述服务器具体可以用于获取目标文本数据。调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量。再通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。上述服务器在确定目标文本数据为客户成员的提问文本数据的情况下,进一步可以将所述目标文本数据标注为客户成员的问题;生成并向客服群中的客服成员发送相应的提示信息,以提示客服成员答复所述客户成员的问题。从而可以协助客服成员发现、注意到客服群中的客户成员所提出的问题,以及时响应客户成员的问题,进行相应的答复处理,避免遗漏,提高客户成员的使用体验。
在本实施例中,所述服务器具体可以包括一种应用于业务平台一侧,能够实现数据传输、数据处理等功能的后台负责数据处理的服务器。具体的,所述服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,所述服务器也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。
在本实施例中,所述采集端设备具体可以包括一种能够实现数据采集、数据传输等功能的前端设备。具体的,所述采集端设备例如可以为采集器等实体电子设备。或者,所述采集端设备也可以为能够运行于实体电子设备中具有文本数据采集功能的软件应用。例如,可以是在手机上运行的用于采集客服群中的聊天记录的后台APP等。
在一个具体的场景示例中,可以参阅图2所示,XX电商平台上刚推出了一项新的业务服务:“快递查询”。具体的,用户可以在XX电商平台的首页面中的次一级业务服务项目栏中找到并点击“快递查询”的图标,进而可以自动跳转进入到“快递查询”的业务服务界面。在该“快递查询”的业务服务界面中,用户可以方便地查询到自己在XX电商平台购买的商品的快递信息。例如,负责配送的快递名称、当前商品的物流信息等等。
为了帮助用户解答、处理在使用“快递查询”这一新业务服务时碰到的问题,“快递查询”的服务提供方专门为使用该业务服务的用户建立了一个基于社交软件(例如,微信、QQ等)客服群。该客服群中具体可以包括多个使用“快递查询”业务服务的用户成员,以及至少一个由服务提供方安排的客服成员,例如客服成员Lucy。
具体实施时,用户如果在使用“快递查询”业务服务时,有疑问或遇到了麻烦,可以通过在该客服群的聊天对话框中发布对话语句(可以理解为一种文本数据),以提出自己需要客服成员帮忙解答处理的具体问题。
如图3所示,用户A不知道如何在“快递查询”中查询自己买的商品的物流信息,可以在客服群的对话聊天框里发布以下的对话语句:“请问下,怎样才能查到的我买的商品的快递物流?”。
这时,如果客服群中的客服成员看到了用户A在客服群中的发布的上述问题,会及时地针对用户A提出的问题进行答复。可以参阅图4所示,客服成员可以直接在客服群的聊天对话框中发布对话语句来答复用户A的提问:“亲,您可以在“快递查询”的首界面中找到并点击“物流信息查询”的图标进入查询界面,在查询界面的订单号输入框中输入您所购买的商品的订单号就能看到您商品的物流信息了”。
但是由于该客服群里的客户成员数量较多,一时间可能出现多个客户成员同时在客服群中提出多个问题的情况。这时,客服成员在答复上述多个客户同时提出的多个问题时,容易出现遗漏。
此外,上述客户群的聊天对话框中还会出现大量的不需要客服成员进行答复处理的文本数据。例如,不同的客户成员之间也会在该客服群中进行相互交流。可以参阅图5所示。用户B可以通过在客服群的聊天对话框中发布针对用户C的提问语句,来向用户C咨询如何领取XX电商平台的优惠券。用户D可以通过在客服群发布类似“祝大家节日快乐”等问候语句,向客服群里的其他成员打招呼问好等。这类文本数据并不是针对客服成员的提问文本数据,不需要客服成员进行答复处理。但这类文本数据会对客服成员发现、确定真正需要答复处理的客户成员提出的问题造成干扰。尤其当这类不需要客服成员答复处理的文本数据数量较多时,可能会淹没客服群中客户成员的提问的文本数据,导致客服成员答复处理时出现遗漏,不能及时、高效答复处理群里客户成员提出的问题。
在本场景示例中,具体实施时,可以通过预先布设在客服群中的采集端设备每隔预设时间段,例如,每隔两秒,截取该客服群的聊天对话框中该预设时间段出现的聊天记录,并将聊天记录发送至服务器。再由服务器对聊天记录中所包含的该预设时间里客服群的群成员发布的文本数据逐一进行识别、处理,以确定出该段聊天记录中是否存在需要客服成员答复、处理的客户的提问文本数据。如果存在,则可以及时标注出该文本数据,并提示客服成员及时进行答复、处理,避免遗漏。
具体的,服务器在接收到采集端设备采集发送来的聊天记录后,可以先从聊天记录中提取出客服群的群成员发布的每一段文本数据作为对应的一个目标文本数据。
例如,可以先从聊天记录中提取出一段文本数据:“请问下,怎样才能查到的我买的商品的快递物流?”作为待处理的目标文本数据。再调用预先训练好的,对应于“快递查询”的客服服务场景(可以记为第一业务场景)的第一处理模型对上述目标文本数据进行具体的处理,以确定出该目标文本数据是否是客户提问的文本数据。
具体实施时,可以参阅图6所示,服务器可以将上述目标文本数据作为模型输入,输入至第一处理模型中。再运行第一处理模型,得到对应的模型输出。根据模型输出,确定出该目标文本数据是否为客服群中的客户成员的提问文本数据。
其中,上述第一处理模型具体可以包括一种对应于当前的“快递查询”的客服服务场景,预先通过学***台上其他业务服务(例如“外卖服务”、“打车服务”等)的客服服务场景的样本数据进行学习训练所得到的模型。
具体的,参阅图6所示,上述第一处理模型至少可以包括预先训练好的第一编码器(可以记为Encoder1等)、第二编码器(可以记为Encoder_share等)以及分类器(可以记为classifier1)。
上述第一处理模型在具体运行时,可以先通过第一处理模型中的第一编码器从目标文本数据中提取得到第一特征向量;通过第一处理模型中的第二编码器从目标文本数据中提取到第二特征向量。
其中,上述第一特征向量具体可以包括一种当前“快递查询”的客服服务场景所特有的,区别于其他业务服务的客服服务场景的,能够反映出在当前“快递查询”的客服服务场景中,客户的提问文本数据与该场景的关联特征的特征向量(可以称为私有特征向量)。上述第二特征向量具体可以包括一种当前“快递查询”的客服服务场景与其他业务服务的客服务场景所共有的,能够反映出在“快递查询”的客服服务场景,以及其他业务服务的客服服务场景中,客户的提问文本数据所具有的共性、通用的特征的特征向量。
第一处理模型在按照上述分别得到第一特征向量和第二特征向量这两种不同的特征向量后,可以对上述两个不同的特征向量进行拼接,得到一个能够综合反映目标文本数据的特征的目标特征向量。
进一步,第一处理模型可以将上述目标特征向量再输入至第一处理模型中已经训练好的分类器中。上述分类器可以根据上述目标特征向量确定出该目标特征向量所对应的文本数据为用户的提问文本数据的概率值。进而分类器可以根据该概率值确定出该目标文本数据是否为客户的提问文本数据,得到对应的分类识别结果,作为第一处理模型的模型输出。服务器可以通过第一处理模型获取并根据输出的该分类识别结果,较为准确地判断出目标文本数据是否为客户的提问文本数据。
服务器在根据上述第一处理模型的模型输出,确定目标文本数据为客户成员的提问文本数据后,可以将该目标文本数据标注为客户成员的问题。例如,可以在该目标文本数据上添加一个待处理问题的标签等。接着生成对应的提示信息,并将该提示信息发送给客服群中的客服成员,以提示客服成员注意并及时答复该目标文本数据所包含的客户问题。
当然,具体实施时,服务器也可以先确定出目标文本数据的发布者。进而可以将提示信息,连同目标文本数据,以及发布者信息一同发送给客服成员。这样客服成员在接收到提示信息后,可以根据提示信息直接获取到目标文本数据,以及目标文本数据的发布者信息。而不需要自己在客服群中查找该目标文本数据,以及相应的发布者。从而可以根据目标文本数据的发布者信息,确定提出发布该目标文本数据的客户成员。根据目标文本数据确定出该客户成员所提出的具体问题。再针对该客户成员进行答复、处理。更加高效地答复处理客户成员提出的问题。
服务器在根据上述第一处理模型的模型输出,确定目标文本数据不是客户成员的提问文本数据后,可以结束对该目标文本数据的处理。从聊天记录中提取下一段文本数据作为一段新的目标文本数,重复上述处理。
通过上述方式,可以协助客服成员自动对客服群的聊天对话框中的文本数据进行处理确定,以高效、及时地从大量的文本数据中发现识别出客户成员的提问文本数据,反馈给客服成员,从而可以有效地避免客服成员遗漏掉客户成员在客服群中提出的问题,及时地答复处理客户成员的问题,提高客服群中客户成员的使用体验。
在另一个具体的场景示例中,需要预先要建立对应于上述新推出的“快递查询”业务服务的客服服务场景的第一处理模型。由于该业务服务是XX电商平台新推出的一项业务服务,所以目前可以获取到的针对该项业务服务的客服服务场景的样本数据相对较少。这种情况下,如果单独地只利用“快递查询”业务服务的客服服务场景的样本数据来训练上述第一处理模型,训练效果往往不够理想,训练得到的第一处理模型的准确度可能会相对较差,不符合要求。
相对于“快递查询”业务服务,“外卖服务”很早就已经在XX电商平台上进行应用推广应用了。因此,XX电商平台目前积累拥有大量“外卖服务”的客服服务场景的样本数据。
虽然“外卖服务”的客服服务场景和新推出的“快递查询”的客服服务场景业务场景不同,两者存在许多区别。但是,两种业务场景中客服群客户成员的提问文本数据往往还会存在许多相同的通用特征。例如,通过对两种业务场景下的样本数据的对比发现,上述两种业务场景下客服群中的客户的提问文本数据大多都会包含有相同或者相近的表征疑问的关键词,例如“请问”、“怎么”、“如何”等,以及相同或者相近的表征疑问的符号,例如“?”等。后续第一处理模型在具体确定目标文本数据是否为提问文本数据时,也会使用并基于上述通用特征来生成对应的第二特征向量。当然,上述所列举的通用特征只是一种示意性说明。具体实施时,根据具体情况,两种业务场景还可以包含有其他的通用特征。对此,本说明书不作限定。
又由于“快递查询”的客服服务场景的样本数据相对较少,考虑可以引入“外卖服务”的客服服务场景的样本数据作为用于主要训练第一处理模型中负责提取“快递查询”的客服服务场景中的通用特征、生成对应的第二特征向量的模型结构,来扩充、丰富训练第一处理模型时的样本数据,提高训练效果。
同时,又为了避免“外卖服务”的客服服务场景的样本数据中携带的“外卖服务”的客服服务场景的私有特征对第一处理模型的训练产生偏置作用,造成识别误差。例如,由于偏置作用可能会导致所训练的第一处理模型将在“外卖服务”的客服服务场景中属于客户的提问文本数据,但在“快递查询”的客服服务场景中属于客户的提问文本数据错误地识别成了客户的提问文本数据,从而出现误差。为了避免出现上述情况,进一步,还可以在第一处理模型的训练过程中引入对抗训练,以使得在训练过程中主要利用“外卖服务”的客服服务场景的样本数据来训练第一处理模型提取两种业务场景的通用特征、生成第二特征向量的能力,而不会被“外卖服务”的客服服务场景的样本数据的私有特征干扰和影响。这样可以较好地引入其他业务场景中的样本数据,作为一种样本数据补充参与到第一处理模型的模型训练中,又不会由于其他业务场景中的样本数据产生偏置,造成干扰影响,从而可以在“快递查询”的客服服务场景样本数据较少的情况下,充分地利用其他业务场景的样本数据,训练得到效果相对较好、准确度相对较高的第一处理模型。
基于上述考虑,服务器在具体训练第一处理模型时,可以先建立初始的第一处理模型。其中,该初始的第一处理模型具体可以包括:初始的第一编码器、初始的第二编码器、初始的分类器和来源判别器(可以记为Discriminator)等模型结构。参阅图7所示。
其中,上述来源判别器具体可以包括一种利用MLP(Multiple Layer Perceptron,多层感知器)和Softmax(一种逻辑回归模型)构建的分类模型,通过来源判别器可以识别出特征向量是否来源于“快递查询”的客服服务场景,或者是来源于“外卖服务”的客服服务场景。
在本场景示例中,上述初始的第二编码器具体可以是一种预先利用“外卖服务”的客服服务场景的样本数据进行初步训练后得到的编码器。
进一步,服务器可以获取当前“快递查询”的客服服务场景的样本数据。例如,采集该业务场景中的测试群里客户成员、客服成员在测试群的聊天对话框中输入的文本数据作为样本数据。并对上述样本数据进行标注。
具体标注时,服务器可以将上述文本数据中为客户成员发布的提问文本数据确定为正样本数据,并设置对应的标注参数为1。相对的,将其他类型的文本数据,例如,客服成员发布的文本数据,或者客户成员发布的除提问文本数据之外的其他类型文本数据(例如,问候型的文本数据等)确定为负样本数据,并设置对应的标注参数为0。从而完成了对样本数据的标注,得到对应于“快递查询”业务服务的客服服务场景的标注后的样本数据。
接着,可以利用上述标注后的样本数据训练初始的第一处理模型,通过不断训练,不断地优化、调整初始的第一处理模型中各个模型结构的模型参数,直到得到效果相对较好、准确度相对较高的模型,作为符合要求的第一处理模型。
下面以对标注后的样本数据中的一个标注后的样本数据进行学习训练为例,具体说明如何利用标注后的样本数据训练初始的第一处理模型。
服务器可以先利用初始的第一处理模型中的初始的第一编码器从标注后的样本数据中提取出第一特征向量,利用初始的第二编码器从标注后的样本数据中提取出第二特征向量。在利用初始的第二编码器提取得到第二特征向量后,可以将该第二特征向量输入来源判别器;并利用来源判别器对所提取的第二特征向量进行来源判别,以确定所提取的第二特征向量是否为来源“快递查询”,作为对应的场景来源判别结果。进而,可以根据来上述源判别结果确定出对应的第一损失函数。
在得到第一特征向量和第二特征向量后,服务器还会控制初始的第一处理模型拼接第一特征向量和第二特征向量,得到目标特征向量。并将上述目标特征相量输入至初始的分类器中进行处理,以根据目标特征向量确定出该样本数据是否为正样本数据,即是否为客户发布的提问文本数据,得到对应的分类识别结果。进而,可以根据分类识别结果和标注后的样本数据的标注参数,确定出对应的第二损失函数。
再根据第一损失函数和第二损失函数,调整、优化当前初始的第一处理模型中的各个具体模型结构(包括初始的第一编码器、初始的第二编码器和初始的分类器等)的模型参数。
按照上述方式,可以通过对多个标注后得样本数据进行多次的学习、训练,以对模型参数进行多次的优化、调整,直到优化、调整后的模型满足两个预设条件,确定得到了符合要求的第一处理模型。
其中,上述两个预设条件的一个条件包括:通过模型中的场景来源判别器无法准确地识别出第二特征向量是来源于“快递查询”的客服服务场景。这时可以说明通过目前优化、调整后的第一处理模型中的第二编码器已经可以较为准确地提取得到“快递查询”和“外卖服务”的客服服务场景中通用的特征向量,而不会提取到两个业务场景中分别特有的私有特征向量了。上述两个预设的条件中的另一个条件包括:通过模型中的分类器得到的分类识别结果与标注参数的误差值小于预设阈值。这时可以说明通过目前优化、调整后的第一处理模型能够较为准确地提取出目标特征向量,并根据目标特征向量确定出文本数据是否为客户成员的提问文本数据。
在确定模型满足上述两个预设条件时,可以停止训练,将当前的优化、调整后的第一处理模型作为符合要求的第一处理模型,得到了效果较好、准确度较高的第一处理模型。
通过上述方式得到的第一处理模型中的第一编码器能够有效地从“快递查询”的客服服务场景的文本数据中提取与该业务场景相关的不同于其他场景的第一特征向量。这样得到的第一处理模型中的第二编码器能够较有效地从“快递查询”的客服服务场景下的文本数据中提取该业务场景与其他业务场景所共有用于反映提问文本数据特征的通用的第二特征向量。根据上述第一特征向量和第二特征向量所得到的目标特征向量能够较为全面地反映出文本数据的特征。进而可以通过上述第一处理模型中的分类器基于上述目标特征向量较为准确地确定出该文本数据是否为当前“快递查询”的客服服务场景下的用户的提问文本数据。
在具体模型训练过程中,还可以继续获取“外卖服务”的客服服务场景的样本数据单独输入至第一处理模型中的第二编码器,参与对第二编码器的训练。
通过上述方式,对于任意一个新接入的业务场景,都能够有效地利用其他业务场景的样本数据,在避免其他业务场景的样本数据的偏置作用带来的影响的情况下,高效地训练得到对应于新接入的业务场景的,能够较为准确地识别判断出新接入的业务场景中客服群里的客户成员的提问文本数据的处理模型,从而降低了模型的训练成本,提高了训练模型的准确度,也提高了模型的训练效率。
参阅图8所示,本说明书实施例提供了一种提问文本数据的确定方法,其中,该方法具体应用于服务器一侧。具体实施时,该方法可以包括以下内容。
S801:从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群。
在一些实施例中,上述客服群具体可以包括一种业务服务的服务提供方针对使用该业务服务的客户所建立的用于处理解决客户在使用该业务服务时遇到的问题、困难的交流群。上述客服群具体可以包括一种基于社交软件的群组功能所建立的群组。例如,微信客服群、钉钉客服群等等。
在本实施例中,上述客服群的群成员中具体可以包括多个客户成员,和至少一个客服成员。
其中,客服群中的客户成员在使用该业务服务时如果什么疑问,或者碰到了什么问题、麻烦,都可以通过在客服群的聊天对话框中通过具体的发布文本数据,例如对话语句,在客服群中进行提问,以寻求帮助。客服群中的客服成员在看到客户成员在客服群中发布的问题后,会及时地进行答复和处理。当然,客户成员在该客服群中还可以发布除了用于提问的文本数据外,其他的类型的文本数据。例如,发布与其他客户成员进行交流的文本数据,例如问候类型的文本数据。对于这类文本数据客服成员可以不用进行答复处理。此外,该客服群的聊天对话框中还会出现许多客服成员发布的文本数据。例如,客服成员答复客户成员的问题时发布的文本数据,客服成员在客服群中发布通知信息时的文本数据,以及客服成员在客服群中发布的问候类型的文本数据等等。这类文本数据,客服成员也不需要进行答复处理。
在一些实施例中,上述第一业务场景具体可以包括一种业务服务的客服服务场景。当然,上述第一业务场景还可以是除业务服务的客服服务场景以外其他类型的业务场景。例如,还可以是公司的工作业务场景等等。对此,本说明书不作限定。
在一些实施例中,上述目标文本数据具体可以是客服群中任意一个群成员在客服群的聊天对话框中发布的一段文本语句。例如,上述目标文本数据,可以是客服群中用户M在客服群的聊天对话框中发布的问候类的语句“大家好!”。也可以是客服群中用户N在客服群的聊天对话框中与另一位用户T聊天时发布的对话语句“你吃了吗?”。也可以是客服群中用户V在客服群的聊天对话框中向客服提问时发布的提问语句“怎么办理退款?”。还可以是客服在客服群的聊天对话框中发布的通知类语句“请大家登入APP账户领取红包!”等等。当然,上述所列举的目标文本数据只是一种示意性说明。具体实施时,根据具体的业务场景,上述目标文本数据还可以包括其他类型、内容的文本数据。对此,本说明书不作限定。
在一些实施例中,具体实施时,服务器可以每隔预设时间段,通过采集端设备获取该段时间段客服群的对话聊天框中的聊天记录。其中,上述聊天记录中包含有该时间段客服群中群成员发布的文本数据。进而服务器可以从上述聊天记录中提取出客服群中群成员发布的文本数据作为待处理的目标文本数据。
在一些实施例中,具体实施时,服务器还可以控制采集端设备实时监测客服群的聊天对话框中发布的文本数据,在监测客服群中有群成员发布了一个新的文本数据时,及时采集该新的文本数据,并将该新的文本数据作为一个目标文本数据发送给服务器,从而服务器获取到了目标文本数据。
在一些实施例中,服务器在从客服群的聊天记录中获取目标文本数据后,为了减少后续的数据处理量,提高数据处理效率,可以先对所获取的目标文本数据进行筛选过滤。只对筛选过滤后的目标文本数据进行后续的处理识别。
具体的,例如,服务器可以通过检测目标文本数据的发布者,筛选过滤掉客服成员发布的文本数据。服务器还可以通过对目标文本数据进行语义识别,筛选过滤掉客户成员发布的问候类的文本数据等。服务器还可以通过检测目标文本数据与邻近范围内其他文本数据之间的关联关系,筛选过滤掉明显不是要求客服成员答复处理的文本数据,例如,客户请求其他客户答复处理的文本数据等等。通过上述方式,可以预先筛选排出大量明显不是客户的提问文本数据的文本数据,有效地降低了后续需要进行处理的目标文本数据的数据量。
S803:调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量。
在一些实施例中,上述第二业务场景具体可以包括一种与第一业务场景所对应的业务服务不同的业务服务的客服服务场景。例如,第一业务场景可以为A业务服务的客服服务场景,第二业务场景可以为B业务服务的客服场景。
在一些实施例中,上述第一处理模型具体可以包括一种对应于第一业务场景的,预先通过对第一业务场景,以及其他业务场景(例如,第二业务场景)的样本数据进行学习训练得到的,能够确定出第一业务场景下客服群中的文本数据是否为客户成员发布的提问文本数据的模型。
在一些实施例中,上述第一特征向量具体可以包括第一业务场景所特有的,区别于其他业务场景的,能够反映出第一业务场景中,客户成员的提问文本数据与第一业务场景的关联特征的特征向量。上述第二特征向量具体可以包括第一业务场景与其他业务场景(例如,第二业务场景),所共有的,能够反映出在第一业务场景,以及其他业务场景中,客户的提问文本数据所具有共性特征的特征向量。
在一些实施例中,具体实施时,服务器可以将目标文本数据作为一种模型输入,将该目标文本数据输入至第一处理模型,并运行第一处理模型,通过第一处理模型从目标文本数据中提取上述第一特征向量和第二特征向量两种不同的特征向量。
在一些实施例中,上述第一处理模型至少可以包括已经训练好的第一编码器和已经训练好的第二编码器。其中,上述第一编码器具体可以用于从目标文本数据中提取第一特征向量,上述第二编码器具体可以用于从目标文本数据中提取第二特征向量。上述第二编码器具体是预先通过对第一业务场景的样本数据和第二业务场景的样本数据进行学习训练得到的。
第一处理模型具体运行时,可以将目标文本数据分别输入至上述第一编码器和第二编码器,进而可以通过第一编码器对目标文本数据进行处理,输出第一特征向量;通过第二编码器对目标文本数据进行处理,输出第二特征向量。
在一些实施例中,上述第一编码器(可以记为Encoder1)具体可以包括:已经训练好的第一词嵌入向量模型(WordEmbedding)和已经训练好的第一LSTM(Long Short TermMemory,长短期记忆网络)。第一编码器具体处理时,可以先通过第一词嵌入向量模型将目标文本数据中的多个词按顺序依次转换成一定长度的词向量,得到对应该目标文本数据的表示向量。再将上述目标文本数据的表示向量输入至第一LSTM中进行处理,得到对应的特征向量,作为第一编码器的输出,即第一特征向量。
上述第二编码器(可以记为Encoder share,也可以称为共享编码器)与第一编码器相似,具体可以包括:已经训练好的第二词嵌入向量模型和已经训练好的第二LSTM。第二编码器具体处理时,可以先通过第二词嵌入向量模型将目标文本数据中的多个词按顺序依次转换成一定长度的词向量,得到对应该目标文本数据的表示向量。再将上述目标文本数据的表示向量输入至第二LSTM中进行处理,得到对应的特征向量,作为第二编码器的输出,即第二特征向量。
S805:通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
在一些实施例中,上述客户成员的提问文本数据,具体可以包括客户成员在客服群中发布的,需要客服成员进行答复处理的文本数据。
在一些实施例中,服务器在通过第一处理模型从目标文本数据中提出第一特征向量和第二特征向量,进一步还可以通过运行第一处理模型,利用第一处理模型根据第一特征向量和第二特征向量这两种不同的特征向量,综合地确定目标文本数据是否为客服群中的客户成员的提问文本数据。
在一些实施例中,上述第一处理模型还可以包括已经训练好的分类器(可以记为classifier1)。第一处理模型具体运行时,可以先将第一特征向量和第二特征向量进行拼接,得到拼接后的特征向量作为能够综合、全面地反映目标文本数据的特征的目标特征向量。再将目标特征向量作为输入,输入至上述分类器中。通过上述分类器根据目标特征向量确定出目标特征向量为客户的提问文本数据的概率值,再根据该概率值,确定出目标文本数据是否为客户的提问文本数据,作为分类器输出的分类识别结果,输出第一处理模型。进而服务器可以根据该分类识别结果,确定出目标文本数据是否是需要客服成员答复处理的客户成员发布的提问文本数据。
在一些实施例中,上述分类器具体可以包括已经训练好的MLP(Multiple LayerPerceptron,多层感知器)和已经训练好的Softmax(一种逻辑回归模型)等结构。上述分类器具体对目标特征向量进行处理是时,可以先将目标特征向量输入至MLP中进行处理,得到对应的输出数据。再将上述输出数据输入至Softmax通过逻辑回归判断出目标文本数据是否为客户成员发布的提问文本数据,从而得到对应的分类识别结果。
在一些实施例中,服务器在通过调用第一处理模型对目标文本数据进行处理,得到对应的分类识别结果后,可以根据该分类识别结果确定出该目标文本数据是否为客服群中客户成员的提问文本数据。
在一些实施例中,在确定目标文本数据不是客户成员的提问文本数据的情况下,服务器可以删除该目标文本数据,并从聊天记录中获取下一段文本数据作为新的目标文本数据,并对上述新的目标文本数据是否为客户的提问文本数据进行处理。
在一些实施例中,在确定目标文本数据是客户成员的提问文本数据的情况下,服务器可以将该目标文本数据标注为客户成员的问题。具体的,例如,服务器可以在该目标文本数据上添加一个用于表征待处理的客户问题的便签。进一步,服务器可以针对该目标文本数据,生成对应的提示信息,并将该提示信息发送至客服群中的客服成员以便客服成员及时地答复处理该目标文本数据所表示的用户的问题。
在一些实施例中,在确定目标文本数据是客户成员的提问文本数据的情况下,服务器可以将标注为客户的问题的目标文本数据,连同提示信息一同发送给客服成员。以便客服成员在接收到提示信息后,可以从提示信息中直接读取目标文本数据,了解到客户的问题,而不需要再在客服群的聊天对话框中重新查找目标文本。从而可以提高客服成员的处理效率,以便更加高效地答复处理客户的问题。
基于上述方法,通过从客服群的聊天记录中获取目标文本数据后,先调用事先训练好的对应于第一业务场景的第一处理模型从目标文本数据中提取出第一业务场景特有的区别于第二业务场景的第一特征向量,以及第一业务场景和第二业务场景共有的通用的第二特征向量;进一步,再通过第一处理模型综合上述第一特征向量、第二特征向量这两种不同的特征向量来确定目标文本数据是否为客户成员的提问文本数据。从而能够自动地从客服群的文本数据中较为准确、及时地发现识别出该业务场景下客服群中的客户成员提出的问题。
在一些实施例中,在确定所述目标文本数据为客服群中的客户成员的提问文本数据的情况下,所述方法具体实施时,还可以包括以下内容:将所述目标文本数据标注为客户成员的问题;生成并向客服群中的客服成员发送提示信息,以提示所述客服成员答复所述客户成员的问题。
在一些实施例中,所述第一处理模型至少可以包括以下模型结构:第一编码器和第二编码器。其中,所述第一编码器具体可以用于从目标文本数据中提取第一特征向量。所述第二编码器具体可以用于从目标文本数据中提取第二特征向量。所述第二编码器具体可以包括一种根据第一业务场景的样本数据和第二业务场景的样本数据进行训练得到的编码器。
在一些实施例中,所述第一处理模型具体还可以包括分类器。相应的,上述通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据,具体实施时,可以包括以下内容:通过第一处理模型拼接所述第一特征向量和所述第二特征向量,得到对应于目标文本数据的目标特征向量;通过第一处理模型中的分类器,根据所述目标特征向量,确定所述目标文本数据是否为客户成员的提问文本数据。
在一些实施例中,所述第一处理模型具体可以按照以下方式通过对第一业务场景的样本数据和第二业务场景的样本数据进行学习、训练获取。
S1:获取第一业务场景的样本客服群中的成员发布的文本数据作为样本数据。
在本实施例中,具体实施时,可以在进行与第一业务场景相关的测试之前,先为参与测试的成员建立客服群作为样本客服群。在测试阶段,可以采集样本客服群中群成员在样本客服的聊天对话框中发布的文本数据作为样本数据。
S2:标注所述样本数据,得到标注后的样本数据。
在一些实施例中,具体可以对每个样本数据的分布者、内容进行识别,以确定样本数据是否为样本客服群中的客户成员发布的提问文本数据。
在确定所述样本数据为客户成员发布的提问文本数据的情况下,可以将所述样本数据标注为正样本数据;在确定所述样本数据不是客户成员发布的提问文本数据的情况下,可以将所述样本数据标注为负样本数据。
在一些实施例中,具体实施时,可以将上述正样本数据的标注参数设置为第一预设值,例如,设置为“1”。将上述负样本数据的标注参数设置为第二预设值,例如,设置为“0”。从而得到的标注后的样本数据可以有效地区分出样本数据是否为客户成员发布的提问文本数据。当然,需要说明的是,上述所列举的标注方式只是一种示意性说明。具体实施时,根据具体情况,也可以采用其他合适的方式对样本数据进行标注。对此,本说明书不作限定。
S3:建立初始的第一处理模型,其中,所述初始的第一处理模型至少包括:初始的第一编码器、初始的第二编码器、初始的分类器,其中,所述初始的第二编码器包括预先对第二业务场景的样本数据进行训练后得到的编码器。
在本实施例中,具体实施时,可以先构建初始的第一编码器、初始的第二编码器、初始的分类器;再根据上述初始的第一编码器、初始的第二编码器、初始的分类器,建立初始的第一处理模型。
在一些实施例中,具体实施时,在构建初始的第二编码器时,可以先利用第二业务场景的样本数据对编码器模型进行一段时间针对提取第二业务场景的第二特征向量的训练,得到训练后的编码器,作为上述初始的第二编码器。这样得到的初始的第二编码器已经具备了一定的体悟第一业务场景的第二特征向量的能力。
在一些实施例中,为了避免其他业务场景,例如第二业务场景对第一处理模型的偏置作用,可以在构建初始的第一处理模型时引入来源判别器。这样后续在具体进行模型训练时,可以通过来源判别器引入一定的对抗训练,来消除其他业务场景带来的偏置作用。
在一些实施例中,具体的,上述初始的第一处理模型还可以包括来源判别器。其中,上述来源判别器可以用于判别第二编码器输出的第二特征向量的业务场景来源。
S4:利用标注后的样本数据训练所述初始的第一处理模型,得到符合要求的第一处理模型。
在一些实施例中,具体实施时,可以利用标注后的样本数据对初始的第一处理模型进行多次学习训练,以对第一处理模型中各个模型参数进行多次的优化、调整,得到符合要求的第一处理模型。
下面以对标注后的样本数据中的一个标注后的样本数据进行学习训练为例,说明具体如何利用标注后的样本数据在进行迁移学习时,引入对抗新来,来对初始的第一处理模型进行学习训练。具体训练时,可以包括以下内容。
利用初始的第一编码器从所述标注后的样本数据中提取第一特征向量;利用初始的第二编码器从所述标注后的样本数据中提取第二特征向量;利用所述来源判别器对所述第二特征向量进行业务场景来源的判别,得到场景来源判别结果。拼接所述第一特征向量和第二特征向量,得到目标特征向量;利用初始的分类器对所述目标特征向量进行分类识别,得到对应的分类识别结果。根据所述分类识别结果、所述场景来源判别结果和所述标注后的样本数据,调整初始的第一处理模型中的模型参数。
在一些实施例中,在利用所述来源判别器对所述第二特征向量进行业务场景来源的判别,得到场景来源判别结果之前,所述方法具体实施时,还可以包括以下内容:还利用所述第二编码器从第二业务场景的样本数据中提取第二特征向量。
在一些实施例中,具体实施时,可以综合所述分类识别结果、所述场景来源判别结果和所述标注后的样本数据的标注参数,有针对性地对初始的第一处理模型中各个模型结构的具体模型参数进行优化、调整。
在一些实施例中,具体可以根据来源判别结果确定出对应的第一损失函数。后续可以通过利用第一损失函数对模型参数进行修改调整,以引入对抗训练。
具体实施时,例如,可以按照以下算式,综合基于多个样本数据得到的来源判别结果来确定第一损失函数:
Figure BDA0002299047270000171
Figure BDA0002299047270000172
其中,上述LAdv具体可以表示为第一损失函数,θD具体可以表示为来源判别器参数,λ具体可以表示为对抗训练的预设参数,K具体可以表示为业务场景的总数,Nk具体可以表示为编号为k的业务场景的多个样本数据的总数,di k具体可以表示为编号为i样本数据所属的业务场景,D具体可以表示判别函数,E具体可以表示为编码函数,xk具体可以表示为属于业务场景k的样本数据,D(E(xk))具体可以表示为来源判别结果,
Figure BDA0002299047270000173
具体可以表示为属于业务场景k的样本数据的第二特征向量,U具体可以表示为第一模型参数,b具体可以表示为第二模型参数,其中,上述第一模型参数和第二模型参数根据来源判别器参数确定,soft具体可以表示soft函数。
在本场景示例中,由于只引入了第二业务场景的样本数据来训练对应于第一业务场景的第一处理模型。因此,训练过程中只涉及到两种不同的业务场景,相应的K的具体数值可以设置为2。如果,进一步还引入了其他更多的业务场景的样本数据来训练对应于第一业务场景的第一处理模型,上述K的取值可以为大于2的其他数值。
在一些实施例中,可以根据分类识别结果与标注后的样本数据,确定出对应的第二损失函数。
具体实施时,例如,可以按照以下算式,综合多个分类识别结果,来确定第二损失函数:
Figure BDA0002299047270000181
Figure BDA0002299047270000182
其中,LTask具体可以表示为第二损失函数,k具体可以表示为业务场景的编号,K具体可以表示为业务场景的总数,αk具体可以表示为任务权重,N具体可以表示为样本数据数,C具体可以表示样本数据的类目数,
Figure BDA0002299047270000183
具体可以表示为编号为i的样本数据在类目j下的预测概率,
Figure BDA0002299047270000184
具体可以表示为编号为j的样本数据在类目j下的实际概率,其中,
Figure BDA0002299047270000185
可以根据标注后的样本数据确定,
Figure BDA0002299047270000186
可以根据分类识别结果确定。
在一些实施例中,进一步可以根据上述第一损失函数和第二损失函数,对第一处理模型中模型参数进行优化调整。按照上述,通过对多个标注后的样本数据进行学习训练,从而对第一处理模型中的模型参数进行多次的优化调整,直到得到了符合要求的第一处理模型后,可以停止模型训练。
具体实施时,例如,可以按照以下算式根据上述第一损失函数和第二损失函数,确定出用于对模型进行优化调整的目标损失函数,以便根据该目标损失函数对第一处理模型中的模型参数进行优化调整:
Loss=LTask+λLAdv
其中,上述Loss具体可以表示为目标损失函数,LTask具体可以表示第二损失函数,LAdv具体可以表示为第一损失函数,λ具体可以表示为预设的损失模型参数。
在一些实施例中,上述符合要求的第一处理模型具体可以包括同时满足第一预设条件和第二预设条件的第一处理模型。其中,上述第一预设条件具体可以包括:通过模型中的场景来源判别器无法准确地识别出第二特征向量是来源于第一业务场景还是其他的业务场景。这时可以说明通过目前优化、调整后的第一处理模型中的第二编码器已经可以较为准确地提取得到第一业务场景和其他的业务场景中通用的特征向量。上述第二预设条件具体可以包括:通过模型中的分类器得到的分类识别结果与标注参数的误差值小于预设阈值。这时可以说明通过目前优化、调整后的第一处理模型能够较为准确地提取出目标特征向量,并根据目标特征向量能够较为准确地判断出该文本数据是否为第一业务场景的客服群中的客户成员的提问文本数据。
在本实施例中,可以获取第二业务场景的样本数据,并将上述第二业务场景的样本数据单独输入第二编码器,利用所述第二编码器从第二业务场景的样本数据中提取第二特征向量,以训练第二编码器提取第一业务场景和第二业务场景共有的第二特征向量的能力。这样可以扩充用于训练第二编码器的样本数据的数据量,得到更好的训练效果。
由上可见,本说明书实施例提供的提问文本数据的确定方法,通过从客服群的聊天记录中获取目标文本数据后,先调用事先训练好的对应于第一业务场景的第一处理模型从目标文本数据中提取出第一业务场景特有的区别于第二业务场景的第一特征向量,以及第一业务场景和第二业务场景共有的通用的第二特征向量;进一步,再通过第一处理模型综合上述第一特征向量、第二特征向量这两种不同的特征向量来确定目标文本数据是否为客户成员的提问文本数据。从而能够自动地从客服群的文本数据中较为准确、及时地发现识别出该业务场景下客服群中的客户成员提出的问题。还在确定出目标文本数据为提问文本数据的情况下,进一步将目标文本数据标注为客户成员的问题,并提示客服群中的客服成员,以便客服成员能够及时、高效地进行答复,提高了客服群中数据处理效率,改善了客服群中客户成员的使用体验。还通过先引入能够用于提取第一业务场景的特有的特征向量的第一编码器,以及预先利用第二业务场景的样本数据进行训练后得到的能够用于提取第一业务场景和第二业务场景共有的通用特征向量的第二编码器,来建立初始的第一处理模型;在模型训练过程中,通过引入并利用来源判别器对第二编码器出的第二特征向量进行业务场景来源判别,得到场景来源判别结果,以在模型训练中进行对抗训练,从而能够消除使用第二业务场景的样本数据带来的偏置作用,有效地利用第二业务场景的样本数据参与对应于第一业务场景的第一处理模型的训练中,丰富充实了用于训练第一处理模型的样本数据,使得再第一业务场景的样本数据量较少的情况下,也可以训练得到效果较好的第一处理模型。
参阅图9所示,本说明书实施例还提供了一种客服群的数据处理方法,以达到协助客服群的客服成员自动发现群里客户成员提出的问题,及时进行答复处理。其中,该方法具体实施时,可以包括以下内容。
S901:采集客服群中成员发布的文本数据作为目标文本数据,其中,所述客服群为第一业务场景的客服群。
S903:调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;并根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客户成员的提问文本数据。
S905:在确定所述目标文本数据为客服群中的客户成员的提问文本数据的情况下,提示客服群中的客服成员答复所述提问文本数据。
在一些实施例中,由于客服群中聊天对话框中往往会存在许多的文本数据,导致客服成员很难及时地发现客户成员在客服群的聊天对话框中发布的提问文本数据,甚至遗漏掉客户成员所发布的提问文本数据,使得没有及时地答复处理客户成员提出的问题,影响客户的使用体验。通过上述方式,可以自动对客服群的聊天对话框中出现的文本数据进行识别、确定,从而能及时、准确识别并确定客户成员发布的提问文本数据,提示客服成员及时地对客户成员发布的提问文本数据的问题进行答复处理,提高了客服群中客服成员的答复处理效率,改善了客服群中客户的使用体验。
本说明书实施例还提供了另一种提问文本数据的确定方法,具体实施时,可以包括以下内容:从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群;调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景和第三业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景、第三业务场景共有的特征向量;通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
在本实施例中,可以利用第二业务场景和第三业务场景两个区别与第一业务场景的样本数据来训练对应于第一业务场景的第一处理模型,进而可以利用该第一处理模型较为准确识别、地确定出第一业务场景下,客服群中客户成员的提问文本数据。
在本实施例中,需要说明的是,按照上述方式在引入第二业务场景、第三业务场景的样本数据的基础上,进一步还可以引入第四业务场景,甚至更多其他业务场景的样本数据来参与训练对应于第一业务场景的第一处理模型,从而能够有效地保证训练第一处理模型的样本数据量,使得到第一处理模型能够较为准确地识别确定第一业务场景下的客服群中的客户成员发布的提问文本数据。
本说明书实施例还提供了一种模型训练方法。具体的,参阅图10所示,该方法可以包括以下内容。
S1001:获取第一业务场景的样本客服群中的成员发布的文本数据作为样本数据;
S1003:标注所述样本数据,得到标注后的样本数据;
S1005:建立初始的第一处理模型,其中,所述初始的第一处理模型至少包括:初始的第一编码器、初始的第二编码器、初始的分类器,其中,所述初始的第二编码器包括预先对第二业务场景的样本数据进行训练后得到的编码器;
S1007:利用标注后的样本数据训练所述初始的第一处理模型,得到符合要求的第一处理模型。
在本实施例中,通过上述模型训练方法可以有效地综合利用第一业务场景和第二业务场景的样本数据,通过迁移学习,训练得到对应于第一业务场景的用于确定客服群中的客户成员的提问文本数据的第一处理模型。
如果第一业务场景自身的样本数据较少,例如,新接入的规模较小的业务服务方(也可以包括平台新接入的长尾租户),通过上述方式可以有效地利用其他业务场景累积的样本数据,来弥补第一业务场景的样本数据的不足,训练得到效果较好的第一处理模型。
在一些实施例中,所述初始的第一处理模型具体还可以包括来源判别器。相应的,利用标注后的样本数据训练所述初始的第一处理模型,包括:利用初始的第一编码器从所述标注后的样本数据中提取第一特征向量;利用初始的第二编码器从所述标注后的样本数据中提取第二特征向量;利用所述来源判别器对所述第二特征向量进行来源利用所述来源判别器对所述第二特征向量进行业务场景来源的判别,得到场景来源判别结果;拼接所述第一特征向量和第二特征向量,得到目标特征向量;利用初始的分类器对所述目标特征向量进行分类识别,得到对应的分类识别结果;根据所述识别结果、根据所述分类识别结果、所述场景来源判别结果和所述标注后的样本数据,调整初始的第一处理模型中的模型参数。
在本实施例中,通过利用来源判别器,对第二编码器得到的第二特征向量进行业务场景来源的判别,得到对应的场景来源判别结果;进而可以根据场景来源判别结果,引入对抗训练,根据场景来源判别结果对第一处理模型的模型参数进行调整,直到来源判别器对通过第二编码器得到的第二特征向量,无法辨别出该第二特征向量的场景来源为止。从而能够有效地降低引用第二业务场景的样本数据带来的偏置作用对应用于第一业务场景的处理模型的影响,提高了模型的针对性和准确度。
本说明书实施例还提供了一种同时训练两个业务场景下的处理模型的模型训练方法。具体的,可以参阅图11所示,该方法可以包括以下内容。
S1:获取第一业务场景的样本客服群中的成员发布的文本数据作为第一样本数据,以及第二业务场景的样本客户群中的成员发布的文本数据作为第二样本数据。
S2:标注所述第一样本数据和第二样本数据,得到标注后的第一样本数据和标注后的第二样本数据。
S3:建立初始的第一处理模型,其中,所述初始的第一处理模型至少包括:初始的第一编码器、初始的第二编码器、初始的第一分类器;建立初始的第二处理模型,其中,所述初始的第二处理模型至少包括:初始的第三编码器、初始的第二编码器、初始的第二分类器;其中,初始的第二编码器为初始的第一处理模型和初始的第二处理模型共享的编码器。
S4:利用标注后的第一样本数据训练所述初始的第一处理模型,利用标注后的第二样本数据训练所述初始的第二处理模型,得到符合要求的第一处理模型,以及符合要求的第二处理模型。
在本实施例中,通过上述方式进行训练,可以有效地利用两个不同业务场景的样本数据来训练分别对应于两个业务场景的第一处理模型和第二处理模型,从而能够弥补单独利用一个业务场景的样本数据训练所对应的业务场景的处理模型时可能存在样本数据不够的问题。
在本实施例中,通过上述方式进行训练,可以使得训练后的第二编码器能够较为准确地从文本数据中提取出第一业务场景和第二业务场景共有通用的第二特征向量。使得训练后的第一编码器能够较为准确地提取出第一业务场景特有的特征向量(记为第一特征向量)。使得训练后的第二编码器能够较为准确地提取出第二业务场景特有的特征向量(记为第三特征向量)。进而可以使得训练后的第一处理模型的第一分类器能够综合共有的第二特征向量,以及第一业务场景特征有的特征向量,较为准确地识别确定出第一业务场景下的客服群中客户成员的提问文本数据。可以使得训练后的第二处理模型的第二分类器能够综合共有的第二特征向量,以及第二业务场景特征有的特征向量,较为准确地识别确定出第二业务场景下的客服群中客户成员的提问文本数据。提高了模型训练效率。
本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群;调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
为了能够更加准确地完成上述指令,参阅图12所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口1201、处理器1202以及存储器1203,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口1201,具体可以用于从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群。
所述处理器1202,具体可以用于调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
所述存储器1203,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口1201可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的80号端口,也可以是负责进行FTP数据通信的21号端口,还可以是负责进行邮件数据通信的25号端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器1202可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器1203可以包括多个层次,在数字***中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在***中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了一种基于上述提问文本数据的确定方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群;调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图13所示,在软件层面上,本说明书实施例还提供了一种提问文本数据的确定装置,该装置具体可以包括以下的结构模块。
获取模块1301,具体可以用于从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群;
提取模块1303,具体可以用于调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;
确定模块1305,具体可以用于通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
在一些实施例中,所述装置具体还可以包括提示模块,所述提示模块具体可以用于在确定所述目标文本数据为客服群中的客户成员的提问文本数据的情况下,将所述目标文本数据标注为客户成员的问题;生成并向客服群中的客服成员发送提示信息,以提示所述客服成员答复所述客户成员的问题。
在一些实施例中,所述第一处理模型至少可以包括:第一编码器和第二编码器,其中,所述第一编码器具体可以用于从目标文本数据中提取第一特征向量,所述第二编码器具体可以用于从目标文本数据中提取第二特征向量,所述第二编码器包括根据第一业务场景的样本数据和第二业务场景的样本数据进行训练得到的编码器。
在一些实施例中,所述第一处理模型具体还可以包括分类器,相应的,
所述确定模块具体用于通过第一处理模型拼接所述第一特征向量和所述第二特征向量,得到对应于目标文本数据的目标特征向量;通过第一处理模型中的分类器,根据所述目标特征向量,确定所述目标文本数据是否为客户成员的提问文本数据。
在一些实施例中,所述装置具体还可以包括建模模块,用于建立第一处理模型。所述建模模块具体可以包括以下结构单元:
获取单元,具体可以用于获取第一业务场景的样本客服群中的成员发布的文本数据作为样本数据;
标注单元,具体可以用于标注所述样本数据,得到标注后的样本数据;
建立单元,具体可以用于建立初始的第一处理模型,其中,所述初始的第一处理模型至少包括:初始的第一编码器、初始的第二编码器、初始的分类器,其中,所述初始的第二编码器包括预先对第二业务场景的样本数据进行训练后得到的编码器;
训练单元,具体可以用于利用标注后的样本数据训练所述初始的第一处理模型,得到符合要求的第一处理模型。
在一些实施例中,所述标注单元具体可以包括以下结构子单元:
确定子单元,具体可以用于确定所述样本数据是否为客户成员发布的提问文本数据;
标注子单元,具体可以用于在确定所述样本数据为客户成员发布的提问文本数据的情况下,将所述样本数据标注为正样本数据;在确定所述样本数据不是客户成员发布的提问文本数据的情况下,将所述样本数据标注为负样本数据。
在一些实施例中,所述初始的第一处理模型具体还可以包括来源判别器。
在一些实施例中,所述训练单元具体用于利用初始的第一编码器从所述标注后的样本数据中提取第一特征向量;利用初始的第二编码器从所述标注后的样本数据中提取第二特征向量;利用所述来源判别器对所述第二特征向量进行业务场景来源的判别,得到场景来源判别结果;拼接所述第一特征向量和第二特征向量,得到目标特征向量;利用初始的分类器对所述目标特征向量进行分类识别,得到对应的分类识别结果;根据所述分类识别结果、所述场景来源判别结果和所述标注后的样本数据,调整初始的第一处理模型中的模型参数。
在一些实施例中,所述获取模块1301具体还可以用于获取第二业务场景的样本数据;所述提取模具体还可以用于利用所述第二编码器从第二业务场景的样本数据中提取第二特征向量。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,本说明书实施例提供的提问文本数据的确定装置,通过获取模块从客服群的聊天记录中获取目标文本数据后;先通过提取模块调用事先训练好的对应于第一业务场景的第一处理模型从目标文本数据中提取出第一业务场景特有的区别于第二业务场景的第一特征向量,以及第一业务场景和第二业务场景共有的通用的第二特征向量;进一步,再通过确定模块调用第一处理模型综合利用上述第一特征向量、第二特征向量这两种不同的特征向量来确定目标文本数据是否为客户成员的提问文本数据。从而能够自动地较为准确、及时地发现识别出第一业务场景的客服群的文本数据中客户成员提出的问题。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (21)

1.一种提问文本数据的确定方法,包括:
从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群;
调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;
通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
2.根据权利要求1所述的方法,在确定所述目标文本数据为客服群中的客户成员的提问文本数据的情况下,所述方法还包括:
将所述目标文本数据标注为客户成员的问题;
生成并向客服群中的客服成员发送提示信息,以提示所述客服成员答复所述客户成员的问题。
3.根据权利要求1所述的方法,所述第一处理模型至少包括:第一编码器和第二编码器,其中,所述第一编码器用于从目标文本数据中提取第一特征向量,所述第二编码器用于从目标文本数据中提取第二特征向量,所述第二编码器包括根据第一业务场景的样本数据和第二业务场景的样本数据进行训练得到的编码器。
4.根据权利要求3所述的方法,所述第一处理模型还包括分类器,相应的,
通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据,包括:
通过第一处理模型拼接所述第一特征向量和所述第二特征向量,得到对应于目标文本数据的目标特征向量;
通过第一处理模型中的分类器,根据所述目标特征向量,确定所述目标文本数据是否为客户成员的提问文本数据。
5.根据权利要求1所述的方法,所述第一处理模型按照以下方式获取:
获取第一业务场景的样本客服群中的成员发布的文本数据作为样本数据;
标注所述样本数据,得到标注后的样本数据;
建立初始的第一处理模型,其中,所述初始的第一处理模型至少包括:初始的第一编码器、初始的第二编码器、初始的分类器,其中,所述初始的第二编码器包括预先对第二业务场景的样本数据进行训练后得到的编码器;
利用标注后的样本数据训练所述初始的第一处理模型,得到符合要求的第一处理模型。
6.根据权利要求5所述的方法,标注所述样本数据,包括:
确定所述样本数据是否为客户成员发布的提问文本数据;
在确定所述样本数据为客户成员发布的提问文本数据的情况下,将所述样本数据标注为正样本数据;
在确定所述样本数据不是客户成员发布的提问文本数据的情况下,将所述样本数据标注为负样本数据。
7.根据权利要求5所述的方法,所述初始的第一处理模型还包括来源判别器。
8.根据权利要求7所述的方法,利用标注后的样本数据训练所述初始的第一处理模型,包括:
利用初始的第一编码器从所述标注后的样本数据中提取第一特征向量;
利用初始的第二编码器从所述标注后的样本数据中提取第二特征向量;
利用所述来源判别器对所述第二特征向量进行业务场景来源的判别,得到场景来源判别结果;
拼接所述第一特征向量和第二特征向量,得到目标特征向量;
利用初始的分类器对所述目标特征向量进行分类识别,得到对应的分类识别结果;
根据所述分类识别结果、所述场景来源判别结果和所述标注后的样本数据,调整初始的第一处理模型中的模型参数。
9.根据权利要求8所述的方法,在利用所述来源判别器对所述第二特征向量进行业务场景来源的判别,得到场景来源判别结果之前,所述方法还包括:
获取第二业务场景的样本数据;
利用所述第二编码器从第二业务场景的样本数据中提取第二特征向量。
10.一种提问文本数据的确定方法,包括:
从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群;
调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景和第三业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景、第三业务场景共有的特征向量;
通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
11.一种客服群的数据处理方法,包括:
采集客服群中成员发布的文本数据作为目标文本数据,其中,所述客服群为第一业务场景的客服群;
调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;并根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客户成员的提问文本数据;
在确定所述目标文本数据为客服群中的客户成员的提问文本数据的情况下,提示客服群中的客服成员答复所述提问文本数据。
12.一种提问文本数据的确定装置,包括:
获取模块,用于从客服群的聊天记录中获取目标文本数据,其中,所述客服群为第一业务场景的客服群;
提取模块,用于调用对应于第一业务场景的第一处理模型从所述目标文本数据中提取出第一特征向量和第二特征向量,其中,所述第一特征向量包括第一业务场景区别于第二业务场景的特征向量,所述第二特征向量包括第一业务场景与第二业务场景共有的特征向量;
确定模块,用于通过第一处理模型根据所述第一特征向量,以及所述第二特征向量,确定所述目标文本数据是否为客服群中的客户成员的提问文本数据。
13.根据权利要求12所述的装置,所述装置还包括提示模块,所述提示模块用于在确定所述目标文本数据为客服群中的客户成员的提问文本数据的情况下,将所述目标文本数据标注为客户成员的问题;生成并向客服群中的客服成员发送提示信息,以提示所述客服成员答复所述客户成员的问题。
14.根据权利要求12所述的装置,所述第一处理模型至少包括:第一编码器和第二编码器,其中,所述第一编码器用于从目标文本数据中提取第一特征向量,所述第二编码器用于从目标文本数据中提取第二特征向量,所述第二编码器包括根据第一业务场景的样本数据和第二业务场景的样本数据进行训练得到的编码器。
15.根据权利要求12所述的装置,所述第一处理模型还包括分类器,相应的,
所述确定模块具体用于通过第一处理模型拼接所述第一特征向量和所述第二特征向量,得到对应于目标文本数据的目标特征向量;通过第一处理模型中的分类器,根据所述目标特征向量,确定所述目标文本数据是否为客户成员的提问文本数据。
16.根据权利要求12所述的装置,所述装置还包括建模模块,包括:
获取单元,用于获取第一业务场景的样本客服群中的成员发布的文本数据作为样本数据;
标注单元,用于标注所述样本数据,得到标注后的样本数据;
建立单元,用于建立初始的第一处理模型,其中,所述初始的第一处理模型至少包括:初始的第一编码器、初始的第二编码器、初始的分类器,其中,所述初始的第二编码器包括预先对第二业务场景的样本数据进行训练后得到的编码器;
训练单元,用于利用标注后的样本数据训练所述初始的第一处理模型,得到符合要求的第一处理模型。
17.根据权利要求16所述的装置,所述标注单元包括:
确定子单元,用于确定所述样本数据是否为客户成员发布的提问文本数据;
标注子单元,用于在确定所述样本数据为客户成员发布的提问文本数据的情况下,将所述样本数据标注为正样本数据;在确定所述样本数据不是客户成员发布的提问文本数据的情况下,将所述样本数据标注为负样本数据。
18.根据权利要求16所述的装置,所述初始的第一处理模型还包括来源判别器。
19.根据权利要求18所述的装置,所述训练单元具体用于利用初始的第一编码器从所述标注后的样本数据中提取第一特征向量;利用初始的第二编码器从所述标注后的样本数据中提取第二特征向量;利用所述来源判别器对所述第二特征向量进行业务场景来源的判别,得到场景来源判别结果;拼接所述第一特征向量和第二特征向量,得到目标特征向量;利用初始的分类器对所述目标特征向量进行分类识别,得到对应的分类识别结果;根据所述分类识别结果、所述场景来源判别结果和所述标注后的样本数据,调整初始的第一处理模型中的模型参数。
20.根据权利要求19所述的装置,所述获取模块还用于获取第二业务场景的样本数据;所述提取模还用于利用所述第二编码器从第二业务场景的样本数据中提取第二特征向量。
21.一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至9中任一项所述方法的步骤。
CN201911214274.XA 2019-12-02 2019-12-02 提问文本数据的确定方法、装置和客服群的数据处理方法 Active CN111126071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911214274.XA CN111126071B (zh) 2019-12-02 2019-12-02 提问文本数据的确定方法、装置和客服群的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911214274.XA CN111126071B (zh) 2019-12-02 2019-12-02 提问文本数据的确定方法、装置和客服群的数据处理方法

Publications (2)

Publication Number Publication Date
CN111126071A true CN111126071A (zh) 2020-05-08
CN111126071B CN111126071B (zh) 2023-05-12

Family

ID=70496826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911214274.XA Active CN111126071B (zh) 2019-12-02 2019-12-02 提问文本数据的确定方法、装置和客服群的数据处理方法

Country Status (1)

Country Link
CN (1) CN111126071B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364149A (zh) * 2021-01-12 2021-02-12 广州云趣信息科技有限公司 用户问题获得方法、装置及电子设备
CN113780610A (zh) * 2020-12-02 2021-12-10 北京沃东天骏信息技术有限公司 一种客服画像构建方法和装置
CN114491318A (zh) * 2021-12-16 2022-05-13 北京百度网讯科技有限公司 目标信息的确定方法、装置、设备以及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923689A (zh) * 2009-06-15 2010-12-22 ***通信集团公司 确定广告信息投放受众的方法以及相关装置
US20170155521A1 (en) * 2015-03-23 2017-06-01 Tencent Technology (Shenzhen) Company Limited Method and apparatus for processing group chat message
WO2018086040A1 (zh) * 2016-11-10 2018-05-17 深圳达闼科技控股有限公司 消息处理方法、装置和电子设备
CN109034864A (zh) * 2018-06-11 2018-12-18 广东因特利信息科技股份有限公司 提高广告投放精准度的方法、装置、电子设备及存储介质
CN109063100A (zh) * 2018-07-27 2018-12-21 联想(北京)有限公司 一种数据处理方法、服务器及电子设备
CN109299320A (zh) * 2018-10-30 2019-02-01 上海智臻智能网络科技股份有限公司 一种信息交互方法、装置、计算机设备和存储介质
CN109614464A (zh) * 2018-10-31 2019-04-12 阿里巴巴集团控股有限公司 用于业务问题识别的方法及装置
CN109740928A (zh) * 2018-12-29 2019-05-10 北京中电普华信息技术有限公司 电力咨询业务处理方法和装置
CN109768917A (zh) * 2019-01-16 2019-05-17 中民乡邻投资控股有限公司 一种基于群聊群组的问答服务方法
CN110083689A (zh) * 2019-03-20 2019-08-02 上海拍拍贷金融信息服务有限公司 客户服务质量检测方法及装置、可读存储介质
CN110119445A (zh) * 2018-01-15 2019-08-13 北京京东尚科信息技术有限公司 生成特征向量和基于特征向量进行文本分类的方法和装置
CN110209821A (zh) * 2019-06-06 2019-09-06 北京奇艺世纪科技有限公司 文本类别确定方法和装置
CN110287318A (zh) * 2019-06-06 2019-09-27 秒针信息技术有限公司 业务操作的检测方法及装置、存储介质、电子装置
CN110287285A (zh) * 2019-05-31 2019-09-27 平安科技(深圳)有限公司 一种问题意图识别方法、装置、计算机设备及存储介质
CN110363556A (zh) * 2018-04-11 2019-10-22 阿里巴巴集团控股有限公司 确定用户问题的方法、服务器、客户端及***
CN110472041A (zh) * 2019-07-01 2019-11-19 浙江工业大学 一种面向客服在线质检的文本分类方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923689A (zh) * 2009-06-15 2010-12-22 ***通信集团公司 确定广告信息投放受众的方法以及相关装置
US20170155521A1 (en) * 2015-03-23 2017-06-01 Tencent Technology (Shenzhen) Company Limited Method and apparatus for processing group chat message
WO2018086040A1 (zh) * 2016-11-10 2018-05-17 深圳达闼科技控股有限公司 消息处理方法、装置和电子设备
CN110119445A (zh) * 2018-01-15 2019-08-13 北京京东尚科信息技术有限公司 生成特征向量和基于特征向量进行文本分类的方法和装置
CN110363556A (zh) * 2018-04-11 2019-10-22 阿里巴巴集团控股有限公司 确定用户问题的方法、服务器、客户端及***
CN109034864A (zh) * 2018-06-11 2018-12-18 广东因特利信息科技股份有限公司 提高广告投放精准度的方法、装置、电子设备及存储介质
CN109063100A (zh) * 2018-07-27 2018-12-21 联想(北京)有限公司 一种数据处理方法、服务器及电子设备
CN109299320A (zh) * 2018-10-30 2019-02-01 上海智臻智能网络科技股份有限公司 一种信息交互方法、装置、计算机设备和存储介质
CN109614464A (zh) * 2018-10-31 2019-04-12 阿里巴巴集团控股有限公司 用于业务问题识别的方法及装置
CN109740928A (zh) * 2018-12-29 2019-05-10 北京中电普华信息技术有限公司 电力咨询业务处理方法和装置
CN109768917A (zh) * 2019-01-16 2019-05-17 中民乡邻投资控股有限公司 一种基于群聊群组的问答服务方法
CN110083689A (zh) * 2019-03-20 2019-08-02 上海拍拍贷金融信息服务有限公司 客户服务质量检测方法及装置、可读存储介质
CN110287285A (zh) * 2019-05-31 2019-09-27 平安科技(深圳)有限公司 一种问题意图识别方法、装置、计算机设备及存储介质
CN110209821A (zh) * 2019-06-06 2019-09-06 北京奇艺世纪科技有限公司 文本类别确定方法和装置
CN110287318A (zh) * 2019-06-06 2019-09-27 秒针信息技术有限公司 业务操作的检测方法及装置、存储介质、电子装置
CN110472041A (zh) * 2019-07-01 2019-11-19 浙江工业大学 一种面向客服在线质检的文本分类方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780610A (zh) * 2020-12-02 2021-12-10 北京沃东天骏信息技术有限公司 一种客服画像构建方法和装置
CN112364149A (zh) * 2021-01-12 2021-02-12 广州云趣信息科技有限公司 用户问题获得方法、装置及电子设备
CN112364149B (zh) * 2021-01-12 2021-04-23 广州云趣信息科技有限公司 用户问题获得方法、装置及电子设备
CN114491318A (zh) * 2021-12-16 2022-05-13 北京百度网讯科技有限公司 目标信息的确定方法、装置、设备以及存储介质
CN114491318B (zh) * 2021-12-16 2023-09-01 北京百度网讯科技有限公司 目标信息的确定方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN111126071B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN107391359B (zh) 一种业务测试方法及装置
CN106919661B (zh) 一种情感类型识别方法及相关装置
CN107872772B (zh) 诈骗短信的检测方法及装置
CN109514586B (zh) 实现智能客服机器人的方法及***
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理***
CN111126071B (zh) 提问文本数据的确定方法、装置和客服群的数据处理方法
CN113383362B (zh) 用户识别方法及相关产品
CN111931189B (zh) Api接口转用风险检测方法、装置和api服务***
CN112291423B (zh) 通信呼叫智能应答处理方法、装置、电子设备及存储介质
CN110598008A (zh) 录制数据的数据质检方法及装置、存储介质
CN111783415B (zh) 模板配置方法以及装置
CN112328802A (zh) 数据处理方法、装置和服务器
CN109614464A (zh) 用于业务问题识别的方法及装置
CN117251547A (zh) 用户提问应答方法及其装置、设备、介质
CN114860742A (zh) 基于人工智能的ai客服交互方法、装置、设备及介质
CN110972086A (zh) 短信息处理方法、装置、电子设备及计算机可读存储介质
CN110717012A (zh) 语术推荐方法、装置、设备和存储介质
CN113420230A (zh) 基于群聊的匹配咨询推送方法、相关装置、设备及介质
CN116775815B (zh) 对话数据的处理方法、装置、电子设备及存储介质
CN111464687A (zh) 一种陌生呼叫请求的处理方法及装置
CN115221892A (zh) 工单数据处理方法及装置、存储介质及电子设备
CN114253957A (zh) 数据处理方法、相关设备、存储介质及计算机程序产品
CN113449506A (zh) 一种数据检测方法、装置、设备及可读存储介质
CN114065187A (zh) 异常登录检测方法、装置、计算设备及存储介质
CN113422810A (zh) 向服务提供商发送信息的方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant