CN114091476A

CN114091476A - 对话识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114091476A
Application number: CN202111372165.8A
Authority: CN
Inventors: 王珍珠; 张建
Original assignee: Beijing Taou Science & Technology Development Co ltd
Current assignee: Beijing Taou Science & Technology Development Co ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-25

Abstract

本申请实施例提供了一种对话识别方法、装置、电子设备及计算机可读存储介质，涉及自然语言理解领域。该方法包括：响应于选中目标聊天对话的操作，展示对话识别控件，向用户提供了一种直观便捷的识别对话的触发方式，响应于触发对话识别控件，展示目标聊天对话经对话识别后的识别结果，其中对话识别结果用于指示目标聊天对话是否包括诈骗信息，通过分析目标聊天对话的文本内容，直观的展示对话识别结果，避免有不良目的的用户对正常用户的错误引导，导致用户时间、金钱上的损失。

Description

对话识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及自然语言理解技术领域，具体而言，本申请涉及一种对话识别方法、装置、电子设备及计算机可读存储介质。

背景技术

随着网络技术的发展，人们在日常生活中可以通过终端设备连接互联网实时了解各种各样的信息，尤其对于职场社交领域，招聘者和求职者可以通过具有即时通讯功能的软件进行聊天对话，以进行招聘和求职。

现有技术中一般使用基于词频的方法(term frequency–inverse documentfrequency，TF-IDF)对文本进行语义识别，具体地步骤一般为基于分词词典将文本内容进行切词，然后计算其中每个词的出现的频率，提取或选出关键词，进而确定该文本的语义。

对于用户之间沟通产生的聊天对话的文本内容，由于聊天常用词在与时俱进的更新，现有技术中基于分词词典进行分词时，存在分词不够准确的问题，需要定期维护分词词典；并且假设性太强，根据词频来衡量聊天对话的语义不够全面，存在某些关键词出现的频率很少，但其语义很重要，例如诈骗信息，现有技术无法识别出来。

发明内容

本申请实施例提供了一种对话识别方法、装置、电子设备及计算机可读存储介质，可以解决上述问题。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种对话识别方法，该方法包括：

响应于选中目标聊天对话的操作，展示对话识别控件；

响应于触发对话识别控件，展示目标聊天对话经对话识别后的识别结果；

其中，识别结果用于指示目标聊天对话是否包括诈骗信息。

在一个可能的实现方式中，响应于触发对话识别控件，展示目标聊天对话经对话识别后的识别结果，包括：

将目标聊天对话的文本内容输入预先训练的对话识别模型中，获得对话识别模型输出的文本内容中包括诈骗信息的概率；

若确定概率大于或等于预设阈值，则确定识别结果为目标聊天对话包括诈骗信息；

其中，对话识别模型是以预先获取到的样本聊天对话的文本内容为训练样本，以样本聊天对话的文本内容中是否包括诈骗信息为训练标签训练而成。

在另一个可能的实现方式中，对话识别模型的训练过程包括：

获取训练样本和训练标签，训练样本包括第一文本和第二文本；第一文本包括诈骗信息；第二文本不包括诈骗信息；训练标签用于表征相应的训练样本是否包括诈骗信息；

以训练样本和训练标签对初始神经网络模型训练，以获得对话识别模型。

在又一个可能的实现方式中，将目标聊天对话的文本内容输入预先训练的对话识别模型中，之前还包括：

将目标聊天对话的文本内容中的每一条对话文本按照每一条对话文本产生的时间顺序排列；

若确定任意相邻的两句对话文本为同一对话对象产生的，则使用第一预设字符拼接相邻的两条对话文本，获得拼接后的文本内容，和/或，若确定相邻的两条对话文本为不同对话对象产生的，则使用第二预设字符拼接相邻的两条对话文本，获得拼接后的文本内容。

在又一个可能的实现方式中，初始神经网络为BERT模型。

在又一个可能的实现方式中，获得对话识别模型，之后还包括：

根据对话识别模型，结合预设的Flask应用框架，搭建web服务；

web服务被调用时用于根据对话识别模型识别目标聊天对话。

在又一个可能的实现方式中，确定识别结果为目标聊天对话包括诈骗信息，之后还包括：

屏蔽具有诈骗信息的目标聊天对话的发起者。

根据本申请实施例的另一个方面，提供了一种对话识别装置，该装置包括：

第一响应模块，用于响应于选中目标聊天对话的操作，展示对话识别控件；

第二响应模块，用于响应于触发对话识别控件，展示目标聊天对话经对话识别后的识别结果；

其中，识别结果用于指示目标聊天对话是否包括诈骗信息。

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，处理器执行计算机程序以实现上述的对话识别方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的对话识别方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例的对话识别方法，通过响应于选中目标聊天对话的操作，展示对话识别控件，向用户提供了一种直观便捷的识别对话的触发方式，响应于触发对话识别控件，展示目标聊天对话经对话识别后的识别结果，其中对话识别结果用于指示目标聊天对话是否包括诈骗信息，通过分析目标聊天对话的文本内容，直观的展示对话识别结果，避免有不良目的的用户对正常用户的错误引导，导致用户时间、金钱上的损失。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的实现对话的识别方法的实施环境的示意图；

图2为本申请实施例提供的一种对话识别方法的流程示意图；

图3为本申请实施例提供的一种在聊天对话的展示界面上展示对话识别控件的示意图；

图4为本申请实施例提供的一种聊天对话的文本内容的展示图；

图5为本申请实施例提供的一种对话识别结果的展示示意图；

图6为本申请实施例提供的一种应用web服务的流程示意图；

图7为本申请实施例提供的一种对话识别装置的结构示意图；

图8为本申请实施例提供的一种对话识别的电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”指示实现为“A”，或者实现为“A”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

自然语言理解(Natural-language understanding,NLU)在文本信息处理处理***中扮演着非常重要的角色。它可以是使自然语言结构化，比如分词、词性标注、句法分析等；也可以是表征学习，字、词、句子的向量表示(Embedding)，构建文本表示的文本分类；可以是信息提取，如信息检索(包括个性化搜索和语义搜索，文本匹配等)，又如信息抽取(命名实体提取、关系抽取、事件抽取等)。

BERT模型，全称Bidirectional Encoder Representation from Transformers，即基于Transformer的双向语言表征模型，一般包括12层，与其他语言模型不同，BERT本质上是利用Transformer结构构造了一个多层双向的Encoder网络，百万量级训练语料无监督的预训练语言模型，然后特定任务语料有监督进行二次微调模型，适用于广泛的业务场景，针对具体任务无需做大幅度的架构调整。

Flask，是一个轻量级的可定制框架，使用Python语言编写，较其他同类型框架更为灵活、轻便、安全且容易上手。它可以很好地结合MVC 模式进行开发，开发人员分工合作，小型团队在短时间内就可以完成功能丰富的中小型网站或Web服务的实现。另外，Flask还有很强的定制性，用户可以根据自己的需求来添加相应的功能，在保持核心功能简单的同时实现功能的丰富与扩展，其强大的插件库可以让用户实现个性化的网站定制，开发出功能强大的网站。

现有技术中一般使用基于词频的方法(term frequency–inverse documentfrequency，TF-IDF)进行自然语言的语义识别，具体地步骤一般为基于分词词典将文本内容进行切词，然后计算其中每个词的出现的频率，提取或选出关键词，进而确定该文本的语义，然而这种方式可能存在如下问题：

(1)分词不够准确，分词词典维护的成本较高，如聊天常用词在与时俱进的更新，需要定期维护分词词典，来确保分词能够满足当前需求，需要耗费较多的资源。

(2)假设性太强，若某个词出现的次数非常多，那么一般而言这个词在这篇文本中的重要性会越高，但真实情况下，可能有些词出现的次数很少，但这些词可能是代表诈骗等危险意图的，无法识别出来，例如聊天对话中“某国”只出现过一次，其词频虽然很低，但其语义包含诈骗意图， TF-IDF无法准确判断出来。

(3)用词出现的频率衡量文本，如聊天对话时，有时重要的词出现的次数很少而且可能并不是完整的词，无法识别其语义，造成语义理解出现错误的问题，例如“某国维和部队”这一词是已知含有诈骗意图的，但“去某国找工作”可能会被认为是正常的求职对话。

本申请提供的对话识别方法、装置、电子设备及计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图1为本申请实施例提供的实现对话的识别方法的实施环境的示意图，其中，实施环境1000可以包括终端设备1100、1200、1300中的一种或多种，网络1400和服务器1500。网络1400用以在终端设备1100、 1200、1300和服务器1500之间提供通信链路的介质。网络1400可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器150可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***等。

用户可以使用终端设备1100、1200、1300通过网络140与服务器150 交互，以完成聊天对话的识别。终端设备110、120、130可以是支持即时通讯的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机、台式计算机、可穿戴设备、虚拟现实设备等等。

终端上安装有服务器1500提供服务的目标应用程序，目标应用程序可以为应用程序或者操作***，目标应用程序为即时通讯提供环境。例如，目标应用程序可以是聊天类应用程序、浏览器、多媒体播放器、导航类应用程序等等。再如，目标应用程序可以为安卓(Android)操作***，会话验证可以具有目标应用程序的快应用实现，目标应用程序为用于提供会话验证的快应用提供运行环境。

服务器1500可以是提供各种服务的服务器，特别是提供对话的识别服务的服务器。

本申请实施例中提供了一种对话识别方法，如图2所示，该方法包括：

S101、响应于选中目标聊天对话的操作，展示对话识别控件。

本申请实施例应用在职场社交环境中的即时通讯中，具体地，例如招聘方与候选人之间的交流沟通，可以理解的是，在本申请的具体实施方式中，涉及到用户信息，即用户的对话等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

聊天对话是用户基于互联网，通过具体的通讯工具与其他用户进行实时沟通时，产生的具体沟通内容，本申请实施例可以在即时通讯软件中的聊天对话的展示界面中进行，本申请实施例不作具体限定。

图3为本申请实施例提供的一种在聊天对话的展示界面上展示对话识别控件的示意图，如图3所示，左图中示出了多个聊天对话，包括聊天对话-1、聊天对话-2、聊天对话-3。用户可以通过长按的方式选中聊天对话的展示界面中的一个聊天对话，作为目标聊天对话，如左图中所示的选中聊天对话-3作为目标聊天对话；此时会弹出操作子界面10，如图3中的中图所示，操作子界面10包括置顶控件、消息免打扰控件、删除控件以及更多控件等等，当用户点击置顶控件，该目标聊天对话会被置顶在聊天对话的展示界面的顶端；当用户点击消息免打扰控件，该目标聊天对话中的新消息不在进行提示；当用户点击删除控件，该目标聊天对话会被删除；应当注意的是，本申请实施例中新增一个对话识别控件，当用户点击更多控件时，进一步展示对话识别控件20，如图3中的右图所示，当用户触发对话识别控件20，则会对目标聊天对话进行对话识别。

应当理解的是，图3中的聊天对话的展示界面的样式、操作逻辑以及展示效果仅为示例，本申请实施例不做具体限定，

S102、响应于触发对话识别控件，展示目标聊天对话经对话识别后的识别结果。

当用户触发对话识别控件，则开始对选中的目标聊天对话的文本内容进行识别，判断目标聊天对话中是否包括诈骗信息，也即目标聊天对话的聊天记录的文本内容中有没有涉及诈骗信息的文本内容，若确定目标聊天对话包括诈骗信息，则表示目标聊天对话为诈骗对话；若确定目标聊天对话不包括诈骗信息，则表示目标聊天对话为正常对话。

本申请实施例中不仅可以用户主动对聊天对话进行识别，还可以通过处于后台的服务器获取用户的部分权限，当用户授予该部分权限给服务器时，服务器可以获取到用户的聊天对话进行对话识别，本申请实施例中以用户主动进行聊天对话的对话识别为例进行描述，本申请实施例不作具体限定。

具体地，本申请实施例中的识别结果用于指示目标聊天对话是否包含诈骗信息，诈骗信息可以预先由专业人员标注出，例如“某地”为诈骗信息，若确定目标聊天对话中包含有该诈骗信息，则表示目标聊天对话为诈骗对话，本申请实施例中对于诈骗信息的具体内容不作具体限定，具体地对话识别过程在后续的实施例中进行描述。

下面结合一个具体的例子进行说明，图4为本申请实施例示例性提供的一种聊天对话的文本内容的展示图，如图4所示，图4中左图为诈骗回话，右图为正常对话，其中，对话对象包括用户A和用户B，具体的聊天对话的文本内容如图4中图所示，这里不在进行赘述，应当理解的是，图 4中聊天对话的文本内容仅为示例，本申请实施例不作具体限定。

如图4中左图所示，用户A的一句对话文本为“我在某地帮助照顾受伤的士兵，你叫什么名字？现在有工作吗？”，其中，涉及“某地”这一诈骗信息，因此，左图展示的聊天对话为诈骗对话，而右图中的聊天对话的文本内容不涉及诈骗信息，因此，右图为正常对话。

图5为本申请实施例示例性提供的一种对话识别结果的展示示意图，如图5所示，展示的界面为一个弹窗界面，其中包括“该聊天对话为诈骗对话！”的提示信息，用于表征目标聊天对话中包括诈骗信息。

应当理解的是，本申请实施例对应如何展示目标聊天对话的对话阿识别结果的方式不作具体的限制，除了上述图5的方式，还可以其他方式进行展示。

本申请实施例中提供了一种可能的实现方式，响应于触发对话识别控件，展示目标聊天对话经对话识别后的识别结果，包括：

将选中的目标聊天对话的文本内容输入预先训练的对话识别模型中，获得对话识别模型输出的文本内容中包括诈骗信息的概率；

若确定概率大于或等于预设阈值，则确定识别结果为目标聊天对话包括诈骗信息。

本申请实施例中当用户触发对话识别控件后，服务器可以获取到用户选中的目标聊天对话的文本内容，以对目标聊天对话的文本内容进行分析，具体地，本申请实施例中将用户选中的目标聊天对话的文本内容输入预先训练的对话识别模型中，通过对话识别模型对目标聊天对话的文本内容进行预测分析，获得对话识别模型输入的文本内容中包括诈骗信息的概率。

具体地，本申请实施例中的对话识别模型在训练时使用的训练标签包括两种，例如以二进制0和1为训练标签，0表示样本聊天对话中不包括诈骗信息，1表示样本聊天对话中包括诈骗信息，对话模型输出的识别结果例如可以是[0.3，0.7]，表示样本聊天对话中不包括诈骗信息的概率为 0.3，样本聊天对话中包括诈骗信息的概率为0.7。

应当理解的是，对话识别模型预先训练好的，在本申请实施例中进行使用，对话识别模型是以预先获取到的样本聊天对话的文本内容为训练样本，以样本聊天对话的文本内容中是否包括诈骗信息为训练标签训练而成的，获得的对话识别模型能够根据输入的聊天对话的文本内容，准确预测出该聊天对话的文本内容中包括诈骗信息的概率。

应当理解的是，对话识别模型作为一种神经网络模型，其输出的对话识别结果是一个预测的结果，即目标聊天对话中包括诈骗信息的概率，本申请实施例中针对这一点还对对话识别模型输出的目标聊天对话中包括诈骗信息的概率进行进一步的判断，即设置预设阈值，例如设置预设阈值为0.95，当目标聊天对话中包括诈骗信息的概率不小于0.95时，可以确定目标聊天对话中包括诈骗信息，存在的误差很小，基本可以忽略不计。

本申请实施例中提供了一种可能的实现方式，对话识别模型的训练过程包括：

本申请实施例中训练对话识别模型的训练样本和训练标签可以从互联网的云数据中获取，也可以在用户授权的前提下，从用户使用的即时通讯软件中获取用户的聊天对话，本申请实施例不作具体限定。

应当理解的是，本申请实施例中训练对话识别模型的训练样本应当分为两类文本，即第一文本和第二文本，第一文本包括诈骗信息，第二文本不包括诈骗信息，可以通过专职人员标注出包括诈骗信息的聊天对话的文本内容作为第一文本，也可以通过其他方式标注出第一文本中包括诈骗信息，本申请实施例不作具体限定。

本申请实施例中通过预先标注出诈骗信息的第一文本以及不包括诈骗信息的第二文本进行训练，可以避免某些词出现的次数很少，但是这些词是包含有如诈骗意图的，现有技术中无法识别出这些词的语义，造成语义理解出现错误的问题。

训练标签用于表征相应的训练样本是否包括诈骗信息，如第一文本为训练样本输入初始神经网络模型中，其训练标签和初始神经网络输出的结果为该训练样本包括诈骗信息，通过不断输入训练样本至初始神经网络中，基于训练标签，结合神经网络不断学习的特点，获得对话识别模型，训练好的对话识别模型能够根据输入的聊天对话的文本内容，准确预测出该聊天对话是是否包括诈骗信息的概率。

具体地，在实际情况下例如识别出100个包含有诈骗信息的聊天对话，人工审核识别结果的话，现有技术中通过TF-IDF可能需要审核200 个识别结果，才会得到100个包含有诈骗信息的聊天对话，而本申请实施例中通过对话识别模型进行识别，可能只需要审核110个识别结果，就可以得到100个包含有诈骗信息的聊天对话，本申请实施例中通过对话识别模型识别出包含有诈骗信息的聊天对话是较为准确的，误差较小。

本申请实施例中还提供了一种可能的实现方式，初始神经网络模型为 BERT模型。

本申请实施例中的BERT模型是基于Transformers的网络结构， Transformers是TensorFlow 2.0和PyTorch的最新自然语言处理库，提供用于自然语言理解(NLU)和自然语言生成(NLG)的最先进的模型，例如BERT，GPT-2，RoBERTa，XLM，DistilBert，XLNet，CTRL等等，拥有超过32种预训练模型，支持100种语言，具有深厚的互操作性。

应当理解的是，本申请实施例中使用的BERT模型是针对本申请实施例的应用场景，即对聊天对话中是否包括诈骗信息的业务场景而言，对基于Transformers的网络结构的预训练的BERT模型作为初始网络模型进行微调，根据当前的训练样本和训练标签，对BERT模型进行进一步的训练，使得BERT模型中的网络参数适用于本申请实施例的应用场景，获得本申请实施例中使用的对话识别模型。

本申请实施例中通过采用基于Transformers的网络结构BERT模型训练，获得对话识别模型，提高了对话识别的准确性，相比于现有技术，将准确率从百分之五十提升至了百分之九十七。

本申请实施例中还提供了一种可能的实现方式，将选中的目标聊天对话的文本内容输入预先训练的对话识别模型中，之前还包括：

将目标聊天对话中的文本内容按照文本内容中每一句对话文本产生的时间顺序进行排列；

若确定任意相邻的两句对话文本为同一对话对象产生的，则使用第一预设字符拼接相邻的两句对话文本，获得拼接后的文本内容，和/或，若确定相邻的两句对话文本为不同对话对象产生的，则使用第二预设字符拼接相邻的两句对话文本，获得拼接后的文本内容。

应当理解的是，用户选中的目标聊天对话包括至少两个对话对象，其中，一个对话对象为用户本身，应当还存在与用户进行对话的其他对话对象，如上述图4中所示，存在用户A和用户B两个对话对象，用户B即为用户本身，用户A为与用户进行对话的对话对象，用户A发出的第一条对话内容，因此，用户A也是目标聊天对话的发起者，与用户进行对话的对话对象的个数可能为一个，也可能为多个，本申请实施例中不作具体限定。

以图4中的左图中的聊天对话作为用户选中的目标聊天对话为例，可见，目标聊天对话的文本内容分别由用户A和用户B两个对话对象产生的，文本内容的分布方式为左右两边，左边为用户A产生的对话文本，右边为用户B产生的对话文本，而输入对话识别模型中的文本内容应当是一个整体连贯的文本内容，因此，本申请实施例中将用户A和用户B产生的对话文本进行拼接，获得拼接后的文本内容，再将拼接后的文本内容输入到对话识别模型中。

具体地，现有技术中对于多个句子的文本，一般采用分隔符将一个个句子拼接起来，而在本申请实施例中不仅存在多个对话文本，对话文本还是由不同的对话对象产生的，因此，本申请实施例中对目标聊天对话的文本内容进行拼接时，首先将所有文本内容中的每一句对话文本按照该对话文本产生的时间顺序进行排列，然后确定产生每一句对话文本的对话对象，根据对话对象将对话文本进行拼接，获得拼接后文本内容。

具体地，若确定任意相邻的两句对话文本为同一对话对象产生的，则使用第一预设字符拼接相邻的两句对话文本，获得拼接后的文本内容，本申请实施例中以采用逗号为第一预设字符为例进行描述。若确定相邻的两句对话文本为不同对话对象产生的，则使用第二预设字符拼接相邻的两句对话文本，获得拼接后的文本内容，本申请实施例中以采用[SEP]分隔符为第二预设字符为例进行描述，默认情况下[SEP]分隔符实际上标识为空格，本申请实施例不作具体限定。

例如将上述图4中左图中的聊天对话作为目标聊天对话，对其文本内容拼接，获得拼接后的文本内容为：我是医生[SEP]工作很好，在哪做医生？[SEP]我在某地帮助照顾受伤的士兵。你叫什么名字,现在有工作？[SEP] 销售，我上班了啊[SEP]哇，好工作。你叫什么名字？，我可以有你的微信 ID，以便我们可以多谈谈自己吗？”。

本申请实施例中将目标聊天对话的文本内容进行拼接后，输入预先训练的对话识别模型中，例如拼接后的文本内容为“AAA[SEP]BBB[SEP]CCC[SEP]DDD”，输入模型之前可以文本内容进行编码以区分不同对话对象对应的对话文本，例如进行编码得到 [0,0,0,1,1,1,0,0,0,1,1,1]，可以通过0和1来标识不同的句子，可以使得对话识别模型区分不同的对话文本，便于模型处理和学习。

本申请实施例中通过第一预设分隔符来区分文本内容中同一个对话对象发出的对话内容，通过第二预设分隔符来区分文本内容中的对话内容，作为训练样本输入模型中，不仅可以将对话内容进行分句，还考虑了每句对话内容的位置和上下文信息，便于模型处理和学习。

本申请实施例中还提供了一种可能的实现方式，获得对话识别模型，之后还包括：

根据对话识别模型，结合预设的Flask应用框架，搭建web服务。

本申请实施例中基于Flask应用框架，可以采用Python语言编写相应的代码，将训练好的对话识别模型封装起来，搭建成为web服务，例如 HTTP服务，具体的搭建过程本申请实施例不作限定。

当用户对聊天对话进行识别时，可以调用web服务，web服务可以初始化对话识别模型，并对用户选中的聊天对话即目标聊天对话进行预处理，过滤脏数据，然后将预处理后的文本内容输入初始化好的对话识别模型中进行识别，并返回识别结果展示给用户。

应当理解的是，直接获取到的目标聊天对话的文本内容中可能存在一些空格、表情、网址等脏数据，本申请实施例中搭建好的web服务还可以对用户选中的目标聊天对话的文本内容进行预处理，去掉这些脏数据，使得输入对话识别模型中的文本内容具备实际意义。

本申请实施例中通过Flask应用框架，基于训练好的对话识别模型，搭建web服务，可以预先将对话识别模型进行初始化，使得对话识别模型保持可被调用的状态，封装了对话识别模型的识别过程，减少了调用对话识别模型时的复杂度。

图6为本申请实施例提供的一种应用web服务的流程示意图，如图6 所示，将目标聊天对话的文本内容输入基于Flask应用框架搭建的web服务中，获得web服务输出的对话识别结果，具体地，包括文本预处理、加载模型、模型预测以及阈值处理等步骤，其中，文本预处理是指去除目标聊天对话的文本信息中的脏数据；加载模型是指加载预先训练好的对话识别模型，并初始化对话识别模型；模型预测是指将目标聊天对话的文本内容输入对话识别模型中进行预测识别，获得对话识别结果；阈值处理是指判断对话识别结果是否大于等于预设阈值。

本申请实施例中提供了一种可能的实现方式，确定识别结果为目标聊天对话包括诈骗信息，之后还包括：

屏蔽具有诈骗信息的目标聊天对话的发起者。

应当理解的是，在向用户展示了目标聊天对话经对话识别后的识别结果后，例如识别结果为目标聊天对话中包括诈骗信息，即发起目标聊天对话的发起者对用户有诈骗企图，因此，用户可以拼比具有诈骗信息的目标聊天对话的发起者，避免再收到该发起者发送的消息，遭到该发起者的诈骗，造成用户的时间、金钱等的损失，净化了用户聊天群体，避免别有目的的用户对正常用户的错误引导。

本申请实施例中在确定对话识别结果为目标聊天对话中包括诈骗信息后，可以由用户主动屏蔽具有诈骗信息的目标聊天对话的发起者，也可是服务器预先获得用户授权后，自动频率具有诈骗信息的目标聊天对话的发起者，本申请实施例不作具体限定。

本申请实施例提供了一种对话识别装置，如图7所示，该对话识别装置60可以包括：第一响应模块110以及第二响应模块210，其中，

第一响应模块110，用于响应于选中目标聊天对话的操作，展示对话识别控件；

第二响应模块210，用于响应于触发对话识别控件，展示目标聊天对话经对话识别后的识别结果；

其中，识别结果用于指示目标聊天对话是否包括诈骗信息。

本申请实施例提供的对话识别装置，具体执行上述方法实施例流程，具体请详见上述对话识别方法实施例的内容，在此不再赘述。本申请实施例提供的对话识别装置，通过响应于选中目标聊天对话的操作，展示对话识别控件，向用户提供了一种直观便捷的识别对话的触发方式，响应于触发对话识别控件，展示目标聊天对话经对话识别后的识别结果，其中对话识别结果用于指示目标聊天对话是否包括诈骗信息，通过分析目标聊天对话的文本内容，直观的展示对话识别结果，避免有不良目的的用户对正常用户的错误引导，导致用户时间、金钱上的损失。

在一个可能的实现方式中，第二响应模块210包括：

识别模块，用于将目标聊天对话的文本内容输入预先训练的对话识别模型中，获得对话识别模型输出的文本内容中包括诈骗信息的概率；

确定模块，用于若确定概率大于或等于预设阈值，则确定识别结果为目标聊天对话包括诈骗信息；

在另一个可能的实现方式中，识别模块包括：

获取模块，用于获取训练样本和训练标签，训练样本包括第一文本和第二文本；第一文本包括诈骗信息；第二文本不包括诈骗信息；训练标签用于表征相应的训练样本是否包括诈骗信息；

训练模块，用于以训练样本和训练标签对初始神经网络模型训练，以获得对话识别模型。

在又一个可能的实现方式中，获取模块包括：

排序模块，用于将目标聊天对话的文本内容中的每一条对话文本按照每一条对话文本产生的时间顺序排列；

拼接模块，用于若确定任意相邻的两句对话文本为同一对话对象产生的，则使用第一预设字符拼接相邻的两条对话文本，获得拼接后的文本内容，和/或，若确定相邻的两条对话文本为不同对话对象产生的，则使用第二预设字符拼接相邻的两条对话文本，获得拼接后的文本内容。

在又一个可能的实现方式中，初始神经网络为BERT模型。

在又一个可能的实现方式中，训练模块包括：

搭建模块，用于根据对话识别模型，结合预设的Flask应用框架，搭建web服务；

web服务被调用时用于根据对话识别模型识别目标聊天对话。

在又一个可能的实现方式中，确定模块包括：

确定识别结果为目标聊天对话包括诈骗信息，之后还包括：

屏蔽模块，用于屏蔽具有诈骗信息的目标聊天对话的发起者。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现上述对话识别方法的步骤，与现有技术相比可实现：通过响应于选中目标聊天对话的操作，展示对话识别控件，向用户提供了一种直观便捷的识别对话的触发方式，响应于触发对话识别控件，展示目标聊天对话经对话识别后的识别结果，其中对话识别结果用于指示目标聊天对话是否包括诈骗信息，通过分析目标聊天对话的文本内容，直观的展示对话识别结果，避免有不良目的的用户对正常用户的错误引导，导致用户时间、金钱上的损失。

在一个可选实施例中提供了一种电子设备，如图8所示，图8所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC (Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001 也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP 和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或 EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器 4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述对话识别方法实施例的步骤及相应内容。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种对话识别方法，其特征在于，所述方法包括：

响应于选中目标聊天对话的操作，展示对话识别控件；

响应于触发所述对话识别控件，展示所述目标聊天对话经对话识别后的识别结果；

其中，所述识别结果用于指示所述目标聊天对话是否包括诈骗信息。

2.根据权利要求1所述的对话识别方法，其特征在于，响应于触发所述对话识别控件，展示所述目标聊天对话经对话识别后的识别结果，包括：

将所述目标聊天对话的文本内容输入预先训练的对话识别模型中，获得所述对话识别模型输出的所述文本内容中包括诈骗信息的概率；

若确定所述概率大于或等于预设阈值，则确定所述识别结果为所述目标聊天对话包括诈骗信息；

其中，所述对话识别模型是以预先获取到的样本聊天对话的文本内容为训练样本，以所述样本聊天对话的文本内容中是否包括诈骗信息为训练标签训练而成。

3.根据权利要求2所述的对话识别方法，其特征在于，所述对话识别模型的训练过程包括：

获取所述训练样本和训练标签，所述训练样本包括第一文本和第二文本；所述第一文本包括诈骗信息；所述第二文本不包括诈骗信息；所述训练标签用于表征相应的训练样本是否包括诈骗信息；

以所述训练样本和所述训练标签对初始神经网络模型训练，以获得所述对话识别模型。

4.根据权利要求2所述对话识别方法，其特征在于，所述将所述目标聊天对话的文本内容输入预先训练的对话识别模型中，之前还包括：

将所述目标聊天对话的文本内容中的每一条对话文本按照所述每一条对话文本产生的时间顺序排列；

若确定所述任意相邻的两句对话文本为同一对话对象产生的，则使用第一预设字符拼接所述相邻的两条对话文本，获得拼接后的文本内容，和/或，若确定所述相邻的两条对话文本为不同对话对象产生的，则使用第二预设字符拼接所述相邻的两条对话文本，获得拼接后的文本内容。

5.根据权利要求3所述的对话识别方法，其特征在于，所述初始神经网络为基于Transformer的双向语言表征模型BERT模型。

6.根据权利要求3所述的对话识别方法，其特征在于，所述获得所述对话识别模型，之后还包括：

根据所述对话识别模型，结合预设的Flask应用框架，搭建web服务；

所述web服务被调用时用于根据所述对话识别模型识别所述目标聊天对话。

7.根据权利要求2所述的对话识别方法，其特征在于，所述确定所述识别结果为所述目标聊天对话包括诈骗信息，之后还包括：

屏蔽具有诈骗信息的目标聊天对话的发起者。

8.一种对话识别装置，其特征在于，所述装置包括：

第二响应模块，用于响应于触发所述对话识别控件，展示所述目标聊天对话经对话识别后的识别结果；

9.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-5任一项所述的对话识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的对话识别方法的步骤。