CN117573816A - 问答数据生成方法、装置、设备与存储介质 - Google Patents

问答数据生成方法、装置、设备与存储介质 Download PDF

Info

Publication number
CN117573816A
CN117573816A CN202310835504.4A CN202310835504A CN117573816A CN 117573816 A CN117573816 A CN 117573816A CN 202310835504 A CN202310835504 A CN 202310835504A CN 117573816 A CN117573816 A CN 117573816A
Authority
CN
China
Prior art keywords
data
answer
question
dialogue
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310835504.4A
Other languages
English (en)
Inventor
杨昌林
汪亲
张望舒
胡森
许腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202310835504.4A priority Critical patent/CN117573816A/zh
Publication of CN117573816A publication Critical patent/CN117573816A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种问答数据生成方法、装置、设备与存储介质,该方法包括:通过获取服务对话数据中的无答案问题数据和目标回答数据,从服务对话数据中确认与无答案问题数据关联的第一对话数据,确认与目标回答数据关联的第二对话数据,基于第一对话数据和无答案问题数据,确认与无答案问题数据匹配的答案数据,基于第二对话数据和目标回答数据,确认与目标回答数据匹配的目标问题数据,基于无答案问题数据、答案数据、目标回答数据和目标问题数据生成问答数据。

Description

问答数据生成方法、装置、设备与存储介质
技术领域
本说明书涉及计算机技术领域,尤其涉及一种问答数据生成方法、装置、设备与存储介质。
背景技术
在线客服***中,通常可以通过机器人智能客服、智能助理等使用自然语言直接与用户进行交互,解决用户问题。
客服机器人在为客户解答时,一般是从预先整理好的、包含了大量问题和问题答案的知识库中去寻找客户的答案,然而构建和维护高质量的问答(Frequently AskedQuestions,FAQ)知识库需要耗费很大的人力。一方面,用户的诉求***,只依靠运营人员凭空构建这些问答对,不一定能很好的覆盖用户的诉求,造成对话的体验感下降。另一方面,对话数量非常大,而且对话内容复杂,相比于文档/知识库,对话的流程也比较复杂,不同的客服/用户对话的内容/风格差异较大。因此,亟待提出一种能够高效地生成高质量、表达完整的问答数据的方法。
发明内容
本说明书的主要目的在于提供一种问答数据生成方法、装置、设备与存储介质,旨在解决构建问答知识库的效率低的问题。所述技术方案如下:
第一方面,本说明书实施例提供了一种问答数据生成方法,包括:
获取服务对话数据中的无答案问题数据和目标回答数据;
从所述服务对话数据中确认与所述无答案问题数据关联的第一对话数据,确认与所述目标回答数据关联的第二对话数据;
基于所述第一对话数据和所述无答案问题数据,确认与所述无答案问题数据匹配的答案数据;
基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据;
基于所述无答案问题数据、所述答案数据、所述目标回答数据和所述目标问题数据生成问答数据,所述问答数据包括多个问题答案对,所述问题答案对包括问题数据和所述问题数据对应的答案数据。
第二方面,本说明书实施例提供一种问答数据生成装置,包括:
获取模块,用于获取服务对话数据中的无答案问题数据和目标回答数据;
对话确认模块,用于从所述服务对话数据中确认与所述无答案问题数据关联的第一对话数据,确认与所述目标回答数据关联的第二对话数据;
答案确认模块,用于基于所述第一对话数据和所述无答案问题数据,确认与所述无答案问题数据匹配的答案数据;
问题确认模块,用于基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据;
生成模块,用于基于所述无答案问题数据、所述答案数据、所述目标回答数据和所述目标问题数据生成问答数据,所述问答数据包括多个问题答案对,所述问题答案对包括问题数据和所述问题数据对应的答案数据。
第三方面,本说明书实施例提供一种电子设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述方法的步骤。
第四方面,本说明书实施例提供一种存储介质,所述存储介质上存储有计算机程序,所述问答数据生成程序被处理器执行时实现如上述方法的步骤。
第五方面,本说明书实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面所述的方法。
在本说明书实施例中,通过获取服务对话数据中的无答案问题数据和目标回答数据,从服务对话数据中确认与无答案问题数据关联的第一对话数据,确认与目标回答数据关联的第二对话数据,基于第一对话数据和无答案问题数据,确认与无答案问题数据匹配的答案数据,基于第二对话数据和目标回答数据,确认与目标回答数据匹配的目标问题数据,基于无答案问题数据、答案数据、目标回答数据和目标问题数据生成问答数据。通过挖掘出服务对话中产生的无答案问题数据,生产对应的答案,再从服务对话中挖掘高质量的目标回答数据,进而生成目标回答数据的目标问题数据,得到高质量的问答数据,提高构建知识库的效率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种问答数据生成方法的举例示意图;
图2是本说明书实施例提供的一种问答数据生成方法的流程示意图;
图3是本说明书实施例提供的一种问答数据生成方法的流程示意图;
图4是本说明书实施例提供的一种问答数据生成方法的举例示意图;
图5是本说明书实施例提供的一种问答数据生成方法的流程示意图;
图6是本说明书实施例提供的一种问答数据生成方法的流程示意图;
图7是本说明书实施例提供的一种问答数据生成方法的整体流程图;
图8是本说明书实施例提供的一种问答数据生成装置的结构示意图;
图9是本说明书实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
此外,需要说明的是,本说明书实施例中所涉及的用户信息和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本说明书实施例中所提供的问答数据生成装置可以为手机、电脑、平板电脑、智能手表或车载设备等终端设备,也可以为终端设备中用于实现问答数据生成方法的模块,问答数据生成装置可以获取服务对话数据中的无答案问题数据和目标回答数据,从服务对话数据中确认与无答案问题数据关联的第一对话数据,确认与目标回答数据关联的第二对话数据,基于第一对话数据和无答案问题数据,确认与无答案问题数据匹配的答案数据,基于第二对话数据和目标回答数据,确认与目标回答数据匹配的目标问题数据,基于无答案问题数据、答案数据、目标回答数据和目标问题数据生成问答数据。
请一并参见图1,为本说明书实施例提供了一种问答数据生成方法的举例示意图,问答数据生成装置从服务对话数据中获取无答案问题数据和目标答案数据,基于无答案问题数据关联的第一对话数据为无答案问题数据生成答案数据,基于目标答案数据关联的第二对话数据为目标答案数据确认目标问题数据,进而基于无答案问题数据、答案数据、目标答案数据和目标问题数据生成问答数据。通过从服务对话数据中自动挖掘问答数据,能够提高构建以及更新知识库的效率。
下面结合具体的实施例对本说明书提供的问答数据生成方法进行详细说明。
请参见图2,为本说明书实施例提供了一种问答数据生成方法的流程示意图。如图2所示,本说明书实施例的所述方法可以包括以下步骤S102-S110。
S102,获取服务对话数据中的无答案问题数据和目标回答数据;
S104,从所述服务对话数据中确认与所述无答案问题数据关联的第一对话数据,确认与所述目标回答数据关联的第二对话数据;
S106,基于所述第一对话数据和所述无答案问题数据,确认与所述无答案问题数据匹配的答案数据;
S108,基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据;
S110,基于所述无答案问题数据、所述答案数据、所述目标回答数据和所述目标问题数据生成问答数据,所述问答数据包括多个问题答案对,所述问题答案对包括问题数据和所述问题数据对应的答案数据。
本说明书实施例中的问答数据生成方法主要用于维护构建和维护高质量的FAQ知识库。FAQ问答作为智能客服中人机对话的核心组件,能减少人工客服的工作量,回答一些用户常问的通用的问题,然而构建和维护高质量的FAQ知识库需要耗费很大的人力,并且用户的诉求***,只依靠运营人员凭空构建QA对,不一定能很好的覆盖用户的诉求,造成对话的体验感下降。因此,本说明书实施例提供了一种问答数据生成方法从含有丰富知识的服务对话数据中中,挖掘和生产出高质量的问题答案对,能够提高构建知识库的效率,不断迭代优化FAQ知识库的质量,进而帮助提升智能客服的问答效果。
以下将对各个步骤进行详细说明:
S102,获取服务对话数据中的无答案问题数据和目标回答数据;
在本说明书的一个实施例中,服务对话数据指的是由人工客服或者机器人客服与客户对话交互场景下获取的对话数据。具体的,服务对话数据可以从人工客服或机器人客服与客户的对话日志中获取。无答案问题数据指的是知识库中无答案的问法,也即无法挂靠到知识库中现有标问的问法。目标回答数据指的是从服务对话数据中的客服回答数据中确认出的所关注的回答数据,例如可以是高频出现的回答数据。客服回答数据指的是由人工客服或者机器人客服根据客户输入内容做出的反馈,示例性的,可以是针对客户问题发送的回答文本。
具体的,由人工客服与客户对话场景可以称为人人对话场景,由机器人客服与客户对话的场景可以称为人机对话场景。可以理解的,通常在人机对话场景下较为可能存在机器人客服无法回答的问题,而在人人对话场景中由于回答是由人工客服人做出的,则更容易获取到高质量的回答数据,因此,可以从人机对话场景中的服务对话数据中获取无答案问题数据,从人人对话场景下的服务对话数据中获取目标回答数据。
需要说明的是,除了可以是特定客户服务对话场景下的服务对话数据,该种方法也可以应用在常规对话场景下,比如聊天场景的问答中。
S104,从所述服务对话数据中确认与所述无答案问题数据关联的第一对话数据,确认与所述目标回答数据关联的第二对话数据;
在本说明书的一个实施例中,在确认出无答案问题数据和第一对话数据后,确认与无答案问题数据关联的第一对话数据,确认与目标回答数据关联的第二对话数据。其中,对话数据为包含问答对话的数据,可以是包含一轮对话的数据,也可以是包含多轮对话的数据。一轮完整的对话包括从用户输入到客服针对用户输入做出反馈的过程。多轮对话是指整个交互过程,指的是通过不止一轮对话获取用户输入,以最终给出符合用户需求的反馈结果的过程。
可以理解的,虽然对于无答案问题数据可以由运营人员人工生产对应的答案,然而这种生产答案的方式成本较高,因此,可以在已有的服务对话数据中确认与无答案问题数据关联的第一对话数据,以根据可能包含答案内容的第一对话数据生产出答案。同理,由于目标回答数据是在服务对话数据中产生的回答数据,因此可以根据目标回答数据确认其关联的第二对话数据,进而确认出对应的问题数据。其中,第一对话数据可以是服务对话数据中除无答案对话数据以外的服务对话数据中获取得到的,无答案对话数据指的是服务对话数据中包括无答案问题数据的对话数据;第二对话数据可以是从所有的服务对话数据中确认得到。具体的,第一对话数据可以不在该无答案问题数据所属的对话轮次中获取得到,可以是从其他对话轮次中的获取到的对话数据,具体不做限定。而第二对话数据优选为从目标问题数据所属对话轮次中获取。
S106,基于所述第一对话数据和所述无答案问题数据,确认与所述无答案问题数据匹配的答案数据;
在本说明书的一个实施例中,通过召回第一对话数据,基于第一对话数据和无答案问题数据,可以精炼地提取出答案数据。示例性的,可以通过基于阅读理解的问答模型在第一对话数据中抽取出与无答案问题数据匹配的答案数据,基于阅读理解的问答模型可以采用例如CNN(Convolutional Neural Network,卷积神经网络),BERT(BidirectionalEncoder Representation from Transformers,基于转换器的双向编码表征)等模型结构构建。
S108,基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据;
在本说明书的一个实施例中,目标问题数据为目标回答数据中各回答对应的问题。根据获取到的目标回答数据和第二对话数据,从目标回答数据中确认出与目标回答数据匹配的目标问题数据。在一种可行的实现方式中,可以根据目标问题数据与第二对话数据中问题数据的匹配程度确认目标问题数据。
S110,基于所述无答案问题数据、所述答案数据、所述目标回答数据和所述目标问题数据生成问答数据,所述问答数据包括多个问题答案对,所述问题答案对包括问题数据和所述问题数据对应的答案数据。
在本说明书的一个实施例中,当获取到无答案问题数据,与无答案问题数据对应的答案数据后,可以将无问题答案数据与对应的答案数据关联得到问题答案对,对于获取到的目标回答数据和目标问题数据也可以对应的生成问题答案对,提炼得到的问题答案对则可以作为知识库中新增或者补充的知识点。
本说明书实施例中,通过获取服务对话数据中的无答案问题数据和目标回答数据,从服务对话数据中确认与无答案问题数据关联的第一对话数据,确认与目标回答数据关联的第二对话数据,基于第一对话数据和无答案问题数据,确认与无答案问题数据匹配的答案数据,基于第二对话数据和目标回答数据,确认与目标回答数据匹配的目标问题数据,基于无答案问题数据、答案数据、目标回答数据和目标问题数据生成问答数据。通过确认服务对话数据中的目标回答数据和无答案问题数据,进而针对目标回答数据和无答案问题数据从大量的服务对话数据中挖掘知识,能够持续丰富线上FAQ知识库的内容,也可以用于冷启动场景快速构造知识库,提高构造和更新知识库的效率。
请参见图3,为本说明书实施例提供了一种问答数据生成方法的流程示意图。如图3所示,本说明书实施例的所述方法可以包括以下步骤S202-S214。
S202,获取服务对话数据,对所述服务对话数据中的客服回答数据进行聚类,以得到客服回答数据类簇;
在本说明书一个实施例中,在获取目标回答数据时,可以通过对获取到的服务对话数据中的客服回答数据进行聚类,得到客服回答数据的聚类结果,也即客服回答数据类簇。其中,客服回答数据指的是服务对话数据中由客服发出的对话内容。具体的,可以先将客服回答数据文本转换为向量形式,然后采用聚类算法对向量聚类。聚类算法可以采用例如k-means、BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies,利用层次方法的平衡迭代规约和聚类)等,具体不做限定。
S204,基于各所述客服回答数据类簇的类簇大小确认所述客服回答数据的第一出现频率,基于所述第一出现频率从所述客服回答数据中确认目标回答数据;
在本说明书一个实施例中,当确认出客户回答类簇后,根据类簇大小也即类簇中同一类客服回答数据的数量,根据各类簇的大小和总的数据量可以确认每一类簇的出现频率,将每一类簇的出现频率作为该类簇中客服回答数据的第一出现频率。根据各类客服回答数据的第一出现频率从客服回答数据中确认出第一出现频率较高的目标回答数据。具体的,可以通过设置频率阈值等方式,筛选出第一出现频率高于频率阈值的目标回答数据,从而从服务对话数据中挖掘出高频的客服回答,同时也避免挖掘出大量相似的问答对。
在本说明书一个实施例中,基于各所述客服回答数据类簇的类簇大小确认所述客服回答数据的第一出现频率,基于所述第一出现频率从所述客服回答数据中确认目标回答数据,包括以下步骤S302-S306:
S302,基于所述第一出现频率从所述客服回答数据中确认高频回答数据;
在本说明书一个实施例中,根据客服回答数据对应的第一出现频率,从客服回答数据中确认高频回答数据。具体的,可以将各客服回答数据的第一出现频率进行排序,选取排序在前5%的客服回答数据作为高频回答数据。
S304,确认所述高频回答数据与知识库中答案数据的第一相似度;
在本说明书一个实施例中,确认出高频回答数据后,还需要确认高频回答数据与知识库中答案数据的第一相似度,进而确认高频回答数据中是否包含能够作为答案的内容。在一种可行的实施方式中,在知识库中保存有多个知识点,每个知识点可以由问题和答案构成,通过对高频回答数据和知识库中各知识点对应的答案数据进行匹配,可以计算出第一相似度。
S306,基于所述第一相似度从所述高频回答数据中确认目标回答数据;
在本说明书一个实施例中,根据第一相似度对高频对话数据是否包含知识点进行确认,从而从服务对话数据中选择高质量的具有代表性的目标回答数据作为知识源。具体的,当第一相似度高于相似度阈值时,可以确认该高频回答数据包含知识,可以将其确认为目标回答数据。
可选的,确认目标回答数据也可以通过知识检测模型实现,知识检测模型可以由Bert+分类层构成,训练数据可以不使用标注数据,通过自动构建的方式快速冷启动:以知识库中答案作为正例,召回对话中客服回答与知识库答案相似度低于阈值的作为负类。例如:输入知识检测模型的是“[CLS]我是一个句子”,输出分类为0或1的概率(0不包含知识,1包含知识),将包含知识的高频回答数据确认为目标回答数据。
S206,在所述服务对话数据中匹配所述目标回答数据所属的对话片段;
在本说明书一个实施例中,在得到目标回答数据后确认目标回答数据所属的对话片段。具体的,可以通过文本匹配的方式,定位到目标回答数据所属的对话片段,对话片段可以是包括目标回答数据以及目标回答数据上下文的对话数据集合。
S208,基于所述对话片段确认所述目标回答数据关联的第二对话数据;
在本说明书一个实施例中,在得到对话片段后,可以根据对话片段确认目标回答数据的第二对话数据。具体的,对话片段可以是由该目标回答数据所属的客服轮次对话数据以及上一个用户轮次对话数据构成的,则可以获取相关的对话轮次的对话数据一起作为第二对话数据。
S210,确认所述目标回答数据与所述第二对话数据中问题数据的轮次距离和第一问答匹配程度;
在本说明书一个实施例中,在得到目标回答数据后,可以确认目标回答数据与第二对话数据中问题数据的轮次距离和第一问答匹配程度。轮次距离指的是目标回答数据所属的轮次与第二对话数据中客户所发送问题数据轮次的距离。第一问答匹配程度指的是目标回答数据与第二对话数据中问题数据的问答相关性。第一问答匹配程度可以通过问答相关性匹配模型确认得到。
S212,基于所述轮次距离和所述第一问答匹配程度从所述第二对话数据中问题数据中确认与所述目标回答数据匹配的目标问题数据;
在本说明书一个实施例中,在得到轮次距离和第一问答匹配程度后,可以先根据轮次距离从第二对话数据中问题数据中获取轮次较近的相近问题数据,进而根据各相近问题数据与目标回答数据的第一问答匹配程度确认与目标回答数据匹配的目标问题数据。可选的,也可以分别为第二对话数据中问题数据的轮次距离和第一问答匹配程度分别进行打分,通过计算各第二对话数据中问题数据的总得分以确认目标问题数据。请参见图4,图4为本说明书实施例提供了一种问答数据生成方法的举例示意图,图4中示出的为包含目标回答数据的第二对话数据的示意图,根据轮次距离和第一问答匹配程度可以在第二对话数据中确认出目标回答数据的目标问题数据。
S214,将所述第二对话数据和所述目标回答数据拼接后输入问题生成模型,由所述问题生成模型输出所述目标回答数据对应的目标问题数据。
在本说明书一个实施例中,在得到目标回答数据后,可以将第二对话数据和目标回答数据拼接后输入问题生成模型,由问题生成模型输出目标回答数据对应的目标问题数据。具体的,问题生成模型可以采用基于BART训练,BART为采用序列到序列模型构建的降噪自编码器。具体的,BART的训练数据集可以根据知识库答案数据获取对应的问题数据,此外也可以从开放领域的DuReader阅读理解数据集中获取答案数据以及答案数据对应的上下文(对话片段),并获取其对应的答案数据,通过这两种方式得到训练答案数据以及对应的训练问题数据,根据训练答案数据和训练问题数据训练问题生成模型。
在本说明书实施例中,通过获取服务对话数据,对服务对话数据中的客服回答数据进行聚类,以得到客服回答数据类簇,基于各客服回答数据类簇的类簇大小确认客服回答数据的第一出现频率,基于第一出现频率从客服回答数据中确认高频回答数据,挖掘高频的客服回答,同时也避免挖掘出大量相似的问答对,确认高频回答数据与知识库中答案数据的第一相似度,基于第一相似度从高频回答数据中确认目标回答数据,检测客服回答是否具有“知识”,将具有知识的目标回答数据选出。在确认目标回答数据之后,可以在服务对话数据中匹配目标回答数据所属的对话片段,基于对话片段确认目标回答数据关联的第二对话数据,确认目标回答数据与第二对话数据中问题数据的轮次距离和第一问答匹配程度,基于轮次距离和第一问答匹配程度从第二对话数据中问题数据中确认与目标回答数据匹配的目标问题数据,也可以将第二对话数据和所述目标回答数据拼接后输入问题生成模型,由问题生成模型输出目标回答数据对应的目标问题数据。对于大量的服务对话数据,基于聚类-知识检测-问题生产的问答对生产链路,可以从大量人人对话日志中提炼关注的目标回答数据以及目标回答数据对应的目标问题数据,进而提炼出包含知识点的问答对。
请参见图5,为本说明书实施例提供了一种问答数据生成方法的流程示意图。如图5所示,本说明书实施例的所述方法可以包括以下步骤S402-S408。
S402,获取服务对话数据中的无答案问题数据;
在本说明书一个实施例中,可以对服务对话数据中的人机对话数据进行缺陷检测,检测得到其中的无答案问题数据。
S404,确认所述无答案问题数据与所述服务对话数据的第二相似度,基于所述第二相似度从所述服务对话数据中确认相似对话数据;
在本说明书的一个实施例中,当得到无答案问题数据后,可以确认无答案问题数据与服务对话数据的第二相似度,基于第二相似度从服务对话数据中确认相似对话数据。例如,可以使用BM25算法计算无答案问题数据与服务对话数据的第二相似度,召回Topk与无答案问题数据相似的相似对话数据。其中,BM25是信息索引领域用来计算query与文档相似度得分的经典算法。当然也可以选择其他文本相似度算法,具体不做限定。
S406,确认所述无答案问题数据与所述相似对话数据中用户轮次数据的第三相似度,基于所述第三相似度从所述相似对话数据中确认第一对话数据;
在本说明书的一个实施例中,可以理解的,第三相似度为无答案问题数据与相似对话数据的语义相似度,通过语义相似度可以找到与无答案问题数据最相关的对话片段。具体的,由于无答案问题数据是客户所提出的问题,因此可以将匹配范围确认在相似对话数据中的用户轮次数据,用户轮次数据也即用户轮次所发送的对话数据。可以将无答案问题数据和相似对话数据中的用户轮次数据转换为向量表示,记第三相似度为simqq=axsim(qk,uery),qk是对话中的用户轮次,query是无答案问题数据。如果simqq低于设定阈值,则说明无合适的对话来承接问题query,做拒答处理;否则,取相似度最高的对话作为第一对话数据maxsim(,user_querys)。其中,simqq可以采用余弦相似度算法计算得到,也可以采用其他相似度计算方式,具体不做限定。
S408,将所述第一对话数据和所述无答案问题数据输入对话问题回答模型,由所述对话问题回答模型输出与所述无答案问题数据匹配的答案数据。
在本说明书的一个实施例中,与无答案问题数据匹配的答案数据,可以通过预训练的对话问题回答模型得到。在一种可行的实施方式中,通过基于信息性对话的问答(Question Answering on Informative Conversations,QAConv)数据集对机器阅读理解模型进行训练得到对话问题回答模型。机器阅读理解模型可以是BERT(BidirectionalEncoder Representations from Transformers)、BiDAF(Bi-Directional AttentionFlow)、ELMo(Embedding from Language Models)模型或其它功能相似的模型,本实施例不做限制。
在本说明书实施例中,通过获取服务对话数据中的无答案问题数据,确认无答案问题数据与服务对话数据的第二相似度,基于第二相似度从服务对话数据中确认相似对话数据,确认无答案问题数据与相似对话数据中用户轮次数据的第三相似度,基于第三相似度从相似对话数据中确认第一对话数据,将第一对话数据和所述无答案问题数据输入对话问题回答模型,由对话问题回答模型输出与所述无答案问题数据匹配的答案数据。通过自动检测服务对话数据中的无答案的用户问题,一方面基于无答案问题数据和对话的整体第三相似度,另一方面也基于无答案问题数据与用户轮次数据的第三相似度,确认出第一对话数据,由对话问题回答模型根据第一对话数据和无答案问题数据自动生产对应的答案,从而提高生产答***性以及效率。
请参见图6,为本说明书实施例提供了一种问答数据生成方法的流程示意图。如图6所示,本说明书实施例的所述方法可以包括以下步骤S502-S506。
S502,基于所述无答案问题数据和所述答案数据生成第一问答数据;
在本说明书的一个实施例中,在得到无答案问题数据和无答案问题数据匹配的答案数据后,将无答案问题数据中的各问题与答案数据匹配得到问题答案对,生成第一问答数据。
S504,基于所述目标回答数据和所述目标问题数据生成第二问答数据;
在本说明书的一个实施例中,在得到目标回答数据和目标问题数据后,将目标回答数据和目标问题数据一一对应的到问题答案对,生成第二问答数据。
S506,将所述第一问答数据和第二问答数据确认为候选问答数据,确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据。
在本说明书的一个实施例中,将第一问答数据和第二问答数据一起作为候选问答数据,接着对候选问答数据进行质检,根据候选问答数据的问答质量确认出问答数据。可以理解的,当得到候选问答数据后,通过判断生产的知识的质量,过滤低质量问答对,合并相似知识,并对***含的敏感信息进行检查、脱敏等,可以提高问答数据的质量。具体的,可以基于正则等规则检验问答数据的答案数据中是否存在用户车牌/电话/地址等敏感信息。
进一步地,在本说明书一个实施例中,所述问答质量包括问题质量,所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据,包括以下步骤S602-S606:
S602,基于知识库中问题数据,确认所述候选问答数据中候选问题数据的问题质量;
S604,基于所述问题质量从所述候选问题数据中确认无效问题数据;
在本说明书的一个实施例中,可以根据知识库中存储的问题数据,确认候选问答数据中问题数据的问题质量。在一种具体的实现方式中,可以确认问题数据中所包含的问题知识点是否与知识库的中问题数据相匹配,具体的可以采用与BERT训练分类模型,以得到问题数据是否包含知识点的分类结果,以分类结果作为问题质量。将不存在知识点的候选问题数据作为无效问题数据。例如:好的谢谢?我该怎么办呢?。此外,还可以判断候选问题数据中是否存在一些无意义问题、表达不清晰问题,例如可以计算问题的语句通顺度作为问题质量,进而确认出无效问题数据。
S606,将所述候选问答数据中的无效问题数据剔除,以得到问答数据。
在本说明书的一个实施例中,将候选问答数据中的无效问题数据剔除,将剩余候选问答数据作为问答数据。可以理解的,如果无效问题数据为第一问答数据中的问题数据,则其对应的答案数据也可能是无意义的,可以一并剔除,如果无效问题数据为第二问答数据中问题数据,则可能是目标回答数据的其中一个不合规的问法,则可以进一步确认对应的答案数据是否需要剔除。
进一步地,在本说明书一个实施例中,所述问答质量包括问答匹配程度,所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据,包括以下步骤S702-S704:
S702,确认所述候选问答数据中候选问题数据和候选答案数据的第二问答匹配程度;
S704,基于所述第二问答匹配程度从所述候选问答数据中筛选出第二问答匹配程度满足预设条件的问答数据。
在本说明书的一个实施例中,候选问答数据包括候选问题数据和对应的候选答案数据,可以确认候选问题数据与候选答案数据的第二问答匹配程度,从而从候选问答数据中选择第二问答匹配程度满足预设条件的问答数据。具体的,可以通过基于BERT训练的问答语义匹配模型衡量问题和答案的第二问答匹配程度simqa=im(query,A),query代表候选问题数据,A代表候选答案数据。当然,问答语义匹配模型也可以通过QA-LSTM等模型训练得到,在本实施例中不做限定。
进一步地,在本说明书一个实施例中,所述问答质量包括答案出现频率,所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据,包括以下步骤S802-S804:
S802,对所述候选问答数据中候选答案数据进行聚类,以得到候选答案数据类簇;
在本说明书的一个实施例中,问答质量包括答案出现频率,也即候选问答数据中候选答案数据的出现概率。具体的,可以先将候选答案数据文本转换为向量形式,然后采用聚类算法对向量聚类,得到候选答案数据类簇。聚类算法可以采用例如k-means、BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies,利用层次方法的平衡迭代规约和聚类)算法等,具体不做限定。
S804,基于各所述候选答案数据类簇的类簇大小确认所述候选答案数据的第二出现频率,基于所述第二出现频率从所述客服回答数据中确认出问答数据。
可以理解的,用户更加关注高频的问答对,答案频率分间接反映了答案在真实对话中出现频率、对线上流量的覆盖。因此,通过对候选答案数据计算第二出现概率,可以从中选取出用户更加关注的问答数据。当确认出候选答案数据类簇后,根据类簇大小也即类簇中同一类候选答案数据的数量,根据各类簇的类簇大小可以确认每一类簇的出现频率,将每一类簇的出现频率作为该类簇中候选答案数据的第二出现频率。根据各类候选答案数据的第二出现频率从候选答案数据中确认出第二出现频率较高的目标回答数据。具体的,第二出现概率可以以答案频率分表示,答案频率分frep_score(A)=类簇大小/max类簇大小。类簇大小也即各候选答案数据类簇的类簇大小,max类簇大小也即后候选答案数据类簇中类簇大小最大的类簇大小。
进一步地,在本说明书一个实施例中,所述问答质量包括答案质量,所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据,包括以下步骤S902-S906:
S902,确认所述候选问答数据中候选答案数据的答案质量;
S904,基于所述答案质量从所述候选问答数据中确认出无效答案数据,将所述候选问答数据中的无效答案数据剔除,以得到问答数据。
在本说明书的一个实施例中,问答质量包括候选问答数据的答案质量,具体的,可以通过对候选问答数据中的候选答案数据进行知识检测,从而判定候选答案数据中是否包括知识点。其中,可以由知识检测模型给出候选答案数据的是否存在知识点的分类结果。知识检测模型可以采用Bert+分类层的模型结构。分类结果可以以0-1的概率标识,越接近1则候选答案数据包含知识点的概率越高,通过设置概率阈值,可以从中筛选出低于概率阈值的无效答案数据,将无效答案数据剔除,得到问答数据。
进一步地,在本说明书一个实施例中,所述确认所述候选问答数据中候选答案数据的答案质量,包括以下至少一种:
S9022,确认所述候选问答数据中的候选答案数据的长度,基于所述长度和长度阈值确认所述候选问答数据的答案质量;
在一种可行的实施方式中,对于候选答案数据的答案质量可以通过其长度确认,长度也即候选答案数据中的字符数量,可以理解的,当候选答案数据的长度过短时,其中很可能不包含有效信息,也即不包含知识点,因此,可以将长度低于长度阈值的候选答案数据的答案质量设置为低,进而将其过滤。
S9024,确认所述候选答案数据的语言模型困惑度,基于所述语言模型困惑度确认所述候选问答数据的答案质量;
在一种可行的实施方式中,通过为每一候选答案数据计算语言模型困惑度,可以确认候选答案数据的答案质量。具体的,语言模型困惑度(Perplexity,PPL)主要是根据一句话中每个词来估计一句话的出现概率,语言模型困惑度越低则候选问答数据的答案质量越高,语言模型的困惑度的计算方式为公开内容,在此不加赘述。
S9026,基于知识库中答案数据,确认所述候选答案数据的答案质量。
在一种可行的实施方式中,候选答案数据的答案质量可以根据知识库中答案数据确认,也即可以根据候选答案数据与知识库中答案数据的相似度确认候选答案数据是否包含知识点。例如,可以是基于知识库中答案数据训练知识检测模型,根据知识检测模型的输出分数得到候选答案数据的答案质量。
请参见图7,图7为本说明书实施例提供了一种问答数据生成方法的整体流程图,对于从服务对话数据中获取到的无答案问题数据首先可以计算与服务对话数据的第二相似度召回与其匹配的相似对话数据,接着对相似对话数据和无答案问题数据计算第三相似度排序得到第一对话数据,将第一对话数据和无答案问题数据输入对话问题回答模型,由对话问题回答模型基于对话阅读理解机制分别输出与各无答案问题数据匹配的答案数据,对答案聚合得到答案数据;对服务对话数据进行聚类获取高频回答数据,再根据知识库中答案数据确认高频回答数据是否包含“知识”,确认得到目标回答数据,获取目标回答数据所属第二对话数据,确认目标回答数据与第二对话数据中问题数据的轮次距离和第一问答匹配程度,匹配得到目标问题数据,将目标回答数据和第二对话数据拼接输入问题生成模型生成目标问题数据;将得到的目标问题数据、目标答案数据、无答案问题数据和答案数据确认为候选问答数据,对候选问答数据进行质检,通过检测候选问答数据的问题质量、问答匹配程度、答案出现概率和答案质量对候选问答数据进行筛选,再进行数据脱敏,得到问答数据。可选的,在得到问答数据后可以再由人工进行质检,进一步的保证生成问答数据的有效性。
在本说明书实施例中,通过基于无答案问题数据和答案数据生成第一问答数据,基于目标回答数据和目标问题数据生成第二问答数据,将第一问答数据和第二问答数据确认为候选问答数据,确认候选问答数据的问答质量,基于问答质量从所述候选问答数据中筛选出问答数据,通过对问答质量进行检测,能够将低质量的生成的候选问答数据剔除,提高生成的问答数据的质量,进而提高基于问答数据构建的FAQ知识库的质量。
下面将结合附图8,对本说明书实施例提供的问答数据生成装置进行详细介绍。需要说明的是,附图8中的问答数据生成装置,用于执行本说明书图2-图7所示实施例的方法,为了便于说明,仅示出了与本说明书实施例相关的部分,具体技术细节未揭示的,请参照本说明书图2-图7所示的实施例。
请参见图8,其示出了本说明书一个示例性实施例提供的问答数据生成装置的结构示意图。该问答数据生成装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置1包括获取模块11、对话确认模块12、答案确认模块13、问题确认模块14、生成模块15。
获取模块11,用于获取服务对话数据中的无答案问题数据和目标回答数据;
对话确认模块12,用于从所述服务对话数据中确认与所述无答案问题数据关联的第一对话数据,确认与所述目标回答数据关联的第二对话数据;
答案确认模块13,用于基于所述第一对话数据和所述无答案问题数据,确认与所述无答案问题数据匹配的答案数据;
问题确认模块14,用于基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据;
生成模块15,用于基于所述无答案问题数据、所述答案数据、所述目标回答数据和所述目标问题数据生成问答数据,所述问答数据包括多个问题答案对,所述问题答案对包括问题数据和所述问题数据对应的答案数据。
可选的,所述获取模块11具体用于获取服务对话数据,对所述服务对话数据中的客服回答数据进行聚类,以得到客服回答数据类簇;
基于各所述客服回答数据类簇的类簇大小确认所述客服回答数据的第一出现频率,基于所述第一出现频率从所述客服回答数据中确认目标回答数据。
可选的,所述获取模块11具体用于基于所述第一出现频率从所述客服回答数据中确认高频回答数据;
确认所述高频回答数据与知识库中答案数据的第一相似度;
基于所述第一相似度从所述高频回答数据中确认目标回答数据。
可选的,所述对话确认模块12具体用于确认所述无答案问题数据与所述服务对话数据的第二相似度,基于所述第二相似度从所述服务对话数据中确认相似对话数据;
确认所述无答案问题数据与所述相似对话数据中用户轮次数据的第三相似度,基于所述第三相似度从所述相似对话数据中确认第一对话数据。
可选的,所述对话确认模块12具体用于在所述服务对话数据中匹配所述目标回答数据所属的对话片段;
基于所述对话片段确认所述目标回答数据关联的第二对话数据。
可选的,所述答案确认模块13具体用于将所述第一对话数据和所述无答案问题数据输入对话问题回答模型,由所述对话问题回答模型输出与所述无答案问题数据匹配的答案数据。
可选的,所述答案确认模块13具体用于确认所述目标回答数据与所述第二对话数据中问题数据的轮次距离和第一问答匹配程度;
基于所述轮次距离和所述第一问答匹配程度从所述第二对话数据中问题数据中确认与所述目标回答数据匹配的目标问题数据。
可选的,所述答案确认模块13具体用于将所述第二对话数据和所述目标回答数据拼接后输入问题生成模型,由所述问题生成模型输出所述目标回答数据对应的目标问题数据。
可选的,所述生成模块15具体用于基于所述无答案问题数据和所述答案数据生成第一问答数据;
基于所述目标回答数据和所述目标问题数据生成第二问答数据;
将所述第一问答数据和第二问答数据确认为候选问答数据,确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据。
可选的,所述生成模块15具体用于基于知识库中问题数据,确认所述候选问答数据中候选问题数据的问题质量;
基于所述问题质量从所述候选问题数据中确认无效问题数据;
将所述候选问答数据中的无效问题数据剔除,以得到问答数据。
可选的,所述生成模块15具体用于确认所述候选问答数据中候选问题数据和候选答案数据的第二问答匹配程度;
基于所述第二问答匹配程度从所述候选问答数据中筛选出第二问答匹配程度满足预设条件的问答数据。
可选的,所述生成模块15具体用于对所述候选问答数据中候选答案数据进行聚类,以得到候选答案数据类簇;
基于各所述候选答案数据类簇的类簇大小确认所述候选答案数据的第二出现频率,基于所述第二出现频率从所述客服回答数据中确认出问答数据。
可选的,所述生成模块15具体用于确认所述候选问答数据中候选答案数据的答案质量;
基于所述答案质量从所述候选问答数据中确认出无效答案数据,将所述候选问答数据中的无效答案数据剔除,以得到问答数据。
可选的,所述生成模块15具体用于确认所述候选问答数据中的候选答案数据的长度,基于所述长度和长度阈值确认所述候选问答数据的答案质量;
确认所述候选答案数据的语言模型困惑度,基于所述语言模型困惑度确认所述候选问答数据的答案质量;
基于知识库中答案数据,确认所述候选答案数据的答案质量。
需要说明的是,上述实施例提供的问答数据生成装置在执行问答数据生成方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的问答数据生成装置与问答数据生成方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本说明书实施例序号仅仅为了描述,不代表实施例的优劣。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书实施例还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述图2-图7所示实施例的所述问答数据生成方法,具体执行过程可以参见图2-图7所示实施例的具体说明,在此不进行赘述。
请参考图9,其示出了本说明书一个示例性实施例提供的电子设备的结构示意图。本说明书中的电子设备可以包括一个或多个如下部件:处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行终端100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户页面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-OnlyMemory,ROM)。可选地,该存储器120包括非瞬时性计算机可读介质(Non-Transitory Computer-Readable Storage Medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等,该操作***可以是安卓(Android)***,包括基于Android***深度开发的***、苹果公司开发的IOS***,包括基于IOS***深度开发的***或其它***。
存储器120可分为操作***空间和用户空间,操作***即运行于操作***空间,原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果,操作***针对不同第三方应用程序为其分配相应的***资源。然而,同一第三方应用程序中不同应用场景对***资源的需求也存在差异,比如,在本地资源加载场景下,第三方应用程序对磁盘读取速度的要求较高;在动画渲染场景下,第三方应用程序则对GPU性能的要求较高。而操作***与第三方应用程序之间相互独立,操作***往往不能及时感知第三方应用程序当前的应用场景,导致操作***无法根据第三方应用程序的具体应用场景进行针对性的***资源适配。
为了使操作***能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作***之间的数据通信,使得操作***能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的***资源适配。
其中,输入装置130用于接收输入的指令或数据,输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据,输出装置140包括但不限于显示设备和扬声器等。在一个示例中,输入装置130和输出装置140可以合设,输入装置130和输出装置140为触摸显示屏。
所述触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,本说明书实施例对此不加以限定。
除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,电子设备中还包括射频电路、输入单元、传感器、音频电路、WiFi模块、电源、蓝牙模块等部件,在此不再赘述。
在图9所示的电子设备中,处理器110可以用于调用存储器120中存储的计算机应用程序,并具体执行以下操作:
获取服务对话数据中的无答案问题数据和目标回答数据;
从所述服务对话数据中确认与所述无答案问题数据关联的第一对话数据,确认与所述目标回答数据关联的第二对话数据;
基于所述第一对话数据和所述无答案问题数据,确认与所述无答案问题数据匹配的答案数据;
基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据;
基于所述无答案问题数据、所述答案数据、所述目标回答数据和所述目标问题数据生成问答数据,所述问答数据包括多个问题答案对,所述问题答案对包括问题数据和所述问题数据对应的答案数据。
在一个实施例中,所述处理器110在执行所述获取服务对话数据中的目标回答数据时,具体执行以下操作:
获取服务对话数据,对所述服务对话数据中的客服回答数据进行聚类,以得到客服回答数据类簇;
基于各所述客服回答数据类簇的类簇大小确认所述客服回答数据的第一出现频率,基于所述第一出现频率从所述客服回答数据中确认目标回答数据。
在一个实施例中,所述处理器110在执行所述从所述服务对话数据中确认与所述无答案问题数据关联的第一对话数据时,具体执行以下操作:
确认所述无答案问题数据与所述服务对话数据的第二相似度,基于所述第二相似度从所述服务对话数据中确认相似对话数据;
确认所述无答案问题数据与所述相似对话数据中用户轮次数据的第三相似度,基于所述第三相似度从所述相似对话数据中确认第一对话数据。
在一个实施例中,所述处理器110在执行所述基于所述第一对话数据和所述无答案问题数据,确认与所述无答案问题数据匹配的答案数据时,具体执行以下操作:
将所述第一对话数据和所述无答案问题数据输入对话问题回答模型,由所述对话问题回答模型输出与所述无答案问题数据匹配的答案数据。
在一个实施例中,所述处理器110在执行所述从所述服务对话数据中确认与所述目标回答数据关联的第二对话数据时,具体执行以下操作:
在所述服务对话数据中匹配所述目标回答数据所属的对话片段;
基于所述对话片段确认所述目标回答数据关联的第二对话数据。
在一个实施例中,所述处理器110在执行所述基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据时,具体执行以下操作:
确认所述目标回答数据与所述第二对话数据中问题数据的轮次距离和第一问答匹配程度;
基于所述轮次距离和所述第一问答匹配程度从所述第二对话数据中问题数据中确认与所述目标回答数据匹配的目标问题数据。
在一个实施例中,所述处理器110在执行所述基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据时,具体执行以下操作:
将所述第二对话数据和所述目标回答数据拼接后输入问题生成模型,由所述问题生成模型输出所述目标回答数据对应的目标问题数据。
在一个实施例中,所述处理器110在执行所述基于所述无答案问题数据、所述答案数据、所述目标回答数据和所述目标问题数据生成问答数据时,具体执行以下操作:
基于所述无答案问题数据和所述答案数据生成第一问答数据;
基于所述目标回答数据和所述目标问题数据生成第二问答数据;
将所述第一问答数据和第二问答数据确认为候选问答数据,确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据。
在一个实施例中,所述处理器110在执行所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据时,具体执行以下操作:
基于知识库中问题数据,确认所述候选问答数据中候选问题数据的问题质量;
基于所述问题质量从所述候选问题数据中确认无效问题数据;
将所述候选问答数据中的无效问题数据剔除,以得到问答数据。
在一个实施例中,所述处理器110在执行所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据时,具体执行以下操作:
确认所述候选问答数据中候选问题数据和候选答案数据的第二问答匹配程度;
基于所述第二问答匹配程度从所述候选问答数据中筛选出第二问答匹配程度满足预设条件的问答数据。
在一个实施例中,所述处理器110在执行所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据时,具体执行以下操作:
对所述候选问答数据中候选答案数据进行聚类,以得到候选答案数据类簇;
基于各所述候选答案数据类簇的类簇大小确认所述候选答案数据的第二出现频率,基于所述第二出现频率从所述客服回答数据中确认出问答数据。
在一个实施例中,所述处理器110在执行所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据时,具体执行以下操作:
确认所述候选问答数据中候选答案数据的答案质量;
基于所述答案质量从所述候选问答数据中确认出无效答案数据,将所述候选问答数据中的无效答案数据剔除,以得到问答数据。
在一个实施例中,所述处理器110在执行所述确认所述候选问答数据中候选答案数据的答案质量时,具体执行以下至少一种操作:
确认所述候选问答数据中的候选答案数据的长度,基于所述长度和长度阈值确认所述候选问答数据的答案质量;
确认所述候选答案数据的语言模型困惑度,基于所述语言模型困惑度确认所述候选问答数据的答案质量;
基于知识库中答案数据,确认所述候选答案数据的答案质量。
在本说明书实施例中,通过获取服务对话数据中的无答案问题数据和目标回答数据,从服务对话数据中确认与无答案问题数据关联的第一对话数据,确认与目标回答数据关联的第二对话数据,基于第一对话数据和无答案问题数据,确认与无答案问题数据匹配的答案数据,基于第二对话数据和目标回答数据,确认与目标回答数据匹配的目标问题数据,基于无答案问题数据、答案数据、目标回答数据和目标问题数据生成问答数据。通过挖掘出服务对话中产生的无答案问题数据,生产对应的答案,再从服务对话中挖掘高质量的目标回答数据,进而生成目标回答数据的目标问题数据,得到高质量的问答数据,提高构建知识库的效率。
进一步地,通过获取服务对话数据,对服务对话数据中的客服回答数据进行聚类,以得到客服回答数据类簇,基于各客服回答数据类簇的类簇大小确认客服回答数据的第一出现频率,基于第一出现频率从客服回答数据中确认高频回答数据,挖掘高频的客服回答,同时也避免挖掘出大量相似的问答对,确认高频回答数据与知识库中答案数据的第一相似度,基于第一相似度从高频回答数据中确认目标回答数据,检测客服回答是否具有“知识”,将具有知识的目标回答数据选出。在确认目标回答数据之后,可以在服务对话数据中匹配目标回答数据所属的对话片段,基于对话片段确认目标回答数据关联的第二对话数据,确认目标回答数据与第二对话数据中问题数据的轮次距离和第一问答匹配程度,基于轮次距离和第一问答匹配程度从第二对话数据中问题数据中确认与目标回答数据匹配的目标问题数据,也可以将第二对话数据和所述目标回答数据拼接后输入问题生成模型,由问题生成模型输出目标回答数据对应的目标问题数据。对于大量的服务对话数据,基于聚类-知识检测-问题生产的问答对生产链路,可以从大量人人对话日志中提炼关注的目标回答数据以及目标回答数据对应的目标问题数据,进而提炼出包含知识点的问答对。
进一步地,通过获取服务对话数据中的无答案问题数据,确认无答案问题数据与服务对话数据的第二相似度,基于第二相似度从服务对话数据中确认相似对话数据,确认无答案问题数据与相似对话数据中用户轮次数据的第三相似度,基于第三相似度从相似对话数据中确认第一对话数据,将第一对话数据和所述无答案问题数据输入对话问题回答模型,由对话问题回答模型输出与所述无答案问题数据匹配的答案数据。通过自动检测服务对话数据中的无答案的用户问题,一方面基于无答案问题数据和对话的整体第三相似度,另一方面也基于无答案问题数据与用户轮次数据的第三相似度,确认出第一对话数据,由对话问题回答模型根据第一对话数据和无答案问题数据自动生产对应的答案,从而提高生产答***性以及效率。
进一步地,通过基于无答案问题数据和答案数据生成第一问答数据,基于目标回答数据和目标问题数据生成第二问答数据,将第一问答数据和第二问答数据确认为候选问答数据,确认候选问答数据的问答质量,基于问答质量从所述候选问答数据中筛选出问答数据,通过对问答质量进行检测,能够将低质量的生成的候选问答数据剔除,提高生成的问答数据的质量,进而提高基于问答数据构建的FAQ知识库的质量。
另外,本说明书实施例提供了一种计算机程序产品,所述计算机程序产品中包括计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器至少可以实现如前述图1至图7所示实施例中提供的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本说明书较佳实施例而已,当然不能以此来限定本说明书之权利范围,因此依本说明书权利要求所作的等同变化,仍属本说明书所涵盖的范围。

Claims (18)

1.一种问答数据生成方法,所述方法包括:
获取服务对话数据中的无答案问题数据和目标回答数据;
从所述服务对话数据中确认与所述无答案问题数据关联的第一对话数据,确认与所述目标回答数据关联的第二对话数据;
基于所述第一对话数据和所述无答案问题数据,确认与所述无答案问题数据匹配的答案数据;
基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据;
基于所述无答案问题数据、所述答案数据、所述目标回答数据和所述目标问题数据生成问答数据,所述问答数据包括多个问题答案对,所述问题答案对包括问题数据和所述问题数据对应的答案数据。
2.如权利要求1所述的方法,所述获取服务对话数据中的目标回答数据,包括:
获取服务对话数据,对所述服务对话数据中的客服回答数据进行聚类,以得到客服回答数据类簇;
基于各所述客服回答数据类簇的类簇大小确认所述客服回答数据的第一出现频率,基于所述第一出现频率从所述客服回答数据中确认目标回答数据。
3.如权利要求2所述的方法,所述基于所述第一出现频率从所述客服回答数据中确认目标回答数据,包括:
基于所述第一出现频率从所述客服回答数据中确认高频回答数据;
确认所述高频回答数据与知识库中答案数据的第一相似度;
基于所述第一相似度从所述高频回答数据中确认目标回答数据。
4.如权利要求1所述的方法,所述从所述服务对话数据中确认与所述无答案问题数据关联的第一对话数据,包括:
确认所述无答案问题数据与所述服务对话数据的第二相似度,基于所述第二相似度从所述服务对话数据中确认相似对话数据;
确认所述无答案问题数据与所述相似对话数据中用户轮次数据的第三相似度,基于所述第三相似度从所述相似对话数据中确认第一对话数据。
5.如权利要求1所述的方法,所述基于所述第一对话数据和所述无答案问题数据,确认与所述无答案问题数据匹配的答案数据,包括:
将所述第一对话数据和所述无答案问题数据输入对话问题回答模型,由所述对话问题回答模型输出与所述无答案问题数据匹配的答案数据。
6.如权利要求1所述的方法,所述从所述服务对话数据中确认与所述目标回答数据关联的第二对话数据,包括:
在所述服务对话数据中匹配所述目标回答数据所属的对话片段;
基于所述对话片段确认所述目标回答数据关联的第二对话数据。
7.如权利要求1所述的方法,所述基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据,包括:
确认所述目标回答数据与所述第二对话数据中问题数据的轮次距离和第一问答匹配程度;
基于所述轮次距离和所述第一问答匹配程度从所述第二对话数据中问题数据中确认与所述目标回答数据匹配的目标问题数据。
8.如权利要求1所述的方法,所述基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据,包括:
将所述第二对话数据和所述目标回答数据拼接后输入问题生成模型,由所述问题生成模型输出所述目标回答数据对应的目标问题数据。
9.如权利要求1所述的方法,所述基于所述无答案问题数据、所述答案数据、所述目标回答数据和所述目标问题数据生成问答数据,包括:
基于所述无答案问题数据和所述答案数据生成第一问答数据;
基于所述目标回答数据和所述目标问题数据生成第二问答数据;
将所述第一问答数据和第二问答数据确认为候选问答数据,确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据。
10.如权利要求9所述的方法,所述问答质量包括问题质量;
所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据,包括:
基于知识库中问题数据,确认所述候选问答数据中候选问题数据的问题质量;
基于所述问题质量从所述候选问题数据中确认无效问题数据;
将所述候选问答数据中的无效问题数据剔除,以得到问答数据。
11.如权利要求9所述的方法,所述问答质量包括问答匹配程度;
所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据,包括:
确认所述候选问答数据中候选问题数据和候选答案数据的第二问答匹配程度;
基于所述第二问答匹配程度从所述候选问答数据中筛选出第二问答匹配程度满足预设条件的问答数据。
12.如权利要求9所述的方法,所述问答质量包括答案出现频率;
所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据,包括:
对所述候选问答数据中候选答案数据进行聚类,以得到候选答案数据类簇;
基于各所述候选答案数据类簇的类簇大小确认所述候选答案数据的第二出现频率,基于所述第二出现频率从所述客服回答数据中确认出问答数据。
13.如权利要求9所述的方法,所述问答质量包括答案质量;
所述确认所述候选问答数据的问答质量,基于所述问答质量从所述候选问答数据中筛选出问答数据,包括:
确认所述候选问答数据中候选答案数据的答案质量;
基于所述答案质量从所述候选问答数据中确认出无效答案数据,将所述候选问答数据中的无效答案数据剔除,以得到问答数据。
14.如权利要求13所述的方法,所述确认所述候选问答数据中候选答案数据的答案质量,包括以下至少一种:
确认所述候选问答数据中的候选答案数据的长度,基于所述长度和长度阈值确认所述候选问答数据的答案质量;
确认所述候选答案数据的语言模型困惑度,基于所述语言模型困惑度确认所述候选问答数据的答案质量;
基于知识库中答案数据,确认所述候选答案数据的答案质量。
15.一种问答数据生成装置,包括:
获取模块,用于获取服务对话数据中的无答案问题数据和目标回答数据;
对话确认模块,用于从所述服务对话数据中确认与所述无答案问题数据关联的第一对话数据,确认与所述目标回答数据关联的第二对话数据;
答案确认模块,用于基于所述第一对话数据和所述无答案问题数据,确认与所述无答案问题数据匹配的答案数据;
问题确认模块,用于基于所述第二对话数据和所述目标回答数据,确认与所述目标回答数据匹配的目标问题数据;
生成模块,用于基于所述无答案问题数据、所述答案数据、所述目标回答数据和所述目标问题数据生成问答数据,所述问答数据包括多个问题答案对,所述问题答案对包括问题数据和所述问题数据对应的答案数据。
16.一种电子设备,包括:处理器和存储器;其中存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至14中任一项所述方法的步骤。
17.一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至13中任一项所述方法的步骤。
18.一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行如权利要求1至13中任一项所述方法的步骤。
CN202310835504.4A 2023-07-07 2023-07-07 问答数据生成方法、装置、设备与存储介质 Pending CN117573816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310835504.4A CN117573816A (zh) 2023-07-07 2023-07-07 问答数据生成方法、装置、设备与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310835504.4A CN117573816A (zh) 2023-07-07 2023-07-07 问答数据生成方法、装置、设备与存储介质

Publications (1)

Publication Number Publication Date
CN117573816A true CN117573816A (zh) 2024-02-20

Family

ID=89863085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310835504.4A Pending CN117573816A (zh) 2023-07-07 2023-07-07 问答数据生成方法、装置、设备与存储介质

Country Status (1)

Country Link
CN (1) CN117573816A (zh)

Similar Documents

Publication Publication Date Title
CN103853703B (zh) 一种信息处理方法及电子设备
CN111428010B (zh) 人机智能问答的方法和装置
CN108447471A (zh) 语音识别方法及语音识别装置
CN107844470B (zh) 一种语音数据处理方法及其设备
CN111462741B (zh) 语音数据处理方法、装置及存储介质
CN111312233A (zh) 一种语音数据的识别方法、装置及***
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN110956958A (zh) 搜索方法、装置、终端设备及存储介质
CN115116458B (zh) 语音数据转换方法、装置、计算机设备及存储介质
CN114330285B (zh) 语料处理方法、装置、电子设备及计算机可读存储介质
CN113643706B (zh) 语音识别方法、装置、电子设备及存储介质
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN117573816A (zh) 问答数据生成方法、装置、设备与存储介质
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN114049875A (zh) 一种tts播报方法、装置、设备以及存储介质
CN112307186A (zh) 基于情绪识别的问答服务方法、***、终端设备及介质
CN112632241A (zh) 智能会话的方法、装置、设备和计算机可读介质
CN112786041A (zh) 语音处理方法及相关设备
CN115934920B (zh) 针对人机对话的模型训练方法及相关装置
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN113782022B (zh) 基于意图识别模型的通信方法、装置、设备及存储介质
CN117933384A (zh) 图谱生成方法、装置、设备与存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination