CN105335400B - 针对用户的提问意图获取答案信息的方法及装置 - Google Patents

针对用户的提问意图获取答案信息的方法及装置 Download PDF

Info

Publication number
CN105335400B
CN105335400B CN201410350679.7A CN201410350679A CN105335400B CN 105335400 B CN105335400 B CN 105335400B CN 201410350679 A CN201410350679 A CN 201410350679A CN 105335400 B CN105335400 B CN 105335400B
Authority
CN
China
Prior art keywords
corpus
user
reply
intended
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410350679.7A
Other languages
English (en)
Other versions
CN105335400A (zh
Inventor
王骏龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410350679.7A priority Critical patent/CN105335400B/zh
Publication of CN105335400A publication Critical patent/CN105335400A/zh
Priority to HK16107229.0A priority patent/HK1219316A1/zh
Application granted granted Critical
Publication of CN105335400B publication Critical patent/CN105335400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了针对用户的提问意图获取答案信息的方法及装置,其中,所述方法包括:获取第一用户与多个第二用户进行即时通信过程中的历史对话记录;从所述历史对话记录中对各个第二用户提出的问题语料进行用户意图识别,获取同一用户意图下包括的各个问题语料,并获取该第一用户对同一用户意图下的各问题语料给出的回复语料;针对同一用户意图,对各个回复语料进行聚类,得出多个类别,并在包含回复语料数目多于预置阈值的目标类别中,分别计算各个回复语料在所述目标类别中成为类别中心的权重;根据所述权重,确定该用户意图的中心答案。通过本申请,可以进一步地节省人力以及时间成本。

Description

针对用户的提问意图获取答案信息的方法及装置
技术领域
本申请涉及数据挖掘技术领域,特别是涉及针对用户的提问意图获取答案信息的方法及装置。
背景技术
随着电子商务用户行为数据库的不断完善,以及传统通信、移动通信等技术的快速发展,越来越多的人们通过网上购物的方式来获取自己所需的商品,商品的种类可以涉及到人们日常生活的方方面面,为人们生活提供了极大的便利。
在网上购物的过程中,买家用户经常需要与卖家用户进行一些在线的沟通,例如,一个买家用户在收到了一件商品之后,发现颜色不喜欢,或者大小不合适等,需要进行退货或者换货,此时,该买家用户就可以通过在线通讯工具联系到该卖家的客服人员,与客服人员沟通退换货事宜。
在传统的实现方式下,卖家用户一般需要雇佣客服人员来专门完成上述在线沟通服务,人工成本会比较高,并且在出现多个买家同时发来咨询消息的情况下,经常会造成买家用户的排队等待现象。为了解决该问题,有些电子商务用户行为数据库为卖家用户提供了“智能机器人”服务,通过该服务可以由计算机自动解答买家用户发送来的各种问题,最终达成一种快速帮助商家完成人工客服所做的日常工作。但是,在该服务在实现过程中有个关键的问题需要解决,那就是如何使得计算机***能够准确地识别出用户的意图,并据此来给出恰当的答复。例如,如果用户说“这个衣服颜色不正,我要退了”,计算机***需要将其理解为“客户需要退货”,然后再给出正确的答复。
现有技术中,为如何准确识别用户意图提出了一些解决方案,例如,通过分析用户之间的聊天记录,建立语言模型,接收到用户的当前聊天语料后,进行语义分析,把分析完的语义结果通过主题模型计算得到最大概率的主题,并作为该用户的意图。
现有技术虽然为如何识别用户意图给出了实现方案,但是关于具体的用户意图对应的答案,一般是需要由用户或者后台技术人员进行手动配置的,也即,智能机器人在代替客服与买家用户进行对话的过程中,自动识别出买家用户的意图之后,就可以将预先人工配置好的针对该意图的答案返回给该买家用户,实现与其对话。但是,预先人工为各个意图配置答案的过程同样可能会耗费较多的人力及时间成本。
因此,如何在使得计算机***能够自动获取到用户意图对应的答案,并自动进行回复,以便进一步节省时间及人力成本,是迫切需要本领域技术人员解决的技术问题。
发明内容
本申请提供了针对用户的提问意图获取答案信息的方法及装置,可以进一步地节省人力以及时间成本。
本申请提供了如下方案:
一种针对用户的提问意图获取答案信息的方法,包括:
获取第一用户与多个第二用户进行即时通信过程中的历史对话记录;
从所述历史对话记录中对各个第二用户提出的问题语料进行用户意图识别,获取同一用户意图下包括的各个问题语料,并获取该第一用户对同一用户意图下的各问题语料给出的回复语料;
针对同一用户意图,对各个回复语料进行聚类,得出多个类别,并在包含回复语料数目多于预置阈值的目标类别中,分别计算各个回复语料在所述目标类别中成为类别中心的权重;
根据所述权重,确定该用户意图的中心答案。
一种针对用户的提问意图获取答案信息的装置,包括:
历史对话记录获取单元,用于获取第一用户与多个第二用户进行即时通信过程中的历史对话记录;
回复语料获取单元,用于从所述历史对话记录中对各个第二用户提出的问题语料进行用户意图识别,获取同一用户意图下包括的各个问题语料,并获取该第一用户对同一用户意图下的各问题语料给出的回复语料;
权重计算单元,用于针对同一用户意图,对各个回复语料进行聚类,得出多个类别,并在包含回复语料数目多于预置阈值的目标类别中,分别计算各个回复语料在所述目标类别中成为类别中心的权重;
中心答案确定单元,用于根据所述权重,确定该用户意图的中心答案。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,可以通过计算机程序对历史对话记录进行数据挖掘,为各个用户意图自动获取到对应的答案,而不再需要用户或者后台技术人员为各个用户意图执行手动的答案输入或者设置等工作,可以进一步地节省人力以及时间成本。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的针对用户的提问意图获取答案信息的方法的流程图;
图2是本申请实施例提供的针对用户的提问意图获取答案信息的装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,可以从即时通讯工具中用户的历史对话记录中进行数据挖掘,获取出对应各个用户意图的答案,建立起“意图-答案”数据库(也即保存有用户意图与答案之间的对应关系),这样,可以通过计算机程序为各个用户意图自动获取到对应的答案,而不再需要用户或者后台技术人员为各个用户意图执行手动的答案输入或者设置等工作,可以进一步地节省人力以及时间成本。下面对具体的实现方式进行详细地介绍。
参见图1,本申请实施例首先提供了一种针对用户的提问意图获取答案信息的方法,该方法可以包括以下步骤:
S101:获取第一用户与多个第二用户进行即时通信过程中的历史对话记录;
对于电子商务交易平台中的“智能机器人”而言,其主要的功能是代替客服人员,帮助卖家用户来回答买家用户提出的各种问题,在该“智能机器人”出现之前,主要就是由卖家用户的客服人员与买家用户之间通过即时通讯工具进行对话,两者之间主要是采用“一问一答”的方式进行对话,并且在此过程中会产生大量的历史对话记录。因此,本申请实施例就可以基于这些历史对话记录进行数据挖掘,从中获取到针对不同的买家用户意图,应该给出怎样的答案。当然,在实际应用中,该方法也可以应用于其他具有类似特点以及需求的领域,因此,在本申请实施例中,将即时通讯中的对话双方用户称为“第一用户”以及“第二用户”,其中,第二用户在对话过程中主要扮演提问者的角色,例如交易平台中的买家用户,而第一用户在对话过程中则主要扮演回答者的角色,例如交易平台中的卖家用户。
而本申请发明人在实现本申请的过程中发现,对于第二用户提出的同一问题,不同的第一用户给出的答案一般是不同的。例如,对于不同的卖家用户而言,由于各自销售的商品对象类型等有所不同,各自使用的合作方快递服务商可能不同,各自的退货地址等等都可能是不同的,因此,针对买家用户相同的问题,给出的答案可能是不同的。例如,某买家用户询问卖家用户“请问会使用什么快递进行送货”,卖家用户A给出的答案可能是“快递甲”,卖家用户B给出的答案可能是“快递乙”,卖家用户C给出的答案可能是“默认发快递甲,也可以选择快递乙”,等等。因此,在本申请实施例中,可以分别针对不同的第一用户进行答案的自动提取,因此,在获取历史对话记录时,也可以以第一用户为单位分别进行提取,对于同一第一用户而言,可以提取出该第一用户与各个第二用户之间的历史对话记录。例如,第一用户A过去与第二用户B、C、D之间进行过对话,因此,就可以获取到该第一用户A与第二用户B、C、D之间的历史对话记录。当然,在实际应用中,可以提取一段时间内(例如最近一周内、一个月内等)的历史对话记录进行分析。基于这些数据,为该第一用户A挖掘出针对各种第二用户意图的答案,这样,第一用户A端的“智能机器人”在接收到其他第二用户的提问之后,就可以基于这些答案作出回答。
S102:从所述历史对话记录中对各个第二用户提出的问题语料进行用户意图识别,获取同一用户意图下包括的各个问题语料,并获取该第一用户对同一用户意图下的各问题语料给出的回复语料;
如前文所述,在历史对话记录中,第二用户主要作为提问方,因此,其对话语料一般都是问题语料,但是,第二用户在对话过程中的用语具有很高的随意性,针对同一意图,所问问题的具体语言表达方式可能是多种多样的。例如,同样是想问卖家用户使用何种快递方式,有的买家用户可能问“用什么快递”,有的可能问“快递用哪家”等等。如果针对所有问题都提取对应的答案,则最终生成的“问题-答案”数据库(也即保存有问题与答案之间的对应关系)的规模会是非常巨大的,并且也不利于后续在回答其他用户提问的使用。例如后续的问题如果又改变了提问的方式,可能就无法从该数据库中查询到对应的答案,相应的,“智能机器人”就无法回答该问题,此时,可能仍然需要通过人工的方式进行回答。
为此,在本申请实施例中,在进行数据挖掘的过程中,就可以首先针对历史对话记录中第二用户的问题语料,进行用户意图的识别,这样,使得表达相同意图但是使用了不同语言表达形式的问题语料,被结构化地表示成用户意图,同一用户意图下可以包括多个问题语料,然后基于第一用户为这些问题语料给出的回复语料,分析出能够回答该用户意图的最佳或最合适的答案,并且可以添加到“意图-答案”数据库中。例如,历史对话记录中包括以下问题语料:“用什么快递”、“快递用哪家”等,此时,可以将这些问题语料识别为“询邮”这一用户意图,相应的,在“询邮”这一用户意图下,可以包括上述各问题语料。后续“智能机器人”在回答第二用户的问题时,也可以首先根据第二用户输入的问题文本,识别出该用户的用户意图,然后从“意图-答案”数据库中提取出该用户意图对应的答案,并发送给该第二用户即可。这样,即使第二用户在提问时,语言表达方式上又发生了变化,只要能够从其语言中识别出用户意图,就仍然可以自动给出合适的答案,降低人工干预的概率。需要说明的是,关于具体如何进行用户意图的识别,可以采用已有技术中的实现方式,并不属于本申请实施例的重点,因此,这里不再详述。
在对问题语料进行了用户意图识别,并确定出各用户意图下包含的问题语料之后,就可以从历史对话记录中提取出第一用户针对这些问题语料给出的回复语料,通过对这些回复语料的分析,来挖掘出最适合回答对应的用户意图的中心答案。例如,对于用户意图M,其中包含第二用户的问题语料有问题语料x、y、z,此时,就可以从用户对话记录中,提取出第一用户针对问题语料x、y、z给出的回复语料,通过对这几条回复语料的分析,来确定出最适合回答该用户意图M的中心答案。
其中,在确定出某一用户意图下包含的各个问题语料之后,具体如何从历史对话记录中提取出第一用户针对这些问题语料给出的答复语料,可以有多种实现方式。例如,其中一种方式下,考虑到对话双方一般都是采用一问一答的方式来进行对话,也就是说,第二用户在提出一个问题之后,第一用户紧接着就可以做出相应的回复。当然,这属于比较理想的状态,还有些情况下,在第二用户连续提出多个问题的情况下,第一用户给出的回复的顺序可能会发生一些错乱,例如,第二条回复可能会是用于回复第一个问题的,等等。但是,无论是在理想状态下还是非理想状态,第一用户针对第二用户的问题给出的回复一般都是在第一用户提出问题之后,并且是在距离该问题比较近的几条回复之内。因此,在该方式下,可以按照各语料的生成时间(该信息在历史对话记录中会有记载)先后顺序,对第一用户与第二用户之间的历史对话记录进行排序,形成语料序列,当然,对于存在多个第二用户的情况,会形成多个语料序列,一个语料序列对应一个第二用户。之后,针对同一用户意图下的各个问题语料,可以从语料序列中,提取出在问题语料之后且距离问题语料最近的预置条目(例如一条或者两条等等)的目标回复语料,这样,就可以这种目标回复语料确定为第一用户对该用户意图中的问题语料给出的回复语料。
例如,第一用户A与第二用户B之间的历史对话记录,按照语料生成时间先后顺序进行排列之后,得到以下语料序列:
{问题语料1,回复语料1,问题语料2,回复语料2,回复语料3,问题语料3,问题语料4,回复语料4……}
假设某用户意图下的问题语料包括问题语料1,预先定义与问题语料之间的距离小于等于1的回复语料都可以作为该问题语料的目标回复语料(距离为0时,代表与问题语料直接相邻,距离为1时,代表与问题语料之间隔着一条回复语料,以此类推),则,由于回复语料1在该问题语料1之后生成,并且与该问题语料1直接相邻,也即距离为0,回复语料2也是在问题语料1之后生成,与该问题语料1之间的距离为1,回复语料1以及回复语料2都可以被作为第一用户回答该问题语料1时给出的目标回复语料被提取出来。相应的,如果问题语料2是另一用户意图下的问题语料,则按照前述假设关系,回复语料2、回复语料3也将会被作为第一用户回答该问题语料2时给出的目标回复语料被提取出来,以此类推。
总之,针对各个用户意图,都可以从历史对话记录中提取出第一用户针对该用户意图给出的多个回复语料,这些回复语料中有的可能确实能够回答该用户意图,有些可能不能回答该用户意图,属于噪音,能够回答该用户意图的回复语料中还可能存在最适合回答该用户意图的最佳语料,因此,后续的步骤中就会针对各个用户意图,从分别对应的多个回复语料中,过滤掉噪音,并筛选出最适合回答对应用户意图的回复语料,作为对应用户意图的中心答案进行保存。
S103:针对同一用户意图,对各个回复语料进行聚类,得出多个类别,并在包含回复语料数目多于预置阈值的目标类别中,分别计算各个回复语料在所述目标类别中成为类别中心的权重;
具体的,在针对一个用户意图获取到多个回复语料之后,就可以从这些回复语料中提取最能回答该用户意图的中心答案。具体实现时,可以首先对这些回复语料进行聚类,主要是通过比对各个回复语料之间的文本相似度来进行聚类,具体可以使用多种算法进行该聚类过程。例如,在一种实现方式下,可以使用杰卡德相似系数计算回复语料之间的相似度,然后使用canopy算法进行聚类,此时,假设某用户意图对应N个回复语料,并假设最小相似度为T1,一致相似度为T2,在初始状态下,各个回复语料的中心标志位flag=false。这样,具体的聚类过程可以包括以下步骤:
步骤1,从N个回复语料中随机选取一个回复语料n,开设一个类别1,并假设该回复语料为该类别的中心点;
步骤2,计算其他回复语料与该中心点之间的距离d;
步骤3,如果某回复语料m与该中心点之间的距离d小于T1,则将该回复语料m加入到该类别1中;
步骤4,如果d小于T2,则将该回复语料m的标志位flag置为true,以此表明该回复语料m已经找到了所述的类别,不需要再为该回复语料开设一个新的类别;
一次遍历结束之后,再从所有flag为false的回复语料中重新随机选取一个回复语料,重复执行步骤1至步骤4,以此类推,直到所有的回复语料的标志位均被置为true,就可以完成对回复语料的聚类过程。
在完成上述聚类过程之后,一个用户意图对应的N个回复语料可以被划分为多个类别,其中,每个类别中都包含有一定数量的回复语料,有的类别中包含的回复语料可能非常少,这些回复语料一般可以被作为噪音过滤掉。剩余的都是包含回复语料数码多于某预置阈值的类别,在这些类别中,同一类别中各个回复语料之间的相似度都比较高,并且一般会存在一个可以作为类别中心的回复语料。因此,接下来,本申请实施例就可以从这些类别中挖掘出能够作为类别中心的回复语料,该回复语料就可能会成为最能回答该用户意图的中心答案。
在获取某类别中的类别中心时,可以分别计算类别中的各个回复语料成为该类别的类别中心的权重,权重最高者即可成为类别中心。也即,首先假设其中任何一个回复语料都是类别中心,然后计算具体到某个回复语料时,其真正成为类别中心的权重。具体在计算某回复语料n的权重时,可以考虑以下因素:该类别内的其他回复语料的生成时间与当前时间之间的距离t,以及类别内的其他回复语料与该回复语料n之间的相似度L。其中,对于时间距离t而言,由于越靠近当前时间的回复语料越能表现实时性,因此,其他回复语料对当前回复语料的权重的加强程度,与时间距离t成反比。为此,可以首先将计算出的距离t带入到一个时间损失函数中,得到一个输出值y,之后再利用该y值参与对回复语料n的权重的计算。其中,时间损失函数的具体表现形式可以有多种,例如,其中一种方式下,可以是一个均值为0,方差为σ的正太分布函数。对于其他回复语料与该回复语料n之间的相似度而言,相似度越高则越能提高该回复语料n成为类别中心的权重。因此,具体可以通过以下公式来计算回复语料n成为其所在类别的类别中心的权重:
其中:
Yn为回复语料n在其所在目标类别I中成为类别中心的权重;
ym为将该目标类别I中其他回复语料m的生成时间与当前时间之间的距离t带入到预置的时间损失函数中,得到输出值;
Lnm为回复语料n与回复语料m之间的相似度;
N为该目标类别I中包含的回复语料的数目。
总之,对于某类别中的各个回复语料而言,均可以按照上述方式计算出各自能够成为类别中心的权重,其中权重最高者即可作为类别中心。
S104:根据所述权重,确定该用户意图的中心答案。
通过以上各个步骤,对于某用户意图而言,可以确定出该用户意图下,回复语料数目比较多的目标类别,并且可以分别确定出各个类别的类别中心,这样就可以根据这种类别中心来确定出该用户意图的中心答案。其中,如果某用户意图下,包含回复语料数目多于预置阈值的目标类别为一个,则就可以直接将该类别的类别中心确定为该用户意图的中心答案。但是,如果某用户意图下,包含回复语料数目多于预置阈值的目标类别为多个,则会对应得到多个类别中心,此时,不能直接将权重最高的类别中心确定为该用户意图的中心答案。这是因为,在历史对话记录中,有些回复语料覆盖的用户意图可能比较广,也即同样一句话可能即在用户意图A的回复语料中出现,又在用户意图B的回复语料中出现,此时,如果这句话确实能够回答用户意图A,则对于用户意图B来说就属于噪音,应该被过滤掉。但是,在用户意图B下,用上述方式计算出该回复语料成为类别中心的权重却可能比较高,则此时,如果直接根据权重的高低来确定用户意图的中心答案,则可能会出现偏差。
为此,在本申请实施例中,对于包含回复语料数目多于预置阈值的目标类别为至少两个的情况,可以首先获取到各个目标类别的类别中心,之后可以从历史对话记录中分别获取各个类别中心出现的总次数,以及类别中心被用于回答当前用户意图的次数;然后,根据类别中心被用于回答当前用户意图的次数以及该类别中心出现的总次数,确定该类别中心被用于回答当前用户意图所占的比例;之后,可以将比例最高的类别中心确定为该当前用户意图的中心答案。
例如,某用户意图A下包含两个目标类别,其中,一个类别的类别中心为回复语料x,另一个类别的类别中心为回复语料y,其中,回复语料y的权重大于回复语料x的权重。假设经统计发现回复语料x出现的总次数为100次,其中用于回答该用户意图A的次数为50次,因此,用于回答该用户意图A所占的比例为50%;回复语料y出现的总次数为200次,其中用于回答该用户意图A的次数为20次,因此,用于回答该用户意图A所占的比例为10%。此时,虽然回复语料x的权重要低于回复语料y,但是,由于回复语料x用于回答该用户意图A所占的比例相对较高,因此,最终可以选择回复语料x作为该用户意图A的中心答案。
总之,通过本申请实施例,可以从历史对话记录中进行数据挖掘,从而获取到可以用于回答各个用户意图的中心答案,这样,就不再需要第一用户或者后台技术人员对用户意图的答案进行手动的配置,有利于进一步节省人力以及时间成本。
与本申请实施例提供的针对用户的提问意图获取答案信息的方法相对应,本申请实施例还提供了一种针对用户的提问意图获取答案信息的装置,参见图2,该装置具体可以包括:
历史对话记录获取单元201,用于获取第一用户与多个第二用户进行即时通信过程中的历史对话记录;
回复语料获取单元202,用于从所述历史对话记录中对各个第二用户提出的问题语料进行用户意图识别,获取同一用户意图下包括的各个问题语料,并获取该第一用户对同一用户意图下的各问题语料给出的回复语料;
权重计算单元203,用于针对同一用户意图,对各个回复语料进行聚类,得出多个类别,并在包含回复语料数目多于预置阈值的目标类别中,分别计算各个回复语料在所述目标类别中成为类别中心的权重;
中心答案确定单元204,用于根据所述权重,确定该用户意图的中心答案。
其中,所述回复语料获取单元202具体可以包括:
语料序列生成子单元,用于按照各语料的生成时间先后顺序,对第一用户与第二用户之间的历史对话记录进行排序,形成语料序列;
提取子单元,用于针对同一用户意图下的各个问题语料,从所述语料序列中,提取出在所述问题语料之后、距离所述问题语料最近的预置条目的目标回复语料,将所述目标回复语料确定为第一用户对该用户意图中的问题语料给出的回复语料。
具体实现时,所述权重计算单元203具体用于针对同一目标类别下的各个回复语料分别进行以下计算:
对于当前回复语料n,根据所在目标类别内其他各回复语料与该当前回复语料n之间的相似度L,以及所述其他各回复语料的生成时间与当前时间之间的距离t,计算该当前回复语料n在其所在目标类别中成为类别中心的权重。
更为具体的,可以通过方法实施例中的公式进行权重计算。
其中,如果所述包含回复语料数目多于预置阈值的目标类别为一个,则中心答案确定单元204具体可以用于:将权重最高的回复语料确定为该用户意图的中心答案。
如果所述包含回复语料数目多于预置阈值的目标类别为至少两个,则中心答案确定单元204具体可以包括:
类别中心确定子单元,用于分别从各个目标类别中获取权重最高的目标回复语料,作为对应目标类别的类别中心;
次数获取子单元,用于从所述历史对话记录中分别获取各个类别中心出现的总次数,以及类别中心被用于回答当前用户意图的次数;
比例确定子单元,用于根据类别中心被用于回答当前用户意图的次数以及该类别中心出现的总次数,确定该类别中心被用于回答当前用户意图所占的比例;
答案确定子单元,用于将所述比例最高的类别中心确定为该当前用户意图的中心答案。
总之,通过上述实施例,可以通过计算机程序对历史对话记录进行数据挖掘,为各个用户意图自动获取到对应的答案,而不再需要用户或者后台技术人员为各个用户意图执行手动的答案输入或者设置等工作,可以进一步地节省人力以及时间成本。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的针对用户的提问意图获取答案信息的方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种针对用户的提问意图获取答案信息的方法,其特征在于,包括:
获取第一用户与多个第二用户进行即时通信过程中的历史对话记录;
从所述历史对话记录中对各个第二用户提出的问题语料进行用户意图识别,获取同一用户意图下包括的各个问题语料,并获取该第一用户对同一用户意图下的各问题语料给出的回复语料;
针对同一用户意图,对各个回复语料进行聚类,得出多个类别,并在包含回复语料数目多于预置阈值的目标类别中,分别计算各个回复语料在所述目标类别中成为类别中心的权重;
根据所述权重,确定该用户意图的中心答案。
2.根据权利要求1所述的方法,其特征在于,所述获取该第一用户对同一用户意图中的各问题语料给出的回复语料,包括:
按照各语料的生成时间先后顺序,对第一用户与第二用户之间的历史对话记录进行排序,形成语料序列;
针对同一用户意图下的各个问题语料,从所述语料序列中,提取出在所述问题语料之后、距离所述问题语料最近的预置条目的目标回复语料,将所述目标回复语料确定为第一用户对该用户意图中的问题语料给出的回复语料。
3.根据权利要求1所述的方法,其特征在于,所述计算各个回复语料在所述目标类别中成为类别中心的权重,包括:
针对同一目标类别下的各个回复语料分别进行以下计算:
对于当前回复语料n,根据所在目标类别内其他各回复语料与该当前回复语料n之间的相似度L,以及所述其他各回复语料的生成时间与当前时间之间的距离t,计算该当前回复语料n在其所在目标类别中成为类别中心的权重。
4.根据权利要求3所述的方法,其特征在于,所述根据所在目标类别内其他各回复语料与该当前回复语料n之间的相似度L,以及所述其他各回复语料的生成时间与当前时间之间的距离t,计算该当前回复语料n在其所在目标类别中成为类别中心的权重,包括:
其中:
Yn为回复语料n在其所在目标类别I中成为类别中心的权重
ym为将该目标类别I中其他回复语料m的生成时间与当前时间之间的距离t带入到预置的时间损失函数中,得到输出值;
Lnm为回复语料n与回复语料m之间的相似度;
N为该目标类别I中包含的回复语料的数目。
5.根据权利要求1所述的方法,其特征在于,如果所述包含回复语料数目多于预置阈值的目标类别为一个,则所述根据所述权重,确定该用户意图的中心答案,包括:
将权重最高的回复语料确定为该用户意图的中心答案。
6.根据权利要求1所述的方法,其特征在于,如果所述包含回复语料数目多于预置阈值的目标类别为至少两个,则所述根据所述权重,确定该用户意图的中心答案,包括:
分别从各个目标类别中获取权重最高的目标回复语料,作为对应目标类别的类别中心;
从所述历史对话记录中分别获取各个类别中心出现的总次数,以及类别中心被用于回答当前用户意图的次数;
根据类别中心被用于回答当前用户意图的次数以及该类别中心出现的总次数,确定该类别中心被用于回答当前用户意图所占的比例;
将所述比例最高的类别中心确定为该当前用户意图的中心答案。
7.一种针对用户的提问意图获取答案信息的装置,其特征在于,包括:
历史对话记录获取单元,用于获取第一用户与多个第二用户进行即时通信过程中的历史对话记录;
回复语料获取单元,用于从所述历史对话记录中对各个第二用户提出的问题语料进行用户意图识别,获取同一用户意图下包括的各个问题语料,并获取该第一用户对同一用户意图下的各问题语料给出的回复语料;
权重计算单元,用于针对同一用户意图,对各个回复语料进行聚类,得出多个类别,并在包含回复语料数目多于预置阈值的目标类别中,分别计算各个回复语料在所述目标类别中成为类别中心的权重;
中心答案确定单元,用于根据所述权重,确定该用户意图的中心答案。
8.根据权利要求7所述的装置,其特征在于,所述回复语料获取单元包括:
语料序列生成子单元,用于按照各语料的生成时间先后顺序,对第一用户与第二用户之间的历史对话记录进行排序,形成语料序列;
提取子单元,用于针对同一用户意图下的各个问题语料,从所述语料序列中,提取出在所述问题语料之后、距离所述问题语料最近的预置条目的目标回复语料,将所述目标回复语料确定为第一用户对该用户意图中的问题语料给出的回复语料。
9.根据权利要求7所述的装置,其特征在于,所述权重计算单元具体用于针对同一目标类别下的各个回复语料分别进行以下计算:
对于当前回复语料n,根据所在目标类别内其他各回复语料与该当前回复语料n之间的相似度L,以及所述其他各回复语料的生成时间与当前时间之间的距离t,计算该当前回复语料n在其所在目标类别中成为类别中心的权重。
10.根据权利要求9所述的装置,其特征在于,所述权重计算单元通过以下方式进行权重计算:
其中:
Yn为回复语料n在其所在目标类别I中成为类别中心的权重
ym为将该目标类别I中其他回复语料m的生成时间与当前时间之间的距离t带入到预置的时间损失函数中,得到输出值;
Lnm为回复语料n与回复语料m之间的相似度;
N为该目标类别I中包含的回复语料的数目。
CN201410350679.7A 2014-07-22 2014-07-22 针对用户的提问意图获取答案信息的方法及装置 Active CN105335400B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410350679.7A CN105335400B (zh) 2014-07-22 2014-07-22 针对用户的提问意图获取答案信息的方法及装置
HK16107229.0A HK1219316A1 (zh) 2014-07-22 2016-06-22 針對用戶的提問意圖獲取答案信息的方法及裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410350679.7A CN105335400B (zh) 2014-07-22 2014-07-22 针对用户的提问意图获取答案信息的方法及装置

Publications (2)

Publication Number Publication Date
CN105335400A CN105335400A (zh) 2016-02-17
CN105335400B true CN105335400B (zh) 2018-11-23

Family

ID=55285937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410350679.7A Active CN105335400B (zh) 2014-07-22 2014-07-22 针对用户的提问意图获取答案信息的方法及装置

Country Status (2)

Country Link
CN (1) CN105335400B (zh)
HK (1) HK1219316A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202085B (zh) * 2015-04-30 2019-08-20 阿里巴巴集团控股有限公司 依据特定主题进行信息搜集的方法、装置及电子设备
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答***的答案排序方法及装置
WO2018000279A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 基于导流的意图识别方法和***
CN106202417A (zh) * 2016-07-12 2016-12-07 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及***
CN106202508A (zh) * 2016-07-20 2016-12-07 北京小米移动软件有限公司 智能答复问题的方法、装置及***
CN107784033B (zh) * 2016-08-31 2021-10-22 百度在线网络技术(北京)有限公司 一种基于会话进行推荐的方法和装置
CN106503189B (zh) * 2016-10-31 2020-03-03 北京百度网讯科技有限公司 基于人工智能的搜索***优化方法和装置
CN108153800B (zh) * 2016-12-06 2023-05-23 松下知识产权经营株式会社 信息处理方法、信息处理装置以及记录介质
CN106658216B (zh) * 2016-12-20 2020-04-21 天脉聚源(北京)传媒科技有限公司 一种共同获取信息的方法及装置
CN108345640B (zh) * 2018-01-12 2021-10-12 上海大学 一种基于神经网络语义分析的问答语料库构建方法
CN109446509B (zh) * 2018-09-06 2023-04-07 厦门快商通信息技术有限公司 一种对话语料意图分析方法、***及电子设备
CN109522556B (zh) * 2018-11-16 2024-03-12 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN110162603B (zh) * 2018-11-30 2023-11-14 腾讯科技(深圳)有限公司 一种智能对话方法、动态存储方法和装置
CN109597881B (zh) * 2018-12-17 2021-07-23 北京百度网讯科技有限公司 匹配度确定方法、装置、设备和介质
CN109710941A (zh) * 2018-12-29 2019-05-03 上海点融信息科技有限责任公司 基于人工智能的用户意图识别方法和装置
CN109922070B (zh) * 2019-03-13 2021-11-26 北京奇艺世纪科技有限公司 一种自动回复方法及装置
CN110457454A (zh) * 2019-07-12 2019-11-15 卓尔智联(武汉)研究院有限公司 一种对话方法、服务器、对话***及存储介质
CN110941710B (zh) * 2019-11-27 2020-10-30 贝壳找房(北京)科技有限公司 用于实现会话的方法、装置、介质以及电子设备
CN111611382A (zh) * 2020-05-22 2020-09-01 贝壳技术有限公司 话术模型训练方法、对话信息生成方法及装置、***
CN112131338B (zh) * 2020-06-05 2024-02-09 支付宝(杭州)信息技术有限公司 一种建立问答对的方法及装置
CN112035610B (zh) * 2020-08-28 2023-04-07 康键信息技术(深圳)有限公司 医疗领域问答对的生成方法、装置、计算机设备和介质
CN112016938A (zh) * 2020-09-01 2020-12-01 中国银行股份有限公司 机器人的交互方法、装置、电子设备及计算机存储介质
CN112541059A (zh) * 2020-11-05 2021-03-23 大连中河科技有限公司 一种应用在税务问答***的多轮智能问答交互方法
CN113239164B (zh) * 2021-05-13 2023-07-04 杭州摸象大数据科技有限公司 多轮对话流程构建方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193973A (zh) * 2010-03-19 2011-09-21 微软公司 呈现回答
CN102456060A (zh) * 2010-10-28 2012-05-16 株式会社日立制作所 信息处理装置及信息处理方法
CN102662952A (zh) * 2012-03-02 2012-09-12 成都康赛电子科大信息技术有限责任公司 一种基于层次的中文文本并行数据挖掘方法
CN103823844A (zh) * 2014-01-26 2014-05-28 北京邮电大学 社区问答服务中基于主客观上下文的问题转发***和方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101696499B1 (ko) * 2012-02-15 2017-01-13 한국전자통신연구원 한국어 키워드 검색문 해석 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193973A (zh) * 2010-03-19 2011-09-21 微软公司 呈现回答
CN102456060A (zh) * 2010-10-28 2012-05-16 株式会社日立制作所 信息处理装置及信息处理方法
CN102662952A (zh) * 2012-03-02 2012-09-12 成都康赛电子科大信息技术有限责任公司 一种基于层次的中文文本并行数据挖掘方法
CN103823844A (zh) * 2014-01-26 2014-05-28 北京邮电大学 社区问答服务中基于主客观上下文的问题转发***和方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***

Also Published As

Publication number Publication date
HK1219316A1 (zh) 2017-03-31
CN105335400A (zh) 2016-02-17

Similar Documents

Publication Publication Date Title
CN105335400B (zh) 针对用户的提问意图获取答案信息的方法及装置
CN107688967A (zh) 客户购买意向的预测方法及终端设备
Janssens Evaluating international managers' performance: parent company standards as control mechanism
CN109740155A (zh) 一种客服***人工智能质检规则自我归纳模型的方法及***
US20160217427A1 (en) Systems, methods, and devices for implementing a referral processing engine
EP3915066A1 (en) Workforce sentiment monitoring and detection systems and methods
Shrestha et al. Multi-dimensional analysis and prediction model for tourist satisfaction
Viol et al. Behavioural dimensions for discovering knowledge actor roles utilising enterprise social network metrics
CN104965846A (zh) MapReduce平台上的虚拟人建立方法
Luk et al. Design of an intelligent customer identification model in e-commerce logistics industry
CN110276593A (zh) 对象推荐方法、装置、服务器及存储介质
CN108989063A (zh) 群组账户数据的处理方法、装置、设备及可读存储介质
CN108009224A (zh) 电力客户的分类方法和装置
CN107294843A (zh) 一种即时通讯消息处理方法及装置
Mukherjee et al. A simulation model using transaction cost economics to analyze the impact of social media on online shopping
Lotko Classifying customers according to NPS index: cluster analysis for contact center services
Walek Fuzzy tool for customer satisfaction analysis in CRM systems
CN111192112A (zh) 一种多平台的交互方法和装置
Farrokhi et al. Evaluation and weighting balanced scorecard critical factors by means of fuzzy analytic hierarchy process (a case study)
Bucos et al. Student cluster analysis based on Moodle data and academic performance indicators
CN114422321B (zh) 构建组织协同网络的方法和装置
KR20190104745A (ko) 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체
Jurczyk-Bunkowska Processing Imprecise Knowledge for Innovation Variants Evaluation Using Fuzzy TOPSIS
Kodippili et al. A study on how organizations perceive synergy between Lean and Industry 4.0
CN115860497A (zh) 一种电力营销***的构建方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1219316

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant