CN111143530B - 一种智能答复方法及装置 - Google Patents

一种智能答复方法及装置 Download PDF

Info

Publication number
CN111143530B
CN111143530B CN201911348269.8A CN201911348269A CN111143530B CN 111143530 B CN111143530 B CN 111143530B CN 201911348269 A CN201911348269 A CN 201911348269A CN 111143530 B CN111143530 B CN 111143530B
Authority
CN
China
Prior art keywords
standard
question
user
preset
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911348269.8A
Other languages
English (en)
Other versions
CN111143530A (zh
Inventor
方维
张保源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Health Insurance Company of China Ltd
Original Assignee
Ping An Health Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Health Insurance Company of China Ltd filed Critical Ping An Health Insurance Company of China Ltd
Priority to CN201911348269.8A priority Critical patent/CN111143530B/zh
Publication of CN111143530A publication Critical patent/CN111143530A/zh
Application granted granted Critical
Publication of CN111143530B publication Critical patent/CN111143530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Human Computer Interaction (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种智能答复方法及装置,本发明涉及人工智能技术领域,方法包括:获取待答复的用户提问语句;将用户提问语句进行预处理,得到第一词向量序列;将第一词向量序列输入语义匹配模型,以获取语义匹配模型输出的与用户提问语句相匹配的标准问;当预设时间内多个用户提问语句匹配得到的同一标准问的次数大于第一预设阈值,将标准问确定为热点标准问;将热点标准问及相关联的答复推送至预设的第一推送列表。本发明实施例提供的技术方案能够解决现有技术中客服机器人的运行效率低的问题。

Description

一种智能答复方法及装置
【技术领域】
本发明涉及人工智能技术领域,尤其涉及一种智能答复方法及装置。
【背景技术】
随着互联网的飞速发展,网络客服已经普及到各行各业,其中,常见的智能客服机器人虽然在一定程度上快速响应客户的需求,但是智能客服机器人的功能单一,多数保险代理人往往就一个相同的问题反复请教智能客服机器人,客服机器人容易出现响应变慢,降低客服机器人的运行效率。
【发明内容】
有鉴于此,本发明实施例提供了一种智能答复方法及装置,用以解决现有技术中客服机器人的运行效率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种智能答复方法,所述方法包括:
获取待答复的用户提问语句;将所述用户提问语句进行预处理,得到第一词向量序列;将所述第一词向量序列输入语义匹配模型,以获取所述语义匹配模型输出的与所述用户提问语句相匹配的标准问;当预设时间内多个所述用户提问语句匹配得到的同一所述标准问的次数大于第一预设阈值,将所述标准问确定为热点标准问;将所述热点标准问及相关联的答复推送至预设的第一推送列表。
可选地,所述将所述第一词向量序列输入语义匹配模型,以获取所述语义匹配模型输出的与所述用户提问语句相匹配的标准问的步骤,包括:将所述第一词向量序列输入到所述语义匹配模型,所述语义匹配模型包括孪生长短时神经网络,通过所述孪生长短时神经网络确定所述用户提问语句与预设的标准问集中的每个标准问的文本相似度;根据所述文本相似度确定所述标准问集中与所述用户提问语句相匹配的标准问。
可选地,在所述将所述第一词向量序列输入语义匹配模型,以获取所述语义匹配模型输出的与所述用户提问语句相匹配的标准问之前,所述方法还包括:构建孪生长短时神经网络;获取多个训练样本对,其中,每个训练样本对包括一个标准问样本和一个提问语句样本;将多个所述训练样本对分别进行预处理,得到多个第二词向量序列对;将每个所述训练样本对的第二词向量序列对输入所述孪生长短时神经网络进行学习训练;通过对比对损失函数实现所述孪生长短时神经网络的迭代优化,得到训练好的语义匹配模型。
可选地,在所述将所述热点标准问及相关联的答复推送至预设的第一推送列表之前,所述方法还包括:构建标准知识库,所述标准知识库用于存储标准问-答复对;根据预定的维度标签对所述标准知识库中存储的标准问-答复对进行标注,所述维度标签包括产品维度标签及客户维度标签中的至少一种。
可选地,在所述将所述第一词向量序列输入语义匹配模型,以获取所述语义匹配模型输出的与所述用户提问语句相匹配的标准问之后,所述方法还包括:统计匹配到的所述标准问所关联的同一所述维度标签的重复次数;当同一所述维度标签的重复次数大于第二预设阈值,将所述维度标签确定为热点维度标签;将与所述热点维度标签相关的标准问-答复对推送至预设的第二推送列表。
可选地,所述获取待答复的用户提问语句的步骤,包括:获取待答复的用户提问语音数据;将所述用户提问语音数据转换为用户提问语句。
可选地,所述将所述用户提问语句进行预处理,得到第一词向量序列的步骤,包括:将所述用户提问语句输入预设的分词模型,得到所述分词模型输出的对所述用户提问语句进行分词处理后的第一词序列;利用预设的词向量表示模型将所述第一词序列转换为第一词向量序列。
为了实现上述目的,根据本发明的一个方面,提供了一种智能答复装置,所述装置包括:第一获取单元,用于获取待答复的用户提问语句;处理单元,用于将所述用户提问语句进行预处理,得到第一词向量序列;第二获取单元,用于将所述第一词向量序列输入语义匹配模型,以获取所述语义匹配模型输出的与所述用户提问语句相匹配的标准问;确定单元,用于当预设时间内多个所述用户提问语句匹配得到的同一所述标准问的次数大于第一预设阈值,将所述标准问确定为热点标准问;推送单元,用于将所述热点标准问及相关联的答复推送至预设的第一推送列表。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机非易失性存储介质,所述存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的智能答复方法。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的智能答复方法的步骤。
在本方案中,通过将用户提问语句转换为词向量序列,将词向量序列输入到语义匹配模型,得到相匹配的标准问,满足用户问题咨询需要。进一步根据统计标准问的重复次数,自动化地从当前的提问中总结出热点问题,并将热点标准问及相应的答复推送至预设的推送列表,当用户遇到热点问题时,不再需要分词、向量转换、匹配等一系列程序来匹配问题的标准问,方便用户能够直接在推送列表中根据热点问题找到相应的答复,缩短服务器的响应时间和提高客服机器人的运行效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种可选的智能答复方法的流程图;
图2是本发明实施例提供的一种可选的智能答复装置的示意图;
图3是本发明实施例提供的一种可选的计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一终端也可以被称为第二终端,类似地,第二终端也可以被称为第一终端。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1是根据本发明实施例的一种智能答复方法的流程图,如图1所示,该方法包括:
步骤S01,获取待答复的用户提问语句;
步骤S02,将用户提问语句进行预处理,得到第一词向量序列;
步骤S03,将第一词向量序列输入语义匹配模型,以获取语义匹配模型输出的与用户提问语句相匹配的标准问;
步骤S04,当预设时间内多个用户提问语句匹配得到的同一标准问的次数大于第一预设阈值,将标准问确定为热点标准问;
步骤S05,将热点标准问及相关联的答复推送至预设的第一推送列表。
在本方案中,通过将用户提问语句转换为词向量序列,将词向量序列输入到语义匹配模型,得到相匹配的标准问,满足用户问题咨询需要。进一步根据统计标准问的重复次数,自动化地从当前的提问中总结出热点问题,并将热点标准问及相应的答复推送至预设的推送列表,当用户遇到热点问题时,不再需要分词、向量转换、匹配等一系列程序来匹配问题的标准问,方便用户能够直接在推送列表中根据热点问题找到相应的答复,缩短服务器的响应时间和提高客服机器人的运行效率。
下面对本实施例提供的智能答复方法的具体技术方案进行详细的说明,上述智能答复方法可以应用于智能答复机器人中。
步骤S01,获取待答复的用户提问语句。
其中,用户提问语句的格式可以是文本或语音,例如日常的聊天软件,可以通过文本输入模块或语音输入模块获取用户提问语句,例如“儿童重疾险需要怎么办理?”。
可选地,步骤S01包括:获取待答复的用户提问语音数据;将用户提问语音数据转换为用户提问语句。
其中,本实施例中用户提问语音数据是通过预设的语音识别模型实现的,即,将用户提问语音数据输入至预先设置的语音识别模型中,预设的语音识别模型先将用户提问语音数据进行预处理,提取用户提问语音数据中的特征语音参数,然后,语音识别模型对特征语音参数进行识别,得到特征语音参数对应的音节,并根据各个音节生成用户提问语音数据对应的文本格式的用户提问语句。
可以理解地,将用户提问语音数据转换为文本格式的用户提问语句,有利于后续的语义匹配。
步骤S02,将用户提问语句进行预处理,得到第一词向量序列的步骤,包括:
步骤S021,将用户提问语句输入预设的分词模型,得到分词模型输出的对用户提问语句进行分词处理后的第一词序列;
步骤S022,利用预设的词向量表示模型将第一词序列转换为第一词向量序列。
在一种实施方式中,分词模型可以是分词开源工具,例如ICTCLAS、SCWS等,也可以直接使用自行开发的分词模型对每个用户提问语句进行分词,例如可以是隐马尔可夫模型或条件随机场模型。例如将用户提问语句“中老年重疾险怎么续险”拆分成词序列“中老年重疾险怎么续险”。
在本实施例中,词向量表示模型例如使用word2vec机制训练词向量,word2vec用于处理序列的数据,在序列局部数据间存在着很强的关联。典型的就是文本的序列,尤其是邻近的词之间关联很强,因此采用word2vec机制训练词向量可以提高词序列中词与词之间的关联性的准确度,学习到的词向量代表的词的语义,可以用来进一步做两个句子之间匹配度计算。
步骤S03,将第一词向量序列输入语义匹配模型,以获取语义匹配模型输出的与用户提问语句相匹配的标准问的步骤,包括:
将第一词向量序列输入到语义匹配模型,语义匹配模型包括孪生长短时神经网络,通过孪生长短时神经网络确定用户提问语句与预设的标准问集中的每个标准问的文本相似度;根据文本相似度确定标准问集中与用户提问语句相匹配的标准问。
可以理解地,在搜集问题时,可能有多种提问方式的问题都指向相同的答案,此时需要将多个问题中的一个问题确定为标准问题存储在标准知识库中。其中,标准问集中包括若干个预设的标准问,例如标准问1“如何办理中老年重疾险?”,标准问2“中老年重疾险怎么续险?”,标准问3“重疾险投保人体检要求”。当然会预先将答复和3个标准问分别对应构建成标准问-答复对并保存在标准知识库中。
在本申请实施例中,语义匹配模型用来处理语句匹配的问题,语义匹配模型包括孪生长短时神经网络。
具体地,孪生长短时神经网络包括两个相同的长短时神经网络,该孪生长短时神经网络的输入分别为标准问集中的标准问和用户提问语句,将两个语句样本分别输入两个长短时神经网络,然后将两个长短时神经网络的输出结果作文本相似度计算,该孪生长短时神经网络的输出为文本相似度计算结果,该文本相似度计算结果表示两个输入的语句样本之间的相似度。
可选地,在步骤S03之前,方法还包括:
构建孪生长短时神经网络;获取多个训练样本对,其中,每个训练样本对包括一个标准问样本和一个提问语句样本;将多个训练样本对分别进行预处理,得到多个第二词向量序列对;将每个训练样本对的第二词向量序列对输入孪生长短时神经网络进行学习训练;通过对比对损失函数实现孪生长短时神经网络的迭代优化,得到训练好的语义匹配模型。
具体地,每个训练样本对设有正标签或负标签,根据标签将训练样本对分为正样本对及负样本对,其中,正样本对的提问语句样本的语义与标准问样本的语义相同,负样本对的提问语句样本的语义与标准问样本的语义不同,例如:标准问样本“中老年重疾险怎么办理”与提问语句样本“老人的重疾险怎么办理”是一对正样本对;而标准问样本“中老年重疾险怎么办理”与提问语句样本“老人的重疾险怎么退保”是一对负样本对。
在本实施方式中,训练孪生长短时神经网络时采用的损失函数是对比损失函数,表达式为:其中,d=||an-bn||2,代表标准问样本(an)与提问语句样本(bn)之间的欧氏距离,y为两个样本是否匹配的标签,y=1代表两个样本相似或者匹配,y=0则代表不匹配,margin为设定的阈值。
对比损失函数可以很好的表达成对样本的匹配程度,也能够很好用于训练提取特征的模型。当y=1(即样本相似)时,损失函数L=∑yd2;当y=0时(即样本不相似)时,损失函数为L=∑(1-y)max(margin-d,0)2
在其他实施方式中,d也可以是余弦距离、编辑距离、皮尔森相关系数、Jaccard相似系数或通过BM25算法计算得到的值,在此不做限定。
训练时,根据孪生长短时神经网络的输出结果与输入的训练样本对的标签,通过对比损失函数计算孪生长短时神经网络的损失值,对比损失函数可以很好地表达成对样本的匹配程度,基于训练样本迭代地更新孪生长短时神经网络的权重参数,以降低孪生长短时神经网络的损失值,得到识别精度更高的语义匹配模型。
可选地,方法还包括:收集标准知识库中新增的标准问,根据新增的标准问及其扩展问对语义匹配模型进行优化。扩展问就是与标准问的语义相同的提问语句。
步骤S04,当预设时间内多个用户提问语句匹配得到的同一标准问的次数大于第一预设阈值,将标准问确定为热点标准问。
可选地,用户提问语句携带用户身份标识,例如用户账号,当一个星期内,有32个用户提问语句皆匹配得到标准问a,那么标准问a的重复次数就是32次,而第一预设阈值为30,那么标准问a就会被认定为热点标准问。
步骤S05,将热点标准问及相关联的答复推送至预设的第一推送列表。在本申请的实施例中,第一推送列表是面向所有用户公开的列表,也就是说所有使用该智能答复***的用户都能看到。
可选地,在步骤S05之前,方法还包括:
构建标准知识库,标准知识库用于存储标准问-答复对;根据预定的维度标签对标准知识库中存储的标准问-答复对进行标注,维度标签包括产品维度标签及客户维度标签中的至少一种。
例如将标准问“中老年重疾险怎么办理”标注客户维度标签“中老年”,和产品维度标签“重疾险”。通过将标准问根据提问场景进行客户或产品维度进行标注,能够方便服务器对与某一类型的产品相关的标准问的匹配结果进行统计。
可选地,在步骤S03之后,方法还包括:
统计匹配到的标准问所关联的同一维度标签的重复次数;当同一维度标签的重复次数大于第二预设阈值,将维度标签确定为热点维度标签;将与热点维度标签相关的标准问-答复对推送至预设的第二推送列表。
在本申请实施例中,所述第二推荐列表是用户的私有列表,是与用户提问语句携带的用户身份标识相关联的,在其他实施方式中,第二推送列表也可以是公开列表,在此不做限定。
例如,一个星期内,用户甲的提问语句皆匹配得到标准问a、标准问b、标准问c、标准问d,而标准问a、b、c、d所关联的产品维度标签都是中老年,就意味着该用户对与“中老年”产品维度标签关联的问题比较感兴趣,服务器就会将与“中老年”产品维度标签相关联的标准问都推送给该用户,用户能够直接在网页中查阅这些问题的答复,不需要用户一一输入提问语句,服务器也不需要分词、向量转换、匹配等一系列程序来匹配问题的标准问,减轻服务器的压力。
在本方案中,通过将用户提问语句转换为词向量序列,将词向量序列输入到语义匹配模型,得到相匹配的标准问,满足用户问题咨询需要。进一步根据统计标准问的重复次数,自动化地从当前的提问中总结出热点问题,并将热点标准问及相应的答复推送至预设的推送列表,当用户遇到热点问题时,不再需要分词、向量转换、匹配等一系列程序来匹配问题的标准问,方便用户能够直接在推送列表中根据热点问题找到相应的答复,缩短服务器的响应时间和提高客服机器人的运行效率。
本发明实施例提供了一种智能答复装置,该装置用于执行上述智能答复方法,如图2所示,该装置包括:第一获取单元10、处理单元20、第二获取单元30、确定单元40及推送单元50。
第一获取单元10,用于获取待答复的用户提问语句;
处理单元20,用于将所述用户提问语句进行预处理,得到第一词向量序列;
第二获取单元30,用于将所述第一词向量序列输入语义匹配模型,以获取所述语义匹配模型输出的与所述用户提问语句相匹配的标准问;
确定单元40,用于当预设时间内多个所述用户提问语句匹配得到的同一所述标准问的次数大于第一预设阈值,将所述标准问确定为热点标准问;
推送单元50,用于将所述热点标准问及相关联的答复推送至预设的第一推送列表。
在本实施例中,智能答复装置为智能答复机器人,在本方案中,智能答复机器人通过将用户提问语句转换为词向量序列,将词向量序列输入到语义匹配模型,得到相匹配的标准问,满足用户问题咨询需要。进一步根据统计标准问的重复次数,自动化地从当前的提问中总结出热点问题,并将热点标准问及相应的答复推送至预设的推送列表,当用户遇到热点问题时,不再需要分词、向量转换、匹配等一系列程序来匹配问题的标准问,方便用户能够直接在推送列表中根据热点问题找到相应的答复,缩短服务器的响应时间和提高客服机器人的运行效率。
其中,用户提问语句的格式可以是文本或语音,例如日常的聊天软件,可以通过文本输入模块或语音输入模块获取用户提问语句,例如“儿童重疾险需要怎么办理?”。
可选地,第一获取单元10包括第一获取子单元、第一转换子单元。
第一获取子单元,用于获取待答复的用户提问语音数据;
第一转换子单元,用于将用户提问语音数据转换为用户提问语句。
其中,本实施例中第一转换子单元是预设的语音识别模型,即,将用户提问语音数据输入至预先设置的语音识别模型中,预设的语音识别模型先将用户提问语音数据进行预处理,提取用户提问语音数据中的特征语音参数,然后,语音识别模型对特征语音参数进行识别,得到特征语音参数对应的音节,并根据各个音节生成用户提问语音数据对应的文本格式的用户提问语句。
可以理解地,将用户提问语音数据转换为文本格式的用户提问语句,有利于后续的语义匹配。
可选地,处理单元20包括第一输入子单元、第二转换子单元。
第一输入子单元,用于将用户提问语句输入预设的分词模型,得到分词模型输出的对用户提问语句进行分词处理后的第一词序列;
第二转换子单元,用于利用预设的词向量表示模型将第一词序列转换为第一词向量序列。
在一种实施方式中,分词模型可以是分词开源工具,例如ICTCLAS、SCWS等,也可以直接使用自行开发的分词模型对每个用户提问语句进行分词,例如可以是隐马尔可夫模型或条件随机场模型。例如将用户提问语句“中老年重疾险怎么续险”拆分成词序列“中老年重疾险怎么续险”。
在本实施例中,词向量表示模型例如使用word2vec机制训练词向量,word2vec用于处理序列的数据,在序列局部数据间存在着很强的关联。典型的就是文本的序列,尤其是邻近的词之间关联很强,因此采用word2vec机制训练词向量可以提高词序列中词与词之间的关联性的准确度,学习到的词向量代表的词的语义,可以用来进一步做两个句子之间匹配度计算。
可选地,第二获取单元20包括第二输入子单元、确定子单元。
第二输入子单元,用于将第一词向量序列输入到语义匹配模型,语义匹配模型包括孪生长短时神经网络,通过孪生长短时神经网络确定用户提问语句与预设的标准问集中的每个标准问的文本相似度;
确定子单元,用于根据文本相似度确定标准问集中与用户提问语句相匹配的标准问。
可以理解地,在搜集问题时,可能有多种提问方式的问题都指向相同的答案,此时需要将多个问题中的一个问题确定为标准问题存储在标准知识库中。其中,标准问集中包括若干个预设的标准问,例如标准问1“如何办理中老年重疾险?”,标准问2“中老年重疾险怎么续险?”,标准问3“重疾险投保人体检要求”。当然会预先将答复和3个标准问分别对应构建成标准问-答复对并保存在标准知识库中。
在本申请实施例中,语义匹配模型用来处理语句匹配的问题,语义匹配模型包括孪生长短时神经网络。
具体地,孪生长短时神经网络包括两个相同的长短时神经网络,该孪生长短时神经网络的输入分别为标准问集中的标准问和用户提问语句,将两个语句样本分别输入两个长短时神经网络,然后将两个长短时神经网络的输出结果作文本相似度计算,该孪生长短时神经网络的输出为文本相似度计算结果,该文本相似度计算结果表示两个输入的语句样本之间的相似度。
可选地,装置还包括第一构建单元、第三获取单元、输入单元、优化单元。
第一构建单元,用于构建孪生长短时神经网络;
第三获取单元,用于获取多个训练样本对,其中,每个训练样本对包括一个标准问样本和一个提问语句样本;
处理单元20,还用于将多个训练样本对分别进行预处理,得到多个第二词向量序列对;
输入单元,用于将每个训练样本对的第二词向量序列对输入孪生长短时神经网络进行学习训练;
优化单元,用于通过对比对损失函数实现孪生长短时神经网络的迭代优化,得到训练好的语义匹配模型。
具体地,每个训练样本对设有正标签或负标签,根据标签将训练样本对分为正样本对及负样本对,其中,正样本对的提问语句样本的语义与标准问样本的语义相同,负样本对的提问语句样本的语义与标准问样本的语义不同,例如:标准问样本“中老年重疾险怎么办理”与提问语句样本“老人的重疾险怎么办理”是一对正样本对;而标准问样本“中老年重疾险怎么办理”与提问语句样本“老人的重疾险怎么退保”是一对负样本对。
在本实施方式中,训练孪生长短时神经网络时采用的损失函数是对比损失函数,表达式为:其中,d=||an-bn||2,代表标准问样本(an)与提问语句样本(bn)之间的欧氏距离,y为两个样本是否匹配的标签,y=1代表两个样本相似或者匹配,y=0则代表不匹配,margin为设定的阈值。
对比损失函数可以很好的表达成对样本的匹配程度,也能够很好用于训练提取特征的模型。当y=1(即样本相似)时,损失函数L=∑yd2;当y=0时(即样本不相似)时,损失函数为L=∑(1-y)max(margin-d,0)2
在其他实施方式中,d也可以是余弦距离、编辑距离、皮尔森相关系数、Jaccard相似系数或通过BM25算法计算得到的值,在此不做限定。
训练时,根据孪生长短时神经网络的输出结果与输入的训练样本对的标签,通过对比损失函数计算孪生长短时神经网络的损失值,对比损失函数可以很好地表达成对样本的匹配程度,基于训练样本迭代地更新孪生长短时神经网络的权重参数,以降低孪生长短时神经网络的损失值,得到识别精度更高的语义匹配模型。
可选地,用户提问语句携带用户身份标识,例如用户账号,当一个星期内,有32个用户提问语句皆匹配得到标准问a,那么标准问a的重复次数就是32次,而第一预设阈值为30,那么标准问a就会被认定为热点标准问。
在本申请的实施例中,第一推送列表是面向所有用户公开的列表,也就是说所有使用该智能答复***的用户都能看到。
可选地,装置还包括第二构建单元、标注单元。
第二构建单元,用于构建标准知识库,标准知识库用于存储标准问-答复对;标注单元,用于根据预定的维度标签对标准知识库中存储的标准问-答复对进行标注,维度标签包括产品维度标签及客户维度标签中的至少一种。
例如将标准问“中老年重疾险怎么办理”标注客户维度标签“中老年”,和产品维度标签“重疾险”。通过将标准问根据提问场景进行客户或产品维度进行标注,能够方便服务器对与某一类型的产品相关的标准问的匹配结果进行统计。
可选地,装置还包括统计单元、第二确定单元。
统计单元,用于统计匹配到的标准问所关联的同一维度标签的重复次数;
第二确定单元,用于当同一维度标签的重复次数大于第二预设阈值,将维度标签确定为热点维度标签;
推送单元50,还用于将与热点维度标签相关的标准问-答复对推送至预设的第二推送列表。
在本申请实施例中,所述第二推荐列表是用户的私有列表,是与用户提问语句携带的用户身份标识相关联的,在其他实施方式中,第二推送列表也可以是公开列表,在此不做限定。
例如,一个星期内,用户甲的提问语句皆匹配得到标准问a、标准问b、标准问c、标准问d,而标准问a、b、c、d所关联的产品维度标签都是中老年,就意味着该用户对与“中老年”产品维度标签关联的问题比较感兴趣,服务器就会将与“中老年”产品维度标签相关联的标准问都推送给该用户,用户能够直接在网页中查阅这些问题的答复,不需要用户一一输入提问语句,服务器也不需要分词、向量转换、匹配等一系列程序来匹配问题的标准问,减轻服务器的压力。
在本方案中,通过将用户提问语句转换为词向量序列,将词向量序列输入到语义匹配模型,得到相匹配的标准问,满足用户问题咨询需要。进一步根据统计标准问的重复次数,自动化地从当前的提问中总结出热点问题,并将热点标准问及相应的答复推送至预设的推送列表,当用户遇到热点问题时,不再需要分词、向量转换、匹配等一系列程序来匹配问题的标准问,方便用户能够直接在推送列表中根据热点问题找到相应的答复,缩短服务器的响应时间和提高客服机器人的运行效率。
本发明实施例提供了一种计算机非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以下步骤:
获取待答复的用户提问语句;将用户提问语句进行预处理,得到第一词向量序列;将第一词向量序列输入语义匹配模型,以获取语义匹配模型输出的与用户提问语句相匹配的标准问;当预设时间内多个用户提问语句匹配得到的同一标准问的次数大于第一预设阈值,将标准问确定为热点标准问;将热点标准问及相关联的答复推送至预设的第一推送列表。
可选地,在程序运行时控制存储介质所在设备执行将第一词向量序列输入语义匹配模型,以获取语义匹配模型输出的与用户提问语句相匹配的标准问的步骤,包括:将第一词向量序列输入到语义匹配模型,语义匹配模型包括孪生长短时神经网络,通过孪生长短时神经网络确定用户提问语句与预设的标准问集中的每个标准问的文本相似度;根据文本相似度确定标准问集中与用户提问语句相匹配的标准问。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:在将第一词向量序列输入语义匹配模型,以获取语义匹配模型输出的与用户提问语句相匹配的标准问之前,构建孪生长短时神经网络;获取多个训练样本对,其中,每个训练样本对包括一个标准问样本和一个提问语句样本;将多个训练样本对分别进行预处理,得到多个第二词向量序列对;将每个训练样本对的第二词向量序列对输入孪生长短时神经网络进行学习训练;通过对比对损失函数实现孪生长短时神经网络的迭代优化,得到训练好的语义匹配模型。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:在将热点标准问及相关联的答复推送至预设的第一推送列表之前,构建标准知识库,标准知识库用于存储标准问-答复对;根据预定的维度标签对标准知识库中存储的标准问-答复对进行标注,维度标签包括产品维度标签及客户维度标签中的至少一种。
可选地,在程序运行时控制存储介质所在设备还执行以下步骤:在将第一词向量序列输入语义匹配模型,以获取语义匹配模型输出的与用户提问语句相匹配的标准问之后,统计匹配到的标准问所关联的同一维度标签的重复次数;当同一维度标签的重复次数大于第二预设阈值,将维度标签确定为热点维度标签;将与热点维度标签相关的标准问-答复对推送至预设的第二推送列表。
图3是本发明实施例提供的一种计算机设备的示意图。如图3所示,该实施例的计算机设备100包括:处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机程序103,处理器101执行计算机程序103时实现实施例中的智能答复方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器101执行时实现实施例中智能答复装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器101、存储器102。本领域技术人员可以理解,图3仅仅是计算机设备100的示例,并不构成对计算机设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器101可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器102可以是计算机设备100的内部存储单元,例如计算机设备100的硬盘或内存。存储器102也可以是计算机设备100的外部存储设备,例如计算机设备100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器102还可以既包括计算机设备100的内部存储单元也包括外部存储设备。存储器102用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器102还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (6)

1.一种智能答复方法,其特征在于,所述方法包括:
获取待答复的用户提问语句;
将所述用户提问语句进行预处理,得到第一词向量序列;
将所述第一词向量序列输入语义匹配模型,以获取所述语义匹配模型输出的与所述用户提问语句相匹配的标准问;当预设时间内多个所述用户提问语句匹配得到的同一所述标准问的次数大于第一预设阈值,将所述标准问确定为热点标准问;将所述热点标准问及相关联的答复推送至预设的第一推送列表;
所述将所述第一词向量序列输入语义匹配模型,以获取所述语义匹配模型输出的与所述用户提问语句相匹配的标准问的步骤,包括:
将所述第一词向量序列输入到所述语义匹配模型,所述语义匹配模型包括孪生长短时神经网络,通过所述孪生长短时神经网络确定所述用户提问语句与预设的标准问集中的每个标准问的文本相似度;
根据所述文本相似度确定所述标准问集中与所述用户提问语句相匹配的标准问;
在所述将所述第一词向量序列输入语义匹配模型,以获取所述语义匹配模型输出的与所述用户提问语句相匹配的标准问之前,所述方法还包括:
构建孪生长短时神经网络;
获取多个训练样本对,其中,每个训练样本对包括一个标准问样本和一个提问语句样本;
将多个所述训练样本对分别进行预处理,得到多个第二词向量序列对;
将每个所述训练样本对的第二词向量序列对输入所述孪生长短时神经网络进行学习训练;
通过对比对损失函数实现所述孪生长短时神经网络的迭代优化,得到训练好的语义匹配模型;
在所述将所述热点标准问及相关联的答复推送至预设的第一推送列表之前,所述方法还包括:
构建标准知识库,所述标准知识库用于存储标准问-答复对;
根据预定的维度标签对所述标准知识库中存储的标准问-答复对进行标注,所述维度标签包括产品维度标签及客户维度标签中的至少一种;
在所述将所述第一词向量序列输入语义匹配模型,以获取所述语义匹配模型输出的与所述用户提问语句相匹配的标准问之后,所述方法还包括:
统计匹配到的所述标准问所关联的同一所述维度标签的重复次数;
当同一所述维度标签的重复次数大于第二预设阈值,将所述维度标签确定为热点维度标签;
将与所述热点维度标签相关的标准问-答复对推送至预设的第二推送列表。
2.根据权利要求1所述的方法,其特征在于,所述获取待答复的用户提问语句的步骤,包括:
获取待答复的用户提问语音数据;
将所述用户提问语音数据转换为用户提问语句。
3.根据权利要求1所述的方法,其特征在于,所述将所述用户提问语句进行预处理,得到第一词向量序列的步骤,包括:
将所述用户提问语句输入预设的分词模型,得到所述分词模型输出的对所述用户提问语句进行分词处理后的第一词序列;
利用预设的词向量表示模型将所述第一词序列转换为第一词向量序列。
4.一种智能答复装置,其特征在于,所述装置包括:
第一获取单元,用于获取待答复的用户提问语句;
处理单元,用于将所述用户提问语句进行预处理,得到第一词向量序列;
第二获取单元,用于将所述第一词向量序列输入语义匹配模型,以获取所述语义匹配模型输出的与所述用户提问语句相匹配的标准问;
确定单元,用于当预设时间内多个所述用户提问语句匹配得到的同一所述标准问的次数大于第一预设阈值,将所述标准问确定为热点标准问;
推送单元,用于将所述热点标准问及相关联的答复推送至预设的第一推送列表;
所述第二获取单元包括第二输入子单元和确定子单元;
所述第二输入子单元,用于将所述第一词向量序列输入到所述语义匹配模型,所述语义匹配模型包括孪生长短时神经网络,通过所述孪生长短时神经网络确定所述用户提问语句与预设的标准问集中的每个标准问的文本相似度;
所述确定子单元,用于根据所述文本相似度确定所述标准问集中与所述用户提问语句相匹配的所述标准问;
第一构建单元,用于构建所述孪生长短时神经网络;
第三获取单元,用于获取多个训练样本对,其中,每个训练样本对包括一个标准问样本和一个提问语句样本;
所述处理单元,还用于将多个所述训练样本对分别进行预处理,得到多个第二词向量序列对;
输入单元,用于将每个所述训练样本对的第二词向量序列对输入所述孪生长短时神经网络进行学习训练;
优化单元,用于通过对比对损失函数实现所述孪生长短时神经网络的迭代优化,得到训练好的语义匹配模型;
第二构建单元,用于构建标准知识库,所述标准知识库用于存储标准问-答复对;
标注单元,用于根据预定的维度标签对所述标准知识库中存储的标准问-答复对进行标注,维度标签包括产品维度标签及客户维度标签中的至少一种;
统计单元,用于统计匹配到的标准问所关联的同一维度标签的重复次数;
第二确定单元,用于当同一维度标签的重复次数大于第二预设阈值,将维度标签确定为热点维度标签;
所述推送单元还用于将与热点维度标签相关的标准问-答复对推送至预设的第二推送列表。
5.一种计算机非易失性存储介质,所述存储介质包括存储的程序,其特征在于,在所述程序运行时控制所述存储介质所在设备执行权利要求1至3任意一项所述的智能答复方法。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3任意一项所述的智能答复方法的步骤。
CN201911348269.8A 2019-12-24 2019-12-24 一种智能答复方法及装置 Active CN111143530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911348269.8A CN111143530B (zh) 2019-12-24 2019-12-24 一种智能答复方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911348269.8A CN111143530B (zh) 2019-12-24 2019-12-24 一种智能答复方法及装置

Publications (2)

Publication Number Publication Date
CN111143530A CN111143530A (zh) 2020-05-12
CN111143530B true CN111143530B (zh) 2024-04-05

Family

ID=70519676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911348269.8A Active CN111143530B (zh) 2019-12-24 2019-12-24 一种智能答复方法及装置

Country Status (1)

Country Link
CN (1) CN111143530B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931498B (zh) * 2020-08-14 2024-03-01 中国工商银行股份有限公司 基于复杂度分析的用户在线提问处理方法及***
CN112084791A (zh) * 2020-08-31 2020-12-15 北京洛必德科技有限公司 一种对话过程意图提取及说法提示方法、***及其电子设备
CN112182186A (zh) * 2020-09-30 2021-01-05 完美世界(北京)软件科技发展有限公司 智能客服的运行方法、装置以及***
CN112199482B (zh) * 2020-09-30 2023-07-21 平安科技(深圳)有限公司 一种对话生成方法、装置、设备及可读存储介质
CN113408299B (zh) * 2021-06-30 2022-03-25 北京百度网讯科技有限公司 语义表示模型的训练方法、装置、设备和存储介质
CN115017291B (zh) * 2022-08-04 2023-01-10 太平金融科技服务(上海)有限公司深圳分公司 热点问题分析方法、装置、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016095470A1 (zh) * 2014-12-17 2016-06-23 中兴通讯股份有限公司 一种实现数据推送的方法和gslb
CN107220389A (zh) * 2017-07-12 2017-09-29 广州市昊链信息科技股份有限公司 一种物流知识智能问答***及方法
CN108388558A (zh) * 2018-02-07 2018-08-10 平安普惠企业管理有限公司 问题匹配方法、装置、客服机器人和存储介质
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN109829045A (zh) * 2018-12-30 2019-05-31 贝壳技术有限公司 一种问答方法和装置
CN109885651A (zh) * 2019-01-16 2019-06-14 平安科技(深圳)有限公司 一种问题推送方法和装置
CN110053055A (zh) * 2019-03-04 2019-07-26 平安科技(深圳)有限公司 一种机器人及其回答问题的方法、存储介质
CN110232573A (zh) * 2018-03-06 2019-09-13 广州供电局有限公司 基于交互式的智能应答***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016095470A1 (zh) * 2014-12-17 2016-06-23 中兴通讯股份有限公司 一种实现数据推送的方法和gslb
CN107220389A (zh) * 2017-07-12 2017-09-29 广州市昊链信息科技股份有限公司 一种物流知识智能问答***及方法
CN108388558A (zh) * 2018-02-07 2018-08-10 平安普惠企业管理有限公司 问题匹配方法、装置、客服机器人和存储介质
CN110232573A (zh) * 2018-03-06 2019-09-13 广州供电局有限公司 基于交互式的智能应答***
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN109829045A (zh) * 2018-12-30 2019-05-31 贝壳技术有限公司 一种问答方法和装置
CN109885651A (zh) * 2019-01-16 2019-06-14 平安科技(深圳)有限公司 一种问题推送方法和装置
CN110053055A (zh) * 2019-03-04 2019-07-26 平安科技(深圳)有限公司 一种机器人及其回答问题的方法、存储介质

Also Published As

Publication number Publication date
CN111143530A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111143530B (zh) 一种智能答复方法及装置
CN108597519B (zh) 一种话单分类方法、装置、服务器和存储介质
WO2021114840A1 (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN108984655B (zh) 一种客服机器人智能客服引导方法
CN109192225B (zh) 语音情感识别和标注的方法及装置
CN112732911A (zh) 基于语义识别的话术推荐方法、装置、设备及存储介质
CN112613308A (zh) 用户意图识别方法、装置、终端设备及存储介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN113990352B (zh) 用户情绪识别与预测方法、装置、设备及存储介质
CN108920603B (zh) 一种基于客服机器模型的客服引导方法
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、***和存储介质
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN111597821B (zh) 一种确定应答概率的方法及装置
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN117493513A (zh) 一种基于向量和大语言模型的问答***及方法
CN114783421A (zh) 智能推荐方法和装置、设备、介质
CN109684444A (zh) 一种智能客服方法及***
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
CN110413750B (zh) 根据用户问句召回标准问句的方法和装置
CN110795531B (zh) 一种意图识别方法、装置及存储介质
CN116483979A (zh) 基于人工智能的对话模型训练方法、装置、设备及介质
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN113010664A (zh) 一种数据处理方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant