CN114818738A - 一种客服热线用户意图轨迹识别的方法及*** - Google Patents

一种客服热线用户意图轨迹识别的方法及*** Download PDF

Info

Publication number
CN114818738A
CN114818738A CN202210199654.6A CN202210199654A CN114818738A CN 114818738 A CN114818738 A CN 114818738A CN 202210199654 A CN202210199654 A CN 202210199654A CN 114818738 A CN114818738 A CN 114818738A
Authority
CN
China
Prior art keywords
intention
user
track
text
user intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210199654.6A
Other languages
English (en)
Other versions
CN114818738B (zh
Inventor
徐雪帆
韩伟
陈志刚
穆玉芝
张健
陈运文
纪达麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datagrand Information Technology Shanghai Co ltd
Original Assignee
Datagrand Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Information Technology Shanghai Co ltd filed Critical Datagrand Information Technology Shanghai Co ltd
Priority to CN202210199654.6A priority Critical patent/CN114818738B/zh
Priority claimed from CN202210199654.6A external-priority patent/CN114818738B/zh
Publication of CN114818738A publication Critical patent/CN114818738A/zh
Priority to PCT/CN2022/118511 priority patent/WO2023165111A1/zh
Application granted granted Critical
Publication of CN114818738B publication Critical patent/CN114818738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及到一种客服热线用户意图轨迹识别的方法,该方法包括:第一步,获得行为轨迹数据和对话文本;第二步,将完整对话文本转化为对话片段,依照时间节点将对话文本片段与用户行为轨迹数据关联;第三步,分别得到文本特征表示、用户行为特征表示和上文用户意图特征表示,特征拼接后,作为样本特征表示输出;第四步,使用多层感知神经网络作为意图分类算法模型,以样本特征表示作为输入,取最后一层的向量作为输出结果;第五步,使用Beam Search策略生成最优的用户意图轨迹;还涉及到一种基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别的***。本发明的方法和***保证更高的正确率,能够有效降低上文意图错误对当前语句意图识别的错误传递。

Description

一种客服热线用户意图轨迹识别的方法及***
技术领域
本发明涉及人工智能,特别涉及到一种基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别的方法及***。
背景技术
如今各大银行、保险公司、电商平台、手机运营商等服务类行业都开发了客服热线***,单日接线量已十分庞大。在人工智能技术日新月异的当下,各大企业也纷纷利用语音识别技术把客服热线录音转成半结构化的文本数据,利用自然语言处理技术进行文本挖掘,以此提升客服热线分析的效率。在客服热线分析的广泛领域内,用户的意图识别是十分常见也是被认为能带来高度业务价值的需求,针对用户意图的分析挖掘有利于指导企业的市场推广和产品运营。
在专利号为CN104951433A的中国发明专利中,公开了一种基于上下文进行意图识别的方法,该方法将上文意图分类结果one-hot作为特征与当前语句共同预测当前意图。但是这个方法对上文意图分类结果是否正确有极高依赖,上文意图分类结果错误可能会导致之后的意图结果连续错误。而且,仅依赖文本进行意图识别也存在一定局限性,在热线对话过程中用户的行为轨迹,例如边通话边浏览商品页面,或者在通话过程中办理购买产品等,也会对该时间点之后的用户意图识别提供有价值的信息。
经过认真分析,现有技术解决文本意图轨迹识别时存在如下难点:
难点1)上文意图分类结果错误会导致下文连续意图识别错误,在客服对话中即便是相同的语句也可能表示不同的用户意图,这是因为当前语句的包含信息有限,上文邻近用户意图作为隐藏状态对当前意图识别可以起到巨大作用。但正因为如此假使上文用户意图识别错误,也增大了当前意图识别错误的可能性;并且错误会随着对话传递放大,直到整个用户意图轨迹产生巨大偏差。
难点2)相同语句用户行为轨迹会造成不同的用户真实意图,在客服对话的过程中,用户也实时在产生行为动作,例如浏览商品详情页面,或者办理购买产品等,这些动作可能也隐含着用户接下来的意图,但是语句中的表述模棱两可,从而提升了分析用户真实意图的难度。
发明内容
本发明目的在于克服上述现有技术中存在的不足,提供一种新的客服热线用户意图轨迹识别的方法和***。本发明的方法和***要求能够有效降低上文意图错误对当前语句意图识别的错误传递,在建模中考虑将前文对话时用户的行为轨迹。
为了达到上述发明目的,本发明提供的技术方案如下:
一种客服热线用户意图轨迹识别的方法,该方法基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别,具体包括如下操作步骤:
第一步,数据获得,获得行为轨迹数据和对话文本;
第二步,数据切片和数据关联,将对话文本滑动切片,将一通完整的对话文本转化为N条有先后顺序的对话片段,依照对话片段和行为轨迹发生的时间节点将对话文本片段与用户行为轨迹数据关联;
第三步,特征处理,对于对话文本内容,使用语料预训练的模型对对话文本进行特征提取,输出向量作为文本特征表示;对于用户行为轨迹数据使用归一化和one-hot进行处理,连续型的数值特征归一化处理的特征符合标准正态分布,离散型数值特征先采用one-hot进行编码,然后再采用归一化处理,得到用户行为特征表示,采用one-hot对上文用户意图进行特征编码,然后再采用归一化处理,得到上文用户意图特征表示,再将文本特征表示、用户行为特征表示和上文用户意图特征表示拼接,作为样本特征表示输出;
第四步,意图分类,使用多层感知神经网络作为意图分类算法模型,以样本特征表示作为输入,目标是获得用户意图的one-hot向量,在训练时使用交叉熵损失函数与反向传播机制网络参数进行更新,训练后将模型参数保存,在预测阶段,搭建相同结构的MLP模型并加载训练好的模型参数,将特征处理模块输出的样本特征表示输入模型,取最后一层的向量作为输出结果;
第五步,生成最优的用户意图轨迹,使用Beam Search策略在预测阶段生成最优的用户意图轨迹。
在本发明进行客服热线用户意图轨迹识别的方法中,所述第二步数据切片时,以一个大小为4,步长为2的窗口将对话文本滑动切片,把原文本切成N个4句话组成的片段,每个片段都是客服句-用户句-客服句-用户句的顺序,到最后一个片段如果以客服句结尾则用空白的用户句填补在最后。
在本发明进行客服热线用户意图轨迹识别的方法中,所述第二步在训练语料中,人工给每个片段标注正确的用户意图类别。
在本发明进行客服热线用户意图轨迹识别的方法中,所述第三步使用包含大量先验知识的语料预训练的含有12层Transformer的BERT模型对对话文本进行特征提取,在训练阶段,先搭建一个基础版的12层的BERT模型连接一个全连接层的分类模型,这个模型的输入是token化的对话文本数据,目标是用户意图的one-hot向量,此模型先训练少量轮次,训练时冻结前8层Transformer,使其参数不会被更新,使用交叉熵损失函数与反向传播机制对后4层Transformer和全连接层的参数进行更新,训练后将BERT模型参数保存;在预测阶段,搭建相同结构的BERT模型并加载训练好的模型参数,将token化的对话文本数据输入模型,取最后一层的[CLS]符号对应的向量作为输出,此向量即为文本特征表示。
在本发明进行客服热线用户意图轨迹识别的方法中,所述的第三步使用归一化和one-hot对用户行为轨迹数据进行处理,针对连续型的数值特征,采用Z-score归一化,经过处理的特征符合标准正态分布,即均值为0,标准差为1,转化函数为:
Figure BDA0003527043050000041
其中μ为所有样本数据的均值,σ为所有样本数据的标准差;
针对离散的类型特征,先采用one-hot进行编码,并在one-hot编码后采用Z-score归一化处理。
在本发明进行客服热线用户意图轨迹识别的方法中,所述第四步中多层感知神经网络MLP结构上共2层隐藏层和1层输出层,前2层隐藏层分别拥有128个和64个神经元、使用ReLU作为激活函数,输出层的神经元数量与用户意图one-hot向量维度相同,使用softmax函数作为激活函数,在训练时使用交叉熵损失函数与反向传播机制网络参数进行更新,在输入层和第1层隐藏层使用inverted dropout机制降低训练过拟合,使用EarlyStopping机制监控验证集上损失,并当验证集损失在一定轮数内不再下降时停止训练,从而避免训练过拟合,训练后将模型参数保存;在预测阶段,搭建相同结构的MLP模型并加载训练好的模型参数,将特征处理模块输出的样本特征表示输入模型,取最后一层的向量作为输出结果,此向量每一个元素都是0-1之间的浮点数,表示相应的用户意图的概率值大小,且此向量的各元素之和等于1。
在本发明进行客服热线用户意图轨迹识别的方法中,在第五步使用Beam Search策略在处理意图分类模型的输出时,每次都保留概率最大的k个意图类别beam size,beamsize取2-3,在预测片段语句T+1的用户意图时,将在片段语句T下保留的k个意图类别分别作为上文用户意图特征输入,以此类推,直到最后一个片段,选择概率最高的一个意图轨迹作为整个对话文本的用户意图轨迹。
本发明还涉及到一种客服热线用户意图轨迹识别的***,该***基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别,其组成包括有数据切片模块、特征处理模块、意图分类模块和Beam Search策略模块;
所述数据切片模块接收行为轨迹数据和对话文本,把原文本切成N个4句话组成的片段,将一通完整的对话文本转化成N条有先后顺序的文本片段,再将文本片段与用户行为轨迹数据关联,关联依据为对话片段和行为轨迹发生的时间节点,在训练语料中,人工给每个文本片段标准正确的用户意图类别,输出数据至所述的特征处理模块;
所述的特征处理模块,该模块对对话文本内容使用含有12层Transformer的BERT模型对对话文本进行特征提取,获得文本特征向量表示,使用归一化和one-hot对用户行为轨迹数据进行处理,获得用户行为轨迹特征表示,使用one-hot对上文用户意图进行特征编码,在one-hot编码后采用Z-score归一化处理,获得上文用户意图特征表示,将文本特征表示、用户行为特征表示和上文用户意图特征表示拼接,作为样本特征表示输出至意图分类模块;
所述意图分类模块使用多层感知神经网络作为意图分类算法模型,以样本特征表示作为输入,目标是获得用户意图的one-hot向量,在训练时使用交叉熵损失函数与反向传播机制网络参数进行更新,训练后将模型参数保存,在预测阶段,搭建相同结构的MLP模型并加载训练好的模型参数,将特征处理模块输出的样本特征表示输入模型,取最后一层的向量作为输出结果至Beam Search策略模块;
所述的Beam Search策略模块在预测阶段生成最优的用户意图轨迹,最终选择概率最高的一个意图轨迹作为整个对话文本的用户意图轨迹输出。
基于上述技术方案,本发明一种基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别的方法及***与现有技术相比具有如下技术优点:
1.本发明一种基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别的方法及***通过Beam Search策略扩大搜索范围从而保证更高的正确率,就是在处理意图分类模型的输出时,每次都保留概率最大的k个意图类别。在预测片段语句T+1的用户意图时,将在片段语句T下保留的k个意图类别分别作为上文用户意图特征输入,以此类推。相比每次只保留概率最大的意图类别的贪心策略,Beam Search策略能有效降低上文意图错误对当前语句意图识别的错误传递,从而在预测阶段生成最优的用户意图轨迹。
2.本发明一种基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别的方法及***关联对话过程中的用户行为轨迹数据,并将其特征处理后与文本特征拼接,共同参与用户意图分类的训练和预测,对文本表述模棱两可的情况能够提升识别准确率。
附图说明
图1是本发明一种客服热线用户意图轨迹识别的方法整体操作流程示意图。
图2是本发明一种客服热线用户意图轨迹识别的***中文本特征表示示意图。
图3是本发明一种客服热线用户意图轨迹识别的***中的意图分类模型示意图。
具体实施方式
下面我们结合附图和具体的实施例来对本发明一种客服热线用户意图轨迹识别的方法和***做进一步的详细阐述,以求更为清楚明了地理解其结构组成和工作方式,但不能以此来限制本发明的保护范围。
如图1所示,本发明涉及到一种客服热线用户意图轨迹识别的方法,该方法基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别。具体而言,该方法包括如下操作步骤:
第一步,数据获得,获得行为轨迹数据和对话文本;
第二步,数据切片和数据关联,将对话文本滑动切片,将一通完整的对话文本转化为N条有先后顺序的对话片段,依照对话片段和行为轨迹发生的时间节点将对话文本片段与用户行为轨迹数据关联;
第三步,特征处理,对于对话文本内容,使用语料预训练的模型对对话文本进行特征提取,输出向量作为文本特征表示;对于用户行为轨迹数据使用归一化和one-hot进行处理,连续型的数值特征归一化处理的特征符合标准正态分布,离散型数值特征先采用one-hot进行编码,然后再采用归一化处理,得到用户行为特征表示,采用one-hot对上文用户意图进行特征编码,然后再采用归一化处理,得到上文用户意图特征表示,再将文本特征表示、用户行为特征表示和上文用户意图特征表示拼接,作为样本特征表示输出;
第四步,意图分类,使用多层感知神经网络作为意图分类算法模型,以样本特征表示作为输入,目标是获得用户意图的one-hot向量,在训练时使用交叉熵损失函数与反向传播机制网络参数进行更新,训练后将模型参数保存,在预测阶段,搭建相同结构的MLP模型并加载训练好的模型参数,将特征处理模块输出的样本特征表示输入模型,取最后一层的向量作为输出结果;
第五步,生成最优的用户意图轨迹,使用Beam Search策略在预测阶段生成最优的用户意图轨迹。
在述第二步中,对对话文本数据切片时,以一个大小为4,步长为2的窗口将对话文本滑动切片,把原文本切成N个4句话组成的片段,每个片段都是客服句-用户句-客服句-用户句的顺序,到最后一个片段如果以客服句结尾则用空白的用户句填补在最后。
在训练语料中,对于数据切片后的文本片段,需要人工给每个片段标注正确的用户意图类别。
在第三步特征处理时,使用包含大量先验知识的语料预训练的含有12层Transformer的BERT模型对对话文本进行特征提取,在训练阶段,先搭建一个基础版的12层的BERT模型连接一个全连接层的分类模型,这个模型的输入是token化的对话文本数据,目标是用户意图的one-hot向量,此模型先训练少量轮次,训练时冻结前8层Transformer,使其参数不会被更新,使用交叉熵损失函数与反向传播机制对后4层Transformer和全连接层的参数进行更新,训练后将BERT模型参数保存;在预测阶段,搭建相同结构的BERT模型并加载训练好的模型参数,将token化的对话文本数据输入模型,取最后一层的[CLS]符号对应的向量作为输出,此向量即为文本特征表示。
在本发明进行客服热线用户意图轨迹识别的方法中,所述的第三步使用归一化和one-hot对用户行为轨迹数据进行处理,针对连续型的数值特征,采用Z-score归一化,经过处理的特征符合标准正态分布,即均值为0,标准差为1,转化函数为:
Figure BDA0003527043050000081
其中μ为所有样本数据的均值,σ为所有样本数据的标准差;
针对离散的类型特征,先采用one-hot进行编码,并在one-hot编码后采用Z-score归一化处理。
在本发明进行客服热线用户意图轨迹识别的方法中,所述第四步中多层感知神经网络(MLP)结构上共2层隐藏层和1层输出层,前2层隐藏层分别拥有128个和64个神经元、使用ReLU作为激活函数,输出层的神经元数量与用户意图one-hot向量维度相同,使用softmax函数作为激活函数,在训练时使用交叉熵损失函数与反向传播机制网络参数进行更新,在输入层和第1层隐藏层使用inverted dropout机制降低训练过拟合,使用EarlyStopping机制监控验证集上损失,并当验证集损失在一定轮数内不再下降时停止训练,从而避免训练过拟合,训练后将模型参数保存;在预测阶段,搭建相同结构的MLP模型并加载训练好的模型参数,将特征处理模块输出的样本特征表示输入模型,取最后一层的向量作为输出结果,此向量每一个元素都是0-1之间的浮点数,表示相应的用户意图的概率值大小,且此向量的各元素之和等于1。
在本发明进行客服热线用户意图轨迹识别的方法中,在第五步使用Beam Search策略在处理意图分类模型的输出时,每次都保留概率最大的k个意图类别(beam size),beam size取2-3,在预测片段语句T+1的用户意图时,将在片段语句T下保留的k个意图类别分别作为上文用户意图特征输入,以此类推,直到最后一个片段,选择概率最高的一个意图轨迹作为整个对话文本的用户意图轨迹。
如图1所示,本发明还涉及到一种客服热线用户意图轨迹识别的***,该***基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别,其组成包括有数据切片模块、特征处理模块、意图分类模块和Beam Search策略模块;
所述数据切片模块接收行为轨迹数据和对话文本,把原文本切成N个4句话组成的片段,将一通完整的对话文本转化成N条有先后顺序的文本片段,再将文本片段与用户行为轨迹数据关联,关联依据为对话片段和行为轨迹发生的时间节点,在训练语料中,人工给每个文本片段标注正确的用户意图类别,输出数据至所述的特征处理模块。
所述的特征处理模块,该模块对对话文本内容使用含有12层Transformer的BERT模型对对话文本进行特征提取,获得文本特征向量表示,使用归一化和one-hot对用户行为轨迹数据进行处理,获得用户行为轨迹特征表示,使用one-hot对上文用户意图进行特征编码,在one-hot编码后采用Z-score归一化处理,获得上文用户意图特征表示,将文本特征表示、用户行为特征表示和上文用户意图特征表示拼接,作为样本特征表示输出至意图分类模块;
所述意图分类模块使用多层感知神经网络作为意图分类算法模型,以样本特征表示作为输入,目标是获得用户意图的one-hot向量,在训练时使用交叉熵损失函数与反向传播机制网络参数进行更新,训练后将模型参数保存,在预测阶段,搭建相同结构的MLP模型并加载训练好的模型参数,将特征处理模块输出的样本特征表示输入模型,取最后一层的向量作为输出结果至Beam Search策略模块;
所述的Beam Search策略模块在预测阶段生成最优的用户意图轨迹,最终选择概率最高的一个意图轨迹作为整个对话文本的用户意图轨迹输出。
对于上述的数据切片模块,本模块以一个大小为4,步长为2的窗口将对话文本滑动切片,把原文本切成N个4句话组成的片段,每个片段都是客服句-用户句-客服句-用户句的顺序,到最后一个片段如果以客服句结尾则用空白的用户句填补在最后。即一通完整对话文本转化成N条有先后顺序的片段。同时,本模块将对话文本片段与用户行为轨迹数据关联,关联依据为对话片段和行为轨迹发生的时间节点。在训练语料中,人工给每个片段标注正确的用户意图类别。举例如下表所示:
Figure BDA0003527043050000101
因对话文本内容数据敏感,故训练语料样例中使用无实际意义的数字代替真实语句。
在特征处理模块中,对于对话文本内容,本模块使用包含大量先验知识的语料预训练的含有12层Transformer的BERT模型对对话文本进行特征提取。具体来说,在训练阶段,先搭建一个基础版的12层的BERT模型连接一个全连接层的分类模型,这个模型的输入是token化的对话文本数据,目标是用户意图的one-hot向量。此模型先训练少量轮次,训练时冻结前8层Transformer,使其参数不会被更新,使用交叉熵损失函数与反向传播机制对后4层Transformer和全连接层的参数进行更新。训练后将BERT模型参数保存。在预测阶段,搭建相同结构的BERT模型并加载训练好的模型参数,将token化的对话文本数据输入模型,取最后一层的[CLS]符号对应的向量作为输出,此向量即为文本特征表示。
在特征处理模块中,对于用户行为轨迹数据,本模块使用归一化和one-hot对用户行为轨迹数据进行处理形成用户行为轨迹特征表示。具体来说,针对连续型的数值特征,采用Z-score归一化,经过处理的特征符合标准正态分布,即均值为0,标准差为1。转化函数为:
Figure BDA0003527043050000111
其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
针对离散的类型特征,先采用one-hot进行编码,并在one-hot编码后采用Z-score归一化处理。
在特征处理模块中,对于上文用户意图,本模块使用one-hot对上文用户意图进行特征编码,并在one-hot编码后采用Z-score归一化处理,形成上文用户意图特征表示。
在特征处理模块中,后面进行特征拼接,具体是本模块将文本特征表示、用户行为轨迹特征表示和上文用户意图特征表示拼接,作为样本特征表示输出。
如图3所示,在意图分类模块中,本模块使用多层感知神经网络(MLP)作为意图分类算法模型,此模型的输入是特征处理模块的输出,即样本特征表示,目标是用户意图的one-hot向量。结构上共2层隐藏层和1层输出层,前2层隐藏层分别拥有128个和64个神经元、使用ReLU作为激活函数,输出层的神经元数量与用户意图one-hot向量维度相同,使用softmax函数作为激活函数。此模型在训练时使用交叉熵损失函数与反向传播机制网络参数进行更新,在输入层和第1层隐藏层使用inverted dropout机制降低训练过拟合,使用EarlyStopping机制监控验证集上损失,并当验证集损失在一定轮数内不再下降时停止训练,从而避免训练过拟合。训练后将模型参数保存。在预测阶段,搭建相同结构的MLP模型并加载训练好的模型参数,将特征处理模块输出的样本特征表示输入模型,取最后一层的向量作为输出结果。此向量每一个元素都是0-1之间的浮点数,表示相应的用户意图的概率值大小,且此向量的各元素之和等于1。
对于Beam Search策略模块,本模块使用Beam Search策略在预测阶段生成最优的用户意图轨迹。具体来说,就是在处理意图分类模型的输出时,每次都保留概率最大的k个意图类别(beam size),beam size取2-3即可。在预测片段语句T+1的用户意图时,将在片段语句T下保留的k个意图类别分别作为上文用户意图特征输入,以此类推。
举例来说,假设用户意图一共有[A,B,C]3类,beam size取2。第一个片段的模型输出意图概率分别为[0.4,0.5,0.1],这时保留概率最大的2个意图类别候选,即A和B。预测第二个片段时,将A作为上文意图特征输入,得到意图概率分别为[0.1,0.7,0.2];将B作为上文意图特征输入,得到意图概率分别为[0.5,0.2,0.3]。此时再次计算概率最大的2个输出:AA=0.4*0.1=0.04;AB=0.4*0.7=0.28;AC=0.4*0.2=0.08;BA=0.5*0.5=0.25;BB=0.5*0.2=0.1;BC=0.5*0.3=0.15,取概率最大的两个意图轨迹就是AB和BA,再继续预测第三个片段,以此类推,直到最后一个片段,选择概率最高的一个意图轨迹作为整个对话文本的用户意图轨迹。Beam Search策略模块通过Beam Search策略扩大搜索范围从而保证更高的正确率,能够有效降低上文意图错误对当前语句意图识别的错误传递。
毫无疑问,以上只是本发明专利可行的实施案例,除此之外还包括其他可行的操作方式。总而言之,本发明的保护范围还包括其他对于本领域技术人员来说显而易见的变换和替代。

Claims (8)

1.一种客服热线用户意图轨迹识别的方法,其特征在于,该方法基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别,具体包括如下操作步骤:
第一步,数据获得,获得行为轨迹数据和对话文本;
第二步,数据切片和数据关联,将对话文本滑动切片,将一通完整的对话文本转化为N条有先后顺序的对话片段,依照对话片段和行为轨迹发生的时间节点将对话文本片段与用户行为轨迹数据关联;
第三步,特征处理,对于对话文本内容,使用语料预训练的模型对对话文本进行特征提取,输出向量作为文本特征表示;对于用户行为轨迹数据使用归一化和one-hot进行处理,连续型的数值特征归一化处理的特征符合标准正态分布,离散型数值特征先采用one-hot进行编码,然后再采用归一化处理,得到用户行为特征表示,采用one-hot对上文用户意图进行特征编码,然后再采用归一化处理,得到上文用户意图特征表示,再将文本特征表示、用户行为特征表示和上文用户意图特征表示拼接,作为样本特征表示输出;
第四步,意图分类,使用多层感知神经网络作为意图分类算法模型,以样本特征表示作为输入,目标是获得用户意图的one-hot向量,在训练时使用交叉熵损失函数与反向传播机制网络参数进行更新,训练后将模型参数保存,在预测阶段,搭建相同结构的MLP模型并加载训练好的模型参数,将特征处理模块输出的样本特征表示输入模型,取最后一层的向量作为输出结果;
第五步,生成最优的用户意图轨迹,使用Beam Search策略在预测阶段生成最优的用户意图轨迹。
2.根据权利要求1所述的一种客服热线用户意图轨迹识别的方法,其特征在于,在所述第二步中,数据切片时以一个大小为4,步长为2的窗口将对话文本滑动切片,把原文本切成N个4句话组成的片段,每个片段都是客服句-用户句-客服句-用户句的顺序,到最后一个片段如果以客服句结尾则用空白的用户句填补在最后。
3.根据权利要求1所述的一种客服热线用户意图轨迹识别的方法,其特征在于,在所述第二步,在训练语料中,人工给每个片段标注正确的用户意图类别。
4.根据权利要求1所述的一种客服热线用户意图轨迹识别的方法,其特征在于,在所述第三步,使用包含大量先验知识的语料预训练的含有12层Transformer的BERT模型对对话文本进行特征提取,在训练阶段,先搭建一个基础版的12层的BERT模型连接一个全连接层的分类模型,这个模型的输入是token化的对话文本数据,目标是用户意图的one-hot向量,此模型先训练少量轮次,训练时冻结前8层Transformer,使其参数不会被更新,使用交叉熵损失函数与反向传播机制对后4层Transformer和全连接层的参数进行更新,训练后将BERT模型参数保存;在预测阶段,搭建相同结构的BERT模型并加载训练好的模型参数,将token化的对话文本数据输入模型,取最后一层的[CLS]符号对应的向量作为输出,此向量即为文本特征表示。
5.根据权利要求1或4所述的一种客服热线用户意图轨迹识别的方法,其特征在于,在所述的第三步,使用归一化和one-hot对用户行为轨迹数据进行处理,针对连续型的数值特征,采用Z-score归一化,经过处理的特征符合标准正态分布,即均值为0,标准差为1,转化函数为:
Figure FDA0003527043040000021
其中μ为所有样本数据的均值,σ为所有样本数据的标准差;
针对离散的类型特征,先采用one-hot进行编码,并在one-hot编码后采用Z-score归一化处理。
6.根据权利要求1所述的一种客服热线用户意图轨迹识别的方法,其特征在于,在所述第四步,所述多层感知神经网络结构上共2层隐藏层和1层输出层,前2层隐藏层分别拥有128个和64个神经元、使用ReLU作为激活函数,输出层的神经元数量与用户意图one-hot向量维度相同,使用softmax函数作为激活函数,在训练时使用交叉熵损失函数与反向传播机制网络参数进行更新,在输入层和第1层隐藏层使用inverted dropout机制降低训练过拟合,使用EarlyStopping机制监控验证集上损失,并当验证集损失在一定轮数内不再下降时停止训练,从而避免训练过拟合,训练后将模型参数保存;在预测阶段,搭建相同结构的MLP模型并加载训练好的模型参数,将特征处理模块输出的样本特征表示输入模型,取最后一层的向量作为输出结果,此向量每一个元素都是0-1之间的浮点数,表示相应的用户意图的概率值大小,且此向量的各元素之和等于1。
7.根据权利要求1所述的一种客服热线用户意图轨迹识别的方法,其特征在于,在第五步,使用Beam Search策略在处理意图分类模型的输出时,每次都保留概率最大的k个意图类别beam size,beam size取2-3,在预测片段语句T+1的用户意图时,将在片段语句T下保留的k个意图类别分别作为上文用户意图特征输入,以此类推,直到最后一个片段,选择概率最高的一个意图轨迹作为整个对话文本的用户意图轨迹。
8.一种客服热线用户意图轨迹识别的***,其特征在于,该***基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别,其组成包括有数据切片模块、特征处理模块、意图分类模块和Beam Search策略模块;
所述数据切片模块接收行为轨迹数据和对话文本,把原文本切成N个4句话组成的片段,将一通完整的对话文本转化成N条有先后顺序的文本片段,再将文本片段与用户行为轨迹数据关联,关联依据为对话片段和行为轨迹发生的时间节点,在训练语料中,人工给每个文本片段标注正确的用户意图类别,输出数据至所述的特征处理模块;
所述的特征处理模块,该模块对对话文本内容使用含有12层Transformer的BERT模型对对话文本进行特征提取,获得文本特征向量表示,使用归一化和one-hot对用户行为轨迹数据进行处理,获得用户行为轨迹特征表示,使用one-hot对上文用户意图进行特征编码,在one-hot编码后采用Z-score归一化处理,获得上文用户意图特征表示,将文本特征表示、用户行为特征表示和上文用户意图特征表示拼接,作为样本特征表示输出至意图分类模块;
所述意图分类模块使用多层感知神经网络作为意图分类算法模型,以样本特征表示作为输入,目标是获得用户意图的one-hot向量,在训练时使用交叉熵损失函数与反向传播机制网络参数进行更新,训练后将模型参数保存,在预测阶段,搭建相同结构的MLP模型并加载训练好的模型参数,将特征处理模块输出的样本特征表示输入模型,取最后一层的向量作为输出结果至Beam Search策略模块;
所述的Beam Search策略模块在预测阶段生成最优的用户意图轨迹,最终选择概率最高的一个意图轨迹作为整个对话文本的用户意图轨迹输出。
CN202210199654.6A 2022-03-01 2022-03-01 一种客服热线用户意图轨迹识别的方法及*** Active CN114818738B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210199654.6A CN114818738B (zh) 2022-03-01 一种客服热线用户意图轨迹识别的方法及***
PCT/CN2022/118511 WO2023165111A1 (zh) 2022-03-01 2022-09-13 客服热线中用户意图轨迹识别的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210199654.6A CN114818738B (zh) 2022-03-01 一种客服热线用户意图轨迹识别的方法及***

Publications (2)

Publication Number Publication Date
CN114818738A true CN114818738A (zh) 2022-07-29
CN114818738B CN114818738B (zh) 2024-08-02

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023165111A1 (zh) * 2022-03-01 2023-09-07 达而观信息科技(上海)有限公司 客服热线中用户意图轨迹识别的方法及***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059178A (zh) * 2019-02-12 2019-07-26 阿里巴巴集团控股有限公司 问题派发方法及装置
CN110543554A (zh) * 2019-08-12 2019-12-06 阿里巴巴集团控股有限公司 针对多轮对话的分类方法和装置
CN111145728A (zh) * 2019-12-05 2020-05-12 厦门快商通科技股份有限公司 语音识别模型训练方法、***、移动终端及存储介质
CN111177324A (zh) * 2019-12-31 2020-05-19 支付宝(杭州)信息技术有限公司 基于语音识别结果进行意图分类的方法和装置
CN112597301A (zh) * 2020-12-16 2021-04-02 北京三快在线科技有限公司 一种语音意图识别方法及装置
WO2021081562A2 (en) * 2021-01-20 2021-04-29 Innopeak Technology, Inc. Multi-head text recognition model for multi-lingual optical character recognition
US20210201144A1 (en) * 2019-12-30 2021-07-01 Conversica, Inc. Systems and methods for artificial intelligence enhancements in automated conversations
CN113094475A (zh) * 2021-06-08 2021-07-09 成都晓多科技有限公司 一种基于上下文注意流的对话意图识别***及方法
CN113874935A (zh) * 2019-05-10 2021-12-31 谷歌有限责任公司 将上下文信息与端到端模型一起用于语音识别
CN113887643A (zh) * 2021-10-12 2022-01-04 西安交通大学 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN113935330A (zh) * 2021-10-22 2022-01-14 平安科技(深圳)有限公司 基于语音的疾病预警方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059178A (zh) * 2019-02-12 2019-07-26 阿里巴巴集团控股有限公司 问题派发方法及装置
CN113874935A (zh) * 2019-05-10 2021-12-31 谷歌有限责任公司 将上下文信息与端到端模型一起用于语音识别
CN110543554A (zh) * 2019-08-12 2019-12-06 阿里巴巴集团控股有限公司 针对多轮对话的分类方法和装置
CN111145728A (zh) * 2019-12-05 2020-05-12 厦门快商通科技股份有限公司 语音识别模型训练方法、***、移动终端及存储介质
US20210201144A1 (en) * 2019-12-30 2021-07-01 Conversica, Inc. Systems and methods for artificial intelligence enhancements in automated conversations
CN111177324A (zh) * 2019-12-31 2020-05-19 支付宝(杭州)信息技术有限公司 基于语音识别结果进行意图分类的方法和装置
CN112597301A (zh) * 2020-12-16 2021-04-02 北京三快在线科技有限公司 一种语音意图识别方法及装置
WO2021081562A2 (en) * 2021-01-20 2021-04-29 Innopeak Technology, Inc. Multi-head text recognition model for multi-lingual optical character recognition
CN113094475A (zh) * 2021-06-08 2021-07-09 成都晓多科技有限公司 一种基于上下文注意流的对话意图识别***及方法
CN113887643A (zh) * 2021-10-12 2022-01-04 西安交通大学 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN113935330A (zh) * 2021-10-22 2022-01-14 平安科技(深圳)有限公司 基于语音的疾病预警方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐畅;周志平;赵卫东;: "基于深度学习的回复类型预测聊天机器人", 计算机应用研究, no. 1, 30 June 2020 (2020-06-30) *
顾迎捷;桂小林;李德福;沈毅;廖东;: "基于神经网络的机器阅读理解综述", 软件学报, no. 07, 15 July 2020 (2020-07-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023165111A1 (zh) * 2022-03-01 2023-09-07 达而观信息科技(上海)有限公司 客服热线中用户意图轨迹识别的方法及***

Also Published As

Publication number Publication date
WO2023165111A1 (zh) 2023-09-07

Similar Documents

Publication Publication Date Title
CN109753566B (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
EP3443467B1 (en) Machine comprehension of unstructured text
CN110245221B (zh) 训练对话状态跟踪分类器的方法和计算机设备
CN106991085B (zh) 一种实体的简称生成方法及装置
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
US10984785B2 (en) Voice conversation method and system with enhanced word features
CN112069811A (zh) 多任务交互增强的电子文本事件抽取方法
CN112084334B (zh) 语料的标签分类方法、装置、计算机设备及存储介质
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN111079432B (zh) 文本检测方法、装置、电子设备及存储介质
CN111625634A (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
CN112800768A (zh) 一种嵌套命名实体识别模型的训练方法及装置
CN110874411A (zh) 一种基于注意力机制融合的跨领域情感分类***
CN110598222A (zh) 语言处理方法及装置、语言处理***的训练方法及装置
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN115168541A (zh) 基于框架语义映射和类型感知的篇章事件抽取方法及***
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN115422324A (zh) 一种文本处理方法及设备
CN115545030A (zh) 实体抽取模型的训练方法、实体关系抽取方法及装置
CN115391512A (zh) 一种对话语言模型的训练方法、装置、设备及存储介质
US11941360B2 (en) Acronym definition network
CN113268985A (zh) 基于关系路径的远程监督关系抽取方法、装置及介质
CN113761910A (zh) 一种融合情感特征的评论文本细粒度情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 201203 rooms 301, 303 and 304, block B, 112 liangxiu Road, Pudong New Area, Shanghai

Applicant after: Daguan Data Co.,Ltd.

Address before: 201203 rooms 301, 303 and 304, block B, 112 liangxiu Road, Pudong New Area, Shanghai

Applicant before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.

Country or region before: China

GR01 Patent grant