CN113849634B - 用于提升深度模型推荐方案可解释性的方法 - Google Patents

用于提升深度模型推荐方案可解释性的方法 Download PDF

Info

Publication number
CN113849634B
CN113849634B CN202110225889.3A CN202110225889A CN113849634B CN 113849634 B CN113849634 B CN 113849634B CN 202110225889 A CN202110225889 A CN 202110225889A CN 113849634 B CN113849634 B CN 113849634B
Authority
CN
China
Prior art keywords
text
return visit
user
digest
user return
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110225889.3A
Other languages
English (en)
Other versions
CN113849634A (zh
Inventor
曹靖城
张继东
王培才
仇东平
王猛德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Shilian Technology Co ltd
Original Assignee
Tianyi Shilian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Shilian Technology Co ltd filed Critical Tianyi Shilian Technology Co ltd
Priority to CN202110225889.3A priority Critical patent/CN113849634B/zh
Publication of CN113849634A publication Critical patent/CN113849634A/zh
Application granted granted Critical
Publication of CN113849634B publication Critical patent/CN113849634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了用于提升深度模型推荐方案可解释性的方法。该方法可以包括:对用户回访数据进行预处理;训练摘要分类器;对回访数据进行特征提取;使用摘要生成器来生成摘要并计算摘要生成损失;基于摘要分类器来计算摘要分类损失;计算回访文本分类损失;以摘要生成损失、摘要分类损失和回访文本分类损失的总和最小化为目标来进行模型参数训练更新;基于模型参数训练更新来得到业务推荐模型。此外,本发明还提供了用于基于用户回访文本来生成业务推荐方案和用户回访摘要的方法,其中所生成的用户回访摘要可以通过使用序列拷贝机制来进行修正。通过本发明,能够显著提高用户业务需求预测的准确性和可解释性。

Description

用于提升深度模型推荐方案可解释性的方法
技术领域
本发明涉及自然语言处理,更具体地,涉及用于提升深度模型推荐方案可解释性的方法。
背景技术
用户业务需求预测的任务可以抽象为自然语言处理中的文本分类任务,可以使用相关算法实现自动意图识别代替人工识别操作。文本分类是指对给定的非结构化文本,根据相应的分类算法或模型,得到文本对应的类别,用于相关判断。传统的机器学习算法基于人工特征工程提取文本特征,在文本分类上的准确率和鲁棒性上都存在一定局限。基于传统循环神经网络和卷积神经网络的深度学习算法对于训练数据的质量要求较高,需要研究选择一种更加准确有效的分类算法用于实现用户意图分类识别。
另外,基于深度学习的可解释问题是工业界现在一直在讨论和研究的工作之一,在自然语言处理领域亦是。目前,现有的研究尝试让模型具有可解释时,通常对模型输出或输出与输入间的联系进行解释。但是,传统的用户业务推荐方法往往忽略了用户对于此次推荐业务的回访摘要信息,但是这种方式忽略了很多细粒度信息(例如标签的文本解释),而且***在对业务推荐后,也无法产生人类可以阅读的解释。这些评价信息往往是客服人员对于客户业务需求经过提炼过后生成的文本信息。如果能够准确的预测生成用户的评价内容,那么就能同时提升分类器分类效果,并以评价内容作为分类结果的解释提升分类器的可解释性和鲁棒性。
发明内容
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
鉴于以上描述的现有技术中的缺陷,本发明的目的在于,提升用户业务需求预测的准确性和可解释性,提升推荐业务质量。
根据本发明的第一方面,提供了一种用于训练业务推荐模型的方法,该业务推荐模型包括分别使用人工神经网络来实现的摘要分类器、特征编码器、摘要解码器和回访文本分类器,该方法可以包括:步骤(1):获得用户回访文本以及与用户回访文本相对应的用户回访摘要和业务推荐方案,并且对用户回访文本和用户回访摘要进行数据预处理以得到用户回访数据集;步骤(2):使用用户回访数据集中的用户回访摘要并且将与该用户回访摘要相对应的业务推荐方案作为标签来训练摘要分类器;步骤(3):使用特征编码器来对用户回访数据集中的用户回访文本进行特征提取,以得到回访文本隐状态向量;步骤(4):将回访文本隐状态向量输入摘要解码器以获得生成摘要并且计算摘要生成损失;步骤(5):基于经训练的摘要分类器来计算摘要分类损失;步骤(6):基于回访文本分类器来计算回访文本分类损失;步骤(7):以摘要生成损失、摘要分类损失和回访文本分类损失的总和最小化为目标来对特征编码器、摘要解码器和回访文本分类器的参数进行训练更新;以及重复执行步骤(3)-步骤(7),直至参数收敛,从而完成业务推荐模型的训练。
可选地,用户回访数据集可以包括训练集、验证集和测试集,该训练集、该验证集和该测试集的比例可以为6:2:2。
可选地,摘要分类器可以使用文本卷积神经网络(TextCNN)模型来训练。
可选地,步骤(3)可以进一步包括:使用基于注意力(Attention)机制的双向长短时记忆(Bi-LSTM)特征编码器对用户回访数据集中的用户回访文本进行特征提取;以及基于所提取的特征、使用基于注意力(Attention)机制的双向长短时记忆(Bi-LSTM)模型来得到用户回访文本经过编码后的回访文本隐状态向量。
可选地,步骤(4)可以进一步包括:将用户回访文本经过编码后的回访文本隐状态向量输入采用长短时记忆(LSTM)网络的摘要解码器以获得生成摘要;基于生成摘要和标签摘要来计算双语评估替补(BLEU)得分,其中标签摘要是用户回访文本在用户回访数据集中对应的用户回访摘要;以及基于双语评估替补(BLEU)得分来确定摘要生成损失。
可选地,步骤(5)可以进一步包括:将标签摘要和生成摘要输入步骤(2)中训练完成的摘要分类器中,以分别得到利用标签摘要和生成摘要进行业务推荐方案预测的概率分布;从关联于标签摘要的概率分布中取出与真实业务推荐方案相对应的概率作为第一概率;从关联于生成摘要的概率分布中取出与真实业务推荐方案相对应的概率作为第二概率;以及计算第一概率和第二概率的差的绝对值作为摘要分类损失。
可选地,步骤(6)可以进一步包括:将用户回访文本经过编码后的回访文本隐状态向量输入采用文本卷积神经网络(TextCNN)模型的回访文本分类器,以得到业务推荐方案预测的概率分布;从该概率分布中取出与真实业务推荐方案相对应的概率作为第三概率;计算第二概率与第三概率的差的绝对值作为回访文本分类损失。
可选地,当回访文本分类损失低于阈值时,停止特征编码器、摘要解码器和回访文本分类器的参数的更新。
根据本发明的第二方面,提供了一种用于基于用户回访文本来生成用户回访摘要和业务推荐方案的方法,该方法可以包括:获得通过本发明的方法来训练的业务推荐模型;获得用户回访文本并且对该用户回访文本进行数据预处理;以及将经数据预处理的用户回访文本输入该业务推荐模型,以生成对应的用户回访摘要和业务推荐方案。
可选地,该方法可以进一步包括:对所生成的用户回访摘要进行修正;以及输出经修正的用户回访摘要。
通过采用本发明提供的技术方案,能够显著提高用户业务需求预测的准确性和可解释性。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
为了能详细地理解本发明的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本发明的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
图1解说了根据本发明的一个实施例的业务推荐模型的示意图。
图2解说了根据本发明的一个实施例的用于训练业务推荐模型的方法的流程图。
图3解说了根据本发明的一个实施例的用于采用经训练的业务推荐模型、基于用户回访文本来获得用户回访摘要和业务推荐方案的方法的流程图。
图4解说了根据本发明的一个实施例的用于实现根据本发明的方法的装置的框图。
具体实施方式
为了更清楚地说明本发明的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些示例或实施例,对于本领域的普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图将本发明应用于其他类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
如本发明和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可以包括复数。一般来说,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排他性的罗列,方法或者设备也可能包含其他的步骤或元素。
本发明中使用了流程图来说明根据本发明的实施例的方法所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,或将其他操作添加到这些过程中,或从这些过程中移除某一步或数步操作。
在自然语言处理技术中,传统文本分类任务以及文本生成任务是两个相对独立的子任务。本发明将两个子任务模型同时进行训练,以达到生成摘要内容和业务推荐方案两者能够统一的目的。此外,传统深度学习网络一般采用端到端的方式,直接预测文本类型,属于黑盒模型,不具有可解释性。本发明使用文本生成技术,生成经过提炼的回访摘要内容,使模型生成的推荐方案能够根据回访摘要进行人工理解,提高模型推荐准确性。
图1解说了根据本发明的一个实施例的业务推荐模型100的示意图。在本发明中,业务推荐模型100指的是使用人工神经网络所训练出的一种模型,该模型能够基于用户回访文本来生成对应的用户回访摘要(文本生成任务)和业务推荐方案(文本分类任务)。用户回访文本指的是在客服人员与用户的通话过程中由用户诉说的内容,该内容可以通过语音识别并转换成文本来得到。用户回访摘要指的是对用户回访文本的概括性描述,其可以是客服人员对于用户业务需求经过提炼过后生成的文本信息。业务推荐方案指的是基于用户需求(例如,基于用户回访文本和/或用户回访摘要的内容)来向用户推荐相应类型的业务。因此,用户回访文本、用户回访摘要和业务推荐方案三者是相关联的或相对应的。举例而言,在一个示例中,用户回访文本可以包括“每个月手机套餐内流量总是不够用,要多花很多超额费用”,相应的用户回访摘要可以包括“手机套餐内流量不够用”,并且相关联的业务推荐方案可以包括“升级手机套餐”。在另一个示例中,用户回访文本可以包括“家里上网速度慢,看电影、玩游戏经常出现卡顿现象”,相应的用户回访摘要可以包括“上网速度不能满足需求”,并且相关联的业务推荐方案可以包括“升级带宽”。在本发明中,通过采用业务推荐模型100,使得能够基于用户回访文本来自动地生成用户回访摘要和业务推荐方案,既为用户提供了业务推荐方案,也为工作人员提供了直接的可阅读摘要文本以帮助进行业务分析。
在本发明的一个实施例中,业务推荐模型100可以包括多个组件,该多个组件可以包括但不限于分别采用人工神经网络来实现的摘要分类器、特征编码器、摘要解码器和回访文本分类器。摘要分类器可被用于基于用户回访摘要来生成相应的业务推荐方案(即,实现基于回访摘要的文本分类任务)。特征编码器可被用于对输入的用户回访文本进行特征提取,以得到回访文本隐状态向量。本领域技术人员知道,对于文本生成任务(例如,序列到序列Seq2Seq任务),编码器-解码器结构是常用的一种结构,其中编码器接收输入序列,产生隐状态向量作为输入序列的编码信息,而解码器基于该隐状态向量来生成输出序列。因此,本发明中的回访文本隐状态向量指的是用户回访文本经过特征编码器特征提取之后所产生的隐状态向量。摘要解码器可被用于基于特征编码器输出的回访文本隐状态向量来生成用户回访摘要(即,实现基于用户回访文本的文本生成任务)。回访文本分类器可被用于基于用户回访文本(例如,基于回访文本隐状态向量)来生成相应的业务推荐方案(即,实现基于用户回访文本的文本分类任务)。
图2解说了根据本发明的一个实施例的用于训练业务推荐模型的方法200的流程图。在一些示例中,方法200可由图4中解说的装置400来执行。在一些示例中,方法200可由用于执行下述功能或算法的任何合适的设备或装置来执行。如上所述,业务推荐模型可以包括分别采用人工神经网络来实现的摘要分类器、特征编码器、摘要解码器、回访文本分类器。训练业务推荐模型也就是训练实现摘要分类器、特征编码器、摘要解码器、回访文本分类器的人工神经网络的参数,以获得能够基于用户回访文本来准确地生成用户回访摘要和业务推荐方案的业务推荐模型。
方法200可以始于框210(即,步骤(1)),其中获得用户回访文本以及与用户回访文本相对应的用户回访摘要和业务推荐方案,并且对用户回访文本和用户回访摘要进行数据预处理以得到用户回访数据集。如上所述,用户回访文本、用户回访摘要和业务推荐方案三者是相关联的或相对应的,并且历史的或已有的用户回访文本、用户回访摘要和业务推荐方案可以被存储在数据库中。因此,在一个实施例中,可以从数据库中获得这些数据,以使用这些数据来训练业务推荐模型。在另一个实施例中,还可以从计算机、存储设备、服务器等获得这些数据。
在一个实施例中,数据预处理可以包括建立常用虚词、语气词词表,利用正则表达式对用户回访文本和用户回访摘要中的虚词、语气词进行文本替换、抽取,以得到用户回访信息的有效数据。该有效数据可以按比例划分为训练集、验证集和测试集并且以文件的格式进行存储以得到用户回访数据集,其中训练集、验证集和测试集的比例可以为6:2:2。验证集和测试集可被用于验证模型训练情况和泛化性。
在框220(即,步骤(2)),方法200可以包括使用用户回访数据集中的用户回访摘要并且将与该用户回访摘要相对应的业务推荐方案作为标签来训练摘要分类器。在训练之后,该摘要分类器可用于基于摘要来得到业务推荐方案预测的概率分布(即,实现文本分类任务)。在一个实施例中,框220的操作可以进一步包括:使用词向量(例如,使用词表示的全局向量(GloVe)模型预训练的词向量、使用word2vec模型预训练的词向量等)对用户回访数据集中的用户回访摘要进行替换,得到用户回访摘要的基础嵌入表示,然后以相应的业务推荐方案作为标签,使用文本卷积神经网络(TextCNN)模型来训练一个文本分类器作为摘要分类器。由于使用短文本摘要进行分类,该TextCNN模型性能应相对较高,实际操作中能达到95%以上的分类正确率,因此该摘要分类器不会参与后续的模型参数更新。
在框230(即,步骤(3)),方法200可以包括使用特征编码器来对用户回访数据集中的用户回访文本进行特征提取,以得到回访文本隐状态向量。在一个实施例中,框230的操作可以进一步包括:使用词向量(例如,使用GloVe模型预训练的词向量、使用word2vec模型预训练的词向量等)对用户回访数据集中的用户回访文本进行替换,得到用户回访文本的基础嵌入表示;然后使用基于注意力(Attention)机制的双向长短时记忆(Bi-LSTM)特征编码器对用户回访数据集中的用户回访文本进行特征提取;以及基于所提取的特征、使用基于Attention机制的双向长短时记忆(Bi-LSTM)模型来得到用户回访文本经过编码后的回访文本隐状态向量。
在框240(即,步骤(4)),方法200可以包括将回访文本隐状态向量输入摘要解码器以获得生成摘要并且计算摘要生成损失。在本发明中,摘要生成损失可用于评估摘要的生成效果,即,由摘要解码器生成的生成摘要与标签摘要之间的差异程度。在一个实施例中,框240的操作可以进一步包括:将用户回访文本经过编码后的回访文本隐状态向量输入采用长短时记忆(LSTM)网络的摘要解码器以获得生成摘要;基于生成摘要和标签摘要来计算双语评估替补(BLEU)得分,其中标签摘要是用户回访文本在用户回访数据集中对应的用户回访摘要;以及基于双语评估替补(BLEU)得分来确定摘要生成损失。BLEU得分可以用于评估一组自然语言处理任务生成的文本。它是用于评估候选句子和参考句子之间的差异的指标。它的取值范围在0.0到1.0之间。如果两个句子完美匹配,那么BLEU是1.0;反之,如果两个句子完美不匹配,那么BLEU为0.0。在一个示例中,可以用Bi-gram的方式或者用任何其他已知的方式来计算BLEU得分。在另一个示例中,摘要生成损失可以与BLEU得分成反比,即,BLEU得分越高,则摘要生成损失越小;反之,BLEU得分越低,则摘要生成损失越大。
在框250(即,步骤(5)),方法200可以包括基于经训练的摘要分类器来计算摘要分类损失。在本发明中,摘要分类损失可用于评估将生成摘要输入摘要分类器来获得业务推荐方案的效果。在一个实施例中,框250的操作可以进一步包括:将标签摘要和生成摘要输入框220处训练完成的摘要分类器中,以分别得到利用标签摘要和生成摘要进行业务推荐方案预测的概率分布;从关联于标签摘要的概率分布中取出与真实业务推荐方案相对应的概率作为第一概率;从关联于生成摘要的概率分布中取出与真实业务推荐方案相对应的概率作为第二概率;以及计算第一概率和第二概率的差值作为摘要分类损失。这里,真实业务推荐方案指的是在框210处获得的与标签摘要相对应的业务推荐方案。
在框260(即,步骤(6)),方法200可以包括基于回访文本分类器来计算回访文本分类损失。在本发明中,回访文本分类损失可用于评估使用回访文本分类器来获得业务推荐方案的效果。在一个实施例中,框260的操作可以进一步包括:将用户回访文本经过编码后的回访文本隐状态向量输入采用文本卷积神经网络模型的回访文本分类器,以得到业务推荐方案预测的概率分布;从该概率分布中取出与真实业务推荐方案相对应的概率作为第三概率;计算第二概率与第三概率的差的绝对值作为回访文本分类损失。这里,真实业务推荐方案指的是在框210处获得的与用户回访文本相对应的业务推荐方案。
在框270(即,步骤(7)),方法200可以包括以摘要生成损失、摘要分类损失和回访文本分类损失的总和最小化为目标来对特征编码器、摘要解码器和回访文本分类器的参数进行训练更新。在一个实施例中,摘要分类损失和回访文本分类损失的总和可被称为EF因子。可以使用模型参数优化器以EF因子同摘要生成损失的总和最小化为目标,对特征编码器、摘要解码器和回访文本分类器进行参数训练更新。在一个实施例中,模型参数优化器可以是自适应矩估计(Adam)优化器。在另一个实施例中,模型参数优化器可以是任何其他适用的优化器,诸如自适应梯度(AdaGrad)优化器、RMSProp优化器、等等。
在框280,方法100可以包括判断模型参数是否收敛。如果收敛(例如,摘要生成损失、摘要分类损失和回访文本分类损失的总和无法进一步减小或者进一步减小的幅度非常小),则方法200结束,完成业务推荐模型的训练;否则,重复框230-270的操作以继续业务推荐模型的训练。在一个实施例中,当回访文本分类损失低于阈值时,停止特征编码器、摘要解码器和回访文本分类器的参数的更新,以防止生成摘要文本变短、过拟合等现象的发生。
图3解说了根据本发明的一个实施例的用于采用经训练的业务推荐模型、基于用户回访文本来获得用户回访摘要和业务推荐方案的方法300的流程图。
在一些示例中,方法300可由图4中解说的装置400来执行。在一些示例中,方法300可由用于执行下述功能或算法的任何合适的设备或装置来执行。
在框310,方法300可以包括获得通过方法200来训练的业务推荐模型。
在框320,方法300可以包括获得用户回访文本并且对该用户回访文本进行数据预处理。在一个实施例中,用户回访文本可以通过在与用户的通话过程中将用户讲话的内容进行语音识别并转换成文字来获得。在一个实施例中,数据预处理可以包括建立常用虚词、语气词词表,利用正则表达式对用户回访文本中的虚词、语气词进行文本替换、抽取,以得到用户回访文本的有效数据。
在框330,方法300可以包括将经数据预处理的用户回访文本输入该业务推荐模型,以生成对应的用户回访摘要和业务推荐方案。
可任选地,方法300可以进一步包括:对所生成的用户回访摘要进行修正;以及输出经修正的用户回访摘要。传统文本生成模型通常会抛弃低频、专业领域词汇,以此来获取更高的文本生成得分。例如,通常将输入序列中不在词汇表中的词用<UNK>标签来替代,并且输出序列中也可能会出现<UNK>标签。在一个实施例中,对于生成摘要的输出,可以使用基于Soft-Attention机制的摘要修正器对生成摘要内容进行修正,该摘要修正器使用序列拷贝机制将生成摘要中的<UNK>标签进行替换,以解决低频词汇会在摘要生成器中被忽略的问题。
通过对比本发明的方法与传统的业务推荐模型算法,本发明的方法通过引入基于EF因子和序列拷贝机制的用户回访摘要,增强了模型的特征表示能力,同时提炼产生了业务人员可以阅读的文本信息,增加了模型的可解释性,对于业务人员的业务推荐有着重要意义,同时也在多项指标上出现明显增长。模型评测采用准确率、召回率、AUC值和log损失,其中采用模型预测正确推荐次数/总推荐次数作为准确率指标,采用模型预测正确并成功推荐/推荐营销次数作为召回率指标,使用AUC值计算模型对正负样本的排序能力(AUC越大则预测为正的样本成功率更高),使用log损失评价模型拟合能力(越小则表示拟合程度越好)。
具体指标见下表1:
召回率 准确率 AUC log损失
本发明 0.2364 0.3563 0.2523 0.3824
MLP 0.1934 0.3021 0.1967 0.3921
RNNs 0.2039 0.3114 0.1992 0.3974
CNNs 0.2014 0.3301 0.2143 0.3945
FM 0.1984 0.2945 0.1967 0.4245
GBDT+LR 0.1934 0.3209 0.1932 0.4394
表1本发明的方法与传统的业务推荐模型算法的比较
图4解说了根据本发明的一个实施例的用于实现根据本发明的方法的装置400的硬件实现的示例的框图。装置400可使用包括一个或多个处理器404的处理***414来实现。处理器404的示例包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、选通逻辑、分立的硬件电路、以及配置成执行本公开通篇描述的各种功能性的其他合适硬件。在各个示例中,装置400可被配置成执行本文中所描述的功能中的任一者或多者。即,如在装置400中利用的处理器404可被用于实现以上参照图2描述的方法200和/或参照图3描述的方法300。
在该示例中,处理***414可被实现成具有由总线402一般化地表示的总线架构。取决于处理***414的具体应用和总体设计约束,总线402可包括任何数目的互连总线和桥接器。总线402将包括一个或多个处理器(由处理器404一般化地表示)、存储器405和计算机可读介质(由计算机可读介质406一般化地表示)的各种电路通信地耦合在一起。总线402还可链接各种其他电路,诸如定时源、***设备、稳压器和功率管理电路,这些电路在本领域中是众所周知的,且因此将不再进一步描述。总线接口408提供总线402与收发机410之间的接口。收发机310提供用于在传输介质上与各种其他设备进行通信的通信接口或装置。取决于该设备的特性,还可提供用户接口412(例如,按键板、显示器、扬声器、话筒、操纵杆)。当然,此类用户接口412是可任选的,且可在一些示例中被省略。
在一些方面,处理器404可被配置成:获得用户回访文本以及与用户回访文本相对应的用户回访摘要和业务推荐方案,并且对用户回访文本和用户回访摘要进行数据预处理以得到用户回访数据集;使用用户回访数据集中的用户回访摘要并且将与该用户回访摘要相对应的业务推荐方案作为标签来训练摘要分类器;使用特征编码器来对用户回访数据集中的用户回访文本进行特征提取,以得到回访文本隐状态向量;将回访文本隐状态向量输入摘要解码器以获得生成摘要并且计算摘要生成损失;基于经训练的摘要分类器来计算摘要分类损失;基于回访文本分类器来计算回访文本分类损失;以及以摘要生成损失、摘要分类损失和回访文本分类损失的总和最小化为目标来对特征编码器、摘要解码器和回访文本分类器的参数进行训练更新,直至参数收敛,从而完成业务推荐模型的训练。
在另一些方面,处理器404可被配置成:获得通过本发明的方法来训练的业务推荐模型;获得用户回访文本并且对该用户回访文本进行数据预处理;以及将经数据预处理的用户回访文本输入该业务推荐模型,以生成对应的用户回访摘要和业务推荐方案。
处理器404负责管理总线402和通用处理,包括对存储在计算机可读介质406上的软件的执行。软件在由处理器404执行时使处理***414执行针对任何特定设备描述的各种功能。计算机可读介质406和存储器405还可被用于存储由处理器404在执行软件时操纵的数据。
处理***中的一个或多个处理器404可以执行软件。软件应当被宽泛地解释成意为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行件、执行的线程、规程、函数等,无论其是用软件、固件、中间件、微代码、硬件描述语言、还是其他术语来述及皆是如此。软件可驻留在计算机可读介质406上。计算机可读介质306可以是非瞬态计算机可读介质。作为示例,非瞬态计算机可读介质包括磁存储设备(例如,硬盘、软盘、磁带)、光盘(例如,压缩碟(CD)或数字多用碟(DVD))、智能卡、闪存设备(例如,卡、棒或钥匙型驱动器)、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器、可移除盘、以及用于存储可由计算机访问和读取的软件和/或指令的其他任何合适介质。计算机可读介质406可驻留在处理***414中、在处理***414外部、或跨包括处理***414的多个实体分布。计算机可读介质406可被实施在计算机程序产品中。作为示例,计算机程序产品可包括封装材料中的计算机可读介质。本领域技术人员将认识到如何取决于具体应用和加诸于整体***的总体设计约束来最佳地实现本公开通篇给出的所描述的功能性。
在一个或多个示例中,计算机可读存储介质406可包括被配置成用于各种功能(包括例如用于训练业务推荐模型的功能和/或用于采用经训练的业务推荐模型、基于用户回访文本来生成用户回访摘要和业务推荐方案的功能)的软件。该软件可包括指令,这些指令可将处理***414配置成执行参照图2和/或图3所描述的一个或多个功能。
在本发明的描述中,需要理解的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本领域普通技术人员应领会,本发明的各个实施例可提供为方法、装置、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用一个或多个其中存储有计算机可执行程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置、***和计算机程序产品的流程图和/或框图来描述的。应理解,可由计算机程序指令实现流程图和/或框图中的每一个流程和/或方框、以及流程图和/或框图中的流程和/或方框的组合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图中的一个或多个流程和/或框图中的一个或多个方框中指定的功能的装置。
尽管目前为止已经参考附图描述了本发明的各方面,但是上述方法、***和设备仅是示例,并且本发明的范围不限于这些方面,而是仅由所附权利要求及其等同物来限定。各种组件可被省略或者也可被等同组件替代。另外,也可以在与本发明中描述的顺序不同的顺序实现所述步骤。此外,可以按各种方式组合各种组件。也重要的是,随着技术的发展,所描述的组件中的许多组件可被之后出现的等同组件所替代。对本公开的各种修改对于本领域技术人员将是显而易见的,并且本文中所定义的普适原理可被应用于其他变形而不会脱离本公开的范围。由此,本公开并非被限定于本文中所描述的示例和设计,而是应被授予与本文所公开的原理和新颖特征相一致的最广范围。

Claims (10)

1.一种用于训练业务推荐模型的方法,所述业务推荐模型包括分别使用人工神经网络来实现的摘要分类器、特征编码器、摘要解码器和回访文本分类器,所述方法包括:
步骤(1):获得用户回访文本以及与所述用户回访文本相对应的用户回访摘要和业务推荐方案,并且对所述用户回访文本和所述用户回访摘要进行数据预处理以得到用户回访数据集;
步骤(2):使用所述用户回访数据集中的用户回访摘要并且将与该用户回访摘要相对应的业务推荐方案作为标签来训练所述摘要分类器;
步骤(3):使用所述特征编码器来对所述用户回访数据集中的用户回访文本进行特征提取,以得到回访文本隐状态向量;
步骤(4):将所述回访文本隐状态向量输入所述摘要解码器以获得生成摘要并且计算摘要生成损失;
步骤(5):基于经训练的所述摘要分类器来计算摘要分类损失;
步骤(6):基于所述回访文本分类器来计算回访文本分类损失;
步骤(7):以所述摘要生成损失、所述摘要分类损失和所述回访文本分类损失的总和最小化为目标来对所述特征编码器、所述摘要解码器和所述回访文本分类器的参数进行训练更新;以及
重复执行步骤(3)-步骤(7),直至所述参数收敛,从而完成所述业务推荐模型的训练。
2.如权利要求1所述的方法,其中所述用户回访数据集包括训练集、验证集和测试集,所述训练集、所述验证集和所述测试集的比例为6:2:2。
3.如权利要求1所述的方法,其中所述摘要分类器是使用文本卷积神经网络模型来训练的。
4.如权利要求1所述的方法,其中步骤(3)进一步包括:
使用基于注意力机制的双向长短时记忆(Bi-LSTM)特征编码器对所述用户回访数据集中的用户回访文本进行特征提取;以及
基于所提取的特征、使用基于注意力机制的双向长短时记忆(Bi-LSTM)网络来得到所述用户回访文本经过编码后的回访文本隐状态向量。
5.如权利要求4所述的方法,其中步骤(4)进一步包括:
将所述用户回访文本经过编码后的回访文本隐状态向量输入采用长短时记忆(LSTM)网络的摘要解码器以获得生成摘要;
基于所述生成摘要和标签摘要来计算双语评估替补(BLEU)得分,其中所述标签摘要是所述用户回访文本在所述用户回访数据集中对应的用户回访摘要;以及
基于所述双语评估替补(BLEU)得分来确定所述摘要生成损失。
6.如权利要求5所述的方法,其中步骤(5)进一步包括:
将所述标签摘要和所述生成摘要输入步骤(2)中训练完成的摘要分类器中,以分别得到利用所述标签摘要和所述生成摘要进行业务推荐方案预测的概率分布;
从关联于所述标签摘要的概率分布中取出与真实业务推荐方案相对应的概率作为第一概率;
从关联于所述生成摘要的概率分布中取出与真实业务推荐方案相对应的概率作为第二概率;以及
计算所述第一概率和所述第二概率的差的绝对值作为摘要分类损失。
7.如权利要求6所述的方法,其中步骤(6)进一步包括:
将所述用户回访文本经过编码后的回访文本隐状态向量输入采用文本卷积神经网络模型的回访文本分类器,以得到业务推荐方案预测的概率分布;
从该概率分布中取出与真实业务推荐方案相对应的概率作为第三概率;
计算所述第二概率与所述第三概率的差的绝对值作为回访文本分类损失。
8.如权利要求1所述的方法,其中当所述回访文本分类损失低于阈值时,停止所述参数的更新。
9.一种用于基于用户回访文本来生成用户回访摘要和业务推荐方案的方法,所述方法包括:
获得由根据权利要求1-8中的任一项所述的方法来训练的业务推荐模型;
获得用户回访文本并且对所述用户回访文本进行数据预处理;以及
将经数据预处理的用户回访文本输入所述业务推荐模型,以生成对应的用户回访摘要和业务推荐方案。
10.如权利要求9所述的方法,其中所述方法进一步包括:
对所生成的用户回访摘要进行修正;以及
输出经修正的用户回访摘要。
CN202110225889.3A 2021-03-01 2021-03-01 用于提升深度模型推荐方案可解释性的方法 Active CN113849634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110225889.3A CN113849634B (zh) 2021-03-01 2021-03-01 用于提升深度模型推荐方案可解释性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110225889.3A CN113849634B (zh) 2021-03-01 2021-03-01 用于提升深度模型推荐方案可解释性的方法

Publications (2)

Publication Number Publication Date
CN113849634A CN113849634A (zh) 2021-12-28
CN113849634B true CN113849634B (zh) 2024-04-16

Family

ID=78972833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110225889.3A Active CN113849634B (zh) 2021-03-01 2021-03-01 用于提升深度模型推荐方案可解释性的方法

Country Status (1)

Country Link
CN (1) CN113849634B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970552B (zh) * 2022-07-27 2022-10-11 成都乐超人科技有限公司 基于微服务的用户回访信息分析方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947931A (zh) * 2019-03-20 2019-06-28 华南理工大学 基于无监督学习的文本自动摘要方法、***、设备及介质
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法
CN111639176A (zh) * 2020-05-29 2020-09-08 厦门大学 一种基于一致性监测的实时事件摘要方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11748613B2 (en) * 2019-05-10 2023-09-05 Baidu Usa Llc Systems and methods for large scale semantic indexing with deep level-wise extreme multi-label learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947931A (zh) * 2019-03-20 2019-06-28 华南理工大学 基于无监督学习的文本自动摘要方法、***、设备及介质
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法
CN111639176A (zh) * 2020-05-29 2020-09-08 厦门大学 一种基于一致性监测的实时事件摘要方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于预训练BERT模型的客服工单自动分类研究;任莹;;云南电力技术;20200215(第01期);全文 *

Also Published As

Publication number Publication date
CN113849634A (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN108710704B (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN115310425B (zh) 基于政策文本分类和关键信息识别的政策文本分析方法
CN111783993A (zh) 智能标注方法、装置、智能平台及存储介质
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113791757A (zh) 软件需求和代码映射方法及***
CN111950295A (zh) 一种训练自然语言处理模型的方法和***
CN115599901A (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN115359321A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN113849634B (zh) 用于提升深度模型推荐方案可解释性的方法
CN115293794A (zh) 一种基于智能规模识别的软件费用评估方法及***
CN115099310A (zh) 训练模型、对企业进行行业分类的方法和装置
CN114817467A (zh) 一种意图识别响应方法、装置、设备及存储介质
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN116842263A (zh) 一种智能问答式理财顾问模型的训练处理方法及装置
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
CN113297385B (zh) 基于改进GraphRNN的多标签文本分类***及分类方法
CN115617959A (zh) 问题解答方法及装置
CN112860843A (zh) 一种新闻长文本情感分析方法及装置
CN113570455A (zh) 股票推荐方法及装置、计算机设备、存储介质
CN113837910B (zh) 试题推荐方法、装置、电子设备和存储介质
CN116414965B (zh) 初始对话内容生成方法、装置、介质和计算设备
CN117332090B (zh) 一种敏感信息识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220208

Address after: Room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai 200072

Applicant after: Tianyi Digital Life Technology Co.,Ltd.

Address before: 201702 3rd floor, 158 Shuanglian Road, Qingpu District, Shanghai

Applicant before: Tianyi Smart Family Technology Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240315

Address after: Unit 1, Building 1, China Telecom Zhejiang Innovation Park, No. 8 Xiqin Street, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Applicant after: Tianyi Shilian Technology Co.,Ltd.

Country or region after: China

Address before: Room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai 200072

Applicant before: Tianyi Digital Life Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant