CN112419096A - 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 - Google Patents
基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 Download PDFInfo
- Publication number
- CN112419096A CN112419096A CN202011406933.2A CN202011406933A CN112419096A CN 112419096 A CN112419096 A CN 112419096A CN 202011406933 A CN202011406933 A CN 202011406933A CN 112419096 A CN112419096 A CN 112419096A
- Authority
- CN
- China
- Prior art keywords
- work order
- user
- model
- learning
- dispatching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000000605 extraction Methods 0.000 title claims abstract description 32
- 238000003058 natural language processing Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000001788 irregular Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 31
- 230000005611 electricity Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 5
- 230000008451 emotion Effects 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000008439 repair process Effects 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000025274 Lightning injury Diseases 0.000 description 1
- 101150055297 SET1 gene Proteins 0.000 description 1
- 101150117538 Set2 gene Proteins 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Water Supply & Treatment (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,包括以下步骤:步骤1:利用RPA提取用户用电诉求工单的受理内容及用户信息;构建工单派发模型;步骤2:采用NLP信息抽取方法,将不规则的受理内容文本结构化,提取用户用电诉求工单的关键信息;步骤3:将关键信息输入工单派发模型,实现部分用户用电诉求工单的自动下派;步骤4:采用自然语言处理的少样本学习方法,记录并训练人工派单的工单处置结果,形成新的自派发路径,更新工单派发模型;步骤5:将步骤2的获得的关键信息输入经过更新的工单派发模型,实现用户用电诉求工单的自动下派。本发明派发范围大、准确度高。
Description
技术领域
本发明属于互联网技术领域,尤其涉及一种基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法。
背景技术
当前,供电服务指挥中心主要依靠人工坐席通过供电服务指挥***完成用户用电服务诉求的处置和管控。在实际工作中,供电服务指挥***尚无法独立完成上述业务,需要与现有***配合完成,如PMS、用户采集***等,很多工作需要人工操作完成、衔接并研判信息,低效繁琐,容易出现错漏,影响服务指标。
为了解决上述问题,部分地市公司先后引入了工单自动流转机制和工具,在建立强规则和唯一路径的情况下,实现了小部分工单的自动下派。但在实际工作中,存在如用户诉求分类不清晰,受理内容表述不具体,用户基本信息录入不全面,用电服务范围不确定,处置部门机构调整等诸多不确定因素,往往会出现漏派、错派等问题,从而影响到正常的人工作业。因此在实现自动派单的范围需要进一步扩大的同时自动派单的准确度也亟待提高。
发明内容
本发明的目的是为了提供一种基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,适用于用户用电诉求工单自动流转,派发范围大、准确度高。
为解决以上技术问题,本发明的技术方案为:基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,其步骤包括:
步骤1:利用RPA提取用户用电诉求工单的受理内容及用户信息;构建工单派发模型;
步骤2:采用NLP信息抽取方法,将不规则的受理内容文本结构化,提取用户用电诉求工单的关键信息,扩大自派发范围;
步骤3:将关键信息输入工单派发模型,工单派发模型对能提取到关键信息的工单自动下派;针对在输入关键信息至工单派发模型后无法找到下派路径的工单流转给人工进行处理后执行步骤4;
步骤4:采用自然语言处理的少样本学习方法,记录并训练人工派单的工单处置结果,形成新的自派发路径,对人工派单方式进行少样本学习,更新工单派发模型;
步骤5:将步骤2的获得的关键信息输入经过更新的工单派发模型,进一步实现用户用电诉求工单的自动下派。
按以上方案,步骤1中,用户用电诉求工单的数据源为:客服***中投诉受理工单、回访不满意工单信息;营销***和配网抢修平台提供的工单受理时间、故障区域、故障所在线路的基本信息;反映客户诉求信息的投诉受理记录内容和投诉处理过程记录。
按以上方案,所述步骤2具体为:基于NLP技术实现用户用电诉求工单中的句子分割,通过对工单中形成的句子进行编码,拆分句子;对工单中出现的词汇进行标记;对被标记的词汇的词性进行预测;判断每个词汇在工单中的作用,获取到用户用电诉求工单上出现的结构化数据,得到关键信息。
按以上方案,对被标记的词汇的词性进行预测时,具体使用循环神经网络来处理后面的输入依赖前面的输入的序列关系。
按以上方案,结构化数据包括诉求时间、用电信息和用户情感。
按以上方案,所述步骤3还包括训练工单派发模型的步骤:基于关键信息,构建工单文本分类的特征词库矩阵,完成特征提取;以特征词库矩阵作为工单派发模型输入对工单派发模型进行分类训练;从而进一步实现用户用电工单派发模型的策略的产生。
按以上方案,所述利用小样本学习方法对工单进行训练的方法为:
工单派发模型使用 CBoW模型将词表示词向量;
工单派发模型采用TextCNN来对词向量进行特征提取输出文本的特征向量;
工单派发模型将所有文本的特征向量输入基于多项式分布建模的softmax分类器进行分类判定,输出每一个文本对应的类别并与已有的标签进行对比;迭代训练得到分类更新后的工单派发模型。
按以上方案,所述步骤4中,对人工派单方式进行少样本学习包括因素处置行为的学习,因素处置行为包括:用户所在台区、用户所在社区和工单处理部门。
按以上方案,所述步骤4中,利用随机森林算法来实现新旧模型之间的更新。
本发明基于供电服务坐席用户用电诉求工单处置的RPA自动流转的工单派发模型,利用自然语言处理技术(NLP)的信息抽取技术分支,进而提取出用户用电诉求的不规则化文本内容,分析诉求工单下派逻辑,结构化用户诉求,提高工单自动流转的派发范围;此外,利用NLP的少样本自学习技术,自我学习没有强逻辑规则下的人工干涉行为,完善诉求工单下派路径,提高工单自动流转的派发深度,从而做到快速响应用户用电诉求,提高供电服务效率与质量。
与现有技术相比,本发明具有如下有益效果:
1)在设计用户用电诉求工单自动流转过程时,不侵入任何现有***与数据,独立运行。
2)在实现用户用电诉求工单自动流转过程中,能够自动分析用户诉求内容文本信息和用户情感,较之以往的强逻辑自动派发工具,自动派发范围覆盖更为广泛,适应度更强。
3)在执行用户用电诉求工单自动流转过程时,能够在少量人工干涉结果的基础上,自动优化派发路径,较之以往的唯一路径派发工具,自动派发成功率更高,对不确定因素的反应更灵敏。
附图说明
图1是本发明的用户用电派单步骤流程图;
图2是本发明的RNN网络在工单关键信息提取结构示意图;
图3是本发明的CBoW在工单进一步学习模型的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明作进一步详细说明。
请参考图1,本发明为一种基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,其步骤包括:
步骤1:利用机器人流程自动化(RPA)提取用户用电诉求工单的受理内容及用户信息;构建工单派发模型。
RPA实施的用户用电诉求工单内容提取过程主要是对工单数据进行粗粒度提取。在对用户用电工单进行数据采集过程更多的是与本地存留的用户用电工单数据的交互(工单时间信息、任务诉求信息、用户基本信息等),而数据提交过程更多的是与用户用电工单派发模型之间的交互过程(登录、数据填写、提交等动作)。由于RPA所实现的用户用电诉求工单内容的提取时只需要对内部数据进行交互,因此,在一定程度上保证了用户用电数据的安全性和隐私性。
在已有的供电服务指挥***基础上,利用RAP的无侵入特性接入电力用户工单流转的“市级接单分理”节点,并获取节点上用户诉求信息,不影响当前***运行,亦无须数据接口,保证数据安全和***稳定。
具体实现步骤如下:首先,利用RPA工具,通过脚本的预定义,工单内容提取机器人自动登录用户用电工单管理***、用户用电管理***按照用户用电诉求工单批量导出基础业务数据。其中,主要的数据来源有:①国网95598客服***中投诉受理工单、回访不满意工单信息;②营销***和配网抢修平台提供的工单受理时间、故障区域、故障所在线路等基本信息;③反映客户主要诉求信息的投诉受理记录内容、投诉处理过程记录。其次,机器人自动获取事先维护好的用户用电诉求信息用以生成用户用电诉求报表底稿。此外,对于需要调整的信息,如自动生成的单号、工单类型、工单子类型、户号、现场地址、诉求内容、工单优先级自动通过设定好的规则进行调整,借助预置的校验公式进行报表的校验。最后,机器人将处理好的用户用电诉求数据放到统一的文件夹,由人工进行审查(或干预),并作为自然语言处理的数据源。
步骤2:采用NLP信息抽取方法,将不规则的受理内容文本结构化,提取用户用电诉求工单的关键信息,扩大自派发范围。
为了实现用户用电诉求工单自动流转,需要对用户用电诉求工单的关键内容进行结构化提取。因此,首先基于NLP技术实现用户用电诉求工单中的句子分割,通过对工单中形成的句子进行编码,获取到用电诉求工单被分割模型可以很简单地在任何看到标点符号的时候拆分句子。其次,对用户用电工单中出现的词汇进行标记。通过将用户用电工单文档分割成句子,再把这个句子分成不同的单词或标记(标记化)。此外,对用户用电工单上出现的被标记的词汇的词性进行预测。最后,在识别得到标记后,通过获取词汇的词类从而判断每个词汇在工单中的作用以便机器理解句子意思。基于此,获取到用户用电诉求工单上出现的“诉求时间”、“用电信息”、“用户情感”等结构化数据,以便进行工单自动派发过程。
例如:电力公司接到投诉工单的处理内容文本为:“4月2日晚,XX 供电所接到投诉工单后,供电所所长立即开展仔细的调查,调查结果是:4月2日19:05,由于突然的恶劣天气,导致变电所10 kV线路的995线和991线均同时被雷击跳闸停电,为尽快恢复供电,供电所值班人员全部外出抢修,值班室内只留有保安人员一人应急处理值班电话接听工作;由于停电面积广,停电咨询电话较多,供电所3个值班电话****3901,****3832,****6866同一时间响起(当时投诉人潘先生拨打电话****6866),保安忙于处理其他2 个值班电话,导致投诉人潘先生等待时间长,并产生焦急心理,待电话接通时,潘先生语气较急,认为保安拖延,服务态度差。”
在使用自然语言处理方法对用户用电工单进行处理的过程中,经常需要处理后面的输入依赖前面的输入这种序列关系。比如,预测工单上出现句子的下一个单词,需要记住前面的单词。因此,通过使用循环神经网络(Recurrent Neural Network, RNN)来实现该目的。作为一种按照时间序列展开的递归神经网络,循环神经网络的最主要和最重要的功能是隐藏状态,可以借助隐藏层记住序列的一些有关信息,从而解决这个问题。
循环神经网络结构如图2所示,包括输入层、隐藏层和输出层三部分。从图中可以看出,循环神经网络是按照时间序列展开的,每一时刻都有两个输入,一个是原始输入x t ,而另一个是上一时刻的隐藏输出S t-1,然后再根据这两个输入产生本时刻的输出O t 和隐藏输出S t ,计算如公式(1)和(2)所示。
在上面的单元中,隐状s t 可以被当做是当前单元的存储信息,记忆之前所有单元的信息。但是随着输入数据的增多,固定大小的s t 只能记忆一定的信息,不能记住很长时间之前的信息。当前输入和前一个隐状态输出联合计算得到输出o t 。不同于其它神经网络,循环神经网络在所有时间步都使用相同的参数 (U,W,V),减小了训练过程需要的参数量。在有些任务中,每个时间步都需要输出o t ,比如文本生成;而在另外一些任务中,只需要在最后时间步输出一个结果,不需要每个时间步都输出,“诉求时间”、“用电信息”、“用户情感”等结构化关键信息。
通过上述方式,文本中出现的“恶劣天气”、“拖延”和“态度差”等词汇与特征词库中“拖延”、“态度差”等词汇契合,匹配成功后,查找这2个词统属的标签,假设标签为“服务态度差”,则将问题标签“服务态度差”与该工单进行关联,将此作为该工单的问题点;将“天气恶劣”等词汇与原因特征词库进行匹配,匹配成功后,查找这个词统属的标签,假设标签为“客观原因”,则将此原因标签与该工单进行关联,将此作为该工单的原因点。通过模型的使用,特征词库的不断调整,也是一个不断优化的过程。
步骤3:将关键信息输入工单派发模型,实现部分用户诉求工单的自动下派;工单派发模型对能提取到关键信息的工单自动下派;针对在输入关键信息至工单派发模型后无法找到下派路径的工单流转给人工进行处理后执行步骤4;
用户用电工单中存在较多的标点符号,以及助词、副词、介词、连词等非功能性的停用词,模型训练时使用通过自然语言处理的文本数据,基于预训练算法模型的用户用电工单自动派发流程包含文本预处理、模型构建、效果评估三大环节,分类的详细流程步骤如下:
(2)构建自然语言处理后的关键信息:借助自行编撰的电力专业词典,对得到的关键信
息进行分词,其中一个工单文本为i,工单文本中的一个分词
为j。此外,采用分布式文本表示,将文本分词后的每一个词转化为向量化的数值,如“变压
器”的向量化表示为[50451,0.68607,0.59517,,…,0.68229,0.81722];
(3)特征构建:构建工单文本分类的特征词库矩阵,完成特征提取,可有效降低特征空间维数,提高运行效率、降低复杂度、提高分类准确率,特征矩阵如下:
(5)效果评估:通过对采用准确率、召回率、精度、F1 值四个指标对工单派发效果进行综合评价,逐步调整模型参数,指标符合预期为止。
步骤4:对于输入关键信息后模型无法找到下派路径的工单,采用自然语言处理的少样本学习技术,记录并分析人工干涉后的工单处置结果,形成新的自派发路径;对人工派单方式进行少样本学习,更新工单派发模型;
利用小样本学习技术对历史工单进行训练,将获得的规律作为模型保存下来是本发明所实现的核心。而事实上这个过程实际是一个文本分类的过程,主要又由以下三个步骤组成。
(1)工单提取文本的表示。为了使计算机可以理解预处理以及分词后的文本,用户
用电工单派发模型需要将词语向量化表示。在实现过程中,用户用电工单派发模型使用
word2vec 模型将词表示为一个固定维度的稠密向量,该向量的每一维都包含了词语特征。
与传统离散型的 one-hot编码方式相比,使用 word2vec 模型进行词向量化在训练速度上
更有优势。word2vec 框架包含了两种不同的子模型,分别为CBoW模型和 Skip-Gram 模型。
CBoW模型是根据文本中上下文的词来预测中心词,而 Skip-Gram 模型与之相反,通过中心
词来预测上下文的词。为实现词向量的表示,在发明的实现过程中是采用CBoW模型。CBoW是
一个三层的模型结构,如图3所示。定义输入层到隐藏层的权值矩阵为,隐藏层到
输出层的权值矩阵,其中,n表示词向量的维度,它和隐藏层神经元的个数相同,表示词汇表的大小。同样,当一个词w t 是该模型的输出时,矩阵 U 的第 j行就是该词的
嵌入向量,记为u j 。假设中心词为w t ,窗口为m,则输入的词则是以w t 为中心的上下文词:
其中,输入词都以 one-hot 向量的形式表示,通过将输入词和权值矩阵V 相乘,可以得到每一个词所对应的词向量表示:
由于CBoW模型需要将上下文的词同时作为输入送入网络进行训练,所以需要对窗口内m 个输入词向量计算一次均值,即:
最后将获得的词向量均值与权值矩阵U 相乘,生成一个分值向量:
的词向量越来越相似,可以获得更高的分数。
最后,使用softmax激活函数将分值转换成概率:
在实际训练中,神经网络希望训练获得的y与实际样本数据的中心词w t 尽可能的相近,所以定义交叉熵损失函数进行反向传播的训练,如公式所示:
(2)工单特征提取。中文语句的特征主要体现在词与上下文的局部相关性,用户用电工单派发模型在实现过程中选用TextCNN来对词向量进行特征提取,该算法是利用卷积神经网络对文本的词向量进行特征抽取的算法。如果分解后的词向量表示为一个D维向量,则一句长度为 L 的文本可以表示为一个 L×D的矩阵。为了从一维卷积中获取不同的特征向量,我们使用可变宽度且大小为N×D的卷积核对该文本进行特征提取,这样每一个卷积核都会输出L-N+1个特征向量。将每一组卷积核提取到的特征向量的最大值级联可以得到该组卷积核的最终特征向量,再将每一组卷积核最终特征向量的最大值级联可以得到该文本的最终特征向量。
(3)分类器。由于用户用电工单分类是一种互斥的多类别分类,用户用电工单派发模型选择将所有文本的特征向量输入基于多项式分布建模的softmax分类器进行分类判定,输出每一个文本对应的类别并与已有的标签进行对比。其中,softmax作为逻辑回归模型在多分类问题上的推广,当分类数为2时会退化为逻辑分类问题。在实现对用户用电工单进行分类的过程中,类标签y可以取两个以上的值,softmax所遵循的概率分布表示为(10),其中z分类器上一层的输出,softmax的输入维度为C,y i 为与此对象属于第c类的概率:
通过验证分类结果和标注结果,进而不断反馈调整模型的参数,经过大量迭代的训练后保存分类准确率最高的模型及其权重参数。
此外,通过收集每日用户用电工单处理人工***增量同步办结的工单数据,其内容主要包括用户用电工单描述及解决方案。利用最新的用户用电工单数据,可以定期重新训练并更新现有工单派发模型。同时已办结工单的最终处理结果可以反馈给用户用电工单派发模型,结合先前推荐的结果统计出当前用户用电工单派发模型的实际准确率并分析派单错误可能的原因。
步骤5:将步骤2的获得的用户用电关键信息输入经过更新的工单派发模型,进一步实现用户诉求工单的自动下派。为实现对工单派发模型的更新,利用随机森林算法来实现新旧模型之间的更新。具体而言,Bagging算法是集成算法的重要成员之一,其主要思想是:假设训练数据集D包含N个样本,从中随机抽取一个样本放入集合T set_1,然后将这个样本重新添加至初始数据集D后,再次重复以上采样操作,直至T set_1中存在N个样本,使得初始数据集D中某个样本可能在T set_1中重复出现多次,或根本没有出现,这种有放回的采样方法称为Bootstrap Sampling。按照以上步骤,我们得到num个釆样后数据集T set_1,T set_2, ...,T set_num ,然后基于每个数据集训练得到一个基学***均值得到最终结果。在算法中,Bootstrap采样后使得数据集T set_i中仅含有约63%的初始数据,剩余未含有的37%称为袋外(Out-of-bag,OOB)数据,可用这部分数据对基学***均值,即得到Bagging的泛化误差袋外估计值。随机森林算法是将决策树作为基学习器的Bagging集成的扩展。假设训练数据集为D,样本个数为N,特征个数为M,决策树棵树为num,则具体过程为:
(1)对初始数据集D进行Bootstrap采样,形成一个样本容量为N的新训练数据集,以此生成一棵决策树。
(2)在决策树生成过程中,指定一个参数mtry<<M,每一次***从M个特征中随机抽取mtry个特征作为候选子集,再从中选择最优特征进行***。一般推荐选择mtry=sqrt(M)。此处如果设置mtry=1,则完全随机选择属性***。
(3)重复(1)、(1)步,直至生成num棵决策树。
(4)测试过程中,num棵决策树投票决定样本的最终分类类别。
随机森林算法通过集成多个不稳定的决策树模型,提升总体预测准确率,同时,加入对样本和特征的随机扰动,生成多样性的决策树,增加决策树之间的差异性,有效提高算法的泛化性能。
本发明未涉及部分与现有技术相同或可采用现有技术加以实现。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (9)
1.基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,其特征在于:其步骤包括:
步骤1:利用RPA提取用户用电诉求工单的受理内容及用户信息;构建工单派发模型;
步骤2:采用NLP信息抽取方法,将不规则的受理内容文本结构化,提取用户用电诉求工单的关键信息;
步骤3:将关键信息输入工单派发模型,工单派发模型对能提取到关键信息的工单自动下派;针对在输入关键信息至工单派发模型后无法找到下派路径的工单流转给人工进行处理后执行步骤4;
步骤4:采用自然语言处理的少样本学习方法,记录并训练人工派单的工单处置结果,形成新的自派发路径,对人工派单方式进行少样本学习,更新工单派发模型;
步骤5:将步骤2的获得的关键信息输入经过更新的工单派发模型,实现用户用电诉求工单的自动下派。
2.根据权利要求1所述的基于NLP信息萃取与少样本自学***台提供的工单受理时间、故障区域、故障所在线路的基本信息;反映客户诉求信息的投诉受理记录内容和投诉处理过程记录。
3.根据权利要求1所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,其特征在于:所述步骤2具体为:
基于NLP技术实现用户用电诉求工单中的句子分割,通过对工单中形成的句子进行编码,拆分句子;
对工单中出现的词汇进行标记;
对被标记的词汇的词性进行预测;
判断每个词汇在工单中的作用,获取到用户用电诉求工单上出现的结构化数据,得到关键信息。
4.根据权利要求3所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,其特征在于:对被标记的词汇的词性进行预测时,具体使用循环神经网络来处理后面的输入依赖前面的输入的序列关系。
5.根据权利要求3所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,其特征在于:结构化数据包括诉求时间、用电信息和用户情感。
6.根据权利要求1所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,其特征在于:所述步骤3还包括训练工单派发模型的步骤:基于关键信息,构建工单文本分类的特征词库矩阵,完成特征提取;以特征词库矩阵作为工单派发模型输入对工单派发模型进行分类训练。
7.根据权利要求1所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,其特征在于:所述利用小样本学习方法对工单进行训练的方法为:
工单派发模型使用 CBoW模型将词表示词向量;
工单派发模型采用TextCNN来对词向量进行特征提取输出文本的特征向量;
工单派发模型将所有文本的特征向量输入基于多项式分布建模的softmax分类器进行分类判定,输出每一个文本对应的类别并与已有的标签进行对比;迭代训练得到分类更新后的工单派发模型。
8.根据权利要求1所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,其特征在于:所述步骤4中,对人工派单方式进行少样本学习包括因素处置行为的学习,因素处置行为包括:用户所在台区、用户所在社区和工单处理部门。
9.根据权利要求1所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法,其特征在于:所述步骤4中,利用随机森林算法来实现新旧模型之间的更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011406933.2A CN112419096B (zh) | 2020-12-04 | 2020-12-04 | 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011406933.2A CN112419096B (zh) | 2020-12-04 | 2020-12-04 | 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112419096A true CN112419096A (zh) | 2021-02-26 |
CN112419096B CN112419096B (zh) | 2022-08-23 |
Family
ID=74830284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011406933.2A Active CN112419096B (zh) | 2020-12-04 | 2020-12-04 | 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112419096B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077118A (zh) * | 2021-03-01 | 2021-07-06 | 广东电网有限责任公司广州供电局 | 一种基于互联网智能推送技术的工单推送方法 |
CN113657627A (zh) * | 2021-08-17 | 2021-11-16 | 国网江苏省电力有限公司信息通信分公司 | 电力通信网中缺陷单生成方法和*** |
CN113836898A (zh) * | 2021-09-23 | 2021-12-24 | 国网江苏省电力有限公司淮安供电分公司 | 一种电力***自动派单方法 |
CN116308219A (zh) * | 2023-05-24 | 2023-06-23 | 安徽思高智能科技有限公司 | 一种基于Tranformer的生成式RPA流程推荐方法及*** |
CN117172508A (zh) * | 2023-10-31 | 2023-12-05 | 无锡容智技术有限公司 | 一种基于城运投诉工单识别的自动派单方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN109783637A (zh) * | 2018-12-12 | 2019-05-21 | 国网浙江省电力有限公司杭州供电公司 | 基于深度神经网络的电力检修文本挖掘方法 |
US20190155944A1 (en) * | 2017-11-23 | 2019-05-23 | Infosys Limited | Method and system for key phrase extraction and generation from text |
CN111159349A (zh) * | 2019-12-30 | 2020-05-15 | 佰聆数据股份有限公司 | 基于自然语言处理技术的电力诉求工单自动分类方法、***、存储介质及计算机设备 |
-
2020
- 2020-12-04 CN CN202011406933.2A patent/CN112419096B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
US20190155944A1 (en) * | 2017-11-23 | 2019-05-23 | Infosys Limited | Method and system for key phrase extraction and generation from text |
CN109783637A (zh) * | 2018-12-12 | 2019-05-21 | 国网浙江省电力有限公司杭州供电公司 | 基于深度神经网络的电力检修文本挖掘方法 |
CN111159349A (zh) * | 2019-12-30 | 2020-05-15 | 佰聆数据股份有限公司 | 基于自然语言处理技术的电力诉求工单自动分类方法、***、存储介质及计算机设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077118A (zh) * | 2021-03-01 | 2021-07-06 | 广东电网有限责任公司广州供电局 | 一种基于互联网智能推送技术的工单推送方法 |
CN113657627A (zh) * | 2021-08-17 | 2021-11-16 | 国网江苏省电力有限公司信息通信分公司 | 电力通信网中缺陷单生成方法和*** |
CN113657627B (zh) * | 2021-08-17 | 2024-01-12 | 国网江苏省电力有限公司信息通信分公司 | 电力通信网中缺陷单生成方法和*** |
CN113836898A (zh) * | 2021-09-23 | 2021-12-24 | 国网江苏省电力有限公司淮安供电分公司 | 一种电力***自动派单方法 |
CN116308219A (zh) * | 2023-05-24 | 2023-06-23 | 安徽思高智能科技有限公司 | 一种基于Tranformer的生成式RPA流程推荐方法及*** |
CN117172508A (zh) * | 2023-10-31 | 2023-12-05 | 无锡容智技术有限公司 | 一种基于城运投诉工单识别的自动派单方法及*** |
CN117172508B (zh) * | 2023-10-31 | 2024-02-27 | 无锡容智技术有限公司 | 一种基于城运投诉工单识别的自动派单方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112419096B (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112419096B (zh) | 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN110019843A (zh) | 知识图谱的处理方法及装置 | |
CN113312501A (zh) | 基于知识图谱的安全知识自助查询***的构建方法及装置 | |
CN111475655B (zh) | 一种基于配电网知识图谱的电力调度文本实体链接方法 | |
CN109165275B (zh) | 基于深度学习的智能变电站操作票信息智能搜索匹配方法 | |
CN112948541B (zh) | 基于图卷积网络的金融新闻文本情感倾向分析方法 | |
CN112989761B (zh) | 文本分类方法及装置 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN107145573A (zh) | 人工智能客服机器人的问题解答方法及*** | |
CN114781392A (zh) | 一种基于bert改进模型的文本情感分析方法 | |
WO2021036439A1 (zh) | 一种信访问题答复方法及装置 | |
CN113326377A (zh) | 一种基于企业关联关系的人名消歧方法及*** | |
JP2019153093A (ja) | フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN113065341A (zh) | 一种环境类投诉举报文本自动标注和分类方法 | |
CN111651602A (zh) | 一种文本分类方法及*** | |
CN112988970A (zh) | 一种服务于智能问答***的文本匹配算法 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及*** | |
CN115510180A (zh) | 一种面向多领域的复杂事件要素抽取方法 | |
CN117172508B (zh) | 一种基于城运投诉工单识别的自动派单方法及*** | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN113869040A (zh) | 一种电网调度的语音识别方法 | |
CN117909918A (zh) | 一种基于融合特征的监护仪故障预测方法和*** | |
CN113378024A (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |