CN115238867B - 一种基于客服非结构化数据智能识别的电力故障定位方法 - Google Patents

一种基于客服非结构化数据智能识别的电力故障定位方法 Download PDF

Info

Publication number
CN115238867B
CN115238867B CN202210895103.3A CN202210895103A CN115238867B CN 115238867 B CN115238867 B CN 115238867B CN 202210895103 A CN202210895103 A CN 202210895103A CN 115238867 B CN115238867 B CN 115238867B
Authority
CN
China
Prior art keywords
fault
energy spectrum
customer service
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210895103.3A
Other languages
English (en)
Other versions
CN115238867A (zh
Inventor
周辰南
王建永
陈非
黄锋涛
洪雨天
徐培瑶
林超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Electric Power Information Technology Co Ltd
Original Assignee
Guangdong Electric Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Electric Power Information Technology Co Ltd filed Critical Guangdong Electric Power Information Technology Co Ltd
Priority to CN202210895103.3A priority Critical patent/CN115238867B/zh
Publication of CN115238867A publication Critical patent/CN115238867A/zh
Application granted granted Critical
Publication of CN115238867B publication Critical patent/CN115238867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
    • Y04S10/52Outage or fault management, e.g. fault detection or location

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种基于客服热线非结构化数据识别的电力故障定位方法,分析并识别语音客服热线获取的非结构化语音数据,通过用户语音内容提取与故障发生位置相关的信息,并结合来电的已知信息综合实现故障定位,提高故障定位的效率,降低人工工作量。与基于传感器的结构化数据定位方法相比,本发明以用户报障为数据源,可以发现传感器难以发现的隐性故障,避免传感器的误报情形,有利于快速、准确的对客户端故障做出响应。此外,本发明方法在对语音进行分析时,不局限于单一客户的语音,而是将大量用户的语音作综合分析,提高了***对噪声的鲁棒性;本发明方法不直接识别用户语音的内容,而是通过语音的综合对比实现分析,有助于保护客户隐私。

Description

一种基于客服非结构化数据智能识别的电力故障定位方法
技术领域
本发明涉及电力故障定位领域,特别的涉及一种基于客服热线非结构化数据识别的电力故障定位方法。
背景技术
故障解决是电力电网部门服务客户的重要内容,是电力客服热线承担的主要责任之一。电力行业是承载国家经济命脉的重要基础行业,电力故障具有次数频、影响大、难定位等诸多难题。由于电网设备数量多、运行复杂,对电力故障进行定位和处理的难度大,由于定位效率低,延误了故障的处理,从而导致故障范围扩散、故障破坏加重的事件时有发生。为此,第一时间对故障进行定位是电网安全稳定运行的首要任务和必要手段。
随着信息技术的发展,基于大数据和计算机智能分析技术的智能***在工业上取得了广泛应用,在电力行业也取得了推广。现有智能***被用于客服***的智能报修、智能顾问、满意度调查等方面,提高了企业服务客户的效率,提升了客户的满意度。此外,也有一些智能***被用于运营维护方面,例如使用大规模终端传感器监测设备运行状态,将传感器采集数据通过无线网络等传输到后台,实施集中分析,发现潜在故障。智能***在电力行业的应用取得了一定效果。
智能***在电力行业的应用按数据类型分为结构化数据和非结构化数据两类。结构化数据是指数据本身具备一定的确定结构,例如温度传感器采集到温度数据,电流传感器采集到电流等,这些数据的特点是具备共同属性,因而容易归类,便于分析,如前述第二类应用。非结构化数据是指数据本身结构不确定,或者不容易归为确定的类别,例如语音、图像,很难评估两幅图像是否相似,或者两段话的含义是否相同,因此非结构化数据不便于实施分析。新的智能分析技术可以实现对语音、图像等非结构化数据的分析,并完成一定的任务,例如前述第一类智能客服应用。然而由于非结构化数据的复杂性,此类应用在实施时多针对单一客户数据,以降低数据的复杂度,但在防止噪声(比如故意打电话的用户)和隐私保护方面存在问题。因此,电力行业目前还是以对结构化数据分析为主,处理分析大规模非结构化数据、特别是在线分析大规模非结构化数据的电力行业应用案例较少,鲜见公开报道。
现有技术中虽然也有人提出使用语音处理算法来识别客户语音信息,但由于算法复杂、识别准确率低,因此通常只作为辅助手段,识别出的内容还需要交给人工分析判断,不能自动进行故障位置定位。也有一些现有技术提出根据客户语音内容进行定位,这样全部依赖于客户报告的位置,有时也会因为误报等问题导致定位错误。面对大量客户同时报障时,运维人员只能逐个排查,耗时耗力。而且现有技术提取过多客户信息也会造成非必要的隐私泄露。
因此,如何对客服的非结构化数据进行识别、分类,并利用其进行准确定位是亟待解决的技术问题。
发明内容
本发明创新的提出一种基于客服热线非结构化数据识别的电力故障定位方法,分析并识别语音客服热线获取的非结构化语音数据,通过用户语音内容提取与故障发生位置相关的信息,并结合来电的已知信息综合实现故障定位,提高故障定位的效率,降低人工工作量。电话语音客服热线报障是电力用户故障报修的主要渠道,也是最广泛使用的渠道。与基于传感器的结构化数据定位方法相比,本发明所述方法以用户报障为数据源,可以发现传感器难以发现的隐性故障,避免传感器的误报情形,有利于快速、准确的对客户端故障做出响应。此外,本发明方法在对语音进行分析时,不局限于单一客户的语音,而是将大量用户的语音作综合分析,提高了***对噪声的鲁棒性;本发明方法不直接识别用户语音的内容,而是通过语音的综合对比实现分析,有助于保护客户隐私。
一种基于客服热线非结构化数据识别的电力故障定位方法,包括:
步骤1:语音客服热线的非结构化语音数据获取与预处理:获取用户报故障的录音,并进行空白去除、音素切分、音素频域转换、计算音素的能量谱,最终由音素的能量谱En(m)组成向量,称为音素的特征向量;
步骤2:基于音素特征向量的报障信息激活检测:
在能量谱集合上作滑动窗口处理,获得能量谱矩阵;
将能量谱矩阵作为神经网络模型的输入,神经网络模型的输出为是否含有报障关键词;
其中神经网络的激励函数为:
Figure BDA0003769048750000031
步骤3:故障记录、分析和定位方法
故障记录模块收到步骤2输出含有报障关键词,判定发生一起报障,记录下报障的信息,并查询报障地理位置,将地理坐标给故障定位模块;
当故障记录模块在一段时间内连续收到报障数量超过阈值F,则故障定位模块根据报障的地理坐标分析发生故障的位置:
设故障位置数γ=2;
S31、任意选取F个地理位置中的γ个参考位置,记为
Figure BDA0003769048750000032
利用/>
Figure BDA0003769048750000033
计算得到集合/>
Figure BDA0003769048750000034
和/>
Figure BDA0003769048750000035
其中/>
Figure BDA0003769048750000036
表示F个地理位置中与/>
Figure BDA0003769048750000037
的距离比与其它位置更近的位置的集合,/>
Figure BDA0003769048750000038
表示F个地理位置中与/>
Figure BDA0003769048750000039
的距离比与其它位置更近的位置的集合;
S32、计算集合
Figure BDA00037690487500000310
和/>
Figure BDA00037690487500000311
的位置中心/>
Figure BDA00037690487500000312
S33、利用
Figure BDA00037690487500000313
替换S31步骤中的/>
Figure BDA00037690487500000314
重复S31-S32步骤迭代,直至收敛;
S34、取迭代步骤收敛并停止时获得的最终集合
Figure BDA00037690487500000315
找到其中包含元素最多的一个集合,计算其所有元素的均值Mγ;判断如下条件C1是否满足:
C1:如果|Mγ-M|<TM,则在地理位置数据库中查找与Mγ位置距离最近的统计单元,并发布一条该单元发生故障的信息,供故障处理单位参考;其中TM是经验阈值,M是所有故障点的位置平均值;
如果|Mγ-M|>TM,取参数γ=γ+1,重复步骤S31-S33,直至满足条件C1,或γ=5。
本发明的发明点及技术效果:
1、本发明创新的提出一种基于客服热线非结构化数据识别的电力故障定位方法,实现对语音客服热线非结构化语音数据的分析和识别,获取故障信息,实现自动报障,通过对大量故障信息的进一步分析,实现故障的定位,有助于更早、更精确的发现电力故障,提升电网运行安全。
2、优化了非结构化语音数据获取与预处理方法,从电话语音客服热线获取用户接入报障的录音,将原始声音信号经采样、量化后转换为数字音频,再通过特定的预处理方法转换为特征向量,将其作为语音信息的识别特征,可以高效识别所需特定报障信息的声音特征,从而使得可以在较小的数据计算量下在神经网络处理时能够获得更加准确的识别结果。
3、优化了神经网络模型结构,例如激励函数等,使得故障信息能够被及时、准确提取,保证了故障识别的快速和准确,并且与同类功能智能识别方法相比,隐私泄露风险显著降低。
4、利用神经网络识别结果通过集合迭代方法进行故障定位,能够实现故障位置的全自动化输出,且定位准确、快速,便于运维人员维修解决,并且采用规模化的用户报障记录降低单一用户数据噪声的影响。
附图说明
图1为本发明基于客服热线非结构化数据识别的电力故障定位方法的流程图。
具体实施方式
如图1所示,基于客服热线非结构化数据识别的电力故障定位方法包括:
步骤1:语音客服热线的非结构化语音数据获取与预处理方法
从电话语音客服热线获取用户接入报故障的录音,将原始声音信号经采样、量化后转换为数字音频,再通过预处理方案转换为特征向量,用于在后续方法中实施进一步分析。
用户致电客服热线并选择报障后,提示用户描述故障情况。用户挂机后,将前述录音内容输入预处理模块做处理。
S11、预处理模块根据用户来电信息判断用户是否为黑名单用户,如果属于黑名单用户,则自动丢弃此次通话录音,流程结束。否则继续。
S12、预处理模块根据用户来电信息和近期客服热线的来电记录判断用户是否在近期有过重复来电,如果有,将用户非首次来电通话录音置信权值调低。
S13、预处理模块对通话录音进行人声过滤,将录音的原始声音信号通过带通滤波器,使远低于人声频率和远高于人声频率的声音被过滤,过滤后的声音信号人声更为突出。
S14、对前序步骤处理后的声音信号作采样、量化,形成数字音频,由若干对原始声音的时序采样样本组成。
S15、对数字音频作如下处理,去掉空白声区。
计算整段数字音频的平均强度。
将空白声区划分为若干小段,每一小段长度为50ms,使足以包含后续步骤中可识别的音素,且为音素长度的2倍。
测试上述每一小段数字音频,如果该段数字音频强度小于10分贝,或该段数字音频强度小于整段音频平均强度超过30分贝,将该小段音频从整段音频中去除。
留下的若干音频小段按时间顺序重新拼接成一段不超过原始时长的数字音频。
S16、将S15获得的一段数字音频按照下列方法切成若干音素。
令s(t)表示S15获得的整段数字音频,r表示采样间隔,一般为r=1/16000=6.25*10-5秒.用于声音特征向量表达的声音基元称为音素,是一小段连续采样样本的集合,Δ表示音素时长,δ=400表示音素包含的采样样本数,Δ=δr=25毫秒。Ω表示特征偏移窗口的时长,Ω=10毫秒。特征偏移窗口小于音素时长,使音素的集合能够捕捉更为丰富的声音特征,提高识别性能。
S17、根据音素时长、特征偏移窗口时长将数字音频分割为若干音素。
sn(t)=s(t+nΩ)…(1)
n表示分割后音素的序号,n=0,1,...。
S18、求取分割后的音素的能量谱:
Figure BDA0003769048750000051
其中,Sn(η)表示sn(t)的频域变换:
Figure BDA0003769048750000052
Km(η)表示带通滤波器:
Figure BDA0003769048750000053
由音素的能量谱En(m)组成的向量称为音素的特征向量。
将声音信号切分为音素的局部时间序列,以提取声音信号的局部周期性特征;通过设置矩形带通滤波器过滤特定频率上的噪声,可以使信号的局部周期性特征更加明显,与经典梅尔滤波器组相比的计算效率更高。两者结合组成音素的特征向量,作为语音信息的识别特征,可以高效识别所需特定报障信息的声音特征。
步骤2:基于音素特征向量的报障信息激活检测方法
根据音素特征向量检测输入音频中是否包含报告故障的内容,当发现有报障内容时激活故障记录模块。
音素作为声音识别的基本单元,用于表示可被识别的最小声音单元。若干音素联合可以表示具有一定语义的语音。用户通过客服热线报障时,会说某些关键词如“停电”、“电压不稳”等。建立机器学习模型对这些关键词语音进行学习,使模型可以自主识别一段语音中是否包含关键词,实现发现报障信息、激活故障记录的功能。
上述模型仅对关键词的存在状态进行识别,而不识别语音的具体内容,作为一种附加效果,与其它智能模型相比,显著降低了客户信息泄露的风险。
独立的音素反映声音特征,但不足以表达具有含义的语音,因此将一段连续的音素集合起来实施报障信息检测。
一段原始数字音频经步骤1处理后得到若干音素,其能量谱集合为{En(m)}。在能量谱集合上作滑动窗口处理,每次滑动可以获得W≥1个能量谱:
Figure BDA0003769048750000061
Figure BDA0003769048750000062
为一矩阵,其行数、列数分别为/>
Figure BDA0003769048750000063
W为能量谱矩阵的窗口大小。
一段原始数字音频经处理后可获得多个重叠的能量谱矩阵,每个矩阵对应于一段时间的声音信号。每个矩阵作为模型的输入要素,用于检测声音中是否包含关键词。能量谱矩阵的窗口大小W根据经验值选取,过小的窗口会导致窗口无法覆盖完整关键词,造成检测性能下降,过大的窗口增加计算量,也容易造成过拟合。经过实验优选W=9。
建立神经网络模型如下。
Figure BDA0003769048750000064
其中
Figure BDA0003769048750000065
n为任一音素序号,表示任一能量谱矩阵,m,θ为能量谱矩阵的元素坐标,/>
Figure BDA0003769048750000066
表示矩阵卷积窗,提取能量谱矩阵的局部特征,/>
Figure BDA0003769048750000067
表示矩阵卷积窗的编号,/>
Figure BDA0003769048750000068
表示256个独立卷积窗口,选取多个独立卷积窗口,使模型可以对不同形态的语音特征进行建模;u,∈表示卷积窗内坐标,与能量谱矩阵坐标联合表示以能量谱矩阵某个坐标为基准的偏移,-2≤u,∈≤2定义了卷积窗大小为5*5,β1表示线性偏置参数。σ为一非线性函数,定义如下:
Figure BDA0003769048750000071
非线性函数σ(x)的作用是使识别模型能够对非线性映射进行建模。采用分段指数函数建立非线性模型,可以抑制输入信号的背景人声,即非报障人本人的语音信号,可以进一步提高识别性能。
进一步的,定义:
Figure BDA0003769048750000072
其中,
Figure BDA0003769048750000073
表示矩阵卷积窗,提取能量谱矩阵的局部特征,/>
Figure BDA0003769048750000074
表示矩阵卷积窗的编号,取值与式(5)相同,u,∈表示卷积窗内坐标,与(5)不同的是调整了卷积窗u坐标的范围,使模型可以对能量谱矩阵m坐标下不同尺度的特征建模,β2表示线性偏置参数。σ定义如(6)。
进一步的,定义:
Figure BDA0003769048750000075
其中,
Figure BDA0003769048750000076
表示矩阵卷积窗,提取能量谱矩阵的局部特征,/>
Figure BDA0003769048750000077
表示矩阵卷积窗的编号,取值与式(5)相同,u,∈表示卷积窗内坐标,β3表示线性偏置参数。/>
进一步的,定义:
Figure BDA0003769048750000078
其中,
Figure BDA0003769048750000079
表示矩阵卷积窗,提取能量谱矩阵的局部特征,/>
Figure BDA00037690487500000710
表示矩阵卷积窗的编号,取值与式(5)相同,u,∈表示卷积窗内坐标,β4表示线性偏置参数。
进一步的,定义:
Figure BDA0003769048750000081
其中,
Figure BDA0003769048750000082
表示矩阵卷积窗,提取能量谱矩阵的局部特征,/>
Figure BDA0003769048750000083
表示矩阵卷积窗的编号,取值与式(5)相同,u,∈表示卷积窗内坐标,β5表示线性偏置参数。
由于不同类型关键词的语音信号周期不同,因此其所对应的时序特征的卷积窗大小不同。式(5)、(7)-(10)采用不同大小的卷积窗对能量谱矩阵的特征进行建模,以便增加模型的适应性,提取不同类型的报障关键词。
进一步的,定义:
Figure BDA0003769048750000084
上式中,j,k分别表示与m,θ取值范围相同的自由变量;ω6(j,k,q)表示
Figure BDA0003769048750000085
与H6(q)对应的线性权值.β6表示线性偏置参数。σ为式(6)定义函数。H6(q)是神经网络的全连接层,为512维向量。
通过全连接层建立不同关键词之间的相关性,使模型可以利用关键词之间的相关性正确判别包含报障目的的语音,提高识别的性能。
定义神经网络的输出层:
定义:
Figure BDA0003769048750000086
上式y表示神经网络模型的输出,ψ(j)表示线性权值,对应于H6(q)的各元素。β7表示线性偏置参数。
准备不同人员、不同报障关键词的录音,并按前述步骤生成能量谱矩阵,作为学习正样本,正样本的输出标记为1;准备不包含关键词的录音,按前述步骤生成能量谱矩阵,作为学习负样本,负样本的输出标记为0.设样本的真实输出为
Figure BDA0003769048750000087
根据模型的预测输出为y,定义:
Figure BDA0003769048750000088
式中a,b>0用于防止噪声与局部特征混淆,提高模型的稳定性,优选a=3,b=1/3。采用BP算法并根据(13)定义的代价函数迭代优化神经网络模型(5)-(12),求取各层中的权值参数和偏置参数,完成学习。
神经网络参数学习完成后,从用户拨打客服热线的语音中按时序滑动提取能量谱矩阵,输入神经网络模型,判断窗口音频是否包含关键词,如果输出y>0.6,认为该段语音包含关键词,激活故障记录模块。
步骤3:故障记录和定位方法
故障记录模块收到步骤2模型的报障信息,判定发生一起报障,记录下报障的信息,并根据报障信息(如手机号码)在客户信息库查询对应的登记地理位置,查询完成后返回二维的地理坐标给故障定位模块。
当故障记录模块在一段时间内(如T=10分钟)连续收到超过F起报障(如F>20),则激活故障定位模块,根据报障的地理坐标分析发生故障的位置。
取参数γ=2,对F起报障的地理位置进行测试:
令M表示F起报障的地理位置的平均值。
S31、任意选取F个地理位置中的γ个参考位置,记为
Figure BDA0003769048750000091
对于F个地理位置,计算:
Figure BDA0003769048750000092
式中f表示F个地理位置中某一个,
Figure BDA0003769048750000093
表示前述任意选取的γ个参考位置,
Figure BDA0003769048750000094
表示F个地理位置中与/>
Figure BDA0003769048750000095
的距离比与其它参考位置更近的位置的集合,/>
Figure BDA0003769048750000096
表示F个地理位置中与/>
Figure BDA0003769048750000097
的距离比与其它参考位置更近的位置的集合,||表示几何欧氏距离,/>
Figure BDA0003769048750000098
表示集合中任意元素满足某条件。
S32、进一步的,计算:
Figure BDA0003769048750000099
其中Size含义为集合的大小吧,也就是集合元素的个数。
S33、将S31中
Figure BDA00037690487500000910
分别替换为(15)的结果/>
Figure BDA00037690487500000911
并重新按(14)计算,获得
Figure BDA00037690487500000912
如果
Figure BDA00037690487500000913
与其前一步获得的集合/>
Figure BDA00037690487500000914
均对应相等(或小于某个阈值),则前往步骤S34,否则重复步骤S32、S33,直至符合对应相等条件,即迭代过程最终收敛。
S34、取S32、S33的迭代步骤收敛并停止时获得的最终集合
Figure BDA0003769048750000101
Figure BDA0003769048750000102
找到其中包含元素最多的一个集合,计算其所有元素的均值Mγ。判断如下条件C1是否满足。
C1:如果|Mγ-M|<TM,则在地理位置数据库中查找与Mγ位置距离最近的统计单元(小区、工厂、变电站等具有现实管理意义的场所),并发布一条该单元发生故障的信息,供故障处理单位参考。TM是阈值,可根据经验或大量实验获取;M是所有故障点的位置平均值。故障处理单位根据发生故障的位置信息,结合电力线路和设备运行图即可相对准确判断哪一线路或哪一设备发生的故障。
如果|Mγ-M|>TM,取参数γ=γ+1,重复步骤S31-S33,直至满足条件C1,或γ=5。
采用上述迭代方法分析故障发生的位置,避免单一报障信息造成的误差,当故障发生时,根据故障发生的分布来定位故障发生的位置,可以有效降低虚警率。
通过对大量报障信息进行统计,自动定位故障发生的地理位置,提高电力故障定位的效率,降低人工工作量。
本发明提出一种基于客服热线非结构化数据识别的电力故障定位方法,采用智能非结构化数据识别、分析方法,通过对语音平台客户报障语音进行智能识别,定位发生故障的位置,提高电力故障发现的效率。通过本发明方法应用前后的运行数据表明,本发明方法将平均故障发现时间由0.6小时降低到0.2小时,报障准确率由30%提高到78%,严重事故发生率由1.2%降低到0.8%,取得显著应用效果。
Figure BDA0003769048750000103
本发明的***结构
预处理模块:用于对语音客服热线的非结构化语音数据进行预处理:获取用户报故障的录音,并进行空白去除、音素切分、音素频域转换、计算音素的能量谱,最终由音素的能量谱En(m)组成向量,称为音素的特征向量;
报障信息激活检测模块:用于在能量谱集合上作滑动窗口处理,获得能量谱矩阵;将能量谱矩阵作为神经网络模型的输入,神经网络模型的输出为是否含有报障关键词;
故障记录模块:故障记录模块用于在收到报障关键词时,判定发生一起报障,记录下报障的信息,并查询报障地理位置,将地理坐标给故障定位模块;
故障定位模块:用于在当故障记录模块在一段时间内连续收到报障数量超过阈值F时,根据报障的地理坐标分析发生故障的位置。

Claims (10)

1.一种基于客服非结构化数据智能识别的电力故障定位方法,其特征在于:
步骤1:语音客服热线的非结构化语音数据获取与预处理:获取用户报故障的录音,并进行空白去除、音素切分、音素频域转换、计算音素的能量谱,最终由音素的能量谱En(m)组成向量,称为音素的特征向量;其中:
Figure FDA0004217631370000011
Figure FDA0004217631370000012
Figure FDA0004217631370000013
其中,γ表示音素包含的采样样本数;
其中,Km(η)表示带通滤波器;sn(t)为音素;Sn(η)表示sn(t)的频域变换;
步骤2:基于音素特征向量的报障信息激活检测:
在能量谱集合上作滑动窗口处理,获得能量谱矩阵;
将能量谱矩阵作为神经网络模型的输入,神经网络模型的输出为是否含有报障关键词;
其中神经网络的激励函数为:
Figure FDA0004217631370000014
步骤3:故障记录、分析和定位方法
故障记录模块收到步骤2输出含有报障关键词,判定发生一起报障,记录下报障的信息,并查询报障地理位置,将地理坐标给故障定位模块;当故障记录模块在一段时间内连续收到报障数量超过阈值F,则故障定位模块根据报障的地理坐标分析发生故障的位置:
设故障位置数γ=2;
S31、任意选取F个地理位置中的γ个参考位置,记为
Figure FDA0004217631370000015
利用/>
Figure FDA0004217631370000016
计算得到集合/>
Figure FDA0004217631370000017
和/>
Figure FDA0004217631370000018
其中/>
Figure FDA0004217631370000019
表示F个地理位置中与/>
Figure FDA00042176313700000110
的距离比与其它位置更近的位置的集合,/>
Figure FDA00042176313700000111
表示F个地理位置中与/>
Figure FDA00042176313700000112
的距离比与其它位置更近的位置的集合;
S32、计算集合
Figure FDA0004217631370000021
和/>
Figure FDA0004217631370000022
的位置中心/>
Figure FDA0004217631370000023
S33、利用
Figure FDA0004217631370000024
替换S31步骤中的/>
Figure FDA0004217631370000025
重复S31-S32步骤迭代,直至收敛;
S34、取迭代步骤收敛并停止时获得的最终集合
Figure FDA0004217631370000026
找到其中包含元素最多的一个集合,计算其所有元素的均值Mγ;判断如下条件C1是否满足:
C1:如果|Mγ-M|<TM,则在地理位置数据库中查找与Mγ位置距离最近的统计单元,并发布一条该单元发生故障的信息,供故障处理单位参考;其中TM是经验阈值,M是所有故障点的位置平均值;
如果|Mγ-M|>TM,取参数γ=γ+1,重复步骤S31-S33,直至满足条件C1,或γ=5。
2.根据权利要求1所述的基于客服非结构化数据智能识别的电力故障定位方法,其特征在于:步骤S1中,用户致电客服热线并选择报障后,提示用户描述故障情况,用户挂机后,将前述录音内容输入预处理模块做处理。
3.根据权利要求1所述的基于客服非结构化数据智能识别的电力故障定位方法,其特征在于:步骤S1中,具体包括:
S11、预处理模块根据用户来电信息判断用户是否为黑名单用户,如果属于黑名单用户,则自动丢弃此次通话录音,流程结束,否则继续;
S12、预处理模块根据用户来电信息和近期客服热线的来电记录判断用户是否在近期有过重复来电,如果有,将用户非首次来电通话录音置信权值调低;
S13、预处理模块对通话录音进行人声过滤,将录音的原始声音信号通过带通滤波器;
S14、对前序步骤处理后的声音信号作采样、量化,形成数字音频,由若干对原始声音的时序采样样本组成;
S15、对数字音频作进行处理,去掉空白声区,留下的若干音频小段按时间顺序重新拼接成一段不超过原始时长的数字音频;
S16、将S15获得的一段数字音频切成若干音素;
S17、根据音素时长、特征偏移窗口时长将数字音频分割为若干音素;
S18、求取分割后的音素的能量谱,由音素的能量谱组成的向量称为音素的特征向量。
4.根据权利要求3所述的基于客服非结构化数据智能识别的电力故障定位方法,其特征在于:步骤S15具体包括:
计算整段数字音频的平均强度;
将空白声区划分为若干小段,每一小段长度为50ms,使足以包含后续步骤中可识别的音素,且为音素长度的2倍;
测试上述每一小段数字音频,如果该段数字音频强度小于10分贝,或该段数字音频强度小于整段音频平均强度超过30分贝,将该小段音频从整段音频中去除;
留下的若干音频小段按时间顺序重新拼接成一段不超过原始时长的数字音频。
5.根据权利要求3所述的基于客服非结构化数据智能识别的电力故障定位方法,其特征在于:步骤S16具体包括:
令s(t)表示S15获得的整段数字音频,r表示采样间隔,取r=1/16000=6.25*10-5秒.用于声音特征向量表达的声音基元称为音素,是一小段连续采样样本的集合,Δ表示音素时长,δ=400表示音素包含的采样样本数,Δ=δr=25毫秒,Ω表示特征偏移窗口的时长,Ω=10毫秒,特征偏移窗口小于音素时长。
6.根据权利要求5所述的基于客服非结构化数据智能识别的电力故障定位方法,其特征在于:步骤S17中,具体包括:
根据音素时长、特征偏移窗口时长将数字音频分割为若干音素:
sn(t)=sn(t+nΩ)…(1)
n表示分割后音素的序号,n=0,1,…。
7.根据权利要求1所述的基于客服非结构化数据智能识别的电力故障定位方法,其特征在于:步骤2中,在能量谱集合上作滑动窗口处理,获得能量谱矩阵,具体包括:
一段原始数字音频经步骤1处理后得到若干音素,其能量谱集合为{En(m)},在能量谱集合上作滑动窗口处理,每次滑动可以获得W≥1个能量谱:
Figure FDA0004217631370000031
Figure FDA0004217631370000032
为一矩阵,其行数、列数分别为/>
Figure FDA0004217631370000033
W为能量谱矩阵窗口大小。
8.根据权利要求1所述的基于客服非结构化数据智能识别的电力故障定位方法,其特征在于:W=9。
9.根据权利要求1所述的基于客服非结构化数据智能识别的电力故障定位方法,其特征在于:步骤2中,还包括建立神经网络模型,具体如下:
Figure FDA0004217631370000041
其中
Figure FDA0004217631370000042
n为任一音素序号,表示任一能量谱矩阵,m,θ为能量谱矩阵的元素坐标,/>
Figure FDA0004217631370000043
表示矩阵卷积窗,提取能量谱矩阵的局部特征,/>
Figure FDA0004217631370000044
表示矩阵卷积窗的编号,选取多个独立卷积窗口,使模型可以对不同形态的语音特征进行建模;u,∈表示卷积窗内坐标,与能量谱矩阵坐标联合表示以能量谱矩阵某个坐标为基准的偏移,-2≤u,∈≤2定义了卷积窗大小为5*5,β1表示线性偏置参数。
10.根据权利要求9所述的基于客服非结构化数据智能识别的电力故障定位方法,其特征在于:
Figure FDA0004217631370000045
表示256个独立卷积窗口。/>
CN202210895103.3A 2022-07-28 2022-07-28 一种基于客服非结构化数据智能识别的电力故障定位方法 Active CN115238867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210895103.3A CN115238867B (zh) 2022-07-28 2022-07-28 一种基于客服非结构化数据智能识别的电力故障定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210895103.3A CN115238867B (zh) 2022-07-28 2022-07-28 一种基于客服非结构化数据智能识别的电力故障定位方法

Publications (2)

Publication Number Publication Date
CN115238867A CN115238867A (zh) 2022-10-25
CN115238867B true CN115238867B (zh) 2023-06-13

Family

ID=83678109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210895103.3A Active CN115238867B (zh) 2022-07-28 2022-07-28 一种基于客服非结构化数据智能识别的电力故障定位方法

Country Status (1)

Country Link
CN (1) CN115238867B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117854506B (zh) * 2024-03-07 2024-05-14 鲁东大学 一种机器人语音智能交互***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575405A (zh) * 2014-10-08 2016-05-11 展讯通信(上海)有限公司 一种双麦克风语音激活检测方法及语音采集设备
CN111199252A (zh) * 2019-12-30 2020-05-26 广东电网有限责任公司 一种电力通信网络智能运维***的故障诊断方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599126B (zh) * 2018-12-29 2022-04-19 广州丰石科技有限公司 一种基于mel能量谱和卷积神经网络的声音故障识别方法
CN109767765A (zh) * 2019-01-17 2019-05-17 平安科技(深圳)有限公司 话术匹配方法及装置、存储介质、计算机设备
CN113284504A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
CN113626607B (zh) * 2021-09-17 2023-08-25 平安银行股份有限公司 异常工单识别方法、装置、电子设备及可读存储介质
CN114171000A (zh) * 2021-11-30 2022-03-11 广东电力信息科技有限公司 一种基于声学模型和语言模型的音频识别方法
CN114550706B (zh) * 2022-02-21 2024-06-18 苏州市职业大学 基于深度学习的智慧校园语音识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575405A (zh) * 2014-10-08 2016-05-11 展讯通信(上海)有限公司 一种双麦克风语音激活检测方法及语音采集设备
CN111199252A (zh) * 2019-12-30 2020-05-26 广东电网有限责任公司 一种电力通信网络智能运维***的故障诊断方法

Also Published As

Publication number Publication date
CN115238867A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN109256150B (zh) 基于机器学习的语音情感识别***及方法
CN107293309B (zh) 一种基于客户情绪分析提升舆情监控效率的方法
CN109615116A (zh) 一种电信诈骗事件检测方法和检测***
CN107222865A (zh) 基于可疑行为识别的通讯诈骗实时检测方法和***
CN102623009B (zh) 一种基于短时分析的异常情绪自动检测和提取方法和***
US20170278382A1 (en) Risk early warning method and apparatus
CN103258535A (zh) 基于声纹识别的身份识别方法及***
CN110930995B (zh) 一种应用于电力行业的语音识别模型
CN115238867B (zh) 一种基于客服非结构化数据智能识别的电力故障定位方法
CN112261230B (zh) 快递电话接听率考核方法、装置、设备、***及存储介质
CN108416062A (zh) 一种基于地址匹配技术的电网数据关联方法
CN109446327B (zh) 一种移动通信客户投诉的诊断方法及***
CN109274836B (zh) 一种大规模数据流***欺诈风险识别方法
CN115296933B (zh) 一种工业生产数据风险等级评估方法及***
CN112860868A (zh) 客服电话分析方法、***、设备及存储介质
Yousefi et al. Assessing speaker engagement in 2-person debates: Overlap detection in United States Presidential debates.
CN116778964A (zh) 一种基于声纹识别的变电设备故障监测***及方法
CN111508527A (zh) 一种电话应答状态检测方法、装置及服务器
CN114722191A (zh) 一种基于语义理解处理的通话自动聚类方法及***
CN117365647A (zh) 一种煤矿综合管控***
CN116828109A (zh) 一种电话客服服务质量智能评估方法及***
CN115588439B (zh) 一种基于深度学习的声纹采集装置的故障检测方法及装置
CN116153319A (zh) 一种基于声纹识别的高风险用户检测方法及***
CN114550711A (zh) 基于时频注意力网络模型的电缆周边环境声音识别方法
CN112558512A (zh) 基于大数据与物联网技术的智慧控申***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant