CN113766171A

CN113766171A - 基于ai语音控制的变电消缺远程视频会诊***及方法

Info

Publication number: CN113766171A
Application number: CN202111107614.6A
Authority: CN
Inventors: 李新海; 曾令诚; 曾庆祝; 孟晨旭; 范德和; 肖星; 林雄锋; 陈育峰; 侯伟; 闫超; 周恒�; 梁景明; 王晓强; 陶冶; 刘文平; 姚光久; 张晴晴; 卢泳茵; 蔡根满; 温焯飞
Original assignee: Guangdong Power Grid Co Ltd; Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-07

Abstract

本申请公开了一种基于AI语音控制的变电消缺远程视频会诊***及方法，其方法通过采集用户的语音信息，对语音信息进行降噪后，将语音信息分隔为多个语音段落，提取多个语音段落中的声学特征，基于预置的声学模型和语言模型对所述声学特征进行识别，以得到初始文本信息，并对初始文本信息进行分词，得到分词文本，通过预设的指令库对分词文本进行匹配，从而得到相应的控制指令，通过控制指令判断是否与外部的远程会诊主站建立视频通讯连接。从而无需物理操作，即可进行远程消缺会诊，提高了消缺效率和安全性。

Description

基于AI语音控制的变电消缺远程视频会诊***及方法

技术领域

本申请涉及配电消缺技术领域，尤其涉及一种基于AI语音控制的变电消缺远程视频会诊***及方法。

背景技术

在电力行业中，电力设施在运行时会存在各类故障与设备缺陷，如仪表失准、电气开关失效、线路老化故障等，针对以上缺陷，需组织人员日常进行维护消除，此过程即为消缺。

变电设备在消缺过程中，主要通过电话、微信、espace进行沟通，上述方式缺乏交互式视频会议专家会诊功能，存在以下问题：

1)应急指挥和检修人员依赖现场运行人员上报缺陷信息，进行消缺准备工作，如果上报信息失准，则会影响消缺进度；

2)检修人员水平不一，现场可能无法快速查出缺陷原因并消缺，导致缺陷存续时间长，影响设备安全运行；

3)应急指挥、技术技能专家不能实时精确了解现场信息，不利于远程会诊缺陷并指导检修人员消缺。

在电力***的变电供能的工作中，都会有户外工作人员定时进行供电网络查验及检修，以确保供电网络的安全稳定输送电能。

目前，户外的工作人员在进行变电消缺时，在定位、拍摄、数据上传、视频摄制、远程会诊沟通和显示屏视频成像与现场场景的切换，均需由现场工作人员手动完成，鉴于终端设备佩戴在现场工作人员的头上，工作人员也通过头戴拍摄设备或者便携设备的显示屏画面与后方进行远程会诊。

但是，在上叙的功能操作中，现场工作人员均需要通过手动物理调节，操作实体按键来实现功能的切换，这将导致增加现场工作人员在消缺工作中工作繁杂度，降低了消缺效率，同时，还增加了现场作业的安全风险。

发明内容

本申请提供了一种基于AI语音控制的变电消缺远程视频会诊***及方法，用于解决上述功能操作降低了消缺效率和安全性的技术问题。

有鉴于此，本申请第一方面提供了一种基于AI语音控制的变电消缺远程视频会诊***，包括：拾音模块、音频处理模块、AI语音模块、主控模块、通信模块和终端模块；

所述拾音模块用于采集用户的语音信息，所述语音信息包括用于控制所述终端模块的控制指令；

所述音频处理模块用于对所述语音信息进行降噪处理，还用于对所述语音信息分隔为多个语音段落；

所述AI语音模块用于提取多个所述语音段落中的声学特征，还用于基于预置的声学模型和语言模型对所述声学特征进行识别，从而得到初始文本信息；还用于对所述初始文本信息进行分词处理，得到分词文本；还用于将所述分词文本发送至所述主控模块；

所述主控模块用于基于预设的指令库对所述分词文本进行匹配，从而得到相应的控制指令，还用于将所述控制指令通过所述通信模块下发到相应的所述终端模块；

所述终端模块包括视频会诊模块，所述视频会诊模块用于根据所述主控模块下发的所述控制指令判断是否与外部的远程会诊主站建立视频通讯连接。

优选地，所述音频处理模块包括放大器、滤波器和语音分隔模块；

所述放大器用于对所述语音信息进行放大处理，还用于将放大处理后的所述语音信息发送至所述滤波器；

所述滤波器用于对所述语音信息进行降噪处理，还用于将降噪后的所述语音信息发送至所述语音分隔模块；

所述语音分隔模块用于对所述语音信息进行端点检测，还用于根据端点检测结果对所述语音信息分隔为多个语音段落。

优选地，所述语音分隔模块包括端点检测模块、分隔模块和静音过滤模块；

所述端点检测模块用于当检测到所述语音信息中的静音尺度大于预设的静音尺度阈值时，将相应的静音尺度的开始端点和结束端点作为语音端点，从而得到若干个开始语音端点和若干个结束语音端点；

所述分隔模块用于将相邻的开始语音端点和结束语音端点之间的语音信息划分为一个语音段落，从而得到多个语音段落；

所述静音过滤模块用于对多个所述语音段落进行静音过滤，从而过滤掉多的所述语音段落中的静音段落。

优选地，所述AI语音模块包括特征提取模块、声学识别模块、语言识别模块和分词模块；

所述特征提取模块用于提取多个所述语音段落中的声学特征；

所述声学识别模块用于基于预置的声学模型对所述声学特征进行匹配，得到对应的声学模板；

所述语言识别模块用于基于预置的语言模型对所述声学模板进行识别，从而得到初始文本信息；

所述分词模块用于基于预设的主题模型对所述初始文本信息进行分词处理，得到分词文本。

优选地，本方法还包括分词处理模块，用于对所述分词文本进行预处理，所述预处理的方式包括去停用词和合并同义词。

第二方面，本发明还提供了一种基于AI语音控制的变电消缺远程视频会诊方法，包括以下步骤：

采集用户的语音信息，所述语音信息包括用于控制终端模块的控制指令；

通过对所述语音信息进行降噪处理，对降噪处理后的所述语音信息分隔为多个语音段落；

提取多个所述语音段落中的声学特征，基于预置的声学模型和语言模型对所述声学特征进行识别，从而得到初始文本信息，对所述初始文本信息进行分词处理，得到分词文本；

基于预设的指令库对所述分词文本进行匹配，从而得到相应的控制指令，将所述控制指令下发到相应的所述终端模块；

通过所述终端模块根据下发的所述控制指令判断是否与外部的远程会诊主站建立视频通讯连接。

优选地，通过对所述语音信息进行降噪处理，对降噪处理后的所述语音信息分隔为多个语音段落的步骤具体包括：

通过对所述语音信息进行放大处理；

通过对放大处理后的所述语音信息进行降噪处理；

通过对所述语音信息进行端点检测，根据端点检测结果对所述语音信息分隔为多个语音段落。

优选地，通过对所述语音信息进行端点检测，根据端点检测结果对所述语音信息分隔为多个语音段落的步骤具体包括：

当检测到所述语音信息中的静音尺度大于预设的静音尺度阈值时，将相应的静音尺度的开始端点和结束端点作为语音端点，从而得到若干个开始语音端点和若干个结束语音端点；

将相邻的开始语音端点和结束语音端点之间的语音信息划分为一个语音段落，从而得到多个语音段落；

对多个所述语音段落进行静音过滤，从而过滤掉多的所述语音段落中的静音段落。

优选地，提取多个所述语音段落中的声学特征，基于预置的声学模型和语言模型对所述声学特征进行识别，从而得到初始文本信息，对所述初始文本信息进行分词处理，得到分词文本的步骤具体包括：

提取多个所述语音段落中的声学特征；

基于预置的声学模型对所述声学特征进行匹配，得到对应的声学模板；

基于预置的语言模型对所述声学模板进行识别，从而得到初始文本信息；

基于预设的主题模型对所述初始文本信息进行分词处理，得到分词文本。

优选地，本方法还包括：对所述分词文本进行预处理，所述预处理的方式包括去停用词和合并同义词。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过采集用户的语音信息，对语音信息进行降噪后，将语音信息分隔为多个语音段落，提取多个语音段落中的声学特征，基于预置的声学模型和语言模型对所述声学特征进行识别，以得到初始文本信息，并对初始文本信息进行分词，得到分词文本，通过预设的指令库对分词文本进行匹配，从而得到相应的控制指令，通过控制指令判断是否与外部的远程会诊主站建立视频通讯连接。从而无需物理操作，即可进行远程消缺会诊，提高了消缺效率和安全性。

附图说明

图1为本申请实施例提供的一种基于AI语音控制的变电消缺远程视频会诊***的结构示意图；

图2为本申请实施例提供的一种基于AI语音控制的变电消缺远程视频会诊方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本发明提供的一种基于AI语音控制的变电消缺远程视频会诊***，包括：拾音模块100、音频处理模块200、AI语音模块300、主控模块400、通信模块500和终端模块600；

拾音模块100用于采集用户的语音信息，语音信息包括用于控制终端模块600的控制指令；

在本实施例中，拾音模块100可以为多个MIC拾音器，并呈非线性矩阵进行排列，以提高拾音的效率。

音频处理模块200用于对语音信息进行降噪处理，还用于对语音信息分隔为多个语音段落；

AI语音模块300用于提取多个语音段落中的声学特征，还用于基于预置的声学模型和语言模型对声学特征进行识别，从而得到初始文本信息；还用于对初始文本信息进行分词处理，得到分词文本；还用于将分词文本发送至主控模块400；

主控模块400用于基于预设的指令库对分词文本进行匹配，从而得到相应的控制指令，还用于将控制指令通过通信模块500下发到相应的终端模块600；

预设的指令库包括分词文本与控制指令之间的映射关系。

终端模块600包括视频会诊模块，视频会诊模块用于根据主控模块400下发的控制指令判断是否与外部的远程会诊主站建立视频通讯连接。

在本实施例中，如控制指令如开启远程会诊，则与外部的远程会诊主站建立视频通讯连接。其中，通信模块500的通信方式包括局域网、5G等。

在本实施例中，终端模块600还包括其它功能终端，如定位模块、摄像模块、显示屏等，通过对功能终端进行语音控制，从而对相应的功能终端进行控制，如开启定位、开启摄像、关闭显示屏等。

需要说明的是，本实施例通过采集用户的语音信息，对语音信息进行降噪后，将语音信息分隔为多个语音段落，提取多个语音段落中的声学特征，基于预置的声学模型和语言模型对声学特征进行识别，以得到初始文本信息，并对初始文本信息进行分词，得到分词文本，通过预设的指令库对分词文本进行匹配，从而得到相应的控制指令，通过控制指令判断是否与外部的远程会诊主站建立视频通讯连接。从而无需物理操作，即可进行远程消缺会诊，提高了消缺效率和安全性。

在一个具体实施例中，音频处理模块200包括放大器、滤波器和语音分隔模块；

放大器用于对语音信息进行放大处理，还用于将放大处理后的语音信息发送至滤波器；

滤波器用于对语音信息进行降噪处理，还用于将降噪后的语音信息发送至语音分隔模块；

语音分隔模块用于对语音信息进行端点检测，还用于根据端点检测结果对语音信息分隔为多个语音段落。

在一个具体实施例中，语音分隔模块包括端点检测模块、分隔模块和静音过滤模块；

端点检测模块用于当检测到语音信息中的静音尺度大于预设的静音尺度阈值时，将相应的静音尺度的开始端点和结束端点作为语音端点，从而得到若干个开始语音端点和若干个结束语音端点；

可以理解的是，工作人员在说话过程中，其存在静音间隙，而通过判断该静音间隙的尺度是否大于预设的静音尺度阈值，从而可以对语音序列进行分段，而静音间隙的尺度的前后两个端点可以分别为前一个语音段落的结束端点和后一个语音段落的开始端点。

分隔模块用于将相邻的开始语音端点和结束语音端点之间的语音信息划分为一个语音段落，从而得到多个语音段落；

需要说明的是，其相邻的开始语音端点和结束语音端点之间的语音信息即可为在同一尺度下的语音，即将其划分为一个语音段落，进而得到多个语音段落。

静音过滤模块用于对多个语音段落进行静音过滤，从而过滤掉多的语音段落中的静音段落。

需要说明的是，由于相邻的开始语音端点和结束语音端点之间的语音信息可能存在静音段落，需要对静音段落进行剔除，从而只保留有效的语音段落，从而提高控制指令识别的准确性和效率。

在一个具体实施例中，AI语音模块300包括特征提取模块、声学识别模块、语言识别模块和分词模块；

特征提取模块用于提取多个语音段落中的声学特征；

需要说明的是，声学特征表示为声学特性的特征信息。

声学识别模块用于基于预置的声学模型对声学特征进行匹配，得到对应的声学模板；

需要说明的是，声学模型为预先通过声学库进行训练得到。

语言识别模块用于基于预置的语言模型对声学模板进行识别，从而得到初始文本信息；

需要说明的是，语言模型为预先通过语言库进行训练得到。

分词模块用于基于预设的主题模型对初始文本信息进行分词处理，得到分词文本。

在本实施例中，预设的主题模型为LDA主题模型，其通过用户根据需求自行设定。

在一个具体实施例中，本***还包括分词处理模块，用于对分词文本进行预处理，预处理的方式包括去停用词和合并同义词。

以上为本发明提供的一种基于AI语音控制的变电消缺远程视频会诊***的实施例的详细描述，以下为本发明提供的一种基于AI语音控制的变电消缺远程视频会诊方法的实施例的详细描述。

为了方便理解，请参阅图2，本发明提供的一种基于AI语音控制的变电消缺远程视频会诊方法，包括以下步骤：

S100、采集用户的语音信息，语音信息包括用于控制终端模块的控制指令；

S200、通过对语音信息进行降噪处理，对降噪处理后的语音信息分隔为多个语音段落；

S300、提取多个语音段落中的声学特征，基于预置的声学模型和语言模型对声学特征进行识别，从而得到初始文本信息，对初始文本信息进行分词处理，得到分词文本；

S400、基于预设的指令库对分词文本进行匹配，从而得到相应的控制指令，将控制指令下发到相应的终端模块；

S500、通过终端模块根据下发的控制指令判断是否与外部的远程会诊主站建立视频通讯连接。

进一步地，步骤S200具体包括：

S201、通过对语音信息进行放大处理；

S202、通过对放大处理后的语音信息进行降噪处理；

S203、通过对语音信息进行端点检测，根据端点检测结果对语音信息分隔为多个语音段落。

进一步地，步骤S203具体包括：

S2031、当检测到语音信息中的静音尺度大于预设的静音尺度阈值时，将相应的静音尺度的开始端点和结束端点作为语音端点，从而得到若干个开始语音端点和若干个结束语音端点；

S2032、将相邻的开始语音端点和结束语音端点之间的语音信息划分为一个语音段落，从而得到多个语音段落；

S2033、对多个语音段落进行静音过滤，从而过滤掉多的语音段落中的静音段落。

进一步地，步骤S300具体包括：

S301、提取多个语音段落中的声学特征；

S302、基于预置的声学模型对声学特征进行匹配，得到对应的声学模板；

S303、基于预置的语言模型对声学模板进行识别，从而得到初始文本信息；

S304、基于预设的主题模型对初始文本信息进行分词处理，得到分词文本。

进一步地，本方法还包括：对分词文本进行预处理，预处理的方式包括去停用词和合并同义词。

需要说明的是，本发明提供的一种基于AI语音控制的变电消缺远程视频会诊方法的流程与上述实施例提供的一种基于AI语音控制的变电消缺远程视频会诊***的工作过程一致，在此不再赘述。

本方法通过采集用户的语音信息，对语音信息进行降噪后，将语音信息分隔为多个语音段落，提取多个语音段落中的声学特征，基于预置的声学模型和语言模型对声学特征进行识别，以得到初始文本信息，并对初始文本信息进行分词，得到分词文本，通过预设的指令库对分词文本进行匹配，从而得到相应的控制指令，通过控制指令判断是否与外部的远程会诊主站建立视频通讯连接。从而无需物理操作，即可进行远程消缺会诊，提高了消缺效率和安全性。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于AI语音控制的变电消缺远程视频会诊***，其特征在于，包括：拾音模块、音频处理模块、AI语音模块、主控模块、通信模块和终端模块；

2.根据权利要求1所述的基于AI语音控制的变电消缺远程视频会诊***，其特征在于，所述音频处理模块包括放大器、滤波器和语音分隔模块；

3.根据权利要求2所述的基于AI语音控制的变电消缺远程视频会诊***，其特征在于，所述语音分隔模块包括端点检测模块、分隔模块和静音过滤模块；

4.根据权利要求1所述的基于AI语音控制的变电消缺远程视频会诊***，其特征在于，所述AI语音模块包括特征提取模块、声学识别模块、语言识别模块和分词模块；

5.根据权利要求1所述的基于AI语音控制的变电消缺远程视频会诊***，其特征在于，还包括分词处理模块，用于对所述分词文本进行预处理，所述预处理的方式包括去停用词和合并同义词。

6.一种基于AI语音控制的变电消缺远程视频会诊方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的基于AI语音控制的变电消缺远程视频会诊方法，其特征在于，通过对所述语音信息进行降噪处理，对降噪处理后的所述语音信息分隔为多个语音段落的步骤具体包括：

通过对所述语音信息进行放大处理；

通过对放大处理后的所述语音信息进行降噪处理；

8.根据权利要求7所述的基于AI语音控制的变电消缺远程视频会诊方法，其特征在于，通过对所述语音信息进行端点检测，根据端点检测结果对所述语音信息分隔为多个语音段落的步骤具体包括：

9.根据权利要求6所述的基于AI语音控制的变电消缺远程视频会诊方法，其特征在于，提取多个所述语音段落中的声学特征，基于预置的声学模型和语言模型对所述声学特征进行识别，从而得到初始文本信息，对所述初始文本信息进行分词处理，得到分词文本的步骤具体包括：

提取多个所述语音段落中的声学特征；

10.根据权利要求6所述的基于AI语音控制的变电消缺远程视频会诊方法，其特征在于，还包括：对所述分词文本进行预处理，所述预处理的方式包括去停用词和合并同义词。