CN113766171A - 基于ai语音控制的变电消缺远程视频会诊***及方法 - Google Patents
基于ai语音控制的变电消缺远程视频会诊***及方法 Download PDFInfo
- Publication number
- CN113766171A CN113766171A CN202111107614.6A CN202111107614A CN113766171A CN 113766171 A CN113766171 A CN 113766171A CN 202111107614 A CN202111107614 A CN 202111107614A CN 113766171 A CN113766171 A CN 113766171A
- Authority
- CN
- China
- Prior art keywords
- voice
- module
- information
- paragraphs
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000009466 transformation Effects 0.000 title claims description 23
- 230000007547 defect Effects 0.000 title abstract description 28
- 230000008030 elimination Effects 0.000 title abstract description 23
- 238000003379 elimination reaction Methods 0.000 title abstract description 23
- 238000004891 communication Methods 0.000 claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 39
- 238000001514 detection method Methods 0.000 claims description 22
- 230000009467 reduction Effects 0.000 claims description 21
- 238000000926 separation method Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 6
- 230000009849 deactivation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种基于AI语音控制的变电消缺远程视频会诊***及方法,其方法通过采集用户的语音信息,对语音信息进行降噪后,将语音信息分隔为多个语音段落,提取多个语音段落中的声学特征,基于预置的声学模型和语言模型对所述声学特征进行识别,以得到初始文本信息,并对初始文本信息进行分词,得到分词文本,通过预设的指令库对分词文本进行匹配,从而得到相应的控制指令,通过控制指令判断是否与外部的远程会诊主站建立视频通讯连接。从而无需物理操作,即可进行远程消缺会诊,提高了消缺效率和安全性。
Description
技术领域
本申请涉及配电消缺技术领域,尤其涉及一种基于AI语音控制的变电消缺远程视频会诊***及方法。
背景技术
在电力行业中,电力设施在运行时会存在各类故障与设备缺陷,如仪表失准、电气开关失效、线路老化故障等,针对以上缺陷,需组织人员日常进行维护消除,此过程即为消缺。
变电设备在消缺过程中,主要通过电话、微信、espace进行沟通,上述方式缺乏交互式视频会议专家会诊功能,存在以下问题:
1)应急指挥和检修人员依赖现场运行人员上报缺陷信息,进行消缺准备工作,如果上报信息失准,则会影响消缺进度;
2)检修人员水平不一,现场可能无法快速查出缺陷原因并消缺,导致缺陷存续时间长,影响设备安全运行;
3)应急指挥、技术技能专家不能实时精确了解现场信息,不利于远程会诊缺陷并指导检修人员消缺。
在电力***的变电供能的工作中,都会有户外工作人员定时进行供电网络查验及检修,以确保供电网络的安全稳定输送电能。
目前,户外的工作人员在进行变电消缺时,在定位、拍摄、数据上传、视频摄制、远程会诊沟通和显示屏视频成像与现场场景的切换,均需由现场工作人员手动完成,鉴于终端设备佩戴在现场工作人员的头上,工作人员也通过头戴拍摄设备或者便携设备的显示屏画面与后方进行远程会诊。
但是,在上叙的功能操作中,现场工作人员均需要通过手动物理调节,操作实体按键来实现功能的切换,这将导致增加现场工作人员在消缺工作中工作繁杂度,降低了消缺效率,同时,还增加了现场作业的安全风险。
发明内容
本申请提供了一种基于AI语音控制的变电消缺远程视频会诊***及方法,用于解决上述功能操作降低了消缺效率和安全性的技术问题。
有鉴于此,本申请第一方面提供了一种基于AI语音控制的变电消缺远程视频会诊***,包括:拾音模块、音频处理模块、AI语音模块、主控模块、通信模块和终端模块;
所述拾音模块用于采集用户的语音信息,所述语音信息包括用于控制所述终端模块的控制指令;
所述音频处理模块用于对所述语音信息进行降噪处理,还用于对所述语音信息分隔为多个语音段落;
所述AI语音模块用于提取多个所述语音段落中的声学特征,还用于基于预置的声学模型和语言模型对所述声学特征进行识别,从而得到初始文本信息;还用于对所述初始文本信息进行分词处理,得到分词文本;还用于将所述分词文本发送至所述主控模块;
所述主控模块用于基于预设的指令库对所述分词文本进行匹配,从而得到相应的控制指令,还用于将所述控制指令通过所述通信模块下发到相应的所述终端模块;
所述终端模块包括视频会诊模块,所述视频会诊模块用于根据所述主控模块下发的所述控制指令判断是否与外部的远程会诊主站建立视频通讯连接。
优选地,所述音频处理模块包括放大器、滤波器和语音分隔模块;
所述放大器用于对所述语音信息进行放大处理,还用于将放大处理后的所述语音信息发送至所述滤波器;
所述滤波器用于对所述语音信息进行降噪处理,还用于将降噪后的所述语音信息发送至所述语音分隔模块;
所述语音分隔模块用于对所述语音信息进行端点检测,还用于根据端点检测结果对所述语音信息分隔为多个语音段落。
优选地,所述语音分隔模块包括端点检测模块、分隔模块和静音过滤模块;
所述端点检测模块用于当检测到所述语音信息中的静音尺度大于预设的静音尺度阈值时,将相应的静音尺度的开始端点和结束端点作为语音端点,从而得到若干个开始语音端点和若干个结束语音端点;
所述分隔模块用于将相邻的开始语音端点和结束语音端点之间的语音信息划分为一个语音段落,从而得到多个语音段落;
所述静音过滤模块用于对多个所述语音段落进行静音过滤,从而过滤掉多的所述语音段落中的静音段落。
优选地,所述AI语音模块包括特征提取模块、声学识别模块、语言识别模块和分词模块;
所述特征提取模块用于提取多个所述语音段落中的声学特征;
所述声学识别模块用于基于预置的声学模型对所述声学特征进行匹配,得到对应的声学模板;
所述语言识别模块用于基于预置的语言模型对所述声学模板进行识别,从而得到初始文本信息;
所述分词模块用于基于预设的主题模型对所述初始文本信息进行分词处理,得到分词文本。
优选地,本方法还包括分词处理模块,用于对所述分词文本进行预处理,所述预处理的方式包括去停用词和合并同义词。
第二方面,本发明还提供了一种基于AI语音控制的变电消缺远程视频会诊方法,包括以下步骤:
采集用户的语音信息,所述语音信息包括用于控制终端模块的控制指令;
通过对所述语音信息进行降噪处理,对降噪处理后的所述语音信息分隔为多个语音段落;
提取多个所述语音段落中的声学特征,基于预置的声学模型和语言模型对所述声学特征进行识别,从而得到初始文本信息,对所述初始文本信息进行分词处理,得到分词文本;
基于预设的指令库对所述分词文本进行匹配,从而得到相应的控制指令,将所述控制指令下发到相应的所述终端模块;
通过所述终端模块根据下发的所述控制指令判断是否与外部的远程会诊主站建立视频通讯连接。
优选地,通过对所述语音信息进行降噪处理,对降噪处理后的所述语音信息分隔为多个语音段落的步骤具体包括:
通过对所述语音信息进行放大处理;
通过对放大处理后的所述语音信息进行降噪处理;
通过对所述语音信息进行端点检测,根据端点检测结果对所述语音信息分隔为多个语音段落。
优选地,通过对所述语音信息进行端点检测,根据端点检测结果对所述语音信息分隔为多个语音段落的步骤具体包括:
当检测到所述语音信息中的静音尺度大于预设的静音尺度阈值时,将相应的静音尺度的开始端点和结束端点作为语音端点,从而得到若干个开始语音端点和若干个结束语音端点;
将相邻的开始语音端点和结束语音端点之间的语音信息划分为一个语音段落,从而得到多个语音段落;
对多个所述语音段落进行静音过滤,从而过滤掉多的所述语音段落中的静音段落。
优选地,提取多个所述语音段落中的声学特征,基于预置的声学模型和语言模型对所述声学特征进行识别,从而得到初始文本信息,对所述初始文本信息进行分词处理,得到分词文本的步骤具体包括:
提取多个所述语音段落中的声学特征;
基于预置的声学模型对所述声学特征进行匹配,得到对应的声学模板;
基于预置的语言模型对所述声学模板进行识别,从而得到初始文本信息;
基于预设的主题模型对所述初始文本信息进行分词处理,得到分词文本。
优选地,本方法还包括:对所述分词文本进行预处理,所述预处理的方式包括去停用词和合并同义词。
从以上技术方案可以看出,本发明具有以下优点:
本发明通过采集用户的语音信息,对语音信息进行降噪后,将语音信息分隔为多个语音段落,提取多个语音段落中的声学特征,基于预置的声学模型和语言模型对所述声学特征进行识别,以得到初始文本信息,并对初始文本信息进行分词,得到分词文本,通过预设的指令库对分词文本进行匹配,从而得到相应的控制指令,通过控制指令判断是否与外部的远程会诊主站建立视频通讯连接。从而无需物理操作,即可进行远程消缺会诊,提高了消缺效率和安全性。
附图说明
图1为本申请实施例提供的一种基于AI语音控制的变电消缺远程视频会诊***的结构示意图;
图2为本申请实施例提供的一种基于AI语音控制的变电消缺远程视频会诊方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本发明提供的一种基于AI语音控制的变电消缺远程视频会诊***,包括:拾音模块100、音频处理模块200、AI语音模块300、主控模块400、通信模块500和终端模块600;
拾音模块100用于采集用户的语音信息,语音信息包括用于控制终端模块600的控制指令;
在本实施例中,拾音模块100可以为多个MIC拾音器,并呈非线性矩阵进行排列,以提高拾音的效率。
音频处理模块200用于对语音信息进行降噪处理,还用于对语音信息分隔为多个语音段落;
AI语音模块300用于提取多个语音段落中的声学特征,还用于基于预置的声学模型和语言模型对声学特征进行识别,从而得到初始文本信息;还用于对初始文本信息进行分词处理,得到分词文本;还用于将分词文本发送至主控模块400;
主控模块400用于基于预设的指令库对分词文本进行匹配,从而得到相应的控制指令,还用于将控制指令通过通信模块500下发到相应的终端模块600;
预设的指令库包括分词文本与控制指令之间的映射关系。
终端模块600包括视频会诊模块,视频会诊模块用于根据主控模块400下发的控制指令判断是否与外部的远程会诊主站建立视频通讯连接。
在本实施例中,如控制指令如开启远程会诊,则与外部的远程会诊主站建立视频通讯连接。其中,通信模块500的通信方式包括局域网、5G等。
在本实施例中,终端模块600还包括其它功能终端,如定位模块、摄像模块、显示屏等,通过对功能终端进行语音控制,从而对相应的功能终端进行控制,如开启定位、开启摄像、关闭显示屏等。
需要说明的是,本实施例通过采集用户的语音信息,对语音信息进行降噪后,将语音信息分隔为多个语音段落,提取多个语音段落中的声学特征,基于预置的声学模型和语言模型对声学特征进行识别,以得到初始文本信息,并对初始文本信息进行分词,得到分词文本,通过预设的指令库对分词文本进行匹配,从而得到相应的控制指令,通过控制指令判断是否与外部的远程会诊主站建立视频通讯连接。从而无需物理操作,即可进行远程消缺会诊,提高了消缺效率和安全性。
在一个具体实施例中,音频处理模块200包括放大器、滤波器和语音分隔模块;
放大器用于对语音信息进行放大处理,还用于将放大处理后的语音信息发送至滤波器;
滤波器用于对语音信息进行降噪处理,还用于将降噪后的语音信息发送至语音分隔模块;
语音分隔模块用于对语音信息进行端点检测,还用于根据端点检测结果对语音信息分隔为多个语音段落。
在一个具体实施例中,语音分隔模块包括端点检测模块、分隔模块和静音过滤模块;
端点检测模块用于当检测到语音信息中的静音尺度大于预设的静音尺度阈值时,将相应的静音尺度的开始端点和结束端点作为语音端点,从而得到若干个开始语音端点和若干个结束语音端点;
可以理解的是,工作人员在说话过程中,其存在静音间隙,而通过判断该静音间隙的尺度是否大于预设的静音尺度阈值,从而可以对语音序列进行分段,而静音间隙的尺度的前后两个端点可以分别为前一个语音段落的结束端点和后一个语音段落的开始端点。
分隔模块用于将相邻的开始语音端点和结束语音端点之间的语音信息划分为一个语音段落,从而得到多个语音段落;
需要说明的是,其相邻的开始语音端点和结束语音端点之间的语音信息即可为在同一尺度下的语音,即将其划分为一个语音段落,进而得到多个语音段落。
静音过滤模块用于对多个语音段落进行静音过滤,从而过滤掉多的语音段落中的静音段落。
需要说明的是,由于相邻的开始语音端点和结束语音端点之间的语音信息可能存在静音段落,需要对静音段落进行剔除,从而只保留有效的语音段落,从而提高控制指令识别的准确性和效率。
在一个具体实施例中,AI语音模块300包括特征提取模块、声学识别模块、语言识别模块和分词模块;
特征提取模块用于提取多个语音段落中的声学特征;
需要说明的是,声学特征表示为声学特性的特征信息。
声学识别模块用于基于预置的声学模型对声学特征进行匹配,得到对应的声学模板;
需要说明的是,声学模型为预先通过声学库进行训练得到。
语言识别模块用于基于预置的语言模型对声学模板进行识别,从而得到初始文本信息;
需要说明的是,语言模型为预先通过语言库进行训练得到。
分词模块用于基于预设的主题模型对初始文本信息进行分词处理,得到分词文本。
在本实施例中,预设的主题模型为LDA主题模型,其通过用户根据需求自行设定。
在一个具体实施例中,本***还包括分词处理模块,用于对分词文本进行预处理,预处理的方式包括去停用词和合并同义词。
以上为本发明提供的一种基于AI语音控制的变电消缺远程视频会诊***的实施例的详细描述,以下为本发明提供的一种基于AI语音控制的变电消缺远程视频会诊方法的实施例的详细描述。
为了方便理解,请参阅图2,本发明提供的一种基于AI语音控制的变电消缺远程视频会诊方法,包括以下步骤:
S100、采集用户的语音信息,语音信息包括用于控制终端模块的控制指令;
S200、通过对语音信息进行降噪处理,对降噪处理后的语音信息分隔为多个语音段落;
S300、提取多个语音段落中的声学特征,基于预置的声学模型和语言模型对声学特征进行识别,从而得到初始文本信息,对初始文本信息进行分词处理,得到分词文本;
S400、基于预设的指令库对分词文本进行匹配,从而得到相应的控制指令,将控制指令下发到相应的终端模块;
S500、通过终端模块根据下发的控制指令判断是否与外部的远程会诊主站建立视频通讯连接。
进一步地,步骤S200具体包括:
S201、通过对语音信息进行放大处理;
S202、通过对放大处理后的语音信息进行降噪处理;
S203、通过对语音信息进行端点检测,根据端点检测结果对语音信息分隔为多个语音段落。
进一步地,步骤S203具体包括:
S2031、当检测到语音信息中的静音尺度大于预设的静音尺度阈值时,将相应的静音尺度的开始端点和结束端点作为语音端点,从而得到若干个开始语音端点和若干个结束语音端点;
S2032、将相邻的开始语音端点和结束语音端点之间的语音信息划分为一个语音段落,从而得到多个语音段落;
S2033、对多个语音段落进行静音过滤,从而过滤掉多的语音段落中的静音段落。
进一步地,步骤S300具体包括:
S301、提取多个语音段落中的声学特征;
S302、基于预置的声学模型对声学特征进行匹配,得到对应的声学模板;
S303、基于预置的语言模型对声学模板进行识别,从而得到初始文本信息;
S304、基于预设的主题模型对初始文本信息进行分词处理,得到分词文本。
进一步地,本方法还包括:对分词文本进行预处理,预处理的方式包括去停用词和合并同义词。
需要说明的是,本发明提供的一种基于AI语音控制的变电消缺远程视频会诊方法的流程与上述实施例提供的一种基于AI语音控制的变电消缺远程视频会诊***的工作过程一致,在此不再赘述。
本方法通过采集用户的语音信息,对语音信息进行降噪后,将语音信息分隔为多个语音段落,提取多个语音段落中的声学特征,基于预置的声学模型和语言模型对声学特征进行识别,以得到初始文本信息,并对初始文本信息进行分词,得到分词文本,通过预设的指令库对分词文本进行匹配,从而得到相应的控制指令,通过控制指令判断是否与外部的远程会诊主站建立视频通讯连接。从而无需物理操作,即可进行远程消缺会诊,提高了消缺效率和安全性。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于AI语音控制的变电消缺远程视频会诊***,其特征在于,包括:拾音模块、音频处理模块、AI语音模块、主控模块、通信模块和终端模块;
所述拾音模块用于采集用户的语音信息,所述语音信息包括用于控制所述终端模块的控制指令;
所述音频处理模块用于对所述语音信息进行降噪处理,还用于对所述语音信息分隔为多个语音段落;
所述AI语音模块用于提取多个所述语音段落中的声学特征,还用于基于预置的声学模型和语言模型对所述声学特征进行识别,从而得到初始文本信息;还用于对所述初始文本信息进行分词处理,得到分词文本;还用于将所述分词文本发送至所述主控模块;
所述主控模块用于基于预设的指令库对所述分词文本进行匹配,从而得到相应的控制指令,还用于将所述控制指令通过所述通信模块下发到相应的所述终端模块;
所述终端模块包括视频会诊模块,所述视频会诊模块用于根据所述主控模块下发的所述控制指令判断是否与外部的远程会诊主站建立视频通讯连接。
2.根据权利要求1所述的基于AI语音控制的变电消缺远程视频会诊***,其特征在于,所述音频处理模块包括放大器、滤波器和语音分隔模块;
所述放大器用于对所述语音信息进行放大处理,还用于将放大处理后的所述语音信息发送至所述滤波器;
所述滤波器用于对所述语音信息进行降噪处理,还用于将降噪后的所述语音信息发送至所述语音分隔模块;
所述语音分隔模块用于对所述语音信息进行端点检测,还用于根据端点检测结果对所述语音信息分隔为多个语音段落。
3.根据权利要求2所述的基于AI语音控制的变电消缺远程视频会诊***,其特征在于,所述语音分隔模块包括端点检测模块、分隔模块和静音过滤模块;
所述端点检测模块用于当检测到所述语音信息中的静音尺度大于预设的静音尺度阈值时,将相应的静音尺度的开始端点和结束端点作为语音端点,从而得到若干个开始语音端点和若干个结束语音端点;
所述分隔模块用于将相邻的开始语音端点和结束语音端点之间的语音信息划分为一个语音段落,从而得到多个语音段落;
所述静音过滤模块用于对多个所述语音段落进行静音过滤,从而过滤掉多的所述语音段落中的静音段落。
4.根据权利要求1所述的基于AI语音控制的变电消缺远程视频会诊***,其特征在于,所述AI语音模块包括特征提取模块、声学识别模块、语言识别模块和分词模块;
所述特征提取模块用于提取多个所述语音段落中的声学特征;
所述声学识别模块用于基于预置的声学模型对所述声学特征进行匹配,得到对应的声学模板;
所述语言识别模块用于基于预置的语言模型对所述声学模板进行识别,从而得到初始文本信息;
所述分词模块用于基于预设的主题模型对所述初始文本信息进行分词处理,得到分词文本。
5.根据权利要求1所述的基于AI语音控制的变电消缺远程视频会诊***,其特征在于,还包括分词处理模块,用于对所述分词文本进行预处理,所述预处理的方式包括去停用词和合并同义词。
6.一种基于AI语音控制的变电消缺远程视频会诊方法,其特征在于,包括以下步骤:
采集用户的语音信息,所述语音信息包括用于控制终端模块的控制指令;
通过对所述语音信息进行降噪处理,对降噪处理后的所述语音信息分隔为多个语音段落;
提取多个所述语音段落中的声学特征,基于预置的声学模型和语言模型对所述声学特征进行识别,从而得到初始文本信息,对所述初始文本信息进行分词处理,得到分词文本;
基于预设的指令库对所述分词文本进行匹配,从而得到相应的控制指令,将所述控制指令下发到相应的所述终端模块;
通过所述终端模块根据下发的所述控制指令判断是否与外部的远程会诊主站建立视频通讯连接。
7.根据权利要求6所述的基于AI语音控制的变电消缺远程视频会诊方法,其特征在于,通过对所述语音信息进行降噪处理,对降噪处理后的所述语音信息分隔为多个语音段落的步骤具体包括:
通过对所述语音信息进行放大处理;
通过对放大处理后的所述语音信息进行降噪处理;
通过对所述语音信息进行端点检测,根据端点检测结果对所述语音信息分隔为多个语音段落。
8.根据权利要求7所述的基于AI语音控制的变电消缺远程视频会诊方法,其特征在于,通过对所述语音信息进行端点检测,根据端点检测结果对所述语音信息分隔为多个语音段落的步骤具体包括:
当检测到所述语音信息中的静音尺度大于预设的静音尺度阈值时,将相应的静音尺度的开始端点和结束端点作为语音端点,从而得到若干个开始语音端点和若干个结束语音端点;
将相邻的开始语音端点和结束语音端点之间的语音信息划分为一个语音段落,从而得到多个语音段落;
对多个所述语音段落进行静音过滤,从而过滤掉多的所述语音段落中的静音段落。
9.根据权利要求6所述的基于AI语音控制的变电消缺远程视频会诊方法,其特征在于,提取多个所述语音段落中的声学特征,基于预置的声学模型和语言模型对所述声学特征进行识别,从而得到初始文本信息,对所述初始文本信息进行分词处理,得到分词文本的步骤具体包括:
提取多个所述语音段落中的声学特征;
基于预置的声学模型对所述声学特征进行匹配,得到对应的声学模板;
基于预置的语言模型对所述声学模板进行识别,从而得到初始文本信息;
基于预设的主题模型对所述初始文本信息进行分词处理,得到分词文本。
10.根据权利要求6所述的基于AI语音控制的变电消缺远程视频会诊方法,其特征在于,还包括:对所述分词文本进行预处理,所述预处理的方式包括去停用词和合并同义词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111107614.6A CN113766171A (zh) | 2021-09-22 | 2021-09-22 | 基于ai语音控制的变电消缺远程视频会诊***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111107614.6A CN113766171A (zh) | 2021-09-22 | 2021-09-22 | 基于ai语音控制的变电消缺远程视频会诊***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113766171A true CN113766171A (zh) | 2021-12-07 |
Family
ID=78796685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111107614.6A Pending CN113766171A (zh) | 2021-09-22 | 2021-09-22 | 基于ai语音控制的变电消缺远程视频会诊***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113766171A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105118502A (zh) * | 2015-07-14 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音识别***的端点检测方法及*** |
CN105895103A (zh) * | 2015-12-03 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 一种语音识别方法及装置 |
CN112669851A (zh) * | 2021-03-17 | 2021-04-16 | 北京远鉴信息技术有限公司 | 一种语音识别方法、装置、电子设备及可读存储介质 |
CN113096645A (zh) * | 2021-03-31 | 2021-07-09 | 闽江学院 | 电话语音的处理方法 |
-
2021
- 2021-09-22 CN CN202111107614.6A patent/CN113766171A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105118502A (zh) * | 2015-07-14 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音识别***的端点检测方法及*** |
CN105895103A (zh) * | 2015-12-03 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 一种语音识别方法及装置 |
CN112669851A (zh) * | 2021-03-17 | 2021-04-16 | 北京远鉴信息技术有限公司 | 一种语音识别方法、装置、电子设备及可读存储介质 |
CN113096645A (zh) * | 2021-03-31 | 2021-07-09 | 闽江学院 | 电话语音的处理方法 |
Non-Patent Citations (1)
Title |
---|
李泽宇;李磊;李煜祺;鲁兴河;王淑平;潘玉林;: "一种智能语音技术在指挥***中的应用方法", 通信电源技术, no. 05 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512113B (zh) | 交流式语音翻译***及翻译方法 | |
CN107861611A (zh) | 一种基于增强现实技术的电梯维保*** | |
CN111147669A (zh) | 一种全量实时自动服务质检***和方法 | |
CN113129898A (zh) | 一种机器辅助的会议记录***及方法 | |
CN113921011A (zh) | 音频处理方法、装置及设备 | |
CN110705505A (zh) | 一种电力营业厅服务规范智能识别装置、方法及*** | |
CN110196897B (zh) | 一种基于问答模板的案例识别方法 | |
CN113766171A (zh) | 基于ai语音控制的变电消缺远程视频会诊***及方法 | |
CN114791771A (zh) | 智能语音鼠标的交互管理***及管理方法 | |
CN112201253B (zh) | 文字标记方法、装置、电子设备及计算机可读存储介质 | |
CN114239610A (zh) | 多国语言语音辨识及翻译方法与相关的*** | |
CN209571226U (zh) | 一种语音识别装置及*** | |
CN204481973U (zh) | 一种输电线路可视化检修指导设备 | |
CN113641801B (zh) | 一种语音调度***的控制方法、***及电子设备 | |
CN113345210B (zh) | 一种基于音视频智能判断呼救的方法及装置 | |
WO2022063288A1 (zh) | 一种机上信息辅助***和方法 | |
CN113689855A (zh) | 一种会议记录生成***、方法、装置、存储介质 | |
CN107825433A (zh) | 一种儿童语音指令识别的卡片机器人 | |
CN105682209A (zh) | 一种降低移动终端通话功耗的方法及移动终端 | |
CN111464862A (zh) | 一种基于语音识别和图像处理的视频截图方法 | |
CN111785277A (zh) | 语音识别方法、装置、计算机可读存储介质以及处理器 | |
CN115620729B (zh) | 基于鲁棒语音增强算法的工业设备语音控制方法及*** | |
CN112885342A (zh) | 一种面向微服务器架构的人机交互*** | |
CN205378113U (zh) | 一种电网调度通讯管理装置 | |
CN215453024U (zh) | 一种数字会议*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |