CN110099246A

CN110099246A - 监控调度方法、装置、计算机设备及存储介质

Info

Publication number: CN110099246A
Application number: CN201910120586.8A
Authority: CN
Inventors: 吕正东
Original assignee: Deep Curiosity (beijing) Technology Co Ltd
Current assignee: Deep Curiosity (beijing) Technology Co Ltd
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-08-06

Abstract

本发明公开了一种基于语音识别的监控调度方法、装置、计算机设备及存储介质，用户通过语音交互的方式发出语音信号，调度***接收用户发出的语音信号，并利用声音模型对语音信号进行语音识别，得到对应的语言文本，然后利用语义模型对语言文本进行解析，得到包含有目标摄像头地址的调度命令，从视频数据库中调取对应的视频数据。本发明无需用户进行鼠标键盘操作，即可实现监控视频的调度，解决了执勤执法民警在执法实践过程中处于远离视频调度终端、移动办公、驾驶车辆等场景时，无法有效使用鼠标键盘进行视频调度操作，而无法调度监控视频的问题。

Description

监控调度方法、装置、计算机设备及存储介质

技术领域

本发明涉及监控技术领域，具体涉及一种基于语音识别的监控调度方法、装置、计算机设备及存储介质。

背景技术

随着城市化的进程，城市规模不断膨胀，城市人口越来越多，人口的流动性也不断增大，给城市交通、治安监管带来很大的压力。为保障城市安全，可以对一些治安重点监控区域，如居民小区、城区路面、商业中心、娱乐场所、车站广场、重点单位、卡口等场所实施远程实时监控，及时了解现场的车流、人流及异常情况，并进行远程录像备份。

接入的监控摄像头的指数级增长，但是在数千乃至数万个监控中选中需要的摄像头，如何准确通过摄像头名称进行快速查找越来越成为一件异常困难的任务，对于许多非专业人员、特别是不懂英语或不熟悉汉语拼音的公安干警而言仍然是人机交互的一个重要的障碍,进而影响到信息化***的进一步普及，基层警务工作，日益呈现移动性强、突发性强、任务紧迫性强等特点，同时一旦一线执勤执法民警在执法实践过程中处于远离视频调度终端、移动办公、驾驶车辆等场景时，无法有效使用鼠标键盘进行视频调度操作。

发明内容

本发明要解决现有技术中由于无法通过鼠标键盘等操作导致无法进行监控视频调度的问题，从而提供一种基于语音识别的监控调度方法、装置、计算机设备及存储介质。

本发明实施例的一方面，提供了一种基于语音识别的监控调度方法，包括：接收用户发出的用于调度监控视频的语音信号；将所述语音信号输入至预先训练得到的声音模型进行语音识别，得到识别出的语言文本；将所述语言文本输入至预先训练得到的语义模型进行语义解析，得到用于调度监控视频的调度指令，所述调度指令包括待调度的目标摄像头地址；基于所述调度指令从视频数据库中调取所述目标摄像头的视频数据。

可选地，当用户选择模糊搜索模式时，所述语音信号包括用户发出的多个连续的语音命令，将所述语音信号输入至预先训练得到的声音模型进行语音识别，得到识别出的语言文本，包括：利用所述声音模型对所述多个连续的语音命令进行语音识别，得到多个语言文本；将所述语言文本输入至预先训练得到的语义模型进行语义解析，得到用于调度监控视频的调度指令，包括：利用所述语义模型对所述多个语言文本进行语义解析，得到包括多个候选监控摄像头的地址列表。

可选地，还包括：对所述多个候选监控摄像头的地址列表进行显示；接收用户输入的搜索命令；从所述地址列表中搜索满足所述搜索命令的摄像头地址，作为所述目标摄像头的地址；从视频数据库中调取搜索到的地址对应的视频数据。

可选地，所述搜索命令包括：输入关键词的搜索命令和/或语音命令。

可选地，在将所述语音信号输入至预先训练得到的声音模型进行语音识别之前，还包括：获取用于进行语音识别训练的样本集，该样本集包括以下内容的语音数据：所有监控场景的建筑名称、所有监控场景的地址名称、时间、操作内容；利用所述样本集对初始声音模型进行训练，得到所述声音模型。

可选地，在对所述初始模型训练过程中，将调度指挥中心的声场环境建模放入编码过程，将调度指挥所用的语句结构和语句内容嵌入语音识别的解码过程。

可选地，在将所述语言文本输入至预先训练得到的语义模型进行语义解析之前，还包括：获取用于进行语义解析训练的样本集；利用所述样本集对初始语义模型进行训练，得到所述语义模型。

本发明实施例的另一方面，还提供了一种基于语音识别的监控调度装置，包括：接收模块，用于接收用户发出的用于调度监控视频的语音信号；语音识别模块，用于将所述语音信号输入至预先训练得到的声音模型进行语音识别，得到识别出的语言文本；语义解析模块，用于将所述语言文本输入至预先训练得到的语义模型进行语义解析，得到用于调度监控视频的调度指令，所述调度指令包括待调度的目标摄像头地址；调度模块，用于基于所述调度指令从视频数据库中调取所述目标摄像头的视频数据。

可选地，当用户选择模糊搜索模式时，所述语音信号包括用户发出的多个连续的语音命令，所述语音识别模块具体用于利用所述声音模型对所述多个连续的语音命令进行语音识别，得到多个语言文本；所述语义解析模块具体用于利用所述语义模型对所述多个语言文本进行语义解析，得到包括多个候选监控摄像头的地址列表。

可选地，还包括：显示模块，用于对所述多个候选监控摄像头的地址列表进行显示；接收用户输入的搜索命令；搜索模块，用于从所述地址列表中搜索满足所述搜索命令的摄像头地址，作为所述目标摄像头的地址；调度模块还用于从视频数据库中调取搜索到的地址对应的视频数据。

可选地，还包括：第一获取模块，用于获取用于进行语音识别训练的样本集，该样本集包括以下内容的语音数据：所有监控场景的建筑名称、所有监控场景的地址名称、时间、操作内容；第一训练模块，用于利用所述样本集对初始声音模型进行训练，得到所述声音模型。

可选地，还包括：第二获取模块，用于获取用于进行语义解析训练的样本集；第二训练模块，用于利用所述样本集对初始语义模型进行训练，得到所述语义模型。

本发明实施例的另一方面，还提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明实施例的另一方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

根据本发明实施例，用户通过语音交互的方式发出语音信号，调度***接收用户发出的语音信号，并利用声音模型对语音信号进行语音识别，得到对应的语言文本，然后利用语义模型对语言文本进行解析，得到包含有目标摄像头地址的调度命令，从视频数据库中调取对应的视频数据。本发明无需用户进行鼠标键盘操作，即可实现监控视频的调度，解决了执勤执法民警在执法实践过程中处于远离视频调度终端、移动办公、驾驶车辆等场景时，无法有效使用鼠标键盘进行视频调度操作，而无法调度监控视频的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于语音识别的监控调度方法的流程图；

图2为本发明实施例中调度***的逻辑关系图；

图3为本发明实施例的地址树示意图；

图4为本发明实施例的匹配算法架构图；

图5为本发明实施例的分类算法架构图；

图6为本发明实施例的生成算法架构图；

图7为本发明实施例中基于语音识别的监控调度装置的示意图；

图8为本发明实施例计算机设备的硬件结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供了一种基于语音识别的监控调度方法，如图1所示，方法包括：

步骤S101，接收用户发出的用于调度监控视频的语音信号。

本发明实施例的调度***配置有语音采集设备，例如麦克风，用于采集用户(主要是调度指挥人员)的语音信号，用户通过语音交互的方式向调度***发送指令，调度***接收到语音信号之后，进行后续识别和解析处理。

步骤S102，将所述语音信号输入至预先训练得到的声音模型进行语音识别，得到识别出的语言文本。

由于指挥中心场景有大量外来噪声干扰，指挥员的语速和口音等因素，以及调度命令中会涉及大量相对少见的建筑物名称等，语音识别任务的复杂性相对较高。针对这一点，本发明实施例中，通过对指挥中心内的语音调度场景做了深度定制，采用深度神经网络来训练得到声音模型，具体地，在将所述语音信号输入至预先训练得到的声音模型进行语音识别之前，方法还包括：获取用于进行语音识别训练的样本集，该样本集包括以下内容的语音数据：所有监控场景的建筑名称、所有监控场景的地址名称、时间、操作内容；利用所述样本集对初始声音模型进行训练，得到所述声音模型。

在对所述初始模型训练过程中，将调度指挥中心的声场环境建模放入编码过程，将调度指挥所用的语句结构和语句内容嵌入语音识别的解码过程。具体地，根据当前调度指挥中心的声场环境进行建模，纳入到音频编码过程，将指挥人员在进行监控视频调度时常用的语句结构和常用地名等嵌入到语音识别的解码过程中。

本发明实施例中所述的初始声音模型可以采用目前技术成熟的语音识别模型，例如基于深度神经网络(DNN)的声音模型，并用CPU+GPU的硬件架构完成高效的解码过程，保证了语音识别的速度和准确率。而高度定制的解码算法会保证不会出现和调度命令有较大偏差的语句，同时可以保证可以将命令的核心要素，包括非常少见的地名准确识别。

步骤S103，将所述语言文本输入至预先训练得到的语义模型进行语义解析，得到用于调度监控视频的调度指令，所述调度指令包括待调度的目标摄像头地址。

本发明实施例中，对于声音模型识别出的语言文本，通过语义模型进行语义解析，以解析出相应的调度指令。具体地，语义模型对用户的语音信号转换得到的语言文本进行解析，快速和准确地解析出语音命令中的地名和其他要素，然后处理成符合搜索要求的逻辑表达式，该表达式中携带有目标摄像头地址，也即是索要调度的摄像头地址，通过该地址可以直接在视频数据库中调取目标摄像头的视频数据。本发明实施例所述的摄像头地址可以是用于指示摄像头实际所在位置的地址，如“永丰镇上寺村一队南”；也可以是指在数据库中数据寻址的地址编号。

本发明实施例中，在将所述语言文本输入至预先训练得到的语义模型进行语义解析之前，方法还包括：获取用于进行语义解析训练的样本集；利用所述样本集对初始语义模型进行训练，得到所述语义模型。

本发明实施例中的语义模型基于深度学习来纠正语音识别中的错误以及语音命令本身描述的多样性和灵活性等问题。具体地，以拼音和汉字作为联合输入，同时利用循环神经网络(RNN)的表示学习和基于深度学习的语义匹配(Semantic Matching)来快速和准确地解析出语音命令中的地名和其他要素。

语义模型可以很好地处理字符串的表示和匹配中各种错讹、不规范和大量灵活的变体，可以广泛地应用于复杂的自然语言处理任务，如机器翻译和对话。在大量标注样本的帮助下，深度学习模型可以学会全面地考虑命令语句的完整语境和合理输出模式，从而在语义层面纠正语音识别导致的错误，使得整个语音调度***更加健壮(Robust)，容错性更高。

步骤S104，基于所述调度指令从视频数据库中调取所述目标摄像头的视频数据。

由于调度指令中携带有目标摄像头地址，该地址可以是物理地址，也可以是IP地址，通过在视频数据库中寻址查询和调取目标摄像头的视频数据。

作为一个可选的实施方式，本发明实施例的调度***还提供了模糊索索模式，在该模式下，用户可以根据需要不断完善还修改搜索需求，从而达到视频调度的目的。具体地，当用户选择模糊搜索模式时，所述语音信号包括用户发出的多个连续的语音命令，也即是用户在选择模糊搜索模式的时候，通过与调度***进行对话发出多个语音命令。

上述步骤S102则包括：利用所述声音模型对所述多个连续的语音命令进行语音识别，得到多个语言文本。同样利用声音模型对多个语音命令进行语音识别，得到对应的多个语言文本

进一步地，上述步骤S103则包括：利用所述语义模型对所述多个语言文本进行语义解析，得到包括多个候选监控摄像头的地址列表。通过语义模型解析上述多个语言文本之后，可以匹配出多个符合要求的监控摄像头地址，形成候选监控摄像头地址列表，以供用户做进一步选择或者搜索，或者直接调取所有候选监控摄像头的视频数据。

本发明实施例的调度***还为模糊搜索配置了对话管理机制，对话管理是人机交互对话***中的核心控制组件。对话管理(Dialog Management, DM)控制着人机对话的过程，DM根据对话历史信息，决定此刻对用户的反应。在模糊搜索场景中，用户在对话过程中可以不断修改或完善自己的摄像头地址检索需求，DM需要记录和使用用户搜索上下文信息。在撤销指令的交互过程中，DM需要保存和执行撤销指令对应的摄像头调度操作。DM根据维护的对话状态生成***决策，通过接口与后端/任务模型进行交互。

进一步地可选地，本发明实施例中，在确定出候选监控摄像头的地址列表后，方法还包括：对所述多个候选监控摄像头的地址列表进行显示；接收用户输入的搜索命令；从所述地址列表中搜索满足所述搜索命令的摄像头地址，作为所述目标摄像头的地址；从视频数据库中调取搜索到的地址对应的视频数据。上述搜索命令包括：输入关键词的搜索命令和/或语音命令。

对于显示出的候选监控摄像头的地址列表，用于可以进一步通过语音命令或者输入关键词的搜索命令来进行二次搜索，从而达到精确定位索要调度的监控摄像头。

图2示出了本发明实施例的调度***的逻辑关系图。如图2所示，该调度***包括：语音采集设备201、语音辅助视频调度***202、中央控制模块203、视频数据库204。其中，语音辅助视频调度***202包括语音识别模块2021和语义解析模块2022。语音采集设备201可以是麦克风等设备。

语音识别模块2021通过基于HTTP的REST接口接收从声音采集设备(麦克风)采集到的语音信号，输出为识别的语言文本，语义解析模块2022将语音识别输出的文本解析为视频调度指令(逻辑表达式)传递给视频数据库，进行视频调度。用户使用语音模糊搜索功能时，语音辅助视频调度***返回候选地址列表，然后通过显示界面进行显示，供用户查看以及进一步的检索。语音输入模式通过蓝牙语音输入遥控器控制，视频调度***客户端配置蓝牙接收模块，后端负责接收和处理蓝牙语音遥控信号。

进一步地，本发明实施例中，语音识别模块和语义解析模块采用远程过程调用服务，具体地，语音辅助视频调度***中的语音识别模块和语义解析模块通过基于gRPC的远程过程调用接口提供服务。gRPC是***开源的一个高性能、跨语言的RPC框架，基于HTTP2协议、protobuf和Netty 实现。RPC框架的目标就是让远程服务调用更加简单、透明，RPC框架负责屏蔽底层的传输方式(TCP或者UDP)、序列化方式(XML/Json/二进制) 和通信细节。服务调用者可以像调用本地接口一样调用远程的服务提供者，而不需要关心底层通信细节和调用过程。

本发明实施例可以采用层级搜索算法来进行摄像头地址的模糊搜索，如图3所示，按照给定的词表，对地址进行切分，构建成多层级的地址树。也即是，利用所述语义模型对所述多个语言文本进行语义解析，得到包括多个候选监控摄像头的地址列表，具体可以包括如下步骤：

步骤一，获取模型匹配到的得分最高的k个节点，作为起始节点，并记录其得分。其中k的值可以根据需要进行设置。限制搜索范围为树的1、 2层；

步骤二，计算k个节点的下一层的所有候选节点和用户进一步输入的指令进过模型匹配后的得分，取计算出的得分最高的k个节点，并显示k 个节点对应的下一层子节点。如果用户已经找到相应的节点，则结束搜索；反之，则执行步骤三；

步骤三，接收用户进一步输入的搜索命令，重复上述步骤二，直到用户找到目标摄像头地址，或者所有的结果都为叶子节点。

上述方法中所述的模型可以是指本发明实施例中所述的语义模型，本发明实施例中所述的语义模型采用了深度匹配算法、深度分类算法和生成算法。

进一步地，上述深度匹配算法采用交互式匹配,在底层直接对用户的回答(也即是用户输入的搜索指令)和正确答案进行交互建模,建立拼音级别的匹配信号,形成拼音级别的相似度矩阵.如图4所示，将相似度矩阵看成一张图片,利用卷积神经网络提取局部关联特征的特性,将用户的回答和正确答案关联的关键词提取出来,作为隐含特征；最后通过多层感知机进一步提取深层特征,利用Sigmoid函数进行是否匹配的预测。匹配算法中采用了非层级搜索地址解析算法和层级搜索地址解析算法。

上述深度分类算法同样用到了卷积神经网络的架构,与交互式匹配模型不同的是,深度分类算法直接对用户的回答进行建模.提取隐含特征的结构和匹配模型的结构类似,都是通过卷积以及池化操作来提取深层特征, 网络的最后接上分类的Softmax,进行分类预测。深度分类算法采用了屏幕解析算法、窗格解析算法、类型解析算法、缩放解析算法、左右旋转解析算法、上下旋转解析算法、快进退解析算法、暂停播放解析算法。

上述生成算法，则具体用于时间转写模型，该模型用到的是 Seq2Seq+Attention架构，其模型主要分为两个主要部分，编码器和解码器。生成算法主要采用时间解析算法，整体框架如图5所示。其中：

1)编码器主要是将输入的拼音编码成一个向量，同时为了抽象出汉字的特征，在中间设置Word Feature Model，利用CNN结构构建从拼音到` 汉字`的的深层特征。将得到的Word Feature输入bi-LSTM中，获得句子向量编码。

2)解码器利用编码器得到的句子向量，以及每一个时间步的向量，利用Attention机制，不断的生成带有结构的时间编码。

例如：二零一六年十月九日下午六点半生成的时间编码是：

SY2016M10D09PAH06J30E

其中Word Feature Model如图6所示。

本发明实施例还提供了一种基于语音识别的监控调度装置，该装置可以用于执行本发明上述实施例的监控调度方法，如图7所示，该装置包括：接收模块301，用于接收用户发出的用于调度监控视频的语音信号；语音识别模块302，用于将所述语音信号输入至预先训练得到的声音模型进行语音识别，得到识别出的语言文本；语义解析模块303，用于将所述语言文本输入至预先训练得到的语义模型进行语义解析，得到用于调度监控视频的调度指令，所述调度指令包括待调度的目标摄像头地址；调度模块304，用于基于所述调度指令从视频数据库中调取所述目标摄像头的视频数据。

具体描述参见上述方法实施例，这里不再赘述。

综上，本发明实施例可以达到如下技术效果：

1、智能语音交互。语音辅助视频调度***采用智能语音交互的方式实现视频调度指令的识别和解析。语音交互模式以自然高效的方式实现人机交互界面，改变了传统的鼠标键盘繁复困难的操作模式，大大提高了指挥员执行视频调度的工作效率。

2、自然语言理解。语音辅助视频调度***对语音识别出来的文本进行解析，提取语音调度指令中的地点、时间、操作等内容，最后生成语音调度指令来执行监控视频的调度。自然语言理解功能在一定程度上缓解了环境噪音引起的语音识别的错误带来的影响，消除了语音输入中的模糊性和歧义性，极大提高了视频调度指令解析的准确率。

3、对话管理。语音辅助视频调度***通过对话管理记录人机交互过程中的上下文信息，支持多种模式下的上条指令撤销操作。模糊搜索场景中，用户在对话过程中可以不断修改或完善自己的摄像头地址检索需求，对话管理需要记录和使用用户搜索上下文信息。基于对话管理的上下文信息，***支持多种模式下的默认操作。

4、场景化的视频调度。语音辅助视频调度***以人机语音交互的方式实现视频调度，能够彻底解放双手，满足远程、移动、车载等特殊场景下的视频调度的需求，解决了公安干警办案过程中处于远离视频调度终端、移动办公、驾驶车辆等场景时，无法有效使用鼠标键盘进行视频调度操作的难题。

本实施例还提供一种计算机设备，如可以执行程序的台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备 40至少包括但不限于：可通过***总线相互通信连接的存储器41、处理器 42，如图8所示。需要指出的是，图8仅示出了具有组件41-42的计算机设备40，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器41(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器41可以是计算机设备40的内部存储单元，例如该计算机设备40的硬盘或内存。在另一些实施例中，存储器41 也可以是计算机设备40的外部存储设备，例如该计算机设备40上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital, SD)卡，闪存卡(Flash Card)等。当然，存储器41还可以既包括计算机设备40的内部存储单元也包括其外部存储设备。本实施例中，存储器41 通常用于存储安装于计算机设备20的操作***和各类应用软件，例如实施例所述的基于语音识别的监控调度装置的程序代码等。此外，存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器42在一些实施例中可以是中央处理器(Central Processing Unit， CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42 通常用于控制计算机设备40的总体操作。本实施例中，处理器42用于运行存储器41中存储的程序代码或者处理数据，例如运行基于语音识别的监控调度装置，以实现实施例的基于语音识别的监控调度方法。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于语音识别的监控调度装置，被处理器执行时实现实施例的基于语音识别的监控调度方法。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本申请的保护范围之中。

Claims

1.一种基于语音识别的监控调度方法，其特征在于，包括：

接收用户发出的用于调度监控视频的语音信号；

将所述语音信号输入至预先训练得到的声音模型进行语音识别，得到识别出的语言文本；

将所述语言文本输入至预先训练得到的语义模型进行语义解析，得到用于调度监控视频的调度指令，所述调度指令包括待调度的目标摄像头地址；

基于所述调度指令从视频数据库中调取所述目标摄像头的视频数据。

2.根据权利要求1所述的监控调度方法，其特征在于，当用户选择模糊搜索模式时，所述语音信号包括用户发出的多个连续的语音命令，

将所述语音信号输入至预先训练得到的声音模型进行语音识别，得到识别出的语言文本，包括：利用所述声音模型对所述多个连续的语音命令进行语音识别，得到多个语言文本；

将所述语言文本输入至预先训练得到的语义模型进行语义解析，得到用于调度监控视频的调度指令，包括：利用所述语义模型对所述多个语言文本进行语义解析，得到包括多个候选监控摄像头的地址列表。

3.根据权利要求2所述的监控调度方法，其特征在于，还包括：

对所述多个候选监控摄像头的地址列表进行显示；

接收用户输入的搜索命令；

从所述地址列表中搜索满足所述搜索命令的摄像头地址，作为所述目标摄像头的地址；

从视频数据库中调取搜索到的地址对应的视频数据。

4.根据权利要求3所述的监控调度方法，其特征在于，所述搜索命令包括：输入关键词的搜索命令和/或语音命令。

5.根据权利要求1-4任一项所述的监控调度方法，其特征在于，在将所述语音信号输入至预先训练得到的声音模型进行语音识别之前，还包括：

获取用于进行语音识别训练的样本集，该样本集包括以下内容的语音数据：所有监控场景的建筑名称、所有监控场景的地址名称、时间、操作内容；

利用所述样本集对初始声音模型进行训练，得到所述声音模型。

6.根据权利要求5所述的监控调度方法，其特征在于，在对所述初始模型训练过程中，将调度指挥中心的声场环境建模放入编码过程，将调度指挥所用的语句结构和语句内容嵌入语音识别的解码过程。

7.根据权利要求1-4任一项所述的监控调度方法，其特征在于，在将所述语言文本输入至预先训练得到的语义模型进行语义解析之前，还包括：

获取用于进行语义解析训练的样本集；

利用所述样本集对初始语义模型进行训练，得到所述语义模型。

8.一种基于语音识别的监控调度装置，其特征在于，包括：

接收模块，用于接收用户发出的用于调度监控视频的语音信号；

语音识别模块，用于将所述语音信号输入至预先训练得到的声音模型进行语音识别，得到识别出的语言文本；

语义解析模块，用于将所述语言文本输入至预先训练得到的语义模型进行语义解析，得到用于调度监控视频的调度指令，所述调度指令包括待调度的目标摄像头地址；

调度模块，用于基于所述调度指令从视频数据库中调取所述目标摄像头的视频数据。

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。