CN112735413B

CN112735413B - 一种基于摄像装置的指令分析方法、电子设备和存储介质

Info

Publication number: CN112735413B
Application number: CN202011565606.1A
Authority: CN
Inventors: 徐阳
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2024-05-31
Anticipated expiration: 2040-12-25
Also published as: CN112735413A

Abstract

本申请公开了一种基于摄像装置的指令分析方法、电子设备和存储介质，该方法包括：将用户的原始语言对应的文本按词性拆分，以获得分词结果；判断分词结果是否属于摄像装置指令；响应于分词结果属于摄像装置指令，将分词结果中的字词按预设方式进行组合以获得至少一个语句结构；提取语句结构对应的控制指令和语句结构中的关键词，进而将控制指令和关键词下发至摄像装置。通过上述方式，本申请能够从原始语句中准确提取针对摄像装置的控制指令和关键词，以提高摄像装置指令分析的效率和准确率。

Description

一种基于摄像装置的指令分析方法、电子设备和存储介质

技术领域

本申请涉及语音处理技术领域，特别是涉及一种基于摄像装置的指令分析方法、电子设备和存储介质。

背景技术

随着人工智能的发展，利用语音进行控制的产品逐渐增多，对于摄像装置而言，现有的指令分析的方法仍局限于使用标准的模板指令，比如：打开摄像头、关闭摄像头等。

但是，由于用户的语音在不同背景下的语义十分复杂，当用户的语音中未使用标准的模板指令时，摄像装置在接收到语音后很难与标准的规则匹配，进而导致指令分析的成功率和效率都比较低。

发明内容

本申请主要解决的技术问题是提供一种基于摄像装置的指令分析方法、电子设备和存储介质，能够从原始语句中准确提取针对摄像装置的控制指令和关键词。

为解决上述技术问题，本申请第一方面提供一种基于摄像装置的指令分析方法，该方法包括：将用户的原始语言对应的文本按词性拆分，以获得分词结果；判断所述分词结果是否属于摄像装置指令；响应于所述分词结果属于所述摄像装置指令，将所述分词结果中的字词按预设方式进行组合以获得至少一个语句结构；提取所述语句结构对应的控制指令和所述语句结构中的关键词，进而将所述控制指令和所述关键词下发至所述摄像装置。

其中，所述将用户的原始语言对应的文本按词性拆分，以获得分词结果的步骤，包括：获得所述用户的原始语言，将所述原始语言转换为文本；将所述文本按词性拆分为多个字词，并为所述字词设置对应的词性标记以获得所述分词结果。

其中，所述判断所述分词结果是否属于摄像装置指令的步骤，包括：将所述分词结果输入二分类模型，以使所述二分类模型判断所述分词结果是否属于摄像装置指令；其中，所述二分类包括摄像装置指令和非摄像装置指令。

其中，所述二分类模型判断所述分词结果是否属于摄像装置指令的步骤，包括：判断所述分词结果是否包含预设的字词和预设的词性标记；若包含，则判定所述分词结果为所述摄像装置指令；否则，判定所述分词结果为所述非摄像装置指令。

其中，所述将所述分词结果中的字词按预设方式进行组合以获得至少一个语句结构的步骤，包括：获得所述词性标记的组合频繁度；利用所述词性标记对应的组合频繁度，将至少部分所述字词分别组合以获得至少一个语句结构。

其中，所述提取所述语句结构对应的控制指令和所述语句结构中的关键词的步骤，包括：将所述语句结构输入控制指令分析模型，以提取所述语句结构对应的控制指令；其中，所述控制指令预先存储于所述控制指令分析模型的控制指令库中；将所述语句结构输入关键词提取模型，以获得所述语句结构中包含的关键词。

其中，所述控制指令分析模型为深度学习指令分析模型；所述将所述语句结构输入控制指令分析模型，以提取所述语句结构对应的控制指令的步骤，包括：将所述语句结构输入所述深度学习指令分析模型，以获得所述语句结构中包含的词向量；从所述控制指令库中获取与所述词向量匹配的控制指令。

其中，所述关键词提取模型包括摄像装置名称模块和时间模块；所述将所述语句结构输入关键词提取模型，以获得所述语句结构中包含的关键词的步骤，包括：将所述语句结构输入所述摄像装置名称模块，以获得所述语句结构中包含的摄像装置名称关键词；将所述语句结构输入所述时间模块，以获得所述语句结构中包含的时间关键词。

为解决上述技术问题，本申请第二方面提供一种电子设备，该电子设备包括相互耦接的存储器和处理器，其中，所述存储器存储有程序数据，所述处理器调用所述程序数据以执行上述第一方面的基于摄像装置的指令分析方法。

为解决上述技术问题，本申请第三方面提供一种计算机存储介质，该计算机存储介质上存储有程序数据，所述程序数据被处理器执行时实现上述第一方面的基于摄像装置的指令分析方法。

本申请的有益效果是：本申请将用户的原始语言按词性分词从而获得分词结果，对分词结果进行判断，过滤非摄像装置指令，减少无效分析的时间，当分词结果属于摄像装置指令时，将分词结果中的字词组合成语句结构，以使语句结构能更接近用户原始语言的语义，进而从语句结构中准确提取针对摄像装置的控制指令和关键词，以提高摄像装置指令分析的效率和准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的基于摄像装置的指令分析方法一实施方式的流程示意图；

图2是本申请提供的基于摄像装置的指令分析方法另一实施方式的流程示意图；

图3是本申请提供的电子设备一实施方式的结构示意图；

图4是本申请提供的计算机存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“***”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请提供的基于摄像装置的指令分析方法一实施方式的流程示意图，该方法包括：

步骤S101：将用户的原始语言对应的文本按词性拆分，以获得分词结果。

具体地，摄像装置接收到用户的原始语言，其中该原始语言可由摄像装置接收监控范围内的语音，也可由摄像装置接收在距离其一定长度范围内的语音，也可由用户在移动终端发出语音并通过服务器转发至摄像装置。

进一步地，分析原始语言所对应的文本，其中，用户的原始语言可为中文，但不限于中文。在获得文本后，将文本中的字词按照词性进行拆分以获得分词结果，上述词性至少包括时间名词、地点名词、连词、动词、助词、量词、形容词和一般名词。

在一具体应用场景中，当摄像装置接收到“回放滨康路10点的视频并且全屏”的语音后，将其转换为对应的文本并按照词性拆分，以获得['回放'，'滨康路'，'10'，'点'，'的'，'视频'，'并且'，'全屏']，其中，分别对应：动词、地点名词、时间名词、量词、助词、一般名词、连词、一般名词。

步骤S102：判断分词结果是否属于摄像装置指令。

具体地，在获得分词结果后，查找一般名词中是否包含与摄像装置相关的字词，动词中是否包含与开启或关闭、正放或倒放等用于控制摄像装置的字词，进而确定当前的分词结果是否属于摄像装置指令，进而将不属于摄像装置指令的文本剔除，不进入后续判断，以减少对非摄像装置指令的文本进行分析，提高指令分析的效率。

步骤S103：响应于分词结果属于摄像装置指令，将分词结果中的字词按预设方式进行组合以获得至少一个语句结构。

具体地，当分词结果属于摄像装置指令时，将分词结果输入字词组合模型，以使字词组合模型输出将字词组合后的语句结构。

需要说明的是，上述字词组合模型经过预先训练，在训练字词组合模型时，将多个不同的分词结果输入该字词组合模型，以使字词组合模型进行学习摄像装置指令中哪些词性的字词会组合成语句结构，哪些词性的字词会需要进行断句。比如：对于“并且”、“同时”这样的连词，连词前后的字词通常需要断开，而形容词和一般名词通常需要进行组合。

在一具体应用场景中，输入分词结果['回放'，'滨康路'，'10'，'点'，'的'，'视频'，'并且'，'全屏']至字词组合模型，输出三个语句结构['回放滨康路10点的视频/并且/全屏']。

步骤S104：提取语句结构对应的控制指令和语句结构中的关键词，进而将控制指令和关键词下发至摄像装置。

具体地，分析重新组合后的语句结构的语义，提取其中的控制指令和关键词。在上述步骤S103中，对于分词结果中的字词进行了组合，以获得了相应的语句结构，语句结构的断句可提高分析原始语言对应的语义的准确度。

进一步地，从所有语句结构中获取其中的指令类型词，并将指令类型词与标准指令进行匹配，以获得语句结构对应的控制指令。比如：“打开视频回放模块”和“打开滨康路的摄像头”中的“打开”一词，前者为开启一个模块，作为开启指令，而后者为预览一个地方的摄像头视频，作为预览指令。此外，从所有语句结构中获取其中的关键词，关键词至少包括时间关键词和地点关键词。

在一具体应用场景中，输入语句结构['回放滨康路10点的视频/并且/全屏']，输出地点关键词和时间关键词['滨康路'，'2020-10-26 10:00:00']，控制指令为“点播”。

步骤S105：结束本次指令分析。

具体地，结束当前的指令分析后，持续等待接收用户的语音，并在接收到用户输入的原始语言后返回步骤S101。

本实施例所提供的基于摄像装置的指令分析方法，将用户的原始语言按词性分词从而获得分词结果，对分词结果进行判断，过滤非摄像装置指令，减少无效分析的时间，当分词结果属于摄像装置指令时，将分词结果中的字词组合成语句结构，以使语句结构能更接近用户原始语言的语义，进而从语句结构中准确提取针对摄像装置的控制指令和关键词，以提高摄像装置指令分析的效率和准确率。

请参阅图2，图2是本申请提供的基于摄像装置的指令分析方法另一实施方式的流程示意图，该方法包括：

步骤S201：获得用户的原始语言，将原始语言转换为文本。

具体地，响应于获取到用户的原始语言，将原始语言输入语言识别模型，以识别原始语言中的文字，将原始语言转换为文本。其中，上述语言识别模型经过预先训练，以用于捕获原始语言的声纹并与语音库中的文字匹配，进而将原始语言转换为文本。

步骤S202：将文本按词性拆分为多个字词，并为字词设置对应的词性标记以获得分词结果。

具体地，将文本中所有的字词按照词性进行拆分，并为拆分后的字词配置对应的词性标记，进而将字词及其对应的词性标记存储，以获得分词结果。其中，词性标记将字词的属性标识出来，以辅助后续对分词结果进行判断以及将字词进行组合的步骤，提高判断是否属于摄像装置指令以及进行字词组合的效率。

在一应用方式中，将原始语言对应的文本输入语言技术平台(LanguageTechnology Plantform，LTP)，利用LTP对文本中的字词进行拆分，并为字词设置对应的词性标记。

在一具体应用场景中，当摄像装置接收到“回放滨康路10点的视频并且全屏”的语音后，将其转换为对应的文本并按照词性拆分，以获得字词['回放'，'滨康路'，'10'，'点'，'的'，'视频'，'并且'，'全屏']和词性标记['v'，'nz'，'m'，'q'，'u'，'n'，'c'，'n']。

步骤S203：判断分词结果是否属于摄像装置指令。

具体地，对于原始语言的分词结果进行判断时，输出的结果必然是属于摄像装置指令或不属于摄像装置指令，其本质上属于二分类问题。

在一应用方式中，步骤S203具体包括：将分词结果输入二分类模型，以使二分类模型判断分词结果是否属于摄像装置指令。其中，二分类包括摄像装置指令和非摄像装置指令。

具体地，上述二分类模型包括但不局限于基于逻辑回归、支持向量机(supportvector machines,SVM)算法的模型，该二分类模型经过预先训练，以用于判断当前输入的分词结果是否属于摄像装置指令。在训练阶段，将多个分词结果分别输入二分类模型，二分类模型输出相应的结果，用户对二分类模型的参数进行不断的调整和完善，以提高二分类模型的判断精度和准确度。

进一步地，在应用二分类模型时，将当前的分词结果输入二分类模型，藉由二分类模型迅速输出判断结果，若当前的分词结果为摄像装置指令则进入步骤S204，若当前的分词结果为非摄像装置指令则进入步骤S207，将非摄像装置指令剔除，以提高指令分析的效率。

具体地，二分类模型判断分词结果是否属于摄像装置指令的步骤，包括：判断分词结果是否包含预设的字词和预设的词性标记；若包含，则判定分词结果为摄像装置指令；否则，判定分词结果为非摄像装置指令。

可以理解的是，在属于摄像装置指令的分词结果中包含有标志性的词汇。在训练二分类模型的阶段，可获得属于摄像装置指令的分词结果中的高频字词，比如：摄像、录像、监控、回放、打开、关闭等字词，并且，摄像装置指令至少包括动词和一般名词的词性标记。因此，将高频字词和必备的词性分别设为预设的字词和预设的词性标记，可有利于提高判断是否属于摄像装置指令的效率。

步骤S204：获得词性标记的组合频繁度。

具体地，利用序列模式挖掘算法训练字词组合模型，根据词性标记将摄像装置指令中常见词性进行组合，经过多次训练后在字词组合模型中生成词性标记的组合频繁度。其中，上述序列模式挖掘算法包括但不限于PrefixSpan和条件随机场(ConditionalRandom Field，CRF)算法。

步骤S205：利用词性标记对应的组合频繁度，将至少部分字词分别组合以获得至少一个语句结构。

具体地，根据词性标记对应的组合频繁度，将分词结果中的字词进行组合以获得语句结构，当分词结果中的字词在进行组合时需要进行断句，则将分词结果中的部分字词进行组合生成一个语句结构，进而在分词结果中的所有字词组合完成后生成多个语句结构。

在一应用方式中，根据词性标记对应的组合频繁度，将部分字词按照字词在文本中的顺序进行组合，获得一个或多个语句结构。当字词按照用户的原始语言的顺序进行组合时，语句结构能够更接近用户输入的原始语言。

步骤S206：提取语句结构对应的控制指令和语句结构中的关键词，进而将控制指令和关键词下发至摄像装置。

具体地，将语句结构输入控制指令分析模型，以提取语句结构对应的控制指令；其中，控制指令预先存储于控制指令分析模型的控制指令库中；将语句结构输入关键词提取模型，以获得语句结构中包含的关键词。

在一应用方式中，控制指令分析模型经过预先训练能够提取语句结构中的指令类型词，并分析指令类型词在语句结构中的语义，提取指令类型词对应的高阶特征。比如：“开启滨康路的摄像头电源”和“开启滨康路的摄像头回放”中的“开启”一词，前者为唤醒摄像装置使其退出休眠状态，在控制指令库中查找匹配为唤醒指令，而后者为回看一段视频，在控制指令库中查找匹配为点播指令。通过对指令类型词的分析，获取指令类型词对应的高阶特征，以提高分析并提取控制指令的准确率和匹配度。

进一步地，关键词提取模型经过预先训练能够提取语句结构中的摄像装置名称和时间关键词，其中，摄像装置名称可由地理位置来对应，时间关键词未指定具体日期的默认为距离当前时间点之前最近的时间点。比如，当前时间点为2020年10月26日18点，输入语句结构['回放滨康路10点的视频/并且/全屏']，输出摄像装置名称和时间关键词['滨康路摄像头'，'2020-10-26 10:00:00']。通过分析获取语句结构中的关键词对摄像装置进行定位，在包括时间信息时利用时间关键词对时间节点进行定位，以提高最终定位到的摄像装置和时间节点与用户原始语言中包含的语义的匹配度。

在一具体应用场景中，控制指令分析模型为深度学习指令分析模型。其中，将语句结构输入控制指令分析模型，以提取语句结构对应的控制指令的步骤，包括：将语句结构输入深度学习指令分析模型，以获得语句结构中包含的词向量；从控制指令库中获取与词向量匹配的控制指令。

具体地，上述深度学习指令分析模型为bert+textcnn或者bert+lstm模型，利用bert模型生成词向量，该词向量为字词的高阶特征，利用textcnn或lstm模型将词向量置于语句结构中分析获取词向量在语句结构中的含义，将词向量与控制指令库中标准指令进行匹配，比如：打开、关闭、预览、点播、前进、后退等。其中，bert模型生成的词向量的高阶特征更加准确，进而textcnn或lstm模型可结合语句结构中的上下文以分析词向量的真实含义，提高了语义分析的准确率。

在一具体应用场景中，关键词提取模型包括摄像装置名称模块和时间模块。其中，将语句结构输入关键词提取模型，以获得语句结构中包含的关键词的步骤，包括：将语句结构输入摄像装置名称模块，以获得语句结构中包含的摄像装置名称关键词；将语句结构输入时间模块，以获得语句结构中包含的时间关键词。

具体地，关键词提取模型中的摄像装置名称模块采用命名实体识别算法BILSTM+CRF或BERT+CRF算法，将语句结构输入摄像装置模型，以获取每个语句结构中的摄像装置名称关键词。

进一步地，判断语句结构中是否包括时间信息，若包括，则将语句结构输入时间模块以分析语句结构中的时间节点或时间跨度，提取出时间节点或时间跨度作为时间关键词，否则，进入步骤S207。

在一实施场景中，当按照字词在文本中的顺序进行组合后获得的语句结构无法提取出控制指令或者关键词时，则返回步骤S205并根据词性标记对应的组合频繁度将部分字词按组合频繁度中的顺序进行重新组合，以获得一个或多个语句结构，当用户的原始语言中的字词不准确时，使语句结构中的字词组合后更加通顺，以便于分析语句结构中包含的语义。

步骤S207：结束本次指令分析。

本实施例所提供的基于摄像装置的指令分析方法，利用多个模型提取分词结果或语句结构中的高阶特征，对高阶特征进行分析，获取其中包含的控制命令和关键词，从原始语言中获取更多有用的特征信息以提高指令分析的准确率。

请参阅图3，图3是本申请提供的电子设备一实施方式的结构示意图，该电子设备30包括相互耦接的存储器301和处理器302，其中，存储器301存储有程序数据(图未示)，处理器302调用程序数据以实现上述任一实施例中的基于摄像装置的指令分析方法，相关内容的说明请参见上述方法实施例的详细描述，在此不再赘叙。

请参阅图4，图4是本申请提供的计算机存储介质一实施方式的结构示意图，该计算机存储介质40存储有程序数据400，该程序数据400被处理器执行时实现上述任一实施例中的基于摄像装置的指令分析方法，相关内容的说明请参见上述方法实施例的详细描述，在此不再赘叙。

需要说明的是，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于摄像装置的指令分析方法，其特征在于，所述方法包括：

将用户的原始语言对应的文本按词性拆分，以获得分词结果；

判断所述分词结果是否属于摄像装置指令；

响应于所述分词结果属于所述摄像装置指令，将所述分词结果中的字词按预设方式进行组合以获得至少一个语句结构；其中，所述分词结果中的部分字词组合生成一个语句结构，所述分词结果中的所有字词组合完成后生成多个语句结构，多个所述语句结构之间对应有断句；

提取所述语句结构对应的控制指令和所述语句结构中的关键词，进而将所述控制指令和所述关键词下发至所述摄像装置；

其中，所述将用户的原始语言对应的文本按词性拆分，以获得分词结果的步骤，包括：获得所述用户的原始语言，将所述原始语言转换为文本；将所述文本按词性拆分为多个字词，并为所述字词设置对应的词性标记以获得所述分词结果；

所述将所述分词结果中的字词按预设方式进行组合以获得至少一个语句结构的步骤，包括：获得所述词性标记的组合频繁度；利用所述词性标记对应的组合频繁度，将至少部分所述字词分别组合以获得至少一个语句结构。

2.根据权利要求1所述的方法，其特征在于，所述判断所述分词结果是否属于摄像装置指令的步骤，包括：

将所述分词结果输入二分类模型，以使所述二分类模型判断所述分词结果是否属于摄像装置指令；其中，所述二分类包括摄像装置指令和非摄像装置指令。

3.根据权利要求2所述的方法，其特征在于，所述二分类模型判断所述分词结果是否属于摄像装置指令的步骤，包括：

判断所述分词结果是否包含预设的字词和预设的词性标记；

若包含，则判定所述分词结果为所述摄像装置指令；否则，判定所述分词结果为所述非摄像装置指令。

4.根据权利要求1所述的方法，其特征在于，所述提取所述语句结构对应的控制指令和所述语句结构中的关键词的步骤，包括：

将所述语句结构输入控制指令分析模型，以提取所述语句结构对应的控制指令；其中，所述控制指令预先存储于所述控制指令分析模型的控制指令库中；

将所述语句结构输入关键词提取模型，以获得所述语句结构中包含的关键词。

5.根据权利要求4所述的方法，其特征在于，

所述控制指令分析模型为深度学习指令分析模型；

所述将所述语句结构输入控制指令分析模型，以提取所述语句结构对应的控制指令的步骤，包括：

将所述语句结构输入所述深度学习指令分析模型，以获得所述语句结构中包含的词向量；

从所述控制指令库中获取与所述词向量匹配的控制指令。

6.根据权利要求4所述的方法，其特征在于，

所述关键词提取模型包括摄像装置名称模块和时间模块；

所述将所述语句结构输入关键词提取模型，以获得所述语句结构中包含的关键词的步骤，包括：

将所述语句结构输入所述摄像装置名称模块，以获得所述语句结构中包含的摄像装置名称关键词；

将所述语句结构输入所述时间模块，以获得所述语句结构中包含的时间关键词。

7.一种电子设备，其特征在于，包括：相互耦接的存储器和处理器，其中，所述存储器存储有程序数据，所述处理器调用所述程序数据以执行如权利要求1-6中任一项所述的方法。

8.一种计算机存储介质，其上存储有程序数据，其特征在于，所述程序数据被处理器执行时实现如权利要求1-6中任一项所述的方法。