WO2016026446A1

WO2016026446A1 - 智能摄像的实现方法、智能摄像和网络摄像头

Info

Publication number: WO2016026446A1
Application number: PCT/CN2015/087559
Authority: WO
Inventors: 沈海寅; 房文新; 王禾丰
Original assignee: 北京奇虎科技有限公司; 奇智软件（北京）有限公司
Priority date: 2014-08-19
Filing date: 2015-08-19
Publication date: 2016-02-25
Also published as: CN105407316A; CN105407316B

Abstract

本发明公开了一种智能摄像***的实现方法、智能摄像***和网络摄像头；其中的智能摄像***主要包括：服务器以及网络摄像头；且其中的方法包括：网络摄像头在视频监控状态下采集其所在环境的音频数据，并对其采集的音频数据进行语音识别；网络摄像头从语音识别结果中提取关键词；在所述提取的关键词属于预定关键词的情况下，网络摄像头向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求，所述基础数据包括：所述关键词、音频数据以及视频数据中的至少一种；服务器根据接收到的处理请求中的基础数据产生处理响应，并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互。

Description

智能摄像***的实现方法、智能摄像***和网络摄像头

技术领域

本发明涉及视频监控技术，具体涉及一种智能摄像***的实现方法、智能摄像***以及网络摄像头。

背景技术

现有的一些摄像头可以通过网络与服务器连接，且一个服务器可以连接大量的摄像头，用户可以通过服务器调取并查看摄像头摄取的画面。这样的摄像头可以称为网络摄像头。

现有的网络摄像头与用户或服务器之间的交互通常包括如下两种：

一、网络摄像头通过其指示灯或者蜂鸣器等元器件告知用户网络摄像头的当前状态。网络摄像头的状态通常包括：在线、离线、启动、被查看、异常报警以及死机等；例如，对于Dropcam摄像头而言，蓝灯长亮表示摄像头当前在线，绿灯长亮表示摄像头当前离线，蓝灯闪烁表示有人正在通过服务器查看摄像头，红灯闪烁表示摄像头自身出现异常而报警，红灯长亮表示摄像头当前处于死机状态；再例如，蜂鸣声1表示摄像头当前在线，蜂鸣声2表示摄像头当前离线，蜂鸣声3表示摄像头当前正在启动。

二、网络摄像头通知服务器其已上线以及网络摄像头应服务器的请求向服务器传输其摄取的视频画面。

发明人在实现本发明过程中发现，网络摄像头依赖于指示灯的颜色、闪烁速度、亮度、蜂鸣器合成音种类、蜂鸣速度以及蜂鸣声音大小等所表达的信息非常有限；且网络摄像头向服务器提供的信息较单一；由此可知，现有的摄像***的智能化程度有待于进一步提高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的智能摄像***的实现方法、智能摄像***以及网络摄像头。

依据本发明的一个方面，提供了一种智能摄像***的实现方法，该方法包括：网络摄像头在视频监控状态下采集其所在环境的音频数据，并对其采集的音频数据进行语音识别；网络摄像头从语音识别结果中提取关键词；在所述提取的关键词属于预定关键词的情况下，网络摄像头向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求，所述基础数据包括：所述关键词、音频数据以及视频数据中的至少一种；指定服务器根据接收到的处理请求中的基础数据产生处理响应，并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互。

依据本发明的再一个方面，提供了一种智能摄像***，该***包括：采集模块，设置于网络摄像头中，适于在网络摄像头处于视频监控状态下，采集网络摄像头所在环境的音频数据；第一语音识别模块，设置于网络摄像头中，适于对采集模块采集的音频数据进行语音识别；提取模块，设置于网络摄像头中，适于从语音识别结果中提取关键词；请求模块，设置于网络摄像头中，适于在所述提取的关键词属于预定关键词的情况下，向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求，所述基础数据包括：所述关键词、音频数据以及视频数据中的至少一种；处理模块，设置于指定服务器中，适于根据指定服务器接收到的处理请求中的基础数据产生处理响应，并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互。

依据本发明的再一个方面，提供了一种网络摄像头，该网络摄像头主要包括：采集模块，适于在网络摄像头处于视频监控状态下采集网络摄像头所在环境的音频数据；第一语音识别模块，适于对采集模块采集的音频数据进行语音识别；提取模块，适于从语音识别结果中提取关键词；请求模块，适于在所述提取的关键词属于预定关键词的情况下，向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求，以使指定服务器根据接收到的处理请求中的基础数据产生处理响应，并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互，所述基础数据包括：所述关键词、音频数据以及视频数据中的至少一种。

根据本发明的又一个方面，提供了一种计算机程序，其包括计算机可读代码，当所述计算机可读代码在计算设备上运行时，导致所述计算设备执行任一个上述的智能摄像***的实现方法。

根据本发明的再一个方面，提供了一种计算机可读介质，其中存储了上述的计算机程序。

本发明的智能摄像***的实现方法、智能摄像***和网络摄像头通过网络摄像头采集音频数据以及对采集的音频数据进行语音识别，并基于语音识别结果向服务器发送相应的处理请求，使服务器可以根据该处理请求中的基础数据与用户智能终端设备以及网络摄像头进行相应的信息交互，例如，服务器联通用户智能终端设备与网络摄像头，使用户智能终端设备和网络摄像头之间可以实现网络通话，再例如，服务器向网络摄像头返回用户需要查询的信息的音频数据，由网络摄像头播放该音频数据等；从而本发明实施例提高了网络摄像头的信息交互能力，进而提高了智能摄像***的智能化程度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明实施例一的智能摄像***的实现方法流程图；

图2示出了根据本发明实施例二的包含有网络摄像头具体结构的智能摄像***示意图；

图3示意性地示出了用于执行根据本发明的智能摄像***的实现方法的计算设备的框图；以及

图4示意性地示出了用于保持或者携带实现根据本发明的智能摄像***的实现方法的程序代码的存储单元。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步的描述。

实施例一、智能摄像***的实现方法。

本实施例中的智能摄像***主要包括：服务器以及网络摄像头，且一个服务器与一个或者多个网络摄像头分别连接；例如，网络摄像头通过无线连接方式(例如WIFI，无线保真，一种可以将个人电脑、手持设备等终端以无线方式互相连接的技术)与服务器连接，当然，网络摄像头也可以通过有线连接方式与服务器连接。本实施例中的服务器还与多个用户智能终端设备分别连接，例如，用户智能终端设备通过WIFI或者GSM(全球移动通信***，Global System for Mobile Communication)或者CDMA(码分多址，Code Division Multiple Access)或者WCDMA(宽带码分多址，Wideband Code Division Multiple Access)等移动通讯技术与服务器连接。

本实施例中的服务器可以为设置于云端的服务器，即云端服务器。本实施例中的网络摄像头可以具体为集成有语音识别功能以及音频播放功能的网络摄像头。另外，上述用户智能终端设备可以为智能移动电话或者台式计算机或者笔记型计算机或者平板电脑等可以通过移动通讯技术与服务器进行信息交互的智能电子设备。

下面结合图1对本实施例的方法所包含的各个步骤进行说明。

在图1中，S100、网络摄像头在视频监控状态下采集其所在环境的音频数据，并对其采集的音频数据进行语音识别。

具体的，本实施例的网络摄像头可以工作在多种不同的工作状态下，并在某一操作的触发下切换其工作状态，也就是说，网络摄像头可以根据实际情况自动的从其一种工作状态切换到另一种工作状态。

本实施例中的网络摄像头的工作状态主要包括：视频监控状态、通话状态以及媒体数据播放状态；在通常情况下，视频监控状态是网络摄像头的正常工作状态，即网络摄像头采集其所在环境的视频数据，并存储其采集到的视频数据，以实现目前摄像头通常的视频监控功能；通话状态即网络摄像头与用户智能终端设备之间所进行的媒体数据(如音频数据或视频数据)的交互，也就是说，网络摄像头和用户智能终端设备之间通过服务器而联通，这样，网络摄像头位置处的用户和用户智能终端设备位置处的用户可以通过网络摄像头和用户智能终端设备实现IP(网络之间互连的协议，Internet Protocol)通话(即网络通话)；媒体数据播放状态即网络摄像头与服务器之间的媒体数据(如音频数据或者视频数据)的传输，也就是说，网络摄像头接收服务器传输来的媒体数据(如音频数据或者视频数据)，并播放该媒体数据。本实施例中的网络摄像头在通常情况下会处于视频监控状态。

上述IP通话可以具体为IP语音通话，也可以具体为IP视频通话，该IP通话可以为现有的社交应用中的多媒体通话，如该IP通话可以为QQ聊天工具中的视频通话或者微信聊天工具中的视频聊天等。

本实施例中的网络摄像头无论是处于视频监控状态，还是其处于通话状态，亦或是处于媒体数据播放状态，均可以按照预先设定的参数(如采集频率等)执行音频数据的采集操作；但是，在通常情况下，网络摄像头只有在其处于视频监控状态下，才会对其采集到的音频数据执行语音识别处理；然而，在实际应用中，网络摄像头在其处于通话状态或者媒体数据播放状态时对其采集到的音频数据执行语音识别处理也是完全可行的。

本实施例中的网络摄像头具有简单的语音识别处理能力，如网络摄像头可以将其采集的音频数据转化为文本文字等。网络摄像头可以采用现有的语音识别技术对其采集的音频数据进行语音识别处理。在本实施例中不再详细描述网络摄像头进行语音识别处理的具体实现过程。

S110、网络摄像头从语音识别结果中提取关键词。

具体的，网络摄像头可以将其语音识别结果中的语气助词以及连词等不重要的字或者词去除，从而获得一个或者多个关键词。在网络摄像头将其采集的音频数据转化为文本文字的情况下，网络摄像头可以采用多种方式从语音识别出的文本文字中提取关键词，例如，网络摄像头可以采用文本关键词提取算法来获得关键词。在本实施例中不再详细描述网络摄像头进行关键词提取的具体实现过程。

S120、在网络摄像头提取的关键词属于预定关键词的情况下，网络摄像头向指定服务器(即上述服务器)发送携带有网络摄像头的标识信息以及基础数据的处理请求，这里的基础数据包括：关键词、音频数据以及视频数据中的至少一种。

具体的，预定关键词可以是网络摄像头中本地存储的关键词，也可以是存储于其他设备中的关键词。下述以预定关键词为网络摄像头中存储的关键词为例进行说明。

网络摄像头中预先设置有一个或者多个关键词，这些预先设置的关键词形成关键词集合；用户可以通过其用户智能终端设备访问与网络摄像头连接的服务器，并利用服务器设置网络摄像头中的关键词集合所包含的部分或者全部关键词；另外，上述关键词集合所包含的部分或者全部关键词也可以是网络摄像头在出厂时设置于网络摄像头中的。

网络摄像头可以将其提取出的关键词与关键词集合中的关键词进行比较以根据比较结果产生相应的处理请求，如网络摄像头将其提取出的关键词与关键词集合中的关键词进行匹配，网络摄像头可以在其提取出的任何一个关键词与其存储的关键词集合中的一个关键词匹配的情况下，生成相应的处理请求，并将该处理请求发送给服务器。

网络摄像头生成的处理请求中应携带有其网络摄像头的标识信息，以表明该处理请求是哪个网络摄像头发送给服务器的。该处理请求中还可以携带有网络摄像头提取出的关键词，以表示网络摄像头希望服务器能够根据处理请求中携带的关键词而执行相应的操作；例如，网络摄像头发送的处理请求中携带的关键词为“呼叫”和“爸爸”，则表示网络摄像头希望服务器执行呼叫相应的用户智能终端设备的操作；再例如，网络摄像头发送的处理请求中携带的关键词为“百度”、“红茶”和“品种”，则表示网络摄像头希望服务器执行查询红茶品种的操作。

为了使服务器能够更准确的执行用户所期望的操作，网络摄像头可以在其提取出的任何一个关键词与其存储的关键词集合中的关键词匹配的情况下，将其采集到的对应上述关键词的相应的音频数据携带在处理请求中，以使服务器可以对该音频数据进行更智能化的语音识别及分析。

需要特别说明的是，网络摄像头发送给服务器的处理请求中可以携带有网络摄像头的标识信息，也可以携带有网络摄像头的标识信息和关键词，还可以携带有网络摄像头的标识信息和网络摄像头采集的音频数据，当然，该处理请求也可以携带有网络摄像头的标识信息、关键词以及网络摄像头采集的音频数据；网络摄像头可以在其向服务器发送的各处理请求中均携带其采集的音频数据，也可以在需要时才在处理请求中携带音频数据，如网络摄像头根据其语音识别结果对用户所要求服务器执行的操作不明确时，网络摄像头在处理请求中携带其采集的音频数据，而如果网络摄像头根据其语音识别结果对用户所要求服务器执行的操作非常明确时，网络摄像头可以不在处理请求中携带其采集的音频数据。网络摄像头发送给服务器的处理请求中可以携带有其采集的视频数据，该视频数据有利于服务器对网络摄像头处的用户的需求进行进一步的分析。本实施例的处理请求中承载的音频数据和视频数据均为包含有危险图像对应时间段的音频数据和视频数据。

另外，本实施例中的处理请求可以是基于HTTP(超文本传送协议，Hypertext transfer protocol)的消息，也可以是基于其他协议的消息。还有，本实施例中的网络摄像头的标识信息可以为网络摄像头物理设备编码信息，也可以为用户的智能移动电话的手机号码，还可以为社交应用的用户账号，如QQ聊天工具的用户账号或者微信聊天工具的用户账号等。

从上述描述可知，本实施例中的网络摄像头是具有简单语言分析能力的网络摄像头，且该网络摄像头能够利用该简单的语言分析能力执行相应的操作；也就是说，网络摄像头可以识别出其采集的音频数据中是否包含有预定的关键词，且网络摄像头在分析出其采集的音频数据中包含有预定的关键词的情况下，可以产生相应的处理请求，并向与其连接的服务器发送其产生的处理请求。

S130、服务器根据接收到的处理请求中的基础数据产生处理响应，并基于该处理响应执行与相应的用户智能终端设备和/或处理请求中携带的网络摄像头的标识信息对应的网络摄像头的信息交互。

具体的，服务器根据其接收到的处理请求所执行的信息交互操作可以具体为：接通对话操作、通知用户操作、查询并返回查询结果的操作或者返回无效信息操作等，相应的，上述处理响应可以是针对呼叫的处理响应，可以是针对通知的处理响应，也可以是针对查询的处理响应，还可以是针对无效信息的处理响应。接通对话操作即联通用户智能终端设备与网络摄像头之间的IP对话；通知用户操作即向用户智能终端设备发送相应的提示信息；查询并返回查询结果的操作即获取网络摄像头所需查询的内容并将查询到的内容返回给网络摄像头；返回无效信息操作即服务器向网络摄像头返回表示网络摄像头采集的音频数据无意义的信息。

在服务器接收到的处理请求中携带有网络摄像头的标识信息，而没有携带有网络摄像头提取出的关键词或者网络摄像头采集的音频数据的情况下，服务器会根据预先设置的缺省操作信息来执行相应的操作，例如，服务器在接收到处理请求时，从处理请求中获取网络摄像头的标识信息，并利用该网络摄像头的标识信息(如网络摄像头的用户账号信息)从其存储的信息中查找用户智能终端设备的用户账号信息，并根据该网络摄像头的用户账号信息和用户智能终端设备的用户账号信息接通网络摄像头和用户智能终端设备之间的IP通话，且在服务器接通两者之间的IP通话时，网络摄像头处于通话状态。在网络摄像头处于通话状态的情况下，网络摄像头可以将其当前实时采集的音频数据和/或视频数据实时地传输至服务器，并由服务器传输给用户智能终端设备，且网络摄像头在接收到用户智能终端设备发送的经由服务器传输来的音频数据时，应及时播放该音频数据；在网络摄像头具有显示屏的情况下，网络摄像头还可以播放用户智能终端设备发送的经由服务器传输来的视频数据；在用户智能终端设备与网络摄像头之间的IP通话结束之后，网络摄像头切换到视频监控状态，继续采集视频数据以及音频数据，并对其采集的音频数据进行语音识别处理。

在服务器接收到的处理请求中携带有网络摄像头的标识信息以及网络摄像头提取出的关键词，而没有携带有网络摄像头采集的音频数据的情况下，服务器会根据处理请求中携带的关键词来执行相应的操作，例如，服务器在接收到处理请求时，从处理请求中获取网络摄像头的标识信息以及关键词，在关键词中包含有“呼叫”和“爸爸”时，服务器利用网络摄像头的标识信息(如网络摄像头的用户账号信息)从其存储的信息中查找与爸爸对应的用户智能终端设备的用户账号信息，并根据网络摄像头的用户账号信息和查找到的用户智能终端设备的用户账号信息接通网络摄像头和用户智能终端设备之间的IP通话，且在接通两者的IP通话时，网络摄像头处于通话状态；在IP通话结束之后，网络摄像头切换到视频监控状态，网络摄像头继续采集视频以及视频数据，并对采集的音频数据进行语音识别处理；再例如，服务器在接收到处理请求时，从该处理请求中获取网络摄像头的标识信息以及关键词，在获取的关键词中包含有“百度”、“红茶”和“品种”的情况下，服务器利用搜索引擎查找“红茶品种”对应的查询结果，在通常情况下，服务器会获得多个查询结果，服务器可以从多个查询结果中选取一个查询结果，如服务器选取百度百科中对“红茶品种”的介绍；服务器将查找到的“红茶品种”的具体内容转化为相应格式的数据(如音频数据或者视频数据等)，并通过查询响应返回给网络摄像头；在网络摄像头接收到服务器返回的查询响应时，网络摄像头切换到媒体数据播放状态。网络摄像头在播放完查询响应中携带的查询结果(如音频数据和/或视频数据)之后，自动切换到视频监控状态，继续采集视频以及音频数据，并对其采集的音频数据进行语音识别处理。

在服务器接收到的处理请求中携带有网络摄像头的标识信息以及网络摄像头采集的音频数据，而没有携带有网络摄像头提取的关键词的情况下，服务器对处理请求中携带的音频数据进行语音识别处理，并根据自身的语音识别处理结果来执行相应的操作；本实施例中的服务器通常具有比网络摄像头所具有的语音识别技术更智能更复杂的语音识别技术；

一个具体的例子，服务器在接收到处理请求时，从该处理请求中获取音频数据，并对该音频数据进行语音识别处理，在判断该音频数据无实际意义时，服务器向网络摄像头的标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应；服务器在判断该音频数据为呼叫用户智能终端设备的情况下(如呼叫135********)，可以根据其存储的信息确定135********对应的用户智能终端设备的用户账号，并根据该用户账号呼叫用户智能终端设备，服务器在接通用户智能终端设备之后，根据网络摄像头的标识信息确定网络摄像头的用户账号，并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话，且在服务器接通两者之间的IP通话时，网络摄像头处于通话状态。在用户智能终端设备与网络摄像头之间的IP通话结束之后，网络摄像头切换到视频监控状态，继续采集视频以及音频数据，并对其采集的音频数据进行语音识别处理。

另一个具体的例子，服务器在接收到处理请求时，从该处理请求中获取音频数据，并对该音频数据进行语音识别处理，在判断该音频数据无实际意义时，服务器向网络摄像头的标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应；服务器在判断出该音频数据为用户查询相应内容的情况下(如查询如何从**到北京火车站)，可以利用搜索引擎并根据其识别出的搜索关键词进行搜索查询操作，服务器在获得查询结果后，将查询结果转化为相应格式的数据(如音频数据或者视频数据等)，并将该查询结果对应的数据承载于查询响应中，服务器向网络摄像头的标识信息对应的网络摄像头返回该查询响应，网络摄像头在接收到服务器传输来的承载有查询结果的查询响应后，处于媒体数据播放状态，并向用户展示查询响应中的查询结果，如播放服务器发送来的查询响应中携带的音频数据。网络摄像头在向用户展示查询相应中的查询结果之后(如播放完音频数据之后)，自动切换到视频监控状态，继续采集视频以及音频数据，并对其采集的音频数据进行语音识别处理。

再一个具体的例子，服务器在接收到处理请求时，从该处理请求中获取音频数据和视频数据，并对该音频数据进行语音识别处理，在判断该音频数据无实际意义时，服务器向网络摄像头的标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应；服务器在判断该音频数据为呼叫用户智能终端设备的情况下(如呼叫爸爸)，可以对其获取的视频数据进行图像识别，以判断爸爸所指代的用户，然后根据其存储的信息确定指代的用户对应的用户智能终端设备的用户账号，并根据该用户账号呼叫用户智能终端设备，服务器在接通用户智能终端设备之后，根据网络摄像头的标识信息确定网络摄像头的用户账号，并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话，且在服务器接通两者之间的IP通话时，网络摄像头处于通话状态。在用户智能终端设备与网络摄像头之间的IP通话结束之后，网络摄像头切换到视频监控状态，继续采集视频以及音频数据，并对其采集的音频数据进行语音识别处理。

在服务器接收到的处理请求中携带有网络摄像头的标识信息、网络摄像头提取出的关键词以及网络摄像头采集的音频数据的情况下，服务器需要对处理请求中携带的音频数据进行语音识别处理，服务器可以仅根据自身的语音识别处理结果来执行相应的操作；服务器也可以根据自身的语音识别处理结果并参考处理请求中携带的关键词执行相应的操作；在实际应用中，服务器可以根据其内部预先设置的相应的逻辑来决定是否参考网络摄像头传输来的处理请求中携带的关键词来执行相应的操作。另外，在处理请求中携带有视频数据的情况下，服务器可以对处理请求中携带的视频数据进行图像识别处理，服务器应根据相应的逻辑来决定是否参考图像识别结果来执行相应的操作。这里的逻辑可以根据实际情况来设置，在本实施例中不再详细说明。

实施例二、智能摄像***。下面结合图2对本实施例的智能摄像***所包含的各设备以及各设备的具体结构进行详细说明。

图2示出的智能摄像***主要包括：网络摄像头200以及与网络摄像头200连接的服务器210；虽然图2中仅示意性的示出了一个网络摄像头200与服务器210连接，但是在实际应用中，一个服务器210通常与多个网络摄像头200均连接。

网络摄像头200可以通过WIFI与服务器210连接，当然，网络摄像头200也可以通过有线连接方式与服务器210连接。本实施例中的服务器210还与多个用户智能终端设备220分别连接(图2中仅示意性的示出了一个用户智能终端设备220)，例如，用户智能终端设备220通过WIFI或者GSM或者CDMA或者WCDMA等移动通讯技术与服务器210连接。

本实施例中的服务器210可以为设置于云端的服务器，即服务器210为云端服务器。本实施例中的网络摄像头200可以具体为集成有语音识别功能以及音频播放功能的网络摄像头。另外，上述用户智能终端设备220可以为智能移动电话或者台式计算机或者笔记型计算机或者平板电脑等可以通过移动通讯技术与服务器进行信息交互的智能电子设备。

本实施例中的网络摄像头200主要包括：采集模块201、第一语音识别模块202、提取模块203、请求模块204以及交互处理模块205。

本实施例中的服务器210主要包括：处理模块211；且该处理模块211主要包括：第二语音识别模块212、呼叫模块213、查询模块214以及无效响应模块215。

下面对上述各模块所执行的操作进行说明。

采集模块201主要适于在网络摄像头200处于视频监控状态下，采集网络摄像头200所在环境的音频数据。

具体的，网络摄像头200可以工作在多种不同的工作状态下，并在某一操作的触发下切换其工作状态，也就是说，网络摄像头200可以根据实际情况自动的从其一种工作状态切换到另一种工作状态。

本实施例中的网络摄像头200的工作状态主要包括：视频监控状态、通话状态以及媒体数据播放状态；在通常情况下，视频监控状态是网络摄像头200的正常工作状态，即网络摄像头200采集其所在环境的视频数据，并存储其采集到的视频数据，以实现目前摄像头通常的视频监控功能；通话状态即网络摄像头200与用户智能终端设备220之间所进行的媒体数据(如音频数据或视频数据)的交互，也就是说，网络摄像头200和用户智能终端设备220之间通过服务器210而联通，这样，网络摄像头200位置处的用户和用户智能终端设备220位置处的用户可以通过网络摄像头200和用户智能终端设备220实现IP通话(即网络通话)；媒体数据播放状态即网络摄像头200与服务器210之间的媒体数据(如音频数据或者视频数据)的传输，即网络摄像头200接收服务器210传输来的媒体数据(如音频数据或者视频数据)，并播放该媒体数据。本实施例中的网络摄像头200在通常情况下会处于视频监控状态。

第一语音识别模块202主要适于对采集模块201采集的音频数据进行语音识别。

具体的，本实施例中的网络摄像头200无论是处于视频监控状态，还是其处于通话状态，亦或是处于媒体数据播放状态，采集模块201均可以按照预先设定的采集频率执行音频数据的采集操作；但是，通常情况下，第一语音识别模块202只有在网络摄像头200处于视频监控状态下，才会对采集模块210采集到的音频数据执行语音识别处理；然而，在实际应用中，第一语音识别模块202在网络摄像头200处于通话状态或者媒体数据播放状态时对采集模块201采集到的音频数据执行语音识别处理也是完全可行的。

本实施例中的网络摄像头200具有简单的语音识别处理能力，如第一语音识别模块202可以将采集模块201采集的音频数据转化为文本文字等。第一语音识别模块202可以采用现有的语音识别技术对采集模块201采集的音频数据进行语音识别处理。在本实施例中不再详细描述第一语音识别模块202进行语音识别处理的具体实现过程。

提取模块203主要适于从第一语音识别模块202的语音识别结果中提取关键词。

具体的，提取模块203可以将第一语音识别模块202的语音识别结果中的语气助词以及连词等不重要的字或者词去除，从而获得一个或者多个关键词。在第一语音识别模块202将采集模块201其采集的音频数据转化为文本文字的情况下，提取模块203可以采用多种方式从语音识别出的文本文字中提取关键词，例如，提取模块203可以采用文本关键词提取算法来获得关键词。在本实施例中不再详细描述提取模块203进行关键词提取的具体实现过程。

请求模块204主要适于在提取模块203提取的关键词属于预定关键词的情况下，向与网络摄像头200连接的服务器210发送携带有网络摄像头的标识信息以及基础数据的处理请求，这里的基础数据包括：关键词、音频数据以及视频数据中的至少一种。

网络摄像头200中预先设置有一个或者多个关键词，这些预先设置的关键词形成关键词集合；用户可以通过其用户智能终端设备220来访问与网络摄像头200连接的服务器210，并利用服务器210来设置网络摄像头200中的关键词集合所包含的关键词；另外，上述关键词集合所包含的某些或者全部关键词也可以是网络摄像头200在出厂时设置于网络摄像头200中的。

请求模块204可以将其提取出的关键词与关键词集合中的关键词进行比较以根据比较结果产生相应的处理请求，如请求模块204将提取模块203提取出的关键词与关键词集合中的关键词进行匹配，请求模块204可以在提取模块203提取出的任何一个关键词与网络摄像头200存储的关键词集合中的一个关键词匹配的情况下，生成相应的处理请求，并将该处理请求发送给服务器210。

网络摄像头200生成的处理请求中应携带有其网络摄像头的标识信息，以表明该处理请求是哪个网络摄像头200发送给服务器210的。该处理请求中还可以携带有网络摄像头提取出的关键词，以表示请求模块204希望服务器能够根据处理请求中携带的关键词而执行相应的操作；例如，请求模块204发送的处理请求中携带的关键词为“呼叫”和“爸爸”，则表示请求模块204希望服务器210执行呼叫相应的用户智能终端设备220的呼叫操作；再例如，请求模块204发送的处理请求中携带的关键词为“百度”、“红茶”以及“品种”，则表示请求模块204希望服务器210执行查询红茶品种的查询操作。

为了使服务器210能够更准确的执行用户所期望的操作，请求模块204可以在提取模块203提取出的任何一个关键词与其存储的关键词集合中的关键词匹配的情况下，将采集模块201采集到的对应上述关键词的相应的音频数据携带在处理请求中，以使服务器210可以对该音频数据进行更智能化的语音识别及分析。

需要特别说明的是，请求模块204发送给服务器210的处理请求中可以携带有网络摄像头的标识信息，也可以携带有网络摄像头的标识信息以及关键词，还可以携带有网络摄像头的标识信息和网络摄像头采集的音频数据，当然，该处理请求也可以携带有网络摄像头的标识信息、关键词以及网络摄像头采集的音频数据；请求模块204可以在其向服务器发送的各处理请求中均携带其采集的音频数据，也可以在需要时才在处理请求中携带音频数据，如请求模块204根据语音识别结果对用户所要求服务器210执行的操作不明确时，请求模块204在处理请求中携带其采集的音频数据，而如果请求模块204根据语音识别结果对用户所要求服务器210执行的操作非常明确时，请求模块204可以不在处理请求中携带其采集的音频数据。网络摄像头发送给服务器的处理请求中可以携带有其采集的视频数据，该视频数据有利于服务器对网络摄像头处的用户的需求进行进一步的分析。本实施例中的音频数据和视频数据均为包含有关键词对应时间段的音频数据和视频数据。

另外，本实施例中的处理请求可以是基于HTTP的消息，也可以是基于其他协议的消息。还有，本实施例中的网络摄像头的标识信息可以为网络摄像头物理设备编码信息，也可以为用户的智能移动电话的手机号码，还可以为社交应用的用户账号，如QQ聊天工具的用户账号或者微信聊天工具的用户账号等。

从上述描述可知，本实施例中的网络摄像头200是具有简单语言分析能力的网络摄像头，且该网络摄像头200能够利用该简单的语言分析能力执行相应的操作；也就是说，网络摄像头200可以识别出其采集的音频数据中是否包含有预定的关键词，且网络摄像头200在分析出其采集的音频数据中包含有预定的关键词的情况下，可以产生相应的处理请求，并向与其连接的服务器210发送其产生的处理请求。

处理模块211主要适于根据服务器210接收到的处理请求中的基础数据产生相应的处理响应，并基于该处理响应执行与相应的用户智能终端设备220和/或网络摄像头的标识信息对应的网络摄像头200的信息交互。

具体的，处理模块211根据服务器210接收到的处理请求所执行的信息交互操作可以具体为：接通对话操作、通知用户操作、查询并返回查询结果的操作或者返回无效信息操作等，相应的，上述处理响应可以是针对呼叫的处理响应，可以是针对通知的处理响应，也可以是针对查询的处理响应，还可以是针对无效信息的处理响应。接通对话操作即联通用户智能终端设备220与网络摄像头200之间的IP对话；通知用户操作即向用户智能终端设备220发送相应的提示信息；查询并返回查询结果的操作即获取网络摄像头200所需查询的内容并将查询到的内容返回给网络摄像头200；返回无效信息操作即服务器210向网络摄像头200返回表示网络摄像头200采集的音频数据无意义的信息。

第二语音识别模块212主要适于从服务器210接收到的处理请求中获取音频数据，并对其获取的音频数据进行语音识别。

呼叫模块213主要适于在判断出第二语音识别模块212的语音识别结果为呼叫用户智能终端设备220的情况下，根据服务器210中存储的信息确定用户智能终端设备220的用户账号，并根据该用户账号呼叫用户智能终端设备220，在接通用户智能终端设备220的情况下，根据网络摄像头的标识信息确定网络摄像头200的用户账号，并根据网络摄像头200的用户账号联通用户智能终端设备220与网络摄像头200之间的IP通话，使网络摄像头200处于通话状态。

查询模块214主要适于在第二语音识别模块212判断出语音识别结果为信息查询的情况下，根据查询关键词获取查询结果，并向网络摄像头的标识信息对应的网络摄像头200返回携带有查询结果的音频数据的查询响应。

交互处理模块205主要适于在网络摄像头200处于媒体数据播放状态的情况下，播放服务器210发送来的查询响应中携带的音频数据。

无效响应模块215主要适于在根据第二语音识别模块212判断出语音识别结果为音频数据无意义的情况下，向网络摄像头的标识信息对应的网络摄像头200返回携带有表示无效音频数据的信息的处理响应。

具体的，在服务器210接收到的处理请求中携带有网络摄像头的标识信息，而没有携带有网络摄像头200提取出的关键词或者网络摄像头200采集的音视频数据的情况下，处理模块211中的相应模块会根据预先设置的缺省操作信息来执行相应的操作，例如，服务器210在接收到处理请求时，呼叫模块213从处理请求中获取网络摄像头的标识信息，并利用该网络摄像头的标识信息(如网络摄像头200的用户账号信息)从服务器210存储的信息中查找用户智能终端设备220的用户账号信息，并根据该网络摄像头的用户账号信息和用户智能终端设备的用户账号信息接通网络摄像头和用户智能终端设备之间的IP通话，且在呼叫模块213接通两者之间的IP通话时，网络摄像头200处于通话状态。在网络摄像头200处于通话状态的情况下，交互处理模块205可以将采集模块201当前实时采集的音频数据和/或视频数据实时地传输至服务器210，并由服务器210传输给用户智能终端设备220，且在网络摄像头200接收到用户智能终端设备发送的经由服务器传输来的音频数据时，交互处理模块205应及时播放该音频数据；在网络摄像头200具有显示屏的情况下，交互处理模块205还可以播放用户智能终端设备发送的经由服务器传输来的视频数据；在用户智能终端设备220与网络摄像头200之间的IP通话结束之后，网络摄像头200切换到视频监控状态，网络摄像头200继续采集视频数据以及音频数据，第一语音识别模块201对采集模块201采集的音频数据进行语音识别处理。

在服务器210接收到的处理请求中携带有网络摄像头的标识信息以及提取模块203提取出的关键词，而没有携带有网络摄像头采集的音频数据的情况下，处理模块211中的相应模块会根据处理请求中携带的关键词来执行相应的操作，例如，在服务器210接收到处理请求时，呼叫模块213和查询模块214均从处理请求中获取网络摄像头的标识信息以及关键词，在关键词中包含有“呼叫”和“爸爸”时，呼叫模块213利用网络摄像头的标识信息(如网络摄像头的用户账号信息)从服务器210存储的信息中查找与爸爸对应的用户智能终端设备的用户账号信息，并根据网络摄像头的用户账号信息和查找到的用户智能终端设备220的用户账号信息接通网络摄像头200和用户智能终端设备220之间的IP通话，且在接通两者的IP通话时，网络摄像头200处于通话状态；在IP通话结束之后，网络摄像头200切换到视频监控状态，网络摄像头200继续采集视频数据以及视频数据，第一语音识别模块202并采集模块201采集的音频数据进行语音识别处理；再例如，在服务器210接收到处理请求时，呼叫模块213和查询模块214分别从该处理请求中获取网络摄像头的标识信息以及关键词，在获取的关键词中包含有“百度”、“红茶”和“品种”的情况下，查询模块214利用搜索引擎查找“红茶品种”对应的查询结果，在查询模块214获得多个查询结果的情况下，查询模块214可以从多个查询结果中选取一个查询结果，如查询模块214选取百度百科中对“红茶品种”的介绍；查询模块214将查找到的“红茶品种”的具体内容转化为相应格式的数据(如音频数据或者视频数据等)，并通过查询响应返回给网络摄像头200；在网络摄像头200接收到服务器210返回的查询响应时，网络摄像头200切换到媒体数据播放状态。网络摄像头在交互处理模块205播放完查询响应中携带的查询结果(如音频数据和/或视频数据)之后，自动切换到视频监控状态，继续采集视频数据以及音频数据，第一语音识别模块202对采集模块201采集的音频数据进行语音识别处理。

在服务器接收到的处理请求中携带有网络摄像头的标识信息以及网络摄像头采集的音频数据，而没有携带有网络摄像头提取的关键词的情况下，第二语音识别模块212对处理请求中携带的音频数据进行语音识别处理，呼叫模块213、查询模块214或者无效响应模块215根据第二语音识别模块212的语音识别处理结果来执行相应的操作；本实施例中的第二语音识别模块212通常具有比第一语音识别模块202所具有的语音识别技术更智能更复杂的语音识别技术；

一个具体的例子，在服务器接收到处理请求时，第二语音识别模块212从该处理请求中获取音频数据，并对该音频数据进行语音识别处理，在判断该音频数据无实际意义时，无效响应模块215向网络摄像头的标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应；在判断该音频数据为呼叫用户智能终端设备的情况下(如呼叫135********)，呼叫模块213可以根据服务器210存储的信息确定135********对应的用户智能终端设备的用户账号，并根据该用户账号呼叫用户智能终端设备，呼叫模块213在接通用户智能终端设备之后，根据网络摄像头的标识信息确定网络摄像头的用户账号，并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话，且在呼叫模块213接通两者之间的IP通话时，网络摄像头200处于通话状态。在用户智能终端设备220与网络摄像头200之间的IP通话结束之后，网络摄像头200切换到视频监控状态，继续采集视频数据以及音频数据，第一语音识别模块202对采集模块201采集的音频数据进行语音识别处理。

另一个具体的例子，在服务器接收到处理请求时，第二语音识别模块212从该处理请求中获取音频数据，并对该音频数据进行语音识别处理，在判断该音频数据无实际意义时，无效响应模块215向网络摄像头的标识信息对应的网络摄像头200返回携带有表示无效音频数据的信息的处理响应；在判断出该音频数据为用户查询相应内容的情况下(如查询如何从**到北京火车站等)，查询模块214可以利用搜索引擎并根据第二语音识别模块212识别出的搜索关键词进行搜索查询操作，查询模块214在获得查询结果后，将查询结果转化为相应格式的数据(如音频数据或者视频数据等)，并将该查询结果对应的数据承载于查询响应中，查询模块214向网络摄像头的标识信息对应的网络摄像头返回该查询响应，网络摄像头200在接收到服务器210传输来的承载有查询结果的查询响应后，处于媒体数据播放状态，交互处理模块205向用户展示查询响应中的查询结果，如交互处理模块205播放服务器210发送来的查询响应中携带的音频数据。网络摄像头在交互处理模块205向用户展示查询相应中的查询结果之后(如播放完音频数据之后)，自动切换到视频监控状态，继续采集视频数据以及音频数据，第一语音识别模块202对采集模块201采集的音频数据进行语音识别处理。

再一个具体的例子，服务器在接收到处理请求时，第二语音识别模块212从该处理请求中获取音频数据，并对该音频数据进行语音识别处理，在判断该音频数据无实际意义时，无效响应模块215向网络摄像头的标识信息对应的网络摄像头200返回携带有表示无效音频数据的信息的处理响应；服务器210在判断该音频数据为呼叫用户智能终端设备的情况下(如呼叫爸爸)，服务器210中的图像识别模块可以对处理请求中携带的视频数据进行图像识别，以判断爸爸所指代的用户，然后呼叫模块213根据服务器210存储的信息确定指代的用户对应的用户智能终端设备的用户账号，并根据该用户账号呼叫用户智能终端设备，呼叫模块213在接通用户智能终端设备之后，根据网络摄像头的标识信息确定网络摄像头的用户账号，并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话，且在呼叫模块213接通两者之间的IP通话时，网络摄像头200处于通话状态。在用户智能终端设备与网络摄像头200之间的IP通话结束之后，网络摄像头200切换到视频监控状态，继续采集视频以及音频数据，第一语音识别模块202对采集模块201采集的音频数据进行语音识别处理。

在服务器210接收到的处理请求中携带有网络摄像头的标识信息、网络摄像头提取出的关键词以及网络摄像头采集的音频数据的情况下，第二语音识别模块212需要对处理请求中携带的音频数据进行语音识别处理，呼叫模块213、查询模块214和无效响应模块215可以仅根据第二语音识别模块212的语音识别处理结果来执行相应的操作；呼叫模块213、查询模块214和无效响应模块215也可以根据第二语音识别模块212的语音识别处理结果并参考处理请求中携带的关键词执行相应的操作；在实际应用中，呼叫模块213、查询模块214以及无效响应模块215可以根据预先设置的相应的逻辑来决定是否参考网络摄像头传输来的处理请求中携带的关键词来执行相应的操作。另外，在处理请求中携带有视频数据的情况下，服务器中的图像识别模块可以对处理请求中携带的视频数据进行图像识别处理，呼叫模块213、查询模块214以及无效响应模块215应根据相应的逻辑来决定是否参考图像识别结果来执行相应的操作。这里的逻辑可以根据实际情况来设置，在本实施例中不再详细说明。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的智能摄像***和/或网络摄像头中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图3示出了可以实现根据本发明的智能摄像***的实现方法的计算设备。该计算设备传统上包括处理器310和以存储器320形式的计算机程序产品或者计算机可读介质。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有用于执行上述方法中的任何方法步骤的程序代码331的存储空间330。例如，用于程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个程序代码331。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图4所述的便携式或者固定存储单元。该存储单元可以具有与图3的计算设备中的存储器320类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码331’，即可以由例如诸如310之类的处理器读取的代码，这些代码当由计算设备运行时，导致该计算设备执行上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

一种智能摄像***的实现方法，包括：

网络摄像头在视频监控状态下采集其所在环境的音频数据，并对其采集的音频数据进行语音识别；

网络摄像头从语音识别结果中提取关键词；

在所述提取的关键词属于预定关键词的情况下，网络摄像头向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求，所述基础数据包括：所述关键词、音频数据以及视频数据中的至少一种；

指定服务器根据接收到的处理请求中的基础数据产生处理响应，并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互。
如权利要求1所述的方法，其中，所述网络摄像头通过WIFI与指定服务器连接。
如权利要求1所述的方法，其中，所述指定服务器根据接收到的处理请求中的基础数据产生处理响应，并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互包括：

指定服务器从其接收到的处理请求中获取音频数据，并对其获取的音频数据进行语音识别；

指定服务器在判断出语音识别结果为呼叫用户智能终端设备的情况下，根据其存储的信息确定用户智能终端设备的用户账号，并根据该用户账号呼叫用户智能终端设备；

指定服务器在接通用户智能终端设备的情况下，根据网络摄像头的标识信息确定网络摄像头的用户账号，并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话，使所述网络摄像头处于通话状态。
如权利要求1所述的方法，其中，所述指定服务器根据接收到的处理请求中的基础数据产生处理响应，并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互包括：

指定服务器从其接收到的处理请求中获取音频数据，并对其获取的音频数据进行语音识别；

指定服务器在判断出语音识别结果为信息查询的情况下，根据查询关键词获取查询结果，并向所述网络摄像头的标识信息对应的网络摄像头返回携带有查询结果的音频数据的查询响应；

网络摄像头处于媒体数据播放状态，并播放指定服务器发送来的查询响应中携带的音频数据。
如权利要求1所述的方法，其中，所述指定服务器根据接收到的处理请求中的基础数据产生处理响应，并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互包括：

指定服务器从其接收到的处理请求中获取音频数据，并对其获取的音频数据进行语音识别；

指定服务器在根据出语音识别结果确定出音频数据无意义的情况下，向所述网络摄像头的标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应。
一种智能摄像***，所述***包括：

采集模块，设置于网络摄像头中，适于在网络摄像头处于视频监控状态下，采集网络摄像头所在环境的音频数据；

第一语音识别模块，设置于网络摄像头中，适于对采集模块采集的音频数据进行语音识别；

提取模块，设置于网络摄像头中，适于从语音识别结果中提取关键词；

请求模块，设置于网络摄像头中，适于在所述提取的关键词属于预定关键词的情况下，向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求，所述基础数据包括：所述关键词、音频数据以及视频数据中的至少一种；

处理模块，设置于指定服务器中，适于根据指定服务器接收到的处理请求中的基础数据产生处理响应，并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互。
如权利要求6所述的***，其中，所述网络摄像头通过其WIFI模块与指定服务器连接。
如权利要求6所述的***，其中，所述处理模块包括：

第二语音识别模块，适于从指定服务器接收到的处理请求中获取音频数据，并对其获取的音频数据进行语音识别；

呼叫模块，适于在判断出语音识别结果为呼叫用户智能终端设备的情况下，根据指定服务器中存储的信息确定用户智能终端设备的用户账号，并根据该用户账号呼叫用户智能终端设备，在接通用户智能终端设备的情况下，根据所述网络摄像头的标识信息确定网络摄像头的用户账号，并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话，使所述网络摄像头处于通话状态。
如权利要求6所述的***，其中，所述处理模块包括：

第二语音识别模块，适于从指定服务器接收到的处理请求中获取音频数据，并对其获取的音频数据进行语音识别；

查询模块，适于在判断出语音识别结果为信息查询的情况下，根据查询关键词获取查询结果，并向所述网络摄像头的标识信息对应的网络摄像头返回携带有查询结果的音频数据的查询响应；

且所述网络摄像头还包括：交互处理模块，适于在网络摄像头处于媒体数据播放状态的情况下，播放指定服务器发送来的查询响应中携带的音频数据。
如权利要求6所述的***，其中，所述处理模块包括：

第二语音识别模块，适于从指定服务器接收到的处理请求中获取音频数据，并对其获取的音频数据进行语音识别；

无效响应模块，适于在根据语音识别结果确定出音频数据无意义的情况下，向所述网络摄像头的标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应。
一种网络摄像头，包括：

采集模块，适于在网络摄像头处于视频监控状态下采集网络摄像头所在环境的音频数据；

第一语音识别模块，适于对采集模块采集的音频数据进行语音识别；

提取模块，适于从语音识别结果中提取关键词；

请求模块，适于在所述提取的关键词属于预定关键词的情况下，向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求，以使指定服务器根据接收到的处理请求中的基础数据产生处理响应，并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互，所述基础数据包括：所述关键词、音频数据以及视频数据中的至少一种。
如权利要求11所述的网络摄像头，其中，所述网络摄像头通过其WIFI模块与指定服务器连接。
如权利要求11所述的网络摄像头，其中，所述网络摄像头还包括：

交互处理模块，适于在网络摄像头处于媒体数据播放状态的情况下，播放指定服务器发送来的查询响应中携带的音频数据。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算设备上运行时，导致所述计算设备执行根据权利要求1-5中的任一个所述的智能摄像 ***的实现方法。
一种计算机可读介质，其中存储了如权利要求14所述的计算机程序。