CN103404127A

CN103404127A - 音频关联***和方法

Info

Publication number: CN103404127A
Application number: CN2011800689343A
Authority: CN
Inventors: A.S.米彻尔; S.韦; M.C.索洛蒙; G.A.王
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2011-03-03
Filing date: 2011-03-03
Publication date: 2013-11-20
Anticipated expiration: 2031-03-03
Also published as: DE112011105001T5; CN103404127B; GB2502227B; WO2012118514A1; GB201315634D0; GB2502227A; US10528319B2; US20130307921A1; US20170131971A1

Abstract

提供了一种可应用于大型交互式设备（LID）的音频捕捉***和方法。一种音频捕捉方法可以包括使由第一用户提供的所捕捉环境音频与经由LID呈现给第一用户的媒体相关。该方法还可以包括基于由第一用户提供的音频输入来指示在LID上显示的相关媒体。

Description

音频关联***和方法

背景技术

大型交互式设备（LID）为一个或多个个体提供增强的工作空间。LID通常包括显示设备，诸如视频显示监视器或使用多个监视器形成的墙壁。在LID上显示的交互式内容可以包括由一个或多个用户输入（类似于白板上绘画）或从被本地地或跨越网络远程地耦合到LID的存储位置检索的数据。LID的典型使用可能是在会议室环境中，其中，一群用户在显示于LID上的媒体上合作。在一个个体可以负责在LID上显示的媒体的同时，所有用户可能正在讨论媒体的各种方面。

附图说明

在阅读以下详细描述时和参考附图时，一个或多个公开实施例的优点可以变得显而易见，在所述附图中：

图1是描绘根据本文所述的一个或多个实施例的说明性音频关联方法的实施例的流程图；

图2是描绘根据本文所述的一个或多个实施例的另一说明性音频关联方法的实施例的流程图；

图3是描绘根据本文所述的一个或多个实施例的又另一说明性音频关联方法的实施例的流程图；

图4是描绘根据本文所述的一个或多个实施例的仍又另一说明性音频关联方法的实施例的流程图；

图5是描绘根据本文所述的一个或多个实施例的说明性音频关联***的实施例的示意图；

图6是描绘根据本文所述的一个或多个实施例的另一说明性音频关联方法的实施例的流程图；以及

图7是描绘根据本文所述的一个或多个实施例的又另一说明性音频关联方法的实施例的流程图。

具体实施方式

大型交互式设备（LID）正在市场中发现被越来越多地接受。从显示机场航班信息到替换会议室白板，LID正在取代传统的“单向”数据显示设备。由LID向LID的一个或多个用户呈现的媒体或数据可以源自于一个或多个位置。例如，在被用作用于会议室白板的替换的LID上显示的数据可能部分地源自于LID的用户，例如显示正在由一群用户设计的新打印机机盒的图画；并且部分地来自远程位置，例如与示范竞争打印机机盒的使用的在线视频相组合的用于竞争打印机盒的因特网搜索的结果。容易地且同时地在单个表面上访问内部和外部知识能够提高生产力。

用户群可以不仅可听地评估其数据输入，而且评估经由LID从远程位置提供的数据。口头评估的抄写可能与讨论的自由流程相干扰，因为会话的速度可能频繁地超过几乎最快的抄写。另外，通过使会话与显示的LID媒体相关，口头评估的远程存储未能利用LID的能力。

因此提供了音频捕捉方法。说明性音频捕捉方法可以包括使由第一用户提供的所捕捉环境音频与经由LID呈现给第一用户的媒体相关。该方法还可以包括基于由第一用户提供的音频输入来指示在LID上显示的相关媒体。

还提供了音频捕捉***。说明性音频捕捉***可以包括用以向第一用户提供媒体内容的大型交互式设备（“LID”）和用以捕捉由第一用户产生的环境音频的音频捕捉设备。该***还可以包括逻辑，该逻辑在由被耦合到LID的处理器执行时使由第一用户提供的所捕捉环境音频与提供给第一用户的媒体内容相关。该***还可以包括被耦合到LID以存储所捕捉环境音频的至少一部分和相关LID媒体内容的存储器和逻辑，所述逻辑在由被耦合到LID的处理器执行时基于由第一用户提供的音频输入来指示在LID上显示的相关媒体。

还提供了附加音频捕捉方法。说明性音频捕捉方法可以包括使由多个用户提供的所捕捉环境音频与经由LID呈现给所述多个用户的媒体相关。该方法还可以包括存储所捕捉环境音频和相关LID媒体内容并基于由所述多个用户中的任何一个提供的音频输入来指示在LID上显示的相关媒体。

图1是描绘根据一个或多个实施例的说明性音频关联方法100的实施例的流程图。方法100可以包括在110处使由第一用户提供的所捕捉环境音频与经由大型交互式设备（“LID”）呈现给第一用户的媒体相关。该方法还可以包括基于在110处由第一用户提供的环境音频输入在120处指示在LID上显示的相关媒体。例如，如果第一用户正在观看LID上的HP TouchPad平板的图像并提到HP TouchPad运行WebOS，则LID可以自动地指示在LID上的其他地方所显示的“HP”、“TouchPad”或“WebOS”的任何其他实例。

方法100可以包括在110处使由第一用户提供的所捕捉环境音频与经由大型交互式设备（“LID”）呈现给第一用户的媒体相关。由第一用户供应的环境音频可以被LID使用任何模拟或数字音频捕捉设备、例如单个麦克风捕捉。在其他实施例中，模拟或数字音频捕捉设备可以包括定向麦克风或定向麦克风阵列，其允许LID捕捉由第一用户提供的音频，同时为第一用户提供最近位置。

可以使环境音频和呈现给第一用户的媒体相关或另外关联，例如，通过用参考标记来标记环境音频和媒体以使环境音频与媒体同步。在其他实施例中，可以通过使用语音至文本算法将环境音频变换成文本并在时间上使文本与显示媒体相关联来使环境音频与呈现给第一用户的媒体的至少一部分相关联。在至少某些实施例中，可以由LID将已转换环境音频存储为数字文件。在某些实施例中，环境音频数字文件可以是由LID可搜索的。

其他数据也可以与经由LID呈现的媒体相关联，例如，媒体元数据也可以与环境音频数字文件相关联，从而提供对媒体文件的主题的参考。使用说明性示例，第一用户可能正在观看LID上的HP TouchPad的图像，同时描述设备的各种功能方面，诸如CPU、储存器和存储器。在LID内，可以在由第一用户描述的各种功能方面（作为环境音频数字文件）、媒体元数据以及HP TouchPad媒体本身之间形成关联。

该方法还可以包括基于在110处由第一用户提供的环境音频输入在120处指示在LID上显示的相关媒体。在至少某些实施例中，LID可以基于由第一用户提供的环境音频输入来指示相关媒体内容。在某些实施例中，基于由第一用户供应的环境音频，LID可以显示在LID上的其他地方显示的相关媒体内容。继续上述说明性示例，在一个实施例中，当第一用户提供“HP TouchPad”环境音频输入时，LID可能指示与在LID上显示的“HP TouchPad”有关的媒体的所有实例。

该指示可以包括一个或多个视觉信号，例如突出显示或另外隔离相关媒体。该指示可以包括相关媒体到接近于第一用户的位置的平移—此类平移在LID的物理尺寸使得第一用户难以整体地看到LID的情况下可能是有益的。在某些实施例中，相关媒体的显示可以包括与所识别相关媒体的环境音频的重放。

图2是描绘根据一个或多个实施例的另一说明性音频关联方法200的实施例的流程图。可以在210处将所捕捉环境音频和相关媒体内容存储在与LID相关联的数据储存器或存储器中。

在某些实施例中，可以使数据储存器或存储器与LID相关联，数据储存器或存储器可以允许存储由第一用户提供给LID的环境音频数据中的某些或全部。另外，在至少某些实施例中，可以将由LID提供给第一用户的媒体的全部或一部分存储在数据储存器或存储器内。此类储存器使得LID可以不仅指示由LID当前显示的相关媒体内容，而且指示存储在被耦合到LID的数据储存器或存储器内的相关媒体内容。继续参考图1所述的说明性示例，在一个实施例中，LID可以检索在LID上当前显示的“HP TouchPad”的所有实例（如在120处所述）和存储在与LID相关联的数据储存器或存储器内的所有实例。

图3是描绘根据一个或多个实施例的又另一说明性音频关联方法300的实施例的流程图。LID可以在310处处理由第一用户提供的环境音频以在320处具体地将第一用户识别为所捕捉环境音频内容的来源。使环境音频内容与特定用户相关联的能力可以允许LID内的环境音频数据的进一步分类。例如，用户可以指定LID仅指示与它们或与由LID识别的另一特定用户相关联的相关媒体。

在310处处理所捕捉环境音频可以包括对所捕捉环境音频数据执行一个或多个算法。所述一个或多个算法可以包括环境音频数据的任何类型的音频或空间处理。在710处执行的处理可以是模拟的、数字的或其任何组合。可以完全或部分地使用在LID内、远离LID或其任何组合的处理器来执行该处理。

320处的第一用户作为所捕捉环境音频内容的来源的特定识别可以是基于310处的处理所捕捉环境音频。在某些实施例中，可以具体地基于足以识别第一用户的语音识别算法来识别第一用户。在其他实施例中，可以基于算法的执行来具体地识别第一用户以使用一个或多个定向麦克风或麦克风阵列来确定环境音频的来源的最近定位或位置。在至少某些实施例中，可以使环境音频数据的来源与LID内的所存储环境音频相关联。

图4是描绘根据一个或多个实施例的仍又另一说明性音频关联方法400的实施例的流程图。第一用户和第二用户可以同时地且独立地向LID供应环境音频，同时LID向每个用户呈现独立的媒体。LID可以在410处使由第二用户提供的所捕捉环境音频与经由LID呈现给第二用户的媒体相关，同时使由第一用户提供的所捕捉环境音频与在110处呈现给第一用户的媒体相关。

通过独立地使由第一和第二用户两者供应的所捕捉环境音频与呈现给每个用户的媒体相关，LID可以指示相关媒体的所有实例，包括在420处呈现给LID的其他用户的媒体。例如，LID可以基于由第一用户提供的环境音频输入向第一用户指示呈现给第一用户和第二用户两者的相关媒体。考虑说明性示例，如果第一用户和第二用户每个对与HP TouchPad有关的媒体进行消费，并且每个提供讨论TouchPad的一个或多个功能方面的环境音频输入，当被环境音频输入提示时，LID可以向每个用户指示由两个用户供应的相关媒体。

图5是描绘根据一个或多个实施例的说明性音频关联***500的实施例的示意图。***500可以包括被配置成向第一用户530提供媒体内容520的LID 510。该***还可以包括用以捕捉由第一用户产生的环境音频550的音频捕捉设备540。该***还可以包括逻辑560，其在由被耦合到LID的处理器570执行时使由第一用户提供的所捕捉环境音频与提供给第一用户的媒体内容相关。被耦合到LID的存储器580处理并存储所捕捉环境音频和相关LID媒体内容的至少一部分。***500可以另外包括逻辑590，其在由被耦合到LID的处理器执行时基于由第一用户提供的音频输入来指示在LID上显示的相关媒体595。

LID 510可以包括被配置成向至少第一用户530提供媒体内容520的任何数目的***或设备或***和设备的任何组合。在至少某些实施例中，LID 510可以包括至少一个触敏设备，诸如电阻或电容触敏LCD面板。在至少某些实施例中，LID 510可以是能够独立地支持任何数目的用户的多用户/多触摸交互式设备。

LID 510可以包括被配置成提供多用户触摸能力的多个设备或***，例如被包含传感器的框架或带槽框（bezel）围绕的至少一个非触敏LCD面板，所述传感器被配置成检测所述至少一个非触敏LCD面板上的用户触摸手势。在至少某些实施例中，LID 510可以包括在被包含传感器的框架或带槽框围绕的刚性支撑结构上以规则网格或阵列设置的多个非触敏LCD面板，所述传感器被配置成检测来自至少第一用户530的用户触摸手势。

供应给第一用户530的媒体内容520可以包括任何形式的媒体内容。在某些实施例中，媒体内容520可以包括单向通信，例如向第一用户530呈现图像（例如，JPEG）或视频（例如，MPEG）。在某些实施例中，媒体内容520可以包括双向通信，例如第一用户530与远程方之间的电视会议。在至少某些实施例中，媒体内容520中的某些或全部可以包括元数据，例如与媒体的内容、形式或格式相关联的元数据。

音频捕捉设备540可以包括设置于LID 510中、上、周围或附近的一个或多个音频输入设备，所述LID 510被配置成捕捉由第一用户530提供的环境音频550的至少一部分。在某些实施例中，音频捕捉设备540可以是仅向处理器570提供音频数据的简单麦克风。在某些实施例中，音频捕捉设备540可以是向处理器570提供音频数据和音频源位置数据的单个定向麦克风。在其他实施例中，音频捕捉设备540可以包括向处理器560提供音频数据的多个麦克风。在又其他实施例中，音频捕捉设备可以包括适合于向处理器570提供音频数据和音频源位置数据的麦克风阵列。

***500还可以包括逻辑560，其在被处理器570执行时产生由第一用户530供应的环境音频550与呈现给第一用户的媒体内容520之间的关系。在至少某些实施例中，可以在形成与媒体内容520的关联之前将环境音频550转换成文本。在其他实施例中，该关联可以是概念上的关联，与文字上的相反—例如，当第一用户在其环境音频550中提到“HP TouchPad”时，逻辑560可以关联平板计算机而不是HP TouchPad的概念。

处理器570可以包括被配置成执行机器可读指令集的至少一部分的任何一个或多个设备。可以将处理器570设置于LID 510中、上、周围或附近。可以远离LID 510设置处理器570，例如跨越网络设置的处理器570。该处理器可以是专用设备或其他功能或多个LID之间的共享设备。

可以将存储器580耦合到处理器570或LID 510或者处理器570和LID 510两者。可以将存储器580设置于LID 510中、上、周围或附近。可以远离LID 510设置存储器580，例如跨越网络设置的存储器580，例如基于云的因特网存储器。

***500可以另外包括逻辑590，其在由被耦合到LID 510的处理器570执行时可以基于由第一用户提供的音频输入来指示在LID上显示的相关媒体595。逻辑590可以包括能够检测由第一用户530提供的环境音频与由LID 510呈现给第一用户530的媒体之间的关联的任何逻辑。该关联可以是关键字类型关联、概念关联或适合于检测当前由LID显示、存储在LID存储器580内或由LID显示并存储的相同或类似媒体内容的任何其他形式的关联能力。

图6是描绘根据一个或多个实施例的另一说明性音频关联方法600的实施例的流程图。图6至少提供了用于关联由多个用户提供的环境音频的方法，其中，LID向所述多个用户呈现媒体。说明性示例可能是在LID讨论用于新膝上型计算机的可能设计之前聚集的一群设计师。随着LID显示各种设计选项，设计师讨论并评论每个选项，该评论以及显示相关设计的媒体可以被LID存储。

该方法可以包括在610处使由多个用户提供的所捕捉环境音频与经由LID呈现给所述多个用户的媒体相关。可以使用一个或多个音频捕捉设备来捕捉来自所述多个用户的环境音频，诸如常规麦克风、定向麦克风、外部麦克风，包括设置于与第一用户相关联的电子设备中、上或周围的麦克风或麦克风阵列。随着捕捉由所述多个用户提供的环境音频，可以使音频与经由LID呈现给所述多个用户中的某些或全部的媒体相关联。此类关联可以例如通过用参考标记来标记环境音频和媒体以使环境音频与媒体同步来完成。

可以在610处使由所述多个用户提供的环境音频与呈现给所述多个用户的媒体相关，可以在620处存储结果得到的所捕捉环境音频和媒体内容。在某些实施例中，可以将所捕捉环境音频与媒体相组合并存储为单个数字文件。在其他实施例中，可以将所捕捉环境音频和媒体存储为单独数字文件，每个文件具有一个或多个参考标记以使得能够实现数字环境音频和媒体文件的时间同步。在又其他实施例中，可以将所捕捉环境音频存储为模拟文件，并且可以将媒体存储为数字文件，每个文件具有一个或多个参考标记以使得能够实现模拟环境音频文件和数字媒体文件的时间同步。

可以用LID本地地或远离LID存储呈现给所述多个用户的所捕捉环境音频和媒体。可以将呈现给所述多个用户的所捕捉环境音频和媒体存储在被耦合到LID的存储器中。可以通过网络将呈现给所述多个用户的所捕捉环境音频和媒体存储在被耦合到LID的存储器中，例如经由因特网访问的“云”储存器。

在至少某些实施例中，可以由LID来存储呈现给所述多个用户的所捕捉环境音频和媒体，并且可以在LID上保持显示媒体或表示媒体的图标。在用在LID上保持的媒体本身或图标来表示呈现给所述多个用户的所捕捉环境音频和媒体的情况下，所述多个用户中的某些或全部可以例如通过重新调用媒体或删除媒体来***体或图标的显示。

该方法还可以包括在630处基于由所述多个用户中的任何一个提供的音频输入来使在LID上显示的相关媒体相关。基于由所述多个用户提供的环境音频，LID可以指示在LID上显示或存储在LID的存储器内的相关内容。例如，在所述多个用户正在讨论红色膝上型计算机设计、蓝色膝上型计算机设计和绿色膝上型计算机设计时，可能已由LID生成与每个设计有关的多个捕捉音频和媒体文件。可以在LID上显示红色、蓝色和绿色音频和媒体文件的一部分（例如，最近讨论的），同时可以将红色、蓝色和绿色音频和媒体文件的另一部分（例如，较旧的讨论）存储在被耦合到LID的存储器内。当所述多个用户请求与“绿色膝上型计算机”有关的信息时，LID可以通过指示在屏幕上显示的那些相关文件进行响应，例如通过突出显示那些文件。另外，在某些实施例中，LID可以通过从被耦合到LID的存储器检索与“绿色膝上型计算机”有关的那些文件来进行响应。检索所有相关音频和媒体文件的能力可以帮助所述多个用户更完整地且全面地评估“绿色膝上型计算机”。

图7是描绘根据一个或多个实施例的又另一说明性音频关联方法700的实施例的流程图。方法700可以包括在710处处理由多个用户在610处提供的所捕捉环境音频。该方法还可以包括在720处具体地从所述多个用户中识别所捕捉环境音频内容的单独来源。使环境音频内容与特定用户相关联的能力可以允许LID内的环境音频数据的进一步分类。例如，用户可以指定LID仅指示与它们或与由LID识别的另一特定用户相关联的相关媒体。

在710处处理所捕捉环境音频可以包括对所捕捉环境音频数据执行一个或多个算法。所述一个或多个算法可以包括所捕捉环境音频数据的任何类型的音频或空间处理。在710处执行的处理可以是模拟的、数字的或其任何组合。可以完全或部分地使用在LID内、远离LID或其任何组合的处理器来执行该处理。

720处的选自所述多个用户的特定用户作为所捕捉环境音频内容的来源的识别可以是基于710处的处理的所捕捉环境音频。在某些实施例中可以基于足以特别地识别用户的识别算法、例如语音识别算法来识别选自所述多个用户的特定用户。在其他实施例中，可以基于算法的执行来识别选自所述多个用户的特定用户以使用一个或多个定向麦克风或麦克风阵列确定环境音频的来源的最近位置或定位。在至少某些实施例中，可以使环境音频数据的来源与LID内的所存储环境音频相关联。

使特定用户与所捕捉环境音频和媒体相关联的能力可以允许在选择和指示相应的相关媒体时甚至更大的灵活性。例如，在所述多个用户由用户1、2和3组成且所述多个用户正在讨论红色膝上型计算机设计、蓝色膝上计算机设计和绿色膝上计算机设计的情况下，使特定用户与给定捕捉环境音频和媒体文件相关联的能力可以允许指示由用户1而不是用户2和3提供的与“蓝色膝上型计算机”有关的所捕捉环境音频和媒体文件。

虽然前述内容针对本发明的实施例，但在不脱离其基本范围的情况下可以设计本发明的其他和进一步实施例，并且由随后的权利要求来确定其范围。

Claims

1.一种用于大型交互式设备（LID）的音频捕捉方法（100），包括：

使由第一用户提供的所捕捉环境音频与经由LID呈现给第一用户的媒体相关（110）；以及

基于由第一用户提供的音频输入来指示（120）在LID上显示的相关媒体。

2.权利要求1的方法，还包括：

存储（210）所捕捉环境音频和相关的LID媒体内容。

3.权利要求1的方法，还包括：

处理（310）所捕捉环境音频；以及

将第一用户识别（320）为所捕捉环境音频的特定来源。

4.权利要求1的方法，还包括：

使由第二用户提供的所捕捉环境音频与经由LID呈现给第二用户的媒体相关（410）；以及

基于由第一用户提供的音频输入来指示（420）经由LID呈现给第二用户的相关媒体。

5.权利要求1的方法，其中，指示相关媒体包括改变一个或多个可见媒体参数。

6.权利要求4的方法，其中，指示相关媒体包括改变一个或多个可见媒体参数。

7.权利要求1的方法，

其中，经由LID呈现给第一用户的媒体随时间而变；以及

其中，由第一用户提供的所述相关捕捉环境音频在时间上与媒体有联系。

8.一种用于大型交互式设备（LID）的音频捕捉***（500），包括；

LID（510），用以向第一用户（530）提供媒体内容（520）；

音频捕捉设备（540），用以捕捉由第一用户产生的环境音频（550）；

逻辑（560），在由被耦合到LID的处理器（570）执行时，使由第一用户提供的所捕捉环境音频与提供给第一用户的媒体内容相关；

存储器（580），被耦合到LID以处理和存储所捕捉环境音频和相关LID媒体内容的至少一部分；以及

逻辑（590），在由被耦合到LID的处理器执行时基于由第一用户提供的音频输入来指示在LID上显示的相关媒体（595）。

9.权利要求8的***，其中，所述LID（510）包括多个触敏显示设备。

10.权利要求8的***，其中：

该逻辑基于由第一用户提供的音频输入来指示在LID上显示的相关媒体指示由第一用户提供的媒体内容和由不同用户提供的媒体内容两者。

11.权利要求8的***，还包括语音识别逻辑，其在被处理器（570）执行时使所捕捉环境音频的至少一部分与第一用户相关联。

12.权利要求8的***，还包括时间索引***，以使由第一用户提供的环境音频在时间上与时间相关的变化的媒体内容相关。

13.一种用于大型交互式设备（LID）的音频捕捉方法（600），包括：

使由多个用户提供的所捕捉环境音频与经由LID呈现给所述多个用户的媒体相关（610）；

存储（620）所捕捉环境音频和相关LID媒体内容；以及

基于由所述多个用户中的任何一个所提供的音频输入来指示（630）在LID上显示的相关媒体。

14.权利要求13的方法，还包括：

使用语音识别逻辑来处理（710）由所述多个用户提供的所捕捉环境音频；以及

将选自所述多个用户的特定用户识别（720）为所捕捉环境音频的来源。

15.权利要求13的方法，

其中，经由LID呈现给所述多个用户的媒体随时间而变；以及

其中，由所述多个用户提供的相关捕捉环境音频在时间上与媒体有联系。