CN103404127A - 音频关联***和方法 - Google Patents

音频关联***和方法 Download PDF

Info

Publication number
CN103404127A
CN103404127A CN2011800689343A CN201180068934A CN103404127A CN 103404127 A CN103404127 A CN 103404127A CN 2011800689343 A CN2011800689343 A CN 2011800689343A CN 201180068934 A CN201180068934 A CN 201180068934A CN 103404127 A CN103404127 A CN 103404127A
Authority
CN
China
Prior art keywords
lid
user
audio frequency
media
environment audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800689343A
Other languages
English (en)
Other versions
CN103404127B (zh
Inventor
A.S.米彻尔
S.韦
M.C.索洛蒙
G.A.王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN103404127A publication Critical patent/CN103404127A/zh
Application granted granted Critical
Publication of CN103404127B publication Critical patent/CN103404127B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/45Picture in picture, e.g. displaying simultaneously another television channel in a region of the screen
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4122Peripherals receiving signals from specially adapted client devices additional display device, e.g. video projector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41415Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance involving a public display, viewable by several users in a public space outside their home, e.g. movie theatre, information kiosk
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4622Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Set Structure (AREA)

Abstract

提供了一种可应用于大型交互式设备(LID)的音频捕捉***和方法。一种音频捕捉方法可以包括使由第一用户提供的所捕捉环境音频与经由LID呈现给第一用户的媒体相关。该方法还可以包括基于由第一用户提供的音频输入来指示在LID上显示的相关媒体。

Description

音频关联***和方法
背景技术
大型交互式设备(LID)为一个或多个个体提供增强的工作空间。LID通常包括显示设备,诸如视频显示监视器或使用多个监视器形成的墙壁。在LID上显示的交互式内容可以包括由一个或多个用户输入(类似于白板上绘画)或从被本地地或跨越网络远程地耦合到LID的存储位置检索的数据。LID的典型使用可能是在会议室环境中,其中,一群用户在显示于LID上的媒体上合作。在一个个体可以负责在LID上显示的媒体的同时,所有用户可能正在讨论媒体的各种方面。
附图说明
在阅读以下详细描述时和参考附图时,一个或多个公开实施例的优点可以变得显而易见,在所述附图中:
图1是描绘根据本文所述的一个或多个实施例的说明性音频关联方法的实施例的流程图;
图2是描绘根据本文所述的一个或多个实施例的另一说明性音频关联方法的实施例的流程图;
图3是描绘根据本文所述的一个或多个实施例的又另一说明性音频关联方法的实施例的流程图;
图4是描绘根据本文所述的一个或多个实施例的仍又另一说明性音频关联方法的实施例的流程图;
图5是描绘根据本文所述的一个或多个实施例的说明性音频关联***的实施例的示意图;
图6是描绘根据本文所述的一个或多个实施例的另一说明性音频关联方法的实施例的流程图;以及
图7是描绘根据本文所述的一个或多个实施例的又另一说明性音频关联方法的实施例的流程图。
具体实施方式
大型交互式设备(LID)正在市场中发现被越来越多地接受。从显示机场航班信息到替换会议室白板,LID正在取代传统的“单向”数据显示设备。由LID向LID的一个或多个用户呈现的媒体或数据可以源自于一个或多个位置。例如,在被用作用于会议室白板的替换的LID上显示的数据可能部分地源自于LID的用户,例如显示正在由一群用户设计的新打印机机盒的图画;并且部分地来自远程位置,例如与示范竞争打印机机盒的使用的在线视频相组合的用于竞争打印机盒的因特网搜索的结果。容易地且同时地在单个表面上访问内部和外部知识能够提高生产力。
用户群可以不仅可听地评估其数据输入,而且评估经由LID从远程位置提供的数据。口头评估的抄写可能与讨论的自由流程相干扰,因为会话的速度可能频繁地超过几乎最快的抄写。另外,通过使会话与显示的LID媒体相关,口头评估的远程存储未能利用LID的能力。
因此提供了音频捕捉方法。说明性音频捕捉方法可以包括使由第一用户提供的所捕捉环境音频与经由LID呈现给第一用户的媒体相关。该方法还可以包括基于由第一用户提供的音频输入来指示在LID上显示的相关媒体。
还提供了音频捕捉***。说明性音频捕捉***可以包括用以向第一用户提供媒体内容的大型交互式设备(“LID”)和用以捕捉由第一用户产生的环境音频的音频捕捉设备。该***还可以包括逻辑,该逻辑在由被耦合到LID的处理器执行时使由第一用户提供的所捕捉环境音频与提供给第一用户的媒体内容相关。该***还可以包括被耦合到LID以存储所捕捉环境音频的至少一部分和相关LID媒体内容的存储器和逻辑,所述逻辑在由被耦合到LID的处理器执行时基于由第一用户提供的音频输入来指示在LID上显示的相关媒体。
还提供了附加音频捕捉方法。说明性音频捕捉方法可以包括使由多个用户提供的所捕捉环境音频与经由LID呈现给所述多个用户的媒体相关。该方法还可以包括存储所捕捉环境音频和相关LID媒体内容并基于由所述多个用户中的任何一个提供的音频输入来指示在LID上显示的相关媒体。
图1是描绘根据一个或多个实施例的说明性音频关联方法100的实施例的流程图。方法100可以包括在110处使由第一用户提供的所捕捉环境音频与经由大型交互式设备(“LID”)呈现给第一用户的媒体相关。该方法还可以包括基于在110处由第一用户提供的环境音频输入在120处指示在LID上显示的相关媒体。例如,如果第一用户正在观看LID上的HP TouchPad平板的图像并提到HP TouchPad运行WebOS,则LID可以自动地指示在LID上的其他地方所显示的“HP”、“TouchPad”或“WebOS”的任何其他实例。
方法100可以包括在110处使由第一用户提供的所捕捉环境音频与经由大型交互式设备(“LID”)呈现给第一用户的媒体相关。由第一用户供应的环境音频可以被LID使用任何模拟或数字音频捕捉设备、例如单个麦克风捕捉。在其他实施例中,模拟或数字音频捕捉设备可以包括定向麦克风或定向麦克风阵列,其允许LID捕捉由第一用户提供的音频,同时为第一用户提供最近位置。
可以使环境音频和呈现给第一用户的媒体相关或另外关联,例如,通过用参考标记来标记环境音频和媒体以使环境音频与媒体同步。在其他实施例中,可以通过使用语音至文本算法将环境音频变换成文本并在时间上使文本与显示媒体相关联来使环境音频与呈现给第一用户的媒体的至少一部分相关联。在至少某些实施例中,可以由LID将已转换环境音频存储为数字文件。在某些实施例中,环境音频数字文件可以是由LID可搜索的。
其他数据也可以与经由LID呈现的媒体相关联,例如,媒体元数据也可以与环境音频数字文件相关联,从而提供对媒体文件的主题的参考。使用说明性示例,第一用户可能正在观看LID上的HP TouchPad的图像,同时描述设备的各种功能方面,诸如CPU、储存器和存储器。在LID内,可以在由第一用户描述的各种功能方面(作为环境音频数字文件)、媒体元数据以及HP TouchPad媒体本身之间形成关联。
该方法还可以包括基于在110处由第一用户提供的环境音频输入在120处指示在LID上显示的相关媒体。在至少某些实施例中,LID可以基于由第一用户提供的环境音频输入来指示相关媒体内容。在某些实施例中,基于由第一用户供应的环境音频,LID可以显示在LID上的其他地方显示的相关媒体内容。继续上述说明性示例,在一个实施例中,当第一用户提供“HP TouchPad”环境音频输入时,LID可能指示与在LID上显示的“HP TouchPad”有关的媒体的所有实例。
该指示可以包括一个或多个视觉信号,例如突出显示或另外隔离相关媒体。该指示可以包括相关媒体到接近于第一用户的位置的平移—此类平移在LID的物理尺寸使得第一用户难以整体地看到LID的情况下可能是有益的。在某些实施例中,相关媒体的显示可以包括与所识别相关媒体的环境音频的重放。
图2是描绘根据一个或多个实施例的另一说明性音频关联方法200的实施例的流程图。可以在210处将所捕捉环境音频和相关媒体内容存储在与LID相关联的数据储存器或存储器中。
在某些实施例中,可以使数据储存器或存储器与LID相关联,数据储存器或存储器可以允许存储由第一用户提供给LID的环境音频数据中的某些或全部。另外,在至少某些实施例中,可以将由LID提供给第一用户的媒体的全部或一部分存储在数据储存器或存储器内。此类储存器使得LID可以不仅指示由LID当前显示的相关媒体内容,而且指示存储在被耦合到LID的数据储存器或存储器内的相关媒体内容。继续参考图1所述的说明性示例,在一个实施例中,LID可以检索在LID上当前显示的“HP TouchPad”的所有实例(如在120处所述)和存储在与LID相关联的数据储存器或存储器内的所有实例。
图3是描绘根据一个或多个实施例的又另一说明性音频关联方法300的实施例的流程图。LID可以在310处处理由第一用户提供的环境音频以在320处具体地将第一用户识别为所捕捉环境音频内容的来源。使环境音频内容与特定用户相关联的能力可以允许LID内的环境音频数据的进一步分类。例如,用户可以指定LID仅指示与它们或与由LID识别的另一特定用户相关联的相关媒体。
在310处处理所捕捉环境音频可以包括对所捕捉环境音频数据执行一个或多个算法。所述一个或多个算法可以包括环境音频数据的任何类型的音频或空间处理。在710处执行的处理可以是模拟的、数字的或其任何组合。可以完全或部分地使用在LID内、远离LID或其任何组合的处理器来执行该处理。
320处的第一用户作为所捕捉环境音频内容的来源的特定识别可以是基于310处的处理所捕捉环境音频。在某些实施例中,可以具体地基于足以识别第一用户的语音识别算法来识别第一用户。在其他实施例中,可以基于算法的执行来具体地识别第一用户以使用一个或多个定向麦克风或麦克风阵列来确定环境音频的来源的最近定位或位置。在至少某些实施例中,可以使环境音频数据的来源与LID内的所存储环境音频相关联。
图4是描绘根据一个或多个实施例的仍又另一说明性音频关联方法400的实施例的流程图。第一用户和第二用户可以同时地且独立地向LID供应环境音频,同时LID向每个用户呈现独立的媒体。LID可以在410处使由第二用户提供的所捕捉环境音频与经由LID呈现给第二用户的媒体相关,同时使由第一用户提供的所捕捉环境音频与在110处呈现给第一用户的媒体相关。
通过独立地使由第一和第二用户两者供应的所捕捉环境音频与呈现给每个用户的媒体相关,LID可以指示相关媒体的所有实例,包括在420处呈现给LID的其他用户的媒体。例如,LID可以基于由第一用户提供的环境音频输入向第一用户指示呈现给第一用户和第二用户两者的相关媒体。考虑说明性示例,如果第一用户和第二用户每个对与HP TouchPad有关的媒体进行消费,并且每个提供讨论TouchPad的一个或多个功能方面的环境音频输入,当被环境音频输入提示时,LID可以向每个用户指示由两个用户供应的相关媒体。
图5是描绘根据一个或多个实施例的说明性音频关联***500的实施例的示意图。***500可以包括被配置成向第一用户530提供媒体内容520的LID 510。该***还可以包括用以捕捉由第一用户产生的环境音频550的音频捕捉设备540。该***还可以包括逻辑560,其在由被耦合到LID的处理器570执行时使由第一用户提供的所捕捉环境音频与提供给第一用户的媒体内容相关。被耦合到LID的存储器580处理并存储所捕捉环境音频和相关LID媒体内容的至少一部分。***500可以另外包括逻辑590,其在由被耦合到LID的处理器执行时基于由第一用户提供的音频输入来指示在LID上显示的相关媒体595。
LID 510可以包括被配置成向至少第一用户530提供媒体内容520的任何数目的***或设备或***和设备的任何组合。在至少某些实施例中,LID 510可以包括至少一个触敏设备,诸如电阻或电容触敏LCD面板。在至少某些实施例中,LID 510可以是能够独立地支持任何数目的用户的多用户/多触摸交互式设备。
LID 510可以包括被配置成提供多用户触摸能力的多个设备或***,例如被包含传感器的框架或带槽框(bezel)围绕的至少一个非触敏LCD面板,所述传感器被配置成检测所述至少一个非触敏LCD面板上的用户触摸手势。在至少某些实施例中,LID 510可以包括在被包含传感器的框架或带槽框围绕的刚性支撑结构上以规则网格或阵列设置的多个非触敏LCD面板,所述传感器被配置成检测来自至少第一用户530的用户触摸手势。
供应给第一用户530的媒体内容520可以包括任何形式的媒体内容。在某些实施例中,媒体内容520可以包括单向通信,例如向第一用户530呈现图像(例如,JPEG)或视频(例如,MPEG)。在某些实施例中,媒体内容520可以包括双向通信,例如第一用户530与远程方之间的电视会议。在至少某些实施例中,媒体内容520中的某些或全部可以包括元数据,例如与媒体的内容、形式或格式相关联的元数据。
音频捕捉设备540可以包括设置于LID 510中、上、周围或附近的一个或多个音频输入设备,所述LID 510被配置成捕捉由第一用户530提供的环境音频550的至少一部分。 在某些实施例中,音频捕捉设备540可以是仅向处理器570提供音频数据的简单麦克风。在某些实施例中,音频捕捉设备540可以是向处理器570提供音频数据和音频源位置数据的单个定向麦克风。在其他实施例中,音频捕捉设备540可以包括向处理器560提供音频数据的多个麦克风。在又其他实施例中,音频捕捉设备可以包括适合于向处理器570提供音频数据和音频源位置数据的麦克风阵列。
***500还可以包括逻辑560,其在被处理器570执行时产生由第一用户530供应的环境音频550与呈现给第一用户的媒体内容520之间的关系。在至少某些实施例中,可以在形成与媒体内容520的关联之前将环境音频550转换成文本。在其他实施例中,该关联可以是概念上的关联,与文字上的相反—例如,当第一用户在其环境音频550中提到“HP TouchPad”时,逻辑560可以关联平板计算机而不是HP TouchPad的概念。
处理器570可以包括被配置成执行机器可读指令集的至少一部分的任何一个或多个设备。可以将处理器570设置于LID 510中、上、周围或附近。可以远离LID 510设置处理器570,例如跨越网络设置的处理器570。该处理器可以是专用设备或其他功能或多个LID之间的共享设备。
可以将存储器580耦合到处理器570或LID 510或者处理器570和LID 510两者。可以将存储器580设置于LID 510中、上、周围或附近。可以远离LID 510设置存储器580,例如跨越网络设置的存储器580,例如基于云的因特网存储器。
***500可以另外包括逻辑590,其在由被耦合到LID 510的处理器570执行时可以基于由第一用户提供的音频输入来指示在LID上显示的相关媒体595。逻辑590可以包括能够检测由第一用户530提供的环境音频与由LID 510呈现给第一用户530的媒体之间的关联的任何逻辑。该关联可以是关键字类型关联、概念关联或适合于检测当前由LID显示、存储在LID存储器580内或由LID显示并存储的相同或类似媒体内容的任何其他形式的关联能力。
图6是描绘根据一个或多个实施例的另一说明性音频关联方法600的实施例的流程图。图6至少提供了用于关联由多个用户提供的环境音频的方法,其中,LID向所述多个用户呈现媒体。说明性示例可能是在LID讨论用于新膝上型计算机的可能设计之前聚集的一群设计师。随着LID显示各种设计选项,设计师讨论并评论每个选项,该评论以及显示相关设计的媒体可以被LID存储。
该方法可以包括在610处使由多个用户提供的所捕捉环境音频与经由LID呈现给所述多个用户的媒体相关。可以使用一个或多个音频捕捉设备来捕捉来自所述多个用户的环境音频,诸如常规麦克风、定向麦克风、外部麦克风,包括设置于与第一用户相关联的电子设备中、上或周围的麦克风或麦克风阵列。随着捕捉由所述多个用户提供的环境音频,可以使音频与经由LID呈现给所述多个用户中的某些或全部的媒体相关联。此类关联可以例如通过用参考标记来标记环境音频和媒体以使环境音频与媒体同步来完成。
可以在610处使由所述多个用户提供的环境音频与呈现给所述多个用户的媒体相关,可以在620处存储结果得到的所捕捉环境音频和媒体内容。在某些实施例中,可以将所捕捉环境音频与媒体相组合并存储为单个数字文件。在其他实施例中,可以将所捕捉环境音频和媒体存储为单独数字文件,每个文件具有一个或多个参考标记以使得能够实现数字环境音频和媒体文件的时间同步。在又其他实施例中,可以将所捕捉环境音频存储为模拟文件,并且可以将媒体存储为数字文件,每个文件具有一个或多个参考标记以使得能够实现模拟环境音频文件和数字媒体文件的时间同步。
可以用LID本地地或远离LID存储呈现给所述多个用户的所捕捉环境音频和媒体。可以将呈现给所述多个用户的所捕捉环境音频和媒体存储在被耦合到LID的存储器中。可以通过网络将呈现给所述多个用户的所捕捉环境音频和媒体存储在被耦合到LID的存储器中,例如经由因特网访问的“云”储存器。
在至少某些实施例中,可以由LID来存储呈现给所述多个用户的所捕捉环境音频和媒体,并且可以在LID上保持显示媒体或表示媒体的图标。在用在LID上保持的媒体本身或图标来表示呈现给所述多个用户的所捕捉环境音频和媒体的情况下,所述多个用户中的某些或全部可以例如通过重新调用媒体或删除媒体来***体或图标的显示。
该方法还可以包括在630处基于由所述多个用户中的任何一个提供的音频输入来使在LID上显示的相关媒体相关。基于由所述多个用户提供的环境音频,LID可以指示在LID上显示或存储在LID的存储器内的相关内容。例如,在所述多个用户正在讨论红色膝上型计算机设计、蓝色膝上型计算机设计和绿色膝上型计算机设计时,可能已由LID生成与每个设计有关的多个捕捉音频和媒体文件。可以在LID上显示红色、蓝色和绿色音频和媒体文件的一部分(例如,最近讨论的),同时可以将红色、蓝色和绿色音频和媒体文件的另一部分(例如,较旧的讨论)存储在被耦合到LID的存储器内。当所述多个用户请求与“绿色膝上型计算机”有关的信息时,LID可以通过指示在屏幕上显示的那些相关文件进行响应,例如通过突出显示那些文件。另外,在某些实施例中,LID可以通过从被耦合到LID的存储器检索与“绿色膝上型计算机”有关的那些文件来进行响应。检索所有相关音频和媒体文件的能力可以帮助所述多个用户更完整地且全面地评估“绿色膝上型计算机”。
图7是描绘根据一个或多个实施例的又另一说明性音频关联方法700的实施例的流程图。方法700可以包括在710处处理由多个用户在610处提供的所捕捉环境音频。该方法还可以包括在720处具体地从所述多个用户中识别所捕捉环境音频内容的单独来源。使环境音频内容与特定用户相关联的能力可以允许LID内的环境音频数据的进一步分类。例如,用户可以指定LID仅指示与它们或与由LID识别的另一特定用户相关联的相关媒体。
在710处处理所捕捉环境音频可以包括对所捕捉环境音频数据执行一个或多个算法。所述一个或多个算法可以包括所捕捉环境音频数据的任何类型的音频或空间处理。在710处执行的处理可以是模拟的、数字的或其任何组合。可以完全或部分地使用在LID内、远离LID或其任何组合的处理器来执行该处理。
720处的选自所述多个用户的特定用户作为所捕捉环境音频内容的来源的识别可以是基于710处的处理的所捕捉环境音频。在某些实施例中可以基于足以特别地识别用户的识别算法、例如语音识别算法来识别选自所述多个用户的特定用户。在其他实施例中,可以基于算法的执行来识别选自所述多个用户的特定用户以使用一个或多个定向麦克风或麦克风阵列确定环境音频的来源的最近位置或定位。在至少某些实施例中,可以使环境音频数据的来源与LID内的所存储环境音频相关联。
使特定用户与所捕捉环境音频和媒体相关联的能力可以允许在选择和指示相应的相关媒体时甚至更大的灵活性。例如,在所述多个用户由用户1、2和3组成且所述多个用户正在讨论红色膝上型计算机设计、蓝色膝上计算机设计和绿色膝上计算机设计的情况下,使特定用户与给定捕捉环境音频和媒体文件相关联的能力可以允许指示由用户1而不是用户2和3提供的与“蓝色膝上型计算机”有关的所捕捉环境音频和媒体文件。
虽然前述内容针对本发明的实施例,但在不脱离其基本范围的情况下可以设计本发明的其他和进一步实施例,并且由随后的权利要求来确定其范围。

Claims (15)

1.一种用于大型交互式设备(LID)的音频捕捉方法(100),包括:
使由第一用户提供的所捕捉环境音频与经由LID呈现给第一用户的媒体相关(110);以及
基于由第一用户提供的音频输入来指示(120)在LID上显示的相关媒体。
2.权利要求1的方法,还包括:
存储(210)所捕捉环境音频和相关的LID媒体内容。
3.权利要求1的方法,还包括:
处理(310)所捕捉环境音频;以及
将第一用户识别(320)为所捕捉环境音频的特定来源。
4.权利要求1的方法,还包括:
使由第二用户提供的所捕捉环境音频与经由LID呈现给第二用户的媒体相关(410);以及
基于由第一用户提供的音频输入来指示(420)经由LID呈现给第二用户的相关媒体。
5.权利要求1的方法,其中,指示相关媒体包括改变一个或多个可见媒体参数。
6.权利要求4的方法,其中,指示相关媒体包括改变一个或多个可见媒体参数。
7.权利要求1的方法,
其中,经由LID呈现给第一用户的媒体随时间而变;以及
其中,由第一用户提供的所述相关捕捉环境音频在时间上与媒体有联系。
8.一种用于大型交互式设备(LID)的音频捕捉***(500),包括;
LID(510),用以向第一用户(530)提供媒体内容(520);
音频捕捉设备(540),用以捕捉由第一用户产生的环境音频(550);
逻辑(560),在由被耦合到LID的处理器(570)执行时,使由第一用户提供的所捕捉环境音频与提供给第一用户的媒体内容相关;
存储器(580),被耦合到LID以处理和存储所捕捉环境音频和相关LID媒体内容的至少一部分;以及
逻辑(590),在由被耦合到LID的处理器执行时基于由第一用户提供的音频输入来指示在LID上显示的相关媒体(595)。
9.权利要求8的***,其中,所述LID(510)包括多个触敏显示设备。
10.权利要求8的***,其中:
该逻辑基于由第一用户提供的音频输入来指示在LID上显示的相关媒体指示由第一用户提供的媒体内容和由不同用户提供的媒体内容两者。
11.权利要求8的***,还包括语音识别逻辑,其在被处理器(570)执行时使所捕捉环境音频的至少一部分与第一用户相关联。
12.权利要求8的***,还包括时间索引***,以使由第一用户提供的环境音频在时间上与时间相关的变化的媒体内容相关。
13.一种用于大型交互式设备(LID)的音频捕捉方法(600),包括:
使由多个用户提供的所捕捉环境音频与经由LID呈现给所述多个用户的媒体相关(610);
存储(620)所捕捉环境音频和相关LID媒体内容;以及
基于由所述多个用户中的任何一个所提供的音频输入来指示(630)在LID上显示的相关媒体。
14.权利要求13的方法,还包括:
使用语音识别逻辑来处理(710)由所述多个用户提供的所捕捉环境音频;以及
将选自所述多个用户的特定用户识别(720)为所捕捉环境音频的来源。
15.权利要求13的方法,
其中,经由LID呈现给所述多个用户的媒体随时间而变;以及
其中,由所述多个用户提供的相关捕捉环境音频在时间上与媒体有联系。
CN201180068934.3A 2011-03-03 2011-03-03 音频关联***和方法 Expired - Fee Related CN103404127B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/027097 WO2012118514A1 (en) 2011-03-03 2011-03-03 Audio association systems and methods

Publications (2)

Publication Number Publication Date
CN103404127A true CN103404127A (zh) 2013-11-20
CN103404127B CN103404127B (zh) 2017-02-15

Family

ID=46758245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180068934.3A Expired - Fee Related CN103404127B (zh) 2011-03-03 2011-03-03 音频关联***和方法

Country Status (5)

Country Link
US (2) US20130307921A1 (zh)
CN (1) CN103404127B (zh)
DE (1) DE112011105001T5 (zh)
GB (1) GB2502227B (zh)
WO (1) WO2012118514A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107111725A (zh) * 2015-01-08 2017-08-29 微软技术许可有限责任公司 在输入理解***中保护私有信息

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITTO20130376A1 (it) * 2013-05-10 2014-11-11 Recwon S R L Metodo per la registrazione di una pluralità di file audio
US10175933B1 (en) * 2015-12-28 2019-01-08 Amazon Technologies, Inc. Interactive personalized audio
US10855952B1 (en) * 2018-02-02 2020-12-01 Mado Labs, Inc. User engagement computer system and method of using same

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1968363A (zh) * 2005-11-18 2007-05-23 佳能株式会社 信息处理设备和信息处理方法
US20090015657A1 (en) * 2007-07-09 2009-01-15 Jason Wong Method and system for adapting video according to associated audio
CN101867742A (zh) * 2010-05-21 2010-10-20 中山大学 一种基于声控控制下的电视***

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5896128A (en) 1995-05-03 1999-04-20 Bell Communications Research, Inc. System and method for associating multimedia objects for use in a video conferencing system
US6621502B1 (en) 2001-05-02 2003-09-16 Awa, Inc. Method and system for decoupled audio and video presentation
US20040012565A1 (en) * 2002-07-22 2004-01-22 Eastman Kodak Company Interactive display
US8139793B2 (en) 2003-08-27 2012-03-20 Sony Computer Entertainment Inc. Methods and apparatus for capturing audio signals based on a visual image
US7797146B2 (en) * 2003-05-13 2010-09-14 Interactive Drama, Inc. Method and system for simulated interactive conversation
US20050280701A1 (en) 2004-06-14 2005-12-22 Wardell Patrick J Method and system for associating positional audio to positional video
US8077888B2 (en) * 2005-12-29 2011-12-13 Microsoft Corporation Positioning audio output for users surrounding an interactive display surface
US20110063191A1 (en) * 2008-01-07 2011-03-17 Smart Technologies Ulc Method of managing applications in a multi-monitor computer system and multi-monitor computer system employing the method
WO2009105544A2 (en) * 2008-02-19 2009-08-27 The Board Of Trustees Of The University Of Illinois Large format high resolution interactive display
EP2304588A4 (en) * 2008-06-11 2011-12-21 Teliris Inc SYSTEM, METHOD AND DEVICE FOR SURFACE COMPUTING COLLABORATION
US20100205190A1 (en) * 2009-02-09 2010-08-12 Microsoft Corporation Surface-based collaborative search
KR20090038413A (ko) * 2009-03-31 2009-04-20 동서대학교산학협력단 멀티 터치 기반 대형 인터랙티브 디스플레이 시스템 및 그 방법
GB201017174D0 (en) * 2010-10-12 2010-11-24 Muvemedia Ltd System and method for delivering multilingual video or film sound tracks or multilingual spoken or sung dialog for synchronization and playback
WO2012116464A1 (en) * 2011-02-28 2012-09-07 Hewlett-Packard Company User interfaces based on positions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1968363A (zh) * 2005-11-18 2007-05-23 佳能株式会社 信息处理设备和信息处理方法
US20090015657A1 (en) * 2007-07-09 2009-01-15 Jason Wong Method and system for adapting video according to associated audio
CN101867742A (zh) * 2010-05-21 2010-10-20 中山大学 一种基于声控控制下的电视***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107111725A (zh) * 2015-01-08 2017-08-29 微软技术许可有限责任公司 在输入理解***中保护私有信息

Also Published As

Publication number Publication date
DE112011105001T5 (de) 2013-12-05
CN103404127B (zh) 2017-02-15
GB2502227B (en) 2017-05-10
WO2012118514A1 (en) 2012-09-07
GB201315634D0 (en) 2013-10-16
GB2502227A (en) 2013-11-20
US10528319B2 (en) 2020-01-07
US20130307921A1 (en) 2013-11-21
US20170131971A1 (en) 2017-05-11

Similar Documents

Publication Publication Date Title
US9167189B2 (en) Automated content detection, analysis, visual synthesis and repurposing
KR101660271B1 (ko) 메타데이터 태깅 시스템, 이미지 검색 방법, 디바이스 및 이에 적용되는 제스처 태깅방법
CN106255965A (zh) 用于电子表格的自动见解
JP2018170019A (ja) 画像に表されたオブジェクトの認識及び照合のための方法及び装置
US9538116B2 (en) Relational display of images
CN106104528A (zh) 用于屏幕上项目选择和消歧的基于模型的方法
CN107408238A (zh) 从音频数据和计算机操作上下文自动捕获信息
US11910082B1 (en) Mobile interface for marking and organizing images
US10528319B2 (en) Audio association systems and methods
CN108369806A (zh) 可配置的通用语言理解模型
TWI798912B (zh) 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體
CN104020972B (zh) 背景显示方法、装置及电子设备
US9323367B2 (en) Automatic annotation de-emphasis
Hall et al. Capturing synchronous collaborative design activities: A state-of-the-art technology review
TW201710982A (zh) 互動式擴增實境影音看屋系統
US9451321B2 (en) Content management with biometric feature recognition
US11303464B2 (en) Associating content items with images captured of meeting content
US10331426B1 (en) Systems and methods of diagram transformation
JP6638281B2 (ja) 情報処理装置及びプログラム
US20130293780A1 (en) Display device and method for presenting information on entities displayed on video content
TW201710983A (zh) 虛擬實境影音看屋系統
JP2006185188A (ja) 情報処理システム、情報処理方法及びプログラム
KR20130124887A (ko) 비디오 컨텐츠에 표시된 개체들의 정보를 표시하는 디스플레이 장치 및 이의 정보 표시 방법
JP2006185187A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

CF01 Termination of patent right due to non-payment of annual fee