TW201311327A

TW201311327A - 與感興趣的目標物相關的客製化的音訊內容

Info

Publication number: TW201311327A
Application number: TW101126010A
Authority: TW
Inventors: Oren M Jacob; Martin Reddy
Original assignee: Toytalk Inc
Priority date: 2011-07-19
Filing date: 2012-07-19
Publication date: 2013-03-16
Also published as: WO2013012935A1; TWI568484B; US8737677B2; US20130022232A1

Abstract

此處公開了一種用於創建與感興趣的目標物相關的客製化的音訊片段的設備/系統和方法。通過基於感興趣的目標物之標識和/或用戶與該感興趣目標物的互動而創建客製化的音訊片段，設備和/或系統能創建與感興趣的目標物互動的另一個級別。因此，該移動設備能夠為用戶創建互動的環境與原本係無法互動的(inanimate)目標物互動。

Description

與感興趣的目標物相關的客製化的音訊內容

對相關申請的交互引用本申請要求申請的優先權：2011年7月19日提出的申請號13/186,278，的美國專利申請的優先權。上述申請案的內容以參考方式被併於此。

本申請至少一個實施例涉及創建客製化的音訊內容，更具體地，涉及創建在圖像流中識別的感興趣的目標物的客製化的音訊內容。

兒童的玩具隨著時間而進步。最早期的玩具，例如由自然中的材料製成，例如岩石，木棒，以及泥土。隨著文明的演進，玩具變得更複雜。例如，幾千年前，埃及、希臘和羅馬的兒童玩帶有假髮和可移除的肢體的玩偶，由石頭、陶瓷、蠟、木頭或陶瓦。

隨著科技的進步以及文明的繼續發展，玩具也隨之改變。儘管古代的玩具由來自於自然的材料製成，例如石頭、木頭以及草，現代的玩具通常由塑料、布料、以及合成材料製成。古代的玩具通常由家長和使用它們的兒童的家庭所製成，或者由兒童自己製成。相反地，現代的玩具，是大規模生產並在商店裏銷售。

玩具的性質的改變可由創建互動玩具產生的進步所示例。例如，玩偶，一種最古老和最普遍的人類的玩具玩偶，變得越來越互動性。最早並且最原始的玩偶是簡單的木頭雕刻或者成捆的草。埃及的玩偶有時是連接的，因此它們的肢體可以真實地移動。在19世紀早期，具有可以說“媽媽”的玩偶。如今，具有計算機化的玩偶，可以辨認和識別目標物，他們主人的聲音，並且從預編程的幾百種詞組中選出進行應答。

然而，當前的技術並不提供客製化的音訊片段以響應於識別的隨機的玩具和/或用戶與玩具的的互動、或者其他感興趣的目標物被動態地創建。

本說明書介紹的技術提供了一種互動的環境，包括與感興趣的目標物相關的客製化的音訊片段，響應於用戶與感興趣的目標物的互動而被創建。該技術包括通過移動設備的相機捕獲包括感興趣的目標物的至少一個圖像以及在圖像流中的圖像中定位感興趣的目標物。本說明書介紹的技術還提供了創建與感興趣的目標物相關的客製化的音訊片段。

本說明書介紹的技術還為用戶提供了為感興趣的目標物創建目標物的屬性（profile）。創建目標物屬性包括將感興趣的目標物與音訊屬性和圖像屬性相關聯。音訊屬性能夠通過從預先錄製的音訊屬性的集合中選擇、錄製音訊剪輯以創建該音訊屬性，選擇眾包（crowd-sourced）的音訊屬性，和/或使用計算機產生的音訊屬性而構建。

在一個實施例中，移動設備使用本文中引入的技術，能夠通過基於感興趣的目標物的標識和/或用戶與該感興趣的目標物的互動，創建客製化的音訊片段，來創建與感興趣的目標物互動的另一個級別。因此，該移動設備能夠為用戶創建互動的環境，否則該用戶與單調的目標物互動。

以上總結的技術的其他方面通過結合附圖以及以下的詳細的描述將變得明顯。

本說明書中參照“一實施例”或“一個實施例”或者類似物，是指所描述的特定特性、結構或特徵，都至少包含在本發明的一個實施例中。本說明書中出現的短語“一實施例”或“一個實施例”並不必然指代同一實施例。

圖1示出了示例的用於創建與感興趣的目標物相關的客製化的音訊內容的示例的系統的框圖。在圖1的示例的實施例中，系統包括通過網路108與服務器106耦接的移動設備104。雖然根據本描述所介紹的技術所進行的功能可以被描述為通過移動設備104或服務器106中的任一個執行，明顯地功能能夠被移動設備104或服務器106單獨或者組合在一起執行。移動設備104包括相機105，以捕獲包括感興趣的目標物102的圖像流。

如下將要更詳細地描述，移動設備104可將來自由相機105捕獲的圖像流的圖像發送給服務器106用於處理。在另一個實施例中，移動設備104自身能處理圖像。服務器106與存儲音訊剪輯、圖像屬性等的儲存設備110耦接，服務器可使用上述音訊剪輯、圖像屬性等識別感興趣的目標物102並創建客製化與感興趣的目標物102相關的音訊片段。用於創建客製化的音訊片段的過程參考圖4被更詳細地描述。

圖2是示例的移動設備的框圖，該移動設備可被用於實現本文所介紹的一些或者全部技術。本文描述的移動設備是可以實現本技術的一種移動設備的示例，其他移動設備也可用於實現本技術。例如，移動設備可包括手機、個人數字助理（PDA），便攜式電子郵件設備（例如，黑莓Blackberry®設備），便攜式媒體播放器（例如，蘋果iPod Touch®），平板或者平板觸摸電腦（例如，蘋果iPad®），上網本電腦，筆記本電腦，電子閱讀器，或者任何其他類似設備。儘管此處的描述指向移動設備，本領域普通技術人員可以理解該過程可以由更大的計算設備所執行，例如，臺式電腦，遊戲機（例如，微軟XBox®，或索尼PS3®），或者具有足夠的音訊和視頻處理能力的電視/機上盒。

在圖2的例子中，設備是包括處理子系統202的處理系統，該處理子系統202可包括一個或多個處理器。設備還包括記憶體204，儲存模塊210，輸入設備212，顯示設備214，以及網路模塊216（例如，連接至無線網路的天線系統）每個由互聯206相互連接，並由電源209供電。在一個實施例中，電源為外部電源。設備包括揚聲器220、麥克風222和相機105。顯示設備214被配置為顯示用於查看的信息。用於顯示的信息可包括文字、圖形和/或多媒體信息以及在圖形用戶介面可見。在一些實施例中，顯示214包括觸摸敏感屏，允許對顯示的信息的直接操作。在一些實施例中，被顯示的信息可被輸入設備212操作。輸入設備212被配置為基於用戶輸入產生信號。輸入設備212可以是，例如，鍵盤，鼠標，軌跡球，觸摸敏感屏，或者任何其他的能夠傳遞用戶選擇的輸入設備。信號可包括通過互聯206向處理子系統202傳遞用戶輸入的用戶選擇。

記憶體204示例地包括可被處理子系統202和設備尋址的儲存位置，以及用於存儲與本發明相關的軟件程序代碼和數據結構的其他部件。處理子系統202和相關的部件可以，轉而包括處理元件和/或邏輯電路，被配置為執行軟件代碼和操作數據結構。代碼208，其一部分典型地位於記憶體204中，並被處理子系統202所執行，實現根據本文介紹的技術的通信操作。對本領域技術人員而言是明顯地，其他處理和存儲實現，包括多種計算機可讀儲存介質，可被用於存儲和執行與本文介紹的技術相關的程序指令。

圖3是示例的服務器系統的框圖。在一個示例的實施例中，服務器系統106包括處理器子系統310，其包括一個或多個處理器。服務器系統106還包括記憶體320，網路適配器340，以及儲存適配器350，均通過互聯360相互連通。

記憶體320示例地包括儲存位置，可被記憶體310尋址，以及適配器340和350，用於存儲軟件程序代碼和與本文介紹的技術相關的數據。處理器310和適配器340和350可轉而包括處理元件和/或邏輯電路，被配置為執行軟件代碼並控制數據結構。對本領域技術人員是明顯地，其他處理和存儲實現，包括多種計算機可讀儲存介質，可被用於存儲和執行與本文介紹的技術相關的程序指令。

網路適配器340包括多個端口，以將服務器系統106與一個或多個其他系統通過點對點連接、廣域網、在公共網路（網際網絡）上實現的虛擬專用網或共享局域網相耦接。網路適配器340因此可包括機械部件和電路，允許服務器系統106在網路108上與移動設備104相連。一個或多個服務器系統通過例如，根據預定的協議，使用數據的報文或者幀，能夠與其他系統通信，例如，移動設備104。

儲存適配器350與操作系統合作，以訪問在所連的儲存設備上的信息，例如儲存設備110。信息可以被存儲在任何類型的所連的可寫儲存介質的陣列上，例如磁碟或者磁帶，光碟（例如，CD-ROM或DVD），快閃記憶體，固態硬碟(SSD)，電子隨機存取記憶體（RAM），微電子機械和/或任何其他類似的被適配為存儲信息的介質，包括數據和奇偶校驗（parity）信息。儲存適配器350包括多個具有在I/O互聯配置上與儲存設備耦接的輸入/輸出（I/O）接口電路的端口。在一個實施例中，遠程儲存設備科被用於補充和/或替代本地儲存。系統可使用適配器340或者專用儲存適配器（例如，連接至基於雲端的儲存系統，例如亞馬遜S3）連接至遠程儲存設備。

圖4用於創建與感興趣的目標物相關的客製化的音訊內容的過程的流程圖。在一個實施例中，感興趣的目標物102是用戶正在玩的玩具。移動設備104，使用本文介紹的技術，通過基於玩具的標識和/或用戶與玩具的互動創建客製化的音訊片段，能創建額外級別的與玩具的互動。因此，移動設備104能為在其他情況下無法互動(inanimate)的玩具的兒童創建互動的環境。

該過程以步驟402開始，移動設備104的相機105捕獲包括感興趣的目標物102的圖像的流。在一個實施例中，移動設備104在網路108上向服務器106發送圖像流。在另一個實施例中，圖像流可被移動設備104本地處理。

在步驟404，在捕獲圖像流之後，移動設備104在圖像流中定位感興趣的目標物102。移動設備104能通過追蹤用戶與圖像流中的目標物的互動並例如，基於用戶的互動確定目標物是感興趣的目標物，在圖像流中定位感興趣的目標物。在其他例子中，用戶能與感興趣的目標物102進行某些特定的運動，其可被移動設備104所檢測，例如以上下運動或者左右運動（side-to-side）來移動目標物。在另一個實施例中，移動設備104能通過用戶與移動設備104的互動（例如，用戶能使用觸摸敏感屏或者移動設備104的其他輸入設備212以從圖像流選擇感興趣的目標物102，或者用戶能為移動設備104提供口頭命令以開始定位感興趣的目標物102的自動過程），定位感興趣的目標物102。進一步的例子包括移動設備104使用計算機視覺來自動地定位感興趣的目標物102。

一旦移動設備104已在圖像流中定位了感興趣的目標物102，在步驟406，移動設備104能識別感興趣的目標物102。在另一個實施例中，移動設備104能從圖像流向服務器106發送圖像，用於服務器106識別感興趣的目標物102。識別感興趣的目標物102可使用多種已知的圖像識別算法中的任意一種。從上述繼續本例子，其中，感興趣的目標物102是玩具，移動設備104能將玩具識別為流行電視/電影角色。在一個實施例中，在圖像流中的多個感興趣的目標物能被定位並識別。

然而，本文介紹的技術並不限於基於電視/電影角色的流行玩具的數據庫。在一個實施例中，能為與用戶互動的任何目標物創建目標物屬性。例如，用戶能為用戶所繪製的圖畫，在流行玩具的數據庫中可能未包括的不那麼流行的玩具，另一個人類，或者任何其他常規的家用物品（例如，食物處理機，一塊水果，拖把，等）創建目標物屬性。此外，如果移動設備104無法識別感興趣的目標物102，用戶可被提示為感興趣的目標物102創建目標物屬性。創建和/或更新感興趣的目標物的目標物屬性的過程在下文中參考圖5將給出更多的細節。

在一個實施例中，在移動設備104已識別感興趣的目標物102以後，在步驟408，移動設備104能可選地追蹤感興趣的目標物102,以及以後與感興趣的目標物102的互動。繼續兒童玩玩具的例子，移動設備104，使用麥克風222以及相機105，能捕獲兒童如何與玩具玩，並以將來的處理作為基礎，例如，基於兒童與玩具的互動，創建客製化的音訊片段。例如，如果移動設備104檢測到兒童假裝玩具在飛行，移動設備104能創建客製化的音訊片段，表示玩具的動作和/或可能的情感。在另一個實施例中，客製化的音訊片段可基於口頭或打字的用戶輸入被創建。在一個實施例中，移動設備檢測用戶說出輸入的情感，並且至少部分地基於用戶的情感，創建客製化的音訊片段。

在感興趣的目標物102已被識別，在一些例子中，用戶與目標物的互動已被追蹤，移動設備104在步驟410創建與感興趣的目標物102相關的客製化的音訊片段。在一些例子中，通過將多個音訊剪輯編輯為客製化的音訊片段，創建客製化的音訊片段。在一些例子中，音訊剪輯可以是授權的音訊剪輯，用戶錄製的音訊剪輯，眾包(crowd-sourced)音訊剪輯，和/或計算機生成的音訊剪輯。因此，客製化的音訊片段能給動態地創建，以符合基於感興趣的目標物的標識，用戶當前的與感興趣的目標物的互動，和/或用戶與感興趣的目標物的互動的歷史的任何數量的情況。在一個實施例中，當在圖像流中出現多個感興趣的目標物時，對感興趣的目標物中的每一個的客製化的音訊片段能被創建，以模擬感興趣的目標物之間的會話/互動。

在兒童玩基於電視/電影角色的流行玩具的例子中，授權的音訊剪輯可在角色的聲音之中。在一個實施例中，授權的音訊內容在由用戶在玩具被識別並與授權的音訊內容相關聯時被支付。在另一個實施例中，授權的內容的價格可被包括在軟體和/或硬體實現本文所介紹的技術的全部費用中。否則，家長，兒童，和/或用戶的更大的社區可以記錄他們自己的音訊剪輯，其可以被存儲並在以後由移動設備104編輯為客製化的音訊片段。在一個實施例中，移動設備104在本地記憶體中存儲感歎詞的音訊剪輯，例如，“嗯啊(uh)”“嗯(um)”，以及類似物，其在移動設備104創建客製化的音訊片段時可以被播放。

在步驟412，在移動設備104創建客製化的音訊片段和/或感歎詞已停止了播放以後，移動設備104能播放客製化的音訊片段。基於用戶與感興趣的目標物的互動創建並且播放客製化的音訊片段的過程如圖4所示可以是連續的過程。如上所述，該過程被組織為流程圖中的順序的操作。然而，應該理解，在該過程中，以及本文描述的其他過程中，與過程相關的至少一些操作可能會被重新排序，補充或者被取代，而仍然實現相同的總體技術。

如上所述，感興趣的目標物的數據庫不可能被全部包含，以及許多感興趣的目標物初始時未被包含。因此，創建目標物屬性的方法，包括對於感興趣的目標物的音訊屬性和圖像屬性，現將參考圖5被討論。過程從步驟502開始，其中，移動設備104的相機105捕獲圖像流。捕獲圖像流在圖4中被更詳細地描述。該過程繼續，在步驟504中，移動設備104以與以上描述類似地定位感興趣的目標物102。

如上所述，一旦感興趣的目標物102已被定位，在步驟506，移動設備104試圖將感興趣的目標物102識別為目標物屬性已被創建的目標物。如果移動設備104不能識別感興趣的目標物102，在步驟508，移動設備104提示用戶開始設置過程以為目標物創建目標物屬性。在一個實施例中，提示可以是語音提示。例如，如果移動設備104檢測到兒童在與移動設備104無法識別的玩具玩，移動設備104可以提出問題，例如“你在玩什麼”，為兒童開始設置過程。在另一個實施例中，設置提示可在移動設備104的顯示214中被彈出。

在一個實施例中，在步驟510，移動設備104能提示兒童將玩具舉起，使得移動設備104能夠捕獲目標物的清晰的圖像。移動設備104能使用圖像處理軟件以建立玩具的圖像屬性，使得玩具在後面的互動中能夠被識別。可以理解，在設置過程的任何點，如果移動設備104能夠將感興趣的目標物102識別為目標物屬性已被創建的目標物，設置過程可被終止，移動設備104能開始創建與感興趣的目標物102相關的客製化的音訊片段。

一旦移動設備104為感興趣的目標物102創建了圖像屬性，在步驟512,移動設備104能夠為目標物創建音訊屬性。在一個實施例中，創建音訊屬性包括提示用戶，例如，與玩具玩的兒童或者兒童的父母，記錄音訊剪輯，其可被用於創建客製化的音訊片段。在另一個實施例中，移動設備104能提示用戶選擇預先錄製的一套音訊剪輯，以與目標物相關聯。例如，如果玩家假裝玩具是來自電影或者電視的特定的角色，兒童或者家長能夠選擇以該角色的聲音的授權的音訊包。在另一個實施例中，移動設備104能選擇適合玩具的角色的一般的音訊包，例如，用於泰迪熊的柔軟、逗人喜愛的聲音。在另一個實施例中，用戶或者移動設備104能將玩具與計算機生成的聲音相關聯，其可用於創建客製化的音訊片段。在一個實施例中，音訊屬性能被獨立地創建，並以後鏈接至由用戶創建的目標物屬性。

在設置過程中搜集和/或創建的信息，例如，圖像屬性，記錄的音訊片段，或者類似物，能被存儲在移動設備104的儲存器210中，以用於創建客製化的音訊片段。在另一個實施例中，信息能被存儲在與服務器106耦接的儲存器110中，並由移動設備104通過網路108讀取。

如果，在步驟506，移動設備104能識別感興趣的目標物102，在步驟514，過程繼續創建客製化的音訊片段，如參考圖4所描述的。然而，在創建客製化的音訊片段的任何時候，用戶能開始設置過程。在步驟516，只要用戶不開始設置過程，例如，通過口頭命令或者與顯示214和/或輸入設備212的互動，客製化的音訊內容創建過程，步驟514繼續。然而，響應於用戶的進入設置的命令，在步驟516，移動設備104允許用戶創建新和/或修改現有的與感興趣的目標物102相關的音訊內容。

上文所介紹的技術和元素可被可編程電路，該可編程電路由軟件和/或固件編程或配置，或者它們可全部由專用的“硬件”電路實現，或者以上述形式的組合的方式。這些專用的電路(如果有的)可以按照以下形式，例如，一個或多個專用積體電路(ASICs)，可編程邏輯設備 (PLDs)，現場可編程門陣列(FPGAs)，等。此外，術語“處理器”包括所有種類的用於處理數據的裝置、設備、和機器，以示例的方式包括可編程處理器，計算機，系統晶片，或者多個，以及上述的組合。

用於實現本文介紹的技術的軟件或者固件可以存儲在機器可讀的儲存介質中，並被一個或多個通用或者專用可編程微處理器所執行。一個“機器可讀介質”，如該術語在本文中所使用的，包括能夠以機器(機器可以是，例如計算機，網路設備，蜂窩手機、個人數位助理(PDA)、製造工具、任何具有一個或多個處理器的設備)可讀取的形式存儲信息的任何機制。例如，機器可讀介質包括可記錄/非可記錄介質(例如，唯讀記憶體(ROM), 隨機存取記憶體(RAM),磁碟儲存介質，光儲存介質，快閃記憶體，等)，等。此外，當機器可讀儲存介質不是傳播信號，機器可讀儲存介質可以是編碼在人工生成的傳播信號中的計算機程序指令的源或者目的。

術語“邏輯”，如在本文中使用的，可包括，例如，專用硬體電路，軟體和/或固體連同可編程電路，或者它們的組合。

本說明書描述的本主題的實施例可在計算機系統中實現，該計算機系統包括後端元件，例如，數據服務器，或者包括中間件元件，例如，應用服務器，或者包括前端部件，例如，具有圖形用戶介面或者網頁瀏覽器的客戶計算機，通過圖形用戶介面或者網頁瀏覽器，用戶可與本說明書描述的主題的實施例，或者一個或多個如上的後端、中間件或者前端元件的組合互動。系統的元件可由數字數據通信的任何形式或者介質互聯，例如，通信網路。計算機系統能包括任何數量的客戶和服務器。客戶和服務器通常彼此遠距離，並且典型地通過通信網路相互作用。客戶與服務武器的關係由於運行在各自的計算機上的計算機程序而出現，並彼此具有客戶-服務器關係。在一些實施例中，服務器向客戶設備傳送數據（例如，HTML網頁）(例如，為了顯示數據並接收來自與客戶設備互動的用戶的用戶輸入的目的)。在客戶設備產生的數據（例如，作為用戶互動的結果）可從客戶設備在服務器被接收。

儘管本發明參考特定的示例的實施例進行描述，可以理解，本發明不限於所描述的實施例，而是可以在所附的申請專利範圍第的精神和範圍之內進行修改和變形。相應地，說明書和附圖被認為是示例的，而不是限制性的。

104．．．移動設備

106．．．服務器

108．．．網路

110．．．數據庫

204．．．記憶體

208．．．代瑪

209．．．電源

210．．．儲存器

218．．．數據

212．．．輸入設備

214．．．顯示設備

216．．．網路模塊

105．．．相穖

310．．．處理器

320．．．儲存器

350．．．儲存適配器

340．．．網路適配器

本發明的一個或多個實施例將被以示例的方式說明，並不限於所附的附圖中的圖，其中相似的附圖標記表示相似的元件。圖1係用於創建與感興趣的目標物相關的客製化的音訊內容的示例的系統的框圖；圖2係示例的移動設備的框圖；圖3係示例的服務器系統的框圖；圖4係用於創建與感興趣的目標物相關的客製化的音訊內容的過程的流程圖；圖5係用於為感興趣的目標物創建目標物屬性的過程的流程圖。

104．．．移動設備

106．．．服務器

108．．．網路

110．．．數據庫

Claims

一種方法，包括：通過一移動設備的一相機，捕獲包括一玩具的至少一個圖像；向一服務器發送該至少一個圖像；響應于向該服務器發送該至少一個圖像，接收與該玩具相關的一客製化音訊片段；以及通過該移動設備，播放該客製化的音訊片段。
如[請求項1]所述的方法，還包括：在該至少一個圖像中定位該玩具；通過該移動設備檢測該玩具的一標識；以及向該服務器發送該玩具的該標識。
如[請求項2]所述的方法，其中該客製化的音訊片段與該玩具的該標識相關。
如[請求項1]所述的方法，其中，多個預先錄製的音訊片段被編輯以形成該客製化的音訊片段。
如[請求項2]所述的方法，其中，在該至少一個圖像中定位該玩具包括從一用戶接收在該至少一個圖像中的一目標物是該玩具的一指示。
一種方法，包括：在一服務器接收來自一移動設備之包括一感興趣的目標物的至少一個圖像；創建與該感興趣的目標物相關的一客製化的音訊片段；以及向該移動設備發送該客製化的音訊片段。
如[請求項6]所述的方法，還包括：在該至少一個圖像中定位該感興趣的目標物；以及檢測該感興趣的目標物的一標識。
如[請求項7]所述的方法，其中創建客製化的音訊片段包括，基於該感興趣的目標物的該標識，將存儲的音訊剪輯編輯為該客製化的音訊片段。
如[請求項7]所述的方法，還包括：接收在該至少一個圖像中的該感興趣的目標物的一用戶指示，其中基於該用戶指示，定位該感興趣的目標物。
如[請求項6]所述的方法，其中，該感興趣的目標物是玩具。
如[請求項6]所述的方法，其中，該感興趣的目標物是一人類。
如[請求項6]所述的方法，其中，該感興趣的目標物是一常規的家庭日用品。
一種方法，包括：通過一移動設備的一相機，捕獲包括感興趣的目標物的一視頻流；在該視頻流中定位該感興趣的目標物；識別該感興趣的目標物；基於該感興趣的目標物的一標識，創建一客製化的音訊片段；以及播放該客製化的音訊片段。
如[請求項13]所述的方法，還包括：基於進一步的用戶互動，為該感興趣的目標物播放附加的客製化音訊片段。
如[請求項14]所述的方法，其中該進一步的用戶互動包括文字或者語音輸入。
如[請求項14]所述的方法，其中該進一步的用戶互動包括該用戶、該感興趣的目標物或者該移動設備之實體上的運動。
如[請求項14]所述的方法，其中該進一步的用戶互動包括隨後被該移動設備檢測到之該用戶所表達的情感。
如[請求項13]所述的方法，其中，該客製化的音訊片段至少部分地基於與該感興趣的目標物的該用戶互動之一歷史所產生。
如[請求項13]所述的方法，還包括：在該目標物流中定位一第二感興趣的目標物，識別該第二感興趣的目標物；創建一第二客製化的音訊片段，使得該客製化的音訊片段和該第二客製化的音訊片段模擬該感興趣的目標物和該第二感興趣的目標物之間的對話；以及播放該第二客製化的音訊片段。
如[請求項13]所述的方法，其中，該客製化的音訊片段是基於多個感興趣的目標物產生的。
如[請求項13]所述的方法，其中，創建客製化的音訊片段包括，基於該感興趣的目標物的該標識將存儲的音訊剪輯編輯為客製化的音訊片段。
如[請求項13]所述的方法，其中，該客製化的音訊片段與該感興趣的目標物的標識相關。
如[請求項13]所述的方法，其中，在該至少一個圖像中定位該玩具包括從一用戶接收在該至少一個圖像中的目標物是該感興趣的目標物的一指示。
如[請求項13]所述的方法，還包括，記錄多個音訊剪輯，其中，創建客製化的音訊片段包括將一組該多個音訊剪輯編輯為該客製化的音訊片段。
如[請求項13]所述的方法，還包括：當該客製化的音訊片段正在被創建時，播放一***的音訊片段。
一種系統，包括：一處理器；以及一記憶體，與該處理器耦合，該記憶體存儲指令，當該指令被該處理器執行時，使得該系統運行多個操作，包括：接收包括感興趣的目標物的至少一個圖像；在該至少一個圖像中定位該感興趣的目標物；識別該感興趣的目標物；以及基於該感興趣的目標物的標識，創建一客製化的音訊片段。
如[請求項26]所述的系統，其中該多個操作還包括，播放該客製化的音訊片段。
如[請求項26]所述的系統，還包括，一用戶介面，被配置為顯示該至少一個圖像，並檢測一用戶輸入，其中，在該至少一個圖像中定位該感興趣的目標物包括檢測指示在該至少一個圖像中的目標物是該感興趣的目標物的用戶輸入。
如[請求項26]所述的系統，還包括：一儲存設備，被配置為存儲多個音訊剪輯，其中，創建該客製化的音訊片段包括將一組該多個音訊剪輯編輯為該客製化的音訊片段。
如[請求項26]所述的系統，還包括：一麥克風，被配置為接收多個音訊剪輯；以及一儲存設備，被配置為存儲該多個音訊剪輯，其中創建該客製化的音訊片段包括將一組該多個音訊剪輯編輯為該客製化的音訊片段。
一種方法，包括：接收包括一感興趣的目標物的至少一個圖像；在該至少一個圖像中定位該感興趣的目標物；識別該感興趣的目標物；以及基於該感興趣的目標物的標識，創建一客製化的音訊片段。
如[請求項31]所述的方法，其中創建客製化的音訊片段包括，基於該感興趣的目標物的該標識，將存儲的音訊剪輯編輯為該客製化的音訊片段。
如[請求項31]所述的方法，其中，該客製化的音訊片段與該感興趣的目標物的該標識相關。
如[請求項31]所述的方法，其中，在該至少一個圖像中定位該玩具包括從一用戶接收在該至少一個圖像中的目標物是該感興趣的目標物的一指示。
如[請求項31]所述的方法，還包括記錄多個音訊剪輯，其中，創建客製化的音訊片段包括將一組該多個音訊剪輯編輯為該客製化的音訊片段。
如[請求項31]所述的方法，還包括，播放該客製化的音訊片段。
如[請求項31]所述的方法，還包括，當該客製化的音訊片段正在被創建時，播放一***的音訊片段。
如[請求項31]所述的方法，其中，該客製化的音訊片段由一移動設備在運行時所產生。
如[請求項31]所述的方法，其中，該客製化的音訊片段由一服務器在運行時所產生且發送給一移動設備。