TWI595786B

TWI595786B - 基於時間戳記的音訊與視訊處理方法及其系統

Info

Publication number: TWI595786B
Application number: TW105100654A
Authority: TW
Inventors: 程信傑; 張堃鉉; 翁明哲
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2015-01-12
Filing date: 2016-01-11
Publication date: 2017-08-11
Also published as: CN106027589B; TWI602437B; CN106027589A; US20160205351A1; US9762857B2; CN105791895A; CN105791895B; US9602769B2; TW201626791A; US20160205349A1; TW201637438A

Description

基於時間戳記的音訊與視訊處理方法及其系統

本發明是有關於一種音訊與視訊處理方法及其系統，且特別是有關於一種基於時間戳記的音訊與視訊處理方法及其系統。

隨著電子科技以及通訊網路不斷地發展，視訊的硬體設備、軟體技術及操作功能已大幅提昇。現今的視訊可隨時提供多個使用者透過例如是電腦、智慧型手機、平板電腦等電子裝置進行同步連線，以讓使用者之間在進行語音通話時，更可以透過螢幕看到其它使用者的動態影像，從而增強交流的真實感以及臨場感。基此，視訊會議已逐漸應用於商業溝通上，藉此企業得以進行跨地域的內外部溝通。

一般而言，影像與聲音在進行網路傳輸時，為了求取最小資料量，會先將影像與聲音分離、編碼以及壓縮後傳送到遠端。由於影像與聲音的封包資料量不同，傳送所需耗費的時間也隨之不同，故接收端在接收到封包進行影音播放時，往往會出現影像與聲音不同步的現象，進而影響到溝通上的品質與效率。

有鑑於此，本發明提供一種基於時間戳記的音訊與視訊處理方法及其系統，其係以特定資料格式的音訊資料、視訊資料以及時間戳記資料來做為傳輸資料，以使接收傳輸資料的裝置可藉以達到影音同步的要求。

本發明提出一種基於時間戳記的音訊與視訊處理方法，適用於電子裝置，包括下列步驟。首先，於同一時間區間內，擷取影像訊號以及聲音訊號，以分別產生視訊資料以及音訊資料，並且將時間區間轉換為時間戳記資料，其中視訊資料包括不具有固定檔案大小的單一視訊畫面，音訊資料包括具有固定檔案大小的多個音檔。之後，將視訊資料、音訊資料以及時間戳記資料整合為傳輸資料。

在本發明的一實施例中，上述擷取影像訊號，以產生視訊資料的步驟包括擷取影像訊號，以及將影像訊號數位轉換並且壓縮為不具有固定檔案大小的視訊資料。

在本發明的一實施例中，上述將視訊資料、音訊資料以及時間戳記整合為傳輸資料的步驟包括利用視訊資料、音訊資料以及時間戳記資料，產生影音封包，以做為傳輸資料。

在本發明的一實施例中，上述將視訊資料、音訊資料以及時間戳記整合為傳輸資料的步驟包括利用視訊資料，產生視訊封包，又利用音訊資料以及時間戳記資料，產生音訊封包，以及以視訊封包以及音訊封包做為傳輸資料。

在本發明的一實施例中，上述將視訊資料、音訊資料以及時間戳記整合為傳輸資料的步驟之後，更包括將傳輸資料傳送到另一電子裝置。

本發明提出一種基於時間戳記的音訊與視訊處理方法，適用於電子裝置，包括下列步驟。首先，取得第一來源的第一傳輸資料，其中第一傳輸資料包括第一視訊資料、第一音訊資料以及第一時間戳記資料，其中第一視訊資料包括不具有固定檔案大小的單一視訊畫面，第一音訊資料包括具有固定檔案大小的多個音檔。之後，根據第一傳輸資料中的第一時間戳記資料，播放第一視訊資料以及第一音訊資料。

在本發明的一實施例中，第一傳輸資料為包括第一視訊資料、第一音訊資料以及第一時間戳記資料的影音封包，電子裝置具有包括多個第一暫存位置的第一資料緩衝器，而在取得第一來源的第一傳輸資料的步驟之後，上述方法更包括根據第一影音封包中的第一時間戳記資料，將第一影音封包依序遞補至第一暫存位置中。

在本發明的一實施例中，上述根據第一傳輸資料中的第一時間戳記資料，播放第一音訊資料以及第一視訊資料的步驟包括當第一影音封包排序於第一暫存位置中的第一個時，播放第一影音封包的第一視訊資料以及第一音訊資料。

在本發明的一實施例中，電子裝置更具有包括多個第二暫存位置的第二資料緩衝器，而上述方法更包括以下步驟。取得第二來源的第二傳輸資料，其中第二傳輸資料為包括第二視訊資料、第二音訊資料以及包括第二時間戳記資料的第二影音封包，其中第二視訊資料包括不具有固定檔案大小的單一視訊畫面，第二音訊資料包括具有固定檔案大小的多個音檔。接著，根據第二影音封包中的第二時間戳記資料，將第二影音封包依序遞補至第二暫存位置中。當第一影音封包排序於第一暫存位置中的第一個以及第二影音封包排序於第二暫存位置中的第一個時，同時播放第一影音封包的第一視訊資料、第一音訊資料以及第二影音封包的第二視訊資料、第二音訊資料。

在本發明的一實施例中，電子裝置係以分割畫面或是子母畫面同時播放第一視訊資料以及第二視訊資料。

在本發明的一實施例中，第一傳輸資料為包括第一視訊資料的第一視訊封包以及包括第一音訊資料、第一時間戳記資料的第一音訊封包，電子裝置具有包括第一視訊暫存位置的第一視訊緩衝器以及包括多個第一音訊暫存位置的第一音訊緩衝器，而在取得第一來源的第一傳輸資料的步驟之後，上述方法更包括將第一視訊封包遞補至第一視訊暫存位置中，以及根據第一音訊封包中的第一時間戳記資料，將第一音訊封包依序遞補至第一音訊暫存位置中。

在本發明的一實施例中，上述將第一視訊封包遞補至第一視訊暫存位置中的步驟包括當第一視訊暫存位置中存在另一封包時，以第一視訊封包覆蓋該另一封包。

在本發明的一實施例中，上述根據第一音訊封包中的第一時間戳記資料，將第一音訊封包依序遞補至第一暫存位置中的步驟包括直接播放第一視訊暫存位置中的第一視訊封包的第一視訊資料，而當第一音訊封包排序於第一暫存位置中的第一個時，播放第一音訊封包的第一音訊資料。

在本發明的一實施例中，電子裝置更具有包括第二視訊暫存位置的第二視訊緩衝器以及包括多個第二音訊暫存位置的第二音訊緩衝器，而上述方法更包括下列步驟。取得第二來源的第二傳輸資料，其中第二傳輸資料為包括第二視訊資料的第二視訊封包以及包括第二音訊資料、第二時間戳記資料的第二音訊封包，其中第二音訊資料包括具有固定檔案大小的多個音檔，第二視訊資料包括不具有固定檔案大小的單一視訊畫面。將第二視訊封包遞補至第二視訊暫存位置中，並且根據第二音訊封包中的第二時間戳記資料，將第二音訊封包依序遞補至所述第二音訊暫存位置中。選擇第一視訊封包的第一視訊資料以及第二視訊封包的第二視訊資料兩者之一，以做為篩選後的視訊資料。當第一音訊封包以及第二音訊封包分別排序於第一音訊暫存位置以及第二音訊暫存位置中的第一個時，整合第一音訊封包的第一音訊資料以及第二音訊封包的第二音訊資料，以做為整合後的音訊資料。之後，同時播放篩選後的視訊資料以及整合後的音訊資料。

在本發明的一實施例中，選擇第一視訊封包的第一視訊資料以及第二視訊封包的第二視訊資料兩者之一，以做為篩選後的視訊資料的步驟包括分別計算第一音訊資料的平均音量以及第二音訊資料的平均音量，以取得第一平均音量以及第二平均音量，當第一平均音量大於第二平均音量時，選擇第一視訊資料做為篩選後的視訊資料，而當第二平均音量大於第一平均音量時，選擇第二視訊資料做為篩選後的視訊資料。

本發明提出一種基於時間戳記的音訊與視訊處理系統，包括至少一客戶端裝置以及主機裝置。各個客戶端裝置分別產生包括客戶端視訊資料、客戶端音訊資料以及客戶端時間戳記資料的客戶端傳輸資料，其中客戶端視訊資料包括不具有固定檔案大小的單一視訊畫面，客戶端音訊資料包括具有固定檔案大小的多個音檔。主機裝置連線於各個客戶端裝置，其自各個客戶端裝置接收客戶端傳輸資料，以及根據客戶端傳輸資料中的客戶端時間戳記資料，播放對應的客戶端視訊資料以及客戶端音訊資料。

在本發明的一實施例中，主機裝置更產生包括主機視訊資料、主機音訊資料以及主機時間戳記資料的主機傳輸資料，其中主機視訊資料包括不具有固定檔案大小的單一視訊畫面，主機音訊資料包括具有固定檔案大小的多個音檔，而主機裝置更根據主機傳輸資料的主機時間戳記資料，播放主機視訊資料以及主機音訊資料。

在本發明的一實施例中，客戶端傳輸資料為利用客戶端視訊資料、客戶端音訊資料以及客戶端時間戳記資料所產生的影音封包，而主機傳輸資料為利用主機視訊資料、主機音訊資料以及主機時間戳記資料所產生的影音封包。

在本發明的一實施例中，客戶端傳輸資料為利用客戶端視訊資料所產生的視訊封包以及客戶端音訊資料、該客戶端時間戳記資料所產生的音訊封包，主機傳輸資料為利用主機視訊資料所產生的視訊封包以及主機音訊資料、主機時間戳記資料所產生的音訊封包。

基於上述，本發明所提出基於時間戳記的音訊與視訊處理方法及其系統，其在擷取聲音訊號以及影像訊號後會將其轉換成具有特定資料格式的音訊資料、視訊資料以及時間戳記資料來作為傳輸資料，以使接收傳輸資料的裝置可藉此達到影音同步的播放。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

本發明的部份實施例接下來將會配合附圖來詳細描述，以下的描述所引用的元件符號，當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份，並未揭示所有本發明的可實施方式。更確切的說，這些實施例只是本發明的專利申請範圍中的方法以及系統的範例。

圖1繪示依據本發明一實施例之可執行音訊與視訊處理方法的一種電子裝置的示意圖，但此僅是為了方便說明，並不用以限制本發明。首先圖1先介紹電子裝置之所有構件以及配置關係，詳細功能將配合圖2一併揭露。

請參照圖1，電子裝置100包括螢幕111、通訊電路112、影像擷取裝置113、播音裝置114、收音裝置115、記憶體116以及處理器117。在本實施例中，電子裝置100例如是個人電腦、筆記型電腦、智慧型手機、平板電腦、個人數位助理等電子裝置，本發明不以此為限。

螢幕111用以顯示電子裝置100輸出的畫面而提供給使用者觀看。在本實施例中，螢幕111例如是液晶顯示器（Liquid Crystal Display，LCD）、發光二極體（Light-Emitting Diode，LED）顯示器、場發射顯示器（Field Emission Display，FED）或其他種類的顯示器。

通訊電路112用以透過通訊網路與其它裝置連結，其可以例如是支援WiMAX通訊協定、Wi-Fi通訊協定、3G通訊協定、4G通訊協定等無線網路連線，ADSL寬頻或光纖網路等有線網路連線的元件，然而本發明不在此設限。

影像擷取裝置113用以擷取其前方的影像，其可以是採用電荷耦合元件（charge coupled device, CCD）、互補性氧化金屬半導體（Complementary Metal-Oxide Semiconductor，CMOS）元件或其他元件鏡頭的照相機。影像擷取裝置113可以是內建於電子裝置100，亦可以是外接於電子裝置100的網路攝影機、數位相機、單眼相機、數位攝影機等。

播音裝置114用以播放聲音，其包括喇叭。收音裝置115用以接收聲音，其包括麥克風。播音裝置114以及收音裝置115可以是內建於電子裝置100，亦可以是外接於電子裝置100。此外，當播音裝置114以及收音裝置115外接於電子裝置100時，更可以整合為例如是耳機麥克風等單一裝置。

記憶體116用以儲存檔案資料，其可以例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合。

處理器117 耦接於螢幕111、通訊電路112、影像擷取裝置113、播音裝置114、收音裝置115以及記憶體116，其係用以控制以及整合此些元件之間的作動。處理器117可以例如是中央處理單元（Central Processing Unit，CPU），或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、數位訊號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）、可程式化邏輯裝置（Programmable Logic Device，PLD）或其他類似裝置或這些裝置的組合。

圖2繪示依據本發明一實施例之基於時間戳記的音訊與視訊處理方法。本實施例的方法適用於圖1的電子裝置100，以下即搭配電子裝置100中的各個元件說明本發明基於時間戳記的音訊與視訊處理方法之詳細步驟。

請參照圖2，首先，電子裝置100的處理器117將於同一時間區間內，利用影像擷取裝置113以及收音裝置115擷取影像訊號以及聲音訊號，以分別產生視訊資料以及音訊資料（步驟S202）。在此，電子裝置100的處理器117可以是以17-50毫秒（ms）做為一個時間區間單位來利用影像擷取裝置113以及收音裝置115進行影像訊號以及聲音訊號的擷取。附帶說明的是，在其它實施例中，處理器117亦可由其它來源所取得的影音串流或者是儲存於記憶體116的影音檔案來取得影像訊號比及聲音訊號，本發明不在此設限。電子裝置100的處理器117在接收到每一時間區間所擷取到的影像訊號以及聲音訊號將分別產生視訊資料以及音訊資料。

詳細來說，電子裝置100的處理器117會將所擷取的影像訊號進行數位轉換以及壓縮為視訊資料。視訊資料包括不具有固定檔案大小的單一視訊畫面；亦即，電子裝置100的處理器117可以是將單一視訊畫面壓縮成任意的檔案大小。舉例來說，電子裝置100的處理器117可以視不同網路傳輸頻寬的需求來決定檔案大小。在一範例中，壓縮後的單一視訊畫面可以是bitmap格式並且檔案大小為9,830,400位元，其寬度以及高度解析度分別為640畫素以及480畫素，色彩頻道的個數為4（RGB色彩頻道以及用以控制透明度的α分量），單一頻道深度為8位元。在另一範例中，壓縮後的單一視訊畫面更可以是jpeg格式並且檔案大小為3,732,480位元，其寬度以及高度解析度分別為640畫素以及480畫素，色彩頻道的個數為4（RGB色彩頻道以及用以控制透明度的α分量），單一頻道深度為3位元。

音訊資料包括具有固定檔案大小的多個音檔。在一範例中，假設視訊資料要以每秒30次的畫面更新率（fps）來播放，當聲音採樣頻率為44,100Hz時，則單一視訊畫面將會對應1470個聲音採樣樣本。以音訊解析度為8位元來說，單一視訊畫面所對應的聲音檔案大小為11,760位元。在另一範例中，假設視訊資料要以每秒15次的畫面更新率（fps）來播放，當聲音採樣頻率為22,050Hz時，則單一視訊畫面將會對應1470個聲音採樣樣本。以音訊解析度為4位元而言，單一視訊畫面所對應的聲音檔案大小為88,200位元。

接著，電子裝置100的處理器117在產生視訊資料以及音訊資料後，會將時間區間轉換為時間戳記資料（步驟S204）。詳言之，電子裝置100的處理器117可以是根據時間區間以及封包序號資料來產生時間戳記資料。在此的時間區間包括日期以及時間等資訊，而封包序號資料則是依時間先後對於即將產生的封包所給予的序號。

之後，電子裝置100的處理器117會將音訊資料、視訊資料以及時間戳記資料整合為傳輸資料（步驟S206）。在此，傳輸資料可分為兩種資料格式，其可以例如是圖3A依據本發明一實施例所繪示的單一影音封包，或者是圖3B依據本發明一實施例所繪示的影音分離的視訊封包以及音訊封包。

請參照圖3A，在本實施例中，電子裝置100的處理器117將利用音訊資料V1、視訊資料A1以及時間戳記資料T1來產生單一影音封包P1，並且將影音封包P1做為傳輸資料。

請再參照圖3B，在本實施例中，電子裝置100的處理器117將利用視訊資料V1產生視訊封包VP1，利用音訊資料A1以及時間戳記資料T1來產生音訊封包AP1，並且將視訊封包VP1及音訊封包AP1做為傳輸資料。在此實施例中，時間戳記資料T1與音訊資料A1組為同一封包的原因在於人類對於聲音的敏感度較高，因此較需確保稍後音訊資料A1可依序接收以及播放。

當電子裝置100產生傳輸資料後，可以是由電子裝置100自行播放或者是將傳輸資料傳送到其它電子裝置進行播放。具體來說，圖4繪示依據本發明一實施例之基於時間戳記的音訊與視訊處理方法，而本實施例的方法適用於圖1的電子裝置100或其它類似的電子裝置。

請參照圖4，首先，電子裝置100的處理器117將取得第一來源的第一傳輸資料，其中第一傳輸資料包括第一視訊資料、第一音訊資料以及第一時間戳記資料（步驟S402）。此步驟則是接續於圖2中的步驟S206，而第一來源的第一傳輸資料可以是電子裝置100本身所產生的傳輸資料，或者是電子裝置100透過通訊電路112自其它電子裝置所取得。在此的第一傳輸資料即包括前述兩種不同資料格式，而此兩種資料格式皆是包括不具有固定檔案大小的單一視訊畫面的第一視訊資料、具有固定檔案大小的多個音檔的第一音訊資料以及記錄時間區間以及封包序號資料的第一時間戳記資料。

接著，電子裝置100的處理器117將根據第一傳輸資料中的第一時間戳記資料，播放第一視訊資料以及第一音訊資料（步驟S404）。詳細來說，電子裝置100的處理器117將會根據第一時間戳記資料所記錄的時間區間以及封包序號資料來播放其所對應的第一視訊資料以及第一音訊資料，其可避免第一傳輸資料在傳輸的過程中因碰撞、路由等因素而影響到達的順序，以實現影音同步。因應傳輸資料的不同資料格式，電子裝置100在播放傳輸資料前則是有不同的處理方式，以下將以不同的實施例分敘說明。

在第一個實施例中，電子裝置100的處理器117將處理自第一來源所取得的第一傳輸資料，而此第一傳輸資料的資料格式為包括第一視訊資料、第一音訊資料以及第一時間戳記資料的第一影音封包。在此，電子裝置100的記憶體116更包括資料緩衝器（Data Buffer，在此定義為「第一資料緩衝器」），其具有多個暫存位置（在此定義為「第一暫存位置」）。電子裝置100的處理器117在接收到第一傳輸資料後，將根據第一影音封包中的第一時間戳記資料，將第一影音封包依序遞補至第一資料緩衝器的第一暫存位置中。當第一影音封包排序於第一暫存位置中的第一個時，電子裝置100的處理器117將會分別透過螢幕111以及播音裝置114播放第一影音封包的第一視訊資料以及第一音訊資料。由於處理器117是根據時間戳記資料播放屬於同一個影音封包的第一視訊資料以及第一音訊資料，因此可以達到影音同步播放的要求。

具體來說，圖5A～5B繪示依據本發明第一實施例之音訊與視訊處理方法的示意圖。

請先參照圖5A，於時點t時，電子裝置100的處理器117已接收影音封包P11～P16，其分別包括視訊資料V11～V16、音訊資料A11～A16以及時間戳記資料T1～T6，並且處理器117將會依照時間戳記資料T1～T6來將影音封包P11～P16依時序先後排序於第一資料緩衝器DB1的暫存位置中p1～p6。

請再參照圖5B，電子裝置100的處理器117會不斷的進行接收與播放封包的工作，因此於下一個時點(t+1)時，處理器117將會透過螢幕111以及播音裝置114分別播放圖5A中排序於暫存位置p1中的視訊資料V11以及音訊資料A11。此外，處理器117同時會將影音封包P12～P16分別推進（push）至其前一個暫存位置，並且接收包括視訊資料V17、音訊資料A17、時間戳記資料T17的影音封包P17，以將其遞補至暫存位置p6中。於接續的時點中，處理器117亦是以相同的方式處理影音封包，直到傳輸資料已全部傳送完畢。

在另一實施例中，電子裝置100的處理器117除了將處理自第一來源所取得的第一傳輸資料外，更可同步地處理來自其它來源所取得的傳輸資料。

詳細來說，在第二實施例中，電子裝置100的處理器117可同步處理自第一來源所取得的第一傳輸資料以及自第二來源所取得的第二傳輸資料。此第一傳輸資料的資料格式為包括第一視訊資料、第一音訊資料以及第一時間戳記資料的第一影音封包，而此第二傳輸資料的資料格式為包括第二視訊資料、第二音訊資料以及第二時間戳記資料的第二影音封包。在此，電子裝置100的記憶體116更包括另一資料緩衝器（在此定義為「第二資料緩衝器」），其具有多個暫存位置（在此定義為「第二暫存位置」）。此外，第一來源可以是電子裝置100本身，第二來源可以是另一電子裝置；或者兩個來源皆可以是其它兩個電子裝置，本發明不在此設限。

類似地，電子裝置100的處理器117在接收到第一傳輸資料後，將根據第一影音封包中的第一時間戳記資料，將第一影音封包依序遞補至第一資料緩衝器的第一暫存位置中。此外，電子裝置100的處理器117在接收到第二傳輸資料後，將根據第二影音封包中的第二時間戳記資料，將第二影音封包依序遞補至第二資料緩衝器的第二暫存位置中。

在本實施例中，值得注意的是，當第一影音封包排序於第一資料緩衝器中的第一個暫存位置以及第二影音封包排序於第二資料緩衝器中的第二個暫存位置時，電子裝置100的處理器117將透過螢幕111以分割畫面（Mult-window）或是子母畫面（Pop-up Play）同時播放第一影音封包的第一視訊資料以及第二影音封包的第二視訊資料，並且例如是以混音合成（Audio Mixing）的方式透過播音裝置114播放整合後的第一影音封包的第一音訊資料與第二影音封包的第二音訊資料。

具體來說，圖6A～6B繪示依據本發明第二實施例之音訊與視訊處理方法的示意圖。

請先參照圖6A，於時點t時，電子裝置100的處理器117已接收影音封包P11～P16，其分別包括視訊資料V11～V16、音訊資料A11～A16以及時間戳記資料T1～T6，並且處理器117將會依照時間戳記資料T1～T6來將影音封包P11～P16依時序先後排序於第一資料緩衝器DB1的暫存位置中p1～p6。此外，電子裝置100的處理器117更接收影音封包P21～P26，其分別包括視訊資料V21～V26、音訊資料A21～A26以及時間戳記資料T1～T6，並且處理器117將會依照時間戳記資料T1～T6來將影音封包P21～P26依時序先後排序於第二資料緩衝器DB2的暫存位置p1～p6中。

請再參照圖6B，電子裝置100的處理器117會不斷的進行接收與播放封包的工作，因此於下一個時點(t+1)時，處理器117將會透過螢幕111以例如是分割畫面的形式同時播放圖6A中的第一資料緩衝器DB1以及第二資料緩衝器DB2中皆排序於暫存位置p1中的視訊資料V11以及視訊資料V21，並且例如是以混音合成的方式整合音訊資料A11以及音訊資料A12，以透過播放裝置114播放整合後的音訊資料A1’。此外，處理器117同時會將影音封包P12～P16以及P22～P26分別遞補至其前一個暫存位置，並且接收包括視訊資料V17、音訊資料A17、時間戳記資料T17的影音封包P17以及包括視訊資料V27、音訊資料A27、時間戳記資料T27的影音封包P27，以將其分別遞補至第一資料緩衝器DB1以及第二資料緩衝器DB2的暫存位置p6中。於接續的時點中，處理器117亦是以相同的方式處理影音封包，直到傳輸資料已全部傳送完畢。

在第三個實施例中，電子裝置100的處理器117將處理自第一來源所取得的第一傳輸資料，而此第一傳輸資料的資料格式為包括第一視訊資料的第一視訊封包以及包括第一音訊資料以及第一時間戳記資料的第一音訊封包。在此，電子裝置100的記憶體116更包括視訊緩衝器（在此定義為「第一視訊緩衝器」）以及音訊暫存器（在此定義為「第一音訊緩衝器」），其分別具有單一個暫存位置（在此定義為「第一視訊暫存位置」）以及多個音訊暫存位置（在此定義為「第一音訊暫存位置」）。

電子裝置100的處理器117在接收到第一視訊封包時，會將其直接遞補至第一視訊緩衝器的第一視訊暫存位置中，而處理器117則是會緊接著透過螢幕111播放第一視訊暫存位置中的第一視訊封包內的第一視訊資料。由於第一視訊緩衝器中僅有唯一的第一視訊暫存位置，因此當處理器117在接收並且傳送第一視訊封包到第一視訊緩衝器時，則是會以第一視訊封包覆蓋（Overwrite）原本在第一視訊暫存位置的封包。

另一方面，電子裝置100的處理器117在接收到第一音訊封包時，將根據第一音訊封包中的第一時間戳記資料，將第一音訊封包依序遞補至第一音訊緩衝器的第一音訊暫存位置中。當第一音訊封包排序於第一音訊暫存位置中的第一個時，電子裝置100的處理器117將會透過播音裝置117播放第一音訊封包的第一音訊資料。

必須說明的是，由於第一視訊資料可以視網路傳輸頻寬的需求而適應性地壓縮成不同的檔案大小，因此在處理器117接收到第一視訊封包便會將其直接置於第一視訊緩衝器並且緊接著播放第一視訊資料的前提下，仍可實現穩定且連續播放的要求。此外，在此實施例中，第一時間戳記資料與第一音訊資料組為同一封包並且依時序排序於第一音訊緩衝器中，因此可確保第一音訊資料依序播放。據此，電子裝置100的處理器117可透過螢幕111以及播音裝置114來達到影音同步播放的要求。

具體來說，圖7A～7B繪示依據本發明第三實施例之音訊與視訊處理方法的示意圖。

請先參照圖7A，於時點t時，電子裝置100的處理器117已接收音訊封包AP11～AP16，其分別包括音訊資料A11~A16以及時間戳記資料T1～T6，並且處理器117將會依照時間戳記資料T1～T6來將音訊封包AP11～AP16依時序先後排序於第一音訊緩衝器ADB1的暫存位置中p1～p6。此外，電子裝置100的處理器117已接收視訊封包VP11並且將其置於第一視訊緩衝器VDB1的暫存位置p中。第一視訊緩衝器VDB1亦會同時緊接著準備接收包括視訊資料V11+M的視訊封包VP11+M，其中M＞0。

請再參照圖7B，電子裝置100的處理器117會不斷的進行接收與播放封包的工作，因此於下一個時點(t+1)時，處理器117將會透過螢幕111以及播音裝置114分別播放圖7A中於第一視訊緩衝器VDB1的暫存位置p中的視訊資料V11以及於第一音訊緩衝器ADB1排序於暫存位置p1中的音訊資料A11。處理器117先以視訊封包V11+M覆蓋原本暫存位置p中的視訊封包VP11，並且第一視訊緩衝器VDB1亦會同時緊接著準備接收包括視訊資料V11+M+N的視訊封包VP11+M+N，其中N＞0。此外，處理器117同時會將音訊封包AP12～AP16分別推進至其前一個暫存位置。之後，處理器117將接收包括視訊資料V1K的視訊封包VP1K以及包括音訊資料A1K、時間戳記資料TK的音訊封包AP1K，其中M+N＜K。於接續的時點中，處理器117亦是以相同的方式處理視訊封包以及音訊封包，直到傳輸資料已全部傳送完畢。

類似地，在另一實施例中，電子裝置100的處理器117除了可處理自第一來源所取得的第一傳輸資料外，更可同步地處理來自其它來源所取得的傳輸資料。

詳細來說，在第四實施例中，電子裝置100的處理器117可同步處理自第一來源所取得的第一傳輸資料以及自第二來源所取得的第二傳輸資料。此第一傳輸資料的資料格式為包括第一視訊資料的第一視訊封包以及包括第一音訊資料以及第一時間戳記資料的第一音訊封包，而此第二傳輸資料的資料格式為包括第二視訊資料的第二視訊封包以及包括第二音訊資料以及第二時間戳記資料的第二音訊封包。在此，電子裝置100的記憶體116更包括視訊緩衝器（在此定義為「第二視訊緩衝器」）以及音訊暫存器（在此定義為「第二音訊緩衝器」），其分別具有單一個暫存位置（在此定義為「第二視訊暫存位置」）以及多個音訊暫存位置（在此定義為「第二音訊暫存位置」）。此外，第一來源可以是電子裝置100本身，第二來源可以是另一電子裝置；或者兩個來源皆可以是其它兩個電子裝置，本發明不在此設限。

類似於第三實施例，處理器117在接收到第一視訊封包時，會將其直接遞補至第一視訊緩衝器的第一視訊暫存位置中，並且在接收到第二視訊封包時，會將其直接遞補至第二視訊緩衝器的第二視訊暫存位置中。另一方面，處理器117在接收到第一音訊封包時，將根據第一音訊封包中的第一時間戳記資料，將第一音訊封包依序遞補至第一音訊緩衝器的第一音訊暫存位置中，並且在接收到第二音訊封包時，將根據第二音訊封包中的第二時間戳記資料，將第二音訊封包依序遞補至第二音訊緩衝器的第二音訊暫存位置中。

當第一視訊封包以及第二視訊封包同時分別在第一視訊緩衝器的第一視訊暫存位置以及第二視訊緩衝器的第二視訊暫存位置時，處理器117會篩選其中一者的視訊資料來進行播放，而篩選機制將於稍後進行說明。同時，當第一音訊封包以及第二音訊封包分別排序於第一音訊緩衝器以及第二音訊緩衝器中的第一個暫存位置時，處理器117則是會將第一音訊封包的第一音訊資料以及第二音訊封包的第二音訊資料整合，以做為整合後的音訊資料。類似於第三實施例，電子裝置100的處理器117可透過螢幕111以及播音裝置114來同步播放篩選後的視訊資料以及整合後的音訊資料。

在本實施例中，處理器117篩選視訊資料的方式可以是根據音訊資料的音量來決定。舉例來說，處理器117將分別計算第一音訊資料的聲音採樣樣本的平均音量以及第二音訊資料的聲音採樣樣本的平均音量，以取得第一平均音量以及第二平均音量。當第一平均音量大於第二平均音量時，處理器117將選擇第一視訊資料做為篩選後的視訊資料。當第二平均音量大於第一平均音量時，處理器117將選擇第二視訊資料做為篩選後的視訊資料。在另一實施例中，處理器117亦可分別計算所有位於第一音訊緩衝器以及第二音訊緩衝器中的所有音訊資料的平均音量，以做為第一平均音量以及第二平均音量，並且將具有最大平均音量所對應的視訊資料來做為篩選後的視訊資料。

具體來說，圖8A～8B繪示依據本發明第四實施例之音訊與視訊處理方法的示意圖。

請先參照圖8A，於時點t時，電子裝置100的處理器117已接收音訊封包AP11～AP16，其分別包括音訊資料A11~A16以及時間戳記資料T1～T6，並且處理器117將會依照時間戳記資料T1～T6來將音訊封包PA11～PA16依時序先後排序於第一音訊緩衝器ADB1的暫存位置中p1～p6。特別的是，處理器117將計算音訊資料A11~A16中所有聲音採樣樣本的平均音量。此外，電子裝置100的處理器117已接收視訊封包VP11並且將其置於第一視訊緩衝器VDB1的暫存位置p中。第一視訊緩衝器VDB1亦會同時緊接著接收包括視訊資料V11+M的視訊封包VP11+M。

另一方面，電子裝置100的處理器117更已接收音訊封包AP21～AP26，其分別包括音訊資料A21～A26以及時間戳記資料T1～T6，並且處理器117將會依照時間戳記資料T1～T6來將音訊封包AP21～AP26依時序先後排序於第二音訊緩衝器ADB2的暫存位置中p1～p6。特別的是，處理器117將計算音訊資料A21~A26中所有聲音採樣樣本的平均音量，其中在此假設＞，也就是說為平均音量中的最大值。此外，電子裝置100的處理器117已接收視訊封包VP21並且將其置於第一視訊緩衝器VDB1的暫存位置p中。第二視訊緩衝器VDB2亦會同時緊接著接收包括視訊資料V21+M的視訊封包VP21+M。

請再參照圖8B，電子裝置100的處理器117會不斷的進行接收與播放封包的工作，因此於下一個時點(t+1)時，由於＞，處理器117將透過螢幕111播放圖7A中於第一視訊緩衝器VDB1的暫存位置p中的視訊資料V11，並且例如是以混音合成的方式整合音訊資料A11以及音訊資料A12，以透過播放裝置114播放整合後的音訊資料A1’。處理器117先以視訊封包VP11+M以及視訊封包VP21+M覆蓋原本分別於第一音訊緩衝器ADB1以及第二音訊緩衝器ADB2暫存位置p中的視訊封包VP11以及視訊封包VP21，並且第一視訊緩衝器VDB1以及第二視訊緩衝器VDB2亦會同時緊接著準備接收包括視訊資料V11+M+N的視訊封包VP11+M+N以及包括視訊資料V21+M+N的視訊封包VP21+M+N。此外，處理器117同時會將影音封包P12～P16以及P22～P26遞補至其前一個暫存位置，並且將接收包括視訊資料V1K的視訊封包VP1K、包括音訊資料A1K、時間戳記資料TK的音訊封包P1K、包括視訊資料V2K的視訊封包VP2K、包括音訊資料A2K、時間戳記資料TK的音訊封包P2K。於接續的時點中，處理器117亦是以相同的方式處理視訊封包以及音訊封包，直到傳輸資料已全部傳送完畢。

上述的四個實施例可歸納為裝置本身的播放、一對一的傳輸播放以及多對一的傳輸播放，而每一種方式皆可採用單一影音封包或者是影音分離的視訊封包與音訊封包的資料格式。此些實施例可應用於圖9繪示依據本發明一實施例之音訊與視訊處理系統。在本實施例將以視訊會議系統來做為實作範例，然而本發明不限於此。

請參照圖9，在本實施例中，系統900為由多個類似於電子裝置100的裝置所組成的視訊會議系統，並且可經選擇而從其中選定任一者做為主機裝置910而將其餘的電子裝置做為客戶端裝置910A～910B，其中客戶端裝置910A～910B可利用通訊網路與主機裝置910連結。必須說明的是，系統100中的客戶端裝置910A～910B僅是為了方便說明實作方式。在其它的實施例中，系統100更可提供超過兩個客戶端裝置來與主機裝置910進行連線以及執行後續的方法步驟，本發明不在此設限。

在裝置本身進行播放之一範例中，主機裝置910在擷取本身的聲音訊號以及影像訊號後，將產生包括主機音訊資料、主機視訊資料以及主機時間戳記資料的主機傳輸資料，其中主機視訊資料包括不具有固定檔案大小的單一視訊畫面，而主機音訊資料包括具有固定檔案大小的多個音檔。在此範例中的主機傳輸資料可以包括兩種資料格式：一種為利用主機視訊資料、主機音訊資料以及主機時間戳記資料所產生的影音封包；另一種為利用主機視訊資料所產生的視訊封包，以及利用主機音訊資料以及主機時間戳記資料的音訊封包。接著，主機裝置910則可根據主機傳輸資料的主機時間戳記資料，播放主機視訊資料以及主機音訊資料。

在一對一傳輸播放之一範例中，客戶端裝置910A在擷取本身的聲音訊號以及影像訊號後，將產生包括客戶端音訊資料、客戶端視訊資料以及客戶端時間戳記資料的客戶端傳輸資料，其中客戶端視訊資料包括不具有固定檔案大小的單一視訊畫面，而客戶端音訊資料包括具有固定檔案大小的多個音檔。在此範例中的客戶端傳輸資料可以包括兩種資料格式：一種為利用客戶端視訊資料、客戶端音訊資料以及客戶端時間戳記資料所產生的影音封包；另一種為利用客戶端視訊資料所產生的視訊封包，以及利用客戶端音訊資料以及客戶端時間戳記資料的音訊封包。接著，客戶端裝置910A會將客戶端傳輸資料傳送到主機裝置900，而主機裝置910則可根據客戶端時間戳記資料播放客戶端裝置910A的客戶端視訊資料以及客戶端音訊資料。

在多對一傳輸播放並且對應於單一影音的封包格式之一範例中，主機裝置910可在取得主機傳輸資料以及客戶端裝置910A的客戶端傳輸資料後，合成並且播放主機音訊資料與客戶端音訊資料，並且以分割畫面或是子母畫面同時播放主機音訊資料與客戶端音訊資料。在另一範例中，主機裝置910亦可取得客戶端裝置910A以及客戶端裝置910B的客戶端傳輸資料，合成並且播放兩者的客戶端音訊資料，並且以分割畫面或是子母畫面同時播放兩者的客戶端音訊資料。

在多對一傳輸播放並且對應於影音分離的封包格式之一範例中，主機裝置910可在取得主機傳輸資料、客戶端裝置910A～910B的客戶端傳輸資料後，將會判斷並且播放主機音訊資料以及客戶端裝置910A～910B的客戶端音訊資料具有最大平均音量者的視訊資料，以及合成並且播放主機音訊資料與客戶端裝置910A～910B的客戶端音訊資料。

必須說明的是，圖9的範例中所提到音訊與視訊資料處理以及播放的細節可參照圖2～圖8的實施例的說明，於此不再贅述。

綜上所述，本發明所提出基於時間戳記的音訊與視訊處理方法及其系統，其在擷取聲音訊號以及影像訊號後會將其轉換成具有特定資料格式的音訊資料、視訊資料以及時間戳記資料來作為傳輸資料，以使接收傳輸資料的裝置可藉此達到影音同步的播放。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100‧‧‧電子裝置
111‧‧‧螢幕
112‧‧‧通訊電路
113‧‧‧影像擷取裝置
114‧‧‧播音裝置
115‧‧‧收音裝置
116‧‧‧記憶體
117‧‧‧處理器
S202～S206、S402～S404‧‧‧音訊與視訊處理方法的流程
P1、P11～P17、P21～P27‧‧‧影音封包
VP1、VP11～VP17、VP21～VP27‧‧‧視訊封包
AP1、AP11～AP17、AP21～AP27‧‧‧音訊封包
A1、A11～A17、A21～A27‧‧‧音訊資料
V1、V11～V17、V11～V17‧‧‧視訊資料
A1’‧‧‧整合後的音訊資料
T1～T7‧‧‧時間戳記資料
p1～p6、p‧‧‧暫存位置
DB1‧‧‧第一資料緩衝器
DB2‧‧‧第二資料緩衝器
ADB1‧‧‧第一音訊緩衝器
VDB1‧‧‧第一視訊緩衝器
ADB2‧‧‧第二音訊緩衝器
VDB2‧‧‧第二視訊緩衝器
900‧‧‧系統
910A～910B‧‧‧客戶端裝置
910‧‧‧主機裝置

圖1繪示依據本發明一實施例之利用音訊與視訊處理方法所提出的一種硬體系統架構的示意圖。圖2繪示依據本發明一實施例之基於時間戳記的音訊與視訊處理方法。圖3A依據本發明一實施例所繪示的單一影音封包的示意圖。圖3B依據本發明一實施例所繪示的視訊封包以及音訊封包示意圖。圖4繪示依據本發明一實施例之基於時間戳記的音訊與視訊處理方法。圖5A～5B繪示依據本發明第一實施例之音訊與視訊處理方法的示意圖。圖6A～6B繪示依據本發明第二實施例之音訊與視訊處理方法的示意圖。圖7A～7B繪示依據本發明第三實施例之音訊與視訊處理方法的示意圖。圖8A～8B繪示依據本發明第四實施例之音訊與視訊處理方法的示意圖。圖9繪示依據本發明一實施例之音訊與視訊處理系統的示意圖。

S202~S206‧‧‧音訊與視訊處理方法的流程

Claims

一種基於時間戳記的音訊與視訊處理方法，適用於具有螢幕以及播音裝置的電子裝置，該方法包括：取得第一來源的第一傳輸資料以及第二來源的第二傳輸資料，其中該第一傳輸資料為包括第一視訊資料、第一音訊資料以及第一時間戳記資料的第一影音封包，其中該第一視訊資料包括不具有固定檔案大小的單一視訊畫面，該第一音訊資料包括具有固定檔案大小的多個音檔，其中該第二傳輸資料為包括第二視訊資料、第二音訊資料以及第二時間戳記資料的第二影音封包，其中該第二視訊資料包括不具有固定檔案大小的單一視訊畫面，該第二音訊資料包括具有固定檔案大小的多個音檔，其中該電子裝置具有包括多個第一暫存位置的第一資料緩衝器以及包括多個第二暫存位置的第二資料緩衝器；根據該第一影音封包中的該第一時間戳記資料，依序遞補該第一影音封包至所述第一暫存位置中，並且根據該第二影音封包中的該第二時間戳記資料，依序遞補該第二影音封包至所述第二暫存位置中；以及當該第一影音封包排序於所述第一暫存位置中的第一個以及該第二影音封包排序於所述第二暫存位置中的第一個時，同時根據該第一傳輸資料中的該第一時間戳記資料以及該第二傳輸資料中的該第二時間戳記資料，分別利用該螢幕以及該播音裝置播放該第一影音封包中的該第一視訊資料、該第一音訊資料以及該第二影音封包中的該第二視訊資料、該第二音訊資料。
如申請專利範圍第1項所述的方法，其中該電子裝置利用該螢幕以分割畫面或是子母畫面同時播放該第一視訊資料以及該第二視訊資料。
一種基於時間戳記的音訊與視訊處理方法，適用於具有螢幕以及播音裝置的電子裝置，該方法包括：取得第一來源的第一傳輸資料，其中該第一傳輸資料為包括第一視訊資料的第一視訊封包以及包括第一音訊資料、第一時間戳記資料的第一音訊封包，該第一視訊資料包括不具有固定檔案大小的單一視訊畫面，該第一音訊資料包括具有固定檔案大小的多個音檔，其中該電子裝置具有包括多個第一暫存位置的第一資料緩衝器；遞補該第一視訊封包至該第一視訊暫存位置中；根據該第一音訊封包中的該第一時間戳記資料，依序遞補該第一音訊封包至所述第一音訊暫存位置中；以及根據該第一傳輸資料中的該第一時間戳記資料，分別利用該螢幕以及該播音裝置播放該第一視訊資料以及該第一音訊資料。
如申請專利範圍第3項所述的方法，其中遞補該第一視訊封包至該第一視訊暫存位置中的步驟包括：當該第一視訊暫存位置中存在另一封包時，以該第一視訊封包覆蓋該另一封包。
如申請專利範圍第3項所述的方法，其中根據該第一傳輸資料中的該第一時間戳記資料，分別利用該螢幕以及該播音裝置播放該第一音訊資料以及該第一視訊資料的步驟包括：利用該螢幕直接播放該第一視訊暫存位置中的該第一視訊封包的該第一視訊資料；以及當該第一音訊封包排序於所述第一音訊暫存位置中的第一個時，利用該播音裝置播放該第一音訊封包的該第一音訊資料。
如申請專利範圍第3項所述的方法，其中該電子裝置更具有包括第二視訊暫存位置的第二視訊緩衝器以及包括多個第二音訊暫存位置的第二音訊緩衝器，而該方法更包括：取得第二來源的第二傳輸資料，其中該第二傳輸資料為包括第二視訊資料的第二視訊封包以及包括第二音訊資料、第二時間戳記資料的第二音訊封包，其中該第二視訊資料包括不具有固定檔案大小的單一視訊畫面，該第二音訊資料包括具有固定檔案大小的多個音檔；遞補該第二視訊封包至該第二視訊暫存位置中；根據該第二音訊封包中的該第二時間戳記資料，依序遞補該第二音訊封包至所述第二音訊暫存位置中；選擇該第一視訊封包的該第一視訊資料以及該第二視訊封包的該第二視訊資料兩者之一，以做為篩選後的視訊資料；當該第一音訊封包以及該第二音訊封包分別排序於所述第一音訊暫存位置以及所述第二音訊暫存位置中的第一個時，整合該第一音訊封包的該第一音訊資料以及該第二音訊封包的該第二音訊資料，以做為整合後的音訊資料；以及同時分別利用該螢幕以及該播音裝置播放該篩選後的視訊資料以及該整合後的音訊資料。
如申請專利範圍第6項所述的方法，其中選擇該第一視訊封包的該第一視訊資料以及該第二視訊封包的該第二視訊資料兩者之一，以做為該篩選後的視訊資料的步驟包括：分別計算該第一音訊資料的平均音量以及該第二音訊資料的平均音量，以取得第一平均音量以及第二平均音量；當該第一平均音量大於該第二平均音量時，選擇該第一視訊資料做為該篩選後的視訊資料；以及當該第二平均音量大於該第一平均音量時，選擇該第二視訊資料做為該篩選後的視訊資料。
一種基於時間戳記的音訊與視訊處理系統，包括：至少一客戶端裝置，其中所述客戶端裝置的第一客戶端裝置以及第二客戶端裝置分別用以產生第一客戶端傳輸資料以及第二客戶端傳輸資料，其中該第一客戶端傳輸資料為包括第一客戶端視訊資料、第一客戶端音訊資料以及第一客戶端時間戳記資料的第一客戶端影音封包，其中該第二客戶端傳輸資料為包括第二客戶端視訊資料、第二客戶端音訊資料以及第二客戶端時間戳記資料的第二客戶端影音封包，其中該第一客戶端視訊資料包括不具有固定檔案大小的單一視訊畫面，該第一客戶端音訊資料包括具有固定檔案大小的多個音檔，該第二客戶端視訊資料包括不具有固定檔案大小的單一視訊畫面，該第二客戶端音訊資料包括具有固定檔案大小的多個音檔；以及主機裝置，連線於各所述客戶端裝置並且具有包括多個第一暫存位置的第一資料緩衝器以及包括多個第二暫存位置的第二資料緩衝器，其中該主機裝置接收該第一客戶端傳輸資料以及該第二端傳輸資料，根據該第一客戶端影音封包中的該第一客戶端時間戳記資料，依序遞補該第一客戶端影音封包至所述第一暫存位置中，並且根據該第二客戶端影音封包中的該第二客戶端時間戳記資料，依序遞補該第二客戶端影音封包至所述第二暫存位置中，其中當該第一客戶端影音封包排序於所述第一暫存位置中的第一個以及該第二客戶端影音封包排序於所述第二暫存位置中的第一個時，該主機裝置同時根據該第一客戶端傳輸資料中的該第一客戶端時間戳記資料以及該第二客戶端傳輸資料中的該第二客戶端時間戳記資料，分別利用該螢幕以及該播音裝置播放該第一客戶端影音封包中的該第一客戶端視訊資料、該第一客戶端音訊資料以及該第二客戶端影音封包中的該第二客戶端視訊資料、該第二客戶端音訊資料。
如申請專利範圍第8項所述的系統，其中該主機裝置更產生包括主機音訊資料、主機視訊資料以及主機時間戳記資料的主機傳輸資料，其中該主機視訊資料包括不具有固定檔案大小的單一視訊畫面，該主機音訊資料包括具有固定檔案大小的多個音檔，而該主機裝置更根據該主機傳輸資料的該主機時間戳記資料，播放該主機視訊資料以及該主機音訊資料。
如申請專利範圍第9項所述的系統，其中該主機傳輸資料為利用該主機視訊資料、該主機音訊資料以及該主機時間戳記資料所產生的影音封包。
一種基於時間戳記的音訊與視訊處理系統，包括：至少一客戶端裝置，其中所述客戶端裝置的第一客戶端裝置以及第二客戶端裝置分別用以產生第一客戶端傳輸資料以及第二客戶端傳輸資料，其中該第一客戶端傳輸資料為包括第一客戶端視訊資料的第一客戶端視訊封包以及包括第一客戶端音訊資料、第一客戶端時間戳記資料的第一客戶端音訊封包，其中該第二客戶端傳輸資料為包括第二客戶端視訊資料的第二客戶端視訊封包以及包括第二客戶端音訊資料、第二客戶端時間戳記資料的第二客戶端音訊封包，其中該第一客戶端視訊資料包括不具有固定檔案大小的單一視訊畫面，該第一客戶端音訊資料包括具有固定檔案大小的多個音檔，該第二客戶端視訊資料包括不具有固定檔案大小的單一視訊畫面，該第二客戶端音訊資料包括具有固定檔案大小的多個音檔；以及主機裝置，連線於各所述客戶端裝置並且包括第一視訊緩衝器、第一音訊緩衝器、第二視訊緩衝器以及第二音訊緩衝器，其中該第一視訊緩衝器以及該第二視訊緩衝器分別包括第一視訊暫存位置以及第二視訊暫存位置，其中該第一音訊緩衝器以及該第二音訊緩衝器分別包括多個第一音訊暫存位置以及多個第二音訊暫存位置，其中該主機裝置接收該第一客戶端傳輸資料以及該第二端傳輸資料，分別遞補該第一客戶端視訊封包以及該第二客戶端視訊封包至該第一視訊暫存位置以及該第二視訊暫存位置，根據該第一客戶端時間戳記資料，依序遞補該第一客戶端視訊封包至所述第一音訊暫存位置中，以及根據該第二客戶端時間戳記資料，依序遞補該第二客戶端視訊封包至所述第二視訊暫存位置中，其中當該第一客戶端視訊封包以及該第二客戶端視訊封包分別同時位於該第一視訊暫存位置以及該第二視訊暫存位置時，該主機裝置選擇播放該第一客戶端視訊封包與該第二客戶端視訊封包其中之一者，以及其中當該第一客戶端音訊封包以及該第二客戶端音訊封包分別排序於所述第一音訊暫存位置以及所述第二音訊暫存位置中的第一個時，該主機裝置整合該第一客戶端音訊封包以及該第二客戶端音訊封包以做為整合後的音訊資料，並且同時播放該整合後的音訊資料以及所選擇播放的該第一客戶端視訊封包與該第二客戶端視訊封包其中之一者。
如申請專利範圍第11項所述的系統，其中該主機裝置更產生包括主機音訊資料、主機視訊資料以及主機時間戳記資料的主機傳輸資料，其中該主機視訊資料包括不具有固定檔案大小的單一視訊畫面，該主機音訊資料包括具有固定檔案大小的多個音檔，而該主機裝置更根據該主機傳輸資料的該主機時間戳記資料，播放該主機視訊資料以及該主機音訊資料。
如申請專利範圍第12項所述的系統，其中該主機傳輸資料為利用該主機視訊資料所產生的視訊封包以及利用該主機音訊資料以及該主機時間戳記資料所產生的音訊封包。