TWI749391B

TWI749391B - 視訊會議系統以及視訊會議方法

Info

Publication number: TWI749391B
Application number: TW108139159A
Authority: TW
Inventors: 廖秋婷; 葉祐辰
Original assignee: 緯創資通股份有限公司
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2021-12-11
Also published as: CN112752059B; CN112752059A; US20210133923A1; TW202118286A; US11120524B2

Abstract

本發明提出一種視訊會議系統以及視訊會議方法。視訊會議系統包括聲音感測器、全景攝影機以及處理器。聲音感測器感測第一聲音源以及第二聲音源，以提供對應於第一聲音源的第一定位座標以及對應於第二聲音源的第二定位座標。全景攝影機取得全景會議影像。處理器依據第一定位座標以及第二定位座標從全景會議影像擷取第一人臉影像以及第二人臉影像。處理器依據第一人臉影像與第二人臉影像分別在全景會議影像中的位置來決定影像拼接順序，以產生特寫會議影像。

Description

視訊會議系統以及視訊會議方法

本發明是有關於一種影像處理技術，且特別是有關於一種視訊會議系統以及視訊會議方法。

為了滿足可在不同地點同時進行多人會議的需求，各種可提供視訊功能的視訊會議系統不斷地被開發出來。然而，傳統的視訊會議系統針對同一會議室中具有多人參與的情況，會同時將同一會議室中的所有人包含至單一個會議影像中，因此導致在另一遠端的會議室中的會議參與者無法專注在會議的重點。特別是，在會議中的兩個會議參與者進行重要的對話時，在另一遠端的會議室中的會議參與者無法專注在進行對話的此兩個會議參與者。有鑑於此，以下將提出幾個實施例的解決方案。

本發明實施例提供一種視訊會議系統以及視訊會議方法，可自動地感測正在說話的多個會議參與者，並且可自動產生對應的特寫會議影像，以提供良好的視訊會議效果。

本發明實施例的視訊會議系統包括聲音感測器、全景攝影機以及處理器。聲音感測器用以感測第一聲音源以及第二聲音源，以提供對應於第一聲音源的第一定位座標以及對應於第二聲音源的第二定位座標。全景攝影機用以取得全景會議影像。處理器耦接聲音感測器以及全景攝影機，並且用以依據第一定位座標以及第二定位座標從全景會議影像擷取第一人臉影像以及第二人臉影像。處理器依據第一人臉影像與第二人臉影像分別在全景會議影像中的位置來決定影像拼接順序。處理器依據影像拼接順序來拼接第一人臉影像以及第二人臉影像，以產生特寫會議影像。

本發明實施例的視訊會議方法包括以下步驟：感測第一聲音源以及第二聲音源，以提供對應於第一聲音源的第一定位座標以及對應於第二聲音源的第二定位座標；取得全景會議影像；依據第一定位座標以及第二定位座標從全景會議影像擷取第一人臉影像以及第二人臉影像；以及依據第一人臉影像與第二人臉影像分別在全景會議影像中的位置來決定影像拼接順序，並且依據影像拼接順序來拼接第一人臉影像以及第二人臉影像，以產生特寫會議影像。

基於上述，本發明實施例的視訊會議系統以及視訊會議方法，可自動地感測正在對話的兩個會議參與者，並且可提供此兩個會議參與者的特寫會議影像。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

為了使本發明之內容可以被更容易明瞭，以下提出多個實施例來說明本發明，然而本發明不僅限於所例示的多個實施例。又實施例之間也允許有適當的結合。另外，凡可能之處，在圖式及實施方式中使用相同標號的元件/構件/步驟，係代表相同或類似部件。

圖1是依照本發明的一實施例的視訊會議系統的方塊示意圖。參考圖1，視訊會議系統100包括處理器110、聲音感測器120以及全景攝影機（Omnidirectional camera）130。處理器110耦接聲音感測器120以及全景攝影機130。在本實施例中，處理器110可例如是中央處理單元（Central Processing Unit, CPU），或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、數位訊號處理器（Digital Signal Processor, DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits, ASIC）、可程式化邏輯裝置（Programmable Logic Device, PLD）、其他類似處理裝置或這些裝置的組合。聲音感測器120可包括麥克風陣列（Microphone Array）或是一或多個指向性麥克風，並且可用以感測在環境中的多個聲音源，以即時地提供所述多個聲音源的定位座標至處理器110。全景攝影機130可提供即時的360度全景會議影像至處理器110。

在本實施例中，處理器110可進一步耦接至記憶體。所述記憶體可例如是動態隨機存取記憶體（Dynamic Random Access Memory, DRAM）、快閃記憶體（Flash memory）或非揮發性隨機存取記憶體（Non-Volatile Random Access Memory, NVRAM）等，並且記憶體可例如儲存本發明各實施例所述的影像資料、聲音資料、定位資料以及可實現本發明的相關影像處理程序等，以供處理器110讀取並執行之。值得注意的是，本發明各實施例所述的定位座標可例如為座標（x,y）的資料格式，並且處理器110可將聲音感測器120所依序提供的多個定位座標以及搭配各自對應的時間戳（timestamp）來記錄至記憶體的資料陣列中，以供處理器110當執行以下各實施例的相關判斷以及相關資料處理時可選擇性地讀取並使用之。

在本實施例中，視訊會議系統100可為視訊會議設備，並且處理器110、聲音感測器120以及全景攝影機130可整合在一個設備本體中。視訊會議設備可例如是設置在會議空間中的中央位置或例如是會議桌上的中央位置，以使多個會議參與者環繞視訊會議設備。視訊會議設備可感測環繞的多個會議參與者的聲音以及全景會議影像。然而，本發明的視訊會議系統並不限於整合在單一設備形式。在一實施例中，處理器110亦可為設置在電腦主機或雲端主機，並且以有線或無線的方式連接至聲音感測器120以及全景攝影機130。聲音感測器120以及全景攝影機130可例如是設置在會議空間中的中央位置或例如是會議桌上的中央位置，以便感測環繞的多個會議參與者的聲音以及全景會議影像。此外，本發明也不限制視訊會議系統100、聲音感測器120以及全景攝影機130在會議空間中的位置以及設置方式。

在本實施例中，當視訊會議系統100被啟動後，視訊會議系統100的聲音感測器120可感測正在進行對話的第一聲音源以及第二聲音源，以提供對應於第一聲音源的第一定位座標以及第二聲音源的第二定位座標。並且，全景攝影機130可取得全景會議影像，並且提供全景會議影像至處理器110。在本實施例中，處理器110可依據第一定位座標以及第二定位座標從全景會議影像擷取第一人臉影像以及第二人臉影像。接著，處理器110可依據第一人臉影像與第二人臉影像分別在全景會議影像中的第一角度位置以及第二角度位置之間的夾角來決定影像拼接順序。在本實施例中，處理器110可依據影像拼接順序來拼接第一人臉影像以及第二人臉影像，以產生特寫會議影像。

圖2是依照本發明的一實施例的視訊會議方法的流程圖。參考圖2，參考圖1以及圖2，本實施例的視訊會議方法可至少適用於圖1的視訊會議系統100，以使視訊會議系統100可執行以下步驟S210~S260，以提供良好的視訊會議效果。在步驟S210中，聲音感測器120可感測正處於對話情境的第一聲音源以及第二聲音源，以提供對應於第一聲音源的第一定位座標以及第二聲音源的第二定位座標至處理器110。在步驟S220中，全景攝影機130可取得全景會議影像，並且提供全景會議影像至處理器110。在步驟S230中，處理器110依據第一定位座標以及第二定位座標從全景會議影像擷取第一人臉影像以及第二人臉影像。在步驟S240中，處理器110計算第一人臉影像與第二人臉影像分別在全景會議影像中的第一角度位置以及第二角度位置之間的夾角（θ）。舉例而言，處理器110可將第一角度位置以及第二角度位置相減並且取絕對值，以取得夾角（θ）。

在本實施例中，處理器110依據第一人臉影像與第二人臉影像分別在全景會議影像中的第一角度位置以及第二角度位置之間的夾角來決定影像拼接順序，並且依據此影像拼接順序來拼接第一人臉影像以及第二人臉影像，以產生特寫會議影像。對此，當處理器110判斷夾角（θ）小於或等於預設角度門檻（θ_th ）時，處理器110執行步驟S250。在步驟S250中，處理器110以相同於第一人臉影像與第二人臉影像分別在全景會議影像中的排列順序來拼接第一人臉影像以及第二人臉影像，以產生特寫會議影像。

反之，當處理器110判斷夾角（θ）大於預設角度門檻（θ_th ）時，處理器110執行步驟S260。在步驟S260中，處理器110以相反於第一人臉影像與第二人臉影像分別在全景會議影像中的排列順序來拼接第一人臉影像以及第二人臉影像，以產生特寫會議影像。因此，本實施例的視訊會議方法以及視訊會議系統100可自動且有效地提供正在對話的兩個會議參與者的特寫會議影像，以提供良好的視訊會議效果。並且，以下將以圖3A~圖3C以及圖4A~圖4C的兩個範例實施例來說明上述步驟S210~S260的執行情境以及特寫會議影像的拼接結果。

圖3A~3C是依照本發明的一實施例的會議情境的示意圖。參考圖2以及圖3A~3C，在本實施例中，會議情境310可例如是在一個會議室中，並且包括會議參與者311~313。會議參與者311~313例如位於會議桌301周圍。會議桌301的桌面例如平行於由方向X以及方向Y延伸所形成的水平面，並且方向Z垂直於所述水平面。在本實施例中，視訊會議系統300可例如設置在會議桌301上的中間位置，並且視訊會議系統300的影像擷取基準D朝向方向Y。在會議情境310中，當會議參與者311、312進行對話時，視訊會議系統300的聲音感測器可感測正處於對話情境的會議參與者311、312，以取得對應於會議參與者311、312的兩個定位座標（步驟S210）。視訊會議系統300的全景攝影機可取得會議情境310的全景會議影像320（步驟S220）。因此，本實施例的視訊會議系統300可依據對應於會議參與者311、312的兩個定位座標從全景會議影像320擷取人臉影像331、332（步驟S230）。

在本實施例中，視訊會議系統300可計算對應於會議參與者311、312的兩個定位座標的人臉影像331、332分別在全景會議影像320中的兩個角度位置的夾角（θ）（步驟S240），並且視訊會議系統300可設定預設角度門檻（θ_th ），其中預設角度門檻（θ_th ）例如是180度。如圖3B所示，圖3B為全景攝影機從影像擷取基準D的順時針方向開始角度為0度至360度所拍攝的全景會議影像。在本實施例的全景會議影像320中，由於會議參與者311與會議參與者312並未橫跨影像擷取基準D（0度），並且對應於會議參與者311、312的兩個角度位置的夾角（θ）小於180度。對此，視訊會議系統300將以相同於人臉影像331、332分別在全景會議影像320中的排列順序來拼接人臉影像331、332，以產生特寫會議影像330（步驟S250）。因此，本實施例的視訊會議系統300可自動且有效地提供正在對話的兩個會議參與者311、312面對面的特寫會議影像，以提供良好的視訊會議效果。

圖4A~4C是依照本發明的另一實施例的會議情境的示意圖。參考圖4A~4C，在本實施例中，會議情境410可例如是在一個會議室中，並且包括會議參與者411~413。會議參與者411~413例如位於會議桌401周圍。相較於上述圖3A~3C的實施例，在會議情境410中，當會議參與者411、413進行對話時，視訊會議系統400的聲音感測器可感測正處於對話情境的會議參與者411、413，以取得對應於會議參與者411、413的兩個定位座標（步驟S210）。視訊會議系統400的全景攝影機可取得會議情境410的全景會議影像420（步驟S220）。因此，本實施例的視訊會議系統400可依據對應於會議參與者411、413的兩個定位座標從全景會議影像420擷取人臉影像431、433（步驟S230）。

在本實施例中，視訊會議系統400可依據對應於會議參與者411、413的兩個定位座標計算人臉影像431、433分別在全景會議影像420中的兩個角度位置的夾角（θ）（步驟S240），並且視訊會議系統400可設定預設角度門檻（θ_th ），其中預設角度門檻（θ_th ）例如是180度。如圖4B所示，圖4B為全景攝影機從影像擷取基準D的順時針方向開始角度為0度至360度所拍攝的全景會議影像。在本實施例的全景會議影像420中，由於會議參與者411與會議參與者413橫跨影像擷取基準D（方位角0度）而面對面地進行對話，並且從全景會議影像420中計算對應於會議參與者411、413的兩個角度位置的夾角（θ）大於180度。對此，視訊會議系統400將以相反於人臉影像431、433分別在全景會議影像420中的排列順序來拼接人臉影像431、433，以產生特寫會議影像430（步驟S260）。因此，本實施例的視訊會議系統400可自動且有效地提供正在對話的兩個會議參與者411、413面對面的特寫會議影像，以提供良好的視訊會議效果。

圖5是依照本發明的另一實施例的視訊會議方法的流程圖。參考圖1以及圖5，本實施例的視訊會議方法可至少適用於圖1的視訊會議系統100，以使視訊會議系統100可執行以下步驟S510~S560，以針對不同情境來提供多種視訊會議效果。當視訊會議系統100被啟動後，在步驟S510中，聲音感測器120在感測期間感測至少一聲音源，以取得至少三個定位座標（P1, P2, P3），並且提供至處理器110。值得注意的是，聲音感測器120是例如依序先後順序取得所述至少三個定位座標（P1, P2, P3），因此所述至少三個定位座標（P1, P2, P3）所對應的時間戳具有順序性。在步驟S520中，處理器110可比對所述至少三個定位座標（P1, P2, P3），以判斷所述至少三個定位座標（P1, P2, P3）的來源。

值得注意的是，聲音感測器120在感測期間中是以連續感測的方式對感測到的每一筆聲音信號來進行定位，以連續地輸出定位座標至處理器110。因此，舉例而言，若聲音感測器120感測到由同一個聲音源提供的兩筆聲音信號，則聲音感測器120將提供對應於此同一個聲音源的兩筆相同或相近的定位座標。反之，若聲音感測器120感測到由不同的兩個聲音源提供的兩筆聲音信號，則聲音感測器120將提供對應於此不同的兩個聲音源的兩筆不同的定位座標。

在本實施例的第一情境中，若處理器110比對所述至少三個定位座標（P1, P2, P3）皆不相同，例如P1≠P2、P2≠P3、P1≠P3，則處理器110執行步驟S530。在步驟S530中，處理器110判斷所述至少三個定位座標（P1, P2, P3）屬於至少三個不同聲音源，並且將全景會議影像作為特寫會議影像。換言之，所述第一情境並非兩個會議參與者的對話情境，並且所述第一情境具有多人發言的情況，因此視訊會議系統100將播放全景會議影像。

在本實施例的第二情境中，若處理器110比對所述至少三個定位座標（P1, P2, P3）出現至少兩個定位座標為相同，且至少兩個定位座標為不同，則處理器110執行步驟S540。以第一範例而言，處理器110判斷例如P1屬於第一聲音源，並且P2以及P3屬於第二聲音源（P1≠P2、P2=P3），則處理器110執行步驟S540。以第二範例而言，處理器110判斷例如P1以及P3屬於第一聲音源，並且P2屬於第二聲音源（P1≠P2、P2≠P3、P1=P3），則處理器110亦執行步驟S540。值得注意的是，第一範例以及第二範例皆可被處理器110判斷為對話情境。然而，在一實施例中，第二範例的判斷較優於第一範例。其理由在於，第二範例的情況為第一聲音源先發聲，接著第二聲音源接著發聲，最後第一聲音源再次發聲。也就是說，第二範例較明確為兩個會議參與者正在進行“對話”的行為。在步驟S540中，處理器110判斷所述至少三個定位座標（P1, P2, P3）屬於不同聲音源的第一聲音源以及第二聲音源，並且定義第一聲音源以及第二聲音源處於對話情境。在步驟S550中，處理器110將對應於第一聲音源的最新定位座標記錄為第一定位座標，並且將對應於第二聲音源的最新定位座標記錄為第二定位座標。並且，處理器110接續執行如上述圖2的步驟S210~S260，以產生特寫會議影像。

在本實施例的第三情境中，若處理器110比對所述至少三個定位座標（P1, P2, P3）皆同，例如P1=P2、P2=P3，則處理器110執行步驟S560。在步驟S560中，處理器110判斷所述至少三個定位座標（P1, P2, P3）屬於同一個聲音源，以依據所述至少三個定位座標（P1, P2, P3）的其中最新一個來從全景會議影像擷取對應的單一人臉影像，並且將此單一人臉影像作為特寫會議影像。對此，由於聲音感測器120是例如依序先後取得P1、P2、P3三個定位座標，因此處理器110可例如依據P3的定位座標而從全景會議影像擷取對應的單一人臉影像。換言之，所述第三情境並非兩個會議參與者的對話情境，並且所述第三情境具有單人發言的情況，因此視訊會議系統100將播放對應於此單一人臉影像作為特寫會議影像。

圖6是依照本發明的一實施例的記錄有效的定位座標的流程圖。參考圖1以及圖6，本實施例的視訊會議方法可至少適用於圖1的視訊會議系統100，以使視訊會議系統100可執行以下步驟S610~S680，以有效定義聲音源。在步驟S610中，處理器110透過聲音感測器120判斷是否感測到聲音。若否，則處理器110持續執行步驟S610。若是，則處理器110執行步驟S620。在步驟S620中，處理器110持續地記錄對應於此聲音的多個定位座標。在步驟S630中，處理器110判斷此聲音是否具有中斷期間，並且中斷期間超過第一預設時間長度。若是，則表示此聲音可能非會議參與者的講話聲音，並且處理器110重新執行步驟S610。若否，則表示此聲音可能為會議參與者的講話聲音，並且處理器110執行步驟S640。

在步驟S640中，處理器110判斷此聲音是否持續且超過第二預設時間長度。若否，則處理器110將此聲音視為無效的講話聲音，並且處理器110重新執行步驟S610。若是，則處理器110將此聲音視為有效的講話聲音，並且處理器110執行步驟S650。在步驟S650中，處理器110透過聲音感測器120取得在感測期間中的所有定位座標。在步驟S660中，處理器110判斷此聲音的所述多個定位座標在感測期間中的所有定位座標中所佔的比例是否高過預設信心比例。若否，則處理器110重新執行步驟S610。若是，則處理器110執行步驟S670。

更進一步而言，在步驟S660中，處理器110取得在感測期間中的所有定位座標，並且設定一誤差角度範圍，並且將在此誤差角度範圍內的多個定位座標作為此聲音的所述多個定位座標，其中誤差角度範圍例如是正負10度。換言之，由於聲音感測器120連續感測同一聲音源的多個定位座標可能具有微幅的變化，因此處理器110可將在此誤差角度範圍內的所述多個定位座標都視為來自同一聲音源。並且，在本實施例中，所述預設信心比例可例如是85%。換言之，為了避免誤判，本實施例的視訊會議系統100會將當前佔有所有聲音比例超過85%的對應於特定一個聲音源的聲音作為有效的講話聲音。

在步驟S670中，處理器110比對此聲音的所述多個定位座標的其中最新一個在全景會議影像中是否存在對應的人臉影像。若否，則處理器110重新執行步驟S610。若是，則處理器110執行步驟S680。在步驟S680中，處理器110記錄此聲音的所述多個定位座標中的其中最新一個。換言之，為了避免誤判，本實施例的視訊會議系統100最後將比對聲音以及影像的判斷結果。因此，本實施例的視訊會議系統100可記錄有效的定位座標，並且所記錄的有效的定位座標可應用於上述圖5實施例的所述至少三個定位座標的其中之一，或是應用於上述圖2實施例的第一定位座標或第二定位座標。

綜上所述，本發明的視訊會議系統以及視訊會議方法，可自動地感測當前會議情境中的一個、兩個或多個會議參與者，以提供對應的會議影像。特別是，本發明的視訊會議系統以及視訊會議方法可針對兩個會議參與者進行對話的特定情境來提供特寫會議影像，以提供良好的視訊會議效果。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100、300、400:視訊會議系統 110:處理器 120:聲音感測器 130:全景攝影機 301、401:會議桌 310、410:會議情境 311~313、411~413:會議參與者 320、420:全景會議影像 330、430:特寫會議影像 331、332、431、433:人臉影像 D:影像擷取基準 X、Y、Z:方向 S210~S260、S510~S560、S610~S680:步驟

圖1是依照本發明的一實施例的視訊會議系統的方塊示意圖。圖2是依照本發明的一實施例的視訊會議方法的流程圖。圖3A~3C是依照本發明的一實施例的會議情境的示意圖。圖4A~4C是依照本發明的另一實施例的會議情境的示意圖。圖5是依照本發明的另一實施例的視訊會議方法的流程圖。圖6是依照本發明的一實施例的記錄有效的定位座標的流程圖。

S210~S260:步驟

Claims

一種視訊會議系統，包括：一聲音感測器，用以感測一第一聲音源以及一第二聲音源，以提供對應於該第一聲音源的一第一定位座標以及對應於該第二聲音源的一第二定位座標；一全景攝影機，用以取得一全景會議影像；以及一處理器，耦接該聲音感測器以及該全景攝影機，並且用以依據該第一定位座標以及該第二定位座標從該全景會議影像擷取一第一人臉影像以及一第二人臉影像，其中該處理器依據該第一人臉影像與該第二人臉影像分別在該全景會議影像中的一第一角度位置以及一第二角度位置之間的一夾角來決定一影像拼接順序，並且該處理器依據該影像拼接順序來拼接該第一人臉影像以及該第二人臉影像，以產生一特寫會議影像。
如申請專利範圍第1項所述的視訊會議系統，其中響應於該處理器判斷該夾角小於或等於一預設角度門檻，該處理器以相同於該第一人臉影像與該第二人臉影像分別在該全景會議影像中的一排列順序來拼接該第一人臉影像以及該第二人臉影像。
如申請專利範圍第1項所述的視訊會議系統，其中響應於該處理器判斷該夾角大於一預設角度門檻，該處理器以相反於該第一人臉影像與該第二人臉影像分別在該全景會議影像中的該排列順序來拼接該第一人臉影像以及該第二人臉影像。
如申請專利範圍第1項所述的視訊會議系統，其中該預設角度門檻為180度。
如申請專利範圍第1項所述的視訊會議系統，其中該處理器藉由該聲音感測器感測至少一聲音源，以取得至少三個定位座標，並且響應於該處理器判斷該至少三個定位座標屬於不同聲音源的該第一聲音源以及該第二聲音源，該處理器判斷該第一聲音源以及該第二聲音源處於一對話情境，並且該處理器將對應於該第一聲音源的最新定位座標記錄為該第一定位座標，並且將對應於該第二聲音源的最新定位座標記錄為該第二定位座標。
如申請專利範圍第5項所述的視訊會議系統，其中響應於該處理器判斷該至少三個定位座標屬於同一聲音源，該處理器依據該至少三個定位座標的其中最新一個來從該全景會議影像擷取一單一人臉影像，並且將該單一人臉影像作為該特寫會議影像。
如申請專利範圍第5項所述的視訊會議系統，其中響應於該處理器判斷該至少三個定位座標屬於至少三個不同聲音源，該處理器將該全景會議影像作為該特寫會議影像。
如申請專利範圍第1項所述的視訊會議系統，其中響應於該聲音感測器在一感測期間中感測到一聲音，該處理器持續地記錄對應於該聲音的多個定位座標，並且判斷該聲音是否具有一中斷期間，響應於該中斷期間超過一第一預設時間長度，該處理器控制該聲音感測器重新感測，並且該處理器判斷該聲音是否持續且超過一第二預設時間長度，響應於該聲音持續且超過該第二預設時間長度，該處理器依據該聲音的該些定位座標的其中最新一個作為該第一聲音源的該第一定位座標或該第二聲音源的該第二定位座標。
如申請專利範圍第8項所述的視訊會議系統，其中該處理器取得該聲音感測器在該感測期間中所提供的所有定位座標，並且該處理器更判斷該聲音的該些定位座標在該感測期間中的該所有定位座標中所佔的一比例是否高過一預設信心比例，以將該聲音的該些定位座標的其中最新一個作為該第一聲音源的該第一定位座標或該第二聲音源的該第二定位座標。
一種視訊會議方法，包括：感測一第一聲音源以及一第二聲音源，以提供對應於該第一聲音源的一第一定位座標以及對應於該第二聲音源的一第二定位座標；取得一全景會議影像；依據該第一定位座標以及該第二定位座標從該全景會議影像擷取一第一人臉影像以及一第二人臉影像；以及依據該第一人臉影像與該第二人臉影像分別在該全景會議影像中的一第一角度位置以及一第二角度位置之間的一夾角來決定一影像拼接順序，並且依據該影像拼接順序來拼接該第一人臉影像以及該第二人臉影像，以產生一特寫會議影像。
如申請專利範圍第10項所述的視訊會議方法，其中產生該特寫會議影像的步驟包括：響應於該夾角小於或等於一預設角度門檻，以相同於該第一人臉影像與該第二人臉影像分別在該全景會議影像中的一排列順序來拼接該第一人臉影像以及該第二人臉影像。
如申請專利範圍第10項所述的視訊會議方法，其中產生該特寫會議影像的步驟更包括：響應於該夾角大於一預設角度門檻，以相反於該第一人臉影像與該第二人臉影像分別在該全景會議影像中的該排列順序來拼接該第一人臉影像以及該第二人臉影像。
如申請專利範圍第10項所述的視訊會議方法，其中該預設角度門檻為180度。
如申請專利範圍第10項所述的視訊會議方法，其中感測該第一聲音源以及該第二聲音源的步驟包括：感測至少一聲音源，以取得至少三個定位座標；響應於該至少三個定位座標屬於不同聲音源的該第一聲音源以及該第二聲音源，判斷該第一聲音源以及該第二聲音源處於一對話情境；以及將對應於該第一聲音源的最新定位座標記錄為該第一定位座標，並且將對應於該第二聲音源的最新定位座標記錄為該第二定位座標。
如申請專利範圍第14項所述的視訊會議方法，其中感測該第一聲音源以及該第二聲音源的步驟更包括：響應於該至少三個定位座標屬於同一聲音源，以依據該至少三個定位座標的其中最新一個來從該全景會議影像擷取一單一人臉影像，並且將該單一人臉影像作為該特寫會議影像。
如申請專利範圍第14項所述的視訊會議方法，其中感測該第一聲音源以及該第二聲音源的步驟更包括：響應於該至少三個定位座標屬於至少三個不同聲音源，將該全景會議影像作為該特寫會議影像。
如申請專利範圍第10項所述的視訊會議方法，其中感測該第一聲音源以及該第二聲音源，以提供對應於該第一聲音源的該第一定位座標以及對應於該第二聲音源的該第二定位座標的步驟包括：響應於在一感測期間中感測到一聲音，持續地記錄對應於該聲音的多個定位座標；判斷該聲音是否具有一中斷期間，響應於該中斷期間超過一第一預設時間長度，重新感測該聲音；以及判斷該聲音是否持續且超過一第二預設時間長度，響應於該聲音持續且超過該第二預設時間長度，依據該聲音的該些定位座標的其中最新一個作為該第一聲音源的該第一定位座標或該第二聲音源的該第二定位座標。
如申請專利範圍第17項所述的視訊會議方法，其中感測該第一聲音源以及該第二聲音源，以提供對應於該第一聲音源的該第一定位座標以及對應於該第二聲音源的該第二定位座標的步驟更包括：取得在該感測期間中的所有定位座標；以及判斷該聲音的該些定位座標在該感測期間中的該所有定位座標中所佔的一比例是否高過一預設信心比例，以將該聲音的該些定位座標的其中最新一個作為該第一聲音源的該第一定位座標或該第二聲音源的該第二定位座標。