TW202315393A

TW202315393A - 視訊內容提供方法及視訊內容提供裝置

Info

Publication number: TW202315393A
Application number: TW110134749A
Authority: TW
Inventors: 楊建洲; 周辰威
Original assignee: 信驊科技股份有限公司
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-04-01
Also published as: US20230105785A1

Abstract

本發明提供一種視訊內容提供方法及視訊內容提供裝置。所述方法包括：取得寬視角影像串流及對應的第一音訊內容；在寬視角影像串流中決定多個感興趣區域，並將所述多個感興趣區域中的候選區域整合為第一畫面；從候選區域中挑選指定區域，並從第一音訊內容中找出對應的第一音訊成分；藉由抑制各第一音訊成分以將第一音訊內容調整為第二音訊內容；以及將第一畫面與第二音訊內容整合為特定視訊內容，並提供特定視訊內容。

Description

視訊內容提供方法及視訊內容提供裝置

本發明是有關於一種視訊內容處理技術，且特別是有關於一種視訊內容提供方法及視訊內容提供裝置。

在現代社會中，透過視訊軟體舉行視訊會議已是相當常見的一種會議形式。為提升各會議參與者的收音品質，現已有部分廠商提出相關的解決方案。

例如，有廠商提供一種搭配指向性麥克風的網路攝影機，而此指向性麥克風的收音方向經設定為大致對應於網路攝影機的取像範圍。藉此，可避免收到取像範圍外的聲音，進而提升收音品質。

然而，對於可透過廣角鏡頭擷取廣角畫面及對應聲音訊號的會議裝置而言，現今並未有能夠有效地提升收音品質的技術手段存在。

有鑑於此，本發明提供一種視訊內容提供方法及視訊內容提供裝置，其可用於解決上述技術問題。

本發明提供一種視訊內容提供方法，適於一視訊內容提供裝置，包括：取得一寬視角影像串流，並取得對應於寬視角影像串流的一第一音訊內容，其中第一音訊內容包括對應於多個聲源方向的多個音訊成分；在寬視角影像串流中決定多個感興趣區域，並基於一指定畫面佈局將所述多個感興趣區域中的至少一候選區域整合為一第一畫面；從至少一候選區域中挑選至少一指定區域，並從所述多個聲源方向中取得未對應於至少一指定區域的至少一第一聲源方向；從所述多個音訊成分中找出對應於至少一第一聲源方向的至少一第一音訊成分；藉由抑制各第一音訊成分以將第一音訊內容調整為一第二音訊內容；以及將第一畫面與第二音訊內容整合為一特定視訊內容，並提供特定視訊內容。

本發明提供一種視訊內容提供裝置，包括儲存電路及處理器。儲存電路儲存程式碼。處理器耦接儲存電路，並存取程式碼以執行：取得一寬視角影像串流，並取得對應於寬視角影像串流的一第一音訊內容，其中第一音訊內容包括對應於多個聲源方向的多個音訊成分；在寬視角影像串流中決定多個感興趣區域，並基於一指定畫面佈局將所述多個感興趣區域中的至少一候選區域整合為一第一畫面；從至少一候選區域中挑選至少一指定區域，並從所述多個聲源方向中取得未對應於至少一指定區域的至少一第一聲源方向；從所述多個音訊成分中找出對應於至少一第一聲源方向的至少一第一音訊成分；藉由抑制各第一音訊成分以將第一音訊內容調整為一第二音訊內容；以及將第一畫面與第二音訊內容整合為一特定視訊內容，並提供特定視訊內容。

於本說明書中所指視訊或視訊內容包括影像串流及其對應之聲音訊號(音訊)。請參照圖1A，其是依據本發明第一實施例繪示的視訊內容提供裝置示意圖。在圖1A中，視訊內容提供裝置100a可包括廣角鏡頭101、儲存電路102、收音裝置103及處理器104。在一實施例中，視訊內容提供裝置100a可安裝於會議室中，用以透過廣角鏡頭101（例如是360度鏡頭）擷取會議室中的多個會議參與者的影像串流，並透過收音裝置103（例如是具有360度收音範圍的麥克風陣列）收取各會議參與者的聲音訊號。

在一實施例中，視訊內容提供裝置100a所設置的位置例如可位於會議室的中間，藉以讓出現於視訊內容提供裝置100a周圍的事物都能由廣角鏡頭101擷取。在此情境下，視訊內容提供裝置100a周圍的聲音也都能由收音裝置103所接收，但可不限於此。

在不同的實施例中，儲存電路102例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合，而可用以記錄多個程式碼或模組。

在一些實施例中，處理器104耦接於廣角鏡頭101、儲存電路102、收音裝置103，並可為一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器（microprocessor）、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用積體電路（Application Specific Integrated Circuit，ASIC）、現場可程式閘陣列電路（Field Programmable Gate Array，FPGA）、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器（Advanced RISC Machine，ARM）的處理器以及類似品。

在一些實施例中，在廣角鏡頭101拍攝周遭環境之後，可相應地提供寬視角影像串流V1至處理器104，寬視角之定義為水平可視角度120度以上。另外，在收音裝置103收取周遭環境的聲音之後，可相應地提供第一音訊內容A1至處理器104，但可不限於此。

在一些實施例中，在處理器104取得寬視角影像串流V1及第一音訊內容A1之後，可據以產生一特定視訊內容。在一實施例中，處理器104例如可將此特定視訊內容提供予其他的應用程式/軟體作後續應用。舉例而言，當上述會議室內的人員使用視訊內容提供裝置100a與另一群人進行視訊會議時，處理器104可將所產生的特定視訊內容提供予視訊會議軟體。在此情況下，所述視訊會議軟體即可將對應於上述會議室的特定視訊內容呈現於視訊會議軟體的介面上，以供上述視訊會議的其他參與者觀看，但可不限於此。

請參照圖1B，其是依據本發明第二實施例繪示的視訊內容提供裝置及視訊擷取裝置的示意圖。在圖1B中，視訊擷取裝置110例如可包括圖1A中的廣角鏡頭101及收音裝置103。相似於圖1A的視訊內容提供裝置100a，視訊擷取裝置110可安裝於會議室中，用以透過廣角鏡頭101（例如是360度鏡頭）擷取會議室中的多個會議參與者的影像串流，並透過收音裝置103（例如是具有360度收音範圍的麥克風陣列）收取各會議參與者的聲音訊號。

與圖1A不同之處在於，圖1B的視訊擷取裝置110在拍攝周遭環境及收取周遭環境的聲音之後，可相應地提供寬視角影像串流V1及第一音訊內容A1至外部的視訊內容提供裝置100b（其例如是各式電腦裝置及/或智慧型裝置），以由視訊內容提供裝置100b基於寬視角影像串流V1及第一音訊內容A1產生上述特定視訊內容，但可不限於此。於另一實施例中，廣角鏡頭101及收音裝置103可分別為兩個不同的裝置，分別經由不同的路徑提供寬視角影像串流V1及第一音訊內容A1給視訊內容提供裝置100b。

在視訊內容提供裝置100b產生上述特定視訊內容之後，同樣可將所產生的特定視訊內容提供予視訊會議軟體以實現先前所提及的應用，但可不限於此。

如圖1B所示，視訊內容提供裝置100b可包括儲存電路102及處理器104，而其相關的可能實施方式可參照先前實施例中的說明，於此不另贅述。

在本發明的實施例中，第一實施例或第二實施例中的處理器104可存取儲存電路102中記錄的模組、程式碼來實現本發明提出的視訊內容提供方法，其細節詳述如下。

請參照圖2，其是依據本發明之一實施例繪示的視訊內容提供方法流程圖。本實施例的方法可由圖1A的視訊內容提供裝置100a或圖1B的視訊內容提供裝置100b執行，以下即搭配圖1A及圖1B所示的元件說明圖2各步驟的細節。

首先，在步驟S210中，處理器104可取得寬視角影像串流V1，並取得對應於寬視角影像串流V1的第一音訊內容A1，其中第一音訊內容A1包括對應於多個聲源方向的多個音訊成分。

在不同的實施例中，處理器104可基於各式習知的音訊方向偵測（Audio Orientation Detection）及聲源分離（Source Separation）的技術來辨識上述各聲源方向的音訊成分。

在一些實施例中，在偵測音訊方向時，處理器104例如可使用麥克風陣列以基於波束成形（beamforming）估計到達方向（direction of arrival，DOA）。此外，假設麥克風陣列本身即設定有多個預設收音方向（例如0/90/180/270度），則處理器104可直接將所收到的聲音視為來自上述預設收音方向。在一實施例中，處理器104還可基於一種稱為Ambisonics的裝置/技術來進行聲源方向的估計，而其細節可參考相關的現有技術文獻，於此不另贅述。

在一些實施例中，在進行聲源分離時，處理器104例如可基於波束成形器-最小平方法（beamformer-least square solution）、線性限制最小變異(Linearly constrained minimum-variance，LCMV ) 波束成型器等方式進行聲源分離。此外，處理器104亦可基於「A. Hyvaerinen, J. Karhunen, and E. Oja, “Independent component analysis,” John Wiley & Sons, 2001」及「P. Bofill and M. Zibulevsky, “Blind separation of more sources than mixtures using sparsity of their short-time Fourier transform,” Proc.ICA2000, pp. 87-92, 2000/06」等文獻的內容來實現聲源分離，但可不限於此。

概略而言，在處理器104取得由收音裝置103提供的第一音訊內容A1（其例如是麥克風訊號）之後，處理器104可利用聲源方位估測技術而對多個聲源的DOA進行追蹤。之後，處理器104可進行多聲源方位的估測與聲源追蹤。接著，處理器104可對所追蹤的多個聲源進行聲源分離與切音（source separation and segmentation），進而獲得對應於上述聲源方向的上述音訊成分，但可不限於此。

在一些實施例中，寬視角影像串流V1可具有一視覺角度範圍，且第一音訊內容A1具有一收音角度範圍。在此情況下，處理器104可取得上述視覺角度範圍的第一基準角度，並取得上述收音角度範圍的第二基準角度，再將第一基準角度對齊第二基準角度。藉此，可避免寬視角影像串流V1及第一音訊內容A1之間因視覺/收音角度範圍的不匹配而使得後續的偵測出現錯誤。

為使上述概念更易於理解，以下輔以圖3作進一步說明。請參照圖3，其是依據本發明之一實施例繪示的對齊基準角度的示意圖。在圖3中，假設寬視角影像串流V1的視覺角度範圍R1及第一音訊內容A1的收音角度範圍R2皆為360度（即，廣角鏡頭101的視角及收音裝置103的收音角皆為360度）。此外，假設視覺角度範圍R1的第一基準角R11為視覺角度範圍R1的0度角，而收音角度範圍R2的第二基準角R12為收音角度範圍的0度角。

由圖3可看出，第一基準角R11及第二基準角R12雖皆為0度角，但此二者之間並未對齊。在此情況下，可能使得之後的影像與聲音無法得到良好的匹配。舉例而言，假設第一基準角R11的方向上有一人正在發言，但收音裝置103可能會判定聲音來自於第二基準角R21。在此情況下，處理器104後續可能無法將發言人的影像及其所對應的聲音訊號作出適當的匹配。因此，處理器104可透過軟體校正或其他所需的方式來將第一基準角R11對齊於第二基準角R12。藉此，即可避免出現上述情形，但可不限於此。

之後，在步驟S220中，處理器104可在寬視角影像串流V1中決定多個感興趣區域，並基於指定畫面佈局將所述多個感興趣區域中的候選區域整合為第一畫面。

請參照圖4，其是依據本發明之一實施例繪示決定感興趣區域及候選區域的示意圖。在圖4中，影像411例如是寬視角影像串流V1的其中一個影像，而其例如是一會議室影像。

在不同的實施例中，處理器104例如可基於臉部辨識操作及人體辨識操作的至少其中之一而在影像411中決定一或多個感興趣區域，其中上述臉部/人體辨識操作可透過相應的人工智慧模型及/或深度學習模型執行。在其他實施例中，處理器104亦可透過機器學習、隱藏式馬可夫模型（Hidden Markov Model，HMM）、支持向量機（support vector machine，SVM）等方式執行。

在一些實施例中，使用者亦可透過視訊內容提供裝置100a或100b提供的相關操作介面而手動在影像411框選所需的區域（例如黑板、投影布幕等）作為感興趣區域之一，但可不限於此。

在一些實施例中，在決定一或多個感興趣區域之後，處理器104可對各感興趣區域進行物件追蹤。例如，處理器104可先對各感興趣區域進行特徵提取（feature extraction），再據以進行追蹤。在一實施例中，若某感興趣區域對應於一人體，則處理器104可先對此人體進行姿態估計。之後，處理器104可在一預定義的人體結構置於此感興趣區域中，並將此人體結構對齊此感興趣區域內的人體姿態。在另一實施例中，處理器104亦可基於前景偵測（foreground detection）的方式對各感興趣區域進行物件追蹤，但可不限於此。

在一實施例中，經決定有多個感興趣區域的影像411可如影像412所示。在影像412中，可包括感興趣區域412a~412e。在一些實施例中，處理器104可監控任二感興趣區域之間的距離，並判斷此距離是否小於一預設距離門限值。在一實施例中，反應於判定上述感興趣區域中的第一感興趣區域及第二感興趣區域之間的距離小於預設距離門限值，處理器104可將第一感興趣區域及第二感興趣區域合併為第三感興趣區域，但可不限於此。

在一些實施例中，各感興趣區域412a~412e可個別經辨識有一屬性，而此屬性例如是多個預設屬性的其中之一。在一些實施例中，所述多個預設屬性例如包括「釘選」、「說話中」、「合併」、「包括複數個人」、「靜態」及「已辨識」等，但可不限於此。在一些實施例中，上述屬性可由處理器104自行辨識而得，或是由使用者手動選定而得，但可不限於此。

在一些實施例中，各感興趣區域412a~412e還可因應於各自的屬性而經設定有對應的優先度。舉例而言，屬性為「釘選」的感興趣區域例如可具有優先度1（例如是最高優先度）；屬性為「說話中」的感興趣區域例如可具有優先度2；屬性為「合併」、「包括複數個人」的感興趣區域例如可具有優先度3；屬性為「動態」的感興趣區域例如可具有優先度4；屬性為「靜態」及「已辨識」的感興趣區域例如可具有優先度5（例如是最低優先度），但可不限於此。

在一些實施例中，處理器104可基於不同的方式從感興趣區域412a~412e中決定至少一候選區域。舉例而言，假設感興趣區域412d對應於一會議的主講者，則使用者例如可手動選定感興趣區域412d作為候選區域之一，如影像413所示，但可不限於此。

在一實施例中，處理器104例如可將候選區域的畫面內容匯整於上述指定畫面佈局中，而此指定畫面佈局例如是多個預設畫面佈局之一。在不同的實施例中，各預設畫面佈局可包括一或多個畫面格，而處理器104可在決定指定畫面佈局之後，依據指定畫面佈局中的畫面格的數量來決定選擇哪些感興趣區域作為所需的候選區域。

在一實施例中，假設所選定的指定畫面佈局包括N個（N為正整數）畫面格，則處理器104例如可從上述感興趣區域隨機選定N者作為候選區域。在另一實施例中，處理器104可基於各感興趣區域的屬性決定候選區域。舉例而言，處理器104可基於各感興趣區域的優先度將上述感興趣區域降冪排序，再從上述感興趣區域中挑選排序在前的N者作為候選區域，但可不限於此。

請參照圖5，其是依據本發明之一實施例繪示的多個預設畫面佈局的示意圖。在圖5中，處理器104例如可依據台灣專利申請號109128198的內容（其全文以引用方式併入本文中）而從預設畫面佈局511~516中擇一作為指定畫面佈局，或是由使用者手動從中擇一作為指定畫面佈局，但可不限於此。

在一實施例中，假設預設畫面佈局513經選定作為指定畫面佈局。在此情況下，由於預設畫面佈局513包括4個（即，N為4）畫面格513a~513d，因此處理器104例如可從上述感興趣區域中選擇具較高優先度的4者作為候選區域，但可不限於此。

請參照圖6，其是依據本發明之一實施例繪示的將候選區域整合為第一畫面的示意圖。在圖6中，假設寬視角影像串流V1中經決定有候選區域611~614。在此情況下，假設所選定的指定畫面佈局為圖5的預設畫面佈局513，則處理器104可據以將候選區域611~614整合為第一畫面620。由第一畫面620可看出，候選區域611~614經安排於預設畫面佈局513的4個畫面格中，但可不限於此。

請再參照圖2，在將候選區域整合為第一畫面之後，在步驟S230中，處理器104可從候選區域中挑選指定區域，並從所述多個聲源方向中取得未對應於指定區域的第一聲源方向。

在一實施例中，處理器104可依一定的原則從候選區域中挑選一或多者作為指定區域。例如，處理器104可在辨識某些候選區域係對應於會議的主講者之後，將這些候選區域視為指定區域。在另一實施例中，處理器104亦可在使用者從候選區域中選定一或多者之後，將使用者所選定的這些候選區域定義為指定區域。在一些實施例中，處理器104也可將全部的候選區域皆視為指定區域，但可不限於此。

在決定指定區域之後，處理器104可取得對應於指定區域的視角，並從上述聲源方向中找出未對應於此視角的特定聲源方向。為便於說明，以下再以圖6為例作說明。

在圖6中，假設候選區域611~614中僅有候選區域613（其例如對應於主講者）被選定為指定區域。在此情況下，處理器104可取得對應於候選區域613的視角（例如角度AN3），並找出未對應於此視角的一或多個特定聲源方向。

在一些實施例中，上述特定聲源方向例如可對應於候選區域611、612、614及/或收音裝置103所收到的其他聲音的方向，但可不限於此。之後，處理器104可將上述特定聲源方向作為未對應於指定區域的第一聲源方向。

在圖6情境中，處理器104例如可將對應於候選區域611、612、614的視角（即，角度AN1、AN2、AN4）的聲源方向作為上述第一聲源方向，但可不限於此。

之後，在步驟S240中，處理器104可從所述多個音訊成分中找出對應於第一聲源方向的第一音訊成分。之後，在步驟S250中，處理器104可藉由抑制各第一音訊成分以將第一音訊內容A1調整為第二音訊內容A2。

請參照圖7A，其是依據本發明第三實施例繪示的抑制音訊成分的示意圖。在一實施例中，處理器104可從第一音訊內容A1的聲源方向中取得對應於指定區域的第二聲源方向，並基於第一聲源方向及第二聲源方向產生濾波函數710，其中濾波函數710在第一聲源方向的增益為抑制因數，且此抑制因數可小於1。

在圖7A中，假設對應於指定區域的第二聲源方向為170~190度及310~350度，而其他非第二聲源方向的聲源方向即可理解為第一聲源方向。相應地，在處理器104所產生的濾波函數710中，對應於各第一聲源方向的增益可為0，而對應於各第二聲源方向的增益可為1，但可不限於此。

在此情況下，在將濾波函數710與第一音訊成分A1相乘之後，僅有位於170~190度及310~350度的音訊成分（其對應於指定區域）會被保留，而來自其他角度的音訊成分將會被抑制，但可不限於此。

簡言之，處理器104可將非來自於指定區域（例如是包括主講者的區域）的音訊成分予以抑制，進而提升第二音訊內容A2的聲音品質。

於另一實施例中，圖2的步驟S250亦可實現為由處理器104藉由增強對應於指定區域的各第二音訊成分以將第一音訊內容A1調整為第二音訊內容A2。也就是說，處理器104可從第一音訊內容A1的聲源方向中取得對應於指定區域的第二聲源方向，並基於第一聲源方向及第二聲源方向產生濾波函數710，其中濾波函數710在第二聲源方向的增益為一增強因數，且此增強因數可大於1。於另一實施例中，圖2的步驟S250還可實現為處理器104抑制部分第一音訊成分並增強部分第二音訊成分以將第一音訊內容A1調整為第二音訊內容A2。

以圖6情境為例，假設指定區域為對應於主講者的候選區域613。在此情況下，處理器104可將來自於候選區域611、612、614的聲音皆予以抑制，以產生第二音訊內容A2。在此情況下，第二音訊內容A2中將僅存在對應於主講者的音訊成分，而不會存在對應於其他非主講者的音訊成分。藉此，可有效地改善第二音訊內容A2的聲音品質。

應了解的是，在圖7A情境中，由於增益為1的範圍的兩側較為陡峭，因此當對應的發聲源（例如主講者）因移動而離開對應的角度範圍時，相關的聲音訊號將急遽地被抑制，進而可能造成不佳的聽覺感受。在一實施例中，本發明可另藉由圖7B所示機制改善上述問題。

請參照圖7B，其是依據圖7A繪示的執行平滑化操作的示意圖。在一實施例中，在產生濾波函數710之後，處理器104例如可對濾波函數710執行一平滑化操作。在圖7B中，濾波函數710可理解為包括多個高度為1的方波，而處理器104例如可對各個方波乘以一高斯函數（或是其他可用於平滑化各方波的函數），以對濾波函數710執行平滑化操作，但可不限於此。

在一實施例中，假設經平滑化操作後的濾波函數710呈現為濾波函數720。之後，處理器104可將濾波函數720與第一音訊成分A1相乘，以產生第二音訊成分A2。在此情況下，除了可將非來自於指定區域（例如是包括主講者的區域）的音訊成分予以抑制之外，還可避免出現上述聲音訊急遽地被抑制的情況，進而進一步改善第二音訊內容A2的聲音品質。

在其他實施例中，設計者亦可依需求而直接將濾波函數710設計為一平滑化函數，藉以讓處理器104可透過將濾波函數710與第一音訊成分A1相乘的方式來產生第二音訊成分A2。藉此，可同樣達到避免出現上述聲音訊急遽地被抑制的情況，進而進一步改善第二音訊內容A2的聲音品質。

在取得第二音訊內容A2之後，在步驟S260中，處理器104可將第一畫面與第二音訊內容A2整合為特定視訊內容，並提供特定視訊內容。

以圖6為例，在經上述教示取得對應於圖6情境的第二音訊內容A2之後，處理器104例如可將第一畫面620與第二音訊內容A2整合為對應的特定視訊內容。如先前所提及的，處理器104例如可將此特定視訊內容提供予視訊會議軟體。在此情況下，所述視訊會議軟體即可將此特定視訊內容呈現於視訊會議軟體的介面上，以供上述視訊會議的其他參與者觀看。

並且，由於在特定視訊內容中僅保留有對應於指定區域（其例如對應於主講者）的音訊內容，因此視訊會議的其他參與者將不會聽到非來自於指定區域的音訊內容。藉此，可讓視訊會議的其他參與者體驗到更佳的聲音品質。

請參照圖8，其是依據本發明之一實施例繪示的應用情境圖。在圖8中，假設會議室A及B中的人員正在進行視訊會議，且會議室A及B中分別設置有第一視訊內容提供裝置及一第二視訊內容提供裝置（其個別可實現為圖1A的視訊內容提供裝置100a）。在此情況下，位於會議室A中的第一視訊內容提供裝置例如可依上述教示而基於指定區域811~813而產生第一畫面810。並且，第一視訊內容提供裝置還可依上述教示而產生對應的第二音訊內容A2a，而此第二音訊內容A2a例如可僅保留對應於指定區域811~813的音訊內容。之後，第一視訊內容提供裝置可將第一畫面810及第二音訊內容A2a整合為特定視訊內容，並提供予視訊會議軟體。在此情況下，位於會議室B內的人員即可看到第一畫面810，並可僅聽到對應於指定區域811~813的音訊內容。

在圖8中，位於會議室B中的第二視訊內容提供裝置亦可執行相似的操作，以讓位於會議室A內的人員可看到第一畫面820，並可僅聽到對應於指定區域821~823的音訊內容，但可不限於此。

在一些實施例中，使用者亦可從指定區域811~813、821~823中點選欲抑制聲音的一或多者。在此情況下，第一/第二視訊內容提供裝置可再相應地將使用者所選的一或多者對應的音訊內容進行抑制，但可不限於此。舉例來說，在圖8中位於會議室A內的人員可再對第一畫面810，點選欲抑制聲音的一或多者，例如相對應811的位置，而使會議室B內的人員僅聽到對應於指定區域812及813的音訊內容; 位於會議室A內的人員亦可再對第一畫面820點選欲抑制聲音的一或多者，例如相對應821的位置，而使會議室A內的人員僅聽到對應於指定區域822及823的音訊內容。於另一實施例中，使用者亦可從指定區域811~813、821~823中點選欲增強聲音的一或多者，或者同時或分別選擇抑制聲音以及增強聲音的一或多者。

請參照圖9，其是依據本發明之一實施例繪示的另一應用情境圖。在本實施例中，位於會議室A中的第一視訊內容提供裝置可執行先前實施例中教示的操作，以讓位於會議室B內的人員可看到第一畫面910，並可僅聽到對應於指定區域911~912的音訊內容。在圖9中，第一視訊內容提供裝置例可在偵測到指定區域911係對應於主講者之後，自動將第一畫面910切換為子母畫面。於另一實施例中，並可增強指定區域911的音訊內容，使得對應於主講者之指定區域911音量大於指定區域912。

相似地，位於會議室B中的第二視訊內容提供裝置可執行先前實施例中教示的操作，以讓位於會議室A內的人員可看到以子母畫面呈現的第一畫面920，並可僅聽到對應於指定區域921~922的音訊內容，但可不限於此。於另一實施例中，同樣可增強指定區域921的音訊內容，使得對應於主講者之指定區域921音量大於指定區域922。

綜上所述，本發明實施例可在基於寬視角影像串流而決定一或多個指定區域之後，將這些指定區域整合為第一畫面，並將第一音訊內容中未對應於指定區域的音訊成分予以抑制，以產生第二音訊內容。之後，本發明可將第一畫面及第二音訊內容整合為特定視訊內容。在此情況下，觀看上述特定視訊內容的使用者即可僅聽到對應於指定區域的音訊成分，從而得到較佳的收聽品質。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100a,100b:視訊內容提供裝置 101:廣角鏡頭 102:儲存電路 103:收音裝置 104:處理器 411,412,413:影像 412a~412e:感興趣區域 511~516:預設畫面佈局 513a~513d:畫面格 611~614:候選區域 620:第一畫面 710,720:濾波函數 810,820,910,920:第一畫面 811~813,821~823,911~913,921~923:指定區域 V1:寬視角影像串流 A1:第一音訊內容 A2:第二音訊內容 AN1~AN4:角度 R1:視覺角度範圍 R2:收音角度範圍 R11:第一基準角 R12:第二基準角 S210~S260:步驟

圖1A是依據本發明第一實施例繪示的視訊內容提供裝置示意圖。圖1B是依據本發明第二實施例繪示的視訊內容提供裝置及視訊擷取裝置的示意圖。圖2是依據本發明之一實施例繪示的視訊內容提供方法流程圖。圖3是依據本發明之一實施例繪示的對齊基準角度的示意圖。圖4是依據本發明之一實施例繪示決定感興趣區域及候選區域的示意圖。圖5是依據本發明之一實施例繪示的多個預設畫面佈局的示意圖。圖6是依據本發明之一實施例繪示的將候選區域整合為第一畫面的示意圖。圖7A是依據本發明第三實施例繪示的抑制音訊成分的示意圖。圖7B是依據圖7A繪示的執行平滑化操作的示意圖。圖8是依據本發明之一實施例繪示的應用情境圖。圖9是依據本發明之一實施例繪示的另一應用情境圖。

S210~S260:步驟

Claims

一種視訊內容提供方法，適於一視訊內容提供裝置，包括：取得一寬視角影像串流，並取得對應於該寬視角影像串流的一第一音訊內容，其中該第一音訊內容包括對應於多個聲源方向的多個音訊成分；在該寬視角影像串流中決定多個感興趣區域，並基於一指定畫面佈局將該些感興趣區域中的至少一候選區域整合為一第一畫面；從該至少一候選區域中挑選至少一指定區域，並從該些聲源方向中取得未對應於該至少一指定區域的至少一第一聲源方向；從該些音訊成分中找出對應於該至少一第一聲源方向的至少一第一音訊成分；藉由抑制各該第一音訊成分以將該第一音訊內容調整為一第二音訊內容；以及將該第一畫面與該第二音訊內容整合為一特定視訊內容，並提供該特定視訊內容。
如請求項1所述的方法，其中各該感興趣區域係經一手動選取操作、一臉部辨識操作及一人體辨識操作的至少其中之一決定。
如請求項1所述的方法，其中該寬視角影像串流具有一視覺角度範圍，且該第一音訊內容具有一收音角度範圍，且在取得該寬視角影像串流，並取得對應於該寬視角影像串流的該第一音訊內容之後，所述方法更包括：取得該視覺角度範圍的一第一基準角度，並取得該收音角度範圍的一第二基準角度；以及將該第一基準角度對齊該第二基準角度。
如請求項1所述的方法，其中從該些聲源方向中取得未對應於該至少一指定區域的該至少一第一聲源方向的步驟包括：取得對應於該至少一指定區域的至少一視角；從該些聲源方向中找出未對應於該至少一視角的至少一特定聲源方向，並以該至少一特定聲源方向作為未對應於該至少一指定區域的該至少一第一聲源方向。
如請求項1所述的方法，其中在該寬視角影像串流中決定該些感興趣區域的步驟包括：反應於判定該些感興趣區域中的一第一感興趣區域及一第二感興趣區域之間的距離小於一預設距離門限值，將該第一感興趣區域及該第二感興趣區域合併為一第三感興趣區域，並使該些感興趣區域包括該第三感興趣區域。
如請求項1所述的方法，其中各該感興趣區域具有一屬性，且所述方法更包括：基於各該感興趣區域的該屬性決定該至少一候選區域。
如請求項6所述的方法，其中該指定佈局包括N個畫面格，各該感興趣區域的該屬性為一優先度，且基於各該感興趣區域的該屬性決定該至少一候選區域的步驟包括：基於各該感興趣區域的該優先度將該些感興趣區域降冪排序；以及從該些感興趣區域中挑選排序在前的N者作為該至少一候選區域，其中N為正整數。
如請求項1所述的方法，其中藉由抑制該至少一第一音訊成分以將該第一音訊內容調整為該第二音訊內容的步驟包括：從該些聲源方向中取得對應於該至少一指定區域的至少一第二聲源方向；基於該至少一第一聲源方向及該至少一第二聲源方向產生一濾波函數，其中該濾波函數在該至少一第一聲源方向的增益為一抑制因數，其中該抑制因數小於1；以及將該第一音訊內容乘以該濾波函數，以將該第一音訊內容調整為該第二音訊內容。
如請求項8所述的方法，其中在將該第一音訊內容乘以該濾波函數的步驟之前，所述方法更包括：對該濾波函數執行一平滑化操作。
如請求項8所述的方法，其中該濾波函數為一平滑化函數。
如請求項1所述的方法，其中藉由抑制該至少一第一音訊成分以將該第一音訊內容調整為該第二音訊內容的步驟包括：從該些聲源方向中取得對應於該至少一指定區域的至少一第二聲源方向；基於該至少一第一聲源方向及該至少一第二聲源方向產生一濾波函數，其中該濾波函數在該至少一第二聲源方向的增益為一增強因數，其中該增強因數大於1；以及將該第一音訊內容乘以該濾波函數，以將該第一音訊內容調整為該第二音訊內容。
如請求項1所述的方法，其中藉由抑制該至少一第一音訊成分以將該第一音訊內容調整為該第二音訊內容的步驟包括：從該些聲源方向中取得對應於該至少一指定區域的至少一第二聲源方向；基於該至少一第一聲源方向及該至少一第二聲源方向產生一濾波函數，其中該濾波函數在該至少一第一聲源方向的增益為一抑制因數，該濾波函數在該至少一第二聲源方向的增益為一增強因數，其中該抑制因數小於1，該增強因數大於1；以及將該第一音訊內容乘以該濾波函數，以將該第一音訊內容調整為該第二音訊內容。
如請求項1所述的方法，其中各該感興趣區域具有一權重，且在將該第一音訊內容調整為該第二音訊內容的過程中，更包括：從該些聲源方向中取得對應於該至少一指定區域的至少一第二聲源方向；從該些音訊成分中找出對應於該至少一第二聲源方向的至少一第二音訊成分；以及基於各該指定區域的該權重調整對應的各該第二音訊成分。
如請求項13所述的方法，其中基於各該指定區域的該權重調整對應的各該第二音訊成分的步驟包括：基於各該指定區域的該權重決定各該指定區域的一調整因數，其中各該指定區域的該調整因數正相關各該指定區域的該權重；以及將各該第二音訊成分乘以對應的該調整因數。
如請求項1所述的方法，其中從該至少一候選區域中挑選該至少一指定區域的步驟包括：從該至少一候選區域中識別對應於至少一講者的至少一區域，並將該至少一區域定義為該至少一指定區域。
如請求項1所述的方法，其中從該至少一候選區域中挑選該至少一指定區域的步驟包括：從該至少一候選區域中找出經手動選定的至少一區域，並將該至少一區域定義為該至少一指定區域。
如請求項1所述的方法，其中該視訊內容提供裝置包括一廣角鏡頭及一收音裝置，且所述方法包括：透過該廣角鏡頭取得該寬視角影像串流，並透過該收音裝置取得對應於該寬視角影像串流的該第一音訊內容。
如請求項1所述的方法，其中提供該特定視訊內容的步驟包括：將該特定視訊內容作為一視訊會議內容而提供至一視訊會議軟體。
一種視訊內容提供裝置，包括：一儲存電路，其儲存一程式碼；以及一處理器，其耦接該儲存電路，並存取該程式碼以執行：取得一寬視角影像串流，並取得對應於該寬視角影像串流的一第一音訊內容，其中該第一音訊內容包括對應於多個聲源方向的多個音訊成分；在該寬視角影像串流中決定多個感興趣區域，並基於一指定畫面佈局將該些感興趣區域中的至少一候選區域整合為一第一畫面；從該至少一候選區域中挑選至少一指定區域，並從該些聲源方向中取得未對應於該至少一指定區域的至少一第一聲源方向；從該些音訊成分中找出對應於該至少一第一聲源方向的至少一第一音訊成分；藉由抑制各該第一音訊成分以將該第一音訊內容調整為一第二音訊內容；以及將該第一畫面與該第二音訊內容整合為一特定視訊內容，並提供該特定視訊內容。
如請求項19所述的視訊內容提供裝置，更包括：一廣角鏡頭，用以拍攝該寬視角影像串流；以及一收音裝置，用以接收對應於該寬視角影像串流的該第一音訊內容。