TWM575595U

TWM575595U - 電子書語音朗讀裝置

Info

Publication number: TWM575595U
Application number: TW107210876U
Authority: TW
Inventors: 洪士哲; 吳宗銘; 陳秀華; 雷珵麟; 鄧旭敦; 施詠禎; 蔡忠婷; 廖秀美; 吳淑琴
Original assignee: 台灣大哥大股份有限公司
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2019-03-11

Abstract

本創作關於一種自動朗讀裝置，接收並顯示一多媒體內容，包含文字內容。該朗讀裝置包含：一顯示器，具有一顯示區域以顯示該多媒體內容；一輸入介面，接收一輸入訊號，其與在該顯示區域中的一位置辨識及/或與該多媒體內容的該部分在該顯示區域中的變化有關；及一朗讀及標記單元，產生關聯於所述文字內容的聲音內容及一或多個動態標記，所述動態標記自所述文字內容的一第一部分跳躍至所述文字內容的一第二部分以回應該輸入訊號。

Description

電子書語音朗讀裝置

本創作關於一種電子書閱讀裝置及其方法，尤其是一種能夠語音朗讀與動態標記文字內容之電子書閱讀裝置。

電子書發展至今已經多年，常見的電子書格式包含PDF、EPUB、mobi及AZW等等。根據現有的技術，電子書所包含的圖片內容和文字內容均可完整地視覺呈現，唯有關電子書的朗讀功能這塊卻是發展較緩慢，特別是針對機器學習的自動朗讀功能。此原因在於，機器朗讀的難度相當高，需要克服單調的機器發音及上下文語意的分析才可順利朗讀。舉例而言，文字內容「3/4開幕典禮」與「3/4的影響範圍」，其中雖然都載有「3/4」，但前者是朗讀為三月四日，後著是朗讀為四分之三。然而，這些問題隨著AI技術的發展皆陸續克服，電子書的朗讀功能未來將成逐漸普及。

現有的電子書閱讀裝置可開啟朗讀功能，且部分還伴隨文字內容的標記(highlight)來引導讀者閱讀，讓讀者可透過文字的標記與朗讀的配合更輕鬆的進入閱讀狀態。然而，現有電子書的朗讀及標記功能僅是單調地按照文字內容的順序性單向進行，不容許朗讀及標記的目標被任意選擇。

據此，有必要發展一種朗讀裝置或方法，允許依據使用者操作而選擇性地改變朗讀的目標，且文字的標記也一併同步。

本創作目的在於提供一種自動朗讀裝置，經配置以接收並顯示一多媒體內容，該多媒體內容至少包含文字內容，該朗讀裝置包含：一顯示器，具有一顯示區域以顯示該多媒體內容的一部分；一輸入介面，接收一輸入訊號，該輸入訊號與在該顯示區域中的一位置辨識及/或與該多媒體內容的該部分在該顯示區域中的變化有關；及一朗讀及標記單元，經配置以產生關聯於所述文字內容的聲音內容及一或多個動態標記，所述動態標記自所述文字內容的一第一部分跳躍至所述文字內容的一第二部分以回應該輸入訊號，其中所述文字內容的第一部分與一第一聲音內容有關，所述文字內容的第二部分與該輸入訊號有關且出現在該顯示區域中。

在一具體實施例中，所述動態標記具有一句子標記。所述動態標記具有一單字標記。或者，所述動態標記具有一句子標記及一單字標記，該句子標記與該單字標記視覺可區隔地重疊。該句子標記的範圍由所述文字內容的兩個標點符號定義。

在一具體實施例中，所述文字內容的第二部分與一第二聲音內容有關。

本創作還提供一種非暫態電腦可讀取媒介，包含複數個指令，可由一處理單元執行以：分析一多媒體內容包含的文字內容以辨識複數個句子及/或單字；接收一輸入訊號，該輸入訊號與在一顯示區域中的一位置辨識及/或與該多媒體內容的一部分在該顯示區域中的變化有關；產生關聯於所述文字內容的一或多個動態標記以回應該輸入訊號，所述動態標記為可視於該顯示區域中；及令所述動態標記自所述文字內容的一第一部分跳躍至所述文字內容的一第二部分，其中所述文字內容的第二部分與該輸入訊號有關且出現在該顯示區域中。

在一具體實施例中，該等指令更執行：基於所述文字內容的句子及/或單字的一辨識產生對應的聲音內容，所述聲音內容的輸出與所述動態標記同步。

在一具體實施例中，所述產生關聯於所述文字內容的一或多個動態標記，包含取消一原動態標記。

在一具體實施例中，所述該多媒體內容的一部分在該顯示區域中的變化，包含關於該顯示區域的一捲動操作或一翻頁操作。

一種自動朗讀方法，由一運算裝置的處理單元執行，該方法包含：取得並顯示一多媒體內容的一部分於一顯示器的顯示區域上，其中該多媒體內容具有文字內容；起始一機械朗讀手段以基於所述文字內容輸出聲音內容；產生一或多個動態標記於該顯示區域中，所述動態標記指示所述文字內容的一句子及/或一單字，所述動態標記所指示的文字內容與該聲音內容關聯的文字內容同步；及接收一輸入訊號，該輸入訊號與在該顯示區域中的一位置辨識及/或與該多媒體內容的該部分在該顯示區域中的變化有關，所述動態標記的顯示及聲音內容的輸出自所述文字內容的一第一部分跳躍至一第二部分以回應該輸入訊號，其中所述文字內容的第一部分與一第一聲音內容有關，所述文字內容的第二部分與該輸入訊號和一第二聲音內容有關且出現在該顯示區域中。

在一具體實施例中，所述產生一或多個動態標記於該顯示區域中包含同時產生指示一句子的一第一動態標記及指示一單字的一第二動態標記，該第一動態標記與該第二動態標記視覺可區隔地重疊。

在一具體實施例中，該輸入訊號是關聯於一觸控介面的操作、一影像辨識結果或一語音辨識結果。

在一具體實施例中，所述動態標記的顯示自所述文字內容的第一部分跳躍至第二部分以回應該輸入訊號，包含所述動態標記的顯示自所述文字內容之一第一部分的第一句子跳躍至所述文字內容之一第二部分的第二句子。

100‧‧‧系統

102‧‧‧伺服器

1020‧‧‧中央處理器

1022‧‧‧記，憶體

1024‧‧‧網路介面

1026‧‧‧數位儲存單元

104‧‧‧使用者終端裝置、用戶裝置

106‧‧‧網路

200‧‧‧用戶裝置

202‧‧‧處理單元

210‧‧‧電腦可讀取媒介

220‧‧‧網路介面

230‧‧‧記憶體

231‧‧‧操作系統

232‧‧‧內容播放模組

233‧‧‧內容資料

240‧‧‧輸出/輸入介面

250‧‧‧朗讀及標記單元

260‧‧‧輸出單元

270‧‧‧輸入單元

300‧‧‧朗讀及標記單元

301‧‧‧文字產生引擎

302‧‧‧文字處理引擎

303‧‧‧語義分析引擎

304‧‧‧音訊匹配引擎

305‧‧‧文字標記引擎

306‧‧‧同步產生引擎

400‧‧‧顯示畫面

401‧‧‧顯示區域

402‧‧‧視窗

403‧‧‧捲動操作

404‧‧‧翻頁操作

405‧‧‧第一選擇操作

406‧‧‧第二選擇操作

407‧‧‧第三選擇操作

501‧‧‧動態標記

502‧‧‧動態標記

503‧‧‧段落標記

S600-S640‧‧‧步驟

S700-S730‧‧‧步驟

S800-S830‧‧‧步驟

第一圖顯示本創作提供的一系統。

第二圖顯示第一圖用戶裝置的一實施例。

第三圖顯示本創作朗讀及標記單元的一實施例。

第四圖例示一顯示器的顯示畫面。

第五A至五D圖顯示本創作動態標記的的各種實施例示意。

第六圖顯示使用者與自動朗讀裝置的互動流程。

第七圖顯示本創作動態標記文字內容的步驟流程。

第八圖顯示本創作朗讀方法的步驟流程。

在以下多個示例具體實施例的詳細敘述中，對該等隨附圖式進行參考，該等圖式形成本創作之一部分。且係以範例說明的方式顯示，藉由該範例可實作該等所敘述之具體實施例。提供足夠的細節以使該領域技術人員能夠實作該等所述具體實施例，而要瞭解到在不背離其精神或範圍下，也可以使用其他具體實施例，並可以進行其他改變。此外，雖然可以如此，但對於「一具體實施例」的參照並不需要屬於該相同或單數的具體實施例。因此，以下詳細敘述並不具有限制的想法，而該等敘述具體實施例的範圍係僅由該等附加申請專利範圍所定義。

在整體申請書與申請專利範圍中，除非在上下文中另外明確說明，否則以下用詞係具有與此明確相關聯的意義。當在此使用時，除非另外明確說明，否則該用詞「或」係為一種包含的「或」用法，並與該用詞「及/或」等價。除非在上下文中另外明確說明，否則該用詞「根據」並非排他，並允許根據於並未敘述的多數其他因子。此外，在整體申請書中，「一」、「一個」與「該」的意義包含複數的參照。「在...中」的意義包含「在...中」與「在...上」。

當在此使用時，該用詞「網路連接」意指一種鏈結及/或軟體元件的集合，能使一計算裝置透過一網路與另一計算裝置通訊。一種所述網路連接可為傳輸控制協定(TCP)連接。傳輸控制協定連接為兩網路節點之間的虛擬連接，且一般而言係透過一種傳輸控制協定交握通訊協定所建立。

以下簡短提供該等創新主題的簡要總結，以提供對某些態樣的一基本瞭解。並不預期此簡短敘述做為一完整的概述。不預期此簡短敘述用於辨識主要或關鍵元件，或用於描繪或是限縮該範圍。其目的只是以簡要形式呈現某些概念，以做為稍後呈現之該更詳細敘述的序曲。

第一圖顯示本創作提供的一系統(100)，其包含一或多個伺服器(102)及其網路連接的多個使用者終端裝置(104)，又稱用戶裝置或使用者裝置，尤其所述終端裝置(104)適於作為電子書閱讀器。對於用戶裝置(104)而言，所述伺服器(102)為一遠端伺服器。伺服器(102)可經由編程以創建一網站或是可供使用者裝置之瀏覽軟體存取的其他形式，以便讓使用者經由網路(106)下載伺服器允許存取的資料，如應用程式、多媒體內容資料、軟體更新資料等。伺服器(102)可經進一步配置以執行特定的運算，並將運算結果經由網路連接提供至用戶裝置(104)。在一些實施例中，伺服器(102)可提供一電子書網站及電子書閱讀軟體之下載連結。使用者可經由給定的伺服器存取電子書，伺服器的存取可被限制，例如限制存取的人數或資料流量等。

一般而言，伺服器(102)包含有一或多個中央處理器(1020)及記憶體(1022)用以儲存可由處理器執行的多個操作指令。網路介面(1024)網路連接至一或多個網路(106)及使用者終端裝置(104)，以接收來自網路的資料、請求及指令並向用戶裝置發送各種形式的資料，例如數位儲存單元(1026)所存放的多媒體內容資料，包含圖片資料、文字資料及聲音資料。處理器(1020)可經由網路(106)從其他電腦系統或服務接收資訊及指令。例如，處理器(1020)可利用網路介面(1024)接收或提供用於電子書呈現的各種內容項目。處理器(1020)可進一步利用網路介面(1024)接收或傳送關於內容項目的同步資訊。處理器(1020)可與記憶體(1022)通訊以存取在其中的各種操作指令。在一些實施例中，中央處理器(1020)所扮演的角色及其執行的操作可由用戶裝置(104)固有的處理器分擔或取代。

記憶體(1024)包含多個電腦可執行指令，其可由中央處理器(1020)執行以實現本創作所揭露的各種操作。記憶體(1024)可包含任何暫態或非暫態記憶體的組合，包含RAM、ROM、硬碟、固態硬碟、快閃記憶體等。記憶體(1024)可儲存一操作系統，其提供多個電腦程式指令由處理器(1020)使用於一般的內容物管理和操作中。在其他實施例中，數位資料儲存單元(1026)可被包含在記憶體(1024)的配置中並儲存用於在用戶裝置呈現的各種內容項目，如圖片內容、文字內容及聲音內容。數位資料儲存單元(1026)可包含關於內容項目的其他資訊，例如關於內容項目的同步映射資訊、內容項目的元資料等。在其他實施例中，伺服器(102)可網路連接至外部的另一數位資料儲存單元(未顯示)以取得用於在用戶裝置呈現的內容項目或儲存在記憶體(1024)。

使用者終端裝置或用戶裝置(104)可以是一個人電腦、一平板電腦、一個人數位助理、行動裝置或任何適當的形式。在該實施例中，用戶裝置(104)包含一顯示器、一輸人單元(如實體鍵盤、觸控螢幕、滑鼠、收音器或成像單元)、處理單元、記憶體及其他用以執行本創作所有實施例之配置。

第二圖顯示第一圖用戶裝置(104)的一實施例(200)，其包含一處理單元(202)、一電腦可讀取媒介(210)、一網路介面(220)、一記憶體(230)、一輸出/輸入介面(240)及一朗讀及標記單元(250)。相似地，處理單元(202)可自網路接收各種資訊、指令及多媒體內容。處理單元(202)可利用網路介面(220)以接收用於呈現電子書的各種內容項目。處理單元(202)還進一步利用網路介面(220)傳送或接收用於執行本創作各種實施例的其他資訊或指令，例如關於多個內容項目的同步映射資訊。處理單元(202)可存取記憶體(230)所包含的電腦可執行程式，如用戶端裝置的操作系統(231)、內容播放模組(232)及內容資料(233)，並經由輸入/輸出介面(240)輸出至輸出單元(260)，其可包含用於向使用者呈現各種內容項目的一或多個輸出裝置，如顯示器及揚聲器。輸入/輸出介面(240)可接收來自一輸入單元(270)的輸入，輸入單元(270)可包含一或多個輸入裝置，如觸控螢幕(輸出裝置與輸入裝置的結合)、滑鼠、麥克風及成像裝置。以觸控螢幕而言，一觸碰事件的發生產生相應的一輸入訊號，處理單元(202)可根據該輸入訊號決定關於該觸碰事件的一或多個座標，而進一步根據該等座標的分析處理單元(202)可辨識出顯示器的一或多個畫素及相應的觸控行為。據此，處理單元(202)可根據所述座標決定相關的畫素輸出。

記憶體(230)可包含暫態及非暫態的任何組合，如RAM、ROM、硬碟、固態硬碟及快閃記憶體等。操作系統(231)提供用戶裝置的一般管理和操作的電腦編程指令，其因用戶端裝置的種類而異，且為本領域所熟知，故不在此贅述。內容播放模組(232)可經配置以執行關於各種內容項目的呈現，以及提供用於控制內容播放的使用者互動介面。內容資料(233)包含一或多個內容項目，如文字內容、圖片內容、聲音內容，其可經由內容播放模組(232)播放。內容資料(233)可進一步包含與各內容項目有關的其他資訊，例如在相異兩個內容項目之間的同步映射資訊，以及各內容項目的元資料。內容資料(233)可根據來自網路介面(220)或輸出/輸入介面(240)所接收的其他內容資料而產生更新。用戶裝置(200)可獲取外部的其他內容項目並存放在內容資料(233)中以實現即時串流播放或隨時播放。以電子書而言，內容播放模組(232)可處理文字內容、圖片內容及聲音內容，內容播放模組(232)還可提供使用者操作元件，如翻頁按鈕或捲動組件。

朗讀及標記單元(250)經配置以執行對應文字內容的有聲朗讀及標記動作。在其他實施例中，朗讀及標記單元(250)可以拆分為相互獨立的一朗讀單元和一標記單元。在一些實施例中，朗讀及標記單元(250)可以是內容播放模組(232)的一部分或相關延伸。或者，朗讀及標記單元(250)的部分工作可在伺服器(100)端執行。第三圖顯示本創作朗讀及標記單元的一實施例(300)，包含一文字產生引擎(301)、文字處理引擎(302)、語義分析引擎(303)、音訊匹配引擎(304)、文字標記引擎(305)及同步產生引擎(306)。

文字產生引擎(301)經配置以自伺服器(100)或內容資料(233)存放的一或多個內容項目中辨識文字內容並產生可被顯示的視覺文字及標點符號，並可根據內容項目中的其他資訊決定文字排版、字體及字型等視覺效果。所述排版可包含圖片與文字的視覺呈現。所述內容項目可由各種電子書專用的格式所定義，如PDF、EPUB及AZW等。所述視覺文字可被涵蓋在電子書的單一頁或分別多頁的空間中。在本創作其他可能的實施例中，如在有聲書的應用中，文字產生引擎(301)可經配置以利用已知的語音辨識手段而根據已接收的聲音內容產生對應的文字內容。

文字處理引擎(302)經配置以辨識文字內容中的一或多個句子。舉例而言，根據已知的規則，句子可以是介於兩個鄰近句點之間的文字，或任兩個鄰近標點符號(逗號和句號)之間的文字。括號所涵蓋的一或多個文字組成也可被視為句子的辨識。在其他實施例中，可進一步根據基於機械學習的技術來優化句子的辨識，此可解決可能因標點符號錯誤所導致的無法辨識。在一實施例中，經辨識為一句子的文字內容可給予一識別符或標籤並與對應的文字內容一起存放在記憶體，即每一句子具有各自的一識別符或標籤。例如，可給予這些句子特定的識別符，使得句子可被識別且句子與句子彼此之間的關係能夠被清楚定義，例如句子與句子的順序關係，句子所出現的段落或行數。

語義分析引擎(303)經配置以根據已辨識的一或多個句子決定關聯於該一或多個句子的語義特徵，其可伴隨文字內容及所述識別符或標籤存放在記憶體中。這邊所述語義特徵是指與句子的文法、文義及/或字詞組成有關的統計或衡量。在一實施例中，語義分析引擎(303)可將每一句子的文字分為多段並針對每一段決定對應的語義特徵。所述語義分析引擎(303)可由已知的機器學習手段實現，而語義分析引擎(303)的建立可以在遠端伺服器完成並下載安裝至使用者終端裝置。可替代地，語義分析引擎(303)可不在用戶裝置中執行，而是在遠端伺服器執行並將分析結果存放在遠端伺服器。語義分析引擎(303)可經由持續的訓練回饋而不斷優化語義分析的精準度，甚至偵測句子中的錯誤。

音訊匹配引擎(304)經配置以根據關聯於一句子的語義特徵辨識與該句子對應的一或多個聲音內容，藉此完成文字內容及聲音內容的匹配。所述聲音內容可以是一或多個檔案構成並可經轉換成聲音訊號而經揚聲器輸出。在一實施例中，音訊匹配引擎(304)可存取一音訊樣本資料庫(圖中未示)，其可存放有與各種字詞對應的候選聲音內容。在一實施例中，在音訊樣本資料庫中，對應一字或一詞的每一聲音內容項目可被關聯於一或多個語義特徵，而所述匹配是至少基於字、詞及/或句子的語義特徵和聲音內容所關聯之語義特徵的辨識。所述匹配使所述文字內容(字、詞、句子)與一或多個聲音內容產生關聯。所述音訊匹配引擎(304)可由已知的手段實現，例如自動朗讀應用程式。在其他實施例中，如有聲書的應用，可以預錄的人聲朗讀取代音訊匹配引擎所合成的聲音內容，意即人聲朗讀的聲音內容可經處理而關聯至對應的文字內容作為播放。

文字標記引擎(305)經配置以根據一起始訊號或一輸入訊號而產生一或多個動態標記於關聯該起始訊號或輸入訊號的句子及/或文字。所述動態標記可經由顯示器視覺呈現給使用者。動態標記句有任何可能的形式，如於文字上的螢光標記、文字下方的底線、文字的顏色/字型/字體等。此處的動態是指標記會在自動朗讀期間隨著朗讀目標的前進而在句子及/或字詞間出現及跳躍的動作(skip)，當自動朗讀停止時標記會靜止於文字或消失。所述起始訊號指示了一自動朗讀動作的開始。文字標記引擎(305)會標記文字內容中所識別的第一句子或第一字詞以回應該起始訊號。或者，所述起始訊號可進一步指示經暫停後繼續自動朗讀動作的開始。標記的跳躍頻率與句子或字詞的長短還有自動朗讀的速度有關。所述輸入訊號是經由輸入單元(270)所產生，此處的輸入訊號指示了顯示器的一顯示區域上的位置資訊。在一實施例中，所述輸入訊號是基於顯示器的一顯示區域的一座標或一座標集合之辨識所產生(如使用者點選觸控螢幕)，其中所述座標是關聯於一或多個像素位置。在另一實施例中，所述輸入訊號是基於多媒體內容的一部分的選擇而產生(如使用者在顯示區域中點選顯示內容的一部分)。可替代地，所述輸入訊號指示了未被顯示的多媒體內容的位置資訊(如使用者在顯示的目錄上點選第三章)。文字標記引擎(305)可關聯一標記至未顯示的文字內容以回應該輸入訊號。值得注意的是，雖然多媒體內容未被顯示，但可根據已套用的排版規則而決定多媒體內容中各內容項目的一位置資訊(如文字內容的第三段第七句位在第九頁第一至五行)。前述內容播放模組(232)可提供一輸入欄位允許輸入電子書的導覽資訊，如章節、頁數、行數。

以電子書為例，第四圖例示一顯示器的顯示畫面(400)，其中一顯示區域(401)顯示了文字內容的一部分，而其他部分未被顯示或被視窗(402)覆蓋。可選擇地，未被顯示的內容可經由一捲動操作或一翻頁操作而出現。舉例而言，捲動操作(403)所對應的輸入訊號指示顯示區域(401)上的一座標集合係沿著一縱向方向變化，據此未被顯示的文字內容可由顯示區域(401)的上方或下方載入畫面。翻頁操作(404)所對應的輸入訊號指示顯示區域(401)上的一座標集合係沿著一橫向方向變化，據此未被顯示的內容可由顯示區域(401)的左右側邊載入畫面。動態標記可不回應未顯示內容的載入，或者動態標記可回應未顯示內容的載入而維持在顯示區域(401)中。一選擇操作可關聯於顯示區域(401)中的文字內容。如圖示，一第一選擇操作(405)所對應的輸入訊號指示對應文字內容「我知道」的一座標或一座標集合，文字標記引擎可據此標記該文字內容所對應的句子或字詞。一第二選擇操作(406)所對應的輸入訊號指示對應一頁邊空白的一座標或一座標集合，文字標記引擎可據此標記與該頁邊空白(margin)最靠近的文字內容的句子或字詞。一第三選擇操作(407)所對應的輸入訊號指示對應兩個句子連接觸的一座標或一座標集合，文字標記引擎可據此選擇標記兩個句子的其中一者。

各種形式的輸入單元可實現前述操作並產生對應的輸入訊號。觸控螢幕為普遍的輸入單元，也可提供直覺的操作。可替代地，輸入單元可為成像裝置用於捕捉讀者的眼球影像或是手勢影像，並配合影像辨識而產生操作所對應的輸入訊號。已知的影像辨識技術可判斷讀者眼腈在顯示區域中(401)所聚焦的位置或掃視以識別前述操作。例如，當眼球盯著顯示區域(401)中的一位置長達一時間或配合一扎眼動作，選擇操作可被辨識。當讀者遠離顯示器且給予一揮動手勢或指向手勢時，翻頁操作或選擇操作可被識別。可替代地，輸入單元可為用於捕捉人聲的麥克風。已知的語音辨識技術可判斷讀者給出的關鍵字並對應產生關聯選擇操作的輸入訊號。進一步，配合已知搜尋技術的搜尋技術，文字標記引擎可標記文字內容中所有被選擇的關鍵字。這些輸入單元的選擇性對於身障人士來說是友善的，另一方面也有助於教學領域的應用，而非僅侷限於已知電子書的使用。

可選擇性地，一或多個動態標記可顯示於顯示區域中。第五A至五B圖顯示本創作動態標記的的各種實施例示意。第五A圖顯示針對單一句子的動態標記(501)。在捲動畫面的實施例中，動態標記(501)於自動朗讀期間可被維持在顯示區域的一水平高度或一範圍，因此隨著自動朗讀的進行畫面是動態的被自動捲動。在翻頁畫面的實施例中，當動態標記出現在當前頁面的底部內容，接著下一畫面的載入將動態標記至於畫面的頂部內容。第五B圖顯示針對單一文字的動態標記(502)。然而，當遇到冗長的句子或朗讀速度過快的情況，單純使用句子標記(501)或單字標記(502)均有其缺點。因此，綜合兩者可相互彌補缺點。如第五C圖同時顯示兩種標記，其中單字標記(502)被包含在單句標記(501)中，兩者可給予適當的視覺區別，例如顏色或透明度的處理。第五D圖進一步顯示段落標記(503)，其適用於基於段落的縮小內容。

返參第三圖，同步產生引擎(306)經配置以將辨識的聲音內容與對應的一或多個動態標記同步。同步產生引擎(306)可根據儲存的同步資訊或識別資訊(即識別符或標籤)將關於一句子或一字詞的聲音內容與動態標記同步輸出至輸出單元(270)，如揚聲器及顯示器。在一實施例中，同步產生引擎(306)可利用已知的識別符或標籤將文字內容中的一部分及其對應的動態標記與聲音內容中的一部分產生關聯，例如經由已知的一連結手段，其中所述識別符或標籤係用於識別文字內容中的一句子或字詞。在一些施例中，同步產生引擎(306)可持續執行連結手段直到同步完成所有文字內容與聲音內容。同步產生引擎(306)的執行可以在遠端伺服器完成並將同步結果儲存在雲端，其可隨著多媒體內容一並下載至用戶裝置。進一步地，同步產生引擎(306)可基於聲音內容項目的播放時間而決定同步的動態標記的顯示時間，並記錄於同步結果中。

第六圖顯示使用者與自動朗讀裝置(如第一圖的用戶裝置，104)的互動流程圖，包含步驟S600至S640。在步驟S600，使用者開啟用戶裝置所安裝的電字書閱讀器並將電子書檔案經由該閱讀器開啟。所述電子書閱讀器可自遠端伺服器提供的網站或連結下載，或可內建於用戶裝置。閱讀器可包含控制介面以允許使用者選擇性導覽文章內容。閱讀器還可包含其他附加功能的選擇，如自動朗讀與文字標記的輔助。閱讀器可提供一閱讀視窗顯示於顯示器的一顯示區域，其顯示電子書內容的一部分，包含文字內容和圖片內容，甚至可點擊的連結。閱讀器的導覽模式可根據使用者設定或載入電子書檔案的類型而為捲動導覽模式或翻頁導覽模式。閱讀器開啟後，文章的一部分內容出現在顯示區域中，步驟S600結束

在步驟S610，使用者經由閱讀器的控制介面(如虛擬或實體按鍵)啟動自動朗讀及標記功能。在一實施例中，使用者可點選如第四圖視窗(402)中的虛擬按鈕而呼叫一選擇介面的顯示。可替代地，使用者可自顯示區域的一邊緣以滑動的手勢拉出列有多項可選擇功能的一選擇介面。朗讀及標記功能可以是個別獨立的。較佳地，當兩者被決定為主動狀態時，朗讀與標記的結果應同步。當朗讀與標記功能為主動時，使用者按下播放鍵後，朗讀之聲音訊號與動態標記實質同時為使用者所接收。動態標記係以單字、單詞或單句為單位出現在顯示區域中，且動態標記所關連的文字與聲音訊號關聯的文字完全或部分匹配。動態標記與聲音訊號會以適當的速度且依文字內容預定的順序而產生。如第四圖所例示的顯示畫面，動態標記與朗讀聲音訊號係由顯示區域中的第一行第一句或第一字往下自動同步關聯至顯示區域中的最後一句或最後一字。在捲動導覽模式中，當朗讀至顯示區域的最後一句或字，閱讀器可自動捲動畫面，使未被顯示的文字內容取代原來的一部分，並從更新的部分接續朗讀及標記。在翻頁導覽模式中，當朗讀至顯示區域的最後一句或字，閱讀器可自動載入未顯示的文字內容來取代原來的文字，並從更新的部分接續朗讀及標記。除非使用者命令閱讀器停止動作，否則朗讀的聲音訊號與動態標記會依文章的順序持續播放直到文章結束，結束步驟S610。

在步驟S620，閱讀器判斷使用者是否有指示跳躍或略過部分文章內容。所述跳躍或略過是指使用者指定文章中的一個新的標記及朗讀目標內容，其不包含在當前被標記及/或朗讀的目標內容。所述跳躍或略過的動作可代表使用者希望從當前的朗讀、標記及/或顯示目標內容切換至另一個未朗讀、未標記及/或未顯示目標內容，即使用者希望改變當前朗讀及/或標記的文字內容。例如，使用者可經由閱讀器決定及改變朗讀和動態標記的句子。閱讀器持續偵測是否有任何關於使用者指示跳躍文章的輸入訊號，結束步驟S620。

如果閱讀器沒有收到相關的指示，閱讀器會依預定的文章順序依續地朗讀和標記下一個句子或單字，直到文章結束(步驟S630)。

在步驟S640，使用者指示閱讀器切換自動朗讀和動態標記的目標內容。例如，使用者可經由導覽找到目標內容並於其中選擇自動朗讀和動態標記的一起始位置。在一可行的實施例中，在導覽的過程(無論是捲動或翻頁)，自動朗讀和動態標記的動作可隨著顯示區域中文字內容的變化而自動識別一起始位置。例如，當捲動畫面的過程導致當前朗讀及標記中的文字消失在顯示區域中，閱讀器可經配置以自動識別當前顯示區域中的一位置，其允許新的朗讀及標示從此接續。在其他實施例中，朗讀與標記的動作不會隨著顯示區域的變化而改變，意即縱使捲動畫面的過程導致當前朗讀及標記中的文字消失在顯示區域中，朗讀的位置及順序仍未改變。此適用於使用者僅導覽，但未意圖改變當前的朗讀及標示目標。

第七圖顯示本創作動態標記文字內容的步驟流程，包含步驟S700至S730。這些步驟可由存放在一或多個記憶體(如存在第一圖伺服器或用戶裝置)的多個可執行指令所實現。這些步驟的執行可在使用者終端裝置完成，或者這些步驟的一部分可在遠端伺服器執行，或者這些步驟的部分可由終端裝置及遠端伺服器共同執行。

在步驟S700，一指令可經配置以執行分析一多媒體內容(如電子書檔案)以辨識出該多媒體內容包含之文字內容的複數個句子及/或單字。所述辨識可基於已知的語義辨識及機械學習而實現。在一實施例中，所述句子的辨識是基於標點符號間的關聯性。在其他實施例中，所述辨識可包含嘗試對一連串的文字內容切割出不同的區段以進行分析。在一些實施例中，所述辨識可包含分析一連串文字內容的語義而決定一句子的範圍。經辨識的句字、單字或段落可給予對應的辨識資訊，如辨識符或標籤，其可具體指示該句子在一文章中的上下文關係或位置。這些辨識資訊可隨著該多媒體內容被儲存及傳送，結束步驟S700。

在步驟S705，一指令經配置以執行基於前述文字內容的句子及/或單字的辨識產生對應的聲音內容，此可採已知機械朗讀手段實現。已知手段可針對文字內容的每一單字、一單詞及一單句子輸出或合成為對應的聲音內容。這些聲音內容可在朗讀之前產生並儲存於適當的記憶體，或者這些聲音內容可以在執行朗讀的過程中產生並及時地輸出。

在步驟S710，一指令經配置以令一處理單元處理一輸入訊號，尤其該輸入訊號與在一顯示器之顯示區域中的一位置辨識及/或與該多媒體內容的一部分在該顯示區域中的變化有關。輸入訊號由如第二圖用戶端裝置的輸出/輸入介面(240)接收。不同的輸入單元(260)可與輸出/輸入介面(240)通訊連接，如觸控面板、光學鏡頭或麥克風。關於這些輸入單元所產生的輸入訊號已如前述。如第四圖所示，使用者可經由這些輸入單元產生相對於顯示區域的導覽操作及選擇操作，其中導覽操作(403、404)將致使多媒體內容的部分在該顯示區域中的變化(如捲動、翻頁、切換)，而選擇操作(405、406、407)是致使在顯示區域中的一位置選擇。在一操作中，使用者首先執行導覽操作以找到希望閱讀的內容，接著執行選擇操作以決定一閱讀項目，如句子或字詞。據此，處理單元至少獲得顯示區域中的一或多個位置資訊，步驟S710結束。

在步驟S720，一指令經配置以令處理單元(或標記單元)產生關聯於所述文字內容的一或多個動態標記，所述動態標記為可視於該顯示區域中。在一實施例中，處理單元自動產生所述動態標記於顯示區域中的文字。在另一實施例中，根據前述所獲得之顯示區域中的位置辨識資訊，處理單元找到對應該位置辨識的句子或字詞並產生所述動態標記於顯示區域中相應的範圍。如第四圖所示，無論使用者的選擇操作(405、406、407)所關聯的位置是否直接指出文章的一句子或單字，與該位置最相關的句子應優先被識別並給予標記。在一實施例中，處理單元還可根據導覽操作產生所述動態標記於顯示區域最終停留的文字內容。例如，根據一翻頁操作，新的動態標記可產生於新頁面的第一句。一或多個可視之動態標記可出現在顯示區域中。如第五A至五D圖顯示了單一句子標記、單一單字標記及其組合之示意。

在步驟S730，處理單元令所述動態標記自所述文字內容的一第一部分跳躍至所述文字內容的一第二部分以回應該輸入訊號，其中所述文字內容的第二部分出現在該顯示區域中。在一可能的情況中，於當前顯示區域中的一第一句子已見有一動態標記，而在使用者選擇當前顯示區域中的一第二句子後(即產生輸入訊號)，原第一句子的動態標記跳躍至使用者所選擇的第二句子。本文所描述的跳躍並非是指具體的跳躍動作，而應理解為視覺上類似跳躍或切換的視覺效果。所述跳躍的視覺效果可看出動態標記忽略了第一句子和第二句子之間其他句子的停留。在另一可能的情況中，見有動態標記的一第一句子因導覽操作而從當前的顯示區域消失，同時使用者選擇當前顯示區域中的一第二句子後(即產生輸入訊號)，動態標記回到顯示區域中並標記第二句子。儘管動態標記有可能因操作而自顯示區域消失，可假想所述動態標記是從未顯示部分跳躍至顯示中的內容。步驟S730可與步驟S720同時執行或者為步驟S720的一部分。

第八圖顯示本創作朗讀方法的步驟流程，包含步驟S800至S830。這些步驟可由一或多個運算裝置(如第一圖伺服器102及用戶裝置104)各別地或共同執行。例如，當用戶裝置與伺服器通訊連線，這些步驟的部分可由兩者共同執行。或者，在離現狀態，用戶裝置可獨立執行這些步驟。

在步驟S800，經由一遠端伺服器或一用戶裝置取得一多媒體內容，並將該多媒體內容的一部分顯示於一顯示器的顯示區域上。所述多媒體內容可以是各種內容項目的組合，如文字內容、圖片內容、聲音內容及影像內容，其亦可整合在串流內容中從遠端伺服器往用戶裝置傳送。顯示器可被包含在用戶裝置或者是獨立於用戶裝置且與之通訊連接的一外接裝置。該顯示區域(如第四圖，401)顯示有多媒體內容的一部分。以電子書而言，顯示區域以文字內容為主並可於文字之間穿插圖片或廣告看板。結束步驟S800。

在步驟S810，經由用戶裝置起始一機械朗讀手段以基於所述文字內容輸出一聲音訊號。用戶裝置可配置成具備朗讀文字的能力。例如，用戶裝置可包含電子書閱讀器、聲音資料庫、語義辨識引擎或模組以及喇叭。聲音資料庫存放有對應每一單字、詞或句的聲音資料，這些資料可和語義辨識的結果匹配而輸出對應的聲音訊號。本文描述的聲音訊號的可以是數位或類比的形式，不限於電路傳輸階段或最終輸出的可聽見訊號。在使用者未指定的情況下，機械朗讀可從文字內容的任一處開始，如文字內容的第一個字，或顯示區域中當前文字內容的第一個字，或先前朗讀結束的位置。所述朗讀持續直到文章結束或使用者主動停止，結束步驟S810。

在步驟S820，經由用戶裝置產生一或多個動態標記於該顯示區域中，所述動態標記指出希望被讀者注視的一句子及/或一單字。所述動態標記所指示的文字內容與該聲音訊號關聯的文字內容同步。本文描述的同步是指動態標記產生的範圍與當前朗讀的字相同或者與當前朗讀的字詞所屬的句子相同，並非僅限於相關訊號發生時間上的相同。在一實施例中，所述動態標記為句子標記，其出現在一句子顯示的位置使該句子可視覺地與其他文字區隔(如第五A圖)。在另一實施例中，所述動態標記為單字標記，其出現在一單字顯示的位置使該單字可視覺地與其他文字區隔(如第五B圖)。單字標記實質上可跟隨朗讀的速度持續跳躍至下一單字。在其他實施例中，所述動態標記為句子標記和單字標記的組合，其同時出現在一句子的位置及該句子中的一單字位置，且兩者視覺上可區隔(如第五C圖)。例如，句子標記和單字標記可分別具有不同的顏色，或其中一者為文字底線。動態標記會持續往文章的末端跳躍直到朗讀停，結束步驟S830。較佳地，步驟S810與步驟S820一起執行。

在步驟S830，在朗讀和動態標記尚未停止前或停止後，經由用戶裝置接收一輸入訊號，該輸入訊號與在該顯示區域中的一位置辨識及/或與該多媒體內容的該部分在該顯示區域中的變化有關。用戶裝置可包含或通訊連接一輸入單元，如觸控面板、光學鏡頭或麥克風，其允許使用者操作以指出顯示區域上的一位置資訊及允許使用者於顯示區域中導覽所有的多媒體內容。所述位置資訊包含關於顯示區域上的一座標或一座標集合，其可指示一或多個使用者操作，如前述選擇操作或導覽操作。所述動態標記的顯示及聲音訊號的輸出自所述文字內容的一第一部分跳躍至一第二部分以回應該輸入訊號，其中所述文字內容的第二部分出現在該顯示區域中。當一選擇操作被用戶裝置識別，一句子或一單字(最關聯於所述位置資訊)接著被識別以回應所述選擇操作。基於所述輸入訊號而被識別的句子或單子則成為朗讀和標記的新目標，並立即被朗讀和標記。動態標記的目標自原句子(第一句子)跳躍至已識別的句子(第二句子)，第一句子和第二句字為不同的句子，且不限於第一句在第二句之前。若指示一導覽操作的輸入訊號導致顯示畫面的內容變化，動態標記會隨著所述變化改變出現在顯示畫面上的位置或消失。在一實施例中，當動態標記因此消失時，用戶裝置可產生一新的動態標記在變化後的顯示區域中以標記當前的內容，同時朗讀目標一併同步至新的目標內容。在一些實施例中，如包含章節連結的電子書目錄或返回首頁的快捷鍵，指示一選擇操作或導覽操作的輸入訊號可致使用戶裝置將讀者導向與所選章節連結所關聯的頁面，同時朗讀和標記目標也一併同步至該頁面。基於該輸入訊號，動態標記的目標及/或朗讀目標跳躍至新的目標內容，步驟S830結束。

要瞭解在該類流程圖描繪中的步驟圖示及組合，係可實作為電腦程式指令。這些程式指令可提供至一處理器以製造一種機器，因此當在該處理器上執行該等指令時，產生用於實現在該流程圖區塊或多數區塊中所指定的動作之方法。該等電腦程式指令可由一處理器執行以由該處理器執行一連串的操作步驟，而形成一電腦實作程序，因此該等指令係於該處理器上執行，以提供用於實現在該流程圖區塊或多數區塊中所指定的動作之步驟。這些程式指令可被儲存於一電腦可讀媒體或機器可讀媒體上，像是儲存在一電腦可讀儲存媒體上。

據此，該等描述支援執行該等具體動作之手段的組合、支援執行該等具體動作之多數的組合，以及支援執行該等具體動作之程式指令方式。也將可瞭解，該流程圖描繪中的每一區塊以及該流程圖描繪中區塊的組合可由模組實作，像是以特殊目的硬體為基礎的系統，該系統執行該等具體動作步驟，或是特殊目的硬體與電腦指令的組合。

以上內容提供該等敘述具體實施例之組合的製造與使用的完整描述。因為在不背離此敘述精神與範圍下可以產生許多具體實施例，因此這些具體實施例將存在於以下所附加之該等申請專利範圍之中。

Claims

一種自動朗讀裝置，經配置以接收並顯示一多媒體內容，該多媒體內容至少包含文字內容，該朗讀裝置包含：一顯示器，具有一顯示區域以顯示該多媒體內容的一部分；一輸入介面，接收一輸入訊號，該輸入訊號與在該顯示區域中的一位置辨識及/或與該多媒體內容的該部分在該顯示區域中的變化有關；及一朗讀及標記單元，經配置以產生關聯於所述文字內容的聲音內容及一或多個動態標記，所述動態標記自所述文字內容的一第一部分跳躍至所述文字內容的一第二部分以回應該輸入訊號，其中所述文字內容的第一部分與一第一聲音內容有關，所述文字內容的第二部分與該輸入訊號有關且出現在該顯示區域中。
如申請專利範圍第1項所述之自動朗讀裝置，其中所述動態標記具有一句子標記。
如申請專利範圍第1項所述之自動朗讀裝置，其中所述動態標記具有一單字標記。
如申請專利範圍第1項所述之自動朗讀裝置，其中所述動態標記具有一句子標記及一單字標記，該句子標記與該單字標記視覺可區隔地重疊。
如申請專利範圍第2或4項所述之自動朗讀裝置，其中該句子標記的範圍由所述文字內容的兩個標點符號定義。
如申請專利範圍第1項所述之自動朗讀裝置，其中所述文字內容的第二部分與一第二聲音內容有關。