TWI250787B

TWI250787B - Compression of bi-level images with explicit representation of ink clusters

Info

Publication number: TWI250787B
Application number: TW092106234A
Authority: TW
Inventors: Erin L Renshaw; Patrice Y Simard; Henrique S Malvar
Original assignee: Microsoft Corp
Priority date: 2002-04-25
Filing date: 2003-03-20
Publication date: 2006-03-01
Also published as: TW200306113A; KR100938100B1; EP1359544A3; CN1453724A; US20030202708A1; CN100363924C; JP4733911B2; US7206450B2; KR20030084600A; US20080175501A1; EP1359544A2; JP2003333341A; US7317838B2; US20070242888A1

Description

玖、發明說明：【發明所屬之技術領域】本發明大體係關於數位圖#命月處理’更明確地說，是關於一種有助於以磁墨蔟顯示表示進- / 订一兀圖像壓縮之一糸統與方法。料壓縮技術有助於有效傳輪與儲資料壓縮可減低為了表示資訊【先前技術】由於電腦網路、網際網路發展，可經由電腦獲得的資訊的增加，造成了對於快速傳輸資於多種資訊類型。字、音訊、與視訊、與數位儲存方式大量與迅速量也大幅增加。正由於資訊量資訊與有效儲存資訊之需求。存資訊。所必須之空間，且可運用對於數位資訊壓縮之需求，包括圖像、文 ’正在日益增加中。傳統上，可將資料壓縮與標準電腦系統-起使用；然而，g他利用f料壓縮之技術，例如但不限於數位與衛星電視以及手提/數位電話。由於控制、傳輸、與處理大量資訊之需求增加，壓縮此類資料之需求也會增加。雖然儲存裝置容量已顯著增加，對於資訊的需求已超過容量的進展。例如，一未壓縮之數位圖片可能需要5MB的空間，然而該相同之圖片經壓縮後不會損失，且僅需2.5 MB之空間。因此，資料壓縮有助於傳、关大量資訊。即使傳輸速率增加，例如寬頻、DSL、 ^ 、見缘數才虐機（cable modem)網際網路、及其相似者，未壓縮之次▲ 仍然很容易達到傳輸上限。例如，利用一 DSL線二Λ 未墨綠之 m Α θ像可能需要十分鐘。然而，經過壓縮後’該圖像之傳輪可能σ兩」此/、而約一分鐘，因此使資料總處理量增十倍。 α 般而言’有兩種壓縮法，無損失與損失。無損失 t縮後’可復原得到相同之原始資料，而損失壓縮縮後，可復原得到與原始資料不同之資料。兩種壓縮模各有利弊，損失壓縮提供了比無損失壓縮更佳之壓縮比為剛者可容忍資料完整性某種程度之妥協。無損失壓縮於’例如，壓縮關鍵文字時，因為無法重組完全相同之可能嚴重地影響該文字之品質與可讀性。損失壓縮可用片或非關鍵文字時，此時人類感官可接收某些扭曲或雜或可能無法察覺。二元圖像在數位文件處理中相當常見，因為它們對有文字與圖形的黑白文件，提供了以壓縮型態表示之性。在此類圖像中，其可將圖片元素'(像素）視為來自二進位來源（例如，白=「〇」且黑=「1」）。既然其中通有許多白色空間以及重複之磁墨圖樣，要有效編碼此類的一種基本方法，就是以點陣順序進行掃瞄，例如，由下以及由左至右，並以最適化演算法編碼（AC )來編一像素，其中帶有先前已編碼像素之一小型範本内的像所形成之上下文（context )，可控制其狀態（或機率表、想法是大多數近代二元圖像壓縮系統之基礎。傳真圖像通常利用舊式CCITT標準T.4與τ·6傳赛常分別將之稱為群組3 ( G3 )與群組4 ( G4 )。G3通常相同加了壓縮在壓式間，因可用資料於圖訊，於含可能一種常含圖像上至碼每素值 )。該 b，通以― 6

改良赫夫曼（modified Huffman，ΜΗ )碼來編碼圖像（即，利用一連串黑或白像素進行赫夫曼編碼），且G4利用『改良之改良讀取』（modified modified read，MMR)編碼。MH 與MMR不如上下文最適化AC有效率，但其較易於實作。隨著時間，G3與G4逐步發展至包括利用JBIG (聯合二元圖像群組，亦稱為建議標準T. 82 )編碼。JBIG運用上下文最適化AC，利用最適化樣本以及有效之qm二元演算法編碼器。藉由包括文字與半色調（half tone)資料之圖樣比對，以及4貝失編碼之軟式圖樣比對（soft pattern matching， SPM )，JBIG-2標準可擴充JBIG。JB2編碼器亦以SPM為基礎，但利用z編碼器進行二元編碼。對於G4之壓縮效能， JBIG、JBIG-2、與JB2提供了顯著的改進。【發明内容】為了提供對本發明某些態樣的基'本瞭解，下文提出本發明簡化之摘要。本摘要並非本發明之廣泛綜述。其目的並非在於私。忍本發明之重要/關鍵元素或描述本發明之範圍。其主要目的係在於以簡化之形式提出本發明之某些概念，以便做為之後提出之更詳細說明之入門。本發明提出一種二元編碼系統，其對於可能含有大量文字之掃猫文件’進行一預先假設’假設一點陣圖符合―掃猫文件，來擴充現有二元編碼技術。一掃瞄文件可能包括與黑色像素叢集（們）相對應的字元（們）之點陣圖圖樣。為；進行討論，需假設該文件之背景大體上為白色且其文字大體 7 1250787 1 1;丨....：.,；

f J4 U 上為黑色。然而，運用任何與本發明有關之適當二元色彩表示，皆可認為其屬於所附申請專利範圍之範圍内。該二元編碼系統可掃瞄一點陣圖（例如，由左至右以及由上至下）。第一次發現一磁墨叢集時，將之加入一叢集檢索表。之後，並非編碼所述叢集之該像素，而是編碼該檢索表的一指標P，以及該叢集在頁面上所在出現之，η位置座標。下一次在該點陣圖中發現該相同叢集或一非常接近之叢集時，同樣並非編碼該像素，而僅編碼該{Ρ , χ，Μ座標。若該叢集包含足夠之像素，以一無損失編碼器，編碼{ρ，X， Υ}座標比編碼該像素更有效率，戶斤述編碼器如二元編碼解碼器（B L C ) ’如同時申諸中辦踊也『一丁〒”月〒铩4為『一兀圖像之最適化編碼與解碼』之美國專利申請案（申請標號為Msi5s3i4.i) 中所述。對於多頁文件之壓縮增益較高，因為在所有頁面之間，可共享該叢集檢索表，使得編碼該檢索表本身之成本可被忽略。、該二元編碼系統可在無損失模式或損失模式下作業。無損失模式下，若點陣圖中之一叢集位在該檢索表下一叢之第一臨界值之内，德、、，# f n xr ^傳达該{Ρ，x，Y}資料以及一『叢集差』--實質叢集與檢索表中之叢集間的少許差I (們)：利用一無損失二S編碼器編碼該叢集殘差。纟損失模式下若該點陣®中之—叢集位在該檢索表下-叢集之第二臨值之内’編碼該三聯體{Ρ，Χ，Υ};然而，並未編碼該叢殘差。本發明之二元編碼系統所產生之檔案可能明顯小於，例

爾響.. 如利用傳統掃猫裝置（例如，CCITT g4)產生之檔案。因此’該二元編碼系…统對於文件傳輸和/或料應用程式（們）有重大的影響，例如，數位圖書館以及數位文件資料庫。依照本發明之一態樣，該二元編碼系統可能包括一叢集形狀估計器、-來自叢集S件之點陣圖估計、—叢集位置估計器、-第一編碼器、—第二編碼器、一第三編碼器、以及 -第四編碼II。該叢集形狀估計器可分析與__點陣圖相關之相連元件資訊（例如，色彩、水平大小、垂直大小、水平位置和/或垂直位置）。該叢集形狀估計器可萃取叢集並將之储存於至少一種下列位置，一形狀之全域檢索表、一形狀之頁面檢索表、與解叢集形狀之存放區中。在損失模式下’該叢集形狀估計器能決定一叢集是否位於該全域檢索表下一叢集的第二臨界值之内。卜實施例中’若該叢集位在該第二臨界值之内，會記錄該叢集在該頁面上之出現。在另一實施例中，若叢集位在該第二臨界值之 2不會記錄該叢集在該頁面上之出現，且修改健存於全域欢’、表内之該叢集’該修改至少部分係以該叢集為基礎。例 2 ’該叢集形狀估計器能執行儲存於該全域檢索表下該叢以及儲存於該全域檢索表下—修改叢集所產生之叢华的二：均。與原始點陣圖作比較，這會造成經解碼之點陣 :文子較為清晰。在另一種實施例中，該第一臨界值“列 :’與無損失模式一同使用時）與該第二臨界值（例如，虫才貝失杈式一同使用時）有幾乎相同之值。該形狀之全域檢索表包括全域叢集。全域叢集是在該點 9 V·， L-λί 陣圖（例如，頁面）上出現超過一次之叢集，和/或前一次被當作該相同文件的一部份進行處理之叢集。該形狀之頁面檢索表至少包含頁面層級之叢集（們）… 在該目前點陣圖（例如，頁面）上出現一次之叢集（們）。舉例而言，一旦該叢集形狀估計器已大體上完成該目前點陣圖（例如，頁面）之分析時，可傳送（例如，將之包括於一已編碼之檔案内）該形狀之頁面檢索表的一部份，至少包含在該目前點陣圖（例如，頁面）上僅發現一次之叢集（們）。指向該頁面檢索表之索引（例如，指標）不須進行編碼，因為該頁面檢索表係由該頁面與頁面層級之叢集中的叢集出現外觀來排序，理所當然地，僅在該頁面上出現一次。

該形狀之頁面檢索表能儲存在前一點陣圖（例如，頁面）中僅出現一次之叢集，使得若在之後的點陣圖上發現一實質上相似叢集的第二次出現時，可將該叢集儲存於該全域檢索表下，且自該頁面檢索表中移除之。鉍解叢集形狀之存放區可儲存太小（例如，小於一第三臨界值）或太大（例如，大於一第四臨界值）以致於不能成為文字字元且因而無法達成良好叢集之相連元件（們）。以叢集元件進行點陣圖估計可決定儲存於該全域檢索表下叢集之檢索表位置。來自叢集元件之點陣圖估計能利用來自該叢集形狀估計器之資訊（例如，指標們）。之後以一第二編碼器編碼該指標們。因為已利用該頁面上之位置將該叢集排序，該索引（例如，指標們）易於形成一似文字字串之順序，且在一實施例中，該第二編碼器能利用一適用於文 10

字字串之壓縮演算法（例如，LZX編碼）。在無損失模式中，來自叢集元件之點陣圖估計能決定叢集殘差（們）。來自叢集元件之點陣圖估計能提供資訊給第四編碼器，以便和該解叢集形狀之存放區一起進行編碼（例如，利用無損失二元編碼）。

叢集位置估計器可決定該全域檢索表之叢集的頁面位置，和/或利用相連元件資訊之頁面檢索表。因此，對於位在該全域檢索表和/或該頁面檢索表下之一叢集，欲決定其在一頁面上之位置，係利用相連元件資訊，以及來自該全域檢索表或該頁面檢索表之一檢索表項目之性質。之後以第一編碼器編碼該頁面位置。在一實施例中，因為叢集間有規律之間隔，尤其是在單字之内，可將同一行上叢集間之水平（X方向）間隙進行編碼。此外，對於同一行，可運算並編碼一平均水平間隙，且其後之間隙資訊係以平均水平間隙4實質水平間隙之間的差異為基礎。

在另一實施例中，運算一平均垂直（y方向）值。將同一行之平均垂直值編碼，且其後對於一叢集，編碼該叢集之垂直值與平均垂直值之間的差異。由於羅馬字母中，沿著下方邊緣排列之字母比沿著上方排列者多，可利用該叢集之邊界方塊（bounding box )的下方邊緣。因此，該一特定叢集與平均之間的差異很小。由於該第一編碼器係利用一行接一行之方式進行編碼，可編碼每一行之第一水平值（X方向）與平均y值。 11

面仏索表和/或全域 I二元點陣圖編碼。，且可利用無損失二第一編碼器可編碼自叢集位置置。例如，第一編碼器可利用# _ 計器所收到〜用位7L平而祕編碼自以叢集元件進行點陣、、、碼。第二如，LZX編碼）。圖料所收収檢索，弟二編碼器可編碼位在頁之點陣圖圖樣，且可利用無損器可編碼解叢集形狀之存玫區編碼。近來越來越多人重視『無紙，丄，至』，一般布文件由紙張轉換成電子形式。利 ⑴用傳統技術轉換：使用者能掃瞄、儲存和/或運用電子文件，卻產例如，利用多種掃猫裝置，掃晦约2〇頁便可輕易之資料。由於所產生之大型檔案造成之問題，使沿法輕易透過如電子郵件傳送掃瞄之文件。然而，矛之系統和/或方法的掃瞄裝置可減低*存需求，仓猫200頁其檔案小到只有1MB，使得例如5〇頁之產生僅有250KB之『.blc』檔案’其可經由電子郵輸0 再者，對於一清晰之文件，相較於一般G4格本發明之系統和/或方法，可以得到如十倍之增益訊多之文件，相較於G4之壓縮增益可以到達五倍常短的文件（單一頁面）中為三倍。本發明之另一態樣使該二元編碼系統更包括統和/或一活動 <貞測糸統。之頁面位編碼器可 :位置（例檢索表下第四編碼元點陣圖言係指將文件，讓型檔案。產生1ΜΒ 使用者無用本發明如，每掃 >律文件，件快速傳式，利用。對於雜 ’或在非一叢集系 12

該叢集系統可識別與多種叢集（例如，相連元件）相關之資訊。例如，該資訊可能包括該多種叢集（例如，相連元件）之寬度（例如，X大小）、高度（例如，y大小）、色彩、水平位置（例如，絕對和/或相對）、和/或垂直位置（例如，絕對和/或相對）。該活動偵測系統可接收一種二元圖像輸入。例如，二元圖像輸入可以是一種接收自一遮罩分隔元件（未顯示）或一掃瞄圖像（例如，來自一文件掃瞄裝置和/或一傳真機）之二元遮罩。該活動偵測系統可分析該二元圖像之遞色 (d i t h e r i n g ) /半色調（h a 1 f t ο n i n g)、和/或雜訊。該活動债測系統提供一種以該二元圖像輸入為基礎之二元圖像輸出；然而卻可減低遞色/半色調、和/或雜訊。以文件圖像（們）為基礎且帶有遞色/半色調之二元圖像（們），通常有大量之相連元件（們）位在和/或貫穿該區域。此外，帶有雜訊之二元圖像（們b通常有較少之相連元件（們）位在和/或貫穿該區域。因此，藉由決定位在和/或貫穿該區域之相連元件（們）數量，該活動偵測系統能夠偵測遞色/半色調、和/或雜訊可能出現之區域。除了如上所述之偵測遞色之外，可改變該活動偵測系統使其可偵測該二元圖像輸入中之雜訊。『雜訊』係指無關之資訊（例如，標記（們）），且將之刪除不會實質上危及二元圖像之完整性。移除該二元圖像輸入内之雜訊，由於一較平滑的圖像可能導致資料壓縮之改進。一二元圖像中帶有雜訊之部分通常會顯示出相對較小之相連性。例如，一白色背景 13

上之一區域至少僅包含一相連雜散標記時，僅有一相連元件。然而本發明之另一態樣提供了一種可選取之二元編碼系統’其具有一二元編碼系統、一無損失二元編碼器、與一選取元件。

該無損失二元編碼器可利用無損失二元編碼技術 (們）。該選取元件提供在利用無損失二元編碼器、以及二元編碼系統（例如，利用叢集（無損失或損失））兩種無損失二元編碼間進行一選取。其選取之基礎，例如，係根據一使用者偏好和/或根據二元編碼系統中之一叢集系統。本發明之另一態樣提出一種二元解碼系統，其具有一第一解碼器、一第二解碼器、一第三解碼器、一第四解碼器、一叢集產生器、與一合併器。

該第一解碼器可解碼一位元串流輸入（例如，由一相對應之編碼器所產生）之至少部分，並k供叢集（們）之頁面位置（們）。該第二解碼器可解碼一位元串流輸入（例如，由一相對應之編碼器所產生）之至少部分，並提供已解碼之檢索表位置。該第三解碼器可解碼一位元串流輸入（例如，由一相對應之編碼器所產生）之至少部分，並提供一已解碼的形狀之全域檢索表和/或一已解碼的形狀之頁面檢索表。該第四解碼器可解碼一位元串流輸入（例如，由一相對應之編碼器所產生）之至少部分，並提供一解叢集形狀之存放區。該叢集產生器產生叢集係至少部分根據該頁面位置、檢索表位置、以及全域檢索表與頁面檢索表兩者至少其一。該 14 50787 _ 9i 7.-, 「丨—：合併器提供一種二元輸出’其至少部分根據由和/或該解叢集形狀之存放區（們）所產生之^ 本發明之另一態樣使得該二元編碼系統竞多種之文件圖像應用中’包括但不限於，平柄人電腦、分段分層圖像系統、影印機、文件掃银字元辨識系統、個人數位助理、傳真機、數位才I 訊相機和/或視訊。本發明之其他態樣提供了艿執行二元編碼與二元解碼之方法。更提供了一粮電腦可讀取有電腦可使用之指令，可供一系統進行二元編電腦可讀取之媒體，其帶有電腦玎使用之指令進行二元解碼。亦提供了一經改寫之資料封自多個電腦元件之間傳輸，其有助於二元編碼3 一資料欄位’其至少包含編碼之頁面位置、位，其至少包含編碼之檢索表位置、二第三I 少包含一編碼之全域檢索表與〆編碼之頁面少其一；以及一第四資料攔位，其至少包含編狀之存放區。為了實現上述與相關結果，此處敘述了某示態樣’且其與下列敘述以及附圖有關。這些性’然而’僅為本發明原理眾多應用方式的I 發明已預設將包括所有此類態樣與其等價物c 之詳細說明與圖示一起考量時，本發明之其他將更顯清晰。該叢集產生器賢集。忘運用於非常 :型（tablet)個菩裝置、光學 3機、數位視、叢集分析、之媒體，其帶碼，以及一種 ‘，可供一系統 L，可在二或更 L少包含：一第一第二資料欄 f料欄位，其至檢索表兩者至 f碼之解叢集形些本發明之例 1態樣具有象徵一中數種，且本 1將下列本發明 >優點與新穎性 15

【實施方式】此處敘述本發明並參照圖示，其中相似之參照數值係用於提及所有相似之元素。在下列敘述中，為了達到解釋之目的，提出眾多具體細節，以便提供對本發明徹底之瞭解。然而可以很明顯地發現，即使沒有這些具體細節，仍然可以實施本發明。在其他例子中，以區塊圖之形式說明為人熟知的結構與裝置，以便幫助敘述本發明。

在本申請書中，『電腦元件』一詞係用於提及一種與電腦有關之實體，可以是硬體、硬體與軟體之組合、軟體、或執行中之軟體。例如，一電腦元件可以是，但不限於，一種在處理器上執行之處理程序、一處理器、一物件、一可執行檔案、一執行之執行緒、一程式、和/或一電腦。為了說明之目的，在一伺服器上執行之一應用程式以及該伺服器皆可以是一種電腦元件。一或更多種電腦元件可以位在一處理程序和/或執行之執行緒中，且一元件可在電腦上本地化和/或分散在二或更多個電腦之間。

參照第1圖，根據本發明之一態樣，說明一種二元編碼系統1 00。該二元編碼系統1 00包括一叢集形狀估計器11 0、一來自叢集元件之點陣圖估計 120、一叢集位置估計器 1 3 0、一第一編碼器1 40、一第二編碼器1 5 0、一第三編碼器 1 6 0、以及一第四編碼器1 7 0。對於可能含有大量文字之一掃瞄文件，藉由一預先假設，假設一點陣圖符合一掃瞄文件，來擴充現有二元編碼技 16 5钔_ 猫文系、、先1 0 0可擴充目前的二元編碼技術。一掃以包括與黑色像素叢集⑷相對應…（們) 的點陣圖圖樣。盔7、 ^ 為白色且复—〜了進行討論，需假設該文件之背景大體上關杏：文：大體上為黑色。然而，運用任何與本發明有之範 /表不，白可認為其屬於所附申請專利範圍且由焉系統10 〇可掃瞄一點陣圖（例如，由左至右集後第—次發現-磁墨之叢集時，將之加入-叢該檢索表的-指榡…述叢集’而是― 丫}位置座伊。下一及该叢集在頁面上所在位置之（X’ 常接近之叢隼時n欠在該點陣圖中發現該相同叢集或-非 /、寺，同樣並非編碼該像素，而僅編 1}座標。若該叢集包含足夠之像素，以一無損失咖編= 名{P X Y}座標比編碼該像素更有效率。其壓縮增益比多頁文件高’因為可在所有頁面之間，共享該叢集檢索表，使得編碼該檢索表本身之成本可被忽略。 100可在無損失模式或損失模式下作該二元編竭系統業。在無損失模式下，若點陣圖中之一叢集位在該檢索表下一叢集之第一臨界值之内，傳送該{Ρ，χ，γ}資料以及一『叢集殘差』…實質叢集與檢索表中之叢集間的少許差異（們）。可利用一無損失二元編碼器編碼該叢集殘差。在損失模式下，若該點陣圖中之一叢集位在該檢索表下一界值之内，編碼該三聯體{Ρ , χ , γ};然而，叢集之第二臨並未編碼該叢集殘差。 17

本發明之二元編碼系統丨〇〇所產生之檔案可能明顯小於，例如利用傳統掃瞄裝置（例如，CCITT G4 )產生之稽案。因此，該二元編碼系統丨〇〇對於文件傳輸和/或儲存應用私式（們）有重大的影響’例如，數位圖書館以及數位文件資料庫。該叢集形狀估計器11 0可分析與一點陣圖相關之相連元件資訊。例如，該相連元件資訊可能包括該相連元件之色彩、水平大小、垂直大小、水平位置和/或垂直位置。該叢集形狀估計器110可萃取叢集並將之儲存於至少一種下列位置’ 一形狀之全域檢索表172、一形狀之頁面檢索表174、與解叢集形狀之存放區176中。簡短地參照第2圖，說明一圖示200描繪該連龄性屬性。該4-連結性屬性僅會以四種主要羅盤方向來識別相連像素。第2圖顯示一像素，在其四種主要羅盤方向被四個像素環繞，以便說明該4-連結性屬“。接著是篦布 J _ ，說明一圖示3 0 0描繪該該8 -連結性屬性。第3圖顯示一像素在其八種主要方向被八個像素環繞，以便說明該8 _連妒性屬性。相連元件可能包括文字以及非文字標記。必須瞭解，本發明之系統與方法可利用帶有任何適當程度之相連性的相連元件，且不限於4-連結性或8-連結性之相連元件。簡要地參照第4圖，根據本發明之一態樣，說明一示範性相連元件邊界方塊400。該邊界方塊400 —般至少包含一矩型，其内含一尺寸為x大小（寬度）與y大小（高度）之相連元件。 18 87 .7 再次參第1圖’在損失模式下’該叢集形狀估計器 U0可決定一叢集是否位於該全域檢索表172下一叢集之第二臨界值之内。在一示範性實作中，形狀近接式（proximity) 之決定係經由直線排列候選形狀與檢索表形狀，且之後運算該候選形狀中像素之比例，其數值（黑色或白色）與該檢索表形狀中之像素不同。在一實施例中，若該叢集位在該第二 b界值之内’會兄錄該叢集在該頁面上之出現。在另一實施例中，若該叢集位在該第二臨界值之内，不會記錄該叢集在該頁面上之出現，且修改儲存於全域檢索表172内之該叢集，該修改至少部分係以該叢集為基礎。例如，該叢集形狀估計器110能執行儲存於該全域檢索表172下之叢集，以及儲存於該全域檢索表172下一修改叢集所產生之叢集的一加權平均。與原始點陣圖作比較，這會造成經解碼之點陣圖内文字較為清晰。該开y狀之全域檢索表172包括全域叢集。全域叢集是J =點陣圖（例如’頁面）上出現超過一次之叢集，和％一次被當作該相同文件的一部份進行處理之叢集。簡短地^ 照第5圖’根據本發明之一態樣，說明一種示範性全域^ 表資料結構500。該全域檢索表資料結構5〇〇具有一第一 4 5 1 0，可將一索引儲存至該資料結構5〇〇 ; 一第二攔η 520一，J儲存-寬度（例如χ大小）；__第三攔位”。，引 ::度（例如y大小）；以及一第四欄位54〇 ’可儲存1 =集之-點陣圖。例如，該…可以是該相連元件. 見度，且該y大小可以是該相連元件之最大高度。該 19 50Ψ

料結構5 00可至少包含多種全域叢集項目5 5 0。該資料結構5 00僅為示範性，需瞭解已考慮過多種其結構，只要其可用於組織和/或儲存多種資料類型，且前資料有助於促進和本發明有關之二元編碼。任何適合與本明共同使用之此類資料結構，皆屬於所附申請專利範圍之圍内。此類資料結構可以儲存於電腦可讀取之媒體，包括不限於，記憶體、磁碟、與音頻載波。再次參照第1圖，該形狀之頁面檢索表1 74至少包含面層級之叢集（們在該目前點陣圖（例如，頁面）上現一次之叢集（們）。例如，一旦該叢集形狀估計器已大上完成該目前點陣圖（例如，頁面）之分析時，可傳送（如，將之包括於一已編碼之檔案内）該形狀之頁面檢索 1 74的一部份，至少包含在該目前點陣圖（例如，頁面）僅發現一次之叢集（們）。進入該頁面檢索表1 74之索引（如，指標）不須進行編碼，因為該頁彘檢索表1 74係由該面與頁面層級叢集上之叢集外觀來排序，理所當然地，僅該頁面上出現一次。在一實施例中，每一頁面有自己之頁面檢索表174, 在頁面經處理後將之編碼。因此，前一頁面檢索表1 74中項目永遠不會被移除。一旦一頁面經過處理，可編碼其頁檢索表1 74，且永遠不會修改之。形狀之頁面檢索表1 74可以儲存在前一點陣圖（例如頁面）上僅出現一次之叢集，使得若在之後的點陣圖上發一實質上相似叢集的第二次出現時，可將該叢集儲存於該他述發範但頁出體例表上例頁在且之面 f » 現全 20 域檢集形或太大元且因因儲存到狀之頁集形狀檢索表以檢索表自叢集器110 碼該指指標）文件中能利用器150 在定叢集資訊給 176 (令該該全域表172下，且自該頁面檢索表174中移除之。該解叢之存放區1 76可儲存太小（例如，小於一二 (例如，大於-第四臨界值）以致於不能成―:文界字值字) 而無法達成良好叢集之相連元件（們）。此，該叢集形狀估計器110可萃取叢集，並將該叢集至少一種下列位置，該形狀之全域檢索表丨72、該形面檢索表174、與該解叢集形狀之存放區176。該叢估計II m可以提供資訊（例如，指向該形狀之全域 1 72之指標）至來自叢集元件之點陣圖估計1 2〇。叢集元件進行點陣圖…2"決定儲存於該全域 :叢集之檢索表指標。除了叢集檢索表資訊之外，來兀件之點陣圖估計120能利用來自該叢集形狀估計之資訊（例如’指標）。之後以一第二編碼器15〇編標。因為該叢集易於擷取文字之字元，該索弓“例如，易於形成-似文字字_之順序 '，且其緊密地對應到該之文字字串。因此在-實施例中，該第二編碼器15〇一適用於文字字串之壓縮演算法。例如，該第二編碼可利用LZX編碼。無損失模式中’來自叢集元件之點陣圖估言十12〇能決殘差（們）。來自叢集元件之點陣圖估計120能提供該第四編碼器170,以便和該解叢集形狀之存放區 ”!如’利用無損失二元編碼）一起進行編碼。卞位置估计态1 3 0可利用該相連元件資訊決定在檢索表172和/或頁面檢索表174中的叢集頁面位 21 ------- —' %dl雄，'丨置。因此’對於位在該全域檢索4 172和/或該頁面檢索表 1 74下之冑集’奴决疋其在—頁面上之位置，係利用來自該全域檢索表172或該頁面檢索表174之一檢索表項目之相連元件資訊與性質。之後以該第—編碼器“Ο編碼該頁面位置。根據，頁面上之位置排序該叢集，使得該頁面位置傾向於呈現單純遞i曰所以，在一示範性實作中，該第一編碼器 140藉由運算位置的差異（如目前X值·前一 X值，… γ值）來編碼位置，且利用-適用於整數之滴編碼器來編碼此類差異，該址 , ’益τ症較適合於假設較小數值，例如一位元平面編碼器，如 * ^ ^ ^ ^ ^ J時申凊中標題為『有限字母貝枓之…、才貝失最適化編碼』之為MS 12765 8.1 )中所述。、^利申晴案（申請標號在一實施例中，因為叢集字之内，可將同-行上叢集間之:二之間隔’尤其是在單褐。此外，對於同-行，可運算並病：：向）間隙進行編 1德之間1¾、眘1在 ·、平均水平間隙’且八後之間Ρ“❿係以平均水平差異為基礎。 /、實質水平間隙之間的在另-實施例+，運算一平均一杆之单的番古估沾（y方向）值。將同订之千均垂直值編碼，且其後對於一垂直值斑平均垂亩伯P日 ^、’編碼該叢集之 J 間的差異。“羅馬字母中，…方邊緣排列之字母比沿著上方排歹 >。者下方方塊的下方邊緣。因此，該一特。利用該叢集之邊界小。由於該第_纟纟# 集與平均之間的差異很式，=: 140之編碼係利用-行接-行之方式，可編碼母一行之第一水平值 * 方向）與平岣y值。 22 第一編碼器140可編碼自叢隼百二敢果位置估汁器1 3 0所收到之、位置。例如，第一編碼1 4 Ο ~τ立ϊ 一他馬碼裔140可利用位元平面編碼。第、、石馬器1 5 0可編碼自以業隹开杜 > 1 最集凡件進仃點陣圖估計1 20所收之檢索表位置（例如，LZX編碼）。弟三編碼器1 6 0可給成a甚：μ 土』、、為碼位在頁面檢索表和/或全域檢索、下之點陣圖圖樣，且可逢丨益 — J利用無扣失一兀點陣圖編碼。第四編碼器1 7〇可編碼解叢隼开彡壯在一狀之孖放區，且可利用無損失二元點陣圖編碼。雖然第1圖為一區塊圖，說明該二元編碼系統1〇〇之元件，可理解該叢集形狀估計器110、該叢集位置估計器120、來自叢集元件之點陣圖估計130、該第一編碼器140、該第二編碼器150、該第三編碼器16〇、和/或該第四編碼器17〇可做為一或多種電腦元件來實作，如同該名詞在此處之定義。因此，根據本發明，可理解可用於實作該二元編碼系統 no、該叢集形狀估計器110、該叢集k位置估計器130、來自叢集元件之點陣圖估計i 20、該第一編碼器1 4〇、該第二編碼器1 5 0、該第三編碼器1 6 〇、和/或該第四編碼器i 7 〇，且可儲存於電腦可讀取媒體上之電腦可執行檔案元件，包括但不限於，一 ASIC (特定應用積體電路）、CD (光碟）、DVD (數位視訊光碟）、ROM (唯讀記憶體）、軟式磁碟，硬式磁碟、EEPROM (電子式可抹唯讀記憶體）、以及Ms記憶棒 (memory stick ) ° 接著參照第6圖，根據本發明之一態樣，說明一種二元編碼系統600。該二元編碼系統60〇包括一叢集形狀估計器 23 1 1 Ο、一 3 器 130、碼器160 括一叢集該叢相關之資連元件）色彩、水 (例如，該活元圖像輸一掃瞄圖之二元遮 /半色調、元圖像輸色調、和以文像（們），域。此外件（們）貫穿該區能夠偵測除了統6 2 0使叢集元件之點陣圖估計12 〇、一叢集位置估計一第一編碼器140、一第二編碼器150、一第三編與一第四編碼器1 7 0。該；元編碼系統6 0 0更包系統610、和/或一活動偵測系統62〇。集系統6 1 〇可識別與多種叢集（例如，相連元件）机°例如，該資訊可能包栝该多種叢集（例如，相之寬度（例如，X大小）、高度（例如，y大小）、平位置（例如，絕對和/或相對）、和/或垂直位置絕對和/或相對）。動偵測系統6 2 0可接收一二元圖像輸入。例如，二入可以是一種接收自一遮翠分隔元件（未顯示）或像（例如，來自一文件掃瞄裝置和/或一傳真機）罩。該活動偵測系統620矸分析該二元圖像之遞色和/或雜訊。該活動偵測系統62〇提供一種以該二入為基礎之二元圖像輸出；然而卻可減低遞色/半 /或雜訊。牛图像（們）為基礎且帶有遞色/半色調之二元圖通常有大量之相連元件（們）位在和/或貫穿該區 ’帶有雜訊之二元圖像（們）通常有較少之相連元位在和/或貫穿該區域。因此，藉由決定位在和/或域之相連元件（們）數量，該活動偵測系統620 遞色/半色調、和/或雜訊可能出現之區域。如上所述之偵測遞色之外，更能改變該活動偵測系其可偵測該二元圖像輸入中之雜訊。『雜訊』係指 24 無關之：欠β 貝矾（例如，標記（們）），且將之fll ， . ^ 及二 t ® # — Θ象之完整性。移除該二元圖像輸入内之雜訊 ~較平潛的圖像可能導致資料壓縮之改進，由於元圖像中帶 \ π蹩性。移車父平港^ Μ 的圖像可能導致資料壓縮 _ Η π 有雜訊之外八、刀通常會顯示出相對較小之相連性。例如，巴月景上之—广 4 _ 一區域至少僅包含一相連雜散標記時，僅有一相建元件。白需瞭解# t "叢集系統610和/或該活動偵測系統620可做 A 一或多ί§ 电月自元件來實作，如同該名詞於此處之定義。著參知、第7圖，根據本發明之一態樣，說明一種可選取之一- 兀、、扁瑪系統7 0 0。該可選取之二元編碼系統7 0 〇包括元、、扁媽系統6 0 0、一種無損失二元編碼器7 1 0以及一種選取元件720。邊無損失二元編碼器71〇可利用無損失二元編碼技術例士 5亥無損失二元編碼器7 1 0可利用一種不利用演异法編碼之編碼處理程序（BLC );但其效能接近最先進的編碼器，例如JBIG、JBIG小與JB2。一般而纟，該二元、扁馬( BLC )可利用兩種以上下文為基礎之最適化模組： 1 )又到低解析度可能性估計控制的一種最適化預測器，其可用來將該原始像素對應顯示至預測錯誤像素；以及2 ) 一反向最適化游程長度受限（Run礼ength_Rice，rlr )編碼器，其可編碼該預測錯誤像素。這與常用的方法相反，常用的方法是上下文相關之可能性估計來控制像素預測以及最適化燜編碼兩者。由於其具有簡單性，在許多應用程式中，㈣可能是比現有其他編碼器更佳之選擇。 25 該二元圖像壓縮編碼的筮 ^乐一步為一像素預測與預測錯誤產生程序。像素預測通常 J根據周圍像素，進行一像素值 (例如，0或1二者之一） w測。更具體言之，可藉由運算上下文相關之可能性估計 s 來元成像素預測。一上下文實質上就是先前編碼之像辛的 # 京的郇近區域，其可形成一種稱為範本之圖樣。任何標準範本皆、白Γ做為本發明之用途。可將該上下文視為在點陣序位中，；^々斤1甲才曰又之像素值數目的向量清單。這些數值形成一種二元文字，兑予八可獨特地識別該上下文。該二元文字稱為一上下文索引。欲運算該上下文相關之可能性估計值，首先可建立並初始化一像素可能性資料表。可藉由對每_個可能之上下文索引，指派一初始可能性，以；查士、1、> b Γ以達成則述目標。較佳的情況是，該初始可能性可以是〇.5 (即，盥〃 °豕上下文索引相關之像素為黑色或白色之可能性㈣然而’可調整該可能性值之大小，以便預防該編碼器與解碼器之間任何因捨去進位所生之問題。較佳的情況是’藉由選擇一整數表示—像素為白色之可能性是100%’來進行該調整大小。例如，在本發明所試驗之具體實施例中，利用數字『8』。因此，調整大小後可表示該上述初始值的可能性之值為『4』。對於在·點陣序&中之每一像素，與該先前編碼像素之圖樣相關的上下文索引，可加以識別，且可自資料表讀取該調整大小後之可能性。若該可能性為〇·5或以上（即在上述該實施例中，一調整大小後之可能性值為4或以上），則可預測該考慮中之像素為白色，並指派適當之二元值（例如，較 26 佳的情況為一『ο』像素值）。需注意當第一次遇到每一上下文索引時，該預測將永遠為一白色像素，因為對於該資料表中的每一個上下文索引，均初始指派一調整大小後之可能性值。之後可調整該調整大小後之預測值，若該像素經預測後視為白色時，可以藉由一指定之量（例如，加一）增加之；或當該像素經預測為黑色時，可以藉由一指定之量（例如，減一）減少之。對該調整大小後之可能性值進行調整作業後，若其結果落在0以下，將之截斷至0值，且若其落在調整後之可能性最大值以上，將之減去1。因此，該可能性會隨著編碼中圖像，以及預測中像素位置而有所不同。這稱之為反向最適化像素預測，因為該解碼器可執行與可能性估計相同之調整，且不需將顯示上下文可能性資訊傳送至該解碼器。之後可運算該預測錯誤。本質上，運算該預測錯誤係將該二元圖像中之每一像素，其預測之叙色或白色像素值與該實質像素作比較。之後，只需要傳輸這些預測值中，錯誤之資料。在大多數的例子中，該預測值為正確的，所以可落實大幅節省資料之數量。如下文將會敘述，這可以運用在執行相同預測處理程序之解碼器，且會導致相同結果，包括錯誤。因此，解碼器僅須知道該預測之像素值中哪些屬於錯誤的部分，以便將之由白色改成黑色或由黑色改成白色，如同本例可以用於重建該圖像。可特別利用一種二元技術來運算該預測錯誤，使得可利用互斥或邏輯來比較該圖像中，每一像素的實質數值和其預測值。因此，若該實質像素值符合該 27

•部份。然 1』指派至〉則之值（例如，兩數值皆為0或皆為i)，之才曰派至該像素位置，做為所謂預測錯誤圖像之而’若該實質像素值與該預測值不同，則將一為相關之像素在該預測錯誤圖像中之位置。二元圖像編碼的下一個階段係關於利用一上下關反向最適化、RLR編碼程序。已妞文和堂么已鉍發現，該預測之傕、g “夺合該實質數值’該預測錯誤圖像大多數纟：成。則吏得該預測錯誤圖像更能運用於進一步壓 1 得需傳輸之資訊甚至更少。為了編 ''' 因此供 “ 了編碼該預測錯誤圖像，較# 的情况下需使用RLR編碼技術。一# ^ 知而言一 RLR編碼哭可變至可變長度熵編碼器， σ 1 八丫刊用由早一『〇 # 之字碼來表m連續執行之。值，且對於r個部分= 之〇值（r<2k )後出現一 1值時， . ^ 卞利用由一 1值與其後位…文字表示Γ所形成的字碼表示之。該變數羞在傳送-字碼之前，該預測錯誤圖像中可出現之〇值的」執行長度。調整該變數可控制編碼作業之效率。該較佳：術係利用-反向最適化方法來調整k。該方法牵涉到選擇上 k之初始i ’且之後將之向上或向下調整增量，該調整之其礎在於是否會產生一『〇 M i 曰座生〇』值或一『1+k位元二元文字』字碼。使根據本發明《RLR_技術該前述之上下文相關。具體而言，建立一編碼資料表可指派一 k變數至每一上下文索引在-7L圖像之編碼過程中，需更新該編碼資料表以傾反應k值之改變，其方法將解釋如下。前述之上下文相關、反肖最適化、RLR '編碼技術第一 28

Λ 步係關於，將與每一上下文索引相關之該k值設定至指定之初始值（例如，k = 2 )，以便將前述編碼資料表進行初始化。此外，將該k變數調整大小後之數值指示為Rice參數k’，並將之指派至每一上下文。例如，可將一單一調整係數乘以目前之k值，以產生目前之k’值，且其可能大於該k值。

! 當對一像素位置建立一預測錯誤值時，該所用之RLR 編碼器可識別與該像素位置相關之上下文索引，其決定方法如同前述之預測錯誤決定處理程序。目前指派至該上下文索引之k值，之後可自該編碼資料表讀取。在一例子中，考慮中之像素位置為該圖像之點陣順序中的該第一個像素（即，左上方角落之像素），自該資料表讀取之相關k值可用於運算其執行長度，其中在較佳的情況下，該執行長度等於2k。該執行長度可表示點陣順序中，為了產生一『〇』字碼，必須存在之連續白色像素的數目。當運算下一個預測錯誤值時，需決定其為一『1』值或一『〇』值。若其為一『〇』值，則需決定該數值是否位在考慮中之先前運算之執行長度的『中間』；或其係表示該執行長度之終點。若其並非表示一執行的終點，便不會產生字碼。然而，若該預測錯誤值係表示一執行的終點，則會傳輸一『〇』字碼。當然，為了知道一預測錯誤值是否表示該目前執行長度之終點，所用之RLR 編碼器必須記錄已經到多少個『0』。較佳的情況是在該編碼資料表中也包括執行計數器，來完成此一目的。具體而言，可對每一上下文索引指派一個別之執行計數器。在一具體實施例中，初始時會將該執行計數器設為已運算之執行長度 29 .人-〇 4.. ί -, .人-〇 4.. ί -, .二 i二值。之後，如前述每一次遇到一個『Ο』時，包括在該序列中的第一次，該計數器會減1。當該計數器達到0時，目前處理中之該預測錯誤值可視為該目前執行長度之終點。另一方面，若在一執行中的任一時刻遇到一預測錯誤值『1』，則該所用之RLR編碼器會產生一『Ι+k位元二元文字』字碼，其中該k位元二元文字可表示在在目前執行中，遇到『1』之前，所遇到之『0』值數目。利用前述指派至與執行開始之該像素位置相關的上下文索引之執行計數器，可輕易決定所遇到之『0』值數目。一旦產生了一字碼，不論其為一『〇』或一『1 +k位元二元文字』’下一個產生之預測錯誤值可做為另一個執行的起點。為達成此一目標，可藉由識別與該預測錯誤值之像素位置相關之上下文索引，以及重複前述處理程序，將之當做第一像素位置。此外，大體上每產生一字碼時，調整與可產生該字碼之執行相關的該k值。達成此目標較佳的情況如下。若產生字碼為一『0』，則以一指定之數量加大該參數k ’。相反地，若該字碼不是一『0』，則以一指定之數量減小該參數k’。若有需要可隨目前之k ’值，改變該指定之數量。藉由將該新的k ’值除以前述之調整大小係數，可運算新的k值。之後該新的 k ’值可儲存於該編碼資料表内，以代替該先前之數值。藉由整數步驟調整k’，可以對該RLR參數k進行細緻調整，這也是達到最佳編碼效能所必須的，然而僅保持整數演算法，這是使該解碼器能精準地追蹤該k調整步驟所必須的。 30 該選取元件720使其可在利用該無損失二元編碼之無損失二元編碼’以及二元編碼系統（例如，利用叢才貝失或損失））兩者之間作選擇。選取之基礎可以為，一使用者偏好和/或利用位在二元編碼系統600中之系統610 °在一實施例中，該叢集系統610可決定以二元編碼處理較有效率，且提供一輸出至該選取元以便幫助選取該無損失二元編碼器7 1 0。例如’對於一手寫便條或其他圖形，該叢集系可用於決疋叢集之效率比二元編碼（例如，由於其不夕重複之叢集）差。相對應的，該選取元件72〇使其該無損失二元編碼器7丨〇。必須瞭解，該無損失二元編碼器7 1 0和/或該選 720可做為一或多種電腦元件來實作，如同該名詞於定義。接著參照第8圖，根據本發明之、一態樣，說明一解碼系統800。該二元解碼系統8〇〇包括一第一解碼】一第二解碼器82〇、一第三解碼器83〇、一第四解碼器叢集產生器850、與一合併器860。該第一解碼器810可解碼一位元串流輸入（例如相對應之編碼器產生）之至少部份，且可提供叢集（頁面位置（們）864。在-實施例中，該第_解碼器用位元平面解碼。該第二解碼器820可解碼一位元争輸入（例如’ 對應之編碼器產生）之至少部份，且可提供經解碼之器710 集（無例如，一叢集無損失件 72 0 統 610 具有許可利用取元件此處之種二元 i 810、 ;840、，由一們）之 810利由一相檢索表 31

位置=。例如’該第二解瑪器820可利用Lzx解碼。以第三解碼器830可解碼一位元串輸入（例如，由一相對應之編碼器產生）之至入Μ檢帝本且了如供一經解碼形狀之玉\笛和，或一經解碼形狀之頁面檢索表876。例第三解碼器830可利用無損失二元解蝎。該第四解碼器84〇可解碼一位對應之編碼器產生）之至小… / (例* ’由一相 ^ ^ 88〇 '。刀且可提供解叢集形狀之存 :::如’該第四解碼器840 ▼利用無損失二元解碼。 =產生器85。可產生叢集’其至少部分根據該頁面位置4索表位置、與該全域檢索表與頁面檢索表至至少其一。該合併器860提供一種二元給叢集產…5。產生之叢隼和;V其至少部分根據由該 (們Μ。。 …和，或該解叢集形狀之存放區有鑑於上文顯示與描述之示範性系統，根據本發明可實作之方法需參照第9、1 〇、11、】9 」貝、13、與14圖中提出之流程圖’以便得到較佳之瞭解。為了達到簡單地解釋的目的，以一系列的區塊顯示與描述該 ^ 去’需瞭解與發現本發明並不限於該：塊之順序’由於根據本發明某些區塊可出現於不同的順序中和/或與其他於此處出現。此外，根據本發明實作該“之區塊同時塊皆為必須。 …並非所有說明之區可於該電：可執行指令之_般内容中由程式模組，且可由一或更多種元例女執仃之。一般而言，程 32 式模組工作或上該程接行二元可分析形狀估之色彩在914 儲存於接叢集形j 小於一致於不j 損失二；在該指標| 資訊。已利用1 易於形j 壓縮演. 在屬於該相遑元 =常式、程式'物件、資料結構等，-可執/ 實作特定抽象資料類型〃 T執行特定式模組之功能可隨需求加二同人具體實施例中，傳統益么乂結合或分散。耆參照第9圖，根據本發明之一能編碼之方法9 〇〇。在9丨〇 °兒明—種可執 Τ ’執行叢隼公k 與一點陣圖相關之相連元“ 一析。例如， ^ . 貝矾（例如，經由一業隹。十裔（們）110)。該相連元件叢集、水平大小、垂直大小、5 匕該相連元件王且八小、水平位中，萃取叢集（們）。例如，可將兮萃敌直位置。 -全域檢索表、頁面檢索表、與解叢集形狀著在中，編碼解叢集之形狀（們）子放區。狀（們）可包括相連元件（們），其 ° ’該解界值）或太大（例如，大於-第四臨界值）以电成為文字字元且因而無法達一·^带。可利用| 編碼來編碼該解叢集形狀（們）。 “、、 930中，識別指向該全域檢索 r加、社？日铩（們）。識別〔們），其可至少部分根據該叢集分析和/或相連元件 "940中，編碼該指標（們）。在-實施例中，因為玄頁面上之位置將該叢集排序，該帝宗弓丨（例如，指標）技一似文字字串之順序，且利用一適用於文字字串之算法（例如，LZX編碼）來執行編碼。 950中’識別頁面位置（們）。該頁面位置（們）係全域檢索表和/或該頁面檢索表之叢集，且可利用今件資訊加以辨識…’對於位在該全域檢索表和， 33

或該頁面檢索表中之一叢集，利用該相連元件資訊與來自該全域檢索表或該頁面檢索表兩者之一的檢索表項目，來決定其在一頁面上之位置。在960中，編碼該頁面位置（們），例如利用位元平面編碼。

在970中，決定是否需要採用無損失模式。若在970 中之該決定為『是』，在980中，編碼殘差圖像（們），且在 990中持續進行處理程序。若在970中之該決定為『否』，在990中持續進行處理程序。在990中，編碼該頁面檢索表。在 992中，編碼該全域檢索表（例如，利用無損失二元編碼）。接著參照第10、與11圖，根據本發明之一態樣，說明一種執行二元編碼之方法1000。在1004中，接收關於一叢集之資訊（例如，色彩、水平大小、垂直大小、水平位置和 /或垂直位置）。

在1 008中，決定該叢集是否位在該全域檢索表中。例如，在無損失模式中，該決定可根據該叢集是否位在該全域檢索表中之一叢集的第一臨界值内。再者，在損失模式下，該決定可根據該叢集是否位在該全域檢索表中之一叢集的第二臨界值内。若在1 008中之決定為『是』，處理在1012中持續進行處理程序。若在1008中之決定為『否』，在1016中決定該該叢集是否位在該頁面檢索表中。若在1016中之決定為『否』，在1020中，將該叢集儲存於該頁面檢索表中，並在 1012中持續進行處理程序。若在1016中之決定為『是』， 34 在1024中，將該業鱼μ 士令。在1 028中，中持續進行處理最集儲存於該全域檢索表將該叢集自該頁面檢旁矣交八叫你冢表移除，並在1〇12 程序。隹1ϋΙ2中，自該點陣圖該將叢集萃取。之後在MW 中，決定在該頁面上是否有更多之叢集（們）。若在MW 中之決定為『是』，在1〇〇4中持續進行處理程序。若在中之決定為『否』，在1〇36中，編碼該頁面檢索表。在ι〇4〇中，識別在該頁面上之叢集（們）的全域檢索表指標（們）。在1044中，編碼在該頁面上之叢集（們）的全域檢索表指標（們）。之後，在1 048上，決定是否有更多之頁面（們）。若在1040中之決定為『是』若在1040中之決定為『否表0 在1004中持續進行處理程序。在1 0 5 2中，編瑪該全域檢索接著參照第12、與13圖，根據本發明之一態樣，說明一種執行叢集分析之方法12〇〇。在12〇4中，識別叢集（們）。在1208中，執行活動債測。在1212中，執行叢集分析。在 1216中，編碼解叢集形狀（們）。在122〇中，識別指向該全域檢索表之指標（們）。在1224中’編碼指標（們）。在 1228中’識別頁面位4 (們）。在1232中，編碼頁面位置 (們）。在1236中，決定是否需要採用無損失模式。若在 1236中之决疋為『是』，在124〇中，編碼該殘差圖像（們），並在1244中持續進行處理程序。若在1236中之決定為否』在I244中持續進行處理程序。在1244中，編碼該頁面檢索表。在中1248，編碼該全域檢索表。 35 參照第14 _，根據本發明之— 元解碼之方法1400。在141"，：、樣，言兒明-種執行二中，解碼檢索表位置（們碼頁面位置（們）。在檢索表。…中，解碼-頁面檢令：30中’解碼一全域解叢集形狀（們）。在“60中，產，、。在145〇中，解碼分根據該頁面位置（們)、檢索表位生叢集（們），其至少部表W或該頁面檢索表。在147〇中，^們）、與該全域檢索與該解叢集形& (們），例如—：併所產生之叢集（們）可以可將路Τ目元* W像。將發現本發明之系統和/或方土壓縮系統中’其有助於壓縮文字—去運用於-全面之似物。此外，習知技藝人士可瞭二圖形、圖片與其相 •5Γ ·* ffl ^ ^ ^ ，、解本發明之系統和/或方法可運用於夕種文件圖像應用中，包括但電腦、影印機、文件掃猫裝置、_ 、…桌上良個傳真機、數位相機、數視予70辨識糸統、PDA、、 ^數位視Λ相機和/或視訊遊戲。為了提出本發明之不同態樣的額外内容，第15圖與下列討論之目的係在對適當作業環境1510提供-簡短、-般的描述’且本發明之不同態樣可於該環境中實作。雖然可於，亥電可執仃指令之_般内容中說明本發明，Μ如程式模、、且且可由一或多種電腦或其他裝置執行之’習知技藝人士將發現本發明亦可和其他程式模組結合實作和/或做為硬體 /、幸人體之、、且合。然而，一般而言，程式模組包括常式、程式、物件元件、資料結構等，其可執行特定工作或實作特定資料類型。該作業環境1 5 1 0只是一種適當作業環境的一種實施例’且其目的並非在於限制本發明之使用或功能之範圍。 36

其他為人熟知的電腦系統、環境、和/或組態，且適於和本發明共同使用者包括但不限於，個人電腦、手持式或膝上型裝置、多重處理器系統、以微處理器為基礎之系統、可程式化之消費性電子產品、網路pc、迷你電腦、主電腦、包括前述系統或裝置之分散式運算環境，及其相似物。參照第1 5圖，為一種可實作本發明不同態樣之示範性環境15 10，其包括一電腦1512。該電腦1512包括一處理單位1514、一系統記憶體1516、以及一系統匯流排i5i8。該系統匯流排1 5 1 8可耦合系統元件，包括但不限於，將該系統記憶體1 5 1 6耦合至該處理單位i 5丨4。該處理單位丨5 J * 可以是任何一種不同的可用處理器。亦可利用雙重微處理器以及其他多重處理器架構做為該處理單位1 5丨4。該系統匯流排1 5 1 8可以是任何一種多種匯流排結構 (們）類型，包括該記憶體匯流排或記憶體控制卡、一周邊匯流排或外部匯流排、和/或一本機匯流排，其可利用任何一種多種可用之匯流排架構，包括但不限於，丨5位元匯流排、工業標準架構（ISA：r、微通道架構（msa)、延伸工業標準架構（EISA )、智慧型電子驅動器（IDE )、vESa本機匯流排（VLB )、周邊元件連接（pci )、通用序列匯流排 (USB )、繪圖加速連接埠（AGp )、國際個人電腦記憶卡協會規格（PCMCIA)、以及小型電腦系統界面（scsi)。該系統記憶體1516包括揮發性記憶體152〇以及非揮發性記憶體1 522。該基本輸入/輸出系統（bi〇s)，含有該基本系式’其可在電腦1 5 ! 2内之元素間傳輸資訊，例如在開 37 機階段中，可儲存於非揮發性記憶體1 522中。做為解釋，而非限制，非揮發性記憶體1 522可包括唯讀記憶體 (ROM )、可程式ROM ( PROM )、電子可程式R〇M (EPROM )、電子可抹式R〇M ( EEpR〇M )、或快閃記憶體。揮發性記憶體1 5 2 0包括隨機存取記憶體（RAM )，其可做為一外部快取記憶體。做為說明，而非限制，RAM有多種可用之形式，例如同步RAM ( SRAM )、動態RAM ( dram )、同步dram ( SDRAM )、雙倍速資料傳輸SDRAM (DDRSDRAM)、增強 SDRAM ( ESDRAM)、同步案件内存 DRAM ( SLDRAM)、以及直接式 Rambus RAM ( DRRAM)。電腦1 5 1 2亦包括可移除/不可移除、揮發性/非揮發性電腦儲存媒體。第1 5圖說明，例如一磁碟儲存丨524。磁碟儲存1 524包括但不限於，裝置例如一磁性磁碟機、軟式磁碟機、磁帶機、Jazz磁碟機、Zip磁碟機、LS_1〇〇磁碟機、快閃記憶卡、或MS記憶棒。此外，、磁碟儲存1524可包括分離之儲存媒體或可和其他儲存媒體共同使用，其包括但不限於，一光學磁碟機，如一唯讀光碟機裝置（cd_r〇m )、可錄式光碟機（CD-R Drive )、可複寫光碟機（CD-Rw

Dnve)、或一數位多用途唯讀光碟機（DVD-ROM)。為了幫助將該磁碟儲存裝置1524連接至該系統匯流排1518，一般會利用一種可移除或不可移除介面，例如介面1 526。需瞭解第1 5圖所序述之軟體，其可做為使用者與適當乍業裒i兄1 5 1 0中所述之基本電腦資源之間的中介物。此類軟體包括一作業系統1 528。作業系統1 528可儲存於磁碟儲 38

wmi 94 7

存1 524上，且可用於控制並分配該電腦系統i 5丨2之資源。經由健存在系統記憶體1 5 1 6或者磁碟儲存丨5 2 4上的程式模組1 532與程式資料1 534,系統應用程式153〇可利用作業系統1 528之資源管理。可瞭解本發明可在不同作業系統或作業系統之組合中實作。一使用者經由輸入裝置（們）丨536，將指令或資訊輸入一指向裝置例至電腦1 5 1 2、.。輸入裝置1 5 3 6包括但不限於如一滑鼠、軌跡球、觸控筆、觸控板、鍵盤、麥克風、搖桿遊戲控制器、衛星碟、掃瞄裝置、電視影像擷取卡、數位相機、數位視訊相機、網路相機、及其相似物。這些與其他輪入裝置可利用該系統匯流排1 5 1 8經由介面連接蜂（們）接至該控制單位1516。介面連接埠（們）1538包括，例如逮一序列連接埠、一平行連接埠、一遊戲連接埠，以及一通序列匯流排（USB )。輸出裝置（們）1 54〇利用某此與輪裝置（們）1 536相同類型之連接埠\因此」 J ^ J利用 •^ U S B連接淳以便輸入至電腦1 5 1 2 ,且自電腦1 5 1 2幹出訊至一輸出裝置1 540。提出輸出介面卡ι 542，以便說明貝所有輸出裝置1 540中，有某些需要特殊介面卡之輪出裳置 1540如顯示器、擴音器、以及印表機。該輸出介面卡包括，用於說明而非限制，視訊與音效卡，盆可产兮认 r 丹』在該輸出骏置1 540與該系統匯流排1 5 1 8之間提供一種連接方式。必：提出’其他裝置和/或裝置系統可提供輸入與輸出兩種力，例如遠端電腦（們）1544。電腦1512可在一網路環境下作業，其可利用邏輯連接 39

至或更夕遠端電腦，例如遠端電腦（們）1 5 4 4。該遠端電腩（們）1 5 4 4可以是一個人電腦、一伺服器、一路由器、一網路PC、一工作站、一以微處理器為基礎之裝置、一對等裝置或其他常見之網路節點，及其相似物，且一般可包括許多或所有與所述電腦1512相關之元件。為達簡潔之目的’僅和延端電腦（們）1 544 —起說明了一種記憶儲存裝置1 546。遠端電腦（們）1 544經由一網路介面1548邏輯連接至電腦1512，且之後經由通訊連接155〇進行實際連接。網路介面1 548包含通訊網路，例如區域網路（LAN)以及廣域網路（WAN )。LAN技術包括光纖分散式資料介面 (FDDI )、鋼線分散式資料介面（CDDI )、乙太網路/IEEE 1 502·3、權杖環（Token Ring) /IEEE1 502.5 及其相似物。 WAN技術包括但不限於，點對點連結、電路切換網路如整合服務數位網路（ISDN)與其變形物、封包切換網路、以及數位用戶迴路（DSL)。通訊連結(們）155〇係指用來將該網路介面1548連接至該匯流排1518之硬體/軟體。雖然所不之說明用通訊連結155〇明顯地位在電腦1512中，其亦可位在電腦1 5 1 2之外部。連接至網路介面丨548所必須之該硬體/軟體包括，僅做為例示之目的，内部與外部技術，例如，數據機，包括一般電話線路級數據機、纜線數據機與 DSL數據機、ISDN介面卡、與乙太網路卡。上文之敘述包括了本發明之實施例。當然，為了達到敘述本發明之目的，不可能敘述所有可設想到的元件或方法之組合’然而習知技藝人士可理解可對本發明進行任何進一步 40

之排列與組合，因而，本發明並不打算包括所有此類會落在所附申請專利範圍之精神與範圍内的變更、修改、與變異。再者，關於在發明詳細說明或申請專利範圍中所使用的『包括』一詞，其用意為一包括性的型式，類似『至少包含』一詞，如同『至少包含』用於一申請專利範圍中時，係被解釋為一種轉折詞。【圖式簡單說明】第1圖為根據本發明之一態樣，一種二元編碼系統之區塊圖。第2圖為一圖說明了 4-相連性屬性。第3圖為一圖說明了 8-相連性屬性。第4圖為根據本發明之一態樣，一種示範性相連元件邊界方塊。第5圖為根據本發明之一態樣，一種示範性全域檢索表資料結構。第6圖為根據本發明之一態樣，一種二元編碼系統之區塊圖。第7圖為根據本發明之一態樣，一種可選取之二元編碼系統之區塊圖。第8圖為根據本發明之一態樣，一種二元二元解碼系統之區塊圖。第9圖為根據本發明之一態樣，說明執行二元編碼之方法的一個流程圖。 41

ff87 第1 0圖為根據本發明之一態樣，說明執行二元編碼之方法的一個流程圖。第1 1圖為一流程圖，其更進一步說明第1 0圖中之方法。第1 2圖為根據本發明之一態樣，說明執行叢集分析之方法的一個流程圖。第1 3圖為一流程圖，其更進一步說明第1 2圖中之方法。，· 第1 4圖為根據本發明之一態樣，說明執行二元解碼之方法的一個流程圖。第1 5圖說明一種本發明可作用之例示作業環境。 φ 【元件代表符號簡單說明】 1 00二元編碼系統 11 0叢集形狀估計器 1 20來自叢集元件之點陣圖估計 1 3 0叢集位置估計器 1 5 0第二編碼器 I 7 0第四編碼器 174形狀之頁面檢索表 200圖示 400相連元件邊界方塊 5 1 0第一欄位 5 3 0第三攔位 5 5 0全域叢集項目 II 〇叢集形狀估計器 1 3 0叢集位置估計器

140第一編碼器 1 6 0第‘三編碼器 1 7 2形狀之全域檢索表 176解叢集形狀之存放區 3 0 0圖示 5 00全域檢索表資料結構 520第二欄位 5 40第四攔位 6 0 0二元編碼糸統 120來自叢集元件之點陣圖估計 140第一編碼器 42 陋職『:丨 1 5 0第二編碼器 1 7 0第四編碼器 620活動偵測系統 174形狀之頁面檢索表 7 0 0二元編碼糸統 7 10無損失二元編碼器720 6 1 0叢集系統 8 1 0第一解碼器 8 3 0第三解碼器 850叢集產生器 8 64頁面位置（們） 872全域檢索表 880解叢集形狀之存放區 9 1 0執行叢集分析 920編碼解叢集之形狀（們 9 3 0識別指向該全域檢索表 940編碼該指標（們） 9 5 0識別頁面位置（們） 960編碼該頁面位置（們） 970決定是否需要採用無損 9 8 0編碼殘差圖像（們） 9 9 0編碼該頁面檢索表 992編碼該全域檢索表 1 0 0 0執行二元編碼之方法 1 6 0第三編碼器 6 1 0叢集系統 172形狀之全域檢索表 1 7 6解叢集形狀之存放區 6 0 0二元編碼糸統選取元件 8 0 0二元解碼系統 8 2 0第二解碼器 840第四解碼器 860合併器 8 6 8檢索表位置 876頁面檢索表 900方法 9 1 4萃取叢集（們） ) ^ 之指標（們）失模式

43

1 004接收關於一叢集之資訊 1 008決定該叢集是否位在該全域檢索表中 1 0 1 2自該點陣圖該將叢集萃取 1016決定該該叢集是否位在該頁面檢索表中 1020將該叢集儲存於該頁面檢索表中 1024將該叢集儲存於該全域檢索表中 1 028將該叢集自該頁面檢索表移除 1 032決定在該頁面上是否有更多之叢集（們 1 0 3 6編碼該頁面檢索表 1 04 0識別在該頁面上之叢集（們）的 1 〇44編碼在該頁面上之叢集（們）的 1 048決定是否有更多之頁面（們） 1 0 5 2編碼該全域檢索表全域檢索表指標

1200執行叢集分析之方法 1 208執行活動偵測 1 2 1 6編碼解叢集形狀（們） 1204識別叢集（們） 1212我行叢集分析 1 2 2 0識別指向該全域檢索表之指標（們） 1224編碼指標（們） 1 228識別頁面位置（們） 1 2 3 2編碼頁面位置（們） 1 236決定是否需要採用無損失模式 1240編碼該殘差圖像（們） 1 248編碼該全域檢索表 1 4 1 〇解碼頁面位置（們）

1400執行二元解竭4 1420解碼檢索表位5 44 1 4 3 0解碼一全域檢索表 1 4 5 0解碼解叢集形狀（們） 1 5 1 0適當作業環境 1 5 1 4處理單位 1 5 1 8系統匯流排 1 522非揮發性記憶體 1 526介面 1 5 3 0系統應用程式 1 5 3 4程式資料 1 5 3 8介面連接埠 1 542輸出介面卡 1 546記憶儲存裝置 1 5 5 0通訊連接解碼一頁面檢索表產生叢集（們）電腦系統記憶體揮發性記憶體一磁碟儲存 ’ 作業系統程式模組輸入裝置 φ 輸出裝置（們）遠端電腦（們）網路介面

45

Claims

检、申請專利範圍： i種二元編碼系統，其至少包含：一叢集形狀估計器，其係可分析與一文件相關之相連元件資訊、萃取叢集，且可將之儲存於至少一種下列位置，包拮/形狀之全域檢索表（global dictionary)、一形狀之頁面檢索表（page dictionary)、以及一解叢集（unclustered)形狀之存放區；

一來自叢集元件之點陣圖估計，其係可決定儲存於該全域檢索表下叢集之檢索表位置；以及一叢集位置估計器，其係可決定該文件上該全域檢索表與該頁面檢索表兩者中，至少一種之叢集頁面位置。 2 ·如申請專利範圍第丨項所述之系統，至少更包含一第編碼器，其係可編碼自該叢集位置估計器所接收之頁面位 3 ·如申睛專利範圍第2項所述之系統，一砂甘β 乐一編碼益’其係可編碼自以叢集元件進行點陣圖估計所接收表位置。知索 4.如申請專利範圍第3項所器’其係可編碼該頁面檢索述之系統，更包含一第三表與该全域檢索表兩者至編碼少其 46 5 .如申請專利範圍第4項所述之系統，至少更包含一第四編碼器，其可編碼該解叢集形狀之存放區。 6. 如申請專利範圍第1項所述之二元編碼系統，其中該相連元件資訊至少包含該相連元件的色彩、水平大小、垂直大小、水平位置、與垂直位置之至少一者。 7. 如申請專利範圍第1項所述之二元編碼系統，其中該頁面位置至少包含位於叢集間的一水平間隙。 8. 如申請專利範圍第1項所述之二元編碼系統，其中該頁面位置至少包含一平均垂直位置。 9. 如申請專利範圍第8項所述之二元編碼系統，其中該頁面位置更包含在該平均垂直位置與一叢集之垂直位置之間的一差異。 1 0.如申請專利範圍第2項所述之二元編碼系統，其中該第一編碼器至少部分利用位元平面編碼。 11. 如申請專利範圍第3項所述之二元編碼系統，其中該第二編碼器至少部分利用LZX編碼。 12. 如申請專利範圍第4項所述之二元編碼系統，其中該第 47

三編碼器至少部分利用無損失二元編碼。 13. 如申請專利範圍第5項所述之二元編碼系統，其中該第四編碼器至少部分利用一無損失二元編碼。 14. 如申請專利範圍第1項所述之二元編碼系統，其中該叢集形狀估計器可修改一已儲存於該全域檢索表下之叢集，該修改至少部分係基於該儲存之叢集與一叢集之間的一加權平均。 15. —種影印機，其係運用如申請專利範圍第1項所述之系統0 16. 一種文件掃瞄裝置，其係運用如申請專利範圍第1項所述之系統。 1 7. —種光學字元辨識系統，其係運用如申請專利範圍第1 項所述之系統。 18. 一種個人數位助理，其係運用如申請專利範圍第1項所述之系統。 19. 一種傳真機，其係運用如申請專利範圍第1項所述之系統0 48 mow%.. 20. 一種數位相機，其係運用如申請專利範圍第1項所述之系統。 21. 一種數位視訊相機，其係運用如申請專利範圍第1項所述之系統。 22. —種分段分層圖像系統，其係運用如申請專利範圍第1 項所述之系統。 23. 一種視訊遊戲，其係運用如申請專利範圍第1項所述之系統。 24. 一種平板型個人電腦，其係運用如申請專利範圍第1 項所述之系統。 2 5 . —種二元編碼系統，其至少包含：一叢集系統，其係可識別與多種相連元件相關之資訊；一叢集形狀估計器，其係可分析與一文件相關之相連元件、萃取叢集，且可將之儲存於至少一種下列位置，包括一形狀之全域檢索表、一形狀之頁面檢索表、以及一解叢集形狀之存放區，一來自叢集元件之點陣圖估計，其係可決定儲存於該全域檢索表下叢集之檢索表位置；以及 49

一叢集位置估計器，其係可決定該文件上該全域檢索表與該頁面檢索表兩者中，至少一種叢集之頁面位置。 26.如申請專利範圍第25項所述之系統，至少更包含一第一編碼器，其可編碼自該叢集位置估計器所接收之頁面位置。

27.如申請專利範圍第26項所述之系統，更包含一第二編碼器，其可編碼該自以叢集元件進行點陣圖估計所接收之檢索表位置。 2 8.如申請專利範圍第27項所述之系統，其更包含一第三編碼器，其可編碼該頁面檢索表與該全域檢索表兩者至少其 29.如申請專利範圍第28項所述之系統，更包含一第四編碼器，其可編碼該解叢集形狀之存放區。

3 0.如申請專利範圍第25項所述之二元編碼系統，其中該相連元件資訊至少包含該相連元件的水平大小、垂直大小、水平位置、與垂直位置之至少一者。 3 1 .如申請專利範圍第2 5項所述之二元編碼系統，更包含一活動偵測系統，其可提供以一種二元圖像輸入為基礎之一 50 種二元圖像輸出，該二元圖像輸出具有至少一種減低之遞色 (dithering)/半色調（half toning)、以及減低之雜訊。 3 2.如申請專利範圍第2 6項所述之二元編碼系統，其中該第一編碼器至少部分利用位元平面編碼。 3 3.如申請專利範圍第27項所述之二元編碼系統，其中該第二編碼器至少部分利用LZX編碼。 3 4.如申請專利範圍第28項所述之二元編碼系統，其中該第三編碼器至少部分利用無損失二元編碼。 3 5.如申請專利範圍第29項所述之二元編碼系統，其中該第四編碼器至少部分利用一無損失二元編碼。 3 6 . —種二元解碼系統，其至少包含：一第一解碼器，其可解碼一位元串流之至少部分，該第一解碼器可解碼頁面位置；一第二解碼器，其可解碼一位元串流之至少部分，該第二解碼器可解碼檢索表位置；一第三解碼器，其可解碼一位元串流之至少部分，該第三解碼器可解碼一形狀之全域檢索表與一形狀之頁面檢索表；一第四解碼器，其可解碼一位元串流之至少部分，該第 51

s * ' cN 四解碼器可解碼解叢集形狀之存放區；一叢集產生器，其可產生叢集，且至少部分根據，該頁面位置、檢索表位置、以及全域檢索表與頁面檢索表兩者至少其一；以及一合併器，其可提供一種二元輸出，其至少部分根據所產生之叢集與該解叢集形狀之存放區。 ^ 3 7.如申請專利範圍第3 6項所述之二元解碼系統，其中該第一解碼器至少部分利用位元平面解碼。 Φ 3 8.如申請專利範圍第3 6項所述之二元解碼系統，其中該第二解碼器至少部分利用LZX解碼。 39.如申請專利範圍第3 6項所述之二元解碼系統，其中該第三解碼器至少部分利用無損失二元解碼。

40 ·如申請專利範圍第3 6項所述之二元解碼系統，其中該第四解碼器至少部分利用一無損失二元解碼。 4 1. 一種可進行二元編碼之方法，其至少包含以下之步驟：執行叢集分析，其使用相關於一文件之相連元件資訊、萃取叢集、及將之儲存於至少一種下列位置，一形狀之全域檢索表、一形狀之頁面檢索表、與解叢集形狀之存放區；編碼一解叢集形狀，其係利用無損失和有損失二元編 52

碼；分析 42. 下列識別一指向一全域檢索表之指標，其至少部分根據叢集及相連元件資訊；以及編碼該指標，其係利用適於文字字串之一壓縮演算法。如申請專利範圍第41項所述之方法，更包含至少一種動作：識別一叢集之一頁面位置；編碼該頁面位置，編碼一頁面檢索表；以及編碼該全域檢索表。

43. 下列如申請專利範圍第4 1項所述之方法，更包含至少一種動作：編碼一殘差圖像；識別叢集；以及執行活動偵測。

44. 少包頁面如申請專利範圍第42項所述之方法，執行叢集分析至含至少一種下列動作：決定一叢集是否位在該全域檢索表内；若該叢集不位在該全域檢索表，決定該叢集是否位在該檢索表内；若該叢集為在該頁面檢索表内，將該叢集儲存至該全域 53

檢索表内；若該叢集位在該頁面檢索表内，自該全域檢索表移除該叢集；若該叢集不位在該頁面檢索表内，將該叢集儲存至該頁面檢索表内；以及自一點陣圖萃取該叢集。 45. 一種可進行二元解碼之方法，至少包含以下之步驟：

解碼一位元串流以建立一頁面位置；解碼該位元串流以建立一檢索表位置；解碼該位元串流以建立一全域檢索表；以及產生一叢集，其至少部分根據該頁面位置、該檢索表位置與該全域檢索表，以便提供一種二元輸出。 46.如申請專利範圍第45項所述之方法，更包含至少一種下列動作：

解碼一頁面檢索表；解碼一解叢集形狀；結合該叢集與該解叢集形狀，以便提供該二元輸出。 4 7. —種產生有助於二元編碼之一資料封包的方法，至少包含以下之步驟·· 提供一第一資料攔位，其至少包含編碼之頁面位置；利用一第二資料欄位，其至少包含編碼之檢索表位置； 54

使用一第三資料欄位，其至少包含一編碼之全域檢索表與一編碼之頁面檢索表兩者至少其一；以及提供一第四資料欄位，其至少包含編碼之解叢集形狀之存放區。 4 8. —種儲存一系統之電腦可執行的元件用以二元編碼之電腦可讀取的媒體，其至少包含：一叢集形狀估計器，其可分析與一文件相關之相連元件資訊、萃取叢集、並將之儲存於至少一種下列位置，一形狀之全域檢索表、一形狀之頁面檢索表、與解叢集形狀之存放區，一來自叢集元件之點陣圖估計，其可決定儲存於該全域檢索表下叢集之檢索表位置；以及一叢集位置估計器，其可決定該文件上，該全域檢索表與該頁面檢索表至少一種叢集之頁面位置。 49.如申請專利範圍第48項所述之該電腦可讀取之媒體，更包含一第一編碼器，其可編碼接收自該叢集位置估計器之該頁面位置。 5 0.如申請專利範圍第49項所述之該電腦可讀取之媒體，更包含一第二編碼器，其可編碼自以叢集元件進行點陣圖估計所接收之檢索表位置。 55 ................*'111·-.·-«^^.. 一細f87 .'·7 5 1 .如申請專利範圍第5 0項所述之該電腦可讀取之媒體，更包含一第三編碼器，其可編碼該頁面檢索表與該全域檢索表兩者至少其一。 5 2.如申請專利範圍第5 1項所述之該電腦可讀取之媒體，更包含一第四編碼器，其可編碼該解叢集形狀之存放區。

5 3 . —種儲存一系統之電腦可執行的元件用以二元解碼之電腦可讀取的媒體，其至少包含：一第一解碼器，其可解碼一位元串流之至少部分，該第一解碼器可解碼頁面位置；一第二解碼器，其可解碼一位元串流之至少部分，該第二解碼器可解碼檢索表位置；一第三解碼器，其可解碼一位元串流之至少部分，該第三解碼器可解碼一形狀之全域檢索表與一形狀之頁面檢索表；

一第四解碼器，其可解碼一位元串流之至少部分，該第四解碼器可解碼解叢集形狀之存放區；一叢集產生器，其可產生叢集，且至少部分根據，該頁面位置、檢索表位置、以及全域檢索表與頁面檢索表兩者至少其一；以及一合併器，其可提供一種二元輸出，其至少部分根據所產生之叢集與該解叢集形狀之存放區。 56 -> V

5 4. —種二元編碼系統，至少包含：可分析叢集形狀之構件，其至少部分根據與一文件相關之相連元件資訊；可萃取叢集之構件，以及將之儲存於至少一種下列位置，一形狀之全域檢索表中、一形狀之頁面檢索表、與解叢集形狀之存放區，可決定儲存於該全域檢索表下叢集之檢索表位置之構件；以及

可決定該文件上，該全域檢索表與該頁面檢索表至少一種叢集之頁面位置之構件。 5 5.如申請專利範圍第5 4項所述之系統，更包含編碼該頁面位置之構件。 5 6.如申請專利範圍第5 5項所述之‘統，更包含編碼該檢索表位置之構件。

5 7.如申請專利範圍第5 6項所述之系統，更包含編碼該頁面檢索表與該全域檢索表兩者至少一種之構件。 5 8.如申請專利範圍第5 7項所述之系統，更包含編碼該解叢集形狀之存放區之構件。 5 9 . —種二元解碼系統，至少包含： 57

解碼頁面位置之構件；解碼檢索表位置之構件；解碼形狀之全域檢索表與一形狀之頁面檢索表兩者至少其一之構件；解碼一解叢集形狀之存放區之構件；產生一叢集，且至少部分根據該頁面位置、檢索表位置、與該全域檢索表與頁面檢索表兩者至少其一之構件；以及結合該產生之叢集與該解叢集形狀之存放區，以便提供一種二元輸出之構件。 58