TWI250787B - Compression of bi-level images with explicit representation of ink clusters - Google Patents

Compression of bi-level images with explicit representation of ink clusters Download PDF

Info

Publication number
TWI250787B
TWI250787B TW092106234A TW92106234A TWI250787B TW I250787 B TWI250787 B TW I250787B TW 092106234 A TW092106234 A TW 092106234A TW 92106234 A TW92106234 A TW 92106234A TW I250787 B TWI250787 B TW I250787B
Authority
TW
Taiwan
Prior art keywords
cluster
page
binary
search table
shape
Prior art date
Application number
TW092106234A
Other languages
English (en)
Other versions
TW200306113A (en
Inventor
Erin L Renshaw
Patrice Y Simard
Henrique S Malvar
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW200306113A publication Critical patent/TW200306113A/zh
Application granted granted Critical
Publication of TWI250787B publication Critical patent/TWI250787B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • H04N1/411Bandwidth or redundancy reduction for the transmission or storage or reproduction of two-tone pictures, e.g. black and white pictures
    • H04N1/4115Bandwidth or redundancy reduction for the transmission or storage or reproduction of two-tone pictures, e.g. black and white pictures involving the recognition of specific patterns, e.g. by symbol matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/97Matching pursuit coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Image Processing (AREA)

Description

玖、發明說明: 【發明所屬之技術領域】 本發明大體係關於數位圖#命 月處理’更明確地說,是關於 一種有助於以磁墨蔟顯示表示進- / 订一兀圖像壓縮之一糸統 與方法。 料壓縮技術有助於有效傳輪與儲 資料壓縮可減低為了表示資訊 【先前技術】 由於電腦網路、網際網路 發展,可經由電腦獲得的資訊 的增加,造成了對於快速傳輸 資 於多種資訊類型。 字、音訊、與視訊 、與數位儲存方式大量與迅速 量也大幅增加。正由於資訊量 資訊與有效儲存資訊之需求。 存資訊。 所必須之空間,且可運 用 對於數位資訊壓縮之需求,包括圖像、文 ’正在日益增加中。傳統上,可將資料壓 縮與標準電腦系統-起使用;然而,g他利用f料壓縮之技 術,例如但不限於數位與衛星電視以及手提/數位電話。 由於控制、傳輸、與處理大量資訊之需求增加,壓縮此 類資料之需求也會增加。雖然儲存裝置容量已顯著增加,對 於資訊的需求已超過容量的進展。例如,一未壓縮之數位圖 片可能需要5MB的空間,然而該相同之圖片經壓縮後不會 損失,且僅需2.5 MB之空間。因此,資料壓縮有助於傳、关 大量資訊。即使傳輸速率增加,例如寬頻、DSL、 ^ 、見缘數才虐 機(cable modem)網際網路、及其相似者,未壓縮之次▲ 仍然很容易達到傳輸上限。例如,利用一 DSL線 二Λ 未墨綠之 m Α θ像可能需要十分鐘。然而,經過壓縮後’該 圖像之傳輪可能σ兩 」此/、而約一分鐘,因此使資料總處理量增 十倍。 α 般而言’有兩種壓縮法,無損失與損失。無損失 t縮後’可復原得到相同之原始資料,而損失壓縮 縮後,可復原得到與原始資料不同之資料。兩種壓縮模 各有利弊,損失壓縮提供了比無損失壓縮更佳之壓縮比 為剛者可容忍資料完整性某種程度之妥協。無損失壓縮 於’例如,壓縮關鍵文字時,因為無法重組完全相同之 可能嚴重地影響該文字之品質與可讀性。損失壓縮可用 片或非關鍵文字時,此時人類感官可接收某些扭曲或雜 或可能無法察覺。 二元圖像在數位文件處理中相當常見,因為它們對 有文字與圖形的黑白文件,提供了以壓縮型態表示之 性。在此類圖像中,其可將圖片元素'(像素)視為來自 二進位來源(例如,白=「〇」且黑=「1」)。既然其中通 有許多白色空間以及重複之磁墨圖樣,要有效編碼此類 的一種基本方法,就是以點陣順序進行掃瞄,例如,由 下以及由左至右,並以最適化演算法編碼(AC )來編 一像素,其中帶有先前已編碼像素之一小型範本内的像 所形成之上下文(context ),可控制其狀態(或機率表、 想法是大多數近代二元圖像壓縮系統之基礎。 傳真圖像通常利用舊式CCITT標準T.4與τ·6傳赛 常分別將之稱為群組3 ( G3 )與群組4 ( G4 )。G3通常 相同 加了 壓縮 在壓 式間 ,因 可用 資料 於圖 訊, 於含 可能 一種 常含 圖像 上至 碼每 素值 )。該 b,通 以― 6
改良赫夫曼(modified Huffman,ΜΗ )碼來編碼圖像(即, 利用一連串黑或白像素進行赫夫曼編碼),且G4利用『改 良之改良讀取』(modified modified read,MMR)編碼。MH 與MMR不如上下文最適化AC有效率,但其較易於實作。 隨著時間,G3與G4逐步發展至包括利用JBIG (聯合二元 圖像群組,亦稱為建議標準T. 82 )編碼。JBIG運用上下文 最適化AC,利用最適化樣本以及有效之qm二元演算法編 碼器。藉由包括文字與半色調(half tone)資料之圖樣比對, 以及4貝失編碼之軟式圖樣比對(soft pattern matching, SPM ),JBIG-2標準可擴充JBIG。JB2編碼器亦以SPM為基 礎,但利用z編碼器進行二元編碼。對於G4之壓縮效能, JBIG、JBIG-2、與JB2提供了顯著的改進。 【發明内容】 為了提供對本發明某些態樣的基'本瞭解,下文提出本發 明簡化之摘要。本摘要並非本發明之廣泛綜述。其目的並非 在於私。忍本發明之重要/關鍵元素或描述本發明之範圍。其 主要目的係在於以簡化之形式提出本發明之某些概念,以便 做為之後提出之更詳細說明之入門。 本發明提出一種二元編碼系統,其對於可能含有大量文 字之掃猫文件’進行一預先假設’假設一點陣圖符合―掃猫 文件,來擴充現有二元編碼技術。一掃瞄文件可能包括與黑 色像素叢集(們)相對應的字元(們)之點陣圖圖樣。為; 進行討論,需假設該文件之背景大體上為白色且其文字大體 7 1250787 1 1;丨....:.,;
f J4 U 上為黑色。然而,運用任何與本發明有關之適當二元色彩表 示,皆可認為其屬於所附申請專利範圍之範圍内。 該二元編碼系統可掃瞄一點陣圖(例如,由左至右以及 由上至下)。第一次發現一磁墨叢集時,將之加入一叢集檢 索表。之後,並非編碼所述叢集之該像素,而是編碼該檢索 表的一指標P,以及該叢集在頁面上所在出現之,η位置 座標。下一次在該點陣圖中發現該相同叢集或一非常接近之 叢集時,同樣並非編碼該像素,而僅編碼該{Ρ , χ,Μ座標。 若該叢集包含足夠之像素,以一無損失編碼器,編碼{ρ,X, Υ}座標比編碼該像素更有效率,戶斤述編碼器如二元編碼解 碼器(B L C ) ’如同時申諸中辦踊也『 一 丁〒”月〒铩4為『一兀圖像之最適化編 碼與解碼』之美國專利申請案(申請標號為Msi5s3i4.i) 中所述。對於多頁文件之壓縮增益較高,因為在所有頁面之 間,可共享該叢集檢索表,使得編碼該檢索表本身之成本可 被忽略。 、 該二元編碼系統可在無損失模式或損失模式下作業。 無損失模式下,若點陣圖中之一叢集位在該檢索表下一叢 之第一臨界值之内,德、、,# f n xr ^傳达該{Ρ,x,Y}資料以及一『叢集 差』--實質叢集與檢索表中之叢集間的少許差I (們): 利用一無損失二S編碼器編碼該叢集殘差。纟損失模式下 若該點陣®中之—叢集位在該檢索表下-叢集之第二臨 值之内’編碼該三聯體{Ρ,Χ,Υ};然而,並未編碼該叢 殘差。 本發明之二元編 碼系統所產生之檔案可能明顯小於,例
爾響.. 如利用傳統掃猫裝置(例如,CCITT g4)產生之檔案。因 此’該二元編碼系…统對於文件傳輸和/或料應用程式(們) 有重大的影響,例如,數位圖書館以及數位文件資料庫。 依照本發明之一態樣,該二元編碼系統可能包括一叢集 形狀估計器、-來自叢集S件之點陣圖估計、—叢集位置估 計器、-第一編碼器、—第二編碼器、一第三編碼器、以及 -第四編碼II。該叢集形狀估計器可分析與__點陣圖相關之 相連元件資訊(例如,色彩、水平大小、垂直大小、水平位 置和/或垂直位置)。該叢集形狀估計器可萃取叢集並將之储 存於至少一種下列位置,一形狀之全域檢索表、一形狀之頁 面檢索表、與解叢集形狀之存放區中。 在損失模式下’該叢集形狀估計器能決定一叢集是否位 於該全域檢索表下一叢集的第二臨界值之内。卜實施例 中’若該叢集位在該第二臨界值之内,會記錄該叢集在該頁 面上之出現。在另一實施例中,若叢集位在該第二臨界值之 2不會記錄該叢集在該頁面上之出現,且修改健存於全域 欢’、表内之該叢集’該修改至少部分係以該叢集為基礎。例 2 ’該叢集形狀估計器能執行儲存於該全域檢索表下該叢 以及儲存於該全域檢索表下—修改叢集所產生之叢华的 二:均。與原始點陣圖作比較,這會造成經解碼之點陣 :文子較為清晰。在另一種實施例中,該第一臨界值“列 :’與無損失模式一同使用時)與該第二臨界值(例如,虫 才貝失杈式一同使用時)有幾乎相同之值。 該形狀之全域檢索表包括全域叢集。全域叢集是在該點 9 V·, L-λί 陣圖(例如,頁面)上出現超過一次之叢集,和/或前一次 被當作該相同文件的一部份進行處理之叢集。 該形狀之頁面檢索表至少包含頁面層級之叢集(們)… 在該目前點陣圖(例如,頁面)上出現一次之叢集(們)。 舉例而言,一旦該叢集形狀估計器已大體上完成該目前點陣 圖(例如,頁面)之分析時,可傳送(例如,將之包括於一 已編碼之檔案内)該形狀之頁面檢索表的一部份,至少包含 在該目前點陣圖(例如,頁面)上僅發現一次之叢集(們)。 指向該頁面檢索表之索引(例如,指標)不須進行編碼,因 為該頁面檢索表係由該頁面與頁面層級之叢集中的叢集出 現外觀來排序,理所當然地,僅在該頁面上出現一次。
該形狀之頁面檢索表能儲存在前一點陣圖(例如,頁面) 中僅出現一次之叢集,使得若在之後的點陣圖上發現一實質 上相似叢集的第二次出現時,可將該叢集儲存於該全域檢索 表下,且自該頁面檢索表中移除之。鉍解叢集形狀之存放區 可儲存太小(例如,小於一第三臨界值)或太大(例如,大 於一第四臨界值)以致於不能成為文字字元且因而無法達成 良好叢集之相連元件(們)。 以叢集元件進行點陣圖估計可決定儲存於該全域檢索 表下叢集之檢索表位置。來自叢集元件之點陣圖估計能利用 來自該叢集形狀估計器之資訊(例如,指標們)。之後以一 第二編碼器編碼該指標們。因為已利用該頁面上之位置將該 叢集排序,該索引(例如,指標們)易於形成一似文字字串 之順序,且在一實施例中,該第二編碼器能利用一適用於文 10
字字串之壓縮演算法(例如,LZX編碼)。 在無損失模式中,來自叢集元件之點陣圖估計能決定叢 集殘差(們)。來自叢集元件之點陣圖估計能提供資訊給第 四編碼器,以便和該解叢集形狀之存放區一起進行編碼(例 如,利用無損失二元編碼)。
叢集位置估計器可決定該全域檢索表之叢集的頁面位 置,和/或利用相連元件資訊之頁面檢索表。因此,對於位 在該全域檢索表和/或該頁面檢索表下之一叢集,欲決定其 在一頁面上之位置,係利用相連元件資訊,以及來自該全域 檢索表或該頁面檢索表之一檢索表項目之性質。之後以第一 編碼器編碼該頁面位置。 在一實施例中,因為叢集間有規律之間隔,尤其是在單 字之内,可將同一行上叢集間之水平(X方向)間隙進行編 碼。此外,對於同一行,可運算並編碼一平均水平間隙,且 其後之間隙資訊係以平均水平間隙4實質水平間隙之間的 差異為基礎。
在另一實施例中,運算一平均垂直(y方向)值。將同 一行之平均垂直值編碼,且其後對於一叢集,編碼該叢集之 垂直值與平均垂直值之間的差異。由於羅馬字母中,沿著下 方邊緣排列之字母比沿著上方排列者多,可利用該叢集之邊 界方塊(bounding box )的下方邊緣。因此,該一特定叢集 與平均之間的差異很小。由於該第一編碼器係利用一行接一 行之方式進行編碼,可編碼每一行之第一水平值(X方向) 與平均y值。 11
面仏索表和/或全域 I二元點陣圖編碼。 ,且可利用無損失二 第一編碼器可編碼自叢集位置 置。例如,第一編碼器可利用# _ 計器所收到 〜用位7L平而祕 編碼自以叢集元件進行點陣 、、、碼。第二 如,LZX編碼)。 圖料所收収檢索, 弟二編碼器可編碼位在頁 之點陣圖圖樣,且可利用無損 器可編碼解叢集形狀之存玫區 編碼。 近來越來越多人重視『無紙 ,丄, 至』,一般布 文件由紙張轉換成電子形式。利 ⑴用傳統技術轉換: 使用者能掃瞄、儲存和/或運用電子文件,卻產 例如,利用多種掃猫裝置,掃晦约2〇頁便可輕易 之資料。由於所產生之大型檔案造成之問題,使沿 法輕易透過如電子郵件傳送掃瞄之文件。然而,矛 之系統和/或方法的掃瞄裝置可減低*存需求,仓 猫200頁其檔案小到只有1MB,使得例如5〇頁之 產生僅有250KB之『.blc』檔案’其可經由電子郵 輸0 再者,對於一清晰之文件,相較於一般G4格 本發明之系統和/或方法,可以得到如十倍之增益 訊多之文件,相較於G4之壓縮增益可以到達五倍 常短的文件(單一頁面)中為三倍。 本發明之另一態樣使該二元編碼系統更包括 統和/或一活動 <貞測糸統。 之頁面位 編碼器可 :位置(例 檢索表下 第四編碼 元點陣圖 言係指將 文件,讓 型檔案。 產生1ΜΒ 使用者無 用本發明 如,每掃 >律文件, 件快速傳 式,利用 。對於雜 ’或在非 一叢集系 12
該叢集系統可識別與多種叢集(例如,相連元件)相關 之資訊。例如,該資訊可能包括該多種叢集(例如,相連元 件)之寬度(例如,X大小)、高度(例如,y大小)、色彩、 水平位置(例如,絕對和/或相對)、和/或垂直位置(例如, 絕對和/或相對)。 該活動偵測系統可接收一種二元圖像輸入。例如,二元 圖像輸入可以是一種接收自一遮罩分隔元件(未顯示)或一 掃瞄圖像(例如,來自一文件掃瞄裝置和/或一傳真機)之 二元遮罩。該活動偵測系統可分析該二元圖像之遞色 (d i t h e r i n g ) /半色調(h a 1 f t ο n i n g)、和/或雜訊。該活動债測系 統提供一種以該二元圖像輸入為基礎之二元圖像輸出;然而 卻可減低遞色/半色調、和/或雜訊。 以文件圖像(們)為基礎且帶有遞色/半色調之二元圖 像(們),通常有大量之相連元件(們)位在和/或貫穿該區 域。此外,帶有雜訊之二元圖像(們b通常有較少之相連元 件(們)位在和/或貫穿該區域。因此,藉由決定位在和/或 貫穿該區域之相連元件(們)數量,該活動偵測系統能夠偵 測遞色/半色調、和/或雜訊可能出現之區域。 除了如上所述之偵測遞色之外,可改變該活動偵測系統 使其可偵測該二元圖像輸入中之雜訊。『雜訊』係指無關之 資訊(例如,標記(們)),且將之刪除不會實質上危及二元 圖像之完整性。移除該二元圖像輸入内之雜訊,由於一較平 滑的圖像可能導致資料壓縮之改進。一二元圖像中帶有雜訊 之部分通常會顯示出相對較小之相連性。例如,一白色背景 13
上之一區域至少僅包含一相連雜散標記時,僅有一相連元 件。 然而本發明之另一態樣提供了一種可選取之二元編碼 系統’其具有一二元編碼系統、一無損失二元編碼器、與一 選取元件。
該無損失二元編碼器可利用無損失二元編碼技術 (們)。該選取元件提供在利用無損失二元編碼器、以及二 元編碼系統(例如,利用叢集(無損失或損失))兩種無損 失二元編碼間進行一選取。其選取之基礎,例如,係根據一 使用者偏好和/或根據二元編碼系統中之一叢集系統。 本發明之另一態樣提出一種二元解碼系統,其具有一第 一解碼器、一第二解碼器、一第三解碼器、一第四解碼器、 一叢集產生器、與一合併器。
該第一解碼器可解碼一位元串流輸入(例如,由一相對 應之編碼器所產生)之至少部分,並k供叢集(們)之頁面 位置(們)。該第二解碼器可解碼一位元串流輸入(例如, 由一相對應之編碼器所產生)之至少部分,並提供已解碼之 檢索表位置。該第三解碼器可解碼一位元串流輸入(例如, 由一相對應之編碼器所產生)之至少部分,並提供一已解碼 的形狀之全域檢索表和/或一已解碼的形狀之頁面檢索表。 該第四解碼器可解碼一位元串流輸入(例如,由一相對應之 編碼器所產生)之至少部分,並提供一解叢集形狀之存放區。 該叢集產生器產生叢集係至少部分根據該頁面位置、檢 索表位置、以及全域檢索表與頁面檢索表兩者至少其一。該 14 50787 _ 9i 7.-, 「 丨—: 合併器提供一種二元輸出’其至少部分根據由 和/或該解叢集形狀之存放區(們)所產生之^ 本發明之另一態樣使得該二元編碼系統竞 多種之文件圖像應用中’包括但不限於,平柄 人電腦、分段分層圖像系統、影印機、文件掃银 字元辨識系統、個人數位助理、傳真機、數位才I 訊相機和/或視訊。 本發明之其他態樣提供了艿執行二元編碼 與二元解碼之方法。更提供了一粮電腦可讀取 有電腦可使用之指令,可供一系統進行二元編 電腦可讀取之媒體,其帶有電腦玎使用之指令 進行二元解碼。亦提供了 一經改寫之資料封自 多個電腦元件之間傳輸,其有助於二元編碼3 一資料欄位’其至少包含編碼之頁面位置、 位,其至少包含編碼之檢索表位置、二第三I 少包含一編碼之全域檢索表與〆編碼之頁面 少其一;以及一第四資料攔位,其至少包含編 狀之存放區。 為了實現上述與相關結果,此處敘述了某 示態樣’且其與下列敘述以及附圖有關。這些 性’然而’僅為本發明原理眾多應用方式的I 發明已預設將包括所有此類態樣與其等價物c 之詳細說明與圖示一起考量時,本發明之其他 將更顯清晰。 該叢集產生器 賢集。 忘運用於非常 :型(tablet)個 菩裝置、光學 3機、數位視 、叢集分析、 之媒體,其帶 碼,以及一種 ‘,可供一系統 L,可在二或更 L少包含:一第 一第二資料欄 f料欄位,其至 檢索表兩者至 f碼之解叢集形 些本發明之例 1態樣具有象徵 一中數種,且本 1將下列本發明 >優點與新穎性 15
【實施方式】 此處敘述本發明並參照圖示,其中相似之參照數值係用 於提及所有相似之元素。在下列敘述中,為了達到解釋之目 的,提出眾多具體細節,以便提供對本發明徹底之瞭解。然 而可以很明顯地發現,即使沒有這些具體細節,仍然可以實 施本發明。在其他例子中,以區塊圖之形式說明為人熟知的 結構與裝置,以便幫助敘述本發明。
在本申請書中,『電腦元件』一詞係用於提及一種與電 腦有關之實體,可以是硬體、硬體與軟體之組合、軟體、或 執行中之軟體。例如,一電腦元件可以是,但不限於,一種 在處理器上執行之處理程序、一處理器、一物件、一可執行 檔案、一執行之執行緒、一程式、和/或一電腦。為了說明 之目的,在一伺服器上執行之一應用程式以及該伺服器皆可 以是一種電腦元件。一或更多種電腦元件可以位在一處理程 序和/或執行之執行緒中,且一元件可在電腦上本地化和/或 分散在二或更多個電腦之間。
參照第1圖,根據本發明之一態樣,說明一種二元編碼 系統1 00。該二元編碼系統1 00包括一叢集形狀估計器11 0、 一來自叢集元件之點陣圖估計 120、一叢集位置估計器 1 3 0、一第一編碼器1 40、一第二編碼器1 5 0、一第三編碼器 1 6 0、以及一第四編碼器1 7 0。 對於可能含有大量文字之一掃瞄文件,藉由一預先假 設,假設一點陣圖符合一掃瞄文件,來擴充現有二元編碼技 16 5钔_ 猫文 系、、先1 0 0可擴充目前的二元編碼技術。一掃 以包括與黑色像素叢集⑷相對應…(們) 的點陣圖圖樣。盔7、 ^ 為白色且复—〜了進行討論,需假設該文件之背景大體上 關杏:文:大體上為黑色。然而,運用任何與本發明有 之範 /表不,白可認為其屬於所附申請專利範圍 且由 焉系統10 〇可掃瞄一點陣圖(例如,由左至右 集後第—次發現-磁墨之叢集時,將之加入-叢 該檢索表的-指榡…述叢集’而是― 丫}位置座伊。下一及该叢集在頁面上所在位置之(X’ 常接近之叢隼時n欠在該點陣圖中發現該相同叢集或-非 /、寺,同樣並非編碼該像素,而僅編 1}座標。若該叢集包含足夠之像素,以一無損失咖編= 名{P X Y}座標比編碼該像素更有效率。其壓縮增益比多 頁文件高’因為可在所有頁面之間,共享該叢集檢索表,使 得編碼該檢索表本身之成本可被忽略。 100可在無損失模式或損失模式下作 該二元編竭系統 業。在無損失模式下,若點陣圖中之一叢集位在該檢索表下 一叢集之第一臨界值之内,傳送該{Ρ,χ,γ}資料以及一『叢 集殘差』…實質叢集與檢索表中之叢集間的少許差異(們)。 可利用一無損失二元編碼器編碼該叢集殘差。在損失模式 下,若該點陣圖中之一叢集位在該檢索表下一 界值之内,編碼該三聯體{Ρ , χ , γ};然而, 叢集之第二臨 並未編碼該叢 集殘差。 17
本發明之二元編碼系統丨〇〇所產生之檔案可能明顯小 於,例如利用傳統掃瞄裝置(例如,CCITT G4 )產生之稽 案。因此,該二元編碼系統丨〇〇對於文件傳輸和/或儲存應 用私式(們)有重大的影響’例如,數位圖書館以及數位文 件資料庫。 該叢集形狀估計器11 0可分析與一點陣圖相關之相連 元件資訊。例如,該相連元件資訊可能包括該相連元件之色 彩、水平大小、垂直大小、水平位置和/或垂直位置。該叢 集形狀估計器110可萃取叢集並將之儲存於至少一種下列 位置’ 一形狀之全域檢索表172、一形狀之頁面檢索表174、 與解叢集形狀之存放區176中。 簡短地參照第2圖,說明一圖示200描繪該連龄性 屬性。該4-連結性屬性僅會以四種主要羅盤方向來識別相 連像素。第2圖顯示一像素,在其四種主要羅盤方向被四個 像素環繞,以便說明該4-連結性屬“。接著是篦 布 J _ ,說 明一圖示3 0 0描繪該該8 -連結性屬性。第3圖顯示一像素 在其八種主要方向被八個像素環繞,以便說明該8 _連妒性 屬性。相連元件可能包括文字以及非文字標記。必須瞭解, 本發明之系統與方法可利用帶有任何適當程度之相連性的 相連元件,且不限於4-連結性或8-連結性之相連元件。 簡要地參照第4圖,根據本發明之一態樣,說明一示範 性相連元件邊界方塊400。該邊界方塊400 —般至少包含一 矩型,其内含一尺寸為x大小(寬度)與y大小(高度)之 相連元件。 18 87 .7 再次參第1圖’在損失模式下’該叢集形狀估計器 U0可決定一叢集是否位於該全域檢索表172下一叢集之第 二臨界值之内。在一示範性實作中,形狀近接式(proximity) 之決定係經由直線排列候選形狀與檢索表形狀,且之後運算 該候選形狀中像素之比例,其數值(黑色或白色)與該檢索 表形狀中之像素不同。在一實施例中,若該叢集位在該第二 b界值之内’會兄錄該叢集在該頁面上之出現。在另一實施 例中,若該叢集位在該第二臨界值之内,不會記錄該叢集在 該頁面上之出現,且修改儲存於全域檢索表172内之該叢 集,該修改至少部分係以該叢集為基礎。例如,該叢集形狀 估計器110能執行儲存於該全域檢索表172下之叢集,以及 儲存於該全域檢索表172下一修改叢集所產生之叢集的一 加權平均。與原始點陣圖作比較,這會造成經解碼之點陣圖 内文字較為清晰。 該开y狀之全域檢索表172包括全域叢集。全域叢集是J =點陣圖(例如’頁面)上出現超過一次之叢集,和% 一次被當作該相同文件的一部份進行處理之叢集。簡短地^ 照第5圖’根據本發明之一態樣,說明一種示範性全域^ 表資料結構500。該全域檢索表資料結構5〇〇具有一第一 4 5 1 0,可將一索引儲存至該資料結構5〇〇 ; 一第二攔η 520一,J儲存-寬度(例如χ大小);__第三攔位”。,引 ::度(例如y大小);以及一第四欄位54〇 ’可儲存1 =集之-點陣圖。例如,該…可以是該相連元件. 見度,且該y大小可以是該相連元件之最大高度。該 19 50Ψ
料結構5 00可至少包含多種全域叢集項目5 5 0。 該資料結構5 00僅為示範性,需瞭解已考慮過多種其 結構,只要其可用於組織和/或儲存多種資料類型,且前 資料有助於促進和本發明有關之二元編碼。任何適合與本 明共同使用之此類資料結構,皆屬於所附申請專利範圍之 圍内。此類資料結構可以儲存於電腦可讀取之媒體,包括 不限於,記憶體、磁碟、與音頻載波。 再次參照第1圖,該形狀之頁面檢索表1 74至少包含 面層級之叢集(們在該目前點陣圖(例如,頁面)上 現一次之叢集(們)。例如,一旦該叢集形狀估計器已大 上完成該目前點陣圖(例如,頁面)之分析時,可傳送( 如,將之包括於一已編碼之檔案内)該形狀之頁面檢索 1 74的一部份,至少包含在該目前點陣圖(例如,頁面) 僅發現一次之叢集(們)。進入該頁面檢索表1 74之索引( 如,指標)不須進行編碼,因為該頁彘檢索表1 74係由該 面與頁面層級叢集上之叢集外觀來排序,理所當然地,僅 該頁面上出現一次。 在一實施例中,每一頁面有自己之頁面檢索表174, 在頁面經處理後將之編碼。因此,前一頁面檢索表1 74中 項目永遠不會被移除。一旦一頁面經過處理,可編碼其頁 檢索表1 74,且永遠不會修改之。 形狀之頁面檢索表1 74可以儲存在前一點陣圖(例如 頁面)上僅出現一次之叢集,使得若在之後的點陣圖上發 一實質上相似叢集的第二次出現時,可將該叢集儲存於該 他 述 發 範 但 頁 出 體 例 表 上 例 頁 在 且 之 面 f » 現 全 20 域檢 集形 或太大 元且因 因 儲存到 狀之頁 集形狀 檢索表 以 檢索表 自叢集 器110 碼該指 指標) 文件中 能利用 器150 在 定叢集 資訊給 176 (令 該 該全域 表172下,且自該頁面檢索表174中移除之。該解叢 之存放區1 76可儲存太小(例如,小於一二 (例如,大於-第四臨界值)以致於不能成―:文界字值字) 而無法達成良好叢集之相連元件(們)。 此,該叢集形狀估計器110可萃取叢集,並將該叢集 至少一種下列位置,該形狀之全域檢索表丨72、該形 面檢索表174、與該解叢集形狀之存放區176。該叢 估計II m可以提供資訊(例如,指向該形狀之全域 1 72之指標)至來自叢集元件之點陣圖估計1 2〇。 叢集元件進行點陣圖…2"決定儲存於該全域 :叢集之檢索表指標。除了叢集檢索表資訊之外,來 兀件之點陣圖估計120能利用來自該叢集形狀估計 之資訊(例如’指標)。之後以一第二編碼器15〇編 標。因為該叢集易於擷取文字之字元,該索弓“例如, 易於形成-似文字字_之順序 ',且其緊密地對應到該 之文字字串。因此在-實施例中,該第二編碼器15〇 一適用於文字字串之壓縮演算法。例如,該第二編碼 可利用LZX編碼。 無損失模式中’來自叢集元件之點陣圖估言十12〇能決 殘差(們)。來自叢集元件之點陣圖估計120能提供 該第四編碼器170,以便和該解叢集形狀之存放區 ”!如’利用無損失二元編碼)一起進行編碼。 卞位置估计态1 3 0可利用該相連元件資訊決定在 檢索表172和/或頁面檢索表174中的叢集頁面位 21 ------- —' %dl雄,'丨 置。因此’對於位在該全域檢索4 172和/或該頁面檢索表 1 74下之冑集’奴决疋其在—頁面上之位置,係利用來自 該全域檢索表172或該頁面檢索表174之一檢索表項目之相 連元件資訊與性質。之後以該第—編碼器“Ο編碼該頁面位 置。根據,頁面上之位置排序該叢集,使得該頁面位置傾向 於呈現單純遞i曰 所以,在一示範性實作中,該第一編碼器 140藉由運算位置的差異(如目前X值·前一 X值,… γ值)來編碼位置,且利用-適用於整數之滴 編碼器來編碼此類差異,該 址 , ’益τ症較適合於假設較小數 值,例如一位元平面編碼器,如 * ^ ^ ^ ^ ^ J時申凊中標題為『有限字 母貝枓之…、才貝失最適化編碼』之 為MS 12765 8.1 )中所述。 、^利申晴案(申請標號 在一實施例中,因為叢集 字之内,可將同-行上叢集間之:二之間隔’尤其是在單 褐。此外,對於同-行,可運算並病::向)間隙進行編 1德之間1¾、眘1在 ·、 平均水平間隙’且 八後之間Ρ“❿係以平均水平 差異為基礎。 /、實質水平間隙之間的 在另-實施例+,運算一平均 一杆之单的番古估沾 (y方向)值。將同 订之千均垂直值編碼,且其後對於一 垂直值斑平均垂亩伯P日 ^、’編碼該叢集之 J 間的差異。“羅馬字母中,…方 邊緣排列之字母比沿著上方排歹 >。者下方 方塊的下方邊緣。因此,該一特 。利用該叢集之邊界 小。由於該第_纟纟# 集與平均之間的差異很 式,=: 140之編碼係利用-行接-行之方 式,可編碼母一行之第一水平值 * 方向)與平岣y值。 22 第一編碼器140可編碼自叢隼 百二 敢果位置估汁器1 3 0所收到之 、 位置。例如,第一編碼1 4 Ο ~τ立ϊ 一他 馬碼裔140可利用位元平面編碼。第 、、石馬器1 5 0可編碼自以業隹开杜 > 1 最集凡件進仃點陣圖估計1 20所收 之檢索表位置(例如,LZX編碼)。 弟三編碼器1 6 0可給成a甚:μ 土 』、、為碼位在頁面檢索表和/或全域檢索 、下之點陣圖圖樣,且可逢丨益 — J利用無扣失一兀點陣圖編碼。第四 編碼器1 7〇可編碼解叢隼开彡壯 在 一 狀之孖放區,且可利用無損失二 元點陣圖編碼。 雖然第1圖為一區塊圖,說明該二元編碼系統1〇〇之元 件,可理解該叢集形狀估計器110、該叢集位置估計器120、 來自叢集元件之點陣圖估計130、該第一編碼器140、該第 二編碼器150、該第三編碼器16〇、和/或該第四編碼器17〇 可做為一或多種電腦元件來實作,如同該名詞在此處之定 義。因此,根據本發明,可理解可用於實作該二元編碼系統 no、該叢集形狀估計器110、該叢集k位置估計器130、來自 叢集元件之點陣圖估計i 20、該第一編碼器1 4〇、該第二編 碼器1 5 0、該第三編碼器1 6 〇、和/或該第四編碼器i 7 〇,且 可儲存於電腦可讀取媒體上之電腦可執行檔案元件,包括但 不限於,一 ASIC (特定應用積體電路)、CD (光碟)、DVD (數位視訊光碟)、ROM (唯讀記憶體)、軟式磁碟,硬式磁 碟、EEPROM (電子式可抹唯讀記憶體)、以及Ms記憶棒 (memory stick ) ° 接著參照第6圖,根據本發明之一態樣,說明一種二元 編碼系統600。該二元編碼系統60〇包括一叢集形狀估計器 23 1 1 Ο、一 3 器 130、 碼器160 括一叢集 該叢 相關之資 連元件) 色彩、水 (例如, 該活 元圖像輸 一掃瞄圖 之二元遮 /半色調、 元圖像輸 色調、和 以文 像(們), 域。此外 件(們) 貫穿該區 能夠偵測 除了 統6 2 0使 叢集元件之點陣圖估計12 〇、一叢集位置估計 一第一編碼器140、一第二編碼器150、一第三編 與一第四編碼器1 7 0。該;元編碼系統6 0 0更包 系統610、和/或一活動偵測系統62〇。 集系統6 1 〇可識別與多種叢集(例如,相連元件) 机°例如,該資訊可能包栝该多種叢集(例如,相 之寬度(例如,X大小)、高度(例如,y大小)、 平位置(例如,絕對和/或相對)、和/或垂直位置 絕對和/或相對)。 動偵測系統6 2 0可接收一二元圖像輸入。例如,二 入可以是一種接收自一遮翠分隔元件(未顯示)或 像(例如,來自一文件掃瞄裝置和/或一傳真機) 罩。該活動偵測系統620矸分析該二元圖像之遞色 和/或雜訊。該活動偵測系統62〇提供一種以該二 入為基礎之二元圖像輸出;然而卻可減低遞色/半 /或雜訊。 牛图像(們)為基礎且帶有遞色/半色調之二元圖 通常有大量之相連元件(們)位在和/或貫穿該區 ’帶有雜訊之二元圖像(們)通常有較少之相連元 位在和/或貫穿該區域。因此,藉由決定位在和/或 域之相連元件(們)數量,該活動偵測系統620 遞色/半色調、和/或雜訊可能出現之區域。 如上所述之偵測遞色之外,更能改變該活動偵測系 其可偵測該二元圖像輸入中之雜訊。『雜訊』係指 24 無關之:欠β 貝矾(例如,標記(們)),且將之fll , . ^ 及二 t ® # — Θ象之完整性。移除該二元圖像輸入内之雜訊 ~較平潛 的圖像可能導致資料壓縮之改進 ,由於 元圖像中帶 \ π蹩性。移 車父平港^ Μ 的圖像可能導致資料壓縮 _ Η π 有雜訊之外八、 刀通常會顯示出相對較小之相連性。例如, 巴月景上之—广 4 _ 一區域至少僅包含一相連雜散標記時,僅有一相 建元件。 白 需瞭解# t "叢集系統610和/或該活動偵測系統620可做 A 一或多ί§ 电月自元件來實作,如同該名詞於此處之定義。 著參知、第7圖,根據本發明之一態樣,說明一種可選 取之一- 兀、、扁瑪系統7 0 0。該可選取之二元編碼系統7 0 〇包括 元、、扁媽系統6 0 0、一種無損失二元編碼器7 1 0以及一 種選取元件720。 邊無損失二元編碼器71〇可利用無損失二元編碼技術 例士 5亥無損失二元編碼器7 1 0可利用一種不利用 演异法編碼之編碼處理程序(BLC );但其效能接近最先進 的編碼器,例如JBIG、JBIG小與JB2。一般而纟,該二元 、扁馬( BLC )可利用兩種以上下文為基礎之最適化模組: 1 )又到低解析度可能性估計控制的一種最適化預測器,其 可用來將該原始像素對應顯示至預測錯誤像素;以及2 ) 一 反向最適化游程長度受限(Run礼ength_Rice,rlr )編碼器, 其可編碼該預測錯誤像素。這與常用的方法相反,常用的方 法是上下文相關之可能性估計來控制像素預測以及最適化 燜編碼兩者。由於其具有簡單性,在許多應用程式中,㈣ 可能是比現有其他編碼器更佳之選擇。 25 該二元圖像壓縮編碼的筮 ^乐一步為一像素預測與預測錯 誤產生程序。像素預測通常 J根據周圍像素,進行一像素值 (例如,0或1二者之一) w測。更具體言之,可藉由運 算上下文相關之可能性估計 s 來元成像素預測。一上下文 實質上就是先前編碼之像辛的 # 京的郇近區域,其可形成一種稱為 範本之圖樣。任何標準範本皆 、 白Γ做為本發明之用途。可將該 上下文視為在點陣序位中,;^々 斤1甲才曰又之像素值數目的向量清單。 這些數值形成一種二元文字,兑 予 八可獨特地識別該上下文。該 二元文字稱為一上下文索引。 欲運算該上下文相關之可能性估計值,首先可建立並初 始化一像素可能性資料表。可藉由對每_個可能之上下文索 引,指派一初始可能性,以;查士、1、> b Γ以達成則述目標。較佳的情況是, 該初始可能性可以是〇.5 (即,盥 〃 °豕上下文索引相關之像素 為黑色或白色之可能性㈣然而’可調整該可能性值之 大小,以便預防該編碼器與解碼器之間任何因捨去進位所生 之問題。較佳的情況是’藉由選擇一整數表示—像素為白色 之可能性是100%’來進行該調整大小。例如,在本發明所 試驗之具體實施例中,利用數字『8』。因此,調整大小後可 表示該上述初始值的可能性之值為『4』。 對於在·點陣序&中之每一像素,與該先前編碼像素之圖 樣相關的上下文索引,可加以識別,且可自資料表讀取該調 整大小後之可能性。若該可能性為〇·5或以上(即在上述該 實施例中,一調整大小後之可能性值為4或以上),則可預 測該考慮中之像素為白色,並指派適當之二元值(例如,較 26 佳的情況為一『ο』像素值)。需注意當第一次遇到每一上下 文索引時,該預測將永遠為一白色像素,因為對於該資料表 中的每一個上下文索引,均初始指派一調整大小後之可能性 值。之後可調整該調整大小後之預測值,若該像素經預測後 視為白色時,可以藉由一指定之量(例如,加一)增加之; 或當該像素經預測為黑色時,可以藉由一指定之量(例如, 減一)減少之。對該調整大小後之可能性值進行調整作業 後,若其結果落在0以下,將之截斷至0值,且若其落在調 整後之可能性最大值以上,將之減去1。因此,該可能性會 隨著編碼中圖像,以及預測中像素位置而有所不同。這稱之 為反向最適化像素預測,因為該解碼器可執行與可能性估計 相同之調整,且不需將顯示上下文可能性資訊傳送至該解碼 器。 之後可運算該預測錯誤。本質上,運算該預測錯誤係將 該二元圖像中之每一像素,其預測之叙色或白色像素值與該 實質像素作比較。之後,只需要傳輸這些預測值中,錯誤之 資料。在大多數的例子中,該預測值為正確的,所以可落實 大幅節省資料之數量。如下文將會敘述,這可以運用在執行 相同預測處理程序之解碼器,且會導致相同結果,包括錯 誤。因此,解碼器僅須知道該預測之像素值中哪些屬於錯誤 的部分,以便將之由白色改成黑色或由黑色改成白色,如同 本例可以用於重建該圖像。可特別利用一種二元技術來運算 該預測錯誤,使得可利用互斥或邏輯來比較該圖像中,每一 像素的實質數值和其預測值。因此,若該實質像素值符合該 27
•部份。然 1』指派至 〉則之值(例如,兩數值皆為0或皆為i),之 才曰派至該像素位置,做為所謂預測錯誤圖像之 而’若該實質像素值與該預測值不同,則將一 為相關之像素在該預測錯誤圖像中之位置。 二元圖像編碼的下一個階段係關於利用一上下 關反向最適化、RLR編碼程序。已妞 文和 堂么 已鉍發現,該預測之傕、g “夺合該實質數值’該預測錯誤圖像大多數纟 : 成。則吏得該預測錯誤圖像更能運用於進一步壓 1 得需傳輸之資訊甚至更少。為了編 ''' 因此供 “ 了編碼該預測錯誤圖像,較# 的情况下需使用RLR編碼技術。一# ^ 知而言一 RLR編碼哭 可變至可變長度熵編碼器, σ 1 八丫刊用由早一『〇 # 之字碼來表m連續執行之。值,且對於r個部分= 之〇值(r<2k )後出現一 1值時, . ^ 卞利用由一 1值與其後 位…文字表示Γ所形成的字碼表示之。該變數 羞 在傳送-字碼之前,該預測錯誤圖像中可出現之〇值的」 執行長度。調整該變數可控制編碼作業之效率。該較佳: 術係利用-反向最適化方法來調整k。該方法牵涉到選擇上 k之初始i ’且之後將之向上或向下調整增量,該調整之其 礎在於是否會產生一『〇 M i 曰座生 〇』值或一『1+k位元二元文字』字 碼。使根據本發明《RLR_技術該前述之上下文相關。 具體而言,建立一編碼資料表可指派一 k變數至每一上下文 索引在-7L圖像之編碼過程中,需更新該編碼資料表以傾 反應k值之改變,其方法將解釋如下。 前述之上下文相關、反肖最適化、RLR '編碼技術第一 28
Λ 步係關於,將與每一上下文索引相關之該k值設定至指定之 初始值(例如,k = 2 ),以便將前述編碼資料表進行初始化。 此外,將該k變數調整大小後之數值指示為Rice參數k’, 並將之指派至每一上下文。例如,可將一單一調整係數乘以 目前之k值,以產生目前之k’值,且其可能大於該k值。
! 當對一像素位置建立一預測錯誤值時,該所用之RLR 編碼器可識別與該像素位置相關之上下文索引,其決定方法 如同前述之預測錯誤決定處理程序。目前指派至該上下文索 引之k值,之後可自該編碼資料表讀取。在一例子中,考慮 中之像素位置為該圖像之點陣順序中的該第一個像素(即, 左上方角落之像素),自該資料表讀取之相關k值可用於運 算其執行長度,其中在較佳的情況下,該執行長度等於2k。 該執行長度可表示點陣順序中,為了產生一『〇』字碼,必 須存在之連續白色像素的數目。當運算下一個預測錯誤值 時,需決定其為一『1』值或一『〇』值。若其為一『〇』值, 則需決定該數值是否位在考慮中之先前運算之執行長度的 『中間』;或其係表示該執行長度之終點。若其並非表示一 執行的終點,便不會產生字碼。然而,若該預測錯誤值係表 示一執行的終點,則會傳輸一『〇』字碼。當然,為了知道 一預測錯誤值是否表示該目前執行長度之終點,所用之RLR 編碼器必須記錄已經到多少個『0』。較佳的情況是在該編碼 資料表中也包括執行計數器,來完成此一目的。具體而言, 可對每一上下文索引指派一個別之執行計數器。在一具體實 施例中,初始時會將該執行計數器設為已運算之執行長度 29 .人-〇 4.. ί -, .人-〇 4.. ί -, .二 i二 值。之後,如前述每一次遇到一個『Ο』時,包括在該序列 中的第一次,該計數器會減1。當該計數器達到0時,目前 處理中之該預測錯誤值可視為該目前執行長度之終點。另一 方面,若在一執行中的任一時刻遇到一預測錯誤值『1』, 則該所用之RLR編碼器會產生一『Ι+k位元二元文字』 字碼,其中該k位元二元文字可表示在在目前執行中,遇到 『1』之前,所遇到之『0』值數目。利用前述指派至與執行 開始之該像素位置相關的上下文索引之執行計數器,可輕易 決定所遇到之『0』值數目。一旦產生了 一字碼,不論其為 一『〇』或一『1 +k位元二元文字』’下一個產生之預測錯誤 值可做為另一個執行的起點。為達成此一目標,可藉由識別 與該預測錯誤值之像素位置相關之上下文索引,以及重複前 述處理程序,將之當做第一像素位置。 此外,大體上每產生一字碼時,調整與可產生該字碼之 執行相關的該k值。達成此目標較佳的情況如下。若產生字 碼為一『0』,則以一指定之數量加大該參數k ’。相反地, 若該字碼不是一『0』,則以一指定之數量減小該參數k’。 若有需要可隨目前之k ’值,改變該指定之數量。藉由將該 新的k ’值除以前述之調整大小係數,可運算新的k值。之 後該新的 k ’值可儲存於該編碼資料表内,以代替該先前之 數值。藉由整數步驟調整k’,可以對該RLR參數k進行細 緻調整,這也是達到最佳編碼效能所必須的,然而僅保持整 數演算法,這是使該解碼器能精準地追蹤該k調整步驟所必 須的。 30 該選取元件720使其可在利用該無損失二元編碼 之無損失二元編碼’以及二元編碼系統(例如,利用叢 才貝失或損失))兩者之間作選擇。選取之基礎可以為, 一使用者偏好和/或利用位在二元編碼系統600中之 系統610 °在一實施例中,該叢集系統610可決定以 二元編碼處理較有效率,且提供一輸出至該選取元 以便幫助選取該無損失二元編碼器7 1 0。 例如’對於一手寫便條或其他圖形,該叢集系 可用於決疋叢集之效率比二元編碼(例如,由於其不 夕重複之叢集)差。相對應的,該選取元件72〇使其 該無損失二元編碼器7丨〇。 必須瞭解,該無損失二元編碼器7 1 0和/或該選 720可做為一或多種電腦元件來實作,如同該名詞於 定義。 接著參照第8圖,根據本發明之、一態樣,說明一 解碼系統800。該二元解碼系統8〇〇包括一第一解碼】 一第二解碼器82〇、一第三解碼器83〇、一第四解碼器 叢集產生器850、與一合併器860。 該第一解碼器810可解碼一位元串流輸入(例如 相對應之編碼器產生)之至少部份,且可提供叢集( 頁面位置(們)864。在-實施例中,該第_解碼器 用位元平面解碼。 該第二解碼器820可解碼一位元争輸入(例如’ 對應之編碼器產生)之至少部份,且可提供經解碼之 器710 集(無 例如, 一叢集 無損失 件 72 0 統 610 具有許 可利用 取元件 此處之 種二元 i 810、 ;840、 ,由一 們)之 810利 由一相 檢索表 31
位置=。例如’該第二解瑪器820可利用Lzx解碼。 以第三解碼器830可解碼一位元串輸入(例如,由一相 對應之編碼器產生)之至 入Μ檢帝本 且了如供一經解碼形狀之 玉\笛 和,或一經解碼形狀之頁面檢索表876。例 第三解碼器830可利用無損失二元解蝎。 該第四解碼器84〇可解碼一位 對應之編碼器產生)之至小… / (例* ’由一相 ^ ^ 88〇 '。刀且可提供解叢集形狀之存 :::如’該第四解碼器840 ▼利用無損失二元解碼。 =產生器85。可產生叢集’其至少部分根據該頁面 位置4索表位置、與該全域檢索表與頁面檢索表至 至少其一。 該合併器860提供一種二元給 叢集產…5。產生之叢隼和;V其至少部分根據由該 (們Μ。。 …和,或該解叢集形狀之存放區 有鑑於上文顯示與描述之示範性系統,根據本發明可實 作之方法需參照第9、1 〇、11、】9 」貝 、13、與14圖中提出之 流程圖’以便得到較佳之瞭解。為了達到簡單地解釋的目 的,以一系列的區塊顯示與描述該 ^ 去’需瞭解與發現本發 明並不限於該:塊之順序’由於根據本發明某些區塊可出現 於不同的順序中和/或與其他於此處 出現。此外,根據本發明實作該“之區塊同時 塊皆為必須。 …並非所有說明之區 可於該電:可執行指令之_般内容中 由程式模組,且可由一或更多種元 例女 執仃之。一般而言,程 32 式模組 工作或 上該程 接 行二元 可分析 形狀估 之色彩 在914 儲存於 接 叢集形j 小於一 致於不j 損失二; 在 該指標| 資訊。 已利用1 易於形j 壓縮演. 在 屬於該 相遑元 =常式、程式'物件、資料結構等,-可執/ 實作特定抽象資料類型 〃 T執行特定 式模組之功能可隨需求加二同人具體實施例中,傳統 益么 乂結合或分散。 耆參照第9圖,根據本發明之一能 編碼之方法9 〇 〇。在9丨〇 °兒明—種可執 Τ ’執行叢隼公k 與一點陣圖相關之相連元“ 一析。例如, ^ . 貝矾(例如,經由一業隹 。十裔(們)110)。該相連元件 叢集 、水平大小、垂直大小 、5 匕該相連元件 王且八小、水平位 中,萃取叢集(們)。例如,可將兮萃敌直位置。 -全域檢索表、頁面檢索表、與解叢集形狀 著在中,編碼解叢集之形狀(們)子放區。 狀(們)可包括相連元件(們),其 ° ’該解 界值)或太大(例如,大於-第四臨界值)以 电成為文字字元且因而無法達 一·^带。可利用| 編碼來編碼該解叢集形狀(們)。 “、、 930中,識別指向該全域檢索 r加、社 ?日铩(們)。識別 〔們),其可至少部分根據該叢集分析和/或相連元件 "940中,編碼該指標(們)。在-實施例中,因為 玄頁面上之位置將該叢集排序,該帝 宗弓丨(例如,指標) 技一似文字字串之順序,且利用一適用於文字字串之 算法(例如,LZX編碼)來執行編碼。 950中’識別頁面位置(們)。該頁面位置(們)係 全域檢索表和/或該頁面檢索表之叢集,且可利用今 件資訊加以辨識…’對於位在該全域檢索表和, 33
或該頁面檢索表中之一叢集,利用該相連元件資訊與來自該 全域檢索表或該頁面檢索表兩者之一的檢索表項目,來決定 其在一頁面上之位置。在960中,編碼該頁面位置(們), 例如利用位元平面編碼。
在970中,決定是否需要採用無損失模式。若在970 中之該決定為『是』,在980中,編碼殘差圖像(們),且在 990中持續進行處理程序。若在970中之該決定為『否』, 在990中持續進行處理程序。在990中,編碼該頁面檢索表。 在 992中,編碼該全域檢索表(例如,利用無損失二元編 碼)。 接著參照第10、與11圖,根據本發明之一態樣,說明 一種執行二元編碼之方法1000。在1004中,接收關於一叢 集之資訊(例如,色彩、水平大小、垂直大小、水平位置和 /或垂直位置)。
在1 008中,決定該叢集是否位在該全域檢索表中。例 如,在無損失模式中,該決定可根據該叢集是否位在該全域 檢索表中之一叢集的第一臨界值内。再者,在損失模式下, 該決定可根據該叢集是否位在該全域檢索表中之一叢集的 第二臨界值内。 若在1 008中之決定為『是』,處理在1012中持續進行 處理程序。若在1008中之決定為『否』,在1016中決定該 該叢集是否位在該頁面檢索表中。若在1016中之決定為 『否』,在1020中,將該叢集儲存於該頁面檢索表中,並在 1012中持續進行處理程序。若在1016中之決定為『是』, 34 在1024中,將該業鱼μ 士 令。在1 028中, 中持續進行處理 最集儲存於該全域檢索表 將該叢集自該頁面檢旁矣交 八叫你冢表移除,並在1〇12 程序。 隹1ϋΙ2中,自該點陣圖該將叢集萃取。之後在MW 中,決定在該頁面上是否有更多之叢集(們)。若在MW 中之決定為『是』,在1〇〇4中持續進行處理程序。若在 中之決定為『否』,在1〇36中,編碼該頁面檢索表。在ι〇4〇 中,識別在該頁面上之叢集(們)的全域檢索表指標(們)。 在1044中,編碼在該頁面上之叢集(們)的全域檢索表指 標(們)。之後,在1 048上,決定是否有更多之頁面(們)。 若在1040中之決定為『是』 若在1040中之決定為『否 表0 在1004中持續進行處理程序。 在1 0 5 2中,編瑪該全域檢索 接著參照第12、與13圖,根據本發明之一態樣,說明 一種執行叢集分析之方法12〇〇。在12〇4中,識別叢集(們)。 在1208中,執行活動債測。在1212中,執行叢集分析。在 1216中,編碼解叢集形狀(們)。在122〇中,識別指向該 全域檢索表之指標(們)。在1224中’編碼指標(們)。在 1228中’識別頁面位4 (們)。在1232中,編碼頁面位置 (們)。在1236中,決定是否需要採用無損失模式。若在 1236中之决疋為『是』,在124〇中,編碼該殘差圖像(們), 並在1244中持續進行處理程序。若在1236中之決定為 否』在I244中持續進行處理程序。在1244中,編碼該 頁面檢索表。在中1248,編碼該全域檢索表。 35 參照第14 _,根據本發明之— 元解碼之方法1400。在141",:、樣,言兒明-種執行二 中,解碼檢索表位置(們碼頁面位置(們)。在 檢索表。…中,解碼-頁面檢令:30中’解碼一全域 解叢集形狀(們)。在“60中,產,、。在145〇中,解碼 分根據該頁面位置(們)、檢索表位生叢集(們),其至少部 表W或該頁面檢索表。在147〇中,^們)、與該全域檢索 與該解叢集形& (們),例如—:併所產生之叢集(們) 可以可將路Τ目元* W像。 將發現本發明之系統和/或方土 壓縮系統中’其有助於壓縮文字—去運用於-全面之 似物。此外,習知技藝人士可瞭二圖形、圖片與其相 •5Γ ·* ffl ^ ^ ^ ,、解本發明之系統和/或方法 可運用於夕種文件圖像應用中,包括但 電腦、影印機、文件掃猫裝置、_ 、…桌上良個 傳真機、數位相機、數視予70辨識糸統、PDA、 、 ^數位視Λ相機和/或視訊遊戲。 為了提出本發明之不同態樣的額外内容,第15圖與下 列討論之目的係在對適當作業環境1510提供-簡短、-般 的描述’且本發明之不同態樣可於該環境中實作。雖然可於 ,亥電可執仃指令之_般内容中說明本發明,Μ如程式模 、、且且可由一或多種電腦或其他裝置執行之’習知技藝人士 將發現本發明亦可和其他程式模組結合實作和/或做為硬體 /、幸人體之、、且合。然而,一般而言,程式模組包括常式、程式、 物件元件、資料結構等,其可執行特定工作或實作特定資 料類型。該作業環境1 5 1 0只是一種適當作業環境的一種實 施例’且其目的並非在於限制本發明之使用或功能之範圍。 36
其他為人熟知的電腦系統、環境、和/或組態,且適於和本 發明共同使用者包括但不限於,個人電腦、手持式或膝上型 裝置、多重處理器系統、以微處理器為基礎之系統、可程式 化之消費性電子產品、網路pc、迷你電腦、主電腦、包括 前述系統或裝置之分散式運算環境,及其相似物。 參照第1 5圖,為一種可實作本發明不同態樣之示範性 環境15 10,其包括一電腦1512。該電腦1512包括一處理單 位1514、一系統記憶體1516、以及一系統匯流排i5i8。該 系統匯流排1 5 1 8可耦合系統元件,包括但不限於,將該系 統記憶體1 5 1 6耦合至該處理單位i 5丨4。該處理單位丨5 J * 可以是任何一種不同的可用處理器。亦可利用雙重微處理器 以及其他多重處理器架構做為該處理單位1 5丨4。 該系統匯流排1 5 1 8可以是任何一種多種匯流排結構 (們)類型,包括該記憶體匯流排或記憶體控制卡、一周邊 匯流排或外部匯流排、和/或一本機匯流排,其可利用任何 一種多種可用之匯流排架構,包括但不限於,丨5位元匯流 排、工業標準架構(ISA:r、微通道架構(msa)、延伸工業 標準架構(EISA )、智慧型電子驅動器(IDE )、vESa本機 匯流排(VLB )、周邊元件連接(pci )、通用序列匯流排 (USB )、繪圖加速連接埠(AGp )、國際個人電腦記憶卡協 會規格(PCMCIA)、以及小型電腦系統界面(scsi)。 該系統記憶體1516包括揮發性記憶體152〇以及非揮發 性記憶體1 522。該基本輸入/輸出系統(bi〇s),含有該基 本系式’其可在電腦1 5 ! 2内之元素間傳輸資訊,例如在開 37 機階段中,可儲存於非揮發性記憶體1 522中。做為解釋, 而非限制,非揮發性記憶體1 522可包括唯讀記憶體 (ROM )、可程式ROM ( PROM )、電子可程式R〇M (EPROM )、電子可抹式R〇M ( EEpR〇M )、或快閃記憶體。 揮發性記憶體1 5 2 0包括隨機存取記憶體(RAM ),其可做為 一外部快取記憶體。做為說明,而非限制,RAM有多種可 用之形式,例如同步RAM ( SRAM )、動態RAM ( dram )、 同步dram ( SDRAM )、雙倍速資料傳輸SDRAM (DDRSDRAM)、增強 SDRAM ( ESDRAM)、同步案件内存 DRAM ( SLDRAM)、以及直接式 Rambus RAM ( DRRAM)。 電腦1 5 1 2亦包括可移除/不可移除、揮發性/非揮發性 電腦儲存媒體。第1 5圖說明,例如一磁碟儲存丨524。磁碟 儲存1 524包括但不限於,裝置例如一磁性磁碟機、軟式磁 碟機、磁帶機、Jazz磁碟機、Zip磁碟機、LS_1〇〇磁碟機、 快閃記憶卡、或MS記憶棒。此外,、磁碟儲存1524可包括 分離之儲存媒體或可和其他儲存媒體共同使用,其包括但不 限於,一光學磁碟機,如一唯讀光碟機裝置(cd_r〇m )、 可錄式光碟機(CD-R Drive )、可複寫光碟機(CD-Rw
Dnve)、或一數位多用途唯讀光碟機(DVD-ROM)。為了幫 助將該磁碟儲存裝置1524連接至該系統匯流排1518,一般 會利用一種可移除或不可移除介面,例如介面1 526。 需瞭解第1 5圖所序述之軟體,其可做為使用者與適當 乍業裒i兄1 5 1 0中所述之基本電腦資源之間的中介物。此類 軟體包括一作業系統1 528。作業系統1 528可儲存於磁碟儲 38
wmi 94 7
存1 524上,且可用於控制並分配該電腦系統i 5丨2之資源。 經由健存在系統記憶體1 5 1 6或者磁碟儲存丨5 2 4上的程式模 組1 532與程式資料1 534,系統應用程式153〇可利用作業 系統1 528之資源管理。可瞭解本發明可在不同作業系統或 作業系統之組合中實作。 一使用者經由輸入裝置(們)丨536,將指令或資訊輸入 一指向裝置例 至電腦1 5 1 2、.。輸入裝置1 5 3 6包括但不限於 如一滑鼠、軌跡球、觸控筆、觸控板、鍵盤、麥克風、搖桿 遊戲控制器、衛星碟、掃瞄裝置、電視影像擷取卡、數位相 機、數位視訊相機、網路相機、及其相似物。這些與其他輪 入裝置可利用該系統匯流排1 5 1 8經由介面連接蜂(們) 接至該控制單位1516。介面連接埠(們)1538包括,例如逮 一序列連接埠、一平行連接埠、一遊戲連接埠,以及一通 序列匯流排(USB )。輸出裝置(們)1 54〇利用某此與輪 裝置(們)1 536相同類型之連接埠\因此」 J ^ J利用 •^ U S B連接淳以便輸入至電腦1 5 1 2 ,且自電腦1 5 1 2幹出 訊至一輸出裝置1 540。提出輸出介面卡ι 542,以便說明貝 所有輸出裝置1 540中,有某些需要特殊介面卡之輪出裳置 1540如顯示器、擴音器、以及印表機。該輸出介面卡 包括,用於說明而非限制,視訊與音效卡,盆可产兮认 r 丹』在該輸出骏 置1 540與該系統匯流排1 5 1 8之間提供一種連接方式。必: 提出’其他裝置和/或裝置系統可提供輸入與輸出兩種 力,例如遠端電腦(們)1544。 電腦1512可在一網路環境下作業,其可利用邏輯連接 39
至或更夕遠端電腦,例如遠端電腦(們)1 5 4 4。該遠端電 腩(們)1 5 4 4可以是一個人電腦、一伺服器、一路由器、 一網路PC、一工作站、一以微處理器為基礎之裝置、一對 等裝置或其他常見之網路節點,及其相似物,且一般可包括 許多或所有與所述電腦1512相關之元件。為達簡潔之目 的’僅和延端電腦(們)1 544 —起說明了一種記憶儲存裝 置1 546。遠端電腦(們)1 544經由一網路介面1548邏輯連 接至電腦1512,且之後經由通訊連接155〇進行實際連接。 網路介面1 548包含通訊網路,例如區域網路(LAN)以及 廣域網路(WAN )。LAN技術包括光纖分散式資料介面 (FDDI )、鋼線分散式資料介面(CDDI )、乙太網路/IEEE 1 502·3、權杖環(Token Ring) /IEEE1 502.5 及其相似物。 WAN技術包括但不限於,點對點連結、電路切換網路如整 合服務數位網路(ISDN)與其變形物、封包切換網路、以 及數位用戶迴路(DSL)。通訊連結(們)155〇係指用來將 該網路介面1548連接至該匯流排1518之硬體/軟體。雖然 所不之說明用通訊連結155〇明顯地位在電腦1512中,其亦 可位在電腦1 5 1 2之外部。連接至網路介面丨548所必須之該 硬體/軟體包括,僅做為例示之目的,内部與外部技術,例 如,數據機,包括一般電話線路級數據機、纜線數據機與 DSL數據機、ISDN介面卡、與乙太網路卡。 上文之敘述包括了本發明之實施例。當然,為了達到敘 述本發明之目的,不可能敘述所有可設想到的元件或方法之 組合’然而習知技藝人士可理解可對本發明進行任何進一步 40
之排列與組合,因而,本發明並不打算包括所有此類會落在 所附申請專利範圍之精神與範圍内的變更、修改、與變異。 再者,關於在發明詳細說明或申請專利範圍中所使用的『包 括』一詞,其用意為一包括性的型式,類似『至少包含』一 詞,如同『至少包含』用於一申請專利範圍中時,係被解釋 為一種轉折詞。 【圖式簡單說明】 第1圖為根據本發明之一態樣,一種二元編碼系統之區 塊圖。 第2圖為一圖說明了 4-相連性屬性。 第3圖為一圖說明了 8-相連性屬性。 第4圖為根據本發明之一態樣,一種示範性相連元件邊 界方塊。 第5圖為根據本發明之一態樣,一種示範性全域檢索表 資料結構。 第6圖為根據本發明之一態樣,一種二元編碼系統之區 塊圖。 第7圖為根據本發明之一態樣,一種可選取之二元編碼 系統之區塊圖。 第8圖為根據本發明之一態樣,一種二元二元解碼系統 之區塊圖。 第9圖為根據本發明之一態樣,說明執行二元編碼之方 法的一個流程圖。 41
ff87 第1 0圖為根據本發明之一態樣,說明執行二元編碼之 方法的一個流程圖。 第1 1圖為一流程圖,其更進一步說明第1 0圖中之方法。 第1 2圖為根據本發明之一態樣,說明執行叢集分析之 方法的一個流程圖。 第1 3圖為一流程圖,其更進一步說明第1 2圖中之方法。 ,· 第1 4圖為根據本發明之一態樣,說明執行二元解碼之 方法的一個流程圖。 第1 5圖說明一種本發明可作用之例示作業環境。 φ 【元件代表符號簡單說明】 1 00二元編碼系統 11 0叢集形狀估計器 1 20來自叢集元件之點陣圖估計 1 3 0叢集位置估計器 1 5 0第二編碼器 I 7 0第四編碼器 174形狀之頁面檢索表 200圖示 400相連元件邊界方塊 5 1 0第一欄位 5 3 0第三攔位 5 5 0全域叢集項目 II 〇叢集形狀估計器 1 3 0叢集位置估計器
140第一編碼器 1 6 0第‘三編碼器 1 7 2形狀之全域檢索表 176解叢集形狀之存放區 3 0 0圖示 5 00全域檢索表資料結構 520第二欄位 5 40第四攔位 6 0 0二元編碼糸統 120來自叢集元件之點陣圖估計 140第一編碼器 42 陋職『:丨 1 5 0第二編碼器 1 7 0第四編碼器 620活動偵測系統 174形狀之頁面檢索表 7 0 0二元編碼糸統 7 10無損失二元編碼器720 6 1 0叢集系統 8 1 0第一解碼器 8 3 0第三解碼器 850叢集產生器 8 64頁面位置(們) 872全域檢索表 880解叢集形狀之存放區 9 1 0執行叢集分析 920編碼解叢集之形狀(們 9 3 0識別指向該全域檢索表 940編碼該指標(們) 9 5 0識別頁面位置(們) 960編碼該頁面位置(們) 970決定是否需要採用無損 9 8 0編碼殘差圖像(們) 9 9 0編碼該頁面檢索表 992編碼該全域檢索表 1 0 0 0執行二元編碼之方法 1 6 0第三編碼器 6 1 0叢集系統 172形狀之全域檢索表 1 7 6解叢集形狀之存放區 6 0 0二元編碼糸統 選取元件 8 0 0二元解碼系統 8 2 0第二解碼器 840第四解碼器 860合併器 8 6 8檢索表位置 876頁面檢索表 900方法 9 1 4萃取叢集(們) ) ^ 之指標(們) 失模式
43
1 004接收關於一叢集之資訊 1 008決定該叢集是否位在該全域檢索表中 1 0 1 2自該點陣圖該將叢集萃取 1016決定該該叢集是否位在該頁面檢索表中 1020將該叢集儲存於該頁面檢索表中 1024將該叢集儲存於該全域檢索表中 1 028將該叢集自該頁面檢索表移除 1 032決定在該頁面上是否有更多之叢集(們 1 0 3 6編碼該頁面檢索表 1 04 0識別在該頁面上之叢集(們)的 1 〇44編碼在該頁面上之叢集(們)的 1 048決定是否有更多之頁面(們) 1 0 5 2編碼該全域檢索表 全域檢索表指標
1200執行叢集分析之方法 1 208執行活動偵測 1 2 1 6編碼解叢集形狀(們) 1204識別叢集(們) 1212我行叢集分析 1 2 2 0識別指向該全域檢索表之指標(們) 1224編碼指標(們) 1 228識別頁面位置(們) 1 2 3 2編碼頁面位置(們) 1 236決定是否需要採用無損失模式 1240編碼該殘差圖像(們) 1 248編碼該全域檢索表 1 4 1 〇解碼頁面位置(們)
1400執行二元解竭4 1420解碼檢索表位5 44 1 4 3 0解碼一全域檢索表 1 4 5 0解碼解叢集形狀(們) 1 5 1 0適當作業環境 1 5 1 4處理單位 1 5 1 8系統匯流排 1 522非揮發性記憶體 1 526介面 1 5 3 0系統應用程式 1 5 3 4程式資料 1 5 3 8介面連接埠 1 542輸出介面卡 1 546記憶儲存裝置 1 5 5 0通訊連接 解碼一頁面檢索表 產生叢集(們) 電腦 系統記憶體 揮發性記憶體 一磁碟儲存 ’ 作業系統 程式模組 輸入裝置 φ 輸出裝置(們) 遠端電腦(們) 網路介面
45

Claims (1)

  1. 检、申請專利範圍: i種二元編碼系統,其至少包含: 一叢集形狀估計器,其係可分析與一文件相關之相連元 件資訊、萃取叢集,且可將之儲存於至少一種下列位置,包 拮/形狀之全域檢索表(global dictionary)、一形狀之頁面檢 索表(page dictionary)、以及一解叢集(unclustered)形狀之存 放區;
    一來自叢集元件之點陣圖估計,其係可決定儲存於該全 域檢索表下叢集之檢索表位置;以及 一叢集位置估計器,其係可決定該文件上該全域檢索表 與該頁面檢索表兩者中,至少一種之叢集頁面位置。 2 ·如申請專利範圍第丨項所述之系統,至少更包含一第 編碼器,其係可編碼自該叢集位置估計器所接收之頁面位 3 ·如申睛專利範圍第2項所述之系統, 一 砂甘β 乐一編碼 益’其係可編碼自以叢集元件進行點陣圖估計所接收 表位置。 知索 4.如申請專利範圍第3項所 器’其係可編碼該頁面檢索 述之系統,更包含一第三 表與该全域檢索表兩者至 編碼 少其 46 5 .如申請專利範圍第4項所述之系統,至少更包含一第四 編碼器,其可編碼該解叢集形狀之存放區。 6. 如申請專利範圍第1項所述之二元編碼系統,其中該相 連元件資訊至少包含該相連元件的色彩、水平大小、垂直大 小、水平位置、與垂直位置之至少一者。 7. 如申請專利範圍第1項所述之二元編碼系統,其中該頁 面位置至少包含位於叢集間的一水平間隙。 8. 如申請專利範圍第1項所述之二元編碼系統,其中該頁 面位置至少包含一平均垂直位置。 9. 如申請專利範圍第8項所述之二元編碼系統,其中該頁 面位置更包含在該平均垂直位置與一叢集之垂直位置之間 的一差異。 1 0.如申請專利範圍第2項所述之二元編碼系統,其中該第 一編碼器至少部分利用位元平面編碼。 11. 如申請專利範圍第3項所述之二元編碼系統,其中該第 二編碼器至少部分利用LZX編碼。 12. 如申請專利範圍第4項所述之二元編碼系統,其中該第 47
    三編碼器至少部分利用無損失二元編碼。 13. 如申請專利範圍第5項所述之二元編碼系統,其中該第 四編碼器至少部分利用一無損失二元編碼。 14. 如申請專利範圍第1項所述之二元編碼系統,其中該叢 集形狀估計器可修改一已儲存於該全域檢索表下之叢集,該 修改至少部分係基於該儲存之叢集與一叢集之間的一加權 平均。 15. —種影印機,其係運用如申請專利範圍第1項所述之系 統0 16. 一種文件掃瞄裝置,其係運用如申請專利範圍第1項所 述之系統。 1 7. —種光學字元辨識系統,其係運用如申請專利範圍第1 項所述之系統。 18. 一種個人數位助理,其係運用如申請專利範圍第1項所 述之系統。 19. 一種傳真機,其係運用如申請專利範圍第1項所述之系 統0 48 mow%.. 20. 一種數位相機,其係運用如申請專利範圍第1項所述之 系統。 21. 一種數位視訊相機,其係運用如申請專利範圍第1項所 述之系統。 22. —種分段分層圖像系統,其係運用如申請專利範圍第1 項所述之系統。 23. 一種視訊遊戲,其係運用如申請專利範圍第1項所述之 系統。 24. 一種平板型個人電腦,其係運用如申請專利範圍第1 項所述之系統。 2 5 . —種二元編碼系統,其至少包含: 一叢集系統,其係可識別與多種相連元件相關之資訊; 一叢集形狀估計器,其係可分析與一文件相關之相連元 件、萃取叢集,且可將之儲存於至少一種下列位置,包括一 形狀之全域檢索表、一形狀之頁面檢索表、以及一解叢集形 狀之存放區, 一來自叢集元件之點陣圖估計,其係可決定儲存於該全 域檢索表下叢集之檢索表位置;以及 49
    一叢集位置估計器,其係可決定該文件上該全域檢索表 與該頁面檢索表兩者中,至少一種叢集之頁面位置。 26.如申請專利範圍第25項所述之系統,至少更包含一第 一編碼器,其可編碼自該叢集位置估計器所接收之頁面位 置。
    27.如申請專利範圍第26項所述之系統,更包含一第二編 碼器,其可編碼該自以叢集元件進行點陣圖估計所接收之檢 索表位置。 2 8.如申請專利範圍第27項所述之系統,其更包含一第三 編碼器,其可編碼該頁面檢索表與該全域檢索表兩者至少其 29.如申請專利範圍第28項所述之系統,更包含一第四編 碼器,其可編碼該解叢集形狀之存放區。
    3 0.如申請專利範圍第25項所述之二元編碼系統,其中該 相連元件資訊至少包含該相連元件的水平大小、垂直大小、 水平位置、與垂直位置之至少一者。 3 1 .如申請專利範圍第2 5項所述之二元編碼系統,更包含 一活動偵測系統,其可提供以一種二元圖像輸入為基礎之一 50 種二元圖像輸出,該二元圖像輸出具有至少一種減低之遞色 (dithering)/半色調(half toning)、以及減低之雜訊。 3 2.如申請專利範圍第2 6項所述之二元編碼系統,其中該 第一編碼器至少部分利用位元平面編碼。 3 3.如申請專利範圍第27項所述之二元編碼系統,其中該 第二編碼器至少部分利用LZX編碼。 3 4.如申請專利範圍第28項所述之二元編碼系統,其中該 第三編碼器至少部分利用無損失二元編碼。 3 5.如申請專利範圍第29項所述之二元編碼系統,其中該 第四編碼器至少部分利用一無損失二元編碼。 3 6 . —種二元解碼系統,其至少包含: 一第一解碼器,其可解碼一位元串流之至少部分,該第 一解碼器可解碼頁面位置; 一第二解碼器,其可解碼一位元串流之至少部分,該第 二解碼器可解碼檢索表位置; 一第三解碼器,其可解碼一位元串流之至少部分,該第 三解碼器可解碼一形狀之全域檢索表與一形狀之頁面檢索 表; 一第四解碼器,其可解碼一位元串流之至少部分,該第 51
    s * ' cN 四解碼器可解碼解叢集形狀之存放區; 一叢集產生器,其可產生叢集,且至少部分根據,該頁 面位置、檢索表位置、以及全域檢索表與頁面檢索表兩者至 少其一;以及 一合併器,其可提供一種二元輸出,其至少部分根據所 產生之叢集與該解叢集形狀之存放區。 ^ 3 7.如申請專利範圍第3 6項所述之二元解碼系統,其中該 第一解碼器至少部分利用位元平面解碼。 Φ 3 8.如申請專利範圍第3 6項所述之二元解碼系統,其中該 第二解碼器至少部分利用LZX解碼。 39.如申請專利範圍第3 6項所述之二元解碼系統,其中該 第三解碼器至少部分利用無損失二元解碼。
    40 ·如申請專利範圍第3 6項所述之二元解碼系統,其中該 第四解碼器至少部分利用一無損失二元解碼。 4 1. 一種可進行二元編碼之方法,其至少包含以下之步驟: 執行叢集分析,其使用相關於一文件之相連元件資訊、 萃取叢集、及將之儲存於至少一種下列位置,一形狀之全域 檢索表、一形狀之頁面檢索表、與解叢集形狀之存放區; 編碼一解叢集形狀,其係利用無損失和有損失二元編 52
    碼; 分析 42. 下列 識別一指向一全域檢索表之指標,其至少部分根據叢集 及相連元件資訊;以及 編碼該指標,其係利用適於文字字串之一壓縮演算法。 如申請專利範圍第41項所述之方法,更包含至少一種 動作: 識別一叢集之一頁面位置; 編碼該頁面位置, 編碼一頁面檢索表;以及 編碼該全域檢索表。
    43. 下列 如申請專利範圍第4 1項所述之方法,更包含至少一種 動作: 編碼一殘差圖像; 識別叢集;以及 執行活動偵測。
    44. 少包 頁面 如申請專利範圍第42項所述之方法,執行叢集分析至 含至少一種下列動作: 決定一叢集是否位在該全域檢索表内; 若該叢集不位在該全域檢索表,決定該叢集是否位在該 檢索表内; 若該叢集為在該頁面檢索表内,將該叢集儲存至該全域 53
    檢索表内; 若該叢集位在該頁面檢索表内,自該全域檢索表移除該 叢集; 若該叢集不位在該頁面檢索表内,將該叢集儲存至該頁 面檢索表内;以及 自一點陣圖萃取該叢集。 45. 一種可進行二元解碼之方法,至少包含以下之步驟:
    解碼一位元串流以建立一頁面位置; 解碼該位元串流以建立一檢索表位置; 解碼該位元串流以建立一全域檢索表;以及 產生一叢集,其至少部分根據該頁面位置、該檢索表位 置與該全域檢索表,以便提供一種二元輸出。 46.如申請專利範圍第45項所述之方法,更包含至少一種 下列動作:
    解碼一頁面檢索表; 解碼一解叢集形狀; 結合該叢集與該解叢集形狀,以便提供該二元輸出。 4 7. —種產生有助於二元編碼之一資料封包的方法,至少包 含以下之步驟·· 提供一第一資料攔位,其至少包含編碼之頁面位置; 利用一第二資料欄位,其至少包含編碼之檢索表位置; 54
    使用一第三資料欄位,其至少包含一編碼之全域檢索表 與一編碼之頁面檢索表兩者至少其一;以及 提供一第四資料欄位,其至少包含編碼之解叢集形狀之 存放區。 4 8. —種儲存一系統之電腦可執行的元件用以二元編碼之 電腦可讀取的媒體,其至少包含: 一叢集形狀估計器,其可分析與一文件相關之相連元件 資訊、萃取叢集、並將之儲存於至少一種下列位置,一形狀 之全域檢索表、一形狀之頁面檢索表、與解叢集形狀之存放 區, 一來自叢集元件之點陣圖估計,其可決定儲存於該全域 檢索表下叢集之檢索表位置;以及 一叢集位置估計器,其可決定該文件上,該全域檢索表 與該頁面檢索表至少一種叢集之頁面位置。 49.如申請專利範圍第48項所述之該電腦可讀取之媒體, 更包含一第一編碼器,其可編碼接收自該叢集位置估計器之 該頁面位置。 5 0.如申請專利範圍第49項所述之該電腦可讀取之媒體, 更包含一第二編碼器,其可編碼自以叢集元件進行點陣圖估 計所接收之檢索表位置。 55 ................*'111·-.·-«^^.. 一 細f87 .'·7 5 1 .如申請專利範圍第5 0項所述之該電腦可讀取之媒體, 更包含一第三編碼器,其可編碼該頁面檢索表與該全域檢索 表兩者至少其一。 5 2.如申請專利範圍第5 1項所述之該電腦可讀取之媒體, 更包含一第四編碼器,其可編碼該解叢集形狀之存放區。
    5 3 . —種儲存一系統之電腦可執行的元件用以二元解碼之 電腦可讀取的媒體,其至少包含: 一第一解碼器,其可解碼一位元串流之至少部分,該第 一解碼器可解碼頁面位置; 一第二解碼器,其可解碼一位元串流之至少部分,該第 二解碼器可解碼檢索表位置; 一第三解碼器,其可解碼一位元串流之至少部分,該第 三解碼器可解碼一形狀之全域檢索表與一形狀之頁面檢索 表;
    一第四解碼器,其可解碼一位元串流之至少部分,該第 四解碼器可解碼解叢集形狀之存放區; 一叢集產生器,其可產生叢集,且至少部分根據,該頁 面位置、檢索表位置、以及全域檢索表與頁面檢索表兩者至 少其一;以及 一合併器,其可提供一種二元輸出,其至少部分根據所 產生之叢集與該解叢集形狀之存放區。 56 -> V
    5 4. —種二元編碼系統,至少包含: 可分析叢集形狀之構件,其至少部分根據與一文件相關 之相連元件資訊; 可萃取叢集之構件,以及將之儲存於至少一種下列位 置,一形狀之全域檢索表中、一形狀之頁面檢索表、與解叢 集形狀之存放區, 可決定儲存於該全域檢索表下叢集之檢索表位置之構 件;以及
    可決定該文件上,該全域檢索表與該頁面檢索表至少一 種叢集之頁面位置之構件。 5 5.如申請專利範圍第5 4項所述之系統,更包含編碼該頁 面位置之構件。 5 6.如申請專利範圍第5 5項所述之‘統,更包含編碼該檢 索表位置之構件。
    5 7.如申請專利範圍第5 6項所述之系統,更包含編碼該頁 面檢索表與該全域檢索表兩者至少一種之構件。 5 8.如申請專利範圍第5 7項所述之系統,更包含編碼該解 叢集形狀之存放區之構件。 5 9 . —種二元解碼系統,至少包含: 57
    解碼頁面位置之構件; 解碼檢索表位置之構件; 解碼形狀之全域檢索表與一形狀之頁面檢索表兩者至 少其一之構件; 解碼一解叢集形狀之存放區之構件; 產生一叢集,且至少部分根據該頁面位置、檢索表位 置、與該全域檢索表與頁面檢索表兩者至少其一之構件;以 及 結合該產生之叢集與該解叢集形狀之存放區,以便提供 一種二元輸出之構件。 58
TW092106234A 2002-04-25 2003-03-20 Compression of bi-level images with explicit representation of ink clusters TWI250787B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/133,532 US7206450B2 (en) 2002-04-25 2002-04-25 Compression of bi-level images with explicit representation of ink clusters

Publications (2)

Publication Number Publication Date
TW200306113A TW200306113A (en) 2003-11-01
TWI250787B true TWI250787B (en) 2006-03-01

Family

ID=29215619

Family Applications (1)

Application Number Title Priority Date Filing Date
TW092106234A TWI250787B (en) 2002-04-25 2003-03-20 Compression of bi-level images with explicit representation of ink clusters

Country Status (6)

Country Link
US (3) US7206450B2 (zh)
EP (1) EP1359544A3 (zh)
JP (1) JP4733911B2 (zh)
KR (1) KR100938100B1 (zh)
CN (1) CN100363924C (zh)
TW (1) TWI250787B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7206450B2 (en) * 2002-04-25 2007-04-17 Microsoft Corporation Compression of bi-level images with explicit representation of ink clusters
JP4766230B2 (ja) * 2005-03-23 2011-09-07 富士ゼロックス株式会社 符号化装置、データ処理装置、復号化装置及びプログラム
JP4687263B2 (ja) * 2005-06-13 2011-05-25 富士ゼロックス株式会社 符号化装置、復号化装置、符号化方法、復号化方法及びこれらのプログラム
TWI257771B (en) * 2005-08-08 2006-07-01 Lite On Technology Corp Method for print quality enhancement by lossless image compression (JPEG-LS) technology and system thereof
US7599556B2 (en) * 2005-08-25 2009-10-06 Joseph Stanley Czyszczewski Apparatus, system, and method for scanning segmentation
JP4817821B2 (ja) 2005-12-01 2011-11-16 キヤノン株式会社 画像処理装置及びその制御方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
JP5082512B2 (ja) * 2007-03-08 2012-11-28 富士ゼロックス株式会社 情報処理装置、画像処理装置、画像符号化装置、情報処理プログラム、画像処理プログラム及び画像符号化プログラム
JP4881237B2 (ja) * 2007-06-29 2012-02-22 株式会社東芝 画面転送装置およびその方法ならびに画像転送のためのプログラム
KR101454208B1 (ko) * 2007-12-28 2014-10-24 삼성전자주식회사 하프톤 영상 인코딩 및 디코딩 방법 및 장치
JP2009188995A (ja) * 2008-02-08 2009-08-20 Toshiba Corp 画像処理装置および画像処理方法
CN102667863B (zh) * 2009-12-23 2017-03-29 诺基亚技术有限公司 使用二值化传感器确定颜色信息
US8676122B2 (en) * 2010-08-27 2014-03-18 Gregory H. Piesinger Secure satellite modem for personal digital assistant method and apparatus
CN102169497B (zh) * 2011-04-13 2013-04-17 浪潮(北京)电子信息产业有限公司 一种通过位图方式管理元数据的方法及装置
WO2014116262A1 (en) 2013-01-28 2014-07-31 Empire Technology Development Llc Communication using handwritten input
WO2014178840A1 (en) 2013-04-30 2014-11-06 Hewlett-Packard Development Company, L.P. Creation of a hierarchical dictionary
US9437236B2 (en) * 2013-11-04 2016-09-06 Michael Hugh Harrington Encoding data
TWI514840B (zh) * 2014-10-20 2015-12-21 Univ Nat Taipei Technology 半色調資料隱寫編碼系統及半色調資料隱寫解碼系統
WO2020129299A1 (ja) * 2018-12-18 2020-06-25 三井金属鉱業株式会社 積層シート及びその使用方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS604373A (ja) * 1983-06-22 1985-01-10 Hitachi Ltd パタ−ン情報圧縮方式
JPS60210069A (ja) * 1984-04-02 1985-10-22 Ricoh Co Ltd 文書情報符号化方法
US4668995A (en) * 1985-04-12 1987-05-26 International Business Machines Corporation System for reproducing mixed images
JPH03157064A (ja) * 1989-11-15 1991-07-05 Nec Corp 画像情報圧縮伝送方式
US5696842A (en) * 1991-07-04 1997-12-09 Ricoh Company, Ltd. Image processing system for adaptive coding of color document images
JPH0537700A (ja) * 1991-07-26 1993-02-12 Ricoh Co Ltd フアクシミリ装置
JP2910000B2 (ja) * 1991-12-19 1999-06-23 国際電信電話 株式会社 2値画像混在静止自然画像の符号化方法
JPH06152983A (ja) * 1992-11-04 1994-05-31 Nippon Telegr & Teleph Corp <Ntt> 画像符号化方法
JP3231105B2 (ja) * 1992-11-30 2001-11-19 富士通株式会社 データ符号化方式及びデータ復元方式
JP3350118B2 (ja) * 1992-11-30 2002-11-25 富士通株式会社 データ符号化方式及びデータ復元方式
JPH06178124A (ja) * 1992-12-08 1994-06-24 Fuji Xerox Co Ltd 画像データ圧縮伸長装置
JPH06274311A (ja) * 1993-03-19 1994-09-30 Fujitsu Ltd データ圧縮装置及びデータ復元装置
JP2526783B2 (ja) * 1993-05-31 1996-08-21 日本電気株式会社 領域形状符号化・復号化方式
JPH089166A (ja) * 1994-06-17 1996-01-12 Nec Corp 複写電送装置
JP3080149B2 (ja) 1996-12-03 2000-08-21 日本電気株式会社 パタン符号化方法及び復号化方法とこの方法を用いた符号化装置及び復号化装置
US6104834A (en) * 1996-08-01 2000-08-15 Ricoh Company Limited Matching CCITT compressed document images
JP4260908B2 (ja) * 1997-06-25 2009-04-30 株式会社日本デジタル研究所 ランレングス符号化方法および画像処理装置
US6020972A (en) * 1997-11-14 2000-02-01 Xerox Corporation System for performing collective symbol-based compression of a corpus of document images
US6088478A (en) * 1998-02-13 2000-07-11 Xerox Corporation Method and apparatus for distinguishing bold face characters
EP0954181B1 (en) * 1998-04-28 2007-12-26 Canon Kabushiki Kaisha Data processing apparatus and method
US6256415B1 (en) * 1998-06-10 2001-07-03 Seiko Epson Corporation Two row buffer image compression (TROBIC)
US6477280B1 (en) 1999-03-26 2002-11-05 Microsoft Corporation Lossless adaptive encoding of finite alphabet data
US6625319B1 (en) * 1999-03-30 2003-09-23 Koninklijke Philips Electronics N.V. Image compression using content-based image similarity
JP4424845B2 (ja) * 1999-12-20 2010-03-03 本田 正 イメージデータ圧縮方法及び復元方法
US7218784B1 (en) * 2000-05-01 2007-05-15 Xerox Corporation Method and apparatus for controlling image quality and compression ratios
JP3636983B2 (ja) * 2000-10-23 2005-04-06 日本放送協会 符号化装置
US6915011B2 (en) 2001-03-28 2005-07-05 Eastman Kodak Company Event clustering of images using foreground/background segmentation
US7206450B2 (en) * 2002-04-25 2007-04-17 Microsoft Corporation Compression of bi-level images with explicit representation of ink clusters
US7164797B2 (en) * 2002-04-25 2007-01-16 Microsoft Corporation Clustering

Also Published As

Publication number Publication date
TW200306113A (en) 2003-11-01
KR100938100B1 (ko) 2010-01-21
EP1359544A3 (en) 2011-11-16
CN1453724A (zh) 2003-11-05
US20030202708A1 (en) 2003-10-30
CN100363924C (zh) 2008-01-23
JP4733911B2 (ja) 2011-07-27
US7206450B2 (en) 2007-04-17
KR20030084600A (ko) 2003-11-01
US20080175501A1 (en) 2008-07-24
EP1359544A2 (en) 2003-11-05
JP2003333341A (ja) 2003-11-21
US7317838B2 (en) 2008-01-08
US20070242888A1 (en) 2007-10-18

Similar Documents

Publication Publication Date Title
TWI250787B (en) Compression of bi-level images with explicit representation of ink clusters
JP4152789B2 (ja) クラスタリングシステムおよびクラスタリング方法
US8339619B2 (en) System and image processing method and apparatus for re-using and re-editing images
US8411955B2 (en) Image processing apparatus, image processing method and computer-readable medium
US8331671B2 (en) Image processing apparatus and image encoding method related to non-photo image regions
US8045801B2 (en) Image processing apparatus and method
JP3986011B2 (ja) データ符号化装置および画像データ符号化方法
US20080019613A1 (en) Information processing apparatus, method of controlling same and computer program
JP4708888B2 (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
JP4364809B2 (ja) 画像処理装置、画像処理方法、プログラム、及び記録媒体
JP2007129557A (ja) 画像処理システム
JP3675429B2 (ja) 適応型予測符号化、復号化方法およびそれらの装置ならびに適応型予測符号化、復号化プログラムを記録した記録媒体
JP4383187B2 (ja) 画像処理装置、画像処理用プログラム及び記憶媒体
JP2005204206A (ja) 画像処理装置、画像処理用プログラム及び記憶媒体
KR100598115B1 (ko) 고속 문자인식방법 및 장치
JP3404380B2 (ja) 適応型予測符号化、復号化方法およびそれらの装置ならびに適応型予測符号化、復号化プログラムを記録した記録媒体
JPH10150575A (ja) 画像処理システム及び画像処理方法
JP4237642B2 (ja) 画像処理装置、画像処理用プログラム及び記憶媒体
JP4957570B2 (ja) 画像処理装置
Kopylov Processing and compression of raster map images
JPH08315159A (ja) 画像処理装置及び画像処理方法
JPH11215381A (ja) 符号化装置、及び復号化装置
JPH10126624A (ja) 画像符号化装置および画像復号装置
JP2005328348A (ja) 画像処理装置、プログラム、及び記憶媒体

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees