TWI237191B - Method of extracting a section of a page from a portable document format file, system for extracting a section of a page of a portable document format file, and computer readable medium containing executable instructions - Google Patents

Method of extracting a section of a page from a portable document format file, system for extracting a section of a page of a portable document format file, and computer readable medium containing executable instructions Download PDF

Info

Publication number
TWI237191B
TWI237191B TW091121915A TW91121915A TWI237191B TW I237191 B TWI237191 B TW I237191B TW 091121915 A TW091121915 A TW 091121915A TW 91121915 A TW91121915 A TW 91121915A TW I237191 B TWI237191 B TW I237191B
Authority
TW
Taiwan
Prior art keywords
user
defined area
area
page
file
Prior art date
Application number
TW091121915A
Other languages
English (en)
Inventor
Hui Chao
Henry W Sang Jr
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Application granted granted Critical
Publication of TWI237191B publication Critical patent/TWI237191B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Character Input (AREA)

Description

1237191
五、發明說明(1 ) 發明領域 本發明大致上係關於電子資料檔案。更具體地說,本 發明係關於一可攜式文件格式文件之區段擷取。 發明背景
可使用多種司的技術來產生電子檔案。如此,將來自 一電子檔案之資料儲存為與用來產生其之程序無關的格 式,如此使得其對於許多使用者為可存取是需要的。一可 允許這樣的存取的格式為可攜式文件格式。可攜式文件袼 式(pdf )為一種檔案格式,其係以和用來產生該文件之應 用軟體,硬體,和作用系統無關且與將其顯示或印刷之輸 出裝置無關之方式來表示文件。
一 PDF作業流程假設一單向產生程序,其中pDF檔案 包含一譯文,其被加以展示以供最終呈現之用,即未保存 邏輯結構資訊。因此,將文件儲存為pdf格式之一問題為要 再次使用文件之一部份是困難的,因為具有語義關係之元 素未被儲存為一元素的邏輯群組。雖然要將原始的可編輯 文件儲存為PDF檔案中的一個屬性是可能的,但一般不這 樣做,因為畢竟用以產生pdf文件之原始程式並非可得,或 者因為這會引入一些弱點讓電腦病毒有可乘之機。沒有原 始的可編輯文件,要移除pdf文件之一部份以供使用於其他 文件或檔案中不容易完成。例如,一使用者可能 pdf文件的圖表***一使用者自己建立之文件中或以圖表 做-投影片呈現。PDF規格允許包括結構性資訊,然而报 少pdf文件建立時具有這樣的結構資訊,因為大小的限制和 4
丄Z J 1237191
五、發明說明(2 ) /或產生之程序之故。如此,大部份的pdf文件一般不支援 文件内容之分享或重新改變其之用處,且要從PDF擷取— 圖形,一說明或一章中之一段做為一整合物件一般是不可 能的。 有一些技術可得以供重新使用pdf文件内容。然而,這 些方法中的一些是複雜的,且需要大量使用者互動,同時 其他的從螢幕位元圖來擷取所選文件部份的片段内容,以 此方式會遺失所有原始文件結構以及屬性資訊,連同解析 度,其通常受限於72 dpi螢幕解析度。 發明總結 本發明之一實施例之一觀點係要提供一種用以擷取一 攜式文件格式(“pdf”)文件之一區段之方法。 在一實施例中,該方法可包括接收在一 pdf播案頁面上 的一使用者定義區域之指示,判斷在pdf頁面上的每個元素 疋否在使用者定義區域中,指派一包括所有判斷為在使用 者定義區域中之元素之擷取區域,且將擷取區域置於一新 的pdf檔案’中。 熟技藝之人士將藉由閱讀下列較佳實施例之詳細說 明,並參考下面列出的圖式來體會到本發明之許多不同的 實施例之這些以及也的優點和好處。 本發明之其他觀點包括檢查所擷取的區域之正確性。 在一實施例中,可將所擷取區域以及原始的文件轉換成位 元圖影像並一個位元一個位元地檢查。 五、發明說明(3 ) 圖式簡述 以範例之方式來說明本發明,且不受限於所附圖式 中其中類似的數字參考指類似的元件,且其中: 第1圖為一說明了一擷取工具之一實施例之方塊圖; 第2圖說明了_可攜式文件格式文件之結構之範例; 第3圖為一說明了 一種用以擷取一可攜式文件格式頁 面之一區段之方法的示範性實施例之流程圖;以及 第4圖為一說明了 一擷取區域判斷程序之範例之方塊 圖。 發明之詳細說明 在下列詳細說明中,提出許多特定細節係為了提供之 通盤了解。然而,對於熟悉技藝之人士來說可不需要這些 特定細節來實現本發明是明顯的。在其他情況中,未詳細 地顯示廣為人知的結構,介面,以及方法以免不必要地模 糊了本發明。 第1圖為一說明了一擷取工具之一實施例之方塊圖。擷 取工具1 〇〇可包括一輸入/輸出模組丨丨〇,一區段判斷模組 120 ’ 一記憶體模組130,一文件產生模組14〇,一驗證模組 150,以及處理模組160。模組110-160顯示為位於擷取工具 1〇〇内只是觀念性之目的。在其他實施例中,模組11〇_16〇 之一或更多可位於操取工具100之外,且如需要的話可由掘 取工具100來呼叫。 輸入/輸出模組110可從一使用者接收指令,諸如用以 擷取一可攜式文件格式檔案之一區段之指令。這些指令可 1237191 五、發明說明(4 ) 包括使用者晝出-盒狀或其他形狀以畫出使用者想搁取至 一諸如新的pdf槽案之新文件之pdf檔案之區段的輪廓。輸 入/輸出模組110亦可呈現給使用者關於擷取之執行的指令 或訊息,諸如例如呈現給使用者一有關擷取之正確性之訊 息,如下面與第3圖相關說明的。 區段判斷模組120可判斷pdf槽案中的什麼元素應包括 在新文件中。例如,若使用者定義區域包括元素之部份, 則區段判斷模組120可應用包含規則來判斷元素是否應包 括在要擷取至新文件之區域中。 記憶體模組130可用來儲存影像資訊,資料,指令,或 任何其他可共擷取一 pdf檔案之區段用之資訊。例如,記憶 體可用來儲存使用者定義區域,同時區段判斷模組120判斷 什麼元素會包括在擷取區域中。 文件產生模組140可藉由擷取由區段判斷模組12〇所定 義之區域中之元素至新文件中來產生新文件。在一實施例 中。新文件產生模組140可將擷取區域中的元素擷取至一新 的pdf文件中。 驗證模組150可驗證由文件產生模組14〇所產生之新文 件中之擷取區域之正確性。在一實施例中,驗證模組15〇 可將原始文件和文件產生模組140所產生的新文件轉換成 位兀映射影像以供比較之用,如下面關於第3圖加以說明 的。 處理模組160可執行下面相關第3圖說明的程序,使用 由模組110,12〇,140和150所接收到的指令。例如,處理 1237191 五、發明說明(5 ) 模組160可以由區域判斷模組12〇所接收到的包含規則來增 力使用者疋義區域之大小。一包含規則之範例係要完全地 包括所有與使用者定義區域交叉之元素。 第2圖說明了一pdf文件之結構之範例。一pdf文件2〇〇 可包括一文子元素210, 一圖表元素220以及影像元素230。 文件元素210由文字串構成,其為具有相同屬性之字元串。 一文字元素240為一文字串之表示。圖表元素22〇為由一直 線,矩形,和立方Bezier曲線序列構成之任意形狀。影像 凡素230為藉由掃瞄列或行中之影像箭頭所得到的像素序 列。每個素210, 220, 230可存在於其對應的邊界盒211, 221 , 231内。 邊界盒為圍繞在-文件中之物體中之矩形,且可指將 頁面上的物體完全包圍之最小矩形。可例如透過ad〇be 之acrobat軟體發展工具組應用程式員界面來得到對 母個7G素之邊界盒位置和大小,其中—邊界盒保證包圍元 素仁不夂為包含兀素之最小盒子。為了實現較高的擷 取結果正確性, 可修改一邊界盒為包含元素之最小的邊界 盒。例如,對—矩形圖表元素來說,可修改邊界盒為矩形 本身之輪廊。 邊界盒對於-文件之觀看者來說是看不見的。在示範 性的pdf文件中,文字元素21〇存在於邊界盒211中圖 表元素220之每"'個存在於其相關三邊界盒221中,而230 尹的每個影像元素存在於其相關的邊界盒231中。幻圖為 -說明了-種用以擷取一可攜式文件格式(“,)頁面之一 1237191
五、發明說明(6 ) 區段之方法之示範性實施例之流程圖。應體會到與第3圖相 關說明之方法不需要所有描述的步驟且步驟之次序可視設 計而改變。 在步驟3 10上,擷取工具100接收一pdf頁面之使用者定 義區域之指示以供擷取之用。在一實施例中,使用者可在 使用者感興趣區域附近晝一矩形或其他形狀以識別要擷取 之區域。這樣一個矩形或形狀稱為一選擇幕。在一實施例 中’使用者使用一物件識別工具來識別要擷取之區域。在 一實施例中,一使用者可使用一在ADOBEACROBATtm中 可得到的圖表選擇工具來晝出感興趣的區域。然後使用者 可從一選單或工具列按下擷取工具100之模組16〇之擷取處 理圖示。在一實施例中,物件識別工具為輸入/輸出模組11〇 之一部份。 在步驟320上,擷取工具1〇〇可判斷原始pdf頁面的什麼 元素在經由輸入/輸出模組11 〇所接收到的之要擷取的使用 者定義區域中。在一實施例中,區域判斷模組12〇判斷原始 pdf的什麼元素在要擷取的使用者定義區域内。因為使用者 看不到元素的邊界盒21卜22卜231且一邊界盒可大於使用 者所選之感興趣區域之實際元素,且可不包括所有元素之 邊界盒。如此,區段判斷模組12〇可應用包含規則(或者另 外用排除規則)來以感興趣的使用者定義區域為基礎來判 斷應掏取哪些元素。 在一實施例中,包含規則可基於元素之型式。例如, 若整個邊界盒221 ’ 231在使用者定義區域中,則可判斷一 五、發明說明(7 ) 圖表或影像元素220,230只在擁取區域t。如此,若一圖 表或影像元素22〇,23〇之邊界盒221,231與使用者定義區 域交又’但未完全在使用者定義區域中,則圖表或影像元 素220,230將不包括在擷取程序中。 —在一實施例中’若其邊界盒221之—部份或全部與使用 者定義的感興趣區域交叉’則可將一文字元素2丨〇或文字元 素210之一部份包括在擷取區域中。在一實施例中若文字 元素210之邊界盒211與使用者定義區域交又,縣段判斷 模組120可求出是否文字元素21〇之次元素或文字 240在使用者定義區域中。若_文字以素之邊界盒241完 全在使用者㈣區域中,或若文字串元素之邊界盒之任何 部份與使用者定義區域交又,則感興趣的使用者定義區域 可加以延伸以包括在擷取區域中的整個文字串元素之邊界 盒。 、 因為大字串元素240之邊界盒有時甚大於文字本身因 此使用者定義區域可不包括整個文字串㈣24〇之邊界 盒。如此’包括任何與感興趣之使用者定義區域交又之文 字串元素240會對要包含由使用者選擇來_取之所有元素 在步驟330上’擁取工具⑽可指派-擷取區域。在判 斷步驟320之末了,可㈣取區域定義為包括所有被判斷為 要包括於擷取中之元素。 檔案 在步鍊340上,掏取工具⑽可將掏取區域置入—新的 中。在-實施例中’文件產生模組14〇可產生一第二_ 1237191 五、發明說明(8 ) 文件,且將擷取到的區域***第二pdf中。在其他實施例 中,文件產生模組140可將擷取區域***一已存在的第二 pdf中,或一桌面列出軟體文件中,諸如舉例來說一ADOBE FRAMEMAKERtm*ADOBE INDESIGNTM文件。 在步驟350上,擷取工具100可檢查在第二pdf文件中之 擷取區域以得到與原始檔案中之使用者定義區域之差異。 在一實施例中,驗證模組150可藉由將在步驟330上所定義 的原始文件擷取區域轉換成一第一位元映射影像並將第二 pdf文件之擷取區域轉換成一第二位元映射影像來驗證第 二pdf文件之正確性。在對齊了二個位元映射之後,則驗證 模組150可一個位元一個位元地來比較第二位元映射影像 以及第一位元映射影像。 若在二影像之間有差異,則擷取工具100可藉由透過輸 入/輸出模組110呈現給使用者一訊息之方式來通知使用者 有差異。例如,擷取工具100可附加一驗證訊息至第二pdf 文件,以讓使用者知道在置於第二pdf文件中之擷取影像與 定義於原始pdf文件之擷取區域之間的差異。 第4圖為一說明了擷取區域判斷方法之一例的方塊 圖。一文件401可包括圖表或影像元素452-454以及文字元 素451。在使用者指出一使用者定義區域450A之後,使用 者定義區域被輸入410至區段判斷模組420中。區段判斷模 組420判斷文件401的哪些元素應包括於使用者定義區域 中。如所示,當指派330—擷取區域450b時,雖然文字串元 素451只與使用者定義區域450a交叉,但使用者定義區域
11 1237191 五、發明說明(9 ) 450a被延伸以包括一文字串元素451。 用以擷取一所述的使用者定義區域之方法允許一使用 者選擇一在pdf文件中之區域並選擇擷取區域之選項。擷取 工具100無需來自使用者的進一步互動。工具100允許一使 用者重新使用者所選擇的pdf文件之内容而不需再學習或 執行複雜的方法。 如上述,步驟3 10-35G可編譯至電腦程式中。這些電腦 程式可存在於多種不同的主動和被動型式中。例如,電腦 程式可存在為由電腦指令或原始碼,物件碼,可執行碼或 其他型式之敘述所構成的軟體。上述之任一項可實施於一 電腦可讀取媒介中,其包括儲存裝置與訊號,壓縮或未壓 縮型式。示範性的電腦儲存可讀取儲存裝置包括傳統的電 腦系統RAM(隨機存取記憶體),r〇m(唯讀記憶體), EPROM(可清除,可規劃R0M),EEPR〇M(可電氣清除,規 劃的ROM),以及磁性或光學或光磁片或匣。示範性的電 月尚可讀取訊號,無論有無使用一載波加以調變者,為可組 態一處理或執行電腦程式之電腦系統來存取之訊號,包括 透過網際網路或其他網路所下載的訊號。前述的具體範例 包括在一 CD ROM上,或透過網際網路下載的電腦程式之 可執行軟體程式。就某種意義來說,網際網路本身,做為 抽象本負即為一電腦可讀取的媒介。一般來說電腦網路亦 如此。 在已連結其之特定實施例來說明本發明之同時,顯而 易見地許多選擇,修改和變化對於熟悉技藝之人來說是明

Claims (1)

1237191 15 年月日#'备9本-----六、申請·1¾範圍 第91121915號申請案申請專利範圍修正本 93.07.09. 一種從可攜式文件格式檔案擷取頁面之區段之方法,其 特徵在於包含下列步驟: 接收在一可攜式文件格式(pdf)檔案頁面上的使用 者定義區域之指示; 判斷pdf頁面上的一或多個元素是否在使用者定義 區域内; 指派一擷取區域,其包括被判斷為在使用者定義區 域中的所有元素;以及 將擷取區域置入一新槽案中。 如申請專利範圍第1之方法,其中對_或多個元素是 否在使用者定義區域之判斷包含以元素型式為基礎來 應用擷取判斷規則至每個元素。 如申請專利範圍第2項之方法,其中元素型式包含圖表 元素,影像元素以及文字元素至少之一。 如申請專利範圍第3項之方法,其中應用擷取判斷 包含: —若-圖表元素之邊界盒在使用者定義區域中則將 一圖表元素包括於擷取區域中;以及 —若-影像元素之邊界盒在使用者定義區域中則將 一影像元素包括於擷取區域中。2請專利範圍第3項之方法,其中應«取判斷規則 2. 3. 4. 若一文字 凡素之邊界盒在使用者定義區域中 則將
14 1237191 六、申請專利範圍 一文字元素包括於抬員取區域中; 若文字元素與使用者定義區域交叉則求出文字元 素之次元素是否在使用者定義區域内; 若次元素在使用者定義區域内則包括文字元素之 一次元素,以及 若文字7L素之次元素與使用者定義區域交叉,則延 伸使用者定義區域以包括文字元之一次元素。 6·如申明專利範圍第1項之方法,進一步包含驗證在新檔 案中之擷取到的使用者定義區域之正確性。 7.如申請專利範圍第6項之方法,其中驗證在新檔案中掘 取到的使用者定義區域之正確性包含將pdf檔案頁面轉 換成-第-位元映射影像以及將在新槽案中掏取到的 使用者疋義區域轉換成_第二位元映射影像,並一個位 疋一個位7G地比較第一位元映射影像與第二位元映射 影像以確認擷取之正確性。 、 8·如申請專利範圍第7項之方法,進一步包含若在第一位 疋映射影像以及第二位元映射影像之間有一差異的 送,則呈現給使用者一關於pdf檔案頁面以及新伊案中 所擷取到的使用者定義區域間之差異的訊息。 9.如申請專利範圍第旧之方法,其中接收在邮槽案 上的使用者定義區域之指示包含接收晝在 上的使用者定義區域之輸入。 茶頁面 10·如申請專利範圍第!項之方法,其中接收在蝴當 上的使用者定義區域之指示包含在使用者於pdf播案頁 15 1237191
六、申請專利範圍 面上晝出使用者定義區域之後,接收一在pdf螢幕上的 按鈕之使用者選擇。 11·如申请專利範圍第旧之方法,其中新槽案包含一可攜 式文件袼式檔案以及一桌面列出軟體檔案之一。 種用以擷取可攜式文件格式播案之頁面之區段的系 統,其包含·· 用以接收在一可攜式文件格式(pdf)檔案頁面上的 使用者疋義區域之指示的裝置; 用以判斷在pdf頁面上的一或多個元素是否在使用 者定義區域内之裝置; 用以指派一擷取區域之裝置,該區域包括所有被判 斷為在使用者定義區域内之元素;以及 用以將掘取區域置入一新槽案中之裝置。 13.如申請專利範圍第12項之系統,其中用以判斷一或多個 元素是否在使用者定義區域中之裝置包含用以基於元 素型式應用擷取判斷規則至每個元素之裝置。 14·如申請專利範圍第13項之系統,其中用以應用擷取判斷 規則之裝置包含: 用以若一圖表元素之邊界盒在使用者定義區域内 則將一圖表元素包括於擷取區域中之裝置;以及 用以若一影像元素之邊界盒在使用者定義區域内 則將一影像元素包括於擷取區域中之裝置。 15.如申請專利範圍第13項之系統,其中用以應用擷取判斷 規則之裝置包含: 16 1237191
、申請專利範圍 用以若一文字元素之邊界盒在使用者定義區域中 則將一文字元素包括於擷取區域中之裝置; 用以若文子元素與使用者定義區域交叉則求出文 子元素之次元素是否在使用者定義區域内之裝置; 用以若次元素在使用者定義區域内則包括文字元 素之一次元素之裝置,以及 用以若文字元素之次元素與使用者定義區域交
叉則延伸使用者定義區域以包括文字元之一次元素之 裝置。 μ 16·如申請專利範圍第12項之系統,進一步包含: 用以驗證在新檔案中之擷取到的使用者定義區域 之正確性之裝置。 17·如申μ專利範圍第16項之系統,其中用以驗證在新檔案 中表貞取到的使用者定義區域之正確性之裝置包含用二 將Pdf槽案頁面轉換成—第_位元映射影像以及將在新
檔案中擷取到的使用者定義區域轉換成一第二位元映 射衫像之裝置,以及用以一個位元一個位元地比較第一 位7C映射影像與第二位元映射影像以確認擷取之正確 性之裝置。 18·如申請專利範圍第17項之系統,進一步包含用以若在第 一位兀映射影像以及第二位元映射影像之間有一差異 的話,則呈現給使用者一關於吨檔帛頁面以及新槽案 中所擷取到的使用者^義區域間之差異的訊息之裝置。 19.種包含有可執行指令之電腦可讀取之記錄媒體,該等 17 I237l9l 申清專利範圍 才"於-處理系、統中執行時,使得系統執行—包含下列 步驟之方法: 接收在可攜式文件袼式(Pdf)槽冑頁面上的使用 者定義區域之指示; 判斷pdf頁面上的一或多個元素是否在使用者定義 區域内; 指派一擷取區域,其包括被判斷為在使用者定義區 域中的所有元素;以及 將擷取區域置入一新檔案中。 20.如申請專利範圍第19項之電腦可讀取之記錄媒體,其中 該方法進一步包含驗證在新檔案中之擷取到的使用者 定義區域之正確性。 10
TW091121915A 2001-10-09 2002-09-24 Method of extracting a section of a page from a portable document format file, system for extracting a section of a page of a portable document format file, and computer readable medium containing executable instructions TWI237191B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/972,055 US6801673B2 (en) 2001-10-09 2001-10-09 Section extraction tool for PDF documents

Publications (1)

Publication Number Publication Date
TWI237191B true TWI237191B (en) 2005-08-01

Family

ID=25519103

Family Applications (1)

Application Number Title Priority Date Filing Date
TW091121915A TWI237191B (en) 2001-10-09 2002-09-24 Method of extracting a section of a page from a portable document format file, system for extracting a section of a page of a portable document format file, and computer readable medium containing executable instructions

Country Status (7)

Country Link
US (1) US6801673B2 (zh)
EP (1) EP1435053B1 (zh)
JP (1) JP2005536783A (zh)
AU (1) AU2002335800A1 (zh)
DE (1) DE60219048T2 (zh)
TW (1) TWI237191B (zh)
WO (1) WO2003032202A2 (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7020837B1 (en) * 2000-11-29 2006-03-28 Todd Kueny Method for the efficient compression of graphic content in composite PDF files
US20030163785A1 (en) * 2002-02-28 2003-08-28 Hui Chao Composing unique document layout for document differentiation
US8904267B2 (en) * 2003-10-14 2014-12-02 International Business Machines Corporation Retrieving slide show content from presentation documents
US7386789B2 (en) 2004-02-27 2008-06-10 Hewlett-Packard Development Company, L.P. Method for determining logical components of a document
JP4448537B2 (ja) * 2004-04-26 2010-04-14 コダック グラフィック コミュニケーションズ カナダ カンパニー グラフィック要素を含む文書同士を比較するシステム及び方法
US20060112332A1 (en) * 2004-11-22 2006-05-25 Karl Kemp System and method for design checking
US7739587B2 (en) * 2006-06-12 2010-06-15 Xerox Corporation Methods and apparatuses for finding rectangles and application to segmentation of grid-shaped tables
JP2008009572A (ja) * 2006-06-27 2008-01-17 Fuji Xerox Co Ltd ドキュメント処理システム、ドキュメント処理方法及びプログラム
AU2007202141B2 (en) * 2007-05-14 2010-08-05 Canon Kabushiki Kaisha Threshold-based load balancing printing system
US8780381B2 (en) * 2008-02-07 2014-07-15 Konica Minolta Laboratory U.S.A., Inc. Methods for printing multiple files as one print job
US8161023B2 (en) * 2008-10-13 2012-04-17 Internatioanal Business Machines Corporation Inserting a PDF shared resource back into a PDF statement
US8443278B2 (en) 2009-01-02 2013-05-14 Apple Inc. Identification of tables in an unstructured document
JP5321109B2 (ja) * 2009-02-13 2013-10-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP4725657B2 (ja) * 2009-02-26 2011-07-13 ブラザー工業株式会社 画像合成出力プログラム、画像合成出力装置及び画像合成出力システム
US8294960B2 (en) * 2009-03-03 2012-10-23 Brother Kogyo Kabushiki Kaisha Image processing device and system, and computer readable medium therefor
JP4725658B2 (ja) 2009-03-03 2011-07-13 ブラザー工業株式会社 画像合成出力プログラム、画像合成出力装置及び画像合成出力システム
CN101901341B (zh) * 2009-05-25 2013-10-23 株式会社理光 从可移植电子文档中提取光栅图像的方法和设备
US8099397B2 (en) * 2009-08-26 2012-01-17 International Business Machines Corporation Apparatus, system, and method for improved portable document format (“PDF”) document archiving
CN102081594B (zh) 2009-11-27 2014-02-05 株式会社理光 从可移植电子文档中提取字符外接矩形的设备和方法
JP4935891B2 (ja) * 2009-12-21 2012-05-23 ブラザー工業株式会社 画像合成装置及び画像合成プログラム
US8380753B2 (en) 2011-01-18 2013-02-19 Apple Inc. Reconstruction of lists in a document
US8549399B2 (en) 2011-01-18 2013-10-01 Apple Inc. Identifying a selection of content in a structured document
JP5327246B2 (ja) * 2011-02-08 2013-10-30 ブラザー工業株式会社 画像処理プログラム
JP2012238953A (ja) * 2011-05-10 2012-12-06 Sharp Corp 画像形成システム、および、機能付加方法
CN102306294A (zh) * 2011-08-23 2012-01-04 深圳市万兴软件有限公司 一种从pdf格式文件页面中提取图像的方法及***
US20150142444A1 (en) * 2013-11-15 2015-05-21 International Business Machines Corporation Audio rendering order for text sources
CN105373562A (zh) * 2014-08-27 2016-03-02 北大方正集团有限公司 一种pdf文档注释的获取方法及装置
US10146763B2 (en) * 2016-01-29 2018-12-04 Bank Of America Corporation Renderable text extraction tool
US10445615B2 (en) 2017-05-24 2019-10-15 Wipro Limited Method and device for extracting images from portable document format (PDF) documents
CN117912017A (zh) * 2020-02-17 2024-04-19 支付宝(杭州)信息技术有限公司 文本识别方法、装置及电子设备
US11657078B2 (en) 2021-10-14 2023-05-23 Fmr Llc Automatic identification of document sections to generate a searchable data structure

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5896462A (en) * 1994-10-04 1999-04-20 Stern; Yonatan Method for storing and retrieving images in/from a database
JP3425834B2 (ja) 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
JP2000500887A (ja) * 1995-09-25 2000-01-25 アドビ システムズ インコーポレイテッド 電子文書への最適アクセス
GB2317470A (en) 1996-09-24 1998-03-25 Ibm Screen remote control
US5963669A (en) 1997-01-02 1999-10-05 Ncr Corporation Method of extracting relevant character information from gray scale image data for character recognition
US6044375A (en) 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
US6583890B1 (en) * 1998-06-30 2003-06-24 International Business Machines Corporation Method and apparatus for improving page description language (PDL) efficiency by recognition and removal of redundant constructs
US6708309B1 (en) * 1999-03-11 2004-03-16 Roxio, Inc. Method and system for viewing scalable documents
US6633890B1 (en) * 1999-09-03 2003-10-14 Timothy A. Laverty Method for washing of graphic image files
US6732102B1 (en) * 1999-11-18 2004-05-04 Instaknow.Com Inc. Automated data extraction and reformatting
US6654758B1 (en) * 2000-07-21 2003-11-25 Unisys Corporation Method for searching multiple file types on a CD ROM

Also Published As

Publication number Publication date
EP1435053A2 (en) 2004-07-07
US20030068099A1 (en) 2003-04-10
DE60219048T2 (de) 2007-10-31
DE60219048D1 (de) 2007-05-03
JP2005536783A (ja) 2005-12-02
AU2002335800A1 (en) 2003-04-22
EP1435053B1 (en) 2007-03-21
US6801673B2 (en) 2004-10-05
WO2003032202A3 (en) 2003-11-06
WO2003032202A2 (en) 2003-04-17

Similar Documents

Publication Publication Date Title
TWI237191B (en) Method of extracting a section of a page from a portable document format file, system for extracting a section of a page of a portable document format file, and computer readable medium containing executable instructions
US9092417B2 (en) Systems and methods for extracting data from a document in an electronic format
US7349911B2 (en) Data processing method and apparatus
US6507855B1 (en) Method and apparatus for extracting data from files
US7188307B2 (en) Access system
EP1051685B1 (en) Information storage and retrieval system for storing and retrieving the visual form of information from an application in a database
US7281016B2 (en) Electronic information management server, electronic information management client, electronic information management method and recording medium for recording electronic information management program
US9514103B2 (en) Effective system and method for visual document comparison using localized two-dimensional visual fingerprints
US8494257B2 (en) Music score deconstruction
US6571248B1 (en) Data processing method and apparatus
EP1473643A2 (en) File management method, file management device, annotation information generation method, and annotation information generation device
JP2006120125A (ja) ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム
US7958458B2 (en) Method for supporting data linkage between applications
CN111259202A (zh) 一种文档结构化数据嵌入方法及***
JP2009200699A (ja) 画像処理装置および画像処理方法
US20010002471A1 (en) System and program for processing special characters used in dynamic documents
JP2973913B2 (ja) 入力シートシステム
JP2001337994A (ja) サムネイル表示システムと方法およびその処理プログラムを記録した記録媒体
US6629101B1 (en) Data processing method and apparatus, and storage medium
US6983290B2 (en) Apparatus and method for accessing resources
JP2008257537A (ja) 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム
JP2004145736A (ja) 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体
EP4156057A1 (en) Information processing apparatus, data management method, and carrier medium
JP7501255B2 (ja) 文書検索システム、文書検索方法およびプログラム
JP2007323415A (ja) 情報検索装置、情報検索システム、情報検索装置の制御方法、及び制御プログラムを提供する媒体

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees