TWI322950B

TWI322950B -

Info

Publication number: TWI322950B
Application number: TW096106121A
Authority: TW
Inventors: Tzu Kuei Huang; Hong Yang Tsai
Original assignee: Esobi Inc
Priority date: 2007-02-16
Filing date: 2007-02-16
Publication date: 2010-04-01
Also published as: US20080201633A1; TW200836075A; US8196036B2

Description

第96106121申請案替換頁（修正日期：98年12月）、發明說明：【發明所屬之技術領域】本發明是有關於一種網頁轉換成純文字的方法，特別是指一種使目標網頁轉換成純文字的方法及其系統。【先前技術】隨著網際網路的普及，人們愈來愈習慣透過網際網路來獲得訊息與查詢資料，例如直接登入網站來瀏覽新聞網頁或文章網頁等，目前網頁的格式大都為超文件標示語言 (Hypertext Markup Language ;以下簡稱 HTML)。又，目前網路上出現一種新資訊提供方式，稱為簡單聯合供稿（Really Simple Syndication，以下簡稱 RSS )，讓使用者可自行訂閱想看資訊内容，而將網頁中最新訊息及新聞同步發送予訂閱者。詳細來說，使用者端安裝RSS瀏覽器後，可透過RSS瀏覽器訂閱網站所提供的各式各樣 RSS頻道。而後，RSS瀏覽器會定期更新已訂閱RSS頻道，即RSS瀏覽器每隔一段時間會主動下載訂閱頻道中新的新聞或文章的簡介（如標題、摘要與連結網址）至使用者端，讓使用者即時瞭解頻道的更新資訊。若使用者對新的新聞或文章有興趣時，點選簡介即可利用其連結網址連結對應 HTML網頁瀏覽完整内容。然而，無論以直接登入網站或以RSS瀏覽器瀏覽 HTML網頁，HTLM網頁常同時存在許多無涉於主要内容的資訊，如廣告、其他HTML網頁的介紹、網站資訊等等，影響使用者對網頁中主要内容的閱讀速度，造成使用者難第96106121申請案替換頁（修正曰期：98年12月）以迅速瞭解網頁的主要内容。【發明内容】因此，本發明之一目的，即在提供一種便於閱讀之使目標網頁轉換成純文字的方法及其系統。本發明之另一㈣，即纟提供一種可達到純文字轉換精確度較高之使目標網頁轉換成純文字的方法及其系統。於是，本發明使目標網頁轉換成純文字的方法，豆係先取得-目標網頁的超文字標示語言原始碼，並執行；;前置標籤程序以擁取出一主體部分，該主體部分内具有多數個字争及多數個位於前述字串間的標籤，再依據該主體部分進行以下步驟： ⑷計算該主體部分内各字串的長度與位置，找出其中長度為前第-預設值百分比的字串，前述前第一預設值百分比的字率的數量，等於主體部分内所有字率數量與該第一預設值百分比的乘積； —⑻分析該前第—預設值百分比字串中各該字串與其餘字串間的一位置間隔，並對於盥，、这刖第一預設值百分比之各子串位置間隔不大於一第机 n 罘預6又值的字串，標示為一同一個區塊，以找出一最大區塊；及 (C)刪除該最大區塊内該等要内容。寻子串間的標籤以取得一主如此，本發明藉由對目標網頁碼中的標籤處理及以字串的長声鱼出〜由予標不$原始

判斷主要内容的位置，以達到精 U 心取侍純文字的主要内第961〇6121申請案替換頁（修正曰期：98年12月）容之功效。【實施方式】有關本發明之前述及其他技術内容、特點與功效，在以下配合參考圖式之一個較佳實施例的詳細說明中，將可清楚的呈現。圖1係揭露本發明純文字轉換系統的較佳實施例，此純文字轉換系統2用以將目標網頁的超文字標示語言 (Hypertext Markup Language;簡稱 HTML)原始碼轉換成純文字的主要内容。純文字轉換***2可為一動體或一程式，此程式可先儲存於諸如光碟之類的儲存媒體上，以供使用者安裝於其電子裝置内來執行。目標網頁係由為一個或多個伺服器構成之網站4來提供，此目標網頁係以新聞網頁或文章網頁為佳。

本實施例的純文字轉換系統2整合於一簡單聯合供稿劉覽器 1 ( Really Simple Syndication Reader，以下簡稱 RSS 瀏覽器）内’ A RSS劉覽器i安裝於—可連線網際網路之電子裝置，如電腦。網站4提供至少一為RRS瀏覽器丄訂閱的RSS頻道41 ’而當網站4有新目標網頁時，使用者可透過RSS㈣器i的㈣更新取得新目標網頁的簡介(如標題 '摘要與連結網址）’以即時獲知網站4有新目標網頁存在’使用者對目標網頁的内容有興趣時可利用簡介連結至網站4連結至對應目標網頁來瀏覽完整内容。此刻，rss 瀏覽器1連結至網站4的目標網頁時，會下載目標網頁的 HTML原始碼以於RSS㈣器】顯示目標網頁。使用者可第96106121申請案替換頁（修正曰期：98年12月）透過RSS㈣器1之操作介面（圖未示）來設定純文字轉換系統2將目標網頁轉換成純文字的主要内容，進而聊劉覽器1可顯示此純文字的主要内容給使用者瀏覽。應注意的是，本發明的純文字轉換系統2亦可整合於其他支援網頁瀏覽程式，如IE，或整合於網站4内，^形成一獨立程式，並不應受限於本實施例所揭露者。當然，本實施例的RSS瀏覽器！更具有其他的RSS瀏覽器:的'基本構件，如一用以因應使用者之控制指令以執行對應工作之控制模組，然而此廣為熟習該項技藝者所熟知且非本案改良重點，故不在此贅述》本實施例純文字轉換系統2係自HTML原始碼擷取主要内容。HTML原始碼係由文字與標籤所構成，故原始碼含有多數個字串與多數個標籤，而這些字串中部分字串可能為目標網頁的主要内容、部分字串可能用來定義或註解目標網頁而無涉於主要内容、部分字串可能屬於廣告。本實施例的純文字轉換系統2包括一前置標籤處理模組21、一區塊分析模組22及一後續標籤處理模組22。前置標籤處理模組21接收HTML原始碼後進行一前置標籤程序（容後再述）以對HTML原始碼内的標籤或空白 (white space)作處理以擷取出可能與主要内容相關之一部分以傳送至區塊分析模組21，作為主體部分。主體部分内具有多數個字串及多數個位於該等字串間的段落格式標籤，此段落格式標籤界定這些字串相互間的關係，例如_ 和一 </p>或一 <br>，<!)>和</p>係定義兩標籤間字串係一個段第96106121申請案替換頁（修正曰期：98年12月）落（Paragraphs)’ 而 <br>代表斷行〈Line Breaks〉。範例1 <html> <body> 主體 </body> </html> 如上述範例1，一般HTML原始碼撰寫，會將<b〇dy> 與</body>間的内容稱為主體，與主要内容相關的字串會出現於此處，例如為新聞網頁時，此則新聞文章的主要内容的字串會出現於主體内。故，前置標籤處理模組21於接收 HTML原始碼會先取出其主體。主體中會有多數個字串與標籤’其中大部分標籤係與主要内容無關、且部分字串係用來作註解或定義’故前置標籤處理模組21會進一步刪除主體内無涉於主要内容的標籤與字串。因此’本實施例前置標籤處理模組21更儲存一具有與 δ主解與疋義相關標鐵對之第一預設標鐵群組及一具有與 HTML元素位置、顏色、字體、字型等HTML格式相關標籤之第二預設標籤群組。此第一預設標戴群組具有· — <script>^〇 — </script>、一〈style〉和一 </style> 及一 <!--和一 ”> 等等。<script> 和 </script>S用來定義程式碼語言，故<扣1_丨{^>和</3(^{^>間的字串可能是javascript的程式碼。<style>* </style>用來定義格式設定，故<style>* </style>間的字串可能是描述目 1322950 第96106121申請案替換頁（修正日期：兕年^月）標網頁内的格式，如它的字體、字型、顏色間距等的資訊。〈丨一和一>用來定義不會顯示於目標網頁上的註解故 <! -·和·_〉間的字串是註解。本實施狀第二預設標鐵群組具有—定義字型用的 <f〇nt>、一定義斜體字的<卜、—定義粗體字的<b>、一定義打字機字之<«>、-定義加底線的<u>、—定義劃刪除線的 <stdke>、-定義下標的<sub>、—定義上標的<sup>、—定義保持原貌的<pre>及一定義強調的<_等等。應注意的是，本實施例雖先將可能相關的標籤預設於第—預設標鐵群組與第二標籤群組内，然而，事後亦可透過更新第一預設標籤群組與第二標籤群組的内容，來適時增刪標藏。如此’前置標籤處理模組21會於主體中存在與第一預設標籤群組相符標籤時，刪除相符標籤間的字串與相符枳籤。主體中存在第二預設標籤群組相符的標鐵，前置㈣處理模組21刪除相符標籤。再者，經前述處理的主體可能存在多數個相鄰的空白，本實施例前置標籤處理模址η更 =多數個μ轉換成-個空白，以得到供區塊分析模組 22的部分並傳送至區塊分析模組22。 —-般HTML原始碼中諸如新聞或部落格文章網頁的内谷在往是較長字串且這些字串的位置常相近而可聚集成一 =區塊。因此，區塊分析模組22分析部分内各字串的二最找出一最大區塊，而後再由後續標鐵模組23 ::最大區塊内段落格式標藏以作為純文字的主要輸出給RSS劉覽器卜以套用預設版面顯示給使 10 第96106121申請案替換頁（修正日期：98年12月）〇在以下段落’參照圖2，將純文字轉換系統2的工作流程作說明，而前述模組21〜23的功能將可在以下說明中更L 加清楚。首先’在步驟50中前置標籤處理模組21接收目標網 = ^HTML原始碼後，執行步驟51的前置標籤程序以取得卵步至驟^分析模組22°前置標籤程序（指步驟參照圖3,前置標籤處理模組21 HTML原始碼的一主 T取出 / 為主體部分，指位於<^>〇(^>與穴間的内容。而後，於步驟512中，1、組U判斷主料是否"512巾U標戴處理模。若步驟512 子在與第一預設標籤群組相符之標籤 4二Γ是時，執行步驟513刪除主體内相符判斷為否，則繼續步驟t14°=513結束後㈣驟W 模組21判斷主體中 v驟514中’刖置標籤處理藏，並於判斷有時執行步二預設標鐵群組相符之標標籤群組相符的桿M 以刪除主體中與第二預設結束後，執行514判斷為否或㈣… 空白。步戰516 體是否存在多數個相鄰的個相鄰空白轉換成一個:時别置標籤處理模組21將多數 -行而這些字串門疒固工白後’使不同行的字串會位於同 <p>和H<br>B。=未删除的段落格式標籤來區隔，如完成前置標籤程序，'並J16判斷為否或步驟517結束後，並將經前述步驟川〜5Π取得且經處 1322950 第96106121申請案替換頁（修正曰期：98年12月）理之主體部分（此部分具有多數個字串與多數個段落格式標籤）傳送給區塊分析模組22，繼續由區塊分析模組22執行圖2的步驟52。應注意的是，前述步驟512、514的執行順序可依設計需求來調整，亦可同步執行，並不應受限於本實施所揭露者。在步驟52中，區塊分析模組22可利用計算來自前置標籤處理模組21擷取出之主體部分内各字串的長度與位置。緊接著，於步驟53中，區塊分析模組22從這些字串中找出長度為前第一預設值百分比的字串，以於步驟54中分析前第一預設值百分比字串中各字串與其餘字串間的一位置間隔，並於位置間隔不大於一第二預設值時，標示與此位置間隔對應字串為一同一個區塊，而後於步驟55中從標示所得的區塊中找出一個最大區塊，將最大區塊傳送給後續標籤處理模組23。第一預設值為3〜15中任一個整數，而第二預設值為2〜10中的任一個整體，本實施例中第一預設值與第二預設值之數值係預先設定。為讓前述步驟53〜55更容易被瞭解，在以下中以20個字串為例來說明，並設定第一預設值百分比為15%，所以字串長度為前第一預設百分比的字串共20x15% =3個，而第二預設值為2。

AA<p>BBBBBBBBBBBBBB<br〉CCC<br>DDDDDDDDD DDDDDD</p><p>EEEEEEEEEEEEEEEEEEEEE<br>FFFFF<b r>GG<br>HHHHHHHH<br>IIIIIIIIIIIIII</p><p>J<br>KKK<b r>LL<br>MMMM<br>N<br>00<br>P<br>QQQ<br>R<br>S< 12 1322950 第96106121申請案替換頁（修正日期：98年12月） br>TT</p> 因此，每一個字串的位置係依序遞增，B、D、E字串為前第一預設值百分比長的字串，區塊分析模組22會對B 字串往前與往後找2個位置間隔（即A字串與C、D字串），以判斷此2位置間隔内是否有其他同為前第一預設值百分比長字串存在。由於B字串與D字串間的位置間隔為2而不大於第二預設值，故B、C、D字串會被標示為同一區塊，而後以此區塊繼續再往前與往後找2個位置間隔（即A字串與E、F字串），D與E間的位置間隔為1其小於第二預設值，故B、C、D、E字串會被標示會同一區塊，此範例中B、C、D、E構成的區塊即為最大區塊。步驟55結束後，繼續步驟56，後續標籤處理模組23 進一步刪除最大區塊内的段落格式標籤以取得純文字的主要内容，進而於步驟57中輸出給RSS瀏覽器1並套用預設版面以純文字方式顯示給使用者瀏覽。以前述範例來說，則顯示主要内容如下：

BBBBBBBBBBBBBB CCC DDDDDDDDDDDDDDD

EEEEEEEEEEEEEEEEEEEEE 據前所述，本發明利用前置標籤程序來刪除HTML原始碼中無涉於主要内容的標籤與字串以取出與主要内容相關的部分，而後利用此部分内的字串長度及相互間的位置間隔來找出最大區塊，最後再刪除最大區塊中剩餘標籤（指段落格式標籤），以得到純文字的主要内容來供使用者瀏覽，不僅可精確轉換目標網頁的主要内容為純文字，而且使 13 1322950 第96106121申請案替換頁（修正曰期：％年12月）用者亦可快速瀏覽網頁中的主要内容。惟以上所述者，僅為本發明之較佳實施例而已，當不能以此限定本發明實施之範圍’即大凡依本發明申請專利範圍及發明說明内容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍内。【圖式簡單說明】圖1是本發明純文字轉換系統的較佳實施例，此實施例的純文字轉換系統係位於RSS瀏覽器内並可接收一網站的網頁；圖2是本實施例中的純文字轉換方法的流程圖；及圖3是本實施例中前置標籤程序的流程圖。 14 1322950 第96106121申請案替換頁（修正曰期：98年I2月）【主要元件符號說明】 1簡單聯合供稿瀏覽器 /RSS瀏覽器 2純文字轉換系統 21前置標籤處理模組 22區塊分析模組 23後續標籤處理模組 4網站 41 RSS頻道 50〜57、511〜517步驟 15

Claims

^22950 第96106121申請案替換頁（修正日期：98年12月）十、申請專利範圍： L —種使目標網頁轉換成純文字的方法，其係先取得一目標’周頁的超文子標示語&原始碼，並執行一前置標籤程序以擷取出一與主要内容相關的主體部分，該主體部分内具有多數個字串及多數個位於前述字_間的標籤其特徵在於：該方法是依據該主體部分進行以下步驟： (A) 計算該主體部分内各字串的長度與位置，找出其中長度為前第一預設值百分比的字串，前述前第一預設值百分比的字串的數量，等於主體部分内所有字串數量與該第一預設值百分比的乘積； (B) 分析該前第一預設值百分比字串中各該字串與其餘字串間的一位置間隔，並對於與該前第—預設值百分比之各字串位置間隔不大於一第二預設值的字串，標示為一同一個區塊，以找出一最大區塊；及 (C )刪除該最大區塊内該等字串間的標籤以取得 —主要内容。 2.依據申請專利範圍第丨項所述之使目標網頁轉換成純文字的方法，其中，該第一預設值為3〜15中的—整數該第二預設值為2〜10中的一整數。依據申凊專利範圍第1項所述之使目標網頁轉換成純文子的方法，其中，該步驟（C)中被刪除標籤係一段落格式標籤’該段落格式標籤為<br>或一 <p>*</p>。 4·—種純文字轉換系統，包含一前置標籤處理模組，用以接收一目標網頁的超文字標示語言原始碼並執行一前置 16 1322950 第96106121申請案替換頁（修正曰期· 98年丨2月）標籤程序以操取出一主體部分’該主體部分内具有多數個字串及多數個位於前述字串間的標籤；該系統還包含肚·。r刀門合子肀的長區塊分析模度與位置，找出其中長度為前第一預設值百分比的字串，前述前第一預設值百分比的字串的數量，等於該主體部分内所有字串數量與該第一預設值百分比的乘積；該區塊分析模組還分析該前第一預設值百分比字串中各該 :串與其餘字φ間的-位置間隔，並對於與該前第一預设值百分比之各字串位置間隔不大於—第二預設值的字標示為一同一個區塊，以找出—最大區塊；及 -後續標籤處理模組，刪除該最大區塊内該等字串間的標籤以取得一主要内容。依：申請專利範圍第4項所述之純文字轉換系統，其中 6.依據申請專利範圍第 ’該後續標籤處理模 17