TW200836075A

TW200836075A - Method of converting hypertext markup language web page into pure text and system thereof

Info

Publication number: TW200836075A
Application number: TW096106121A
Authority: TW
Inventors: Tzu-Kuei Huang; Hong-Yang Tsai
Original assignee: Esobi Inc
Priority date: 2007-02-16
Filing date: 2007-02-16
Publication date: 2008-09-01
Also published as: US8196036B2; TWI322950B; US20080201633A1

Description

200836075 九、發明說明：【發明所屬之技術領域】本發明是有關於一種網頁轉換成純文字的方法，特別是指一種使超文字標示語言網頁轉換成純文字的方法及其糸統。【先前技術】隨著網際網路的普及，人們愈來愈習慣透過網際網路來獲得訊息與查詢資料，例如直接登入網站來灌彳覽新聞網頁或文章網頁專’目剷網頁的格式大都為超文件標示言五古 (Hypertext Markup Language ;以下簡稱 HTML)。又，目前網路上出現一種新資訊提供方式，稱為簡單聯合供稿（Really Simple Syndication，以下簡稱 Rss)，讓使用者可自行訂閱想看資訊内容，而將網頁中最新訊息及新聞同步發送予訂閱者。詳細來說，使用者端安裝Rss劉覽器後，可透過RSS瀏覽器訂閱網站所提供的各式各樣

Rss頻道。而後’ RSS劉覽器會定期更新已訂閱哪頻道 ’即RSS瀏覽器每隔一段時間會主動下載訂閱頻道中新的新聞或文章的簡介（如標題、摘要與連結網址）至使用者端，讓使用者即時瞭解頻道的更新資訊。錢用者對新的^ 或文章有興趣時，點選簡介即可利用其連結網址連結對: HTML網頁瀏覽完整内容。叫然而，無确以直接登入網站或以娜割 HTML網頁，肌M網f常_存在許多無涉於主要内資訊，如廣告、其他HTML、網頁的介紹、網站資訊等等， 5 200836075 影響使用者對網頁中主要内容的閱讀速度，造成使用者難以迅速瞭解網頁的主要内容。【發明内容】因此，本發明之一目的，即在提供一種便於閱讀之使超文字標示語言網頁轉換成純文字的方法及其系統。本發明之另一目的，即在提供一種可達到純文字轉換精確度較向之使超文字標示語言網頁轉換成純文字的方法及其糸統。於是’本發明使超文字標示語言網頁轉換成純文字的方法’係包含以下步驟： (A) 接收-超文字標示語言網頁的超文字標示語言原始石馬； (B) 執行一 W置標籤程序以擷取該 + :碼中的-部分’該部分具有多數個字串及多數個二：專字串間的標籤，· 、（C)計算該等字串的長度與位置，找出該等字串中長度為前第一預設值百分比的字串；又 (D) 分析該前第一預設值百分比字串中各該字串盘直餘字串間的一位置間隔’並於該位置間隔不大於一第二預

設值時標示與該位置間隔位置的對應字串為_同一個，以找出一最大區塊；及 u" A (E) 刪除該最大區塊内該等字串間的標籤以取得—主要内容。如此，本發明藉由對超文字標示語言網頁的超文字標 200836075 示浯言原始碼中的標籤處理及以字串的長度與兩字串間的位置間隔來判斷主要内容的位置，以達到精確地取得純文字的主要内容之功效。【實施方式】有關本發明之前述及其他技術内容、特點與功效，在以下配合參考圖式之一個較佳實施例的詳細說明中，將可清楚的呈現。圖1係揭露本發明純文字轉換系統的較佳實施例，此純文字轉換系統2用以將超文字標示語言（Hypertext Markup Language;以下簡稱HTML)網頁的超文字標示語言原始碼轉換成純文字的主要内容。純文字轉換系統2可為一韌體或一程式，此程式可先儲存於諸如光碟之類的儲存媒體上，以供使用者安裝於其電子裝置内來執行。HTML網頁係由為-個或多個祠服器構成之網站4來提供，此html網頁係以新聞網頁或文章網頁為佳。本實施例的純文字轉㈣統2整合於—簡單聯合供稿劉覽器 1 ( Really Simple Syndicati〇n Reader，以下簡稱 Rss 劉覽器）内’ Λ RSS㈣n !安裝於—可連線網際網路之電子裝置，如電腦。網站4提供至少一為RRS劉覽器i訂閱的RSS頻道41，a 可透過RSS瀏覽器i 而當網站4有新HTML網頁時，使用者

介連結至網站4連結至對應網頁的内容有興趣時可利用簡 HTML網頁來劉覽完整内容。 200836075 此刻’ RSS瀏覽器i連結至網站4的HTML網頁時，會下載HTML網頁的HTML原始碼以於RSS瀏覽器！顯示 HTML網頁。使用者可透過RSS瀏覽器i之操作介面（圖未示）來設定純文字轉換系統2將HTML網頁轉換成純文字的主要内容，進而RSS瀏覽器1可顯示此純文字的主要内容給使用者瀏覽。應注意的是，本發明的純文字轉換系統2亦可整合於其他支挺HTML網頁的劉覽程式，如，或整合於網站4 内，或形成一獨立程式，並不應受限於本實施例所揭露者。當然，本實施例的RSS瀏覽器1更具有其他的RSS劉覽 1的基本構件，如一用以因應使用者之控制指令以執行對應工作之控制模組，然而此廣為熟習該項技藝者所熟知且非本案改良重點，故不在此贅述。本實施例純文字轉換系統2係自HTML原始碼擷取主要内容。HTML原始碼係由文字與標籤所構成，故HTMi^ 原始碼含有多數個字串與多數個標籤，而這些字串中部分字串可能為HTML網頁的主要内容、部分字串可能用來定義或註解HTML網頁而無涉於主要内容、部分字串可能屬於廣告。本實施例的純文字轉換系統2包括一前置標籤處理模組21、一區塊分析模組22及一後續標籤處理模組22 〇别置&鐵處理模組21接收HTML原始碼後進行一前置才示籤程序（容後再述）以對HTML原始碼内的標籤或空白 (white space)作處理以擷取出可能與主要内容相關之一部分 8 200836075 以傳送至區塊分析模組2i。此部分具有多數財串及多數個位於該等字串間的段落林這此w 式標鐵，此段落格式標籤界定化些子f相互間的關係’例如_<ρ>和一〈如或一參，少和，>係定義兩標鐵間字串係—個段；· 而如〉代表斷行〈LmeBreaks〉。 _graphs) 範例1 <html> <body> 主體 </body> 如上述範例1，一般與〈/body：^^的内容，、σ馬撰寫，會將<body> J叼ΓΛί合％為主體，盥現於此處’例如為新聞 ’、谷相關的字串會出的字串會出現於主體悄文早的主要内容画“㈣會先籤處理模組η於接收藏，其中大部分標鐵係與主要内容㈣;有:數個字串與標來作註解或定義，故前置標鐵處理=部分字串係用體内盔涉於主i 旲、，且1會進一步删除主 μ要内容的標籤與字串。因此，本實施例前置標籤處註解與定義相關標斛夕链更儲存一具有與 HTML元素位置、—預設標籤群組及-具有與第二預設標籤群組。、字體、字型等_格式相關標籤之此弟一預热播挽^ 群、、且具有一 <script> 和一 </sUipt〉 200836075 <style> 和一 </style> 及一 <!--和一等等。<script> 和 </script>是用來定義程式碼語言，故〈script〉和〈/script〉間的字串可能是javascript的程式碼。<style>* </style>用來定義格式設定，故<style>* </style〉間的字串可能是描述 HTML網頁内的格式，如它的字體、字型、顏色、間距等的資訊。<!―和一〉用來定義不會顯示於HTML網頁上的註解 ’故<!--和-間的字串是註解。本實施例之第二預設標籤群組具有一定義字型用的 <font>、一定義斜體字的<i>、一定義粗體字的<b>、一定義打字機字之<tt>、一定義加底線的<u>、一定義劃刪除線的〈strike〉、一定義下標的<sub>、一定義上標的<sup>、一定義保持原貌的<pre>及一定義強調的<em>等等。應注意的是，本實施例雖先將可能相關的標籤預設於第一預設標籤群組與第二標籤群組内，然而，事後亦可透過更新第一預設標籤群組與第二標藏群組的内容，來適時增刪標籤。如此，前置標籤處理模組21會於主體中存在與第一預設標籤群組相符標籤時，刪除相符標籤間的字串與相符標籤。主體中存在第二預設標籤群組相符的標籤，前置標籤處理模組21刪除相符標籤。再者，經前述處理的主體可能存在多數個相鄰的空白，本實施例前置標籤處理模組21更會將多數個空白轉換成一個空白，以得到供區塊分析模組 22的部分並傳送至區塊分析模組22。一般HTML原始碼中諸如新聞或部落格文章網頁的内容往往是較長字串且這些字串的位置常相近而可聚集成一 10 200836075 個最大區塊。因此，區塊分析模組22分析部分内各字串的長度與位置來找出一最大區塊，而後再由後續標籤模組23 删除最大區塊内段落格式標籤以作為純文字的主要内容來輸出給RSS瀏覽器1，以套用預設版面顯示給使用者瀏覽 Ο 在以下段落，參照圖2，將純文字轉換系統2的工作流程作說明，而前述模組21〜23的功能將可在以下說明中更加清楚。首先，在步驟50中前置標籤處理模組21接收html :頁的HTML原始碼後，執行步驟51的前置標籤程序以取 :HTML原始碼的一與主要内容相關之部分來傳送至區塊析核、、且22。前置標籤程序（指步驟51)結束後繼續步驟52 多“、、圖3，剞置標籤處理模組2丨先於步驟$ J1中取出 /原始碼的一主體，指位於<b〇dy>與間的内容 H否/ ; V驟512中，剞置標籤處理模組21判斷主體中存在與第一預設標籤群組相符之標籤。若步驟512判相符俨乂钒订步驟513刪除主體内相符標籤間的字串與續牛:織。步冑513結束後或若步驟512判斷為否，則繼，少驟5 14。+止體中是在乂驟514中，前置標籤處理模組21判斷主有時在與第二預設標籤群組相符之標籤，並於判斷的標籤Μ5以刪除主體中與第二預設標籤群組相符步驟516而右步驟514判斷為否或步‘驟515結束後，執行 u判斷主體是否存在多數個相鄰的空白。步騍 11 200836075 516判斷為是時，前置標籤處理模組2i將多數個相鄰空白轉換成一個空白後，使不同行的字串會位於同一行而這些字串間存在未刪除的段落格式標籤來區隔，如<p>*</p>4 <br>。步驟516判斷為否或步驟517結束後，完成前置標籤程序，並將經前述步驟511〜517處理取得部分（此部分具有多數個字串與多數個段落格式標籤）傳送給區塊分析模組Μ ’知續由區塊分析模組22執行圖2的步驟52。應注意的是，別述步驟512、514的執行順序可依設計需求來調整，亦可同步執行，並不應受限於本實施所揭露者。在步驟52中，區塊分析模組22可利用計算來自前置標籤處理模組21部分内各字串的長度與位置。緊接著，於步驟53中，區塊分析模組22從這些字串中找出長度為前第一預設值百分比的字串，以於步驟54中分析前第一預設值百分比字串中各字串與其餘字串間的一位置間隔，並於位置間隔不大於一第二預設值時，標示與此位置間隔對應字串為一同一個區塊，而後於步驟55中從標示所得的區塊中找出一個最大區塊，將最大區塊傳送給後續標籤處理模、、且23第一預设值為3〜15中任一個整數，而第二預設值為 2〜10中的任一個整體，本實施例中第一預設值與第二預設值之數值係預先設定。為讓前述步驟53〜55更容易被瞭解，在以下中以2()個子串為例來說明，並設定第一預設值百分比為15%，而第一預設值為2。

AA<p>BBBBBBBBBBBBBB<br>CCC<br>DDDDDDDDD 12 200836075 DDDDDD</p><p>EEEEEEEEEEEEEEEEEEEEE<br>FFFFF<b r>GG<br>HHHHHHHH<br>IIIIIIIIIIIIII</p><p>J<br>KKK<b r>LL<br>MMMM<br>N<br>00<br>P<br>QQQ<br>R<br>S< br>TT</p> 因此，每一個字串的位置係依序遞增，B、D、E字串為前第一預設值百分比長的字串，區塊分析模組22會對B 字串往前與往後找2個位置間隔（即A字串與C、D字串），以判斷此2位置間隔内是否有其他同為前第一預設值百分比長字串存在。由於B字串與D字串間的位置間隔為2而不大於第二預設值，故B、C、D字串會被標示為同一區塊，而後以此區塊繼續再往前與往後找2個位置間隔（即A字串與E、F字串），D與E間的位置間隔為1其小於第二預設值，故B、C、D、E字串會被標示會同一區塊，此範例中B、C、D、E構成的區塊即為最大區塊。步驟55結束後，繼續步驟56，後續標籤處理模組23 進一步刪除最大區塊内的段落格式標籤以取得純文字的主要内容，進而於步驟57中輸出給RSS瀏覽器1並套用預設版面以純文字方式顯示給使用者瀏覽。以前述範例來說，則顯示主要内容如下：

BBBBBBBBBBBBBB CCC DDDDDDDDDDDDDDD

EEEEEEEEEEEEEEEEEEEEE 據前所述，本發明利用前置標籤程序來刪除HTML原始碼中無涉於主要内容的標籤與字串以取出與主要内容相關的部分’而後利用此部分内的字串長度及相互間的位置 13 200836075 間隔來找Hi最大區塊，最後再删除最大區塊㈣餘標鐵（指段落格式標籤），以得到純文字的主要内容來供使用者劉覽 ’不僅可精4轉換HTML網頁的主要内容為純文字，而且使用者亦可快速瀏覽網頁中的主要内容。惟以上所述者，僅為本發明之較佳實施例而已，當不能以此限定本發明實施之範圍，即大凡依本發㈣請專利範圍及發明說明内容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍内。【圖式簡單說明】圖1是本發明純文字轉換系統的較佳實施例，此實施例的純文字轉換系統係位於Rss㈣器内並可接收一網站的網頁；圖疋本只她例中的純文字轉換方法的流程圖；及圖3是本實施例中前置標藏程序的流程圖。 14 200836075 【主要元件符號說明】 1簡單聯合供稿瀏覽器 /RSS瀏覽器 2純文字轉換系統 21前置標籤處理模組 22區塊分析模組 23後續標籤處理模組 4網站 41 RSS頻道 50〜57、511〜517步驟 15

Claims

200836075 十、申請專利範圍：考使超文子軚示語言網頁轉換成純文字的方法，係包含以下步驟： (A)接收一超文字標示語言網頁的超文字標示語言原始碼； _ ( B )執行一前置標籤程序以擷取該超文字標示語 ’、口馬中的部分，該部分具有多數個字串及多數個位於該等字串間的標籤； (C) 汁异該等字串的長度與位置，找出該等字串中長度為前第一預設值百分比的字串； (D) 分析該前第一預設值百分比字串中各該字串 ^其餘字串間的-位置間隔，並料位置間隔不大於一第二預設值時標示與該位置間隔對應字串為_同一個區塊，以找出一最大區塊；及 ⑻刪除該最大區塊内該等字串間的標籤一主要内容。 2·=Γ利範圍第1項所述之使超文字標示語言網頁 2換成純文字的方法，其巾，該敎字^語主要内容係一文章。月的 3. 依據中請專利範圍第i或2項所述之使卜網頁轉換成純文字的方法，其中，該超：：：：頁係一簡單聯合供稿新聞網頁。下丁扣σ網 4. 依射請專利_第丨或2項所述之使網頁轉換成純文字的方法，其中二：^ 〜入予不語言網 16 200836075 頁係一文章網頁。依據申請專利範圍第丨項所述之使超文字標示語言網頁轉換成純文字的方法，其中，該第一預設值為3〜15中的一整數，該第二預設值為2〜1〇中的一整數。 6·依據申請專利範圍第丨項所述之使超文字標示語言網頁轉換成純文字的方法，其中，該步驟（B )中的該前置標籤程序係擷取該超文字標示語言原始碼的一主體。 7·依據申請專利範圍第6項所述之使超文字標示語言網頁轉換成純文字的方法，其中，該超文字標示語言原始碼具有多數個標籤，該等標籤含有一 <body>和一 </body>，該步驟（B )中係擷取該超文字原始碼的該<b〇dy>標籤與 </body〉標籤間的内容來作為一主體。 8·依據申巧專利範圍第6項所述之使超文字標示語言網頁轉換成純文字的方法，其中，該超文字標示語言原始碼具有多數個標籤，該步驟⑻中的該前置標鐵程序中更於該主體中標籤與-第—預設標籤群組相符時，刪除該相符標籤間字串與該相符標籤。 9.依射請專利範圍第8項所述之使超文字標示語言網頁轉換成純文字的方法，其巾，該第—預設標籤群組具有 -<script>^ - </script> > - <style>^ _ </style>a - <!- 矛口一 --〉ο 10·依據申請專利範圍第8項所述之佶初七―描、貝尸7 C之使超文字標示語言網頁轉換成純文字的方法，其中，該歩 ^ r 系/驟（B)中的該前置標籤程序中更於該主體中浐讅盥 T铋戴與弟二預設標籤群組相符 17 200836075 日守’刪除該相符標籤。 1 1 ·依據申請專利範圍第彳固弟1 0項所述之使超文字標示語言網頁轉換成純文字的方Φ，甘I 兀素位置‘籤、一顏色標籤、一字體標籤及一字型標一 π万法其中，該第二預設標籤群組具有籤 ΐ2·依據申請專利範圍f 1G或u項所述之使超文字標示語言網頁轉換成純文字的方法，其中，該第二預設標籤群組具有— <f0nt>、一少、一 <b>、一 <u>、一 <u〉、一 <Stnke>、— <SUb>、— <SUP>、— <pfe>及-<em>。 13·㈣中請專利範圍帛1G項所述之使超文字標示語言網頁轉換成純文字的方法，其中，該超文字標示語言原始碼具有多數個空白，該步驟系步驟（B )巾的該前置標籤程序中更將該主體中多個相鄰空白轉換成一個空白。 14. f據申請專利範圍第1項所述之使超文字標示語言網頁 :成方法’其中，該步驟(e)中該被刪除標紙係-&洛格式標籤，該段落格式標鐵為如〉或 </p> 〇 15. —種純文字轉換系統，係包含：一前置標籤處理模組，用以接收一超文字標示語古網頁的超文字標示語言原始碼並執行_前置標籤程^ ^得該超文字標示語言原始碼中的—部分，該部分多數個字串及多數個位於該等字串間的標籤； -區塊分析模組，係計算該部分中；等字串的長度 ”位置’找出該等字串中長度為前第—預設值百分比的 18 200836075 子串’及分析該前第一預設值百分比字串中各該字串與其餘字串間的一位置間隔，並於該位置間隔不大於一第二預設值時標示與該位置間隔對應字串為一同一個區塊 ’以找出一最大區塊；及一後續標籤處理模組，刪除該最大區塊内該等字串間的標籤以取得一主要内容。 16.依據申明專利範圍第丨5項所述之純文字轉換系統，其中忒超文子標不語言網頁係一簡單聯合供稿新聞網頁或一文章網頁。 17·依據申請專利範圍第15 ’該第一預設值為3〜15 2〜10中的一整數。項所述之純文字轉換系統，其中中的一整數，該第二預設值為 18.依據巾請專利範圍第15項所述之純文字轉換系統，其中 ’該前置標籤處理模組於前置標籤程序中操取該超文字標示語言原始碼的一主體。 19_依據中請專利範圍第18項所述之純文字轉換系統，其中該超文子標不語言原始碼具有多數個標籤，該前置 _模組於該前置標籤程序中更於該主體中標籤與：弟—預設標籤群組相符時’刪除該相符標 2〇.依據巾請專利範圍第19項所述之純文字轉換系統，，該前置標籤處理模組於該前置標籤程 ^ Φ拇銘咖始 K於€亥主體不戴/、一苐二預設標籤群組相符時，刪除該相符摔籤 19 200836075 21. 依據申請專利範圍第2〇項所述之純文字轉換系統，其中 ’該超文字標示語言原始碼具有多數個空白，該前置標鐵處理模組於該前置標籤程序中更將該主體中多個相鄰空白轉換成一個空白。 22. 依據申請專利銘_ I 耗圍弟15項所述之純文字轉換系統，其中 “後續標籤處理模。候、、且所刪除的標籤係一段落格式標籤 20