TW200836075A - Method of converting hypertext markup language web page into pure text and system thereof - Google Patents
Method of converting hypertext markup language web page into pure text and system thereof Download PDFInfo
- Publication number
- TW200836075A TW200836075A TW096106121A TW96106121A TW200836075A TW 200836075 A TW200836075 A TW 200836075A TW 096106121 A TW096106121 A TW 096106121A TW 96106121 A TW96106121 A TW 96106121A TW 200836075 A TW200836075 A TW 200836075A
- Authority
- TW
- Taiwan
- Prior art keywords
- markup language
- hypertext markup
- tag
- label
- string
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Description
200836075 九、發明說明: 【發明所屬之技術領域】 本發明是有關於一種網頁轉換成純文字的方法,特別 是指一種使超文字標示語言網頁轉換成純文字的方法及其 糸統。 【先前技術】 隨著網際網路的普及,人們愈來愈習慣透過網際網路 來獲得訊息與查詢資料,例如直接登入網站來灌彳覽新聞網 頁或文章網頁專’目剷網頁的格式大都為超文件標示言五古 (Hypertext Markup Language ;以下簡稱 HTML)。 又,目前網路上出現一種新資訊提供方式,稱為簡單 聯合供稿(Really Simple Syndication,以下簡稱 Rss),讓 使用者可自行訂閱想看資訊内容,而將網頁中最新訊息及 新聞同步發送予訂閱者。詳細來說,使用者端安裝Rss劉 覽器後,可透過RSS瀏覽器訂閱網站所提供的各式各樣
Rss頻道。而後’ RSS劉覽器會定期更新已訂閱哪頻道 ’即RSS瀏覽器每隔一段時間會主動下載訂閱頻道中新的 新聞或文章的簡介(如標題、摘要與連結網址)至使用者端, 讓使用者即時瞭解頻道的更新資訊。錢用者對新的^ 或文章有興趣時,點選簡介即可利用其連結網址連結對: HTML網頁瀏覽完整内容。 叫 然而,無确以直接登入網站或以娜割 HTML網頁,肌M網f常_存在許多無涉於主要内 資訊,如廣告、其他HTML、網頁的介紹、網站資訊等等, 5 200836075 影響使用者對網頁中主要内容的閱讀速度,造成使用者難 以迅速瞭解網頁的主要内容。 【發明内容】 因此,本發明之一目的,即在提供一種便於閱讀之使 超文字標示語言網頁轉換成純文字的方法及其系統。 本發明之另一目的,即在提供一種可達到純文字轉換 精確度較向之使超文字標示語言網頁轉換成純文字的方法 及其糸統。 於是’本發明使超文字標示語言網頁轉換成純文字的 方法’係包含以下步驟: (A) 接收-超文字標示語言網頁的超文字標示語言原 始石馬; (B) 執行一 W置標籤程序以擷取該 + :碼中的-部分’該部分具有多數個字串及多數個二: 專字串間的標籤,· 、(C)計算該等字串的長度與位置,找出該等字串中長 度為前第一預設值百分比的字串; 又 (D) 分析該前第一預設值百分比字串中各該字串盘直 餘字串間的一位置間隔’並於該位置間隔不大於一第二預
設值時標示與該位置間隔位置的對應字串為_同一個 ,以找出一最大區塊;及 u" A (E) 刪除該最大區塊内該等字串間的標籤以取得—主 要内容。 如此,本發明藉由對超文字標示語言網頁的超文字標 200836075 示浯言原始碼中的標籤處理及以字串的長度與兩字串間的 位置間隔來判斷主要内容的位置,以達到精確地取得純文 字的主要内容之功效。 【實施方式】 有關本發明之前述及其他技術内容、特點與功效,在 以下配合參考圖式之一個較佳實施例的詳細說明中,將可 清楚的呈現。 圖1係揭露本發明純文字轉換系統的較佳實施例,此 純文字轉換系統2用以將超文字標示語言(Hypertext Markup Language;以下簡稱HTML)網頁的超文字標示語言原始碼 轉換成純文字的主要内容。純文字轉換系統2可為一韌體 或一程式,此程式可先儲存於諸如光碟之類的儲存媒體上 ,以供使用者安裝於其電子裝置内來執行。HTML網頁係由 為-個或多個祠服器構成之網站4來提供,此html網頁 係以新聞網頁或文章網頁為佳。 本實施例的純文字轉㈣統2整合於—簡單聯合供稿 劉覽器 1 ( Really Simple Syndicati〇n Reader,以下簡稱 Rss 劉覽器)内’ Λ RSS㈣n !安裝於—可連線網際網路之 電子裝置,如電腦。網站4提供至少一為RRS劉覽器i訂 閱的RSS頻道41,a 可透過RSS瀏覽器i 而當網站4有新HTML網頁時,使用者
介連結至網站4連結至對應 網頁的内容有興趣時可利用簡 HTML網頁來劉覽完整内容。 200836075 此刻’ RSS瀏覽器i連結至網站4的HTML網頁時,會下 載HTML網頁的HTML原始碼以於RSS瀏覽器!顯示 HTML網頁。使用者可透過RSS瀏覽器i之操作介面(圖未 示)來設定純文字轉換系統2將HTML網頁轉換成純文字的 主要内容,進而RSS瀏覽器1可顯示此純文字的主要内容 給使用者瀏覽。 應注意的是,本發明的純文字轉換系統2亦可整合於 其他支挺HTML網頁的劉覽程式,如,或整合於網站4 内,或形成一獨立程式,並不應受限於本實施例所揭露者 。當然,本實施例的RSS瀏覽器1更具有其他的RSS劉覽 1的基本構件,如一用以因應使用者之控制指令以執行 對應工作之控制模組,然而此廣為熟習該項技藝者所熟知 且非本案改良重點,故不在此贅述。 本實施例純文字轉換系統2係自HTML原始碼擷取主 要内容。HTML原始碼係由文字與標籤所構成,故HTMi^ 原始碼含有多數個字串與多數個標籤,而這些字串中部分 字串可能為HTML網頁的主要内容、部分字串可能用來定 義或註解HTML網頁而無涉於主要内容、部分字串可能屬 於廣告。本實施例的純文字轉換系統2包括一前置標籤處 理模組21、一區塊分析模組22及一後續標籤處理模組22 〇 别置&鐵處理模組21接收HTML原始碼後進行一前置 才示籤程序(容後再述)以對HTML原始碼内的標籤或空白 (white space)作處理以擷取出可能與主要内容相關之一部分 8 200836075 以傳送至區塊分析模組2i。此部分具有多數財串及多數 個位於該等字串間的段落林 這此w 式標鐵,此段落格式標籤界定 化些子f相互間的關係’例如_<ρ>和一〈如或一參, 少和,>係定義兩標鐵間字串係—個段;· 而如〉代表斷行〈LmeBreaks〉。 _graphs) 範例1 <html> <body> 主體 </body> 如上述範例1,一般 與〈/body:^^的内容 ,、σ馬撰寫,會將<body> J叼ΓΛί合%為主體,盥 現於此處’例如為新聞 ’、 谷相關的字串會出 的字串會出現於主體悄文早的主要内容 画“㈣會先籤處理模組η於接收 藏,其中大部分標鐵係與主要内容㈣;有:數個字串與標 來作註解或定義,故前置標鐵處理=部分字串係用 體内盔涉於主i 旲、,且1會進一步删除主 μ要内容的標籤與字串。 因此,本實施例前置標籤處 註解與定義相關標斛夕链 更儲存一具有與 HTML元素位置 、—預設標籤群組及-具有與 第二預設標籤群組。、字體、字型等_格式相關標籤之 此弟一預热播挽^ 群、、且具有一 <script> 和一 </sUipt〉 200836075 <style> 和一 </style> 及一 <!--和一等等。<script> 和 </script>是用來定義程式碼語言,故〈script〉和〈/script〉間 的字串可能是javascript的程式碼。<style>* </style>用來 定義格式設定,故<style>* </style〉間的字串可能是描述 HTML網頁内的格式,如它的字體、字型、顏色、間距等的 資訊。<!―和一〉用來定義不會顯示於HTML網頁上的註解 ’故<!--和-間的字串是註解。 本實施例之第二預設標籤群組具有一定義字型用的 <font>、一定義斜體字的<i>、一定義粗體字的<b>、一定義 打字機字之<tt>、一定義加底線的<u>、一定義劃刪除線的 〈strike〉、一定義下標的<sub>、一定義上標的<sup>、一定 義保持原貌的<pre>及一定義強調的<em>等等。應注意的是 ,本實施例雖先將可能相關的標籤預設於第一預設標籤群 組與第二標籤群組内,然而,事後亦可透過更新第一預設 標籤群組與第二標藏群組的内容,來適時增刪標籤。 如此,前置標籤處理模組21會於主體中存在與第一預 設標籤群組相符標籤時,刪除相符標籤間的字串與相符標 籤。主體中存在第二預設標籤群組相符的標籤,前置標籤 處理模組21刪除相符標籤。再者,經前述處理的主體可能 存在多數個相鄰的空白,本實施例前置標籤處理模組21更 會將多數個空白轉換成一個空白,以得到供區塊分析模組 22的部分並傳送至區塊分析模組22。 一般HTML原始碼中諸如新聞或部落格文章網頁的内 容往往是較長字串且這些字串的位置常相近而可聚集成一 10 200836075 個最大區塊。因此,區塊分析模組22分析部分内各字串的 長度與位置來找出一最大區塊,而後再由後續標籤模組23 删除最大區塊内段落格式標籤以作為純文字的主要内容來 輸出給RSS瀏覽器1,以套用預設版面顯示給使用者瀏覽 Ο 在以下段落,參照圖2,將純文字轉換系統2的工作流 程作說明,而前述模組21〜23的功能將可在以下說明中更 加清楚。 首先,在步驟50中前置標籤處理模組21接收html :頁的HTML原始碼後,執行步驟51的前置標籤程序以取 :HTML原始碼的一與主要内容相關之部分來傳送至區塊 析核、、且22。前置標籤程序(指步驟51)結束後繼續步驟52 多“、、圖3,剞置標籤處理模組2丨先於步驟$ J1中取出 /原始碼的一主體,指位於<b〇dy>與間的内容 H否/ ; V驟512中,剞置標籤處理模組21判斷主體中 存在與第一預設標籤群組相符之標籤。若步驟512判 相符俨乂钒订步驟513刪除主體内相符標籤間的字串與 續牛:織。步冑513結束後或若步驟512判斷為否,則繼 ,少驟5 14。+止 體中是 在乂驟514中,前置標籤處理模組21判斷主 有時在與第二預設標籤群組相符之標籤,並於判斷 的標籤Μ5以刪除主體中與第二預設標籤群組相符 步驟516而右步驟514判斷為否或步‘驟515結束後,執行 u判斷主體是否存在多數個相鄰的空白。步騍 11 200836075 516判斷為是時,前置標籤處理模組2i將多數個相鄰空白 轉換成一個空白後,使不同行的字串會位於同一行而這些 字串間存在未刪除的段落格式標籤來區隔,如<p>*</p>4 <br>。步驟516判斷為否或步驟517結束後,完成前置標籤 程序,並將經前述步驟511〜517處理取得部分(此部分具有 多數個字串與多數個段落格式標籤)傳送給區塊分析模組Μ ’知續由區塊分析模組22執行圖2的步驟52。應注意的是 ,別述步驟512、514的執行順序可依設計需求來調整,亦 可同步執行,並不應受限於本實施所揭露者。 在步驟52中,區塊分析模組22可利用計算來自前置 標籤處理模組21部分内各字串的長度與位置。緊接著,於 步驟53中,區塊分析模組22從這些字串中找出長度為前 第一預設值百分比的字串,以於步驟54中分析前第一預設 值百分比字串中各字串與其餘字串間的一位置間隔,並於 位置間隔不大於一第二預設值時,標示與此位置間隔對應 字串為一同一個區塊,而後於步驟55中從標示所得的區塊 中找出一個最大區塊,將最大區塊傳送給後續標籤處理模 、、且23第一預设值為3〜15中任一個整數,而第二預設值為 2〜10中的任一個整體,本實施例中第一預設值與第二預設 值之數值係預先設定。 為讓前述步驟53〜55更容易被瞭解,在以下中以2()個 子串為例來說明,並設定第一預設值百分比為15%,而第 一預設值為2。
AA<p>BBBBBBBBBBBBBB<br>CCC<br>DDDDDDDDD 12 200836075 DDDDDD</p><p>EEEEEEEEEEEEEEEEEEEEE<br>FFFFF<b r>GG<br>HHHHHHHH<br>IIIIIIIIIIIIII</p><p>J<br>KKK<b r>LL<br>MMMM<br>N<br>00<br>P<br>QQQ<br>R<br>S< br>TT</p> 因此,每一個字串的位置係依序遞增,B、D、E字串 為前第一預設值百分比長的字串,區塊分析模組22會對B 字串往前與往後找2個位置間隔(即A字串與C、D字串), 以判斷此2位置間隔内是否有其他同為前第一預設值百分 比長字串存在。由於B字串與D字串間的位置間隔為2而 不大於第二預設值,故B、C、D字串會被標示為同一區塊 ,而後以此區塊繼續再往前與往後找2個位置間隔(即A字 串與E、F字串),D與E間的位置間隔為1其小於第二預 設值,故B、C、D、E字串會被標示會同一區塊,此範例 中B、C、D、E構成的區塊即為最大區塊。 步驟55結束後,繼續步驟56,後續標籤處理模組23 進一步刪除最大區塊内的段落格式標籤以取得純文字的主 要内容,進而於步驟57中輸出給RSS瀏覽器1並套用預設 版面以純文字方式顯示給使用者瀏覽。 以前述範例來說,則顯示主要内容如下:
BBBBBBBBBBBBBB CCC DDDDDDDDDDDDDDD
EEEEEEEEEEEEEEEEEEEEE 據前所述,本發明利用前置標籤程序來刪除HTML原 始碼中無涉於主要内容的標籤與字串以取出與主要内容相 關的部分’而後利用此部分内的字串長度及相互間的位置 13 200836075 間隔來找Hi最大區塊,最後再删除最大區塊㈣餘標鐵(指 段落格式標籤),以得到純文字的主要内容來供使用者劉覽 ’不僅可精4轉換HTML網頁的主要内容為純文字,而且 使用者亦可快速瀏覽網頁中的主要内容。 惟以上所述者,僅為本發明之較佳實施例而已,當不 能以此限定本發明實施之範圍,即大凡依本發㈣請專利 範圍及發明說明内容所作之簡單的等效變化與修飾,皆仍 屬本發明專利涵蓋之範圍内。 【圖式簡單說明】 圖1是本發明純文字轉換系統的較佳實施例,此實施 例的純文字轉換系統係位於Rss㈣器内並可接收一網站 的網頁; 圖疋本只她例中的純文字轉換方法的流程圖;及 圖3是本實施例中前置標藏程序的流程圖。 14 200836075 【主要元件符號說明】 1簡單聯合供稿瀏覽器 /RSS瀏覽器 2純文字轉換系統 21前置標籤處理模組 22區塊分析模組 23後續標籤處理模組 4網站 41 RSS頻道 50〜57、511〜517步驟 15
Claims (1)
- 200836075 十、申請專利範圍: 考使超文子軚示語言網頁轉換成純文字的方法,係包 含以下步驟: (A)接收一超文字標示語言網頁的超文字標示語 言原始碼; _ ( B )執行一前置標籤程序以擷取該超文字標示語 ’、口馬中的部分,該部分具有多數個字串及多數個 位於該等字串間的標籤; (C) 汁异該等字串的長度與位置,找出該等字串 中長度為前第一預設值百分比的字串; (D) 分析該前第一預設值百分比字串中各該字串 ^其餘字串間的-位置間隔,並料位置間隔不大於一 第二預設值時標示與該位置間隔對應字串為_同一個區 塊,以找出一最大區塊;及 ⑻刪除該最大區塊内該等字串間的標籤 一主要内容。 2·=Γ利範圍第1項所述之使超文字標示語言網頁 2換成純文字的方法,其巾,該敎字^語 主要内容係一文章。 月的 3. 依據中請專利範圍第i或2項所述之使 卜 網頁轉換成純文字的方法,其中,該超 :::: 頁係一簡單聯合供稿新聞網頁。 下丁扣σ網 4. 依射請專利_第丨或2項所述之使 網頁轉換成純文字的方法,其中 二:^ 〜入予不語言網 16 200836075 頁係一文章網頁。 依據申請專利範圍第丨項所述之使超文字標示語言網頁 轉換成純文字的方法,其中,該第一預設值為3〜15中的 一整數,該第二預設值為2〜1〇中的一整數。 6·依據申請專利範圍第丨項所述之使超文字標示語言網頁 轉換成純文字的方法,其中,該步驟(B )中的該前置標 籤程序係擷取該超文字標示語言原始碼的一主體。 7·依據申請專利範圍第6項所述之使超文字標示語言網頁 轉換成純文字的方法,其中,該超文字標示語言原始碼 具有多數個標籤,該等標籤含有一 <body>和一 </body>, 該步驟(B )中係擷取該超文字原始碼的該<b〇dy>標籤與 </body〉標籤間的内容來作為一主體。 8·依據申巧專利範圍第6項所述之使超文字標示語言網頁 轉換成純文字的方法,其中,該超文字標示語言原始碼 具有多數個標籤,該步驟⑻中的該前置標鐵程序中更 於該主體中標籤與-第—預設標籤群組相符時,刪除該 相符標籤間字串與該相符標籤。 9.依射請專利範圍第8項所述之使超文字標示語言網頁 轉換成純文字的方法,其巾,該第—預設標籤群組具有 -<script>^ - </script> > - <style>^ _ </style>a - <!- 矛口一 --〉ο 10·依據申請專利範圍第8項所述之佶初七―描 、 貝尸7 C之使超文字標示語言網頁 轉換成純文字的方法,其中,該歩 ^ r 系/驟(B)中的該前置標 籤程序中更於該主體中浐讅盥 T铋戴與弟二預設標籤群組相符 17 200836075 日守’刪除該相符標籤。 1 1 ·依據申請專利範圍第彳 固弟1 0項所述之使超文字標示語言網頁 轉換成純文字的方Φ,甘I 兀素位置‘籤、一顏色標籤、一字體標籤及一字型標 一 π万法其中,該第二預設標籤群組具有 籤 ΐ2·依據申請專利範圍f 1G或u項所述之使超文字標示語 言網頁轉換成純文字的方法,其中,該第二預設標籤群 組具有— <f0nt>、一少、一 <b>、一 <u>、一 <u〉、一 <Stnke>、— <SUb>、— <SUP>、— <pfe>及-<em>。 13·㈣中請專利範圍帛1G項所述之使超文字標示語言網頁 轉換成純文字的方法,其中,該超文字標示語言原始碼 具有多數個空白,該步驟 系步驟(B )巾的該前置標籤程序中更 將該主體中多個相鄰空白轉換成一個空白。 14. f據申請專利範圍第1項所述之使超文字標示語言網頁 :成方法’其中,該步驟(e)中該被刪除標 紙係-&洛格式標籤,該段落格式標鐵為如〉或 </p> 〇 15. —種純文字轉換系統,係包含: 一前置標籤處理模組,用以接收一超文字標示語古 網頁的超文字標示語言原始碼並執行_前置標籤程^ ^得該超文字標示語言原始碼中的—部分,該部分 多數個字串及多數個位於該等字串間的標籤; -區塊分析模組,係計算該部分中;等字串的長度 ”位置’找出該等字串中長度為前第—預設值百分比的 18 200836075 子串’及分析該前第一預設值百分比字串中各該字串與 其餘字串間的一位置間隔,並於該位置間隔不大於一第 二預設值時標示與該位置間隔對應字串為一同一個區塊 ’以找出一最大區塊;及 一後續標籤處理模組,刪除該最大區塊内該等字串 間的標籤以取得一主要内容。 16.依據申明專利範圍第丨5項所述之純文字轉換系統,其中 忒超文子標不語言網頁係一簡單聯合供稿新聞網頁或 一文章網頁。 17·依據申請專利範圍第15 ’該第一預設值為3〜15 2〜10中的一整數。 項所述之純文字轉換系統,其中 中的一整數,該第二預設值為 18.依據巾請專利範圍第15項所述之純文字轉換系統,其中 ’該前置標籤處理模組於前置標籤程序中操取該超文字 標示語言原始碼的一主體。 19_依據中請專利範圍第18項所述之純文字轉換系統,其中 該超文子標不語言原始碼具有多數個標籤,該前置 _模組於該前置標籤程序中更於該主體中標籤與: 弟—預設標籤群組相符時’刪除該相符標 2〇.依據巾請專利範圍第19項所述之純文字轉換系統, ,該前置標籤處理模組於該前置標籤程 ^ Φ拇銘咖 始 K於€亥主體 不戴/、一苐二預設標籤群組相符時,刪除該相符摔籤 19 200836075 21. 依據申請專利範圍第2〇項所述之純文字轉換系統,其中 ’該超文字標示語言原始碼具有多數個空白,該前置標 鐵處理模組於該前置標籤程序中更將該主體中多個相鄰 空白轉換成一個空白。 22. 依據申請專利銘_ I 耗圍弟15項所述之純文字轉換系統,其中 “後續標籤處理模 。 候、、且所刪除的標籤係一段落格式標籤 20
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW096106121A TW200836075A (en) | 2007-02-16 | 2007-02-16 | Method of converting hypertext markup language web page into pure text and system thereof |
US12/031,855 US8196036B2 (en) | 2007-02-16 | 2008-02-15 | Method and system for converting hypertext markup language web page to plain text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW096106121A TW200836075A (en) | 2007-02-16 | 2007-02-16 | Method of converting hypertext markup language web page into pure text and system thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200836075A true TW200836075A (en) | 2008-09-01 |
TWI322950B TWI322950B (zh) | 2010-04-01 |
Family
ID=39707702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW096106121A TW200836075A (en) | 2007-02-16 | 2007-02-16 | Method of converting hypertext markup language web page into pure text and system thereof |
Country Status (2)
Country | Link |
---|---|
US (1) | US8196036B2 (zh) |
TW (1) | TW200836075A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI459219B (zh) * | 2009-01-06 | 2014-11-01 | Hon Hai Prec Ind Co Ltd | 網頁轉換系統及方法 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090132493A1 (en) * | 2007-08-10 | 2009-05-21 | Scott Decker | Method for retrieving and editing HTML documents |
TWI387890B (zh) * | 2008-12-01 | 2013-03-01 | Esobi Inc | A method of converting a hypertext label language file into a plain text file |
KR20100089339A (ko) * | 2009-02-03 | 2010-08-12 | 삼성전자주식회사 | 이미지 생성 방법과 이미지 표시 방법 및 그 방법을 수행하는 장치 |
WO2011000165A1 (en) * | 2009-07-03 | 2011-01-06 | Hewlett-Packard Development Company,L.P. | Apparatus and method for text extraction |
US20110087953A1 (en) * | 2009-10-08 | 2011-04-14 | Grohs Anton C | Automated embeddable searchable static rendering of a webpage generator |
US20110252302A1 (en) * | 2010-04-12 | 2011-10-13 | Microsoft Corporation | Fitting network content onto a reduced-size screen |
EP2599011A4 (en) * | 2010-07-30 | 2017-04-26 | Hewlett-Packard Development Company, L.P. | Selection of main content in web pages |
US8700543B2 (en) * | 2011-02-12 | 2014-04-15 | Red Contexto Ltd. | Web page analysis system for computerized derivation of webpage audience characteristics |
CN102831121B (zh) | 2011-06-15 | 2015-07-08 | 阿里巴巴集团控股有限公司 | 一种网页信息抽取的方法和*** |
JP5764039B2 (ja) * | 2011-10-25 | 2015-08-12 | 株式会社沖データ | 情報処理装置、画像形成装置、プログラム、情報処理システム、及び、情報処理方法 |
US9152730B2 (en) * | 2011-11-10 | 2015-10-06 | Evernote Corporation | Extracting principal content from web pages |
CN103353842A (zh) * | 2013-06-20 | 2013-10-16 | 北京小米科技有限责任公司 | 一种网页的加载方法和装置 |
KR101988883B1 (ko) * | 2013-10-30 | 2019-06-13 | 에이치피프린팅코리아 유한회사 | 화상형성장치에서 웹 어플리케이션을 실행하는 방법 및 이를 수행하기 위한 화상형성장치 |
CN105589913A (zh) * | 2015-06-15 | 2016-05-18 | 广州市动景计算机科技有限公司 | 一种提取页面信息的方法及装置 |
CN105677764B (zh) * | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN107241408B (zh) * | 2017-06-05 | 2019-12-03 | 上海简家信息技术有限公司 | 一种数据传输方法及装置、终端设备、存储介质 |
US10922366B2 (en) * | 2018-03-27 | 2021-02-16 | International Business Machines Corporation | Self-adaptive web crawling and text extraction |
CN108829648A (zh) * | 2018-05-30 | 2018-11-16 | 北京小度信息科技有限公司 | 网页标记语言的转换方法及装置 |
CN110858252A (zh) * | 2018-08-23 | 2020-03-03 | 北京搜狗科技发展有限公司 | 一种文本保护方法及相关装置 |
CN111680247B (zh) * | 2020-04-28 | 2024-04-05 | 深圳赛安特技术服务有限公司 | 网页字符串的本地调用方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6654758B1 (en) * | 2000-07-21 | 2003-11-25 | Unisys Corporation | Method for searching multiple file types on a CD ROM |
JP3880504B2 (ja) * | 2002-10-28 | 2007-02-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 構造化・階層化コンテンツ用処理装置、構造化・階層化コンテンツ用処理方法、及びプログラム |
US7680855B2 (en) * | 2005-03-11 | 2010-03-16 | Yahoo! Inc. | System and method for managing listings |
-
2007
- 2007-02-16 TW TW096106121A patent/TW200836075A/zh unknown
-
2008
- 2008-02-15 US US12/031,855 patent/US8196036B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI459219B (zh) * | 2009-01-06 | 2014-11-01 | Hon Hai Prec Ind Co Ltd | 網頁轉換系統及方法 |
Also Published As
Publication number | Publication date |
---|---|
US8196036B2 (en) | 2012-06-05 |
TWI322950B (zh) | 2010-04-01 |
US20080201633A1 (en) | 2008-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW200836075A (en) | Method of converting hypertext markup language web page into pure text and system thereof | |
US8321396B2 (en) | Automatically extracting by-line information | |
US20050149851A1 (en) | Generating hyperlinks and anchor text in HTML and non-HTML documents | |
US9032285B2 (en) | Selective content extraction | |
US20090089278A1 (en) | Techniques for keyword extraction from urls using statistical analysis | |
US20150067476A1 (en) | Title and body extraction from web page | |
US7844897B1 (en) | Blog template generation | |
US20180218076A1 (en) | Information obtaining method and apparatus | |
WO2005109178A3 (en) | Extracting information from web pages | |
US9658997B2 (en) | Portable page template | |
CN106951270B (zh) | 一种代码处理方法、***及服务器 | |
TWI539302B (zh) | 用於網路服務的延後資源當地語系化連結 | |
WO2014153457A1 (en) | Merging web page style addresses | |
US20110258528A1 (en) | Method and system for removing chrome from a web page | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
JP2004220251A (ja) | 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム | |
CN104216868B (zh) | 一种文档显示格式的适配方法及装置 | |
EP1959354A2 (en) | Method and system for converting hypertext markup language web page to plain text | |
Luo et al. | Web article extraction for web printing: a dom+ visual based approach | |
JP2007122398A (ja) | フラグメントの同一性判定方法およびコンピュータプログラム | |
EP1351159A2 (en) | Improvements relating to the content of the electronic documents | |
JP5564442B2 (ja) | 文章検索装置 | |
JP2018206303A (ja) | 情報処理装置及びプログラム | |
CN113296773B (zh) | 一种层叠样式表的版权标注方法和标注*** | |
CN112528205B (zh) | 一种网页主体信息提取方法、装置及存储介质 |