TWI760876B - 時間相依文字感興趣區域之偵測方法 - Google Patents

時間相依文字感興趣區域之偵測方法 Download PDF

Info

Publication number
TWI760876B
TWI760876B TW109134459A TW109134459A TWI760876B TW I760876 B TWI760876 B TW I760876B TW 109134459 A TW109134459 A TW 109134459A TW 109134459 A TW109134459 A TW 109134459A TW I760876 B TWI760876 B TW I760876B
Authority
TW
Taiwan
Prior art keywords
image
interest
time
region
text
Prior art date
Application number
TW109134459A
Other languages
English (en)
Other versions
TW202215287A (zh
Inventor
林建仲
凃瑋君
陳裕彥
Original Assignee
凌華科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 凌華科技股份有限公司 filed Critical 凌華科技股份有限公司
Priority to TW109134459A priority Critical patent/TWI760876B/zh
Application granted granted Critical
Publication of TWI760876B publication Critical patent/TWI760876B/zh
Publication of TW202215287A publication Critical patent/TW202215287A/zh

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本發明係提供一種時間相依文字感興趣區域之偵測方法,係適用於一資訊擷取系統之影像處理單元,用以對生產機台、加工機具或其他設備之一操作畫面中,含有以特定字元或字集為單位的隨時間變化文字感興趣區域的偵測,亦可進一步基於判斷有無歷史畫面的結果,輔以將各自偵測得到隨時間變化文字感興趣區域的候選區域作聯集處理,最後得到自動框選的隨時間變化文字感興趣區域,而上述之偵測方法可視操作畫面單獨執行、搭配執行或全部執行來選擇使用,自動將隨時間變化文字感興趣區域精確的框選出來,由於使用者僅需確認需要的資料是否都已框選,讓使用者的設定上更為便捷,對於減低使用者設定的時間將有大幅幫助,且可正確偵測出需要的資訊。

Description

時間相依文字感興趣區域之偵測方法
本發明係提供一種時間相依文字感興趣區域之偵測方法,尤指可使用資訊擷取系統來自動將操作畫面中之隨時間變化文字感興趣區域精確的框選出來,讓使用者的設定上更為便捷,對於減低使用者設定的時間會有大幅幫助,且可正確偵測出需要的資訊。
按,現今資訊科技、網際網路的快速發展、電腦運算能力大幅提升,以及資料蒐集和儲存技術持續地改進,也加速了大數據的累積、記錄與取得,並在生產線自動化技術方面,必須運用更快速的設備及開放的架構來滿足使用需求。
傳統型工廠生產機台在生產過程中所產生的各種參數均會顯示在螢幕上,當參數達到需要提出警告時,可透過信號燈來提醒現場的工作人員,意即需要有人在生產機台附近來處理緊急事件。若是需要統計螢幕上顯示的參數時,也需要有人定期抄錄,所以為了解決上述之問題,便有業者採用機台設備的資訊擷取系統,可透過擷取畫面並分析畫面上的資訊來達到客製化或自動化的分析或統計與警告設定。
不過機台螢幕的畫面上有許多的資訊,並為了使資訊擷取系統能有效且快速的分析畫面上的資訊,使用者必須先通過機台軟體的使 用者介面進行感興趣區域(Region of Interest,ROI)的框選,才能提供給資訊擷取系統來分析特定的區域,而目前在手動框選欲辨識之區域時,常會遇到的一些問題如下:
當機台畫面上欲辨識的項目數量過多,必須手動框選許多隨時間變化文字感興趣區域(或稱為動靜態文字區域,其內容會隨著時間推移而變化),便會造成在設定模式時,必須耗費很多時間來框選出感興趣的文字區域。若是框選區域太大而包含太多不需要資訊;或是框選區域太小,使得必要的資訊未被包含在其中,亦或是文字區域出現的長度未知(如三位數或五位數等)所導致框選區域不當或錯誤,將造成辨識時的正確率下降而效果不佳,並耗費運算資源,且資料取得後需要透過人工驗證其正確性,必要時得改善框選區域,相當的花費時間。雖然市面上有許多現成能自動偵測出文字區域的方法,但市面上大多數的演算法在框選隨時間變化文字感興趣區域時,仍會有出現包含太多不需要的資訊,或是必要的資訊沒辦法被正確的偵測之問題。
而在工業生產機台開發大數據應用時,首要任務是在產線機台(或稱為雲端終點端)蒐集相關機台的資訊,其中許多重要資訊來自於機台軟體的使用者介面,若是能針對機台畫面自動將隨時間變化文字感興趣區域精確的框選出來,讓使用者的設定更為便捷,對於減低使用者設定的時間,會有大幅幫助之外,並可正確偵測需要的資訊,而自動化偵測感興趣的文字區域也將有助於系統整合工程師在進行腳本編輯,以及相關機台參數設定等資料蒐集與分析應用,即為從事於此行業者所亟欲研究改善之方向所在。
故,發明人有鑑於上述缺失,乃搜集相關資料經由多方評估及考量,並以從事於此行業累積之多年經驗持續試作與修改,始設計出此種時間相依文字感興趣區域之偵測方法的發明專利誕生。
本發明之主要目的乃在於可使用資訊擷取系統之影像處理單元對生產機台、加工機具或其他設備之操作畫面中,含有以特定字元或字集為單位的隨時間變化文字感興趣區域的偵測,亦可進一步基於判斷有無歷史畫面的結果,輔以隨時間變化文字感興趣區域的候選區域的偵測,再將各自得到的候選區域作聯集處理,最後得到自動框選的隨時間變化文字感興趣區域,而上述之偵測方法可以單獨執行、搭配執行或全部執行,讓使用者可視操作畫面選擇使用,並自動將隨時間變化文字感興趣區域精確的框選出來,由於使用者僅需確認需要的資料是否都已框選,讓使用者的設定上更為便捷,對於減低使用者設定的時間將有大幅幫助,且可正確偵測出需要的資訊。
本發明之次要目的乃在於該偵測方法係載入一特定文字定義檔,其中該文字清單包含字元或字集,以供使用者根據操作畫面作新增、刪除或修改,並對操作畫面中的影像作特定文字的偵測,再擴展偵測到各特定文字感興趣區域的邊界範圍產生一個搜尋視窗,便可將搜尋視窗內之影像作灰階轉換,並分別進行垂直或水平投影方式搜尋,以及直線霍氏轉換處理流程,即可偵測出灰階影像中隨時間變化的文字及輸入框,再合併各自的隨時間變化文字感興趣區域的候選區域,最後取得隨時間變化文字感興趣區域。
本發明之另一目的乃在於該偵測方法係先判斷有無歷史的畫面資料,若是沒有歷史畫面資料,即對操作畫面擷取一張畫面轉換為灰階影像並視為一基準影像,再擷取一張畫面轉換為灰階影像後,便可根據灰階影像與基準影像差值運算結果,將大於特定門檻值的像素位置映射在投票平面中作累計的投票動作;若是有歷史畫面資料,則是從歷史影像資料庫中載入一張影像作為基準影像,並擷取一張歷史畫面的灰階影像與基準影像作差值運算,將大於特定門檻值的像素位置映射在投票平面中作累計的投票動作,而後便可將累計的投票平面作正規化處理,以及影像連通處理,計算出影像各連通區塊之邊界框,並將重疊的邊界框合併在一起、擴展邊界框的邊界範圍,以得到隨時間變化文字感興趣區域的候選區域,再將各自得到的候選區域作聯集處理後,以得到自動框選的隨時間變化文字感興趣區域。
本發明之再一目的乃在於該偵測方法係資訊擷取系統初始化相關系統參數後,可針對上述之機台畫面中含有以特定字元或字集為單位的隨時間變化文字感興趣區域之偵測處理流程,並於處理完畢得到隨時間變化文字感興趣區域的候選區域,會等待上述在有無歷史畫面資料前提下完成影像空間累計投票後之處理流程,而不管有無歷史畫面,整個投票過程結束之後都會得到一結果,並根據該結果可得到隨時間變化文字感興趣區域的候選區域,再將各自的候選區域作聯集處理,最後得到自動框選的隨時間變化文字感興趣區域。
100:操作畫面
101:搜尋視窗
102:隨時間變化的文字
103:屬性
104:單位
200:直方圖
201:隨時間變化文字感興趣區域
300:輸入框
301:直線霍夫轉換的計數平面
302:線的還原
400:基準影像
401:正規化處理後的投票平面
402:連通處理後的影像
403:隨時間變化文字感興趣區域的候選區域
404:自動框選的隨時間變化文字感興趣區域
〔第1圖〕係本發明第一較佳實施例之步驟流程圖。
〔第2圖〕係本發明機台畫面之示意圖。
〔第3圖〕係本發明對搜尋視窗內之影像進行投影方式搜尋並選取出隨時間變化文字感興趣區域之動作示意圖。
〔第4圖〕係本發明對搜尋視窗內之影像進行直線霍夫轉換還原得到隨時間變化文字感興趣區域之動作示意圖。
〔第5圖〕係本發明第二較佳實施例之步驟流程圖(一)。
〔第6圖〕係本發明第二較佳實施例之步驟流程圖(二)。
〔第7圖〕係本發明基於有無歷史畫面的前提下將各自偵測出的候選區域作投票聯集處理,最後自動框選出隨時間變化文字感興趣區域之動作示意圖。
〔第8圖〕係本發明第三較佳實施例之步驟流程圖(一)。
〔第9圖〕係本發明第三較佳實施例之步驟流程圖(二)。
〔第10圖〕係本發明第三較佳實施例之步驟流程圖(三)。
為達成上述目的及功效,本發明所採用之技術手段及其構造,茲繪圖就本發明之較佳實施例詳加說明其構造與功能如下,俾利完全瞭解。
請參閱如第1~4圖所示,係分別為本發明第一較佳實施例之步驟流程圖、機台畫面之示意圖、對搜尋視窗內之影像進行投影方式搜尋並選取出隨時間變化文字感興趣區域之動作示意圖及對搜尋視窗內之影像進行直線霍夫轉換還原得到隨時間變化文字感興趣區域之動作示意圖, 由圖中可清楚看出,本發明之時間相依文字感興趣區域之偵測方法,係適用於包含但不限於一生產機台、加工機具或其他設備等內建或外接之資訊擷取系統,並由機台來提供一操作畫面100顯示在螢幕上,以呈現機台運作和生產狀態各種參數或資料,其中資訊擷取系統具有一影像處理單元,包含但不限於現場可程式邏輯閘陣列(FPGA)、應用程式或其他中介之軟、硬體,用以偵測比對出特定字元或字集,並搭配比對一段會隨時間變化之影像狀態,包含歷史畫面資料或即時的影像,自動化偵測出感興趣的文字區域,該偵測方法包括下列之實施步驟:
(S100)開始。
(S101)初始化系統參數,再執行步驟(S201)。
(S201)載入特定文字定義檔。
(S202)特定文字的偵測。
(S203)擴展各特定文字感興趣區域的邊界範圍並產生一個搜尋視窗。
(S204)將搜尋視窗內之影像作灰階轉換與隨時間變化文字感興趣區域的框選。
(S205)取得隨時間變化文字感興趣區域。
(S206)結束。
由圖中及上述之實施步驟可清楚得知,當本發明之資訊擷取系統開始時,係先進行初始化相關系統參數(Initialize parameters),包含主機(Host)之影像來源選擇、解析度的設定等,並載入一特定文字定義檔(Load specific character definition file),該特定文字定義檔為使 用者預先定義用來搜尋的文字清單,包含大小寫字母、空格、數字、標點符號和其他符號之字元或其集合之字集,且文字清單內容可供使用者根據操作畫面中可能出現的特定文字區域作新增、刪除或修改,再根據載入的每個特定字元或字集,利用既有的偵測方式來作文字區域偵測,包含但不限於樣型比對、色彩相似度(Color similarity)、紋理(Texture)、形態學特徵相關的方法(Morphology feature related methods)、長短期記憶光學文字辨識〔Long Short-Term Memory(LSTM)OCR〕、深度學習用於物件的偵測〔Object Detection in Deep Learning,包含Single Shot Multi-Box Detector(SSD)、You Only Look Once(YOLO)等)〕等光學文字辨識演算法,其雖然無法判斷偵測出的區域是否為一個會隨時間變化的文字102區域,但是卻可以提供特定字元或字集的偵測位置資訊(如特定字元感興趣區域)。
當取得各特定文字感興趣區域後,可對每個特定文字感興趣區域的邊界高度取一個延伸的容忍值來擴展其邊界高度,並作為搜尋視窗101的高度,而每個感興趣區域最左邊或最右邊的邊界亦可向左或向右擴展一個寬度的容忍值,並作為搜尋視窗101的寬度,且高度與寬度的容忍值可通過使用者作設定調整或給定一個預設值,此搜尋視窗101為一個可能出現時間相依〔Time-dependent,又稱為隨時間變化(Time-varying)〕文字的感興趣區域或候選區域(Region proposal),故在本案以下之說明書內容中皆一起進行說明,合予陳明。
在本實施例中,需要將搜尋視窗101內之影像色彩空間作灰階空間的轉換(Convert each search window to gray space from color space)與隨時間變化文字感興趣區域的框選,並將轉換後的灰階影像分別進行垂直或水平投影方式搜尋,以及直線霍氏轉換(Hough Transform)處理流程,其中投影方式搜尋係基於隨時間變化的文字102一般是會位在屬性103與單位104之間,例如AX、ACY、MX等屬性,即是對感興趣區域中之-4.598、-182.340、-8.200等數值的描述,mm單位為特定字集,便可將已取得搜尋視窗101中之灰階影像進行垂直或水平投影轉換至直方圖200上,若是以垂直投影為說明,其中橫軸代表搜尋視窗101的寬度,縱軸代表灰階影像投影量,接著在直方圖200中由右而左搜尋投影量區域(如圖中之水平箭頭所指的方向),當曲線上某一點左方投影量連續不為零(或連續投影量低於某一設定值)之長度達到某一容忍值時,即可判斷此點已是屬性103與感興趣區域之邊界區域,並取其寬度為隨時間變化文字感興趣區域201之寬度,而其高度等同搜尋視窗101之高度,便可自動框選出隨時間變化文字感興趣區域201的候選區域,同理,水平投影方式搜尋之處理流程亦同,並可以為一選項,讓使用者根據操作畫面中之文字方向選擇設定任一種投影方式。
而直線霍氏轉換則是針對操作畫面中隨時間變化文字感興趣區域201所具有的用於文字輸入之輸入框300,由於輸入框300會有明顯的邊界資訊,所以在作投影方式之搜尋時,可能會出現隨時間變化文字感興趣區域201框選之寬度並非是輸入框300之寬度,但是其邊界特性卻可被用來作直線霍夫轉換的偵測,其處理流程為先針對搜尋視窗101作邊緣偵測(Edge Detection),以取得邊界資訊作計算,再轉換至直線霍夫轉換的計數平面301,在此計數平面中,可通過門檻值的設定,將限定在 特定角度範圍之下(如-90度、0度、90度)得到計數較高的交點作線的還原302,並通過四個還原的交點,即可進一步計算出等同輸入框300大小之矩形邊界框(Bounding box),以得到隨時間變化文字感興趣區域的候選區域,再合併上述垂直或水平投影方式搜尋與直線霍氏轉換各自偵測得到隨時間變化文字感興趣區域的候選區域,最後得到自動框選的隨時間變化文字感興趣區域。
請搭配參閱如第5~7圖所示,係分別為本發明第二較佳實施例之步驟流程圖(一)、(二)及基於有無歷史畫面的前提下將各自偵測出的候選區域作投票聯集處理,最後自動框選出隨時間變化文字感興趣區域之動作示意圖,由圖中可清楚看出,本發明之時間相依文字感興趣區域之偵測方法,係包括下列之實施步驟:
(S100)開始。
(S101)初始化系統參數。
(S102)判斷有無歷史畫面?若為有,則執行步驟(S401),若為無,則執行步驟(S301)。
(S301)擷取一張畫面。
(S302)將擷取到的畫面轉換為灰階影像並視為一基準影像。
(S303)判斷是否停止投票累計流程?若為是,則執行步驟(S501),若為否,則執行步驟(S304)。
(S304)擷取一張當前的畫面。
(S305)將擷取到的畫面轉換為灰階影像。
(S306)將灰階影像與基準影像作差值運算,以得到一差值運算結果。
(S307)根據差值運算結果將大於特定門檻值的像素位置映射在投票平面中作累計的投票動作,再重複執行步驟(S303)。
(S401)從歷史影像資料庫中載入一張影像作為基準影像。
(S402)判斷是否停止投票累計流程?若為是,則執行步驟(S501),若為否,則執行步驟(S403)。
(S403)從歷史影像資料庫中擷取一張歷史畫面的灰階影像。
(S404)將灰階影像與基準影像作差值運算,以得到一差值運算結果。
(S405)根據差值運算結果將大於特定門檻值的像素位置映射在投票平面中作累計的投票動作,再重複執行步驟(S402)。
(S501)將累計的投票平面作正規化處理。
(S502)影像連通處理。
(S503)計算出各連通區塊之邊界框,並將重疊的邊界框合併在一起。
(S504)擴展邊界框的邊界範圍,以得到隨時間變化文字感興趣區域的候選區域。
(S505)將各自的候選區域作聯集處理,以得到自動框選的隨時間變化文字感興趣區域。
(S506)結束。
由圖中及上述之實施步驟可清楚得知,本發明可基於判斷有無歷史畫面的結果來選擇使用不同的偵測方法,若是沒有機台操作畫面過往的歷史資料時,即必須蒐集畫面資料來進行偵測,其處理流程為先針對該機台畫面擷取一張基準畫面(Retrieve base screen),並將擷取到的畫面轉換為灰階影像(Color to gray),此灰階影像可視為一個基準影像(Base image)400,且該基準影像400一方面會儲存至一歷史影像資料庫(Historical images DB)中,另一方面繼續擷取一張當前的畫面進行以下投票累計流程。
若是判斷要繼續進行投票累計流程時,其處理流程為先針對機台的操作畫面先擷取出一張當前的畫面(Retrieve current screen from host device),並將擷取到的畫面轉換為灰階影像後,可將該灰階影像一方面儲存至歷史影像資料庫中,以作為歷史畫面資料,另一方面繼續以下投票累計流程,再將灰階影像與基準影像400每個區塊中之像素作差值運算(Difference with base image),得到一差值運算結果,即可根據差值運算結果將大於特定門檻值的像素位置判定為一個變動的像素,並映射在投票平面(Score map)中相對應的位置往上作累計一次的投票動作(Vote to accumulation map),再重複執行上述之投票累計流程,直到判斷停止整個投票流程為止。
當判斷有過往的歷史畫面資料時,在接下來的步驟是使用過去所蒐集的畫面資料來偵測,此步驟可以視為一個離線的隨時間變化文字感興趣區域偵測,其處理流程為從歷史影像資料庫中載入一張影像作為 基準影像400,並將從歷史影像資料庫中擷取一張歷史畫面的灰階影像,再將灰階影像與基準影像400每個區塊中之像素作差值運算,以得到一差值運算結果後,即可根據差值運算結果將大於特定門檻值的像素位置判定為一個變動的像素,並映射在投票平面中相對應的位置往上作累計一次的投票動作,直到判斷停止整個投票流程為止。
而在有無過往的歷史畫面資料的前提之下,完成上述之投票累計流程後,可將累計的投票平面作正規化處理(Normalize accumulati on map to score map),使其灰階影像中之像素值經過二值化轉換界定在〔0,1〕區間,其中0代表黑,1代表白,以得到這階段正規化處理後的投票平面401,再進行影像連通處理之Blob分析與提取投票數高的區塊(Blob Analysis and extract high score blob),以得到這階段連通處理後的影像402,使用者亦可設定進行一些額外的過濾處理後再進行連通處理,例如形態學中之影像膨脹(Dilation)或閉合(Closing)等,藉此將投票數小的區塊去除,而後便可進行計算出各連通區塊之邊界框,並將重疊的邊界框合併在一起(Calculate the bounding box of each blob and merge the overlapping),再將取得的邊界框進行上、下、左、右四個方向的延伸,藉此擴展邊界框的邊界範圍(Expanse the bounding box),且該延伸範圍可由使用者定義一個合適範圍,以得到隨時間變化文字感興趣區域的候選區域403,再將各自的候選區域作聯集處理,最後得到自動框選的隨時間變化文字感興趣區域404。
請同時參閱如第8~10圖所示,係分別為本發明第三較佳實施例之步驟流程圖(一)至(三),由圖中可清楚看出,本發明之時間 相依文字感興趣區域之偵測方法,係包括下列之實施步驟:
(S100)開始。
(S101)初始化系統參數,再執行步驟(S102)及步驟(S201)。
(S102)判斷有無歷史畫面資料?若為有,則執行步驟(S401),若為無,則執行步驟(S301)。
(S201)載入特定文字定義檔。
(S202)特定文字的偵測。
(S203)擴展各特定文字感興趣區域的邊界範圍並產生一個搜尋視窗。
(S204)將搜尋視窗內之影像作灰階轉換與隨時間變化文字感興趣區域的框選。
(S205)取得隨時間變化文字感興趣區域的候選區域,再執行步驟(S601)。
(S301)擷取一張畫面。
(S302)將擷取到的畫面轉換為灰階影像並視為一基準影像。
(S303)判斷是否停止投票累計流程?若為是,則執行步驟(S501),若為否,則執行步驟(S304)。
(S304)擷取一張當前的畫面。
(S305)將擷取到的畫面轉換為灰階影像。
(S306)將灰階影像與基準影像作差值運算,以得到一差 值運算結果。
(S307)根據差值運算結果將大於特定門檻值的像素位置映射在投票平面中作累計的投票動作,再重複執行步驟(S303)。
(S401)從歷史影像資料庫中載入一張影像作為基準影像。
(S402)判斷是否停止投票累計流程?若為是,則執行步驟(S501),若為否,則執行步驟(S403)。
(S403)從歷史影像資料庫中擷取一張歷史畫面的灰階影像。
(S404)將灰階影像與基準影像作差值運算,以得到一差值運算結果。
(S405)根據差值運算結果將大於特定門檻值的像素位置在投票平面中作累計的投票動作,再重複執行步驟(S402)。
(S501)將累計的投票平面作正規化處理。
(S502)影像連通處理。
(S503)計算出各連通區塊之邊界框,並將重疊的邊界框合併在一起。
(S504)擴展邊界框的邊界範圍,以得到隨時間變化文字感興趣區域的候選區域,再執行步驟(S601)。
(S601)將各自的候選區域作聯集處理,以得到自動框選的隨時間變化文字感興趣區域。
(S602)結束。
由圖中及上述之實施步驟可清楚得知,在本發明之第一較佳實施例步驟(S201)~(S205),係針對機台畫面中含有以特定字元或字集為單位的隨時間變化文字感興趣區域之偵測處理流程,並於處理完畢得到隨時間變化文字感興趣區域的候選區域後,便會等待第二較佳實施例完成步驟(S501)~(S504),係針對機台在有無歷史畫面資料前提下完成影像空間累計投票後之處理流程,以得到隨時間變化文字感興趣區域的候選區域,再將各自的候選區域作聯集處理,最後得到自動框選的隨時間變化文字感興趣區域。
是以,本發明主要為提供一種時間相依文字感興趣區域之偵測方法,係適用於一資訊擷取系統之影像處理單元,用以對生產機台、加工機具或其他設備之操作畫面100中,含有以特定字元或字集為單位的隨時間變化文字感興趣區域201的偵測,例如尺寸(如cm、mm)、溫度(℃)或壓力(N/m2)等,但並不以此為限,亦可進一步基於判斷有無歷史畫面的結果,輔以隨時間變化文字感興趣區域的候選區域403的偵測,再將各自的候選區域作聯集處理,最後得到自動框選的隨時間變化文字感興趣區域404,而上述之偵測方法可以單獨執行、搭配執行或全部執行,讓使用者可視操作畫面100來選擇使用,並自動將隨時間變化文字感興趣區域404精確的框選出來,僅需確認需要的資料是否都已框選,讓使用者的設定上更為便捷,對於減低使用者設定的時間將有大幅幫助,且可正確偵測出需要的資訊。除此之外,自動化偵測感興趣的文字區域,也將有助於目前系統整合工程師在進行腳本編輯,以及相關機台參數設定等資料蒐集與分析應用。
上述詳細說明為針對本發明一種較佳之可行實施例說明而已,惟該實施例並非用以限定本發明之申請專利範圍,凡其他未脫離本發明所揭示之技藝精神下所完成之均等變化與修飾變更,均應包含於本發明所涵蓋之專利範圍中。
綜上所述,本發明上述之時間相依文字感興趣區域之偵測方法使用時為確實能達到其功效及目的,故本發明誠為一實用性優異之發明並符合發明專利之申請要件,爰依法提出申請,盼 審委能夠早日賜准本案,以保障發明人之辛苦發明,倘若 鈞局審委有任何稽疑,懇請不吝來函指示,發明人定當竭力配合,實感德便。

Claims (13)

  1. 一種時間相依文字感興趣區域之偵測方法,係適用於一資訊擷取系統,該資訊擷取系統具有一影像處理單元,用以偵測在一操作畫面中的影像,包含歷史畫面資料或即時的影像,自動框選出一隨時間變化文字感興趣區域,該偵測方法包括下列之實施步驟:(B01)判斷有無該歷史畫面資料,若為有,則執行步驟(B09),若為無,則執行步驟(B02);(B02)對該操作畫面擷取一張畫面;(B03)將擷取到的該畫面轉換為灰階影像並視為一基準影像;(B04)判斷是否停止一投票累計流程?若為是,則執行步驟(B14),若為否,則執行步驟(B05);(B05)對該操作畫面擷取一張當前的畫面;(B06)將擷取到的該畫面轉換為灰階影像;(B07)將該灰階影像與該基準影像每個區塊中之像素作差值運算,以得到一差值運算結果;(B08)根據該差值運算結果將該大於特定門檻值的像素位置映射在一投票平面中作累計的投票動作,再重複執行步驟(B04);(B09)從一歷史影像資料庫中載入一張影像作為基準影像;(B10)判斷是否停止一投票累計流程?若為是,則執行步驟(B14),若為否,則執行步驟(B11);(B11)從該歷史影像資料庫中擷取一張歷史畫面的灰階影像; (B12)將該灰階影像與該基準影像每個區塊中之像素作差值運算,以得到一差值運算結果;(B13)根據該差值運算結果將該大於特定門檻值的像素位置映射在一投票平面中作累計的投票動作,再重複執行步驟(B10);(B14)將累計的投票平面作正規化處理;(B15)對該投票平面進行影像連通處理;(B16)計算出該影像各連通區塊之邊界框,並將該重疊的邊界框合併在一起;(B17)擴展該邊界框的邊界範圍,以得到該隨時間變化文字感興趣區域的候選區域;(B18)將各自得到的候選區域作聯集處理,以得到該自動框選的隨時間變化文字感興趣區域。
  2. 如請求項1所述之時間相依文字感興趣區域之偵測方法,其中該步驟(B03)與(B06)轉換後之灰階影像係儲存至該歷史影像資料庫中,並作為歷史畫面的灰階影像。
  3. 如請求項1所述之時間相依文字感興趣區域之偵測方法,其中該步驟(B14)之正規化處理係將灰階影像中之像素值經過二值化轉換界定在〔0,1〕區間。
  4. 如請求項1所述之時間相依文字感興趣區域之偵測方法,其中該步驟(B15)之影像連通處理係對該投票平面通過Blob分析與提取投票數高的區塊。
  5. 如請求項1所述之時間相依文字感興趣區域之偵測方法,其中該步驟(B15)在進行影像連通處理之前,係通過形態學包含影像膨脹、閉合的過濾處理,將投票數小的區塊去除。
  6. 一種時間相依文字感興趣區域之偵測方法,係適用於一資訊擷取系統,該資訊擷取系統具有一影像處理單元,用以偵測在一操作畫面中的影像,包含歷史畫面資料或即時的影像,自動框選出一隨時間變化文字感興趣區域,該偵測方法包括下列之實施步驟:(C01)初始化系統參數,再執行步驟(C02)及步驟(C03);(C02)判斷有無該歷史畫面資料,若為有,則執行步驟(C15),若為無,則執行步驟(C08);(C03)載入一特定文字定義檔;(C04)對該操作畫面中的影像作特定文字的偵測;(C05)擴展所偵測到各特定文字感興趣區域的邊界範圍並產生一個搜尋視窗;(C06)將該搜尋視窗內之影像作灰階轉換與該隨時間變化文字感興趣區域的框選;(C07)取得該隨時間變化文字感興趣區域的候選區域,再執行步驟(C24);(C08)對該操作畫面擷取一張畫面;(C09)將擷取到的該畫面轉換為灰階影像並視為一基準影像;(C10)判斷是否停止一投票累計流程?若為是,則執行步驟(C20),若為否,則執行步驟(C11); (C11)對該操作畫面擷取一張當前的畫面;(C12)將擷取到的該畫面轉換為灰階影像;(C13)將該灰階影像與該基準影像每個區塊中之像素作差值運算,以得到一差值運算結果;(C14)根據該差值運算結果將該大於特定門檻值的像素位置映射在一投票平面中作累計的投票動作,再重複執行步驟(C10);(C15)從一歷史影像資料庫中載入一張影像作為基準影像;(C16)判斷是否停止一投票累計流程?若為是,則執行步驟(C20),若為否,則執行步驟(C17);(C17)從該歷史影像資料庫中擷取一張歷史畫面的灰階影像;(C18)將該灰階影像與該基準影像每個區塊中之像素作差值運算,以得到一差值運算結果;(C19)根據該差值運算結果將該大於特定門檻值的像素位置映射在一投票平面中作累計的投票動作,再重複執行步驟(C16);(C20)將累計的投票平面作正規化處理;(C21)對該投票平面進行影像連通處理;(C22)計算出該影像各連通區塊之邊界框,並將該重疊的邊界框合併在一起;(C23)擴展該邊界框的邊界範圍,以得到該隨時間變化文字感興趣區域的候選區域,再執行步驟(C24); (C24)將各自得到的候選區域作聯集處理,以得到該自動框選的隨時間變化文字感興趣區域。
  7. 如請求項6所述之時間相依文字感興趣區域之偵測方法,其中該步驟(C05)之搜尋視窗係針對轉換後的灰階影像分別進行垂直或水平投影方式搜尋,以及直線霍氏轉換處理流程,並分別偵測該灰階影像中隨時間變化的文字及輸入框,以得到隨時間變化文字感興趣區域的候選區域,再合併各自偵測得到該隨時間變化文字感興趣區域的候選區域。
  8. 如請求項7所述之時間相依文字感興趣區域之偵測方法,其中該投影方式搜尋係基於該隨時間變化的文字會位在屬性與單位之間,並將該灰階影像投影轉換至一直方圖上,接著在該直方圖中搜尋投影量連續不為零或低於設定值的區域,以判斷該屬性與該隨時間變化文字感興趣區域之邊界區域,並取其寬度為該隨時間變化文字感興趣區域之寬度,而其高度等同該搜尋視窗之高度。
  9. 如請求項7所述之時間相依文字感興趣區域之偵測方法,其中該直線霍氏轉換係對該搜尋視窗作邊緣偵測,以取得邊界資訊作計算,再轉換至該直線霍夫轉換的計數平面,在該計數平面中係通過門檻值的設定作線的還原,計算出等同該輸入框之邊界框。
  10. 如請求項6所述之時間相依文字感興趣區域之偵測方法,其中該步驟(C09)與(C12)轉換後之灰階影像係儲存至該歷史影像資料庫中,並作為歷史畫面的灰階影像。
  11. 如請求項6所述之時間相依文字感興趣區域之偵測方法,其 中該步驟(C20)之正規化處理係將灰階影像中之像素值經過二值化轉換界定在〔0,1〕區間。
  12. 如請求項6所述之時間相依文字感興趣區域之偵測方法,其中該步驟(C21)之影像連通處理係對該投票平面通過Blob分析與提取投票數高的區塊。
  13. 如請求項6所述之時間相依文字感興趣區域之偵測方法,其中該步驟(C21)在進行影像連通處理之前,係通過形態學包含影像膨脹、閉合的過濾處理,將投票數小的區塊去除。
TW109134459A 2020-10-05 2020-10-05 時間相依文字感興趣區域之偵測方法 TWI760876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109134459A TWI760876B (zh) 2020-10-05 2020-10-05 時間相依文字感興趣區域之偵測方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109134459A TWI760876B (zh) 2020-10-05 2020-10-05 時間相依文字感興趣區域之偵測方法

Publications (2)

Publication Number Publication Date
TWI760876B true TWI760876B (zh) 2022-04-11
TW202215287A TW202215287A (zh) 2022-04-16

Family

ID=82197203

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109134459A TWI760876B (zh) 2020-10-05 2020-10-05 時間相依文字感興趣區域之偵測方法

Country Status (1)

Country Link
TW (1) TWI760876B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075265A (zh) * 2007-07-23 2007-11-21 王文钢 自动跟踪画面重点区域的网页小窗口视频展示的方法
US20180137119A1 (en) * 2016-11-16 2018-05-17 Samsung Electronics Co., Ltd. Image management method and apparatus thereof
TW201931067A (zh) * 2017-11-07 2019-08-01 美商奧誓公司 用於自動地執行一隱含訊息搜尋之電腦化系統與方法
CN111612005A (zh) * 2020-04-07 2020-09-01 西安万像电子科技有限公司 文字检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075265A (zh) * 2007-07-23 2007-11-21 王文钢 自动跟踪画面重点区域的网页小窗口视频展示的方法
US20180137119A1 (en) * 2016-11-16 2018-05-17 Samsung Electronics Co., Ltd. Image management method and apparatus thereof
TW201931067A (zh) * 2017-11-07 2019-08-01 美商奧誓公司 用於自動地執行一隱含訊息搜尋之電腦化系統與方法
CN111612005A (zh) * 2020-04-07 2020-09-01 西安万像电子科技有限公司 文字检测方法及装置

Also Published As

Publication number Publication date
TW202215287A (zh) 2022-04-16

Similar Documents

Publication Publication Date Title
US10853638B2 (en) System and method for extracting structured information from image documents
WO2020140698A1 (zh) 表格数据的获取方法、装置和服务器
CN110942074B (zh) 字符切分识别方法、装置、电子设备、存储介质
US8611662B2 (en) Text detection using multi-layer connected components with histograms
CN111768381A (zh) 零部件缺陷检测方法、装置及电子设备
CN109697414B (zh) 一种文本定位方法及装置
CN116168351B (zh) 电力设备巡检方法及装置
WO2020071558A1 (ja) 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
CN114549993A (zh) 实验中线段图像的评分方法、***、设备及可读存储介质
CN113420848A (zh) 神经网络模型的训练方法及装置、手势识别的方法及装置
CN116559177A (zh) 一种缺陷检测方法、装置、设备以及存储介质
CN115471476A (zh) 一种部件缺陷检测方法、装置、设备及介质
CN114359161A (zh) 一种缺陷检测方法、装置、设备和存储介质
US11140290B2 (en) Out-of-bounds detection for a document in a live camera feed
TWI760876B (zh) 時間相依文字感興趣區域之偵測方法
Ghoshal et al. A novel method for binarization of scene text images and its application in text identification
US10257375B2 (en) Detecting long documents in a live camera feed
CN115661851A (zh) 获取样本数据及构件识别方法及电子设备
CN113887394A (zh) 一种图像处理方法、装置、设备及存储介质
US11881037B2 (en) Automatically detecting method for time-varying text region of interest
CN114663641A (zh) 时间相依文字感兴趣区域的侦测方法
Bhatt et al. Text Extraction & Recognition from Visiting Cards
Xu et al. Tolerance Information Extraction for Mechanical Engineering Drawings–A Digital Image Processing and Deep Learning-based Model
CN111899181A (zh) 去除图像中的阴影的方法和装置
Shekar Skeleton matching based approach for text localization in scene images