TWI776489B - 用於文件分割的電子裝置和方法 - Google Patents

用於文件分割的電子裝置和方法 Download PDF

Info

Publication number
TWI776489B
TWI776489B TW110115669A TW110115669A TWI776489B TW I776489 B TWI776489 B TW I776489B TW 110115669 A TW110115669 A TW 110115669A TW 110115669 A TW110115669 A TW 110115669A TW I776489 B TWI776489 B TW I776489B
Authority
TW
Taiwan
Prior art keywords
feature map
generate
model
size
decoding
Prior art date
Application number
TW110115669A
Other languages
English (en)
Other versions
TW202201272A (zh
Inventor
郭景明
張立穎
Original Assignee
國立臺灣科技大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立臺灣科技大學 filed Critical 國立臺灣科技大學
Priority to US17/344,911 priority Critical patent/US11657279B2/en
Publication of TW202201272A publication Critical patent/TW202201272A/zh
Application granted granted Critical
Publication of TWI776489B publication Critical patent/TWI776489B/zh

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

提出一種用於文件分割的電子裝置和方法。方法包含:取得對應於原始文件的第一特徵圖和第二特徵圖;對第二特徵圖執行第一上取樣以產生第三特徵圖;連接第一特徵圖和第三特徵圖以產生第四特徵圖;將第四特徵圖輸入至第一反向殘差塊並且執行基於第一擴張率的第一空洞卷積運算以產生第五特徵圖;將第四特徵圖輸入至第二反向殘差塊並且執行基於第二擴張率的第二空洞卷積運算以產生第六特徵圖;連接第五特徵圖和第六特徵圖以產生第七特徵圖;對第七特徵圖執行卷積運算以產生經分割文件。

Description

用於文件分割的電子裝置和方法
本發明是有關於一種用於文件分割的電子裝置和方法。
目前,文件分割(document segmentation)為語意分割(semantic segmentation)領域中受到關注的技術。文件分割可用於識別並標示文件中的各個物件(例如:文字內容、圖像或表格)。儘管已有許多基於深度學習(deep learning)的文件分割方法被提出,該些方法所產生的結果仍受限於運算資源的多寡影響。例如,包含較少卷積層的卷積神經網路可能無法非常清楚地標示出文件中的物件。據此,如何提出一種能利用較少的運算資源達到較佳的結果的文件分割方法,是本領域人員致力的目標之一。
本發明提供一種用於文件分割的電子裝置和方法,可利用少量的運算資源對文件進行文件分割以產生經分割文件。
本發明的一種用於文件分割的電子裝置,包含處理器、儲存媒體以及收發器。收發器接收原始文件。儲存媒體儲存神經網路模型。處理器耦接儲存媒體以及收發器,並且存取和執行神經網路模型,其中神經網路模型包含第一模型,其中第一模型經配置以執行:取得對應於原始文件的第一尺寸的第一特徵圖和第二尺寸的第二特徵圖,其中第一尺寸大於第二尺寸;對第二特徵圖執行第一上取樣以產生第三尺寸的第三特徵圖,其中第三尺寸等於第一尺寸;連接第一特徵圖和第三特徵圖以產生第四特徵圖;將第四特徵圖輸入至第一反向殘差塊以產生第一輸出,並且對第一輸出執行基於第一擴張率的第一空洞卷積運算以產生第五特徵圖;將第四特徵圖輸入至第二反向殘差塊以產生第二輸出,並且對第二輸出執行基於第二擴張率的第二空洞卷積運算以產生第六特徵圖,其中第二擴張率不同於第一擴張率;連接第五特徵圖和第六特徵圖以產生第七特徵圖;以及對第七特徵圖執行第一卷積運算以產生經分割文件,其中處理器通過收發器輸出經分割文件。
在本發明的一實施例中,上述的神經網路模型更包含第二模型,其中第二模型經配置以執行:對第二特徵圖執行第二上取樣以產生第四尺寸的第八特徵圖,其中第四尺寸等於第一尺寸;連接第一特徵圖和第八特徵圖以產生第九特徵圖;以及對第九特徵圖執行第二卷積運算以產生輸出特徵圖。
在本發明的一實施例中,上述的第一模型對應於第一損失函數,其中第二模型對應於第二損失函數,其中處理器將第一損失函數和第二損失函數相加以產生第三損失函數,其中處理器根據第三損失函數訓練第一模型和第二模型。
在本發明的一實施例中,上述的神經網路模型更包含編碼卷積網路,其中編碼卷積網路包含第一編碼卷積層和第二編碼卷積層,其中編碼卷積網路經配置以執行:根據原始文件和第一編碼卷積層產生第一編碼特徵圖;以及根據第一編碼特徵圖和第二編碼卷積層以產生第二編碼特徵圖。
在本發明的一實施例中,上述的神經網路模型更包含解碼卷積網路,其中解碼卷積網路包含第一解碼層和第二解碼層,其中第一解碼層包含第二編碼卷積層以及對應於第二編碼卷積層的解碼卷積層,其中解碼卷積網路經配置以執行:根據第二編碼特徵圖和第一解碼層產生第二特徵圖;以及根據第二特徵圖和第二解碼層產生第一特徵圖。
在本發明的一實施例中,上述的第一模型更經配置以執行:將第一特徵圖和第三特徵圖相加以產生第十特徵圖;以及連接第十特徵圖、第一特徵圖以及第三特徵圖以產生第四特徵圖。
在本發明的一實施例中,上述的第一模型更經配置以執行:將第五特徵圖和第六特徵圖相加以產生第十一特徵圖;以及連接第五特徵圖、第六特徵圖以及第十一特徵圖以產生第七特徵圖。
在本發明的一實施例中,上述的第一模型更經配置以執行:對第七特徵圖執行第一卷積運算以產生第十二特徵圖;以及將第十二特徵圖輸入至擠壓和激勵網路以產生經分割文件。
在本發明的一實施例中,上述的第一編碼卷積層對原始文件執行移動反向瓶頸卷積以產生第一編碼特徵圖。
本發明的一種用於文件分割的方法,包含:取得原始文件和神經網路模型,其中神經網路模型包含第一模型,其中第一模型經配置以執行:取得對應於原始文件的第一尺寸的第一特徵圖和第二尺寸的第二特徵圖,其中第一尺寸大於第二尺寸;對第二特徵圖執行第一上取樣以產生第三尺寸的第三特徵圖,其中第三尺寸等於第一尺寸;連接第一特徵圖和第三特徵圖以產生第四特徵圖;將第四特徵圖輸入至第一反向殘差塊以產生第一輸出,並且對第一輸出執行基於第一擴張率的第一空洞卷積運算以產生第五特徵圖;將第四特徵圖輸入至第二反向殘差塊以產生第二輸出,並且對第二輸出執行基於第二擴張率的第二空洞卷積運算以產生第六特徵圖,其中第二擴張率不同於第一擴張率;連接第五特徵圖和第六特徵圖以產生第七特徵圖;以及對第七特徵圖執行第一卷積運算以產生經分割文件;以及輸出經分割文件。
基於上述,本發明提出的神經網路模型的架構可在使用到較少運算資源的情況下產生優於傳統文件分割方法的結果。
為了使本發明之內容可以被更容易明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。另外,凡可能之處,在圖式及實施方式中使用相同標號的元件/構件/步驟,係代表相同或類似部件。
圖1根據本發明的實施例繪示一種用於文件分割的電子裝置100的示意圖。電子裝置100可包含處理器110、儲存媒體120以及收發器130。
處理器110例如是中央處理單元(central processing unit,CPU),或是其他可程式化之一般用途或特殊用途的微控制單元(micro control unit,MCU)、微處理器(microprocessor)、數位信號處理器(digital signal processor,DSP)、可程式化控制器、特殊應用積體電路(application specific integrated circuit,ASIC)、圖形處理器(graphics processing unit,GPU)、影像訊號處理器(image signal processor,ISP)、影像處理單元(image processing unit,IPU)、算數邏輯單元(arithmetic logic unit,ALU)、複雜可程式邏輯裝置(complex programmable logic device,CPLD)、現場可程式化邏輯閘陣列(field programmable gate array,FPGA)或其他類似元件或上述元件的組合。處理器110可耦接至儲存媒體120以及收發器120,並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式。
儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬碟(hard disk drive,HDD)、固態硬碟(solid state drive,SSD)或類似元件或上述元件的組合,而用於儲存可由處理器OOO執行的多個模組或各種應用程式。在本實施例中,儲存媒體120可儲存用於對原始文件進行文件分割的神經網路模型200。
收發器130以無線或有線的方式傳送及接收訊號。收發器130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。電子裝置100可通過收發器130接收原始文件,從而利用儲存媒體120中的神經網路模型來對原始文件進行文件分割。
圖2根據本發明的實施例繪示神經網路模型200的示意圖。神經網路模型200可包含編碼卷積網路210、解碼卷積網路220、第一模型230以及第二模型240,其中第一模型230可包含密接金字塔模組(densely joint pyramid module,DJPM)231。在一實施例中,第一模型230可進一步包含擠壓和激勵網路(squeeze-and-excitation network,SENet)232。神經網路模型200可接收原始文件30,並且將原始文件30轉換為經處理的文件。圖3根據本發明的實施例繪示原始文件30和經處理的文件的示意圖。經處理的文件可包含由第一模型230輸出的經切割文件40以及由第二模型240輸出的經切割文件50。由圖3可知,經切割文件40(或經切割文件50)可清楚地標示出原始文件30中的不同物件。換句話說,神經網路模型200的文件分割的效能十分優異。
參照圖2,編碼卷積網路210可包含多個編碼卷積層,其中所述多個編碼卷積層的數量可依需求而調整,本發明不加以限制。在本實施例中,編碼卷積網路210可包含編碼卷積層211、編碼卷積層212、編碼卷積層213、編碼卷積層214、編碼卷積層215、編碼卷積層216、編碼卷積層217以及編碼卷積層218。
編碼卷積層211可接收原始文件30,並且對原始文件30進行卷積運算以產生編碼特徵圖。編碼卷積層212可接收由編碼卷積層211輸出的編碼特徵圖,並且對由編碼卷積層211輸出的編碼特徵圖進行卷積運算以產生新的編碼特徵圖。基於類似的方式,編碼卷積網路210中的編碼卷積層可接收上一個編碼卷積層所輸出的編碼特徵圖並根據所接收的編碼特徵圖產生新的編碼特徵圖。在經過多個編碼卷積層的卷積運算後,編碼卷積層218可對由編碼卷積層217輸出的編碼特徵圖進行卷積運算以產生新的編碼特徵圖。
編碼卷積網路210中的多個編碼卷積層可對應於不同的尺寸。換句話說,不同的編碼卷積層所輸出的編碼特徵圖的尺寸可不相同。舉例來說,編碼卷積層211輸出的編碼特徵圖的尺寸可不同於編碼卷積層212輸出的編碼特徵圖的尺寸。編碼卷積網路210可利用不同尺寸的多個編碼卷積層來擷取出原始文件30在多個尺度的時間或空間中的重要特徵。
在一實施例中,編碼卷積網路210中的多個編碼卷積層可為移動反向瓶頸卷積(mobile inverted bottleneck convolution,MBConv)層。以編碼卷積層211為例,編碼卷積層211可對原始文件30執行移動反向瓶頸卷積以產生編碼特徵圖。以編碼卷積層212為例,編碼卷積層212可對由編碼卷積層211輸出的編碼特徵圖執行移動反向瓶頸卷積以產生新的編碼特徵圖。
解碼卷積網路220可包含多個解碼層,其中所述多個解碼層的數量可依需求而調整,本發明不加以限制。在本實施例中,多個解碼層的數量可為編碼卷積網路210中的多個編碼卷積層的數量減去1。解碼卷積網路220可包含解碼層221、解碼層222、解碼層223、解碼層224、解碼層225、解碼層226以及解碼層227。
解碼卷積網路220中的一或多個解碼層可與編碼卷積網路210中的一或多個編碼卷積層相對應。在本實施例中,解碼層221可與編碼卷積層217相對應。解碼層222可與編碼卷積層216相對應。解碼層223可與編碼卷積層215相對應。解碼層224可與編碼卷積層214相對應。解碼層225可與編碼卷積層213相對應。解碼層226可與編碼卷積層212相對應。解碼層227可與編碼卷積層211相對應。
在解碼卷積網路220中,與編碼卷積網路210距離較接近的一或多個解碼層(即:距離編碼卷積網路210的輸入端較接近的一或多個解碼層)可包含編碼卷積層。解碼層中的編碼卷積層可位於解碼層的輸入端或輸出端。解碼層可為編碼卷積層以及對應於編碼卷積層的解碼卷積層的串聯(concatenation)。所述串聯用以補償解碼卷積層在還原資料時造成的損失。解碼卷積層在還原資料時,是基於最小的尺寸執行還原流程,故會使資料中的細節丟失。因此,本發明通過編碼卷積層以及解碼卷積層的串聯來補償細節的損失。在本實施例中,解碼層221可為編碼卷積層217以及對應於編碼卷積層217的解碼卷積層的串聯(concatenation)。解碼層222可為對應於編碼卷積層216的解碼卷積層以及編碼卷積層216的串聯。解碼層223可為對應於編碼卷積層215的解碼卷積層以及編碼卷積層215的串聯。解碼層224可為對應於編碼卷積層214的解碼卷積層以及編碼卷積層214的串聯。解碼層225可為對應於編碼卷積層213的解碼卷積層以及編碼卷積層213的串聯。解碼層226可僅包含對應於編碼卷積層212的編碼卷積層。解碼層227可僅包含對應於編碼卷積層211的編碼卷積層。
解碼層221可接收由卷積編碼層218輸出的編碼特徵圖,並且對編碼特徵圖進行反卷積運算以產生新的特徵圖。解碼層222可接收由解碼層221輸出的特徵圖,並且對由解碼層221輸出的特徵圖進行反卷積運算以產生新的特徵圖。基於類似的方式,解碼卷積網路220中的解碼層可接收上一解碼層所輸出的特徵圖並根據所接收的特徵圖產生新的特徵圖。在經過多個解碼層的反卷積運算後,解碼層227可對由解碼層226輸出的特徵圖進行反卷積運算以產生新的特徵圖。
解碼卷積網路220中的多個解碼層可對應於不同的尺寸。換句話說,不同的解碼層所輸出的特徵圖的尺寸可不相同。舉例來說,解碼層221輸出的特徵圖的尺寸可不同於解碼層222輸出的特徵圖的尺寸。解碼卷積網路220可利用不同尺寸的多個解碼層來擷取出原始文件30在多個尺度的時間或空間中的重要特徵。
在一實施例中,解碼卷積網路220中的多個解碼層可為移動反向瓶頸卷積層。以解碼層221為例,解碼層221可對由編碼卷積層218輸出的特徵圖執行移動反向瓶頸卷積以產生新的特徵圖。以解碼層222為例,解碼層222可對由解碼層221輸出的特徵圖執行移動反向瓶頸卷積以產生新的特徵圖。
第一模型230可為一種神經網路。例如,第一模型230可為上下文分割網路(context segmentation network)。第一模型230的密接金字塔模組231可根據解碼卷積網路220中的一或多個解碼層的輸出產生對應於原始文件30的經分割文件。圖4根據本發明的實施例繪示密接金字塔模組231產生經分割文件70的流程的示意圖。具體來說,在流程(a)中,密接金字塔模組231可取得解碼卷積網路220中距離與密接金字塔模組231較接近的一或多個解碼層(即:距離編碼卷積網路220的輸出端較接近的一或多個解碼層)所輸出的一或多個特徵圖,其中所述一或多個解碼層可包含最接近密接金字塔模組231的解碼層(即:用於產生解碼卷積網路220的輸出的解碼層227)。接著,密接金字塔模組231可分別對取得的特徵圖執行卷積運算,以產生新的特徵圖。
在本實施例中,密接金字塔模組231可分別自解碼層227、解碼層225以及解碼層224取得特徵圖53、特徵圖52以及特徵圖51,其中特徵圖53的尺寸可大於特徵圖52,並且特徵圖52的尺寸可大於特徵圖51。密接金字塔模組231可對特徵圖51、特徵圖52以及特徵圖53執行卷積運算以分別產生特徵圖54、特徵圖55以及特徵圖56,其中特徵圖56的尺寸可大於特徵圖55,並且特徵圖55的尺寸可大於特徵圖54。
為了使特徵圖的尺寸相同,在流程(b)中,密接金字塔模組231可對尺寸較小的特徵圖進行上取樣。在本實施例中,密接金字塔模組231可對特徵圖54進行上取樣以產生特徵圖57,其中特徵圖57的尺寸可與特徵圖56的尺寸相同。密接金字塔模組231可對特徵圖55進行上取樣以產生特徵圖58,其中特徵圖58的尺寸可與特徵圖56的尺寸相同。
接著,密接金字塔模組231可將尺寸相同的各個特徵圖相加以產生新的特徵圖。密接金字塔模組231可將根據各個特徵圖所產生的特徵圖以及所述各個特徵圖連接(concat)以產生新的特徵圖。假設密接金字塔模組231欲將N+1個(N為正整數)特徵圖連接,密接金字塔模組231可依照:根據所述各個特徵圖所產生的特徵圖、對應於與第一模型230相距第一距離的解密層的特徵圖、對應於與第一模型230相距第二距離的解密層的特徵圖、…、對應於與第一模型230相距第N距離的解密層的特徵圖,其中第一距離可小於第二距離,並且第二距離可小於第N距離。在本實施例中,密接金字塔模組231可將特徵圖56、特徵圖57和特徵圖58相加以產生特徵圖59。接著,密接金字塔模組231可依序連接特徵圖59、特徵圖56、特徵圖58和特徵圖57以產生特徵圖5。
在流程(c)中,密接金字塔模組231可將特徵圖輸入至反向殘差塊(inverted residual block,IRB)以擴增對原始文件的空間資訊的補償。密接金字塔模組231可基於不同的擴張率(dilation rate)對反向殘差塊的輸出執行空洞卷積(atrous convolution)運算或可分離卷積(separable convolution,S-CONV)運算以產生多個特徵圖。在本實施例中,密接金字塔模組231可將特徵圖5輸入至反向殘差塊,並且基於擴張率1(D=1)、擴張率2(D=2)、擴張率4(D=4)以及擴張率8(D=8)分別對反向殘差塊的輸出執行空洞卷積運算以產生4個特徵圖,分別為特徵圖61、特徵圖62、特徵圖63以及特徵圖64。亦即,特徵圖61對應於擴張率1、特徵圖62對應於擴張率2、特徵圖63對應於擴張率4並且特徵圖64對應於擴張率8。
在流程(d)中,密接金字塔模組231可將尺寸相同的各個特徵圖相加以產生新的特徵圖。密接金字塔模組231可將各個特徵圖以及根據所述各個特徵圖所產生的特徵圖連接以產生新的特徵圖。在本實施例中,密接金字塔模組231可將特徵圖61、特徵圖62、特徵圖63和特徵圖64相加以產生特徵圖65。接著,密接金字塔模組231可依序連接特徵圖61、特徵圖62、特徵圖63、特徵圖64以及特徵圖65以產生特徵圖6。密接金字塔模組231可對特徵圖6進行卷積運算以產生經分割文件70。處理器110可通過收發器130輸出經分割文件70。
在一實施例中,第一模型230可進一步地將密接金字塔模組231所輸出的經分割文件70輸入至擠壓和激勵網路232以強化經分割文件70的特徵。擠壓和激勵網路232可根據經分割文件70產生經分割文件40。處理器110可通過收發器130輸出經分割文件40。
第二模型240可為一種神經網路。例如,第二模型240可為邊緣監督網路(edge supervision network)。第二模型240可根據解碼卷積網路220中的一或多個解碼層的輸出產生對應於原始文件30的經分割文件。圖5根據本發明的實施例繪示第二模型240產生經分割文件50的流程的示意圖。具體來說,在流程(A)中,第二模型240可取得解碼卷積網路220中距離與第二模型240較接近的一或多個解碼層(即:距離編碼卷積網路220的輸出端較接近的一或多個解碼層)所輸出的一或多個特徵圖,其中所述一或多個解碼層可包含最接近第二模型240的解碼層(即:用於產生解碼卷積網路220的輸出的解碼層227)。接著,第二模型240可分別對取得的特徵圖執行卷積運算,以產生新的特徵圖。
在本實施例中,第二模型240可分別自解碼層227、解碼層225以及解碼層224取得特徵圖83、特徵圖82以及特徵圖81,其中特徵圖83的尺寸可大於特徵圖82,並且特徵圖82的尺寸可大於特徵圖81。在一實施例中,特徵圖81、特徵圖82和特徵圖83可分別與特徵圖51、特徵圖52和特徵圖53相同。第二模型240可對特徵圖51、特徵圖52以及特徵圖53執行卷積運算以分別產生特徵圖84、特徵圖85以及特徵圖86,其中特徵圖86的尺寸可大於特徵圖85,並且特徵圖85的尺寸可大於特徵圖84。
為了使特徵圖的尺寸相同,在流程(B)中,第二模型240可對尺寸較小的特徵圖進行上取樣。在本實施例中,第二模型240可對特徵圖58進行上取樣以產生特徵圖87,其中特徵圖87的尺寸可與特徵圖86的尺寸相同。第二模型240可對特徵圖85進行上取樣以產生特徵圖88,其中特徵圖88的尺寸可與特徵圖86的尺寸相同。
接著,第二模型240可連接尺寸相同的各個特徵圖以產生新的特徵圖。假設第二模型240欲將M個(M為正整數)特徵圖連接,第二模型240可依照:對應於與第二模型240相距第一距離的解密層的特徵圖、對應於與第二模型240相距第二距離的解密層的特徵圖、…、對應於與第二模型240相距第M距離的解密層的特徵圖的順序來連接所述M個特徵圖,其中第一距離可大於第二距離,並且第二距離可大於第M距離。在本實施例中,第二模型240可依序連接特徵圖87、特徵圖88和特徵圖86以產生特徵圖8。
在流程(C)中,第二模型240可對特徵圖8執行卷積運算以產生特徵圖50。處理器110可通過收發器130輸出特徵圖50。
神經網路模型200的損失函數L如以下公式所示,其中L1為第一模型230的損失函數,L2為第二模型240的損失函數,n為訓練資料的數量,m為分類的數量
Figure 02_image001
為對應於第i筆訓練資料和第j個分類的預測結果,並且
Figure 02_image003
為對應於第i筆訓練資料和第j個分類的真值(ground-truth)。處理器110可根據損失函數L來訓練神經網路模型200以調整編碼卷積網路210、解碼卷積網路220、第一模型230及/或第二模型240的超參數,藉以最佳化神經網路模型200的效能。
Figure 02_image005
Figure 02_image007
Figure 02_image009
圖6根據本發明的實施例繪示一種用於文件分割的方法的流程圖,其中所述方法可由如圖1所示的電子裝置100實施。在步驟S601中,取得原始文件和神經網路模型,其中神經網路模型包含第一模型,其中第一模型經配置以執行:取得對應於原始文件的第一尺寸的第一特徵圖和第二尺寸的第二特徵圖,其中第一尺寸大於第二尺寸;對第二特徵圖執行第一上取樣以產生第三尺寸的第三特徵圖,其中第三尺寸等於第一尺寸;連接第一特徵圖和第三特徵圖以產生第四特徵圖;將第四特徵圖輸入至第一反向殘差塊以產生第一輸出,並且對第一輸出執行基於第一擴張率的第一空洞卷積運算以產生第五特徵圖;將第四特徵圖輸入至第二反向殘差塊以產生第二輸出,並且對第二輸出執行基於第二擴張率的第二空洞卷積運算以產生第六特徵圖,其中第二擴張率不同於第一擴張率;連接第五特徵圖和第六特徵圖以產生第七特徵圖;以及對第七特徵圖執行第一卷積運算以產生經分割文件。在步驟S603中,輸出經分割文件。
綜上所述,本發明的神經網路模型可通過編碼卷積網路和解碼卷積網路擷取原始文件的特徵以產生多個特徵圖。第一模型可連接多個特徵圖以產生包含了原始文件在多個尺度的時間或空間中的重要特徵的特徵圖。第一模型還可通過反向殘差塊和空洞卷積運算增加特徵圖的通道數量,藉以補償原始文件的空間資訊。另一方面,本發明可根據第一模型和第二模型的損失函數來訓練神經網路模型中的超參數,以使訓練好的神經網路模型具有較佳的效能。本發明提出的神經網路模型的架構可在使用到較少運算資源的情況下產生較準確的文件分割結果。
100:電子裝置 110:處理器 120:儲存媒體 200:神經網路模型 210:編碼卷積網路 220:解碼卷積網路 230:第一模型 231:密接金字塔模組 232:擠壓和激勵網路 240:第二模型 130:收發器 30:原始文件 211、212、213、214、215、216、217、218:編碼卷積層 221、222、223、224、225、226、227:解碼層 40、50、70:經分割文件 5、51、52、53、54、55、56、57、58、59、6、61、62、63、64、65、8、81、82、83、84、85、86、87、88:特徵圖 S601、S603:步驟
圖1根據本發明的實施例繪示一種用於文件分割的電子裝置的示意圖。 圖2根據本發明的實施例繪示神經網路模型的示意圖。 圖3根據本發明的實施例繪示原始文件和經處理的文件的示意圖。 圖4根據本發明的實施例繪示密接金字塔模組產生經分割文件的流程的示意圖。 圖5根據本發明的實施例繪示第二模型產生經分割文件的流程的示意圖。 圖6根據本發明的實施例繪示一種用於文件分割的方法的流程圖。
S601、S603:步驟

Claims (10)

  1. 一種用於文件分割的電子裝置,包括: 收發器,接收原始文件; 儲存媒體,儲存神經網路模型;以及 處理器,耦接所述儲存媒體以及所述收發器,並且存取和執行所述神經網路模型,其中所述神經網路模型包括第一模型,其中所述第一模型經配置以執行: 取得對應於所述原始文件的第一尺寸的第一特徵圖和第二尺寸的第二特徵圖,其中所述第一尺寸大於所述第二尺寸; 對所述第二特徵圖執行第一上取樣以產生第三尺寸的第三特徵圖,其中所述第三尺寸等於所述第一尺寸; 連接所述第一特徵圖和所述第三特徵圖以產生第四特徵圖; 將所述第四特徵圖輸入至第一反向殘差塊以產生第一輸出,並且對所述第一輸出執行基於第一擴張率的第一空洞卷積運算以產生第五特徵圖; 將所述第四特徵圖輸入至第二反向殘差塊以產生第二輸出,並且對所述第二輸出執行基於第二擴張率的第二空洞卷積運算以產生第六特徵圖,其中所述第二擴張率不同於所述第一擴張率; 連接所述第五特徵圖和所述第六特徵圖以產生第七特徵圖;以及 對所述第七特徵圖執行第一卷積運算以產生經分割文件,其中 所述處理器通過所述收發器輸出所述經分割文件。
  2. 如請求項1所述的電子裝置,其中所述神經網路模型更包括第二模型,其中所述第二模型經配置以執行: 對所述第二特徵圖執行第二上取樣以產生第四尺寸的第八特徵圖,其中所述第四尺寸等於所述第一尺寸; 連接所述第一特徵圖和所述第八特徵圖以產生第九特徵圖;以及 對所述第九特徵圖執行第二卷積運算以產生輸出特徵圖。
  3. 如請求項2所述的電子裝置,其中所述第一模型對應於第一損失函數,其中所述第二模型對應於第二損失函數,其中所述處理器將所述第一損失函數和所述第二損失函數相加以產生第三損失函數,其中所述處理器根據所述第三損失函數訓練所述第一模型和所述第二模型。
  4. 如請求項1所述的電子裝置,其中所述神經網路模型更包括編碼卷積網路,其中所述編碼卷積網路包括第一編碼卷積層和第二編碼卷積層,其中所述編碼卷積網路經配置以執行: 根據所述原始文件和所述第一編碼卷積層產生第一編碼特徵圖;以及 根據所述第一編碼特徵圖和所述第二編碼卷積層以產生第二編碼特徵圖。
  5. 如請求項4所述的電子裝置,其中所述神經網路模型更包括解碼卷積網路,其中所述解碼卷積網路包括第一解碼層和第二解碼層,其中所述第一解碼層包括所述第二編碼卷積層以及對應於所述第二編碼卷積層的解碼卷積層,其中所述解碼卷積網路經配置以執行: 根據所述第二編碼特徵圖和所述第一解碼層產生所述第二特徵圖;以及 根據所述第二特徵圖和所述第二解碼層產生所述第一特徵圖。
  6. 如請求項1所述的電子裝置,其中所述第一模型更經配置以執行: 將所述第一特徵圖和所述第三特徵圖相加以產生第十特徵圖;以及 連接所述第十特徵圖、所述第一特徵圖以及所述第三特徵圖以產生所述第四特徵圖。
  7. 如請求項1所述的電子裝置,其中所述第一模型更經配置以執行: 將所述第五特徵圖和所述第六特徵圖相加以產生第十一特徵圖;以及 連接所述第五特徵圖、所述第六特徵圖以及所述第十一特徵圖以產生所述第七特徵圖。
  8. 如請求項1所述的電子裝置,其中所述第一模型更經配置以執行: 對所述第七特徵圖執行所述第一卷積運算以產生第十二特徵圖;以及 將所述第十二特徵圖輸入至擠壓和激勵網路以產生所述經分割文件。
  9. 如請求項4所述的電子裝置,其中所述第一編碼卷積層對所述原始文件執行移動反向瓶頸卷積以產生所述第一編碼特徵圖。
  10. 一種用於文件分割的方法,包括: 取得原始文件和神經網路模型,其中所述神經網路模型包括第一模型,其中所述第一模型經配置以執行: 取得對應於所述原始文件的第一尺寸的第一特徵圖和第二尺寸的第二特徵圖,其中所述第一尺寸大於所述第二尺寸; 對所述第二特徵圖執行第一上取樣以產生第三尺寸的第三特徵圖,其中所述第三尺寸等於所述第一尺寸; 連接所述第一特徵圖和所述第三特徵圖以產生第四特徵圖; 將所述第四特徵圖輸入至第一反向殘差塊以產生第一輸出,並且對所述第一輸出執行基於第一擴張率的第一空洞卷積運算以產生第五特徵圖; 將所述第四特徵圖輸入至第二反向殘差塊以產生第二輸出,並且對所述第二輸出執行基於第二擴張率的第二空洞卷積運算以產生第六特徵圖,其中所述第二擴張率不同於所述第一擴張率; 連接所述第五特徵圖和所述第六特徵圖以產生第七特徵圖;以及 對所述第七特徵圖執行第一卷積運算以產生經分割文件;以及 輸出所述經分割文件。
TW110115669A 2020-06-16 2021-04-29 用於文件分割的電子裝置和方法 TWI776489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/344,911 US11657279B2 (en) 2020-06-16 2021-06-10 Electronic device and method for document segmentation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202063039472P 2020-06-16 2020-06-16
US63/039,472 2020-06-16

Publications (2)

Publication Number Publication Date
TW202201272A TW202201272A (zh) 2022-01-01
TWI776489B true TWI776489B (zh) 2022-09-01

Family

ID=80787958

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110115669A TWI776489B (zh) 2020-06-16 2021-04-29 用於文件分割的電子裝置和方法

Country Status (1)

Country Link
TW (1) TWI776489B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991611A (zh) * 2019-11-29 2020-04-10 北京市眼科研究所 一种基于图像分割的全卷积神经网络
TW202014984A (zh) * 2018-09-15 2020-04-16 大陸商北京市商湯科技開發有限公司 一種圖像處理方法、電子設備及存儲介質
US20200160065A1 (en) * 2018-08-10 2020-05-21 Naver Corporation Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network
CN111259983A (zh) * 2020-02-13 2020-06-09 电子科技大学 基于深度学习的图像语义分割方法及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160065A1 (en) * 2018-08-10 2020-05-21 Naver Corporation Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network
TW202014984A (zh) * 2018-09-15 2020-04-16 大陸商北京市商湯科技開發有限公司 一種圖像處理方法、電子設備及存儲介質
CN110991611A (zh) * 2019-11-29 2020-04-10 北京市眼科研究所 一种基于图像分割的全卷积神经网络
CN111259983A (zh) * 2020-02-13 2020-06-09 电子科技大学 基于深度学习的图像语义分割方法及存储介质

Also Published As

Publication number Publication date
TW202201272A (zh) 2022-01-01

Similar Documents

Publication Publication Date Title
US11113816B2 (en) Image segmentation apparatus, method and relevant computing device
Rahman et al. Lossless image compression techniques: A state-of-the-art survey
US10853447B2 (en) Bezier volume representation of point cloud attributes
TWI718750B (zh) 來源分離方法、裝置及非暫態電腦可讀取媒體
CN111209910A (zh) 用于语义分割的***、方法和非暂时性计算机可读介质
US7474805B2 (en) Efficient scaling in transform domain
US10902555B2 (en) Method and device for processing picture
WO2023051335A1 (zh) 数据编码方法、数据解码方法以及数据处理装置
US20190348999A1 (en) Method and apparatus for compression and decompression of a numerical file
TWI776489B (zh) 用於文件分割的電子裝置和方法
TW202406344A (zh) 一種點雲幾何資料增強、編解碼方法、裝置、碼流、編解碼器、系統和儲存媒介
Ungureanu et al. Image-Compression Techniques: Classical and “Region-of-Interest-Based” Approaches Presented in Recent Papers
Hung et al. A study on reversible data hiding technique based on three-dimensional prediction-error histogram modification and a multilayer perceptron
KR102305981B1 (ko) 신경망 압축 훈련 방법 및 압축된 신경망을 이용하는 방법
Ruivo et al. Double-deep learning-based point cloud geometry coding with adaptive super-resolution
JPH0215782A (ja) 画像符号化方式
Thakker et al. Lossy Image Compression-A Comparison Between Wavelet Transform, Principal Component Analysis, K-Means and Autoencoders
CN114494697A (zh) 一种新生儿髋骨影像语义理解方法
US11657279B2 (en) Electronic device and method for document segmentation
El Houfi et al. Efficient use of recent progresses for Real-time Semantic segmentation
WO2023205969A1 (zh) 点云几何信息的压缩、解压缩及点云视频编解码方法、装置
WO2024140109A1 (zh) 一种图像超分方法及装置
JP7516900B2 (ja) 音声イベントの認識装置及び方法
WO2024011427A1 (zh) 一种点云帧间补偿方法、编解码方法、装置和***
CN113723484B (zh) 短链接生成方法、***和电子设备

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent