TWI744057B - 深度偽造影片檢測系統及其方法 - Google Patents

深度偽造影片檢測系統及其方法 Download PDF

Info

Publication number
TWI744057B
TWI744057B TW109137318A TW109137318A TWI744057B TW I744057 B TWI744057 B TW I744057B TW 109137318 A TW109137318 A TW 109137318A TW 109137318 A TW109137318 A TW 109137318A TW I744057 B TWI744057 B TW I744057B
Authority
TW
Taiwan
Prior art keywords
video
long
module
eye
short
Prior art date
Application number
TW109137318A
Other languages
English (en)
Other versions
TW202217653A (zh
Inventor
李忠憲
劉奕賢
劉川綱
吳柏毅
彭彥筑
Original Assignee
國立成功大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立成功大學 filed Critical 國立成功大學
Priority to TW109137318A priority Critical patent/TWI744057B/zh
Priority to US17/325,511 priority patent/US11514715B2/en
Application granted granted Critical
Publication of TWI744057B publication Critical patent/TWI744057B/zh
Publication of TW202217653A publication Critical patent/TW202217653A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一種深度偽造影片檢測系統,包括一影片辨識單元之輸入資料檢測模組,將確認之偽造影片設為目標影片;一針對該目標影片人臉並以擷取一眼部特徵模型之資料前處理單元;一擷取該眼部特徵模型之特徵提取模組,並將該眼部特徵模型輸入至一長期遞歸卷積神經網路(LRCN)中;再以一序列學習模組的長短期記憶(LSTM)進行序列學習;以一狀態預測模組預測各神經元之輸出,再以一長短期記憶模型輸出經量化過後之眼部狀態,再與該狀態量化模組連接,並以比對原儲存之正常影片以及儲存該目標影片之量化過後之眼部狀態資訊,再藉由一輸出資料辨別模組輸出辨識結果。

Description

深度偽造影片檢測系統及其方法
本發明係為透過偵測影片中人眼狀態的變化,利用深度學習的方式量化成以時序為基準的眼部特徵行為,再經過統計模型的整合,進以判斷該影片是否經過造假。
以目前來說,近年來由於硬體運算能力以及分散式運算進步的關係,讓機器學習、深度學習有了快速的發展,並且持續運用在各種不同的領域上。其中在深度偽造(Deepfake)的領域,更是在短時間內有相當大的突破,因此而產生的深度偽造影片所需的成本與技術也不斷降低,相對於現在充斥著虛假與詐騙的網路環境而言,不正確或是被處理過的影片內容已經相當常見,而且深層網路創造了相當強大的技術,不僅具備可操縱,甚至創建有著極高模擬程度的視覺和聽覺內容的能力,進階影響人為判別真偽的成功率。由於深度偽造影片用於明星、政治人物等名人的欺詐抹黑、報復性行為還有犯罪行動越趨猖獗,目前都已經發現並階段性限制它們的使用,而這樣的問題也逐漸地備受關注。
隨著深度學習快速發展,大數據分析和影像辨識技術也廣泛應用在不同領域,與此同時深度偽造造假能力越趨逼真,導 致在現今網路多媒體蓬勃發展的環境下,其在社交工程中造成的影響甚钜,不僅濫用此偽造技術生成難以識別的虛假內容會造成難以估量的危害,驗證內容的真實性同樣是重要的課題,其背後所牽涉的道德問題、隱私權問題,甚至是潛在的國安威脅皆不容忽視。
而現行社交工程中深度偽造造成的影響早已愈演愈烈,無論是要揭露造假的內容,還是反過來要證明真實內容的真實性,在這虛實內容混雜的網路環境都變得極具挑戰性,過程中的爭議往往牽涉隱私與道德議題,甚至是引發資訊安全等問題,因此如何避免造成傷害,考驗著不只是檢測的即時性還有其準確性
現階段有關深度偽造影片的檢測方式可以細分為靜態影像偵測和動態影像偵測二種,主要是由過去造假圖像的識別方法改良而成,可以從影片中切割為數個影格以擷取大量圖片進行檢測,然而這種方法會面臨到影片壓縮所帶來的強烈退化問題,再加上影片的時間連續性會使得各個影格持續變化,因此無論是使用靜態影像還是動態影像的圖像檢測方法是會難以偵測到影格間的破綻。
由此可見,上述習用方式仍有諸多缺失,實非一良善之設計者,而亟待加以改良。
有鑑於此,本發明的主要目的在於,為改善過往以人工或電腦程式的辨識,不法藉由較為精細的辨識方法,導致無法趨 近百分之百的辨識準確度。藉此,本發明將藉從相關的資料集、換臉軟體與檢測方法,接續考量到現行人臉辨識的資料集當中,無論是靜態或是動態影像幾乎都是正面的睜眼狀態,而缺少閉眼狀態的特徵,導致眼部狀態變化的過程將出現破綻,因此加強藉由偵測影片中眼部狀態的特徵,進行深度偽造(Deepfake)影片的檢測,並結合長短期記憶模型使用長期遞歸卷積神經網路的架構,來實現以時序為基準之眼部狀態變化的量化,最後再評估資料集所提供之特徵,以確實提高並達成趨近百分之百的辨識準確度及效率。
一種深度偽造影片檢測系統,係包括一輸入資料檢測模組,係以接收欲檢測之影片,並進行整合處理,其中包含一影片辨識單元,係以辨識該影片是否為疑似的偽造影片,並將確認之偽造影片設為目標影片;一資料前處理單元,係與該影片辨識單元連接,以針對該目標影片中所出現之人像臉部進行人臉偵測,並加以定位該目標影片中的每一個影格之臉部區域,並將該臉部區域設置複數個定位點,且於眼部周圍進行裁剪形成一眼部特徵模型;一特徵提取模組,係以連接該輸入資料檢測模組,以擷取該目標影片中之複數個該定位點以及該眼部特徵模型,並將該眼部特徵模型輸入至一長期遞歸卷積神經網路(Long Recurrent Convolutional Neural-networks,LRCN)中;一序列學習模組,係與該特徵提取模組連接,並將經過該長期遞歸卷積神經網路後之該眼部特徵模型輸入到區域序列,並以一長短期記憶(Long short-term memory,LSTM)進行序列學習;一狀態預測模組,係與該序列學習模組相接,並於完成該 長短期記憶之學習後,進以預測該目標影片之眼部狀態,以得出複數個遞歸神經網路之神經元,並將各該神經元之輸出發送到一由全連接層所組成之神經網路;一狀態量化模組,係與該狀態預測模組連接,以一長短期記憶模型輸出經量化過後之眼部狀態,並由該量化過後之眼部狀態以一數值輸出;一資料庫模組,係與該狀態量化模組連接,係以儲存由該輸入資料檢測模組所檢測之正常影片以及儲存該目標影片之量化過後之眼部狀態資訊,其中另包括一長短期記憶單元,係為儲存該資料前處理單元之眼部特徵模型以及該長短期記憶模型輸出經量化過後之眼部狀態;一輸出資料辨別模組,係與該資料庫模組連接,並以輸出該目標影片之辨識結果。
如請求項1所述之深度偽造影片檢測系統,其中該眼部特徵模型,係將人眼周圍進行水平與垂直1.5倍的放大後生成一得以圍繞於該人眼周圍之矩形狀,藉以確保裁剪後的區域包括完整之人眼,同時將眼周圍的變化一併作為裁剪之特徵。
在本發明的一個實施例中,該序列學習,係為通過具有該長短期記憶模型之遞歸神經網路,藉以增加該長期遞歸卷積神經網路的記憶儲存容量,以避免於訓練階段更新權重時出現之反向傳播而造成梯度消失。
在本發明的一個實施例中,該資料前處理單元,係得以輸入靜態影像或動態影像中之每一個影格進行提取。
在本發明的一個實施例中,該輸入資料檢測模組,係另得以包含一五官辨識單元,係於進行人臉偵測時將臉部五官逐一 辨識並加以定位,並於該目標影片中臉部區域的每一個影格進行該五官之區分,藉以使該五官周圍各具有其特徵模型。
在本發明的一個實施例中,該長短期記憶模型,係為針對輸入之時間序列的資料進行模型建置。
一種深度偽造影片檢測方法,係包括:步驟1、利用一輸入資料檢測模組接收一欲檢測之影片,並執行整合處理,藉由設置於該輸入資料檢測模組中之一影片辨識單元辨識該影片是否為疑似的偽造影片;步驟2、該影片辨識單元辨識該影片為否,則判定為正常影片,直接傳送至一資料庫模組進行資料儲存,並成為對比資料;步驟3、該影片辨識單元辨識該影片為是,則判定為偽造影片,並同時設為一目標影片;步驟4、再以一資料前處理單元針對該目標影片中所出現之人像臉部進行人臉偵測,並加以定位該目標影片中的每一個影格之臉部區域,並將該臉部區域設置複數個定位點;步驟5、並針對該臉部區域的眼睛部分,利用位於該眼睛部分之周圍的該複數個定位點,於眼部周圍進行裁剪形成一眼部特徵模型;步驟6、以一特徵提取模組擷取該目標影片中之複數個該定位點以及該眼部特徵模型,並將該眼部特徵模型置入至一 長期遞歸卷積神經網路(Long Recurrent Convolutional Neural-networks,LRCN)中;步驟7、再以一序列學習模組將經過該長期遞歸卷積神經網路後之該眼部特徵模型輸入到區域序列,並以一長短期記憶(Long short-term memory,LSTM)進行序列學習;步驟8、完成該長短期記憶之學習後,利用一狀態預測模組進以預測該目標影片之眼部狀態,以得出複數個遞歸神經網路之神經元,並將各該神經元之輸出發送到一由全連接層所組成之神經網路;步驟9、由一狀態量化模組以一長短期記憶模型輸出經量化過後之眼部狀態,並由該量化過後之眼部狀態以一數值輸出;步驟10、該資料庫模組係接收由該長短期記憶模型輸出經量化過後之眼部狀態,並儲入至一設置於該資料庫模組中之長短期記憶單元;步驟11、最後藉由一輸出資料辨別模組將該目標影片之辨識結果輸出並判定是否為偽造之影片。
在本發明的一個實施例中,該資料前處理單元進行人臉偵測,係得以輸入靜態影像或動態影像中之每一個影格進行提取。
在本發明的一個實施例中,該步驟4,係另得以於該資料前處理單元執行前,以該輸入資料檢測模組執行一五官辨識單元 進行臉部五官辨識並加以定位,並於該目標影片中臉部區域的每一個影格進行該五官之區分,使該五官周圍各具有其特徵模型。
(110):輸入資料檢測模組
(111):影片辨識單元
(112):資料前處理單元
(113):五官辨識單元
(120):特徵提取模組
(130):序列學習模組
(140):狀態預測模組
(150):狀態量化模組
(160):資料庫模組
(161):長短期記憶單元
(170):輸出資料辨別模組
(S310~S390):流程
圖1為本發明深度偽造影片檢測系統及其方法之系統示意圖。
圖2為本發明深度偽造影片檢測系統及其方法之另一系統示意圖。
圖3為本發明深度偽造影片檢測系統及其方法之流程圖。
圖4為本發明深度偽造影片檢測系統及其方法之長短期記憶模型架構圖。
圖5為本發明深度偽造影片檢測系統及其方法之長短期記憶模型運作流程圖。
為利 貴審查員瞭解本發明之技術特徵、內容與優點及其所能達成之功效,茲將本發明配合附圖,並以實施例之表達形式詳細說明如下,而其中所使用之圖式,其主旨僅為示意及輔助說明書之用,未必為本發明實施後之真實比例與精準配置,故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍,合先敘明。
請參閱圖1及圖2所示,為本發明深度偽造影片檢測系統及其方法之系統示意圖及另一系統示意圖,其中包括一以接收欲 檢測之影片,並進行整合處理之輸入資料檢測模組(110),其中包含一以辨識該影片是否為疑似的偽造影片之影片辨識單元(111),並將確認之偽造影片設為目標影片;一與該影片辨識單元(111)連接之資料前處理單元(112),係以針對該目標影片中所出現之人像臉部進行人臉偵測,並加以定位該目標影片中的每一個影格之臉部區域,並將該臉部區域設置複數個定位點,且於眼部周圍進行裁剪形成一眼部特徵模型,其中的該眼部特徵模型,係將人眼周圍進行水平與垂直1.5倍的放大後生成一得以圍繞於該人眼周圍之矩形狀,藉以確保裁剪後的區域包括完整之人眼,同時將眼周圍的變化一併作為裁剪之特徵,同時,可另得以具有一進行人臉偵測時將臉部五官逐一辨識並加以定位之五官辨識單元(113),係得以於該目標影片中臉部區域的每一個影格進行該五官之區分,藉以使該五官周圍各具有其特徵模型;一連接該輸入資料檢測模組(110)之特徵提取模組(120),係以擷取該目標影片中之複數個該定位點以及該眼部特徵模型,並將該眼部特徵模型輸入至一長期遞歸卷積神經網路(Long Recurrent Convolutional Neural-networks,LRCN)中;一與該特徵提取模組(120)連接之序列學習模組(130),係將經過該長期遞歸卷積神經網路後之該眼部特徵模型輸入到區域序列,並以一長短期記憶(Long short-term memory,LSTM)進行序列學習,其中該序列學習,係為通過具有該長短期記憶模型之遞歸神經網路,藉以增加該長期遞歸卷積神經網路的記憶儲存容量,以避免於訓練階段更新權重時出現之反向傳播而造成梯度消失;一與該序列學習模組 (130)相接之狀態預測模組(140),係於完成該長短期記憶之學習後,進以預測該目標影片之眼部狀態,以得出複數個遞歸神經網路之神經元,並將各該神經元之輸出發送到一由全連接層所組成之神經網路;一與該狀態預測模組(140)連接之狀態量化模組(150),係以一長短期記憶模型輸出經量化過後之眼部狀態,並由該量化過後之眼部狀態以一數值輸出,並為針對輸入之時間序列的資料進行模型建置;一與該狀態量化模組(150)連接之資料庫模組(160),係以儲存由該輸入資料檢測模組(110)所檢測之正常影片以及儲存該目標影片之量化過後之眼部狀態資訊,其中另包括一為儲存該資料前處理單元(112)之眼部特徵模型以及該長短期記憶模型輸出經量化過後之眼部狀態之長短期記憶單元(161),並得以輸入一靜態影像或一動態影像中之每一個影格進行提取;一與該資料庫模組(160)連接之輸出資料辨別模組(170),係以輸出該目標影片之辨識結果。
再,請參閱圖3所示,為本發明深度偽造影片檢測系統及其方法之流程圖,其中包括:步驟1、(S310)利用一輸入資料檢測模組接收一欲檢測之影片,並執行整合處理,藉由設置於該輸入資料檢測模組中之一影片辨識單元辨識該影片是否為疑似的偽造影片;步驟2、(S311)該影片辨識單元辨識該影片為否,則判定為正常影片,直接傳送至一資料庫模組進行資料儲存,並成為對比資料; 步驟3、(S312)該影片辨識單元辨識該影片為是,則判定為偽造影片,並同時設為一目標影片;步驟4、(S320)再以一資料前處理單元針對該目標影片中所出現之人像臉部進行人臉偵測,並加以定位該目標影片中的每一個影格之臉部區域,並將該臉部區域設置複數個定位點;步驟5、(S330)並針對該臉部區域的眼睛部分,利用位於該眼睛部分之周圍的該複數個定位點,於眼部周圍進行裁剪形成一眼部特徵模型;步驟6、(S340)以一特徵提取模組擷取該目標影片中之複數個該定位點以及該眼部特徵模型,並將該眼部特徵模型置入至一長期遞歸卷積神經網路(Long Recurrent Convolutional Neural-networks,LRCN)中;步驟7、(S350)再以一序列學習模組將經過該長期遞歸卷積神經網路後之該眼部特徵模型輸入到區域序列,並以一長短期記憶(Long short-term memory,LSTM)進行序列學習;步驟8、(S360)完成該長短期記憶之學習後,利用一狀態預測模組進以預測該目標影片之眼部狀態,以得出複數個遞歸神經網路之神經元,並將各該神經元之輸出發送到一由全連接層所組成之神經網路; 步驟9、(S370)由一狀態量化模組以一長短期記憶模型輸出經量化過後之眼部狀態,並由該量化過後之眼部狀態以一數值輸出;步驟10、(S380)該資料庫模組係接收由該長短期記憶模型輸出經量化過後之眼部狀態,並儲入至一設置於該資料庫模組中之長短期記憶單元;步驟11、(S390)最後藉由一輸出資料辨別模組將該目標影片之辨識結果輸出並判定是否為偽造之影片。
其中該資料前處理單元進行人臉偵測,係得以輸入靜態影像或動態影像中之每一個影格進行提取,其該步驟4另得以於該資料前處理單元執行前,以該輸入資料檢測模組執行一五官辨識單元進行臉部五官辨識並加以定位,並於該目標影片中臉部區域的每一個影格進行該五官之區分,使該五官周圍各具有其特徵模型。
也就是說,綜合上述所述,其實施例及說明如下:可將一欲檢測之影片導入一輸入資料檢測模組中時,將藉由設置於該輸入資料檢測模組中之一影片辨識單元辨識該影片是否為疑似的偽造影片,並且將判定的偽造影片設為一目標影片,並針對該目標影片中所出現之人像臉部以一資料前處理單元進行人臉偵測,並加以定位該目標影片中的每一個影格之臉部區域,並將該臉部區域設置複數個定位點,而將欲針對的眼睛部分,利用位於該眼睛部分之周圍的該複數個定位點,於眼部周圍進行裁剪形成一眼部特徵模型,其中的人臉偵測,使用一臉部偵測器來定位該 目標影片當中每一個影格的臉部區域,接著再從這些檢測到的臉部區域中提取定位點,而這些定位點包含五官位置還有整張臉的輪廓,並藉以此為基準再更精確鎖定眼睛的訊息。
而本案主要所採取基於座標的人臉對齊演算法將臉部區域對齊到統一的坐標空間,具體來說,先是定義一組人臉座標空間,經過第一步的人臉偵測後,先確定該參考座標空間和眼部裁切的密集度,再將二維人臉對齊並且轉換到另一個坐標空間,完整的對齊到該座標空間中,在完成所有影格的轉換之後,每張圖像中的人臉會縮放至大約相同的大小並且固定在整張圖像的中心,眼睛部分也會進行旋轉調整使其維持在一條水平線上,方便接下來的人眼掃描分析,而此方式則是可以避免若是目標人物頭部移動、臉部朝向發生變化、面前出現障礙物或是畫面移動等,會混淆目標影片的現象導致臉部定位分析的錯誤。
或是可以使用基於仿射變換的空間變換網路(Spatial Transformer Networks,STN),以根據輸入的圖像來預測對齊之參數,再從中學習縮放臉部區域的特定部位,而此種方式同樣是為了盡可能減少損失函數可能造成的影響。
再,眼部的裁剪也是資料前處理的最後步驟,要從該些影格當中對齊好的臉部區域遵循時間序列,將已經定位在水平線上的人眼周圍進行水準與垂直分別1.5倍的放大後生成一個矩形,經此裁剪的人眼區域序列將傳遞到緊接著的長期遞歸卷積神經網路(Long-term Recurrent Convolutional Networks,LRCN)以進行人眼 狀態的預測,此舉除了可以確保裁剪後的區域必定包括完整的人眼之外,眼角周圍的變化也會一併作為提取的特徵幫助模型的訓練。
而本案所述之於卷積神經網路,以端到端訓練並結合遞歸網路遞迴的長期遞歸卷積神經網路(LRCN),而由於眼部狀態的變化是一個高度時間連續性的過程,因此該長期遞歸卷積神經網路結合了連續影格之間的時間序列,以記住長期動態變化的訊息,來彌補從單一圖像無法識別的特徵所帶來之影響,並藉由長期遞歸卷積神經網路對行為辨識具有出色的表現上,再以一序列學習模組將經過該長期遞歸卷積神經網路辨識後之該眼部特徵模型輸入到區域序列,並以一長短期記憶(Long short-term memory,LSTM)進行序列學習,並完成該長短期記憶之學習後,利用一狀態預測模組進以預測該目標影片之眼部狀態,以得出複數個遞歸神經網路之神經元,並將各該神經元之輸出發送到一由全連接層所組成之神經網路,再由一狀態量化模組以一長短期記憶模型輸出經量化過後之眼部狀態,並由該量化過後之眼部狀態以一數值輸出,其中長短期記憶模型的目的是對輸入時間序列的資料進行模型的建置,請同時參閱圖4以及圖5所示,為本發明深度偽造影片檢測系統及其方法之長短期記憶模型架構圖及運作流程圖,將其結構區分為輸入閥、遺忘閥、輸出閥以及記憶暫存單元來保存過往訊息並處理長時間的序列,其中輸入閥的方程式如下式4-1:i t =σ(W xi x t +W hi h t-1+W ci c t-1+b i ) 式4-1遺忘閥的方程式如下式4-2:
f t =σ(W xf x t +W hf h t-1+W cf c t-1+b f ) 式4-2輸出閥的方程式如下式4-3:o t =σ(W xo x t +W ho h t-1+W co c t +b o ) 式4-3記憶暫存單元的方程式如下式4-4:c t =f t c t-1+i t tanh(W xc x t +W hc h t-1+b c ) 式4-4
首先給定一個輸入的序列x=(x 1........x T ),一個標準的遞歸神經網路會經由下列公式4-5及4-6:h t =H(W ih x t +W hh h t-1+b h ) 式4-5
y t =W ho h t +b o 式4-6
從t=1到t=T重複計算出隱藏的向量序列h=(h 1........h T ),並且輸出向量序列y=(y 1........y T ),公式中的W代表權重矩陣,下標i、h與o分別表示輸入層、隱藏層與輸出層,b代表偏差向量,H是隱藏層的激勵函數,而在遞歸神經網路中一般使用為Sigmoid函數,針對於眼部狀態變化這種特徵與時間高度相關的輸入資料,長短期記憶模型能夠很有效的學習各時間序列的人眼特徵,並且更好的發現關鍵特徵與長期時間的關聯性,這些特點建立在當其欲選擇是否把現時的c t 放入記憶暫存時,會藉由雙曲線正切(hyperbolic tangent,tanh)激勵函數的值來判斷,通過激勵函數的值會依照參數的反覆運算最佳化來學習,若該值小於一特定數字,遺忘閥會關閉並且把c t 歸0,若大於則會將遺忘閥打開,來把ct放進暫存記憶,請同時參閱圖5所示,輸入向量x t 與前一層的隱藏層之輸出h t-1會依序輸入至長短期記憶模型中的各個閥中,然後由輸入閥、 遺忘閥、現時的記憶暫存還有上一個時間單位的記憶暫存之輸出c t-1,來共同決定新的記憶暫存的輸出值c t ,隱藏層的輸出h t 則是取決於輸出閥的輸出與經過激勵函數的c t ,然而,隱藏層的激勵函數方程式如下公式4-7:h t =o t tanh(c t ) 公式4-7
其公式中的σ為Sigmoid函數。
由於眼部狀態變化最大的變化為眨眼,同時眨眼有著強烈的時間依賴性,所以對於一次眨眼的過程,需捕捉到眼皮、眼角還有眼睫毛等區域內隨時間進行的細微變化,並將這些特徵輸入到接續的神經網路進行學習,也因此每一個影格都有通過原有的卷積神經網路,並藉以長期遞歸卷積神經網路加入了長短期記憶模型,以訓練網路學習影片中眼睛運動的資訊,其中,長期遞歸卷積神經網路分為三個階段,依序為特徵提取階段、序列學習階段以及眼部狀態預測階段,其中在特徵提取階段,特徵提取模組會將輸入的眼睛區域轉換為可辨識的人眼特徵,這些特徵是在基於VGG16的架構改動過後之卷積神經網路學習,經過該卷積神經網路之後,特徵提取階段的輸出將輸入到序列學習中,開始接下來序列學習階段,該序列學習通過具有長期短期記憶單元的遞歸神經網路來完成,主要為了增加遞歸神經網路模型的記憶儲存容量,並且更要處理遞歸神經網路模型中,訓練階段更新權重時所出現之反向傳播造成梯度消失的問題。
因此在最後的眼部狀態預測階段中,每個遞歸神經網路神經元的輸出,會發送到由全連接層組成的神經網路,該層採用長短期記憶模型並輸出經量化過後的眼部狀態,該數值由量化過後的眼部狀態數值呈現,若該時間點判定為閉眼會輸出1,反之則為0,而眼皮、眼球與眼白的變化是最直接影響輸出結果的因素,仍許多人眼難以識別的細節,導致影片中眼部的變化相當不自然,而這些異狀釋出的特徵訊息,主要就成為深度偽造影片的破綻,也就是本案深度神經網路欲學習之關鍵特徵。
綜上所述,輸入的影片中每一個影格以序列的形式輸入卷積神經網路中,然後再將卷積神經網路的輸出作為長短期記憶模型的輸入,長短期記憶的輸出作為最終網路的輸出,過程中同樣時間下卷積神經網路和長短期記憶模型的參數是共同的。同理,為了偵測眼部狀態,輸入一系列經資料前處理裁剪出的人眼區域後,按照時間依序排列的影格片段,通過特徵轉換的方式得到固定長度的特徵向量,再輸入到序列模型當中,結合長短期記憶模型將輸入和前一個時間單位的隱層層映射為輸出,並更新現時隱藏層的狀態,而長期遞歸卷積神經網路是以長短期記憶模型為基礎的緣故,每個時間點要預測輸出的結果前都需要等待上一個時間點預測完,才能進行下一個預測,也就是說下一個預測仰賴於上一個預測作為一個輸入,再將該長短期記憶模型輸出經量化過後之眼部狀態儲存至一設置於該資料庫模組中之長短期記憶單元,最後再藉由一輸出資料辨別模組輸出該目標影片之辨識結果是否為偽造之影片。
由此可知,藉由人臉辨識的資料集當中,靜態影像幾乎都是正面的睜眼的圖片,而動態影像當中,從影格數量分析也會發現比例上依然缺少閉眼狀態的特徵,因此提出藉由偵測影片中眼部狀態變化的特徵,進行深度偽造影片的檢測,結合長短期記憶模型使用長期遞歸卷積神經網路的架構,來實現以時序為基準之眼部狀態變化的量化能夠有效提升深度偽造影片檢測方法的準確率、精確率。
由上述之實施說明可知,本發明與現有技術與產品相較之下,本發明具有以下優點:
1.本發明之深度偽造影片檢測系統及其方法,究除了提出以眼部狀態變化的特徵訊息作為目標,也藉由掌握影片時間連續性的優勢,可以將輸入影片之影格當中隱藏的大量關鍵特徵,遵循時間序列進行分類與一般化,進以簡化檢測流程以及速度。
2.本發明之深度偽造影片檢測系統及其方法,藉由本案架構及檢測方法,可有效節省10-20%的訓練時間以及改善張量的管理方式來處理張量。
3.本發明之深度偽造影片檢測系統及其方法,可於靜態影像偵測實,能夠捕捉每個圖像的局部訊息,再使用綜合決策的方式能夠降低誤判率,而在動態影像偵測時,能夠學習時序維度的訊息,並且可用於模型訓練。
以上所述,僅為本發明最佳具體實施例,惟本發明之構造特徵並不侷限於此,任何熟悉該項技藝者在本發明領域內,可輕易思及之變化或修飾,皆可涵蓋在以下本案之專利範圍。
綜上所述,本發明確實具有前所未有之創新構造,其既未見於任何刊物,且市面上亦未見有任何類似的產品,是以其具有新穎性應無疑慮。另外,本發明所具有之獨特特徵以及功能遠非習用所可比擬,所以其確實比習用更具有其進步性,而符合我國專利法有關發明專利之申請要件之規定,乃依法提起專利申請。
(110):輸入資料檢測模組
(111):影片辨識單元
(112):資料前處理單元
(120):特徵提取模組
(130):序列學習模組
(140):狀態預測模組
(150):狀態量化模組
(160):資料庫模組
(161):長短期記憶單元
(170):輸出資料辨別模組

Claims (9)

  1. 一種深度偽造影片檢測系統,係包括:一輸入資料檢測模組(110),係以接收欲檢測之影片,並進行整合處理,其中包含:一影片辨識單元(111),係以辨識該影片是否為疑似的偽造影片,並將確認之偽造影片設為目標影片;一資料前處理單元(112),係與該影片辨識單元(111)連接,以針對該目標影片中所出現之人像臉部進行人臉偵測,並加以定位該目標影片中的每一個影格之臉部區域,並將該臉部區域設置複數個定位點,且於眼部周圍進行裁剪形成一眼部特徵模型;一特徵提取模組(120),係以連接該輸入資料檢測模組(110),以擷取該目標影片中之複數個該定位點以及該眼部特徵模型,並將該眼部特徵模型輸入至一長期遞歸卷積神經網路(Long Recurrent Convolutional Neural-networks,LRCN)中;一序列學習模組(130),係與該特徵提取模組(120)連接,並將經過該長期遞歸卷積神經網路後之該眼部特徵模型輸入到區域序列,並以一長短期記憶(Long short-term memory,LSTM)進行序列學習;一狀態預測模組(140),係與該序列學習模組(130)相接,並於完成該長短期記憶之學習後,進以預測該目標影片之眼部狀態,以得出複數個遞歸神經網路之神經元,並將各該神經元之輸出發送到一由全連接層所組成之神經網路; 一狀態量化模組(150),係與該狀態預測模組(140)連接,以一長短期記憶模型輸出經量化過後之眼部狀態,並由該量化過後之眼部狀態以一數值輸出;一資料庫模組(160),係與該狀態量化模組(150)連接,係以儲存由該輸入資料檢測模組(110)所檢測之正常影片以及儲存該目標影片之量化過後之眼部狀態資訊,其中另包括:一長短期記憶單元(161),係為儲存該資料前處理單元(112)之眼部特徵模型以及該長短期記憶模型輸出經量化過後之眼部狀態;一輸出資料辨別模組(170),係與該資料庫模組(160)連接,並以輸出該目標影片之辨識結果。
  2. 如請求項1所述之深度偽造影片檢測系統,其中該眼部特徵模型,係將人眼周圍進行水平與垂直1.5倍的放大後生成一得以圍繞於該人眼周圍之矩形狀,藉以確保裁剪後的區域包括完整之人眼,同時將眼周圍的變化一併作為裁剪之特徵。
  3. 如請求項1所述之深度偽造影片檢測系統,其中該序列學習,係為通過具有該長短期記憶模型之遞歸神經網路,藉以增加該長期遞歸卷積神經網路的記憶儲存容量,以避免於訓練階段更新權重時出現之反向傳播而造成梯度消失。
  4. 如請求項1所述之深度偽造影片檢測系統,其中該資料前處理單元(112),係得以輸入靜態影像或動態影像中之每一個影格進行提取。
  5. 如請求項1所述之深度偽造影片檢測系統,其中該輸入資料檢測模組(110),係另得以包含一五官辨識單元(113),係於進行人臉偵測時將臉部五官逐一辨識並加以定位,並於該目標影片中臉部區域的每一個影格進行該五官之區分,藉以使該五官周圍各具有其特徵模型。
  6. 如請求項1所述之深度偽造影片檢測系統,其中該長短期記憶模型,係為針對輸入之時間序列的資料進行模型建置。
  7. 一種深度偽造影片檢測方法,係包括:步驟1、(S310)利用一輸入資料檢測模組接收一欲檢測之影片,並執行整合處理,藉由設置於該輸入資料檢測模組中之一影片辨識單元辨識該影片是否為疑似的偽造影片;步驟2、(S311)該影片辨識單元辨識該影片為否,則判定為正常影片,直接傳送至一資料庫模組進行資料儲存,並成為對比資料;步驟3、(S312)該影片辨識單元辨識該影片為是,則判定為偽造影片,並同時設為一目標影片;步驟4、(S320)再以一資料前處理單元針對該目標影片中所出現之人像臉部進行人臉偵測,並加以定位該目標影片中的每一個影格之臉部區域,並將該臉部區域設置複數個定位點; 步驟5、(S330)並針對該臉部區域的眼睛部分,利用位於該眼睛部分之周圍的該複數個定位點,於眼部周圍進行裁剪形成一眼部特徵模型;步驟6、(S340)以一特徵提取模組擷取該目標影片中之複數個該定位點以及該眼部特徵模型,並將該眼部特徵模型置入至一長期遞歸卷積神經網路(Long Recurrent Convolutional Neural-networks,LRCN)中;步驟7、(S350)再以一序列學習模組將經過該長期遞歸卷積神經網路後之該眼部特徵模型輸入到區域序列,並以一長短期記憶(Long short-term memory,LSTM)進行序列學習;步驟8、(S360)完成該長短期記憶之學習後,利用一狀態預測模組進以預測該目標影片之眼部狀態,以得出複數個遞歸神經網路之神經元,並將各該神經元之輸出發送到一由全連接層所組成之神經網路;步驟9、(S370)由一狀態量化模組以一長短期記憶模型輸出經量化過後之眼部狀態,並由該量化過後之眼部狀態以一數值輸出;步驟10、(S380)該資料庫模組係接收由該長短期記憶模型輸出經量化過後之眼部狀態,並儲入至一設置於該資料庫模組中之長短期記憶單元; 步驟11、(S390)最後藉由一輸出資料辨別模組將該目標影片之辨識結果輸出並判定是否為偽造之影片。
  8. 如請求項7所述之深度偽造影片檢測方法,其中該資料前處理單元進行人臉偵測,係得以輸入靜態影像或動態影像中之每一個影格進行提取。
  9. 如請求項7所述之深度偽造影片檢測方法,其中該步驟4,係另得以於該資料前處理單元執行前,以該輸入資料檢測模組執行一五官辨識單元,以進行臉部五官辨識並加以定位,並於該目標影片中臉部區域的每一個影格進行該五官之區分,使該五官周圍各具有其特徵模型。
TW109137318A 2020-10-27 2020-10-27 深度偽造影片檢測系統及其方法 TWI744057B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109137318A TWI744057B (zh) 2020-10-27 2020-10-27 深度偽造影片檢測系統及其方法
US17/325,511 US11514715B2 (en) 2020-10-27 2021-05-20 Deepfake video detection system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109137318A TWI744057B (zh) 2020-10-27 2020-10-27 深度偽造影片檢測系統及其方法

Publications (2)

Publication Number Publication Date
TWI744057B true TWI744057B (zh) 2021-10-21
TW202217653A TW202217653A (zh) 2022-05-01

Family

ID=80782792

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109137318A TWI744057B (zh) 2020-10-27 2020-10-27 深度偽造影片檢測系統及其方法

Country Status (2)

Country Link
US (1) US11514715B2 (zh)
TW (1) TWI744057B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11527106B1 (en) * 2021-02-17 2022-12-13 Bank Of America Corporation Automated video verification
US20240056478A1 (en) * 2022-08-11 2024-02-15 Bank Of America Corporation Defensive deepfake for detecting spoofed accounts
WO2024142399A1 (ja) * 2022-12-28 2024-07-04 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201839607A (zh) * 2017-04-24 2018-11-01 美商英特爾股份有限公司 用於深神經網路之計算最佳化機制
CN108921042A (zh) * 2018-06-06 2018-11-30 四川大学 一种基于深度学习的人脸序列表情识别方法
TW202004421A (zh) * 2018-05-17 2020-01-16 日商索尼互動娛樂股份有限公司 用於在hmd環境中利用傳至gpu之預測及後期更新的眼睛追蹤進行快速注視點渲染
US20200159778A1 (en) * 2018-06-19 2020-05-21 Priyadarshini Mohanty Methods and systems of operating computerized neural networks for modelling csr-customer relationships

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11023618B2 (en) 2018-08-21 2021-06-01 Paypal, Inc. Systems and methods for detecting modifications in a video clip
US11216731B2 (en) 2019-04-10 2022-01-04 Alexander Fairhart Apparatus and process for visual recognition
US20220187847A1 (en) * 2019-11-05 2022-06-16 Strong Force Vcn Portfolio 2019, Llc Robot Fleet Management for Value Chain Networks
US11687778B2 (en) * 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
CN111860414B (zh) 2020-07-29 2023-10-24 中国科学院深圳先进技术研究院 一种基于多特征融合检测Deepfake视频方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201839607A (zh) * 2017-04-24 2018-11-01 美商英特爾股份有限公司 用於深神經網路之計算最佳化機制
TW202004421A (zh) * 2018-05-17 2020-01-16 日商索尼互動娛樂股份有限公司 用於在hmd環境中利用傳至gpu之預測及後期更新的眼睛追蹤進行快速注視點渲染
CN108921042A (zh) * 2018-06-06 2018-11-30 四川大学 一种基于深度学习的人脸序列表情识别方法
US20200159778A1 (en) * 2018-06-19 2020-05-21 Priyadarshini Mohanty Methods and systems of operating computerized neural networks for modelling csr-customer relationships

Also Published As

Publication number Publication date
US11514715B2 (en) 2022-11-29
TW202217653A (zh) 2022-05-01
US20220129664A1 (en) 2022-04-28

Similar Documents

Publication Publication Date Title
TWI744057B (zh) 深度偽造影片檢測系統及其方法
He et al. Computer graphics identification combining convolutional and recurrent neural networks
CN113537027B (zh) 基于面部划分的人脸深度伪造检测方法及***
Charitidis et al. Investigating the impact of pre-processing and prediction aggregation on the deepfake detection task
Liao et al. A two-stage method for hand-raising gesture recognition in classroom
Yu et al. SegNet: a network for detecting deepfake facial videos
Khormali et al. Self-supervised graph Transformer for deepfake detection
Lu et al. Multimode Gesture Recognition Algorithm Based on Convolutional Long Short‐Term Memory Network
Watcharabutsarakham et al. Comparison of Face Classification with Single and Multi-model base on CNN
CN109784291A (zh) 基于多尺度的卷积特征的行人检测方法
Das et al. A comparative analysis and study of a fast parallel cnn based deepfake video detection model with feature selection (fpc-dfm)
Zhang et al. DNN-CBAM: An enhanced DNN model for facial emotion recognition
Huang Object extraction of tennis video based on deep learning
Fang et al. (Retracted) Face recognition technology in classroom environment based on ResNet neural network
Ye Emotion recognition of online education learners by convolutional neural networks
Vignesh Baalaji et al. Autonomous face mask detection using single shot multibox detector, and ResNet-50 with identity retrieval through face matching using deep siamese neural network
Lian et al. A novel forgery classification method based on multi‐scale feature capsule network in mobile edge computing
Ding et al. DeepFake Videos Detection via Spatiotemporal Inconsistency Learning and Interactive Fusion
Ishrak et al. Explainable Deepfake Video Detection using Convolutional Neural Network and CapsuleNet
Liu et al. [Retracted] Target Recognition Technology of Multimedia Platform Based on a Convolutional Neural Network
CN113807232B (zh) 基于双流网络的伪造人脸检测方法、***及存储介质
CN109035171A (zh) 一种网纹人脸图像修复方法
Jellali et al. An Approach of Fake Videos Detection Based on Haar Cascades and Convolutional Neural Network
US11847810B2 (en) Face-hand correlation degree detection method and apparatus, device and storage medium
Kosarkar et al. An Analytical Perspective on Various Deep Learning Techniques for Deep Fake Detection