TWI768744B - 參考單據產生方法及系統 - Google Patents

參考單據產生方法及系統 Download PDF

Info

Publication number
TWI768744B
TWI768744B TW110107675A TW110107675A TWI768744B TW I768744 B TWI768744 B TW I768744B TW 110107675 A TW110107675 A TW 110107675A TW 110107675 A TW110107675 A TW 110107675A TW I768744 B TWI768744 B TW I768744B
Authority
TW
Taiwan
Prior art keywords
paragraph
training
document
fixed structure
reference document
Prior art date
Application number
TW110107675A
Other languages
English (en)
Other versions
TW202236184A (zh
Inventor
王俊權
宋政隆
陳皓遠
魏明俊
楊宜娟
陳吟慧
廖寧瑋
Original Assignee
中國信託商業銀行股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中國信託商業銀行股份有限公司 filed Critical 中國信託商業銀行股份有限公司
Priority to TW110107675A priority Critical patent/TWI768744B/zh
Application granted granted Critical
Publication of TWI768744B publication Critical patent/TWI768744B/zh
Publication of TW202236184A publication Critical patent/TW202236184A/zh

Links

Images

Landscapes

  • Diaphragms For Electromechanical Transducers (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Debugging And Monitoring (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一種參考單據產生系統,包含一儲存模組及一處理模組,適用於根據一電子文件產生至少一參考單據。該儲存模組儲存該電子文件,該電子文件包括至少一段落及至少一編號,每一段落具有多個單字。對於該電子文件中的每一段落,該處理模組根據該段落所對應編號的判定該段落是否屬於一非固定結構,並對於該電子文件中的每一判定出屬於該非固定結構的段落,獲得多個詞向量,且根據該等詞向量,產生一段落向量,再利用一文件種類分析模型對該段落向量進行分析,以獲得一包括該段落所相關之一資料類型的分析結果,最後根據該分析結果產生一參考單據。

Description

參考單據產生方法及系統
本發明是有關於一種辦公室自動化方法,特別是指一種參考單據產生方法及系統。
環球銀行金融電信協會(Society for Worldwide Interbank Financial Telecommunication, SWIFT)是一個國際合作組織,所有參加此協會而遍布世界各處的銀行、金融機構等,均會以此協會中通用之進出***易電子文件彼此聯繫作業,以完成環球金融交易業務。
就環球銀行金融電信協會中通用的電子文件而言,其中最重要的相關格式規定,是在電子文件的單一個段落中要求提供某種資料或單據類型,例如,甲銀行、乙銀行均是環球銀行金融電信協會中的一員,甲銀行發出一封協會通用的電子文件至乙銀行要求乙銀行配合進行金融交易,此時,甲銀行發出的電子文件必然有多數段陳述此次金融交易的段落,而其中,此封電子文件的某一段落明確地陳述出要求提供例如「***」此種資料類型的單據,而另一段落,則要求提供例如「航空貨運單」此種資料類型的單據。
就這樣的格式規定而言,當某一金融機構收到某一份其中指示需要提供多種資料類型之單據的電子文件時,相關從業人員只能依靠自己的閱讀能力,及閱讀此封電子文件後的記憶與經驗,整理出產生單據所需要的各式資料;而,環球銀行金融電信協會中的成員遍布世界各地,電子文件使用的語法各有不同,因此,從業人員會因為未受充分教育訓練或是經驗不足,而發生語意解讀錯誤導致增加作業耗時等問題,或是需要重複補正缺失等相關作業。
目前的處理流程,主要為客戶自行解讀電子文件後,根據其對電子文件的理解產生單據,並透過傳真或電子郵件等方式將單據影像傳送至金融機構以確認單據內容是否正確,在金融機構確認單據內容正確後,客戶再遞交單據正本至金融機構用以確認所遞交之單據正本的正確性。
然而,客戶自行解讀電子文件時,容易產生電子文件解讀錯誤的問題,而不斷傳送單據影像及單據正本的過程不但造成作業重疊的困境,而且也會耗費許多人力資源,有鑒於此,相關業者需要針對上述問題提出改善方案。
因此,本發明的目的,即在提供一種能自動產生參考單據的參考單據產生方法。
於是,本發明參考單據產生方法,適用於根據一電子文件產生至少一參考單據,並藉由一參考單據產生系統實施,該電子文件包括至少一段落及至少一分別對應該至少一段落的編號,每一段落具有多個單字,每一編號指示出所對應的段落屬於一固定結構及一非固定結構之其中一者,該參考單據產生方法包含一步驟(A)、一步驟(B)、一步驟(C)、一步驟(D),及一步驟(E)。
在該步驟(A)中,對於該電子文件中的每一段落,該參考單據產生系統根據該段落所對應編號的判定該段落是否屬於該非固定結構。
在該步驟(B)中,對於該電子文件中的每一判定出屬於該非固定結構的段落,該參考單據產生系統獲得多個分別對應該段落的所有單字的詞向量。
在該步驟(C)中,對於該電子文件中的每一判定出屬於該非固定結構的段落,該參考單據產生系統根據該等詞向量,產生一相關於該等詞向量的段落向量。
在該步驟(D)中,對於該電子文件中的每一判定出屬於該非固定結構的段落,該參考單據產生系統利用一用於分析一段落所相關之資料類型的文件種類分析模型對該段落向量進行分析,以獲得一包括該段落所相關之一資料類型的分析結果。
在該步驟(E)中,對於該電子文件中的每一判定出屬於該非固定結構的段落,根據該分析結果產生一包括多個欄位的參考單據。
發明的另一目的,即在提供一種能自動產生參考單據的參考單據產生系統。
於是,本發明參考單據產生系統,適用於根據一電子文件產生至少一參考單據,包含一儲存模組及一電連接該儲存模組的處理模組。
該儲存模組儲存該電子文件,該電子文件包括至少一段落及至少一分別對應該至少一段落的編號,每一段落具有多個單字,每一編號指示出所對應的段落屬於一固定結構及一非固定結構之其中一者。
其中,對於該電子文件中的每一段落,該處理模組根據該段落所對應編號的判定該段落是否屬於該非固定結構,並對於該電子文件中的每一判定出屬於該非固定結構的段落,獲得多個分別對應該段落的所有單字的詞向量,且根據該等詞向量,產生一相關於該等詞向量的段落向量,再利用一用於分析一段落所相關之資料類型的文件種類分析模型對該段落向量進行分析,以獲得一包括該段落所相關之一資料類型的分析結果,最後根據該分析結果產生一包括多個欄位的參考單據。
本發明的功效在於:對於每一判定出屬於該非固定結構的段落,藉由該處理模組根據該段落中的所有單字利用詞嵌入演算法獲得分別對應該等單字的該等詞向量,並產生相關於該等詞向量且對應該段落的該段落向量,以及根據該段落向量利用該文件種類分析模型獲得該分析結果,並根據該分析結果產生該參考單據,藉此,能夠完整得知該電子文件中各個段落指示出的所有資料類型,以對應產生參考單據。
在本發明被詳細描述之前,應當注意在以下的說明內容中,類似的元件是以相同的編號來表示。
參閱圖1,本發明參考單據產生系統1的一實施例,適用於根據一電子文件產生至少一參考單據,該實施例包含一通訊模組11、一儲存模組12,及一電連接該通訊模組11及該儲存模組12的處理模組13。
該通訊模組11經由一通訊網路2連接一使用端3。該使用端3例如為桌上型電腦、筆記型電腦、平板電腦、智慧型手機,但不以此為限。
該儲存模組12儲存該電子文件、多筆訓練資料,及多個解析規則。
該電子文件包括至少一段落及至少一分別對應該至少一段落的編號,每一段落具有多個單字,每一編號指示出所對應的段落屬於一固定結構及一非固定結構之其中一者。值得注意的是,在本實施例中,該電子文件例如為SWIFT信用狀,該電子文件中的每個段落的所有單字構成的文意指示出相關於進出***易之參考單據的資料類型,資料類型例如為出口押匯申請書、***、包裝單、提單、航空貨運單、貨運承攬商收據,或產地證明,該固定結構為該電子文件有要求固定之欄位,該非固定結構為該電子文件非固定的特定欄位,但不以此為限。
每一訓練資料包括一包括多個訓練單字的訓練段落、一指示出該訓練段落所相關的資料類型的資料類型標籤,及多個分別對應該等訓練單字的項目類型標籤。
該資料類型標籤為指示出該訓練段落的所有訓練單字構成的文意指示出相關於進出***易之參考單據的資料類型的標籤。
舉例來說,一筆訓練資料包括以下的訓練段落「Signed commercial invoice(s) in 1 original plus 3 copies showing the name and address of the manufacturers or producers or exporters, showing the goods are of Taiwan origin.」,則該訓練資料還包括一筆資料類型標籤為***(commercial invoice),代表該訓練段落中的所有訓練單字構成的文意指示出參考單據的資料類型為***。在此,該資料類型標籤可透過不同方式產生,例如由相關從業人員閱讀該訓練段落後產生該資料類型標籤,亦或是由該處理模組13根據該訓練段落利用不同的文件種類分析模型產生該資料類型標籤。
每一項目類型標籤指示出所對應的訓練單字屬於起始項目、中間項目及其他項目之其中一者,對於被項目類型標籤指示出屬於起始項目的該訓練單字而言,該訓練單字與接續在該訓練單字後且被項目類型標籤指示出屬於中間項目的至少一訓練單字所構成的文意指示出對應該訓練段落的該資料類型標籤中需要記載的所需資訊。
以下列的訓練段落為例:「Signed commercial invoice(s) in 1 original plus 3 copies showing the name and address of the manufacturers or producers or exporters, showing the goods are of Taiwan origin.」,對應該訓練段落的該資料類型標籤為***(commercial invoice),代表該訓練段落中的所有訓練單字構成的文意指示出參考單據的資料類行為***,該等項目類型標籤分別對應該等訓練單字,其中「the name」中的「the」,「address of the manufacturers or producers or exporters」中的「address」,以及「the goods are of Taiwan origin」中的「the」被項目類型標籤指示出屬於起始項目,而「the name」中的「name」,「address of the manufacturers or producers or exporters」中的「of the manufacturers or producers or exporters」,以及「the goods are of Taiwan origin」中的「goods are of Taiwan origin」被項目類型標籤指示出屬於中間項目,代表該訓練段落中的所有訓練單字構成的文意指示出參考單據必須記載「the name」、「address of the manufacturers or producers or exporters」、「the goods are of Taiwan origin」等欄位,也就是製造商或生產商或出口商的地址和名稱,以及貨物來自於台灣。在此,該項目類型標籤可透過不同方式產生,例如由相關從業人員閱讀該訓練段落後逐一對每一個訓練單字進行標註以產生對應該訓練單字的項目類型標籤,亦或是該處理模組13根據該訓練段落利用不同的標註模型產生分別對應該等訓練單字的該等項目類型標籤。
該等解析規則分別對應多個指示出屬於該固定結構的編號。
本發明參考單據產生方法之一實施例包括一文件種類分析模型建立程序、一標註模型建立程序,及一參考單據產生程序。
參閱圖1、2,本發明參考單據產生系統1執行本發明參考單據產生方法之該實施例的該文件種類分析模型建立程序,該文件種類分析模型是用以自一包括有多數單字的文字段落中,以該文字段落的段落向量分析得到該文字段落的所有單字構成的文意指示出相關於進出***易之參考單據的資料類型的機器學習模型,該文件種類分析模型建立程序包含一步驟201、一步驟202,及一步驟203。
在該步驟201中,對於每一訓練資料的訓練段落的所有訓練單字,該處理模組13利用詞嵌入演算法獲得多個分別對應該等訓練單字的訓練詞向量。
在該步驟202中,對於每一訓練資料的訓練段落,該處理模組13根據該等訓練詞向量,產生一相關於該等訓練詞向量的訓練段落向量。在本實施例中,該處理模組13可透過數學運算或是文本嵌入演算法產生該訓練段落向量,但不以此為限。
在該步驟203中,該處理模組13根據該等訓練段落向量及該等資料類型標籤,利用分類演算法建立該文件種類分析模型。在本實施例中,分類演算法例如為全連接神經網路(fully Connected Neural Network)、隨機森林(Random Forest),或是羅吉斯迴歸(Logistic regression),但不以此為限。
詳細地說,該等訓練資料的訓練段落可對應例如***、包裝單、出口押匯申請書、提單、航空貨運單、貨運承攬商收據,或產地證明等資料類型標籤,首先對於每一訓練段落,該處理模組13利用詞嵌入演算法產生分別對應該訓練段落中所有訓練單字的訓練詞向量,之後根據對應該等訓練單字的該等訓練向量產生相關於該等詞向量且對應該訓練段落的該訓練段落向量,接著將該等訓練資料分為一訓練子集及一測試子集後,根據該訓練子集中的該等訓練資料,利用分類演算法建立一用以自一包括有多數單字的文字段落中,分析得到該文字段落的所有單字所構成的文意指示出相關於進出***易之參考單據的資料類型的訓練模型,其中該訓練模型根據該等訓練段落向量將該等訓練段落利用分類演算法進行分類,而同一類別的訓練段落具有相同的資料類型標籤,例如該訓練子集中包含70筆訓練資料,其中10筆訓練資料的資料類型標籤為收據、10筆訓練資料的資料類型標籤為***、10筆訓練資料的資料類型標籤為出口押匯申請書、10筆訓練資料的資料類型標籤為提單、10筆訓練資料的資料類型標籤為航空貨運單、10筆訓練資料的資料類型標籤為貨運承攬商收據、10筆訓練資料的資料類型標籤為產地證明,則該處理模組13根據分別對應該等訓練資料的該等訓練段落向量,利用該訓練模型對該等訓練資料中的該等訓練段落進行分類,而分類結果有七個類別,其中第一個類別中的所有訓練段落所對應的資料類型標籤均為收據,類似地,第二個類別中的所有訓練段落所對應的資料類型標籤均為***,而第三、四、五、六、七個類別中的所有訓練段落所對應的資料類型標籤分別均為出口押匯申請書、提單、航空貨運單、貨運承攬商收據、產地證明,之後該處理模組13根據該測試子集中的該等訓練資料判斷該訓練模型是否過擬合或擬合不足,當判斷出該訓練模型過擬合或是擬合不足時則調整該訓練模型,例如調整超參數組,並重新對調整過後的該訓練模型進行判斷,另一方面,當判斷出並未過擬合與擬合不足時,則將該訓練模型作為該文件種類分析模型。
參閱圖1、3,本發明參考單據產生系統1執行本發明參考單據產生方法之該實施例的該標註模型建立程序,該標註模型是一用以根據對應該單字的該詞向量及相關於該單字的前後文中所有單字的該等詞向量分析得到對應該單字且用以指示出該文字段落所對應的該資料類型需要記載之所需資訊的標註類型的機器學習模型,該標註模型建立程序包含一步驟301及一步驟302。
在該步驟301中,對於每一訓練資料的訓練段落的所有訓練單字,該處理模組13根據該等訓練單字利用詞嵌入演算法獲得多個分別對應該等訓練單字的訓練詞向量。
在該步驟302中,該處理模組13根據分別對應該等訓練單字的該等訓練詞向量及該等項目類型標籤,利用序列標註演算法建立該標註模型。在此,該序列標註演算法包括一雙向長短期記憶(Bi-directional Long Short-Term Memory)演算法及一條件隨機場(Conditional Random Field)演算法,其中條件隨機場演算法的作用是在於根據該未知段落中的一待分析單字的前後文產生相關於該待分析單字的標註類型,而雙向長短期記憶演算法的作用是在於選擇出產生相關於該待分析單字之標記資料所根據的前後文內容。
詳細地說,每一筆訓練資料中的該訓練段落的該等訓練單字分別對應不同的項目類型標籤,該處理模組13首先對於每一訓練段落利用詞嵌入演算法產生分別對應該訓練段落中所有訓練單字的訓練詞向量,接著將該等訓練資料分為另一訓練子集及另一測試子集後,該處理模組13根據該另一訓練子集中的該等訓練資料,利用序列標註演算法建立另一用以標註另一文字段落中每一單字的訓練模型,其中對於該另一訓練子集中的該等訓練資料中的每一訓練段落,該訓練模型根據該訓練段落中的所有訓練單字產生多個分別對應該等訓練單字的標註類型,而對於同一個訓練單字,對應該訓練單字的項目類型標籤和標註類型將會指示出同樣的結果,例如在前述的訓練段落中,「the name」中的「the」所對應的項目類型標籤指示出其為初始項目,而透過該訓練模型對「the name」中的「the」所產生的標註類型同樣指示初期為初始項目,之後該處理模組13根據該另一測試子集判斷該另一訓練模型是否過擬合或擬合不足,類似地,當該處理模組13判斷出該另一訓練模型過擬合或是擬合不足時,例如在該另一訓練子集的該訓練段落中發生多次對應同一個訓練單字的項目類型標籤和標註類型指示出不同類型的狀況,或是在該另一測試子集的該訓練段落中發生多次對應同一個訓練單字的項目類型標籤和標註類型指示出不同類型的狀況,該處理模組13藉由例如交叉驗證的方式調整該另一訓練模型,並重新對調整過後的該另一訓練模型進行判斷,當該處理模組13判斷出該另一訓練模型並未過擬合與擬合不足時,則該處理模組13將該另一訓練模型作為該標註模型。
參閱圖1、4,本發明參考單據產生系統1執行本發明參考單據產生方法之該實施例的該參考單據產生程序,包括一步驟401、一步驟402、一步驟403、一步驟404、一步驟405、一步驟406、一步驟407、一步驟408、一步驟409、一步驟410,及一步驟411。
在該步驟401中,對於該電子文件中的每一段落,該處理模組13根據該段落所對應編號的判定該段落是否屬於該非固定結構。當該處理模組13判定出該段落屬於該非固定結構時,流程進行該步驟402;而當該處理模組13判定出該段落不屬於該非固定結構時,流程進行該步驟407。
值得注意的是,在本實施例中,該儲存模組12儲存一編號對結構的查找表,如下表1,該處理模組13根據該段落所對應編號利用該查找表判定該段落是否屬於該非固定結構,但不以此為限。 表1
編號 結構
45A 非固定結構
20 固定結構
46A 非固定結構
在該步驟402中,對於該電子文件中的每一判定出屬於該非固定結構的段落,獲得多個分別對應該段落的所有單字的詞向量。詳細地說,該處理模組13是根據該等單字,利用詞嵌入演算法獲得分別對應該等單字的該等詞向量,其中,詞嵌入演算法為例如轉譯器的雙向編碼描述(Bidirectional Encoder Representations from Transformers, BERT)、嵌入語言模型(Embeddings from Language Models, ELMO),文字轉換向量演算法(word to vector, word2vec),或其他類似演算法之其中任一,在此,該處理模組13可根據不同情況選擇使用任一種詞嵌入演算法獲得分別對應該等單字的該等詞向量。
在該步驟403中,對於該電子文件中的每一判定出屬於該非固定結構的段落,根據該步驟402得到的所有單字的該等詞向量,產生一相關於該等詞向量的段落向量。在此,該處理模組13可透過數學運算,例如取平均、取餘弦值,或是利用任一種文本嵌入演算法,例如文件轉向量演算法(document to vector, doc2vec)、轉譯器的雙向編碼描述,或精簡的轉譯器的雙向編碼描述(A Lite Bidirectional Encoder Representations from Transformers, ALBERT),根據所有單字的該等詞向量,產生相關於該等詞向量的該段落向量。
在該步驟404中,對於該電子文件中的每一判定出屬於該非固定結構的段落,該處理模組13利用該文件種類分析模型對該段落向量進行分析,以獲得一包括該段落所相關之一資料類型的分析結果。詳細地說,該處理模組13是藉由該文件種類分析模型根據該段落向量透過分類演算法對該段落進行分類,以獲得該分析結果,並根據該分析結果歸類出該段落向量所對應之該段落指示出的參考單據的資料類型。例如該分析結果指示出該段落所屬的資料類型為收據,則該處理模組13將收據作為該段落向量所對應的該段落中的所有單字構成的文意指示出參考單據的資料類型。
在該步驟405中,對於該電子文件中的每一判定出屬於該非固定結構的段落,該處理模組13根據該段落的該等單字所對應的該等詞向量,利用一用於根據每一單字及前後單字所對應之詞向量產生標註類型的標註模型,產生多個分別對應該等單字的標註類型。
在該步驟406中,對於該電子文件中的每一判定出屬於該非固定結構的段落,該處理模組13根據該分析結果及該等標註類型產生一包括多個欄位的參考單據。
舉例來說,該電子文件的其中一個段落敘述「Signed commercial invoice(s) in 1 original plus 3 copies showing the name and address of the manufacturers or producers or exporters, showing the goods are of Taiwan origin.」,該處理模組13根據該段落中的所有單字,先利用詞嵌入演算法獲得對應該等單字的該等詞向量,再利用文本嵌入演算法獲得相關於該等詞向量且對應該段落的該段落向量,接著根據該段落向量利用該文件種類分析模型進行分類以產生對應該段落向量的該分析結果,其中該分析結果指示出該段落所屬的資料類型為***(commercial invoice)。該處理模組13再根據該段落的該等單字所對應的該等詞向量,利用該標註模型產生分別對應該等單字的該等標註類型,其中「the name」中的「the」,「address of the manufacturers or producers or exporters」中的「address」,以及「the goods are of Taiwan origin」中的「the」的標註類型為起始項目,而「the name」中的「name」,「address of the manufacturers or producers or exporters」中的「of the manufacturers or producers or exporters」,以及「the goods are of Taiwan origin」中的「goods are of Taiwan origin」的標註類型為中間項目,而其他單字的標註類型為其他項目,代表該段落中所有單字構成的文意指示出參考單據必須要有製造商或生產商或出口商的地址(address of the manufacturers or producers or exporters)、名稱(the name),以及貨物來自於台灣(the goods are of Taiwan origin)等欄位。
值得注意的是,在本實施例中,對於該電子文件中的每一判定出屬於該非固定結構的段落,該處理模組13係根據該分析結果及該等標註類型產生該參考單據,在其他實施方式中,每一資料類型可對應多個固定的欄位,該處理模組13可僅根據該分析結果產生該參考單據,但不以此為限。
在該步驟407中,對於該電子文件中的每一判定出不屬於該非固定結構的段落,該處理模組13根據該段落所對應的一目標編號獲得一對應該目標編號的一目標解析規則。
在該步驟408中,對於該電子文件中的每一判定出不屬於該非固定結構的段落,該處理模組13根據該目標解析規則產生一解析結果。
在該步驟409中,對於該電子文件中的每一判定出不屬於該非固定結構的段落,該處理模組13根據該解析結果產生一包括多個欄位的參考單據。
舉例來說,編號20的前6個字元為日期地名,因此對應20的解析規則為擷取段落的前6個字元,以產生包括該6個字元的該解析結果,該6個字元相關於該參考單據的該等欄位。
在該步驟406及該步驟409之後的該步驟410中,該處理模組13經由該通訊模組11傳送該步驟406及該步驟409產生的參考單據至該使用端3。
在該步驟411中,當該處理模組13經由該通訊模組11接收到一來自該使用端3且相關於該處理模組13所傳送參考單據之其中一者的客戶單據時,該處理模組13將該客戶單據與所對應之參考單據進行比對,以產生一指示出相異欄位的比較結果。
詳細而言,在該步驟410該處理模組13將所產生的參考單據傳送至該使用端3後,客戶可針對該參考單據內容進行修正,再回傳修改後的該客戶單據至該參考單據產生系統1,以使該參考單據產生系統1在該步驟411將該客戶單據與所對應之參考單據進行比對,並產生該比較結果,使得金融機構的審核人員能根據該比較結果更有效率的審核單據。
綜上所述,本發明參考單據產生方法及系統,對於每一判定出屬於該非固定結構的段落,藉由該處理模組13根據該段落中的所有單字利用詞嵌入演算法獲得分別對應該等單字的該等詞向量,並產生相關於該等詞向量且對應該段落的該段落向量,以及根據該段落向量利用該文件種類分析模型獲得該分析結果,且利用該標註模型產生用以指示出該段落所對應的該資料類型需要記載之所需資訊的該等標註類型,並根據根據該分析結果及該等標註類型產生該參考單據,藉此,能夠完整得知該電子文件中各個段落指示出的所有資料類型及所需要的欄位,以對應產生參考單據,節省了從業人員閱讀電子文件進行整理所耗費的作業時間以及資源成本,此外,該處理模組13還將該客戶單據與所對應之參考單據進行比對,以提升審單作業效率,故確實能達成本發明的目的。
惟以上所述者,僅為本發明的實施例而已,當不能以此限定本發明實施的範圍,凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾,皆仍屬本發明專利涵蓋的範圍內。
1:參考單據產生系統 11:通訊模組 12:儲存模組 13:處理模組 2:通訊網路 3:使用端 201~203:文件種類分析模型建立程序 301、302:標註模型建立程序 401~411:參考單據產生程序
本發明的其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中: 圖1是一方塊圖,說明本發明參考單據產生系統的一實施例; 圖2是一流程圖,說明本發明參考單據產生方法的一實施例之一文件種類分析模型建立程序; 圖3是一流程圖,說明實施本發明參考單據產生方法的該實施例之一標註模型建立程序;及 圖4是一流程圖,說明實施本發明參考單據產生方法的該實施例之一參考單據產生程序。
1:參考單據產生系統
11:通訊模組
12:儲存模組
13:處理模組
2:通訊網路
3:使用端

Claims (10)

  1. 一種參考單據產生方法,適用於根據一電子文件產生至少一參考單據,並藉由一參考單據產生系統實施,該電子文件包括至少一段落及至少一分別對應該至少一段落的編號,每一段落具有多個單字,每一編號指示出所對應的段落屬於一固定結構及一非固定結構之其中一者,該參考單據產生方法包含以下步驟: (A)   對於該電子文件中的每一段落,根據該段落所對應編號的判定該段落是否屬於該非固定結構; (B)   對於該電子文件中的每一判定出屬於該非固定結構的段落,獲得多個分別對應該段落的所有單字的詞向量; (C)   對於該電子文件中的每一判定出屬於該非固定結構的段落,根據該等詞向量,產生一相關於該等詞向量的段落向量; (D)  對於該電子文件中的每一判定出屬於該非固定結構的段落,利用一用於分析一段落所相關之資料類型的文件種類分析模型對該段落向量進行分析,以獲得一包括該段落所相關之一資料類型的分析結果;及 (E)   對於該電子文件中的每一判定出屬於該非固定結構的段落,根據該分析結果產生一包括多個欄位的參考單據。
  2. 如請求項1所述的參考單據產生方法,該參考單據產生系統儲存多筆訓練資料,每一訓練資料包括一包括多個訓練單字的訓練段落,及一指示出該訓練段落所相關的資料類型的資料類型標籤,在該步驟(D)之前還包含以下步驟: (F)  對於每一訓練資料的訓練段落的所有訓練單字,利用詞嵌入演算法獲得多個分別對應該等訓練單字的訓練詞向量; (G) 對於每一訓練資料的訓練段落,根據該等訓練詞向量,產生一相關於該等訓練詞向量的訓練段落向量;及 (H) 根據該等訓練段落向量及該等資料類型標籤,利用分類演算法建立該文件種類分析模型。
  3. 如請求項1所述的參考單據產生方法,在該步驟(B)及步驟(E)之間還包含以下步驟: (I)  對於該電子文件中的每一判定出屬於該非固定結構的段落,根據該段落的該等單字所對應的該等詞向量,利用一用於根據每一單字及前後單字所對應之詞向量產生標註類型的標註模型,產生多個分別對應該等單字的標註類型; 其中,在該步驟(E)中,對於該電子文件中的每一判定出屬於該非固定結構的段落,還根據該標註類型產生該參考單據。
  4. 如請求項1所述的參考單據產生方法,該參考單據產生系統儲存多個分別對應多個指示出屬於該固定結構的編號的解析規則,在該步驟(A)後還包含以下步驟: (J)  對於該電子文件中的每一判定出不屬於該非固定結構的段落,根據該段落所對應的一目標編號獲得一對應該目標編號的一目標解析規則; (K)  對於該電子文件中的每一判定出不屬於該非固定結構的段落,根據該目標解析規則產生一解析結果;及 (L)  對於該電子文件中的每一判定出不屬於該非固定結構的段落,根據該解析結果產生一包括多個欄位的參考單據。
  5. 如請求項1所述的參考單據產生方法,該參考單據產生系統經由一通訊網路連接一使用端,在該步驟(E)還包含以下步驟: (M) 傳送該參考單據至該使用端;及 (N) 當接收到一來自該使用端且相關於所傳送參考單據之其中一者的客戶單據時,將該客戶單據與所對應之參考單據進行比對,以產生一指示出相異欄位的比較結果。
  6. 一種參考單據產生系統,適用於根據一電子文件產生至少一參考單據,該參考單據產生系統包含: 一儲存模組,儲存該電子文件,該電子文件包括至少一段落及至少一分別對應該至少一段落的編號,每一段落具有多個單字,每一編號指示出所對應的段落屬於一固定結構及一非固定結構之其中一者;及 一處理模組,電連接該儲存模組; 其中,對於該電子文件中的每一段落,該處理模組根據該段落所對應編號的判定該段落是否屬於該非固定結構,並對於該電子文件中的每一判定出屬於該非固定結構的段落,獲得多個分別對應該段落的所有單字的詞向量,且根據該等詞向量,產生一相關於該等詞向量的段落向量,再利用一用於分析一段落所相關之資料類型的文件種類分析模型對該段落向量進行分析,以獲得一包括該段落所相關之一資料類型的分析結果,最後根據該分析結果產生一包括多個欄位的參考單據。
  7. 如請求項6所述的參考單據產生系統,其中,該儲存模組還儲存多筆訓練資料,每一訓練資料包括一包括多個訓練單字的訓練段落,及一指示出該訓練段落所相關的資料類型的資料類型標籤,對於每一訓練資料的訓練段落的所有訓練單字,該處理模組利用詞嵌入演算法獲得多個分別對應該等訓練單字的該等訓練詞向量,並根據該等訓練詞向量,產生一相關於該等訓練詞向量的訓練段落向量,再根據該等訓練段落向量及所對應的資料類型標籤,利用分類演算法建立該文件種類分析模型。
  8. 如請求項6所述的參考單據產生系統,其中,對於該電子文件中的每一判定出屬於該非固定結構的段落,該處理模組根據該段落的該等單字所對應的該等詞向量,利用一用於根據每一單字及前後單字所對應之詞向量產生標註類型的標註模型,產生多個分別對應該等單字的標註類型,且對於該電子文件中的每一判定出屬於該非固定結構的段落,該處理模組還根據該標註類型產生該參考單據。
  9. 如請求項6所述的參考單據產生系統,其中,該儲存模組還儲存多個分別對應多個指示出屬於該固定結構的編號的解析規則,對於該電子文件中的每一判定出不屬於該非固定結構的段落,該處理模組根據該段落所對應的一目標編號獲得一對應該目標編號的一目標解析規則,再根據該目標解析規則產生一解析結果,並根據該解析結果產生一包括多個欄位的參考單據。
  10. 如請求項6所述的參考單據產生系統,還包含一經由一通訊網路連接一使用端的通訊模組,其中該處理模組經由該通訊模組傳送該參考單據至該使用端,並當該處理模組經由該通訊模組接收到一來自該使用端且相關於該處理模組所傳送參考單據之其中一者的客戶單據時,該處理模組將該客戶單據與所對應之參考單據進行比對,以產生一指示出相異欄位的比較結果。
TW110107675A 2021-03-04 2021-03-04 參考單據產生方法及系統 TWI768744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW110107675A TWI768744B (zh) 2021-03-04 2021-03-04 參考單據產生方法及系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110107675A TWI768744B (zh) 2021-03-04 2021-03-04 參考單據產生方法及系統

Publications (2)

Publication Number Publication Date
TWI768744B true TWI768744B (zh) 2022-06-21
TW202236184A TW202236184A (zh) 2022-09-16

Family

ID=83104045

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110107675A TWI768744B (zh) 2021-03-04 2021-03-04 參考單據產生方法及系統

Country Status (1)

Country Link
TW (1) TWI768744B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1739115A (zh) * 2002-11-04 2006-02-22 贸易杠杆股份有限公司 产生跟单信用证并符合货运单据
CN109416815A (zh) * 2016-02-22 2019-03-01 加拿大皇家银行 电子文件平台
CN110399932A (zh) * 2019-07-31 2019-11-01 中国工商银行股份有限公司 信用证软条款识别方法及装置
US20200074169A1 (en) * 2018-08-31 2020-03-05 Accenture Global Solutions Limited System And Method For Extracting Structured Information From Image Documents
US20200394396A1 (en) * 2019-06-11 2020-12-17 Open Text Sa Ulc System and method for separation and classification of unstructured documents
TWM613280U (zh) * 2021-03-04 2021-06-11 中國信託商業銀行股份有限公司 參考單據產生系統

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1739115A (zh) * 2002-11-04 2006-02-22 贸易杠杆股份有限公司 产生跟单信用证并符合货运单据
CN109416815A (zh) * 2016-02-22 2019-03-01 加拿大皇家银行 电子文件平台
US20200074169A1 (en) * 2018-08-31 2020-03-05 Accenture Global Solutions Limited System And Method For Extracting Structured Information From Image Documents
US20200394396A1 (en) * 2019-06-11 2020-12-17 Open Text Sa Ulc System and method for separation and classification of unstructured documents
CN110399932A (zh) * 2019-07-31 2019-11-01 中国工商银行股份有限公司 信用证软条款识别方法及装置
TWM613280U (zh) * 2021-03-04 2021-06-11 中國信託商業銀行股份有限公司 參考單據產生系統

Also Published As

Publication number Publication date
TW202236184A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
US11816165B2 (en) Identification of fields in documents with neural networks without templates
US20230315770A1 (en) Self-executing protocol generation from natural language text
US10282410B2 (en) Assistive technology for the impaired
US10963692B1 (en) Deep learning based document image embeddings for layout classification and retrieval
US11830269B2 (en) System for information extraction from form-like documents
US20090228380A1 (en) Centralized classification and retention of tax records
US20170206409A1 (en) Cognitive document reader
WO2023279045A1 (en) Ai-augmented auditing platform including techniques for automated document processing
WO2021248492A1 (en) Semantic representation of text in document
US20140019851A1 (en) Automatically tagging variable data documents
TWM613280U (zh) 參考單據產生系統
CN112418813A (zh) 基于智能解析识别的aeo资质智能评级管理***、方法及存储介质
TWI768744B (zh) 參考單據產生方法及系統
CN115828856A (zh) 试卷生成的方法、装置、设备和存储介质
WO2022097189A1 (ja) データ処理装置、データ処理方法及びプログラム
CN114626341A (zh) 文档转换方法、装置及存储介质
Tornés et al. Receipt Dataset for Document Forgery Detection
CN114820211B (zh) 理赔资料质检核验方法、装置、计算机设备及存储介质
US20240020328A1 (en) Systems and methods for intelligent document verification
US12014561B2 (en) Image reading systems, methods and storage medium for performing geometric extraction
JP6855641B1 (ja) データ処理装置、データ処理方法及びプログラム
WO2022102065A1 (ja) データ処理装置、データ処理方法及びプログラム
US20240135740A1 (en) System to extract checkbox symbol and checkbox option pertaining to checkbox question from a document
US20240233430A9 (en) System to extract checkbox symbol and checkbox option pertaining to checkbox question from a document
US20230029752A1 (en) Document readability enhancements