TWI793432B - 工程專案文件管理方法與系統 - Google Patents

工程專案文件管理方法與系統 Download PDF

Info

Publication number
TWI793432B
TWI793432B TW109126902A TW109126902A TWI793432B TW I793432 B TWI793432 B TW I793432B TW 109126902 A TW109126902 A TW 109126902A TW 109126902 A TW109126902 A TW 109126902A TW I793432 B TWI793432 B TW I793432B
Authority
TW
Taiwan
Prior art keywords
engineering project
database
natural language
document
project
Prior art date
Application number
TW109126902A
Other languages
English (en)
Other versions
TW202207109A (zh
Inventor
陳介豪
蘇木春
呂紹明
劉金玲
Original Assignee
國立中央大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立中央大學 filed Critical 國立中央大學
Priority to TW109126902A priority Critical patent/TWI793432B/zh
Publication of TW202207109A publication Critical patent/TW202207109A/zh
Application granted granted Critical
Publication of TWI793432B publication Critical patent/TWI793432B/zh

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明關於一種工程專案文件管理方法,其包含:建立包含複數文字的複數電子文件並上傳工程專案文件管理平台;透過該工程專案文件管理平台包含之自然語言解析器以識別該等電子文件所包含的複數關鍵字,並儲存到關鍵字資料庫;按照該等關鍵字並依據關聯法則,將該等電子文件分派給至少一關係人並歸類到至少一工程管理項目;以及提供自然語言文件查詢元件以供使用者經由檢索該關鍵字資料庫中之該等關鍵字而找到對應之電子文件。

Description

工程專案文件管理方法與系統
本發明係有關於一種工程專案文件管理方法與系統,尤其是能夠自動將文件分派給關係人並歸檔,從而實現文件自動化的一套工程專案文件管理方法與系統。
在工程專案進行的過程中,衍生的相關文件極為龐雜,不僅文件類型眾多,如:照片、PDF、word、…等等,且往往涉及眾多利害關係人、工程管理項目也極為細瑣且廣泛,在習用技術中,專案執行的過程中,通常習慣以人為方式將文件資料、或待辦事項分派給關係人,或將相關資料分類至不同的工程管理項目下。
然而在資料量極為龐雜的情況下,經常會發生許多錯誤,例如分派錯誤、分類錯誤、遺漏等問題,其他衍生問題,例如:分派事項難以進行進度追蹤、相關資料之查詢需耗費許多時間等亦會隨之產生,近年來雖然因為科技的進步,而出現許多工程專案平台,以加速文件傳遞流程並建立共同協作模式,或是應用例如自然語言處理技術,試著使文件處理過程能夠盡量自動化。
舉例來說,在習用技術中,已經有劉秉錦等人提出之中華民 國發明專利第I682286號「利用文字解析結果與自然語言輸入的文件搜尋系統」,其揭露利用自然語言處理(natural language processing、NLP)技術應用於文件搜尋系統,此項技術可針對儲存檔案進行關鍵字解析以強化搜尋速度,也可以透過於雲端平台接收使用者輸入含有關鍵字的自然語法進行文件搜尋,以改善文件搜尋之效率,還有「洽吧智能股份有限公司」所提出之中華民國新型專利第M583974號「文件資訊提取歸檔系統」,其揭露透過文字偵測、及文字識別技術來辨識並擷取文件中記載的各種資訊,並將擷取下來的資訊存入所屬的資料庫中使用。
但上述這些習用技術,在針對有關文件的派發及分類的作業上,大多仍採人為進行,不但極為耗時且容易出錯,也缺少在龐大的文件資料中,找出不同資料項目間的相關性,實現共同串連各方關係人之工作流程,並自動紀錄歷程的功能,使得各方關係人之間無法產生交流與連結,也無法清楚的掌握工程進度與施工成本。
職是之故,發明人經過悉心嘗試與研究,並一本鍥而不捨之精神,終構思出本案「工程專案文件管理方法與系統」,能夠克服上述缺點,以下為本發明之簡要說明。
有鑑於習用技術的缺點,本發明提出將自然語言處理技術結合大數據資料探勘、關聯法則與深度學習等技術,使該平台之文件分派及分類工作自動化,提升文件處理之效率,並具備快速搜尋文件等功能;本發明透過自然語言處理技術自動辨識不同檔案類型之文件,並建立關鍵字資料庫,透過關鍵字資料庫與合約利害關係人、工程專案管理等兩項資料 庫建立關聯法則,進而將文件自動分派給關聯的利害關係人並分類至相應之工程專案管理資料庫。另外,透過關鍵字資料庫之建立強化搜尋速度,讓使用者可以雲端互動平台為媒介,輸入自然語言關鍵字進行文件搜尋,減少使用在大量資料庫中所耗費之時間。
本發明提出一種工程專案文件管理方法,其包含:建立包含複數文字的複數電子文件並上傳工程專案文件管理平台;透過該工程專案文件管理平台包含之自然語言解析器以識別該等電子文件所包含的複數關鍵字,並儲存到關鍵字資料庫;按照該等關鍵字並依據關聯法則,將該等電子文件分派給至少一關係人並歸類到至少一工程管理項目;以及提供自然語言文件查詢元件以供使用者經由檢索該關鍵字資料庫中之該等關鍵字而找到對應之電子文件。
較佳的,所述之工程專案文件管理方法還包含以下其中之一:將該等電子文件上傳到文件資料庫中;透過該自然語言解析器所包含之字元偵測元件實施字元偵測以判斷該等文字的所在位置;透過該自然語言解析器所包含之字元辨識元件實施字元辨識以辨識所偵測到的該等文字;透過該自然語言解析器所包含之命名實體識別元件實施命名實體識別以識別所辨識出的該等文字所包含的該等關鍵字;集合所識別出的該等關鍵字建立該關鍵字資料庫;以及提供自然語言文件查詢元件以提供使用者使用自然語言而直接檢索該關鍵字資料庫中的該等關鍵字,並據以連結到所查詢的電子文件,以從該文件資料庫包含的該等電子文件中找到所查詢的電子文件。
較佳的,所述之工程專案文件管理方法還包含以下其中之 一:該字元偵測元件係經由實施型態學操作方法、MSER方法、NMS方法、CTPN方法、SegLink方法、EAST方法、R-CNN方法、快速RCNN方法、PSENet方法及其組合其中之一而偵測到該等文字的所在位置;該字元辨識元件經由實施深度學習方法而辨識所偵測到的該等文字,該深度學習方法係為卷積神經網路、深度卷積神經網路、循環神經網路、卷積遞歸神經網路、卷積遞歸神經網路光學字元辨識、注意力光學字元辨識及其組合其中之一;該命名實體識別元件經由參照該自然語言規則資料集而實施應用基於規則的方法、非監督式學習方法、基於特徵的監督式學習方法、該深度學習方法及其組合其中之一,以建立該關鍵字資料庫;以及該命名實體識別元件經由參照該自然語言規則資料集而實施文本斷詞作業、斷詞標記作業、詞性標記作業、實體標記作業、實體擷取、專名擷取、指代消解作業、關係抽取作業或者語法剖析作業,以建立該關鍵字資料庫。
較佳的,所述之工程專案文件管理方法還包含以下其中之一:建立深度學習資料集,以訓練該深度學習方法並提供該深度學習方法學習;建立自然語言規則資料集,以提供該命名實體識別元件作為參照;以該深度學習資料集以及該自然語言規則資料集作為訓練集,以訓練該深度學習方法;建立關係人資料庫,該關係人資料庫包含複數關係人以及每一該等關係人所對應之關鍵字;建立工程專案資料庫,該工程專案資料庫包含複數工程管理項目以及每一該等工程管理項目所對應之關鍵字;實施關聯法則演算法,以建立該等關鍵字相對於該關係人資料庫中每一該等關係人以及該工程專案資料庫中每一該等工程管理項目之關聯法則;以及應用該深度學習方法優化該關聯法則。
本發明進一步提出一種工程專案文件管理系統,其包含:後端資料層,其供儲存自然語言規則資料集、深度學習資料集、關鍵字資料庫、關係人資料庫、工程專案資料庫以及文件資料庫其中之一;中繼邏輯層,其執行工程專案文件管理平台以及該工程專案文件管理平台包含的自然語言解析器;以及前端展示層,其執行該工程專案文件管理平台包含之前端元件以及自然語言文件查詢元件,其中使用者在使用者裝置上透過該前端元件將包含複數文字的複數電子文件上傳該工程專案文件管理平台,以供該自然語言解析器識別該等電子文件所包含的複數關鍵字,並儲存到該關鍵字資料庫,以便該工程專案文件管理平台按照該等關鍵字並依據關聯法則,將該等電子文件分派給至少一關係人並歸類到工程管理項目,以及透過該自然語言文件查詢元件檢索該關鍵字資料庫中之該等關鍵字而找到對應之電子文件。
上述發明內容旨在提供本揭示內容的簡化摘要,以使讀者對本揭示內容具備基本的理解,此發明內容並非揭露本發明的完整描述,且用意並非在指出本發明實施例的重要/關鍵元件或界定本發明的範圍。
10:本發明工程專案文件管理系統
100:前端展示層
101:桌上型電腦
103:筆記型電腦
105:平板裝置
107:智慧手機
110:使用者裝置
120:使用者
130:文件上傳使用者介面
150:伺服器負載平衡設備
200:中繼邏輯層
250:伺服器負載平衡設備
300:後端資料層
500:本發明工程專案文件管理方法
501-506:實施步驟
第1圖揭示本發明工程專案文件管理系統之系統架構示意圖;
第2圖揭示本發明工程專案文件管理系統之系統運作示意圖;
第3圖揭示本發明工程專案文件管理平台使用之電子文件之示意圖;
第4圖揭示本發明字元偵測元件在文件上標示的矩形文字框之示意圖;
第5圖揭示本發明自然語言解析器所包含的字元偵測元件、字元辨識元件以及命名實體識別元件的模組架構示意圖;
第6圖揭示本發明工程專案文件管理平台經由前端展示層提供給使用者操作的平台使用者介面之示意圖;
第7圖揭示本發明工程專案文件管理系統之運作原理方塊圖;以及
第8圖揭示本發明工程專案文件管理方法之實施步驟流程圖。
本發明將可由以下的實施例說明而得到充分瞭解,使得熟習本技藝之人士可以據以完成之,然本發明之實施並非可由下列實施案例而被限制其實施型態;本發明之圖式並不包含對大小、尺寸與比例尺的限定,本發明實際實施時其大小、尺寸與比例尺並非可經由本發明之圖式而被限制。
本文中用語“較佳”是非排他性的,應理解成“較佳為但不限於”,任何說明書或請求項中所描述或者記載的任何步驟可按任何順序執行,而不限於請求項中所述的順序,本發明的範圍應僅由所附請求項及其均等方案確定,不應由實施方式示例的實施例確定;本文中用語“包含”及其變化出現在說明書和請求項中時,是一個開放式的用語,不具有限制性含義,並不排除其他特徵或步驟。
第1圖揭示本發明工程專案文件管理系統之系統架構示意圖;第2圖揭示本發明工程專案文件管理系統之系統運作示意圖;本發明工程專案文件管理系統10是由後端資料層300、中繼邏輯層200以及前端展示層100等三層架構所組成,後端資料層300包含至少一台或多台資料庫伺服 器,中繼邏輯層200包含至少一台或多台程式伺服器,前端展示層100包含至少一台或多台網頁伺服器,伺服器之間透過網際網路而通訊連結,每一層所包含的多台伺服器彼此之間會透過伺服器負載平衡設備150與250,在連線忙碌時合理分配工作負載,有效利用伺服器容量,加快每一層伺服器之反應速度。
後端資料層300包含的資料庫伺服器主要用於儲存多個資料庫,包含自然語言規則資料集、深度學習資料集、關鍵字資料庫、關係人資料庫、工程專案資料庫以及文件資料庫等,中繼邏輯層200包含的程式伺服器主要用於執行工程專案文件管理平台之後端元件,包含自然語言解析器,自然語言解析器還包含字元偵測元件、字元辨識元件以及命名實體識別元件等。
工程專案文件管理平台包含前端元件與後端元件,前端元件包含前端使用者介面元件以及自然語言文件查詢元件等,後端元件包含自然語言解析器,前端展示層100包含的網頁伺服器主要用於執行工程專案文件管理平台之前端元件,以提供使用者120在使用者裝置110上透過前端使用者介面元件操作工程專案文件管理平台,並存取關鍵字資料庫、關係人資料庫或者工程專案資料庫,使用者裝置110較佳是桌上型電腦101、筆記型電腦103、平板裝置105或是智慧手機107等。
後端資料層300儲存的關係人資料庫,其儲存工程專案中每一位關係人所涉及的關鍵字,以便使關鍵字資料庫與關係人資料庫之間產生關聯,工程專案資料庫則儲存工程專案中所包含的每一個工程管理項目所對應的關鍵字,以便使關鍵字資料庫與工程專案資料庫之間產生關聯, 上述的關鍵字資料庫、關係人資料庫以及工程專案資料庫,是以結構化(structured)資料格式、或是以半結構化(semi-structured)的資料格式,例如:CSV、紀錄檔、XML、JSON等所儲存的二進制文本,或者以非結構化(unstructured)的資料格式,例如:一般的電腦檔案而儲存,以便提供前端元件與後端元件存取、檢索、訓練或學習。
在工程專案進行過程中,衍生的相關文件極為龐雜,不僅電子文件的類型眾多,例如但不限於:jpeg、pdf、doc或是docx等等,且涉及之關係人、工程管理項目極為廣泛,在習用技術中,往往是以人工方式分派各種不同的文件資料,或將待辦事項分派給專案的承辦人,或將相關資料分類至不同的工程管理項目。但這種人工分派的作業方式,在資料量極為龐雜的情況下常常會產生許多錯誤,例如分派錯誤、分類錯誤、遺漏等問題,因此本發明提出的工程專案文件管理平台包含一個自然語言解析器,可以自動識別電子文件中包含的文字或字符,並可執行自動派送給關係人、自動文件分類、以及文件自動歸檔入所屬工程管理項目,以實現文件自動化。
第3圖揭示本發明工程專案文件管理平台使用之電子文件之示意圖;第3圖揭示工程專利進行過程中常見的電子契約文件,但這樣的電子契約文件有可能是WORD檔案的.doc格式上傳到本發明工程專案文件管理平台,也可能是以掃描的PDF檔案的.pdf格式上傳到本發明工程專案文件管理平台,但也很可能是以手機拍照的影像檔案的.jpeg格式上傳到本發明工程專案文件管理平台,僅僅是第3圖所顯示的電子契約文件,就可能以jpeg、pdf或是doc的格式上傳到平台中,電子文件的檔案格式較佳為PDF檔 案格式、Power Point檔案格式、Power Point檔案兼容格式、WORD檔案格式、WORD檔案兼容格式、Excel檔案格式、Excel檔案兼容格式、JPG檔案格式、JPEG檔案格式、或是PNG檔案格式。
第5圖揭示本發明自然語言解析器所包含的字元偵測元件、字元辨識元件以及命名實體識別元件的模組架構示意圖;上述的電子文件中所包含的文字資訊,有可能以字元編碼、文字圖像、或是具有文字圖像的圖片物件等多種型態,儲存在各種類型的檔案當中,為了辨識電子文件中包含的文字,本發明自然語言解析器經配置包含字元偵測元件、字元辨識元件以及命名實體識別元件,自然語言解析器依序執行字元偵測、字元辨識以及命名實體識別等,來對電子文件中包含的文字進行字元辨識與實體識別。
第4圖揭示本發明字元偵測元件在文件上標示的矩形文字框之示意圖;字元偵測元件主要是執行場景字元偵測(scene text detection),場景字元偵測從直觀上來理解,是從文件中找出所有文字或字符在文件中的具體位置,並以矩形文字框標示出找到的文字,字元偵測元件較佳是選擇應用型態學操作方法、MSER方法、NMS方法、CTPN方法、SegLink方法、EAST方法、R-CNN方法、快速RCNN方法、PSENet方法或這些方法的組合來執行場景字元偵測。
字元辨識元件主要是執行場景字元辨識(scene text recognition),場景字元辨識是在文字框標示出的範圍內,對其中包含的文字進行辨識,以提取其中的文字,字元辨識元件較佳可以選擇使用光學字元辨識(OCR)進行前期文字辨識,識別的過程分為兩個步驟:文字切割和分類 作業,先利用投影切割分割出單一字體,再送入卷積層(convolutional layers)進行分類。
在某實施例,本發明選擇使用深度學習之相關技術進行文字辨識,因此得以省略文字切割的步驟,將文字識別轉換為序列學習的問題,雖然輸入的圖片尺度不同,文本長度也不同,但是經過深度卷積神經網路(DCNN)和循環神經網路(RNN)演算之後,輸出階段經過一定的翻譯,就可以對整個文本圖片進行辨識,舉例來說,較佳可選擇卷積遞歸神經網路-光學字元辨識(CRNN-OCR)或是注意力OCR(Attention OCR)來進行場景字元辨識,由於CRNN-OCR與注意力OCR在特徵學習階段都採用卷積神經網路(CNN)加RNN之複合網路結構,故可以直接從序列標籤中學習,而無需詳盡的註釋,不受序列狀對象長度限制,在訓練和測試階段都只需要高度標準化即可,與現有技術相比,在單字辨識上表現更好,佔用較少儲存空間。
命名實體識別元件主要是執行命名實體識別(named entity recognition)任務,又稱專名識別、命名實體,目的是希望從辨識出的文字中,進一步識別出有特定意義的實體或專有名詞,主要涵蓋人名、地名、組織名稱、專有名詞、時間、數字、數量、貨幣、比例數值等可以用專有名詞或名稱來標識的事物或實體,是自然語言解析器中常見的一項任務,使用範圍非常廣;本發明提出的命名實體識別元件經過功能增強,可進一步識別更多實體,例如產品名稱、型號、價格等;所有識別出的實體與專名等,將儲存在後端資料層300而形成關鍵字資料庫。
相對於英文紀錄,單字之間可以空白或其他符號隔開,因而沒有斷詞處理的問題,但是中文句子卻是充滿連貫且無明顯邊界的多個字 元(characters),該如何進行中文句子的斷詞一直是技術上的難題,尤其該如何辨識一詞多意與多詞一義,故本發明使用基於自然語言處理(NLP)的一系列技術,包括文字探勘(Text Mining)、資料探勘等技術,來對相關資料進行前處理,文字探勘技術能從無論是結構化、非結構化或半結構化的文字資料格式中發掘出未知、隱含且有用的資訊,以編輯、組織及分析大量中文,並以詞彙出現的頻率及數量等相關數據進行分析,多應用於趨勢預測、決策輔助等領域。
在某實施例,本發明選擇應用基於規則的方法、非監督式學習方法(unsupervised learning approaches)、基於特徵的監督式學習方法(feature based supervised learning approaches)、深度學習方法(deep learning approaches)等幾類方法,例如但不限於:雙向神經網路(BRNN)-卷積遞歸神經網路(CRNN)方法,來進行專名識別或實體識別的任務。
在某實施例,本發明選擇應用中央研究院開發的斷詞暨實體辨識系統(CoreNLP),作為核心的自然語言處理演算法並進行命名實體識別,配合使用斷詞法則解決中文句斷詞歧義的問題,在某實施例中,中文斷詞法其實施步驟依序包含:初步斷詞、斷詞標記(tagging)、未知詞偵測、中國人名擷取、歐美譯名擷取、複合詞擷取、下而上合併排序法、重新斷詞等步驟,其中斷詞法則主要由一個詞庫與一組斷詞法則構成,詞庫內的詞彙為事先建好且用人工檢視修正過的正確詞彙,用來作為中文字句斷詞的基準詞彙,這些基準詞彙(tokens)構成文本(texts)。
上述斷詞取得基本詞彙(tokens)的過程也稱為文本分詞(text segmentation),當斷詞與標記完成後,還接著需要建立詞性標記 (part-of-speech tagging),以及作為索引(index)的字典,以便將詞彙與文本轉換為處理器可辨識的數字序列(sequence of numbers),以便輸入深度學習技術讀取、辨識、學習和訓練,並建立自然語言規則資料集、以及深度學習資料集等作為訓練集(training set),以訓練自然語言解析器或是提供自然語言解析器學習,訓練集主要是經由實施基於語句規則、監督式、非監督式學習以及深度學習等不同的辨識方法分別建立相應的資料庫,以輔助自然語言辨識單元產出精準的辨識結果。
上述自然語言解析器所包含的字元偵測元件、字元辨識元件以及命名實體識別元件,由於皆採用最先進的深度學習技術,因此需要大量範本資料作為訓練集,以提供自然語言解析器包含的元件進行學習,經過訓練與校正後,自然語言解析器可正確執行包含文字辨識與實體識別等任務,準確率介於90%~95%之間,這些資料訓練集包含例如但不限於:儲存在後端資料層300資料庫伺服器上的自然語言規則資料集以及深度學習資料集等。
當關鍵字資料庫建置完成後,接著需要在關鍵字資料庫與關係人資料庫以及工程專案資料庫之間,建立關聯法則(association rules),使關鍵字資料庫與關係人資料庫之間,以及關鍵字資料庫與工程專案資料庫之間產生關聯,後端資料層300儲存的關係人資料庫包含工程專案中每一位關係人所涉及的關鍵字,工程專案資料庫則包含工程專案中每一個工程管理項目所涉及的關鍵字,經過應用關聯法則演算法分析與計算詞頻之後,就可在關鍵字資料庫與關係人資料庫以及工程專案資料庫之間建立正確對應關係,以便平台根據指令,將文件分派給對應的利害關係人或分類至相 對應的工程管理項目。
舉例來說,關係人資料庫會存放所有關係人過往經手文件所涉及的關鍵字紀錄、詞彙紀錄與文字紀錄等,每筆記錄都有一個可供辨識的欄位,每筆紀錄會包含一筆或多筆的資料項目,關聯法則演算法的資料探勘會從眾多的資料項目集合中,找出經常發生的資料項目集,以判斷資料項目之間的關聯性強度是否足夠,當發生的次數夠多,代表此資料項目集具有某些存在的意義,因此演算法在計算過程當中會給定一個門檻值,較佳稱為支持度(support),以判斷某個資料項目集合發生的頻率是否符合門檻值的依據。
當某資料項目集發生的次數高於支持度,就稱該資料項目集為高頻資料項目集,當某資料項目集合中,同時存在A、B兩個資料項目,且發現的頻率高於支持度的設定,演算法就會判定候選資料項目A、B為高頻資料項目集,資料項目A與B具有關聯性,然後再透過條件機率檢驗此高頻資料項目的信賴度,檢定在資料項目A發生的情況下,B資料項目B同時也會發生的機率,以Support(A∩B)/Support(A)來表示,集合支持度與信賴度皆符合預設標準的所有資料項目,以形成有意義的關聯法則。
在某實施例,本發明選擇應用深度學習類技術來優化關聯法則,本發明所述之深度學習類技術,較佳是指例如但不限於:類神經網路(ANN)、深度神經網路(DNN)、遞歸神經網路(RNN)、卷積神經網路(CNN)、卷積遞歸神經網路(CRNN)、生成對抗網路(GAN)、深度信念網路(DBN)、全卷積神經網路(FCN)、多列卷積神經網路(MCNN)、遞歸神經網路(RNN)、長短期記憶模型(LSTM)、雙向神經網路(BRNN)、深層循環神經網路 (DRNN)、殘差網路(DRN)、限制玻爾茲曼機(RBM)、多層感知(MLP)、自編碼器、注意力網路、集成學習(ensemble learning)、非監督式分類方法、監督式分類方法、提升樹方法、梯度提升樹方法、強梯度提升機方法、弱梯度提升機方法、回歸樹方法、隨機森林方法、決策樹方法、弱學習方法、強學習方法、強投票方法、弱投票方法、支援向量機(support vector machines)分類器、或是基於規則的方法等等。
第6圖揭示本發明工程專案文件管理平台經由前端展示層提供給使用者操作的平台使用者介面之示意圖;本發明工程專案文件管理平台,經由在前端展示層100上執行前端元件,而向使用者提供一系列平台使用者介面,使用者在使用者裝置上透過存取這些平台使用者介面,就可以操作工程專案文件管理平台,並將電子文件上傳工程專案文件管理平台。
如第6圖所揭示,使用者在使用者裝置上啟動瀏覽器(browser),並在網址列輸入正確的統一資源定位符(URL)之後,即可存取第6圖揭示的文件上傳使用者介面130,使用者按照文件上傳使用者介面130中的指示,將電子文件上傳給工程專案文件管理平台,自然語言解析器將自動執行,辨識電子文件中包含的文字,並按照最終識別出來的專名或實體,將文件分派給關係人,並自動歸入所屬之工程專案資料庫之中。
本發明工程專案文件管理平台的前端元件還包含一個自然語言文件查詢元件,其主要是在平台前端元件提供的使用者介面當中,例如:第6圖揭示的文件上傳使用者介面130,嵌入一列查詢欄位,以提供使用者以自然語言輸入語詞,自然語言文件查詢元件將依照所輸入之語詞,執行基於關聯法則之關鍵字偵測演算法,從關鍵字資料庫中找尋符合的關 鍵字,並根據關鍵字資料庫中的指示,連結到文件資料庫中對應的電子文件,然後存取對應的電子文件提供給使用者調閱與查看,使用者能從大量的文件中快速找到需要的文件,大幅減少文件搜索之時間。
第7圖揭示本發明工程專案文件管理系統之運作原理方塊圖;本發明提出之工程專案文件管理系統10,其整體運作原理如第7圖所揭示,首先進行自然語言解析器的學習與訓練,將作為範本的紙本文件,利用拍照、掃描或其他方式電子化為電子文件,或直接建置為電子文件,上傳到位於雲端平台伺服器並作為訓練集,然後配合自然語言規則資料集與深度學習資料集,以訓練自然語言解析器或是提供自然語言解析器學習,以產生關聯法則,並建立關鍵字資料庫、關係人資料庫以及工程專案資料庫。
當自然語言解析器完成學習之後,使用開始將電子文件上傳到本發明工程專案文件管理平台,工程專案文件管理平台收到上傳的電子文件後,自然語言解析器將啟動識別電子文件所包含的各種關鍵字,並將識別出來的關鍵字用來更新關鍵字資料庫,然後按照關聯法則,將電子文件自動派送給關係人,並歸檔入所屬的工程專案的特定工程管理項目,使用者也可以反向透過操作自然語言文件查詢元件,快速找到文件資料庫中對應的電子文件,然後進行後續的存取、調閱或查看,使用者能從大量的文件中快速找到需要的文件,大幅減少文件搜索之時間。
第8圖揭示本發明工程專案文件管理方法之實施步驟流程圖;小結而言,本發明工程專案文件管理方法500,較佳包含下列步驟:建立包含複數文字的複數電子文件並上傳工程專案文件管理平台所屬之文件 資料庫,該工程專案文件管理平台包含自然語言解析器(步驟501);透過該自然語言解析器所包含之字元偵測元件實施字元偵測以判斷該等文字的所在位置(步驟502);透過該自然語言解析器所包含之字元辨識元件實施字元辨識以辨識所偵測到的該等文字(步驟503);透過該自然語言解析器所包含之命名實體識別元件實施命名實體識別以識別所辨識出的該等文字所包含的該等關鍵字,並儲存到關鍵字資料庫(步驟504);按照該等關鍵字並依據關聯法則,將該等電子文件分派給至少一關係人並歸類到至少一工程管理項目(步驟505);以及提供自然語言文件查詢元件以提供使用者使用自然語言直接檢索該關鍵字資料庫中的該等關鍵字,並據以連結到所查詢的電子文件,以從該文件資料庫包含的該等電子文件中找到所查詢的電子文件(步驟506)。
本發明以上各實施例彼此之間可以任意組合或者替換,從而衍生更多之實施態樣,但皆不脫本發明所欲保護之範圍,茲進一步提供更多本發明實施例如次:
實施例1:一種工程專案文件管理方法,其包含:建立包含複數文字的複數電子文件並上傳工程專案文件管理平台;透過該工程專案文件管理平台包含之自然語言解析器以識別該等電子文件所包含的複數關鍵字,並儲存到關鍵字資料庫;按照該等關鍵字並依據關聯法則,將該等電子文件分派給至少一關係人並歸類到至少一工程管理項目;以及提供自然語言文件查詢元件以供使用者經由檢索該關鍵字資料庫中之該等關鍵字而找到對應之電子文件。
實施例2:如實施例1所述之工程專案文件管理方法,還包含 以下其中之一:將該等電子文件上傳到文件資料庫中;透過該自然語言解析器所包含之字元偵測元件實施字元偵測以判斷該等文字的所在位置;透過該自然語言解析器所包含之字元辨識元件實施字元辨識以辨識所偵測到的該等文字;透過該自然語言解析器所包含之命名實體識別元件實施命名實體識別以識別所辨識出的該等文字所包含的該等關鍵字;集合所識別出的該等關鍵字建立該關鍵字資料庫;以及提供自然語言文件查詢元件以提供使用者使用自然語言而直接檢索該關鍵字資料庫中的該等關鍵字,並據以連結到所查詢的電子文件,以從該文件資料庫包含的該等電子文件中找到所查詢的電子文件。
實施例3:如實施例2所述之工程專案文件管理方法,還包含以下其中之一:該字元偵測元件係經由實施型態學操作方法、MSER方法、NMS方法、CTPN方法、SegLink方法、EAST方法、R-CNN方法、快速RCNN方法、PSENet方法及其組合其中之一而偵測到該等文字的所在位置;該字元辨識元件經由實施深度學習方法而辨識所偵測到的該等文字,該深度學習方法係為卷積神經網路、深度卷積神經網路、循環神經網路、卷積遞歸神經網路、卷積遞歸神經網路光學字元辨識、注意力光學字元辨識及其組合其中之一;該命名實體識別元件經由參照該自然語言規則資料集而實施應用基於規則的方法、非監督式學習方法、基於特徵的監督式學習方法、該深度學習方法及其組合其中之一,以建立該關鍵字資料庫;以及該命名實體識別元件經由參照該自然語言規則資料集而實施文本斷詞作業、斷詞標記作業、詞性標記作業、實體標記作業、實體擷取、專名擷取、指代消解作業、關係抽取作業或者語法剖析作業,以建立該關鍵字資料庫。
實施例4:如實施例3所述之工程專案文件管理方法,還包含以下其中之一:建立深度學習資料集,以訓練該深度學習方法並提供該深度學習方法學習;建立自然語言規則資料集,以提供該命名實體識別元件作為參照;以該深度學習資料集以及該自然語言規則資料集作為訓練集,以訓練該深度學習方法;建立關係人資料庫,該關係人資料庫包含複數關係人以及每一該等關係人所對應之關鍵字;建立工程專案資料庫,該工程專案資料庫包含複數工程管理項目以及每一該等工程管理項目所對應之關鍵字;實施關聯法則演算法,以建立該等關鍵字相對於該關係人資料庫中每一該等關係人以及該工程專案資料庫中每一該等工程管理項目之關聯法則;以及應用該深度學習方法優化該關聯法則。
實施例5:如實施例4所述之工程專案文件管理方法,其中該深度學習方法係為類神經網路、深度神經網路、遞歸神經網路、卷積神經網路、卷積遞歸神經網路、生成對抗網路、深度信念網路、全卷積神經網路、多列卷積神經網路、遞歸神經網路、長短期記憶模型、雙向神經網路、深層循環神經網路、殘差網路、限制玻爾茲曼機、多層感知、自編碼器、注意力網路、集成學習、非監督式分類方法、監督式分類方法、基於規則的方法、提升樹方法、梯度提升樹方法、強梯度提升機方法、弱梯度提升機方法、回歸樹方法、隨機森林方法、決策樹方法、弱學習方法、強學習方法、強投票方法、弱投票方法或者支援向量機分類器。
實施例6:如實施例1所述之工程專案文件管理方法,其中該等電子文件係為施工紀錄、施工日誌、施工照片、會議紀錄、督導檢查、自主檢查表或者契約文件。
實施例7:一種工程專案文件管理系統,其包含:後端資料層,其供儲存自然語言規則資料集、深度學習資料集、關鍵字資料庫、關係人資料庫、工程專案資料庫以及文件資料庫其中之一;中繼邏輯層,其執行工程專案文件管理平台以及該工程專案文件管理平台包含的自然語言解析器;以及前端展示層,其執行該工程專案文件管理平台包含之前端元件以及自然語言文件查詢元件,其中使用者在使用者裝置上透過該前端元件將包含複數文字的複數電子文件上傳該工程專案文件管理平台,以供該自然語言解析器識別該等電子文件所包含的複數關鍵字,並儲存到該關鍵字資料庫,以便該工程專案文件管理平台按照該等關鍵字並依據關聯法則,將該等電子文件分派給至少一關係人並歸類到工程管理項目,以及透過該自然語言文件查詢元件檢索該關鍵字資料庫中之該等關鍵字而找到對應之電子文件。
實施例8:如實施例7所述之工程專案文件管理系統,其中該後端資料層包含至少一台或多台資料庫伺服器,該中繼邏輯層包含至少一台或多台程式伺服器,該前端展示層包含至少一台或多台網頁伺服器,其中該等程式伺服器係經由第一伺服器負載平衡設備而分配工作負載,該等網頁伺服器係經由第二伺服器負載平衡設備而分配工作負載。
實施例9:如實施例7所述之工程專案文件管理系統,其中該等電子文件之檔案格式係為PDF檔案格式、Power Point檔案格式、Power Point檔案兼容格式、WORD檔案格式、WORD檔案兼容格式、Excel檔案格式、Excel檔案兼容格式、JPG檔案格式、JPEG檔案格式或者PNG檔案格式。
實施例10:如實施例7所述之工程專案文件管理系統,其中 該使用者裝置係為桌上型電腦、筆記型電腦、平板裝置或者智慧手機。
本發明各實施例彼此之間可以任意組合或者替換,從而衍生更多之實施態樣,但皆不脫本發明所欲保護之範圍,本發明保護範圍之界定,悉以本發明申請專利範圍所記載者為準。
500:本發明工程專案文件管理方法
501-506:實施步驟

Claims (9)

  1. 一種工程專案文件管理方法,係應用於複數電子工程專案文件之文件自動化管理,其包含:透過操作設置於一展示層的一使用者裝置而建立包含複數文字的複數電子工程專案文件並經由操作在該使用者裝置上執行的一前端元件而將該等電子工程專案文件上傳到一工程專案文件管理平台與一文件資料庫中;透過執行設置於一邏輯層的該工程專案文件管理平台包含之一自然語言解析器所包含之一字元偵測元件實施一字元偵測以判斷該等文字的所在位置,執行該自然語言解析器所包含之一字元辨識元件實施一字元辨識以辨識所偵測到的該等文字,以及執行該自然語言解析器所包含之一命名實體識別元件實施一命名實體識別以識別所辨識出的該等文字所包含的該等關鍵字,從而識別出該等電子工程專案文件所包含的複數關鍵字,並儲存到經由實施一命名實體識別方法而預先建立之一關鍵字資料庫;將所識別出的該等關鍵字存入該關鍵字資料庫;透過執行該工程專案文件管理平台包含之一後端元件以存取設置於一資料層的一關聯法則,並按照該等關鍵字並依據該關聯法則,將該等電子工程專案文件分派給至少一關係人並歸類及儲存到至少一工程管理項目;以及提供一自然語言文件查詢元件以供一使用者經由使用自然語言而直接檢索該關鍵字資料庫中之該等關鍵字,以從該文件資料庫包含的該等電子工程專案文件中找到所查詢之電子文件。
  2. 如請求項1所述之工程專案文件管理方法,還包含以下其中之一:該字元偵測元件係經由實施一型態學操作方法、一MSER方法、一NMS 方法、一CTPN方法、一SegLink方法、一EAST方法、一R-CNN方法、一快速RCNN方法、一PSENet方法及其組合其中之一而偵測到該等文字的所在位置;該字元辨識元件經由實施一深度學習方法而辨識所偵測到的該等文字,該深度學習方法係為一卷積神經網路、一深度卷積神經網路、一循環神經網路、一卷積遞歸神經網路、一卷積遞歸神經網路光學字元辨識、一注意力光學字元辨識及其組合其中之一;該命名實體識別元件經由參照該自然語言規則資料集而實施一應用基於規則的方法、一非監督式學習方法、一基於特徵的監督式學習方法、該深度學習方法及其組合其中之一,以建立該關鍵字資料庫;以及該命名實體識別元件經由參照該自然語言規則資料集而實施一文本斷詞作業、一斷詞標記作業、一詞性標記作業、一實體標記作業、一實體擷取、一專名擷取、一指代消解作業、一關係抽取作業或者一語法剖析作業,以建立該關鍵字資料庫。
  3. 如請求項2所述之工程專案文件管理方法,還包含以下其中之一:預先在該資料層中建立一深度學習資料集,以訓練該深度學習方法並提供該深度學習方法學習;預先在該資料層中建立一自然語言規則資料集,以提供該命名實體識別元件作為參照;以該深度學習資料集以及該自然語言規則資料集作為訓練集,以訓練該深度學習方法;預先在該資料層中建立一關係人資料庫,該關係人資料庫包含複數關係人以及每一該等關係人所對應之關鍵字; 預先在該資料層中建立一工程專案資料庫,該工程專案資料庫包含複數工程管理項目以及每一該等工程管理項目所對應之關鍵字;實施一關聯法則演算法,以建立該等關鍵字相對於該關係人資料庫中每一該等關係人以及該工程專案資料庫中每一該等工程管理項目之該關聯法則;以及應用該深度學習方法優化該關聯法則。
  4. 如請求項3所述之工程專案文件管理方法,其中該深度學習方法係為一類神經網路、一深度神經網路、一遞歸神經網路、一卷積神經網路、一卷積遞歸神經網路、一生成對抗網路、一深度信念網路、一全卷積神經網路、一多列卷積神經網路、一遞歸神經網路、一長短期記憶模型、一雙向神經網路、一深層循環神經網路、一殘差網路、一限制玻爾茲曼機、一多層感知、一自編碼器、一注意力網路、一集成學習、一非監督式分類方法、一監督式分類方法、一基於規則的方法、一提升樹方法、一梯度提升樹方法、一強梯度提升機方法、一弱梯度提升機方法、一回歸樹方法、一隨機森林方法、一決策樹方法、一弱學習方法、一強學習方法、一強投票方法、一弱投票方法或者一支援向量機分類器。
  5. 如請求項1所述之工程專案文件管理方法,其中該等電子工程專案文件係為一施工紀錄、一施工日誌、一施工照片、一會議紀錄、一督導檢查、一自主檢查表或者一契約文件。
  6. 一種工程專案文件管理系統,係應用於複數電子工程專案文件之文件自動化管理,其包含: 一後端資料層,其供儲存一自然語言規則資料集、一深度學習資料集、一關鍵字資料庫、一關係人資料庫、一工程專案資料庫以及一文件資料庫其中之一;一中繼邏輯層,其執行一工程專案文件管理平台以及該工程專案文件管理平台包含的一自然語言解析器;以及一前端展示層,其執行該工程專案文件管理平台包含之一前端元件以及一自然語言文件查詢元件,其中一使用者在一使用者裝置上透過該前端元件將包含複數文字的複數電子工程專案文件上傳到該工程專案文件管理平台與該文件資料庫中,以供該自然語言解析器執行所包含之一字元偵測元件實施一字元偵測以判斷該等文字的所在位置,執行所包含之一字元辨識元件實施一字元辨識以辨識所偵測到的該等文字,以及執行所包含之一命名實體識別元件實施一命名實體識別以識別所辨識出的該等文字所包含的該等關鍵字,從而識別出該等電子工程專案文件所包含的複數關鍵字,並儲存到該關鍵字資料庫,以便該工程專案文件管理平台按照該等關鍵字並依據一關聯法則,將該等電子工程專案文件分派給至少一關係人並歸類及儲存到一工程管理項目,以及透過該自然語言文件查詢元件提供該使用者使用自然語言而直接檢索該關鍵字資料庫中之該等關鍵字,以從該文件資料庫包含的該等電子工程專案文件中找到所查詢之電子文件。
  7. 如請求項6所述之工程專案文件管理系統,其中該後端資料層包含至少一台或多台資料庫伺服器,該中繼邏輯層包含至少一台或多台程式伺服器,該前端展示層包含至少一台或多台網頁伺服器,其中該等程式伺服器係經由一第一伺服器負載平衡設備而分配工作負載,該等網頁伺服器 係經由一第二伺服器負載平衡設備而分配工作負載。
  8. 如請求項6所述之工程專案文件管理系統,其中該等電子工程專案文件之檔案格式係為一PDF檔案格式、一Power Point檔案格式、一Power Point檔案兼容格式、一WORD檔案格式、一WORD檔案兼容格式、一Excel檔案格式、一Excel檔案兼容格式、一JPG檔案格式、一JPEG檔案格式或者一PNG檔案格式。
  9. 如請求項6所述之工程專案文件管理系統,其中該使用者裝置係為一桌上型電腦、一筆記型電腦、一平板裝置或者一智慧手機。
TW109126902A 2020-08-07 2020-08-07 工程專案文件管理方法與系統 TWI793432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109126902A TWI793432B (zh) 2020-08-07 2020-08-07 工程專案文件管理方法與系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109126902A TWI793432B (zh) 2020-08-07 2020-08-07 工程專案文件管理方法與系統

Publications (2)

Publication Number Publication Date
TW202207109A TW202207109A (zh) 2022-02-16
TWI793432B true TWI793432B (zh) 2023-02-21

Family

ID=81323352

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109126902A TWI793432B (zh) 2020-08-07 2020-08-07 工程專案文件管理方法與系統

Country Status (1)

Country Link
TW (1) TWI793432B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI823815B (zh) * 2023-05-10 2023-11-21 犀動智能科技股份有限公司 摘要產生方法及系統與電腦程式產品
TWI839316B (zh) * 2023-11-03 2024-04-11 國立中央大學 追蹤系統與整合現有定位系統對接零件之裝置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200719172A (en) * 2005-11-04 2007-05-16 Webgenie Information Ltd Method for automatically detecting similar documents
TW201033823A (en) * 2008-12-09 2010-09-16 Ibm Systems and methods for analyzing electronic text
TWI438639B (zh) * 2011-09-26 2014-05-21 Univ Ming Chuan 分類文件的方法及系統
TW201506650A (zh) * 2013-05-09 2015-02-16 Hon Hai Prec Ind Co Ltd 文件分類系統及方法
CN109583796A (zh) * 2019-01-08 2019-04-05 河南省灵山信息科技有限公司 一种用于物流园区运营分析的数据挖掘***及方法
CN110019018A (zh) * 2017-09-22 2019-07-16 三星Sds株式会社 文件夹推荐方法及文件夹推荐装置
TWM583974U (zh) * 2019-03-21 2019-09-21 洽吧智能股份有限公司 文件資訊提取歸檔系統
CN110413767A (zh) * 2019-08-05 2019-11-05 浙江核新同花顺网络信息股份有限公司 基于自然语言生成呈递内容的***及方法
TWI682286B (zh) * 2018-08-31 2020-01-11 愛酷智能科技股份有限公司 利用文字解析結果與自然語言輸入的文件搜尋系統
TWM590730U (zh) * 2019-06-10 2020-02-11 李蓉芳 基於人工智慧之文件管理系統
CN111475467A (zh) * 2020-03-27 2020-07-31 平安科技(深圳)有限公司 一种文件管理方法、云端文件管理***及终端

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200719172A (en) * 2005-11-04 2007-05-16 Webgenie Information Ltd Method for automatically detecting similar documents
TW201033823A (en) * 2008-12-09 2010-09-16 Ibm Systems and methods for analyzing electronic text
TWI438639B (zh) * 2011-09-26 2014-05-21 Univ Ming Chuan 分類文件的方法及系統
TW201506650A (zh) * 2013-05-09 2015-02-16 Hon Hai Prec Ind Co Ltd 文件分類系統及方法
CN110019018A (zh) * 2017-09-22 2019-07-16 三星Sds株式会社 文件夹推荐方法及文件夹推荐装置
TWI682286B (zh) * 2018-08-31 2020-01-11 愛酷智能科技股份有限公司 利用文字解析結果與自然語言輸入的文件搜尋系統
CN109583796A (zh) * 2019-01-08 2019-04-05 河南省灵山信息科技有限公司 一种用于物流园区运营分析的数据挖掘***及方法
TWM583974U (zh) * 2019-03-21 2019-09-21 洽吧智能股份有限公司 文件資訊提取歸檔系統
TWM590730U (zh) * 2019-06-10 2020-02-11 李蓉芳 基於人工智慧之文件管理系統
CN110413767A (zh) * 2019-08-05 2019-11-05 浙江核新同花顺网络信息股份有限公司 基于自然语言生成呈递内容的***及方法
CN111475467A (zh) * 2020-03-27 2020-07-31 平安科技(深圳)有限公司 一种文件管理方法、云端文件管理***及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
網路文獻 陳威翰、陳介豪 運用自然語言處理技術輔助工程專案合約利害關係人平台之研究 國立中央大學土木系營建管理碩士班 2020/06/05 https://ir.lib.ncu.edu.tw/handle/987654321/82938#.YRTsDYgzaUk,https://hdl.handle.net/11296/qbb7q2 *

Also Published As

Publication number Publication date
TW202207109A (zh) 2022-02-16

Similar Documents

Publication Publication Date Title
CN111708773B (zh) 一种多源科创资源数据融合方法
CN111753099B (zh) 一种基于知识图谱增强档案实体关联度的方法及***
CN102053991B (zh) 用于多语言文档检索的方法及***
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN111680490A (zh) 一种跨模态的文档处理方法、装置及电子设备
TWI743623B (zh) 基於人工智慧的商務智慧系統及其分析方法
TWI793432B (zh) 工程專案文件管理方法與系統
US20200175268A1 (en) Systems and methods for extracting and implementing document text according to predetermined formats
CN113761208A (zh) 一种基于知识图谱的科技创新资讯分类方法和存储设备
CN112307303A (zh) 基于云计算的网络页面高效精准去重***
CN113094512A (zh) 一种工业生产制造中故障分析***及方法
CN115827862A (zh) 一种多元费用凭证数据关联采集方法
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及***
US11574491B2 (en) Automated classification and interpretation of life science documents
CN117667841A (zh) 一种企业数据管理平台及方法
Rogushina et al. Use of ontologies for metadata records analysis in big data
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
CN114417885A (zh) 基于概率图模型的网络表格列类型检测方法
Wu et al. Design of a Computer‐Based Legal Information Retrieval System
Hast et al. Making large collections of handwritten material easily accessible and searchable
Liu IntelliExtract: An End-to-End Framework for Chinese Resume Information Extraction from Document Images
Assaf et al. RUBIX: a framework for improving data integration with linked data
CN117252514B (zh) 基于深度学习和模型训练的建筑物资库数据处理方法
Zhang et al. An Introduction to the Implementation Strategy of Unstructured Data Governance for Aviation Enterprise
CN118331502A (zh) 一种云资源管理方法、装置及电子设备