TWI438637B - 用於擷取及管理社群智慧資訊的系統及方法 - Google Patents

用於擷取及管理社群智慧資訊的系統及方法 Download PDF

Info

Publication number
TWI438637B
TWI438637B TW099129892A TW99129892A TWI438637B TW I438637 B TWI438637 B TW I438637B TW 099129892 A TW099129892 A TW 099129892A TW 99129892 A TW99129892 A TW 99129892A TW I438637 B TWI438637 B TW I438637B
Authority
TW
Taiwan
Prior art keywords
data
data set
training
computer
module
Prior art date
Application number
TW099129892A
Other languages
English (en)
Other versions
TW201115370A (en
Inventor
Chu Fei Chang
Chun Wei Lin
Tai Ting Wu
Chia Hao Lo
tao yang Fu
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Publication of TW201115370A publication Critical patent/TW201115370A/zh
Application granted granted Critical
Publication of TWI438637B publication Critical patent/TWI438637B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

用於擷取及管理社群智慧資訊的系統及方法
本揭露案是有關於擷取及分析線上社群智慧資訊(online collective intelligence information)之領域,且更明確而言,是關於用於自線上社群(online social community)收集與管理資料,且使用有機物件架構(organic object architecture)來提供高品質搜尋結果的系統及方法。
Web 2.0網站允許其使用者彼此互動以成為網站之內容的提供者,而在有些網站上,使用者被限制於僅能被動地觀看提供給他們的資訊。由於能夠建立及更新內容,所以許多網路作者能夠一起協同創作。舉例而言,在維基百科(wikis)中,使用者可擴充、取消及重作彼此之創作。在部落格中,個人之發貼及評論會隨時間而逐漸累積。
社群智慧(social intelligence,SI)是指分析從一群網際網路使用者中所收集之資料的概念,其使人能夠瞭解社會群體中之意見以及過去及未來的行為。為了使線上搜尋引擎(online search engine)能夠提供回應性的線上搜尋結果(responsive online search result),搜尋系統必須有效地擷取及管理來自各種來源之SI資訊。
Web 2.0網站中關鍵詞搜尋(keyword search)是常用的線上搜尋方法的其中之一。然而,關鍵詞搜尋具有若干缺點。關鍵詞搜尋易於過度搜尋,亦即發現非相關文件;且易於搜尋不足,亦即未發現某些相關文件。而且,關鍵詞搜尋之結果通常並不區分不同上下文內之相同關鍵詞。因此,網際網路使用者可能需要花數分鐘或甚至數小時來掃描搜尋結果,以識別有用資訊。關鍵詞搜尋之此等缺點在處理大量SI資訊時甚至更顯著。
本揭露之實施例是針對藉由使用有機物件資料模型來管理收集到的社群智慧資訊,以促進有效線上搜尋且克服上述之問題中之一個或多個。
在一態樣中,本揭露是針對一種用於擷取及管理線上收集到之訓練資料的方法。所揭露之系統的斷詞及整合模組(segmentation and integration module)可接收來自一或多個線上來源的第一資料集合,且對所述第一資料集合進行取樣,並產生第二資料集合,其中第二資料集合包括從第一資料集合中取樣的資料。斷詞及整合模組接著可接收帶標記的第二資料集合。所述系統之主題分類及辨識模組(topic classification and identification module)會將帶標記的第二資料集合分為訓練資料集合與測試資料集合,並依據訓練資料集合來組態機器學習分類器(machine learning based classifier)。主題分類及辨識模組接著會使用所組態的分類器依據訓練資料集合來預測至少一資料點,且計算所述預測之信心評分(confidence score)。主題分類及辨識模組會將至少一所預測的資料點與測試資料集合進行比較,且根據其信心評分來對所預測的資料點進行排序。所預測的資料點可透過人工資料處理人員(human data processor)來檢視,其中若所述資料點被不正確地標記時,則人工資料處理人員會對其進行校正。主題分類及辨識模組接著會接收與所預測的資料點相關聯之經校正訓練資料。
在另一態樣中,本揭露是針對一種用於擷取及改善線上收集到之訓練資料之品質的方法。所述系統之斷詞及整合模組可從一個或多個線上來源中接收多個網頁、多個網頁的人工標記的內容,且將經標記的內容儲存於訓練資料庫(training database)中。此系統的之物件辨識模組(object recognition module)會產生與在多個網頁之內容中識別之附名實體(named entity,NE)相關聯的訓練資料,且將訓練資料儲存於訓練資料庫中。此系統之主題分類及辨識模組會產生與在多個網頁之內容中識別之主題或主題樣式相關聯的訓練資料,且將訓練資料儲存於訓練資料庫中。意見探勘及情感分析模組(opinion mining and sentiment analysis module)會產生與在多個網頁之內容中識別之意見詞(opinion word)或意見樣式(opinion pattern)相關聯的訓練資料,且將訓練資料儲存於訓練資料庫中。最後,斷詞及整合模組會使用以條件隨機域(Conditional Random Field,CRF)為基礎之機器學習方法,並且依據儲存於訓練資料庫中的訓練資料,來對多個網頁的內容進行斷詞。
在又一態樣中,本揭露是針對一種用於擷取及管理線上收集到之訓練資料的系統。此系統包括斷詞及整合模組和主題分類及辨識模組。斷詞及整合模組用以從一個或多個線上來源接收第一資料集合。主題分類及辨識模組用以對第一資料集合進行取樣,且產生第二資料集合,其中第二資料集合包括從第一資料集合中取樣的資料。主題分類及辨識模組會將第二資料集合分成訓練資料集合及測試資料集合,依據訓練資料集合來預測至少一資料點並計算其信心評分,並且將至少一所預測的資料點與測試資料集合進行比較。此外,主題分類及辨識模組會依據所預測的資料點的信心評分對其進行排序,接收與所預測的資料點相關聯的已校正訓練資料,並將已校正訓練資料儲存於訓練資料庫中。
本揭露之系統及方法擷取並管理收集到的社群智慧資訊,以便提供更快且更準確的線上搜尋結果以回應使用者詢問。本揭露之實施例使用有機物件資料模型來提供一架構以擷取及分析自線上社群網路及其他線上群落以及其他網頁收集到的資訊。有機物件資料模型反映由線上社群網路及群落建立之智慧資訊的異質性質。藉由應用有機物件資料模型,本揭露之資訊擷取及管理系統可高效地將大量資訊分類,並根據請求而呈現搜尋到的資訊。
本揭露之實施例包含軟體模組及資料庫,其可由電腦軟體及硬體組件之各種配置來實作。每一軟體及硬體的配置可以是各種電腦儲存媒體、用以執行某些所揭露之功能的各種電腦、各種第三方軟體應用程式以及實施所揭露之系統功能性的軟體應用程式。
圖1a為繪示線上搜尋引擎(online search engine)70之範例硬體架構的方塊圖。線上搜尋引擎70是指任何用以在接收到使用者之搜尋請求後提供線上內容之搜尋結果的軟體及硬體。線上搜尋引擎之熟知範例為Google搜尋引擎。如圖1a所示,線上搜尋引擎70自網際網路10接收使用者之詢問,諸如搜尋請求。線上搜尋引擎70亦可自線上社群中收集SI資訊。線上搜尋引擎70可藉由使用一個或多個伺服器(諸如由Intel生產的一或多個2×300 MHz Dual Pentium II伺服器)來實作。伺服器是指運行伺服器作業系統的電腦,但亦可以是任何能夠提供服務的軟體或專用硬體。
線上搜尋引擎70包含一或多個負載平衡伺服器(load balancing server)20,其可自網際網路10接收搜尋請求,且將所述請求轉發至多個網路伺服器30中的其中之一。網路伺服器30可協調自網際網路10中接收之查詢的執行,格式化從資料搜集伺服器(data gathering server)50中所接收之對應搜尋結果,從廣告伺服器(Ad server)40中擷取廣告清單,且產生搜尋結果以回應於自網際網路10中所接收到之使用者之搜尋請求。廣告伺服器40用以管理與線上搜尋引擎70相關聯的廣告。資料搜集伺服器50用以從網際網路10中收集SI資訊,且藉由為資料編索引或使用各種資料結構來組織收集到的資料。資料搜集伺服器50會將所組織的資料儲存於文件資料庫60中,及從文件資料庫60擷取所組織的資料。在一範例實例中,資料搜集伺服器50可依據有機物件資料模型而託管資訊擷取及管理系統。以下將配合圖1b及圖2來描述有機物件資料模型,並且配合圖3來描述資訊擷取及管理系統。
圖1b為有機物件資料模型100的方塊圖。如圖1b所示,有機物件110可為具有子物件150的附名實體(例如,附名餐館)。子物件150可為繼承其母物件110之特性的附名實體。有機物件110可具有至少三種類型的屬性:自產生屬性(self-producing attribute)120、領域專用屬性(domain-specific attribute)130以及社會屬性(social attribute)140。自產生屬性120包括由物件110本身產生的屬性。領域專用屬性130包括描述物件110之主題領域的屬性。社會屬性140包括由與物件110有關之線上社群所貢獻之經分類的智慧資訊。在一範例實例中,由線上社群貢獻之智慧資訊可為使用者意見,例如關於物件110或其屬性之肯定或否定意見170。經分類之智慧資訊之每一類別可為與一個或多個意見相關聯的主題。主題也可以是社會屬性。
有機物件110包括時間戳記(time stamp)160(TS160),其可使物件110與時間週期或時刻相關聯。TS 160可指示物件壽命週期,其可為物件110之建立與刪除之間的時間週期,或者為物件110之有效時間週期。在另一範例實例中,TS 160可以是與物件110有關之資訊登錄(entry)的建立時間。如圖1b所示,與物件110相關聯之所有屬性(120、130及140)及子物件(150)亦可具有與其相關聯的時間戳記。
圖2提供有機物件200之範例。如圖2所示,附名餐館210(例如,McDonalds)可為有機物件。餐館210之子物件(圖2中未繪示)例如包括在餐館210中供應的不同類型的食物,例如漢堡、炸薯條等。有機物件餐館210之自產生屬性120包含許多資訊,例如餐館210之地址222、餐館210所設定之價格221以及餐館210之促銷活動223(例如,免費贈品224及折扣225)。餐館210之領域專用屬性130包含餐館210供應之菜肴類型231、餐館210之停車空間232等。餐館210之社會屬性140包含餐館210之使用者評論241以及關於諸如氣氛242、服務243、價格244及食物口味245等主題的使用者意見。使用者意見可為負面的(例如,價格太貴)或正面的(例如,服務極佳)。如圖2所示,屬性可與時間戳記(TS)相關聯,以指示其有效時間。
圖3繪示用於從網際網路擷取資訊且使用有機物件模型來組織所述資訊的資訊擷取及管理系統300。資訊擷取及管理系統300會收集由線上社群網路及其他群落提供的社群智慧資訊,藉由應用有機物件資料模型來分類並儲存所收集到的社群智慧資訊。資訊擷取及管理系統300會接收請求搜尋某一資訊(例如,對特定餐館之餐館評論)的使用者詢問。資訊擷取及管理系統300會藉由擷取依據有機物件模型所擷取及組織的資訊來回應使用者詢問。
資訊擷取及管理系統300包括斷詞及整合模組310、物件辨識模組320、物件關係建構模組(object relation construction module)330、主題分類及辨識模組340以及意見探勘及情感分析模組350。資訊擷取及管理系統300可更包括訓練資料庫360、有機物件資料庫380a及專用名詞詞典(lexicon dictionary)380b。訓練資料庫360儲存資料記錄,例如,NE(附名實體)、主題或主題樣式、意見詞以及意見樣式。訓練資料庫360可為物件辨識模組320、主題分類及辨識模組340、意見探勘及情感分析模組350提供訓練資料集合,以促進機器學習程序。訓練資料庫360可接收來自物件辨識模組320、主題分類及辨識模組340、意見探勘及情感分析模組350的訓練資料,以促進機器學習程序。有機物件資料庫380a可儲存有機物件(例如,圖2中的200)。專用名詞詞典380b儲存所辨識的NE(有機物件)、主題(社會屬性)、主題樣式(社會屬性)、意見(社會屬性)、意見樣式(社會屬性)以及由資訊擷取及管理系統300的一個或多個模組所分類的其他資訊。
斷詞及整合模組310會從網際網路中接收網頁370。網頁370可為自線上社群中所收集之任何含有社群智慧資料的網頁。斷詞及整合模組310更會對網頁370中之內容進行斷詞,且識別每一句子中之專用名詞的邊界。舉例而言,中文與英文之間的一個差異為中文句子中的專用名詞不具有清楚的邊界。因此,在處理來自網頁370之任何中文語言內容之前,斷詞及整合模組310需先對句子中之專用名詞進行斷詞。傳統上,軟體應用程式是藉由含有各種語言樣式/文法規則的外掛(plug-in)模組來進行文本(text)的斷詞。線性鏈式條件隨機域(Conditional Random Field,CRF)演算法是用於對文本進行斷詞的改良演算法的其中之一中,其廣泛用於中文詞的斷詞。
CRF方法的其中一個缺點為其在處理快速改變的輸入資料時效能不佳。然而,線上社群網路及群落提供之社群智慧資訊為快速變化的資料。因此,在本範例實施例中,斷詞及整合模組310是使用改良後的機器學習方法,其受益於其他模組(物件辨識模組320、主題分類及辨識模組340以及意見探勘模組350)之機器學習功能來實施改良後的機器學習及斷詞程序。以下圖4至圖13中進一步揭露改良後的機器學習程序的範例。
在一範例實例中,訓練資料庫360是由物件辨識模組320、主題分類及辨識模組340及意見探勘模組350中的訓練程序來更新,以改善訓練資料的品質。來自訓練資料庫360的高品質訓練資料可改善由斷詞及整合模組310所執行之斷詞的準確性。
圖4繪示物件辨識模組320。物件辨識模組320用以識別NE,分類對所識別的NE,且將所分類的NE儲存於專用名詞詞典380b中。專用名詞詞典380b含有多個附名實體專用名詞,例如,食物NE、餐館NE及地理位置NE。斷詞程序495及物件辨識(Object Recognition,NER)程序496分別地包含兩個程序:學習程序及測試程序。在學習程序期間,資訊擷取及管理系統300之模組(例如訓練模組)會從訓練資料庫(例如,資料庫360)中讀取經標記的資料,並計算用於與機器學習有關之數學模型的參數。在學習程序期間,訓練模組亦可依據所計算出的參數以及與機器學習有關的數學模型來組態分類器。分類器是指依據輸入資料的一個或多個屬性將多組輸入資料映射至多個類別的軟體模組。舉例而言,類別是指主題、意見或任何其他依據輸入資料的一個或多個屬性的分類。之後,資訊擷取及管理系統300之模組(亦即,測試模組)會使用分類器來測試新的資料,此操作可稱為測試程序。在測試程序期間,測試模組會將新讀取之資料標記為不同NE,例如餐館、食物類型或地理位置。訓練資料庫360含有領域專用訓練文件,其可被標記以用於不同NE。
如圖4所示,物件辨識模組320會自專用名詞詞典380b及訓練資料庫360中擷取資料。斷詞程序495包含自動斷詞器訓練資料產生模組(auto segmenter training data producing module)450、以CRF為基礎之斷詞器訓練模組(CRF-based segmenter training module)460以及斷詞器測試模組(segmenter testing module) 470。斷詞程序495可實作為斷詞及整合模組310的一部分,或者實作為物件辨識模組320的一部分。當資訊擷取及管理系統300擷取網頁370時,系統300會先執行斷詞程序495以對網頁370之內容進行斷詞。系統300接著會在物件辨識模組320中執行附名物件辨識程序496,以識別內容中的NE。
接下來,物件辨識模組320會使用後處理分類器(post-processing classifier)490來對所辨識之NE進行分類。後處理分類器490會使用NE周圍之句子的上下文來決定NE類別。舉例而言,網頁370可能包含討論在不同地理位置的若干餐館的評論。後處理分類器490會將所辨識之NE分類為至少三個實體類:食物、餐館及地理位置。
如圖4所示,斷詞程序495及物件辨識程序496均包含自動訓練資料產生模組(450及452)。自動訓練資料產生模組450與452會自智慧NE過濾模組(intelligent NE filtering module)440中接收所辨識之NE,並且將接收到的NE儲存於訓練資料庫360中。自動訓練資料產生模組450與452亦可存取儲存於訓練資料庫360中之NE,並將所擷取之NE發送至訓練模組460與485。斷詞程序495及物件辨識程序496均包含以CRF為基礎之訓練模組460及485。另外,以CRF為基礎之訓練模組460與485會使用以N字母組(N-gram)為基礎的NE辨識訓練。CRF是指常用於標記或剖析連續資料(例如,自然語言文本或生物序列)的一種區別機率模型。N字母組是指來自給定順序之n個項目(例如字母、音節等)的子序列。
而且,斷詞程序495及物件辨識程序496均可使用來自於訓練資料庫360之訓練資料,來訓練斷詞器訓練模組460及NE辨識訓練模組485以更佳地識別NE。資料庫360中之訓練資料的品質(例如,以及訓練資料集合之完整性與平衡(資料在類別間之平滑分佈)會影響模組310及320(圖3)之效能。訓練資料的品質可藉由由每一模組所達到之精確度(precision)與召回率(recall)值來量測。
在重複訓練程序之後,以CRF為基礎之斷詞或NE辨識可達成高度的精確度(precision)及完整性(recall)。斷詞模組470接著會對網頁370中之內容進行斷詞,且將所斷詞之內容發送至NE辨識(NE recognition,NER)模組480。NE辨識模組480包括並行的辨識子模組。舉例而言,每一辨識子模組可識別一個類之NE。若NE包含三個類之NE(諸如食物、餐館及地理位置),則NE辨識模組480可實作三個子模組來識別每一類之NE(食物名稱、餐館名稱及地理位置)。NE辨識模組480接著會識別NE,且接著將NE發送至後處理分類器490。
若來自於NE辨識模組480之輸出是不明確的,則後處理分類器490會仲裁所述結果。舉例而言,若兩個NE辨識子模組(例如,一個用於食物,一個用於餐館)分別地將一個NE(例如,美式大餛飩)映射至有機物件資料模型中,則後處理分類器490會使用NE周圍之句子上下文來決定其正確的類別(例如,「美式大餛飩」是指食物本身,或是由句子中之餐館供應的一道菜)。後處理分類器490會將NE分類為多個類別(例如,食物名稱、餐館名稱及地理位置),且將所識別之NE發送至智慧NE過濾模組440。
如圖4所示,智慧NE過濾模組440會判定由NE辨識模組480識別的最佳品質物件,且發送欲儲存於訓練資料庫360中的新識別之NE(物件)。智慧NE過濾模組440亦可將新識別之NE加入至專用名詞詞典380b。智慧NE過濾模組440更會將所識別的NE發送至NE辨識模組480中。圖5繪示由智慧NE過濾模組440(包含其與系統300之其他組件的介面)之範例實施方案所執行之程序的方塊圖。
如圖5所示,智慧NE過濾模組440會使用N字母組合併演算法510來識別NE樣式。NE樣式是指NE在各種句子中之置放,包含其詞長度(例如,詞中之字元的數目)以及與鄰近於其之其他詞的相對位置。智慧NE過濾模組440可藉由檢查與NE相關聯之句子中之時間戳記及位置來判定各種NE樣式的頻率(term frequenc,TF)(520)。TF是指NE或NE樣式在一特定時間週期內的出現頻率。如圖5所示,智慧NE過濾模組440會判定每一NE樣式在當前時間週期中(530)及所有時間歷程中(540)的TF,以濾出過時的NE。接下來,依據所計算出的TF,智慧NE過濾模組440可判定哪些NE樣式是正確的(例如,高於臨限值之TF),且發送所選擇之NE樣式以由後續程序作進一步檢查(步驟550)。智慧NE過濾模組440亦可對欲監視之不明確NE樣式(例如,低於臨限值之TF)進行分組(560及575)。智慧NE過濾模組440會接著在其識別出正確的NE樣式時使用此監視結果(575及550)。
為了進一步分析正確的NE樣式(570),智慧NE過濾模組440會計算置信心值(580)、可信賴值(582),並偵測NE樣式之邊界(584)。以下將配合圖6及圖7作進一步描述。智慧NE過濾模組440會接著檢查NE樣式之信心值,且例如若信心值高於臨限值時,則發送欲儲存於專用名詞詞典380b中或欲加入至訓練資料庫360中之NE樣式。智慧NE過濾模組440會類似地檢查NE樣式之可信賴值(582),且將NE樣式發送至自動NER訓練資料產生模組452中,以儲存為存於訓練資料庫360中之訓練資料的一部分。智慧NE過濾模組440亦會判定NE之邊界,並計算NE邊界(584)之信心值,且使用此邊界以在句子中識別正確的NE(496)。智慧NE過濾模組440接著會將所識別之NE發送至後處理分類器490,後處理分類器490又可對NE進行分類,並發送欲儲存於專用名詞詞典380b中的NE。或者,智慧NE過濾模組440亦可將正確的NE直接發送儲存至專用名詞詞典380b(586)。
圖6繪示用於計算可信賴值及信心值的程序600的範例。如圖6所示,智慧NE過濾模組440會識別具有在2個字元與6個字元之間的樣式長度的N字母組樣式(610)。智慧NE過濾模組440會根據NE樣式之長度對所有NE樣式進行排序,且接著更根據在文件中出現的頻率來對結果清單進行排序(620)。智慧NE過濾模組440亦可依據NE樣式之出現頻率來計算NE樣式信心值(見圖6,660)。依據NE樣式之信心值,智慧NE過濾模組440會檢查NE樣式第一次出現的時間戳記,以及其在某一時間週期內的出現頻率。舉例而言,若NE樣式出現過期,則智慧NE過濾模組會將過期的NE自訓練資料庫360刪除,以改善訓練資料的品質。
智慧NE過濾模組440接著會檢查某些NE樣式是否可合併(640)。對於經合併之NE樣式,智慧NE過濾模組440會根據預合併NE之出現頻率來判定可信賴值(640)。圖7繪示NE樣式可信賴值的計算範例,其反映NE辨識在某一時間週期內的可靠性。如圖7所示,為了判定可信賴值,智慧NE過濾模組440會先自NE提取字首碼、字中間碼及字尾碼N字母組特徵(710)。舉例而言,中文NE「意大利麵」具有字首碼「意大」、字中間碼「大利」以及字尾碼「利麵」作為其雙字母組特徵。接下來,智慧NE過濾模組440可判定所提取之特徵是否屬於特定領域(例如,餐飲)之特徵組(720)。之後,智慧NE過濾模組440會依據N字母組特徵之長度及其出現頻率來計算每一所提取之特徵的權重(730)。接下來,智慧NE過濾模組440會根據N字母組特徵之權重來判定可信賴值(740)。另外,藉由計算字首碼、字中間碼及字尾碼之可信賴值,智慧NE過濾模組440亦可判定新NE之邊界。如圖7所示,若特定NE樣式之可信賴值較低,則藉由人工資料處理人員(例如,資料錄入員)來檢視資料並校正N字母組特徵或特徵之出現頻率(750)。
圖8繪示主題分類及辨識模組340的範例方塊圖。主題分類及辨識模組340會分析從斷詞及整合模組310中接收之已斷詞的網頁內容以識別線上社群所討論之主題,用所識別之主題來標記每一句子及段落,並且將所識別並標記之主題發送至斷詞及整合模組310以進一步地分析。如圖8所示,主題分類及辨識模組340會根據儲存於有機物件資料庫380a中之有機物件資料以及專用名詞詞典380b中之主題及意見而從訓練資料庫360中之句子提取主題樣式(810)。接下來,主題分類及辨識模組340可藉由移除通常與句子中所討論之主題無關的停止詞及其他常用詞來減小所提取之主題樣式長度(820)。接下來,主題分類及辨識模組340可藉由人工標記以建立階層式主題樣式分組(步驟830)。舉例而言,請參照圖2,使用者檢視241可為一寬泛主題,其包含更多特定主題:氣氛242、服務243、價格244以及味道245。主題分類及辨識模組340可將氣氛242、服務243、價格244以及味道245分組成四個主題樣式群組。
接下來,主題分類及辨識模組340會計算兩個主題之間的語意相似性(840)。圖9繪示語意相似性計算的範例。如圖9所示,主題i及j可由主題語意向量Vi 及Vj 表示,其中主題i與j之間的語意相似性可界定為:
相似性(Vi ,Vj )=cos(Vi ,Vj )=cosΘ
假設dave 為一組主題中之主題之間的平均相似性,則當主題分類及辨識模組340判定主題1與主題n之間的語意相似性dn 大於dave 時,其可確定主題n為新主題。在所揭露之範例中,主題分類及辨識模組340在計算語意相似性(840)之前會對主題樣式進行分組(830),以改善新主題偵測之準確性。
請再參照圖8,在計算語意相似性(840)之後,主題分類及辨識模組340會將主題樣式、主題語意向量以及語意相似性儲存於一個或多個表格中(860)。如圖8所示,主題分類及辨識模組340會將所識別之主題樣式加入至訓練資料庫360中,以用作為訓練資料。
如圖8所示,主題分類器模組870會匹配儲存於主題樣式表格861中之主題樣式,並依據儲存於主題語意向量表格862及語意相似性表格863中之資料來檢查語意相似性,藉此來處理所斷詞的網頁370(由斷詞及整合模組310斷詞)。之後,主題分類器模組870會對網頁370之內容中之主題進行分類,並偵測內容中之新主題。最後,主題分類及辨識模組340會標記並組成與網頁370上之每一句子有關的主題,並依據段落中之句子之主題來判定每一段落之主題(880)。主題分類及辨識模組340會將句子主題及段落主題發送至斷詞及整合模組310中,以作進一步的處理。
圖10繪示由主題分類及辨識模組340實作之用於收集及改善訓練資料集合之品質的程序1000的範例。其他模組,例如物件辨識模組320及意見探勘模組350,可使用類似的程序來改善訓練資料品質。如圖10所示,資訊擷取及管理系統300會以原始訓練資料集合來開始(1010),例如從線上社群網路之網頁收集之較大數目之句子及段落。舉例而言,原始資料集合可包含50,000個句子。接下來,資料擷取及管理系統300會對來自原始資料集合之句子進行取樣(例如,對每10個句子中的其中之一進行取樣)(1020)。例如,人工資料處理人員(例如資料錄入員)會藉由標記5,000個樣本句子中之主題來標記所取樣之資料集合,並將所標記之資料儲存於訓練資料庫360中(1030)。之後,資料擷取及管理系統300會驗證並校正人工標記之資料集合(1040)。
圖11繪示由主題分類及辨識模組340實作之驗證及校正程序1040的範例。資料擷取及管理系統300會接收經人工標記的資料集合1110,其中於每一句子中標記出一個或多個主題。所標記之資料集合1110包括一個或多個經標記之句子。主題分類及辨識模組340接著會識別五組句子,例如,句子組1111至1115。每一句子資料集合(1111至1115)包括一個或多個句子。主題分類及辨識模組340接著會使用四組經標記的資料集合1111至1114作為訓練資料集合1116,且使用第五資料集合1115作為測試資料集合1117。資料擷取及管理系統300會藉由透過SVM(Support Vector Machine,SVM)訓練器1120來處理1116中的四個句子資料集合以處理訓練資料集合1116。SVM訓練器1120可使用SVM模型1130。SVM模型1130可為作為空間中之點的資料樣本的呈現,其係映射以使得單獨類別之樣本可由清楚的間隙來區分。接下來,主題分類及辨識模組340會使用根據訓練資料集合1116所計算之SVM參數來組態SVM分類器1140。主題分類及辨識模組340會使用經組態之SVM分類器1140來預測第五資料集合1115中之句子是否關於一個或多個預定之主題。SVM分類器1140會產生預測之句子組1150,其包括資料集合1115中之句子以及針對資料集合1115中之句子所預測之主題。SVM分類器1140會標記針對所預測之組1150中之句子而預測的主題。所預測之組1150包括針對資料集合1115中之句子所預測的一個或多個主題的信心值評分。
如圖11所示,主題分類及辨識模組340會使用驗證器1160來將測試資料集合1117(其與資料集合1115相同)與所預測之資料集合1150進行比較,以判定經人工標記之第五資料集合1115是否為與所預測之資料集合中之主題相同的主題。驗證器1160將1117中與1150預測答案不同之資料,按照SVM預測之信心值排序,產生一排序集合1170。接下來,人工資料處理人員會檢視並校正經排序之信心值評分之序列中的不一致集合(1180)。亦即,人工資料處理人員會先檢視並校正具有最高信心值評分之錯誤預測的資料點(例如,所預測之主題)。人工資料處理人員接著會將所校正之資料傳回至經標記之資料樣本檔案。
圖11中所描述之程序的範例可在經標記之資料集合1110之各種群組中重複。舉例而言,主題分類及辨識模組340可將經標記之資料集合1111分為五個群組(例如,11111、11112、11113、11114及11115)。主題分類及辨識模組340可使用上述之程序(1120、1130、1149、1150、1160、1170及1180),藉由使用資料集合11111、11112、11113及11114作為訓練資料集合1116,且使用資料集合11115作為測試資料集合1117來交叉證實經標記之資料集合1111,以驗證資料集合1111是否被正確地標記。
返回至圖10,在驗證並校正所標記之資料集合之後,主題分類及辨識模組340會藉由檢查交叉驗證結果(例如,主題預測之校正百分比)以評定SVM預測在與人工標記之樣本資料集合相比時的準確性來評估資料集合之品質(1050)。舉例而言,主題分類及辨識模組340可為交叉驗證校正百分比設定臨限值。當經標記之資料集合與所預測之集合的交叉驗證低於臨限值時,則主題分類及辨識模組340會對更多輸入資料進行取樣(1020)以及重新處理經取樣之資料(1030及1040)。若交叉驗證校正百分比達到給定臨限值時,則主題分類及辨識模組340會將所標記之資料集合1060輸出至訓練資料庫360。因此,藉由上述程序來測試並改善訓練資料的品質。
圖12a繪示由意見探勘及情感分析模組350實作之意見探勘程序1210的範例。意見探勘及情感分析模組350可從斷詞及整合模組310(圖3)中接收經斷詞的文件及句子主題,以供進一步處理。意見探勘及情感分析模組350包括以CRF為基礎之意見詞及樣式探測器模組(CRF-based opinion words and patterns explorer module)1220。意見詞及樣式探測器模組1220會在以CRF為基礎之演算法中使用儲存於專用名詞詞典380b(圖4)中之主題樣式及NE,以在所斷詞之文件中識別意見詞、意見樣式及否定詞/樣式。意見詞及樣式探測器模組1220會將意見詞、意見樣式及否定詞/樣式儲存於表格1222、1224及1226(其可為訓練資料庫360之一部分)中。在每一表格中,意見詞及樣式探測器模組1220更會將詞/樣式分類成:Vi (獨立動詞)、Vd (後面需要跟有意見詞之動詞)、Adj(後面需要跟有意見詞之形容詞)以及Adv(強調或降低強調一意見之)副詞。表格1222、1224及1226亦可儲存由人工資料處理人員所標記之意見、意見樣式/片語之傾向。
如圖12a所示,意見探勘及情感分析模組350會根據儲存於專用名詞詞典380b中之主題樣式、意見詞1222、意見樣式/片語1224以及儲存於資料庫360中之否定詞1226來識別以主題為基礎且以意見為依據的句子。根據所識別之意見詞、意見樣式及否定詞,意見探勘及情感分析模組350可使用意見探勘分類器(opinion mining classifier)1280來判定句子中之意見為正面抑或負面,並根據Vi 、Vd 、Adj及Adv之強度來計算意見決策評分(1260),意見探勘分類器1280包括機器學習分類器1240(例如,實作SVM或Nave Bayes演算法的分類器)以及以文法及規則為基礎之分類器1250。結合圖11之討論所描述的SVM分類器1140為機器分類器1240的其中一個範例。
以規則為基礎之分類器1250會使用含有語言樣式及文法規則(例如,儲存於有機物件資料庫380a及專用名詞詞典380b(圖3)中之語言樣式)之一個或多個外掛模組,以幫助判定意見之傾向。意見探勘分類器1280亦可計算意見詞或意見樣式之信心值。對於具有較低信心值評分之意見或意見樣式,可藉由人工資料處理人員,來檢視且可能地校正意見之傾向,且將所校正之意見詞或樣式加入至儲存於表格1222、1224及1226中之訓練資料集合中。
接下來,意見探勘及情感分析模組350會根據段落中之每一句子之決策評分(例如,一段落中之句子之平均評分)來計算所述段落之意見決策評分。圖12b繪示由意見探勘及情感分析模組350實作的意見探勘測試程序的範例。測試網頁370會透過斷詞及整合模組310發送至意見探勘分類器(1240及1250)。根據所識別之以主題為基礎且以意見為依據的句子1230,意見探勘分類器1240及1250可判定句子中之意見為肯定抑或否定,且根據Vi 、Vd 、Adj及Adv之強度來計算意見決策評分(1310)。接下來,意見探勘及情感分析模組350會根據段落之每一句子中所識別之意見的決策評分來計算所述段落的意見決策評分(1320)。意見探勘及情感分析模組350會將與句子、段落相關聯之意見以及與有機物件相關聯之意見輸出至斷詞及整合模組310,以供進一步處理。
請再參照圖3,物件關係建構模組(object relationship construction module)330會建構兩種類型的關係:母物件與子物件之間的關係,以及兩個子物件之間的關係。在一範例中,物件關係建構模組330會使用網頁之佈局及內容來確定母物件與子物件之間的關係。物件關係建構模組330亦可使用自然語言剖析器(Parser)來分析兩個子物件之間的關係。
主題分類及辨識模組340(圖8)以及意見探勘及情感分析模組350(圖12a)可藉由使用類似的軟體架構來實作。圖12c提供可用於實作主題分類及辨識模組340以及意見探勘及情感分析模組350的軟體架構的範例。如圖12c所示,主題分類及辨識模組340或意見探勘及情感分析模組350會根據儲存於有機物件資料庫380a及專用名詞詞典380b中之主題樣式及意見詞來提取主題或意見詞。
根據所提取之意見詞及意見樣式,例如,意見探勘分類器1280可藉由匹配儲存於意見詞表格1222或意見樣式表格1224中之意見詞及意見樣式,並且根據儲存於表格1226中之資料檢查否定詞或特殊文法規則,來處理所斷詞的網頁(由斷詞及整合模組310斷詞)。表格1222、1224及1226可為訓練資料庫360的一部分。根據所識別之意見詞、意見樣式及否定詞,意見探勘及情感分析模組350可使用包含機器學習分類器1240(例如,實施SVM或Nave Bayes演算法的分類器)以及以文法及規則為基礎之分類器1250的意見探勘分類器1280,來判定句子中之意見為肯定抑或否定,並根據Vi 、Vd 、Adj及Adv之強度來計算意見決策評分(1260)。以規則為基礎之分類器1250可使用含有語言樣式及文法規則(例如,儲存於有機物件資料庫380a及專用名詞詞典380b(圖3)中之資料)的一個或多個外掛模組來幫助判定意見之傾向。意見探勘分類器1280亦可計算意見詞或意見樣式之信心值。對於具有較低信心值評分之意見或意見樣式,可藉由人工資料處理人員來檢視且可能地校正意見之傾向,並且可將所校正之意見詞或樣式加入至儲存於表格1222、1224及1226中之訓練資料集合。
根據所提取之主題,主題分類器870可藉由匹配儲存於主題樣式表格861中之主題樣式,並檢查根據儲存於主題語意向量表格862及語意相似性表格863中之資料來檢查語意相似性,以處理所斷詞的網頁(由斷詞及整合模組310斷詞)。表格861、862及863可為訓練資料庫360之一部分。接著,主題分類器模組870會對網頁之內容中之主題進行分類,並偵測內容中之新主題。最後,主題分類及辨識模組340會標記並組成與網頁上之每一句子有關的主題,並根據段落中之句子之主題來判定每一段落之主題(880)。主題分類及辨識模組340會將句子主題及段落主題發送至斷詞及整合模組310,以供進一步處理。
在圖3中,斷詞及整合模組310會接收並處理來自所有其他模組之輸入資料,並將所擷取之有機物件資料儲存於有機物件資料庫380a中。圖13繪示斷詞及整合模組310的範例。
如圖13所示,斷詞及整合模組310會使用專用名詞詞典380b(儲存NE、主題、意見樣式等)作為以CRF為基礎之斷詞器訓練模組460及斷詞器470(見圖4)的外掛程式,以改善斷詞之準確性。專用名詞詞典380b之外掛程式會向斷詞器470提供NE、主題、意見樣式,以幫助斷詞器470辨識樣式。如上所述,專用名詞詞典380b中之內容可由物件辨識模組320、主題分類及辨識模組340以及意見探勘模組350(經由模組介面1330)更新。如圖13所示,此等模組亦可經由模組介面1330將所斷詞之結果、所發現之物件、主題及意見1310發送至斷詞及整合模組310。整合模組1340會監視其他模組之工作狀態(1342),並提供對其他模組之更新(1344)。整合模組1340更將經由模組介面1330自其他模組接收之資料(NE、主題、意見樣式等)整合至有機物件資料模型100中,並將物件資料儲存於專用名詞詞典380b中。
熟習此項技術者將明瞭,可在用於自線上社群及群落擷取社群智慧的系統及方法中作出各種修改及變化。舉例而言,在考慮所揭露之實施例之後,熟習此項技術者將瞭解,可使用資料庫之不同組態來儲存用於有機物件資料模型之訓練資料以及專用名詞詞典。另外,在考慮所揭露之實施例之後,熟習此項技術者將瞭解,可使用各種機器學習演算法來識別在有機物件資料模型中定義之NE、主題及意見。另外,在考慮所揭露之實施例之後,熟習此項技術者亦將瞭解,所揭露之有機物件資料模型可應用於除線上社群智慧之外的資訊(例如,備用資料庫或紙質出版物中之大量資料)。而且,在考慮所揭露之實施例之後,熟習此項技術者將進一步瞭解,可借助各種軟體/硬體組態,藉由使用各種電腦伺服器、電腦儲存媒體以及軟體應用程式來實施所揭露之實施例。因此,雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,故本發明之保護範圍當視後附之申請專利範圍所界定者為準。
10...網際網路
20...負載平衡伺服器
30...網路伺服器
40...廣告伺服器
50...資料搜集伺服器
60...文件資料庫
70...線上搜尋引擎
100...有機物件資料模型
110...有機物件(母物件)
120...自產生屬性
130...領域專用屬性
140...社會屬性
150...子物件
160...時間戳記
170...肯定或否定意見
200...有機物件
210...附名餐館
221...價格
222...地址
223...促銷活動
224...免費贈品
225...折扣
231...菜肴類型
232...停車空間
241...使用者評論
242...氣氛
243...服務
244...價格
245...食物口味
300...資訊擷取及管理系統
310...斷詞及整合模組
320...物件辨識模組
330...物件關係建構模組
340...主題分類及辨識模組
350...意見探勘及情感分析模組
360...訓練資料庫
370...網頁
380a...有機物件資料庫
380b...專用名詞詞典
440...智慧NE過濾模組
450...自動斷詞器訓練資料產生模組
452...自動NER訓練資料產生模組
460...以CRF為基礎之斷詞器訓練模組
470...斷詞模組
480...NE辨識模組
485...以CRF為基礎之NER訓練模組
490...後處理分類器
495...斷詞程序
496...物件辨識程序
861...主題樣式表格
862...主題語意向量表格
863...主題相似性表格
870...主題分類器模組
1010、1020、1030、1040、1050、1060...用於收集及改善訓練資料集合之品質的程序
1110...經人工標記的資料集合
1111...句子組/經標記的資料集合
1112...句子組/經標記的資料集合
1113...句子組/經標記的資料集合
1114...句子組/經標記的資料集合
1115...句子組/經標記的資料集合
1116...訓練資料集合
1117...測試資料集合
1120...SVM訓練器
1130...SVM模型
1140...SVM分類器
1150...句子組/資料集合
1160...驗證器
1210...意見探勘程序
1220...以CRF為基礎之意見詞及樣式探測器模組
1222...表格
1224...表格
1226...表格
1240...機器學習分類器/意見探勘分類器
1250...以文法及規則為基礎之分類器/意見探勘分類器
1260...意見決策評分
1270...意見決策評分
1280...意見探勘分類器
1310...經斷詞之結果、所發現之物件、主題及意見
1330...模組介面
1340...整合模組
圖1a為繪示線上搜尋引擎硬體架構的範例方塊圖。
圖1b為繪示有機物件資料模型的範例方塊圖。
圖2為繪示有機資料物件的範例方塊圖。
圖3為繪示以有機物件資料模型為基礎之資訊擷取及管理系統的範例方塊圖。
圖4為會次圖3所示之資訊擷取及管理系統之物件辨識模組的程序的範例流程圖。
圖5為說明藉由圖3所示之物件辨識模組來應用N字母組合並演算法的程序的範例流程圖。
圖6為繪示應用N字母組合併演算法的程序的範例示意圖。
圖7為繪示物件辨識模組中所使用之信賴值之計算的範例示意圖。
圖8為繪示圖3所示之主題分類及辨識模組的範例方塊圖。
圖9為繪示主題分類及辨識模組所應用之語意相似性的計算的範例。
圖10為繪示由主題分類及辨識模組實施之用於收集及改良訓練資料之品質的程序的範例流程圖。
圖11為繪示由主題分類及辨識模組實施之用於收集及改善訓練資料之品質的程序的更詳細之範例方塊圖。
圖12a為繪示圖3所示之意見探勘及情感分析模組的範例方塊圖。
圖12b為說明由意見探勘及情感分析模組實施之測試程序的範例方塊圖。
圖12c為繪示可用於實施主題分類及辨識模組以及意見探勘及情感分析模組的架構的範例方塊圖。
圖13為繪示圖3所示之斷詞及整合模組的範例方塊圖。
300...資訊擷取及管理系統
310...斷詞及整合模組
320...物件辨識模組
330...物件關係建構模組
340...主題分類及辨識模組
350...意見探勘及情感分析模組
360...訓練資料庫
370...網頁
380a...有機物件資料庫
380b...專用名詞詞典

Claims (21)

  1. 一種用於擷取及管理線上收集之訓練資料的方法,所述方法包括:藉由用以擷取及管理一社群智慧資訊的一電腦來接收來自一個或多個線上來源的一第一資料集合;藉由所述電腦對所述第一資料集合進行取樣,且產生第二資料集合,其中所述第二資料集合包含自所述第一資料集合取樣的一資料;藉由所述電腦接收具有預定義標籤的一經標記第二資料集合;藉由所述電腦將所述經標記第二資料集合分為一訓練資料集合及一測試資料集合;藉由所述電腦根據所述訓練資料集合來組態一分類器;藉由所述分類器根據所述訓練資料集合來預測至少一資料點,且計算與所預測之所述至少一資料點相關聯的至少一信心值評分,其中所述至少一信心值評分是以所述至少一資料點的出現頻率為基礎並且所述至少一資料點是以N字母組合併演算法來被識別;藉由所述電腦將所預測之所述至少一資料點與所述測試資料集合進行比較;藉由所述電腦根據所預測之所述至少一資料點之所述信心值評分對其進行排序;以及藉由所述電腦接收與所預測之所述至少一資料點相 關聯的一經校正訓練資料。
  2. 如申請專利範圍第1項所述之方法,更包括:藉由所述電腦訓練一軟體模組,以根據所述訓練資料集合來預測一類別。
  3. 如申請專利範圍第2項所述之方法,更包括:藉由所述電腦在當根據所述訓練資料集合預測所述類別時使用一SVM模型。
  4. 如申請專利範圍第3項所述之方法,更包括:藉由所述電腦實作一SVM分類器以根據所述訓練資料集合來預測所述類別。
  5. 如申請專利範圍第4項所述之方法,更包括:藉由所述電腦重複所述接收第一資料集合、所述取樣、所述劃分、所述預測以及所述比較的步驟,以識別多個預測資料點。
  6. 如申請專利範圍第5項所述之方法,更包括:藉由所述電腦根據所述預測資料點的信心值評分來排序所述預測資料點。
  7. 如申請專利範圍第4項所述之方法,更包括:藉由所述電腦,根據所預測的所述至少一資料點與所述測試資料集合的交叉驗證,來評估所述訓練資料的品質。
  8. 一種用於擷取及管理線上收集之訓練資料的方法,所述方法包括:藉由用以擷取及管理一社群智慧資訊的一電腦來接收來自一個或多個線上來源的一第一資料集合; 藉由所述電腦對所述第一資料集合進行取樣,且產生一第二資料集合,其中所述第二資料集合包含自所述第一資料集合取樣的一資料;藉由所述電腦接收所述第二資料集合之一經標記版本;藉由所述電腦根據所述第二資料集合中的一個或多個其他資料點預測一第一資料點,且將所預測的所述第一資料點與其在所述第二資料集合之所述經標記版本中的對應資料點進行比較,藉此來交叉驗證所述第二資料集合;藉由所述電腦計算與所預測之所述第一資料點相關聯的一信心值評分,其中所述信心值評分是以所述第一資料點的出現頻率為基礎並且所述第一資料點是以N字母組合併演算法來被識別;藉由所述電腦根據所預測之所述第一資料點之所述信心值評分排序所述第一資料點;藉由所述電腦接收與所預測之所述至少一資料點相關聯的一經校正訓練資料;藉由所述電腦評估所述經標記第二資料集合的一品質量度;以及若所述經標記第二資料集合之所述品質量度低於臨限值,則藉由所述電腦重複所述接收第一資料集合、所述取樣、所述接收所述第二資料集合之經標記版本、所述交叉驗證、所述計算、所述排序、所述接收所述經校正訓練資料以及所述評估所述經標記第二資料集合之品質量度的 步驟。
  9. 如申請專利範圍第8項所述之方法,其中所述交叉證實更包括:藉由所述電腦將所述第二資料集合分為一訓練資料集合及一測試資料集合;藉由所述電腦根據所述訓練資料集合來預測所預設之所述第一資料點,且計算所述相關聯的信心值評分;以及藉由所述電腦將所預測之所述第一資料點與所述測試資料集合進行比較。
  10. 如申請專利範圍第8項所述之方法,更包括:藉由所述電腦在當交叉驗證所述訓練資料集合時使用一SVM模型。
  11. 如申請專利範圍第10項所述之方法,更包括:藉由所述電腦實作一SVM分類器以交叉驗證所述訓練資料集合。
  12. 如申請專利範圍第11項所述之方法,其中所述第二資料集合包含一個或多個類別,且所預測之所述第一資料點為一類別。
  13. 如申請專利範圍第12項所述之方法,更包括:藉由所述電腦判定所預測之類別是否與所述第二資料集合中之類別中其中一個相同。
  14. 如申請專利範圍第13項所述之方法,更包括:藉由所述電腦將所述經校正訓練資料儲存於可存取 用以擷取及管理所述社群智慧資訊的所述電腦的模組的訓練資料庫中。
  15. 一種用於擷取及管理線上收集之訓練資料的方法,所述方法包括:藉由用以擷取及管理一社群智慧資訊的一電腦來接收來自一個或多個線上來源的多個網頁;藉由所述電腦接收所述網頁之經標記內容,且將所述經標記內容儲存於一訓練資料庫中;藉由所述電腦產生與在所述網頁之所述內容中識別之附名實體相關聯的訓練資料,且將所述訓練資料儲存於所述訓練資料庫中;藉由所述電腦產生與在所述網頁之所述內容中識別之主題或主題樣式相關聯的訓練資料,且將所述訓練資料儲存於所述訓練資料庫中;藉由所述電腦產生與在所述網頁之所述內容中識別之意見詞或意見樣式相關聯的訓練資料,且將所述訓練資料儲存於所述訓練資料庫中;以及藉由所述電腦,使用一以條件隨機域(CRF)為基礎之機器學習方法,根據儲存於所述訓練資料庫中的所述訓練資料,來對所述網頁的所述內容進行斷詞;以及藉由所述電腦根據N字母組合併演算法來識別所述附名實體。
  16. 如申請專利範圍第15項所述之方法,更包括:藉由所述電腦判定一可信賴值,且根據所述可信賴值 產生與所述附名實體相關聯的所述訓練資料。
  17. 如申請專利範圍第15項所述之方法,更包括:藉由所述電腦根據兩個主題之間的語意相似性的量度來識別所述主題及主題樣式。
  18. 如申請專利範圍第15項所述之方法,更包括:藉由所述電腦使用所述以CRF為基礎之機器學習方法來識別所述意見詞及意見樣式。
  19. 一種用於擷取及管理線上收集之訓練資料的系統,其由至少一電腦處理器實作,所述至少一電腦處理器執行儲存於電腦儲存媒體上之程式,所述系統包括:一斷詞及整合模組,用以自一個或多個線上來源接收一第一資料集合;一主題分類及辨識模組,連接至所述斷詞及整合模組,所述主題分類及辨識模組用以對所述第一資料集合進行取樣,且產生一第二資料集合,其中所述第二資料集合包含自所述第一資料集合取樣的一資料;所述主題分類及辨識模組更用以將所述第二資料集合分為一訓練資料集合及一測試資料集合;所述主題分類及辨識模組更用以根據所述訓練資料集合來預測至少一資料點,且計算一信心值評分,其中所述信心值評分是以所述至少一資料點的出現頻率為基礎並且所述至少一資料點是以N字母組合併演算法來被識別;所述主題分類及辨識模組更用以將所預測之所述至少一資料點與所述測試資料集合進行比較; 所述主題分類及辨識模組更用以根據所預測之所述至少一資料點的所述信心值評分排序所述至少一資料點;以及所述主題分類及辨識模組更用以接收與所預測之所述至少一資料點相關聯的一經校正訓練資料,且將所述經校正訓練資料儲存於一訓練資料集合中。
  20. 如申請專利範圍第19項所述之系統,其中所述主題分類及辨識模組更用以在根據所述訓練資料集合預測主題時使用一SVM模型。
  21. 如申請專利範圍第20項所述之系統,其中所述主題分類及辨識模組更用以實作一SVM分類器以根據所述訓練資料集合來預測一主題。
TW099129892A 2009-10-28 2010-09-03 用於擷取及管理社群智慧資訊的系統及方法 TWI438637B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25549409P 2009-10-28 2009-10-28
US12/801,779 US20110099133A1 (en) 2009-10-28 2010-06-24 Systems and methods for capturing and managing collective social intelligence information

Publications (2)

Publication Number Publication Date
TW201115370A TW201115370A (en) 2011-05-01
TWI438637B true TWI438637B (zh) 2014-05-21

Family

ID=43899230

Family Applications (2)

Application Number Title Priority Date Filing Date
TW099129892A TWI438637B (zh) 2009-10-28 2010-09-03 用於擷取及管理社群智慧資訊的系統及方法
TW099131226A TWI424325B (zh) 2009-10-28 2010-09-15 使用有機物件資料模型來組織社群智慧資訊的系統及方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW099131226A TWI424325B (zh) 2009-10-28 2010-09-15 使用有機物件資料模型來組織社群智慧資訊的系統及方法

Country Status (3)

Country Link
US (2) US20110099133A1 (zh)
CN (1) CN102054016B (zh)
TW (2) TWI438637B (zh)

Families Citing this family (257)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856096B2 (en) 2005-11-16 2014-10-07 Vcvc Iii Llc Extending keyword searching to syntactically and semantically annotated data
US10878646B2 (en) 2005-12-08 2020-12-29 Smartdrive Systems, Inc. Vehicle event recorder systems
US20070150138A1 (en) 2005-12-08 2007-06-28 James Plante Memory management in event recording systems
US8996240B2 (en) 2006-03-16 2015-03-31 Smartdrive Systems, Inc. Vehicle event recorders with integrated web server
US9201842B2 (en) 2006-03-16 2015-12-01 Smartdrive Systems, Inc. Vehicle event recorder systems and networks having integrated cellular wireless communications systems
US8269617B2 (en) 2009-01-26 2012-09-18 Drivecam, Inc. Method and system for tuning the effect of vehicle characteristics on risk prediction
US8849501B2 (en) 2009-01-26 2014-09-30 Lytx, Inc. Driver risk assessment system and method employing selectively automatic event scoring
US8508353B2 (en) * 2009-01-26 2013-08-13 Drivecam, Inc. Driver risk assessment system and method having calibrating automatic event scoring
US8989959B2 (en) 2006-11-07 2015-03-24 Smartdrive Systems, Inc. Vehicle operator performance history recording, scoring and reporting systems
US8649933B2 (en) 2006-11-07 2014-02-11 Smartdrive Systems Inc. Power management systems for automotive video event recorders
US8868288B2 (en) 2006-11-09 2014-10-21 Smartdrive Systems, Inc. Vehicle exception event management systems
US8515912B2 (en) 2010-07-15 2013-08-20 Palantir Technologies, Inc. Sharing and deconflicting data changes in a multimaster database system
US7962495B2 (en) 2006-11-20 2011-06-14 Palantir Technologies, Inc. Creating data in a data store using a dynamic ontology
US8688749B1 (en) 2011-03-31 2014-04-01 Palantir Technologies, Inc. Cross-ontology multi-master replication
US8930331B2 (en) 2007-02-21 2015-01-06 Palantir Technologies Providing unique views of data based on changes or rules
US8239092B2 (en) 2007-05-08 2012-08-07 Smartdrive Systems Inc. Distributed vehicle event recorder systems having a portable memory data transfer system
US8275681B2 (en) 2007-06-12 2012-09-25 Media Forum, Inc. Desktop extension for readily-sharable and accessible media playlist and media
AU2008312423B2 (en) 2007-10-17 2013-12-19 Vcvc Iii Llc NLP-based content recommender
US8554719B2 (en) 2007-10-18 2013-10-08 Palantir Technologies, Inc. Resolving database entity information
US10747952B2 (en) 2008-09-15 2020-08-18 Palantir Technologies, Inc. Automatic creation and server push of multiple distinct drafts
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
ES2590804T3 (es) 2008-12-08 2016-11-23 Gilead Connecticut, Inc. Inhibidores de Imidazopyrazine Syk
BRPI0922226A2 (pt) 2008-12-08 2015-12-29 Gilead Connecticut Inc inibidores de syk imidazopirazina.
US8854199B2 (en) 2009-01-26 2014-10-07 Lytx, Inc. Driver risk assessment system and method employing automated driver log
US9104695B1 (en) 2009-07-27 2015-08-11 Palantir Technologies, Inc. Geotagging structured data
EP2482247A4 (en) * 2009-10-30 2014-11-19 Rakuten Inc PROGRAM, DEVICE AND METHOD FOR DETERMINING CHARACTERISTIC CONTENT, RECORDING MEDIUM, CONTENT GENERATING DEVICE, AND CONTENT INSERTION DEVICE THEREFOR
US9201863B2 (en) * 2009-12-24 2015-12-01 Woodwire, Inc. Sentiment analysis from social media content
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US8838633B2 (en) * 2010-08-11 2014-09-16 Vcvc Iii Llc NLP-based sentiment analysis
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
GB201101875D0 (en) * 2011-02-03 2011-03-23 Roke Manor Research A method and apparatus for communications analysis
US9672555B1 (en) 2011-03-18 2017-06-06 Amazon Technologies, Inc. Extracting quotes from customer reviews
US8554701B1 (en) * 2011-03-18 2013-10-08 Amazon Technologies, Inc. Determining sentiment of sentences from customer reviews
US9940672B2 (en) * 2011-03-22 2018-04-10 Isentium, Llc System for generating data from social media messages for the real-time evaluation of publicly traded assets
US9965470B1 (en) 2011-04-29 2018-05-08 Amazon Technologies, Inc. Extracting quotes from customer reviews of collections of items
US20120296735A1 (en) * 2011-05-20 2012-11-22 Yahoo! Inc. Unified metric in advertising campaign performance evaluation
US8700480B1 (en) 2011-06-20 2014-04-15 Amazon Technologies, Inc. Extracting quotes from customer reviews regarding collections of items
US8799240B2 (en) 2011-06-23 2014-08-05 Palantir Technologies, Inc. System and method for investigating large amounts of data
US9547693B1 (en) 2011-06-23 2017-01-17 Palantir Technologies Inc. Periodic database search manager for multiple data sources
US10311113B2 (en) * 2011-07-11 2019-06-04 Lexxe Pty Ltd. System and method of sentiment data use
US8473498B2 (en) * 2011-08-02 2013-06-25 Tom H. C. Anderson Natural language text analytics
US8862577B2 (en) * 2011-08-15 2014-10-14 Hewlett-Packard Development Company, L.P. Visualizing sentiment results with visual indicators representing user sentiment and level of uncertainty
US8732574B2 (en) 2011-08-25 2014-05-20 Palantir Technologies, Inc. System and method for parameterizing documents for automatic workflow generation
US9275041B2 (en) * 2011-10-24 2016-03-01 Hewlett Packard Enterprise Development Lp Performing sentiment analysis on microblogging data, including identifying a new opinion term therein
CN103092857A (zh) * 2011-11-01 2013-05-08 腾讯科技(深圳)有限公司 历史记录的整理方法和装置
US11599892B1 (en) 2011-11-14 2023-03-07 Economic Alchemy Inc. Methods and systems to extract signals from large and imperfect datasets
US20130159219A1 (en) * 2011-12-14 2013-06-20 Microsoft Corporation Predicting the Likelihood of Digital Communication Responses
US8782004B2 (en) 2012-01-23 2014-07-15 Palantir Technologies, Inc. Cross-ACL multi-master replication
US8856130B2 (en) * 2012-02-09 2014-10-07 Kenshoo Ltd. System, a method and a computer program product for performance assessment
US20130227429A1 (en) * 2012-02-27 2013-08-29 Kulangara Sivadas Method and tool for data collection, processing, search and display
CN104137107A (zh) * 2012-03-06 2014-11-05 福斯分析有限公司 用于为化学计量分析形成预测模型的方法、软件和图形用户界面
CN103425648B (zh) * 2012-05-15 2016-04-13 腾讯科技(深圳)有限公司 关系圈的处理方法和***
US9728228B2 (en) 2012-08-10 2017-08-08 Smartdrive Systems, Inc. Vehicle event playback apparatus and methods
US9798768B2 (en) 2012-09-10 2017-10-24 Palantir Technologies, Inc. Search around visual queries
US20140074620A1 (en) * 2012-09-12 2014-03-13 Andrew G. Bosworth Advertisement selection based on user selected affiliation with brands in a social networking system
US9081975B2 (en) 2012-10-22 2015-07-14 Palantir Technologies, Inc. Sharing information between nexuses that use different classification schemes for information access control
US9348677B2 (en) 2012-10-22 2016-05-24 Palantir Technologies Inc. System and method for batch evaluation programs
US9501761B2 (en) 2012-11-05 2016-11-22 Palantir Technologies, Inc. System and method for sharing investigation results
US8983828B2 (en) * 2012-11-06 2015-03-17 Palo Alto Research Center Incorporated System and method for extracting and reusing metadata to analyze message content
US9134215B1 (en) 2012-11-09 2015-09-15 Jive Software, Inc. Sentiment analysis of content items
KR20140078312A (ko) * 2012-12-17 2014-06-25 한국전자통신연구원 텍스트 기반 감성 분석 결과를 제공하기 위한 장치, 시스템 및 그 방법
FR3000251B1 (fr) * 2012-12-20 2015-02-06 Vincent Susplugas Procede de structuration de donnees se presentant sous forme alphanumerique
US9501507B1 (en) 2012-12-27 2016-11-22 Palantir Technologies Inc. Geo-temporal indexing and searching
US10140664B2 (en) 2013-03-14 2018-11-27 Palantir Technologies Inc. Resolving similar entities from a transaction database
US8868486B2 (en) 2013-03-15 2014-10-21 Palantir Technologies Inc. Time-sensitive cube
US10275778B1 (en) 2013-03-15 2019-04-30 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive investigation based on automatic malfeasance clustering of related data in various data structures
US8909656B2 (en) 2013-03-15 2014-12-09 Palantir Technologies Inc. Filter chains with associated multipath views for exploring large data sets
US8903717B2 (en) 2013-03-15 2014-12-02 Palantir Technologies Inc. Method and system for generating a parser and parsing complex data
US8924388B2 (en) 2013-03-15 2014-12-30 Palantir Technologies Inc. Computer-implemented systems and methods for comparing and associating objects
US9477777B2 (en) * 2013-03-15 2016-10-25 Rakuten, Inc. Method for analyzing and categorizing semi-structured data
US8799799B1 (en) 2013-05-07 2014-08-05 Palantir Technologies Inc. Interactive geospatial map
US9405822B2 (en) * 2013-06-06 2016-08-02 Sheer Data, LLC Queries of a topic-based-source-specific search system
TWI575391B (zh) * 2013-06-18 2017-03-21 財團法人資訊工業策進會 社群資料篩選系統、方法及其非揮發性電腦可讀取紀錄媒體
US8886601B1 (en) 2013-06-20 2014-11-11 Palantir Technologies, Inc. System and method for incrementally replicating investigative analysis data
US8601326B1 (en) 2013-07-05 2013-12-03 Palantir Technologies, Inc. Data quality monitors
US9565152B2 (en) 2013-08-08 2017-02-07 Palantir Technologies Inc. Cable reader labeling
US9785317B2 (en) 2013-09-24 2017-10-10 Palantir Technologies Inc. Presentation and analysis of user interaction data
US8938686B1 (en) 2013-10-03 2015-01-20 Palantir Technologies Inc. Systems and methods for analyzing performance of an entity
US8812960B1 (en) 2013-10-07 2014-08-19 Palantir Technologies Inc. Cohort-based presentation of user interaction data
US9501878B2 (en) 2013-10-16 2016-11-22 Smartdrive Systems, Inc. Vehicle event playback apparatus and methods
US9116975B2 (en) 2013-10-18 2015-08-25 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores
US9610955B2 (en) 2013-11-11 2017-04-04 Smartdrive Systems, Inc. Vehicle fuel consumption monitor and feedback systems
US9105000B1 (en) 2013-12-10 2015-08-11 Palantir Technologies Inc. Aggregating data from a plurality of data sources
US10579647B1 (en) 2013-12-16 2020-03-03 Palantir Technologies Inc. Methods and systems for analyzing entity performance
US9727622B2 (en) 2013-12-16 2017-08-08 Palantir Technologies, Inc. Methods and systems for analyzing entity performance
US10356032B2 (en) 2013-12-26 2019-07-16 Palantir Technologies Inc. System and method for detecting confidential information emails
US8832832B1 (en) 2014-01-03 2014-09-09 Palantir Technologies Inc. IP reputation
US8892310B1 (en) 2014-02-21 2014-11-18 Smartdrive Systems, Inc. System and method to detect execution of driving maneuvers
US8924429B1 (en) 2014-03-18 2014-12-30 Palantir Technologies Inc. Determining and extracting changed data from a data source
US9836580B2 (en) 2014-03-21 2017-12-05 Palantir Technologies Inc. Provider portal
US11113471B2 (en) * 2014-06-19 2021-09-07 International Business Machines Corporation Automatic detection of claims with respect to a topic
US10013470B2 (en) * 2014-06-19 2018-07-03 International Business Machines Corporation Automatic detection of claims with respect to a topic
EP3161610B1 (en) 2014-06-26 2020-08-05 Google LLC Optimized browser rendering process
CN105446977B (zh) * 2014-06-26 2019-03-29 联想(北京)有限公司 一种信息处理方法及电子设备
CN106462582B (zh) 2014-06-26 2020-05-15 谷歌有限责任公司 批处理优化渲染和获取架构
EP3161662B1 (en) 2014-06-26 2024-01-31 Google LLC Optimized browser render process
US9129219B1 (en) 2014-06-30 2015-09-08 Palantir Technologies, Inc. Crime risk forecasting
US9619557B2 (en) 2014-06-30 2017-04-11 Palantir Technologies, Inc. Systems and methods for key phrase characterization of documents
US9535974B1 (en) 2014-06-30 2017-01-03 Palantir Technologies Inc. Systems and methods for identifying key phrase clusters within documents
US9256664B2 (en) 2014-07-03 2016-02-09 Palantir Technologies Inc. System and method for news events detection and visualization
US20160026923A1 (en) 2014-07-22 2016-01-28 Palantir Technologies Inc. System and method for determining a propensity of entity to take a specified action
US9454281B2 (en) 2014-09-03 2016-09-27 Palantir Technologies Inc. System for providing dynamic linked panels in user interface
US9390086B2 (en) 2014-09-11 2016-07-12 Palantir Technologies Inc. Classification system with methodology for efficient verification
US9767172B2 (en) 2014-10-03 2017-09-19 Palantir Technologies Inc. Data aggregation and analysis system
US9501851B2 (en) 2014-10-03 2016-11-22 Palantir Technologies Inc. Time-series analysis system
US9785328B2 (en) 2014-10-06 2017-10-10 Palantir Technologies Inc. Presentation of multivariate data on a graphical user interface of a computing system
US9984133B2 (en) 2014-10-16 2018-05-29 Palantir Technologies Inc. Schematic and database linking system
US9663127B2 (en) 2014-10-28 2017-05-30 Smartdrive Systems, Inc. Rail vehicle event detection and recording system
US9229952B1 (en) 2014-11-05 2016-01-05 Palantir Technologies, Inc. History preserving data pipeline system and method
US9043894B1 (en) 2014-11-06 2015-05-26 Palantir Technologies Inc. Malicious software detection in a computing system
US11069257B2 (en) 2014-11-13 2021-07-20 Smartdrive Systems, Inc. System and method for detecting a vehicle event and generating review criteria
EP3032441A2 (en) 2014-12-08 2016-06-15 Palantir Technologies, Inc. Distributed acoustic sensing data analysis system
US9965458B2 (en) * 2014-12-09 2018-05-08 Sansa AI Inc. Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
US9483546B2 (en) 2014-12-15 2016-11-01 Palantir Technologies Inc. System and method for associating related records to common entities across multiple lists
US10552994B2 (en) 2014-12-22 2020-02-04 Palantir Technologies Inc. Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items
US9348920B1 (en) 2014-12-22 2016-05-24 Palantir Technologies Inc. Concept indexing among database of documents using machine learning techniques
US10362133B1 (en) 2014-12-22 2019-07-23 Palantir Technologies Inc. Communication data processing architecture
US10452651B1 (en) 2014-12-23 2019-10-22 Palantir Technologies Inc. Searching charts
US9335911B1 (en) 2014-12-29 2016-05-10 Palantir Technologies Inc. Interactive user interface for dynamic data analysis exploration and query processing
US9817563B1 (en) 2014-12-29 2017-11-14 Palantir Technologies Inc. System and method of generating data points from one or more data stores of data items for chart creation and manipulation
US11302426B1 (en) 2015-01-02 2022-04-12 Palantir Technologies Inc. Unified data interface and system
US10803106B1 (en) 2015-02-24 2020-10-13 Palantir Technologies Inc. System with methodology for dynamic modular ontology
US9727560B2 (en) 2015-02-25 2017-08-08 Palantir Technologies Inc. Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags
EP3070622A1 (en) 2015-03-16 2016-09-21 Palantir Technologies, Inc. Interactive user interfaces for location-based data analysis
US9886467B2 (en) 2015-03-19 2018-02-06 Plantir Technologies Inc. System and method for comparing and visualizing data entities and data entity series
US9348880B1 (en) 2015-04-01 2016-05-24 Palantir Technologies, Inc. Federated search of multiple sources with conflict resolution
US9679420B2 (en) 2015-04-01 2017-06-13 Smartdrive Systems, Inc. Vehicle event recording system and method
US9722957B2 (en) * 2015-05-04 2017-08-01 Conduent Business Services, Llc Method and system for assisting contact center agents in composing electronic mail replies
US10103953B1 (en) 2015-05-12 2018-10-16 Palantir Technologies Inc. Methods and systems for analyzing entity performance
US10628834B1 (en) 2015-06-16 2020-04-21 Palantir Technologies Inc. Fraud lead detection system for efficiently processing database-stored data and automatically generating natural language explanatory information of system results for display in interactive user interfaces
US9418337B1 (en) 2015-07-21 2016-08-16 Palantir Technologies Inc. Systems and models for data analytics
US9392008B1 (en) 2015-07-23 2016-07-12 Palantir Technologies Inc. Systems and methods for identifying information related to payment card breaches
US9996595B2 (en) 2015-08-03 2018-06-12 Palantir Technologies, Inc. Providing full data provenance visualization for versioned datasets
US9456000B1 (en) 2015-08-06 2016-09-27 Palantir Technologies Inc. Systems, methods, user interfaces, and computer-readable media for investigating potential malicious communications
KR101755227B1 (ko) * 2015-08-10 2017-07-06 숭실대학교산학협력단 제품 유형 분류 장치 및 방법
US9600146B2 (en) 2015-08-17 2017-03-21 Palantir Technologies Inc. Interactive geospatial map
US10127289B2 (en) 2015-08-19 2018-11-13 Palantir Technologies Inc. Systems and methods for automatic clustering and canonical designation of related data in various data structures
US9671776B1 (en) 2015-08-20 2017-06-06 Palantir Technologies Inc. Quantifying, tracking, and anticipating risk at a manufacturing facility, taking deviation type and staffing conditions into account
CN105095498A (zh) * 2015-08-24 2015-11-25 北京旷视科技有限公司 信息处理方法和信息处理装置
US11150917B2 (en) 2015-08-26 2021-10-19 Palantir Technologies Inc. System for data aggregation and analysis of data from a plurality of data sources
US9485265B1 (en) 2015-08-28 2016-11-01 Palantir Technologies Inc. Malicious activity detection system capable of efficiently processing data accessed from databases and generating alerts for display in interactive user interfaces
US11497988B2 (en) * 2015-08-31 2022-11-15 Omniscience Corporation Event categorization and key prospect identification from storylines
US10706434B1 (en) 2015-09-01 2020-07-07 Palantir Technologies Inc. Methods and systems for determining location information
US9639580B1 (en) 2015-09-04 2017-05-02 Palantir Technologies, Inc. Computer-implemented systems and methods for data management and visualization
US9984428B2 (en) 2015-09-04 2018-05-29 Palantir Technologies Inc. Systems and methods for structuring data from unstructured electronic data files
US9576015B1 (en) 2015-09-09 2017-02-21 Palantir Technologies, Inc. Domain-specific language for dataset transformations
US10410136B2 (en) 2015-09-16 2019-09-10 Microsoft Technology Licensing, Llc Model-based classification of content items
US10437837B2 (en) * 2015-10-09 2019-10-08 Fujitsu Limited Generating descriptive topic labels
US9424669B1 (en) 2015-10-21 2016-08-23 Palantir Technologies Inc. Generating graphical representations of event participation flow
US10223429B2 (en) 2015-12-01 2019-03-05 Palantir Technologies Inc. Entity data attribution using disparate data sets
US10706056B1 (en) 2015-12-02 2020-07-07 Palantir Technologies Inc. Audit log report generator
US9514414B1 (en) 2015-12-11 2016-12-06 Palantir Technologies Inc. Systems and methods for identifying and categorizing electronic documents through machine learning
US9760556B1 (en) 2015-12-11 2017-09-12 Palantir Technologies Inc. Systems and methods for annotating and linking electronic documents
US10114884B1 (en) 2015-12-16 2018-10-30 Palantir Technologies Inc. Systems and methods for attribute analysis of one or more databases
US9542446B1 (en) 2015-12-17 2017-01-10 Palantir Technologies, Inc. Automatic generation of composite datasets based on hierarchical fields
US10373099B1 (en) 2015-12-18 2019-08-06 Palantir Technologies Inc. Misalignment detection system for efficiently processing database-stored data and automatically generating misalignment information for display in interactive user interfaces
US10089289B2 (en) 2015-12-29 2018-10-02 Palantir Technologies Inc. Real-time document annotation
US10871878B1 (en) 2015-12-29 2020-12-22 Palantir Technologies Inc. System log analysis and object user interaction correlation system
US9996236B1 (en) 2015-12-29 2018-06-12 Palantir Technologies Inc. Simplified frontend processing and visualization of large datasets
US9792020B1 (en) 2015-12-30 2017-10-17 Palantir Technologies Inc. Systems for collecting, aggregating, and storing data, generating interactive user interfaces for analyzing data, and generating alerts based upon collected data
US11816701B2 (en) 2016-02-10 2023-11-14 Adobe Inc. Techniques for targeting a user based on a psychographic profile
US10248722B2 (en) 2016-02-22 2019-04-02 Palantir Technologies Inc. Multi-language support for dynamic ontology
US10867216B2 (en) 2016-03-15 2020-12-15 Canon Kabushiki Kaisha Devices, systems, and methods for detecting unknown objects
US10878433B2 (en) * 2016-03-15 2020-12-29 Adobe Inc. Techniques for generating a psychographic profile
US10698938B2 (en) 2016-03-18 2020-06-30 Palantir Technologies Inc. Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags
KR101687169B1 (ko) * 2016-04-06 2016-12-16 한전원자력연료 주식회사 반복 교차검증을 이용한 상관식 공차한계 설정시스템 및 그 방법
US9652139B1 (en) 2016-04-06 2017-05-16 Palantir Technologies Inc. Graphical representation of an output
TWI582627B (zh) * 2016-05-13 2017-05-11 國立雲林科技大學 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體
US10068199B1 (en) 2016-05-13 2018-09-04 Palantir Technologies Inc. System to catalogue tracking data
US10007674B2 (en) 2016-06-13 2018-06-26 Palantir Technologies Inc. Data revision control in large-scale data analytic systems
US10545975B1 (en) 2016-06-22 2020-01-28 Palantir Technologies Inc. Visual analysis of data using sequenced dataset reduction
US10909130B1 (en) 2016-07-01 2021-02-02 Palantir Technologies Inc. Graphical user interface for a database system
US10719188B2 (en) 2016-07-21 2020-07-21 Palantir Technologies Inc. Cached database and synchronization system for providing dynamic linked panels in user interface
US10324609B2 (en) 2016-07-21 2019-06-18 Palantir Technologies Inc. System for providing dynamic linked panels in user interface
US11106692B1 (en) 2016-08-04 2021-08-31 Palantir Technologies Inc. Data record resolution and correlation system
US10552002B1 (en) 2016-09-27 2020-02-04 Palantir Technologies Inc. User interface based variable machine modeling
US10133588B1 (en) 2016-10-20 2018-11-20 Palantir Technologies Inc. Transforming instructions for collaborative updates
US10726507B1 (en) 2016-11-11 2020-07-28 Palantir Technologies Inc. Graphical representation of a complex task
US10318630B1 (en) 2016-11-21 2019-06-11 Palantir Technologies Inc. Analysis of large bodies of textual data
US9842338B1 (en) 2016-11-21 2017-12-12 Palantir Technologies Inc. System to identify vulnerable card readers
US11250425B1 (en) 2016-11-30 2022-02-15 Palantir Technologies Inc. Generating a statistic using electronic transaction data
US9886525B1 (en) 2016-12-16 2018-02-06 Palantir Technologies Inc. Data item aggregate probability analysis system
GB201621434D0 (en) 2016-12-16 2017-02-01 Palantir Technologies Inc Processing sensor logs
US10044836B2 (en) 2016-12-19 2018-08-07 Palantir Technologies Inc. Conducting investigations under limited connectivity
US10249033B1 (en) 2016-12-20 2019-04-02 Palantir Technologies Inc. User interface for managing defects
US10728262B1 (en) 2016-12-21 2020-07-28 Palantir Technologies Inc. Context-aware network-based malicious activity warning systems
US11373752B2 (en) 2016-12-22 2022-06-28 Palantir Technologies Inc. Detection of misuse of a benefit system
US10360238B1 (en) 2016-12-22 2019-07-23 Palantir Technologies Inc. Database systems and user interfaces for interactive data association, analysis, and presentation
CN106777236B (zh) * 2016-12-27 2020-11-03 北京百度网讯科技有限公司 基于深度问答的查询结果的展现方法和装置
US10721262B2 (en) 2016-12-28 2020-07-21 Palantir Technologies Inc. Resource-centric network cyber attack warning system
US10216811B1 (en) 2017-01-05 2019-02-26 Palantir Technologies Inc. Collaborating using different object models
US10762471B1 (en) 2017-01-09 2020-09-01 Palantir Technologies Inc. Automating management of integrated workflows based on disparate subsidiary data sources
US10133621B1 (en) 2017-01-18 2018-11-20 Palantir Technologies Inc. Data analysis system to facilitate investigative process
US10509844B1 (en) 2017-01-19 2019-12-17 Palantir Technologies Inc. Network graph parser
US10515109B2 (en) 2017-02-15 2019-12-24 Palantir Technologies Inc. Real-time auditing of industrial equipment condition
US10866936B1 (en) 2017-03-29 2020-12-15 Palantir Technologies Inc. Model object management and storage system
US10581954B2 (en) 2017-03-29 2020-03-03 Palantir Technologies Inc. Metric collection and aggregation for distributed software services
US10599771B2 (en) 2017-04-10 2020-03-24 International Business Machines Corporation Negation scope analysis for negation detection
US10133783B2 (en) 2017-04-11 2018-11-20 Palantir Technologies Inc. Systems and methods for constraint driven database searching
US11074277B1 (en) 2017-05-01 2021-07-27 Palantir Technologies Inc. Secure resolution of canonical entities
US10563990B1 (en) 2017-05-09 2020-02-18 Palantir Technologies Inc. Event-based route planning
US10606872B1 (en) 2017-05-22 2020-03-31 Palantir Technologies Inc. Graphical user interface for a database system
US10795749B1 (en) 2017-05-31 2020-10-06 Palantir Technologies Inc. Systems and methods for providing fault analysis user interface
US10956406B2 (en) 2017-06-12 2021-03-23 Palantir Technologies Inc. Propagated deletion of database records and derived data
US11216762B1 (en) 2017-07-13 2022-01-04 Palantir Technologies Inc. Automated risk visualization using customer-centric data analysis
US10942947B2 (en) 2017-07-17 2021-03-09 Palantir Technologies Inc. Systems and methods for determining relationships between datasets
US10430444B1 (en) 2017-07-24 2019-10-01 Palantir Technologies Inc. Interactive geospatial map and geospatial visualization systems
CN110998589B (zh) * 2017-07-31 2023-06-27 北京嘀嘀无限科技发展有限公司 用于分割文本的***和方法
JP6594500B2 (ja) * 2017-09-18 2019-10-23 タタ コンサルタンシー サービシズ リミテッド 推論データマイニングのための方法およびシステム
US10956508B2 (en) 2017-11-10 2021-03-23 Palantir Technologies Inc. Systems and methods for creating and managing a data integration workspace containing automatically updated data models
US11281726B2 (en) 2017-12-01 2022-03-22 Palantir Technologies Inc. System and methods for faster processor comparisons of visual graph features
US10235533B1 (en) 2017-12-01 2019-03-19 Palantir Technologies Inc. Multi-user access controls in electronic simultaneously editable document editor
US11314721B1 (en) 2017-12-07 2022-04-26 Palantir Technologies Inc. User-interactive defect analysis for root cause
US10877984B1 (en) 2017-12-07 2020-12-29 Palantir Technologies Inc. Systems and methods for filtering and visualizing large scale datasets
US10783162B1 (en) 2017-12-07 2020-09-22 Palantir Technologies Inc. Workflow assistant
US10769171B1 (en) 2017-12-07 2020-09-08 Palantir Technologies Inc. Relationship analysis and mapping for interrelated multi-layered datasets
US11061874B1 (en) 2017-12-14 2021-07-13 Palantir Technologies Inc. Systems and methods for resolving entity data across various data structures
US10838987B1 (en) 2017-12-20 2020-11-17 Palantir Technologies Inc. Adaptive and transparent entity screening
US10853352B1 (en) 2017-12-21 2020-12-01 Palantir Technologies Inc. Structured data collection, presentation, validation and workflow management
US11263382B1 (en) 2017-12-22 2022-03-01 Palantir Technologies Inc. Data normalization and irregularity detection system
WO2019140382A2 (en) * 2018-01-12 2019-07-18 Gamalon, Inc. Probabilistic modeling system and method
GB201800595D0 (en) 2018-01-15 2018-02-28 Palantir Technologies Inc Management of software bugs in a data processing system
CN108399194A (zh) * 2018-01-29 2018-08-14 中国科学院信息工程研究所 一种网络威胁情报生成方法及***
JP6969443B2 (ja) * 2018-02-27 2021-11-24 日本電信電話株式会社 学習品質推定装置、方法、及びプログラム
CN111712841A (zh) * 2018-02-27 2020-09-25 国立大学法人九州工业大学 标签收集装置、标签收集方法以及标签收集程序
US11599369B1 (en) 2018-03-08 2023-03-07 Palantir Technologies Inc. Graphical user interface configuration system
US10877654B1 (en) 2018-04-03 2020-12-29 Palantir Technologies Inc. Graphical user interfaces for optimizations
US10754822B1 (en) 2018-04-18 2020-08-25 Palantir Technologies Inc. Systems and methods for ontology migration
US10832001B2 (en) * 2018-04-26 2020-11-10 Google Llc Machine learning to identify opinions in documents
US10885021B1 (en) 2018-05-02 2021-01-05 Palantir Technologies Inc. Interactive interpreter and graphical user interface
US10754946B1 (en) 2018-05-08 2020-08-25 Palantir Technologies Inc. Systems and methods for implementing a machine learning approach to modeling entity behavior
US11061542B1 (en) 2018-06-01 2021-07-13 Palantir Technologies Inc. Systems and methods for determining and displaying optimal associations of data items
US10795909B1 (en) 2018-06-14 2020-10-06 Palantir Technologies Inc. Minimized and collapsed resource dependency path
US11119630B1 (en) 2018-06-19 2021-09-14 Palantir Technologies Inc. Artificial intelligence assisted evaluations and user interface for same
WO2020031243A1 (ja) * 2018-08-06 2020-02-13 株式会社島津製作所 教師ラベル画像修正方法、学習済みモデルの作成方法および画像解析装置
US11126638B1 (en) 2018-09-13 2021-09-21 Palantir Technologies Inc. Data visualization and parsing system
US10872236B1 (en) 2018-09-28 2020-12-22 Amazon Technologies, Inc. Layout-agnostic clustering-based classification of document keys and values
US11294928B1 (en) 2018-10-12 2022-04-05 Palantir Technologies Inc. System architecture for relating and linking data objects
TWI710922B (zh) * 2018-10-29 2020-11-21 安碁資訊股份有限公司 行為標記模型訓練系統及方法
CN111177802B (zh) * 2018-11-09 2022-09-13 安碁资讯股份有限公司 行为标记模型训练***及方法
US11257006B1 (en) 2018-11-20 2022-02-22 Amazon Technologies, Inc. Auto-annotation techniques for text localization
US10949661B2 (en) * 2018-11-21 2021-03-16 Amazon Technologies, Inc. Layout-agnostic complex document processing system
US11216892B1 (en) * 2018-12-06 2022-01-04 Meta Platforms, Inc. Classifying and upgrading a content item to a life event item
CN109614538A (zh) * 2018-12-17 2019-04-12 广东工业大学 一种农产品价格数据的提取方法、装置及设备
CN113632178A (zh) 2019-01-25 2021-11-09 沃德诺希斯医疗技术有限公司 用于中耳炎诊断的机器学习
CN109919014B (zh) * 2019-01-28 2023-11-03 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
US11170017B2 (en) 2019-02-22 2021-11-09 Robert Michael DESSAU Method of facilitating queries of a topic-based-source-specific search system using entity mention filters and search tools
AU2020225455A1 (en) 2019-02-22 2021-09-09 Kronos Bio, Inc. Solid forms of condensed pyrazines as Syk inhibitors
US11558339B2 (en) 2019-05-21 2023-01-17 International Business Machines Corporation Stepwise relationship cadence management
US11593673B2 (en) * 2019-10-07 2023-02-28 Servicenow Canada Inc. Systems and methods for identifying influential training data points
EP3812974A1 (en) * 2019-10-25 2021-04-28 Onfido Ltd Machine learning inference system
US11295328B2 (en) 2020-05-01 2022-04-05 Accenture Global Solutions Limited Intelligent prospect assessment
MX2022014708A (es) * 2020-06-18 2022-12-16 Home Depot Int Inc Clasificacion del sentimiento del usuario basada en el aprendizaje automatico.
CN111523314B (zh) * 2020-07-03 2020-09-25 支付宝(杭州)信息技术有限公司 模型对抗训练、命名实体识别方法及装置
CN113379169B (zh) * 2021-08-12 2021-11-23 北京中科闻歌科技股份有限公司 信息处理方法、装置、设备及介质
TWI805008B (zh) * 2021-10-04 2023-06-11 中華電信股份有限公司 客製化意圖評選系統、方法及電腦可讀媒介
CN117137450B (zh) * 2023-08-30 2024-05-10 哈尔滨海鸿基业科技发展有限公司 一种基于皮瓣血运评估的皮瓣移植术成像方法和***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
TWI331309B (en) * 2006-12-01 2010-10-01 Ind Tech Res Inst Method and system for executing correlative services
TW200828139A (en) * 2006-12-18 2008-07-01 Webgenie Information Ltd Method for generating generic title
TWI427492B (zh) * 2007-01-15 2014-02-21 Hon Hai Prec Ind Co Ltd 資訊搜尋系統及方法
CN101441636A (zh) * 2007-11-21 2009-05-27 中国科学院自动化研究所 一种基于知识库的医院信息搜索引擎及***
TW200928798A (en) * 2007-12-31 2009-07-01 Aletheia University Method for analyzing technology document
CN101261629A (zh) * 2008-04-21 2008-09-10 上海大学 基于自动分类技术的特定信息搜索方法

Also Published As

Publication number Publication date
TW201115371A (en) 2011-05-01
US20110112995A1 (en) 2011-05-12
TW201115370A (en) 2011-05-01
CN102054016B (zh) 2016-01-20
CN102054016A (zh) 2011-05-11
TWI424325B (zh) 2014-01-21
US20110099133A1 (en) 2011-04-28

Similar Documents

Publication Publication Date Title
TWI438637B (zh) 用於擷取及管理社群智慧資訊的系統及方法
CN102054015B (zh) 使用有机物件数据模型来组织社群智能信息的***及方法
Hoffart et al. Discovering emerging entities with ambiguous names
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和***
CN111625659B (zh) 知识图谱处理方法、装置、服务器及存储介质
US8676730B2 (en) Sentiment classifiers based on feature extraction
CN110232149B (zh) 一种热点事件检测方法和***
Srinath et al. Privacy at scale: Introducing the PrivaSeer corpus of web privacy policies
CN105378731A (zh) 从被回答问题关联语料库/语料值
CN107885793A (zh) 一种微博热点话题分析预测方法及***
US20160170993A1 (en) System and method for ranking news feeds
KR20180112718A (ko) 유사 사용자 매칭을 이용한 자동 답변 방법 및 시스템
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
Dutta et al. PNRank: Unsupervised ranking of person name entities from noisy OCR text
CN115329085A (zh) 一种社交机器人分类方法及***
KR101652433B1 (ko) Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법
CN113157871B (zh) 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识***
WO2007011714A9 (en) Method and system for automatically extracting data from web sites
Xu et al. Estimating similarity of rich internet pages using visual information
KR102180329B1 (ko) 가짜 뉴스 판단 시스템
Xue et al. A content-aware trust index for online review spam detection
Karam et al. Dramatic Increase in Fear-Related Discussion on Twitter during COVID-19: Analysis, Topic Modeling and Tweets Classification
CN116739641B (zh) 一种跨境电商知识图谱分析方法及***
CN113656574B (zh) 用于搜索结果排序的方法、计算设备和存储介质