TWI452475B - A dictionary generating device, a dictionary generating method, a dictionary generating program product, and a computer readable memory medium storing the program - Google Patents

A dictionary generating device, a dictionary generating method, a dictionary generating program product, and a computer readable memory medium storing the program Download PDF

Info

Publication number
TWI452475B
TWI452475B TW101133547A TW101133547A TWI452475B TW I452475 B TWI452475 B TW I452475B TW 101133547 A TW101133547 A TW 101133547A TW 101133547 A TW101133547 A TW 101133547A TW I452475 B TWI452475 B TW I452475B
Authority
TW
Taiwan
Prior art keywords
word
dictionary
unit
information
text
Prior art date
Application number
TW101133547A
Other languages
English (en)
Other versions
TW201335776A (zh
Inventor
Masato Hagiwara
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of TW201335776A publication Critical patent/TW201335776A/zh
Application granted granted Critical
Publication of TWI452475B publication Critical patent/TWI452475B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Description

辭典產生裝置、辭典產生方法、辭典產生程式產品、及記憶該程式之電腦可讀取記錄媒體
本發明之一形態係關於一種用以產生單詞辭典之裝置、方法、程式及電腦可讀取記錄媒體。
自先前以來,已知有使用單詞辭典分割文章而獲得複數個單詞之技術(單詞分割)。與其關聯之下述專利文獻1中記載有一種技術:其自單詞辭典檢索與輸入文本之部分字符串對照之單詞,並作為單詞候補產生,從未與該單詞辭典對照之輸入文本之部分字符串選擇有未知語可能性者作為未知語候補,使用未知語模型推測未知語候補之詞類區分單詞出現概率,使用動態計劃法求得同時概率最大之單詞列。
先前技術文獻 專利文獻
專利文獻1:日本專利特開2001-051996號公報
為正確分割文本,為使詞彙知識充實而在辭典內準備大量單詞較理想。但由人手構築大規模辭典並不容易。因此,要求容易構築大規模單詞辭典。
本發明之一形態之辭典產生裝置具備:模型產生部,其使用預先準備之語料庫及單詞群產生單詞分割模型,且對 語料庫中所含之各文本賦予表示單詞界限之界限資訊;解析部,其對所收集之文本之集合執行組入有單詞分割模型之單詞分割,並對各文本賦予界限資訊;選擇部,其自藉由解析部賦予界限資訊之文本中選擇所要登錄於辭典之單詞;登錄部,其將由選擇部選擇之單詞登錄於辭典。
本發明之一形態之辭典產生方法係藉由辭典產生裝置執行者,其包含:模型產生步驟,其使用預先準備之語料庫及單詞群產生單詞分割模型,且對語料庫中所含之各文本賦予表示單詞界限之界限資訊;解析步驟,其對所收集之文本之集合執行組入有單詞分割模型之單詞分割,並對各文本賦予界限資訊;選擇步驟,其自於解析步驟中被賦予界限資訊之文本中選擇所要登錄於辭典之單詞;及登錄步驟,其將於選擇步驟中選擇之單詞登錄於辭典。
本發明之一形態之辭典產生程式使電腦執行:模型產生部,其使用預先準備之語料庫及單詞群產生單詞分割模型,且對語料庫中所含之各文本賦予表示單詞界限之界限資訊;解析部,其對所收集之文本之集合執行組入有單詞分割模型之單詞分割,並對各文本賦予界限資訊;選擇部,其自藉由解析部賦予界限資訊之文本中選擇所要登錄於辭典之單詞;及登錄部,其將由選擇部選擇之單詞登錄於辭典。
本發明之一實施形態之電腦可讀取記錄媒體係記憶辭典產生程式者,該辭典產生程式使電腦執行:模型產生部,其使用預先準備之語料庫及單詞群產生單詞分割模型,且 對語料庫中所含之各文本賦予表示單詞界限之界限資訊;解析部,其對所收集之文本之集合執行組入有單詞分割模型之單詞分割,並對各文本賦予界限資訊;選擇部,其自藉由解析部賦予界限資訊之文本中選擇所要登錄於辭典之單詞;及登錄部,其將由選擇部選擇之單詞登錄於辭典。
根據如此之形態,使用賦予界限資訊之語料庫與單詞群產生單詞分割模型,組入有該模型之單詞分割應用於文本集合。並且,自藉由該應用賦予界限資訊之文本集合中選擇單詞,並登錄於辭典。如此,藉由使用附界限資訊之語料庫之解析亦對文本集合賦予界限資訊之後,登錄自該文本集合提取之單詞,從而可容易構築大規模之單詞辭典。
其他實施形態之辭典產生裝置中,選擇部亦可基於自利用解析部賦予之界限資訊算出之各單詞之出現頻率,選擇所要登錄於辭典之單詞。考慮如此算出之出現頻率而可提高辭典之精度。
進而其他形態之辭典產生裝置中,選擇部亦可選擇出現頻率為特定閾值以上之單詞。僅將出現一定次數以上之單詞登錄於辭典,從而可提高辭典之精度。
進而其他形態之辭典產生裝置中,選擇部將出現頻率為閾值以上之單詞提取作為登錄候補,從出現頻率較高之單詞起依次自該登錄候補中選擇特定數之單詞,登錄部亦可將由選擇部選擇之單詞追加至記錄有單詞群之辭典。僅將出現頻率相對較高之單詞登錄於辭典,藉此可提高辭典之精度。又,對預先準備之單詞群之辭典追加單詞,從而可 使辭典之構成簡單。
進而其他形態之辭典產生裝置中,選擇部將出現頻率為閾值以上之單詞提取作為登錄候補,從出現頻率較高之單詞起依次自該登錄候補中選擇特定數之單詞,登錄部亦可將由選擇部選擇之單詞記錄於與記錄有單詞群之辭典不同之其他辭典。僅將出現頻率相對較高之單詞登錄於辭典,從而可提高辭典之精度。又,對與預先準備之單詞群之辭典(現有辭典)不同之辭典追加單詞,從而可產生與現有辭典不同特性之辭典。
進而其他形態之辭典產生裝置中,登錄部亦可將由選擇部選擇之單詞登錄於與記錄有單詞群之辭典不同之辭典。對與預先準備之單詞群之辭典(現有辭典)不同之辭典追加單詞,從而可產生與現有辭典不同特性之辭典。
進而其他形態之辭典產生裝置中,選擇部將出現頻率為閾值以上之單詞提取作為登錄候補,根據出現頻率之高低而將該登錄候補之單詞組群化,登錄部亦可將由選擇部產生之複數個組群個別地登錄於與記錄有單詞群之辭典不同之複數個辭典。根據出現頻率之高低而將單詞組群化,將產生之各組群登錄於各個辭典,從而可產生起因於出現頻率之特性不同之複數個辭典。
進而其他形態之辭典產生裝置中,將表示該文本之領域之資訊與所收集之各文本建立關聯,登錄部亦可基於含有該單詞之文本之領域,將由選擇部選擇之單詞個別地登錄於每個領域準備之辭典。藉由依每個領域產生辭典,從而 可產生特性互相不同之複數個辭典。
進而其他形態之辭典產生裝置中,界限資訊包含表示文字間位置上不存在界限之第1資訊、表示文字間位置上存在界限之第2資訊、及表示文字間位置上概率性存在界限之第3資訊;各單詞之出現頻率亦可基於第1、第2及第3資訊算出。由於並非單純以是否存在界限之二擇一,而是導入表示其中間概念之第3資訊,藉此可將文本更適當地分割成複數個單詞。
進而其他形態之辭典產生裝置中,解析部具備第1二值分類器及第2二值分類器,第1二值分類器對於各文字間位置判斷是分配第1資訊或是分配第1資訊以外之資訊,第2二值分類器亦可對於由第1二值分類器判斷為分配第1資訊以外之資訊之文字間位置判斷是分配第2資訊或是分配第3資訊。使用複數個二值分配器階段性確定界限資訊,從而可高速且有效對文本賦予界限資訊。
進而其他形態之辭典產生裝置中,將所收集之文本集合分割成複數個組群;解析部、選擇部、及登錄部基於複數個組群中之一者執行處理後,模型產生部使用語料庫、單詞群及由登錄部登錄之單詞產生單詞分割模型,繼而,解析部、選擇部、及登錄部亦可基於複數個組群中之其他一者執行處理。
根據本發明之一態樣,可容易構築大規模之單詞辭典。
以下一面參照添加附圖詳細說明本發明之實施形態。再者,附圖說明中對同一或同等要素附加同一符號,省略重複說明。
首先,使用圖1~圖3,說明實施形態之辭典產生裝置10之功能構成。辭典產生裝置10係如下之電腦,即,對包含所收集之大量文本之集合(以下亦稱作「大規模文本」)進行解析而自該文本集合中提取單詞,將所提取之單詞追加至辭典。
如圖1所示,辭典產生裝置10具備:執行作業系統或應用程式等之CPU101、由ROM及RAM等構成之主記憶部102、由硬碟等構成之輔助記憶部103、由網路卡等構成之通信控制部104、鍵盤或滑鼠等之輸入裝置105、及顯示器等輸出裝置106。
後述辭典產生裝置10之各功能構成要素係藉由如下而實現,即,在CPU101或主記憶部102上讀入特定之軟體,在CPU101之控制下使通信控制部104或輸入裝置105、輸出裝置106動作,進行主記憶部102或輔助記憶部103中資料之讀出及寫入。處理所需要之資料或資料庫儲存於主記憶部102或輔助記憶部103內。再者,圖1中表示辭典產生裝置10由1台電腦構成,但亦可使辭典產生裝置10之功能分散於複數台電腦。
如圖2所示,辭典產生裝置10具備作為功能構成要素之模型產生部11、解析部12、選擇部13及登錄部14。辭典產生裝置10執行單詞提取處理時,參照預先準備之學習語料 庫20、現有辭典31及大規模文本40,將提取之單詞儲存於單詞辭典30。再者,單詞辭典30至少包含現有辭典31,亦可進而包含1個以上之追加辭典32。在對辭典產生裝置10詳細說明之前,針對該等資料進行說明。
學習語料庫20係經賦予(建立關聯)表示單詞之界限(將詞句分割成單詞時之分割位置)之界限資訊(註釋)之文本的集合,預先準備作為資料庫。文本包含複數個單詞而成之詞句或字符串。本實施形態中,將自蓄積於虛擬商場之網站內之商品之標題及說明文中隨機提取之特定數之文本作為學習語料庫20之材料。
由評估者之人手對提取之各文本賦予界限資訊。界限資訊之設定係基於利用點推測之單詞分割與3階段分割語料庫之二個技術實施。
[利用點推測之單詞分割]
與文本(字符串)x=x1 x2 ...xn (x1 ,x2 ...,xn 係文字)中分配單詞界限標籤b=b1 b2 ...bn 。此處,bi 係表示文字xi 與xi+1 間(文字間位置)上是否存在單詞界限之標籤,bi =1意指分割,bi =0意指非分割。此處,該標籤bi 所示之值亦可以說係分割之強度。
圖3係表示「。」(bo-rupen wo katta)之日語詞句(英語為「(I)bought a ballpoint pen.」)中決定「(n)」與「(wo)」間之標籤之例。單詞界限標籤之值係參照自存在於周邊之文字所得之特性(feature)而決定。例如使用文字特性、文字種類特性及辭典特性之3種 特性設定單詞界限標籤之值。
文字特性係相接於界限bi 或內包界限bi 之長度n以下之所有文字(n-gram),與相對於bi 之相對位置之組合所示之特性。例如圖3中設為n=3之情形時,獲得對於「(n)」與「(wo)」間之界限bi,「-1/(n)」「1/(wo)」「-2/ (pen)」「-1/(n wo)」 「1/買(wo ka)」「-3/ (rupen)」「-2/(pen wo)」「-1/買(n wo ka)」「1/(wo kat)」之9個特性。
文字種類特性除取代文字處理文字種類之處外,與上述文字特性相同。作為文字種類,考慮平假名、片假名、漢字、大寫字母、小寫字母、***數字、漢字數字及中黑(.)8種。再者,使用之文字種類及其種類數量無任何限制。
辭典特性係表示位於界限周邊之長度j(1≦j≦k)之單詞是否存在於辭典中之特性。辭典特性係以表示界限bi 存在於單詞之終點(L)、或位於其起始點(R)、或包含於該單詞內(M)之圖表與該單詞之長度j之組合表示。若辭典中登錄有「(pen)」「(wo)」之單詞,則對圖3之界限bi 製作L2及R1之辭典特性。再者,如後述使用複數個辭典之情形時,對辭典特性賦予辭典之識別件。例如若在識別件為DIC1之辭典A中登錄「(pen)」,在識別件為DIC2之辭典B中登錄「(wo)」,則辭典特性如DIC1-L2、DIC2-R1等表示。
再者,本實施形態中,將文字特性及文字種類特性之n- gram之最大長度n設為3,將辭典特性之單詞最大長度k設為8,但該等值可任意規決定。
[3階段單詞分割語料庫]
日語中存在獨一決定單詞界限較難之單詞,有適當之單詞分割態樣根據情形不同而不同之問題。作為一例,設想對含「(bo-rupen)」(英語為「ballpoint pen」)之單詞之文本集合進行關鍵字檢索之情形。若不分割「 (bo-rupen)」之情形時,則即使以「(pen)」(英語為「pen」)之關鍵字檢索亦無法提取文本(再現率之下降)。另一方面,將「(bo-rupen)」分割成「(bo-ru)」(英語為「ball」)與「(pen)」之情形時,藉由將體育用品「(bo-ru)」作為關鍵字檢索,而導致提取含「(bo-rupen)」之文本(精度之下降)。
因此,如上述使用導入非「分割」「非分割」2值之「半分割」概念之3階段單詞分割語料庫。3階段單詞分割語料庫係使以概率化值表示分割態樣之概率化單詞分割發展之方法。人實際可識別之單詞分割之強度即使較多亦僅為數階段,基於以連續之概率化值表示分割態樣之必要性較低之理由,而使用該3階段單詞分割語料庫。對於含半分割之單詞,提取該單詞全體與該單詞之構成要素兩者,因此可將對於人而言難以判斷分割或非分割之單詞首先作為半分割而加以記錄,且界限資訊之賦予變得容易。「半分割」係表示文字間位置上界限概率化(在大於0或小於1 之概率範圍內)存在之一態樣。
3階段單詞分割語料庫係藉由對「分割」(bi =1)及「非分割」(bi =0)加入「半分割」(bi =0.5)之3階段分割之離散概率化單詞分割而生成之語料庫。例如亦包含如「/(bo-ru/pen)」之複合名詞,或如「折/(ori/tatamu)」(英語為「fold」)之複合動詞,「/(o/susume)」(英語為「recommendation」)之詞綴而詞彙化之單詞中之分割(此例中以"/"表示)自然作為半分割定義。 又,「充電池(juudenchi)」(英語為「rechargeable battery」)可以說係如「充電(juuden)」(英語為recharge)與「電池(denchi)」(英語為「battery」)之「AB+BC→ABC」型複合語,但如此之單詞係以「充/電/池(juu/den/chi)」之方式半分割。
。」(bo-rupen wo katta)之文本係使用由上述點推測之單詞分割與3階段單詞分割語料庫例如如圖3所示分割。圖3之例中,「分割」(bi =1)之單詞界限標籤賦予至文本之前頭或「(n)」與「(wo)」之間等。「半分割」(bi =0.5)之單詞界限標籤賦予至「(ru)」與「(pe)」之間。圖3中省略「非分割」(bi =0)之單詞界限標籤,但對文字間未示界限之部位(例如「(pe)」與「(n)」之間)賦予該標籤。
對各文本賦予作為界限資訊之單詞界限標籤,作為學習語料庫20而儲存於資料庫。將界限資訊賦予至文本之方法為任意。作為一例,以空間表示「分割」,以連字號表示 「半分割」,亦可以省略「非分割」之表示之方式於各文本中埋入界限資訊。此時,可保持字符串之狀態下記錄賦予有界限資訊之文本。
現有辭典31係特定數之單詞之集合,作為資料庫預先準備。現有辭典31可為一般使用之電子化辭典,亦可為例如UniDic之形態素解析辭典。
大規模文本40係收集之文本之集合,作為資料庫預先準備。亦可於大規模文本40中包含對應欲提取之單詞或該單詞之領域等之任意詞句或字符串。例如亦可自虛擬商場之網站大量收集商品之標題及說明書,由該等不充分資料構築大規模文本40。作為大規模文本40準備之文本之數量壓倒性多於學習語料庫20所含之文本之數量。
將以上作為前提說明辭典產生裝置10之功能構成要素。
模型產生部11係使用學習語料庫20及單詞辭典30產生單詞分割模型之機構。模型產生部11具備向量支援機器(SVM:Support vector machine),將學習語料庫20及單詞辭典30輸入於該機器,執行學習處理,從而產生單詞分割模型。該單詞分割模型表示應將文本如何劃分之規則,作為單詞分割所使用之參數群輸出。再者,機械學習所使用之算則不限於SVM,亦可為決策樹或邏輯回歸等。
為解析大規模文本40,模型產生部11使SVM執行基於學習語料庫20及現有辭典31之學習,從而產生最初之單詞分割模型(基準模型)。然後,模型產生部11將該單詞分割模型向解析部12輸出。
其後,當藉由後述之解析部12、選擇部13及登錄部14之處理對單詞辭典30追加單詞時,則模型產生部11使SVM執行基於學習語料庫20與單詞辭典30全體之學習(再學習)處理,從而產生經修正之單詞分割模型。此處,所謂單詞辭典30全體,意指最初記憶於現有辭典31之單詞,及自大規模文本40獲得之所有單詞。
解析部12係對大規模文本40執行將組入單詞分割模型之解析(單詞分割),且對各文本賦予(附關聯)界限資訊之機構。其結果,大量獲得如圖3所示之文本。解析部12對形成大規模文本40之各文本執行如此之單詞分割,從而將表示上述「分割」(第2資訊)、「半分割」(第3資訊)及「非分割」(第1資訊)之界限資訊賦予至各文本,將經處理之所有文本向選擇部13輸出。
解析部12具備二個二值分類器,依次使用該等分類器將3種界限資訊賦予各文本。第1分類器係判斷文字間位置為「非分割」或其以外之機構,第2分類器係判斷經判斷為非「非分割」之界限係為「分割」或「半分割」之機構。由於實際上文字間位置多半為「非分割」,因此首先判斷文字間位置是否為「非分割」,接著針對經判斷為「非分割」以外之部位判斷分割態樣,從而可有效率地將界限資訊賦予至大量之文本。又,藉由組合二值分類器,而可簡化解析部12之構造。
選擇部13係自藉由解析部12賦予界限資訊之文本中選擇登錄於單詞辭典30之單詞之機構。
首先,選擇部13根據下述式(1)求得輸入之文本群所含之各單詞w之合計出現頻率fr (w)。該計算意指自賦予各文字間位置之界限資訊bi 獲得出現頻率。
此處,O1 表示單詞w之書寫之出現,如下述定義。
圖3所示之「。」(bo-rupen wo katta)之一個詞句之單詞「(bo-rupen)」之出現頻率成1.0*1.0*1.0*0.5*1.0*1.0=0.5,該詞句之單詞「(pen)」之出現頻率成0.5*1.0*1.0=0.5。此意指看作該詞句中「(bo-rupen)」及「(pen)」之單詞分別每隔0.5次出現者。選擇部13求得各文本所含之各單詞之出現頻率,合計每個單詞其出現頻率,從而獲得各單詞之合計出現頻率。
繼而,選擇部13自大規模文本40內之單詞群中僅將合計出現頻率為第1閾值THa以上之單詞作為登錄候補V選擇(根據頻率之單詞之截斷)。然後,選擇部13自該登錄候補V中選擇最終登錄於單詞辭典30之單詞,於必要時決定儲存該單詞之辭典(資料庫)。最終登錄之單詞及儲存端之辭典之決定方法不限於一個,可使用如下述之各種方法。
選擇部13亦可決定為僅將登錄候補V中合計出現頻率為特定閾值以上之單詞追加於現有辭典31。此時,選擇部13可僅選擇合計出現頻率為第2閾值THb(其中THb>THa)之單詞,亦可僅選擇合計出現頻率達上位n位之單詞。以下亦將如此之處理稱作「APPEND」。
或選擇部13亦可決定為僅將登錄候補V中合計出現頻率為特定閾值以上之單詞登錄於追加辭典32。此時選擇部13可僅選擇合計出現頻率為第2閾值THb(其中THb>THa)之單詞,亦可僅選擇合計出現頻率達上位n位之單詞。以下亦將如此之處理稱作「TOP」。
或又選擇部13亦可決定為將所有登錄候補V登錄於追加辭典32。以下將如此之處理稱作「ALL」。
或選擇部13亦可決定為將登錄候補V根據合計出現頻率分成複數個部分集合,將各部分集合登錄於個別之追加辭典32。將登錄候補V中合計出現頻率達上位n位之部分集合記作Vn 。此時,選擇部13例如產生含達上位1000位之單詞之部分集合V1000 、含達上位2000位之單詞之部分集合V2000 、含達上位3000位之單詞之部分集合V3000 。然後,選擇部13決定將部分集合V1000 、V2000 及V3000 登錄於第1追加辭典32、第2追加辭典32及第3追加辭典32。再者,產生之部分集合之個數或各部分集合之大小亦可任意決定。以下將如此之處理稱作「MULTI」。
若選擇最終登錄之單詞且決定儲存端之辭典,則選擇部13將該選擇結果向登錄部14輸出。
登錄部14係將由選擇部13選擇之單詞登錄於單詞辭典30之機構。單詞辭典30中於哪一辭典登錄單詞依賴於選擇部13下之處理,因此登錄部14可能僅於現有辭典31中登錄單詞,或可能僅於一個追加辭典32中登錄單詞。上述「MULTI」處理之情形時,登錄部14將所選擇之單詞分成複數個追加辭典32進行登錄。
如上述,追加於單詞辭典30之單詞用於單詞分割模型之修正,但亦可在單詞分割以外之目的下使用單詞辭典30。例如亦可為形態素解析,或具備自動輸入功能之輸入盒之輸入候補語句之顯示,或用以提取固有名詞之知識資料庫等而使用單詞辭典30。
接著使用圖4,說明辭典產生裝置10之動作且針對本實施形態之辭典產生方法進行說明。
首先,模型產生部11於SVM執行基於學習語料庫20及現有辭典31之學習,從而產生最初之單詞分割模型(基準模型)(步驟S11、模型產生步驟)。接著,解析部12對大規模文本40執行組入有該基準模型之解析(單詞分割),將表示「分割」、「半分割」或「非分割」之界限資訊賦予(建立關聯)至各文本(步驟S12、解析步驟)。
繼而,選擇部13選擇登錄於辭典之單詞(選擇步驟)。具體而言,選擇部13基於附界限資訊之文本算出各單詞之合計出現頻率(步驟S13),將該頻率為特定閾值以上之單詞作為登錄候補而選擇(步驟S14)。然後,選擇部13自登錄候補中選擇最終登錄於辭典之單詞,且決定登錄單詞之辭 典(步驟S15)。選擇部13可使用上述APPEND、TOP、ALL、MULTI等方法,選擇單詞並指定辭典。
繼而,登錄部14基於選擇部13中之處理,將所選擇之單詞登錄於指定之辭典(步驟S16、登錄步驟)。
利用以上處理,向單詞辭典30之單詞追加結束。本實施形態中,使用經擴張之單詞辭典30修正單詞分割模型。 即,模型產生部11根據基於學習語料庫20與單詞辭典30全體之再學習,產生經修正之單詞分割模型(步驟S17)。
繼而,使用圖5,說明用以使電腦作為辭典產生裝置10發揮功能之辭典產生程式P1。
辭典產生程式P1具備主模組P10、模型產生模組P11、解析模組P12、選擇模組P13及登錄模組P14。
主模組P10係總體控制辭典產生功能之部分。藉由執行模型產生模組P11、解析模組P12、選擇模組P13及登錄模組P14實現之功能係分別與上述模型產生部11、解析部12、選擇部13及登錄部14之功能相同。
辭典差生那程式P1例如係於固定記錄於CD-ROM或DVD-ROM、半導體記憶體等有形記錄媒體之上提供。又,辭典產生程式P1亦可作為與搬送波重疊之資料信號經由網路提供。
如上說明,根據本實施形態,使用賦予界限資訊之學習語料庫20與現有辭典31產生單詞分割模型,組入有該模型之單詞分割應用於大規模文本40中。然後,藉由該應用而自賦予界限資訊之文本集合中選擇單詞,登錄於單詞辭典 30。如此,於亦藉由使用學習語料庫20之解析而對文本集合賦予界限資訊之後,登錄自該文本集合提取之單詞,從而可容易構築大規模之單詞辭典30。
例如「」(sumahoke-su)(英語為「smartphone case」)分成「」(sumaho)與「 」(ke-su),至此為止未知語「」(sumaho)可登錄於辭典中。再者,「」(sumaho)係日語「 」(suma-tofon)之省略語。又,「」(uttororin)之語句(日語「」(uttori)(相當於英語「fascinated」之未知語)亦可登錄於辭典中。然後,使用經構築之辭典進行文本解析,從而可更高精度執行包含已登錄之單詞之詞句(例如包含「」(sumaho)或「 」(uttororin)之詞句)之單詞分割。
其次,表示利用本實施形態之產生裝置10之單詞分割性能之評估之一例。單詞分割形成之評估指標若將使用精度(Prec)、再現率(Rec)及F值之正解語料庫所含的延伸單詞數設為NREF ,將解析結果所含之延伸單詞數設為NSYS ,將解析結果及正解語料庫兩者所含之延伸單詞數設為NCOR ,則上述3個指標如下定義。
Prec=NCOR /NSYS
Rec=NCOR =NREF
F=2Prec.Rec/(Prec+Rec)
使用UniDic之主詞條名單(不同之304,267詞)作為現有辭典,在棄權參數下使用LIBLINEAR作為向量支援機器。學 習語料庫及大規模文本內之半角文字全都統一成全角,不進行此外之標準化。
首先,針對學習語料庫及大規模文本為相同領域之情形(同一領域之學習)之有效性進行說明。此處,所謂領域,係基於文體、內容(類型)等用以將詞句及單詞群組化之概念。同一領域之學習下,由自虛擬商場A之網站類型無偏向地隨機提取之590商品之標題及說明文,與自虛擬商品B之網站隨機提取之50商品之說明文製作3階段單詞分割之學習語料庫。該學習語料庫之單詞數約為11萬,文字數約為34萬。使用該學習語料庫評估性能。
作為大規模文本,係使用上述虛擬商場A內之所有商品資料之標題及說明文。商品數約為2700萬,文字數約為160億。
於藉由基準模型解析該大規模文本,執行2階段單詞分割之情形時,提取不同之576,954詞,於該解析後執行3階段單詞分割之情形時,提取不同之603,187詞。此處,用以單詞之截斷使用之頻率之閾值為20。採用上述「MULTI」時,將合計出現頻率之上位10萬詞、上位20萬詞、上位30萬詞、上位40萬詞及全體作為分開之辭典追加。採用上述「TOP」時僅使用上位10萬詞。
將利用基準模型之學習結果、使用由2階段單詞分割所得之單詞辭典之再學習結果、及使用由3階段分割所得之單詞辭典之再學習結果表示於表1。表1中之數值均係百分率(%)。
於使用2階段分割再學習之情形時,即使使用哪一方法(APPEND/TOP/ALL/MULTI)追加單詞,F值均上升,此表示使用提案之大規模文本之學習有效。F值之增加幅度按APPEND<TOP<ALL<MULTI之順序增大。由該結果可知,追加單詞時,追加於其他辭典比追加於現有辭典更有效,再者,根據出現頻率追加於其他辭典比將追加之單詞登錄於一個追加辭典更有效。
根據表1,認為分類器自動學習根據單詞之出現頻率不同之貢獻度及重量。再者,於使用3階段單詞分割再學習之情形時,所有情形時基準模型及2階段單詞分割性能更提高。具體言之,藉由考慮半分割,而獲得正確獲得伴隨詞綴之單詞等之改善。
其次,針對學習語料庫與大規模文本不同之領域情形之有效性進行說明。使用之學習語料庫與上述同一領域之學習中者相同。另一方面,大規模文本使用旅行預約網站C內之用戶評論、住宿設施名、住宿計劃名、及自住宿設施之回答。文本數為348,564,其文字數約為1億2600萬。該 大規模文本中,隨機提取150起及50起評論,由人手進行單詞分割,分別作為文本語料庫及能動學習用語料庫(相對於學習語料庫之追加部分)使用。
首先,使用自上述商品領域之學習語料庫學習之基準模型解析旅行領域之大規模文本。該解析性能為下述表2之「基準」。
其次,對商品領域之學習語料庫加入領域適應之語料庫,學習單詞分割模型後,使用其解析大規模文本。該解析性能係下述表2之「領域適應」。解析大規模文本後提取與使用2階段單詞分割不同之41,671詞,提取與使用3階段分割不同之44,247詞。任一情形時均僅使用合計出現頻率為5以上之單詞。
將該等所得之單詞追加於辭典,將使用學習語料庫及領域應用語料庫在學習模型之結果表示於表2。表2中之數值均係百分率(%)。
由該表可知,於學習語料庫與大規模文本領域不同之情形時,3階段單詞分割之情形時發現性能之提高。
以上基於本實施形態詳細說明本發明。但本發明不限於上述實施形態。本發明在不脫離其主旨之範圍內可進行各種變形。
上述實施形態中選擇部13基於出現頻率選擇單詞,但選擇部13亦可不參照其出現頻率而將所有單詞登錄於現有辭典31或追加辭典32。又,單詞之截斷非必要之處理。
上述實施形態中,解析部12解析大規模文本40全體後,進行利用選擇部13及登錄部14之處理,但解析部12亦可將所收集之大量文本分成複數次解析。此時,複數次重複含模型產生步驟、解析步驟、選擇步驟及登錄步驟之一連串處理。例如將大規模文本40分成組群1~3之情形時,以第1環之處理解析組群1,登錄單詞,以第2環之處理解析組群2,進而登錄單詞,以第3環之處理解析組群3,進而登錄單詞。第2環之後之處理中,模型產生部11參照單詞辭典30全體,產生經修正之單詞分割模型。
上述實施形態中使用3階段分割方法,因此界限資訊為3種,但界限資訊之態樣不限於該例。例如亦可僅使用「分割」、「非分割」2種界限資訊進行2階段單詞分割。又,亦可使用「分割」、「非分割」與複數種概率性分割,進行4階段以上之單詞分割。例如亦可進行使用bi =0.33與bi =0.67之概率性分割(第3資訊)之4階段單詞分割。無論採用任一者,相當於第3資訊之分割強度都大於界限資訊為「非分割」情形之強度(例如bi =0),小於界限資訊為「分割」情形之強度(例如bi =1)。
產業上之可利用性
根據本實施形態,可容易構築大規模之單詞辭典。
10‧‧‧辭典產生裝置
11‧‧‧模型產生部
12‧‧‧解析部
13‧‧‧選擇部
14‧‧‧登錄部
20‧‧‧學習語料庫
30‧‧‧單詞辭典
31‧‧‧現有辭典(單詞群)
32‧‧‧追加辭典
40‧‧‧大規模文本(所收集文本之集合)
P1‧‧‧辭典產生程式
P10‧‧‧主模組
P11‧‧‧模型產生模組
P12‧‧‧解析模組
P13‧‧‧選擇模組
P14‧‧‧登錄模組
圖1係表示實施形態之辭典產生裝置之硬體構成之圖。
圖2係表示圖1所示之辭典產生裝置之功能構成之方塊圖。
圖3係用以說明界限資訊(單詞界限標籤)之設定之圖。
圖4係表示圖1所示之辭典產生裝置之動作之流程圖。
圖5係表示實施形態之辭典產生程式之構成之圖。
10‧‧‧辭典產生裝置
11‧‧‧模型產生部
12‧‧‧解析部
13‧‧‧選擇部
14‧‧‧登錄部
20‧‧‧學習語料庫
30‧‧‧單詞辭典
31‧‧‧現有辭典
32‧‧‧追加辭典
40‧‧‧所收集之文本之集合(大規模文本)

Claims (16)

  1. 一種辭典產生裝置,其具備:模型產生部,其使用預先準備之語料庫及單詞群產生單詞分割模型,且對上述語料庫中所含之各文本賦予表示單詞界限之界限資訊,且上述界限資訊包含表示文字間位置上不存在上述界限之第1資訊、表示文字間位置上存在上述界限之第2資訊、及表示文字間位置上概率性存在上述界限之第3資訊;解析部,其對所收集之文本之集合執行組入有上述單詞分割模型之單詞分割,並對各文本賦予上述界限資訊;選擇部,其自藉由上述解析部賦予上述界限資訊之文本中選擇所要登錄於辭典之單詞;及登錄部,其將由上述選擇部選擇之單詞登錄於上述辭典。
  2. 如請求項1之辭典產生裝置,其中上述選擇部基於自藉由上述解析部賦予之上述界限資訊算出之各單詞之出現頻率,選擇所要登錄於上述辭典之單詞。
  3. 如請求項2之辭典產生裝置,其中上述選擇部選擇上述出現頻率為特定閾值以上之單詞。
  4. 如請求項3之辭典產生裝置,其中上述選擇部將上述出現頻率為上述閾值以上之單詞提取作為登錄候補,從上述出現頻率較高之單詞起依次自該登錄候補中選擇特定數之單詞; 上述登錄部將由上述選擇部選擇之單詞追加至記錄有上述單詞群之辭典。
  5. 如請求項3之辭典產生裝置,其中上述選擇部將上述出現頻率為上述閾值以上之單詞提取作為登錄候補,從上述出現頻率較高之單詞起依次自該登錄候補中選擇特定數之單詞;上述登錄部將由上述選擇部選擇之單詞登錄於與記錄有上述單詞群之辭典不同之辭典。
  6. 如請求項3之辭典產生裝置,其中上述登錄部將由上述選擇部選擇之單詞登錄於與記錄有上述單詞群之辭典不同之辭典。
  7. 如請求項3之辭典產生裝置,其中上述選擇部將上述出現頻率為上述閾值以上之單詞提取作為登錄候補,根據上述出現頻率之高低而將該登錄候補之單詞組群化;上述登錄部將由上述選擇部產生之複數個組群個別地登錄於與記錄有上述單詞群之辭典不同之複數個辭典。
  8. 如請求項3之辭典產生裝置,其中將表示該文本之領域之資訊與上述所收集之各文本建立關聯;上述登錄部基於含有該單詞之文本之領域,將由上述選擇部選擇之單詞個別地登錄於針對上述每個領域所準備之辭典。
  9. 如請求項2至8中任一項之辭典產生裝置,其中基於上述第1、第2及第3資訊算出各單詞之出現頻率。
  10. 如請求項9之辭典產生裝置,其中上述解析部具備第1二 值分類器及第2二值分類器;上述第1二值分類器對於各文字間位置判斷是分配上述第1資訊或是分配上述第1資訊以外之資訊,上述第2二值分類器對於由上述第1二值分類器判斷為分配上述第1資訊以外之資訊之文字間位置判斷是分配上述第2資訊或是分配上述第3資訊。
  11. 如請求項1至8中任一項之辭典產生裝置,其中將上述所收集之文本集合分割成複數個組群;上述解析部、上述選擇部、及上述登錄部基於上述複數個組群中之一者執行處理後,上述模型產生部使用上述語料庫、上述單詞群及由上述登錄部登錄之單詞產生上述單詞分割模型,繼而,上述解析部、上述選擇部、及上述登錄部基於上述複數個組群中之其他一者執行處理。
  12. 如請求項9之辭典產生裝置,其中將上述所收集之文本集合分割成複數個組群;上述解析部、上述選擇部、及上述登錄部基於上述複數個組群中之一者執行處理後,上述模型產生部使用上述語料庫、上述單詞群及由上述登錄部登錄之單詞產生上述單詞分割模型,繼而,上述解析部、上述選擇部、及上述登錄部基於上述複數個組群中之其他一者執行處理。
  13. 如請求項10之辭典產生裝置,其中將上述所收集之文本集合分割成複數個組群; 上述解析部、上述選擇部、及上述登錄部基於上述複數個組群中之一者執行處理後,上述模型產生部使用上述語料庫、上述單詞群及由上述登錄部登錄之單詞產生上述單詞分割模型,繼而,上述解析部、上述選擇部、及上述登錄部基於上述複數個組群中之其他一者執行處理。
  14. 一種辭典產生方法,其係由辭典產生裝置執行者,其包含:模型產生步驟,其使用預先準備之語料庫及單詞群產生單詞分割模型,且對上述語料庫中所含之各文本賦予表示單詞界限之界限資訊,且上述界限資訊包含表示文字間位置上不存在上述界限之第1資訊、表示文字間位置上存在上述界限之第2資訊、及表示文字間位置上概率性存在上述界限之第3資訊;解析步驟,其對所收集之文本之集合執行組入有上述單詞分割模型之單詞分割,並對各文本賦予上述界限資訊;選擇步驟,其自於上述解析步驟中被賦予上述界限資訊之文本中選擇所要登錄於辭典之單詞;及登錄步驟,其將於上述選擇步驟中選擇之單詞登錄於上述辭典。
  15. 一種辭典產生程式產品,其使電腦執行:模型產生部,其使用預先準備之語料庫及單詞群產生單詞分割模型,且對上述語料庫中所含之各文本賦予表 示單詞界限之界限資訊,且上述界限資訊包含表示文字間位置上不存在上述界限之第1資訊、表示文字間位置上存在上述界限之第2資訊、及表示文字間位置上概率性存在上述界限之第3資訊;解析部,其對所收集之文本之集合執行組入有上述單詞分割模型之單詞分割,並對各文本賦予上述界限資訊;選擇部,其自藉由上述解析部賦予上述界限資訊之文本中選擇所要登錄於辭典之單詞;及登錄部,其將由上述選擇部選擇之單詞登錄於上述辭典。
  16. 一種記憶辭典產生程式之電腦可讀取記錄媒體,該辭典產生程式使電腦執行:模型產生部,其使用預先準備之語料庫及單詞群產生單詞分割模型,且對上述語料庫中所含之各文本賦予表示單詞界限之界限資訊,且上述界限資訊包含表示文字間位置上不存在上述界限之第1資訊、表示文字間位置上存在上述界限之第2資訊、及表示文字間位置上概率性存在上述界限之第3資訊;解析部,其對所收集之文本之集合執行組入有上述單詞分割模型之單詞分割,並對各文本賦予上述界限資訊;選擇部,其自藉由上述解析部賦予上述界限資訊之文本中選擇所要登錄於辭典之單詞;及 登錄部,其將由上述選擇部選擇之單詞登錄於上述辭典。
TW101133547A 2012-02-28 2012-09-13 A dictionary generating device, a dictionary generating method, a dictionary generating program product, and a computer readable memory medium storing the program TWI452475B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201261604266P 2012-02-28 2012-02-28

Publications (2)

Publication Number Publication Date
TW201335776A TW201335776A (zh) 2013-09-01
TWI452475B true TWI452475B (zh) 2014-09-11

Family

ID=49081915

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101133547A TWI452475B (zh) 2012-02-28 2012-09-13 A dictionary generating device, a dictionary generating method, a dictionary generating program product, and a computer readable memory medium storing the program

Country Status (5)

Country Link
JP (1) JP5373998B1 (zh)
KR (1) KR101379128B1 (zh)
CN (1) CN103608805B (zh)
TW (1) TWI452475B (zh)
WO (1) WO2013128684A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701133B (zh) * 2014-11-28 2021-03-30 方正国际软件(北京)有限公司 一种地址输入的方法和设备
JP6813776B2 (ja) * 2016-10-27 2021-01-13 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法及びプログラム
JP6707483B2 (ja) * 2017-03-09 2020-06-10 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
WO2018232581A1 (en) * 2017-06-20 2018-12-27 Accenture Global Solutions Limited AUTOMATIC EXTRACTION OF A LEARNING CORPUS FOR A DATA CLASSIFIER BASED ON AUTOMATIC LEARNING ALGORITHMS
JP2019049873A (ja) * 2017-09-11 2019-03-28 株式会社Screenホールディングス 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
CN109033183B (zh) * 2018-06-27 2021-06-25 清远墨墨教育科技有限公司 一种可编辑的云词库的解析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288673A (ja) * 1996-04-23 1997-11-04 Nippon Telegr & Teleph Corp <Ntt> 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
JP2002351870A (ja) * 2001-05-29 2002-12-06 Communication Research Laboratory 形態素の解析方法
TW200729001A (en) * 2005-01-31 2007-08-01 Nec China Co Ltd Dictionary learning method and device using the same, input method and user terminal device using the same
JP2008257511A (ja) * 2007-04-05 2008-10-23 Yahoo Japan Corp 専門用語抽出装置、方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1086821C (zh) * 1998-08-13 2002-06-26 英业达股份有限公司 汉语语句切分的方法及其***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288673A (ja) * 1996-04-23 1997-11-04 Nippon Telegr & Teleph Corp <Ntt> 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
JP2002351870A (ja) * 2001-05-29 2002-12-06 Communication Research Laboratory 形態素の解析方法
TW200729001A (en) * 2005-01-31 2007-08-01 Nec China Co Ltd Dictionary learning method and device using the same, input method and user terminal device using the same
JP2008257511A (ja) * 2007-04-05 2008-10-23 Yahoo Japan Corp 専門用語抽出装置、方法及びプログラム

Also Published As

Publication number Publication date
TW201335776A (zh) 2013-09-01
KR101379128B1 (ko) 2014-03-27
JP5373998B1 (ja) 2013-12-18
CN103608805A (zh) 2014-02-26
WO2013128684A1 (ja) 2013-09-06
KR20130137048A (ko) 2013-12-13
JPWO2013128684A1 (ja) 2015-07-30
CN103608805B (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
KR102431549B1 (ko) 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108287858B (zh) 自然语言的语义提取方法及装置
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN109416705B (zh) 利用语料库中可用的信息用于数据解析和预测
TWI452475B (zh) A dictionary generating device, a dictionary generating method, a dictionary generating program product, and a computer readable memory medium storing the program
US20160189057A1 (en) Computer implemented system and method for categorizing data
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和***
CN110851590A (zh) 一种通过敏感词检测与非法内容识别进行文本分类的方法
CN106030568B (zh) 自然语言处理***、自然语言处理方法、以及自然语言处理程序
US20200311345A1 (en) System and method for language-independent contextual embedding
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
JP6186198B2 (ja) 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
CN113076748A (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
US20140358522A1 (en) Information search apparatus and information search method
JP2011238159A (ja) 計算機システム
US20150019382A1 (en) Corpus creation device, corpus creation method and corpus creation program
JP6689466B1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
JP5184195B2 (ja) 言語処理装置およびプログラム
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
CN115495636A (zh) 网页搜索方法、装置及存储介质
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
CN112364666A (zh) 文本表征方法、装置及计算机设备
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム