TW490654B - Method and system of automatically extracting new word - Google Patents

Method and system of automatically extracting new word Download PDF

Info

Publication number
TW490654B
TW490654B TW089120663A TW89120663A TW490654B TW 490654 B TW490654 B TW 490654B TW 089120663 A TW089120663 A TW 089120663A TW 89120663 A TW89120663 A TW 89120663A TW 490654 B TW490654 B TW 490654B
Authority
TW
Taiwan
Prior art keywords
corpus
words
patent application
segmenting
scope
Prior art date
Application number
TW089120663A
Other languages
English (en)
Inventor
Li-Qin Shen
Qin Shi
Hai-Xin Chai
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Application granted granted Critical
Publication of TW490654B publication Critical patent/TW490654B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

490654 A7 B7 五、發明說明( 本發明涉及語言處理技術領域,尤其涉及從語料庫中提 取新詞的方法。 在很多語言處理技術中,詞是最基本的。例如,具有不 同屬性的詞彙表是自然語言暸解、機器翻譯、自動撰寫摘 要等的基礎。為了檢索資訊,總是用詞作為搜尋單位來減 少檢索結果的冗餘。在語音辨識中,也通常把詞作為最低 層次的語言資訊,並基於詞建立語言模型,以解決單字層 次上的聲覺不確定性。然而,在有些語言例如中文、日^ 的書面文字中,在詞之間不會留有空彳各,並且對詞的構成 也沒有明確的定義。例如,有些人可能認為”吃東西”是一 個詞,而另一些人則認為它由兩個詞,,吃,,和,,東西”組成。 -般說來’中文詞由—個中文字或多個中文字組成,他們 是具有特定意義的基本單位。已經有很多人工收集的詞彙 表:它^重寫了不同領域的不同範圍。然而要收集這樣的 詞彙表是不容易的。而1,語言在不斷地發展,新詞也在 不斷地出現。例如,”互聯網,,在若干年以前不是—個詞, 但現在它卻作為一個詞在廣泛地使用。因此,人們迫切兩 要一種從給定的大量語料中自純取新詞的方&。本發: 的目的就是提供一種能夠自動從語料森中提取新詞的方 法。 … 為了達成以上目的,本發明提供了 — 」種自動提取新詞的 万法,包括步騾:對原始語料庫進行分 上L由·齡 丁刀#又,成為分段的語 料庫,知分段的語料庫分割成子串 野于申在語料庫中的 出現次數進行統計;過濾掉假詞,輸出新詞。 -4- 本紙張尺度適用中國國家標準(CNS)A4規格(21〇 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) --------訂---------線· 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明說明( 為了達成以上目的,太恭0H、班〗 ,.. 泰月遲挺供了一種自動提取新詞 的系統,用於將原始言五粗鹿八a、^ 、 %科厗分成分段的語料庫的裝置;用 於將分段的語料庫分割成早虫 ’ J成子串並對子_在語料庫中的出現 次數進行統計的裝置;以乃 / 、 用万;過濾掉假詞,輸出新詞的 裝置。 圖1是本發明的自動新与]P^ 斤ο才疋取系、、无的基本原理圖。如圖i 所示,本發明的系統舍一 八 匕栝個刀段板組1,採用廣泛使用 的最大符合方法或統計分鉛女、、么★、 几T刀+又万法或下面將要描述的本發明 的分段方法將原始語料庫分成單位序列形成分段語料庫; -個GAST模組2 ’利用上面的分段語料庫構建—個_丁並 將各子串在原始語料庫中出現的次數進行統計;一個新詞 提取模組3,根據濾波統計和濾波規則濾除子串中的偽 詞,從而最後輸出新詞。各模組的詳細作業將在下面分別 洋細描述。 下面描述如何根據本發明構建通用原子後置樹(GAST)。 首先定義字串S = ul,u2...uN,其中ul是S的單位串。定義 suffixi=ui,ui+l,."uN (l<=i<=N)為 S 的後置串。一個字串 s 的原 子别置樹(AST)是帶邊和葉子的樹,其中每個葉子都與對應 suffixi的下標i(i<=i<=N)相關聯。每條邊上都標有字元,從 而每條邊上只有一個單位串並且這些被標記的邊沿從根到 下標為i的葉子的路徑串接起來形成suffixi。圖2中示出了串 ababc的AST的例子。關於AST的構建在 由 Lucas Chi Kwong Hui 發表在 1992 年的 Proceedings of the 2nd Symposium on
Combinatorial Pattern Marching 第 230 到 243 頁的論文 Color Set -5- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ----------------- (請先閱讀背面之注意事項再填寫本頁) 490654
Size Problem with Application to String Matching 中有詳細描敘 這裡就不再詳述。從AST的結構中,我們可以得到AST的每 個節點的資訊,包括·· 目前節點(例如··節點6) 路路-徑曰(fb所有被標誌的邊沿從根到節點丨的路徑串接起來);(節點6的 路位计數(路徑在事中出現的次數),·(”沾”在串ababc中出現兩次) 子節點節點i,…,節點j ;(節點8和節點9) 父節點節點f;(節點3) 串S(S的長度=n)的AST可以在一個〇 (N2)的空間中建 立。對那些計數為n的節點,意味著在建立AST時一共被使 用了 η次。如果忽略因節點重複使用而節省下的空間,ast 的大小是:Ν(Ν+1)/2。實際上,這是所有節點的計數和。 AST的原理可以被擴充到去儲存多於一個的輸入串。該 擴充被稱為通用原子後置樹(GAST)。如果有μ個長度為Νί 的串(1<=Ι<=Μ),則GAST的節點數目(所需的空間)為: g 零/+1) 圖3示出了包括串’’ abcan n bcab” ’’ acbb’,的GAST的例子。 從GAST的樹形結構中,我們很容易得到所有子串的列表以 及它們在語料庫中的出現次數。 下面描述分段邊界(SB)模板、新詞模板和gasT所需空間 的壓縮。 雖然GAST是是一種能夠簡潔地表示串的很好的資料結 -6- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) —— (請先閲讀背面之注意事項再填寫本頁) 訂---------線· 經濟部智慧財產局員工消費合作社印製 490654 A7 經濟部智慧財產局員工消費合作社印製 五、發明說明( 構,將它實際應用於新詞提取時還是有一些問題。對於— 個很大的語料庫’冑立對應的⑽丁結構所需空間太大,、效 率不高甚至於不可行的。 > 通常我們需要處理幾百萬到幾十億個字的語料庫,從中 提取某-新領域中的新詞。如果將它們作為—個串輸入到 AST’由於需要的空間太大,要構建這樣的—個a 際的。 1只 透過定義隨板和新詞模板,我們能夠將很長的輸人串 分成較小的部份,從而能夠顯著地降低空間需求以 GAST和實際達成自動新詞提取。 如上所述,對於長度為N的事S的AST的大小為 n(:1)/2。如果將串分成k個相等的部份,對於具輸 入串的GAST’其所需的空間4 N/2[(跳)+ι]。節 空間為心Π似)]。例如,如果—個職符號長的串被= 成兩個相等的部份’節省下來的⑽丁節點有25個。 ,固子兀長的串被分成了 4個相等的部份,貝" 的郎點有150個。 卜木 由於目標新詞不可能很長,因此正確定義叫將 /刀成短串而又不丟失很有可能的新料很關鍵的。 下面是一些SB模板(SBp)的定義: SBP A :標點符號自然是SB ; 在語料庫巾物拉健字和字母是卜類犯。 對於另外的SBP,我們考慮兩種情況: 1·以基本的公共詞彙表為基礎,定義新詞模板對子串進行 冰張尺—财 Γ%-先閱讀背面之注音?事項再填寫本頁} φ 訂---------線· 五、發明說明(5) 限制。 儘管有很多領域並且每 也不管語言的發展有多麼迅速=有有自:=門詞彙表’ 個領域中-直都使用著,例如”:二一些基本詞囊是在名 以首先利用公共詞彙的詞 將、,i活”等。我們可 料庫將由單字詞和多字詞組成來將語料庫分段。分段的語 例如, 2表著t生活方式的互聯網技術心再會將弱視和失明者拒之門 其分段結果為 代表著未來生活方式的互聯 者拒之門外。(2) 、支*將不再會將弱視和失明 以W表示多字詞,以c表示單字詞,上述句子可以表示 為, W1C1W2W3W4C2C3C4C5W5C6W6C7C8W7C9W8C10C11C12W9 其中,W3表示”生活”,q表示,,聯,,,以此類推。 定義新詞模板(N w P )如下: NWPA: CiCi+1...Cj’表示所有由單字詞組成的串。例如上面 句子中的”互聯網,,。 而P B : WlCk或者CiWk或者WiCkWi+i或者CiW心1等等,表示由 單字和多字詞組合而成的串例如,上面句子中的f,失明者f f。 一對於杈板WiWi+1,表7F多竽詞+多字詞,他們通常稱為複 合詞,一般來講不會是要找的新詞。因此,在多字詞之 間,我們可以設定SB。我們稱這樣的模板為SBp c。 -8 - 本紙張尺度適用中國國家標準(cns)A4規格(210 X 297公爱) 490654
經濟部智慧財產局員工消費合作社印製 根據上面的原理分析上面的句子。因為,,未來,,、,,生活,, 和’'方式π都屬於已知的多字詞,所以”未來,,和,,生活,,的組 合是多字詞+多字詞,同樣,”生活”和,,方式,,的組合也是 多字詞+多字詞,所以可以在,,未來,,和,,生活”及”生活”和” 方式”之間設定SBPC。又因為”生活,,是已知的公共詞彙, 所以可以忽略,,生活,,這個詞並將兩個SBp C合併。 我們定義”|”來表示SB,分析後的句子⑴看起來是: 代表著未來|方式的互聯網技術將不再將弱視和失明者拒 之門外丨 表有兩個亭· (1) 代表著未來 (2) 方式的互聯網技術將不再將弱視和失明者拒之門外 而不是整個句子(1)將會被輸入來構建GAST。 依據同樣的準則’可以對這類模板的各種形式根據需要 進行進一步細化,以減少GAST所需的空間。其中SBP和 NWP的具體定義可以根據不同的需要隨時增加或者修改。 例如,在其它實施方式中,可以認為只有兩個字的多字詞 加只有兩個字的多字詞不屬於複合詞,有可能是新詞。根 據詞的構成分析,本領域的普通技術人員顯然可以設計出 各種另外的新詞模板。這種用SBP將原始語料中的句子分 割成短串的方法也可以用於其他語言處理的領域。 如果我們使用30,000個詞作為基本詞彙表,當我們分析 有3497個詞的資訊技術的特定領域詞彙時,我們得到了 990 個NWPA詞和2507個NWPB詞。 -9- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) --------------------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 490654 A7 B7 7 一 一 發明說明() 利用上面定義的SBP,我們對資訊技術領域的一百萬大 小的語料庫進行了統計,其結果如表丨所示。 從表!可以看出,利用咖八^和卜以灯節點的數 目’即構建GAST所需空間的大小顯著減小。 2 ·不用公共詞彙表。直接從單字詞開始新詞提取。 這種情況可以看成是1的特例,其中的公共詞彙表僅由 單字詞組成。在這種情況下,SBp八和B可以被用來分割語 料庫。 我們可以根據所需詞長的上限來進一步削減GAST。通常 一個長詞可以被分割成幾個短詞,並且對於詞彙,詞長有 一個上限Nup,例如Nup= 5或7。因此,對於那些路徑長度 大於Nup的節點,在構建AST時可以把它們剪除。從而對於 串長度為N的AST的大小將從1+2+3 + ··.+ν減少到 Nup +.....Nur。 ' / y
N 利用該方法,對於1M大小的IT語料庫,其所需的空間如 表1的行5所示。 與行2相比,節省的空間是110,162個節點。 〇·基本詞彙(詞) SBP SB的數目 串的平均長度 GAST節點的數目 1.所有中國字 A 29,768 12.46 2,496,219 2·所有中國字 A+B 38,063 8.22 1,442,366 3.60K A+B+C 31,921 4.52 398,220 4.30K A+B+C 31,515 4.61 407,522 5·所有中國字 A+B&Nup=7 38,063 8.22 1,3 3 29204 —----- 表1 IT領域中1M大小的語料庫的統計分析 利用上面的機制,為自動新詞提取而構建GAST所需的办 -10- ^ 本紙張尺度適用中國國家標準(CNS)A4規格(210 x 297公釐) (請先閱讀背面之注意事項再填寫本頁) --------訂---------I . 經濟部智慧財產局員工消費合作社印製 490654 經濟部智慧財產局員工消費合作社印製 -11 - A7 五、發明說明() 間是可以達成/控制的。 構建好GAST後,就可以如下所述進行新詞的提取了。 詞的基本定義是那些經常在一起使用的子串。因此,每 個節點路徑的計數是判定該路徑是否是—個新詞的基本^ 量。如果我們將"新詞"定義為一個在語料庫中至少出現過 K次的連續字事’其中具體的κ值可以根據選擇新詞的需 要自行設定,例如設定K = 5,則自動新詞提取的基本原理 是用上面描述的方法構建-個相對的⑽丁,並對其原^路 徑計數進行修正,然後對於該樹内的每—個節點,、如Μ 修正過的節點計數大於等於Κ,則其對應的相對子串是二 個所定義的新詞。本領域的技術人員將知道如何根據特定 的領域,特定的原始語料庫的大小等具體因素透過試 分析來設定合適的定限(thresh〇ld)。 — 3 因為GAST的構建方式和特性並不能保證所有獲得的 都是真正合理有用的,所以在本發明的實施方式中還可以 採用其它技術來對新詞列表進行修剪。這些技術如 述° A ·限制功能詞 在中文或日文中,有一些詞是經常使用的,如,,的”,” 也”或”了”。這些輔助詞通常不能成為一個新詞的結尾 者開頭部份,不管它們的存取計數有多大。 s B ·選取較長的詞 在GAST中,如果—個節點的計數等於其所有子節點 數f同時其所有子節點都已輸出’則意味著該節點所對 私紙張尺¥週用中國國家標準(CNS)AJ^210 x 297 --------訂---------線 (請·先閱讀背面之注音?事項再填寫本頁} 490654
足的相對子串在給定的語 串即徒装呌奴丄 卞犀τ成子從不單獨出現, ο使其叶數大於等於κ也不Μ子 詞可能單猶+ , 個新蚵。因為有此 月匕早獨出現,也可能與別的更長的詞哥二 在具體演算法中可以每當輸出一個較長 。所以 的詞所對應的串的子串所對應 '争’將該較長 二:點所對應的計數值。若這些子· Τ取後遠大於定限,則這些子申除了與較長: 的詞出現外,本身還可能作為一個詞出現。 斤對應 方法Α和方法Β可以有效地保證刪除 興趣的新詞。 1疋+枭明感 C.還可以根據先驗概率來建立過滤規則。例如,如 有-個從標準語料庫導出的先驗統計語言模型,從 得到了⑽…職)’它是新提取的詞勝政_出現的概 率,我們可以很容易從目前語料庫中計算出pc㈤一。如 經濟部智慧財產局員工消費合作社印制衣 果PC(WL..Wn)/Ps㈤…戰)的值較大,則意味著_在目前語 料庫中出現的概率比在標準語料庫中出現的概率相對較 高’它是-個該領域内的真正新詞。否則,意味著廳的組 合在標準領域中已經很普通,所以不是一個新詞。 圖4示出了根據本發明的新詞提取方法的一種達成方 式。如圖4所示,流程從方框4〇1開始,構建好gast,並對 GAST按寬度優先遍歷的節點序列排序N1,N2,。例 如,如圖3所示,排序方式為節點川為1/5,犯為2/4,如為 3/3 ’ .·_Ν17為17/1。接著到達方框4〇2,設定一個控制變數 s=m,在圖3的情況下m=17,所以s=17。接著到達方框 -12- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱) 490654 A7 10. 五、發明說明( 訂 ,看節點Ns的計數值是否大於等於定限k。在圖3的例 子中,計數值等於1,小於定限(假設定限大於丨,這是通 苇的)所以流程到達方框410 ,將控制變數s的值減i,即 打算對下一個節點進行處理。接著到達方框411,判斷s是 否大於〇,即判斷是否還有節點待處理。若判斷結果$ 否,則流程到達方框412結束。若方框411的判斷為是,則 流程又到達方框403進行處理,判斷該節點的計數值是否大 於定限。假設這次計數值大於定限,則流程到達方框I 判斷該節點是否是一個功能詞。若判斷結果為是,則流程 到達方框41〇進行上面已經描述的處理。若方框侧的判斷 為否,則到達方框術,取出該節點對應的路徑並作為新詞 輸出。輸出新詞後,流程到達方框彻,對該新詞中的任何 -個子串所對應的節點的計數值減去該新詞所對應的節點 的計數值並寫回原處’如方框彻所示。例如,如果在方框 407所輸出的新詞為,,日新月異",則對,,曰"日新,,,,,日 新月”,"新,,’”新月新月異”,”月|,,|,月異”所對應 的節點的計數值都減去節點”日新月異”所對應的計數值並 罵回原處。在方框4〇5判斷是否所有的子串已經處理完畢, =所有的子串處理完畢則到達方框41〇接著上面描述的處 經過以上的處理’我們可以得到一個新詞列表。顯然上 Γ流程在具體達成中可以有各種變形。例如,本實施例 中是把-料字也當成可㈣㈣。在其它的 如果總是不把單字當成—個新 1 ^幻處理流程可以簡化。 13 490654 A7 B7 第89120663號專利申請案 中文說明書修正頁(91年3月)
1功能詞的步驟也可以不要。 本領域的技術人員將會明白,可以對上述的實施方式進 行各種改進而不會偏離本發明的範圍。例如,如果目前面 所述的功能詞剛好出現在標點符號的前面或後面時,因為 功能詞一般不會是詞頭或詞尾,所以可以與標點符號一起 當成分段符。利用公共詞彙表進行分割可以與限定子串長 度進行分割結合使用。 圖式之簡單說明 圖1為本發明的自動新詞提取系統的基本原理圖; 圖2為串ababc的AST的例子; 圖3為包括串’’ abca” ’’ bcabn ’· acbbn的GAST的例子;以及 圖4為根據本發明的新詞提取方法的一達成流程圖。 元件符號說明 1 分段模組 2 GAS 丁模組 3 新詞提取模組 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)

Claims (1)

  1. 490654 A8 B8 C8 D8
    六、申請專利範圍 1· 一種自動提取新詞的方法,包括步驟: 對原始語料庫進行分段,成為分段的語料庫; 將分段的語料庫分割成子串並對子 次數進行統計;以及中的出現 過滤掉假同,輸出新詞。 2.如申請專利範圍第1項的方法,其特徵在於: 對原始語料庫進行分段的步驟包㈣用標點符號 伯數字及字母字串或新詞模板進行分段的步驟。-3·如申請專利範園第〗或2項的方法,其特 始語料庫進行分段的步驟還包括利用公共詞對原 $1的步驟。 〗果表進行分 4.如申請專利範園第…項的方法,其特徵在於: 對分段的語料庫進行分割及統計的 GAST結構進行分刻及統計的步辨。 括透過構建 5·:申請專利範圍第4項的方法,其特徵在於 :丁結構的步驟還包括限…的 6.如申請專利範園第i、2、4或 ίΛ 於··濾除假詞的步驟包括: 、 其特徵在 遽除功能謂; 濾除那些幾乎總是與更長的子_ — 消 濾除其出現次數少於預定定限的予串。見的子串,以及 .如申請專利範圍第〗、2、4或5項心 於:對原始語料庫進行分段的步碌法’其特徵在 ^匕括將預先辨識出 I - 10 - 本紙張尺度翻帽國家標準(CNS)A4規格视公爱) 訂 線 -15-
    、申睛專利範圍 經濟部智慧財產局員工消費合作社印製 力q作為分段符進行處理的步驟。 8 .如申請專利範圍第3艰 料庫ϋγ八π 的万法,其特徵在於:對原始言| 竹犀進仃分段的步驟還 分俨#、彳、y ^匕括將預先辨識出的功能詞作為 刀&付進伃處理的步驟。 S 9 ·如申凊專利範圍第3 的步驟包括: )万法,其特徵在於:滤除假詞 /慮除功能詞; 滤除那些幾乎總是血 、♦入 、更長的子串一起出現的子串;以及 濾除其出現次數少於預定定限的子串。 10. —種自動提取新詞的系統,包括: 用於將原始語料庫分成分段的語料庫的裝置; 用义將分段的語料庫分成子$並對子串在語料庫中的 出現次數進行統計的裝置;以及 用於過濾掉假詞,輸出新詞的裝置。 11. 如申請專利範圍第10項的系統,其特徵在於: 用毛對原:^浯料庫進行分段的裝置包括利用標點符號或 ***數字及字母字串或新詞模板進行分段的裝置。 12. 如申請專利範圍第10或11項的系統,其特徵在於:對原 始語料庫進行分段的裝置還包括利用公共詞彙表進行分 割的裝置。 13·如申請專利範圍第10或11項的系統,其特徵在於: 對分段的語料庫進行分割及統計的裝置包括透過構建 GAST結構進行分割及統計的裝置。 -16 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) - — — — — — — II ^ 11111111 · (請先閱讀臂面之注意事項再填寫本頁) 490654 六、申請專利範圍 ⑷如申請專利範圍第13項的系統,其特徵在於:構建 GAST結構的裝置還包括料限定子串的長度的裝置。 15. 如申請專利範圍第1〇、 13或14項的系統,其特徵在 表·濾除假詞的裝置包括: 滤除功能同的裝置; 滤除那些幾乎總是與更長的子串一起出現的子串 置;以及 濾除其出現次數少於預定定限的子串的裝置。 16. 如申請專利範園第丨0、1 2、η或㈣的系統,其特徵在 訂 於··對原始語料庫進行分段的裝置還包括將預先辨識出 的功能岡作為分段符進行處理的裝置。 Π.如申請專利範園第12項的⑽,其特徵在於:對朴士五 料庫進行分段的裝置還包括將預先辨識出的功 分段符進行處理的裝置。 、'、 線 二=_啊統一於:;慮除假詞 濾除功能詞的裝置; 那些幾乎總是與更長的子串一起出現的子串裳置; 濾除其出現次數少於預定定限(threshoId)的予串裝置。 1 ____ - 17- 2 獨家標準(CNS)A4 規格(21〇7^7?i
TW089120663A 2000-08-30 2000-10-04 Method and system of automatically extracting new word TW490654B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB001264710A CN1226717C (zh) 2000-08-30 2000-08-30 自动新词提取方法和***

Publications (1)

Publication Number Publication Date
TW490654B true TW490654B (en) 2002-06-11

Family

ID=4591828

Family Applications (1)

Application Number Title Priority Date Filing Date
TW089120663A TW490654B (en) 2000-08-30 2000-10-04 Method and system of automatically extracting new word

Country Status (4)

Country Link
US (1) US7478036B2 (zh)
CN (1) CN1226717C (zh)
MY (1) MY133948A (zh)
TW (1) TW490654B (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
CN100397392C (zh) * 2003-12-17 2008-06-25 北京大学 处理中文新词的方法与装置
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
CN1936893B (zh) * 2006-06-02 2010-05-12 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和***
CN100405371C (zh) * 2006-07-25 2008-07-23 北京搜狗科技发展有限公司 一种提取新词的方法和***
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
CN100458795C (zh) * 2007-02-13 2009-02-04 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法***及其更新方法
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
KR20100029221A (ko) * 2007-06-01 2010-03-16 구글 인코포레이티드 명칭 엔터티와 신규 단어를 검출하는 것
CN100478961C (zh) * 2007-09-17 2009-04-15 中国科学院计算技术研究所 一种短文本的新词发现方法和***
CN100489863C (zh) * 2007-09-27 2009-05-20 中国科学院计算技术研究所 一种新词发现方法和***
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
CN101430680B (zh) * 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及***
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
CN102075611A (zh) * 2009-11-23 2011-05-25 英业达股份有限公司 通话记录方法及手持式通信装置
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及***
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及***
CN103544165A (zh) * 2012-07-12 2014-01-29 腾讯科技(深圳)有限公司 新词挖掘方法和***
CN102930055B (zh) * 2012-11-18 2015-11-04 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN103870449B (zh) * 2012-12-10 2018-06-12 百度国际科技(深圳)有限公司 在线自动挖掘新词的方法及电子装置
US9355084B2 (en) * 2013-11-14 2016-05-31 Elsevier B.V. Systems, computer-program products and methods for annotating documents by expanding abbreviated text
US9460091B2 (en) * 2013-11-14 2016-10-04 Elsevier B.V. Computer-program products and methods for annotating ambiguous terms of electronic text documents
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的***和方法
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
CN107112010B (zh) * 2015-01-16 2021-06-01 三星电子株式会社 用于使用语法模型执行话音识别的方法和设备
CN105488098B (zh) * 2015-10-28 2019-02-05 北京理工大学 一种基于领域差异性的新词提取方法
CN105512109B (zh) * 2015-12-11 2019-04-16 北京锐安科技有限公司 新词汇的发现方法及装置
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
CN108073566B (zh) * 2016-11-16 2022-01-18 北京搜狗科技发展有限公司 分词方法和装置、用于分词的装置
CN111209748B (zh) * 2019-12-16 2023-10-24 合肥讯飞数码科技有限公司 错别词识别方法、相关设备及可读存储介质
CN112668331A (zh) * 2021-03-18 2021-04-16 北京沃丰时代数据科技有限公司 一种专有词挖掘方法、装置、电子设备及存储介质
CN114091433B (zh) * 2021-12-22 2022-08-09 沃太能源股份有限公司 用于分布式储能领域的挖掘新词的方法及其装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4667290A (en) * 1984-09-10 1987-05-19 501 Philon, Inc. Compilers using a universal intermediate language
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US6636162B1 (en) * 1998-12-04 2003-10-21 America Online, Incorporated Reduced keyboard text input system for the Japanese language
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors

Also Published As

Publication number Publication date
MY133948A (en) 2007-11-30
US20020077816A1 (en) 2002-06-20
CN1340804A (zh) 2002-03-20
US7478036B2 (en) 2009-01-13
CN1226717C (zh) 2005-11-09

Similar Documents

Publication Publication Date Title
TW490654B (en) Method and system of automatically extracting new word
TW448381B (en) Automatic segmentation of a text
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
JPH08305730A (ja) 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
Chelba Exploiting syntactic structure for natural language modeling
EP2643770A2 (en) Text segmentation with multiple granularity levels
JP2003505778A (ja) 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
JPS61105671A (ja) 自然言語処理装置
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Xafopoulos et al. Language identification in web documents using discrete HMMs
US7328404B2 (en) Method for predicting the readings of japanese ideographs
EP1627325A1 (en) Automatic segmentation of texts comprising chunsks without separators
CN101667099B (zh) 一种连笔键盘文字输入的方法和设备
JP5203324B2 (ja) 誤字脱字対応テキスト解析装置及び方法及びプログラム
JP3309174B2 (ja) 文字認識方法及び装置
CN113330430A (zh) 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
CN113240485A (zh) 文本生成模型的训练方法、文本生成方法和装置
JP3774431B2 (ja) 辞書構築支援装置および辞書構築支援方法
Mori et al. Robust n-gram model of Japanese character and its application to document recognition
JP2000330984A (ja) 文書処理装置及び方法
KR20040050461A (ko) 한국어 텍스트 상의 개체명 인식 장치 및 방법
JP2023166252A (ja) 情報処理装置、情報処理方法及びプログラム
Blaicher Smt-based text generation for Code-Switching language models
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees