TW299435B - - Google Patents

Download PDF

Info

Publication number
TW299435B
TW299435B TW084102772A TW84102772A TW299435B TW 299435 B TW299435 B TW 299435B TW 084102772 A TW084102772 A TW 084102772A TW 84102772 A TW84102772 A TW 84102772A TW 299435 B TW299435 B TW 299435B
Authority
TW
Taiwan
Prior art keywords
realm
sound
phonological
state
time
Prior art date
Application number
TW084102772A
Other languages
English (en)
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of TW299435B publication Critical patent/TW299435B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Complex Calculations (AREA)

Description

A7 B7 經濟部中央標準局負工消費合作社印装 五、發明説明( 1 ) 1 1 1 [產業上之利用領域] 1 1 I 本 發 明 是 闞 於 認 識 連 讀 音 將 其 變 換 成 音 韻 系 列 之 轚 音 1 1 I 認 識 裝 置 之 改 良 〇 請 1 - Μ | [習知之技術] 讀 背 I Λ 1 W 連 讀 聲 音 進 行 音 韻 之 連 結 來 看 時 依 照 音 韻 楔 態 之 連 之 注 1 1 结 之 韻 模 態 系 列 分 析 輸 入 轚 音 利 用 模 態 演 算 裝 置 求 該 意 事 1 項 1 輸 入 聲 音 之 最 適 當 之 音 韻 横 態 系 列 將 輸 入 聲 音 變 換 成 依 再 填 此 方 式 所 獲 得 之 最 適 當 之 音 韻 模 態 系 列 之 音 韻 之 系 列 在 寫 本 頁 裝 1 此 種 音 韻 起 述 方 式 中 音 韻 横 態 系 列 之 適 用 之 演 算 另 外 經 1 1 由 直 接 檢 測 輸 入 聲 音 中 之 音 韻 之 境 界 音 韻 横 態 系 列 之 應 1 | 用 時 被 限 定 在 檢 測 到 音 韻 橫 態 間 之 遷 移 之 音 韻 境 界 附 近 1 訂 I 藉 以 達 成 認 識 精 確 度 之 提 高 〇 該 習 知 之 音 韻 記 述 方 式 之 1 I 细 節 如 曰 本 平 成 5年1 0月發行之日本音響學會講演論文集 1 1 1- 8 - 5 「狀態間遷移拘束型HMM之 韻 記 述 +J 之 記 憶 〇 1 1 該 習 知 之 韻 境 界 檢 測 為 著 要 Μ 高 精 度 進 行 檢 測 所 Μ 依 昭 前 後 之 韻 來 對 韻 境 界 進 行 分 類 根 據 該 分 類 對 1 I 每 一 種 音 韻 境 界 進 行 機 率 模 態 參 數 之 學 習 和 使 用 0 1 1 圖 8是此種習知之轚音認識裝置之構造圖 =本裝置使用 1 1 根 據 V i t e r b i之演算之HMM演 算 部 1 3作 為 模 態 演 算 裝 置 〇 | HMM演算部1 3所使用之HMM將 1個狀態分配給1 個 音 韻 〇 另 外 1 * 韻 横 態 糸 列 之 境 界 之 產 生 是 出 現 在 ΗΜΜ之狀態間之遷 1 1 移 〇 1 1 另 外 利 用 模 態 演 算 裝 置 $ 對 多 緬 被 設 置 之 韻 横 態 系 1 1 列 進 行 選 擇 韻 模 態 糸 列 作 為 音 韻 糸 列 猶 t5C 換 裝 置 之 最 1 1 本紙張尺度適用中國國家橾準(CNS ) A4规格(210X297公釐)
A7 £7_ 五、發明説明(2 ) 佳狀態糸列檢測部15檢測最佳狀態系列。 下面將說明各部份之動作。 聲音區間檢測部11經由輪人聲音之功率計算用來檢測聲 音區間,然後將該聲音區間内之聲音信號R1送出到特激抽 出部1。
特徵抽出部1從聲音區間内之轚音信號R1中抽出特激參 數時間系列R2,將其發送到作為音韻橫態演算裝置之HMM 5¾算部13和境界檢測部7,該特激參數時間系列R2之構成 I經由分析使用有長度25.6ms之時間窗之15次線性預測音 I旋律分析,由每10ms為0〜10次之音調旋律係數所構成。 境界檢測部7之構造如圖9所示,從持徵參數時間糸列R2 P,檢测對應到音韻境界之分類之轚音中之音韻境界或音 韻境界附近之區域。音韻境界之分類是Μ包夾音韻境界之 先前之音韻名稱作為基準,如圖10所示的被分成14類。 在圖9中,時間窗部2利用特徴參數時間系列R2,對時間 t = 1 « 2 - ......,T,以時間t為中心,將時間幅度10框 架之範圍之0〜7次之音調旋律係數合計80( = 10個框架X 8 次元)個當作1個8 0次元向量(Μ後稱為固定長分段)的進行 抽出,然後輸出該等固定長分段之時間系列R2(以下,以 B t表示中心時間t之固定長分段。) 境界檢測參數記憶部8記憶有境界檢測參數R8。該境界 檢測參數R8之形成包含有構成K(== 14)種之音韻境界之分 類號碼KU=1,2,.....,K)姐C(C=0.1)之固定長分段 之分布(在此表示M(=4)混合之高斯(Gaussiau)混合分布) 本紙張尺度適用中困國家標準(CNS ) A4规格(210X297公釐) 一 5 — ------.----『裝------訂------^ A. (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局負工消费合作社印製 五、發明説明(3 A7 B7 之第m個(m=l,2,......,M)之元件高斯分布之作為參 數之平均向量wmck,共分散行列Smck和分岐機率Amck。 境界可能性計算部9002,9004· .....,9028分別對應 到音韻境界之種類,參照櫬率密度RS0 01,R8002,..... ,R 8028,計算轚音中之音韻境界存在於固定長分段R2之 中心之可能性(境界可能性),當作境界可能性時間系列C 1 (Bt) > C2 (Bt) * .....,Ck(Bt)的進行輸出。分類k之境界 可能性Ck (Bt)是根據式(1)計算在固定長分段Bt之中心存 在有分類k之音韻境界之機率Pr(Btl k,l),和在固定長分 段Bt之中心未存在有分類k之音韻境界之機率Pr(Bt| k,0) 之對數可能性比。其中,櫬率Pr(Bt| k,l)根據式(2)來計 算,和機率Pr(Bt| k,0)根據(3>來計算。 另外,在原理上,在分類k之音韻境界或音韻境界附近 之區域,可Μ使變數Ck(Bt)成為Ck(Bt)>0。 [數1]
Pr(Bt I k.l) C k ( B t) * r (B t I k)= 1 〇 g - ( 1 ) Pr(Bt I k.O) ϋ·— ^^^^1 A—·— ^^^^1 In ^^^^1 I i ml ^ϋν nfv umw ^^^^1 HJ^ . 『i ^ y, (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局負工消費合作杜印製 Μ Pr(Bt|k.l)*I i*lk N(Bt I xiilk. Inlk) (2) 1 Κ Μ Pr ( Β t I k, 0) = - Σ Σ λ»〇Λ Ν(Βι|^·0<,Σβ0λ:) 2Κ-1 λ=1 β=1 Κ Μ + Σ Σ λιΐΛ Ν ( Β t ! /i ·1 α: , Σιιΐ λ ) (3) α: =1. Λ =^1( ·=1 本紙張尺度逍用中國國家橾準(CNS ) A4规格(2丨0><297公釐) 6 經濟部中央橾準局貝工消费合作社印製 A7 B7 五、發明説明(4 ) 圖11M横式方式表示音韻横態系列之HMM之構造。本HMM 由η狀態(η=29)所形成,各個狀態分別對應到1個音韻。 從狀態i變成狀態·}之遷移櫬率M aij表示*另外,時間t之 特激參數xt之狀態j之輸出機率MbjUt)表示。輸出機率 bj(Xt)表示M(=8)混合之混合高斯分市,將第m個之元件 高斯分布之平均向量w mj和共分散行列ΣΒϋ,分岐機率λ mj當作參數,利用式(4)來計算。另外,式中之N(xt| w 表示平均wmj,分散Σπϋ之正規機率密度函數。 該等遷移機率aij和輸出機率計算用之參數被記憶在ΗΜΜ參 數記憶部14。 [數2] Μ jix t) = Σ λ Iij N(x I»j) (4) HMM演算部13參照境界檢測部7境界檢測結果R7和HMM參 數R14,根據Viterbi演算,在表示初期條件之式(7)之條 件下,計算漸化式之式(5>和式(6)。其中之後指標cr (j, t)表示時間t時留在狀態j之機率(向前櫬率 >,召(j,t)表 示在時間t到達狀態j之前一個之最佳狀態號碼。 [數3] 本紙張尺度逍用中國國家梯準(CNS ) A4规格(210X297公漦) —7 一 I n - ( 裝 訂 f 〆 (請先閲讀背面之注意事項再填寫本頁) A7 B7 五、發明説明(5 ) 本間 α (j.。* max (a (i, t-1) a i j b j (x t)) (t®l 2 ··· T) ISiSn. Cij(Bt)>0(ih 時〉』u i乂 A (5) 彡(j. t) * argnax ίσ (i. t-1) a i j b j(x t)} (t=l 2 …T) 1 幻Sn. CiKBt)>〇(i#j 時) "、以’, (6) (i. 〇)β1 (ϋ«1· 2·,··· η) (7)
Hh時 之移 知遷 習間 與態 其狀 ’ 之 示丨 表 式 化 漸 之態 述狀 上從 K當 態 狀 成 變 在 有 只 時 在 是 同 不 之 數 變 照 參 移 遷 之 間 態 狀 許 容 才 態 狀 之 生 list 0 之 界 境 之 列 系 ’態 持 Θ >韻 U 音 (B制 j 艮 ,1 tfp ¥ / 來 用 式 方 —1 種 這 用 利 移 B /IV 遷 j 之ci 間數 移 遷 之 内 態 狀 1 同 外 另 變 到 受 會 不 \»/ 時 制 限 之 数 變 部類 測分 檢。 界— 境 用ck 利性 tt 0 昔 懕可 對界 t)境 (B之 1J界 ;境 画 0 音 η 之 中 k 其類 分
t B 所 7 具 k 之號 得態 算狀 計有 - 叫 裝 訂 ^ / (請先Μ讀背面之注意^項再填寫本頁) 經濟部中央揉準局貝工消費合作社印策 碼i和j之函數K(i,j)。 作為音韻系列變換裝置之最佳狀態糸列檢測部15利用作 為HMM演算結果R3之向前機率a U,t)和後指標/0㈠,t)之 值,輸出最佳狀態系列R15(M後,以/3’(1),/3’(2),.... ,召’(T)表示)。最佳狀態系列R15之獲得是在表示初期條 件之式(9 )之條件下計算漸化式。另外,最佳狀態糸列R 1 5 是以狀態號碼之糸列表示認識結果之音韻系列。 [數4] 本紙《尺度逋用中國國家標準(CNS ) A4规格(210X297公釐) ~ 8 經濟部中央標準局貝工消费合作社印製 A7 B7_ 五、發明説明(6 ) β = t) (t-T.T-l.-.i) A C β ) 及 n> argnax a (j,T) l^jSn (9) [發明所欲解決問題] 在習知之音韻境界檢測之方法中,除了預先決定音韻境 界之分類外,依照該音韻境界之分類,對每一種分類構成 境界特徵量之機率分布模態。 因此,在有不同之音韻境界時,亦需要如同音韻境界之 分類的進行分類,會有可能獲得不適當之特定之音韻境界 為其問題。另外,在習知之方法中,t韻境界之分類經由 仔细的分類,在理論上可Μ設計對應到各個音韻境界之個 別之境界檢測器,但是要收集充分數目之學習資料會有困 難,因此,由於學習資料之不足,不能以充分之精確度設 計為其問題。 另外,在習知之音韻模系列之演算中,當將音韻境界之 出現限制在從輸人聲音中所檢測到之音韻境界或音韻境界 附近之區域時,對於音韻境界可能性進行設定作為臨界值 ,不論音韻境界之分類如何,因為使用一定之值,所Μ由 於音韻境界之不同而造成之音韻境界之可能性之值之分布 之不同(可靠度)未被考應:到為其問題。 [發明之解決手段] 本發明之聲音認識之境界推定方法是分析輸入聲音用Μ 獲得參數群,Μ時間系列展開獲得被展開之參數群,抽出 指定之時間窗中之上述參數群之值作為樣本,算出聲音之 本紙張尺度適用中國國家操準(CNS ) Α4规格(210Χ297公釐) -----.----(裝------訂------^-^ (請先閲讀背面之注意事項再填寫本頁) 五、發明説明(7 A7 B7 境界存在於上逑之窗之中心之程度,在這種情況時,計算 ’ 密 度率 密櫬 率12 機 H之 第心 之中 心之 中窗 之 之 窗述 之上 逑於 上在 於存 在未 存界 界境 境之 之 音 音轚 聲述 述上 上和 密度之 率程界 機之境 Λ/J 心 之 中 音 之聲 窗述 之上 述與 上 算 於 計 在 .. 第存有 述界驟 上境步 含之之 包音含 據聲包 根出所 , 算法 度,方 第 述 上 和 度 密 率 機 度 種 算定闞 計推無 之該類
經濟部中央標準局負工消费合作社印製 和該 度 使 密和 率 ; 機度 之密 得率 算櫬 計I 所 裝r±和 算 算丨度 計AI0 該0>率 用 使,機 之 度Jg得Γ *率U計 係 機U所 之 — 置 項 同 d 裝 共 Ϊ» 之第計 用 乘 相 數 係 式 項 第多 述〜 上 算 計 Μ 用 I 一s 相 數 係 式 項 多 第專 之請 述申 上 , 算外 計另 度 密 率 機 2 裝 識 認 音 聲 種 一 是 明 發 本 之 項 2 第 園 範 利 將述韻 來上音 用用之 , 利中 音 , 音 轚置聲 入裝人 輸測輸 析檢述 分界上 由境測 經;檢 , 數來 置參用 裝激, 出特數 抽之參 激列激 特系特 :間之 有時列 備成糸 具換間 , 變時 置其之 到横 應韻 對音 置述 設上 ’ 生 置產 裝將 算 ’ 演時 態列 横系 ; 態 域模 區韻 之 音 近個 附多 界之 境數 韻參 音激 或特 界述 境上 音 ,音 之置轚 到裝入 測換输 檢變述 置列上 裝系到 測韻應 檢音對 界和擇 境;選 述内 , 上域果 在區結 制之之 限近置 間附裝 時界算 之境演 界韻態 境音模 之或述 列界上 系境用 態韻利 用較 使比 所行 置進 裝值 測界 檢臨 界之 境類 之種 述之 上界 中境 其韻 ; 音 列到 糸應 態對 模與 韻由 音經 之是 當置 適裝 之之 境 韻 ώ0 音 - ml— lm ^^^1 ml ^^^1 ( I (請先聞讀背面之注意事項再填寫本頁)
,1T Ί
A 列 系 間 時 行 進 中 法 方 定 推 界 境 之 識 認 音 聲 之 測 明 檢 發 來3]本 用 在 作 本紙張尺度逍用中國國家橾準(CNS ) Α4規格(210Χ297公釐)
A B7 \—/ 8 /fv 明説 明發 之 樣 示之 所界 中境 之之 窗心 之中 度之 幅窗 間間 時時 之於 定在 指存 Μ 有 ’ 具 出其 抽算 被計 群, 數本 參樣 之為 化作 變值 第 為 作 率 機 高 之 本 第樣 為之 作界 率境 機之 高 心 之中 本之 度 密 率 機 窗計 該後 於然 在 ’ 存度 有密 具率 未機 rvi 算 計 和 機算 該 計 算和 計’ ’ 度 度密 密率 0 ^ a 機 之 同 共 之 闞 無 類 種 之 界 境 之第 音與 轚度 與密 算率 第 述 上 之 乘 相 數 係 式 項 多 機 2 第 述 上 之 I 0 相 數 係 式 項 多 境 。 韻 度 音 密之 率音 聲 入 輸 定 推 是 置 裝 識 0 音 聲 之 第明 與發 度本 密 , 率外 機另 該 之數 類參 種激 之特 界到 境應 韻對 音 將 照 ’ 依界 與境 其韻 使音 ’ 測 域檢 區來 之用 近, 附較 界 比 境行 韻進 音 值 或界 界臨 界從 境 ’ 韻列 音 系 述態 上横 在韻 制音 限備 間準 時式 之 方 生此 產依 所’ 移域 遷區 之之 列近 系 附 態界 模境 Β 員 0 0 音 音 之或 列 条 態 模 圓 0 音 之 當 適 最 擇 選 中 其 例 施 實 例一 施一 實 -----.----(裝-- (請先閲讀背面之注意事項再填寫本頁) 訂
J
A 經濟部中央標準局貝工消费合作社印製 例 施 實 之ΗΜ 明用 發使 本中 明例 說施 , 將實列 面本系 下在態 模 將 是 Μ Μ Η 該 中 Η 例列 施系 實韻 本音 在在 ’ 琨 此出 因 是 韻 。 音韻 為音 作個 \J IX 一在 Η 2 J 酉 "VTI ί 員 Μ 0 Η 音韻 為音 稱之 後態 Μ 狀 Μ(個 模 8 0 音 態 狀 之 生韻 產 音 之 個 境 韻, 音 之 中 列 糸 之 態 間 外 另 ο 移 遷 情 種 這 在 明 發 本 於 用 適 可 亦 音 到 應 對 在 現 出 是 生 產 之 界 境 Β _ 0 者 € Μ 音 ΗΜ之 0 识 音 系 之態 態模 狀韻 個 音 多 , 有時 具況 中 例 之施 移實 遷本 之在 間 , 態外 模另 員 0 列 系 鐵 音 移 遷 之 間 態 狀 用 使 是 者 置 裝 算 之 演 中態 ΜΜ模 丨為 作 本紙張又度逍用中國國家梂率(CNS ) Α4规格(210Χ297公釐) 11 11 經濟部中央橾準局貝工消费合作社印製 本紙張尺度逍用中國國家標準(CNS ) A4规格(210X297公釐〉 A7 B7 五、發明説明(9 ) 演算裝置,將根據通常之格子演算之Η MM演算之和之演算 替換成最大化之演算,該ΗΜΜ演算裝置根據Viterbi之演算 。另外,根據通常之格子演算之HMM演算亦可適用於本發 明。 習知實例和本實施例之境界檢測之原理是計算境界特激 量Bt從音韻境界之分布產生之第1機率密度•和從非音韻 境界之分布產生之第2機率密度,當前者大於後者時就判 定有音韻境界之存在。 此種原理之實用方法,在習知技術中是將音韻環境之分 類分成k個分類其數目比音韻種類η之組合數目(ηΧη)小,
VI 境界特徴量之分布Κ混合連績分布模態表琨,當作各種之 機率密度之線性和,用來表示第1和第2機率密度,另外, 取兩者之比之對數用來表示境界可能性。 與此相對的,在本實施例中,第1和第2機率密度之表現 使用半連績分布模態之方法,如式(10)所示的表現境界可 能性。 [數5] Μ Σ Pile (Bt) 羅=1
Ck (Bt) =1 og ( 1 〇 )
M Σ Qnk i 〈 B t) 在上式中,M是元件分布之數目(和弦表之大小),fm(·) 12 — n * ^ 裝 訂 f π (請先閱讀背面之注意Ϋ項再填寫本頁) 經濟部中央標準局負工消费合作社印製 A7 B7 五、發明説明(10) 是第m個之元件分布之機率密度函數,Pmk和Qmk是以後面 所述之學習方法所求得之多項式係數。另外,整個k是物 理性觀測到之對全部之種類之音韻境界附加之共同號碼, 用來表示音韻境界之種類。亦即,對應到從狀態i到狀態j 之遷移之音韻境界之號碼,使用狀態i和狀態j 一起之函數 k(i,j),具有k=K(i,«i)。另外,該函數k,在i关j時是指 真音韻境界,和在i=j時為非音韻境界(亦即音韻區間之 中心部份)。 依照上述之方法時,境界檢測器之設計之問題可以分離 成音韻境界之種類k為獨立之元件分布之機率密度函數 (fni)之設計(亦即和弦表之設計)之問題,和音韻境界之每 一個種類k之分子分母之多項式係數(Pmk和Qmk)之設計之 問題。該等分母分子之多項式係數之設計,可Μ設計成對 於音韻境界之種類k之境界特激量(Κ固定長分段表示), 使境界可能性變高,對於其他之音韻境界之種類之境界特 徵量,使境界可能性變低。 圖1是本發明之一實腌例之構造圖,其基本之構造與習 知者同樣。下面將說明圖1之各個部份。 聲音區間檢測部11經由輸入轚音之功率計算用來檢測轚 音區間,發出該聲音區間内之轚音信號R1,將其發送到特 徵抽出部1。 特激抽出部1從轚音區間内之聲音信號R1中抽出持徵參 數時間糸列R2,將其發送到作為音韻模態演算裝置之HMM 演算部13和境界檢测部7,該特徴參數時間系列R2之構成 本紙張尺度逍用中國國家標準(CNS ) A4规格(2丨0X297公釐) -- -----;----(裝------訂------^ (請先閲讀背面之注意事項再填寫本頁) A7 B7 ^^ϊ 經濟部中央標準局貝工消费合作社印製 五、發明説明(t 1 ) 是經由分析使用有長度25.6ms之時間窗之15次線性預测音 調旋律分析,由每10ms為0〜10次音調旋律係數所構成。 境界檢測部7之構造如圖2所示。在該圖中,利用特徵參 數時間系列R 2,對於時間t = 1,2,. . . . T,以時間t為中 心,將時間幅度10框架之範圍之0〜7次之音調旋律係數合 計80( = 10個框架X 8次元)個當作1個80次元向量(M後稱 |\ 為固定長分段)的進行抽出,然後輸出該等固定長分段之 A 時間糸列R 2。( Μ下,以B t表示中心時間t之固定長分段。) ;\ 境界檢測參數記憶部8記憶有境界檢測參數R8。境界檢\。\ 測參數R8之構成包含有M( = 224)個之80次元高斯分布之機 率密度涵數之平均win和分散Σιπ,Κ及k(=309 (29音韻 體系列之時間),或1 0 7 1 ( 2 ] 7音韻體系列之時間))組之分 子多項式係數Pmk和分母多項式係數Qmk。(其中,m和k是1 S mi Μ > 1各k客Κ之範圍之整数。) 共同機率密度演算部18,對於固定艮分段Bt(t=l,2, ....,T),計算Μ個之80次元高斯分布機率密度。其中 ,假如K f m ( B t )表示第m個(m = 1,2,. . . .,Μ )之櫬率密 度時,則可Μ依照式(]1 )來進行計讳。 [數6] ί (Dt) =N (Bt I ί/η, Σ·) (11) 境界可能性計算部1 9 - 1,1 9 - 2,......,:I 9 - Κ分別對應到 音韻境界之種類,參照共同機率密度演算部之结果R(8, 計算在固定長分段R2之中心存在有聲音中之音韻境界之可 能性(境界可能性),當作境界可能性時間系列C 1 ( B t), C2(Bt),....,Ck(Bt)的進行輸出。第 k個(k=l,2,... -----:----( ' 裝-- (請先閲讀背面之注意Ϋ項再填寫本頁) 訂 7 本紙張尺度逍用中國國家標準(CNS ) A4规格(210X297公釐) A 7 B7 五、發明説明(i 2) ,k)之境界可能性Ck(Bt)是根據式(12)計算在固定長分段 Bt之中心存在有種類k之音韻境界之機率Pr(Bt| k,l)和在 固定長分段Bt之中心末存在有種類k之音韻境界之機率Pr (B t丨k , 0 )之對數可能性比。其中*機率P r ( B t I k , 1 )根據 式(13)計算,和機率Pr(Btl k,0)根據式(14)計算。 另外,分子多項式係數和分母多項式係數需要設計成變 數Ck(Bt)在種類k之音韻境界或音韻境界附近之區域形成 Ck(Bt)>0之方式。 [數7] I----^----、,裝-- (請先Μ讀背面之注意事項再填寫本1)
Ck (8t)
Pr(Bt I k, 1) Pr(B t I k, 0) (12) *1Τ Λ>
Pr(Btl k.l), P»k in (Dt)
Pr<Bt U.0)= Σ Qnk i (Bt)
Cl 4) Τ 經濟部中央標準局負工消费合作社印裝 下面將說明本實施例之上逑分子和分母多項式係數之設 計方法。首先,在多項式係數附加條件。亦即,使Ρ ΠΙ k和 Qmk成為非負之多項式係數,與51有翮之總和成為1之方式c 首先,進行和弦表之設計。亦即,求與音韻境界之種類 k無闞之元件之機率密度涵數(fm)之參數(在本實施例中, 參數由《ΙΠ和Σπι所形成)。此棰方式之實現是對學習資料 本紙張尺度逋用中國國家橾準(CNS ) A4规格(210X297公釐) A7 B7 經濟部中央標準局負工消费合作社印裝 五、發明説明( 13) 1 1 1 進 行 分 組 I 由 各 組 之 分 布 推定 元 件分 布之參 數。 在本實 施 1 1 I 例 中 > 將 學 習 資 料 分 割 成 Μ (= 2 2 4 )個 之組, 推定 各個組 (m 1 1 I = 1, 2 » .. .. 9 M) 之 平 均 u m和分散Σπι。 請 先 1 \ 閲 I 其 次 > 根 據 最 優 推 定 法 ,將 利 用音 韻境界 之種 類k之資 讀 背 1 面 I 料 所 推 定 之 多 項 式 係 數 當 作入 m k 。亦 即,多 項式 係數λ m k 之 注 1 I 之 決 定 是 使 可 能 性 (式( 15 ))成 為 最大 化。 意 事 1 項 I [數8 ] 再 填 1 t 寫 本 妓 I Π t I m Aik (BO (J 5) 1 1 I 分 子 多 項 式 之 設 計 法 1 Μ最優推定之多項式係數當作原 1 1 | 來 之 分 子 之 多 項 式 係 數 使 用。 亦 即, 在本設 計法 中使Pmk 1 訂 λ m k 〇 1 分 子 多 項 式 之 設 計 法 2 從具有最優推定多項式係數(類 似 1 1 韻 境 界 之 種 類 k = k (i ,J )之最優推定多項式係數λ ink) 之 1 I 較 近 之 __. 方 取 出 N ( K) 個 將其 當 作k ( 1 ) ,k ( 2 ), • * · · * 旅 k(K(k) (其中 k (1)為k本 身) >對該N (k )組之最優推定多 1 I 項 式 係 數 進 行 權 重 平 均 根據 式 (16) 設定分 子之 多項式 係 1 1 數 Ρ ta k >但是 > Wk是音韻境界之種類k 之境界 特徵 量之學 習 1 1 資 料 數 (樣本數) 0 另 外 立 *目 曰0貝 境 界之 種類k之最優推定多 I 項 式 係 數 入 id k和 韻 境 界 之棰 類 1之最佳推定多項式係數 | λ ml 之 非 類 似 度 (M d (k ,1 )表示) 表示 多項式 係數 間之距 離 I 1 根 據 式 (1 7) 來 進 行 推 定 1 1 依 照 本 設 計 法 時 » 根 據 音韻 境 界之 類似度 用來 補充分 組 1 I 和 學 習 資 料 之 不 足 * 具 有 平滑 化 之效 果。 1 1 -15- 本紙張尺度逍用中國國家標準(CNS > A4规格(210X297公嫠) 五、發明説明(14) [數9] N(k) Σ
Pmk: A7 B7
Wk(i) λ* k(i) N(k) I Wk⑴ i=l (m — 2 , 2 f ··, M) (16 Μ M Σ λ nk λ nk Σ Λ nl 又·1 1 d (k. *) -- log 2 Μ 2 (Z λ mk λ nl ) (17) 經濟部中央標準局貝工消费合作社印製 分母多項式之設計法:對於取樣資料變數Ck(Bt)較大,對 於非取樣資料其變數Ck ( B t)較小,可以使用此種推定方法 (例如錯誤訂正學習和相互間資訊量最大推定法等),在本 實施例中,將對應到音韻之正常部之音韻境界之全體種類 (k(i,i)、i=l,2,......η,其中之η為音韻之種類)之 最優推定多項式係數進行樣重平均,作為分母多項式係數 。亦即,根據式(18)用來設定分母多項式係數。利用這種 方式,在本設計法中,分母多項式係數Qmk被設定成與音 韻境界之種類k互相獨立(與k無鼷)。 [數 10] --- -------:----裝------訂------^ 忒 (請先閱讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家橾準(CNS ) A4规格(210X297公釐) 1 7 - 經濟部中央棣準局貝工消费合作社印製 本紙張尺度適用中國國家梯準(CNS ) A4规格(210X297公釐) A7 B7 五、發明説明(15) η Σ Wk(i.i) A»k(i.i) i-1 , Q,k=Q'- - (18) n Σ Wk(i.i) i-1 圖3以模式方式表示本實施例之音韻系列HMM之構造。本 HMM由η狀態(n=29)所形成,各狀態分別對應到1個之音韻 。從狀態i變成狀態j之遷移機率以aij表示,另外,時間t 之特徵參數xt之狀態j之輸出機率Mb,i(xt)表示。輸出機 率U(xt)表示M(=8)混合之混合高斯分布,將第π個之元 件高斯分布之平均向量和共分散行列之inj,分岐機率 λπϋ當作參數,利用式(19)來計算。另外,式中之H(xt| Μ ιιϋ,Σιιϋ)表示平均;u mj,分散Σπϋ之正規機率密度函數 。該等遷移機率aU和輸出機率計算用之參數被記憶在ΗΜΜ 參數記憶部1 4。 [數 11 ] bJ(x〇 = Σ N(xt丨“·】 (19) HMM演算部13參照境界檢測部7之境界檢測结果R7和HMM 參數R14,根據VUerbi演算,在初期條件(式(22))之下, 進行計算漸化式(式(20)和式(21))。其中之後指標a (j,t )表示時間t時留在狀態j之機率(向前機率),召(j,t)表示 在時間t到達狀態j之前一個之最佳狀態號碼。 [數 12] -18- ----------r----裝------訂------ (請先閲讀背面之注意事項再填寫本頁) A7 B7 五、發明说明(1 6 ) a(j.t)= max aij bj(xt)) (t=1.2.-.T) l^i Sn. C lj(Dl)>e ijdvtj 辟) (2 0)
(請先聞讀背面之注$項再填寫本頁) = argnai (a (i. t-1) o i j b j (x t)) (t*l. 2. ···, T)
Cij(Ut)>0 JJ(]i*J 時j (2 I ) a (i. 〇)*J (ial. 2, ·, n) (22) 本HMMM上述之漸化式表示,其與習知之HMM之不同是在 時間t,當從狀態i變成吠態j之狀態間通移時,參照變數 (ij(Bt),用來與音韻境界之種類k=k(i,j)有閨之臨界值 Θ i j進行比較,只有C Π ( B t) > Q i j時,才容許狀態間之遷 移,利用這種方式用來限制音韻模態系列之境界之產生之 狀態間之通移。另外,同一狀態内之邊移(i=j時)不會受 到變數(i j ( B t)之限制。 其中,變數(ij(Bt)對應到利用境界檢測部7所計算得之 分類k之音韻境界之境界可能性Ck(Bt)。分類K具有狀態號 碼i和j之函數k ( i , j )。 經濟部中央揉準局貝工消费合作社印装 作為音韻系列變換裝置之最佳狀態系列檢測部15利用作 為HMM演算結果R3之向前櫬率 ct(j,t>和後指檷 /8 ( j , t) 之值,輸出最佳狀態糸列R15 (K後,M/S ’(1),/9 ’(2) ,....,/3’(T)表示)。最佳狀態系列R15之獲得是在初期 條件(式(24))下計算漸化式(式(23))。另外,最佳狀態系 列R 1 5是以狀態號碼之糸列表示認識結果之音韻系列。 [數 13] 本紙張尺度適用中國國家樑率(CNS ) A4规格(210X297公釐) "~~[召 ~ 五、發明説明(l 7 ) A 7 B7 β'^-\) = β{β~{\), t) (t=T,T-i,-. i) 卢(T)= argnax a (j, T) 】各jgn (2 3 (2 4
經濟部中央橾準局員工消费合作社印製
系韻率 體音機 韻之遷 音鑛態 之後狀 成與 。 形有系 所含體 韻包韻 音 之 成 形 所 韻 音 個 7 1 2 之 音 異 之 闞 相 所 4 為示 訊 資 列 ί 韻 音 用 利 只 ο 或 圖 之 述 上 , 由數 示韻 表音 -? 之 中 料 資 習 圖學 如 之 件 条 條體 驗韻 實 音 之之 同成 共形 圖 -------^----( '裝-- (請先W讀背面之注意事項再填寫本頁) 所 員 0 音 個 9 述 上 由 示 表 6 數 員 0 音 之 中 料 資 習 學 之 系 體 S % 音 之 成 形 所 韻 音 個 7 1Α 評 其 ο Η Μ Η 之 束 拘 受 未 移 遷 間 態 狀 估 評 用 之 考 參 著 為 所 7 少 減 圖差 如誤 果使 结 Μ 估可 值 界 臨 之 測 檢 界 境 擇 選 的 當 適 由 經 0 示 韻變等 音界加 有境增 具測數 , 檢態 界確狀 境正之 測能韻 檢不音 的和由 確,經 正況 , 以情者 可 之 前 , 差於 果誤對 结換。 之置況 差之情 誤低之 識變差 認性誤 析能落 解可脫 之 成 之 之 部類 全種 使之 中界 例境 施韻 實音 本於 在由 者為 後因 於 · 對值 和之 ’ 同 化相 密成 精化 之變 態1J 模 0 韻值 音 界 之 臨 之容 難較 困測 較檢 測於 檢對 於 ’ 對的 Μ 反 所相 差小 之變 度 值 易界 難臨 之 其 測使 檢類 界種 境之 在 界 而境 同韻 不音 本紙張尺度適用中國國家揉率(CNS ) Α4规格(210Χ297公釐) 20 ,ιτ 7 A7 B7 經濟部中央梂準局貝工消费合作社印製 五、發明説明(18) 1 1 易 之 韻 境 界 將 其 臨 界 值 設 定 成 較 高 經 由 變 化 每 一 種音 1 1 I 韻 境 界 之 臨 界 值 可 Μ 更 進 __. 步 的 提 高 精 確 度 〇 1 1 I 另 外 在 Μ 上 之 說 明 中 > 所 說 明 的 是 使 用 v i t e r b i之演 請 1 \ 閲 I 算 用 來 進行HMM演算之情況 但是本發明之V it e r b ί之演算 讀 背 面 | 也 可 Μ 將 最 大 化 演 算 m a X替換成和Σ演算 根據式(25)之 之 1 注 1 定 式 化 適 用 在ΗΜΜ (但是 t 最 佳 狀 態 系 列 必 需 根 據 Vi t e r b i 惠 事 1 項 1 演 算 來 進 行 檢 討 〇 再 填 * 寫 裝 [數 14] 本 頁 1 I 0 (j. t)= Σ t 了(:. t-l) η U b j (λ t) (2 5 ) 1 1 I Igi^r 1 I 另 外 上 面 所 說 明 之 情 況 是 使29棰或再细 分成2 1 7種之 1 1 訂 音 韻 對 應 到 音 韻 模 態 糸 列 之 ΗΜΜ之各1個 之 狀 態 之 情 況 ,但 1 是 音 韻 之 種 類 和 體 系 並 不 只 限 於 這 種 方 式 另 外 * 分 配到 1 1 各 個 音 韻 之 狀 態 數 也 不 只 限 於 這 種 方 式 〇 另 外 作 為 音韻 1 I 模 態 者 也 不 —. 定 要 用 HMM 例如 也可Μ使用文獻(日 本平 成2年3月 發 行 之 曰 本 音 響 學 會 演 講 論 艾 集 2- P - 27 厂 使 用時 1 I 間 相 關 線 性 音 素 文 脈 模 態 之 聲 音 認 識 之 檢 討 J )所示線性 1 1 音 素 文 脈 相 關 之 韻 模 態 0 1 1 [發明之效果] I 如 上 所 述 依 昭 本 發 明 之 聲 音· 認 識 之 境 界 推 定 方 法 時, I 因 為 設 定 有 對 應 到 轚 音 之 境 界 之 聲 音 境 界 檢 測 器 所 以對 1 1 於 每 一 種 聲 音 之 境 界 可 Μ 獲 得 對 應 到 適 當 之 音 韻 境 界之 1 1 聲 境 界 可 Μ 設 計 個 別 之 境 界 檢 測 器 所 具 有 之 效 果是 1 I 其 設 計 促 成 不 會 受 到 學 習 資 料 不 足 之 影 響 和 可 改 善 精確 1 1 -ί\ 本紙張尺度逍用中國國家標率(CNS ) Α4规格(210X29*7公釐) 五、發明説明(19 A7 B7 抽 微 特 有 備 具 時 置 裝 識 認 音 轚 之 明 發 本 照 依 外 另 之參 列徵 系特 間之 時列 成系 換間 變時 其之 將述 來上 用用 , 利 音 ’ 聲置 入裝 輸測 析檢 分界 由境 經 ; ’ 數 置參 裝激 出特 數 來 ; 態 域模 區韻 之 音 近個模 附多韻 界之音 境數述 韻參上 音徵生 或特產 界述將 境K, 韻到時 音應列 之對糸 中置態 音設模 聲,該 入置置 輸裝設 述算在 上演 , 測態列 檢橫糸 音 ,音 之置聲 到裝入 測換輸 檢變述 置列上 裝系到 測韻應 檢音對 界和擇 境;選 述内 , 上域果 在區結 制之之 限近置 間附裝 時界算 之境演 界韻態 境音横 之或述 列界上 糸境用 態韻利 由 音 經測 是檢 置來 裝用 测, 檢較 界比 境行 之 進 述值 上界 為臨 因之 ; 類 列種 糸之 態界 模境 員 員 音 音 之到 當應 適對 之與 當 Μ 同 所 不 亦 。 界佈善 境分改 韻之之 島 0 音 度 靠 可 值 度 之確 性精 能之 可識 之認 界得 境獲 韻以 音 可 ’ 是 時果 同效 不其 界 , 境— 例 胞 實 之 明 發 本 示 表 來 1 用 明 , 說圖 單造 簡 構 之是 圖ί 附 -------7----「裝-- (請先閱讀背面之注意事項再填寫本頁) 、11
T 經濟部中央橾準局貝工消费合作社印製 圖圖圖圖圖圖圖圖 2 3 4 例 施 例實 例施估 施實評 實示示 是表表
圖 造 構 之 。 置 件 造 裝Μ條 溝 測 之 之 檢 Μ 時 界ΗΜί 境之 之I 數數 本本 之之 時時 習習 學學 之之 11 1X 例例 施施 實實 示示 表表 5 6 造 構 之 置 裝 識 認 音 例聲 施之 實知 示習 表是 7 8 果 结 估 評 之 本紙張尺度逍用中國國家標準(CNS ) A4规格(210X297公釐) 22 五、發明説明(2 0) A7 B7 造 構之_ 圖 造 構之 置 裝 測 臨 ΘΓ 97 境之 知 習 是 9 1 1 圖圖圖 類 分之 界 境 韻 音HM 之之 置置 装裝 識識 認認 音 音 聲轚 之 之 知知 習習 示示 表表 I- —J— i n^i ml ^^^1 m^l J. ---- n(請先《讀背面之注意事項再填寫本頁) •1 經濟部中央揉準局負工消费合作社印裝 本紙張尺度逍用中國國家橾準(CNS ) A4规格(210X297公釐) 23 五、發明説明(2)
經濟部中央標準局貝工消费合作社印製 佳狀態系列 下面將說 聲音區間 音區間,然 出部1。 特激油出 數時間系列 演算部1 3和 經由分析 丨8- \ 律分析 檢測 中\ %、對、痛 韻境 先前之 在圖9中
2 t A7 B7 檢測部1 5檢測最佳狀態系列。 明各部份之動作。 檢測部11經由輸入聲音之功率計算用來檢測聲 後將該聲音區間内之轚音信號R 1送出到特微抽 部1從聲音區間內之轚音信號R1中抽出特激參 R 2,將其發送到作為音韻横態演算裝置之Η Μ Μ 境界檢測部7,該特激參數時間系列R 2之構成 使用有長度25.6ms之時間窗之15次線性預测音 ,由每10ms為0〜10次之音調旋律係數所構成。 部7之構造如圖9所示*從特激參數時間糸列R2 應到音韻境界之分類之聲音中之音韻境界或音 之區域。音韻境界之分類是以包夾音韻境界之 稱作為基準,如圖1 0所示的被分成1 4類。 間窗部2利用特激參數時間系列R 2,對時間 旋量長 調向定 音元固 之次等 次80該 ^ ^ 0 之彳後 當 圍目然 圆 範 } * 之元出 架次抽 X 架 框)|下 個段以 10分2( II 長 Ϊ 0(定 ^5 _ 固 為 稱 後Μ (請先聞讀背面之注項再填寫本頁) 裝. 訂· 部 憶 記 間數 時參 心 測 中檢 示界 表境
計 合 敝 I 行 進 的 列 系 間 時 之 段 分 數 參 測 檢 丨界 〇 境 段有 分憶 長記 yy. 定 固 之 (C斯 C Ϊ ί β高 κ Μ. 戈}之 卩Κ合 構 ’ .混 有 含 包 1表 之 -J 8 II 此 RU 在 數 K(r 參碼布 測號分 檢類之 本紙張尺度適用中國國家標準(CNS) A4说格(210X297公釐) Κ 界 境 該 分段布 之分分 界長合 境定混 韻固U) 音之la - } S 之 1 S •I ♦ U 種 o a A7 B7 經濟部中央梂準局貝工消费合作社印製 五、發明説明(7) 1 1 I 境 界 存 在 於 上 述 之 窗 之 中 心 之 程 度 t 在 這 種 情 況 時 f 計 算 1 1 I 上 述 聲 音 之 境 界 存 在 於 上 述 之 窗 之 中 心 之 第 1機率密度 9 1 1 I 和 上 述 聲 音 之 境 界 未 存 在 於 上 述 之 窗 之 中 心 之第2機率密 婧 先 1 ί 閱 I 度 根 據 包 含 上 述 第 1機率密度和上述第2機率密度之計算 | 1 面 I t 算 出 聲 音 之 境 界 存 在 於 上 述 之 窗 之 中 心 之 程 度 該 推 定 之 注 1 1 方 法 所 包 含 之 步 驟 有 1+ 算 與 上 述 轚 音 之 m 界 之 種 類 無 關 1 1 項 1 之 共 同 之 機 率 密 度 使 該 計 算 裝 置 所 計 算 得 之 機 率 密 度 和 再 填 人 第1多項式係數相乘 用以計算上述第1機率 密 度 ; 和 使 該 % 本 頁 策 1 計算裝置所計算得之機率密度和第2多項式係數相乘 用 1 1 Μ 計 算 上 述 之 第 2機率密度 Ί 1 | 另 外 丰 請 專 利 範 圖第2項之本發明是- -種聲音認識裝 訂 置 具 備 有 : 特 徴 抽 出 裝 置 經 由 分 析 輸 入 聲 音 用 來 將 1 其 變 換 成 時 間 糸 列 之 特 徵 參 數 境 界 檢 測 裝 置 利 用 上 述 1 1 之 時 間 糸 列 之 特 徵 參 數 用 來 檢 測 上 述 輸 入 聲 音 中 之 音 韻 1 1 境 界 或 音 韻 境 界 附 近 之 區 域 模 態 演 算 裝 置 設 置 對 應 到 1 上 述 特 徵 參 數 之 多 個 音 韻 模 態 系 列 時 將 產 生 上 述 音 韻 横 \ . * 1 1 態 糸 列 之 境 界 之 時 間 限 制 在 上 述 境 界 檢 測 裝 置 檢 測 到 之 音 1 1 韻 境 界 或 音 韻 境 界 附 近 之 域 内 和 音 韻 系 列 變 換 裝 置 > 1 1 利 用 上 述 橫 態 演 算 裝 置 之 結 果 選 擇 對 應 到 上 述 輸 入 轚 音 1 | 之 適 當 之 音 韻 橫 態 % 列 其 中 上 述 之 境 界 檢 測 裝 置 所 使 用 1 之 裝 置 是 経 由 與 對 應 到 音 韻 境 界 之 種 類 之 臨 界 值 進 行 比 較 1 1 * 用 來 檢 測 音 韻 境 界 〇 1 1 [作用] 1 1 在 本 發 明 之 聲 音 認 識 之 境 界 推 定 方 法 中 進 行 時 間 系 列 1 1 -10- 本紙張尺度適用中國國家標準(CNS ) A4洗格(2丨OX297公釐) 鋰濟部中央標率局属工消费合作社印製 A7 B7 五、發明説明(u) 是經由分析使用有長度25,6ms之時間窗之15次線性預测音 調旋律分析,由每10ms為0〜10次音調旋律係數所構成。 境界檢測部7之構造如圖2所示。在該圖中,利用特徴參 數時間糸列R2,對於時間t=l,2,,.,.Τ,Μ時間t為中 心,將時間幅度10框架之範圍之0〜7次之音調旋律係數合 計80( = 10個框架X 8次元)個當作1個80次元向量(M後稱 為固定長分段)的進行抽出,然後輸出該等固定長分段之 時間〜糸列R2。(M下,以Bt表示中心時間t之固定長分段。) 境界檢測參數記憶部8記憶有境界檢測參數R8。境界檢 測參數R8之構成包含有M(=224)個之80次元高斯分布之機 率密度涵數之平均wm和分散Em,Μ及k(=309 (29音韻 體系列之時間),或1 0 7 1 ( 2 1 7音韻體系列之時間))組之分 子多項式係數Pihk和分母多項式係敝Qmk。(其中,m和k是1 ^ m S Μ > l^k客Κ之範圍之整數。) 共同機率密度演算部1 8,對於固定長分段B t (t = 1 * 2, .. .,T),計算Μ個之δ 0次元高斯分布機率密度。其中. ,假如M f m ( B t )表示M m俩U = ],2,. · . .,Μ )之機率密 度時,則可Μ依照式(1 i )宋迆行計F-。 [數6] ί (Bt) -N (Bt I Σ«) (11) 境界可能性計算部1 9 - 1,1 9 - 2,......,1 9 - Κ分別對應到 音韻境界之種類,參照共同機率密度演算部之結果R(8, 計算在固定長分段R 2之中心存在有聲音中之音韻境界之可 能性(境界可能性),當作境界可能性時間系列C 1 (B t), C 2 ( B t),. . . . * C k ( B t)的進行輸出。第 k 個(k = 1,2,... 本紙張尺度適用中國11家k準(CNS > A4現格(21〇x297公釐) -14 - (請先閱讀背面之注$項再填寫本頁) 裝 訂 線 經濟部中央標準局負工消费合作社印製 東紙氓尺度適刑十两《家橾隼(CNS ) Λ4现格(210Χ297公釐) A7 B7 五、發明説明(11 2) ,k)之境界可能性Ck(Bt)是根據式(12)計算在固定長分段 Bt之中心存在有種類k之音韻境界之機率Pr(Bt| k,l)和在 固定長分段Bt之中心末存在有種類k之音韻境界之機率Pr (Bt| k,0)之對數可能性比。其中,機率Pr(Bt| k,l)根據 式(13)計算,和機率Pr(Bt| k,0)根據式(14)計算。 另外,分子多項式係數和分母多項式係數需要設計成變 數Ck(Bt)在種類k之音韻境界或音韻境界附近之區域形成 Ck(§t)>0之方式。 [數7]
Pr(Bt I k. 1}
Ck (Bt) =1 〇g --- ( 1 2 )
Pr(Bt I k.O)
M
Pr( B t I k. 1}* Z P*lt ί * (B t) (13)
M
Pr<Bl I k.O)- Σ Qnk f (Bt) (l 4) 下面將說明本實胞例之上述分子和分母多項式係數之設 計方法。首先,在多項式係敝附加條件。亦即,使p m k和 Q in k成為非負之多項式係數,與m有關之總和成為1之方式。 首先,迪行和弦表之設計。亦即,求與音韻境界之種類 k無關之元件之機率密度涵數(fm)之參數(在本實施例中’ 參数由w m和Σ m所形成)。此種方式之實現是對學習資料 Γδ — .1 I I I I I I 裝 __ 1 I I I I 訂— I —备 (請先閱讀背面之注$項再填寫本頁) 經濟部中央標準局貝工消费合作社印製 A7 B7 五、發明説明(14) [數9] N(k) Σ Wk(i) λη k(i) i=l
Pmk==--(m=l· 2, M〉 N(k) Σ Wk(i) i=l (16)
Μ M Σ 又nk Xak Σ An] Λ·1 1 1=1 B-l d (k» 0=- log---(17) 2 M 2 (l i.k λ·1 ) 分母多項式之設計法:對於取樣資料變數Ck(Bt)較大,對 於非取樣資料其變數Ck ( B t)較小,可Μ使用此種推定方法 (例如錯誤訂正學習和相互間資訊里最大推定法等),在本 實施例中,將對應到音韻之正常部之音韻境界之全體種類 (k(丨,i)、i=l,2,......η,其中之η為音韻之種類)之 蕺優推定多項式係數進行樣重平均,作為分母多項式係數 。亦即,根據式(18)用來設定分母多項式係數。利用逭種 方式,在本設計法中,分母多項式係數Q m k被設定成與音 韻境界之種類k互相獨立(與k無關)。 [數 10] 本紙張尺度適用中國國家標準(CNS)A4規格(210X 297公釐) -17- ----------參------1T------^ (請先Mtl背面之注意事項再填寫本页) 娌濟部中央樣準局貝工消费合作社印裝 本紙張尺度逋用中國國家橾準(CNS ) A4*i格(210Χ297公釐) A7 B7 五、發明説明(16) a(j.l)= mex aij bj(xt)| <t = I.2,-.T) ISiSn. Cij(Dt)>e 時> (2 0 ) = ai.n«ia» (a (i. t-1) n i j b j(x t)l (t«l. 2. ···, T) lSI<n. Cij(Ut)>0 IJ(i?4J 時j (2 1 ) σ (i. 〇)·1 (iyl. 2. ·, n) (22) 本〜H MM W上述之漸化式表示,其與習知之HMM之不同是在 時間t,當從狀態i變成狀態j之狀態間遢移時,參照變數 (ij(Bt),用來與音韻境界之種類k=k(i,j)有闞之臨界值 Θ 進行比較,只有Cij(Bt)>QiJ時,才容許狀態間之遢 移,利用埴種方式用來限制音韻模態系列之境界之產生之 狀態間之遢移。另外,同一狀態内之遢移(丨=j時)不會受 到變數(i j ( B t)之限制。 其中,變數(i j ( B t)對應到利用境界檢測部7所計算得之 分類k之音韻境界之境界可能性Ck(Bt)。分類K具有狀態號 碼i和J之函數k ( i , j )。 作為音韻系列變換裝置之最佳狀態糸列檢測部1 5利用作 為HMM演算結果R3之向前tl率 a(j,t)和後指標 /3 ( j , t) 之值,輸出最佳狀態系列R 1 5 ( Μ後,Μ /3 ’( 1),召’(2 ) ,....,/3 '(Τ)表示)。最佳狀態系列R 1 5之獲得是在初期 條件(式(2 4 ))下計算漸化式(式(2 3 ))。另外,最佳狀態系 列R 1 5是Μ狀態號碼之系列表示認識結果之音韻系列。 [數 1 3 ] -~~ΓΤ-1 (請先閱讀背面之注$項再填寫本頁) .裝. 訂 線 A7 B7 經濟部中央樣準扃貝工消费合作社印裂 五、發明说明(1 7 ) 1 1 β'{Χ-\)-β {β *⑴.t> (卜Τ.Τ-1 1) (2 3) 1 1 I /9*(T) = argnax JgjSn a (j.T) (2 4) 1 1 I 請 1 I 先 1 « I 下 面 將 說 明 上 述 實 胞 例 之 評 估 結 果 Ο 讀 背 面 1 I 對 於 上 述 構 造 之 實 施 例 經 由 不 特 定 話 者 之 音 韻記 述 實 1 1 驗 用 來 檢 討 境 界 檢 測 之 臨 界 值 (θ i J ) 之 設 定 法 Ο ί 1 項 1 其 中 9 狀 態 之 輸 出 機 率 亦 逋 用 於 半 連 續 分 布 橫 態, 試 驗 再 填 I 寫 裝 2種之音韻體係 ,1種 是 在 -L-V- 月ii 後 之 音 韻 之 環 境 由 獨 立之 29音 本 頁 1 韻 所 形 成 之 音 韻 體 系 另 外 一 種 是 對 於 子 音 和 閉 鎖部 由 1 1 包 含 有 與 後 纊 之 音 韻 相 關 之 異 音 之2 17個音韻所形成之音 1 | 韻 體 系 Ο 狀 態 遷 機 率 a i j為1或 0 只利用音韻陣列資訊 1 訂 共 同 之 實 驗 η 件 如 圖4所示<: 圖5表示 由 上述之29個音韻所 1 I 肜 成 之 *音 韻 體 系 之 學 習 資 料 中 之 音 韻 數 圖6表示由上述 1 1 2 1 7個音韻所形成之音韻體系之學習資料中之音韻敝C ) 1 1 為 著 參 考 之 用 評 估 狀 態 間 遷 移 未 受 拘 束 之 HMM。其評 1 . 線 估 结 果 如 圖7所示< 經由適當的選擇境界檢测之臨界值 1 可 以 使 誤 差 減 少 0 1 1 解 析 認 識 誤 差 之 結 果 可 正 確 的 檢 測 境 界 具有 音 韻 1 1 之 可 能 性 變 低 之 置 換 誤 差 之 情 況 和 不 能 正 確 檢 測境 界 變 1 | 成 脫 落 誤 差 之 情 況 〇 對 於 Λ-tJ. 月ϋ 者 經 由 音 韻 之 狀 態 數增 加 等 1 I 之 音 韻 模 態 之 精 密 化 和 對 於 後 者 在 本 實 施 例 中 使全 部 之 1 1 臨 界 值 Θ i J 變 化 成 相 同 之 值 9 因 為 由 於 音 韻 境 界 之種 類 之 1 1 不 同 而 在 境 界 檢 測 之 難 易 度 之 差 所 K 對 於 檢 測 較困 難 之 1 1 音 韻 境 界 之 種 類 使 其 臨 界 值 變 小 相 反 的 對 —7T 於 檢測 較 容 1 1 —2〇 —: 本紙張尺度逍用中國國家標準(CNS ) A4说格(210X297公釐)

Claims (1)

  1. A8 B8 C8 D8 經濟部中央標準局員工消費合作社印製 、申請專利範 圍 1 1 I 1 . 一 種 聲 音 認 識 之 境 界 推 定 方 法 $ 其 中 * 分 析 輸 入 聲 音 1 1 1 用 以 獲 得 參 數 群 9 Μ 時 間 糸 列 展 開 獲 得 被 展 開 之 數 群 » 抽 1 I 請 1 I 出 指 定 之 時 間 窗 中 之 上 述 參 數 群 之 值 作 為 樣 本 , 算 出 轚 音 先 閱 I 之 境 界 存 在 於 上 述 之 窗 之 中 心 之 程 度 ♦ 在 這 種 情 況 時 $ 讀 背 1 1 面 Γ 計 算 上 述 之 聲 境 界 存 在 於 上 述 之 窗 之 中 心 之 第 1機率 之 注 | 意 I 密 度 > 和 上 述 聲 音 之 境 界 未 存 在 於 上 述 之 窗 之 中 心 之 第 2 事 項 1 I 機 率 密 度 > 根 據 包 含 上 述 第 1機率密度和上述第2機 率 密 度 再 填 寫 1 A 本 衣 之 計 算 算 出 聲 之 境 界 存 在 於 上 述 之 窗 之 中 心 之 程 度 t 頁 '—^ 1 I 其 特 徵 是 所 包 含 之 步 驟 有 1 1 I 計 算 與 上 述 聲 之 境 界 之 種 類 無 關 之 共 同 之 機 率 密 度 » 1 1 使 該 計 算 裝 置 所 計 算 得 之 機 率 密 度 和 第 1多項式係數相乘 1 訂 > 用 以 計 算 上 述 之 第 1機率密度 和使該計算裝置所計算 1 1 得 之 機 率 密 度 和 第 2多項式係數相乘 用Κ計算上述之第2 1 I 機 率 密 度 〇 1 1 | 2 . 一 種 聲 音 認 識 裝 置 具 備 有 1 特 徵 抽 出 裝 置 經 由 分 析 輸 入 聲 音 用 來 將 其 變 換 成 時 1 1 間 系 列 之 特 徵 參 數 » 1 I 境 界 檢 測 裝 置 9 利 用 上 述 之 時 間 Μ 列 之 特 徵 參 數 9 用 來 1 I 檢 測 上 述 輸 入 轚 音 中 之 音 韻 境 界 或 音 韻 境 界 附 近 之 區 域 9 1 1 横 態 演 算 裝 置 9 設 置 對 應 到 上 述 特 激 參 數 之 多 個 韻 横 1 態 糸 列 » 在 設 置 該 模 態 系 列 時 將 產 生 上 述 韻 模 態 系 列 1 1 之 境 界 之 時 間 限 制 在 上 述 境 界 檢 测 裝 置 檢 測 到 之 韻 境 界 1 | 或 韻 境 界 附 近 之 區 域 内 和 1 I 音 韻 系 列 變 換 装 置 9 利 用 上 述 模 態 演 算 裝 置 之 結 果 9 選 1 1 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) 申請專利範圍 A8 B8 C8 D8 是韻 徵音 特到。 其應界 ; 對境 列與韻 糸由音 態經測 横是檢 韻置來 音裝用 之之, 當用較 適使比 之所行 音置進 聲裝值 入測界 輸檢臨 述界之 上境類 到之種 應述之 對上界 擇境 (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS ) A4規格(210 X 297公釐) 2
TW084102772A 1994-03-22 1995-03-22 TW299435B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05060694A JP3533696B2 (ja) 1994-03-22 1994-03-22 音声認識の境界推定方法及び音声認識装置

Publications (1)

Publication Number Publication Date
TW299435B true TW299435B (zh) 1997-03-01

Family

ID=12863635

Family Applications (1)

Application Number Title Priority Date Filing Date
TW084102772A TW299435B (zh) 1994-03-22 1995-03-22

Country Status (3)

Country Link
US (1) US5710865A (zh)
JP (1) JP3533696B2 (zh)
TW (1) TW299435B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI467568B (zh) * 2007-07-13 2015-01-01 Dolby Lab Licensing Corp 使用位準時變評估機率密度之時變音訊信號位準

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167374A (en) * 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
DE69943018D1 (de) * 1998-10-09 2011-01-20 Sony Corp Lernvorrichtung und -verfahren, erkennungsvorrichtung und verfahren, und aufnahme-medium
US6535851B1 (en) * 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
AU2000276404A1 (en) * 2000-09-30 2002-04-15 Intel Corporation (A Corporation Of Delaware) Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (lvcsr) system
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP4075670B2 (ja) 2003-04-09 2008-04-16 トヨタ自動車株式会社 変化情報認識装置および変化情報認識方法
JP5418223B2 (ja) 2007-03-26 2014-02-19 日本電気株式会社 音声分類装置、音声分類方法、および音声分類用プログラム
CN101689364B (zh) * 2007-07-09 2011-11-23 富士通株式会社 声音识别装置和声音识别方法
US8340430B2 (en) * 2007-07-10 2012-12-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US8160365B2 (en) * 2008-06-30 2012-04-17 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
US9817881B2 (en) * 2013-10-16 2017-11-14 Cypress Semiconductor Corporation Hidden markov model processing engine
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US20170294185A1 (en) * 2016-04-08 2017-10-12 Knuedge Incorporated Segmentation using prior distributions

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
US5293452A (en) * 1991-07-01 1994-03-08 Texas Instruments Incorporated Voice log-in using spoken name input

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI467568B (zh) * 2007-07-13 2015-01-01 Dolby Lab Licensing Corp 使用位準時變評估機率密度之時變音訊信號位準
US9698743B2 (en) 2007-07-13 2017-07-04 Dolby Laboratories Licensing Corporation Time-varying audio-signal level using a time-varying estimated probability density of the level

Also Published As

Publication number Publication date
JPH07261789A (ja) 1995-10-13
US5710865A (en) 1998-01-20
JP3533696B2 (ja) 2004-05-31

Similar Documents

Publication Publication Date Title
TW299435B (zh)
Ghosh et al. A subject-independent acoustic-to-articulatory inversion
Gómez-Vilda et al. Glottal source biometrical signature for voice pathology detection
TW504663B (en) Spelling speech recognition apparatus and method for mobile communication
US6745155B1 (en) Methods and apparatuses for signal analysis
Hillenbrand Acoustic analysis of voice: a tutorial
CN106856095A (zh) 一种拼音拼读的发音质量评测***
Lavado et al. The efficiency of health and education expenditures in the Philippines
Lisker Stop duration and voicing in English
Tong et al. Multi-Task Learning for Mispronunciation Detection on Singapore Children's Mandarin Speech.
CN103915099B (zh) 语音基音周期检测方法和装置
Schramm et al. Automatic Solfège Assessment.
Heggarty Quantifying change over time in phonetics
Perez Carrillo et al. Learning and extraction of violin instrumental controls from audio signal
Padmanabhan et al. Acoustic feature diversity and speaker verification.
Elie et al. Robust tonal and noise separation in presence of colored noise, and application to voiced fricatives
CN114299918A (zh) 声学模型训练与语音合成方法、装置和***及存储介质
Bayerl et al. Identifying sources of disagreement: Generalizability theory in manual annotation studies
Lu et al. ChordGAN: Symbolic music style transfer with chroma feature extraction
Korvel et al. Comparative analysis of spectral and cepstral feature extraction techniques for phoneme modelling
Iadkert et al. The production of English codas by Thai speakers.
Yap et al. Phase based features for cognitive load measurement system
Selouani et al. Comparing Arabic rhythm metrics among other languages
Ni et al. Use of Poisson processes to generate fundamental frequency contours
Anderson et al. Modeling fluid flow in the airway using CFD with a focus on fricative acoustics