JPH0769910B2

JPH0769910B2 - スピーチ部分の決定方法

Info

Publication number: JPH0769910B2
Application number: JP1024794A
Authority: JP
Inventors: ワードチャーチケネス
Original assignee: エイ・テイ・アンド・テイ・コーポレーション
Priority date: 1988-02-05
Filing date: 1989-02-04
Publication date: 1995-07-31
Anticipated expiration: 2010-07-31
Also published as: JPH01224796A; EP0327266A3; EP0327266B1; DE68923981D1; ES2076952T3; KR970006402B1; AU617749B2; US5146405A; KR890013549A; EP0327266A2; DE68923981T2; CA1301345C; IN175380B; AU2899089A

Description

【発明の詳細な説明】発明の分野本発明はスピーチ部分決定の方法と、名詞句解剖の中間
方法を含み、そして、スピーチ合成、スピーチ認識、ラ
イターの訓練、校正、割出し及びデータ検索を含む、ス
ピーチ部分決定の結果の利用方法に関する。

発明の背景特に、スピーチの異なる部分（複数）として使用するこ
とができるワードの場合、スピーチ部分を決定する能力
は英語の使用の場合に多くの種々の問題に関連している
ということが長い間認識されている。例えば、ピッチ、
継続期間及びエネルギーを含むスピーチの「強勢」はワ
ードのスピーチの特定部分及びそれらの文における順序
に依存する。従って、スピーチの合成には、人間のスピ
ーチのように響く結果を発生するために入力された記載
又は非言葉のテキストのスピーチ部分の解析が必要とな
る。

更に、スピーチ部分の自動決定は自動的なスピーチ認
識、コンピュータの補助による方法を用いてのライター
の教育及び訓練、ワード処理のワークステーションで発
生される書類の編集及び校正、書類の割出し及びデータ
ベースからのワード依存データの種々の形状の検索にお
いて重要な役割を演じ得る。

例えば、これらの使用の幾つかはAT＆T's Writer's Wor
kbench商標の種々の形式で見ることができる。又、1988
年１月、The Atlantic MonthlyのBarbara Wallaffに
よる論文「The Literate Computer」、pp.64ff、特にペ
ージ68、最後の２つのパラグラフを参照。割出しに対す
るスピーチ部分の関係は1986年４月１日にC.L.Rayeに対
し発行された米国特許第4,58チ,218号に見ることができ
る。

これまで、スピーチ部分の自動決定の２つの主な方法が
文献で述べられており、そして、ある程度使用されてき
た。その第１は問題の特定状態を検出するように設計さ
れた多種類の「特別（ad hoc）」規則に依存している。
これらの規則は、例えば、スピーチ部分を予測するワー
ドの終りの使用又はその何らかの改変に関するものであ
ってもよい。スピーチ部分決定のいくつかの特別規則は
UNIX^TM Operating Systemで動作するWriter's Workbenc
h商標のアプリケーションプログラムで使用されてい
る。これらのルールは、それらが旨く解決することがで
きる状態において非常に制限的であり、そして、基本的
な単一性を欠く傾向がある。これらの技術はBell Telep
hone Laboratories,Incorpolatedの1978年６月、Comput
er Science Technical Report、No.81、におけるL.
L.Cherryによる「PARTS-A System for Asigning Word C
lasses to English Text」に記載されている。

より大きな基礎的な単一性を潜在的に持つ第２の主な方
法は英国、University of Lancaster,1983年ICAME New
s、Vol.7、pp.13〜33においてG.Leech外による論文「Th
e Automatic Tagging of the LOB Corpus」に記載され
た「ｎグラム」技術である。ここに記載された技術の一
部はスピーチの次々の部分の起りそうな組み合せに関す
る特定の規則に基づく、特定の先行又は後続のワードの
スピーチ部分の現在の最良の選択にスピーチの割当て部
分を依存させる。この解析の場合、種々の特別規則も使
用されるので、全体として、この方法は依然として望ま
しい精度には至らない。更に、この方法は有機的な仕方
では語彙の確率を模擬しない。

上記の技術は、上記の考慮のため及び結果が失望させる
ものだったために当業界の研究者の間には大した興味を
抱かせなかった。

全く、どの「ｎグラム」技術も貧弱な結果を生じるであ
ろうと考えられていた。それは、その技術が、文の有り
得る構造を充分広く見又は全体的に見ることができない
からである。一方、文のスピーチ部分を解析する場合に
人間の精神がとる全体的な見方の種類をコンピュータ内
に頑丈にプログラムすることは不可能であった。これに
は、1980年米国マサチューセッツ州、キャンブリッジMI
T Pressにより発行されたM.Marcusによる本、A Theory
of Syntactic Recognition for Natural Langua
geを参照。従って、「ｎグラム」ワードの発生頻度の解
析と対照される、「ｎグラム」型スピーチ部分の決定
は、別の研究の場合に使用される完全に「タグ付き」テ
キストのより大きな体部を発生するに役立つようなタス
クに大いに限定されている。このために、結果は非常に
有能な人間の介在によって訂正されなければならない。

それにも関わらず、上に最初に述べた全ての用途におい
て、容易に適用することができるように、「ｎグラム」
技術のように比較的簡単な技術により高度の確率でスピ
ーチ部分を識別し得ることが望ましい。

発明の要約本発明の一つの特徴によれば、スピーチ部分は個々のワ
ードの語彙の確率（probabilities）と規格化された３
つのワードの文脈の確率との積を最適化することにより
メッセージのワードにスピーチ部分が割り当てられる。
規格化は含まれる２つのワードの文脈の確率を使用す
る。（文の終点どうしの間の複数の空間を含む）文の終
点、区切点及び低頻度で発生するワードは語彙の確率を
割り当てられ、そして、そうでない場合は、それらがあ
たかもワードであるかのように処理されるので、前のｎ
グラムのスピーチ部分の割り当て及び特別（ad hoc）規
則の前の使用の場合に遭遇する不連続は回避される傾向
がある。この技術の一般性はそれにより確立される。

本発明の他の特徴によれば、以前割当られたスピーチ部
分をワードが有しているメッセージは、その名詞句をス
ピーチ合成用のそれらの使用を容易にする方法で識別し
ている。この名詞句の解剖は又他の用途をもつもであっ
てもよい。特に名詞句の解剖方法は、ワードのすべての
開始又は終における名詞句の開始及終を最初に割当てて
最低の確率の割当を除去することによりこの割当を徐徐
に除去し、ついに非常に高い確率の非帰納的割当のみが
残るようになる非常に蓋然性ある方法である。非帰納的
割当とは、名詞句内に部分的又は全体的に存在する名詞
句の割当が保持されないということを意味する。

あるいは又、この本発明の特徴の方法は他の名詞句内で
完全に起るいくつかの高効率の名詞句を保持することも
できる。これはこの割当が、例えば、スピーチ合成にお
いて有用であるからである。

常に除去されるある名詞句の割当は（例えば、文の始ま
りのところで）対応する始まりのない終又は（例えば文
の終において）終のない始まりであるが、本方法はさら
に名詞句の始め及終の低確率での割当を除去し、または
別の表現でいえば、最高の確率の割当のみを保持する。

本発明の補助的な特徴によれば、他の低確率の名詞句は
始から終までメッセージの各文を反復的に走査し、各走
査において始めと終よりなる各対ごとにそれらの確率を
計算し、文の領域について前に得た最高の確率に近い又
はこの確率より上の積でこれらの組合せを保持すること
により除去され、又は少なくとも他の高確立の名詞句と
は矛盾しなくなる。

本発明の更に他の特徴によれば、本スピーチ部分割当方
法の出力は本名詞句解剖方法への入力としてもよい。こ
の文脈では両方法において使用される最大可能性最適化
技術は相互に補強しあう傾向がある。これは単独で各方
法が従来技術の方法に比較して性能が優れているからで
ある。

本発明に更に他の特徴によれば、本スピーチ部分割当方
法の出力は本名詞句解剖方法への入力としてもよい。こ
の文脈では両方法において使用される最大可能性最適化
技術は相互に補強しあう傾向がある。これは単独で各方
法が従来技術の方法に比較して性能が優れているからで
ある。

本発明の他の特徴及び利点は図面と共に以下の詳細な説
明を読むことにより明らかとなろう。

例示的な実施例の説明第１図の方法では、例示のために、メッセージ読み取ら
れ、そして電子的な形で記憶されていたテキストメッセ
ージであったと仮定する。第１の段階では、ブロック11
で示したように１文づつ記憶テキストを読むこととな
る。この段階では文の境界を決定することが必要であ
る。このためには多くの公知の技術が存在するが、どの
終止符も文を終らせるという最初の仮定をし、そして、
終止符が更に使用されたかも知れないということを本方
法が続いて示すときにはその文とその結果を放棄した
い。

いずれにしても、この方法は各文を終りから始めて処理
しはじめる。

続く段階は３つの一般的な以下の段階にグループ別けす
ることができる。ワードのトークン化（ブロック12）：文の終りから始めてスピーチ部分の語彙の確率の計算
（ブロック13）、及びもちろん、文脈上のスピーチ部分の確率を最適化し（ブ
ロック14）、一般的な最終段階（15）でスピーチ部分の
解析の多くの考えられる用途のどれに対してもその結果
を適用することである。

これらの一般的な段階は以下に説明するように、多くの
更に詳細な段階に分けることができる。

ワードのトークン化においては、スピーチ部分の解析に
対する通常の言語学的試みの小さくはあるが重要ないく
つかの改変をする。それにも関わらず、便宜上、1982年
Houghton Mifflin Co.出版のW.Nelson Francis外による
「Frequency Analysis of English Usage」なる題名の
本の「List of Tags」頁６〜８で述べられたと同じスピ
ーチ部分の名称を使用する。これらは本例の理解に役立
つときは常に本明細書で繰り返される。

トークン化は区切り点及びかっこのようなワードといく
つかの非ワードの識別を含む。更に、Francis外による
本の基礎を形成したようなテキストのタグ付き体部（テ
キストの先行体部は普通「Brown Corpus」と呼ぶ）に新
しい組の空白スペースの頻度を発生するために各文の終
止符の後に２つの空白空間を割当ることが重要であると
いうことが解った。このプロセスに関わるトークンの種
類は文の実際のワードと文の終りが得られたというプロ
セスを知らせる構造表示子である。これらの構造表示子
には、例えば、終止符に関する機械読み取り可能文字の
ような文末表示子、テキストのワードと共に原稿、フィ
ールド又はファイルに記憶された対応のフォーマット形
成文字により示されるヘディング又はパラグラグ表示
子、及びファイルの終り表示子がある。

少し前を見ると、文の各最終ワードはその終止符及び続
く空白部分に対する確率と共に測定される文脈の確率を
有するということが解る。これらの３つは「３グラム」
を形成し、従って、確率の解析は「スピーチの特定部分
としてのこのワードが文をどの程度終らせるだろうか
？」という問題を調査することになる。この場合、この
位置における終止符を観察する文脈の確率は非常に高く
（ほぼ1.0）、そして、文脈上の空白の確率は1.0であ
る。いずれにしても、これらの確率は規格化された確率
の分子と分母の両方で同一であるので、結果としての文
脈の確率は、文の終りにあるスピーチの主題部分を見る
まさに測定された確率であり、テキストの総体から表に
作ることができ、そして、コンピュータの永久記憶装置
に記憶することができる統計値である。

ブロック12に関連して述べたように、観察されるワード
と文字をトークン化した後に、本方法は次のごとく発生
頻度に依存するスピーチ部分の文脈上の確率（スピーチ
部分ｉを与えられたワードｊを観察する確率）を計算す
る。もしも問題の全てのワードの全ての意味がBrown Co
rpusにおける合理的に高い周波数で現れるならば、その
計算は、スピーチの部分に関わらずその全発生頻度によ
り割られる、特定のスピーチ部分としてのワードの観察
された発生頻度の単なる商となろう。

本発明では、次のごとく低発生頻度のワード又は文字に
ついてはこの計算を取り換える。Zifの法則の下では、
どれだけテキストを見ようとも、わずか数回のみ現れる
ワードの大きな尾部分が常に存在するということを考え
る。Brown Corpusでは例えば、40,000個のワードが５回
以下現れる。もしもyawnのようなワードが名詞として１
回、動詞として１回現れるならば、そのワードが形容詞
である確率は何であるか？これはより多くの情報なしに
は云うことは不可能である。幸にも、辞書はある程度こ
の問題を緩和するに役立つ。辞書における可能性の頻度
のカウントに１つのtheを加える。例えば、yawnは辞書
には名詞か又は動詞のいずれかとして偶然リストされ
る。従って、可能性は緩和される。この場合、可能性は
変らないままである。平滑の前後共yawnは50％の回数で
名詞と評価され、その残りの回数で動詞として評価され
る。yawnが形容詞である見込みはない。

ある他の場合には、平滑化により大きな差が生じる。今
ワードのcansを考える。このワードはBrown corpusでは
複数の名詞として５回現れ、そして、動詞としては現れ
ない。語彙（及びその形態論的ルーチン）は幸運にも両
方の確率を与える。従って、訂正された評価ではcansは
複数名詞として6/7回現れ、そして、動詞として1/7回現
れる。

従って、訓練材料、完全な辞書に従って、スピーチの各
存在しそうな部分として各観察された発生頻度に「１」
を加え、そして、そこから語彙の確率を計算する。

このワードについて本発明の確率研究木を構成し始める
ために、評価され正規化された語彙の確率を、即ち、ス
ピーチ部分Ｚを与えられたスピーチ部分Ｙを観察する
「２グラム」頻度によって割算され、すでに決定された
後続のスピーチ部分ＹとＺを与えられたスピーチ部分Ｘ
を観察する頻度を語彙の確率に掛算する。この後者の２
つのデータはFrancis外によりこれらの人々の本で言及
されたすでにタグ付きの総体から表に作ることができ
る。この表に作られたデータはコンピュータメモリに記
憶される。

それが有り得る１つおきのスピーチ部分ごとに主題のワ
ードに関する上記の方法の繰り返しを開始し、前の組の
計算から最大の確率のみを保持する。文の最後のワード
の手前に進む前に、最後のワードに対する最大の成果の
確率に到達した。

このプロセスについては２つのことをすでに観察するこ
とができる。先ず、積に使用される語彙の確率は連続体
に沿って存在するが、Leech外の文献で使用されたよう
に３つの任意割当値の内の１つのものではない。第２
に、数学の応用は、実際には、文の終りに存在すること
が分るワードの場合には些細な事のように見えるかもし
れないが、重要な点はそれがどこでも使用される同一の
数学であるということである。

更に完全で特定な例を与え始める場合には、確率の評価
がFrancis外により言及されてはいるが上記の解析には
含まれていないタグ付きのBrown Corpusでの訓練により
得られたということを記憶しておく。それは割当られ、
そして、手で苦労してチェックされたスピーチ部分タグ
を持つ約1,000,000個のワードの総体である。

本方法の処理は本来厳密に局部的なものであり、そし
て、一般的には、例えば、助動詞の可能性あるものの使
用を決定するために名詞句の両側を調べる方法は有して
いないということを考えると本方法の性能全体は驚く程
良好であった。

辞書の全ての確率が等しい重みを与えられる必要がある
場合、文解剖は極めて困難である。辞書は可能なものに
焦点を合せ、そして、ありそうなものには焦点を合せな
い傾向がある。些細な文章である「I see a bird（私は
鳥を見る）」を考えてみる。実際上は、文の各ワードは
明確である。Francis及びKuceraによれば、ワード「Ｉ
（私）」は5838回の観察の内5837回（100％）名詞とし
て現れ、「see（見る）」は772回の観察の内771回（100
始め％）動詞として現れ、「ａ（１羽の）」は23019の
観察の内23013回（100％）冠詞として現れ、そして、
「bird（鳥）」は26回の観察の内26回（100％）名詞と
して現れる。しかしながら、ウェブスター第７版New Co
llegiath Dictionaryによれば、各ワードはあいまいで
ある。タグの所望の割当（スピーチ部分）の外に、最初
の３つのワードは名詞としてリストされ、そして、最後
のワードは自動詞としてリストされる。文解剖部により
これらのもっともらしい割当は統語論的に悪い形状であ
るとして除外されればと人は望むかもしれないが、不幸
にして従来技術はその結果を達成する一貫した方法を有
してはいない。文解剖部は次の形、即ち、・［NP［N city（市）］［N school（学校）］［N comm
ittee（委員会）］［N meeting（会議）］］の名詞句を
受け入れようとする場合には、次のものを除外すること
ができない。

・［NP［NI］［N see（見る）］［N a（１羽の）］［N
bird（鳥）］］（ここで「NP」は「名詞句」を表し、そ
して、「Ｎ」は「名詞」を表す）。

同様にして文解剖部は恐らく自動詞としての鳥を受け入
れなければならないであろう。これは次の場合に統語論
的に悪いものが存在しないからである、・［Ｓ［NP［NI］［N see（見る）］［N a（１羽
の）］］［VP［V bird（鳥）］］］。ここで「Ｓ」は
「主語」を表し、「VP」は「動詞句」を表し、そして、
「Ｖ」は「動詞」を表す。

これらのスピーチ部分の割当は間違ってはいないが、極
めて起りそうもないことである。

文「I see a bird（私は鳥を見る）」をもう１度考え
る。問題は語彙及び文脈の確率（これら両者はTagged B
rown Coupsuから評価される）を最適化するワードに対
するスピーチ部分の割当を見つけることである。語彙の
確率は次の頻度から評価される（PPSS＝単数名詞、NP＝
固有名詞、VP＝動詞、UH＝間投詞、IN＝前置詞、AT＝冠
詞、NN＝名詞）：語彙の確率は明白な方法で評価される。例えば、「Ｉ（私）」が代名詞である確率、Prob（PPSS|「Ｉ
（私）」）は頻度（PPSS「Ｉ（私）」）／頻度
（「私」）即ち5837/5838と評価される。「see（見
る）」が動詞である確率は771/772であると評価され
る。他の語彙の確率の評価は同一パターンに従う。

文脈の確率、続く２つのスピーチ部分ＹとＺを与えられ
たスピーチ部分Ｘを見る確率は２グラムスピーチ部分の
頻度YZで３グラムスピーチ部分の頻度XYZを割ることに
よって評価される。従って、例えば、冠詞及び名詞の前
に動詞を見る確率は頻度（VB、AT、NN）に対する頻度
（AT、NN）の比即ち3412/53091＝0.064と評価される。
同一の文脈において名詞を見る確率は頻度（NN、AT、N
N）に対する53091の比、即ち、629/53091＝0.01と評価
される。他の文脈の確率の評価は同一パターンに従う。

語彙の確率と文脈の確率の積を最適化するワードに対す
るスピーチ部分タグの割当を見つけるために研究がなさ
れている。概念的には、この研究により入力ワードに対
するスピーチ部分のあらゆる可能な割当が列挙される。
この場合、４つの入力ワードがあるがその３つはあいま
いな２つの方法であり入力ワードに対するスピーチ部分
の一組２^*２^*２^*１＝８個の可能な割当を次のごとく発
生する：この８個の文の各々は次に語彙の確率と文脈の確率の積
により値を付けられ、そして、最良のシーケンスが選択
される。この場合、第１のシーケンスが抜群である。

実際、この値付け機能は２つ以上のワードを続けて見る
ことができないので、全ての可能な割当を列挙すること
は必要ではない。換言すれば、スピーチ部分のシーケン
スを列挙する方法では、ある場合には恐らく、あるシー
ケンスは他のシーケンスと競争できず、従って、放棄さ
れる。この事実のために、Ｏ（ｎ）の通路のみが列挙さ
れる。この最適化を以下に例で示す：まず「bird（鳥）」に対するスピーチ部分の全ての割当
を見付け、そして、その部分的なシーケンスに値を付け
る。今後、全ての値は対数確率として解釈されるべきで
ある。

（−4.848072「NN」）「ａ（１羽）」に対するスピーチ部分の全ての割合を見
付けて値を付ける。この点では、２つの通路が存在す
る、即ち、（−7.4453945「AT」「NN」）（−15.01957「IN」「NN」）次に「see（見る）」の割当を見付けて値を付ける。こ
の点では、通路の数は依然として対数的に増大している
ように思われる。

（−10.1914“VB"“AT"“NN"）（−18.54318“VB"“IN"“NN"）（−29.974142“UH"“AT"“NN"）（−36.53299“UH"“IN"“NN"）次に「Ｉ（私）は」の割当を見付けて値を付ける。尚、
「ａ（１羽）」はフランス語の前置詞INであると仮定す
ることはもはや必要ではない。それは、４つの全ての通
路、即ち、PPSS VB IN NN、NN VB IN NN、PPSS UH IN N
N及びNP UH IN NNは何らかの他の通路よりもよく記録す
ることができず、相対値を任意の追加入力が変え得る方
法は存在しないからである。特に、通路PPSS VB IN NN
は通路PPSS VB AT NNよりも低い値を付け、そして、追
加入力はPPSS VB IN NNを助けない。これは文脈の値付
け機能がスピーチの３つの部分の有限の窓を有している
からであり、そして、それは現存のPPSS及びVBの反対側
をみるには充分ではないからである。

（−12.297581“PPSS"“VB"“AT"“NN"）（−24.177242“NP"“VB"“AT"“NN"）（−35.667458“PPSS"“UH"“AT"“NN"）（−44.33943“NP"“UH"“AT"“NN）研究では、範囲外のワードに関する空白のスピーチ部分
を仮定してもう２つの繰り返しを続行する。

（−13.262333空白“PPSS"“VB"“AT"“NN"）（−26.5196"空白“NP"“VB"“AT"“NN"）最後に、結果はPPSS VB AT NNである。

（−13.262333 blank blank“PPSS"“VB"“AT"“NN"）幾分更に面白い例はCan they can cans.（かれらは水飲
みコップをかん詰めにできるか）であり、 cans（水飲みコップ）は（−5.456845「NNS」）、ここで「NNS」は「複数名詞」
を表す。

can（かん詰めにする）は（−12.603266“NN"“NNS"）（−15.935471“VB"“NNS"）（−15.946739“MD"“NNS"）ここで「MD」は「典型的な助動詞」を表す。

they（彼等）は（−18.02618“PPSS"“MD"“NNS"）（−18.779934“PPSS"“VB"“NNS"）（−21.411636“PPSS"“NN"“NNS"） CAN （−21.766554“MD"“PPSS"“VB"“NNS"）（−26.454851“NN"“PPSS"“MD"“NNS"）（−28.306572“VB"“PPSS"“MD"“NNS"）（−21.932137空白“MD"“PPSS"“VB"“NNS"）（−30.170452空白“VB"“PPSS"“MD"“NNS"）（−31.453785空白“NN"“PPSS"“MD"“NNS"）そして結果はCan/MD they/PPSS can/VB cans/NNSであ
る。

確率を最適化する・・・この方法の他の詳細について
は、表Ａを参照。

この説明はブロック14の動作の説明によって動作の説明
を完結する。

ブロック15で発生する利用の例としては、表示は概念的
に最も簡単ではあるが、特に、人間のオペレータを持つ
相互作用方式では依然として実際的である。第３図と第
４図の説明では以下に更に精巧な例を与える。しかしな
がら、先ず、もう１つのツールを説明することが望まし
い。このツールは本方法の拡張を用いる名詞句の解剖で
ある。

同様な確率論的な方法は非常に高い精度で単一名詞句を
突き止めるように適用されてきた。ここに提案された方
法は先行解剖の確率論的な類似物である。どの２つのカ
テゴリー（終り又は非終り）の間に開き又は閉じかっこ
を挿入すべきかどうかを述べる表を先行解剖が利用する
ということを思い出してみる。ここに提案された方法は
スピーチの全ての対の部分の間に閉じたかっこ及び開い
たかっこの確率を与える表を利用している。サンプルは
スピーチの５つの部分AT、（冠詞）、NN（単数名詞）、
NNS（非単数名詞）、VB（無語尾変化動詞）、IN（前置
詞）について以下に示してある。これらの確率はBrown
Corpusから選択された訓練材料の約40,000語から評価さ
れた。この訓練材料は面倒な半自動手段により名詞句
（複数）に解剖された。

確率論的な解剖部は入力としてスピーチの一連の部分を
与えられ、そして、名詞句の始めと終りに対応するかっ
こを挿入するよう要求される。概念的には、解剖部は入
力の全ての可能な解剖を列挙し、そして、先行確率によ
りそれらの各々に値を付ける。例えば、入力シーケン
ス:NN VBを考える。このシーケンスにかっこを付けるに
は次の５つの可能な方法がある（帰納は考えない）：・NN VB ・［NN］VB ・［NN VB］・［NN］［VB］・NN ［VB］これらの解剖の各々は６個の先行確率を掛けることによ
り値をつけられる。開いた／閉じたかっこの確率は（NN
の前、NNの後又はVBの後の）３つの位置のどれにも現れ
る（又は現れない）。最高の値をもつ解剖は出力として
戻される。

この方法はこの方法が如何に簡単であるかを考慮すると
極めて具合よく行われるが、かっこの数を過小評価し、
そして、２つの名詞句を一緒にしてしまう何らかの傾向
がある。

第２図で記載したように、名詞句の解剖はその入力とし
て第１図のスピーチ部分の割当からの出力をとる。しか
しながら、それはスピーチ部分の他のどの割当技術の結
果を使用することもできる。

いずれの場合にも、ブロック22では、全ての可能な名詞
句の境界が割当られる。ブロック23では、非対の境界が
取り除かれる。各文ごとに、これらはこの文の始めの所
にある終りの境界と、この文の終りのところの開始の境
界を（空白部分を含む）有する。

ブロック24の処理は名詞句の境界の各々の筋の通った割
当に関する確率の木の創作を含む。最高の確率の割当
は、ブロック25で示したように、後での処理、例えば、
結果の利用のために保持される。

次に本発明の更に特定した利用を述べる。スピーチ部分
のタグ付けはスピーチ合成、スピーチ認識、スペル訂
正、校正、質問の応答、機械翻訳及び大きなテキストデ
ータベースの調査（例えはパテント、新聞）を含む多く
の領域における潜在的な利用の場合の重要な実際問題で
ある。本発明者は、明らかに、発音はスピーチ部分に時
々依存する特にスピーチ合成の用途に興味を持ってい
る。そして、発音がスピーチ部分に依存する次の３つの
例を考えてみる。

第１に、“Wind（風）”のような言葉が存在する。この
場合、この名詞は動詞とは異なる母音を有している。即
ち、名詞「wind（風）」は「the wind is strong（風が
強い）」の場合のように短い母音を有している。一方、
動詞「wind（巻く）」は「Do not forget to wind your
watch（時計のねじを巻くのを忘れるな）」の場合によ
うに長い母音を有している。

第２に、発音「that」には「Did you see THAT（それを
見たか）？」の場合のように強制が置かれ、これは、
「It is a shame that he is leaving（彼が行ってしま
うのは残念だ）」の場合のように補足詞「that」とは異
なっている。

第３に、「oily FLUID（油性流体）」と「TRANSMISSION
fluid（伝送流体）」との差に注意する。概して、「oi
ly FLUID」のような形容詞−名詞のシーケンスは一般的
には右側に強勢が置かれるが、「TRANSMISSION fluid」
のような名詞−名詞のシーケンスは一般的には左側に強
勢が置かれる。これは例えば、1984年ロンドンのJeorge
Allen ＆ Unroin発行のEnglish Word Stressにおい
てErik Fudgeにより述べられている。これらは合成装置
が正確なスピーチ部分情報を利用した場合にはより自然
に響くと思われる多くの構成の内のわずか３つのもので
ある。

第３図では、スピーチ部分タグ付け部31は第１図の方法
を使用するコンピュータである。名詞句解剖部32は第２
図の方法を使用するコンピュータである。

スピーチ部分タグ付け部31と名詞句解剖部32の出力は統
語論解析機で利用されてC.H.Coker外に発行された米国
特許代3,704,345号の第１図の絶対強勢信号発生器18に
入力信号を提供する。

現在説明されている規則の例としては、名詞句について
の規則を述べる。Fudgeの本のページ144〜149の付録5.1
を注意されたし。

他の点では、第３図の実施例の動作はCokerの特許の第
１図の実施例に似ている。

同様に、第４図の実施例では、スピーチ部分タグ付け部
41は第１図に説明したように機能し、そして、名詞句解
剖部42は第２図において記載したように機能する。

その場合、名詞句及びスピーチ部分情報はテキスト編集
システム43で利用されるが、このシステム43はF.R.Lang
e外に与えられた米国特許第4,674,065号で記載された種
類のものである。特に、スピーチ部分タグ付け部41と名
詞句解剖部42はその中に編集表示を発生するのを助ける
ためにLange外の特許における「スピーチ部分」部33に
対する置換物を与える。これに固有の精度のため第１図
及び第２図の本発明の方法は従来技術の場合よりも更に
有用な編集表示を発生するはずである。

あるいは又、テキスト編集システム43は1981年２月Bell
Telephone Laboratories、Incorporated発行のCompute
r Science Technical Report、No.91 L.L.Cherry外
による「Writing Tools-The STYLE ＆ Diction Program
s」に記載されたWriter's Workbench商標システムであ
ってもよい。本発明の方法はその中において「PARATS」
と示した方法の置換となろう。

明らかに、本発明の種々の変形は本発明の意図及び範囲
から逸脱せずに成し得る。

例えば、Fudgeの本の強勢規則を実施する１つの方法はC
ambridgeのCambridge University Pressによる本、From
Test to Speach：The MIT Talk System（1987）
においてJonathan Allen外により、特に、第10章、「Th
e Fundamental FrequencyGenrerator」で開示されたア
ルゴリズムによるものであろう。

更に、語彙の確率は平滑化により改善することができる
確率のみではない。文脈の頻度もまたZipfの法則に従う
ように見える。即ち、スピーチの３つの部分の全てのシ
ーケンスよりなる組の場合、対数紙におけるそのランク
に対してシーケンスの頻度をプロットしたとき、古典的
な線形関係及びほとんど−１の勾配を観察した。明らか
に、平滑技術は文脈頻度の代替物にも充分応用できる。
同じことは又名詞句の解剖の場合に使用される先行確率
についても云える。

本発明の技術はスピーチ認識のような他の用途にも関連
を有する。スピーチ部分の文脈確率は認識することがで
きる話し言葉の場合に恐らくより良い選択が可能となろ
う。

本発明の技術はC.W.Tompson外に対して1987年４月18日
に発行された米国特許第4,688,194号に開示されたデー
タベースに呼び掛けるシステムにおいて記載されたスピ
ーチ部分のタグ付きの直接の代りとなり得る。

本発明の他の変形例及び応用例も又本発明の意図及び範
囲内にある。

表Ａフォームのファイルを入力〈word〉〈pos〉〈lex_prob〉〈pos〉〈lex_prob〉〈po
s〉〈lex_prob〉・・・〈word〉〈pos〉〈lex_prob〉〈pos〉〈lex_prob〉〈po
s〉〈lex_prob〉・・・〈word〉〈pos〉〈lex_prob〉〈pos〉〈lex_prob〉〈po
s〉〈lex_prob〉・・・・・・〈word〉〈pos〉〈lex_prob〉〈pos〉〈lex_prob〉〈po
s〉〈lex_prob〉・・・各ワードは文中のワード（トークン）に（逆の順序で）
対応する。〈pos〉と〈lex_prob〉はスピーチと語彙の
確率の一部である。

スピーチ部分の最良のシーケンスを出力 new_active_paths:＝｛｝：非通路の組通路は一連のスピーチ部分とスコアの記録である。変数
の旧_active_pathは一組のＩ通路まで初期化され、この
通路は一連の非スピーチ部分とIDの確率値を含む。

old_active_paths:＝｛〈paths:［］,score:1.0〉｝Ｉ
通路の組入力： line:readlin（） if（line＝end_of_file） goto finish word:＝popfield（line） while（ライン空いてない） pos:＝popfield（line） lex_prob:＝popfield（line） loop for old_path in old_active_paths old_paths:＝old_path＞parts old score:＝old_path＞score new_parts:＝concalonaic（old_paths, pos） new_score:＝lex_prob^*old score^* contextual_prob （new_paths） new_path:＝make_record（new_paths, new_score） if（new_score＞score of paths in new_active_paths with the same last two parts of speech） new_active_paths:＝add new_path to new_active_paths old_active_paths:＝new_active_paths new_active paths:＝｛｝ goto input 完成： find path in new_active_paths with best score output path−＞parts contextual_prob（｜…xyz|）： return（freq（xyz）/freq（XY））出力ファイル：空白空白 NN AT VB PPSS 空白空白 Trace of old_active_paths: （以後値は対数確率と解釈するものとする）ワード“鳥”を処理後，“old_active_paths is｛〈部
分：［NN 空白空白］の値は：−4.848072〉｝ワード
“a"を処理後old_active_paths is｛〈部分：［AT NN
空白空白］の値は：−7.4453945〉〈部分:IN NN空白空白］の値は：−15.01957〉｝ワー
ド“see（見る）”の後に｛〈部分：［VB AT NN 空白空白］の値は：−10.191
4〉〈部分：［VB IN NN 空白空白］の値は：−18.5431
8〉〈部分：［UH AT NN 空白空白］の値は：−29.97414
2〉〈部分：［UH IN NN空白空白］の値は：−36:5329
9〉｝ワード“I"の後で｛〈部分：［PPSS VB AT NN 空白空白］の値は：−1
2.927581〉〈部分：［NP VB AT NN 空白空白］の値は：−24.17
7242〉〈部分：［PPSS UH AT NN 空白空白］の値は：−35.
667458〉〈部分：［NP UH AT NN 空白空白］の値は：−44.33
943〉｝範囲外のワードの空白スピーチ部分を仮定して更に２回
サーチを繰返す｛〈部分：［空白 PPSS VB AT NN空白空白］の値
は：−13.262333〉〈部分：［空白 NN VB AT NN 空白空白］の値は：
−26.5196〉｝最後に｛〈部分：［空白空白 PPSS VB AT NN 空白空白］
の値は：−13.262333〉｝

【図面の簡単な説明】

第１図は本発明によるスピーチ部分割当方法の流れ図で
あって、第２図は本発明による名詞句解剖方法の流れ図であり、第３図は第１図と第２図の方法を使用するスピーチ合成
装置のブロック線図であり、及び第４図は第１図の方法を使用するテキスト編集のブロッ
ク線図である。

Claims

【特許請求の範囲】

【請求項１】メッセージの記憶された表現を電子的に読
み取り、各ワードがスピーチの特定部分となるべき語彙の確率を
発生し、及びこの主題となるワードに関する語彙の確率に応答すると
共に少なくとも１つの隣接ワードがスピーチの特定部分
となる文脈の確率に応答して、主題のワードがスピーチ
の特定部分となる文脈の確率を選択する段階を有する種
類のメッセージのワードにスピーチの一部分（スピーチ
部という）を割当る自動化方法において、前記語彙の確率を発生する段階は、特定のワード、文の前後の空間、及び句読点の符号を、
前記メッセージの非言葉の記録の場合に経験的に決定さ
れる発生頻度を持つ言葉として表現し、少なくとも特定のワードに関するスピーチ部分の頻度を
平滑化する段階を有し、及び前記文脈の確率を選択する段階は、少なくとも次のワー
ドを有する近くのワードのスピーチ部分に関する文脈の
確率を最大にすることを含むことを特徴とするスピーチ
部分の決定方法。
【請求項２】全ての生じ得る名詞句の境界を割当て、全ての非対の境界を除去し、及び文脈上の名詞句の境界の確率を最適化する段階を更に有
することを特徴とする請求項１記載の決定方法。
【請求項３】前記最適化段階の結果に依存してワードの
強勢を割当る段階を有することを更に特徴とする請求項
２記載の決定方法。
【請求項４】割当られたワードの強勢に応答して前記メ
ッセージに対応するスピーチを合成する手段を更に有す
ることを特徴とする請求項３記載の決定方法。
【請求項５】メッセージ内の文脈上の誤りを検出するた
めにこのメッセージ内のワードに関する選択された文脈
上の最高の確率を使用することを更に特徴とする請求項
２記載の決定方法。
【請求項６】メッセージ内で、このメッセージ内の各名
詞の付近のワードが名詞句の一部となるかどうかを評価
し、そして、その結果生じる評価を利用する段階を有す
る種類の、適正な確率でスピーチ部分が割当られている
名詞句の始めと終りを決定する自動化方法において、全ての有り得る名詞句の境界を割当て、全ての非対の境界を除去し、及び文脈上の名詞句の境界の確率を最適化する段階を更に有
することを特徴とするスピーチ部分の決定方法。
【請求項７】近くのワードのスピーチの部分に関してｎ
グラム解析によりメッセージ内におけるスピーチ部分を
割当て、そして、この割当段階が、メッセージの非言葉の記録の場合における経験的に決定
された発生頻度を持つワードとして特定の非ワードを表
し、前記非ワードの異なる使用の文脈上のスピーチ部分の確
率に関係して特定のスピーチ部分となるべきメッセージ
内の互いの近くのワードの規格化された最適な文脈の確
率を計算する段階を有し、この規格化された文脈の確率
は、空白空間を含む、文の終りにおいて開始することに
より全て決定される、２グラムスピーチ部分の確率によ
り割られた、３グラムスピーチ部分の確率であることを
特徴とする請求項１又は６記載の決定方法。
【請求項８】前記発生する段階はスピーチの特定部分と
して比較的低い発生頻度を持つワードのスピーチ部分の
使用について辞書を参照することにより頻度を平滑化
し、及び前記選択する段階は、文脈の確率の語彙の確率の積を決定し、及び同一ワードに関する前の積を越える積を保持することを
含む、数個の可能なスピーチ部分の組み合せに関し前記
決定する段階を反復する段階を更に有し、前記文脈の確率の語彙の確率の積を決定する場合に、前記語彙の確率はスピーチの全ての部分としてのワード
の発生頻度により割られた、スピーチの特定部分として
の前記ワードの発生頻度の商として評価され、前記文脈の確率は２グラム頻度により３グラム頻度を割
ることにより評価され、この場合、３グラム頻度は２つの続くワードについて既に決定され
ているスピーチの２つの続く部分に対するシーケンスに
おけるスピーチのその特定部分の発生頻度であり、そし
て、２グラム頻度は、次に続くワードについて既に決定され
ているスピーチの次に続く部分に対するシーケンスにお
いて次のワードのスピーチの特定部分の発生頻度である
ことを特徴とする請求項１記載の決定方法。