JP2000235585A - トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム - Google Patents

トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム

Info

Publication number
JP2000235585A
JP2000235585A JP11368818A JP36881899A JP2000235585A JP 2000235585 A JP2000235585 A JP 2000235585A JP 11368818 A JP11368818 A JP 11368818A JP 36881899 A JP36881899 A JP 36881899A JP 2000235585 A JP2000235585 A JP 2000235585A
Authority
JP
Japan
Prior art keywords
topic
text
keyword
network
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11368818A
Other languages
English (en)
Inventor
Lynn D Wilcox
ディー ウィルコックス リン
Donald G Kimber
ジー キンバー ドナルド
Marti A Hearst
エイ ハースト マーティ
Steven R Harrison
アール ハリソン スティーブン
Thomas P Moran
ピー モラン トーマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2000235585A publication Critical patent/JP2000235585A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Abstract

(57)【要約】 【課題】 定められたトピックに基づくテキストと音声
のクロスインデックスを実行するシステム及び方法を提
供する。 【解決手段】 クロスインデックス(相互参照)は、ま
ず関連するテキストを用いてトピックを決定することに
より実行される(ステップ206又は208)。つづい
て、これらのトピックに対応する音声のセグメントを、
その音声における特定キーワードの発生に基づき検出す
る(ステップ210)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、定められたトピッ
クに基づくテキストと音声とのクロスインデックス(相
互参照)のためのシステム及び方法に関し、より詳細に
は、音声記録のセグメントとその記録において論じられ
るテキスト文書の関連部分との関連付けに関する。クロ
スインデックスにおいてはまず、関連するテキスト文書
を用いてトピック及びキーワードを決定する。次に、こ
れらのトピックに対応する音声記録のセグメントを、記
録におけるキーワードの発生に基づいて検索(locate)
する。
【0002】
【従来の技術】トピックベースのクロスインデックスに
より文書のテキストと関連する音声記録とを関連づける
システム及び方法については、既知の従来技術文献のい
ずれにも開示されていない。
【0003】
【発明が解決しようとする課題】よって、本発明は、従
来の技術からは得ることのできない効果をもたらす、ト
ピックベースのテキストと音声のクロスインデックスの
新しいシステム及び方法を提供する。
【0004】
【課題を解決するための手段】本発明によれば、電子的
に保存された少なくとも1つの文書に含まれるテキスト
を、その文書の議題(discussion)に対応する記録音声
に相関させる方法及びシステムが提供される。トピック
ベースのクロスインデックスは、テキストと音声との相
関づけに使用される。
【0005】本発明の1態様によれば、システムにおい
て実施される方法は、テキストに反映されるトピックを
決定するステップと、テキストに含まれるキーワード及
びキーワードがトピックに属する確率を決定するステッ
プと、前記キーワードと前記確率とに基づきトピックセ
グメンテーションネットワーク(topic segmentationne
twork)を生成するステップと、記録された音声の音響
特性(acoustic characteristics)を前記トピックセグ
メンテーションネットワークに入力するステップと、前
記音響特性が与えられたとして、セグメンテーションネ
ットワークを通過する最尤パス(the most probable pa
th)を決定するステップと、そのパスに基づき前記音声
をトピック単位にセグメント化するステップとを含む。
【0006】本発明の別の態様によれば、システムにお
いて実施される方法は、テキストに反映されるトピック
を決定するステップと、テキストに含まれるキーワード
及びキーワードがトピックに属する確率を決定するステ
ップと、前記キーワードと前記確率とに基づきトピック
セグメンテーションネットワークを生成するステップ
と、記録された音声の音響特性をキーワードスポッタ
(keyword spotter)に入力して所定の時間間隔内に発
生するキーワードの回数を決定するステップと、前記発
生回数をトピックセグメンテーションネットワークに入
力するステップと、前記観測されたキーワード発生回数
により、セグメンテーションネットワークを通過する最
尤パスを決定するステップと、そのパスに基づき前記音
声をトピック単位にセグメント化するステップとを含
む。
【0007】本発明のさらなる態様によれば、前記方法
を実施する手段が提供される。
【0008】
【発明の実施の形態】本発明の好ましい実施形態を例示
する目的で図面が示されるが、本発明はこれらの図面に
限られるものではない。
【0009】図1に関連し、本発明は、音声Aのセグメ
ントと関連するテキストTの部分とのクロスインデック
スIを作成する方法及びシステムに関する。インデック
ス(索引)作業は、テキストTと音声Aとを相関させる
インデックスIとして機能する媒介トピック集合の決定
により実行される。クロスインデックスIは、任意の都
合のよい形式にすることができ、本発明では、このクロ
スインデックスは、本発明のシステムと方法の少なくと
もいずれかにより得られるトピックセグメンテーション
情報に基づく。
【0010】図2は、本発明に係る方法を示すフローチ
ャートである。図示される方法は、システムの初期セッ
トアップ又は初期化に関連し、上述のクロスインデック
スの作成により、電子的に保存された選択テキスト文書
と音声記録とが相関づけられる。もちろん、電子的に保
存されたテキスト文書の議題を組み込んだ音声記録がユ
ーザに利用可能になった後に、この方法を使用してもよ
い。この点に関し、音声記録はディジタルでシステムに
保存してもよいし、システムと通信する周辺装置に保存
してもよい。適当な状況においては、セグメンテーショ
ンモデルを事前に生成し、音声のセグメント化をリアル
タイムで行うことができる。
【0011】なお、ここで説明する発明のステップ及び
システムの構成要素は、当業者に周知の種々の方法及び
形式で実施可能である。例えば、方法ステップは主とし
て適当なソフトウェアのルーチンにおいて実施されてい
るが、選択されたハードウェアによって実施することも
できる。
【0012】図2に示されるように、ユーザはシステム
セットアップ(ステップ202)を開始することにより
方法200を始める。次に、関連する電子的に保存され
たテキストを選択する(ステップ204)。この時点
で、選択されたテキストに含まれるトピックが決定す
る。この決定は、ユーザが実際に決定を行って、システ
ムに入力してもよいし(ステップ206)、既知の方法
を使ってシステムが自動的に決定してもよいし(ステッ
プ208)、両者を適当に組み合わせてもよい。
【0013】ここで、トピックとは主題を分類するため
にテキストの一部分またはスピーチの断片(セグメン
ト)に付与されるラベルである。トピックは対応するテ
キストの部分から抽出されるのが通常であるが、あらか
じめ特定された概念であってもよい。本実施形態では、
トピックはキーワードとその頻度によって表される。た
だし、より複雑な言語モデルでトピックを示すこともで
きる。
【0014】より特定的には、ユーザがトピックを決定
するステップ206に関し、トピックを決定する1つの
方法は、各トピックに対して異なるテキスト文書を指定
する方法である。例えば、会議の録音とその会議中に議
論された文書とのクロスインデックスを作成する場合、
ユーザは、各トピックとして、別々の文書又は好ましく
は電子的に保存されたそのテキストバージョンを適当に
指定することで、トピックを決定する。この実施形態で
は、ユーザはクロスインデックスにより、特定文書につ
いての議論を、録音された会議において、効率よく検索
することができる。
【0015】ユーザがトピックを決定する別の技術とし
て、サブトピック領域のレベルにセグメント化された1
つ以上のテキスト文書を用いる方法もある。サブトピッ
ク領域は、著者が定めた文書の区分であってもよい。
【0016】あらかじめ特定された概念によってユーザ
がトピックを決定することもできる。例えば、作成され
て電子的に保存された文書においては、これらの概念
を、「概念1」、「概念2」又は「概念3」などとして
もよい。そして、これらの概念についての議論に応じ
て、会議の録音にインデクシング(索引づけ)すること
ができる。会議が文書によっても索引づけされていれ
ば、例えば「概念1」についての議論を、特定の文書に
おいて見つけることができる。あらかじめ特定された概
念を使用する考え方は、これらの概念がテキストのセク
ションを反映していれば、本発明に効果的に適合する。
【0017】一方、ステップ208によれば、サブトピ
ック領域がシステムによって自動的に決定できる。これ
は、多くの既知技術のいずれによっても実行できるが、
好ましくは、サブトピックの境界を検出し、同一のサブ
トピックを有する領域をマージすることにより実行され
る。こうして、文書の各サブトピックに対応するテキス
トの各部分によってトピックが決定する。例えば、会議
の講演の録音記録と、これに対応する会議書類とのクロ
スインデックスを作成する場合、その書類のセクション
によってトピックが決定できる。作成されたクロスイン
デックスにより、書類を読むユーザは、講演の録音記録
の中から、ある特定セクションの口頭議論を見つけ出す
ことができる。
【0018】より詳細には、テキスト中のサブトピック
境界は、Hearstによる以下の文献に提案されている「テ
キストタイリング(text tiling)」アルゴリズムによ
って検出される。"Multi-Paragraph Segmentation of E
xpository Texts," UC Berkely Computer Science Tech
nical Report, No. UCB/CSD 94/790, pp. 1-11 ( Janua
ry 1994); "Segmenting Text into Multi-Paragraph Su
btopic Passages", Computational Linguisticis, vol.
23, no. 1, pp. 33-64 (March 1997); and, "Multi-Pa
ragraph Segmentation of Expository Text", Proceedi
ngs of the 32nd Meeting of Association for Computa
tional Linguistics--Las Cruces, N.M., pp. 9-16 (Ju
ne 1994). この技術ではトピックの集合を前もって知る
必要はなく、用語グルーピングパターン(term groupin
g pattens)に基づき境界を推定する。
【0019】Hearstによる "Multi-Paragraph Segmenta
tion of Expository Text", Proceedings of the 32 nd
Meeting of the Association for Computational Ling
uistics-Las Cruces, N.M., pp. 9-16 (June 1994)に記
載されているように、コアアルゴリズムは、3つの主要
部分、すなわちトークン化(tokenization)、類似性判
定(similarity determination)、境界識別(boundary
identification)を含む。
【0020】トークン化とは、入力テキストを個々の字
句的(語彙)単位に分割することを意味する。すなわ
ち、テキストを、実際の統語論的に定められたセンテン
ス群ではなく、予め定められた大きさw(アルゴリズム
のパラメータ)を有する擬似センテンス(psuedosenten
ces)群に細分化することにより、正規化(normalizati
on)の問題を回避する。以下の説明のために、これらの
トークンの集まりをトークン列(token-sequences)と
呼ぶ。実際には、1トークン列につきwを20トークン
に設定するのが、多くのテキストにとって最適である。
形態論的(morphologically)に分析されたトークン
は、それが発生したトークン列の番号と、そのトークン
列におけるそのトークンの発生頻度の記録とともに、テ
ーブルに記憶される。テキスト中の段落の区切り(para
graph breaks)位置も記録される。クローズド・クラス
(Closed-class:閉じたクラス)及び他の極めて頻出す
る単語は分析から省く。
【0021】トークン化に続く次のステップとして、ト
ークン列のブロックの隣り合うペアを比較して全体的な
字句的類似性を判定する。アルゴリズムの別の重要なパ
ラメータはブロックサイズ(blocksize)、すなわち1
つのブロックにまとめられ、隣接するトークン列グルー
プと比較されるトークン列の数、である。kとして示さ
れるこの値は、テキストごとにわずかに異なるが、ヒュ
ーリスティックス(発見的知識)に基づけば、この値は
(トークン列で表される)平均的なパラグラフの長さで
ある。実際には、このkの値が6であると多くのテキス
トが十分に機能する。実際のパラグラフは、長さが非常
に不規則で比較が不均等になるため、使用されない。
【0022】類似性の値は、各トークン列ギャップ番号
ごとに計算される。すなわち、(i−k)から(i)ま
でのトークン列群が,(i+1)から(i+k+1)の
トークン列群にいかに類似するかに対応するスコアが、
トークン列ギャップ(i)に付与される。ここで、この
移動ウィンドウアプローチ(moving window approach:
分析対象を示すウインドウを動かしながら分析する方
式)は、各トークン列が(k*2)回の類似性計算にお
いて現れることを意味する。
【0023】ブロック間の類似性はコサイン測定(cosi
ne measure)により計算される。これに関し、それぞれ
がk個のトークン列を含む2つのテキストブロックb1
とb2が与えられた場合、類似性simは以下のように
なる:
【数1】 ここで、tはトークン化ステップにおいて登録された全
用語にまたがる範囲であり、w[t,b1]はブロックb1
の用語tに付与された重みである。アルゴリズムのこの
バージョンにおいては、単語の重みは、単にブロックに
おけるその単語の頻度である。従来は、用語の重み付け
は、その頻度にその逆文書頻度(inversedocument freq
uency)を乗算した結果に従っていた。近年の実験で
は、単なる用語の頻度がより適切なようである。したが
って、2つのブロック間における類似性のスコアが高け
れば、それらブロックには多くの用語が共通して含まれ
る。この式により、0から1まで(0、1を含む)のス
コアが包括的に算出される。
【0024】これらのスコアは、トークン列番号に対す
る類似性スコアとして座標表示できる。しかしながら、
類似性はブロックb1とb2との間で測定され、ブロック
1は(i−k)から(i)までのトークン列の範囲で
あり、b2は(i+1)から(i+k+1)のトークン
列の範囲であるため、測定値のx軸座標は、トークン列
(i)と(i+1)の間にあたる。そこで、トークン列
番号をx軸上に表示するのではなく、トークン列ギャッ
プ(i)を表示する。この表示は平均平滑化(average
smoothing)により平滑化される。実際には、ウィンド
ウサイズ3につき平均平滑化を1ラウンド行うことが、
多くのテキストに好適である。
【0025】次に、類似性スコアのシーケンスにおける
変化により境界線を決定する。トークン列ギャップ番号
は、その絶対的な類似性スコアによってではなく、その
トークン列ギャップの各側における座標表示(プロッ
ト)の勾配の傾斜に従って順序づけられる。すなわち、
所与のトークン列ギャップ(i)に対し、スコアの値が
増加している限りアルゴリズムはその(i)の左側に位
置するトークン列ギャップのスコアに注目する。左方向
にスコアの値がピークを超えると、そのピークにおける
スコアと(i)におけるスコアとの差を記録する。同じ処
理を(i)の右側に位置するトークン列ギャップに対し
ても、スコアが上昇している限り行う。そして、(i)
の右側におけるピーク値の相対的な高さを、左側におけ
るピーク値の相対的高さに加える。(ピークにおいて発
生するギャップのスコアは、そのいずれも側でもスコア
はこれより高くないのでゼロになる。)次に、トークン
列ギャップの両側に発生する変化の急激さに対応する、
深さスコア(depth score)と呼ぶ、トークンギャップ
の新しいスコアをソート(整列)する。セグメント境界
は、最大対応スコアを有し、必要に応じて実際の段落区
切りの位置に一致するよう調節されたトークン列ギャッ
プに指定される。ここで、極めて近接するセグメント境
界線を指定しないように条件チェックを行う。境界線と
境界線のあいだには少なくとも3つのトークン列が存在
すべきである。これは、多くのテキストが内容のない
(spurious)ヘッダ情報や単一文からなるパラグラフを
含むことを、抑える助けとなる。
【0026】各パラグラフが潜在的なセグメント境界線
であるので、アルゴリズムはいくつのセグメントを1つ
の文書に割り当てるかを決定しなければならない。文書
のスタイルと長さには何らかの対応がなければならない
ので、絶対的な切断(カットオフ)を行おうとするのは
問題である。特定の谷部の深さに基づくカットオフも同
様に問題がある。
【0027】境界線の数を決定して、文書のサイズにつ
いてのスケールを指定する技術が知られている。この技
術は、その文書の生成する類似性スコアのパターンの影
響を受け易い。カットオフは、分析されているテキスト
の深さスコアの平均偏差及び標準偏差の関数である。
【0028】隣接するサブトピックセグメントではトピ
ックが異なるが、実際に同様のトピックを表してるサブ
トピックセグメントもある。したがって、同一トピック
を論じているセグメントをマージする別のステップが要
求される。
【0029】1つのアプローチとして、各セグメントに
対し、そのセグメントの境界線の識別に最も貢献する重
みを持つ、注目すべき用語(notable term)の集合を決
定する。これらの注目すべき用語にしたがってセグメン
トをクラスター化することができ、クラスター化で近接
することになったセグメントは、ほぼ同一のサブトピッ
クを論じていると仮定される。例えば、周知の階層的集
塊式クラスタリングアルゴリズム(hierarchical agglo
merative clustering algorithm)など、任意の適当な
クラスタリングアルゴリズムを適用できる。このような
アルゴリズムでは、各セグメントはまずそれ自体固有の
クラスタであり、続いて最も近接する2つのクラスタを
マージして新しいクラスタを形成する。任意の2つのク
ラスタ間の最小距離が所定の閾値を超えるまでこのプロ
セスを繰り返す。セグメント間の距離は、Hearstによ
る"Multi-Paragraph Segmentation of Expository Text
s, "UC Berkely Computer Science Technical Report,
No. UCB/CSD 94・790、 pp.1-11 (January 1994)に記載
されるのと同一にすることができる。複数の関連する文
書、すなわち同一の著者によって書かれた複数の文書に
またがって同様にこの分析を行うことができる。必要が
あれば、よりよい結果を得るために相対的用語分布を考
慮することができる。
【0030】さらに、ユーザ入力とシステムによるトピ
ック決定を組み合わせて実行してもよい。当業者であれ
ば、かかる組み合わせを行うためには上記方法に代わる
適当な方法が要求されることが理解できる。
【0031】関連するテキストからトピックを抽出した
ら、そのテキスト中のキーワードと、そのキーワードが
特定のトピックに属する確率を計算または判定する(ス
テップ210)。ここで、キーワードは好ましくはキー
ワードとトピックのあいだの相互情報(共通情報)を最
大化すべく選択される。これは、周知の技術を使用して
実行できる。あるいは、種々のトピックにおけるキーワ
ードの頻度のばらつきを測定する、周知のカイ二乗統計
量によってキーワードを選択することもできる。いずれ
にせよ、キーワード及びキーワードがトピックに属する
確率は重要な判定材料である。
【0032】より詳細には、好ましい実施形態において
は、キーワードは、トピックを定義するためのテキスト
を用いて選択される。キーワード選択の基準は、トピッ
クどうしを区別するキーワードを選択することである。
任意の所与のトピック領域に対し、異なる単語の頻度を
計算する。これらの頻度は、トピックtについての議論
で話されるある観測された単語が、単語wである確率p
(w|t)の推定値として使用される。そして、任意の
単語wに対し、その単語wが話されていると仮定し、所
与のトピックtが論じられている条件付き確率p(t|
w)をベイズの公式によって計算することができる。こ
の条件付き確率は各単語で異なる。さらに、これらのキ
ーワードは、その発生頻度がトピック間で異なるという
特性を有する。例えば、トピックの識別にとって良好な
キーワードは、ある1つのトピックでは頻繁に発生する
が、他の全てのトピックにおいてはまれにしか発生しな
い、などである。この特性は、トピックの集合Tについ
て、最大の相互情報I(T;W)を有するキーワードW
を選択することにより認定できる。I(T;W)は、以
下のように定義することができる。
【0033】
【数2】 ここで、P(t|w)は、キーワードwが与えられた場
合のトピックtの条件付き確率である。
【0034】トピックの識別に適したキーワードの集合
を決定する別の技術は、周知のカイ二乗(χ2)統計量
を使用する技術である。キーワードはあるトピックにお
いては頻繁に発生するが、別のトピックにおいては稀に
しか発生しない。言い換えると、その分布は均一とは大
きくかけ離れている。分布の不均一性の1つの測定法が
カイ二乗統計である。Lをトピックの総数とし、fi
ある単語がi番目のトピックにおいて発生する回数とす
る。この結果、その単語の総発生回数fは、次のように
表される。
【0035】
【数3】 その単語が全トピックにわたって均一に分布していれ
ば、各トピックにおいてその単語が発生する予想回数
は、f/Lである。カイ二乗統計量は、平均値からの偏
差を表すものであり、以下のように表す。
【0036】
【数4】 よって、最大のχ2値を有する単語をキーワードとして
選択できる。
【0037】キーワードの選択における別の重要な要因
は、異なる単語をワードスポッタによって認識する際の
正確さである。ワードスポッタが追跡する話(スピー
チ)を構成する情報チャネルのモデル化により、この正
確さを相互情報基準に組み込むことができる。I(T;
W^)(W^は認識されたキーワード。なお記号「^」は
Wの上に置かれているが、文字コードの都合上、上記の
如く表す)を最大化するキーワードの集合が選択され
る。これには、P(t|w^)、すなわち単語w^がスポ
ットされた(見つけられた)と仮定した場合のトピック
tの確率の推定値が要求される。認識誤差についてのコ
ンフュージョンモデルを使用することにより、この推定
値に近い値を求めることができる。例えば、P(t|w
^)は次のように計算できる。
【0038】
【数5】 ここで、p(w|w^)は、単語w^が認識されたとし
て単語wが話される条件付き確率である。例えば、J. K
upiec, D. Kimber, V. Balasubramanian,Proceedings o
f the ARPA Human Language Technology Workshop (Pla
insboro, New Jersy), pp. 373-377 (March 1994) 参照
のこと。
【0039】キーワードの選択後、トピックセグメンテ
ーションネットワークが生成される(ステップ21
2)。トピックセグメンテーションネットワークの生成
は、まず決定された各トピックごとに、キーワードに基
づく隠れマルコフモデルを構成し、次にこれらのモデル
を結合して単一のトピック認識ネットワークを形成する
ことにより行われる。所与のトピックが論じられる順序
及び回数が未知である場合には、トピックモデルをパラ
レル(並行)に組み合わせて全体ネットワークを形成す
る。トピックが論じられる順序に関する制約は、トピッ
クモデルを別の方法で組み合わせることにより組み込む
ことができる。例えば、トピックT1,T2,T3が逐
次的に論じられることが知られていれば、T1,T2,
T3のモデルをシリアルに組み合わせて全体モデルが生
成される。隠れマルコフモデルをいかにネットワークに
組み合わせるかについての詳細は、当業者に周知であ
る。
【0040】さらに、ユーザは処理されるオーディオ
(音)を選択しなければならない(ステップ214)。
もちろん、この音とは、トピックセグメンテーションプ
ロセスで,、上述のように生成されたトピックセグメン
テーションネットワークにおいて最終処理される音であ
る。
【0041】ここで、2つのアプローチをトピックセグ
メンテーションに対して実行することができる。図2に
関連して説明する(1段階で実行される)第1のアプロ
ーチでは、トピックセグメンテーションとキーワードス
ポッティング(キーワード検出)が同時に行われる。一
方、図5に関連して以下に説明する別のアプローチで
は、2段階の処理が行われる。まず、例えば単一の隠れ
マルコフモデル認識装置などの利用可能なスピーチ認識
装置により、全トピックに対するキーワードを音声中で
スポット(検出)する。次に、第2の処理により、スポ
ッティングされたキーワードの頻度に基づきトピックを
セグメント化する。
【0042】一般的に、キーワードスポッティングは多
数の異なる方法で実行できる。第1に、全単語を認識し
てからトピックキーワードのサブセットを識別する大語
彙方式の認識(large vocabulary recognition)、に基
づきキーワードをスポッティングできる。第2に、特別
に設計された認識装置を構成し、隠れマルコフモデルを
キーワード認識装置として用いて、選択されたキーワー
ドのみを検索し、キーワードスポッティングを行っても
よい。それ以外の全キーワードは、フレーズ群からなる
任意のセンテンス又は単語群からなる大きな語彙を認識
する別の隠れマルコフモデル、すなわちガーベージ隠れ
マルコフモデル、により認識される。第2の方法の原理
が図2の実施形態に組み込まれている。
【0043】再び図2を参照して説明する。1段階のト
ピックセグメンテーションアプローチにおいては、各ト
ピックは、所与のトピックに適当な言語モデルに基づ
き、隠れマルコフモデルに関連づけられる。そして、こ
れらの言語モデルに対応する隠れマルコフモデルをパラ
レルに接続してトピックセグメンテーションネットワー
クを形成する。
【0044】これは、好ましい実施形態では、図3に示
されるように、トピックモデル10において、キーワー
ド1,2・・・nの集合と、対応するトピック依存確率
を、これに並列された代替(alternate)モデル12と
共に考慮することにより実現される。キーワードノード
1,2・・・nは隠れマルコフ単語モデルである。代替
モデル12は、起こり得る他の全単語を照合(match)
し、実際にはキーワード以外の全単語に対する大語彙の
認識手段であるといってもよい。各キーワードへの推移
(遷移)確率(transition probabilities)は、トピッ
クtを与えられた場合のキーワードの確率p(w|t)
に基づいている。
【0045】上述のように、ステップ212において、
トピックセグメンテーションを実行するためのネットワ
ーク14が図4に示すようにトピックモデル10から生
成される。セグメンテーションはこのネットワークに周
知のビタビ(Viterbi)アルゴリズムを実行して行われ
る(図2のステップ216)。ここで、ユーザによる音
源の選択後に音響特性が入力される(図2のステップ2
14)。各トピックモデルから出力される推移確率は、
トピック間の見せかけの推移(スプリアス遷移:spurio
us transitions)を防ぐべく極めて小さく選択される。
必要な出力及び推移特性を結合することにより、単一の
代替モデルをネットワークの全トピックモデルで共有で
きる。
【0046】1段階のセグメンテーションを用いる場
合、音響特性は隠れマルコフモデルの大規模ネットワー
クにより直接トピックに復号化されるため、システムは
話されているキーワードを明確に判断することはない。
すなわち、音の列(sequence of acoustics)がネット
ワークを通過し、ネットワーク全体を通過する最尤パス
(maximum likelihood path)(パスは、状態の列)が
決定される。このパスは、音の列がどのサブトピックネ
ットワークに属するかを示す。もちろん、これが直接、
要求されるトピックセグメンテーションとなる。
【0047】この実施形態においては、組み立てられた
隠れマルコフモデルのネットワーク上でビタビアルゴリ
ズムは一度だけ実行される。アルゴリズムは、ダイナミ
ックプログラミングを使用し、特徴ベクトルの列が音響
入力にて観察されたと仮定して、セグメンテーションネ
ットワークを通過する最尤パス(すなわち、状態の列)
を算出する。
【0048】この1段階セグメンテーションの主たる利
点は、全ての情報が単一の最適モデルによって処理され
ることである。これにより、より適当な認識の推定が可
能になる。別の効果として、1段階のセグメンテーショ
ンは、図5に関連して説明するセグメンテーションに要
求されるようなウィンドウの利用を必要としない。
【0049】上記の情報に基づきセグメンテーションが
完了すると、セグメンテーション情報は所定の方法によ
り図1に示されるクロスインデックスIを得るための適
当なフォーマットで保存される(ステップ218)。図
6に関連して以下に説明するように、ユーザによるシス
テムの使用時にこの情報がシステムによって利用され
る。情報の保存によりこの方法は完了する(ステップ2
20)。
【0050】図5に示されるさらなる実施形態において
は、方法500が実施される。方法200と同様に、こ
の方法もシステムセットアップの始動(ステップ50
2)により開始する。続いて、ユーザによってテキスト
が選択される(ステップ504)。次に、ユーザによる
トピックの入力(ステップ506)、システムによるト
ピックの決定(ステップ508)、又はこれらの組み合
わせによりトピックが決定する。次に、キーワードを決
定する(ステップ510)。
【0051】このステップ以降、方法500は図2に関
連して説明した方法200とは異なる。より詳細には、
トピックセグメンテーションネットワークは以下のよう
に生成される(ステップ512)。ただし、生成された
トピックセグメンテーションネットワークは、ステップ
212のネットワークにおける粒状性のレベルを持たな
い。ここで生成されるネットワークは図4のトピックネ
ットワークに類似し、その入力として音響特性(図2に
関して説明したネットワークの場合)ではなく、ワード
カウントベクトルを有する。
【0052】この2段階セグメンテーションの第1の段
階では、上述のキーワードスポッティング(キーワード
探知)システムによりキーワードの位置及び発生確率を
計算する。ユーザによる音声録音の選択(ステップ51
4)後、音響特性がワードスポッタに入力されてワード
スポッティングが実行される(ステップ516)。本実
施形態における音声中のキーワードスポッティングは、
話者非依存の大語彙方連続音声(スピーチ)認識装置
(large vocabulary speaker independent continuous
speech recognizer)により行われる。このシステム場
合、HTK隠れマルコフモデルツールキット(Entropic
s社)などのシステムを使って大語彙連続スピーチ認識
装置をワードスポッタとして構成し、特定されたキーワ
ードを識別できる。更に、キーワードスポッティングの
ために、システムはキーワードが存在する確率を求める
ようにプログラムされている。トピック識別アルゴリズ
ムにおいてこのキーワード確率を使用することにより、
システムがキーワードの位置を特定したときの確実性に
よって、キーワード頻度に重み付けを行うことができ
る。
【0053】この方法の第2段階はポストプロセッサ
(post-processor)である。ポストプロセッサは、これ
らのキーワードの発生確率及び頻度、ならびにトピック
列及び継続期間についての事前の知識を用いて、各トピ
ックに対応する音声の領域を選択する。この点に関し、
ワードスポッティングの出力及びトピックセグメンテー
ションネットワークが用いられ、トピックをセグメント
化するためのビタビアルゴリズムを含むポストプロセッ
サが実現される(ステップ518)。
【0054】この第2段階処理のため、音声は均等な長
さに分割される。このときインターバルは重複するよう
にする。例えば、インターバルの長さを20秒にして1
0秒が重なるようにしてもよい。この処理を第1段階の
一部として実行してもよい。当業者であれば、サイレン
ト特性が、選択されたインターバルにおけるキーワード
の発生回数を示す情報を含む、トピックセグメンテーシ
ョンネットワークへの入力を得るためのものだというこ
とが理解できる。
【0055】選択されたインターバルの間、キーワード
が話される回数がカウントされる。この結果が、ステッ
プ518において使用される隠れマルコフモデルの観測
ベクトル(observation vector)として作用するワード
カウントベクトルである。ここで、モデルの各状態は、
選択されたキーワード群の確率分布を有する。
【0056】次に、各トピックに対し、トピックに属す
るインターバルの尤度(likelihood)を計算する。事前
確率が各トピックで等しいと仮定し、ベイズの法則によ
り、インターバルに対するトピックの確率をトピックの
尤度から計算する。そして、このトピック確率を、その
状態がトピックであるマルコフ列モデル(Markov seque
nce model)において使用する。マルコフ列モデルは、
その状態がトピックでその出力確率がインターバルに対
するトピック確率である隠れマルコフモデルに類似す
る。しかしながら、トレーニングのあいだ状態は隠され
ず、バウム−ウェルチ(Baum-Welch)トレーニングは出
力確率の推定に使用されない。トピック確率とモデルの
推移確率が分かっている場合、最も尤度の高い状態(す
なわちトピック)の列を求めるために、標準的なビタビ
アルゴリズムが使用される。
【0057】状態間の推移確率は尤度の高い(likely)
トピック列を特定する。一般的には、任意のトピックが
任意の他のトピックに続く。しかしながら、先行情報
(prior infomration)がトピック列を制約する場合も
ある。例えば、会議の議事予定表はトピックが論じられ
る順序を決定する。これを用いてトピックの列を制約す
ることができる(会議が実際にこの議事予定に従うと仮
定した場合)。ある状態における推移確率により、所与
のトピックが論じられる予想時間の長さがモデル化され
る。
【0058】所定のインターバルにおけるトピックjに
対する確率p(Tj)は、以下のように計算される。ま
ず、キーワードiの事例がそのインターバルにおいて検
出された確率(ワードスポッタによって生成される)を
合計することにより、各キーワードWi に対する重み付
けされた発生回数ni を計算する。キーワードが確率1
又は0でスポットされる場合は、niはキーワードiが
インターバルにおいてスポットされる回数である。
【0059】所与のトピックに対して関連するテキスト
データを使用することにより、トピックjに対するテキ
スト中のキーワードiの発生回数を用いて確率p(wi|
j)を推定することができる。この結果、多項モデル
(multinomial model)により、インターバルにおけるト
ピックjに対する尤度l(Tj )の対数が以下のように
表される。
【0060】
【数6】 トピックjの確率p(Tj )は、以下のように計算され
る。
【0061】
【数7】 2段階セグメンテーションの実施形態は、上記の1段階
アプローチに優る効果を提供する。例えば、2段階技術
は、よりモジュール的(modular)であるので、キーワ
ードスポッティングを様々な方法で実行することがで
き、他のモデルに埋め込まれることにより制限されるこ
とがない。
【0062】獲得された情報に基づきトピックがセグメ
ント化されると、トピックセグメンテーション情報は図
1のクロスインデックスを得るための適当なフォーマッ
トで保存され(ステップ520)、この処理が完了する
(ステップ522)。
【0063】システムが図2または図5のいずれかの方
法でセットアップされ、インデックス又はセグメンテー
ション情報が確立すると、ユーザはシステムにアクセス
して種々の動作を行うことができる。ユーザはテキスト
を指定し、対応する音声を選択的に再生することができ
る。また、ユーザは聞きとる音声を指定して、対応する
テキストを見るかどうかを選択的に決定することもでき
る。さらに、ユーザは、セグメンテーション情報に基づ
き生成されたクロスインデックスまたはトピックインデ
ックスを使用して、トピックを選択し、テキストを見る
かまたは音声を聞くかを判断することができる。
【0064】以下に説明する図6に示した方法には、種
々のユーザインターフェース問題が含まれる。これらの
問題ならびに既知の解決法が当業者には明らかである。
【0065】図6に関し、まずシステムの実行モードを
始動する(ステップ602)。ユーザがテキスト文書を
選択してるのか、録音音声を選択しているのか、あるい
はトピックインデックスに記載された特定トピックを選
択しているのかをまず判定する(ステップ604)。テ
キストが選択されている場合、対象となるテキストを特
定する(ステップ606)。そして、ユーザは、対応す
る音声をセッションの間に再生するかどうかを判断する
(ステップ608)。
【0066】ユーザが最初に音声を選択した場合、対象
となる音声記録を特定する(ステップ610)。そし
て、ユーザは、セッション中にその音声を聞きながら対
応テキストを見るべきか否かを判断する(ステップ61
2)。
【0067】一方、特定のトピックのレビューが求めら
れた場合には、インデックスに基づき対象トピックを特
定する(ステップ614)。そしてユーザはテキスト又
は音声を希望するかを決定する(ステップ616)。テ
キストを選択した場合、ユーザは対応する音声も再生す
べきかどうかを選択的に決定できる(ステップ60
8)。音声を選択した場合、ユーザは対応するテキスト
を見るべきかどうかを選択的に決定できる(ステップ6
12)。続いて、ユーザはそのセッションを終了するか
どうかを決定する(ステップ618)。セッションの終
了によりこの処理も完了する(ステップ620)。
【0068】本発明の方法を実施するシステムが図7に
例示されている。すでに述べたように、本発明の実施に
は多くのユーザインターフェース問題が含まれる。従っ
て、これらの問題の解決法に応じてシステムも異なる。
【0069】図示されるように、例として示すシステム
700は、テキスト/音声クロスインデックス704を
生成するソフトウェアのための記憶領域を有するCPU
702、文書記憶領域706、ワードプロセッサ708
及び音声記憶領域710を含む。テキスト文書入力装置
(例えば、スキャナ、OCR装置など)712及び手動
入力装置714によりシステムに入力が提供される。手
動入力装置には、キーボード、マウス、トラックボー
ル、ジョイスティックなどを含むことができる。ディス
プレイ716は一般的にシステムの出力として動作し
(ただし、例えばタッチスクリーンを使用する場合には
入力も提供する)、音声再生録音装置718はシステム
への入力を提供するとともに出力装置としても動作す
る。
【図面の簡単な説明】
【図1】 トピックベースのクロスインデックスを示す
図である。
【図2】 本発明に係る方法を示すフローチャートであ
る。
【図3】 キーワードトピックモデルための隠れマルコ
フモデルを示す図である。
【図4】 トピックセグメンテーションネットワークを
示す図である。
【図5】 本発明に係る別の方法を示すフローチャート
である。
【図6】 本発明に係る別の方法を示すフローチャート
である。
【図7】 本発明に係る例示的なシステムを示す図であ
る。
【符号の説明】
700 システム、702 CPU、704 テキスト
/音声クロスインデックス生成ソフトウェア、706
文書記憶領域、708 ワードプロセッサ、710 音
声記憶領域、712 テキスト文書入力装置、714
手動入力装置、716 ディスプレイ、718 音声再
生/録音装置。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ドナルド ジー キンバー アメリカ合衆国 カリフォルニア州 マウ ンテン ビュー ヴィクター ストリート 678 #3 (72)発明者 マーティ エイ ハースト アメリカ合衆国 カリフォルニア州 ケン ジントン ベロワ アベニュー 434 (72)発明者 スティーブン アール ハリソン アメリカ合衆国 カリフォルニア州 ポー トラ バレー ラッセル アベニュー 134 (72)発明者 トーマス ピー モラン アメリカ合衆国 カリフォルニア州 パロ アルト グリーンウッド アベニュー 1037

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 電子的に保存された少なくとも1つの文
    書に含まれるテキストと、前記少なくとも1つの文書の
    議題に対応する記録音声とを相関させる方法であって、 前記テキストに反映されたトピックを決定するステップ
    と、 前記テキストに含まれるキーワード、及びそのキーワー
    ドがトピックに属する確率を決定するステップと、 前記キーワードとその確率とに基づき、トピックセグメ
    ンテーションネットワークを生成するステップと、 前記記録音声の音響特性を前記トピックセグメンテーシ
    ョンネットワークに入力するステップと、 前記音響特性が与えられた場合の、前記ネットワークを
    通過する最尤パスを決定するステップと、 前記最尤パスの決定に基づき前記記録音声をトピック単
    位にセグメント化するステップと、 を含む方法。
  2. 【請求項2】 電子的に保存された少なくとも1つの文
    書に含まれるテキストと、前記少なくとも1つの文書の
    議題に対応する記録音声とを相関させる方法であって、 前記テキストに反映されたトピックを決定するステップ
    と、 前記テキストに含まれるキーワード、及びそのキーワー
    ドがトピックに属する確率を決定するステップと、 前記キーワードと確率とに基づきトピックセグメンテー
    ションネットワークを生成するステップと、 前記記録音声の音響特性をキーワードスポッタに入力し
    てキーワードをスポッティングするステップと、 所定の時間間隔におけるキーワードの発生回数を決定す
    るステップと、 前記トピックの発生回数をトピックセグメンテーション
    ネットワークに入力するステップと、 前記音響特性が与えられた場合の、前記ネットワークを
    通過する最尤パスを決定するステップと、 前記最尤パスの決定に基づき前記記録音声をトピック単
    位にセグメント化するステップと、 を含む方法。
  3. 【請求項3】 電子的に保存された少なくとも1つの文
    書に含まれるテキストと、前記少なくとも1つの文書の
    議題に対応する記録音声とを相関させるシステムであっ
    て、 前記テキストに反映されたトピックを決定する手段と、 前記テキストに含まれるキーワード、及びキーワードが
    トピックに属する確率を決定する手段と、 前記キーワードと前記確率とに基づきトピックセグメン
    テーションネットワークを生成する手段と、 前記記録音声の音響特性に基づくデータを前記トピック
    セグメンテーションネットワークに入力する手段と、 前記音響特性が与えられた場合の、前記ネットワークを
    通過する最尤パスを決定する手段と、 前記最尤パスの決定に基づき前記記録音声をトピック単
    位にセグメント化する手段とを含むシステム。
JP11368818A 1998-12-30 1999-12-27 トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム Withdrawn JP2000235585A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US22329498A 1998-12-30 1998-12-30
US09/223294 1998-12-30

Publications (1)

Publication Number Publication Date
JP2000235585A true JP2000235585A (ja) 2000-08-29

Family

ID=22835891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11368818A Withdrawn JP2000235585A (ja) 1998-12-30 1999-12-27 トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム

Country Status (2)

Country Link
EP (1) EP1016985A3 (ja)
JP (1) JP2000235585A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002101588A1 (fr) * 2001-06-11 2002-12-19 Matsushita Electric Industrial Co., Ltd. Systeme de gestion de contenus
WO2005027092A1 (ja) * 2003-09-08 2005-03-24 Nec Corporation 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
WO2005029353A1 (ja) * 2003-09-18 2005-03-31 Fujitsu Limited 注釈管理システム、注釈管理方法、文書変換サーバ、文書変換プログラム、電子文書付加プログラム
WO2005069171A1 (ja) * 2004-01-14 2005-07-28 Nec Corporation 文書対応付け装置、および文書対応付け方法
JP2007334429A (ja) * 2006-06-12 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体
JP2010262413A (ja) * 2009-04-30 2010-11-18 Nippon Hoso Kyokai <Nhk> 音声情報抽出装置
US8670978B2 (en) 2008-12-15 2014-03-11 Nec Corporation Topic transition analysis system, method, and program
JP2014048522A (ja) * 2012-08-31 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> 状況生成モデル作成装置及び状況推定装置
JP2017021796A (ja) * 2015-07-10 2017-01-26 富士通株式会社 学習素材のセグメントのランク付け

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7281022B2 (en) * 2004-05-15 2007-10-09 International Business Machines Corporation System, method, and service for segmenting a topic into chatter and subtopics
US8166042B1 (en) * 2008-04-14 2012-04-24 Google Inc. Height based indexing
JP7109363B2 (ja) 2016-01-28 2022-07-29 サブプライ ソリューションズ エルティーディー. オーディオコンテンツを提供する方法およびシステム
CN108090038B (zh) * 2016-11-11 2022-01-14 科大讯飞股份有限公司 文本断句方法及***
CN108920660B (zh) * 2018-07-04 2020-11-20 中国银行股份有限公司 关键词权重获取方法、装置、电子设备及可读存储介质
CN112562659B (zh) * 2020-12-11 2024-04-09 科大讯飞(上海)科技有限公司 语音识别方法、装置、电子设备和存储介质
CN113270086B (zh) 2021-07-19 2021-10-15 中国科学院自动化研究所 一种融合多模态语义不变性的语音识别文本增强***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002101588A1 (fr) * 2001-06-11 2002-12-19 Matsushita Electric Industrial Co., Ltd. Systeme de gestion de contenus
US7734996B2 (en) 2003-09-08 2010-06-08 Nec Corporation Documentation browsing method, documentation browsing apparatus, documentation browsing robot, and documentation browsing program
WO2005027092A1 (ja) * 2003-09-08 2005-03-24 Nec Corporation 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
WO2005029353A1 (ja) * 2003-09-18 2005-03-31 Fujitsu Limited 注釈管理システム、注釈管理方法、文書変換サーバ、文書変換プログラム、電子文書付加プログラム
WO2005069171A1 (ja) * 2004-01-14 2005-07-28 Nec Corporation 文書対応付け装置、および文書対応付け方法
JPWO2005069171A1 (ja) * 2004-01-14 2008-09-04 日本電気株式会社 文書対応付け装置、および文書対応付け方法
JP4600828B2 (ja) * 2004-01-14 2010-12-22 日本電気株式会社 文書対応付け装置、および文書対応付け方法
JP2007334429A (ja) * 2006-06-12 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体
JP4724051B2 (ja) * 2006-06-12 2011-07-13 日本電信電話株式会社 キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体
US8670978B2 (en) 2008-12-15 2014-03-11 Nec Corporation Topic transition analysis system, method, and program
JP2010262413A (ja) * 2009-04-30 2010-11-18 Nippon Hoso Kyokai <Nhk> 音声情報抽出装置
JP2014048522A (ja) * 2012-08-31 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> 状況生成モデル作成装置及び状況推定装置
JP2017021796A (ja) * 2015-07-10 2017-01-26 富士通株式会社 学習素材のセグメントのランク付け

Also Published As

Publication number Publication date
EP1016985A2 (en) 2000-07-05
EP1016985A3 (en) 2004-04-14

Similar Documents

Publication Publication Date Title
US10133538B2 (en) Semi-supervised speaker diarization
WO2020024690A1 (zh) 语音标注方法、装置及设备
JP4442081B2 (ja) 音声抄録選択方法
KR100446627B1 (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
WO2020211354A1 (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
US7522967B2 (en) Audio summary based audio processing
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
US7912714B2 (en) Method for segmenting communication transcripts using unsupervised and semi-supervised techniques
JP2000235585A (ja) トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム
JP2005234572A (ja) 談話機能に対する予測モデルを判定する方法およびシステム
CN107799116A (zh) 多轮交互并行语义理解方法和装置
Levitan et al. Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection.
Koumpis et al. Automatic summarization of voicemail messages using lexical and prosodic features
CN111639484A (zh) 坐席通话内容的分析方法
CN107480152A (zh) 一种音频分析及检索方法和***
Moyal et al. Phonetic search methods for large speech databases
JP4344418B2 (ja) 音声要約装置及び音声要約プログラムを記録した記録媒体
EP1531457B1 (en) Apparatus and method for segmentation of audio data into meta patterns
JP3735209B2 (ja) 話者認識装置及び方法
CN111159463A (zh) 一种音乐情感识别方法及***
CN112037772B (zh) 基于多模态的响应义务检测方法、***及装置
JP4861941B2 (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
JP2011191542A (ja) 音声分類装置、音声分類方法、及び音声分類用プログラム
JP2011113426A (ja) 辞書作成装置,辞書作成プログラムおよび辞書作成方法
JP4175093B2 (ja) トピック境界決定方法及び装置及びトピック境界決定プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070306