JPH1020881A

JPH1020881A - 音声処理方法及び装置

Info

Publication number: JPH1020881A
Application number: JP8171022A
Authority: JP
Inventors: Kunio Imai; 邦雄今井; Shoichiro Shoda; 昇一郎正田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-07-01
Filing date: 1996-07-01
Publication date: 1998-01-23

Abstract

(57)【要約】【課題】長音を含めた音声の認識を確実・容易にし、
音声を入力インターフェイスとしたテキスト入力を可能
とする。【解決手段】音節に長音を付加した音節辞書（仮名辞
書）を利用し、入力した音声を前記音節辞書と比較する
ことにより長音を含む入力音声を認識して仮名として配
列する（仮名配列記憶部５５０）。更に、音声認識によ
り得た仮名データを仮名・テキスト変換辞書６００によ
り単語に変換して出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声を入力するこ
とによりテキストを作成することを可能とする音声処理
方法及び装置に関するものである。

【０００２】本発明は、音声インターフェイスによりテ
キストを作成し、かつ修正することを可能とする音声処
理方法及び装置に関するものである。

【０００３】

【従来の技術】従来、テキストをコンピュータ等の情報
処理装置に入力する為には、キーボードからアルファベ
ットキーまたは仮名キーを使って仮名文字列を入力して
いた。

【０００４】また、キーボードの代わりに音声で入力す
る場合には、単語単位或は仮名一文字に対応する音節単
位で発声していた。

【０００５】

【発明が解決する課題】しかしながら、上述のようにキ
ーボードからテキストを入力する場合には、キーボード
操作が慣れない人にとっては非常に煩わしい作業であ
り、また、キーボードを使用することは少なからず人間
にとって負担になるものであった。

【０００６】また、単語単位で音声を文字に変換する場
合は、数万語程度の辞書を必要とするので大きなメモリ
容量を必要とし、かつリアルタイムに処理する為には、
非常に高速の処理装置を用いなければならないという問
題があった。

【０００７】また、音節単位で音声を文字に変換する場
合は、促音や長音を分けて発声しなければならず、特に
促音や長音が混じるテキストを入力する場合の発声作業
は、オペレータに非常に負担をかけるものであった。

【０００８】また、従来音声により入力したテキストを
修正する場合は、テキストに変換された後で従来からあ
る通常のテキスト編集機能により一文字ずつ編集対象を
指定していたので、編集対象として指定される文字と、
修正情報として新たに入力される音声により修正される
べき対象文字とが一致せず、修正作業が繁雑になってし
まっていた。

【０００９】

【課題を解決する為の手段】上記課題を解決する為に、
本発明は、音節に長音を付加した音節辞書を利用し、入
力した音声を前記音節辞書と比較することにより長音を
含む入力音声を認識する音声処理方法及び装置を提供す
る。

【００１０】上記課題を解決する為に、本発明は好まし
くは前記音節辞書は、音声データと仮名データとを対応
付けたものとする。

【００１１】上記課題を解決する為に、本発明は好まし
くは前記音声認識により得た仮名データを単語に変換す
る。

【００１２】上記課題を解決する為に、本発明は好まし
くは前記音節辞書として、アルファベットと音声データ
とを対応付けた辞書を利用する。

【００１３】上記課題を解決する為に、本発明は好まし
くは前記音声をマイクロフォンにより入力する。

【００１４】上記課題を解決する為に、本発明は好まし
くは前記認識結果の仮名に対応する文字パターンを表示
器に表示する。

【００１５】上記課題を解決する為に、本発明は好まし
くは前記変換された単語を表示器に表示する。

【００１６】上記課題を解決する為に、本発明は好まし
くは前記音節は濁音、半濁音、拗音を含むものとする。

【００１７】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。

【００１８】図４は、本発明を実施する場合の装置の機
能的構成を表すブロック図である。

【００１９】図４において、１００はマイクロフォンで
あり、オペレータの発声した音声データを入力する。ア
ンプ及び低域通過フィルタ２００は、マイクロフォン１
００より入力された音声データを増幅し、かつ高周波成
分を除いた低域データのみ通過させる。このアンプ及び
低域通過フィルタ２００を通過した音声データはクロッ
ク発声回路３５０より供給されるサンプリングクロック
に応じて量子化される。量子化された音声データは、音
声バッファ４００に格納される。

【００２０】仮名辞書５００は、音声を認識する際に用
いる音声辞書データを格納した辞書であり、仮名・テキ
スト変換辞書６００は仮名辞書５００を用いて認識され
た仮名データからテキストを作成する際に変換を必要と
するデータを対応して記憶した辞書であり、５５０は仮
名配列記憶部である。テキストバッファ９００は、仮名
辞書５００或は仮名・テキスト変換辞書６００を用いて
作成されたテキストを記憶したものである。表示制御部
はテキストバッファ９００に格納されているテキストを
ディスプレイ７５０に表示するよう制御するものであ
る。

【００２１】図５は、本発明を実施した場合の装置のハ
ード的な構成を表すブロック図である。

【００２２】図５においてＣＰＵ５０は、ＲＯＭ５１や
ＲＡＭ５２、或はＣＤ−ＲＯＭ等の装置に着脱可能な外
部記憶媒体５３に記憶されている制御プログラムに従っ
て、本発明に係る例えば後述するフローチャートに示す
ような各種処理の制御を行うものであって、機能構成図
の図４におけるインターバル監視回路３６０、演算処理
装置８００、表示制御部７００及び各構成における処理
の制御はこのＣＰＵ５０が実行する。ＲＯＭ５１は仮名
辞書５００や仮名配列記憶部５５０、及び仮名・テキス
ト変換辞書６００等のデータや、後述するフローチャー
トに示すような本発明に係る処理の制御プログラムを記
憶しており、ＲＡＭ５２は入力したデータや、処理途中
で生じたデータ等を格納するワーキングエリアを有し、
よって音声バッファ４００、テキストバッファ９００も
このＲＡＭ５２により実現することが出来る。また、後
述フローチャートに示すような本発明に係る処理の制御
プログラムを、処理に先立って他の情報処理装置や外部
記憶媒体より読み込んだ場合には、このＲＡＭ５２に記
憶してＣＰＵ５０が実行するようにしても良い。５３は
ＣＤ−ＲＯＭやフロップイーディスク等の、本装置に着
脱可能な記憶媒体であって、この記憶媒体によって本発
明に係る処理の制御プログラムや、認識等に用いる辞
書、或は各種パラメータを装置に供給するようにしても
良い。

【００２３】音声入力部５４は、マイクロフォン１００
等の音声を入力するものであって、マイクロフォン１０
０を用いて本装置が直接音声を入力する以外にも、通信
回線や、記憶媒体を介して音声を入力しても良い。音声
処理部５５は、音声入力部５４より入力された音声デー
タを、本発明に係る処理を実行出来るように各種処理す
るためのものであって、例えばアンプ及び低域通過フィ
ルタ２００やＡＤ変換器３００、クロック発生回路３５
０を備える。表示器５６はディスプレイ７５０であっ
て、ＣＲＴや液晶表示器等、各種画像情報やテキスト情
報、カーソルを表示でき、更にこの表示画面上で各種指
示が行えるようにアイコンや指示コマンドのソフトキー
等を表示するものである。５７はキーボードやポインテ
ィングデバイス等の指示手段である。５８は各構成間の
データの授受を可能とするバスである。

【００２４】以下に、図６〜図８のフローチャートに従
って動作を説明する。尚、図６のフローチャートは、オ
ペレータによって単位仮名列毎に時間的なインターバル
をおくことによって区切って発声された音声を入力し、
その区切られた音声データ毎に音声バッファ４００に格
納するまでの音声入力処理を表す。図７のフローチャー
トは、音声バッファ４００に格納された音声データを認
識して仮名文字列として表示するまでの音声認識処理を
表す。図８のフローチャートは音声認識した結果のテキ
ストを表示した画面上で修正作業をする際の修正処理を
表す。

【００２５】マイクロフォン１００から入力した音声
は、アンプおよび低域通過フィルタ２００を介してＡＤ
変換器３００に入り、サンプリングされ、インターバル
をおいて発声された区切り毎にサンプリングしたデータ
を音声バッファ４００に格納する（Ｓ６１）。ここで、
人間の声は周波数帯域３．５ｋＨｚ程度で十分に認識出
来るので、ＡＤ変換器のサンプリング周波数は１０ｋＨ
ｚ程度、波高値を最大２５６等分（８ビット）程度で量
子化すれば良い。ＡＤ変換器３００がサンプリングする
為のサンプリングクロックは、クロック発生回路３５０
から供給する。ＡＤ変換器３００により変換された音声
データは音声バッファ４００の指定アドレス（Ｂ）に順
次格納するが、インターバル監視回路３６０は常にその
音声データを監視して、無音部分の長さ（ＩＮＴ）が予
め定めてある閾値（Ｉ_T）を越えるまで（Ｓ６２におい
てＹＥＳと判断されるまで）同じアドレスＢのデータと
して格納し、インターバルが閾値を越えた場合は、オペ
レータが区切って発声した単位音声データの入力が終了
したと判断してアドレスＢをインクリメントし（Ｓ６
３）、その後の音声データは次のアドレスに格納する。
この、同じアドレスに格納されるインターバルとインタ
ーバルの間のひとまとまりの音声データを単位音声デー
タと呼ぶ。

【００２６】音声バッファ４００のアドレスＢに格納さ
れている単位音声データを読出し（Ｓ７１）、この読出
した音声データを仮名辞書５００に登録されている標準
音声データと比較することにより、入力された音声デー
タを認識して仮名データを仮確定する（Ｓ７２）。この
仮名データの仮確定に用いる仮名辞書５００の、和文の
場合のテーブル例を図１及び図２に示す。テーブルに
は、あいうえお等の平仮名全てと、それら全てに対して
濁音、半濁音、拗音を付加した全ての音素、及びそれら
全ての音素に促音と長音とを付加した仮名４３９語を記
憶している。また、加えて句読点「、」に対応する音
「てん」（１０）と「。」に対応する音「まる」（１
１）も記憶し、合計４４１語を収容する。

【００２７】図１及び図２に示したテーブルに記憶した
仮名及び句読点以外の記号は、仮名・テキスト変換辞書
６００に記憶する。仮名・テキスト変換辞書６００は通
常のキーボード入力からテキストに変換する為に用いる
フロントエンドプロせっさの辞書に対応するものであ
る。

【００２８】Ｓ７２で仮確定された仮名に対応する文字
パターンをＲＯＭ５１から読出して表示器５６に表示す
る（Ｓ７３）。Ｓ７４でアドレスＢをインクリメントし
て次の単位音声データの仮名への変換処理に移行する準
備をし、Ｓ７５において、アドレスＢを既に定められて
いるアドレスの最大値Ｂ_MAXと比較して、既に抽出され
ている単位音声データ全てについて仮名変換処理が完了
したか確認する。

【００２９】Ｓ７２で仮確定された仮名は、入力時刻順
に平仮名または片仮名として配列して仮名配列記憶部５
５０に記憶し、Ｓ７３で表示制御部７００を介してディ
スプレイ７５０に表示される。このとき、仮名配列記憶
部５５０には単位音声データの区切りが識別できるよう
な不可データを共に記憶しておき、修正等の際に利用す
る。ここで、オペレータは表示器に表示された仮名を確
認して修正処理を行う。表示された仮名が意図したもの
であれば、オペレータは次の音声を発声する。

【００３０】図８のフローチャートに、表示された仮名
の修正処理を示す。表示器上でキーボード或はポインテ
ィングデバイスにより仮名が指示された場合は（Ｓ８
１）、その指示位置に表示されている仮名を判別し（Ｓ
８２）、その指示された仮名に対する修正データを入力
する（Ｓ８３）。このＳ８３における修正データの入力
は、再び音声を入力して先に説明したような仮名への変
換を行うか、或はキーボードにより直接仮名文字コード
を入力しても良い。また、修正データは、Ｓ８２で判別
された仮名データに上書きしても良いし、或は修正デー
タとしてＳ８２で指定された仮名データを削除するよう
指示データを入力した後、新たに仮名データを入力する
ようにしても良い。

【００３１】尚、キーボード或はポインティングデバイ
スによる修正対象の仮名の特定（Ｓ８２）は、仮名配列
記憶部５５０に記憶されている音声から仮名への変換が
行われた単位仮名データ毎に行うことにより、その後の
修正処理が容易になる。つまり、入力された単位音声デ
ータが「ちゃー」である場合等、ポインティングデバイ
スによりその「ちゃー」上の一点を指示すれば、「ちゃ
ー」がまとめて特定されるので、３文字分の指示操作を
する必要がなく、指示操作を容易にすることができる。

【００３２】図７及び図８のフローチャートに示す処理
により、入力した音声が仮名に変換され、確認したらオ
ペレータは確認キー、例えばスペースキー等を押下する
ことにより、それまでに仮確定されている仮名は日本語
の仮名・テキスト変換辞書６００から、最適な文字や単
語を捜し出して表示器５６に表示する。これは通常のフ
ロントエンドプロセッサと同様の処理である。

【００３３】尚、音声で仮名を入力する場合、「お」と
「を」或は「ず」と「づ」を区別して入力することがで
きないので、次の方法により各々を入力できるようにす
る。

【００３４】Ｓ７２において確定された一方の仮名が意
図した方の仮名でなく、オペレータにより再度音声で入
力された場合に、再度入力された音声をＳ７２で仮確定
する場合には前回仮確定した仮名を除いた仮名を選択す
るようにする。

【００３５】或は、仮名辞書５００にはどちらか一方の
仮名、例えば「お」と「ず」のみ登録しておき、仮名・
テキスト変換辞書６００にそれらの「お」と「ず」から
「を」と「づ」を変換出来るように登録しておいても良
い。

【００３６】ここまでで説明した処理は、入力音声から
平仮名又は片仮名を判断し、それから和文テキストを作
成する方法であるが、これと同様の処理でアルファベッ
トや数字を含んだ文章を作成することもできる。その為
には、図３に示すような、アルファベットと数字と記号
「，」「．」「−」「？」及びこれらに対応する音を記
憶したアルファベットテーブルの辞書を仮名辞書５００
に加え、Ｓ７２でこれらのアルファベットや数字、記号
を選択出来るようにすれば良い。

【００３７】また、この様にアルファベットテーブルを
仮名辞書５００に加えて和文と英文が混ざったテキスト
を作成するようにする他に、和文モードと英文モードを
切り替える手段を設け、これらのモード切換に応じて仮
名辞書５００とアルファベットテーブルとを切り替える
ようにしても良い。

【００３８】

【発明の効果】以上説明したように、本発明によれば、
和文又は英文のテキストを音声により入力することがで
きる。

【００３９】以上説明したように、本発明によれば、全
音節について長音を付加したものを音節辞書として保持
し、音声の認識に用いるので、長音認識が容易でかつ確
実に行われる。

【００４０】以上説明したように、本発明によれば、入
力音声をテキスト化したものの修正対象の特定を、単位
音声に対応する仮名列を識別して決定するので、その後
の修正処理が容易になる

【図面の簡単な説明】

【図１】仮名辞書１

【図２】仮名辞書２

【図３】アルファベットテーブル

【図４】発明に係る装置の機能構成図

【図５】発明に係る装置のハード構成図

【図６】音声入力処理のフローチャート

【図７】音声認識処理のフローチャート

【図８】修正処理のフローチャート

Claims

【特許請求の範囲】

【請求項１】音節に長音を付加した音節辞書を利用
し、入力した音声を前記音節辞書と比較することにより長音
を含む入力音声を認識することを特徴とする音声処理方
法。
【請求項２】前記音節辞書は、音声データと仮名デー
タとを対応付けたものとすることを特徴とする請求項１
に記載の音声処理方法。
【請求項３】前記音声認識により得た仮名データを単
語に変換することを特徴とする請求項２に記載の音声処
理方法。
【請求項４】前記音節辞書として、アルファベットと
音声データとを対応付けた辞書を利用することを特徴と
する請求項１に記載の音声処理方法。
【請求項５】前記音声をマイクロフォンにより入力す
ることを特徴とする請求項１に記載の音声処理方法。
【請求項６】前記認識結果の仮名に対応する文字パタ
ーンを表示器に表示することを特徴とする請求項１に記
載の音声処理方法。
【請求項７】前記変換された単語を表示器に表示する
ことを特徴とする請求項１に記載の音声処理方法。
【請求項８】前記音節は濁音、半濁音、拗音を含むも
のとすることを特徴とする請求項１に記載の音声処理方
法。
【請求項９】音節に長音を付加した音節辞書を利用
し、音声を入力する入力手段と、前記入力した音声を前記音節辞書と比較して長音を含む
入力音声を認識する音声認識手段とを有することを特徴
とする音声処理装置。
【請求項１０】前記音節辞書は、音声データと仮名デ
ータとを対応付けたものとすることを特徴とする請求項
９に記載の音声処理装置。
【請求項１１】前記音声認識手段により得た仮名デー
タを単語に変換する単語変換手段を有することを特徴と
する請求項１０に記載の音声処理装置。
【請求項１２】前記音節辞書として、アルファベット
と音声データとを対応付けた辞書を利用することを特徴
とする請求項９に記載の音声処理装置。
【請求項１３】前記音声入力手段をマイクロフォンと
することを特徴とする請求項９に記載の音声処理装置。
【請求項１４】前記音声認識手段の認識結果の仮名に
対応する文字パターンを表示器に表示する表示制御手段
を有することを特徴とする請求項９に記載の音声処理装
置。
【請求項１５】前記音声認識手段の認識結果の仮名に
対応する文字パターンを表示する表示器を有することを
特徴とする請求項９に記載の音声処理装置。
【請求項１６】前記単語変換手段により変換された単
語を表示器に表示する表示制御手段を有することを特徴
とする請求項９に記載の音声処理装置。
【請求項１７】前記単語変換手段により変換された単
語を表示する表示器を有することを特徴とする請求項９
に記載の音声処理装置。
【請求項１８】前記音節は濁音、半濁音、拗音を含む
ものとすることを特徴とする請求項９に記載の音声処理
装置。