JPH1020881A - 音声処理方法及び装置 - Google Patents

音声処理方法及び装置

Info

Publication number
JPH1020881A
JPH1020881A JP8171022A JP17102296A JPH1020881A JP H1020881 A JPH1020881 A JP H1020881A JP 8171022 A JP8171022 A JP 8171022A JP 17102296 A JP17102296 A JP 17102296A JP H1020881 A JPH1020881 A JP H1020881A
Authority
JP
Japan
Prior art keywords
voice
kana
dictionary
data
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8171022A
Other languages
English (en)
Inventor
Kunio Imai
邦雄 今井
Shoichiro Shoda
昇一郎 正田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP8171022A priority Critical patent/JPH1020881A/ja
Publication of JPH1020881A publication Critical patent/JPH1020881A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 長音を含めた音声の認識を確実・容易にし、
音声を入力インターフェイスとしたテキスト入力を可能
とする。 【解決手段】 音節に長音を付加した音節辞書(仮名辞
書)を利用し、入力した音声を前記音節辞書と比較する
ことにより長音を含む入力音声を認識して仮名として配
列する(仮名配列記憶部550)。更に、音声認識によ
り得た仮名データを仮名・テキスト変換辞書600によ
り単語に変換して出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声を入力するこ
とによりテキストを作成することを可能とする音声処理
方法及び装置に関するものである。
【0002】本発明は、音声インターフェイスによりテ
キストを作成し、かつ修正することを可能とする音声処
理方法及び装置に関するものである。
【0003】
【従来の技術】従来、テキストをコンピュータ等の情報
処理装置に入力する為には、キーボードからアルファベ
ットキーまたは仮名キーを使って仮名文字列を入力して
いた。
【0004】また、キーボードの代わりに音声で入力す
る場合には、単語単位或は仮名一文字に対応する音節単
位で発声していた。
【0005】
【発明が解決する課題】しかしながら、上述のようにキ
ーボードからテキストを入力する場合には、キーボード
操作が慣れない人にとっては非常に煩わしい作業であ
り、また、キーボードを使用することは少なからず人間
にとって負担になるものであった。
【0006】また、単語単位で音声を文字に変換する場
合は、数万語程度の辞書を必要とするので大きなメモリ
容量を必要とし、かつリアルタイムに処理する為には、
非常に高速の処理装置を用いなければならないという問
題があった。
【0007】また、音節単位で音声を文字に変換する場
合は、促音や長音を分けて発声しなければならず、特に
促音や長音が混じるテキストを入力する場合の発声作業
は、オペレータに非常に負担をかけるものであった。
【0008】また、従来音声により入力したテキストを
修正する場合は、テキストに変換された後で従来からあ
る通常のテキスト編集機能により一文字ずつ編集対象を
指定していたので、編集対象として指定される文字と、
修正情報として新たに入力される音声により修正される
べき対象文字とが一致せず、修正作業が繁雑になってし
まっていた。
【0009】
【課題を解決する為の手段】上記課題を解決する為に、
本発明は、音節に長音を付加した音節辞書を利用し、入
力した音声を前記音節辞書と比較することにより長音を
含む入力音声を認識する音声処理方法及び装置を提供す
る。
【0010】上記課題を解決する為に、本発明は好まし
くは前記音節辞書は、音声データと仮名データとを対応
付けたものとする。
【0011】上記課題を解決する為に、本発明は好まし
くは前記音声認識により得た仮名データを単語に変換す
る。
【0012】上記課題を解決する為に、本発明は好まし
くは前記音節辞書として、アルファベットと音声データ
とを対応付けた辞書を利用する。
【0013】上記課題を解決する為に、本発明は好まし
くは前記音声をマイクロフォンにより入力する。
【0014】上記課題を解決する為に、本発明は好まし
くは前記認識結果の仮名に対応する文字パターンを表示
器に表示する。
【0015】上記課題を解決する為に、本発明は好まし
くは前記変換された単語を表示器に表示する。
【0016】上記課題を解決する為に、本発明は好まし
くは前記音節は濁音、半濁音、拗音を含むものとする。
【0017】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。
【0018】図4は、本発明を実施する場合の装置の機
能的構成を表すブロック図である。
【0019】図4において、100はマイクロフォンで
あり、オペレータの発声した音声データを入力する。ア
ンプ及び低域通過フィルタ200は、マイクロフォン1
00より入力された音声データを増幅し、かつ高周波成
分を除いた低域データのみ通過させる。このアンプ及び
低域通過フィルタ200を通過した音声データはクロッ
ク発声回路350より供給されるサンプリングクロック
に応じて量子化される。量子化された音声データは、音
声バッファ400に格納される。
【0020】仮名辞書500は、音声を認識する際に用
いる音声辞書データを格納した辞書であり、仮名・テキ
スト変換辞書600は仮名辞書500を用いて認識され
た仮名データからテキストを作成する際に変換を必要と
するデータを対応して記憶した辞書であり、550は仮
名配列記憶部である。テキストバッファ900は、仮名
辞書500或は仮名・テキスト変換辞書600を用いて
作成されたテキストを記憶したものである。表示制御部
はテキストバッファ900に格納されているテキストを
ディスプレイ750に表示するよう制御するものであ
る。
【0021】図5は、本発明を実施した場合の装置のハ
ード的な構成を表すブロック図である。
【0022】図5においてCPU50は、ROM51や
RAM52、或はCD−ROM等の装置に着脱可能な外
部記憶媒体53に記憶されている制御プログラムに従っ
て、本発明に係る例えば後述するフローチャートに示す
ような各種処理の制御を行うものであって、機能構成図
の図4におけるインターバル監視回路360、演算処理
装置800、表示制御部700及び各構成における処理
の制御はこのCPU50が実行する。ROM51は仮名
辞書500や仮名配列記憶部550、及び仮名・テキス
ト変換辞書600等のデータや、後述するフローチャー
トに示すような本発明に係る処理の制御プログラムを記
憶しており、RAM52は入力したデータや、処理途中
で生じたデータ等を格納するワーキングエリアを有し、
よって音声バッファ400、テキストバッファ900も
このRAM52により実現することが出来る。また、後
述フローチャートに示すような本発明に係る処理の制御
プログラムを、処理に先立って他の情報処理装置や外部
記憶媒体より読み込んだ場合には、このRAM52に記
憶してCPU50が実行するようにしても良い。53は
CD−ROMやフロップイーディスク等の、本装置に着
脱可能な記憶媒体であって、この記憶媒体によって本発
明に係る処理の制御プログラムや、認識等に用いる辞
書、或は各種パラメータを装置に供給するようにしても
良い。
【0023】音声入力部54は、マイクロフォン100
等の音声を入力するものであって、マイクロフォン10
0を用いて本装置が直接音声を入力する以外にも、通信
回線や、記憶媒体を介して音声を入力しても良い。音声
処理部55は、音声入力部54より入力された音声デー
タを、本発明に係る処理を実行出来るように各種処理す
るためのものであって、例えばアンプ及び低域通過フィ
ルタ200やAD変換器300、クロック発生回路35
0を備える。表示器56はディスプレイ750であっ
て、CRTや液晶表示器等、各種画像情報やテキスト情
報、カーソルを表示でき、更にこの表示画面上で各種指
示が行えるようにアイコンや指示コマンドのソフトキー
等を表示するものである。57はキーボードやポインテ
ィングデバイス等の指示手段である。58は各構成間の
データの授受を可能とするバスである。
【0024】以下に、図6〜図8のフローチャートに従
って動作を説明する。尚、図6のフローチャートは、オ
ペレータによって単位仮名列毎に時間的なインターバル
をおくことによって区切って発声された音声を入力し、
その区切られた音声データ毎に音声バッファ400に格
納するまでの音声入力処理を表す。図7のフローチャー
トは、音声バッファ400に格納された音声データを認
識して仮名文字列として表示するまでの音声認識処理を
表す。図8のフローチャートは音声認識した結果のテキ
ストを表示した画面上で修正作業をする際の修正処理を
表す。
【0025】マイクロフォン100から入力した音声
は、アンプおよび低域通過フィルタ200を介してAD
変換器300に入り、サンプリングされ、インターバル
をおいて発声された区切り毎にサンプリングしたデータ
を音声バッファ400に格納する(S61)。ここで、
人間の声は周波数帯域3.5kHz程度で十分に認識出
来るので、AD変換器のサンプリング周波数は10kH
z程度、波高値を最大256等分(8ビット)程度で量
子化すれば良い。AD変換器300がサンプリングする
為のサンプリングクロックは、クロック発生回路350
から供給する。AD変換器300により変換された音声
データは音声バッファ400の指定アドレス(B)に順
次格納するが、インターバル監視回路360は常にその
音声データを監視して、無音部分の長さ(INT)が予
め定めてある閾値(IT)を越えるまで(S62におい
てYESと判断されるまで)同じアドレスBのデータと
して格納し、インターバルが閾値を越えた場合は、オペ
レータが区切って発声した単位音声データの入力が終了
したと判断してアドレスBをインクリメントし(S6
3)、その後の音声データは次のアドレスに格納する。
この、同じアドレスに格納されるインターバルとインタ
ーバルの間のひとまとまりの音声データを単位音声デー
タと呼ぶ。
【0026】音声バッファ400のアドレスBに格納さ
れている単位音声データを読出し(S71)、この読出
した音声データを仮名辞書500に登録されている標準
音声データと比較することにより、入力された音声デー
タを認識して仮名データを仮確定する(S72)。この
仮名データの仮確定に用いる仮名辞書500の、和文の
場合のテーブル例を図1及び図2に示す。テーブルに
は、あいうえお等の平仮名全てと、それら全てに対して
濁音、半濁音、拗音を付加した全ての音素、及びそれら
全ての音素に促音と長音とを付加した仮名439語を記
憶している。また、加えて句読点「、」に対応する音
「てん」(10)と「。」に対応する音「まる」(1
1)も記憶し、合計441語を収容する。
【0027】図1及び図2に示したテーブルに記憶した
仮名及び句読点以外の記号は、仮名・テキスト変換辞書
600に記憶する。仮名・テキスト変換辞書600は通
常のキーボード入力からテキストに変換する為に用いる
フロントエンドプロせっさの辞書に対応するものであ
る。
【0028】S72で仮確定された仮名に対応する文字
パターンをROM51から読出して表示器56に表示す
る(S73)。S74でアドレスBをインクリメントし
て次の単位音声データの仮名への変換処理に移行する準
備をし、S75において、アドレスBを既に定められて
いるアドレスの最大値BMAXと比較して、既に抽出され
ている単位音声データ全てについて仮名変換処理が完了
したか確認する。
【0029】S72で仮確定された仮名は、入力時刻順
に平仮名または片仮名として配列して仮名配列記憶部5
50に記憶し、S73で表示制御部700を介してディ
スプレイ750に表示される。このとき、仮名配列記憶
部550には単位音声データの区切りが識別できるよう
な不可データを共に記憶しておき、修正等の際に利用す
る。ここで、オペレータは表示器に表示された仮名を確
認して修正処理を行う。表示された仮名が意図したもの
であれば、オペレータは次の音声を発声する。
【0030】図8のフローチャートに、表示された仮名
の修正処理を示す。表示器上でキーボード或はポインテ
ィングデバイスにより仮名が指示された場合は(S8
1)、その指示位置に表示されている仮名を判別し(S
82)、その指示された仮名に対する修正データを入力
する(S83)。このS83における修正データの入力
は、再び音声を入力して先に説明したような仮名への変
換を行うか、或はキーボードにより直接仮名文字コード
を入力しても良い。また、修正データは、S82で判別
された仮名データに上書きしても良いし、或は修正デー
タとしてS82で指定された仮名データを削除するよう
指示データを入力した後、新たに仮名データを入力する
ようにしても良い。
【0031】尚、キーボード或はポインティングデバイ
スによる修正対象の仮名の特定(S82)は、仮名配列
記憶部550に記憶されている音声から仮名への変換が
行われた単位仮名データ毎に行うことにより、その後の
修正処理が容易になる。つまり、入力された単位音声デ
ータが「ちゃー」である場合等、ポインティングデバイ
スによりその「ちゃー」上の一点を指示すれば、「ちゃ
ー」がまとめて特定されるので、3文字分の指示操作を
する必要がなく、指示操作を容易にすることができる。
【0032】図7及び図8のフローチャートに示す処理
により、入力した音声が仮名に変換され、確認したらオ
ペレータは確認キー、例えばスペースキー等を押下する
ことにより、それまでに仮確定されている仮名は日本語
の仮名・テキスト変換辞書600から、最適な文字や単
語を捜し出して表示器56に表示する。これは通常のフ
ロントエンドプロセッサと同様の処理である。
【0033】尚、音声で仮名を入力する場合、「お」と
「を」或は「ず」と「づ」を区別して入力することがで
きないので、次の方法により各々を入力できるようにす
る。
【0034】S72において確定された一方の仮名が意
図した方の仮名でなく、オペレータにより再度音声で入
力された場合に、再度入力された音声をS72で仮確定
する場合には前回仮確定した仮名を除いた仮名を選択す
るようにする。
【0035】或は、仮名辞書500にはどちらか一方の
仮名、例えば「お」と「ず」のみ登録しておき、仮名・
テキスト変換辞書600にそれらの「お」と「ず」から
「を」と「づ」を変換出来るように登録しておいても良
い。
【0036】ここまでで説明した処理は、入力音声から
平仮名又は片仮名を判断し、それから和文テキストを作
成する方法であるが、これと同様の処理でアルファベッ
トや数字を含んだ文章を作成することもできる。その為
には、図3に示すような、アルファベットと数字と記号
「,」「.」「−」「?」及びこれらに対応する音を記
憶したアルファベットテーブルの辞書を仮名辞書500
に加え、S72でこれらのアルファベットや数字、記号
を選択出来るようにすれば良い。
【0037】また、この様にアルファベットテーブルを
仮名辞書500に加えて和文と英文が混ざったテキスト
を作成するようにする他に、和文モードと英文モードを
切り替える手段を設け、これらのモード切換に応じて仮
名辞書500とアルファベットテーブルとを切り替える
ようにしても良い。
【0038】
【発明の効果】以上説明したように、本発明によれば、
和文又は英文のテキストを音声により入力することがで
きる。
【0039】以上説明したように、本発明によれば、全
音節について長音を付加したものを音節辞書として保持
し、音声の認識に用いるので、長音認識が容易でかつ確
実に行われる。
【0040】以上説明したように、本発明によれば、入
力音声をテキスト化したものの修正対象の特定を、単位
音声に対応する仮名列を識別して決定するので、その後
の修正処理が容易になる
【図面の簡単な説明】
【図1】仮名辞書1
【図2】仮名辞書2
【図3】アルファベットテーブル
【図4】発明に係る装置の機能構成図
【図5】発明に係る装置のハード構成図
【図6】音声入力処理のフローチャート
【図7】音声認識処理のフローチャート
【図8】修正処理のフローチャート

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 音節に長音を付加した音節辞書を利用
    し、 入力した音声を前記音節辞書と比較することにより長音
    を含む入力音声を認識することを特徴とする音声処理方
    法。
  2. 【請求項2】 前記音節辞書は、音声データと仮名デー
    タとを対応付けたものとすることを特徴とする請求項1
    に記載の音声処理方法。
  3. 【請求項3】 前記音声認識により得た仮名データを単
    語に変換することを特徴とする請求項2に記載の音声処
    理方法。
  4. 【請求項4】 前記音節辞書として、アルファベットと
    音声データとを対応付けた辞書を利用することを特徴と
    する請求項1に記載の音声処理方法。
  5. 【請求項5】 前記音声をマイクロフォンにより入力す
    ることを特徴とする請求項1に記載の音声処理方法。
  6. 【請求項6】 前記認識結果の仮名に対応する文字パタ
    ーンを表示器に表示することを特徴とする請求項1に記
    載の音声処理方法。
  7. 【請求項7】 前記変換された単語を表示器に表示する
    ことを特徴とする請求項1に記載の音声処理方法。
  8. 【請求項8】 前記音節は濁音、半濁音、拗音を含むも
    のとすることを特徴とする請求項1に記載の音声処理方
    法。
  9. 【請求項9】 音節に長音を付加した音節辞書を利用
    し、 音声を入力する入力手段と、 前記入力した音声を前記音節辞書と比較して長音を含む
    入力音声を認識する音声認識手段とを有することを特徴
    とする音声処理装置。
  10. 【請求項10】 前記音節辞書は、音声データと仮名デ
    ータとを対応付けたものとすることを特徴とする請求項
    9に記載の音声処理装置。
  11. 【請求項11】 前記音声認識手段により得た仮名デー
    タを単語に変換する単語変換手段を有することを特徴と
    する請求項10に記載の音声処理装置。
  12. 【請求項12】 前記音節辞書として、アルファベット
    と音声データとを対応付けた辞書を利用することを特徴
    とする請求項9に記載の音声処理装置。
  13. 【請求項13】 前記音声入力手段をマイクロフォンと
    することを特徴とする請求項9に記載の音声処理装置。
  14. 【請求項14】 前記音声認識手段の認識結果の仮名に
    対応する文字パターンを表示器に表示する表示制御手段
    を有することを特徴とする請求項9に記載の音声処理装
    置。
  15. 【請求項15】 前記音声認識手段の認識結果の仮名に
    対応する文字パターンを表示する表示器を有することを
    特徴とする請求項9に記載の音声処理装置。
  16. 【請求項16】 前記単語変換手段により変換された単
    語を表示器に表示する表示制御手段を有することを特徴
    とする請求項9に記載の音声処理装置。
  17. 【請求項17】 前記単語変換手段により変換された単
    語を表示する表示器を有することを特徴とする請求項9
    に記載の音声処理装置。
  18. 【請求項18】 前記音節は濁音、半濁音、拗音を含む
    ものとすることを特徴とする請求項9に記載の音声処理
    装置。
JP8171022A 1996-07-01 1996-07-01 音声処理方法及び装置 Withdrawn JPH1020881A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8171022A JPH1020881A (ja) 1996-07-01 1996-07-01 音声処理方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8171022A JPH1020881A (ja) 1996-07-01 1996-07-01 音声処理方法及び装置

Publications (1)

Publication Number Publication Date
JPH1020881A true JPH1020881A (ja) 1998-01-23

Family

ID=15915645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8171022A Withdrawn JPH1020881A (ja) 1996-07-01 1996-07-01 音声処理方法及び装置

Country Status (1)

Country Link
JP (1) JPH1020881A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604078B1 (en) 1999-08-23 2003-08-05 Nec Corporation Voice edit device and mechanically readable recording medium in which program is recorded

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604078B1 (en) 1999-08-23 2003-08-05 Nec Corporation Voice edit device and mechanically readable recording medium in which program is recorded

Similar Documents

Publication Publication Date Title
US5220639A (en) Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US7260529B1 (en) Command insertion system and method for voice recognition applications
US6490563B2 (en) Proofreading with text to speech feedback
RU2319221C1 (ru) Идентификация естественных речевых пауз в текстовой строке
JP4570176B2 (ja) ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム
JPS6238716B2 (ja)
JPWO2006097975A1 (ja) 音声認識プログラム
JPH045197B2 (ja)
JP3104661B2 (ja) 日本語文章作成装置
JPH1020881A (ja) 音声処理方法及び装置
JP3254977B2 (ja) 音声認識方法及び音声認識装置
JPS634206B2 (ja)
JP3284976B2 (ja) 音声合成装置及びコンピュータ可読記録媒体
JPH03217900A (ja) テキスト音声合成装置
JPH0195323A (ja) 音声入力装置
JPS61275972A (ja) 文章処理装置における音声入力装置
JP2002189490A (ja) ピンイン音声入力の方法
JPH09259145A (ja) 検索方法および音声認識装置
JP2001042883A (ja) テキスト音声合成装置
JPH02238494A (ja) 音声合成装置
JP3940905B2 (ja) 文字列変換装置及び情報処理装置
JPH10143503A (ja) 音声ワードプロセッサ
JP2001324995A (ja) 音声認識方法
JPH05210482A (ja) 発音辞書管理方法
JPS61196360A (ja) ワ−ドプロセツサ

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20030902