JPH10116093A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH10116093A
JPH10116093A JP8268683A JP26868396A JPH10116093A JP H10116093 A JPH10116093 A JP H10116093A JP 8268683 A JP8268683 A JP 8268683A JP 26868396 A JP26868396 A JP 26868396A JP H10116093 A JPH10116093 A JP H10116093A
Authority
JP
Japan
Prior art keywords
recognition
speech
likelihood
language
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8268683A
Other languages
English (en)
Inventor
Atsuko Motoki
敦子 元木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP8268683A priority Critical patent/JPH10116093A/ja
Publication of JPH10116093A publication Critical patent/JPH10116093A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 認識可能な言語を母国語とする人の発声を基
本パターンとして音声モデルが生成されているため、認
識可能な言語以外の言語を母国語とし、かつ、認識可能
な言語の発音が基本パターンに近くない人が装置を使用
した場合、その人の音声が認識されない虞れがある。 【解決手段】 外部から音声入力部1を介して音声が入
力されると、日本語音声認識処理部2において、入力さ
れたデータに対して日本語としての認識尤度が求めら
れ、また、英語音声認識処理部3において、入力された
音声データに対して英語としての認識尤度が求められ、
その後、認識尤度比較処理部5において、日本語音声認
識処理部2及び英語音声認識処理部3にてそれぞれ求め
られた認識尤度が比較され、その結果、認識尤度が最も
大きな言語が認識結果として出力される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に、認識可能な言語を母国語としない人がその言
語を発声した場合においても認識可能な音声認識装置に
関する。
【0002】
【従来の技術】従来より、音声認識においては、種々の
手法が提案されており、入力される音声をある程度の認
識率で認識することができる様々な装置が開発されてい
る。
【0003】従来の音声認識装置においては、予め、認
識可能な言語の音声モデルが格納されており、認識すべ
き音声が入力されると、入力された音声が音声モデルと
比較され、その比較によって音声認識が行われている。
【0004】従来の音声認識装置の一例として、特開平
6−27988号公報に、認識すべき音声が入力された
場合に、認識対象となるキーワードのHMM(Hidden M
arkov Model)に対する尤度を求め、それにより、音声
認識を行う音声認識装置が開示されている。
【0005】
【発明が解決しようとする課題】上述したような従来の
音声認識装置においては、認識可能な言語を母国語とす
る人の発声を基本パターンとして音声モデルが生成され
ているため、認識可能な言語以外の言語を母国語とし、
かつ、認識可能な言語の発音が基本パターンに近くない
人が装置を使用した場合、その人の音声が認識されない
虞れがある。
【0006】例えば、英語を認識する音声認識装置にお
いては、英語を母国語とする人の発声を基本パターンと
して音声モデルが生成されているため、英語を母国語と
しない日本人がその装置を使用する場合、日本人の中に
も、英語の発音が英語を母国語とする人に近い発音の人
や、日本語に近い発音(カタカナ外来語)の人がいるた
め、英語の発音が日本語に近い発音の人の音声について
は認識されない虞れがある。
【0007】上述した問題は、例えば、コックピット内
において生じる。コックピット内においては、様々な発
音をする人が存在しており、英語の発音が英語を母国語
とする人に近い発音の人や、日本語に近い発音(カタカ
ナ外来語)の人がいるからである。
【0008】ここで、上述した個人差による問題におい
ては、英語の発音が英語を母国語とする人に近い発音の
人については英語音声認識手法を、また、日本語に近い
発音(カタカナ外来語)の人については日本語認識手法
を用いれば解決することができるが、その切り替えは自
動で行われていないため、予め、その人の発声がどちら
に属するのかを調ベておき、その時々で切り替えを行わ
なければならない。
【0009】また、日本人による英語発声においては、
同一人物であっても、常に一定の発音をするわけではな
く、英語的な発声になったり、日本語的な発声になった
りすることがあるため、装置を使用する人毎に設定を切
り替えたとしても認識されない部分が生じてしまう虞れ
がある。
【0010】本発明は、上述したような従来の技術が有
する問題点に鑑みてなされたものであって、認識可能な
言語以外の言語を母国語とする人が使用した場合におい
ても、常に音声を認識することができる音声認識装置を
提供することを目的とする。
【0011】
【課題を解決するための手段】上記目的を達成するため
に本発明は、入力された音声に対して第1の言語及び第
2の言語として認識を行い、認識尤度が最も大きな言語
を認識結果として出力する音声認識装置であって、音声
が入力され、入力された音声を符号化する音声入力部
と、該音声入力部において符合化されたデータに対して
前記第1の言語としての認識尤度を求める第1の音声認
識処理部と、前記音声入力部において符号化されたデー
タに対して前記第2の言語として認識尤度を求める第2
の音声認識処理部と、前記第1及び第2の音声認識処理
部において求められた認識尤度を正規化する認識尤度正
規化処理部と、該認識尤度正規化処理部において正規化
された認識尤度を比較演算する認識尤度比較処理部と、
該認識尤度比較処理部における比較演算により認識尤度
が最も大きな言語を認識結果として出力する認識結果出
力部とを有することを特徴とする。
【0012】また、前記第1及び第2の音声認識処理部
は、予め、前記認識尤度を求めるために入力されるデー
タと比較するための音声モデルが格納されていることを
特徴とする。
【0013】また、前記第1の言語は日本語であり、前
記第2の言語は英語であることを特徴とする。
【0014】(作用)上記のように構成された本発明に
おいては、外部から音声入力部を介して音声が入力され
ると、第1及び第2の音声認識処理部のそれぞれにおい
て、入力された音声データに対して第1及び第2の言語
としての認識尤度が求められ、その後、認識尤度比較処
理部において、第1及び第2の音声認識処理部にてそれ
ぞれ求められた認識尤度が比較され、その結果、認識尤
度が最も大きな言語が認識結果として認識結果出力部6
を介して出力される。
【0015】このようにして、入力された音声に対して
複数の言語としての認識尤度がそれぞれ求められ、認識
尤度が最も大きな言語が認識結果として出力されるの
で、第1の言語を母国語とする人により第2の言語が入
力された場合においても、発音の差異によって認識され
ない部分が生じる虞れはない。
【0016】日本人による英語発生の音声が入力された
場合、第1の言語が日本語、第2の言語が英語であれ
ば、入力される音声が、英語を母国語とする人に近い発
音であっても、日本語に近い発音(カタカナ外来語)で
あっても、音声が認識されなくなる虞れはない。
【0017】
【発明の実施の形態】以下に、本発明の実施の形態につ
いて図面を参照して説明する。
【0018】図1は、本発明の音声認識装置の実施の一
形態を示すブロック図であり、認識対象が英語である日
本人用の音声認識装置である。
【0019】本形態は図1に示すように、音声が入力さ
れ、入力された音声を符号化する音声入力部1と、音声
入力部1において符合化されたデータに対して日本語と
しての認識尤度を求める日本語音声認識処理部2と、音
声入力部1において符号化されたデータに対して英語と
しての認識尤度を求める英語音声認識処理部3と、日本
語音声認識処理部2及び英語音声認識処理部3において
求められた認識尤度を正規化する認識尤度正規化処理部
4と、認識尤度正規化処理部4において正規化された日
本語及び英語の認識尤度を比較演算する認識尤度比較処
理部5と、認識尤度比較処理部5における比較演算によ
り認識尤度が最も大きな言語を認識結果として出力する
認識結果出力部6とから構成されている。
【0020】以下に、上記のように構成された音声認識
装置の動作について説明する。
【0021】まず、外部からマイクロフォン(不図示)
を介して音声入力部1に音声信号(入力音声)が入力さ
れると、音声入力部1において、入力された音声信号が
デジタル信号に変換され、音声符号データとして日本語
音声認識処理部2及び英語音声認識処理部3に対して出
力される。
【0022】ここで、日本語音声認識処理部2において
は、予め、半音節単位の音声モデルが格納されており、
また、英語音声認識処理部3においては、予め、Dip
hone単位の音声モデルが格納されている。
【0023】音声入力部1から出力された音声符号デー
タが日本語音声認識処理部2に入力されると、日本語音
声認識処理部2において、半音節HMMを用いて、音声
入力部1から出力された音声符号データと、格納されて
いる半音節単位の音声モデルとのマッチング処理が行わ
れ、類似度が最大となる単語及びその時の日本語認識尤
度が算出される。
【0024】また、音声入力部1から出力された音声符
号データが英語音声認識処理部3に入力されると、英語
音声認識処理部3において、DiphoneHMMモデ
ルを用いて、音声入力部1から出力された音声符号デー
タと、格納されているDiphone単位の音声モデル
とのマッチング処理が行われ、類似度が最大となる単語
及びその時の英語認識尤度が算出される。
【0025】ここで、日本語音声認識処理部2において
算出された日本語認識尤度と英語音声認識処理3におい
て認識された英語認識尤度とにおいては、認識尤度の基
準が互いに異なるため、このままでは認識尤度を比較す
ることができない。
【0026】そこで、日本語音声認識処理部2及び英語
音声認識処理部3のそれぞれにおいて日本語認識尤度及
び英語認識尤度が算出されると、日本語認識尤度及び英
語認識尤度が認識尤度正規化処理部4に入力され、認識
尤度正規化処理部4において、日本語認識尤度及び英語
認識尤度が互いに比較することができるように正規化さ
れる。
【0027】認識尤度正規化処理部4において、日本語
認識尤度及び英語認識尤度が正規化されると、認識尤度
比較処理部5において、正規化された2つの認識尤度の
比較演算が行われる。
【0028】その後、認識結果出力部6において、認識
尤度比較処理部5における比較演算の結果に基づいて、
認識尤度が大きな方の単語が認識結果として出力され
る。
【0029】なお、上述した実施の形態においては、予
め格納されている音声モデルとして、日本語音声認識処
理部2では半音節HMM、英語音声認識処理部3ではD
iphoneHMMを用いる場合について説明したが、
本発明はこれに限られず、他のモデルを用いてそれぞれ
の認識を行うことも可能である。
【0030】また、本実施の形態においては、日本語音
声認識処理と英語音声認識処理とを併用する場合につい
て説明したが、本発明はこれに限られず、認識対象とす
る言語によって、他の複数の言語の音声認識処理を併用
することも可能である。
【0031】
【発明の効果】以上説明したように本発明においては、
外部から音声入力部を介して音声が入力されると、第1
及び第2の音声認識処理部のそれぞれにおいて、入力さ
れた音声データに対して第1及び第2の言語としての認
識尤度が求められ、その後、認識尤度比較処理部におい
て、第1及び第2の音声認識処理部にて求められた認識
尤度が比較され、その結果、認識尤度が最も大きな言語
が認識結果として認識結果出力部を介して出力される構
成としたため、入力される音声によって認識手法を切り
替えることなく、高い認識率を得ることができる。
【0032】例えば、日本人による英語発生の音声が入
力された場合、第1の言語が日本語、第2の言語が英語
であれば、入力される音声が、英語を母国語とする人に
近い発音であっても、日本語に近い発音(カタカナ外来
語)であっても、高い認識率を得ることができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の実施の一形態を示すブ
ロック図である。
【符号の説明】
1 音声入力部 2 日本語音声認識処理部 3 英語音声認識処理部 4 認識尤度正規化処理部 5 認識尤度比較処理部 6 認識結果出力部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声に対して第1の言語及び
    第2の言語として認識を行い、認識尤度が最も大きな言
    語を認識結果として出力する音声認識装置であって、 音声が入力され、入力された音声を符号化する音声入力
    部と、 該音声入力部において符合化されたデータに対して前記
    第1の言語としての認識尤度を求める第1の音声認識処
    理部と、 前記音声入力部において符号化されたデータに対して前
    記第2の言語として認識尤度を求める第2の音声認識処
    理部と、 前記第1及び第2の音声認識処理部において求められた
    認識尤度を正規化する認識尤度正規化処理部と、 該認識尤度正規化処理部において正規化された認識尤度
    を比較演算する認識尤度比較処理部と、 該認識尤度比較処理部における比較演算により認識尤度
    が最も大きな言語を認識結果として出力する認識結果出
    力部とを有することを特徴とする音声認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置におい
    て、 前記第1及び第2の音声認識処理部は、予め、前記認識
    尤度を求めるために入力されるデータと比較するための
    音声モデルが格納されていることを特徴とする音声認識
    装置。
  3. 【請求項3】 請求項1または請求項2に記載の音声認
    識装置において、 前記第1の言語は日本語であり、 前記第2の言語は英語であることを特徴とする音声認識
    装置。
JP8268683A 1996-10-09 1996-10-09 音声認識装置 Pending JPH10116093A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8268683A JPH10116093A (ja) 1996-10-09 1996-10-09 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8268683A JPH10116093A (ja) 1996-10-09 1996-10-09 音声認識装置

Publications (1)

Publication Number Publication Date
JPH10116093A true JPH10116093A (ja) 1998-05-06

Family

ID=17461951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8268683A Pending JPH10116093A (ja) 1996-10-09 1996-10-09 音声認識装置

Country Status (1)

Country Link
JP (1) JPH10116093A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2005524859A (ja) * 2001-12-29 2005-08-18 モトローラ・インコーポレイテッド 多重レベル分散型音声認識のための方法および装置
JP2011027979A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声翻訳装置及び音声翻訳方法
JP2011227129A (ja) * 2010-04-15 2011-11-10 Nec Corp 音声認識システム、データ処理装置、音声認識方法およびプログラム
CN108899018A (zh) * 2018-05-08 2018-11-27 深圳市沃特沃德股份有限公司 自动翻译装置及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2005524859A (ja) * 2001-12-29 2005-08-18 モトローラ・インコーポレイテッド 多重レベル分散型音声認識のための方法および装置
JP2011027979A (ja) * 2009-07-24 2011-02-10 Fujitsu Ltd 音声翻訳装置及び音声翻訳方法
JP2011227129A (ja) * 2010-04-15 2011-11-10 Nec Corp 音声認識システム、データ処理装置、音声認識方法およびプログラム
CN108899018A (zh) * 2018-05-08 2018-11-27 深圳市沃特沃德股份有限公司 自动翻译装置及方法

Similar Documents

Publication Publication Date Title
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
JP2963142B2 (ja) 信号処理方法
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
Pellegrino et al. Automatic language identification: an alternative approach to phonetic modelling
JPH10504404A (ja) 音声認識のための方法および装置
JP3535292B2 (ja) 音声認識システム
Boite et al. A new approach towards keyword spotting.
US20040006469A1 (en) Apparatus and method for updating lexicon
JPH10116093A (ja) 音声認識装置
Venkatagiri Speech recognition technology applications in communication disorders
Wang et al. An experimental analysis on integrating multi-stream spectro-temporal, cepstral and pitch information for mandarin speech recognition
JP4094255B2 (ja) コマンド入力機能つきディクテーション装置
JP2820093B2 (ja) 単音節認識装置
JP3039399B2 (ja) 非母国語音声認識装置
JP3818063B2 (ja) 個人認証装置
KR100673834B1 (ko) 문맥 요구형 화자 독립 인증 시스템 및 방법
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
Nakagawa et al. Spoken language identification by ergodic HMMs and its state sequences
JPH06202689A (ja) 音声認識方法および装置
JPH08110790A (ja) 音声認識装置
JP2000242295A (ja) 音声認識装置および音声対話装置
JPH06175678A (ja) 音声認識装置
Mohanty et al. Design of an Odia Voice Dialler System
Ganesan Speech Recognition Algorithms And Architectures A Comparative Overview