JPH0990979A - 音情報記述方法および音情報認識方法 - Google Patents

音情報記述方法および音情報認識方法

Info

Publication number
JPH0990979A
JPH0990979A JP7249864A JP24986495A JPH0990979A JP H0990979 A JPH0990979 A JP H0990979A JP 7249864 A JP7249864 A JP 7249864A JP 24986495 A JP24986495 A JP 24986495A JP H0990979 A JPH0990979 A JP H0990979A
Authority
JP
Japan
Prior art keywords
sound information
recognition
voice
vocabulary
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7249864A
Other languages
English (en)
Inventor
Takatoshi Sanehiro
貴敏 實廣
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7249864A priority Critical patent/JPH0990979A/ja
Publication of JPH0990979A publication Critical patent/JPH0990979A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音情報記述方法および音情報認識方法におい
て、音情報を汎用性に優れた形式で容易に記述し、一般
的な音声認識装置を用いて認識する。 【解決手段】 まず、任意の音節列あるいは音素列など
の認識単位列を認識候補として生成する語彙制約なし音
声認識装置1を用いて、変換しようとする音情報を予め
作成された音声モデル2に基づいて認識させる。これに
より得られる認識結果を、語彙制約あり音声認識装置3
において認識に利用される単語リスト4に登録する。こ
の際に得られる音情報の表記は、語彙制約あり音声認識
装置3が持つ音声モデル2において、当該音情報に最も
近い(類似した)認識単位列を表すことになる。したが
って、上記手順により作成された単語リスト4に基づい
た語彙制約あり音声認識装置3を用いれば、入力音声と
音情報との照合を行うことが可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音情報を記述する
ための音情報記述方法、および、記述した音情報の入力
音声による検索や音情報と音声との類似度の判定などを
行うための音情報認識方法に関する。
【0002】
【従来の技術】従来より、音情報を認識する技術として
は、音声を自動認識する音声認識技術がある。音声認識
に関しては、例えば、中川聖一著、「確率モデルによる
音声認識」、電子情報通信学会編(1988)において
解説されている。また、音声認識技術を音声以外の音情
報(例えば、鳥の鳴き声など)の自動認識に利用するこ
とも提案されている。例えば、渡辺、加藤、好田、「鳴
き声による鳥の種類の認識におけるベクトル量子化の検
討」、平成6年度第4回情報処理学会東北支部研究会、
95−4がそれにあたる。上述したもの以外には、人に
よる音声あるいはハミングなどから、それに類似した音
情報を検索したり、音情報と音声あるいはハミングとの
類似度を評価する方法も提案されている。
【0003】
【発明が解決しようとする課題】ところで、上述した従
来の各種方法では、音情報を記述するためには、入力さ
れる音情報そのものをモデル化する過程が不可欠であっ
た。すなわち、音情報そのものをモデル化せずに音情報
を記述する手法は存在しなかった。したがって、例え
ば、人が発する声(音声やハミングなど)を記述する場
合でも、そのサンプルを集めて声毎にモデルを作成する
必要があった。すなわち、モデルを作成するのに多大な
労力が必要となる。
【0004】さらに、作成されたモデルは、対象とする
声のためにしか使用できないものとなるため、汎用性に
欠けるという欠点があった。また、作成されたモデルを
使用した認識時において、専用の認識方法が必要になる
という問題もある。本発明は、上述した事情に鑑みて為
されたものであり、音情報毎にモデルを作成することな
く、汎用性に優れた音記述を容易に実現できる音情報記
述方法、および一般的な音声認識装置を用いた音情報認
識方法を提供することを目的としている。
【0005】
【課題を解決するための手段】上記課題を解決するため
に、請求項1記載の音情報記述方法は、音節または音素
などの認識単位からなる音声モデルに基づいて語彙によ
る制約なしで音情報を認識し、該音情報を認識単位列に
変換して記述することを特徴としている。また、請求項
2記載の音情報認識方法は、請求項1記載の音情報記述
方法によって記述された認識単位列を語彙に含ませ、該
語彙および前記音声モデルに基づいて音情報を認識する
ことを特徴としている。
【0006】
【発明の実施の形態】本発明の実施形態について説明す
る前に、本発明の基礎となる技術的思想について説明す
る。従来の各種方法では、音声や動物の鳴き声、機械音
などの音情報毎にモデルを作成する点が最大の問題点に
なっている。したがって、音情報を音節列あるいは音素
列などの認識単位列に置き換えることが可能であれば、
この認識単位列を語彙として用いることにより、一般的
な音声認識装置を使用することが可能となる。一般的な
音声認識装置を利用可能であれば、音声のモデル化につ
いてはその音声認識装置作成時に行われているため、改
めてモデル化を行う必要は無く、モデル化の労力が削減
される。したがって、本発明では、あらゆる音情報を認
識単位列に変換している。この変換は、以下の手順で実
現可能である。
【0007】まず、任意の音節列あるいは音素列を認識
候補として生成する語彙制約なし音声認識装置を用い
て、変換しようとする音情報を認識させる。これにより
得られる認識結果(認識単位列)を、語彙制約あり音声
認識装置において認識に利用される語彙として登録す
る。この際に得られる音情報の表記は、語彙制約あり音
声認識装置が持つ音声モデルにおいて、当該音情報に最
も近い(類似した)認識単位列を表すことになる。した
がって、上記手順により語彙が登録された語彙制約あり
音声認識装置を用いれば、入力音声と音情報との照合を
行うことが可能となる。
【0008】以下、図面を参照して、上述した技術的思
想に基づいた本発明の実施形態について説明する。図1
は本発明の一実施形態による音情報記述方法および音情
報認識方法を適用した「鳥の鳴き真似自動採点器」の概
略構成を示す図であり、この図において、図中上部が音
情報記述時の構成、図中下部が音情報認識時の構成を示
している。なお、鳥の鳴き真似自動採点器(以後、採点
器と称す)とは、人の鳴き真似音声と登録された鳥の鳴
き声との類似性を判別し、類似度を点数化するものであ
る。
【0009】図1において、1は音情報が入力される語
彙制約なし音声認識装置、2は予め作成された音声モデ
ルであり、語彙制約なし音声認識装置1は、入力された
音情報を音声モデル2に基づいて認識し、対応する音節
列(音節系列)あるいは音素列(音素系列)を出力する
(以後、説明が繁雑になるのを避けるために音節列のみ
について説明する)。また、3は音声等の音情報が入力
される語彙制約あり音声認識装置、4は語彙制約なし音
声認識装置1から出力された音節列を含む単語リスト
(語彙)であり、音声認識装置3は、入力された音情報
を音声モデル2(語彙制限なし音声認識装置1で使用さ
れるものと同一)および単語リスト4に基づいて認識
し、認識結果を出力する。
【0010】上記構成の採点器においては、音情報記述
時において、対象とする鳥の鳴き声を記述するために、
語彙制約なし音声認識装置1を用いて鳴き声のサンプル
を認識させる。語彙制約のない音声認識方法としては、
例えば、T.Kawabata,T.Hanazawa,K.Itoh and K.Shikan
o, "Japanese Phonetic Typewriter Using HMM PhoneRe
cognition and Stochastic Phone-Sequence Modeling,"
IEICE Trans.E74(7),pp.1783-1787(1991)で報告されて
いる方法がある。
【0011】この方法は、任意の音節列を認識候補とし
て扱えるよう、すべての音節のつながりに対して、入力
音声と隠れマルコフモデルによる音声のモデルとのマッ
チングを行う方法である。なお、これだけでは、正しい
音節系列を得ることが難しいので、この文献では言語的
な制約として、音節の連鎖確率を用いている。ただし、
本実施形態においては、言語的制約として音節単位であ
ることのみを使用する。なお、音素単位で記述可能な場
合には、必ずしも音節を構成しない音素の並びをも許容
するといったことが可能となる。
【0012】本実施形態では、上述したような語彙制約
なし音情報認識方法によって鳥の鳴き声を認識させるこ
とで、実際の鳥の鳴き声を音節列に変換する。こうし
て、いくつかのサンプル(従来技術に比較して極めて少
ないサンプル)から単語リスト4を作成する。上述した
ことから明らかなように、音声認識装置が持つ音声モデ
ル2をこのように利用することにより、改めて特定の音
情報をモデル化する必要がなくなる。また、上述したよ
うに音情報を音節列で記述することにより、一般的な音
声認識装置では扱えなかった音声以外の音情報を当該音
声認識装置で扱うことが可能になる。
【0013】次に、音情報認識時には、前述した手順で
得られた認識結果を単語リスト4として予め設定し、語
彙制約あり音声認識装置3が、入力された音情報、本実
施形態においては鳴き真似音声を単語リスト4および音
声モデル2に基づいて認識し、認識結果を出力する。こ
こで用いられる語彙制約あり音声認識装置3としては、
例えば、中川聖一著、「確率モデルによる音声認識」、
電子情報通信学会編(1988)で解説されているもの
がある。
【0014】主なものとしては、音声のモデルとして隠
れマルコフモデルを用いる方法が挙げられる。この方法
は、一般的には、まず、予め登録してある語彙に対し、
隠れマルコフモデルにより音声のモデルを作成してお
く。次に、認識時には、このモデルと入力音声との照合
を行い、照合スコアの最も高い候補を認識結果とすると
いうものである。
【0015】次に、語彙制約あり音声認識装置3から出
力される認識結果に基づいて図示せぬ点数化手段が鳴き
真似の類似度を点数化することになるが、以下、その点
数化の基準について説明する。鳴き真似の類似度合を点
数化するために、予め鳴き真似の表記を、(a)本物の
鳥の鳴き声から作成したもの、(b)人の典型的な鳴き
真似から作成したもの、(c)鳴き声を言語に置き換え
た擬声語、の3種類用意する。すなわち、単語リスト4
に(a)〜(c)の表記を含ませておく。各表記(a)
〜(c)を単語リスト4に候補として登録する手順は以
下の通りである。
【0016】表記(a)は、音情報記憶時における前述
した処理を行うことにより、すなわち、語彙制約なし音
声認識装置1によって対象となる鳥の鳴き声を認識する
ことにより登録される。表記(b)は、人による鳴き真
似音声を語彙制約なし音声認識装置1によって認識する
ことによって登録される。表記(c)については、一般
的に使われる擬声語またはそれに類した音節列、すなわ
ち、人が言いそうな音節列を単語リスト4に直接登録す
る。フクロウの鳴き声に対する表記(a)〜(c)の一
例を、図2中の表に示す。
【0017】本実施形態では、図2中の表に示されるよ
うな表記をいくつか用意しておき、音情報認識時の認識
結果において各表記の選択順位と、予め各表記に割り当
てられた点数とに基づいて類似度を点数化するようにし
ている。この際、各表記に割り当てる点数は、表記
(a)が高得点、表記(c)が低得点、表記(b)が両
者の間の得点となるよう、すなわち実際の鳥の鳴き声に
近いものほど高得点となるように設定されているため、
点数化手段(図示略)は、より本物の鳴き声に近い音声
が入力された場合に高い得点を与えることになる。
【0018】また、他の鳥の鳴き声の表記や、これらの
表記に近い単語などを単語リスト4(語彙)に加えてお
き、音情報認識時の認識結果において、鳴き真似対象と
なっていない候補が現れた場合には点数を下げるよう点
数化手段を構成することにより、より高精度の類似度の
判定を行うことができる。以上、本発明の実施形態を図
面を参照して詳述してきたが、もちろん、本発明は鳥の
鳴き真似以外のものを記述および認識することも可能で
ある。また、音節単位のみでなく、音素単位の記述およ
び認識を行うことも可能である。
【0019】
【発明の効果】以上説明したように、本発明の音情報記
述方法によれば、一般的な音声認識装置では本来扱えな
い音声以外の音情報を音節あるいは音素などの認識単位
からなる認識単位列に変換して記述することが可能とな
る。すなわち、一般的な音声認識装置と予め作成された
音声モデルを使用し、音情報を汎用性のある形式で容易
に記述できるという効果がある。また、本発明の音情報
認識方法によれば、上記音情報記述方法により記述され
た認識単位列を語彙に含めるため、一般的な音声認識装
置では本来扱えない音声以外の音情報を、一般的な音声
認識装置および音声モデルを使用して認識することがで
きるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態による音情報記述方法およ
び音情報認識方法を適用した鳥の鳴き真似自動採点器の
概略構成を示す図である。
【図2】同採点器で使用される表記の一例を示す図であ
る。
【符号の説明】
1……語彙制約なし音声認識装置、2……音声モデル、
3……語彙制約あり音声認識装置、4……単語リスト。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音節または音素などの認識単位からなる
    音声モデルに基づいて語彙による制約なしで音情報を認
    識し、該音情報を認識単位列に変換して記述することを
    特徴とする音情報記述方法。
  2. 【請求項2】 請求項1記載の音情報記述方法によって
    記述された認識単位列を語彙に含ませ、該語彙および前
    記音声モデルに基づいて音情報を認識することを特徴と
    する音情報認識方法。
JP7249864A 1995-09-27 1995-09-27 音情報記述方法および音情報認識方法 Pending JPH0990979A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7249864A JPH0990979A (ja) 1995-09-27 1995-09-27 音情報記述方法および音情報認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7249864A JPH0990979A (ja) 1995-09-27 1995-09-27 音情報記述方法および音情報認識方法

Publications (1)

Publication Number Publication Date
JPH0990979A true JPH0990979A (ja) 1997-04-04

Family

ID=17199333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7249864A Pending JPH0990979A (ja) 1995-09-27 1995-09-27 音情報記述方法および音情報認識方法

Country Status (1)

Country Link
JP (1) JPH0990979A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002330194A (ja) * 2001-04-27 2002-11-15 Kenwood Corp 電話装置、音声合成システム、音素情報登録装置、音素情報登録・音声合成装置
JP6481090B1 (ja) * 2018-03-06 2019-03-13 祐輔 島崎 言葉を真似る鳥の訓練装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002330194A (ja) * 2001-04-27 2002-11-15 Kenwood Corp 電話装置、音声合成システム、音素情報登録装置、音素情報登録・音声合成装置
JP6481090B1 (ja) * 2018-03-06 2019-03-13 祐輔 島崎 言葉を真似る鳥の訓練装置
JP2019150008A (ja) * 2018-03-06 2019-09-12 祐輔 島崎 言葉を真似る鳥の訓練装置

Similar Documents

Publication Publication Date Title
US6233553B1 (en) Method and system for automatically determining phonetic transcriptions associated with spelled words
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US7957969B2 (en) Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciatons
US10170107B1 (en) Extendable label recognition of linguistic input
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
JP2002520664A (ja) 言語に依存しない音声認識
JPH0583918B2 (ja)
US9798653B1 (en) Methods, apparatus and data structure for cross-language speech adaptation
Kadyan et al. Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system
JP2004101727A (ja) 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム
JPH0990979A (ja) 音情報記述方法および音情報認識方法
JPH08248988A (ja) 音声認識方法
Liao et al. Towards the Development of Automatic Speech Recognition for Bikol and Kapampangan
Rajput et al. Adapting phonetic decision trees between languages for continuous speech recognition.
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JP2001188556A (ja) 音声認識方法及び装置
Sugamura et al. Speech processing technologies and telecommunications applications at NTT
KR20030010979A (ko) 의미어단위 모델을 이용한 연속음성인식방법 및 장치
Payande et al. Designing an intelligent translation software by audio processing techniques
Kuhn et al. Applications of decision tree methodology in speech recognition and understanding
Misganaw et al. German Dialect Identification and Mapping for Preservation and Recovery
Zuluaga-Gomez et al. A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers. Aerospace 2023, 10, 490
Saqer Voice speech recognition using hidden Markov model Sphinx-4 for Arabic
Wolf HWIM, a natural language speech understander
Wiggers HIDDEN MARKOV MODELS FOR AUTOMATIC SPEECH RECOGNITION