JPH11352986A - 音声認識利用装置の誤認識緩和方法 - Google Patents

音声認識利用装置の誤認識緩和方法

Info

Publication number
JPH11352986A
JPH11352986A JP10160676A JP16067698A JPH11352986A JP H11352986 A JPH11352986 A JP H11352986A JP 10160676 A JP10160676 A JP 10160676A JP 16067698 A JP16067698 A JP 16067698A JP H11352986 A JPH11352986 A JP H11352986A
Authority
JP
Japan
Prior art keywords
recognition
voice
user
function
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10160676A
Other languages
English (en)
Inventor
Tetsutada Sakurai
哲真 桜井
Yoshio Nakadai
芳夫 中台
Yoshitake Suzuki
義武 鈴木
Yutaka Nishino
豊 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10160676A priority Critical patent/JPH11352986A/ja
Publication of JPH11352986A publication Critical patent/JPH11352986A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声ダイヤルPHS携帯電話機の音声認識機
能を高めかつ使い易くする。 【解決手段】 相手の名称「めぐろ」を発声入力すると
(S2)、標準パターンに対する類似度を計算し(S
3)、その類似度が規定値を越えていないと(S4)、
「ごめん、他のことを考えていた。なんだい」のよう
に、会話形式で、そのつど異なる内容で表示、合成音声
で再発声を促し、ステップS2に戻る(S6)。類似度
が規定値を越えていれば、「めぐろ」03−1234−
5678なる表示を行ってその電話番号に自動発信す
る。同一利用者の入力音声を用いて標準パターンを話者
適応化する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は例えば音声ダイヤ
ルのように入力音声を音声認識し、その認識結果にもと
づく処理を行う処理装置において誤認識を緩和させる方
法に関する。
【0002】
【従来の技術】昨今、ユーザー(利用者)の行動支援の
視点から、音声認識機能が大きな注目を集めている。そ
して、この音声認識機能を唱った多くの商品が生み出さ
れ、それらに関する多くの学会発表がなされている。例
えば、A社はVOICE TYPEと名付けた音声認識ワードプロ
セッサーソフトウエアを、B社は音声認識機能を有する
カーナビゲーションシステムを、それぞれ商品として発
売している。また、発明者らの手によって、音声でダイ
ヤルが可能な音声認識機能付き腕時計形PHS電話機
が、1998年2月に開催された長野オリンピックの運
営スタッフに提供されたことは新聞や雑誌あるいはテレ
ビジョン放送等で広く紹介されたところである。
【0003】よく知られているように、音声認識機能は
声、即ち、口で種々のコマンド(名命)や名称を対象シ
ステムに入力可能な為、両手が他の用途に使われている
ユーザーにとって大変好ましい入力手段とみなされてい
た。例えば、カーナビゲーションシステムのユーザーで
あるドライバーは、自動車の運転に専念する必要があ
り、その両手、両足はハンドルやブレーキの操作に忙殺
される。このため、カーナビゲーションシステムの画面
切り替えや目的地までの距離情報を引き出す手段とし
て、音声認識機能を利用することが試みられた。この
他、携帯電話機等では小さなダイヤルボタンの操作性の
不便さを緩和する手立てとして音声認識機能が活用され
ている。例えば、C社の携帯電話機では肉声であらかじ
め吹き込んでおく必要があるものの、名前を発声するこ
とで相手の電話番号を表示し、かつ、その番号にダイヤ
ルすることができる。
【0004】ここで上げた事例に代表される音声認識機
能付きの商品等は、その利便性にもかかわらず、より多
くのユーザーを獲得するまでには至っていない。その理
由は、自動車運転中の音声によるカーナビゲーション操
作では自動車の走行音やエンジン音が、また、街頭での
音声によるダイヤル操作では街頭騒音や周囲の会話が、
100%の音声認識率実現を困難にしていることによ
る。100%でない音声認識率をシステム的におぎなう
手段として、音声認識の結果をユーザーに確認する手法
が取られる。例えば、次の具体例を示す。
【0005】ユーザー:音声認識機能を起動(S1)
「あおきさん」と発声(S2) 音声認識機能はその発声と予め記憶した標準音声との類
似度を計算する(S3)。この値は例えば60であった
とする(100を上限とする模式的な数値である)。そ
の計算した類似度が定められた値(しきい値)を超える
か否かを判定し(S4)、しきい値を超えていれば、 端末:液晶表示画面に認識結果を表示『あおきさん 0
3−1234−5678』(S5) ユーザー:ダイヤル発信ボタンを押す 端末:電話回線にダイヤルトーンを送出 という、流れになることが一般的であり、またステップ
S4で認識の類似度が所定の値を超えていなかった場合
は端末から「もう一度発声して下さい」と定型文を液晶
画面等に提示又は合成音声で発しステップS2に戻る
(S6)。またステップS5で認識結果表示が「あおき
さん」を「あおやまさん」と誤認識して表示した場合に
は、再度の発声を行う必要があった。これらの手順は、
ドライバーがカーナビゲーション等を操作する際にもほ
ぼ同様なものであった。要約すれば、音声認識機能は、
100%の認識率を達成できない結果として、ユーザー
(ドライバー)の確認操作が避けられず、「面倒だ」と
いう評価につながり、市場に広く受け入れられるには至
っていないのが実情である。
【0006】この他、音声認識機能を用いた玩具の存在
が知られている。例えば、数年前に、一種の音声認識機
能を有する小犬の玩具が発売されている。これは、赤外
線センサーで人を検知すると鳴き声を立てるが、人の発
する「しー、しー」という声を聞いて「く〜ん、く〜
ん」と甘えた声を立てる玩具であった。赤外線センサー
で人体を検知することは玩具に限らず、よく採用される
手法である。本事例の玩具の特徴は、安価なコストで人
の声を認識させる手立てにあり、人の発する「しー」と
いう音に含まれる子音の周波数成分を一種の波長フィル
ターで検知するものであった。当然のことであるが、反
応が画一的であり、高い人気を博するには至らなかっ
た。
【0007】さらに、音声を用いた認識とは若干異なる
が、10数年前にあたかも知性を持ったかのように受け
答えするコンピュータが出現した。これは、人がキーボ
ードから「今日は大変なことがあったんだ」というよう
な文章を入力すると、「どうしたんだい?」といった答
えが画面に表示されるものであり、コンピュータ(ある
いは回線の向こうにつながる機械)がことば(この場合
はキーボードから入力された文章)を認識するとして話
題になったことがあった。この仕掛けは、相手が入力す
る文章の中のキーワードを元にあたりさわりのない文章
を作るソフトウエアが内蔵されたコンピュータであり、
建設的な受け答えが困難なことは自明であった。これ
も、他の事例同様、時ならずして忘れさられた。
【0008】また、知性とは言い難いが、ポケットの中
に入るような小さなゲーム機に、プログラムされた動き
で持ち主に世話をやかせるいわゆる電子ペットが、この
発明以前に存在した。電子ペットは、一種のゲームであ
り、持ち主が行う“世話:えさやり、ふん掃除、躾等”
に応じて成長したり、健康を損ねたりするものであっ
た。これらは、数十を超える種類のものが発売された
が、ゲームとしての“あがり”の方法が知れ渡るにつ
れ、飽きられることとなったのは良く知られた事実であ
る。
【0009】
【発明が解決しようとする課題】この発明の目的は、今
までに列挙した事例とは一線を画し、認識技術の一つで
ある音声認識機能を具備し、さらに音声認識機能で避け
られなかった“誤認識”を違和感なくカバーする機能を
合わせ持つ方法およびシステムを提供することにある。
【0010】
【課題を解決するための手段】この発明によれば音声認
識機能を有し、その誤認識と推定される発声、あるいは
認識が困難な発声、に対して再度の発声を促す表示ある
いはガイダンス(音声合成による発声)を行い、ユーザ
ーが対処とするシステムに“あきない”ようにすること
を特徴とし、この“あきさせない”ために、前記ガイダ
ンスが続けて同じ内容でなされないことを特徴とするも
のである。
【0011】更にこのようにあきないで使用し、つまり
より利用し、ユーザーの音声が何回も入力され、音声認
識機能が、いわゆる話者適応によって比較的短時間に充
分な認識率に達するようになる。
【0012】
【発明の実施の形態】図1にこの発明の一実施例を示
す。ここに、本体1は電話機等の通信端末、あるいはゲ
ーム機、あるいはいわゆるリモコン、あるいは家庭にあ
る電気製品、あるいはこれらを複合したもの、あるいは
これらを組み合わせたもの等である。本事例では本体1
を携帯電話機の一種であるPHS電話機として説明を行
うが、先に上げた種々のシステムや端末あるいは製品に
適用できることは明らかである。さて、PHS電話機1
は、いわゆる電話機の基本機能を実現するシステム基本
機能部2、無線機能を実現するRF部3、ユーザーに通
信のインターフェース機能を与えるインタフェース部
4、及びユーザーの音声に基づく操作を可能とする音声
認識部5、等から構成されている。また、インタフェー
ス部4は、音声の送受に不可欠なマイクロホン41、ス
ピーカー42、ダイヤル数字を表示する液晶等の画面表
示部43、キー操作部44(図示せず)、およびこれら
を統合的に制御するインタフェース制御部45等から構
成される。この他、必要に応じて、音声ガイダンス部4
6(図示せず)、あるいは電話番号やガイダンス音声を
格納しておくメモリー47(図示せず)等が追加され
る。図1中央に示したこの発明を特徴付ける部位を、ユ
ーザー特化部6と仮称する。
【0013】ここで、この発明の適用事例の一つである
PHS電話システムの概略構成に関し、図2を用いて簡
単に説明しておく。図2における形状は分かり易さを優
先して表現したので、もちろん、これら以外の構成や形
状を取ることはなんの問題もない。図2において、いわ
ゆるネットワークとしてのISDN71が存在し、IS
DN71につながる、いわゆる基地局721,722
等、これらを管理し、電話サービスを提供するサービス
インタフェース部73、及びユーザーが持つ端末741
や端末742(図示せず)等がPHS電話システムを構
成し、以下に述べるマイクロ波帯の無線通信サービス
(以下、PHSサービスと記述)が提供される。もちろ
ん、PHS相互の通信サービスだけでなく、他のネット
ワーク75(図示せず)、例えば、PSTNあるいは、
インターネット等とつながっていたり、つなげることが
可能で、一般の家庭電話などとの通話も可能である。
【0014】PHSサービスは、1.9GHz帯の電波
を用いて端末からは10mW以下の無線(以下、RF)
出力で、公衆基地局側(721,722等)からは50
0mW以下の出力(意図する基地局のカバー範囲によっ
て出力値を制御)で音声あるいはディジタルデータの送
受信を行うパーソナルユースの通信サービスである。P
HS電話システムにおいては、TDMA/TDDフレー
ムと呼ばれる5ms毎の単位時間の中で送受信のタイム
スロット(625μs/スロット)が割り当てられ、一
つの基地局に対して、三つの端末の音声チャネルが設け
られる。また、この音声チャネルを制御するためのチャ
ネル:制御チャネルが一つの基地局と三つの端末の間に
設けられる。このような低電力のPHS電話機は小形に
作ることが可能であるが、小形化すれば、キー操作部も
小さくならざるを得ず、人の指や手の大きさに起因する
小形化の制約があった。このような小形化の制約を克服
する手立ての一つが、発明者らによって実現された音声
認識技術によるダイヤル発信機能の付与である。これ
は、電話機が通常備えるキー操作部の代わりにマイクロ
ホン及び音声認識機能を用いて人の声(数字あるいは名
前)をダイヤル数字に置き換えて電話回線に送出するも
のである。この機能の付与によってPHS電話機を腕時
計程度まで小形化することができたのは良く知られた事
実であり、1998年2月に開催された長野オリンピッ
クの会場運営に40台の腕時計形PHS電話機が利用さ
れた。
【0015】ここで、この発明の効果を検証するために
実際に用いた音声認識機能について具体的な構成につい
ても言及する。図3において、音声入力部11は音声を
受信する手段であり、例えば、オーディオマイクロホン
や、音響波形データを受信するアナログの信号入力端子
である。波形変換部12は音声入力部11より得られた
音声データを分析のためのディジタル数値へ変換する手
段である。波形変換部12には、例えば、アナログの音
声波形をディジタルデータへ変換する。音声特徴抽出部
13は波形変換部12によって得られた音声波形データ
から音声区間検出および音声認識のための特徴量を抽出
する部分であり、この説明で事例として上げているDP
マッチング法(いわゆる特定話者音声認識手法)では、
例えば、短時間対数パワー分析およびケプストラム分析
等、音響認識技術において良く知られている分析方法を
用いる。また、当然のことであるが、隠れマルコフモデ
ルに立脚する音声認識(いわゆる不特定話者音声認識手
法)のための分析手順やこれらに匹敵するものの採用も
実験し、好結果を得た。日本語を対象とした認識では、
隠れマルコフモデルに立脚した不特定話者音声認識方式
がよい結果をもたらし、日本語以外も対象とした場合
は、DPマッチングの特定話者音声認識手法が好結果を
もたらした。
【0016】以上述べた手順は、音声波形が300〜3
400Hzの帯域幅に制限される電話のハンドセットか
らの入力からでも同様な結果を得た。音声区間検出部1
5は、音声特徴抽出部13から得られる音声特徴量の格
納する部位を決定する。入力パターン格納部16は音声
区間検出部15で決定された音声始端から終端までの区
間において母音に重きを置いた音声特徴量を取り込んで
未知入力パターンとする記憶部である。標準パターン記
憶部17は入力パターン格納部16に格納された未知入
力パターンと照合するための標準パターンを記憶する。
標準パターン記憶部17は適用される音声認識手法によ
って記憶内容が異なることは当然である。例えば、外国
語にも対応可能な特定話者認識方式に多用されるDPマ
ッチングの場合は、事前に登録した音声の特徴パターン
であり、これらは、認識対象者の肉声を特徴パターン化
したものである。また、不特定話者の認識に多用される
隠れマルコフモデルによる音声認識の場合は、音素と呼
ばれる単位に分けられた音声であり、通常、43要素、
あるいは26要素などがいわゆるベクトル情報として蓄
えられる。この場合、先のDPマッチングと異なり、そ
れ自体では有効な意味を持たないので、認識対象をモデ
ル化した隠れマルコフモデルネットワークも合わせてシ
ステムは具備する必要がある。これを認識対象モデル格
納部24として明記した。勿論、これらは表記上の便法
であり、17と24を同一ブロックにまとめて表記する
ことも可能である(以下、両者あるいはその一部で入力
パターンと照合すべき標準パターンを格納した部位を標
準パターン格納部700とする)。以上のことを端的に
言えば、標準パターン格納部700は入力パターン格納
部と同様の手順で分析および格納され、ラベル名を付与
された認識のための複数の音声標準パターンを格納した
記憶手段である。
【0017】尤度演算部22は、入力パターン格納部1
6に格納された未知の入力音声パターンと標準パターン
格納部700で生成あるいは出力される複数の標準パタ
ーンとの間での類似度の比較を行う。類似度は、入力音
声パターンと標準パターンとの距離値(マハラノビス距
離等の数式で定義される特徴量上の距離値)として定義
される。あるいは標準パターンが発声されたと仮定し
て、実際に観測された入力パターンを生み出す確率(但
し一般にはこの確率の対数値が用いられる)として定義
される。前者の場合は、最も距離値が小さいものが、後
者の場合は、最も確率が大きいものが高い尤度を持つと
判定する。この尤度演算部22においてそのしきい値が
外部から設定できる構成とすることは極めて実用的な構
成となる。これを尤度しきい値設定部25として図3に
明記した。尤度の設定を変えることで雑音に対するシス
テムの感度を調整したり、類似度の極めて近い複数の候
補を同時に選択するシステム構成とすることなどが可能
となる。また、出力が発話者の意図に沿ったものであっ
た時の類似度を記録する部位(図示せず)およびこれと
先の尤度しきい値設定部25を結ぶシステム構成とする
ことでこのシステムには学習機能を付与できるものであ
る。学習機能あるいは、対象となる発話者の声をより認
識し易くする話者適応の技術については音声認識の一般
的な機能改善の手法として知られている。
【0018】尤度比較部23は尤度の演算結果を受け
て、入力音声がどの標準パターンに最も類似しているか
を判定する。この時、類似度が似通った標準パターンが
複数存在する場合はそれらの全てを、似通った標準パタ
ーンが一つのみの場合はその標準パターンを結果集計部
19へ出力する。結果集計部19は各標準パターンにつ
いて尤度順に認識結果を並べて出力部20に送る。この
時、尤度の数値を合わせて送るか否かはこのシステムの
利用形態による。また、結果集計部19は最も類似度が
高いと判定されたパターンに関し、十分なしきい値が得
られなかった場合は、ユーザー特化部6に処理を渡し、
この発明の特長ある手順、即ち、発話者の気分をなごや
かにさせる表示や発声(合成音声による)を尽くすこと
となる。これを以下、具体的に説明する。
【0019】ユーザー特化部6は、端的に言えば、本体
1が持つインタフェース制御部45を介し、ユーザーの
癖や特徴を取り込み、このユーザーの操作に対してより
正確な入力を補助する仕組である。また、ユーザーの発
声の癖や調子をデーターとして記録し、図3の標準パタ
ーン格納部700のデーターをユーザーに合わせたもの
に変化させる仕組、いわゆる話者適応である。さらに、
周囲騒音等で本来の機能が果たされなかった場合には、
紋切り形の「もう一度、発声して下さい」などの指示で
はなく、擬人性あるいはペット性を加味した受け答えと
することでユーザーの不快感を緩和せんとするものであ
る。以下、音声認識機能付きのPHS電話機の事例を元
にこの発明の効果及び構成について説明する。
【0020】図4は、PHS電話機に内蔵された音声認
識機能を用いて『めぐろ』さんを発声し、『めぐろ』さ
んとして登録されたダイヤル数字を呼び出す操作(音声
レパートリーダイヤルあるいは音声ダイヤル等と称す
る)の手順の流れを示す。この事例で強調されるべき部
分は音声認識機能が誤認識となる場合である。よく知ら
れているように、誤認識は、ユーザーの発声の開始ある
いは終了を的確に識別出来なかった時、あるいは発声途
中で他者の声や周囲の騒音が重畳し、本来の音声波形以
外の情報までも取り込んだ時に生ずる。このような時に
は、取り込んだ音声波形と認識候補との間の類似性(尤
度とも称する)は、本来有すべき値に比べて小さいこと
が分かっている。従来の音声認識機能を実現するシステ
ムでは、このような場合、小さい類似度の中でも最も高
い値の候補を認識結果として上げるか、「認識できませ
ん」などといった一定の応答を返すことが行われてい
た。
【0021】例えば、『めぐろ(me/gu/ro)』
という発声において、真中の『gu』の音が周囲の騒音
に紛れた場合には、「me/**/ro」という情報が
得られる。この場合、「meguro」と発声された場
合に比べて「めじろ」と「めぐろ」の二つの地名が本来
期待されるべき値に比べて小さいものの、同程度の類似
度を持つことになる。その結果、発声の調子によって
は、かなりの確率で「めじろ」を結果として返して誤認
識となっていた。この発明では、このような場合には、
第一の候補と第二の候補の類似度が極めて接近している
値を取ることに着目し、別の応答を返すことに大きな特
長がある。図4の操作手順において、まず音声認識機能
を起動させ(S1)、「めぐろ」を発声し(S2)、最
初の発声を受けて類似度の値を計算し(S3)、これが
所定の値を越えているか、否かの判定を行い(S4)、
第二の候補と第一の候補の差が所定の値を越えている
か、否かの判定を行う。これらの値が所定の類似度を満
足していなかったり、第一と第二の候補の差が小さかっ
たりした時は、第一の候補を認識結果として返さない。
その際、従来のシステムにありがちな「もう一度発声し
て下さい」式の無味乾燥した特定の応答を返すのではな
く、PHS電話機があたかも意思を持っているような応
答を返すことが特長の一つである。この例では、PHS
電話機が他のことをしていたような「ごめん、他のこと
を考えていた。なんだい?」という形で、自然な再発声
を促す事例としている(S6)。この会話はユーザー特
化部6の中に種々のパターンを記録しておき、それらを
必要に応じて表示(画面の場合)、あるいは発声(スピ
ーカー出力の場合)することとし、さらに続けて同じ応
答をしないことで擬人性を高めることができる。つま
り、異なる言葉(文章)で再発声を促す。
【0022】このような応答に加えて、PHS電話機特
有のサービスを会話に盛り込むことが一層の擬人化、あ
るいはペット性を高め、ユーザーから見た端末への愛着
度が増すことが予備的な実験で確認できた。これを図4
のフローの後半に示した。この例では、PHS電話機の
持つ位置情報サービスと連動させ、例えば横浜を条件と
して設定している場合に、PHSの位置情報サービスに
より、そのPHS電話機が横浜に位置していると、条件
がとられて、〔めぐろさんに「横浜は今日は暑い、って
教えてあげて」「じゃ、つなぐね」〕と表示器に表示さ
れ(S8)、ユーザーは「めぐろ」が正しく認識された
ことを知り、かつ横浜につづいて定形文が現われ、「じ
ゃ、つなぐね」で音声ダイヤルが行われることを認識で
きる。このように、条件設定をいくつも設けておくと、
使用ごとに異なる条件が成立して、それに応じた文章や
ガイダンスが現われ、次にはどのようなものが現われる
かと興味が湧き、ユーザーに使用すること(再発声を含
む)に愛着を生じる。この結果、何日も同一ユーザーに
よる再発声や、利用のための音声入力が行われ、そのユ
ーザーの音声に対し、標準パターンの適応化が進み、そ
のユーザーの音声認識率が高くなる。またこのように音
声認識率が高くなると、この種の音声認識を利用した装
置を、一層抵抗なく、使い易いものとなる。
【0023】このように位置情報サービスにもとづく、
前記例では横浜という位置を条件とし、これが成立すれ
ば前記のような定形応答を作成したが、他の各種の条件
を設定しておき、それが成立すればそれに応じた応答文
を作成するようにすることもできる。例えばPHS電話
サービス事業者が提供している天気予報や占情報との連
動等で得た情報を元に、当該端末の位置や気候を会話に
挟む仕組とすることで、端末の無機質性を薄めることが
できる。これらはほんの一例で、ユーザーがよく掛ける
電話番号には、その条件が成立すれば「いつもの人だ
ね。いるかな?」といったメッセージをダイヤル発信中
に表示したり、合成音声で発声させることもこの発明の
一実施例である。このような条件の例としては、ユーザ
ーが登録した個人情報、例えば名前、生年月日、居住地
などの情報を用いることで、その本体1を利用するユー
ザーに応じた応答文(案内文を含む)を表示あるいは発
声させることにより、その本体(処理装置)1に対する
愛着を増すようにする。例えばユーザーの誕生日に最初
に掛ける通話に際して、生年月日を条件として、「ハッ
ピーバースデー ○○さん」と発声又は表示をしてから
「××さんに電話だね、まかせなさい」と擬人性を強調
した表示又は発声を行わせる。これらの擬人性やペット
性をもたらす会話や表示は定型文だと直ぐに飽きられる
が、PHS電話機の持つデーター転送機能を利用し、P
HS電話サービス事業者が図1中のユーザー特化部6に
様々な応答あるいは会話文を送り込むことが可能であ
る。当然であるが、ユーザーの通話料負担を避けるため
にこのデーター転送はPHS電話サービス事業者の負担
で行うことが考えられる。また、これも当然であるが、
このデーター転送に必要な通話の着信をユーザーが知り
合いからの着信と誤解して応答しないよう、いわゆる無
鳴動着信とすることが望ましい。
【0024】以上の事例で述べたこの発明の特徴は、ユ
ーザーの発声の認識が困難な場合や、誤認識の可能性が
高い場合には、擬人的な応答を返すことでユーザーの音
声認識の性能への不満を緩和できることは明白である。
また、このような再発声がユーザーによってなされる結
果、ユーザーの発声の特徴が集まり、標準パターンを話
者適応化処理することにより認識率の改善に繋がる。こ
れはシステムにユーザーの発声を学習させた結果であ
る。
【0025】この発明を特徴付けるユーザー特化部6
は、その目的を達成するため、いわゆる演算処理機能、
メモリー機能等を持つことが必要である。演算処理機能
とメモリー機能はPHS電話のシステム基本機能部ある
いは音声認識部等に含まれることが一般的であり、これ
らを利用することでシステム総体としてのコストを下げ
ることが可能である。音声認識機能を実行するディジタ
ルシグナルプロセッサー(DSP:図示せず)や電話機
能を制御するCPU(図示せず)を流用する、あるい
は、それらが本来の機能を果たした後に残る処理能力を
用いる、等の構成は問題なく、所定の機能を果たした。
一方、これらの構成部品の流用ではなく、ユーザー特化
部専用の演算処理機能やメモリーを持つことは、ユーザ
ー特化部6とシステム基本機能部の干渉やメモリー競合
を避ける上で効果があり、この発明の適用事例の中で試
みた、より高度な応答や会話を提供する形態に適してい
た。
【0026】ここで、電話機以外への適用事例について
言及する。先の会話文や応答文を通信で送ることがかな
わないので、受け答え可能な表現が挟まることは避けら
れない。しかし、ユーザー特化部6の存在によって大き
な効果をもたらすことが可能である。従来の音声認識機
能付きリモコンの認識率が実用的なレベル(一般に90
%以上と言われている)に達しなかった原因は二点知ら
れている。一つは音声認識プログラムの完成度不足であ
り、これは昨今、大幅に改善されたことはよく知られた
事実である。他の一つは、ユーザーが音声認識機能に適
した発声を行うことに慣れていなかったという事実であ
る。これは、発声のタイミングの狂いや「え〜、あの
〜」といった不要語を付けてしまうユーザーの癖に起因
していた。認識が困難な発声までも強引に認識すると、
誤認識の割合が増え、結局、「使いものにならない」と
いう印象をユーザーが持ってしまっていた。これに対
し、この発明では、誤認識の可能性の高い発声に対して
は擬人性あるいはペット性を表に出したユーモアのある
再発声手順を取ることに特長がある。例えば、周囲騒音
が高く、発声後に計算された音声の類似度が所定の値に
達しない事例があった。このような事例において、被験
者に「ごめん、まわりがうるさくて聞き取れなかった。
もう一度、教えて」というメッセージを出した場合は、
リモコンへの再発声への嫌悪感が薄められたという、効
果を得た。
【0027】このように再発声への抵抗感が薄められる
と、それだけそのユーザーからの再発声を得ることがで
き、そのユーザーの音声に特有のデータをより多く蓄積
することができ、結果として、ユーザーの発声の認識率
を高める効果が生ずる。これには、ある認識結果がユー
ザーに受け入れられた時、直前に繰り返されていた認識
のための発声内容との比較を行う。その過程で、ユーザ
ーが、不要語を付けた発声をし易いのか、発声のタイミ
ングがずれているのか、周囲騒音が高いのか、等音声認
識の問題を解析し、必要な認識アルゴリズムのユーザー
に合わせた変更(学習とも呼ぶ)を行い、図1の構成で
ユーザー特化部6から音声認識部5へデータあるいはプ
ログラムの転送を行うことで、ユーザーの発声に適した
音声認識機能とすることが可能である。
【0028】
【発明の効果】この発明の構成を用いることで、ユーザ
ーが、電話機等の通信端末、あるいはゲーム機、あるい
はいわゆるリモコン、あるいは家庭にある電気製品、あ
るいはこれらを複合したもの、あるいはこれらを組み合
わせたもの等の音声認識機能をもつ処理装置を楽しみな
がら、その音声認識機能の認識率を上げることが可能で
ある。また、ユーザーの発声に特化した擬人化、ペット
化を進めることで対象の端末や製品などの処理装置への
愛着が増し、利用期間が長くなるという効果を生む。
【0029】特に通信機能を持つ電話機等では、内蔵の
データーを適宜書き換えたり、季節や場所に応じた応答
メッセージ表示や発声を施すことで擬人性、ペット性を
一層高めることができ、ユーザーの愛着を増進すること
が可能である。結果として、これは、直ぐに解約される
PHS電話機などへの有効な対策ともなり得る。
【図面の簡単な説明】
【図1】この発明の構成を示す模式図。
【図2】この発明を適用した音声認識機能付きのPHS
電話機の機能構成の模式図。
【図3】この発明の構成要件の一つである音声認識機能
の一実施例を示す図。
【図4】この発明の音声認識機能を使う手順の一例を示
す流れ図。
【図5】従来の音声認識機能を使う手順の一例を示す流
れ図。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 西野 豊 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を音声認識機能で音声認識し、
    その認識結果にもとづく処理を行う装置において、 上記入力音声に対する認識処理で類似度としきい値とを
    比較し、 その比較の結果、その認識が誤認識又は困難であると判
    定されると、前回と異なる内容の表示あるいは音声によ
    り再度の発生を促すことを特徴とする音声認識利用装置
    の誤認識緩和方法。
  2. 【請求項2】 入力音声を音声認識機能で音声認識し、
    その認識結果にもとづき応答処理を行う装置において、 上記認識結果にもとづく応答を、利用者に応じて格納さ
    れている応答文を表示あるいは発声することを特徴とす
    る音声認識利用装置の誤認識緩和方法。
  3. 【請求項3】 請求項1又は2記載の方法において、 入力音声を音声認識機能で音声認識し、その認識結果に
    もとづき応答処理を行う装置において、 各種条件に応じた定形文を記憶しておき、 条件が成立するか否かの判定を行い、成立すればその条
    件に応じた上記定形文を読出し、応答文を生成し、 その応答文を表示あるいは発声することを特徴とする音
    声認識利用装置の誤認識緩和方法。
  4. 【請求項4】 請求項1乃至3の何れかに記載の方法に
    おいて、 上記装置にデータ伝送機能を設け、上記表示又は発声に
    必要とするデータを外部より転送してもらうことを特徴
    とする音声認識利用装置の誤認識緩和方法。
JP10160676A 1998-06-09 1998-06-09 音声認識利用装置の誤認識緩和方法 Pending JPH11352986A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10160676A JPH11352986A (ja) 1998-06-09 1998-06-09 音声認識利用装置の誤認識緩和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10160676A JPH11352986A (ja) 1998-06-09 1998-06-09 音声認識利用装置の誤認識緩和方法

Publications (1)

Publication Number Publication Date
JPH11352986A true JPH11352986A (ja) 1999-12-24

Family

ID=15720071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10160676A Pending JPH11352986A (ja) 1998-06-09 1998-06-09 音声認識利用装置の誤認識緩和方法

Country Status (1)

Country Link
JP (1) JPH11352986A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042887A (ja) * 1999-06-26 2001-02-16 Koninkl Philips Electronics Nv 自動音声認識器を訓練する方法
WO2002039425A1 (fr) * 2000-11-10 2002-05-16 Cai Co., Ltd. Systeme et procede de conversation en mode vocal faisant appel a un telephone portable, et centre en mode vocal
JP2002169804A (ja) * 2000-12-01 2002-06-14 Namco Ltd 模擬会話システム、模擬会話方法、および情報記憶媒体
JP2002169591A (ja) * 2000-12-01 2002-06-14 Namco Ltd 模擬会話システム、及び情報記憶媒体
JP2002169590A (ja) * 2000-12-01 2002-06-14 Namco Ltd 模擬会話システム、模擬会話方法、および情報記憶媒体
JP2003271892A (ja) * 2002-03-18 2003-09-26 Nippon Telegraph & Telephone East Corp シナリオ自動生成システム、シナリオ自動生成方法、コンピュータプログラムおよびそのプログラムを記録した記録媒体
JP2006317573A (ja) * 2005-05-11 2006-11-24 Xanavi Informatics Corp 情報端末
JP2018142329A (ja) * 2018-03-27 2018-09-13 株式会社ユピテル システム及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042887A (ja) * 1999-06-26 2001-02-16 Koninkl Philips Electronics Nv 自動音声認識器を訓練する方法
WO2002039425A1 (fr) * 2000-11-10 2002-05-16 Cai Co., Ltd. Systeme et procede de conversation en mode vocal faisant appel a un telephone portable, et centre en mode vocal
JP2002169804A (ja) * 2000-12-01 2002-06-14 Namco Ltd 模擬会話システム、模擬会話方法、および情報記憶媒体
JP2002169591A (ja) * 2000-12-01 2002-06-14 Namco Ltd 模擬会話システム、及び情報記憶媒体
JP2002169590A (ja) * 2000-12-01 2002-06-14 Namco Ltd 模擬会話システム、模擬会話方法、および情報記憶媒体
JP2003271892A (ja) * 2002-03-18 2003-09-26 Nippon Telegraph & Telephone East Corp シナリオ自動生成システム、シナリオ自動生成方法、コンピュータプログラムおよびそのプログラムを記録した記録媒体
JP2006317573A (ja) * 2005-05-11 2006-11-24 Xanavi Informatics Corp 情報端末
JP2018142329A (ja) * 2018-03-27 2018-09-13 株式会社ユピテル システム及びプログラム

Similar Documents

Publication Publication Date Title
US8195467B2 (en) Voice interface and search for electronic devices including bluetooth headsets and remote systems
US7957972B2 (en) Voice recognition system and method thereof
EP1611504B1 (en) Method and device for providing speech-enabled input in an electronic device having a user interface
CA2467220C (en) Semantic object synchronous understanding implemented with speech application language tags
US8082152B2 (en) Device for communication for persons with speech and/or hearing handicap
CN107580113B (zh) 提示方法、装置、存储介质及终端
CN107895578A (zh) 语音交互方法和装置
CN109074806A (zh) 控制分布式音频输出以实现语音输出
CN102117614A (zh) 个性化文本语音合成和个性化语音特征提取
CN109215631A (zh) 语音识别方法、程序、语音识别装置和机器人
JPH09106296A (ja) 音声認識装置及び方法
US20170364516A1 (en) Linguistic model selection for adaptive automatic speech recognition
CN111862938A (zh) 一种智能应答方法与终端、计算机可读存储介质
US20100114564A1 (en) Dynamic update of grammar for interactive voice response
JPH11352986A (ja) 音声認識利用装置の誤認識緩和方法
CN114120979A (zh) 语音识别模型的优化方法、训练方法、设备及介质
CN108922523B (zh) 位置提示方法、装置、存储介质及电子设备
Fujita et al. A new digital TV interface employing speech recognition
JP2003177788A (ja) 音声対話システムおよびその方法
KR102000282B1 (ko) 청각 기능 보조용 대화 지원 장치
CN111274828B (zh) 基于留言的语言翻译方法、***、计算机程序和手持终端
CN110839169B (zh) 一种智能设备遥控装置及基于其的控制方法
CN115841814A (zh) 语音交互方法及电子设备
CN108364631B (zh) 一种语音合成方法和装置
EP4350690A1 (en) Artificial intelligence device and operating method thereof