JP2008299221A - 発話検知装置 - Google Patents
発話検知装置 Download PDFInfo
- Publication number
- JP2008299221A JP2008299221A JP2007147383A JP2007147383A JP2008299221A JP 2008299221 A JP2008299221 A JP 2008299221A JP 2007147383 A JP2007147383 A JP 2007147383A JP 2007147383 A JP2007147383 A JP 2007147383A JP 2008299221 A JP2008299221 A JP 2008299221A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- sound
- speech
- superimposed
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】音声認識の精度を向上して、誤認識を防止することを課題とする。
【解決手段】発話検知装置10は、複数人の音声を集音するステレオマイク11を備える。そして、発話検知装置10は、ステレオマイク11によって集音された音声を主音声とその主音声に重畳する重畳音声とに区別し、区別された主音声と重畳音声との相対関係を算出する。そして、発話検知装置10は、算出された相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する。その結果、発話検知装置10は、音声操作入力であると判定した場合には、要求発話として応答システム50に対して要求内容を出力する。
【選択図】 図1
【解決手段】発話検知装置10は、複数人の音声を集音するステレオマイク11を備える。そして、発話検知装置10は、ステレオマイク11によって集音された音声を主音声とその主音声に重畳する重畳音声とに区別し、区別された主音声と重畳音声との相対関係を算出する。そして、発話検知装置10は、算出された相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する。その結果、発話検知装置10は、音声操作入力であると判定した場合には、要求発話として応答システム50に対して要求内容を出力する。
【選択図】 図1
Description
この発明は、発話が同乗者に対する会話であるか音声操作入力であるかを判定する発話検知装置に関する。
近年、利用者の音声を認識する技術の実現に向けて、各種考案がなされている。利用者の音声を認識することができれば、利用者は各種機器の操作を音声によって実行することが可能であり、特に車載装置では運転者による手動操作の運転への影響が懸念されることから音声操作技術の実用化が切望されている。
このような音声操作技術に用いられる音声認識では、だれがどこに向かって発話しているかの認識が必要な場合がある。例えば、音声を集音するマイクを複数備え、各マイクが集音した音声の時間が所定の時間より長いかを算出し、所定の時間よりも長い場合には機器の操作命令の発話であると判定し、所定の時間より短い場合にはそれ以外の発話であると判定する技術が従来から知られている。
また、特許文献1では、発声と発声の間の無音声時間を計時し、計時された無音声時間に基づいて、機器の操作命令の発話かそれ以外の発話かを判定する技術が開示されている。
しかしながら、上述した音声の時間により発話を判定する従来の技術では、各マイクによって集音されたそれぞれの音声が所定の時間以上続いたかを判定するのみで、マイク間で集音された相対関係を考慮しないので、音声認識の精度が悪く、誤認識が発生するという問題点があった。
また、上記した特許文献1の技術では、同乗者同士の会話が重畳した場合や、車室内で音楽が再生されていることにより発声と発声との間に無音時間がない場合には、機器の操作命令の発話かそれ以外の発話かを判定することができず、誤認識が発生するという問題点があった。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、音声認識の精度を向上して、誤認識を防止することを目的とする。
上述した課題を解決し、目的を達成するため、本発明に係る発話検知装置は、複数人の音声を集音する集音手段と、前記集音手段によって集音された音声を前記複数人ごとに第一の音声と第二の音声として区別し、当該第一の音声と第二の音声との相対関係として、前記第一の音声の途中に前記第二の音声が割り込んでいる状態、前記第一の音声の末尾に前記第二の音声が重畳している状態、前記第一の音声と前記第二の音声とが重ならない状態のいずれの状態であるかを算出する相対関係算出手段と、前記相対関係算出手段によって算出された前記状態に基づいて、前記第一の音声または前記第二の音声が音声操作入力であるかを判定することを特徴とする。
請求項1の発明によれば、複数人の音声を集音し、集音された音声を複数人ごとに第一の音声と第二の音声として区別し、その第一の音声と第二の音声との相対関係として、第一の音声の途中に第二の音声が割り込んでいる状態、第一の音声の末尾に第二の音声が重畳している状態、第一の音声と第二の音声とが重ならない状態のいずれの状態であるかを算出し、算出された状態に基づいて、第一の音声または第二の音声が音声操作入力であるかを判定するので、音声認識の精度を向上して、誤認識を防止することが可能になる。
また、請求項2の発明によれば、相対関係として、第一の音声の途中に第二の音声が割り込んでいる状態であると算出された場合には、第二の音声の発話時間が所定の時間以上であって、かつ第一の音声のパワーが第二の音声のパワー以上であるかを判定し、第二の音声の発話時間が所定の時間以上であって、かつ第一の音声のパワーが第二の音声のパワー以上であると算出された場合には、第二の音声が音声操作入力であると判定するので、第一の音声(会話)に対して割り込んで発話した第二の音声が、短い場合やその第一の音声より弱いパワーである場合には、相槌や感嘆(例えば、「ああ」や「うん」)であると考えられるため、音声操作入力として受け付けない結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。
また、請求項3の発明によれば、相対関係として、第一の音声の末尾に第二の音声が重畳している状態であると算出された場合には、第一の音声の平均パワーが第二の音声と重畳する直前の第一の音声のパワー以上であるかを判定し、第一の音声の平均パワーが第二の音声と重畳する直前の第一の音声のパワー以上であると算出された場合には、第二の音声が音声操作入力であると判定するので、第一の音声(会話)が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、第一の音声が急に途切れるような場合には、第二の音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。
以下に添付図面を参照して、この発明に係る発話検知装置の実施例を詳細に説明する。
以下の実施例では、実施例1に係る発話検知装置の概要および特徴、発話検知システムの構成および処理の流れを順に説明し、最後に実施例1による効果を説明する。なお、以下では、車両に実装されるカーナビゲーション(カーナビ)等において、利用者から発話された音声が音声操作入力であるか認識する場合に適用する例を説明する。
[実施例1に係る発話検知装置の概要および特徴]
まず最初に、図1を用いて、実施例1に係る発話検知装置の概要および特徴を説明する。図1は、実施例1に係る発話検知装置の概要および特徴を説明するための図である。実施例1の発話検知装置10では、発話が音声操作入力であるかを判定することを概要とする。そして、この発話検知装置10では、音声認識の精度を向上して、誤認識を防止する点に主たる特徴がある。
まず最初に、図1を用いて、実施例1に係る発話検知装置の概要および特徴を説明する。図1は、実施例1に係る発話検知装置の概要および特徴を説明するための図である。実施例1の発話検知装置10では、発話が音声操作入力であるかを判定することを概要とする。そして、この発話検知装置10では、音声認識の精度を向上して、誤認識を防止する点に主たる特徴がある。
この主たる特徴について具体的に説明すると、この発話検知システム1の発話検知装置10は、複数人の音声を集音するステレオマイク11を備える。そして、発話検知装置10は、ステレオマイク11によって集音された音声を主音声とその主音声に重畳する重畳音声とに区別し、区別された主音声と重畳音声との相対関係を算出する(図1の(1)参照)。なお、ここで主音声とは、区別された音声のうち音量が一番大きいものとし、重畳音声とは、区別された音声のうち音量が二番目に大きいものとする。また、発声主が三人以上いる場合には、発声主の音声のうち一番目に音量が大きいものと二番目に音量が大きいものをそれぞれ主音声、重畳音声とする。
具体的には、発話検知装置10は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し、その重畳度から主音声の途中に重畳音声が割り込んでいる状態(状態A)、主音声の末尾に重畳音声が重畳している状態(状態B)、主音声と重畳音声とが重ならない状態(状態C)のいずれの状態であるかを判定する。図1の例を用いて説明すると、主音声の重畳度Rpが100以下であり、かつ、重畳音声の重畳度Raが100であるので、主音声の途中に重畳音声が割り込んでいる状態(状態A)であると判定する。
そして、発話検知装置10は、算出された相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する(図1の(2)参照)。その結果、発話検知装置10は、音声操作入力であると判定した場合には、要求発話として応答システム50に対して要求内容を出力する(図1の(3)参照)。具体的には、発話検知装置10は、判定された状態A、状態B、状態Cそれぞれに設定されている所定の条件に応じて、発話が同乗者に対する会話(以下、「会話」という)であるか音声操作入力(以下、「要求発話」という)であるかを判定する。
例えば、発話検知装置10は、状態Aであると判定した場合には、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上であるかを判定する。その結果、発話検知装置10は、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上である場合には、要求発話であると判定する。また、発話検知装置10は、重畳音声の発話時間Saが所定の閾値T2未満であるか、または、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP未満である場合には、会話であると判定する。
このように、発話検知装置10は、集音された音声を個別に判定せずに、主音声と重畳音声との相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する結果、上記した主たる特徴のごとく、音声認識の精度を向上して、誤認識を防止することが可能である。
[発話検知システムの構成]
次に、図2〜図4を用いて、図1に示した発話検知システム1の構成を説明する。図2は、実施例1に係る発話検知システム1の構成を示すブロック図であり、図3は、重畳状態判定テーブルを説明するための図であり、図4は、重畳状態を説明するための図である。
次に、図2〜図4を用いて、図1に示した発話検知システム1の構成を説明する。図2は、実施例1に係る発話検知システム1の構成を示すブロック図であり、図3は、重畳状態判定テーブルを説明するための図であり、図4は、重畳状態を説明するための図である。
図2に示すように、この発話検知システム1は、発話検知装置10、音声出力装置20、同乗者判定装置30、音声認識エンジン40および応答システム50を有する。以下では、まず、本発明に係る発話検知装置10以外の音声出力装置20、同乗者判定装置30、音声認識装置40および応答システム50から説明する。
音声出力装置20は、音声を出力するスピーカ21と、音声を増幅するアンプ22と、音楽またはトークバック音声を再生する音楽再生/合成音声再生部23とを備える。音声出力装置20は、音楽再生/合成音声再生部23から再生する音声をアンプに送信し、アンプがその音声を増幅した後に、スピーカ21から出力する。また、音声出力装置20の音楽再生/合成音声再生部23は、後述する発話検知装置10の音声出力判定部14および学習フィルタ15に再生する音声データの原信号を送信する。
同乗者判定装置30は、車室内を撮影する車室内カメラ31と、車室内のシートの重さを検知する荷重センサ32と、同乗者の有無を判定する同乗者有無判定部33とを備える。同乗者判定装置30の同乗者有無判定部33は、車室内カメラ31および荷重センサ32の取得したデータを基に、同乗者の有無を判定する。そして、同乗者有無判定部33は、その判定結果を後述する発話検知装置10の波形分析/音源分離部16に通知する。
音声認識エンジン40は、音声データから音素の照合を行う音素照合部41と、図示しない音声認識辞書と単語照合部42と、認識結果出力部43とを備える。音声認識エンジン40の音素照合部41は、後述する発話検知装置10の音声重畳度判定部17から音声データを受信し、その音声データを解析して音素照合を行って、その音素に関する情報を単語照合部42に通知する。そして、単語照合部42は、音素に関する情報から図示しない音声認識辞書を用いて、単語の照合を行い、その照合結果を認識結果として認識結果出力部43に通知する。その後、認識結果出力部43は、通知された認識結果を出力して、発話検知装置10の要求判定部19に送信する。
応答システム50は、後述する発話装置10の要求判定部19から送信された要求を受信し、その要求に対応するシステム応答処理として実行する。例えば、音声により操作入力を受け付けて動作するカーナビが該当する。なお、上記した音声認識辞書として、ドライバー用および助手席用それぞれ設定するようにしてもよい。
次に、本発明に係る発話検知装置10について説明する。実施例1に係る発話検知装置10は、図2に示すように、ステレオマイク11、入力レベル判定部12、騒音低減処理部13、音声出力判定部14、学習フィルタ15、波形分析/音源分離部16、音声重畳度判定部17、重畳状態判定テーブル18、要求判定部19から主に構成される。
重畳状態判定テーブル18は、各重畳状態(状態A、状態B、状態C)における主音声、重畳音声、システムの振る舞いをそれぞれ記憶している。具体的には、重畳状態判定テーブル18は、図3に示すように、各重畳状態に対応する主音声の発話時間Sp、主音声の重畳時間Op、主音声の重畳度Rp、重畳音声の発話時間Sa、重畳音声の重畳時間Oa、重畳音声の重畳度Ra、音声操作入力であるかを判定するシステムの振る舞いをそれぞれ対応付けて記憶する。なお、この詳細については、音声重畳度判定部17の処理として後に説明する。
ステレオマイク11は、複数人の音声を集音する。具体的には、ステレオマイク11は、複数人の音声を集音し、その音声情報を入力レベル判定部12に通知する。なお、このステレオマイク11の置く位置は自由であり、配線も一本であるため自動車購入後の後付けも容易である。
入力レベル判定部12は、入力レベルが所定の閾値以上であるか判定する。具体的には、入力レベル判定部12は、ステレオマイク11から通知された音声情報の入力音声パワーレベルが所定の閾値以上L1であるかを判定する。つまり、入力レベル判定部12は、入力音声パワーレベルが所定の閾値以上L1でない場合には、独り言もしくは騒音と判断して、リジェクトする。また、入力レベル判定部12は、入力音声パワーレベルが所定の閾値以上L1である場合には、音声情報を騒音低減処理部13に通知する。
騒音低減処理部13は、ステレオマイク11が集音した音声情報からスピーカ21が出力した音楽やトークバック等の騒音を低減する処理を行う。具体的には、騒音低減処理部13は、入力レベル判定部12から通知された音声情報をフレーム単位でローパスフィルタ処理などを行って騒音を低減する。そして、騒音低減処理部13は、後述する学習フィルタ15からフィルタ係数を受信した場合には、そのフィルタ係数を用いてステレオマイク11が集音した音声情報から雑音(音楽やトークバック)を除去して乗員の発話のみを抽出し、波形分析/音源分離部16に通知する。また、騒音低減処理部13は、学習フィルタ15からフィルタ係数を受信しない場合には、騒音が低減された音声情報を波形分析/音源分離部16に通知する。
音声出力判定部14は、音声出力装置20のスピーカ21から音楽またはトークバックが出力されているか判定する。具体的には、音声出力判定部14は、音出力装置20の音楽再生/合成音声再生部23によって再生される音楽またはトークバックの音声データを受信し、オーディオが出力中であるかを判定し、オーディオが出力中であると判定した場合には、学習フィルタ15にスピーカ21から出力された音声を除去する旨の要求を通知する。また、音声出力判定部14は、オーディオが出力中でないと判定した場合には、トークバックが出力しているかを判定する。
その結果、音声出力判定部14は、トークバックが出力中であると判定した場合は、学習フィルタ15にスピーカ21から出力された音声を除去する旨の要求を学習フィルタに通知する。また、音声出力判定部14は、トークバックが出力中でないと判定した場合は、学習フィルタ15にスピーカ21から出力された音声を除去する処理を行わない旨の要求を通知する。
学習フィルタ15は、音響エコーキャンセラとして、車室内の反射の影響を学習し、雑音を除去して発話のみを抽出するフィルタ係数を算出する。具体的には、学習フィルタ15は、音声出力判定部14から出力された音声を除去する旨の要求を受信した場合には、音楽再生/合成音声再生部23から音楽やトークバックの音声における原信号を受信し、その原信号が室内で反響した影響を学習して、ステレオマイク11が集音した音声情報から雑音を除去して乗員の発話のみを抽出するためのフィルタ係数を算出し、騒音低減処理部13に通知する。
波形分析/音源分離部16は、波形を分析して主音声と重畳音声とに区別する。具体的には、波形分析/音源分離部16は、同乗者判定装置30の同乗者有無判定部33から同乗者の有無に関する判定結果を受信し、同乗者がいない場合には、同乗者がいない旨を後述する音声重畳度判定部17に通知する。また、波形分析/音源分離部16は、同乗者がいる場合には、波形を分析して、音源がそれぞれ異なる主音声と重畳音声とに分離して、音声重畳度判定部17に通知する。
音声重畳度判定部17は、区別された主音声と重畳音声との相対関係を算出する。具体的には、音声重畳度判定部17は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し、その重畳度から主音声と重畳音声とが状態A、状態Bまたは状態Cのいずれの状態(重畳状態)であるかを重畳状態判定テーブル18を用いて判定する。
ここで、図4を用いて、各重畳状態について具体的に説明する。同図に示すように、重畳状態Aとは、その重畳度から主音声の途中に重畳音声が割り込んでいる状態を示す。つまり、音声重畳度判定部17は、主音声の重畳度Rpが100以下であり、かつ重畳音声の重畳度Raが100である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態A)であると判定する。
また、重畳状態Bとは、主音声の末尾に重畳音声が重畳している状態を示す。つまり、音声重畳度判定部17は、主音声の重畳度Rpが0より大きく100未満であり、かつ重畳音声の重畳度Raが0より大きく100未満である場合には、主音声の末尾に重畳音声が重畳している状態(状態B)であると判定する。また、重畳状態Cとは、主音声と重畳音声とが重なっていない状態を示す。つまり、音声重畳度判定部17は、主音声の重畳度Rpが0であり、かつ重畳音声の重畳度Raが0である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態C)であると判定する。
そして、音声重畳度判定部17は、重畳状態を判定した後、算出された重畳状態に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する。具体的には、音声重畳度判定部17は、重畳状態Aである場合には、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上であるかを判定する(図3参照)。
その結果、音声重畳度判定部17は、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上である場合には、重畳音声が応答システム50への要求発話と判定し、音声データを音声認識エンジン40の音素照合部41に送信する。一方、音声重畳度判定部17は、畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上でない場合には、相槌や感嘆詩であるとしてリジェクトする(図3参照)。つまり、主音声(会話)に対して割り込んで発話した音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩(例えば、「ああ」や「うん」)であると考えられるため、要求発話として受け付けない。
また、音声重畳度判定部17は、重畳状態Bである場合には、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であるかを判定する(図3参照)。その結果、音声重畳度判定部17は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上である場合には、重畳音声が応答システム50への要求発話と判定し、音声データを音声認識エンジン40の音素照合部41に送信する。一方、音声重畳度判定部17は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上でない場合には、相槌や感嘆詩であるとしてリジェクトする(図3参照)。つまり、主音声(会話)が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、主音声が急に途切れるような場合には、重畳音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける。
また、音声重畳度判定部17は、重畳状態Cである場合には、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であるか判定する(図3参照)。その結果、音声重畳度判定部17は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であると判定した場合には、重畳音声が応答システム50への要求発話と判定し、音声データを音声認識エンジン40の音素照合部41に送信する。一方、音声重畳度判定部17は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上でないと判定した場合には、相槌や感嘆詩であるとしてリジェクトする(図3参照)。
要求判定部19は、認識結果の確からしさを判定する。具体的には、要求判定部19は、音声認識エンジン40の認識結果出力部43から送信された認識結果を受信し、その認識結果の確からしさ尤値度を用いて判定する。その結果、要求判定部19は、認識結果が確からしくないと判定した場合には、リジェクトし、一方、認識結果が確からしいと判定した場合には、応答システム50に要求を送信する。
[発話検知システムによる処理]
次に、図5および図6を用いて、実施例1に係る発話検知システム1による処理を説明する。図5は、実施例1に係る発話検知システム1の処理動作を示すフローチャートであり、図6は、実施例1に係る発話検知システム1のシステム要求判定処理を示すフローチャートである。
次に、図5および図6を用いて、実施例1に係る発話検知システム1による処理を説明する。図5は、実施例1に係る発話検知システム1の処理動作を示すフローチャートであり、図6は、実施例1に係る発話検知システム1のシステム要求判定処理を示すフローチャートである。
図5に示すように、発話検知装置10は、ステレオマイク11によって集音された音声情報の入力音声パワーレベルが所定の閾値以上L1であるかを判定する(ステップS101)。その結果、発話検知装置10は、入力音声パワーレベルが所定の閾値以上L1でない場合には(ステップS101否定)、独り言もしくは騒音と判断して、リジェクトする(ステップS102)。
また、発話検知装置10は、入力音声パワーレベルが所定の閾値以上L1である場合には(ステップS101肯定)、音声情報をフレーム単位でローパスフィルタ処理などを行って雑音を低減する雑音低減処理を行う(ステップS103)。また、発話検知装置10は、音声出力装置20によって再生される音楽またはトークバックの音声データを受信し、オーディオが出力中であるかを判定し(ステップS104)、オーディオが出力中でないと判定した場合には(ステップS104否定)、トークバックが出力しているかを判定する(ステップS105)。
また、発話検知装置10は、ステップS104およびステップS105において、オーディオが出力中であると判定した場合(ステップS104肯定)、またはトークバックが出力中であると判定した場合は(ステップS105肯定)、雑音除去処理を行う(ステップS106)。具体的には、発話検知装置10は、原信号が室内で反響した影響を学習し、ステレオマイク11が集音した音声情報から雑音を除去して乗員の発話のみを抽出するためのフィルタ係数を算出し、フィルタ係数を用いてステレオマイク11が集音した音声情報から雑音を除去して乗員の発話のみを抽出する。なお、上記した処理では、フレーム単位で音声情報の処理を行い、処理された音声情報を所定の記憶部に遂次記憶し、以下の処理では、所定の記憶部に蓄積された複数のフレーム単位で処理を行っている。
そして、発話検知装置10は、トークバックが出力中でないと判定した場合(ステップS105否定)、または雑音除去処理を行った後(ステップS106)、システム要求判定処理(後に図6を用いて詳述)を実行し(ステップS107)、音声が応答システム50への要求発話であるか判定する(ステップS108)。その結果、発話検知装置10は、音声が応答システム50への要求発話でないと判定した場合には(ステップS108否定)、相槌や感嘆詩であると考えられるため、要求発話として受け付けずに相槌や感嘆詩であるとしてリジェクトする(ステップS109)。
また、発話検知装置10によって音声が応答システム50への要求発話であると判定された場合には(ステップS108肯定)、音声認識エンジン40は、発話検知装置10から音声データを受信し、その音声データを解析して音素照合を行う(ステップS110)。そして、音声認識エンジン40は、その音素に関する情報から音声認識辞書を用いて、単語の照合を行い(ステップS111)、認識結果を出力する(ステップS112)。
その後、発話検知装置10は、音声認識エンジン40から送信された認識結果を受信して、その認識結果の確からしさ尤値度を用いて判定する(ステップS113)。その結果、発話検知装置10は、認識結果が確からしくないと判定した場合には(ステップS113否定)、リジェクトする(ステップS114)。一方、発話検知装置10によって認識結果が確からしいと判定された場合には(ステップS113肯定)、応答システム50は、発話検知装置10から送信された要求を受信し、その要求に対応するシステム応答処理として実行する(ステップS115)。
次に、図6を用いて、実施例1に係る実施例1に係る発話検知システム1のシステム要求判定処理を説明する。同図に示すように、発話検知装置10は、雑音除去済み音声データが入力されると(ステップS201)、同乗者の有無に関する判定結果から同乗者がいるか判定する(ステップS202)。その結果、発話検知装置10は、同乗者がいると判定した場合には(ステップS202肯定)、波形を分析して、音源がそれぞれ異なる主音声と重畳音声とに区別する(ステップS203)。
そして、発話検知装置10は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し(ステップS204)、その重畳度から主音声と重畳音声とが状態A、状態Bまたは状態Cのいずれの状態(重畳状態)であるかを重畳状態判定テーブル18を用いて判定する(ステップS205)。
つまり、発話検知装置10は、主音声の重畳度Rpが100以下であり、かつ重畳音声の重畳度Raが100である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態A)であると判定する(ステップS205状態A)。また、発話検知装置10は、主音声の重畳度Rpが0より大きく100未満であり、かつ重畳音声の重畳度Raが0より大きく100未満である場合には、主音声の末尾に重畳音声が重畳している状態(状態B)であると判定する(ステップS205状態B)。また、発話検知装置10は、主音声の重畳度Rpが0であり、かつ重畳音声の重畳度Raが0である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態C)であると判定する(ステップS205状態C)。
そして、発話検知装置10は、重畳状態Aであると判定した場合には(ステップS205状態A)、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上であるかを判定する(ステップS206)。
その結果、発話検知装置10は、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上である場合には(ステップS206肯定)、重畳音声が応答システム50への要求発話と判定する(ステップS207)。一方、発話検知装置10は、畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上でない場合には(ステップS206否定)、会話と判定する(ステップS208)。つまり、主音声(会話)に対して割り込んで発話した音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩(例えば、「ああ」や「うん」)であると考えられるため、要求発話として受け付けない。
また、発話検知装置10は、重畳状態Bである場合には(ステップS205状態B)、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であるかを判定する(ステップS209)。その結果、発話検知装置10は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上である場合には(ステップS209肯定)、重畳音声が応答システム50への要求発話と判定する(ステップS210)。一方、発話検知装置10は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上でない場合には(ステップ209否定)、会話であると判定する(ステップS211)。
また、発話検知装置10は、ステップS202において同乗者がいないと判定した場合には(ステップS202否定)、または、ステップS205において重畳状態Cである場合には(ステップS205状態C)、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であるか判定する(ステップS212)。その結果、発話検知装置10は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であると判定した場合には(ステップS212肯定)、重畳音声が応答システム50への要求発話と判定する(ステップS213)。一方、発話検知装置10は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上でないと判定した場合には(ステップS212否定)、会話であると判定する(ステップS214)。
[実施例1の効果]
上述してきたように、発話検知装置10は、複数人の音声を集音し、集音された音声を複数人ごとに主音声と重畳音声として区別し、その主音声と重畳音声との相対関係として、主音声の途中に重畳音声が割り込んでいる状態、主音声の末尾に重畳音声が重畳している状態、主音声と重畳音声とが重ならない状態のいずれの状態であるかを算出し、算出された状態に基づいて、主音声または重畳音声が音声操作入力であるかを判定するので、音声認識の精度を向上して、誤認識を防止することが可能になる。
上述してきたように、発話検知装置10は、複数人の音声を集音し、集音された音声を複数人ごとに主音声と重畳音声として区別し、その主音声と重畳音声との相対関係として、主音声の途中に重畳音声が割り込んでいる状態、主音声の末尾に重畳音声が重畳している状態、主音声と重畳音声とが重ならない状態のいずれの状態であるかを算出し、算出された状態に基づいて、主音声または重畳音声が音声操作入力であるかを判定するので、音声認識の精度を向上して、誤認識を防止することが可能になる。
また、実施例1によれば、重畳関係として、主音声の途中に重畳音声が割り込んでいる重畳状態Aであると算出された場合には、重畳音声の発話時間Saが所定の時間T2以上であって、かつ主音声のパワーAvePが重畳音声のパワーAveA以上であるかを判定し、重畳音声の発話時間Saが所定の時間T2以上であって、かつ主音声のパワーAvePが重畳音声のパワーAveA以上であると算出された場合には、重畳音声が音声操作入力であると判定するので、主音声(会話)に対して割り込んで発話した重畳音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩(例えば、「ああ」や「うん」)であると考えられるため、音声操作入力として受け付けない結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。
また、実施例1によれば、重畳関係として、主音声の末尾に重畳音声が重畳している重畳状態Bであると算出された場合には、主音声の平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であるかを判定し、主音声の平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であると算出された場合には、重畳音声が音声操作入力であると判定するので、主音声(会話)が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、主音声が急に途切れるような場合には、重畳音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に示すように、(1)マイク、(2)相対関係、(3)乗員数、(4)システム構成等、(5)プログラムにそれぞれ区分けして異なる実施例を説明する。
(1)マイク
上記の実施例1では、単一のステレオマイクを用いて車室内の音声を集音する場合を説明したが、本発明はこれに限定されるものではなく、複数のマイクを車室内に設けて集音するようにしてもよい。
上記の実施例1では、単一のステレオマイクを用いて車室内の音声を集音する場合を説明したが、本発明はこれに限定されるものではなく、複数のマイクを車室内に設けて集音するようにしてもよい。
(2)相対関係
また、上記の実施例1では、相対関係として、重畳状態を算出する場合を説明したが、本発明はこれに限定されるものではなく、重畳していない音声同士の相対関係を算出するようにしてもよい。
また、上記の実施例1では、相対関係として、重畳状態を算出する場合を説明したが、本発明はこれに限定されるものではなく、重畳していない音声同士の相対関係を算出するようにしてもよい。
(3)乗員数
また、上記の実施例1では、車両内の乗員が二人いる場合の処理を説明したが、本発明はこれに限定されるものではなく、三人以上いる場合にも適用することが可能なようにしてもよい。例えば、発話検知装置は、三人以上の音声を集音した場合には、集音した音声のうち、音量の大きい二つの音声の相対関係を算出して、音声操作入力であるかを判定する。
また、上記の実施例1では、車両内の乗員が二人いる場合の処理を説明したが、本発明はこれに限定されるものではなく、三人以上いる場合にも適用することが可能なようにしてもよい。例えば、発話検知装置は、三人以上の音声を集音した場合には、集音した音声のうち、音量の大きい二つの音声の相対関係を算出して、音声操作入力であるかを判定する。
(4)システム構成等
また、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、集音された音声が要求発話であるか会話であるかを判定する場合に用いられる閾値T2の値を任意に変更することができる。
また、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、集音された音声が要求発話であるか会話であるかを判定する場合に用いられる閾値T2の値を任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示(例えば、図2など)の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、発話検知装置10と音声認識エンジン40とを統合するようにしてもよい。
(5)プログラム
なお、本実施例で説明した発話検知方法は、あらかじめ用意されたプログラムを車載装置であるカーナビゲーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
なお、本実施例で説明した発話検知方法は、あらかじめ用意されたプログラムを車載装置であるカーナビゲーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
以上のように、本発明に係る発話検知装置は発話が音声操作入力であるかを判定する場合に有用であり、特に、音声認識の精度を向上して、誤認識を防止することに適する。
1 発話検知システム
10 発話検知装置
11 ステレオマイク
12 入力レベル判定部
13 騒音低減処理部
14 音声出力判定部
15 学習フィルタ
16 波形分析/音源分離部
17 音声重畳度判定部
18 重畳状態判定テーブル
19 要求判定部
20 音声出力装置
21 スピーカ
22 アンプ
23 音楽再生/合成音声再生部
30 同乗者判定装置
31 車室内カメラ
32 荷重センサ
33 同乗者有無判定部
40 音声認識エンジン
41 音素照合部
42 単語照合部
43 認識結果出力部
50 応答システム
10 発話検知装置
11 ステレオマイク
12 入力レベル判定部
13 騒音低減処理部
14 音声出力判定部
15 学習フィルタ
16 波形分析/音源分離部
17 音声重畳度判定部
18 重畳状態判定テーブル
19 要求判定部
20 音声出力装置
21 スピーカ
22 アンプ
23 音楽再生/合成音声再生部
30 同乗者判定装置
31 車室内カメラ
32 荷重センサ
33 同乗者有無判定部
40 音声認識エンジン
41 音素照合部
42 単語照合部
43 認識結果出力部
50 応答システム
Claims (3)
- 複数人の音声を集音する集音手段と、
前記集音手段によって集音された音声を前記複数人ごとに第一の音声と第二の音声として区別し、当該第一の音声と第二の音声との相対関係として、前記第一の音声の途中に前記第二の音声が割り込んでいる状態、前記第一の音声の末尾に前記第二の音声が重畳している状態、前記第一の音声と前記第二の音声とが重ならない状態のいずれの状態であるかを算出する相対関係算出手段と、
前記相対関係算出手段によって算出された前記状態に基づいて、前記第一の音声または前記第二の音声が音声操作入力であるかを判定することを特徴とする請求項1に記載の発話検知装置。 - 前記発話対象判定手段は、前記相対関係算出手段によって前記相対関係として、前記第一の音声の途中に前記第二の音声が割り込んでいる状態であると算出された場合には、前記第二の音声の発話時間が所定の時間以上であって、かつ前記第一の音声のパワーが前記第二の音声のパワー以上であるかを判定し、前記第二の音声の発話時間が所定の時間以上であって、かつ前記第一の音声のパワーが前記第二の音声のパワー以上であると算出された場合には、前記第二の音声が音声操作入力であると判定することを特徴とする請求項1に記載の発話検知装置。
- 前記発話対象判定手段は、前記相対関係算出手段によって前記相対関係として、前記第一の音声の末尾に前記第二の音声が重畳している状態であると算出された場合には、前記第一の音声の平均パワーが前記第二の音声と重畳する直前の第一の音声のパワー以上であるかを判定し、前記第一の音声の平均パワーが前記第二の音声と重畳する直前の第一の音声のパワー以上であると算出された場合には、前記第二の音声が音声操作入力であると判定することを特徴とする請求項1または請求項2に記載の発話検知装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007147383A JP2008299221A (ja) | 2007-06-01 | 2007-06-01 | 発話検知装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007147383A JP2008299221A (ja) | 2007-06-01 | 2007-06-01 | 発話検知装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008299221A true JP2008299221A (ja) | 2008-12-11 |
Family
ID=40172769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007147383A Pending JP2008299221A (ja) | 2007-06-01 | 2007-06-01 | 発話検知装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008299221A (ja) |
Cited By (86)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016004270A (ja) * | 2014-05-30 | 2016-01-12 | アップル インコーポレイテッド | 手動始点/終点指定及びトリガフレーズの必要性の低減 |
WO2016051519A1 (ja) * | 2014-09-30 | 2016-04-07 | 三菱電機株式会社 | 音声認識システム |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10354652B2 (en) | 2015-12-02 | 2019-07-16 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10417344B2 (en) | 2014-05-30 | 2019-09-17 | Apple Inc. | Exemplar-based natural language processing |
US10417405B2 (en) | 2011-03-21 | 2019-09-17 | Apple Inc. | Device access using voice authentication |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10453443B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10580409B2 (en) | 2016-06-11 | 2020-03-03 | Apple Inc. | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10942702B2 (en) | 2016-06-11 | 2021-03-09 | Apple Inc. | Intelligent device arbitration and control |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US11350253B2 (en) | 2011-06-03 | 2022-05-31 | Apple Inc. | Active transport based notifications |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334458A (ja) * | 1994-06-13 | 1995-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 情報交換支援装置 |
JP2000341658A (ja) * | 1999-05-27 | 2000-12-08 | Nec Eng Ltd | 話者方向検出システム |
JP2003241797A (ja) * | 2002-02-22 | 2003-08-29 | Fujitsu Ltd | 音声対話システム |
JP2003308079A (ja) * | 2002-04-15 | 2003-10-31 | Nissan Motor Co Ltd | 音声入力装置 |
JP2004286805A (ja) * | 2003-03-19 | 2004-10-14 | Sony Corp | 話者識別装置および話者識別方法、並びにプログラム |
-
2007
- 2007-06-01 JP JP2007147383A patent/JP2008299221A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334458A (ja) * | 1994-06-13 | 1995-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 情報交換支援装置 |
JP2000341658A (ja) * | 1999-05-27 | 2000-12-08 | Nec Eng Ltd | 話者方向検出システム |
JP2003241797A (ja) * | 2002-02-22 | 2003-08-29 | Fujitsu Ltd | 音声対話システム |
JP2003308079A (ja) * | 2002-04-15 | 2003-10-31 | Nissan Motor Co Ltd | 音声入力装置 |
JP2004286805A (ja) * | 2003-03-19 | 2004-10-14 | Sony Corp | 話者識別装置および話者識別方法、並びにプログラム |
Cited By (107)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US10692504B2 (en) | 2010-02-25 | 2020-06-23 | Apple Inc. | User profiling for voice input processing |
US10417405B2 (en) | 2011-03-21 | 2019-09-17 | Apple Inc. | Device access using voice authentication |
US11350253B2 (en) | 2011-06-03 | 2022-05-31 | Apple Inc. | Active transport based notifications |
US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
JP2016004270A (ja) * | 2014-05-30 | 2016-01-12 | アップル インコーポレイテッド | 手動始点/終点指定及びトリガフレーズの必要性の低減 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10657966B2 (en) | 2014-05-30 | 2020-05-19 | Apple Inc. | Better resolution when referencing to concepts |
US10417344B2 (en) | 2014-05-30 | 2019-09-17 | Apple Inc. | Exemplar-based natural language processing |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10714095B2 (en) | 2014-05-30 | 2020-07-14 | Apple Inc. | Intelligent assistant for home automation |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10453443B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Providing an indication of the suitability of speech recognition |
DE112014007015B4 (de) * | 2014-09-30 | 2021-01-14 | Mitsubishi Electric Corporation | Spracherkennungssystem |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10390213B2 (en) | 2014-09-30 | 2019-08-20 | Apple Inc. | Social reminders |
CN106796786A (zh) * | 2014-09-30 | 2017-05-31 | 三菱电机株式会社 | 语音识别*** |
WO2016051519A1 (ja) * | 2014-09-30 | 2016-04-07 | 三菱電機株式会社 | 音声認識システム |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10354652B2 (en) | 2015-12-02 | 2019-07-16 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10942702B2 (en) | 2016-06-11 | 2021-03-09 | Apple Inc. | Intelligent device arbitration and control |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10580409B2 (en) | 2016-06-11 | 2020-03-03 | Apple Inc. | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10847142B2 (en) | 2017-05-11 | 2020-11-24 | Apple Inc. | Maintaining privacy of personal information |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008299221A (ja) | 発話検知装置 | |
JP5649488B2 (ja) | 音声判別装置、音声判別方法および音声判別プログラム | |
CN112424860A (zh) | 重放攻击的检测 | |
JP2003308079A (ja) | 音声入力装置 | |
JP2005195895A (ja) | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 | |
US11089404B2 (en) | Sound processing apparatus and sound processing method | |
JP2001075594A (ja) | 音声認識システム | |
CN112397065A (zh) | 语音交互方法、装置、计算机可读存储介质及电子设备 | |
US20070198268A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JPWO2007138741A1 (ja) | 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
CN110696756A (zh) | 一种车辆的音量控制方法及装置、汽车、存储介质 | |
JP6847324B2 (ja) | 音声認識装置、音声認識システム、及び音声認識方法 | |
JP2012163692A (ja) | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム | |
JP2008250236A (ja) | 音声認識装置および音声認識方法 | |
JP4752028B2 (ja) | 音声中の非発話音声の判別処理方法 | |
KR20220104693A (ko) | 라이브 스피치 검출 | |
JP2005338454A (ja) | 音声対話装置 | |
JP2007043356A (ja) | 音量自動調節装置および音量自動調節方法 | |
JPH04318900A (ja) | 多方向同時収音式音声認識方法 | |
JP2005354223A (ja) | 音源情報処理装置、音源情報処理方法、音源情報処理プログラム | |
CN112530452B (zh) | 一种后置滤波补偿方法、装置和*** | |
CN110942770B (zh) | 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质 | |
JP3649032B2 (ja) | 音声認識方法 | |
JP2010164992A (ja) | 音声対話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110719 |