JP2007199552A - Device and method for speech recognition - Google Patents
Device and method for speech recognition Download PDFInfo
- Publication number
- JP2007199552A JP2007199552A JP2006020162A JP2006020162A JP2007199552A JP 2007199552 A JP2007199552 A JP 2007199552A JP 2006020162 A JP2006020162 A JP 2006020162A JP 2006020162 A JP2006020162 A JP 2006020162A JP 2007199552 A JP2007199552 A JP 2007199552A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- voice input
- time
- likelihood
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、対話者が話しかける音声を文章として認識する装置と方法に関する。 The present invention relates to an apparatus and a method for recognizing a voice spoken by a conversation person as a sentence.
人間が装置の動作を制御する際に、キーボードやレバーなどのインターフェースを操作することなく、音声を発することによって装置を制御する技術がある。このような技術においては、マイクなどの音声入力手段から入力される音声から、音声によって表現される言葉の内容を認識し、認識された言葉の内容に応じた制御が行われる。 When a human controls the operation of the device, there is a technique for controlling the device by emitting a voice without operating an interface such as a keyboard or a lever. In such a technique, the content of words expressed by speech is recognized from speech input from speech input means such as a microphone, and control according to the recognized content of words is performed.
音声入力手段から入力される音声には、対話者が発した声以外にも、周囲の雑音が混入する場合がある。周囲の雑音が混入した音声に基づいて認識を行うと、誤認識を起こし、装置の誤作動などを引き起こしてしまう。音声を認識する技術においては、雑音の影響をいかにして除去するかが重要である。 In addition to the voice uttered by the conversation person, ambient noise may be mixed in the voice input from the voice input means. If recognition is performed on the basis of voice mixed with ambient noise, erroneous recognition is caused, resulting in malfunction of the apparatus. In the technology for recognizing speech, how to remove the influence of noise is important.
雑音の影響を除去するために、対話者の顔を撮影し、撮影された画像に基づいて、対話者が話している期間(発話区間)と、話していない期間を識別する技術が従来から開発されている。撮影された顔の画像から発話区間を特定し、発話区間のみについて音声認識を行うことで、雑音の影響を排除し、誤認識を防ぐことができる。
特許文献1には、音声を認識し、対話者の***付近の動きから発話区間を検出し、検出された発話区間において対話者が発生した音声認識結果のみを抽出する技術が開示されている。
特許文献2には、対話者が発した音声に基づいた発話区間と、対話者の口を撮影して得た口画像データに基づいて求めた発話区間とが略一致している場合に限り、音声認識結果としての音声操作語句データを出力する技術が開示されている。
特許文献3には、対話者の顔の向き、唇の動き、視線の向きから、発声の有無を判断し、発声中と判断される場合に音声認識処理を行う技術が開示されている。
特許文献4には、対話者の***の動きから累積変動関数を抽出し、その累積変動関数を等分割する時系列を求め、その時系列を基準として音声認識を行う技術が開示されている。
特許文献5には、対話者の***の動きから音声区間を抽出し、音声区間における音声波形を切り出し、切り出された音声波形により、音声認識を行う技術が開示されている。
In
Japanese Patent Application Laid-Open No. 2004-228688 discloses a technique for determining the presence or absence of utterance from the direction of the conversation person's face, the movement of the lips, and the direction of the line of sight, and performing speech recognition processing when it is determined that the speaker is speaking.
Patent Document 4 discloses a technique for extracting a cumulative variation function from a lip movement of a conversation person, obtaining a time series for equally dividing the cumulative variation function, and performing speech recognition based on the time series.
Patent Document 5 discloses a technique for extracting a speech section from a lip movement of a conversation person, cutting out a speech waveform in the speech section, and performing speech recognition using the extracted speech waveform.
一般に音声認識処理に必要とされる演算の負荷に対して、画像認識処理に必要とされる演算の負荷は強い。従って、画像認識処理に要する時間は、音声認識処理に要する時間に比べて長いものとなる。従来技術が提示するように、画像認識処理の結果から発話区間を特定し、その後に特定された発話区間について音声認識処理を行う場合、音声の認識率は向上するものの、話者が話しかけてから音声認識が完了するまでに長時間を必要とする。より短時間で音声認識を行うことが可能な技術が待望される。 In general, the calculation load required for the image recognition processing is stronger than the calculation load required for the voice recognition processing. Therefore, the time required for the image recognition process is longer than the time required for the voice recognition process. As suggested by the prior art, when a speech segment is identified from the result of image recognition processing and then speech recognition processing is performed for the identified speech segment, the speech recognition rate improves, but the speaker speaks. It takes a long time to complete speech recognition. A technology that can perform voice recognition in a shorter time is awaited.
音声認識処理を施設やイベント会場などを案内するロボットに適用する場合、対話者は自然な文章で話しかけても案内してもらえることを望んでいる。入力される音声を文章として認識する処理は、従来技術が扱うような単語のみを認識する処理に比べて処理時間が長い。このような場合に、従来技術のような画像認識処理を応用すると、対話者が話しかけてから文章の認識処理が完了するまでに長時間を必要とし、長い待ち時間に対話者が不満を覚えてしまう。 When speech recognition processing is applied to a robot that guides facilities or event venues, a dialogue person wants to be guided even by speaking with natural sentences. The process for recognizing input speech as a sentence takes longer than the process for recognizing only words as handled by the prior art. In such a case, applying image recognition processing as in the prior art requires a long time from when the conversation person speaks until the sentence recognition process is completed, and the conversation person is dissatisfied with a long waiting time. End up.
対話者が話しかける自然な文章を正確に認識することが可能であり、なおかつ処理に要する時間を短時間とすることが可能な技術が待望されている。 There is a need for a technology that can accurately recognize natural sentences spoken by a conversation person and that can shorten the time required for processing.
本発明では上記課題を解決する。本発明は、対話者が話しかける自然な文章を短時間で正確に認識することが可能な技術を提供する。 The present invention solves the above problems. The present invention provides a technique capable of accurately recognizing a natural sentence spoken by a conversation person in a short time.
本発明は、対話者が話しかける音声を文章として認識する装置として具現化される。その装置は、音声を入力して音データに変換する音声入力手段と、対話者を繰り返し撮影して撮影された画像データを時刻と関連付ける撮像手段と、音データに基づいて音声入力開始時刻と音声入力終了時刻を検出する時刻検出手段と、音声入力開始時刻から音声入力終了時刻までの音データから文章データを作成する文章データ作成手段と、音声入力開始時刻から音声入力終了時刻までの画像データから対話者の発話状態を認識する発話状態認識手段と、対話者の発話状態から音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であるか否かを判断する発話区間判断手段と、音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であると判断された場合に、文章データを出力する文章データ出力手段を備えている。 The present invention is embodied as an apparatus for recognizing a voice spoken by a conversation person as a sentence. The apparatus includes a voice input unit that inputs voice and converts it into sound data, an imaging unit that repeatedly captures and captures image data captured by a conversation person, and a voice input start time and voice based on the sound data. From time detection means for detecting the input end time, sentence data creation means for creating sentence data from sound data from the voice input start time to the voice input end time, and image data from the voice input start time to the voice input end time Utterance state recognition means for recognizing the utterance state of the conversation person, and utterance section judgment means for judging whether or not a period from the speech input start time to the voice input end time is an appropriate utterance section. A sentence data output means for outputting sentence data when it is determined that the period from the voice input start time to the voice input end time is an appropriate utterance section; There.
上記の音声認識装置では、音声入力手段で得られる音データに基づいて、時刻検出手段が対話者の発話区間を検出する。発話区間の検出は、音声入力開始時刻と音声入力終了時刻をそれぞれ検出することによって行われる。上記の音声認識装置では、検出される発話区間に関して、その発話区間における文章データの作成と、その発話区間における対話者の発話状態の認識が行われる。発話区間における文章データの作成は、文章データ作成手段が行う。発話区間における対話者の発話状態の認識は、発話状態認識手段が行う。文章データ作成手段と発話状態認識手段は、互いに独立して動作可能であり、それぞれが並行して処理を実行することができる。上記の音声認識装置では、画像データから認識される発話状態認識手段で認識される対話者の発話状態から、その発話区間が適切なものであるか、すなわち音声入力手段に入力される音声が対話者の発したものであるか否かが評価される。その発話区間が適切なものであると判断された場合に、上記の音声認識装置では、文章データ作成手段によって作成された文章データを文章データ出力手段が出力する。 In the above speech recognition apparatus, the time detection means detects the utterance section of the conversation person based on the sound data obtained by the voice input means. The speech section is detected by detecting the voice input start time and the voice input end time. In the speech recognition apparatus described above, with respect to the detected utterance section, creation of sentence data in the utterance section and recognition of a conversation person's utterance state in the utterance section are performed. Text data creation means creates text data in the utterance section. The utterance state recognition means recognizes the utterance state of the conversation person in the utterance section. The text data creation means and the utterance state recognition means can operate independently of each other, and each can execute processing in parallel. In the speech recognition apparatus described above, whether the utterance section is appropriate from the utterance state of the conversation person recognized by the utterance state recognition means recognized from the image data, that is, the voice input to the voice input means is the dialogue. It is evaluated whether or not it was issued by the person. When it is determined that the utterance section is appropriate, in the speech recognition apparatus, the sentence data output means outputs the sentence data created by the sentence data creation means.
上記の音声認識装置では、入力された音声が対話者の発したものであるか否かを、撮影された画像データに基づいて評価する。これによって、周囲の雑音などの影響を排除して、対話者が発した音声から作成された文章データを出力することができる。 In the above speech recognition apparatus, it is evaluated on the basis of photographed image data whether or not the input speech is generated by a conversation person. Thereby, it is possible to output the text data created from the voice uttered by the conversation person while eliminating the influence of ambient noise and the like.
上記の音声認識装置では、文章データ作成手段における処理(音声を文章として認識する処理)と、発話状態認識手段における処理(画像から発話状態を認識する処理)を並行して行うことができる。このような構成とすることによって、上記の音声認識装置では、発話状態認識手段での認識処理が終了して、認識された発話状態から発話区間が適切であると判断されると、即座に文章データを出力することができる。対話者が話しかけてから文章データを出力するまでの処理を短時間で行うことができる。 In the above speech recognition apparatus, the processing in the text data creation means (processing for recognizing speech as text) and the processing in the speech state recognition means (processing for recognizing the speech state from the image) can be performed in parallel. By adopting such a configuration, in the above speech recognition apparatus, when the recognition processing by the utterance state recognition unit is finished and it is determined that the utterance section is appropriate from the recognized utterance state, the sentence is immediately written. Data can be output. It is possible to perform processing in a short time from when the conversation person speaks until the sentence data is output.
上記の音声認識装置では、発話状態認識手段が、対話者の少なくとも2種類以上の発話状態を認識し、発話区間判断手段が、その少なくとも2種類以上の発話状態から、音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であるか否かを判断することが好ましい。
このような構成とすることによって、発話区間が適切であるか否かを、複数の観点から評価することが可能となる。発話区間の妥当性について正確に評価することが可能となり、誤認識を防止することができる。
In the above speech recognition apparatus, the utterance state recognition means recognizes at least two types of utterance states of the conversation person, and the utterance section determination means performs voice input from the voice input start time from the at least two kinds of utterance states. It is preferable to determine whether or not the period until the end time is an appropriate utterance section.
With such a configuration, it is possible to evaluate whether or not the utterance section is appropriate from a plurality of viewpoints. It is possible to accurately evaluate the validity of the utterance section, and prevent misrecognition.
上記の音声認識装置では、発話状態が、対話者までの距離、対話者の顔の向き、対話者の視線の向き、および対話者の***の動きを含むグループから選択されていることが好ましい。
対話者が話しかけているか否かは種々の観点から判断することが可能であるが、上記のように対話者までの距離や、対話者の顔の向きや、対話者の視線の向きや、対話者の***の動きなどから判断することによって、発話区間の妥当性を正確に評価し、誤認識を防止することができる。
In the above speech recognition apparatus, it is preferable that the utterance state is selected from the group including the distance to the conversation person, the direction of the conversation person's face, the direction of the conversation person's line of sight, and the movement of the conversation person's lips.
It is possible to determine whether or not the talker is speaking from various viewpoints. As described above, the distance to the talker, the face direction of the talker, the direction of the talker's line of sight, and the dialogue By judging from the movement of the person's lips, etc., it is possible to accurately evaluate the validity of the utterance interval and prevent erroneous recognition.
上記の音声認識装置では、文章データ作成手段が、候補となる文章データ群を記憶しておく文章データ群記憶手段と、候補となる文章データ群のそれぞれの文章データについて、音データに基づいて尤度を算出する尤度算出手段を備えており、候補となる文章データ群から最も尤度の高い文章データを特定して、文章データを作成することが好ましい。
上記のような構成とすると、候補となる文章データ群として人間同士の会話で自然に使われている文章を用意しておくことで、音声認識の結果として出力される文章データも人間同士の会話で自然に使われている文章に対応するものとすることができる。
In the speech recognition apparatus described above, the text data creation means is configured based on sound data for text data group storage means for storing candidate text data groups, and for each text data in the candidate text data groups. It is preferable that a likelihood calculating means for calculating the degree is provided, and the sentence data having the highest likelihood is identified from the candidate sentence data group to create the sentence data.
With the above configuration, by preparing sentences that are naturally used in human conversations as candidate sentence data groups, the sentence data output as a result of speech recognition can also be used for human conversations. It can correspond to sentences that are used in nature.
上記の音声認識装置では、文章データ出力手段が、音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であると判断されない場合に、文章データを出力しないことが好ましい。
適切な発話区間であると判断されない場合、音声入力手段で得られた音データは周囲の雑音などに起因するものであり、そのような音データに基づいて作成された文章データは用をなさない。上記の音声認識装置によれば、そのような文章データの出力を防止することができる。
In the above speech recognition apparatus, it is preferable that the text data output means does not output text data when it is not determined that the period from the voice input start time to the voice input end time is an appropriate utterance section.
If it is not determined that the speech segment is appropriate, the sound data obtained by the voice input means is due to ambient noise, etc., and the text data created based on such sound data is useless. . According to the speech recognition apparatus, it is possible to prevent such text data from being output.
本発明は方法として具現化することもできる。本発明の方法は、対話者が話しかける音声を文章として認識する方法である。その方法は、音声を入力して音データに変換する音声入力工程と、対話者を繰り返し撮影して撮影された画像データを時刻と関連付ける撮像工程と、音データに基づいて音声入力開始時刻と音声入力終了時刻を検出する時刻検出手段と、音声入力開始時刻から音声入力終了時刻までの音データから文章データを作成する文章データ作成工程と、音声入力開始時刻から音声入力終了時刻までの画像データから対話者の発話状態を認識する発話状態認識工程と、対話者の発話状態から音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であるか否かを判断する発話区間判断工程と、音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であると判断された場合に、文章データを出力する文章データ出力工程とを備えている。 The present invention can also be embodied as a method. The method of the present invention is a method for recognizing a voice spoken by a conversation person as a sentence. The method includes a voice input step of inputting voice and converting it into sound data, an imaging step of associating image data taken by repeatedly shooting a conversation person with time, a voice input start time and voice based on the sound data From time detection means for detecting an input end time, a sentence data creation step for creating sentence data from sound data from the voice input start time to the voice input end time, and image data from the voice input start time to the voice input end time An utterance state recognition step for recognizing the utterance state of a conversation person, and an utterance section judgment step for judging whether or not the period from the speech input start time to the voice input end time is an appropriate utterance section. A sentence data output step for outputting sentence data when it is determined that the period from the voice input start time to the voice input end time is an appropriate utterance section. To have.
本発明の文章認識装置および文章認識方法によれば、対話者が話しかける自然な文章を短時間で正確に認識することができる。 According to the sentence recognition apparatus and the sentence recognition method of the present invention, a natural sentence spoken by a conversation person can be accurately recognized in a short time.
以下に発明を実施するための最良の形態を列記する。
(形態1)文章データ作成手段は、音データから隠れマルコフ・モデル(HMM;Hidden Markov Model)を用いて音素の時系列としての文章データを作成する。
(形態2)撮影手段の視野の方向を調整する撮影方向調整手段をさらに備えており、対話者が視野の中央付近で撮影されるように撮影手段の視野の方向を調整する。
The best mode for carrying out the invention is listed below.
(Mode 1) Text data creating means creates text data as phoneme time series from sound data using a hidden Markov model (HMM).
(Embodiment 2) A shooting direction adjusting means for adjusting the direction of the visual field of the photographing means is further provided, and the direction of the visual field of the photographing means is adjusted so that the conversation person is photographed near the center of the visual field.
本実施例では、図1に例示する音声認識装置100において、対話者Vが話しかける音声を文章として認識する例を説明する。音声認識装置100は、例えばショールームやイベント会場に配置された案内ロボットであり、案内を求めて話しかけてくる来場者(対話者)Vが話しかける文章を認識する。
In the present embodiment, an example will be described in which the voice spoken by the conversation person V is recognized as a sentence in the
音声認識装置100は、頭部102の前方に並んで配置された右カメラ104と左カメラ106と、胴体部108に対して頭部102を左右に回転するアクチュエータ110と、胴体部108の前方に設けられたマイクロホン112と、右カメラ104、左カメラ106、アクチュエータ110およびマイクロホン112の動作を制御するコントローラ114を備えている。
The
右カメラ104と左カメラ106は、一般的なCCDカメラである。右カメラ104と左カメラ106は、所定の時間間隔で同時に撮影を実施し、撮影された画像データを撮影時刻と関連付けてコントローラ114へ出力する。
The
マイクロホン112は、入力される音声によって膜面に加えられる音圧を検知し、検知した音圧に応じた電圧値をA/D変換して、離散化された電圧値を入力された時刻と関連付けてコントローラ114へ出力する。以下ではマイクロホン112から出力されるデータを音データと呼ぶ。
The
アクチュエータ110は例えば一般的なモータである。アクチュエータ110を駆動することによって、胴体部108に対する頭部102の回転角を調整することができる。胴体部108に対して頭部102を回転することによって、右カメラ104および左カメラ106が撮影する視野を調整することが可能である。
The
図2はコントローラ114の構成を示すブロック図である。コントローラ114は、処理装置(CPU)、記憶装置(光学記憶媒体、磁気記憶媒体、あるいはRAMやROMといった半導体メモリ等)、入出力装置、演算装置などから構成されているコンピュータ装置である。コントローラ114は機能的に、発話状態認識部202、音声解析部208、出力部220を備えている。
FIG. 2 is a block diagram showing the configuration of the
発話状態認識部202は、右カメラ104と左カメラ106から出力される画像データに基づいて、対話者Vの発話尤度を計算する。ここで対話者Vの発話尤度とは、対話者Vが音声認識装置100に話しかけている事象の確からしさを表現する数値であって、0から1までの範囲の数値で表現される。数値が1に近いほど、確からしさの度合いが強い。以下で詳細に説明するように、本実施例の発話状態認識部202は、種々の観点に基づいて発話尤度を計算する。
The speech
発話状態認識部202は、発話尤度の計算を行うために、右カメラ104と左カメラ106から出力される画像データに基づいて、対話者Vの位置と、対話者Vの顔の向きと、対話者Vの視線の向きと、対話者Vの***の動きを認識する。発話状態認識部202は、対話者Vの位置から第1発話尤度を算出し、対話者Vの顔の向きから第2発話尤度を算出し、対話者Vの視線の向きから第3発話尤度を算出し、対話者Vの***の動きから第4発話尤度を算出する。
The utterance
対話者Vの位置は、右カメラ104と左カメラ106のそれぞれの画像データにおいて対話者Vの輪郭を抽出し、輪郭を抽出された対話者Vと音声認識装置100との相対的な位置関係をステレオ視の原理によって算出することで、算出することができる。対話者Vの位置を算出する際には、音声認識装置100における頭部102の胴体部108に対する回転角が考慮される。対話者Vの位置が算出されると、発話状態認識部202は第1発話尤度を算出する。対話者Vが音声認識装置100に近い位置にいる場合は、対話者Vが音声認識装置100に話しかけている尤度が高い。逆に、対話者Vが音声認識装置100から遠い位置にいる場合は、対話者Vが音声認識装置100に話しかけている尤度が低い。本実施例では、発話状態認識部202は対話者Vと音声認識装置100との距離を算出し、算出される距離に応じて第1発話尤度を特定する。発話状態認識部202には、対話者Vと音声認識装置100との距離と、第1発話尤度との対応関係を示す対応表が予め記憶されており、発話状態認識部202は算出される距離と対応表を用いて第1発話尤度を特定する。
As for the position of the conversation person V, the contour of the conversation person V is extracted from the respective image data of the
なお本実施例では、対話者Vの位置が算出されると、発話状態認識部202は右カメラ104、左カメラ106の視野の中央付近で対話者Vが撮影されるように、アクチュエータ110を駆動して頭部102を回転させる。このように対話者Vの位置に応じて頭部102を回転させることで、対話者Vが動きながら話しかけている場合でも、右カメラ104、左カメラ106の視野から対話者Vが外れてしまうことを防ぐことができる。
In this embodiment, when the position of the conversation person V is calculated, the utterance
対話者Vの顔の向きと視線の向きは、右カメラ104と左カメラ106のそれぞれの画像データにおいて特徴点を抽出し、抽出された特徴点の位置をステレオ視の原理によって算出することで、算出された特徴点の位置に基づいて算出することができる。なお特徴点の位置を算出する際には、音声認識装置100における頭部102の胴体部108に対する回転角が考慮される。
The direction of the face of the conversation person V and the direction of the line of sight are obtained by extracting feature points from the respective image data of the
対話者Vの顔の向きを算出する場合、まず画像データにおいて対話者Vの顔における左右の目の目頭、目尻、および口角を特徴点として抽出する。右カメラ104および左カメラ106のそれぞれの画像データ上でのこれらの特徴点の位置から、ステレオ視の原理によって、これら特徴点の実際の位置を算出することができる。これらの特徴点は対話者Vの顔の表面に存在しているから、これらの特徴点の位置から対話者Vの顔の向きを算出することができる。対話者Vの顔の向きが算出されると、発話状態認識部202は第2発話尤度を算出する。対話者Vの顔の向きが、音声認識装置100の方向を向いている場合は、対話者Vが音声認識装置100に話しかけている尤度が高い。逆に、対話者Vの顔の向きが音声認識装置100の方向とは異なる方向を向いている場合は、対話者Vが音声認識装置100に話しかけている尤度が低い。本実施例では、発話状態認識部202は対話者Vの位置に基づいて対話者Vから見た発話状態認識部202の方向を算出し、算出された方向と対話者Vの顔の向きとの偏差角度を算出する。発話状態認識部202は算出された偏差角度に応じて第2発話尤度を特定する。発話状態認識部202には、偏差角度と第2発話尤度との対応関係を示す対応表が予め記憶されており、発話状態認識部202は算出される偏差角度と対応表を用いて第2発話尤度を特定する。
When calculating the face direction of the conversation person V, first, the eyes of the left and right eyes, the corners of the eyes, and the mouth corners of the face of the conversation person V are extracted from the image data as feature points. From the positions of these feature points on the image data of the
対話者Vの視線の向きを算出する場合、まず画像データにおいて対話者Vの顔における左右の目の目頭、目尻および黒目の中心を特徴点として抽出する。これら特徴点の実際の位置は、ステレオ視の原理によって算出することができる。目頭および目尻と、黒目の中心との相対的な位置関係と、対話者Vの顔の向きから、対話者Vの視線の向きを算出することができる。対話者Vの視線の向きが算出されると、発話状態認識部202は第3発話尤度を算出する。対話者Vの視線の向きが、音声認識装置100の方向を向いている場合は、対話者Vが音声認識装置100に話しかけている尤度が高い。逆に、対話者Vの視線の向きが音声認識装置100の方向とは異なる方向を向いている場合は、対話者Vが音声認識装置100に話しかけている尤度が低い。本実施例では、発話状態認識部202は対話者Vの位置に基づいて対話者Vから見た発話状態認識部202の方向を算出し、算出された方向と対話者Vの視線の向きとの偏差角度を算出する。発話状態認識部202は算出された偏差角度に応じて第3発話尤度を特定する。発話状態認識部202には、偏差角度と第3発話尤度との対応関係を示す対応表が予め記憶されており、発話状態認識部202は算出される偏差角度と対応表を用いて第3発話尤度を特定する。
When calculating the direction of the line of sight of the conversation person V, first, in the image data, the centers of the left and right eyes, the corners of the eyes, and the centers of the black eyes in the face of the conversation person V are extracted as feature points. The actual positions of these feature points can be calculated by the principle of stereo vision. The direction of the line of sight of the conversation person V can be calculated from the relative positional relationship between the eyes and the corners of the eyes and the center of the black eye and the direction of the face of the conversation person V. When the direction of the line of sight of the conversation person V is calculated, the utterance
対話者Vの***の動きは、右カメラ104または左カメラ106のいずれかの画像データにおいて抽出される***付近の画像の経時的変化から評価される。
図3は右カメラ104または左カメラ106のいずれかで撮影された画像データから抽出された、対話者Vの***R付近の画像の経時的な変化を示している。図に示す例では、時刻t1において***Rは閉じており、その直後の時刻t2において***Rは閉じており、その直後の時刻t3において***Rは開いており、その直後の時刻t4において***Rは開いており、その直後の時刻t5において***Rは閉じている。この場合、時刻t2における***Rの状態は、その直前の時刻t1における***Rの状態と同一である。従って、発話状態認識部202は時刻t2において***Rは動いていないと評価する。時刻t3における***Rの状態は、その直前の時刻t2における***Rの状態とは異なる。従って、発話状態認識部202は時刻t3において***Rは動いていると評価する。時刻t4における***Rの状態は、その直前の時刻t3における***Rの状態と同一である。従って、発話状態認識部202は時刻t4において***Rは動いていないと評価する。このように、***付近の画像の経時的変化から、***の動きが評価される。対話者Vの***の動きが評価されると、発話状態認識部202は第4発話尤度を算出する。対話者Vが***を動かしている場合は、対話者Vが音声認識装置100に話しかけている尤度が高い。逆に、対話者Vが***を動かしていない場合は、対話者Vが音声認識装置100に話しかけている尤度が低い。本実施例の発話状態認識部202は、対話者Vが***を動かしていると評価される場合に第4発話尤度を1に設定し、対話者Vが***を動かしていないと評価される場合に第4発話尤度をゼロに設定する。
The movement of the lip of the conversation person V is evaluated from the temporal change of the image near the lip extracted in the image data of either the
FIG. 3 shows a change with time of an image in the vicinity of the lip R of the conversation person V extracted from image data photographed by either the
図2の発話状態認識部202は、右カメラ104および左カメラ106が撮影する毎に上記した一連の処理を実行し、右カメラ104および左カメラ106で同一時刻に撮影された画像データに基づいて第1発話尤度、第2発話尤度、第3発話尤度および第4発話尤度をそれぞれ計算する。発話状態認識部202は、計算された第1発話尤度、第2発話尤度、第3発話尤度および第4発話尤度を、尤度計算の基とした画像データが撮影された時刻と関連付けて、出力部220の発話区間判断部204へ出力する。
The utterance
音声解析部208は、マイクロホン112から入力される音データに基づいて、発話の開始時刻の検出と、発話の終了時刻の検出と、発話の開始時刻から発話終了時刻までの文章データを作成する。音声解析部208は、時刻検出部210と、文章データ作成部212と、音素データベース(以下ではDBと記述する)214と、単語DB216と、文章DB218を備えている。
Based on the sound data input from the
時刻検出部210は、マイクロホン112から入力される音データから、発話の開始時刻と発話の終了時刻を検出する。
図4にマイクロホン112から入力される音データ402の波形を示す。時刻検出部210は、発話の開始が検知されていない状況では、音データ402における音圧が所定のしきい値ΔPを超えるか否かを看視している。音データ402の音圧がしきい値ΔPを超えた時点で、時刻検出部210は発話が開始されたと判断する。発話の開始が検知されると、時刻検出部210は発話の開始時刻TSを特定し、文章データ作成部212に発話の開始時刻TSを報知する。
発話の開始が検知された後は、時刻検出部210は、音データ402の波形が単位時間ΔTあたりに音圧ゼロの線404と交差する回数をカウントし、カウントされた回数が所定のしきい値に達するか否かを看視する。単位時間ΔTあたりにカウントされる回数が所定のしきい値に満たなくなった時点で、時刻検出部210は発話が終了したと判断する。発話の終了が検知されると、時刻検出部210は発話の終了時刻TEを特定し、文章データ作成部212に発話の終了時刻TEを報知する。そして時刻検出部210は、発話の開始時刻TSと発話の終了時刻TEを、出力部220の発話区間判断部204へ出力する。
The
FIG. 4 shows a waveform of the
After the start of the utterance is detected, the
文章データ作成部212は、マイクロホン112から入力される音データから、対話者Vが話しかけている文章を文章データとして特定する。文章データ作成部212は、時刻検出部210から発話の開始時刻が報知されると、その発話の開始時刻以降の音データに基づいて、文章データの特定を行う。文章データ作成部212は、発話の開始時刻からその時点までにマイクロホン112から入力された音データに基づいて、文章データをリアルタイムに特定し続ける。文章データ作成部212は、時刻検出部210から発話の終了時刻が報知されると、発話の開始時刻から発話の終了時刻までの音データから特定される文章データを発話区間判断部204へ出力する。
The text
以下では文章データ作成部212が行う文章データの特定について詳細に説明する。本実施例の文章データ作成部212は、入力される音データから隠れマルコフ・モデル(HMM;Hidden Markov Model)を用いて音素の時系列としての文章を特定する。ここで音素とは、人間が言葉を話す際に発せられる音声を構成する要素を意味する。例えば人間が「ぶどう」という言葉を話す際に発せられる音声は、「b」と「u」と「d」と「o:」という4つの音素から構成されている。HMMを用いて音素の時系列を特定する場合、1つの音素は複数の状態から構成されていると想定し、それぞれの状態を次の状態へ遷移する遷移確率と、次の状態へ遷移せずに停留する停留確率によって特徴付ける。以下では音素を構成する状態のことを音素状態と記述する。本実施例では、1つの音素が3つの音素状態から構成されている例を説明する。例えば「b」という音素は、音素状態b1、b2、b3から構成されている。ある音素状態から音素状態b1へ遷移し、音素状態b1から音素状態b2に遷移し、音素状態b2から音素状態b3に遷移することで、音素「b」が実現される。音素状態b1は、次の音素状態である音素状態b2へ遷移することもあるし、音素状態b1のまま停留することもある。音素状態b2、b3についても同様である。本実施例の文章データ作成部212では、音素状態の時系列として音素が特定され、音素の時系列として単語が特定され、単語の時系列として文章が特定される。本実施例の文章データ作成部212では、音素状態の時系列のうちで最も尤度の高いものを特定し、特定された音素状態の時系列に対応する文章を対話者Vが話しかけている文章と判断する。
Hereinafter, specification of text data performed by the text
より具体的には、文章データ作成部212は、マイクロホン112から入力される音データについてフレーム化処理を実施し、各フレームの音データの周波数スペクトルを特定し、特定された周波数スペクトルからそのフレームに対する各音素状態の尤度を評価し、各音素状態の尤度から各音素の尤度を評価し、各音素の尤度から各単語の尤度を評価し、各単語の尤度から各文章の尤度を評価する。尤度評価の対象とする音素は、その音素を構成する音素状態と関連付けて、音素DB214に予め記憶されている。尤度評価の対象とする単語は、その単語を構成する音素と関連付けて、単語DB216に予め記憶されている。尤度評価の対象とする文章データは、その文章を構成する単語と関連付けて、文章DB218に予め記憶されている。文章データ作成部212は、各文章の尤度を評価した後、最も尤度の高い文章を、対話者Vが話しかけている文章と判断する。
More specifically, the text
まず文章データ作成部212は、入力される音データについてフレーム化処理を実施し、各フレームに対応する音データの周波数スペクトルを特定する。図5に音データのフレーム化処理と、各フレームの音データの周波数スペクトルを特定する様子を示す。本実施例では、フレームの長さは20msであり、フレーム間隔は10msである。図5に示すように、音データ402についてフレームF1、F2、F3、・・・が規定される。文章データ作成部212は、フレームF1、F2、F3、・・・のそれぞれにおける音データ402の周波数スペクトルf1、f2、f3、・・・を特定する。周波数スペクトルは、周波数に対する振幅の分布として与えられる。周波数スペクトルの特定は、例えば高速フーリエ変換を用いて行うことができる。
First, the text
ついで文章データ作成部212は、フレーム毎に特定された周波数スペクトルから、そのフレームに対する各音素状態の尤度を評価する。それぞれの音素状態は、その音素状態が実現された場合に、音声として観測される周波数スペクトルについての確率分布を備えている。この確率分布は、実験などによって予め取得しておくことができる。この確率分布と、フレームに対して特定された周波数スペクトルから、そのフレームに対する音素状態の尤度を計算することができる。本実施例では、音素DB214に尤度評価の対象とする各音素の各音素状態について、観測される周波数スペクトルから尤度を算出する関数が予め記憶されている。文章データ作成部212は、周波数スペクトルf1、f2、f3、・・・のそれぞれについて、各音素の各音素状態について尤度を算出する。例えばフレームF1の周波数スペクトルf1から、フレームF1に対する音素「b」の音素状態b1、b2、b3のそれぞれの尤度が算出される。他の音素の音素状態についても同様にして、フレームF1に対する尤度が算出される。他のフレームについても同様にして、そのフレームに対する各音素の各音素状態の尤度が算出される。
Next, the text
各フレームに対する各音素状態の尤度が算出されると、文章データ作成部212は、各音素の尤度の評価と、各単語の尤度の評価を行う。図6を参照しながら、各音素の尤度の評価と、各単語の尤度の評価について説明する。図6では一例として、単語「ぶどう」についての尤度を評価する例を説明する。図6の左側の欄では、単語「ぶどう」が音素「b」、「u」、「d」、「o:」の系列として構成されており、音素「b」が音素状態b1、b2、b3の系列として構成されており、音素「u」が音素状態u1、u2、u3の系列として構成されており、音素「d」が音素状態d1、d2、d3の系列として構成されており、音素「o:」が音素状態o:1、o:2、o:3の系列として構成されていることが示されている。図6では、フレームF1において音素状態b1が実現している状態を点602で表現し、その後のフレームF2、F3、・・・Fnにおいて、音素状態b1、b2、b3、・・・が実現している状態を点604、606、608、610、612・・・で表現している。また、それぞれの点602、604、606、・・・からは、次のフレームにおいて次の音素状態へ遷移する経路と、次の音素状態へ遷移することなく停留する経路が伸びている。例えばフレームF1において音素状態b1が実現している状態を示す点602からは、次のフレームF2において次の音素状態b2へ遷移する枝614と、次の音素状態b2へ遷移することなく音素状態b1で停留する枝616が伸びている。枝614は、フレームF2において音素状態b2が実現している状態を示す点604まで伸びている。枝616は、フレームF2において音素状態b1が実現している状態を示す点606まで伸びている。
When the likelihood of each phoneme state for each frame is calculated, the text
図6のそれぞれの点602、604、606、・・・の尤度は、各フレームに対する各音素状態の尤度として算出することができる。それぞれの枝614、616、・・・の尤度は、各音素状態の遷移確率と停留確率から算出することができる。例えば枝614の尤度は、音素状態b1から音素状態b2への遷移確率から算出することができる。枝616の尤度は、音素状態b1の停留確率から算出することができる。単語を構成する各音素の各音素状態の遷移確率と停留確率は、実験などによって予め取得されており、音素DB214と単語DB216に記憶されている。
The likelihood of each
文章データ作成部212は、各フレームに対する各音素状態の尤度して算出される点602、604、606、・・・の尤度と、音素DB214と単語DB216に記憶されている枝614、616、・・・の尤度に基づいて、その時点で取り得る全ての経路について尤度を計算し、最も尤度の高い経路を特定する。ここで経路についての尤度とは、その経路に沿って事象が進行した尤度のことをいう。経路に沿って事象が進行した尤度は、その経路に含まれる点の尤度と枝の尤度から算出することができる。文章データ作成部212は、その単語において最も尤度の高い経路が特定されると、その経路に沿って事象が進行した尤度を、その単語の尤度として特定する。
図6に示す例では、フレームF1、F2、・・・Fnまで処理が進行している時点において、単語「ぶどう」において最も尤度の高い経路として経路618が特定されている。このような場合には、経路618に沿って事象が進行した尤度が、単語「ぶどう」の尤度として特定される。経路618に沿って事象が進行した尤度は、経路618に含まれる点602、604、610、・・・の尤度と、枝614、・・・の尤度から算出される。
The sentence
In the example shown in FIG. 6, the
図6では単語「ぶどう」についての尤度を評価する例を説明したが、文章データ作成部212は、上記した尤度の評価を、単語DB216に記憶されている全ての単語について実施する。これによって、単語DB216に記憶されている全ての単語についての尤度が評価される。
Although the example of evaluating the likelihood of the word “grape” has been described with reference to FIG. 6, the sentence
各単語についての尤度が評価されると、文章データ作成部212は各文章データの尤度を評価する。文章データ作成部212は、文章DB218に記憶されている全ての文章データについて、尤度の評価を行う。文章DB218には、尤度の評価の対象とする文章データと、その文章を構成する単語の系列が、関連付けて記憶されている。
図8に文章の尤度を評価する様子を示している。図8に示す例では、「プリウス」(登録商標)―「の」―「燃費」―「は」―「いくら」―「ですか」という単語の系列が1つの文章を構成している。また、「プリウス」―「の」―「燃費」―「を」―「教えて」―「下さい」という単語の系列も1つの文章を構成している。これらの文章と、その文章を構成する単語の系列は、文章DB218に予め記憶されている。
When the likelihood for each word is evaluated, the sentence
FIG. 8 shows how the likelihood of a sentence is evaluated. In the example shown in FIG. 8, a series of words “Prius” (registered trademark) — “no” — “fuel consumption” — “ha” — “how much” — “what” constitutes one sentence. In addition, a series of words “Prius”-“No”-“Fuel consumption”-“O”-“Teach me”-“Please” make up one sentence. These sentences and a series of words constituting the sentences are stored in the sentence DB 218 in advance.
文章データ作成部212は、文章の尤度を、その文章に含まれる単語の尤度と、その文章における単語から単語への接続の尤度から算出する。単語から単語への接続の尤度は、図7に示す単語接続表700を用いて特定される。単語接続表700は、ある単語(図では前単語と記述している)から次に続く単語(図では後単語と記述している)への接続が出現する確率(図では出現率と記述している)を記述している。このような単語から単語への接続が出現する確率は、実験などによって取得することができる。単語接続表700は文章DB218に予め記憶されており、文章データ作成部212は必要に応じて文章DB218から単語接続表700を読み込む。文章データ作成部212は、文章DB218に記憶されているそれぞれの文章データについて尤度を計算する。文章データ作成部212は、最も尤度の高い文章データを、対話者Vが話しかけた文章として特定する。
The sentence
文章データ作成部212は、上記したフレーム化処理から文章データの特定までの一連の処理を、時刻検出部210から発話の終了時刻が報知されるまで繰り返し実施する。時刻検出部210から発話の終了時刻が報知されると、文章データ作成部212は報知された発話の終了時刻までの音データから特定された文章データを、出力部220の発話区間判断部204へ出力する。
The text
出力部220は、発話区間判断部204と文章データ出力部206を備えている。
発話区間判断部204は、画像認識手段202から入力される第1発話尤度、第2発話尤度、第3発話尤度および第4発話尤度の時系列と、時刻検出部210から入力される発話の開始時刻と終了時刻に基づいて、発話区間の妥当性を判定する。
The
The utterance
発話区間の妥当性は、種々の手法によって判定することができる。例えば、誤認識を極力起こさないようにしたい場合には、第1発話尤度、第2発話尤度、第3発話尤度および第4発話尤度をそれぞれ所定のしきい値(例えば0.9)と比較し、第1発話尤度、第2発話尤度、第3発話尤度および第4発話尤度が全て所定のしきい値を超える場合にのみ、発話区間が妥当であると判定する。
あるいは、第1発話尤度、第2発話尤度、第3発話尤度および第4発話尤度のそれぞれに重み係数を掛け合わせたものの総和を総合発話尤度として算出し、算出される総合発話尤度が所定のしきい値(例えば0.9)を超える場合にのみ、発話区間が妥当であると判定してもよい。
あるいは、第1発話尤度、第2発話尤度、第3発話尤度および第4発話尤度を時間に関して微分した値や、時間に関して積分した値に基づいて、発話区間の妥当性を判定してもよい。すなわち、第1発話尤度を f1(t)、第2発話尤度を f2(t)、第3発話尤度を f3(t)、第4発話尤度を f4(t) としたときに、以下の式で算出される値 L が所定のしきい値を超えるか否かで、発話区間の妥当性を判定してもよい。ここで、ak,l(k=1〜4, l=1〜3) は、任意に与えることができる重み係数である。
The validity of the utterance interval can be determined by various methods. For example, when it is desired to prevent erroneous recognition as much as possible, the first utterance likelihood, the second utterance likelihood, the third utterance likelihood, and the fourth utterance likelihood are set to predetermined threshold values (for example, 0.9 ), The first utterance likelihood, the second utterance likelihood, the third utterance likelihood, and the fourth utterance likelihood are all determined to be valid only when they exceed a predetermined threshold. .
Alternatively, the total utterance is calculated by calculating the sum of the first utterance likelihood, the second utterance likelihood, the third utterance likelihood, and the fourth utterance likelihood multiplied by the weighting coefficient as the total utterance likelihood. Only when the likelihood exceeds a predetermined threshold (for example, 0.9), it may be determined that the utterance section is valid.
Alternatively, the validity of the utterance interval is determined based on a value obtained by differentiating the first utterance likelihood, the second utterance likelihood, the third utterance likelihood, and the fourth utterance likelihood with respect to time or an integrated value with respect to time. May be. That is, the first utterance likelihood is f 1 (t), the second utterance likelihood is f 2 (t), the third utterance likelihood is f 3 (t), and the fourth utterance likelihood is f 4 (t). The validity of the utterance interval may be determined based on whether or not the value L calculated by the following formula exceeds a predetermined threshold. Here, a k, l (k = 1 to 4, l = 1 to 3) is a weighting factor that can be arbitrarily given.
発話区間が妥当であると判定されると、発話区間判断部204は文章データ作成部212から入力された文章データを、対話者Vから話しかけられた文章として文章データ出力部206へ出力する。
If it is determined that the utterance interval is valid, the utterance
発話区間が妥当でないと判断されると、発話区間判断部204は文章データ出力部206へ何も出力しない。
If it is determined that the utterance interval is not valid, the utterance
文章データ出力部206は、発話区間判断部204から入力される文章データを出力する。文章データ出力部206から出力される文章データは、種々の用途に用いることができる。例えば、対話者Vが話しかける文章に対する適切な回答の内容を、予めデータベース等に記憶しておき、認識された文章データに応じて回答を行う応答装置を別途設けて置き、その応答装置に文章データ出力部206から出力される文章データを入力することで、対話者Vに対して適切な対応をすることができる。
The sentence
図9は本実施例のコントローラ114が行う処理を説明するフローチャートを示している。コントローラ114には、マイクロホン112から音データが逐次入力されている。またコントローラ114には、所定の時間間隔で撮影された画像データが、右カメラ104、左カメラ106から逐次入力されている。
コントローラ114の音声解析部208と発話状態認識部202は、互いに並行して処理を実行する。音声解析部208は、ステップS902からステップS916に示す処理を実施し、発話状態認識部202はステップS918からステップS928に示す処理を実施する。
FIG. 9 shows a flowchart for explaining processing performed by the
The
音声解析部208の処理について説明する。
ステップS902では、時刻検出部210が音データから発話の開始を検出するまで待機する。発話の開始が検出されると、音声解析部208の処理はステップS904へ進む。
ステップS904では、文章データ作成部212が音データのフレーム化処理を実施する。
ステップS906では、文章データ作成部212が各フレームの音データについて周波数スペクトルを特定する。
ステップS908では、文章データ作成部212が特定された周波数スペクトルから各音素状態の尤度を算出する。
ステップS910では、文章データ作成部212が各単語の尤度を算出する。
ステップS912では、文章データ作成部212が各文章の尤度を算出する。
ステップS914では、時刻検出部210が音データから発話の終了を検出したか否かを判断する。発話の終了が検出された場合(ステップS914でYESの場合)、音声解析部208の処理はステップS916へ進む。発話の終了が検出されない場合(ステップS914でNOの場合)、音声解析部208の処理はステップS904へ移行し、ステップS914までの処理を繰り返し実施する。
ステップS916では、時刻検出部210が発話の開始時刻と発話の終了時刻を発話区間判断部204へ出力し、文章データ作成部212が特定された文章データを発話区間判断部204へ出力する。音声解析部208は処理を終了し、出力部220がステップS932以降の処理を実施する。
The processing of the
In step S902, the process waits until the
In step S904, the text
In step S906, the text
In step S908, the sentence
In step S910, the sentence
In step S912, the sentence
In step S914, it is determined whether or not the
In step S916, the
発話状態認識部202の処理について説明する。
ステップS918では、右カメラ104、左カメラ106から新たに撮影された画像データが入力されるまで待機する。
ステップS920では、撮影された画像データから、対話者Vの特徴点を検出する。
ステップS922からステップS928では、第1発話尤度、第2発話尤度、第3発話尤度および第4発話尤度をそれぞれ算出する。
ステップS930では、算出された第1発話尤度、第2発話尤度、第3発話尤度および第4発話尤度を、画像データが撮影された時刻と関連付けて発話区間判断部204へ出力する。
その後、発話状態認識部202の処理はステップS918へ移行し、ステップS930までの処理を繰り返し実施する。
Processing of the utterance
In step S918, the process waits until newly captured image data is input from the
In step S920, the feature point of the conversation person V is detected from the captured image data.
In steps S922 to S928, a first utterance likelihood, a second utterance likelihood, a third utterance likelihood, and a fourth utterance likelihood are calculated.
In step S930, the calculated first utterance likelihood, second utterance likelihood, third utterance likelihood, and fourth utterance likelihood are output to the utterance
Thereafter, the processing of the utterance
出力部220の処理について説明する。
ステップS932では、発話状態認識部202から入力された第1発話尤度、第2発話尤度、第3発話尤度および第4発話尤度の時系列と、時刻検出部210から入力された発話の開始時刻と終了時刻に基づいて、発話区間の妥当性を判定する。発話区間が妥当であると判定された場合(ステップS932でYESの場合)、処理はステップS934へ進み、文章データ作成部212から入力された文章データを文章データ出力部206で出力し、処理を終了する。発話区間が妥当でないと判定された場合(ステップS932でNOの場合)、文章データを出力することなく処理を終了する。
Processing of the
In step S932, the time series of the first utterance likelihood, the second utterance likelihood, the third utterance likelihood, and the fourth utterance likelihood input from the utterance
本実施例の音声認識装置100では、発話区間における音声を文章として認識する文章認識処理と、発話区間の妥当性を判定するための画像認識処理を並行して実施している。これによって、発話区間の妥当性が確認されると、即座に文章認識結果を得ることができる。対話者が話しかけてから文章データが出力されるまでの処理時間を短いものとすることができる。
In the
本実施例の音声認識装置100では、発話区間の妥当性を評価する際に、異なる観点から算出される第1発話尤度、第2発話尤度、第3発話尤度および第4発話尤度を用いて評価がなされる。これによって、発話区間の妥当性について正確に評価することが可能となり、文章の誤認識を防止することができる。
In the
本実施例の音声認識装置100では、発話区間における文章を認識する際に、文章としての尤度を評価して、最も尤度の高い文章を特定する。これによって、単語を誤認識することによって意味不明の文章が認識される事態を防ぐことができる。
In the
以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、特許請求の範囲を限定するものではない。特許請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。
また、本明細書または図面に説明した技術要素は、単独であるいは各種の組み合わせによって技術的有用性を発揮するものであり、出願時請求項記載の組み合わせに限定されるものではない。また、本明細書または図面に例示した技術は複数目的を同時に達成するものであり、そのうちの一つの目的を達成すること自体で技術的有用性を持つものである。
Specific examples of the present invention have been described in detail above, but these are merely examples and do not limit the scope of the claims. The technology described in the claims includes various modifications and changes of the specific examples illustrated above.
In addition, the technical elements described in the present specification or the drawings exhibit technical usefulness alone or in various combinations, and are not limited to the combinations described in the claims at the time of filing. In addition, the technology illustrated in the present specification or the drawings achieves a plurality of objects at the same time, and has technical utility by achieving one of the objects.
100:音声認識装置
102:頭部
104:右カメラ
106:左カメラ
108:胴体部
110:アクチュエータ
112:マイクロホン
114:コントローラ
202:発話状態認識部
204:発話区間判断部
206:文章データ出力部
208:音声解析部
210:時刻検出部
212:文章データ作成部
214:音素データベース
216:単語データベース
218:文章データベース
220:出力部
402:音データ
404:音圧ゼロの線
602、604、606、608、610、612:点
614、616:枝
618:経路
700:単語接続表
100: voice recognition device 102: head 104: right camera 106: left camera 108: body 110: actuator 112: microphone 114: controller 202: utterance state recognition unit 204: utterance section determination unit 206: sentence data output unit 208: Speech analysis unit 210: Time detection unit 212: Text data creation unit 214: Phoneme database 216: Word database 218: Text database 220: Output unit 402: Sound data 404: Sound pressure zero
Claims (6)
音声を入力し、音データに変換する音声入力手段と、
対話者を繰り返し撮影し、撮影された画像データを時刻と関連付ける撮像手段と、
音データに基づいて音声入力開始時刻と音声入力終了時刻を検出する時刻検出手段と、
音声入力開始時刻から音声入力終了時刻までの音データから、文章データを作成する文章データ作成手段と、
音声入力開始時刻から音声入力終了時刻までの画像データから、対話者の発話状態を認識する発話状態認識手段と、
対話者の発話状態から、音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であるか否かを判断する発話区間判断手段と、
音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であると判断された場合に、文章データを出力する文章データ出力手段と
を備える音声認識装置。 A device that recognizes the speech spoken by the interlocutor as a sentence,
Voice input means for inputting voice and converting it into sound data;
Image capturing means for repeatedly capturing a conversation person and associating the captured image data with time;
Time detection means for detecting a voice input start time and a voice input end time based on the sound data;
Sentence data creating means for creating sentence data from sound data from the voice input start time to the voice input end time;
Utterance state recognition means for recognizing the utterance state of the conversation person from the image data from the voice input start time to the voice input end time;
An utterance section determination means for determining whether or not a period from the voice input start time to the voice input end time is an appropriate utterance section from the utterance state of the conversation person;
A speech recognition apparatus comprising: sentence data output means for outputting sentence data when it is determined that a period from a voice input start time to a voice input end time is an appropriate utterance section.
前記発話区間判断手段は、前記少なくとも2種類以上の発話状態から、音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であるか否かを判断することを特徴とする請求項1の音声認識装置。 The utterance state recognition means recognizes at least two types of utterance states of a conversation person,
2. The speech segment determining means determines whether or not a period from a voice input start time to a voice input end time is an appropriate speech segment from the at least two types of speech states. Voice recognition device.
候補となる文章データ群を記憶しておく文章データ群記憶手段と、
候補となる文章データ群のそれぞれの文章データについて、音データに基づいて尤度を算出する尤度算出手段を備えており、候補となる文章データ群から最も尤度の高い文章データを特定して、文章データを作成することを特徴とする請求項1の音声認識装置。 The sentence data creating means includes
Text data group storage means for storing candidate text data groups;
For each sentence data in the candidate sentence data group, it is provided with likelihood calculating means for calculating the likelihood based on the sound data, and the sentence data group with the highest likelihood is identified from the candidate sentence data group. The speech recognition apparatus according to claim 1, wherein the sentence data is created.
音声を入力し、音データに変換する音声入力工程と、
対話者を繰り返し撮影し、撮影された画像データを時刻と関連付ける撮像工程と、
音データに基づいて音声入力開始時刻と音声入力終了時刻を検出する時刻検出手段と、
音声入力開始時刻から音声入力終了時刻までの音データから、文章データを作成する文章データ作成工程と、
音声入力開始時刻から音声入力終了時刻までの画像データから、対話者の発話状態を認識する発話状態認識工程と、
対話者の発話状態から、音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であるか否かを判断する発話区間判断工程と、
音声入力開始時刻から音声入力終了時刻までの期間が適切な発話区間であると判断された場合に、文章データを出力する文章データ出力工程と
を備える音声認識方法。 A method of recognizing speech spoken by a dialogue person as a sentence,
A voice input process for inputting voice and converting it into sound data;
An imaging process of repeatedly capturing a conversation person and associating the captured image data with the time;
Time detecting means for detecting a voice input start time and a voice input end time based on the sound data;
A sentence data creation step for creating sentence data from sound data from a voice input start time to a voice input end time;
An utterance state recognition process for recognizing the utterance state of a conversation person from image data from the voice input start time to the voice input end time;
An utterance interval determination step for determining whether or not a period from the voice input start time to the voice input end time is an appropriate utterance interval from the utterance state of the conversation person;
A speech recognition method comprising: a sentence data output step of outputting sentence data when it is determined that a period from a voice input start time to a voice input end time is an appropriate utterance section.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006020162A JP2007199552A (en) | 2006-01-30 | 2006-01-30 | Device and method for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006020162A JP2007199552A (en) | 2006-01-30 | 2006-01-30 | Device and method for speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007199552A true JP2007199552A (en) | 2007-08-09 |
Family
ID=38454212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006020162A Pending JP2007199552A (en) | 2006-01-30 | 2006-01-30 | Device and method for speech recognition |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007199552A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011053690A (en) * | 2009-09-03 | 2011-03-17 | Honda Motor Co Ltd | Command recognition device, command recognition method, and command recognition robot |
KR101170612B1 (en) | 2008-03-11 | 2012-08-03 | 에스케이 텔레콤주식회사 | Method and system for providing speech recognition by using user images |
JP2014122978A (en) * | 2012-12-20 | 2014-07-03 | Casio Comput Co Ltd | Imaging device, voice recognition method, and program |
JP2016033530A (en) * | 2014-07-30 | 2016-03-10 | 株式会社東芝 | Utterance section detection device, voice processing system, utterance section detection method and program |
CN107004405A (en) * | 2014-12-18 | 2017-08-01 | 三菱电机株式会社 | Speech recognition equipment and audio recognition method |
JP2017144521A (en) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | Information processing device, information processing method and program |
WO2018056169A1 (en) * | 2016-09-21 | 2018-03-29 | 日本電気株式会社 | Interactive device, processing method, and program |
WO2020003851A1 (en) * | 2018-06-27 | 2020-01-02 | ソニー株式会社 | Audio processing device, audio processing method, and recording medium |
WO2020003785A1 (en) * | 2018-06-25 | 2020-01-02 | ソニー株式会社 | Audio processing device, audio processing method, and recording medium |
US10910001B2 (en) | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
-
2006
- 2006-01-30 JP JP2006020162A patent/JP2007199552A/en active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101170612B1 (en) | 2008-03-11 | 2012-08-03 | 에스케이 텔레콤주식회사 | Method and system for providing speech recognition by using user images |
JP2011053690A (en) * | 2009-09-03 | 2011-03-17 | Honda Motor Co Ltd | Command recognition device, command recognition method, and command recognition robot |
JP2014122978A (en) * | 2012-12-20 | 2014-07-03 | Casio Comput Co Ltd | Imaging device, voice recognition method, and program |
JP2016033530A (en) * | 2014-07-30 | 2016-03-10 | 株式会社東芝 | Utterance section detection device, voice processing system, utterance section detection method and program |
US10276191B2 (en) | 2014-07-30 | 2019-04-30 | Kabushiki Kaisha Toshiba | Speech section detection device, voice processing system, speech section detection method, and computer program product |
CN107004405A (en) * | 2014-12-18 | 2017-08-01 | 三菱电机株式会社 | Speech recognition equipment and audio recognition method |
WO2017141530A1 (en) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | Information processing device, information processing method and program |
JP2017144521A (en) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | Information processing device, information processing method and program |
US11237794B2 (en) | 2016-02-18 | 2022-02-01 | Sony Corporation | Information processing device and information processing method |
WO2018056169A1 (en) * | 2016-09-21 | 2018-03-29 | 日本電気株式会社 | Interactive device, processing method, and program |
US10910001B2 (en) | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
WO2020003785A1 (en) * | 2018-06-25 | 2020-01-02 | ソニー株式会社 | Audio processing device, audio processing method, and recording medium |
WO2020003851A1 (en) * | 2018-06-27 | 2020-01-02 | ソニー株式会社 | Audio processing device, audio processing method, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007199552A (en) | Device and method for speech recognition | |
Perez-Gaspar et al. | Multimodal emotion recognition with evolutionary computation for human-robot interaction | |
US6594629B1 (en) | Methods and apparatus for audio-visual speech detection and recognition | |
US20180158450A1 (en) | Speech recognition apparatus and speech recognition method | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
JP2010256391A (en) | Voice information processing device | |
WO2020073403A1 (en) | Silent voice input identification method, computing apparatus, and computer-readable medium | |
JP2010128015A (en) | Device and program for determining erroneous recognition in speech recognition | |
Yeh et al. | A dialogical emotion decoder for speech emotion recognition in spoken dialog | |
Chao et al. | Speaker-targeted audio-visual models for speech recognition in cocktail-party environments | |
Fujie et al. | Back-channel feedback generation using linguistic and nonlinguistic information and its application to spoken dialogue system. | |
JP2019197182A (en) | Voice interaction system, voice interaction method and program | |
JP2008052178A (en) | Voice recognition device and voice recognition method | |
JP5257680B2 (en) | Voice recognition device | |
Gomez et al. | Mouth gesture and voice command based robot command interface | |
Georgakis et al. | Discrimination between native and non-native speech using visual features only | |
JP6916130B2 (en) | Speaker estimation method and speaker estimation device | |
Chiţu¹ et al. | Automatic visual speech recognition | |
Chitu et al. | Automatic lip reading in the Dutch language using active appearance models on high speed recordings | |
Karpov et al. | A framework for recording audio-visual speech corpora with a microphone and a high-speed camera | |
Mannem et al. | Acoustic and Articulatory Feature Based Speech Rate Estimation Using a Convolutional Dense Neural Network. | |
JP2020091559A (en) | Expression recognition device, expression recognition method, and program | |
CN114466179A (en) | Method and device for measuring synchronism of voice and image | |
KR101430342B1 (en) | Speech recognition method using estimation of speaker distance and voice recognition apparatus using the same | |
Anguera et al. | Evolutive speaker segmentation using a repository system |