JP4518094B2 - Change information recognition apparatus and change information recognition method - Google Patents

Change information recognition apparatus and change information recognition method Download PDF

Info

Publication number
JP4518094B2
JP4518094B2 JP2007085204A JP2007085204A JP4518094B2 JP 4518094 B2 JP4518094 B2 JP 4518094B2 JP 2007085204 A JP2007085204 A JP 2007085204A JP 2007085204 A JP2007085204 A JP 2007085204A JP 4518094 B2 JP4518094 B2 JP 4518094B2
Authority
JP
Japan
Prior art keywords
change information
change
information
basic
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007085204A
Other languages
Japanese (ja)
Other versions
JP2007220133A (en
Inventor
竜士 船山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2007085204A priority Critical patent/JP4518094B2/en
Publication of JP2007220133A publication Critical patent/JP2007220133A/en
Application granted granted Critical
Publication of JP4518094B2 publication Critical patent/JP4518094B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、口の動きや口から発せられる音声、または人の動作など、認識対象物の変化状態を認識する変化情報認識装置および変化情報認識方法に関する。   The present invention relates to a change information recognition apparatus and a change information recognition method for recognizing a change state of an object to be recognized, such as a mouth movement, a voice emitted from the mouth, or a human action.

画像処理などの分野においては、撮像した画像から、人が話す声や人の動作など、状態が変化するものの変化を認識することが行われる。このような状態の変化を認識するものとして、たとえば特開平10−274516号公報に開示された顔の方向検出装置がある。この顔の方向検出装置は、カメラで得られる画像から顔領域と、目、口などの特徴領域を抽出し、顔領域の中心位置などから顔の方向を検出するものである。
特開平10−274516号公報
In the field of image processing and the like, it is performed to recognize a change in a state that changes, such as a voice spoken by a person or a human action, from a captured image. As a device for recognizing such a change in state, for example, there is a face direction detecting device disclosed in Japanese Patent Laid-Open No. 10-274516. This face direction detection device extracts a face area and feature areas such as eyes and a mouth from an image obtained by a camera, and detects the face direction from the center position of the face area.
JP-A-10-274516

しかし、上記特許文献1に開示された顔の方向検出装置では、口の位置などを抽出してから顔の方向を検出するものの、口の動きなどまでは検出することができないものであった。そのため、人の言葉などを認識することはできないという問題があった。   However, the face direction detection device disclosed in Patent Document 1 detects the face direction after extracting the mouth position and the like, but cannot detect the movement of the mouth. Therefore, there was a problem that it was not possible to recognize human language.

そこで、本発明の課題は、認識対象物の変化状態を正確に認識して、たとえば人の話す言葉などを認識することができるようにした変化情報認識装置および変化情報認識方法を提供することにある。   Accordingly, an object of the present invention is to provide a change information recognition device and a change information recognition method that can accurately recognize a change state of a recognition object and recognize a word spoken by a person, for example. is there.

上記課題を解決した本発明に係る変化情報認識装置は、認識対象物を撮像して得られる動画における認識対象物の変化情報を取得する変化情報取得手段と、認識対象物の変化情報に対応付けられた基本変化情報をあらかじめ記憶する基本変化情報記憶手段と、変化情報取得手段で取得された認識対象物の変化情報と、あらかじめ記憶された基本変化情報とを比較して、変化情報取得手段で取得された認識対象物の変化情報に対応する基本変化情報を取得する変化状態比較手段と、を備え、変化状態比較手段は、変化情報取得手段で取得された第1の変化情報に対応する第1の基本変化情報と、第1の変化情報の後に変化情報取得手段で取得された第2の変化情報に対応する第2の基本変化情報とを比較し、第1の変化情報第2の変化情報とが、動画における画像中の同じ位置で行われ、かつ第1の基本変化情報の終了と、第2の基本変化情報の開始とが一致する場合に、第1の変化情報と第2の変化情報との繋ぎ目を認識対象物の変化状態として検出するものである。 The object change information recognition apparatus according to the present invention that solves includes change information acquiring means for acquiring the change information of the recognition object in the moving obtained by imaging the object to be recognized, the correspondence to the change information of the recognition object basic change information storing means for previously storing a basic change information that is, the change information of the recognition object acquired by the change information acquiring unit, by comparing the basic change information stored in advance, the change information acquiring means Change state comparing means for acquiring basic change information corresponding to the acquired change information of the recognition object , the change state comparing means corresponding to the first change information acquired by the change information acquiring means. The first basic change information is compared with the second basic change information corresponding to the second change information acquired by the change information acquisition means after the first change information, and the first change information and the second change information are compared . change information and , Carried out at the same position in the image in the video, and ends with the first basic change information, when the start of the second basic change information matches, the first change information and the second change information Are detected as a change state of the recognition object.

本発明に係る変化情報認識装置においては、変化情報取得手段で取得された変化情報と、あらかじめ記憶された基本変化情報とを比較することにより、認識対象物を認識する。たとえば、認識対象物が人の口など、一定の相関関係を持つ動きをすることが多いものである場合には、この動きを基本変化情報としてあらかじめ記憶しておき、取得した変化情報と比較することにより、確実に認識対象物を認識することができる。   In the change information recognition apparatus according to the present invention, the recognition object is recognized by comparing the change information acquired by the change information acquisition means with the basic change information stored in advance. For example, when the recognition target object often moves with a certain correlation, such as a human mouth, this movement is stored in advance as basic change information and compared with the acquired change information. Thus, the recognition object can be reliably recognized.

ここで、基本変化情報は、認識対象物の変化に応じて対応付けされた変化情報単位に分割した情報として、基本変化情報記憶手段に記憶されているのが好適である。   Here, it is preferable that the basic change information is stored in the basic change information storage unit as information divided into change information units associated in accordance with changes in the recognition object.

このように、基本変化情報を変化情報単位に分割した情報として記憶しておくことにより、さらに高精度で認識対象物を認識することができる。   Thus, by storing the basic change information as information divided into change information units, the recognition target can be recognized with higher accuracy.

また、変化情報取得手段は、認識対象物を撮像する撮像手段であり、変化情報は、発話に伴う口の画像の変化である態様とすることができる。   Further, the change information acquisition means is an image pickup means for picking up an object to be recognized, and the change information can be an aspect that is a change in the image of the mouth accompanying the utterance.

このように、変化情報が発話に伴う口の画像の変化であることにより、人の発話の内容を精度よく認識することができる。   As described above, since the change information is the change of the mouth image accompanying the utterance, the content of the person's utterance can be accurately recognized.

さらに、変化情報取得手段は、認識対象物が発生する音を取得する集音手段であり、変化情報が、認識対象物が発生する音の周波数の変化である態様とすることもできる。   Furthermore, the change information acquisition unit is a sound collection unit that acquires a sound generated by the recognition target, and the change information may be a change in the frequency of the sound generated by the recognition target.

このように、集音手段、たとえばマイクから取得した音の周波数の変化を変化情報とすることにより、認識対象物が発声する音、たとえば人の発話の内容を高精度で認識することができる。   Thus, by using the change in the frequency of the sound acquired from the sound collecting means, for example, the microphone as the change information, the sound uttered by the recognition target object, for example, the content of the human speech can be recognized with high accuracy.

また、変化情報取得手段は、認識対象物を撮像する撮像手段であり、変化情報が、認識対象物の動きによる画像の変化である態様とすることもできる。   The change information acquisition unit is an imaging unit that captures an image of the recognition target, and the change information may be an image change caused by the movement of the recognition target.

さらに、変化情報取得手段は、認識対象物を撮像する撮像手段であり、変化情報が、認識対象物の回転による画像の変化である態様とすることもできる。   Furthermore, the change information acquisition means is an image pickup means for picking up an object to be recognized, and the change information may be an image change due to rotation of the recognition object.

このように、変化情報が認識対象物の動きや回転による画像の変化であっても、それらの変化を高精度で認識することができる。   In this way, even if the change information is a change in the image due to the movement or rotation of the recognition target object, the change can be recognized with high accuracy.

他方、上記課題を解決した本発明に係る変化情報認識方法は、変化情報取得手段が、認識対象物を撮像して得られる動画における認識対象物の変化情報を取得する変化情報取得工程と、基本変化情報記憶手段が、認識対象物の変化情報に対応付けられた基本変化情報をあらかじめ記憶する基本変化情報予備記憶工程と、変化状態比較手段が、変化情報取得手段で取得された認識対象物の変化情報と、あらかじめ記憶された基本変化情報とを比較して、変化情報取得手段で取得された認識対象物の変化情報に対応する基本変化情報を取得する変化状態比較工程と、変化状態比較手段が、変化情報取得手段で取得された第1の変化情報に対応する第1の基本変化情報と、第1の変化情報の後に変化情報取得手段で取得された第2の変化情報に対応する第2の基本変化情報とを比較し、第1の変化情報と第2の変化情報とが、動画における画像中の同じ位置で行われ、かつ第1の基本変化情報の終了と、第2の基本変化情報の開始とが一致する場合に、第1の変化情報と第2の変化情報との繋ぎ目を認識対象物の変化状態として検出することを特徴とする。 On the other hand, the change information recognition method according to the present invention which has solved the above problems, the change information acquiring means, the change information acquiring step of acquiring change information of the recognition target object in the moving obtained by imaging the object to be recognized, the basic The change information storage means stores the basic change information associated with the change information of the recognition object beforehand, and the basic change information preliminary storage step, and the change state comparison means stores the recognition object acquired by the change information acquisition means. A change state comparison step for comparing the change information with the basic change information stored in advance and obtaining basic change information corresponding to the change information of the recognition object acquired by the change information acquisition means; and a change state comparison means but the first basic change information corresponding to the first change information acquired by the change information acquiring unit, corresponding to the second change information acquired by the change information acquiring means after the first change information Comparing the second basic change information that the first change information and the second change information is carried out at the same position in the image in the video, and ends with the first basic change information, second When the start of the basic change information coincides, the connection between the first change information and the second change information is detected as a change state of the recognition object.

また、基本変化情報記憶手段が、基本変化予備記憶工程で、基本変化情報を、認識対象物の変化に応じて対応付けされた変化情報単位に分割した情報として、あらかじめ記憶しておく態様とすることができる。   Further, the basic change information storage means stores the basic change information in advance in the basic change preliminary storage step as information obtained by dividing the basic change information into change information units associated with changes in the recognition object. be able to.

本発明によれば、認識対象物の変化状態を正確に認識して、たとえば人の話す言葉などを認識することができるようにした変化情報認識装置および変化情報認識方法を提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the change information recognition apparatus and change information recognition method which can recognize the change state of a recognition target object correctly, for example, can recognize the word etc. which a person speaks can be provided.

以下、図面を参照して、本発明の好適な実施形態について詳細に説明する。なお、各実施形態において、重複する説明は省略することがある。   Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings. In addition, in each embodiment, the overlapping description may be omitted.

まず、本発明の第1の実施形態について説明する。図1は、本実施形態に係る変化情報認識装置のブロック構成図である。図1に示すように、本実施形態に係る変化情報認識装置1は、系列情報記憶装置11と、基本変化情報記憶装置12と、変化状態比較装置13とを備えている。   First, a first embodiment of the present invention will be described. FIG. 1 is a block diagram of a change information recognition apparatus according to this embodiment. As shown in FIG. 1, the change information recognition apparatus 1 according to the present embodiment includes a sequence information storage device 11, a basic change information storage device 12, and a change state comparison device 13.

系列情報記憶装置11は、図示しない本発明の変化情報取得手段である撮像装置となるカメラに接続されている。カメラでは、認識対象物となる口を含む顔を撮像している。撮像した人の口の画像は、一定時間の間隔をおいて、系列情報記憶装置11に出力される。系列情報記憶装置11では、これらの一定時間をおいて出力される複数の画像を系列情報J11として記憶する。   The series information storage device 11 is connected to a camera which is an imaging device which is a change information acquisition unit of the present invention (not shown). The camera captures a face including a mouth that is a recognition target. The captured human mouth images are output to the sequence information storage device 11 at regular time intervals. The sequence information storage device 11 stores a plurality of images output after a certain period of time as sequence information J11.

基本変化情報記憶装置12には、あらかじめ人の口の形状がとり得るパターンが複数記憶されている。この口の形状がとり得るパターンについては、後に詳細に説明する。   The basic change information storage device 12 stores in advance a plurality of patterns that can take the shape of a person's mouth. The pattern that the shape of the mouth can take will be described in detail later.

変化状態比較装置13には、系列情報記憶装置11から系列情報が出力され、基本変化情報記憶装置12から基本変化情報が出力される。変化状態比較装置13では、これらの系列情報および基本変化情報を比較することにより、口の形状の変化を検出して、口に相当する部分を検出する。さらに、変化状態比較装置13は、図示しない出力装置に接続されており、検出した口に相当する部分の位置を、変化情報の位置情報J12として出力装置に出力する。また、変化状態比較装置13では、口に相当する部分を検出するとともに、口の動きをも検出する。この検出した口の動きも、変化情報に対応する記号情報J13として図示しない出力装置に出力する。   To the change state comparison device 13, the sequence information is output from the sequence information storage device 11, and the basic change information is output from the basic change information storage device 12. The change state comparison device 13 detects a change in the shape of the mouth by comparing the series information and the basic change information, and detects a portion corresponding to the mouth. Furthermore, the change state comparison device 13 is connected to an output device (not shown), and outputs the position of the portion corresponding to the detected mouth to the output device as position information J12 of change information. Further, the change state comparison device 13 detects a portion corresponding to the mouth and also detects a movement of the mouth. The detected mouth movement is also output to an output device (not shown) as symbol information J13 corresponding to the change information.

それでは、本実施形態に係る変化情報認識装置1による変化情報認識方法について説明する。本実施形態に係る変化情報認識装置1の系列情報記憶装置11には、図示しないカメラで撮影された、たとえば図2に示す口Mを含む顔Fの画像G1などの画像が順次出力される。系列情報記憶装置11では、これらの画像を記憶しておく。この画像が複数枚、たとえば8枚揃ったときに、これらの画像を系列情報としてまとめて、変化状態比較装置13に出力する。   Then, the change information recognition method by the change information recognition apparatus 1 which concerns on this embodiment is demonstrated. The series information storage device 11 of the change information recognition device 1 according to the present embodiment sequentially outputs images such as the image G1 of the face F including the mouth M shown in FIG. The series information storage device 11 stores these images. When a plurality of images, for example, 8 images are collected, these images are collected as series information and output to the change state comparison device 13.

また、基本変化情報記憶装置12には、口の変化のパターンを表す画像情報が複数記憶されている。たとえば、図3(a)に示すt=1〜4の第1変化パターンが第1テンプレートP1として、図3(b)に示すt=1〜4の第2変化パターンが第2テンプレートP2として、基本変化情報記憶装置12にそれぞれ記憶されている。両変化パターンでは、ある時刻での画像がt=1の画像であり、一定時間経過した後の次の画像がt=2の画像であり、さらに一定時間経過した後の画像がt=3の画像であり、それからさらに一定時間経過した後の画像がt=4とされている。第1テンプレートP1で表される第1変化パターンでは、大きく開いた口Mの形状(「あ」の母音を発するときの口の形状)から、横に細長く開いた口Mの形状(「い」の母音を発するときの口の形状)に変化する状態を示している。また、第2テンプレートP2で表される第2変化パターンでは、大きく開いた口Mの形状(「あ」の母音を発するときの口の形状)から、縦長に開いた口Mの形状(「お」の母音を発するときの口の形状)に変化する状態を示している。   The basic change information storage device 12 stores a plurality of pieces of image information representing a mouth change pattern. For example, the first change pattern of t = 1 to 4 shown in FIG. 3A is the first template P1, and the second change pattern of t = 1 to 4 shown in FIG. 3B is the second template P2. Each of them is stored in the basic change information storage device 12. In both change patterns, the image at a certain time is an image at t = 1, the next image after a lapse of a certain time is an image at t = 2, and the image after a lapse of a certain time is further at t = 3. It is an image, and an image after a certain time has passed since then is t = 4. In the first change pattern represented by the first template P1, from the shape of the mouth M that is wide open (the shape of the mouth when generating the vowel “A”), the shape of the mouth M that is elongated horizontally (“I”). The shape of the mouth when the vowel is generated is shown. Further, in the second change pattern represented by the second template P2, the shape of the mouth M that is opened vertically (“O” from the shape of the mouth M that is wide open (the shape of the mouth when the vowel “a” is emitted)). "The shape of the mouth when the vowel is generated").

変化状態比較装置13には、8枚の画像からなる系列情報の動画が系列情報記憶装置11から出力され、第1,第2変化パターンを示すテンプレートP1,P2が、基本変化情報記憶装置12から出力される。ここで、系列情報記憶装置11から出力された系列情報には図4に示す変化を示す領域が含まれていたとする。図4において、(a)〜(h)は、それぞれ時刻t=1〜8に相当する画像を示している。図4に示す画像に表示された形状の動きと、図3に示すテンプレートP1,P2の形状の動きとを比較すると、テンプレートP1の動きが、図5に示すように、図4(d)〜(g)に示す動きと一致していることがわかる。このことから、図5(d)〜(g)において破線Bで示した部分が口に相当する部分であるということを認識することができる。また、このときに、口は第1テンプレートP1に相当する動きをしていたことも同時に認識することができる。   The change state comparison device 13 outputs a sequence information moving image composed of eight images from the sequence information storage device 11, and templates P 1 and P 2 indicating the first and second change patterns are received from the basic change information storage device 12. Is output. Here, it is assumed that the sequence information output from the sequence information storage device 11 includes an area showing a change shown in FIG. In FIG. 4, (a) to (h) show images corresponding to times t = 1 to 8, respectively. When the movement of the shape displayed in the image shown in FIG. 4 is compared with the movement of the shapes of the templates P1 and P2 shown in FIG. 3, the movement of the template P1 is as shown in FIG. It can be seen that the movement matches the movement shown in (g). From this, it can be recognized that the part indicated by the broken line B in FIGS. 5D to 5G is a part corresponding to the mouth. At this time, it can be recognized at the same time that the mouth was moving corresponding to the first template P1.

ここで、従来においては、たとえば図6(a)〜(f)に示すように、複数の口のテンプレートT1〜T6を用意しておき、撮像装置で撮像された画像をラスタスキャンして、テンプレートT1〜T6に相当する部分を口として検出するようにしていた。しかし、この方法では、画像の中に存在する壁のシミや背景の一部であって、口と類似する形状のものをも口として検出してしまう誤検出や、検出漏れなどの不都合が考えられた。   Here, conventionally, for example, as shown in FIGS. 6A to 6F, templates T1 to T6 of a plurality of mouths are prepared, and an image captured by the imaging device is raster scanned to obtain a template. A portion corresponding to T1 to T6 was detected as a mouth. However, with this method, there may be inconveniences such as false detections or omissions that detect parts of the wall or part of the background existing in the image that are similar to the mouth as a mouth. It was.

これに対して、本実施形態に係る変化情報認識装置では、静止画のような瞬間的に切り取られた画像のみを対象とするのではなく、変化する形状の変形パターンを見つけるようにしているので、誤検出や検出漏れなどを少なくすることができる。しかも、口の位置とその変形の様子とを同時に同定することができる。なお、図3から図5は、説明を簡単にするために、口の動きに適用した形で説明を行った。しかし、特に口の動きに限定したものではなく、一般的な図形の変形であればどのような技術にも適用することができるものである。   On the other hand, the change information recognition apparatus according to the present embodiment finds a deformed pattern having a changing shape, not only an image that is momentarily cut out such as a still image. , False detection and detection omission can be reduced. In addition, the position of the mouth and the state of deformation can be identified simultaneously. Note that FIGS. 3 to 5 are described in the form applied to the movement of the mouth for the sake of simplicity. However, the present invention is not particularly limited to the movement of the mouth, and can be applied to any technique as long as it is a general graphic deformation.

続いて、本実施形態の具体的な変化情報認識方法について説明する。図7は、本実施形態に係る変化情報認識方法の手順を示すフローチャートである。図7に示すように、本実施形態に係る変化情報認識方法では、まず、8枚ある画像のフレーム番号を表す定数f(f定義域=1〜8)およびそれらの画像を撮像した時刻を表す変数t(t定義域=1〜8)を初期化し(S1)、次に、2枚あるテンプレートP1,P2で表される変化パターンを表す変数d(d=1,2)を初期化する(S2)。続いて、第1変化パターンd=1における時刻t(以下「t(d)」と示す)=1のパターンの類似パターンを、最初のフレームf=1の画像から探し出し(S3)、時刻t(d)のパターンの類似パターンが見つかったか否かを判断する(S4)。   Next, a specific change information recognition method according to this embodiment will be described. FIG. 7 is a flowchart showing the procedure of the change information recognition method according to the present embodiment. As shown in FIG. 7, in the change information recognition method according to the present embodiment, first, a constant f (f definition area = 1 to 8) representing the frame number of eight images and the time when these images are captured are represented. A variable t (t definition area = 1 to 8) is initialized (S1), and then a variable d (d = 1, 2) representing a change pattern represented by two templates P1 and P2 is initialized (S1). S2). Subsequently, a similar pattern of the pattern at time t (hereinafter referred to as “t (d)”) = 1 in the first change pattern d = 1 is searched from the image of the first frame f = 1 (S3), and time t ( It is determined whether a similar pattern of the pattern d) is found (S4).

その結果、類似パターンが見つかった場合には、変化パターンd=1用の記憶領域に時刻t(d)のパターンが見つかったこと、およびフレームf=1における類似パターンが見つかった位置を記憶する(S5)。そして、時刻t(d)=1に1を加算して、t(d)=2とする(S6)。それから、すべての変化パターンd(=1,2)において、類似パターンを探し出す処理が終了したか否かを判断する(S7)。   As a result, when a similar pattern is found, the pattern at time t (d) is found in the storage area for the change pattern d = 1 and the position where the similar pattern is found in the frame f = 1 is stored ( S5). Then, 1 is added to the time t (d) = 1 to obtain t (d) = 2 (S6). Then, it is determined whether or not the process of searching for similar patterns is completed for all the change patterns d (= 1, 2) (S7).

一方、ステップS4において、類似パターンが見つからなかった場合には、ステップS7に進み、すべての変化パターンd(=1,2)を探し出す処理が終了したか否かを判断する。そして、ステップS7において、すべての変化パターンd(=1,2)を探し出す処理が終了していないと判断したら、変化パターンを進めて変化パターン(d+1)とし(S8)、ステップS3に戻って、フレームfの画像から類似のパターンを探す。また、すべての変化パターンが探し終わったと判断したら、次のフレームf+1に進む(S9)。   On the other hand, if a similar pattern is not found in step S4, the process proceeds to step S7, and it is determined whether or not the process of searching for all the change patterns d (= 1, 2) is completed. If it is determined in step S7 that the process of searching for all the change patterns d (= 1, 2) is not completed, the change pattern is advanced to change pattern (d + 1) (S8), and the process returns to step S3. A similar pattern is searched from the image of the frame f. If it is determined that all the change patterns have been searched, the process proceeds to the next frame f + 1 (S9).

こうして次のフレームに進んだら、すべてのフレームf(=1〜8)を処理し終わったか否かを判断する(S10)。その結果、すべてのフレームの処理が終わっておらず、処理が終わっていないフレームがあると判断したときには、ステップS2に戻って、処理を継続する。一方、すべてのフレームの処理が終わったと判断したときには、変化ごとの記憶領域の記憶されている情報から、検出された変化パターン(変化情報に対応する記号)とその位置を図示しない出力装置を介して出力する(S11)。このようにして、口の位置および口の動きを検出することができる。   After proceeding to the next frame in this way, it is determined whether or not all the frames f (= 1 to 8) have been processed (S10). As a result, when it is determined that all the frames have not been processed and there is a frame that has not been processed, the process returns to step S2 to continue the processing. On the other hand, when it is determined that all the frames have been processed, the detected change pattern (a symbol corresponding to the change information) and its position are detected via an output device (not shown) from the information stored in the storage area for each change. And output (S11). In this way, the position of the mouth and the movement of the mouth can be detected.

このように、本実施形態に係る変化情報認識装置1においては、静止画像でなく、動画によって表される画像の動きから認識対象物である口の位置を検出するようにしている。このため、図8(a)に示すように、静止画によるテンプレートを用いた従来の認識方法では、多数の口の候補C1,C2…を認識してしまう。これに対して、本実施形態に係る認識方法では、一定時間をおいて撮影した複数の画像から口Mの変化を検出しているので、図8(b)に示すように、候補C内に口Mを確実に認識することができる。しかも、口Mの動きを複数枚の画像に見られる変化で追従していることから、口Mの動きまでをも検出することができる。   Thus, in the change information recognition apparatus 1 according to the present embodiment, the position of the mouth that is the recognition target is detected from the motion of the image represented by the moving image, not the still image. For this reason, as shown in FIG. 8A, in the conventional recognition method using a still image template, a large number of mouth candidates C1, C2,... On the other hand, in the recognition method according to the present embodiment, since the change of the mouth M is detected from a plurality of images taken at a certain time, as shown in FIG. The mouth M can be reliably recognized. In addition, since the movement of the mouth M is followed by the change seen in a plurality of images, even the movement of the mouth M can be detected.

なお、本実施形態では、テンプレートP1,P2において、それぞれ時刻t=4として4つの時刻での画像を設定しているが、フレームの数は複数、すなわち2以上であればよい。たとえば、時刻t=2として、2つの時刻での画像からテンプレートを設定することもできる。   In the present embodiment, in the templates P1 and P2, images at four times are set at time t = 4, but the number of frames may be plural, that is, two or more. For example, assuming that time t = 2, a template can be set from images at two times.

次に、本発明の第2の実施形態について説明する。図9は、本実施形態に係る変化情報認識装置のブロック構成図である。図9に示すように、本実施形態に係る変化情報認識装置2は、上記第1の実施形態と同様の系列情報記憶装置21、基本変化情報記憶装置22、および変化状態比較装置23を備えている。このうち、系列情報記憶装置21および変化状態比較装置23は、上記実施形態における系列情報記憶装置11および変化状態比較装置13とそれぞれ同一の構成を有しており、基本変化情報記憶装置22は、上記第1の実施形態における基本変化情報記憶装置12とは、異なる構成を有している。   Next, a second embodiment of the present invention will be described. FIG. 9 is a block configuration diagram of the change information recognition apparatus according to the present embodiment. As shown in FIG. 9, the change information recognition device 2 according to the present embodiment includes a sequence information storage device 21, a basic change information storage device 22, and a change state comparison device 23 similar to those in the first embodiment. Yes. Among these, the sequence information storage device 21 and the change state comparison device 23 have the same configuration as the sequence information storage device 11 and the change state comparison device 13 in the above embodiment, respectively. The basic change information storage device 12 in the first embodiment has a different configuration.

本実施形態に係る基本変化情報記憶装置22は、複数の基本変化情報単位記憶装置24A,24B…を有している。各基本変化情報単位記憶装置24A,24B…には、認識対象物の変化に応じて対応付けされた変化情報単位に分割した情報である変化パターンが記憶されている。この変化パターンは、認識対象物の一連の変化パターンにおける最小の単位となる変化パターンである。たとえば、図10(a)に示すような時刻t=1〜7の間における変化パターンPがあるとする。この時刻t=1〜7に対応した一連の変化パターンにおいて、図10(b)に示すt=1〜4の変化が、図10(c)に示すt=1〜4(図10(a)のt=4〜7の変化に相当する)とは異なる意味を持った最小単位であることがある。たとえば、図10(a)におけるt=1〜4で「お」から「あ」に変化する口の形状を表し、t=4〜7で「あ」から「い」に変化する口の形状を表すような場合である。図10(b),(c)に示すt=1〜4のような変化が、それぞれ最小単位のテンプレートP3,P4として、各基本変化情報単位記憶装置24A,24B…に記憶されている。   The basic change information storage device 22 according to the present embodiment includes a plurality of basic change information unit storage devices 24A, 24B. Each of the basic change information unit storage devices 24A, 24B,... Stores a change pattern that is information divided into change information units associated with each other in accordance with the change of the recognition object. This change pattern is a change pattern that is a minimum unit in a series of change patterns of the recognition object. For example, it is assumed that there is a change pattern P between times t = 1 to 7 as shown in FIG. In a series of change patterns corresponding to the times t = 1 to 7, changes in t = 1 to 4 shown in FIG. 10B are t = 1 to 4 shown in FIG. 10C (FIG. 10A). May correspond to a change of t = 4 to 7). For example, t = 1 to 4 in FIG. 10A represents a mouth shape changing from “O” to “A”, and t = 4 to 7 represents a mouth shape changing from “A” to “I”. This is the case. Changes such as t = 1 to 4 shown in FIGS. 10B and 10C are stored in the basic change information unit storage devices 24A, 24B... As minimum unit templates P3 and P4, respectively.

次に、本実施形態に係る変化情報認識方法について説明する。図11は、本実施形態に係る変化情報認識方法の手順の要部を示すフローチャートである。図11に示すように、本実施形態に係る変化情報認識方法では、上記第1の実施形態に係る認識方法と同様にして、系列情報記憶装置21において系列情報J21を取得して、たとえば8枚の画像からなる変化状態比較装置23に出力する。変化状態比較装置23では、出力された系列情報から各変化情報単位を検出する(21)。また、基本変化情報記憶装置22からは、変化状態比較装置23に対して、基本変化情報単位記憶装置24に記憶された基本変化情報単位を示すテンプレートP3,P4が出力される。   Next, the change information recognition method according to the present embodiment will be described. FIG. 11 is a flowchart showing a main part of the procedure of the change information recognition method according to the present embodiment. As shown in FIG. 11, in the change information recognition method according to the present embodiment, the sequence information J21 is acquired in the sequence information storage device 21 in the same manner as in the recognition method according to the first embodiment, for example, 8 Are output to the change state comparison device 23 consisting of the images. The change state comparison device 23 detects each change information unit from the output sequence information (21). The basic change information storage device 22 outputs templates P3 and P4 indicating the basic change information units stored in the basic change information unit storage device 24 to the change state comparison device 23.

変化状態比較装置23では、検出した変化情報単位と、基本変化情報記憶装置22から出力された基本変化情報単位のテンプレートP3,P4とを比較し、変化情報単位の連続性から一連の変化を検出する(S22)。たとえば、系列情報記憶装置21から出力された系列情報J21が、図12(a)〜(h)にそれぞれ示す8枚の画像であったとする。変化状態比較装置23では、これらの系列情報J21による画像と、基本変化情報記憶装置22から出力されたテンプレートP3,P4とを比較して、系列情報における一連の変化を検出する。   The change state comparison device 23 compares the detected change information unit with the basic change information unit templates P3 and P4 output from the basic change information storage device 22, and detects a series of changes from the continuity of the change information unit. (S22). For example, it is assumed that the sequence information J21 output from the sequence information storage device 21 is eight images shown in FIGS. The change state comparison device 23 compares the image based on the series information J21 and the templates P3 and P4 output from the basic change information storage device 22 to detect a series of changes in the series information.

いま、図12(a)〜(h)に示す系列情報を表す8枚の画像では、図12(a)〜(d)に示す画像における実線Rで囲む口Mの形状が、図10(b)に示すテンプレートP3の変化と同一の変化を示している。また、図12(d)〜(g)に示す画像における破線Bで囲む口Mの形状が、図10(c)に示すテンプレートP4の変化と同一の変化を示している。このことから、系列情報J21には、図10(a)に示す形状変化を行う認識対象物としての口があることが認識される。   Now, in the eight images representing the series information shown in FIGS. 12A to 12H, the shape of the mouth M surrounded by the solid line R in the images shown in FIGS. 12A to 12D is as shown in FIG. The same change as that of the template P3 shown in FIG. Further, the shape of the mouth M surrounded by the broken line B in the images shown in FIGS. 12D to 12G shows the same change as the change of the template P4 shown in FIG. From this, it is recognized that the series information J21 has a mouth as a recognition target for performing the shape change shown in FIG.

こうして認識された認識対象物である変化情報としての口は、その変化情報単位の位置情報J22として変化状態比較装置23から図示しない出力装置に出力される。それと同時に、変化情報単位に対応する記号情報J23が、変化状態比較装置23から図示しない出力装置に出力される。出力装置では、変化情報単位の位置情報から変化情報J24を取得し、変化情報単位に対応する記号情報J23から、変化情報に対応する記号情報J25を取得する。   The mouth as change information which is the recognition object recognized in this way is output from the change state comparison device 23 to an output device (not shown) as position information J22 of the change information unit. At the same time, the symbol information J23 corresponding to the change information unit is output from the change state comparison device 23 to an output device (not shown). In the output device, the change information J24 is acquired from the position information of the change information unit, and the symbol information J25 corresponding to the change information is acquired from the symbol information J23 corresponding to the change information unit.

ここで、たとえば系列情報を表す画像に、図10(b)に示すテンプレートP3の形状変化と同一の形状変化が見られたとしても、その後に、図10(c)に示すテンプレートP4で表される形状変化と同一の形状変化が見られないことがある。この場合には、図10(a)に示す一連の変化は起こってはいないと判断することができ、その結果として誤検出を防止することができる。また、連続した変化情報単位の特定組み合わせをあらかじめ記憶していることから、任意の変化を少ない記憶容量で表現することができる。さらに、一連の変化を、その変化よりも小さい変化の単位に分割することにより、ロバストに変化の様子を検出ことが可能となり、さらには複雑な変化をより単純な変化の組み合わせで表現することができるので、実装が容易になるとともに、少ない記憶容量で複雑な変化を扱うことができる。   Here, for example, even if the same shape change as the shape change of the template P3 shown in FIG. 10B is seen in the image representing the series information, it is represented by the template P4 shown in FIG. In some cases, the same shape change may not be seen. In this case, it can be determined that the series of changes shown in FIG. 10A has not occurred, and as a result, erroneous detection can be prevented. In addition, since a specific combination of continuous change information units is stored in advance, an arbitrary change can be expressed with a small storage capacity. Furthermore, by dividing a series of changes into smaller change units, it becomes possible to detect changes in a robust manner, and to express complex changes with simpler combinations of changes. This makes it easy to implement and can handle complex changes with a small storage capacity.

次に、本発明の第3の実施形態について説明する。図13は、本実施形態に係る変化情報認識装置のブロック構成図である。本実施形態に係る変化情報認識装置は、口変形認識装置として用いることができる。図13に示すように、本実施形態に係る変化情報認識装置3は、動画記憶装置31、口基本変形情報記憶装置32、および口変形状態比較装置33とを備えている。   Next, a third embodiment of the present invention will be described. FIG. 13 is a block configuration diagram of the change information recognition apparatus according to the present embodiment. The change information recognition apparatus according to the present embodiment can be used as a mouth deformation recognition apparatus. As shown in FIG. 13, the change information recognition device 3 according to the present embodiment includes a moving image storage device 31, a mouth basic deformation information storage device 32, and a mouth deformation state comparison device 33.

動画記憶装置31は、図示しない動画撮像装置に接続されている。この動画撮像装置は、認識対象物となる口を含む顔の動画を撮像しており、動画撮像装置は、撮像した動画の動画情報J31を動画記憶装置31に対して出力している。   The moving image storage device 31 is connected to a moving image capturing device (not shown). The moving image imaging device images a moving image of a face including a mouth that is a recognition target, and the moving image imaging device outputs moving image information J31 of the captured moving image to the moving image storage device 31.

口基本変形情報記憶装置32は、人の口の動きがとり得るパターンがあらかじめ記憶された複数の口基本変形単位記憶装置34A,34B…を有している。各口基本変形単位記憶装置34A,34B…には、口基本変形単位があらかじめ記憶されている。この口基本変形単位については、後に説明する。   The mouth basic deformation information storage device 32 includes a plurality of mouth basic deformation unit storage devices 34A, 34B,... In which patterns that can be taken by a person's mouth are stored in advance. Each mouth basic deformation unit storage device 34A, 34B,... Stores a mouth basic deformation unit in advance. The basic mouth deformation unit will be described later.

口変形状態比較装置33には、動画記憶装置31から口変形単位情報が出力され、口基本変形情報記憶装置32から口基本変形単位情報が出力される。口変形状態比較装置33では、これらの口変形単位情報と口基本変形単位情報とを比較することにより、口の動きを認識する。さらに、口変形状態比較装置33は、図示しない出力装置に接続されており、動画記憶装置31から出力された口変形単位の位置を口変形単位位置情報J32として出力装置に出力する。また、それと同時に、口変形単位に対応する記号情報J33を出力装置に出力する。   Mouth deformation unit information is output from the moving image storage device 31 to the mouth deformation state comparison device 33, and mouth basic deformation unit information is output from the mouth basic deformation information storage device 32. The mouth deformation state comparison device 33 recognizes the movement of the mouth by comparing the mouth deformation unit information with the mouth basic deformation unit information. Further, the mouth deformation state comparison device 33 is connected to an output device (not shown), and outputs the position of the mouth deformation unit output from the moving image storage device 31 to the output device as mouth deformation unit position information J32. At the same time, the symbol information J33 corresponding to the mouth deformation unit is output to the output device.

また、口基本変形情報記憶装置32における口基本変形単位記憶装置34A,34B…には、口の変形パターンを示す動画に対応した口変形単位の形状およびその形状に対応する記号情報がそれぞれ記憶されている。人が発話を行う際の口の形状は、主に母音および撥音によって決定される。母音とは、「あ」「い」「う」「え」「お」の5音を指すものであるが、これに撥音である「ん」を加えて考えると、すべての発話はこれらの6音とそれ以外の5音への組み合わせとして表現することができる。図14は、上記の6音から他の5音へのすべての組み合わせについて、記号を割り当てたものを示す表である。   Further, the mouth basic deformation unit storage devices 34A, 34B... In the mouth basic deformation information storage device 32 respectively store the shape of the mouth deformation unit corresponding to the moving image showing the mouth deformation pattern and the symbol information corresponding to the shape. ing. The shape of the mouth when a person speaks is mainly determined by vowels and repellent sounds. Vowels refer to the five sounds “A”, “I”, “U”, “E”, and “O”, but when added to the repellent “N”, all utterances are those 6 It can be expressed as a combination of sound and other five sounds. FIG. 14 is a table showing symbols assigned to all combinations from the above six sounds to the other five sounds.

図14に示すように、「あ」を1、「い」を2、「う」を3、「え」を4、「お」を5、「ん」を0とすると、たとえば「あ」から「い」への変形は「12」という記号で表される。図15には、「あ」の母音を発する口の形状から、「い」の母音を発する口の形状に至るまでの口の変形過程を模式的に示している。時刻t=1では、「あ」の音を発しており、口Mは大きく開いた状態にある。この状態から、時刻が進むにつれて、口が徐々に狭まるように変形していき、時刻t=8のときには、口Mが「い」の音を発する形状をなしている。このように、「あ」から「い」に変形するまでの口の変形をt=1〜8までの間で連続画像で示している。このような「あ」から「い」に変形するまでの口の変形を示す動画を、「あ」を表す記号「1」と「い」を表す記号「2」とを用いて、記号「12」で表す。   As shown in FIG. 14, if “A” is 1, “I” is 2, “U” is 3, “E” is 4, “O” is 5, and “N” is 0, for example, “A” The transformation to “I” is represented by the symbol “12”. FIG. 15 schematically shows a mouth deformation process from the shape of the mouth that emits the vowel “A” to the shape of the mouth that emits the vowel “I”. At time t = 1, the sound of “A” is emitted, and the mouth M is in a wide open state. From this state, as the time advances, the mouth gradually deforms so as to narrow, and when time t = 8, the mouth M has a shape that emits a sound of “yes”. As described above, the deformation of the mouth from “a” to “i” is shown by continuous images from t = 1 to 8. Such a moving image showing the deformation of the mouth from “A” to “I” is converted to the symbol “12” using the symbol “1” indicating “A” and the symbol “2” indicating “I”. ".

この考え方を用いると、たとえば図16(a)に示すように、「おはようございます」という発話は、その母音だけをみると図16(b)に示すように、「おあおうおあいあう」となる。この発話に伴う口の変形は、上記の記号を用いると、図16(c)に示すように、51→15→53→35→51→12→21→13と表すことができる。口基本変形情報記憶装置32には、これらの記号に対応する口基本変形単位が各口基本変形単位記憶装置34A,34B…のそれぞれに記憶されている。   Using this way of thinking, for example, as shown in FIG. 16 (a), the utterance "Good morning" can be expressed as "Wow! Become. The deformation of the mouth accompanying this utterance can be expressed as 51 → 15 → 53 → 35 → 51 → 12 → 21 → 13 as shown in FIG. 16C. In the mouth basic deformation information storage device 32, mouth basic deformation units corresponding to these symbols are stored in each of the mouth basic deformation unit storage devices 34A, 34B,.

従来、発話を認識する手段としては「あ」や「い」を表す口の形状を見つけるようなアプローチがなされていた。これに対して、本実施形態では、「あ」から「い」に至るまでに口の形状が変形する過程を、あらかじめ記憶される口基本変形記憶単位に対応させて捉えようとするものである。   Conventionally, as a means for recognizing an utterance, an approach of finding a mouth shape representing “A” and “I” has been made. On the other hand, in the present embodiment, the process of deforming the mouth shape from “A” to “I” is tried to be associated with the mouth basic deformation storage unit stored in advance. .

それでは、本実施形態に係る変化情報認識装置3による変形情報認識方法について説明する。図17は、本実施形態に係る変形情報認識方法の手順の要部を示すフローチャートである。本実施形態に係る変形情報認識方法では、まず、動画撮像装置で撮像した口を含む顔の動画が、動画撮像装置から動画記憶装置31に出力され、動画記憶装置31に記憶される。一方、口基本変形情報記憶装置32には、各口基本変形単位記憶装置34A,34B…において、口基本変形単位に対応する変化情報およびおよび口基本変形単位に対応する記号があらかじめ記憶されている。動画記憶装置31からは、口変形状態比較装置33に対して、動画が出力され、口基本変形情報記憶装置32からは、口変形状態比較装置33に対して口基本変形単位の変形情報および口基本単位に対応する記号が出力される。   Now, a deformation information recognition method by the change information recognition apparatus 3 according to the present embodiment will be described. FIG. 17 is a flowchart showing a main part of the procedure of the deformation information recognition method according to the present embodiment. In the deformation information recognition method according to the present embodiment, first, a moving image of the face including the mouth imaged by the moving image imaging device is output from the moving image imaging device to the moving image storage device 31 and stored in the moving image storage device 31. On the other hand, in the mouth basic deformation information storage device 32, change information corresponding to the mouth basic deformation unit and a symbol corresponding to the mouth basic deformation unit are stored in advance in each of the mouth basic deformation unit storage devices 34A, 34B. . The moving image storage device 31 outputs a moving image to the mouth deformation state comparison device 33, and the mouth basic deformation information storage device 32 outputs the deformation information and the mouth basic deformation unit to the mouth deformation state comparison device 33. The symbol corresponding to the basic unit is output.

口変形状態比較装置33においては、動画記憶装置31から出力された動画および口基本変形情報記憶装置32から出力された口基本変形単位との比較を行い、動画における口変形単位が存在する位置および口変形に対応する記号を検出する(S31)。次に、一定時間経過した後の動画上において、口変形位置が存在する位置および口変形に対応する記号を検出する。続いて、検出された各口変形単位について、先に検出された口変形単位である第1の変形と、後に検出された口変形単位である第2の変形が同じ位置で行われていたか否かを判断する(S32)。   In the mouth deformation state comparison device 33, the moving image output from the moving image storage device 31 and the mouth basic deformation unit output from the mouth basic deformation information storage device 32 are compared, and the position where the mouth deformation unit exists in the moving image and A symbol corresponding to mouth deformation is detected (S31). Next, a position where the mouth deformation position exists and a symbol corresponding to the mouth deformation are detected on the moving image after a predetermined time has elapsed. Subsequently, for each detected mouth deformation unit, whether the first deformation that is the mouth deformation unit detected earlier and the second deformation that is the mouth deformation unit detected later have been performed at the same position. Is determined (S32).

その結果、同じ位置で検出されたものではないと判断したときには、ステップS31に戻って同様の処理を繰り返す。一方、同じ位置で検出されたものであると判断したときには、それらの第1の変形に対応する記号の終了を表す記号と、第2の変形に対応する記号の開始を表す記号とを比較し、両者が同じであるか否かを判断する(S33)。その結果、両者が同じではないと判断したときには、ステップS31に戻って、同様の処理を繰り返す。   As a result, when it is determined that they are not detected at the same position, the process returns to step S31 and the same processing is repeated. On the other hand, when it is determined that they are detected at the same position, the symbol indicating the end of the symbol corresponding to the first deformation is compared with the symbol indicating the start of the symbol corresponding to the second deformation. Then, it is determined whether or not both are the same (S33). As a result, when it is determined that they are not the same, the process returns to step S31 and the same processing is repeated.

それに対して、たとえば、図18(a)に示すように、第1の変形では口Mがt=1〜8に示すように動き、対応する記号が12であり、第2の変形では口Mがt=8〜t15に示すように動き、対応する記号が23であったとする。これは、第1の変形では、発話を母音レベルで理解すると、口の形状が「あ」から「い」に変化したこと、および第2の変形では、口の形状が「い」から「う」に変化したことを意味している。このように、それらの第1の変形に対応する記号の終了を表す記号と、第2に変形に対応する記号の開始を表す記号とが同じである場合には、第1の変形と第2の変形との繋ぎにおける時間位置で、その記号に対応する音が発せられていたと考えられる。先の例でいえば、第1の変形に対応する記号の終了を表す記号と、第2の変形に対応する記号の開始を表す記号がいずれも「2」であり、同じである。このような場合には、第1の変形と第2の変形とは連続して行われたものであると判断することができる。   On the other hand, for example, as shown in FIG. 18A, in the first modification, the mouth M moves as shown in t = 1 to 8, the corresponding symbol is 12, and in the second modification, the mouth M Move as shown in t = 8 to t15, and the corresponding symbol is 23. In the first variation, when the utterance is understood at the vowel level, the mouth shape changes from “A” to “I”. In the second variation, the mouth shape changes from “I” to “U”. ”Means that it has changed. Thus, when the symbol representing the end of the symbol corresponding to the first modification and the symbol representing the start of the symbol corresponding to the second modification are the same, the first modification and the second It is thought that the sound corresponding to the symbol was emitted at the time position in connection with the deformation of. In the previous example, the symbol representing the end of the symbol corresponding to the first modification and the symbol representing the start of the symbol corresponding to the second modification are both “2” and are the same. In such a case, it can be determined that the first deformation and the second deformation are performed continuously.

そして、第1の変形に対応する記号の終了を表す記号と、第2に変形に対応する記号の開始を表す記号が同じである場合には、第1の変形と第2の変形との繋ぎにおける時間位置およびその記号をそれぞれ口変形単位位置情報J32および口変形単位に対応する記号情報J33として、図示しない出力装置に出力する(S34)。出力装置においては、口変形単位位置情報J32から口の位置情報J34を求め、口変形単位に対応する記号情報J33から、発話単語情報J35を求める。こうして、変化情報認識方法が終了する。   If the symbol indicating the end of the symbol corresponding to the first deformation and the symbol indicating the start of the symbol corresponding to the second deformation are the same, the connection between the first deformation and the second deformation. Is output to an output device (not shown) as mouth deformation unit position information J32 and symbol information J33 corresponding to the mouth deformation unit, respectively (S34). In the output device, the mouth position information J34 is obtained from the mouth deformation unit position information J32, and the utterance word information J35 is obtained from the symbol information J33 corresponding to the mouth deformation unit. Thus, the change information recognition method ends.

このように、本実施形態に係る変化情報認識装置3においては、発話に伴う口の変形を、5種類の母音および1種類の撥音という6種類の音に対応する口の形から、その音以外の5種類の口の形への変形という単位に分割している。このため、入力した動画像から口の位置を検出するとともに、どの時点でどの音が発音されたかを確実に認識することができるので、発話認識装置として用いることができる。また、発音された音を連続して認識することで、発話された単語を認識することもできる。   As described above, in the change information recognition apparatus 3 according to the present embodiment, the mouth deformation associated with the utterance is changed from the shape of the mouth corresponding to the six types of sounds, that is, the five types of vowels and the one type of repellent sound, except for the sounds. Are divided into units of transformation into five types of mouth shapes. For this reason, since the position of the mouth can be detected from the input moving image and which sound is pronounced at which time can be surely recognized, it can be used as an utterance recognition device. In addition, the uttered word can be recognized by continuously recognizing the sound produced.

なお、本実施形態では、母音および撥音の6つの音から口基本変形単位を作成しているが、50音のすべてについて、口基本変形単位を作成する態様とすることもできる。この場合、日本語には濁音半濁音を含めて、68の音があるので、67×68の口基本変形単位を用いることになる。   In the present embodiment, the mouth basic deformation unit is created from the six sounds of the vowel and the repellent sound. However, the mouth basic deformation unit may be created for all 50 sounds. In this case, there are 68 sounds including muddy and semi-voiced sounds in Japanese, so a 67 × 68 mouth basic deformation unit is used.

次に、本発明の第4の実施形態について説明する。図19は、本実施形態に係る変化情報認識装置のブロック構成図である。本実施形態に係る変化情報認識装置は、音声変化認識装置として用いることができる。図19に示すように、本実施形態に係る変化情報認識装置4は、波形解析装置41と、音声波形記憶装置42と、音声情報記憶装置43と、音声変化比較装置44と、を備えている。   Next, a fourth embodiment of the present invention will be described. FIG. 19 is a block diagram of the change information recognition apparatus according to this embodiment. The change information recognition apparatus according to the present embodiment can be used as a voice change recognition apparatus. As shown in FIG. 19, the change information recognition device 4 according to the present embodiment includes a waveform analysis device 41, a speech waveform storage device 42, a speech information storage device 43, and a speech change comparison device 44. .

波形解析装置41は、図示しない音声取得手段となるたとえばマイクに接続されており、マイクでは、人が発話する際の音声を取得している。マイクは、取得した音声情報J41を波形解析装置41に出力する。波形解析装置41は、出力された音声情報J41を、たとえばウェーブレット変換することによって解析する。ウェーブレット解析によって得られた波形は、音声波形記憶装置42に出力される。音声波形記憶装置42は、出力された波形を記憶する。   The waveform analysis apparatus 41 is connected to, for example, a microphone serving as voice acquisition means (not shown), and the microphone acquires voice when a person speaks. The microphone outputs the acquired audio information J41 to the waveform analysis device 41. The waveform analyzer 41 analyzes the output audio information J41 by, for example, wavelet transform. The waveform obtained by the wavelet analysis is output to the speech waveform storage device 42. The voice waveform storage device 42 stores the output waveform.

音声情報記憶装置43は、音声変化単位記憶装置45A,45B…を備えている。音声変化単位記憶装置45A,45B…には、音声変化単位としてあらかじめ記憶された基本音声変化単位およびそれに対応する記号がそれぞれ記憶されている。基本音声変化単位は、発話での任意の音素を発声したときの周波数の波形から別の任意の音素を発声したときの周波数への変化を表している。この基本音声変化単位は、たとえば図20に示す波形を有している。図20(a)は、ある音声を発したときの時刻t=1〜3に変化したときの波形をそれぞれの時刻で表すグラフ、(b)は他の音声を発したときの時刻t=1〜3に変化したときの波形をそれぞれの時刻で示すグラフである。各グラフは、横軸に周波数、縦軸に周波数ごとの強度を対応させている。図20(a),(b)に示すグラフは、音素から音素への変化を表す例であり、時刻t=1〜3ごとに示されるグラフのそれぞれに対応する音があり、t=1の時刻にある音素に対応する音が発せられ、t=2の波形を経てt=3の別の音素に対応する音が発せられたことを示している。   The audio information storage device 43 includes audio change unit storage devices 45A, 45B. The voice change unit storage devices 45A, 45B,... Store basic voice change units stored in advance as voice change units and symbols corresponding thereto. The basic voice change unit represents a change from a waveform of a frequency when an arbitrary phoneme is uttered to a frequency when another arbitrary phoneme is uttered. This basic voice change unit has, for example, the waveform shown in FIG. FIG. 20 (a) is a graph showing the waveforms when the time t = 1 to 3 when a certain sound is emitted at each time, and FIG. 20 (b) is the time t = 1 when another sound is emitted. It is a graph which shows a waveform when changing to -3 at each time. In each graph, the horizontal axis corresponds to the frequency, and the vertical axis corresponds to the intensity for each frequency. The graphs shown in FIGS. 20A and 20B are examples showing changes from phonemes to phonemes, and there are sounds corresponding to each of the graphs shown at times t = 1 to 3, where t = 1. It shows that a sound corresponding to a phoneme at a time is emitted, and a sound corresponding to another phoneme at t = 3 is emitted via a waveform at t = 2.

音声変化比較装置44には、音声波形記憶装置42から音声波形情報が出力され、音声情報記憶装置43から基本音声変化単位およびそれに対応する記号が出力される。音声変化比較装置44では、これらの音声波形情報と基本音声変化単位とを比較することにより、音声を認識する。さらに、音声変化比較装置44は、図示しない出力装置に接続されており、検出した音声変化単位に対応する記号(以下「音声変化単位対応記号」という)情報J42を出力装置に出力している。   The speech change comparison device 44 outputs speech waveform information from the speech waveform storage device 42, and outputs a basic speech change unit and a symbol corresponding thereto from the speech information storage device 43. The voice change comparison device 44 recognizes the voice by comparing the voice waveform information with the basic voice change unit. Further, the voice change comparison device 44 is connected to an output device (not shown), and outputs symbol J corresponding to the detected voice change unit (hereinafter referred to as “voice change unit correspondence symbol”) information J42 to the output device.

それでは、本実施形態に係る変化情報認識装置4による変形情報認識方法について説明する。本実施形態に係る変化情報認識装置4では、マイク等で取得した音声情報J41をウェーブレット解析し、音声変化単位を作成する。この音声変化単位を、あらかじめ記憶している基本音声変化単位と比較することにより、音声の変化を認識するものである。たとえば、音声変化情報がマイクから取得され、波形解析装置41に出力されたとする。波形解析装置41では、図21に示すように、音声変化情報を、ある一定のフレーム間隔、たとえば10msecの間隔をおいて、一定のフレーム長、たとえば30msecの長さのフレーム長に切り取り、複数の音声変化単位を作成する。図22(a)〜(h)には、t1〜t8の時間の8つに切り取られた音声変化情報から作成された音声変化単位の波形がそれぞれ示されている。   Now, a deformation information recognition method by the change information recognition apparatus 4 according to the present embodiment will be described. In the change information recognition apparatus 4 according to the present embodiment, the sound information J41 acquired by a microphone or the like is subjected to wavelet analysis to generate a sound change unit. By comparing this voice change unit with a basic voice change unit stored in advance, a change in voice is recognized. For example, it is assumed that voice change information is acquired from a microphone and output to the waveform analysis device 41. In the waveform analysis apparatus 41, as shown in FIG. 21, the audio change information is cut into a certain frame length, for example, a frame length of 30 msec, at a certain frame interval, for example, 10 msec, Create a voice change unit. FIGS. 22A to 22H show waveforms of voice change units created from the voice change information cut out at eight times t1 to t8.

このような音声変化単位の波形を作成したら、これらの音声変化単位と、音声情報記憶装置43に記憶されている図20に示す基本音声変化単位とを比較する。その結果、図22(a)〜(h)に示す音声変化単位のうちに、図20に示す基本音声変化単位と同一の波形を有する部分があったときに、基本音声変化単位を表す音声が発声されていると判断することができる。図22に示す例では、図23に示すように、図23(e)〜(g)の波形(t=5〜7の波形)が、図20(a)に示す波形(t=1〜3の波形)と一致している。したがって、この部分で図20(a)に示す基本音声変化単位に対応する音声と同一の音声を発声していることがわかる。このように、音声変化単位と基本音声変化単位とを比較して、一致または類似する部分がある場合に、基本音声変化単位に対応する音声を発声していることがわかる。   When such a sound change unit waveform is created, these sound change units are compared with the basic sound change unit shown in FIG. 20 stored in the sound information storage device 43. As a result, when there is a portion having the same waveform as the basic voice change unit shown in FIG. 20 in the voice change units shown in FIGS. It can be determined that the voice is spoken. In the example shown in FIG. 22, as shown in FIG. 23, the waveforms of FIGS. 23 (e) to (g) (the waveforms of t = 5 to 7) are the waveforms shown in FIG. 20 (a) (t = 1 to 3). Waveform). Therefore, it can be seen that the same voice as the voice corresponding to the basic voice change unit shown in FIG. Thus, comparing the voice change unit and the basic voice change unit, it can be seen that when there is a matching or similar part, the voice corresponding to the basic voice change unit is uttered.

続いて、本発明の具体的な変化情報認識方法について説明する。図24は、本実施形態に係る変形情報認識方法の手順を示すフローチャートである。変化情報認識装置4の波形解析装置41には、図示しないマイク等から取得された音声情報が出力される。波形解析装置41では、これらの音声をウェーブレット解析し、たとえば図22に示す8つの波形に分割して、8つのフレームからなる音声変化単位を作成する。波形解析装置41は、作成した音声変化単位を音声波形記憶装置42に出力する。音声波形記憶装置42では、これらの音声変化単位を記憶しておく。   Next, a specific change information recognition method of the present invention will be described. FIG. 24 is a flowchart showing a procedure of the deformation information recognition method according to the present embodiment. Audio information acquired from a microphone or the like (not shown) is output to the waveform analysis device 41 of the change information recognition device 4. In the waveform analyzer 41, these voices are subjected to wavelet analysis and divided into, for example, eight waveforms shown in FIG. 22 to create a voice change unit composed of eight frames. The waveform analyzer 41 outputs the created voice change unit to the voice waveform storage device 42. The voice waveform storage device 42 stores these voice change units.

また、音声情報記憶装置43には、複数の基本音声変化単位が記憶されている。そして、音声波形記憶装置42は、記憶している音声変化単位を音声変化比較装置44に出力し、音声情報記憶装置43は、記憶している基本音声変化単位およびそれに対応する記号を音声変化比較装置44に出力する。音声変化比較装置44では、音声波形記憶装置42から出力された音声変化単位および音声情報記憶装置43から出力された基本音声変化単位を比較する。   The voice information storage device 43 stores a plurality of basic voice change units. Then, the speech waveform storage device 42 outputs the stored speech change unit to the speech change comparison device 44, and the speech information storage device 43 compares the stored basic speech change unit and the corresponding symbol with the speech change comparison. Output to the device 44. The voice change comparison device 44 compares the voice change unit output from the voice waveform storage device 42 with the basic voice change unit output from the voice information storage device 43.

両者の比較を行うにあたり、まず、音声変化単位のフレーム番号を表す変数およびその時刻を表す変数を初期化しフレームf=1、時刻t=1とする(S41)。次に、基本音声変化情報を表す変数を初期化して、変化パターンd=1とする(S42)。
この変化パターンとしては、図20(a),(b)に示す2つの変化パターンを含む複数の変化パターンが記憶されている。その数は音素の数に基づいて定められ、たとえば音素数がnである場合には、変化パターン数をn×(n−1)とすることができる。
In comparing the two, first, a variable representing the frame number of the voice change unit and a variable representing the time are initialized to frame f = 1 and time t = 1 (S41). Next, a variable representing basic voice change information is initialized to change pattern d = 1 (S42).
As this change pattern, a plurality of change patterns including two change patterns shown in FIGS. 20A and 20B are stored. The number is determined based on the number of phonemes. For example, when the number of phonemes is n, the number of change patterns can be set to n × (n−1).

次に、変化パターンd=1における時刻t(d)=1の波形と、音声変化単位におけるフレームf=1の波形の類似度を算出する(S43)。その結果、類似度が一定値以上であるか否かを判断し(S44)、類似度が一定値以上であると判断したときには、変化パターンd用の記憶領域に、時刻t(d)の波形が見つかったこと、見つかった時刻(またはフレーム番号)を記憶する(S45)。そして、次の時刻t=2には、t(d)=2のパターンを対象とする旨を記憶しておく。それから、変化パターンd=1における時刻t(d)=1に1を加算して、t(d)+1(=2)とする(S46)。それから、すべての変化パターンにおいて、類似パターンが探し終わったか否かを判断する(S47)。ここでは、図20(b)に示す変化パターンd=2についての処理が終わってないので、類似パターンを探し終わっていないと判断し、次の変化パターンを加算してd+1とする(S48)。   Next, the similarity between the waveform at time t (d) = 1 in the change pattern d = 1 and the waveform in frame f = 1 in the sound change unit is calculated (S43). As a result, it is determined whether or not the similarity is greater than or equal to a certain value (S44). When it is determined that the similarity is greater than or equal to a certain value, the waveform at time t (d) is stored in the storage area for the change pattern d. Is found and the time (or frame number) at which it was found is stored (S45). At the next time t = 2, it is stored that the pattern of t (d) = 2 is targeted. Then, 1 is added to the time t (d) = 1 in the change pattern d = 1 to obtain t (d) +1 (= 2) (S46). Then, it is determined whether similar patterns have been searched for in all the change patterns (S47). Here, since the process for the change pattern d = 2 shown in FIG. 20B has not been completed, it is determined that a similar pattern has not been searched for, and the next change pattern is added to obtain d + 1 (S48).

こうして、すべての変化パターンについて、類似パターンが探し終わり、ステップS47ですべての変化パターンを探し終わったと判断したときには、フレームf=1に1を加算して、次のフレームf+1(=2)とする(S49)。それから、すべてのフレームf(=1〜8)についての処理が終了したか否かを判断を行う(S50)。その結果、処理が終了していないと判断したときには、ステップS42に戻って、再度変化パターンの初期化を行い、類似度の計算を行う(S43)。一方、すべてのフレームf(=1〜8)での処理が終了したと判断したら、変化パターンごとに記憶領域に記憶されている情報から、検出された変化パターンを出力する(S51)。このようにして、変化パターンを処理することにより、たとえば図22に示す音声変化単位から、図20(a)に示す基本音声変化単位を検出することができる。   In this way, when it is determined that similar patterns have been searched for all change patterns and all change patterns have been searched for in step S47, 1 is added to the frame f = 1 to obtain the next frame f + 1 (= 2). (S49). Then, it is determined whether or not the processing for all the frames f (= 1 to 8) has been completed (S50). As a result, when it is determined that the processing has not ended, the process returns to step S42, the change pattern is initialized again, and the similarity is calculated (S43). On the other hand, if it is determined that the processing in all the frames f (= 1 to 8) has been completed, the detected change pattern is output from the information stored in the storage area for each change pattern (S51). In this way, by processing the change pattern, for example, the basic voice change unit shown in FIG. 20A can be detected from the voice change unit shown in FIG.

こうして、音声変化単位が検出されたら、図25に示す処理を行うことにより、発話の内容を認識することができる。図25は、本実施形態に係る音声認識の手順を示すフローチャートである。   Thus, when the voice change unit is detected, the content of the utterance can be recognized by performing the processing shown in FIG. FIG. 25 is a flowchart showing a voice recognition procedure according to the present embodiment.

図24に示すフローチャートにしたがって、音声変化単位を検出したら、図25に示すように、入力された音声変化単位から、この音声変化単位対応記号情報J42(図19)を図示しない出力装置に出力する(S52)。出力装置では、音声変化比較装置44から出力された音声変化単位対応記号情報J42を参照し、複数出力される音声変化単位に対応する記号のうち、第1音声変化単位対応記号と、第2音声変化単位対応記号が時間的に連続しているか否かを判断する(S53)。   When the voice change unit is detected according to the flowchart shown in FIG. 24, as shown in FIG. 25, the voice change unit corresponding symbol information J42 (FIG. 19) is output from the input voice change unit to an output device (not shown). (S52). The output device refers to the speech change unit corresponding symbol information J42 output from the speech change comparison device 44, and among the symbols corresponding to the plurality of output speech change units, the first speech change unit correspondence symbol and the second speech It is determined whether the change unit correspondence symbols are continuous in time (S53).

その結果、時間的に連続していないと判断したときには、ステップS52に戻って同様の処理を繰り返す。一方、時間的に連続していると判断したときには、第1音声変化単位対応記号の終了を表す記号と、第2音声変化単位対応記号の開始を表す記号が同じであるか否かを判断する(S54)。たとえば、第1音声変化単位対応記号が音素Aから音素Bに変化するものであり、第2音声変化単位対応記号が音素Bから音素Cに変化するものである場合には、第1音声変化単位対応記号の終了を表す記号と第2音声変化単位対応記号の開始を表す記号とが一致すると判断する。また、たとえば第1音声変化単位対応記号が音素Aから音素Bに変化するものであり、第2音声変化単位対応記号が音素Aから音素Cに変化するものである場合には、第1音声変化単位対応記号の終了を表す記号と第2音声変化単位対応記号の開始を表す記号とが一致しないと判断する。   As a result, when it is determined that they are not continuous in time, the process returns to step S52 and the same processing is repeated. On the other hand, when it is determined that they are continuous in time, it is determined whether or not the symbol representing the end of the first speech change unit correspondence symbol and the symbol representing the start of the second speech change unit correspondence symbol are the same. (S54). For example, when the first speech change unit corresponding symbol changes from phoneme A to phoneme B and the second speech change unit correspondence symbol changes from phoneme B to phoneme C, the first speech change unit It is determined that the symbol representing the end of the corresponding symbol matches the symbol representing the start of the second speech change unit corresponding symbol. For example, if the first speech change unit corresponding symbol changes from phoneme A to phoneme B and the second speech change unit correspondence symbol changes from phoneme A to phoneme C, the first speech change It is determined that the symbol representing the end of the unit corresponding symbol does not match the symbol representing the start of the second sound change unit corresponding symbol.

その結果、第1音声変化単位対応記号の終了を表す記号と第2音声変化単位対応記号の開始を表す記号とが一致しないと判断した場合には、ステップS52に戻って同様の処理を繰り返す。一方、第1音声変化単位対応記号の終了を表す記号と第2音声変化単位対応記号の開始を表す記号とが一致していると判断したときには、第1音声変化単位対応記号と第2音声変化単位対応記号との間繋ぎ目の時間位置と対応する記号を出力する(S55)。上記の例でいえば、第1音声変化単位対応記号と第2音声変化単位対応記号の間には音素Bがあると判断する。   As a result, when it is determined that the symbol representing the end of the first voice change unit corresponding symbol and the symbol representing the start of the second voice change unit corresponding symbol do not match, the process returns to step S52 and the same processing is repeated. On the other hand, when it is determined that the symbol representing the end of the first voice change unit correspondence symbol and the symbol representing the start of the second voice change unit correspondence symbol match, the first voice change unit correspondence symbol and the second voice change A symbol corresponding to the time position of the joint between the unit correspondence symbols is output (S55). In the above example, it is determined that there is a phoneme B between the first speech change unit correspondence symbol and the second speech change unit correspondence symbol.

このような処理を繰り返すことにより、発話単語をT43(図19)を認識することができる。   By repeating such processing, the utterance word T43 (FIG. 19) can be recognized.

このように、本実施形態に係る変化情報認識装置4においては、取得した音声を音声変化単位に分割し、基本音声変化単位との比較を行って音声を検出している。このため、発話された単語等を確実に認識することができる。   Thus, in the change information recognition apparatus 4 according to the present embodiment, the acquired voice is divided into voice change units, and the voice is detected by comparing with the basic voice change unit. For this reason, the spoken word etc. can be recognized reliably.

次に、本発明の第5の実施形態について説明する。本実施形態では、変化情報として、ジェスチャ認識、歩行者認識、表情認識のような体の各部位の移動および変形に伴う体変化の認識を対象とする。   Next, a fifth embodiment of the present invention will be described. In the present embodiment, the change information is intended for recognition of body change accompanying movement and deformation of each part of the body such as gesture recognition, pedestrian recognition, and facial expression recognition.

図26は、本実施形態に係る変化情報認識装置のブロック構成図である。図26に示すように、本実施形態に係る変化情報認識装置5は、動画記憶装置51と、体変化情報記憶装置52と、体変化比較装置53と、を備えている。この変化情報認識装置5は、体変化認識装置、歩行者認識装置、表情認識装置などとして用いることができる。   FIG. 26 is a block diagram of the change information recognition apparatus according to this embodiment. As shown in FIG. 26, the change information recognition device 5 according to the present embodiment includes a moving image storage device 51, a body change information storage device 52, and a body change comparison device 53. This change information recognition device 5 can be used as a body change recognition device, a pedestrian recognition device, a facial expression recognition device, or the like.

動画記憶装置51は、図示しない動画撮像装置に接続されている。この動画撮像装置は、認識対象物となる人の体の動画を撮像しており、動画撮像装置は、撮像した動画情報J51を動画記憶装置51に出力している。   The moving image storage device 51 is connected to a moving image capturing device (not shown). This moving image imaging device images a moving image of a human body that is a recognition target, and the moving image imaging device outputs the captured moving image information J51 to the moving image storage device 51.

体変化情報記憶装置52は、人の体の動きがとり得るパターンがあらかじめ記憶された複数の体変化単位記憶装置54A,54B…を有している。体変化単位記憶装置54A,54B…には、人の体の動きを表す基本体変化単位があらかじめ記憶されている。   The body change information storage device 52 has a plurality of body change unit storage devices 54A, 54B,... In which patterns that can be taken by a human body are stored in advance. In the body change unit storage devices 54A, 54B,..., Basic body change units representing the movement of the human body are stored in advance.

体変化比較装置53には、動画記憶装置51から体変化単位情報が出力され、体変化情報記憶装置52から基本体変化単位情報が出力される。体変化比較装置53では、これらの体変化単位情報と基本体変化単位情報とを比較することにより、人の体の動きを認識する。さらに、体変化比較装置53は、図示しない出力装置に接続されており、動画記憶装置51から出力された画像上における人の体の位置を体変化単位の位置情報J52として出力装置に出力する。また、それと同時に、体変化単位に対応する記号情報J53を出力装置に出力する。出力装置においては、体変化単位の位置情報J52から口の位置情報J54を求め、体変化単位に対応する記号情報J53から、体動作の識別情報J55を求める。   Body change unit information is output from the moving image storage device 51, and basic body change unit information is output from the body change information storage device 52 to the body change comparison device 53. The body change comparison device 53 recognizes the movement of the human body by comparing the body change unit information with the basic body change unit information. Further, the body change comparison device 53 is connected to an output device (not shown), and outputs the position of the human body on the image output from the moving image storage device 51 to the output device as position information J52 of the body change unit. At the same time, the symbol information J53 corresponding to the body change unit is output to the output device. In the output device, the position information J54 of the mouth is obtained from the position information J52 of the body change unit, and the body movement identification information J55 is obtained from the symbol information J53 corresponding to the body change unit.

体変化単位記憶装置54A,54B…には、人の動きを示す動画に対応した手、足、腕などの変化を示す基本体変化単位の形状およびその形状に対応する記号情報がそれぞれ記憶されている。たとえば、図27には、ジェスチャ認識に用いる基本体変化単位の時刻t=1〜8における画像の例を示している。図27(a)〜(h)に示す基本体変化単位の例では、t=1の時点で右手を開いた様子を示しており、その手を開いた状態から開始してt=8の時点でその手を閉じるまでの様子を連続的に示している。   In the body change unit storage devices 54A, 54B,..., The shape of the basic body change unit indicating the change of the hand, the foot, the arm, etc. corresponding to the moving image indicating the movement of the person and the symbol information corresponding to the shape are stored. Yes. For example, FIG. 27 shows an example of an image at time t = 1 to 8 of a basic body change unit used for gesture recognition. In the example of the basic body change unit shown in FIGS. 27A to 27H, the state where the right hand is opened at the time of t = 1 is shown, and the time of t = 8 starts from the state where the hand is opened. Shows the state until the hand is closed.

本実施形態に係る変化情報認識装置5においては、上記第3の実施形態に係る変化情報認識装置3による変化情報認識方法と同様の方法により、人の体の位置およびその体の動作(体動作)を認識することができる。具体的には、上記第3の実施形態における口基本変形情報記憶装置32を本実施形態の体変化情報記憶装置52、口変形状態比較装置33を体変化比較装置53に置き換え、図17に示すフローチャートと同様の手順による処理を行うことにより、体変化単位の位置および体動作を認識することができる。   In the change information recognition apparatus 5 according to the present embodiment, the position of the human body and the movement of the body (body movement) are performed in the same manner as the change information recognition method by the change information recognition apparatus 3 according to the third embodiment. ) Can be recognized. Specifically, the basic mouth deformation information storage device 32 in the third embodiment is replaced with the body change information storage device 52 of this embodiment, and the mouth deformation state comparison device 33 is replaced with the body change comparison device 53, which is shown in FIG. By performing the process according to the same procedure as in the flowchart, the position and body movement of the body change unit can be recognized.

こうして、動画撮像装置から出力された動画像に基づいて、手や腕の位置と、ジェスチャに対応する記号を得ることができ、その記号からどのようなジェスチャ指示がなされているかを識別することができる。   Thus, based on the moving image output from the moving image pickup apparatus, the position of the hand or arm and the symbol corresponding to the gesture can be obtained, and what kind of gesture instruction is made can be identified from the symbol. it can.

また、変化情報認識装置5により、動画像上における歩行者の位置およびその動作を認識することもできる。図28には、歩行者認識に用いる基本体変化単位の時刻t=1〜10における画像の例を示している。図28(a)〜(j)に示す基本体変化単位の例では、t=1の時点における歩行者の姿勢を示しており、その姿勢から開始してt=10の時点における歩行者の姿勢に至るまでの動作を連続的に示している。これら図28(a)〜(j)に示される歩行者の画像は、体変化情報記憶装置52における体変化単位記憶装置54A,54B…にそれぞれあらかじめ記憶されている。   Further, the change information recognition device 5 can also recognize the position of the pedestrian on the moving image and the operation thereof. In FIG. 28, the example of the image in the time t = 1-10 of the basic body change unit used for pedestrian recognition is shown. In the example of the basic body change unit shown in FIGS. 28A to 28J, the posture of the pedestrian at the time point t = 1 is shown, and the posture of the pedestrian at the time point t = 10 starts from that posture. The operation up to is shown continuously. These pedestrian images shown in FIGS. 28A to 28J are stored in advance in the body change unit storage devices 54A, 54B... In the body change information storage device 52, respectively.

図28に示す例では、上記第3の実施形態に係る変化情報認識装置3と同様の方法により、人の歩行動作(体動作)を認識することができる。この場合も、図17に示すフローチャートと同様の手順による処理を行うことにより、体変化単位の位置および体動作を認識することができる。こうして、動画撮像装置から出力された動画像に基づいて、歩行者の位置と、歩行者の動作状況を識別することができる。   In the example shown in FIG. 28, a person's walking motion (body motion) can be recognized by the same method as the change information recognition apparatus 3 according to the third embodiment. Also in this case, the position of the body change unit and the body motion can be recognized by performing the process according to the same procedure as the flowchart shown in FIG. In this way, the position of the pedestrian and the operating situation of the pedestrian can be identified based on the moving image output from the moving image imaging apparatus.

また、図示はしないが、本実施形態に係る変化情報認識装置5により、人の表情の変化を認識することもできる。人の感情には喜怒哀楽があり、人は、それらの感情に応じた表情または無感情な表情をとる。このように、喜怒哀楽および無表情に対応する顔の5つの画像から、無表情から喜び、怒りから悲しみといった5×4の変化情報単位を用意することにより、動画像における顔の位置およびその顔の表情をも認識することができる。   Although not shown, the change information recognition apparatus 5 according to the present embodiment can also recognize a change in a human facial expression. There are emotions in human emotions, and humans have facial expressions according to those emotions or emotional facial expressions. Thus, by preparing 5 × 4 change information units such as expressionless to joy and anger to sadness from the five images of faces corresponding to emotions and expressionlessness, the position of the face and its It can also recognize facial expressions.

次に、本発明の第6の実施形態について説明する。本実施形態では、認識対象物となる物体が回転したとき、回転する物体の位置とその回転に伴う変化を認識の対象とする。   Next, a sixth embodiment of the present invention will be described. In the present embodiment, when an object to be recognized is rotated, the position of the rotating object and a change accompanying the rotation are set as recognition targets.

図29は、本実施形態に係る変化情報認識装置のブロック構成図である。図29に示すように、本実施形態に係る変化情報認識装置6は、動画記憶装置61と、回転情報記憶装置62と、回転物体比較装置63と、を備えている。この本実施形態に係る変化情報認識装置6は、回転物体認識装置として用いることができる。   FIG. 29 is a block configuration diagram of the change information recognition apparatus according to the present embodiment. As shown in FIG. 29, the change information recognition device 6 according to this embodiment includes a moving image storage device 61, a rotation information storage device 62, and a rotating object comparison device 63. The change information recognition apparatus 6 according to this embodiment can be used as a rotating object recognition apparatus.

動画記憶装置61は、図示しない動画撮像装置に接続されている。この動画撮像装置は、認識対象物となる回転する認識対象物、たとえば人の頭の動画を撮像している。この動画撮像装置は、撮像した動画情報J61を動画記憶装置61に出力している。   The moving image storage device 61 is connected to a moving image capturing device (not shown). This moving image imaging device images a rotating recognition object that becomes a recognition object, for example, a moving image of a human head. This moving image imaging device outputs the captured moving image information J61 to the moving image storage device 61.

回転情報記憶装置62は、回転する認識対象物の回転パターンがあらかじめ記憶された複数の回転単位記憶装置64A,64B…を有している。回転単位記憶装置64A,64B…には、認識対象物の回転を表す基本回転単位があらかじめ記憶されている。   The rotation information storage device 62 includes a plurality of rotation unit storage devices 64A, 64B,... In which a rotation pattern of a rotating recognition object is stored in advance. In the rotation unit storage devices 64A, 64B,..., Basic rotation units representing the rotation of the recognition object are stored in advance.

回転物体比較装置63には、動画記憶装置61から回転単位情報が出力され、回転情報記憶装置62から基本回転単位情報が出力される。回転物体比較装置63では、これらの回転単位情報と基本回転単位情報とを比較することにより、たとえば人の頭の回転に伴う変化を認識する。さらに、回転物体比較装置63は、図示しない出力装置に接続されており、動画記憶装置61から出力された画像上における人の頭の位置を回転単位の位置情報J62として出力装置に出力する。また、それと同時に、回転単位に対応する記号情報J63を出力装置に出力する。出力装置においては、回転単位の位置情報J62から回転物体である人の頭の位置情報J64を求め、回転単位に対応する記号情報J63から、回転の識別情報J65を求める。   To the rotating object comparison device 63, the rotation unit information is output from the moving image storage device 61, and the basic rotation unit information is output from the rotation information storage device 62. The rotating object comparison device 63 recognizes a change associated with, for example, the rotation of the human head by comparing the rotation unit information with the basic rotation unit information. Further, the rotating object comparison device 63 is connected to an output device (not shown), and outputs the position of the person's head on the image output from the moving image storage device 61 to the output device as position information J62 in units of rotation. At the same time, the symbol information J63 corresponding to the rotation unit is output to the output device. In the output device, the position information J64 of the head of the person who is the rotating object is obtained from the position information J62 of the rotation unit, and the rotation identification information J65 is obtained from the symbol information J63 corresponding to the rotation unit.

回転単位記憶装置64A,64B…には、人の頭の回転を示す動画に対応した頭の向きの変化を示す回転変化単位の形状およびその形状に対応する記号情報がそれぞれ記憶されている。図30(a)〜(l)は、人形の頭部が回転する際の画像を模式的に示している。このうち、図30(a)〜(e)に示す0度から始まって120度に到達するまでの回転を第1回転、図30(e)〜(i)に示す120度から始まって240度に到達するまでの回転を第2回転、図30(i)〜(l)を経て(a)に戻るまでに示す240度から始まって360度(0度)に到達するまでの回転を第3回転とする。逆に、図30(a)から始まり、図30(l)〜(i)に至るまでに示す360度(0度)から始まって240度に到達するまでの回転を第4回転、図30(i)〜(e)に示す240度から始まって120度に到達するまでの回転を第5回転、図30(e)〜(a)に示す120度から始まって0度に到達するまでの回転を第6回転とする。これらの第1回転から第6回転までの画像およびそれに対応する記号が、回転単位記憶装置64A,64B…にそれぞれ記憶されている。   The rotation unit storage devices 64A, 64B,... Each store a shape of a rotation change unit indicating a change in head orientation corresponding to a moving image indicating the rotation of a human head and symbol information corresponding to the shape. FIGS. 30A to 30L schematically show images when the doll's head rotates. Among these, the rotation starting from 0 degree shown in FIGS. 30A to 30E until reaching 120 degrees is the first rotation, and starting from 120 degrees shown in FIGS. 30E to 30I, it is 240 degrees. Rotation until reaching the second rotation, and starting from 240 degrees shown in FIGS. 30 (i) to 30 (l) and returning to (a), the rotation until reaching 360 degrees (0 degrees) is the third rotation. Rotate. On the contrary, the rotation starting from 360 degrees (0 degrees) until reaching 240 degrees starting from FIG. 30 (a) to reaching (i) to (i) is the fourth rotation, and FIG. Rotation starting from 240 degrees shown in i) to (e) until reaching 120 degrees is the fifth rotation, and starting from 120 degrees shown in FIGS. 30 (e) to (a) until reaching 0 degrees Is the sixth rotation. These images from the first rotation to the sixth rotation and the corresponding symbols are stored in the rotation unit storage devices 64A, 64B,.

本実施形態に係る変化情報認識装置6においては、上記第3の実施形態に係る変化情報認識装置3による変化情報認識方法と同様の方法により、回転する認識対象物からなる回転単位の位置およびその回転動作を認識することができる。具体的には、上記第3の実施形態における口基本変形情報記憶装置32を本実施形態の回転情報記憶装置62、口変形状態比較装置33を回転物体比較装置63に置き換え、図17に示すフローチャートと同様の手順による処理を行うことにより、回転単位の位置および回転動作を認識することができる。   In the change information recognition device 6 according to the present embodiment, the position of the rotation unit composed of the recognition object to be rotated and its position are determined by the same method as the change information recognition method by the change information recognition device 3 according to the third embodiment. Rotational motion can be recognized. Specifically, the basic mouth deformation information storage device 32 in the third embodiment is replaced with the rotation information storage device 62 and the mouth deformation state comparison device 33 in the present embodiment, and the flowchart shown in FIG. By performing the process according to the same procedure as in step 1, the position of the rotation unit and the rotation operation can be recognized.

こうして、動画撮像装置から出力された動画像に基づいて、回転する認識対象物の位置と、回転単位に対応する記号を得ることができ、その記号からどのような回転状態となっているかを識別することができる。   Thus, based on the moving image output from the moving image pickup device, the position of the rotating recognition object and the symbol corresponding to the rotation unit can be obtained, and the rotation state is identified from the symbol. can do.

次に、本発明に第7の実施形態について説明する。図31は、本実施形態に係る変化情報認識装置のブロック構成図である。図31に示すように、本実施形態に係る変化情報認識装置7は、学習装置71と認識装置72とを備えている。学習装置71には、特徴空間生成装置73が設けられており、学習装置71と認識装置72とのそれぞれに用いる射影装置74が設けられている。   Next, a seventh embodiment of the present invention will be described. FIG. 31 is a block diagram of the change information recognition apparatus according to this embodiment. As illustrated in FIG. 31, the change information recognition device 7 according to the present embodiment includes a learning device 71 and a recognition device 72. The learning device 71 is provided with a feature space generation device 73 and a projection device 74 used for each of the learning device 71 and the recognition device 72.

学習装置71における特徴空間生成装置73には、あらかじめ用意された学習用系列情報J71が入力されている。特徴空間生成装置73には、学習用系列情報J71をサンプル用としてたとえば30程度用意されており、特徴空間生成装置73は、これらの学習用系列情報J71から特徴空間を生成する。   Learning feature information J71 prepared in advance is input to the feature space generation device 73 in the learning device 71. For example, about 30 pieces of learning sequence information J71 are prepared as samples for the feature space generation device 73, and the feature space generation device 73 generates a feature space from these pieces of learning sequence information J71.

射影装置74は、特徴空間生成装置73および図示しない動画撮像装置に接続されている。特徴空間生成装置73は、特徴空間を生成するための特徴空間生成情報を射影装置74に出力する。また、図示しない動画撮像装置は、認識対象物となる口を含む顔の動画を撮像しており、撮像された顔の動画像が認識用系列情報J72として動画撮像装置から出力される。射影装置74は、動画撮像装置から出力された顔の動画像(認識用系列情報J72)から、この動画像を特徴空間に射影して得られる射影軌跡を生成している。   The projection device 74 is connected to the feature space generation device 73 and a moving image imaging device (not shown). The feature space generation device 73 outputs feature space generation information for generating a feature space to the projection device 74. A moving image capturing apparatus (not shown) captures a moving image of a face including a mouth that is a recognition target, and the captured moving image of the face is output from the moving image capturing apparatus as recognition sequence information J72. The projection device 74 generates a projection locus obtained by projecting the moving image onto the feature space from the moving image of the face (recognition sequence information J72) output from the moving image capturing device.

また、学習装置71には、特徴空間に、後に説明するチューブ状のモデル(以下「ハイパーチューブ」という)を生成するハイパーチューブ生成装置75が設けられており、学習装置71および認識装置72のそれぞれに用いるハイパーチューブ記憶装置76が設けられている。さらに、認識装置72には、特徴空間におけるハイパーチューブの変化を認識する系列比較装置77が設けられている。射影装置74は、ハイパーチューブ生成装置75および系列比較装置77に動画像の射影軌跡を射影軌跡情報として出力する。   Further, the learning device 71 is provided with a hypertube generation device 75 that generates a tube-shaped model (hereinafter referred to as “hypertube”), which will be described later, in the feature space, and each of the learning device 71 and the recognition device 72 is provided. A hypertube storage device 76 used for the above is provided. Further, the recognition device 72 is provided with a series comparison device 77 that recognizes a change in the hypertube in the feature space. The projection device 74 outputs the projection trajectory of the moving image as projection trajectory information to the hypertube generation device 75 and the series comparison device 77.

ハイパーチューブ生成装置75は、射影装置74から出力された動画像の射影軌跡情報から、特徴空間におけるハイパーチューブを生成し、ハイパーチューブ情報としてハイパーチューブ記憶装置76に出力する。ハイパーチューブ記憶装置76では、ハイパーチューブ生成装置75から出力されたハイパーチューブ情報およびそれぞれのハイパーチューブに対応する記号を記憶している。また、ハイパーチューブ記憶装置76は、記憶しているハイパーチューブ情報およびそれに対応する記号を系列比較装置77に出力する。系列比較装置77では、射影装置74から出力された射影軌跡およびハイパーチューブ記憶装置76から出力されたハイパーチューブ情報を比較することにより、変化情報単位の位置およびそれに対応する記号を求める。それから、それぞれ変化情報単位位置情報J73および変化情報対応記号情報J74として、それぞれ図示しない出力装置に出力する。   The hypertube generation device 75 generates a hypertube in the feature space from the projection trajectory information of the moving image output from the projection device 74 and outputs the hypertube to the hypertube storage device 76 as hypertube information. The hypertube storage device 76 stores the hypertube information output from the hypertube generation device 75 and symbols corresponding to the respective hypertubes. Further, the hypertube storage device 76 outputs the stored hypertube information and the corresponding symbol to the series comparison device 77. The series comparison device 77 compares the projection trajectory output from the projection device 74 with the hypertube information output from the hypertube storage device 76 to obtain the position of the change information unit and the corresponding symbol. Then, the change information unit position information J73 and the change information corresponding symbol information J74 are output to output devices (not shown), respectively.

本実施形態に係る特徴空間生成装置73では、画像から所定の特徴量を取り出して特徴空間で表現している。たとえば、1枚の画像の特徴量が3次元ベクトルで表現される場合、1枚の画像は三次元空間上の1点として表現される。この前提のもと、たとえば図32(a)〜(i)に示す「ん」から「あ」を発話する口の動きを示す9枚の画像を連続させた動画像を入力し、それらの9枚の画像をそれぞれ三次元空間上にプロットする。すると、図33に示すように、この動画像を表す9枚の各画像は、それらの各画像の点をその時間順に結んだ特徴空間上の軌跡として表現される。   In the feature space generation device 73 according to the present embodiment, a predetermined feature amount is extracted from the image and expressed in the feature space. For example, when the feature amount of one image is expressed by a three-dimensional vector, one image is expressed as one point in a three-dimensional space. Under this assumption, for example, a moving image in which nine images indicating the movement of the mouth that speaks “a” to “a” shown in FIGS. Each image is plotted on a three-dimensional space. Then, as shown in FIG. 33, each of the nine images representing this moving image is represented as a trajectory in the feature space that connects the points of each of the images in the order of time.

この特徴量は特に限定されるものではないが、たとえば主成分分析によって得られた上位固有値に対応する固有ベクトルを基底とする空間(固有空間)への射影成分とすることができる。たとえば、いま、画像をベクトルとみなすと、縦16×横16画素の濃淡画像は、各要素に濃淡値を持つ16×16=256次元のベクトルとして表現することができる。そこで、ベクトルとして表現された多数の画像を学習用系列情報J71とし、これらの学習用系列情報J71におけるベクトルの分散共分散行列を求め、その固有ベクトルと対応する固有値を求める。そして、固有値の値の大きい方から3つの固有ベクトルを取り出し、これらの3つのベクトルが張る空間を特徴空間(固有空間)とする。そして、学習用系列情報J71における256次元のベクトルデータを、この特徴空間に射影したときの成分を各軸の値として持つ点を考えると、ある256次元空間の1点として表現できる1枚の画像は、三次元空間の1点として表現することができる。   Although this feature amount is not particularly limited, for example, it can be a projection component to a space (eigenspace) based on an eigenvector corresponding to a higher eigenvalue obtained by principal component analysis. For example, assuming that an image is a vector, a grayscale image of 16 × 16 pixels can be expressed as a 16 × 16 = 256-dimensional vector having gray values in each element. Therefore, a large number of images expressed as vectors are used as learning sequence information J71, and a variance covariance matrix of vectors in these learning sequence information J71 is obtained, and eigenvalues corresponding to the eigenvectors are obtained. Then, three eigenvectors are extracted from the larger eigenvalue, and the space spanned by these three vectors is defined as a feature space (eigenspace). Then, considering the point that the component when the 256-dimensional vector data in the learning sequence information J71 is projected onto this feature space is the value of each axis, one image that can be expressed as one point in a certain 256-dimensional space Can be expressed as a point in a three-dimensional space.

この点について、さらに具体的に説明すると、たとえば学習用系列情報J71として、図14に示す30パターンの変形単位の動画像を表す複数の画像を複数の人数分用意する。そのうちの1つのパターンである変形単位、たとえば記号12で表される変形単位の場合では、「あ」を発音したときの口の形から、「い」を発音したときの口の形まで変形する口の形の変形を連続的に数枚の画像で表現する。このような図14に示す30パターンの変形単位について、複数人数分の学習用系列情報J71を用意し、これらの学習用系列情報J71から特徴空間(固有空間)を求める。   This point will be described more specifically. For example, as learning sequence information J71, a plurality of images representing a moving image of 30 patterns of deformation units shown in FIG. 14 are prepared for a plurality of persons. In the case of the deformation unit that is one of the patterns, for example, the deformation unit represented by the symbol 12, the shape changes from the shape of the mouth when “a” is pronounced to the shape of the mouth when “i” is pronounced. Mouth shape deformation is expressed continuously with several images. For such 30 pattern deformation units shown in FIG. 14, learning sequence information J71 for a plurality of persons is prepared, and a feature space (eigenspace) is obtained from the learning sequence information J71.

ここで求められた特徴空間は、学習用系列情報J71を用いた口画像をより少ない情報量として表現することができる空間となっている。この特徴空間では、見かけ上わずかな違いしかない変形をしている画像は、特徴空間の中では互いに近い位置の点に射影される。   The feature space obtained here is a space in which a mouth image using the learning sequence information J71 can be expressed as a smaller amount of information. In this feature space, images that are deformed with a slight difference in appearance are projected to points close to each other in the feature space.

次に、ハイパーチューブの生成について説明する。   Next, generation of the hypertube will be described.

特徴空間生成装置73で特徴空間が生成された後、射影装置74には学習用系列情報J71が出力される。射影装置74では、生成された特徴空間に学習用系列情報J71を射影して射影軌跡を生成する。図34は、三次元の特徴空間を示しており、この特徴空間に、たとえば「ん」→「あ」の変形を示す折れ線C1、「ん」→「い」の変形を示す折れ線C2、「ん」→「う」の変形を示す折れ線C3、「ん」→「え」の変形を示す折れ線C4、「ん」→「お」の変形を示す折れ線C5それぞれが描く軌跡が示されている。そして、これらの軌跡を滑らかな曲線として表現する。   After the feature space is generated by the feature space generation device 73, the learning sequence information J71 is output to the projection device 74. The projection device 74 projects the learning sequence information J71 onto the generated feature space to generate a projection locus. FIG. 34 shows a three-dimensional feature space. In this feature space, for example, a broken line C1 showing a deformation of “n” → “a”, a broken line C2 showing a deformation of “n” → “i”, “n” A trajectory drawn by a polygonal line C3 indicating a deformation of “」 ”→“ u ”, a polygonal line C4 indicating a deformation of“ n ”→“ e ”, and a polygonal line C5 indicating a deformation of“ n ”→“ o ”is shown. These trajectories are expressed as smooth curves.

ところで、当然のことながら、同じ音を発している場合でも、人によって口の形は微妙に異なっているし、口の開き方や口の形も微妙に違う。したがって、同じ発話であっても特徴空間に描かれる軌跡はまったく同じものにはならず、適当なばらつきを持っていることになる。たとえば図35に示す曲線では、複数の人(6人)がある発話を行った際の口の動きを特徴空間に射影した際の曲線C1〜C6を示している。これらの複数の曲線C1〜C6に見られるように、特徴空間に描かれる軌跡はまったく同じものにはならず、適当なばらつきを持っている。   Of course, even if the same sound is emitted, the shape of the mouth is slightly different depending on the person, and the way of opening the mouth and the shape of the mouth are also slightly different. Therefore, even if the utterance is the same, the trajectories drawn in the feature space are not exactly the same, and have appropriate variations. For example, the curves shown in FIG. 35 show the curves C1 to C6 when the movement of the mouth when a certain utterance is made is projected onto the feature space. As can be seen from the plurality of curves C1 to C6, the trajectories drawn in the feature space are not exactly the same, and have appropriate variations.

そこで、図36に示すように、同じ変形を表す複数の軌跡を代表する曲線CCを1つ設定し、その代表軌跡のまわりのばらつきを円E1,E2…の半径で表現すると、ちょうどチューブ状のモデルを構成することができる。このチューブ状のモデルをハイパーチューブHTとすることができる。   Therefore, as shown in FIG. 36, when one curve CC representing a plurality of trajectories representing the same deformation is set, and the variation around the representative trajectory is expressed by the radii of circles E1, E2,. A model can be constructed. This tubular model can be a hypertube HT.

このハイパーチューブHTは、同一の変形を表すものであるが、個人差などによって生じるばらつきを確率的に表現したモデルとであると考えることができる。このハイパーチューブHTを生成する際の代表の軌跡CCを求めるには、図35に示すような同一の変形を表す複数の軌跡C1〜C6などを平均したものとすることもできるし、別の適当な計算方法を採用することもできる。また、ばらつきを表す円の半径は、代表軌跡上の各点の進行方向とは垂直の方向にある各軌跡上の点までの距離の分散σ2を求めた上でそのばらつきを正規分布とみなして95%点である1.96σを半径とすることもできるし、他の方法を用いて求めてもよい。   The hypertube HT represents the same deformation, but can be considered as a model that probabilistically represents variations caused by individual differences. In order to obtain the representative trajectory CC when generating the hypertube HT, a plurality of trajectories C1 to C6 representing the same deformation as shown in FIG. 35 can be averaged, or another appropriate trajectory can be obtained. It is also possible to adopt a simple calculation method. In addition, the radius of the circle representing the variation is obtained by calculating the variance σ2 of the distance to the point on each locus in the direction perpendicular to the traveling direction of each point on the representative locus, and regarding the variation as a normal distribution. The radius of 1.96σ, which is the 95% point, may be used, or may be obtained using another method.

こうして生成したハイパーチューブHTを特徴空間上に1つまたは複数配置しておく。複数のハイパーチューブHTを配置した場合、1つのハイパーチューブは1つの変形に対応することになる。図37に複数のハイパーチューブを配置した特徴空間を示すが、たとえばハイパーチューブHT1はある変形A、たとえば発話時の「あ」から「い」への変形を表し、ハイパーチューブHT2は、別の変形B、たとえば発話時の「う」から「え」への変形を表している。図37中では、ハイパーチューブはHT1,HT2の2つが存在している。図中のa,b,cは、射影装置74から出力された動画像の射影軌跡情報に相当する。   One or more hypertubes HT generated in this way are arranged on the feature space. When a plurality of hypertubes HT are arranged, one hypertube corresponds to one deformation. FIG. 37 shows a feature space in which a plurality of hypertubes are arranged. For example, a hypertube HT1 represents a certain deformation A, for example, a deformation from “A” to “I” during speech, and a hypertube HT2 represents another deformation. B, for example, represents a transformation from “U” to “E” during speech. In FIG. 37, there are two hypertubes, HT1 and HT2. In the drawing, a, b, and c correspond to the projection trajectory information of the moving image output from the projection device 74.

続いて、本実施形態に係る変化情報認識装置7による変化情報認識方法について説明する。ここでは、まず、ハイパーチューブを生成する手順について説明する。図38は、本実施形態に係る変化情報認識方法のうち、ハイパーチューブを生成する手順を示すフローチャートである。学習装置71には、あらかじめ多くの変化情報を学習させてハイパーチューブを生成させる。認識装置72では、そのハイパーチューブを利用して、変化情報の認識を行う。ハイパーチューブを生成するための学習用系列情報J71となる動画像はある音を発音したときの口の形から、別の音を発音したときの口の形への変形を連続して時間順に並べたものである。これを一つの変形単位とすると、認識したいすべての変形分の学習用系列情報J71を複数人数、たとえば300人分それぞれの変化分について用意する(S71)。変化単位のパターン数は、図14に示したとおり30パターンが必要である。このパターン数は、認識する対象と認識の詳細さによって適宜規定することができる。たとえば、変化情報認識装置7を音声認識装置として用いて音声認識を行う場合、音素の数が29であれば、とり得る変形のパターンは29×28の812パターンとなる。   Subsequently, a change information recognition method by the change information recognition apparatus 7 according to the present embodiment will be described. Here, first, a procedure for generating a hypertube will be described. FIG. 38 is a flowchart showing a procedure for generating a hypertube in the change information recognition method according to the present embodiment. The learning device 71 learns a lot of change information in advance and generates a hypertube. The recognition device 72 recognizes the change information using the hypertube. The moving image serving as the learning sequence information J71 for generating the hypertube continuously arranges the deformation from the mouth shape when a certain sound is pronounced to the mouth shape when another sound is pronounced in time order. It is a thing. Assuming that this is one deformation unit, learning sequence information J71 for all the deformations to be recognized is prepared for each of a plurality of people, for example, 300 people (S71). As shown in FIG. 14, 30 patterns are required for the number of patterns of change units. The number of patterns can be appropriately defined according to the recognition target and the details of the recognition. For example, when speech recognition is performed using the change information recognition device 7 as a speech recognition device, if the number of phonemes is 29, the possible deformation patterns are 29 × 28 812 patterns.

次に、300人分用意した学習用系列情報J71から、特徴空間生成装置73を用いて特徴空間を生成する(S72)。特徴空間の生成は次のように行われる。一般に、画像の画素ごとの色や濃淡値をそのまま扱おうとすると、情報量が多すぎて計算時間が掛かり過ぎたり、認識には不必要な余計な情報が含まれていたりするために、これらのことが問題となることが多い。そこで、画像から何らかの特徴量を取り出して処理をすることが一般的である。本実施形態では、画素ごとの濃淡値を特徴量として利用する。いま、1枚の画像の画素数をnとすると、上記のとおり、濃淡画像の場合には画素ごとの濃淡値(特徴量)を要素として持つn次元のベクトルとして表現することができ、それはn次元空間上の1点として表される。ここで、画像から取り出された特徴量がm次元ベクトルで表されるとし、m<nであるならば、n次元の情報量を持つ1枚の画像は、特徴量抽出によりm次元に圧縮され、m次元空間上の1点として表すことができる。特徴空間生成装置73では、このm次元の空間を張るm本の軸を求める。本実施形態では、3本の軸を求めて3次元空間を生成した場合について説明する。   Next, a feature space is generated from the learning sequence information J71 prepared for 300 persons using the feature space generation device 73 (S72). The feature space is generated as follows. In general, if you try to handle the color and gray value of each pixel of an image as they are, the amount of information is too much and it takes too much time to calculate, or it includes extra information that is unnecessary for recognition. Often becomes a problem. Therefore, it is common to extract some characteristic amount from the image and perform processing. In the present embodiment, the gray value for each pixel is used as the feature amount. Assuming that the number of pixels of one image is n, as described above, in the case of a grayscale image, it can be expressed as an n-dimensional vector having a grayscale value (feature value) for each pixel as an element. Expressed as a point in the dimensional space. Here, assuming that the feature quantity extracted from the image is represented by an m-dimensional vector, and if m <n, one image having an n-dimensional information quantity is compressed to m dimension by feature quantity extraction. , And can be expressed as one point on the m-dimensional space. The feature space generation device 73 obtains m axes that span the m-dimensional space. In the present embodiment, a case where a three-dimensional space is generated by obtaining three axes will be described.

特徴空間を求めるにはさまざまな方法があるが、本実施形態では、固有空間を特徴空間としている。固有空間とは、主成分分析により求められた固有ベクトルと固有値のペアのうち、固有値大きい方からm個の固有ベクトルが張る空間をいう。1枚の画像をn次元のベクトルとみなし、ここではその画像のベクトルをxと示す。固有空間を求めるには、最低2枚の画像のベクトルが必要であるが、画像が多量にあることが望ましい。これらの複数の画像におけるそれぞれのベクトルxを入力して分散共分散行列を、下記(1)式によって算出する。   There are various methods for obtaining the feature space. In this embodiment, the eigenspace is used as the feature space. The eigenspace is a space spanned by m eigenvectors from the larger eigenvalue of the eigenvector-eigenvalue pairs obtained by the principal component analysis. One image is regarded as an n-dimensional vector, and the vector of the image is denoted by x here. In order to obtain the eigenspace, a vector of at least two images is required, but it is desirable that there are a large number of images. Each vector x in the plurality of images is inputted, and a variance-covariance matrix is calculated by the following equation (1).

S=E{(x−mx)(x−mx)T} ・・・(1)
ここで、mxは、複数のベクトルxの平均ベクトルで、mx=E{x}と定義される。
S = E {(x−mx) (x−mx) T} (1)
Here, mx is an average vector of a plurality of vectors x and is defined as mx = E {x}.

次に、(2)式に示す固有値問題を解く。   Next, the eigenvalue problem shown in equation (2) is solved.

Suj=λjuj ・・・(2)
上記(2)式において、求めるべき固有空間の次元をm次元とすると、固有値の大きさを比較し、大きい方からm個の固有値に対応する固有ベクトル{u1,u2,・・・,um}によって張られる空間が特徴空間となる。本実施形態では、3次元の固有空間を生成する(m=3)ので、固有ベクトル{u1,u2,u3}から3次元の固有空間を生成する。
Suj = λjuj (2)
In the above equation (2), when the dimension of the eigenspace to be obtained is m dimension, the magnitudes of the eigenvalues are compared, and the eigenvectors {u1, u2,..., Um} corresponding to the m eigenvalues from the largest are compared. The stretched space becomes the feature space. In this embodiment, since a three-dimensional eigenspace is generated (m = 3), a three-dimensional eigenspace is generated from the eigenvectors {u1, u2, u3}.

こうして特徴空間を生成したら、射影装置74には、学習用系列情報J71が出力されるとともに、特徴空間生成装置73から特徴空間生成情報である固有ベクトルu(={u1,u2,・・・,um})が出力される。射影装置74では、動画像を特徴空間に射影して得られる射影軌跡を生成する。この射影軌跡としては、上記固有ベクトルuを利用し、学習用系列情報J71の画像におけるn次元ベクトルxを下記(3)式によって変換されてなるm次元特徴ベクトルyを用いることができる。   When the feature space is generated in this way, the learning sequence information J71 is output to the projection device 74, and the eigenvector u (= {u1, u2,..., Um) that is the feature space generation information from the feature space generation device 73. }) Is output. The projection device 74 generates a projection locus obtained by projecting the moving image onto the feature space. As the projection locus, the eigenvector u can be used, and an m-dimensional feature vector y obtained by converting the n-dimensional vector x in the image of the learning sequence information J71 by the following equation (3) can be used.

y={u1,u2,・・・,um}Tx ・・・(3)
上記のように、本実施形態では、m=3としているので、3次元特徴ベクトルyとする。
y = {u1, u2,..., um} Tx (3)
As described above, in this embodiment, since m = 3, the three-dimensional feature vector y is used.

こうして特徴空間および3次元特徴ベクトルを生成したら、特徴空間生成装置73は特徴空間をハイパーチューブ生成装置75に出力し、射影装置74は、3次元特徴ベクトルをハイパーチューブ生成装置75に出力する。ハイパーチューブ生成装置75では、出力された特徴空間および3次元特徴ベクトルに基づいて、ハイパーチューブを生成する。ハイパーチューブを生成する前提として、1枚の画像は3次元特徴空間上の1点に射影されることになるので、一連の変形を表す画像列はその3次元特徴空間上の点の軌跡として表すことができる。ここで、学習用系列情報J71が、複数の変形単位ごとに用意されているので、射影装置74からは、学習用系列情報J71の数に対応する複数の3次元特徴ベクトル列が出力される。ハイパーチューブ生成装置75では、これらの複数の3次元特徴ベクトル列を、射影前の学習用系列情報J71における変形単位ごとに分類する(S73)。続いて、射影前の学習用系列情報J71における変形単位ごとに分類された3次元特徴ベクトル列を、それらの変形単位ごとに特徴空間にプロットする、変形単位の数に対応した複数の軌跡を求める(S74)。これらの軌跡は、たとえば図35に示す曲線C1〜C6で表される。   When the feature space and the three-dimensional feature vector are generated in this way, the feature space generation device 73 outputs the feature space to the hypertube generation device 75, and the projection device 74 outputs the three-dimensional feature vector to the hypertube generation device 75. The hypertube generation device 75 generates a hypertube based on the output feature space and the three-dimensional feature vector. As a premise for generating a hypertube, since one image is projected onto one point on the three-dimensional feature space, an image sequence representing a series of deformations is represented as a locus of points on the three-dimensional feature space. be able to. Here, since the learning sequence information J71 is prepared for each of a plurality of deformation units, the projection device 74 outputs a plurality of three-dimensional feature vector sequences corresponding to the number of the learning sequence information J71. The hypertube generation device 75 classifies the plurality of three-dimensional feature vector sequences for each deformation unit in the learning sequence information J71 before projection (S73). Subsequently, a plurality of loci corresponding to the number of deformation units are obtained by plotting the three-dimensional feature vector sequence classified for each deformation unit in the learning sequence information J71 before projection in the feature space for each deformation unit. (S74). These trajectories are represented by, for example, curves C1 to C6 shown in FIG.

こうして、特徴空間における複数の軌跡を求めたら、これらの複数の軌跡を代表する代表軌跡を求める(S75)。代表軌跡は、様々の方法により求めることができるが、ここでは得られる複数の軌跡の平均を採用する方法について説明する。いま、各軌跡は同一の種類の変形を表す軌跡であるので、特徴空間上ではおおむね似た軌跡を描く。しかし、同一の種類の変形を表す場合でも、その系列を構成する3次元特徴ベクトルの数と配置は同じとは限らない。いま、特徴空間に3次元特徴ベクトルをプロットした点をつないで形成した3つの軌跡の例を図39(a)に示す。図39に示す例では、同一の変形を示す3つの軌跡C11〜C13を示しており、軌跡C11は、特徴空間にプロットされた6つの点P11〜P16をつないで形成されている。これに対して、軌跡C12は、特徴空間にプロットされた5つの点P21〜P25を、軌跡C13は、特徴空間にプロットされた5つの点P31〜P35をそれぞれつないで形成されている。   Thus, when a plurality of trajectories in the feature space are obtained, representative trajectories representing these plural trajectories are obtained (S75). The representative trajectory can be obtained by various methods. Here, a method of employing an average of a plurality of obtained trajectories will be described. Now, since each trajectory is a trajectory representing the same type of deformation, a trajectory that is generally similar is drawn in the feature space. However, even when representing the same type of deformation, the number and arrangement of the three-dimensional feature vectors constituting the series are not necessarily the same. FIG. 39A shows an example of three trajectories formed by connecting points plotted with three-dimensional feature vectors in the feature space. In the example shown in FIG. 39, three trajectories C11 to C13 showing the same deformation are shown, and the trajectory C11 is formed by connecting six points P11 to P16 plotted in the feature space. In contrast, the locus C12 is formed by connecting five points P21 to P25 plotted in the feature space, and the locus C13 is formed by connecting five points P31 to P35 plotted in the feature space.

そこで、各軌跡が同数の点から構成されるように、各軌跡C11〜C13上の点をプロットし直す再設定を行う。各軌跡C11〜C13上の点をプロットし直す方法としては、スプライン曲線法などのさまざまな方法があるが、ここでは、単純に軌跡C11〜C13を、それぞれが同じ距離比率となるように設定する。そのため、図40に示すように、各軌跡C11〜C13をそれぞれ7つの点から構成されるように、点を配置しなおしている。こうして、軌跡C11上には点P41〜P47、軌跡C12上には点P51〜P57、軌跡C13上には点P61〜P67がそれぞれ配置された形になる。   Therefore, resetting is performed by re-plotting the points on the trajectories C11 to C13 so that each trajectory is composed of the same number of points. There are various methods such as the spline curve method for re-plotting the points on the trajectories C11 to C13. Here, the trajectories C11 to C13 are simply set to have the same distance ratio. . Therefore, as shown in FIG. 40, the points are rearranged so that each of the trajectories C11 to C13 is composed of seven points. Thus, points P41 to P47 are arranged on the locus C11, points P51 to P57 are arranged on the locus C12, and points P61 to P67 are arranged on the locus C13.

そして、これらの各軌跡C11〜C13について、それぞれ順番が対応する点の座標値の平均を算出し、この座標値の平均にあたる点をそれぞれプロットして、これらの点をつなぎ合わせる。具体的には、軌跡C11における点P41、軌跡C12における点P51、軌跡C13における点P61の座標の平均値を計算して、点P71の座標を算出する。同様に、点P42,P52,P62の座標から点P72の座標、点P43,P53,P63の座標から点P73の座標、点P44,P54,P64の座標から点P74の座標を算出する。また、点P45,P55,P65の座標から点P75の座標、点P46,P56,P66の座標から点P76の座標、点P47,P57,P67の座標から点P77の座標をそれぞれ算出する。こうして求められた各点P71〜P77をつなぎ合わせることにより、代表軌跡CCを生成することができる。   And about each of these locus | trajectories C11-C13, the average of the coordinate value of the point to which an order respectively respond | corresponds is calculated, the point which corresponds to the average of this coordinate value is each plotted, and these points are connected. Specifically, the coordinates of the point P71 are calculated by calculating the average value of the coordinates of the point P41 on the locus C11, the point P51 on the locus C12, and the point P61 on the locus C13. Similarly, the coordinates of the point P72 are calculated from the coordinates of the points P42, P52, and P62, the coordinates of the point P73 are calculated from the coordinates of the points P43, P53, and P63, and the coordinates of the point P74 are calculated from the coordinates of the points P44, P54, and P64. Further, the coordinates of the point P75 are calculated from the coordinates of the points P45, P55, and P65, the coordinates of the point P76 are calculated from the coordinates of the points P46, P56, and P66, and the coordinates of the point P77 are calculated from the coordinates of the points P47, P57, and P67, respectively. The representative trajectory CC can be generated by connecting the points P71 to P77 thus obtained.

こうして、代表軌跡を求めたら、代表軌跡の各点について、その周囲の軌跡までの距離の分散を求める(S76)。この分散は、代表軌跡CC上の各点P71〜P77における代表軌跡CMの進行方向と直交する方向に超平面を仮定し、この超平面と各軌跡C11〜C13とが交差したとの距離の分散によって求めることができる。なお、本実施形態では3次元空間の例を示しているので、超平面ではなく二次元の平面であるが、説明の容易のため、以降も超平面と記述する。この点について、図41を用いて説明すると、代表軌跡CM上の点P72における代表軌跡CMの進行方向と直交する超平面SP2を仮定する。この超平面SP2と、各軌跡C11〜C13とが交差する各点P42A,P52A,P53Aを求める。そして、点P72と点P42Aとの距離、点P72と点52Aとの距離、および点P72と点62Aとの距離の分散を求める。そして、この分散を、たとえば下記(4)式に示す関数における引数xに代入する。   When the representative trajectory is thus obtained, the variance of the distance to the surrounding trajectory is obtained for each point of the representative trajectory (S76). This variance assumes a hyperplane in a direction orthogonal to the traveling direction of the representative trajectory CM at each point P71 to P77 on the representative trajectory CC, and the variance of the distance at which this hyperplane intersects each trajectory C11 to C13. Can be obtained. In the present embodiment, an example of a three-dimensional space is shown, and thus a two-dimensional plane is used instead of a hyperplane. This point will be described with reference to FIG. 41. A hyperplane SP2 orthogonal to the traveling direction of the representative trajectory CM at the point P72 on the representative trajectory CM is assumed. Points P42A, P52A, and P53A where the hyperplane SP2 and the trajectories C11 to C13 intersect are obtained. Then, the dispersion of the distance between the point P72 and the point P42A, the distance between the point P72 and the point 52A, and the distance between the point P72 and the point 62A is obtained. Then, this variance is substituted into an argument x in a function shown in the following formula (4), for example.

f(x)=1.96(x)1/2 ・・・(4)
なお、ここで用いた係数の1.96は、係数の一例である。
f (x) = 1.96 (x) 1/2 (4)
The coefficient 1.96 used here is an example of a coefficient.

そして、図42に示すように、この(4)式における引数xとして求めたf(x)を入力した値を半径とする円E2を超平面SP2上に設定する。また、代表軌跡CC上におけるその他の各点P71、P73〜P77についても、同様の処理によって超平面SP1,SP3〜SP7を求め、その上に図36に示すような円E1,E3〜E7を求める。こうして、分散を引数とした関数の値を半径とする円E1〜E7を各点P71〜P77に設定して(S77)、これらの円E1〜E7をつなげることにより、図36に示すようなハイパーチューブHTを生成することができる。   Then, as shown in FIG. 42, a circle E2 having a radius of the value obtained by inputting f (x) obtained as the argument x in the equation (4) is set on the hyperplane SP2. Further, for the other points P71 and P73 to P77 on the representative trajectory CC, hyperplanes SP1, SP3 to SP7 are obtained by similar processing, and circles E1, E3 to E7 as shown in FIG. 36 are obtained thereon. . Thus, by setting circles E1 to E7 whose radius is the value of a function having variance as an argument to each point P71 to P77 (S77) and connecting these circles E1 to E7, the hyper as shown in FIG. Tube HT can be generated.

このようにしてハイパーチューブを生成した後に、認識処理を行うことができるようになる。続いて、ハイパーチューブを用いた変化認識の処理について説明する。図43は、本実施形態に係る変化情報認識方法の手順を示すフローチャートである。   After generating the hypertube in this way, recognition processing can be performed. Next, change recognition processing using a hypertube will be described. FIG. 43 is a flowchart showing the procedure of the change information recognition method according to this embodiment.

まず、図示しない動画像撮像において、認識対象物となる人の口を含む顔の動画像を撮像し、認識用系列情報として射影装置74に出力する。射影装置74においては、入力された動画像に対して、適当な大きさのウィンドウを設定する(S81)。ウィンドウを設定したら、このウィンドウに合わせて、出力された動画像の一部を切り取る(S82)。このようにして動画像の一部を切り取ることにより、ウィンドウの大きさに切り取られた動画を得ることができる。続いて、切り取ったウィンドウの大きさを適宜拡大縮小し、最終的に動画の大きさを学習用画像(学習用系列情報J71作成する際に用いる画像)の大きさに合わせる(S83)。こうして、大きさを調整されたウィンドウにおける動画を、特徴空間生成装置73で生成した特徴空間上に、ハイパーチューブを作成したのと同様の手順によって、その軌跡として写像し、入力系列軌跡を生成する(S84)。こして生成した入力系列軌跡は、系列比較装置77に出力される。また、系列比較装置77には、ハイパーチューブ記憶装置76に記憶されている複数のハイパーチューブおよびそのハイパーチューブに対応する記号が出力される。   First, in moving image capturing (not shown), a moving image of a face including a person's mouth as a recognition target is captured and output to the projection device 74 as recognition sequence information. The projection device 74 sets a window of an appropriate size for the input moving image (S81). After the window is set, a part of the output moving image is cut out in accordance with this window (S82). By cutting out a part of the moving image in this way, a moving image cut into the size of the window can be obtained. Subsequently, the size of the clipped window is appropriately scaled up and down, and finally the size of the moving image is matched with the size of the learning image (image used when creating the learning sequence information J71) (S83). Thus, the moving image in the window whose size has been adjusted is mapped as a locus on the feature space generated by the feature space generation device 73 by the same procedure as that for creating a hypertube, and an input sequence locus is generated. (S84). The input sequence trajectory generated in this way is output to the sequence comparison device 77. The series comparison device 77 outputs a plurality of hypertubes stored in the hypertube storage device 76 and symbols corresponding to the hypertubes.

系列比較装置77では、射影装置74から出力された入力系列軌跡およびハイパーチューブ記憶装置76から出力されたハイパーチューブを比較し、両者の適合度を求める(S85)。両者の適合度は次のようにして求めることができる。上述のように、ハイパーチューブHTは、同一の変形に対して生じる個体差を確率的に表現したモデルである。このモデルは、代表軌跡CC上の各位置についてそのばらつきを円の半径で表現した確率密度関数とみなすことができるので、入力系列軌跡とハイパーチューブとの適合度は、確率として計算することができる。図44(a)は、ある変形を表すハイパーチューブHTおよび入力系列軌跡ILの軌跡を合わせて示したものである。ここで、ハイパーチューブHTは、代表軌跡CCを有している。ハイパーチューブHTが示す変形単位は、ハイパーチューブHT内の進行方向により2種類、正反対の変形を考えることができる。ここでは矢印Yの方向に沿った変形単位であるとすると、図44(b)に示すように、ハイパーチューブの開始点を0、終了点を1とする横軸上に、代表軌跡CCからの距離を横軸とするグラフに対応付けすることができる。このグラフは、ちょうどハイパーチューブを水平に引き伸ばしたものとみなすことができる。   The sequence comparison device 77 compares the input sequence trajectory output from the projection device 74 with the hypertube output from the hypertube storage device 76, and determines the degree of matching between them (S85). The goodness of fit between them can be determined as follows. As described above, the hypertube HT is a model that stochastically represents individual differences that occur with respect to the same deformation. Since this model can be regarded as a probability density function in which the variation on each position on the representative trajectory CC is expressed by the radius of the circle, the fitness between the input sequence trajectory and the hypertube can be calculated as a probability. . FIG. 44 (a) shows the hypertube HT representing a certain deformation and the locus of the input series locus IL together. Here, the hypertube HT has a representative locus CC. The deformation unit indicated by the hypertube HT can be considered as two types of deformation in the opposite direction depending on the traveling direction in the hypertube HT. Here, assuming that the unit of deformation is along the direction of the arrow Y, as shown in FIG. 44 (b), on the horizontal axis where the start point of the hypertube is 0 and the end point is 1, The distance can be associated with a graph with the horizontal axis. This graph can be regarded as a hypertube stretched horizontally.

ここで、代表軌跡CC上の位置xにおけるハイパーチューブの半径を定義域0≦x≦1に対する関数p(x)とし、代表軌跡CC上の位置xからの入力系列軌跡ILに対する距離をf(x)とすると、ハイパーチューブiと入力系列の適合度siは下記(5)式で表すことができる。   Here, the radius of the hypertube at the position x on the representative trajectory CC is defined as a function p (x) for the domain 0 ≦ x ≦ 1, and the distance from the position x on the representative trajectory CC to the input series trajectory IL is represented by f (x ), The matching degree si between the hypertube i and the input series can be expressed by the following equation (5).

Figure 0004518094
Figure 0004518094

(5)式において、N(0,1)(x)は、平均0、分散1の正規確率密度関数とする。上記(5)式により、入力系列軌跡ILと、ハイパーチューブHTとの適合度を求めることができる。   In equation (5), N (0,1) (x) is a normal probability density function with an average of 0 and a variance of 1. From the above equation (5), the degree of fit between the input sequence trajectory IL and the hypertube HT can be obtained.

このような適合度を複数のハイパーチューブHTに対して求め、全てのハイパーチューブHTと入力系列軌跡ILとの適合度との計算が終了したか否かを判断し(S86)、終了していない場合には、ステップS85に戻って他のハイパーチューブHTと入力系列軌跡ILとの適合度を計算する。一方、すべてのハイパーチューブHTに対して適合度を計算したら、その入力系列軌跡ILとの適合度が所定のしきい値より大きいハイパーチューブHTを選択し(S87)、そのハイパーチューブHTおよびそれに対応する記号を記憶しておく。   Such suitability is obtained for a plurality of hypertubes HT, and it is determined whether or not the calculation of the suitability of all the hypertubes HT and the input series trajectory IL is finished (S86). In that case, the process returns to step S85, and the degree of matching between the other hypertube HT and the input series trajectory IL is calculated. On the other hand, when the fitness is calculated for all the hypertubes HT, a hypertube HT whose fitness with the input sequence trajectory IL is larger than a predetermined threshold value is selected (S87), and the hypertube HT and the hypertube HT and corresponding to it Remember the symbol to be used.

入力系列は、入力動画をウィンドウに合わせて切り取ったものであるので、ウィンドウを移動あるいは拡大縮小し、入力動画における他の部分についても同様の一連の処理を繰り返す。そのため、入力動画の全ての領域について、上記の処理を行ったか否かを判断する(S88)。その結果、いまだ処理されていない領域がある場合には、切り取り用のウィンドウを移動または拡大縮小し(S89)、ステップS82に戻って、同様の処理を繰り返す。一方、すべての領域での処理が終了したと判断したときには、選択されたハイパーチューブHTに対応する変化情報対応記号情報J74(図31)およびそのときのウィンドウの変化情報単位位置情報J73を図示しない出力装置に出力する(S90)。このようにして、学習用系列情報からハイパーチューブを生成し、それを特徴空間に配置して入力系列との適合度を計算することにより、入力動画像中における認識対象物の位置と変形の種別を検出することができる。   Since the input sequence is an input moving image cut out in accordance with the window, the window is moved or enlarged / reduced, and the same series of processing is repeated for other portions of the input moving image. Therefore, it is determined whether or not the above processing has been performed for all regions of the input moving image (S88). As a result, if there is an area that has not yet been processed, the cutting window is moved or enlarged / reduced (S89), the process returns to step S82, and the same process is repeated. On the other hand, when it is determined that the processing has been completed for all the regions, the change information corresponding symbol information J74 (FIG. 31) corresponding to the selected hypertube HT and the window change information unit position information J73 at that time are not shown. Output to the output device (S90). In this way, by generating a hypertube from the learning sequence information, placing it in the feature space, and calculating the fitness with the input sequence, the position of the recognition object in the input moving image and the type of deformation Can be detected.

なお、本実施形態において、ある動画像を入力すると、その動画像は特徴空間上の軌跡としてあらわされることになるが、その軌跡と各ハイパーチューブとの評価値を計算する手段を備えることにより、入力された軌跡の全部または一部がある一定値以上(または一定値以下)の評価値を持つ場合、その中で最も評価値が高い(または低い)ハイパーチューブに対応する変形を認識する態様とすることができる。   In this embodiment, when a certain moving image is input, the moving image is represented as a trajectory on the feature space, but by providing means for calculating an evaluation value of the trajectory and each hypertube, When all or a part of the input trajectory has an evaluation value that is greater than or equal to a certain value (or less than a certain value), an aspect that recognizes a deformation corresponding to the hypertube having the highest (or lower) evaluation value can do.

また、本実施形態においては、学習用系列情報から求めたハイパーチューブにより、口の動きから発話を認識する態様について説明したが、他の変形情報に対しても同様のハイパーチューブを生成した変形認識を行うことができる。たとえば、変化情報が音声取得手段から取得された音声変化である場合、「あ」→「い」、「あ」→「う」への周波数の変化をハイパーチューブで表すことができる。変化情報が動画像撮像手段で撮像された動画中におけるジェスチャの変化である場合、手を閉じた状態から開いた状態への変化をハイパーチューブで表すことができる。変化情報が動画像撮像手段で撮像された歩行者の歩行状態の変化である場合には、1回の歩行動作における変形をハイパーチューブで表すことができる。さらに、変化情報が動画像撮像手段で撮像された表情の変化である場合、無表情から喜びの表情への変化をハイパーチューブで表すこともできる。変化情報が動画像撮像手段で撮像された回転物体の変化である場合には、顔の向きが0度の状態から90度の状態に変化する際の変化をハイパーチューブで表すことができる。   Moreover, in this embodiment, although the aspect which recognizes utterance from the movement of the mouth by the hypertube calculated | required from the series information for learning was demonstrated, the deformation | transformation recognition which produced | generated the same hypertube also about other deformation | transformation information It can be performed. For example, when the change information is a voice change acquired from the voice acquisition means, a change in frequency from “A” → “I”, “A” → “U” can be represented by a hypertube. When the change information is a gesture change in a moving image captured by the moving image capturing unit, a change from a closed hand state to an open state can be represented by a hypertube. When the change information is a change in the walking state of the pedestrian captured by the moving image capturing unit, the deformation in one walking motion can be represented by a hypertube. Furthermore, when the change information is a change in facial expression imaged by the moving image imaging means, a change from an expressionless expression to a joyful expression can be expressed by a hypertube. When the change information is a change of a rotating object picked up by the moving image pickup means, the change when the face direction changes from 0 degree to 90 degrees can be represented by a hypertube.

次に、本発明に第8の実施形態について説明する。   Next, an eighth embodiment of the present invention will be described.

図45は、本実施形態に係る変化情報認識装置のブロック構成図である。図45に示すように、本実施形態に係る変化情報認識装置8は、上記第7の実施形態と比べて、軌跡の連続性保存装置88および部分系列切り取り装置89が設けられている点において主に異なる。   FIG. 45 is a block diagram of the change information recognition apparatus according to the present embodiment. As shown in FIG. 45, the change information recognition device 8 according to the present embodiment is mainly different from the seventh embodiment in that a trajectory continuity storage device 88 and a partial sequence cutout device 89 are provided. Different.

連続性保存装置88には、ハイパーチューブにおける代表軌跡に相当する軌跡の連続性が保存されている。軌跡の連続性は、軌跡の変化量が、所定のしきい値以下となっているか否かによって判断され、所定のしきい値以下のときに連続性があると判断する。連続性保存装置88には、部分系列切り取り装置89が接続されており、部分系列切り取り装置89には、連続性保存装置88に保存された軌跡の連続性が連続性保存装置88から出力される。   The continuity storage device 88 stores the continuity of the trajectory corresponding to the representative trajectory in the hypertube. The continuity of the trajectory is determined by whether or not the amount of change in the trajectory is equal to or less than a predetermined threshold value, and it is determined that there is continuity when the trajectory variation is equal to or less than the predetermined threshold value. The continuity storage device 88 is connected to a partial sequence cut device 89, and the continuity of the trajectory stored in the continuity storage device 88 is output from the continuity storage device 88 to the partial sequence cut device 89. .

次に、本実施形態に係る変化情報認識方法について説明する。本実施形態に係る変化情報認識方法においては、上記第7の実施形態と同様、学習用系列情報が学習装置81に出力される。学習装置81では、出力された学習用系列情報J71から特徴空間生成装置83において特徴空間を生成し、ハイパーチューブ生成装置85においてハイパーチューブを生成し、生成されたハイパーチューブをハイパーチューブ記憶装置86が記憶する。   Next, the change information recognition method according to the present embodiment will be described. In the change information recognition method according to the present embodiment, learning sequence information is output to the learning device 81 as in the seventh embodiment. In the learning device 81, the feature space generation device 83 generates a feature space from the output learning sequence information J71, the hypertube generation device 85 generates a hypertube, and the hypertube storage device 86 stores the generated hypertube. Remember.

一方、認識装置82においては、図示しない動画像撮像手段によって撮像された動画に基づく情報が出力される。この情報として、上記第7の実施形態では、認識用系列情報が出力されたが、本実施形態では、この点については異なる。本実施形態では、図示しない動画像撮像手段によって撮像された動画像からなる入力系列情報J82を、部分切り取り装置89によって部分系列情報J83に切り取る。ここで、部分系列切り取り装置89には、軌跡の連続性が出力されており、部分系列切り取り装置89では、この軌跡の連続性に基づいて入力系列情報J82を切り取り、部分系列情報J83を生成する。   On the other hand, the recognition device 82 outputs information based on a moving image captured by a moving image capturing unit (not shown). As this information, the series information for recognition is output in the seventh embodiment, but this point is different in this embodiment. In the present embodiment, input sequence information J82 composed of a moving image captured by a moving image capturing means (not shown) is cut into partial sequence information J83 by a partial cutout device 89. Here, the continuity of the trajectory is output to the partial sequence cutout device 89, and the partial sequence cutout device 89 cuts the input sequence information J82 based on the continuity of the trajectory to generate the partial sequence information J83. .

ここで、たとえば上記第7の実施形態では、入力動画の一部をウィンドウに合わせて切り取るにあたり、図46に示すように動画を構成する一定時間の間、切り取るウィンドウを動かすことについては想定されていないものである。このことは、変形している物体が画像中で静止していることを前提としているものであるので、認識対象物が画像内で移動してしまうと、認識対象物を検出できなくなってしまうおそれがある。実際のシーンでは、認識対象物は移動していることも少なくなく、このような場合には対応できないことになってしまう。   Here, for example, in the seventh embodiment, when a part of the input moving image is cut to fit the window, it is assumed that the window to be cut is moved for a certain time constituting the moving image as shown in FIG. There is nothing. This is based on the premise that the deformed object is stationary in the image. If the recognition target moves in the image, the recognition target may not be detected. There is. In an actual scene, the recognition target object often moves, and such a case cannot be handled.

これに対して、本実施形態に係る変化認識方法では、軌跡の変化の連続性に対応させて、動画像の部分系列情報を形成するように、入力系列情報を切り取っている。認識対象物が移動していたとして、図47(a)に示すように、ウィンドウWが正しく認識対象物となる口Mを追跡できていたとすると、図47(b)に示すように、特徴空間に射影される射影軌跡Cは特定のハイパーチューブHTと適合度が高く、かつ特徴空間内において滑らかな曲線を描く。また、通常のテレビ信号程度のフレームレート(たとえば30Hz)があれば、シーンに写る物体の移動は隣接したフレーム間ではわずかであり、変化もあまり急激でない。このため、通常、追跡されるウィンドウWの位置の変化も滑らかな軌跡を描くことになる。   On the other hand, in the change recognition method according to the present embodiment, the input sequence information is cut so as to form the partial sequence information of the moving image in correspondence with the continuity of the change of the trajectory. Assuming that the recognition object has moved, as shown in FIG. 47 (a), assuming that the window W has correctly tracked the mouth M as the recognition object, as shown in FIG. 47 (b), the feature space The projected trajectory C projected on the screen has a high degree of matching with the specific hypertube HT and draws a smooth curve in the feature space. Also, if there is a frame rate comparable to that of a normal television signal (for example, 30 Hz), the movement of an object in the scene is slight between adjacent frames, and the change is not so rapid. For this reason, a change in the position of the window W to be tracked usually draws a smooth trajectory.

したがって、特徴空間内におけるハイパーチューブの軌跡の連続性と、入力系列情報におけるウィンドウWの移動軌跡の連続性が同時に満たされるようにウィンドウWを移動させることにより、変形しながら移動する口Mを検出・追跡し、その変形の様子も同時に検出することができる。こうして、部分系列情報J83を生成し、部分系列情報を射影装置84に出力する、射影装置84では、部分系列情報J83を特徴空間に射影して部分系列の軌跡情報J84を生成し、系列比較装置87に出力する。系列比較装置87では、射影装置74から出力された部分系列の軌跡およびハイパーチューブ記憶装置76から出力されたハイパーチューブを比較し、両者の適合度を上記第7の実施形態と同様の方法によって求める。そして、上記第7の実施形態と同様にして選択されたハイパーチューブHTに対応する記号情報J86およびそのときのウィンドウの位置情報J85を図示しない出力装置に出力する。このようにして、動画像中の認識対象物の位置と変形の種別を検出することができる。   Therefore, the mouth M that moves while being deformed is detected by moving the window W so that the continuity of the trajectory of the hypertube in the feature space and the continuity of the movement trajectory of the window W in the input sequence information are simultaneously satisfied. -It can track and detect the state of deformation at the same time. In this way, the partial sequence information J83 is generated and the partial sequence information is output to the projection device 84. The projection device 84 projects the partial sequence information J83 onto the feature space to generate the partial sequence trajectory information J84, and the sequence comparison device. Output to 87. In the series comparison device 87, the trajectory of the partial series output from the projection device 74 and the hypertube output from the hypertube storage device 76 are compared, and the degree of suitability of both is obtained by the same method as in the seventh embodiment. . Then, the symbol information J86 corresponding to the hypertube HT selected in the same manner as in the seventh embodiment and the window position information J85 at that time are output to an output device (not shown). In this way, the position of the recognition object in the moving image and the type of deformation can be detected.

このように、本実施形態に係る変化認識方法においては、軌跡の連続性を保存する連続性保存手段を設けたので、動画像中で移動する認識対象物の変形およびその位置を確実に認識することができる。   As described above, in the change recognition method according to the present embodiment, the continuity storage unit that stores the continuity of the trajectory is provided, so that the deformation of the recognition target moving in the moving image and the position thereof are reliably recognized. be able to.

なお、上記実施形態における図1および図12では、実施形態の説明を容易にするために、人の口を例にして説明したが、物体の変形を伴うものであれば容易に他のものにも容易に適用することができる。   In FIG. 1 and FIG. 12 in the above-described embodiment, the description has been given by taking a person's mouth as an example in order to facilitate the description of the embodiment. Can also be applied easily.

本発明の第1の実施形態に係る変化情報認識装置のブロック構成図である。It is a block block diagram of the change information recognition apparatus which concerns on the 1st Embodiment of this invention. 口を含む顔の画像を模式的に示す図である。It is a figure which shows typically the image of the face containing a mouth. (a)、(b)ともに、口の形状の連続的な変化の状態を示すテンプレートを模式的に示す図である。(A), (b) is a figure which shows typically the template which shows the state of the continuous change of the shape of a mouth. 画像中における口の形状の連続的な変化の状態を模式的に示す図である。It is a figure which shows typically the state of the continuous change of the shape of the mouth in an image. 画像中における口の形状と、テンプレートにある口の形状の一致する位置を模式的に示す図である。It is a figure which shows typically the position where the shape of the mouth in an image and the shape of the mouth in a template correspond. (a)〜(f)のいずれも、従来の口の形状のテンプレートを模式的に示す図である。(A)-(f) is a figure which shows typically the template of the shape of the conventional mouth. 第1の実施形態に係る変化情報認識方法の手順を示すフローチャートである。It is a flowchart which shows the procedure of the change information recognition method which concerns on 1st Embodiment. (a)は、静止画における口と認識しうる位置を模式的に示す図、(b)は、動画における口と認識しうる位置を模式的に示す図である。(A) is a diagram schematically showing a position that can be recognized as a mouth in a still image, and (b) is a diagram schematically showing a position that can be recognized as a mouth in a moving image. 第2の実施形態に係る変化情報認識装置のブロック構成図である。It is a block block diagram of the change information recognition apparatus which concerns on 2nd Embodiment. (a)は口の変化パターンを時間ごとに模式的に示した図、(b)は(a)の前半部分の変化を模式的に示した図、(c)は(a)の後半部分の変化を模式的に示した図である。(A) is the figure which showed the change pattern of a mouth typically for every time, (b) is the figure which showed the change of the first half part of (a) typically, (c) is the second half part of (a). It is the figure which showed the change typically. 第2の実施形態に係る変化情報認識方法の手順の要部を示すフローチャートである。It is a flowchart which shows the principal part of the procedure of the change information recognition method which concerns on 2nd Embodiment. 口を含む画像における連続的な変化の状態を模式的に示す図である。It is a figure which shows typically the state of the continuous change in the image containing a mouth. 第3の実施形態に係る変化情報認識装置のブロック構成図である。It is a block block diagram of the change information recognition apparatus which concerns on 3rd Embodiment. 発音の変化とそれに割り当てた記号の対応関係を示す表である。It is a table | surface which shows the correspondence of the change of pronunciation and the symbol allocated to it. 「あ」の母音を発する口に形状から、「い」の母音を発する口の形状に至るまでの口の変形過程を模式的に示す図である。It is a figure which shows typically the deformation | transformation process of the mouth from the shape of the mouth which emits the vowel of “A” to the shape of the mouth which emits the vowel of “I”. (a)は「おはようございます」の音を示す図、(b)は(a)に音にそれぞれ対応する口の形状を模式的に示す図、(c)は音の変化に対応する記号をそれぞれ示す図である。(A) is a diagram showing the sound of "Good morning", (b) is a diagram schematically showing the shape of the mouth corresponding to each sound, (c) is a symbol corresponding to the change in sound. FIG. 第3の実施形態に係る変形情報認識方法の手順の要部を示すフローチャートである。It is a flowchart which shows the principal part of the procedure of the deformation | transformation information recognition method which concerns on 3rd Embodiment. (a)は「あ」から「い」に変化する口の形状の変化を模式的に示す図、(b)は「い」から「う」に変化する口の形状の変化を模式的に示す図である。(A) is a diagram schematically showing a change in the shape of the mouth changing from “A” to “I”, and (b) is a schematic showing a change in the shape of the mouth changing from “I” to “U”. FIG. 第4の実施形態に係る変化情報認識装置のブロック構成図である。It is a block block diagram of the change information recognition apparatus which concerns on 4th Embodiment. (a)はある音声を発したときの時刻t=1〜3に変化したときの波形をそれぞれの時刻で表すグラフ、(b)は他の音声を発したときの時刻t=1〜3に変化したときの波形をそれぞれの時刻で示すグラフである。(A) is a graph showing the waveform when the time t = 1-3 when a certain sound is emitted, and each time represents a waveform, and (b) is the time t = 1-3 when another sound is emitted. It is a graph which shows the waveform when it changes at each time. ある一定のフレーム間隔をおいて、一定のフレーム長の長さのフレーム長に切り取られる音声変化情報を概概略的に示す図である。It is a figure which shows roughly the audio | voice change information cut out by the frame length of the length of a fixed frame length at a fixed frame interval. (a)〜(h)とも、T1〜T8の時間の8つに切り取られた音声変化情報から作成された音声変化単位の波形を示すグラフである。(A)-(h) is a graph which shows the waveform of the audio | voice change unit produced from the audio | voice change information cut out into eight of the time of T1-T8. 音声変化単位を示すグラフと、音声を発したときの時刻t=1〜3に変化したときの波形をそれぞれの時刻で表すグラフの一致する部分を説明する図である。It is a figure explaining the part which the graph which shows an audio | voice change unit, and the graph which shows the waveform when changing to time t = 1-3 at the time of uttering a sound by each time correspond. 第4の実施形態に係る変形情報認識方法の手順を示すフローチャートである。It is a flowchart which shows the procedure of the deformation | transformation information recognition method which concerns on 4th Embodiment. 第4の実施形態に係る音声認識の手順を示すフローチャートである。It is a flowchart which shows the procedure of the speech recognition which concerns on 4th Embodiment. 第5の実施形態に係る変化情報認識装置のブロック構成図である。It is a block block diagram of the change information recognition apparatus which concerns on 5th Embodiment. ジェスチャ認識に用いる基本体変化単位の時刻における画像の例を模式的に示す図である。It is a figure which shows typically the example of the image in the time of the basic body change unit used for gesture recognition. 歩行者認識に用いる基本体変化単位の時刻における画像の例を示す図である。It is a figure which shows the example of the image in the time of the basic body change unit used for pedestrian recognition. 第6の実施形態に係る変化情報認識装置のブロック構成図である。It is a block block diagram of the change information recognition apparatus which concerns on 6th Embodiment. (a)〜(l)とも、人形の頭部が回転する際の画像を模式的に示す図である。(A)-(l) is a figure which shows typically the image at the time of the head of a doll rotating. 第7の実施形態に係る変化情報認識装置のブロック構成図である。It is a block block diagram of the change information recognition apparatus which concerns on 7th Embodiment. 「ん」から「あ」を発話する口の動きを示す9枚の画像を連続させた動画像を模式的に示す図である。It is a figure which shows typically the moving image which continued nine images which show the movement of the mouth which speaks "a" from "n". 図32に示す動画像に基づいて作成した特徴空間上のグラフを示す図である。It is a figure which shows the graph on the feature space produced based on the moving image shown in FIG. 他の変形パターンを含めて、動画像に基づいて作成した特徴空間上のグラフを示す図である。It is a figure which shows the graph on the feature space created based on the moving image including another deformation pattern. 複数の人のある発話での口の動きを特徴空間に射影した際の曲線を示す図である。It is a figure which shows the curve at the time of projecting the movement of the mouth in the utterance with a some person to the feature space. 特徴空間に生成されたハイパーチューブを示す図である。It is a figure which shows the hypertube produced | generated in the feature space. 複数のハイパーチューブを配置した特徴空間を示す図である。It is a figure which shows the feature space which has arrange | positioned the several hypertube. ハイパーチューブを生成する手順を示すフローチャートである。It is a flowchart which shows the procedure which produces | generates a hypertube. 特徴空間に3次元特徴ベクトルをプロットした点をつないで形成した3つの軌跡を示す図である。It is a figure which shows the three locus | trajectory formed by connecting the point which plotted the three-dimensional feature vector in the feature space. 3つの軌跡とそれらの軌跡に基づいて形成された代表軌跡を示す図である。It is a figure which shows the representative locus | trajectory formed based on three locus | trajectories and those locus | trajectories. 代表軌跡を求める際に生成する超平面を求める手順を説明するための図である。It is a figure for demonstrating the procedure which calculates | requires the hyperplane produced | generated when calculating | requiring a representative locus | trajectory. 代表軌跡を求める際の手順を説明するための超平面を示す図である。It is a figure which shows the hyperplane for demonstrating the procedure at the time of calculating | requiring a representative locus | trajectory. 第7の実施形態に係る変化情報認識方法の手順を示すフローチャートである。It is a flowchart which shows the procedure of the change information recognition method which concerns on 7th Embodiment. (a)は、ある変形を表すハイパーチューブHTおよび入力系列軌跡ILの軌跡を合わせて示した図、(b)はハイパーチューブの開始点を0、終了点を1とする横軸上に、代表軌跡からの距離を縦軸とするグラフに対応付けした状態を示す図である。(A) is a diagram showing the hypertube HT representing a certain deformation and the trajectory of the input series trajectory IL, and (b) is a representative on the horizontal axis where the start point of the hypertube is 0 and the end point is 1. It is a figure which shows the state matched with the graph which makes the distance from a locus | trajectory a vertical axis | shaft. 第8の実施形態に係る変化情報認識装置のブロック構成図である。It is a block block diagram of the change information recognition apparatus which concerns on 8th Embodiment. 一定時間切り取るウィンドウを動かすことなく動画を撮像した状態を説明するための図である。It is a figure for demonstrating the state which imaged the moving image, without moving the window cut out for a fixed time. (a)は切り取るウィンドウを動かして口を追跡した動画を説明する図、(b)は(a)に対応する特徴空間上の軌跡とハイパーチューブとを示す図である。(A) is a figure explaining the moving image which moved the window to cut off and tracked the mouth, (b) is a figure which shows the locus | trajectory on the feature space corresponding to (a), and a hypertube.

符号の説明Explanation of symbols

1〜8…変化情報認識装置、11…系列情報記憶装置、12…基本変化情報記憶装置、13…変化状態比較装置、21…系列情報記憶装置、22…基本変化情報記憶装置、23…変化状態比較装置、24(24A,24B)…基本変化情報単位記憶装置、31…動画記憶装置、32…口基本変形情報記憶装置、33…口変形状態比較装置、34A,34B…口基本変形単位記憶装置、41…波形解析装置、42…音声波形記憶装置、43…音声情報記憶装置、44…音声変化比較装置、45A,45B…音声変化単位記憶装置、51…動画記憶装置、52…体変化情報記憶装置、53…体変化比較装置、54A,54B…体変化単位記憶装置、61…動画記憶装置、62…回転情報記憶装置、63…回転物体比較装置、64A,64B…回転単位記憶装置、71…学習装置、72…認識装置、73…特徴空間生成装置、74…射影装置、75…ハイパーチューブ生成装置、76…ハイパーチューブ記憶装置、77…系列比較装置、81…学習装置、82…認識装置、83…特徴空間生成装置、84…射影装置、85…ハイパーチューブ生成装置、86…ハイパーチューブ記憶装置、87…系列比較装置、88…連続性保存装置、89…部分系列切り取り装置、C…射影軌跡、C1〜C5…軌跡(折れ線、曲線)、C11〜C13…軌跡、CC…代表軌跡、G1…画像、HT(HT1〜HT3)…ハイパーチューブ、IL…入力系列軌跡、M…口、P…変化パターン、P1〜P4,T1〜T6…テンプレート、SP1〜SP3…超平面、W…ウィンドウ。   DESCRIPTION OF SYMBOLS 1-8 ... Change information recognition apparatus, 11 ... Sequence information storage device, 12 ... Basic change information storage device, 13 ... Change state comparison apparatus, 21 ... Sequence information storage device, 22 ... Basic change information storage device, 23 ... Change state Comparison device, 24 (24A, 24B) ... basic change information unit storage device, 31 ... moving image storage device, 32 ... mouth basic deformation information storage device, 33 ... mouth deformation state comparison device, 34A, 34B ... mouth basic deformation unit storage device 41 ... Waveform analysis device, 42 ... Audio waveform storage device, 43 ... Audio information storage device, 44 ... Audio change comparison device, 45A, 45B ... Audio change unit storage device, 51 ... Movie storage device, 52 ... Body change information storage Device 53 ... Body change comparison device 54A, 54B ... Body change unit storage device 61 ... Movie storage device 62 ... Rotation information storage device 63 ... Rotating object comparison device 64A, 64B ... Rotation Position storage device, 71 ... learning device, 72 ... recognition device, 73 ... feature space generation device, 74 ... projection device, 75 ... hypertube generation device, 76 ... hypertube storage device, 77 ... series comparison device, 81 ... learning device , 82: Recognition device, 83: Feature space generation device, 84 ... Projection device, 85 ... Hypertube generation device, 86 ... Hypertube storage device, 87 ... Series comparison device, 88 ... Continuity storage device, 89 ... Partial sequence cut-out Device, C ... Projection locus, C1-C5 ... locus (polyline, curve), C11-C13 ... locus, CC ... representative locus, G1 ... image, HT (HT1-HT3) ... hypertube, IL ... input series locus, M ... mouth, P ... change pattern, P1-P4, T1-T6 ... template, SP1-SP3 ... hyperplane, W ... window.

Claims (7)

認識対象物を撮像して得られる動画における前記認識対象物の変化情報を取得する変化情報取得手段と、
前記認識対象物の変化情報に対応付けられた基本変化情報をあらかじめ記憶する基本変化情報記憶手段と、
前記変化情報取得手段で取得された前記認識対象物の変化情報と、あらかじめ記憶された前記基本変化情報とを比較して、前記変化情報取得手段で取得された認識対象物の変化情報に対応する基本変化情報を取得する変化状態比較手段と、を備え、
前記変化状態比較手段は、前記変化情報取得手段で取得された第1の変化情報に対応する第1の基本変化情報と、前記第1の変化情報の後に前記変化情報取得手段で取得された第2の変化情報に対応する第2の基本変化情報とを比較し、前記第1の変化情報と前記第2の変化情報とが、前記動画における画像中の同じ位置で行われ、かつ前記第1の基本変化情報の終了と、前記第2の基本変化情報の開始とが一致する場合に、前記第1の変化情報と前記第2の変化情報との繋ぎ目を前記認識対象物の変化状態として検出することを特徴とする変化情報認識装置。
Change information acquisition means for acquiring change information of the recognition object in a video obtained by imaging the recognition object;
Basic change information storage means for storing in advance basic change information associated with change information of the recognition object;
The change information of the recognition object acquired by the change information acquisition unit is compared with the basic change information stored in advance and corresponds to the change information of the recognition object acquired by the change information acquisition unit. A change state comparison means for acquiring basic change information ,
The change state comparison means includes first basic change information corresponding to the first change information acquired by the change information acquisition means, and first change information acquired by the change information acquisition means after the first change information . 2nd basic change information corresponding to 2 change information , the 1st change information and the 2nd change information are performed in the same position in the picture in the animation , and the 1st change information If the end of the basic change information coincides with the start of the second basic change information , the connection between the first change information and the second change information is used as the change state of the recognition object. A change information recognition apparatus characterized by detecting.
前記基本変化情報は、前記認識対象物の変化に応じて対応付けされた変化情報単位に分割した情報として、前記基本変化情報記憶手段に記憶されている請求項1に記載の変化情報認識装置。 The change information recognition apparatus according to claim 1, wherein the basic change information is stored in the basic change information storage unit as information divided into change information units associated with changes in the recognition object. 前記変化情報は、発話に伴う口の画像の変化である請求項1または請求項2に記載の変化情報認識装置。 The change information recognition apparatus according to claim 1, wherein the change information is a change in an image of a mouth accompanying an utterance. 前記変化情報が、前記認識対象物の動きによる画像の変化である請求項1または請求項2に記載の変化情報認識装置。 The change information recognition apparatus according to claim 1 , wherein the change information is a change in an image due to a movement of the recognition object. 前記変化情報が、前記認識対象物の回転による画像の変化である請求項1または請求項2に記載の変化情報認識装置。 The change information recognition apparatus according to claim 1 , wherein the change information is an image change caused by rotation of the recognition target object. 変化情報取得手段が、認識対象物を撮像して得られる動画における前記認識対象物の変化情報を取得する変化情報取得工程と、
基本変化情報記憶手段が、前記認識対象物の変化情報に対応付けられた基本変化情報をあらかじめ記憶する基本変化情報予備記憶工程と、
変化状態比較手段が、前記変化情報取得手段で取得された前記認識対象物の変化情報と、あらかじめ記憶された前記基本変化情報とを比較して、前記変化情報取得手段で取得された認識対象物の変化情報に対応する基本変化情報を取得する変化状態比較工程と、
前記変化状態比較手段が、前記変化情報取得手段で取得された第1の変化情報に対応する第1の基本変化情報と、前記第1の変化情報の後に前記変化情報取得手段で取得された第2の変化情報に対応する第2の基本変化情報とを比較し、前記第1の変化情報と前記第2の変化情報とが、前記動画における画像中の同じ位置で行われ、かつ前記第1の基本変化情報の終了と、前記第2の基本変化情報の開始とが一致する場合に、前記第1の変化情報と前記第2の変化情報との繋ぎ目を前記認識対象物の変化状態として検出することを特徴とする変化情報認識方法。
A change information acquisition unit that acquires change information of the recognition object in a moving image obtained by imaging the recognition object;
A basic change information preliminary storage step in which basic change information storage means stores in advance basic change information associated with the change information of the recognition object;
The change state comparison means compares the change information of the recognition object acquired by the change information acquisition means with the basic change information stored in advance, and the recognition object acquired by the change information acquisition means A change state comparison step for obtaining basic change information corresponding to the change information of
The change state comparison means includes first basic change information corresponding to the first change information acquired by the change information acquisition means, and first change information acquired by the change information acquisition means after the first change information. comparing the second basic change information corresponding to the second change information, the first change information and said second change information is carried out at the same position in the image in the video, and the first When the end of the basic change information coincides with the start of the second basic change information , the connection between the first change information and the second change information is used as the change state of the recognition object. A change information recognition method characterized by detecting.
基本変化情報記憶手段が、前記基本変化予備記憶工程で、前記基本変化情報を、前記認識対象物の変化に応じて対応付けされた変化情報単位に分割した情報として、あらかじめ記憶しておく請求項6に記載の変化情報認識方法。 Basic change information storing means, with the basic change reserve storage step, the basic change information, as information that is divided into correspondence has been changed information units according to a change in the recognition object, claim to be stored in advance 6. The change information recognition method according to 6 .
JP2007085204A 2007-03-28 2007-03-28 Change information recognition apparatus and change information recognition method Expired - Fee Related JP4518094B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007085204A JP4518094B2 (en) 2007-03-28 2007-03-28 Change information recognition apparatus and change information recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007085204A JP4518094B2 (en) 2007-03-28 2007-03-28 Change information recognition apparatus and change information recognition method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003105649A Division JP4075670B2 (en) 2003-04-09 2003-04-09 Change information recognition apparatus and change information recognition method

Publications (2)

Publication Number Publication Date
JP2007220133A JP2007220133A (en) 2007-08-30
JP4518094B2 true JP4518094B2 (en) 2010-08-04

Family

ID=38497276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007085204A Expired - Fee Related JP4518094B2 (en) 2007-03-28 2007-03-28 Change information recognition apparatus and change information recognition method

Country Status (1)

Country Link
JP (1) JP4518094B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117877008B (en) * 2024-03-13 2024-05-17 湖北神龙工程测试技术有限公司 Door and window performance detection method based on artificial intelligence

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3554571B2 (en) * 1993-05-31 2004-08-18 株式会社日立製作所 Sign language recognition device
JP3603919B2 (en) * 1996-06-11 2004-12-22 日本電気株式会社 Gesture recognition device and method
JPH11149296A (en) * 1997-09-10 1999-06-02 Oki Electric Ind Co Ltd Word recognition device

Also Published As

Publication number Publication date
JP2007220133A (en) 2007-08-30

Similar Documents

Publication Publication Date Title
Matthews et al. Extraction of visual features for lipreading
US7720775B2 (en) Learning equipment and learning method, and robot apparatus
US7508959B2 (en) Change information recognition apparatus and change information recognition method
Hassanat Visual speech recognition
CN115169507B (en) Brain-like multi-mode emotion recognition network, recognition method and emotion robot
CN109558788B (en) Silence voice input identification method, computing device and computer readable medium
Er-Rady et al. Automatic sign language recognition: A survey
Guy et al. Learning visual voice activity detection with an automatically annotated dataset
JP4518094B2 (en) Change information recognition apparatus and change information recognition method
CN117672202A (en) Environmental sound classification method for generating countermeasure network based on depth convolution
Kumar et al. Facial emotion recognition and detection using cnn
Gandhi et al. Dynamic sign language recognition and emotion detection using MediaPipe and deep learning
KR101621304B1 (en) Active shape model-based lip shape estimation method and system using mouth map
Chitu et al. Automatic lip reading in the Dutch language using active appearance models on high speed recordings
Siby et al. Gesture based real-time sign language recognition system
Chitu et al. Visual speech recognition automatic system for lip reading of Dutch
Goutsu et al. Multi-modal gesture recognition using integrated model of motion, audio and video
Nakamura et al. Multimodal concept and word learning using phoneme sequences with errors
CN113239902B (en) Lip language identification method and device for generating confrontation network based on double discriminators
CN114783049B (en) Spoken language learning method and system based on deep neural network visual recognition
Ivanko et al. Lip-Reading Using Pixel-Based and Geometry-Based Features
Thakore et al. An Interface for Communication for the Deaf Using Hand Gesture Recognition through Computer Vision and Natural Language Processing
Demidenko et al. Developing Automatic Markerless Sign Language Gesture Tracking and Recognition System
Tippanu et al. Real time sign language translator
Sotelo Portuguese Sign Language Recognition from Depth Sensing Human Gesture and Motion Capture

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100427

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100510

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees