JP6977551B2 - Information processing equipment, information processing methods, and information processing programs - Google Patents

Information processing equipment, information processing methods, and information processing programs Download PDF

Info

Publication number
JP6977551B2
JP6977551B2 JP2017249607A JP2017249607A JP6977551B2 JP 6977551 B2 JP6977551 B2 JP 6977551B2 JP 2017249607 A JP2017249607 A JP 2017249607A JP 2017249607 A JP2017249607 A JP 2017249607A JP 6977551 B2 JP6977551 B2 JP 6977551B2
Authority
JP
Japan
Prior art keywords
moving image
motion
estimated value
object captured
moving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017249607A
Other languages
Japanese (ja)
Other versions
JP2019114211A (en
Inventor
大気 関井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2017249607A priority Critical patent/JP6977551B2/en
Publication of JP2019114211A publication Critical patent/JP2019114211A/en
Application granted granted Critical
Publication of JP6977551B2 publication Critical patent/JP6977551B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、機械学習で利用される情報処理技術に関する。 The present invention relates to an information processing technique used in machine learning.

カメラで撮像された動画から人物の行動を認識する技術がある。行動認識の頑健性を高めるために、この技術に、機械学習を用いることが提案されている。例えば、人物の行動が写された動画と、この動画が逆再生された動画(逆再生動画)とを用いた深層学習により、行動認識をする技術が提案されている(例えば、非特許文献1)。 There is a technology to recognize the behavior of a person from a moving image captured by a camera. It has been proposed to use machine learning for this technique in order to increase the robustness of behavior recognition. For example, a technique for recognizing behavior by deep learning using a moving image of a person's behavior and a moving image in which this moving image is played in reverse (reverse playing moving image) has been proposed (for example, Non-Patent Document 1). ).

バーラト・シン(Bharat Singh)、他4名、「きめ細かい行動検知のための、マルチストリーム双方向再帰型ニューラルネットワーク(A Multi−Stream Bi−Directional Recurrent Neural Network for Fine−Grained Action Detection)」、[online ]、p.1−8、[平成29年12月12日検索]、インターネット〈URL:http://www.cs.umd.edu/~bharat/cvpr2016.pdf〉Bharat Singh, 4 others, "A Multi-Stream Bi-Directional Recurrent Neural Network for Fine-Grained Action" ], P. 1-8, [Search on December 12, 2017], Internet <URL: http://www.cs.umd.edu/~bharat/cvpr2016.pdf>

教師あり学習の場合、学習器が、データと教師データ(ラベル)とのペアが多数集められたデータセットを学習することにより、学習モデルを構築する。教師あり学習の精度を高めるためには、データと教師データとのペアの数を多くする必要がある。上記行動認識技術の場合、データは、人物の行動が写された動画である。 In the case of supervised learning, the learner builds a learning model by learning a data set in which a large number of pairs of data and teacher data (labels) are collected. In order to improve the accuracy of supervised learning, it is necessary to increase the number of pairs of data and teacher data. In the case of the above-mentioned behavior recognition technology, the data is a moving image of a person's behavior.

逆再生動画をデータに利用できれば、データの数を増やすことができる。例えば、歩く人物が写された動画の逆再生動画を、「歩く人物」を認識する学習に利用するのである。しかし、動作によっては、逆再生動画に写された動作が、もとの動画に写された動作と別の動作と見なしたほうが妥当なことがある。例えば、人間が椅子に座る動作が写された動画の逆再生動画には、人間が椅子から立つ動作と見なせる動作が写されている。従って、この逆再生動画について、教師データを「人間が椅子に座る動作」とすれば、機械学習の精度が悪くなる。 If reverse vid video can be used for data, the number of data can be increased. For example, a reverse-played video of a moving person is used for learning to recognize a "walking person". However, depending on the motion, it may be more appropriate to consider the motion captured in the reverse-played video as a different motion from the motion captured in the original movie. For example, a reverse-played video of a video showing a human sitting on a chair shows a movement that can be regarded as a human standing up from a chair. Therefore, if the teacher data is "the movement of a human sitting on a chair" for this reverse playback video, the accuracy of machine learning deteriorates.

本発明の目的は、逆再生動画を機械学習に利用した場合に、機械学習の精度を向上させることができる情報処理装置、情報処理方法および情報処理プログラムを提供することである。 An object of the present invention is to provide an information processing device, an information processing method, and an information processing program capable of improving the accuracy of machine learning when the reverse playback moving image is used for machine learning.

本発明の第1局面に係る情報処理装置は、第1動作および前記第1動作と逆の動作である第2動作のうち、前記第1動作が写された第1動画を、前記第1動画を逆再生した第2動画に変換する変換部と、前記第1動画および前記第2動画のうち、一方の動画に写された前記物体の動作を示す動作情報を基にして、他方の動画に写された前記物体の動作を示す動作情報を決定する決定部と、前記他方の動画と前記決定部が決定した動作情報とを紐付ける紐付け部と、を備える。 The information processing apparatus according to the first aspect of the present invention uses the first moving image of the first operation and the second operation opposite to the first operation as the first moving image. To the other moving image based on the conversion unit that converts the It includes a determination unit for determining motion information indicating the motion of the copied object, and a linking section for linking the other moving image with the motion information determined by the determination unit.

第1動作および第1動作と逆の動作である第2動作とは、一方の動作が他方の動作の逆である一対の動作である。例えば、人間が椅子に座る動作と人間が椅子から立つ動作、人間がテーブルの上に置かれた物を取る動作と人間がテーブルの上に物を戻す動作である。 The first operation and the second operation, which is the opposite of the first operation, are a pair of operations in which one operation is the opposite of the other operation. For example, the action of a human sitting on a chair and the action of a human standing up from a chair, the action of a human taking an object placed on a table, and the action of a human returning an object onto the table.

上記一対の動作の場合、第1動作をする物体が写された第1動画の逆再生動画(第2動画)は、第2動作と見なすことができる動作をする物体が写された動画である。例えば、人間が椅子に座る動作が写された第1動画の逆再生動画(第2動画)は、人間が椅子に座る動作を未来から過去へ再生する動画であるが、人間が椅子から立つ動作と見なすことができる動作が写された動画である。逆に、人間が椅子から立つ動作が写された第1動画の逆再生動画(第2動画)は、人間が椅子から立つ動作を未来から過去へ再生する動画であるが、人間が椅子に座る動作と見なすことができる動作が写された動画である。 In the case of the above pair of movements, the reverse playback moving image (second moving image) of the first moving image in which the object performing the first movement is shown is a moving image in which the moving object which can be regarded as the second movement is shown. .. For example, the reverse playback video (second video) of the first video showing the movement of a human sitting on a chair is a video that reproduces the movement of a human sitting on a chair from the future to the past, but the movement of a human standing from a chair. It is a video showing the movement that can be regarded as. Conversely, the reverse playback video (second video) of the first video, which shows the movement of a human standing from a chair, is a video that reproduces the movement of a human standing from a chair from the future to the past, but the human sits on the chair. It is a moving image of an action that can be regarded as an action.

第1動画および第2動画において、動画に写されてる物体の動作を示す動作情報(例えば、ラベル(言い換えれば、教師データ)を同じにすれば、機械学習の精度が悪くなる。 If the motion information (for example, the label (in other words, the teacher data)) indicating the motion of the object shown in the moving images is the same in the first moving image and the second moving image, the accuracy of machine learning deteriorates.

そこで、決定部は、第1動画および第2動画のうち、一方の動画に写された物体の動作を示す動作情報を基にして、他方の動画に写された物体の動作を示す動作情報を決定する。例えば、決定部は、一方の動画に写された物体の動作を示す動作情報が「人間が椅子に座る動作」の場合、他方の動画に写された物体の動作を示す動作情報を「人間が椅子から立つ動作」と決定する。 Therefore, the determination unit obtains motion information indicating the motion of the object captured in the other moving image based on the motion information indicating the motion of the object captured in one of the first moving image and the second moving image. decide. For example, when the motion information indicating the motion of the object shown in one of the moving images is "the motion of a human sitting on a chair", the determination unit obtains the motion information indicating the motion of the object captured in the other moving image by "human beings". "The action of standing up from the chair" is decided.

従って、本発明の第1局面に係る情報処理装置によれば、逆再生動画を機械学習に利用した場合に、機械学習の精度を向上させることができる。 Therefore, according to the information processing apparatus according to the first aspect of the present invention, the accuracy of machine learning can be improved when the reverse playback moving image is used for machine learning.

本発明の第1局面に係る情報処理装置は、以下の第1態様から第3態様がある。 The information processing apparatus according to the first aspect of the present invention has the following first to third aspects.

第1態様は、前記第1動作を示す動作情報である第1ラベルと前記第2動作を示す動作情報である第2ラベルとを紐付けて予め記憶する記憶部をさらに備え、前記変換部は、前記一方の動画である前記第1動画と前記第1ラベルのペアに対して、前記ペアを構成する前記第1動画を前記第2動画に変換し、前記決定部は、前記ペアを構成する前記第1ラベルと紐付けて記憶されている前記第2ラベルを、前記他方の動画である前記第2動画に写された前記物体の動作を示す動作情報に決定し、前記紐付け部は、前記第2動画と前記第2ラベルとを紐付ける。 The first aspect further includes a storage unit for preliminarily storing a first label which is operation information indicating the first operation and a second label which is operation information indicating the second operation in association with each other, and the conversion unit is provided. For the pair of the first moving image and the first label, which is the one moving image, the first moving image constituting the pair is converted into the second moving image, and the determination unit constitutes the pair. The second label, which is stored in association with the first label, is determined to be operation information indicating the operation of the object reflected in the second moving image, which is the other moving image, and the associating portion determines the operation information. The second moving image and the second label are linked.

第1態様は、一方の動画が第1動画であり、他方の動画が第2動画であり、動作情報がラベルの場合である。第1態様によれば、第2動画の撮像がされることなく、第2動画と第2ラベルとを紐付けたペアを生成することができる。このペアは、例えば、データセットを構成するペアとして、利用することができる。 In the first aspect, one moving image is a first moving image, the other moving image is a second moving image, and the operation information is a label. According to the first aspect, it is possible to generate a pair in which the second moving image and the second label are associated with each other without capturing the second moving image. This pair can be used, for example, as a pair constituting a data set.

第2態様は、前記一方の動画である前記第1動画について、前記第1動画に写された前記物体の動作が前記第1動作である推定値と前記第2動作である推定値とを算出する機械学習部をさらに備え、前記決定部は、前記機械学習部が算出した前記第1動作である推定値を前記第2動作である推定値とし、前記機械学習部が算出した前記第2動作である推定値を前記第1動作である推定値とした組み合わせを、前記他方の動画である前記第2動画に写された前記物体の動作を示す動作情報に決定し、前記紐付け部は、前記第2動画と前記組み合わせとを紐付ける。 In the second aspect, with respect to the first moving image, which is one of the moving images, an estimated value in which the motion of the object captured in the first moving image is the first motion and an estimated value in which the motion is the second motion are calculated. The machine learning unit is further provided, and the determination unit uses the estimated value of the first operation calculated by the machine learning unit as the estimated value of the second operation, and the second operation calculated by the machine learning unit. The combination of the estimated value, which is the estimated value of the first operation, as the estimated value of the first operation is determined as the operation information indicating the operation of the object captured in the second moving image, which is the other moving image. The second moving image and the combination are linked.

第2態様は、一方の動画が第1動画であり、他方の動画が第2動画であり、動作情報が推定値(例えば、尤度、確率)の場合である。 The second aspect is a case where one moving image is the first moving image, the other moving image is the second moving image, and the motion information is an estimated value (for example, likelihood, probability).

機械学習部は、第1動画を学習して、第1動画に写された物体の動作が第1動作である推定値と第2動作である推定値とを算出する。第1動画に写された物体の動作は、第1動作なので、第1動作である推定値(例えば、90%)は、第2動作である推定値(例えば、10%)より高くなる。 The machine learning unit learns the first moving image and calculates an estimated value in which the motion of the object captured in the first moving motion is the first motion and an estimated value in which the motion is the second motion. Since the motion of the object captured in the first motion is the first motion, the estimated value of the first motion (for example, 90%) is higher than the estimated value of the second motion (for example, 10%).

決定部は、第1動作である推定値(例えば、90%)を第2動作である推定値とし、第2動作である推定値(例えば、10%)を第1動作である推定値とした組み合わせを、第2動作を示す動作情報と見なし、これを第2動画に写された物体の動作情報と決定する。 The determination unit uses the estimated value of the first operation (for example, 90%) as the estimated value of the second operation, and the estimated value of the second operation (for example, 10%) as the estimated value of the first operation. The combination is regarded as the motion information indicating the second motion, and this is determined as the motion information of the object captured in the second moving image.

第2態様によれば、機械学習部が第2動画を学習することなく、第2動画と、第2動画に写された物体の動作情報とを紐付けたペアを生成することができる。このペアは、例えば、データセットを構成するペアとして、利用することができる。 According to the second aspect, the machine learning unit can generate a pair in which the second moving image and the motion information of the object captured in the second moving image are linked without learning the second moving image. This pair can be used, for example, as a pair constituting a data set.

第3態様は、前記第1動画について、前記第1動画に写された前記物体の動作が前記第1動作である推定値と前記第2動作である推定値とを算出し、かつ、前記第2動画について、前記第2動画に写された前記物体の動作が前記第2動作である推定値と前記第1動作である推定値とを算出する機械学習部をさらに備え、前記紐付け部は、前記第1動画について、前記機械学習部が算出した前記第1動作である推定値と前記第2動作である推定値との組み合わせである第1組み合わせを、前記第1動画に写された前記物体の動作を示す動作情報として、前記第1動画とを紐付け、前記決定部は、前記一方の動画である前記第2動画について、前記機械学習部が算出した前記第2動作である推定値を前記第1動作である推定値とし、前記機械学習部が算出した前記第1動作である推定値を前記第2動作である推定値とした第2組み合わせを、前記他方の動画である前記第1動画に写された前記物体の動作を示す動作情報に決定し、前記紐付け部は、前記第1動画と前記第2組み合わせとを紐付ける。 In the third aspect, with respect to the first moving image, an estimated value in which the motion of the object captured in the first moving image is the first motion and an estimated value in which the second motion is the second motion are calculated, and the first motion is described. Regarding the two moving images, the machine learning unit for calculating the estimated value in which the motion of the object captured in the second moving image is the second motion and the estimated value in which the motion is the first motion is further provided, and the linking section is provided. With respect to the first moving image, the first combination, which is a combination of the estimated value of the first operation calculated by the machine learning unit and the estimated value of the second operation, is copied to the first moving image. The first moving image is associated with the motion information indicating the motion of the object, and the determination unit determines the estimated value of the second motion calculated by the machine learning unit for the second moving image, which is one of the moving images. Is the estimated value of the first operation, and the second combination in which the estimated value of the first operation calculated by the machine learning unit is the estimated value of the second operation is the second moving image of the other. 1 The motion information indicating the motion of the object captured in the moving image is determined, and the linking portion associates the first moving image with the second combination.

第3態様は、一方の動画が第2動画であり、他方の動画が第1動画であり、動作情報が推定値(例えば、尤度、確率)の場合である。 The third aspect is a case where one moving image is a second moving image, the other moving image is a first moving image, and the motion information is an estimated value (for example, likelihood, probability).

機械学習部は、第1動画について、第1動画に写された物体の動作が第1動作である推定値と第2動作である推定値とを算出する。第1動画に写された物体の動作は、第1動作なので、第1動作である推定値(例えば、90%)は、第2動作である推定値(例えば、10%)より高くなる。紐付け部は、第1動画と、これらの推定値の組み合わせ(第1組み合わせ)と、を紐付ける。 The machine learning unit calculates, for the first moving image, an estimated value in which the motion of the object captured in the first moving motion is the first motion and an estimated value in which the motion is the second motion. Since the motion of the object captured in the first motion is the first motion, the estimated value of the first motion (for example, 90%) is higher than the estimated value of the second motion (for example, 10%). The linking unit associates the first moving image with a combination of these estimated values (first combination).

機械学習部は、第2動画について、第2動画に写された物体の動作が第2動作である推定値と第1動作である推定値とを算出する。第2動画(逆再生動画)に写された物体の動作は、第2動作と見なされる動作なので、第2動作である推定値(例えば、80%)は、第1動作である推定値(例えば、20%)より高くなる。 For the second moving image, the machine learning unit calculates an estimated value in which the motion of the object captured in the second moving image is the second motion and an estimated value in which the motion is the first motion. Since the motion of the object captured in the second moving image (reverse playback moving image) is regarded as the second motion, the estimated value (for example, 80%) of the second motion is the estimated value of the first motion (for example). , 20%).

決定部は、第2動作である推定値(例えば、80%)を第1動作である推定値とし、第1動作である推定値(例えば、20%)を第2動作である推定値とした第2組み合わせを、第1動作を示す動作情報と見なし、これを第1動画に写された物体の動作情報と決定する。紐付け部は、第1動画と第2組み合わせとを紐付ける。 The determination unit uses the estimated value of the second operation (for example, 80%) as the estimated value of the first operation, and the estimated value of the first operation (for example, 20%) as the estimated value of the second operation. The second combination is regarded as the motion information indicating the first motion, and this is determined as the motion information of the object captured in the first moving image. The linking unit links the first moving image and the second combination.

以上より、第3態様によれば、同じ第1動画に関して、第1動画と動作情報(第1動作である推定値90%、第2動作である推定値10%)とのペアと、第1動画と動作情報(第1動作である推定値80%、第2動作である推定値20%)とのペアと、を生成することができる。これにより、例えば、データセットに含まれるペアの数を2倍にすることができる。 From the above, according to the third aspect, with respect to the same first moving image, a pair of the first moving image and operation information (estimated value 90% for the first operation, estimated value 10% for the second operation) and the first. It is possible to generate a pair of a moving image and motion information (estimated value 80% for the first motion, estimated value 20% for the second motion). This allows, for example, to double the number of pairs contained in the dataset.

本発明の第2局面に係る情報処理方法は、第1動作および前記第1動作と逆の動作である第2動作のうち、前記第1動作が写された第1動画を、前記第1動画を逆再生した第2動画に変換する変換ステップと、前記第1動画および前記第2動画のうち、一方の動画に写された前記物体の動作を示す動作情報を基にして、他方の動画に写された前記物体の動作を示す動作情報を決定する決定ステップと、前記他方の動画と前記決定ステップで決定された動作情報とを紐付ける紐付けステップと、を備える。 In the information processing method according to the second aspect of the present invention, among the first operation and the second operation which is the reverse of the first operation, the first moving image in which the first operation is copied is the first moving image. Based on the conversion step of converting It includes a determination step for determining motion information indicating the motion of the copied object, and a linking step for associating the other moving image with the motion information determined in the determination step.

本発明の第2局面に係る情報処理方法は、本発明の第1局面に係る情報処理装置を方法の観点から規定しており、本発明の第1局面に係る情報処理装置と同様の作用効果を有する。 The information processing method according to the second aspect of the present invention defines the information processing apparatus according to the first aspect of the present invention from the viewpoint of the method, and has the same effects as the information processing apparatus according to the first aspect of the present invention. Has.

本発明の第3局面に係る情報処理プログラムは、第1動作および前記第1動作と逆の動作である第2動作のうち、前記第1動作が写された第1動画を、前記第1動画を逆再生した第2動画に変換する変換ステップと、前記第1動画および前記第2動画のうち、一方の動画に写された前記物体の動作を示す動作情報を基にして、他方の動画に写された前記物体の動作を示す動作情報を決定する決定ステップと、前記他方の動画と前記決定ステップで決定された動作情報とを紐付ける紐付けステップと、をコンピューターに実行させる。 In the information processing program according to the third aspect of the present invention, among the first operation and the second operation which is the reverse of the first operation, the first moving image in which the first operation is copied is the first moving image. Based on the conversion step of converting A computer is made to execute a determination step of determining motion information indicating the motion of the copied object and a linking step of linking the other moving image with the motion information determined in the determination step.

本発明の第3局面に係る情報処理プログラムは、本発明の第1局面に係る情報処理装置をプログラムの観点から規定しており、本発明の第1局面に係る情報処理装置と同様の作用効果を有する。 The information processing program according to the third aspect of the present invention defines the information processing apparatus according to the first aspect of the present invention from the viewpoint of the program, and has the same effects as the information processing apparatus according to the first aspect of the present invention. Has.

本発明によれば、逆再生動画を機械学習に利用した場合に、機械学習の精度を向上させることができる。 According to the present invention, when the reverse playback moving image is used for machine learning, the accuracy of machine learning can be improved.

実施形態に係る情報処理装置の機能ブロック図である。It is a functional block diagram of the information processing apparatus which concerns on embodiment. 第1動作のデータセットの一例を説明する説明図である。It is explanatory drawing explaining an example of the data set of 1st operation. 図1に示す情報処理装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware composition of the information processing apparatus shown in FIG. 実施形態が、第1動作のデータセットを基にして、第2動作のデータセットを生成する処理を説明するフローチャートである。The embodiment is a flowchart illustrating a process of generating a second operation data set based on the first operation data set. 実施形態において、第1動作のデータセットと第2動作のデータセットとの関係を説明する説明図である。In the embodiment, it is explanatory drawing explaining the relationship between the data set of a 1st operation and the data set of a 2nd operation. 第1変形例が、第1動画のセットを基にして、第2動作のデータセットを生成する処理を説明するフローチャートの前半である。The first modification is the first half of the flowchart for explaining the process of generating the data set of the second operation based on the set of the first moving image. 第1変形例が、第1動画のセットを基にして、第2動作のデータセットを生成する処理を説明するフローチャートの後半である。The first modification is the latter half of the flowchart for explaining the process of generating the data set of the second operation based on the set of the first moving image. 第1変形例において、第1動画のセットと、第1動作のデータセットと、第2動作のデータセットとの関係を説明する説明図である。In the first modification, it is explanatory drawing explaining the relationship between the set of 1st moving motion, the data set of 1st operation, and the data set of 2nd operation. 第2変形例が、第2動画のセットを基にして、第1動作のデータセットを生成する処理を説明するフローチャートである。The second modification is a flowchart illustrating a process of generating a data set of the first operation based on the set of the second moving image. 第2変形例において、第1動画のセットと第1動作のデータセットとの関係を説明する説明図である。In the second modification, it is explanatory drawing explaining the relationship between the set of 1st moving motion and the data set of 1st operation. 第2変形例において、第1動画のセットと、第2動画のセットと、第2動作のデータセットと、第1動作のデータセットとの関係を説明する説明図である。In the 2nd modification, it is explanatory drawing explaining the relationship between the 1st moving image set, the 2nd moving image set, the 2nd operation data set, and the 1st operation data set.

以下、図面に基づいて本発明の実施形態を詳細に説明する。各図において、同一符号を付した構成は、同一の構成であることを示し、その構成について、既に説明している内容については、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し(例えば、第1動画V1)、個別の構成を指す場合には添え字を付した参照符号で示す(例えば、第1動画V1−1)。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In each figure, the configurations with the same reference numerals indicate that they are the same configuration, and the description of the configurations already described will be omitted. In the present specification, when they are generically referred to, they are indicated by reference numerals without subscripts (for example, the first moving image V1), and when they refer to individual configurations, they are indicated by reference numerals with subscripts (for example, first). Movie V1-1).

図1は、実施形態に係る情報処理装置1の機能ブロック図である。情報処理装置1は、機能ブロックとして、本体部2と、入力部3と、出力部4と、を備える。 FIG. 1 is a functional block diagram of the information processing apparatus 1 according to the embodiment. The information processing apparatus 1 includes a main body unit 2, an input unit 3, and an output unit 4 as functional blocks.

本体部2は、機械学習を実行できる性能を有するコンピューターであり、機能ブロックとして、制御処理部21と、機械学習部22と、記憶部23と、取出部24と、変換部25と、決定部26と、紐付け部27と、を備える。 The main body 2 is a computer having the ability to execute machine learning, and as functional blocks, the control processing unit 21, the machine learning unit 22, the storage unit 23, the extraction unit 24, the conversion unit 25, and the determination unit A 26 and a tying portion 27 are provided.

制御処理部21は、本体部2の各部(機械学習部22、記憶部23、取出部24、変換部25、決定部26、紐付け部27)を当該各部の機能に応じてそれぞれ制御するための装置である。 The control processing unit 21 controls each unit (machine learning unit 22, storage unit 23, extraction unit 24, conversion unit 25, determination unit 26, linking unit 27) of the main body unit 2 according to the function of each unit. It is a device of.

機械学習には、学習フェーズ(学習によるモデル作成)と、予測・認識フェーズ(モデルをデータに適用して結果を得る)と、がある。機械学習部22は、物体の予め定められた動作について、これらのフェーズを実行する。物体は、動くことができればよく、人間、動物、人為的に作られた物(例えば、自動車)のいずれでもよい。 Machine learning has a learning phase (model creation by learning) and a prediction / recognition phase (applying a model to data to obtain results). The machine learning unit 22 executes these phases for predetermined movements of the object. The object may be a human being, an animal, or an artificially created object (for example, a car) as long as it can move.

物体の予め定められた動作は、第1動作および第2動作である。第1動作は、第2動作と逆の動作である。言い換えれば、第2動作は、第1動作と逆の動作である。例えば、人間が椅子に座る動作が第1動作のとき、人間が椅子から立つ動作が第2動作となる。この逆でもよい。すなわち、人間が椅子から立つ動作が第1動作のとき、人間が椅子に座る動作が第2動作となる。 The predetermined movements of the object are the first movement and the second movement. The first operation is the reverse of the second operation. In other words, the second operation is the opposite of the first operation. For example, when the movement of a person sitting on a chair is the first movement, the movement of a person standing from the chair is the second movement. The reverse is also possible. That is, when the movement of the human standing from the chair is the first movement, the movement of the human sitting on the chair is the second movement.

記憶部23は、情報処理装置1が実行する処理および制御に必要な各種の動画、データ、情報等を記憶する。記憶部23に記憶される各種のデータの1つとして、第1動作のデータセットがある。第1動作のデータセットは、第1動作を学習するためのデータセット(学習データ)である。 The storage unit 23 stores various moving images, data, information, and the like necessary for processing and control executed by the information processing apparatus 1. As one of various data stored in the storage unit 23, there is a data set of the first operation. The data set of the first operation is a data set (learning data) for learning the first operation.

図2は、第1動作のデータセットDS−1の一例を説明する説明図である。第1動作のデータセットDS−1は、第1動画V1と第1ラベルとのペアをn個備える。nは、第1動作の機械学習に必要とされる数である。第1動画V1は、第1動作をする物体が写された動画である。n個の第1動画V1(V1−1〜V1−n)は、同じ動画でなく、それぞれ別々に撮像された動画である。 FIG. 2 is an explanatory diagram illustrating an example of the data set DS-1 of the first operation. The data set DS-1 of the first operation includes n pairs of the first moving image V1 and the first label. n is a number required for machine learning of the first operation. The first moving image V1 is a moving image in which an object performing the first operation is captured. The n first moving images V1 (V1-1 to V1-n) are not the same moving images, but are images taken separately.

第1ラベルは、第1動画V1に写された物体の動作が第1動作であることを示す動作情報である(例えば、「0」)。n個の第1動画V1は、それぞれ、第1動作をする物体が写された動画なので、ラベルは、それぞれ、第1ラベルである。n個の第1動画V1のそれぞれは、第1ラベルと紐付けられて、n個のペアが構成されている。 The first label is motion information indicating that the motion of the object captured in the first moving image V1 is the first motion (for example, "0"). Since each of the n first moving images V1 is a moving image of an object performing the first operation, the labels are the first labels, respectively. Each of the n first moving images V1 is associated with the first label to form n pairs.

図1を参照して、取出部24は、第1動作のデータセットDS−1に含まれるペアをコピーし、このペアを構成する第1動画V1を変換部25に送り、第1ラベルを決定部26に送る処理をする。取出部24は、この処理をn個のペアのそれぞれについて実行する。 With reference to FIG. 1, the extraction unit 24 copies the pair included in the data set DS-1 of the first operation, sends the first moving image V1 constituting this pair to the conversion unit 25, and determines the first label. The process of sending to the unit 26 is performed. The fetching unit 24 executes this process for each of the n pairs.

変換部25は、取出部24から送られてきた第1動画V1を構成するフレームの順番を逆にすることにより、第1動画V1を第2動画V2(逆再生動画)に変換する。フレームの順番を逆にするとは、例えば、フレームA、フレームB、フレームC、フレームDの順にフレームが並ぶ動画(第1動画V1)の場合、フレームD、フレームC、フレームB、フレームAの順にフレームが並ぶ動画(第2動画V2)にすることである。第2動画V2は、第1動画V1を逆再生した動画なので、第2動画V2に写された物体の動作は、第2動作でなく、第2動作と見なす動作である。 The conversion unit 25 converts the first moving image V1 into the second moving image V2 (reverse playback moving image) by reversing the order of the frames constituting the first moving image V1 sent from the taking out unit 24. Reversing the order of frames means, for example, in the case of a moving image (first moving image V1) in which frames are arranged in the order of frame A, frame B, frame C, and frame D, the order of frame D, frame C, frame B, and frame A. It is to make a moving image (second moving image V2) in which frames are lined up. Since the second moving image V2 is a moving image obtained by replaying the first moving image V1 in reverse, the operation of the object captured in the second moving image V2 is not the second operation but the operation regarded as the second operation.

決定部26は、第1動画V1および第2動画V2のうち、一方の動画に写された物体の動作を示す動作情報を基にして、他方の動画に写された物体の動作を示す動作情報を決定する。詳しく説明すると、実施形態では、一方の動画が第1動画V1であり、他方の動画が第2動画V2である。記憶部23は、第1ラベルと第2ラベルとを紐付けて予め記憶している。第2ラベルは、第2動画V2に写された物体の動作が第2動作であることを示す動作情報である(例えば、「1」)。決定部26は、取出部24から送られてきたラベルが第1ラベルなので、第1ラベルと紐付けて記憶されている第2ラベルを、第2動画V2に写された物体の動作を示す動作情報に決定する。 The determination unit 26 is based on the motion information indicating the motion of the object captured in one of the first moving image V1 and the second moving image V2, and the motion information indicating the motion of the object captured in the other moving image. To decide. More specifically, in the embodiment, one moving image is the first moving image V1, and the other moving image is the second moving image V2. The storage unit 23 associates the first label and the second label and stores them in advance. The second label is motion information indicating that the motion of the object captured in the second moving image V2 is the second motion (for example, "1"). Since the label sent from the extraction unit 24 is the first label, the determination unit 26 is an operation indicating the operation of the object in which the second label stored in association with the first label is copied to the second moving image V2. Decide on information.

紐付け部27は、第2動画V2と第2ラベル(決定部26が決定した動作情報)とを紐付ける。これにより、第2動画V2と第2ラベルのペアが生成される。 The associating unit 27 associates the second moving image V2 with the second label (operation information determined by the determination unit 26). As a result, a pair of the second moving image V2 and the second label is generated.

入力部3は、外部からコマンド(命令)やデータ等を情報処理装置1に入力する装置である。出力部4は、機械学習部22が実行した認識結果等を出力する装置である。 The input unit 3 is a device that inputs commands (commands), data, and the like to the information processing device 1 from the outside. The output unit 4 is a device that outputs a recognition result or the like executed by the machine learning unit 22.

図3は、図1に示す情報処理装置1のハードウェア構成を示すブロック図である。情報処理装置1は、CPU(Central Processing Unit)1a、GPU(Graphics Processing Unit)1b、RAM(Random Access Memory)1c、ROM(Read Only Memory)1d、HDD(Hard Disk Drive)1e、液晶ディスプレイ1f、キーボード等1g、および、これらを接続するバス1hを備える。 FIG. 3 is a block diagram showing a hardware configuration of the information processing apparatus 1 shown in FIG. The information processing device 1 includes a CPU (Central Processing Unit) 1a, a GPU (Graphics Processing Unit) 1b, a RAM (Random Access Memory) 1c, a ROM (Read Only Memory) 1d, and an HDD (Hard Disk 1). It includes 1 g of a keyboard and the like, and 1 h of a bus connecting them.

図1および図3を参照して、液晶ディスプレイ1fは、出力部4を実現するハードウェアである。液晶ディスプレイ1fの替わりに、有機ELディスプレイ(Organic Light Emitting Diode display)、プラズマディスプレイ等でもよい。キーボード等1gは、入力部3を実現するハードウェアである。キーボードの替わりに、タッチパネルでもよい。 With reference to FIGS. 1 and 3, the liquid crystal display 1f is hardware that realizes the output unit 4. Instead of the liquid crystal display 1f, an organic EL display (Organic Light Emitting Diode display), a plasma display, or the like may be used. 1g of a keyboard or the like is hardware that realizes the input unit 3. A touch panel may be used instead of the keyboard.

HDD1eは、記憶部23を実現するハードウェアである。また、HDD1eには、制御処理部21、機械学習部22、取出部24、変換部25、決定部26、紐付け部27について、これらの機能ブロックをそれぞれ実現するためのプログラムが格納されている。これらのプログラムは、機能ブロックの定義を用いて表現される。変換部25および変換プログラムを例にして説明する。変換部25は、第1動作およびこの動作と逆の動作である第2動作のうち、第1動作が写された第1動画V1を、第1動画V1を逆再生した第2動画V2に変換する。変換プログラムは、第1動作およびこの動作と逆の動作である第2動作のうち、第1動作が写された第1動画V1を、第1動画V1を逆再生した第2動画V2に変換するプログラムである。 The HDD 1e is hardware that realizes the storage unit 23. Further, the HDD 1e stores programs for realizing the functional blocks of the control processing unit 21, the machine learning unit 22, the extraction unit 24, the conversion unit 25, the determination unit 26, and the linking unit 27, respectively. .. These programs are represented using functional block definitions. The conversion unit 25 and the conversion program will be described as an example. The conversion unit 25 converts the first moving image V1 in which the first operation is captured into the second moving image V2 in which the first moving image V1 is reproduced in reverse, out of the first operation and the second operation which is the reverse operation of this operation. do. The conversion program converts the first moving image V1 in which the first operation is copied into the second moving image V2 in which the first moving image V1 is played in reverse, out of the first operation and the second operation which is the reverse operation of this operation. It is a program.

これらのプログラムは、HDD1eに予め記憶されているが、これに限定されない。例えば、これらのプログラムを記録している記録媒体(例えば、磁気ディスク、光学ディスクのような外部記録媒体)が用意されており、この記録媒体に記憶されているプログラムがHDD1eに記憶されてもよい。また、これらのプログラムは、情報処理装置1とネットワーク接続されたサーバに格納されており、ネットワークを介して、これらのプログラムがHDD1eに送られ、HDD1eに記憶されてもよい。これらのプログラムは、HDD1eの替わりにROM1dに記憶してもよい。情報処理装置1は、HDD1eの替わりに、フラッシュメモリを備え、これらのプログラムはフラッシュメモリに記憶してもよい。 These programs are stored in the HDD 1e in advance, but are not limited thereto. For example, a recording medium (for example, an external recording medium such as a magnetic disk or an optical disk) for recording these programs may be prepared, and the program stored in the recording medium may be stored in the HDD 1e. .. Further, these programs are stored in a server connected to the information processing apparatus 1 via a network, and these programs may be sent to the HDD 1e and stored in the HDD 1e via the network. These programs may be stored in the ROM 1d instead of the HDD 1e. The information processing apparatus 1 includes a flash memory instead of the HDD 1e, and these programs may be stored in the flash memory.

CPU1aは、これらのプログラムを、HDD1eから読み出してRAM1cに展開させ、展開されたプログラムを実行することによって、制御処理部21、機械学習部22、取出部24、変換部25、決定部26、および、紐付け部27が実現される。但し、これらの機能について、各機能の一部又は全部は、CPU1aによる処理に替えて、又は、これと共に、DSP(Digital Signal Processor)による処理によって実現されてもよい。又、同様に、各機能の一部又は全部は、ソフトウェアによる処理に替えて、又は、これと共に、専用のハードウェア回路による処理によって実現されてもよい。 The CPU 1a reads these programs from the HDD 1e, expands them into the RAM 1c, and executes the expanded programs to execute the control processing unit 21, the machine learning unit 22, the extraction unit 24, the conversion unit 25, the determination unit 26, and the determination unit 26. , The tying portion 27 is realized. However, with respect to these functions, a part or all of each function may be realized by the processing by the DSP (Digital Signal Processor) in place of or in combination with the processing by the CPU 1a. Similarly, a part or all of each function may be realized by processing by a dedicated hardware circuit in place of or in combination with processing by software.

CPU1aによって実行されるこれらのプログラム(変換プログラム等)のフローチャートが、後で説明する図4、図6、図7および図9のフローチャートである。 The flowcharts of these programs (conversion programs and the like) executed by the CPU 1a are the flowcharts of FIGS. 4, 6, 7, and 9 which will be described later.

GPU1bは、例えば、CPU1aの制御の下で、機械学習部22が機械学習をする際に必要な各種処理(例えば、画像処理)を実行する。 The GPU 1b, for example, under the control of the CPU 1a, executes various processes (for example, image processing) necessary for the machine learning unit 22 to perform machine learning.

実施形態では、第1動作のデータセットDS−1を基にして、第2動作のデータセットDS−2を生成する。図4は、これを説明するフローチャートである。図5は、実施形態において、第1動作のデータセットDS−1と第2動作のデータセットDS−2との関係を説明する説明図である。 In the embodiment, the second operation data set DS-2 is generated based on the first operation data set DS-1. FIG. 4 is a flowchart illustrating this. FIG. 5 is an explanatory diagram illustrating the relationship between the data set DS-1 of the first operation and the data set DS-2 of the second operation in the embodiment.

図5について説明する。図5に示す第1動作のデータセットDS−1は、図2に示す第1動作のデータセットDS−1と同じである。第2動作のデータセットDS−2は、第2動作を学習するためのデータセット(学習セット)である。第2動作のデータセットDS−2は、第2動画V2と第2ラベルとのペアをn個備える。これらのペアの数nは、第1動作のデータセットDS−1に備えられるペアの数nと同じである。 FIG. 5 will be described. The data set DS-1 of the first operation shown in FIG. 5 is the same as the data set DS-1 of the first operation shown in FIG. The second operation data set DS-2 is a data set (learning set) for learning the second operation. The second operation data set DS-2 includes n pairs of the second moving image V2 and the second label. The number n of these pairs is the same as the number n of pairs provided in the data set DS-1 of the first operation.

n個の第2動画V2(V2−1〜V2−n)は、それぞれ、n個の第1動画V1(V1−1〜V1−n)を逆再生した動画である。すなわち、第2動画V2−1は、第1動画V1−1を逆再生した動画であり、第2動画V2−2は、第1動画V1−2を逆再生した動画であり、第2動画V2−3は、第1動画V1−3を逆再生した動画であり、・・・、第2動画V2−nは、第1動画V1−nを逆再生した動画である。第2ラベルは、上述したように、第2動画V2に写された物体の動作が第2動作であることを示す動作情報である(例えば、「1」)。n個の第2動画V2のそれぞれは、第2ラベルと紐付けられて、n個のペアが構成されている。 The n second moving images V2 (V2-1 to V2-n) are moving images in which n first moving images V1 (V1-1 to V1-n) are reproduced in reverse. That is, the second moving image V2-1 is a moving image in which the first moving image V1-1 is played in reverse, and the second moving image V2-2 is a moving image in which the first moving image V1-2 is played in reverse, and the second moving image V2. -3 is a moving image in which the first moving image V1-3 is played in reverse, ..., The second moving image V2-n is a moving image in which the first moving image V1-n is played in reverse. As described above, the second label is motion information indicating that the motion of the object captured in the second moving image V2 is the second motion (for example, "1"). Each of the n second moving images V2 is associated with the second label to form n pairs.

実施形態が、第1動作のデータセットDS−1を基にして、第2動作のデータセットDS−2を生成する処理を説明する。図1、図4および図5を参照して、取出部24は、第1動作のデータセットDS−1に含まれる1番目のペア[第1動画V1−1,第1ラベル]をコピーし、このペアを構成する第1動画V1−1、第1ラベルをそれぞれ、変換部25、決定部26に送る(ステップS1)。 The process of generating the data set DS-2 of the second operation based on the data set DS-1 of the first operation will be described. With reference to FIGS. 1, 4 and 5, the fetching unit 24 copies the first pair [first moving image V1-1, first label] included in the data set DS-1 of the first operation. The first moving image V1-1 and the first label constituting this pair are sent to the conversion unit 25 and the determination unit 26, respectively (step S1).

変換部25は、取出部24から送られてきた第1動画V1−1を第2動画V2−1に変換する(ステップS2)。このように、変換部25は、一方の動画である第1動画V1と第1ラベルのペアに対して、ペアを構成する第1動画V1を第2動画V2に変換する。 The conversion unit 25 converts the first moving image V1-1 sent from the taking-out unit 24 into the second moving image V2-1 (step S2). In this way, the conversion unit 25 converts the first moving image V1 constituting the pair into the second moving image V2 for the pair of the first moving image V1 and the first label, which is one of the moving images.

決定部26は、取出部24から送られてきたラベルが第1ラベルなので、第1ラベルと紐付けて記憶されている第2ラベルを、第2動画V2−1に写された物体の動作を示す動作情報に決定する(ステップS3)。 Since the label sent from the extraction unit 24 is the first label, the determination unit 26 uses the second label stored in association with the first label as the operation of the object copied in the second moving image V2-1. The operation information to be shown is determined (step S3).

紐付け部27は、第2動画V2−1と第2ラベルとを紐付ける(ステップS4)。これにより、1つのペア[第2動画V2−1,第2ラベル]が生成される。 The linking unit 27 links the second moving image V2-1 to the second label (step S4). As a result, one pair [second moving image V2-1, second label] is generated.

取出部24は、第1動作のデータセットDS−1に含まれる全てのペアについて、ステップS1〜S4の処理が終了したか否かを判断する(ステップS5)。取出部24は、第1動作のデータセットDS−1に含まれる全てのペアについて、ステップS1〜S4の処理が終了していないと判断したとき(ステップS5でNo)、ステップS1に戻り、ステップS1の処理をする。 The extraction unit 24 determines whether or not the processing of steps S1 to S4 has been completed for all the pairs included in the data set DS-1 of the first operation (step S5). When the extraction unit 24 determines that the processing of steps S1 to S4 has not been completed for all the pairs included in the data set DS-1 of the first operation (No in step S5), the extraction unit 24 returns to step S1 and steps. Process S1.

取出部24は、第1動作のデータセットDS−1に含まれる全てのペアについて、ステップS1〜S4の処理が終了したと判断したとき(ステップS5でYes)、図5に示すように、第2動作のデータセットDS−2が完成される。 When the extraction unit 24 determines that the processing of steps S1 to S4 has been completed for all the pairs included in the data set DS-1 of the first operation (Yes in step S5), as shown in FIG. 5, the first operation is performed. The two-operation data set DS-2 is completed.

実施形態の主な効果を説明する。第2動作は、第1動作の逆の動作である。このため、第1動作をする物体が写された第1動画V1の逆再生動画(第2動画V2)は、第2動作と見なすことができる動作をする物体が写された動画である。例えば、人間が椅子に座る動作が写された第1動画V1の逆再生動画(第2動画V2)は、人間が椅子に座る動作を未来から過去へ再生する動画であるが、人間が椅子から立つ動作と見なすことができる動作が写された動画である。逆に、人間が椅子から立つ動作が写された第1動画V1の逆再生動画(第2動画V2)は、人間が椅子から立つ動作を未来から過去へ再生する動画であるが、人間が椅子に座る動作と見なすことができる動作が写された動画である。 The main effects of the embodiments will be described. The second operation is the reverse of the first operation. Therefore, the reverse playback moving image (second moving image V2) of the first moving image V1 in which the object performing the first operation is shown is a moving image in which the object performing the action that can be regarded as the second movement is shown. For example, the reverse playback video of the first video V1 (second video V2), which shows the movement of a human sitting on a chair, is a video of the movement of a human sitting on a chair played from the future to the past. This is a video showing a movement that can be regarded as a standing movement. Conversely, the reverse playback video of the first video V1 (second video V2), which shows the movement of a human standing from a chair, is a video that reproduces the movement of a human standing from a chair from the future to the past. This is a video showing a movement that can be regarded as a movement of sitting on a chair.

第1動画V1および第2動画V2において、動画に写されてる物体の動作を示す動作情報であるラベル(言い換えれば、教師データ)を同じにすれば、機械学習の精度が悪くなる。そこで、決定部26は、第1動画V1に写された物体の動作を示す動作情報(第1ラベル)を基にして、第2動画V2に写された物体の動作を示す動作情報(第2ラベル)を決定する。従って、実施形態によれば、逆再生動画を機械学習に利用した場合に、機械学習の精度を向上させることができる。 If the labels (in other words, teacher data), which are the motion information indicating the motion of the object shown in the moving object, are the same in the first moving image V1 and the second moving image V2, the accuracy of machine learning deteriorates. Therefore, the determination unit 26 is based on the motion information (first label) indicating the motion of the object captured in the first moving image V1, and the motion information (second) indicating the motion of the object captured in the second moving image V2. Label) is determined. Therefore, according to the embodiment, when the reverse playback moving image is used for machine learning, the accuracy of machine learning can be improved.

実施形態には、第1変形例および第2変形例がある。これらの変形例において、動作情報はラベルでなく、推定値(推定値の組み合わせ)であり、動画に写された物体の動作が第1動作である推定値と第2動作である推定値とが求められる。例えば、第1動画V1に写された物体の動作が第1動作である推定値が90%であり、第2動作である推定値が10%である。推定値は、例えば、尤度、確率である。 Embodiments include a first modification and a second modification. In these variants, the motion information is not a label but an estimated value (combination of estimated values), and the motion of the object shown in the moving image is the estimated value that is the first motion and the estimated value that is the second motion. Desired. For example, the estimated value of the movement of the object captured in the first moving image V1 is 90%, and the estimated value of the second movement is 10%. The estimated values are, for example, likelihood and probability.

第1変形例について、実施形態と相違する点を主に説明する。第1変形例は、第1動画V1のセットを基にして、第2動作のデータセットDS−4を生成する。図6は、これを説明するフローチャートの前半である。図7は、これを説明するフローチャートの後半である。図8は、第1変形例において、第1動画V1のセットと、第1動作のデータセットDS−3と、第2動作のデータセットDS−4との関係を説明する説明図である。 The first modification will be mainly described as being different from the embodiment. In the first modification, the data set DS-4 of the second operation is generated based on the set of the first moving image V1. FIG. 6 is the first half of the flowchart illustrating this. FIG. 7 is the latter half of the flowchart illustrating this. FIG. 8 is an explanatory diagram illustrating the relationship between the set of the first moving image V1, the data set DS-3 of the first operation, and the data set DS-4 of the second operation in the first modification.

図1、図6および図8を参照して、記憶部23は、第1動画V1のセットを予め記憶している。第1動画V1のセットは、実施形態で説明したn個の第1動画V1を備える。 With reference to FIGS. 1, 6 and 8, the storage unit 23 stores the set of the first moving image V1 in advance. The set of the first moving images V1 includes n first moving images V1 described in the embodiment.

取出部24は、第1動画V1のセットに含まれる1番目の第1動画V1(第1動画V1−1)をコピーし、これを機械学習部22に送る(ステップS11)。 The extraction unit 24 copies the first first moving image V1 (first moving image V1-1) included in the set of the first moving image V1 and sends it to the machine learning unit 22 (step S11).

機械学習部22は、取出部24から送られてきた第1動画V1−1を学習(言い換えれば、第1動画V1−1の特徴抽出)して、第1動画V1−1に写された物体の動作が第1動作である推定値(例えば、90%)と第2動作である推定値(例えば、10%)とをそれぞれ算出する(ステップS12)。これらの推定値の組み合わせが、第1動画V1−1に写された物体の動作を示す動作情報となる。 The machine learning unit 22 learns the first moving image V1-1 sent from the taking-out unit 24 (in other words, the feature extraction of the first moving image V1-1), and the object copied to the first moving image V1-1. The estimated value (for example, 90%) in which the operation is the first operation and the estimated value (for example, 10%) in which the operation is the second operation are calculated (step S12). The combination of these estimated values becomes the motion information indicating the motion of the object captured in the first moving image V1-1.

紐付け部27は、第1動画V1−1と、機械学習部22が算出した第1動作の推定値および第2動作の推定値の組み合わせと、を紐づける(ステップS13)。これにより、ペア[第1動画V1−1,(第1動作の推定値90%,第2動作の推定値10%)]が生成される
取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS11〜S13の処理が終了したか否かを判断する(ステップS14)。取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS11〜S13の処理が終了していないと判断したとき(ステップS14でNo)、ステップS11に戻り、ステップS11の処理をする。
The associating unit 27 associates the first moving image V1-1 with the combination of the estimated value of the first operation and the estimated value of the second operation calculated by the machine learning unit 22 (step S13). As a result, the extraction unit 24 in which the pair [first moving image V1-1, (estimated value of the first operation 90%, estimated value of the second operation 10%)] is generated is included in the set of the first moving image V1. For all the first moving images V1, it is determined whether or not the processing of steps S11 to S13 is completed (step S14). When the extraction unit 24 determines that the processing of steps S11 to S13 has not been completed for all the first moving images V1 included in the set of the first moving images V1, the process returns to step S11 and steps are taken. Process S11.

取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS11〜S13の処理が終了したと判断したとき(ステップS14でYes)、図8に示すように、第1動作のデータセットDS−3が完成される。 When the extraction unit 24 determines that the processing of steps S11 to S13 has been completed for all the first moving images V1 included in the set of the first moving image V1 (Yes in step S14), as shown in FIG. The data set DS-3 for one operation is completed.

図1、図7および図8を参照して、取出部24は、第1動画V1のセットに含まれる1番目の第1動画V1(第1動画V1−1)をコピーし、変換部25に送る(ステップS15)。 With reference to FIGS. 1, 7, and 8, the fetching unit 24 copies the first first moving image V1 (first moving image V1-1) included in the set of the first moving image V1 to the conversion unit 25. Send (step S15).

変換部25は、取出部24から送られてきた第1動画V1−1を第2動画V2−1に変換する(ステップS16)。 The conversion unit 25 converts the first moving image V1-1 sent from the taking-out unit 24 into the second moving image V2-1 (step S16).

取出部24は、第1動作のデータセットDS−3に含まれる1番目のペアに含まれる推定値の組み合わせ(第1動作の推定値90%,第2動作の推定値10%)をコピーし、決定部26に送る(ステップS17)。 The fetching unit 24 copies the combination of the estimated values included in the first pair included in the data set DS-3 of the first operation (estimated value of the first operation 90%, estimated value of the second operation 10%). , Sent to the determination unit 26 (step S17).

決定部26は、第2動画V2−1とペアを組む推定値の組み合わせを決定する(ステップS18)。詳しく説明すると、決定部26は、取出部24から送られてきた推定値の組み合わせ(第1動作の推定値90%,第2動作の推定値10%)について、第1動作の推定値90%を第2動作の推定値90%とし、第2動作の推定値10%を第1動作の推定値10%とした組み合わせを生成し、この組み合わせを第2動画V2−1に写された物体の動作を示す動作情報に決定する。このように、決定部26は、第1動画V1について、機械学習部22が算出した第1動作である推定値を、第2動作である推定値とし、第1動画V1について、機械学習部22が算出した第2動作である推定値を、第1動作である推定値とした組み合わせを、第2動画V2に写された物体の動作を示す動作情報に決定する。 The determination unit 26 determines a combination of estimated values to be paired with the second moving image V2-1 (step S18). More specifically, the determination unit 26 has 90% of the estimated value of the first operation for the combination of the estimated values sent from the fetching unit 24 (estimated value of the first operation 90%, estimated value of the second operation 10%). Is 90% of the estimated value of the second movement, and a combination is generated in which the estimated value of the second movement is 10% and the estimated value of the first movement is 10%. Determine the operation information indicating the operation. As described above, the determination unit 26 uses the estimated value of the first operation calculated by the machine learning unit 22 as the estimated value of the second operation for the first moving image V1, and the machine learning unit 22 for the first moving image V1. The combination of the estimated value of the second operation calculated by the above and the estimated value of the first operation is determined as the operation information indicating the operation of the object captured in the second moving image V2.

紐付け部27は、第2動画V2−1と、ステップS18で決定された推定値の組み合わせ(第2動作の推定値90%、第1動作の推定値10%)と、を紐付ける(ステップS19)。これにより、1つのペア[第2動画V2−1,(第2動作の推定値90%,第1動作の推定値10%)]が生成される。 The linking unit 27 associates the second moving image V2-1 with the combination of the estimated values determined in step S18 (estimated value of the second operation 90%, estimated value of the first operation 10%) (step). S19). As a result, one pair [second moving image V2-1 (estimated value of the second operation 90%, estimated value of the first operation 10%)] is generated.

取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS15〜S19の処理が終了したか否かを判断する(ステップS20)。取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS15〜S19の処理が終了していないと判断したとき(ステップS20でNo)、ステップS15に戻り、ステップS15の処理をする。 The extraction unit 24 determines whether or not the processing of steps S15 to S19 has been completed for all the first moving images V1 included in the set of the first moving images V1 (step S20). When the extraction unit 24 determines that the processing of steps S15 to S19 has not been completed for all the first moving images V1 included in the set of the first moving images V1, the process returns to step S15 and steps are taken. Process S15.

取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS15〜S19の処理が終了したと判断したとき(ステップS20でYes)、図8に示すように、第2動作のデータセットDS−4が完成される。 When the extraction unit 24 determines that the processing of steps S15 to S19 has been completed for all the first moving images V1 included in the set of the first moving images V1 (Yes in step S20), as shown in FIG. The two-operation data set DS-4 is completed.

第1変形例の主な効果を説明する。機械学習部22は、第1動画V1を学習して、第1動画V1に写された物体の動作が第1動作である推定値と第2動作である推定値とを算出する(ステップS12)。第1動画V1に写された物体の動作は、第1動作なので、第1動作である推定値(例えば、90%)は、第2動作である推定値(例えば、10%)より高くなる。これらの推定値の組み合わせが、第1動画V1とペアを組む推定値の組み合わせとなる。 The main effects of the first modification will be described. The machine learning unit 22 learns the first moving image V1 and calculates an estimated value in which the motion of the object captured in the first moving image V1 is the first motion and an estimated value in which the motion is the second motion (step S12). .. Since the motion of the object captured in the first moving image V1 is the first motion, the estimated value of the first motion (for example, 90%) is higher than the estimated value of the second motion (for example, 10%). The combination of these estimated values is the combination of the estimated values paired with the first moving image V1.

決定部26は、第1動作である推定値(例えば、90%)を第2動作である推定値とし、第2動作である推定値(例えば、10%)を第1動作である推定値とし、これらの推定の組み合わせを、第2動作を示す動作情報と見なし、これを第2動画V2に写された物体の動作情報と決定する(ステップS18)。 The determination unit 26 uses the estimated value of the first operation (for example, 90%) as the estimated value of the second operation, and the estimated value of the second operation (for example, 10%) as the estimated value of the first operation. , The combination of these estimates is regarded as the motion information indicating the second motion, and this is determined as the motion information of the object copied in the second moving image V2 (step S18).

第1変形例によれば、機械学習部22が第2動画V2を学習することなく、第2動画V2と、第2動画V2に写された物体の動作情報(推定値の組み合わせ)と、を紐付けたペアを生成することができる。これにより、機械学習部22が第2動画V2を学習することなく、第2動作のデータセットDS−4を生成することができる。 According to the first modification, the machine learning unit 22 obtains the second moving image V2 and the motion information (combination of estimated values) of the object captured in the second moving image V2 without learning the second moving image V2. You can generate linked pairs. As a result, the machine learning unit 22 can generate the second operation data set DS-4 without learning the second moving image V2.

第2変形例について、実施形態および第1変形例と相違する点を主に説明する。第2変形例は、第1動画V1のセットを基にして、図10に示す第1動作のデータセットDS−3を生成し、かつ、第2動画V2のセットを基にして、図11に示す第1動作のデータセットDS−6を生成する。図9は、第2変形例において、第2動画V2のセットを基にして、第1動作のデータセットDS−6を生成する処理を説明するフローチャートである。図10は、第2変形例において、第1動画V1のセットと第1動作のデータセットDS−3との関係を説明する説明図である。図11は、第2変形例において、第1動画V1のセットと、第2動画V2のセットと、第2動作のデータセットDS−5と、第1動作のデータセットDS−6との関係を説明する説明図である。 The second modification will mainly explain the differences from the embodiment and the first modification. In the second modification, the data set DS-3 of the first operation shown in FIG. 10 is generated based on the set of the first moving image V1, and the set of the second moving image V2 is used as the basis in FIG. The data set DS-6 of the first operation shown is generated. FIG. 9 is a flowchart illustrating a process of generating a data set DS-6 for the first operation based on the set of the second moving image V2 in the second modification. FIG. 10 is an explanatory diagram illustrating the relationship between the set of the first moving image V1 and the data set DS-3 of the first operation in the second modification. FIG. 11 shows the relationship between the set of the first moving image V1, the set of the second moving image V2, the data set DS-5 of the second operation, and the data set DS-6 of the first operation in the second modification. It is explanatory drawing to explain.

図10を参照して、第2変形例に係る情報処理装置1は、第1動画V1のセットを基にして、第1動作のデータセットDS−3を生成する。第1動作の推定値と第2動作の推定値との組み合わせが第1組み合わせである。第1動画V1と第1組み合わせとが紐付けられている。図10は、第1変形例が、第1動画V1のセットを基にして、第1動作のデータセットDS−3を生成する処理と同じである(図8に示す第1動画のセットから第1動作のデータセットDS−3の生成、図6のステップS11〜S14)。よって、説明を省略する。 With reference to FIG. 10, the information processing apparatus 1 according to the second modification generates the data set DS-3 of the first operation based on the set of the first moving image V1. The combination of the estimated value of the first operation and the estimated value of the second operation is the first combination. The first moving image V1 and the first combination are linked. In FIG. 10, the first modification is the same as the process of generating the data set DS-3 of the first operation based on the set of the first moving image V1 (from the set of the first moving image shown in FIG. 8 to the first). Generation of the data set DS-3 for one operation, steps S11 to S14 in FIG. 6). Therefore, the description thereof will be omitted.

図1、図9および図11を参照して、取出部24は、第1動画V1のセットに含まれる1番目の第1動画V1(第1動画V1−1)をコピーし、これを変換部25に送る(ステップS31)。 With reference to FIGS. 1, 9 and 11, the extraction unit 24 copies the first first moving image V1 (first moving image V1-1) included in the set of the first moving image V1, and converts the first moving image V1 (first moving image V1-1). 25 (step S31).

変換部25は、取出部24から送られてきた第1動画V1−1を第2動画V2−1に変換する(ステップS32)。 The conversion unit 25 converts the first moving image V1-1 sent from the taking-out unit 24 into the second moving image V2-1 (step S32).

取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS31およびステップS32の処理が終了したか否かを判断する(ステップS33)。取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS31およびステップS32の処理が終了していないと判断したとき(ステップS33でNo)、ステップS31に戻り、ステップS31の処理をする。 The extraction unit 24 determines whether or not the processes of steps S31 and S32 have been completed for all the first moving images V1 included in the set of the first moving images V1 (step S33). When the extraction unit 24 determines that the processes of step S31 and step S32 have not been completed for all the first moving images V1 included in the set of the first moving image V1, the extraction unit 24 returns to step S31 and returns to step S31. The process of step S31 is performed.

取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS31およびステップS32の処理が終了したと判断したとき(ステップS33でYes)、図11に示すように、第2動画V2のセットが完成される。 When the extraction unit 24 determines that the processes of steps S31 and S32 have been completed for all the first moving images V1 included in the set of the first moving images V1 (Yes in step S33), as shown in FIG. The set of the second moving image V2 is completed.

第2動画V2のセットの完成後、取出部24は、第2動画V2のセットに含まれる1番目の第2動画V2(第2動画V2−1)をコピーし、これを機械学習部22に送る(ステップS34)。 After the set of the second moving image V2 is completed, the extraction unit 24 copies the first second moving image V2 (second moving image V2-1) included in the set of the second moving image V2, and transfers this to the machine learning unit 22. Send (step S34).

機械学習部22は、取出部24から送られてきた第2動画V2−1を学習(言い換えれば、第2動画V2−1の特徴抽出)して、第2動画V2−1に写された物体の動作が第2動作である推定値(例えば、80%)と第1動作である推定値(例えば、20%)とをそれぞれ算出する(ステップS35)。これらの推定値の組み合わせが、第2動画V2−1に写された物体の動作を示す動作情報となる。 The machine learning unit 22 learns the second moving image V2-1 sent from the taking-out unit 24 (in other words, the feature extraction of the second moving image V2-1), and the object copied to the second moving image V2-1. The estimated value (for example, 80%) in which the operation is the second operation and the estimated value (for example, 20%) in which the operation is the first operation are calculated (step S35). The combination of these estimated values becomes the motion information indicating the motion of the object captured in the second moving image V2-1.

紐付け部27は、第2動画V2−1と、機械学習部22が算出した第2動作の推定値および第1動作の推定値の組み合わせと、を紐づける(ステップS36)。これにより、ペア[第2動画V2−1,(第2動作の推定値80%,第1動作の推定値20%)]が生成される。 The associating unit 27 associates the second moving image V2-1 with the combination of the estimated value of the second operation and the estimated value of the first operation calculated by the machine learning unit 22 (step S36). As a result, a pair [second moving image V2-1 (estimated value of the second operation 80%, estimated value of the first operation 20%)] is generated.

取出部24は、第2動画V2のセットに含まれる全ての第2動画V2について、ステップS34〜S36の処理が終了したか否かを判断する(ステップS37)。取出部24は、第2動画V2のセットに含まれる全ての第2動画V2について、ステップS34〜S36の処理が終了していないと判断したとき(ステップS37でNo)、ステップS34に戻り、ステップS34の処理をする。 The extraction unit 24 determines whether or not the processing of steps S34 to S36 has been completed for all the second moving images V2 included in the set of the second moving images V2 (step S37). When the extraction unit 24 determines that the processing of steps S34 to S36 has not been completed for all the second moving images V2 included in the set of the second moving image V2 (No in step S37), the extraction unit 24 returns to step S34 and steps. Process S34.

取出部24は、第2動画V2のセットに含まれる全ての第2動画V2について、ステップS34〜S36の処理が終了したと判断したとき(ステップS37でYes)、図11に示すように、第2動作のデータセットDS−5が完成される。 When the extraction unit 24 determines that the processing of steps S34 to S36 has been completed for all the second moving images V2 included in the set of the second moving image V2 (Yes in step S37), as shown in FIG. The two-operation data set DS-5 is completed.

第2動作のデータセットDS−5の完成後、取出部24は、第2動作のデータセットDS−5に含まれる1番目のペアにおいて、推定値の組み合わせ(第2動作の推定値80%,第1動作の推定値20%)をコピーし、決定部26に送る(ステップS38)。 After the completion of the second operation data set DS-5, the fetching unit 24 sets the estimated value combination (estimated value 80% of the second operation, 80%, in the first pair included in the second operation data set DS-5). The estimated value of the first operation (20%) is copied and sent to the determination unit 26 (step S38).

決定部26は、第1動画V1−1とペアを組む推定値の組み合わせ(第2組み合わせ)を決定する(ステップS39)。詳しく説明すると、決定部26は、取出部24から送られてきた推定値の組み合わせ(第2動作の推定値80%,第1動作の推定値20%)について、第2動作の推定値80%を第1動作の推定値80%とし、第1動作の推定値20%を第2動作の推定値20%とした第2組み合わせを生成し、第2組み合わせを第1動画V1−1に写された物体の動作を示す動作情報に決定する。このように、決定部26は、第2動画V2について、機械学習部22が算出した第2動作である推定値を、第1動作である推定値とし、第2動画V2について、機械学習部22が算出した第1動作である推定値を、第2動作である推定値とした第2組み合わせを、第1動画V1に写された物体の動作を示す動作情報に決定する。 The determination unit 26 determines a combination of estimated values (second combination) to be paired with the first moving image V1-1 (step S39). More specifically, the determination unit 26 has an estimated value of 80% for the second operation with respect to the combination of the estimated values sent from the extraction unit 24 (estimated value of the second operation 80%, estimated value of the first operation 20%). Is 80% of the estimated value of the first operation, 20% of the estimated value of the first operation is set to 20% of the estimated value of the second operation, and the second combination is copied to the first moving image V1-1. It is determined to be the motion information indicating the motion of the object. As described above, the determination unit 26 uses the estimated value of the second operation calculated by the machine learning unit 22 as the estimated value of the first operation for the second moving image V2, and the machine learning unit 22 for the second moving image V2. The second combination in which the estimated value of the first motion calculated by the above is used as the estimated value of the second motion is determined as the motion information indicating the motion of the object captured in the first moving image V1.

紐付け部27は、第1動画V1のセットに含まれる第1動画V1−1と、ステップS39で決定された推定値の組み合わせである第2組み合わせ(第1動作の推定値80%、第2動作の推定値20%)と、を紐付ける(ステップS40)。これにより、1つのペア[第1動画V1−1,(第1動作の推定値80%,第2動作の推定値20%)]が生成される。 The linking unit 27 is a second combination (estimated value 80% of the first operation, second) which is a combination of the first moving image V1-1 included in the set of the first moving image V1 and the estimated value determined in step S39. (Estimated value of operation 20%) is associated with (step S40). As a result, one pair [first moving image V1-1, (estimated value of first operation 80%, estimated value of second operation 20%)] is generated.

取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS38〜S40の処理が終了したか否かを判断する(ステップS41)。取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS38〜S40の処理が終了していないと判断したとき(ステップS41でNo)、ステップS38に戻り、ステップS38の処理をする。 The extraction unit 24 determines whether or not the processing of steps S38 to S40 has been completed for all the first moving images V1 included in the set of the first moving images V1 (step S41). When the extraction unit 24 determines that the processing of steps S38 to S40 has not been completed for all the first moving images V1 included in the set of the first moving images V1, the process returns to step S38 and steps are taken. Process S38.

取出部24は、第1動画V1のセットに含まれる全ての第1動画V1について、ステップS38〜S40の処理が終了したと判断したとき(ステップS41でYes)、図11に示すように、第1動作のデータセットDS−6が完成される。 When the extraction unit 24 determines that the processing of steps S38 to S40 has been completed for all the first moving images V1 included in the set of the first moving images V1 (Yes in step S41), as shown in FIG. The data set DS-6 for one operation is completed.

第2変形例の主な効果を説明する。図6に示すフローチャートは、第2変形例にも適用される。第1変形例と同様に、機械学習部22は、第1動画V1について、第1動画V1に写された物体の動作が第1動作である推定値と第2動作である推定値とを算出する(図6のステップS12)。図10を参照して、第1動画V1に写された物体の動作は、第1動作なので、第1動作である推定値(例えば、90%)は、第2動作である推定値(例えば、10%)より高くなる。紐付け部27は、第1動画V1と、これらの推定値の組み合わせ(第1組み合わせ)と、を紐付ける。 The main effects of the second modification will be described. The flowchart shown in FIG. 6 is also applied to the second modification. Similar to the first modification, the machine learning unit 22 calculates, for the first moving image V1, an estimated value in which the motion of the object captured in the first moving image V1 is the first motion and an estimated value in which the motion is the second motion. (Step S12 in FIG. 6). With reference to FIG. 10, since the motion of the object captured in the first moving image V1 is the first motion, the estimated value of the first motion (for example, 90%) is the estimated value of the second motion (for example, 90%). It will be higher than 10%). The linking unit 27 associates the first moving image V1 with a combination of these estimated values (first combination).

機械学習部22は、第2動画V2について、第2動画V2に写された物体の動作が第2動作である推定値と第1動作である推定値とを算出する(ステップS35)。図11を参照して、第2動画V2(逆再生動画)に写された物体の動作は、第2動作と見なされる動作なので、第2動作である推定値(例えば、80%)は、第1動作である推定値(例えば、20%)より高くなる。 The machine learning unit 22 calculates, for the second moving image V2, an estimated value in which the motion of the object captured in the second moving image V2 is the second motion and an estimated value in which the motion is the first motion (step S35). With reference to FIG. 11, since the motion of the object captured in the second moving image V2 (reverse playback moving image) is regarded as the second motion, the estimated value (for example, 80%) which is the second motion is the second motion. It is higher than the estimated value (for example, 20%) which is one operation.

決定部26は、第2動作である推定値(例えば、80%)を第1動作である推定値とし、第1動作である推定値(例えば、20%)を第2動作である推定値とした第2組み合わせを、第1動作を示す動作情報と見なし、これを第1動画V1に写された物体の動作情報と決定する(ステップS39)。紐付け部27は、第1動画V1と第2組み合わせとを紐付ける(ステップS40)。 The determination unit 26 uses the estimated value of the second operation (for example, 80%) as the estimated value of the first operation, and the estimated value of the first operation (for example, 20%) as the estimated value of the second operation. The second combination is regarded as the motion information indicating the first motion, and this is determined as the motion information of the object copied in the first moving image V1 (step S39). The tying unit 27 ties the first moving image V1 and the second combination (step S40).

以上より、第2変形例によれば、同じ第1動画V1に関して、第1動画V1と動作情報(第1動作である推定値90%、第2動作である推定値10%)とのペアと、第1動画V1と動作情報(第1動作である推定値80%、第2動作である推定値20%)とのペアと、を生成することができる(図10に示す第1動作のデータセットDS−3、図11に示す第1動作のデータセットDS−6)。従って、第2変形例によれば、第1動作のデータセットとして、第1動作のデータセットDS−3に加えて、第1動作のデータセットDS−6を生成することができる。これらを一つのデータセットにすることにより、第1動作のデータセットDS−3を生成する場合と比べて、第1動作のデータセットに含まれるペアの数を2倍にすることができる。 From the above, according to the second modification, with respect to the same first moving image V1, the pair of the first moving image V1 and the operation information (estimated value 90% for the first operation, estimated value 10% for the second operation). , A pair of the first moving image V1 and the operation information (estimated value 80% of the first operation, estimated value 20% of the second operation) can be generated (data of the first operation shown in FIG. 10). Set DS-3, data set DS-6 of the first operation shown in FIG. 11). Therefore, according to the second modification, as the data set of the first operation, the data set DS-6 of the first operation can be generated in addition to the data set DS-3 of the first operation. By combining these into one data set, the number of pairs included in the data set of the first operation can be doubled as compared with the case of generating the data set DS-3 of the first operation.

実施形態、第1変形例および第2変形例では、データセットの生成を例にして説明したが、本発明は、これに限定されず、逆再生動画を利用する機械学習、逆再生動画を利用する深層学習に適用することが可能である。 In the embodiments, the first modification and the second modification, the generation of a data set has been described as an example, but the present invention is not limited to this, and machine learning using a reverse playback video and reverse playback video are used. It can be applied to deep learning.

1 情報処理装置
V1,V1−1〜V1−n 第1動画
V2,V2−1〜V2−n 第2動画
1 Information processing device V1, V1-1 to V1-n 1st moving image V2, V2-1 to V2-n 2nd moving image

Claims (6)

第1動作および前記第1動作と逆の動作である第2動作のうち、前記第1動作が写された第1動画を、前記第1動画を逆再生した第2動画に変換する変換部と、
前記第1動画および前記第2動画のうち、一方の動画に写された前記物体の動作を示す動作情報を基にして、他方の動画に写された前記物体の動作を示す動作情報を決定する決定部と、
前記他方の動画と前記決定部が決定した動作情報とを紐付ける紐付け部と、
前記一方の動画である前記第1動画について、前記第1動画に写された前記物体の動作が前記第1動作である推定値と前記第2動作である推定値とを算出する機械学習部と、を備え、
前記決定部は、前記機械学習部が算出した前記第1動作である推定値を前記第2動作である推定値とし、前記機械学習部が算出した前記第2動作である推定値を前記第1動作である推定値とした組み合わせを、前記他方の動画である前記第2動画に写された前記物体の動作を示す動作情報に決定し
前記紐付け部は、前記第2動画と前記組み合わせとを紐付ける、情報処理装置。
A conversion unit that converts the first moving image of the first operation and the second operation, which is the reverse of the first operation, into a second moving image obtained by reverse-playing the first moving image. ,
Of the first moving image and the second moving image, the motion information indicating the motion of the object captured in the other moving image is determined based on the motion information indicating the motion of the object captured in one of the moving images. The decision department and
A linking unit that links the other video with the operation information determined by the determination unit,
With respect to the first moving image, which is one of the moving images, a machine learning unit that calculates an estimated value in which the motion of the object captured in the first moving motion is the first motion and an estimated value in which the motion is the second motion. , Equipped with
The determination unit uses the estimated value of the first operation calculated by the machine learning unit as the estimated value of the second operation, and the estimated value of the second operation calculated by the machine learning unit as the first operation. The combination of the estimated values of the motion is determined as the motion information indicating the motion of the object captured in the second moving image, which is the other moving image.
The linking unit is an information processing device that links the second moving image and the combination.
第1動作および前記第1動作と逆の動作である第2動作のうち、前記第1動作が写された第1動画を、前記第1動画を逆再生した第2動画に変換する変換部と
前記第1動画および前記第2動画のうち、一方の動画に写された前記物体の動作を示す動作情報を基にして、他方の動画に写された前記物体の動作を示す動作情報を決定する決定部と
前記他方の動画と前記決定部が決定した動作情報とを紐付ける紐付け部と
前記第1動画について、前記第1動画に写された前記物体の動作が前記第1動作である推定値と前記第2動作である推定値とを算出し、かつ、前記第2動画について、前記第2動画に写された前記物体の動作が前記第2動作である推定値と前記第1動作である推定値とを算出する機械学習部と、を備え、
前記紐付け部は、前記第1動画について、前記機械学習部が算出した前記第1動作である推定値と前記第2動作である推定値との組み合わせである第1組み合わせを、前記第1動画に写された前記物体の動作を示す動作情報として、前記第1動画とを紐付け、
前記決定部は、前記一方の動画である前記第2動画について、前記機械学習部が算出した前記第2動作である推定値を前記第1動作である推定値とし、前記機械学習部が算出した前記第1動作である推定値を前記第2動作である推定値とした第2組み合わせを、前記他方の動画である前記第1動画に写された前記物体の動作を示す動作情報に決定し、
前記紐付け部は、前記第1動画と前記第2組み合わせとを紐付ける、報処理装置。
A conversion unit that converts the first moving image of the first operation and the second operation, which is the reverse of the first operation, into a second moving image obtained by reverse-playing the first moving image. ,
Of the first moving image and the second moving image, the motion information indicating the motion of the object captured in the other moving image is determined based on the motion information indicating the motion of the object captured in one of the moving images. The decision department and
A linking unit that links the other video with the operation information determined by the determination unit ,
With respect to the first moving image, an estimated value in which the motion of the object captured in the first moving image is the first motion and an estimated value in which the second motion is the second motion are calculated, and the second moving image is described. a machine learning unit operation of the object that was photographed in the second video is calculated and the estimated value is the first operation and the estimated value is the second operation comprises,
Regarding the first moving image, the associating unit uses the first combination, which is a combination of the estimated value of the first operation calculated by the machine learning unit and the estimated value of the second operation, as the first moving image. As the motion information showing the motion of the object copied to the above, the first moving image is linked to the motion information.
The determination unit calculated the second moving image, which is one of the moving images, by using the estimated value of the second operation calculated by the machine learning unit as the estimated value of the first operation. The second combination in which the estimated value of the first operation is used as the estimated value of the second operation is determined as the operation information indicating the operation of the object captured in the first moving image, which is the other moving image.
The linking unit, attach cord and said second combination and said first video information processing apparatus.
コンピューターによって実行される情報処理方法であって
第1動作および前記第1動作と逆の動作である第2動作のうち、前記第1動作が写された第1動画を、前記第1動画を逆再生した第2動画に変換する変換ステップと、
前記第1動画および前記第2動画のうち、一方の動画に写された前記物体の動作を示す動作情報を基にして、他方の動画に写された前記物体の動作を示す動作情報を決定する決定ステップと、
前記他方の動画と前記決定ステップで決定された動作情報とを紐付ける紐付けステップと、
前記一方の動画である前記第1動画について、前記第1動画に写された前記物体の動作が前記第1動作である推定値と前記第2動作である推定値とを機械学習部により算出する算出ステップと、を備え、
前記決定するステップは、前記算出ステップで算出した前記第1動作である推定値を前記第2動作である推定値とし、前記算出ステップで算出した前記第2動作である推定値を前記第1動作である推定値とした組み合わせを、前記他方の動画である前記第2動画に写された前記物体の動作を示す動作情報に決定し
前記紐付けステップは、前記第2動画と前記組み合わせとを紐付ける、情報処理方法。
Information processing method executed by a computer
Of the first operation and the second operation which is the reverse of the first operation, the conversion step of converting the first moving image in which the first operation is copied to the second moving image in which the first moving image is reverse-played. ,
Of the first moving image and the second moving image, the motion information indicating the motion of the object captured in the other moving image is determined based on the motion information indicating the motion of the object captured in one of the moving images. The decision step and
A linking step that links the other video with the operation information determined in the determination step,
With respect to the first moving image, which is one of the moving images, the machine learning unit calculates an estimated value in which the motion of the object captured in the first moving motion is the first motion and an estimated value in which the motion is the second motion. With calculation steps ,
In the step to be determined, the estimated value of the first operation calculated in the calculation step is used as the estimated value of the second operation, and the estimated value of the second operation calculated in the calculation step is used as the estimated value of the first operation. The combination of the estimated values is determined as the motion information indicating the motion of the object captured in the second moving image, which is the other moving image.
The linking step is an information processing method for linking the second moving image and the combination.
第1動作および前記第1動作と逆の動作である第2動作のうち、前記第1動作が写された第1動画を、前記第1動画を逆再生した第2動画に変換する変換ステップと、
前記第1動画および前記第2動画のうち、一方の動画に写された前記物体の動作を示す動作情報を基にして、他方の動画に写された前記物体の動作を示す動作情報を決定する決定ステップと、
前記他方の動画と前記決定ステップで決定された動作情報とを紐付ける紐付けステップと、
前記一方の動画である前記第1動画について、前記第1動画に写された前記物体の動作が前記第1動作である推定値と前記第2動作である推定値とを機械学習部により算出する算出ステップと、をコンピューターに実行させる情報処理プログラムであって
前記決定するステップは、前記算出ステップで算出した前記第1動作である推定値を前記第2動作である推定値とし、前記算出ステップで算出した前記第2動作である推定値を前記第1動作である推定値とした組み合わせを、前記他方の動画である前記第2動画に写された前記物体の動作を示す動作情報に決定し
前記紐付けステップは、前記第2動画と前記組み合わせとを紐付ける、情報処理プログラム。
Of the first operation and the second operation which is the reverse of the first operation, the conversion step of converting the first moving image in which the first operation is copied to the second moving image in which the first moving image is reverse-played. ,
Of the first moving image and the second moving image, the motion information indicating the motion of the object captured in the other moving image is determined based on the motion information indicating the motion of the object captured in one of the moving images. The decision step and
A linking step that links the other video with the operation information determined in the determination step,
With respect to the first moving image, which is one of the moving images, the machine learning unit calculates an estimated value in which the motion of the object captured in the first moving motion is the first motion and an estimated value in which the motion is the second motion. An information processing program that causes a computer to execute calculation steps .
In the step to be determined, the estimated value of the first operation calculated in the calculation step is used as the estimated value of the second operation, and the estimated value of the second operation calculated in the calculation step is used as the estimated value of the first operation. The combination of the estimated values is determined as the motion information indicating the motion of the object captured in the second moving image, which is the other moving image.
The linking step is an information processing program that links the second moving image and the combination.
コンピューターによって実行される情報処理方法であって
第1動作および前記第1動作と逆の動作である第2動作のうち、前記第1動作が写された第1動画を、前記第1動画を逆再生した第2動画に変換する変換ステップと
前記第1動画および前記第2動画のうち、一方の動画に写された前記物体の動作を示す動作情報を基にして、他方の動画に写された前記物体の動作を示す動作情報を決定する決定ステップと
前記他方の動画と前記決定ステップで決定された動作情報とを紐付ける紐付けステップと
前記第1動画について、前記第1動画に写された前記物体の動作が前記第1動作である推定値と前記第2動作である推定値とを算出し、かつ、前記第2動画について、前記第2動画に写された前記物体の動作が前記第2動作である推定値と前記第1動作である推定値とを機械学習部により算出する算出ステップと、を備え
前記紐付けステップは、前記第1動画について、前記算出ステップで算出した前記第1動作である推定値と前記第2動作である推定値との組み合わせである第1組み合わせを、前記第1動画に写された前記物体の動作を示す動作情報として、前記第1動画とを紐付け
前記決定ステップは、前記一方の動画である前記第2動画について、前記算出ステップで算出した前記第2動作である推定値を前記第1動作である推定値とし、前記算出ステップで算出した前記第1動作である推定値を前記第2動作である推定値とした第2組み合わせを、前記他方の動画である前記第1動画に写された前記物体の動作を示す動作情報に決定し
前記紐付けステップは、前記第1動画と前記第2組み合わせとを紐付ける、情報処理方法
Information processing method executed by a computer
Of the first operation and the second operation which is the reverse of the first operation, the conversion step of converting the first moving image in which the first operation is copied to the second moving image in which the first moving image is reverse-played. ,
Of the first moving image and the second moving image, the motion information indicating the motion of the object captured in the other moving image is determined based on the motion information indicating the motion of the object captured in one of the moving images. The decision step and
A linking step that links the other video with the operation information determined in the determination step ,
With respect to the first moving image, an estimated value in which the motion of the object captured in the first moving image is the first motion and an estimated value in which the second motion is the second motion are calculated, and the second moving image is described. It is provided with a calculation step in which the machine learning unit calculates an estimated value in which the motion of the object captured in the second moving image is the second motion and an estimated value in which the motion is the first motion .
In the linking step, for the first moving image, the first combination, which is a combination of the estimated value of the first operation calculated in the calculation step and the estimated value of the second operation, is combined with the first moving image. As the motion information showing the motion of the copied object, the first moving image is linked to the image .
In the determination step, with respect to the second moving image, which is one of the moving images, the estimated value of the second operation calculated in the calculation step is set as the estimated value of the first operation, and the first calculated in the calculation step. The second combination in which the estimated value of one motion is the estimated value of the second motion is determined as the motion information indicating the motion of the object captured in the first moving image, which is the other moving image.
The linking step is an information processing method for linking the first moving image and the second combination .
第1動作および前記第1動作と逆の動作である第2動作のうち、前記第1動作が写された第1動画を、前記第1動画を逆再生した第2動画に変換する変換ステップと
前記第1動画および前記第2動画のうち、一方の動画に写された前記物体の動作を示す動作情報を基にして、他方の動画に写された前記物体の動作を示す動作情報を決定する決定ステップと
前記他方の動画と前記決定ステップで決定された動作情報とを紐付ける紐付けステップと
前記第1動画について、前記第1動画に写された前記物体の動作が前記第1動作である推定値と前記第2動作である推定値とを算出し、かつ、前記第2動画について、前記第2動画に写された前記物体の動作が前記第2動作である推定値と前記第1動作である推定値とを機械学習部により算出する算出ステップと、をコンピューターに実行させる情報処理プログラムであって
前記紐付けステップは、前記第1動画について、前記算出ステップで算出した前記第1動作である推定値と前記第2動作である推定値との組み合わせである第1組み合わせを、前記第1動画に写された前記物体の動作を示す動作情報として、前記第1動画とを紐付け
前記決定ステップは、前記一方の動画である前記第2動画について、前記算出ステップで算出した前記第2動作である推定値を前記第1動作である推定値とし、前記算出ステップで算出した前記第1動作である推定値を前記第2動作である推定値とした第2組み合わせを、前記他方の動画である前記第1動画に写された前記物体の動作を示す動作情報に決定し
前記紐付けステップは、前記第1動画と前記第2組み合わせとを紐付ける、情報処理プログラム
Of the first operation and the second operation which is the reverse of the first operation, the conversion step of converting the first moving image in which the first operation is copied to the second moving image in which the first moving image is reverse-played. ,
Of the first moving image and the second moving image, the motion information indicating the motion of the object captured in the other moving image is determined based on the motion information indicating the motion of the object captured in one of the moving images. The decision step and
A linking step that links the other video with the operation information determined in the determination step ,
With respect to the first moving image, an estimated value in which the motion of the object captured in the first moving image is the first motion and an estimated value in which the second motion is the second motion are calculated, and the second moving image is described. An information processing program that causes a computer to execute a calculation step in which the machine learning unit calculates an estimated value in which the motion of the object captured in the second moving image is the second motion and an estimated value in which the motion is the first motion. There ,
In the linking step, for the first moving image, the first combination, which is a combination of the estimated value of the first operation calculated in the calculation step and the estimated value of the second operation, is combined with the first moving image. As the motion information showing the motion of the copied object, the first moving image is linked to the image .
In the determination step, with respect to the second moving image, which is one of the moving images, the estimated value of the second operation calculated in the calculation step is set as the estimated value of the first operation, and the first calculated in the calculation step. The second combination in which the estimated value of one motion is the estimated value of the second motion is determined as the motion information indicating the motion of the object captured in the first moving image, which is the other moving image.
The linking step is an information processing program that links the first moving image and the second combination .
JP2017249607A 2017-12-26 2017-12-26 Information processing equipment, information processing methods, and information processing programs Active JP6977551B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017249607A JP6977551B2 (en) 2017-12-26 2017-12-26 Information processing equipment, information processing methods, and information processing programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017249607A JP6977551B2 (en) 2017-12-26 2017-12-26 Information processing equipment, information processing methods, and information processing programs

Publications (2)

Publication Number Publication Date
JP2019114211A JP2019114211A (en) 2019-07-11
JP6977551B2 true JP6977551B2 (en) 2021-12-08

Family

ID=67222714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017249607A Active JP6977551B2 (en) 2017-12-26 2017-12-26 Information processing equipment, information processing methods, and information processing programs

Country Status (1)

Country Link
JP (1) JP6977551B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3607440B2 (en) * 1996-12-03 2005-01-05 日本電気株式会社 Gesture recognition method
JP6443393B2 (en) * 2016-06-01 2018-12-26 トヨタ自動車株式会社 Action recognition device, learning device, method and program

Also Published As

Publication number Publication date
JP2019114211A (en) 2019-07-11

Similar Documents

Publication Publication Date Title
US10825221B1 (en) Music driven human dancing video synthesis
Jiang et al. Self-supervised relative depth learning for urban scene understanding
JP7047087B2 (en) Deep reinforcement learning framework for characterizing video content
KR102033050B1 (en) Unsupervised Learning Technique for Time Difference Model
JP6378292B2 (en) How to identify objects in a video file
US10916046B2 (en) Joint estimation from images
JP2019003299A (en) Image recognition device and image recognition method
JPWO2018207351A1 (en) Range image processing apparatus, range image processing system, range image processing method, and range image processing program
JP7452698B2 (en) Reinforcement learning model for labeling spatial relationships between images
JP2023543120A (en) Multihop transformers for spatiotemporal reasoning and localization
Mirzaei et al. Animgan: A spatiotemporally-conditioned generative adversarial network for character animation
JP6977551B2 (en) Information processing equipment, information processing methods, and information processing programs
CN116206367A (en) Gesture prediction method and device, electronic equipment and storage medium
JP6275759B2 (en) Three-dimensional content generation method, program, and client device
CN116263943A (en) Image restoration method and equipment and electronic device
US11042274B2 (en) Extracting demonstrations from in-situ video content
KR20230016300A (en) Method and Apparatus for 3D Hand Mesh Recovery in Motion Blur RGB Image
GB2566478B (en) Probability based 360 degree video stabilisation
KR102604672B1 (en) Method, apparatus and computer program for providing video shooting guides
US11854224B2 (en) Three-dimensional skeleton mapping
TWI763043B (en) Method for generating loop video
Seemanthini et al. 2D Pose Estimation of Subject Body via Deep Neural Networks
Puri et al. Analysis of Deepfake Detection Techniques
Bridgeman Parametric human modelling for shape and texture representation from video
JP2024068400A (en) Machine learning program, machine learning method, and machine learning device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211025

R150 Certificate of patent or registration of utility model

Ref document number: 6977551

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150