WO2023032422A1 - 処理方法、プログラムおよび処理装置 - Google Patents

処理方法、プログラムおよび処理装置 Download PDF

Info

Publication number
WO2023032422A1
WO2023032422A1 PCT/JP2022/024693 JP2022024693W WO2023032422A1 WO 2023032422 A1 WO2023032422 A1 WO 2023032422A1 JP 2022024693 W JP2022024693 W JP 2022024693W WO 2023032422 A1 WO2023032422 A1 WO 2023032422A1
Authority
WO
WIPO (PCT)
Prior art keywords
moving image
data
performance
performer
comparison
Prior art date
Application number
PCT/JP2022/024693
Other languages
English (en)
French (fr)
Inventor
頌平 栗山
敏行 須藤
友美子 久野
高幸 柴田
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Publication of WO2023032422A1 publication Critical patent/WO2023032422A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B15/00Teaching music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments

Definitions

  • the present invention relates to processing techniques suitable for use by musical instrument players.
  • Japanese Patent Laid-Open No. 2002-200001 discloses a method of displaying a moving image of a model performer and a moving image of a performer serving as a trainee side by side so that the two can be compared.
  • Patent Document 2 discloses a method of recognizing the positions of body parts (hands, fingers, etc.) of a performer from a moving image of the performer, and automatically converting the played sounds into musical scores based on the recognition results. .
  • JP 2019-053170 A Japanese Patent Application Laid-Open No. 2020-046500
  • the present invention provides a processing method and the like that can perform processing that makes it easier for a player to find improvements in performance actions.
  • a processing method that converts first moving image data and second moving image data, each containing motions of body parts of a first performer and a second performer playing the same piece of music on musical instruments. acquiring the position of the body part of the first performer from the first moving image data and the position of the body part of the second performer from the second moving image data; and using the positions to generate comparison data enabling comparison of at least one of said positions and movements of the first and second performers.
  • a program that causes a computer to execute processing according to the processing method described above also constitutes another aspect of the present invention.
  • a processing device as another aspect of the present invention provides first moving image data and second moving image data respectively containing motions of body parts of a first performer and a second performer playing the same piece of music on musical instruments.
  • a moving image data acquiring means for acquiring moving image data from the first moving image data, acquiring the position of the body part of the first performer from the first moving image data, and acquiring the position of the body part of the second performer from the second moving image data.
  • generating means for generating comparison data enabling comparison of at least one of the positions and motions of the first and second performers using the obtained positions.
  • the present invention can provide processing for facilitating the finding of improvement points in performance actions of the player.
  • FIG. 1 is a block diagram showing the configuration of an information processing system according to a first embodiment
  • FIG. FIG. 2 is a block diagram showing the configuration of a terminal device according to the first embodiment
  • FIG. 1 is a block diagram showing the configuration of an information processing apparatus according to the first embodiment
  • FIG. 4 is a block diagram showing the configuration of a position comparison data display unit according to the first embodiment
  • FIG. FIG. 1 is a block diagram showing the configuration of an information processing system according to a first embodiment
  • FIG. 2 is a block diagram showing the configuration of a terminal device according to the first embodiment
  • FIG. 1 is a block diagram showing the configuration of an information processing apparatus according to the first embodiment
  • FIG. 4 is a block diagram showing the configuration of a position comparison data display unit according to the first embodiment
  • 4 is a diagram showing feature points for recognizing positions of body parts of a player according to the first embodiment; 5 is a flowchart showing position comparison data generation processing according to the first embodiment; 4 is a flowchart showing display processing according to the first embodiment; 4 is a flowchart showing sentence generation processing in the first embodiment; 4 is a flowchart showing commentary video generation processing according to the first embodiment; 4 is a flowchart showing commentary musical score generation processing according to the first embodiment.
  • 4A and 4B are diagrams showing examples of display on the display unit according to the first embodiment;
  • FIG. 4A and 4B are diagrams showing another display example on the display unit according to the first embodiment; FIG.
  • FIG. 1 shows the configuration of the information processing system of the first embodiment.
  • This system has a plurality of terminal devices 11 , network 12 , data server 13 and information processing device 14 .
  • a plurality of terminal devices 11 are devices for each user to acquire, input, and transmit information, and to enable browsing of sent information, and are personal computers, tablet terminals, smartphones, and the like. Details of the terminal device 11 will be described later.
  • the users are performers of various musical instruments, and the performers include various performers such as trainees who learn how to play, instructors who teach performance, and professional performers.
  • This system is primarily intended to allow learners to improve their playing skills by modeling the playing actions of instructors and professional players.
  • the user may be a person who does not play the music himself, but who compares and evaluates the performance actions of two or more other users (performers).
  • the network 12 is a communication path that interconnects the terminal device 11, the data server 13, and the information processing device 14, and includes the Internet, public lines, LANs, and the like.
  • the terminal device 11 is connected to the Internet via a provider.
  • the data server 13 and the information processing device 14 are connected to each other via a LAN or the like, and are connected to the Internet via the LAN.
  • Information input by the terminal device 11 is transmitted to the data server 13 and the information processing device 14 via the network 12 and processed. The processed results can be viewed by accessing the data server 13 or the information processing device 14 from the terminal device 11 or downloading them from the data server 13 or the information processing device 14 to the terminal device 11 .
  • the data server 13 is a device for accumulating data uploaded from the terminal device 11 to the network by the user.
  • the data includes user information, moving image data created by imaging by the user, musical score data of music, etc., and is managed in a database in association with data names. Data stored in the data server 13 is read out and processed by the information processing device 14 .
  • the information processing device 14 is a computer that performs various types of information processing, which will be described later.
  • the information processing device 14 may be a device that is provided separately from other devices, or may be incorporated into a part of the terminal device 11 so that the terminal device 11 functions as an information processing device. Further, the information processing device 14 may be configured by software on the cloud. Details of the information processing device 14 will be described later.
  • FIG. 2 shows the configuration of the terminal device 11.
  • the terminal device 11 has a control/calculation unit 21 , a storage unit 22 , a communication unit 23 , a moving image capturing unit 24 , an input unit 25 and a display unit (display means) 26 .
  • the control/calculation unit 21 is composed of a CPU, a RAM, a ROM, and the like.
  • the ROM stores programs read by the CPU.
  • the RAM is used as work memory for the CPU.
  • the CPU controls the entire terminal device 11 by executing various processes and issuing commands according to programs stored in the ROM.
  • the storage unit 22 is a storage medium such as a hard disk or semiconductor memory.
  • the storage unit 22 can store moving image data and the like generated by a moving image capturing unit 24, which will be described later.
  • the communication unit 23 has a communication module, a communication connector, and the like for communicating with other devices via the Internet. Communication by the communication unit 23 includes wired communication such as USB communication, wireless LAN such as Wi-Fi (registered trademark), Bluetooth (registered trademark), ZigBee (registered trademark), 4G/5G (4th/5th generation mobile communication system ), including wireless communications such as broadband.
  • the moving image capturing unit 24 includes an imaging lens, an imaging element that captures an image of a subject formed by the imaging lens, an image processing LSI, and the like, and has a camera function that can generate moving images and still images by imaging, and a microphone function that records audio.
  • the moving image data generated by the moving image capturing unit 24 is used for processing in the information processing device 14 .
  • the moving image capturing unit 24 does not necessarily have to be provided in the terminal device 11 .
  • the moving image data used by the information processing device 14 may be generated by imaging with an imaging device other than the terminal device 11 .
  • the input unit 25 receives an operation input to the terminal device 11 by the user, generates an input signal according to the operation input, and outputs the input signal to the control/calculation unit 21 .
  • the control/calculation unit 21 performs calculation processing corresponding to an input signal and controls the terminal device 11 .
  • the input unit 25 includes a touch panel integrated with the display unit 26, a pointing device called a trackpad or a touch pad and having a touch sensor separate from the display unit 26, a keyboard, a mouse, and the like.
  • the display unit 26 is a display device configured by, for example, an LCD panel, a plasma display panel, an organic EL panel, or the like, and displays a user interface of the terminal device 11, comparative images, commentary texts, commentary images, and commentary musical score images, which will be described later. Displayable.
  • FIG. 3 shows the configuration of the information processing device 14.
  • the information processing device 14 has a moving image data acquisition section (moving image data acquisition means) 301 , a position extraction section (position acquisition means) 302 , a position comparison data generation section (generation means) 303 and a score data acquisition section 304 .
  • the information processing device 14 also has a sound recognition unit 305 , a musical instrument recognition unit 306 , a text generation unit 307 , a commentary video generation unit 308 and a commentary musical score generation unit 309 .
  • the moving image data acquiring unit 301 acquires a plurality of moving image data (hereinafter referred to as performance moving images) each including body parts of a performer playing a piece of music on a musical instrument captured by the moving image capturing unit 24 of each of the plurality of terminal devices 11.
  • Musical instruments include keyboard instruments such as pianos and electronic pianos, stringed instruments such as violins, cellos, and guitars, and other various types of instruments. It is preferable that the musical instruments played in a plurality of pieces of video data for which position comparison data to be described later is generated are the same musical instruments (for example, pianos), but they do not necessarily have to be the same musical instruments. It may be a musical instrument of the same kind as a keyboard instrument, such as a piano. Also, the music played in the plurality of pieces of moving image data is the same music. In the following explanation, the case where the same piece of music is played by a keyboard instrument will be explained as an example.
  • the terminal device 11 When capturing a performance video using the terminal device 11, the terminal device 11 (or an imaging device) is placed above the keyboard instrument so that the hand as a part of the player's body can be captured well, and the hand is captured from directly above.
  • the movement of the hand in the left-right direction and the back-and-forth direction, as well as the region of the keyboard are acquired as two-dimensional information.
  • using a stereo camera capable of 3D imaging and a rangefinder camera capable of measuring distance using infrared rays, etc. the movement of not only the performer's hands but also the elbows, shoulders and upper body is used as three-dimensional information. may be obtained.
  • a marker or the like may be provided at a predetermined position of the keyboard instrument as a mark.
  • the data server 13 shown in FIG. 1 stores a large number of performance videos uploaded from the terminal device 11 onto the network by various performers.
  • a performer for example, a learner who wants to use the information processing device 14 can access the data server 13 from his/her own terminal device 11 and select an arbitrary performance video.
  • the moving image data acquisition section 301 can also acquire the performance moving image selected in this manner.
  • the musical score data acquisition unit 304 acquires the musical score data of the music played in the performance video.
  • the musical score data includes image data obtained by scanning a printed or bound musical score, and data in which each musical note can be read and displayed as a musical score image.
  • the position extraction unit 302 analyzes the performance video acquired by the video data acquisition unit 301 and extracts (acquires) the positions of the performer's body parts. Specifically, the position is extracted by analyzing the position of the body part for each frame image of the performance animation or for each predetermined number of frames.
  • motion capture technology based on image recognition can be used. Motion capture technology is a technology that can recognize the skeleton from image data without attaching a sensor to the body by performing machine learning using images of the positions of each joint as feature points of the human skeleton.
  • FIG. 5(a) shows a fingertip A1, each finger joint A2, and a wrist A3 as examples of feature points for recognizing the skeleton of the hand.
  • FIG. 5B shows wrist B1, elbow B2, shoulder B3 and waist B4 as examples of feature points for recognizing the skeleton of the upper body.
  • a motion capture technique may be used that attaches a recognizable marker on an image to a position corresponding to a feature point of the body.
  • the position extraction unit 302 may acquire the angle of each body part from the extracted position. For example, as will be described later with reference to drawings, the angle of a straight line connecting two of the plurality of extracted positions and a straight line connecting one of the two positions and the other may be obtained. Furthermore, the velocity and acceleration of the movement of each body part may be calculated from the extracted position and time information corresponding to each frame of the performance video. For example, let t1 be the time corresponding to a certain frame, t2 be the time corresponding to the next frame, and let x1 and x2 be the positions of certain body parts from t1 to t2, respectively. At this time, the speed can be calculated by (x2-x1)/(t2-t1). Also, the acceleration can be calculated by dividing this velocity by (t2-t1).
  • processing may be performed to smooth out detection errors contained as noise in extracted positions and fine blurring components of human movement.
  • processing include processing for calculating a moving average of positions in each frame of a performance video, and processing for removing high-frequency components in spatial frequencies in position extraction using a low-pass filter.
  • the position extraction unit 302 extracts the feature points as P1, P2, P3, . Furthermore, the depth z at that position may be estimated or measured and extracted as Pi(xi, yi, zi). The position extraction unit 302 may also recognize a reference position on the real space from the frame image and extract a position Pi (xi, yi, zi) on the real space with respect to the reference position.
  • the sound recognition unit 305 recognizes performance sounds included in the performance video acquired by the video data acquisition unit 301 and generates sound data. If the performer is using an electronic piano for performance, it is possible to obtain MIDI data that records which keys were pressed at what time by connecting the electronic piano to a personal computer with a MIDI cable. can. Sound data may also be generated using a sound recognition technology that utilizes machine learning to recognize which key was pressed at what time.
  • the musical instrument recognition unit 306 recognizes, from the performance moving image acquired by the moving image data acquiring unit 301, a region in which the performer performs a performance operation on the musical instrument (hereinafter referred to as a performance operation region).
  • the performance operation area is a keyboard area where a player hits keys in a keyboard instrument.
  • a method of recognizing the performance operation area pattern matching using a pattern image that is characteristic of the keyboard area prepared in advance, a method of recognizing the black and white edges of the keyboard area by image analysis, and a mechanical method are used. Image recognition by learning can be used.
  • a marker may be provided around the keyboard area as a mark, and the performance operation area may be recognized by image recognition from the image obtained by imaging the marker.
  • the performance operation area manually specified by the player on the image may be recognized. In this manner, the musical instrument recognition unit 306 two-dimensionally or three-dimensionally recognizes the performance operation area of the musical instrument shown in the performance moving image.
  • the position extraction unit 302 extracts the positions of the body parts of the performer
  • the sound data generated by the sound recognition unit 305 may be used as an aid.
  • the flowchart of FIG. 12 shows the position extraction process using sound data.
  • the moving image data acquiring unit 301, the position extracting unit 302, the sound recognizing unit 305, and the musical instrument recognizing unit 306 execute this process according to the program.
  • the video data acquisition unit 301 acquires a performance video.
  • the musical instrument recognition unit 306 acquires the position of the performer's body part and the performance operation area of the musical instrument from the performance video. Also, in step 1203, the sound recognition unit 305 acquires from the sound data a local area operated (key-hit) by the performer in the performance operation area.
  • the position indicating the player's body part is not in the local area including the keyboard, even though it has been recognized that one key in the keyboard area has been hit. Such a situation occurs, for example, when the player's thumb is bent and hidden under the palm, and the position of the thumb is not obtained. It also occurs when part of the hand is covered by the performer's head.
  • step 1204 the position extraction unit 302 determines whether or not the position of the body part has been extracted in the local region that should have been operated. Stores the body parts and their positions.
  • the position extraction unit 302 proceeds to step 1205 and estimates the position of the body part operating the local region. For example, if the thumb is hidden under the palm, the position of the thumb may be estimated to be in the local region. Also, if a part of the hand is hidden by the performer's head, it can be estimated that the hidden hand is in the local region. This makes it possible to accurately acquire the position of the body part even if it is not shown in the performance video.
  • step 1205 the process proceeds to step 1206 to store the estimated position. After that, the position extraction unit 302 terminates this process.
  • the position comparison data generating unit 303 extracts the positions of the body parts extracted from the performance video of the first performer (model performer) and the performance video of the second performer (such as a trainee) by position extraction processing. Position comparison data is generated by using the positions of the body parts extracted from .
  • the first and second performers are performers who play the same piece of music with the same or similar musical instruments (keyboard instruments).
  • the position comparison data is data that enables comparison of the body parts of the first and second performers in the same performance section of the piece of music to be performed. For example, data for displaying the positions and angles of the body parts of the first and second players together (side by side), and comparison results of the positions and angles of the body parts of the first and second players (for example, , difference).
  • the data indicating the difference in position and angle can express the difference in the performance actions of the two players more clearly than when the positions and angles of the body parts are simply displayed side by side.
  • the position comparison data may include the speed or acceleration of the movement of the body parts of the first and second players calculated from the positions of the body parts, or the difference between them. This makes it possible to analyze in more detail the difference in the performance actions of both players.
  • the flowchart in FIG. 6 shows the position comparison data generation process including the position extraction process shown in FIG.
  • the moving image data acquisition unit 301, the position extraction unit 302, and the position comparison data generation unit 303 execute this process according to the program.
  • the moving image data acquisition unit 301 acquires the performance moving image of the first performer (first moving image data: hereinafter referred to as the first performance moving image). In step 602, the moving image data acquisition unit 301 acquires a performance moving image of the second performer (second moving image data: hereinafter referred to as a second performance moving image).
  • step 603 the position extraction unit 302 performs the above-described position extraction processing on the first performance video to obtain the positions of the body parts of the first performer.
  • step 604 the above-described position extraction processing is performed on the second performance moving image to obtain the positions of the body parts of the second performer.
  • step 605 the position comparison data generation unit 303 extracts the position of the body part of the first player (first position) and the position of the body part of the second player (second position) extracted in the same frame. position) is used to generate position comparison data. Specifically, the position of the same hand (feature point) of the first and second performers during the performance is extracted, and the hand position of the first performer in the i-th frame of the performance video is indicated. Data for displaying the numerical value x1i and the numerical value x2i indicating the position of the hand of the second player side by side so as to be comparable is generated. In addition, data is also generated for arranging and displaying respective changes (hand movements) of the numerical values x1i and x2i in a plurality of continuous frames so that they can be compared.
  • position comparison data that enables comparison of the performance actions of the first and second performers
  • data indicating the difference (x2i-x1i) between the numerical values x1i and x2i of the i-th frame, or a plurality of consecutive frames of the difference may generate data indicating changes in .
  • the second performer can select through the input section 25 shown in FIG. 2 whether the difference data is based on the first performer or the second performer. After that, the position comparison data generation unit 303 terminates this process.
  • the text generation unit 307 generates commentary text based on the position comparison data generated by the position comparison data generation unit 303.
  • the commentary sentence is a sentence for conveying the difference between the performance actions of the first and second players in an easy-to-understand manner. In particular, when it is difficult to understand the difference in the performance action only by comparing the first and second performance animations, the difference can be clearly conveyed by sentences.
  • the flowchart in FIG. 8 shows the sentence creation process executed by the sentence generation unit 307 according to the program.
  • the text generation unit 307 identifies a frame range in which the difference in body part positions (numerical values) in the position comparison data is large between the first and second performance videos. Specifically, for example, a range of a plurality of frames including a frame having the largest positional difference in the position comparison data or larger than a predetermined value (threshold value) within the performance section to be compared in both performance videos is specified.
  • step 802 the sentence generation unit 307 stores the frame number of the frame range specified in step 801.
  • the sentence generation unit 307 stores the data name of the position comparison data used in specifying the frame range in step 801.
  • the data name preferably includes at least the name of the body part whose position is compared and a name for distinguishing the position. For example, if the position comparison data is data for comparing the lateral position (inclination angle) of the right wrist, the data name includes at least "inclination of the right wrist".
  • step 804 the sentence generation unit 307 stores information about the performer, which is the reference for generating the position comparison data, among the first and second performers. This reference performer is selected by the second performer through the input section 25 shown in FIG. 2, as described above.
  • the text generation unit 307 generates the other performer (comparative performer: for example, the second performer) based on the reference performer (eg, first performer) selected in step 804.
  • the positions of body parts include not only positions represented by coordinates, but also angles (for example, inclination angles and opening angles). For example, it stores information indicating the difference in inclination angle of the right wrist of the comparison performer with respect to the reference performer in the "inclination of the right wrist" data.
  • step 806 the text generation unit 307 generates and stores commentary text based on the information stored in steps 802-805. For example, in the "time” corresponding to the frame range stored in step 802, the "body part” and “position” obtained from the data name stored in step 803 are compared to the "reference performer” stored in step 804. A commentary text indicating that the "comparison player” has the "positional difference” stored in step 805 is generated. After that, the text generation unit 307 terminates this process.
  • a commentary moving image generation unit 308 adds (superimposes, etc.) commentary information based on the position comparison data generated by the position comparison data generation unit 303 to the performance moving image to generate a commentary moving image as a commentary image.
  • the commentary moving image is a moving image for conveying in an easy-to-understand manner the difference between the performance actions of the first and second performers. In particular, when it is difficult to understand the difference in the performance action only by comparing the first and second performance animations, the difference can be clearly conveyed by the commentary animation to which the commentary information is added.
  • the flowchart in FIG. 9 shows the commentary movie generation process executed by the commentary movie generation unit 308 according to the program.
  • the commentary moving image generation unit 308 selects a frame range from the first and second performance moving images in which the positional difference between the body parts in the position comparison data is large, in the same manner as the text generation unit 307 did at step 801. Identify.
  • the commentary moving image generating section 308 stores the first and second performance moving images acquired by the moving image data acquiring section 301.
  • step 903 the explanation moving image generation unit 308 stores the frame number of the frame range identified in step 901.
  • the commentary moving image generating section 308 determines and stores the superimposed position of the commentary information generated based on the position comparison data in each performance moving image. For example, by calculating the average value of the position of the body part within the position comparison data in the frame range specified in step 903, it is possible to determine the position where the commentary information is superimposed and displayed in the performance moving image.
  • the commentary moving image generation unit 308 stores the data name of the position comparison data that generated the commentary information.
  • a specific example of the data name is the same as the data name stored by the text generation unit 307 in step 803 .
  • step 906 the commentary moving image generation unit 308, in the same way as the sentence generation unit 307 did in step 804, determines the positional difference between the first and second performers in the positional comparison data. Stores the information of the reference performer.
  • the commentary moving image generating section 308 generates and stores commentary information for displaying as an image the positional difference between the body parts of the comparison performer with respect to the reference performer selected at step 906.
  • the commentary information is, for example, information for displaying, as an image, the difference in the movement of the wrist of the comparison performer with respect to the reference performer in the "left-right movement of the wrist joint" data.
  • the commentary moving image generation unit 308 generates at the position determined at step 904 in the frame image of the frame number stored at step 903 in the first and second performance moving images stored at step 902 at step 907. A commentary video superimposed with the commentary information is generated and stored. After that, the commentary moving image generation unit 308 terminates this process.
  • the commentary musical score generation unit 309 adds (such as superimposes) commentary musical score information obtained based on the position comparison data generated by the position comparison data generating unit 303 to the musical score data to generate a commentary musical score image.
  • the commentary musical score image is an image using a musical score to clearly convey the difference between the performance actions of the first and second players. In particular, when it is difficult to understand the difference in the performance action only by comparing the first and second performance animations, the difference can be clearly conveyed through the musical score to which the commentary musical score information is added.
  • the flowchart in FIG. 10 shows commentary musical score generation processing executed by the commentary musical score generation unit 309 according to the program.
  • step 1001 the commentary musical score generation unit 309 selects the frame range in which the positional difference between the body parts in the position comparison data is large among the first and second performance moving images, in the same way as the text generation unit 307 did in step 801. Identify.
  • the commentary musical score generation unit 309 stores the musical score data obtained by the musical score data obtaining unit 304.
  • step 1003 the commentary musical score generation unit 309 stores the frame number of the frame range identified in step 1001.
  • the commentary musical score generation unit 309 identifies and stores the performance position corresponding to the frame number stored at step 1003 in the musical score data stored at step 1002. Specifically, the performance position is specified by collating the sound data recognized by the sound recognition unit 305 with the musical score data.
  • the commentary musical score generation unit 309 determines and stores the positions at which the commentary musical score information generated based on the position comparison data is superimposed in the musical score data. For example, the position where the commentary musical score information is to be superimposed is determined from the position of the keyboard (note) corresponding to the position of the body part (fingers) used to generate the position comparison data. Since the performance interval has been determined in step 1004, it can be determined from the position of the note in the performance interval to which note on the score the commentary musical score information should be superimposed and displayed.
  • the commentary musical score generation unit 309 stores the data name of the position comparison data that generated the commentary musical score information.
  • a specific example of the data name is the same as the data name stored by the text generation unit 307 in step 803 .
  • step 1007 the commentary musical score generation unit 309 performs the same as the sentence generation unit 307 did in step 804, when calculating the positional difference in the positional comparison data between the first and second performers.
  • the commentary musical score generation unit 309 generates and stores commentary musical score information corresponding to the positional difference of the body parts of the comparison performer with respect to the reference performer selected at step 1007.
  • the commentary musical score information is, for example, information for displaying a performance position on a musical score where there is a difference in the positions and movements of the body parts of the reference performer and the comparison performer.
  • the commentary musical score generation section 309 generates a commentary musical score obtained by superimposing the explanatory musical score information generated at step 1008 on the position determined at step 1005 in the performance section stored at step 1004 in the musical score data stored at step 1002. Generate and store images. After that, the commentary musical score generation unit 309 terminates this process.
  • the position comparison data generation unit 303 when the position comparison data generation unit 303 generates the position comparison data, in order to easily and accurately compare the first and second performance videos, the performance positions and performance speeds in both performance videos are determined. match each other, and it is desirable that the positions and sizes of the performance operation areas of the musical instruments match each other.
  • the flowchart in FIG. 13 shows performance position/speed matching processing for matching the performance positions (positions on the musical score) and the performance speed in the first and second performance animations.
  • the position extraction unit 302 executes this process according to the program.
  • step 1301 the position extracting unit 302 acquires information on the performance section to be extracted from the first performance video specified by the second performer through the input unit 25, and further acquires the time length of the performance section. do.
  • the performance section is specified, for example, by specifying the bar number of the piece of music to be played or the entire piece of music.
  • step 1302 uses the sound data recognized by the sound recognition unit 305 and the musical score data acquired by the musical score data acquisition unit 304 to extract the position specified in step 1301 from the second performance video.
  • a performance section corresponding to the performance section that was obtained is identified and its length of time is acquired.
  • step 1303 the position extracting section 302 acquires information on the performance video used as a reference for matching the performance speed among the first and second performance videos.
  • This reference performance moving image is also selected by the second performer through the input section 25 .
  • the position extracting section 302 expands or reduces the time length of the above-mentioned performance section in the adjusted performance video whose performance speed is adjusted with reference to the reference performance video among the first and second performance videos. to match the performance speed of the same performance section in both performance videos. For example, when the length of the performance section extracted from the reference performance video is t1 and the time length of the corresponding performance section in the adjustment performance video is t2, the time length of the corresponding performance section in the adjustment performance video is multiplied by t1/t2. do. At this time, it is preferable to convert the frequency of the sound so that the pitch of the performance sound is maintained.
  • the position extracting unit 302 saves the moving image of the performance section whose performance speed has been adjusted so that it can be used for generating position comparison data by the position comparison data generating unit 303, and ends this processing.
  • the flowchart in FIG. 14 shows position conversion processing for converting the positions of the performance operation area and the player's body part included in the performance moving image.
  • the position extraction unit 302 executes this process according to the program.
  • the position extracting unit 302 determines the position where the performance operation area (keyboard area) of the musical instrument is arranged in the performance video.
  • the positions referred to here are, for example, four corner positions of the keyboard area, and determining these positions also determines the size of the keyboard area.
  • the position and size of the keyboard area in the performance video handled by the position comparison data generation unit 303 are determined, and various performance videos acquired by the video data acquisition unit 301 are image-converted so as to match the positions. It becomes easy to generate comparison data.
  • the keyboard region appearing in the first performance video that serves as a model may be determined as the position of the keyboard region in the performance video handled by the position comparison data generation unit 303 .
  • the position extraction unit 302 acquires the position of the keyboard area and the positions of the body parts of the first performer from the first performance video.
  • the position of the keyboard area in the first performance video can be acquired through the instrument recognition section 306 .
  • step 1403 the position extraction unit 302 acquires the positions of the keyboard area and the positions of the body parts of the second player from the second performance video.
  • the position of the keyboard area in the second performance video can also be acquired through the instrument recognition unit 306 .
  • the position extracting unit 302 extracts the first and second performance animations so that the position and size of the keyboard region acquired at steps 1402 and 1403 match the position and size determined at step 1401. to image conversion.
  • the position and size determined in step 1401 are the position and size of the keyboard area of the first performance moving image, the second performance moving image is image-converted.
  • the position extraction unit 302 coordinates-transform the positions of the body parts in the first and second performance animations so as to correspond to the image transformation at step 1404 .
  • the positions of the body parts in the second performance animation are coordinate-transformed. Coordinate transformation of the position of the body part can be performed, for example, by geometric transformation in which the coordinates on the performance image are multiplied by a matrix.
  • FIG. 15 shows image transformation at step 1404 and coordinate transformation at step 1405 .
  • a musical instrument keyboard area 1502 and a performer's body part 1503 are shown in a performance image 1501, which is an object of image transformation and coordinate transformation shown in the upper left of FIG.
  • the right side of the figure shows a reference image 1504 having a keyboard area (hereinafter referred to as a determined keyboard area) 1505 at the position determined in step 1401 .
  • the position extraction unit 302 acquires the coordinates of the four corners of the keyboard region 1502 in the performance image 1501. Position extraction section 302 also acquires the coordinates of the four corners of determined keyboard area 1505 in reference image 1504 .
  • the position extractor 302 performs image transformation on the performance image 1501 so that the coordinates of the four corners of the keyboard region 1502 match the coordinates of the four corners of the determined keyboard region 1505, and obtains a geometric transformation matrix corresponding to the image transformation. Furthermore, the position extraction unit 302 multiplies the coordinates of the performer's body part 1503 in the performance image 1501 by the obtained geometric transformation matrix.
  • a converted performance image 1506 shown in the lower right of the drawing is obtained.
  • the position of the keyboard region 1507 matches the position of the determined keyboard region 1505
  • the positional relationship between the keyboard region 1507 and the player's body part 1508 is the keyboard in the performance image 1501 before conversion. It matches the positional relationship between the region 1502 and the body part 1503 .
  • the position extraction unit 302 can acquire the positions of various body parts of the performer.
  • 16A and 16B show the positions of the palm center 1601, fingertips 1602, and wrist base 1603 of the player's right hand obtained by the position analysis of the position extraction unit 302.
  • FIG. 17 also shows the positions of a wrist 1700, an elbow 1701, a shoulder 1702 and a waist 1703 of the player's body.
  • the information on the position of the center 1601 of the palm shown in FIG. 16(a) is used to acquire information on the movement of the hand in the left-right direction and the back-front direction in the plane along the keyboard area of the musical instrument.
  • the position of the center 1601 of the palm can be obtained, for example, by extracting the positions of a plurality of joints of the palm and obtaining the position of the average value thereof.
  • the positional information of the fingertips 1602 shown in FIG. 16 is used to acquire fingering information indicating which finger is used to press each keyboard during a performance, and information on the keying positions in the width direction and the depth direction of each keyboard. used for Furthermore, the information on the three-dimensional position of the fingertip 1602 is used to obtain information on the keying direction, such as keying depth and keying speed for each keyboard.
  • the information on the three-dimensional position of the base 1603 of the wrist shown in FIG. used to An angle 1604 formed by a straight line connecting the base of the wrist 1603 and the center of the palm 1601 with respect to a straight line passing through the position of the base 1603 parallel to the front side of the keyboard is an angle 1604 in the plane along the keyboard area. is used to obtain information on the wrist tilt angle of the
  • Information on the positions of the wrist 1700, elbow 1701, shoulder 1702, and waist 1703 shown in FIG. 17 is used to acquire information on the player's posture. Posture affects playing behavior. For example, a front elbow opening angle 1704 formed by a straight line connecting the wrist 1700 and the elbow 1701 and a straight line connecting the elbow 1701 and the shoulder 1702, and a straight line connecting the elbow 1701 and the shoulder 1702 and the shoulder 1702 and the waist 1703 are formed. Information on the side opening angle 1705 formed by the straight line can be obtained.
  • positional information such as positional difference, velocity and acceleration can be obtained from the position of the body part.
  • FIG. 4 shows the configuration of a display screen 400 for displaying the aforementioned position comparison data, commentary text, commentary video, commentary musical score information, etc. on the display unit 26 of the terminal device 11 shown in FIG.
  • the display screen 400 is composed of a position comparison data display portion 401 , a text display portion 402 , an explanation moving image display portion 403 and an explanation musical score display portion 404 .
  • 11A and 11B show display examples of the display screen 400.
  • FIG. 7 shows display processing executed by the terminal device 11 (control/calculation unit 21) according to a program.
  • the terminal device 11 displays a comparison image generated based on the position comparison data on the position comparison data display section 401 (401a) as shown in FIGS. 11A and 11B.
  • a comparison image is an image obtained by digitizing or graphing the position comparison data generated by the position comparison data generation unit 303 .
  • the terminal device 11 receives the comparison image generated by the position comparison data generation unit 303 and transmitted from the information processing device 14, and displays it on the position comparison data display unit 401a.
  • step 702 the terminal device 11 displays the comparison target (index) in the comparison image displayed in step 701 on the position comparison data display section 401 (401b) as shown in FIGS. 11A and 11B.
  • step 703 the terminal device 11 determines through the input unit 25 whether display of text explaining the contents of the position comparison data has been selected. If text display is selected, the terminal device 11 proceeds to step 704 and acquires (receives) the commentary text generated by the text generating section 307 by the text generating process shown in FIG. Then, in step 705, the acquired commentary text is displayed on the text display section 402 as shown in FIGS. 11A and 11B.
  • step 706 determines whether display of the content of the position comparison data as a moving image has been selected. judge.
  • the terminal device 11 proceeds to step 707 and acquires from the information processing device 14 the commentary moving image generated by the commentary moving image generating section 308 through the commentary moving image generating process shown in FIG. Then, in step 708, the acquired commentary moving image is displayed on the commentary moving image display section 403 as shown in FIGS. 11A and 11B.
  • step 706 When moving image display is not selected in step 706 and when moving image display is performed in step 708, the terminal device 11 proceeds to step 709, and the commentary score generation unit 309 generates commentary score generation processing shown in FIG.
  • the commentary musical score image is acquired from the information processing device 14 .
  • step 711 the acquired commentary musical score image is displayed on the explanatory musical score display section 404 as shown in FIGS. 11A and 11B. After that, the terminal device 11 terminates this process.
  • the terminal device 11 receives the position comparison data transmitted from the information processing device 14, and uses a program (application) in the terminal device 11 to generate a comparison image, commentary text, commentary video, and commentary musical score image from the position comparison data. It may be generated and displayed on the display unit 26 .
  • FIG. 11A Each display unit shown in FIG. 11A will be described in more detail.
  • the position comparison data display section 401a graphs showing temporal changes in tilt angles of the right wrists of the first player and the second player generated from the "right wrist tilt" data described above are displayed. (Comparison image) is displayed. Also, in the position comparison data display section 401b, the hand diagram and text shown in FIG. is displayed.
  • the horizontal axis of the graph above indicates the time in the performance video, and the vertical axis indicates the tilt angle of the right wrist.
  • the dashed line indicates the tilt angle of the right wrist of the first player, and the solid line indicates the tilt angle of the right wrist of the second player.
  • the dashed-dotted line indicates the value (difference) obtained by subtracting the tilt angle of the right wrist of the first player from the tilt angle of the right wrist of the second player.
  • the graph also displays a frame 1102B indicating a notable point (hereinafter referred to as a notable point) such as a large difference in inclination angle between the right wrists of the first player and the second player.
  • the commentary moving picture is displayed still in the commentary moving picture display section 403, and a vertical line 1102A indicating the point in time when the performance moving picture is stopped is also displayed in the graph.
  • the second player can see the display of the position comparison data display portions 401a and 401b to easily understand the difference in the inclination angle of his/her right wrist from that of the first player and the time when the difference is large. can be recognized.
  • the time corresponding to the point of interest displayed in the position comparison data display area 401a and the inclination angle of the second player's right wrist are displayed relative to the inclination angle of the right wrist of the first player.
  • a commentary text that explains more specifically how much difference there is is displayed.
  • the second player can more clearly see the degree of difference in the tilt angle of his/her right wrist from that of the first player and the time when the difference occurred. I can understand.
  • a commentary video 1104 in which commentary information is superimposed on the performance video of the first performer and a commentary video 1105 in which commentary information is superimposed on the performance video of the second performer are displayed at a point of interest.
  • a still image of the corresponding frame is displayed.
  • Musical instruments (keyboards) 1104A and 1105A and left and right hands 1104B and 1105B for playing the musical instruments (keyboards) 1104A and 1105A are shown in the first player's explanation animation and the second explanation animation, respectively.
  • explanation information 1104C and 1105C indicating the tilt angle of the right wrist are superimposed on the upper right hand of each player. The second player can visually recognize the degree of difference in the inclination angle of his/her right wrist from that of the first player by viewing the display of the commentary moving image display section 403 .
  • the commentary musical score display section 404 displays a commentary musical score image in which a frame 1103B as explanatory musical score information indicating the performance section corresponding to the point of interest is superimposed on the musical score of the musical piece played in the performance video.
  • a vertical line 1103A is also displayed on the musical score to indicate the point in time when the moving image of the performance is stopped.
  • Which display unit is to be displayed on the display screen 400 of FIG. 11A can be selected by the second performer through the input unit 25, as described in the display processing shown in FIG.
  • FIG. 11B shows a display example in which a still frame image of the commentary video in which the performance video of the first performer and the performance video of the second performer are superimposed is displayed in the commentary video display section 403.
  • the displays on other display units 401, 402, and 404 are the same as in FIG. 11A.
  • musical instruments 1104A and 1105A are superimposed on each other in the explanatory video, and the left and right hands 1104B and 1105B of the first and second performers who play these instruments are superimposed and displaced from each other.
  • commentary information 1104C and 1105C indicating the inclination angles of the right wrists of the first and second performers are displayed superimposed.
  • the second performer can visually recognize the degree of difference from the first performer by viewing the display of the commentary moving image display section 403 as described above.
  • the second performer can select through the input unit 25 whether the explanation moving image display unit 403 is caused to display as shown in FIG. 11A or as shown in FIG. 11B.
  • the second player can easily recognize or understand the difference in the playing action from the first player, that is, the points to be improved, and can improve his playing technique. .
  • first performer described in this embodiment is not limited to one performer, and may be a plurality of performers.
  • second performer is not limited to one performer, and may be a plurality of performers.
  • the performance moving image is a captured moving image obtained by imaging the body part of the performer playing the musical instrument.
  • moving image data generated and recorded virtually by CG may be used as the moving image of the performance.
  • the CG animation may use position data obtained by the motion capture technology described above.
  • the CG moving image one obtained by acquiring the position of the player's body part as three-dimensional information and then reconstructing it by changing the viewpoint may be used.
  • a CG moving image may be separately prepared and read from the moving image data acquisition unit 301 of the information processing device 14 through the moving image capturing unit 24 of the terminal device 11, or may be directly acquired by the moving image data acquisition unit 301.
  • the positional information of the body part may be virtually generated and read into the position extracting section 302 through the video data acquiring section 301 in the information processing device 14 .
  • moving image data is not limited to data generated by imaging, so that options for comparison targets when generating position comparison data can be expanded.
  • the position comparison data generation unit 303 compares the first and second performance moving images
  • the sound recognized by the sound recognition unit 305 through the performance position/speed adjustment processing shown in FIG.
  • the musical score data acquired by the acquisition unit 304 is used to specify a performance section, and the performance position and performance speed are adjusted.
  • step 1302 of FIG. 13 it is sufficient to acquire information that the musical pieces in the first performance animation and the second performance animation are the same, instead of acquiring musical score data.
  • a performance section of a performance sound that is the same as or similar to the performance sound in the performance section extracted from the first performance video in step 1301 is searched and specified from the second performance video in step 1302, and the performance position and The performance speed should be matched with the first performance moving image.
  • Example 2 will be described.
  • the keyboard instrument is played, but the instrument to be played may be a stringed instrument. Even when a stringed instrument is played, the feature points for recognizing the positions of the player's body parts are the same as those described with reference to FIGS. The same position comparison data generation processing as in 1 can be performed.
  • the flowchart of FIG. 18 shows position conversion processing for recognizing a performance operation region of a stringed instrument included in a performance moving image and converting its position.
  • the processing in FIG. 18 (steps 1801 to 1805) corresponds to the keyboard region in the processing (steps 1401 to 1405) in FIG.
  • the play operation area of a stringed instrument includes a fingerboard where the strings are pressed with fingers, a string area near the bridge where the bow is applied to the strings, and an area including the bow where the strings are rubbed.
  • the musical instrument recognition unit 306 only needs to be able to recognize the entire top board, the entire string, the entire fingerboard, or the like of the stringed instrument in the performance moving image and specify the position of the performance operation area.
  • the shape pattern of the performance operation area of the stringed instrument is stored, and the position of the performance operation area is recognized by pattern matching, or the position of the performance operation area is recognized by image recognition based on machine learning. be able to.
  • a marker may be provided at a predetermined position of the stringed instrument, and the position of the performance operation area may be specified by recognizing the marker in the performance moving image.
  • the performance operation area of the musical instrument may be recognized by having the player play a specific reference tone other than the tone played with the open strings and recording the positions of the fingers at that time. Also, a performance operation area manually specified by the player on the image may be recognized.
  • FIG. 19 shows a display example on the display screen 400' (display unit 26) in this embodiment.
  • a display example is shown in which a performer holding a bow with his right hand and playing a stringed instrument is shown in each performance animation.
  • the position comparison data display section 401a displays a graph (comparative image) showing temporal changes in the opening angle of the right side of each of the first player and the second player, which is generated from the position comparison data.
  • the position comparison data display portion 401b displays a diagram and text indicating the "open angle of the right side".
  • the horizontal axis of the above graph indicates the time in the performance animation, and the vertical axis indicates the opening angle of the right side.
  • the dashed line indicates the opening angle of the right side of the first player
  • the solid line indicates the tilt angle of the right wrist of the second player
  • the dashed-dotted line indicates the value (difference) obtained by subtracting the opening angle of the right side of the first player from the opening angle of the right side of the second player.
  • a frame 1902B indicating a point of interest such as a large difference in the opening angle of the right side of the first player and the second player
  • a vertical line 1902A indicating the point in time when the display of the commentary moving image is stopped. is also displayed.
  • the sentence display section 402 displays the time corresponding to the point of interest displayed in the position comparison data display section 401a, and the opening angle of the right side of the second player relative to the opening angle of the right side of the first player.
  • a commentary text that explains more specifically how much difference there is is displayed.
  • a commentary video 1904 in which commentary information is superimposed on the performance video of the first performer and a commentary video 1905 in which commentary information is superimposed on the performance video of the second performer are displayed at a point of interest.
  • a still image of the corresponding frame is displayed.
  • the first performer's commentary video and the second commentary video respectively show stringed instruments 1904A and 1905A and performers 1904B and 1905B who play them.
  • explanation information 1904C and 1905C indicating the opening angle of the right side are superimposed on the upper right side of each performer.
  • a commentary musical score image is displayed in which a frame 1903B as explanatory musical score information indicating the performance section corresponding to the point of interest is superimposed on the musical score of the musical piece played in the performance video.
  • a vertical line 1903A is also displayed on the musical score to indicate the point in time when the moving image of the performance is stopped.
  • the second player can easily recognize or understand the difference in performance action from the first player, that is, the points to be improved, and improve the performance technique.
  • the present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
  • a circuit for example, ASIC

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】演奏者の演奏動作の改善点を見つけ易くする処理を行う。 【解決手段】処理方法は、同じ又は同種の楽器で同じ楽曲を演奏する第1の演奏者と第2の演奏者の身体部位がそれぞれ含まれる第1の動画データおよび第2の動画データを取得するステップ(S601、S602)と、第1の動画データから第1の演奏者の身体部位の位置を取得し、第2の動画データから第2の演奏者の身体部位の位置を取得するステップ(S603、S604)と、取得された位置を用いて、楽曲の同じ区間を演奏する第1および第2の演奏者の身体部位の比較を可能とする比較データを生成するステップ(S605)とを有する。

Description

処理方法、プログラムおよび処理装置
 本発明は、楽器の演奏者による使用に好適な処理技術に関する。
 ピアノ、ヴァイオリン、チェロ、ギターおよびドラム等の楽器の演奏者の演奏技術を向上させる方法として、演奏中の演奏者を動画撮像し、得られた動画から演奏者の演奏動作(身体部位の位置や動作等)の改善点を見つける方法がある。特許文献1には、手本となる演奏者の動画と教習者としての演奏者の動画とを並べて表示することで、それらを見比べることを可能とする方法が開示されている。また、特許文献2には、演奏者の動画から演奏者の身体部位(手や指等)の位置を認識し、その認識結果から演奏された音を自動で楽譜化する方法が開示されている。
特開2019-053170号公報 特開2020-046500号公報
 しかしながら、特許文献1の方法のように演奏者の動画を見比べ可能とするだけでは、また特許文献2の方法のように演奏者の身体部位の位置を認識して楽譜を生成するだけでは、演奏動作の改善点を容易かつ十分に知ることは難しい。
 本発明は、演奏者の演奏動作の改善点を見つけ易くする処理を行うことが可能な処理方法等を提供する。
 本発明の一側面としての処理方法は、楽器で同じ楽曲を演奏する第1の演奏者と第2の演奏者の身体部位の動作がそれぞれ含まれる第1の動画データおよび第2の動画データを取得するステップと、第1の動画データから第1の演奏者の身体部位の位置を取得し、第2の動画データから第2の演奏者の身体部位の位置を取得するステップと、取得された位置を用いて、第1および第2の演奏者の上記位置および動作のうち少なくとも一方の比較を可能とする比較データを生成するステップとを有することを特徴とする。なお、コンピュータに、上記処理方法に従う処理を実行させるプログラムも、本発明の他の一側面を構成する。
 また、本発明の他の一側面としての処理装置は、楽器で同じ楽曲を演奏する第1の演奏者と第2の演奏者の身体部位の動作がそれぞれ含まれる第1の動画データおよび第2の動画データを取得する動画データ取得手段と、第1の動画データから第1の演奏者の身体部位の位置を取得し、第2の動画データから第2の演奏者の身体部位の位置を取得する位置取得手段と、取得された位置を用いて、第1および第2の演奏者の上記位置および動作のうち少なくとも一方の比較を可能とする比較データを生成する生成手段とを有することを特徴とする。
 本発明は、演奏者の演奏動作の改善点を見つけ易くするための処理を提供することができる。
実施例1の情報処理システムの構成を示すブロック図。 実施例1における端末装置の構成を示すブロック図。 実施例1における情報処理装置の構成を示すブロック図。 実施例1における位置比較データ表示部の構成を示すブロック図。 実施例1における演奏者の身体部位の位置を認識するための特徴点を示す図。 実施例1における位置比較データ生成処理を示すフローチャート。 実施例1における表示処理を示すフローチャート。 実施例1における文章生成処理を示すフローチャート。 実施例1における解説動画生成処理を示すフローチャート。 実施例1における解説楽譜生成処理を示すフローチャート。 実施例1における表示部での表示例を示す図。 実施例1における表示部での別の表示例を示す図。 実施例1における位置抽出処理を示すフローチャート。 実施例1における演奏位置/速度合わせ処理を示すフローチャート。 実施例1における位置変換処理を示すフローチャート。 実施例1における位置変換処理を示す図。 実施例1における手に関する解析を行うための指標を示す図。 実施例1における上半身に関する解析を行うための指標を示す図。 実施例2における位置変換処理を示すフローチャート。 実施例2における表示部での表示例を示す図。
 以下、本発明の実施例について図面を参照しながら説明する。
 図1は、実施例1の情報処理システムの構成を示している。本システムは、複数の端末装置11、ネットワーク12、データサーバ13および情報処理装置14を有する。
 複数の端末装置11は、それぞれのユーザが情報の取得、入力および送信を行ったり、送られてきた情報を閲覧可能にしたりするための装置であり、パーソナルコンピュータ、タブレット端末、スマートフォン等である。端末装置11の詳細については後述する。
 本実施例において、ユーザは各種楽器の演奏者であり、演奏者には、演奏を習う教習者、演奏を指導する指導者、プロ演奏家等の様々な演奏者を含む。本システムは、主として、教習者が指導者やプロ演奏家の演奏動作を手本として演奏技術を向上させることができるようにするものである。また、ユーザは、自身は演奏しないが、他の2人以上のユーザ(演奏者)の演奏動作を比較したり評価したりする者であってもよい。
 ネットワーク12は、端末装置11、データサーバ13および情報処理装置14を相互に接続する通信経路であり、インターネット、公衆回線およびLAN等を含む。端末装置11は、プロバイダを介してインターネットと接続される。データサーバ13および情報処理装置14は、LAN等により互いに接続され、LANを介してインターネットと接続される。端末装置11で入力された情報は、ネットワーク12を介してデータサーバ13や情報処理装置14に送信されて処理される。処理された結果は、端末装置11からデータサーバ13や情報処理装置14にアクセスしたりデータサーバ13や情報処理装置14から端末装置11にダウンロードしたりすることで閲覧することができる。
 データサーバ13は、ユーザが端末装置11からネットワーク上にアップロードしたデータを蓄積するための装置である。データは、ユーザの情報、ユーザが撮像により作製した動画データ、楽曲の楽譜データ等を含み、データ名に対応付けられてデータベースにおいて管理される。データサーバ13に蓄積されたデータは、情報処理装置14により読み出されて処理される。
 情報処理装置14は、後述する各種情報処理を行うコンピュータである。情報処理装置14は、他の装置とは別個に設けられた装置であってもよいし、端末装置11の一部に組み込まれて端末装置11を情報処理装置として機能させてもよい。また、情報処理装置14をクラウド上にソフトウェアにより構成してもよい。情報処理装置14の詳細については後述する。
 図2は、端末装置11の構成を示している。端末装置11は、制御・演算部21、記憶部22、通信部23、動画撮像部24、入力部25および表示部(表示手段)26を有する。制御・演算部21は、CPU、RAMおよびROM等から構成されている。ROMには、CPUにより読み込まれプログラム等が記憶されている。RAMは、CPUのワークメモリとして用いられる。CPUは、ROMに記憶されたプログラムに従って様々な処理を実行してコマンドを発行することによって端末装置11全体を制御する。
 記憶部22は、ハードディスクや半導体メモリ等の記憶媒体である。記憶部22は、後述する動画撮像部24により生成された動画データ等を保存することができる。通信部23は、インターネットを介して他の装置と通信するための通信モジュールや通信用コネクタ等を有する。通信部23による通信は、USB通信等の有線通信、Wi-Fi(登録商標)等の無線LAN、Bluetooth(登録商標)、ZigBee(登録商標)、4G/5G(第4/5世代移動通信システム)、ブロードバンド等の無線通信を含む。
 動画撮像部24は、撮像レンズ、撮像レンズにより形成された被写体像を撮像する撮像素子および画像処理LSI等を含み、撮像により動画や静止画を生成可能なカメラ機能と音声を記録するマイク機能とを有する。動画撮像部24により生成された動画データは、情報処理装置14での処理に用いられる。なお、動画撮像部24は、必ずしも端末装置11に設けられていなくてもよい。この場合、情報処理装置14で用いられる動画データは、端末装置11とは別の撮像機器による撮像により生成されたのでもよい。
 入力部25は、ユーザによる端末装置11に対する操作入力を受け付け、その操作入力に応じた入力信号を生成して制御・演算部21に出力する。制御・演算部21は、入力信号に対応した演算処理や端末装置11の制御を行う。入力部25としては、表示部26と一体に構成されたタッチパネル、トラックパッドやタッチパッドと称されて表示部26とは別体のタッチセンサを有するポインティングデバイス、キーボードおよびマウス等がある。 
 表示部26は、例えば、LCDパネル、プラズマディスプレスパネル、有機ELパネル等により構成された表示デバイスであり、端末装置11のユーザインターフェースや後述する比較画像、解説文章、解説画像および解説楽譜画像を表示可能である。  
 図3は、情報処理装置14の構成を示している。情報処理装置14は、動画データ取得部(動画データ取得手段)301、位置抽出部(位置取得手段)302、位置比較データ生成部(生成手段)303および楽譜データ取得部304を有する。また情報処理装置14は、音認識部305、楽器認識部306、文章生成部307、解説動画生成部308および解説楽譜生成部309を有する。
 動画データ取得部301は、複数の端末装置11における動画撮像部24で撮像された、楽器で楽曲を演奏する演奏者の身体部位がそれぞれ含まれる複数の動画データ(以下、演奏動画という)を取得する。楽器には、ピアノや電子ピアノ等の鍵盤楽器やヴァイオリン、チェロ、ギター等の弦楽器その他の様々な種類の楽器が含まれる。なお、後述する位置比較データの生成対象となる複数の動画データで演奏される楽器は、互いに同じ楽器(例えばピアノ)であることが好ましいが、必ずしも同じ楽器でなくてもよく、例えばピアノと電子ピアノのように鍵盤楽器として同種の楽器であってもよい。また、該複数の動画データで演奏される楽曲は、同じ楽曲である。以下の説明では、同じ楽曲が鍵盤楽器で演奏される場合を例として説明する。
 端末装置11による演奏動画の撮像時には、演奏者の身体部位としての手の様子がよく映るように端末装置11(または撮像装置)を鍵盤楽器の上方に設置して手を真上から撮像する。また、手の左右方向や奥手前方向の動き、さらには鍵盤の領域を二次元情報として取得する。なお、撮像装置として3D撮像が可能なステレオカメラや赤外線等を用いて距離を測定可能な測距カメラを使用して、演奏者の手だけではなく肘、肩および上半身の動きを三次元情報として取得してもよい。このとき、演奏動画から鍵盤楽器の位置を認識するために、鍵盤楽器の所定位置に目印となるマーカ等を設けておいてもよい。
 図1に示したデータサーバ13には、様々な演奏者が端末装置11からネットワーク上にアップロードされた演奏動画が多数保存されている。情報処理装置14を利用したい演奏者(例えば教習者)が自身の端末装置11からデータサーバ13にアクセスして任意の演奏動画を選択することができる。動画データ取得部301では、このようにして選択された演奏動画を取得することも可能である。
 楽譜データ取得部304は、演奏動画において演奏されている楽曲の楽譜データを取得する。楽譜データとしては、印刷や製本された楽譜をスキャンして画像データ化されたものや、各音符がデータ化されておりそれらの読み取りや楽譜画像としての表示が可能なもの等がある。
 位置抽出部302は、動画データ取得部301で取得した演奏動画を解析して、演奏者の身体部位の位置を抽出(取得)する。具体的には、演奏動画のフレーム画像ごと又は所定のフレーム数ごとに身体部位の位置を解析することにより位置を抽出する。身体部位の位置として、身体部位の各関節の位置を抽出する場合は、画像認識によるモーションキャプチャ技術を用いることができる。モーションキャプチャ技術は、人間の骨格の特徴点として各関節の位置を画像を用いて機械学習させることにより、身体にセンサを付けることなく画像データから骨格を認識することができる技術である。
 図5(a)は、手の骨格を認識するための特徴点の例として、指先A1、指の各関節A2および手首A3を示している。図5(b)は、上半身の骨格を認識するための特徴点の例として、手首B1、肘B2、肩B3および腰B4を示している。なお、身体の特徴点に相当する位置に画像上で認識可能なマーカを付けるモーションキャプチャ技術を用いてもよい。
 また、位置抽出部302は、抽出した位置から各身体部位の角度を取得してもよい。例えば、後に図を用いて説明するが、抽出した複数の位置のうち2つの位置を結ぶ直線と該2つの位置のうち一方と別の位置を結ぶ直線の角度を取得してもよい。さらに、抽出した位置と演奏動画の各フレームに対応した時間の情報から各身体部位の動きの速度や加速度を算出してもよい。例えば、あるフレームに対応した時間をt1、その次のフレームに対応した時間をt2とし、t1~t2でのある身体部位の位置をそれぞれx1、x2とする。このとき、(x2-x1)/(t2-t1)により速度を算出できる。また、この速度を(t2-t1)で除することで加速度を算出することができる。
 速度や加速度を算出する際には、抽出した位置にノイズとして含まれる検出誤差や人間の動きの細かなぶれ成分を平滑化する処理を行ってもよい。このような処理として、演奏動画の各フレームでの位置の移動平均を算出する処理や、位置抽出での空間周波数における高周波成分をローパスフィルタで除去する処理等がある。
 位置抽出部302は、特徴点をP1、P2、P3、…、Pnとして、それらのフレーム画像上での位置(座標x,y)をPi(xi,yi)として抽出する。さらにその位置における奥行きzを推定または測定して、Pi(xi,yi,zi)として抽出してもよい。また位置抽出部302は、フレーム画像から実空間上での基準位置を認識し、その基準位置に対する実空間上での位置Pi(xi,yi,zi)を抽出してもよい。
 音認識部305は、動画データ取得部301で取得された演奏動画に含まれる演奏音を認識して音データを生成する。音データとして、演奏者が演奏に電子ピアノを使用している場合は、電子ピアノにパーソナルコンピュータとMIDIケーブルをつなぐことで、どの時刻にどの鍵盤を押したかを記録したMIDIデータを取得することができる。また、機械学習を活用した音認識技術により、演奏音がどの時刻にどの鍵盤を押したかを認識する技術を用いて音データを生成してもよい。
 楽器認識部306は、動画データ取得部301で取得された演奏動画から、楽器において演奏者による演奏操作が行われる領域(以下、演奏操作領域という)を認識する。演奏操作領域は、鍵盤楽器においては演奏者が打鍵する鍵盤領域である。演奏操作領域の認識方法としては、予め用意された鍵盤領域の特徴的なパターン画像を用いたパターンマッチングを用いたり、鍵盤領域の黒と白のエッジを画像解析で認識させる方法を用いたり、機械学習による画像認識を用いたりすることができる。また、鍵盤領域の周辺に目印となるマーカを設けておき、その撮像により得られた画像から画像認識により演奏操作領域を認識させてもよい。さらに、演奏者が画像上で手動より指定した演奏操作領域を認識させてもよい。このようにして楽器認識部306は、演奏動画に映る楽器の演奏操作領域を二次元的または三次元的に認識する。
 また、位置抽出部302が演奏者の身体部位の位置を抽出する際に、音認識部305で生成された音データを補助として使用してもよい。図12のフローチャートは、音データを使用した位置抽出処理を示している。動画データ取得部301、位置抽出部302、音認識部305および楽器認識部306は、プログラムに従って本処理を実行する。
 ステップ1201において、動画データ取得部301は、演奏動画を取得する。
 次にステップ1202では、楽器認識部306は、演奏動画から演奏者の身体部位の位置と楽器の演奏操作領域を取得する。またステップ1203では、音認識部305は、音データから、演奏操作領域のうち演奏者により操作(打鍵)された局所領域を取得する。ここで、鍵盤領域のうち1つの鍵盤が打鍵されていると認識できたにもかかわらず、演奏者の身体部位を示す位置がその鍵盤を含む局所領域にない場合がある。このような状況は、例えば演奏者の親指が手のひらの下に曲げられて隠れてしまい、親指の位置が得られなかったときに発生する。また、演奏者の頭で手の一部が隠れてしまったときにも発生する。
 ステップ1204では、位置抽出部302は、操作されているはずの局所領域において身体部位の位置が抽出されたか否かを判定し、位置が抽出された場合はステップ1206に進み、局所領域を操作している身体部位とその位置を格納する。
 一方、位置が抽出されていない場合は、位置抽出部302は、ステップ1205に進み、局所領域を操作している身体部位の位置を推定する。例えば、親指が手のひらの下に隠れている場合は、親指の位置が局所領域にあると推定すればよい。また、演奏者の頭で手の一部が隠れてしまった場合は、その隠れた手が局所領域にあると推定すればよい。これにより、身体部位が演奏動画に映っていない場合でも、その位置を正確に取得することが可能となる。
 ステップ1205からはステップ1206に進んで推定した位置を格納する。その後、位置抽出部302は本処理を終了する。
 位置比較データ生成部303は、位置抽出処理により第1の演奏者(手本となる演奏者)の演奏動画から抽出された身体部位の位置と第2の演奏者(教習者等)の演奏動画から抽出された身体部位の位置とを用いて位置比較データを生成する。第1および第2の演奏者は、同じ又は同種の楽器(鍵盤楽器)で同じ楽曲を演奏する演奏者である。
 位置比較データは、演奏される楽曲の同じ演奏区間における第1および第2の演奏者の身体部位の比較を可能とするデータである。例えば、第1および第2の演奏者の身体部位の位置や角度を共に(並べて)表示するためのデータや、それら第1および第2の演奏者の身体部位の位置や角度の比較結果(例えば、差)を示すデータである。位置や角度の差を示すデータは、単純に身体部位の位置や角度を並べて表示する場合に比べて、より明確に両演奏者の演奏動作の違いを表すことができる。
 また、前述したように第1および第2の演奏者の身体部位の位置から算出される身体部位の動作の速度や加速度またはこれらの差を位置比較データに含めてもよい。これにより、両演奏者の演奏動作の違いをより詳しく分析することが可能となる。
 図6のフローチャートは、図12に示した位置抽出処理を含む位置比較データ生成処理を示している。動画データ取得部301、位置抽出部302および位置比較データ生成部303は、プログラムに従って本処理を実行する。
 ステップ601において、動画データ取得部301は、第1の演奏者の演奏動画(第1の動画データ:以下、第1の演奏動画という)を取得する。またステップ602では、動画データ取得部301は、第2の演奏者の演奏動画(第2の動画データ:以下、第2の演奏動画という)を取得する。
 次にステップ603では、位置抽出部302は、第1の演奏動画に対して上述した位置抽出処理を行って、第1の演奏者の身体部位の位置を取得する。またステップ604では、第2の演奏動画に対して上述した位置抽出処理を行って、第2の演奏者の身体部位の位置を取得する。
 次にステップ605では、位置比較データ生成部303は、同一フレームにおいて抽出された第1の演奏者の身体部位の位置(第1の位置)と第2の演奏者の身体部位の位置(第2の位置)とを用いて位置比較データを生成する。具体的には、演奏中の第1および第2の演奏者の同一の手(特徴点)の位置を抽出し、演奏動画のi番目のフレームでの第1の演奏者の手の位置を示す数値x1iと第2の演奏者の手の位置を示す数値x2iとを比較可能に並べて表示するためのデータを生成する。また、連続した複数フレームにおける数値x1i、x2iのそれぞれの変化(手の動き)を比較可能に並べて表示するためのデータも生成する。
 さらに第1および第2の演奏者の演奏動作を比較可能とする位置比較データとして、i番目のフレームの数値x1i、x2iの差(x2i-x1i)を示すデータや、該差の連続した複数フレームでの変化を示すデータを生成してもよい。この際、第1の演奏者と第2の演奏者のどちらを基準とした差のデータとするかは、第2の演奏者が図2に示した入力部25を通じて選択することができる。その後、位置比較データ生成部303は本処理を終了する。
 文章生成部307は、位置比較データ生成部303で生成された位置比較データに基づいて解説文章を生成する。解説文章は、第1および第2の演奏者の演奏動作の違いを分かり易く伝えるための文章である。特に、第1および第2の演奏動画を見比べるだけでは演奏動作の違いが分かりにくい場合に該違いを文章で明確に伝えることができる。
 図8のフローチャートは、文章生成部307がプログラムに従って実行する文章作成処理を示している。
 ステップ801において、 文章生成部307は、第1および第2の演奏動画のうち位置比較データにおける身体部位の位置(数値)の差が大きいフレーム範囲を特定する。具体的には、例えば、両演奏動画における比較対象の演奏区間内で位置比較データにおける位置の差が最も大きい又は所定値(閾値)よりも大きいフレームを含む複数のフレームの範囲を特定する。
 次にステップ802では、文章生成部307は、ステップ801で特定したフレーム範囲のフレーム番号を格納する。
 次にステップ803では、文章生成部307は、ステップ801でのフレーム範囲の特定において用いた位置比較データのデータ名を格納する。データ名には、少なくとも位置を比較した身体部位の名称と該位置を区別するための名称を含めることが望ましい。例えば、位置比較データが右手首の左右方向での位置(傾き角)を比較するデータであれば、少なくとも「右手首の傾き」を含むデータ名とする。
 次にステップ804では、文章生成部307は、第1および第2の演奏者のうち位置比較データの生成に際して基準となる演奏者の情報を格納する。この基準演奏者は、前述したように図2に示した入力部25を通じて第2の演奏者により選択される。
 次にステップ805では、文章生成部307は、ステップ804で選択された基準演奏者(例えば第1の演奏者)を基準とした他方の演奏者(比較演奏者:例えば第2の演奏者)の身体部位の位置の差の情報を格納する。なお、身体部位の位置には、座標で表される位置だけでなく、角度(例えば傾き角や開き角)も含まれる。例えば、「右手首の傾き」データにおける基準演奏者を基準とした比較演奏者の右手首の傾き角の差を示す情報を格納する。
 次にステップ806では、文章生成部307は、ステップ802~805で格納した情報に基づいて解説文章を生成して格納する。例えば、ステップ802で格納したフレーム範囲に対応する「時間」において、ステップ803で格納したデータ名から得られる「身体部位」と「位置」について、ステップ804で格納した「基準演奏者」に比べて「比較演奏者」に、ステップ805で格納した「位置差」があることを示す解説文章を生成する。その後、文章生成部307は本処理を終了する。
 解説動画生成部308は、位置比較データ生成部303で生成された位置比較データに基づく解説情報を演奏動画に付加(重畳等)して解説画像としての解説動画を生成する。解説動画は、第1および第2の演奏者の演奏動作の違いを分かり易く伝えるための動画である。特に、第1および第2の演奏動画を見比べるだけでは演奏動作の違いが分かりにくい場合に該違いを解説情報が付加された解説動画で明確に伝えることができる。
 図9のフローチャートは、解説動画生成部308がプログラムに従って実行する解説動画生成処理を示している。
 ステップ901において、解説動画生成部308は、文章生成部307がステップ801で行ったのと同様に、第1および第2の演奏動画のうち位置比較データにおける身体部位の位置差が大きいフレーム範囲を特定する。
 次に、ステップ902では、解説動画生成部308は、動画データ取得部301で取得された第1および第2の演奏動画を格納する。
 次にステップ903では、解説動画生成部308は、ステップ901で特定したフレーム範囲のフレーム番号を格納する。
 次にステップ904では、解説動画生成部308は、各演奏動画において位置比較データに基づいて生成される解説情報を重畳させる位置を決定して格納する。例えば、ステップ903で特定したフレーム範囲における位置比較データ内での身体部位の位置の平均値を算出することにより、演奏動画中に解説情報を重ねて表示する位置を決定することができる。
 次にステップ905では、解説動画生成部308は、解説情報を生成した位置比較データのデータ名を格納する。データ名の具体例は、文章生成部307がステップ803で格納したデータ名と同様である。
 次にステップ906では、解説動画生成部308は、文章生成部307がステップ804で行ったのと同様に、第1および第2の演奏者のうち位置比較データにおいて位置に関する差を表す際に基準とする基準演奏者の情報を格納する。
 次にステップ907では、解説動画生成部308は、ステップ906で選択された基準演奏者を基準とした比較演奏者の身体部位の位置差を画像として表示するための解説情報を生成して格納する。解説情報は、例えば、「手首関節の左右動き」データにおける基準演奏者を基準とした比較演奏者の手首の動きの差を画像として表示するための情報である。
 次にステップ908では、解説動画生成部308は、ステップ902で格納した第1および第2の演奏動画のうちステップ903で格納したフレーム番号のフレーム画像におけるステップ904で決定した位置にステップ907で生成した解説情報を重畳した解説動画を生成して格納する。その後、解説動画生成部308は本処理を終了する。
 解説楽譜生成部309は、位置比較データ生成部303で生成された位置比較データに基づいて得られる解説楽譜情報を楽譜データに付加(重畳等)して解説楽譜画像を生成する。解説楽譜画像は、第1および第2の演奏者の演奏動作の違いを分かり易く伝えるために楽譜を利用した画像である。特に、第1および第2の演奏動画を見比べるだけでは演奏動作の違いが分かりにくい場合に該違いを解説楽譜情報が付加された楽譜を通して明確に伝えることができる。
 図10のフローチャートは、解説楽譜生成部309がプログラムに従って実行する解説楽譜生成処理を示している。
 ステップ1001において、解説楽譜生成部309は、文章生成部307がステップ801で行ったのと同様に、第1および第2の演奏動画のうち位置比較データにおける身体部位の位置差が大きいフレーム範囲を特定する。
 次にステップ1002では、解説楽譜生成部309は、楽譜データ取得部304で取得された楽譜データを格納する。
 次にステップ1003では、解説楽譜生成部309は、ステップ1001で特定したフレーム範囲のフレーム番号を格納する。
 次にステップ1004では、解説楽譜生成部309は、ステップ1002で格納した楽譜データにおけるステップ1003で格納したフレーム番号に対応する演奏位置を特定して格納する。具体的には、音認識部305で認識された音データを楽譜データと照合することより演奏位置を特定する。
 次にステップ1005では、解説楽譜生成部309は、楽譜データにおいて位置比較データに基づいて生成される解説楽譜情報を重畳させる位置を決定して格納する。例えば、位置比較データの生成に用いられた身体部位(指)の位置に対応する鍵盤(音符)の位置から解説楽譜情報を重畳させる位置を決定する。ステップ1004で演奏区間は決まっているので、その演奏区間における音符の位置から楽譜上のどの音符の近くに解説楽譜情報を重畳表示するかを決定することができる。
 次にステップ1006では、解説楽譜生成部309は、解説楽譜情報を生成した位置比較データのデータ名を格納する。データ名の具体例は、文章生成部307がステップ803で格納したデータ名と同様である。
 次にステップ1007では、解説楽譜生成部309は、文章生成部307がステップ804で行ったのと同様に、第1および第2の演奏者のうち位置比較データにおいて位置に関する差を算出する際に基準とする基準演奏者の情報を格納する。
 次にステップ1008では、解説楽譜生成部309は、ステップ1007で選択された基準演奏者を基準とした比較演奏者の身体部位の位置差に対応する解説楽譜情報を生成して格納する。解説楽譜情報は、例えば、基準演奏者と比較演奏者の身体部位の位置や動作に差が生じた楽譜上の演奏位置を表示するための情報である。
 次にステップ1009では、解説楽譜生成部309は、ステップ1002で格納した楽譜データのうちステップ1004で格納した演奏区間におけるステップ1005で決定した位置にステップ1008で生成した解説楽譜情報を重畳した解説楽譜画像を生成して格納する。その後、解説楽譜生成部309は本処理を終了する。
 ここで、位置比較データ生成部303において位置比較データを生成する際には、第1および第2の演奏動画の比較を容易かつ正確に行うために、両演奏動画内での演奏位置と演奏速度が互いに一致し、さらには楽器の演奏操作領域の位置と大きさが互いに一致していることが望ましい。
 図13のフローチャートは、第1および第2の演奏動画における演奏位置(楽譜上の位置)と演奏速度を合わせる演奏位置/速度合わせ処理を示している。位置抽出部302は、プログラムに従って本処理を実行する。
 ステップ1301において、位置抽出部302は、入力部25を通じて第2の演奏者により指定された、第1の演奏動画から抽出する演奏区間の情報を取得し、さらにその演奏区間の時間長さを取得する。演奏区間の指定は、例えば、演奏される楽曲の小節番号や楽曲全体を指定することにより行われる。
 次にステップ1302では、位置抽出部302は、音認識部305で認識された音データと楽譜データ取得部304で取得された楽譜データを用いて、第2の演奏動画のうちステップ1301で指定された演奏区間に対応する演奏区間を特定してその時間長さを取得する。
 次にステップ1303では、位置抽出部302は、第1および第2の演奏動画のうち演奏速度を合わせるための基準とする演奏動画の情報を取得する。この基準演奏動画も、入力部25を通じて第2の演奏者により選択される。
 次にステップ1304では、位置抽出部302は、第1および第2の演奏動画のうち基準演奏動画を基準として演奏速度が調整される調整演奏動画における上記演奏区間の時間長さを拡大または縮小して、両演奏動画における同一演奏区間の演奏速度を合わせる。例えば、基準演奏動画において抽出された演奏区間の長さがt1、調整演奏動画における対応演奏区間の時間長さがt2であるとき、調整演奏動画における対応演奏区間の時間長さをt1/t2倍する。この際、演奏音のピッチが保たれるように音の周波数も変換することが好ましい。
 この後、位置抽出部302は、演奏速度が調整された演奏区間の動画を保存して位置比較データ生成部303による位置比較データの生成において使用可能とし、本処理を終了する。
 図14のフローチャートは、演奏動画に含まれる演奏操作領域および演奏者の身体部位の位置を変換する位置変換処理を示している。位置抽出部302は、プログラムに従って本処理を実行する。
 ステップ1401において、位置抽出部302は、演奏動画内で楽器の演奏操作領域(鍵盤領域)を配置する位置を決定する。ここにいう位置は、例えば鍵盤領域の四隅の位置であり、この位置を決めることで鍵盤領域の大きさも決まる。このように位置比較データ生成部303が扱う演奏動画における鍵盤領域の位置と大きさを決めて、動画データ取得部301で取得される様々な演奏動画をそれに合うように画像変換することで、位置比較データの生成が容易となる。具体的には、演奏動画内に鍵盤領域とそこを操作する演奏者の身体部位とがバランス良く映る位置と大きさを演奏動画内での鍵盤領域の位置として決定するとよい。また、手本となる第1の演奏動画に映っている鍵盤領域を、位置比較データ生成部303が扱う演奏動画における鍵盤領域の位置と決定してもよい。
 次にステップ1402では、位置抽出部302は、第1の演奏動画から、鍵盤領域の位置と第1の演奏者の身体部位の位置を取得する。第1の演奏動画における鍵盤領域の位置は、楽器認識部306を通じて取得できる。
 次にステップ1403では、位置抽出部302は、第2の演奏動画から、鍵盤領域の位置と第2の演奏者の身体部位の位置を取得する。第2の演奏動画における鍵盤領域の位置も、楽器認識部306を通じて取得できる。
 次にステップ1404では、位置抽出部302は、ステップ1402とステップ1403で取得した鍵盤領域の位置と大きさが、ステップ1401で決定された位置と大きさとなるように第1および第2の演奏動画を画像変換する。この際、ステップ1401で決定された位置と大きさが第1の演奏動画の鍵盤領域の位置と大きさである場合は、第2の演奏動画を画像変換する。
 次にステップ1405では、位置抽出部302は、第1および第2の演奏動画中の身体部位の位置をステップ1404での画像変換に対応するように座標変換する。この際、第1の演奏動画に対してステップ1404で画像変換が行われていない場合は、第2の演奏動画中の身体部位の位置を座標変換する。身体部位の位置の座標変換は、例えば、演奏画像上の座標に対して行列を乗じる幾何変換で行うことができる。図15は、ステップ1404での画像変換とステップ1405での座標変換を示している。
 図15の左上に示した画像変換と座標変換の対象である演奏画像1501中には、楽器の鍵盤領域1502と演奏者の身体部位1503が映っている。また、図の右側には、ステップ1401で決定された位置に鍵盤領域(以下、決定鍵盤領域という)1505がある基準画像1504を示している。
 位置抽出部302は、演奏画像1501内での鍵盤領域1502が楽器認識部306により認識されると、該鍵盤領域1502の四隅の演奏画像1501内での座標を取得する。また、位置抽出部302は、基準画像1504内の決定鍵盤領域1505の四隅の座標を取得する。そして位置抽出部302は、鍵盤領域1502の四隅の座標が決定鍵盤領域1505の四隅の座標に一致するように演奏画像1501に対する画像変換を行うとともに、その画像変換に対応する幾何変換行列を求める。さらに位置抽出部302は、求めた幾何変換行列を演奏画像1501内の演奏者の身体部位1503の座標に乗じる。これにより、図中の右下に示す変換後の演奏画像1506が得られる。変換後の演奏画像1506では、鍵盤領域1507の位置が決定鍵盤領域1505の位置に一致し、かつ鍵盤領域1507と演奏者の身体部位1508との位置関係が変換前の演奏画像1501内での鍵盤領域1502と身体部位1503との位置関係と一致している。
 演奏者の演奏技術を向上させるためには、位置抽出部302は演奏者の様々な身体部位の位置を取得できることが望ましい。図16(a)、(b)は、位置抽出部302の位置解析で得られた演奏者の右手のうち手のひらの中心1601、指先1602、手首の根元1603の位置を示している。また図17は、演奏者の身体のうち手首1700、肘1701、肩1702および腰1703の位置を示している。
 図16(a)に示す手のひらの中心1601の位置の情報は、楽器の鍵盤領域に沿った面内での左右方向および奥手前方向での手の移動に関する情報を取得するために用いられる。手のひらの中心1601の位置は、例えば、手のひらの複数箇所の関節の位置を抽出してその平均値の位置として取得することができる。
 また、同図に示す指先1602の位置の情報は、演奏時に各鍵盤をどの指で打鍵するかという運指の情報や、各鍵盤の幅方向と奥手前方向における打鍵位置の情報を取得するために用いられる。さらに指先1602の三次元位置の情報は、各鍵盤に対する打鍵深さや打鍵速度のように打鍵方向の情報を取得するために用いられる。
 また、図16(b)に示す手首の根元1603の三次元位置の情報は、鍵盤領域(各鍵盤の上面)に沿った面に直交する方向での手首の位置(高さ)の情報を取得するために用いられる。また、手首の根元1603と手のひらの中心1601の位置とを結んだ直線が鍵盤の奥手前方向に平行で根元1603の位置を通る直線に対してなす角度1604は、鍵盤領域に沿った面内での手首の傾き角の情報を取得するために用いられる。
 また、図17に示す手首1700、肘1701、肩1702および腰1703の位置の情報は、演奏者の姿勢の情報を取得するために用いられる。姿勢は、演奏動作に影響を与える。例えば、手首1700と肘1701を結んだ直線と肘1701と肩1702を結んだ直線とがなす前肘開き角度1704や、肘1701と肩1702を結んだ直線と肩1702と腰1703とを結んだ直線とがなす脇開き角1705の情報を取得することができる。
 なお、先にも説明したが、身体部位の位置からは、位置差、速度および加速度等の位置に関する情報が得られる。
 図4は、図2に示した端末装置11の表示部26に、前述した位置比較データ、解説文章、解説動画および解説楽譜情報等を表示する表示画面400の構成を示している。表示画面400は、位置比較データ表示部401、文章表示部402、解説動画表示部403および解説楽譜表示部404により構成されている。図11Aおよび図11Bは、表示画面400の表示例を示している。
 図7は、端末装置11(制御・演算部21)がプログラムに従って実行する表示処理を示している。ステップ701では、端末装置11は、図11Aおよび図11Bに示すように位置比較データ表示部401(401a)に、位置比較データに基づいて生成された比較画像を表示する。比較画像は、位置比較データ生成部303により生成された位置比較データを数値化またはグラフ化した画像である。端末装置11は、位置比較データ生成部303において生成されて情報処理装置14から送信された比較画像を受信して位置比較データ表示部401aに表示する。
 次にステップ702では、端末装置11は、図11Aおよび図11Bに示すように位置比較データ表示部401(401b)に、ステップ701で表示した比較画像における比較対象(指標)を表示する。
 次にステップ703では、端末装置11は、入力部25を通じて、位置比較データの内容を解説する文章の表示が選択されているか否かを判定する。文章表示が選択されている場合は、端末装置11はステップ704に進み、文章生成部307で図8に示した文章生成処理により生成された解説文章を情報処理装置14から取得(受信)する。そしてステップ705では、取得した解説文章を、図11Aおよび図11Bに示すように文章表示部402に表示する。
 ステップ703で文章表示が選択されていない場合およびステップ705で文章表示を行った場合は、端末装置11はステップ706に進み、位置比較データの内容を動画での表示が選択されているか否かを判定する。動画表示が選択されている場合は、端末装置11はステップ707に進み、解説動画生成部308で図9に示した解説動画生成処理により生成された解説動画を情報処理装置14から取得する。そしてステップ708では、取得した解説動画を図11Aおよび図11Bに示すように解説動画表示部403に表示する。
 ステップ706で動画表示が選択されていない場合およびステップ708で動画表示を行った場合は、端末装置11はステップ709に進み、解説楽譜生成部309で図10に示した解説楽譜生成処理により生成された解説楽譜画像を情報処理装置14から取得する。そしてステップ711では、取得した解説楽譜画像を図11Aおよび図11Bに示すように解説楽譜表示部404に表示する。この後、端末装置11は本処理を終了する。
 なお、端末装置11は、情報処理装置14から送信された位置比較データを受信し、該位置比較データから端末装置11内のプログラム(アプリケーション)により比較画像、解説文章、解説動画および解説楽譜画像を生成して表示部26に表示してもよい。
 図11Aに示した各表示部についてさらに詳しく説明する。位置比較データ表示部401aには、先に説明した「右手首の傾き」データから生成された、第1の演奏者と第2の演奏者のそれぞれの右手首の傾き角の時間変化を示すグラフ(比較画像)が表示されている。また、位置比較データ表示部401bには、「右手首の傾き」データのデータ名に基づく「鍵盤上面に平行な面での右手首の傾き」を示す図16(b)の手の図と文が表示されている。
 上記グラフの横軸は、演奏動画内での時間を示し、縦軸は右手首の傾き角を示している。破線は第1の演奏者の右手首の傾き角を、実線は第2の演奏者の右手首の傾き角を示している。また、一点鎖線は、第2の演奏者の右手首の傾き角から第1の演奏者の右手首の傾き角を引いた値(差)を示している。さらにグラフ中には、第1の演奏者と第2の演奏者の右手首の傾き角の差が大きい等の注目すべき箇所(以下、注目箇所という)を示す枠1102Bも表示されている。後述するように解説動画表示部403には解説動画を静止させて表示しており、グラフ中には演奏動画を静止させた時点を示す縦線1102Aも表示されている。第2の演奏者は、このような位置比較データ表示部401a、401bの表示を見ることで、自身の右手首の傾き角の第1の演奏者との差異やそれが大きくなった時間を容易に認識することができる。
 文章表示部402には、位置比較データ表示部401aに表示された注目箇所に対応する時間と、第2の演奏者の右手首の傾き角が第1の演奏者の右手首の傾き角に対してどれだけの差異があるかをより具体的に解説する解説文章が表示されている。第2の演奏者は、このような文章表示部402の表示を見ることで、自身の右手首の傾き角の第1の演奏者との差異の程度やその差異が生じた時間をより明確に理解することができる。
 解説動画表示部403には、第1の演奏者の演奏動画に解説情報が重畳された解説動画1104と第2の演奏者の演奏動画に解説情報が重畳された解説動画1105のうち注目箇所に対応するフレームの静止画像が表示されている。第1の演奏者の解説動画と第2の解説動画にはそれぞれ、楽器(鍵盤)1104A、1105Aとこれを演奏する左右の手1104B、1105Bが映っている。さらにそれぞれの右手上には、右手首の傾き角を示す解説情報1104C、1105Cが重畳表示されている。第2の演奏者は、このような解説動画表示部403の表示を見ることで、自身の右手首の傾き角の第1の演奏者との差異の程度を視覚的に認識することができる。
 解説楽譜表示部404には、演奏動画内で演奏された楽曲の楽譜に、注目箇所に対応する演奏区間を示す解説楽譜情報としての枠1103Bが重畳された解説楽譜画像が表示されている。楽譜上には演奏動画を静止させた時点を示す縦線1103Aも表示されている。第2の演奏者は、このような解説楽譜表示部404の表示を見ることで、第1の演奏者との右手首の傾き角の大きな差異がどの演奏区間で生じたかを楽譜上で確認することができる。
 図11Aの表示画面400にどの表示部を表示させるかは、図7に示した表示処理で説明したように、第2の演奏者が入力部25を通じて選択することができる。
 また、図11Bには、解説動画表示部403に、第1の演奏者の演奏動画と第2の演奏者の演奏動画とを重ねた解説動画の静止フレーム画像が表示された表示例を示している。他の表示部401、402、404の表示は、図11Aと同じである。
 図11Bにおいて、解説動画には、楽器1104A、1105Aが重なって映っており、これを演奏する第1および第2の演奏者の左右の手1104B、1105Bが互いにずれた状態で重なって映っている。さらに右手上には、第1および第2の演奏者の右手首の傾き角を示す解説情報1104C、1105Cが重畳表示されている。第2の演奏者は、このような解説動画表示部403の表示を見ることで、第1の演奏者との差異の程度を視覚的に認識することができる。解説動画表示部403に、図11Aのような表示を行わせるか図11Bのような表示を行わせるかは、第2の演奏者が入力部25を通じて選択することができる。
 本実施例によれば、第2の演奏者は、その演奏動作における第1の演奏者との差異、つまりは改善点を容易に認識または理解することができ、演奏技術を向上させることができる。
 なお、本実施例で説明した第1の演奏者は、1人の演奏者に限らず、複数の演奏者であってもよい。また、第2の演奏者も、1人の演奏者に限らず、複数の演奏者であってもよい。
 (変形例)
 上述した実施例1では第1の演奏者と第2の演奏者を別々の演奏者(別人物)である場合について説明したが、第1の演奏者と第2の演奏者は同じ演奏者(同一人物)であってもよい。すなわち、同じ演奏者が異なる時間にて演奏したときの第1の演奏動画と第2の演奏動画に対して実施例1で説明した各処理を行ってもよい。これにより、該演奏者は自身の演奏技術の変化を確認することができる。
 また、実施例1では演奏動画が、楽器を演奏している演奏者の身体部位を撮像することで得られた撮像動画である場合について説明した。しかし、演奏動画として、CG(Computer Graphics)等により仮想的に(つまりは撮像によらずに)に生成されて記録された動画データを用いてもよい。例えば、CG動画として、前述したモーションキャプチャ技術により得られる位置のデータを利用したものであってもよい。さらにCG動画として、演奏者の身体部位の位置を三次元情報として取得した後に視点を変えて再構成されたものを用いてもよい。これらの場合、CG動画を別途用意して端末装置11の動画撮像部24を通じて情報処理装置14の動画データ取得部301から読み込むようにしてもよいし、動画データ取得部301で直接取得するようにしてもよい。また、身体部位の位置の情報を仮想的に生成し、情報処理装置14において動画データ取得部301を通じて位置抽出部302に読み込ませてもよい。このように動画データとして撮像により生成されたものに限らないことで、位置比較データを生成する際の比較対象の選択肢を広げることができる。
 また、実施例1では、位置比較データ生成部303で第1および第2の演奏動画を比較する際に、図13の演奏位置/速度合わせ処理により音認識部305で認識される音と楽譜データ取得部304で取得された楽譜データを用いて、演奏区間を特定し、演奏位置や演奏速度を合わせる場合について説明した。しかし、必ずしも楽譜データを用いなくても演奏区間を特定したり演奏位置や演奏速度を合わせたりすることは可能である。具体的には、図13のステップ1302において、楽譜データを取得するのではなく、第1の演奏動画と第2の演奏動画での演奏楽曲が互いに同じであるという情報を取得できればよい。この場合、例えばステップ1301で第1の演奏動画から抽出した演奏区間での演奏音と同じ又は類似の演奏音の演奏区間をステップ1302で第2の演奏動画から探索して特定し、演奏位置や演奏速度を第1の演奏動画と合わせるようにすればよい。
 次に、実施例2について説明する。実施例1では鍵盤楽器が演奏される場合について説明したが、演奏される楽器は弦楽器でもよい。弦楽器が演奏される場合でも、演奏者の身体部位の位置を認識するための特徴点としては図5(a)、(b)で説明したものと同様であり、それら特徴点を用いて実施例1と同様の位置比較データ生成処理等を行うことができる。
 ただし、弦楽器が演奏される場合には、楽器を認識する処理が鍵盤楽器が演奏される場合とは異なる。図18のフローチャートは、演奏動画に含まれる弦楽器の演奏操作領域を認識してその位置を変換する位置変換処理を示している。図18の処理(ステップ1801~1805)は、鍵盤楽器に対応した図14の処理(ステップ1401~1405)における鍵盤領域を、弦楽器の演奏操作領域に置き換えたものに相当する。弦楽器の演奏操作領域は、弦を指で押さえる指板、弓を弦に当てる駒に近い弦の領域および弦を擦る弓を含む領域等である。
 本実施例でも、楽器認識部306により、演奏動画内の弦楽器の表板全体、弦全体または指板全体等を認識して演奏操作領域の位置を特定できればよい。具体的には、弦楽器の演奏操作領域の形状パターンを保持しておき、パターンマッチングで演奏操作領域の位置を認識させたり、機械学習による画像認識を用いて演奏操作領域の位置を認識させたりすることができる。また、弦楽器の所定位置に目印となるマーカを設けておき、演奏動画内のマーカを認識することによってことによって演奏操作領域の位置を特定させてもよい。さらに、演奏者に開放弦で演奏する音以外の特定の基準音を演奏させ、そのときの手指の位置を記録することで、楽器の演奏操作領域を認識させてもよい。また、演奏者が画像上で手動より指定した演奏操作領域を認識させてもよい。
 このようにして第1および第2の演奏動画内での演奏操作領域を合わせて演奏者の身体部位の位置も変換することで、位置比較データ、解説文章、解説動画および解説楽譜画像を生成することができるようになる。
 図19は、本実施例における表示画面400′(表示部26)での表示例を示している。ここでは、各演奏動画に右手で弓を持って弦楽器を演奏する演奏者が映っている場合の表示例を示している。位置比較データ表示部401aには、位置比較データから生成された、第1の演奏者と第2の演奏者のそれぞれの右脇の開き角の時間変化を示すグラフ(比較画像)が表示されている。また、位置比較データ表示部401bには、「右脇の開き角」を示す図と文が表示されている。上記グラフの横軸は、演奏動画内での時間を示し、縦軸は右脇の開き角を示している。破線は第1の演奏者の右脇の開き角を、実線は第2の演奏者の右手首の傾き角を示している。また、一点鎖線は、第2の演奏者の右脇の開き角から第1の演奏者の右脇の開き角を引いた値(差)を示している。さらにグラフ中には、第1の演奏者と第2の演奏者の右脇の開き角の差が大きい等の注目箇所を示す枠1902Bや解説動画の表示を静止させた時点を示す縦線1902Aも表示されている。
 文章表示部402には、位置比較データ表示部401aに表示された注目箇所に対応する時間と、第2の演奏者の右脇の開き角が第1の演奏者の右脇の開き角に対してどれだけの差異があるかをより具体的に解説する解説文章が表示されている。
 解説動画表示部403には、第1の演奏者の演奏動画に解説情報が重畳された解説動画1904と第2の演奏者の演奏動画に解説情報が重畳された解説動画1905のうち注目箇所に対応するフレームの静止画像が表示されている。第1の演奏者の解説動画と第2の解説動画にはそれぞれ、弦楽器1904A、1905Aとこれを演奏する演奏者1904B、1905Bの全体が映っている。さらにそれぞれの演奏者の右脇上には、右脇の開き角を示す解説情報1904C、1905Cが重畳表示されている。
 解説楽譜表示部404には、演奏動画内で演奏された楽曲の楽譜に、注目箇所に対応する演奏区間を示す解説楽譜情報としての枠1903Bが重畳された解説楽譜画像が表示されている。楽譜上には演奏動画を静止させた時点を示す縦線1903Aも表示されている。
 本実施例でも、第2の演奏者は、その演奏動作における第1の演奏者との差異、つまりは改善点を容易に認識または理解することができ、演奏技術を向上させることができる。
 なお、上記各実施例で説明した処理と同様の処理を、鍵盤楽器および弦楽器以外の楽器の演奏に適用してもよい。
(その他の実施例)
 本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
 以上説明した各実施例は代表的な例にすぎず、本発明の実施に際しては、各実施例に対して種々の変形や変更が可能である。
 

Claims (20)

  1.  同じ又は同種の楽器で同じ楽曲を演奏する第1の演奏者と第2の演奏者の身体部位がそれぞれ含まれる第1の動画データおよび第2の動画データを取得するステップと、
     前記第1の動画データから前記第1の演奏者の前記身体部位の位置を取得し、前記第2の動画データから前記第2の演奏者の前記身体部位の位置を取得するステップと、
     取得された前記位置を用いて、前記楽曲の同じ区間を演奏する前記第1および第2の演奏者の前記身体部位の比較を可能とする比較データを生成するステップとを有することを特徴とする処理方法。
  2.  前記比較データは、前記第1および第2の演奏者のそれぞれの前記身体部位の位置、角度、速度、加速度またはこれらの差を示すデータであることを特徴とする請求項1に記載の処理方法。
  3.  前記第1および第2の動画データは、撮像により生成された又は撮像によらずに生成された動画データであることを特徴とする請求項1または2に記載の処理方法。
  4.  前記第1の演奏者と前記第2の演奏者が同じ演奏者である場合を含むことを特徴とする請求項1または2に記載の処理方法。
  5.  前記比較データを生成する際に、前記第1および第2の動画データのうち少なくとも一方の動画データにおける音データを用いて、前記第1および第2の動画データのうち一方で指定された前記区間と同じ区間を他方の動画データにおいて特定するステップをさらに有することを特徴とする請求項1から4のいずれか一項に記載の処理方法。
  6.  前記比較データを生成する際に、前記第1および第2の動画データのうち少なくとも一方における音データを用いて、前記第1および第2の動画データにおける前記区間での演奏位置と演奏速度を合わせる処理を行うステップをさらに有することを特徴とする請求項1から5のいずれか一項に記載の処理方法。
  7.  前記比較データを生成する際に、前記第1および第2の動画データ内での前記楽器の演奏操作領域の位置と大きさを合わせる処理を行うステップをさらに有することを特徴とする請求項1から6のいずれか一項に記載の処理方法。
  8.  前記比較データに基づいて、前記比較のための数値およびグラフのうち少なくとも一方を含む比較画像を生成するステップをさらに有することを特徴とする請求項1から7のいずれか一項に記載の処理方法。
  9.  前記比較データに基づいて、前記比較のための文章を生成するステップをさらに有することを特徴とする請求項1から8のいずれか一項に記載の処理方法。
  10.  前記第1および第2の動画データに、前記比較データに基づいて得られる前記比較のための情報が付加された解説画像を生成するステップをさらに有することを特徴とする請求項1から9のいずれか一項に記載の処理方法。
  11.  前記楽曲の楽譜データに、前記比較データに基づいて得られる前記比較のための情報が付加された解説楽譜画像を生成するステップをさらに有することを特徴とする請求項1から10のいずれか一項に記載の処理方法。
  12.  前記比較データの生成に用いられる前記位置として、前記第1および第2の動画データのうち少なくとも一方の動画データに含まれていない前記身体部位の位置を、該少なくとも一方の動画データにおける音データを用いて取得するステップをさらに有することを特徴とする請求項1から11のいずれか一項に記載の処理方法。
  13.  前記身体部位は、手、指、手首、肘、肩および腰のうち少なくとも1つを含むことを特徴とする請求項1から12のいずれか一項に記載の処理方法。
  14.  前記身体部位の位置は、前記楽器の演奏操作領域に沿った面内での位置であることを特徴とする請求項1から13のいずれか一項に記載の処理方法。
  15.  前記身体部位の位置は、前記演奏操作領域に沿った面に直交する方向での位置を含むことを特徴とする請求項14に記載の処理方法。
  16.  前記楽器は、鍵盤楽器であることを特徴とする請求項1から15のいずれか一項に記載の処理方法。
  17.  前記比較データに基づいて生成された画像および文章のうち少なくとも1つを、前記比較を行うユーザが使用する端末装置に表示させるステップをさらに有することを特徴とする請求項1から16のいずれか一項に記載の処理方法。
  18.  コンピュータに、請求項1から17のいずれか一項に記載の処理方法に従う処理を実行させることを特徴とするプログラム。
  19.  同じ又は同種の楽器で同じ楽曲を演奏する第1の演奏者と第2の演奏者の身体部位がそれぞれ含まれる第1の動画データおよび第2の動画データを取得する動画データ取得手段と、
     前記第1の動画データから前記第1の演奏者の前記身体部位の位置を取得し、前記第2の動画データから前記第2の演奏者の前記身体部位の位置を取得する位置取得手段と、
     取得された前記位置を用いて、前記楽曲の同じ区間を演奏する前記第1および第2の演奏者の前記身体部位の比較を可能とする比較データを生成する生成手段と有することを特徴とする処理装置。
  20.  請求項19に記載の処理装置を利用して前記比較を行うユーザにより使用される端末装置であって、
     前記比較データに基づいて生成された画像および文章のうち少なくとも1つを表示する表示手段を有することを特徴とする端末装置。
PCT/JP2022/024693 2021-09-03 2022-06-21 処理方法、プログラムおよび処理装置 WO2023032422A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021143734A JP2023037162A (ja) 2021-09-03 2021-09-03 処理方法、プログラムおよび処理装置
JP2021-143734 2021-09-03

Publications (1)

Publication Number Publication Date
WO2023032422A1 true WO2023032422A1 (ja) 2023-03-09

Family

ID=85412042

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/024693 WO2023032422A1 (ja) 2021-09-03 2022-06-21 処理方法、プログラムおよび処理装置

Country Status (2)

Country Link
JP (1) JP2023037162A (ja)
WO (1) WO2023032422A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011087794A (ja) * 2009-10-23 2011-05-06 Sony Corp 動作関連演算装置、動作関連演算方法、プログラム、動作関連再生システム
JP2020046500A (ja) * 2018-09-18 2020-03-26 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム
WO2021090817A1 (ja) * 2019-11-07 2021-05-14 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011087794A (ja) * 2009-10-23 2011-05-06 Sony Corp 動作関連演算装置、動作関連演算方法、プログラム、動作関連再生システム
JP2020046500A (ja) * 2018-09-18 2020-03-26 ソニー株式会社 情報処理装置、情報処理方法および情報処理プログラム
WO2021090817A1 (ja) * 2019-11-07 2021-05-14 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP2023037162A (ja) 2023-03-15

Similar Documents

Publication Publication Date Title
US10629175B2 (en) Smart detecting and feedback system for smart piano
JP2020522763A (ja) モーションキャプチャされた仮想手を使用する拡張現実学習システムおよび方法
US20200251011A1 (en) Systems and methods for assisting a user in practicing a musical instrument
EP3759707B1 (en) A method and system for musical synthesis using hand-drawn patterns/text on digital and non-digital surfaces
WO2020059245A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Permana et al. Development of augmented reality (AR) based gamelan simulation with leap motion control
WO2019156091A1 (ja) 情報処理方法
Zlatintsi et al. A web-based real-time kinect application for gestural interaction with virtual musical instruments
WO2023032422A1 (ja) 処理方法、プログラムおよび処理装置
CN114170868A (zh) 智能钢琴训练的方法和***
US12014645B2 (en) Virtual tutorials for musical instruments with finger tracking in augmented reality
CN116386424A (zh) 一种用于音乐教学的方法、设备和计算机可读存储介质
MacRitchie Elucidating musical structure through empirical measurement of performance parameters
Thakar et al. Hand gesture controlled gaming application
CN117043847A (zh) 演奏解析方法、演奏解析***及程序
Antoshchuk et al. Creating an interactive musical experience for a concert hall
Zhang et al. A gesturally controlled virtual musical instruments for Chinese Guqin
Kerdvibulvech An innovative real-time mobile augmented reality application in arts
Norton Motion capture to build a foundation for a computer-controlled instrument by study of classical guitar performance
Hakim et al. Virtual guitar: Using real-time finger tracking for musical instruments
WO2023053632A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Hemery et al. Towards the design of a natural user interface for performing and learning musical gestures
Adhikari et al. Computer Vision Based Virtual Musical Instruments
Li et al. Research on virtual Guzheng based on Kinect
KR102430914B1 (ko) 가상현실 및 증강현실 컨텐츠 제공 시스템, 방법 그리고 컴퓨터 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22864010

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE