WO2024063360A1 - 전자 장치 및 그의 제어 방법 - Google Patents

전자 장치 및 그의 제어 방법 Download PDF

Info

Publication number
WO2024063360A1
WO2024063360A1 PCT/KR2023/012639 KR2023012639W WO2024063360A1 WO 2024063360 A1 WO2024063360 A1 WO 2024063360A1 KR 2023012639 W KR2023012639 W KR 2023012639W WO 2024063360 A1 WO2024063360 A1 WO 2024063360A1
Authority
WO
WIPO (PCT)
Prior art keywords
performance
note
sound
image
video
Prior art date
Application number
PCT/KR2023/012639
Other languages
English (en)
French (fr)
Inventor
이웅
이명준
김경환
김태훈
우지영
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2024063360A1 publication Critical patent/WO2024063360A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/091Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/015Musical staff, tablature or score displays, e.g. for score reading during a performance.
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/021Indicator, i.e. non-screen output user interfacing, e.g. visual or tactile instrument status or guidance information using lights, LEDs, seven segments displays
    • G10H2220/026Indicator, i.e. non-screen output user interfacing, e.g. visual or tactile instrument status or guidance information using lights, LEDs, seven segments displays associated with a key or other user input device, e.g. key indicator lights
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/096Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith using a touch screen

Definitions

  • This disclosure relates to an electronic device capable of playing video.
  • Electronic devices that can play video are used in a variety of applications, such as TVs, computers, smartphones, tablet PCs, and laptops.
  • the electronic device can simultaneously display a performance image and sheet music on the display in order to effectively convey how to play a musical instrument.
  • a method of controlling an electronic device capable of reproducing an image includes the steps of acquiring a performance image of a musical instrument and sheet music related to the performance image, analyzing the audio of the obtained performance image to select one of the scores of the score. Identifying a performance section that matches the performance image, matching and storing a plurality of image frames included in the performance image with a performance section of the score, when a first note is selected among the performance sections of the score, It includes identifying an image frame corresponding to the first note among a plurality of image frames, and playing the performance image on a display starting from the identified image frame.
  • An electronic device capable of reproducing images includes a memory capable of storing images and music scores, a display capable of displaying images and music scores, and a processor.
  • the processor obtains a performance image of a musical instrument being played and sheet music related to the performance image.
  • the processor analyzes the audio of the acquired performance image and identifies a performance section among the scores that matches the performance image.
  • the processor matches and stores a performance section of the score with a plurality of image frames included in the performance image. When a first note is selected from a performance section of the score, the processor identifies an image frame corresponding to the first note among the plurality of image frames, and reproduces the performance image on the display starting from the identified image frame.
  • a non-transitory computer-readable medium that stores computer instructions that perform operations of an electronic device when executed by a memory capable of storing music scores, a display capable of displaying images and scores, and a processor according to an embodiment of the present disclosure.
  • FIG. 1 is a diagram for explaining an electronic device according to an embodiment of the present disclosure
  • FIG. 2 is a block diagram for explaining the configuration of an electronic device according to an embodiment of the present disclosure
  • Figure 3 is a diagram for explaining matching between an image and sheet music according to an embodiment of the present disclosure
  • FIG. 4 is a diagram illustrating identifying the starting note of a performance section corresponding to an image according to an embodiment of the present disclosure
  • Figure 5 is a diagram for explaining the matching result between an image and sheet music according to an embodiment of the present disclosure
  • Figure 6 is a diagram illustrating the result of matching an image and sheet music by selecting a note according to an embodiment of the present disclosure
  • FIG. 7 is a flowchart illustrating a method for generating sheet music according to an embodiment of the present disclosure
  • FIGS. 8 to 11 are diagrams for explaining a method of generating sheet music according to an embodiment of the present disclosure.
  • FIG. 12 is a block diagram for explaining the detailed configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 13 is a flowchart for explaining a control method of an electronic device according to an embodiment of the present disclosure.
  • Figure 14 is a sequence diagram for explaining a method of controlling an electronic device and a server according to an embodiment of the present disclosure.
  • expressions such as “have,” “may have,” “includes,” or “may include” refer to the presence of the corresponding feature (e.g., component such as numerical value, function, operation, or part). , and does not rule out the existence of additional features.
  • expressions such as “A or B,” “at least one of A or/and B,” or “one or more of A or/and B” may include all possible combinations of the items listed together.
  • “A or B,” “at least one of A and B,” or “at least one of A or B” includes (1) at least one A, (2) at least one B, or (3) it may refer to all cases including both at least one A and at least one B.
  • a component e.g., a first component
  • another component e.g., a second component
  • any component may be directly connected to the other component or may be connected through another component (e.g., a third component).
  • a component e.g., a first component
  • another component e.g., a second component
  • no other component e.g., a third component
  • the expression “configured to” used in the present disclosure may mean, for example, “suitable for,” “having the capacity to,” depending on the situation. ,” can be used interchangeably with “designed to,” “adapted to,” “made to,” or “capable of.”
  • the term “configured (or set to)” may not necessarily mean “specifically designed to” in hardware.
  • the expression “a device configured to” may mean that the device is “capable of” working with other devices or components.
  • the phrase "processor configured (or set) to perform A, B, and C" refers to a processor dedicated to performing the operations (e.g., an embedded processor), or by executing one or more software programs stored on a memory device.
  • a 'module' or 'unit' performs at least one function or operation, and may be implemented as hardware or software, or as a combination of hardware and software. Additionally, a plurality of 'modules' or a plurality of 'units' may be integrated into at least one module and implemented with at least one processor, except for 'modules' or 'units' that need to be implemented with specific hardware.
  • FIG. 1 is a diagram for explaining an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may be implemented in various forms and purposes.
  • the electronic device 100 may be implemented in the form of a TV, desktop computer, laptop computer, smartphone, tablet PC, etc.
  • the electronic device 100 may be used as an auxiliary device for playing a musical instrument.
  • a user of the electronic device 100 can learn how to play through a performance image of a musical instrument displayed on the display 120 and sheet music related to the performance image.
  • the electronic device 100 can display an image of a musical instrument being played.
  • the video of a musical instrument being played may be the original song of the song to be played, an arranged song, or an video of a plurality of instruments being played.
  • a video of a musical instrument being played may be comprised of multiple frames.
  • the electronic device 100 may store metadata for each of a plurality of frames.
  • the electronic device 100 contains metadata of such video frames, including information related to the audio included in the video, the producer, and language, as well as, in the case of a performance video, the notes of the score corresponding to the part played in the video frame in the form of an index. It can be saved as .
  • the electronic device 100 stores the notes of the score in the form of an index, which means that the notes displayed in order for a plurality of notes included in the score related to the performance video are numbered, and then the notes corresponding to the performance video frame are numbered. It may mean storing a number.
  • the electronic device 100 may display music scores related to a performance video.
  • the score related to the performance video may be the original score of the song to be performed, the score of a song arranged from the original song, or the score related to a plurality of instruments.
  • the electronic device 100 generates a score related to the performance image based on the video and audio played in the performance image, and here, generating the score related to the performance means that the electronic device 100 uses the audio and the audio of the performance image.
  • generating the score related to the performance means that the electronic device 100 uses the audio and the audio of the performance image.
  • Figure 2 is a block diagram for explaining the configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes a memory 110, a display 120, and a processor 130.
  • the memory 110 temporarily or non-temporarily stores various programs or data, and transmits the stored information to the processor 130 according to a call from the processor 130. Additionally, the memory 110 can store various information necessary for calculation, processing, or control operations of the processor 130 in an electronic format.
  • the memory 110 may include, for example, at least one of a main memory and an auxiliary memory.
  • the main memory may be implemented using semiconductor storage media such as ROM and/or RAM.
  • ROM may include, for example, conventional ROM, EPROM, EEPROM, and/or MASK-ROM.
  • RAM may include, for example, DRAM and/or SRAM.
  • Auxiliary storage devices include flash memory devices, SD (Secure Digital) cards, solid state drives (SSDs), hard disk drives (HDDs), magnetic drums, compact disks (CDs), and DVDs. ) or an optical recording medium such as a laser disk, magnetic tape, magneto-optical disk, and/or floppy disk, etc. may be implemented using at least one storage medium capable of permanently or semi-permanently storing data.
  • the memory 110 may store at least one instruction related to the electronic device 100. Additionally, an operating system (O/S) for driving the electronic device 100 may be stored in the memory 110 . Additionally, the memory 110 may store various software programs or applications for operating the electronic device 100 according to various embodiments of the present disclosure. Additionally, the memory 110 may include volatile memory such as a frame buffer, semiconductor memory such as flash memory, or magnetic storage media such as a hard disk.
  • O/S operating system
  • the memory 110 may include volatile memory such as a frame buffer, semiconductor memory such as flash memory, or magnetic storage media such as a hard disk.
  • the memory 110 may store various software modules for operating the electronic device 100 according to various embodiments of the present disclosure, and the processor 130 may execute various software modules stored in the memory 110.
  • the operation of the electronic device 100 can be controlled. That is, the memory 110 is accessed by the processor 130, and the processor 130 can read/write/modify/delete/update data.
  • memory 110 refers to memory 110, ROM (not shown), RAM (not shown) in the processor 130, or a memory card (not shown) mounted on the electronic device 100 (e.g. For example, it can be used to mean including micro SD card, memory stick).
  • the memory 110 can store an image of a musical instrument being played.
  • the musical instruments may include string instruments, wind instruments, percussion instruments, keyboard instruments, electronic instruments, etc., such as guitar, violin, cello, contra bass, etc.
  • the memory 110 may store a performance image of at least one musical instrument.
  • a performance video may be an image of two or more guitars being played, or an image of string instruments and percussion instruments being played simultaneously.
  • the memory 110 may store a plurality of frames constituting an image of a musical instrument being played. For example, in the case of a 1-minute video stored at 60 frames per second, the memory 110 can store 3600 frames.
  • the memory 110 is information about a plurality of frames that make up an image of a musical instrument performance, and can store metadata for each frame. For example, in the case of a 1-minute video stored at 60 frames per second, the memory 110 can store 3600 pieces of metadata.
  • the memory 110 can store information related to audio included in the video, producer, language, etc.
  • the memory 110 may correspond to a plurality of frames constituting an image of a musical instrument performance and store metadata containing information related to the corresponding performance.
  • information related to performance may include the pitch of the played note, the length of the note, or the index of the note in the score.
  • the fact that the notes of the score can be stored as an index means that the memory 110 numbers the notes displayed in order for a plurality of notes included in the score related to the performance video, and then numbers the notes corresponding to the performance video frame. It may mean that the number is saved.
  • the memory 110 may store the index '1' of the first note of the score corresponding to the first note played in the video of the instrument being played. That is, the memory 110 can store the index '1' of the first note of the score as metadata of the first frame of the video of the instrument being played.
  • the memory 110 may store music scores related to an image of a musical instrument being played.
  • the score related to the performance video may be the original score of the song to be performed, the score of a song arranged from the original song, or the score related to a plurality of instruments.
  • the memory 110 may store music scores related to a performance image of at least one instrument.
  • the memory 110 can store music that can be played by two or more guitars, or music that can be played by string instruments and percussion instruments at the same time.
  • the display 120 includes a liquid crystal display (LCD) panel, an organic light emitting diode (OLED) panel, an active-matrix organic light-emitting diode (AM-OLED), a liquid crystal on silicon (LcoS), and a quantum dot light-emitting diode (QLED). It may include, but is not limited to, various types of display panels such as Emitting Diode (DLP), Digital Light Processing (DLP), PDP (Plasma Display Panel) panels, inorganic LED panels, and micro LED panels. Meanwhile, the display 120 may form a touch screen together with a touch panel, or may be made of a flexible panel.
  • LCD liquid crystal display
  • OLED organic light emitting diode
  • AM-OLED active-matrix organic light-emitting diode
  • LcoS liquid crystal on silicon
  • QLED quantum dot light-emitting diode
  • It may include, but is not limited to, various types of display panels such as Emitting Diode (DLP
  • the display 120 can display various information.
  • the display 120 may be implemented as a liquid crystal display (LCD), etc., and may also be implemented as a touch screen that can simultaneously perform the function of an input interface.
  • LCD liquid crystal display
  • the display 120 can display an image.
  • the display 120 can display an image of a musical instrument being played.
  • the musical instruments may include string instruments, wind instruments, percussion instruments, keyboard instruments, electronic instruments, etc., such as guitar, violin, cello, contra bass, etc.
  • the display 120 may display a performance image of at least one musical instrument.
  • a performance video may be an image of two or more guitars being played, or an image of string instruments and percussion instruments being played simultaneously.
  • the display 120 can simultaneously display an image of a musical instrument performance and sheet music related to the performance.
  • the display 120 may display the performance score corresponding to the performance image played at the same time as the performance image of the instrument is played.
  • the display 120 may display a performance association corresponding to the note. Additionally, when a random position of the play bar corresponding to the performance image is selected by the user, the display 120 may display the performance image corresponding to the resolution location and the music score corresponding to the performance image.
  • the processor 130 controls the overall operation of the electronic device 100.
  • the processor 130 is connected to the configuration of the electronic device 100 including the memory 110 as described above, and executes at least one instruction stored in the memory 110 as described above, thereby controlling the electronic device ( 100) operations can be controlled overall.
  • the processor 130 may be implemented not only as one processor 130 but also as a plurality of processors 130.
  • Processor 130 may be implemented in various ways.
  • the processor 130 may include an application specific integrated circuit (ASIC), an embedded processor, a microprocessor, hardware control logic, a hardware finite state machine (FSM), and a digital signal processor.
  • ASIC application specific integrated circuit
  • FSM hardware finite state machine
  • DSP digital signal processor
  • the processor 130 includes a central processing unit (CPU), a micro controller unit (MCU), a micro processing unit (MPU), a controller, and an application processor that process digital signals. It may include one or more of a processor (AP), a communication processor (CP), or an ARM processor, or may be defined by that term. Additionally, the processor 130 may be implemented as a System on Chip (SoC) with a built-in processing algorithm, large scale integration (LSI), or may be implemented in the form of a Field Programmable Gate Array (FPGA). The processor 130 may perform various functions by executing computer executable instructions stored in the memory 110. In addition, in order to perform artificial intelligence functions, the processor 130 may include at least one of a separate AI-specific processor: GPU (graphics-processing unit), NPU (Neural Processing Unit), and VPU (Visual Processing Unit). there is.
  • GPU graphics-processing unit
  • NPU Neurological Processing Unit
  • VPU Visual Processing Unit
  • the processor 130 may obtain a performance image of an instrument being played and sheet music related to the performance image.
  • acquiring a performance image of a musical instrument may mean that the processor 130 may receive a performance image of the instrument through a communication interface, or obtain a performance image of the instrument by filming the performance of the instrument through a camera.
  • the processor 130 can obtain sheet music related to a performance through a communication interface, or obtain sheet music related to a performance by generating a sheet music from a performance video of a musical instrument.
  • the processor 130 can separate the video and audio of the instrument performance image and generate sheet music from each video and audio.
  • 3 to 6 are diagrams for explaining matching between an image and a musical score according to an embodiment of the present disclosure.
  • the processor 130 may identify a performance section 310 of the score 300 that matches the performance image by analyzing the audio of the acquired performance image.
  • the processor 130 may convert the audio of the performance image into a frequency signal in order to analyze the audio of the acquired performance image.
  • the processor 130 may separate video and audio to analyze the audio of the performance video.
  • the video may include only video information excluding audio from the performance video
  • the audio may include only sound information excluding video information from the performance video.
  • the processor 130 may use Fourier Transformation (Fourier Transformation), Fast Fourier Transform (FFT), etc. on the audio data.
  • the processor 130 can analyze the audio by converting audio data in the time domain to the frequency domain using such FFT or the like.
  • the processor 130 may obtain information about a plurality of sounds included in audio based on the frequency signal converted in this way.
  • information about a plurality of sounds included in the audio may be melody, rhythm, and harmony that make up the performance.
  • information about multiple notes includes the pitch, length, accent, tempo, dynamic, agogic, and phrase of the notes that make up the multiple notes. (Phrase), tone, etc. may be included.
  • the processor 130 may determine the frequency with the highest power as the sound level in the converted frequency signal.
  • the processor 130 may determine the sound length based on the time that progresses in the time domain of the frequency determined as the sound height. Additionally, when there is more than one sound played at a certain point in time, the processor 130 may distinguish between frequencies corresponding to one sound and frequencies corresponding to other sounds in the converted frequency domain. That is, the processor 130 can distinguish between the frequency with the highest power and the frequency with the second highest power based on a preset frequency deviation value. Accordingly, the processor 130 can obtain information about the two sounds at that point in time.
  • the processor 130 may identify a performance section 310 of the score 300 that matches the image based on the acquired information about the plurality of sounds.
  • the score 300 may be the original score of the song being played, the score of a song arranged from the original song, or the score related to a plurality of instruments. Additionally, the sheet music 300 may be the entire sheet music of the song being played or a partial sheet music of the whole song.
  • the processor 130 may determine at least one note that corresponds to the pitch of the first sound acquired among the plurality of notes included in the score 300.
  • the first sound may be the first sound acquired among a plurality of sounds obtained by the processor 130 from the performance image.
  • the first sound is information about the sound and may include the pitch, length, stress, tempo, softness, tempo, passage, tone, etc. Additionally, when it includes harmony, the first sound may include one or more pitches.
  • the processor 130 may determine at least one note corresponding to the pitch of the first sound.
  • the processor 130 may identify the height of the note according to the progression order of the notes in the score 300 and determine the note that matches the height of the first note. For example, if the height of the obtained first note is 'degree', the processor 130 may determine the note of the score 300 that matches 'degree'.
  • determining the pitch of the note of the score 300 may be determined by artificial intelligence or machine learning.
  • the processor 130 may determine a note corresponding to the length of the first sound among at least one note corresponding to the pitch of the first sound.
  • the processor 130 may have one or more notes of the score 300 that match the pitch of the first note.
  • the processor 130 may determine the note of the score 300 that matches the length of the first note.
  • the processor 130 may have the height of the first note obtained as 'degree', and there may be two notes in the score that match 'degree'.
  • the processor 130 can determine the note of the score that matches the half note 'do'.
  • the processor 130 may identify the note corresponding to the determined length of the first note as the start note of the performance section 310. That is, the processor 130 may identify the note of the score 300 that matches the height and length of the first note as the start note of the performance section 310.
  • the processor 130 determines the performance section 310 played in the score 300 by considering information about the note played in the performance image, the length of the image, etc. can be identified.
  • the processor 130 can determine which part of the score 300 it corresponds to.
  • the processor 130 may determine a second sound identified after the first sound among the plurality of sounds in the performance image. That is, when there are two or more notes in the score 300 that match both the height and length of the first note, the processor 130 uses the second note to identify which partial performance section of the score 300 the performance image is. Information about sound can be determined.
  • the information about the second sound is a sound acquired after the first sound identified by the processor 130 and may include the pitch, length, stress, speed, strength and softness, tempo, passage, tone, etc. . Additionally, when it includes harmony, the second sound may include one or more pitches.
  • the processor 130 selects a note corresponding to the second note based on the height of the second note and the length of the second note among the notes following the plurality of notes corresponding to the height and length of the first note. can be judged. That is, the processor 130 may determine the performance section 310 by determining the notes of the score 300 that match the first and second notes played continuously in the image.
  • the processor 130 can match a plurality of image frames included in the performance image with the performance section 310 of the score and store them.
  • the processor 130 may obtain a plurality of frames including a performance image corresponding to the performance section 310 of the identified score. For example, in the case of a 1-minute video stored at 60 frames per second, the processor 130 can obtain 3600 frames included in the performance video.
  • the processor 130 may store information about a plurality of notes in the performance section 310 corresponding to the plurality of frames obtained in this way in the memory 110.
  • information about a plurality of notes may include melody, rhythm, and harmony that make up the score. That is, information about a plurality of notes may include the pitch, length, stress, tempo, strength and softness, tempo, passage, tone, etc. of the notes constituting the plurality of notes.
  • Information about a plurality of notes may include not only information about the notes themselves, but also an index of what position the note corresponds to in the score.
  • the processor 130 may store information about a plurality of notes in the study section 310 corresponding to a plurality of frames in the memory 110 in the form of metadata. For example, in the case of a 1-minute video stored at 60 frames per second, the processor 130 can store 3600 pieces of metadata corresponding to 3600 frames in the memory 110.
  • the processor 130 may store information about a plurality of notes in the performance section 310, such as the pitch of the note, the length of the note, or the index of the note of the score, in the memory 110.
  • the fact that the index of the note of the score can be stored in the memory 110 means that the processor 130 numbers the notes displayed in order for a plurality of notes included in the score related to the performance image, and then frames the performance image. This may mean that the number of the note corresponding to is stored in the memory 110.
  • the processor 130 may set the index of the first note of the score corresponding to the first note played in the video of the instrument being played as '1' and store it in the memory 110. Additionally, the processor 130 may set the index of the second note of the score corresponding to the second note played in the instrument performance image as '2' and store it in the memory 110.
  • the processor 130 can sequentially number the indexes of notes progressing in the score and store them in the memory 110 as metadata of a plurality of frames of a video of a musical instrument being played.
  • FIG. 4 is a diagram illustrating a method of identifying the starting note of a performance section when a plurality of notes in the score 400 corresponding to the first sound of the image are identified in an embodiment of the present disclosure.
  • the processor 130 may identify the starting note of the performance section among a plurality of notes corresponding to the height of the first note of the performance image. Here, if there is more than one note that matches the height of the first note played in the image, the processor 130 may determine the note of the score 400 that matches the length of the first note.
  • the processor 130 determines that the obtained first note height is 'Rerare (Dm)', and there are three notes (411, 412, 412, 413).
  • the processor 130 can determine the note of the score 400 that matches 'Rerare (Dm)', which is one beat and a half. there is.
  • the processor 130 may determine the second sound identified after the first sound among the plurality of sounds in the performance image. That is, if there are two or more notes (421, 422) of the score 400 that match both the height and length of the first note, the processor 130 selects the starting note of a certain performance section in the score 400. The second sound can be judged to identify it.
  • the processor 130 selects a note corresponding to the second note based on the height of the second note and the length of the second note among the notes following the plurality of notes corresponding to the height and length of the first note. can be judged. That is, the processor 130 may determine the performance section 431 by determining the notes of the score that match the first and second notes played continuously in the image.
  • the processor 130 determines the third note identified after the second note to identify the starting note of the performance section 431. can do. That is, the processor 130 can identify the notes of the score 400 that correspond to the first to third sounds played continuously and identify the start note of the performance section 431.
  • the processor 130 may identify the performance section 431 played in the score 400 by considering information about the sound played in the performance image, the length of the image, etc., based on the identified start note.
  • the processor 130 may store information about a plurality of notes in the performance section 431 corresponding to the plurality of frames obtained in this way in the memory 110.
  • information about a plurality of notes may include melody, rhythm, and harmony that make up the score. That is, information about a plurality of notes may include the pitch, length, stress, tempo, strength and softness, tempo, passage, tone, etc. of the notes constituting the plurality of notes.
  • Information about a plurality of notes may include not only information about the notes themselves, but also an index of what position the note corresponds to in the score.
  • the processor 130 may store information about a plurality of notes in the study section 431 corresponding to a plurality of frames in the memory 110 in the form of metadata. For example, in the case of a 1-minute video stored at 60 frames per second, the processor 130 can store 3600 pieces of metadata corresponding to 3600 frames in the memory 110.
  • the processor 130 may store information about a plurality of notes in the performance section 431, such as the pitch of the note, the length of the note, or the index of the note of the score, in the memory 110.
  • the fact that the index of the note of the score can be stored in the memory 110 means that the processor 130 numbers the notes displayed in order for a plurality of notes included in the score related to the performance image, and then frames the performance image. This may mean that the number of the note corresponding to is stored in the memory 110.
  • the processor 130 may set the index of the first note of the score corresponding to the first note played in the video of the instrument being played as '1' and store it in the memory 110. Additionally, the processor 130 may set the index of the second note of the score corresponding to the second note played in the video of the instrument being played as '2' and store it in the memory 110.
  • the processor 130 can sequentially number the indexes of notes progressing in the score and store them in the memory 110 as metadata of a plurality of frames of a video of a musical instrument being played.
  • Figure 5 is a diagram for explaining the matching result between an image and sheet music according to an embodiment of the present disclosure.
  • the processor 130 displays a performance image 520 of the instrument, a playback bar 530 of the performance image, and a performance section 510 matching the performance image 520 of the instrument on the display 120. can do.
  • the processor 130 may control the display 130 so that the play bar 530 moves from left to right while the instrument performance image 520 is played.
  • the processor 130 may simultaneously display the instrument performance section 510 that matches the instrument performance image 520 on the display 120 while the instrument performance image 520 is played.
  • the processor 130 can control the entire score of the performance section 510 to be displayed or a portion of the score to be displayed on the display 120.
  • the processor 130 may display a portion of the performance image 520 that corresponds to the currently played performance portion in the form of a bar 512 in the performance section 510 .
  • the processor 130 may display it in the form of a bar 512 as an indication to emphasize 'Padopara' corresponding to the first note of the performance section 510. You can.
  • Figure 6 is a diagram for explaining the result of matching an image and sheet music by selecting a note according to an embodiment of the present disclosure.
  • the processor 130 identifies an image frame corresponding to the first note 615 among a plurality of image frames, and the identified image frame
  • the performance video 620 can be played on the display 120.
  • the first note 615 may be any note within the performance section 610 of the score. That is, the first note 615 may be a note corresponding to one system name, or may be multiple system names forming multiple harmonies.
  • the processor 130 may identify the image frame corresponding to the first note 615 among the plurality of image frames.
  • being able to identify the image frame corresponding to the first note 615 may mean that the processor 130 identifies the image frame in which the index of the first note 615 is stored as metadata from a plurality of image frames. there is.
  • the processor 130 may reproduce the performance video 620 on the display 120 starting from the identified video frame. That is, the processor 130 can reproduce the performance video 620 starting from the video frame corresponding to the identified first note 615.
  • the processor 130 may play the display 120 starting from the first frame among the frames.
  • the processor 130 identifies the video frame corresponding to the first position, and starts the performance video 620 from the identified video frame. can be played and the music score 610 corresponding to the identified video frame can be displayed.
  • the processor 130 can identify which frame the image frame corresponding to the first position is. Afterwards, the processor 130 may play the performance video 620 starting from the identified video frame. At the same time, the processor 130 may display the music score 610 corresponding to the identified image frame on the display 120.
  • Figure 7 is a flowchart for explaining a method for generating sheet music according to an embodiment of the present disclosure
  • Figures 8 to 11 are diagrams for explaining a method for generating sheet music according to an embodiment of the present disclosure.
  • the musical instrument according to an embodiment of the present disclosure may be any one of string instruments such as a violin, cello, or double bass.
  • string instruments such as a violin, cello, or double bass.
  • the case where the instrument is a guitar among string instruments is explained.
  • the performance video can be separated into video and audio (S701).
  • Performance videos generally consist of video and audio, and video data and audio data can be processed separately.
  • video data and audio data correspond to distinct data. Therefore, since video data processing and audio data processing are performed independently, video data processing and audio data processing do not affect each other.
  • the processor 130 may separate the performance image 800 into video 810 and audio 820.
  • the video 810 is obtained by extracting only the video excluding the audio from the performance video 800, and the audio 820 corresponds to sound data according to the time when the video was removed from the performance video 800.
  • a plurality of sounds including the pitch and length of the audio can be obtained (S702).
  • the audio corresponds to the sound of an instrument being played, and the audio may include rhythm, melody, and harmony.
  • a plurality of sounds can be obtained including the pitch and sound length included in the audio.
  • step S702 can convert audio into a frequency domain.
  • audio corresponding to the time domain can be converted to the frequency domain, and the pitch can be determined based on the first frequency with the highest power in the frequency domain of the audio. Additionally, the sound length can be determined based on the duration of the first frequency.
  • a plurality of sounds may be included.
  • the processor 130 may convert audio 820 in the time domain to the frequency domain 821.
  • the processor 130 may determine the first frequency 822, which has the highest power in the frequency domain 821, as the pitch.
  • the processor 130 may determine the sound length of the first frequency 822 based on the duration of the first frequency 822.
  • the second frequency with the second highest power in the frequency range of the audio can be determined.
  • the processor 130 may determine a second frequency 823 that is determined to be in harmony with the first frequency 822 and has less power than the first frequency 822 . That is, the processor 130 can obtain the pitch and length of the second frequency. The processor 130 may determine the frequency with the next highest power after the first frequency 822 as the second frequency 823. Here, the processor 130 may determine the second frequency 823 based on the frequency shift 826 value.
  • the processor 130 may determine the frequency with the next highest power after the second frequency 823 as the third frequency 824 and obtain the sound pitch and sound length of the third frequency 824.
  • the processor 130 may determine that a frequency below the preset standard 827 is not a frequency that is in harmony with the first frequency 822. Even if the fourth frequency 325, which has the next highest power after the third frequency 824, is determined in the frequency domain, the processor 130 matches the first frequency 822 and harmony because it falls below the preset standard 827. It can be judged by noise rather than frequency.
  • the criteria for determining noise in this way corresponds to an example and is not limited thereto.
  • Step S703 identifies the fret board of the guitar, distinguishes the fret board into first to fifth sections, and then determines whether the guitar's grip position is located in at least one of the first to fifth sections. there is.
  • the processor 130 may identify the guitar's fret board 820 in the separated performance image 810.
  • the processor 130 may identify the guitar's fret board 820 in the performance video 810 using artificial intelligence or machine learning.
  • the processor 130 may distinguish the fret board 820 into first to fifth sections.
  • the processor 130 can distinguish sections of the fret board 820 based on the fact that the area of the fret area of the fret board 820 is regularly reduced. Alternatively, the processor 130 may distinguish sections of the frat board 820 by identifying lines that separate the frat areas. Distinguishing the sections of the fret board 820 in this way corresponds to an example and is not limited thereto.
  • the processor 130 may distinguish the flat board 820 into first to fifth sections 831, 832, 833, 834, and 835.
  • frets 1 to 4 are the first section
  • frets 5 to 9 are the 2nd section
  • frets 10 to 14 are the 3rd section
  • frets 15 to 19 are the 4th section
  • frets 20 and up are used in the 4th section.
  • the processor 130 divides them into the first to fifth sections (831, 832, 833, 834, 835). can do.
  • the processor 130 may distinguish the fret board 820 in another way by considering the method of determining the grip position of the guitar, the shape and shape of the guitar, etc.
  • step S703 it may be determined whether the guitar grip position is located in at least one of the first to fifth sections (831, 832, 833, 834, and 835).
  • the performance image 810 includes a scene where the player of the instrument holds the instrument to produce a specific sound.
  • the sound played may be determined depending on which fret the guitar player holds among the fret boards 820 of the guitar. For example, if the player holds the 3rd string on the 5th fret, the note played corresponds to the 'do' of 262 Hz, but if the player holds the 5th string on the 3rd fret, the note played is 131 Hz. It corresponds to ‘do’.
  • the processor 130 can determine the pitch of the sound for generating sheet music.
  • the processor 130 determines whether the pitch of the sound is obtained from the audio not only when the grip position of the guitar is accurately determined, but also when the grip position is roughly determined. If the pitch of the sound is obtained from the audio not only when the grip position of the guitar is accurately determined, but also when the grip position is roughly determined, the processor 130 generates sheet music based on the acquired sound and the grip position of the guitar. You can do it (S704).
  • the processor 130 may determine that the height of the sound obtained from the audio is 122 Hz and that the guitar grip position is one of frets 1 to 3. In this case, the processor 130 may determine that among the plurality of notes that can be played on frets 1 to 3, the pitch corresponds to 'poem', which is 123 Hz, which is close to 122 Hz. In this way, the processor 130 can generate the score of the performance video 810 by adding the key name 'si' note corresponding to the 'si' pitch of 123 Hz of the 2nd fret to the score.
  • the processor 130 can generate a TAB score using score representing guitar strings.
  • TAB score represents the guitar strings with six lines by adding a line to the staff, and indicates the guitar string and fret number corresponding to the pitch to be played. For example, if you hold the 5th string of the 3rd fret, you can play the note corresponding to 'do'. If this is expressed in tab notation, '3' is displayed on the 5th line of the tab notation to indicate what It can indicate whether the frets and strings should be held. This type of tab score can be displayed together with the general five-line score.
  • the processor 130 may determine that the height of the sound obtained from the audio is 122 Hz and that the guitar grip position is one of frets 1 to 3.
  • the processor 130 can determine that among the plurality of notes that can be played on frets 1 to 3, the sound corresponds to 'poem' whose height is 123 Hz, which is close to 122 Hz.
  • the processor 130 can generate a tab score by displaying '2' on the 5th line of the tab score for the 5th string of the 2nd fret corresponding to 'poem' of 123 Hz.
  • the processor 130 may determine whether the guitar's grip position is located in at least one of the first to fifth sections 831, 832, 833, 834, and 835 and generate music scores.
  • the processor 130 may determine that the height of the sound obtained from the audio is 122 Hz and that the guitar grip position is one of frets 1 to 3. In this case, the processor 130 may determine that the guitar's gripping position grasps the first section 831 including frets 1 to 3. Additionally, the processor 130 may determine that, among a plurality of sounds that can be played in the first section 831, the sound level corresponds to 'poem', which is 123 Hz, which is close to 122 Hz. In this way, the processor 130 can generate the score of the performance image 810 by adding the 'si' sound pitch of 123 Hz within the first section 831 and the corresponding key name 'si' note to the score. In addition, the processor 130 may generate tab score by displaying '2' on the 5th line of the tab score for the 5th string of the 2nd fret corresponding to 'poetry' of 123 Hz.
  • the processor 130 can generate music scores for one or more notes.
  • the processor 130 may determine that the sound heights obtained from the audio are 122 Hz and 296 Hz, and that the guitar grip position is two of frets 1 to 3. In this case, the processor 130 may determine that the guitar's gripping position grasps the first section 831 including frets 1 to 3. In addition, the processor 130 determines that among the plurality of sounds that can be played in the first section 831, the sound height corresponds to 'time' of 123 Hz, which is close to 122 Hz, and that the sound height of 294 Hz, which is close to 296 Hz, is 123 Hz, which is close to 122 Hz. It can be determined that it corresponds to 'Le'.
  • the processor 130 scores the note name 'Si' corresponding to the pitch of 'Si' of 123 Hz and the note of 'Re' of the system name corresponding to the pitch of 'Re' of 294 Hz within the first section 831.
  • the score of the performance video 810 can be generated.
  • the processor 130 displays '2' on the 5th line of the tab score for the 5th string of the 2nd fret corresponding to 'si' of 123 Hz and the string of the 3rd fret corresponding to 're' of 294 Hz. You can create a tab score by marking '3' on the second line of the tab score for the 2nd string.
  • Figure 12 is a block diagram for explaining the detailed configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes a memory 110, a display 120, a processor 130, an input interface 140, a microphone 150, a sensor 160, a speaker 170, It may include a dongshin interface 180 and a camera 190.
  • a memory 110 As shown in FIG. 12, the electronic device 100 includes a memory 110, a display 120, a processor 130, an input interface 140, a microphone 150, a sensor 160, a speaker 170, It may include a dongshin interface 180 and a camera 190.
  • the input interface 140 includes a circuit and can receive user commands for setting or selecting various functions supported by the electronic device 100.
  • the input interface 140 may include a plurality of buttons and may be implemented as a touch screen that can simultaneously perform the display function.
  • the processor 130 may control the operation of the electronic device 100 based on a user command input through the input interface 140.
  • the processor 143 operates the electronic device 100 based on an on/off command for the electronic device 100 input through the input interface 140, an on/off command for a function of the electronic device 100, etc. can be controlled.
  • the microphone 150 may refer to a module that acquires sound and converts it into an electrical signal, and may be a condenser microphone, ribbon microphone, moving coil microphone, piezoelectric element microphone, carbon microphone, or MEMS (Micro Electro Mechanical System) microphone. Additionally, it can be implemented in omni-directional, bi-directional, uni-directional, sub-cardioid, super-cardioid, and hyper-cardioid ways.
  • the sensor 160 may obtain various information related to the electronic device 100.
  • the sensor 160 may include a GPS capable of obtaining location information of the electronic device 100, and a biometric sensor (e.g., heart rate sensor) for acquiring biometric information of a user using the electronic device 100. , PPG sensor, etc.), a motion sensor for detecting movement of the electronic device 100, and the like.
  • a biometric sensor e.g., heart rate sensor
  • PPG sensor PPG sensor, etc.
  • a motion sensor for detecting movement of the electronic device 100, and the like.
  • Speaker 170 can output audio. Specifically, the processor 130 may output various notification sounds or voice guidance messages related to the operation of the electronic device 100 through the speaker 170.
  • the communication interface 180 includes a circuit and can perform communication with an external device.
  • the processor 130 may receive various data or information from an external device connected through the communication interface 180, and may also transmit various data or information to the external device.
  • the camera 190 can capture still images and moving images.
  • the camera 190 may include one or more lenses, an image sensor, an image signal processor, or a flash.
  • FIG. 13 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • An electronic device may include a display capable of reproducing images.
  • a performance video of the instrument being played and sheet music related to the performance video can be obtained (S1301).
  • the audio of the acquired performance video can be analyzed to identify a performance section that matches the performance video in the score (S1302).
  • the performance section of the score can be matched with a plurality of video frames included in the performance video and stored (S1303).
  • the image frame corresponding to the first note among the plurality of image frames is identified, and the performance image can be played on the display starting from the identified image frame (S1304).
  • step S1302 may determine at least one note corresponding to the height of the first sound acquired among the plurality of notes included in the score.
  • the electronic device can be controlled by identifying the note corresponding to the determined length of the first sound as the start note of the performance section.
  • step S1302 if there are multiple notes corresponding to the length of the first sound, a second sound identified after the first sound among the plurality of sounds may be determined.
  • the note corresponding to the second note is determined based on the height of the second note and the length of the second note.
  • step S1303 may acquire a plurality of frames including a performance image corresponding to the performance section of the identified score.
  • the electronic device can be controlled by storing information about a plurality of notes in a performance section corresponding to a plurality of frames in a memory.
  • Figure 14 is a sequence diagram for explaining a method of controlling an electronic device and a server according to an embodiment of the present disclosure.
  • An electronic device may include a display capable of playing images.
  • the electronic device 100 may select a performance image of a musical instrument being played and/or a score related to the performance image according to a user input (S1401).
  • the electronic device 100 may transmit information about the selected performance image and/or score related to the performance image (S1402). At this time, the electronic device 100 may transmit the selected performance image and/or the score itself related to the performance image, or may transmit information that the score related to the performance image can be obtained by the selected performance image.
  • the server 1400 may obtain the performance video and the sheet music related to the performance video based on information about the performance video and the sheet music related to the performance video (S1403). Specifically, when the performance video and the score itself related to the performance video are transmitted, the server 1400 can obtain the transmitted performance video and the score. Alternatively, when information that the sheet music related to the performance video can be obtained through the selected performance video is transmitted, the server 1400 can obtain the sheet music related to the performance video based on the transmitted performance video.
  • the server 1400 may analyze the audio of the acquired performance video to identify a performance section that matches the performance video among the scores (S1404). At this time, the server 1400 may identify a performance section that matches the performance image based on information about the sound included in the audio of the performance image.
  • the server 1400 can match and store a plurality of video frames included in the performance video and the performance section of the score (S1405).
  • the server 1400 may store the notes included in the performance section of the score that matches a plurality of video frames in the form of an index.
  • the server 1400 may transmit information related to the performance section of the score (S1406). At this time, the server 1400 may match and transmit the music score of the stored performance section itself, or transmit information that allows access to the music score of the stored performance section.
  • the electronic device 100 may select the first note among the performance sections of the transmitted score (S1407).
  • the electronic device 100 may transmit the selected first note (S1408). At this time, the electronic device 100 may transmit the index of the first note or transmit information about the sound including the pitch and sound length corresponding to the first note.
  • the server 1400 can identify the image frame corresponding to the first note among the plurality of image frames (S1409). At this time, the server 1400 may identify the image frame in which the index of the first note is stored among the plurality of image frames.
  • the server 1400 may transmit information about the identified video frame (S1410).
  • the information about the identified image frame may be any one of the index of the first note, the image frame in which the index of the first note is stored, the playback time at which the identified image frame starts, and the image starting from the identified image frame. there is.
  • the electronic device 100 can play the performance video on the display starting from the identified video frame (S1411).
  • the various embodiments described above may be implemented as software including instructions stored in a machine-readable storage media (e.g., a computer).
  • the device is a device capable of calling a stored instruction from a storage medium and operating according to the called instruction, and may include a device according to the disclosed embodiments.
  • the instruction is executed by a processor, the processor directly, or Functions corresponding to instructions can be performed using other components under the control of the processor.
  • Instructions may include code generated or executed by a compiler or interpreter.
  • a storage medium that can be read by a device is non-transitory. It may be provided in the form of a (non-transitory) storage medium.
  • 'non-transitory storage medium' simply means that it is a tangible device and does not contain signals (e.g. electromagnetic waves). This term does not distinguish between cases where data is semi-permanently stored in a storage medium and cases where data is stored temporarily.
  • a 'non-transitory storage medium' may include a buffer where data is temporarily stored.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • the computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or through an application store (e.g. Play StoreTM) or on two user devices (e.g. It can be distributed (e.g. downloaded or uploaded) directly between smartphones) or online.
  • a machine-readable storage medium e.g. compact disc read only memory (CD-ROM)
  • an application store e.g. Play StoreTM
  • two user devices e.g. It can be distributed (e.g. downloaded or uploaded) directly between smartphones) or online.
  • at least a portion of the computer program product e.g., a downloadable app
  • a machine-readable storage medium such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

전자 장치가 개시된다. 본 개시에 따른 전자 장치는 영상 및 악보가 저장될 수 있는 메모리, 영상 및 악보가 표시될 수 있는 디스플레이 및 악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득하고, 상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하고, 상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장하고, 상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생하는 프로세서를 포함한다.

Description

전자 장치 및 그의 제어 방법
본 개시는 영상을 재생할 수 있는 전자 장치에 관한 것이다.
영상을 재생할 수 있는 전자 장치는 TV, 컴퓨터, 스마트폰, 태블릿 PC, 노트북 등 다양하게 적용되어 이용되고 있다. 특히, 전자 장치는 악기의 연주 방법을 효과적으로 전달하기 위하여 연주 영상과 악보를 동시에 디스플레이에 표시할 수 있다.
본 개시의 일 실시 예에 따른 영상을 재생할 수 있는 전자 장치의 제어 방법은 악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득하는 단계, 상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하는 단계, 상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장하는 단계, 상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생하는 단계를 포함한다.
본 개시의 일 실시 예에 따른 영상을 재생할 수 있는 전자 장치에 있어서, 영상 및 악보를 저장할 수 있는 메모리, 영상 및 악보를 표시할 수 있는 디스플레이 및 프로세서를 포함한다. 상기 프로세서는 악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득한다. 상기 프로세서는 상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별한다. 상기 프로세서는 상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장한다. 상기 프로세서는 상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생한다.
본 개시의 일 실시 예에 따른 악보를 저장할 수 있는 메모리, 영상 및 악보를 표시할 수 있는 디스플레이 및 프로세서에 의해 실행되는 경우 전자 장치의 동작을 수행하도록하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서 악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득하는 단계, 상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하는 단계, 상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장하는 단계, 상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생하는 단계를 포함한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 도면,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,
도 3은 본 개시의 일 실시 예에 따른 영상과 악보의 매칭을 설명하기 위한 도면,
도 4는 본 개시의 일 실시 예에 따른 영상과 대응하는 연주 구간의 시작 음표를 식별하는 것을 설명하기 위한 도면,
도 5는 본 개시의 일 실시 예에 따른 영상과 악보의 매칭 결과를 설명하기 위한 도면,
도 6은 본 개시의 일 실시 예에 따른 음표를 선택하여 영상과 악보의 매칭 결과를 설명하기 위한 도면,
도 7은 본 개시의 일 실시 예에 따른 악보를 생성하는 방법을 설명하기 위한 흐름도,
도 8 내지 11은 은 본 개시의 일 실시 예에 따른 악보를 생성하는 방법을 설명하기 위한 도면,
도 12는 본 개시의 일 실시 예에 따른 전자 장치의 세부 구성을 설명하기 위한 블록도,
도 13은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도, 및
도 14는 본 개시의 일 실시 예에 따른 전자 장치와 서버의 제어 방법을 설명하기 위한 시퀀스도이다.
본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다.
덧붙여, 하기 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시 예에 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.
본 개시에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다.
대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
한편, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명의 기술적 사상은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.
이하에서는 첨부한 도면을 참고하여 본 개시에 따른 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 도면이다.
도 1을 참조하면, 전자 장치(100)는 다양한 형태와 목적으로 구현될 수 있다.
예를 들어, 전자 장치(100)는 TV, 데스크탑 컴퓨터, 랩탑 컴퓨터, 스마트폰, 태블릿 PC 등의 형태로 구현될 수 있다.
전자 장치(100)는 악기를 연주하기 위한 보조 용도로 사용될 수 있다. 예를 들어 전자 장치(100)의 사용자는 디스플레이(120)에 표시되는 악기의 연주 영상과 연주 영상과 관련된 악보를 통하여 연주 방법을 학습할 수 있다.
전자 장치(100)는 악기의 연주 영상을 표시할 수 있다. 여기에서 악기의 연주 영상은, 연주 대상 노래의 원곡이거나, 편곡된 곡일 수 있고, 복수의 악기가 연주되는 영상일 수 있다.
악기의 연주 영상은 복수의 프레임으로 구성될 수 있다. 전자 장치(100)는 복수의 프레임 각각의 메타데이터(Metadata)를 저장할 수 있다. 전자 장치(100)는 이와 같은 영상 프레임의 메타데이터로, 영상에 포함된 오디오와 관련된 정보, 제작자, 언어뿐 아니라, 연주 영상의 경우, 영상 프레임에서 연주되는 부분과 대응하는 악보의 음표를 인덱스 형태로 저장할 수 있다.
여기에서 전자 장치(100)가 악보의 음표를 인덱스 형태로 저장한다는 것은, 연주 영상과 관련된 악보에 포함된 복수의 음표에 대해서 순서대로 표시된 음표에 번호를 매긴 다음, 연주 영상 프레임과 대응되는 음표의 번호를 저장한다는 것일 수 있다.
전자 장치(100)는 연주 영상과 관련된 악보를 표시할 수 있다. 여기에서 연주 영상과 관련된 악보는, 연주 대상 노래의 원곡 악보이거나 원곡을 편곡한 곡의 악보, 또는 복수의 악기와 관련된 악보일 수 있다.
또한, 전자 장치(100)는 연주 영상에 연주되는 비디오와 오디오를 기초하여 연주 영상과 관련된 악보를 생성하고, 여기에서 연주와 관련된 악보를 생성하는 것은, 전자 장치(100)가 연주 영상의 오디오와 비디오를 분석하여 연주 영상의 멜로디, 리듬 및 화성을 추출하고, 이를 기초로 악보를 생성할 수 있다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 전자 장치(100)는 메모리(110), 디스플레이(120) 및 프로세서(130)를 포함한다.
메모리(110)는 각종 프로그램이나 데이터를 일시적 또는 비일시적으로 저장하고, 프로세서(130)의 호출에 따라서 저장된 정보를 프로세서(130)에 전달한다. 또한, 메모리(110)는, 프로세서(130)의 연산, 처리 또는 제어 동작 등에 필요한 각종 정보를 전자적 포맷으로 저장할 수 있다.
메모리(110)는, 예를 들어, 주기억장치 및 보조기억장치 중 적어도 하나를 포함할 수 있다. 주기억장치는 롬(ROM) 및/또는 램(RAM)과 같은 반도체 저장 매체를 이용하여 구현된 것일 수 있다. 롬은, 예를 들어, 통상적인 롬, 이피롬(EPROM), 이이피롬(EEPROM) 및/또는 마스크롬(MASK-ROM) 등을 포함할 수 있다. 램은 예를 들어, 디램(DRAM) 및/또는 에스램(SRAM) 등을 포함할 수 있다. 보조기억장치는, 플래시 메모리 장치, SD(Secure Digital) 카드, 솔리드 스테이트 드라이브(SSD, Solid State Drive), 하드 디스크 드라이브(HDD, Hard Disc Drive), 자기 드럼, 컴팩트 디스크(CD), 디브이디(DVD) 또는 레이저 디스크 등과 같은 광 기록 매체(optical media), 자기테이프, 광자기 디스크 및/또는 플로피 디스크 등과 같이 데이터를 영구적 또는 반영구적으로 저장 가능한 적어도 하나의 저장 매체를 이용하여 구현될 수 있다.
메모리(110)는 전자 장치(100)에 관한 적어도 하나의 인스트럭션(instruction)을 저장할 수 있다. 그리고, 메모리(110)에는 전자 장치(100)을 구동시키기 위한 O/S(Operating System)가 저장될 수 있다. 또한, 메모리(110)에는 본 개시의 다양한 실시 예들에 따라 전자 장치(100)이 동작하기 위한 각종 소프트웨어 프로그램이나 애플리케이션이 저장될 수도 있다. 그리고, 메모리(110)는 프레임 버퍼와 같은 휘발성 메모리, 플래시 메모리 등과 같은 반도체 메모리나 하드디스크(Hard Disk) 등과 같은 자기 저장 매체 등을 포함할 수 있다.
구체적으로, 메모리(110)는 본 개시의 다양한 실시 예에 따라 전자 장치(100)이 동작하기 위한 각종 소프트웨어 모듈을 저장할 수 있으며, 프로세서(130)는 메모리(110)에 저장된 각종 소프트웨어 모듈을 실행하여 전자 장치(100)의 동작을 제어할 수 있다. 즉, 메모리(110)는 프로세서(130)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등을 수행할 수 있다.
한편, 본 개시에서 메모리(110)라는 용어는 메모리(110), 프로세서(130) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함하는 의미로 사용될 수 있다.
특히, 메모리(110)는 악기의 연주 영상을 저장할 수 있다. 여기에서 악기는 기타, 바이올린, 첼로, 콘트라 베이스, 등 현악기와 관악기, 타악기, 건반 악기, 전자 악기 등을 포함할 수 있다.
또한, 메모리(110)는 적어도 하나 이상의 악기의 연주 영상을 저장할 수 있다. 예를 들어, 연주 영상은 두 개 이상의 기타로 연주하는 영상이거나, 현악기와 타악기가 동시에 연주되는 영상일 수 있다.
메모리(110)는 악기의 연주 영상을 구성하는 복수의 프레임을 저장할 수 있다. 예를 들어, 1초에 60개의 프레임으로 저장된 1분 길이의 영상의 경우, 메모리(110)는 3600개의 프레임을 저장할 수 있다.
여기에서, 메모리(110)는 악기의 연주 영상을 구성하는 복수의 프레임에 관한 정보로, 프레임마다 메타데이터를 저장할 수 있다. 예를 들어, 1초에 60개의 프레임으로 저장된 1분 길이의 영상의 경우, 메모리(110)는 3600개의 메타데이터를 저장할 수 있다. 여기에서 메모리(110)는 영상에 포함된 오디오와 관련된 정보, 제작자, 언어 등을 저장할 수 있다.
메모리(110)는 악기의 연주 영상을 구성하는 복수의 프레임과 대응되고, 대응되는 연주와 관련된 정보를 포함하는 메타데이터를 저장할 수 있다. 여기에서 연주와 관련된 정보에는 연주되는 음의 높이, 음의 길이 또는 악보의 음표의 인덱스를 포함할 수 있다. 여기에서 악보의 음표가 인덱스로 저장될 수 있다는 것은, 메모리(110)는 연주 영상과 관련된 악보에 포함된 복수의 음표에 대해서 순서대로 표시된 음표에 번호를 매긴 다음, 연주 영상 프레임과 대응되는 음표의 번호가 저장된다는 것일 수 있다. 예를 들어, 메모리(110)는 악기의 연주 영상에서 연주되는 첫 번째 음과 대응되는 악보의 첫 번째 음표의 인덱스 '1' 을 저장할 수 있다. 즉, 메모리(110)는 악기의 연주 영상의 첫 번째 프레임의 메타 데이터로, 악보의 첫 번째 음표의 인덱스 '1'을 저장할 수 있다.
또한, 메모리(110)는 악기의 연주 영상과 관련된 악보를 저장할 수 있다. 여기에서 연주 영상과 관련된 악보는, 연주 대상 노래의 원곡 악보이거나 원곡을 편곡한 곡의 악보, 또는 복수의 악기와 관련된 악보일 수 있다.
또한, 메모리(110)는 적어도 하나 이상의 악기의 연주 영상과 관련된 악보를 저장할 수 있다. 예를 들어, 메모리(110)는 두 개 이상의 기타를 연주할 수 있는 악보이거나, 현악기와 타악기가 동시에 연주할 수 있는 악보를 저장할 수 있다.
디스플레이(120)는 LCD(Liquid Crystal Display) 패널, OLED(Organic Light Emitting Diodes) 패널, AM-OLED(Active-Matrix Organic Light-Emitting Diode), LcoS(Liquid Crystal on Silicon), QLED(Quantum dot Light-Emitting Diode) 및 DLP(Digital Light Processing), PDP(Plasma Display Panel) 패널, 무기 LED 패널, 마이크로 LED 패널 등 다양한 종류의 디스플레이 패널을 포함할 수 있으나, 이에 한정되는 것은 아니다. 한편, 디스플레이(120)는 터치 패널과 함께 터치스크린을 구성할 수도 있으며, 플렉서블(flexible) 패널로 이루어질 수도 있다.
디스플레이(120)는 다양한 정보를 표시할 수 있다. 이를 위해, 디스플레이(120)는 LCD(Liquid Crystal Display) 등으로 구현될 수 있으며, 입력 인터페이스의 기능을 동시에 수행할 수 있는 터치 스크린으로 구현될 수도 있다.
구체적으로, 디스플레이(120)는 영상을 표시할 수 있다. 특히, 디스플레이(120)는 악기의 연주 영상을 표시할 수 있다. 여기에서 악기는 기타, 바이올린, 첼로, 콘트라 베이스, 등 현악기와 관악기, 타악기, 건반 악기, 전자 악기 등을 포함할 수 있다.
또한, 디스플레이(120)는 적어도 하나 이상의 악기의 연주 영상을 표시할 수 있다. 예를 들어, 연주 영상은 두 개 이상의 기타로 연주하는 영상이거나, 현악기와 타악기가 동시에 연주되는 영상일 수 있다.
디스플레이(120)는 악기의 연주 영상과 연주와 관련된 악보를 동시에 표시할 수 있다. 여기에서 디스플레이(120)는 악기의 연주 영상이 재생됨과 동시에 재생되는 연주 영상에 대응하는 연주 악보를 표시할 수 있다.
사용자에 의해 연주와 관련된 악보의 임의의 음표가 선택되는 경우, 디스플레이(120)는 해당 음표에 대응하는 연주 연상을 표시할 수 있다. 또한, 사용자에 의해 연주 영상에 대응되는 재생 바의 임의의 위치가 선택되는 경우, 디스플레이(120)는 해상 위치에 해당하는 연주 영상 및 연주 영상에 대응하는 악보를 표시할 수 있다.
프로세서(130)는 전자 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(130)는 상술한 바와 메모리(110)를 포함하는 전자 장치(100)의 구성과 연결되며, 상술한 바와 같은 메모리(110)에 저장된 적어도 하나의 인스트럭션을 실행함으로써, 전자 장치(100)의 동작을 전반적으로 제어할 수 있다. 특히, 프로세서(130)는 하나의 프로세서(130)로 구현될 수 있을 뿐만 아니라 복수의 프로세서(130)로 구현될 수 있다.
프로세서(130)는 다양한 방식으로 구현될 수 있다. 예를 들어, 프로세서(130)는 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 컨트롤 로직, 하드웨어 유한 상태 기계(hardware Finite State Machine, FSM), 디지털 신호 프로세서(Digital Signal Processor, DSP) 중 적어도 하나로 구현될 수 있다.
한편, 본 개시에서 프로세서(130)는 디지털 신호를 처리하는 중앙처리장치 (central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형 태로 구현될 수도 있다. 프로세서(130)는 메모리(110)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다. 뿐만 아니라, 프로세서(130)는 인공지능 기능을 수행하기 위하여, 별도의 AI 전용 프로세서인 GPU(graphics-processing unit), NPU(Neural Processing Unit), VPU(Visual Processing UniT) 중 적어도 하나를 포함할 수 있다.
구체적으로, 프로세서(130)는 악기를 연주하는 연주 영상 및 연주 영상과 관련된 악보를 획득할 수 있다. 여기에서 악기를 연주하는 연주 영상을 획득한다는 것은, 프로세서(130)는 통신 인터페이스를 통해 악기의 연주 영상을 수신하거나, 카메라를 통해 악기의 연주를 촬영하여 악기의 연주 영상을 획득할 수 있다.
그리고, 연주 영상과 관련된 악보를 획득할 수 있다는 것은, 프로세서(130)는 통신 인터페이스를 통해 연주와 관련된 악보를 획득하거나, 악기의 연주 영상으로부터 악보를 생성하여 연주와 관련된 악보를 획득할 수 있다. 여기에서 프로세서(130)는 악기의 연주 영상을 비디오와 오디오를 분리하여, 각각의 비디오와 오디오로부터 악보를 생성할 수 있다.
도 3 내지 6은 본 개시의 일 실시 예에 따른 영상과 악보의 매칭을 설명하기 위한 도면이다.
도 3을 참조하면, 프로세서(130)는 획득된 연주 영상의 오디오를 분석하여 악보(300) 중 연주 영상에 매칭되는 연주 구간(310)을 식별할 수 있다.
프로세서(130)는 획득된 연주 영상의 오디오를 분석하기 위하여 연주 영상의 오디오를 주파수 신호로 변환할 수 있다.
프로세서(130)는 연주 영상의 오디오를 분석하기 위하여 비디오와 오디오를 분리할 수 있다. 여기에서 비디오는 연주 영상에서 오디오를 제외한 영상 정보만 포함할 수 있고, 오디오는 연주 영상에서 영상 정보를 제외한 소리 정보만 포함할 수 있다.
연주 영상의 오디오를 주파수 신호로 변환하기 위하여, 프로세서(130)는 오디오의 데이터를 푸리에 변환(Fourier Transformation), 패스트 푸리에 변환(Fast Fourier Transform, FFT) 등을 이용할 수 있다. 프로세서(130)는 이와 같은 FFT 등을 이용하여 시간 영역의 오디오의 데이터를 주파수 영역으로 변환하여 오디오를 분석할 수 있다.
프로세서(130)는 이와 같이 변환된 주파수 신호에 기초하여 오디오에 포함된 복수의 음에 대한 정보를 획득할 수 있다. 여기에서, 오디오에 포함된 복수의 음에 대한 정보는 연주를 구성하는 멜로디(Melody), 리듬(Rhythm) 및 화성(Harmony)이 될 수 있다. 즉, 복수의 음에 대한 정보에는 복수의 음을 구성하는 음의 높이(Pitch), 길이(Length), 강세(Accent), 빠르기(Tempo), 세고 여림(Dynamic), 속도법(Agogic), 악절(Phrase), 음색(Tone) 등이 포함될 수 있다.
프로세서(130)는 변환된 주파수 신호에서, 가장 높은 파워를 갖는 주파수를 음의 높이로 판단할 수 있다. 프로세서(130)는 이와 같이 음의 높이로 판단된 주파수의 시간 영역에서 진행되는 시간을 기초로 음의 길이로 판단할 수 있다. 또한, 임의의 시점에서 연주되는 음이 하나 이상인 경우, 프로세서(130)는 변환된 주파수 영역에서 하나의 음에 해당하는 주파수와 다른 음에 해당하는 주파수를 구별할 수 있다. 즉, 프로세서(130)는 기설정된 주파수 편이 값(deviation)을 기준으로 가장 높은 파워를 갖는 주파수와 두번째로 높은 파워를 갖는 주파수를 구별할 수 있다. 따라서, 프로세서(130)는 해당 시점에서 두 개의 음에 대한 정보를 획득할 수 있다.
프로세서(130)는 획득한 복수의 음에 대한 정보에 기초하여 악보(300) 중 영상에 매칭되는 연주 구간(310)을 식별할 수 있다.
여기에서 악보(300)는 연주되는 노래의 원곡 악보이거나 원곡을 편곡한 곡의 악보, 또는 복수의 악기와 관련된 악보일 수 있다. 또한 악보(300)는 연주되는 노래의 전체 악보이거나 전체 중 일부의 악보일 수 있다.
프로세서(130)는 악보(300)에 포함된 복수의 음표 중 복수의 음에 포함된 첫번째로 획득된 제1 음의 높이와 대응하는 적어도 하나 이상의 음표를 판단할 수 있다. 여기에서 제1 음은 프로세서(130)가 연주 영상에서 획득한 복수 음 중 첫번째로 획득한 음을 제1 음으로 할 수 있다. 제1 음에는 음에 대한 정보로, 음의 높이, 길이, 강세, 빠르기, 세고 여림, 속도법, 악절, 음색 등이 포함될 수 있다. 또한, 화성을 포함하는 경우, 제1 음은 하나 이상의 음의 높이를 포함할 수 있다.
프로세서(130)는 제1 음의 높이와 대응하는 적어도 하나 이상의 음표를 판단할 수 있다. 프로세서(130)는 악보(300)의 음표의 진행 순서에 때라 음의 높이를 식별하여 제1 음의 높이와 일치하는 음표를 판단할 수 있다. 예를 들어, 프로세서(130)는 획득한 제1 음의 높이가 '도'이면, '도'와 일치하는 악보(300)의 음표를 판단할 수 있다. 여기에서 악보(300)의 음표의 음 높이를 판단하는 것은, 인공지능(Artificial intelligence) 또는 기계학습(machine learning)으로 판단될 수 있다.
프로세서(130)는 제1 음의 높이와 대응하는 적어도 하나 이상의 음표 중 제1 음의 길이와 대응하는 음표를 판단할 수 있다. 프로세서(130)는 제1 음의 높이와 일치하는 악보(300)의 음표가 하나 이상일 수 있다. 그리고, 프로세서(130)는 제1 음의 길이와 일치하는 악보(300)의 음표를 판단할 수 있다. 예를 들어, 프로세서(130)는 획득한 제1 음의 높이가 '도'이고, '도'와 일치하는 악보의 음표가 2개일 수 있다. 여기에서 제1 음의 '도'의 길이가 반박자에 해당하는 경우, 프로세서(130)는 반박자인 '도'와 일치하는 악보의 음표를 판단할 수 있다.
프로세서(130)는 판단된 제1 음의 길이와 대응하는 음표를 연주 구간(310)의 시작 음표로 식별할 수 있다. 즉, 프로세서(130)는 제1 음의 높이 및 길이와 일치하는 악보(300)의 음표를 연주 구간(310)의 시작 음표로 식별할 수 있다.
이와 같이 연주 구간(310)의 시작 음표가 식별된 경우, 프로세서(130)는 연주 영상에서 연주되는 음에 관한 정보, 영상의 길이 등을 고려하여 악보(300)에서 연주되는 연주 구간(310)을 식별할 수 있다.
이와 같이 연주 영상에서 연주되는 부분이 악보(300)의 전체인 경우뿐 아니라 전체 중 일부의 구간만 연주되더라도 프로세서(130)는 악보(300)에서 어떤 부분에 해당하는지 판단할 수 있다.
한편, 제1 음의 길이와 대응하는 음표가 복수이면, 프로세서(130)는 연주 영상의 복수의 음 중 제1 음 다음으로 식별된 제2 음을 판단할 수 있다. 즉, 제1 음의 높이 및 길이가 모두 일치하는 악보(300)의 음표가 두개 이상인 경우, 프로세서(130)는 연주 영상이 악보(300)에서 어느 부분 연주 구간의 시작 음표인지 식별하기 위하여 제2 음에 대한 정보를 판단할 수 있다. 여기에서 제2 음에 대한 정보에는, 프로세서(130)가 식별한 제1음 다음으로 획득한 음으로 음의 높이, 길이, 강세, 빠르기, 세고 여림, 속도법, 악절, 음색 등이 포함될 수 있다. 또한, 화성을 포함하는 경우, 제2 음은 하나 이상의 음의 높이를 포함할 수 있다.
프로세서(130)는 제1 음의 높이 및 제1 음의 길이와 대응하는 복수의 음표의 다음의 음표 중, 제2 음의 높이 및 제2 음의 길이를 기초로, 제2 음과 대응하는 음표를 판단할 수 있다. 즉, 프로세서(130)는 영상에서 연속적으로 연주되는 제1 음 및 제2 음과 일치하는 악보(300)의 음표를 판단하여 연주 구간(310)을 판단할 수 있다.
이와 같이 연주 구간(310)이 식별되었다면, 프로세서(130)는 연주 영상에 포함된 복수의 영상 프레임과 악보의 연주 구간(310)을 매칭하여 저장할 수 있다.
이를 위해, 프로세서(130)는 식별된 악보의 연주 구간(310)과 대응하는 연주 영상이 포함하는 복수의 프레임을 획득할 수 있다. 예를 들어, 1초에 60개의 프레임으로 저장된 1분 길이의 영상의 경우, 프로세서(130)는 연주 영상이 포함하는 3600개의 프레임을 획득할 수 있다.
프로세서(130)는 이와 같이 획득한 복수의 프레임에 대응하는 연주 구간(310)의 복수의 음표에 관한 정보를 메모리(110)에 저장할 수 있다. 여기에서 복수의 음표에 관한 정보에는 악보를 구성하는 멜로디, 리듬 및 화성이 포함될 수 있다. 즉, 복수의 음표에 관한 정보에는 복수의 음표를 구성하는 음의 높이, 길이, 강세, 빠르기, 세고 여림, 속도법, 악절, 음색 등이 포함될 수 있다. 복수의 음표에 관한 정보에는 이와 같이 음 자체에 관한 정보뿐 아니라, 악보에서 몇 번째 위치한 음표에 해당하는지에 대한 인덱스도 포함될 수 있다.
프로세서(130)는 복수의 프레임에 대응하는 연구 구간(310)의 복수의 음표에 관한 정보로, 메타데이터 형태로 메모리(110)에 저장할 수 있다. 예를 들어, 1초에 60개의 프레임으로 저장된 1분 길이의 영상의 경우, 프로세서(130)는 3600개의 프레임에 대응하는 3600개의 메타데이터를 메모리(110)에 저장할 수 있다.
프로세서(130)는 연주 구간(310)의 복수의 음표에 관한 정보로 음의 높이, 음의 길이 또는 악보의 음표의 인덱스 등을 메모리(110)에 저장할 수 있다. 여기에서 악보의 음표의 인덱스가 메모리(110)에 저장될 수 있다는 것은, 프로세서(130)가 연주 영상과 관련된 악보에 포함된 복수의 음표에 대해서 순서대로 표시된 음표에 번호를 매긴 다음, 연주 영상 프레임과 대응되는 음표의 번호를 메모리(110)에 저장한다는 것일 수 있다.
예를 들어, 프로세서(130)는 악기의 연주 영상에서 연주되는 제1 음과 대응되는 악보의 첫번째 음표의 인덱스를 '1'로 하여 메모리(110)에 저장할 수 있다. 그리고, 프로세서(130)는 악기의 연주 영상에서 연주되는 제2 음과 대응되는 악보의 두번째 음표의 인덱스를 '2'로 하여 메모리(110)에 저장할 수 있다.
이와 같이, 프로세서(130)는 악기의 연주 영상의 복수의 프레임의 메타 데이터로, 악보에서 진행되는 음표의 인덱스를 순차적으로 번호를 매겨 메모리(110)에 저장할 수 있다.
도 4는 본 개시의 일 실시 예에 영상 제1 음과 대응하는 악보(400)의 복수의 음표가 식별되는 경우 연주 구간의 시작 음표를 식별하는 방법을 설명하기 위한 도면이다.
도 4를 참조하면, 프로세서(130)는 연주 영상의 첫번째 음의 높이와 대응되는 복수의 음표 중 연주 구간의 시작 음표를 식별할 수 있다. 여기에서, 프로세서(130)는 영상에서 연주되는 제1 음의 높이와 일치하는 음표가 하나 이상인 경우, 제1 음의 길이와 일치하는 악보(400)의 음표를 판단할 수 있다.
예를 들면, 프로세서(130)는 획득한 제1 음의 높이가 '레라레(Dm)'이고, '레라레(Dm)'와 일치하는 악보(400)의 음표가 3개(411, 412, 413)일 수 있다. 여기에서 제1 음의 '레라레(Dm)'의 길이가 한박자 반에 해당하는 경우, 프로세서(130)는 한박자 반인 '레라레(Dm)'와 일치하는 악보(400)의 음표를 판단할 수 있다.
제1 음의 길이와 대응하는 음표가 복수(421, 422)이면, 프로세서(130)는 연주 영상의 복수의 음 중 제1 음 다음으로 식별된 제2 음을 판단할 수 있다. 즉, 제1 음의 높이 및 길이가 모두 일치하는 악보(400)의 음표가 두개 이상(421, 422)인 경우, 프로세서(130)는 연주 영상이 악보(400)에서 어느 부분 연주 구간의 시작 음표인지 식별하기 위하여 제2 음을 판단할 수 있다.
프로세서(130)는 제1 음의 높이 및 제1 음의 길이와 대응하는 복수의 음표의 다음의 음표 중, 제2 음의 높이 및 제2 음의 길이를 기초로, 제2 음과 대응하는 음표를 판단할 수 있다. 즉, 프로세서(130)는 영상에서 연속적으로 연주되는 제1 음 및 제2 음과 일치하는 악보의 음표를 판단하여 연주 구간(431)을 판단할 수 있다.
제1 음 및 제2 음과 대응하는 악보(400)의 음표가 복수의 이면, 프로세서(130)는 연주 구간(431)의 시작 음표를 식별하기 위해 제2 음 다음으로 식별된 제3 음을 판단할 수 있다. 즉, 프로세서(130)는 연속적으로 연주되는 제1 음 내지 제3 음과 대응되는 악보(400)의 음표를 식별하고, 연주 구간(431)의 시작 음표를 식별할 수 있다.
프로세서(130)는 식별된 시작 음표를 기준으로 연주 영상에서 연주되는 음에 관한 정보, 영상의 길이 등을 고려하여 악보(400)에서 연주되는 연주 구간(431)을 식별할 수 있다.
프로세서(130)는 이와 같이 획득한 복수의 프레임에 대응하는 연주 구간(431)의 복수의 음표에 관한 정보를 메모리(110)에 저장할 수 있다. 여기에서 복수의 음표에 관한 정보에는 악보를 구성하는 멜로디, 리듬 및 화성이 될 수 있다. 즉, 복수의 음표에 관한 정보에는 복수의 음표를 구성하는 음의 높이, 길이, 강세, 빠르기, 세고 여림, 속도법, 악절, 음색 등이 포함될 수 있다. 복수의 음표에 관한 정보에는 음 자체에 관한 정보뿐 아니라, 악보에서 몇 번째 위치한 음표에 해당하는지에 대한 인덱스도 포함될 수 있다.
프로세서(130)는 복수의 프레임에 대응하는 연구 구간(431)의 복수의 음표에 관한 정보로, 메타데이터 형태로 메모리(110)에 저장할 수 있다. 예를 들어, 1초에 60개의 프레임으로 저장된 1분 길이의 영상의 경우, 프로세서(130)는 3600개의 프레임에 대응하는 3600개의 메타데이터를 메모리(110)에 저장할 수 있다.
프로세서(130)는 연주 구간(431)의 복수의 음표에 관한 정보로 음의 높이, 음의 길이 또는 악보의 음표의 인덱스 등을 메모리(110)에 저장할 수 있다. 여기에서 악보의 음표의 인덱스가 메모리(110)에 저장될 수 있다는 것은, 프로세서(130)가 연주 영상과 관련된 악보에 포함된 복수의 음표에 대해서 순서대로 표시된 음표에 번호를 매긴 다음, 연주 영상 프레임과 대응되는 음표의 번호를 메모리(110)에 저장한다는 것일 수 있다.
예를 들어, 프로세서(130)는 악기의 연주 영상에서 연주되는 제1 음과 대응되는 악보의 첫번째 음표의 인덱스를 '1'로 하여 메모리(110)에 저장할 수 있다. 그리고, 프로세서(130)는 악기의 연주 영상에서 연주되는 제2 음과 대응되는 악보의 두번째 음표의 인덱스를 '2'로 하여 메모리(110)에 저장할 수 있다.
이와 같이, 프로세서(130)는 악기의 연주 영상의 복수의 프레임의 메타 데이터로, 악보에서 진행되는 음표의 인덱스를 순차적으로 번호를 매겨 메모리(110)에 저장할 수 있다.
도 5 본 개시의 일 실시 예에 따른 영상과 악보의 매칭 결과를 설명하기 위한 도면이다.
도 5를 참조하면, 프로세서(130)는 악기의 연주 영상(520), 연주 영상의 재생 바(530) 및 악기의 연주 영상(520)과 매칭되는 연주 구간(510)을 디스플레이(120)에 표시할 수 있다. 프로세서(130)는 악기의 연주 영상(520)이 재생되는 동안 재생 바(530)가 왼쪽에서 오른쪽으로 이동하는 동작을 하도록 디스플레이(130)를 제어할 수 있다. 프로세서(130)는 악기의 연주 영상(520)이 재생되는 동안 악기의 연주 영상(520)과 매칭되는 악기의 연주 구간(510)을 동시에 디스플레이(120)에 표시할 수 있다. 여기에서, 프로세서(130)는 연주 구간(510)의 전체 악보가 표시되거나, 전체 중 일부가 디스플레이(120)에 표시되도록 제어할 수 있다.
또한, 프로세서(130)는 연주 영상(520) 중 현재 재생되는 연주 부분과 대응되는 부분을 연주 구간(510)에 바(512) 형태로 표시할 수 있다. 예를 들면, 프로세서(130)는 현재 연주되는 부분이 ‘파도파라‘인 경우, 연주 구간(510) 중 첫 음에 해당하는 ‘파도파라’를 강조하는 표시로 바(512)의 형태로 표시할 수 있다.
도 6은 본 개시의 일 실시 예에 따른 음표를 선택하여 영상과 악보의 매칭 결과를 설명하기 위한 도면이다.
도 6을 참조하면, 악보의 연주 구간(610) 중 제1 음표가 선택되면, 프로세서(130)는 복수의 영상 프레임 중 제1 음표(615)에 대응하는 영상 프레임을 식별하고, 식별된 영상 프레임으로부터 연주 영상(620)을 디스플레이(120)에 재생할 수 있다.
여기에서, 제1 음표(615)는 악보의 연주 구간(610) 내에서 임의의 음표가 될 수 있다. 즉, 제1 음표(615)는 계이름 하나에 대응하는 음표일 수 있고, 복수의 화성을 이루는 복수의 계이름이 될 수 있다.
악보의 연주 구간 중 제1 음표(615)가 선택되면, 프로세서(130)는 복수의 영상 프레임 중 제1 음표(615)에 대응하는 영상 프레임을 식별할 수 있다. 여기에서 제1 음표(615)에 대응하는 영상 프레임을 식별할 수 있다는 것은, 프로세서(130)가 제1 음표(615)의 인덱스가 메타데이터로 저장된 영상 프레임을 복수의 영상 프레임에서 식별한다는 것일 수 있다.
프로세서(130)는 식별된 영상 프레임부터 연주 영상(620)을 디스플레이(120)에 재생할 수 있다. 즉, 프로세서(130)는 식별된 제1 음표(615)와 대응하는 영상프레임부터 연주 영상(620)을 재생할 수 있다.
여기에서 제1 음표(615)와 대응되는 연주 영상의 프레임이 하나 이상인 경우, 프로세서(130)는 해당 프레임 중 첫 번째 프레임부터 디스플레이(120)에 재생할 수 있다.
한편, 연주 영상(610)에 포함된 재생 바(630)의 제1 위치가 선택되면, 프로세서(130)는 제1 위치와 대응하는 영상 프레임을 식별하고, 식별된 영상 프레임부터 연주 영상(620)을 재생하고 식별된 영상 프레임과 대응하는 악보(610)를 표시할 수 있다.
즉, 재생 바(630) 내에서 임의의 제1 위치가 선택된 경우, 프로세서(130)는 제1 위치와 대응하는 영상 프레임이 몇 번째 프레임인지 식별할 수 있다. 이후, 프로세서(130)는 이와 같이 식별된 영상 프레임부터 연주 영상(620)을 재생할 수 있다. 이와 동시에 프로세서(130)는 식별된 영상 프레임과 대응하는 악보(610)를 디스플레이(120)에 표시할 수 있다.
도 7은 본 개시의 일 실시 예에 따른 악보를 생성하는 방법을 설명하기 위한 흐름도이고, 도 8 내지 11은 은 본 개시의 일 실시 예에 따른 악보를 생성하는 방법을 설명하기 위한 도면이다.
본 개시의 일 실시예에 따른 악기는 바이올린, 첼로, 콘트라베이스 등 현악기 중 어느 하나일 수 있다. 여기에서, 악기는 현악기 중 기타인 경우에 대하여 설명한다.
먼저, 연주 영상의 비디오와 오디오로 분리할 수 있다(S701).
연주 영상은 일반적으로 비디오와 오디오로 구성되어 있으며, 비디오의 데이터와 오디오의 데이터는 분리하여 데이터 처리를 될 수 있다. 여기에서 비디오의 데이터와 오디오의 데이터는 서로 구별되는 데이터에 해당한다. 따라서 비디오의 데이터 처리와 오디오의 데이터 처리는 독립적으로 이루어 지므로, 비디오의 데이터 처리와 오디오의 데이터 처리간 서로 영향을 주지 않는다.
도 8을 참조하면, 악기의 연주 영상(800)가 획득된 경우, 프로세서(130)는 연주 영상(800)의 비디오(810)와 오디오(820)로 분리할 수 있다. 비디오(810)는 연주 영상(800)에서 오디오를 제외한 영상만 추출한 것이며, 오디오(820)는 연주 영상(800)에서 영상을 제거한 시간에 따른 소리 데이터에 해당한다.
이후, 오디오의 음 높이 및 음 길이를 포함하는 복수의 음을 획득할 수 있다(S702).
여기에서 오디오는 악기가 연주되는 소리에 해당하여, 오디오는 리듬, 멜로디, 화성을 포함할 수 있다. 즉, 오디오에 포함된 음의 높이 및 음의 길이를 포함하여 복수의 음을 획득할 수 있다.
이와 같이 S702단계는, 오디오를 주파로 영역으로 변환할 수 있다. 이와 같이 시간 영역에 해당하는 오디오를 주파수 영역으로 변환하여, 오디오의 주파수 영역 중 가장 높은 파워를 갖는 제1 주파수를 기초로 음 높이를 판단할 수 있다. 또한, 제1 주파수의 지속시간을 기초로 음 길이를 판단할 수 있다.
여기에서 제1 주파수의 지속시간내에서, 복수의 음이 포함될 수 있다.
도 9를 참조하면, 프로세서(130)는 시간 영역의 오디오(820)를 주파수 영역(821)으로 변환할 수 있다. 여기에서 프로세서(130)는 주파수 영역(821)에서 가장 높은 파워를 갖는 제1 주파수(822)를 음 높이로 판단할 수 있다. 프로세서(130)는 이와 같은 제1 주파수(822)의 지속 시간을 기초로 제1 주파수(822)의 음 길이를 판단할 수 있다.
한편, 제1 주파수 및 기설정된 주파수 편이 값을 기초로, 상기 오디오의 주파수 영역 중 두번째로 높은 파워를 갖는 제2 주파수를 판단할 수 있다.
도 9를 참조하면, 프로세서(130)는 제1 주파수(822)보다 작은 파워로, 제1 주파수(822)와 화성을 이룬다고 판단되는 제2 주파수(823)를 판단할 수 있다. 즉, 프로세서(130)는 제2 주파수의 음 높이 및 음 길이를 획득할 수 있다. 프로세서(130)는 제1 주파수(822) 다음으로 높은 파워를 갖는 주파수를 제2 주파수(823)로 판단할 수 있다. 여기에서 프로세서(130)는 주파수 편이(826) 값을 기초로 제2 주파수(823)를 판단할 수 있다.
마찬가지로, 프로세서(130)는 제2 주파수(823) 다음으로 높은 파워를 갖는 주파수를 제3 주파수(824)로 판단하고, 제3 주파수(824)의 음 높이 및 음 길이를 획득할 수 있다.
한편, 프로세서(130)는 기설정된 기준(827) 이하의 주파수는 제1 주파수(822)와 화성을 이루는 주파수가 아니라고 판단할 수 있다. 프로세서(130)는 제3 주파수(824) 다음으로 높은 파워를 갖는 제4 주파수(325)가 주파수 영역에서 판단되더라도, 기설정된 기준(827) 이하에 해당되므로, 제1 주파수(822)와 화성을 이루는 주파수가 아닌 노이즈로 판단할 수 있다. 이와 같이 노이즈로 판단하는 기준은 일 예에 해당되며, 이에 한정하지 않는다.
다음으로, 비디오 영상의 기타의 파지 위치를 판단할 수 있다(S703).
S703 단계는 기타의 프랫 보드를 식별하고, 프랫 보드를 제1구간 내지 제5 구간으로 구별한 다음, 기타의 파지 위치가 제1 구간 내지 제5 구간 중 적어도 어느 하나에 구간에 위치하는지 판단할 수 있다.
도 10을 참조하면, 프로세서(130)는 분리된 연주 영상(810)에서 기타의 프랫 보드(820)을 식별할 수 있다. 프로세서(130)는 인공지능 또는 머신러닝을 이용하여 연주 영상(810)에서 기타의 프랫 보드(820)을 식별할 수 있다.
연주 영상(810)에서 기타의 프랫 보드(820)가 식별되었다면, 프로세서(130)는 프랫 보드(820)를 제1 구간 내지 제5 구간으로 구별할 수 있다. 프로세서(130)는 프랫 보드(820)의 프랫 영역은 규칙적으로 그 영역의 면적이 감소하게 되어있어, 이를 기초로 프랫 보드(820)의 구간을 구별할 수 있다. 또는 프로세서(130)는 프랫 영역을 구분하는 선을 식별하여 프랫 보드(820)의 구간을 구별할 수 있다. 이와 같이 프랫 보드(820)의 구간을 구별하는 것은 일 예에 해당하고, 이에 한정하지 않는다.
도 11을 참조하면, 프로세서(130)는 프랫 보드(820)를 제1 구간 내지 제5 구간(831, 832, 833,834, 835)으로 구별할 수 있다. 프랫 보드(820)의 1~4번 프랫을 제1 구간, 5~9번 프랫을 제2 구간, 10~14번 프랫을 제3 구간, 15~19번 프랫을 제4 구간, 20번 프랫 이상은 제5 구간으로 나누는 경우, 음 높이가 동일한 두개의 음이 하나의 구간에 존재하지 않게 되므로, 프로세서(130)는 이와 같이 제1 구간 내지 제5 구간(831, 832, 833,834, 835)으로 구별할 수 있다. 그러나, 프로세서(130)는 기타의 파지 위치를 판단하는 방식, 기타의 형태, 모양 등을 고려하여 다른 방식으로 프랫 보드(820)를 구별할 수 있다.
그리고 S703 단계는 기타의 파지 위치가 제1 구간 내지 제5 구간(831, 832, 833,834, 835) 중 적어도 어느 하나의 구간에 위치하는지 판단할 수 있다.
도 10을 참조할 때, 연주 영상(810)은 악기의 연주자가 특정한 음을 내기 위하여 악기를 파지하는 장면을 포함한다. 구체적으로, 기타의 연주자가 기타의 프랫 보드(820) 중 어느 프랫을 파지하는지에 따라 연주되는 음이 결정될 수 있다. 예를 들어, 연주자가 다섯번 째 프랫에 3번 현을 파지한 경우, 연주되는 음은 262 Hz의 '도'에 해당되나, 세번째 프랫에 5번 현을 파지한 경우, 연주되는 음은 131 Hz의 '도'에 해당된다.
이와 같이, 기타의 파지 위치(830)를 정확하게 판단한 경우, 프로세서(130)는 악보를 생성하기 위한 음의 높이를 판단할 수 있다.
한편, 기타의 파지 위치를 정확하게 판단한 경우뿐 아니라, 파지 위치를 개략적으로 판단하는 경우에도 오디오에서 음의 높이가 획득되었다면, 프로세서(130)는 획득한 음과 기타의 파지 위치에 기초하여 악보를 생성할 수 있다(S704).
예를 들어, 프로세서(130)는 오디오에서 획득한 음의 높이가 122 Hz이며, 기타의 파지 위치가 1~3번 프랫 중 하나라고 판단할 수 있다. 이러한 경우, 프로세서(130)는 1~3번 프랫에서 연주될 수 있는 복수의 음 중에서, 음의 높이가 122 Hz에 가까운 123 Hz인 '시'에 해당함을 판단할 수 있다. 이와 같이 프로세서(130)는 2번 프랫의 123 Hz인 '시'음 높이와 대응하는 계이름 '시'음표를 악보에 추가하여 연주 영상(810)의 악보를 생성할 수 있다.
이에 더하여, 프로세서(130)는 기타 현을 표현한 악보로 타브(TAB) 악보를 생성할 수 있다.
타브(TAB)악보는 기타 현을 오선지에 선을 하나 추가하여 6개의 선으로 기타 현을 표현하고, 연주될 음 높이와 대응하는 기타 현과 프랫 번호를 함께 표시한 악보에 해당한다. 예를 들어, 3번 프랫의 5번 현을을 파지한 경우 '도'와 대응하는 음을 연주할 수 있는데, 이를 타브 악보로 표현할 경우, 타브 악보의 5번째 줄에 '3'을 표시하여 어떠한 프랫과 현을 파지해야 하는지를 나타낼 수 있다. 이와 같은 타브 악보는 일반적인 5선지 악보와 함께 표시될 수 있다.
예를 들어, 프로세서(130)는 오디오에서 획득한 음의 높이가 122 Hz이며, 기타의 파지 위치가 1~3번 프랫 중 하나라고 판단할 수 있다. 여기에서 프로세서(130)는 1~3번 프랫에서 연주될 수 있는 복수의 음 중에서, 음의 높이가 122 Hz에 가까운 123 Hz인 '시'에 해당함을 판단할 수 있다. 이와 같이 프로세서(130)는 123 Hz인 '시'과 대응하는 2번 프랫의 5번 현에 대하여 타브 악보 5번째 줄에 '2'를 표시하여 타브 악보를 생성할 수 있다.
한편, 프로세서(130)는 기타의 파지 위치가 제1 구간 내지 제5 구간(831, 832, 833,834, 835) 중 적어도 어느 하나의 구간에 위치하는지 판단하여 악보를 생성할 수 있다.
예를 들어, 프로세서(130)는 오디오에서 획득한 음의 높이가 122 Hz이며, 기타의 파지 위치가 1~3번 프랫 중 하나라고 판단할 수 있다. 이러한 경우, 프로세서(130)는 기타의 파지 위치가 1~3번 프랫을 포함하는 제1 구간(831)을 파지하였다고 판단할 수 있다. 또한, 프로세서(130)는 제1 구간(831)에서 연주될 수 있는 복수의 음 중에서, 음의 높이가 122 Hz에 가까운 123 Hz인 '시'에 해당함을 판단할 수 있다. 이와 같이 프로세서(130)는 제1 구간(831)내에서 123 Hz인 '시'음 높이와 대응하는 계이름 '시'음표를 악보에 추가하여 연주 영상(810)의 악보를 생성할 수 있다. 또한, 프로세서(130)는 123 Hz인 '시'과 대응하는 2번 프랫의 5번 현에 대하여 타브 악보 5번째 줄에 '2'를 표시하여 타브 악보를 생성할 수 있다.
또한, 오디오에서 획득한 음의 높이가 하나 이상이며, 기타의 파지 위치가 하나 이상인 경우에도 프로세서(130)는 하나 이상의 음표에 대하여 악보를 생성할 수 있다.
예를 들어, 프로세서(130)는 오디오에서 획득한 음의 높이가 122 Hz 및 296 Hz이며, 기타의 파지 위치가 1~3번 프랫 중 두개의 프랫이라고 판단할 수 있다. 이러한 경우, 프로세서(130)는 기타의 파지 위치가 1~3번 프랫을 포함하는 제1 구간(831)을 파지하였다고 판단할 수 있다. 또한, 프로세서(130)는 제1 구간(831)에서 연주될 수 있는 복수의 음 중에서, 음의 높이가 122 Hz에 가까운 123 Hz인 '시'에 해당함을 판단하고, 296 Hz에 가까운 294 Hz인 '레'에 해당함을 판단할 수 있다. 이와 같이 프로세서(130)는 제1 구간(831)내에서 123 Hz인 '시'음 높이와 대응하는 계이름 '시'음표 및 294 Hz인 '레'음 높이와 대응하는 계이름 '레'음표를 악보에 추가하여 연주 영상(810)의 악보를 생성할 수 있다. 또한, 프로세서(130)는 123 Hz인 '시'과 대응하는 2번 프랫의 5번 현에 대하여 타브 악보 5번째 줄에 '2'를 표시하고 294 Hz인 '레'과 대응하는 3번 프랫의 2번 현에 대하여 타브 악보 2번째 줄에 '3'를 표시하여 타브 악보를 생성할 수 있다.
도 12는 본 개시의 일 실시 예에 따른 전자 장치의 세부 구성을 설명하기 위한 블록도이다.
도 12에 도시된 바와 같이, 전자 장치(100)는 메모리(110), 디스플레이(120),프로세서(130), 입력 인터페이스(140), 마이크(150), 센서(160), 스피커(170), 동신 인터페이스(180) 및 카메러(190)을 포함할 수 있다. 이하에서는 도 2에서의 설명과 중복되는 부분에 대한 자세한 설명은 생략하기롤 한다.
입력 인터페이스(140)는 회로를 포함하며, 전자 장치(100)에서 지원하는 각종 기능을 설정 또는 선택하기 위한 사용자 명령을 입력받을 수 있다. 이를 위해, 입력 인터페이스(140)는 복수의 버튼을 포함할 수 있고, 디스플레이의 기능을 동시에 수행할 수 있는 터치 스크린으로 구현될 수도 있다.
이 경우, 프로세서(130)는 입력 인터페이스(140)를 통해 입력된 사용자 명령에 기초하여 전자 장치(100)의 동작을 제어할 수 있다. 예를 들어, 프로세서(143)는 입력 인터페이스(140)를 통해 입력된 전자 장치(100)의 온/오프 명령, 전자 장치(100)의 기능의 온/오프 명령 등에 기초하여, 전자 장치(100)을 제어할 수 있다.
마이크(150)는 소리를 획득하여 전기 신호로 변환하는 모듈을 의미할 수 있으며, 콘덴서 마이크, 리본 마이크, 무빙코일 마이크, 압전소자 마이크, 카본 마이크, MEMS(Micro Electro Mechanical System) 마이크일 수 있다. 또한, 무지향성, 양지향성, 단일지향성, 서브 카디오이드(Sub Cardioid), 슈퍼 카디오이드(Super Cardioid), 하이퍼 카디오이드(Hyper Cardioid)의 방식으로 구현될 수 있다.
센서(160)는 전자 장치(100)와 관련된 다양한 정보를 획득할 수 있다. 특히, 센서(160)는 전자 장치(100)의 위치 정보를 획득할 수 있는 GPS를 포함할 수 있으며, 전자 장치(100)를 사용하는 사용자의 생체 정보를 획득하기 위한 생체 센서(예로, 심박수 센서, PPG 센서 등), 전자 장치(100)의 움직임을 감지하기 위한 움직임 센서 등과 같은 다양한 센서를 포함할 수 있다.
스피커(170)는 오디오를 출력할 수 있다. 구체적으로, 프로세서(130)는 전자 장치 (100)의 동작과 관련된 다양한 알림음 또는 음성 안내 메시지를 스피커(170)를 통해 출력할 수 있다.
통신 인터페이스(180)는 회로를 포함하며, 외부 장치와의 통신을 수행할 수 있다. 프로세서(130)는 통신 인터페이스(180)를 통해 연결된 외부 장치로부터 각종 데이터 또는 정보를 수신할 수 있으며, 외부 장치로 각종 데이터 또는 정보를 전송할 수도 있다.
카메라(190)는 정지 영상 및 동영상을 촬영할 수 있다. 일 실시 예에 따르면, 카메라(190)는 하나 이상의 렌즈, 이미지 센서, 이미지 시그널 프로세서, 또는 플래시를 포함할 수 있다.
도 13은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
본 개시의 일 실시 예에 따른 전자 장치는 영상을 재생할 수 있는 디스플레이가 포함될 수 있다.
먼저, 악기를 연주하는 연주 영상 및 연주 영상과 관련된 악보를 획득할 수 있다(S1301).
이후 획득된 연주 영상의 오디오를 분석하여 악보 중 연주 영상에 매칭되는 연주 구간을 식별할 수 있다(S1302).
그리고, 연주 영상에 포함된 복수의 영상 프레임과 악보의 연주 구간을 매칭하여 저장할 수 있다(S1303).
다음으로, 악보의 연주 구간 중 제1 음표가 선택되면, 복수의 영상 프레임 중 제1 음표에 대응하는 영상 프레임을 식별하고, 식별된 영상 프레임부터 연주 영상을 디스플레이에 재생할 수 있다(S1304).
한편, S1302 단계는 악보에 포함된 복수의 음표 중 복수의 음에 포함된 첫번째로 획득된 제1 음의 높이와 대응하는 적어도 하나 이상의 음표를 판단할 수 있다.
또한, 제1 음의 높이와 대응하는 적어도 하나 이상의 음표 중 제1 음의 길이와 대응하는 음표를 판단할 수 있다.
그리고, 판단된 제1음의 길이와 대응하는 음표를 연주 구간의 시작 음표로 식별하여 전자 장치를 제어할 수 있다.
또한, S1302 단계는 제1 음의 길이와 대응하는 음표가 복수이면, 복수의 음 중 제1 음 다음으로 식별된 제2 음을 판단할 수 있다.
그리고, 제1 음의 높이 및 제1 음의 길이와 대응하는 복수의 음표의 다음의 음표 중, 제2 음의 높이 및 제2 음의 길이를 기초로, 제2 음과 대응하는 음표를 판단하여 전자 장치를 제어할 수 있다.
한편, S1303 단계는 식별된 악보의 연주 구간과 대응하는 연주 영상이 포함하는 복수의 프레임을 획득할 수 있다.
또한, 복수의 프레임에 대응하는 연주 구간의 복수의 음표에 관한 정보를 메모리에 저장하는 하여 전자 장치를 제어할 수 있다.
한편, 연주 영상을 획득하는 구체적인 방법에 대해서는 전술한 바 있다.
도 14는 본 개시의 일 실시 예에 따른 전자 장치와 서버의 제어 방법을 설명하기 위한 시퀀스도이다.
본 개시의 일 실시 예에 따른 전자 장치에는 영상을 재생할 수 있는 디스플레이가 포함될 수 있다.
먼저, 전자 장치(100)는 사용자 입력에 따라 악기를 연주하는 연주 영상 및/또는 연주 영상과 관련된 악보를 선택할 수 있다(S1401).
그리고, 악기를 연주하는 연주 영상 및/또는 연주 영상과 관련된 악보가 선택 되면, 전자 장치(100)는 선택된 연주 영상 및/또는 연주 영상과 관련된 악보에 대한 정보를 전송할 수 있다(S1402). 이때, 전자 장치(100)는 선택된 연주 영상 및/또는 연주 영상과 관련된 악보 자체를 전송하거나 선택된 연주 영상에 의해 연주 영상과 관련된 악보를 획득할 수 있다는 정보를 전송할 수 있다.
서버(1400)는 연주 영상 및 연주 영상과 관련된 악보에 대한 정보에 기초하여 연주 영상 및 연주 영상과 관련된 악보를 획득할 수 있다(S1403). 구체적으로, 연주 영상 및 연주 영상과 관련된 악보 자체가 전송되면, 서버(1400)는 전송된 연주 영항 및 악보를 획득할 수 있다. 또는 선택된 연주 영상에 의해 연주 영상과 관련된 악보를 획득할 수 있다는 정보가 전송된 경우, 서버(1400)는 전송된 연주 영상을 기초로 연주 영상과 관련된 악보를 획득할 수 있다.
이후 서버(1400)는 획득된 연주 영상의 오디오를 분석하여 악보 중 연주 영상에 매칭되는 연주 구간을 식별할 수 있다(S1404). 이때, 서버(1400)는 연주 영상의 오디오에 포함된 음에 대한 정보에 기초하여 연주 영상에 매칭되는 연주 구간을 식별할 수 있다.
그리고, 서버(1400)는 연주 영상에 포함된 복수의 영상 프레임과 악보의 연주 구간을 매칭하여 저장할 수 있다(S1405). 여기에서 서버(1400)는 복수의 영상 프레임과 매칭되는 악보의 연주 구간에 포함된 음표를 인덱스 형태로 저장할 수 있다.
다음으로, 서버(1400)는 악보의 연주 구간에 관련된 정보를 전송할 수 있다(S1406). 이때, 서버(1400)는 매칭하여 저장된 연주 구간의 악보 자체를 전송하거나, 저장된 연주 구간의 악보를 접근할 수 있는 정보를 전송할 수 있다.
그리고, 전자 장치(100)는 전송된 악보의 연주 구간 중 제1 음표를 선택할 수 있다(S1407).
다음으로, 전자 장치(100)는 선택된 제1 음표를 전송할 수 있다(S1408). 이 때, 전자 장치(100)는 제1 음표의 인덱스를 전송하거나, 제1 음표와 대응되는 음 의 높이, 음의 길이를 포함하는 음에 대한 정보를 전송할 수 있다.
그리고, 선택된 제1 음표가 전송되면, 서버(1400)는 복수의 영상 프레임 중 제1 음표에 대응하는 영상 프레임을 식별할 수 있다(S1409). 이때, 서버(1400)는 복수의 영상 프레임 중 제1 음표의 인덱스가 저장된 영상 프레임을 식별할 수 있다.
그리고, 서버(1400)는 식별된 영상 프레임에 대한 정보를 전송할 수 있다(S1410). 여기에서, 식별된 영상 프레임에 대한 정보는 제1 음표의 인덱스, 제1 음표의 인덱스가 저장된 영상 프레임, 식별된 영상 프레임이 시작하는 재생 시간, 식별된 영상 프레임부터 시작되는 영상 중 어느 하나일 수 있다.
이후, 영상 프레임에 대한 정보가 전송되면, 전자 장치(100)는 식별된 영상 프레임부터 연주 영상을 디스플레이에 재생할 수 있다(S1411).
한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 기기를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (15)

  1. 영상을 재생할 수 있는 전자 장치의 제어 방법에 있어서,
    악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득하는 단계;
    상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하는 단계;
    상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장하는 단계; 및
    상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생하는 단계를 포함하는 제어 방법.
  2. 제1항에 있어서,
    상기 연주 구간을 식별하는 단계는,
    상기 연주 영상의 오디오를 주파수 신호로 변환하는 단계;
    상기 변환된 주파수 신호에 기초하여 상기 오디오에 포함된 복수의 음에 대한 정보를 획득하는 단계;
    상기 획득한 복수의 음에 대한 정보에 기초하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하는 단계를 포함하는 제어 방법.
  3. 제2항에 있어서,
    상기 연주 구간을 식별하는 단계는,
    상기 악보에 포함된 복수의 음표 중 상기 복수의 음에 포함된 첫번째로 획득된 제1 음의 높이와 대응하는 적어도 하나 이상의 음표를 판단하는 단계;
    상기 제1 음의 높이와 대응하는 적어도 하나 이상의 음표 중 상기 제1 음의 길이와 대응하는 음표를 판단하는 단계; 및
    상기 판단된 제1음의 길이와 대응하는 음표를 상기 연주 구간의 시작 음표로 식별하는 단계;를 포함하는 제어 방법.
  4. 제3항에 있어서,
    상기 제1 음의 길이와 대응하는 음표가 복수이면, 상기 복수의 음 중 상기 제1 음 다음으로 식별된 제2 음을 판단하는 단계; 및
    상기 제1 음의 높이 및 상기 제1 음의 길이와 대응하는 복수의 음표의 다음의 음표 중, 상기 제2 음의 높이 및 상기 제2 음의 길이를 기초로, 상기 제2 음과 대응하는 음표를 판단하는 단계;를 포함하는 제어 방법.
  5. 제1항에 있어서,
    상기 저장하는 단계는,
    상기 식별된 악보의 연주 구간과 대응하는 상기 연주 영상이 포함하는 복수의 프레임을 획득하는 단계;
    상기 복수의 프레임에 대응하는 상기 연주 구간의 복수의 음표에 관한 정보를 메모리에 저장하는 단계를 포함하는 제어 방법.
  6. 제1항에 있어서,
    상기 악기는 기타일 수 있고,
    상기 연주 영상과 관련된 악보를 획득하는 단계는,
    상기 연주 영상의 비디오와 오디오로 분리하는 단계;
    상기 오디오의 음 높이 및 음 길이를 포함하는 복수의 음을 획득하는 단계;
    상기 비디오 영상의 상기 기타의 파지 위치를 판단하는 단계; 및
    상기 획득된 음과 상기 기타의 파지 위치에 기초하여 악보를 생성하는 단계를 포함하는 제어 방법.
  7. 제6항에 있어서,
    상기 복수의 음을 획득하는 단계는,
    상기 오디오를 주파수 영역으로 변환하는 단계;
    상기 오디오의 주파수 영역 중 가장 높은 파워를 갖는 제1 주파수를 기초로 상기 음 높이를 판단하는 단계;
    상기 제1 주파수의 지속 시간을 기초로 상기 음 길이를 판단하는 단계를 포함하는 제어 방법.
  8. 제7항에 있어서,
    상기 제1 주파수 및 기설정된 주파수 편이 값을 기초로, 상기 오디오의 주파수 영역 중 두번째로 높은 파워를 갖는 제2 주파수를 판단하는 단계;
    상기 제1 주파수 및 제2 주파수를 기초로 상기 음 높이를 판단하는 단계; 및
    상기 제1 주파수 및 제2 주파수의 지속 시간을 기초로 상기 음 길이를 판단하는 단계를 포함하는 제어 방법.
  9. 제6항에 있어서,
    상기 비디오 영상의 상기 기타의 파지 위치를 판단하는 단계는,
    상기 기타의 프랫 보드를 식별하는 단계;
    상기 프랫 보드를 제1 구간 내지 제5 구간으로 구별하는 단계;
    상기 기타의 파지 위치가 상기 제1 구간 내지 제5 구간 중 적어도 어느 하나의 구간에 위치하는지 판단하여 상기 기타의 파지 위치를 판단하는 단계를 포함하는 제어 방법.
  10. 제1항에 있어서,
    상기 연주 영상에 포함된 재생 바의 제1 위치를 선택하면, 상기 제1 위치와 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 재생하는 단계; 및
    상기 식별된 영상 프레임과 대응하는 상기 악보를 표시하는 단계를 포함하는 제어 방법.
  11. 영상을 재생할 수 있는 전자 장치에 있어서,
    영상 및 악보가 저장될 수 있는 메모리;
    영상 및 악보가 표시될 수 있는 디스플레이; 및
    프로세서를 포함하고,
    상기 프로세서는,
    악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득하고,
    상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하고,
    상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장하고,
    상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생하는 전자 장치.
  12. 제11항에 있어서,
    상기 프로세서는,
    상기 연주 영상의 오디오를 주파수 신호로 변환하고,
    상기 변환된 주파수 신호에 기초하여 상기 오디오에 포함된 복수의 음에 대한 정보를 획득하고,
    상기 획득한 복수의 음에 대한 정보에 기초하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하는 전자 장치.
  13. 제12항에 있어서,
    상기 프로세서는,
    상기 악보에 포함된 복수의 음표 중 상기 복수의 음에 포함된 첫번째로 획득된 제1 음의 높이와 대응하는 적어도 하나 이상의 음표를 판단하고,
    상기 제1 음의 높이와 대응하는 적어도 하나 이상의 음표 중 상기 제1 음의 길이와 대응하는 음표를 판단하고,
    상기 판단된 제1 음의 길이와 대응하는 음표를 상기 연주 구간의 시작 음표로 식별하는 전자 장치.
  14. 제13항에 있어서,
    상기 프로세서는,
    상기 제1 음의 길이와 대응하는 음표가 복수이면, 상기 복수의 음 중 상기 제1 음 다음으로 식별된 제2 음을 판단하고
    상기 제1 음의 높이 및 상기 제1 음의 길이와 대응하는 복수의 음표의 다음의 음표 중, 상기 제2 음의 높이 및 상기 제2 음의 길이를 기초로, 상기 제2 음과 대응하는 음표를 판단하는 전자 장치.
  15. 제11항에 있어서,
    상기 프로세서는,
    상기 식별된 악보의 연주 구간과 대응하는 상기 연주 영상이 포함하는 복수의 프레임을 획득하고
    상기 복수의 프레임에 대응하는 상기 연주 구간의 복수의 음표에 관한 정보를 상기 메모리에 저장하는 전자 장치.
PCT/KR2023/012639 2022-09-19 2023-08-25 전자 장치 및 그의 제어 방법 WO2024063360A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220117932A KR20240039404A (ko) 2022-09-19 2022-09-19 전자 장치 및 그의 제어 방법
KR10-2022-0117932 2022-09-19

Publications (1)

Publication Number Publication Date
WO2024063360A1 true WO2024063360A1 (ko) 2024-03-28

Family

ID=90454683

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/012639 WO2024063360A1 (ko) 2022-09-19 2023-08-25 전자 장치 및 그의 제어 방법

Country Status (2)

Country Link
KR (1) KR20240039404A (ko)
WO (1) WO2024063360A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100412196B1 (ko) * 2001-05-21 2003-12-24 어뮤즈텍(주) 악보 추적 방법 및 그 장치
JP2012170027A (ja) * 2011-02-17 2012-09-06 Ishida Taiseisha Inc 楽器教則用コンテンツ配信システム及び教則用楽曲データ再生プログラム
JP2017032693A (ja) * 2015-07-30 2017-02-09 ヤマハ株式会社 映像記録再生装置
KR20170141164A (ko) * 2016-03-11 2017-12-22 삼성전자주식회사 음악 정보 제공 방법 및 이를 위한 전자 기기
JP2019152860A (ja) * 2018-02-28 2019-09-12 株式会社デザインMプラス 楽譜提供システム、方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100412196B1 (ko) * 2001-05-21 2003-12-24 어뮤즈텍(주) 악보 추적 방법 및 그 장치
JP2012170027A (ja) * 2011-02-17 2012-09-06 Ishida Taiseisha Inc 楽器教則用コンテンツ配信システム及び教則用楽曲データ再生プログラム
JP2017032693A (ja) * 2015-07-30 2017-02-09 ヤマハ株式会社 映像記録再生装置
KR20170141164A (ko) * 2016-03-11 2017-12-22 삼성전자주식회사 음악 정보 제공 방법 및 이를 위한 전자 기기
JP2019152860A (ja) * 2018-02-28 2019-09-12 株式会社デザインMプラス 楽譜提供システム、方法およびプログラム

Also Published As

Publication number Publication date
KR20240039404A (ko) 2024-03-26

Similar Documents

Publication Publication Date Title
WO2020246702A1 (en) Electronic device and method for controlling the electronic device thereof
WO2020017798A1 (en) A method and system for musical synthesis using hand-drawn patterns/text on digital and non-digital surfaces
WO2015093744A1 (en) Multimedia apparatus, music composing method thereof, and song correcting method thereof
EP3574395A1 (en) Display device for visualizing contents as the display is rotated and control method thereof
WO2019112342A1 (en) Voice recognition apparatus and operation method thereof cross-reference to related application
WO2019139301A1 (ko) 전자 장치 및 그 자막 표현 방법
WO2021096091A1 (en) Electronic apparatus and control method thereof
WO2016060296A1 (ko) 음향 정보 녹음 장치 및 그 제어 방법
WO2020116930A1 (en) Electronic device for outputting sound and operating method thereof
WO2019050083A1 (ko) 사용자 허밍 멜로디 기반 멜로디 녹음을 제공하기 위한 방법 및 이를 위한 장치
JP6063936B2 (ja) 音楽団体をビデオ録画および録音するためのシステム
JP2020046500A (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2022260432A1 (ko) 자연어로 표현된 스타일 태그를 이용한 합성 음성 생성 방법 및 시스템
WO2024063360A1 (ko) 전자 장치 및 그의 제어 방법
US7504572B2 (en) Sound generating method
WO2021045503A1 (en) Electronic apparatus and control method thereof
WO2020080812A1 (en) Electronic device and controlling method of electronic device
WO2022059869A1 (ko) 영상의 음질을 향상시키는 디바이스 및 방법
WO2019031771A1 (en) DISPLAY DEVICE FOR VIEWING DISPLAY ROTATION MEASUREMENT CONTENTS AND CONTROL METHOD THEREOF
WO2017105036A1 (en) Audio apparatus, driving method for audio apparatus, and computer readable recording medium
WO2011136454A1 (ko) 이미지를 이용한 음원 생성 시스템 및 방법
WO2017155200A1 (ko) 음악 정보 제공 방법 및 이를 위한 전자 기기
JP2013073091A (ja) 歌詞テロップ表示装置及びプログラム
WO2017179810A2 (ko) 음악 게임 장치, 방법 및 이를 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
WO2018155807A1 (ko) 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23868417

Country of ref document: EP

Kind code of ref document: A1