WO2024063360A1

WO2024063360A1 - 전자 장치 및 그의 제어 방법

Info

Publication number: WO2024063360A1
Application number: PCT/KR2023/012639
Authority: WO
Inventors: 이웅; 이명준; 김경환; 김태훈; 우지영
Original assignee: 삼성전자주식회사
Priority date: 2022-09-19
Filing date: 2023-08-25
Publication date: 2024-03-28
Also published as: KR20240039404A

Abstract

전자 장치가 개시된다. 본 개시에 따른 전자 장치는 영상 및 악보가 저장될 수 있는 메모리, 영상 및 악보가 표시될 수 있는 디스플레이 및 악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득하고, 상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하고, 상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장하고, 상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생하는 프로세서를 포함한다.

Description

전자 장치 및 그의 제어 방법

본 개시는 영상을 재생할 수 있는 전자 장치에 관한 것이다.

영상을 재생할 수 있는 전자 장치는 TV, 컴퓨터, 스마트폰, 태블릿 PC, 노트북 등 다양하게 적용되어 이용되고 있다. 특히, 전자 장치는 악기의 연주 방법을 효과적으로 전달하기 위하여 연주 영상과 악보를 동시에 디스플레이에 표시할 수 있다.

본 개시의 일 실시 예에 따른 영상을 재생할 수 있는 전자 장치의 제어 방법은 악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득하는 단계, 상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하는 단계, 상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장하는 단계, 상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생하는 단계를 포함한다.

본 개시의 일 실시 예에 따른 영상을 재생할 수 있는 전자 장치에 있어서, 영상 및 악보를 저장할 수 있는 메모리, 영상 및 악보를 표시할 수 있는 디스플레이 및 프로세서를 포함한다. 상기 프로세서는 악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득한다. 상기 프로세서는 상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별한다. 상기 프로세서는 상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장한다. 상기 프로세서는 상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생한다.

본 개시의 일 실시 예에 따른 악보를 저장할 수 있는 메모리, 영상 및 악보를 표시할 수 있는 디스플레이 및 프로세서에 의해 실행되는 경우 전자 장치의 동작을 수행하도록하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서 악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득하는 단계, 상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하는 단계, 상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장하는 단계, 상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생하는 단계를 포함한다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 도면,

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,

도 3은 본 개시의 일 실시 예에 따른 영상과 악보의 매칭을 설명하기 위한 도면,

도 4는 본 개시의 일 실시 예에 따른 영상과 대응하는 연주 구간의 시작 음표를 식별하는 것을 설명하기 위한 도면,

도 5는 본 개시의 일 실시 예에 따른 영상과 악보의 매칭 결과를 설명하기 위한 도면,

도 6은 본 개시의 일 실시 예에 따른 음표를 선택하여 영상과 악보의 매칭 결과를 설명하기 위한 도면,

도 7은 본 개시의 일 실시 예에 따른 악보를 생성하는 방법을 설명하기 위한 흐름도,

도 8 내지 11은 은 본 개시의 일 실시 예에 따른 악보를 생성하는 방법을 설명하기 위한 도면,

도 12는 본 개시의 일 실시 예에 따른 전자 장치의 세부 구성을 설명하기 위한 블록도,

도 13은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도, 및

도 14는 본 개시의 일 실시 예에 따른 전자 장치와 서버의 제어 방법을 설명하기 위한 시퀀스도이다.

본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다.

덧붙여, 하기 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시 예에 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.

본 개시에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.

반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다.

대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.

한편, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명의 기술적 사상은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.

이하에서는 첨부한 도면을 참고하여 본 개시에 따른 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 도면이다.

도 1을 참조하면, 전자 장치(100)는 다양한 형태와 목적으로 구현될 수 있다.

예를 들어, 전자 장치(100)는 TV, 데스크탑 컴퓨터, 랩탑 컴퓨터, 스마트폰, 태블릿 PC 등의 형태로 구현될 수 있다.

전자 장치(100)는 악기를 연주하기 위한 보조 용도로 사용될 수 있다. 예를 들어 전자 장치(100)의 사용자는 디스플레이(120)에 표시되는 악기의 연주 영상과 연주 영상과 관련된 악보를 통하여 연주 방법을 학습할 수 있다.

전자 장치(100)는 악기의 연주 영상을 표시할 수 있다. 여기에서 악기의 연주 영상은, 연주 대상 노래의 원곡이거나, 편곡된 곡일 수 있고, 복수의 악기가 연주되는 영상일 수 있다.

악기의 연주 영상은 복수의 프레임으로 구성될 수 있다. 전자 장치(100)는 복수의 프레임 각각의 메타데이터(Metadata)를 저장할 수 있다. 전자 장치(100)는 이와 같은 영상 프레임의 메타데이터로, 영상에 포함된 오디오와 관련된 정보, 제작자, 언어뿐 아니라, 연주 영상의 경우, 영상 프레임에서 연주되는 부분과 대응하는 악보의 음표를 인덱스 형태로 저장할 수 있다.

여기에서 전자 장치(100)가 악보의 음표를 인덱스 형태로 저장한다는 것은, 연주 영상과 관련된 악보에 포함된 복수의 음표에 대해서 순서대로 표시된 음표에 번호를 매긴 다음, 연주 영상 프레임과 대응되는 음표의 번호를 저장한다는 것일 수 있다.

전자 장치(100)는 연주 영상과 관련된 악보를 표시할 수 있다. 여기에서 연주 영상과 관련된 악보는, 연주 대상 노래의 원곡 악보이거나 원곡을 편곡한 곡의 악보, 또는 복수의 악기와 관련된 악보일 수 있다.

또한, 전자 장치(100)는 연주 영상에 연주되는 비디오와 오디오를 기초하여 연주 영상과 관련된 악보를 생성하고, 여기에서 연주와 관련된 악보를 생성하는 것은, 전자 장치(100)가 연주 영상의 오디오와 비디오를 분석하여 연주 영상의 멜로디, 리듬 및 화성을 추출하고, 이를 기초로 악보를 생성할 수 있다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.

도 2를 참조하면, 전자 장치(100)는 메모리(110), 디스플레이(120) 및 프로세서(130)를 포함한다.

메모리(110)는 각종 프로그램이나 데이터를 일시적 또는 비일시적으로 저장하고, 프로세서(130)의 호출에 따라서 저장된 정보를 프로세서(130)에 전달한다. 또한, 메모리(110)는, 프로세서(130)의 연산, 처리 또는 제어 동작 등에 필요한 각종 정보를 전자적 포맷으로 저장할 수 있다.

메모리(110)는, 예를 들어, 주기억장치 및 보조기억장치 중 적어도 하나를 포함할 수 있다. 주기억장치는 롬(ROM) 및/또는 램(RAM)과 같은 반도체 저장 매체를 이용하여 구현된 것일 수 있다. 롬은, 예를 들어, 통상적인 롬, 이피롬(EPROM), 이이피롬(EEPROM) 및/또는 마스크롬(MASK-ROM) 등을 포함할 수 있다. 램은 예를 들어, 디램(DRAM) 및/또는 에스램(SRAM) 등을 포함할 수 있다. 보조기억장치는, 플래시 메모리 장치, SD(Secure Digital) 카드, 솔리드 스테이트 드라이브(SSD, Solid State Drive), 하드 디스크 드라이브(HDD, Hard Disc Drive), 자기 드럼, 컴팩트 디스크(CD), 디브이디(DVD) 또는 레이저 디스크 등과 같은 광 기록 매체(optical media), 자기테이프, 광자기 디스크 및/또는 플로피 디스크 등과 같이 데이터를 영구적 또는 반영구적으로 저장 가능한 적어도 하나의 저장 매체를 이용하여 구현될 수 있다.

메모리(110)는 전자 장치(100)에 관한 적어도 하나의 인스트럭션(instruction)을 저장할 수 있다. 그리고, 메모리(110)에는 전자 장치(100)을 구동시키기 위한 O/S(Operating System)가 저장될 수 있다. 또한, 메모리(110)에는 본 개시의 다양한 실시 예들에 따라 전자 장치(100)이 동작하기 위한 각종 소프트웨어 프로그램이나 애플리케이션이 저장될 수도 있다. 그리고, 메모리(110)는 프레임 버퍼와 같은 휘발성 메모리, 플래시 메모리 등과 같은 반도체 메모리나 하드디스크(Hard Disk) 등과 같은 자기 저장 매체 등을 포함할 수 있다.

구체적으로, 메모리(110)는 본 개시의 다양한 실시 예에 따라 전자 장치(100)이 동작하기 위한 각종 소프트웨어 모듈을 저장할 수 있으며, 프로세서(130)는 메모리(110)에 저장된 각종 소프트웨어 모듈을 실행하여 전자 장치(100)의 동작을 제어할 수 있다. 즉, 메모리(110)는 프로세서(130)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등을 수행할 수 있다.

한편, 본 개시에서 메모리(110)라는 용어는 메모리(110), 프로세서(130) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함하는 의미로 사용될 수 있다.

특히, 메모리(110)는 악기의 연주 영상을 저장할 수 있다. 여기에서 악기는 기타, 바이올린, 첼로, 콘트라 베이스, 등 현악기와 관악기, 타악기, 건반 악기, 전자 악기 등을 포함할 수 있다.

또한, 메모리(110)는 적어도 하나 이상의 악기의 연주 영상을 저장할 수 있다. 예를 들어, 연주 영상은 두 개 이상의 기타로 연주하는 영상이거나, 현악기와 타악기가 동시에 연주되는 영상일 수 있다.

메모리(110)는 악기의 연주 영상을 구성하는 복수의 프레임을 저장할 수 있다. 예를 들어, 1초에 60개의 프레임으로 저장된 1분 길이의 영상의 경우, 메모리(110)는 3600개의 프레임을 저장할 수 있다.

여기에서, 메모리(110)는 악기의 연주 영상을 구성하는 복수의 프레임에 관한 정보로, 프레임마다 메타데이터를 저장할 수 있다. 예를 들어, 1초에 60개의 프레임으로 저장된 1분 길이의 영상의 경우, 메모리(110)는 3600개의 메타데이터를 저장할 수 있다. 여기에서 메모리(110)는 영상에 포함된 오디오와 관련된 정보, 제작자, 언어 등을 저장할 수 있다.

메모리(110)는 악기의 연주 영상을 구성하는 복수의 프레임과 대응되고, 대응되는 연주와 관련된 정보를 포함하는 메타데이터를 저장할 수 있다. 여기에서 연주와 관련된 정보에는 연주되는 음의 높이, 음의 길이 또는 악보의 음표의 인덱스를 포함할 수 있다. 여기에서 악보의 음표가 인덱스로 저장될 수 있다는 것은, 메모리(110)는 연주 영상과 관련된 악보에 포함된 복수의 음표에 대해서 순서대로 표시된 음표에 번호를 매긴 다음, 연주 영상 프레임과 대응되는 음표의 번호가 저장된다는 것일 수 있다. 예를 들어, 메모리(110)는 악기의 연주 영상에서 연주되는 첫 번째 음과 대응되는 악보의 첫 번째 음표의 인덱스 '1' 을 저장할 수 있다. 즉, 메모리(110)는 악기의 연주 영상의 첫 번째 프레임의 메타 데이터로, 악보의 첫 번째 음표의 인덱스 '1'을 저장할 수 있다.

또한, 메모리(110)는 악기의 연주 영상과 관련된 악보를 저장할 수 있다. 여기에서 연주 영상과 관련된 악보는, 연주 대상 노래의 원곡 악보이거나 원곡을 편곡한 곡의 악보, 또는 복수의 악기와 관련된 악보일 수 있다.

또한, 메모리(110)는 적어도 하나 이상의 악기의 연주 영상과 관련된 악보를 저장할 수 있다. 예를 들어, 메모리(110)는 두 개 이상의 기타를 연주할 수 있는 악보이거나, 현악기와 타악기가 동시에 연주할 수 있는 악보를 저장할 수 있다.

디스플레이(120)는 LCD(Liquid Crystal Display) 패널, OLED(Organic Light Emitting Diodes) 패널, AM-OLED(Active-Matrix Organic Light-Emitting Diode), LcoS(Liquid Crystal on Silicon), QLED(Quantum dot Light-Emitting Diode) 및 DLP(Digital Light Processing), PDP(Plasma Display Panel) 패널, 무기 LED 패널, 마이크로 LED 패널 등 다양한 종류의 디스플레이 패널을 포함할 수 있으나, 이에 한정되는 것은 아니다. 한편, 디스플레이(120)는 터치 패널과 함께 터치스크린을 구성할 수도 있으며, 플렉서블(flexible) 패널로 이루어질 수도 있다.

디스플레이(120)는 다양한 정보를 표시할 수 있다. 이를 위해, 디스플레이(120)는 LCD(Liquid Crystal Display) 등으로 구현될 수 있으며, 입력 인터페이스의 기능을 동시에 수행할 수 있는 터치 스크린으로 구현될 수도 있다.

구체적으로, 디스플레이(120)는 영상을 표시할 수 있다. 특히, 디스플레이(120)는 악기의 연주 영상을 표시할 수 있다. 여기에서 악기는 기타, 바이올린, 첼로, 콘트라 베이스, 등 현악기와 관악기, 타악기, 건반 악기, 전자 악기 등을 포함할 수 있다.

또한, 디스플레이(120)는 적어도 하나 이상의 악기의 연주 영상을 표시할 수 있다. 예를 들어, 연주 영상은 두 개 이상의 기타로 연주하는 영상이거나, 현악기와 타악기가 동시에 연주되는 영상일 수 있다.

디스플레이(120)는 악기의 연주 영상과 연주와 관련된 악보를 동시에 표시할 수 있다. 여기에서 디스플레이(120)는 악기의 연주 영상이 재생됨과 동시에 재생되는 연주 영상에 대응하는 연주 악보를 표시할 수 있다.

사용자에 의해 연주와 관련된 악보의 임의의 음표가 선택되는 경우, 디스플레이(120)는 해당 음표에 대응하는 연주 연상을 표시할 수 있다. 또한, 사용자에 의해 연주 영상에 대응되는 재생 바의 임의의 위치가 선택되는 경우, 디스플레이(120)는 해상 위치에 해당하는 연주 영상 및 연주 영상에 대응하는 악보를 표시할 수 있다.

프로세서(130)는 전자 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(130)는 상술한 바와 메모리(110)를 포함하는 전자 장치(100)의 구성과 연결되며, 상술한 바와 같은 메모리(110)에 저장된 적어도 하나의 인스트럭션을 실행함으로써, 전자 장치(100)의 동작을 전반적으로 제어할 수 있다. 특히, 프로세서(130)는 하나의 프로세서(130)로 구현될 수 있을 뿐만 아니라 복수의 프로세서(130)로 구현될 수 있다.

프로세서(130)는 다양한 방식으로 구현될 수 있다. 예를 들어, 프로세서(130)는 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 컨트롤 로직, 하드웨어 유한 상태 기계(hardware Finite State Machine, FSM), 디지털 신호 프로세서(Digital Signal Processor, DSP) 중 적어도 하나로 구현될 수 있다.

한편, 본 개시에서 프로세서(130)는 디지털 신호를 처리하는 중앙처리장치 (central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형 태로 구현될 수도 있다. 프로세서(130)는 메모리(110)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다. 뿐만 아니라, 프로세서(130)는 인공지능 기능을 수행하기 위하여, 별도의 AI 전용 프로세서인 GPU(graphics-processing unit), NPU(Neural Processing Unit), VPU(Visual Processing UniT) 중 적어도 하나를 포함할 수 있다.

구체적으로, 프로세서(130)는 악기를 연주하는 연주 영상 및 연주 영상과 관련된 악보를 획득할 수 있다. 여기에서 악기를 연주하는 연주 영상을 획득한다는 것은, 프로세서(130)는 통신 인터페이스를 통해 악기의 연주 영상을 수신하거나, 카메라를 통해 악기의 연주를 촬영하여 악기의 연주 영상을 획득할 수 있다.

그리고, 연주 영상과 관련된 악보를 획득할 수 있다는 것은, 프로세서(130)는 통신 인터페이스를 통해 연주와 관련된 악보를 획득하거나, 악기의 연주 영상으로부터 악보를 생성하여 연주와 관련된 악보를 획득할 수 있다. 여기에서 프로세서(130)는 악기의 연주 영상을 비디오와 오디오를 분리하여, 각각의 비디오와 오디오로부터 악보를 생성할 수 있다.

도 3 내지 6은 본 개시의 일 실시 예에 따른 영상과 악보의 매칭을 설명하기 위한 도면이다.

도 3을 참조하면, 프로세서(130)는 획득된 연주 영상의 오디오를 분석하여 악보(300) 중 연주 영상에 매칭되는 연주 구간(310)을 식별할 수 있다.

프로세서(130)는 획득된 연주 영상의 오디오를 분석하기 위하여 연주 영상의 오디오를 주파수 신호로 변환할 수 있다.

프로세서(130)는 연주 영상의 오디오를 분석하기 위하여 비디오와 오디오를 분리할 수 있다. 여기에서 비디오는 연주 영상에서 오디오를 제외한 영상 정보만 포함할 수 있고, 오디오는 연주 영상에서 영상 정보를 제외한 소리 정보만 포함할 수 있다.

연주 영상의 오디오를 주파수 신호로 변환하기 위하여, 프로세서(130)는 오디오의 데이터를 푸리에 변환(Fourier Transformation), 패스트 푸리에 변환(Fast Fourier Transform, FFT) 등을 이용할 수 있다. 프로세서(130)는 이와 같은 FFT 등을 이용하여 시간 영역의 오디오의 데이터를 주파수 영역으로 변환하여 오디오를 분석할 수 있다.

프로세서(130)는 이와 같이 변환된 주파수 신호에 기초하여 오디오에 포함된 복수의 음에 대한 정보를 획득할 수 있다. 여기에서, 오디오에 포함된 복수의 음에 대한 정보는 연주를 구성하는 멜로디(Melody), 리듬(Rhythm) 및 화성(Harmony)이 될 수 있다. 즉, 복수의 음에 대한 정보에는 복수의 음을 구성하는 음의 높이(Pitch), 길이(Length), 강세(Accent), 빠르기(Tempo), 세고 여림(Dynamic), 속도법(Agogic), 악절(Phrase), 음색(Tone) 등이 포함될 수 있다.

프로세서(130)는 변환된 주파수 신호에서, 가장 높은 파워를 갖는 주파수를 음의 높이로 판단할 수 있다. 프로세서(130)는 이와 같이 음의 높이로 판단된 주파수의 시간 영역에서 진행되는 시간을 기초로 음의 길이로 판단할 수 있다. 또한, 임의의 시점에서 연주되는 음이 하나 이상인 경우, 프로세서(130)는 변환된 주파수 영역에서 하나의 음에 해당하는 주파수와 다른 음에 해당하는 주파수를 구별할 수 있다. 즉, 프로세서(130)는 기설정된 주파수 편이 값(deviation)을 기준으로 가장 높은 파워를 갖는 주파수와 두번째로 높은 파워를 갖는 주파수를 구별할 수 있다. 따라서, 프로세서(130)는 해당 시점에서 두 개의 음에 대한 정보를 획득할 수 있다.

프로세서(130)는 획득한 복수의 음에 대한 정보에 기초하여 악보(300) 중 영상에 매칭되는 연주 구간(310)을 식별할 수 있다.

여기에서 악보(300)는 연주되는 노래의 원곡 악보이거나 원곡을 편곡한 곡의 악보, 또는 복수의 악기와 관련된 악보일 수 있다. 또한 악보(300)는 연주되는 노래의 전체 악보이거나 전체 중 일부의 악보일 수 있다.

프로세서(130)는 악보(300)에 포함된 복수의 음표 중 복수의 음에 포함된 첫번째로 획득된 제1 음의 높이와 대응하는 적어도 하나 이상의 음표를 판단할 수 있다. 여기에서 제1 음은 프로세서(130)가 연주 영상에서 획득한 복수 음 중 첫번째로 획득한 음을 제1 음으로 할 수 있다. 제1 음에는 음에 대한 정보로, 음의 높이, 길이, 강세, 빠르기, 세고 여림, 속도법, 악절, 음색 등이 포함될 수 있다. 또한, 화성을 포함하는 경우, 제1 음은 하나 이상의 음의 높이를 포함할 수 있다.

프로세서(130)는 제1 음의 높이와 대응하는 적어도 하나 이상의 음표를 판단할 수 있다. 프로세서(130)는 악보(300)의 음표의 진행 순서에 때라 음의 높이를 식별하여 제1 음의 높이와 일치하는 음표를 판단할 수 있다. 예를 들어, 프로세서(130)는 획득한 제1 음의 높이가 '도'이면, '도'와 일치하는 악보(300)의 음표를 판단할 수 있다. 여기에서 악보(300)의 음표의 음 높이를 판단하는 것은, 인공지능(Artificial intelligence) 또는 기계학습(machine learning)으로 판단될 수 있다.

프로세서(130)는 제1 음의 높이와 대응하는 적어도 하나 이상의 음표 중 제1 음의 길이와 대응하는 음표를 판단할 수 있다. 프로세서(130)는 제1 음의 높이와 일치하는 악보(300)의 음표가 하나 이상일 수 있다. 그리고, 프로세서(130)는 제1 음의 길이와 일치하는 악보(300)의 음표를 판단할 수 있다. 예를 들어, 프로세서(130)는 획득한 제1 음의 높이가 '도'이고, '도'와 일치하는 악보의 음표가 2개일 수 있다. 여기에서 제1 음의 '도'의 길이가 반박자에 해당하는 경우, 프로세서(130)는 반박자인 '도'와 일치하는 악보의 음표를 판단할 수 있다.

프로세서(130)는 판단된 제1 음의 길이와 대응하는 음표를 연주 구간(310)의 시작 음표로 식별할 수 있다. 즉, 프로세서(130)는 제1 음의 높이 및 길이와 일치하는 악보(300)의 음표를 연주 구간(310)의 시작 음표로 식별할 수 있다.

이와 같이 연주 구간(310)의 시작 음표가 식별된 경우, 프로세서(130)는 연주 영상에서 연주되는 음에 관한 정보, 영상의 길이 등을 고려하여 악보(300)에서 연주되는 연주 구간(310)을 식별할 수 있다.

이와 같이 연주 영상에서 연주되는 부분이 악보(300)의 전체인 경우뿐 아니라 전체 중 일부의 구간만 연주되더라도 프로세서(130)는 악보(300)에서 어떤 부분에 해당하는지 판단할 수 있다.

한편, 제1 음의 길이와 대응하는 음표가 복수이면, 프로세서(130)는 연주 영상의 복수의 음 중 제1 음 다음으로 식별된 제2 음을 판단할 수 있다. 즉, 제1 음의 높이 및 길이가 모두 일치하는 악보(300)의 음표가 두개 이상인 경우, 프로세서(130)는 연주 영상이 악보(300)에서 어느 부분 연주 구간의 시작 음표인지 식별하기 위하여 제2 음에 대한 정보를 판단할 수 있다. 여기에서 제2 음에 대한 정보에는, 프로세서(130)가 식별한 제1음 다음으로 획득한 음으로 음의 높이, 길이, 강세, 빠르기, 세고 여림, 속도법, 악절, 음색 등이 포함될 수 있다. 또한, 화성을 포함하는 경우, 제2 음은 하나 이상의 음의 높이를 포함할 수 있다.

프로세서(130)는 제1 음의 높이 및 제1 음의 길이와 대응하는 복수의 음표의 다음의 음표 중, 제2 음의 높이 및 제2 음의 길이를 기초로, 제2 음과 대응하는 음표를 판단할 수 있다. 즉, 프로세서(130)는 영상에서 연속적으로 연주되는 제1 음 및 제2 음과 일치하는 악보(300)의 음표를 판단하여 연주 구간(310)을 판단할 수 있다.

이와 같이 연주 구간(310)이 식별되었다면, 프로세서(130)는 연주 영상에 포함된 복수의 영상 프레임과 악보의 연주 구간(310)을 매칭하여 저장할 수 있다.

이를 위해, 프로세서(130)는 식별된 악보의 연주 구간(310)과 대응하는 연주 영상이 포함하는 복수의 프레임을 획득할 수 있다. 예를 들어, 1초에 60개의 프레임으로 저장된 1분 길이의 영상의 경우, 프로세서(130)는 연주 영상이 포함하는 3600개의 프레임을 획득할 수 있다.

프로세서(130)는 이와 같이 획득한 복수의 프레임에 대응하는 연주 구간(310)의 복수의 음표에 관한 정보를 메모리(110)에 저장할 수 있다. 여기에서 복수의 음표에 관한 정보에는 악보를 구성하는 멜로디, 리듬 및 화성이 포함될 수 있다. 즉, 복수의 음표에 관한 정보에는 복수의 음표를 구성하는 음의 높이, 길이, 강세, 빠르기, 세고 여림, 속도법, 악절, 음색 등이 포함될 수 있다. 복수의 음표에 관한 정보에는 이와 같이 음 자체에 관한 정보뿐 아니라, 악보에서 몇 번째 위치한 음표에 해당하는지에 대한 인덱스도 포함될 수 있다.

프로세서(130)는 복수의 프레임에 대응하는 연구 구간(310)의 복수의 음표에 관한 정보로, 메타데이터 형태로 메모리(110)에 저장할 수 있다. 예를 들어, 1초에 60개의 프레임으로 저장된 1분 길이의 영상의 경우, 프로세서(130)는 3600개의 프레임에 대응하는 3600개의 메타데이터를 메모리(110)에 저장할 수 있다.

프로세서(130)는 연주 구간(310)의 복수의 음표에 관한 정보로 음의 높이, 음의 길이 또는 악보의 음표의 인덱스 등을 메모리(110)에 저장할 수 있다. 여기에서 악보의 음표의 인덱스가 메모리(110)에 저장될 수 있다는 것은, 프로세서(130)가 연주 영상과 관련된 악보에 포함된 복수의 음표에 대해서 순서대로 표시된 음표에 번호를 매긴 다음, 연주 영상 프레임과 대응되는 음표의 번호를 메모리(110)에 저장한다는 것일 수 있다.

예를 들어, 프로세서(130)는 악기의 연주 영상에서 연주되는 제1 음과 대응되는 악보의 첫번째 음표의 인덱스를 '1'로 하여 메모리(110)에 저장할 수 있다. 그리고, 프로세서(130)는 악기의 연주 영상에서 연주되는 제2 음과 대응되는 악보의 두번째 음표의 인덱스를 '2'로 하여 메모리(110)에 저장할 수 있다.

이와 같이, 프로세서(130)는 악기의 연주 영상의 복수의 프레임의 메타 데이터로, 악보에서 진행되는 음표의 인덱스를 순차적으로 번호를 매겨 메모리(110)에 저장할 수 있다.

도 4는 본 개시의 일 실시 예에 영상 제1 음과 대응하는 악보(400)의 복수의 음표가 식별되는 경우 연주 구간의 시작 음표를 식별하는 방법을 설명하기 위한 도면이다.

도 4를 참조하면, 프로세서(130)는 연주 영상의 첫번째 음의 높이와 대응되는 복수의 음표 중 연주 구간의 시작 음표를 식별할 수 있다. 여기에서, 프로세서(130)는 영상에서 연주되는 제1 음의 높이와 일치하는 음표가 하나 이상인 경우, 제1 음의 길이와 일치하는 악보(400)의 음표를 판단할 수 있다.

예를 들면, 프로세서(130)는 획득한 제1 음의 높이가 '레라레(Dm)'이고, '레라레(Dm)'와 일치하는 악보(400)의 음표가 3개(411, 412, 413)일 수 있다. 여기에서 제1 음의 '레라레(Dm)'의 길이가 한박자 반에 해당하는 경우, 프로세서(130)는 한박자 반인 '레라레(Dm)'와 일치하는 악보(400)의 음표를 판단할 수 있다.

제1 음의 길이와 대응하는 음표가 복수(421, 422)이면, 프로세서(130)는 연주 영상의 복수의 음 중 제1 음 다음으로 식별된 제2 음을 판단할 수 있다. 즉, 제1 음의 높이 및 길이가 모두 일치하는 악보(400)의 음표가 두개 이상(421, 422)인 경우, 프로세서(130)는 연주 영상이 악보(400)에서 어느 부분 연주 구간의 시작 음표인지 식별하기 위하여 제2 음을 판단할 수 있다.

프로세서(130)는 제1 음의 높이 및 제1 음의 길이와 대응하는 복수의 음표의 다음의 음표 중, 제2 음의 높이 및 제2 음의 길이를 기초로, 제2 음과 대응하는 음표를 판단할 수 있다. 즉, 프로세서(130)는 영상에서 연속적으로 연주되는 제1 음 및 제2 음과 일치하는 악보의 음표를 판단하여 연주 구간(431)을 판단할 수 있다.

제1 음 및 제2 음과 대응하는 악보(400)의 음표가 복수의 이면, 프로세서(130)는 연주 구간(431)의 시작 음표를 식별하기 위해 제2 음 다음으로 식별된 제3 음을 판단할 수 있다. 즉, 프로세서(130)는 연속적으로 연주되는 제1 음 내지 제3 음과 대응되는 악보(400)의 음표를 식별하고, 연주 구간(431)의 시작 음표를 식별할 수 있다.

프로세서(130)는 식별된 시작 음표를 기준으로 연주 영상에서 연주되는 음에 관한 정보, 영상의 길이 등을 고려하여 악보(400)에서 연주되는 연주 구간(431)을 식별할 수 있다.

프로세서(130)는 이와 같이 획득한 복수의 프레임에 대응하는 연주 구간(431)의 복수의 음표에 관한 정보를 메모리(110)에 저장할 수 있다. 여기에서 복수의 음표에 관한 정보에는 악보를 구성하는 멜로디, 리듬 및 화성이 될 수 있다. 즉, 복수의 음표에 관한 정보에는 복수의 음표를 구성하는 음의 높이, 길이, 강세, 빠르기, 세고 여림, 속도법, 악절, 음색 등이 포함될 수 있다. 복수의 음표에 관한 정보에는 음 자체에 관한 정보뿐 아니라, 악보에서 몇 번째 위치한 음표에 해당하는지에 대한 인덱스도 포함될 수 있다.

프로세서(130)는 복수의 프레임에 대응하는 연구 구간(431)의 복수의 음표에 관한 정보로, 메타데이터 형태로 메모리(110)에 저장할 수 있다. 예를 들어, 1초에 60개의 프레임으로 저장된 1분 길이의 영상의 경우, 프로세서(130)는 3600개의 프레임에 대응하는 3600개의 메타데이터를 메모리(110)에 저장할 수 있다.

프로세서(130)는 연주 구간(431)의 복수의 음표에 관한 정보로 음의 높이, 음의 길이 또는 악보의 음표의 인덱스 등을 메모리(110)에 저장할 수 있다. 여기에서 악보의 음표의 인덱스가 메모리(110)에 저장될 수 있다는 것은, 프로세서(130)가 연주 영상과 관련된 악보에 포함된 복수의 음표에 대해서 순서대로 표시된 음표에 번호를 매긴 다음, 연주 영상 프레임과 대응되는 음표의 번호를 메모리(110)에 저장한다는 것일 수 있다.

도 5 본 개시의 일 실시 예에 따른 영상과 악보의 매칭 결과를 설명하기 위한 도면이다.

도 5를 참조하면, 프로세서(130)는 악기의 연주 영상(520), 연주 영상의 재생 바(530) 및 악기의 연주 영상(520)과 매칭되는 연주 구간(510)을 디스플레이(120)에 표시할 수 있다. 프로세서(130)는 악기의 연주 영상(520)이 재생되는 동안 재생 바(530)가 왼쪽에서 오른쪽으로 이동하는 동작을 하도록 디스플레이(130)를 제어할 수 있다. 프로세서(130)는 악기의 연주 영상(520)이 재생되는 동안 악기의 연주 영상(520)과 매칭되는 악기의 연주 구간(510)을 동시에 디스플레이(120)에 표시할 수 있다. 여기에서, 프로세서(130)는 연주 구간(510)의 전체 악보가 표시되거나, 전체 중 일부가 디스플레이(120)에 표시되도록 제어할 수 있다.

또한, 프로세서(130)는 연주 영상(520) 중 현재 재생되는 연주 부분과 대응되는 부분을 연주 구간(510)에 바(512) 형태로 표시할 수 있다. 예를 들면, 프로세서(130)는 현재 연주되는 부분이 ‘파도파라‘인 경우, 연주 구간(510) 중 첫 음에 해당하는 ‘파도파라’를 강조하는 표시로 바(512)의 형태로 표시할 수 있다.

도 6은 본 개시의 일 실시 예에 따른 음표를 선택하여 영상과 악보의 매칭 결과를 설명하기 위한 도면이다.

도 6을 참조하면, 악보의 연주 구간(610) 중 제1 음표가 선택되면, 프로세서(130)는 복수의 영상 프레임 중 제1 음표(615)에 대응하는 영상 프레임을 식별하고, 식별된 영상 프레임으로부터 연주 영상(620)을 디스플레이(120)에 재생할 수 있다.

여기에서, 제1 음표(615)는 악보의 연주 구간(610) 내에서 임의의 음표가 될 수 있다. 즉, 제1 음표(615)는 계이름 하나에 대응하는 음표일 수 있고, 복수의 화성을 이루는 복수의 계이름이 될 수 있다.

악보의 연주 구간 중 제1 음표(615)가 선택되면, 프로세서(130)는 복수의 영상 프레임 중 제1 음표(615)에 대응하는 영상 프레임을 식별할 수 있다. 여기에서 제1 음표(615)에 대응하는 영상 프레임을 식별할 수 있다는 것은, 프로세서(130)가 제1 음표(615)의 인덱스가 메타데이터로 저장된 영상 프레임을 복수의 영상 프레임에서 식별한다는 것일 수 있다.

프로세서(130)는 식별된 영상 프레임부터 연주 영상(620)을 디스플레이(120)에 재생할 수 있다. 즉, 프로세서(130)는 식별된 제1 음표(615)와 대응하는 영상프레임부터 연주 영상(620)을 재생할 수 있다.

여기에서 제1 음표(615)와 대응되는 연주 영상의 프레임이 하나 이상인 경우, 프로세서(130)는 해당 프레임 중 첫 번째 프레임부터 디스플레이(120)에 재생할 수 있다.

한편, 연주 영상(610)에 포함된 재생 바(630)의 제1 위치가 선택되면, 프로세서(130)는 제1 위치와 대응하는 영상 프레임을 식별하고, 식별된 영상 프레임부터 연주 영상(620)을 재생하고 식별된 영상 프레임과 대응하는 악보(610)를 표시할 수 있다.

즉, 재생 바(630) 내에서 임의의 제1 위치가 선택된 경우, 프로세서(130)는 제1 위치와 대응하는 영상 프레임이 몇 번째 프레임인지 식별할 수 있다. 이후, 프로세서(130)는 이와 같이 식별된 영상 프레임부터 연주 영상(620)을 재생할 수 있다. 이와 동시에 프로세서(130)는 식별된 영상 프레임과 대응하는 악보(610)를 디스플레이(120)에 표시할 수 있다.

도 7은 본 개시의 일 실시 예에 따른 악보를 생성하는 방법을 설명하기 위한 흐름도이고, 도 8 내지 11은 은 본 개시의 일 실시 예에 따른 악보를 생성하는 방법을 설명하기 위한 도면이다.

본 개시의 일 실시예에 따른 악기는 바이올린, 첼로, 콘트라베이스 등 현악기 중 어느 하나일 수 있다. 여기에서, 악기는 현악기 중 기타인 경우에 대하여 설명한다.

먼저, 연주 영상의 비디오와 오디오로 분리할 수 있다(S701).

연주 영상은 일반적으로 비디오와 오디오로 구성되어 있으며, 비디오의 데이터와 오디오의 데이터는 분리하여 데이터 처리를 될 수 있다. 여기에서 비디오의 데이터와 오디오의 데이터는 서로 구별되는 데이터에 해당한다. 따라서 비디오의 데이터 처리와 오디오의 데이터 처리는 독립적으로 이루어 지므로, 비디오의 데이터 처리와 오디오의 데이터 처리간 서로 영향을 주지 않는다.

도 8을 참조하면, 악기의 연주 영상(800)가 획득된 경우, 프로세서(130)는 연주 영상(800)의 비디오(810)와 오디오(820)로 분리할 수 있다. 비디오(810)는 연주 영상(800)에서 오디오를 제외한 영상만 추출한 것이며, 오디오(820)는 연주 영상(800)에서 영상을 제거한 시간에 따른 소리 데이터에 해당한다.

이후, 오디오의 음 높이 및 음 길이를 포함하는 복수의 음을 획득할 수 있다(S702).

여기에서 오디오는 악기가 연주되는 소리에 해당하여, 오디오는 리듬, 멜로디, 화성을 포함할 수 있다. 즉, 오디오에 포함된 음의 높이 및 음의 길이를 포함하여 복수의 음을 획득할 수 있다.

이와 같이 S702단계는, 오디오를 주파로 영역으로 변환할 수 있다. 이와 같이 시간 영역에 해당하는 오디오를 주파수 영역으로 변환하여, 오디오의 주파수 영역 중 가장 높은 파워를 갖는 제1 주파수를 기초로 음 높이를 판단할 수 있다. 또한, 제1 주파수의 지속시간을 기초로 음 길이를 판단할 수 있다.

여기에서 제1 주파수의 지속시간내에서, 복수의 음이 포함될 수 있다.

도 9를 참조하면, 프로세서(130)는 시간 영역의 오디오(820)를 주파수 영역(821)으로 변환할 수 있다. 여기에서 프로세서(130)는 주파수 영역(821)에서 가장 높은 파워를 갖는 제1 주파수(822)를 음 높이로 판단할 수 있다. 프로세서(130)는 이와 같은 제1 주파수(822)의 지속 시간을 기초로 제1 주파수(822)의 음 길이를 판단할 수 있다.

한편, 제1 주파수 및 기설정된 주파수 편이 값을 기초로, 상기 오디오의 주파수 영역 중 두번째로 높은 파워를 갖는 제2 주파수를 판단할 수 있다.

도 9를 참조하면, 프로세서(130)는 제1 주파수(822)보다 작은 파워로, 제1 주파수(822)와 화성을 이룬다고 판단되는 제2 주파수(823)를 판단할 수 있다. 즉, 프로세서(130)는 제2 주파수의 음 높이 및 음 길이를 획득할 수 있다. 프로세서(130)는 제1 주파수(822) 다음으로 높은 파워를 갖는 주파수를 제2 주파수(823)로 판단할 수 있다. 여기에서 프로세서(130)는 주파수 편이(826) 값을 기초로 제2 주파수(823)를 판단할 수 있다.

마찬가지로, 프로세서(130)는 제2 주파수(823) 다음으로 높은 파워를 갖는 주파수를 제3 주파수(824)로 판단하고, 제3 주파수(824)의 음 높이 및 음 길이를 획득할 수 있다.

한편, 프로세서(130)는 기설정된 기준(827) 이하의 주파수는 제1 주파수(822)와 화성을 이루는 주파수가 아니라고 판단할 수 있다. 프로세서(130)는 제3 주파수(824) 다음으로 높은 파워를 갖는 제4 주파수(325)가 주파수 영역에서 판단되더라도, 기설정된 기준(827) 이하에 해당되므로, 제1 주파수(822)와 화성을 이루는 주파수가 아닌 노이즈로 판단할 수 있다. 이와 같이 노이즈로 판단하는 기준은 일 예에 해당되며, 이에 한정하지 않는다.

다음으로, 비디오 영상의 기타의 파지 위치를 판단할 수 있다(S703).

S703 단계는 기타의 프랫 보드를 식별하고, 프랫 보드를 제1구간 내지 제5 구간으로 구별한 다음, 기타의 파지 위치가 제1 구간 내지 제5 구간 중 적어도 어느 하나에 구간에 위치하는지 판단할 수 있다.

도 10을 참조하면, 프로세서(130)는 분리된 연주 영상(810)에서 기타의 프랫 보드(820)을 식별할 수 있다. 프로세서(130)는 인공지능 또는 머신러닝을 이용하여 연주 영상(810)에서 기타의 프랫 보드(820)을 식별할 수 있다.

연주 영상(810)에서 기타의 프랫 보드(820)가 식별되었다면, 프로세서(130)는 프랫 보드(820)를 제1 구간 내지 제5 구간으로 구별할 수 있다. 프로세서(130)는 프랫 보드(820)의 프랫 영역은 규칙적으로 그 영역의 면적이 감소하게 되어있어, 이를 기초로 프랫 보드(820)의 구간을 구별할 수 있다. 또는 프로세서(130)는 프랫 영역을 구분하는 선을 식별하여 프랫 보드(820)의 구간을 구별할 수 있다. 이와 같이 프랫 보드(820)의 구간을 구별하는 것은 일 예에 해당하고, 이에 한정하지 않는다.

도 11을 참조하면, 프로세서(130)는 프랫 보드(820)를 제1 구간 내지 제5 구간(831, 832, 833,834, 835)으로 구별할 수 있다. 프랫 보드(820)의 1~4번 프랫을 제1 구간, 5~9번 프랫을 제2 구간, 10~14번 프랫을 제3 구간, 15~19번 프랫을 제4 구간, 20번 프랫 이상은 제5 구간으로 나누는 경우, 음 높이가 동일한 두개의 음이 하나의 구간에 존재하지 않게 되므로, 프로세서(130)는 이와 같이 제1 구간 내지 제5 구간(831, 832, 833,834, 835)으로 구별할 수 있다. 그러나, 프로세서(130)는 기타의 파지 위치를 판단하는 방식, 기타의 형태, 모양 등을 고려하여 다른 방식으로 프랫 보드(820)를 구별할 수 있다.

그리고 S703 단계는 기타의 파지 위치가 제1 구간 내지 제5 구간(831, 832, 833,834, 835) 중 적어도 어느 하나의 구간에 위치하는지 판단할 수 있다.

도 10을 참조할 때, 연주 영상(810)은 악기의 연주자가 특정한 음을 내기 위하여 악기를 파지하는 장면을 포함한다. 구체적으로, 기타의 연주자가 기타의 프랫 보드(820) 중 어느 프랫을 파지하는지에 따라 연주되는 음이 결정될 수 있다. 예를 들어, 연주자가 다섯번 째 프랫에 3번 현을 파지한 경우, 연주되는 음은 262 Hz의 '도'에 해당되나, 세번째 프랫에 5번 현을 파지한 경우, 연주되는 음은 131 Hz의 '도'에 해당된다.

이와 같이, 기타의 파지 위치(830)를 정확하게 판단한 경우, 프로세서(130)는 악보를 생성하기 위한 음의 높이를 판단할 수 있다.

한편, 기타의 파지 위치를 정확하게 판단한 경우뿐 아니라, 파지 위치를 개략적으로 판단하는 경우에도 오디오에서 음의 높이가 획득되었다면, 프로세서(130)는 획득한 음과 기타의 파지 위치에 기초하여 악보를 생성할 수 있다(S704).

예를 들어, 프로세서(130)는 오디오에서 획득한 음의 높이가 122 Hz이며, 기타의 파지 위치가 1~3번 프랫 중 하나라고 판단할 수 있다. 이러한 경우, 프로세서(130)는 1~3번 프랫에서 연주될 수 있는 복수의 음 중에서, 음의 높이가 122 Hz에 가까운 123 Hz인 '시'에 해당함을 판단할 수 있다. 이와 같이 프로세서(130)는 2번 프랫의 123 Hz인 '시'음 높이와 대응하는 계이름 '시'음표를 악보에 추가하여 연주 영상(810)의 악보를 생성할 수 있다.

이에 더하여, 프로세서(130)는 기타 현을 표현한 악보로 타브(TAB) 악보를 생성할 수 있다.

타브(TAB)악보는 기타 현을 오선지에 선을 하나 추가하여 6개의 선으로 기타 현을 표현하고, 연주될 음 높이와 대응하는 기타 현과 프랫 번호를 함께 표시한 악보에 해당한다. 예를 들어, 3번 프랫의 5번 현을을 파지한 경우 '도'와 대응하는 음을 연주할 수 있는데, 이를 타브 악보로 표현할 경우, 타브 악보의 5번째 줄에 '3'을 표시하여 어떠한 프랫과 현을 파지해야 하는지를 나타낼 수 있다. 이와 같은 타브 악보는 일반적인 5선지 악보와 함께 표시될 수 있다.

예를 들어, 프로세서(130)는 오디오에서 획득한 음의 높이가 122 Hz이며, 기타의 파지 위치가 1~3번 프랫 중 하나라고 판단할 수 있다. 여기에서 프로세서(130)는 1~3번 프랫에서 연주될 수 있는 복수의 음 중에서, 음의 높이가 122 Hz에 가까운 123 Hz인 '시'에 해당함을 판단할 수 있다. 이와 같이 프로세서(130)는 123 Hz인 '시'과 대응하는 2번 프랫의 5번 현에 대하여 타브 악보 5번째 줄에 '2'를 표시하여 타브 악보를 생성할 수 있다.

한편, 프로세서(130)는 기타의 파지 위치가 제1 구간 내지 제5 구간(831, 832, 833,834, 835) 중 적어도 어느 하나의 구간에 위치하는지 판단하여 악보를 생성할 수 있다.

예를 들어, 프로세서(130)는 오디오에서 획득한 음의 높이가 122 Hz이며, 기타의 파지 위치가 1~3번 프랫 중 하나라고 판단할 수 있다. 이러한 경우, 프로세서(130)는 기타의 파지 위치가 1~3번 프랫을 포함하는 제1 구간(831)을 파지하였다고 판단할 수 있다. 또한, 프로세서(130)는 제1 구간(831)에서 연주될 수 있는 복수의 음 중에서, 음의 높이가 122 Hz에 가까운 123 Hz인 '시'에 해당함을 판단할 수 있다. 이와 같이 프로세서(130)는 제1 구간(831)내에서 123 Hz인 '시'음 높이와 대응하는 계이름 '시'음표를 악보에 추가하여 연주 영상(810)의 악보를 생성할 수 있다. 또한, 프로세서(130)는 123 Hz인 '시'과 대응하는 2번 프랫의 5번 현에 대하여 타브 악보 5번째 줄에 '2'를 표시하여 타브 악보를 생성할 수 있다.

또한, 오디오에서 획득한 음의 높이가 하나 이상이며, 기타의 파지 위치가 하나 이상인 경우에도 프로세서(130)는 하나 이상의 음표에 대하여 악보를 생성할 수 있다.

예를 들어, 프로세서(130)는 오디오에서 획득한 음의 높이가 122 Hz 및 296 Hz이며, 기타의 파지 위치가 1~3번 프랫 중 두개의 프랫이라고 판단할 수 있다. 이러한 경우, 프로세서(130)는 기타의 파지 위치가 1~3번 프랫을 포함하는 제1 구간(831)을 파지하였다고 판단할 수 있다. 또한, 프로세서(130)는 제1 구간(831)에서 연주될 수 있는 복수의 음 중에서, 음의 높이가 122 Hz에 가까운 123 Hz인 '시'에 해당함을 판단하고, 296 Hz에 가까운 294 Hz인 '레'에 해당함을 판단할 수 있다. 이와 같이 프로세서(130)는 제1 구간(831)내에서 123 Hz인 '시'음 높이와 대응하는 계이름 '시'음표 및 294 Hz인 '레'음 높이와 대응하는 계이름 '레'음표를 악보에 추가하여 연주 영상(810)의 악보를 생성할 수 있다. 또한, 프로세서(130)는 123 Hz인 '시'과 대응하는 2번 프랫의 5번 현에 대하여 타브 악보 5번째 줄에 '2'를 표시하고 294 Hz인 '레'과 대응하는 3번 프랫의 2번 현에 대하여 타브 악보 2번째 줄에 '3'를 표시하여 타브 악보를 생성할 수 있다.

도 12는 본 개시의 일 실시 예에 따른 전자 장치의 세부 구성을 설명하기 위한 블록도이다.

도 12에 도시된 바와 같이, 전자 장치(100)는 메모리(110), 디스플레이(120),프로세서(130), 입력 인터페이스(140), 마이크(150), 센서(160), 스피커(170), 동신 인터페이스(180) 및 카메러(190)을 포함할 수 있다. 이하에서는 도 2에서의 설명과 중복되는 부분에 대한 자세한 설명은 생략하기롤 한다.

입력 인터페이스(140)는 회로를 포함하며, 전자 장치(100)에서 지원하는 각종 기능을 설정 또는 선택하기 위한 사용자 명령을 입력받을 수 있다. 이를 위해, 입력 인터페이스(140)는 복수의 버튼을 포함할 수 있고, 디스플레이의 기능을 동시에 수행할 수 있는 터치 스크린으로 구현될 수도 있다.

이 경우, 프로세서(130)는 입력 인터페이스(140)를 통해 입력된 사용자 명령에 기초하여 전자 장치(100)의 동작을 제어할 수 있다. 예를 들어, 프로세서(143)는 입력 인터페이스(140)를 통해 입력된 전자 장치(100)의 온/오프 명령, 전자 장치(100)의 기능의 온/오프 명령 등에 기초하여, 전자 장치(100)을 제어할 수 있다.

마이크(150)는 소리를 획득하여 전기 신호로 변환하는 모듈을 의미할 수 있으며, 콘덴서 마이크, 리본 마이크, 무빙코일 마이크, 압전소자 마이크, 카본 마이크, MEMS(Micro Electro Mechanical System) 마이크일 수 있다. 또한, 무지향성, 양지향성, 단일지향성, 서브 카디오이드(Sub Cardioid), 슈퍼 카디오이드(Super Cardioid), 하이퍼 카디오이드(Hyper Cardioid)의 방식으로 구현될 수 있다.

센서(160)는 전자 장치(100)와 관련된 다양한 정보를 획득할 수 있다. 특히, 센서(160)는 전자 장치(100)의 위치 정보를 획득할 수 있는 GPS를 포함할 수 있으며, 전자 장치(100)를 사용하는 사용자의 생체 정보를 획득하기 위한 생체 센서(예로, 심박수 센서, PPG 센서 등), 전자 장치(100)의 움직임을 감지하기 위한 움직임 센서 등과 같은 다양한 센서를 포함할 수 있다.

스피커(170)는 오디오를 출력할 수 있다. 구체적으로, 프로세서(130)는 전자 장치 (100)의 동작과 관련된 다양한 알림음 또는 음성 안내 메시지를 스피커(170)를 통해 출력할 수 있다.

통신 인터페이스(180)는 회로를 포함하며, 외부 장치와의 통신을 수행할 수 있다. 프로세서(130)는 통신 인터페이스(180)를 통해 연결된 외부 장치로부터 각종 데이터 또는 정보를 수신할 수 있으며, 외부 장치로 각종 데이터 또는 정보를 전송할 수도 있다.

카메라(190)는 정지 영상 및 동영상을 촬영할 수 있다. 일 실시 예에 따르면, 카메라(190)는 하나 이상의 렌즈, 이미지 센서, 이미지 시그널 프로세서, 또는 플래시를 포함할 수 있다.

도 13은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

본 개시의 일 실시 예에 따른 전자 장치는 영상을 재생할 수 있는 디스플레이가 포함될 수 있다.

먼저, 악기를 연주하는 연주 영상 및 연주 영상과 관련된 악보를 획득할 수 있다(S1301).

이후 획득된 연주 영상의 오디오를 분석하여 악보 중 연주 영상에 매칭되는 연주 구간을 식별할 수 있다(S1302).

그리고, 연주 영상에 포함된 복수의 영상 프레임과 악보의 연주 구간을 매칭하여 저장할 수 있다(S1303).

다음으로, 악보의 연주 구간 중 제1 음표가 선택되면, 복수의 영상 프레임 중 제1 음표에 대응하는 영상 프레임을 식별하고, 식별된 영상 프레임부터 연주 영상을 디스플레이에 재생할 수 있다(S1304).

한편, S1302 단계는 악보에 포함된 복수의 음표 중 복수의 음에 포함된 첫번째로 획득된 제1 음의 높이와 대응하는 적어도 하나 이상의 음표를 판단할 수 있다.

또한, 제1 음의 높이와 대응하는 적어도 하나 이상의 음표 중 제1 음의 길이와 대응하는 음표를 판단할 수 있다.

그리고, 판단된 제1음의 길이와 대응하는 음표를 연주 구간의 시작 음표로 식별하여 전자 장치를 제어할 수 있다.

또한, S1302 단계는 제1 음의 길이와 대응하는 음표가 복수이면, 복수의 음 중 제1 음 다음으로 식별된 제2 음을 판단할 수 있다.

그리고, 제1 음의 높이 및 제1 음의 길이와 대응하는 복수의 음표의 다음의 음표 중, 제2 음의 높이 및 제2 음의 길이를 기초로, 제2 음과 대응하는 음표를 판단하여 전자 장치를 제어할 수 있다.

한편, S1303 단계는 식별된 악보의 연주 구간과 대응하는 연주 영상이 포함하는 복수의 프레임을 획득할 수 있다.

또한, 복수의 프레임에 대응하는 연주 구간의 복수의 음표에 관한 정보를 메모리에 저장하는 하여 전자 장치를 제어할 수 있다.

한편, 연주 영상을 획득하는 구체적인 방법에 대해서는 전술한 바 있다.

본 개시의 일 실시 예에 따른 전자 장치에는 영상을 재생할 수 있는 디스플레이가 포함될 수 있다.

먼저, 전자 장치(100)는 사용자 입력에 따라 악기를 연주하는 연주 영상 및/또는 연주 영상과 관련된 악보를 선택할 수 있다(S1401).

그리고, 악기를 연주하는 연주 영상 및/또는 연주 영상과 관련된 악보가 선택 되면, 전자 장치(100)는 선택된 연주 영상 및/또는 연주 영상과 관련된 악보에 대한 정보를 전송할 수 있다(S1402). 이때, 전자 장치(100)는 선택된 연주 영상 및/또는 연주 영상과 관련된 악보 자체를 전송하거나 선택된 연주 영상에 의해 연주 영상과 관련된 악보를 획득할 수 있다는 정보를 전송할 수 있다.

서버(1400)는 연주 영상 및 연주 영상과 관련된 악보에 대한 정보에 기초하여 연주 영상 및 연주 영상과 관련된 악보를 획득할 수 있다(S1403). 구체적으로, 연주 영상 및 연주 영상과 관련된 악보 자체가 전송되면, 서버(1400)는 전송된 연주 영항 및 악보를 획득할 수 있다. 또는 선택된 연주 영상에 의해 연주 영상과 관련된 악보를 획득할 수 있다는 정보가 전송된 경우, 서버(1400)는 전송된 연주 영상을 기초로 연주 영상과 관련된 악보를 획득할 수 있다.

이후 서버(1400)는 획득된 연주 영상의 오디오를 분석하여 악보 중 연주 영상에 매칭되는 연주 구간을 식별할 수 있다(S1404). 이때, 서버(1400)는 연주 영상의 오디오에 포함된 음에 대한 정보에 기초하여 연주 영상에 매칭되는 연주 구간을 식별할 수 있다.

그리고, 서버(1400)는 연주 영상에 포함된 복수의 영상 프레임과 악보의 연주 구간을 매칭하여 저장할 수 있다(S1405). 여기에서 서버(1400)는 복수의 영상 프레임과 매칭되는 악보의 연주 구간에 포함된 음표를 인덱스 형태로 저장할 수 있다.

다음으로, 서버(1400)는 악보의 연주 구간에 관련된 정보를 전송할 수 있다(S1406). 이때, 서버(1400)는 매칭하여 저장된 연주 구간의 악보 자체를 전송하거나, 저장된 연주 구간의 악보를 접근할 수 있는 정보를 전송할 수 있다.

그리고, 전자 장치(100)는 전송된 악보의 연주 구간 중 제1 음표를 선택할 수 있다(S1407).

다음으로, 전자 장치(100)는 선택된 제1 음표를 전송할 수 있다(S1408). 이 때, 전자 장치(100)는 제1 음표의 인덱스를 전송하거나, 제1 음표와 대응되는 음 의 높이, 음의 길이를 포함하는 음에 대한 정보를 전송할 수 있다.

그리고, 선택된 제1 음표가 전송되면, 서버(1400)는 복수의 영상 프레임 중 제1 음표에 대응하는 영상 프레임을 식별할 수 있다(S1409). 이때, 서버(1400)는 복수의 영상 프레임 중 제1 음표의 인덱스가 저장된 영상 프레임을 식별할 수 있다.

그리고, 서버(1400)는 식별된 영상 프레임에 대한 정보를 전송할 수 있다(S1410). 여기에서, 식별된 영상 프레임에 대한 정보는 제1 음표의 인덱스, 제1 음표의 인덱스가 저장된 영상 프레임, 식별된 영상 프레임이 시작하는 재생 시간, 식별된 영상 프레임부터 시작되는 영상 중 어느 하나일 수 있다.

이후, 영상 프레임에 대한 정보가 전송되면, 전자 장치(100)는 식별된 영상 프레임부터 연주 영상을 디스플레이에 재생할 수 있다(S1411).

한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 기기를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

영상을 재생할 수 있는 전자 장치의 제어 방법에 있어서,

악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득하는 단계;

상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하는 단계;

상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장하는 단계; 및

상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생하는 단계를 포함하는 제어 방법.
제1항에 있어서,

상기 연주 구간을 식별하는 단계는,

상기 연주 영상의 오디오를 주파수 신호로 변환하는 단계;

상기 변환된 주파수 신호에 기초하여 상기 오디오에 포함된 복수의 음에 대한 정보를 획득하는 단계;

상기 획득한 복수의 음에 대한 정보에 기초하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하는 단계를 포함하는 제어 방법.
제2항에 있어서,

상기 연주 구간을 식별하는 단계는,

상기 악보에 포함된 복수의 음표 중 상기 복수의 음에 포함된 첫번째로 획득된 제1 음의 높이와 대응하는 적어도 하나 이상의 음표를 판단하는 단계;

상기 제1 음의 높이와 대응하는 적어도 하나 이상의 음표 중 상기 제1 음의 길이와 대응하는 음표를 판단하는 단계; 및

상기 판단된 제1음의 길이와 대응하는 음표를 상기 연주 구간의 시작 음표로 식별하는 단계;를 포함하는 제어 방법.
제3항에 있어서,

상기 제1 음의 길이와 대응하는 음표가 복수이면, 상기 복수의 음 중 상기 제1 음 다음으로 식별된 제2 음을 판단하는 단계; 및

상기 제1 음의 높이 및 상기 제1 음의 길이와 대응하는 복수의 음표의 다음의 음표 중, 상기 제2 음의 높이 및 상기 제2 음의 길이를 기초로, 상기 제2 음과 대응하는 음표를 판단하는 단계;를 포함하는 제어 방법.
제1항에 있어서,

상기 저장하는 단계는,

상기 식별된 악보의 연주 구간과 대응하는 상기 연주 영상이 포함하는 복수의 프레임을 획득하는 단계;

상기 복수의 프레임에 대응하는 상기 연주 구간의 복수의 음표에 관한 정보를 메모리에 저장하는 단계를 포함하는 제어 방법.
제1항에 있어서,

상기 악기는 기타일 수 있고,

상기 연주 영상과 관련된 악보를 획득하는 단계는,

상기 연주 영상의 비디오와 오디오로 분리하는 단계;

상기 오디오의 음 높이 및 음 길이를 포함하는 복수의 음을 획득하는 단계;

상기 비디오 영상의 상기 기타의 파지 위치를 판단하는 단계; 및

상기 획득된 음과 상기 기타의 파지 위치에 기초하여 악보를 생성하는 단계를 포함하는 제어 방법.
제6항에 있어서,

상기 복수의 음을 획득하는 단계는,

상기 오디오를 주파수 영역으로 변환하는 단계;

상기 오디오의 주파수 영역 중 가장 높은 파워를 갖는 제1 주파수를 기초로 상기 음 높이를 판단하는 단계;

상기 제1 주파수의 지속 시간을 기초로 상기 음 길이를 판단하는 단계를 포함하는 제어 방법.
제7항에 있어서,

상기 제1 주파수 및 기설정된 주파수 편이 값을 기초로, 상기 오디오의 주파수 영역 중 두번째로 높은 파워를 갖는 제2 주파수를 판단하는 단계;

상기 제1 주파수 및 제2 주파수를 기초로 상기 음 높이를 판단하는 단계; 및

상기 제1 주파수 및 제2 주파수의 지속 시간을 기초로 상기 음 길이를 판단하는 단계를 포함하는 제어 방법.
제6항에 있어서,

상기 비디오 영상의 상기 기타의 파지 위치를 판단하는 단계는,

상기 기타의 프랫 보드를 식별하는 단계;

상기 프랫 보드를 제1 구간 내지 제5 구간으로 구별하는 단계;

상기 기타의 파지 위치가 상기 제1 구간 내지 제5 구간 중 적어도 어느 하나의 구간에 위치하는지 판단하여 상기 기타의 파지 위치를 판단하는 단계를 포함하는 제어 방법.
제1항에 있어서,

상기 연주 영상에 포함된 재생 바의 제1 위치를 선택하면, 상기 제1 위치와 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 재생하는 단계; 및

상기 식별된 영상 프레임과 대응하는 상기 악보를 표시하는 단계를 포함하는 제어 방법.
영상을 재생할 수 있는 전자 장치에 있어서,

영상 및 악보가 저장될 수 있는 메모리;

영상 및 악보가 표시될 수 있는 디스플레이; 및

프로세서를 포함하고,

상기 프로세서는,

악기를 연주하는 연주 영상 및 상기 연주 영상과 관련된 악보를 획득하고,

상기 획득된 연주 영상의 오디오를 분석하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하고,

상기 연주 영상에 포함된 복수의 영상 프레임과 상기 악보의 연주 구간을 매칭하여 저장하고,

상기 악보의 연주 구간 중 제1 음표가 선택되면, 상기 복수의 영상 프레임 중 상기 제1 음표에 대응하는 영상 프레임을 식별하고, 상기 식별된 영상 프레임부터 상기 연주 영상을 디스플레이에 재생하는 전자 장치.
제11항에 있어서,

상기 프로세서는,

상기 연주 영상의 오디오를 주파수 신호로 변환하고,

상기 변환된 주파수 신호에 기초하여 상기 오디오에 포함된 복수의 음에 대한 정보를 획득하고,

상기 획득한 복수의 음에 대한 정보에 기초하여 상기 악보 중 상기 연주 영상에 매칭되는 연주 구간을 식별하는 전자 장치.
제12항에 있어서,

상기 프로세서는,

상기 악보에 포함된 복수의 음표 중 상기 복수의 음에 포함된 첫번째로 획득된 제1 음의 높이와 대응하는 적어도 하나 이상의 음표를 판단하고,

상기 제1 음의 높이와 대응하는 적어도 하나 이상의 음표 중 상기 제1 음의 길이와 대응하는 음표를 판단하고,

상기 판단된 제1 음의 길이와 대응하는 음표를 상기 연주 구간의 시작 음표로 식별하는 전자 장치.
제13항에 있어서,

상기 프로세서는,

상기 제1 음의 길이와 대응하는 음표가 복수이면, 상기 복수의 음 중 상기 제1 음 다음으로 식별된 제2 음을 판단하고

상기 제1 음의 높이 및 상기 제1 음의 길이와 대응하는 복수의 음표의 다음의 음표 중, 상기 제2 음의 높이 및 상기 제2 음의 길이를 기초로, 상기 제2 음과 대응하는 음표를 판단하는 전자 장치.
제11항에 있어서,

상기 프로세서는,

상기 식별된 악보의 연주 구간과 대응하는 상기 연주 영상이 포함하는 복수의 프레임을 획득하고

상기 복수의 프레임에 대응하는 상기 연주 구간의 복수의 음표에 관한 정보를 상기 메모리에 저장하는 전자 장치.