KR20190093492A - 음악 인식 스마트 스피커 - Google Patents

음악 인식 스마트 스피커 Download PDF

Info

Publication number
KR20190093492A
KR20190093492A KR1020180123983A KR20180123983A KR20190093492A KR 20190093492 A KR20190093492 A KR 20190093492A KR 1020180123983 A KR1020180123983 A KR 1020180123983A KR 20180123983 A KR20180123983 A KR 20180123983A KR 20190093492 A KR20190093492 A KR 20190093492A
Authority
KR
South Korea
Prior art keywords
music
feature value
information
processing unit
database
Prior art date
Application number
KR1020180123983A
Other languages
English (en)
Inventor
청 리 제임스
Original Assignee
나노 쉴드 테크놀로지 씨오., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 나노 쉴드 테크놀로지 씨오., 엘티디. filed Critical 나노 쉴드 테크놀로지 씨오., 엘티디.
Publication of KR20190093492A publication Critical patent/KR20190093492A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

하우징, 입력 장치 및 제어 장치를 포함하는 음악 인식 스마트 스피커가 개시된다. 상기 입력 장치는 음악 소스로부터 음악 정보를 수신한다. 상기 제어 장치는 프로세싱 유닛, 저장 유닛, 통신 유닛, 음성 모듈 및 음악 인식 모듈을 포함한다. 상기 저장 유닛은 음악 데이터베이스를 포함한다. 상기 음악 인식 모듈은 상기 음악 정보의 특징 값을 인식하고, 상기 특징 값을 사용하여 상기 특징 값과 매칭되는 특정 노래들과 관련 정보를 상기 음악 데이터베이스에서 검색하기 위하여 상기 음악 데이터베이스에 저장된 복수의 노래들을 멜로디 비교하는 것을 수행하고, 그리고 상기 통신 유닛을 통해서 클라우드 서버로 업로드 한다. 상기 클라우드 서버의 웹페이지를 브라우징한 이후에 사용자는 상기 음악 정보의 특징 값과 매칭되는 특정 노래와 관련 정보가 상기 음악 데이터베이스에 저장되어 있는지 알게 된다.

Description

음악 인식 스마트 스피커{SMART SPEAKER WITH MUSIC RECOGNITION}
관련 출원의 상호 참조
본 출원은 2018년 2월 1일에 출원된 미국 가특허출원 62/625,307호와 2018년 10월 5일에 출원된 미국 특허출원 16/152,435호에 대한 우선권을 주장하고, 이것은 본 명세서에 참조로서 포함된다.
본 발명의 기술 분야는 일반적으로 스마트 스피커, 구체적으로는 음악 인식 스마트 스피커(smart speaker with music recognition)에 대한 것이다.
지능형 개인 어시스턴트(intelligent personal assistant) 또는 가상 어시스턴트(virtual assistant)로 알려진 음성 어시스턴트는 인공 지능의 산물이다. 상기 음성 어시스턴트는 작동을 위해 스피커, 마이크로폰, 블루투스, WI-FI 모듈 및 프로세싱 유닛(processing unit)과 같은 하드웨어 요소들이 장착될 필요가 있다. 상기 하드웨어 요소들과 음성 어시스턴트들을 구비한 많은 장치들이 개발되었고, 스마트 스피커는 가장 유명한 것들 중 하나이다. 상기 스마트 스피커의 특징은 스마트 스피커가 스크린이 없고 키보드가 없고 버튼이 없고 오로지 음성에 의해서 제어가 될 수 있다는 점이다.
상기 음성 어시스턴트의 대화 인터페이스(dialogue interface)는 인간의 대화를 모방한 사용자 인터페이스이다. 따라서, 사용자가 상기 스마트 스피커에게 트리거 단어(trigger word)를 말할 필요가 있다. 마이크로폰이 음성을 수신한 이후에 상기 트리거 단어의 음파가 신호로 변환되고 상기 음성 어시스턴트에게 전달되고, 상기 음성 어시스턴트를 깨워서 상기 음성 어시스턴트가 지시가 내려질 때만 과업을 수행하도록 할 수 있다. 그리고, 상기 사용자가 스마트 스피커에게 얘기하기 시작한 이후에, 명령의 음파가 신호로 변환되고 상기 음성 어시스턴트로 전달된다. 상기 음성 어시스턴트가 사용자의 지시를 이해한 다음에 상기 스마트 스피커는 상기 사용자에 의해 할당된 과업을 즉시 수행한다.
Apple의 Siri, Google의 Assistant, Amazon의 Alexa, Microsoft의 Cortana 및 Samsung의 Bixby와 같은 많은 유명한 음성 어시스턴트들이 존재한다.
음성 어시스턴트들은 매우 다재다능하고 인터넷을 통하여 정보(예를 들어서, 시간, 날짜, 날씨, 교통, 뉴스, 주식 시세, 여행 일정, 소매가 또는 스포츠 이벤트 등)를 찾고, 과업들을 처리하고 (예를 들어서 알람 시계 설정), 메시지를 보내고, 음악을 틀고, 온라인 쇼핑을 하고 스마트 라이트, 온도조절장치, 차고문, 에어 컨디셔닝, 텔레비전, 컴퓨터, 냉장고 등을 제어하고, 정보를 수집하고(예를 들어서, 사용자 정보를 수집하는 고객 서비스 센터, 초기 진단을 제공하는 의료 서비스 등), 기술을 훈련하고(예를 들어서, AI 교사에게 말함으로써 새로운 언어를 습득), 할일 목록과 쇼핑 리스트를 관리하고, 테이크 아웃을 주문하고, 예약 등을 할 수 있다.
때때로 사용자들은 특정 유쾌한 음악이 플레이될 때 Pandora, Spotify, Apple Music 및 다른 온라인 음악 스트리밍 서비스 플랫폼들로부터 또는 라디오 방송국, TV, 매장(shop) 및 다른 플랫폼들로부터 음악 정보를 찾기 원한다. 사용자는 막 들은 음악 정보와 매칭되는 관련 정보나 특정 노래가 음악 라이브러리에 저장되었는지 여부를 알기 위하여 음성 어시스턴트를 사용하기 원한다. 그러나, 특정 노래의 이름을 알지 못하면, 사용자는 그러한 음악 정보 검색을 위하여 음성 어시스턴트를 사용할 수 없다. 음성 어시스턴트가 오로지 음성 인식 능력을 가지고 있고 음악 인식 능력은 가지고 있지 않기 때문에, 사용자가 스마트 스피커에서 들은 음악의 멜로디를 들려줘도(play) 상기 음성 어시스턴트는 지시를 이해할 수 없고, 따라서 음악 데이터베이스로부터 상기 노래와 매칭되는 음악을 찾을 수 없다. 따라서 사용자는 들은 음악 정보와 매칭되는 특정 노래와 관련 정보가 음악 데이터베이스에 저장되어 있는지를 음성 어시스턴트를 통해서 알 길이 없다.
본 발명의 주요한 목적은, 음악 인식 기술을 통하여 청취한 음악 정보의 특징 값(feature value)과 매칭되는 특정 노래와 관련 정보를 음악 데이터베이스로부터 신속하게 검색할 수 있고, 클라우드 서버에 업로드 할 수 있고, 사용자가 상기 클라우드 서버로부터 웹페이지를 브라우징한 후, 상기 음악 정보의 특징 값과 매칭되는 특정 노래와 관련 정보가 상기 음악 데이터베이스에 저장되었는지를 간접적으로 알 수 있는 음성 인식 스마트 스피커(a smart speaker with music recognition)를 제공하기 위한 것이다.
상기한 것을 포함한 목적을 달성하기 위하여 본 발명은 하우징, 입력 장치 및 제어 장치를 포함하는 음악을 인식하는 스마트 스피커를 제공한다.
상기 입력 장치는 상기 하우징에 배열되고 음악 소스로부터 음악 정보의 단편(piece)과 사용자의 음성 메시지를 수신하도록 구성된다.
상기 제어 장치는 상기 하우징에 배열되고 프로세싱 유닛, 저장 유닛, 통신 유닛, 음성 모듈, 및 음악 인식 모듈을 포함한다.
상기 입력 장치는 상기 프로세싱 유닛과 전기적으로 연결된다.
상기 저장 유닛은 상기 프로세싱 유닛과 전기적으로 연결되고 음악 데이터베이스를 포함하고, 상기 음악 데이터베이스는 복수의 노래와 관련 정보를 저장한다.
상기 통신 유닛은 상기 프로세싱 유닛과 전기적으로 연결되고 클라우드 서버에 인터넷을 통하여 연결되도록 구성된다.
상기 음성 모듈은 상기 프로세싱 유닛과 전기적으로 연결되고 상기 음성 메시지의 음성 인식을 위하여 사용된다.
상기 음악 인식 모듈은 상기 프로세싱 유닛과 전기적으로 연결되고, 상기 음악 정보의 특징 값을 인식하고 상기 음악 정보의 상기 특징 값을 사용하여 상기 음악 데이터베이스에 저장된 복수의 노래들과 멜로디 비교를 수행하여 상기 음악 정보의 상기 특징 값과 매칭되는 특정 노래와 관련 정보를 위하여 상기 음악 데이터 베이스를 검색하도록 구성되고, 상기 특정 노래와 관련 정보는 추가적으로 상기 통신 유닛을 통하여 상기 클라우드 서버로 업로드된다.
바람직하게는, 상기 음악 소스는 온라인 음악 스트리밍 서비스 플랫폼 또는 음악 재생 장치이고, 상기 음악 정보는 상기 온라인 음악 스트리밍 서비스 플랫폼이나 상기 음악 재생 장치로부터 플레이 되는 멜로디이고; 상기 음악 인식 모듈은 상기 온라인 음악 스트리밍 서비스 플랫폼이나 상기 음악 재생 장치로부터 플레이 되는 멜로디의 특징 값을 식별하기 위하여 음악 오디오 핑거프린팅(AFP, audio fingerprinting) 인식 기술을 사용하고, 상기 온라인 음악 스트리밍 서비스 플랫폼이나 상기 음악 재생 장치로부터 플레이되는 멜로디의 특징 값과 매칭되는 특정 노래와 관련 정보를 상기 음악 데이터베이스로부터 검색하기 위하여 멜로디 비교를 수행하도록 상기 음악 데이터베이스에 저장된 복수의 노래들 및 상기 온라인 음악 스트리밍 서비스 플랫폼이나 상기 음악 재생 장치로부터 플레이되는 멜로디의 특징 값을 사용한다.
바람직하게는, 상기 하우징은 외측 케이싱, 상부 커버 및 바닥 커버(bottom cover)를 포함하고, 상기 외측 케이싱은 수용 공간을 둘러싸고, 개구가 상기 상부에 형성되고, 상기 상부 커버는 상기 외측 케이싱의 상기 개구에 배열되고 소리 수신 구멍(sound receiving hole)과 함께 배열되고, 상기 바닥 커버는 상기 외측 케이싱의 바닥(bottom)에 배열되고, 상기 입력 장치는 상기 외측 케이싱의 수용 공간에 배열되고 상기 상부 커버의 상기 소리 수신 구멍과 정렬된 마이크로폰이고, 상기 제어 장치는 상기 외측 케이싱의 상기 수용 공간에 배열된다.
바람직하게는, 상기 음악 인식 스마트 스피커는 파워 공급 유닛과 무선 충전 코일을 추가적으로 포함하고, 상기 파워 공급 유닛(power supply unit)은 상기 하우징에 배열되고 상기 프로세싱 유닛에 전기적으로 연결되고, 그리고 상기 프로세싱 유닛에 전력을 제공한다. 상기 무선 충전 코일(wireless charging coil)은 상기 하우징에 배열되고, 상기 파워 공급 유닛에 전기적으로 연결되고, 상기 파워 공급 유닛을 충전할 수 있다.
본 발명의 효과는 음악 인식 기술을 통하여 들리는 음악 정보의 특징 값과 매칭되는 음악 데이터베이스의 특정 노래와 관련 정보가 음악 데이터베이스로부터 신속하게 검색될 수 있고 클라우드 서버에 업로드될 수 있고, 그리고 사용자가 상기 클라우드 서버로부터 웹페이지를 브라우징한 후 상기 음악 정보의 특징 값과 매칭되는 특정 노래와 관련 정보가 상기 음악 데이터베이스에 저장되는 지를 간접적으로 알 수 있다는 점이다.
상술한 사항은 첨부한 도면을 적합하게 참조하면서 본 명세서의 이하에서 설명되는 상세한 설명을 주의 깊게 읽는다면 보다 잘 이해될 수 있을 것이다.
본 발명의 실시예들은 예시들과 관련하여 첨부한 도면을 참조하여 후술하는 상세한 설명을 읽으면 보다 자세히 이해될 수 있다.
도 1은 예시적 실시예에 따른 음악 인식 스마트 스피커의 모식도이다.
도 2는 예시적 실시예에 따른 음악 인식 스마트 스피커의 하우징 및 다른 부품들의 분해도이다.
도 3은 예시적 실시예에 따른 음악 인식 스마트 스피커의 하우징 및 다른 부품들의 상부 분해도이다.
도 4는 예시적 실시예에 따른 음악 인식 스마트 스피커의 하우징 및 다른 부품들의 하부 분해도이다.
도 5는 예시적 실시예에 따른 음악 인식 스마트 스피커의 구조 블록 다이어그램의 모식도이다.
이하의 상세한 설명에서, 설명을 위하여, 다수의 특정 상세가 개시된 실시예들을 완전히 이해할 수 있도록 제시된다. 그러나, 하나 이상의 실시예들이 이러한 특정 상세 없이도 실시될 수 있음은 자명하다. 다른 예들에서, 주지의 구조들 및 장치들이 도면을 단순화하기 위하여 모식적으로 표현되었다.
도 1 내지 도 5를 참조한다. 도 1은 예시적 실시예에 따른 음악 인식 스마트 스피커의 모식도이다. 도 2는 예시적 실시예에 따른 음악 인식 스마트 스피커의 하우징 및 다른 부품들의 분해도이다. 도 3은 예시적 실시예에 따른 음악 인식 스마트 스피커의 하우징 및 다른 부품들의 상부 분해도이다. 도 4는 예시적 실시예에 따른 음악 인식 스마트 스피커의 하우징 및 다른 부품들의 하부 분해도이다. 도 5는 예시적 실시예에 따른 음악 인식 스마트 스피커의 구조 블록 다이어그램의 모식도이다. 본 발명은 하우징(10), 입력 장치(20) 및 제어 장치(30)를 포함하는 음악 인식 스마트 스피커를 제공한다.
상기 하우징(10)은 외측 케이싱(11), 상부 커버(12) 및 바닥 커버(13)를 포함한다. 상기 외측 케이싱(11)은 수용 공간(111)을 둘러싸고, 개구(112)가 상기 상부에 형성된다. 상기 상부 커버(12)는 상기 외측 케이싱(11)의 상기 개구(112)에 배열되고 소리 수신 구멍(sound receiving hole)(121)과 함께 배열된다. 상기 바닥 커버(13)는 상기 외측 케이싱(11)의 바닥에 배열된다.
상기 입력 장치(20)는 음악 소스(200)(music source)로부터 음악 정보(201) 단편(piece)과 사용자(100)로부터 음성 메시지(101)를 수신하도록 구성되어 하우징(10)에 배열된다. 구체적으로, 상기 입력 장치(20)는 상기 외측 케이싱(11)의 수용 공간(111) 내에 배열되고 상기 상부 커버(12)의 소리 수신 구성(121)과 함께 정렬된 마이크로폰이다. 상기 사용자(100)로부터의 상기 음성 메시지(101) 또는 상기 음악 소스(200)로부터의 음악 정보(201)의 단편은 상기 상부 커버(12)의 소리 수신 구멍(121)을 통과해서 상기 마이크로폰에 도달한다. 상기 마이크로폰이 상기 음성 메시지(101) 또는 음악 정보(201)를 수신한 이후에, 상기 마이크로폰은 상기 음성 메시지(101) 또는 음악 정보(201)를 상기 제어 장치(30)에 전송한다. 본 실시예에서, 상기 상부 커버(12)에는 4개의 소리 수신 구멍들(121)이 같은 거리에 배열된다. 본 발명의 음악 인식 스마트 스피커(1)는 상기 외측 케이싱(11)의 상기 수용 공간(111)에 배열되고 상기 상부 커버(12)의 4개의 소리 수신 구멍들(121)과 함께 각각 정렬된 4개의 입력 장치들(20)을 포함한다.
상기 제어 장치(30)는 상기 하우징(10)에 배열되고 프로세싱 유닛(31), 저장 유닛(32), 통신 유닛(33), 음성 모듈(34) 및 음악 인식 모듈(35)을 포함한다. 구체적으로 상기 제어 장치(30)는 상기 외측 케이싱(11)의 수용 공간(111)에 배열된다.
상기 프로세싱 유닛(31)은 예를 들어서 중앙 처리 유닛, 또는 다른 프로그램 가능 범용 또는 특수용 마이크로프로세서, 디지털 신호 프로세서(DSP), 프로그램 가능 제어기, 주문형 집적회로들(application specific integrated circuits, ASICs), 프로그램 가능 논리 소자들(programmable logic devices, PLDs), 또는 다른 유사한 소자들 또는 이들 소자들의 조합들이다. 상기 프로세싱 유닛(31)은 저장 유닛(32)에 기록된 음악 인식 모듈(35) 및 음성 모듈(34)에 접근하고 이들을 실행하기 위하여 상기 입력 유닛(20), 저장 유닛(32), 통신 유닛(33), 음성 모듈(34) 및 음악 인식 모듈(35)에 전기적으로 연결되고, 스마트 스피커(1)의 전반적인 작동을 제어한다. 본 실시예의 프로세싱 유닛(31)은 하나의 처리 요소(단일 코어)로 제한되지 않고 2개 이상의 처리 요소들(듀얼 코어 또는 멀티 코어들)에 의해서 공동으로 실현될 수 있다.
상기 저장 유닛(32)은 상기 프로세싱 유닛(31)에 전기적으로 연결되고 음악 데이터베이스(321)를 포함한다. 상기 음악 데이터베이스(321)는 복수의 노래들(321A, 321B, 321C)과 관련 정보(321D, 321E, 321F)를 저장한다. 상기 저장 유닛(32)은 예를 들어서, 읽기 전용 메모리(ROM) 및/또는 플래쉬 메모리와 같은 다양한 비휘발성 메모리, 또는 이들의 조합이다. 본 실시예에서, 상기 저장 유닛(32)은 음성 모듈(34)과 음악 인식 모듈(35)을 기록(record)하기 위하여 사용된다. 이 모듈들은, 예를 들어서, 상기 프로세싱 유닛(31)으로 로딩될 수 있는 상기 저장 유닛(32)에 저장된 프로그램들이고, 상기 프로세싱 유닛(31)은 상기 프로그램들의 기능들을 수행한다. 본 실시예에서, 상기 저장 유닛(32)은 단일 메모리 요소로 한정되지 않는다는 점과, 상기 모듈들은 동일 또는 상이한 유형들의 2개 이상의 메모리 요소들에 별도로 저장될 수 있다는 것이 이해되어야 한다.
상기 통신 유닛(33)은 상기 프로세싱 유닛(31)에 전기적으로 연결되고 인터넷(300)을 통해서 클라우드 서버(400)에 연결되도록 구성된다. 상기 통신 유닛(33)은, 예를 들어서, Institute of Electrical and Electronics Engineers (IEEE, 미 전기전자학회)의 IEEE802.11b/g/n와 같은 프로토콜을 지지하거나, 또는 네트워크를 통해서 데이터를 전송 또는 수신할 수 있는 다른 네트워크 프로토콜들을 지지하는 무선 네트워크 인터페이스 카드 또는 유선 네트워크 인터페이스 카드이다. 본 실시예에서, 상기 통신 유닛(33)은 인터넷(300)으로 연결하는데 사용될 수 있어서, 상기 스마트 스피커(1)가 인터넷(300)을 통해서 상기 클라우드 서버(400)로 데이터를 전송할 수 있고, 그리고 인터넷(300)을 통해서 상기 클라우드 서버(400)로부터 데이터를 수신할 수 있다. 또한, 상기 통신 유닛(33)은 로컬 네트워크로 연결되어 상기 로컬 네트워크를 통하여 동일한 로컬 네트워크에 위치된 전자 장치들을 컨트롤하기 위하여 상기 스마트 스피커(1)를 제공할 수 있다(예를 들어서, 동일 홈 네트워크에 속하는 스마트 홈의 스마트 홈 어플라이언스들).
상기 음성 모듈(34)은 상기 프로세싱 유닛(31)에 전기적으로 연결되고 상기 음성 메시지(101)의 음성 인식을 위하여 사용된다. 본 발명의 음악 인식 스마트 스피커(1)에 사용되는 상기 음성 모듈(34)은 Apple의 Siri, Google의 Assistant, Amazon의 Alexa, Microsoft의 Cortana, Samsung의 Bixby와 같은 시장에서 임의의 제조자에 의하여 개발된 음성 모듈(34)일 수 있거나 또는 다른 벤더들에 의하여 개발된 음성 모듈(34)일 수 있다. 상기 벤더들 각각은 상기 벤더들에 의하여 개발된 음성 모듈(34)의 상세한 기술적 내용을 공개하였고, 이것은 본 기술분야의 통상의 기술자가 쉽게 입수할 수 있으나, 본 발명의 핵심은 아니고, 여기서 상세히 설명하지는 않는다.
상기 음성 모듈(34)의 기능들은 매우 다재다능하고 인터넷을 통하여 정보(예를 들어서, 시간, 날짜, 날씨, 교통, 뉴스, 주식 시세, 여행 일정, 소매가 또는 스포츠 이벤트 등)를 찾고, 과업들을 처리하고 (예를 들어서, 알람 시계 설정), 메시지를 보내고, 음악을 틀고, 온라인 쇼핑을 하고 스마트 라이트, 온도조절장치, 차고문, 에어 컨디셔닝, 텔레비전, 컴퓨터, 냉장고 등을 제어하고, 정보를 수집하고(예를 들어서, 사용자 정보를 수집하는 고객 서비스 센터, 초기 진단을 제공하는 의료 서비스 등), 기술을 훈련하고(예를 들어서, AI 교사에게 말함으로써 새로운 언어를 습득), 할일 목록과 쇼핑 리스트를 관리하고, 테이크 아웃을 주문하고, 예약 등을 할 수 있다.
상기 음악 인식 모듈(35)은 상기 프로세싱 유닛(31)에 전기적으로 연결되고, 상기 음악 정보(201)의 특징 값(201A)을 인식하도록 구성되고, 음악 정보(201)의 특징 값(201A)과 매칭되는 특정 노래(321A, 321B, 321C) 및 관련 정보(321D, 321E, 321F)를 음악 데이터베이스(321)에서 검색하기 위하여 멜로디 비교를 수행하도록 음악 데이터베이스(321)에 저장된 복수의 노래(321A, 321B, 321C)와 음악 정보(201)의 특징 값(201A)을 사용하도록 구성된다. 매칭되는 특정 노래(321A, 321B, 321C) 및 관련 정보(321D, 321E, 321F)는 통신 유닛(33)을 통해서 클라우드 서버(400)로 추가적으로 업로드 된다. 상기 관련 정보(321D, 321E, 321F)는 노래 제목, 노래 카테고리, 시간의 길이, 아티스트, 앨범, 퍼블리셔, 퍼블리싱한 연도 등이다. 그러나 상기 노래(321A, 321B, 321C)와 관련된 임의의 정보가 이로써 제한되는 것은 아니므로 본 발명의 상기 관련 정보(321D, 321E, 321F)의 범위에 의하여 포함된다.
사용자(100)가 음악 소스(200)로부터의 음악 정보(201)의 멜로디 또는 노랫말을 좋아할 때, 사용자(100)는 음악 데이터베이스(321)가 들리는 음악 정보(201)와 매칭되는 특정 노래들(321A, 321B, 321C) 및 이들의 관련 정보(321D, 321E, 321F)를 저장하고 있는지 알기 위하여 본 발명의 음성 인식 스마트 스피커(1)로부터 색인을 하고 싶어할 것이다. 그러나, 들리는 음악 정보(201)의 특징 값(201A)과 매칭되는 특정 노래들(321A, 321B, 321C)의 제목을 알지 못할 수 있다. 이 점에서, 사용자(100)는 입력 장치(20)에 대고 들리는 음악 정보(201)의 멜로디를 따라 할 수 있다(play). 상기 음악 정보(201)를 수신한 이후에, 상기 입력 장치(20)는 상기 음악 정보(201)를 상기 음악 인식 모듈(35)로 상기 프로세싱 유닛(31)을 통하여 전송한다. 상기 음악 인식 모듈(35)은 상기 음악 정보(201)의 특징 값(201A)을 인식하고 상기 음악 정보(201)의 특징 값(201A)과 매칭되는 특정 노래들(321A, 321B, 321C) 및 관련 정보(321D, 321E, 321F)를 음악 데이터베이스(321)에서 찾기 위하여 상기 음악 데이터베이스(321)에 저장된 복수의 노래들(321A, 321B, 321C)과 멜로디 비교를 수행하도록 음악 정보(201)의 특징 값(201A)을 사용하고, 추가적으로 특정 노래들(321A, 321B, 321C) 및 관련 정보(321D, 321E, 321F)는 클라우드 서버(400)로 업로드되도록 통신 유닛(33)을 통하여 전송된다.
사용자는 전자 장치(500)(예를 들어서, 스마트폰, 태블릿 컴퓨터, 데스크톱 컴퓨터, 노트북 컴퓨터 등)를 이용하여 인터넷(300)을 통해서 클라우드 서버(400)로부터 웹페이지를 브라우징할 수 있다. 상기 클라우드 서버(400)의 웹페이지에서, 사용자는 본 발명의 음악 인식 스마트 스피커(1)에 의하여 업로드된 특정 노래들(321A, 321B, 321C) 및 관련 정보(321D, 321E, 321F)를 볼 수 있고 들리는 음악 정보(201)의 특징 값(201A)과 매칭되는 특정 노래들(321A, 321B, 321C) 및 관련 정보(321D, 321E, 321F)가 음악 데이터베이스(321)에 저장되어 있는지를 간접적으로 알 수 있다.
구체적으로, 음악 소스(200)는 온라인 음악 스트리밍 서비스 플랫폼 또는 음악 재생 장치이고, 상기 음악 정보(201)는 상기 온라인 음악 스트리밍 서비스 플랫폼이나 상기 음악 재생 장치로부터 플레이 되는 멜로디이다. 상기 온라인 음악 스트리밍 서비스 플랫폼은 Pandora, Spotify 또는 Apple Music이다. 상술한 3개의 음악 스트리밍 서비스 플랫폼들은 전세계적으로 잘 알려진 브랜드들이다. 그러나 다른 온라인 음악 스트리밍 서비스 플랫폼들도 또한 음악 소스(200)로 사용될 수 있다. 음악 재생 장치는, 텔레비전, 라디오, 스마트폰, 휴대용 다기능 디지털 멀티미디어 플레이어(예를 들어 iPod), 태블릿 컴퓨터, 데스크톱 컴퓨터 및 노트북 컴퓨터, 스마트 스피커(1) 등과 같이 스피커가 장착되고 음악 재생 기능을 구비한 임의의 장치이다. 음악 인식 모듈(35)은 온라인 음악 스트리밍 서비스 플랫폼 또는 음악 재생 장치에 의해서 플레이되는 멜로디의 특징 값(201A)을 식별하기 위하여 음악 음성프린트 인식(AFP, voiceprint recognition) 기술을 사용하고, 상기 온라인 음악 스트리밍 서비스 플랫폼이나 상기 음악 재생 장치로부터 플레이되는 멜로디의 특징 값(201A)과 상기 음악 데이터베이스(321)에 저장된 복수의 노래들(321A, 321B, 321C)을 사용하여 상기 온라인 음악 스트리밍 서비스 플랫폼이나 상기 음악 재생 장치로부터 플레이되는 멜로디의 특징 값(201A)과 매칭되는 특정 노래(321A, 321B, 321C)와 관련 정보(321D, 321E, 321F)를 상기 음악 데이터베이스(321)로부터 검색하기 위하여 멜로디 비교를 수행한다.
바람직한 실시예에서, 음악 인식 스마트 스피커(1)는 파워 공급 유닛(40)과 무선 충전 코일(50)을 추가적으로 포함한다. 상기 파워 공급 유닛(40)은 하우징(10)에 배열되고, 프로세싱 유닛(31)에 전기적으로 연결되고, 프로세싱 유닛(31)에 파워를 제공한다. 무선 충전 코일(50)은 하우징(10)에 배열되고, 파워 공급 유닛(40)에 전기적으로 연결되고, 파워 공급 유닛(40)을 충전할 수 있다.
개시된 실시예에 다양한 수정과 변형이 가해질 수 있다는 점은 본 기술분야의 통상의 기술자에게 자명할 것이다. 본 명세서의 내용과 예시들은 예로서만 이해되어야 하고, 본 명세서의 개시 내용의 진정한 범위는 이하의 청구항과 그 균등물에 의하여 나타내진다.

Claims (4)

  1. 하우징,
    상기 하우징에 배열되고 사용자로부터 음성 메시지와 음악 소스로부터 음악 정보 단편을 수신하도록 구성된 입력 장치 및,
    상기 하우징에 배열된 제어 장치를 포함하고,
    상기 제어 장치는,
    상기 입력 장치가 전기적으로 연결되는 프로세싱 유닛,
    상기 프로세싱 유닛에 전기적으로 연결되고 음악 데이터베이스를 포함하고, 상기 음악 데이터베이스는 복수의 노래와 관련 정보를 저장하는 저장 유닛,
    상기 프로세싱 유닛에 전기적으로 연결되고 인터넷을 통하여 클라우드 서버에 연결되도록 구성되는 통신 유닛,
    상기 프로세싱 유닛에 전기적으로 연결되고 상기 음성 메시지의 음성 인식을 위해서 사용되는 음성 모듈, 및
    상기 프로세싱 유닛에 전기적으로 연결되고, 상기 음악 정보의 특징 값을 인식하고; 상기 음악 정보의 상기 특징 값과 매칭되는 특정 노래와 관련 정보를 상기 음악 데이터베이스에서 검색하기 위하여 상기 음악 데이터베이스에 저장된 복수의 노래들과 멜로디 비교를 수행토록 상기 음악 정보의 특징 값을 이용하도록; 구성되고, 추가적으로 상기 특정 노래와 관련 정보는 상기 통신 유닛을 통해서 상기 클라우드 서버에 업로드 되는 음악 인식 모듈을 포함하는, 음악 인식 스마트 스피커.
  2. 제1항에 있어서,
    상기 음악 소스는 온라인 음악 스트리밍 서비스 플랫폼 또는 음악 재생 장치이고,
    상기 음악 정보는 상기 온라인 음악 스트리밍 서비스 플랫폼이나 상기 음악 재생 장치로부터 플레이 되는 멜로디이고,
    상기 음악 인식 모듈은 상기 온라인 음악 스트리밍 서비스 플랫폼 또는 상기 음악 재생 장치에 의해서 플레이되는 상기 멜로디의 상기 특징 값을 식별하기 위하여 음악 오디오 핑거프린팅(AFP, audio fingerprinting) 인식 기술을 사용하고, 그리고, 상기 온라인 음악 스트리밍 서비스 플랫폼이나 상기 음악 재생 장치로부터 플레이되는 상기 멜로디의 상기 특징 값과 매칭되는 특정 노래와 관련 정보를 상기 음악 데이터베이스로부터 검색하기 위하여 멜로디 비교를 수행하도록 상기 음악 데이터베이스에 저장된 복수의 노래들 및 상기 온라인 음악 스트리밍 서비스 플랫폼이나 상기 음악 재생 장치로부터 플레이되는 상기 멜로디의 상기 특징 값을 사용하는 것을 특징으로 하는 음악 인식 스마트 스피커.
  3. 제1항에 있어서,
    상기 하우징은 외측 케이싱, 상부 커버 및 바닥 커버를 포함하고,
    상기 외측 케이싱은 수용 공간을 둘러싸고 개구가 상기 상부에 형성되고,
    상기 상부 커버는 상기 외측 케이싱의 상기 개구에 배열되고 소리 수신 구멍(sound receiving hole)과 함께 배열되고,
    상기 바닥 커버는 상기 외측 케이싱의 바닥에 배열되고,
    상기 입력 장치는 상기 외측 케이싱의 상기 수용 공간에 배열되고 상기 상부 커버의 상기 소리 수신 구멍과 함께 정렬된 마이크로폰이고,
    상기 제어 장치는 상기 외측 케이싱의 상기 수용 공간에 배열되는 것을 특징으로 하는 음악 인식 스마트 스피커.
  4. 제1항에 있어서,
    상기 음악 인식 스마트 스피커는 파워 공급 유닛과 무선 충전 코일을 추가적으로 포함하고, 상기 파워 공급 유닛은 상기 하우징에 배열되고, 상기 프로세싱 유닛에 전기적으로 연결되고, 상기 프로세싱 유닛에 파워를 제공하고, 상기 무선 충전 코일은 상기 하우징에 배열되고, 상기 파워 공급 유닛에 전기적으로 연결되고, 상기 파워 공급 유닛을 충전할 수 있는 것을 특징으로 하는 음악 인식 스마트 스피커.
KR1020180123983A 2018-02-01 2018-10-17 음악 인식 스마트 스피커 KR20190093492A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862625307P 2018-02-01 2018-02-01
US62/625,307 2018-02-01
US16/152,435 US20190236208A1 (en) 2018-02-01 2018-10-05 Smart speaker with music recognition
US16/152,435 2018-10-05

Publications (1)

Publication Number Publication Date
KR20190093492A true KR20190093492A (ko) 2019-08-09

Family

ID=63878447

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180123983A KR20190093492A (ko) 2018-02-01 2018-10-17 음악 인식 스마트 스피커

Country Status (3)

Country Link
US (1) US20190236208A1 (ko)
EP (1) EP3522031A1 (ko)
KR (1) KR20190093492A (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108461083B (zh) * 2018-03-23 2024-06-21 北京小米移动软件有限公司 电子设备主板、音频处理方法、装置和电子设备
US10971144B2 (en) * 2018-09-06 2021-04-06 Amazon Technologies, Inc. Communicating context to a device using an imperceptible audio identifier
US10750265B1 (en) * 2019-08-30 2020-08-18 Elitegroup Computer Systems Co., Ltd. Smart speaker with fragrance dispenser
RU197253U1 (ru) * 2019-10-08 2020-04-15 Общество С Ограниченной Ответственностью "Яндекс" Умная колонка с tof-сенсором и возможностью докалибровки
CN113129855A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 音频指纹提取和建库方法、及音频识别和检索方法与***
RU197268U1 (ru) * 2019-12-30 2020-04-16 Общество С Ограниченной Ответственностью "Яндекс" Исключающая наводки на звуковой тракт со стороны микросхемы драйвера светодиодов умная колонка
US11402814B2 (en) * 2020-04-22 2022-08-02 Capital One Services, Llc Interactive home system including wireless devices
CN111816206B (zh) * 2020-07-24 2023-12-15 黄君任 一种车载音乐的使用***、方法及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444353B1 (en) * 2000-01-31 2008-10-28 Chen Alexander C Apparatus for delivering music and information
US20100023328A1 (en) * 2008-07-28 2010-01-28 Griffin Jr Paul P Audio Recognition System
US9280598B2 (en) * 2010-05-04 2016-03-08 Soundhound, Inc. Systems and methods for sound recognition
US20120191231A1 (en) * 2010-05-04 2012-07-26 Shazam Entertainment Ltd. Methods and Systems for Identifying Content in Data Stream by a Client Device
US9418669B2 (en) * 2012-05-13 2016-08-16 Harry E. Emerson, III Discovery of music artist and title for syndicated content played by radio stations
EP2750055A1 (en) * 2012-12-27 2014-07-02 Magix AG System and method for content recognition in portable devices
US20180287887A1 (en) * 2013-10-04 2018-10-04 Google Inc. Providing members of a user group with access to restricted media content items
US10445820B2 (en) * 2014-06-25 2019-10-15 Paypal, Inc. Systems and methods for facilitating purchase using gesture
JP2018505442A (ja) * 2014-12-31 2018-02-22 ピーシーエムエス ホールディングス インコーポレイテッド 聴取ログおよび音楽ライブラリの生成のためのシステムおよび方法
KR102399550B1 (ko) * 2015-11-20 2022-05-19 삼성전자주식회사 마이크로폰 및 스피커를 포함하는 전자 장치 및 그 제조 방법

Also Published As

Publication number Publication date
US20190236208A1 (en) 2019-08-01
EP3522031A1 (en) 2019-08-07

Similar Documents

Publication Publication Date Title
KR20190093492A (ko) 음악 인식 스마트 스피커
US10885091B1 (en) System and method for content playback
US10885110B2 (en) Analyzing captured sound and seeking a match based on an acoustic fingerprint for temporal and geographic presentation and navigation of linked cultural, artistic, and historic content
US8732180B2 (en) Recommending media items
US11238870B2 (en) Interaction method, electronic device, and server
US9824150B2 (en) Systems and methods for providing information discovery and retrieval
US20190304448A1 (en) Audio playback device and voice control method thereof
US9411942B2 (en) Network device, system and method for rendering an interactive multimedia playlist
US20210084113A1 (en) Systems and methods for playing media content on a target device
US11093544B2 (en) Analyzing captured sound and seeking a match for temporal and geographic presentation and navigation of linked cultural, artistic, and historic content
CN109165302A (zh) 多媒体文件推荐方法及装置
CN103827912A (zh) 基于网络的音乐合作者***和方法
US20150193192A1 (en) Method and system for playback of audio content using wireless mobile device
US20170242861A1 (en) Music Recommendation Method and Apparatus
US20120117071A1 (en) Information processing device and method, information processing system, and program
US20190236207A1 (en) Music sharing method and system
US11960536B2 (en) Methods and systems for organizing music tracks
CN112086082A (zh) 电视k歌的语音交互方法、电视和存储介质
KR20000036637A (ko) 인터넷을 이용한 곡 비즈니스 방법 및 그 비즈니스 시스템
EP3648106B1 (en) Media content steering
CN114296612A (zh) 音频播放方法、智能终端及存储介质
KR100829115B1 (ko) 이동통신 단말기의 콘텐츠 재생 방법 및 장치
TWI808038B (zh) 媒體檔案選擇方法及服務系統與電腦程式產品
KR102032313B1 (ko) 인공지능 뮤직박스 운용 시스템
TW202420143A (zh) 媒體檔案選擇方法及服務系統與電腦程式產品

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application