KR102185784B1 - 음향 데이터 탐색 방법 및 장치 - Google Patents

음향 데이터 탐색 방법 및 장치 Download PDF

Info

Publication number
KR102185784B1
KR102185784B1 KR1020190066589A KR20190066589A KR102185784B1 KR 102185784 B1 KR102185784 B1 KR 102185784B1 KR 1020190066589 A KR1020190066589 A KR 1020190066589A KR 20190066589 A KR20190066589 A KR 20190066589A KR 102185784 B1 KR102185784 B1 KR 102185784B1
Authority
KR
South Korea
Prior art keywords
data
target
search
sound data
target section
Prior art date
Application number
KR1020190066589A
Other languages
English (en)
Other versions
KR20190139774A (ko
Inventor
이선진
이일구
Original Assignee
성신여자대학교 연구 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성신여자대학교 연구 산학협력단 filed Critical 성신여자대학교 연구 산학협력단
Publication of KR20190139774A publication Critical patent/KR20190139774A/ko
Application granted granted Critical
Publication of KR102185784B1 publication Critical patent/KR102185784B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/12Formatting, e.g. arrangement of data block or words on the record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따른 음향 데이터 탐색 방법 및 장치가 제공된다. 상기 방법은, 적어도 하나의 음향 데이터를 저장하는 단계; 사용자로부터 탐색 대상 데이터를 입력받는 단계; 상기 저장된 음향 데이터 내에서 상기 탐색 대상 데이터와 유사한 데이터를 포함하는 타겟 구간을 탐색하는 단계; 및 상기 탐색된 타겟 구간과 관련된 정보를 출력하는 단계를 포함하는, 음향 데이터 탐색 방법을 포함한다.

Description

음향 데이터 탐색 방법 및 장치{METHOD AND APPARATUS FOR SEARCHING SOUND DATA}
본 발명은 음향 데이터 탐색 방법 및 장치에 관한 것이다.
최근 사람들은 정말로 많은 미디어에 노출되며 살아간다. 수많은 데이터 속에서 분별하고 판단하며 살아가야 하는 4차 산업혁명 시대에 인간이 모든 것을 기억하기는 어렵다. 그래서 그 정보를 각자의 방식으로 저장하거나 보관한다.
예를 들어, 대학교에서 강의를 들을 경우 수업에서 쉴 새 없이 제공되는 수많은 정보를 한꺼번에 이해하기는 힘들기 때문에, 많은 학생들은 수업을 녹음하고, 이후 녹음 파일을 다시 들으면서 강의를 학습하게 된다.
하지만 녹음 파일에서 자신이 이해하지 못했던 부분을 한 번에 찾기는 쉽지 않다. 자신이 찾고자 하는 내용이 녹음된 부분을 찾기 위해 녹음파일 전체를 듣거나 반복적으로 구간을 찾아야 한다. 또한, 녹음 파일이 많을 경우 자신이 찾고자 하는 내용이 녹음 파일에 녹음된 것인지 또는 해당 녹음 파일 이외에 다른 녹음 파일에 녹음된 것인지를 확인하기 어려운 경우가 많다.
발명의 배경이 되는 기술은 본 발명에 대한 이해를 보다 용이하게 하기 위해 작성되었다. 발명의 배경이 되는 기술에 기재된 사항들이 선행기술로 존재한다고 인정하는 것으로 이해되어서는 안 된다.
이에, 본 발명의 발명자들은, 사용자로부터 탐색 대상 데이터가 입력된 경우, 음향 데이터 내에서 탐색 대상 데이터와 유사한 데이터를 포함하는 타겟 구간과 관련된 정보를 출력함으로써, 사용자가 음향 데이터에서 자신이 찾고자 하는 탐색 대상 데이터를 빠르게 찾을 수 있다는 점을 인지하였다.
이에 따라, 본 발명의 해결하고자 하는 과제는 사용자로부터 탐색 대상 데이터가 입력된 경우, 하나 이상의 음향 데이터 내에서 탐색 대상 데이터와 유사한 데이터를 포함하는 타겟 구간을 탐색하고, 탐색된 타겟 구간과 관련된 정보를 출력하는 음향 데이터 탐색 방법 및 장치를 제공하는데 있다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 확장된 음향 데이터 탐색 방법이 제공된다. 방법은, 적어도 하나의 음향 데이터를 저장하는 단계, 사용자로부터 탐색 대상 데이터를 입력받는 단계, 저장된 음향 데이터 내에서 탐색 대상 데이터와 유사한 데이터를 포함하는 타겟 구간을 탐색하는 단계 및 탐색된 타겟 구간과 관련된 정보를 출력하는 단계를 포함한다.
본 발명의 다른 특징에 따르면, 타겟 구간은, 탐색 대상 데이터와 유사도가 기 설정된 값 이상인 데이터를 포함하는 구간이다.
본 발명의 다른 특징에 따르면, 기 설정된 값은, 사용자에 의해 설정된다.
본 발명의 다른 특징에 따르면, 방법은, 타겟 구간을 탐색하는 단계 이전에, 사용자로부터 탐색 구간을 설정받는 단계를 더 포함하며, 타겟 구간을 탐색하는 단계는, 음향 데이터 중 탐색 구간 내에서 타겟 구간을 탐색한다.
본 발명의 다른 특징에 따르면, 방법은, 타겟 구간을 탐색하는 단계 이전에, 탐색 대상 데이터의 유형에 기초하여 타겟 구간을 탐색하는 방식을 결정하는 단계를 더 포함한다.
본 발명의 다른 특징에 따르면, 타겟 구간은, 탐색 대상 데이터가 음향 형태의 데이터인 경우, 탐색 대상 데이터와 유사한 음파 형태의 데이터를 포함하는 구간이다.
본 발명의 다른 특징에 따르면, 방법은 탐색 대상 데이터가 텍스트 형태의 데이터인 경우, 타겟 구간을 탐색하는 단계 이전에, 탐색 대상 데이터와 음향 데이터를 동일한 형태의 데이터로 변환하는 단계를 더 포함한다.
본 발명의 다른 특징에 따르면, 탐색 대상 데이터와 음향 데이터를 동일한 형태의 데이터로 변환하는 단계는, 탐색 대상 데이터를 음향 형태의 데이터로 변환하는 단계; 및 음향 데이터를 텍스트 형태의 데이터로 변환하는 단계; 중 어느 하나로 이루어진다.
본 발명의 다른 특징에 따르면, 타겟 구간은, 음향 데이터가 텍스트 형태의 데이터로 변환된 경우, 텍스트 형태의 데이터로 변환된 음향 데이터가 탐색 대상 데이터와 유사한 텍스트의 데이터를 포함하는 구간이다.
본 발명의 다른 특징에 따르면, 탐색 대상 데이터와 음향 데이터를 동일한 형태의 데이터로 변환하는 단계는, 인공지능 기반의 예측 모델을 이용하여 수행된다.
본 발명의 다른 특징에 따르면, 타겟 구간과 관련된 정보는, 타겟 구간에 대응되는 음파의 시각적 이미지, 타겟 구간이 탐색 대상 데이터와 유사한 정도, 타겟 구간을 포함하는 음향 데이터의 파일 정보 및 음향 데이터 내 타겟 구간의 시간 정보 중 적어도 하나를 포함한다.
본 발명의 다른 특징에 따르면, 탐색된 타겟 구간이 복수 개인 경우, 타겟 구간과 관련된 정보를 출력하는 단계는, 타겟 구간과 관련된 정보를 타겟 구간이 탐색 대상 데이터와 유사한 정도에 따라 내림차순으로 정렬하여 시각적인 형태로 출력한다.
본 발명의 다른 특징에 따르면, 타겟 구간을 복수 개 포함하는 특정 음향 데이터가 존재하는 경우, 탐색된 타겟 구간과 관련된 정보를 출력하는 단계 이후, 특정 음향 데이터와 관련된 정보를 추가로 출력하는 단계를 더 포함한다.
본 발명의 다른 특징에 따르면, 특정 음향 데이터와 관련된 정보는, 특정 음향 데이터 내에 포함된 타겟 구간의 개수 및 특정 음향 데이터의 파일 정보 중 적어도 하나를 포함한다.
본 발명의 다른 특징에 따르면, 특정 음향 데이터가 복수 개 존재하는 경우, 특정 음향 데이터와 관련된 정보를 추가로 출력하는 단계는, 특정 음향 데이터와 관련된 정보를 특정 음향 데이터 내에 포함된 타겟 구간의 개수 및 타겟 구간들이 탐색 대상 데이터와 유사한 정도 중 적어도 하나에 우선순위를 두어 기 설정된 개수의 특정 음향 데이터를 출력한다.
본 발명의 다른 특징에 따르면, 방법은, 타겟 구간과 관련된 정보를 출력하는 단계 이후에, 사용자로부터 출력된 타겟 구간과 관련된 정보를 선택받은 경우, 선택받은 타겟 구간에 대응되는 음향 데이터를 청각적인 형태로 출력하는 단계를 더 포함한다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 음향 데이터 탐색 장치가 제공된다. 음향 데이터 탐색 장치는 적어도 하나의 음향 데이터를 수신하도록 구성된 통신부, 사용자로부터 탐색 대상 데이터를 입력받기 위한 사용자 입력부, 저장된 하나 이상의 음향 데이터 내에서 탐색 대상 데이터와 유사한 데이터를 포함하는 타겟 구간을 탐색하도록 구성된 제어부 및 탐색된 타겟 구간과 관련된 정보를 출력하기 위한 출력부를 포함한다.
본 발명은 음향 데이터 내에서 탐색 대상 데이터와 동일 또는 유사한 내용을 포함하는 타겟 구간과 관련된 정보를 출력함으로써 사용자는 음향 데이터에서 자신이 찾고자 하는 탐색 대상 데이터를 빠르게 찾을 수 있다.
도 1은 본 발명의 일 실시예에 따른 음향 데이터 탐색 장치를 설명하기 위한 개략적인 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음향 데이터 탐색 방법을 설명하기 위한 개략적인 순서도이다.
도 3, 도 4 및 도 5는 본 발명의 일 실시예에 따른 음향 데이터 탐색 방법을 설명하기 위한 예시도들이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 음향 데이터 탐색 장치를 설명하기 위한 개략적인 블록도이다. 도 1에서 설명되는 음향 데이터 탐색 장치는 제한되지 않고, 음향 데이터를 탐색할 수 있는 모든 장치를 포함할 수 있다. 예를 들어, 음향 데이터 탐색 장치는 범용 컴퓨터, 랩탑, 모바일 디바이스(예: 스마트폰, 태블릿 디바이스 등), 웨어러블 장치(예: 스마트 워치 등) 등을 포함할 수 있다. 또한, 이들을 구현하기 위해 도 2의 모든 구성이 포함되지 않을 수 있으며, 이하에서 언급되지 않은 제네릭한 구성요소들이 추가될 수도 있다.
음향 데이터 탐색 장치(100)는 통신부(110), 사용자 입력부(120), 출력부(130), 메모리(140), 인터페이스부(150), 제어부(160) 및 전원 공급부(170) 등을 포함할 수 있다. 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 가지거나 그보다 적은 구성요소들을 갖는 장치가 구현될 수도 있다.
통신부(110)는 장치와 장치가 위치한 네트워크 사이의 유무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 통신부(110)는, 인터넷 등의 통신망 상에서 외부의 장치와 신호를 송수신할 수 있다. 상기 신호는 다양한 형태의 데이터를 포함할 수 있다. 통신부(110)는 적어도 하나의 음향 데이터를 수신하도록 구성된다.
사용자 입력부(120)는 사용자가 음향 데이터 탐색 장치(100)의 동작 제어를 위한 입력 데이터를 발생시킬 수 있다. 사용자 입력부(120)는 키 패드(key pad) 돔 스위치 (domeswitch), 터치 패드(정압/정전), 마이크, 조그 휠, 조그 스위치 등으로 구성될 수 있다.
사용자 입력부(120)는 사용자로부터 탐색 대상 데이터를 입력받도록 구성된다. 일 예시로, 탐색 대상 데이터는 음향 형태(Sound Form)의 데이터일 수 있다. 구체적인 예로, 탐색 대상 데이터는 사용자의 육성이 녹음되어 생성된 음향 형태의 데이터일 수 있다. 다른 예시로 탐색 대상 데이터는 텍스트 형태(Text Form)의 데이터일 수 있다. 구체적인 예로, 탐색 대상 데이터는 사용자의 터치 입력에 의해 생성된 텍스트 형태의 데이터일 수 있다.
예를 들어, 사용자가 “지식 재산권” 강의 내용이 녹음된 음향 데이터 내에서 “특허법”에 대한 강의 부분을 찾고 싶으면, 사용자는 사용자 입력부(120)에 “특허법”을 음향 형태로 입력하거나 텍스트 형태로 입력할 수 있다.
다만, 사용자의 입력 방식은 이에 한정되는 것은 아니며, 사용자는 사용자 입력부(120)가 구비한 다양한 센서를 예를 들어, 자이로 센서, 열감지 센서 등을 통해 탐색 대상 데이터를 다양한 방식으로 입력할 수 있다.
또한, 사용자는 음향 데이터 탐색을 위한 어플리케이션이 출력부(130)가 출력하는 이미 저장된 음향 형태의 데이터나 텍스트 형태의 데이터 중 하나를 선택하는 방식으로 탐색 대상 데이터를 입력할 수도 있다.
또한, 탐색 대상 데이터는 특정 명사에 한정되는 것은 아니며, 의성어, 의태어 등을 포함한 다양한 형태의 단어, 문장, 음악 소리 등을 포함할 수 있다.
사용자 입력부(120)는 사용자로부터 탐색 구간을 설정받을 수 있다. 탐색 구간은 음향 데이터 중 사용자가 탐색 대상 데이터가 존재하는지 판단하고자 하는 구간을 말한다. 이로써, 사용자가 원하지 않는 구간에서 탐색 대상 데이터를 존재하는 경우, 이를 노이즈로 취급한 채 원하는 구간에서만 탐색 결과를 얻을 수 있다.
출력부(130)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 이에는 시각적 출력장치 예를 들어, 디스플레이부(131), 청각적 출력 장치 예를 들어, 음향 출력 모듈(132) 등이 포함될 수 있다.
디스플레이부(131)는 장치에서 처리되는 정보를 표시(출력)한다. 예를 들어, 음향 데이터 탐색 장치(100)가 시스템과 관련된 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 디스플레이부(131)는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다.
음향 출력 모듈(132)은 통신부(110)로부터 수신되거나 메모리(160)에 저장된 오디오 데이터를 출력할 수 있다. 음향 출력 모듈(132)은 장치에서 수행되는 기능과 관련된 음향 신호를 출력하기도 한다. 다양한 실시예에서, 사용자 입력부(120)나 출력부(130)가 생략되도록 구현될 수도 있다.
출력부(130)는 제어부(160)에서 탐색된 타겟 구간과 관련된 정보를 출력하기 위해 구성된다. 타겟 구간과 관련된 정보는 타겟 구간에 대응되는 음파의 시각적 이미지, 타겟 구간이 탐색 대상 데이터와 유사한 정도, 타겟 구간을 포함하는 음향 데이터의 파일 정보, 음향 데이터 내 타겟 구간의 시간 정보 등을 포함할 수 있다.
여기서, 음향 데이터의 파일 정보는 음향 데이터를 포함하는 파일의 파일명, 생성 일자, 최근 재생한 날짜, 음향 데이터 길이 시간 등을 포함할 수 있다. 또한, 타겟 구간의 시간 정보는 음향 데이터 내에서 타겟 구간의 시점, 길이 시간, 종점 등을 포함할 수 있다.
예를 들어, 출력부(130)는 타겟 구간과 관련된 정보를 시각적인 형태로 출력할 수 있다. 그리고, 출력부(130)는 탐색된 타겟 구간이 복수 개인 경우, 타겟 구간과 관련된 정보를 타겟 구간이 탐색 대상 데이터와 유사한 정도에 따라 내림차순 등의 방식으로 정렬하여 시각적인 형태로 출력할 수 있다. 이로써, 사용자는 음향 데이터에서 자신이 찾고자 하는 탐색 대상 내용을 빠르고 정확하게 찾을 수 있다.
또한, 출력부(130)는 타겟 구간을 복수 개 포함하는 특정 음향 데이터가 존재하는 경우, 탐색된 타겟 구간과 관련된 정보를 출력하고, 특정 음향 데이터와 관련된 정보를 추가로 출력할 수 있다. 이로써, 사용자는 자신이 찾고자 하는 탐색 대상 내용과 관련이 있는 음향 데이터를 빠르고 정확하게 찾을 수 있다. 특정 음향 데이터와 관련된 정보는 특정 음향 데이터 내에 포함된 타겟 구간의 개수, 특정 음향 데이터의 파일 정보 등을 포함할 수 있다.
한편, 출력부(130)는 타겟 구간을 복수 개 포함하는 특정 음향 데이터가 복수 개 존재하는 경우, 특정 음향 데이터와 관련된 정보를 특정 음향 데이터 내에 포함된 타겟 구간의 개수 및 타겟 구간들이 탐색 대상 데이터와 유사한 정도 중 적어도 하나에 우선순위를 두어 기 설정된 개수의 특정 음향 데이터를 출력할 수 있다. 이로써, 사용자는 자신이 찾고자 하는 탐색 대상 내용과 관련도가 높은 음향 데이터를 빠르고 정확하게 찾을 수 있다.
한편, 출력부(130)는 타겟 구간과 관련된 정보를 출력하고, 사용자로부터 출력된 타겟 구간과 관련된 정보를 선택받은 경우, 선택받은 타겟 구간에 대응되는 음향 데이터를 청각적인 형태로 출력할 수 있다. 이로써, 사용자는 탐색된 타겟 구간이 자신이 찾고자 하는 탐색 대상 내용을 진정으로 포함하고 있는지 확인할 수 있다.
메모리부(140)는 제어부(160)의 처리 및 제어를 위한 프로그램이 저장될 수도 있고, 입/출력되는 데이터들의 임시 저장을 위한 기능을 수행할 수도 있다. 메모리부(140)에는 적어도 하나의 음향 데이터 및 음향 데이터를 탐색하기 위한 어플리케이션(application)이 저장될 수 있다.
메모리(140)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 한편, 음향 데이터 탐색 장치(100)는 통신부(110)를 이용하여 인터넷(internet)상에서 메모리(160)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.
인터페이스부(150)는 전자 장치(100)에 연결되는 모든 외부기기와의 통로 역할을 한다. 인터페이스부(150)는 외부 기기로부터 데이터를 전송받거나, 전원을 공급받아 장치 내부의 각 구성 요소에 전달하거나, 장치 내부의 데이터가 외부 기기로 전송되도록 한다. 예를 들어, 유/무선 헤드셋 포트, 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트, 이어폰 포트 등이 인터페이스부(150)에 포함될 수 있다.
제어부(160)는 통상적으로 장치의 전반적인 동작을 제어한다. 예를 들어, 데이터의 처리나 처리된 데이터를 출력하기 위한 관련된 제어 및 처리를 수행한다. 제어부(160)는 병렬 데이터 처리를 위한 그래픽 모듈(161)을 구비할 수도 있다. 그래픽 모듈(161)은 제어부(160) 내에 구현될 수도 있고, 제어부(160)와 별도로 구현될 수도 있다.
제어부(160)는 음향 데이터 내에서 사용자로부터 입력받은 탐색 대상 데이터와 유사한 내용을 포함하는 타겟 구간을 탐색한다. 본 명세서에서, '유사'라는 용어는 '비슷'하거나 '동일'하다는 의미로 사용한다. 한편, 음향 데이터는 음성 파일, 녹음 파일, 오디오 파일 등에 포함되어 있을 수 있다. 타겟 구간은 음향 데이터 내에서 탐색 대상 데이터와 유사도가 기 설정된 값 이상인 데이터를 포함하는 구간일 수 있다. 기 설정된 값은 사용자에 의해 설정될 수 있다.
제어부(160)는 사용자로부터 탐색 구간을 설정받은 경우, 음향 데이터 중 탐색 구간 내에서 타겟 구간을 탐색할 수 있다. 사용자가 탐색을 원하는 구간에서만 탐색을 하고, 원하지 구간에서 탐색하지 않음으로써 탐색 시간을 단축시킬 수 있다.
그리고, 제어부(160)는 탐색 대상 데이터의 유형에 기초하여 타겟 구간을 탐색하는 방식을 결정하고, 타겟 구간을 탐색할 수 있다.
일 예시로, 제어부(160)는 탐색 대상 데이터의 유형이 음향 데이터의 유형과 동일한 경우 곧바로 탐색을 시작할 수 있다. 즉, 타겟 구간은 상기 탐색 대상 데이터가 음향 형태(Sound Form)의 데이터인 경우, 탐색 대상 데이터와 유사한 음파(Sound Wave) 형태의 데이터를 포함하는 구간일 수 있다.
다른 예시로, 제어부(160)는 탐색 대상 데이터의 유형이 음향 데이터의 유형과 상이한 경우, 탐색 대상 데이터와 상기 음향 데이터를 동일한 형태의 데이터로 변환하고, 타겟 구간을 탐색할 수 있다. 예를 들어, 제어부(160)는 탐색 대상 데이터가 텍스트 형태(Text Form)의 데이터인 경우, 탐색 대상 데이터와 상기 음향 데이터를 동일한 형태의 데이터로 변환하고, 타겟 구간을 탐색할 수 있다.
구체적으로, 제어부(160)는 탐색 대상 데이터를 음향 형태의 데이터로 변환하거나, 음향 데이터를 텍스트 형태의 데이터로 변환하고, 타겟 구간을 탐색할 수 있다. 한편, 음향 데이터가 텍스트 형태의 데이터로 변환된 경우, 타겟 구간은 텍스트 형태의 데이터로 변환된 음향 데이터가 탐색 대상 데이터와 유사한 텍스트의 데이터를 포함하는 구간일 수 있다.
한편, 탐색 대상 데이터와 상기 음향 데이터를 동일한 형태의 데이터로 변환하는 것은 인공지능 기반의 예측 모델 등을 이용하여 수행될 수 있다. 그리고, 인공지능 기반의 예측 모델은 출원 전에 공지된 다양한 방식의 예측 모델 예를 들어, 딥러닝 기반의 예측 모델일 수 있다. 또한, 파형(Wave)이나 텍스트(Text)의 유사도 판단에는 출원 전에 공지된 다양한 방식의 유사도 판단 알고리즘이 이용될 수 있다.
전원 공급부(170)는 제어부(160)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성요소들의 동작에 필요한 전원을 공급한다.
여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs(application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어부(160) 자체로 구현될 수 있다.
소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리(160)에 저장되고, 제어부(160)에 의해 실행될 수 있다.
한편, 음향 데이터를 텍스트의 행태로 변환하는 방식은 음성 API 등 현재 개발되어 있는 프로그램 및 추가적으로 개발되는 프로그램을 사용하는 것을 포함할 수 있다. 또한, 음성 파일 등을 텍스트의 형태로 변환하고자 할 때 화자 목소리의 높낮이, 속도, 억양에 따른 개별적인 음향 데이터의 처리를 진행할 수 있다.
음향 데이터를 텍스트의 행태로 변환할 때에는 음성 데이터에 대해 여러 처리 과정을 거친 후 텍스트의 형태 예를 들어, 문자열로 변환하여 출력하는 과정으로 이루어지며, 이는 크게 여러 개의 단계로 구분될 수 있다. 예를 들어, 본 단계는 음성 분석, 음향 모델 계산, 언어 모델 계산, 디코딩 과정으로 이루어질 수 있다.
음성 분석이란 음향 데이터 예를 들어, 음성 신호의 주파수를 분석하여 얻어진 음성의 특정 부분을 추출하는 작업을 의미한다. 한편, 음성 인식에는 마이크로폰이 이용될 수 있고, 이를 통해 음성이 디지털 신호로 변환될 수 있다.
음향 모델 계산이란 음향 데이터에서 기 설정된 시간 구간을 기 설정된 시간 간격으로 움직이면서 생성한 특징 벡터열 X와 어휘 W에 대해 P(X|W) 확률을 학습하는 과정이다. 예를 들어, 음성 모델 계산이란 음향 데이터를 0.02초 구간에서 0.01초씩 시간 축으로 움직이면서 만든 특징 벡터열 X와 어휘 W에 대해 P(X|W) 확률을 학습하는 과정일 수 있다.
이때, 학습 모델에는 심층 신경망, 은닉 마르코프 모델, 신경회로망 혼성 네트워크, 동적시간 왜곡 등이 포함될 수 있다. 다만, 이에 한정되는 것은 아니며, 가우시안 혼성 모델 부분만을 딥러닝으로 대체하는 방법 등이 포함될 수 있다. 음향 모델의 학습에는 음향 데이터와 음향 데이터에 대한 정보가 이용될 수 있다.
음향 모델은 이를 이용하여 프로토 타입을 생성할 수 있다. 그리고, 음향 모델은 사용자로부터 입력되는 탐색 대상 데이터를 통해 사용자의 실제 음향 데이터가 반영되어 학습될 수 있다.
이후, 추가적으로 텍스트에 대한 오류, 띄어쓰기 교정 등이 수행될 수 있으며, 특수 문자나 기호, 숫자, 알파벳 변환 등의 작업이 수행될 수 있다. 한편, 전처리 작업을 진행할 때에는 문자, 숫자 등의 세부 정보 처리를 통해 불필요한 부분 등 각종 노이즈를 제거하며, 텍스트에 대해 품사 등의 각종 태그를 적용할 수 있다.
언어 모델은 음향 데이터 내의 텍스트를 분석하여 단어들 간의 연관관계를 효율적으로 분석하는 과정을 의미한다. 언어 모델은 어떠한 단어 다음에 나올 단어의 확률 즉 퍼센트를 추정하여 확률이 높은 단어들과 결합할 가능성을 높일 수 있다.
디코딩 과정은 음향 모델과 언어 모델로 구성된 영역에서 최적의 경로를 탐색하고 음향 데이터와 문자열을 연결하는 과정이다. 이후, 정교화 작업을 통해 문자 예를 들어, 단어들을 묶어주고 주어진 텍스트에서 의미 없는 연결어구 등을 필터링하는 과정이 진행될 수 있다. 이후, 분할 과정에서 상기 필터링된 것이 인식되고 이는 텍스트로 변환될 수 있다.
한편, 제어부(160)는 음향 데이터 내에서 사용자가 찾고자 하는 탐색 대상 데이터를 탐색하고, 해당 음향 데이터를 텍스트 형태의 데이터로 변환해주는 음향 데이터 탐색 어플리케이션을 메모리(140)에 저장할 수 있다. 제어부(160)는 사용자의 요청에 따라 음향 데이터 탐색 어플리케이션을 실행할 수 있다. 실행된 음향 데이터 탐색 어플리케이션에 음향 데이터를 포함하는 녹음 파일, 미디어 파일 등이 첨부되면 일정 시간이 지난 후에 음향 데이터가 텍스트 형태의 데이터로 변환될 수 있다.
실시예에 따라, 음향 데이터 탐색 어플리케이션은 음향 데이터의 텍스트 변환 기능뿐만 아니라 녹음 기능을 가질 수도 있다. 이와 같은 텍스트 변환은 음향 데이터 탐색 어플리케이션 내에서 녹음 기능과 통합되어 진행되며, 다양한 실시예에서 텍스트 형태의 데이터가 분류되어 저장될 수 있다. 또한, 텍스트 형태의 데이터가 정확하게 변환되지 않았을 경우 음향 데이터 탐색 어플리케이션은 사용자가 원하는 텍스트로 변환할 수 있도록 에디터 기능을 제공할 수 있다.
또한, 음향 데이터 탐색 어플리케이션은 하나의 음향 데이터 안에서 사용자가 입력한 탐색 대상 데이터를 탐색하는 경우 하나의 음향 데이터 안에서 유사도가 높은 타겟 구간을 내림차순 등의 방식으로 정렬하여 출력할 수 있다. 이로써, 사용자는 자신이 원하는 유사도를 선택하여 음향 데이터를 들을 수 있다.
또한, 사용자가 탐색 대상 데이터를 입력하는 경우, 음향 데이터 탐색 어플리케이션은 메모리(140)에 저장되어 있는 음향 데이터 전체에서 유사한 내용을 많이 포함하는 타겟 구간을 많이 포함하는 음향 데이터들을 내림차순으로 정렬하여 출력할 수 있다. 이를 통해서 사용자는 음향 데이터를 선택하여 들을 수 있다.
또한, 음향 데이터 탐색 어플리케이션은 사용자가 개인정보(나이, 국적, 직업, 학력 등) 제공에 동의할 경우 사용자로부터 개인정보가 입력되면 입력된 개인정보를 수집하고 이를 특정 집단의 카테고리 별로 구분하여 텍스트 변환의 정확성을 높일 수 있다.
또한, 음향 데이터 탐색 어플리케이션은 음향/텍스트 변환에 부담을 가지는 사용자들을 위하여 텍스트의 변환 품질을 사전에 파악할 수 있는 기능을 제공할 수 있다. 음향/텍스트 변환은 음향 데이터를 텍스트의 행태로 변환하는 것을 말한다.
한편, 음향 데이터 탐색 어플리케이션은 음성 파일 등의 잡음이 섞여 음향/텍스트 변환이 정확하지 않을 수 있기에, 잡음에 대해 인식하고 이를 음성 파일 등에서 제거하는 기능을 포함할 수 있다. 음향 데이터 탐색 어플리케이션은 딥러닝 기술을 이용하여 잡음 데이터들을 학습하여 보다 더 정확한 음향/텍스트 변환 기술을 구현할 수 있다.
또한, 음향 데이터 탐색 어플리케이션은 텍스트 변환이 되지 않은 상태에서도, 사전에 파형 분석된 음향과 단어를 연결하여 정확한 음향 검색 서비스를 제공할 수 있다.
또한, 음향 데이터 탐색 어플리케이션은 그 자체로만 활용되는 것뿐 아니라 다양한 어플리케이션에서 함께 활용될 수 있다. 예를 들어, 음향 데이터 탐색 어플리케이션이 기존에 사용되고 있던 캘린더와 연동되는 경우, 음향 데이터 탐색 어플리케이션은 캘린더에 녹음된 일정과 연동하여 녹음 파일을 사용자가 기록한 일정의 이름으로 만들어진 폴더에 자동으로 저장할 수도 있다.
또한, 음향 데이터 탐색 어플리케이션은 음성 기반의 명령 수행이 가능하다. 또한, 음향 데이터 탐색 어플리케이션은 움직임이 불편한 사람들을 위해, 음성 명령을 통해 주변 환경을 관리하는 기능 예를 들어, 가전 제품 등을 제어하는 기능, 조명의 밝기를 조절하는 기능 등을 제공할 수 있다.
또한, 음향 데이터 탐색 어플리케이션은 녹음된 화자의 음성 특징을 분석하여 화자에 따라 파일을 분류할 수 있다. 이러한 파일 분류를 통해 파일 관리가 편리해질 수 있고, 화자의 목소리와 관련된 데이터를 얻는 것이 보다 더 용이해질 수 있다.
또한, 음향 데이터 탐색 어플리케이션은 화자의 목소리를 통해 화자를 식별할 수 있다. 그리고 이는 고유한 음성 특징을 바탕으로 하는 결제 시스템이나 잠금 해제 등에 이용될 수 있다.
한편, 음향 데이터 탐색 어플리케이션은 화자의 설정에 따라 음향/텍스트 변환을 수행할 수 있다. 예를 들어, 잘못 변환되거나 완벽하게 변환되지 않은 경우, 해당 부분에 대한 텍스트를 수정 내지 변경할 수 있는 에디터 기능을 제공할 수 있다.
한편, 음향 데이터 탐색 어플리케이션은 음향 데이터뿐만 아니라 영상 데이터에도 텍스트 변환 기능을 접목시킬 수 있다. 이때 음향 데이터 탐색 어플리케이션은 사용자의 음성 패턴뿐만 아니라 목소리 패턴, 입술의 모양 등까지 학습해 텍스트 변환의 정확성을 향상시킬 수 있다. 이를 통해, 비정형 데이터의 텍스트 변환 기술이 가능해지고, 이는 추후 연구 분야 등에서 다양한 방식으로 활용될 수 있다.
또한, 음향 데이터 탐색 어플리케이션은 탐색 대상 데이터를 탐색할 때 특정 단어로 정확하게 번역되지 않았을 경우에 대비하여 특정 단어와 유사한 정도를 출력함으로써 사용자가 특정 단어를 놓치는 부분이 없도록 할 수 있다.
또한, 음향 데이터 탐색 어플리케이션은 녹음을 한 이후에 사용자에 의해서 텍스트 변환 요청이 있으면 음향 데이터를 텍스트 형태의 데이터로 변환하여 저장함으로써, 사용자 요청에 의해서 녹음된 파일이 재생되면 저장된 텍스트가 화면에 표시될 수 있다. 이러한 경우, 사용자가 시간의 여유 없이 바로 음향 데이터에 탐색 대상 데이터를 찾고자 한다면 사용자가 텍스트 변환하고자 하는 시간대를 우선 순위로 판독한 후 그 위치에서 일치도(유사도)가 높은 순으로 타겟 구간을 출력할 수 있다.
또한, 음향 데이터 탐색 어플리케이션은 수집된 사용자의 탐색 대상 데이터를 바탕으로 키워드 등을 추천해줄 수 있다. 사용자가 사전에 입력한 개인 정보 및 녹음 관련 정보를 바탕으로 키워드 등을 추천하여 탐색의 정확도를 높일 수 있으며, 이러한 데이터를 누적해 사용자의 만족도를 향상시킬 수 있다. 한편, 음향 데이터 탐색 어플리케이션은 수집된 개인 정보에 포함된 나이, 성별, 직업 등의 정보를 이용하여 검색 서비스를 최적화할 수 있다.
한편, 음향 데이터 탐색 어플리케이션에서 서비스를 제공할 때 맞춤형 광고를 표시할 수 있다. 예를 들어, 맞춤형 광고는 사용자가 빈번하게 검색하는 단어를 바탕으로 제공될 수 있다. 이러한 경우, 사용자가 개인 정보를 입력하지 않더라도 사용자의 탐색 대상 데이터에 의해 저장되므로, 사용자에게 최적화된 광고 제공이 가능하다.
또한, 음향 데이터 탐색 어플리케이션은 회의 등 여러 사람의 대화에 대하여 사용될 때, 화자를 개인의 고유 속성 내지 특성에 따라 식별하여 텍스트로 정리해 회의록 등의 문서 파일을 만들 수 있다. 자동으로 작성된 이 문서에서 사용자는 화자를 알아볼 수 있는 화자 표시 기능 등을 통해 최적화된 파일의 열람이 가능하다. 또한, 음향 데이터 탐색 어플리케이션은 각 화자의 발언을 타임 스탬프로 분류하여 사용자는 특정 화자의 음성을 선택하여 들을 수 있다. 그뿐 아니라, 음향 데이터 탐색 어플리케이션은 회의록별 버전을 관리하여 사용자는 텍스트의 내용에서 변경 사항 등을 확인할 수 있다.
또한, 음향 데이터에서 특정 텍스트를 찾는 서비스, MP3 재생 어플리케이션의 가사 지원 기능을 자동으로 제공하는 서비스, 음성 녹음 시 실시간으로 텍스트로 변환해주는 서비스, MP3 파일 내 음성을 텍스트로 변환해서 저장할 수 있도록 하는 서비스, 음향 데이터 탐색 어플리케이션을 플레이하는 서비스, 사용자가 유사도에 대응되는 텍스트를 찾는 서비스, 파형을 분석하여 이를 확률로 바꾸는 서비스, 맞춤형 광고를 기획하는 서비스, 수집된 데이터를 카테고리 별로 분류하는 서비스 및 텍스트를 저장할 때 시간도 같이 저장하는 서비스 등이 제공될 수 있다.
도 2는 본 발명의 일 실시예에 따른 확장된 음향 데이터 탐색 방법을 설명하기 위한 개략적인 순서도이다.
도 2에 도시된 음향 데이터 탐색 방법은 도 1에 도시된 음향 데이터 탐색 장치(100)에서 수행될 수 있다. 다만, 이에 한정되는 것은 아니다.
먼저, 적어도 하나의 음향 데이터가 저장된다(S200).
다음으로, 사용자로부터 탐색 대상 데이터가 입력된다(S210).
다음으로, 저장된 음향 데이터 내에서 탐색 대상 데이터와 유사한 데이터를 포함하는 타겟 구간이 탐색된다(S220).
실시예에 따라, 타겟 구간이 탐색되기 이전에, 사용자로부터 탐색 구간이 설정될 수 있다. 타겟 구간은 음향 데이터 내에서 탐색 대상 데이터와 유사도가 기 설정된 값 이상인 데이터를 포함하는 구간일 수 있다. 기 설정된 값은 사용자에 의해 설정될 수 있다.
실시예에 따라, 사용자로부터 탐색 구간이 설정된 경우, 음향 데이터 중 탐색 구간 내에서 타겟 구간이 탐색된다.
또한, 타겟 구간을 탐색하기 이전에, 탐색 대상 데이터의 유형에 기초하여 타겟 구간을 탐색하는 방식이 결정될 수 있다.
일 예시로, 탐색 대상 데이터의 유형이 음향 데이터의 유형과 동일한 경우 곧바로 탐색이 시작된다. 즉, 타겟 구간은 상기 탐색 대상 데이터가 음향 형태의 데이터인 경우, 탐색 대상 데이터와 유사한 음파 형태의 데이터를 포함하는 구간일 수 있다.
다른 예시로, 탐색 대상 데이터의 유형이 음향 데이터의 유형과 상이한 경우, 탐색 대상 데이터와 상기 음향 데이터가 동일한 형태의 데이터로 변환되고, 타겟 구간이 탐색될 수 있다. 예를 들어, 탐색 대상 데이터가 텍스트 형태의 데이터인 경우, 탐색 대상 데이터와 상기 음향 데이터가 동일한 형태의 데이터로 변환되고, 타겟 구간이 탐색될 수 있다.
구체적으로, 탐색 대상 데이터가 음향 형태의 데이터로 변환되거나, 음향 데이터가 텍스트 형태의 데이터로 변환되고, 타겟 구간이 탐색될 수 있다. 한편, 음향 데이터가 텍스트 형태의 데이터로 변환된 경우, 타겟 구간은 텍스트 형태의 데이터로 변환된 음향 데이터가 탐색 대상 데이터와 유사한 텍스트의 데이터를 포함하는 구간일 수 있다.
한편, 탐색 대상 데이터와 상기 음향 데이터를 동일한 형태의 데이터로 변환하는 것은 인공지능 기반의 예측 모델을 이용하여 수행될 수 있다.
마지막으로, 탐색된 타겟 구간과 관련된 정보가 출력된다(S230).
여기서, 타겟 구간과 관련된 정보는 타겟 구간에 대응되는 음파의 시각적 이미지, 타겟 구간이 탐색 대상 데이터와 유사한 정도, 타겟 구간을 포함하는 음향 데이터의 파일 정보 및 음향 데이터 내 타겟 구간의 시간 정보 중 적어도 하나를 포함할 수 있다. 그리고, 탐색된 타겟 구간이 복수 개인 경우, 타겟 구간과 관련된 정보가 타겟 구간이 탐색 대상 데이터와 유사한 정도에 따라 내림차순으로 정렬되어 시각적인 형태로 출력될 수 있다.
한편, 타겟 구간을 복수 개 포함하는 특정 음향 데이터가 존재하는 경우, 탐색된 타겟 구간과 관련된 정보가 출력되고, 특정 음향 데이터와 관련된 정보가 추가로 출력될 수 있다. 특정 음향 데이터와 관련된 정보는 특정 음향 데이터 내에 포함된 타겟 구간의 개수 및 특정 음향 데이터의 파일 정보 중 적어도 하나를 포함할 수 있다.
또한, 특정 음향 데이터가 복수 개 존재하는 경우, 특정 음향 데이터와 관련된 정보가 특정 음향 데이터 내에 포함된 타겟 구간의 개수 및 타겟 구간들이 탐색 대상 데이터와 유사한 정도 중 적어도 하나에 우선순위를 두어 기 설정된 개수의 특정 음향 데이터가 출력될 수 있다.
한편, 타겟 구간과 관련된 정보가 출력된 이후에, 사용자로부터 출력된 타겟 구간과 관련된 정보를 선택받은 경우, 선택받은 타겟 구간에 대응되는 음향 데이터가 청각적인 형태로 출력될 수 있다.
도 3, 도 4 및 도 5는 본 발명의 일 실시예에 따른 음향 데이터 탐색 방법을 설명하기 위한 예시도들이다.
도 3을 참조하면, 음향 데이터 탐색 장치(100)는 사용자 요청에 따라 음향 데이터 탐색 어플리케이션을 실행하고, 실행된 음향 데이터 탐색 어플리케이션에 대한 사용자 인터페이스를 표시할 수 있다. 예를 들어, 사용자 인터페이스는 파일 불러오기 기능에 관련된 제1 그래픽 객체(300), 최근 검색한 파일 기능에 관련된 제2 그래픽 객체(310), 검색 기능에 관련된 제3 그래픽 객체(320), 자주 찾았던 단어 기능에 관련된 제4 그래픽 객체(330) 및 즐겨찾기 관련 단어 기능에 관련된 제5 그래픽 객체(340)를 포함할 수 있다. 상기 그래픽 객체는 텍스트, 이미지, 버튼, 아이콘 등을 포함할 수 있다.
구체적으로, 파일 불러오기 기능은 음향 데이터를 텍스트 형태의 데이터로 변환하기 위해 음향 데이터 탐색 장치(100)의 메모리에 저장된 음향 데이터를 불러오는 기능일 수 있다. 최근 검색한 파일 기능은 사용자에 의해서 최근에 검색된 음향 데이터를 제공하는 기능일 수 있다. 검색 기능은 음향 데이터를 텍스트 형태의 데이터로 변환하고자 하는 음향 데이터를 검색하기 위한 기능일 수 있다. 자주 찾았던 단어 기능은 사용자에 의해서 최근에 검색되거나 가장 많은 횟수로 검색된 단어에 대한 정보를 제공하는 기능일 수 있다. 즐겨찾기 관련 단어 기능은 사용자가 많이 사용하는 단어 중 사용자에게 필요한 단어를 저장할 수 있는 기능일 수 있다.
다양한 실시예에서 단순히 사용자가 즐겨찾기한 단어뿐만 아니라 그와 유사한 단어가 음향 데이터에 존재하는 경우 이를 사전에 알리기 위한 기능 또한 포함될 수 있다. 이를 통해서 사용자의 검색에 대한 시간 낭비를 방지할 수 있다. 다양한 실시예에서 사용자가 개인정보를 선택적으로 입력하도록 하여 사용자의 나이 때에 해당하는 연락층이나, 같은 직업을 가지고 있는 다른 사용자들이 빈번하게 사용하는 단어들이 검색을 위해 이용되도록 할 수 있다.
도 4를 참조하면, 음향 데이터 탐색 장치(100)는 검색 기능에 관련된 그래픽 객체(320)를 통해서 “시험에 꼭 나옴”과 같은 단어들이 입력되면 음향 데이터 내에서 입력된 단어들을 포함하는 타겟 구간을 탐색하고, 탐색된 타겟 구간에 대한 정보를 나타내는 사용자 인터페이스를 표시할 수 있다.
위 사용자 인터페이스는 검색된 단어들을 나타내는 그래픽 객체(예: 검색: 시험에꼭나옴)(400), 검색된 녹음파일들 각각에 대한 파형, 일치도(유사도), 상세 내용에 대한 정보를 나타내는 그래픽 객체들(410)을 포함할 수 있다.
그래픽 객체들(410)은 각 타겟 구간에 대응되는 음향 데이터의 파형을 나타낸 이미지, 일치도(유사도)를 퍼센트로 나타낸 텍스트 및 상세 내용을 확인하기 위한 확인 아이콘을 포함할 수 있다.
예를 들어, 제1 타겟 구간의 상세 내용을 확인하기 위한 확인 아이콘(420)이 선택되면 음향 데이터 탐색 장치(100)는 제1 타겟 구간에 대한 상세 내용을 나타내는 사용자 인터페이스를 도 5와 같이 표시할 수 있다.
도 5를 참조하면, 제1 타겟 구간에 대한 상세 내용을 나타내는 사용자 인터페이스는 탐색된 타겟 구간을 포함하는 음향 데이터의 개수를 나타내는 그래픽 객체(예: 검색결과: 총 5개)(500)를 포함할 수 있다.
또한, 위 인터페이스는 제1 타겟 구간에 대한 일치도(유사도)를 나타내는 그래픽 객체(예: 85%)(510), 제1 타겟 구간에 대응되는 음향 데이터의 파형을 나타내는 그래픽 객체(520)를 더 포함할 수 있다. 음향 데이터의 파형을 나타내는 그래픽 객체(520)는 탐색 대상 데이터가 포함되는 타겟 구간을 나타내기 위한 타겟 부분(530)을 더 포함할 수 있다.
또한, 위 인터페이스는 재생을 위한 기능에 관련된 버튼(예: 여기서 재생)(540) 및 다른 파일을 검색하기 위한 기능에 관련된 버튼(예: 다음 찾기)(550)를 더 포함할 수 있다.
이와 같은 본 발명은 이미 녹음되어 있는 음향 데이터를 실시간으로 텍스트 형태의 데이터로 변환할 수 있고, 짧은 시간 동안 녹음된 녹음 파일뿐만 아니라 데이터베이스를 이용하여 오랜 시간 동안 녹음된 녹음 파일도 그 변환의 대상으로 할 수 있다.
다양한 실시예에서 본 발명은 인공지능(음향 인식)을 이용하여 개인 맞춤형 음향/텍스트 변환 서비스를 제공하고, 음향/텍스트 변환의 정확성을 위해 사람의 음성 및 녹음된 음성을 같이 학습한다. 본 발명은 음향/텍스트 변환 또는 검색을 위해 WIFI 등을 이용할 수 있으며, 필요에 의해 무선 인터넷을 이용하므로, 사용자의 데이터 사용에 따른 비용을 줄일 수 있다.
또한, 본 발명은 기존에 제공된 MP3 재생 어플리케이션에서도 탐색 기능을 이용하도록 할 수 있고, 다양한 언어들이 혼합된 음향 파일도 음향/텍스트 변환 및 탐색이 가능하다. 뿐만 아니라, 본 발명은 사용자별로 사용하는 분야에 따라 서로 다른 언어를 설정할 수 있고, 완벽한 번역이 아니더라도 유사한 부분을 검색하도록 함으로써 사용자의 편의성을 증진시킬 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (17)

  1. 적어도 하나의 음향 데이터(Sound Data)를 저장하는 단계;
    사용자로부터 탐색 대상 데이터를 입력받는 단계;
    상기 저장된 음향 데이터 내에서 상기 탐색 대상 데이터와 유사한 데이터를 포함하는 타겟 구간을 탐색하는 단계; 및
    상기 탐색된 타겟 구간과 관련된 정보를 출력하는 단계를 포함하고,
    상기 탐색된 타겟 구간과 관련된 정보는, 상기 탐색된 타겟 구간에 대응하는 음향 데이터의 파형, 일치도 및 상세 내용을 포함하고,
    상기 상세 내용은, 상기 탐색된 타겟 구간을 포함하는 음향 데이터의 개수, 상기 타겟 구간에 대한 일치도, 및 상기 타겟 구간에 대응되는 음향 데이터의 파형을 포함하는, 음향 데이터 탐색 방법.
  2. 제1항에 있어서,
    상기 타겟 구간은, 상기 탐색 대상 데이터와 유사도가 기 설정된 값 이상인 데이터를 포함하는 구간인, 음향 데이터 탐색 방법.
  3. 제2항에 있어서,
    상기 기 설정된 값은, 상기 사용자에 의해 설정되는, 음향 데이터 탐색 방법.
  4. 제1항에 있어서,
    상기 타겟 구간을 탐색하는 단계 이전에, 상기 사용자로부터 탐색 구간을 설정받는 단계를 더 포함하며,
    상기 타겟 구간을 탐색하는 단계는, 상기 음향 데이터 중 상기 탐색 구간 내에서 상기 타겟 구간을 탐색하는, 음향 데이터 탐색 방법.
  5. 제1항에 있어서,
    상기 타겟 구간을 탐색하는 단계 이전에, 상기 탐색 대상 데이터의 유형에 기초하여 상기 타겟 구간을 탐색하는 방식을 결정하는 단계를 더 포함하는, 음향 데이터 탐색 방법.
  6. 제1항에 있어서,
    상기 타겟 구간은, 상기 탐색 대상 데이터가 음향 형태(Sound Form)의 데이터인 경우, 상기 탐색 대상 데이터와 유사한 음파(Sound Wave) 형태의 데이터를 포함하는 구간인, 음향 데이터 탐색 방법.
  7. 제1항에 있어서,
    상기 탐색 대상 데이터가 텍스트 형태(Text Form)의 데이터인 경우, 상기 타겟 구간을 탐색하는 단계 이전에, 상기 탐색 대상 데이터와 상기 음향 데이터를 동일한 형태의 데이터로 변환하는 단계를 더 포함하는, 음향 데이터 탐색 방법.
  8. 제7항에 있어서,
    상기 탐색 대상 데이터와 상기 음향 데이터를 동일한 형태의 데이터로 변환하는 단계는, 상기 탐색 대상 데이터를 음향 형태의 데이터로 변환하는 단계; 및 상기 음향 데이터를 텍스트 형태의 데이터로 변환하는 단계; 중 어느 하나로 이루어지는, 음향 데이터 탐색 방법.
  9. 제8항에 있어서,
    상기 타겟 구간은, 상기 음향 데이터가 텍스트 형태의 데이터로 변환된 경우, 상기 텍스트 형태의 데이터로 변환된 음향 데이터가 상기 탐색 대상 데이터와 유사한 텍스트의 데이터를 포함하는 구간인, 음향 데이터 탐색 방법.
  10. 제7항에 있어서,
    상기 탐색 대상 데이터와 상기 음향 데이터를 동일한 형태의 데이터로 변환하는 단계는, 인공지능 기반의 예측 모델을 이용하여 수행되는, 음향 데이터 탐색 방법.
  11. 삭제
  12. 제1항에 있어서,
    상기 탐색된 타겟 구간이 복수 개인 경우, 상기 타겟 구간과 관련된 정보를 출력하는 단계는, 상기 타겟 구간과 관련된 정보를 상기 타겟 구간이 상기 탐색 대상 데이터와 유사한 정도에 따라 정렬하여 시각적인 형태로 출력하는, 음향 데이터 탐색 방법.
  13. 제1항에 있어서,
    상기 타겟 구간을 복수 개 포함하는 특정 음향 데이터가 존재하는 경우, 상기 탐색된 타겟 구간과 관련된 정보를 출력하는 단계 이후, 상기 특정 음향 데이터와 관련된 정보를 추가로 출력하는 단계를 더 포함하는, 음향 데이터 탐색 방법.
  14. 제13항에 있어서,
    상기 특정 음향 데이터와 관련된 정보는, 상기 특정 음향 데이터 내에 포함된 타겟 구간의 개수 및 상기 특정 음향 데이터의 파일 정보 중 적어도 하나를 포함하는, 음향 데이터 탐색 방법.
  15. 제13항에 있어서,
    상기 특정 음향 데이터가 복수 개 존재하는 경우, 상기 특정 음향 데이터와 관련된 정보를 추가로 출력하는 단계는, 상기 특정 음향 데이터와 관련된 정보를 상기 특정 음향 데이터 내에 포함된 타겟 구간의 개수 및 상기 타겟 구간들이 상기 탐색 대상 데이터와 유사한 정도 중 적어도 하나에 우선순위를 두어 기 설정된 개수의 특정 음향 데이터를 출력하는, 음향 데이터 탐색 방법.
  16. 제1항에 있어서,
    상기 타겟 구간과 관련된 정보를 출력하는 단계 이후에, 상기 사용자로부터 상기 출력된 타겟 구간과 관련된 정보를 선택받은 경우, 상기 선택받은 타겟 구간에 대응되는 음향 데이터를 청각적인 형태로 출력하는 단계를 더 포함하는, 음향 데이터 탐색 방법.
  17. 적어도 하나의 음향 데이터를 수신하도록 구성된 통신부;
    사용자로부터 탐색 대상 데이터를 입력받기 위한 사용자 입력부;
    저장된 하나 이상의 음향 데이터 내에서 상기 탐색 대상 데이터와 유사한 데이터를 포함하는 타겟 구간을 탐색하도록 구성된 제어부; 및
    상기 탐색된 타겟 구간과 관련된 정보를 출력하기 위한 출력부를 포함하고,
    상기 탐색된 타겟 구간과 관련된 정보는, 상기 탐색된 타겟 구간에 대응하는 음향 데이터의 파형, 일치도 및 상세 내용을 포함하고,
    상기 상세 내용은, 상기 탐색된 타겟 구간을 포함하는 음향 데이터의 개수, 상기 타겟 구간에 대한 일치도, 및 상기 타겟 구간에 대응되는 음향 데이터의 파형을 포함하는, 음향 데이터 탐색 장치.
KR1020190066589A 2018-06-08 2019-06-05 음향 데이터 탐색 방법 및 장치 KR102185784B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180065960 2018-06-08
KR20180065960 2018-06-08

Publications (2)

Publication Number Publication Date
KR20190139774A KR20190139774A (ko) 2019-12-18
KR102185784B1 true KR102185784B1 (ko) 2020-12-02

Family

ID=69052376

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190066589A KR102185784B1 (ko) 2018-06-08 2019-06-05 음향 데이터 탐색 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102185784B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020551A (ja) * 1998-06-30 2000-01-21 Brother Ind Ltd 音声データ検索装置および記憶媒体
JP2009128508A (ja) * 2007-11-21 2009-06-11 Hitachi Ltd 音声データ検索システム
JP2011185997A (ja) * 2010-03-04 2011-09-22 Fujitsu Ltd 音声検索装置、音声検索方法、プログラム及び記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020551A (ja) * 1998-06-30 2000-01-21 Brother Ind Ltd 音声データ検索装置および記憶媒体
JP2009128508A (ja) * 2007-11-21 2009-06-11 Hitachi Ltd 音声データ検索システム
JP2011185997A (ja) * 2010-03-04 2011-09-22 Fujitsu Ltd 音声検索装置、音声検索方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
KR20190139774A (ko) 2019-12-18

Similar Documents

Publication Publication Date Title
US11062090B2 (en) Method and apparatus for mining general text content, server, and storage medium
RU2571608C2 (ru) Создание заметок с использованием голосового потока
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
KR20190125153A (ko) 텍스트 기반 사용자심리상태예측 및 콘텐츠추천 장치 및 그 방법
KR20180025121A (ko) 메시지 입력 방법 및 장치
US11881209B2 (en) Electronic device and control method
US20190221208A1 (en) Method, user interface, and device for audio-based emoji input
JP2017527926A (ja) 社交的会話入力に対するコンピュータレスポンスの生成
US20190180747A1 (en) Voice recognition apparatus and operation method thereof
US10621983B2 (en) Systems and methods for enhancing responsiveness to utterances having detectable emotion
KR102529262B1 (ko) 전자 장치 및 제어 방법
CN109920409B (zh) 一种声音检索方法、装置、***及存储介质
US10089898B2 (en) Information processing device, control method therefor, and computer program
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
CN108710653B (zh) 一种绘本朗读点播方法、装置及***
US20190317648A1 (en) System enabling audio-based navigation and presentation of a website
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN105677722A (zh) 社交软件中推荐好友的方法和装置
US10282417B2 (en) Conversational list management
KR102226427B1 (ko) 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법
US20210337274A1 (en) Artificial intelligence apparatus and method for providing visual information
KR102185784B1 (ko) 음향 데이터 탐색 방법 및 장치
CN112528645A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN108255917A (zh) 图像管理方法、设备及电子设备
CN114267324A (zh) 语音生成方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant