KR101590078B1

KR101590078B1 - 음성 아카이빙 장치 및 방법

Info

Publication number: KR101590078B1
Application number: KR1020140182638A
Authority: KR
Inventors: 추현승; 신예리; 심재현; 이하연; 이현; 전규현
Original assignee: 성균관대학교산학협력단
Priority date: 2014-11-27
Filing date: 2014-12-17
Publication date: 2016-02-01

Abstract

음성 아카이빙 처리 시, 음성을 녹음하고, 녹음한 음성 데이터를 텍스트로 변환하고, 변환된 텍스트로부터 적어도 하나의 키워드를 추출하고, 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일을 키워드와 매칭하여 저장하고, 저장한 음성 파일을 재생하는 음성 파일 플레이어를 제공하되, 음성 파일 플레이어의 실행 시 음성 파일 상의 적어도 하나의 위치에 키워드를 마커로 출력하는 그래픽 사용자 인터페이스가 제공한다.

Description

음성 아카이빙 장치 및 방법{APPARATUS AND METHOD FOR VOICE ARCHIVING}

본 발명은 사용자의 음성을 녹음하여 기록하는 음성 아카이빙 장치 및 그 방법에 관한 것이다.

일반적으로 온라인/모바일 메신저 및 문자 등을 통한 디지털 대화는 데이터의 저장이 용이하나, 오프라인에서의 실제 대화 시에는 화자가 대화 내용을 그대로 기억하는 것이 사실상 불가능하다. 이에 따라, 기억해야 하는 중요 내용을 휴대 단말기 등의 매체를 통해 직접 작성하거나 녹음하는 방식들이 사용되고 있다. 그러나 음성 대화의 녹음을 제외하고는 대화 내용을 저장하기 위한 행동으로 인해 대화에 집중이 어렵다는 문제점이 있으며, 이에 따라 중요한 대화 내용을 놓치는 경우 등이 종종 발생되고 있다. 뿐만 아니라, 대화 당시에는 사소하게 취급되었던 내용이 차후에 중요한 내용으로 부각될 수도 있어, 대화 내용을 효율적으로 저장 및 관리할 수 있는 방법이 필요한 실정이다.

이에 따라, 종래에는 보이스 레코더 등을 통해 음성 대화를 녹음하는 방식이 사용되고 있다. 그러나 기존의 음성 녹음 방식의 경우 파일 재생 시 원하는 정보를 바로 재생하기 위한 특정 위치로의 직접적인 접근이 불가능하다는 한계가 있었다. 또한, 기록된 음성 파일과 관련하여 제목, 날짜, 번호 등 기본적인 정보만 표시되어 원하는 정보를 검색할 때 효율적인 검색이 불가능하였다. 뿐만 아니라, 보이스 레코더 등의 음성 녹음 기기가 제공하는 기능에 비해 사용자 인터페이스(UI, User Interface)가 직관적이지 않았다. 즉, 사용자 인터페이스의 제어를 위해 기기 상의 한정된 버튼을 사용함으로써 하나의 버튼에 연관성이 없는 여러 가지 기능이 매칭되어 있는 경우가 많아, 사용자가 원하는 기능을 조작하는데 어려움이 있었다.

이와 관련하여, 대한민국공개특허 제 10-2013-0134156 호(발명의 명칭 통화 대기 상태의 음성을 녹음하여 자동으로 전송하는 전자 장치 및 방법)에서는, 제1 전자 장치와 통화 대기 상태(call standby status)가 시작되었음을 확인하는 과정; 상기 통화 대기 상태를 확인함과 동시에 음성 녹음(voice recording)을 시작하는 과정; 및 통화 상태에 따라 상기 녹음된 음성을 상기 제1 전자 장치 또는 적어도 하나의 제2 전자 장치 중 어느 하나의 제2 전자 장치로 송신하는 과정을 포함하는 통화 대기 상태의 음성을 녹음하여 자동으로 전송하는 전자 장치 및 방법을 개시하고 있다.

전술한 종래 기술의 문제점을 해결하기 위해, 본 발명의 일 실시예는 음성을 녹음하여 관련 정보와 함께 기록하되 음성 파일 제공 시 관련 정보를 함께 출력하여 음성 파일 내 특정 내용의 위치를 사용자가 직관적으로 판단할 수 있도록 하는 음성 아카이빙 장치 및 그 방법을 제공하고자 한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상기와 같은 기술적 과제를 달성하기 위한 본 발명의 일 측면에 따른 음성 아카이빙 장치는, 음성을 녹음하는 녹음 처리부; 상기 녹음 처리부를 통해 녹음된 음성 데이터를 텍스트로 변환하는 음성-텍스트 변환부; 상기 텍스트로 변환된 음성 데이터로부터 적어도 하나의 키워드를 추출하는 키워드 추출부; 상기 녹음된 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장하는 저장부; 및 상기 저장부에 저장된 음성 파일 중 선택된 음성 파일을 재생하는 음성 파일 플레이어를 제공하는 음성 파일 제공부를 포함하되, 상기 음성 파일 제공부는, 상기 음성 파일 플레이어의 실행 시, 상기 음성 파일 상의 적어도 하나의 위치에 상기 키워드를 마커로 출력하는 그래픽 사용자 인터페이스를 제공한다.

또한, 본 발명의 다른 측면에 따른 음성 아카이빙 장치를 통한 음성 아카이빙 방법은, 음성을 녹음하는 단계; 상기 녹음한 음성 데이터를 텍스트로 변환하는 단계; 상기 텍스트로부터 적어도 하나의 키워드를 추출하는 단계; 상기 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장하되, 상기 키워드와 매칭하여 저장하는 단계; 및 상기 저장한 음성 파일을 재생하는 음성 파일 플레이어를 제공하는 단계를 포함하되, 상기 음성 파일 플레이어의 실행 시, 상기 음성 파일 상의 적어도 하나의 위치에 상기 키워드를 마커로 출력하는 그래픽 사용자 인터페이스가 제공된다.

또한, 본 발명의 또 다른 측면에 따른 기록 매체는, 음성을 녹음하는 단계; 상기 녹음한 음성 데이터를 텍스트로 변환하는 단계; 상기 텍스트로부터 적어도 하나의 키워드를 추출하는 단계; 상기 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장하되, 상기 키워드와 매칭하여 저장하는 단계; 및 상기 저장한 음성 파일을 재생하는 음성 파일 플레이어를 제공하는 단계를 컴퓨터가 수행하도록 하되, 상기 음성 파일 플레이어의 실행 시, 상기 음성 파일 상의 적어도 하나의 위치에 상기 키워드를 마커로 출력하는 그래픽 사용자 인터페이스를 컴퓨터가 제공하도록 하는 프로그램이 기록되어 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 일상 생활 속에서 사용자 간의 대화를 간편하게 녹음할 수 있으며, 녹음된 음성 대화를 지능적으로 분류하여 정제된 정보의 제공이 가능하다.

또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 스마트 디바이스등의 음성 아카이빙 장치를 통해 사용자가 단순 동작이나 예약어만으로 음성 녹음을 자동 시작할 수 있으며, 대화 종료를 자동으로 인식하여 음성 녹음을 종료 및 기록할 수 있어 편리하다.

또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음성 파일의 구간마다 키워드를 마킹함으로써, 사용자가 음성 파일 내 특정 정보가 포함된 대화 위치를 직관적으로 알 수 있는 효과가 있다.

또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음성 파일 기록 시 사용자가 중요 관련 정보를 별도로 체크할 수 있으며, 음성 파일 검색 시 효과적으로 활용할 수 있다.

또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 녹음된 음성 대화를 음성 파일과 관련된 정보들과 매칭하여 데이터베이스화하여 아카이빙함으로써 대화 정보를 체계적으로 관리할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 음성 아카이빙 장치의 구성을 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 파일 데이터베이스의 구조를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 녹음 종료 처리 방식을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 대화 공백 처리 방식을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 음성 파일 플레이어의 그래픽 사용자 인터페이스의 일례를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 음성 아카이빙 방법을 설명하기 위한 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 발명의 일 실시예에 따른 음성 아카이빙 장치의 구성을 나타낸 블록도이다.

도 1에 도시한 바와 같이, 본 발명의 일 실시예에 따른 음성 아카이빙 장치(100)는 녹음 처리부(110), 음성-텍스트 변환부(120), 키워드 추출부(130), 저장부(140) 및 음성 파일 제공부(150)를 포함한다.

참고로, 본 발명의 실시예에 따른 도 1에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다. 그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.

녹음 처리부(110)는 사용자의 음성을 녹음처리한다.

녹음 처리부(110)는 기설정된 길이(즉, 시간)의 구간 단위로 음성(예를 들어, “적어도 한명 이상의 사용자 간 대화”)를 녹음하되, 연속된 구간을 녹음할 수 있다. 이때, 녹음 처리부(110)는 구간 단위의 음성 데이터를 음성-텍스트 변환부(120) 및 저장부(140)로 연속하여 전달한다. 참고로, 녹음 시작 시점부터 녹음 종료 시점까지의 구간 별 음성 데이터는 저장부(140)를 통해 하나의 음성 파일로 결합되어 저장된다.

녹음 처리부(110)는 음성 녹음의 시작 및 종료를 자동 처리할 수 있다.

구체적으로, 녹음 처리부(110)는 기설정된 녹음 명령 이벤트의 발생을 인식하여, 음성 녹음을 자동 시작 처리할 수 있다. 예를 들어, 녹음 처리부(110)는 음성 아카이빙 장치(110)에 포함된 적어도 하나의 종류의 센서(미도시)를 통해 센싱된 음성 또는 동작 정보를 획득하고, 사전에 약속된 예약어 또는 단순 동작이 인식되면 녹음 명령 이벤트가 발생한 것으로 판단하여 음성 녹음을 자동 시작할 수 있다.

그리고, 녹음 처리부(110)는 이하 설명할 음성-텍스트 변환부(120)를 통한 텍스트 변환 결과에 기초하여, 구간 내 음성 인식에 따른 텍스트 데이터의 유무 상태를 검출하며, 검출 결과에 기초하여 음성 녹음을 자동 종료할 수 있다.

예를 들어, 도 3은 본 발명의 일 실시예에 따른 녹음 종료 처리 방식을 설명하기 위한 도면이다.

녹음 처리부(110)는 음성-데이터 변환부(120)를 통한 구간 별 음성 데이터에 대한 음성 인식 결과(즉, 텍스트 변환 결과)를 피드백 받는다. 그리고 도 3에 도시한 바와 같이, 녹음 처리부(110)는 연속된 적어도 둘 이상의 구간 내 음성 인식 결과가 존재하지 않는 경우(즉, 텍스트 데이터가 존재하지 않는 경우) 음성 녹음을 자동으로 종료 처리할 수 있다. 즉, 도 3에서와 같이, 제 1 구간부터 제 n+1 구간까지의 음성 인식 결과, 제 n 구간에서 텍스트 변환 결과 값이 포함되지 않은 후 제 n+1 구간에서도 텍스트 변환 결과 값이 포함되지 않으면, 음성 대화가 종료된 것으로 판단하여 자동 녹음 종료 처리를 할 수 있다.

또한, 녹음 처리부(110)는 대화 공백이 존재하는 음성 파일을 전처리하여 하나의 음성 파일로서 저장부(140)를 통해 저장할 수 있다.

예를 들어, 도 4는 본 발명의 일 실시예에 따른 대화 공백 처리 방식을 설명하기 위한 도면이다.

도 4에 도시한 바와 같이, 음성 녹음이 종료 처리된 이후, 기설정된 시간 내에 새로운 음성 파일에 대한 녹음 시작 처리가 실행되면, 녹음이 종료 처리된 제 1 음성 파일과 새롭게 녹음이 시작된 제 2 음성 파일을 하나의 음성 파일로 판단하여 결합한 후 저장부(140)를 통해 저장할 수 있다. 이때, 녹음 처리부(110)는 제1 및 제 2 음성 파일 각각의 종료 시점에 텍스트 변환 결과가 포함되지 않은 적어도 하나의 구간을 공백으로 판단하여 공백 제거 처리할 수 있다. 이를 통해, 사용자의 침묵 등에 따른 일시적인 음성 녹음 종료 시에도 관련된 음성 파일 간의 결합을 통해 하나의 음성 파일을 생성함으로써 효과적인 데이터 관리가 가능하다. 또한, 음성 파일 간의 결합 시 불필요한 데이터(즉, 공백 시간 등)를 제거함으로써 음성 아카이빙의 품질을 높일 수 있다.

한편, 녹음 처리부(110)는 음성 파일의 저장 시 음성 파일에 대한 적어도 하나의 종류의 관련 정보를 사용자가 입력할 수 있도록 하는 사용자 인터페이스(User Interface, UI)를 제공할 수 있다. 이때, 관련 정보는 음성 파일 이름, 화자 정보, 태그 정보, 녹음 장소 정보, 녹음 일시 정보 및 대화 내용 요약 정보 중 적어도 하나의 항목을 포함할 수 있다. 이처럼, 사용자를 통해 입력되는 관련 정보는, 저장부(140)를 통해 해당 음성 파일과 매칭되어 저장되며, 이후 설명할 음성 파일 제공부(150)가 제공하는 음성 파일 플레이어를 통해 적어도 하나의 항목이 해당 음성 파일과 매칭되어 표시될 수 있다. 이에 따라, 녹음한 음성 파일의 제목을 사용자가 지정 할 수 있으며, 대화에 참여한 화자, 음성 파일에 대한 태그, 대화 장소 및일시 및 대화 내용 등의 관련 정보를 음성 파일 별로 관리 및 표시할 수 있어, 향후 사용자가 듣고자 하는 음성 파일의 선택이 매우 용이해지는 효과가 있다.

다시 도 1로 돌아가서, 음성-텍스트 변환부(120)는 녹음 처리부(110)를 통해 녹음된 음성 데이터를 텍스트로 변환 처리한다.

이때, 음성-텍스트 변환부(120)는 녹음 처리부(110)로부터 일정 길이의 구간 단위로 음성 데이터를 수신하고, 수신한 음성 데이터를 기설정된 스피치 투 텍스트(STT, Speech to Text) 애플리케이션 프로그래밍 인터페이스(API, Application Programming Interface)를 통해 텍스트로 변환 처리한다.

예를 들어, 음성-텍스트 변환부(120)는 STT API를 통해 사전에 연동된 공개/비공개형 음성 인식(Voice Recognition) 서버로 상기 음성 데이터를 전송한 후, 음성 인식 서버를 통해 텍스트 변환된 결과 데이터를 수신한다. 그리고 음성-텍스트 변환부(120)는 수신된 텍스트 변환 결과 데이터를 키워드 추출부(130) 및 녹음 처리부(110)로 전달한다. 참고로, 음성-텍스트 변환부(120)는 음성 데이터 구간 별 텍스트 변환 결과 유/무 여부 정보만을 녹음 처리부(110)로 전달하는 것도 가능하다.

키워드 추출부(130)는 음성-텍스트 변환부(120)를 통해 수신된 텍스트 변화 결과 데이터(즉, 텍스트로 변환된 음성 데이터)로부터 적어도 하나의 키워드를 추출한다.

구체적으로, 키워드 추출부(130)는 음성 데이터로부터 변환된 텍스트를 형태소 분석 처리하여 적어도 하나의 단어를 획득하고, 기설정된 조건에 따라 상기 획득한 단어 중 키워드를 결정한다. 이때, 기설정된 조건은 음성 파일의 구간마다 해당 단어의 출현 빈도로 설정될 수 있으며, 출현 빈도가 가장 높은 단어 또는 최고 빈도부터 일정 순위까지의 복수의 단어를 키워드로 결정할 수 있다.

저장부(140)는 녹음 처리부(110)를 통해 녹음된 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장한다.

구체적으로, 저장부(140)는 음성 파일 별로 음성 파일 아이디, 음성 파일 이름, 키워드 아이디, 키워드, 키워드 출현 구간 정보 및 구간 내 키워드 출현 빈도 정보 등의 정보를 서로 매칭하되, 매칭된 정보들을 데이터베이스화하여 저장할 수 있다.

예를 들어,도 2는 본 발명의 일 실시예에 따른 음성 파일 데이터베이스의 구조를 설명하기 위한 도면이다.

도 2에 도시한 바와 같이, 음성 파일과 키워드 사이의 관계를 표현하기 위한 테이블로 구성된 데이터베이스에는, 음성 파일을 식별하기 위한 고유 아이디(archive_id), 해당 음성 파일 내 포함된 키워드를 식별하기 위한 키워드 아이디(keyword_id), 해당 키워드가 해당 음성 파일에 몇 번째 조각(즉, 구간)에 위치하는지를 식별하기 위한 키워드 출현 구간(archive_fragment) 및 해당 키워드가 해당 구간 내 몇 번 출현하였는지를 식별하기 위한 구간 내 키워드 출현 빈도(keyword_weight) 항목이 포함된다.

참고로, 도 2에서와 같이, 저장부(140)는 사전에 복수의 단어 별로 고유한 아이디를 부여하여 매칭 저장해둘 수 있다. 참고로, 사전에 설정된 복수의 단어는 사전(dictionary) 상에 포함된 단어들을 의미할 수 있다. 또한, 저장부(140)는 각 음성 파일 아이디 별로 자동 입력 또는 사용자로부터 입력된 음성 파일 이름(archive_name)을 매칭 저장해둘 수 있다. 이에 따라, 이후 설명할 음성 파일 제공부(150)는 저장부(140)를 통해 저장된 상기 데이터베이스를 참조하여, 각 음성 파일 별 관련 정보를 검출 및 출력할 수 있다.

한편, 상술된 저장부(140)는 캐쉬, ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 및 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자 또는 RAM(Random Access Memory)과 같은 휘발성 메모리 소자 또는 하드디스크 드라이브(HDD, Hard Disk Drive), CD-ROM과 같은 저장 매체 중 적어도 하나로 구현될 수 있으나 이에 한정되지는 않는다.

다시 도 1로 돌아가서, 음성 파일 제공부(150)는 저장부(140)에 저장된 음성 파일 중 사용자에 의해 선택된 음성 파일을 재생하는 음성 파일 플레이어를 제공한다.

이때, 음성 파일 제공부(150)는 음성 파일 플레이어의 실행 시, 음성 파일 상의 적어도 하나의 위치에 상기 키워드 추출부(130)를 통해 추출된 적어도 하나의 키워드를 마커(marker)로 출력하는 그래픽 사용자 인터페이스(GUI, Graphical User Interface)를 제공한다.

구체적으로, 음성 파일 제공부(150)는 음성 파일 플레이어의 실행 시, 저장부(140)로부터 음성 파일 별 음성 파일 이름 및 키워드를 추출하고, 추출한 음성 파일 이름 및 키워드를 포함하는 음성 파일 목록을 GUI를 통해 표시한다. 이때, 음성 파일 제공부(150)는 해당 음성 파일에 매칭되어 저장되어 있던 관련 정보 중 적어도 하나의 정보를 상기 GUI를 통해 부가적으로 표시할 수 있다.

상기 GUI를 통해 사용자가 어느 하나의 음성 파일을 선택하면, 음성 파일 제공부(150)는 저장부(140)로부터 상기 입력된 선택 정보에 따른 음성 파일에 대응된 키워드 및 키워드 출현 구간 정보를 추출하고, 추출한 결과에 기초하여 GUI를 통해 해당 음성 파일의 기설정된 길이의 구간마다 키워드를 표시한다.

예를 들어, 도 5는 본 발명의 일 실시예에 따른 음성 파일 플레이어의 그래픽 사용자 인터페이스의 일례를 나타낸 도면이다.

도 5에 도시한 바와 같이, 음성 파일 제공부(150)를 통해 제공되는 GUI 상에는 기설정된 길이(예를 들어, ’15 초’) 단위의 구간 별로, 시작 시점 정보(P10) 및 적어도 하나의 키워드(P20)가 마커로 표시될 수 있다. 또한, GUI 상에는 음성 파일의 각 조각(즉, 구간)들을 사용자가 직관적으로 식별할 수 있도록, 구간 별 시작 시점을 표시하는 경계 라인(P30)이 더 표시될 수 있으며, 더불어 재생 바(bar)를 구간 별로 다른 색상으로 표시(P40)하는 것도 가능하다.

참고로, 음성 파일 제공부(150)는 저장부(140)에 저장된 데이터베이스에서 구간 내 키워드 출현 빈도(keyword_weight) 항목을 참조하여 등장 빈도가 가장 높은 키워드부터 낮은 빈도 순서로 키워드를 정렬하여 표시하는 것도 가능하다.

한편, 이상에서 도 1 내지 도 5를 통해 설명한 본 발명의 일 실시예에 따른 음성 아카이빙 장치(100)는 스마트폰(smart phone)과 같이 휴대 단말기에 인터넷 통신과 정보 검색 등 컴퓨터 지원 기능을 추가한 지능형 단말기로서 사용자가 원하는 애플리케이션을 설치할 수 있는 스마트 디바이스(smart device)로 구현될 수 있다. 즉, 본 발명이 적용되는 스마트 디바이스는 스마트 폰, 태플릿 PC 및 스마트 패드 등 기능이 제한되어 있지 않고 다수의 애플리케이션(application, App)이 설치되어 기능의 변경 및 확장이 가능한 디바이스이다. 이러한 스마트 디바이스는 화면을 출력하되 터치스크린 등으로 구성된 디스플레이부를 포함할 수 있다.

이러한 스마트 디바이스(100)는 앞서 설명한 녹음 처리부(110), 음성-텍스트 변환부(120), 키워드 추출부(130), 저장부(140) 및 음성 파일 제공부(150)의 각 동작들을 실행시키는 프로그램이 저장된 메모리를 포함하며, 메모리에는 저장부(140)가 저장한 데이터들이 저장된다. 그리고, 스마트 디바이스(100)는 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 프로세서가 상기 프로그램을 실행시킴에 따라, 음성 녹음의 시작 및 종료 동작, 음성 데이터의 텍스트 변환 동작, 변환된 텍스트로부터의 키워드 추출 동작, 및 음성 파일 플레이어를 통한 음성 파일 상의 구간 별 위치에 키워드 표시 및 음성 파일 재생 동작 등의 음성 아카이빙을 위한 모든 순차적 또는 병렬적 처리가 수행된다. 참고로, 스마트 디바이스(100)에서 실행되는 프로그램은 적어도 하나의 애플리케이션의 형태로 스마트 디바이스(100) 상에 탑재될 수 있다.

이하, 도 6을 참조하여 본 발명의 일 실시예에 따른 음성 아카이빙 방법에 대해서 상세히 설명하도록 한다.

먼저, 어느 하나의 음성 파일을 구성하기 위한 음성 녹음을 시작한다(S610).

이때, 음성 녹음을 시작하는 단계에서는 사전에 설정된 녹음 명령 이벤트의 발생을 인식한 후, 해당 인식에 따라 자동으로 음성 녹음을 시작 처리할 수 있다.

다음으로, 녹음된 음성 데이터를 텍스트로 변환 처리한다(S620).

구체적으로, 상기 단계 (S610)를 통해 녹음된 기설정된 길이를 갖는 구간 단위의 음성 데이터를 수신하고, 수신한 음성 데이터를 기설정된 STT API를 통해 텍스트로 변환 처리한다.

그런 다음, 텍스트로 변환된 음성 데이터로부터 기설정된 조건에 따라 적어도 하나의 키워드를 추출한다(S630).

구체적으로, 음성 데이터로부터 변환된 텍스트를 형태소 분석 처리하여 적어도 하나의 단어를 획득하고, 기설정된 조건에 따라 상기 획득한 단어 중 키워드를 결정한다. 이때, 기설정된 조건은 음성 파일의 구간마다 해당 단어의 출현 빈도로 설정될 수 있다.

그런 후, 녹음 시작 시점부터 종료 시점까지의 음성 데이터를 포함하는 음성 파일을 대응하는 키워드와 매칭하여 저장한다(S640).

이때, 음성 파일에 음성 파일 아이디, 음성 파일 이름, 키워드 아이디, 키워드, 키워드 출현 구간 정보 및 구간 내 키워드 출현 빈도 정보를 서로 매칭하여 저장할 수 있다. 또한, 상기 단계(S640)에서는, 음성 파일에 대한 적어도 하나의 종류의 관련 정보를 사용자가 입력할 수 있도록 하는 사용자 인터페이스를 제공할 수 있다. 참고로, 관련 정보는 음성 파일 이름, 화자 정보, 태그 정보, 녹음 장소 정보, 녹음 일시 정보 및 대화 내용 요약 정보 중 적어도 하나의 항목을 포함할 수 있다. 이에 따라 관련 정보는 음성 파일에 매칭되어 저장될 수 있으며, 하기 설명할 음성 파일 플레이어를 제공하는 단계에서 적어도 하나의 관련 정보 항목이 그래픽 사용자 인터페이스(GUI)를 통해 음성 파일과 매칭되어 표시될 수 있다.

또한, 상기 단계 (S640)에서는, 상기 음성 데이터를 텍스트로 변환한 결과에 기초하여 구간 내 음성 인식에 따른 텍스트 데이터의 유무 상태를 검출하고, 연속된 적어도 둘 이상의 구간 내 음성 인식 결과가 존재하지 않는 경우 음성 녹음을 자동 종료 처리할 수 있다. 그리고, 음성 녹음이 자동 종료 처리된 이후 기설정된 시간 내 새로운 음성 파일의 시작 처리가 실행되면, 음성 녹음이 종료 처리된 음성 파일과 새로운 음성 파일을 결합하여 하나의 음성 파일로 저장할 수 있다. 참고로, 상기 결합 시 음성 녹음이 종료 처리된 음성 파일과 새로운 음성 파일 사이의 공백을 제거하여 저장하는 것도 가능하다.

다음으로, 저장된 음성 파일 중 사용자가 선택한 음성 파일을 재생하는 음성 파일 플레이어를 제공하되, 음성 파일 플레이어 실행 시 음성 파일 상의 구간 별 위치에 해당 키워드를 마커로 출력한다(S650).

구체적으로, 음성 파일 플레이어의 실행 시, 음성 파일 별로 저장된 음성 파일 이름 및 키워드를 추출하고, 추출한 음성 파일 이름 및 키워드를 포함하는 음성 파일 목록을 그래픽 사용자 인터페이스(GUI)를 통해 표시하고, 어느 하나의 음성 파일에 대한 선택 정보를 입력받고, 선택 정보에 따른 음성 파일에 대응된 키워드 및 키워드 출현 구간 정보를 추출하고, 추출한 결과에 기초하여 선택 정보에 따른 음성 파일의 기설정된 길이의 구간마다 키워드를 표시한다. 이때, 그래픽 사용자 인터페이스를 통해, 음성 파일에서 구간마다 시작 시점 및 키워드를 마커로 표시할 수 있다.

이상에서의 본 발명의 일 실시예에 따른 음성 아카이빙 방법은, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 음성 아카이빙 장치
110: 녹음 처리부
120: 음성-텍스트 변환부
130: 키워드 추출부
140: 저장부
150: 음성 파일 제공부

Claims

음성 아카이빙 장치에 있어서,
음성을 녹음하는 녹음 처리부;
상기 녹음 처리부를 통해 녹음된 음성 데이터를 텍스트로 변환하는 음성-텍스트 변환부;
상기 텍스트로 변환된 음성 데이터로부터 적어도 하나의 키워드를 추출하는 키워드 추출부;
상기 녹음된 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장하되, 상기 음성 파일을 상기 키워드와 매칭하여 저장하는 저장부; 및
상기 저장부에 저장된 음성 파일 중 선택된 음성 파일을 재생하는 음성 파일 플레이어를 제공하는 음성 파일 제공부를 포함하되,
상기 음성 파일 제공부는,
상기 음성 파일 플레이어의 실행 시, 상기 음성 파일 상의 적어도 하나의 위치에 상기 키워드를 마커로 출력하는 그래픽 사용자 인터페이스를 제공하고,
상기 녹음 처리부는,
상기 음성 아카이빙 장치에 포함된 하나 이상의 종류의 센서를 통해 센싱된 음성 또는 동작 정보에 기초하여 사전에 설정된 예약어 및 동작이 인식되면 기설정된 녹음 명령 이벤트가 발생된 것으로 판단하여 음성 녹음을 자동 시작하고,
상기 음성 데이터를 기설정된 길이의 구간 단위로 상기 음성-텍스트 변환부로 전달하고, 상기 음성-텍스트 변환부를 통한 텍스트 변환 결과에 기초하여 상기 구간 내 음성 인식에 따른 텍스트 데이터의 유무 상태를 검출하고, 연속된 적어도 둘 이상의 상기 구간 내 음성 인식 결과가 존재하지 않는 경우 음성 녹음을 자동 종료 처리하는 음성 아카이빙 장치.
제 1 항에 있어서,
상기 음성-텍스트 변환 처리부는,
상기 녹음 처리부로부터 기설정된 길이를 갖는 구간 단위의 음성 데이터를 수신하고,
상기 수신한 음성 데이터를 기설정된 스피치 투 텍스트(STT, Speech to Text) 애플리케이션 프로그래밍 인터페이스를 통해 텍스트로 변환 처리하는 음성 아카이빙 장치.
제 2 항에 있어서,
상기 음성 파일 제공부는,
상기 그래픽 사용자 인터페이스를 통해, 상기 음성 파일에서 상기 구간마다 시작 시점 및 상기 키워드를 마커로 표시하는 음성 아카이빙 장치.
제 1 항에 있어서,
상기 키워드 추출부는,
상기 음성 데이터로부터 변환된 텍스트를 형태소 분석 처리하여 적어도 하나의 단어를 획득하고, 기설정된 조건에 따라 상기 획득한 단어 중 키워드를 결정하되,
상기 기설정된 조건은,
상기 음성 파일의 기설정된 길이 단위의 구간마다 단어의 출현 빈도로 설정된 음성 아카이빙 장치.
제 1 항에 있어서,
상기 저장부는,
상기 음성 파일 별로 음성 파일 아이디, 음성 파일 이름, 키워드 아이디, 키워드, 키워드 출현 구간 정보 및 구간 내 키워드 출현 빈도 정보를 서로 매칭한 데이터베이스를 저장하는 음성 아카이빙 장치.
제 5 항에 있어서,
상기 음성 파일 제공부는,
상기 음성 파일 플레이어의 실행 시, 상기 저장부로부터 음성 파일 별 음성 파일 이름 및 키워드를 추출하고, 상기 추출한 음성 파일 이름 및 키워드를 포함하는 음성 파일 목록을 상기 그래픽 사용자 인터페이스를 통해 표시하고,
어느 하나의 음성 파일에 대한 선택 정보를 입력받으면, 상기 저장부로부터 상기 선택 정보에 따른 음성 파일에 대응된 키워드 및 키워드 출현 구간 정보를 추출하고, 상기 추출한 결과에 기초하여 상기 선택 정보에 따른 음성 파일의 기설정된 길이의 구간마다 상기 키워드를 표시하는 음성 아카이빙 장치.
제 1 항에 있어서,
상기 녹음 처리부는,
상기 음성 파일의 저장 시 상기 음성 파일에 대한 적어도 하나의 종류의 관련 정보를 사용자가 입력할 수 있도록 하는 사용자 인터페이스를 제공하되,
상기 관련 정보는,
음성 파일 이름, 화자 정보, 태그 정보, 녹음 장소 정보, 녹음 일시 정보 및 대화 내용 요약 정보 중 적어도 하나의 항목을 포함하고,
상기 저장부를 통해 상기 음성 파일 매칭하여 저장되며,
적어도 하나의 상기 항목이 상기 그래픽 사용자 인터페이스를 통해 상기 음성 파일과 매칭되어 표시되는 음성 아카이빙 장치.
삭제
삭제
제 1 항에 있어서,
상기 녹음 처리부는,
상기 음성 녹음이 종료 처리된 이후 기설정된 시간 내 새로운 음성 파일에 대한 녹음 시작 처리가 실행되면, 상기 음성 녹음이 종료 처리된 음성 파일과 상기 새로운 음성 파일을 결합하여 하나의 음성 파일로 상기 저장부에 저장하는 음성 아카이빙 장치.
제 10 항에 있어서,
상기 녹음 처리부는,
상기 결합 시 상기 음성 녹음이 종료 처리된 음성 파일과 상기 새로운 음성 파일 사이의 공백을 제거하여 저장하는 음성 아카이빙 장치.
음성 아카이빙 장치를 통한 음성 아카이빙 방법에 있어서,
음성을 녹음하는 단계;
상기 녹음한 음성 데이터를 텍스트로 변환하는 단계;
상기 텍스트로부터 적어도 하나의 키워드를 추출하는 단계;
상기 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장하되, 상기 키워드와 매칭하여 저장하는 단계; 및
상기 저장한 음성 파일을 재생하는 음성 파일 플레이어를 제공하는 단계를 포함하되,
상기 음성 파일 플레이어의 실행 시, 상기 음성 파일 상의 적어도 하나의 위치에 상기 키워드를 마커로 출력하는 그래픽 사용자 인터페이스가 제공되며,
상기 음성을 녹음하는 단계는,
상기 음성 아카이빙 장치에 포함된 하나 이상의 종류의 센서를 통해 센싱된 음성 또는 동작 정보에 기초하여 사전에 설정된 예약어 및 동작이 인식되면 기설정된 녹음 명령 이벤트가 발생된 것으로 판단하는 단계; 및
상기 판단에 따라 음성 녹음을 자동 시작 처리하는 단계를 포함하고,
상기 저장하는 단계 이후에,
기설정된 길이의 구간 단위로 연속하여 녹음된 상기 음성 데이터를 텍스트로 변환한 결과에 기초하여, 상기 구간 내 음성 인식에 따른 텍스트 데이터의 유무 상태를 검출하는 단계; 및
연속된 적어도 둘 이상의 상기 구간 내 음성 인식 결과가 존재하지 않는 경우 음성 녹음을 자동 종료 처리하는 단계를 더 포함하는 음성 아카이빙 방법.
제 12 항에 있어서,
상기 음성 데이터를 텍스트로 변환하는 단계는,
상기 음성을 녹음하는 단계를 통해 기설정된 길이를 갖는 구간 단위의 음성 데이터를 수신하는 단계; 및
상기 수신한 음성 데이터를 기설정된 스피치 투 텍스트(STT, Speech to Text) 애플리케이션 프로그래밍 인터페이스를 통해 텍스트로 변환 처리하는 단계를 포함하는 음성 아카이빙 방법.
제 12 항에 있어서,
상기 저장하는 단계는,
상기 음성 파일에 음성 파일 아이디, 음성 파일 이름, 키워드 아이디, 키워드, 키워드 출현 구간 정보 및 구간 내 키워드 출현 빈도 정보를 서로 매칭하여 저장하는 음성 아카이빙 방법.
제 14 항에 있어서,
상기 음성 파일 플레이어를 제공하는 단계는,
상기 음성 파일 플레이어의 실행 시, 음성 파일 별로 상기 저장된 음성 파일 이름 및 키워드를 추출하는 단계;
상기 추출한 음성 파일 이름 및 키워드를 포함하는 음성 파일 목록을 상기 그래픽 사용자 인터페이스를 통해 표시하는 단계;
어느 하나의 음성 파일에 대한 선택 정보를 입력받는 단계;
상기 선택 정보에 따른 음성 파일에 대응된 상기 저장된 키워드 및 키워드 출현 구간 정보를 추출하는 단계; 및
상기 추출한 결과에 기초하여 상기 선택 정보에 따른 음성 파일의 기설정된 길이의 구간마다 상기 키워드를 표시하는 단계를 포함하는 음성 아카이빙 방법.
삭제
삭제
제 12 항 내지 제15 항 중 어느 한 항의 방법을 컴퓨터에서 수행할 수 있도록 하는 프로그램이 기록된 기록 매체.