KR100513038B1

KR100513038B1 - 다채널 확장된 음성인식 시스템에서의 음성데이터 저장 방법

Info

Publication number: KR100513038B1
Application number: KR10-2002-0036513A
Authority: KR
Inventors: 류창선; 김문식; 정영준
Original assignee: 주식회사 케이티
Priority date: 2002-06-27
Filing date: 2002-06-27
Publication date: 2005-09-07
Also published as: KR20040001353A

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야

본 발명은 다채널 확장된 음성인식 시스템에서의 음성데이터 저장 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 전국적인 범위에서 이용되는 음성인식 서비스를 효율적으로 운용하기 위한 다채널 확장된 음성인식 시스템에서의 음성데이터 저장 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.

3. 발명의 해결 방법의 요지

본 발명은, 다중채널을 지원하는 음성인식 시스템에서의 음성데이터 저장 방법에 있어서, 지역적으로 한정된 로컬 음성인식 장치가 이용자로부터 음성을 입력받아 로컬 저장부에 음성 데이터로 저장하는 제 1 단계; 상기 입력된 음성을 로컬 음성인식 장치를 통해 음성인식하고 인식결과에 따른 작업을 수행하는 제 2 단계; 및 상기 제 1 단계에서 저장된 상기 음성 데이터를 중앙 음성데이터 저장부로 전송하여 저장하도록 하는 제 3 단계를 포함함.

4. 발명의 중요한 용도

본 발명은 광역 음성인식 서비스에 이용됨.

Description

다채널 확장된 음성인식 시스템에서의 음성데이터 저장 방법{Storing Method of Audible Data in Enhanced Multi-Channel Automatic Speech Recognition System}

본 발명은 다채널 확장된 음성인식 시스템에서의 음성데이터 저장방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

도 1 은 일반적인 음성인식 시스템의 일실시예 구성도이다.

도 1 에 도시된 바와 같이 일반적인 음성인식 시스템은 특징추출부(10)로 화자의 음성이 입력되면 그 특징추출부(10)에서는 입력된 음성에 대한 특징을 추출하고, 그 특징추출을 거친 음성데이터는 훈련과정부(11)로 입력되어 훈련과정을 통해 기준패턴화된 후 기준패턴부(12)로 입력된다. 인식과정부(13)에서는 그 훈련과정부(11)에서 생성한 기준패턴과 비교를 통해 인식결과를 보여준다.

따라서, 음성인식시스템에서는 훈련과정에서 얼마나 좋은 기준패턴을 만들어 내는가 하는 것이 관건이 되며, 이를 위해서는 훈련과정에서 각 음성화일들이 어떤 단어 또는 문장을 발성한 것인지를 정확하게 알고 있어야 한다.

통상적으로, 수집된 음성테이터가 어떤 단어 또는 문장을 발성한 것인지를 알기 위해서는 다음의 두가지 방법이 채용된다.

우선 첫번째 방법은 음성데이터를 수집하기 전에 미리 어떤 순서를 정해놓고 그 순서대로 데이터를 수집하는 것이다. 이방법은 미리 순서를 정해 놓기 때문에 나중에 음성데이터의 관리가 용이하다는 장점이 있으나, 이 순서대로만 녹음을 해야하기 때문에 많은 제약이 따른다.

예를 들어, 발성하는 화자가 정해진 단어나 문장을 잘못 발성했을 경우에 문제가 되며, 또 혹시 한두개를 건너 띄거나 같은 단어를 두번 발성했을 경우에는 그 이후의 모든 데이터가 잘못되어 제대로 훈련을 할 수 없게 된다. 발성하는 화자가정확히 발성하였다고 하더라도 그 음성은 화자가 매우 긴장된 상태에서 발성한 것이기 때문에 일반 사용자의 자연스런 발성과는 매우 다른 것이며 따라서 음성인식기의 성능을 저하시키는 요소로 작용하게 된다.

두번째 방법은 발성하는 화자에게 자연스런 녹음을 하도록 하는 것으로서, 이 방법은 아무렇게나 화자에게 발성을 하도록해주는 반면 그런 무질서한 데이터들을 정리하여 관리할 수 있는 부가적인 도구가 요구된다.

이 두번째 방법은 화자가 자연스럽게 발성을 하였기 때문에 음성인식기를 이용한 상용 서비스에서 인식해야 할 음성과 매우 유사하며, 따라서 이 방법을 사용할 경우 음성인식 결과가 매우 좋게 나올 것이다. 또한 서비스 도중에도 수집된 데이터를 가지고 다시 훈련에 추가하여 사용할 수 있으므로 반복적인 음성인식기의 성능향상을 가능하게 해주는 장점이 있게된다.

이와 같이 음성인식의 적절한 운용을 위해서는 두번째 방법에 의한 음성 데이터를 수집하는 것이 필요하게 된다. 하지만 이처럼 통상의 음성 데이터를 수집하여 그 음성인식의 정확도를 높인 경우에도 통상의 음성인식 시스템의 운용범위가 한정되어 지역적으로 한정된 범위의 데이터만 수집되었다. 즉, 각 지역에 따른 사투리나 각 지역마다의 특색있는 억양의 차이 등에 의해 전국적인 범위의 음성인식 서비스는 힘들었다. 그러나, 한국통신의 지능망 서비스 중 일종인 "전국대표번호 음성다이얼 서비스"와 같이 시스템 규모나 서비스 대상이 전국적인 서비스로 확대되는 경우가 발생하게 되었고, 앞으로 이러한 광역 음성 인식 서비스가 좀 더 많이 확대될 것으로 보여, 각각의 지역 음성 인식 데이터를 중앙으로 통합하여 관리/운용되도록하여, 로컬 음성인식 뿐만이 아니라 광역 음성인식에 있어서도 음성의 인식률과 동작의 정확도를 높이도록 하는 작업이 요청되고 있다.

본 발명은, 상기와 같은 요청에 부응하기 위하여 제안된 것으로, 전국적인 범위에서 이용되는 음성인식 서비스를 효율적으로 운용하기 위한 다채널 확장된 음성인식 시스템에서의 음성데이터 저장방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

상기의 목적을 달성하기 위한 본 발명은, 다중채널을 지원하는 음성인식 시스템에서의 음성데이터 저장 방법에 있어서, 지역적으로 한정된 로컬 음성인식 장치가 이용자로부터 음성을 입력받아 로컬 저장부에 음성 데이터로 저장하는 제 1 단계; 상기 입력된 음성을 로컬 음성인식 장치를 통해 음성인식하고 인식결과에 따른 작업을 수행하는 제 2 단계; 및 상기 제 1 단계에서 저장된 상기 음성 데이터를 중앙 음성데이터 저장부로 전송하여 저장하도록 하는 제 3 단계를 포함한다.

프로세서를 구비한 다중채널을 지원하는 음성인식 시스템에, 지역적으로 한정된 로컬 음성인식 장치가 이용자로부터 음성을 입력받아 로컬 저장부에 음성 데이터로 저장하는 제 1 기능; 상기 입력된 음성을 로컬 음성인식 장치를 통해 음성인식하고 인식결과에 따른 작업을 수행하는 제 2 기능; 및 상기 제 1 기능에 의해서 저장된 상기 음성 데이터를 중앙 음성데이터 저장부로 전송하여 저장하도록 하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 2 는 본 발명이 적용되는 다채널 확장된 음성인식 시스템의 일실시예 구성도이다.

도 2 에 도시된 바와 같이 본 발명이 적용되는 다채널 확장된 음성인식 시스템은 지역적으로 한정된 다수의 로컬 음성인식 장치(22), 각각의 로컬 음성인식 장치(22)를 통해 입력된 음성 데이터를 통합 관리하기 위한 중앙 음성 저장 장치(23) 및 이들을 연결하는 네트웍(21)을 포함하여 이루어진다.

각각의 로컬 음성인식 장치(22)는 도 1에 도시된 것과 같은 음성인식 장치(221)와 입력된 음성 데이터를 수집하는 로컬 저장부(222)를 포함한다.

로컬 저장부(222)에 저장된 음성 데이터는 음성인식 장치(221)에서 음성인식을 수행하는 입력 데이터로 사용한다. 또한, 각각의 로컬 저장부(222)에 저장된 음성 데이터들은 중앙 음성 저장 장치(23)로 관리자에 의해 사전에 정해진 주기마다 전송되어 저장된다.

이처럼 중앙 음성 저장 장치(23)로 저장된 음성 데이터들을 분석함에 있어서, 여러 곳의 로컬 저장부(222)로부터 모아진 음성 데이터들로부터 얻어질 수 있는 정보는 각각의 로컬 저장부(222)에서 음성 데이터를 저장할 당시에 어떤 구조(파일 이름)로 음성 데이터를 저장하느냐에 달려 있다.

그러므로, 본 발명은 중앙 음성 저장 장치(23)로 저장된 음성 데이터들을 분석을 하는데 효율을 높이기 위하여 사용자 음성 데이터를 로컬 저장부(222)에 저장하는 때에, 도 3 에 도시되어 있는 것과 같은 구조를 가지는 데이터 형태로 음성 데이터를 저장하도록 하는 것이다.

도 3 은 본 발명에 따른 다채널 확장된 음성인식 시스템에서의 음성 데이터 저장 형태에 관한 일실시예 구조도이다.

도 3 에 도시된 바와 같이, 본 발명에 따른 다채널 확장된 음성인식 시스템에서의 음성 데이터의 구조는, 지역정보와 같은 지역에 있는 시스템 넘버를 포함하는 분산되어 있는 각각의 로컬 음성인식 장치에 대해 미리 지정된 인식자인 Site_Num(31), 10진 정수의 형태로 음성입력과 함께 음성인식을 수행하는 채널 정보인 Channel(32), 음성 데이터가 저장되는 날짜 정보인 Date(33), 호처리보드 혹은 로컬 음성인식 장치에서 지정하는 음성 데이터 저장모드 정보인 BoardOrASR(34) 및 음성 데이터에 관한 정보인 Speech_File(35)를 포함하여 이루어진다.

각각의 필드를 좀 더 상세히 살펴보면, Site_Num 필드(31)는 지역정보를 대표하는 서브 필드인 Area(311)와 같은 지역에 있는 시스템 넘버를 표시하는 서브 필드인 System#(312)를 포함한다.

BoardOrASR 필드(34)는 호 처리 보드를 통해 음성인식을 요청하는 사용자의 음성 데이터임을 표시하는 서브 필드인 Board(341)와 음성에 대해 음성인식 프로세스를 거친 후 산출되는 음성 데이터임을 표시하는 서브 필드인 ASR((Automatic Speech Recognition)(342)을 포함한다.

또한, Speech_File 필드(35)는 해당 채널의 처리되는 순서를 의미하는 것으로 1 씩 증가하도록 설정된 서브 필드인 UniqueID(351), 음성인식 결과를 나타내는 서브 필드인 RecognizeResultString(352), 비터비스코어를 표시하는 서브 필드인 ViterbiScore(353), 거절값을 표시하는 서브 필드인 RejectionValue(354), 거절 스코어를 표시하는 서브 필드인 RejectionScore(355) 및 저장되는 음성 데이터가 리니어(lin)인지 뮤로(mulaw)인지를 표시하는 서브 필드인 DataFormat(356)을 포함하여 구성된다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은, 각각의 지역 음성 인식 데이터를 통합하여 관리/운용을 효율적으로 하는 것이 가능해 짐으로써, 음성인식 시스템 규모나 서비스 대상이 전국적인 서비스로 확대되는 경우에 있어서도 음성인식의 효율과 정확도를 높일수 있는 효과가 있다.

또한, 본 발명은, 단순히 음성인식 성능 향상을 위한 음성 데이터 수집 기능만을 제공하는 것이 아니고 실제 음성인식 시스템에서 발생하는 현상을 파악하는데 중요한 정보를 제공해 줄 수 있는 효과가 있다.

도 1 은 일반적인 음성인식 시스템의 일실시예 구성도.

도 2 는 본 발명이 적용되는 다채널 확장된 음성인식 시스템의 일실시예 구성도.

도 3 은 본 발명에 따른 다채널 확장된 음성인식 시스템에서의 음성 데이터 저장 형태에 관한 일실시예 구조도.

* 도면의 주요 부분에 대한 부호 설명

10 : 특징 추출부 11 : 훈련과정부

12 : 기준 패턴부 13 : 인식과정부

Claims

다중채널을 지원하는 음성인식 시스템에서의 음성데이터 저장 방법에 있어서,

지역적으로 한정된 로컬 음성인식 장치가 이용자로부터 음성을 입력받아 로컬 저장부에 음성 데이터로 저장하는 제 1 단계;

상기 입력된 음성을 로컬 음성인식 장치를 통해 음성인식하고 인식결과에 따른 작업을 수행하는 제 2 단계; 및

상기 제 1 단계에서 저장된 상기 음성 데이터를 중앙 음성데이터 저장부로 전송하여 저장하도록 하는 제 3 단계

를 포함하는 다중채널을 지원하는 음성인식 시스템에서의 음성데이터 저장 방법.
제 1 항에 있어서,

상기 제 1 단계의 음성 데이터는,

지역정보와 같은 지역에 있는 시스템 넘버를 포함하는 분산되어 있는 각각의 로컬 음성인식 장치에 대해 미리 지정된 인식자 필드;

10진 정수의 형태로 음성입력과 함께 음성인식을 수행하는 채널 정보를 표시하는 채널 필드;

음성 데이터가 저장되는 날짜를 표시하는 날짜 정보 필드;

호처리보드 혹은 로컬 음성인식 장치에서 지정하는 음성 데이터 저장모드를 표시하는 저장모드 필드; 및

음성 데이터에 관한 정보인 음성 파일 필드

를 포함하여 구성되는 것을 특징으로 하는 다중채널을 지원하는 음성인식 시스템에서의 음성데이터 저장 방법.
제 2 항에 있어서,

상기 음성 파일 필드는,

해당 채널의 처리되는 순서를 의미하는 것으로 1 씩 증가하도록 설정된 인식자 서브 필드;

음성인식 결과를 나타내는 음성인식결과 서브 필드;

비터비스코어를 표시하는 비터비스코어 서브 필드;

거절값을 표시하는 거절값 서브 필드;

거절 스코어를 표시하는 거절스코어 서브 필드; 및

저장되는 음성 데이터가 리니어(lin)인지 뮤로(mulaw)인지를 표시하는 데이터 포맷 서브 필드

를 포함하여 구성되는 것을 특징으로 하는 다중채널을 지원하는 음성인식 시스템에서의 음성데이터 저장 방법.
프로세서를 구비한 다중채널을 지원하는 음성인식 시스템에,

지역적으로 한정된 로컬 음성인식 장치가 이용자로부터 음성을 입력받아 로컬 저장부에 음성 데이터로 저장하는 제 1 기능;

상기 입력된 음성을 로컬 음성인식 장치를 통해 음성인식하고 인식결과에 따른 작업을 수행하는 제 2 기능; 및

상기 제 1 기능에 의해서 저장된 상기 음성 데이터를 중앙 음성데이터 저장부로 전송하여 저장하도록 하는 제 3 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 4 항에 있어서,

상기 제 1 기능에 의해서 저장되는 음성 데이터는,

지역정보와 같은 지역에 있는 시스템 넘버를 포함하는 분산되어 있는 각각의 로컬 음성인식 장치에 대해 미리 지정된 인식자 필드;

10진 정수의 형태로 음성입력과 함께 음성인식을 수행하는 채널 정보를 표시하는 채널 필드;

음성 데이터가 저장되는 날짜를 표시하는 날짜 정보 필드;

호처리보드 혹은 로컬 음성인식 장치에서 지정하는 음성 데이터 저장모드를 표시하는 저장모드 필드; 및

음성 데이터에 관한 정보인 음성 파일 필드

로 이루어진 데이터가 기록된 컴퓨터로 읽을 수 있는 기록매체.
제 5 항에 있어서,

상기 음성 파일 필드는,

해당 채널의 처리되는 순서를 의미하는 것으로 1 씩 증가하도록 설정된 인식자 서브 필드;

음성인식 결과를 나타내는 음성인식결과 서브 필드;

비터비스코어를 표시하는 비터비스코어 서브 필드;

거절값을 표시하는 거절값 서브 필드;

거절 스코어를 표시하는 거절스코어 서브 필드; 및

저장되는 음성 데이터가 리니어(lin)인지 뮤로(mulaw)인지를 표시하는 데이터 포맷 서브 필드

로 이루어진 데이터가 기록된 컴퓨터로 읽을 수 있는 기록매체.