KR100803900B1 - Speech recognition ars service method, and speech recognition ars service system - Google Patents
Speech recognition ars service method, and speech recognition ars service system Download PDFInfo
- Publication number
- KR100803900B1 KR100803900B1 KR1020070020385A KR20070020385A KR100803900B1 KR 100803900 B1 KR100803900 B1 KR 100803900B1 KR 1020070020385 A KR1020070020385 A KR 1020070020385A KR 20070020385 A KR20070020385 A KR 20070020385A KR 100803900 B1 KR100803900 B1 KR 100803900B1
- Authority
- KR
- South Korea
- Prior art keywords
- service
- ars
- user
- tag
- menu
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
도 1은 종래의 DTMF를 이용한 ARS 서비스의 예를 나타낸 도면이다.1 is a diagram illustrating an example of an ARS service using a conventional DTMF.
도 2는 본 발명의 바람직한 일 실시예에 따른 음성 인식 ARS 서비스를 위한 음성 인식 데이터베이스 구축 시스템의 구성도이다.2 is a block diagram of a system for constructing a speech recognition database for a speech recognition ARS service according to an exemplary embodiment of the present invention.
도 3a는 본 발명의 일 실시예에 따른 트랜스크립션부에서 사용자의 발성을 텍스트로 전환하는 과정을 나타낸 도면이다.3A is a diagram illustrating a process of converting a user's speech into text in a transcription unit according to an embodiment of the present invention.
도 3b는 시멘틱 태그를 비슷한 성향을 가지는 서비스들로 군집화하는 과정을 나타낸 도면3B is a diagram illustrating a process of grouping semantic tags into services having similar tendencies.
도 4는 본 발명의 일 실시예예 따른 음성 인식 ARS 서비스를 위한 데이터베이스 구축 방법을 설명하는 흐름도이다.4 is a flowchart illustrating a method for establishing a database for a voice recognition ARS service according to an embodiment of the present invention.
도 5는 본 발명의 바람직한 일 실시예에 따른 음성 인식을 이용한 ARS 시스템의 구성을 나타낸 도면이다.5 is a diagram illustrating a configuration of an ARS system using speech recognition according to an embodiment of the present invention.
도 6은 본 발명의 다른 실시예에 따른 음성 인식 ARS 서비스 시스템의 구성을 나타낸 도면이다.6 is a diagram illustrating a configuration of a voice recognition ARS service system according to another embodiment of the present invention.
도 7a는 관리자 단말에 표시되는 누적 에러 그래프의 예이다.7A is an example of a cumulative error graph displayed on the manager terminal.
도 7b는 관리자 단말에 표시되는 통제판 화면의 예이다.7B is an example of a control panel screen displayed on the manager terminal.
도 8은 본 발명의 일 실시예예 따른 음성 인식을 이용한 ARS 서비스 제공 방법을 설명하는 흐름도이다.8 is a flowchart illustrating a method of providing an ARS service using speech recognition according to an embodiment of the present invention.
<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
210 : 자료 수집부 230 : 트랜스크립션부210: data collection unit 230: transcription unit
250 : 태깅부 270 : 목적지 설정부250: tagging unit 270: destination setting unit
250 : 태그 DB 271 : 태그-목적지 DB250: tag DB 271: tag-destination DB
530 : ARS 서버 610 : 중계 서버530: ARS server 610: relay server
630, 650 : 관리자 단말630, 650: manager terminal
본 발명은 ARS 서비스에 관한 것으로, 상세하게는 음성 인식 ARS 서비스 방법 및 시스템에 관한 것이다.The present invention relates to an ARS service, and more particularly, to a speech recognition ARS service method and system.
ARS(Automatic Response System)은 각종 정보를 음성으로 저장해 두고 사용자가 전화를 이용하여 시스템에 접속하면 음성으로 필요한 정보를 검색할 수 있도록 사용법을 알려주며, 필요한 정보를 찾으면 이를 음성으로 들려 주는 시스템을 지칭한다.ARS (Automatic Response System) is a system that stores various information by voice and tells the user how to search the necessary information by voice when the user connects to the system by phone. .
현재 이러한 ARS 서비스는 DTMF 트리 구조 메뉴로 제공되고 있다. 즉, 사용자가 전화를 이용하여 시스템에 접속하면 필요한 정보를 검색할 수 있도록 음성으로 메뉴를 안내하고, 사용자로부터 원하는 메뉴의 번호가 입력되면 차례로 최종적 으로 사용자가 원하는 정보에 접근하는 것이다. 그러나, 사용자는 DTMF 트리 구조 메뉴에 익숙하지 않다. 자신이 원하는 서비스로 이동하기 위하여 어떤 경로를 경유해야 하는지 정확하게 판단할 수 없고, 많은 사례에서 사용자는 자신이 원하는 서비스로 이동하기 위하여 여러 차례의 시행착오를 겪는다.Currently, these ARS services are provided in the DTMF tree structure menu. In other words, when a user accesses the system using a telephone, the user guides a menu by voice so as to search for necessary information, and when a desired menu number is input from the user, the user finally accesses the desired information. However, the user is not familiar with the DTMF tree structure menu. It is not possible to determine exactly which path to go to in order to move to the desired service, and in many cases, the user goes through several trials and errors to move to the desired service.
도 1은 종래의 DTMF를 이용한 ARS 서비스의 예를 나타낸 도면으로, 도 1에 도시된 바와 같이, 사용자가 '비기알 2200'이라는 서비스 정보를 얻기 위해서는 ARS 시스템에 전화로 접속하여 초기 DTMF 서비스 메뉴, 즉 "1. 사용요금, 2. 분실/일시정지, 3. 요금제/부가서비스, 4. 멤버스카드" 중에서 "3. 요금제/부가서비스"를 선택한 후 다시 제공되는 DTMF 서비스 메뉴 중에서 "3.1 요금제"를 선택한다. 그리고 다시 제공되는 DTMF 서비스 메뉴 중에서 "3.1.1 비기"를 선택한 후 "3.1.1 비기알2200"를 선택하고, 마지막으로 "3.1.1.2 서비스 상세 안내"를 선택하여 최종적인 경로에 도착한다. 즉, 총 5 단계를 경유해야 원하는 정보를 획득할 수 있다.1 is a diagram illustrating an example of an ARS service using a conventional DTMF, as shown in FIG. 1, a user accesses an ARS system by telephone in order to obtain service information of 'BI 2 R', and displays an initial DTMF service menu; That is, select "3. Plan / Additional Service" from "1. Usage Fee, 2. Loss / Pause, 3. Plan / Additional Service, 4. Members Card", and then select "3.1 Plan" from the DTMF Service menu. Choose. From the DTMF service menu provided again, select "3.1.1 Biggie" and then "3.1.1 Biggie 2200", and finally "3.1.1.2 Detailed Service Information" to arrive at the final route. That is, the desired information can be obtained only through a total of five steps.
이처럼 종래 ARS 서비스에서 ARS 시스템은 각 단계마다 사용자에게 선택해야 할 서비스 예제를 “1번 사용요금, 2번 분실 및 일시정지..” 와 같이 제시하고, 사용자는 자신이 원하는 서비스가 제시될 때까지 대기하게 되어 최종 정보까지 이동하기 위해 많은 시간을 소요한다.As such, in the conventional ARS service, the ARS system presents a service example that should be selected to the user at each step as “1 usage fee, 2 lost and pauses.”, And the user selects the service that he / she wants. It waits and takes a lot of time to move to the final information.
이처럼 사용자는 복잡한 메뉴 구조를 알 수 없고 서비스간 이동하는 시간이 많이 걸리기 때문에 원하는 서비스로 이동하기 위하여는 상당한 시간을 소비해야 한다. 이러한 불편은 사용자에게 부담으로 작용하게 되고 그러한 이유로 사용자가 DTMF 진입 시점부터 상담원 연결을 시도하게 된다. 많은 상담원 연결은 상담원 수 의 증가를 가져오며 결국 비용을 발생하게 되는 문제점이 있다.As such, the user does not know the complicated menu structure and it takes a long time to move between services. Therefore, the user has to spend considerable time to move to a desired service. This inconvenience becomes a burden on the user, and for that reason, the user attempts to connect to an agent from the time of entry into the DTMF. Many agent connections lead to an increase in the number of agents, which incurs costs.
본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 음성 인식에 따른 ARS 서비스를 제공하는 음성 인식 ARS 서비스 방법 및 시스템을 제공하는데 그 목적이 있다.The present invention has been proposed to solve the above problems, and an object thereof is to provide a voice recognition ARS service method and system for providing an ARS service according to voice recognition.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.Other objects and advantages of the present invention can be understood by the following description, and will be more clearly understood by the embodiments of the present invention. Also, it will be readily appreciated that the objects and advantages of the present invention may be realized by the means and combinations thereof indicated in the claims.
상기 목적을 달성하기 위한 본 발명의 제 1 측면에 따른, 음성 인식에 따른 ARS 서비스를 제공하는 방법은, (a) 사용자로부터 서비스 문의 음성을 수신하는 단계; (b) 수신된 서비스 문의 음성을 인식하는 단계; (c) 음성 인식 결과에 기초하여 서비스 태그를 추출하는 단계; 및 (d) 서비스 태그 추출 여부에 따라 복수의 메뉴 중 하나를 선택 제공하는 단계;를 포함하는 것을 특징으로 한다.According to a first aspect of the present invention for achieving the above object, a method for providing an ARS service according to voice recognition, comprising: (a) receiving a service inquiry voice from a user; (b) recognizing the received service inquiry voice; (c) extracting a service tag based on a voice recognition result; And (d) selecting and providing one of a plurality of menus according to whether the service tag is extracted.
바람직하게, 상기 단계 (d)는, 서비스 태그 추출 불가시 백오프 메뉴를 제공한다.Preferably, step (d) provides a back off menu when service tag extraction is impossible.
이때, 상기 백오프 메뉴는, ARS 서비스 항목을 모두 포괄하는 선택 사항으로 이루어진 것일 수 있다.In this case, the backoff menu may be made of options that cover all of the ARS service items.
한편, 상기 단계 (d)는, 서비스 태그 추출시 추출된 서비스 태그에 따른 일 반 메뉴를 제공할 수 있다.Meanwhile, step (d) may provide a general menu according to the extracted service tag when the service tag is extracted.
이때, 상기 일반 메뉴는, 사용자의 서비스 문의가 특정되지 않은 경우 사용자로 하여금 서비스 문의를 특정하도록 요구하는 모호 메뉴를 포함할 수 있다.In this case, the general menu may include an ambiguous menu for requesting the user to specify the service inquiry when the service inquiry of the user is not specified.
바람직하게, 서비스 태그 추출시에는, 추출된 서비스 태그에 대한 목적지를 검색하는 단계; 및 검색된 목적지에 상기 사용자를 연결하여 메뉴를 제공하는 단계;를 포함하여 수행될 수 있다.Preferably, when the service tag is extracted, searching for a destination for the extracted service tag; And providing a menu by connecting the user to the searched destination.
한편, 상기 목적을 달성하기 위한 본 발명의 제 2 측면에 따른, 음성 인식 ARS 서비스를 제공하는 시스템은, 사용자의 서비스 문의 음성을 인식하여 그에 따른 서비스 태그 추출 여부에 따라 선택적으로 ARS 메뉴를 제공하고, 그 결과를 리포트하는 ARS 장치; 및 상기 ARS 장치로부터 전송된 상기 리포트를 수신하여 분석하고, 분석된 결과를 실시간 또는 주기적으로 관리자 단말에 전송하는 중계 장치;를 포함하는 것을 특징으로 한다.On the other hand, the system for providing a voice recognition ARS service according to the second aspect of the present invention for achieving the above object, and recognizes the service call voice of the user and selectively provides the ARS menu according to whether the service tag extracted accordingly; An ARS device for reporting the result; And a relay device which receives and analyzes the report transmitted from the ARS device and transmits the analyzed result to a manager terminal in real time or periodically.
바람직하게, 상기 ARS 장치는, 서비스 태그 추출 불가시 사용자에게 제공되는 백오프 메뉴의 발생 정보(음성 인식 결과, 빈도 등)를 체크하여 그 결과를 리포트한다.Preferably, the ARS device checks the occurrence information (voice recognition result, frequency, etc.) of the backoff menu provided to the user when service tag extraction is impossible and reports the result.
또한, 상기 ARS 장치는, 상기 백오프 메뉴의 발생 정보에 근거하여 서비스 태그를 업데이트할 수 있다.The ARS device may update the service tag based on the occurrence information of the backoff menu.
또한, 상기 리포트는, 에러 발생 정보를 포함하고, 상기 중계 장치는, 상기 에러 발생 정보를 특정 기간 동안 누적 분석하여 도출한 통계 정보를 관리자 단말에 전송하는 것을 특징으로 한다.The report may include error occurrence information, and the relay apparatus may transmit statistical information derived by accumulating and analyzing the error occurrence information to a manager terminal.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.The above objects, features and advantages will become more apparent from the following detailed description taken in conjunction with the accompanying drawings, whereby those skilled in the art may easily implement the technical idea of the present invention. There will be. In addition, in describing the present invention, when it is determined that the detailed description of the known technology related to the present invention may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 2는 본 발명의 바람직한 일 실시예에 따른 음성 인식 ARS 서비스를 위한 음성 인식 데이터베이스 구축 시스템의 구성도이다.2 is a block diagram of a system for constructing a speech recognition database for a speech recognition ARS service according to an exemplary embodiment of the present invention.
도 2에 도시된 바와 같이, 음성 인식 데이터베이스 구축 시스템은, ARS 서비스를 사용하는 사용자들의 발성을 수집하는 자료 수집부(210), 수집된 발성을 텍스트로 전환하는 트랜스크립션(Transcription)부(230), 사용자의 발성별로 태그를 설정하는 태깅(Tagging)부(250) 및 각 태그별로 서비스 목적지를 연결하는 목적지 설정부(270)를 포함한다.As shown in FIG. 2, the system for constructing a voice recognition database includes a
음성 인식 ARS 서비스를 위해서는 먼저 주사용자의 발성을 수집한다. 이를 위해 자료 수집부(210)는 사용자가 ARS 서비스를 이용하기 위해 접속하였을 때 사용자에게 “원하시는 서비스를 말씀해 주세요. 예를 들어 제가 쓴 요금이 얼마에요? 라고 말씀해 주세요”와 같이 자신이 원하는 서비스를 발성하도록 유도하고 모두 음성 파일로 녹취 저장한다. 녹취된 음성 파일은 자료 DB(211)에 저장된다.The voice of the main user is first collected for the voice recognition ARS service. To this end, the
다음으로, 트랜스크립션부(230)는 상기 자료 수집부(210)에서 수집된 사용자 의 발성을 정해진 규칙에 따라 텍스트로 전환한다. 사용자의 발성을 텍스트로 전환화는 과정에는 일정한 규칙에 따라 행한다. 예를 들어, 사용자가 “휴대폰 분실 신고요?”라고 발성한 녹취 파일을 음성 인식하여 [휴대폰 분실 신고요 [noise] [side_speech]]라고 기록한다. 여기서 [noise]는 중간에 잡음이 들어왔다는 표시이고, [side_speech]는 배경에 다른 사람의 목소리가 들어왔다는 표시이다. 그 밖에 표기 방법은 다음과 같다.Next, the
[breath_noise] : 숨을 들이 쉬거나 내쉬는 소리, [breath_noise]: Inhale or exhale
[hang_up] : 전화를 끊는 소리, [hang_up]: hang up,
[dtmf] : DTMF 톤,[dtmf]: DTMF tones,
[fragment] : 음성이 중단된 것, [fragment]: voice interrupted,
(()) : 음성이 발성되었으나 예측하여 표기하기 힘든 경우, (()): When voice is spoken but difficult to predict,
((word)) : 알아듣기 힘든 음성이나 예측하여 표기 한 경우로 (())안에 단어 단위로 기록,((word)): In case of difficult to understand or predicted words
*word* : 화자가 틀리게 발음한 것. * * 안에는 발음 표기를 그대로 쓰는 것이 아니라 맞는 철자를 표기, * word *: The speaker pronounced it wrong. * * Notation of the pronunciation notation is written in the correct spelling,
~ : 발성의 파형이 잘린 것. 발성의 시작 부분이 잘렸으면 앞에 ~을 써주고, 발성의 끝부분이 잘렸으면 끝에 표기,~: The waveform of the vocalization is cut off. If the beginning of the utterance is cut off, write ~ in front of it.
@hes@ : 단어 발성 이전에 "um", "uh", "ah", "eh", "ehn", "hm" 와 같이 머뭇거리는 발성. 상기 발음 외 '저기요, 여보세요' 등과, 의미가 있는 단어의 경우는 @hes@으로 써서는 안 된다. 저기요, 여보세요 등 그대로 표기.@ hes @: Sounds that sound like "um", "uh", "ah", "eh", "ehn", "hm" before the word. In addition to the pronunciation, 'hey, hello', etc., and words that have meaning should not be written as @ hes @. Hey, hello and so on.
이상과 같은 표기 규칙은 표기 사전 DB(235)에 설정되고, 트랜스크립션부(230)는 상기 표기 사전 DB(235)를 참조하여 자료 DB(211)에 저장된 사용자의 발성별로 텍스트로 전환하는 작업을 수행한다. 트랜스크립션부(230)는 텍스트로 전환한 결과를 트랜스크립션 DB(237)에 저장한다. 음성 인식 ARS 서비스에서는 음성 인식율이 중요한 요소인데, 본 발명과 같이 트랜스트립션 DB(237)에 저장된 자료를 기초로 음성 인식을 행할 경우 음성 인식율을 높일 수 있다. 사용자의 음성에 잡음 등이 부가될 때 어떠한 발성 형태를 나타내는지 여부를 분석할 수 있게 되고, 이러한 분석 결과에 따라 실제 사용자의 음성 인식시 정확한 음성 인식이 가능하게 된다. The above-described notation rule is set in the
보다 구체적으로 설명하면, 트랜스크립션부(230)는 음성을 인식하여 텍스트로 변환하는 STT(Speech To Text) 엔진(231), 그리고 STT 엔진(231)에 의해 생성된 텍스트를 일정한 규칙에 근거하여 정제하는 정제 엔진(233)을 포함한다. 도 3a는 본 발명의 일 실시예에 따른 트랜스크립션부에서 사용자의 발성을 텍스트로 전환하는 과정을 나타낸 도면이다.In more detail, the
도 3a를 참조하면, STT 엔진(231)은 자료 DB(211)에 저장된 사용자들의 음성을 Speech To Text 기술을 이용하여 텍스트로 변환한다. 도 3a에 도시된 바와 같이 자료 DB(211)에 "부가서비스 (기침) 신청 하려구요"의 음성 파일이 저장되어 있는 경우, STT 엔진(231)은 상기 음성 파일을 텍스트로, 즉 "부가서비스 에취 신청 하려구요"로 변환한다. 그리고 정제 엔진(233)은 STT 엔진(231)에 의해 변환된 텍스트를 표기 사전 DB(235)을 참조하여 정제한다. 즉, 정제 엔진(233)은 텍스트로 변 환된 상기 "부가서비스 에취 신청 하려구요"에서 다른 사람의 기침 소리인 "에취"를 표기 사전 DB(235)를 참조하여 [side_speech]로 표기한다. 따라서 정제 엔진(233)에서 정제된 텍스트는 "부가서비스 [side_speech] 신청 하려구요"이다. 이와 같이 최종 정제된 텍스트 파일은 트랜스크립션 DB(237)에 저장된다.Referring to FIG. 3A, the
한편, 도 2를 참조하면, 태깅부(250)는 상기 트랜스크립션 DB(237)에 저장된 텍스트 파일별로 해당 텍스트 파일이 어느 서비스에 해당하는 것인지 여부를 설정한다. 즉, 각 텍스트 파일별로 주요 키워드를 선별하여 후보 서비스 태그(이하, 시멘틱 태그)를 설정한다. 예를 들어, "부가서비스 신청 하려구요"의 텍스트 파일의 경우, 주요 키워드로 "부가서비스 + 신청"을 선별하고, 이에 따라 "부가서비스 신청 하려구요"의 텍스트 파일에 대해 "extra_service_apply" 시멘틱 태그를 설정한다. 또한, "부가서비스 벨소리 신청 하려구요"의 텍스트 파일의 경우, 주요 키워드로 "부가서비스 + 신청 + 벨소리"를 선별하고, 이에 따라 "부가서비스 벨소리 신청 하려구요"의 텍스트 파일에 대해 "extra_service_bell_apply" 시멘틱 태그를 설정한다. 이상과 같이 태깅부(250)는 트랜스크립션 DB(237)에 저장된 텍스트 파일별로, 즉 사용자의 발성별로 해당 사용자의 발성이 어느 서비스에 해당하는 것인지 여부를 설정한다. 태깅부(250)에서 주요 키워드 인식은 자연어 음성 인식 기술에 의해 이루어지는 것이 바람직하다. 태깅부(250)에 의해 설정된 각 사용자 발성별 시멘틱 태그는 태그 DB(251)에 저장된다. 이때, 태깅부(250)는 태그 DB(251)에 시멘틱 태그를 저장하며 각 시멘틱 태그에 상기와 같은 주요 키워드를 대응하여 저장한다.Meanwhile, referring to FIG. 2, the
이와 같이 1차 태깅 작업을 완료한 후, 개발자는 태그 DB(251)에 저장된 각 사용자 발성별 시멘틱 태그를 비슷한 성향을 가지는 서비스들로 군집화한다. 예를 들어, 상기 "부가서비스 벨소리 신청"은 "부가서비스 신청"의 하위 메뉴로서 "부가서비스 신청"으로 통합될 수 있으므로, "extra_service_apply" 시멘틱 태그와 "extra_service_bell_apply" 시멘틱 태그는 "extra_service_apply"로 묶는다. 시멘틱 태그를 군집화할 때 동시에 각 시멘트 태그에 할당되어 있던 주요 키워드들로 함께 군집화한다. 결국, "extra_service_apply" 시멘틱 태그에는 "부가서비스 + 신청 + 벨소리"가 주요 키워드로 대응되어 저장된다. 도 3b는 시멘틱 태그를 비슷한 성향을 가지는 서비스들로 군집화하는 과정을 나타낸 도면으로, 도 3b에 도시된 바와 같이 "부가서비스 벨소리 신청"의 시멘틱 태그와 "부가서비스 신청"의 시멘틱 태그는 "부가서비스 신청"으로 통합한다.After completing the first tagging as described above, the developer clusters the semantic tags for each user voice stored in the
이와 같이 후보 시멘틱 태그들은 비슷한 성향을 가지는 것들로 군집화되는데 군집화되어 설정된 태그들을 본 명세서에서는 어플리케이션 태그라 지칭한다. 어플리케이션 태그는 음성 인식 ARS 서비스에서 제공되는 서비스 항목으로, 목적지 설정부(270)는 개발자의 입력에 따라 태그 DB(251)에 저장된 각 어플리케이션 태그에 대해 실제 서비스 항목을 연결한다. 즉, 각 어플리케이션 태그마다 자동 응답으로 연결하거나, 또는 메뉴 항목을 연결하거나, 또는 상담원을 연결한다. 예를 들어, "부가 서비스 신청"에 관한 어플리케이션 태그 "extra_service_apply"는 메뉴 항목을 제공하는 것이 바람직하다. 부가 서비스의 종류는 다양하므로 ARS 서비스를 이용하는 고객이 부가 서비스를 문의한 경우 " 링투유 신청은 1번, 캐치콜 신청은 2 번을 눌러주세요"와 같이 선택 메뉴를 제공하는 것이 바람직하다. 따라서 상술한 바와 같이, "부가 서비스 신청"에 관한 어플리케이션 태그 "extra_service_apply"는 메뉴 항목으로 연결한다. 어플리케이션 태그에 대한 목적지 정보들은 태그-목적지 DB(271)에 저장된다.As described above, candidate semantic tags are clustered into ones having similar tendencies, and clustered and configured tags are referred to herein as application tags. The application tag is a service item provided by the voice recognition ARS service, and the
다음 [표1]은 어플리케이션 태그 중 [account_bill_Detail]의 최종 목적지에 대한 설계서의 예를 나타낸 것이다. [account_bill_Detail]는 결제 요금에 대한 어플리케이션 태그이다. 어플리케이션 태그 [account_bill_Detail]의 최종 목적지는 아래 [표1]에 나타낸 바와 같이 fd_account_bill_details이다. 이러한 어플리케이션 태그에 대한 목적지 정보들은 태그-목적지 DB(271)에 저장된다.[Table 1] shows an example of the design document for the final destination of [account_bill_Detail] among application tags. [account_bill_Detail] is an application tag for payment fee. The final destination of the application tag [account_bill_Detail] is fd_account_bill_details as shown in [Table 1] below. Destination information for this application tag is stored in the tag-
이와 같이 태그 DB(251) 및 태그-목적지 DB(271)에 저장된 자료는 고객에서 음성 인식 ARS 서비스를 제공하는데 이용된다. 사용자가 결제 요금의 상세 내역 확인을 요청하면, ARS 시스템은 사용자의 음성을 인식하여 주요 키워드를 선별하고, 그 선별된 키워드를 이용하여 태그 DB(251)에서 어플리케이션 태그를 조회한다. 그리고 나서, 상기 조회된 어플리케이션 태그에 대한 목적지를 태그-목적지 DB(271)에서 조회한다. 조회된 어플리케이션 태그에 설계된 확인 문구, 예로 상기 [표1]에서 '항목별 상세 청구 내역 확인을 원하세요?'라는 메시지를 사용자에게 발송한다. 만약 사용자가 '예'라고 답하면 사용자가 원하는 서비스 항목이 상기 조회된 어플리케이션 태그에 설정된 최종 목적지인 것으로 판단하고, 최종 서비스를 연결시킨다. 바로 요금 내역을 자동 응답으로 안내하거나, 하위 메뉴를 안내하거나, 상담원을 연결한다.As such, the data stored in the
도 4는 본 발명의 일 실시예예 따른 음성 인식 ARS 서비스를 위한 데이터베이스 구축 방법을 설명하는 흐름도이다.4 is a flowchart illustrating a method for establishing a database for a voice recognition ARS service according to an embodiment of the present invention.
도 4에 도시된 바와 같이, 먼저 사용자가 본 발명에 따른 데이터베이스 구축 시스템에 접속하면, 데이터베이스 구축 시스템은 사용자가 원하는 서비스를 발성하도록 유도하는 안내 멘트를 발송한다(S401). 예로, "원하시는 서비스를 말씀해 주세요. 예를 들어 제가 쓴 요금이 얼마에요? 라고 말씀해 주세요”를 들 수 있다. 이때, 사용자는 유무선 단말기를 이용하여 데이터베이스 구축 시스템에 접속할 수 있는데 이에 한정되지 않는다.As shown in FIG. 4, first, when a user accesses a database building system according to the present invention, the database building system sends a guide message to guide the user to speak a desired service (S401). For example, "Please tell us what service you want. For example, how much is my fee?" In this case, the user can access a database building system using a wired or wireless terminal, but is not limited thereto.
이어서, 데이터베이스 구축 시스템은 안내 멘트에 따라 사용자가 말하는 음성을 녹음하여 저장한다(S403). 상기 단계 S401 및 단계 S403은 데이터베이스 구축에 필요한 만큼 반복 수행된다. 바람직하게는 5만개 정도의 사용자 발성을 수집한다.Subsequently, the database building system records and stores the voice spoken by the user according to the announcement (S403). Steps S401 and S403 are repeated as necessary for the database construction. Preferably about 50,000 user voices are collected.
다음으로, 이와 같이 수집 저장된 사용자들의 발성을 소정의 규칙에 따라 텍스트로 전환하여 저장한다(S405). 사용자의 발성을 텍스트로 전환화는 과정에는 일정한 규칙에 따라 행한다. 예를 들어, 사용자가 “휴대폰 분실 신고요?”라고 발성한 녹취 파일을 음성 인식하여 [휴대폰 분실 신고요 [noise] [side_speech]]라고 기록한다. 여기서 [noise]는 중간에 잡음이 들어왔다는 표시이고, [side_speech]는 배경에 다른 사람의 목소리가 들어왔다는 표시이다. 그 밖에 표기 방법은 다음과 같다.Next, the voices of the collected and stored users are converted into text according to a predetermined rule and stored in operation S405. The conversion of the user's voice to text is performed according to a predetermined rule in the process. For example, a voice recognition of the recording file uttered by the user, “Do you want to report the lost phone?” Is recorded as [noise] [side_speech]. Where [noise] is an indication that noise is in the middle and [side_speech] is an indication that someone's voice is in the background. Other notation methods are as follows.
[breath_noise] : 숨을 들이 쉬거나 내쉬는 소리, [breath_noise]: Inhale or exhale
[hang_up] : 전화를 끊는 소리, [hang_up]: hang up,
[dtmf] : DTMF 톤,[dtmf]: DTMF tones,
[fragment] : 음성이 중단된 것, [fragment]: voice interrupted,
(()) : 음성이 발성되었으나 예측하여 표기하기 힘든 경우, (()): When voice is spoken but difficult to predict,
((word)) : 알아듣기 힘든 음성이나 예측하여 표기 한 경우로 (())안에 단어 단위로 기록,((word)): In case of difficult to understand or predicted words
*word* : 화자가 틀리게 발음한 것. * * 안에는 발음 표기를 그대로 쓰는 것이 아니라 맞는 철자를 표기, * word *: The speaker pronounced it wrong. * * Notation of the pronunciation notation is written in the correct spelling,
~ : 발성의 파형이 잘린 것. 발성의 시작 부분이 잘렸으면 앞에 ~을 써주고, 발성의 끝부분이 잘렸으면 끝에 표기,~: The waveform of the vocalization is cut off. If the beginning of the utterance is cut off, write ~ in front of it.
@hes@ : 단어 발성 이전에 "um", "uh", "ah", "eh", "ehn", "hm" 와 같이 머뭇거리는 발성. 상기 발음 외 '저기요, 여보세요' 등과, 의미가 있는 단어의 경우는 @hes@으로 써서는 안 된다. 저기요, 여보세요 등 그대로 표기.@ hes @: Sounds that sound like "um", "uh", "ah", "eh", "ehn", "hm" before the word. In addition to the pronunciation, 'hey, hello', etc., and words that have meaning should not be written as @ hes @. Hey, hello and so on.
다음으로, 상기 변환된 텍스트 파일별로 해당 텍스트 파일이 어느 서비스에 해당하는 것인지 여부를 설정한다. 즉, 각 텍스트 파일별로 주요 키워드를 선별하여 후보 서비스 태그(이하, 시멘틱 태그)를 설정하고 그 서비스 태그와 주요 키워드를 대응하여 저장한다(S407). Next, for each of the converted text files, which service the text file corresponds to is set. In other words, a candidate key tag is selected for each text file, and a candidate service tag (hereinafter, referred to as a semantic tag) is set and the corresponding service tag and the key keyword are stored correspondingly (S407).
예를 들어, "부가서비스 신청 하려구요"의 텍스트 파일의 경우, 주요 키워드로 "부가서비스 + 신청"을 선별하고, 이에 따라 "부가서비스 신청 하려구요"의 텍스트 파일에 대해 "extra_service_apply" 시멘틱 태그를 설정하고 키워드 "부가서비스 + 신청"을 대응하여 저장한다. 또한, "부가서비스 벨소리 신청 하려구요"의 텍스트 파일의 경우, 주요 키워드로 "부가서비스 + 신청 + 벨소리"를 선별하고, 이에 따라 "부가서비스 벨소리 신청 하려구요"의 텍스트 파일에 대해 "extra_service_bell_apply" 시멘틱 태그를 설정하고 키워드 "부가서비스 + 신청 + 벨소리"를 대응하여 저장한다. 이때, 주요 키워드 인식은 자연어 음성 인식 기술에 의해 이루어지는 것이 바람직하다.For example, for a text file of "I want to apply for supplementary services", select "Additional services + application" as the main keyword, and set the "extra_service_apply" semantic tag for the text file of "I want to apply for supplementary services." Corresponds to the keyword "additional service + application" to store. Also, for the text file of "I would like to apply for additional service ringtones", select "Additional Service + Request + Ringtone" as the main keyword, and accordingly, add the "extra_service_bell_apply" semantic tag to the text file of "I would like to apply for additional service ringtones". Set and save corresponding keyword "Additional Service + Application + Ringtone". At this time, the main keyword recognition is preferably made by natural language speech recognition technology.
이와 같이 1차 태깅 작업을 완료한 후, 데이터베이스 구축 시스템은 개발자의 입력에 따라 태그 DB(251)에 저장된 각 사용자 발성별 시멘틱 태그를 비슷한 성향을 가지는 서비스들로 군집화한다(S409). 예를 들어, 상기 "부가서비스 벨소리 신청"은 "부가서비스 신청"의 하위 메뉴로서 "부가서비스 신청"으로 통합될 수 있으므로, "extra_service_apply" 시멘틱 태그와 "extra_service_bell_apply" 시멘틱 태그는 "extra_service_apply"로 묶는다. 시멘틱 태그를 군집화할 때 동시에 각 시멘트 태그에 할당되어 있던 주요 키워드들로 함께 군집화한다. 결국, "extra_service_apply" 시멘틱 태그에는 "부가서비스 + 신청 + 벨소리"가 주요 키워드로 대응되어 저장된다. 이와 같이 후보 시멘틱 태그들은 비슷한 성향을 가지는 것들로 군집화되는데 군집화되어 설정된 각 태그들을 어플리케이션 태그라 지칭한다. 어플리케이션 태그는 음성 인식 ARS 서비스에서 제공되는 서비스 항목이 된다.After completing the first tagging as described above, the database building system clusters the semantic tags for each user voice stored in the
다음으로, 상기와 같이 군집화되어 정렬된 각 어플리케이션 태그에 대해 실제 서비스, 즉 목적지를 연결하여 저장한다(S411). 즉, 각 어플리케이션 태그마다 원하는 정보를 제공하는 자동 응답으로 연결하거나, 또는 선택 메뉴 항목을 연결하거나, 또는 상담원을 연결한다. 예를 들어, "부가 서비스 신청"에 관한 어플리케이션 태그 "extra_service_apply"는 메뉴 항목을 제공하는 것이 바람직하다. 부가 서비스의 종류는 다양하므로 ARS 서비스를 이용하는 고객이 부가 서비스를 문의한 경우 " 링투유 신청은 1번, 캐치콜 신청은 2번을 눌러주세요"와 같이 선택 메뉴를 제공하는 것이 바람직하다. 따라서 상술한 바와 같이, "부가 서비스 신청"에 관한 어플리케이션 태그 "extra_service_apply"는 메뉴 항목으로 연결한다.Next, for each application tag grouped and sorted as described above, an actual service, that is, a destination is connected and stored (S411). That is, each application tag connects to an automatic response providing desired information, connects a selection menu item, or connects an agent. For example, the application tag "extra_service_apply" related to "additional service application" preferably provides a menu item. Since there are various types of supplementary services, when a customer using the ARS service inquires the supplementary service, it is preferable to provide a selection menu such as "Please press 1 for Ring to You and 2 for catch call". Therefore, as described above, the application tag "extra_service_apply" related to "additional service request" is connected to a menu item.
도 5는 본 발명의 바람직한 일 실시예에 따른 음성 인식 ARS 서비스 시스템의 구성을 나타낸 도면이다.5 is a diagram showing the configuration of a voice recognition ARS service system according to an embodiment of the present invention.
도 5에 도시된 바와 같이, 음성 인식 ARS 서비스 시스템은, 이동통신 단말(510), 네트워크(520) 및 음성 인식 ARS 서버(530)를 포함한다. 여기서, 네트워크(520)는 기지국, 기지국 제어기, 교환기 등을 포함하는 이동통신망이 바람직하고, 만약 사용자가 유선 단말기를 사용하는 경우 상기 네트워크는 인터넷망 및/또는 공중망(예로, PSTN)이 될 수 있다. 또한, 음성 인식 ARS 서버(530)에 구비되는 태그 DB(535)는 도 2의 태그 DB(251)를 이용한 것이고, 태그-목적지 DB(537)는 도 2의 태그-목적지 DB(271)를 이용한 것이다. 본 실시예에서 태그 DB(535)와 태그-목적지 DB(537)를 별도의 구성으로 설명하지만, 실시 형태에 따라 하나의 DB로서 구현할 수 있다. 이 경우, 어플리케이션 태그에 키워드 및 목적지 정보를 대응하여 저장한다.As shown in FIG. 5, the voice recognition ARS service system includes a
본 발명에 따른 음성 인식 ARS 서버(530)의 음성 인식부(531)는 통계적 언어 모델로서 사용자의 음성을 인식하는 것으로, 사용자가 이동통신 단말(510)을 이용하여 접속하면 우선 원하는 항목을 발성하도록 하는 유도 안내 메시지를 발송하고, 사용자의 음성을 수신한다.The speech recognition unit 531 of the speech
또한, 음성 인식부(531)는 사용자가 발성한 음성을 음성 인식하여 주요 키워드를 추출하고, 그 추출한 키워드를 이용하여 태그 DB(535)에서 어플리케이션 태그를 검색한다. 즉, 사용자가 원하는 서비스 항목이 무엇인지 여부를 확인하는 것이다. 음성 인식부(531)는 상기 트랜스크립션 DB(237)에 저장된 자료에 근거하여 구축됨으로써 음성 인식율을 높인다. 트랜스크립션 DB(237)에 저장된 자료로부터 사용자의 음성에 잡음 등이 부가될 때 어떠한 발성 형태를 나타내는지 여부를 분석할 수 있게 되고, 이러한 분석 결과에 따라 실제 사용자의 음성 인식시 정확한 음성 인식이 가능하게 된다. In addition, the voice recognition unit 531 recognizes the voice spoken by the user, extracts a main keyword, and searches the application tag in the
호 연결부(533)는 상기 음성 인식부(531)로부터 어플리케이션 태그를 수신하고, 그 수신된 어플리케이션 태그에 대한 목적지를 태그-목적지 DB(537)에서 검색한다. 예를 들어, 음성 인식부(531)에서 수신된 어플리케이션 태그가 "extra_service_apply"인 경우 태그-목적지 DB(537)에서 상기 어플리케이션 태그 "extra_service_apply"에 설정되어 있는 목적지, 즉 자동 응답, 또는 선택 메뉴, 또는 상담원 연결 등의 목적지를 검색한다. 호 연결부(533)는 검색된 목적지 정보를 결과 안내부(532)로 전달한다.The
결과 안내부(532)는 호 연결부(533)로부터 전달된 목적지 정보에 따른 결과를 이동통신 단말(510)로 제공한다. 목적지 정보가 벨소리 신청에 대한 자동 응답인 경우, 결과 안내부(532)는 메뉴 DB(539)에서 벨소리 신청에 대한 안내 멘트를 검색하여 이동통신 단말(510)로 제공한다. 또는 호 연결부(533)로부터 전달된 목적지 정보가 하위 메뉴가 존재하는 것일 경우, 예를 들어 사용자는 '비기'에 대해 문의하였는데 '비기'에는 '비기알 2200', '비기알 2900'이 있는 경우, 결과 안내부(532)는 그 하위 메뉴를 안내하여 종래와 같은 DTMF 입력을 받아 최종 서비스를 제공한다. 도면에는 도시하지 않았지만, 결과 안내부(532)는 고객 정보 시스템(WISE), 상품 안내 정보 등을 저장하고 있는 데이터베이스와 연동하여 최종적인 서비스 정보를 제공한다.The
또한, 결과 안내부(532)는 호 연결부(533)로부터 목적지 정보가 전달되지 않는 경우 메뉴 DB(539)에서 백오프 메뉴 멘트를 검색하여 이동통신 단말(510)로 제공한다. 즉, 사용자의 음성이 인식이 불가능한 경우, 또는 사용자의 서비스 문의가 정의되어 있지 않아 태그가 설정되어 있지 않은 경우, 결과 안내부(532)는 사용자로 하여금 차례로 원하는 서비스를 발성하도록 유도하는 백오프 메뉴 멘트를 메뉴 DB(539)에서 검색하여 발송한다. 예를 들어, "요금 관련, 핸드폰 분실, 부가 서비스 중 하나를 말씀해주시기 바랍니다"와 같이 ARS 서비스 항목을 모두 포괄하는 메뉴로 이루어진 안내 멘트를 발송하고, 사용자가 그 중 어느 하나를 선택하여 발성하도록 한다. 이와 같이 사용자가 어느 하나를 선택하여 발성을 한 경우 음성 인식부(531)는 사용자의 음성을 인식하여 상술한 과정을 다시 수행한다.In addition, when the destination information is not transmitted from the
도 6은 본 발명의 다른 실시예에 따른 음성 인식 ARS 서비스 시스템의 구성을 나타낸 도면이다. 여기서, 도 6의 음성 인식 ARS 서버(530)는 도 5의 기능을 모두 포함한다. 또한 도 6에서는 하나의 음성 인식 ARS 서버(530)를 도시하였지만, 다수의 음성 인식 ARS 서버(530)가 구축되어 사용될 수 있음을 분명히 한다.6 is a diagram illustrating a configuration of a voice recognition ARS service system according to another embodiment of the present invention. Here, the voice
도 6을 참조하면, 음성 인식 ARS 서버(530)는 사용자의 음성을 인식하여 그에 따른 ARS 서비스를 제공한다. 또한, 음성 인식 ARS 서버(530)는 시스템 작동 상태, 오류 발생 여부(예로, 음성 인식 에러, 시스템 오류 등), 백오프 메뉴 발생 정보(음성 인식 결과, 발생 빈도 등) 등을 포함하는 리포트를 일정한 주기로 중계 서버(610)에 실시간 전송한다. 이때, 음성 인식 ARS 서버(530)는 시스템의 동작 여부, 그리고 에러 유형 등에 대한 식별자를 중계 서버(610)로 전송한다. 이를 위해 음성 인식 ARS 서버(530)는 시스템 작동 상태, 오류 발생 여부 등을 지능적으로 판단하여 리포팅할 수 있는 프로그램이 설치된다.Referring to FIG. 6, the voice
중계 서버(610)는 음성 인식 ARS 서버(530)로부터 실시간 전송된 리포트를 수신하여 저장하고, 그 저장된 리포트를 누적 분석하여 분석 결과를 관리자에게 실시간 전송한다. 관리자는 일반 범용 컴퓨터(630)를 통해 중계 서버(610)로부터 분석 결과를 받을 수 있고, 또한 개인 휴대용 단말(650)을 통해 중계 서버(610)로부터 분석 결과를 받을 수 있다. 이를 위해 관리자의 단말(630, 650)은 전용 클라이언트 프로그램이 설치될 수 있다. 관리의 효율성을 높이기 위해, 중계 서버(610)는 음성 인식 ARS 서버(530)로부터 리포트를 수신할 때마다 바로 관리자의 개인 휴대용 단말(650)로 리포트 분석 결과를 SMS 통보하는 것이 바람직하다. 물론 이에 한정되지 않고 관리자의 범용 컴퓨터(630)에도 리포트 분석 결과를 실시간 통보할 수 있다.The
아래 [표2]는 개인 휴대용 단말(650)로 SMS 통보되는 에러 상태를 나타낸 예이다.[Table 2] below shows an example of an error state of SMS notification to the personal
또한, 중계 서버(610)는 음성 인식 ARS 서버(530)로부터 전송된 리포트를 누적 분석하여 그 분석 결과를 관리자의 단말(630, 650)로 전송한다. 즉, 음성 인식 ARS 서버(530)로부터 전송된 리포트를 하루, 또는 한 달 주기 또는 반년 주기 등 일정한 주기마다 누적 분석하고 그 분석 결과를 관리자의 단말(630, 650)로 전송한다. 관리자의 단말(630, 650)의 클라이언트 프로그램은 중계 서버(610)로부터 전송된 분석 결과를 그래프 등을 이용하여 표시한다. 도 7a는 관리자 단말에 표시되는 누적 에러 그래프의 예로서, 도 7a에 도시된 바와 같이 관리자 단말(630, 650)의 클라이언트 프로그램은 중계 서버(610)로부터 전송된 누적 분석 결과를 서비스 항목별로 그래프로 표시한다. 각 서비스 항목별로 일정한 기간(도 7a에서는 하루) 동안 일반 에러, 치명적 에러 등이 발생한 횟수를 막대 그래프로 표시한다. In addition, the
또한, 중계 서버(610)는 에러 분석 결과 뿐만 아니라 음성 인식 ARS 서버(530)의 동작 상태 정보를 관리자의 단말(630, 650)로 전송한다. 즉, 현재 운용 중인 다수의 음성 인식 ARS 서버(530) 각각이 정상 동작 중인지 아니면 정지 중인지, 아니면 사용 불가 상태인지 여부, 그리고 백오프 메뉴의 발생 정보 등을 관리자의 단말(630, 650)로 실시간 전송한다. 도 7b는 관리자 단말에 표시되는 통제판 화면의 예로서, 관리자 단말(630, 650)의 클라이언트 프로그램은 중계 서버(610)로부터 전송된 각 서버별 동작 상태 정보를 토대로 도 7b와 같은 통제판을 활성화시킨다. 도 7b에 도시된 바와 같이, 클라이언트 프로그램은 각 서버별 동작 상태, 즉 '작동중', '정지', '사용불가' 등을 표시한다(701).In addition, the
관리자는 관리자 단말(630, 650)로 전송되는 음성 인식 ARS 서버(530)의 동작 상태 정보를 토대로 음성 인식 ARS 서버(530)의 에러를 수정 및 보완하고, 또한 새로운 서비스 태그를 업데이트한다. 백오프 메뉴는 사용자의 음성을 인식하지 못한 경우 뿐만 아니라 사용자의 서비스 문의에 대한 서비스 태그가 정의되어 있지 않은 경우 발생하는 것으로, 관리자는 백오프 메뉴 발생 정보를 기초로, 새로운 서비스 태그를 정의한다. 관리자의 입력에 따라 ARS 서버(530)는 태그 DB(251)에 어플리케이션 태그를 정의하고, 태그-목적지 DB(271)에 상기 정의된 어플리케이션에 대한 목적지를 설정한다. 즉 어플리케이션에 대해 서비스를 연결한다.The manager corrects and supplements an error of the voice
또한, 중계 서버(610)는 관리자 단말(630, 650)로부터 전송된 명령에 따라 현재 운용 중인 음성 인식 ARS 서버(530)를 제어한다. 도 7b에 도시된 바와 같이 관리자 단말(630, 650)의 클라이언트 프로그램은 통제판에 사용자가 음성 인식 ARS 서버(530)를 제어할 수 있는 툴(703)을 표시한다. 관리자는 그 툴(703)을 통해, 각 음성 인식 ARS 서버(530)를 시작, 정지, 재시작 등의 제어를 한다. In addition, the
도 8은 본 발명의 일 실시예예 따른 음성 인식을 이용한 ARS 서비스 제공 방법을 설명하는 흐름도이다.8 is a flowchart illustrating a method of providing an ARS service using speech recognition according to an embodiment of the present invention.
도 8에 도시된 바와 같이, 먼저 사용자가 본 발명에 따른 ARS 서버(530)에 접속하면, ARS 서버(530)는 사용자에게 원하는 정보가 무엇인지를 묻는 안내 멘트를 발송한다(S301). 예를 들어, "고객님, 문의하실 내용을 말씀하시면 해당 서비스로 안내해드리겠습니다. 예를 들어 "청구요금확인", 또는 "휴대폰분실신고"와 같이 간단히 말씀하세요."를 들 수 있다. 이때, 사용자는 유무선 단말기를 이용하여 ARS 서버(530)에 접속할 수 있는데 이에 한정되지 않는다.As shown in FIG. 8, first, when a user accesses the
안내 멘트 발송에 따라 사용자가 원하는 서비스에 대해 발성을 하면, ARS 서버(230)는 상기 사용자의 음성을 인식한다(S303). 사용자의 음성을 인식하는 기술로는 다양한 음성 인식 기술이 적용될 수 있다. When the user speaks to the desired service according to the announcement, the
만약 ARS 서버(530)에서 사용자의 음성을 정확히 인식하지 못한 경우(S305) ARS 서버(530)는 백오프 메뉴 멘트를 사용자에게 발송한다(S307). 즉, 사용자로 하여금 차례로 원하는 서비스를 발성하도록 유도하는 백오프 메뉴 멘트를 메뉴 DB(539)에서 검색하여 발송한다. 예를 들어, "요금 관련, 핸드폰 분실, 부가 서비스 중 하나를 말씀해주시기 바랍니다"와 같이 ARS 서비스 항목을 모두 포괄하는 메뉴로 이루어진 안내 멘트를 발송하고, 사용자가 그 중 어느 하나를 선택하여 발성하도록 한다. 이와 같이 사용자가 어느 하나를 선택하여 발성을 한 경우 ARS 서버(530)는 사용자의 음성을 인식한다(S303).If the
이와 같이 사용자의 음성을 인식한 결과, 사용자의 음성은 정확히 인식되었으나, 사용자의 문의가 애매모호한 경우(S309), ARS 서버(530)는 모호 메뉴 멘트를 사용자에게 발송한다(S311). 예를 들어, 사용자가 "요금 관련해서 궁금해요.."라고 문의한 경우 요금 관련 정보는 다양하기 때문에 ARS 서버(530)는 사용자를 정확한 서비스 항목으로 연결시키지 못한다. 따라서 ARS 서버(530)는 다음과 같은 요금 관련 멘트를 발송한다. 예를 들어, "조회하실 항목을...현재까지 사용한 요금, 청구 요금, 무료 통화 확인, 미납 요금 중 선택하세요. 요금 관련 다른 문의는 '다른 문의'라고 말씀하세요"와 같이 모호 메뉴 멘트를 사용자에게 발송한다. 이와 같은 모호 메뉴 멘트에 따라 사용자는 본인이 원하는 서비스 항목을 발성하게 되고, 다시 ARS 서버(530)는 사용자의 음성을 인식한다(S303). 이때, 사용자들의 모호한 발성은 상술한 데이터베이스 구축 과정에서 일반적인 서비스 항목과 마찬가지로 어플리케이션 태그가 설정되고 목적지가 연결된다. 본 발명자들이 다수 사용자들의 발성을 수집한 결과, 사용자들의 모호한 발성은 일정한 서비스 항목에 한정되어 있다. 예를 들어, 부가 서비스, 요금 문의 등으로 한정되어 있다. 따라서 이러한 사용자들의 각 모호한 발성에 어플리케이션 태그를 설정하여 태그 DB(251)에 저장하고, 그 설정된 모호한 발성의 어플리케이션 태그에 대해 모호 메뉴 멘트를 서비스 연결하여 태그-목적지 DB(271)에 저장하여 상술한 바와 같은 시나리오를 제공한다.As a result of recognizing the user's voice as described above, if the user's voice is correctly recognized, but the user's inquiry is ambiguous (S309), the
이와 같은 과정을 통해 최종적으로 사용자의 음성이 인식된 경우, ARS 서버(530)는 인식된 결과에 대응하는 어플리케이션 태그를 태그 DB(535)에서 조회하고(S313), 조회된 어플리케이션 태그에 설정된 확인 안내 멘트를 사용자에게 발송한다(S315). 사용자로부터 '예'라는 답이 온 경우 ARS 서버(530)는 상기 조회된 어플리케이션 태그에 설정된 최종 목적지를 태그-목적지 DB(537)에서 조회하고 그 최종 목적지가 더 이상의 하위 메뉴가 없는 마지막 메뉴인지 여부를 판단한다(S317). 한편, 상기 단계 S313에서 어플리케이션 태그가 조회되지 않을 수 있다. 즉, 사용자의 음성이 인식되었으나 어플리케이션 태그가 정의되어 있지 않은 경우이다. 이 경우 ARS 서버(530)는 상술한 바와 같은 백오프 메뉴를 제공하여 사용자의 발성을 유도하고 상술한 음성 인식 과정을 재수행한다.When the user's voice is finally recognized through the above process, the
상기 단계 S317에서 조회된 최종 목적지가 마지막 메뉴인 경우, ARS 서버(530)는 해당 서비스 정보를 제공하고(S319), 그렇지 않고 상기 조회된 최종 목적지가 하위 메뉴를 갖는 경우 그 하위 메뉴를 사용자에게 안내한다(S321). 그리고 사용자가 선택하는 메뉴에 대한 서비스 정보를 제공한다(S323).If the final destination viewed in step S317 is the last menu, the
이와 같이 본 발명에 따라 데이터베이스를 구축하여 음성 인식 ARS 서비스를 제공하게 되면 사용자는 바로 원하는 서비스를 받거나 이미 범위가 좁혀진 서비스에 대한 선택을 하므로 DTMF 방식과 비교하여 원하는 서비스를 찾기 위한 부담이 적다. As described above, when a database is provided according to the present invention and a voice recognition ARS service is provided, a user directly receives a desired service or selects a service that has already been narrowed, so the burden for finding a desired service is small compared to the DTMF method.
또한, 사용자가 말로써 요청한 서비스에 따라 바로 서비스에 연결되거나 이미 좁혀진 트리 구조에서 탐색이 시작되기 때문에 DTMF 방식에 비해 깊지 않은 메뉴 단계를 가진다. 즉 자신이 원하는 서비스로 이동하기 위한 이동 시간이 DTMF 방식에 비해 짧다.In addition, since the search starts from a tree structure that is directly connected to the service or narrowed according to the service requested by the user, the menu step is not deeper than that of the DTMF method. That is, the moving time for moving to the desired service is shorter than that of the DTMF method.
또한, DTMF 방식의 경우 복잡한 메뉴 구조로 인하여 사용자가 초기 진입부터 시도도 하지 않고 상담원을 찾게 된다. 음성인식 ARS의 경우 상대적으로 복잡도가 적은 메뉴 구조에 낮은 메뉴 단계로 인한 서비스 대기 시간의 감소로 DTMF 방식에 비하여 상담원 연결 호가 줄어들게 된다.In addition, in the case of the DTMF method, due to the complicated menu structure, the user finds a counselor without attempting from the initial entry. In the case of voice recognition ARS, the number of agent connection calls is reduced compared to the DTMF method due to the reduction of service waiting time due to the relatively low menu structure and low menu level.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.As described above, the method of the present invention may be implemented as a program and stored in a recording medium (CD-ROM, RAM, ROM, floppy disk, hard disk, magneto-optical disk, etc.) in a computer-readable form. Since this process can be easily implemented by those skilled in the art will not be described in more detail.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.The present invention described above is capable of various substitutions, modifications, and changes without departing from the technical spirit of the present invention for those skilled in the art to which the present invention pertains. It is not limited by the drawings.
상기와 같은 본 발명에 따르면, 음성 인식 ARS 시스템 개발에 소요되는 시간을 대폭 줄일 수 있게 되고, 궁극적으로는 음성 인식 ARS 서비스의 제공에 따라 사용자 측면에서 종래 DTMF 방식에 비해 원하는 서비스를 찾기 위한 부담이 감소하고, 이동 시간이 감소한다. 또한 상담원 연결 호가 줄어들어 사업자 측면에서는 상 담원을 고용하는 고용 비용이 줄어들게 되어 비용을 절감시키는 효과가 있다.According to the present invention as described above, the time required for the development of the speech recognition ARS system can be significantly reduced, and ultimately, the burden for finding a desired service in comparison with the conventional DTMF method in terms of the user is provided by providing the speech recognition ARS service. Decrease, and travel time decreases. In addition, the number of counseling calls is reduced, which in turn lowers the cost of hiring agents.
Claims (13)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060138706 | 2006-12-29 | ||
KR20060138706 | 2006-12-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100803900B1 true KR100803900B1 (en) | 2008-02-15 |
Family
ID=39343390
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070017166A KR100822170B1 (en) | 2006-12-29 | 2007-02-20 | Database construction method and system for speech recognition ars service |
KR1020070020385A KR100803900B1 (en) | 2006-12-29 | 2007-02-28 | Speech recognition ars service method, and speech recognition ars service system |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070017166A KR100822170B1 (en) | 2006-12-29 | 2007-02-20 | Database construction method and system for speech recognition ars service |
Country Status (1)
Country | Link |
---|---|
KR (2) | KR100822170B1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2935854A1 (en) * | 2008-09-11 | 2010-03-12 | Alcatel Lucent | METHOD AND COMMUNICATION SYSTEM FOR DISPLAYING A LINK TO A SERVICE FROM AN EXPRESSION PRESENT DURING CONVERSATION. |
KR101176405B1 (en) | 2011-12-19 | 2012-08-28 | 주식회사 예스피치 | System and method for guiding consultation |
WO2016027955A1 (en) * | 2014-08-21 | 2016-02-25 | 김길호 | Ars server, recording medium storing ars application program for generating and outputting response signal input to ars server, and ars service method using same |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101425091B1 (en) | 2012-11-16 | 2014-08-01 | 김성호 | System and method for mobile complex text ARS service |
KR102413514B1 (en) | 2020-10-12 | 2022-06-24 | 금오공과대학교 산학협력단 | Voice data set building method based on subject domain |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000039299A (en) * | 1998-12-12 | 2000-07-05 | 서평원 | Voice recognition system for voice mail service |
KR20010063197A (en) * | 1999-12-22 | 2001-07-09 | 윤종용 | Data service method with character which is requested information by user in telecommunication system |
KR20050081360A (en) * | 2004-02-13 | 2005-08-19 | 주식회사 케이티 | Automatic management apparatus and method of distributed and heterogeneous call attendant system over pstn |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR950004944B1 (en) * | 1992-11-09 | 1995-05-16 | 주식회사금성사 | Audio response system with voice-recognition capability |
JPH11146080A (en) | 1997-11-10 | 1999-05-28 | Ntt Data Corp | Information service system utilizing position information of mobile communication terminal |
KR100301219B1 (en) * | 2000-01-25 | 2001-11-03 | 백종관 | Voice Portal Service System Using Speech Recognition/Text-to-Speech at Communication Network and Method thereof |
KR20010109050A (en) * | 2000-06-01 | 2001-12-08 | 이광수 | Voice detecting 114information Service and auto calling system |
KR100383054B1 (en) * | 2000-09-08 | 2003-05-22 | 한태현 | Voice identification telephone number guidance and auto-connecting method and system therefor |
-
2007
- 2007-02-20 KR KR1020070017166A patent/KR100822170B1/en active IP Right Grant
- 2007-02-28 KR KR1020070020385A patent/KR100803900B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000039299A (en) * | 1998-12-12 | 2000-07-05 | 서평원 | Voice recognition system for voice mail service |
KR20010063197A (en) * | 1999-12-22 | 2001-07-09 | 윤종용 | Data service method with character which is requested information by user in telecommunication system |
KR20050081360A (en) * | 2004-02-13 | 2005-08-19 | 주식회사 케이티 | Automatic management apparatus and method of distributed and heterogeneous call attendant system over pstn |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2935854A1 (en) * | 2008-09-11 | 2010-03-12 | Alcatel Lucent | METHOD AND COMMUNICATION SYSTEM FOR DISPLAYING A LINK TO A SERVICE FROM AN EXPRESSION PRESENT DURING CONVERSATION. |
EP2164237A1 (en) * | 2008-09-11 | 2010-03-17 | Alcatel Lucent | Communication method and system for displaying a link to a service according to an expression spoken in the course of a conversation |
KR101176405B1 (en) | 2011-12-19 | 2012-08-28 | 주식회사 예스피치 | System and method for guiding consultation |
WO2016027955A1 (en) * | 2014-08-21 | 2016-02-25 | 김길호 | Ars server, recording medium storing ars application program for generating and outputting response signal input to ars server, and ars service method using same |
KR20160023074A (en) * | 2014-08-21 | 2016-03-03 | 김길호 | ARS Server And, Recording Medium Recording ARS Application Prgram And, ARS Service Method |
KR101638870B1 (en) * | 2014-08-21 | 2016-07-15 | 김길호 | ARS Server And, Recording Medium Recording ARS Application Prgram And, ARS Service Method |
Also Published As
Publication number | Publication date |
---|---|
KR100822170B1 (en) | 2008-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106201424B (en) | A kind of information interacting method, device and electronic equipment | |
US9202247B2 (en) | System and method utilizing voice search to locate a product in stores from a phone | |
US9742912B2 (en) | Method and apparatus for predicting intent in IVR using natural language queries | |
US7907705B1 (en) | Speech to text for assisted form completion | |
US8050923B2 (en) | Automated utterance search | |
US6937986B2 (en) | Automatic dynamic speech recognition vocabulary based on external sources of information | |
US6944592B1 (en) | Interactive voice response system | |
US8756065B2 (en) | Correlated call analysis for identified patterns in call transcriptions | |
US9288320B2 (en) | System and method for servicing a call | |
US20040260543A1 (en) | Pattern cross-matching | |
US20130279665A1 (en) | Methods and apparatus for generating, updating and distributing speech recognition models | |
EP2781079B1 (en) | System and method for servicing a call | |
US20150215458A1 (en) | Audio archive generation and presentation | |
US20090304161A1 (en) | system and method utilizing voice search to locate a product in stores from a phone | |
JP2006039575A (en) | Method and apparatus for natural language call routing using confidence score | |
EP1497825A1 (en) | Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition | |
US20130156165A1 (en) | System and method for servicing a call | |
KR100803900B1 (en) | Speech recognition ars service method, and speech recognition ars service system | |
JP2004518195A (en) | Automatic dialogue system based on database language model | |
US20030055649A1 (en) | Methods for accessing information on personal computers using voice through landline or wireless phones | |
CN113095852B (en) | Self-service distribution and service system through intelligent voice | |
CN201355842Y (en) | Large-scale user-independent and device-independent voice message system | |
JP5220451B2 (en) | Telephone reception system, telephone reception method, program, and recording medium | |
US9047872B1 (en) | Automatic speech recognition tuning management | |
JP2007304793A (en) | Document retrieval device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130201 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140203 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20150202 Year of fee payment: 8 |