KR102368193B1 - 음성합성을 이용한 음성인식기능 검증 방법 및 장치 - Google Patents

음성합성을 이용한 음성인식기능 검증 방법 및 장치 Download PDF

Info

Publication number
KR102368193B1
KR102368193B1 KR1020180130230A KR20180130230A KR102368193B1 KR 102368193 B1 KR102368193 B1 KR 102368193B1 KR 1020180130230 A KR1020180130230 A KR 1020180130230A KR 20180130230 A KR20180130230 A KR 20180130230A KR 102368193 B1 KR102368193 B1 KR 102368193B1
Authority
KR
South Korea
Prior art keywords
recognition function
voice recognition
voice
test
verifying
Prior art date
Application number
KR1020180130230A
Other languages
English (en)
Other versions
KR20200049955A (ko
Inventor
김인선
조용진
김종윤
이준배
Original Assignee
어니컴 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 어니컴 주식회사 filed Critical 어니컴 주식회사
Priority to KR1020180130230A priority Critical patent/KR102368193B1/ko
Publication of KR20200049955A publication Critical patent/KR20200049955A/ko
Application granted granted Critical
Publication of KR102368193B1 publication Critical patent/KR102368193B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음성합성을 이용한 음성인식기능 검증 방법 및 장치를 제시하며, 일 실시예에 따르면, 음성합성을 이용한 음성인식기능 검증 장치에 있어서, 상기 음성인식기능을 검증에 이용되는 정보를 획득하는 입출력부, 획득된 정보에 기초하여 상기 음성인식기능을 검증하는 테스트케이스를 생성하고, 생성된 테스트케이스에 따라 상기 음성인식기능을 검증하는 제어부를 포함할 수 있다.

Description

음성합성을 이용한 음성인식기능 검증 방법 및 장치{METHOD AND APPARATUS FOR VERIFYING VOICE RECOGNITION USING VOICE SYNTHESIS}
본 명세서에서 개시되는 실시예들은 음성합성을 이용한 음성인식기능 검증 방법 및 장치에 관한 것으로, 보다 상세하게는 단말기의 스피커에서 나오는 음성을 단말의 마이크로 재입력 받아 음성인식 기능을 검증하는 방법 및 장치에 관한 것이다.
최근 들어 음성을 이용한 기기의 제어를 하는 방법이 보편화되면서 사용자의 음성을 정확하게 인식하는 기술이 중요하게 되었다.
이에 따라, 음성인식기술을 개발할 때 사용자의 음성을 이용하여 실제 사용자가 의도한 것과 동일하게 기기가 동작하는지 검증하는 과정을 수행한다.
하지만 검증을 수행할 때 검증을 담당하는 담당자가 다수의 테스트 케이스를 육성으로 반복 발화함에 따라 검증수행이 어렵다는 문제점이 있으며, 동일한 테스트를 수행할 경우 검증인이 반복하여 육성을 하여야 함에 따라 검증과정을 재사용할 수 없다는 문제점이 있다.
또한, 검증 진행과정에서 각 육성에 대한 검증 결과를 정리가 어려움에 따라 업무 효율이 떨어지는 문제점이 있다.
관련하여 선행기술 문헌인 한국특허공개번호 제10-2012-0072539호에서는 외국어 롤플레잉 학습 서비스 제공 방법에 관한 것으로서, 서비스 제공 서버가 저장하고 있는 학습대상언어로 구성된 제1 캐릭터 및 제2 캐릭터의 일상 대화 중에서 일방 캐릭터의 대사는 서비스 제공 서버가 사용자 단말기에 전송하고 타방 캐릭터의 대사를 음성인식엔진을 이용하여 사용자 단말기로부터 전송받는 실제 발성을 통한 롤플레잉 학습 형식을 채택하고, 각각의 대사에 대하여 연습 테스트 단계 및 누적 테스트 단계를 통한 체계적인 반복 학습을 유도함으로써, 표현에 대한 장기기억을 보다 견고하게 하고, 외국어의 대화 패턴을 내면화 할 수 있도록 하며, 대화 상황에 대한 다양한 감정이입을 통해 외국어 회화의 미묘한 느낌을 체험하면서 유사한 실제 상황에서의 외국어 표현의 회상을 용이하게 할 뿐, 상술된 문제점을 해결할 수 없다.
따라서 상술된 문제점을 해결하기 위한 기술이 필요하게 되었다.
한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
본 명세서에서 개시되는 실시예들은, 음성인식을 위해 입력되는 음성을 테스트에 따라 합성하여 음성인식기능을 검증하는 음성인식기능 검증 방법 및 장치를 제시하는데 목적이 있다.
본 명세서에서 개시되는 실시예들은, 테스트 케이스에서 이용된 음성을 반복적으로 이용하여 음성인식기능을 검증하는 음성인식기능 검증 방법 및 장치를 제시하는데 목적이 있다.
본 명세서에서 개시되는 실시예들은, 테스트 케이스에 따른 검증 과정을 순차적으로 처리하여 처리된 과정을 실시간으로 확인할 수 있는 음성인식 기능 검증 방법 및 장치를 제시하는데 목적이 있다.
본 명세서에서 개시되는 실시예들은, 테스트 케이스에 따른 검증 결과를 문서화하는 음성인식 기능 검증 방법 및 장치를 제시하는데 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면, 음성합성을 이용한 음성인식기능 검증 장치에 있어서, 상기 음성인식기능을 검증에 이용되는 정보를 획득하는 입출력부, 획득된 정보에 기초하여 상기 음성인식기능을 검증하는 테스트케이스를 생성하고, 생성된 테스트케이스에 따라 상기 음성인식기능을 검증하는 제어부를 포함할 수 있다.
다른 실시예에 따르면, 음성인식기능검증장치가 음성합성을 이용한 음성인식기능 검증 방법에 있어서, 상기 음성인식기능을 검증하는 테스트에 이용되는 정보를 획득하는 단계, 획득된 정보에 기초하여 상기 음성인식기능을 검증하는 테스트케이스를 생성하는 단계 및 생성된 테스트케이스에 따라 상기 음성인식기능을 검증하는 단계를 포함할 수 있다.
또 다른 실시예에 따르면, 음성인식기능검증방법을 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체로서, 상기 음성인식기능검증방법은, 상기 음성인식기능을 검증하는 테스트에 이용되는 정보를 획득하는 단계, 획득된 정보에 기초하여 상기 음성인식기능을 검증하는 테스트케이스를 생성하는 단계 및 생성된 테스트케이스에 따라 상기 음성인식기능을 검증하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 음성인식기능검증장치에 의해 수행되며, 음성인식기능검증장치를 수행하기 위해 기록매체에 저장된 컴퓨터프로그램으로서, 상기 음성인식기능검증방법은, 상기 음성인식기능을 검증하는 테스트에 이용되는 정보를 획득하는 단계, 획득된 정보에 기초하여 상기 음성인식기능을 검증하는 테스트케이스를 생성하는 단계 및 생성된 테스트케이스에 따라 상기 음성인식기능을 검증하는 단계를 포함할 수 있다.
전술한 과제 해결 수단 중 어느 하나에 의하면, 음성인식을 위해 입력되는 음성을 테스트에 따라 합성하여 음성인식기능을 검증하는 음성인식기능 검증 방법 및 장치를 제시할 수 있다.
전술한 과제 해결 수단 중 어느 하나에 의하면, 테스트 케이스에서 이용된 음성을 반복적으로 이용하여 음성인식기능을 검증하는 음성인식기능 검증 방법 및 장치를 제시할 수 있다.
전술한 과제 해결 수단 중 어느 하나에 의하면, 테스트 케이스에 따른 검증 과정을 순차적으로 처리하여 처리된 과정을 실시간으로 확인할 수 있는 음성인식 기능 검증 방법 및 장치를 제시할 수 있다.
전술한 과제 해결 수단 중 어느 하나에 의하면, 테스트 케이스에 따른 검증 결과를 문서화함으로써 검증결과의 배포가 용이한 음성인식 기능 검증 방법 및 장치를 제시할 수 있다.
개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 일 실시예에 따른 음성인식기능검증장치를 도시한 블록도이다.
도 2 내지 도 4 는 일 실시예에 따른 음성인식기능검증방법을 설명하기 위한 순서도이다.
도 5 는 일 실시예에 따른 음성인식기능검증방법을 설명하기 위한 예시도이다.
아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐 아니라, ‘그 중간에 다른 구성을 사이에 두고 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.
이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 음성인식기능검증장치(10)를 설명하기 위한 블록도이다.
음성인식기능검증장치(10)은 네트워크(N)를 통해 원격지의 서버에 접속하거나, 타 단말 및 서버와 연결 가능한 컴퓨터나 휴대용 단말기, 텔레비전, 웨어러블 디바이스(Wearable Device) 등으로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop)등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), GSM(Global System for Mobile communications), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet), 스마트폰(Smart Phone), 모바일 WiMAX(Mobile Worldwide Interoperability for Microwave Access) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다. 또한, 텔레비전은 IPTV(Internet Protocol Television), 인터넷 TV(Internet Television), 지상파 TV, 케이블 TV 등을 포함할 수 있다. 나아가 웨어러블 디바이스는 예를 들어, 시계, 안경, 액세서리, 의복, 신발 등 인체에 직접 착용 가능한 타입의 정보처리장치로서, 직접 또는 다른 정보처리장치를 통해 네트워크를 경유하여 원격지의 서버에 접속하거나 타 단말과 연결될 수 있다.
도1 을 참조하면, 일 실시예에 따른 음성인식기능검증장치(10)은, 입출력부(110), 제어부(120), 통신부(130) 및 메모리(140)를 포함할 수 있다.
입출력부(110)는 사용자로부터 입력을 수신하기 위한 입력부와, 작업의 수행 결과 또는 음성인식기능검증장치(10)의 상태 등의 정보를 표시하기 위한 출력부를 포함할 수 있다. 예를 들어, 입출력부(110)는 사용자 입력을 수신하는 조작 패널(operation panel) 및 화면을 표시하는 디스플레이 패널(display panel) 등을 포함할 수 있다.
구체적으로, 입력부는 키보드, 물리 버튼, 터치 스크린, 카메라 또는 마이크 등과 같이 다양한 형태의 사용자 입력을 수신할 수 있는 장치들을 포함할 수 있다. 또한, 출력부는 디스플레이 패널 또는 스피커 등을 포함할 수 있다. 다만, 이에 한정되지 않고 입출력부(110)는 다양한 입출력을 지원하는 구성을 포함할 수 있다.
입출력부(110)는 음성인식기능을 검증에 이용되는 정보를 입력받을 수 있다.
예를 들어, 입출력부(110)는 키보드를 통해 사용자로부터 음성인식기능의 검증에 이용되는 텍스트를 입력받을 수 있다.
또는 예를 들어, 입출력부(110)는 마이크를 통해 사용자로부터 음성인식기능의 검증에 이용되는 음성을 입력받을 수 있다.
그리고 입출력부(110)는 음성인식기능의 검증에 이용되는 테스트음성을 출력할 수 있고, 출력되는 테스트음성을 입력받을 수 있다.
예를 들어, 입출력부(110)는 후술할 제어부(120)의 제어에 따라 테스트음성을 스피커를 통해 재생할 수 있고, 스피커를 통해 재생되는 테스트음성을 마이크를 통해 입력받을 수 있다.
제어부(120)는 음성인식기능검증장치(10)의 전체적인 동작을 제어하며, CPU 등과 같은 프로세서를 포함할 수 있다. 제어부(120)는 입출력부(110)를 통해 수신한 사용자 입력에 대응되는 동작을 수행하도록 음성인식기능검증장치(10)에 포함된 다른 구성들을 제어할 수 있다.
예를 들어, 제어부(120)는 메모리(140)에 저장된 프로그램을 실행시키거나, 메모리(140)에 저장된 파일을 읽어오거나, 새로운 파일을 메모리(140)에 저장할 수도 있다.
이러한 제어부(120)는 입출력부(110)를 통해 획득된 정보에 기초하여 음성인식기능을 검증하는 테스트케이스를 생성할 수 있다.
이에 앞서, 제어부(120)는 음성인식기능을 검증하는데 이용되는 테스트음성을 생성할 수 있다.
하나의 실시예에 따라, 제어부(120)는 입출력부(110)를 통해 획득된 정보에 기초하여 테스트음성을 생성할 수 있다.
예를 들어, 제어부(120)는 키보드를 통해 입력되는 텍스트를 획득할 수 있고, 획득된 텍스트에 기초하여 음성합성API를 이용하여 텍스트를 음성으로 합성하여 테스트음성을 생성하되, 합성할 음성의 옵션을 설정받아 입력된 텍스와 옵션값으로 음성을 합성하여 재생가능한 파일로 변환할 수 있다. 그리고 제어부(120)는 변환된 파일을 서버(미도시)에 전송하여 저장할 수 있다.
이때 실시예에 따라, 제어부(120)는 생성된 테스트음성을 재생할 수 있으며, 사용자가 입력한 텍스트에 대응되는 음성인지 사용자로부터 검증받을 수 있다.
다른 실시예에 따라, 제어부(120)는 사용자로부터 획득된 음성에 기초하여 테스트음성을 생성할 수 있다.
예를 들어, 제어부(120)는 입출력부(110)의 마이크를 통해 사용자로부터 음성을 녹음할 수 있고, 녹음된 음성에 기초하여 테스트음성을 생성할 수 있다.
그리고 제어부(120)는 생성된 테스트음성에 기초하여 음성인식기능을 검증하는 테스트케이스를 생성할 수 있다.
예를 들어, 제어부(120)는 사용자로부터 테스트케이스의 명칭인 ‘네비게이션’을 획득할 수 있고, ‘네비게이션 실행’ 테스트음성을 매칭하여 테스트케이스를 생성할 수 있다.
이때, 제어부(120)는 실시예에 따라 생성된 테스트케이스를 서버(미도시)에 저장할 수 있다.
그리고 제어부(120)는 사용자로부터 적어도 하나의 테스트케이스를 순차적으로 수행하여 음성인식기능을 검증하는 시나리오인 프로젝트를 설정받을 수 있다.
예를 들어, 제어부(120)는 사용자로부터 프로젝트명칭을 입력받을 수 있고, 입력된 프로젝트명칭에 포함될 적어도 하나의 테스트케이스를 선택받을 수 있다. 이때 제어부(120)는 사용자에게 기 생성된 테스트케이스를 검색할 수 있도록 검색기능을 제공할 수 있다.
그리고 제어부(120)는 음성인식기능의 정상동작결과인 정상결과정보를 획득하여 테스트케이스에 매칭할 수 있다.
예를 들어, 제어부(120)는 네비게이션 실행에 대한 테스트케이스를 생성하기 위해, 테스트음성인 ‘네비게이션 실행’ 에 기초하여 정상결과정보인 네비게이션 앱의 실행에 대한 반환값을 테스트케이스에 매칭할 수 있다.
이후, 제어부(120)는 프로젝트에 따라 적어도 하나의 테스트케이스를 순차적으로 수행하여 음성인식기능을 검증할 수 있다.
이를 위해, 제어부(120)는 테스트케이스에 따라 테스트음성을 입출력부(110)를 통해 출력할 수 있고, 출력되는 테스트음성을 입출력부(110)를 통해 획득할 수 있다.
그리고 제어부(120)는 획득된 테스트음성을 이용하여 음성인식기능을 검증할 수 있다.
이때, 제어부(120)는 음성인식기능을 검증하는 동안 백그라운드를 통해 음성기능을 검증할 앱이 동시에 실행되도록 할 수 있다.
예를 들어, 제어부(120)는 음성인식기능을 검증하는 앱과 검증대상이 동시에 실행되어 유지되도록 사용자에게 백그라운드 서비스의 인터페이스를 제공할 수 있다.
그리고 제어부(120)는 테스트케이스를 순차적으로 실행하면서 테스트케이스에 매칭된 정상결과정보에 기초하여 음성인식기능의 테스트결과를 분석할 수 있다.
예를 들어, 제어부(120)는 테스트케이스를 사용자가 설정한 순서대로 음성인식기능을 자동으로 검증할 수 있고, 테스트음성에 따라 출력되는 테스트결과와 정상결과정보를 비교하여 참 또는 거짓으로 자동으로 테스트결과를 분석할 수 있다.
이후, 제어부(120)는 분석된 테스트결과에 기초하여 음성인식기능에 대한 검증결과를 제공할 수 있다.
예를 들어, 제어부(120)는 테스트케이스 수행 후 검증결과값을 입력받아 서버에 저장할 수 있고, 검증결과를 문서로 출력하여 사용자에게 제공할 수 있다.
통신부(130)는 다른 디바이스 또는 네트워크와 유무선 통신을 수행할 수 있다. 이를 위해, 통신부(130)는 다양한 유무선 통신 방법 중 적어도 하나를 지원하는 통신 모듈을 포함할 수 있다. 예를 들어, 통신 모듈은 칩셋(chipset)의 형태로 구현될 수 있다.
통신부(130)가 지원하는 무선 통신은, 예를 들어 Wi-Fi(Wireless Fidelity), Wi-Fi Direct, 블루투스(Bluetooth), UWB(Ultra Wide Band) 또는 NFC(Near Field Communication) 등일 수 있다. 또한, 통신부(130)가 지원하는 유선 통신은, 예를 들어 USB 또는 HDMI(High Definition Multimedia Interface) 등일 수 있다.
메모리(140)에는 파일, 어플리케이션 및 프로그램 등과 같은 다양한 종류의 데이터가 설치 및 저장될 수 있다. 제어부(120)는 메모리(140)에 저장된 데이터에 접근하여 이를 이용하거나, 또는 새로운 데이터를 메모리(140)에 저장할 수도 있다. 또한, 제어부(120)는 메모리(140)에 설치된 프로그램을 실행할 수도 있다. 도 1을 참조하면, 메모리(140)에는 음성인식기능검증을 수행하기 위한 프로그램이 설치될 수 있다.
도 2 는 일 실시예에 따른 음성인식기능검증방법을 설명하기 위한 순서도이다.
도 2 내지 도 4에 도시된 실시예에 따른 음성인식기능검증방법은 도 1 에 도시된 음성인식기능검증장치(10)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하에서 생략된 내용이라고 하더라도 도 1 에 도시된 음성인식기능검증장치(10)에 관하여 이상에서 기술한 내용은 도 2 내지 도 4 에 도시된 실시예에 따른 음성인식기능검증방법에도 적용될 수 있다.
도 5 는 도 2 내지 도 4 를 참조하여 이하에서 후술된다. 도 5 는 일 실시예에 따른 음성인식기능검증방법을 설명하기 위한 예시도로서, 음성인식기능검증장치가 구현되는 전자단말기의 화면을 통해 나타나는 화면의 일례를 도시한 것이다.
도 2 는 음성인식기능검증장치(10)가 수행하는 음성인식기능검증방법을 도시한 순서도이다.
도 2 를 참조하면, 음성인식기능검증장치(10)는 음성인식기능의 검증에 이용되는 정보를 획득할 수 있다(S2001).
예를 들어, 음성인식기능검증장치(10)는 입력장치인 키보드 또는 터치패드를 통해 사용자로부터 텍스트를 획득하거나 또는 마이크를 통해 사용자의 음성을 획득할 수 있다.
그리고 음성인식기능검증장치(10)는 음성인식기능을 검증에 이용되는 정보로 텍스트를 획득하면, 획득된 텍스트를 이용하여 텍스트음성을 합성할 수 있다.
예를 들어, 음성인식기능검증장치(10)는 키보드를 통해 입력되는 텍스트를 획득할 수 있고, 획득된 텍스트에 기초하여 음성합성API를 이용하여 텍스트를 음성으로 합성하여 테스트음성을 생성하되, 합성할 음성의 옵션을 설정받아 입력된 텍스와 옵션값으로 음성을 합성하여 재생가능한 파일로 변환할 수 있다.
또는 예를 들어, 음성인식기능검증장치(10)는 마이크를 통해 획득된 사용자의 음성을 테스트음성으로 변환할 수 있다.
그리고 음성인식기능검증장치(10)는 획득된 정보에 기초하여 음성인식기능을 검증하는 테스트케이스를 생성할 수 있다(S2002).
예를 들어, 음성인식기능검증장치(10)는 테스트케이스의 명칭인 ‘문자보내기’를 획득할 수 있고, ‘문자보내줘’ 테스트음성을 매칭하여 테스트케이스를 생성할 수 있으며, 생성된 테스트케이스를 제 3 의 서버(미도시)에 저장할 수 있다.
이를 통해 음성인식기능검증장치(10)는 기 생성되어 저장한 테스트케이스를 이용하여 음성인식기능검증에 이용할 수 있다.
그리고 음성인식기능검증장치(10)는 생성된 테스트케이스에 따라 상기 음성인식기능을 검증할 수 있다(S2003).
즉, 음성인식기능검증장치(10)는 테스트케이스를 순차적으로 수행할 수 있다.
예를 들어, 음성인식기능검증장치(10)는 음성인식기능검증장치(10)에 구비된 스피커를 통해 테스트케이스에 대응되는 테스트음성을 출력할 수 있고, 스피커를 통해 출력되는 테스트음성을 음성인식기능검증장치(10)에 구비된 마이크를 통해 획득하여 음성인식기능에 대해 검증을 수행할 수 있다.
이때, 음성인식기능검증장치(10)는 음성인식기능을 검증하는 동안 백그라운드를 통해 음성기능을 검증할 앱이 동시에 실행되도록 할 수 있으며, 이를 위해 사용자에게 백그라운드 서비스 인터페이스를 제공할 수 있다.
도 5 를 참조하면, 음성인식기능검증장치(10)는 음성인식기능을 검증할 네비게이션 앱(501)을 백그라운드에서 실행하면서 음성인식기능을 검증하기 위한 인터페이스(502)를 동시에 제공할 수 있다.
그리고 음성인식기능검증장치(10)는 테스트케이스에 매칭된 정상결과정보에 기초하여 음성인식기능의 테스트결과를 분석할 수 있다(S2004).
예를 들어, 음성인식기능검증장치(10)는 테스트케이스에 매칭된 정상결과정보와 테스트음성을 이용한 테스트결과를 비교할 수 있고, 결과의 동일여부에 따라 통과/실패/불가 중 어느 하나로 테스트결과를 분석할 수 있다.
그리고 음성인식기능검증장치(10)는 테스트케이스에 따른 검증결과를 서버(미도시)에 저장할 수 있다.
이하에서는 음성인식기능검증방법의 각 단계를 구체적으로 설명한다.
우선, 도 3 은 음성인식기능검증장치(10)의 테스트케이스를 생성하는 실시예를 도시한 순서도이다.
도 3 을 참조하면, 음성인식기능검증장치(10)는 사용자로부터 음성인식기능검증을 위해 합성되는 음성에 대응되는 텍스트를 입력받을 수 있다(S3001).
예를 들어, 음성인식기능검증장치(10)는 키보드 또는 터치화면을 통해 사용자로부터 텍스트를 입력받거나 또는 기 저장된 텍스트 중 어느 하나를 선택받을 수 있다.
그리고 음성인식기능검증장치(10)는 합성할 음성의 옵션을 설정받을 수 있다(S3002).
예를 들어, 음성인식기능검증장치(10)는 텍스트를 합성할 음성의 성별, 빠르기, 억양, 사투리 여부 등을 옵션으로 사용자로부터 입력받을 수 있다.
그리고 음성인식기능검증장치(10)는 음성을 합성하여 재생가능한 파일로 변환할 수 있다(S3003).
이때, 음성인식기능검증장치(10)는 음성합성API를 이용하여 S3001 및 S3002 단계에서 각각 입력받은 텍스트와 옵션에 따라 음성을 합성할 수 있다.
예를 들어, 음성인식기능검증장치(10)는 S3001단계에서 사용자로부터 입력받은 텍스트인 “네비게이션 실행” 에 대해 S3002단계에서 선택된 옵션 “여성, 빠르게”에 따라 여성 목소리로 빠르게 텍스트를 읽는 테스트음성을 합성할 수 있다.
그리고 음성인식기능검증장치(10)는 합성된 테스트음성을 재생가능한 파일로 생성할 수 있다.
예를 들어, 음성인식기능검증장치(10)는 합성된 테스트음성을 압축코덱인 MP4 또는 WMV 등을 이용하여 파일로 변환할 수 있다.
그리고 음성인식기능검증장치(10)는 합성된 테스트음성을 파일 서버에 저장할 수 있다(S3004).
예를 들어, 음성인식기능검증장치(10)는 합성된 테스트음성을 기초로 테스트케이스를 생성할 수 있고, 테스트케이스와 매칭된 테스트음성을 제 3 의 서버로 전송하여 저장할 수 있다.
그리고 도 4 는 음성인식기능검증장치(10)가 자동으로 음성인식기능검증을 하기 위한 프로젝트를 생성하는 과정을 도시한 순서도이다.
우선 음성인식기능검증장치(10)는 사용자로부터 프로젝트명을 입력받을 수 있다(S4001).
예를 들어, 음성인식기능검증장치(10)는 사용자로부터 프로젝트명을 입력받거나 기 설정된 프로젝트 중 어느 하나를 선택받을 수 있다.
그리고 음성인식기능검증장치(10)는 프로젝트에 포함될 테스트케이스를 선택받을 수 있다(S4002).
예를 들어, 음성인식기능검증장치(10)는 도 3 의 S3004 단계에서 서버에 저장된 적어도 하나의 테스트케이스에 대한 목록을 제공할 수 있고, 제공된 목록에서 적어도 하나의 테스트케이스를 선택받을 수 있다.
이때, 음성인식기능검증장치(10)는 선택된 적어도 하나의 테스트케이스의 순서를 입력받을 수 있다.
그리고 음성인식기능검증장치(10)는 정상동작결과를 테스트케이스에 매칭할 수 있다(S4003).
즉, 음성인식기능검증장치(10)는 테스트음성에 따라 음성인식기능을 검증할 앱에서 정상동작결과인 음성, 텍스트 또는 이미지를 포함하는 정상동작결과 파일을 선택받을 수 있다.
예를 들어, 음성인식기능검증장치(10)는 사용자로부터 테스트음성에 따른 정상동작화면을 획득할 수 있고, 획득된 정상동작화면을 저장할 수 있다. 그리고 음성인식기능검증장치(10)는 저장된 정상동작화면 중 어느 하나를 사용자로부터 선택받을 수 있다.
그리고 음성인식기능검증장치(10)는 프로젝트에 정상동작결과 파일을 매칭할 수 있다.
이후, 음성인식기능검증장치(10)는 프로젝트에 대해 매칭된 정상동작결과 파일을 저장할 수 있다(S4004).
이를 통해 프로젝트에 포함된 텍스트케이스가 순차적으로 수행되면서 각 텍스트케이스의 테스트결과가 정상동작결과와 동일한지 여부를 자동으로 검증되도록 할 수 있다.
이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.
구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.
뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.
도 2 내지 도 4 를 통해 설명된 실시예에 따른 음성인식기능검증방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다.예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.
또한 도 2 내지 도 4 를 통해 설명된 실시예에 따른 음성인식기능검증방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.
따라서 도 2 내지 도 4 를 통해 설명된 실시예에 따른 음성인식기능검증방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.
여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.
또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.
그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.
상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 명세서를 통해 보호 받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.
10: 음성인식기능검증장치
110: 입출력부
120: 제어부
130: 통신부
140: 메모리

Claims (15)

  1. 음성합성을 이용한 음성인식기능 검증 장치에 있어서,
    상기 음성인식기능의 검증에 이용되는 정보를 획득하는 입출력부;
    획득된 정보에 기초하여 상기 음성인식기능을 검증하는 테스트케이스를 생성하고, 생성된 테스트케이스에 따라 상기 음성인식기능을 검증하는 제어부를 포함하며,
    상기 제어부는,
    상기 입출력부를 통해 사용자로부터 수신한 텍스트 및 음성 옵션에 따라서 테스트음성을 생성하며,
    상기 입출력부에 포함된 스피커를 통해 출력되는 상기 음성인식기능을 검증하는 테스트음성을 상기 입출력부에 포함된 마이크를 통해 획득하고, 상기 획득된 테스트음성을 기초로 상기 음성인식기능을 검증하며,
    상기 음성 옵션은 음성을 발성하는 사람의 성별, 억양, 사투리 사용 여부 및 음성의 빠르기 중 적어도 하나를 포함하는, 음성인식기능검증장치.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 제어부는,
    상기 음성인식기능을 검증에 이용되는 정보로 텍스트를 획득하면, 획득된 텍스트를 이용하여 텍스트음성을 합성하는, 음성인식기능검증장치.
  4. 제 1 항에 있어서,
    상기 제어부는,
    상기 테스트케이스에 이용되는 정보로 음성을 획득하면, 획득된 음성에 기초하여 텍스트를 생성하는, 음성인식기능검증장치.
  5. 제 1 항에 있어서,
    상기 제어부는,
    상기 테스트케이스에서 검증하는 음성인식기능의 정상동작결과인 정상결과정보를 상기 테스트케이스에 매칭하는, 음성인식기능검증장치.
  6. 제 1 항에 있어서,
    상기 제어부는,
    상기 테스트케이스를 순차적으로 수행하되, 각 테스트케이스에 매칭된 정상결과정보에 기초하여 상기 음성인식기능의 테스트결과를 분석하는, 음성인식기능검증장치.
  7. 제 5 항에 있어서,
    상기 제어부는,
    분석된 테스트결과에 기초하여 상기 음성인식기능에 대한 검증결과를 제공하는, 음성인식기능검증장치.
  8. 음성인식기능검증장치가 음성합성을 이용한 음성인식기능 검증 방법에 있어서,
    상기 음성인식기능의 검증에 이용되는 정보를 획득하는 단계;
    획득된 정보에 기초하여 상기 음성인식기능을 검증하는 테스트케이스를 생성하는 단계; 및
    생성된 테스트케이스에 따라 상기 음성인식기능을 검증하는 단계를 포함하며,
    상기 음성인식기능을 검증하는 단계는,
    상기 음성인식기능검증장치의 스피커를 통해 출력되는 상기 음성인식기능을 검증하는 테스트음성을, 상기 음성인식기능검증장치의 마이크를 통해 획득하여 상기 음성인식기능을 검증하며,
    상기 테스트음성은, 상기 음성인식기능검증장치가 사용자로부터 수신한 텍스트 및 음성 옵션에 따라서 생성되며,
    상기 음성 옵션은 음성을 발성하는 사람의 성별, 억양, 사투리 사용 여부 및 음성의 빠르기 중 적어도 하나를 포함하는 것을 특징으로 하는, 음성인식기능검증방법.
  9. 삭제
  10. 제 8 항에 있어서,
    상기 정보를 획득하는 단계는,
    상기 음성인식기능을 검증에 이용되는 정보로 텍스트를 획득하면, 획득된 텍스트를 이용하여 텍스트음성을 합성하는 단계를 포함하는, 음성인식기능검증방법.
  11. 제 8 항에 있어서,
    상기 테스트케이스를 생성하는 단계는,
    상기 테스트케이스에서 테스트하는 음성인식기능의 정상동작결과인 정상결과정보를 상기 테스트케이스에 매칭하는 단계를 포함하는, 음성인식기능검증방법.
  12. 제 8 항에 있어서,
    상기 음성인식기능을 검증하는 단계는,
    상기 테스트케이스를 순차적으로 수행하되, 각 테스트케이스에 매칭된 정상결과정보에 기초하여 상기 음성인식기능의 테스트결과를 분석하는 단계를 포함하는, 음성인식기능검증방법.
  13. 제 12 항에 있어서,
    상기 음성인식기능검증방법은,
    분석된 테스트결과에 기초하여 상기 음성인식기능에 대한 검증결과를 제공하는 단계를 더 포함하는, 음성인식기능검증방법.
  14. 컴퓨터에 제 8 항에 기재된 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
  15. 음성인식기능검증장치에 의해 수행되며, 제 8 항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.
KR1020180130230A 2018-10-29 2018-10-29 음성합성을 이용한 음성인식기능 검증 방법 및 장치 KR102368193B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180130230A KR102368193B1 (ko) 2018-10-29 2018-10-29 음성합성을 이용한 음성인식기능 검증 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180130230A KR102368193B1 (ko) 2018-10-29 2018-10-29 음성합성을 이용한 음성인식기능 검증 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200049955A KR20200049955A (ko) 2020-05-11
KR102368193B1 true KR102368193B1 (ko) 2022-03-02

Family

ID=70729203

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180130230A KR102368193B1 (ko) 2018-10-29 2018-10-29 음성합성을 이용한 음성인식기능 검증 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102368193B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908298B (zh) * 2021-01-18 2022-12-09 杭州国芯科技股份有限公司 一种语音识别测试项目中自动转录和测试方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006505002A (ja) * 2002-11-02 2006-02-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識の方法およびシステム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010056804A (ko) * 1999-12-16 2001-07-04 서평원 음성인식 장치의 자동시험 장치 및 그 방법
KR20130029635A (ko) * 2011-09-15 2013-03-25 현대모비스 주식회사 음성인식 성능 평가 모듈 및 그 방법
KR101698029B1 (ko) * 2015-02-13 2017-01-20 어니컴 주식회사 스크립트를 이용한 자동 테스트 방법 및 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006505002A (ja) * 2002-11-02 2006-02-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識の方法およびシステム

Also Published As

Publication number Publication date
KR20200049955A (ko) 2020-05-11

Similar Documents

Publication Publication Date Title
Zhang et al. Comparing acoustic analyses of speech data collected remotely
US20190349641A1 (en) Content providing server, content providing terminal and content providing method
US10424288B2 (en) System and method for rendering textual messages using customized natural voice
US20200168217A1 (en) Assembled Voice Interaction
KR102356623B1 (ko) 가상 비서 전자 장치 및 그 제어 방법
KR101986307B1 (ko) 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
KR102615154B1 (ko) 전자 장치 및 전자 장치의 제어 방법
US20150331939A1 (en) Real-time audio dictionary updating system
KR20210092976A (ko) 배너 생성 장치 및 배너 생성 방법
KR102385899B1 (ko) 사용자 감정 파악에 따른 응답을 생성하는 시스템 및 방법
US20170155872A1 (en) Method and device for audio/video sharing
KR102368193B1 (ko) 음성합성을 이용한 음성인식기능 검증 방법 및 장치
US11893813B2 (en) Electronic device and control method therefor
KR102116395B1 (ko) 애플리케이션 테스트 방법 및 장치
JP7243106B2 (ja) 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
US11755182B2 (en) Electronic devices and methods for selecting and displaying audio content for real estate properties
KR102027560B1 (ko) 영상의 메타정보 설정 방법 및 장치
CN110245068A (zh) H5页面的自动化测试方法、装置及计算机设备
KR20200044179A (ko) 문자 인식 장치 및 방법
KR20180023864A (ko) 이미지 콘텐츠 생성 방법 및 장치
KR102622350B1 (ko) 전자 장치 및 그 제어 방법
KR102397887B1 (ko) 메시지 오전송 방지 방법 및 그를 수행하는 메신저 서비스 제공 장치
KR102176622B1 (ko) 음성 인식 장치 및 그것의 신뢰도 측정 방법
KR102048502B1 (ko) 외국어 학습을 위한 콘텐츠 생성 방법 및 콘텐츠 생성 장치
KR20220053456A (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant