KR20160122542A

KR20160122542A - 발음 유사도 측정 방법 및 장치

Info

Publication number: KR20160122542A
Application number: KR1020150052579A
Authority: KR
Inventors: 최재우; 김현수; 조경일; 정요원; 이강규; 문대영; 금명철; 김기곤; 변진영; 윤재선; 이항섭
Original assignee: 주식회사 셀바스에이아이
Priority date: 2015-04-14
Filing date: 2015-04-14
Publication date: 2016-10-24

Abstract

본 발명은 발음 유사도 측정 방법 및 장치에 관한 것으로서, 본 발명에 따른 유사도 측정 방법은 참고 음성 데이터에 대응하는 사용자 음성 데이터를 수신하는 단계, 참고 음성 데이터를 음성인식 알고리즘으로 처리하여 제1 음성처리 데이터를 생성하고, 사용자 음성 데이터를 음성인식 알고리즘으로 처리하여 제2 음성처리 데이터를 생성하는 단계, 제1 음성처리 데이터 및 제2 음성처리 데이터를 각각 학습 목표어 데이터와 비교하여 발음, 억양, 강세 및 속도 중 어느 하나 이상을 평가한 제1 유사도 및 제2 유사도를 산출하는 단계 및 제1 유사도와 제2 유사도를 비교하여, 참고 음성 데이터 및 사용자 음성 데이터의 최종 유사도를 측정하는 단계를 포함함으로써, 듣고 말하는 영어 학습에 있어서, 효율적으로 발음 학습 및 교정할 수 있는 발음 유사도 측정 방법 및 장치를 제공할 수 있는 효과가 있다.

Description

발음 유사도 측정 방법 및 장치{METHOD AND APPARATUS FOR MEASURING PRONOUNCIATION SIMILARITY}

본 발명은 발음 유사도 측정 방법 및 장치에 관한 것으로서, 보다 상세하게는 듣고 따라하는 외국어 학습 방법에 있어서, 사용자 음성의 발음을 선행되는 참고 음성의 발음과 비교하여 유사도를 평가할 수 있는 발음 유사도 측정 방법 및 장치에 관한 것이다.

세계화 추세에 따라 외국어 학습의 중요성이 강조되고, 특히, 영어 교육에 대한 관심이 증가하고 있다. 또한, 현대 사회에서는 실제 생활에서 의사소통을 중심으로 하는 영어 능력에 대한 관심이 높아지고 있고, 보다 효과적이고 정확한 영어 학습 방법 및 어학용 프로그램들에 대한 연구가 끊임없이 진행되고 있다.

한편, 음성인식 기술을 통한 영어 음성인식이 보급됨에 따라, 음성인식을 통한 영어 학습 방법이 보편화되고 있는데, 다만 현재 사용되는 음성인식 기술을 통한 영어 학습 방법은 인식하고자 하는 인식 대상 단어를 미리 결정한 다음, 결정된 인식 대상 단어를 사용자가 발성하면, 입력된 사용자의 음성이 미리 등록된 단어 중 어느 것에 가장 가까운지를 찾아내어 출력하도록 구성되며, 이러한 경과를 정오 또는 점수 형태로 나타내어, 사용자가 이 결과로 자신의 발음의 정확도 여부를 판단하게 된다.

이러한 방식의 영어 학습 방법은 사용자가 단순히 어학용 프로그램이 제공하는 텍스트를 보고 따라하는 경우에만 발음 점수가 제공되며, 사용자가 먼저 원어민들이 발성한 내용을 듣고 따라하거나 영화나 동영상 또는 노래와 같은 컨텐츠를 듣고 따라하는 경우에도 사용자가 귀로 들은 음성의 발음을 기준으로 발음 점수가 평가되지는 않는다는 한계가 있다.

또한, 이러한 음성인식 기술을 통한 영어 학습 방법은, 사람이 직접 인식 대상 단어를 등록하여 후보군을 만들어야만 하며, 어떤 발음이 더 적절한지 판단하기 위한 기준이 없다. 뿐만 아니라, 문장 또는 단어에 운율, 억양, 강세 및 리듬 등이 포함되는 경우, 사용자의 발음이 인식되지 못하거나, 잘못된 평가결과가 나오게 되는 문제점이 발생할 수 있다.

이에 따라, 선행되는 참고 음성을 듣고 사용자가 따라하는 학습 방법에 있어서, 미리 정해진 후보군과 비교하는 것이 아니라, 사용자가 들은 선행되는 참고 음성과 직접 비교하여 유사도를 측정할 수 있고, 선행되는 참고 음성에 포함된 운율, 억양, 강세 및 리듬 등과 비교가 가능한 발음 유사도를 측정할 수 있는 방법을 제공할 필요성이 증대되었다.

본 발명이 해결하고자 하는 과제는 듣고 말하는 영어 학습을 위해 음성인식 기술을 이용하여 선행되는 참고 음성과 사용자 음성 사이의 발음 유사도를 측정할 수 있는 발음 유사도 측정 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 다른 과제는 선행되는 참고 음성 및 사용자 음성에 포함된 발음, 억양, 강세 및 속도 등을 평가하여 발음 유사도를 측정할 수 있는 발음 유사도 측정 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 다른 과제는 효율적인 발음 학습 및 교정이 가능한 발음 유사도 측정 방법 및 장치를 제공하는 것이다.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 발음 유사도 측정 방법은 참고 음성 데이터에 대응하는 사용자 음성 데이터를 수신하는 단계, 참고 음성 데이터를 음성인식 알고리즘으로 처리하여 제1 음성처리 데이터를 생성하고, 사용자 음성 데이터를 음성인식 알고리즘으로 처리하여 제2 음성처리 데이터를 생성하는 단계, 제1 음성처리 데이터 및 제2 음성처리 데이터를 각각 학습 목표어 데이터와 비교하여 발음, 억양, 강세 및 속도 중 어느 하나 이상을 평가한 제1 유사도 및 제2 유사도를 산출하는 단계 및 제1 유사도와 제2 유사도를 비교하여, 참고 음성 데이터 및 사용자 음성 데이터의 최종 유사도를 측정하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 다른 특징에 따르면, 학습 목표어 데이터 및 학습 목표어 데이터에 대응하는 참고 음성 데이터를 수신하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 제1 유사도 및 제2 유사도를 산출하는 단계는 제1 음성처리 데이터 및 제2 음성처리 데이터를 음소 단위로 분할하여 학습 목표어 데이터와 비교하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 최종 유사도를 사용자에게 점수로 제공하는 단계를 더 포함하는 것을 특징으로 한다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 발음 유사도 측정 장치는 참고 음성 데이터에 대응하는 사용자 음성 데이터를 수신하는 수신부, 참고 음성 데이터를 음성인식 알고리즘으로 처리하여 제1 음성처리 데이터를 생성하고, 사용자 음성 데이터를 음성인식 알고리즘으로 처리하여 제2 음성처리 데이터를 생성하고, 제1 음성처리 데이터 및 제2 음성처리 데이터를 각각 학습 목표어 데이터와 비교하여 발음, 억양, 강세 및 속도 중 어느 하나 이상을 평가한 제1 유사도 및 제2 유사도를 산출하는 음성인식부, 및 제1 유사도와 제2 유사도를 비교하여, 참고 음성 데이터 및 사용자 음성 데이터의 최종 유사도를 측정하는 처리부를 포함하는 것을 특징으로 한다.

본 발명의 다른 특징에 따르면, 수신부는 학습 목표어 데이터 및 학습 목표어 데이터에 대응하는 참고 음성 데이터를 수신하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 음성인식부는 제1 음성처리 데이터 및 제2 음성처리 데이터를 음소 단위로 분할하여 학습 목표어 데이터와 비교하는 것을 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 최종 유사도를 사용자에게 점수로 제공하는 출력부 더 포함하는 것을 특징으로 한다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 발음 유사도 측정 방법을 제공하는 명령어들을 저장하는 컴퓨터 판독 가능한 기록 매체는 참고 음성 데이터에 대응하는 사용자 음성 데이터를 수신하고, 참고 음성 데이터를 음성인식 알고리즘으로 처리하여 제1 음성처리 데이터를 생성하고, 사용자 음성 데이터를 음성인식 알고리즘으로 처리하여 제2 음성처리 데이터를 생성하고, 제1 음성처리 데이터 및 제2 음성처리 데이터를 각각 학습 목표어 데이터와 비교하여 발음, 억양, 강세 및 속도 중 어느 하나 이상을 평가한 제1 유사도 및 제2 유사도를 산출하고, 제1 유사도와 제2 유사도를 비교하여, 참고 음성 데이터 및 사용자 음성 데이터의 최종 유사도를 측정하는 것을 특징으로 한다.

기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명은 듣고 말하는 영어 학습을 위해 음성인식 기술을 이용하여 선행되는 참고 음성과 사용자 음성 사이의 발음 유사도를 측정할 수 있는 효과가 있다.

본 발명은 선행되는 참고 음성 및 사용자 음성에 포함된 발음, 억양, 강세 및 속도 등을 평가하여 발음 유사도를 측정할 수 있는 효과가 있다.

본 발명은 듣고 말하는 영어 학습에 있어서, 효율적인 발음 학습 및 교정이 가능한 발음 유사도 측정 방법 및 장치를 제공할 수 있는 효과가 있다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른, 발음 유사도 측정 장치의 개략적인 구성도이다.
도 2는 본 발명의 일 실시예에 따른, 발음 유사도 측정 방법에 대한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 발음 유사도 측정 방법에 있어서, 제1 유사도, 제2 유사도 및 최종 유사도를 측정하는 방법을 예시적으로 도시한 것이다.
도 4는 본 발명의 일 실시예에 따른 발음 유사도 측정 방법에 의해 구현된 예시적인 화면을 도시한 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.

본 명세서에서 참고 음성 데이터란, 사용자가 듣고 따라하고자 하는 학습 대상인 선행되는 참고 음성을 포함하는 데이터를 의미한다. 참고 음성 데이터는 선행되는 참고 음성이 제공되는 형식과 대응하여 다양한 방식으로 입력될 수 있다. 예를 들어, 참고 음성 데이터는 원어민 (표준 발음 제공자) 과 같은 화자의 발성에 의해 제공되는 직접적인 참고 음성 데이터와, 영화나 노래와 같은 컨텐츠를 통해 제공되는 간접적인 참고 음성 데이터로 분류할 수 있다. 이때, 직접적인 참고 음성 데이터는 마이크나 녹음기로부터 인식되고, 간접적인 참고 음성 데이터는 동영상 어플리케이션 또는 음성 재생 어플리케이션 등을 통해 입력될 수 있다.

본 명세서에서 사용자 음성 데이터란, 참고 음성 데이터에 대응하는 사용자가 음성으로 입력하는 데이터이며, 사용자는 선행되는 참고 음성을 듣고 따라함으로써 선행되는 참고 음성의 발음 및 억양을 습득하게 된다. 사용자 음성 데이터는, 음성인식을 통해 다양한 어플리케이션에 입력될 수 있다. 사용자 음성 데이터는 음성인식을 통해 텍스트 형태의 데이터로 변환될 수 있다.

본 명세서에서 학습 목표어 데이터는 사용자가 듣고 따라하고자 하는 단어 또는 문장으로, 참고 음성 데이터와 대응되는 텍스트 형태의 데이터이며, 유사도 산출 시 기준이 되는 데이터이다. 학습 목표어 데이터는 참고 음성 데이터 또는 사용자 음성 데이터를 수신하기 위하여, 직접적으로 제공될 수도 있다. 예를 들어, 학습 목표어 데이터는 사용자가 사용하는 단말의 디스플레이부를 통해 표시될 수 있다. 또한, 사용자가 선행되는 참고 음성을 듣고 따라하는 경우, 직접적으로 사용자에게 표시되거나 전달되지 않을 수도 있다.

이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 발음 유사도 측정 장치에 대한 개략적인 구성도이다.

도 1을 참조하면, 발음 유사도 측정 장치 (100) 는 수신부 (110), 음성인식부 (120), 처리부 (130) 및 표시부 (140) 를 포함한다.

발음 유사도 측정 장치 (100) 는 수신부 (110) 로부터 참고 음성 데이터에 대응하는 사용자 음성 데이터를 수신하고, 음성인식 알고리즘으로 처리하여 각각 제1 음성처리 데이터 및 제2 음성처리 데이터를 생성한다. 이후, 발음 유사도 측정 장치 (100) 는 제1 음성처리 데이터 및 제2 음성처리 데이터를 학습 목표어 데이터와 비교하여 발음, 억양, 강세 및 속도 중 어느 하나 이상을 평가한 제1 유사도 및 제2 유사도를 산출하고, 제1 유사도 및 제2 유사도 사이의 비교를 통하여, 참고 음성 데이터 및 사용자 음성 데이터 사이의 최종 유사도를 제공한다.

발음 유사도 측정 장치 (100) 는 독립적으로 사용될 수도 있고, 다양한 어플리케이션과 연계되어 실행될 수도 있다. 발음 유사도 측정 장치 (100) 와 연계될 수 있는 어플리케이션은 녹음기 어플리케이션, 음성 재생 어플리케이션, 동영상 재생 어플리케이션 등을 포함한다. 또한, 발음 유사도 측정 장치 (100) 는 영어 학습 어플리케이션에 내장되거나 연결되어 실행될 수 있다.

수신부 (110) 는 발음 유사도 측정 장치 (100) 에서 음성인식이 가능하도록 사용자 음성 데이터를 수신한다. 수신부 (110) 는 사용자 음성 데이터를 입력 받는 외부의 입력부와 연결될 수 있다. 예를 들어, 입력부는 사용자의 음성을 직접 수신하는 마이크 또는 사용자의 음성을 녹음하여 전송하는 녹음기를 포함할 수 있다. 이에 따라, 사용자 음성 데이터는 마이크를 통해 수신된 사용자의 음성이거나, 녹음된 사용자의 음성을 포함한다.

한편, 수신부 (110) 는 학습 목표어 데이터 및 학습 목표어 데이터에 대응하는 참고 음성 데이터를 더 수신할 수 있다. 수신부 (110) 는 발음 유사도 측정 장치 (100) 내부의 데이터베이스에 저장된 학습 목표어 데이터 및 참고 음성 데이터를 수신할 수 있으며, 별도의 입력부와 연결되어 외부로부터 학습 목표어 데이터 및 참고 음성 데이터를 수신할 수도 있다. 학습 대상인 참고 음성은, 다양한 형식으로 사용자에게 제공될 수 있다. 예를 들어, 참고 음성은 원어민과 같은 화자의 발성에 의해 제공되는 형식과, 영화나 노래와 같은 컨텐츠를 통해 제공되는 형식이 있을 수 있다. 따라서, 참고 음성 데이터가 원어민으로부터 직접 입력되는 경우, 마이크 또는 원어민의 음성을 녹음하여 전송하는 녹음기를 이용할 수 있다. 또한, 참고 음성 데이터가 동영상 또는 노래와 같은 컨텐츠 내의 음성으로부터 별도로 입력되는 경우, 동영상 편집 어플리케이션 또는 음성 편집 어플리케이션을 이용할 수 있다.

음성인식부 (120) 는 참고 음성 데이터와 수신부 (110) 를 통해 수신된 사용자 음성 데이터를 기초로 음성인식 알고리즘을 이용하여 각각 제1 음성처리 데이터 및 제2 음성처리 데이터를 생성한다. 제1 음성처리 데이터 및 제2 음성처리 데이터는 참고 음성 및 사용자 음성을 텍스트로 변환한 데이터로서, 제1 음성처리 데이터 및 제2 음성처리 데이터를 이용하여 참고 음성 데이터와 사용자 음성 데이터 사이의의 유사도를 측정할 수 있다.

음성인식 알고리즘은 기본적으로 참고 음성 및 사용자가 발성한 음성을 전자장치가 해석해 그 내용을 텍스트로 인식하는 작업을 의미한다. 이로써 제한되는 것은 아니나, 참고 음성 및 사용자 음성의 파형이 전자장치에 입력되면, 음향 모델 등을 참조하여 음성파형을 분석함으로써, 음성패턴 정보가 획득될 수 있다. 그리고, 획득된 음성패턴 정보가 식별정보와 비교됨으로써, 식별정보에서 일치 확률이 가장 높은 텍스트가 인식될 수 있다.

또한, 음성인식부 (120) 는 생성된 제1 음성처리 데이터 및 제2 음성처리 데이터를 학습 목표어 데이터와 비교하여 발음, 억양, 강세 및 속도 중 어느 하나 이상을 평가한 유사도를 각각 산출한다. 음성인식부 (120) 는 보다 정확한 유사도 측정을 위하여 제1 음성처리 데이터 및 제2 음성처리 데이터를 학습 목표어 데이터와 하나의 음절을 최소 단위로 분할하여 측정할 수 있고, 어절 또는 음소 단위를 기준으로 측정할 수도 있다.

처리부 (130) 는 음성인식부 (120) 에서 산출된 1 유사도와 제2 유사도를 비교하여, 참고 음성 데이터와 사용자 음성 데이터의 최종 유사도를 측정한다. 측정된 최종 유사도는 숫자, 문자, 기호 등의 형태로 저장될 수 있다.

표시부 (140) 는 처리부 (130) 로부터 참고 음성 데이터와 사용자 음성 데이터의 최종 유사도를 수신하여 사용자에게 점수로 제공한다. 또한, 표시부 (140) 는 최종 유사도와 함께 학습 목표 데이터, 참고 음성 데이터 및 사용자 음성 데이터 중 하나 이상을 표시할 수 있다.

도 1에는 설명의 편의를 위해, 수신부 (110), 음성인식부 (120), 처리부 (130) 및 표시부 (140) 가 별도의 구성으로 도시되었으나, 발명의 구현에 있어 해당 구성들은 상호 결합 또는 분리되어 구현될 수 있다. 또한, 각종 어플리케이션의 일부로 구성될 수도 있다.

도 2는 본 발명의 일 실시예에 따른 발음 유사도 측정 방법을 설명하기 위한 순서도이다. 설명의 편의를 위해 도 1을 참조하여 설명한다.

본 발명에 따른 발음 유사도 측정 방법은 수신부 (110) 가 참고 음성 데이터와 대응하는 사용자 음성 데이터를 수신함으로써 개시된다 (S110).

수신부 (110) 는 참고 음성 데이터와 대응하는 사용자 음성 데이터를 수신한다. 사용자 음성 데이터는 사용자의 음성을 포함하며, 수신부 (110) 에서 수신하는 음성의 종류에 따라 다양한 형태를 가질 수 있다. 구체적으로, 사용자는 참고 음성을 듣고 따라함으로써, 발음 유사도 측정 장치 (100) 에 사용자 음성 데이터를 입력하게 된다.

한편, 수신부 (110) 는 학습 목표어 데이터 및/또는 학습 목표어 데이터와 대응하는 참고 음성 데이터를 수신하는 단계를 더 포함할 수 있다. 학습 목표어 데이터 및 참고 음성 데이터가 발음 유사도 측정 장치 (100) 내부의 데이터베이스에 저장에 되어 있는 경우, 외부로부터 별도로 수신하는 과정이 생략될 수 있으나, 학습 목표어 데이터 및 참고 음성 데이터를 다른 장치 또는 어플리케이션으로부터 수신하는 경우, 수신부 (110) 를 통하여 직접적으로 수신할 수도 있다.

예를 들어, 수신부 (110) 는 다른 어플리케이션로부터 학습 목표어 데이터를 제공받게 되는 경우, 다른 어플리케이션에 저장되어 있는 학습 목표어 데이터를 수신할 수 있다. 또한, 사용자가 동영상 또는 노래와 같은 컨텐츠 형식의 음성을 듣고 따라하는 경우, 동영상의 자막이나 노래의 가사로부터 학습 목표어 데이터를 수신할 수도 있다. 이때, 수신부 (110) 는 원어민 등 화자의 음성을 마이크 또는 녹음기로부터 직접 수신할 수 있고, 동영상 또는 노래에 포함된 음성을 별도의 어플리케이션이나 알고리즘을 통해 수신할 수도 있다.

수신부 (110) 는 수신한 사용자 음성 데이터 또는 학습 목표어 데이터, 참고 음성 데이터 및 사용자 음성데이터를 음성인식부 (120) 로 전송한다.

음성인식부 (120) 는 참고 음성 데이터를 음성인식 알고리즘으로 처리하여 제1 음성처리 데이터를 생성하고, 사용자 음성 데이터를 음성인식 알고리즘으로 처리하여 제2 음성처리 데이터를 생성한다 (S120).

음성인식 알고리즘은 기본적으로 원어민 또는 사용자가 발성한 음성 및 각종 컨텐츠로부터 수신한 음성을 발음 유사도 측정 장치 (100) 가 해석해 그 내용을 텍스트로 변환하는 작업을 의미한다. 사용자 음성을 예로 들면, 사용자가 발성한 음성의 파형이 수신부 (110) 에 입력되고, 발음 유사도 측정 장치 (100) 에 저장되어 있는 음향 모델 등을 참조하여 음성 파형을 분석함으로써, 음성패턴 정보가 획득될 수 있다. 그리고, 획득된 음성패턴 정보가 식별정보와 비교됨으로써, 식별정보에서 일치 확률이 가장 높은 텍스트가 인식될 수 있다. 식별정보는 발음 유사도 측정 장치 (100) 에 저장되어 있는 음향 모델에 따라 대표적인 음성에 대응하는 텍스트를 저장한 정보이다.

제1 음성처리 데이터 및 제2 음성처리 데이터는 음성인식 알고리즘에 의해 매칭된 단어들을 결합하여 각각 수신된 참고 음성 데이터 및 사용자 음성 데이터에 대응되는 문장으로 이루어 질 수 있다. 제1 음성처리 데이터 및 제2 음성처리 데이터는 학습 목표어 데이터와 비교하기 위해 음성인식부 (120) 에 임시로 저장될 수 있다.

음성인식부 (120) 는 제1 음성처리 데이터 및 제2 음성처리 데이터를 각각 학습 목표어 데이터와 비교하여 발음, 억양, 강세 및 속도 중 어느 하나 이상을 평가한 제1 유사도 및 제2 유사도를 산출한다 (S130).

제1 유사도 및 제2 유사도는 제1 음성처리 데이터 및 제2 음성처리 데이터와 학습 목표어 데이터 사이의 유사한 정도를 나타낸 것으로서, 음성인식부 (120) 에서 제1 음성처리 데이터 및 제2 음성처리 데이터를 각각 학습 목표어 데이터와 비교한 결과이다.

제1 음성처리 데이터, 제2 음성처리 데이터 및 학습 목표어 데이터는 텍스트 형식의 데이터인바, 음성처리 데이터와 학습 목표어 데이터 사이의 비교는 텍스트 수준에서 직접 비교함으로써 수행될 수 있다. 유사도를 산출함에 있어서는 기본적으로 하나의 음절을 최소 단위로 하여 측정할 수 있으며, 참고 음성의 종류에 따라 일정시간 간격을 기준으로 분할하여 측정하거나 어절 또는 음소를 기준으로 측정할 수도 있다.

종래의 음성인식 방법에서는 참고 음성 또는 사용자 음성에 강세, 리듬, 억양 등의 운율이 포함되어 있는 경우, 매칭되는 음향 모델 또는 식별 정보가 존재하지 않아 음성 자체가 인식되지 않거나, 잘못된 평가 결과가 발생하였다. 그러나, 음성처리 데이터와 학습 목표어 데이터를 음소 단위로 분할하여 비교하는 경우, 매칭되는 음향 모델 또는 실별 정보가 존재하지 않거나 운율이 포함된 음성이라 할지라도, 음성처리 데이터와 학습 목표어 데이터는 각각 음소 단위 별로 음성인식 된다. 따라서 음성인식된 음소 단위의 텍스트를 각각 비교함으로써, 참고 음성과 사용자 음성을 비교할 수 있게 된다. 또한, 사용자가 영어 단어를 발음하는데 범하는 오류에는 음소 단위로 일정한 규칙이 존재할 수 있는바, 음소 단위로 발음이 유사한 단어들을 정리하여 데이터베이스를 구축한 다음 음소 단위로 비교하는 방법이 보다 바람직하다.

제1 유사도 및 제2 유사도는 음성처리 데이터와 학습 목표어 데이터 간에 발음, 억양, 강세 및 속도 중 어느 하나 이상을 평가하여 산출된다. 이때, 발음, 억양, 강세 및 속도는 음성처리 데이터가 음소 단위로 분할됨으로써 비교될 수 있으며, 각각의 음소 단위에 대하여 조음 위치, 조음 방법, 성대 진동 유무, 모음 삼각도, 모음 사각도, 음성의 피치를 분석 및 비교하는 방법 등을 통해 제1 유사도 및 제2 유사도를 산출 할 수 있다.

산출된 제1 유사도 및 제2 유사도는 수치화되어 음성인식부 (120) 에 임의로 저장할 수 있다.

처리부 (130) 는 제1 유사도와 제2 유사도를 비교하여, 참고 음성 데이터 및 사용자 음성 데이터의 최종 유사도를 측정한다 (S140).

최종 유사도는 참고 음성 데이터와 사용자 음성 데이터 사이의 유사한 정도를 나타낸 것으로, 참고 음성의 발음과 사용자 음성의 발음의 유사한 정도를 의미한다. 최종 유사도는 음성인식부 (120) 에서 산출한 제1 유사도 및 제2 유사도를 비교하여 측정하며, 이는 참고 음성 데이터와 사용자 음성 데이터의 유사한 정도를 학습 목표어 데이터를 매개로하여 간접적으로 평가한 것을 의미한다. 구체적으로, 최종 유사도는 제1 유사도와 제2 유사도의 차와 반비례하다.

측정된 최종 유사도는 숫자, 문자, 기호 등으로 표현될 수 있다. 예를 들어, 최종 유사도는 '0' 내지 '10' 사이의 숫자로 표시될 수 있다. 이때, 숫자는 커질수록 참고 음성과 사용자 음성이 서로 유사하다는 것을 의미한다. 최종 유사도는 하기 수학식 1과 같이 '10' 만점에 제1 유사도 및 제2 유사도의 차이를 감산함으로써 얻어질 수 있다.

[수학식 1]

최종 유사도 = 10 - ( |제2 유사도 - 제1 유사도| )

최종 유사도를 측정하는 방법 및 숫자로 표현된 최종 유사도에 관하여는 도 3을 참조하여 추가적으로 설명한다.

본 발명의 발음 유사도 측정 방법은 표시부 (140) 가 최종 유사도를 사용자에게 점수로 제공하는 단계를 더 포함할 수 있다. 이때, 표시부 (140) 는 최종 유사도와 함께 학습 목표 데이터, 참고 음성 데이터 및 사용자 음성 데이터 중 하나 이상을 다양한 형태로 표시할 수 있다. 또한, 표시부 (140) 는 사용자의 학습 효율을 향상시키기 위하여, 제1 유사도, 제2 유사도 및 최종 유사도를 기초로 학습 결과를 분석하여 사용자에게 피드백 자료를 제공할 수 있다.

도 3은 본 발명의 일 실시예에 따른 발음 유사도 측정 방법에 있어서, 제1 유사도, 제2 유사도 및 최종 유사도를 측정하는 방법을 예시적으로 도시한 것이다.

도 3을 참조하면, 발음 유사도 측정 장치에 수신된 학습 목표어 데이터 (210) 는 "it's back up it's back up Oh" 로 예시된다. 이후, 학습 목표어 데이터 (210) 에 대응되는 원어민의 참고 음성은 수신부에 의하여 발음 유사도 측정 장치로 수신되고, 음성인식 알고리즘으로 처리되어 제1 음성처리 데이터 (220) 를 생성한다. 이때, 제1 음성처리 데이터 (220) 는 "eats vac up it's bat up Oh" 로 예시된다. 한편, 사용자는 원어민의 참고 음성을 듣고 따라하게 되고, 음성인식 알고리즘으로 처리되어 제2 음성처리 데이터 (240) 를 생성한다. 이때, 제2 음성처리 데이터 (240) 는 "it's back up it's beg up O" 로 생성된다. 제1 음성처리 데이터 (220) 및 제2 음성처리 데이터 (240) 는 각각 학습 목표어 데이터 (210) 와 텍스트 수준에서 비교되어 제1 유사도 (230) 및 제2 유사도 (250) 가 산출된다. 제1 유사도 (230) 및 제2 유사도 (250) 는 음절 단위로 구분되어 '0' 내지 '10' 사이의 숫자로 표시될 수 있다. 이때, 숫자는 커질수록 음성처리 데이터와 학습 목표어 데이터가 서로 유사하다는 것을 의미할 수 있다. 최종 유사도 (260) 는 제1 유사도 (230) 및 제2 유사도 (250) 를 비교하여 측정된다. 도 3의 최종 유사도 (260) 는 '10'만점에 제1 유사도 (230) 및 제2 유사도 (250) 의 차이를 감산함으로써 얻어질 수 있다.

도 3에서 학습 목표어 데이터 (210) 중 'back'의 경우, 참고 음성 데이터 (320) 은 'vac' 이므로 첫 음소가 'b'와 'v'로 상이하여 제1 유사도 (330) 점수가 '10' 만점에 '7'표시될 수 있다. 이에 반하여, 사용자 음성 데이터 (340) 는 'back' 이므로 학습 목표어 데이터 (210) 와 동일한 텍스트로 인식되었으므로, 제 2 유사도 (350) 점수가 '10'으로 표시될 수 있다. 즉, 원어민이 발성한 참고 음성 보다 사용자가 발성한 사용자 음성이 기준 텍스트인 학습 목표어와 보다 더 유사함을 알 수 있다. 그러나, 듣고 따라하는 학습에 있어서, 사용자 음성의 발음은 참고 음성의 발음과 비교하는 것이 주된 목적이므로, 참고 음성 데이터 (320) 'vac'과 사용자 음성 데이터 (340) 'back'을 비교하면, 차이를 확인할 수 있다. 이로써, 최종 유사도 (360) 점수는 만점인 '10'에서 제1 유사도 (330) 점수와 제2 유사도 (350) 점수의 차인 '3'을 감산한 '7'로 표시될 수 있다.

도 4는 본 발명의 일 실시예에 따른 발음 유사도 측정 방법에 의해 구현된 예시적인 화면을 도시한 것이다.

도 4를 참조하면, 발음 유사도 측정창 (300) 은 목표 학습어 표시부 (310), 참고 음성 표시부 (320), 사용자 음성 표시부 (330), 최종 유사도 표시부 (340) 및 학습 평가 표시부 (350) 를 포함할 수 있다.

학습어 표시부 (310) 는 사용자가 듣고 따라하고자 하는 단어 또는 문장을 표시하는 영역으로, 학습어 표시부 (310) 에는 데이터베이스에 저장된 단어 또는 문장이 표시될 수 있고, 동영상의 자막 또는 노래의 가사와 같이 외부 콘텐츠로부터 수신한 단어 또는 문장이 표시될 수 있다.

참고 음성 표시부 (320) 는 참고 음성 데이터를 표시하는 영역으로, 음성을 표현한 그래프 또는 도형과 같이 다양한 방법으로 형상화하여 표시할 수 있다. 또한, 사용자 음성 표시부 (330) 는 사용자 음성 데이터를 표시하는 영역으로, 참고 음성 표시부 (320) 와 대응하여 동일한 방법으로 사용자 음성 데이터를 형상화하여 표시할 수 있다. 도 4에서는 참고 음성 및 사용자 음성의 피치 곡선이 표시되었다.

최종 유사도 표시부 (340) 는 본 발명의 발음 유사도 측정 방법에 의해 측정된 최종 유사도를 표시한 영역으로, 숫자 또는 기호를 이용하여 점수화하여 사용자에게 제공할 수 있다. 예를 들어, 최종 유사도 표시부 (340) 는 최종 유사도를 '0' 내지 '10' 사이의 숫자로 표시할 수 있고, 미리 정해진 기준에 따라 'A', 'B' 및 'C'와 같이 기호로 표시할 수 있다.

학습 평가 표시부 (350) 는 최종 유사도에 기초하여, 사용자에게 학습에 필요한 사항을 피드백하여 제공해주는 영역으로, 데이터 베이스에 저장된 유형에 따라 발음, 억양, 강세 및 속도와 같은 세부 내용을 제공할 수 있다.

본 명세서에서, 각 블록 또는 각 단계는 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 발음 유사도 측정 장치
110 수신부
120 음성인식부
130 처리부
140 표시부
210 학습 목표어 데이터
220 제1 음성처리 데이터
230 제1 유사도
240 제2 음성처리 데이터
250 제2 유사도
260 최종 유사도
300 유사도 측정창
310 목표 학습어 표시부
320 참고 음성 표시부
330 사용자 음성 표시부
340 최종 유사도 표시부
350 학습 평가 표시부

Claims

참고 음성 데이터에 대응하는 사용자 음성 데이터를 수신하는 단계;
상기 참고 음성 데이터를 음성인식 알고리즘으로 처리하여 제1 음성처리 데이터를 생성하고, 상기 사용자 음성 데이터를 음성인식 알고리즘으로 처리하여 제2 음성처리 데이터를 생성하는 단계;
상기 제1 음성처리 데이터 및 상기 제2 음성처리 데이터를 각각 학습 목표어 데이터와 비교하여 발음, 억양, 강세 및 속도 중 어느 하나 이상을 평가한 제1 유사도 및 제2 유사도를 산출하는 단계; 및
상기 제1 유사도와 상기 제2 유사도를 비교하여, 상기 참고 음성 데이터 및 상기 사용자 음성 데이터의 최종 유사도를 측정하는 단계를 포함하는 것을 특징으로 하는, 발음 유사도 측정 방법.
제 1 항에 있어서,
학습 목표어 데이터 및 상기 학습 목표어 데이터에 대응하는 참고 음성 데이터를 수신하는 단계를 더 포함하는 것을 특징으로 하는, 발음 유사도 측정 방법.
제 1 항에 있어서,
상기 제1 유사도 및 제2 유사도를 산출하는 단계는 상기 제1 음성처리 데이터 및 상기 제2 음성처리 데이터를 음소 단위로 분할하여 상기 학습 목표어 데이터와 비교하는 것을 특징으로 하는, 발음 유사도 측정 방법.
제 1 항에 있어서,
상기 최종 유사도를 사용자에게 점수로 제공하는 단계를 더 포함하는 것을 특징으로 하는, 발음 유사도 측정 방법.
참고 음성 데이터에 대응하는 사용자 음성 데이터를 수신하는 수신부;
상기 참고 음성 데이터를 음성인식 알고리즘으로 처리하여 제1 음성처리 데이터를 생성하고, 상기 사용자 음성 데이터를 음성인식 알고리즘으로 처리하여 제2 음성처리 데이터를 생성하고, 상기 제1 음성처리 데이터 및 상기 제2 음성처리 데이터를 각각 학습 목표어 데이터와 비교하여 발음, 억양, 강세 및 속도 중 어느 하나 이상을 평가한 제1 유사도 및 제2 유사도를 산출하는 음성인식부; 및
상기 제1 유사도와 상기 제2 유사도를 비교하여, 상기 참고 음성 데이터 및 상기 사용자 음성 데이터의 최종 유사도를 측정하는 처리부를 포함하는 것을 특징으로 하는, 발음 유사도 측정 장치.
제 5 항에 있어서,
상기 수신부는 학습 목표어 데이터 및 상기 학습 목표어 데이터에 대응하는 참고 음성 데이터를 수신하는 것을 특징으로 하는, 발음 유사도 측정 장치.
제 5 항에 있어서,
상기 음성인식부는 상기 제1 음성처리 데이터 및 상기 제2 음성처리 데이터를 음소 단위로 분할하여 상기 학습 목표어 데이터와 비교하는 것을 포함하는 것을 특징으로 하는, 발음 유사도 측정 장치.
제 5 항에 있어서,
상기 최종 유사도를 사용자에게 점수로 제공하는 출력부 더 포함하는 것을 특징으로 하는, 발음 유사도 측정 장치.
참고 음성 데이터에 대응하는 사용자 음성 데이터를 수신하고,
상기 참고 음성 데이터를 음성인식 알고리즘으로 처리하여 제1 음성처리 데이터를 생성하고, 상기 사용자 음성 데이터를 음성인식 알고리즘으로 처리하여 제2 음성처리 데이터를 생성하고,
상기 제1 음성처리 데이터 및 상기 제2 음성처리 데이터를 각각 학습 목표어 데이터와 비교하여 발음, 억양, 강세 및 속도 중 어느 하나 이상을 평가한 제1 유사도 및 제2 유사도를 산출하고,
상기 제1 유사도와 상기 제2 유사도를 비교하여, 상기 참고 음성 데이터 및 상기 사용자 음성 데이터의 최종 유사도를 측정하는 것을 특징으로 하는, 발음 유사도 측정 방법을 제공하는 명령어들을 저장하는 컴퓨터 판독 가능 매체.