KR101373053B1 - 문장 번역 장치 및 그 방법 - Google Patents

문장 번역 장치 및 그 방법 Download PDF

Info

Publication number
KR101373053B1
KR101373053B1 KR1020100064857A KR20100064857A KR101373053B1 KR 101373053 B1 KR101373053 B1 KR 101373053B1 KR 1020100064857 A KR1020100064857 A KR 1020100064857A KR 20100064857 A KR20100064857 A KR 20100064857A KR 101373053 B1 KR101373053 B1 KR 101373053B1
Authority
KR
South Korea
Prior art keywords
sentence
speech
information
language
morpheme
Prior art date
Application number
KR1020100064857A
Other languages
English (en)
Other versions
KR20120004151A (ko
Inventor
김정세
김상훈
윤승
이수종
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100064857A priority Critical patent/KR101373053B1/ko
Priority to US13/176,629 priority patent/US20120010873A1/en
Publication of KR20120004151A publication Critical patent/KR20120004151A/ko
Application granted granted Critical
Publication of KR101373053B1 publication Critical patent/KR101373053B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 문장 번역 장치 및 그 방법에 관한 것으로, 제1 언어의 음성에 대한 음성 인식 결과에 근거하여 제1 언어의 문장을 생성하는 음성 인식부, 제1 언어의 문장으로부터 형태소 품사를 태깅하는 형태소 품사 태깅부, 제1 언어의 음성으로부터 퍼즈(pause) 정보를 추출하는 퍼즈 추출부, 및 형태소 품사 태깅부에 의해 태깅된 형태소 품사 정보와 퍼즈 추출부에 의해 추출된 퍼즈 정보에 근거하여 제1 언어의 문장에 대해 문장 분리하는 문장 분리부를 포함한다. 본 발명에 따르면, 문장 번역을 위해 문장을 분리하는데 있어서 형태소 정보뿐만 아니라 음성에 대한 퍼즈(pause) 정보를 활용함으로써 보다 정확한 문장 분리가 가능한 이점이 있다.

Description

문장 번역 장치 및 그 방법{Apparatus for sentence translation and method thereof}
본 발명은 문장 번역 장치 및 그 방법에 관한 것으로, 특히 음성 내의 pause 정보와 미리 추출된 분리 가능한 형태소 품사 순서 정보를 조합하여 문장을 분리하게 하는 문장 번역 장치 및 그 방법에 관한 것이다.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-02, 과제명: 휴대형 한/영 자동통역 기술개발].
종래의 기계 번역 시스템에서는 음성이 입력되면, 입력된 음성을 문장으로 변환하여 변환된 문장을 번역하였다. 이때, 번역의 정확도를 높이기 위해 문장 분리 과정을 거쳐, 분리된 문장을 번역하였다.
하지만, 문장을 분리하는데 오류가 발생함에 따라 번역의 정확도가 떨어지는 문제를 보완하기 위해, 문장을 분리하기 전에 형태소 분석 및 품사 태깅 과정을 거쳐 문장을 분리하였다. 이 경우, 형태소 분석 및 품사 태깅을 통해 문장 범위를 인식하는 것이 용이해졌다.
또한, 음성 인식 결과의 문장이 길어짐에 따라 번역의 정확도가 떨어지는 현상을 개선하기 위해, 입력 문장을 2개 이상의 짧은 문장으로 분할하기도 하였다.
본 발명의 목적은, 자동통역에서 기계번역을 할 경우 음성의 퍼즈 정보와 형태소 품사 정보를 이용하여 문장을 분리함으로써, 음성인식 결과가 길어짐에 따라 번역의 정확도가 떨어지는 현상을 개선하도록 하는 문장 번역 장치 및 그 방법을 제공함에 있다.
또한, 본 발명의 다른 목적은, 형태소 품사 태깅 결과에서 오류가 발생 시 음성의 퍼즈 정보를 이용하여 오류를 보완하도록 하는 문장 번역 장치 및 그 방법을 제공함에 있다.
상기의 목적을 달성하기 위한 본 발명에 따른 문장 번역 장치는, 제1 언어의 음성에 대한 음성 인식 결과에 근거하여 제1 언어의 문장을 생성하는 음성 인식부, 상기 제1 언어의 문장으로부터 형태소 품사를 태깅하는 형태소 품사 태깅부, 상기 제1 언어의 음성으로부터 퍼즈(pause) 정보를 추출하는 퍼즈 추출부, 및 상기 형태소 품사 태깅부에 의해 태깅된 상기 형태소 품사의 순서정보와 상기 퍼즈 추출부에 의해 추출된 상기 퍼즈 정보에 근거하여 상기 제1 언어의 문장에 대해 문장 분리하는 문장 분리부를 포함하는 것을 특징으로 한다.
이때, 상기 문장 분리부는 추출된 상기 퍼즈 정보 중 길이 정보가 임계치 이상인 경우에, 추출된 상기 퍼즈 정보를 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 한다.
또한, 상기 문장 분리부는 태깅된 상기 형태소 품사가 분리 가능한 형태소 품사인 경우에, 태깅된 상기 형태소 품사의 순서 정보를 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 한다.
한편, 본 발명에 따른 문장 번역 장치는, 문장 분리 가능한 형태소 품사 정보 및 해당 형태소 품사들의 순서 정보가 등록된 문장 분리 형태소 품사 정보 DB를 더 포함한다. 이때, 상기 문장 분리부는 상기 문장 분리 형태소 품사 정보 DB로부터 태깅된 상기 형태소 품사에 대응하는 순서 정보를 추출하는 것을 특징으로 한다.
또한, 상기 문장 분리 형태소 품사 정보 DB는 형태소 품사 태깅 정보 DB, 용언 복원 정보 DB, 및 접속 패턴 정보 DB 중 적어도 하나를 포함하는 것을 특징으로 한다.
여기서, 상기 문장 분리부는 태깅된 상기 형태소 품사를 분리할 수 없는 경우, 상기 용언 복원 정보 DB에 등록된 정보에 근거하여 태깅된 상기 형태소 품사의 용언을 복원한 후에 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 한다.
또한, 상기 문장 분리부는 태깅된 상기 형태소 품사를 분리할 수 없는 경우, 상기 접속 패턴 정보 DB에 등록된 정보에 근거하여 태깅된 상기 형태소 품사의 접속 패턴을 복원한 후에 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 한다.
한편, 상기의 목적을 달성하기 위한 문장 번역 방법은, 제1 언어의 음성에 대한 음성 인식 결과에 근거하여 제1 언어의 문장을 생성하는 단계, 상기 제1 언어의 문장으로부터 형태소 품사를 태깅하는 단계, 상기 제1 언어의 음성으로부터 퍼즈(pause) 정보를 추출하는 단계, 및 상기 형태소 품사 태깅부에 의해 태깅된 상기 형태소 품사의 순서정보와 상기 퍼즈 추출부에 의해 추출된 상기 퍼즈 정보에 근거하여 상기 제1 언어의 문장에 대해 문장 분리하는 단계를 포함하는 것을 특징으로 한다.
이때, 상기 문장 분리하는 단계는 추출된 상기 퍼즈 정보 중 길이 정보가 임계치 이상인 경우에, 추출된 상기 퍼즈 정보를 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 한다.
또한, 상기 문장 분리하는 단계는 태깅된 상기 형태소 품사가 분리 가능한 형태소 품사인 경우에, 태깅된 상기 형태소 품사의 순서 정보를 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 한다.
또한, 상기 문장 분리하는 단계는, 문장 분리 가능한 형태소 품사 정보 및 해당 형태소 품사들의 순서 정보가 등록된 문장 분리 형태소 품사 정보 DB로부터 태깅된 상기 형태소 품사에 대응하는 순서 정보를 추출하는 단계를 포함하는 것을 특징으로 한다.
여기서, 상기 문장 분리 형태소 품사 정보 DB는, 형태소 품사 태깅 정보 DB, 용언 복원 정보 DB, 및 접속 패턴 정보 DB 중 적어도 하나를 포함하는 것을 특징으로 한다.
또한, 상기 문장 분리하는 단계는, 태깅된 상기 형태소 품사를 분리할 수 없는 경우, 상기 용언 복원 정보 DB에 등록된 정보에 근거하여 태깅된 상기 형태소 품사에 대해 용언 복원하는 단계를 포함한다. 이때, 상기 문장 분리하는 단계는 상기 용언 복원된 상기 형태소 품사를 상기 제1 언어의 문장에 대한 문장 분리에 적용한다.
또한, 상기 문장 분리하는 단계는 태깅된 상기 형태소 품사를 분리할 수 없는 경우, 상기 접속 패턴 정보 DB에 등록된 정보에 근거하여 태깅된 상기 형태소 품사에 대해 접속 패턴 복원하는 단계를 더 포함한다. 이때, 상기 문장 분리하는 단계는 상기 접속 패턴 복원된 상기 형태소 품사를 상기 제1 언어의 문장에 대한 문장 분리에 적용한다.
본 발명에 따르면, 문장 번역을 위해 문장을 분리하는데 있어서 형태소 정보뿐만 아니라 음성에 대한 퍼즈(pause) 정보를 활용함으로써 형태소를 이용한 문장 분리에 오류가 발생하더라도 퍼즈(pause) 정보로 오류를 보완하여 보다 정확한 문장 분리가 가능한 이점이 있다.
또한, 정확한 문장 분리로 인해 기계 번역을 함에 있어서 정확도가 증대되는 효과가 있다.
도 1 은 본 발명에 따른 문장 번역 장치의 구성을 도시한 블록도이다.
도 2 는 본 발명에 따른 문장 분리 형태소 품사 정보 DB의 구성을 도시한 블록도이다.
도 3 은 본 발명에 따른 문장 번역 방법의 전체 흐름을 도시한 순서도이다.
도 4 는 본 발명의 형태소 품사 태깅 과정에 대한 세부 흐름을 도시한 순서도이다.
도 5 는 본 발명의 퍼즈 정보 추출 과정에 대한 세부 흐름을 도시한 순서도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다.
도 1 은 본 발명에 따른 문장 번역 장치의 구성을 도시한 블록도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 문장 번역 장치는, 입력부(10), 음성 인식부(20), 퍼즈 추출부(30), 형태소 품사 태깅부(40), 문장 분리부(50), 번역부(70), 음성 합성부(80), 및 출력부(90)를 포함한다. 또한, 본 발명에 따른 문장 번역 장치는 문장 분리 형태소 품사 정보 DB(60)를 더 포함한다. 문장 분리 형태소 품사 정보 DB(60)는 문장 분리 가능한 형태소 품사 정보 및 해당 형태소 품사들의 순서 정보가 등록된다.
입력부(10)는 번역을 위한 음성 또는 문자를 입력 받는 수단으로, 마이크, 키보드, 키패드, 터치패드 등이 해당 될 수 있다. 물론, 본 발명의 실시예에서는 음성을 입력 받아 번역하는 기술을 중점으로 하여 설명한다.
음성 인식부(20)는 입력부(10)를 통해 제1 언어의 음성이 입력되면, 제1 언어의 음성을 인식한다. 또한, 음성 인식부(20)는 제1 언어의 음성에 대한 음성 인식 결과에 근거하여 제1 언어의 문장을 생성한다.
퍼즈 추출부(30)는 입력부(10)를 통해 입력되는 제1 언어의 음성으로부터 퍼즈(pause) 정보를 추출한다.
형태소 품사 태깅부(40)는 제1 언어의 문장에 대해 형태소 분석을 수행하고, 형태소 분석 결과로부터 품사들을 태깅한다.
형태소 품사를 태깅하는 실시예는 아래와 같다.
예) "가능합니다손님계약을해지하면원금을받는데손해를입을수있는데괜찮으시겠습니까"
상기의 예문을 가지고 형태소 품사를 태깅하면, 그 결과는 아래와 같다.
-> '가능(형용사)+하(접미사)+ㅂ니다(종결어미)+손님(명사)+계약(명사)+을(목적격조사)+해지(명사)+하(동사)+면(연결어미)+원금(명사)+을(목적격조사)+받(동사)+는데(연결어미)+손해(명사)+를(목적격조사)+입(동사)+ㄹ수(의존명사)+있(동사)+는데(연결어미)+괜찮(형용사)+으시겠(선어말어미)+습니까(종결어미)'
형태소 품사 태깅부(40)는 태깅된 형태소 품사를 문장 분리 형태소 품사 정보 DB(60)에 저장한다.
문장 분리부(50)는 형태소 품사 태깅부(40)에 의해 태깅된 형태소 품사 정보와 퍼즈 추출부(30)에 의해 추출된 퍼즈 정보에 근거하여 제1 언어의 문장에 대해 문장 분리를 수행한다.
이때, 문장 분리부(50)는 형태소 품사의 순서 정보와 해당 형태소 품사의 문장 분리 가능 여부를 적용하여 문장 분리를 수행한다.
다시 말해, 문장 분리부(50)는 태깅된 형태소 품사가 문장 분리 가능한 형태소 품사인 경우에, 태깅된 형태소 품사의 순서가 종결 어미로 끝나는지를 확인한다.
이때, 문장 분리부(50)는 형태소 품사의 순서가 종결 어미로 끝나는 경우에 형태소 품사의 정보를 제1 언어의 문장에 대한 문장 분리에 적용한다.
만일, 태깅된 형태소 품사가 문장 분리할 수 없는 것인 경우, 문장 분리부(50)는 문장 분리 형태소 품사 정보 DB(60)에 등록된 용언 복원 정보에 근거하여 제1 언어의 문장의 용언을 원형으로 복원하고, 문장 분리 형태소 품사 정보 DB(60)에 등록된 접속 패턴 정보에 근거하여 용언이 원형으로 복원된 제1 문장을 분리한다.
이후, 문장 분리부(50)는 원형으로 복원되어 분리된 제1 언어의 문장으로부터 문장 분리를 수행한다.
일 예로서, 앞서 예시된 문장 "가능합니다 손님 계약을 해지하면 원금을 받는데 손해를 입을 수 있는데 괜찮으시겠습니까"의 형태소 품사 태깅 결과를 이용하여 문장 분리를 하게 되면, 문장 분리부(50)는 종결어미 또는 연결어미 뒤에서 문장을 분리한다.
즉, 문장 분리부(50)는 [가능합니다/손님계약을해지하면/원금을 받는데/손해를입을수있는데/괜찮으시겠습니까]와 같이 문장 분리한다.
이 경우, 자칫 '원금을받다'와 '손해를입다'에 대해서 오역이 일어날 수 있다.
따라서, 문장 분리부(50)는 퍼즈 정보를 형태소 품사 정보 보다 우선 적용하여 문장 분리하도록 한다. 예시 원문의 음성에서 추출된 퍼즈 정보는 아래와 같다고 가정한다.
예) "가능합니다손님 <pause> 계약을해지하면 <pause> 원금을받는데손해를입을수있는데 <pause> 괜찮으시겠습니까"
이 경우, 퍼즈 정보에 따라 '원금을받는데'와 '손해를입을수있는데' 사이에서의 오역을 방지할 수 있을 뿐만 아니라, '손님'의 번역 위치가 달라지므로 번역의 정확도를 높일 수 있게 된다.
여기서, 문장 분리부(50)는 추출된 퍼즈 정보의 길이 정보를 확인하여, 길이 정보가 임계치 이상인 경우에만, 해당 퍼즈 정보를 제1 언어의 문장에 대한 문장 분리에 적용한다.
최종적으로, 문장 분리부(50)는 퍼즈 정보에 근거하여 문장 분리를 수행하고, 그 결과에 형태소 품사 정보를 적용하여 문장 분리를 수행한다.
번역부(70)는 문장 분리부(50)에 의해 문장 분리된 제1 언어의 문장을 제2 언어의 문장으로 번역한다. 이때, 번역부(70)는 기계 번역 소프트웨어 모듈을 실행시켜 제1 언어의 문장을 제2 언어의 문장으로 번역할 수 있다.
음성 합성부(80)는 번역된 제2 언어의 문장을 대응하는 제2 언어의 음성 신호로 합성하고, 출력부(90)는 합성된 제2 언어의 음성 신호를 외부로 출력한다.
여기서, 제1 언어의 음성을 제2 언어의 문장으로 출력하도록 설정된 경우, 음성 합성부(80) 및 출력부(90)는 생략될 수 있다.
도 2 는 본 발명에 따른 문장 분리 형태소 품사 정보 DB의 구성을 도시한 블록도이다.
도 2에 도시된 바와 같이, 문장 분리 형태소 품사 정보 DB(60)는 형태소 품사 태깅 정보 DB(61), 용언 복원 정보 DB, 및 접속 패턴 DB(65)를 포함한다.
형태소 품사 태깅 정보 DB(61)는 음성 인식된 제1 언어의 문장으로부터 형태소 품사 태깅 결과가 저장된다.
또한, 용언 복원 DB(63)는 연결 어미와 같은 용언을 복원하기 위한 정보가 저장된다. 또한, 접속 패턴 DB(65)는 연결 어미에서의 용언 복원과 접속사를 추가하기 위한 접속 패턴 정보가 저장된다.
여기서, 제1 언어의 문장으로부터 형태소 품사 태깅 결과 '입니다' 또는 '어요'와 같은 종결어미나, '손님' 또는 '선생님'과 같은 명사를 포함하는 경우, 문장 분리부(50)는 형태소 품사 태깅 결과만으로 문장을 분리할 수 있다.
한편, 문장 분리부는 한번에 문장 분리하기 어려운 경우, 용언 복원 DB(63) 및 접속 패턴 DB(65)에 저장된 정보에 근거하여 연결 어미를 종결어미와 접속사 등으로 분리한 후, 문장 분리할 수 있다.
그 실시예는 아래와 같다.
예) '였지만' -> '였다' + '그렇지만'
'하면' -> '한다' + '그러면'
'있는데' -> '있다' + '그런데'
도 3은 본 발명에 따른 문장 번역 방법의 전체 흐름을 도시한 순서도이다.
도 3을 참조하면, 본 발명에 따른 문장 번역 장치는 제1 언어의 음성이 입력되면(S100), 제1 언어 음성에 대응하는 제1 언어 문장을 생성한다(S110).
이후, 문장 번역 장치는 제1 언어의 문장에 대한 형태소 품사 태깅을 수행한다(S120). 형태소 품사 태깅 과정에 대한 세부 동작은 도 4를 참조한다.
또한, 문장 번역 장치는 제1 언어의 음성으로부터 퍼즈 정보를 추출한다(S130). 퍼즈 정보 추출 과정에 대한 세부 동작은 도 5를 참조한다.
이때, 문장 번역 장치는 'S120' 및 'S130' 과정에서 추출된 형태소 품사 태깅 정보와 퍼즈 정보에 기초하여 제1 언어의 문장을 분리한다(S140). 문장 번역 장치는 태깅된 형태소 품사의 순서 정보를 이용하여 문장 분리를 하게 된다.
여기서, 문장 번역 장치는 형태소 품사 태깅 정보 보다 퍼즈 정보에 우선하여 문장 분리를 수행한다.
'S120' 및 'S130' 과정에서 추출된 형태소 품사 태깅 정보와 퍼즈 정보에 기초하여 제1 언어의 문장 분리가 완료되면, 문장 번역 장치는 분리된 제1 언어의 문장을 제2 언어의 문장으로 번역한다(S150).
이후, 문장 번역 장치는 'S150' 과정에서 번역된 제2 언어의 문장을 제2 언어의 음성으로 합성하고(S160), 합성된 제2 언어의 음성을 출력한다(S170).
만일, 사용자로부터 제2 언어로 번역된 문장 출력을 요청받은 경우, 문장 번역 장치는 'S160' 및 'S170' 과정은 생략하고, 'S150' 과정에서 번역된 문장을 출력한다.
도 4는 본 발명의 형태소 품사 태깅 과정에 대한 세부 흐름을 도시한 순서도이다.
도 4에 도시된 바와 같이, 형태소 품사 태깅 과정은, 형태소 품사 태깅 결과로부터 분리 가능한 형태소 품사의 순서 정보를 호출한다(S200).
만일 태깅된 모든 형태소 품사에 대해 분리 가능한 형태소 품사의 순서 정보가 존재하지 않으면(S210, S240), 형태소 품사 태깅 과정을 종료한다.
한편, 태깅된 형태소 품사 중 분리 가능한 형태소 품사의 순서 정보가 존재하는 경우(S210), 해당 형태소 품사의 순서 정보가 종결 어미로 끝나는지 확인한다.
만일, 형태소 품사의 순서 정보가 종결 어미로 끝나면(S220), 문장 번역 장치는 해당 형태소 품사 정보를 문장 분리 목록에 추가하고(S230), 형태소 품사 태깅 과정을 종료한다.
반면, 형태소 품사의 순서 정보가 종결 어미로 끝나지 않는 경우(S220), 문장 번역 장치는 형태소 품사 태깅 과정을 종료한다.
이 경우, 해당 형태소 품사는 문장 분리 장치에 의해 용언 복원 DB(63) 및 접속 패턴 DB(65)에 저장된 정보에 근거하여 용언 복원 및 접속사 등이 추가된 후, 문장 분리 가능하게 된다.
이후, 문장 분리부(50)는 문장 분리 목록에 추가된 형태소 품사 정보에 근거하여 문장 분리 과정을 수행한다.
도 5 는 본 발명의 퍼즈 정보 추출 과정에 대한 세부 흐름을 도시한 순서도이다.
도 5를 참조하면, 퍼즈 정보 추출 과정에서는, 제1 언어의 음성으로부터 추출된 퍼즈 정보 중 길이 정보를 확인한다(S300). 이때, 퍼즈 길이가 기 설정된 임계치 이상인 경우(S310), 해당 퍼즈 정보를 문장 분리 목록에 추가한다(S320).
반면, 길이가 임계치 미만인 퍼즈는 문장 분리 대상에서 제외시킨다.
도 5의 퍼즈 정보 추출 과정은 추출된 모든 퍼즈 정보에 대한 길이 정보를 확인한 후에 종료한다(S330).
이후, 문장 분리부(50)는 문장 분리 목록에 추가된 퍼즈 정보에 근거하여 문장 분리 과정을 수행한다.
이상과 같이 본 발명에 의한 문장 번역 장치 및 그 방법은 예시된 도면을 참조로 설명하였으나, 본 명세서에 개시된 실시예와 도면에 의해 본 발명은 한정되지 않고, 기술사상이 보호되는 범위 이내에서 응용될 수 있다.
10: 입력부 20: 음성 인식부
30: 퍼즈 추출부 40: 형태소 품사 태깅부
50: 문장 분리부 60: 문장 분리 형태소 품사 정보 DB
61: 형태소 품사 태깅 정보 DB 63: 용언 복원 DB
65: 접속 패턴 DB 70: 번역부
80: 음성 합성부 90: 출력부

Claims (16)

  1. 제1 언어의 음성에 대한 음성 인식 결과에 근거하여 제1 언어의 문장을 생성하는 음성 인식부;
    상기 제1 언어의 문장으로부터 형태소 품사를 태깅하는 형태소 품사 태깅부;
    상기 제1 언어의 음성으로부터 퍼즈(pause) 정보를 추출하는 퍼즈 추출부; 및
    상기 형태소 품사 태깅부에 의해 태깅된 형태소 품사 정보와 상기 퍼즈 추출부에 의해 추출된 상기 퍼즈 정보에 근거하여 상기 제1 언어의 문장에 대해 문장 분리하는 문장 분리부;를 포함하고,
    상기 문장 분리부는,
    추출된 상기 퍼즈 정보 중 길이 정보가 임계치 이상인 경우에, 추출된 상기 퍼즈 정보를 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 하는 문장 번역 장치.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 문장 분리부는,
    태깅된 상기 형태소 품사들이 문장 분리 가능한 순서 정보를 갖는 경우에, 태깅된 상기 형태소 품사의 순서 정보를 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 하는 문장 번역 장치.
  4. 청구항 1에 있어서,
    문장 분리 가능한 형태소 품사 정보 및 해당 형태소 품사들의 순서 정보가 등록된 문장 분리 형태소 품사 정보 DB;를 더 포함하고,
    상기 문장 분리부는, 상기 문장 분리 형태소 품사 정보 DB로부터 태깅된 상기 형태소 품사에 대응하는 순서 정보를 추출하는 것을 특징으로 하는 문장 번역 장치.
  5. 청구항 4에 있어서,
    상기 문장 분리 형태소 품사 정보 DB는,
    형태소 품사 태깅 정보 DB, 용언 복원 정보 DB, 및 접속 패턴 정보 DB 중 적어도 하나를 포함하는 것을 특징으로 하는 문장 번역 장치.
  6. 청구항 5에 있어서,
    상기 문장 분리부는,
    태깅된 상기 형태소 품사를 분리할 수 없는 경우, 상기 용언 복원 정보 DB에 등록된 정보에 근거하여 상기 제1 언어의 문장의 용언을 원형으로 복원한 후에 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 하는 문장 번역 장치.
  7. 청구항 5에 있어서,
    상기 문장 분리부는,
    태깅된 상기 형태소 품사를 분리할 수 없는 경우, 상기 제1 언어의 문장을 상기 접속 패턴 정보 DB에 등록된 접속 패턴에 따라 분리한 후에 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 하는 문장 번역 장치.
  8. 청구항 1에 있어서,
    문장 분리된 상기 제1 언어의 문장을 제2 언어의 문장으로 번역하는 문장 번역부;를 더 포함하는 것을 특징으로 하는 문장 번역 장치.
  9. 제1 언어의 음성에 대한 음성 인식 결과에 근거하여 제1 언어의 문장을 생성하는 단계;
    상기 제1 언어의 문장으로부터 형태소 품사를 태깅하는 단계;
    상기 제1 언어의 음성으로부터 퍼즈(pause) 정보를 추출하는 단계; 및
    상기 형태소 품사 태깅부에 의해 태깅된 상기 형태소 품사의 순서정보와 상기 퍼즈 추출부에 의해 추출된 상기 퍼즈 정보에 근거하여 상기 제1 언어의 문장에 대해 문장 분리하는 단계;를 포함하고,
    상기 문장 분리하는 단계는,
    추출된 상기 퍼즈 정보 중 길이 정보가 임계치 이상인 경우에, 추출된 상기 퍼즈 정보를 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 하는 문장 번역 방법.
  10. 삭제
  11. 청구항 9에 있어서,
    상기 문장 분리하는 단계는,
    태깅된 상기 형태소 품사가 분리 가능한 형태소 품사인 경우에, 태깅된 상기 형태소 품사의 순서 정보를 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 하는 문장 번역 방법.
  12. 청구항 9에 있어서,
    상기 문장 분리하는 단계는,
    문장 분리 가능한 형태소 품사 정보 및 해당 형태소 품사들의 순서 정보가 등록된 문장 분리 형태소 품사 정보 DB로부터 태깅된 상기 형태소 품사에 대응하는 순서 정보를 추출하는 단계;를 포함하는 것을 특징으로 하는 문장 번역 방법.
  13. 청구항 12에 있어서,
    상기 문장 분리 형태소 품사 정보 DB는,
    형태소 품사 태깅 정보 DB, 용언 복원 정보 DB, 및 접속 패턴 정보 DB 중 적어도 하나를 포함하는 것을 특징으로 하는 문장 번역 방법.
  14. 청구항 13에 있어서,
    상기 문장 분리하는 단계는,
    태깅된 상기 형태소 품사를 분리할 수 없는 경우, 상기 용언 복원 정보 DB에 등록된 정보에 근거하여 태깅된 상기 형태소 품사에 대해 용언 복원하는 단계;를 포함하고,
    상기 용언 복원된 상기 형태소 품사를 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 하는 문장 번역 방법.
  15. 청구항 13에 있어서,
    상기 문장 분리하는 단계는,
    태깅된 상기 형태소 품사를 분리할 수 없는 경우, 상기 접속 패턴 정보 DB에 등록된 정보에 근거하여 태깅된 상기 형태소 품사를 분리하는 단계;를 더 포함하고,
    분리된 상기 형태소 품사를 상기 제1 언어의 문장에 대한 문장 분리에 적용하는 것을 특징으로 하는 문장 번역 방법.
  16. 청구항 9에 있어서,
    문장 분리된 상기 제1 언어의 문장을 제2 언어의 문장으로 번역하는 단계;를 더 포함하는 것을 특징으로 하는 문장 번역 방법.




KR1020100064857A 2010-07-06 2010-07-06 문장 번역 장치 및 그 방법 KR101373053B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100064857A KR101373053B1 (ko) 2010-07-06 2010-07-06 문장 번역 장치 및 그 방법
US13/176,629 US20120010873A1 (en) 2010-07-06 2011-07-05 Sentence translation apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100064857A KR101373053B1 (ko) 2010-07-06 2010-07-06 문장 번역 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20120004151A KR20120004151A (ko) 2012-01-12
KR101373053B1 true KR101373053B1 (ko) 2014-03-11

Family

ID=45439207

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100064857A KR101373053B1 (ko) 2010-07-06 2010-07-06 문장 번역 장치 및 그 방법

Country Status (2)

Country Link
US (1) US20120010873A1 (ko)
KR (1) KR101373053B1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902524A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语句子边界识别方法
KR101383552B1 (ko) * 2013-02-25 2014-04-10 미디어젠(주) 다중 명령어가 포함된 단일 문장의 음성인식방법
US9734820B2 (en) * 2013-11-14 2017-08-15 Nuance Communications, Inc. System and method for translating real-time speech using segmentation based on conjunction locations
US10192546B1 (en) * 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
US10366173B2 (en) 2016-09-09 2019-07-30 Electronics And Telecommunications Research Institute Device and method of simultaneous interpretation based on real-time extraction of interpretation unit
US9747282B1 (en) * 2016-09-27 2017-08-29 Doppler Labs, Inc. Translation with conversational overlap
CN107066456A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译***的接收模块
WO2018228515A1 (en) 2017-06-15 2018-12-20 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for speech recognition
KR102143755B1 (ko) * 2017-10-11 2020-08-12 주식회사 산타 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법
KR102107293B1 (ko) 2018-04-26 2020-05-06 장성민 솔더볼 어태치방법
KR101998728B1 (ko) * 2018-08-24 2019-07-10 주식회사 산타 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020033414A (ko) * 2001-10-16 2002-05-06 지창진 통역 장치 및 그 방법
KR20100069120A (ko) * 2008-12-16 2010-06-24 한국전자통신연구원 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020033414A (ko) * 2001-10-16 2002-05-06 지창진 통역 장치 및 그 방법
KR20100069120A (ko) * 2008-12-16 2010-06-24 한국전자통신연구원 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치

Also Published As

Publication number Publication date
KR20120004151A (ko) 2012-01-12
US20120010873A1 (en) 2012-01-12

Similar Documents

Publication Publication Date Title
KR101373053B1 (ko) 문장 번역 장치 및 그 방법
WO2019200923A1 (zh) 基于拼音的语义识别方法、装置以及人机对话***
US11031009B2 (en) Method for creating a knowledge base of components and their problems from short text utterances
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
US20080071533A1 (en) Automatic generation of statistical language models for interactive voice response applications
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US20170199867A1 (en) Dialogue control system and dialogue control method
Harrat et al. Building resources for algerian arabic dialects
US20100179803A1 (en) Hybrid machine translation
US20090326912A1 (en) Means and a method for training a statistical machine translation system
CN101256559A (zh) 用于处理输入语音的装置和方法
JP7246027B2 (ja) 翻訳装置、翻訳方法、及びプログラム
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
CN110826301B (zh) 标点符号添加方法、***、移动终端及存储介质
US20120029903A1 (en) Method and apparatus for enhancing interactive translation and dialogue systems
KR100725723B1 (ko) 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
KR102564008B1 (ko) 실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법
Misu et al. Dialogue strategy to clarify user’s queries for document retrieval system with speech interface
KR20110018140A (ko) 문서정보 학습기반 통계적 hmm 품사 태깅 장치 및 그 방법
KR100908445B1 (ko) 응답 문장 생성 장치 및 방법
Caines et al. You talking to me? A predictive model for zero auxiliary constructions
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
KR20110119478A (ko) 음성 인식 장치 및 음성 인식 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee