KR20230064906A - 자막 출력 장치 - Google Patents

자막 출력 장치 Download PDF

Info

Publication number
KR20230064906A
KR20230064906A KR1020210150513A KR20210150513A KR20230064906A KR 20230064906 A KR20230064906 A KR 20230064906A KR 1020210150513 A KR1020210150513 A KR 1020210150513A KR 20210150513 A KR20210150513 A KR 20210150513A KR 20230064906 A KR20230064906 A KR 20230064906A
Authority
KR
South Korea
Prior art keywords
unit
phonetic symbol
text
important
mathematical
Prior art date
Application number
KR1020210150513A
Other languages
English (en)
Inventor
김혜수
이현규
김다혜
Original Assignee
김혜수
이현규
김다혜
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김혜수, 이현규, 김다혜 filed Critical 김혜수
Priority to KR1020210150513A priority Critical patent/KR20230064906A/ko
Publication of KR20230064906A publication Critical patent/KR20230064906A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 자막 출력 장치에 관한 것으로, 보다 상세하게는 텍스트, 수식, 발음 기호, 악보를 포함하는 자막을 출력하고, 퀴즈, 메모, 검색, 스크린 캡처, 강의 추천, 커뮤니티, 스크립트 공유를 포함하는 부가 기능을 제공하는 자막 출력 장치에 관한 것이다.

Description

자막 출력 장치{SUBTITLE OUTPUT APPARATUS}
본 발명은 자막 출력 장치에 관한 것으로, 보다 상세하게는 텍스트, 수식, 발음 기호, 악보를 포함하는 자막을 출력하고, 퀴즈, 메모, 검색, 스크린 캡처, 강의 추천, 커뮤니티, 스크립트 공유를 포함하는 부가 기능을 제공하는 자막 출력 장치에 관한 것이다.
본 발명 자막 출력 장치에 관련된 종래 기술을 예로 들면, 특허문헌 1 이동 단말기 및 그 음성 인식 방법은 음성으로 입력하는 명령이나 메시지에서 특정 문자나 워드를 강조함으로써, 음성 인식률을 높인다.
특허문헌 2 수식-문자열 변환 시스템 및 이를 이용한 수식-문자열 변환 방법은 수학공식의 입출력에서 사용자의 편의성을 향상시키고, 특히 시각 장애인의 수학공식의 입출력 편의성을 향상시킨다.
종래 자막 출력 장치는 본 발명과 같이, 단어 강조, 수식 표시에 더해 발음 기호, 악보를 표시하지 못하고, 퀴즈, 메모, 검색, 스크린 캡처, 강의 추천, 커뮤니티, 스크립트 공유를 포함하는 부가 기능을 제공하지 못하는 문제점이 있다.
등록특허공보 제10-1513615호 이동 단말기 및 그 음성 인식 방법 등록특허공보 제10-1458581호 수식-문자열 변환 시스템 및 이를 이용한 수식-문자열 변환 방법
본 발명은 음성 인식 엔진과 자막 변환부를 이용하여 텍스트, 수식, 발음 기호, 악보를 포함하는 자막을 출력하는 자막 출력 장치를 제공하는 것을 목적으로 한다.
또한, 본 발명은 음성 인식에 의한 자막 출력에 더해 퀴즈, 메모, 검색, 스크린 캡처, 강의 추천, 커뮤니티, 스크립트 공유를 포함하는 부가 기능을 제공하는 자막 출력 장치를 제공하는 것을 또 다른 목적으로 한다.
본 발명의 바람직한 자막 변환 장치는, 일반 음향을 인식하는 일반 음향 모델(11), 수학 언어를 인식하는 수학 언어 모델(12), 영어 언어를 인식하는 영어 언어 모델(13), 및 음악 소리를 인식하는 음악 소리 모델(14)을 포함하는 음성 인식 엔진(10);과 음성 인식 텍스트 중 강조 부분을 판별하는 강조 판별기(21), 상기 음성 인식 텍스트 중 수식 부분을 변환하는 수식 변환 모듈(22), 상기 음성 인식 텍스트 중 영어 언어에서 발음 기호로 변환하는 발음 기호 변환 모듈(23), 및 음악 소리에서 음표로 변환하는 음표 변환 모듈(24)을 포함하는 자막 변환부(20);를 포함하는 것을 특징으로 한다.
또한, 상기 일반 음향 모델(11)은, 음성 인식 성능 향상을 위해 인간의 청각 구조를 모방한 계산적 청각 장면 분석 방법을 이용하고, 상기 강조 판별기(21)는, 음성 강세를 분석하는 음성 강세 분석부(211), 중요 단어를 인식하는 중요 단어 인식부(212), 중요 문맥을 인식하는 중요 문맥 인식부(213), 및 다른 학생이 중요 표시한 부분을 공유하는 공유부(214)를 포함하는 것을 특징으로 한다.
또한, 상기 수학 언어 모델(12)은, 수학 강의에 특화된 음성 인식 엔진이고, 상기 수식 변환 모듈(22)은, 수학 언어에서 수학 기호로 변환하는 1차 기호 변환(221), 및 수학 기호의 관계를 매핑하는 2차 관계 매핑(222)을 포함하는 것을 특징으로 한다.
또한, 상기 영어 언어 모델(13)은, 음성 인식 모듈을 이용하여 음성 데이터로부터 하나 이상의 단어, 및 단어의 발음과 관련된 발음 기호 시퀀스를 포함하는 후보 텍스트를 획득하고, 상기 발음 기호 변환 모듈(23)은, 발음 기호 후보 텍스트를 추출하는 후보 텍스트부(231), 추출된 발음 기호 후보 텍스트의 발음 기호를 판단하는 발음 기호 판단부(232), 및 판단된 발음 기호로 치환하는 치환부(233)를 포함하는 것을 특징으로 한다.
또한, 상기 음악 소리 모델(14)은, 음성 인식 모듈을 이용하여 음성 데이터로부터 음악 소리를 포함하는 후보 음표를 획득하고, 상기 음표 변환 모듈(24)은, 음악 소리에서 음정을 측정하는 음정 측정부(241), 상기 음악 소리에서 박자를 카운팅하는 박자 카운팅부(242), 및 상기 음정, 상기 박자의 악보로 변환하는 악보 변환부(243)를 포함하는 것을 특징으로 한다.
또한, 자막 변환 장치는, 음성 인식 텍스트에 대한 퀴즈를 생성하는 퀴즈 생성부(2), 메모를 입력하는 메모부(3), 음성 인식 텍스트를 검색하는 검색부(4), 강의 화면을 캡처하는 캡처부(5), 연관 강의를 추천하는 강의 추천부(6), 및 사용자 커뮤니티 환경을 제공하는 커뮤니티부(7) 중 어느 하나 이상을 더 포함하는 것을 특징으로 한다.
본 발명은 음성 인식 엔진과 자막 변환부를 이용하여 텍스트, 수식, 발음 기호, 악보를 포함하는 자막을 출력함으로써 자막 중 국어 외에 수식, 발음 기호, 악보를 표시하고, 중요 단어, 문맥을 강조 처리해서 사용자 학습을 보조하는 효과를 가질 수 있다.
또한, 본 발명은 음성 인식에 의한 자막 출력에 더해 퀴즈, 메모, 검색, 스크린 캡처, 강의 추천, 커뮤니티, 스크립트 공유를 포함하는 부가 기능을 제공함으로써 사용자는 자막 외에 부가 기능을 이용하여 학습 성과를 높이는 효과를 가질 수 있다.
도 1은 본 발명 자막 변환 장치의 구성을 보인 블록도이다.
도 2는 도 1 자막 변환 장치의 중요 문맥 인식 KNN 알고리즘의 예시도이다.
도 3은 도 1 자막 변환 장치의 부가 기능부 구성을 보인 블록도이다.
이하, 도면을 참조하여 본 발명의 바람직한 일실시예에 따른 자막 변환 장치에 대하여 상세히 설명하기로 한다. 이하에서 종래 주지된 사항에 대한 설명은 본 발명의 요지를 명확히 하기 위해 생략하거나 간단히 한다. 본 발명의 설명에 포함된 구성은 개별 또는 복합 결합 구성되어 동작한다.
도 1은 본 발명 자막 변환 장치의 구성을 보인 블록도로서, 도 1을 참조하면, 자막 변환 장치(1)는 음성 인식 엔진(10), 자막 변환부(20), 스크립트 수정부(30)를 포함한다.
음성 인식 엔진(10)은 음성 인식 모듈로, 일반 음향을 인식하는 일반 음향 모델(11), 수학 언어를 인식하는 수학 언어 모델(12), 영어 언어를 인식하는 영어 언어 모델(13), 음악 소리를 인식하는 음악 소리 모델(14)을 포함한다.
일반 음향 모델(11)은 음성 인식 성능 향상을 위해 인간의 청각 구조를 모방한 계산적 청각 장면 분석 방법을 이용한다.
수학 언어 모델(12)은 수학 강의에 특화된 음성 인식 엔진으로, '시그마', 델타', '코사인', '사인' 등 수학 교육 과정에 사용되는 수학 기호를 후보 단어에 포함하며, 다른 언어 모델에 비하여 수학 기호에 높은 확률을 부여한다.
영어 언어 모델(13)은 음성 인식 모듈을 이용하여 음성 데이터로부터 하나 이상의 단어, 및 단어의 발음과 관련된 발음 기호 시퀀스를 포함하는 후보 텍스트를 획득한다.
음악 소리 모델(14)은 음성 인식 모듈을 이용하여 음성 데이터로부터 음악 소리를 포함하는 후보 음표를 획득한다.
자막 변환부(20)는 음성 인식 텍스트 중 강조 부분을 판별하는 강조 판별기(21), 음성 인식 텍스트 중 수식 부분을 변환하는 수식 변환 모듈(22), 음성 인식 텍스트 중 영어 언어에서 발음 기호로 변환하는 발음 기호 변환 모듈(23), 음악 소리에서 음표로 변환하는 음표 변환 모듈(24)을 포함한다.
강조 판별기(21)는 음성 강세를 분석하는 음성 강세 분석부(211), 중요 단어를 인식하는 중요 단어 인식부(212), 중요 문맥을 인식하는 중요 문맥 인식부(213), 다른 학생이 중요 표시한 부분을 공유하는 공유부(214)를 포함한다.
음성 강세 분석부(211)는 특정 시간에서 강사의 목소리 크기인 음성 신호에서의 진폭(at), 특정 시간에서 강사의 목소리 높낮이인 음성을 주파수로 표현했을 때 주파수 값(pt)을 포함하는 음성 강세(Act)를 수학식 1과 수학식 2로 분석한다.
수학식 1
Figure pat00001
수학식 2
Figure pat00002
음성 강세 분석부(211)는 Act가 1.5이상이면 해당 단어를 중요한 단어로 판단하고 자막을 강조 처리한다.
중요 단어 인식부(212)는 자막에 포함된 단어 중 강조 사전에 포함된 단어가 있으면 강조된 자막으로 출력한다. 예를 들어, 중요 단어 인식부(212)는 '핵심', '주요', '주목', '집중' 등 중요함을 뜻하는 명사를 강조 사전 목록에 등록해 두고, 해당 단어가 등장하면 자막을 굵음 처리한다.
중요 문맥 인식부(213)는 교수자가 중요하다고 직접적으로 이야기하지 않아도 다른 강의에서 중요하다고 말하는 경우가 많았다면 이를 중요한 문맥으로 추출한다. 이를 위해, 중요 문맥 인식부(213)는 과목별 n-gram 모델을 사용하고, N-gram 모델은 말뭉치에서 n개의 단어 순서가 얼마나 자주 나오는가를 계산하여 확률값으로 나타낸다.
중요 문맥 인식부(213)는 N-gram 모델을 이용하여 각 단어의 위치에서 중요 키워드가 올 확률을 모두 계산하여 더한 값을
Figure pat00003
라고 수학식 3으로 정의한다.
수학식 3
Figure pat00004
중요 문맥 인식부(213)는 N-gram 모델을 이용하여 단어가 없어도 되는 확률을
Figure pat00005
라고 수학식 4로 정의한다.
수학식 4
Figure pat00006
중요 문맥 인식부(213)는
Figure pat00007
를 행렬A,
Figure pat00008
를 행렬B로 나타내고, 행렬A와 행렬B를 이어 붙인 행렬C라고 하고, KNN 알고리즘을 이용하여 강조할 단어인지를 확인한다. KNN 알고리즘은 도 2에서 설명되며, 훈련 데이터와 테스트 데이터 사이의 거리를 측정하고, 각 테스트 데이터마다 가장 가까운 훈련 데이터 K개를 뽑아 K개의 데이터 중 과반수가 속해 있는 클래스로 테스트 데이터의 클래스를 분류한다.
공유부(214)는 다른 학생들이 중요 표시한 부분을 공유한다. 많은 학생들이 중요 표시를 한 문장은 실제로 중요한 내용을 담고 있을 확률이 높다. 따라서, 공유부(214)는 일정 비율 이상의 학생들이 중요하다고 표시를 해 둔 부분을 다른 학생들이 볼 수 있게 함으로써 중요한 부분을 놓치지 않도록 지원한다.
수식 변환 모듈(22)은 수학 언어에서 수학 기호로 변환하는 1차 기호 변환(221), 수학 기호의 관계를 매핑하는 2차 관계 매핑(222)을 포함한다. 수식 변환 모듈(22)은 하나의 문장 내에 포함된 수학 기호와 숫자, 알파벳의 단어를 실제 기호로 바꾸어 수식으로 변환한다.
1차 기호 변환(221)은 수학 언어 문장에서 수학 기호로 변환하고, 예를 들어, '리미트 엔부터 무한대까지 시그마 케이는 일부터 엔, 일 더하기 엑스케이의 제곱이라는 식을 봅시다'라는 문장을 '
Figure pat00009
'의 수학 기호를 포함하는 문장으로 변환한다.
2차 관계 매핑(222)은 1차 변환된 문장에서 '부터', '까지', '는', '의'와 같은 수식 사이의 관계를 정의하는 단어를 실제 관계로 매핑한다. 예를 들어, 2차 변환된 문장은 '
Figure pat00010
'과 같다.
발음 기호 변환 모듈(23)은 발음 기호 후보 텍스트를 추출하는 후보 텍스트부(231), 추출된 발음 기호 후보 텍스트의 발음 기호를 판단하는 발음 기호 판단부(232), 판단된 발음 기호로 치환하는 치환부(233)를 포함한다.
후보 텍스트부(231)는 영어 언어 모델(13)의 후보 텍스트에서 발음 기호 후보 텍스트를 추출한다.
발음 기호 판단부(232)는 추출된 발음 기호 후보 텍스트 중 복수의 단어들과 각 단어들에 대응하는 발음 기호 시퀀스에 대한 정보를 포함하는 사전 데이터를 이용하여 추출된 발음 기호 후보 텍스트의 발음 기호를 판단한다.
치환부(233)는 발음 기호 시퀀스를 이용하여 판단된 발음 기호로 치환한다.
음표 변환 모듈(24)은 음악 소리에서 음정을 측정하는 음정 측정부(241), 음악 소리에서 박자를 카운팅하는 박자 카운팅부(242), 음정, 박자의 악보로 변환하는 악보 변환부(243)를 포함한다.
음정 측정부(241)는 음악 소리 모델(14)의 후보 음표 음악 소리에서 음정을 측정한다.
박자 카운팅부(242)는 음악 소리 모델(14)의 후보 음표 음악 소리에서 박자를 카운팅한다.
악보 변환부(243)는 음정 측정부(241)의 음정, 박자 카운팅부(242)의 박자에 따라 음표를 생성하여 악보로 변환한다.
스크립트 수정부(30)는 음성 인식 기술의 한계로 인하여 음성 인식의 정확도 100%를 기대하기는 어렵기 때문에 학생들이 자발적으로 스크립트를 수정할 수 있도록 한다. 음성 인식이 잘못되었을 때 같은 수업을 듣는 학생이나 자막 수정 도우미가 스크립트를 수정하면 다른 학생들이 그 스크립트가 제대로 수정되었는지 평가할 수 있게 하여 수정이 잘 되었다고 평가되면 실제 스크립트에 반영한다. 청각 장애인은 사람에 의해 2차적으로 수정된 정확한 스크립트를 얻을 수 있고, 학생들에게는 청각 장애인의 학습권에 대한 인식을 높일 수 있으며, 수정 시에 혜택을 제공함으로써 선순환이 이루어질 수 있도록 관리한다.
도 2는 도 1 자막 변환 장치의 중요 문맥 인식 KNN 알고리즘의 예시도로서, 도 2를 참조하면, 중요 문맥 인식 KNN 알고리즘은 클래스를 강조할 단어와 강조하지 않을 단어로 구분하고, KNN 알고리즘에서 데이터의 거리를 계산하는 방법은 임의의 단어 W에 대하여 W의 벡터를
Figure pat00011
라고 하고, 단어 간의 거리는 두 단어 W1, W2의 벡터 v1, v2를 이용하여 L2 거리를 계산한다.
도 3은 도 1 자막 변환 장치의 부가 기능부 구성을 보인 블록도로서, 도 3을 참조하면, 부가 기능부는 음성 인식 텍스트에 대한 퀴즈를 생성하는 퀴즈 생성부(2), 메모를 입력하는 메모부(3), 음성 인식 텍스트를 검색하는 검색부(4), 강의 화면을 캡처하는 캡처부(5), 연관 강의를 추천하는 강의 추천부(6), 사용자 커뮤니티 환경을 제공하는 커뮤니티부(7)를 포함한다.
퀴즈 생성부(2)는 중요 문장 순서대로 그 문장에서 가장 중요한 명사나 동사 단어를 추출한다. 퀴즈 생성부(2)는 BERT 언어 모델을 사용하여 추출된 단어가 실제로 올 확률이 높다면, 추출된 단어를 빈칸으로 하여 빈칸 채우기 퀴즈를 생성한다. 학생은 수업을 들은 직후나 복습을 할 때 빈칸 채우기 퀴즈를 통하여 학생이 배운 내용의 키워드를 간단하게 체크할 수 있도록 함으로써 효율적인 학습을 돕는다.
메모부(3)는 하이라이팅, 팝업 메모, 북마크 등 사용자 중심 메모 기능을 수행한다. 사용자가 메모부(3)를 이용하여 직접 중요한 문장에 중요 표시하고, 팝업 메모를 지원한다. 사용자가 북마크를 하는 경우, 북마크 리스트에 추가하고, 해당 북마크가 클릭되면 해당 스크립트로 이동되며 해당 음성이 바로 출력된다.
검색부(4)는 학습에 용이한 검색 기능을 수행한다. 검색부(4)는 일반 키워드 검색으로, 키워드를 검색하면 스크립트 내에서 그 키워드가 있는 노트를 모두 찾아주고, 기계 독해 기반 검색으로, 질문 형식으로 검색하면 그 질문에 해당하는 답을 찾아준다.
캡처부(5)는 강의 스크린을 캡처한다. 교수자가 말로 하지 않고, 강의 자료에 필기를 하는 경우가 존재한다. 강의 자료가 다음 페이지로 넘어가는 경우 화면이 갑자기 바뀌므로 캡처부(5)는 이를 감지하여 바뀌기 전의 강의 화면을 캡처하여 해당 문단에 캡처 화면을 삽입한다.
강의 추천부(6)는 강의 내용에서 중요한 키워드를 학습 보조 기능 1번에서 만든 빈칸 퀴즈의 명사 단어로 보고, 해당 퀴즈를 틀렸거나 추가 학습 버튼을 누르는 경우 강의 동영상에서 해당 키워드 검색 결과 리스트를 보여줌으로써 더 깊은 탐구를 도와준다.
커뮤니티부(7)는 멘토링 기능으로, 이전 학기에 같은 수업을 들었거나, 해당 강의의 멘토를 희망하는 학생을 멘토로 보고, 해당 강의를 새롭게 수강하는 학생들을 멘티로 본다. 커뮤니티부(7)는 멘티가 학습 도중 어려움이나 질문이 있다면 멘토와 매칭시켜 주어 빠르게 어려움을 해결할 수 있도록 도움을 준다. 커뮤니티부(7)는 책 거래 기능으로, 수업에서 사용하는 교재 중고거래를 중개함으로써 수강 과목만 등록해 놓으면 구매자와 판매자 모두 책을 사고 파는 노력을 들이지 않고, 쉽게 교재 중고거래를 할 수 있도록 한다.
본 발명은 상술한 특정의 바람직한 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 해당 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
1: 자막 변환 장치
2: 퀴즈 생성부
3: 메모부
4: 검색부
5: 캡처부
6: 강의 추천부
7: 커뮤니티부
10: 음성 인식 엔진
11: 일반 음향 모델
12: 수학 언어 모델
13: 영어 언어 모델
14: 음악 소리 모델
20: 자막 변환부
21: 강조 판별기
211: 음성 강세 분석부
212: 중요 단어 인식부
213: 중요 문맥 인식부
214: 공유부
22: 수식 변환 모듈
221: 1차 기호 변환
222: 2차 관계 매핑
23: 발음 기호 변환 모듈
231: 후보 텍스트부
232: 발음 기호 판단부
233: 치환부
24: 음표 변환 모듈
241: 음정 측정부
242: 박자 카운팅부
243: 악보 변환부
30: 스크립트 수정부

Claims (6)

  1. 일반 음향을 인식하는 일반 음향 모델(11), 수학 언어를 인식하는 수학 언어 모델(12), 영어 언어를 인식하는 영어 언어 모델(13), 및 음악 소리를 인식하는 음악 소리 모델(14)을 포함하는 음성 인식 엔진(10);과
    음성 인식 텍스트 중 강조 부분을 판별하는 강조 판별기(21), 상기 음성 인식 텍스트 중 수식 부분을 변환하는 수식 변환 모듈(22), 상기 음성 인식 텍스트 중 영어 언어에서 발음 기호로 변환하는 발음 기호 변환 모듈(23), 및 음악 소리에서 음표로 변환하는 음표 변환 모듈(24)을 포함하는 자막 변환부(20);를 포함하는 것을 특징으로 하는, 자막 변환 장치.
  2. 제1항에 있어서,
    상기 일반 음향 모델(11)은,
    음성 인식 성능 향상을 위해 인간의 청각 구조를 모방한 계산적 청각 장면 분석 방법을 이용하고,
    상기 강조 판별기(21)는,
    음성 강세를 분석하는 음성 강세 분석부(211), 중요 단어를 인식하는 중요 단어 인식부(212), 중요 문맥을 인식하는 중요 문맥 인식부(213), 및 다른 학생이 중요 표시한 부분을 공유하는 공유부(214)를 포함하는 것을 특징으로 하는, 자막 변환 장치.
  3. 제1항에 있어서,
    상기 수학 언어 모델(12)은,
    수학 강의에 특화된 음성 인식 엔진이고,
    상기 수식 변환 모듈(22)은,
    수학 언어에서 수학 기호로 변환하는 1차 기호 변환(221), 및 수학 기호의 관계를 매핑하는 2차 관계 매핑(222)을 포함하는 것을 특징으로 하는, 자막 변환 장치.
  4. 제1항에 있어서,
    상기 영어 언어 모델(13)은,
    음성 인식 모듈을 이용하여 음성 데이터로부터 하나 이상의 단어, 및 단어의 발음과 관련된 발음 기호 시퀀스를 포함하는 후보 텍스트를 획득하고,
    상기 발음 기호 변환 모듈(23)은,
    발음 기호 후보 텍스트를 추출하는 후보 텍스트부(231), 추출된 발음 기호 후보 텍스트의 발음 기호를 판단하는 발음 기호 판단부(232), 및 판단된 발음 기호로 치환하는 치환부(233)를 포함하는 것을 특징으로 하는, 자막 변환 장치.
  5. 제1항에 있어서,
    상기 음악 소리 모델(14)은,
    음성 인식 모듈을 이용하여 음성 데이터로부터 음악 소리를 포함하는 후보 음표를 획득하고,
    상기 음표 변환 모듈(24)은,
    음악 소리에서 음정을 측정하는 음정 측정부(241), 상기 음악 소리에서 박자를 카운팅하는 박자 카운팅부(242), 및 상기 음정, 상기 박자의 악보로 변환하는 악보 변환부(243)를 포함하는 것을 특징으로 하는, 자막 변환 장치.
  6. 제1항에 있어서,
    음성 인식 텍스트에 대한 퀴즈를 생성하는 퀴즈 생성부(2), 메모를 입력하는 메모부(3), 음성 인식 텍스트를 검색하는 검색부(4), 강의 화면을 캡처하는 캡처부(5), 연관 강의를 추천하는 강의 추천부(6), 및 사용자 커뮤니티 환경을 제공하는 커뮤니티부(7) 중 어느 하나 이상을 더 포함하는 것을 특징으로 하는, 자막 변환 장치.




KR1020210150513A 2021-11-04 2021-11-04 자막 출력 장치 KR20230064906A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210150513A KR20230064906A (ko) 2021-11-04 2021-11-04 자막 출력 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210150513A KR20230064906A (ko) 2021-11-04 2021-11-04 자막 출력 장치

Publications (1)

Publication Number Publication Date
KR20230064906A true KR20230064906A (ko) 2023-05-11

Family

ID=86379386

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210150513A KR20230064906A (ko) 2021-11-04 2021-11-04 자막 출력 장치

Country Status (1)

Country Link
KR (1) KR20230064906A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101458581B1 (ko) 2013-04-25 2014-11-05 서울대학교산학협력단 수식-문자열 변환 시스템 및 이를 이용한 수식-문자열 변환 방법
KR101513615B1 (ko) 2008-06-12 2015-04-20 엘지전자 주식회사 이동 단말기 및 그 음성 인식 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101513615B1 (ko) 2008-06-12 2015-04-20 엘지전자 주식회사 이동 단말기 및 그 음성 인식 방법
KR101458581B1 (ko) 2013-04-25 2014-11-05 서울대학교산학협력단 수식-문자열 변환 시스템 및 이를 이용한 수식-문자열 변환 방법

Similar Documents

Publication Publication Date Title
JP5664978B2 (ja) 学習支援システム及び学習支援方法
US20150079554A1 (en) Language learning system and learning method
KR101635144B1 (ko) 텍스트 시각화와 학습자 말뭉치를 이용한 언어학습 시스템
CN104658350A (zh) 一种英语教学***
KR20180000990A (ko) 영어 파닉스 학습 장치 및 그 방법
KR20140071070A (ko) 음소기호를 이용한 외국어 발음 학습방법 및 학습장치
JP6425493B2 (ja) 人の発言に基づいて学習項目に対する評価レベルを推定するプログラム、装置及び方法
Al-Ghezi et al. Automatic speaking assessment of spontaneous L2 Finnish and Swedish
Olmanson et al. The challenge of Chinese character acquisition: Leveraging multimodality in overcoming a centuries-old problem
Marujo et al. Porting REAP to European Portuguese.
CN113205729A (zh) 一种面向外国留学生的演讲评测方法、装置及***
Larabi-Marie-Sainte et al. A new framework for Arabic recitation using speech recognition and the Jaro Winkler algorithm
CN111383495A (zh) 一种用于口语教学的课中讲解***、方法、装置及介质
Johnson An integrated approach for teaching speech spectrogram analysis to engineering students
KR20230064906A (ko) 자막 출력 장치
CN114241835A (zh) 一种学生口语质量评测方法和设备
KR102098377B1 (ko) 퍼즐 게임으로 어순을 학습하는 외국어 학습 서비스 제공 방법
Laarmann-Quante Towards a Tool for Automatic Spelling Error Analysis and Feedback Generation for Freely Written German Texts Produced by Primary School Children.
Myasoedova et al. Multimedia technologies to teach Sign Language in a written form
Tschichold et al. Intelligent CALL and written language
Marie-Sainte et al. A new system for Arabic recitation using speech recognition and Jaro Winkler algorithm
Genelza et al. Phonological Awareness and Word Decoding Ability of Second Year BSED-English Students in USEP–Tagum Campus
Moore Mauroux English Pronunciation and the Spelling-Sound Code: What Priorities for Teachers of EFL?
Idushan et al. Sinhala Sign Language Learning System for Hearing Impaired Community
JP2023076106A (ja) 外国語学習支援装置、外国語学習支援方法及びコンピュータプログラム