KR20220103477A

KR20220103477A - 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템

Info

Publication number: KR20220103477A
Application number: KR1020210006111A
Authority: KR
Inventors: 박준호; 강민경; 김세형; 송병관
Original assignee: (주)소프트기획
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2022-07-22
Also published as: KR102426645B1

Abstract

본 발명은 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템에 관한 것이다. 보다 상세하게는 비대면 회의 시스템에서 실시간으로 재생되는 음성 또는 영상정보의 인식을 통해 실시간 자막을 자동 생성할 수 있도록 하여 청각장애인의 참여 어려움을 해소하는 데 도움을 주고, 회의록, 녹취록 등의 속기가 필요한 영역의 인력을 대체하여 활용 가능하며, 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고 정확한 의미 전달에 기여할 수 있도록 하고, 감정특징표시부를 구비함으로써, 자막과 함께 억양과 감정 상태를 표시함에 따라 청각 장애인의 보다 정확한 이해에 도움을 주는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 에 관한 것이다.

Description

청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템{Video conferencing system to enhance communication accessibility for the hearing impaired}

2019년 12월 중국 우한(武漢)으로부터 발생한 신종 코로나바이러스(COVID-19)는 전 세계적으로 급속하게 퍼지며 삶의 환경을 대면 방식에서 비대면(Untact, 비접촉) 방식으로 전환시키고 있다. 이로 인해 인터넷을 활용한 온라인 화상 회의와 재택근무 시스템 등 새로운 방식들이 주목받고 있다.

이러한 비대면 방식에 대해 주목함에 따라 최근 화상회의 관련 시장도 빠르게 성장하고 있으나, 비대면 방식인 화상회의 시장은 회의내용을 이해하는 데 있어 영상과 음향에 의존할 수 밖에 없어 청각장애인을 포함하는 장애인에겐 참여에 어려움이 있다.

특히, 청각장애인은 입모양, 얼굴 표정으로 내용을 유추하는 경우가 대부분이며 화상 회의의 경우, 낮은 화질 선명도, 잦은 버퍼링으로 대화를 따라가기 힘든경우가 대부분이고, 다자간 음성 회의는 애초에 들을 수 없는 청각 장애인은 참여가 불가능한 상황이다.

따라서, 언택트 사회, 장애인들은 코로나 19 감염에 대한 불안은 물론 소통에서 소외되는 불합리한 상실감까지 겪고 있음에 따라 포스트 코로나 시대의 비대면 회의 시스템에서 소통 지원 기술 개발은 매우 시급한 사안으로 판단된다.

선행기술문헌 : KR 등록특허공보 제0711819호(2007.4.19 공고)

본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 특히 화상회의 시 장애인들의 적극적인 참여가 가능하도록 하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 을 제공하는 데 그 목적이 있다.

상기 목적을 달성하기 위해 안출된 본 발명에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 은 화상회의에 참가하는 참가자들의 ID, 이름, 나이, 청각 장애 여부와 정도를 포함하는 개인정보를 입력받는 회원가입부; 회원가입부에 의한 회원가입 후 로그인한 정보를 관리하고 화상회의 참가자를 식별하는 참가자식별부; 화상회의에서 실시간으로 재생되는 음성 또는 영상정보로부터 음성신호를 추출하여 음성 데이터를 생성하는 음성신호인식부; 음성 데이터와 대응되는 스크립트(script)를 생성하는 스크립트 생성부; 음성 데이터를 수초 단위로 분리하여 학습이 용이한 크기로 처리하고, 해당 음성에 대응되는 스크립트에 따라 텍스트 데이터를 불러와 음성데이터와 텍스트 데이터를 싱크(sync)시켜 하나의 학습데이터 쌍으로 가공하며, 기계학습에 의해 학습시키는 학습처리부; 및 음성데이터에 대응되는 자막데이터를 생성하는 자막생성부를 포함할 수 있다.

또한, 학습처리부의 학습데이터 쌍에 대응되는 음성데이터에 단계별로 노이즈를 추가하여 학습처리부에서 가공된 학습데이터 쌍에 정렬하고, 학습데이터 쌍에 노이즈를 단계별로 가공하여 노이즈에 대한 학습을 수행하는 노이즈학습부를 더 포함할 수 있다.

음성신호익식부의 음성 데이터로부터 억양을 추출하고, 특정 감정 표현이 포함된 말이나 소리를 별도의 음성데이터로 추출하는 감정특징추출부를 더 포함할 수 있다.

본 발명에 의하면 비대면 회의 시스템에서 실시간으로 재생되는 음성 또는 영상정보의 인식을 통해 실시간 자막을 자동 생성할 수 있도록 하여 청각장애인의 참여 어려움을 해소하는 데 도움을 주고, 회의록, 녹취록 등의 속기가 필요한 영역의 인력을 대체하여 활용 가능하며, 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고 정확한 의미 전달에 기여할 수 있도록 하는 데 그 효과가 있다.

또한, 본 발명에 의하면, 감정특징표시부를 구비함으로써, 자막과 함께 억양과 감정 상태를 표시함에 따라 청각 장애인의 보다 정확한 이해에 도움을 주는 데 그 효과가 있다.

도 1은 본 발명의 바람직한 실시예에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 의 개념도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

본 발명은 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템(1000)에 관한 것이다. 보다 상세하게는 비대면 회의 시스템에서 실시간으로 재생되는 음성 또는 영상정보의 인식을 통해 실시간 자막을 자동 생성할 수 있도록 하여 청각장애인의 참여 어려움을 해소하는 데 도움을 주고, 회의록, 녹취록 등의 속기가 필요한 영역의 인력을 대체하여 활용 가능하며, 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고 정확한 의미 전달에 기여할 수 있도록 하고, 감정특징표시부(90)를 구비함으로써, 자막과 함께 억양과 감정 상태를 표시함에 따라 청각 장애인의 보다 정확한 이해에 도움을 주는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 (1000)에 관한 것이다.

도 1은 본 발명의 바람직한 실시예에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 (1000)의 개념도이다.

도 1 내지 도 2를 참조하면, 본 발명의 바람직한 실시예에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 (1000)은 회원가입부(10), 참가자식별부(20), 음성신호인식부(30), 스크립트 생성부(40), 학습처리부(50), 노이즈학습부(60), 감정특징추출부(70), 자막생성부(80), 감정특징표시부(90), 회의록생성부(100), 및 검수부(110)를 포함하여 구성된다.

이하, 회원가입부(10)부터 상세히 설명하기로 한다.

회원가입부(10)는 화상회의에 참가하는 참가자들이 PC나 스마트기기를 포함하는 단말기를 이용하여 3G, LTE, Wi-fi 등의 무선인터넷 환경에서 ID, 이름, 나이, 청각 장애 여부와 정도를 포함하는 개인정보를 입력하고 회원가입을 한다.

참가자 식별부는 회원가입부(10)에 의한 회원가입 후 로그인한 정보를 관리하고 참가자를 식별하며, 화상회의 시 다수의 참가자들의 발언을 각기 구분하기 위함이다.

음성신호인식부(30)은 실시간으로 송출되는 방송 데이터로부터 음성신호를 추출하여 음성 데이터를 생성한다.

또한, 음성신호인식부(30)는 실시간 스트리밍 음성신호가 아닌 음성 또는 영상을 파일 형태로 업로드하면 업로드된 파일로부터 음성정보를 추출하고 그 음성정보의 내용을 실시간으로 자막화하는 음성파일추출모듈(미도시)이 포함될 수 있다.

음성파일추출모듈(미도시)은 회의 녹음과 같이 음성파일을 업로드하였을 때 그 음성파일의 내용을 실시간으로 자막화하여 나타낼 수 있도록 한다.

또한, 음성신호인식부(30)는 URL 형태의 영상 파일을 삽입하고 삽입된 영상 파일에서 오디오 스트리밍 파일을 추출하는 오디오 스트리밍 음성파일추출모듈(미도시)이 구비되어 영상 파일로부터 음성 스트리밍만을 선택적으로 추출할 수 있다.

스크립트생성부는 음성데이터과 연관되는 스크립트(script)를 생성한다. 보다 구체적으로, 스크립트생성부는 음성데이터에 대응되는 텍스화된 문서인 스크립트(script)를 생성하도록 한다.

학습처리부(50)는 음성 데이터를 수초 단위로 잘라 학습이 용이한 크기로 처리하고 해당 음성에 대응되는 스크립트에 따라 텍스트 데이터를 불러와 음성데이터와 텍스트 데이터를 싱크(sync)시켜 하나의 학습데이터 쌍으로 가공하며, 기계학습에 의해 학습시킨다.

이때, 학습처리부(50)는 음성 데이터의 특정 시간대에 특정 텍스트 문자열이 발생되는 위치를 확률로 산출하여 가장 적절한 상태열을 탐색하여 정렬시키도록 한다.

예컨대, 1시간의 음성데이터와 그에 대응되는 3000자의 텍스트 데이터를 각각 정렬하고 이를 7초 단위로 자르고 음성 데이터의 특정 시간대에 특정 단어가 발생하는 위치를 식별하여 음성과 텍스트를 싱크(sync) 시키도록 한다.

이때, 학습처리부(50)는 인식된 음성 데이터가 어떤 음소, 단어, 문장으로 구성되었는지 확인하며, 바로 전 시간(t-1)의 state를 기억한 후 마지막에 경로 역추적(path backtracking)을 통해 가장 확률이 높은 best state sequence를 찾아 결과로 출력하도록 한다.

이후, 학습처리부(50)는 하나의 쌍으로 형성된 학습데이터를 기계학습에 의해 학습시킨다. 학습된 모델을 토대로 음성데이터를 인식하면 음성데이터로부터 출력되는 자막이 생성될 수 있다.

또한, 학습처리부(50)는 복수 개의 학습데이터 중 상대적으로 학습이 쉬운 짧은 학습 데이터를 우선적으로 학습시켜 동작시키도록 하고, 학습된 언어모델과 음성모델을 토대로 실시간 음성 데이터를 인식하여 실시간으로 자막을 생성하도록 한다.

언어모델은 음성모델의 결과로 도출된 예측 데이터를 실제 존재할 수 있는 문장인지 확인하고 보정하는 과정을 거쳐 음성인식 결과를 텍스트로 출력시키고, 문장이 실제 사용되는 문장으로 존재할 확률 분석을 통해 인식 성능을 향상시켜 생성되도록 한다.

음성모델은 뉴스, 드라마, 다큐, 웹데이터를 포함하는 정보로부터 반복적 학습을 수행하도록 한다.

생성된 언어모델과 음성모델은 데이터베이스(미도시)에 저장되고 학습처리부(50)에 의해 새로운 데이터가 학습화될 때마다 업데이트 된다.

노이즈학습부(60)는 반향 상태, 잡음 제거 처리를 수행하기 위한 것으로, 학습처리부(50)의 학습데이터 쌍에 대응되는 음성데이터에 단계별로 노이즈를 추가하여 학습처리부(50)에서 가공된 학습데이터 쌍에 정렬하고, 학습데이터 쌍에 노이즈를 단계별로 가공하여 노이즈에 대한 학습을 수행하여 노이즈를 제거할 수 있도록 한다.

보다 상세하게는, 노이즈가 단계별로 포함된 음성모델을 각기 준비하여 학습처리부(50)의 학습데이터 쌍에 대응되게 정렬하여 정제함에 따라 정확도 향상을 기대할 수 있다. 따라서, 전체 단어 모델은 학습처리부(50)로 모든 자릿수에 정확한 음성 데이터로 가공하고, 노이즈학습부(60)로 잡음을 단계별로 추가하여 모든 발화는 표준이 되는 음성 모델로 수회 강제 정렬을 수행하여 학습 및 노이즈 제거를 통해 정제하여 정확도를 높이도록 한다.

또한, 본 발명에서는 학습처리부(50)에 의해 학습된 언어모델과 음성모델을 토대로 실시간 음성 데이터를 인식하고, 노이즈학습부(60)로 노이즈에 대해 단계별로 학습시킨 음성데이터에 실시간으로 자막을 생성하며, 생성된 언어모델과 음성모델은 데이터베이스에 저장되고, 학습처리부(50)와 노이즈학습부(60)에 의해 새로운 데이터가 학습될 때마다 일정 주기를 두고 업데이트되는 것을 특징으로 한다.

감정특징추출부(70)는 음성신호익식부의 음성 데이터로부터 억양을 추출하고, 특정 감정 표현이 포함된 말이나 소리를 별도의 음성데이터로 추출한다.

특히, 감정특징추출부(70)는 화상회의에서 청각장애인의 맥락 이해에 도움을 주기 위한 것으로, 화상회의 영상에서 화자의 입모양, 변환된 자막과 함께 억양과 특정 감정 표현이 포함된 말이나 소리를 별도로 추출하여 감정특징표시부(90)로 자막과 함께 나타내도록함으로써 맥락 이해에 도움을 줄 뿐만 아니라 청각장애인도 출력되는 정보로 불완전한 자막을 선별할 수 있도록 도움을 주어 자막의 정확도 향상에 기여한다.

자막생성부(80)는 음성데이터에 대응되는 자막데이터를 생성하도록 한다.

감정특징표시부(90)는 감정특징추출부(70)에서 추출한 억양을 도식화하여 나타내고, 특정 감정 표현의 자막이 포함되는 부분에는 해당 감정 상태를 별도 표시한다.

일례로, 감정특징표시부(90)는 DB에 특정 감정 표현을 별도로 저장해두는 데, 웃음 소리, 흐느끼는 소리, 우는 소리 등을 포함하는 소리가 저장되거나 말에서 기쁨, 슬픔, 화남 등의 감정표현이 포함된 말을 저장하여 해당 소리나 표현이 감지되었을 경우, 자막과 별도로 표시하도록 하여 청각장애인들에게 화상회의의 발언 이해에 도움을 준다.

회의록생성부(100)는 참가자식별부(20)에서 식별된 각 참가자별로 자막생성부(80)에서 생성된 자막을 매칭하여 특정 조건에 부합하는 회의록을 생성한다. 여기서 특정 조건은 특정 참가자 발언의 자막만 추출하여 회의록을 작성한다든지 특정 참가자를 제외하고, 회의록을 작성하는 등의 다양한 조건에 따라 회의록을 작성할 수 있도록 한다.

검수부(110)는 음성데이터와 그와 대응되는 텍스트로 결합된 한 쌍의 학습 데이터가 정확히 매칭되었는지 매칭정확도를 검수하고, 복수 개의 학습데이터 중 일부를 샘플링하여 음성 데이터와 텍스트 데이터와의 매칭이 제대로 이루어졌는 지를 검수하며, 음성모델과 언어모델로부터 음성데이터와 텍스트 데이터 간의 매칭을 토대로 신뢰도(confidence)를 측정하여 측정된 신뢰도가 기 설정된 표준값 미만일 경우에는 음성데이터와 텍스트 데이터와의 매칭이 잘못 이루어졌다고 판단하여 해당 부분의 영상데이터와 음성데이터, 텍스트 데이터, 및 감정특징표시부(90)에서 도시하는 억양, 감정 상태를 제공하여 청각장애인을 포함하는 사용자에게 검수를 요청할 수 있도록 한다.

검수부(110)는 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고, 학습을 통해 업데이트되며 정확한 의미 전달에 기여할 수 있도록 한다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

10 - 회원가입부
20 - 참가자식별부
30 - 음성신호인식부
40 - 스크립트 생성부
50 - 학습처리부
60 - 노이즈학습부
70 - 감정특징추출부
80 - 자막생성부
90 - 감정특징표시부
100 - 회의록생성부
110 - 검수부
1000 - 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템

Claims

화상회의에 참가하는 참가자들의 ID, 이름, 나이, 청각 장애 여부와 정도를 포함하는 개인정보를 입력받는 회원가입부;
회원가입부에 의한 회원가입 후 로그인한 정보를 관리하고 화상회의 참가자를 식별하는 참가자식별부;
화상회의에서 실시간으로 재생되는 음성 또는 영상정보로부터 음성신호를 추출하여 음성 데이터를 생성하는 음성신호인식부;
음성 데이터와 대응되는 스크립트(script)를 생성하는 스크립트 생성부;
음성 데이터를 수초 단위로 분리하여 학습이 용이한 크기로 처리하고, 해당 음성에 대응되는 스크립트에 따라 텍스트 데이터를 불러와 음성데이터와 텍스트 데이터를 싱크(sync)시켜 하나의 학습데이터 쌍으로 가공하며, 기계학습에 의해 학습시키는 학습처리부; 및
음성데이터에 대응되는 자막데이터를 생성하는 자막생성부
를 포함하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 .
제1항에 있어서,
학습처리부의 학습데이터 쌍에 대응되는 음성데이터에 단계별로 노이즈를 추가하여 학습처리부에서 가공된 학습데이터 쌍에 정렬하고, 학습데이터 쌍에 노이즈를 단계별로 가공하여 노이즈에 대한 학습을 수행하는 노이즈학습부
를 더 포함하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템
제1항 또는 제2항에 있어서
음성신호익식부의 음성 데이터로부터 억양을 추출하고, 특정 감정 표현이 포함된 말이나 소리를 별도의 음성데이터로 추출하는 감정특징추출부
를 더 포함하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 .