KR20220166465A

KR20220166465A - 다채널 수신기를 이용한 회의록 생성 시스템 및 방법

Info

Publication number: KR20220166465A
Application number: KR1020210075229A
Authority: KR
Inventors: 백민호; 김한태
Original assignee: (주)에어사운드
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-12-19

Abstract

본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 시스템은, 회의 참석자마다 개별적으로 설치되어 참석자의 음성을 입력받는 적어도 하나의 마이크; 상기 마이크와 연결되어 마이크로부터 입력되는 음성에 대한 음성 신호를 각 마이크마다 개별적인 채널로 수신하고, 음성 신호를 전송하기 위해 사용자단말기와 연결되는 다채널 수신기를 포함하며, 상기 사용자단말기는 상기 다채널 수신기와 연결되어 수신된 음성 신호마다 개별적으로 녹음된 음성파일을 생성하는 회의록 관리 프로그램이 설치되어 실행되며, 상기 회의록 관리 프로그램은, 상기 음성파일에 대한 STT 변환을 수행하여 회의록 파일을 생성하며, 회의록 내용의 수정 및 관리하기 위한 프로그램인 것을 특징으로 한다.

Description

다채널 수신기를 이용한 회의록 생성 시스템 및 방법{Meeting minutes creating system and method using multi-channel receiver}

본 발명은 회의록 생성 시스템 및 방법에 관한 것으로, 더욱 상세하게는 복수의 마이크로부터 개별적으로 음성 신호를 수집하고, 녹음된 음성에 대한 STT 변환을 수행하여 회의록을 생성하는 회의록 생성 시스템 및 방법에 관한 것이다.

비대면이 필요한 환경을 비롯하여, 회의 내용을 기록할 필요가 있는 상황 등 여러 여건으로 인하여, 구성원들 사이에 활발한 커뮤니케이션에 대한 음성 회의를 자동으로 기록하기 위한 회의록 시스템이 있다.

또한 회의록 시스템에서는 진행 중인 회의 기록을 데이터베이스에 저장하고, 회의 기간이 종료되면 회의 진행자가 회의 결과의 데이터를 모바일 서버 및 웹서버의 회의 결과창에 표시함과 동시에 데이터베이스에 저장할 수 있도록 할 필요가 있다.

기존 회의록 시스템 서비스의 경우, 사용자가 녹음된 회의 내용(음성 파일)을 서버에 별도로 업로드한 이후 변환된 텍스트 파일을 제공받는 형태로 구성되어 있으며, 이를 위해선 네트워크 연결이 필수적이다.

또한, 대화 내용을 실시간으로 문자로 변환하여 기록하는 기능을 제공하고 있으며, 기록이 완료된 이후 별도의 후처리 과정을 진행하여 화자가 분리된 대화 기록을 제공하는 형태로 구현되어 있다.

또한 별도의 마이크가 구성되어 있지 않아 사용자가 대화 내용을 녹음하기 위해 사용하는 마이크의 종류, 사용자와 마이크 간의 거리 등과 같은 여러 환경적 요소에 따라 변환된 텍스트 결과의 품질이 상이하게 되는 문제가 있다.

더욱이 마이크로 입력된 음성들을 병합하여 하나의 음성 데이터를 생성하고, 음성 분리 과정을 통하여 화자를 구분하고 음성에 대한 텍스트를 추출하기 때문에, 음성 분리 과정에서 음성 인식율이 현저히 떨어지고, 화자들이 동시에 발화하는 경우에는 큰 소리에 대해서만 분리해내고 작은 소리는 잡음으로 오인식되어 화자별 정확한 음성 인식 및 분리에 의한 텍스트 추출이 이루어지지 못해 제대로 된 회의록을 생성하기 어려운 문제가 있었다.

따라서, 전술한 문제를 해결하기 위하여 독립된 마이크로 구분하여 음성 신호에 대한 음성 파일을 생성하고, 화자별로 구분하여 음성에 대한 텍스트를 추출하여 회의록을 생성할 수 있으며, 회의록에 대한 편집 등 각종 관리 기능을 제공할 수 있는 다채널 수신기를 이용한 회의록 생성 시스템 및 방법에 대한 연구가 필요하게 되었다.

한국등록특허 제10-1995443호(2019.06.26.등록)

본 발명의 목적은 독립된 마이크로 구분하여 음성 신호에 대한 음성 파일을 생성하고, 화자별로 구분하여 음성에 대한 텍스트를 추출하여 회의록을 생성할 수 있으며, 회의록에 대한 편집 등 각종 관리 기능을 제공할 수 있는 다채널 수신기를 이용한 회의록 생성 시스템 및 방법을 제공하는 것이다.

상기에 있어서, 상기 회의록 관리 프로그램은 상기 다채널 수신기로부터 음성 신호에 해당하는 음성 신호를 수집하고, STT변환부로 수집한 음성을 전달하는 수집부; 음성인식모델을 포함하고, 음성에 대해 텍스트 변환을 수행하는 STT변환부; 상기 STT변환부로부터 변환에 의해 추출된 텍스트를 모아 회의록 파일을 생성하는 생성부; 사용자 요청시 상기 생성부로부터 생성된 회의록 파일을 열람하여 회의록의 수정 또는 삭제 기능을 제공하는 관리부를 포함한다.

상기에 있어서, 유무선통신망으로 사용자단말기와 통신하는 관리서버로부터 최초에 회의록 관리 프로그램을 다운받거나, 생성된 회의록을 웹기반 저장 및 관리하는 서버연동부를 더 포함한다.

상기에 있어서, 상기 관리서버는 상기 회의록 관리 프로그램이 설치된 사용자단말기와 유무선 통신에 의해 상기 회의록을 전송받도록 통신 가능한 통신부; 상기 통신부를 통하여 수집된 회의록에 대해서 데이터베이스에 저장하고 관리하기 위해 회원제로 운영하도록 회원정보를 제공받아 저장하고 회원정보를 토대로 상기 회의록 관리 프로그램 및 데이터베이스 저장 기능에 대한 로그인 인증을 수행하며, 상기 회의록 관리 프로그램을 대신하여 웹 프로그램 기반으로 통신하여 회의록을 생성하거나 편집하는 기능을 수행하도록 지원하는 회의록관리부; 상기 회의록에 대하여 회의별, 장소별, 시간별로 구분하여 회의록을 데이터베이스에 저장하여 관리할 수 있도록 하고, 각종 회의록에 대한 통계 정보를 생성하여 사용자에게 제공하는 통계학습부; 상기 사용자단말기에서 설치되어 실행되고 회의록 관리를 위한 회의록 관리 프로그램의 서버연동부와 호환 가능한 인터페이스를 제공하는 앱연동부를 더 포함한다.

본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 방법은, 회의 참석자마다 개별적으로 설치되어 참석자의 음성을 입력받는 적어도 하나의 마이크와, 상기 마이크와 연결되어 마이크로부터 입력되는 음성에 대한 음성 신호를 각 마이크마다 개별적인 채널로 수신하고, 음성 신호를 전송하기 위해 사용자단말기와 연결되는 다채널 수신기를 포함한 다채널 수신기를 이용한 회의록 생성 시스템을 이용한 다채널 수신기를 이용한 회의록 생성 방법에 있어서, 상기 사용자단말기에 설치된 회의록 관리 프로그램이 실행되어 로그인을 수행하는 단계; 상기 회의록 관리 프로그램은 회의 시작시 설정된 마이크로 음성 녹음을 개별적으로 실행하는 단계; 회의 종료시 회의 동안 각 마이크를 통하여 개별적으로 녹음된 음성에 대해 각각 음성파일을 생성하는 단계; 음성파일이 복수 개인 경우, 음성파일의 시작 시간을 동기화하기 위한 싱크 처리를 수행하는 단계; 상기 회의록 관리 프로그램은 싱크 처리된 음성파일을 병합하고, 하나의 음성파일에 대하여 하나의 회의록을 생성하기 위한 STT 변환을 수행하는 단계; 상기 음성파일의 모든 음성에 대하여 STT 변환에 의한 텍스트 추출 후 회의록을 생성하여 저장하는 단계;를 포함한다.

상기에 있어서, 상기 회의록 관리 프로그램은 입력된 음성파일에 대한 STT 변환시, 동시간대에 음성의 주파수 대역 체크를 통하여 복수의 발화한 구간이 있는지를 체크하는 단계; 상기 복수의 발화한 구간에 대해서는 별도의 음성으로 분리하고 추출하여 해당 구간에 대해 STT 변환을 각각 수행하는 단계를 더 포함한다.

상기에 있어서, 상기 발화한 구간을 모두 체크하여 복수의 발화 구간이 없는 경우, 음성파일에서 STT변환시 불필요한 잡음을 제거하도록 음성 주파수 대역의 평균치(RMS)를 구해 가장 큰 주파수 대역의 소리만을 취하여 STT 변환을 수행하는 단계를 더 포함한다.

상기에 있어서, 상기 회의록 관리 프로그램은 사용자 요청시 회의 도중 설정된 기간 동안 수집된 음성에 대하여 STT 변환을 수행하여 텍스트 결과를 추출하고, 해당 텍스트 결과를 실시간 화면에 디스플레이하는 단계를 더 포함한다.

상기에 있어서, 회의 종료 여부를 체크한 회의록 관리 프로그램은 회의 종료 전 회의 도중이라면, 설정된 음성 출력 구간에 대해 STT 변환 후 텍스트 결과의 실시간 디스플레이하는 단계; 복수의 마이크 중 음성 신호가 출력되는 설정된 시간 주기 동안 음성 신호의 평균값(RMS)을 산출하는 단계; 최대 RMS값의 70% 이상을 만족하는 구간에 대해서 음성에 대한 텍스트 변환을 수행하는 단계; 변환된 텍스트는 실시간 화면에 의해 디스플레이되는 단계를 더 포함한다.

상기에 있어서, 만약 회의가 종료된 경우에는 종료시까지 녹음된 음성 신호에 대한 텍스트 결과를 일괄 출력하여 화면에 표시하여 제공하는 단계를 더 포함한다.

본 발명의 다채널 수신기를 이용한 회의록 생성 시스템은 독립된 채널로 화자별 음성 신호를 수신하고, 구분된 음성 신호에 대하여 음성파일을 생성하기 때문에 음성 인식율이 향상되고, 혼합된 음성 신호를 분리하는 과정이 불필요하며, 음성으로부터 텍스트 추출시 음성에 대한 텍스트 변환이 잘 수행되는 장점이 있다.

또한 동시에 복수의 화자가 발언을 하는 경우, 기존의 동시 녹음 후 분리 추출하는 음성 텍스트 변환 시스템은 큰 소리만 구분하여 화자의 발언을 추출하기 때문에, 소리가 작은 화자의 경우 음성에 대한 텍스트 추출이 어려운 반면, 본 발명에서는 동시에 복수의 화자가 발언하더라도 별도로 녹음된 음성파일을 생성하고, 음성파일 병합시 음성파일별로 구분하여 병합하고, STT 변환시 구분하여 텍스트를 추출하도록 함으로써, 각 화자에 대한 대화를 빠짐없이 추출하여 회의록을 생성시킬 수 있는 장점이 있다.

또한 본 발명은 생성된 회의록에 대한 편집, 삭제를 포함한 관리 기능을 제공하며, 웹 기반으로도 회의록 생성 및 관리 서비스를 제공할 수 있어 사용자 편의성을 제공하는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 시스템의 전체 구성을 보인 블록도이다.
도 2는 도 1의 회의록 관리 프로그램(210)의 세부적인 기능을 보인 블록도이다.
도 3은 도 1의 관리서버(500)의 세부 구성을 보인 블록도이다.
도 4는 본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 방법의 전체 과정을 보인 순서도이다.
도 5a 및 도 5b는 본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 방법의 화자 분리에 의한 음성 텍스트 추출 알고리즘을 설명한 순서도이다.
도 6은 본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 방법의 음성 텍스트 추출 후 실시간 디스플레이에 대한 과정을 설명한 순서도이다.
도 7은 본 발명의 일 실시예에 따른 생성되는 데이터 포맷 및 회의록 포맷 형식을 예시적으로 보인 도면이다.
도 8은 본 발명의 일 실시예에 따른 회의록 관리 프로그램(210)에서 생성된 회의록 노트를 목록화하여 표시한 화면을 보여주는 도면이다.
도 9는 본 발명의 일 실시예에 따른 회의록 관리 프로그램(210)에서 회의록 조회시 회의 대화 내용을 시간순으로 참석자를 구분하여 표시한 화면을 보여주는 도면이다.
도 10은 본 발명의 일 실시예에 따른 회의록 관리 프로그램(210)에서 참석자 리스트 표시 및 변경 화면 예시를 보여주는 도면이다.
도 11은 본 발명의 일 실시예에 따른 회의록 관리 프로그램(210)에서 참석자의 마이크 설정 화면 예시를 보여주는 도면이다.
도 12는 본 발명의 일 실시예에 따른 회의록 관리 프로그램(210)에서 실시간 화면으로 STT 변환 결과를 표시하는 예시를 보여주는 도면이다.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.

도 1은 본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 시스템의 전체 구성을 보인 블록도이며, 도 2는 도 1의 회의록 관리 프로그램(210)의 세부적인 기능을 보인 블록도이며, 도 3은 도 1의 관리서버의 세부 구성을 보인 블록도이다.

본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 시스템은, 복수의 마이크(100), 복수의 마이크(100)로부터 독립적으로 입력된 화자들의 대화 내용을 수집할 수 있는 다채널 수신기(Blutooth Multimedia Receiver : BMR, 300)와, 화자들의 대화 내용을 수집한 음성 데이터를 유무선 통신망(400)을 통하여 전송받아 회의록을 생성하여 제공하고, 회의록을 데이터베이스(550)에 저장 및 관리를 수행하는 관리서버(500)가 포함될 수 있다.

복수의 마이크(100)는 회의 참석자마다 개별적으로 설치되어 참석자의 음성을 입력받는다. 즉, 마이크(100)는 개별적으로 화자의 음성을 입력받아 음성신호를 연결된 다채널 수신기(300)로 전송할 수 있다.

또한 복수의 마이크(100)는 다채널 수신기(300)와 유무선 통신에 의해 음성신호를 전송할 수 있으며, 통신 방식은 USB 연결에 의한 유선 통신, 블루투스, wi-fi 등이 될 수 있다.

다채널 수신기(300)는 마이크(100)와 연결되어 마이크(100)로부터 입력되는 음성에 대한 음성 신호를 각 마이크(100)마다 개별적인 채널로 수신하고, 음성 신호를 전송하기 위해 사용자단말기(200)와 연결된다.

즉, 다채널 수신기(300)는 복수의 마이크(100)로부터 개별적으로 독립하여 수신된 음성신호를 마이크(100)별로 구분하여 별도의 음성파일을 생성할 수 있도록 다채널로 구성된다.

또한 다채널 수신기(300)는 회의록을 생성하기 위해 유무선 통신망(400)을 통하여 관리서버(500)와 연결되어 관리서버(500)로 별도의 음성파일들을 전송할 수 있다.

나아가 다채널 수신기(300)는 복수의 마이크(100)와 유사하게 USB 연결에 의한 유선 통신, 블루투스, Wi-Fi 등의 유무선 통신 방식으로 사용자단말기(200)에 연결될 수 있다.

사용자단말기(200)는 관리서버(500)에서 제공하는 회의록 관리 프로그램(210)을 실행하고, 실행된 회의록 관리 프로그램(210)을 통하여 사용자 입력에 의해 다양한 기능을 수행하도록 제공될 수 있다.

특히 사용자단말기(200)는 관리서버(500)에 제공한 회의시 녹음된 화자별 음성파일들을 편집하거나 일부 삭제하여 수정된 음성파일로 회의록을 생성하도록 관리서버(500)에 제공하여 사용자(예컨대 상급 회의 관리자)가 불필요한 내용을 제외하고 필요한 내용만으로 회의록을 생성하도록 요청할 수 있어 효율적인 회의록 생성하여 사용자 편의성을 증대시킬 수 있다.

사용자단말기(200)는 유무선 통신망(400)을 통한 관리서버(500)의 도움없이 설치된 회의록 관리 프로그램(210)을 통하여 회의록 생성, 편집 및 관리 기능을 수행할 수 있으며, 관리서버(500)는 생성된 회의록의 클라우드 저장 및 회의록 관리, 업데이트 기능만을 제공할 수 있도록 한다.

또한 회의록 관리 프로그램(210)은 구체적 기능을 수행하기 위해 도 2를 참조하면, 수집부(211), STT변환부(212), 생성부(213), 관리부(214), 서버연동부(215)를 더 포함한다.

다채널 수신기(300)로부터 회의록 생성을 위한 병합된 음성파일을 유무선 통신망(400)을 통하여 전송받아 음성-텍스트 변환(STT)을 수행하고, 텍스트 결과를 이용하여 회의록을 생성할 수 있다.

이때 생성되는 회의록은 사용자가 열람이 가능한 문서 파일 형태로 생성되고, 시간순으로 화자별로 대화내용이 일목요연하게 기록되어 회의록을 확인하기 용이하도록 생성될 수 있으며, 사용자단말기(200)에서 실행되는 회의록 관리 프로그램(210)과 연동하여 회의록 생성, 관리, 편집 기능 등을 제공할 수도 있다.

수집부(211)는 다채널 수신기(300)로부터 음성 신호에 해당하는 음성 신호를 수집하고, 해당 음성에 대한 텍스트 출력에 의해 회의록을 생성하기 위해 STT변환부(212)로 음성을 전달한다.

STT변환부(212)는 수집부(211)로부터 전달받은 음성파일로부터 음성 데이터에 대한 텍스트를 추출한다.

또한 도 7을 참조하면, 음성 데이터의 포맷은 예컨대 WAV 확장자가 되고, 추출되는 텍스트 포맷은 UTF-8이 될 수 있다.

이를 위해 STT변환부(212)는 하나 이상의 음성인식모델이 포함되며, 다국어를 지원하기 위한 다국어 음성인식모델, 지방 사투리를 인식하기 위한 음성인식모델 등이 포함될 수 있다. 다국어 음성인식모델의 경우 입력된 음성에 대해 사용자가 선택한 원하는 언어로 혹은 설정된 언어도 자동 변환되도록 할 수 있다.

또한 음성인식모델은 음성 인식 성능을 향상시키고, 다양한 음성에 대한 인식을 위해 인공지능 학습 알고리즘에 의해 학습될 수 있다.

이외에도 원어민이 아닌 사용자의 음성에 대해 학습하고 해당 음성 인식을 위한 발성평가모델 등이 추가될 수 있다.

또한 음성 인식 향상을 위한 인공지능 학습 알고리즘은 음성 인식 모델의 음성 인식 결과값에 대해 입력 변수로 학습 모델에 반영함으로서, 트레이닝이 거듭될수록 오차가 미세하게 보정되어 음성 인식율을 향상시킬 수 있게 된다.

구체적으로 음성 인식 모델의 음성 인식 결과값에 대한 허용 임계범위를 정하고, 허용 임계범위를 벗어난 값인 경우 음성 인식율이 낮은 것으로 판단하여 오프셋 차이값을 반영하여 다음 음성 인식시 보정된 음성 인식 결과를 산출하도록 할 수 있으며, 이와 같은 오프셋 차이값은 학습모델의 학습이 거듭될수록 보정범위가 줄어들어 궁극적으로는 정상적인 음성 인식 범위내에서 음성 인식이 이루어져 음성인식율을 향상시킬 수 있게 되는 것이다. 이를 위한 인공지능 학습 알고리즘은 패턴 학습에 유리한 서포트 벡터 머신(SVM), 컨벌루션 신경망(CNN), 순환신경망(RNN) 등이 적어도 하나 이상 이용될 수 있다.

생성부(213)는 STT변환부(212)로부터 변환에 의해 추출된 텍스트를 모아 하나의 문서 형태의 회의록 파일을 생성한다.

회의록 파일의 형태는 열람 후 회의록 내용의 삭제, 편집 및 수정이 가능하도록 범용 문서 포맷으로 생성될 수 있으며, 예컨대 워드 포맷(docx), 한글 포맷(hwp) 등이 될 수 있다.

관리부(214)는 생성된 회의록 파일을 열람하여 회의록의 수정 및 삭제 기능을 제공한다.

또한 관리부(214)는 사용자의 요청에 따라 사용자단말기(200)의 내부에 저장된 혹은 관리서버(500)의 데이터베이스(550)에 저장된 회의록을 불러와 편집 및 삭제를 수행하도록 지원할 수 있다.

나아가 회의록 관리 프로그램(210)은 회의록 관리에 필요한 다양한 기능을 제공하는데, 구체적으로 다수의 회의록이 생성된 경우, 도 8에 도시된 바와 같이 회의록 노트별로 목록으로 표시하여 제공할 수 있으며, 회의록 노트에 대한 편집, 시간/장소/사용자(책임자) 등에 대한 지정 정렬 기능, 삭제 기능, 음성 파일 업로드, 내보내기(파일 별도 저장) 등이 포함될 수 있다.

또한 회의록 관리 프로그램(210)은 보안 및 회원 관리 차원에서 사용자 로그인 기능을 제공하며, 이를 위한 회원가입 및 로그인 절차를 포함할 수 있다.

구체적으로 로그인 인증을 위해 회원가입시 라이선스 키를 적용하는 방식으로 회원가입을 수행하고, 회원 가입된 회원정보를 토대로 로그인이 이루어질 수 있다.

또한 라이선스는 관리서버(500)에서 구매할 수 있는 웹페이지를 제공할 수 있으며, 오프라인 환경의 경우, 오프라인 구매처나 온라인 구매한 라이선스 키를 USB 메모리 등과 같은 휴대용 저장장치에 저장한 후 사용할 사용자단말기(200)에 입력하여 회원가입 완료 후 사용할 수도 있다. 이와 같이 회원 로그인 후에 관리서버(500)로부터 제공되는 회의록 관리 프로그램(210)을 다운로드 받아 설치할 수 있다.

또한 회의록 관리 프로그램(210)은 도 9 및 도 10을 참조하면, 회의록 내용, 참석자(화자) 등에 대한 편집, 수정, 삭제 기능을 제공할 수 있으며, 음성 진행 바(progress bar)에 대한 인터페이스를 제공하여, 음성을 직접 들으면서 편집 및 수정을 수행하도록 제공하며, 특히 불필요한 구간 예를 들어 발화가 발생하지 않은 부분에 대한 삭제 기능 등이 포함될 수도 있다.

또한 회의록 관리 프로그램(210)은 도 11을 참조하면, 복수의 마이크(100)에 대한 설정 및 편집 기능을 제공하여, 연결된 복수의 마이크(100) 리스트를 확인 후 사용할 마이크(100)를 선택하거나 사용하지 않은 마이크(100)를 선택하는 등의 기능을 제공할 수 있다.

또한 회의록 관리 프로그램(210)은 마이크(100) 설정에 따라서는 단일 마이크(100)만을 사용하는 경우도 있을 수 있으며, 예컨대 다수가 회의를 하는 상황이 아닌 단일 발표자가 프리젠테이션을 수행하는 경우나, 교사, 교수, 강사 등이 강단에서 수업 진행하는 경우에 해당할 수 있으며, 이와 같은 경우에도 상술한 바와 같은 음성 파일 생성 및 음성 파일에 대한 STT 변환 후 해당 음성 내용에 대한 텍스트 기록 결과물을 생성할 수 있음은 물론이다.

또한 회의록 관리 프로그램(210)은 부가 기능으로서, 관리서버(500)로부터 최초에 회의록 관리 프로그램(210)을 다운받거나, 생성된 회의록을 웹기반 저장 및 관리하기 위해 통신하는 서버연동부(215)가 더 포함될 수 있다.

관리서버(500)는 생성된 회의록의 클라우드 저장 및 회의록 관리, 업데이트 기능을 수행하기 위해 도 3을 참조하면, 세부적으로 통신부(510), 회의록관리부(520), 통계학습부(530), 앱연동부(540), 데이터베이스(550)를 더 포함한다.

통신부(510)는 회의록 관리 프로그램(210)이 설치된 사용자단말기(200)와 유무선 통신에 의해 회의록을 전송받도록 통신 가능한 적어도 하나의 유무선 통신 프로토콜을 포함한다.

회의록관리부(520)는 통신부(510)를 통하여 수집된 회의록에 대해서 복수의 사용자단말기(200)가 존재하는 경우, 사용자단말기(200)별로 지정된 정렬 조건(시간, 장소, 사용자 등)에 따라 정렬하여 목록화하거나, 데이터베이스(550)에 저장하여 관리할 수 있다.

또한 회의록관리부(520)는 회원제로 운영하고, 보안을 위해 사용자에 대한 회원정보를 데이터베이스(550)에 저장하여 관리하고, 회원정보를 토대로 로그인 인증을 수행할 수 있다.

또한 회의록관리부(520)는 회원제로 운영하기 위한 라이센스 키를 제공하고, 사용자단말기(200)에서 설치되는 회의록 관리 프로그램(210)에 대한 인증 및 로그인에 의해 인증된 프로그램에 한해 실행되도록 한다.

나아가 회의록관리부(520)는 사용자단말기(200)에서 설치되어 실행되는 오프라인 설치형 회의록 관리 프로그램(210)을 대신하여, 웹 프로그램 기반으로 통신하여 회의록을 생성하거나 편집하는 등 설치형 회의록 관리 프로그램(210)과 동일한 기능을 수행하도록 지원할 수 있다.

이를 통하여 관리서버(500)는 회의록 관리 프로그램(210)이 별도로 사용자단말기(200)에 설치되어 있지 않더라도 웹 기반으로 회의록 생성 및 편집 기능을 유무선 통신을 통하여 실시간으로 제공할 수도 있다.

통계학습부(530)는 회의록에 대하여 회의별, 장소별, 시간별로 구분하여 회의록을 데이터베이스(550)에 저장하여 관리할 수 있도록 하고, 각종 회의록에 대한 통계 정보를 생성하여 사용자에게 제공할 수 있다.

앱연동부(540)는 사용자단말기(200)에서 설치되어 실행되고 회의록 관리를 위한 회의록 관리 프로그램(210)의 서버연동부(215)와 호환 가능한 인터페이스를 제공하며, 예컨대 회의록 관리 프로그램(210)을 통하여 편집된 회의록을 전송받아 데이터베이스(550)에 갱신하여 저장하는 등의 역할을 수행할 수 있다.

도 4는 본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 방법의 전체 과정을 보인 순서도이다.

본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 방법은, 회의록 관리 프로그램(210)을 설치 후 실행하고, 사용자 인증을 위한 로그인 화면을 제공할 수 있다(S41).

회의록 관리 프로그램(210)은 로그인 후 마이크(100) 설정을 통하여 회의 개시시 사용자 입력에 의한 시작 버튼을 실행하여 설정된 각 마이크(100)로부터 개별적으로 녹음이 이루어질 수 있다(S42).

회의록 관리 프로그램(210)은 사용자 요청시 회의 도중 설정된 기간 동안 수집된 음성에 대하여 STT 변환을 수행하여 텍스트 결과를 추출하고, 해당 텍스트 결과를 실시간 화면에 디스플레이할 수 있다(S43).

이를 통해 회의 참석자들은 실시간 회의 내용을 화면을 통하여 확인할 수 있어 대화 내용을 놓치더라도 화면에 나타난 대화 내용을 확인할 수 있으며, 특히 다국적 회의에서도 실시간 번역에 의해 화면 표시되므로, 사용자 편의성을 높일 수 있다.

또한, 회의록 관리 프로그램(210)은 회의 종료 후 회의 종료 버튼을 실행시켜 음성 포맷의 화자별 음성파일을 생성시킨다.

회의록 관리 프로그램(210)은 생성된 음성파일의 지연시간으로 인한 시작시간 동기화 및 음성 잡음 제거를 위한 싱크 프로세스 실행시킨 후, STT 변환 및 회의록 생성을 위해 각 음성파일을 하나의 병합 파일로 생성시킨다(S44).

이후, 회의록 관리 프로그램(210)은 사용자에 의해 회의록 생성 요청시 STT 변환을 수행하여 화자별 텍스트를 추출하고, 추출된 텍스트를 한데 모아 하나의 문서 포맷 형태의 회의록을 생성시키게 된다. 즉, 상기 음성파일의 모든 음성에 대하여 STT 변환에 의한 텍스트 추출 후 회의록을 생성시키게 된다(S45).

또한, 회의록 관리 프로그램(210)은 생성된 회의록을 열람하여 확인할 수 있도록 제공하며, 회의록 편집, 일부 삭제 기능을 통하여 사용자가 직접 회의록을 관리할 수 있도록 서비스를 제공한다(S46).

이때, 회의록 편집 및 삭제 기능은 회원마다 별도의 권한을 부여하여 한정적 권한으로 제한된 서비스를 제공할 수 있도록 하여, 무단으로 도용하거나 악의적인 회의록 편집 및 삭제를 방지하는 것이 바람직하다.

이를 위해 블록체인 기반으로 회의록을 데이터베이스(550)에 저장 및 관리할 수도 있다.

생성 또는 편집 완료된 회의록은 사용자단말기(200)에 저장하거나, 요청시 관리서버(500)에 웹상의 블록체인 기반으로 보안 처리되어 데이터베이스(550)에 저장 및 주기적으로 편집된 회의록을 갱신할 수도 있다(S47).

블록체인 기반 관리를 위해 다수의 블록체인서버와 연계하여 블록체인망을 구축하고, 기구축된 내부의 블록체인 네트워크를 통해 공개키 및 개인키를 생성하여 해쉬값으로 변환하여 분산 저장하고, 분산 저장된 공개키와 사용자의 개인정보를 기반으로 사용자 인증을 수행할 수 있다.

더 나아가 다수의 사용자단말기(200)에서 공개키와 함께 개인 고유의 사용자 정보를 전송받아 사용자 정보에 대한 해쉬값을 포함하는 사용자 인증서를 각각 생성할 수 있으며, 각 사용자 인증서에 대한 저장 방식은 머클 트리 구조에 의해 이루어질 수 있다.

가령, 각각의 사용자 인증서(거래)를 최하위 자식 노드에 해쉬값을 포함하여 저장하고, 머클 트리의 최상위 레벨인 머클 루트(부모 노드)에는 최하위 자식 노드와 이어지는 경로 상에 있는 중간 노드에 해시값을 공유하도록 해싱(hashing)하여 저장하게 된다.

이를 통해 저장된 사용자 인증서의 진위 여부를 판단할 때, 개인의 사용자단말기(200)에 복사된 사용자 인증서와 데이터베이스(550)의 사용자 인증서를 비교하게 되고, 머클 트리의 경로를 따라 해싱된 해쉬값만을 비교하여 이루어지게 된다.

이때, 머클 트리의 경로 상에서 비교 연산이 이루어짐에 따라 모든 노드의 블록에 대한 비교 연산을 수행하지 않아도 되기 때문에, 비교적 쉬운 연산량으로 진위 여부를 판단할 수 있으며, 거래의 위변조도 쉽고 빠르게 찾아낼 수 있으며, 용량이 작은 휴대 단말 형태의 사용자단말기(200)에서도 쉽게 거래를 검증할 수 있게 된다.

도 5a 및 도 5b는 본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 방법의 화자 분리에 의한 음성 텍스트 추출 알고리즘을 설명한 순서도이다.

본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 방법에서의 화자 분리에 의한 음성 텍스트 추출 알고리즘은 복수의 마이크(100)로부터 수집된 음성에 대하여 음성 파일의 싱크 처리를 수행하고, 동시 발화된 화자의 음성에 대해 분리하여 추출하기 위한 알고리즘이다.

구체적으로 먼저, 회의에 참석한 참여자 수(n)에 따라 n개의 마이크(100)에서 각각 녹음된 음성파일을 생성한다(S51).

회의록 관리 프로그램(210)은 회의 종료 여부를 체크하고, 녹음이 종료된 경우 해당 음성파일들에 대한 싱크 처리를 수행한다(S52, S53).

싱크 처리는 해당 음성파일이 개별적으로 녹음 처리되어 시작시간에 약간의 지연시간이 포함되어 있어 시작시간을 동기화하고, 마이크(100)의 하울링 등 잡음 제거를 위한 것이다.

이후, 회의록 관리 프로그램(210)은 n개의 음성파일을 하나의 회의록 생성을 위해 하나의 음성파일로 병합한다(S54).

음성파일에는 늑음된 음성에 대한 시간정보를 포함하고 있어, 각 시간 구간마다 발화된 음성을 체크하여 STT 변환하여 발화된 내용을 텍스트로 추출할 수 있다(S55, S56).

즉, 회의록 관리 프로그램(210)은 입력된 음성파일에 대한 STT 변환시, 동시간대에 음성의 주파수 대역 체크를 통하여 복수의 발화한 구간이 있는지를 체크하고, 복수의 발화한 구간에 대해서는 별도의 음성으로 분리하고 추출하여 해당 구간에 대해 STT 변환을 각각 수행한다(S57, S59, S60).

만약 발화한 구간을 모두 체크하여 복수의 발화 구간이 없는 경우, 음성파일에서 STT 변환시 불필요한 잡음(예 : 옆자리 화자의 목소리 등)을 제거하도록 음성 주파수 대역의 평균치(RMS)를 구해 가장 큰 대역의 소리(해당 대역의 음원에 추출하기 위한 식별용 인덱스 부여)만을 취하여 STT 변환을 수행하도록 한다(S58).

모든 음성파일 구간에 대한 STT 변환이 완료된 경우, 시간 순으로 정렬되어 텍스트 추출된 하나의 회의록 파일을 생성하여 사용자 화면에 내용 결과를 표시한다(S61, S62).

도 6은 본 발명의 일 실시예에 따른 다채널 수신기를 이용한 회의록 생성 방법의 음성 텍스트 추출 후 실시간 디스플레이에 대한 과정을 설명한 순서도이다.

먼저 회의록 관리 프로그램(210)은 녹음이 시작되면, 마이크(100) 설정에 따라 마이크(100)가 녹음할 준비가 되었는지 체크한다(S70, S71).

그리고, 체크 완료후 회의 종료시까지 설정된 마이크(100)로 녹음을 진행하게 된다.

회의 종료 여부를 체크한 회의록 관리 프로그램(210)은 회의 종료 전 회의 도중이라면, 설정된 음성 출력 구간에 대해 STT 변환 후 텍스트 결과의 실시간 디스플레이 기능을 제공할 수 있다(S72).

여기서 설정된 음성 출력 구간은 음성 신호(소리 신호)의 출력되는 시간이 일정 시간 구간에 대한 주기로서, 실시간 디스플레이 기능은 해당 구간의 음성 신호를 모두 텍스트로 변환하여 한 시간 주기 동안 일정량의 텍스트를 추출하는 방식으로 제공되는 것이다.

구체적으로 N개의 마이크(100) 중 음성 신호가 출력되는 설정된 시간 주기 동안 오디 신호의 평균값(RMS)을 산출한다(S73).

이후 최대 RMS값의 70% 이상을 만족하는 구간에 대해서 음성에 대한 텍스트 변환을 수행한다(S74).

이와 같이 특정 RMS값 이상을 만족하는 구간에 대해서만 음성 텍스트를 변환하는 이유는 해당 마이크(100)로부터 수집되는 음성에는 불필요한 잡음 예컨대 옆자리의 음성이나 주변 소음 등이 포함될 수 있기 때문에 이를 제거하기 위한 것이다.

변환된 텍스트는 실시간 화면에 의해 디스플레이된다(S75).

앞서, S72 단계에서 만약 회의가 종료된 경우에는 종료시까지 녹음된 음성 신호에 대한 텍스트 결과를 일괄 출력하여 화면에 표시하여 제공할 수 있으며(S76), 사용자 요청시 회의에 대한 음성파일을 생성하여 제공될 수 있다.

본 명세서에서 ‘단말기’는 휴대성 및 이동성이 보장된 무선 통신 장치일 수 있으며, 예를 들어 스마트폰, 태블릿 PC 또는 노트북 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다. 또한, ‘단말기’는 통신망을 통해 다른 단말 또는 서버 등에 접속할 수 있는 PC 등의 유선 통신 장치인 것도 가능하다.

또한, 통신망은 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다.

무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.

100 ; 마이크
200 ; 사용자단말기
210 ; 회의록 관리 프로그램
211 ; 수집부
212 ; STT변환부
213 ; 생성부
214 ; 관리부
215 ; 서버연동부
300 ; 다채널 수신기
400 ; 유무선 통신망
500 ; 관리서버
510 ; 통신부
520 ; 회의록관리부
530 ; 통계학습부
540 ; 앱연동부
550 ; 데이터베이스

Claims

회의 참석자마다 개별적으로 설치되어 참석자의 음성을 입력받는 적어도 하나의 마이크;
상기 마이크와 연결되어 마이크로부터 입력되는 음성에 대한 음성 신호를 각 마이크마다 개별적인 채널로 수신하고, 음성 신호를 전송하기 위해 사용자단말기와 연결되는 다채널 수신기;
를 포함하며,
상기 사용자단말기는 상기 다채널 수신기와 연결되어 수신된 음성 신호마다 개별적으로 녹음된 음성파일을 생성하는 회의록 관리 프로그램이 설치되어 실행되며,
상기 회의록 관리 프로그램은,
상기 음성파일에 대한 STT 변환을 수행하여 회의록 파일을 생성하며, 회의록 내용의 수정 및 관리하기 위한 프로그램인 것을 특징으로 하는 다채널 수신기를 이용한 회의록 생성 시스템.
제1항에 있어서,
상기 회의록 관리 프로그램은
상기 다채널 수신기로부터 음성 신호에 해당하는 음성 신호를 수집하고, STT변환부로 수집한 음성을 전달하는 수집부;
음성인식모델을 포함하고, 음성에 대해 텍스트 변환을 수행하는 STT변환부;
상기 STT변환부로부터 변환에 의해 추출된 텍스트를 모아 회의록 파일을 생성하는 생성부;
사용자 요청시 상기 생성부로부터 생성된 회의록 파일을 열람하여 회의록의 수정 또는 삭제 기능을 제공하는 관리부;
를 포함하는 다채널 수신기를 이용한 회의록 생성 시스템.
제2항에 있어서,
유무선통신망으로 사용자단말기와 통신하는 관리서버로부터 최초에 회의록 관리 프로그램을 다운받거나, 생성된 회의록을 웹기반 저장 및 관리하는 서버연동부
를 더 포함하는 다채널 수신기를 이용한 회의록 생성 시스템.
제3항에 있어서,
상기 관리서버는
상기 회의록 관리 프로그램이 설치된 사용자단말기와 유무선 통신에 의해 상기 회의록을 전송받도록 통신 가능한 통신부;
상기 통신부를 통하여 수집된 회의록에 대해서 데이터베이스에 저장하고 관리하기 위해 회원제로 운영하도록 회원정보를 제공받아 저장하고 회원정보를 토대로 상기 회의록 관리 프로그램 및 데이터베이스 저장 기능에 대한 로그인 인증을 수행하며, 상기 회의록 관리 프로그램을 대신하여 웹 프로그램 기반으로 통신하여 회의록을 생성하거나 편집하는 기능을 수행하도록 지원하는 회의록관리부;
상기 회의록에 대하여 회의별, 장소별, 시간별로 구분하여 회의록을 데이터베이스에 저장하여 관리할 수 있도록 하고, 각종 회의록에 대한 통계 정보를 생성하여 사용자에게 제공하는 통계학습부;
상기 사용자단말기에서 설치되어 실행되고 회의록 관리를 위한 회의록 관리 프로그램의 서버연동부와 호환 가능한 인터페이스를 제공하는 앱연동부
를 더 포함하는 다채널 수신기를 이용한 회의록 생성 시스템.
회의 참석자마다 개별적으로 설치되어 참석자의 음성을 입력받는 적어도 하나의 마이크와, 상기 마이크와 연결되어 마이크로부터 입력되는 음성에 대한 음성 신호를 각 마이크마다 개별적인 채널로 수신하고, 음성 신호를 전송하기 위해 사용자단말기와 연결되는 다채널 수신기를 포함한 다채널 수신기를 이용한 회의록 생성 시스템을 이용한 다채널 수신기를 이용한 회의록 생성 방법에 있어서,
상기 사용자단말기에 설치된 회의록 관리 프로그램이 실행되어 로그인을 수행하는 단계;
상기 회의록 관리 프로그램은 회의 시작시 설정된 마이크로 음성 녹음을 개별적으로 실행하는 단계;
회의 종료시 회의 동안 각 마이크를 통하여 개별적으로 녹음된 음성에 대해 각각 음성파일을 생성하는 단계;
음성파일이 복수 개인 경우, 음성파일의 시작 시간을 동기화하기 위한 싱크 처리를 수행하는 단계;
상기 회의록 관리 프로그램은 싱크 처리된 음성파일을 병합하고, 하나의 음성파일에 대하여 하나의 회의록을 생성하기 위한 STT 변환을 수행하는 단계;
상기 음성파일의 모든 음성에 대하여 STT 변환에 의한 텍스트 추출 후 회의록을 생성하여 저장하는 단계;
를 포함하는 다채널 수신기를 이용한 회의록 생성 방법.
제5항에 있어서,
상기 회의록 관리 프로그램은 입력된 음성파일에 대한 STT 변환시, 동시간대에 음성의 주파수 대역 체크를 통하여 복수의 발화한 구간이 있는지를 체크하는 단계;
상기 복수의 발화한 구간에 대해서는 별도의 음성으로 분리하고 추출하여 해당 구간에 대해 STT 변환을 각각 수행하는 단계;
를 더 포함하는 다채널 수신기를 이용한 회의록 생성 방법.
제6항에 있어서,
상기 발화한 구간을 모두 체크하여 복수의 발화 구간이 없는 경우, 음성파일에서 STT변환시 불필요한 잡음을 제거하도록 음성 주파수 대역의 평균치(RMS)를 구해 가장 큰 주파수 대역의 소리만을 취하여 STT 변환을 수행하는 단계;
를 더 포함하는 다채널 수신기를 이용한 회의록 생성 방법.
제5항에 있어서,
상기 회의록 관리 프로그램은 사용자 요청시 회의 도중 설정된 기간 동안 수집된 음성에 대하여 STT 변환을 수행하여 텍스트 결과를 추출하고, 해당 텍스트 결과를 실시간 화면에 디스플레이하는 단계;
를 더 포함하는 다채널 수신기를 이용한 회의록 생성 방법.
제8항에 있어서,
회의 종료 여부를 체크한 회의록 관리 프로그램은 회의 종료 전 회의 도중이라면, 설정된 음성 출력 구간에 대해 STT 변환 후 텍스트 결과의 실시간 디스플레이하는 단계;
복수의 마이크 중 음성 신호가 출력되는 설정된 시간 주기 동안 음성 신호의 평균값(RMS)을 산출하는 단계;
최대 RMS값의 70% 이상을 만족하는 구간에 대해서 음성에 대한 텍스트 변환을 수행하는 단계;
변환된 텍스트는 실시간 화면에 의해 디스플레이되는 단계;
를 더 포함하는 다채널 수신기를 이용한 회의록 생성 방법.
제9항에 있어서,
만약 회의가 종료된 경우에는 종료시까지 녹음된 음성 신호에 대한 텍스트 결과를 일괄 출력하여 화면에 표시하여 제공하는 단계
를 더 포함하는 다채널 수신기를 이용한 회의록 생성 방법.