KR102575038B1 - 화상 회의 서비스 제공 장치 및 방법 - Google Patents

화상 회의 서비스 제공 장치 및 방법 Download PDF

Info

Publication number
KR102575038B1
KR102575038B1 KR1020210046723A KR20210046723A KR102575038B1 KR 102575038 B1 KR102575038 B1 KR 102575038B1 KR 1020210046723 A KR1020210046723 A KR 1020210046723A KR 20210046723 A KR20210046723 A KR 20210046723A KR 102575038 B1 KR102575038 B1 KR 102575038B1
Authority
KR
South Korea
Prior art keywords
video conference
information
user
speaker
meeting
Prior art date
Application number
KR1020210046723A
Other languages
English (en)
Other versions
KR20220009318A (ko
Inventor
이철원
박병권
박인범
경혜윤
서민지
정동욱
노정일
Original Assignee
(주)날리지포인트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)날리지포인트 filed Critical (주)날리지포인트
Publication of KR20220009318A publication Critical patent/KR20220009318A/ko
Application granted granted Critical
Publication of KR102575038B1 publication Critical patent/KR102575038B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 화상 회의 서비스 제공 장치 및 방법에 대한 것이다. 본 발명의 실시 예에 따르면, 화상 회의 서비스 제공 장치는 사용자 음성의 세기 및 지속시간을 이용하여 발언 중인 화자를 인식할 수 있다.

Description

화상 회의 서비스 제공 장치 및 방법{APPARATUS AND METHOD FOR VIDEO CONFERENCING SERVICE}
본 발명은 화상 회의 서비스 제공 기술에 관한 것으로, 더욱 상세하게는 화상 회의에서 화자를 인식하여 화자로 판단된 사용자 영상을 강조하는 화상 회의 서비스 제공 장치 및 방법에 관한 것이다.
화상 회의 시스템은 서로 다른 지리적 위치에 거주하는 둘 이상의 사용자 간에 실시간 및 시각적 커뮤니케이션을 수행하는 기술로, 화상 및 음성데이터를 실시간 공유함으로써 사용자에게 회의 환경을 제공하는 시스템을 의미한다.
화상 회의 시스템은 회의, 교육, 상담, 면접, 세미나 등 다양한 분야에 적용되고 있으며, 특히, 정부에서는 원격근무와 유연근무를 포함한 스마트워크제를 적극 도입하면서 화상 회의 시스템 시장이 크게 확대되고 있다.
일반적으로, 화상 회의 시스템에서는 송출되는 영상 및 음성을 통해 발언 중인 화자를 인식한다. 그러나, 화상 회의 네트워크 환경이 좋지 않아 화상 회의 시스템이 원활하지 않을 경우, 사용자의 영상 및 음성만으로 화자를 감지하기 어려울 수 있다.
또한, 화상 회의에 참여하는 복수의 사용자가 동시에 발언할 경우, 화자를 감지하기 어려운 문제가 있다.
본 발명의 배경기술은 대한민국 등록특허 제10-1094766호에 게시되어 있다.
본 발명은 사용자 음성의 세기 및 지속시간을 이용하여 발언 중인 화자를 인식하는 화상 회의 서비스 제공 장치를 제공하는 것이다.
본 발명은 화상 회의 사용자 중에서 화자의 영상을 표시하여 화자를 명확히 구분하는 화상 회의 서비스 제공 장치를 제공하는 것이다.
본 발명은 사용자의 요청에 따라 화상 회의 컨텐츠를 제어하는 화상 회의 서비스 제공 장치를 제공하는 것이다.
본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 측면에 따르면, 화상 회의 서비스 제공 장치를 제공한다.
본 발명의 일 실시 예에 따른 화상 회의 서비스 제공 장치는 사용자 단말과 통신을 수행하는 통신부, 사용자 단말로부터 화상 회의 데이터를 수신하여 화상 회의 컨텐츠를 생성하는 회의컨텐츠부, 화상 회의 데이터에 포함된 사용자의 음성을 기반으로 화자를 판단하는 화자감지부 및 화자감지부로부터 화자 정보를 수신할 경우, 화자 정보를 이용하여 화상 회의 컨텐츠를 제어하는 출력제어부를 포함할 수 있다.
본 발명의 다른 일 측면에 따르면, 화상 회의 서비스 제공 방법을 제공한다.
본 발명의 일 실시 예에 따른 화상 회의 서비스 제공 방법은 사용자 단말과 통신을 수행하는 단계, 사용자 단말로부터 화상 회의 데이터를 수신하여 화상 회의 컨텐츠를 생성하는 단계, 화상 회의 데이터에 포함된 사용자의 음성을 기반으로 화자를 판단하는 단계 및 화자감지부로부터 화자 정보를 수신할 경우, 화자 정보를 이용하여 화상 회의 컨텐츠를 제어하는 단계를 포함할 수 있다.
본 발명의 실시 예에 따르면, 화상 회의 서비스 제공 장치는 사용자 음성의 세기 및 지속시간을 이용하여 발언 중인 화자를 인식할 수 있다.
본 발명의 실시 예에 따르면, 화상 회의 서비스 제공 장치는 화상 회의 사용자 중에서 화자의 영상을 표시하여 화자를 명확히 구분할 수 있다.
본 발명의 실시 예에 따르면, 화상 회의 서비스 제공 장치는 사용자의 요청에 따라 화상 회의 컨텐츠를 제어할 수 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 설명 또는 청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 시스템(10)의 구성을 나타낸 도면.
도 2는 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치(100)의 구성을 나타낸 블록도.
도 3은 본 발명의 일 실시예에 따른 화상 회의 화자 감지 방법을 설명하는 흐름도.
도 4는 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 화자 자동 표시 화면을 설명하는 도면.
도 5는 본 발명의 일 실시예에 따른 화자 자동 표시 방법을 설명하는 흐름도.
도 6은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 화자 수동 표시 화면을 설명하는 도면.
도 7은 본 발명의 일 실시예에 따른 화자 수동 표시 방법을 설명하는 흐름도.
도 8은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 화면을 설명하는 도면.
도 9는 본 발명의 일 실시예에 따른 화면 편집 방법을 설명하는 흐름도.
도 10은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 자막 화면을 설명하는 도면
도 11은 본 발명의 일 실시예에 따른 자막 제공 방법을 설명하는 흐름도.
도 12는 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 통번역 화면을 설명하는 도면.
도 13은 본 발명의 일 실시예에 따른 통번역 제공 방법을 설명하는 흐름도.
도 14는 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 발언 요청 화면을 설명하는 도면.
도 15는 본 발명의 일 실시예에 따른 통번역 제공 방법을 설명하는 흐름도.
도 16은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 음소거 상태 알림 화면을 설명하는 도면.
도 17은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 방법을 설명하는 흐름도.
도 18은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 메모 내용이 포함된 회의록을 설명하는 도면.
도 19는 본 발명의 일 실시예에 따른 회의록 제공 방법을 설명하는 흐름도.
도 20은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 회의록을 설명하는 도면.
도 21은 본 발명의 일 실시예에 따른 편집 회의록 제공 방법을 설명하는 흐름도.
도 22는 본 발명의 다른 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 회의록을 설명하는 도면.
도 23은 본 발명의 다른 실시예에 따른 편집 회의록 제공 방법을 설명하는 흐름도.
도 24는 본 발명의 다른 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 회의록을 설명하는 도면.
도 25는 본 발명의 다른 실시예에 따른 편집 회의록 제공 방법을 설명하는 흐름도.
도 26은 본 발명의 다른 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 회의록을 설명하는 도면.
도 27은 본 발명의 다른 실시예에 따른 편집 회의록 제공 방법을 설명하는 흐름도.
도 28은 본 발명의 다른 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 회의록을 설명하는 도면.
도 29는 본 발명의 다른 실시예에 따른 편집 회의록 제공 방법을 설명하는 흐름도.
도 30은 본 발명의 다른 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 출석부를 설명하는 도면.
도 31은 본 발명의 다른 실시예에 따른 출석부 제공 방법을 설명하는 흐름도.
도 32는 본 발명의 다른 실시예에 따른 오탈자 수정 방법을 설명하는 흐름도.
도 33은 본 발명의 다른 일 실시예에 따른 화상 회의 서비스 제공 방법을 설명하는 흐름도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.
이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 시스템(10)의 구성을 나타낸 도면이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 시스템(10)은 화상 회의 서비스 제공 장치(100) 및 복수의 사용자 단말(200)을 포함할 수 있다.
화상 회의 서비스 제공 장치(100)는 유무선 네트워크 통신을 통해 각각의 사용자 단말(200)과 연결된다.
화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 화상 회의 데이터를 수신하고, 사용자 단말(200)로 화상 회의 컨텐츠를 송신한다. 예를 들어, 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 수신한 사용자 영상 및 사용자 음성을 포함하는 화상 회의 컨텐츠를 생성하여 각각의 사용자 단말(200)로 송신할 수 있다. 화상 회의 데이터는 사용자 영상, 사용자 음성 이외에도 사용자 이름, 캐릭터, 생년월일, ip 주소 등의 사용자 식별 정보를 포함할 수 있다.
화상 회의 서비스 제공 장치(100)는 화상 회의 컨텐츠에서 화자로 판단된 사용자 영상을 강조하여 표시할 수 있다.
화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 이름표 생성 요청을 수신할 경우, 사용자의 이름을 추출하여 화상 회의 컨텐츠에 사용자의 이름을 표시할 수 있다.
화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 테두리 강조 요청을 수신할 경우, 사용자 영상의 테두리 색상을 변경할 수 있다.
화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 캐릭터 표시 요청을 수신할 경우, 사용자 영상을 캐릭터로 변환할 수 있다.
화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 화면 편집 요청을 수신할 경우 화상 회의 컨텐츠를 드래그 앤 드롭 하여 원하는 영상을 분리하거나, 리사이징 하여 영상의 크기를 변경할 수 있다.
화상 회의 서비스 제공 장치(100)는 자막생성부(105)로부터 생성된 자막 정보를 표시할 수 있다.
화상 회의 서비스 제공 장치(100)는 통번역부(106)로부터 생성된 통번역 정보를 표시할 수 있다.
화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 발언 요청을 수신할 경우 발언 중인 화자를 확인하여 사용자 음성을 제어할 수 있다.
화상 회의 서비스 제공 장치(100)는 발언 요청을 통해 발원권을 받은 사용자 단말(200)이 음소거 상태일 때, 음소거 상태를 알려주는 화면을 생성할 수 있다.
화상 회의 서비스 제공 장치(100)는 사용자가 회의 중 회의 관련 메모를 기록할 경우, 회의록 생성 시 메모 정보를 포함한 회의록을 생성할 수 있다.
화상 회의 서비스 제공 장치(100)는 사용자가 검색한 회의 내용과 대응하는 회의 정보를 추출하여 편집 회의록을 생성할 수 있다.
화상 회의 서비스 제공 장치(100)는 사용자가 선택한 화자에 대응하는 문자 정보를 포함한 편집 회의록을 생성할 수 있다.
화상 회의 서비스 제공 장치(100)는 사용자가 검색한 회의 시간에 대응하는 문자 정보를 포함한 편집 회의록을 생성할 수 있다.
화상 회의 서비스 제공 장치(100)는 회의 정보를 이용하여 회의 참여도 정보를 생성하고, 회의 참여도 정보가 포함된 회의록을 생성할 수 있다.
화상 회의 서비스 제공 장치(100)는 통번역부(106)로부터 통번역 정보를 수신할 경우, 번역 텍스트를 이용하여 편집 회의록을 생성할 수 있다.
화상 회의 서비스 제공 장치(100)는 얼굴 인식 수행 결과 회의 시작 전 참석 화면과 회의 중 참석 화면에 포함된 인물을 다른 인물로 판단할 경우, 참석부 화면에 얼굴 인식 결과 불일치 텍스트를 포함할 수 있다.
사용자 단말(200)은 화상 회의를 실시하기 위해 사용되는 장치로, 사용자의 영상을 촬영하고 음성을 녹음하는 기능을 포함하는 데스크탑, 노트북, 스마트폰, PDA 등과 같은 전자 기기 또는 스마트 글래스, 스마트 고글 등과 같은 웨어러블 기기 등을 포함할 수 있으며, 본 발명이 이에 한정되는 것은 아니다.
사용자 단말(200)은 비디오 입력 모듈을 통해 사용자 영상을 획득할 수 있으며, 오디오 입력 모듈을 통해 사용자 음성을 획득할 수 있고, 다양한 방식의 입력 모듈을 통해 사용자 화상 회의 참여 정보를 획득할 수 있다. 사용자 단말(200)은 획득한 사용자 영상, 사용자 음성, 사용자 식별 정보 등을 화상 회의 서비스 제공 장치(100)로 전송할 수 있다.
사용자 단말(200)은 화상 회의 서비스 제공 장치(100)로부터 수신한 화상 회의 컨텐츠를 화면 상에 출력할 수 있다. 여기서, 사용자는 입력 모듈을 이용하여 사용자 요청 정보를 입력하여 화상 회의 컨텐츠를 변경할 수 있다. 즉, 사용자 단말(200)은 사용자의 기호에 따라 화상 회의 컨텐츠를 커스터마이징 할 수 있다.
사용자 단말(200)은 서로 다른 공간 상에 위치할 수 있다. 또한, 사용자들은 사용자 단말(200)에서 출력되는 화면을 통해 발언 중인 화자를 감지할 수 있으며, 회의 내용을 기반으로 생성된 회의록을 제공받을 수 있다.
도 2는 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치(100)의 구성을 나타낸 블록도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치(100)는 통신부(101), 회의컨텐츠부(102), 화자감지부(103), 출력제어부(104), 음성인식부(105), 통번역부(106), 회의록생성부(107), 회의참석판단부(108) 및 저장부(109)를 포함할 수 있다.
통신부(101)는 유무선 네트워크를 통해 사용자 단말(200)과 통신을 수행한다. 예를 들어, 통신부(101)는 LANs(Local Area Networks), WANs(Wide Area Networks), MANs(Metropolitan Area Networks), ISDNs(Integrated Service Digital Networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 이용할 수 있으나, 본 발명이 이에 한정되는 것은 아니다.
통신부(101)는 통신 연결된 사용자 단말(200)로부터 화상 회의 데이터를 수신한다. 여기서, 화상 회의 데이터는 사용자 영상, 사용자 음성뿐만 아니라 사용자 이름, 캐릭터, 생년월일, ip 주소 등의 사용자 식별 정보 등을 포함할 수 있다. 통신부(101)는 수신한 화상 회의 데이터를 저장부(109)에 저장할 수 있다.
회의컨텐츠부(102)는 각각의 사용자 단말(200)로부터 화상 회의 데이터를 수신하면, 회의를 진행할 수 있는 회의실을 생성한다. 구체적으로, 회의컨텐츠부(102)는 3개의 사용자 단말(200)로부터 화상 회의 데이터를 수신할 경우, 회의실을 생성하여 3개의 사용자 단말(200)을 생성된 회의실에 입장할 수 있도록 한다.
이 때, 회의컨텐츠부(102)는 사용자 단말(200)에 대한 초대 확인 절차를 수행할 수 있다. 예를 들어, 회의컨텐츠부(102)는 생성된 회의실에 미리 초대된 사용자만 참석할 수 있도록 별도의 암호를 설정할 수 있다. 이를 통해, 회의컨텐츠부(102)는 암호를 올바르게 입력한 사용자에게만 회의실에 입장할 수 있도록 함으로써 회의 진행 내용에 대한 보안을 강화할 수 있다.
회의컨텐츠부(102)는 회의실을 생성하면 각각의 사용자 단말(200)로부터 수신한 화상 회의 데이터를 이용하여 화상 회의 컨텐츠를 생성한다. 예를 들어, 회의컨텐츠부(102)는 4개의 사용자 단말(200)과 연결된 경우, 4개의 화상 회의 데이터를 포함한 화상 회의 컨텐츠를 생성할 수 있다. 여기서, 화상 회의 컨텐츠는 사용자의 음성, 사용자의 영상을 포함하여 생성된다.
회의컨텐츠부(102)는 생성된 화상 회의 컨텐츠를 사용자 단말(200)로 전송할 수 있다. 또한, 회의컨텐츠부(102)는 생성된 화상 회의 컨텐츠를 저장부(109)에 저장할 수 있다.
화자감지부(103)는 사용자의 음성을 기반으로 화자를 판단한다. 구체적으로, 화자감지부(103)는 화상 회의 데이터에 포함된 사용자의 음성을 이용하여 음성의 세기 및 음성의 지속시간을 분석한다. 화자감지부(103)는 사용자 음성의 세기가 기설정된 수치를 초과하고, 사용자 음성의 지속시간이 기설정된 시간 이상으로 확인될 경우, 사용자의 음성을 화자로 판단한다. 이 때, 화자감지부(103)는 화자 정보를 생성하여 출력제어부(104)로 전송할 수 있다.
출력제어부(104)는 화자감지부(103)로부터 화자 정보를 수신할 경우, 화자 정보를 기반으로 화상 회의 컨텐츠를 제어할 수 있다. 예를 들어, 출력제어부(104)는 화상 회의 컨텐츠에서 화자로 판단된 사용자 영상을 강조하여 복수의 사용자 단말로 제공함으로써 회의 참가자들이 화자를 시각적으로 확인할 수 있도록 한다.
또한, 출력제어부(104)는 사용자 단말(200)로부터 화자 수동 표시 요청 신호를 수신할 경우, 화상 회의 컨텐츠를 제어한다. 즉, 출력제어부(104)는 화자감지부(103)로부터 화자 정보를 수신하지 않아도, 사용자 단말의 화자 수동 표시 요청에 따라 복수의 사용자 단말에 대해 화상 회의 컨텐츠를 제어할 수 있다. 예를 들어, 출력제어부(104)는 사용자 단말(200)로부터 이름표 생성 요청을 수신할 경우, 사용자의 이름을 추출하여 화상 회의 컨텐츠에 사용자의 이름을 표시할 수 있다. 출력제어부(104)는 사용자 단말(200)로부터 테두리 강조 요청을 수신할 경우, 화상 회의 컨텐츠에서 수동 표시 요청한 사용자 영상을 강조할 수 있다. 출력제어부(104)는 사용자 단말(200)로부터 캐릭터 추출 요청을 수신할 경우, 화상 회의 컨텐츠에서 사용자의 영상을 캐릭터로 변경할 수 있다.
출력제어부(104)는 사용자 단말(200)로부터 화면 변경 요청을 수신할 경우, 사용자의 입력에 따라 화상 회의 컨텐츠를 드래그 앤 드롭 또는 리사이징하여 요청한 사용자 단말(200)로 전송할 수 있다.
출력제어부(104)는 문자변환부(105)로부터 자막 정보를 수신할 경우, 자막 정보를 기반으로 화상 회의 컨텐츠에서 자막 화면을 생성할 수 있다.
출력제어부(104)는 통번역부(106)로부터 통번역 정보를 수신할 경우, 번역 텍스트 또는 통역 음성 중 적어도 하나를 화상 회의 컨텐츠에 표시할 수 있다.
이외에도, 출력제어부(104)는 사용자 단말(200)의 요청 신호에 따라 화상 회의 컨텐츠를 다양하게 제어할 수 있다.
음성인식부(105)는 수신한 사용자 음성을 인식한다. 구체적으로, 음성인식부(105)는 사용자 음성에 대한 특징 정보를 추출하고, 추출된 특징 정보를 학습된 모델에 입력하여 사용자 음성을 인식을 수행함으로써 사용자의 음성을 문자로 변환할 수 있다. 여기서, 음성인식부(105)는 변환된 문자를 이용하여 문자 정보, 자막 정보 등을 생성할 수 있다. 음성인식부(105)는 문자 정보, 자막 정보를 출력제어부(104) 또는 회의록생성부(107)로 전송할 수 있다.
통번역부(106)는 수신한 사용자 음성을 기반으로 통번역 요청 언어에 대응하는 번역 텍스트를 생성한다. 예를 들어, 통번역부(106)는 사용자 단말(200)로부터 사용자 음성에 대한 영어 통번역을 요청 받을 경우, 수신한 사용자 음성에 대응하는 영어 통번역 정보를 생성한다. 여기서, 통번역 정보는 사용자가 통번역을 요청한 언어의 번역 텍스트 및 통역 음성을 포함할 수 있다. 통번역부(106)는 생성된 통번역 정보를 출력제어부(104) 또는 회의록생성부(107)로 전송할 수 있다.
회의록생성부(107)는 회의를 통해 생성된 회의 정보를 이용하여 회의록을 생성한다. 여기서, 회의 정보는 문자 정보, 자막 정보, 통번역 정보 등을 포함할 수 있으며, 회의록생성부(107)는 문자 정보, 자막 정보, 통번역 정보 중 적어도 하나를 기반으로 회의록을 생성할 수 있다. 여기서, 회의록생성부(107)는 회의 중 작성된 메모가 존재할 경우, 메모 정보를 병합한 회의록을 생성할 수 있다.
회의록생성부(107)는 사용자의 요청에 따라 다양한 형식의 편집 회의록을 생성할 수 있다.
예를 들어, 회의록생성부(107)는 사용자 단말로부터 회의 내용 검색 요청을 수신할 경우, 검색된 회의 내용과 대응하는 회의 정보를 추출하여 편집 회의록을 생성할 수 있다.
회의록생성부(107)는 사용자 단말로부터 화자 한정 회의 내용 검색 요청을 수신할 경우, 선택된 화자와 대응하는 회의 정보를 추출하여 편집 회의록을 생성할 수 있다.
회의록생성부(107)는 사용자 단말로부터 시간 한정 회의 내용 검색 요청을 수신할 경우, 검색된 시간과 대응하는 회의 정보를 추출하여 편집 회의록을 생성할 수 있다.
회의록생성부(107)는 사용자 단말로부터 회의 내용 통계 요청을 수신할 경우, 회의 정보를 이용하여 회의 참여도 정보를 생성하고, 회의 참여도 정보가 포함된 편집 회의록을 생성할 수 있다. 여기서, 회의 참여도 정보는 화자별 회의 참여도를 나타내는 그래프를 포함하는 정보이다. 회의록생성부(107)는 기설정된 기준에 따라 회의 정보를 이용하여 화자별 회의 참여도 정보를 생성할 수 있다.
회의록생성부(107)는 통번역부(106)로부터 통번역 정보를 수신할 경우, 번역 텍스트를 이용하여 편집 회의록을 생성할 수 있다.
회의참석판단부(108)는 회의 시작 전 및 회의 중 참석 화면을 수신하고, 두 화면을 입력으로 AI 기반 얼굴 인식을 수행하여 동일 인물 여부 확인 절차를 수행할 수 있다. 또한, 얼굴 인식 결과에 따라 출석 및 결석 정보를 생성하여 참석 화면과 함께 출석 여부를 확인할 수 있는 출석부를 제공할 수 있다.
저장부(109)는 화상 회의를 통해 생성된 정보들을 저장한다. 예를 들어, 저장부(109)는 문자 정보, 자막 정보, 통번역 정보 등을 저장한다. 여기서, 저장부(109)는 문자 정보, 자막 정보 및 통번역 정보에서 맞춤법 판단을 수행하여 오탈자 또는 변한되지 않은 문장을 수정하여 저장할 수 있다.
도 3은 본 발명의 일 실시예에 따른 화상 회의 화자 감지 방법을 설명하는 흐름도이다.
도 3을 참조하면, S301에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)과 통신을 수행한다.
S303에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 화상 회의 데이터를 수신한다.
S305에서 화상 회의 서비스 제공 장치(100)는 수신한 각각의 화상 회의 데이터에서 사용자 음성의 세기가 기설정된 수치를 초과할 경우, S307로 이동한다.
S307에서 화상 회의 서비스 제공 장치(100)는 수신한 각각의 사용자 음성의 지속시간이 기설정된 시간 이상일 경우, S309로 이동한다.
S309에서 화상 회의 서비스 제공 장치(100)는 사용자의 음성을 화자로 판단하고, 화자 정보를 포함하는 화상 회의 컨텐츠를 생성한다.
S311에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로 생성된 화자 정보를 포함한 화상 회의 컨텐츠를 전송한다.
S313에서 화상 회의 서비스 제공 장치(100)는 사용자 음성의 세기가 기설정된 수치를 초과하지 않거나 사용자 음성의 지속시간이 기설정된 시간 미만일 경우, 화자 정보를 포함하지 않은 화상 회의 컨텐츠를 생성한다.
S315에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로 화상 회의 컨텐츠를 전송한다.
도 4는 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 화자 자동 표시 화면을 설명하는 도면이다.
도 4를 참조하면, 출력제어부(104)는 화상 회의 컨텐츠에서 화자로 판단된 사용자 영상을 강조하여 표시할 수 있다. 예를 들어, 출력제어부(104)는 화자로 판단된 사용자 영상의 테두리 색상을 변경(a)하거나, 테두리의 두께를 변경하거나(b), 사용자 영상의 크기를 확대할 수 있다(c).
도 5는 본 발명의 일 실시예에 따른 화자 자동 표시 방법을 설명하는 흐름도이다.
도 5를 참조하면, S501에서 화상 회의 서비스 제공 장치(100)는 화자감지부(103)로부터 수신한 화자 정보를 확인한다.
S503에서 화상 회의 서비스 제공 장치(100)는 화상 회의 컨텐츠에서 화자로 판단된 사용자 영상을 강조한다. 예를 들어, 화상 회의 서비스 제공 장치(100)는 화자로 판단된 사용자 영상의 테두리 색상을 변경하거나, 테두리의 두께를 변경하거나, 사용자 영상의 크기를 확대할 수 있으며, 사용자의 설정에 의해 사용자 영상의 강조 방식이 선택될 수 있다.
S505에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로 사용자 영상이 강조된 화상 회의 컨텐츠를 전송한다.
도 6은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 화자 수동 표시 화면을 설명하는 도면이다.
도 6을 참조하면, 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 이름표 생성 요청을 수신할 경우, 사용자의 이름을 추출하여 화상 회의 컨텐츠에 사용자의 이름을 표시할 수 있다. 또한, 화상 회의 서비스 제공 장치(100)는 테두리 강조 요청을 수신할 경우, 사용자 영상의 테두리 색상을 변경할 수 있다. 또한, 화상 회의 서비스 제공 장치(100)는 캐릭터 표시 요청을 수신할 경우, 사용자 영상을 캐릭터로 변환할 수 있다. 화상 회의 서비스 제공 장치(100)는 변경된 화상 회의 컨텐츠를 연결된 사용자 단말(200)로 전송할 수 있다.
도 7은 본 발명의 일 실시예에 따른 화자 수동 표시 방법을 설명하는 흐름도이다.
도 7을 참조하면, S701에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 화자 수동 표시 요청을 수신한다.
S702에서 화상 회의 서비스 제공 장치(100)는 이름표 생성 요청을 수신한 경우, S703으로 이동한다.
S703에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 수신한 화상 회의 데이터에서 사용자 이름을 추출한다.
S704에서 화상 회의 서비스 제공 장치(100)는 화상 회의 컨텐츠에서 사용자의 영상에 사용자 이름표를 생성한다.
S705에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로 사용자 이름표가 생성된 화상 회의 컨텐츠를 전송한다.
S706에서 화상 회의 서비스 제공 장치(100)는 테두리 강조 요청을 수신한 경우 S707로 이동한다.
S707에서 화상 회의 서비스 제공 장치(100)는 화상 회의 컨텐츠에서 사용자 영상을 강조한다. 예를 들어, 화상 회의 서비스 제공 장치(100)는 화상 회의 컨텐츠에서 수신한 사용자 영상의 테두리 색상을 변경하거나 두께를 변경할 수 있다.
S708에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로 사용자 영상이 강조된 화상 회의 컨텐츠를 전송한다.
S709에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 수신한 화상 회의 데이터에서 사용자 캐릭터를 추출한다.
S710에서 화상 회의 서비스 제공 장치(100)는 사용자의 영상에 사용자 캐릭터를 생성한다.
S711에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로 사용자 캐릭터가 생성된 화상 회의 컨텐츠를 전송한다.
도 8은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 화면을 설명하는 도면이다.
도 8을 참조하면, 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 화면 편집 요청을 수신할 경우 화상 회의 컨텐츠를 드래그 앤 드롭 하여 원하는 영상을 분리하거나, 리사이징 하여 영상의 크기를 변경할 수 있다.
도 9는 본 발명의 일 실시예에 따른 화면 편집 방법을 설명하는 흐름도이다.
도 9를 참조하면, S901에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 화면 편집 요청을 수신한다.
S902에서 화상 회의 서비스 제공 장치(100)는 드래그 앤 드롭 요청을 수신한 경우, S903으로 이동한다.
S903에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 수신한 화상 회의 데이터에서 사용자 이름을 추출한다.
S904에서 화상 회의 서비스 제공 장치(100)는 화상 회의 컨텐츠에 포함된 사용자의 영상에 사용자 이름표를 생성한다.
S905에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로 사용자 이름표가 생성된 화상 회의 컨텐츠를 전송한다.
S906에서 화상 회의 서비스 제공 장치(100)는 테두리 강조 요청을 수신한 경우 화상 회의 컨텐츠에서사용자 영상을 강조한다. 예를 들어, 화상 회의 서비스 제공 장치(100)는 화상 회의 컨텐츠에 포함된 사용자 영상의 테두리 색상을 변경하거나 두께를 변경할 수 있다.
도 10은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 자막 화면을 설명하는 도면이다.
도 10을 참조하면, 화상 회의 서비스 제공 장치(100)는 자막생성부(105)로부터 생성된 자막 정보를 표시할 수 있다. 예를 들어, 화상 회의 서비스 제공 장치(100)는 자막 정보를 기반으로 화상 회의 컨텐츠에 자막 화면을 생성할 수 있다.
도 11은 본 발명의 일 실시예에 따른 자막 제공 방법을 설명하는 흐름도이다.
도 11을 참조하면, S1101에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 자막 요청을 수신한다.
S1102에서 화상 회의 서비스 제공 장치(100)는 화상 회의 데이터에서 사용자 음성을 추출하여 STT(Speech To Text)를 기반으로 자막 정보로 변환한다.
S1103에서 화상 회의 서비스 제공 장치(100)는 자막 정보를 기반으로 화상 회의 컨텐츠에 자막 화면을 생성한다.
S1104에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로 자막 화면이 생성된 화상 회의 컨텐츠를 전송한다.
도 12는 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 통번역 화면을 설명하는 도면이다.
도 12를 참조하면, 화상 회의 서비스 제공 장치(100)는 통번역부(106)로부터 생성된 통번역 정보를 표시할 수 있다. 예를 들어, 화상 회의 서비스 제공 장치(100)는 사용자의 통번역 언어 선택에 따라 생성된 통번역 정보를 기반으로 화상 회의 컨텐츠에 텍스트 및/또는 음성을 생성할 수 있다.
도 13은 본 발명의 일 실시예에 따른 통번역 제공 방법을 설명하는 흐름도이다.
도 13을 참조하면, S1301에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 통번역 요청을 수신한다.
S1302에서 화상 회의 서비스 제공 장치(100)는 화상 회의 데이터에서 사용자 음성을 추출하여 음성 데이터의 언어를 판단한다.
S1303에서 화상 회의 서비스 제공 장치(100)는 통번역 요청 언어에 대응하는 번역 텍스트를 생성한다.
S1304에서 화상 회의 서비스 제공 장치(100)는 TTS(?? 뭐에 대한 약자인가요?)를 기반으로 번역 텍스트에 대한 통역 음성 정보를 생성한다.
S1305에서 화상 회의 서비스 제공 장치(100)는 화상 회의 데이터에 통역 음성 및 번역 텍스트를 포함한다.
S1306에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로 통역 음성 및 번역 텍스트가 포함된 화상 회의 컨텐츠를 전송한다.
도 14는 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 발언 요청 화면을 설명하는 도면이다.
도 14를 참조하면, 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 발언 요청을 수신할 경우 발언 중인 화자를 확인하여 사용자 음성을 제어할 수 있다.
도 15는 본 발명의 일 실시예에 따른 통번역 제공 방법을 설명하는 흐름도이다.
도 15를 참조하면, S1501에서 화상 회의 서비스 제공 장치(100)는 사용자 단말(200)로부터 발언 요청을 수신한다.
S1502에서 화상 회의 서비스 제공 장치(100)는 화자감지부(103)로부터 발언 중인 화자가 존재하는지 확인한다.
S1503에서 화상 회의 서비스 제공 장치(100)는 화자가 존재할 경우 S1502로 이동한다. 화상 회의 서비스 제공 장치(100)는 화자가 존재하지 않을 경우 S1504로 이동한다.
S1504에서 화상 회의 서비스 제공 장치(100)는 요청한 사용자 음성만을 출력하여 연결된 사용자 단말(200)로 전송한다.
도 16은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 음소거 상태 알림 화면을 설명하는 도면이다.
도 16을 참조하면, 화상 회의 서비스 제공 장치(100)는 발언 요청을 통해 발원권을 받은 사용자 단말(200)이 음소거 상태일 때, 음소거 상태를 알려주는 화면을 생성할 수 있다. 이 때, 출력제어부(104)는 화상 회의 컨텐츠에 음소거된 사용자의 영상에 대해 음소거 상태를 알리는 아이콘을 생성하거나 테두리 색상을 변경할 수 있다.
도 17은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 방법을 설명하는 흐름도이다.
도 17을 참조하면, 화상 회의 서비스 제공 장치(100)는 복수의 사용자 단말(200')과 연동되어 회의실을 생성하고, 복수의 사용자를 회의실에 초대한다.
화상 회의 서비스 제공 장치(100)는 복수의 사용자 단말(200')과 영상 및 음성이 연결된다.
사용자가 발언을 시작하거나 녹음을 시작하면, 화상 회의 서비스 제공 장치(100)는 화자를 인식하여 화자를 감지하고 선정한다.
화상 회의 서비스 제공 장치(100)는 감지된 화자의 정보를 복수의 사용자 단말(200')로 전송한다.
복수의 사용자 단말(200')은 화자 화면을 표시한다.
사용자가 발언을 멈추거나 녹음을 중지하면, 화상 회의 서비스 제공 장치(100)는 화자의 발언이 멈춘 것을 인식하여 화자 감지를 해제한다.
화상 회의 서비스 제공 장치(100)는 복수의 사용자 단말(200')로 화자 해제 정보를 전송한다.
복수의 사용자 단말(200')은 화자 화면 표시를 해제한다.
회의가 끝나면, 복수의 사용자 단말(200')은 녹음된 파일을 화상 회의 서비스 제공 장치(100)로 전송한다.
화상 회의 서비스 제공 장치(100)는 녹음파일 및 화자 정보를 정보 저장소 또는 파일 저장소에 저장한다.
도 18은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 메모 내용이 포함된 회의록을 설명하는 도면이다.
도 18을 참조하면, 화상 회의 서비스 제공 장치(100)는 사용자가 회의 중 회의 관련 메모를 기록할 경우, 회의록 생성 시 메모 정보를 포함한 회의록을 생성한다.
도 19는 본 발명의 일 실시예에 따른 회의록 제공 방법을 설명하는 흐름도이다.
도 19를 참조하면, S1901에서 화상 회의 서비스 제공 장치(100)는 회의가 종료되면 회의를 통해 생성된 회의 정보를 저장한다.
S1902에서 화상 회의 서비스 제공 장치(100)는 회의 정보에 메모 정보가 포함된 경우, S1903으로 이동한다.
S1903에서 화상 회의 서비스 제공 장치(100)는 메모 내용을 포함한 회의록을 생성한다.
S1904에서 화상 회의 서비스 제공 장치(100)는 회의 정보에 메모 정보가 포함되지 않을 경우 사용자 요청에 따른 편집 회의록을 생성한다.
도 20은 본 발명의 일 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 회의록을 설명하는 도면이다.
도 20을 참조하면, 화상 회의 서비스 제공 장치(100)는 사용자가 검색한 회의 내용과 대응하는 회의 정보를 추출하여 편집 회의록을 생성한다. 예를 들어, 사용자가 “발언내용”을 검색할 경우, 화상 회의 서비스 제공 장치(100)는 “발언내용”과 대응하는 문자 정보를 추출할 수 있다. 여기서, 화상 회의 서비스 제공 장치(100)는 추출된 문자 정보를 화자 별로 구분하여 표시할 수 있다.
도 21은 본 발명의 일 실시예에 따른 편집 회의록 제공 방법을 설명하는 흐름도이다.
도 21을 참조하면, S2101에서 화상 회의 서비스 제공 장치(100)는 사용자 단말로부터 회의 내용 검색 요청을 수신한다.
S2102에서 화상 회의 서비스 제공 장치(100)는 검색된 회의 내용과 대응하는 문자 정보를 추출한다.
S2103에서 화상 회의 서비스 제공 장치(100)는 화자 별로 문자 정보를 구분한 회의 내용을 생성한다.
S2104에서 화상 회의 서비스 제공 장치(100)는 생성된 회의 내용을 기반으로 편집 회의록을 생성한다.
도 22는 본 발명의 다른 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 회의록을 설명하는 도면이다.
도 22를 참조하면, 화상 회의 서비스 제공 장치(100)는 사용자가 선택한 화자에 대응하는 문자 정보를 포함한 편집 회의록을 생성한다. 예를 들어, 사용자가 user1, user2 및 user3를 선택할 경우, 화상 회의 서비스 제공 장치(100)는 user1, user2 및 user3에 대응하는 문자 정보만을 추출할 수 있다.
도 23은 본 발명의 다른 실시예에 따른 편집 회의록 제공 방법을 설명하는 흐름도이다.
도 23을 참조하면, S2301에서 화상 회의 서비스 제공 장치(100)는 사용자 단말로부터 화자 한정 회의 내용 검색 요청을 수신한다.
S2302에서 화상 회의 서비스 제공 장치(100)는 선택된 화자에 대응하는 문자 정보를 추출한다.
S2303에서 화상 회의 서비스 제공 장치(100)는 화자 별 문자 정보를 구분한 회의 내용을 생성한다. 여기서, 화상 회의 서비스 제공 장치(100)는 해당 문자 정보에 대응하는 회의 시간을 회의 내용에 포함할 수도 있다.
S2304에서 화상 회의 서비스 제공 장치(100)는 생성된 회의 내용을 기반으로 편집 회의록을 생성한다.
도 24는 본 발명의 다른 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 회의록을 설명하는 도면이다.
도 24를 참조하면, 화상 회의 서비스 제공 장치(100)는 사용자가 검색한 회의 시간에 대응하는 문자 정보를 포함한 편집 회의록을 생성한다. 예를 들어, 사용자가 “00:00~01:00”를 검색할 경우, 화상 회의 서비스 제공 장치(100)는 해당 시간에 대응하는 문자 정보를 추출할 수 있다. 여기서, 화상 회의 서비스 제공 장치(100)는 추출된 문자 정보를 화자 별로 구분하여 표시할 수 있다.
도 25는 본 발명의 다른 실시예에 따른 편집 회의록 제공 방법을 설명하는 흐름도이다.
도 25를 참조하면, S2501에서 화상 회의 서비스 제공 장치(100)는 사용자 단말로부터 시간 한정 회의 내용 검색 요청을 수신한다.
S2502에서 화상 회의 서비스 제공 장치(100)는 검색된 회의 시간과 대응하는 문자 정보를 추출한다.
S2503에서 화상 회의 서비스 제공 장치(100)는 화자 별로 문자 정보를 구분한 회의 내용을 생성한다.
S2504에서 화상 회의 서비스 제공 장치(100)는 생성된 회의 내용을 기반으로 편집 회의록을 생성한다.
도 26은 본 발명의 다른 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 회의록을 설명하는 도면이다.
도 26을 참조하면, 화상 회의 서비스 제공 장치(100)는 회의 정보를 이용하여 회의 참여도 정보를 생성하고, 회의 참여도 정보가 포함된 회의록을 생성할 수 있다. 여기서, 회의 참여도 정보는 화자별 회의 참여도를 나타내는 그래프를 포함하는 정보이다. 화상 회의 서비스 제공 장치(100)는 기설정된 기준에 따라 회의 정보를 이용하여 화자별 회의 참여도 정보를 생성할 수 있다. 화상 회의 서비스 제공 장치(100)는 막대 그래프, 원 그래프 등 다양한 그래프 형식을 통해 화자별 회의 참여도 정보를 제공할 수 있다.
도 27은 본 발명의 다른 실시예에 따른 편집 회의록 제공 방법을 설명하는 흐름도이다.
도 27을 참조하면, S2701에서 화상 회의 서비스 제공 장치(100)는 사용자 단말로부터 시간 한정 회의 내용 검색 요청을 수신한다.
S2702에서 화상 회의 서비스 제공 장치(100)는 회의 정보를 이용하여 회의 참여도 정보를 생성한다.
S2703에서 화상 회의 서비스 제공 장치(100)는 생성된 회의 참여도 정보를 기반으로 편집 회의록을 생성한다.
도 28은 본 발명의 다른 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 편집 회의록을 설명하는 도면이다.
도 28을 참조하면, 화상 회의 서비스 제공 장치(100)는 통번역부(106)로부터 통번역 정보를 수신할 경우, 번역 텍스트를 이용하여 편집 회의록을 생성한다.
도 29는 본 발명의 다른 실시예에 따른 편집 회의록 제공 방법을 설명하는 흐름도이다.
도 29를 참조하면, S2901에서 화상 회의 서비스 제공 장치(100)는 통번역부(106)로부터 통번역 정보를 수신한다.
S2902에서 화상 회의 서비스 제공 장치(100)는 번역 텍스트를 이용하여 회의 내용을 생성한다.
S2903에서 화상 회의 서비스 제공 장치(100)는 생성된 회의 내용을 기반으로 편집 회의록을 생성한다.
도 30은 본 발명의 다른 실시예에 따른 화상 회의 서비스 제공 장치가 제공하는 출석부를 설명하는 도면이다.
도 30을 참조하면, 화상 회의 서비스 제공 장치(100)는 회의 시작 전 및 회의 중 참석 화면을 수신하여 동일 인물 여부 확인 절차를 수행한다. 화상 회의 서비스 제공 장치(100)는 얼굴 인식 결과 동일한 인물로 판단되면, 출석 정보를 생성하고, 얼굴 인식 결과 다른 인물로 판단되거나 수신한 참석 화면이 없을 경우, 결석 정보를 생성한다. 여기서, 결석 정보는 결석 판단 내용을 포함할 수 있다. 예를 들어, 화상 회의 서비스 제공 장치(100)는 얼굴 인식 수행 결과 회의 시작 전 참석 화면과 회의 중 참석 화면에 포함된 인물을 다른 인물로 판단할 경우, 참석부 화면에 얼굴 인식 결과 불일치 텍스트를 포함할 수 있다.
도 31은 본 발명의 다른 실시예에 따른 출석부 제공 방법을 설명하는 흐름도이다.
도 31을 참조하면, S3101에서 화상 회의 서비스 제공 장치(100)는 회의 시작 전 회의실에 참가한 사용자의 영상이 포함된 회의 참석 화면을 수신한다.
S3102에서 화상 회의 서비스 제공 장치(100)는 회의 중 회의실에 참가한 사용자의 영상이 포함된 회의 참석 화면을 수신한다.
S3103에서 화상 회의 서비스 제공 장치(100)는 AI를 기반으로 회의 시작 전 및 회의 중 화면에 포함된 사용자의 얼굴을 인식한다.
S3104에서 화상 회의 서비스 제공 장치(100)는 얼굴 인식 결과 동일한 인물로 판단될 경우, S3105로 이동한다.
S3105에서 화상 회의 서비스 제공 장치(100)는 동일한 인물로 판단된 사용자에 대한 출석 정보를 생성한다.
S3106에서 화상 회의 서비스 제공 장치(100)는 동일한 인물로 판단되지 않은 사용자에 대한 결석 정보를 생성한다.
S3107에서 화상 회의 서비스 제공 장치(100)는 생성된 출석 및 결석 정보를 이용하여 출석부를 생성한다.
도 32는 본 발명의 다른 실시예에 따른 오탈자 수정 방법을 설명하는 흐름도이다.
도 32를 참조하면, S3201에서 화상 회의 서비스 제공 장치(100)는 화상 회의를 통해 생성된 정보들을 저장한다. 예를 들어, 화상 회의 서비스 제공 장치(100)는 문자 정보, 자막 정보, 통번역 정보 등을 저장한다.
S3202에서 화상 회의 서비스 제공 장치(100)는 저장된 문자 정보, 자막 정보, 통번역 정보 중 변환되지 않은 문장이 존재하는지 판단한다.
S3203에서 화상 회의 서비스 제공 장치(100)는 변환되지 않은 문장에서 오탈자가 존재하는지 판단한다.
S3204에서 화상 회의 서비스 제공 장치(100)는 오탈자가 존재할 경우, 오탈자 문구를 별도 표시하여 저장한다.
S3205에서 화상 회의 서비스 제공 장치(100)는 변환되지 않은 문장 전체를 특정 문구로 변환하여 저장한다. 예를 들어, 화상 회의 서비스 제공 장치(100)는 변환되지 않은 문장 전체를 “?” 로 변환하여 저장할 수 있다.
도 33은 본 발명의 다른 일 실시예에 따른 화상 회의 서비스 제공 방법을 설명하는 흐름도이다.
도 33을 참조하면, 화상 회의 서비스 제공 장치(100)는 복수의 사용자 단말(200')과 연동되어 회의실을 생성하고, 복수의 사용자를 회의실에 초대한다.
화상 회의 서비스 제공 장치(100)는 복수의 사용자 단말(200')과 영상 및 음성이 연결된다.
화상 회의 서비스 제공 장치(100)는 복수의 사용자 단말(200')을 통해 입력된 회의 기본정보를 저장한다. 여기서, 회의 기본정보는 회의 ID, 참석자 리스트, 회의 제목 등을 포함할 수 있다.
화상 회의 서비스 제공 장치(100)는 사용자의 발언을 녹음하고, 사용자 별 화자 정보 및 녹음 파일을 저장한다.
화상 회의 서비스 제공 장치(100)는 회의가 종료되면, 회의 종료시간을 저장한다.
화상 회의 서비스 제공 장치(100)는 저장된 화자 정보 및 녹음 파일을 통해 회의 시간 순으로 파일을 정리한다.
화상 회의 서비스 제공 장치(100)는 STT(Speech To Text) 기반으로 회의 내용을 정리한다.
화상 회의 서비스 제공 장치(100)는 AI 기반 회의 내용을 요약한다.
화상 회의 서비스 제공 장치(100)는 회의록을 다양한 파일 형식으로 생성한다.
화상 회의 서비스 제공 장치(100)는 생성된 회의록을 복수의 사용자 단말(200')로 전송한다.
이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시 예 들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100: 화상 회의 서비스 제공 장치

Claims (10)

  1. 화상 회의 서비스 제공 장치에 있어서,
    사용자 단말과 통신을 수행하고
    사용자 영상, 사용자 음성, 이름, 캐릭터, 생년월일 및 ip 주소 중 적어도 하나를 포함하는 식별 정보인 화상 회의 데이터를 수신하는 통신부;
    상기 사용자 단말로부터 화상 회의 데이터를 수신하여 화상 회의 컨텐츠를 생성하고
    상기 생성된 화상 회의 컨텐츠에 참여 가능 여부를 판단하는 초대 확인 절차를 수행하는 회의컨텐츠부;
    상기 화상 회의 데이터에 포함된 사용자의 음성 세기 및 음성 지속시간을 기반으로 화자를 판단하되,
    상기 음성 세기는 기설정된 수치를 초과하고, 사용자 음성의 지속시간이 기설정된 시간 이상인 경우 사용자의 음성을 화자로 판단하는 화자감지부;
    상기 화자감지부로부터 화자 정보를 수신할 경우, 상기 화자 정보를 이용하여 화상 회의 컨텐츠를 제어하되,
    상기 화자 정보를 수신하지 않을 경우, 상기 사용자 단말의 화자 수동 표시 요청을 기반으로 화상 회의 컨텐츠를 제어하는 출력제어부;
    수신한 사용자 음성을 기반으로 통번역 요청 언어에 대응하여 번역 텍스트를 생성하는 통번역부;
    회의를 진행하며 생성된 회의 정보를 이용하여 회의록을 생성하고 사용자의 요청에 따라 편집 회의록을 생성하되,
    상기 사용자 단말로부터 회의 내용 검색 요청을 수신할 경우, 검색된 회의 내용과 대응하는 회의 정보를 추출하여 편집 회의록을 생성하고
    상기 사용자 단말로부터 화자 한정 회의 내용 검색 요청을 수신할 경우, 선택된 화자와 대응하는 회의 정보를 추출하여 편집 회의록을 생성하고
    상기 사용자 단말로부터 시간 한정 회의 내용 검색 요청을 수신할 경우, 검색된 시간과 대응하는 회의 정보를 추출하여 편집 회의록을 생성하고
    상기 사용자 단말로부터 회의 내용 통계 요청을 수신할 경우, 회의 정보를 이용하여 회의 참여도 정보를 생성하고 편집 회의록을 생성하고
    상기 통번역부로부터 통번역 정보를 수신할 경우, 번역 텍스트를 이용하여 편집 회의록을 생성하는 회의록 생성부;
    회의 시작 전 및 회의 중 참석 화면을 수신하여 동일 인물 인식 여부를 확인하고 상기 인식 여부에 기초하여 출석 및 결석 정보를 생성하여 출석부를 제공하는 회의참석판단부; 및
    상기 회의의 진행하며 생성된 문자 정보, 자막 정보 및 통번역 정보를 저장하고 맞춤법 및 변환되지 않은 문장을 수정하고 저장하는 저장부
    를 포함하는 화상 회의 서비스 제공 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 화상 회의 서비스 제공 장치가 화상 회의 서비스를 제공하는 방법에 있어서,
    사용자 단말과 통신을 수행하고
    사용자 영상, 사용자 음성, 이름, 캐릭터, 생년월일 및 ip 주소 중 적어도 하나를 포함하는 식별 정보인 화상 회의 데이터를 수신하는 단계;
    상기 사용자 단말로부터 화상 회의 데이터를 수신하여 화상 회의 컨텐츠를 생성하고
    상기 생성된 화상 회의 컨텐츠에 참여 가능 여부를 판단하는 초대 확인 절차를 수행하는 단계;
    상기 화상 회의 데이터에 포함된 사용자의 음성 세기 및 음성 지속시간을 기반으로 화자를 판단하되,
    상기 음성 세기는 기설정된 수치를 초과하고, 사용자 음성의 지속시간이 기설정된 시간 이상인 경우 사용자의 음성을 화자로 판단하는 단계;
    화자감지부로부터 화자 정보를 수신할 경우, 상기 화자 정보를 이용하여 화상 회의 컨텐츠를 제어하되,
    상기 화자 정보를 수신하지 않을 경우, 상기 사용자 단말의 화자 수동 표시 요청을 기반으로 화상 회의 컨텐츠를 제어하는 단계;
    수신한 사용자 음성을 기반으로 통번역 요청 언어에 대응하여 번역 텍스트를 생성하는 단계;
    회의를 진행하며 생성된 회의 정보를 이용하여 회의록을 생성하고 사용자의 요청에 따라 편집 회의록을 생성하되,
    상기 사용자 단말로부터 회의 내용 검색 요청을 수신할 경우, 검색된 회의 내용과 대응하는 회의 정보를 추출하여 편집 회의록을 생성하고
    상기 사용자 단말로부터 화자 한정 회의 내용 검색 요청을 수신할 경우, 선택된 화자와 대응하는 회의 정보를 추출하여 편집 회의록을 생성하고
    상기 사용자 단말로부터 시간 한정 회의 내용 검색 요청을 수신할 경우, 검색된 시간과 대응하는 회의 정보를 추출하여 편집 회의록을 생성하고
    상기 사용자 단말로부터 회의 내용 통계 요청을 수신할 경우, 회의 정보를 이용하여 회의 참여도 정보를 생성하고 편집 회의록을 생성하고
    상기 번역 텍스트를 생성하는 단계로부터 사용자가 상기 통번역을 요청한 언어의 번역 텍스트 및 통역 음성을 포함하는 통번역 정보를 수신할 경우, 번역 텍스트를 이용하여 편집 회의록을 생성하는 단계;
    회의 시작 전 및 회의 중 참석 화면을 수신하여 동일 인물 인식 여부를 확인하고 상기 인식 여부에 기초하여 출석 및 결석 정보를 생성하여 출석부를 제공하는 단계; 및
    상기 회의의 진행하며 생성된 문자 정보, 자막 정보 및 통번역 정보를 저장하고 맞춤법 및 변환되지 않은 문장을 수정하고 저장하는 단계
    를 포함하는 화상 회의 서비스 제공 방법.




  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020210046723A 2020-07-14 2021-04-09 화상 회의 서비스 제공 장치 및 방법 KR102575038B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200087031 2020-07-14
KR1020200087031 2020-07-14

Publications (2)

Publication Number Publication Date
KR20220009318A KR20220009318A (ko) 2022-01-24
KR102575038B1 true KR102575038B1 (ko) 2023-09-07

Family

ID=80050002

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210046723A KR102575038B1 (ko) 2020-07-14 2021-04-09 화상 회의 서비스 제공 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102575038B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240014179A (ko) * 2022-07-25 2024-02-01 삼성전자주식회사 화상 통화 서비스를 제공하는 전자 장치 및 이의 제어 방법
KR102620977B1 (ko) * 2023-10-04 2024-01-05 주식회사 건우씨엔에스 화상 시스템의 도입 효과를 분석하기 위한 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970753B1 (ko) 2019-02-19 2019-04-22 주식회사 소리자바 음성인식을 이용한 회의록 작성 시스템

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102548365B1 (ko) * 2016-05-10 2023-06-26 삼성에스디에스 주식회사 회의 기록 자동 생성 방법 및 그 장치
KR102621881B1 (ko) * 2018-09-05 2024-01-05 주식회사 케이티 상담사와 상담하는 화자를 인증하는 서버 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970753B1 (ko) 2019-02-19 2019-04-22 주식회사 소리자바 음성인식을 이용한 회의록 작성 시스템

Also Published As

Publication number Publication date
KR20220009318A (ko) 2022-01-24

Similar Documents

Publication Publication Date Title
CN207149252U (zh) 语音处理***
KR102575038B1 (ko) 화상 회의 서비스 제공 장치 및 방법
JP5564459B2 (ja) ビデオ会議に翻訳を追加するための方法及びシステム
CN101529500B (zh) 内容概括***、内容概括的方法
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
KR101378811B1 (ko) 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
CN101998107B (zh) 信息处理装置、会议***和信息处理方法
CN108259801A (zh) 音视频数据显示方法、装置、设备及存储介质
JP2005341015A (ja) 議事録作成支援機能を有するテレビ会議システム
JPWO2005027092A1 (ja) 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
US11848968B2 (en) System and method for augmented reality video conferencing
TWI590240B (zh) 會議記錄裝置及其自動生成會議記錄的方法
US10360455B2 (en) Grouping captured images based on features of the images
WO2015030962A1 (en) Providing an electronic summary of source content
US20190171760A1 (en) System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information
CN107430851A (zh) 发言提示装置、发言提示方法以及程序
CN111627446A (zh) 一种基于智能语音识别技术的通信会议***
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
CN107066438A (zh) 一种文本编辑方法及装置,电子设备
JP2019139572A (ja) 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム
KR20200050707A (ko) 그래픽 객체를 이용한 자막 생성 시스템
KR102346668B1 (ko) 회의 통역 장치
CN110992958B (zh) 内容记录方法、装置、电子设备及存储介质
KR20220009319A (ko) 화상 회의 서비스 제공 장치 및 방법
Campbell Tools and resources for visualising conversational-speech interaction

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right